CN106650940A

CN106650940A - 一种领域知识库构建方法及装置

Info

Publication number: CN106650940A
Application number: CN201611220184.8A
Authority: CN
Inventors: 王书剑; 张霞; 赵立军; 崔朝辉
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-05-10
Anticipated expiration: 2036-12-26
Also published as: CN106650940B

Abstract

本发明提供一种领域知识库构建方法及装置，在获取当前待构建领域中的核心概念以及核心概念所在目标文本后，可以从目标文本中获取至少一个非核心概念，并获取核心概念和非核心概念的相似度，当相似度满足预设条件时，判断非核心概念是否与已存在于待构建领域的领域知识库中的概念相同，如果否，则将非核心概念保留在待构建领域的领域知识库中，并将非核心概念作为新的核心概念，获取新的核心概念所在目标文本，返回执行从目标文本中获取至少一个非核心概念的步骤，在获取到待构建领域的知识库中的所有概念后，获取任意两个概念间的关系，从而获得待构建领域的领域知识库，实现待构建领域的领域知识库的自动构建。

Description

一种领域知识库构建方法及装置

技术领域

本发明属于信息处理技术领域，更具体的说，尤其涉及一种领域知识库构建方法及装置。

背景技术

领域知识库是领域内所包括的概念以及概念间的关系的集合，其中概念是其所属领域的知识，可以通过领域内的词条来指示，概念间的关系是概念间的相似程度，可以通过数值来表示，如对于金融领域的领域知识库来说，金融、经济学和流通等词条可以作为其所属领域的领域知识库中的概念，随着信息的发展，领域知识库可以使知识信息化和有序化，且利用知识的共享和交流。

目前领域知识库的构建通常是由领域内的专家或从事编辑工作的人员来完成，即通过专家或从事编辑工作的人员将人脑中的知识转化为计算机所能理解的表现形式，例如对于金融领域的领域知识库来说，其构建可以由经济学家来完成，这样经济学家根据自己的专业知识给出金融领域的概念以及概念间的关系，从而获得金融领域的领域知识库，但是这种通过人员来构建领域知识库需要耗费大量时间、精力和成本，后续再对领域知识库中的内容更新时，需要进行更新工作的人员对领域知识库中的内容有充分了解才能进行更新，因此现有这种通过人员来构建领域知识库的方式不利于领域知识库的维护。

发明内容

有鉴于此，本发明的目的在于提供一种领域知识库构建方法及装置，用于自动构建任意一个领域的知识库，从而解决由人员手动构建带来的问题，具体的技术方案如下：

本发明提供一种领域知识库构建方法，所述方法包括：

获取当前待构建领域中的核心概念以及所述核心概念所在目标文本；

从所述目标文本中获取至少一个非核心概念，所述非核心概念为从所述目标文本中提取出的位于全量概念集合中的概念，所述全量概念集合为所述待构建领域和领域中核心概念和非核心概念的集合；

获取所述核心概念和所述非核心概念的相似度；

当所述核心概念和所述非核心概念的相似度满足预设条件时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同，如果否，则将所述满足预设条件的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，获取所述新的核心概念所在目标文本，返回执行从所述目标文本中获取至少一个非核心概念的步骤，如果是，则舍弃所述满足预设条件的非核心概念；

在获取到所述待构建领域的领域知识库中的所有概念后，获取任意两个概念间的关系，从而获得所述待构建领域的领域知识库，所述所有概念包括所述待构建领域的所有核心概念和所有非核心概念。

优选的，所述获取所述核心概念和所述非核心概念的相似度，包括：

当所述核心概念为第1次获取的概念时，获取所述非核心概念所在目标文本，从所述非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第一概念，并根据所述至少一个第一概念和所述核心概念对应的至少一个非核心概念，得到所述核心概念和所述非核心概念的相似度；

当所述核心概念为将第i次获取的非核心概念作为的新的核心概念时，从所述新的核心概念对应的非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第二概念，并根据所述至少一个第二概念、所述新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度，第i次获取的相似度是第i次获取的非核心概念对应的核心概念和第i次获取的非核心概念之间的相似度，1≤i≤N，N＝M-1，M为获取到所述待构建领域的知识库中的所有概念时，获取非核心概念的总次数。

优选的，所述根据所述至少一个第一概念和所述核心概念对应的至少一个非核心概念，得到所述核心概念和所述非核心概念的相似度，包括：

获取所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中相同的第一概念的数量以及所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中的概念总数，其中所述概念总数为所述相同的第一概念的数量和所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中不同概念的数量之和；

根据所述相同的第一概念的数量和概念总数，得到所述核心概念和所述非核心概念的相似度；

所述根据所述至少一个第二概念、所述新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度，包括：

获取所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中相同的第二概念的数量以及所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数，其中所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数为所述相同的第二概念的数量和所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中不同概念的数量之和；

根据所述相同的第二概念的数量和所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数，得到所述新的核心概念和所述新的核心概念对应的非核心概念的第一相似度；

根据所述第一相似度和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度。

优选的，所述当所述核心概念和所述非核心概念的相似度满足预设条件时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同，如果否，则将所述满足预设条件的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，获取所述新的核心概念所在目标文本，返回执行从所述目标文本中获取至少一个非核心概念的步骤，如果是，则舍弃所述满足预设条件的非核心概念，包括：

获取所述非核心概念与全量概念集合中的每个概念的相似度；

根据所述非核心概念与全量概念集合中的每个概念的相似度，得到所述非核心概念对全量概念集合的平均相似度；

当所述核心概念和所述非核心概念的相似度大于所述非核心概念对全量概念集合的平均相似度时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同；

如果否，则将相似度大于所述非核心概念对全量概念集合的平均相似度的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，获取所述新的核心概念所在目标文本，返回执行从所述目标文本中获取至少一个非核心概念的步骤；

如果是，则舍弃相似度大于所述非核心概念对全量概念集合的平均相似度的非核心概念。

优选的，所述在获取到所述待构建领域的知识库中的所有概念后，获取任意两个概念间的关系，包括：

获取所述任意两个概念各自对应的非核心概念；

获取所述任意两个概念各自对应的非核心概念中相同概念的数量以及所述任意两个概念中不同概念的数量；

根据所述相同概念的数量和不同概念的数量，得到所述任意两个概念间的相似度，所述任意两个概念间的相似度用于指示所述任意两个概念间的相似程度。

本发明还提供一种领域知识库构建装置，所述装置包括：

第一获取单元，用于获取当前待构建领域中的核心概念以及所述核心概念所在目标文本；

第二获取单元，用于从所述目标文本中获取至少一个非核心概念，所述非核心概念为从所述目标文本中提取出的位于全量概念集合中的概念，所述全量概念集合为所述待构建领域和领域中核心概念和非核心概念的集合；

第一计算单元，用于获取所述核心概念和所述非核心概念的相似度；

处理单元，用于当所述核心概念和所述非核心概念的相似度满足预设条件时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同，如果否，则将所述满足预设条件的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，触发所述第一获取单元，如果是，则舍弃所述满足预设条件的非核心概念；

第二计算单元，用于在获取到所述待构建领域的领域知识库中的所有概念后，获取任意两个概念间的关系，从而获得所述待构建领域的领域知识库，所述所有概念包括所述待构建领域的所有核心概念和所有非核心概念。

优选的，所述第一计算单元，用于当所述核心概念为第1次获取的概念时，获取所述非核心概念所在目标文本，从所述非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第一概念，并根据所述至少一个第一概念和所述核心概念对应的至少一个非核心概念，得到所述核心概念和所述非核心概念的相似度，以及用于当所述核心概念为将第i次获取的非核心概念作为的新的核心概念时，从所述新的核心概念对应的非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第二概念，并根据所述至少一个第二概念、所述新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度，第i次获取的相似度是第i次获取的非核心概念对应的核心概念和第i次获取的非核心概念之间的相似度，1≤i≤N，N＝M-1，M为获取到所述待构建领域的知识库中的所有概念时，获取非核心概念的总次数。

优选的，所述第一计算单元，包括：

第一获取子单元，用于当所述核心概念为第1次获取的概念时，获取所述非核心概念所在目标文本，从所述非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第一概念，以及用于当所述核心概念为将第i次获取的非核心概念作为的新的核心概念时，从所述新的核心概念对应的非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第二概念；

第二获取子单元，用于获取所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中相同的第一概念的数量以及所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中的概念总数，其中所述概念总数为所述相同的第一概念的数量和所述至少一个第一概念和所述核心概念对应的至少一个非核心概念中不同概念的数量之和；

第一计算子单元，用于根据所述相同的第一概念的数量和概念总数，得到所述核心概念和所述非核心概念的相似度；

第三获取子单元，用于获取所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中相同的第二概念的数量以及所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数，其中所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数为所述相同的第二概念的数量和所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中不同概念的数量之和；

第二计算子单元，用于根据所述相同的第二概念的数量和所述至少一个第二概念和所述新的核心概念对应的至少一个非核心概念中的概念总数，得到所述新的核心概念和所述新的核心概念对应的非核心概念的第一相似度；

第三计算子单元，用于根据所述第一相似度和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度。

优选的，所述处理单元，包括：

第四计算子单元，用于获取所述非核心概念与全量概念集合中的每个概念的相似度；

第五计算子单元，用于根据所述非核心概念与全量概念集合中的每个概念的相似度，得到所述非核心概念对全量概念集合的平均相似度；

判断子单元，用于当所述核心概念和所述非核心概念的相似度大于所述非核心概念对全量概念集合的平均相似度时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同；

处理子单元，用于当非核心概念与已存在于待构建领域的领域知识库中的概念不相同时，将相似度大于所述非核心概念对全量概念集合的平均相似度的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，触发所述第一获取单元，以及用于当非核心概念与已存在于待构建领域的领域知识库中的概念相同时，则舍弃相似度大于所述非核心概念对全量概念集合的平均相似度的非核心概念。

优选的，所述第二计算单元，用于获取所述任意两个概念各自对应的非核心概念，获取所述任意两个概念各自对应的非核心概念中相同概念的数量以及所述任意两个概念中不同概念的数量，并根据所述相同概念的数量和不同概念的数量，得到所述任意两个概念间的相似度，所述任意两个概念间的相似度用于指示所述任意两个概念间的相似程度。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

藉由上述技术方案，在获取当前待构建领域中的核心概念以及核心概念所在目标文本后，可以从目标文本中获取至少一个非核心概念，并获取核心概念和非核心概念的相似度，当核心概念和非核心概念的相似度满足预设条件时，判断非核心概念是否与已存在于待构建领域的领域知识库中的概念相同，如果否则将满足预设条件的非核心概念保留在待构建领域的领域知识库中，并将非核心概念作为新的核心概念，获取新的核心概念所在目标文本，返回执行从目标文本中获取至少一个非核心概念的步骤，在获取到待构建领域的知识库中的所有概念后，获取任意两个概念间的关系，从而获得待构建领域的领域知识库，实现待构建领域的领域知识库的自动构建，这样待构建领域的专家或者从事编辑工作的人员就无需手动构建知识库。在构建任意一个领域的领域知识库后，还可以通过构建领域知识库中的各个步骤来自动更新知识库，使得人员无需了解知领域知识库的相关内容，降低领域知识库的维护难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得的附图。

图1是本发明实施例提供的领域知识库构建方法的流程图；

图2是本发明实施例提供的相似度获取的一种流程图；

图3是本发明实施例提供的相似度获取的另一种流程图；

图4是本发明实施例提供的领域知识库构建装置的结构示意图；

图5是本发明实施例提供的领域知识库构建装置中第一计算单元的结构示意图；

图6是本发明实施例提供的领域知识库构建装置中处理单元的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的领域知识库构建方法的流程图，用于自动构建任意一个领域知识库，以解决因为人员手动构建领域知识库带来的问题。具体的，图1所示领域知识库构建方法可以包括以下步骤：

101：获取当前待构建领域中的核心概念以及核心概念所在目标文本。其中待构建领域是从全量知识库中提取出的某个特定领域，核心概念则是待构建领域中具有代表性的概念，如从全量知识库中提取出的金融领域来作为待构建领域时，可以将“金融”这个用户公知的词条作为金融领域的核心概念。而核心概念所在目标文本可以是某个网站中对核心概念进行解释的文本，如核心概念为“金融”时，其所在目标文本可以是百度百科或维基百科对金融进行解释的文本。

在本发明实施例中，核心概念的确定方式是：获取每个概念在金融领域中各个文本中出现的次数，选取出现次数在预设次数范围内的概念为核心概念，其中每个概念可以通过数据抓取方式从金融领域中的各个文本中获取，当然也可以由领域内的专家或从事编辑工作的人员手动指定，并在获取金融领域中的每个概念后，对每个概念在金融领域中各个文本中出现的次数可以在构建全量知识库中标记，且预设次数范围可以根据实际应用而定，又或者核心概念的确定方式是：由专家来标记其所研究领域中的核心概念。

上述全量知识库是待构建领域和其他领域中知识的集合，包括待构建领域和其他领域中所有概念和概念间的关系，本发明实施例领域知识库构建方法则是基于全量知识库中得到属于待构建领域的领域知识库的概念和概念间的关系。其中全量知识库的获取方式包括但不限于下述方式：

一种获取方式是通过数据抓取方式来得到全量知识库，具体的通过网络爬虫，从互联网上抓取网页信息，然后将抓取的网页信息与门户网站提供的信息进行比对，得到文本信息保存在全量知识库中，这样文本信息中的各个词条可以视为概念，而在同一个文本信息中的词条可以视为具有关系的概念，其中门户网站是通向某类综合性互联网信息资源并提供有关信息服务的应用系统；又或者从现有的全量知识库网站中抓取，如百度百科或维基百科等网站中抓取。

另一种获取方式通过人工组织方式得到全量知识库，具体的由专家或从事编辑工作的人员根据现有的知识库以及自身掌握的指示进行编辑，通过多人共同工作实现一个全量知识库。这种工作往往不是个人和单个组织能完成的，所以这种人工组织方式都在网上来进行协作，例如百度百科这种全量知识库网站就是人工在网上协作完成的。

102：从目标文本中获取至少一个非核心概念，其中非核心概念为从目标文本中提取出的位于全量概念集合中的概念，全量概念集合为待构建领域和领域中核心概念和非核心概念的集合，因此上述全量知识库可以是全量概念集合与概念间的关系的集合。

在获取目标文本后，从目标文本中获取具有超链接功能的词条，然后将词条所指示概念与全量概念集合中的概念进行比对，若词条所指示概念与全量概念集合中的某个概念相同，则将词条所指示概念作为非核心概念，其中具有超链接功能的词条是在触发词条后可以访问到对词条进行解释的文本。

此外，除上述获取非核心概念的方式之外，还可以通过中文分词技术对目标文本进行分词处理，将得到的每个词条所指示的概念与全量概念集合中的概念进行比对，若词条所指示概念与全量概念集合中的某个概念相同，则将词条所指示概念作为非核心概念。

例如，核心概念为“金融”时，从其所在目标文本中获取的词条有：“流通”，“演化金融学”，“演化证券学”，“票号”，“汇票”，“银子”，“中介机构”，“经济学家”，“货币”,“商品”，若这些词条指示的概念均与全量概念集合中的某个概念相同，则将上述词条指示的概念分别作为非核心概念，若某个词条指示的概念与全量概念集合中的每个概念均不同，如“中介机构”，则不能将其作为非核心概念。

103：获取核心概念和非核心概念的相似度。其中相似度用于指示非核心概念与核心概念的相似程度，以确定非核心概念是否可以作为待构建领域的领域知识库中的概念，核心概念和非核心概念的相似度可通过余弦相似度、皮尔森相似系数和Jaccard相似度来得到，介于Jaccard相似度的计算复杂度和计算效率优于余弦相似度和皮尔森相似系数，本发明实施例以Jaccard相似度对获取核心概念和非核心概念的相似度进行说明。

其中Jaccard相似度用于计算符号度量或布尔值度量的个体间的相似度，其对应的计算公式如下：

其中表示a和o在X中的概念集合，a为核心概念，o为非核心概念，X为全量概念集合，即在本发明实施例中核心概念和非核心概念的相似度的计算可以是：分别获取核心概念和非核心概念的概念集合，这两个概念集合的交集中概念的数量除以并集中概念的数量即为核心概念和非核心概念的相似度。

例如，o指“金融”这个核心概念，O指“金融”在全量概念集合X中链接到的非核心概念的集合，例如上面提到的“流通”，“演化金融学”，“演化证券学”，“票号”，“汇票”，“银子”，“中介机构”，“经济学家”，“货币”,“商品”。

而a指“经济学家”这个非核心概念，A指“经济学家”在全量概念集合X中链接到的其他概念的集合，例如“货币”，“生产资料”，“分销”，“经济学”，“商品”。那么，由于“货币”，“商品”是两者的交集，则上述计算公式Sim_a,o分子为2。并集为“流通”，“演化金融学”，“演化证券学”，“票号”，“汇票”，“银子”，“中介机构”，“经济学家”，“货币”,“商品”，“生产资料”，“分销”，“经济学”，则上述计算公式Sim_a,o分母为13，则两者相似度为2/13≈0.154。

从上述计算公式Sim_a,o可知，核心概念和非核心概念的相似度的获取过程如图2所示，可以包括以下步骤：

201：获取非核心概念所在目标文本，从非核心概念所在目标文本中获取位于全量概念集合中的至少一个第一概念。

在本发明实施例中，至少一个第一概念的获取方式与核心概念对应的非核心概念的获取方式相同，对此不再详述，以“经济学家”这个非核心概念为例，获取的至少一个第一概念分别有：“货币”，“生产资料”，“分销”，“经济学”，“商品”。

202：获取至少一个第一概念和核心概念对应的至少一个非核心概念中相同的第一概念的数量以及至少一个第一概念和核心概念对应的至少一个非核心概念中的概念总数，其中概念总数为相同的第一概念的数量和至少一个第一概念和核心概念对应的至少一个非核心概念中不同概念的数量之和。

以上述“金融”为核心概念，第一概念为通过金融这个核心概念中的经济学家这个非核心概念得到的概念，相应的，金融这个核心概念对应的至少一个非核心概念有：“流通”，“演化金融学”，“演化证券学”，“票号”，“汇票”，“银子”，“中介机构”，“经济学家”，“货币”,“商品”，经济学家这个非核心概念得到的至少一个第一概念有：“货币”，“生产资料”，“分销”，“经济学”，“商品”，则这两个概念集合中相同的第一概念为“货币、商品”，则相同的第一概念的数量为2，不同概念的数量为11，则概念总数为13。

203：根据相同的第一概念的数量和概念总数，得到核心概念和非核心概念的相似度，以通过步骤202和步骤203实现根据第一概念和核心概念对应的至少一个非核心概念，得到核心概念和非核心概念的相似度。

在这里需要说明的是：在需要得到核心概念和某个非核心概念的相似度时，其根据的相同的第一概念的数量和概念总数是这个非核心概念对应的信息，而非其他非核心概念对应的信息，例如在需要得到核心概念“金融”与非核心概念“经济学家”的相似度时，相同的第一概念的数量和概念总数是非核心概念“经济学家”对应的信息。

104：判断核心概念和非核心概念的相似度是否满足预设条件，如果是，执行步骤105，如果否，执行步骤108。当核心概念和非核心概念的相似度满足预设条件时，指示非核心概念是待构建领域的领域知识库中的概念；当核心概念和非核心概念的相似度不满足预设条件时，指示非核心概念不是待构建领域的领域知识库中的概念。

在本发明实施例中，预设条件的一种可行方式是：非核心概念对全量概念集合的平均相似度，其获取过程是：获取非核心概念与全量概念集合中的每个概念的相似度，并根据非核心概念与全量概念集合中的每个概念的相似度，得到非核心概念对全量概念集合的平均相似度，具体的计算公式如下：

设全量概念集合为X＝{x₁,x₂,...x_n}，x_i表示全量概念集合X中的第i个概念，则非核心概念a对于全量概念集合的平均相似度的公式如下：

Sim(a,x_i)为非核心概念a与x_i的相似度，其计算公式可以参阅Sim_a,o的计算公式，当核心概念和非核心概念的相似度大于非核心概念对全量概念集合的平均相似度时，判断核心概念和非核心概念的相似度满足预设条件，当核心概念和非核心概念的相似度小于或等于非核心概念对全量概念集合的平均相似度时，判断核心概念和非核心概念的相似度不满足预设条件。

105：当核心概念和非核心概念的相似度满足预设条件时，判断非核心概念是否与已存在于待构建领域的领域知识库中的概念相同，如果否，执行步骤106，如果是，执行步骤107。

106：将满足预设条件的非核心概念保留在待构建领域的领域知识库中，并将非核心概念作为新的核心概念，获取新的核心概念所在目标文本，并继续执行步骤102。

107：舍弃满足预设条件的非核心概念，并执行步骤109。

当核心概念和非核心概念的相似度满足预设条件时，指示非核心概念是待构建领域的领域知识库中的概念，但是还需要进一步判断待构建领域的领域知识库中是否已经有与其相同的概念，如果是，则说明这个非核心概念已经被写入到领域知识库中，此时可以执行步骤107将其舍弃，以避免领域知识库中概念的重复，如果否，则说明这个非核心概念未被写入到领域知识库中，则执行步骤106将其保留在领域知识库中，并将其作为新的核心概念，获取新的核心概念所在目标文本中，继续从新的核心概念所在目标文本中获取至少一个非核心概念，即继续获取待构建领域的领域知识库中的其他概念，来完善领域知识库。

在预设条件为非核心概念对全量概念集合的平均相似度时，步骤107舍弃的是相似度大于非核心概念对全量概念集合的平均相似度的非核心概念，相应的步骤106保留的是相似度大于非核心概念对全量概念集合的平均相似度的非核心概念，并可以将相似度大于非核心概念对全量概念集合的平均相似度的非核心概念作为新的核心概念。

108：舍弃不满足预设条件的非核心概念，并执行步骤109。当核心概念和非核心概念的相似度不满足预设条件时，指示非核心概念不是待构建领域的领域知识库中的概念，此时可以直接舍弃不满足预设条件的非核心概念，如直接舍弃相似度小于或等于非核心概念对全量概念集合的平均相似度的非核心概念

109：在获取到待构建领域的领域知识库中的所有概念后，获取任意两个概念间的关系，从而获得待构建领域的领域知识库，其中所有概念包括待构建领域的所有核心概念和所有非核心概念。

在本发明实施例中，若通过步骤107和步骤108舍弃了步骤102获取的所有非核心概念，表示剩余的所有非核心概念已经被写入到领域知识库中，进而说明获取到领域知识库中的所有概念，此时可以进一步获取任意两个概念间的关系，完成领域知识库的构建。

若步骤106仍有非核心概念作为新的核心概念，说明仍有非核心概念未被写入到领域知识库中，则继续将非核心概念作为新的核心概念，执行步骤102，以完善领域知识库。

在本发明实施例中，任意两个概念间的关系可以是从属关系或者同层次关系，如核心概念和核心概念下的非核心概念间的关系可以是从属关系，而同一个核心概念的多个非核心概念间的关系可以是同层次关系。

当然任意两个概念间的关系可以以任意两个概念间的相似度来指示，其中任意两个概念间的相似度可通过余弦相似度、皮尔森相似系数和Jaccard相似度来得到，介于Jaccard相似度的计算复杂度和计算效率优于余弦相似度和皮尔森相似系数，本发明实施例以Jaccard相似度对获取任意两个概念间的相似度进行说明。

设待构建领域的领域知识库的概念集合为S，任意两个概念中的一个概念为a，另一个概念为b，概念a和概念b间的相似度计算公式如下：

其中，表示a和b在S中的概念集合。

例如，待构建领域的领域知识库中的概念有“金融”，“经济学家”，“经济学”，“货币”，“商品”，“股票”，“市场”。其中a为“经济学家”，A指以“经济学家”为核心概念，在领域知识库的概念S中核心概念“经济学家”对应的非核心概念的集合。本来，“经济学家”在作为核心概念时获取的非核心概念有：“货币”，“生产资料”，“分销”，“经济学”，“商品”，但是在经过处理后保留在领域知识库中的有：“货币”，“经济学”，“商品”，则A这个概念集合中包括“货币、经济学、商品”这三个概念。

b为“市场”，B指以“市场”为核心概念，在领域知识库的概念S中核心概念“市场”对应的非核心概念的集合。本来，“市场”在作为核心概念时获取的非核心概念有：“股票”，“交易”，“价值”，“商品”，但是在经过处理后保留在领域知识库中的有：“股票”，“商品”，则B这个概念集合中包括“股票、商品”这三个概念。

那么，由于“商品”是集合A和集合B的交集，则计算公式Sim_a,b中分子为1。集合A和集合B的并集为“货币”，“经济学”，“商品”，“股票”，则计算公式Sim_a,b中分母为4，则概念a和概念b间的相似度为1/4≈0.25，由此，得到经济学家和市场的相似度关系为0.25。

通过上述计算公式可得出，在以任意两个概念间的相似度来指示任意两个概念间的关系时，任意两个概念间的关系的获取方式可以是：获取任意两个概念各自对应的非核心概念，获取任意两个概念各自对应的非核心概念中相同概念的数量以及任意两个概念中不同概念的数量，并根据相同概念的数量和不同概念的数量，得到任意两个概念间的相似度，任意两个概念间的相似度用于指示任意两个概念间的相似程度。

在这里需要说明的一点是：在获取核心概念和非核心概念的相似度时，若核心概念为第1次获取的概念，即不是由得到的非核心概念作为的新的核心概念时，可以通过上述计算公式Sim_a,o来得到，但是当核心概念为将第i次获取的非核心概念作为的新的核心概念时，则需要考虑相似度传递，比如计算上述“经济学家”与“经济学”的相似度时，在相似度公式中需要考虑“经济学家”与“金融”的相似度，其中1≤i≤N，N＝M-1，M为获取到所述待构建领域的知识库中的所有概念时，获取非核心概念的总次数。

之所以考虑相似度传递是因为随着传递层次的增加，获取的非核心概念可能会与第1次获取的核心概念无关，对于这类非核心概念是不能写入到领域知识库中的，但是在不考虑相似度传递的情况下，这个非核心概念满足本发明实施例设定的预设条件，从而会将其保留在领域知识库中，导致领域知识库中存在不属于该领域的概念，为此本发明实施例考虑相似度传递，使得非核心概念与之前得到的核心概念通过其自身对应的核心概念关联，降低领域知识库中存在错误概念的概率，相应的，对于第i次获取的非核心概念作为的新的核心概念，新的核心概念和非核心概念的相似度的计算过程如图3所示，可以包括以下步骤：

301：从新的核心概念对应的非核心概念所在目标文本中获取位于全量概念集合中的至少一个第二概念。在本发明实施例中，至少一个第二概念的获取方式与核心概念对应的非核心概念的获取方式相同，对此不再详述，仍以上述金融和经济学家为例，金融为第1次获取的核心概念，经济学家为第1次得到的非核心概念，可以将其作为新的核心概念，在经济学家作为新的核心概念时，得到的非核心概念有：“货币”，“生产资料”，“分销”，“经济学”，“商品”，然后获取每个非核心概念所在目标文本中位于全量概念集合中的至少一个第二概念，即获取每个非核心概念的第二概念的集合。

302：获取至少一个第二概念和新的核心概念对应的至少一个非核心概念中相同的第二概念的数量以及至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数，其中至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数为相同的第二概念的数量和至少一个第二概念和新的核心概念对应的至少一个非核心概念中不同概念的数量之和。

可以理解的是：获取至少一个第二概念和新的核心概念对应的至少一个非核心概念中相同的第二概念的数量以及至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数是：以每个第二概念的集合为单位，获取每个第二概念的集合和新的核心概念对应的至少一个非核心概念中相同的第二概念的数量和不同的第二概念的数量，这样通过每个第二概念的集合的相同的第二概念的数量和不同的第二概念的数量，得到对应的第二概念的集合的概念总数。

303：根据相同的第二概念的数量和至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数，得到新的核心概念和新的核心概念对应的非核心概念的第一相似度，其相应的计算公式为：

其中，b_n为第n次获取的新的核心概念，其对应的非核心概念为a，表示a和b_n在S中的概念集合，A∩C表示相同的第二概念的数量，A∪C表示至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数。

304：根据第一相似度和第i次获取的相似度，得到新的核心概念和新的核心概念对应的非核心概念的相似度，以通过步骤302至步骤304实现根据至少一个第二概念、新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到新的核心概念和新的核心概念对应的非核心概念的相似度，其中第i次获取的相似度是第i次获取的非核心概念对应的核心概念和第i次获取的非核心概念之间的相似度。

下面以全量概念集合为X，第1次获取的核心概念为o，非核心概念为a，作为新的核心概念的集合为B，且B＝{b₁,b₂,...b_n}，其中b_i为第i次获取的新的核心概念，则b₁为第1次获取的新的核心概念，即核心概念o得到的非核心概念所作为的新的核心概念，则o和a的相似度公式如下：

其中为第i次获取的相似度。

在这里需要说明的一点是：在确定待构建领域中的核心概念时，可能会确定多个核心概念，为此可以从多个核心概念中选取一个核心概念，并获取所选取的核心概念所在目标文本，当然也可以并行或依次对多个核心概念进行处理，在并行或依次对多个核心概念进行处理时，在获取到任意一个核心概念的非核心概念后，需要与其他核心概念对应的非核心概念进行比对，以仅对任意两个或多个核心概念中的非核心概念中的一个非核心概念进行处理。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

请参阅图4，其示出了本发明实施例提供的领域知识库构建装置的结构，可以包括：第一获取单元11、第二获取单元12、第一计算单元13、处理单元14和第二计算单元15。

第一获取单元11，用于获取当前待构建领域中的核心概念以及核心概念所在目标文本。

其中待构建领域是从全量知识库中提取出的某个特定领域，核心概念则是待构建领域中具有代表性的概念，如从全量知识库中提取出的金融领域来作为待构建领域时，可以将“金融”这个用户公知的词条作为金融领域的核心概念。而核心概念所在目标文本可以是某个网站中对核心概念进行解释的文本，如核心概念为“金融”时，其所在目标文本可以是百度百科或维基百科对金融进行解释的文本。

对于如何确定核心概念和全量知识库的获取方式可以参阅方法实施例中的相关说明，对此本发明实施例不再阐述。

第二获取单元12，用于从目标文本中获取至少一个非核心概念，非核心概念为从目标文本中提取出的位于全量概念集合中的概念，全量概念集合为待构建领域和领域中核心概念和非核心概念的集合，因此上述全量知识库可以是全量概念集合与概念间的关系的集合，对于第二获取单元12来说，其获取至少一个非核心概念的方式请参阅方法实施例中的相关说明，对此本发明实施例不再阐述。

第一计算单元13，用于获取核心概念和非核心概念的相似度。其中相似度用于指示非核心概念与核心概念的相似程度，以确定非核心概念是否可以作为待构建领域的领域知识库中的概念，核心概念和非核心概念的相似度可通过余弦相似度、皮尔森相似系数和Jaccard相似度来得到，介于Jaccard相似度的计算复杂度和计算效率优于余弦相似度和皮尔森相似系数，本发明实施例以Jaccard相似度对获取核心概念和非核心概念的相似度进行说明。

相应的，当核心概念为第1次获取的概念时，第一计算单元13用于获取非核心概念所在目标文本，从非核心概念所在目标文本中获取位于全量概念集合中的至少一个第一概念，并根据至少一个第一概念和核心概念对应的至少一个非核心概念，得到核心概念和非核心概念的相似度。

当核心概念为将第i次获取的非核心概念作为的新的核心概念时，第一计算单元13用于从新的核心概念对应的非核心概念所在目标文本中获取位于全量概念集合中的至少一个第二概念，并根据至少一个第二概念、新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到新的核心概念和新的核心概念对应的非核心概念的相似度，以将第i次获取的相似度传递到第i次获取的非核心概念作为的新的核心概念对应的相似度，使得非核心概念与之前得到的核心概念通过其自身对应的核心概念关联，降低领域知识库中存在错误概念的概率。

其中第i次获取的相似度是第i次获取的非核心概念对应的核心概念和第i次获取的非核心概念之间的相似度，1≤i≤N，N＝M-1，M为获取到待构建领域的知识库中的所有概念时，获取非核心概念的总次数。

相对应的，第一计算单元13的结构如图5所示，可以包括：第一获取子单元131、第二获取子单元132、第一计算子单元133、第三获取子单元134、第二计算子单元135和第三计算子单元136。

第一获取子单元131，用于当核心概念为第1次获取的概念时，获取非核心概念所在目标文本，从非核心概念所在目标文本中获取位于全量概念集合中的至少一个第一概念，以及用于当核心概念为将第i次获取的非核心概念作为的新的核心概念时，从新的核心概念对应的非核心概念所在目标文本中获取位于全量概念集合中的至少一个第二概念。

第二获取子单元132，用于获取至少一个第一概念和核心概念对应的至少一个非核心概念中相同的第一概念的数量以及至少一个第一概念和核心概念对应的至少一个非核心概念中的概念总数，其中概念总数为相同的第一概念的数量和至少一个第一概念和核心概念对应的至少一个非核心概念中不同概念的数量之和。

第一计算子单元133，用于根据相同的第一概念的数量和概念总数，得到核心概念和非核心概念的相似度。

第三获取子单元134，用于获取至少一个第二概念和新的核心概念对应的至少一个非核心概念中相同的第二概念的数量以及至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数，其中至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数为相同的第二概念的数量和至少一个第二概念和新的核心概念对应的至少一个非核心概念中不同概念的数量之和。

第二计算子单元135，用于根据相同的第二概念的数量和至少一个第二概念和新的核心概念对应的至少一个非核心概念中的概念总数，得到新的核心概念和新的核心概念对应的非核心概念的第一相似度。

第三计算子单元136，用于根据第一相似度和第i次获取的相似度，得到新的核心概念和新的核心概念对应的非核心概念的相似度。

在本发明实施例中，第一获取子单元131、第二获取子单元132、第一计算子单元133、第三获取子单元134、第二计算子单元135和第三计算子单元136的具体执行过程以及示例说明，请参阅方法实施例部分的相关说明，对此本发明实施例不再阐述。

处理单元14，用于当核心概念和非核心概念的相似度满足预设条件时，判断非核心概念是否与已存在于待构建领域的领域知识库中的概念相同，如果否，则将满足预设条件的非核心概念保留在待构建领域的领域知识库中，并将非核心概念作为新的核心概念，触发第一获取单元11，如果是，则舍弃满足预设条件的非核心概念。

在本发明实施例中，预设条件的一种可行方式是：非核心概念对全量概念集合的平均相似度，相应的处理单元14的结构如图6所示，可以包括：第四计算子单元141、第五计算子单元142、判断子单元143和处理子单元144。

第四计算子单元141，用于获取非核心概念与全量概念集合中的每个概念的相似度。

第五计算子单元142，用于根据非核心概念与全量概念集合中的每个概念的相似度，得到非核心概念对全量概念集合的平均相似度。

判断子单元143，用于当核心概念和非核心概念的相似度大于非核心概念对全量概念集合的平均相似度时，判断非核心概念是否与已存在于待构建领域的领域知识库中的概念相同。

处理子单元144，用于当非核心概念与已存在于待构建领域的领域知识库中的概念不相同时，将相似度大于非核心概念对全量概念集合的平均相似度的非核心概念保留在待构建领域的领域知识库中，并将非核心概念作为新的核心概念，触发第一获取单元11，以及用于当非核心概念与已存在于待构建领域的领域知识库中的概念相同时，则舍弃相似度大于非核心概念对全量概念集合的平均相似度的非核心概念。

在本发明实施例中，第四计算子单元141、第五计算子单元142、判断子单元143和处理子单元144的具体执行过程请参阅方法实施例部分的相关说明，对此本发明实施例不再阐述。

第二计算单元15，用于在获取到待构建领域的领域知识库中的所有概念后，获取任意两个概念间的关系，从而获得待构建领域的领域知识库，所有概念包括待构建领域的所有核心概念和所有非核心概念。

可选的，第二计算单元15，用于获取任意两个概念各自对应的非核心概念，获取任意两个概念各自对应的非核心概念中相同概念的数量以及任意两个概念中不同概念的数量，并根据相同概念的数量和不同概念的数量，得到任意两个概念间的相似度，任意两个概念间的相似度用于指示任意两个概念间的相似程度，具体执行过程和示例说明，请参阅方法实施例部分的相关说明，对此本发明实施例不再阐述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种领域知识库构建方法，其特征在于，所述方法包括：

获取所述核心概念和所述非核心概念的相似度；

2.根据权利要求1所述的方法，其特征在于，所述获取所述核心概念和所述非核心概念的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一个第一概念和所述核心概念对应的至少一个非核心概念，得到所述核心概念和所述非核心概念的相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述当所述核心概念和所述非核心概念的相似度满足预设条件时，判断所述非核心概念是否与已存在于所述待构建领域的领域知识库中的概念相同，如果否，则将所述满足预设条件的非核心概念保留在所述待构建领域的领域知识库中，并将所述非核心概念作为新的核心概念，获取所述新的核心概念所在目标文本，返回执行从所述目标文本中获取至少一个非核心概念的步骤，如果是，则舍弃所述满足预设条件的非核心概念，包括：

5.根据权利要求1所述的方法，其特征在于，所述在获取到所述待构建领域的知识库中的所有概念后，获取任意两个概念间的关系，包括：

获取所述任意两个概念各自对应的非核心概念；

6.一种领域知识库构建装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述第一计算单元，用于当所述核心概念为第1次获取的概念时，获取所述非核心概念所在目标文本，从所述非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第一概念，并根据所述至少一个第一概念和所述核心概念对应的至少一个非核心概念，得到所述核心概念和所述非核心概念的相似度，以及用于当所述核心概念为将第i次获取的非核心概念作为的新的核心概念时，从所述新的核心概念对应的非核心概念所在目标文本中获取位于所述全量概念集合中的至少一个第二概念，并根据所述至少一个第二概念、所述新的核心概念对应的至少一个非核心概念和第i次获取的相似度，得到所述新的核心概念和所述新的核心概念对应的非核心概念的相似度，第i次获取的相似度是第i次获取的非核心概念对应的核心概念和第i次获取的非核心概念之间的相似度，1≤i≤N，N＝M-1，M为获取到所述待构建领域的知识库中的所有概念时，获取非核心概念的总次数。

8.根据权利要求7所述的装置，其特征在于，所述第一计算单元，包括：

9.根据权利要求6所述的装置，其特征在于，所述处理单元，包括：

10.根据权利要求6所述的装置，其特征在于，所述第二计算单元，用于获取所述任意两个概念各自对应的非核心概念，获取所述任意两个概念各自对应的非核心概念中相同概念的数量以及所述任意两个概念中不同概念的数量，并根据所述相同概念的数量和不同概念的数量，得到所述任意两个概念间的相似度，所述任意两个概念间的相似度用于指示所述任意两个概念间的相似程度。