CN108154198A

CN108154198A - 知识库实体归一方法、系统、终端和计算机可读存储介质

Info

Publication number: CN108154198A
Application number: CN201810073982.5A
Authority: CN
Inventors: 冯知凡; 陆超; 徐也; 方舟; 朱勇; 李莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-06-12
Anticipated expiration: 2038-01-25
Also published as: US20190228320A1; CN108154198B; EP3528180A1

Abstract

本发明提出一种知识库实体归一方法、系统、终端和计算机可读存储介质，方法包括获取知识库中的实体集合；采用多种分区方式对实体集合进行预分区；根据预分区的结果进行样本构建；根据预分区的结果进行特征构建；通过至少一个归一模型对各个实体对进行归一判定；对归一判定的结果进行集合划分。系统包括获取模块用于获取知识库中的实体集合；多维分区模块用于对实体集合进行预分区；样本构建模块用于根据预分区的结果进行样本构建；特征构建模块用于根据预分区的结果进行特征构建；归一判定模块，用于对预分区的结果中的各实体对进行归一判定；集合划分模块用于对归一判定的结果进行集合划分。本发明能够解决大规模知识库的实体归一问题。

Description

知识库实体归一方法、系统、终端和计算机可读存储介质

技术领域

本发明涉及数据库构建技术领域，特别涉及一种基于知识库的大规模开放域实体归一方法、系统、终端和计算机可读存储介质。

背景技术

知识库构建是一项非常复杂困难的技术问题，因此现有方法一般只针对小规模的单垂类知识库(百万-千万级实体)进行处理。而在面向大规模的知识库(亿级实体)时，无法高效解决大规模实体归一计算问题。另一方面，由于实体数据形态差异大，单一的分类方案无法解决所有的归一问题，无法统一高效的支持各种属性、类目以及问题场景，因此现有方式是对知识库实体进行特化处理，将其中的属性信息薄的实体直接过滤掉不做处理，并且在实体信息质量上也作了相关处理。

在背景技术中公开的上述信息仅用于加强对本发明的背景的理解，因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。

发明内容

本发明实施例提供一种知识库实体归一方法、系统、终端和计算机可读存储介质，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种知识库实体归一方法，包括：

获取知识库中的实体集合；

采用多种分区方式相结合对所述实体集合进行预分区；

根据所述预分区的结果进行样本构建，提取关键样本；

根据所述预分区的结果进行特征构建，提取相似特征；

通过至少一个归一模型结合所述关键样本和所述相似特征，对各个所述实体对进行归一判定，判定各所述实体对是否为相同实体；以及

对所述归一判定的结果进行集合划分。

结合第一方面，本发明在第一方面的第一种实施方式中，所述分区方式至少为两种，对所述实体集合进行所述预分区的步骤为：

通过第一种所述分区方式对所述实体集合进行分区；以及

通过第二种所述分区方式对所述第一种所述分区方式的分区结果进行再分区。

结合第一方面，本发明在第一方面的第二种实施方式中，所述样本构建包括：基于属性的第一关键样本构建和基于主动学习算法的第二关键样本构建。

结合第一方面的第二种实施方式，本发明在第一方面的第三种实施方式中，所述第一关键样本构建的步骤包括：

对所述预分区的结果中的各所述实体对的关键属性进行提取，根据提取出的所述关键属性对各所述实体重新进行分区、聚合，生成多个新实体对；以及

随机抽取部分所述新实体对进行标注，并作为所述第一关键样本输出。

结合第一方面的第二种实施方式，本发明在第一方面的第四种实施方式中，所述第二关键样本构建的步骤包括：

1)对所述预分区的结果中的部分所述实体对进行标注作为标注样本集，将其余所述实体对作为未标注样本集；

2)根据所述标注样本集构建分类模型；

3)将所述未标注样本集输入到所述分类模型中进行打分，根据打分结果提取处于边界打分的各所述实体对；

4)根据主动学习算法选择处于边界打分的部分所述实体对作为关键样本进行标注，并加入到所述标注样本集中，根据新的所述标注样本集重新训练所述分类模型；

重复步骤3)和步骤4)，直至所述分类模型收敛，并将最终的所述标注样本集作为所述第二关键样本输出。

结合第一方面，本发明在第一方面的第五种实施方式中，所述特征构建的步骤包括：

采用多种特征构建策略相结合对所述预分区的结果中的各所述实体对进行计算，并将最终计算出的结果作为相似特征输出。

结合第一方面，本发明在第一方面的第六种实施方式中，当所述归一模型为多个时，各所述归一模型分别对所述预分区的结果中的各所述实体对进行归一判定，并分别输出所述归一判定的结果，将各所述归一判定的结果进行融合决策，生成最终的所述归一判定的结果。

第二方面，本发明实施例提供了一种知识库实体归一系统，包括：

获取模块，用于获取知识库中的实体集合；

多维分区模块，用于采用多种分区方式相结合对所述实体集合进行预分区；

样本构建模块，用于根据所述预分区的结果进行样本构建，提取关键样本；

特征构建模块，用于根据所述预分区的结果进行特征构建，提取相似特征；

归一判定模块，用于通过至少一个归一模型结合所述关键样本和所述相似特征，对所述预分区的结果中的各实体对进行归一判定，判定各所述实体对是否为相同实体；

集合划分模块，用于对所述归一判定的结果进行集合划分。

在一个可能的设计中，所述样本构建模块包括：第一关键样本构建模块和第二关键样本构建模块。

在一个可能的设计中，所述第一关键样本构建模块包括：

关键属性子模块，用于对所述预分区的结果中的各所述实体对的关键属性进行提取，根据提取出的所述关键属性对各所述实体重新进行分区、聚合，生成多个新实体对；

第一输出子模块，用于随机抽取部分所述新实体对进行标注，并作为所述第一关键样本输出。

在一个可能的设计中，所述第二关键样本构建模块包括：

样本子模块，用于对所述预分区的结果中的部分所述实体对进行标注作为标注样本集，将其余所述实体对作为未标注样本集；

建模子模块，用于根据所述标注样本集构建分类模型；

计算子模块，用于将所述未标注样本集输入到所述分类模型中进行打分，根据打分结果提取处于边界打分的各所述实体对；

迭代子模块，用于根据主动学习算法选择处于边界打分的部分所述实体对作为关键样本进行标注，并加入到所述标注样本集中，根据新的所述标注样本集重新训练所述分类模型；

第二输出子模块，用于将最终的所述标注样本集作为所述第二关键样本输出。

第三方面，本发明实施例提供了一种知识库实体归一终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面包括的任一所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如第一方面包括的任一所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：1、本发明的方法能够处理亿级规模的知识库，且能够对多垂类的混合知识库进行统一处理。知识库中可以包括各种质量的实体，且归一系统能够通过统一策略处理。2、利用针对海量知识库的多维分区方式对大规模的实体集进行预分区，使要归一的实体尽可能分到同一个桶内，并减少实体归一判断的数量，突破计算规模限制，降低计算量，且同时提升归一的召回。3、通过多模型融合的方案，解决不同场景支持、模型支持多实体数据的问题。采用大规模关键样本构建及人机协作的方式来解决样本构建问题。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施方式提供的一种知识库实体归一方法流程示意图；

图2为本发明实施方式提供的样本构建流程示意图；

图3为本发明实施方式提供的一种知识库实体归一方法的具体流程示意图；

图4为本发明实施方式提供的一种知识库实体归一系统结构示意图；

图5为本发明实施方式提供的一种知识库实体归一终端结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

本发明实施例提供了一种知识库实体归一方法，如图1所示，该方法主要包括以下步骤：

步骤S100：获取知识库中的实体集合。

其中，知识库可以是百万级规模、千万级规模或亿万级规模的知识库。上述的各规模的知识库可以是中文知识图谱、单垂类或多垂类的混合知识库。

步骤S200：采用多种分区方式相结合对实体集合进行预分区。

需要说明的是，多种分区方式即为两种或两种以上的分区方式。预分区即为将实体集合分为多个组(或多个区)，每个组中的实体集合为疑似相同的若干实体。多种分区方式相结合可以理解为每一种分区方式均是对前一种分区方式的分区结果进行再分区，从而通过多种分区逻辑相结合尽可能的使疑似相同的实体能够被分到同一个组中，减少后续实体归一判定的实体对数量，降低计算量，同时提高归一的召回率。即便是采用大规模的亿万级知识库也能够突破计算规模的限制，大大降低归一判定中模型的计算量。

在一个具体的实施方式中，当分区方式为两种时，在对实体集合进行预分区时，首先通过第一种分区方式对实体集合进行第一次分区，再通过第二种分区方式对第一次分区的结果进行第二次分区。从而实现从多个维度完善最终的预分区结果。

步骤S300：根据预分区的结果进行样本构建，提取关键样本。

样本构建的方式可以采用现有技术中的任意方式，并不限于本发明实施了中举例说明的方式。

步骤S400：根据预分区的结果进行特征构建，提取相似特征。

特征构建的方式可以采用现有技术中的任意方式，并不限于本发明实施了中举例说明的方式。

步骤S500：通过至少一个归一模型结合关键样本和相似特征，对预分区的结果中的各实体对进行归一判定，判定各实体对是c否为相同实体。

需要说明的是，关键样本和相似特征均可以为多个，以便进一步提升归一模型的归一判定效果。预分区的结果是将实体集合分为多个组，在进行归一判定时，对每一个组中的实体对进行归一判定。实体对可以理解为两个实体，即对两个实体进行判定，判断两个实体是否相同。

步骤S600：对归一判定的结果进行集合划分。即对归一判定的结果进行分组聚合，相同的实体分到相同组，不同的实体分到不同的组。

在第一种实施方式的基础上，预分区方式包括基于schema分区、基于语义边关系分区和基于语义向量聚类分区。可采用其中的任意两种方式或三种方式全部采用，对实体集合进行预分区。三种预分区方式的使用顺序可根据需要进行选择和调整，即采用任一种预分区方式作为第一分区方式对实体集合进行第一次分区均可，采用任一种不重复的预分区方式作为最后的分区方式均可。

基于schema分区，主要是基于探索日志挖掘每个实体的关键属性值(或N-Gram，汉语语言模型)，作为分区的标准。

在第一种实施方式的基础上，关键属性值可以理解为事物的名字、别名，人物的性别、年龄、提醒，电影的年份、国家、男女主角、类型等。上述关键属性值只是举例说明，在实际应用中本发明的基于schema分区的关键属性值并不限于上述属性，可根据需要进行任意选择。

基于语义边关系分区，主要是利用实体自身的语义边关系(建语义边关系的策略，称为建边)，通常有由大量相同实体指向边的实体，一般可能为相同实体。例如：中国人民解放军总医院、301医院两个实体均与A、B、C、D四位医生有边关系，则这两个实体可能疑似为相同实体。需要说明的是，该方式主要用于实现实体集合的预分区，因此实体判断结果不一定正确，需要结合其他预分区方式进行进一步判断。

基于语义向量聚类分区，首先通过DNN(Deep Neural Network，深度神经网络)技术，利用实体自身的语义信息、实体的共现信息，将实体表示为向量形式，此实体向量能够表征实体自身的语义信息(如实体描述语义、属性语义等)、实体间关系(如“刘德华”与“朱丽倩”实体间存在“夫妻”关系)。利用此语义信息，再通过聚类技术，可将可能相同的实体聚合到同一个组，通过聚合结果来实现分区，可达到语义泛化的分区目的。

在第一种实施方式的基础上，样本构建包括：基于属性的第一关键样本构建和基于主动学习算法的第二关键样本构建。

在第一种实施方式的基础上，如图2所示，第一关键样本构建的具体步骤为：

对预分区的结果中的各实体对的关键属性进行提取，根据提取出的关键属性对各实体重新进行分区、聚合，生成多个新实体对；

带频随机抽取部分新实体对，然后对其进行标注，将标注后的新实体对作为第一关键样本输出。

需要说明的是，标注可采用人工标注的方式，根据标注成本选择专家进行标注或选择众包标注的方式。当知识库为亿级知识库时，需要采集大规模的第一关键样本用于归一判定。

在一个优选的实施例中，关键属性是通过查询日志挖掘每种类型的实体所对应的重要属性，然后将其作为关键属性进行提取。例如，电影类型的实体，其重要属性为电影名称、演员、导演、上映时间、上映国家等。

在第一种实施方式的基础上，如图2所示，第二关键样本构建的具体步骤为：

1)对预分区的结果中的部分实体对进行标注作为标注样本集，将其余实体对作为未标注样本集。

2)根据标注样本集构建分类模型。分类模型可以采用XGBoost(GradientBoosting，梯度提升)模型。

3)将未标注样本集输入到分类模型中进行打分，根据打分结果提取处于边界打分的各实体对。边界打分即为实体对的打分为0.5左右，或两个实体是相同实体的概率在40％-60％之间，因此通过目前的分类模型无法准确的计算出这些实体对是否为相同实体。

4)根据主动学习算法选择处于边界值的部分实体对作为关键样本，进行人工标注，并加入到标注样本集中，根据新的标注样本集重新训练分类模型。

需要说明的是，当处于边界打分的实体对过多时，需要根据查询标准选取一定数量的处于边界打分的实体对进行标注，该标注可以是专家标注或众包标注。由于对原分类模型无法确认的实体对进行了标注，因此分类模型能够通过训练被优化完善，即能够判断出部分处于边界值的实体是否为相同实体。

为了进一步完善分类模型，需要重复步骤3)、步骤4)，直至分类模型收敛，即能够对未标注样本集做出准确的计算，分类模型的分类效果和效率能够达标时，则停止分类模型的迭代，并将最终的标注样本集作为第二关键样本输出。

在第一种实施方式的基础上，主动学习算法可以采用最大化信息量算法、最小期望误差算法或最小化解释空间算法。

最大化信息量算法：选择对当前模型带来较大潜在改变(即蕴含较多信息)的未标注实体(即处于边界值的实体)进行标记。最大化信息量的算法是选择那些最不能确定的实体，称为Uncertainty Sampling算法。

最小期望误差(Expected Error Reduction)算法：从全局的角度进行考虑，总是标记那些具有最小期望误差(风险)的实例。这类算法的基本流程是计算每一个实例加入标记集合后整体误差的期望。

最小化解释空间算法：对于一个已标记的实体集，与其一致的所有统计学习模型称为实体集的解释空间(Version Space)。解释空间越大，就意味着有越多的模型可以选择。当解释空间只有一个点时，统计学习的模型也可以唯一确定。因此，另一类主动学习算法总是选择那些能够最大程度缩小解释空间的实例进行标记。

在第一种实施方式的基础上，特征构建的具体步骤为：采用多种特征构建策略相结合对预分区的结果中的各实体对进行计算，并将最终计算出的结果作为相似特征输出。

需要说明的是，多种特征构建策略即为两种或两种以上的特征构建策略。多种特征构建策略相结合可以理解为每一种特征构建策略均是对前一种特征构建策略的相似特征结果进行的再次计算，从而通过多种特征构建策略相结合尽可能的提取出更准确的相似特征。

在一个具体的实施方式中，特征构建策略为两种，通过第一种特征构建策略对预分区的结果中的各实体对进行第一次相似特征计算，再通过第二种特征构建策略对第一次相似特征计算进行第二次相似特征计算，从而实现利用多种特征构建方式完善最终的相似特征提取。

在一个优选的实施例中，特征构建策略包括：文本相似特征、文本语义特征和结构语义特征。

文本相似特征包括文本共现、keyphrase(短语)共现、属性值重叠度等。

文本语义特征主要是语义级别的相似特征，包括文本语义相似度、keyphrase语义相似度、关键属性值语义相似度等。

结构语义特征主要是指利用实体相连的图谱结构相似特征，如“刘德华”实体有较多属性边，如(妻子，朱丽倩)、(女儿，刘向蕙)、(代表作品，[无间道、天下无贼、暗战])等，以及这些属性边延伸的其它边关系。利用这些语义边的相似度作为特征，可对实体归一进行判定。

以上三种特征构建策略的相似特征计算，都是通过对比算子来进行计算。对比算子包括大量的属性相似计算插件，用户也可自定义。

在第一种实施方式的基础上，归一模型可以采用贝叶斯推理模型、机器学习分类模型或基于Siamese神经网线模型的实体等价判定模型。

贝叶斯(Bayesian)推理模型，基于关键样本和相似特征，通过用户配置属性重要度及比较方式，然后基于贝叶斯推理公式来计算实体归一打分。贝叶斯推理模型，原理就是根据属性比较的先验概率来计算实体相似度概率值。主要实现在插件“bayes.comparer”中，从初始概率0.5开始，每次通过属性相似度计算出来的概率逐步修正。

机器学习分类模型，基于关键样本和相似特征，通过分类模型训练，将实体归一问题可转化为机器学习中的分类问题，即给定两个实体，分类判断是否是相同实体。其中，分类模型采用XGBoost模型，并采用GridSearch(网格搜索)进行自动寻参。基于贝叶斯推理的实体归一判定，主要解决需要快速生效的问题场景，能够人工通过半自助的方式，快速生成一个高准确、中召回的实体归一策略，以支持应用。

基于Siamese神经网络的实体归一判定，基于机器学习分类的方法强依赖于特征系统的构建，且特征构建的好坏，会较大程度影响策略效果。基于积累的大批量的有效训练样本(关键样本和相似特征)。而DNN技术能够利用大量的训练样本自动进行特征的编码与学习。基于机器学习分类模型的实体等价判定能够通过人工构建特征与训练样本，利用机器学习可在1-3天内完成一个中高准确、中高召回的归一模型，并投入应用。

采用Siamese对等网络结构，其可以处理两个实体的相似判定问题。策略框架图主要分为3部分：(1)输入层构建：输入分别为用于归一判断的两个实体的属性信息(将每个属性及其属性值直接输入)、以及在机器学习分类中的原始特征；(2)网络结构层为：CNN(Convolutional Neural Network，卷积神经网络)+最大池化层，然后统一接入到LSTM(Long Short-Term Memory，长短期记忆网络)层；(3)损失函数采用标准的对照算子。

在一个优选的实施例中，当归一模型为多个时，各归一模型分别对预分区的结果中的各实体对进行归一判定，并分别输出归一判定的结果，然后将各归一判定的结果通过投票方式进行融合决策，生成最终的归一判定的结果。

在第一种实施方式的基础上，集合划分是采用并查集的算法对归一判定结果进行分组聚合。在对归一判定结果进行集合划分后，将集合划分的结果录入到知识库中，对知识库中的实体集合进行归一消歧。

当知识库中录入新的实体集合时，可采用本发明的上述方式对新的实体集合进行归一判定，当集合划分的结果录入知识库后，需要进行重复控制，及将重复的实体进行融合。例如，将两个本质相同，但个别实体数据信息不同的实体进行融合。如“刘德华”与“华仔”，虽然名称不同，但实质是一个人，即相同的实体。

在第一种实施方式的基础上，如图3所示，知识库实体归一方法包括：

S100：获取知识库中的实体集合。

S200：采用三种分区方式相结合对实体集合进行预分区。三种分区方式为基于schema分区、基于语义边关系分区和基于语义向量聚类分区。

S300：根据预分区的结果进行样本构建，提取关键样本。

S400：根据预分区的结果进行特征构建，提取相似特征。

S500：通过三个归一模型结合关键样本和相似特征，分别对预分区的结果中的各实体对进行归一判定，并分别输出归一判定的结果，然后将各归一判定的结果通过投票方式进行融合决策，生成最终的归一判定的结果。其中，三个归一模型为贝叶斯推理模型、机器学习分类模型或基于Siamese神经网线模型的实体等价判定模型。

S600：对最终的归一判定的结果进行集合划分。

实施例二

本发明实施例提供了一种知识库实体归一系统，如图4所示，包括：

获取模块10，用于获取知识库中的实体集合；

多维分区模块20，用于采用多种分区方式相结合对实体集合进行预分区；

样本构建模块30，用于根据预分区的结果进行样本构建，提取关键样本；

特征构建模块40，用于根据预分区的结果进行特征构建，提取相似特征；

归一判定模块50，用于通过至少一个归一模型结合关键样本和相似特征，对预分区的结果中的各实体对进行归一判定，判定各实体对是否为相同实体；

集合划分模块60，用于对归一判定的结果进行集合划分。

在一个可能的设计中，样本构建模块30包括：第一关键样本构建模块和第二关键样本构建模块。

在一个可能的设计中，第一关键样本构建模块包括：

关键属性子模块，用于对预分区的结果中的各实体对的关键属性进行提取，根据提取出的关键属性对各实体重新进行分区、聚合，生成多个新实体对；

第一输出子模块，用于随机抽取部分新实体对进行标注，并作为第一关键样本输出。

在一个可能的设计中，第二关键样本构建模块包括：

样本子模块，用于对预分区的结果中的部分实体对进行标注作为标注样本集，将其余实体对作为未标注样本集；

建模子模块，用于根据标注样本集构建分类模型；

计算子模块，用于将未标注样本集输入到分类模型中进行打分，根据打分结果提取处于边界打分的各实体对；

迭代子模块，用于根据主动学习算法选择处于边界打分的部分实体对作为关键样本进行标注，并加入到标注样本集中，根据新的标注样本集重新训练分类模型；

第二输出子模块，用于将最终的标注样本集作为第二关键样本输出。

实施例三

本发明实施例提供了一种知识库实体归一终端，如图5所示，包括：

存储器400和处理器500，存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的知识库实体归一方法。存储器400和处理器500的数量可以为一个或多个。

通信接口600，用于存储器400和处理器500与外部进行通信。

存储器400可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器400、处理器500以及通信接口600独立实现，则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器400、处理器500以及通信接口600集成在一块芯片上，则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。

实施例四

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如实施例一包括的任一所述的知识库实体归一方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能执行单元可以集成在一个处理模块中，也可以是各个执行单元单独物理存在，也可以两个或两个以上执行单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种知识库实体归一方法，其特征在于，包括：

获取知识库中的实体集合；

采用多种分区方式相结合对所述实体集合进行预分区；

根据所述预分区的结果进行样本构建，提取关键样本；

根据所述预分区的结果进行特征构建，提取相似特征；

对所述归一判定的结果进行集合划分。

2.如权利要求1所述的知识库实体归一方法，其特征在于，所述分区方式至少为两种，对所述实体集合进行所述预分区的步骤为：

通过第一种所述分区方式对所述实体集合进行分区；以及

3.如权利要求1所述的知识库实体归一方法，其特征在于，所述样本构建包括：基于属性的第一关键样本构建和基于主动学习算法的第二关键样本构建。

4.如权利要求3所述的知识库实体归一方法，其特征在于，所述第一关键样本构建的步骤包括：

5.如权利要求3所述的知识库实体归一方法，其特征在于，所述第二关键样本构建的步骤包括：

2)根据所述标注样本集构建分类模型；

6.如权利要求1所述的知识库实体归一方法，其特征在于，所述特征构建的步骤包括：

7.如权利要求1所述的知识库实体归一方法，其特征在于，当所述归一模型为多个时，各所述归一模型分别对所述预分区的结果中的各所述实体对进行归一判定，并分别输出所述归一判定的结果，将各所述归一判定的结果进行融合决策，生成最终的所述归一判定的结果。

8.一种知识库实体归一系统，其特征在于，包括：

获取模块，用于获取知识库中的实体集合；

集合划分模块，用于对所述归一判定的结果进行集合划分。

9.如权利要求8所述的知识库实体归一系统，其特征在于，所述样本构建模块包括：第一关键样本构建模块和第二关键样本构建模块。

10.如权利要求9所述的知识库实体归一系统，其特征在于，所述第一关键样本构建模块包括：

11.如权利要求9所述的知识库实体归一系统，其特征在于，所述第二关键样本构建模块包括：

建模子模块，用于根据所述标注样本集构建分类模型；

12.一种知识库实体归一终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

13.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。