CN108647318A

CN108647318A - 一种基于多源数据的知识融合方法

Info

Publication number: CN108647318A
Application number: CN201810443980.0A
Authority: CN
Inventors: 张日崇; 马宏远; 王玥; 杜翠兰; 李建欣; 柳毅; 胡春明
Original assignee: Beihang University; National Computer Network and Information Security Management Center
Current assignee: Beihang University; National Computer Network and Information Security Management Center
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-10-12

Abstract

本发明提出一种基于多源数据的知识融合方法，在融合多个来源的实体数据时，首先分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换，这样对属性的规范化处理可以减少对后续实体比较造成的影响；然后基于实体名和实体属性对实体进行分块聚合，这样仅将同一分块内不同来源的实体作为候选匹配实体对，避免了将两个数据源中所有的实体两两间比较，减少计算复杂度；最后将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并，而对于一个数据源中独有的实体，可以直接添加到知识库中。

Description

一种基于多源数据的知识融合方法

技术领域

本发明涉及一种知识融合方法，尤其涉及一种基于多源数据的知识融合方法

背景技术

近年来，随着语义万维网的引入，以Freebase、DBpedia为代表的大规模知识图谱在人工智能领域受到来越来越多的关注。知识图谱包含了世间万物实体及实体之间的关系，以结构化的方式来存储现实世界的事实性知识。其目标是构建机器可理解的知识网络，实现对客观世界从字符串描述到结构化语义描述，对信息检索和自然语言理解等技术提供智能化的数据服务。

知识图谱的构建是学术界和工业界在人工智能领域中的研究热点。一些有名的领域知识库大多是领域专家手工构建的，包括DBLP、Google Scholar等。人工构建知识图谱虽可以保证知识的准确度，但存在覆盖率低、更新慢等缺点，而且是一个繁琐耗时的工程，要想手工建立一个覆盖世界上所有领域的通用知识图谱，是很不现实的。近年来随着语义网和LOD的兴起，学术界和工业界已经用自动化或半自动化的方式建立起了多个大规模知识库，其中知名的知识库如DBpedia、YAGO、Freebase、Google’s Knowledge Graph等，都存储了大量的结构化知识，并应用于多个领域。但是在中文知识图谱方面尚缺乏一个覆盖全面，规模大，质量权威的开放知识图谱，知识分散在多个不同的来源知识库中，如果在实际应用场景下需要一个能满足需求的完整知识库，就不可避免涉及到从多个不同领域不同规模的知识库中提取需要的数据经过融合构成支撑应用所需的完整数据源。另外，但若仅仅采用单一来源的知识作为数据源，知识结构会略显单一，多源数据的融合就可以对多来源知识的不确定性进行修正。

近几年，知识图谱的数据融合研究吸引了很多学者，数据融合的目标是将是找出属于现实世界中的同一实体，然后将异构数据源知识库的知识相互补充。数据融合最早是数据库领域的一个研究方向，对数据库的多张不同表中的指向一个实体的项进行识别，然后将多份实体信息进行组合处理的过程。数据融合主要存在以下几方面的挑战：(1)来源于不同数据源的数据之间是异构的，异构数据源之间可能在本体层面上有所不同(如属性名的表达不同)；而且在实体层上也可能会有差异，表达同一实体的标识会用不同的方式；(2)不同数据源之间可能存在冲突数据，由于一些不完整、错误、过时问题导致的数据冲突可能会对信息的获取产生误导，所以需要在数据融合中识别出正确的数据，以解决数据冲突。数据融合主要解决的问题是数据层面的，将指向真实世界的同一实体的不同数据源的数据集成到一起，可以检测和剔除错误数据，提高数据的准确性。

现有技术都不能应用到大规模的知识库中，因为需要遍历两个知识库中所有的实体对，时间复杂度是二次方的，有一些方法比如Silk、PARIS和SiGMa都被用于大型的知识库的实体对齐中，其中主要提高对齐效率的方法是：分块和迭代的对齐。分块技术是对实体进行索引，用属性值或属性值的组合作为键值，将有同一键值的放入同一块中，这样在选择候选对齐实体时，仅在同一块中进行比较，可以大大减少比较次数。迭代地对齐是用多重的迭代循环去找对应的实体，在每步迭代中，对齐一部分实体，然后这些被对齐的实体再作为下一次迭代的种子，直至收敛。PARIS提出了一个全局性的概率模型解决对齐问题，不需要任何训练数据，而且不需要任何调参，既可以实现实体的对齐，也包含了类别和关系的对齐。但是，该算法的不足是无法处理结构化的异构数据和不同粒度的数据(比如无法识别出出生地区和出生国家的区别)。之后Dong等人建立了很有名的Knowledge Vault(KV)知识融合系统，该系统侧重于知识融合，作者认为整合多个来源的数据可以综合有效地判定知识的可信度。该系统融合了文本、DOM对象、HTML表格和网页的手工标注等四个来源的数据，所有的信息用三元组存储，每个三元组有个置信度得分，表示该三元组是否正确的概率。KV是从web中提取上述四个来源的知识，然后将Freebase作为先验运用统计学习模型学习“先验知识”，为不同的抽取器定义的三元组打分，再根据抽取过程的得分和先验知识帮助剔除抽取过程中的错误，具体来讲是将每个抽取器为三元组的打分设置一个特征向量，为每个关系都采用监督学习算法训练一个二元分类器，用对应的二元分类对三元组进行打分最终决定其置信度，实现多数据源抽取的知识融合。

因此，现有技术在进行多源异构数据的融合时，一方面在中文上没有开放链接数据集作为先验知识，另一方面无法在减少比较复杂度的情况下高效准确进行大规模异构数据源的融合。

发明内容

知识分散在多个不同的来源知识库中时，本发明能够从多个不同领域不同规模的知识库中提取需要的数据经过融合构成支撑应用所需的完整数据源，将多个数据源的数据融合起来，合并冗余信息，扩充有用信息。

附图说明

图1为本发明的知识融合流程图；

图2为本发明一实施例的属性规范化图；

图3为本发明一实施例的实体分块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，从图中可以看到，在知识融合的过程中，在融合多个来源的实体数据时，首先，分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换，这样对属性的规范化处理可以减少对后续实体比较造成的影响；然后，基于实体名和实体属性对实体进行分块聚合，这样仅将同一分块内不同来源的实体作为候选匹配实体对，避免了将两个数据源中所有的实体两两间比较，减少计算复杂度；最后，将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并，而对于一个数据源中独有的实体，可以直接添加到知识库中。

在知识融合的过程中，首先是将数据映射到统一的表达体系上，对每个数据源的属性进行规范化表示。由于不同数据源表述的多样性，在百科中原始的属性和属性值是通过字符串存储的，实质意义相同的属性表达各异，属性值的数值单位都不统一；再加上百科网站的内容都是由用户自由创建和编辑等，在属性命名和属性值的格式上并没有限制。

如图2所示的实施例中，两个数据源百度百科实体“天坛公园”和互动百科“北京天坛”实际上指向同一个实体，其中，两个实体的属性“建造时间”对应的属性值分别为“1420”和“1420年”，表述不一致；还有属性名的不统一，在实体“天坛公园”中为“地理位置”，而实体“北京天坛”中为“所在地”，语义相同的属性具有不同的表达。这样的属性和属性值的不规范表示会对后续比较实体造成影响，因此，需要对属性名和属性值进行规范，减少对后续实体比较造成的影响，提高数据融合的准确率和召回率。图中也展示了进行实体属性规范化后的结果。

对于属性表达不一致的问题，需要将属性名称都统一知识表达体系定义的属性上，将同义属性映射到一起，规范属性的表示。而对于属性值规范化问题，本发明设计了主要针对数值型属性和日期型属性的规范方法。对于日期型属性的属性值均统一表示为XX年XX月XX日；而对于数值型属性的属性值通常是由数字+单位构成，所以属性值的规范主要包括数值转化和单位统一两个步骤，数值转换是指将原有数值中的千位分隔符、中文大写数字等情况全部转化为阿拉伯数字，例如“200,00”转换为“20000”，而单位统一则是对同一类别下的不同单位间进行数值换算，统一单位表示，例如“平方公里”和“平方米”。通过对知识库中所有实体的属性及属性值进行分析和统计，本发明选择了七类最常出现的可比较的属性，对每一类统一单位作为规范化目标，分别为：“时间”、“重量”、“身高”、“海拔”、“面积”、“数量”、“钱数”和“体积”，并在表1中举例说明了对每一类属规范化方式。对于每一类的属性值，本发明利用正则表达式抽取出属性值中的数值信息，再根据定义好的单位间换算公式将数值映射到统一的单位下，统一规范实体的属性值的表示。

表1属性值规范化示例

匹配不同数据源中的对应实体时，如果每个数据源都是大规模的百万级实体，那么对两个数据源中所有的实体两两比较，这样比较次数是上亿次的，因此，对于大规模的实体对齐，为了减少待匹配实体对的比较次数，首先需要对实体进行分块，将可能指向一致的实体对放入同一块中，再将同一块中不同来源的实体作为候选匹配实体对，两两比较不同数据源中的实体是否是同一指代，这样可以在很大程度上减少比较次数，降低计算复杂度。考虑到百科数据源的特点，本文采用基于实体名称和实体属性的分块策略对实体进行分组聚合。具体的流程是，首先根据实体名称，将实体名称分解为二元模型(bi-gram)序列；其次，对于每个二元模型序列中的项作为倒排索引的key值，将该实体插入到该项对应的倒排索引中；然后，将倒排索引中每个key值对应的实体，根据实体属性再进行划分，最后，如果两个不同来源的实体具有两个以上相同的属性及属性值，则被划分入同一分块中。

如图3所示的实施例中百度百科实体“天坛公园”和互动百科实体“北京天坛”进行实体分块的流程，首先分别得到实体名的二元模型序列为[<天坛>,<坛公>，<公园>]和[<北京>,<京天>，<天坛>]等等；其次，在倒排索引表中新插入序列[[天坛，天坛公园、北京天坛、隋唐天坛遗址公园、西安天坛]，[北京，北京天坛]，[隋唐，隋唐天坛遗址公园][唐天，隋唐天坛遗址公园]]等；然后，考虑长度大于1的索引值，这样得到[天坛，天坛公园、北京天坛]，最后，将不同来源的具有两个以上相同属性的实体放入同一个分块中。通过这种分块策略，可以在不损失实体对齐召回率的同时，有效地减少实体对齐的比较次数。

实体对齐的过程是为了发现标识不一但却代表真实世界中同一客观对象的那些实体，并将这些实体的知识归并在一起添加到知识图谱。本发明设计实体对齐方法计算实体间的相似度，匹配出指代一致的实体，其具体流程是：在同一分块内，两两比较两个来源的实体对，计算实体对间的相似度，每个实体取另一来源中与其相似度最大的实体，如果对应的相似度大于预先给定的阈值ω，则认为二者是指向同一实体，匹配到不同数据源实体对的等价链接。为提高实体对齐的准确率和召回率，本发明的实体相似度是由实体的文本相似性和属性相似度综合计算出的，计算公式如下：

其中，e_a和e_b是两个实体，Context_Sim(e_a，e_b)为实体间的文本相似度，Property_Sim(e_a，e_b)为实体间的属性相似度，取平均得到二者的实体相似度Sim(e_a，e_b)。

所述文本相似度是衡量描述两个实体文本信息的相似性。本发明用结巴(Jieba)分词对文本进行分词后，采用word2vec获取的词向量对文本进行建模，对文本中所有词向量取其平均得到文本的语义向量；然后用余弦相似度来计算两个文本向量夹角的余弦值来度量相似性。

所述属性相似度是衡量两个实体间相同属性对应属性值的相似性。本发明将属性分为不同的类型，文本型、数值型、日期型和对象型，并对不同的属性类型设置不同的相似度度量机制。其中，文本型属性(Text Property，TP)是指属性值为短文本的，比如“主要成就”和“描述信息”等属性，这类属性相似度是基于属性值文本的最长公共子序列(LongestCommon Sequence,LCS)来衡量的；数值型属性(Numeric Property，NP)是指可度量的数值属性，如“身高”和“体重”等属性，这种属性是基于两者的绝对差值来衡量相似度；日期类属性(Date Property，DP)是指描述时间日期类，比如“出生日期”和“成立时间”等属性，这种属性也是基于两者相差的天数来度量相似度，并将分母中每年的天数简化为360；最后一类是对象型属性(Object Property，OP)，指属性值指向某一实体的一类属性，如“主演”和“毕业院校”等属性，所以应先经过上一节的关系扩充模型来补全缺失的链接，这种属性是基于Jaccard系数来衡量的。对应的相似度计算公式分别如下：

在匹配到不同数据源中指向真实世界中同一对象的实体后，需要将这些实体数据归并为一个具有全局唯一标识的实体对象添加到知识图谱中，并对同一实体的对应属性进行融合。属性融合的过程中面临着以下几个重要问题：

(1)由于不同数据源的异构性导致的属性无法对齐现象；

(2)由于人工编辑导致的属性值格式不一致；

(3)由于数据源数据的正确性无法保证导致的属性值冲突问题。

下面对其中的每一个问题进行详细分析：

针对属性无法对齐现象，这一问题贯穿所有属性相关的步骤，在这里是实体数据融合最初的、也是最重要的一步。本发明的解决方法分如下：首先将两个来源的实体属性映射到统一的本体之上，接下来将两个来源的相同属性进行合并，而对于无法对齐的属性，也即每个来源独有的属性，暂时予以保留。

针对属性值内容不一致现象，当两个属性对应起来之后，就需要将属性值进行融合。由于不同来源的数据由不同大众编写完成，因此不同来源同一实体同一属性的属性值，可能内容一致可以融合，也可能内容不一致需要保留。因此需要判断不同来源的属性值是否内容一致可以融合。此问题的难点是不同来源的属性值信息表达方式可能不同，不同的表达可能内容是一致的。例如“中国北京”和“北京市”等。

此处本发明对属性值信息可以融合的情况进行了简化，分为两种情况：表述内容相同的情况以及内容具有包含关系的情况。针对这两种情况，本文提出了一个判断属性值短文本相似的算法，算法的基本假设是：

(1)当两个属性值表述内容相同时用词应当基本相同，用词的相似度就是属性值内容的相似度；

(2)当两个属性值表述内容具有包含关系是用词也应具有包含关系。

因此本算法的两个步骤为：

(1)将两个属性值分词，化为两个one-hot向量；

(2)比较两个向量，若具有包含关系，则认为可以融合；若不能融合则计算向量的余弦相似度作为属性值的相似度输出。

针对属性值冲突现象，对于属性值不完全相同的属性，有以下几种可能：

(1)表述方式不同，表述内容一致：1994-06-03和1994年6月3日，此时应当保留其一；

(2)表述内容不一致，但均为正确的值，故应保留；

(3)表述内容不一致，但其中有错误的值，应舍弃错误的值，保留正确的一个。

为了判断当表述内容不一致时，需选择保留全部还是保留其一，本发明需要不同的属性做不同的限制，即对属性的唯一性进行规定。唯一性表明：该属性在某一时刻仅有一个正确的值，例如“出生年月”、“性别”等。当一个属性具有唯一性时，无论不同来源具有多少不同的属性值，真实的正确的属性值也只有一个，因此应当选择出正确的一个保留，其它的舍弃。当一个属性不具有唯一性时，该属性可能具有不同的多个属性值，且均为正确的。当不同来源的属性值不一致时，具有均为正确的可能性，因此选择全部保留。

其中当属性具有唯一性时，如何判断哪一个属性值为正确：本发明所选用的数据源数量大于2个，因此一个简单而有效的方法为，哪一个属性在数据源中出现的多，就认为该属性值为正确的属性值。如果出现次数相同，提前为各个数据源设定不同的可靠性排序，优先选择可靠性高的属性值作为最终融合结果。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多源数据的知识融合方法，其特征在于，在融合多个来源的实体数据时，分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换；基于实体名和实体属性对实体进行分块聚合；将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并，而对于一个数据源中独有的实体，直接添加到知识库中。

2.根据权利要求1所述的方法，所述进行规范化表示包括对数值型属性和日期型属性的规范方法，所述日期型属性的属性值均统一表示为XX年XX月XX日，对于数值型属性的属性值的规范主要包括数值转化和单位统一两个步骤，数值转换是指将原有数值中的千位分隔符、中文大写数字等情况全部转化为阿拉伯数字，单位统一则对同一类别下的不同单位间进行数值换算。

3.根据权利要求1所述的方法，在所述基于实体名和实体属性对实体进行分块聚合，首先需要对实体进行分块，将可能指向一致的实体对放入同一块中，再将同一块中不同来源的实体作为候选匹配实体对，两两比较不同数据源中的实体是否是同一指代。

4.根据权利要求3所述的方法，所述分块采用基于实体名称和实体属性的分块策略对实体进行分组聚合，所述分组聚合的具体的流程是，首先根据实体名称，将实体名称分解为二元模型序列；其次，对于每个二元模型序列中的项作为倒排索引的key值，将该实体插入到该项对应的倒排索引中；然后，将倒排索引中每个key值对应的实体，根据实体属性再进行划分，最后，如果两个不同来源的实体具有两个以上相同的属性及属性值，则被划分入同一分块中。

5.根据权利要求1所述的方法，所述实体对齐算法的过程为：在同一分块内，两两比较两个来源的实体对，计算实体对间的相似度，每个实体取另一来源中与其相似度最大的实体，如果对应的相似度大于预先给定的阈值ω，则认为二者是指向同一实体，匹配到不同数据源实体对的等价链接，所述相似度计算公式为：其中，e_a和e_b是两个实体，Context_Sim(e_a，e_b)为实体间的文本相似度，Property_Sim(e_a，e_b)为实体间的属性相似度，取平均得到二者的实体相似度Sim(e_a，e_b)，所述文本相似度是衡量描述两个实体文本信息的相似性，所述文本相似度的衡量方法是用结巴分词对文本进行分词后，采用word2vec获取的词向量对文本进行建模，对文本中所有词向量取其平均得到文本的语义向量；然后用余弦相似度来计算两个文本向量夹角的余弦值来度量相似性；所述属性相似度是衡量两个实体间相同属性对应属性值的相似性，所述属性相似度的衡量方法是将属性分为不同的类型，文本型、数值型、日期型和对象型，并对不同的属性类型设置不同的相似度度量机制。

6.根据权利要求1所述的方法，所述实体属性的合并过程中，当属性无法对齐时，首先将两个来源的实体属性映射到统一的本体之上，然后将两个来源的相同属性进行合并，对于无法对齐的属性，所述无法对齐的属性即为每个来源独有的属性，暂时予以保留；然后对暂时保留的情况进行判断，判断不同来源的属性值是否内容一致可以融合，如果不同来源的属性值一致则可以融合；当属性值冲突时，对于属性值不完全相同的属性，表述方式不同，表述内容一致时，则保留其一，当表述内容不一致，均为正确的值，则均保留；表述内容不一致，其中有错误的值，则舍弃错误的值，保留正确的一个。

7.根据权利要求6所述的方法，所述判断不同来源的属性值是否内容一致可以融合的方法包括以下步骤，将两个属性值分词，化为两个one-hot向量；比较两个向量，若具有包含关系，则认为可以融合；若不能融合则计算向量的余弦相似度作为属性值的相似度输出。

8.根据权利要求6所述的方法，判断表述内容是否一致根据属性的唯一性进行判断，所述唯一性表明所述属性在某一时刻仅有一个正确的值，当一个属性具有唯一性时，则选择出正确的一个保留，其它的舍弃；当一个属性不具有唯一性时，该属性具有不同的多个属性值，且均为正确的。

9.根据权利要求8所述的方法，其中当属性具有唯一性时，判断哪一个属性值为正确的方法为：哪一个属性在数据源中出现的多，则该属性值为正确的属性值，如果出现次数相同，选择可靠性高的属性值作为最终融合结果。