CN113535977B

CN113535977B - 一种知识图谱融合方法和装置及设备

Info

Publication number: CN113535977B
Application number: CN202110791291.0A
Authority: CN
Inventors: 李钊; 赵凯; 邓晓雨; 刘岩; 宋慧驹
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2023-12-19
Anticipated expiration: 2041-07-13
Also published as: CN113535977A

Abstract

本发明提供了一种知识图谱融合方法和装置及设备，所述方法包括：提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径；针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径；将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合。利用本发明提供的方法，通过比较不同待融合数据的图谱元素和图谱路径的相似性，可以提升知识图谱的融合效果。

Description

一种知识图谱融合方法和装置及设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种知识图谱融合方法和装置及设备。

背景技术

知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，通常包括实体、关系及属性。在使用知识图谱时，例如，应用知识图谱进行知识问答等，经常需要利用知识图谱融合方法更新知识图谱。知识图谱融合，指将同一个实体或概念的描述信息融合起来，以合并两个知识图谱，或将包括实体、关系和/或属性的三元组集合合并到知识图谱中，其中涉及到等价的实体、关系、属性的对齐。

相关技术中使用(1)编辑距离，例如莱文斯坦Levenstein距离、Wagner andFisher距离、Edit Distance with Afine Gaps距离等；(2)集合相似度，例如杰卡德Jaccard系数，Dice系数等；(3)基于向量的相似度，例如，余弦Cosine相似度、词频逆向文件频率(Term Frequency–Inverse Document Frequency，TFIDF)相似度等，进行实体、关系、属性的对齐。但是，上述对齐方法融合后的知识图谱会出现实体重复或实体缺失现象，融合效果较差。

发明内容

本发明提供一种知识图谱融合方法和装置及设备，解决现有的知识图谱融合方法，融合后的知识图谱会出现实体重复或实体缺失现象，融合效果较差的问题。

第一方面，本发明提供一种知识图谱融合方法，该方法包括：

提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；

针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；

针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；

将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合。

第二方面，本发明提供一种知识图谱融合设备，包括存储器和处理器，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的程序并执行如下步骤：

第三方面，本发明提供一种知识图谱融合装置，包括：

数据预处理单元，用于提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；

第一筛选单元，用于针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；

第二筛选单元，用于针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；

数据融合单元，用于将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合。

第四方面，本发明提供一种计算机程序介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面提供的知识图谱融合方法的步骤。

本发明提供的一种知识图谱融合方法和装置及设备，具有以下有益效果：

通过不同的待融合数据的图谱元素和图谱路径之间的相似度，进行第一融合条件和第二融合条件的判断，并对符合上述第一融合条件和第二融合条件的待融合数据进行融合，精准、高效、便捷地实现了知识图谱的融合和扩充，实现了多源异构数据的汇聚、整合，提升了知识融合的可靠性；在上述知识图谱的融合过程中实现了实体对齐、实体消岐、属性对齐等处理，提升了知识图谱的融合效果，减少了人工复核的工作量。

附图说明

图1为本发明实施例提供的一种知识图谱融合方法的应用场景的示意图；

图2为本发明实施例提供的一种知识图谱融合方法的流程图；

图3为本发明实施例提供的一种路径特征提取模型的示意图；

图4为本发明实施例提供的一种注意力编码器的示意图；

图5为本发明实施例提供的一种根据第一图谱路径集合和第二图谱路径集合获得第一映射关系的示意图；

图6为本发明实施例提供的一种根据第一图谱元素集合和第二图谱元素集合获得第二映射关系的示意图；

图7为本发明实施例提供的一种知识图谱融合的示意图；

图8为本发明实施例提供的一种知识图谱融合方法的架构的示意图；

图9为本发明实施例提供的一种知识图谱融合的实施方式的流程图；

图10为本发明实施例提供的一种知识图谱融合设备的示意图；

图11为本发明实施例提供的一种知识图谱融合装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个，其它量词与之类似应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

以下，对本发明实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本发明实施例中术语“图形数据库”，是一种非关系型数据库，应用图形理论存储实体之间的关系信息。

(2)本发明实施例中术语“关系型数据库”，是指采用了关系模型来组织数据的数据库，以行和列的形式存储数据，其中，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。

(3)本发明实施例中术语“实体对齐”，旨在判断两个或者多个不同信息来源的实体是否为指向真实世界中的同一个对象，如果多个实体表征同一个对象，则在这些实体之间构建对齐关系，同时对实体包含的信息进行融合和聚集。

(4)本发明实施例中术语“实体消歧”，指根据上下文信息实现消除一词多义。

(5)本发明实施例中术语“属性对齐”，旨在判断两个或多个属性是否可以表示同一个属性，把表征相同的属性进行信息融合。

(6)本发明实施例中术语“结构化数据”，指关系模型数据，即以关系数据库表形式管理的数据。

(7)本发明实施例中术语“半结构化数据”，指非关系模型的、有基本固定结构模式的数据，例如日志文件等。

(8)本发明实施例中术语“应用程序接口(Application Programming Interface，API)”，是一些预先定义的接口，或指软件系统不同组成部分衔接的约定，用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程，而又无需访问源码，或理解内部工作机制的细节。

(9)本发明实施例中术语“双向编码表征(Bidirectional EncoderRepresentations from Transformers，BERT)模型”，是一种使用了Transformer作为主要框架的预训练语言表达模型，可以真正捕获上下文语义信息，BERT模型使用基于特别设计的注意力机制的简单全连接网络，取代复杂的卷积神经网络和循环神经网络，大大减少了训练时间，同时有效地提升了网络性能。

(10)本发明实施例中术语“语料”，即语言材料，是构成语料库的基本单元。

(11)本发明实施例中术语“Milvus搜索引擎”，是一款开源向量相似度搜索引擎，具有功能强大、稳定可靠以及易于使用等特点。

(12)本发明实施例中术语“异构数据”，指不同种类、不同版本或数据之间具有不同结构的数据。

鉴于相关技术的知识图谱融合方案存在的上述问题，本申请提出一种知识图谱融合方法和装置及设备。

下面结合附图对本申请实施例中的一种知识图谱融合方法和装置及设备进行详细说明。

实施例1

如图1所示，本发明实施例提供一种知识图谱融合方法的应用场景的示意图，包括：

知识图谱融合设备101，用于提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定上述各第一图谱路径中符合第一融合条件的第三图谱路径；其中，上述第一路径特征的第一相似度集合包括上述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定上述第三图谱路径中符合第二融合条件的待融合图谱路径；其中，上述第一元素特征的第二相似度集合包括上述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；将上述待融合图谱路径对应的第一待融合数据与上述第二待融合数据进行融合。

数据库102，用于存储第一待融合数据和/或第二待融合数据。

上述知识图谱融合设备与上述数据库之间通过网络进行通信连接，该网络可以为局域网、广域网等。

上述知识图谱融合设备可以为便捷设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，还可以为能够提供互联网服务的服务器。

上述知识图谱融合设备在安装的客户端中读取上述第一待融合数据，或通过API调取上述数据库中存储的和/或本地存储的上述第一待融合数据，其中，上述客户端可以为网页的浏览器，也可以为安装于移动用户设备，如手机，平板电脑等中的客户端。

上述知识图谱融合设备通过API接口调取上述数据库中存储的和/或本地存储的上述第二待融合数据。

需要说明的是，上述应用场景仅是对本发明实施例中一种可能的实施方式的说明，并不对本发明实施例产生限定，相反，本申请的实施方式可以应用于适用的任何场景，且上述应用场景可以根据具体的实施情况进行实体的增减、删改，例如，使用两个独立的数据库分别存储第一待融合数据和第二待融合数据。

本发明实施例提供一种知识图谱融合方法的流程图，应用于上述知识图谱融合设备，如图2所示，包括：

步骤S201，提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；

上述第一待融合数据可以为知识图谱数据，也可以为三元组数据，其中，上述三元组包括：头实体Head、关系Relation、尾实体Tail。

上述第二待融合数据为知识图谱数据。

本发明实施例的知识图谱融合方法至少可以满足下述两种场景的指示图谱融合需求：场景1，对从非结构化数据、半结构化数据中抽取的三元组集合与原有知识图谱进行融合，例如将新研发的保险产品知识的三元组融合进原有保险产品知识图谱；场景2，将收集整理得到的新知识图谱与原有知识图谱进行融合，例如将心脑血管疾病的知识图谱融合进疾病百科的知识图谱。

上述知识图谱融合设备获取上述第一待融合数据和上述第二待融合数据之后，对上述第一待融合数据和上述第二待融合数据进行处理和转化。

提取上述第一待融合数据的第一图谱元素，得到第一图谱元素集合{E₀}；提取上述第一待融合数据的第一图谱路径，得到第一图谱路径集合{P₀}。

需要说明的是，上述第一图谱元素包括第一图谱实体和/或第一图谱关系。

上述图谱路径指具有连接关系的图谱元素的组合，例如太阳(图谱实体)-被环绕(图谱关系)-地球(图谱实体)。

上述第一图谱路径为n跳内的图谱路径，上述n的具体数值可以根据具体的实施情况进行具体的设置，本发明实施例对此不进行任何限定。

其中，上述n跳是指图谱实体A到图谱实体B之间的图谱关系的数量，例如，在图谱路径“太阳-被环绕-地球-被环绕-月亮”中，图谱实体太阳到图谱实体月亮是2跳，图谱实体地球到图谱实体太阳是1跳，图谱实体地球到图谱实体月亮也是1跳。

提取上述第二待融合数据的第二图谱元素，得到第二图谱元素集合{E₁}；提取上述第二待融合数据的第二图谱路径，得到第二图谱路径集合{P₁}。

需要说明的是，上述第二图谱元素包括第二图谱实体和/或第二图谱关系。

上述第二图谱路径为m跳内的图谱路径，上述m的具体数值可以根据具体的实施情况进行具体的设置，且上述m的具体数值和上述n的具体数值可以相同也可以不同，本发明实施例对此不进行任何限定。

需要说明的是，本申请的知识图谱融合方法不仅可以应用于基于图数据库的知识图谱技术，例如，基于知识图谱的开放域问答对话，或任一细分领域，例如，医疗、体育、图书、新闻等的知识图谱融合，也可复用于基于关系型知识库的知识融合。

步骤S202，针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；

上述第一路径特征包括融合后的对应的第一图谱路径的名称特征和语义特征。

上述第二路径特征包括融合后的对应的第二图谱路径的名称特征和语义特征。

需要说明的是，上述名称特征指图谱元素维度的特征，上述语义特征指字符维度的特征，之后不再赘述。

根据上述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度，确定各第一图谱路径中对上述第二待融合数据具有补充作用的第一图谱路径。

步骤S203，针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；

上述第一元素特征包括融合后的对应的第一图谱元素的名称特征和语义特征。

上述第二元素特征包括融合后的对应的第二图谱元素的名称特征和语义特征。

根据上述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度，确定各第三图谱路径中与上述第二待融合数据具有相关性的待融合图谱路径。

步骤S204，将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合。

将上述待融合图谱路径对应的第一待融合数据依次与上述第二待融合数据进行融合，得到融合后的知识图谱。

作为一种可选的实施方式，将上述融合后的知识图谱，返回上述API接口进行存储，或返回上述客户端进行显示。

本发明实施例采用如下方式确定各图谱路径对应的各路径特征：

利用路径特征提取模型的特征编码器分别提取上述各图谱路径中的图谱元素，并利用上述编码器对提取的图谱元素进行名称特征编码和语义特征编码，得到名称特征和语义特征，其中，上述图谱路径包括上述第一图谱路径和上述第二图谱路径；

利用上述路径特征提取模型的注意力编码器，对上述名称特征和语义特征进行融合及注意力运算，得到处理后的名称特征；

将上述处理后的名称特征，作为各图谱路径对应的各路径特征。

作为一种可选的实施方式，使用上述第二待融合数据所属领域的语料对预训练的语言模型，例如BERT模型，或BERT模型的变种，进行训练或微调，获得上述路径特征提取模型。

如图3所示，本发明实施例提供一种路径特征提取模型301的示意图，包括：

特征编码器301-1，用于提取上述各图谱路径中的图谱元素，并利用上述编码器对提取的图谱元素进行名称特征编码和语义特征编码，得到名称特征和语义特征；将上述名称特征和语义特征输入连接的注意力编码器；

n个串联连接的注意力编码器301-2，用于对上述名称特征和语义特征进行融合及注意力运算，得到处理后的名称特征。

将图结构数据，例如，三元组数据或多跳图谱路径数据输入上述路径特征提取模型，获得输出的相应图结构数据的向量嵌入特征。

通过下述例子说明上述名称特征编码和上述语义特征编码：

(1)对于图谱路径“太阳-被环绕-地球”，进行语义特征编码：

根据语义特征编码的词表，确定“[CLS][太][阳][SEP][被][环][绕][SEP][地][球]”的每个[]内的内容对应的编码；

(2)对于图谱路径“太阳-被环绕-地球”，进行名称特征编码：

根据名称特征编码的词表，确定“[CLS][太阳][SEP][被环绕][SEP][地球]”的每个[]内的内容对应的编码。

其中，上述语义特征编码的词表和名称特征编码的词表各自独立。

其中，[CLS]用于标志第一个实体/字符的首位，[SEP]用于分开两个实体/字符。

上述注意力编码器接收输入的名称特征和语义特征，并进行融合及注意力运算，输出新的名称特征和语义特征。

将最后一个注意力编码器处理后的名称特征，作为各图谱路径对应的各路径特征。

如图4所示，本发明实施例提供一种注意力编码器301-2的示意图，包括：

语义注意力层301-2a，用于对输入的语义特征进行注意力运算、标注化运算；通过损失loss的反向传播更新权重；

语义全连接层301-2b：将从语义注意力层接收到的语义特征输入某个非线性函数，例如gelu进行特征激活，并在进行特征激活后进行标准化运算，输出处理后的语义特征。

融合全连接层301-2c：将输入的语义特征通过全连接层融合进输入的名称特征；

名称注意力层301-2d，用于对融合后的名称特征进行注意力运算、标注化运算；通过损失loss的反向传播更新权重；

名称全连接层301-2e：将从名称注意力层接收到的名称特征输入某个非线性函数，例如gelu进行特征激活，并在进行特征激活后进行标准化运算，输出处理后的名称特征。

上述注意力编码器最终得到路径特征融合了名称特征和语义特征。

本发明实施例采用如下方式确定各图谱元素对应的各元素特征：

利用元素特征提取模型的特征编码器分别对上述各图谱元素进行名称特征编码和语义特征编码，得到名称特征和语义特征，其中，上述图谱元素包括上述第一图谱元素和上述第二图谱元素；

利用上述元素特征提取模型的注意力编码器，对上述名称特征和语义特征进行融合及注意力运算，得到处理后的名称特征；

将上述处理后的名称特征，作为各图谱元素对应的各元素特征。

作为一种可选的实施方式，使用上述第二待融合数据所属领域的语料对预训练的语言模型，例如BERT模型，或BERT模型的变种，进行训练或微调，获得上述元素特征提取模型。

需要说明的是，上述元素特征提取模型和上述路径特征提取模型的结构可以相同，也可以不同，可以根据具体的实施情况进行具体的模型的选择，本发明实施例对此不进行任何限定。

本发明实施例采用如下方式确定上述第一路径特征的第一相似度集合：

针对任意一个上述第一路径特征，通过第一特征搜索引擎确定上述第一路径特征与上述各第二路径特征之间的第一相似度，并基于确定的各上述第一相似度得到上述第一路径特征的第一相似度集合；

作为一种可选的实施方式，上述第一特征搜索引擎可以为Milvus搜索引擎。

将上述各第二路径特征预先输入上述Milvus搜索引擎，使用上述Milvus搜索引擎建立向量空间的索引I₀，针对任意一个上述第一路径特征，通过上述第一特征搜索引擎确定上述第一路径特征与上述索引I₀对应的向量空间中的各第二路径特征之间的第一相似度。

作为一种可选的实施方式，在得到上述第一路径特征的第一相似度集合之后，建立任意一个上述第一路径特征到上述第一相似度集合的第一映射关系。

如图5所示，本发明实施例提供一种根据第一图谱路径集合和第二图谱路径集合获得第一映射关系的示意图。

将第二图谱路径集合{P₁}中的第二图谱路径依次输入上述路径特征提取模型M₀，分别得到对应的第二路径特征；使用Milvus搜索引擎建立上述第二路径特征的向量空间的索引I₀。依次将第一图谱路径集合{P₀}中各第一图谱路径P_0j依次输入上述路径特征提取模型M₀，得到对应的第一路径特征，将上述各第一路径特征放入上述索引I₀中检索，记录P_0j与{P₁}中各第二图谱路径的相似度{P₁}_j，建立路径P_0j→{P₁}_j的第一映射关系。

需要说明的是，上述图5的处理过程可以整合到路径特征提取模块中进行。

本发明实施例采用如下方式确定上述第一元素特征的第二相似度集合：

针对任意一个上述第一元素特征，通过第二特征搜索引擎确定上述第一元素特征与上述各第二元素特征之间的第二相似度，并基于确定的各上述第二相似度得到上述第一元素特征的第二相似度集合。

作为一种可选的实施方式，上述第二特征搜索引擎可以为Milvus搜索引擎。

将上述各第二元素特征预先输入上述Milvus搜索引擎，使用上述Milvus搜索引擎建立向量空间的索引I₁，针对任意一个上述第一元素特征，通过上述第二特征搜索引擎确定上述第一元素特征与上述索引I₁对应的向量空间中的各第二元素特征之间的第二相似度。

作为一种可选的实施方式，在得到上述第一元素特征的第二相似度集合之后，建立任意一个上述第一元素特征到上述第二相似度集合的第二映射关系。

如图6所示，本发明实施例提供一种根据第一图谱元素集合和第二图谱元素集合获得第二映射关系的示意图。

将第二图谱元素集合{E₁}中的第二图谱元素依次输入上述元素特征提取模型M₁，分别得到对应的第二元素特征；使用Milvus搜索引擎建立上述第二元素特征的向量空间的索引I₁。依次将第一图谱元素集合{E₀}中各第一图谱元素E_0i依次输入上述元素特征提取模型M₁，得到对应的第一元素特征，将上述各第一元素特征放入上述索引I₁中检索，记录E_0i与{E₁}中各第二图谱元素的相似度{E₁}_i，建立路径E_0i→{E₁}_i的第二映射关系。

需要说明的是，上述图6的处理过程可以整合到元素特征提取模块中进行。

本发明实施例采用如下实施方式根据该第一路径特征的第一相似度集合，确定上述各第一图谱路径中符合第一融合条件的第三图谱路径，包括：

遍历该第一路径特征的第一相似度集合，比较各第一相似度和第一预设阈值的大小；

若不存在大于上述第一预设阈值的第一相似度，则确定该第一路径特征对应的第一图谱路径符合第一融合条件。

通过P_0j→{P₁}_j的第一映射关系，遍历第一图谱路径集合{P₀}中各第一图谱路径P_0j的检索结果{P₁}_j；如果上述{P₁}_j中的全部相似度均小于上述第一预设阈值，则表明上述第二待融合数据K中没有图谱路径与上述第一图谱路径P_0j语义相似，即上述第一图谱路径P_0j符合第一融合条件，可以融入上述第二待融合数据K；如果上述{P₁}_j中存在至少一个相似度大于上述第一预设阈值，则表明上述第二待融合数据K中存在至少一个图谱路径与上述图谱路径P_0j语义相似，即上述第一图谱路径P_0j不符合第一融合条件，不可以融入上述第二待融合数据K。

本发明实施例采用如下实施方式根据该第一元素特征的第二相似度集合，确定上述第三图谱路径中符合第二融合条件的待融合图谱路径，包括：

遍历该第一元素特征的第二相似度集合，比较各第二相似度和第二预设阈值的大小；

若存在大于上述第二预设阈值的第二相似度，则确定包括该第一元素特征的第三图谱路径符合第二融合条件。

对上述第三图谱路径P_0j中全部的图谱元素，例如(h，r，t)中的图谱实体和图谱关系，通过E_0i→{E₁}_i的第二映射关系，判断上述(h，r，t)是否为上述第二待融合数据K中已经包含的图谱元素；如果上述{E₁}_i中的全部第二相似度均小于上述第二预设阈值，说明上述(h，r，t)在上述第二待融合数据K中无法对齐，需要引入新的图谱实体或图谱关系；如果上述{E₁}_i中存在大于上述第二预设阈值的第二相似度，说明上述(h，r，t)可以与上述第二待融合数据K中的至少一个图谱元素对齐，不需要引入新的图谱实体或图谱关系。

其中，上述(h，r，t)指包含头实体Head、关系Relation、尾实体Tail的三元组。

上述第一融合条件和第二融合条件的判决操作可以通过综合判断模块执行。

本发明实施例提出了一种从图谱元素层面和图谱路径层面同时对知识图谱融合进行判定的判定逻辑：先通过路径相似度判断上述第一待融合数据的路径是否对上述第二待融合数据的知识有补充作用；若有补充作用，再判断是否需要引入新的图谱元素，以进行实体对齐、关系对齐等，解决了知识图谱融合的判定方式单一的问题。

本发明实施例采用如下实施方式将上述待融合图谱路径对应的第一待融合数据与上述第二待融合数据进行融合，包括：

针对各待融合图谱路径，确定该待融合图谱路径包括的图谱元素中的目标图谱元素；其中，上述目标图谱元素对应的第二相似度集合中存在大于上述第二预设阈值的第二相似度；

针对各目标图谱元素，在该目标图谱元素对应的第二相似度集合中，确定大于上述第二预设阈值的第二相似度对应的第二图谱元素；

将该目标图谱元素对应的第一待融合数据，与确定的第二图谱元素对应的第二待融合数据进行合并，并保存该待融合图谱路径包括的其他图谱元素对应的第一待融合数据，获得融合后的数据。

如图7所示，本发明实施例提供一种知识图谱融合的示意图。

在上述图7中第一待融合数据包括h7、r7、t7，连接关系为h7-r7-t7，第二待融合数据包括h、r0、r1、r2、r3、r4、r5、t0、t1、t2、t3、t4、t5，连接关系为h分别通过r0、r1、r2、r3、r4、r5和t0、t1、t2、t3、t4、t5连接。

当上述第一待融合数据符合上述第一融合条件，且上述h7与t1的第二相似度大于上述第二预设阈值时，上述第一待融合数据可以融入上述第二待融合数据，且h7与t1对齐，得到融合后的数据。

如图8所示，本发明实施例提供一种知识图谱融合方法的架构的示意图。

输入第一待融合数据，对上述第一待融合数据进行数据转化，将转化后的第一待融合数据分别输入元素特征提取模块和路径特征提取模块；

输入第二待融合数据，对上述第二待融合数据进行数据转化，将转化后的第二待融合数据分别输入元素特征提取模块和路径特征提取模块；

将上述元素特征提取模块和路径特征提取模块输出的第一映射关系和第二映射关系输入综合判定模块，获得融合后的知识图谱。

本发明实施例提供一种疾病知识图谱扩充的实施方式：

对待扩充的知识进行检查；通过对比已有路径和待扩充路径嵌入后的特征向量的相似度，判断知识是否重复，避免引入重复知识，例如知识图谱中原有路径“糖尿病-症状-消瘦”，现有待引入路径“糖尿病-症状-体重下降”，通过计算二者特征向量的相似度，判断出上述两种路径二者属于相似知识，为避免重复，不应将“糖尿病-症状-体重下降”加入上述知识图谱。

本发明实施例提供一种保险产品知识图谱扩充的实施方式：

由于业务系统数据的多源特性，构建保险知识图谱或保险产品百科图谱需要“滚雪球”式的融合积累过程，通过本发明提案的方法，可以满足既将产品条款、保单信息等逐步扩充至图谱，同时尽量避免引入冗余信息的需求。

如图9所示，本发明实施例提供一种知识图谱融合的实施方式的流程图，包括：

步骤S901，提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径，执行步骤S902；

步骤S902，针对各第一图谱路径对应的各第一路径特征，遍历该第一路径特征的第一相似度集合，比较各第一相似度和第一预设阈值的大小，若不存在大于上述第一预设阈值的第一相似度，执行步骤S903，若存在大于上述第一预设阈值的第一相似度，结束流程；

其中，上述第一路径特征的第一相似度集合包括上述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；

步骤S903，确定该第一路径特征对应的第一图谱路径为符合第一融合条件的第三图谱路径，执行步骤S904；

步骤S904，针对各第一图谱元素对应的各第一元素特征，遍历该第一元素特征的第二相似度集合，比较各第二相似度和第二预设阈值的大小，若存在大于上述第二预设阈值的第二相似度，执行步骤S905，若不存在大于上述第二预设阈值的第二相似度，结束流程；

其中，上述第一元素特征的第二相似度集合包括上述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；

步骤S905，确定包括该第一元素特征的第三图谱路径为符合第二融合条件的待融合图谱路径，执行步骤S906；

步骤S906，将上述待融合图谱路径对应的第一待融合数据与上述第二待融合数据进行融合，结束流程。

实施例2

本发明实施例提供一种知识图谱融合设备1000，包括存储器1001和处理器1002，如图10所示，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的程序并执行如下步骤：

可选地，所述处理器采用如下方式确定所述第一路径特征的第一相似度集合：

针对任意一个所述第一路径特征，通过第一特征搜索引擎确定所述第一路径特征与所述各第二路径特征之间的第一相似度，并基于确定的各所述第一相似度得到所述第一路径特征的第一相似度集合；

所述处理器采用如下方式确定所述第一元素特征的第二相似度集合：

针对任意一个所述第一元素特征，通过第二特征搜索引擎确定所述第一元素特征与所述各第二元素特征之间的第二相似度，并基于确定的各所述第二相似度得到所述第一元素特征的第二相似度集合。

可选地，所述处理器根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径，包括：

若不存在大于所述第一预设阈值的第一相似度，则确定该第一路径特征对应的第一图谱路径符合第一融合条件。

可选地，所述处理器根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径，包括：

若存在大于所述第二预设阈值的第二相似度，则确定包括该第一元素特征的第三图谱路径符合第二融合条件。

可选地，所述处理器将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合，包括：

针对各待融合图谱路径，确定该待融合图谱路径包括的图谱元素中的目标图谱元素；其中，所述目标图谱元素对应的第二相似度集合中存在大于所述第二预设阈值的第二相似度；

针对各目标图谱元素，在该目标图谱元素对应的第二相似度集合中，确定大于所述第二预设阈值的第二相似度对应的第二图谱元素；

可选地，路径特征包括融合后的对应的图谱路径的名称特征和语义特征；其中，所述路径特征包括所述第一路径特征和所述第二路径特征；

元素特征包括融合后的对应的图谱元素的名称特征和语义特征；其中，所述元素特征包括所述第一元素特征和所述第二元素特征。

可选地，所述处理器采用如下方式确定各图谱路径对应的各路径特征：

利用路径特征提取模型的特征编码器分别提取所述各图谱路径中的图谱元素，并利用所述编码器对提取的图谱元素进行名称特征编码和语义特征编码，得到名称特征和语义特征，其中，所述图谱路径包括所述第一图谱路径和所述第二图谱路径；

利用所述路径特征提取模型的注意力编码器，对所述名称特征和语义特征进行融合及注意力运算，得到处理后的名称特征；

将所述处理后的名称特征，作为各图谱路径对应的各路径特征。

本发明实施例提供一种知识图谱融合装置，如图11所示，包括：

数据预处理单元1101，用于提取第一待融合数据的第一图谱元素和第一图谱路径，及第二待融合数据的第二图谱元素和第二图谱路径；

第一筛选单元1102，用于针对各第一图谱路径对应的各第一路径特征，根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；

第二筛选单元1103，用于针对各第一图谱元素对应的各第一元素特征，根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；

数据融合单元1104，用于将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合。

可选地，所述第一筛选单元采用如下方式确定所述第一路径特征的第一相似度集合：

所述第二筛选单元采用如下方式确定所述第一元素特征的第二相似度集合：

可选地，所述第一筛选单元根据该第一路径特征的第一相似度集合，确定所述各第一图谱路径中符合第一融合条件的第三图谱路径，包括：

可选地，所述第二筛选单元根据该第一元素特征的第二相似度集合，确定所述第三图谱路径中符合第二融合条件的待融合图谱路径，包括：

可选地，所述数据融合单元将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合，包括：

可选地，所述数据预处理单元采用如下方式确定各图谱路径对应的各路径特征：

本发明还提供一种计算机程序介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例1中提供的知识图谱融合方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种知识图谱融合方法，其特征在于，包括：

针对各第一图谱路径对应的各第一路径特征，遍历该第一路径特征的第一相似度集合，比较各第一相似度和第一预设阈值的大小；若不存在大于所述第一预设阈值的第一相似度，则确定该第一路径特征对应的第一图谱路径符合第一融合条件，并将该第一图谱路径作为第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；路径特征包括融合后的对应的图谱路径的名称特征和语义特征；所述路径特征包括所述第一路径特征和所述第二路径特征；

针对各第一图谱元素对应的各第一元素特征，遍历该第一元素特征的第二相似度集合，比较各第二相似度和第二预设阈值的大小；若存在大于所述第二预设阈值的第二相似度，则确定包括该第一元素特征的第三图谱路径符合第二融合条件，并将该第三图谱路径作为待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；元素特征包括融合后的对应的图谱元素的名称特征和语义特征；所述元素特征包括所述第一元素特征和所述第二元素特征；

2.根据权利要求1所述的方法，其特征在于，采用如下方式确定所述第一路径特征的第一相似度集合：

采用如下方式确定所述第一元素特征的第二相似度集合：

3.根据权利要求1所述的方法，其特征在于，将所述待融合图谱路径对应的第一待融合数据与所述第二待融合数据进行融合，包括：

4.根据权利要求1所述的方法，其特征在于，采用如下方式确定各图谱路径对应的各路径特征：

5.一种知识图谱融合设备，其特征在于，包括存储器和处理器，其中：

所述存储器用于存储计算机程序；

所述处理器用于读取所述存储器中的程序并执行权利要求1~4任一所述的知识图谱融合方法的步骤。

6.一种知识图谱融合装置，其特征在于，包括：

第一筛选单元，用于针对各第一图谱路径对应的各第一路径特征，遍历该第一路径特征的第一相似度集合，比较各第一相似度和第一预设阈值的大小；若不存在大于所述第一预设阈值的第一相似度，则确定该第一路径特征对应的第一图谱路径符合第一融合条件，并将该第一图谱路径作为第三图谱路径；其中，所述第一路径特征的第一相似度集合包括所述第一路径特征与各第二图谱路径对应的各第二路径特征之间的第一相似度；路径特征包括融合后的对应的图谱路径的名称特征和语义特征；所述路径特征包括所述第一路径特征和所述第二路径特征；

第二筛选单元，用于针对各第一图谱元素对应的各第一元素特征，遍历该第一元素特征的第二相似度集合，比较各第二相似度和第二预设阈值的大小；若存在大于所述第二预设阈值的第二相似度，则确定包括该第一元素特征的第三图谱路径符合第二融合条件，并将该第三图谱路径作为待融合图谱路径；其中，所述第一元素特征的第二相似度集合包括所述第一元素特征与各第二图谱元素对应的各第二元素特征之间的第二相似度；元素特征包括融合后的对应的图谱元素的名称特征和语义特征；所述元素特征包括所述第一元素特征和所述第二元素特征；

7.一种计算机程序介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1~4任一所述知识图谱融合方法的步骤。