CN111046186A

CN111046186A - 知识图谱的实体对齐方法、装置、设备及存储介质

Info

Publication number: CN111046186A
Application number: CN201911043138.9A
Authority: CN
Inventors: 凌岚; 刘嘉伟; 于修铭; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-04-21
Also published as: WO2021082100A1

Abstract

本发明涉及大数据技术领域，公开了知识图谱的实体对齐方法、装置、设备及存储介质，通过PR算法计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。本发明方法包括：获取两个待融合知识图谱的实体；根据两个待融合知识图谱的实体，生成待对齐实体对；基于待对齐实体对，生成两个待融合知识图谱的配对图；基于配对图，通过PR算法计算待对齐实体对的相似值；根据待对齐实体对的相似值进行实体对齐。

Description

知识图谱的实体对齐方法、装置、设备及存储介质

技术领域

本发明涉及知识关系分析领域，尤其涉及知识图谱的实体对齐方法、装置、设备及存储介质。

背景技术

知识图谱技术日益成为人工智能的基础，它是机器理解自然语言和构建知识网络的重要方法。为了构建一个完备的法律知识体系，需要融合来自各领域的知识，在融合多个知识图谱的过程中，一个重要的步骤便是实体对齐。实体对齐的问题来源于在不同的知识图谱中会有相同实体，但是相同实体可能具有不同的表达，例如“唐僧”和“唐三奘”，又或者在不同的知识图谱中，相同表达的实体表示的含义不同，例如“我喜欢吃苹果”和“苹果的创始人是乔布斯”这两句话中都有“苹果”，但“苹果”表示不同的含义。

目前知识图谱的实体对齐方法侧重于对不同知识图谱中的实体对进行建模，研究实体的概率分布，但这种方法局限于小规模的数据，并且依赖先验分布。也有人提出了运用贪心算法的实体对齐方法，但这种方法不能区分出具有相同名称却不同意义的实体，实体对齐的效率低，不利于多个知识图谱的融合。

发明内容

本发明提供一种知识图谱的实体对齐方法，通过PR算法(PageRank，网页排名)计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。

本发明实施例的第一方面提供一种知识图谱的实体对齐方法，包括：获取两个待融合知识图谱的实体；根据所述两个待融合知识图谱的实体，生成待对齐实体对；基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；基于所述配对图，通过PR算法计算所述待对齐实体对的相似值；根据所述待对齐实体对的相似值进行实体对齐。

可选的，在本发明实施例第一方面的第一种实现方式中，所述基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图，包括：获取所述两个待融合知识图谱的图G₁(V₁,E₁)和图G₂(V₂,E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示所述第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示所述第二待融合知识图谱的所有三元组；创建所述两个待融合知识图谱的配对图G₃，并增加表示目标待对齐实体对的初始节点(a_s,b_s)，所述目标实体对a_s和b_s为任意一个待对齐实体对；基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边。

可选的，在本发明实施例第一方面的第二种实现方式中，所述基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边，包括：当三元组(a_s,p,a_n)∈E₁，三元组(b_s,p,b_n)∈E₂，a_n∈V₁，b_n∈V₂，p为E₁和/或E₂中的关系，且实体a_n和b_n的类型相同时，在所述配对图G₃中增加节点(a_n,b_n)，以及连接(a_s,b_s)和(a_n,b_n)的无向边，(a_n,b_n)为(a_s,b_s)的邻居实体对节点；当三元组(a_n,p,c_n)∈E₁，三元组(b_n,p,d_n)∈E₂，c_n∈V₁，d_n∈V₂，且实体c_n和d_n的类型相同，在所述配对图G₃中增加节点(c_n,d_n)，以及连接(a_n,b_n)和(c_n,d_n)的无向边；当三元组(h_n,p,i_n)∈E₁，三元组(l_n,p,m_n)∈E₂，节点(h_n,l_n)属于配对图G₃，且实体i_n和m_n的类型相同时，重复在配对图G₃中增加节点(i_n，m_n)，以及连接(h_n,l_n)和(i_n，m_n)的无向边，直至遍历E₁和E₂中所有的三元组；确定所述初始节点(a_s,b_s)冲突的所述邻居实体对节点，所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点；在所述冲突的邻居实体对节点中，保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。

可选的，在本发明实施例第一方面的第三种实现方式中，所述基于所述配对图，通过PR算法计算所述待对齐实体对的相似值，包括：确定所述两个待融合知识图谱中的共享原始词w_n，所述共享原始词w_n为所述两个待融合知识图谱中已确定含义相同的单词；确定每个所述共享原始词w_n在所述配对图G₃中的邻居实体对节点W_i ⁿ，并统计每个w_n的邻居实体对节点数量degree(w_n)；通过预置的相似值计算公式计算待对齐实体对的相似值，所述预置的相似值计算公式为：

其中，e₃和e₄表示一个所述待对齐实体对，deg(w_n)表示所述共享原始词w_n的邻居实体对节点数量degree(w_n)，PPR(W_i ⁿ→＜e₃,e₄＞)表示在所述配对图G₃中从节点W_i ⁿ至节点＜e₃,e₄＞的PPR值。

可选的，在本发明实施例第一方面的第四种实现方式中，所述根据所述两个待融合知识图谱的实体，生成待对齐实体对，包括：通过词袋模型对所述两个待融合知识图谱的实体进行向量转换，得到实体向量；对所述实体向量进行预处理；计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体表示向量；将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。

可选的，在本发明实施例第一方面的第五种实现方式中，所述对所述实体向量进行预处理，包括：计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值，所述实体向量至少包括一个单词向量；删除所述实体向量中IDF值低于预置IDF值的所述单词向量。

可选的，在本发明实施例第一方面的第六种实现方式中，所述计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体向量，包括：确定目标实体向量对中相同的所述单词向量；通过预置的初始相似度计算公式，计算所述目标实体向量对的初始相似度，所述预置的初始相似度计算公式为：

其中，e₁和e₂表示所述目标实体向量对，ω表示所述目标实体向量对中相同的所述单词向量，idf₁(ω)表示ω在e₁中的IDF值，idf₂(ω)表示ω在e₂中的IDF值。

本发明实施例的第二方面提供了一种知识图谱的实体对齐装置，包括：获取单元，用于获取两个待融合知识图谱的实体；第一生成单元，用于根据所述两个待融合知识图谱的实体，生成待对齐实体对；第二生成单元，用于基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；计算单元，用于基于所述配对图，通过PR算法计算所述待对齐实体对的相似值；对齐单元，用于根据所述待对齐实体对的相似值进行实体对齐。

可选的，在本发明实施例第二方面的第一种实现方式中，第二生成单元具体包括：获取模块，用于获取所述两个待融合知识图谱的图G₁(V₁,E₁)和图G₂(V₂,E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示所述第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示所述第二待融合知识图谱的所有三元组；创建模块，用于创建所述两个待融合知识图谱的配对图G₃，并在所述配对图G₃中增加表示目标待对齐实体对的初始节点(a_s,b_s)，所述目标实体对a_s和b_s为任意一个待对齐实体对；增加模块，用于基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边。

可选的，在本发明实施例第二方面的第二种实现方式中，增加模块具体用于：当三元组(a_s,p,a_n)∈E₁，三元组(b_s,p,b_n)∈E₂，a_n∈V₁，b_n∈V₂，p为E₁和/或E₂中的关系，且实体a_n和b_n的类型相同时在所述配对图G₃中增加节点(a_n，b_n)，以及连接(a_s,b_s)和(a_n,b_n)的无向边，(a_n,b_n)为(a_s,b_s)的邻居实体对节点；当三元组(a_n,p,c_n)∈E₁，三元组(b_n,p,d_n)∈E₂，c_n∈V₁，

d_n∈V₂，且实体c_n和d_n的类型相同，在所述配对图G₃中增加节点(c_n,d_n)，以及连接(a_n,b_n)和(c_n,d_n)的无向边；当三元组(h_n,p,i_n)∈E₁，三元组

(l_n,p,m_n)∈E₂，节点(h_n,l_n)属于配对图G₃，且实体i_n和m_n的类型相同时，重复在配对图G₃中增加节点(i_n，m_n)，以及连接(h_n,l_n)和(i_n，m_n)的无向边，直至遍历E₁和E₂中所有的三元组；确定所述初始节点(a_s,b_s)冲突的所述邻居实体对节点，所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点；在所述冲突的邻居实体对节点中，保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。

可选的，在本发明实施例第二方面的第三种实现方式中，计算单元具体用于：确定所述两个待融合知识图谱中的共享原始词w_n，所述共享原始词w_n为所述两个待融合知识图谱中已确定含义相同的单词；确定每个所述共享原始词w_n在所述配对图G₃中的邻居实体对节点W_i ⁿ，并统计每个w_n的邻居实体对节点数量degree(w_n)；通过预置的相似值计算公式计算待对齐实体对的相似值，所述预置的相似值计算公式为：

可选的，在本发明实施例第二方面的第四种实现方式中，第一生成单元具体包括：转换模块，用于通过词袋模型对所述两个待融合知识图谱的实体进行向量转换，得到实体向量；处理模块，用于对所述实体向量进行预处理；计算模块，用于计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体向量；设置模块，用于将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。

可选的，在本发明实施例第二方面的第五种实现方式中，处理模块具体用于：计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值，所述实体向量至少包括一个单词向量；删除所述实体向量中IDF值低于预置IDF值的所述单词向量。

可选的，在本发明实施例第二方面的第六种实现方式中，计算模块具体用于：确定目标实体向量对中相同的所述单词向量；通过预置的初始相似度计算公式，计算所述目标实体向量对的初始相似度，所述预置的初始相似度计算公式为：

本发明实施例的第三方面提供了一种知识图谱的实体对齐设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的知识图谱的实体对齐方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的知识图谱的实体对齐方法的步骤。

本发明实施例提供的技术方案中，获取两个待融合知识图谱的实体；根据所述两个待融合知识图谱的实体，生成待对齐实体对；基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；基于所述配对图，通过网页排名PR算法计算所述待对齐实体对的相似值；根据所述待对齐实体对的相似值进行实体对齐。本发明实施例，通过PR算法计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。

附图说明

图1为本发明实施例中知识图谱的实体对齐方法的一个实施例示意图；

图2为本发明实施例中知识图谱的实体对齐方法的另一个实施例示意图；

图3为本发明实施例中知识图谱的实体对齐装置的一个实施例示意图；

图4为本发明实施例中知识图谱的实体对齐装置的另一个实施例示意图；

图5为本发明实施例中知识图谱的实体对齐设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种知识图谱的实体对齐方法、装置、设备及存储介质，通过PR算法计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例提供的一种知识图谱的实体对齐方法的流程图，具体包括：

101、获取两个待融合知识图谱的实体。

服务器获取两个待融合知识图谱的实体，两个待融合知识图谱为进行融合的任意两个知识图谱。

需要说明的是，一个完备的知识图谱需要融合多个知识图谱，将表达含义相同的实体进行归类，在不同的知识图谱中，相同的实体表达的含义可能不相同，例如实体“苹果”，在知识图谱A中表示水果，在知识图谱B中表示电子产品；不同的实体在不同的知识图谱中表达的含义可能相同，例如知识图谱C中的实体“猫王”与知识图谱D中的实体“ElvisPresley”表示相同的含义。

102、根据两个待融合知识图谱的实体，生成待对齐实体对。

服务器基于两个待融合知识图谱的实体生成待对齐实体对。服务器对两个带融合知识图谱的实体进行转换并进行预处理后，计算所有实体对的初始相似度，将初始相似度超过预置阈值的实体对设置为带匹配实体对。

其中，生成待对齐实体对的具体过程为：服务器通过词袋模型对两个待融合知识图谱的实体进行向量转换，得到实体向量；服务器对实体向量进行预处理；服务器计算实体向量对之间的初始相似度，实体向量对为任意两个实体向量；服务器将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。

服务器对实体表示向量进行预处理，筛选出所有实体表示向量中逆文本频率指数(inverse document frequency，IDF)值高的单词表示向量，删除IDF值低的单词。具体的，服务器计算两个待融合知识图谱中所有单词表示向量的逆文本频率指数IDF值；服务器删除实体表示向量中IDF值低于预置IDF值的单词表示向量。IDF值是一个词语的普遍性和重要性的度量，如果词语的IDF值低，表示词语出现的频率高，在实体表示向量中往往为无需进行区分的单词表示向量，如停顿词“的”和“了”的表示向量。服务器删除IDF值低的单词表示向量有利于提高实体表示向量匹配的效率。

服务器基于IDF值，计算预处理后实体表示向量对之间的初始相似度，实体对为任意两个实体。具体的，服务器确定目标实体向量对中相同的单词向量之后，通过预置的初始相似度计算公式，计算目标实体向量对的初始相似度，预置的初始相似度计算公式为：

其中，e₁和e₂表示目标实体向量对，ω表示目标实体向量对中相同的单词向量，idf₁(ω)表示ω在e₁中的IDF值，idf₂(ω)表示ω在e₂中的IDF值。

103、基于待对齐实体对，生成两个待融合知识图谱的配对图。

服务器基于待匹配的实体对生成两个待融合知识图谱的配对图，配对图包括待对齐实体对节点，以及基于两个待融合知识图谱中三元组数据生成的节点和连接节点的无向边。配对图中的节点为待对齐实体对节点，以及与待对齐实体对节点相关的实体对节点。

举例说明，“唐僧”和“唐三藏”为一个带对齐实体对，“唐僧”的实体向量为a，“唐三藏”的实体向量为b，“唐僧”是第一待融合知识图谱中的实体，“唐三藏”是第二带融合知识图谱中的实体，在第一待融合知识图谱中，有三元组(唐僧，是，和尚)，在第二待融合知识图谱中，有三元组(唐三藏，是，师父)，“和尚”的实体向量为c，“师父”的实体向量为d，则在配对图中，有待对齐实体对节点(a，b)，以及(a，b)相关的实体对节点(c，d)，需要说明的是，(c，d)相关的实体对节点也是初始节点(a，b)相关的实体对节点。

104、基于配对图，通过PR算法计算待对齐实体对的相似值。

服务器基于配对图，通过网页排名(page rank，PR)算法计算待对齐实体对的相似值。PR算法基于随机游走计算节点的静态分布，计算配对图中每个节点的初始相似值，然后通过无向边进行传播，得到两个节点间的相似值，对于配对图中任意两个节点，源节点u和降落节点v，通过PR算法可以计算得到从源节点u到降落节点v的PPR值PPR(v→u)，PPR值是指在一个图中从一个节点游走至另外一个节点的静态分布概率，基于PPR值和初始相似值，可以得到源节点u和降落节点v之间的相似值。PPR值越大，表示从源节点游走至降落节点v的概率越大。通过PR算法能够结合待对齐实体对的邻居实体对信息确定待匹配实体是否相似，提高了服务器确定实体是否相似的准确性。

105、根据待对齐实体对的相似值进行实体对齐。

服务器根据待对齐实体对的相似值进行实体对齐。具体的，服务器判断待对齐实体对的相似值是否超过预置相似值；若目标待对齐实体对的相似值超过预置相似值，目标待对齐实体对为任意一个待对齐实体对，则服务器将目标待对齐实体对标记为表达含义相同的实体对；若目标待对齐实体对的相似值未超过预设阈值，则服务器确定目标待对齐实体对表示的含义不同。

可以理解的是，当服务器确定一个待对齐实体对中两个实体表示的含义相同时，服务器通过标记或者关联两个实体的实体向量，以便在融合的知识图谱中确定两个实体为含义相同的实体。

本发明实施例，通过PR算法计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。

请参阅图2，本发明实施例中知识图谱的实体对齐方法的另一个实施例包括：

201、获取两个待融合知识图谱的实体。

202、根据两个待融合知识图谱的实体，生成待对齐实体对。

服务器对实体表示向量进行预处理，筛选出所有实体表示向量中逆文本频率指数IDF值高的单词表示向量，删除IDF值低的单词。具体的，服务器计算两个待融合知识图谱中所有单词表示向量的逆文本频率指数IDF值；服务器删除实体表示向量中IDF值低于预置IDF值的单词表示向量。IDF值是一个词语的普遍性和重要性的度量，如果词语的IDF值低，表示词语出现的频率高，在实体表示向量中往往为无需进行区分的单词表示向量，如停顿词“的”和“了”的表示向量。服务器删除IDF值低的单词表示向量有利于提高实体表示向量匹配的效率。

203、获取两个待融合知识图谱的图G₁(V₁，E₁)和图G₂(V₂，E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示第二待融合知识图谱的所有三元组。

服务器获取两个待融合知识图谱的图G₁(V₁,E₁)和图G₂(V₂,E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示第二待融合知识图谱的所有三元组。

204、创建两个待融合知识图谱的配对图G₃，并在配对图G₃中增加表示目标待对齐实体对的初始节点(a_s,b_s)，目标实体对a_s和b_s为任意一个待对齐实体对。

服务器创建两个待融合知识图谱的配对图G₃，并在配对图G₃中增加表示目标待对齐实体对的初始节点(a_s,b_s)，目标实体对a_s和b_s为任意一个待对齐实体对。

举例说明，“唐僧”和“唐三藏”为一个带对齐实体对，“唐僧”的实体向量为a，“唐三藏”的实体向量为b，“唐僧”是第一待融合知识图谱中的实体，“唐三藏”是第二带融合知识图谱中的实体，则在配对图中G₃，有待对齐实体对节点(a，b)，(a，b)为初始节点。

205、基于初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加配对图G₃中的其他节点以及连接节点的无向边。

服务器基于初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加配对图G₃中的其他节点以及连接节点的无向边。除初始节点外，服务器增加其他节点和无向边的过程为，当三元组(a_s,p,a_n)∈E₁，三元组(b_s,p,b_n)∈E₂，a_n∈V₁，b_n∈V₂，且实体a_n和b_n的类型相同时，在配对图G₃中增加节点(a_n，b_n)，以及连接(a_s,b_s)和(a_n，b_n)的无向边，(a_n，b_n)为(a_s,b_s)的邻居实体对节点；当三元组(a_n,p,c_n)∈E₁，三元组(b_n,p,d_n)∈E₂，c_n∈V₁，d_n∈V₂，且实体c_n和d_n的类型相同，在配对图G₃中增加节点(c_n,d_n)，以及连接(a_n,b_n)和(c_n,d_n)的无向边；当三元组(h_n,p,i_n)∈E₁，三元组(l_n,p,m_n)∈E₂，节点(h_n,l_n)属于配对图G₃，且实体i_n和m_n的类型相同时，重复在配对图G₃中增加节点(i_n，m_n)，以及连接(h_n,l_n)和(i_n，m_n)的无向边，直至遍历E₁和E₂中所有的三元组。

需要说明的是，本实例中所有三元组中的关系p为第一待融合知识图谱和/或第二待融合知识图谱中任意一个关系。在本申请中出现的三元组(a_s,p,a_n)∈E₁、(b_s,p,b_n)∈E₂、(a_n,p,c_n)∈E₁、(b_n,p,d_n)∈E₂、(h_n,p,i_n)∈E₁、(l_n,p,m_n)∈E₂中的p指代的关系可以相同，也可以不同。

举例说明，“唐僧”和“唐三藏”为一个带对齐实体对，“唐僧”的实体向量为a，“唐三藏”的实体向量为b，“唐僧”是第一待融合知识图谱中的实体，“唐三藏”是第二带融合知识图谱中的实体，在第一待融合知识图谱中，有三元组(唐僧，是，和尚)，在第二待融合知识图谱中，有三元组(唐三藏，是，师父)，“和尚”的实体向量为c，“师父”的实体向量为d，“和尚”和“师父”的实体类型相同，都表示一种身份，则在配对图G₃中，有表示待对齐实体对的初始节点(a，b)，以及(a，b)邻居实体对节点(c，d)，节点(a，b)和节点(c，d)通过无向边连接。

需要说明的是，为了降低配对图G₃的复杂度，在冲突的邻居实体对节点中，服务器保留初始相似度最大的邻居实体对，删除剩余冲突的邻居实体对节点以及进行连接的无向边。冲突的邻居实体对节点为包含一个相同实体的多个邻居实体对节点，例如实体p1同时在邻居实体对节点(p1，p3)、(p1，p4)中出现，我们将这两个节点作为冲突的邻居实体对节点。

206、基于配对图G₃，通过PR算法计算待对齐实体对的相似值。

服务器基于配对图G₃，通过PR算法计算待对齐实体对的相似值。PR算法基于随机游走计算节点的静态分布，计算配对图中每个节点的初始相似值，然后通过无向边进行传播，得到两个节点间的相似值，对于配对图中任意两个节点，源节点u和降落节点v，通过PR算法可以计算得到从源节点u到降落节点v的PPR值PPR(v→u)，PPR值是指在一个图中基于一个节点游走至其他节点的静态分布概率，基于PPR值和初始相似值，可以得到源节点u和降落节点v之间的相似值。PPR值越大，表示从源节点游走至降落节点v的概率越大。通过PR算法能够结合待对齐实体对的邻居实体对信息确定待匹配实体是否相似，提高了服务器确定实体是否相似的准确性。

服务器具体计算相似值得过程为：服务器确定两个待融合知识图谱中的共享原始词w_n，共享原始词指两个待融合知识图谱中已确定含义相同的单词，再确定每个共享原始词w_n在配对图G₃中的邻居实体对节点W_i ⁿ，并统计每个w_n的邻居实体对节点数量degree(w_n)，例如共享原始词“电影”在两个待融合知识图谱中表示相同的含义，在配对图G₃中存在节点(电影，电影)，该节点被称为源节点，源节点的相似值为1，从源节点出发计算待对齐实体对的相似值，有利于提高计算待对齐实体对相似值的准确性；之后，服务器通过预置的相似值计算公式计算待对齐实体对的相似值，预置的相似值计算公式为：

其中，e₃和e₄表示一个待对齐实体对，deg(w_n)表示共享原始词w_n的邻居实体对节点数量degree(w_n)，PPR(W_i ⁿ→＜e₃,e₄＞)表示在配对图G₃中从节点W_i ⁿ至节点＜e₃,e₄＞的PPR值。

服务器通过将配对图中每个源节点游走至待对齐节点的PPR值之和作为待对齐实体的相似值，可以结合与带对齐实体对相关的三元组数据信息进一步提高相似值的可信度，提高实体对齐的准确性。

207、根据待对齐实体对的相似值进行实体对齐。

可以理解的是，当服务器确定一个待对齐实体对中两个实体表示的含义相同时，服务器通过标记或者关联两个实体的实体向量，以便服务器在融合的知识图谱中确定两个实体为含义相同的实体。

上面对本发明实施例中知识图谱的实体对齐方法进行了描述，下面对本发明实施例中知识图谱的实体对齐装置进行描述，请参阅图3，本发明实施例中知识图谱的实体对齐装置的一个实施例包括：

获取单元301，用于获取两个待融合知识图谱的实体；

第一生成单元302，用于根据所述两个待融合知识图谱的实体，生成待对齐实体对；

第二生成单元303，用于基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；

计算单元304，基于所述配对图，通过网页排名PR算法计算所述待对齐实体对的相似值；

对齐单元305，用于根据所述待对齐实体对的相似值进行实体对齐。

本发明实施例，本发明实施例，通过PR算法计算实体之间的相似值，基于实体的相似值进行实体对齐，提高了实体对齐的效率以及实体对齐的准确度。

请参阅图4，本发明实施例中知识图谱的实体对齐装置的一个实施例包括：

获取单元301，用于获取两个待融合知识图谱的实体；

可选的，第二生成单元303具体包括：

获取模块3031，用于获取所述两个待融合知识图谱的图G₁(V₁,E₁)和图G₂(V₂,E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示所述第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示所述第二待融合知识图谱的所有三元组；

创建模块3032，用于创建所述两个待融合知识图谱的配对图G₃，并在所述配对图G₃中增加表示目标待对齐实体对的初始节点(a_s,b_s)，所述目标实体对a_s和b_s为任意一个待对齐实体对；

增加模块3033，用于基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边。

可选的，转换模块增加模块3033具体用于：

当三元组(a_s,p,a_n)∈E₁，三元组(b_s,p,b_n)∈E₂，a_n∈V₁，b_n∈V₂，p为E₁和/或E₂中的关系，且实体a_n和b_n的类型相同时在所述配对图G₃中增加节点(a_n，b_n)，以及连接(a_s,b_s)和(a_n,b_n)的无向边，(a_n,b_n)为(a_s,b_s)的邻居实体对节点；当三元组(a_n,p,c_n)∈E₁，三元组(b_n,p,d_n)∈E₂，c_n∈V₁，d_n∈V₂，且实体c_n和d_n的类型相同，在所述配对图G₃中增加节点(c_n,d_n)，以及连接(a_n,b_n)和(c_n,d_n)的无向边；当三元组(h_n,p,i_n)∈E₁，三元组(l_n,p,m_n)∈E₂，节点(h_n,l_n)属于配对图G₃，且实体i_n和m_n的类型相同时，重复在配对图G₃中增加节点(i_n，m_n)，以及连接(h_n,l_n)和(i_n，m_n)的无向边，直至遍历E₁和E₂中所有的三元组；确定所述初始节点(a_s,b_s)冲突的所述邻居实体对节点，所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点；在所述冲突的邻居实体对节点中，保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。

可选的，计算单元304具体用于：

确定所述两个待融合知识图谱中的共享原始词w_n，所述共享原始词w_n为所述两个待融合知识图谱中已确定含义相同的单词；确定每个所述共享原始词w_n在所述配对图G₃中的邻居实体对节点W_i ⁿ，并统计每个w_n的邻居实体对节点数量degree(w_n)；通过预置的相似值计算公式计算待对齐实体对的相似值，所述预置的相似值计算公式为：

可选的，第一生成单元302具体包括：

转换模块3021，用于通过词袋模型对所述两个待融合知识图谱的实体进行向量转换，得到实体向量；

处理模块3022，用于对所述实体向量进行预处理；

计算模块3023，用于计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体向量；

设置模块3024，用于将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。

可选的，处理模块3022具体用于：

计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值，所述实体向量至少包括一个单词向量；删除所述实体向量中IDF值低于预置IDF值的所述单词向量。

可选的，计算模块3023具体用于：

确定目标实体向量对中相同的所述单词向量；通过预置的初始相似度计算公式，计算所述目标实体向量对的初始相似度，所述预置的初始相似度计算公式为：

上面图3至图4从模块化功能实体的角度对本发明实施例中的知识图谱的实体对齐装置进行详细描述，下面从硬件处理的角度对本发明实施例中知识图谱的实体对齐设备进行详细描述。

图5是本发明实施例提供的一种知识图谱的实体对齐设备的结构示意图，该知识图谱的实体对齐设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对知识图谱的实体对齐设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在知识图谱的实体对齐设备500上执行存储介质508中的一系列指令操作。

知识图谱的实体对齐设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的知识图谱的实体对齐设备结构并不构成对知识图谱的实体对齐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、第一生成单元302、第二生成单元303、计算单元304和对齐单元305的功能。

下面结合图5对知识图谱的实体对齐设备的各个构成部件进行具体的介绍：

处理器501是知识图谱的实体对齐设备的控制中心，可以按照设置的知识图谱的实体对齐方法进行处理。处理器501利用各种接口和线路连接整个知识图谱的实体对齐设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行知识图谱的实体对齐设备的各种功能和处理数据，从而实现知识图谱的实体对齐。存储介质508和存储器509都是存储数据的载体，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行知识图谱的实体对齐设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(计算相似值的应用程序等)等；存储数据区可存储根据知识图谱的实体对齐设备的使用所创建的数据(比如初始节点)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的知识图谱的实体对齐方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识图谱的实体对齐方法，其特征在于，包括：

获取两个待融合知识图谱的实体；

根据所述两个待融合知识图谱的实体，生成待对齐实体对；

基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；

基于所述配对图，通过网页排名PR算法计算所述待对齐实体对的相似值；

根据所述待对齐实体对的相似值进行实体对齐。

2.根据权利要求1所述的知识图谱的实体对齐方法，其特征在于，所述基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图，包括：

获取所述两个待融合知识图谱的图G₁(V₁,E₁)和图G₂(V₂,E₂)，V₁表示第一待融合知识图谱中的所有实体，E₁表示所述第一待融合知识图谱的所有三元组，V₂表示第二待融合知识图谱中的所有实体，E₂表示所述第二待融合知识图谱的所有三元组；

创建所述两个待融合知识图谱的配对图G₃，并在所述配对图G₃中增加表示目标待对齐实体对的初始节点(a_s,b_s)，所述目标实体对a_s和b_s为任意一个待对齐实体对；

基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边。

3.根据权利要求2所述的知识图谱的实体对齐方法，其特征在于，所述基于所述初始节点(a_s,b_s)、图G₁(V₁,E₁)和图G₂(V₂,E₂)增加所述配对图G₃中的其他节点以及连接节点的无向边，包括：

当三元组(a_s,p,a_n)∈E₁，三元组(b_s,p,b_n)∈E₂，p为E₁和/或E₂中的关系，a_n∈V₁，b_n∈V₂，且实体a_n和b_n的类型相同时在所述配对图G₃中增加节点(a_n,b_n)，以及连接(a_s,b_s)和(a_n,b_n)的无向边，(a_n,b_n)为(a_s,b_s)的邻居实体对节点；

当三元组(a_n,p,c_n)∈E₁，三元组(b_n,p,d_n)∈E₂，c_n∈V₁，d_n∈V₂，且实体c_n和d_n的类型相同，在所述配对图G₃中增加节点(c_n,d_n)，以及连接(a_n,b_n)和(c_n,d_n)的无向边；

当三元组(h_n,p,i_n)∈E₁，三元组(l_n,p,m_n)∈E₂，节点(h_n,l_n)属于配对图G₃，且实体i_n和m_n的类型相同时，重复在配对图G₃中增加节点(i_n，m_n)，以及连接(h_n,l_n)和(i_n，m_n)的无向边，直至遍历E₁和E₂中所有的三元组；

确定所述初始节点(a_s,b_s)冲突的所述邻居实体对节点，所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点；

在所述冲突的邻居实体对节点中，保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。

4.根据权利要求3所述的知识图谱的实体对齐方法，其特征在于，所述基于所述配对图，通过PR算法计算所述待对齐实体对的相似值，包括：

确定所述两个待融合知识图谱中的共享原始词w_n，所述共享原始词w_n为所述两个待融合知识图谱中已确定含义相同的单词；

确定每个所述共享原始词w_n在所述配对图G₃中的邻居实体对节点W_i ⁿ，并统计每个w_n的邻居实体对节点数量degree(w_n)；

通过预置的相似值计算公式计算待对齐实体对的相似值，所述预置的相似值计算公式为：

5.根据权利要求1-4中任一所述的知识图谱的实体对齐方法，其特征在于，所述根据所述两个待融合知识图谱的实体，生成待对齐实体对，包括：

通过词袋模型对所述两个待融合知识图谱的实体进行向量转换，得到实体向量；

对所述实体向量进行预处理；

计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体向量；

将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。

6.根据权利要求5所述的知识图谱的实体对齐方法，其特征在于，所述对所述实体向量进行预处理，包括：

计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值，所述实体向量至少包括一个单词向量；

删除所述实体向量中IDF值低于预置IDF值的所述单词向量。

7.根据权利要求6所述的知识图谱的实体对齐方法，其特征在于，所述计算实体向量对之间的初始相似度，所述实体向量对为任意两个实体向量，包括：

确定目标实体向量对中相同的所述单词向量；

通过预置的初始相似度计算公式，计算所述目标实体向量对的初始相似度，所述预置的初始相似度计算公式为：

8.一种知识图谱的实体对齐装置，其特征在于，包括：

获取单元，用于获取两个待融合知识图谱的实体；

第一生成单元，用于根据所述两个待融合知识图谱的实体，生成待对齐实体对；

第二生成单元，用于基于所述待对齐实体对，生成所述两个待融合知识图谱的配对图；

计算单元，基于所述配对图，通过网页排名PR算法计算所述待对齐实体对的相似值；

对齐单元，用于根据所述待对齐实体对的相似值进行实体对齐。

9.一种知识图谱的实体对齐设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的知识图谱的实体对齐方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的知识图谱的实体对齐方法。