CN111046186A - 知识图谱的实体对齐方法、装置、设备及存储介质 - Google Patents

知识图谱的实体对齐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111046186A
CN111046186A CN201911043138.9A CN201911043138A CN111046186A CN 111046186 A CN111046186 A CN 111046186A CN 201911043138 A CN201911043138 A CN 201911043138A CN 111046186 A CN111046186 A CN 111046186A
Authority
CN
China
Prior art keywords
entity
graph
knowledge
pair
fused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911043138.9A
Other languages
English (en)
Inventor
凌岚
刘嘉伟
于修铭
汪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201911043138.9A priority Critical patent/CN111046186A/zh
Priority to PCT/CN2019/119307 priority patent/WO2021082100A1/zh
Publication of CN111046186A publication Critical patent/CN111046186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了知识图谱的实体对齐方法、装置、设备及存储介质,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。本发明方法包括:获取两个待融合知识图谱的实体;根据两个待融合知识图谱的实体,生成待对齐实体对;基于待对齐实体对,生成两个待融合知识图谱的配对图;基于配对图,通过PR算法计算待对齐实体对的相似值;根据待对齐实体对的相似值进行实体对齐。

Description

知识图谱的实体对齐方法、装置、设备及存储介质
技术领域
本发明涉及知识关系分析领域,尤其涉及知识图谱的实体对齐方法、装置、设备及存储介质。
背景技术
知识图谱技术日益成为人工智能的基础,它是机器理解自然语言和构建知识网络的重要方法。为了构建一个完备的法律知识体系,需要融合来自各领域的知识,在融合多个知识图谱的过程中,一个重要的步骤便是实体对齐。实体对齐的问题来源于在不同的知识图谱中会有相同实体,但是相同实体可能具有不同的表达,例如“唐僧”和“唐三奘”,又或者在不同的知识图谱中,相同表达的实体表示的含义不同,例如“我喜欢吃苹果”和“苹果的创始人是乔布斯”这两句话中都有“苹果”,但“苹果”表示不同的含义。
目前知识图谱的实体对齐方法侧重于对不同知识图谱中的实体对进行建模,研究实体的概率分布,但这种方法局限于小规模的数据,并且依赖先验分布。也有人提出了运用贪心算法的实体对齐方法,但这种方法不能区分出具有相同名称却不同意义的实体,实体对齐的效率低,不利于多个知识图谱的融合。
发明内容
本发明提供一种知识图谱的实体对齐方法,通过PR算法(PageRank,网页排名)计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
本发明实施例的第一方面提供一种知识图谱的实体对齐方法,包括:获取两个待融合知识图谱的实体;根据所述两个待融合知识图谱的实体,生成待对齐实体对;基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;基于所述配对图,通过PR算法计算所述待对齐实体对的相似值;根据所述待对齐实体对的相似值进行实体对齐。
可选的,在本发明实施例第一方面的第一种实现方式中,所述基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图,包括:获取所述两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示所述第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示所述第二待融合知识图谱的所有三元组;创建所述两个待融合知识图谱的配对图G3,并增加表示目标待对齐实体对的初始节点(as,bs),所述目标实体对as和bs为任意一个待对齐实体对;基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边。
可选的,在本发明实施例第一方面的第二种实现方式中,所述基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边,包括:当三元组(as,p,an)∈E1,三元组(bs,p,bn)∈E2,an∈V1,bn∈V2,p为E1和/或E2中的关系,且实体an和bn的类型相同时,在所述配对图G3中增加节点(an,bn),以及连接(as,bs)和(an,bn)的无向边,(an,bn)为(as,bs)的邻居实体对节点;当三元组(an,p,cn)∈E1,三元组(bn,p,dn)∈E2,cn∈V1,dn∈V2,且实体cn和dn的类型相同,在所述配对图G3中增加节点(cn,dn),以及连接(an,bn)和(cn,dn)的无向边;当三元组(hn,p,in)∈E1,三元组(ln,p,mn)∈E2,节点(hn,ln)属于配对图G3,且实体in和mn的类型相同时,重复在配对图G3中增加节点(in,mn),以及连接(hn,ln)和(in,mn)的无向边,直至遍历E1和E2中所有的三元组;确定所述初始节点(as,bs)冲突的所述邻居实体对节点,所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点;在所述冲突的邻居实体对节点中,保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。
可选的,在本发明实施例第一方面的第三种实现方式中,所述基于所述配对图,通过PR算法计算所述待对齐实体对的相似值,包括:确定所述两个待融合知识图谱中的共享原始词wn,所述共享原始词wn为所述两个待融合知识图谱中已确定含义相同的单词;确定每个所述共享原始词wn在所述配对图G3中的邻居实体对节点Wi n,并统计每个wn的邻居实体对节点数量degree(wn);通过预置的相似值计算公式计算待对齐实体对的相似值,所述预置的相似值计算公式为:
Figure BDA0002253410440000021
其中,e3和e4表示一个所述待对齐实体对,deg(wn)表示所述共享原始词wn的邻居实体对节点数量degree(wn),PPR(Wi n→<e3,e4>)表示在所述配对图G3中从节点Wi n至节点<e3,e4>的PPR值。
可选的,在本发明实施例第一方面的第四种实现方式中,所述根据所述两个待融合知识图谱的实体,生成待对齐实体对,包括:通过词袋模型对所述两个待融合知识图谱的实体进行向量转换,得到实体向量;对所述实体向量进行预处理;计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体表示向量;将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
可选的,在本发明实施例第一方面的第五种实现方式中,所述对所述实体向量进行预处理,包括:计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值,所述实体向量至少包括一个单词向量;删除所述实体向量中IDF值低于预置IDF值的所述单词向量。
可选的,在本发明实施例第一方面的第六种实现方式中,所述计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体向量,包括:确定目标实体向量对中相同的所述单词向量;通过预置的初始相似度计算公式,计算所述目标实体向量对的初始相似度,所述预置的初始相似度计算公式为:
Figure BDA0002253410440000031
其中,e1和e2表示所述目标实体向量对,ω表示所述目标实体向量对中相同的所述单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
本发明实施例的第二方面提供了一种知识图谱的实体对齐装置,包括:获取单元,用于获取两个待融合知识图谱的实体;第一生成单元,用于根据所述两个待融合知识图谱的实体,生成待对齐实体对;第二生成单元,用于基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;计算单元,用于基于所述配对图,通过PR算法计算所述待对齐实体对的相似值;对齐单元,用于根据所述待对齐实体对的相似值进行实体对齐。
可选的,在本发明实施例第二方面的第一种实现方式中,第二生成单元具体包括:获取模块,用于获取所述两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示所述第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示所述第二待融合知识图谱的所有三元组;创建模块,用于创建所述两个待融合知识图谱的配对图G3,并在所述配对图G3中增加表示目标待对齐实体对的初始节点(as,bs),所述目标实体对as和bs为任意一个待对齐实体对;增加模块,用于基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边。
可选的,在本发明实施例第二方面的第二种实现方式中,增加模块具体用于:当三元组(as,p,an)∈E1,三元组(bs,p,bn)∈E2,an∈V1,bn∈V2,p为E1和/或E2中的关系,且实体an和bn的类型相同时在所述配对图G3中增加节点(an,bn),以及连接(as,bs)和(an,bn)的无向边,(an,bn)为(as,bs)的邻居实体对节点;当三元组(an,p,cn)∈E1,三元组(bn,p,dn)∈E2,cn∈V1
dn∈V2,且实体cn和dn的类型相同,在所述配对图G3中增加节点(cn,dn),以及连接(an,bn)和(cn,dn)的无向边;当三元组(hn,p,in)∈E1,三元组
(ln,p,mn)∈E2,节点(hn,ln)属于配对图G3,且实体in和mn的类型相同时,重复在配对图G3中增加节点(in,mn),以及连接(hn,ln)和(in,mn)的无向边,直至遍历E1和E2中所有的三元组;确定所述初始节点(as,bs)冲突的所述邻居实体对节点,所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点;在所述冲突的邻居实体对节点中,保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。
可选的,在本发明实施例第二方面的第三种实现方式中,计算单元具体用于:确定所述两个待融合知识图谱中的共享原始词wn,所述共享原始词wn为所述两个待融合知识图谱中已确定含义相同的单词;确定每个所述共享原始词wn在所述配对图G3中的邻居实体对节点Wi n,并统计每个wn的邻居实体对节点数量degree(wn);通过预置的相似值计算公式计算待对齐实体对的相似值,所述预置的相似值计算公式为:
Figure BDA0002253410440000041
其中,e3和e4表示一个所述待对齐实体对,deg(wn)表示所述共享原始词wn的邻居实体对节点数量degree(wn),PPR(Wi n→<e3,e4>)表示在所述配对图G3中从节点Wi n至节点<e3,e4>的PPR值。
可选的,在本发明实施例第二方面的第四种实现方式中,第一生成单元具体包括:转换模块,用于通过词袋模型对所述两个待融合知识图谱的实体进行向量转换,得到实体向量;处理模块,用于对所述实体向量进行预处理;计算模块,用于计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体向量;设置模块,用于将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
可选的,在本发明实施例第二方面的第五种实现方式中,处理模块具体用于:计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值,所述实体向量至少包括一个单词向量;删除所述实体向量中IDF值低于预置IDF值的所述单词向量。
可选的,在本发明实施例第二方面的第六种实现方式中,计算模块具体用于:确定目标实体向量对中相同的所述单词向量;通过预置的初始相似度计算公式,计算所述目标实体向量对的初始相似度,所述预置的初始相似度计算公式为:
Figure BDA0002253410440000051
其中,e1和e2表示所述目标实体向量对,ω表示所述目标实体向量对中相同的所述单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
本发明实施例的第三方面提供了一种知识图谱的实体对齐设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述的知识图谱的实体对齐方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行上述任一实施方式所述的知识图谱的实体对齐方法的步骤。
本发明实施例提供的技术方案中,获取两个待融合知识图谱的实体;根据所述两个待融合知识图谱的实体,生成待对齐实体对;基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;基于所述配对图,通过网页排名PR算法计算所述待对齐实体对的相似值;根据所述待对齐实体对的相似值进行实体对齐。本发明实施例,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
附图说明
图1为本发明实施例中知识图谱的实体对齐方法的一个实施例示意图;
图2为本发明实施例中知识图谱的实体对齐方法的另一个实施例示意图;
图3为本发明实施例中知识图谱的实体对齐装置的一个实施例示意图;
图4为本发明实施例中知识图谱的实体对齐装置的另一个实施例示意图;
图5为本发明实施例中知识图谱的实体对齐设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种知识图谱的实体对齐方法、装置、设备及存储介质,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例提供的一种知识图谱的实体对齐方法的流程图,具体包括:
101、获取两个待融合知识图谱的实体。
服务器获取两个待融合知识图谱的实体,两个待融合知识图谱为进行融合的任意两个知识图谱。
需要说明的是,一个完备的知识图谱需要融合多个知识图谱,将表达含义相同的实体进行归类,在不同的知识图谱中,相同的实体表达的含义可能不相同,例如实体“苹果”,在知识图谱A中表示水果,在知识图谱B中表示电子产品;不同的实体在不同的知识图谱中表达的含义可能相同,例如知识图谱C中的实体“猫王”与知识图谱D中的实体“ElvisPresley”表示相同的含义。
102、根据两个待融合知识图谱的实体,生成待对齐实体对。
服务器基于两个待融合知识图谱的实体生成待对齐实体对。服务器对两个带融合知识图谱的实体进行转换并进行预处理后,计算所有实体对的初始相似度,将初始相似度超过预置阈值的实体对设置为带匹配实体对。
其中,生成待对齐实体对的具体过程为:服务器通过词袋模型对两个待融合知识图谱的实体进行向量转换,得到实体向量;服务器对实体向量进行预处理;服务器计算实体向量对之间的初始相似度,实体向量对为任意两个实体向量;服务器将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
服务器对实体表示向量进行预处理,筛选出所有实体表示向量中逆文本频率指数(inverse document frequency,IDF)值高的单词表示向量,删除IDF值低的单词。具体的,服务器计算两个待融合知识图谱中所有单词表示向量的逆文本频率指数IDF值;服务器删除实体表示向量中IDF值低于预置IDF值的单词表示向量。IDF值是一个词语的普遍性和重要性的度量,如果词语的IDF值低,表示词语出现的频率高,在实体表示向量中往往为无需进行区分的单词表示向量,如停顿词“的”和“了”的表示向量。服务器删除IDF值低的单词表示向量有利于提高实体表示向量匹配的效率。
服务器基于IDF值,计算预处理后实体表示向量对之间的初始相似度,实体对为任意两个实体。具体的,服务器确定目标实体向量对中相同的单词向量之后,通过预置的初始相似度计算公式,计算目标实体向量对的初始相似度,预置的初始相似度计算公式为:
Figure BDA0002253410440000071
其中,e1和e2表示目标实体向量对,ω表示目标实体向量对中相同的单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
103、基于待对齐实体对,生成两个待融合知识图谱的配对图。
服务器基于待匹配的实体对生成两个待融合知识图谱的配对图,配对图包括待对齐实体对节点,以及基于两个待融合知识图谱中三元组数据生成的节点和连接节点的无向边。配对图中的节点为待对齐实体对节点,以及与待对齐实体对节点相关的实体对节点。
举例说明,“唐僧”和“唐三藏”为一个带对齐实体对,“唐僧”的实体向量为a,“唐三藏”的实体向量为b,“唐僧”是第一待融合知识图谱中的实体,“唐三藏”是第二带融合知识图谱中的实体,在第一待融合知识图谱中,有三元组(唐僧,是,和尚),在第二待融合知识图谱中,有三元组(唐三藏,是,师父),“和尚”的实体向量为c,“师父”的实体向量为d,则在配对图中,有待对齐实体对节点(a,b),以及(a,b)相关的实体对节点(c,d),需要说明的是,(c,d)相关的实体对节点也是初始节点(a,b)相关的实体对节点。
104、基于配对图,通过PR算法计算待对齐实体对的相似值。
服务器基于配对图,通过网页排名(page rank,PR)算法计算待对齐实体对的相似值。PR算法基于随机游走计算节点的静态分布,计算配对图中每个节点的初始相似值,然后通过无向边进行传播,得到两个节点间的相似值,对于配对图中任意两个节点,源节点u和降落节点v,通过PR算法可以计算得到从源节点u到降落节点v的PPR值PPR(v→u),PPR值是指在一个图中从一个节点游走至另外一个节点的静态分布概率,基于PPR值和初始相似值,可以得到源节点u和降落节点v之间的相似值。PPR值越大,表示从源节点游走至降落节点v的概率越大。通过PR算法能够结合待对齐实体对的邻居实体对信息确定待匹配实体是否相似,提高了服务器确定实体是否相似的准确性。
105、根据待对齐实体对的相似值进行实体对齐。
服务器根据待对齐实体对的相似值进行实体对齐。具体的,服务器判断待对齐实体对的相似值是否超过预置相似值;若目标待对齐实体对的相似值超过预置相似值,目标待对齐实体对为任意一个待对齐实体对,则服务器将目标待对齐实体对标记为表达含义相同的实体对;若目标待对齐实体对的相似值未超过预设阈值,则服务器确定目标待对齐实体对表示的含义不同。
可以理解的是,当服务器确定一个待对齐实体对中两个实体表示的含义相同时,服务器通过标记或者关联两个实体的实体向量,以便在融合的知识图谱中确定两个实体为含义相同的实体。
本发明实施例,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
请参阅图2,本发明实施例中知识图谱的实体对齐方法的另一个实施例包括:
201、获取两个待融合知识图谱的实体。
服务器获取两个待融合知识图谱的实体,两个待融合知识图谱为进行融合的任意两个知识图谱。
需要说明的是,一个完备的知识图谱需要融合多个知识图谱,将表达含义相同的实体进行归类,在不同的知识图谱中,相同的实体表达的含义可能不相同,例如实体“苹果”,在知识图谱A中表示水果,在知识图谱B中表示电子产品;不同的实体在不同的知识图谱中表达的含义可能相同,例如知识图谱C中的实体“猫王”与知识图谱D中的实体“ElvisPresley”表示相同的含义。
202、根据两个待融合知识图谱的实体,生成待对齐实体对。
服务器基于两个待融合知识图谱的实体生成待对齐实体对。服务器对两个带融合知识图谱的实体进行转换并进行预处理后,计算所有实体对的初始相似度,将初始相似度超过预置阈值的实体对设置为带匹配实体对。
其中,生成待对齐实体对的具体过程为:服务器通过词袋模型对两个待融合知识图谱的实体进行向量转换,得到实体向量;服务器对实体向量进行预处理;服务器计算实体向量对之间的初始相似度,实体向量对为任意两个实体向量;服务器将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
服务器对实体表示向量进行预处理,筛选出所有实体表示向量中逆文本频率指数IDF值高的单词表示向量,删除IDF值低的单词。具体的,服务器计算两个待融合知识图谱中所有单词表示向量的逆文本频率指数IDF值;服务器删除实体表示向量中IDF值低于预置IDF值的单词表示向量。IDF值是一个词语的普遍性和重要性的度量,如果词语的IDF值低,表示词语出现的频率高,在实体表示向量中往往为无需进行区分的单词表示向量,如停顿词“的”和“了”的表示向量。服务器删除IDF值低的单词表示向量有利于提高实体表示向量匹配的效率。
服务器基于IDF值,计算预处理后实体表示向量对之间的初始相似度,实体对为任意两个实体。具体的,服务器确定目标实体向量对中相同的单词向量之后,通过预置的初始相似度计算公式,计算目标实体向量对的初始相似度,预置的初始相似度计算公式为:
Figure BDA0002253410440000101
其中,e1和e2表示目标实体向量对,ω表示目标实体向量对中相同的单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
203、获取两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示第二待融合知识图谱的所有三元组。
服务器获取两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示第二待融合知识图谱的所有三元组。
204、创建两个待融合知识图谱的配对图G3,并在配对图G3中增加表示目标待对齐实体对的初始节点(as,bs),目标实体对as和bs为任意一个待对齐实体对。
服务器创建两个待融合知识图谱的配对图G3,并在配对图G3中增加表示目标待对齐实体对的初始节点(as,bs),目标实体对as和bs为任意一个待对齐实体对。
举例说明,“唐僧”和“唐三藏”为一个带对齐实体对,“唐僧”的实体向量为a,“唐三藏”的实体向量为b,“唐僧”是第一待融合知识图谱中的实体,“唐三藏”是第二带融合知识图谱中的实体,则在配对图中G3,有待对齐实体对节点(a,b),(a,b)为初始节点。
205、基于初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加配对图G3中的其他节点以及连接节点的无向边。
服务器基于初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加配对图G3中的其他节点以及连接节点的无向边。除初始节点外,服务器增加其他节点和无向边的过程为,当三元组(as,p,an)∈E1,三元组(bs,p,bn)∈E2,an∈V1,bn∈V2,且实体an和bn的类型相同时,在配对图G3中增加节点(an,bn),以及连接(as,bs)和(an,bn)的无向边,(an,bn)为(as,bs)的邻居实体对节点;当三元组(an,p,cn)∈E1,三元组(bn,p,dn)∈E2,cn∈V1,dn∈V2,且实体cn和dn的类型相同,在配对图G3中增加节点(cn,dn),以及连接(an,bn)和(cn,dn)的无向边;当三元组(hn,p,in)∈E1,三元组(ln,p,mn)∈E2,节点(hn,ln)属于配对图G3,且实体in和mn的类型相同时,重复在配对图G3中增加节点(in,mn),以及连接(hn,ln)和(in,mn)的无向边,直至遍历E1和E2中所有的三元组。
需要说明的是,本实例中所有三元组中的关系p为第一待融合知识图谱和/或第二待融合知识图谱中任意一个关系。在本申请中出现的三元组(as,p,an)∈E1、(bs,p,bn)∈E2、(an,p,cn)∈E1、(bn,p,dn)∈E2、(hn,p,in)∈E1、(ln,p,mn)∈E2中的p指代的关系可以相同,也可以不同。
举例说明,“唐僧”和“唐三藏”为一个带对齐实体对,“唐僧”的实体向量为a,“唐三藏”的实体向量为b,“唐僧”是第一待融合知识图谱中的实体,“唐三藏”是第二带融合知识图谱中的实体,在第一待融合知识图谱中,有三元组(唐僧,是,和尚),在第二待融合知识图谱中,有三元组(唐三藏,是,师父),“和尚”的实体向量为c,“师父”的实体向量为d,“和尚”和“师父”的实体类型相同,都表示一种身份,则在配对图G3中,有表示待对齐实体对的初始节点(a,b),以及(a,b)邻居实体对节点(c,d),节点(a,b)和节点(c,d)通过无向边连接。
需要说明的是,为了降低配对图G3的复杂度,在冲突的邻居实体对节点中,服务器保留初始相似度最大的邻居实体对,删除剩余冲突的邻居实体对节点以及进行连接的无向边。冲突的邻居实体对节点为包含一个相同实体的多个邻居实体对节点,例如实体p1同时在邻居实体对节点(p1,p3)、(p1,p4)中出现,我们将这两个节点作为冲突的邻居实体对节点。
206、基于配对图G3,通过PR算法计算待对齐实体对的相似值。
服务器基于配对图G3,通过PR算法计算待对齐实体对的相似值。PR算法基于随机游走计算节点的静态分布,计算配对图中每个节点的初始相似值,然后通过无向边进行传播,得到两个节点间的相似值,对于配对图中任意两个节点,源节点u和降落节点v,通过PR算法可以计算得到从源节点u到降落节点v的PPR值PPR(v→u),PPR值是指在一个图中基于一个节点游走至其他节点的静态分布概率,基于PPR值和初始相似值,可以得到源节点u和降落节点v之间的相似值。PPR值越大,表示从源节点游走至降落节点v的概率越大。通过PR算法能够结合待对齐实体对的邻居实体对信息确定待匹配实体是否相似,提高了服务器确定实体是否相似的准确性。
服务器具体计算相似值得过程为:服务器确定两个待融合知识图谱中的共享原始词wn,共享原始词指两个待融合知识图谱中已确定含义相同的单词,再确定每个共享原始词wn在配对图G3中的邻居实体对节点Wi n,并统计每个wn的邻居实体对节点数量degree(wn),例如共享原始词“电影”在两个待融合知识图谱中表示相同的含义,在配对图G3中存在节点(电影,电影),该节点被称为源节点,源节点的相似值为1,从源节点出发计算待对齐实体对的相似值,有利于提高计算待对齐实体对相似值的准确性;之后,服务器通过预置的相似值计算公式计算待对齐实体对的相似值,预置的相似值计算公式为:
Figure BDA0002253410440000121
其中,e3和e4表示一个待对齐实体对,deg(wn)表示共享原始词wn的邻居实体对节点数量degree(wn),PPR(Wi n→<e3,e4>)表示在配对图G3中从节点Wi n至节点<e3,e4>的PPR值。
服务器通过将配对图中每个源节点游走至待对齐节点的PPR值之和作为待对齐实体的相似值,可以结合与带对齐实体对相关的三元组数据信息进一步提高相似值的可信度,提高实体对齐的准确性。
207、根据待对齐实体对的相似值进行实体对齐。
服务器根据待对齐实体对的相似值进行实体对齐。具体的,服务器判断待对齐实体对的相似值是否超过预置相似值;若目标待对齐实体对的相似值超过预置相似值,目标待对齐实体对为任意一个待对齐实体对,则服务器将目标待对齐实体对标记为表达含义相同的实体对;若目标待对齐实体对的相似值未超过预设阈值,则服务器确定目标待对齐实体对表示的含义不同。
可以理解的是,当服务器确定一个待对齐实体对中两个实体表示的含义相同时,服务器通过标记或者关联两个实体的实体向量,以便服务器在融合的知识图谱中确定两个实体为含义相同的实体。
本发明实施例,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
上面对本发明实施例中知识图谱的实体对齐方法进行了描述,下面对本发明实施例中知识图谱的实体对齐装置进行描述,请参阅图3,本发明实施例中知识图谱的实体对齐装置的一个实施例包括:
获取单元301,用于获取两个待融合知识图谱的实体;
第一生成单元302,用于根据所述两个待融合知识图谱的实体,生成待对齐实体对;
第二生成单元303,用于基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;
计算单元304,基于所述配对图,通过网页排名PR算法计算所述待对齐实体对的相似值;
对齐单元305,用于根据所述待对齐实体对的相似值进行实体对齐。
本发明实施例,本发明实施例,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
请参阅图4,本发明实施例中知识图谱的实体对齐装置的一个实施例包括:
获取单元301,用于获取两个待融合知识图谱的实体;
第一生成单元302,用于根据所述两个待融合知识图谱的实体,生成待对齐实体对;
第二生成单元303,用于基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;
计算单元304,基于所述配对图,通过网页排名PR算法计算所述待对齐实体对的相似值;
对齐单元305,用于根据所述待对齐实体对的相似值进行实体对齐。
可选的,第二生成单元303具体包括:
获取模块3031,用于获取所述两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示所述第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示所述第二待融合知识图谱的所有三元组;
创建模块3032,用于创建所述两个待融合知识图谱的配对图G3,并在所述配对图G3中增加表示目标待对齐实体对的初始节点(as,bs),所述目标实体对as和bs为任意一个待对齐实体对;
增加模块3033,用于基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边。
可选的,转换模块增加模块3033具体用于:
当三元组(as,p,an)∈E1,三元组(bs,p,bn)∈E2,an∈V1,bn∈V2,p为E1和/或E2中的关系,且实体an和bn的类型相同时在所述配对图G3中增加节点(an,bn),以及连接(as,bs)和(an,bn)的无向边,(an,bn)为(as,bs)的邻居实体对节点;当三元组(an,p,cn)∈E1,三元组(bn,p,dn)∈E2,cn∈V1,dn∈V2,且实体cn和dn的类型相同,在所述配对图G3中增加节点(cn,dn),以及连接(an,bn)和(cn,dn)的无向边;当三元组(hn,p,in)∈E1,三元组(ln,p,mn)∈E2,节点(hn,ln)属于配对图G3,且实体in和mn的类型相同时,重复在配对图G3中增加节点(in,mn),以及连接(hn,ln)和(in,mn)的无向边,直至遍历E1和E2中所有的三元组;确定所述初始节点(as,bs)冲突的所述邻居实体对节点,所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点;在所述冲突的邻居实体对节点中,保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。
可选的,计算单元304具体用于:
确定所述两个待融合知识图谱中的共享原始词wn,所述共享原始词wn为所述两个待融合知识图谱中已确定含义相同的单词;确定每个所述共享原始词wn在所述配对图G3中的邻居实体对节点Wi n,并统计每个wn的邻居实体对节点数量degree(wn);通过预置的相似值计算公式计算待对齐实体对的相似值,所述预置的相似值计算公式为:
Figure BDA0002253410440000141
其中,e3和e4表示一个所述待对齐实体对,deg(wn)表示所述共享原始词wn的邻居实体对节点数量degree(wn),PPR(Wi n→<e3,e4>)表示在所述配对图G3中从节点Wi n至节点<e3,e4>的PPR值。
可选的,第一生成单元302具体包括:
转换模块3021,用于通过词袋模型对所述两个待融合知识图谱的实体进行向量转换,得到实体向量;
处理模块3022,用于对所述实体向量进行预处理;
计算模块3023,用于计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体向量;
设置模块3024,用于将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
可选的,处理模块3022具体用于:
计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值,所述实体向量至少包括一个单词向量;删除所述实体向量中IDF值低于预置IDF值的所述单词向量。
可选的,计算模块3023具体用于:
确定目标实体向量对中相同的所述单词向量;通过预置的初始相似度计算公式,计算所述目标实体向量对的初始相似度,所述预置的初始相似度计算公式为:
Figure BDA0002253410440000151
其中,e1和e2表示所述目标实体向量对,ω表示所述目标实体向量对中相同的所述单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
本发明实施例,通过PR算法计算实体之间的相似值,基于实体的相似值进行实体对齐,提高了实体对齐的效率以及实体对齐的准确度。
上面图3至图4从模块化功能实体的角度对本发明实施例中的知识图谱的实体对齐装置进行详细描述,下面从硬件处理的角度对本发明实施例中知识图谱的实体对齐设备进行详细描述。
图5是本发明实施例提供的一种知识图谱的实体对齐设备的结构示意图,该知识图谱的实体对齐设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对知识图谱的实体对齐设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在知识图谱的实体对齐设备500上执行存储介质508中的一系列指令操作。
知识图谱的实体对齐设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的知识图谱的实体对齐设备结构并不构成对知识图谱的实体对齐设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、第一生成单元302、第二生成单元303、计算单元304和对齐单元305的功能。
下面结合图5对知识图谱的实体对齐设备的各个构成部件进行具体的介绍:
处理器501是知识图谱的实体对齐设备的控制中心,可以按照设置的知识图谱的实体对齐方法进行处理。处理器501利用各种接口和线路连接整个知识图谱的实体对齐设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行知识图谱的实体对齐设备的各种功能和处理数据,从而实现知识图谱的实体对齐。存储介质508和存储器509都是存储数据的载体,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存速度慢的外存储器。
存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行知识图谱的实体对齐设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(计算相似值的应用程序等)等;存储数据区可存储根据知识图谱的实体对齐设备的使用所创建的数据(比如初始节点)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的知识图谱的实体对齐方法程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。
在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识图谱的实体对齐方法,其特征在于,包括:
获取两个待融合知识图谱的实体;
根据所述两个待融合知识图谱的实体,生成待对齐实体对;
基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;
基于所述配对图,通过网页排名PR算法计算所述待对齐实体对的相似值;
根据所述待对齐实体对的相似值进行实体对齐。
2.根据权利要求1所述的知识图谱的实体对齐方法,其特征在于,所述基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图,包括:
获取所述两个待融合知识图谱的图G1(V1,E1)和图G2(V2,E2),V1表示第一待融合知识图谱中的所有实体,E1表示所述第一待融合知识图谱的所有三元组,V2表示第二待融合知识图谱中的所有实体,E2表示所述第二待融合知识图谱的所有三元组;
创建所述两个待融合知识图谱的配对图G3,并在所述配对图G3中增加表示目标待对齐实体对的初始节点(as,bs),所述目标实体对as和bs为任意一个待对齐实体对;
基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边。
3.根据权利要求2所述的知识图谱的实体对齐方法,其特征在于,所述基于所述初始节点(as,bs)、图G1(V1,E1)和图G2(V2,E2)增加所述配对图G3中的其他节点以及连接节点的无向边,包括:
当三元组(as,p,an)∈E1,三元组(bs,p,bn)∈E2,p为E1和/或E2中的关系,an∈V1,bn∈V2,且实体an和bn的类型相同时在所述配对图G3中增加节点(an,bn),以及连接(as,bs)和(an,bn)的无向边,(an,bn)为(as,bs)的邻居实体对节点;
当三元组(an,p,cn)∈E1,三元组(bn,p,dn)∈E2,cn∈V1,dn∈V2,且实体cn和dn的类型相同,在所述配对图G3中增加节点(cn,dn),以及连接(an,bn)和(cn,dn)的无向边;
当三元组(hn,p,in)∈E1,三元组(ln,p,mn)∈E2,节点(hn,ln)属于配对图G3,且实体in和mn的类型相同时,重复在配对图G3中增加节点(in,mn),以及连接(hn,ln)和(in,mn)的无向边,直至遍历E1和E2中所有的三元组;
确定所述初始节点(as,bs)冲突的所述邻居实体对节点,所述冲突的邻居实体对节点为包含一个相同实体的多个所述邻居实体对节点;
在所述冲突的邻居实体对节点中,保留初始相似度最大的所述邻居实体对节点以及进行连接的无向边。
4.根据权利要求3所述的知识图谱的实体对齐方法,其特征在于,所述基于所述配对图,通过PR算法计算所述待对齐实体对的相似值,包括:
确定所述两个待融合知识图谱中的共享原始词wn,所述共享原始词wn为所述两个待融合知识图谱中已确定含义相同的单词;
确定每个所述共享原始词wn在所述配对图G3中的邻居实体对节点Wi n,并统计每个wn的邻居实体对节点数量degree(wn);
通过预置的相似值计算公式计算待对齐实体对的相似值,所述预置的相似值计算公式为:
Figure FDA0002253410430000021
其中,e3和e4表示一个所述待对齐实体对,deg(wn)表示所述共享原始词wn的邻居实体对节点数量degree(wn),PPR(Wi n→<e3,e4>)表示在所述配对图G3中从节点Wi n至节点<e3,e4>的PPR值。
5.根据权利要求1-4中任一所述的知识图谱的实体对齐方法,其特征在于,所述根据所述两个待融合知识图谱的实体,生成待对齐实体对,包括:
通过词袋模型对所述两个待融合知识图谱的实体进行向量转换,得到实体向量;
对所述实体向量进行预处理;
计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体向量;
将初始相似度超过预置阈值的实体表示向量对设置为待对齐实体对。
6.根据权利要求5所述的知识图谱的实体对齐方法,其特征在于,所述对所述实体向量进行预处理,包括:
计算所述两个待融合知识图谱中所有单词向量的逆文本频率指数IDF值,所述实体向量至少包括一个单词向量;
删除所述实体向量中IDF值低于预置IDF值的所述单词向量。
7.根据权利要求6所述的知识图谱的实体对齐方法,其特征在于,所述计算实体向量对之间的初始相似度,所述实体向量对为任意两个实体向量,包括:
确定目标实体向量对中相同的所述单词向量;
通过预置的初始相似度计算公式,计算所述目标实体向量对的初始相似度,所述预置的初始相似度计算公式为:
Figure FDA0002253410430000031
其中,e1和e2表示所述目标实体向量对,ω表示所述目标实体向量对中相同的所述单词向量,idf1(ω)表示ω在e1中的IDF值,idf2(ω)表示ω在e2中的IDF值。
8.一种知识图谱的实体对齐装置,其特征在于,包括:
获取单元,用于获取两个待融合知识图谱的实体;
第一生成单元,用于根据所述两个待融合知识图谱的实体,生成待对齐实体对;
第二生成单元,用于基于所述待对齐实体对,生成所述两个待融合知识图谱的配对图;
计算单元,基于所述配对图,通过网页排名PR算法计算所述待对齐实体对的相似值;
对齐单元,用于根据所述待对齐实体对的相似值进行实体对齐。
9.一种知识图谱的实体对齐设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的知识图谱的实体对齐方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-7中任意一项所述的知识图谱的实体对齐方法。
CN201911043138.9A 2019-10-30 2019-10-30 知识图谱的实体对齐方法、装置、设备及存储介质 Pending CN111046186A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911043138.9A CN111046186A (zh) 2019-10-30 2019-10-30 知识图谱的实体对齐方法、装置、设备及存储介质
PCT/CN2019/119307 WO2021082100A1 (zh) 2019-10-30 2019-11-19 知识图谱的实体对齐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043138.9A CN111046186A (zh) 2019-10-30 2019-10-30 知识图谱的实体对齐方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111046186A true CN111046186A (zh) 2020-04-21

Family

ID=70231800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043138.9A Pending CN111046186A (zh) 2019-10-30 2019-10-30 知识图谱的实体对齐方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111046186A (zh)
WO (1) WO2021082100A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112258339A (zh) * 2020-09-29 2021-01-22 广东电力通信科技有限公司 一种基于电网系统技术的数据处理储备方法及系统
WO2021082100A1 (zh) * 2019-10-30 2021-05-06 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112765362A (zh) * 2021-01-12 2021-05-07 中国人民解放军国防科技大学 基于改进自编码器的知识图谱实体对齐方法及相关设备
CN113220908A (zh) * 2021-07-08 2021-08-06 杭州智会学科技有限公司 知识图谱的匹配方法和装置
CN113536796A (zh) * 2021-07-15 2021-10-22 北京明略昭辉科技有限公司 一种实体对齐辅助方法、装置、设备及存储介质
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761221B (zh) * 2021-06-30 2022-02-15 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法
CN114036307B (zh) * 2021-09-17 2022-09-13 清华大学 一种知识图谱实体对齐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202041B (zh) * 2016-07-01 2019-07-09 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
US10872080B2 (en) * 2017-04-24 2020-12-22 Oath Inc. Reducing query ambiguity using graph matching
CN109739939A (zh) * 2018-12-29 2019-05-10 颖投信息科技(上海)有限公司 知识图谱的数据融合方法和装置
CN109960810B (zh) * 2019-03-28 2020-05-19 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN111046186A (zh) * 2019-10-30 2020-04-21 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARIA PERSHINA等: "Holistic Entity Matching Across Knowledge Graphs", 《IEEE CONFERENCE ON GRANULAR COMPUTING,DOI:10.1109/BIGDATA.2015.7363924》, vol. 10, pages 1 - 7 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082100A1 (zh) * 2019-10-30 2021-05-06 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111914559A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN112258339A (zh) * 2020-09-29 2021-01-22 广东电力通信科技有限公司 一种基于电网系统技术的数据处理储备方法及系统
CN112231416A (zh) * 2020-10-14 2021-01-15 中国平安人寿保险股份有限公司 知识图谱本体更新方法、装置、计算机设备及存储介质
CN112765362A (zh) * 2021-01-12 2021-05-07 中国人民解放军国防科技大学 基于改进自编码器的知识图谱实体对齐方法及相关设备
CN112765362B (zh) * 2021-01-12 2023-06-13 中国人民解放军国防科技大学 基于改进自编码器的知识图谱实体对齐方法及相关设备
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112765370B (zh) * 2021-03-29 2021-07-06 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113220908A (zh) * 2021-07-08 2021-08-06 杭州智会学科技有限公司 知识图谱的匹配方法和装置
CN113536796A (zh) * 2021-07-15 2021-10-22 北京明略昭辉科技有限公司 一种实体对齐辅助方法、装置、设备及存储介质
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质
CN113704495B (zh) * 2021-08-30 2024-05-28 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2021082100A1 (zh) 2021-05-06

Similar Documents

Publication Publication Date Title
CN111046186A (zh) 知识图谱的实体对齐方法、装置、设备及存储介质
Neyshabur et al. NETAL: a new graph-based method for global alignment of protein–protein interaction networks
US10366304B2 (en) Localization and mapping method
CN105630800B (zh) 一种节点重要性排序的方法和系统
CN111523010A (zh) 推荐方法、装置、终端设备及计算机存储介质
US20130016916A1 (en) Personalized tag ranking
CN112862092B (zh) 一种异构图卷积网络的训练方法、装置、设备和介质
CN111026865B (zh) 知识图谱的关系对齐方法、装置、设备及存储介质
US20160034554A1 (en) Large-scale data clustering with dynamic social context
CN109947983A (zh) 视频推荐方法、系统、终端及计算机可读存储介质
Kaminski et al. pLM-BLAST: distant homology detection based on direct comparison of sequence representations from protein language models
CN113111657A (zh) 一种跨语言知识图谱对齐与融合方法、装置及存储介质
Valem et al. An unsupervised distance learning framework for multimedia retrieval
CN111460315A (zh) 社群画像构建方法、装置、设备及存储介质
US20190362240A1 (en) Information processing device, neural network design method, and recording medium
WO2021027745A1 (zh) 一种图重构方法及装置
CN111368552A (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN113792170B (zh) 图数据划分方法、装置和计算机设备
Tang et al. Multi-order matched neighborhood consistent graph alignment in a union vector space
US11070461B1 (en) System for dividing a tree data structure to improve traversal operations
CN110309367B (zh) 信息分类的方法、信息处理的方法和装置
CN113722554A (zh) 数据分类方法、装置及计算设备
CN114238572B (zh) 基于人工智能的多数据库数据提取方法、装置及电子设备
CN112685574B (zh) 领域术语层次关系的确定方法、装置
Levitin et al. Computations of eigenvalues and resonances on perturbed hyperbolic surfaces with cusps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination