CN113282676A - 知识库实体对齐方法和装置 - Google Patents

知识库实体对齐方法和装置 Download PDF

Info

Publication number
CN113282676A
CN113282676A CN202010104948.7A CN202010104948A CN113282676A CN 113282676 A CN113282676 A CN 113282676A CN 202010104948 A CN202010104948 A CN 202010104948A CN 113282676 A CN113282676 A CN 113282676A
Authority
CN
China
Prior art keywords
entity
vector representation
attention
knowledge base
constraint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010104948.7A
Other languages
English (en)
Inventor
李涓子
李成江
史佳欣
侯磊
张鹏
唐杰
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010104948.7A priority Critical patent/CN113282676A/zh
Publication of CN113282676A publication Critical patent/CN113282676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种知识库实体对齐方法和装置,所述方法包括使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。本发明实施例提供的知识库实体对齐方法和装置,能充分地利用有限的预先对齐的实体对,很好地处理异构知识库之间的差异,提升实体对齐的效果。

Description

知识库实体对齐方法和装置
技术领域
本发明涉及知识库处理技术领域,更具体地,涉及一种知识库实体对齐方法和装置。
背景技术
知识库可以为不同的应用提供各种结构化知识,由于这些知识库具有不尽相同的构造目的,知识之间存在很大的异构性,同时也会包含一些互补知识。为了更好的支持上层的跨语言问答系统、跨语言推荐系统等任务,融合不同的知识库成为一个重要的研究方向。其中,实体对齐就是知识库融合的一项关键技术。
知识库实体对齐方法的第一种方法,主要利用实体文本信息、实体属性信息、实体网络结构信息等,计算一系列相似度,然后通过人为设定的阈值,或是机器学习中的分类算法,来实现对给定实体对是否为等价实体的判定。这种对齐方法依赖于大量的人工特征设计来得到相似度计算方法,在知识库规模较大时,耗时耗力。另外,不同知识库的知识结构往往差异较大,难以针对所有实体对齐任务设计出一套统一且高效的特征抽取方法。
知识库实体对齐方法的第二种方法,采用基于表示学习的方法来对知识库中的实体进行对齐。主要的步骤是,使用知识库表示学习的方法,分别对需要对齐的两个知识库进行表示学习,得到实体的向量表示,然后依赖少量预先对齐的实体对(即等价实体对),最小化等价实体对之间实体的距离,达到将两个知识库的实体表示到同一个向量空间的目的,从而完成实体对齐,得到实体对齐的知识库。这种知识库实体对齐方法虽不依赖于人工特征设计,但效果受限于预先对齐的实体对数量,当预先对齐的等价实体对规模较小时,效果很难让人满意。其次,这类方法同样未能很好地处理异构知识库之间的差异,当两个知识库结构存在差异时,实体对齐的效果也会受到影响。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的知识库实体对齐方法、装置、电子设备和可读存储介质。
第一方面,本发明实施例提供一种知识库实体对齐方法,包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。
在一些实施例中,所述使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示包括:对于任一知识库,获取所述任一知识库的实体及所有实体的邻居集合;将包括一个实体的向量表示矩阵
Figure BDA0002388230360000021
和所述邻居集合输入至所述图注意力神经模型,得到所述图注意力神经模型输出的所述实体向量表示;其中
Figure BDA0002388230360000022
为有理数,n为所述任一知识库的实体数量,d为向量表示的维度。
在一些实施例中,所述知识库实体对齐方法还包括:所述图注意力神经模型包括L层卷积层,每一层应用公式H(l+1)=σ(A(l)H(l)W(l))确定,其中,
Figure BDA0002388230360000023
为第l层的隐状态,
Figure BDA0002388230360000024
为第l层的参数,H(0)=X,σ(·)为非线性激活函数ReLU(·)=max(0,·),
Figure BDA0002388230360000031
为所述任一知识库在自注意力机制作用下的连接性矩阵,A(l)的每一个元素
Figure BDA0002388230360000032
表示所述任一知识库中实体ei到ej的权重,A(l)应用公式
Figure BDA0002388230360000033
确定。
其中,
Figure BDA0002388230360000034
为包含实体ei及所述实体ei的邻居实体的集合,k为实体e的编号,ek为所述集合
Figure BDA0002388230360000035
中的任一实体,
Figure BDA0002388230360000036
为实体ei到ej的注意力参数,
Figure BDA0002388230360000037
应用公式
Figure BDA0002388230360000038
确定。
其中,
Figure BDA0002388230360000039
分别为实体ei和ej的隐状态。
Figure BDA00023882303600000310
λ为预设常数,
Figure BDA00023882303600000311
为学习的参数,·T为矩阵的转置变换,
Figure BDA00023882303600000312
为向量的拼接操作。
在一些实施例中,所述基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件包括:基于所述实体向量表示,获取待约束的实体;根据所述待约束的实体和随机初始化且学习得到的关系,获取所述知识库的事实三元组正例;基于所述事实三元组正例,获取对应的事实三元组负例;根据所述事实三元组正例和所述事实三元组负例,获得所述第一约束条件。
在一些实施例中,所述知识库实体对齐方法还包括:所述第一约束条件包括目标函数:
Figure BDA00023882303600000313
其中,[·]+=max(0,·),f(eh,r,et)=||eh+r-et||2,||·||2为二范数,实体eh和et的向量表示根据所述实体向量表示得到,关系r的向量表示根据随机初始化且学习得到的关系向量表示R,
Figure BDA0002388230360000041
为随机初始化且学习得到的关系向量表示,γ1为预设的表征事实三元组正例(eh,t,et)和事实三元组负例(e′h,r′,e′t)的间隔的超参数。
在一些实施例中,所述基于预先确定的等价实体对集合,获得第二约束条件包括:所述第二约束条件包括目标函数:
Figure BDA0002388230360000042
其中,dist(ei,ej)=||ei-ej||2表示等价实体对(ei,ej)的L2距离,实体ei和ej为所述预先确定的等价实体对集合S中的等价实体对,S′为与等价实体对集合S对应的负例集合,实体e′i和e′j为所述负例集合S′中的实体对,γ2为预设的表征正例S和负例S′的间隔的超参数。
在一些实施例中,所述基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐包括:使目标函数O=OK+OC最小,实现所述至少两个知识库之间的实体对齐。
第二方面,本发明实施例提供一种知识库实体对齐装置,包括:编码模块,用于使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示;第一处理模块,用于基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;第二处理模块,用于基于预先确定的等价实体对集合,获得第二约束条件;计算模块,用于基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例知识库实体对齐方法、装置、电子设备和可读存储介质,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的知识库实体对齐方法的流程图;
图2为本发明实施例的另一知识库实体对齐方法的流程图;
图3为本发明实施例的知识库实体对齐装置的结构示意图;
图4为本发明实施例的知识库实体对齐电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考图1描述本发明实施例的知识库实体对齐方法。
如图1所示,本发明实施例的知识库实体对齐方法包括步骤100-步骤400。
步骤100、使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息注意力增强的实体向量表示。
可以理解的是,对于需要对齐的两个知识库,形式化地表示为G1=(E1,R1,T1)和G2=(E2,R2,T2),其中Ei表示实体集合,Ri表示关系集合,Ti表示由实体和关系组成的事实三元组(即,<头实体,关系,尾实体>)集合,i∈{1,2}分别为两个知识库的序号。将两个知识库G1和G2合并为一个大的知识库G进行处理,即可对应地形式化其实体集合、关系集合、事实三元组集合为E=E1∪E2、R=R1∪R2、T=T1∪T2。给定Ei的一个实体e,其邻居实体的集合形式化地表示为Ne={e′|(e,r,e′)∈Ti}∪{e′|(e′,r,e)∈Ti},r∈Ri
图注意力神经模型是一种新的用来操作图结构数据的神经网络结构模型,通过堆叠一些层,这些层的每个节点都融合了邻居节点的特征信息,实现了对节点的分类。实体向量表示是待对齐的知识库中实体的向量化表示,注意力增强的实体向量表示是融合了该实体的邻居实体信息的向量化表示。待对齐的知识库至少是两个,也可以是多个,本发明实施例不作具体限定,本发明实施例以待对齐的知识库是两个举例。
对于待对齐的知识库Ei中的一个实体e,同时将该实体信息和邻居实体信息输入进基于图注意力神经模型的图注意力编码器进行实体编码,可以获得融合了邻居节点信息的注意力增强的实体向量表示(H(L))。
步骤200、基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件。
可以理解的是,表示学习又称学习表示,旨在将研究对象的语义信息表示为稠密低维实值向量,知识库表示学习主要是面向知识库中的实体和关系进行表示学习。常见的表示学习模型有翻译模型、距离模型和单层神经网络模型等,本发明实施例不作具体限定,本发明实施例以翻译模型中的TransE模型举例。第一约束条件是用于约束事实三元组的合理性,通过融合实体的邻居实体信息,即通过知识库内部的实体间的相互关系,利用TransE模型,提供约束条件。
步骤300、基于预先确定的等价实体对集合,获得第二约束条件。
可以理解的是,两个知识库G1=(E1,R1,T1)和G2=(E2,R2,T2)间的等价实体对集合形式化为
Figure BDA0002388230360000071
其中
Figure BDA0002388230360000072
表示e1和e2在真实世界中具有相同的语义,为同一个实体,即共同组成等价实体对。第二约束条件是通过预先确定的等价实体对集合,来确定等价实体对之间的隐含特征。也就是说,通过待对齐的知识库已经对齐的等价实体对的隐含特征,来指导待对齐的知识库的实体对齐。
步骤400、基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。
可以理解的是,实体对齐的任务就是利用少量已知的等价实体对,得到实体对齐的知识库,进而可以发现更多的等价实体对。基于第一约束条件和第二约束条件,即通过参考知识库内部的实体间的相互关系和知识库外已经对齐的等价实体对的隐含特征,从这两个方面同时进行约束,共同实现两个知识库之间的实体对齐。
本发明实施例提供的知识库实体对齐方法,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。
在一些实施例中,步骤100、使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且注意力增强的实体向量表示融合了实体邻居信息包括:步骤110、对于任一知识库,获取任一知识库的实体及所有实体的邻居集合。
可以理解的是,对于任一知识库Ei,获取其中的实体e和所有实体的邻居集合{Ne|e∈E}。
步骤120、将包括一个实体的向量表示矩阵
Figure BDA0002388230360000081
和其邻居集合输入至图注意力神经模型,得到图注意力神经模型输出的实体向量表示;其中
Figure BDA0002388230360000084
为有理数,n为任一知识库的实体数量,d为向量表示的维度。
可以理解的是,对于知识库Ei中的实体e和所有实体的邻居集合{Ne|e∈E},可以得到包含该实体e的向量表示矩阵
Figure BDA0002388230360000082
其中
Figure BDA0002388230360000083
为有理数,n=|E|为任一知识库G的实体数量,d为向量表示的维度。将向量表示矩阵和邻居集合输入至基于图注意力神经模型的图注意力编码器进行实体编码,得到的结果就是融合了实体邻居信息的实体向量表示,即注意力增强的实体向量表示。
本发明实施例提供的知识库实体对齐方法,通过融合邻居实体的信息,发现等价实体对周围更多的新的等价实体,不受预先对齐实体对的限制,进一步提升实体对齐的效果。
在一些实施例中,步骤120的图注意力神经模型包括L层卷积层,每一层应用公式H(l+1)=σ(A(l)H(l)W(l))确定。其中,
Figure BDA0002388230360000091
为第l层的隐状态,
Figure BDA0002388230360000092
为第l层的参数,H(0)=X,σ(·)为非线性激活函数ReLU(·)=max(0,·),
Figure BDA0002388230360000093
为任一知识库在自注意力机制作用下的连接性矩阵,A(l)的每一个元素
Figure BDA0002388230360000094
表示任一知识库中实体ei到ej的权重,A(l)应用公式
Figure BDA0002388230360000095
确定。
其中,
Figure BDA0002388230360000096
为包含实体ei及实体ei的邻居实体的集合,k为实体e的编号,ek为所述集合
Figure BDA0002388230360000097
中的任一实体,
Figure BDA0002388230360000098
为实体ei到ej的注意力参数,1≤i,j≤n。
Figure BDA0002388230360000099
应用公式
Figure BDA00023882303600000910
确定。
其中,
Figure BDA00023882303600000911
分别为实体ei和ej的隐状态。
Figure BDA00023882303600000912
λ为预设常数,
Figure BDA00023882303600000913
为学习的参数,·T为矩阵的转置变换,
Figure BDA00023882303600000914
为向量的拼接操作。
可以理解的是,基于图注意力神经模型的图注意力编码器是由多层图注意力神经网络层组成,每一层的计算方式为:
H(l+1)=σ(A(l)H(l)W(l))
其中,
Figure BDA00023882303600000915
为第l层的隐状态,l表示图注意力神经网络层的层数,
Figure BDA00023882303600000916
为有理数,n为任一知识库的实体数量,d为向量表示的维度,H(0)=X,W(l)∈Rd×d为第l层的参数,σ(·)为非线性激活函数ReLU(·)=max(0,·),A(l)∈Rn×n为G在自注意力机制作用下的连接性矩阵。
对于非线性激活函数σ(·),ReLU为函数名,·表示输入,函数功能为对于任意输入,函数输出0与输入之间的最大值。例如ReLU(3)=max(0,3)=3,ReLU(-5)=max(0,-5)=0。
对于自注意力机制作用下的连接性矩阵A(l)∈Rn×n,每一个元素
Figure BDA0002388230360000101
表示G中实体ei到ej的权重,计算方式为:
Figure BDA0002388230360000102
其中
Figure BDA0002388230360000103
为包含实体ei及其邻居实体的集合,k为实体e的编号,ek为所述集合
Figure BDA0002388230360000104
中的任一实体,
Figure BDA0002388230360000105
为实体ei到ej的注意力参数,1≤i,j≤n。
Figure BDA0002388230360000106
的计算方式为:
Figure BDA0002388230360000107
其中
Figure BDA0002388230360000108
分别为实体ei和ej的隐状态,
Figure BDA0002388230360000109
Figure BDA00023882303600001011
通常λ取0.2,q∈R2d为学习的参数,·T为矩阵的转置变换,
Figure BDA00023882303600001010
为向量的拼接操作。
这样,从H(0)=X开始,经过一层一层卷积,直到L层,图注意力编码器实体编码L层输出的就是融合了实体及其邻居信息的隐状态H(L),H(L)的第i行就表示实体ei的注意力增强的实体向量表示。
本发明实施例提供的知识库实体对齐方法,通过对实体和邻居实体进行图注意力实体编码,使得实体之间的等价性能在整个图中传播,进一步提升实体对齐的效果。
在一些实施例中,步骤200、基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件包括:基于实体向量表示,获取待约束的实体;根据待约束的实体和随机初始化且学习得到的关系,获取知识库的事实三元组正例;基于事实三元组正例,获取对应的事实三元组负例;根据事实三元组正例和事实三元组负例,获得第一约束条件。
可以理解的是,自然语言处理领域中,判断两个单词是不是一对上下文词与目标词,如果是一对,则是正样本,如果不是一对,则是负样本。采样得到一个上下文词和一个目标词,生成一个正样本。用与正样本相同的上下文词,再在字典中随机选择一个单词,生成一个负样本,这就是负采样。
将两个知识库G1和G2合并为一个大的知识库G进行处理,即可对应地形式化其实体集合、关系集合、事实三元组集合为E=E1∪E2、R=R1∪R2、T=T1∪T2,T'为与T对应的负例集合。定义K1为负采样的比例,T'的生成方式为:对于T内的每一个事实三元组(eh,r,et),随机替换eh为其它实体e'h,其中e'h以同样的关系r与其它实体组成事实三元组;同样的方式可以替换et得到(eh,r,e't),重复替换头、尾实体直至生成K1个与(eh,r,et)对应的负例。例如,对于事实三元组(北京,首都,中国),可以生成负例(莫斯科,首都,中国)。若可替换的头、尾实体数量少于K1,则随机替换为其它实体直至补全负采样的数量。
下面参考表1描述本发明实施例使用的数据集的相关统计。
表1
Figure BDA0002388230360000111
如表1所示,利用本领域公开并广泛使用的数据集DBP15K和DWY100K评测本发明实施例。其中DBP15K包含三个由不同语言版本的DBpedia构建的跨语言数据集,每个数据集中包含15,000对等价实体对;DWY100K包含两个由不同数据源构建的跨源数据集,每个数据集中包含100,000对等价实体对,使用30%的等价实体对做训练,剩下的70%用于测试。
本发明实施例提供的知识库实体对齐方法,使用负采样方法,使生成的负比例随机生成的更具针对性,提升了模型的鲁棒性。
在一些实施例中,第一约束条件包括目标函数:
Figure BDA0002388230360000121
其中,[·]+=max(0,·),f(eh,r,et)=||eh+r-et||2,||·||2为二范数,实体eh和et的向量表示根据实体向量表示得到,关系r的向量表示根据随机初始化且学习得到的关系向量表示R,
Figure BDA0002388230360000122
为随机初始化且学习得到的关系向量表示,γ1为预设的表征事实三元组正例(eh,r,et)和事实三元组负例(e'h,r',e't)的间隔的超参数。
可以理解的是,使用知识库表示学习的经典模型TransE对注意力增强的实体向量表示H(L)加以关系的约束,第一约束条件包含目标函数:
Figure BDA0002388230360000123
f(eh,r,et)=||eh+r-et||2为TransE定义的事实三元组正例合理性得分函数,其中||·||2为二范数。f(e′h,r′,e′t)为TransE定义的事实三元组负例合理性得分函数,γ1为预设的表征事实三元组正例(eh,r,et)和事实三元组负例(e'h,r',e't)的间隔的超参数。[f(eh,r,et)+γ1-f(e′h,r′,e′t)]+表示取f(eh,r,et)+γ1-f(e′h,r′,e′t)和0之间的最大数。T=T1∪T2,T'为与T对应的负例集合。
通过实验验证发现,本发明实施例提供的知识库实体对齐方法,可以提高实体对齐效果。
本实验采用如表1所示的数据集,一些超参数设置如下:图注意力编码器的网络层数L为3,向量表示维度d为128,AdaGrad算法的学习率为0.005,负采样数值K1=25,K2=2,正负例间隔γ1=3,γ2=3,训练轮次为1000。与现有的研究工作一致,采用Hits@N和MRR来评价实验效果。其中Hits@N表示对齐的前N个结果中包含正确实体的百分比,MRR(MeanReciprocal Rank)表示所有对齐结果中正确实体排序的倒数的平均值。对比方法包括:GATR模型和自身的对比模型GATR(w/o K)模型,GATR(w/o K)模型移除了知识库表示学习模型TransE,用以观察知识库表示学习模型TransE对效果的影响。
表2
Figure BDA0002388230360000131
如表2所示,知识库表示学习方法TransE带来了效果的提升,尤其在Hits@10和MRR的提升上。这是由于加入的关系约束能使得实体表示更具区分度,同时也通过神经网络的方向传播引导了图注意力编码器学习了更好的注意力参数,使模型具备了容忍需要对齐的异构知识库结构之间差异的能力。
在一些实施例中,基于预先确定的等价实体对集合,获得第二约束条件包括:第二约束条件包括目标函数:
Figure BDA0002388230360000141
其中,dist(ei,ej)=||ei-ej||2表示等价实体对(ei,ej)的L2距离,实体ei和ej为预先确定的等价实体对集合S中的等价实体对,S'为与等价实体对集合S对应的负例集合,实体e′i和e′j为负例集合S'中的实体对,γ2为预设的表征正例S和负例S'的间隔的超参数。
可以理解的是,ei和ej的向量表示可以通过图注意力神经模型确定得到对应的注意力增强的实体向量表示,S'的生成方式为:对于S内的每一个等价实体对(ei,ej),其中ei∈E1,ej∈E2,定义K2为负采样的比例,在E2中选取K2个与ej在向量空间距离最为接近的实体,分别与ei组成负例。同样的方法可以替换ei为其它实体与ej组成负例。由此可以得到2*K2个(ei,ej)的负例。这里使用L2距离作为向量空间的距离度量,L2距离是K近邻算法中的一种常用距离。通过计算等价实体对的两个实体ei和ej在向量空间中的L2距离,对注意力增强的实体向量表示进行约束,得到第二约束条件。
通过实验验证发现,本发明实施例提供的知识库实体对齐方法,可以提高实体对齐效果。
本实验采用如表1所示的数据集,一些超参数设置如下:图注意力编码器的网络层数L为3,向量表示维度d为128,AdaGrad算法的学习率为0.005,负采样数值K1=25,K2=2,正负例间隔γ1=3,γ2=3,训练轮次为1000。与现有的研究工作一致,采用Hits@N和MRR来评价实验效果。其中Hits@N表示对齐的前N个结果中包含正确实体的百分比,MRR(MeanReciprocal Rank)表示所有对齐结果中正确实体排序的倒数的平均值。对比方法包括:MTransE模型、JAPE模型、AlignEA模型和GCN-Align模型和GATR模型。
表3
Figure BDA0002388230360000151
如表3所示,从整体上看,GATR效果优于对比的现有方法。主要是因为GATR比MTransE、JAPE和AlignEA更充分地利用了有限的预先对齐的实体对,基于等价实体对周围有较大可能存在新的等价实体的假设,使得实体之间的等价性能在整个图中传播。另外,引入关系的向量表示对实体表示带来了约束,引导图注意力编码器学习更好的注意力参数,并增加实体表示的区分度。通过注意力参数的变化,很好地处理异构知识库之间的差异,对比GCN-Align带来了更好的实体对齐效果。
另外,还进行了一组对比,对比方法包括:GATR模型和自身的对比模型GATR(w/oNNS)模型,GATR(w/o NNS)模型采用的是随机采样的采样方法,用以观察负采样的方法对效果的影响。
表4
Figure BDA0002388230360000152
Figure BDA0002388230360000161
如表4所示,负采样方法对结果影响很大,尤其在更大规模的数据集DWY100K中,带来的效果提升更为明显,Hits@10比对比方法平均提升超过10%。这是由于使用的负采样方法能使生成的负例比随机生成的更具针对性,提升了模型的鲁棒性。
在一些实施例中,基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐包括:使目标函数O=OK+OC最小,实现至少两个知识库之间的实体对齐。
如图2所示,可以理解的是,从两个知识库的三元组集合出发,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,得到融合了实体邻居信息的注意力增强的实体向量表示;基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法对注意力增强的实体向量表示加以约束;基于注意力增强的实体向量表示和初始等价实体对,对OK和OC进行求和,得到一个目标函数,使用算法优化这个目标函数使其最小完成两个知识库之间实体的对齐,本发明实施例用AdaGrad算法。AdaGrad算法是一种深度学习优化方法,在数据分布稀疏的场景,能更好利用稀疏梯度的信息,更接近最优解。
本发明实施例提供的知识库实体对齐方法,通过最小化实体等价对的两个实体在向量空间中的距离,充分利用了有限的预先对齐的实体对,进一步提升实体对齐的效果。
下面对本发明实施例提供的知识库实体对齐装置进行描述,下文描述的知识库实体对齐装置与上文描述的知识库实体对齐方法可相互对应参照。
如图3所示,该装置包括:编码模块710、第一处理模块720、第二处理模块730和计算模块740。
编码模块710用于使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得融合了实体邻居信息的注意力增强的实体向量表示。
可以理解的是,对于待对齐的知识库Ei中的一个实体e,同时将该实体信息和邻居实体信息输入进基于图注意力神经模型的图注意力编码器,编码模块710对其进行实体编码,可以获得融合了邻居节点信息的注意力增强的实体向量表示(H(L))。
第一处理模块720用于基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件。
可以理解的是,第一处理模块720通过知识库表示学习TransE模型,对注意力增强的实体向量表示进行约束,得到第一约束条件。
第二处理模块730用于基于预先确定的等价实体对集合,获得第二约束条件。
可以理解的是,第二处理模块730通过计算等价实体对的两个实体在向量空间中的距离,对注意力增强的实体向量表示进行约束,得到第二约束条件。
计算模块740,用于基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。
可以理解的是,计算模块740将第一约束条件和第二约束条件进行求和,得到一个总的目标函数,利用算法对目标函数进行优化,来实现两个知识库之间的实体对齐。
本发明实施例提供的知识库实体对齐装置,利用共享参数设定下的图注意力神经网络作为编码器进行实体编码,使得实体之间的等价性能在整个图中传播。基于注意力增强的实体向量表示,引入随机初始化的关系向量表示,利用知识库表示学习方法和初始等价实体对对实体向量表示加以约束,引导图注意力编码器学习更好的注意力参数,同时参考知识库内部的实体之间的相互关系和知识库外已经对齐的等价实体对的隐含特征,能更加充分地利用有限的预先对齐的实体对,以较小的预先对齐的等价实体对集合,得到准确度较高的对齐效果。
如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行知识库实体对齐方法,该方法使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图4所示的处理器810、通信接口820、存储器830和通信总线840,其中处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信,且处理器810可以调用存储器830中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例所提供的方法,例如包括:使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示;基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束实体向量表示的第一约束条件;基于预先确定的等价实体对集合,获得第二约束条件;基于第一约束条件和第二约束条件,实现至少两个知识库之间的实体对齐。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识库实体对齐方法,其特征在于,包括:
使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;
基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;
基于预先确定的等价实体对集合,获得第二约束条件;
基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。
2.根据权利要求1所述的知识库实体对齐方法,其特征在于,所述使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息,包括:
对于任一知识库,获取所述任一知识库的实体及所有实体的邻居集合;
将包括一个实体的向量表示矩阵
Figure FDA0002388230350000014
和所述邻居集合输入至所述图注意力神经模型,得到所述图注意力神经模型输出的所述实体向量表示;其中
Figure FDA0002388230350000015
为有理数,n为所述任一知识库的实体数量,s为向量表示的维度。
3.根据权利要求2所述的知识库实体对齐方法,其特征在于,所述图注意力神经模型包括L层卷积层,每一层应用公式
H(l+1)=σ(A(l)H(l)W(l))
确定,
其中,
Figure FDA0002388230350000011
为第l层的隐状态,
Figure FDA0002388230350000012
为第l层的参数,H(0)=X,σ(·)为非线性激活函数ReLU(·)=max(0,·),
Figure FDA0002388230350000013
为所述任一知识库在自注意力机制作用下的连接性矩阵,A(l)的每一个元素
Figure FDA0002388230350000021
表示所述任一知识库中实体ei到ej的权重,A(l)应用公式
Figure FDA0002388230350000022
确定,
其中,
Figure FDA0002388230350000023
为包含实体ei及所述实体ei的邻居实体的集合,k为实体e的编号,ek为所述集合
Figure FDA0002388230350000024
中的任一实体,
Figure FDA0002388230350000025
为实体ei到ej的注意力参数,
Figure FDA0002388230350000026
应用公式
Figure FDA0002388230350000027
确定,
其中,
Figure FDA0002388230350000028
分别为实体ei和ej的隐状态,
Figure FDA0002388230350000029
λ为预设常数,
Figure FDA00023882303500000210
为学习的参数,·T为矩阵的转置变换,
Figure FDA00023882303500000211
为向量的拼接操作。
4.根据权利要求1-3中任一项所述的知识库实体对齐方法,其特征在于,所述基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件,包括:
基于所述实体向量表示,获取待约束的实体;
根据所述待约束的实体和随机初始化且学习得到的关系,获取所述知识库的事实三元组正例;
基于所述事实三元组正例,获取对应的事实三元组负例;
根据所述事实三元组正例和所述事实三元组负例,获得所述第一约束条件。
5.根据权利要求4所述的知识库实体对齐方法,其特征在于,所述第一约束条件包括目标函数:
Figure FDA0002388230350000031
其中,[·]+=max(0,·),f(eh,r,et)=||eh+r-et||2,||·||2为二范数,实体eh和et的向量表示根据所述实体向量表示得到,关系r的向量表示根据随机初始化且学习得到的关系向量表示R,
Figure FDA0002388230350000032
为随机初始化且学习得到的关系向量表示,γ1为预设的表征事实三元组正例(eh,r,et)和事实三元组负例(e'h,r',e′t)的间隔的超参数。
6.根据权利要求5所述的知识库实体对齐方法,其特征在于,所述基于预先确定的等价实体对集合,获得第二约束条件,包括:
所述第二约束条件包括目标函数:
Figure FDA0002388230350000033
其中,dist(ei,ej)=||ei-ej||2表示等价实体对(ei,ej)的L2距离,实体ei和ej为所述预先确定的等价实体对集合S中的等价实体对,S′为与等价实体对集合S对应的负例集合,实体e′i和e′j为所述负例集合S′中的实体对,γ2为预设的表征正例S和负例S′的间隔的超参数。
7.根据权利要求6所述的知识库实体对齐方法,其特征在于,所述基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐,包括:
使目标函数O=OK+OC最小,实现所述至少两个知识库之间的实体对齐。
8.一种知识库实体对齐装置,其特征在于,包括:
编码模块,用于使用图注意力神经模型将待对齐的至少两个知识库进行实体编码,获得注意力增强的实体向量表示,且所述注意力增强的实体向量表示融合了实体邻居信息;
第一处理模块,用于基于注意力增强的实体向量表示,使用知识库表示学习模型,获得用于约束所述实体向量表示的第一约束条件;
第二处理模块,用于基于预先确定的等价实体对集合,获得第二约束条件;
计算模块,用于基于所述第一约束条件和所述第二约束条件,实现所述至少两个知识库之间的实体对齐。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识库实体对齐方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述知识库实体对齐方法的步骤。
CN202010104948.7A 2020-02-20 2020-02-20 知识库实体对齐方法和装置 Pending CN113282676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010104948.7A CN113282676A (zh) 2020-02-20 2020-02-20 知识库实体对齐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010104948.7A CN113282676A (zh) 2020-02-20 2020-02-20 知识库实体对齐方法和装置

Publications (1)

Publication Number Publication Date
CN113282676A true CN113282676A (zh) 2021-08-20

Family

ID=77275208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010104948.7A Pending CN113282676A (zh) 2020-02-20 2020-02-20 知识库实体对齐方法和装置

Country Status (1)

Country Link
CN (1) CN113282676A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质
CN113704495B (zh) * 2021-08-30 2024-05-28 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112567355B (zh) 用于知识库补全的端到端的结构感知卷积网络
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN114036307B (zh) 一种知识图谱实体对齐方法及装置
JP7247878B2 (ja) 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN107832326B (zh) 一种基于深层卷积神经网络的自然语言问答方法
CN111753101A (zh) 一种融合实体描述及类型的知识图谱表示学习方法
Le et al. Knowledge graph embedding by relational rotation and complex convolution for link prediction
Zhang et al. Hypergraph convolutional networks via equivalency between hypergraphs and undirected graphs
CN114461929A (zh) 一种基于协同关系图的推荐方法及相关装置
CN113095314A (zh) 一种公式识别方法、装置、存储介质及设备
Gong et al. Continual pre-training of language models for math problem understanding with syntax-aware memory network
Liu et al. Imbalance-aware pairwise constraint propagation
He et al. Vicinal vertex allocation for matrix factorization in networks
CN110874392A (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN113282676A (zh) 知识库实体对齐方法和装置
CN115881209B (zh) 一种rna二级结构预测的处理方法和装置
CN116090522A (zh) 一种基于因果反馈的缺失数据集因果关系发现方法及系统
CN115510218A (zh) 一种基于对称对比学习的人岗匹配方法
CN115408536A (zh) 一种基于上下文信息融合的知识图谱补全方法
Dossena et al. Graph-based recommendation using graph neural networks
Sun Bipartite network community detection: Development and survey of algorithmic and stochastic block model based methods
CN110851732A (zh) 基于非负矩阵三因子分解的属性网络半监督社团发现的方法
CN116705338B (zh) 基于规则和路径的中医药多模态知识图谱推理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination