CN110413704A - 基于加权邻居信息编码的实体对齐方法 - Google Patents

基于加权邻居信息编码的实体对齐方法 Download PDF

Info

Publication number
CN110413704A
CN110413704A CN201910568295.5A CN201910568295A CN110413704A CN 110413704 A CN110413704 A CN 110413704A CN 201910568295 A CN201910568295 A CN 201910568295A CN 110413704 A CN110413704 A CN 110413704A
Authority
CN
China
Prior art keywords
entity
neighbours
vector
relationship
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910568295.5A
Other languages
English (en)
Other versions
CN110413704B (zh
Inventor
陈岭
田晓雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910568295.5A priority Critical patent/CN110413704B/zh
Publication of CN110413704A publication Critical patent/CN110413704A/zh
Application granted granted Critical
Publication of CN110413704B publication Critical patent/CN110413704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于加权邻居信息编码的实体对齐方法,具体包括:1)对需对齐的两知识库中数据进行预处理,提取两知识库三元组、实体及其邻居信息和实体及其类型信息;2)基于当前已发现的所有匹配实体对,分别通过基于三元组的知识表示学习、加权邻居信息编码和跨知识库实体‑类型图嵌入,得到每个实体相应的向量表示;3)结合实体三种不同的向量表示推理匹配实体对;4)由发现的匹配实体对和先验对齐的种子实体对共同组成新的训练数据,重复步骤1)~4),直至达到指定的迭代次数,输出发现的匹配实体对。这种方法能够更加准确地匹配在三元组中出现较少的实体,在知识融合、知识问答等领域具有广阔的应用前景。

Description

基于加权邻居信息编码的实体对齐方法
技术领域
本发明涉及知识库实体对齐领域,具体涉及一种基于加权邻居信息编码的实体对齐方法。
背景技术
知识库以结构化的形式组织人类知识,旨在描述现实世界中存在的各种实体及其关系。随着Web 3.0的发展,诸多知识库相继出现。除DBpedia、Freebase等综合知识库外,还包括电影知识库(如IMDb、LinkedMDB)、音乐知识库(如MusicBrainz、Discogs)等许多特定领域知识库,这些知识库作为问答系统和推荐系统等的先验知识正在发挥着越来越重要的作用。但是,不同组织或机构在构建知识库时仅考虑自身的需求,导致知识库的多样性,并且不同知识库间存在着大量重复和互补的信息。实体对齐指发现不同知识库中代表现实中同一事物的两个实体,对于多知识库集成和知识库信息扩展具有重要意义。
基于表示学习的实体对齐方法为当前较为先进的实体对齐方法。基于表示学习的实体对齐方法利用知识表示学习将每个知识库中的实体和关系嵌入至不同的低维向量空间,同时基于先验对齐的种子实体对学习不同向量空间的转换,最后根据实体在低维向量空间中的语义距离推理匹配实体对。但是,现有基于表示学习的实体对齐方法通常假定知识库中的每个实体都有足够的训练三元组,无法对知识库中存在的长尾实体(即在三元组中出现较少的实体)进行充分学习,可能会导致长尾实体错误匹配,影响实体对齐结果的准确性。在知识表示学习中引入实体及其邻居信息,进而利用实体基于邻居信息的向量表示进行匹配实体对推理,有助于解决长尾实体错误匹配问题,但实体不同邻居在实体对齐中起的作用存在差异,现有邻居信息编码方法未能考虑该差异。
发明内容
本发明提供了一种基于加权邻居信息编码的实体对齐方法,以达到有效利用实体及其邻居信息提升长尾实体的匹配准确性的技术效果。
本发明的技术方案为:
一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一知识库中所有关系;
步骤5,从知识库KB1和知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
步骤6,根据跨知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由知识库KB1和知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
具体地,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
其中,γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,为三元组(h,r,t)对应的负样本集合,E(h,r,t)为三元组(h,r,t)的能量函数:
E(h,r,t)=‖htr+rtr-ttr
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
具体地,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作;
对实体e的所有前向邻居的向量表示进行加权平均得到实体e基于前向邻居的向量表示
其中,wi为实体e前向邻居(ei,ri)的权重,该权重其中,为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作;
对实体e的所有后向邻居的向量表示进行加权平均得到实体e基于后向邻居的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
(4-3)对实体e基于前向邻居的向量表示和基于后向邻居的向量表示进行求和平均,得到实体e基于邻居信息的向量表示ene
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns
其中,e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)来获得每个实体基于邻居信息的向量表示。
具体地,步骤6的具体过程为:
(6-1)对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数L定义为:
其中,p2j|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
其中,p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数L和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty
Lty=L+Lee
(6-4)以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
本发明结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离。与现有方法相比,其优点在于:
1)除通过基于三元组的知识表示学习得到每个实体的向量表示外,还分别通过加权邻居信息编码和跨知识库实体-类型图嵌入得到每个实体相应的向量表示,并且在推理匹配实体对时,首先根据实体基于类型的向量表示过滤掉部分候选实体对,再综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,能够解决长尾实体容易被错误匹配问题,从而提升实体对齐结果的准确性;
2)对于实体任意一个邻居,从该邻居与实体之间的映射关系、该邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制三个方面度量该邻居在实体对齐中起的作用大小并为其赋予相应权重,进而能够得到适用于实体对齐的实体基于邻居信息的向量表示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是基于加权邻居信息编码的实体对齐方法总体流程图;
图2是加权邻居信息编码整体框架图;
图3是跨知识库实体-类型图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本发明提供了一种基于加权邻居信息编码的实体对齐方法,该实体对齐方法是一个迭代过程,具体过程如下:
步骤1:输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
知识库中存在的实体和关系以三元组(h,r,t)的形式表示,其中h和t分别表示头实体和尾实体,r表示头实体和尾实体之间存在的关系。分别从需对齐的知识库KB1和KB2中提取所有三元组,构建三元组集合S1和S2。对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
步骤2:根据所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M(初始迭代,M仅包含先验对齐的种子实体对;后续迭代,M由种子实体对和上一轮迭代发现的匹配实体对共同组成)中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示。
对于知识库中的每个三元组,将关系r视为从头实体h到尾实体t的翻译操作,优化目标为能量函数如下所示:
E(h,r,t)=‖htr+rtr-ttr‖ (1)
其中htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示。
基于上述能量函数,所有正负样本三元组基于边际值的损失Ltm计算如下所示:
Ltm=∑(h,r,t)∈SL(h,r,t) (2)
其中S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
其中γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,为三元组(h,r,t)对应的负样本集合。
匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts计算如下所示:
其中e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性。如果e(1)和e(2)为种子实体对,则它们的匹配可靠性为1;如果e(1)和e(2)为发现的匹配实体对,则它们的匹配可靠性在上一轮迭代中根据e(1)和e(2)基于三元组和邻居信息的向量表示间的语义距离进行计算,计算方法详见步骤8。
结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm (5)
其中,β1和β2分别为Lts和Ltm的权重超参数。
以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
步骤3:从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组。
从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体e,其邻居信息为与实体e直接相邻的所有(实体,关系)元组和(关系,实体)元组,其中与实体e直接相邻的(实体,关系)元组为其前向邻居,与实体e直接相邻的(关系,实体)元组为其后向邻居。实体e的前向邻居集和后向邻居集具体定义如下所示:
步骤4:根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示。该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制来为实体邻居赋予权重。
匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns计算如下所示:
其中e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性。
对于知识库中任意实体e,其基于前向邻居的向量表示通过加权邻居信息编码得到。如图2所示,首先将实体e每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,然后将ei和ri进行串接,利用单层全连接神经网络学习该前向邻居的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作。
最后通过对实体e所有前向邻居的向量表示进行加权平均得到实体e基于前向邻居的向量表示
其中wi为实体e前向邻居(ei,ri)的权重。具体地,本方法从以下三个方面来度量实体e任意前向邻居(ei,ri)在实体对齐中起的作用大小并为其赋予相应权重wi
(a)结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重
(ei,ri)与实体e之间的映射关系可能为1-1或1-n(n>1),具体定义如下:为知识库中以(ei,ri)为前向邻居的实体集合,如果则(ei,ri)与实体e之间的映射关系为1-1;如果则(ei,ri)与实体e之间的映射关系为1-n且显然,两种映射关系下的(ei,ri)在实体对齐中起的作用大小是不同的。如果(ei,ri)与实体e之间的映射关系为1-1,则(ei,ri)在实体对齐中起的作用越大,权重越大;如果(ei,ri)与实体e之间的映射关系为1-n,则(ei,ri)在实体对齐中起的作用越小,权重越小,并且该权重会随着n的增大而减小。因此,基于(ei,ri)与实体e之间的映射关系,结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重为:
其中,α>0且α<0.5为超参数。
(b)结合实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)为前向邻居赋予权重
一个知识库中的各个关系并不是彼此完全独立的,同一实体所具有的某些关系之间往往存在一定的关联,即存在一定关联的关系通常会共同出现被用来描述同一个实体。因此,(ei,ri)中关系ri与实体e其他邻居中关系的关联程度Corre(ri)被定义为关系ri和实体e其他各个邻居中关系的共现概率之和。对于实体e其他任意邻居中关系rk,关系ri与rk的共现概率P(rk|ri)基于知识库中的所有实体进行计算,为关系ri与rk的共现次数和关系ri出现的次数之比。具体如下所示:
其中函数ψ(x)的输出为0或1,如果x=true,则ψ(x)=1;否则ψ(x)=0。E为知识库的实体集合,Re为实体e邻居中关系的集合,为知识库中任意实体eq邻居中关系的集合。
另外,需对齐的两知识库中的某些关系之间也可能存在一定的关联,需对齐的两知识库中存在一定关联的关系通常会共同出现在两个匹配实体的邻居中。因此,(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度CorrKB′(ri)被定义为关系ri和另一知识库KB′中各个关系的共现概率之和。对于另一知识库KB′中的任意关系rg,关系ri与rg的共现概率P(rg|ri)基于匹配实体对集合M进行计算,为关系ri与rg的共现次数和关系ri出现的次数之比。具体如下所示:
其中函数ψ(x)的输出为0或1,如果x=true,则ψ(x)=1;否则ψ(x)=0。R′为另一知识库KB′中的关系集合,e和e′为任意一个匹配实体对中的两个匹配实体,Re和Re′分别为实体e和实体e′邻居中关系的集合。
基于上述两种关联程度,结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重为:
其中Corre(ri)为(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小,因为关系ri可以由实体e其他邻居中关系反映出来,因而(ei,ri)的权重也就越小;CorrKB′(ri)为(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大,因为关系ri能够反映出另一知识库中某些关系,因而(ei,ri)的权重也就越大。
(c)结合注意力机制为前向邻居赋予权重
为利用隐藏在实体e前向邻居(ei,ri)向量表示中细粒度的信息,基于注意力机制为前向邻居赋予权重,具体地,结合注意力机制为前向邻居赋予权重为:
其中为参数对角矩阵,为实体e前向邻居(ei,ri)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目。
基于实体e所有前向邻居,分别对进行归一化,最终将归一化后的相加得到实体e前向邻居(ei,ri)的权重wi
类似地,利用上述过程可以得到实体e基于后向邻居的向量表示将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作。
对实体e所有后向邻居的向量表示进行加权平均得到实体e基于后向邻居的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,与计算实体e前向邻居权重方法类似。权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
其中,结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重为:
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重为:
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
结合注意力机制为后向邻居赋予权重为:
其中,为参数对角矩阵,为实体e后向邻居(rj,ej)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目。
在获得实体e基于前向邻居的向量表示和基于后向邻居的向量表示后,对向量表示和向量表示进行求和平均,获得实体e基于邻居信息的向量表示ene
步骤5:从KB1和KB2中提取两知识库中的所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
知识库中的每个实体都有其对应的类型,从KB1和KB2中提取所有实体及其对应的类型。基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
构建的跨知识库实体-类型图Gτ如图3所示,跨知识库实体-类型图Gτ=(E∪T,ε∪εee),其中E∪T为跨知识库实体-类型图Gτ的顶点集合,ε∪εee为跨知识库实体-类型图Gτ的边集合。E=E1∪E2表示两知识库中实体的集合,T=T1∪T2表示两知识库中实体类型的集合,ε表示实体-类型边集合,εee表示实体-实体边集合。如果实体ei的类型为τj,则实体ei和类型τj之间存在一条实体-类型边(eij)∈ε;如果实体ei的匹配实体为ej,则实体ei和实体ej之间存在一条实体-实体边(ei,ej)∈εee。实体-类型边和实体-实体边为两种不同类型的边,应该被赋予不同的边权重。由于跨知识库实体-类型图Gτ中实体-实体边的数量远小于实体-类型边的数量,所以为了强调实体-实体边,边权重的设置如下所示:
其中R(ei,ej)为匹配实体对ei和ej的匹配可靠性。
步骤6:根据跨知识库实体-类型图嵌入损失Lty,得到每个实体基于类型的向量表示。
为使具有相同类型的实体的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数定义为:
其中p2j|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布:
其中分别为实体ei基于类型的向量表示和类型τj的向量表示。
为使两个匹配实体基于类型的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数定义为:
其中p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布:
其中分别为实体ei和ej基于类型的向量表示。
结合损失函数L和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty
Lty=L+Lee (31)
以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
步骤7:由KB1和KB2中的未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉其中部分候选实体对。
由KB1和KB2中的未匹配实体两两形成候选实体对,计算每一个候选实体对(e(1),e(2))基于类型的向量表示间的余弦相似度并设置阈值θty,过滤掉的候选实体对。
步骤8:对于未被过滤掉的候选实体对,进一步根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对。
对于未被过滤掉的每一个候选实体对(e(1),e(2)),利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e(1),e(2)):
其中δ为权重超参数,分别为实体e(1)和e(2)基于三元组的向量表示,分别为实体e(1)和e(2)基于邻居信息的向量表示。
对于KB1中的任意未匹配实体e(1),在KB2中选择与e(1)语义距离d(e(1),e(2))最小且小于一定阈值θtn的实体作为其匹配实体。
发现的每一个匹配实体对(e(1),e(2))的匹配可靠性基于d(e(1),e(2))计算得到:
R(e(1),e(2))=σ(θtn-d(e(1),e(2))) (33)
其中σ(·)为sigmoid函数。
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
上述实体对齐方法结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,以此来匹配实体,从而提升实体对齐结果的准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一知识库中所有关系;
步骤5,从知识库KB1和知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
步骤6,根据跨知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由知识库KB1和知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
2.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
其中,γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,为三元组(h,r,t)对应的负样本集合,E(h,r,t)为三元组(h,r,t)的能量函数:
E(h,r,t)=||htr+rtr-ttr||
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
3.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作;
对实体e的所有前向邻居的向量表示进行加权平均得到实体e基于前向邻居的向量表示
其中,wi为实体e前向邻居(ei,ri)的权重,该权重其中,为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,f(·)=tanh为激活函数,为单层全连接神经网络的参数,表示串接操作;
对实体e的所有后向邻居的向量表示进行加权平均得到实体e基于后向邻居的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
(4-3)对实体e基于前向邻居的向量表示和基于后向邻居的向量表示进行求和平均,得到实体e基于邻居信息的向量表示ene
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns
其中,e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)计算得到每个实体基于邻居信息的向量表示。
4.如权利要求3所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤(4-1)中,
结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重为:
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重为:
其中,Corre(ri)为前向邻居(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小;CorrKB′(ri)为前向邻居(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大;
结合注意力机制为前向邻居赋予权重为:
其中,为参数对角矩阵,为实体e前向邻居(ei,ri)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目;
步骤(4-2)中,
结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重为:
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重为:
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
结合注意力机制为后向邻居赋予权重为:
其中,为参数对角矩阵,为实体e后向邻居(rj,ej)的向量表示,etr为实体e基于三元组的向量表示,m为实体e后向邻居的数目。
5.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤5中,构建的跨知识库实体-类型图Gτ表示为:
Gτ=(E∪T,ε∪εee)
其中,E∪T为跨知识库实体-类型图Gτ的顶点集合,ε∪εee为跨知识库实体-类型图Gτ的边集合,E=E1∪E2表示两知识库中实体的集合,T=T1∪T2表示两知识库中实体类型的集合,ε表示实体-类型边集合,εee表示实体-实体边集合。
6.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤6的具体过程为:
(6-1)对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数L定义为:
其中,p2j|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
其中,p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数L和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty
Lty=L+Lee
(6-4)以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
7.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤7中,
由KB1和KB2中的未匹配实体两两形成候选实体对,计算每一个候选实体对(e(1),e(2))基于类型的向量表示间的余弦相似度并设置阈值θty,过滤掉的候选实体对。
8.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤8中,
对于未被过滤掉的每一个候选实体对(e(1),e(2)),利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e(1),e(2)):
其中,δ为权重超参数,分别为实体e(1)和e(2)基于三元组的向量表示,分别为实体e(1)和e(2)基于邻居信息的向量表示;
对于KB1中的任意未匹配实体e(1),在KB2中选择与e(1)语义距离d(e(1),e(2))最小且小于一定阈值θtn的实体作为其匹配实体。
CN201910568295.5A 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法 Active CN110413704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910568295.5A CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910568295.5A CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Publications (2)

Publication Number Publication Date
CN110413704A true CN110413704A (zh) 2019-11-05
CN110413704B CN110413704B (zh) 2022-05-03

Family

ID=68358389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910568295.5A Active CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Country Status (1)

Country Link
CN (1) CN110413704B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125316A (zh) * 2019-12-26 2020-05-08 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112256882A (zh) * 2020-10-16 2021-01-22 美林数据技术股份有限公司 一种基于多重相似度的跨系统配网实体融合方法
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
US20210103706A1 (en) * 2019-10-04 2021-04-08 Nec Laboratories America, Inc. Knowledge graph and alignment with uncertainty embedding
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110433A1 (en) * 2012-02-01 2016-04-21 Sri International Method and apparatus for correlating and viewing disparate data
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN108763376A (zh) * 2018-05-18 2018-11-06 浙江大学 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110433A1 (en) * 2012-02-01 2016-04-21 Sri International Method and apparatus for correlating and viewing disparate data
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN108763376A (zh) * 2018-05-18 2018-11-06 浙江大学 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN LING等: "AHAB: Aligning heterogeneous knowledge bases via iterative blocking", 《INFORMATION PROCESSING & MANAGEMENT》 *
TANG XING等: "Knowledge representation learning with entity descriptions, hierarchical typse, and textual relations", 《INFORMATION PROCESSING & MANAGEMENT》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103706A1 (en) * 2019-10-04 2021-04-08 Nec Laboratories America, Inc. Knowledge graph and alignment with uncertainty embedding
CN111125316B (zh) * 2019-12-26 2022-04-22 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
CN111125316A (zh) * 2019-12-26 2020-05-08 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
CN111191462B (zh) * 2019-12-30 2022-02-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111753024A (zh) * 2020-06-24 2020-10-09 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112256882A (zh) * 2020-10-16 2021-01-22 美林数据技术股份有限公司 一种基于多重相似度的跨系统配网实体融合方法
CN112287123B (zh) * 2020-11-19 2022-02-22 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112784065B (zh) * 2021-02-01 2023-07-14 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113704495A (zh) * 2021-08-30 2021-11-26 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质
CN113704495B (zh) * 2021-08-30 2024-05-28 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110413704B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110413704A (zh) 基于加权邻居信息编码的实体对齐方法
CN108319686B (zh) 基于受限文本空间的对抗性跨媒体检索方法
CN109639710B (zh) 一种基于对抗训练的网络攻击防御方法
Mease et al. Boosted classification trees and class probability/quantile estimation.
CN104077595B (zh) 基于贝叶斯正则化的深度学习网络图像识别方法
CN110097178A (zh) 一种基于熵注意的神经网络模型压缩与加速方法
CN108733742A (zh) 全局归一化阅读器系统和方法
CN109344759A (zh) 一种基于角度损失神经网络的亲属识别方法
CN108960080A (zh) 基于主动防御图像对抗攻击的人脸识别方法
CN105809201B (zh) 一种生物启发式自主提取图像语义概念的识别方法及装置
CN109753571A (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN107423727B (zh) 基于神经网络的人脸复杂表情识别方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN110349185A (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN109255381A (zh) 一种基于二阶vlad稀疏自适应深度网络的图像分类方法
CN106529604B (zh) 一种自适应的图像标签鲁棒预测方法及系统
CN112988917A (zh) 一种基于多种实体上下文的实体对齐方法
CN113222181B (zh) 一种面向k-means聚类算法的联邦学习方法
Cai et al. A robust interclass and intraclass loss function for deep learning based tongue segmentation
CN111598252B (zh) 基于深度学习的大学计算机基础知识解题方法
CN110322959A (zh) 一种基于知识的深度医疗问题路由方法及系统
Lee et al. Improved recurrent generative adversarial networks with regularization techniques and a controllable framework
Huang et al. Global-local fusion based on adversarial sample generation for image-text matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant