CN110413704B - 基于加权邻居信息编码的实体对齐方法 - Google Patents
基于加权邻居信息编码的实体对齐方法 Download PDFInfo
- Publication number
- CN110413704B CN110413704B CN201910568295.5A CN201910568295A CN110413704B CN 110413704 B CN110413704 B CN 110413704B CN 201910568295 A CN201910568295 A CN 201910568295A CN 110413704 B CN110413704 B CN 110413704B
- Authority
- CN
- China
- Prior art keywords
- entity
- neighbor
- vector representation
- matching
- neighbors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于加权邻居信息编码的实体对齐方法,具体包括:1)对需对齐的两知识库中数据进行预处理,提取两知识库三元组、实体及其邻居信息和实体及其类型信息;2)基于当前已发现的所有匹配实体对,分别通过基于三元组的知识表示学习、加权邻居信息编码和跨知识库实体‑类型图嵌入,得到每个实体相应的向量表示;3)结合实体三种不同的向量表示推理匹配实体对;4)由发现的匹配实体对和先验对齐的种子实体对共同组成新的训练数据,重复步骤1)~4),直至达到指定的迭代次数,输出发现的匹配实体对。这种方法能够更加准确地匹配在三元组中出现较少的实体,在知识融合、知识问答等领域具有广阔的应用前景。
Description
技术领域
本发明涉及知识库实体对齐领域,具体涉及一种基于加权邻居信息编码的实体对齐方法。
背景技术
知识库以结构化的形式组织人类知识,旨在描述现实世界中存在的各种实体及其关系。随着Web 3.0的发展,诸多知识库相继出现。除DBpedia、Freebase等综合知识库外,还包括电影知识库(如IMDb、LinkedMDB)、音乐知识库(如MusicBrainz、Discogs)等许多特定领域知识库,这些知识库作为问答系统和推荐系统等的先验知识正在发挥着越来越重要的作用。但是,不同组织或机构在构建知识库时仅考虑自身的需求,导致知识库的多样性,并且不同知识库间存在着大量重复和互补的信息。实体对齐指发现不同知识库中代表现实中同一事物的两个实体,对于多知识库集成和知识库信息扩展具有重要意义。
基于表示学习的实体对齐方法为当前较为先进的实体对齐方法。基于表示学习的实体对齐方法利用知识表示学习将每个知识库中的实体和关系嵌入至不同的低维向量空间,同时基于先验对齐的种子实体对学习不同向量空间的转换,最后根据实体在低维向量空间中的语义距离推理匹配实体对。但是,现有基于表示学习的实体对齐方法通常假定知识库中的每个实体都有足够的训练三元组,无法对知识库中存在的长尾实体(即在三元组中出现较少的实体)进行充分学习,可能会导致长尾实体错误匹配,影响实体对齐结果的准确性。在知识表示学习中引入实体及其邻居信息,进而利用实体基于邻居信息的向量表示进行匹配实体对推理,有助于解决长尾实体错误匹配问题,但实体不同邻居在实体对齐中起的作用存在差异,现有邻居信息编码方法未能考虑该差异。
发明内容
本发明提供了一种基于加权邻居信息编码的实体对齐方法,以达到有效利用实体及其邻居信息提升长尾实体的匹配准确性的技术效果。
本发明的技术方案为:
一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一知识库中所有关系;
步骤5,从知识库KB1和知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ;
步骤6,根据跨知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由知识库KB1和知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
具体地,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm:
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
E(h,r,t)=‖htr+rtr-ttr‖
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts:
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,和分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky:
Lky=β1Lts+β2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
具体地,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
其中,wi为实体e前向邻居(ei,ri)的权重,该权重其中,为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns:
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)来获得每个实体基于邻居信息的向量表示。
具体地,步骤6的具体过程为:
(6-1)对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数Leτ定义为:
其中,p2(τj|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
其中,p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数Leτ和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty:
Lty=Leτ+Lee
(6-4)以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
本发明结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离。与现有方法相比,其优点在于:
1)除通过基于三元组的知识表示学习得到每个实体的向量表示外,还分别通过加权邻居信息编码和跨知识库实体-类型图嵌入得到每个实体相应的向量表示,并且在推理匹配实体对时,首先根据实体基于类型的向量表示过滤掉部分候选实体对,再综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,能够解决长尾实体容易被错误匹配问题,从而提升实体对齐结果的准确性;
2)对于实体任意一个邻居,从该邻居与实体之间的映射关系、该邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制三个方面度量该邻居在实体对齐中起的作用大小并为其赋予相应权重,进而能够得到适用于实体对齐的实体基于邻居信息的向量表示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是基于加权邻居信息编码的实体对齐方法总体流程图;
图2是加权邻居信息编码整体框架图;
图3是跨知识库实体-类型图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本发明提供了一种基于加权邻居信息编码的实体对齐方法,该实体对齐方法是一个迭代过程,具体过程如下:
步骤1:输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
知识库中存在的实体和关系以三元组(h,r,t)的形式表示,其中h和t分别表示头实体和尾实体,r表示头实体和尾实体之间存在的关系。分别从需对齐的知识库KB1和KB2中提取所有三元组,构建三元组集合S1和S2。对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
步骤2:根据所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M(初始迭代,M仅包含先验对齐的种子实体对;后续迭代,M由种子实体对和上一轮迭代发现的匹配实体对共同组成)中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示。
E(h,r,t)=‖htr+rtr-ttr‖ (1)
其中htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示。
基于上述能量函数,所有正负样本三元组基于边际值的损失Ltm计算如下所示:
Ltm=∑(h,r,t)∈SL(h,r,t) (2)
其中S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts计算如下所示:
其中e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,和分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性。如果e(1)和e(2)为种子实体对,则它们的匹配可靠性为1;如果e(1)和e(2)为发现的匹配实体对,则它们的匹配可靠性在上一轮迭代中根据e(1)和e(2)基于三元组和邻居信息的向量表示间的语义距离进行计算,计算方法详见步骤8。
结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky:
Lky=β1Lts+β2Ltm (5)
其中,β1和β2分别为Lts和Ltm的权重超参数。
以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
步骤3:从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组。
从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体e,其邻居信息为与实体e直接相邻的所有(实体,关系)元组和(关系,实体)元组,其中与实体e直接相邻的(实体,关系)元组为其前向邻居,与实体e直接相邻的(关系,实体)元组为其后向邻居。实体e的前向邻居集和后向邻居集具体定义如下所示:
步骤4:根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示。该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制来为实体邻居赋予权重。
匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns计算如下所示:
对于知识库中任意实体e,其基于前向邻居的向量表示通过加权邻居信息编码得到。如图2所示,首先将实体e每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,然后将ei和ri进行串接,利用单层全连接神经网络学习该前向邻居的向量表示
其中wi为实体e前向邻居(ei,ri)的权重。具体地,本方法从以下三个方面来度量实体e任意前向邻居(ei,ri)在实体对齐中起的作用大小并为其赋予相应权重wi:
(ei,ri)与实体e之间的映射关系可能为1-1或1-n(n>1),具体定义如下:为知识库中以(ei,ri)为前向邻居的实体集合,如果且则(ei,ri)与实体e之间的映射关系为1-1;如果且则(ei,ri)与实体e之间的映射关系为1-n且显然,两种映射关系下的(ei,ri)在实体对齐中起的作用大小是不同的。如果(ei,ri)与实体e之间的映射关系为1-1,则(ei,ri)在实体对齐中起的作用越大,权重越大;如果(ei,ri)与实体e之间的映射关系为1-n,则(ei,ri)在实体对齐中起的作用越小,权重越小,并且该权重会随着n的增大而减小。因此,基于(ei,ri)与实体e之间的映射关系,结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重为:
其中,α>0且α<0.5为超参数。
一个知识库中的各个关系并不是彼此完全独立的,同一实体所具有的某些关系之间往往存在一定的关联,即存在一定关联的关系通常会共同出现被用来描述同一个实体。因此,(ei,ri)中关系ri与实体e其他邻居中关系的关联程度Corre(ri)被定义为关系ri和实体e其他各个邻居中关系的共现概率之和。对于实体e其他任意邻居中关系rk,关系ri与rk的共现概率P(rk|ri)基于知识库中的所有实体进行计算,为关系ri与rk的共现次数和关系ri出现的次数之比。具体如下所示:
另外,需对齐的两知识库中的某些关系之间也可能存在一定的关联,需对齐的两知识库中存在一定关联的关系通常会共同出现在两个匹配实体的邻居中。因此,(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度CorrKB′(ri)被定义为关系ri和另一知识库KB′中各个关系的共现概率之和。对于另一知识库KB′中的任意关系rg,关系ri与rg的共现概率P(rg|ri)基于匹配实体对集合M进行计算,为关系ri与rg的共现次数和关系ri出现的次数之比。具体如下所示:
其中函数ψ(x)的输出为0或1,如果x=true,则ψ(x)=1;否则ψ(x)=0。R′为另一知识库KB′中的关系集合,e和e′为任意一个匹配实体对中的两个匹配实体,Re和Re′分别为实体e和实体e′邻居中关系的集合。
其中Corre(ri)为(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小,因为关系ri可以由实体e其他邻居中关系反映出来,因而(ei,ri)的权重也就越小;CorrKB′(ri)为(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大,因为关系ri能够反映出另一知识库中某些关系,因而(ei,ri)的权重也就越大。
类似地,利用上述过程可以得到实体e基于后向邻居的向量表示将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,与计算实体e前向邻居权重方法类似。权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
其中,α>0且α<0.5为超参数;
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
步骤5:从KB1和KB2中提取两知识库中的所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ。
知识库中的每个实体都有其对应的类型,从KB1和KB2中提取所有实体及其对应的类型。基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ。
构建的跨知识库实体-类型图Gτ如图3所示,跨知识库实体-类型图Gτ=(E∪T,εeτ∪εee),其中E∪T为跨知识库实体-类型图Gτ的顶点集合,εeτ∪εee为跨知识库实体-类型图Gτ的边集合。E=E1∪E2表示两知识库中实体的集合,T=T1∪T2表示两知识库中实体类型的集合,εeτ表示实体-类型边集合,εee表示实体-实体边集合。如果实体ei的类型为τj,则实体ei和类型τj之间存在一条实体-类型边(ei,τj)∈εeτ;如果实体ei的匹配实体为ej,则实体ei和实体ej之间存在一条实体-实体边(ei,ej)∈εee。实体-类型边和实体-实体边为两种不同类型的边,应该被赋予不同的边权重。由于跨知识库实体-类型图Gτ中实体-实体边的数量远小于实体-类型边的数量,所以为了强调实体-实体边,边权重的设置如下所示:
其中R(ei,ej)为匹配实体对ei和ej的匹配可靠性。
步骤6:根据跨知识库实体-类型图嵌入损失Lty,得到每个实体基于类型的向量表示。
为使具有相同类型的实体的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数定义为:
其中p2(τj|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布:
为使两个匹配实体基于类型的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数定义为:
其中p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布:
结合损失函数Leτ和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty:
Lty=Leτ+Lee (31)
以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
步骤7:由KB1和KB2中的未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉其中部分候选实体对。
步骤8:对于未被过滤掉的候选实体对,进一步根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对。
对于未被过滤掉的每一个候选实体对(e(1),e(2)),利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e(1),e(2)):
发现的每一个匹配实体对(e(1),e(2))的匹配可靠性基于d(e(1),e(2))计算得到:
R(e(1),e(2))=σ(θtn-d(e(1),e(2))) (33)
其中σ(·)为sigmoid函数。
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
上述实体对齐方法结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,以此来匹配实体,从而提升实体对齐结果的准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的电影知识库KB1和KB2,分别从电影知识库KB1和KB2中的电影文本信息中提取三元组,并构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为电影知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一电影知识库中所有关系;
步骤5,从电影知识库KB1和电影知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨电影知识库实体-类型图Gτ;
步骤6,根据跨电影知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由电影知识库KB1和电影知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
2.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm:
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
E(h,r,t)=‖htr+rtr-ttr‖
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts:
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,和分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky:
Lky=β1Lts+β2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
3.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
其中,wi为实体e前向邻居(ei,ri)的权重,该权重其中,为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
其中,wj为实体e后向邻居(rj,ej)的权重,权重其中,为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,为结合注意力机制为后向邻居赋予权重;
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns:
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)计算得到每个实体基于邻居信息的向量表示。
4.如权利要求3所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤(4-1)中,
其中,α>0且α<0.5为超参数;
其中,Corre(ri)为前向邻居(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小;CorrKB′(ri)为前向邻居(ei,ri)中关系ri与另一电影知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大;
步骤(4-2)中,
其中,α>0且α<0.5为超参数;
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一电影知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
5.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤5中,构建的跨电影知识库实体-类型图Gτ表示为:
Gτ=(E∪T,εeτ∪εee)
其中,E∪T为跨电影知识库实体-类型图Gτ的顶点集合,εeτ∪εee为跨电影知识库实体-类型图Gτ的边集合,E=E1∪E2表示两电影知识库中实体的集合,T=T1∪T2表示两电影知识库中实体类型的集合,εeτ表示实体-类型边集合,εee表示实体-实体边集合。
6.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤6的具体过程为:
(6-1)对于跨电影知识库实体-类型图Gτ中的实体-类型边,损失函数Leτ定义为:
其中,p2(τj|ei)为跨电影知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨电影知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
其中,p1(ei,ej)为跨电影知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数Leτ和损失函数Lee构建跨电影知识库实体-类型图嵌入损失Lty:
Lty=Leτ+Lee
(6-4)以最小化跨电影知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910568295.5A CN110413704B (zh) | 2019-06-27 | 2019-06-27 | 基于加权邻居信息编码的实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910568295.5A CN110413704B (zh) | 2019-06-27 | 2019-06-27 | 基于加权邻居信息编码的实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413704A CN110413704A (zh) | 2019-11-05 |
CN110413704B true CN110413704B (zh) | 2022-05-03 |
Family
ID=68358389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910568295.5A Active CN110413704B (zh) | 2019-06-27 | 2019-06-27 | 基于加权邻居信息编码的实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413704B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103706A1 (en) * | 2019-10-04 | 2021-04-08 | Nec Laboratories America, Inc. | Knowledge graph and alignment with uncertainty embedding |
CN111125316B (zh) * | 2019-12-26 | 2022-04-22 | 北京工业大学 | 一种融合多损失函数及注意力机制的知识库问答方法 |
CN111191462B (zh) * | 2019-12-30 | 2022-02-22 | 北京航空航天大学 | 一种基于链路预测实现跨语言知识空间实体对齐方法及系统 |
CN111753024B (zh) * | 2020-06-24 | 2024-02-20 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN112256882A (zh) * | 2020-10-16 | 2021-01-22 | 美林数据技术股份有限公司 | 一种基于多重相似度的跨系统配网实体融合方法 |
CN112287123B (zh) * | 2020-11-19 | 2022-02-22 | 国网湖南省电力有限公司 | 一种基于边类型注意力机制的实体对齐方法及装置 |
CN112784065B (zh) * | 2021-02-01 | 2023-07-14 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
CN113704495B (zh) * | 2021-08-30 | 2024-05-28 | 合肥智能语音创新发展有限公司 | 实体对齐方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN107480191A (zh) * | 2017-07-12 | 2017-12-15 | 清华大学 | 一种迭代的实体对齐模型 |
CN108763376A (zh) * | 2018-05-18 | 2018-11-06 | 浙江大学 | 融合关系路径、类型、实体描述信息的知识表示学习方法 |
CN109815345A (zh) * | 2019-02-25 | 2019-05-28 | 南京大学 | 一种基于路径的知识图谱嵌入方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068024B2 (en) * | 2012-02-01 | 2018-09-04 | Sri International | Method and apparatus for correlating and viewing disparate data |
-
2019
- 2019-06-27 CN CN201910568295.5A patent/CN110413704B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN107480191A (zh) * | 2017-07-12 | 2017-12-15 | 清华大学 | 一种迭代的实体对齐模型 |
CN108763376A (zh) * | 2018-05-18 | 2018-11-06 | 浙江大学 | 融合关系路径、类型、实体描述信息的知识表示学习方法 |
CN109815345A (zh) * | 2019-02-25 | 2019-05-28 | 南京大学 | 一种基于路径的知识图谱嵌入方法 |
Non-Patent Citations (2)
Title |
---|
AHAB: Aligning heterogeneous knowledge bases via iterative blocking;Chen Ling等;《Information Processing & Management》;20180921;第56卷(第1期);全文 * |
Knowledge representation learning with entity descriptions, hierarchical typse, and textual relations;Tang Xing等;《Information Processing & Management》;20190129;第56卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413704A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413704B (zh) | 基于加权邻居信息编码的实体对齐方法 | |
Tan et al. | Deep representation learning for social network analysis | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
CN109753571B (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
CN111079409B (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
CN113919441A (zh) | 一种基于超图变换网络的分类方法 | |
CN111210002B (zh) | 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN112784913A (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
CN113254663A (zh) | 一种融合图卷积与翻译模型的知识图谱联合表示学习方法 | |
CN116340646A (zh) | 一种基于超图基序优化多元用户表示的推荐方法 | |
CN114942998B (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
CN112784118A (zh) | 一种对三角形结构敏感的图中的社区发现方法和装置 | |
CN114036308A (zh) | 基于图注意力神经网络的知识图谱表示方法 | |
CN112884045A (zh) | 基于多视角的随机删边嵌入模型的分类方法 | |
Jiang et al. | Exploiting node-feature bipartite graph in graph convolutional networks | |
Liao et al. | View-consistent heterogeneous network on graphs with few labeled nodes | |
CN117131933A (zh) | 一种多模态知识图谱建立方法及应用 | |
CN116226467A (zh) | 基于节点结构特征的图卷积神经网络的社区发现方法 | |
CN115564013B (zh) | 提高网络表示学习表示能力的方法、模型训练方法和系统 | |
CN115660882A (zh) | 社交网络中用户间关系预测方法及多头混合聚合图卷积网络 | |
CN112148998B (zh) | 一种基于多核图卷积网络的在线社交平台用户好友推荐方法 | |
Wang et al. | Heterogeneous defect prediction algorithm combined with federated sparse compression | |
CN113792144A (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
Liang et al. | Deep latent position model for node clustering in graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |