CN112988917A - 一种基于多种实体上下文的实体对齐方法 - Google Patents

一种基于多种实体上下文的实体对齐方法 Download PDF

Info

Publication number
CN112988917A
CN112988917A CN202110346496.8A CN202110346496A CN112988917A CN 112988917 A CN112988917 A CN 112988917A CN 202110346496 A CN202110346496 A CN 202110346496A CN 112988917 A CN112988917 A CN 112988917A
Authority
CN
China
Prior art keywords
entity
information
attribute
vector
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110346496.8A
Other languages
English (en)
Other versions
CN112988917B (zh
Inventor
吴天星
李林
漆桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110346496.8A priority Critical patent/CN112988917B/zh
Publication of CN112988917A publication Critical patent/CN112988917A/zh
Application granted granted Critical
Publication of CN112988917B publication Critical patent/CN112988917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本专利公开了一种基于多种实体上下文的实体对齐方法,主要处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性引起的实体对齐困难问题。对于实体结构异构性问题,本专利使用TransE和RDF2Vec方法分别处理一跳和多跳结构信息,获取实体结构编码。对于实体属性异构性,本专利使用图卷积网络技术和图注意力机制,对每个实体按其属性的重要性提取其属性、属性值的信息,并映射到低维稠密的向量空间中。对于实体文本描述异构性,本专利使用预训练语言模型BERT获取文本语义信息,基于种子对齐实体信息进行模型的训练和学习,将实体的文本信息映射到低维稠密的向量空间。最后,本专利使用拼接技术和多视角技术对多种实体上下文进行联合对齐学习。

Description

一种基于多种实体上下文的实体对齐方法
技术领域
本专利属于实体对齐领域,涉及一种基于多种实体上下文的实体对齐方法。
背景技术
近年来,知识图谱作为一种结构化的知识形式已经引起了学术界和工业界的极大关注。知识图谱(Knowledge Graph)的概念由Google于2012年正式提出,其目的是将大规模知识整合在一起,分析用户查询背后的语义信息,返回更准确和结构化的信息,更大可能地满足用户的查询需求。尽管谷歌公司最初提出知识图谱是为了增强搜索结果,改善用户体验,但目前知识图谱已经逐渐演变为一种通用的技术,很多机构都开始构建自己的知识图谱,例如微软公司的ConceptNet,卡内基梅隆大学的NELL,东南大学的Zhishi.me等等,这些知识图谱被广泛应用于许多基于知识的应用中。由于知识图谱可以由任何机构和个人自由构建,其背后的数据宽泛且质量参差不齐,导致了它们之间的多样性和异构性。例如,对于相交的领域(甚至相同的领域),在现实世界中经常有多个不同的实体指代同一事物。实体对齐的目标就是将不同的知识图融合为一个统一,一致且简洁的知识图谱,并为使用不同知识图谱的应用程序之间的交互建立互操作性。
本专利提出的基于多种实体上下文的实体对齐方法,主要用于处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性等引起的实体对齐困难问题。对于实体结构异构性问题,本专利使用TransE和RDF2Vec方法分别学习实体的一跳和多跳结构信息,将实体从多维稀疏的实体空间映射到低维稠密的向量空间。对于实体属性异构性,本专利使用图卷积网络技术和图注意力机制,对每个实体按其属性的重要性提取其所有属性、属性值的信息,并映射到低维稠密的向量空间中。对于实体文本描述异构性,本专利使用当前最流行的BERT学习文本的语法结构信息和语义信息,基于种子对齐实体信息进行模型的训练和学习,将实体的文本信息映射到低维稠密的向量空间。最后,本专利使用拼接技术和多视角技术对多种实体上下文进行联合对齐学习。
相比较已有的实体对齐方法,本方法考虑了实体的多种上下文,并提出了两种联合对齐学习模型,只需要少量的人工标注对齐实体,即可自动化的完成知识图谱实体对齐。
专利内容
技术问题:本专利提供了一种基于多种实体上下文的实体对齐方法,只需要人工标注少量的种子对齐实体,即可自动化的完成知识图谱实体对齐。
技术方案:本专利公开了一种基于多种实体上下文的实体对齐方法,主要用于处理因为实体结构异构性、实体属性异构性以及实体文本描述异构性等引起的实体对齐困难问题。对于实体结构异构性问题,本专利使用TransE和RDF2Vec方法分别学习实体的一跳和多跳结构信息,将实体从多维稀疏的实体空间映射到低维稠密的向量空间。对于实体属性异构性,本专利使用图卷积网络技术和注意力机制,对每个实体按其属性的重要性提取出综合其所有属性、属性值的信息,并映射到低维稠密的向量空间中。对于实体文本描述异构性,本专利使用当前最流行的BERT学习文本的语法结构信息和语义信息,基于种子对齐实体信息进行模型的训练和学习,将实体的文本信息映射到低维稠密的向量空间。最后,本专利使用拼接技术和多视角技术对多种实体上下文的向量使用联合对齐学习。
本专利提出的基于多种实体上下文的实体对齐方法,包括以下步骤:
1)首先,利用TransE从知识图谱关系三元组中学习实体的一跳结构信息。给定一个关系三元组tr=(head,rel,tail),其中head和tail表示实体,rel表示关系,使用首字母h、t和r分别代表其向量表示,那么TransE尽量使g+r≈t,即评分函数
Figure BDA0003000983460000021
尽量小。在学习过程中,为了增强知识表示的区分能力,采用最大间隔法,并定义了以下目标函数:
Figure BDA0003000983460000022
其中,γ为正样本的评分与负样本的评分之间的间隔,G是合法三元组(正样本)的集合,即用于训练的三元组集合,G′为错误的三元组(负样本)的集合,E代表知识图谱中所有实体的集合。负样本是通过对正样本进行负采样得到的,具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的,分别对应公式中h′、t′,负样本采样如下面公式所示。
Figure BDA0003000983460000031
利用RDF2Vec从知识图谱关系三元组中学习实体的多跳结构信息,将知识图谱看成由无数条实体关系路径构成网络结构,通过图随机游走算法,每次采样出一条或多条实体关系路径,再利用Skip-Gram模型进行学习,将实体和关系表示成低维稠密的向量。
2)其次,利用GCN模型学习属性三元组中实体的结构信息和内容信息。给定一个属性三元组tv=(h,r,v),其中h和t表示实体,v表示关系,那么,关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构,利用GCN提取星状图的信息。
星状图的顶点特征矩阵H0∈Rnxd,其中n是节点的数目,d是特征的数目,输出是汇集了实体属性信息和属性值信息的新特征矩阵H1
Figure BDA0003000983460000032
其中,σ是一个激活函数,
Figure BDA0003000983460000033
是一个n×n连通性矩阵,表示图的结构信息;
Figure BDA0003000983460000034
I是一致性矩阵;D是A的对角度矩阵;W∈Rd×d′是GCN的权重矩阵,d’是新顶点特征的维数。
在基于属性三元组的实体对齐任务中,不同属性对实体对齐的贡献不同,因此采用注意机制提取关键属性信息。图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体。计算公式如下:
c=LeakeyReLU[(MH0)T(MH1)]
α=softmax(c)
Figure BDA0003000983460000035
其中,c是实体及其邻居实体的可学习注意力权重,α是c经过softmax函数归一化之后的权重,H1是汇集了实体属性信息和属性值信息的新特征矩阵。
给定属性三元组(h,a,v)∈KG1∪KG2,定义了如下的函数,将属性结构信息和属性值内容信息传递给实体。
Figure BDA0003000983460000036
基于上面的公式,实体向量表示将会尽量接近属性和属性值的综合向量表示。使用logistic loss优化函数fattr,公式如下:
Figure BDA0003000983460000041
其中,γ1和γ2分别表示来自于知识图谱1和知识图谱2的属性三元组集合。
3)采用BERT作为预训练模型,学习文本的语法结构信息和语义信息,对不同语言的文本信息进行编码,再基于种子对齐实体对信息进行微调(fine-tuning),计算不同语言的文本信息之间的相关性,
给定实体的不同语言的文本描述信息,根据实体的文本信息训练BERT,训练目标为:(1)随机掩盖一些词,根据该词的上下文预测被掩盖的词语,(2)随机选取一些连续句子,预测前后句子之间的连贯性。
4)采用线性变换方法,将不同的实体上下文学习到的向量映射到同一个向量空间中,称为共享向量空间。
Figure BDA0003000983460000042
其中,
Figure BDA0003000983460000043
是实体第i个视角对应的向量表示,所述步骤1)、2)、3)中分别是三个视角(三类实体上下文)对应的实体向量,Hi是将实体第i个视角的向量映射到共享空间的映射矩阵。
Figure BDA0003000983460000044
其中,D是视角的个数,I是单位矩阵。
4a)拼接
V=[V1;V2;...;VD]
如上式所示,在共享空间中,将所有视角(所有上下文)的向量表示进行拼接,作为最终的实体向量表示。
4b)多视角完整空间
对于所有实体,向量表示为x,视角的个数为D,全局空间为λ,则由λ重构这D个视角的损失函数为
Figure BDA0003000983460000045
其中,c是一个超参数,Wi是由全局空间λ生成第i个视角的生成矩阵。上述loss函数,可以分解为两部分,第一部分是计算生成矩阵W,第二部分是计算实体在全局空间的向量表示x。
给定生成矩阵W的情况下,上述loss函数可被简化为
Figure BDA0003000983460000051
求导得出x的更新公式如下,记为公式1和公式2:
Figure BDA0003000983460000052
Figure BDA0003000983460000053
固定全局空间中所有实体向量不变的情况下,上述loss函数可被简化为
Figure BDA0003000983460000054
求导得出W的更新公式如下,记为公式3和公式4:
Figure BDA0003000983460000055
Figure BDA0003000983460000056
经过多次迭代,模型收敛,向量x即为最终的实体向量表示。
5)所述步骤4)中得到了待对齐知识图谱中所有实体的向量表示,记所有实体的向量矩阵为W1和W2,通过计算矩阵乘积,查找出与每个实体最相似的实体。
s=W1′W2
对于每个实体i,在行向量Si中,找出与实体i最相似的实体j,即:
Sij=max(Si*),0≤*≤|E|
其中|E|表示实体总数。
6)所述步骤5)中最终得到了很多最相似实体对,即为对齐实体。
有益结果:本发明与现有技术相比,具有以下优点:
基于关系三元组的模型很多是以TransE模型为基础,将知识图谱中的实体、关系映射为低维空间中的实值向量,然后通过计算向量相似度做对齐。
由于利用TransE对不同的知识图谱做表示学习,那么不同知识图谱的学习出来的向量将会在不同的向量空间,无法通过这些向量判断出实体与实体之间的相似度,即无法对齐实体。因此,JE利用部分种子对齐实体作为不同的知识图谱之间的桥梁,将不同的知识图谱嵌入到统一的向量空间中,其训练目标是使每对种子实体具有相同相似的向量表示。
MTransE同样是基于TransE模型,根据知识图谱的关系三元组将实体映射到特定的低维稠密向量空间中。而与JE不同的是,MTransE是分别对不同知识图谱进行表示学习,然后通过对齐模型根据种子实体学习出不同知识图谱嵌入之间的映射关系,MTransE中共设计了三大类对齐模型。
与MTransE相似,IPTransE是利用TransE分别对两个知识图谱进行表示学习,然后再利用种子实体对学习到的知识图谱实体向量做映射。然而,IPTransE的整个学习过程是迭代进行的,每次学习得到的对齐实体将作为种子实体为下一次对齐做贡献。
BootEA与IPTransE类似,采用迭代的方法不断地发掘新对齐实体。在此之外,BootEA还优化了负采样的方法,以及做了数据增强。
JAPE提出了一种用于知识图谱实体对齐的联合属性保留嵌入模型。利用种子实体将两个知识图谱的实体共同嵌入到一个统一的向量空间。然后,使用基于属性类型相似性计算的属性相关性更新向量表示。JAPE使用属性三元组信息学习实体向量表示,其背后的思想源于词嵌入模型。对于每对种子实体,它们的每个属性都是两两相关的,而对于非种子实体,如果它们的属性值类别相同,那么认为属性也相关。接着,利用Skip-Gram模型和负采样方法来训练属性的向量表示,最后,取属性向量平均值作为实体的向量表示。
JAPE虽然加入了对属性三元组的使用,但是仅仅用到了属性三元祖的属性信息,而直接丢弃了属性值信息。AttrE中加入了三种对属性值的利用方法。
(1)基于字符嵌入求和的模型。利用字符嵌入技术,根据所有属性值学习出每个字符的向量表示,然后将每个属性值的所有字符向量求和作为实体的向量。
(2)基于LSTM编码的模型。基于字符嵌入求和的模型没有保留字符串的顺序信息,所以1.24和12.4会被编码成一样的向量。因此使用LSTM保留属性值字符串的顺序信息,对于每个属性值进行编码。
(3)基于N-Gram编码的模型。N-Gram同样可以解决基于字符嵌入求和模型的无法字符处理顺序问题,并且N-Gram比LSTM轻量一些,效率会更高。
相比较已有的实体对齐方法,本方法考虑了实体的多种上下文,并提出了两种联合对齐学习模型,只需要少量的人工标注对齐实体,即可自动化的完成知识图谱实体对齐。
附图说明
图1是本专利方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
如图所示,本发明提出了一种基于多种实体上下文的实体对齐方法,包括以下步骤:
1)首先,利用TransE从知识图谱关系三元组中学习实体的一跳结构信息。给定一个关系三元组tr=(head,rel,tail),其中head和tail表示实体,rel表示关系,使用首字母h、t和r代表其向量表示,那么TransE尽量使h+r≈t,即评分函数
Figure BDA0003000983460000071
尽量小。在学习过程中,为了增强知识表示的区分能力,采用最大间隔法,并定义了以下目标函数:
Figure BDA0003000983460000072
其中,γ为正样本的评分与负样本的评分之间的间隔,G是合法三元组(正样本)的集合,即用于训练的三元组集合,G′为错误的三元组(负样本)的集合,E代表知识图谱中所有实体的集合。负样本是通过对正样本进行负采样得到的,具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的,分别对应公式中h’、t’,负样本采样如下面公式所示。
Figure BDA0003000983460000073
遍历知识图谱中的所有关系三元组,对于每一个关系三元组采样出若干个负样本,代入到目标函数中计算出Loss值,将Loss值反向传播,更新实体、关系的向量表示。经过若干次迭代后,Loss稳定并且数值较小,终止迭代。
利用RDF2Vec从知识图谱关系三元组中学习实体的多跳结构信息,将知识图谱看成由无数条实体关系路径构成网络结构,通过图随机游走算法,每次采样出一条或多条实体关系路径,再利用Skip-Gram模型进行学习,将实体和关系表示成低维稠密的向量。
遍历知识图谱中的所有实体,由于实体是知识图谱中的一个节点,从节点的入边和出边分别反方向随机游走,采样出属于该实体的游走路径。利用Skip-Gram模型训练采样出的游走路径,路径中距离越近的实体具有更相似的向量表示。经过若干次迭代后,Loss稳定并且数值较小,终止迭代。RDF2Vec的输出是作为TransE的预输入。
2)其次,利用GCN模型学习属性三元组中实体的结构信息和内容信息。给定一个属性三元组tv=(h,r,v),其中h和t表示实体,v表示关系,那么,关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构,利用GCN提取星状图的结构信息和属性值内容信息。比如实体姚明,其包含姓名、性别、身高、年龄等属性,那么可以看成是以实体姚明为中心节点,姓名、性别、身高、年龄为边缘节点的星状图。
星状图中的每个节点都有一个向量表示,这些向量即为顶点特征矩阵H0∈Rnxd,其中n是节点的数目,d是特征的数目,输出是汇集了实体属性信息和属性值信息的新特征矩阵H1
Figure BDA0003000983460000081
其中,σ是一个激活函数,
Figure BDA0003000983460000082
是一个n×n连通性矩阵,表示图的结构信息;
Figure BDA0003000983460000083
I是一致性矩阵;D是A的对角度矩阵;W∈Rd×d’是GCN的权重矩阵,d’是新顶点特征的维数。
在基于属性三元组的实体对齐任务中,不同属性对实体对齐的贡献不同,如实体姚明,可以看到:姓名属性要比身高、性别、年龄属性重要的多,因此采用注意机制提取关键属性信息。图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体。计算公式如下:
c==LeakeyReLU[(MH0)T(MH1)]
α=softmax(c)
Figure BDA0003000983460000084
其中,c是实体及其邻居实体的可学习注意力权重,α是c经过softmax函数归一化之后的权重,H1是汇集了实体属性信息和属性值信息的新特征矩阵。
给定属性三元组(h,a,v)∈KG1∪KG2,定义了如下的函数,将属性结构信息和属性值内容信息传递给实体。
Figure BDA0003000983460000091
基于上面的公式,实体向量表示将会尽量接近属性和属性值的综合向量表示。使用logistic loss优化函数fattr,公式如下:
Figure BDA0003000983460000092
其中,γ1和γ2分别表示来自于知识图谱1和知识图谱2的属性三元组集合。
遍历所有知识图谱实体,构造每个实体的星状图,利用BERT模型对各个属性值的向量表示进行初始化,再利用GCN模型提取星状图的结构信息,以及属性值信息,得到实体最终的向量表示。在提取的过程中,通过GAT计算每个属性、属性值对实体对齐的贡献,贡献大的实体将会有更多的权重被融入到实体最终的向量表示。
3)采用BERT作为预训练模型,学习文本的语法结构信息和语义信息,对不同语言的文本信息进行编码,再基于种子对齐实体对信息进行微调(fine-tuning),计算不同语言的文本信息之间的相关性,
遍历所有实体的不同语言的文本描述信息,根据实体的文本信息训练BERT,训练目标为:(1)随机掩盖一些词,根据该词的上下文预测被掩盖的词语,(2)随机选取一些连续句子,预测前后句子之间的连贯性。
4)首先采用线性变换方法,将不同的实体上下文学习到的向量映射到同一个向量空间中,称为共享向量空间。
Figure BDA0003000983460000093
其中,
Figure BDA0003000983460000094
是实体第i个视角对应的向量表示,所述步骤1)、2)、3)中分别是三个视角(三类实体上下文)对应的实体向量,Hi是将实体第i个视角的向量映射到共享空间的映射矩阵。
Figure BDA0003000983460000095
其中,D是视角的个数,I是单位矩阵。
然后将多视角的实体上下文按照下面两种方式进行整合,学习出实体的最终向量表示,
4a)拼接
V=[V1;V2;...;VD]
如上式所示,在共享空间中,将所有视角(所有上下文)的向量表示进行拼接,作为最终的实体向量表示。
4b)多视角完整空间
对于所有实体,向量表示为x,视角的个数为D,全局空间为λ,则由λ重构这D个视角的损失函数为
Figure BDA0003000983460000101
其中,c是一个超参数,Wi是由全局空间λ生成第i个视角的生成矩阵。上述loss函数,可以分解为两部分,第一部分是计算生成矩阵W,第二部分是计算实体在全局空间的向量表示x。
给定生成矩阵W的情况下,上述loss函数可被简化为
Figure BDA0003000983460000102
求导得出x的更新公式如下,记为公式1和公式2:
Figure BDA0003000983460000103
Figure BDA0003000983460000104
固定全局空间中所有实体向量不变的情况下,上述loss函数可被简化为
Figure BDA0003000983460000105
求导得出W的更新公式如下,记为公式3和公式4:
Figure BDA0003000983460000106
Figure BDA0003000983460000107
经过多次迭代,模型收敛,最终的实体向量表示x和从完整空间到视角空间的映射矩阵W。
5)所述步骤4)中得到了待对齐知识图谱中所有实体的向量表示,记所有实体的向量矩阵为W1和W2,通过计算矩阵乘积,查找出与每个实体最相似的实体。
S=W1′W2
对于每个实体i,在行向量Si中,找出与实体i最相似的实体j,即:
Sij=max(Si*),0≤*≤|E|
其中|E|表示实体总数。
6)所述步骤5)中最终得到了很多最相似实体对,即为对齐实体。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (1)

1.一种基于多种实体上下文的实体对齐方法,其特征在于,该方法包括以下步骤:
1)首先,利用TransE从知识图谱关系三元组中学习出实体的一跳结构信息;给定一个关系三元组tr=(head,rel,tail),其中head和tail表示实体,rel表示关系,使用首字母h、t和r分别代表其向量表示,那么TransE尽量使h+r≈t,即评分函数
Figure FDA0003000983450000011
尽量小;在学习过程中,为了增强知识表示的区分能力,采用最大间隔法,并定义了以下目标函数:
Figure FDA0003000983450000012
其中,γ为正样本的评分与负样本的评分之间的间隔,G是合法三元组正样本的集合,即用于训练的三元组集合,G′为错误的三元组负样本的集合,E代表知识图谱中所有实体的集合;负样本是通过对正样本进行负采样得到的,具体过程是将正样本的头实体或尾实体随机替换为另一个实体而获得的,分别对应公式中h′、t′,负样本采样如下面公式所示:
Figure FDA0003000983450000013
利用RDF2Vec从知识图谱关系三元组中学习实体的多跳结构信息,将知识图谱看成由无数条实体关系路径构成网络结构,通过图随机游走算法,每次采样出一条或多条实体关系路径,再利用Skip-Gram模型进行学习,将实体和关系表示成低维稠密的向量;
2)其次,利用GCN模型学习属性三元组中实体的结构信息和内容信息;给定一个属性三元组tv=(h,r,v),其中h和t表示实体,v表示关系,那么,关于某个特定实体的所有属性三元组可以看成是以实体为中心的星状图结构,利用GCN提取星状图的信息;
星状图的顶点特征矩阵H0∈Rnxd,其中n是节点的数目,d是特征的数目,输出是汇集了实体属性信息和属性值信息的新特征矩阵H1
Figure FDA0003000983450000014
其中,σ是一个激活函数,
Figure FDA0003000983450000015
是一个n×n连通性矩阵,表示图的结构信息;
Figure FDA0003000983450000016
I是一致性矩阵;D是A的对角度矩阵;W∈Rd×d′是GCN的权重矩阵,d’是新顶点特征的维数;
在基于属性三元组的实体对齐任务中,不同属性对实体对齐的贡献不同,因此采用注意机制提取关键属性信息,图注意力网络GAT将共享的线性变换应用于每个注意力函数中的实体;计算公式如下:
c=LeakeyReLU[(MH0)T(MH1)]
α=softmax(c)
Figure FDA0003000983450000021
其中,c是实体及其邻居实体的可学习注意力权重,α是c经过softmax函数归一化之后的权重,H1是汇集了实体属性信息和属性值信息的新特征矩阵;
给定属性三元组(h,a,v)∈KG1∪KG2,定义了如下的函数,将属性结构信息和属性值内容信息传递给实体;
Figure FDA0003000983450000022
基于上面的公式,实体向量表示将会尽量接近属性和属性值的综合向量表示;使用logistic loss优化函数fattr,公式如下:
Figure FDA0003000983450000023
其中,γ1和γ2分别表示来自于知识图谱1和知识图谱2的属性三元组集合;
3)采用BERT作为预训练模型,学习文本的语法结构信息和语义信息,对不同语言的文本信息进行编码,再基于种子对齐实体对信息进行微调,计算不同语言的文本信息之间的相关性,
给定实体的不同语言的文本描述信息,根据实体的文本信息训练BERT,训练目标为:(1)随机掩盖一些词,根据该词的上下文预测被掩盖的词语,(2)随机选取一些连续句子,预测前后句子之间的连贯性;
4)采用线性变换方法,将不同的实体上下文学习到的向量映射到同一个向量空间中,称为共享向量空间;
Figure FDA0003000983450000024
其中,
Figure FDA0003000983450000025
是实体第i个视角对应的向量表示,所述步骤1)、2)、3)中分别是三个视角即三类实体上下文对应的实体向量,Hi是将实体第i个视角的向量映射到共享空间的映射矩阵;
Figure FDA0003000983450000031
其中,D是视角的个数,I是单位矩阵;
4a)嵌入拼接
V=[V1;V2;...;VD]
如上式所示,在共享空间中,将所有视角即所有上下文的向量表示进行拼接,作为最终的实体向量表示;
4b)多视角完整空间学习
对于所有实体,向量表示为x,视角的个数为D,全局空间为λ,则由λ重构这D个视角的损失函数为
Figure FDA0003000983450000032
其中,c是一个超参数,Wi是由全局空间λ生成第i个视角的生成矩阵;上述loss函数,可以分解为两部分,第一部分是计算生成矩阵W,第二部分是计算实体在全局空间的向量表示x;
给定生成矩阵W的情况下,上述loss函数可被简化为
Figure FDA0003000983450000033
求导得出x的更新公式如下,记为公式1和公式2:
Figure FDA0003000983450000034
Figure FDA0003000983450000035
固定全局空间中所有实体向量不变的情况下,上述loss函数可被简化为
Figure FDA0003000983450000036
求导得出W的更新公式如下,记为公式3和公式4:
Figure FDA0003000983450000037
Figure FDA0003000983450000038
经过多次迭代,模型收敛,向量x即为最终的实体向量表示;
5)所述步骤4)中得到了待对齐知识图谱中所有实体的向量表示,记所有实体的向量矩阵为W1和W2,通过计算矩阵乘积,查找出与每个实体最相似的实体;
S=W1′W2
对于每个实体i,在行向量Si中,找出与实体i最相似的实体j,即:
Sij=max(Si*),0≤*≤|E|
其中|E|表示实体总数;
6)所述步骤5)中最终得到了很多最相似实体对,即为对齐实体。
CN202110346496.8A 2021-03-31 2021-03-31 一种基于多种实体上下文的实体对齐方法 Active CN112988917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110346496.8A CN112988917B (zh) 2021-03-31 2021-03-31 一种基于多种实体上下文的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110346496.8A CN112988917B (zh) 2021-03-31 2021-03-31 一种基于多种实体上下文的实体对齐方法

Publications (2)

Publication Number Publication Date
CN112988917A true CN112988917A (zh) 2021-06-18
CN112988917B CN112988917B (zh) 2022-11-18

Family

ID=76338617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110346496.8A Active CN112988917B (zh) 2021-03-31 2021-03-31 一种基于多种实体上下文的实体对齐方法

Country Status (1)

Country Link
CN (1) CN112988917B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836321A (zh) * 2021-11-30 2021-12-24 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN114328980A (zh) * 2022-03-14 2022-04-12 来也科技(北京)有限公司 结合rpa及ai的知识图谱构建方法、装置、终端及存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN115982374A (zh) * 2022-12-02 2023-04-18 河海大学 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN116150405A (zh) * 2023-04-19 2023-05-23 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112507699A (zh) * 2020-09-16 2021-03-16 东南大学 一种基于图卷积网络的远程监督关系抽取方法
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836321A (zh) * 2021-11-30 2021-12-24 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN113836321B (zh) * 2021-11-30 2022-05-10 北京富通东方科技有限公司 一种医学知识表示的生成方法和装置
CN114328980A (zh) * 2022-03-14 2022-04-12 来也科技(北京)有限公司 结合rpa及ai的知识图谱构建方法、装置、终端及存储介质
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114417845B (zh) * 2022-03-30 2022-07-12 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN115982374A (zh) * 2022-12-02 2023-04-18 河海大学 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN115982374B (zh) * 2022-12-02 2023-07-04 河海大学 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN116150405A (zh) * 2023-04-19 2023-05-23 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116150405B (zh) * 2023-04-19 2023-06-27 中电科大数据研究院有限公司 一种多场景的异构数据处理方法
CN116610820A (zh) * 2023-07-21 2023-08-18 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质
CN116610820B (zh) * 2023-07-21 2023-10-20 智慧眼科技股份有限公司 一种知识图谱实体对齐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112988917B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN110825881B (zh) 一种建立电力知识图谱的方法
JP7468929B2 (ja) 地理知識取得方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN112214685A (zh) 一种基于知识图谱的个性化推荐方法
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112199608A (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN109960755B (zh) 一种基于动态迭代快速梯度的用户隐私保护方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN111598252B (zh) 基于深度学习的大学计算机基础知识解题方法
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Sun et al. Graph force learning
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
CN112417170B (zh) 面向不完备知识图谱的关系链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant