CN112131395A - 一种基于动态阈值的迭代式知识图谱实体对齐方法 - Google Patents

一种基于动态阈值的迭代式知识图谱实体对齐方法 Download PDF

Info

Publication number
CN112131395A
CN112131395A CN202010869967.9A CN202010869967A CN112131395A CN 112131395 A CN112131395 A CN 112131395A CN 202010869967 A CN202010869967 A CN 202010869967A CN 112131395 A CN112131395 A CN 112131395A
Authority
CN
China
Prior art keywords
entity
entities
aligned
alignment
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010869967.9A
Other languages
English (en)
Other versions
CN112131395B (zh
Inventor
张元鸣
高天宇
肖刚
陆佳炜
程振波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010869967.9A priority Critical patent/CN112131395B/zh
Publication of CN112131395A publication Critical patent/CN112131395A/zh
Application granted granted Critical
Publication of CN112131395B publication Critical patent/CN112131395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于动态阈值的迭代式知识图谱实体对齐方法,本发明联合采用翻译模型和图卷积模型,分别自动学习关系语义信息以及实体的结构信息,并通过引入注意力机制减少不重要的邻节点带来的噪音,得到节点和关系的嵌入式表示;通过预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;通过所设计的迭代对齐策略捕获可能的实体对,将这些实体对加入到训练集当中,参与到下一轮训练,直至实体的嵌入收敛,得到最终的实体嵌入,然后计算实体的相似度将实体进行对齐。本发明提出的迭代式知识图谱对齐方法减少了对人工标注实体数量的依赖,提高了实体对齐的准确率。

Description

一种基于动态阈值的迭代式知识图谱实体对齐方法
技术领域
本发明涉及知识图谱、实体对齐等领域,特别给出了一种基于动态阈值的迭代式知识图谱实体对齐方法。
背景技术
实体对齐是融合多个异构知识图谱中的知识的重要步骤,其旨在将异构知识图谱中指代相同对象的实体相互关联。
相比于过于依赖人力的传统实体对齐方法,最近的基于嵌入的半监督实体对齐方法取得了较为显著的效果。现有的对齐方法例如,MTransE(International JointConference on Artificial Intelligence,2016)使用TransE学习两个知识图谱的嵌入再通过映射的方式将知识图谱转移到同一个向量空间进行对齐,GCN-Align(InternationalConference on Empirical Methods in Natural Language Processing,2018)通过GCN来学习面向对齐的实体嵌入,再比较实体之间的相似度进行对齐。然而基于嵌入的半监督实体对齐方法的准确率也十分依赖于人工标定的初始预对齐样本,而人工的预先标注成本巨大,在大型数据集上的应用存在局限性。
发明内容
为了解决在预先对齐实体对数量不足导致的对齐精度不高的问题,本发明提出了一种基于动态阈值的迭代式知识图谱实体对齐方法,该方法采用了翻译模型和图卷积模型,自动学习关系语义信息并充分利用实体的邻节点结构信息,通过引入注意力机制减少不重要的邻节点带来的噪音;通过迭代对齐策略能够充分利用未对齐的实体对,在每轮实体嵌入训练之后,都将会重新捕获新的对齐实体对加入到下一轮的实体嵌入训练当中,提高了实体对齐的精确度。
本发明解决其技术问题所采用的技术方案是:
一种基于动态阈值的迭代式知识图谱实体对齐方法,包括以下步骤:
1)人工标注少量的对齐实体对作为训练集的种子;
2)对两个知识图谱中的实体和关系随机初始化为300维的向量;
3)分别对两个知识图谱的结构进行编码,得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合;
4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到邻域扩展的图卷积模型GCN中,得到邻节点的特征表示;
5)将3)中得到的两个关系三元组集合和4)中得到的实体向量,输入到翻译模型TransE当中,由此得到融合了关系语义信息和邻节点结构信息的实体的嵌入式表示;
6)通过1)中预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;
7)动态阈值迭代对齐模块根据实体相似度从未标注的对齐实体中动态地捕获可能对齐的实体对;
8)将这些筛选得到的实体对暂时地加入到训练集当中,参与到下一轮训练当中;
9)循环执行步骤4)-8),直至实体的嵌入收敛,得到最终的实体嵌入;
10)根据9)中得到的实体嵌入,计算实体的相似度,得到最终实体对齐的结果。
进一步的,在所述步骤1)中,人工标注少量的对齐实体集合
Figure BDA0002650741910000021
对我们定义为
Figure BDA0002650741910000022
实体对齐的目标是根据
Figure BDA0002650741910000023
尽可能地找到两个知识图谱中其他相互对齐的实体对集合
Figure BDA0002650741910000024
其中Ai,Ui分别表示知识图谱KGi中预先标记为对齐的实体和未标记对齐的实体集合,Ei=Ai ∪ Ui,i∈{1,2},在e1和e2之间的~表示等价对齐关系。
进一步的,定义与实体e只有一条关系直接相连的实体集合为直接邻节点集合Ne,1={e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T},定义与实体e∈E需要经过两条关系相连的实体的集合为间接邻节点集合Ne,2={e″|(e″,r,e′)∈T,e′∈Ne,1}∪{e″|(e′,r,e″)∈T,e′∈Ne,1};而所述步骤3)中,直接邻接矩阵反映的是任意两个实体之间是否互为直接邻节点的关系,若是否互为直接邻节点的关系则矩阵对应位置为1,否则则为0;间接邻接矩阵反映的是任意两个实体之间是否互为间接邻节点的关系,若是则为1,反之则为0;关系三元组表示为(h,r,t),h为头实体,r为关系,t为尾实体。
再进一步,在所述步骤4)中的邻域扩展的图卷积模型GCN结构如下:模型一共有三层,输入层以及两层隐藏层;我们联合三层的输出结果作为实体的嵌入,每层的维度均为300维;实体的特征在层与层之间传递的时候,都会聚合它上一层自身的特征以及它的邻节点的特征,并且依照当前的相似度,赋予不同实体不同的注意力权重;并且在融合间接邻节点的特征和直接邻节点的特征时,分别赋予他们不同权重;通过聚合实体i的邻节点的信息来作为实体i在第l层的嵌入,表示为
Figure BDA0002650741910000031
Figure BDA0002650741910000032
其中,Ni,1表示实体i∈E的直接邻节点集合,Ni,2表示实体i∈E的间接邻节点集合,
Figure BDA0002650741910000033
分别为聚合直接邻节点信息时第l层的权重矩阵和聚合间接邻节点信息时第l层的权重矩阵,σ1表示的是激活函数,γ是一个权重用于平衡来自直接邻节点聚合的结果和来自间接邻节点聚合的结果,
Figure BDA0002650741910000034
表示的是实体i与其邻节点j之间的注意力权重,由实体i,j之间的相似度计算得到,在各层计算完成后,将联合三层的输出结果来作为实体最终的嵌入。
更进一步,在所述步骤5)中,采用翻译模型TransE,将3)中的关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到TransE中,通过平移实体和关系,使三元组尽可能满足
Figure BDA0002650741910000035
最后训练得到新的实体嵌入。
在所述步骤6)中,将经过4)、5)两步的训练所得到的两个知识图谱的实体嵌入各自分布在他们自己的向量空间当中,此时通过缩小1)中标注的预对齐的实体对之间的距离,来将两个知识图谱映射进同一个向量空间;通过梯度下降算法来最小化对其损失函数,对齐的损失函数的定义为:
Figure BDA0002650741910000036
其中,
Figure BDA0002650741910000041
是预先对齐的实体对集合,Q是通过步骤7)迭代得到的可能对齐的实体对集合,
Figure BDA0002650741910000042
是以错误对齐的实体对集合作为负样本,它是通过使用错误的实体替换
Figure BDA0002650741910000043
中的ei或者ej来生成的,错误实体的生成策略是使用实体的最近邻采样,||·||2表示两个向量的L2范数,γ2>0是超参数,μ2是一个权重系数,[·]+=max(0,·)。
在所述步骤7)中,动态阈值迭代对齐模块捕获可能对齐实体对的过程如下:在第t次迭代中,对于所有未对齐的实体e∈U1 ∪ U2,从其候选对齐实体集合
Figure BDA0002650741910000044
中分别找到与它们自己对齐概率最大且概率超过θ(t)的实体,组成可能的对齐实体对,然后取并集以保证一对一约束,然后得到第t次迭代中可能对齐的实体对集合Q(t),并作为预先对齐实体对的补充,Q(t)定义如下:
Figure BDA0002650741910000045
其中
Figure BDA0002650741910000046
表示在第t迭代中实体ei,ej之间的对齐概率,
Figure BDA0002650741910000047
是实体e的候选对齐实体对集合,表示第t次迭代中,与实体e的对齐概率超过阈值的实体集合,动态阈值会随着训练的进行而衰减,其取值范围为(0,1),定义如下:
Figure BDA0002650741910000048
其中γ是初始阈值,ω<0为衰减系数,控制阈值衰减的下限,λ为衰减速率。
在所述步骤8)-10)中,将7)中获得的新的对齐实体对暂时地加入到预对齐实体对当中,这些新的实体对会和这些新的实体对会和人工标注的少量的训练集一同在下一轮的训练中指导训练;下一轮的训练即重复迭代地执行步骤4)-8),直至实体嵌入收敛;根据9)中得到的最终的实体嵌入,计算实体的相似度,每个实体与来自另一知识图谱且和自己距离最近的实体相对齐,得到最终的对齐结果
Figure BDA0002650741910000049
本发明的有益效果表现在:本发明联合使用了翻译模型和图卷积模型,以保留知识图谱中关系的语义信息和充分利用实体的邻节点结构信息,利用注意力机制减少不重要的邻节点带来的噪音,使得即便在标注对齐的实体对样本不足的情况下依旧能有较好的对齐效果;此外,通过迭代对齐策略能够充分利用未对齐的实体对,在每轮实体嵌入训练之后,模型都将会重新捕获高概率的对齐实体对加入到下一轮的实体嵌入训练当中,以此来补充稀缺的训练样本,从而避免了预先对齐实体对数量不足所导致的对齐精度不高的问题。
附图说明
图1是两个需要对齐的知识图谱示意图。
图2是本发明整体框架图。
图3是基于动态阈值的迭代对齐过程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,以跨语言的Wikidata两个知识图谱为应用实例,并结合附图对本发明的作进一步说明。图1(a)给出了两个待对齐的知识图谱,其中KG1是中文知识图谱,KG2是相同领域的英文知识图谱,为方便后续说明,对知识图谱的实体和关系进行编号,如图1(b)所示。
参照图1、图2、图3,一种基于动态阈值的迭代式知识图谱实体对齐方法,包括以下步骤:
1)首先人工标注少量的对齐实体对作为训练集,如图2(b)所示,我们人工标记e1和e′1为预先对齐实体对之一,即
Figure BDA0002650741910000051
2)对两个知识图谱中的实体和关系随机初始化为300维的向量;
3)分别对两个知识图谱的结构进行编码,得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合;以图2(a)的KG1为例,e1的直接邻节点有{e2,e3},间接邻节点有{e4,e5,e6},那么对称的直接邻接矩阵D的各元素为D1,2=D1,3=D2,1=D3,1=1,其余元素均为0;对称的间接邻接矩阵I的各元素为I1,4=I1,5=I1,6=I4,1=I5,1=I6,1=1,其余元素为0;KG2同理可以得到;关系三元组的表示同样以KG2为例,e1与e3之间由r2相连,关系三元组为(e1,r2,e3);
4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到图卷积模型中,根据邻接矩阵的信息,每个实体会聚合其自身节点、直接邻节点和间接邻节点的特征来更新自己的特征向量;根据图2(c),KG1中实体e1会聚合自身以及直接邻节点{e2,e3}和间接邻节点{e4,e5,e6}的特征,根据公式(1)的运算,分别得到两层隐藏层的特征向量,最后将输入层和两层隐藏层连接,最终得到实体e1的特征向量
Figure BDA0002650741910000061
5)将关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到翻译模型TransE中,通过平移实体和关系,使三元组尽可能满足
Figure BDA0002650741910000062
如图2(d)所示,通过最小化损失函数函数,使得
Figure BDA0002650741910000063
尽可能得到满足,最后收敛得到了进一步的实体嵌入;
6)通过拉近相互对齐的实体对之间的距离,将两个知识图谱的实体映射到同一个向量空间当中;图2(b)中所示,左侧为人工标注的对齐实体对,右侧为迭代对齐模块捕获的对齐实体对,通过公式(2)的对齐损失函数,将两个知识图谱相互对齐的实体距离拉近,从而使两个知识图谱进入统一的向量空间,即图2(d)-(e)所示;
7)在统一向量空间中,动态阈值迭代对齐模块从未标注的对齐实体中动态地捕获可能对齐的实体对;图3给出迭代对齐模块详细的示意图,假设其中白色实体ej和灰色实体e′i分别来自不同的两个知识图谱,半径为r的黑色虚线圆圈是位于其中心的实体的感知范围,只有相互进入对方感知范围内的实体对才有成为新的对齐实体对的可能,该半径为r的感知范围与阈值呈负相关,随着训练的进行,感知范围会非线性的扩大;对于e2而言,e′2是与e2最近且唯一一个在其感知范围内的实体,因此e2倾向于与e′2对齐;但对于e′2而言,e1和e2都在e′2的感知范围内,但是e1比e2更加接近e′2,e′2倾向于与e1对齐,因此e2与e′2不会成为下轮训练中新的对齐实体对,e′2会与同样倾向于与自己对齐的e1成为新的对齐实体对并被捕获进入下一轮的训练;对于e′3而言,虽然e4比e3更接近e′3,但是e4和e′4是预先对齐的实体对,因此他们不参与迭代对齐的过程,所以e′3会与e3暂时地成为下轮训练中新的对齐实体对;
8)将7)中得到的新的对齐实体对暂时地加入到训练集当中,即图2(b)的新的对齐实体对集合,与标注的对齐实体对一起参与到下一轮训练当中;
9)循环执行步骤4)-8),直至实体的嵌入收敛,得到最终的实体嵌入;
10)根据9)中得到的实体嵌入,计算实体的预先相似度,每个实体与来自另一知识图谱且和自己距离最近的实体相对齐,得到最终的对齐结果
Figure BDA0002650741910000071

Claims (8)

1.一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,所述方法包括以下步骤:
1)人工标注少量的对齐实体对作为训练集的种子;
2)对两个知识图谱中的实体和关系随机初始化为300维的向量;
3)分别对两个知识图谱的结构进行编码,得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合;
4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到邻域扩展的图卷积模型GCN中,得到邻节点的特征表示;
5)将3)中得到的两个关系三元组集合和4)中得到的实体向量,输入到翻译模型TransE当中,由此得到融合了关系语义信息和邻节点结构信息的实体的嵌入式表示;
6)通过1)中预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;
7)动态阈值迭代对齐模块根据实体相似度从未标注的对齐实体中动态地捕获可能对齐的实体对;
8)将这些筛选得到的实体对暂时地加入到训练集当中,参与到下一轮训练当中;
9)循环执行步骤4)-8),直至实体的嵌入收敛,得到最终的实体嵌入;
10)根据9)中得到的实体嵌入,计算实体的相似度,得到最终实体对齐的结果。
2.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤1)中,人工标注少量的对齐实体集合
Figure FDA0002650741900000011
对我们定义为
Figure FDA0002650741900000012
实体对齐的目标是根据
Figure FDA0002650741900000013
尽可能地找到两个知识图谱中其他相互对齐的实体对集合
Figure FDA0002650741900000014
其中Ai,Ui分别表示知识图谱KGi中预先标记为对齐的实体和未标记对齐的实体集合,Ei=Ai∪Ui,i∈{1,2},在e1和e2之间的~表示等价对齐关系。
3.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,定义与实体e只有一条关系直接相连的实体集合为直接邻节点集合Ne,1={e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T},定义与实体e∈E需要经过两条关系相连的实体的集合为间接邻节点集合Ne,2={e″|(e″,r,e′)∈T,e′∈Ne,1)∪{e″|(e′,r,e″)∈T,e′∈Ne,1};所述步骤3)中,直接邻接矩阵反映的是任意两个实体之间是否互为直接邻节点的关系,若是否互为直接邻节点的关系则矩阵对应位置为1,否则则为0;间接邻接矩阵反映的是任意两个实体之间是否互为间接邻节点的关系,若是则为1,反之则为0;关系三元组表示为(h,r,t),h为头实体,r为关系,t为尾实体。
4.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤4)中的邻域扩展的图卷积模型GCN结构如下:模型一共有三层,输入层以及两层隐藏层;我们联合三层的输出结果作为实体的嵌入,每层的维度均为300维;实体的特征在层与层之间传递的时候,都会聚合它上一层自身的特征以及它的邻节点的特征,并且依照当前的相似度,赋予不同实体不同的注意力权重;并且在融合间接邻节点的特征和直接邻节点的特征时,分别赋予他们不同权重;通过聚合实体i的邻节点的信息来作为实体i在第l层的嵌入,表示为
Figure FDA0002650741900000021
Figure FDA0002650741900000022
其中,Ni,1表示实体i∈E的直接邻节点集合,Ni,2表示实体i∈E的间接邻节点集合,W1
Figure FDA0002650741900000023
分别为聚合直接邻节点信息时第l层的权重矩阵和聚合间接邻节点信息时第l层的权重矩阵,σ1表示的是激活函数,γ是一个权重用于平衡来自直接邻节点聚合的结果和来自间接邻节点聚合的结果,
Figure FDA0002650741900000024
表示的是实体i与其邻节点j之间的注意力权重,由实体i,j之间的相似度计算得到,在各层计算完成后,将联合三层的输出结果来作为实体最终的嵌入。
5.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤5)中,采用翻译模型TransE,将3)中的关系三元组和4)中得到的900维的实体嵌入以及900维的关系嵌入输入到TransE中,通过平移实体和关系,使三元组尽可能满足
Figure FDA0002650741900000025
最后训练得到新的实体嵌入。
6.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤6)中,将经过4)、5)两步的训练所得到的两个知识图谱的实体嵌入各自分布在他们自己的向量空间当中,此时通过缩小1)中标注的预对齐的实体对之间的距离,来将两个知识图谱映射进同一个向量空间;通过梯度下降算法来最小化对其损失函数,对齐的损失函数的定义为:
Figure FDA0002650741900000026
其中,
Figure FDA0002650741900000027
是预先对齐的实体对集合,
Figure FDA0002650741900000028
是通过步骤7)迭代得到的可能对齐的实体对集合,
Figure FDA0002650741900000029
是以错误对齐的实体对集合作为负样本,它是通过使用错误的实体替换
Figure FDA00026507419000000210
中的ei或者ej来生成的,错误实体的生成策略是使用实体的最近邻采样,||·||2表示两个向量的L2范数,γ2>0是超参数,μ2是一个权重系数,[·]+=max(0,·)。
7.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤7)中,动态阈值迭代对齐模块捕获可能对齐实体对的过程如下:在第t次迭代中,对于所有未对齐的实体e∈U1∪U2,从其候选对齐实体集合
Figure FDA00026507419000000211
中分别找到与它们自己对齐概率最大且概率超过θ(t)的实体,组成可能的对齐实体对,然后取并集以保证一对一约束,然后得到第t次迭代中可能对齐的实体对集合
Figure FDA00026507419000000212
并作为预先对齐实体对的补充,
Figure FDA00026507419000000213
定义如下:
Figure FDA00026507419000000214
Figure FDA0002650741900000031
其中
Figure FDA0002650741900000032
表示在第t迭代中实体ei,ej之间的对齐概率,
Figure FDA0002650741900000033
是实体e的候选对齐实体对集合,表示第t次迭代中,与实体e的对齐概率超过阈值的实体集合,动态阈值会随着训练的进行而衰减,其取值范围为(0,1),定义如下:
Figure FDA0002650741900000034
其中γ是初始阈值,ω<0为衰减系数,控制阈值衰减的下限,λ为衰减速率。
8.如权利要求1或2所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,在所述步骤8)-10)中,将7)中获得的新的对齐实体对暂时地加入到预对齐实体对当中,这些新的实体对会和这些新的实体对会和人工标注的少量的训练集一同在下一轮的训练中指导训练;下一轮的训练即重复迭代地执行步骤4)-8),直至实体嵌入收敛;根据9)中得到的最终的实体嵌入,计算实体的相似度,每个实体与来自另一知识图谱且和自己距离最近的实体相对齐,得到最终的对齐结果
Figure FDA0002650741900000035
CN202010869967.9A 2020-08-26 2020-08-26 一种基于动态阈值的迭代式知识图谱实体对齐方法 Active CN112131395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010869967.9A CN112131395B (zh) 2020-08-26 2020-08-26 一种基于动态阈值的迭代式知识图谱实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010869967.9A CN112131395B (zh) 2020-08-26 2020-08-26 一种基于动态阈值的迭代式知识图谱实体对齐方法

Publications (2)

Publication Number Publication Date
CN112131395A true CN112131395A (zh) 2020-12-25
CN112131395B CN112131395B (zh) 2023-09-26

Family

ID=73847261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010869967.9A Active CN112131395B (zh) 2020-08-26 2020-08-26 一种基于动态阈值的迭代式知识图谱实体对齐方法

Country Status (1)

Country Link
CN (1) CN112131395B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113254663A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种融合图卷积与翻译模型的知识图谱联合表示学习方法
CN113407759A (zh) * 2021-08-18 2021-09-17 中国人民解放军国防科技大学 一种基于自适应特征融合的多模态实体对齐方法
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN115114443A (zh) * 2022-04-27 2022-09-27 腾讯科技(深圳)有限公司 多模态编码模型的训练方法、装置、电子设备及存储介质
WO2023115521A1 (en) * 2021-12-24 2023-06-29 Robert Bosch Gmbh Method and apparatus for enity alignment
CN116756554A (zh) * 2022-03-04 2023-09-15 腾讯科技(深圳)有限公司 对齐模型的训练方法、装置、设备、介质及程序产品
CN118364906A (zh) * 2024-06-19 2024-07-19 安徽大学 应用可信度感知迭代训练策略实现实体对齐的方法、系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN109829057A (zh) * 2019-01-11 2019-05-31 中山大学 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110472065A (zh) * 2019-07-25 2019-11-19 电子科技大学 基于gcn孪生网络的跨语言知识图谱实体对齐方法
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
CN110704640A (zh) * 2019-09-30 2020-01-17 北京邮电大学 一种知识图谱的表示学习方法及装置
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIXIN ZENG 等: "Degree-Aware Alignment for Entities in Tail", 《SIGIR \'20: PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》, pages 811 - 820 *
曾维新 等: "基于重排序的迭代式实体对齐", 《计算机研究与发展》, pages 1460 - 1471 *
鹏博: "基于图神经网络的实体对齐研究综述", 《现代计算机》, pages 37 - 40 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112784065B (zh) * 2021-02-01 2023-07-14 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112765370A (zh) * 2021-03-29 2021-05-07 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113254663A (zh) * 2021-04-21 2021-08-13 浙江工业大学 一种融合图卷积与翻译模型的知识图谱联合表示学习方法
WO2023273182A1 (zh) * 2021-06-29 2023-01-05 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113641826B (zh) * 2021-06-29 2024-03-26 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113407759A (zh) * 2021-08-18 2021-09-17 中国人民解放军国防科技大学 一种基于自适应特征融合的多模态实体对齐方法
WO2023115521A1 (en) * 2021-12-24 2023-06-29 Robert Bosch Gmbh Method and apparatus for enity alignment
CN116756554A (zh) * 2022-03-04 2023-09-15 腾讯科技(深圳)有限公司 对齐模型的训练方法、装置、设备、介质及程序产品
CN116756554B (zh) * 2022-03-04 2024-10-01 腾讯科技(深圳)有限公司 对齐模型的训练方法、装置、设备、介质及程序产品
CN114417845A (zh) * 2022-03-30 2022-04-29 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN114417845B (zh) * 2022-03-30 2022-07-12 支付宝(杭州)信息技术有限公司 一种基于知识图谱的相同实体识别方法和系统
CN115114443A (zh) * 2022-04-27 2022-09-27 腾讯科技(深圳)有限公司 多模态编码模型的训练方法、装置、电子设备及存储介质
CN118364906A (zh) * 2024-06-19 2024-07-19 安徽大学 应用可信度感知迭代训练策略实现实体对齐的方法、系统
CN118364906B (zh) * 2024-06-19 2024-08-23 安徽大学 应用可信度感知迭代训练策略实现实体对齐的方法、系统

Also Published As

Publication number Publication date
CN112131395B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN112131395A (zh) 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN111462282B (zh) 一种场景图生成方法
CN111259979B (zh) 一种基于标签自适应策略的深度半监督图像聚类方法
CN111159426B (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN110413704B (zh) 基于加权邻居信息编码的实体对齐方法
US20240331165A1 (en) Cross-domain remote sensing image semantic segmentation method based on iterative intra-domain adaptation and self-training
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN113157935B (zh) 基于关系上下文进行实体对齐的图神经网络系统及方法
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN114821299B (zh) 一种遥感图像变化检测方法
CN113838107A (zh) 一种基于稠密连接的异源图像自动配准方法
CN115828143A (zh) 基于图卷积和自注意力机制实现异构图元路径聚合的节点分类方法
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN116883723A (zh) 一种基于并联语义嵌入的组成式零样本图像分类方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN113486929A (zh) 基于残差收缩模块与注意力机制的岩石薄片图像识别方法
CN112699782A (zh) 基于N2N和Bert的雷达HRRP目标识别方法
CN117879844A (zh) 一种轻量高效的网络恶意软件流量识别方法
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法
CN115019183A (zh) 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN112782660B (zh) 基于Bert的雷达目标识别方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant