CN110472065A - 基于gcn孪生网络的跨语言知识图谱实体对齐方法 - Google Patents

基于gcn孪生网络的跨语言知识图谱实体对齐方法 Download PDF

Info

Publication number
CN110472065A
CN110472065A CN201910676206.9A CN201910676206A CN110472065A CN 110472065 A CN110472065 A CN 110472065A CN 201910676206 A CN201910676206 A CN 201910676206A CN 110472065 A CN110472065 A CN 110472065A
Authority
CN
China
Prior art keywords
entity
gcn
knowledge mapping
network
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910676206.9A
Other languages
English (en)
Other versions
CN110472065B (zh
Inventor
罗绪成
谭俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910676206.9A priority Critical patent/CN110472065B/zh
Publication of CN110472065A publication Critical patent/CN110472065A/zh
Application granted granted Critical
Publication of CN110472065B publication Critical patent/CN110472065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于GCN孪生网络的跨语言知识图谱实体对齐方法,首先对于两种语言的知识图谱分别提取邻接矩阵和属性信息矩阵,将两种语言的知识图谱已知的对齐实体对作为正样本,构成正样本集合;对于关系结构信息和属性信息分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE,将两个知识图谱的邻接矩阵作为GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱的邻接矩阵和属性信息矩阵作为GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练;基于训练好的GCN孪生网络,得到潜在对齐实体结果。本发明仅需要多语言知识图谱中实体之间的关系结构信息、属性信息以及部分已对齐实体作为训练集,不需要获取额外的实体特征数据就能同时推断多个潜在对齐实体对。

Description

基于GCN孪生网络的跨语言知识图谱实体对齐方法
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于GCN孪生网络的跨语言知识图谱实体对齐方法。
背景技术
伴随互联网的发展,数据信息量爆炸式增长,数据冗杂,规模庞大,为解决这一系列问题,旨在描述现实世界中存在的实体以及实体之间关系的知识图谱技术孕育而生。为了获得更加完善的知识图谱,可以采用将多个不同语言知识库融合的方法,得到一个包含更多信息和实体的多语言的知识图谱。在这种知识图谱中存在一些已知的跨语言链接,将多种语言指向的同一实体连接起来,即实体对齐。例如在中文知识图谱中有一个实体“海上钢琴师”,英文知识图谱中有一个实体“The Legend of 1900”,如果仅是通过英汉翻译,他们得到的意思并不相同,但这两个实体实际都是指向的同一个电影,即他们是对齐实体。但是这些跨语言链接并不是大量存在于知识图谱中,仍然有许多不同语言的实体对之间并没有这样的链接。因此现在有大量工作在于研究多语言之间实体对齐的问题,旨在找到更优的跨语言知识图谱实体对齐的方法。传统的实体对齐方法大多采取通过实体各自的属性进行预测的方法,忽视了实体之间本身存在的相关性质,或是未充分利用属性信息和关系信息之间的交互,又或是在负采样阶段并未获取正确的负样本进行学习,从而整体对齐正确率并不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于GCN孪生网络的跨语言知识图谱实体对齐方法,仅需要多语言知识图谱中实体之间的关系结构信息、属性信息以及部分已对齐实体作为训练集,不需要获取额外的实体特征数据就能同时推断多个潜在对齐实体对。
为实现上述发明目的,本发明基于GCN孪生网络的跨语言知识图谱实体对齐方法的具体步骤包括:
S1:对于两种语言的知识图谱KG1、KG2,分别提取每个知识图谱的信息,具体方法如下:
对于知识图谱KGi,i=1,2,提取其关系三元组和属性三元组,关系三元组记为[ai(j),bi(j,j′),ai(j′)],ai(j)、ai(j′)分别表示知识图谱KGi中的第j个和第j′个实体,1≤j≠j′≤Ni,Ni表示知识图谱KGi中的实体数量,bi(j,j′)表示实体ai(j)、ai(j′)之间的关系,属性三元组记为(ai(j),ci(k),di(j,k)),ci(k)表示实体ai(j)的属性类别,1≤k≤Ki,Ki表示知识图谱KGi中的属性数量,di(j,k)表示实体ai(j)属性ci(k)的值;
S2:对于知识图谱KGi,遍历其所有关系三元组,将实体作为节点,将存在关系的两个实体之间添加边,得到知识图谱KGi对应的无向图Gi,根据无向图Gi得到邻接矩阵Ai
S3:对于知识图谱KGi,统计其Ki个属性在该知识图谱KGi的属性三元组中出现的次数,按照出现次数从大到小对Ki个属性进行排序,选择前D个属性作为特征属性;采用以下公式计算每个知识图谱KGi的D个特征属性的权值wid
其中,fid表示知识图谱KGi的第d个特征属性在知识图谱KGi的属性三元组中出现的次数;
对于每个知识图谱KGi中的每个实体,构建其特征属性向量xij=(λij1ij2,…,λijD),λijd表示知识图谱KGi中第j个实体中第d个特征属性对应的元素值,当知识图谱KGi中第j个实体存在第d个特征属性的属性三元组,则令λijd=wid,否则令λijd=0;将知识图谱KGi中的每个实体的特征属性向量xij作为行向量,构建Ni×D的矩阵X′i,对矩阵X′i进行归一化,将归一化后的矩阵作为属性信息矩阵Xi;归一化的计算公式如下:
Xi=RX′i
其中,R表示大小为Ni×Ni的对角矩阵,其对角线上的元素
S4:将两种语言的知识图谱KG1和KG2中已知的对齐实体对作为正样本,构成正样本集合;
S5:对于关系结构信息和属性信息分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE,每个GCN孪生网络GCN_ω包括两个分支,ω∈{SE,AE},每个分支对应一个知识图谱的输入,每个分支均由一个GCN网络和一个BN层组成,两个分支的GCN网络的结构配置相同,包含L层级联的图卷积层,且两个分支的GCN网络的最后一层图卷积层共享参数;GCN网络中各层图像卷积层的输出计算公式如下:
其中,γ表示图卷积层序号,γ=1,2,…,L,表示GCN网络中第γ层、第γ-1层图卷积层的输出,当ω=AE时,当ω=SE时,为单位矩阵;σ表示激活函数,I表示单位矩阵,表示矩阵的度矩阵,表示GCN网络中第γ层图卷积层的权重矩阵;
将GCN网络的输出输入至BN层,得到大小为Ni×V的嵌入空间矩阵,其中第k行向量即为知识图谱KGi中第k个实体对应的嵌入向量;
S6:将两个知识图谱KGi的邻接矩阵Ai作为关系结构信息的GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱KGi的邻接矩阵Ai和属性信息矩阵Xi作为属性信息的GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练;
在训练过程中,每次迭代过程的损失函数采用以下方法计算:
首先采用定向负采样获取负样本集合,具体方法为:记正样本中所包含的实体集合为P,随机从两个知识图谱的所有实体中采样得到一组实体,构成实体集合S;对于集合P中各个正样本实体,计算当前GCN孪生网络GCN_ω输出的该实体对应的嵌入向量与集合S中每个实体对应的嵌入向量之间的距离,按照距离从小到大对集合S中实体进行排列,选择第α个到第α+β个实体,与该正样本实体构成β个实体对,将这β个实体对作为负样本加入负样本集合,其中α和β根据实际需要设置;
对于每个正样本实体,将其在正样本集合中对应的实体对,分别和其在负样本集合中的β个实体对构成β组正-负样本对,从而得到正-负样本对集合。从正-负样本对集合中随机获取Z组正-负样本对,采用以下公式计算得到本次迭代的损失函数值Loss:
其中,dpos(z)表示第z组正-负样本对的正样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,dneg(z)表示第z组正-负样本对的负样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,margin表示预设的超参数;
S7:在GCN孪生网络训练好,模型达到收敛之后,每个GCN孪生网络GCN_ω的输出代表知识图谱中各个实体的嵌入向量,根据GCN孪生网络GCN_SE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量根据GCN孪生网络GCN_AE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量随后将两个嵌入向量以一定比例拼接起来,从而得到每个实体的最终嵌入向量其中0<ρ<1;
根据需要从两个知识图谱KGi中选择一个知识图谱作为基准知识图谱,从该基准知识图谱中选择未对齐的实体作为待对齐实体,计算这些待对齐实体的最终嵌入向量与另一知识图谱中各个未对齐实体的最终嵌入向量之间的欧式距离,选择距离最小的实体作为待对齐实体的对齐实体,从而得到对齐实体对。
本发明基于GCN孪生网络的跨语言知识图谱实体对齐方法,首先对于两种语言的知识图谱分别提取邻接矩阵和属性信息矩阵,将两种语言的知识图谱已知的对齐实体对作为正样本,构成正样本集合;对于关系结构信息和属性信息分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE,将两个知识图谱的邻接矩阵作为GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱的邻接矩阵和属性信息矩阵作为GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练;基于训练好的GCN孪生网络,得到潜在对齐实体结果。
本发明具有以下有益效果:
(1)本发明仅需要知识图谱实体之间的关系信息和属性信息即可对潜在对齐实体进行推断,无需获取额外的实体信息;采用孪生网络结构将不同语言的实体信息嵌入到同一欧式空间,通过简单的欧氏距离计算进行对齐实体判断即可达到较高的准确率。
(2)本发明通过采用定向负采样的方法,有目的地找到对模型训练最优的负样本对,将此负样本加入到训练集中,极大的加快了收敛速度,减少迭代次数,降低训练资源的浪费,且通过此方法提出的负样本对,对模型准确率提升也有帮助;
(3)本发明还可以采用协同训练方法,在训练过程中,分别利用实体的属性信息,结构信息从待选对齐池中不断提取新的潜在对齐实体对并加入到训练集中继续训练,该方法有利于充分利用结构信息和属性信息,在训练过程中增加两者之间的交互,有助于提升模型整体的准确率;
(4)本发明所设计的GCN孪生函数,相比于其他模型综合提升了模型的对称性问题,即从一个知识图谱KG1到另一语言的知识图谱KG2的对齐正确率与KG2到KG1基本一致。
附图说明
图1是本发明基于GCN孪生网络的跨语言知识图谱实体对齐方法的具体实施方式流程图;
图2是本发明中GCN孪生网络训练的结构图;
图3是本实施例中GCN孪生网络的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于GCN孪生网络的跨语言知识图谱实体对齐方法的具体实施方式流程图。如图1所示,本发明基于GCN孪生网络的跨语言知识图谱实体对齐方法的具体步骤包括:
S101:知识图谱信息提取:
对于两种语言的知识图谱KG1、KG2,分别提取每个知识图谱的信息,具体方法如下:
对于知识图谱KGi,i=1,2,提取其关系三元组和属性三元组,关系三元组记为[ai(j),bi(j,j′),ai(j′)],ai(j)、ai(j′)分别表示知识图谱KGi中的第j个和第j′个实体,1≤j≠j′≤Ni,Ni表示知识图谱KGi中的实体数量,bi(j,j′)表示实体ai(j)、ai(j′)之间的关系,属性三元组记为(ai(j),ci(k),di(j,k)),ci(k)表示实体ai(j)的属性,1≤k≤Ki,Ki表示知识图谱KGi中的属性数量,di(j,k)表示实体ai(j)属性ci(k)的值。
本实施例中的数据集来源于DBP15K,该数据集中分为中文-英语,法语-英语,德语-英语三类跨语言知识图谱集。本实例中采用中文-英语的知识图谱,其中中文实体共有19388个,关系70414组,英文实体19572个,关系95142组。关系三元组示例如下:
3118 1123 9427
9984 1252 24843
23621 603 8178
5598 111 5837
………
7725 1148 9904
4487 1324 5893
………
3645 652 8117
9100 940 25887
23621 603 8178
其中,最左边和最右边的数字分别表示知识图谱中两个实体的ID,中间数字表示实体的关系。
S102:获取邻接矩阵:
对于知识图谱KGi,遍历其所有关系三元组,将实体作为节点,将存在关系的两个实体之间添加边,得到知识图谱KGi对应的无向图Gi,根据无向图Gi得到邻接矩阵Ai。本实施例中中文知识图谱的邻接矩阵为19388*19388的矩阵,英文知识图谱的邻接矩阵为19572*19572的矩阵。
S103:获取属性信息矩阵:
由于知识图谱中的属性各类非常多,为了便于计算,需要先对属性进行筛选。对于知识图谱KGi,统计其Ki个属性在该知识图谱KGi的属性三元组中出现的次数,按照出现次数从大到小对Ki个属性进行排序,选择前D个属性作为该知识图谱KGi的特征属性;采用以下公式计算每个知识图谱KGi的D个特征属性的权值wid
其中,fid表示知识图谱KGi的第d个特征属性在知识图谱KGi的属性三元组中出现的次数;
对于每个知识图谱KGi中的每个实体,构建其特征属性向量xij=(λij1ij2,…,λijD),λijd表示知识图谱KGi中第j个实体中第d个特征属性对应的元素值,当知识图谱KGi中第j个实体存在第d个特征属性的属性三元组,则令λijd=wid,否则令λijd=0。将知识图谱KGi中的每个实体的特征属性向量xij作为行向量,构建Ni×D的矩阵X′i,对矩阵X′i进行归一化,将归一化后的矩阵作为属性信息矩阵Xi。归一化的计算公式如下:
Xi=RX′i
其中,R表示大小为Ni×Ni的对角矩阵,其对角线上的元素
本实施例中,选取出现次数较高的2000个属性作为特征属性。最终中文知识图谱得到大小为19388*2000的属性信息矩阵,英文知识图谱得到大小为19572*2000的属性信息矩阵。
S104:获取正样本集合:
将两种语言的知识图谱KG1、KG2已知的对齐实体对作为正样本,构成正样本集合。
本实施例中正样本示例如下:
0 10500
1 10501
2 10502
………
21 10521
22 10522
23 10523
………
5679 16179
5680 16180
5681 16181
其中,每个正样本中两个序号分别代表中文实体ID和英文实体ID。在本实施例中共有15000对已知对齐实体,将其中的30%,即4500对对齐实体对作为训练时采用的正样本,其他70%,即10500对对齐实体作为网络测试时采用的测试样本。
S105:构建GCN孪生网络:
对于关系结构信息(structure information)和属性信息(attributeinformation)分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE。图2是本发明中GCN孪生网络的结构图。如图2所示,本发明中每个GCN孪生网络GCN_ω包括两个GCN网络和两个BN(Batch Normalization,批标准化)层ω∈{SE,AE},每个分支对应一个知识图谱的输入,每个分支均由一个GCN网络和一个BN层组成,两个分支的GCN网络的结构配置相同,包含L层级联的图卷积层,且两个分支的GCN网络的最后一层图卷积层共享参数,即参数相同。GCN网络中各层图像卷积层的输出计算公式如下:
其中,γ表示图卷积层序号,γ=1,2,…,L,表示GCN网络中第γ层、第γ-1层图卷积层的输出,当ω=AE时,当ω=SE时,为单位矩阵;σ表示激活函数,I表示单位矩阵,表示矩阵的度矩阵,表示GCN网络中第γ层图卷积层的权重矩阵。
将GCN网络的输出输入至BN层,得到大小为Ni×V的嵌入空间矩阵,V的大小根据实际情况确定,其中每个行向量即为知识图谱KGi中第j个实体对应的嵌入向量。经研究发现,在每个GCN网络后设置一个BN层,可以加速GCN孪生网络的收敛速度,并且可以一定程度提升正确率。
图3是本实施例中GCN孪生网络的结构示意图。如图3所示,本实施例中GCN网络采用两层GCN网络,那么其中第一层图卷积层不共享参数,第二层图卷积层共享参数。第一层图卷积层的激活函数采用Relu函数,第二层图卷积层不使用激活函数。每层图卷积层包含300个神经元,则第一层图卷积层的权重矩阵维度为2000*300,第二层图卷积层的权重矩阵维度为300*300。采用GCN孪生网络,可以将不同知识图谱的实体嵌入到同一欧式空间,而同一实体对之间的距离应该十分接近,因此利用不同知识图谱中实体嵌入向量的距离远近可以找出对齐实体。
S106:负样本获取及网络训练:
将两个知识图谱KGi的邻接矩阵Ai作为关系结构信息的GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱KGi的邻接矩阵Ai和属性信息矩阵Xi作为属性信息的GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练。
在训练过程中,每次迭代过程的损失函数采用以下方法计算:
首先采用定向负样本获取负样本集合,具体方法为:记正样本中所包含的实体集合为P,随机从两个知识图谱的所有实体中采样得到一组实体,构成实体集合S。对于集合P中各个正样本实体,计算当前GCN孪生网络GCN_ω输出的该实体对应的嵌入向量与集合S中每个实体对应的嵌入向量之间的距离,按照距离从小到大对集合S中实体进行排列,选择第α个到第α+β个实体,与该正样本实体构成β个实体对,将这β个实体对作为负样本加入负样本集合,其中α和β根据实际需要设置。
对于每个正样本实体,将其在正样本集合中对应的实体对,分别和其在负样本集合中的β个实体对构成β组正-负样本对,从而得到正-负样本对集合。从正-负样本对集合中随机获取Z组正-负样本对,采用以下公式计算得到本次迭代的损失函数值Loss:
其中,dpos(z)表示第z组正-负样本对的正样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,dneg(z)表示第z组正-负样本对的负样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,margin表示预设的超参数。
根据本发明的损失函数值计算公式可知,在选择负样本时,不可以使负样本中两个实体的嵌入向量距离过大,如果过大可能导致dpos(z)-dneg(z)+margin<0,使得该正-负样本对所得到的损失函数值为0,导致无效的反向传播。因此本发明在采用定向负样本进行负样本选择时,需要根据实际情况来设置α和β的值,可以根据实验来得到。本实施例中设置α=4、β=6。正样本集合中4500对已对齐实体,则实体集合P中包含9000个实体,实体集合S中包含9000个实体,每个正样本实体可以得到6组负样本实体对。
为了提高训练效果,使得到的GCN孪生网络GCN_ω更加有效,在实际应用时还可以引入协同训练,如图3所示,在每个GCN孪生网络GCN_ω训练过程中,每间隔一个固定的训练次数,根据当前GCN孪生网络GCN_ω输出的嵌入向量提取出对齐实体,作为正样本加入正样本集合,对齐实体的提取方法如下:
获取两个知识图谱KGi的所有实体对,将当前正样本集合以外的实体对作为待对齐实体对,根据当前GCN孪生网络GCN_ω输出的嵌入空间矩阵,分别提取出两个知识图谱KGi中各个实体对应的嵌入向量,计算知识图谱KG1中每个实体的嵌入向量与知识图谱KG2中每个实体的嵌入向量之间的距离,在知识图谱KG2的实体中筛选与知识图谱KG1中实体嵌入距离最短的实体,如果其嵌入向量距离小于预设阈值τ,则将这两个实体构成的实体对作为正样本加入正样本集合。本实施例中预设阈值τ为0.45。本实施例中距离采用欧式距离,其计算公式如下:
其中分别代表GCN孪生网络GCN_ω中知识图谱KG1中第m个实体和知识图谱KG2中第n个实体的嵌入向量,||||2表示求取二范数。
孪生网络是目前一种较为常用的网络,其具体训练过程在此不再赘述。
S107:对齐实体推断:
在GCN孪生网络训练好之后,模型达到收敛之后,每个GCN孪生网络GCN_ω的输出代表知识图谱中各个实体的嵌入向量,根据GCN孪生网络GCN_SE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量根据GCN孪生网络GCN_AE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量将两个嵌入向量以一定比例拼接起来,从而得到每个实体的最终嵌入向量其中0<ρ<1,本实施例中设置参数ρ=0.5。
根据需要从两个知识图谱KGi中选择一个知识图谱作为基准知识图谱,从该基准知识图谱中选择未对齐的实体作为待对齐实体,计算这些待对齐实体的最终嵌入向量与另一知识图谱中各个未对齐实体的最终嵌入向量之间的距离,选择距离最小的实体作为待对齐实体的对齐实体,从而得到对齐实体对。本实施例中距离采用欧式距离,其计算公式如下:
f(e1,m,e2,n)=||e1,m,e2,n||2
其中e1,m和e2,n分别代表知识图谱KG1中第m个实体和知识图谱KG2中第n个实体的最终嵌入向量。
本实施例中采用训练好的GCN孪生网络,得到测试样本中的10500对对齐实体中各个实体的对齐结果,统计得到对齐准确率为51.76%,可以满足实际需要。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于GCN孪生网络的跨语言知识图谱实体对齐方法,其特征在于,包括以下步骤:
S1:对于两种语言的知识图谱KG1、KG2,分别提取每个知识图谱的信息,具体方法如下:
对于知识图谱KGi,i=1,2,提取其关系三元组和属性三元组,关系三元组记为[ai(j),bi(j,j′),ai(j′)],ai(j)、ai(j′)分别表示知识图谱KGi中的第j个和第j′个实体,1≤j≠j′≤Ni,Ni表示知识图谱KGi中的实体数量,bi(j,j′)表示实体ai(j)、ai(j′)之间的关系,属性三元组记为(ai(j),ci(k),di(j,k)),ci(k)表示实体ai(j)的属性类别,1≤k≤Ki,Ki表示知识图谱KGi中的属性数量,di(j,k)表示实体ai(j)属性ci(k)的值;
S2:对于知识图谱KGi,遍历其所有关系三元组,将实体作为节点,将存在关系的两个实体之间添加边,得到知识图谱KGi对应的无向图Gi,根据无向图Gi得到邻接矩阵Ai
S3:对于知识图谱KGi,统计其Ki个属性在该知识图谱KGi的属性三元组中出现的次数,按照出现次数从大到小对Ki个属性进行排序,选择前D个属性作为特征属性;采用以下公式计算每个知识图谱KGi的D个特征属性的权值wid
其中,fid表示知识图谱KGi的第d个特征属性在知识图谱KGi的属性三元组中出现的次数;
对于每个知识图谱KGi中的每个实体,构建其特征属性向量xij=(λij1ij2,…,λijD),λijd表示知识图谱KGi中第j个实体中第d个特征属性对应的元素值,当知识图谱KGi中第j个实体存在第d个特征属性的属性三元组,则令λijd=wid,否则令λijd=0;将知识图谱KGi中的每个实体的特征属性向量xij作为行向量,构建Ni×D的矩阵X′i,对矩阵X′i进行归一化,将归一化后的矩阵作为属性信息矩阵Xi;归一化的计算公式如下:
Xi=RX′i
其中,R表示大小为Ni×Ni的对角矩阵,其对角线上的元素
S4:将两种语言的知识图谱KG1和KG2中已知的对齐实体对作为正样本,构成正样本集合;
S5:对于关系结构信息和属性信息分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE,每个GCN孪生网络GCN_ω包括两个分支,ω∈{SE,AE},每个分支对应一个知识图谱的输入,每个分支均由一个GCN网络和一个BN层组成,两个分支的GCN网络的结构配置相同,包含L层级联的图卷积层,且两个分支的GCN网络的最后一层图卷积层共享参数;GCN网络中各层图像卷积层的输出计算公式如下:
其中,γ表示图卷积层序号,γ=1,2,…,L,表示GCN网络中第γ层、第γ-1层图卷积层的输出,当ω=AE时,当ω=SE时,为单位矩阵;σ表示激活函数,I表示单位矩阵,表示矩阵的度矩阵,表示GCN网络中第γ层图卷积层的权重矩阵;
将GCN网络的输出输入至BN层,得到大小为Ni×V的嵌入空间矩阵,其中第j行向量即为知识图谱KGi中第j个实体对应的嵌入向量;
S6:将两个知识图谱KGi的邻接矩阵Ai作为关系结构信息的GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱KGi的邻接矩阵Ai和属性信息矩阵Xi作为属性信息的GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练;
在训练过程中,每次迭代过程的损失函数采用以下方法计算:
首先采用定向负采样获取负样本集合,具体方法为:记正样本中所包含的实体集合为P,随机从两个知识图谱的所有实体中采样得到一组实体,构成实体集合S;对于集合P中各个正样本实体,计算当前GCN孪生网络GCN_ω输出的该实体对应的嵌入向量与集合S中每个实体对应的嵌入向量之间的距离,按照距离从小到大对集合S中实体进行排列,选择第α个到第α+β个实体,与该正样本实体构成β个实体对,将这β个实体对作为负样本加入负样本集合,其中α和β根据实际需要设置;
对于每个正样本实体,将其在正样本集合中对应的实体对,分别和其在负样本集合中的β个实体对构成β组正-负样本对,从而得到正-负样本对集合。从正-负样本对集合中随机获取Z组正-负样本对,采用以下公式计算得到本次迭代的损失函数值Loss:
其中,dpos(z)表示第z组正-负样本对的正样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,dneg(z)表示第z组正-负样本对的负样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,margin表示预设的超参数;
S7:在GCN孪生网络训练好,模型达到收敛之后,每个GCN孪生网络GCN_ω的输出代表知识图谱中各个实体的嵌入向量,根据GCN孪生网络GCN_SE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量根据GCN孪生网络GCN_AE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量随后将两个嵌入向量以一定比例拼接起来,从而得到每个实体的最终嵌入向量其中0<ρ<1;
根据需要从两个知识图谱KGi中选择一个知识图谱作为基准知识图谱,从该基准知识图谱中选择未对齐的实体作为待对齐实体,计算这些待对齐实体的最终嵌入向量与另一知识图谱中各个未对齐实体的最终嵌入向量之间的欧式距离,选择距离最小的实体作为待对齐实体的对齐实体,从而得到对齐实体对。
2.根据权利要求1所述的跨语言知识图谱实体对齐方法,其特征在于,所述GCN网络采用两层GCN网络,其中第一层图卷积层不共享参数,第二层图卷积层共享参数。
3.根据权利要求1所述的跨语言知识图谱实体对齐方法,其特征在于,所述GCN孪生网络GCN_ω训练过程中,每经过固定的迭代次数,根据当前GCN孪生网络GCN_ω输出的嵌入向量提取出对齐实体,作为正样本加入正样本训练集中,对齐实体的提取方法如下:
获取两个知识图谱KGi的所有实体对,将当前正样本集合以外的实体对作为待对齐实体对,根据当前GCN孪生网络GCN_ω输出的嵌入空间矩阵,分别提取出两个知识图谱KGi中各个实体对应的嵌入向量,计算知识图谱KG1中每个实体的嵌入向量与知识图谱KG2中每个实体的嵌入向量之间的距离,在知识图谱KG2的实体中筛选与知识图谱KG1中实体嵌入距离最短的实体,如果其嵌入向量距离小于预设阈值τ,则将这两个实体构成的实体对作为正样本加入正样本集合,否则不作任何操作。
CN201910676206.9A 2019-07-25 2019-07-25 基于gcn孪生网络的跨语言知识图谱实体对齐方法 Active CN110472065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910676206.9A CN110472065B (zh) 2019-07-25 2019-07-25 基于gcn孪生网络的跨语言知识图谱实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676206.9A CN110472065B (zh) 2019-07-25 2019-07-25 基于gcn孪生网络的跨语言知识图谱实体对齐方法

Publications (2)

Publication Number Publication Date
CN110472065A true CN110472065A (zh) 2019-11-19
CN110472065B CN110472065B (zh) 2022-03-25

Family

ID=68509731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676206.9A Active CN110472065B (zh) 2019-07-25 2019-07-25 基于gcn孪生网络的跨语言知识图谱实体对齐方法

Country Status (1)

Country Link
CN (1) CN110472065B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111858961A (zh) * 2020-07-27 2020-10-30 西交利物浦大学 用于知识图谱中节点和链接的多语言知识匹配方法及装置
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112287674A (zh) * 2020-12-17 2021-01-29 成都数联铭品科技有限公司 企业间同名大节点识别方法、系统、电子设备及存储介质
CN112487819A (zh) * 2020-12-18 2021-03-12 成都数联铭品科技有限公司 一种企业间同名人识别方法、系统、电子设备及存储介质
CN112487305A (zh) * 2020-12-01 2021-03-12 重庆邮电大学 一种基于gcn的动态社交用户对齐方法
CN112784064A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种面向社交网络的层次化超维知识图谱构建方法
CN112905712A (zh) * 2019-12-04 2021-06-04 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113066537A (zh) * 2021-04-19 2021-07-02 山西大学 基于图神经网络的化合物分类方法
CN113342809A (zh) * 2021-05-31 2021-09-03 北京工商大学 一种基于图神经网络的互联网食品实体对齐方法及系统
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113642392A (zh) * 2021-07-07 2021-11-12 上海交通大学 一种目标搜索方法及装置
CN113761221A (zh) * 2021-06-30 2021-12-07 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法
CN114090783A (zh) * 2021-10-15 2022-02-25 北京大学 一种异构知识图谱融合方法及系统
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN117149839A (zh) * 2023-09-14 2023-12-01 中国科学院软件研究所 一种面向开源软件供应链的跨生态软件检测方法及装置
CN111858958B (zh) * 2020-07-22 2024-02-02 武汉理工大学 基于隐空间邻域聚合的智能网联汽车产业图谱融合方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174406A (ja) * 2016-03-24 2017-09-28 富士通株式会社 ヘルスケア・リスク推定システム及び方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174406A (ja) * 2016-03-24 2017-09-28 富士通株式会社 ヘルスケア・リスク推定システム及び方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHICHUNWANG等: "Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks", 《PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
余传明等: "基于深度学习的领域知识对齐模型研究:知识图谱视角", 《情报学报》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905712A (zh) * 2019-12-04 2021-06-04 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN112905712B (zh) * 2019-12-04 2023-08-15 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN111191462B (zh) * 2019-12-30 2022-02-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111191462A (zh) * 2019-12-30 2020-05-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111563192A (zh) * 2020-04-28 2020-08-21 腾讯科技(深圳)有限公司 实体对齐方法、装置、电子设备及存储介质
CN111931505A (zh) * 2020-05-22 2020-11-13 北京理工大学 一种基于子图嵌入的跨语言实体对齐方法
CN111858958B (zh) * 2020-07-22 2024-02-02 武汉理工大学 基于隐空间邻域聚合的智能网联汽车产业图谱融合方法
CN111858961A (zh) * 2020-07-27 2020-10-30 西交利物浦大学 用于知识图谱中节点和链接的多语言知识匹配方法及装置
CN111858961B (zh) * 2020-07-27 2024-02-02 西交利物浦大学 用于知识图谱中节点和链接的多语言知识匹配方法及装置
CN112131395A (zh) * 2020-08-26 2020-12-25 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112131395B (zh) * 2020-08-26 2023-09-26 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112287123B (zh) * 2020-11-19 2022-02-22 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112487305A (zh) * 2020-12-01 2021-03-12 重庆邮电大学 一种基于gcn的动态社交用户对齐方法
CN112487305B (zh) * 2020-12-01 2022-06-03 重庆邮电大学 一种基于gcn的动态社交用户对齐方法
CN112287674B (zh) * 2020-12-17 2021-03-26 成都数联铭品科技有限公司 企业间同名大节点识别方法、系统、电子设备及存储介质
CN112287674A (zh) * 2020-12-17 2021-01-29 成都数联铭品科技有限公司 企业间同名大节点识别方法、系统、电子设备及存储介质
CN112487819A (zh) * 2020-12-18 2021-03-12 成都数联铭品科技有限公司 一种企业间同名人识别方法、系统、电子设备及存储介质
CN112784064B (zh) * 2021-01-28 2023-05-12 电子科技大学 一种面向社交网络的层次化超维知识图谱构建方法
CN112784064A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种面向社交网络的层次化超维知识图谱构建方法
CN113066537B (zh) * 2021-04-19 2022-04-08 山西大学 基于图神经网络的化合物分类方法
CN113066537A (zh) * 2021-04-19 2021-07-02 山西大学 基于图神经网络的化合物分类方法
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113065003B (zh) * 2021-04-22 2023-05-26 国际关系学院 一种基于多指标的知识图谱生成方法
CN113342809B (zh) * 2021-05-31 2023-08-15 北京工商大学 一种基于图神经网络的互联网食品实体对齐方法及系统
CN113342809A (zh) * 2021-05-31 2021-09-03 北京工商大学 一种基于图神经网络的互联网食品实体对齐方法及系统
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113641826B (zh) * 2021-06-29 2024-03-26 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN113761221A (zh) * 2021-06-30 2021-12-07 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法
CN113642392B (zh) * 2021-07-07 2023-11-28 上海交通大学 一种目标搜索方法及装置
CN113642392A (zh) * 2021-07-07 2021-11-12 上海交通大学 一种目标搜索方法及装置
CN114090783A (zh) * 2021-10-15 2022-02-25 北京大学 一种异构知识图谱融合方法及系统
CN114357193A (zh) * 2022-01-10 2022-04-15 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN114357193B (zh) * 2022-01-10 2024-04-02 中国科学技术大学 一种知识图谱实体对齐方法、系统、设备与存储介质
CN117149839A (zh) * 2023-09-14 2023-12-01 中国科学院软件研究所 一种面向开源软件供应链的跨生态软件检测方法及装置
CN117149839B (zh) * 2023-09-14 2024-04-16 中国科学院软件研究所 一种面向开源软件供应链的跨生态软件检测方法及装置

Also Published As

Publication number Publication date
CN110472065B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN110472065A (zh) 基于gcn孪生网络的跨语言知识图谱实体对齐方法
Saldana et al. How many communities are there?
CN110955780B (zh) 一种用于知识图谱的实体对齐方法
Longford et al. Factor analysis for clustered observations
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN107704625A (zh) 字段匹配方法和装置
CN103064941B (zh) 图像检索方法和装置
CN109948714A (zh) 基于残差卷积和递归神经网络的中文场景文本行识别方法
CN110222771A (zh) 一种零样本图片的类别识别方法
CN107133651A (zh) 基于超网络判别子图的功能磁共振影像数据分类方法
CN108304380A (zh) 一种融合学术影响力的学者人名消除歧义的方法
Perera et al. A goodness of fit test for the multilevel logistic model
CN110297903B (zh) 一种基于不对等语料的跨语言词嵌入方法
Chakrabarty Elimination-minimization principle: Fitting of polynomial curve to numerical data
Kaygorodov et al. Free generic Poisson fields and algebras
CN105989080A (zh) 确定实体属性值的装置和方法
CN110751998A (zh) 基于结构化报告数据的查询系统及其查询方法
CN106326904A (zh) 获取特征排序模型的装置和方法以及特征排序方法
CN107451617A (zh) 一种图转导半监督分类方法
Ma et al. Clustering and integrating of heterogeneous microbiome data by joint symmetric nonnegative matrix factorization with laplacian regularization
CN106874931A (zh) 用户画像分群方法和装置
He et al. Robust covariance estimation for high‐dimensional compositional data with application to microbial communities analysis
CN109033304A (zh) 基于在线深层主题模型的多模态检索方法
Ning Empirical likelihood ratio test for a mean change point model with a linear trend followed by an abrupt change
CN113065342B (zh) 一种基于关联关系分析的课程推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant