CN110413704B - 基于加权邻居信息编码的实体对齐方法 - Google Patents

基于加权邻居信息编码的实体对齐方法 Download PDF

Info

Publication number
CN110413704B
CN110413704B CN201910568295.5A CN201910568295A CN110413704B CN 110413704 B CN110413704 B CN 110413704B CN 201910568295 A CN201910568295 A CN 201910568295A CN 110413704 B CN110413704 B CN 110413704B
Authority
CN
China
Prior art keywords
entity
neighbor
vector representation
matching
neighbors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910568295.5A
Other languages
English (en)
Other versions
CN110413704A (zh
Inventor
陈岭
田晓雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910568295.5A priority Critical patent/CN110413704B/zh
Publication of CN110413704A publication Critical patent/CN110413704A/zh
Application granted granted Critical
Publication of CN110413704B publication Critical patent/CN110413704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于加权邻居信息编码的实体对齐方法,具体包括:1)对需对齐的两知识库中数据进行预处理,提取两知识库三元组、实体及其邻居信息和实体及其类型信息;2)基于当前已发现的所有匹配实体对,分别通过基于三元组的知识表示学习、加权邻居信息编码和跨知识库实体‑类型图嵌入,得到每个实体相应的向量表示;3)结合实体三种不同的向量表示推理匹配实体对;4)由发现的匹配实体对和先验对齐的种子实体对共同组成新的训练数据,重复步骤1)~4),直至达到指定的迭代次数,输出发现的匹配实体对。这种方法能够更加准确地匹配在三元组中出现较少的实体,在知识融合、知识问答等领域具有广阔的应用前景。

Description

基于加权邻居信息编码的实体对齐方法
技术领域
本发明涉及知识库实体对齐领域,具体涉及一种基于加权邻居信息编码的实体对齐方法。
背景技术
知识库以结构化的形式组织人类知识,旨在描述现实世界中存在的各种实体及其关系。随着Web 3.0的发展,诸多知识库相继出现。除DBpedia、Freebase等综合知识库外,还包括电影知识库(如IMDb、LinkedMDB)、音乐知识库(如MusicBrainz、Discogs)等许多特定领域知识库,这些知识库作为问答系统和推荐系统等的先验知识正在发挥着越来越重要的作用。但是,不同组织或机构在构建知识库时仅考虑自身的需求,导致知识库的多样性,并且不同知识库间存在着大量重复和互补的信息。实体对齐指发现不同知识库中代表现实中同一事物的两个实体,对于多知识库集成和知识库信息扩展具有重要意义。
基于表示学习的实体对齐方法为当前较为先进的实体对齐方法。基于表示学习的实体对齐方法利用知识表示学习将每个知识库中的实体和关系嵌入至不同的低维向量空间,同时基于先验对齐的种子实体对学习不同向量空间的转换,最后根据实体在低维向量空间中的语义距离推理匹配实体对。但是,现有基于表示学习的实体对齐方法通常假定知识库中的每个实体都有足够的训练三元组,无法对知识库中存在的长尾实体(即在三元组中出现较少的实体)进行充分学习,可能会导致长尾实体错误匹配,影响实体对齐结果的准确性。在知识表示学习中引入实体及其邻居信息,进而利用实体基于邻居信息的向量表示进行匹配实体对推理,有助于解决长尾实体错误匹配问题,但实体不同邻居在实体对齐中起的作用存在差异,现有邻居信息编码方法未能考虑该差异。
发明内容
本发明提供了一种基于加权邻居信息编码的实体对齐方法,以达到有效利用实体及其邻居信息提升长尾实体的匹配准确性的技术效果。
本发明的技术方案为:
一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一知识库中所有关系;
步骤5,从知识库KB1和知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
步骤6,根据跨知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由知识库KB1和知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
具体地,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm
Figure BDA0002110267810000031
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
Figure BDA0002110267810000032
其中,γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,
Figure BDA0002110267810000033
为三元组(h,r,t)对应的负样本集合,E(h,r,t)为三元组(h,r,t)的能量函数:
E(h,r,t)=‖htr+rtr-ttr
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts
Figure BDA0002110267810000041
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,
Figure BDA0002110267810000042
Figure BDA0002110267810000043
分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
具体地,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
Figure BDA0002110267810000044
Figure BDA0002110267810000045
其中,f(·)=tanh为激活函数,
Figure BDA0002110267810000046
为单层全连接神经网络的参数,
Figure BDA0002110267810000047
表示串接操作;
对实体e的所有前向邻居的向量表示
Figure BDA00021102678100000518
进行加权平均得到实体e基于前向邻居的向量表示
Figure BDA0002110267810000051
Figure BDA0002110267810000052
其中,wi为实体e前向邻居(ei,ri)的权重,该权重
Figure BDA0002110267810000053
其中,
Figure BDA0002110267810000054
为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,
Figure BDA0002110267810000055
为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,
Figure BDA0002110267810000056
为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
Figure BDA0002110267810000057
Figure BDA0002110267810000058
其中,f(·)=tanh为激活函数,
Figure BDA0002110267810000059
为单层全连接神经网络的参数,
Figure BDA00021102678100000510
表示串接操作;
对实体e的所有后向邻居的向量表示
Figure BDA00021102678100000511
进行加权平均得到实体e基于后向邻居的向量表示
Figure BDA00021102678100000512
Figure BDA00021102678100000513
其中,wj为实体e后向邻居(rj,ej)的权重,权重
Figure BDA00021102678100000514
其中,
Figure BDA00021102678100000515
为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,
Figure BDA00021102678100000516
为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,
Figure BDA00021102678100000517
为结合注意力机制为后向邻居赋予权重;
(4-3)对实体e基于前向邻居的向量表示
Figure BDA0002110267810000061
和基于后向邻居的向量表示
Figure BDA0002110267810000062
进行求和平均,得到实体e基于邻居信息的向量表示ene
Figure BDA0002110267810000063
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns
Figure BDA0002110267810000064
其中,e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,
Figure BDA0002110267810000065
Figure BDA0002110267810000066
分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)来获得每个实体基于邻居信息的向量表示。
具体地,步骤6的具体过程为:
(6-1)对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数L定义为:
Figure BDA0002110267810000067
其中,p2j|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
Figure BDA0002110267810000071
其中,p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数L和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty
Lty=L+Lee
(6-4)以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
本发明结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离。与现有方法相比,其优点在于:
1)除通过基于三元组的知识表示学习得到每个实体的向量表示外,还分别通过加权邻居信息编码和跨知识库实体-类型图嵌入得到每个实体相应的向量表示,并且在推理匹配实体对时,首先根据实体基于类型的向量表示过滤掉部分候选实体对,再综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,能够解决长尾实体容易被错误匹配问题,从而提升实体对齐结果的准确性;
2)对于实体任意一个邻居,从该邻居与实体之间的映射关系、该邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制三个方面度量该邻居在实体对齐中起的作用大小并为其赋予相应权重,进而能够得到适用于实体对齐的实体基于邻居信息的向量表示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是基于加权邻居信息编码的实体对齐方法总体流程图;
图2是加权邻居信息编码整体框架图;
图3是跨知识库实体-类型图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本发明提供了一种基于加权邻居信息编码的实体对齐方法,该实体对齐方法是一个迭代过程,具体过程如下:
步骤1:输入需对齐的知识库KB1和KB2,分别构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
知识库中存在的实体和关系以三元组(h,r,t)的形式表示,其中h和t分别表示头实体和尾实体,r表示头实体和尾实体之间存在的关系。分别从需对齐的知识库KB1和KB2中提取所有三元组,构建三元组集合S1和S2。对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换(h,r,t)中头实体h或尾实体t或关系r为知识库中的其他实体或关系得到对应的负样本(h′,r′,t′)。
步骤2:根据所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M(初始迭代,M仅包含先验对齐的种子实体对;后续迭代,M由种子实体对和上一轮迭代发现的匹配实体对共同组成)中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示。
对于知识库中的每个三元组,将关系r视为从头实体h到尾实体t的翻译操作,优化目标为
Figure BDA0002110267810000095
能量函数如下所示:
E(h,r,t)=‖htr+rtr-ttr‖ (1)
其中htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示。
基于上述能量函数,所有正负样本三元组基于边际值的损失Ltm计算如下所示:
Ltm=∑(h,r,t)∈SL(h,r,t) (2)
其中S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
Figure BDA0002110267810000091
其中γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,
Figure BDA0002110267810000092
为三元组(h,r,t)对应的负样本集合。
匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts计算如下所示:
Figure BDA0002110267810000093
其中e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,
Figure BDA0002110267810000094
Figure BDA0002110267810000101
分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性。如果e(1)和e(2)为种子实体对,则它们的匹配可靠性为1;如果e(1)和e(2)为发现的匹配实体对,则它们的匹配可靠性在上一轮迭代中根据e(1)和e(2)基于三元组和邻居信息的向量表示间的语义距离进行计算,计算方法详见步骤8。
结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm (5)
其中,β1和β2分别为Lts和Ltm的权重超参数。
以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
步骤3:从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组。
从S1和S2中提取两知识库中的所有实体及其邻居信息。对于任意实体e,其邻居信息为与实体e直接相邻的所有(实体,关系)元组和(关系,实体)元组,其中与实体e直接相邻的(实体,关系)元组为其前向邻居,与实体e直接相邻的(关系,实体)元组为其后向邻居。实体e的前向邻居集
Figure BDA0002110267810000102
和后向邻居集
Figure BDA0002110267810000103
具体定义如下所示:
Figure BDA0002110267810000104
Figure BDA0002110267810000105
步骤4:根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示。该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)、注意力机制来为实体邻居赋予权重。
匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns计算如下所示:
Figure BDA0002110267810000111
其中e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,
Figure BDA0002110267810000112
Figure BDA0002110267810000113
分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性。
对于知识库中任意实体e,其基于前向邻居的向量表示通过加权邻居信息编码得到。如图2所示,首先将实体e每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,然后将ei和ri进行串接,利用单层全连接神经网络学习该前向邻居的向量表示
Figure BDA0002110267810000114
Figure BDA0002110267810000115
其中,f(·)=tanh为激活函数,
Figure BDA0002110267810000116
为单层全连接神经网络的参数,
Figure BDA0002110267810000117
表示串接操作。
最后通过对实体e所有前向邻居的向量表示进行加权平均得到实体e基于前向邻居的向量表示
Figure BDA0002110267810000118
Figure BDA0002110267810000119
其中wi为实体e前向邻居(ei,ri)的权重。具体地,本方法从以下三个方面来度量实体e任意前向邻居(ei,ri)在实体对齐中起的作用大小并为其赋予相应权重wi
(a)结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重
Figure BDA0002110267810000121
(ei,ri)与实体e之间的映射关系可能为1-1或1-n(n>1),具体定义如下:
Figure BDA0002110267810000122
为知识库中以(ei,ri)为前向邻居的实体集合,如果
Figure BDA0002110267810000123
Figure BDA0002110267810000124
则(ei,ri)与实体e之间的映射关系为1-1;如果
Figure BDA0002110267810000125
Figure BDA0002110267810000126
则(ei,ri)与实体e之间的映射关系为1-n且
Figure BDA0002110267810000127
显然,两种映射关系下的(ei,ri)在实体对齐中起的作用大小是不同的。如果(ei,ri)与实体e之间的映射关系为1-1,则(ei,ri)在实体对齐中起的作用越大,权重越大;如果(ei,ri)与实体e之间的映射关系为1-n,则(ei,ri)在实体对齐中起的作用越小,权重越小,并且该权重会随着n的增大而减小。因此,基于(ei,ri)与实体e之间的映射关系,结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重
Figure BDA0002110267810000128
为:
Figure BDA0002110267810000129
其中,α>0且α<0.5为超参数。
(b)结合实体邻居中关系与其他关系的关联程度(包括实体其他邻居中关系及另一知识库中所有关系)为前向邻居赋予权重
Figure BDA00021102678100001210
一个知识库中的各个关系并不是彼此完全独立的,同一实体所具有的某些关系之间往往存在一定的关联,即存在一定关联的关系通常会共同出现被用来描述同一个实体。因此,(ei,ri)中关系ri与实体e其他邻居中关系的关联程度Corre(ri)被定义为关系ri和实体e其他各个邻居中关系的共现概率之和。对于实体e其他任意邻居中关系rk,关系ri与rk的共现概率P(rk|ri)基于知识库中的所有实体进行计算,为关系ri与rk的共现次数和关系ri出现的次数之比。具体如下所示:
Figure BDA0002110267810000131
Figure BDA0002110267810000132
其中函数ψ(x)的输出为0或1,如果x=true,则ψ(x)=1;否则ψ(x)=0。E为知识库的实体集合,Re为实体e邻居中关系的集合,
Figure BDA0002110267810000133
为知识库中任意实体eq邻居中关系的集合。
另外,需对齐的两知识库中的某些关系之间也可能存在一定的关联,需对齐的两知识库中存在一定关联的关系通常会共同出现在两个匹配实体的邻居中。因此,(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度CorrKB′(ri)被定义为关系ri和另一知识库KB′中各个关系的共现概率之和。对于另一知识库KB′中的任意关系rg,关系ri与rg的共现概率P(rg|ri)基于匹配实体对集合M进行计算,为关系ri与rg的共现次数和关系ri出现的次数之比。具体如下所示:
Figure BDA0002110267810000134
Figure BDA0002110267810000135
其中函数ψ(x)的输出为0或1,如果x=true,则ψ(x)=1;否则ψ(x)=0。R′为另一知识库KB′中的关系集合,e和e′为任意一个匹配实体对中的两个匹配实体,Re和Re′分别为实体e和实体e′邻居中关系的集合。
基于上述两种关联程度,结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重
Figure BDA0002110267810000136
为:
Figure BDA0002110267810000137
其中Corre(ri)为(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小,因为关系ri可以由实体e其他邻居中关系反映出来,因而(ei,ri)的权重也就越小;CorrKB′(ri)为(ei,ri)中关系ri与另一知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大,因为关系ri能够反映出另一知识库中某些关系,因而(ei,ri)的权重也就越大。
(c)结合注意力机制为前向邻居赋予权重
Figure BDA0002110267810000141
为利用隐藏在实体e前向邻居(ei,ri)向量表示中细粒度的信息,基于注意力机制为前向邻居赋予权重,具体地,结合注意力机制为前向邻居赋予权重
Figure BDA0002110267810000142
为:
Figure BDA0002110267810000143
Figure BDA0002110267810000144
其中
Figure BDA0002110267810000145
为参数对角矩阵,
Figure BDA0002110267810000146
为实体e前向邻居(ei,ri)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目。
基于实体e所有前向邻居,分别对
Figure BDA0002110267810000147
进行归一化,最终将归一化后的
Figure BDA0002110267810000148
相加得到实体e前向邻居(ei,ri)的权重wi
Figure BDA0002110267810000149
类似地,利用上述过程可以得到实体e基于后向邻居的向量表示
Figure BDA00021102678100001410
将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
Figure BDA00021102678100001411
Figure BDA00021102678100001412
其中,f(·)=tanh为激活函数,
Figure BDA00021102678100001413
为单层全连接神经网络的参数,
Figure BDA00021102678100001414
表示串接操作。
对实体e所有后向邻居的向量表示
Figure BDA0002110267810000151
进行加权平均得到实体e基于后向邻居的向量表示
Figure BDA0002110267810000152
Figure BDA0002110267810000153
其中,wj为实体e后向邻居(rj,ej)的权重,与计算实体e前向邻居权重方法类似。权重
Figure BDA0002110267810000154
其中,
Figure BDA0002110267810000155
为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,
Figure BDA0002110267810000156
为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,
Figure BDA0002110267810000157
为结合注意力机制为后向邻居赋予权重;
其中,结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重
Figure BDA0002110267810000158
为:
Figure BDA0002110267810000159
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重
Figure BDA00021102678100001513
为:
Figure BDA00021102678100001510
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
结合注意力机制为后向邻居赋予权重
Figure BDA00021102678100001511
为:
Figure BDA00021102678100001512
其中,
Figure BDA0002110267810000161
为参数对角矩阵,
Figure BDA0002110267810000162
为实体e后向邻居(rj,ej)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目。
在获得实体e基于前向邻居的向量表示
Figure BDA0002110267810000163
和基于后向邻居的向量表示
Figure BDA0002110267810000164
后,对向量表示
Figure BDA0002110267810000165
和向量表示
Figure BDA0002110267810000166
进行求和平均,获得实体e基于邻居信息的向量表示ene
Figure BDA0002110267810000167
步骤5:从KB1和KB2中提取两知识库中的所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
知识库中的每个实体都有其对应的类型,从KB1和KB2中提取所有实体及其对应的类型。基于实体及其类型信息和匹配实体对集合M,构建跨知识库实体-类型图Gτ
构建的跨知识库实体-类型图Gτ如图3所示,跨知识库实体-类型图Gτ=(E∪T,ε∪εee),其中E∪T为跨知识库实体-类型图Gτ的顶点集合,ε∪εee为跨知识库实体-类型图Gτ的边集合。E=E1∪E2表示两知识库中实体的集合,T=T1∪T2表示两知识库中实体类型的集合,ε表示实体-类型边集合,εee表示实体-实体边集合。如果实体ei的类型为τj,则实体ei和类型τj之间存在一条实体-类型边(eij)∈ε;如果实体ei的匹配实体为ej,则实体ei和实体ej之间存在一条实体-实体边(ei,ej)∈εee。实体-类型边和实体-实体边为两种不同类型的边,应该被赋予不同的边权重。由于跨知识库实体-类型图Gτ中实体-实体边的数量远小于实体-类型边的数量,所以为了强调实体-实体边,边权重的设置如下所示:
Figure BDA0002110267810000171
其中R(ei,ej)为匹配实体对ei和ej的匹配可靠性。
步骤6:根据跨知识库实体-类型图嵌入损失Lty,得到每个实体基于类型的向量表示。
为使具有相同类型的实体的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-类型边,损失函数定义为:
Figure BDA0002110267810000172
其中p2j|ei)为跨知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布:
Figure BDA0002110267810000173
其中
Figure BDA0002110267810000174
分别为实体ei基于类型的向量表示和类型τj的向量表示。
为使两个匹配实体基于类型的向量表示尽可能相近,对于跨知识库实体-类型图Gτ中的实体-实体边,损失函数定义为:
Figure BDA0002110267810000175
其中p1(ei,ej)为跨知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布:
Figure BDA0002110267810000176
其中
Figure BDA0002110267810000177
分别为实体ei和ej基于类型的向量表示。
结合损失函数L和损失函数Lee构建跨知识库实体-类型图嵌入损失Lty
Lty=L+Lee (31)
以最小化跨知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
步骤7:由KB1和KB2中的未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉其中部分候选实体对。
由KB1和KB2中的未匹配实体两两形成候选实体对,计算每一个候选实体对(e(1),e(2))基于类型的向量表示间的余弦相似度
Figure BDA0002110267810000181
并设置阈值θty,过滤掉
Figure BDA0002110267810000182
的候选实体对。
步骤8:对于未被过滤掉的候选实体对,进一步根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对。
对于未被过滤掉的每一个候选实体对(e(1),e(2)),利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e(1),e(2)):
Figure BDA0002110267810000183
其中δ为权重超参数,
Figure BDA0002110267810000184
Figure BDA0002110267810000185
分别为实体e(1)和e(2)基于三元组的向量表示,
Figure BDA0002110267810000186
Figure BDA0002110267810000187
分别为实体e(1)和e(2)基于邻居信息的向量表示。
对于KB1中的任意未匹配实体e(1),在KB2中选择与e(1)语义距离d(e(1),e(2))最小且小于一定阈值θtn的实体
Figure BDA0002110267810000188
作为其匹配实体。
发现的每一个匹配实体对(e(1),e(2))的匹配可靠性基于d(e(1),e(2))计算得到:
R(e(1),e(2))=σ(θtn-d(e(1),e(2))) (33)
其中σ(·)为sigmoid函数。
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
上述实体对齐方法结合三元组和实体及其邻居信息进行知识表示学习,同时考虑实体不同邻居在实体对齐中起的作用差异,并且在推理匹配实体对时,将实体类型作为约束,综合考虑实体基于三元组和邻居信息的向量表示间的语义距离,以此来匹配实体,从而提升实体对齐结果的准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于加权邻居信息编码的实体对齐方法,包括以下步骤:
步骤1,输入需对齐的电影知识库KB1和KB2,分别从电影知识库KB1和KB2中的电影文本信息中提取三元组,并构建三元组集合S1和S2,对于三元组集合S1和S2中的每个三元组(h,r,t),通过随机替换三元组(h,r,t)中头实体h、尾实体t、或关系r为电影知识库中的其他实体或关系,得到对应的负样本(h′,r′,t′);
步骤2,根据所有正负样本三元组基于边际值的损失Ltm、匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts,得到每个实体和关系基于三元组的向量表示;
步骤3,从三元组集合S1和三元组集合S2中提取所有实体及其邻居信息,对于任意实体,其邻居信息为与该实体直接相邻的所有(实体,关系)元组和(关系,实体)元组;
步骤4,根据匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns,得到每个实体基于邻居信息的向量表示,该向量表示结合实体邻居与实体之间的映射关系、实体邻居中关系与其他关系的关联程度、注意力机制来为实体邻居赋予权重,所述其他关系包括实体其他邻居中关系及另一电影知识库中所有关系;
步骤5,从电影知识库KB1和电影知识库KB2中提取所有实体及其类型信息,基于实体及其类型信息和匹配实体对集合M,构建跨电影知识库实体-类型图Gτ
步骤6,根据跨电影知识库实体-类型图Gτ嵌入损失Lty,得到每个实体基于类型的向量表示;
步骤7:由电影知识库KB1和电影知识库KB2中未匹配实体两两形成候选实体对,根据实体基于类型的向量表示间的语义距离过滤掉部分候选实体对;
步骤8:对于未被过滤掉的候选实体对,根据实体基于三元组的向量表示和基于邻居信息的向量表示间的语义距离发现其中的匹配实体对;
步骤9:由发现的匹配实体对和先验对齐的种子实体对共同组成下一轮迭代的匹配实体对集合M,重复步骤1-8,直至达到指定的迭代次数,输出发现的匹配实体对。
2.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤2的具体过程为:
(2-1)计算正负样本三元组基于边际值的损失Ltm
Figure FDF0000015684470000021
其中,S=S1∪S2,L(h,r,t)为每个三元组及其对应的负样本基于边际值的损失:
Figure FDF0000015684470000022
其中,γ>0为边际值超参数,[x]+=max{0,x}表示0和x之间的最大值,
Figure FDF0000015684470000023
为三元组(h,r,t)对应的负样本集合,E(h,r,t)为三元组(h,r,t)的能量函数:
E(h,r,t)=‖htr+rtr-ttr
其中,htr、rtr、ttr分别为头实体、关系、尾实体基于三元组的向量表示;
(2-2)计算匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts
Figure FDF0000015684470000031
其中,e(1)和e(2)为匹配实体对集合M中任意一个匹配实体对中的两个匹配实体,
Figure FDF0000015684470000032
Figure FDF0000015684470000033
分别为实体e(1)和e(2)基于三元组的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(2-3)结合所有正负样本三元组基于边际值的损失Ltm和匹配实体对集合M中所有匹配实体对基于三元组的向量表示相似性损失Lts构建整体损失Lky
Lky=β1Lts2Ltm
其中,β1和β2分别为Lts和Ltm的权重超参数;
(2-4)以最小化整体损失Lky为优化目标,经充分训练后,得到每个实体和关系基于三元组的向量表示。
3.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤4中的具体过程为:
(4-1)将实体e的每一个前向邻居中实体ei和关系ri的向量表示ei和ri利用实体ei和关系ri基于三元组的向量表示进行初始化,并将向量表示ei和ri进行串接,输入至单层全连接神经网络中,经计算输出前向邻居(ei,ri)的向量表示
Figure FDF0000015684470000034
Figure FDF0000015684470000035
其中,f(·)=tanh为激活函数,
Figure FDF0000015684470000036
Figure FDF0000015684470000037
为单层全连接神经网络的参数,
Figure FDF0000015684470000038
表示串接操作;
对实体e的所有前向邻居的向量表示
Figure FDF0000015684470000039
进行加权平均得到实体e基于前向邻居的向量表示
Figure FDF00000156844700000310
Figure FDF0000015684470000041
其中,wi为实体e前向邻居(ei,ri)的权重,该权重
Figure FDF0000015684470000042
其中,
Figure FDF0000015684470000043
为结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重,
Figure FDF0000015684470000044
为结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重,
Figure FDF0000015684470000045
为结合注意力机制为前向邻居赋予权重;
(4-2)将实体e的每一个后向邻居中实体ej和关系rj的向量表示ej和rj利用实体ej和关系rj基于三元组的向量表示进行初始化,并将向量表示ej和rj进行串接,输入至单层全连接神经网络中,经计算输出后向邻居(rj,ej)的向量表示
Figure FDF0000015684470000046
Figure FDF0000015684470000047
其中,f(·)=tanh为激活函数,
Figure FDF0000015684470000048
Figure FDF0000015684470000049
为单层全连接神经网络的参数,
Figure FDF00000156844700000410
表示串接操作;
对实体e的所有后向邻居的向量表示
Figure FDF00000156844700000411
进行加权平均得到实体e基于后向邻居的向量表示
Figure FDF00000156844700000412
Figure FDF00000156844700000413
其中,wj为实体e后向邻居(rj,ej)的权重,权重
Figure FDF00000156844700000414
其中,
Figure FDF00000156844700000415
为结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重,
Figure FDF00000156844700000416
为结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重,
Figure FDF00000156844700000417
为结合注意力机制为后向邻居赋予权重;
(4-3)对实体e基于前向邻居的向量表示
Figure FDF00000156844700000418
和基于后向邻居的向量表示
Figure FDF00000156844700000419
进行求和平均,得到实体e基于邻居信息的向量表示ene
Figure FDF0000015684470000051
(4-4)计算匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns
Figure FDF0000015684470000052
其中,e(1)和e(2)为M中任意一个匹配实体对中的两个匹配实体,
Figure FDF0000015684470000053
Figure FDF0000015684470000054
分别为实体e(1)和e(2)基于邻居信息的向量表示,R(e(1),e(2))为匹配实体对e(1)和e(2)的匹配可靠性;
(4-5)以最小化匹配实体对集合M中所有匹配实体对基于邻居信息的向量表示相似性损失Lns为优化目标,经充分训练后,得到优化好的参数,进而基于优化好的参数利用步骤(4-1)~(4-3)计算得到每个实体基于邻居信息的向量表示。
4.如权利要求3所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤(4-1)中,
结合前向邻居(ei,ri)与实体e之间的映射关系为前向邻居赋予权重
Figure FDF0000015684470000055
为:
Figure FDF0000015684470000056
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为前向邻居赋予权重
Figure FDF0000015684470000057
为:
Figure FDF0000015684470000058
其中,Corre(ri)为前向邻居(ei,ri)中关系ri与实体e其他邻居中关系的关联程度,Corre(ri)越高,说明关系ri在实体对齐中起的作用越小;CorrKB′(ri)为前向邻居(ei,ri)中关系ri与另一电影知识库KB′中所有关系的关联程度,CorrKB′(ri)越高,说明关系ri在实体对齐中起的作用越大;
结合注意力机制为前向邻居赋予权重
Figure FDF0000015684470000061
为:
Figure FDF0000015684470000062
其中,
Figure FDF0000015684470000063
Figure FDF0000015684470000064
为参数对角矩阵,
Figure FDF0000015684470000065
为实体e前向邻居(ei,ri)的向量表示,etr为实体e基于三元组的向量表示,m为实体e前向邻居的数目;
步骤(4-2)中,
结合后向邻居(rj,ej)与实体e之间的映射关系为后向邻居赋予权重
Figure FDF0000015684470000066
为:
Figure FDF0000015684470000067
其中,α>0且α<0.5为超参数;
结合实体邻居中关系与其他关系的关联程度为后向邻居赋予权重
Figure FDF0000015684470000068
为:
Figure FDF0000015684470000069
其中,Corre(rj)为后向邻居(rj,ej)中关系rj与实体e其他邻居中关系的关联程度,Corre(rj)越高,说明关系rj在实体对齐中起的作用越小;CorrKB′(rj)为后向邻居(rj,ej)中关系rj与另一电影知识库KB′中所有关系的关联程度,CorrKB′(rj)越高,说明关系rj在实体对齐中起的作用越大;
结合注意力机制为后向邻居赋予权重
Figure FDF00000156844700000610
为:
Figure FDF0000015684470000071
其中,
Figure FDF0000015684470000072
Figure FDF0000015684470000073
为参数对角矩阵,
Figure FDF0000015684470000074
为实体e后向邻居(rj,ej)的向量表示,etr为实体e基于三元组的向量表示,m为实体e后向邻居的数目。
5.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤5中,构建的跨电影知识库实体-类型图Gτ表示为:
Gτ=(E∪T,ε∪εee)
其中,E∪T为跨电影知识库实体-类型图Gτ的顶点集合,ε∪εee为跨电影知识库实体-类型图Gτ的边集合,E=E1∪E2表示两电影知识库中实体的集合,T=T1∪T2表示两电影知识库中实体类型的集合,ε表示实体-类型边集合,εee表示实体-实体边集合。
6.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤6的具体过程为:
(6-1)对于跨电影知识库实体-类型图Gτ中的实体-类型边,损失函数L定义为:
Figure FDF0000015684470000075
其中,p2j|ei)为跨电影知识库实体-类型图Gτ中实体ei生成“上下文”类型τj的条件概率分布;
(6-2)对于跨电影知识库实体-类型图Gτ中的实体-实体边,损失函数Lee定义为:
Figure FDF0000015684470000076
其中,p1(ei,ej)为跨电影知识库实体-类型图Gτ中实体ei和ej之间的联合概率分布;
(6-3)结合损失函数L和损失函数Lee构建跨电影知识库实体-类型图嵌入损失Lty
Lty=L+Lee
(6-4)以最小化跨电影知识库实体-类型图嵌入损失Lty为优化目标,经充分训练后,得到每个实体基于类型的向量表示。
7.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤7中,
由KB1和KB2中的未匹配实体两两形成候选实体对,计算每一个候选实体对(e(1),e(2))基于类型的向量表示间的余弦相似度
Figure FDF0000015684470000081
并设置阈值θty,过滤掉
Figure FDF0000015684470000082
的候选实体对。
8.如权利要求1所述的基于加权邻居信息编码的实体对齐方法,其特征在于,步骤8中,
对于未被过滤掉的每一个候选实体对(e(1),e(2)),利用其基于三元组的向量表示和基于邻居信息的向量表示计算语义距离d(e(1),e(2)):
Figure FDF0000015684470000083
其中,δ为权重超参数,
Figure FDF0000015684470000084
Figure FDF0000015684470000085
分别为实体e(1)和e(2)基于三元组的向量表示,
Figure FDF0000015684470000086
Figure FDF0000015684470000087
分别为实体e(1)和e(2)基于邻居信息的向量表示;
对于KB1中的任意未匹配实体e(1),在KB2中选择与e(1)语义距离d(e(1),e(2))最小且小于一定阈值θtn的实体
Figure FDF0000015684470000088
作为其匹配实体。
CN201910568295.5A 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法 Active CN110413704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910568295.5A CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910568295.5A CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Publications (2)

Publication Number Publication Date
CN110413704A CN110413704A (zh) 2019-11-05
CN110413704B true CN110413704B (zh) 2022-05-03

Family

ID=68358389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910568295.5A Active CN110413704B (zh) 2019-06-27 2019-06-27 基于加权邻居信息编码的实体对齐方法

Country Status (1)

Country Link
CN (1) CN110413704B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103706A1 (en) * 2019-10-04 2021-04-08 Nec Laboratories America, Inc. Knowledge graph and alignment with uncertainty embedding
CN111125316B (zh) * 2019-12-26 2022-04-22 北京工业大学 一种融合多损失函数及注意力机制的知识库问答方法
CN111191462B (zh) * 2019-12-30 2022-02-22 北京航空航天大学 一种基于链路预测实现跨语言知识空间实体对齐方法及系统
CN111753024B (zh) * 2020-06-24 2024-02-20 河北工程大学 一种面向公共安全领域的多源异构数据实体对齐方法
CN112256882A (zh) * 2020-10-16 2021-01-22 美林数据技术股份有限公司 一种基于多重相似度的跨系统配网实体融合方法
CN112287123B (zh) * 2020-11-19 2022-02-22 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065B (zh) * 2021-02-01 2023-07-14 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113704495B (zh) * 2021-08-30 2024-05-28 合肥智能语音创新发展有限公司 实体对齐方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN108763376A (zh) * 2018-05-18 2018-11-06 浙江大学 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068024B2 (en) * 2012-02-01 2018-09-04 Sri International Method and apparatus for correlating and viewing disparate data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107480191A (zh) * 2017-07-12 2017-12-15 清华大学 一种迭代的实体对齐模型
CN108763376A (zh) * 2018-05-18 2018-11-06 浙江大学 融合关系路径、类型、实体描述信息的知识表示学习方法
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AHAB: Aligning heterogeneous knowledge bases via iterative blocking;Chen Ling等;《Information Processing & Management》;20180921;第56卷(第1期);全文 *
Knowledge representation learning with entity descriptions, hierarchical typse, and textual relations;Tang Xing等;《Information Processing & Management》;20190129;第56卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110413704A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413704B (zh) 基于加权邻居信息编码的实体对齐方法
Tan et al. Deep representation learning for social network analysis
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN113919441A (zh) 一种基于超图变换网络的分类方法
CN111210002B (zh) 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN112784913A (zh) 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置
CN113254663A (zh) 一种融合图卷积与翻译模型的知识图谱联合表示学习方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN114942998B (zh) 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
CN114036308A (zh) 基于图注意力神经网络的知识图谱表示方法
CN112884045A (zh) 基于多视角的随机删边嵌入模型的分类方法
Jiang et al. Exploiting node-feature bipartite graph in graph convolutional networks
Liao et al. View-consistent heterogeneous network on graphs with few labeled nodes
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN116226467A (zh) 基于节点结构特征的图卷积神经网络的社区发现方法
CN115564013B (zh) 提高网络表示学习表示能力的方法、模型训练方法和系统
CN115660882A (zh) 社交网络中用户间关系预测方法及多头混合聚合图卷积网络
CN112148998B (zh) 一种基于多核图卷积网络的在线社交平台用户好友推荐方法
Wang et al. Heterogeneous defect prediction algorithm combined with federated sparse compression
CN113792144A (zh) 基于半监督的图卷积神经网络的文本分类方法
Liang et al. Deep latent position model for node clustering in graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant