CN115391563A - 一种基于多源异构数据融合的知识图谱链路预测方法 - Google Patents

一种基于多源异构数据融合的知识图谱链路预测方法 Download PDF

Info

Publication number
CN115391563A
CN115391563A CN202211065570.XA CN202211065570A CN115391563A CN 115391563 A CN115391563 A CN 115391563A CN 202211065570 A CN202211065570 A CN 202211065570A CN 115391563 A CN115391563 A CN 115391563A
Authority
CN
China
Prior art keywords
graph
embedding
data
entity
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211065570.XA
Other languages
English (en)
Other versions
CN115391563B (zh
Inventor
陈平华
王清荷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211065570.XA priority Critical patent/CN115391563B/zh
Publication of CN115391563A publication Critical patent/CN115391563A/zh
Application granted granted Critical
Publication of CN115391563B publication Critical patent/CN115391563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

针对现有知识图谱的链路预测方法只关注三元组和图结构的信息,忽略了丰富的多模态信息的问题。本发明公开了一种基于多源异构数据融合的知识图谱链路预测的方法,利用文本信息、图片信息和知识图谱图结构信息进行链路预测。步骤包括:步骤1):获取待补全的知识图谱三元组数据、图片数据和文本描述数据;步骤2):融合知识图谱数据和图片数据构建多模态知识图;步骤3)对文本描述数据进行编码,获得三元组的文本嵌入;步骤4)对多模态知识图中的图结构数据进行编码,获得三元组的图结构嵌入;步骤5)对所有三元组进行采样;步骤6)通过图传播阶段更新实体和关系表示;步骤7)将上述编码操作后的数据输入卷积神经网络中,执行解码操作。

Description

一种基于多源异构数据融合的知识图谱链路预测方法
技术领域
本发明涉及知识图谱领域,主要涉及一种基于多源异构数据融合的知识图谱链路预测方法。
背景技术
知识图谱为广泛的智能应用提供了有效、结构化和优雅的现实世界知识表示,包括搜索引擎、推荐系统和问答。在知识图谱中,成对关系通常以vh、r、vt的形式表示为三元组,例如(北京,是首都,中国),这意味着“北京是中国的首都”。尽管知识图谱最近越来越流行,但众所周知,即使是最先进的知识图谱也存在不完整性。例如,据观察,在FreeBase中,超过70%的人实体的出生地未知,超过99%的人没有已知的种族,FreeBase是用于研究目的的最大和最广泛使用的知识图谱之一。这使得研究人员提出了各种将缺失知识添加到知识图谱中的技术,通常称为知识图完成任务。可以通过从外部来源提取新知识或从知识图谱中已有的知识推断缺失的知识来增长现有知识图谱。后一种方法称为链路预测,是我们研究的重点。
随着链路预测技术的发展,许多学者提出了不同种类的链路预测方法。最近的表示学习模型备受关注,绝大多数链路预测模型使用原始知识图谱元素来学习表示学习的低维表示。在这些模型中,图形表示学习模型(如GCN)成为其中一种主流。这些模型能够通过从其邻居收集信息将图结构合并到嵌入中。然而,以前的图形表示学习方法只保留了来自三元组和图结构的信息,而图片信息和文本描述大多被忽略,如何将这些多源异构数据融合并在链路预测中展现出贡献是我们亟需解决的问题。
发明内容
本发明的目的是提供一种基于多源异构数据融合的知识图谱链路预测方法,能够有效利用多模态信息完成知识图谱补全任务。
为实现上述目的,本发明提供了如下方案:
一种基于多源异构数据融合的知识图谱链路预测方法,包括:
步骤1:获取待补全的知识图谱三元组数据、图片数据和文本描述数据;
步骤2:构建多模态知识图。将步骤1获得的待补全的知识图谱三元组数据和图片数据输入神经网络中,得到关系表示和相同维度的初步实体表示,引入图片实体作为知识图谱的一级公民,构成多模态知识图。
步骤3:获得三元组的文本嵌入。将步骤1获取的文本描述数据输入文本编码组件中,使用BERT模型对数据进行编码,得到三元组的文本嵌入。
步骤4:获得三元组的图结构嵌入。将步骤2构建的多模态知识图输入广义图注意力网络中,得到三元组的图结构嵌入。
步骤5:采样阶段。使用采样策略对相邻三元组进行采样,得到实体/关系子集。
步骤6:图传播阶段。将步骤5采样后的三元组的图结构嵌入输入门控图神经网络中,得到更新后的实体的向量表示,并对关系集的关系矩阵应用线性变换来统一关系嵌入和实体嵌入的维度。
步骤7:解码阶段。将步骤2-6编码阶段编码的数据输入解码器中,执行解码操作。解码器以端到端的方式执行链路预测任务中待补全的知识图谱。
进一步地,所述步骤1中,获取待补全的知识图谱三元组数据、图片数据和文本描述数据的具体方法包括:
步骤1.1、获取知识图谱三元组数据K;
步骤1.2、获取与步骤1.1中知识图谱三元组实体相关的图片数据G,并将图片大小统一为224*224;
步骤1.3、获取与待预测实体相关的文本描述数据T。
进一步地,所述步骤2中,构建多模态知识图的具体方法包括:
步骤2.1、将步骤1获取的图片数据G输入深度卷积网络(如VGG16)得到高维图片特征嵌入;
步骤2.2、将高维图片特征数据输入主成分分析算法(PCA),得到低维图片特征嵌入Gt
步骤2.3、将步骤1获取的知识图谱三元组数据K输入嵌入层得到初步实体嵌入向量;
步骤2.4、将步骤2.3中的初步实体嵌入向量输入全连接层,得到与步骤2.2中低维图片特征嵌入相同维度的实体嵌入向量Kt
步骤2.5、引入图片数据G中的实体作为待预测知识图谱的一级公民,构成多模态知识图MKG。
进一步地,所述步骤3中,获得三元组的文本嵌入的具体方法包括:
步骤3.1、用BERT作文本编码器,将步骤1中获取的文本描述数据T输入BERT模型,以生成实体和关系的上下文感知表示。为了便于区分,我们将此步骤中的头实体vh、关系r和尾实体vt的输出嵌入依次标记为
Figure BDA0003828264400000031
rT
Figure BDA0003828264400000032
步骤3.2、三元组t的文本嵌入tT由以下部分组成:
Figure BDA0003828264400000033
进一步地,所述步骤4中,获得三元组的图结构嵌入的具体方法包括:
步骤4.1、将单个相邻三元组t=(vh,r,vt)初始参数化为:
Figure BDA0003828264400000034
其中cG是潜在表示,W2是线性变换矩阵,
Figure BDA0003828264400000035
rG
Figure BDA0003828264400000036
表示门控图神经网络的vh、r和vt的输入嵌入;
步骤4.2、在涉及邻域的所有三元组上使用softmax函数计算相对重要性分数。该过程的公式定义如下:
Figure BDA0003828264400000041
其中
Figure BDA0003828264400000042
表示第i个相邻三元组ti的相对重要性分数,W3是遵循类似LeakyReLU的激活函数σ的权重矩阵。
步骤4.3、通过将所有相邻三元组的总和按其相对重要性得分加权,获得节点v的聚合嵌入:
Figure BDA0003828264400000043
上述使用的是原始广义图注意力网络的简化版,只考虑一跳邻域。
步骤4.4、使用以下等式构造输出关系嵌入:
Figure BDA0003828264400000044
其中
Figure BDA0003828264400000045
是线性变换。RG是通过将输入关系嵌入从
Figure BDA0003828264400000046
连接到
Figure BDA0003828264400000047
生成的输出关系嵌入。
步骤4.5、对于每个三元组t,图结构嵌入可以表示为:
Figure BDA0003828264400000048
进一步地,所述步骤5中,采用定长抽样的方法,具体来说,定义需要的邻居个数S,然后采用有放回的重采样/负采样方法达到S。保证每个节点(采样后的)邻居个数一致是为了把多个节点以及他们的邻居拼成Tensor送到GPU中进行批训练。最后得到三元组t的邻域子集
Figure BDA0003828264400000049
进一步地,所述步骤6中,图传播阶段的具体方法包括:
步骤6.1、将实体和关系的嵌入投影到相同的语义空间中:
Figure BDA0003828264400000051
Figure BDA0003828264400000052
其中VT,RT来自步骤3的BERT,VG,RG来自步骤4的广义图注意力网络,
Figure BDA0003828264400000053
是实体的投影矩阵,
Figure BDA0003828264400000054
是关系的投影矩阵。
步骤6.2、对于步骤5采样后得到的邻域子集,我们根据
Figure BDA0003828264400000055
中三元组的注意力值构造邻接矩阵。实体嵌入
Figure BDA0003828264400000056
的更新过程与门控图神经网络相同(Li et al.,2016):
Figure BDA0003828264400000057
Figure BDA0003828264400000058
Figure BDA0003828264400000059
Figure BDA00038282644000000510
Figure BDA00038282644000000511
其中,adjn是实体
Figure BDA00038282644000000512
的邻接矩阵,它决定了图中的节点如何相互通信,
Figure BDA00038282644000000513
是在前一个时间步长t-1的实体。
Figure BDA00038282644000000514
表示实体
Figure BDA00038282644000000515
与其邻居交互的边上的影响。σ是sigmoid激活函数,输出的分数在0-1范围内。设
Figure BDA00038282644000000516
Figure BDA00038282644000000517
分别表示更新门和重置门。Wz、Hz、Wr、Hr、Wo和Ho是训练期间要学习的参数。其余的是类似GRU的更新,包含来自其他节点和前一个时间步的信息。更新门控制来自先前隐藏状态的信息对当前隐藏状态的影响程度,重置门允许模型丢弃不相关的信息,⊙表示按元素乘法的运算。
步骤6.3、更新MKG中所有实体的向量表示。嵌入子图作为中心实体v的最终向量表示:
Figure BDA00038282644000000518
步骤6.4、通过对关系集
Figure BDA00038282644000000519
的关系矩阵应用线性变换,将关系嵌入和实体嵌入的维度统一为:
Figure BDA0003828264400000061
进一步地,所述步骤7中,采用ConvKB进行解码,ConvKB可以通过应用卷积神经网络捕捉全局关系以及实体和关系之间的过渡特征,ConvKB中的卷积层使用多个滤波器来生成不同的特征图。其中,为了检查一个三元组是否有效,ConvKB还为每个三元组定义了一个不可信分数,定义为:
fD(t)=Concat(ReLU([vh,r,vj]*Ω))·W
其中Ω是表示卷积滤波器的超参数。*表示卷积运算。然后,将不同的特征映射连接到单个向量中(关系和实体的嵌入大小为n),并且与权重向量
Figure BDA0003828264400000062
进行点积操作。我们使用Adam优化器来训练模型:
Figure BDA0003828264400000063
其中,权重向量W上进行L2范数正则化,t∈ε,It=1;t∈ε′,It=-1。
本发明的有益效果为:
本发明有效挖掘多模态信息,利用文本信息、图片信息和知识图谱图结构信息,将三种源异构数据进行有效融合,使得实体和关系的表征更加丰富,能够更加精确地表示实体,该发明显著提高了链路预测的效果。
附图说明
图1是本发明提供的多源异构数据融合的知识图谱链路预测流程图;
图2是本发明提出的生成实体和关系嵌入的模型框架图;
图3是本发明提出的生成多模态知识图的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面通过实例具体结合附图对本发明作进一步详细描述。
如图1所示,一种基于多源异构数据融合的知识图谱链路预测方法,包含以下步骤:
步骤1、获取待补全的知识图谱三元组数据K、图片数据G和文本描述数据T。其中,图片数据G和文本描述数据T是与知识图谱三元组数据K中实体相关的图片及文本描述数据。
然后,为了统一后续步骤2中的图片输入大小,将获取到的图片数据G大小统一为224*224。
步骤2、构建多模态知识图:
先将步骤1获取的图片数据G输入深度卷积网络(如VGG16)得到高维图片特征嵌入,然后,为了在保留图片数据的特征的同时降低数据维度,再将得到的高维图片特征嵌入输入主成分分析算法(PCA),得到低维图片特征嵌入Gt
同时,将步骤1获取的知识图谱三元组数据K输入嵌入层得到初步实体嵌入向量。然后,将得到的初步实体嵌入向量输入全连接层,得到与步骤2.2中地位图片特征嵌入相同维度的实体嵌入向量Kt
最后,引入图片数据G中的实体作为知识图谱的一级公民,构成多模态知识图MKG。
步骤3、获得三元组的文本嵌入:
用BERT作文本编码器,将文本描述数据T输入BERT模型,以生成实体和关系的上下文感知表示。具体来说,对于三元组t=(vh,r,vt),我们将实体或关系打包为[CLS,S,SEP],其中“[CLS]”和“[SEP]”分别是表示“分类”和句子分隔符的特殊标记。S是由BERT标记器生成的实体/关系文本描述的标记序列。我们得到了BERT位于“[CLS]”位置的输出
Figure BDA0003828264400000071
作为句子表示,其中l是句子长度,n表示嵌入维数。其中,三元组t的文本嵌入tT由以下部分组成:
Figure BDA0003828264400000081
其中W为可学习参数,
Figure BDA0003828264400000082
rT
Figure BDA0003828264400000083
依次为头实体vh、关系r和尾实体vt的输出嵌入。
步骤4、获得三元组的图结构嵌入:
将多模态知识图MKG输入广义图注意力网络中,得到三元组的图结构嵌入。首先,将MKG中单个相邻三元组t=(vh,r,vt)初始参数化。初始参数化的计算公式为:
Figure BDA0003828264400000084
其中cG是潜在表示,W2是线性变换矩阵,
Figure BDA0003828264400000085
rG
Figure BDA0003828264400000086
表示广义图注意力网络的三元组头实体vh、关系r和尾实体vt的输入嵌入。
然后,将所有初始参数化后的三元组进行softmax归一化操作,具体计算公式为:
Figure BDA0003828264400000087
其中
Figure BDA0003828264400000088
表示第i个相邻三元组ti的相对重要性分数,
Figure BDA0003828264400000089
表示相邻三元组的集合,W3是遵循类似LeakyReLU的激活函数σ的权重矩阵。
然后,将所有相邻三元组的总和按其相对重要性得分加权,获得节点v的聚合嵌入vG。具体计算公式为:
Figure BDA00038282644000000810
需要注意的是,上述使用的是原始广义图注意力网络的简化版,只考虑一跳邻域。
同时,构造输出关系嵌入。具体计算公式为:
Figure BDA0003828264400000091
其中
Figure BDA0003828264400000092
是线性变换。RG是通过将输入关系嵌入从
Figure BDA0003828264400000093
连接到
Figure BDA0003828264400000094
生成的输出关系嵌入。
最后,生成每个三元组t的图结构嵌入tG。具体计算公式为:
Figure BDA0003828264400000095
步骤5、对三元组
Figure BDA0003828264400000096
进行采样,得到t采样后的相邻三元组集合
Figure BDA0003828264400000097
可考虑采用定长抽样的方法,具体来说,定义需要的邻居个数S,然后采用有放回的重采样/负采样方法达到S。保证每个节点(采样后的)邻居个数一致是为了把多个节点以及他们的邻居拼成Tensor送到GPU中进行批训练。最后得到三元组t的邻域子集
Figure BDA0003828264400000098
步骤6、将步骤5采样后的三元组图结构嵌入输入门控图神经网络中,得到更新后的实体的向量表示,并对关系集的关系矩阵应用线性变换来统一关系嵌入和实体嵌入的维度。为了能够有效聚合三种模态的数据,将实体和关系的嵌入投影到相同的语义空间中。具体计算公式为:
Figure BDA0003828264400000099
Figure BDA00038282644000000910
其中VT,RT来自步骤3的BERT,VG,RG来自步骤4的广义图注意力网络,
Figure BDA00038282644000000911
是实体的投影矩阵,
Figure BDA00038282644000000912
是关系的投影矩阵。
再根据采样后的领域子集
Figure BDA00038282644000000913
中三元组的注意力值构造邻接矩阵adjn。然后通过门控机制更新实体嵌入,具体计算公式为:
Figure BDA0003828264400000101
Figure BDA0003828264400000102
Figure BDA0003828264400000103
Figure BDA0003828264400000104
Figure BDA0003828264400000105
其中,adjn是实体
Figure BDA0003828264400000106
的邻接矩阵,它决定了图中的节点如何相互通信,
Figure BDA0003828264400000107
是在前一个时间步长t-1的实体。
Figure BDA0003828264400000108
表示实体
Figure BDA0003828264400000109
与其邻居交互的边上的影响。σ是sigmoid激活函数,输出的分数在0-1范围内。设
Figure BDA00038282644000001010
Figure BDA00038282644000001011
分别表示更新门和重置门。Wz、Hz、Wr、Hr、Wo和Ho是训练期间要学习的参数。其余的是类似GRU的更新,包含来自其他节点和前一个时间步的信息。更新门控制来自先前隐藏状态的信息对当前隐藏状态的影响程度,重置门允许模型丢弃不相关的信息,⊙表示按元素乘法的运算。
然后,通过上述公式更新MKG中所有实体的向量表示。最后,得到嵌入子图作为中心实体v的最终向量表示。具体公式为:
Figure BDA00038282644000001012
为了将关系嵌入和实体嵌入的维度统一,对关系集
Figure BDA00038282644000001013
的关系矩阵应用线性变换,得到更新后的关系矩阵
Figure BDA00038282644000001014
具体计算公式为:
Figure BDA00038282644000001015
其中,
Figure BDA00038282644000001016
为可学习参数,
Figure BDA00038282644000001017
为关系集
Figure BDA00038282644000001018
中的关系矩阵。
步骤7、将步骤2-6编码阶段编码的数据输入解码器中,进行解码操作。为了通过应用卷积神经网络捕捉全局关系以及实体和关系之间的过渡特征,采用ConvKB进行解码,ConvKB中的卷积层使用多个滤波器来生成不同的特征图。其中,为了检查一个三元组是否有效,ConvKB还为每个三元组定义了一个不可信分数,定义不可信分数的具体计算公式为:
fD(t)=Concat(ReLU([vh,r,vj]*Ω))·W
其中Ω是表示卷积滤波器的超参数。*表示卷积运算。然后,将不同的特征映射连接到单个向量中(关系和实体的嵌入大小为n),并且与权重向量W∈R|Ω|n×1进行点积操作。同时,我们使用Adam优化器来训练模型。具体优化函数为:
Figure BDA0003828264400000111
其中,权重向量W上进行L2范数正则化,t∈ε,It=1;t∈ε′,It=-1。

Claims (8)

1.一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于包括以下步骤:
1)获取待补全的知识图谱三元组数据、图片数据和文本描述数据;
2)融合知识图谱数据和图片数据构建多模态知识图;
3)对文本描述数据进行编码,获得三元组的文本嵌入;
4)对多模态知识图中的图结构数据进行编码,获得三元组的图结构嵌入;
5)对所有三元组进行采样;
6)通过图传播阶段更新实体和关系表示;
7)将上述编码操作后的数据输入卷积神经网络中,执行解码操作。
2.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤1)中:所述获取数据过程具体步骤为:
1)获取知识图谱三元组数据K;
2)获取与知识图谱三元组实体相关的图片数据G,并将图片大小统一为224*224;
3)获取与待预测实体相关的文本描述数据T。
3.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤2)中:所述构建多模态知识图过程的具体步骤为:
1)将获取的图片数据G输入深度卷积网络(如VGG16)得到高维图片特征嵌入;
2)将高维图片特征数据输入主成分分析算法(PCA),得到低维图片特征嵌入Gt
3)将获取的知识图谱三元组数据K输入嵌入层得到初步实体嵌入向量;
4)将上述初步实体嵌入向量输入全连接层,得到与图片特征嵌入相同维度的实体嵌入向量Kt
5)引入图片数据G中的实体作为待预测知识图谱的一级公民,由知识图谱三元组数据和图片数据构成多模态知识图MKG。
4.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤3)中:所述获得三元组的文本嵌入过程的具体步骤为:
1)用BERT作文本编码器,对文本描述数据T进行编码;
2)三元组t的文本嵌入tT由以下部分组成:
Figure FDA0003828264390000021
其中三元组头实体vh、关系r和尾实体vt的输出嵌入依次标记为
Figure FDA0003828264390000022
rT
Figure FDA0003828264390000023
5.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤4)中:所述获得三元组的图结构嵌入过程的具体步骤为:
1)将单个相邻三元组t=(vh,r,vt)初始参数化为:
Figure FDA0003828264390000024
其中cG是潜在表示,W2是线性变换矩阵,
Figure FDA0003828264390000025
rG
Figure FDA0003828264390000026
表示门控图神经网络的vh、r和vt的输入嵌入;
2)在涉及邻域的所有三元组上使用softmax函数计算相对重要性分数;该过程的公式定义如下:
Figure FDA0003828264390000027
其中
Figure FDA0003828264390000028
表示第i个相邻三元组ti的相对重要性分数,W3是遵循类似LeakyReLU的激活函数σ的权重矩阵;
3)通过将所有相邻三元组的总和按其相对重要性得分加权,获得节点v的聚合嵌入:
Figure FDA0003828264390000031
上述使用的是原始广义图注意力网络的简化版,只考虑一跳邻域;
4)使用以下等式构造输出关系嵌入:
Figure FDA0003828264390000032
其中
Figure FDA0003828264390000033
是线性变换,RG是通过将输入关系嵌入从
Figure FDA0003828264390000034
连接到
Figure FDA0003828264390000035
生成的输出关系嵌入;
5)对于每个三元组t,图结构嵌入可以表示为:
Figure FDA0003828264390000036
6.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤5)中:所述采样过程采用定长抽样的方法,具体来说,定义需要的邻居个数S,然后采用有放回的重采样/负采样方法达到S,最后得到三元组t的邻域子集
Figure FDA0003828264390000037
7.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤6)中:所述图传播过程的具体步骤为:
1)将实体和关系的嵌入投影到相同的语义空间中:
Figure FDA0003828264390000038
Figure FDA0003828264390000039
其中VT,RT来自步骤3的BERT,VG,RG来自步骤4的广义图注意力网络,
Figure FDA00038282643900000310
是实体的投影矩阵,
Figure FDA00038282643900000311
是关系的投影矩阵;
2)对于步骤5采样后得到的邻域子集,我们根据
Figure FDA00038282643900000312
中三元组的注意力值构造邻接矩阵;实体嵌入
Figure FDA00038282643900000313
的更新过程与门控图神经网络相同(Li et al.,2016):
Figure FDA0003828264390000041
Figure FDA0003828264390000042
Figure FDA0003828264390000043
Figure FDA0003828264390000044
Figure FDA0003828264390000045
其中,adjn是实体
Figure FDA00038282643900000414
的邻接矩阵,它决定了图中的节点如何相互通信,
Figure FDA0003828264390000046
是在前一个时间步长t-1的实体;
Figure FDA0003828264390000047
表示实体
Figure FDA0003828264390000048
与其邻居交互的边上的影响,σ是sigmoid激活函数,输出的分数在0-1范围内;设
Figure FDA0003828264390000049
Figure FDA00038282643900000410
分别表示更新门和重置门;Wz、Hz、Wr、Hr、Wo和Ho是训练期间要学习的参数;其余的是类似GRU的更新,包含来自其他节点和前一个时间步的信息;更新门控制来自先前隐藏状态的信息对当前隐藏状态的影响程度,重置门允许模型丢弃不相关的信息,⊙表示按元素乘法的运算;
3)更新MKG中所有实体的向量表示;嵌入子图作为中心实体v的最终向量表示:
Figure FDA00038282643900000411
4)通过对关系集
Figure FDA00038282643900000412
的关系矩阵应用线性变换,将关系嵌入和实体嵌入的维度统一为:
Figure FDA00038282643900000413
8.根据权利要求1所述的一种基于多源异构数据融合的知识图谱链路预测方法,其特征在于步骤7)中:所述解码过程采用ConvKB进行解码,其中,ConvKB还为每个三元组定义了一个不可信分数,定义为:
fD(t)=Concat(ReLU([vh,r,vj]*Ω))·W
其中Ω是表示卷积滤波器的超参数,*表示卷积运算,然后,将不同的特征映射连接到单个向量中(关系和实体的嵌入大小为n),并且与权重向量W∈R|Ω|n×1进行点积操作,我们使用Adam优化器来训练模型:
Figure FDA0003828264390000051
其中,权重向量W上进行L2范数正则化,t∈ε,It=1;t∈ε′,It=-1。
CN202211065570.XA 2022-09-01 2022-09-01 一种基于多源异构数据融合的知识图谱链路预测方法 Active CN115391563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211065570.XA CN115391563B (zh) 2022-09-01 2022-09-01 一种基于多源异构数据融合的知识图谱链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211065570.XA CN115391563B (zh) 2022-09-01 2022-09-01 一种基于多源异构数据融合的知识图谱链路预测方法

Publications (2)

Publication Number Publication Date
CN115391563A true CN115391563A (zh) 2022-11-25
CN115391563B CN115391563B (zh) 2024-02-06

Family

ID=84125320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211065570.XA Active CN115391563B (zh) 2022-09-01 2022-09-01 一种基于多源异构数据融合的知识图谱链路预测方法

Country Status (1)

Country Link
CN (1) CN115391563B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341721A (zh) * 2023-03-02 2023-06-27 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN117610662A (zh) * 2024-01-19 2024-02-27 江苏天人工业互联网研究院有限公司 一种通过gat提取代表性子图信息的知识图谱嵌入方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN111460165A (zh) * 2019-12-06 2020-07-28 北京沃东天骏信息技术有限公司 用于知识图谱链接预测的方法、装置和计算机可读存储介质
CN111523589A (zh) * 2020-04-21 2020-08-11 华北电力大学(保定) 一种基于栓母对知识图谱的螺栓缺陷分类方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112561064A (zh) * 2020-12-21 2021-03-26 福州大学 基于owkbc模型的知识库补全方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113377968A (zh) * 2021-08-16 2021-09-10 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN114021722A (zh) * 2021-10-30 2022-02-08 华中师范大学 一种融合认知刻画的注意力知识追踪方法
CN114064627A (zh) * 2021-11-24 2022-02-18 北京工商大学 一种针对多重关系的知识图谱链接补全方法及系统
CN114579756A (zh) * 2022-02-15 2022-06-03 南京航空航天大学 一种基于加强实体结构特征表示学习的链接预测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN111460165A (zh) * 2019-12-06 2020-07-28 北京沃东天骏信息技术有限公司 用于知识图谱链接预测的方法、装置和计算机可读存储介质
CN111523589A (zh) * 2020-04-21 2020-08-11 华北电力大学(保定) 一种基于栓母对知识图谱的螺栓缺陷分类方法
CN111538848A (zh) * 2020-04-29 2020-08-14 华中科技大学 一种融合多源信息的知识表示学习方法
CN112561064A (zh) * 2020-12-21 2021-03-26 福州大学 基于owkbc模型的知识库补全方法
CN112633478A (zh) * 2020-12-31 2021-04-09 天津大学 一种基于本体语义的图卷积网络学习模型的构建
CN113360664A (zh) * 2021-05-31 2021-09-07 电子科技大学 一种知识图谱补全方法
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113377968A (zh) * 2021-08-16 2021-09-10 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN114021722A (zh) * 2021-10-30 2022-02-08 华中师范大学 一种融合认知刻画的注意力知识追踪方法
CN114064627A (zh) * 2021-11-24 2022-02-18 北京工商大学 一种针对多重关系的知识图谱链接补全方法及系统
CN114579756A (zh) * 2022-02-15 2022-06-03 南京航空航天大学 一种基于加强实体结构特征表示学习的链接预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈平华;朱禹;: "融合知识图谱表示学习和矩阵分解的推荐算法", 计算机工程与设计, no. 10 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341721A (zh) * 2023-03-02 2023-06-27 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN116341721B (zh) * 2023-03-02 2023-10-31 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN117610662A (zh) * 2024-01-19 2024-02-27 江苏天人工业互联网研究院有限公司 一种通过gat提取代表性子图信息的知识图谱嵌入方法

Also Published As

Publication number Publication date
CN115391563B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN115391563B (zh) 一种基于多源异构数据融合的知识图谱链路预测方法
CN110413844A (zh) 基于时空注意力深度模型的动态链路预测方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN109299216A (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN111291212A (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111709474A (zh) 一种融合拓扑结构和节点属性的图嵌入链路预测方法
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN112560432A (zh) 基于图注意力网络的文本情感分析方法
CN112308326A (zh) 一种基于元路径和双向编码器的生物网络链接预测方法
CN115346372B (zh) 一种基于图神经网络的多组件融合交通流量预测方法
CN112256870A (zh) 基于自适应随机游走的属性网络表示学习方法
CN116168548A (zh) 一种基于多特征融合的时空注意图卷积网络的交通流预测方法
CN115862747A (zh) 一种序列-结构-功能耦合的蛋白质预训练模型构建方法
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN115376317A (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
CN114822874A (zh) 一种基于特征偏差对齐的方剂功效分类方法
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN117131933A (zh) 一种多模态知识图谱建立方法及应用
CN117116048A (zh) 基于知识表示模型和图神经网络的知识驱动交通预测方法
CN116864031A (zh) 一种基于rgda-ddi的药物-药物相互作用预测方法
CN116525029A (zh) 一种基于流模型的分子图生成方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant