CN109829057B - 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 - Google Patents

一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 Download PDF

Info

Publication number
CN109829057B
CN109829057B CN201910027549.2A CN201910027549A CN109829057B CN 109829057 B CN109829057 B CN 109829057B CN 201910027549 A CN201910027549 A CN 201910027549A CN 109829057 B CN109829057 B CN 109829057B
Authority
CN
China
Prior art keywords
entity
graph
vector
order similarity
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910027549.2A
Other languages
English (en)
Other versions
CN109829057A (zh
Inventor
万海
夏勇涛
曾娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910027549.2A priority Critical patent/CN109829057B/zh
Publication of CN109829057A publication Critical patent/CN109829057A/zh
Application granted granted Critical
Publication of CN109829057B publication Critical patent/CN109829057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于图二阶相似性的知识图谱实体语义空间嵌入方法,包括步骤:(1)输入知识图谱数据集、最大迭代次数;(2)通过一、二阶相似性特征嵌入处理,通过图注意力机制考虑实体之间联系,计算一、二阶相似性向量表示,得到一、二阶相似性语义空间嵌入表示;(3)对实体最终的一阶相似性向量和二阶相似性向量加权求和,得到实体最终的向量表示,输入翻译模型计算损失值,得到图注意力网络、图神经网络残差,并迭代网络模型;(4)对网络模型进行链接预测和分类测试。本发明首次提出运用图注意力机制挖掘实体之间的联系,专利在知识图谱的链接预测和分类等应用领域上都取得了较好的效果。

Description

一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
技术领域
本发明属于知识图谱技术领域,更具体地,涉及一种基于图二阶相似性的知识图谱实体语义空间嵌入方法。
背景技术
随着互联网技术的飞速发展,每天都会产生大量的数据,如何从海量的数据中提取和利用有价值的信息成为一个有挑战的问题,因此谷歌提出了知识图谱的概念。知识图谱的本质是一个有向图,它由头部实体、关系和尾部实体构成的三元组组成,例如(北京,是......首都,中国);实体是知识图谱中的点,关系是知识图谱中的有向边,它们共同组成了知识图谱的有向图结构。知识图谱记录了实体和实体之间的关系,实现了海量数据的结构化表示,目前被广泛应用于信息检索、智能问答等多个领域。在构建知识图谱的过程中,不能完全收集齐实体的所有关系,所以知识图谱会存在不完整的问题,知识图谱补全技术就是通过现有的图谱信息获得更完整的图谱,知识图谱补全主要通过表示学习的方法进行。
知识图谱的表示学习方法近年来吸引了很多研究学者的关注,对实体和关系向量化后,能应用到知识图谱补全和实体相似度计算等任务中。Bordes等人提出TransE翻译模型,学习目标是使得头部实体向量与关系向量的和与尾部向量接近;Takuo等人提出一个基于图神经网络的知识图谱补全模型,利用实体的邻居实体向量在关系空间上的投影的均值作为实体的向量表示,再运用TransE模型的学习目标进行学习,由于该方法用邻居向量表示实体向量,所以能处理新增实体的补全问题,也就是当知识图谱新增实体时,不必重新训练整个图谱的向量,通过邻居向量得到新增实体的向量表示,然后对新实体进行补全。
知识图谱模型检验主要有两种方法:链接预测和分类测试。链接预测是训练好知识图谱实体和关系的向量后,随机替换测试集中正例的头部实体或尾部实体,产生反例,计算正例在所有产生的正反三元组中的平均排名,排名越靠前证明补全的效果越好。分类测试是指模型设定好阈值和目标函数,给定新的三元组,通过模型的目标函数和阈值判断新三元组是正例或反例,准确率越高分类效果越好。
但是目前知识图谱的表示学习方法仅仅考虑图结构的一阶相似性,存在以下问题:
(1)目前的知识图谱的表示学习方法仅考虑图结构一阶相似性,即与实体直接相连的邻居实体相似的实体有相似的向量化表示,但是忽略了与实体相连的其他实体的特征;
(2)本发明提出的二阶相似性是附近实体相似的实体向量也应该趋向于相似,附近实体是在实体附近跳跃采样的实体,引入二阶相似性可以将邻居信息引入知识图谱表示学习,丰富其特征;
(3)由于目前大部分的知识图谱实体表示学习方法仅考虑到了图结构的一阶相似性特征,涉及邻居特征抽取的链接预测与分类特征实验效果都不理想。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),本发明提供一种基于图二阶相似性的知识图谱实体语义空间嵌入方法,综合考虑图结构的一阶、二阶相似性,并运用图注意力机制挖掘实体之间的联系,在知识图谱的链接预测和分类测试上都取得了较好的效果。
本发明采用如下技术方案实现:一种基于图二阶相似性的知识图谱实体语义空间嵌入方法,包括步骤:
S1、输入知识图谱数据集、最大迭代次数,初始化;在所输入的知识图谱数据集中,每个知识图谱中的三元组记为(h,r,t),其中h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系,实体表示为e;
S2、通过一阶相似性特征嵌入处理,优选地,通过图注意力机制考虑实体之间的联系,计算实体的一阶相似性向量表示,得到实体的一阶相似性语义空间嵌入表示;
S3、通过二阶相似性特征嵌入处理,优选地,根据二阶相似性采样取得的特征实体,结合图注意力机制所考虑的实体之间的联系,计算实体的二阶相似性向量表示,得到实体的二阶相似性语义空间嵌入表示;
S4、优选地,对实体e最终的一阶相似性向量和二阶相似性向量加权求和,得到实体最终的向量表示,输入翻译模型计算损失值,得到图注意力网络、图神经网络的残差,并迭代图注意力网络、图神经网络的模型;
S5、对图注意力网络、图神经网络的模型,进行链接预测和分类测试。
在优选的实施例中,上述方法还包括步骤:对知识图谱的增量实体进行补全。知识图谱的增量实体补全方法包括:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和带有一个增量实体的外部三元组集合;
(2)通过实体的邻居实体求得一阶相似性向量,代入图神经网络和图注意力网络计算得到该实体的一阶相似性向量;
(3)对增量实体进行二阶相似性实体采样,加权求和一、二阶相似性向量得到增量实体的向量表示;
(4)对增量实体进行链接预测或分类测试,观测增量实体表示学习的效果。
与现有技术相比,本发明具有如下优点及有益效果:
1、本发明知识图谱实体语义空间嵌入方法综合考虑图结构的一阶、二阶相似性特征,采用结合广度和深度优先的采样方式获得实体的二阶相似性附近实体,用图神经网络对每个实体的一阶、二阶相似性实体进行编码,同时运用图注意力网络计算实体之间的联系,从而获得更好的向量表示。
2、本发明更好地利用了图结构的特征,使实体更好地向低维语义空间嵌入;并因为实体的向量可以由邻居和附近语义空间向量得出,所以可以通过原有的实体语义空间向量得到增量实体的语义空间向量,解决增量实体的语义空间嵌入问题。
3、本发明可以处理对知识图谱的增量实体进行补全,增量实体在知识图谱的链接预测和分类测试上也取得了较好的效果。
附图说明
图1为本发明实体语义空间嵌入方法的流程图;
图2为本发明二阶相似性实体采样流程图;
图3为本发明图注意力网络的模型框图;
图4为本发明评价方法之一链接预测流程图;
图5为本发明评价方法之二分类预测流程图;
图6为本发明增量实体的处理方法流程图。
具体实施方式
下面通过附图和实施例对本发明作进一步详细的描述,但本发明的实施方式并不限于此。
本发明为综合考虑知识图谱中图结构的一阶和二阶相似性的表示学习方法,把知识图谱中的实体和关系映射成低维向量,运用低维向量进行知识图谱补全和三元组分类。首先根据图神经网络编码图结构的一阶相似性,将邻居实体向量投影到与实体直接相连的关系矩阵空间中,再求所有投影到关系矩阵空间的邻居的平均值来表示实体初步的一阶相似性向量,将实体初步的一阶相似性向量和各个邻居实体向量放入图注意力网络计算权重,各个邻居实体向量与权重相乘之后加权求和得到实体最终的一阶相似性向量;再使用结合广度优先和深度优先的采样方法在实体附近采样,得到实体附近的实体,同样通过图神经网络将附近的实体投影到相连的关系空间中,并求均值得到实体初步的二阶相似性向量,再把这个实体初步的二阶相似性向量与各个实体附近实体的向量放进图注意力网络计算权重,权重参数与投影到关系空间的附近实体向量相乘的加权和为实体最终的二阶相似性向量。将实体最终的一阶相似性向量和二阶相似性向量结合得到最后的实体向量表示,最后把得到的实体向量表示和关系向量放入TransE翻译模型中进行学习。采用链接预测和分类测试两个任务对得到的向量的表示能力进行评价。
本发明基于图二阶相似性的知识图谱实体语义空间嵌入方法,如图1所示,包括以下步骤:
S1、输入知识图谱数据集、最大迭代次数,初始化。
知识图谱数据集包括训练集、测试集和验证集。在所输入的知识图谱数据集中,每个知识图谱中的三元组记为(h,r,t),其中h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系。实体表示为e,实体向量集合为E,关系向量集合为R。实体的邻居定义如下:给定一个实体e,实体e的一阶相似性邻居实体集合记为
Figure BDA0001943042570000041
二阶相似性邻居实体集合记为
Figure BDA0001943042570000042
每个关系对应一个语义矩阵,用于不同的实体在相连的关系语义矩阵投影,以获得不同实体在不同关系上不同的语义向量表示,关系语义矩阵投影集合为ΠR。步骤S1具体为:
(1)输入知识图谱数据集的三元组(h,r,t)、实体向量集合E、关系向量集合R、最大迭代次数、实体向量维度和关系向量维度、图注意力网络个数、控制二阶附近实体采样深度参数p和广度幅度参数p、需要采集的二阶向量个数、一二阶相似性向量加权求和的权重参数λ。
(2)预处理得到知识图谱数据集中每个实体e的一阶邻居实体集合,实体e的一阶头邻居为:
Figure BDA0001943042570000043
实体e的一阶尾邻居为:
Figure BDA0001943042570000044
实体e对应的邻居集合
Figure BDA0001943042570000045
并记录与邻居实体相连的关系,用于将实体投影到相连的关系语义矩阵空间。
(3)预处理得到知识图谱数据集中每个实体e的二阶附近实体集合,结合广度优先搜索和深度优先搜索在每个实体e附近进行采样。从实体e出发在实体e附近采样实体,通过参数p、q确定深度优先搜索和广度优先搜索的幅度。
如图2所示,假设已经跳跃到了实体ei,以1/p的权重表示跳回到原节点ei-1,也就是p越小,回跳的概率就越大,以1的权重表示保持原节点不同,每一个邻居的跳跃权重都是1/q,可以看出当q越小,跳往下一个邻居的权重就比较大,将所有的权值加起来归一化得到训练时各个实体的跳跃概率,对于一个实体e,它的所有采样得到的二阶相似性邻居实体集合记为
Figure BDA0001943042570000046
(4)对实体向量、关系向量、关系语义矩阵投影、图注意力网络进行随机初始化。
S2、通过一阶相似性特征嵌入处理,同时通过图注意力机制考虑实体之间的联系,计算实体的一阶相似性向量表示,得到实体的一阶相似性语义空间嵌入表示。
对于实体e,与它相连的关系为r,它的一阶相似性邻居实体集合为
Figure BDA0001943042570000047
从一阶相似性邻居实体集合中取出邻居实体n,并取出邻居实体n与实体e实体相连的关系r对应的关系语义矩阵Ar,将邻居实体n对应的向量vn投影到关系语义矩阵Ar上让它在不同关系下有不同的表示,经过批标准化BN和激活函数ReLU之后得到邻居实体的向量表示。一阶相似性向量在关系语义矩阵下的投影表示如下:
Figure BDA0001943042570000051
转换后的邻居实体向量集合记为
Figure BDA0001943042570000052
设一共有K个一阶相似性邻居实体,将所有的邻居实体向量相加并求均值得到实体e初步的一阶相似性向量
Figure BDA0001943042570000053
Figure BDA0001943042570000054
将实体e初步的一阶相似性向量
Figure BDA0001943042570000055
和邻居实体向量集合
Figure BDA0001943042570000056
放进图注意力网络计算权值,如图3所示,将实体初步的一阶相似性向量
Figure BDA0001943042570000057
与邻居实体向量集合
Figure BDA0001943042570000058
中的K个向量逐个拼接,放入单层全连接神经网络相乘,相乘之后得到各个权重系数,将所有权重系数做一个softmax归一化处理得到图注意力网络所计算出的权重参数,其中一个单层全连接神经网络的注意力系数
Figure BDA0001943042570000059
计算如下:
Figure BDA00019430425700000510
其中W1是单层全连接神经网络的参数,||表示两个向量的拼接。
将计算出的权重参数逐个与邻居实体向量相乘,得到实体最终的一阶相似性向量表示:
Figure BDA00019430425700000511
S3、通过二阶相似性特征嵌入处理,根据二阶相似性采样取得的特征实体,同时结合图注意力机制所考虑的实体之间的联系,计算实体的二阶相似性向量表示,得到实体的二阶相似性语义空间嵌入表示。
通过步骤S1中的子步骤(3)采样得到二阶相似性实体,对于每个实体e,它对应的二阶相似性邻居实体集合为
Figure BDA00019430425700000512
与步骤S2相似,从二阶相似性邻居实体集合
Figure BDA00019430425700000513
中取出邻居实体n,并取出邻居实体n与实体e相连的关系r对应的关系语义矩阵Ar,将邻居实体n对应的向量vn投影到关系语义矩阵Ar上让它在不同关系下有不同的表示,经过批标准化BN和激活函数ReLU之后得到邻居实体的向量表示。二阶相似性向量在关系语义矩阵下的投影表示如下:
Figure BDA00019430425700000514
同样地假设有K个二阶相似性向量,将它们相加并求均值,得到该实体e初步的二阶相似性向量表示:
Figure BDA0001943042570000061
同理将实体e初步的二阶相似性向量
Figure BDA0001943042570000062
和邻居向量集合中的K个向量
Figure BDA0001943042570000063
放进图注意力网络计算权重参数,计算公式如下:
Figure BDA0001943042570000064
将计算出的权重参数逐个与邻居向量相乘得到实体e最终的二阶相似性向量表示:
Figure BDA0001943042570000065
S4、对实体e最终的一阶相似性向量和二阶相似性向量加权求和,得到实体最终的向量表示,输入TransE翻译模型计算损失值,得到图注意力网络、图神经网络的残差,并迭代图注意力网络、图神经网络的模型。
(1)实体e最终的一阶相似性向量、二阶相似性向量加权求和的公式为:
Figure BDA0001943042570000066
(2)损失值的计算采用得分函数,得分函数的公式为:
f(h,r,t)=||vh+vr-vt||
其中Ve表示所有实体,vh为头实体,vt为尾实体;vr为一个向量,维度与vh、vt的维度保持相同,根据不同的关系随机初始化再进行参数训练得到。
(3)训练目标函数,目标函数的公式为:
Figure BDA0001943042570000067
其中τ是一个超参数,用于分隔开正样本和负样本,(hi,ri,ti)是训练集中的正样本,(h′i,ri,t′i)是正样本随机替换掉头实体或尾实体产生的负样本。训练目标函数,使得正样本的得分值尽可能小,负样本的得分值尽可能大。
S5、对图注意力网络、图神经网络的模型,进行链接预测和分类测试评价。
对图注意力网络、图神经网络的模型进行链接预测,如图4所示,包括以下步骤:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和需要测试的三元组集合。
(2)取出知识图谱数据集中测试集的三元组(hi,ri,ti),根据一阶相似性向量和二阶相似性向量计算出头实体h和尾实体t对应的向量表示,输入步骤S4子步骤(2)中的得分函数计算得分值,即损失值。
(3)用知识图谱数据集中的实体集合去替换三元组的头实体h和尾实体t,得到负例三元组(h′i,ri,t′i),同理得出向量表示后,代入得分函数计算得分值。
(4)将所有得分值进行排序,计算三元组(hi,ri,ti)的排名。
(5)重复步骤(2)至(4)的操作,直到测试集排名计算完成。
(6)计算并输出平均排名,平均排名越小,证明正例在所有例子中排名靠前,模型效果越好。
(7)记录平均排名在前10的比例hits@10、不经过过滤的正例平均排名raw,对排行榜进行过滤filter。因为一些随机替换的三元组(h′i,ri,t′i),可能并不是真反例,它可能出现在训练集或者测试集中,这些假负例排在测试三元组(hi,ri,ti)前是合理的,所以把这一部份假负例过滤掉。
对图注意力网络、图神经网络的模型进行分类测试,如图5所示,包括:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和需要测试的三元组集合。
(2)取出知识图谱数据集中测试集的三元组(hi,ri,ti)和它的标签,正例或者反例。
(3)同理,根据一阶相似性向量和二阶相似性向量得到头实体hi和尾实体ti对应的向量表示,输入得分函数计算得分值,当得分值大于阈值认为是反例,得分值小于阈值认为是正例,通过三元组的标签得到三元组的分类准确率。
(4)重复操作步骤(2)至(3),直到测试完每一条三元组的分类准确率,最后输出三元组分类的准确率。
S6、本发明还可以对知识图谱的增量实体进行补全,增量实体补全在链接预测和分类测试上也取得了较好的效果。如图6所示,知识图谱的增量实体补全方法包括:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和带有一个增量实体的外部三元组集合。增量实体是以三元组的形式加入到知识图谱中,那它就会与知识图谱已存在实体中的部分实体(即相邻的实体,也叫邻居实体)相连,这部分相邻的实体已经训练好了向量表示。
(2)通过实体的邻居实体求得一阶相似性向量,代入图神经网络和图注意力网络计算得到该实体的一阶相似性向量。
(3)同理利用步骤S1子步骤(3)中的方法对增量实体进行二阶相似性实体采样,加权求和一、二阶相似性向量得到增量实体的向量表示。
(4)对增量实体进行链接预测或分类测试观测增量实体表示学习的效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于图二阶相似性的知识图谱实体语义空间嵌入方法,其特征在于,包括步骤:
S1、输入知识图谱数据集、最大迭代次数,初始化;在所输入的知识图谱数据集中,每个知识图谱中的三元组记为(h,r,t),其中h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系,实体表示为e;
S2、通过一阶相似性特征嵌入处理,通过图注意力机制考虑实体之间的联系,计算实体的一阶相似性向量表示,得到实体的一阶相似性语义空间嵌入表示;
S3、通过二阶相似性特征嵌入处理,根据二阶相似性采样取得的特征实体,结合图注意力机制所考虑的实体之间的联系,计算实体的二阶相似性向量表示,得到实体的二阶相似性语义空间嵌入表示;
S4、对实体e最终的一阶相似性向量和二阶相似性向量加权求和,得到实体最终的向量表示,输入翻译模型计算损失值,得到图注意力网络、图神经网络的残差,并迭代图注意力网络、图神经网络的模型;
S5、对图注意力网络、图神经网络的模型,进行链接预测和分类测试;
步骤S2包括:
实体e的一阶相似性邻居实体集合为
Figure FDA0003948104410000011
从一阶相似性邻居实体集合中取出邻居实体n并取出邻居实体n与实体e实体相连的关系r对应的关系语义矩阵Ar,将邻居实体n对应的向量vn投影到关系语义矩阵Ar上让它在不同关系下有不同的表示,经过批标准化BN和激活函数ReLU之后得到邻居实体的向量表示;一阶相似性向量在关系语义矩阵下的投影表示如下:
Figure FDA0003948104410000012
转换后的邻居实体向量集合记为
Figure FDA0003948104410000013
Figure FDA0003948104410000014
设一共有K个一阶相似性邻居实体,将所有的邻居实体向量相加并求均值得到实体e初步的一阶相似性向量
Figure FDA0003948104410000015
Figure FDA0003948104410000016
将实体e初步的一阶相似性向量
Figure FDA0003948104410000017
和邻居实体向量集合
Figure FDA0003948104410000018
放进图注意力网络计算权值,将实体e初步的一阶相似性向量
Figure FDA0003948104410000019
与邻居实体向量集合
Figure FDA00039481044100000110
中的K个向量逐个拼接,放入单层全连接神经网络相乘,相乘之后得到各个权重系数αei,将所有权重系数做归一化处理得到图注意力网络所计算出的权重参数,其中一个单层全连接神经网络的注意力系数
Figure FDA00039481044100000111
计算如下:
Figure FDA00039481044100000112
其中W1是单层全连接神经网络的参数,||表示两个向量的拼接;
将计算出的权重参数逐个与邻居实体向量相乘,得到实体最终的一阶相似性向量表示:
Figure FDA0003948104410000021
步骤S3包括:
从实体e的二阶相似性邻居实体集合
Figure FDA0003948104410000022
中取出邻居实体n,并取出邻居实体n与实体e相连的关系r对应的关系语义矩阵Ar,将邻居实体n对应的向量vn投影到关系语义矩阵Ar上让它在不同关系下有不同的表示,经过批标准化BN和激活函数ReLU之后得到邻居实体的向量表示;二阶相似性向量在关系语义矩阵下的投影表示如下:
Figure FDA0003948104410000023
假设有K个二阶相似性向量,将它们相加并求均值,得到该实体e初步的二阶相似性向量表示:
Figure FDA0003948104410000024
将实体e初步的二阶相似性向量
Figure FDA0003948104410000025
和邻居向量集合中的K个向量
Figure FDA0003948104410000026
放进图注意力网络计算权重参数,计算公式如下:
Figure FDA0003948104410000027
将计算出的权重参数逐个与邻居向量相乘得到实体e最终的二阶相似性向量表示:
Figure FDA0003948104410000028
步骤S4包括:
(1)实体e最终的一阶相似性向量、二阶相似性向量加权求和的公式为:
Figure FDA0003948104410000029
Figure FDA00039481044100000210
为实体e最终的一阶相似性向量,
Figure FDA00039481044100000211
为实体e最终的二阶相似性向量;
(2)损失值的计算采用得分函数,得分函数的公式为:
f(h,r,t)=||vh+vr-vt||
其中Ve表示所有实体,vh为头实体,vt为尾实体;vr为一个向量,维度与vh、vt的维度保持相同,根据不同的关系随机初始化再进行参数训练得到;
(3)训练目标函数,目标函数的公式为:
Figure FDA00039481044100000212
其中τ是一个超参数,用于分隔开正样本和负样本,(hi,ri,ti)是训练集中的正样本,(hi′,ri,ti′)是正样本随机替换掉头实体或尾实体产生的负样本。
2.根据权利要求1所述的知识图谱实体语义空间嵌入方法,其特征在于,步骤S1包括:
(1)输入知识图谱数据集的三元组(h,r,t)、实体向量集合E、关系向量集合R、最大迭代次数、实体向量维度和关系向量维度、图注意力网络个数、控制二阶附近实体采样深度参数p和广度幅度参数q、需要采集的二阶向量个数、一二阶相似性向量加权求和的权重参数λ;
(2)预处理得到知识图谱数据集中每个实体e的一阶邻居实体集合,实体e的一阶头邻居为:
Figure FDA0003948104410000031
实体e的一阶尾邻居为:
Figure FDA0003948104410000032
实体e对应的邻居集合
Figure FDA0003948104410000033
并记录与邻居实体相连的关系,用于将实体投影到相连的关系语义矩阵空间;
(3)预处理得到知识图谱数据集中每个实体e的二阶附近实体集合,结合广度优先搜索和深度优先搜索在每个实体e附近进行采样;从实体e出发在实体e附近采样实体,通过参数p、q确定深度优先搜索和广度优先搜索的幅度;
(4)对实体向量、关系向量、关系语义矩阵投影、图注意力网络进行随机初始化。
3.根据权利要求1所述的知识图谱实体语义空间嵌入方法,其特征在于,步骤S5对图注意力网络、图神经网络的模型进行链接预测,包括以下步骤:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和需要测试的三元组集合;
(2)取出知识图谱数据集中测试集的三元组(hi,ri,ti),根据一阶相似性向量和二阶相似性向量计算出头实体h和尾实体t对应的向量表示,输入得分函数计算得分值;
(3)用知识图谱数据集中的实体集合去替换三元组的头实体h和尾实体t,得到负例三元组(h′i,ri,t′i),得出向量表示后,代入得分函数计算得分值;
(4)将所有得分值进行排序,计算三元组(hi,ri,ti)的排名;
(5)重复上述步骤(2)至(4)的操作,直到测试集排名计算完成;
(6)计算并输出平均排名;
(7)记录平均排名在前10的比例、不经过过滤的正例平均排名,对排行榜进行过滤。
4.根据权利要求1所述的知识图谱实体语义空间嵌入方法,其特征在于,步骤S5对图注意力网络、图神经网络的模型进行分类测试,包括以下步骤:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和需要测试的三元组集合;
(2)取出知识图谱数据集中测试集的三元组(hi,ri,ti)和它的标签,正例或者反例;
(3)根据一阶相似性向量和二阶相似性向量得到头实体hi和尾实体ti对应的向量表示,输入得分函数计算得分值,当得分值大于阈值认为是反例,得分值小于阈值认为是正例,通过三元组的标签得到三元组的分类准确率;
(4)重复操作上述步骤(2)至(3),直到测试完每一条三元组的分类准确率,最后输出三元组分类的准确率。
5.根据权利要求1所述的知识图谱实体语义空间嵌入方法,其特征在于,所述知识图谱实体语义空间嵌入方法还包括:
S6、对知识图谱的增量实体进行补全。
6.根据权利要求5所述的知识图谱实体语义空间嵌入方法,其特征在于,知识图谱的增量实体补全方法包括:
(1)输入知识图谱数据集、迭代训练好的图注意力网络、图神经网络模型和带有一个增量实体的外部三元组集合;
(2)通过实体的邻居实体求得一阶相似性向量,代入图神经网络和图注意力网络计算得到该实体的一阶相似性向量;
(3)对增量实体进行二阶相似性实体采样,加权求和一、二阶相似性向量得到增量实体的向量表示;
(4)对增量实体进行链接预测或分类测试,观测增量实体表示学习的效果。
CN201910027549.2A 2019-01-11 2019-01-11 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法 Active CN109829057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910027549.2A CN109829057B (zh) 2019-01-11 2019-01-11 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910027549.2A CN109829057B (zh) 2019-01-11 2019-01-11 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法

Publications (2)

Publication Number Publication Date
CN109829057A CN109829057A (zh) 2019-05-31
CN109829057B true CN109829057B (zh) 2023-02-21

Family

ID=66860936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910027549.2A Active CN109829057B (zh) 2019-01-11 2019-01-11 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法

Country Status (1)

Country Link
CN (1) CN109829057B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751269B (zh) * 2019-10-18 2022-08-05 网易(杭州)网络有限公司 图神经网络训练方法、客户端设备及系统
CN110765788B (zh) * 2019-10-29 2023-12-08 天津大学 一种基于隐式翻译模型的知识图谱嵌入方法
CN110825884B (zh) * 2019-11-05 2024-05-24 腾讯科技(深圳)有限公司 基于人工智能的嵌入表示处理方法、装置及电子设备
CN110929047B (zh) * 2019-12-11 2023-04-28 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置
CN112989059A (zh) * 2019-12-17 2021-06-18 中国移动通信集团浙江有限公司 潜在客户识别方法及装置、设备及可读计算机存储介质
CN110931105B (zh) * 2019-12-17 2023-05-16 中山大学 一种匹配多套肌肉协同模式的方法及系统
CN111462914B (zh) * 2020-03-13 2023-07-25 云知声智能科技股份有限公司 一种实体链接方法及装置
CN111291139B (zh) * 2020-03-17 2023-08-22 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111539786B (zh) * 2020-04-15 2022-05-06 清华大学 条件注意力网络及其在个性化推荐中的应用方法及装置
CN111882054B (zh) * 2020-05-27 2024-04-12 杭州中奥科技有限公司 对双方加密关系网络数据交叉训练的方法及相关设备
CN111832924B (zh) * 2020-06-30 2021-06-15 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN112116965B (zh) * 2020-07-20 2022-06-14 上海大学 基于embedding属性相似度的材料工艺流程匹配方法
CN112000844A (zh) * 2020-08-18 2020-11-27 中山大学 一种自底向上广度优先搜索的向量化方法、系统及装置
CN112131395B (zh) * 2020-08-26 2023-09-26 浙江工业大学 一种基于动态阈值的迭代式知识图谱实体对齐方法
CN112100398B (zh) * 2020-08-31 2021-09-14 清华大学 一种专利空白预测方法及系统
CN112836007B (zh) * 2021-01-25 2023-01-17 北京理工大学 一种基于语境化注意力网络的关系元学习方法
CN112765287B (zh) * 2021-02-05 2022-04-19 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质
CN112800770B (zh) * 2021-04-15 2021-07-09 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN113204647B (zh) * 2021-04-29 2023-01-03 哈尔滨工程大学 一种基于联合权重的编码解码框架知识图谱嵌入方法
CN113190688B (zh) * 2021-05-08 2022-07-19 中国人民解放军国防科技大学 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN113139062A (zh) * 2021-05-19 2021-07-20 哈尔滨理工大学 一种基于社交媒体的抑郁症检测系统
CN113282723A (zh) * 2021-05-21 2021-08-20 上海伯禹信息科技有限公司 基于图神经网络的深度知识追踪预训练方法
CN113239168B (zh) * 2021-05-31 2024-01-05 湖南大学 一种基于知识图谱嵌入预测模型的可解释性方法和系统
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113505239B (zh) * 2021-07-09 2022-10-28 吉林大学 一种结合图注意力和属性聚类的实体对齐方法
CN113469280B (zh) * 2021-07-22 2023-06-16 烽火通信科技股份有限公司 一种基于图神经网络的数据血缘发现方法、系统及装置
CN113377968B (zh) * 2021-08-16 2021-10-29 南昌航空大学 一种采用融合实体上下文的知识图谱链路预测方法
CN114153996B (zh) * 2022-02-10 2022-04-12 北京帝测科技股份有限公司 多图注意力协同的地学知识图谱更新方法和装置
CN114637923B (zh) * 2022-05-19 2022-09-02 之江实验室 基于层次注意力图神经网络的数据信息推荐方法和装置
CN116186295B (zh) * 2023-04-28 2023-07-18 湖南工商大学 基于注意力的知识图谱链接预测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN107729497A (zh) * 2017-10-20 2018-02-23 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN108549718A (zh) * 2018-04-23 2018-09-18 南京大学 一种通用主题嵌入模型联合训练方法
CN108804633A (zh) * 2018-06-01 2018-11-13 腾讯科技(深圳)有限公司 基于行为语义知识网络的内容推荐方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US20150169758A1 (en) * 2013-12-17 2015-06-18 Luigi ASSOM Multi-partite graph database
US10460033B2 (en) * 2015-11-11 2019-10-29 Adobe Inc. Structured knowledge modeling, extraction and localization from images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN107729497A (zh) * 2017-10-20 2018-02-23 同济大学 一种基于知识图谱的词嵌入深度学习方法
CN108549718A (zh) * 2018-04-23 2018-09-18 南京大学 一种通用主题嵌入模型联合训练方法
CN108804633A (zh) * 2018-06-01 2018-11-13 腾讯科技(深圳)有限公司 基于行为语义知识网络的内容推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A latent factor model for highly multi-relational data;Rodolphe Jenatto et al.;《HAL》;20130115;第1-9页 *
LINE: Large-scale Information Network Embedding;Jian Tang et al.;《ArXiv》;20150312;第1-11页 *

Also Published As

Publication number Publication date
CN109829057A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829057B (zh) 一种基于图二阶相似性的知识图谱实体语义空间嵌入方法
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
CN108095716B (zh) 一种基于置信规则库和深度神经网络的心电信号检测方法
CN109753571B (zh) 一种基于二次主题空间投影的场景图谱低维空间嵌入方法
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN110210625B (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN112668809B (zh) 建立自闭症儿童康复效果预测模型的方法
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN114898121A (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN116153495A (zh) 一种食管癌患者免疫治疗预后生存预测方法
CN113822522A (zh) 一种滑坡易发性评估方法、装置、设备及可读存储介质
CN115546196A (zh) 一种基于知识蒸馏的轻量级遥感影像变化检测方法
US20210357729A1 (en) System and method for explaining the behavior of neural networks
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114792126A (zh) 一种基于遗传算法的卷积神经网络设计方法
CN111079348A (zh) 一种缓变信号检测方法和装置
CN113743594A (zh) 网络流量预测模型建立方法、装置、电子设备及存储介质
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
KR20200023695A (ko) 연산량을 줄이는 학습 시스템
US20230326185A1 (en) Object recognition method and apparatus, device, and storage medium
CN114742199A (zh) 一种基于注意力机制的神经网络宏架构搜索方法及系统
CN115292509A (zh) 基于多粒度注意力网络的图立方链接预测方法
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法
CN113887653A (zh) 一种基于三元网络的紧耦合弱监督学习的定位方法及系统
Bai et al. Measuring and sampling: A metric‐guided subgraph learning framework for graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant