CN113836319B - 融合实体邻居的知识补全方法及系统 - Google Patents
融合实体邻居的知识补全方法及系统 Download PDFInfo
- Publication number
- CN113836319B CN113836319B CN202111158954.1A CN202111158954A CN113836319B CN 113836319 B CN113836319 B CN 113836319B CN 202111158954 A CN202111158954 A CN 202111158954A CN 113836319 B CN113836319 B CN 113836319B
- Authority
- CN
- China
- Prior art keywords
- entity
- representation
- neighbors
- fusion
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合实体邻居的知识补全方法及系统,该方法构建基于Triplet注意力的循环卷积神经网络模型CCTA,其按如下方法进行知识补全:首先,从文本描述和拓扑邻居中收集得到实体邻居并对其进行编码,结合实体名称信息进一步增强语义,生成实体的融合表示;然后,将得到的融合表示和关系表示进行特征重排和特征重塑;而后,使用Triplet注意力捕获跨维度交互来计算注意力,再通过循环卷积操作提取实体和关系的交互特征,得到特征图;最后,将特征映射拉平,再通过一个全连接层映射到实体嵌入维度,与尾实体矩阵进行点积归一化后得到三元组的评分。该方法及系统有利于提升知识补全的性能。
Description
技术领域
本发明属于知识图谱领域,具体涉及一种融合实体邻居的知识补全方法及系统。
背景技术
知识表示学习旨在将知识图谱中的实体和关系映射到低维稠密的向量空间,便于计算它们之间的语义关系和发现更深层次的语义联系。该技术可显著提升计算效率和缓解数据稀疏问题,能大大提升知识补全和知识推理等下游任务的质量。根据模型是否融合外部信息,可以将现有模型划分为基于结构的知识图谱补全模型和融合外部信息的知识图谱补全模型。
受word2vec中平移不变现象的启发,TransE将关系视为头实体到尾实体的一种平移变换,即h+r≈t,其中h、r、t分别是头实体、关系、尾实体的嵌入表示。在欧拉恒等式eiθ=cosθ+isinθ的启发下,Sun等人提出了基于旋转的RotatE模型,取得了先进的效果。DistMult通过将多关系矩阵限制为对角矩阵来进行多关系表示学习。ComplEx将DistMult模型拓展到复数空间,对不对称关系进行建模。ConvE是首个将卷积神经网络用于表示学习的模型,InteractE在ConvE的基础上增加了实体和关系之间的交互,并利用循环卷积进行卷积操作,大大增强了ConvE的表现力。近年来,很多工作会结合比三元组更为丰富的结构信息来增强实体表示,比如邻居。LENA利用注意力机制来选择图邻域中的相关信息,从而抑制邻域中的无关信息。A2N自适应地结合了一个实体的相关图邻域,从而获得更准确的知识补全。R-GCN通过引入关系数据图卷积神经网络来处理图结构中不同边关系对节点的影响。
在融合外部信息方面,已经有一些研究工作,但总体来讲还处于初期状态。DKRL提出在知识表示学习中考虑知识库中提供的实体描述信息。DKRL考虑了2种模型:一种是使用连续词袋CBOW,将文本中的词向量简单相加作为文本表示;一种是使用卷积神经网络,能够考虑文本中的词序信息。KG-BERT利用预训练模型BERT将更丰富的上下文表示结合到模型中。Veira等人介绍了一种无监督的方法,该方法通过使用关联词的嵌入来增强实体嵌入来合并文本信息。
现有的基于结构的知识表示学习方法在知识库补全工作上取得了显著的成功,但是这类模型仅利用知识图谱的结构信息进行表示学习,忽略了丰富的外部信息,不可避免地会受到知识库的稀疏性和不完整性的影响。这类模型要学习到更好的知识表示取决于模型的复杂性,这是仅依赖知识图谱结构信息的模型所存在的局限性。于是一些模型通过引入拓扑邻居来更好地表示实体,但也存在一些问题。R-GCN为每个实体分配一个邻接矩阵,对于实体数量庞大的大数据集而言,将会导致巨大的内存开销,对于只有一两个邻居甚至没有邻居的实体,由于实体个数远大于邻居个数,R-GCN中邻接矩阵的使用会导致内存空间的浪费。GMatching在结合拓扑邻居时限制了邻居个数,这在一定程度上解决了拓扑邻居不平衡的问题,但是对于邻居多达数百个的实体,GMathing通过随机抽样选择邻居,这种随机选择会有很大概率选中相关性不大的邻居。
为了解决稀疏性问题,许多模型开始引入文本信息来增强知识表示。然而,实体的文本描述通常包含数百个单词,其中包含很多不必要的单词,会造成冗余,这些冗余的单词会稀释实体特征,阻碍潜在关系的表达。DKRL通过截取长文本中的前20个关键字来构建实体嵌入,这种简单的选择方式对于存在很多冗余单词的文本来说,将会有很大的概率选中不相关的单词,导致部分语义的丢失。此外DKRL忽略了实体名称信息,实体名称中蕴含的语义信息与实体本身具有很强的相关性,若能够适当地加以利用,可以进一步提升模型性能。Veira等人提出的加权词向量模型WWV通过引入注意力机制来选择文本中相关性更强的信息,一定程度上解决了长文本的冗余问题,但是WWV和DKRL一样忽略了实体名称中蕴含着的语义信息。
此外,与外源信息结合的模型普遍忽略了实体和关系之间的交互。事实上二维重塑可以增强实体和关系表示之间的交互作用,这已被证明有助于学习到更好的表示,提升链接预测性能。ConvE对实体和关系表示经过二维重塑再进行卷积操作,以捕获其组件之间丰富的交互作用,然而ConvE可以捕获的交互作用的数量是有限的,于是InteractE通过增加交互作用的数量来改进ConvE,取得了知识补全性能的提升。但是InteractE仅仅利用了知识库中的结构信息,忽略了文本描述和实体名称中蕴含的语义信息,具有一定的局限性。
发明内容
本发明的目的在于提供一种融合实体邻居的知识补全方法及系统,该方法及系统有利于提升知识补全的性能。
为实现上述目的,本发明采用的技术方案是:一种融合实体邻居的知识补全方法,构建基于Triplet注意力的循环卷积神经网络模型CCTA,所述CCTA模型包括实体邻居生成模块、实体关系交互模块、基于Triplet注意力的循环卷积神经网络模块和评分函数,所述CCTA模型按如下方法进行知识补全:首先,通过实体邻居生成模块从文本描述和拓扑邻居中收集得到实体邻居并对其进行编码,结合实体名称信息进一步增强语义,生成实体的融合表示;然后,通过实体关系交互模块将得到的融合表示和关系表示进行特征重排和特征重塑;而后,基于Triplet注意力的循环卷积神经网络模块,使用Triplet注意力捕获跨维度交互来计算注意力,再通过循环卷积操作提取实体和关系的交互特征,得到特征图;最后,通过评分函数将特征映射拉平,再通过一个全连接层映射到实体嵌入维度,与尾实体矩阵进行点积归一化后得到三元组的评分。
进一步地,所述实体邻居生成模块包括实体邻居生成与编码模块、实体名称与结构编码模块以及融合表示生成模块;
在实体邻居生成与编码模块中,将拓扑邻居集合和语义邻居集合/>相结合,作为实体的实体邻居;
对于每个实体,从两个邻居集合中选择k个邻居作为最终的实体邻居,具体的选择机制如下:给定一个实体e,首先选择同时出现在两个邻居集合的邻居,即两个集合的交集;然后,通过随机采样来填充其余的实体邻居;最后,得到包含k个邻居的实体邻居集合N'(e)={n1,n2,...,nk};具体过程如公式(1)-(3)所示:
N∩=Ntext(e)∩Nstru(e) (1)
N'(e)=N∩∪Nsample (3)
通过上述策略,得到实体e的实体邻居N'(e)={n1,n2,...,nk};为了编码实体邻居,先将实体邻居进行初始化,使用一个维数为d的嵌入层emb,得到实体邻居的初始表示:
将得到的实体邻居的初始表示序列输入到L层的Transformer中,对初始表示序列进行编码:
其中,是第l层的隐层状态;Transformer采用多头自注意力机制,形成多个子空间,以让模型去关注不同方面的信息;将第L层的隐层状态求平均,得到实体的邻居表示eneigh:
其中,σ是激活函数,表示Transformer编码器第L层的隐层状态;
所述实体邻居生成模块通过实体的名称单词来进一步增强实体表示;在实体名称与结构编码模块中,对于实体e的名称单词序列Word(e)={word1,word2,...,wordu}中的每个单词,用word2vec进行初始化,然后对词向量求平均,再经过一个全连接层降维到实体空间得到实体的名称表示ename:
其中,W1和b1表示全连接层的权重矩阵和偏置;
然后,将实体的名称表示和实体的结构表示相加,得到实体的名称结构表示ename_stru:
ename_stru=ename+estru (8)
在融合表示生成模块中,将得到的邻居表示和名称结构表示进行融合得到实体的融合表示,包括门控融合、相加融合以及连接映射融合三种融合方式;
在门控融合中,考虑到邻居表示和名称结构表示对实体e的贡献度可能不同,引入一个门控机制,实体的融合表示定义为:
eadd=α·eneigh+(1-α)·ename_srtu (9)
其中,α是可学习的参数,用来调整两部分的比例;
在相加融合中,将邻居表示和名称结构表示直接相加,实体的融合表示定义为:
eadd=eneigh+ename_srtu (10)
在连接映射融合中,将邻居表示和名称结构表示进行拼接操作,然后将拼接后的表示经过全连接层,映射到与实体表示相同的维度空间,实体的融合表示定义为:
eadd=W2[eneigh;ename_srtu]+b2 (11)
其中,[;]为拼接操作,W2为映射矩阵,b2是偏置。
进一步地,假设eadd=(a1,...,ad),r=(b1,...,bd)分别为实体融合表示和关系表示,其中表示组件,所述实体关系交互模块通过以下两个步骤来实现实体和关系的充分交互:
1)特征重排;对于融合表示eadd和关系表示r,分别生成对应的随机排列;限制生成的随机排列个数为C个,用集合表示,Pi表示集合P中第i个元素;
2)特征重塑;定义重塑函数将eadd和r转化为矩阵/>其中p×q=2d,使两个相邻的组件经过重塑后不再相邻;将重塑函数φ作用于每个Pi(i=1,2,...,C),然后将φ(Pi)进行拼接得到张量X=[φ(P1);φ(P2);...;φ(PC)],其中[;]是拼接操作。
进一步地,所述基于Triplet注意力的循环卷积神经网络模块的实现流程如下:
对于输入张量将它传递给Triplet注意力模块中的三个分支,三个分支的具体运算如下:
在第一个分支中,捕获空间H维度和通道C维度之间的跨通道交互;首先X沿着H轴逆时针旋转90°,得到然后/>在W维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着H轴顺时针旋转90°得到/>以保持X的原始输入状态;第一个分支的计算过程表示为:
其中,H-表示沿H轴逆时针旋转90°,H+表示沿H轴顺时针旋转90°,w1表示卷积核,*表示卷积操作,σ表示激活函数;
在第二个分支中,捕获通道C维度和空间W维度的相互作用;首先X沿着W轴逆时针旋转90°,得到接着/>在H维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着W轴顺时针旋转90°得到/>以保持X的原始输入状态;第二个分支的计算过程表示为:
其中,W-表示沿W轴逆时针旋转90°,W+表示沿W轴顺时针旋转90°,w2表示卷积核,*表示卷积操作,σ表示激活函数;
在第三个分支中,输入张量X通过Z-pool操作,通道数减少为2,之后进行卷积操作,经过Sigmoid激活函数产生注意力权重,将注意力权重与X进行点乘得到最终的张量X*:
X*=X·σ(w3*(Z-pool(X)))) (15)
其中,w3表示卷积核,*表示卷积操作,σ表示激活函数;
然后对三个分支的张量通过简单的平均得到张量X':
最后将X'输入到循环卷积神经网络中进行卷积操作;卷积完之后得到特征映射其中,/>表示循环卷积操作,w表示卷积核,σ表示ReLU激活函数。
进一步地,对于输入张量M,Z-pool操作的具体运算过程如下:
Z-pool(M)=[MaxPool0d(M);AvgPool0d(M)] (12)
其中,MaxPool表示最大池化,AvgPool表示平均池化,[;]是拼接操作,0d表示进行最大池化和平均池化操作的第0维。
进一步地,将得到的特征图V经过拉平操作变成向量I=vec(V),然后经过一个全连接层,将向量I映射到实体嵌入维度,得到输出向量P,再与尾实体矩阵进行点积,得到三元组的得分;所述评分函数定义为:
f(h,r,t)=σ(I·W3+b3)·et (17)
其中,σ表示ReLU激活函数,W3表示全连接层的变换矩阵,b3是偏置;
然后,使用sigmoid处理得分函数,将其映射到0-1区间,得到候选实体的概率分布p:
p=sigmoid(f(h,r,t)) (18)
采用交叉熵损失函数训练模型,损失函数定义如下:
其中,N是实体个数,G是正确的三元组集合,G'是不正确的三元组集合。
本发明还提供了一种融合实体邻居的知识补全系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:
1、现有的基于结构的模型忽略了丰富的外部信息,这类模型要学习到更好的知识表示取决于模型的复杂性,这是仅依赖知识图谱结构信息的模型所存在的局限性,而本发明提出的方法有效融合了外部信息,实现更准确的知识补全。
2、现有的融合邻居信息的模型浪费计算资源且补全效率具有一定的局限性,而本发明提出的方法能够选中拓扑邻居中与实体相关性更强的邻居。
3、现有的融合文本信息的模型往往忽略了实体名称里蕴含的语义信息,且不对文本中相关性强的单词进行选择,而本发明融合了实体名称进一步发掘语义,并能够从冗长的文本描述中选择与实体相关性强的单词。
4、现有的融合外部信息的模型,缺少了实体和关系之间的交互,而本发明可以在融合了额外信息的基础上进一步增加实体和关系之间的交互。
附图说明
图1是本发明实施例中基于Triplet注意力的循环卷积神经网络模型的架构图。
图2是本发明实施例中实体邻居选择示意图。
图3是本发明实施例中融合方式示意图。
图4是本发明实施例中实体关系交互示意图。
图5是本发明实施例中基于Triplet注意力的循环卷积神经网络模块的架构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供了一种融合实体邻居的知识补全方法,构建基于Triplet注意力的循环卷积神经网络模型CCTA,所述CCTA模型包括实体邻居生成模块、实体关系交互模块、基于Triplet注意力的循环卷积神经网络模块和评分函数,所述CCTA模型按如下方法进行知识补全:首先,通过实体邻居生成模块从文本描述和拓扑邻居中收集得到实体邻居并对其进行编码,结合实体名称信息进一步增强语义,生成实体的融合表示;然后,通过实体关系交互模块将得到的融合表示和关系表示进行特征重排和特征重塑;而后,基于Triplet注意力的循环卷积神经网络模块,使用Triplet注意力捕获跨维度交互来计算注意力,再通过循环卷积操作提取实体和关系的交互特征,得到特征图;最后,通过评分函数将特征映射拉平,再通过一个全连接层映射到实体嵌入维度,与尾实体矩阵进行点积归一化后得到三元组的评分。
CCTA模型的主要思想:使用拓扑邻居、实体名称、文本描述来增强实体的表示,通过二维重塑增加实体和关系之间的交互,再利用Triplet注意力机制优化循环卷积神经网络的输入,提升知识补全性能。
基于Triplet注意力的循环卷积神经网络模型CCTA的总体框架如图1所示,主要由4个部分组成:(1)实体邻居生成模块:从文本描述和拓扑邻居中收集得到实体邻居并对其进行编码,之后结合实体名称信息进一步增强语义,最后生成实体的融合表示。(2)实体关系交互模块:将得到的融合表示和关系表示进行特征重排和特征重塑,以捕获其组件之间丰富的交互作用。(3)基于Triplet注意力的循环卷积神经网络模块:使用Triplet注意力捕获跨维度交互来计算注意力,之后通过循环卷积操作提取实体和关系的交互特征,得到特征图。(4)评分函数:将特征映射拉平,再通过一个全连接层映射到实体嵌入维度,最后与尾实体矩阵进行点积归一化后得到三元组的评分。
以下给出本发明的相关定义。
定义1(实体集,E)E={e1,e2,...,en},表示知识库中所有实体的集合,对应于知识图谱中所有的节点。
定义2(关系集,R)R={r1,r2,...,rm},表示知识库中所有关系的集合。对应知识图谱中所有的边。
定义3(三元组,triple)triple=(h,r,t)表示一个三元组,h表示头实体,r表示关系,t表示尾实体,其中h,t∈E,r∈R。一个三元组也称为一个事实或一个知识。
定义4(知识库,G)G=(E,R,T),其中T={(h,r,t)}为三元组的集合。
定义5(集合表示)本发明涉及四种集合:实体e的语义邻居集合表示为实体e的拓扑邻居集合表示为/>实体e的实体邻居集合表示为N'(e)={n1,n2,...,nk}(k<m+n)。实体e的名称单词集合表示为Word(e)={word1,word2,...,wordu},其中,/>ni,wordi∈E。
定义6(实体和关系嵌入)实体的邻居表示为eneigh,实体的名称表示为ename,实体的名称结构表示为ename_stru,实体的结构表示为estru,实体的融合表示为eadd,关系只有基于结构知识的嵌入表示
1、实体邻居生成模块
所述实体邻居生成模块包括实体邻居生成与编码模块、实体名称与结构编码模块以及融合表示生成模块。
1.1实体邻居生成与编码
本发明将拓扑邻居集合和语义邻居集合相结合,作为实体的实体邻居。然而通过简单合并上述两个邻居集合的元素,在某些情况下,数量会多达数百个,这会大大降低计算效率。因此,需要筛选出具有代表性的邻居,减少计算量。
对于每个实体,从两个邻居集合中选择k个邻居作为最终的实体邻居,具体的选择机制如下:给定一个实体e,首先选择同时出现在两个邻居集合的邻居,即两个集合的交集;然后,通过随机采样来填充其余的实体邻居;最后,得到包含k个邻居的实体邻居集合N'(e)={n1,n2,...,nk}。具体过程如公式(1)-(3)所示,对应的示意图如图2所示(以采样个数k=5为例)。
N∩=Ntext(e)∩Nstru(e) (1)
N'(e)=N∩∪Nsample (3)
通过上述策略,得到实体e的实体邻居N'(e)={n1,n2,...,nk}。为了编码实体邻居,先将实体邻居进行初始化,使用一个维数为d的嵌入层emb,得到实体邻居的初始表示:
接下来,将得到的实体邻居的初始表示序列输入到L层的Transformer中,对初始表示序列进行编码:
其中,是第l层的隐层状态;Transformer采用多头自注意力机制,形成多个子空间,以让模型去关注不同方面的信息。将第L层的隐层状态求平均,得到实体的邻居表示eneigh:
其中,σ是激活函数,表示Transformer编码器第L层的隐层状态。在本发明中,设置σ=tanh时,将取得最好的效果。
1.2实体名称与结构的编码
本发明通过实体的名称单词来进一步增强实体表示。对于实体e的名称单词序列Word(e)={word1,word2,...,wordu}中的每个单词,用word2vec进行初始化,然后对词向量求平均,再经过一个全连接层降维到实体空间得到实体的名称表示ename:
其中,W1和b1表示全连接层的权重矩阵和偏置。
然后,将实体的名称表示和实体的结构表示相加,得到实体的名称结构表示ename_stru:
ename_stru=ename+estru (8)
1.3融合表示生成
将得到的邻居表示和名称结构表示进行融合得到实体的融合表示。本发明设计了三种融合方式,分别是:
(1)门控融合(Gate)
考虑到邻居表示和名称结构表示对实体e的贡献度可能不同,引入一个门控机制,如图3(a)所示。实体的融合表示定义为:
eadd=α·eneigh+(1-α)·ename_srtu (9)
其中,α是可学习的参数,用来调整两部分的比例。
(2)相加融合(Add)
将邻居表示和名称结构表示直接相加,如图3(b)所示。实体的融合表示定义为:
eadd=eneigh+ename_srtu (10)
(3)连接映射融合(Concat)
将邻居表示和名称结构表示进行拼接操作,然后将拼接后的表示经过全连接层,映射到与实体表示相同的维度空间,如图3(c)所示。实体的融合表示定义为:
eadd=W2[eneigh;ename_srtu]+b2 (11)
其中,[;]为拼接操作,W2为映射矩阵,b2是偏置。
2、实体关系交互模块
假设eadd=(a1,...,ad),r=(b1,...,bd)分别为实体融合表示和关系表示,其中表示组件。所述实体关系交互模块通过以下两个步骤来实现实体和关系的充分交互:
1)特征重排
对于融合表示eadd和关系表示r,分别生成对应的随机排列。若不加以限制,随机排列的个数会非常大。因此,限制生成的随机排列个数为C个,用集合表示,Pi表示集合P中第i个元素。特征重排过程如图4(a)所示。
2)特征重塑
定义重塑函数将eadd和r转化为矩阵/>其中p×q=2d,使两个相邻的组件经过重塑后不再相邻。将重塑函数φ作用于每个Pi(i=1,2,...,C),然后将φ(Pi)进行拼接得到张量X=[φ(P1);φ(P2);...;φ(PC)],其中[;]是拼接操作,具体重塑方式如图4(b)所示。
3、基于Triplet注意力的循环卷积神经网络模块
对于重塑后的张量显然,X中并不是所有特征都是对补全有用的,无用的信息会影响卷积的性能,因此在卷积之前,使用Triplet注意力来给更有用的信息赋予更高的权重,关注那些更重要的特征,从而过滤掉不必要的噪声。Triplet注意力是一种通过使用三分支结构捕获跨维度交互来计算注意力权重的新方法。
在计算Triplet注意力的过程中,将会涉及到Z-pool的操作。对于输入张量M,Z-pool操作的具体运算过程如下:
Z-pool(M)=[MaxPool0d(M);AvgPool0d(M)] (12)
其中,MaxPool表示最大池化,AvgPool表示平均池化,[;]是拼接操作,0d表示进行最大池化和平均池化操作的第0维。例如,一个形状为C×H×W的张量进行Z-pool操作后会产生一个形状为2×H×W的张量。
对于输入张量将它传递给Triplet注意力模块中的三个分支,三个分支的具体运算如下:
在第一个分支中,捕获空间H维度和通道C维度之间的跨通道交互;首先X沿着H轴逆时针旋转90°,得到然后/>在W维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着H轴顺时针旋转90°得到/>以保持X的原始输入状态;第一个分支的计算过程表示为:
其中,H-表示沿H轴逆时针旋转90°,H+表示沿H轴顺时针旋转90°,w1表示卷积核,*表示卷积操作,σ表示激活函数。
在第二个分支中,捕获通道C维度和空间W维度的相互作用;首先X沿着W轴逆时针旋转90°,得到接着/>在H维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着W轴顺时针旋转90°得到/>以保持X的原始输入状态;第二个分支的计算过程表示为:
其中,W-表示沿W轴逆时针旋转90°,W+表示沿W轴顺时针旋转90°,w2表示卷积核,*表示卷积操作,σ表示激活函数。
对于最后一个分支,输入张量X通过Z-pool操作,通道数减少为2,之后进行卷积操作,经过Sigmoid激活函数产生注意力权重,将注意力权重与X进行点乘得到最终的张量X*:
X*=X·σ(w3*(Z-pool(X)))) (15)
其中,w3表示卷积核,*表示卷积操作,σ表示激活函数。
然后对三个分支的张量通过简单的平均得到张量X':
最后将X'输入到循环卷积神经网络中进行卷积操作;卷积完之后得到特征映射其中,/>表示循环卷积操作,w表示卷积核,σ表示ReLU激活函数。基于Triplet注意力的循环卷积神经网络模块如图5所示。
4、评分函数
将得到的特征图V经过拉平操作变成向量I=vec(V),然后经过一个全连接层,将向量I映射到实体嵌入维度,得到输出向量P,再与尾实体矩阵进行点积,得到三元组的得分;所述评分函数定义为:
f(h,r,t)=σ(I·W3+b3)·et (17)
其中,σ表示ReLU激活函数,W3表示全连接层的变换矩阵,b3是偏置。
然后,使用sigmoid处理得分函数,将其映射到0-1区间,得到候选实体的概率分布p:
p=sigmoid(f(h,r,t)) (18)
采用交叉熵损失函数训练模型,损失函数定义如下:
其中,N是实体个数,G是正确的三元组集合,G'是不正确的三元组集合。
本发明还提供了一种融合实体邻居的知识补全系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (3)
1.一种融合实体邻居的知识补全方法,其特征在于,构建基于Triplet注意力的循环卷积神经网络模型CCTA,所述CCTA模型包括实体邻居生成模块、实体关系交互模块、基于Triplet注意力的循环卷积神经网络模块和评分函数,所述CCTA模型按如下方法进行知识补全:首先,通过实体邻居生成模块从文本描述和拓扑邻居中收集得到实体邻居并对其进行编码,结合实体名称信息进一步增强语义,生成实体的融合表示;然后,通过实体关系交互模块将得到的融合表示和关系表示进行特征重排和特征重塑;而后,基于Triplet注意力的循环卷积神经网络模块,使用Triplet注意力捕获跨维度交互来计算注意力,再通过循环卷积操作提取实体和关系的交互特征,得到特征图;最后,通过评分函数将特征映射拉平,再通过一个全连接层映射到实体嵌入维度,与尾实体矩阵进行点积归一化后得到三元组的评分;
所述实体邻居生成模块包括实体邻居生成与编码模块、实体名称与结构编码模块以及融合表示生成模块;
在实体邻居生成与编码模块中,将拓扑邻居集合和语义邻居集合/>相结合,作为实体的实体邻居;
对于每个实体,从两个邻居集合中选择k个邻居作为最终的实体邻居,具体的选择机制如下:给定一个实体e,首先选择同时出现在两个邻居集合的邻居,即两个集合的交集;然后,通过随机采样来填充其余的实体邻居;最后,得到包含k个邻居的实体邻居集合N'(e)={n1,n2,...,nk};具体过程如公式(1)-(3)所示:
N∩=Ntext(e)∩Nstru(e) (1)
N'(e)=N∩∪Nsample (3)
通过所述选择机制,得到实体e的实体邻居N'(e)={n1,n2,...,nk};为了编码实体邻居,先将实体邻居进行初始化,使用一个维数为d的嵌入层emb,得到实体邻居的初始表示:
将得到的实体邻居的初始表示序列输入到L层的Transformer中,对初始表示序列进行编码:
其中,是第l层的隐层状态;Transformer采用多头自注意力机制,形成多个子空间,以让模型去关注不同方面的信息;将第L层的隐层状态求平均,得到实体的邻居表示eneigh:
其中,σ是激活函数,表示Transformer编码器第L层的隐层状态;
所述实体邻居生成模块通过实体的名称单词来进一步增强实体表示;在实体名称与结构编码模块中,对于实体e的名称单词序列Word(e)={word1,word2,...,wordu}中的每个单词,用word2vec进行初始化,然后对词向量求平均,再经过一个全连接层降维到实体空间得到实体的名称表示ename:
其中,W1和b1表示全连接层的权重矩阵和偏置;
然后,将实体的名称表示和实体的结构表示相加,得到实体的名称结构表示ename_stru:
ename_stru=ename+estru (8)
在融合表示生成模块中,将得到的邻居表示和名称结构表示进行融合得到实体的融合表示,包括门控融合、相加融合以及连接映射融合三种融合方式;
在门控融合中,考虑到邻居表示和名称结构表示对实体e的贡献度可能不同,引入一个门控机制,实体的融合表示定义为:
eadd=α·eneigh+(1-α)·ename_srtu (9)
其中,α是可学习的参数,用来调整两部分的比例;
在相加融合中,将邻居表示和名称结构表示直接相加,实体的融合表示定义为:
eadd=eneigh+ename_srtu (10)
在连接映射融合中,将邻居表示和名称结构表示进行拼接操作,然后将拼接后的表示经过全连接层,映射到与实体表示相同的维度空间,实体的融合表示定义为:
eadd=W2[eneigh;ename_srtu]+b2 (11)
其中,[;]为拼接操作,W2为映射矩阵,b2是偏置;
假设eadd=(a1,...,ad),r=(b1,...,bd)分别为实体融合表示和关系表示,其中ai,表示组件,所述实体关系交互模块通过以下两个步骤来实现实体和关系的充分交互:
1)特征重排;对于融合表示eadd和关系表示r,分别生成对应的随机排列;限制生成的随机排列个数为C个,用集合表示,Pi表示集合P中第i个元素;
2)特征重塑;定义重塑函数φ:将eadd和r转化为矩阵/>其中p×q=2d,使两个相邻的组件经过重塑后不再相邻;将重塑函数φ作用于每个Pi(i=1,2,...,C),然后将φ(Pi)进行拼接得到张量X=[φ(P1);φ(P2);...;φ(PC)],其中[;]是拼接操作;
所述基于Triplet注意力的循环卷积神经网络模块的实现流程如下:
对于输入张量将它传递给Triplet注意力模块中的三个分支,三个分支的具体运算如下:
在第一个分支中,捕获空间H维度和通道C维度之间的跨通道交互;首先X沿着H轴逆时针旋转90°,得到然后/>在W维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着H轴顺时针旋转90°得到/>以保持X的原始输入状态;第一个分支的计算过程表示为:
其中,H-表示沿H轴逆时针旋转90°,H+表示沿H轴顺时针旋转90°,w1表示卷积核,*表示卷积操作,σ表示激活函数;
在第二个分支中,捕获通道C维度和空间W维度的相互作用;首先X沿着W轴逆时针旋转90°,得到接着/>在H维度上进行Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数生成注意力权重;将得到的注意力权重与/>进行点乘,然后沿着W轴顺时针旋转90°得到/>以保持X的原始输入状态;第二个分支的计算过程表示为:
其中,W-表示沿W轴逆时针旋转90°,W+表示沿W轴顺时针旋转90°,w2表示卷积核,*表示卷积操作,σ表示激活函数;
在第三个分支中,输入张量X通过Z-pool操作,之后进行卷积操作,经过Sigmoid激活函数产生注意力权重,将注意力权重与X进行点乘得到最终的张量X*:
X*=X·σ(w3*(Z-pool(X))) (15)
其中,w3表示卷积核,*表示卷积操作,σ表示激活函数;
然后对三个分支的张量通过简单的平均得到张量X':
最后将X'输入到循环卷积神经网络中进行卷积操作;卷积完之后得到特征映射其中,/>表示循环卷积操作,w表示卷积核,σ表示ReLU激活函数;
将得到的特征图V经过拉平操作变成向量I=vec(V),然后经过一个全连接层,将向量I映射到实体嵌入维度,得到输出向量P,再与尾实体矩阵进行点积,得到三元组的得分;所述评分函数定义为:
f(h,r,t)=σ(I·W3+b3)·et (17)
其中,σ表示ReLU激活函数,W3表示全连接层的变换矩阵,b3是偏置;
然后,使用sigmoid处理得分函数,将其映射到0-1区间,得到候选实体的概率分布p:
p=sigmoid(f(h,r,t)) (18)
采用交叉熵损失函数训练模型,损失函数定义如下:
其中,N是实体个数,G是正确的三元组集合,G'是不正确的三元组集合。
2.根据权利要求1所述的融合实体邻居的知识补全方法,其特征在于,对于输入张量M,Z-pool操作的具体运算过程如下:
Z-pool(M)=[MaxPool0d(M);AvgPool0d(M)] (12)
其中,MaxPool表示最大池化,AvgPool表示平均池化,[;]是拼接操作,0d表示进行最大池化和平均池化操作的第0维。
3.一种融合实体邻居的知识补全系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-2任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158954.1A CN113836319B (zh) | 2021-09-30 | 2021-09-30 | 融合实体邻居的知识补全方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111158954.1A CN113836319B (zh) | 2021-09-30 | 2021-09-30 | 融合实体邻居的知识补全方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836319A CN113836319A (zh) | 2021-12-24 |
CN113836319B true CN113836319B (zh) | 2023-08-01 |
Family
ID=78967955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111158954.1A Active CN113836319B (zh) | 2021-09-30 | 2021-09-30 | 融合实体邻居的知识补全方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836319B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875424A (zh) * | 2024-03-11 | 2024-04-12 | 湖北大学 | 一种基于实体描述和对称关系的知识图谱补全方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
CN111177282A (zh) * | 2019-12-30 | 2020-05-19 | 福州大学 | 一种融入注意力机制的预测方法 |
CN111428055A (zh) * | 2020-04-20 | 2020-07-17 | 神思电子技术股份有限公司 | 一种面向行业的上下文省略问答方法 |
CN112561064A (zh) * | 2020-12-21 | 2021-03-26 | 福州大学 | 基于owkbc模型的知识库补全方法 |
CN112836065A (zh) * | 2021-02-26 | 2021-05-25 | 福州大学 | 一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法 |
-
2021
- 2021-09-30 CN CN202111158954.1A patent/CN113836319B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
CN111177282A (zh) * | 2019-12-30 | 2020-05-19 | 福州大学 | 一种融入注意力机制的预测方法 |
CN111428055A (zh) * | 2020-04-20 | 2020-07-17 | 神思电子技术股份有限公司 | 一种面向行业的上下文省略问答方法 |
CN112561064A (zh) * | 2020-12-21 | 2021-03-26 | 福州大学 | 基于owkbc模型的知识库补全方法 |
CN112836065A (zh) * | 2021-02-26 | 2021-05-25 | 福州大学 | 一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法 |
Non-Patent Citations (1)
Title |
---|
Answering Natural Language Questions by Subgraph Matching over Knowledge Graphs;Hu S;IEEE(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836319A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | CNN-enhanced graph convolutional network with pixel-and superpixel-level feature fusion for hyperspectral image classification | |
Liu et al. | Teinet: Towards an efficient architecture for video recognition | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN111950594A (zh) | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
Lin et al. | Deep structured scene parsing by learning with image descriptions | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113140023A (zh) | 一种基于空间注意力的文本到图像生成方法及系统 | |
CN113836319B (zh) | 融合实体邻居的知识补全方法及系统 | |
Zhu et al. | Semantic image segmentation with shared decomposition convolution and boundary reinforcement structure | |
Ni et al. | Algorithm-hardware co-design for efficient brain-inspired hyperdimensional learning on edge | |
Laakom et al. | On feature diversity in energy-based models | |
Wang et al. | Tmf: Temporal motion and fusion for action recognition | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
Zhao et al. | Single-branch self-supervised learning with hybrid tasks | |
Jiang et al. | Cross-level reinforced attention network for person re-identification | |
CN116244473B (zh) | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
GB2618876A (en) | Lightweight and efficient object segmentation and counting method based on generative adversarial network (GAN) | |
He et al. | ECS-SC: Long-tailed classification via data augmentation based on easily confused sample selection and combination | |
CN114462607A (zh) | 基于双曲空间的事理图谱增强的因果推理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |