CN114780748A - 基于先验权重增强的知识图谱的补全方法 - Google Patents

基于先验权重增强的知识图谱的补全方法 Download PDF

Info

Publication number
CN114780748A
CN114780748A CN202210440426.3A CN202210440426A CN114780748A CN 114780748 A CN114780748 A CN 114780748A CN 202210440426 A CN202210440426 A CN 202210440426A CN 114780748 A CN114780748 A CN 114780748A
Authority
CN
China
Prior art keywords
entity
embedding
type
triple
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210440426.3A
Other languages
English (en)
Inventor
王鑫
刘鑫
陈子睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210440426.3A priority Critical patent/CN114780748A/zh
Publication of CN114780748A publication Critical patent/CN114780748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于先验权重增强的知识图谱的补全方法,主要包括:根据知识图谱中的三元组,构建负例三元组;计算三元组中实体对应类型的先验权重;利用预训练模型学习实体、关系以及类型对应描述信息的句子级语义,作为实体、关系以及类型的初始嵌入;采用先验概率增强的注意力机制,将实体对应类型的先验权重和计算得到的权重结合,得到实体的类型整体表示;通过残差网络将实体的类型整体表示融入实体初始嵌入中得到实体整体嵌入;对实体整体嵌入和关系嵌入进行2D reshape和拼接操作;将拼接好的向量经过动态卷积层,产生特征图,并映射到与初始嵌入相同维度的空间;对映射向量做向量乘法,计算三元组得分,并使用交叉熵损失函数对模型进行训练。

Description

基于先验权重增强的知识图谱的补全方法
技术领域
本发明涉及自然语言处理以及知识图谱领域,具体来说,涉及知识图谱表示学习领域。
背景技术
Google公司在2012年第一次提出了知识图谱(Knowledge Graph,KG)这一概念,用来特指能够增强搜索引擎功能的知识库,而广义的知识图谱泛指各类大规模的知识库。知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。目前,随着知识图谱规模的不断扩大,包括百万顶点(106)和上亿条边(108)的复杂知识图谱已经普遍存在于各领域之中。
知识图谱作为符号主义发展的最新成果,是人工智能的重要基石。然而知识图谱天生不完整,多数的现有知识图谱都是稀疏的,如在Freebase中,66%的人都缺少出生地这一关系。由此引出了知识图谱补全任务来向知识图谱添加新的三元组。最近基于深度学习的知识图谱补全方法在学术界和工业界引起了广泛的关注,它采用打分的机制,对于一个三元组,给出这个三元组可信的评分。
然而,这些方法只使用观察到的三元组事实的结构信息,忽略了知识图谱本身的数据统计信息,即根据一个实体在特定关系的头尾实体位置出现的频率,可以作为该实体表现对应特定类型的先验权重。例如,在知识图谱中William Shakespeare经常出现在以works written为关系的三元组的头部实体位置,因此实体William Shakespeare整体上主要表达Writer的特征。实体William Shakespeare表示为Poet的频率小于表达为Writer的频率,所以它次要表达了Poet的特征。隐藏在知识图谱中的频率信息可以帮助模型准确地描述实体的语义信息,对刻画实体表示起着至关重要的作用。
此外,大多数模型忽略了另一个问题,即实体的多语义。如附图2所示,分别为用PCA对TransE得到的实体The United States of America和Official Website向量的可视化。由于TransE使用了h+r≈t的原则,每个实体的可视化结果应该只有一个集群,且集群中心是相应的实体向量。然而,可视化结果显示存在多个集群,这证明了本发明提出的实体多语义性假设。综上所述,每个实体都有多个实体类型。然而,每个实体在特定关系中所表达的语义应该是不同的。例如,在三元组(William Shakespeare,works written,Romeo andJuiet)中,很明显实体William Shakespeare对应的Writer类型与这个三元组更相关,或者说,实体William Shakespeare在该三元组中应主要表达Writer类型的属性或特征。同样,在三元组(Oscar,award,William Shakespeare)中,其对应的类型Award/Nominee与这个三元组关联性更强,也就是说,实体William Shakespeare在该三元组中应该主要表达Award/Nominee类型的特征。让实体在不同的关系中表达不同的语义信息,可以帮助模型准确地描述实体的语义信息,在知识图谱补全任务中发挥重要作用。
综上,现有的知识图谱补全方法仍然存在以下两个关键性的挑战:
(1)未考虑KG的先验知识,即一个实体在特定关系的头尾实体位置出现的频率可以作为其表达对应类型的先验权重。
(2)实体的多语义问题未被解决,即实体在不同关系中应该有不同的向量表示。
因此,急需一种融入先验知识的同时并能够解决实体的多语义问题的知识图谱补全方法,解决现有技术中存在的未能充分利用知识图谱的先验知识和实体的多语义问题这两个关键性挑战。
发明内容
本发明的目的在于解决知识图谱补全任务中先验权重缺失和实体多语义性问题,提出了一种先验概率增强的知识图谱补全方法,称为Pre-Geformer,它由一个先验权重增强的实体编码器和一个新型解码器组成。所提出的实体编码器采用了先验权重增强注意机制来捕捉实体的整体表示。受卷积方法的启发,新型的解码器采用了基于动态卷积的神经网络,允许同一实体在不同的关系中使用不同的卷积核参数进行处理,使得实体在特定关系产生不同的向量表示。通过实体编码器,将先验权重很好的融入到实体的嵌入中。此外基于动态卷积的神经网络通过调整卷积参数,使得同一实体在不同关系中有着不同的表示。
为了解决上述技术问题,本发明提出的一种基于先验权重增强的知识图谱的补全方法,是由一个实体编码器和一个解码器来实现的,过程包括:
一、利用所述实体编码器实现如下过程:
1-1)对于训练集三元组集合T,通过负采样方法得到负例三元组集合T′;
1-2)统计训练集三元组T和负例三元组T′中头实体h出现对应类型ch的频率Freq(h,ch)以及尾实体t出现对应类型ct的频率Freq(t,ct);
1-3)从训练集三元组集合T和负例三元组T′中随机选择一个三元组,分别将三元组中的关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息作为输入,通过预训练语言模型BERT得到初始嵌入,包括:头实体初始嵌入h′和头实体类型嵌入ch、尾实体初始嵌入t′和尾实体类型嵌入ct以及关系嵌入r;
1-4)通过先验权重增强的注意力机制,将头实体初始嵌入h′或尾实体初始嵌入t′作为Query,对应头实体类型嵌入ch或尾实体类型嵌入ct作为Key和Value,使用缩放点积方法得到计算出的权重矩阵;通过非线性函数对频率Freq(h,ch)或Freq(t,ct)进行变换得到的先验权重矩阵;计算出的权重矩阵和先验权重矩阵加权求和,通过Softmax概率化函数作为最终的权重矩阵;使用最终的权重矩阵对头实体类型嵌入ch或尾实体类型嵌入ct加权求和,得到头实体h或尾实体t的类型整体表示
Figure BDA0003614882400000031
Figure BDA0003614882400000032
1-5)通过残差网络分别将步骤1-3)得到的头实体初始嵌入h′和尾实体初始嵌入t′与步骤1-4)得到的头实体h或尾实体t的类型整体表示
Figure BDA0003614882400000033
Figure BDA0003614882400000034
融合,得到头实体整体嵌入h和尾实体整体嵌入t;
二、利用所述解码器实现如下过程:
2-1)将从编码器得到的头实体整体嵌入h和尾实体整体嵌入t和关系嵌入r进行2Dreshape转换,转换后包括头实体2D嵌入表示
Figure BDA0003614882400000035
关系2D嵌入表示
Figure BDA0003614882400000036
和尾实体2D嵌入表示
Figure BDA0003614882400000037
2-2)通过拼接层,分别将转换后的头实体2D嵌入表示
Figure BDA0003614882400000038
和关系2D嵌入表示
Figure BDA0003614882400000039
以及转换后的尾实体2D嵌入表示
Figure BDA00036148824000000310
和关系2D嵌入表示
Figure BDA00036148824000000311
拼接起来,得到拼接向量
Figure BDA00036148824000000312
Figure BDA00036148824000000313
2-3)将得到的拼接向量
Figure BDA00036148824000000314
Figure BDA00036148824000000315
通过动态卷积层,生成特征图;
2-4)通过全连接层将所述特征图映射到与所述初始嵌入相同的维度;
2-5)通过向量乘得分函数计算三元组得分;
2-6)通过最小化交叉熵损失训练模型参数,得到训练后的模型;
2-7)以知识图谱中的实体-关系对作为步骤2-6)训练后的模型的输入,将该模型输出的得分大于0.75三元组作为新增三元组用于补全知识图谱。
进一步讲,本发明所述的知识图谱的补全方法,其中:
步骤1-3)的具体内容是:对于给定的三元组(h,r,t),分别将关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息送入Hugging Face公开预先训练好的BERT模型当中,将BERT嵌入结果中句子级语义信息[CLS]嵌入作为相应初始嵌入表示。
步骤1-4)中,获得最终的权重矩阵的方法是:使用一个非线性函数f(x)=loga(x+1)作为频率到相关性的映射,频率越高,相关性越高,否则,反之;当频率小于0时,相关性得到0;对得到的相关性进行归一化处理,作为实体类型的先验权重矩阵;通过将先验权重矩阵与计算出的权重矩阵加权和,然后归一化获得最终的权重矩阵,计算公式如下:
Figure BDA00036148824000000316
p(e,ce)=loga(Freq(e,ce)+1),a>1
Figure BDA00036148824000000317
Figure BDA00036148824000000318
其中,e对应实体初始嵌入,ce为实体e对应类型ce的初始嵌入,p(e,ce)为实体e表达类型ce的先验权重矩阵,
Figure BDA0003614882400000041
为通过计算得出实体e表达类型ce的权重矩阵,
Figure BDA0003614882400000042
为实体e的类型整体表示,n为实体表达类型的数量。
步骤2-3)的具体过程是:首先,将拼接后的2D表示
Figure BDA0003614882400000043
Figure BDA0003614882400000044
依次经过平均池化层和带有Relu激活函数的两层全连接层,得到z(x),其中x代表拼接后的2D表示
Figure BDA0003614882400000045
Figure BDA0003614882400000046
Figure BDA0003614882400000047
然后,通过Softmax输出概率化的卷积核权重πi
Figure BDA0003614882400000048
其中,n代表卷积核数量,z(x)表示通过平均池化和两层线性层得到的特征,0≤πi≤1且
Figure BDA0003614882400000049
动态卷积核通过对每个卷积核加权求和得到:
Figure BDA00036148824000000410
其中,ωi代表第i个卷积核,πi表示第i个卷积核的权重,ω(x)是由动态卷积层最终得到的卷积核;最后,使用卷积核ω(x)对拼接后的2D表示
Figure BDA00036148824000000411
Figure BDA00036148824000000412
进行卷积操作,得到特征图。
步骤2-4)中,通过全连接层将特征图映射到与初始嵌入相同的维度,表示式是:g(x)=f(x*ω(x))W,其中,W是全连接层参数。
步骤2-5)中,通过向量乘得分函数计算三元组得分,公式如下:
Figure BDA00036148824000000413
Figure BDA00036148824000000414
步骤2-6)中,对得分函数使用Logistic sigmoid函数σ(·)处理,即sτ=σ(ψτ(h,r,t)),公式如下:
Figure BDA00036148824000000415
其中,T为数据集三元组集合,T′为负例三元组集合,tτ是三元组τ的标签,当三元组τ为正例三元组时tτ取1,否则取0;以上过程重复多次后,输出训练模型,模型训练过程结束。
与现有技术相比,本发明的有益效果是:
本发明提出的先验概率增强的知识图谱补全方法,其包含的实体编码器和新型解码器分别通过先验概率增强的注意力机制和动态卷积网络,解决了现有知识图谱补全技术中存在的未能充分利用知识图谱的先验权重知识和实体的多语义问题这两个关键性挑战。本发明进行了广泛的实验以验证所提出的方法在各种数据集上的效率和准确性。在多种数据集上进行的实验表明,本发明所提出的方法在大多数情况下可以显着提高三元组预测的准确性,即可以准确预测出知识图谱中缺失的三元组从而使知识图谱变得更加完整,并且通过消融实验也验证了模型的有效性和可行性。
附图说明
图1是本发明的整体模型框架图;
图2是使用PCA对TransE得到的两个实体向量的可视化;
图3是本发明的先验权重增强的Attention机制图;
图4是本发明的动态卷积网络图;
图5是Freebase中五个实体所对应类型的权重可视化;
图6是实体Kenneth Brian在5种不同关系中的卷积kernel权重可视化;
图7是本发明的工作流程图。
具体实施方式
一、本发明的设计构思:
本发明架构,与大多数端到端模型相同,由两部分组成,即一个先验权重增强的实体编码器和一个基于动态卷积网络的解码器。对于给定的一个三元组(h,r,t),用ch表示头实体h所属的所有类型,用ct表示尾实体t所属的所有类型。首先,h,r,t,ch和ct对应于的文本描述被送入预训练的BERT模型,并将[CLS]标签对应的嵌入作为其相应嵌入。与其他模型相比,本发明的模型考虑了隐含在知识图谱中的先验权重信息,即一个实体在特定关系的头尾实体位置出现的频率可以作为其表达这个类型的权重。同时,为了避免先验权重的单一性和不准确性,通过先验权重增强注意机制将先验权重与计算出的权重融合,用来生成更全面的类型特征。然后,通过残差网络将获得的实体类型特征与BERT得到的实体表示融合,作为实体h或t的整体表示。
解码器部分主要由基于动态卷积的神经网络组成。与基于静态卷积的知识图谱补全方法相比,基于动态卷积的方法可以根据注意力动态地叠加多个卷积核。这不仅极大地提高了表示能力,而且还根据输入的嵌入情况自适应地调整卷积参数。该解码器将从编码器得到的实体和关系嵌入通过一个拼接层,分别将头实体和关系,以及尾实体和关系拼接起来。然后,得到的拼接向量通过动态卷积层,生成特征嵌入。最后,特征嵌入通过线性层被映射到与原始嵌入相同的维度。三元组τ=(h,r,t)的评分函数为:
g(x)=f(x*ω(x))W
Figure BDA0003614882400000051
其中h,t,r∈Rk分别是来自编码器的实体h、t和关系r的嵌入。
Figure BDA0003614882400000052
Figure BDA0003614882400000053
分别为h、t和r的2D表示:如果h,t,r∈Rk,则
Figure BDA0003614882400000054
其中k=kw×kh。ω(x)是由动态卷积层得到的二维卷积层的滤波器,W是全连接投影的参数。
为了训练模型参数,对得分函数使用了Logistic sigmoid函数σ(·),即sτ=σ(ψτ(h,r,t)),并使以下交叉熵损失函数最小。
Figure BDA0003614882400000061
其中T为待训练数据集,T′为负例三元组集合,tτ是三元组τ的标签,当三元组τ存在时tτ元素取1,否则取0。
如图1所示,本发明的模型框架由两部分组成,即一个基于BERT的通用实体编码器和一个基于动态卷积网络的解码器。实体编码器通过先验权重增强的注意力机制,将先验权重和计算得到的权重很好的融入到实体的嵌入中。解码器通过动态卷积神经网络,动态调整卷积参数,使得同一实体在不同关系中有着不同的表示。
如图3所示,注意力机制实质上是构建一个注意力分布(即计算Q和K之间的内积
Figure BDA0003614882400000062
然后对内积做Softmax概率化处理)作为value的权重。最后,通过加权求和规则的策略将所有的值结合起来,得到最终的输出。一般来说,这种注意力分布也可以来自其他渠道,这种注意力分布可以被称为先验权重。在本发明中,关注的是来自知识图谱本身的外部先验权重信息,即以关系为前提的三联体头部和尾部出现的实体的频率可以作为其表达式对应的类型的权重。其实现方式如下:一个对数函数f(x)=loga(x+1)被用来表示频率,即频率越高,相关性越高。反之,频率越低,相关性就越低。随着频率的逐渐增加,相关度也逐渐趋于恒定。而当频率小于0的时候,相关度就会得到0。这样,最终的权重矩阵可以通过将服从对数函数f(x)=loga(x+1)的先验权重信息与计算出的权重矩阵相乘,然后归一化来获得。这相当于A+αP,其中A代表计算出的权重,P表示先验权。Pij表示第i实体和第j类型之间的先验权重。
图4示出了动态卷积不是使用单一的卷积核,而是根据注意力动态地聚合多个并行的卷积核。注意力根据输入动态地调整每个卷积核的权重,从而产生一个自适应的动态卷积。由于注意力是输入的一个函数,动态卷积不再是一个线性函数。通过注意力以非线性方式叠加卷积核具有更强的表示能力。通过注意力以非线性方式叠加卷积核具有更强的表示能力。
二、本发明的技术方案
图7示出了本发明提出的一种基于先验权重增强的知识图谱的补全方法的工作流程图,首先,需要说明的是:知识图谱被形式化定义为G=(E,R,C,T),其中,E表示实体集合,R表示关系集合,C表示实体类型集合,T代表训练集三元组集合;三元组形式化为τ=(h,r,t),其中,头实体h∈E,尾实体t∈E,关系r∈R;头实体h对应类型表示为ch,尾实体t对应类型表示为ct。本发明所述的知识图谱的补全方法主要包括:
本发明所述的知识图谱的补全方法是由一个实体编码器和一个解码器来实现的,
1、所述实体编码器实现的过程:
1-1)对于训练集三元组集合T,通过负采样方法得到负例三元组集合T′;
1-2)统计训练集三元组T和负例三元组T′中头实体h出现对应类型ch的频率Freq(h,ch)以及尾实体t出现对应类型ct的频率Freq(t,ct);
1-3)从训练集三元组集合T和负例三元组T′中随机选择一个三元组,分别将三元组中的关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息作为输入,通过预训练语言模型BERT得到初始嵌入,包括:头实体初始嵌入h′和头实体类型嵌入ch、尾实体初始嵌入t′和尾实体类型嵌入ct以及关系嵌入r;具体是:对于给定的三元组(h,r,t),分别将关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息送入Hugging Face公开预先训练好的BERT模型当中,将BERT嵌入结果中句子级语义信息[CLS]嵌入作为相应初始嵌入表示。
1-4)通过先验权重增强的注意力机制,将头实体初始嵌入h′或尾实体初始嵌入t′作为Query,对应头实体类型嵌入ch或尾实体类型嵌入ct作为Key和Value,使用缩放点积方法得到计算出的权重矩阵;通过非线性函数对频率Freq(h,ch)或Freq(t,ct)进行变换得到的先验权重矩阵;
计算出的权重矩阵和先验权重矩阵加权求和,通过Softmax概率化函数作为最终的权重矩阵,具体内容是:使用一个非线性函数f(x)=loga(x+1)作为频率到相关性的映射,频率越高,相关性越高,否则,反之;当频率小于0时,相关性得到0;对得到的相关性进行归一化处理,作为实体类型的先验权重矩阵;通过将先验权重矩阵与计算出的权重矩阵加权和,然后归一化获得最终的权重矩阵,计算公式如下:
Figure BDA0003614882400000071
p(e,ce)=loga(Freq(e,ce)+1),a>1
Figure BDA0003614882400000072
Figure BDA0003614882400000073
其中,e对应实体初始嵌入,ce为实体e对应类型ce的初始嵌入,p(e,ce)为实体e表达类型ce的先验权重矩阵,
Figure BDA0003614882400000074
为通过计算得出实体e表达类型ce的权重矩阵,
Figure BDA0003614882400000075
为实体e的类型整体表示,n为实体表达类型的数量。
使用最终的权重矩阵对头实体类型嵌入ch或尾实体类型嵌入ct加权求和,得到头实体h或尾实体t的类型整体表示
Figure BDA0003614882400000076
Figure BDA0003614882400000077
1-5)通过残差网络分别将步骤1-3)得到的头实体初始嵌入h′和尾实体初始嵌入t′与步骤1-4)得到的头实体h或尾实体t的类型整体表示
Figure BDA0003614882400000078
Figure BDA0003614882400000079
融合,得到头实体整体嵌入h和尾实体整体嵌入t。
2、所述解码器实现的过程:
2-1)将从编码器得到的头实体整体嵌入h和尾实体整体嵌入t和关系嵌入r进行2Dreshape转换,转换后包括头实体2D嵌入表示
Figure BDA0003614882400000081
关系2D嵌入表示
Figure BDA0003614882400000082
和尾实体2D嵌入表示
Figure BDA0003614882400000083
2-2)通过拼接层,分别将转换后的头实体2D嵌入表示
Figure BDA0003614882400000084
和关系2D嵌入表示
Figure BDA0003614882400000085
以及转换后的尾实体2D嵌入表示
Figure BDA0003614882400000086
和关系2D嵌入表示
Figure BDA0003614882400000087
拼接起来,得到拼接向量
Figure BDA0003614882400000088
Figure BDA0003614882400000089
2-3)将得到的拼接向量
Figure BDA00036148824000000810
Figure BDA00036148824000000811
通过动态卷积层,生成特征图;具体内容是:首先,将拼接后的2D表示
Figure BDA00036148824000000812
Figure BDA00036148824000000813
依次经过平均池化层和带有Relu激活函数的两层全连接层,得到z(x),其中x代表拼接后的2D表示
Figure BDA00036148824000000814
Figure BDA00036148824000000815
然后,通过Softmax输出概率化的卷积核权重πi
Figure BDA00036148824000000816
其中,n代表卷积核数量,z(x)表示通过平均池化和两层线性层得到的特征,0≤πi≤1且
Figure BDA00036148824000000817
动态卷积核通过对每个卷积核加权求和得到:
Figure BDA00036148824000000818
其中,ωi代表第i个卷积核,πi表示第i个卷积核的权重,ω(x)是由动态卷积层最终得到的卷积核;
最后,使用卷积核ω(x)对拼接后的2D表示
Figure BDA00036148824000000819
Figure BDA00036148824000000820
进行卷积操作,得到特征图。
2-4)通过全连接层将所述特征图映射到与所述初始嵌入相同的维度,表示式如下:
g(x)=f(x*ω(x))W
其中,W是全连接层参数。
2-5)通过向量乘得分函数计算三元组得分;
2-6)通过最小化交叉熵损失训练模型参数,得到训练后的模型。
具体内容是:对得分函数使用Logistic sigmoid函数σ(·)处理,即sτ=σ(ψτ(h,r,t)),公式如下:
Figure BDA00036148824000000821
其中,T为数据集三元组集合,T′为负例三元组集合,tτ是三元组τ的标签,当三元组τ为正例三元组时tτ取1,否则取0;以上过程重复多次后,输出训练模型,模型训练过程结束。
2-7)以知识图谱中的实体-关系对作为步骤2-6)训练后的模型的输入,将该模型输出的得分大于0.75的三元组作为新增三元组用于补全知识图谱。
三、本发明所述的知识图谱的补全方法效果的验证
参见表1,本发明在包括WN18RR、FB15k-237和UMLS在内的三个数据集上进行了知识图谱链接预测任务,在WN11、FB13两个数据集上进行了三元组分类任务。知识图谱链接预测任务和三元组分类为知识图谱补全任务的子任务,用于验证知识图谱补全效果。表1给出了本发明使用的五个数据集的具体描述,包括实体、关系数,训练、验证、测试集数。
表1评测数据集统计表
Figure BDA0003614882400000091
参见表2,为了评估所提出方法Pre-Geformer的有效性,本发明将新模型与几种最先进的知识图谱链接预测任务方法进行比较,包括5种基于翻译模型方法,2种语义匹配模型方法,4种基于神经网络方法以及2种基于预训练模型方法。表2展示了以上13种方法与本发明所提出的Pre-Geformer方法在三个数据集上进行链接预测任务的实验结果。可以看到,Pre-Geformer在两个数据集上几乎所有的指标都优于所有的竞争基准,并在UMLS上获得接近最佳的结果。在WN18RR数据集上,提议的模型在Hits@10上增加了2.1%。而在FB15k-237上,它在MR和Hits@10上也分别增加了12.4%和2.9%。在UMLS上,由于UMLS数据集的规模较小,模型的参数没有被很好地训练,Pre-Geformer没有取得好的结果。
表2在评测数据集上的链接预测实验结果表
Figure BDA0003614882400000092
Figure BDA0003614882400000101
参见表3,为了评估所提出方法Pre-Geformer的有效性,本发明将新模型与几种最先进的三元组分类任务方法进行比较,包括7种基于翻译模型方法,2种语义匹配模型方法,4种基于神经网络方法以及1种基于预训练模型方法。从表3可以发现,本发明在WN11和FB13上都取得了最好的实验结果。在这两个数据集上,与KG-BERT相比,Pre-Geformer的结果平均提高了1.2%。而与非BERT模型相比,本发明的结果提高了4.5%。分析两个数据集的性能,预训练模型方法中的模型优于基于翻译模型方法、语义匹配模型和基于神经网络方法的任何其他模型,这表明预训练模型本身的优越性。特别地,Pre-Geformer的性能优于KG-BERT,这证明了所提出的方法能够很好地结合先验权重信息,有效地解决提出的实体的多语义问题。
表3两种数据集上的三元组分类实验结果表
Figure BDA0003614882400000102
参见表4,为了确定每个组成部分在Pre-Geformer中的重要性,进行了消融实验。通过考虑三个版本的Pre-Geformer来进行实验:(1)不包含先验权重增强的注意力机制(即没有先验权重信息);(2)不使用基于动态卷积的解码器;(3)既不使用先验权重增强的注意力机制,也不使用基于动态卷积的解码器。在这三个消融的模型上评估结果将帮助确定这两个组件对性能的单独和累积影响。表4给出了本研究在WN18RR和FB15k-237数据集链接预测的结果。可以看到去除这两个组件中的任何一个或两个,都会导致性能下降。去除先验权增强注意机制会导致MR下降5.6%,Hits@10平均下降4.4%。此外,仅仅去除基于动态卷积的解码器,MR就减少了11.8%,而去除这两个组件,Hits@10的降幅最大,为13.2%。这些结果验证了先验权增强注意机制和基于动态卷积的解码器的重要性,因为去除其中一个就会导致性能的下降。
表4两种数据集上的消融实验结果
Figure BDA0003614882400000111
参见图5,给出了通过先验权重增强的Attention机制得到的Freebase中的五个实体对应实体类型权重可视化表示。这五个实体分别是USA,Liverpool,Official Website,Actor-GB和Kenneth Brian,分别对应22、10、3、5和6种实体类型。观察到对于USA实体,c1对应的country类型的权重最大,其次为c2对应的location类型,最后为sport country、olympic participating country等权重较小的类型。对于Actor-GB实体,c1对应的profession类型和c2对应的film character类型的权重较大,其次为gardening hint、object和field of study类型。而对于实体Kenneth Brian,他作为person、artist、awardwinner和group member的权重较大,而其他类型的权重较小。这和现实世界相符合,即,当提到Kenneth Brian,会马上联想到他是一个artist,且获得过多项奖项。这证明本发明所提出的通用实体类型编码器可以较好的拟合真实情况,即准确地将类型信息融入到实体的整体表示中,从而使得实体的语义更丰富。
参见图6,研究了基于动态卷积的Decoder部分的案例分析。以实体Kenneth Brian为例,Kenneth Brian为person、artist、award winner、award nominee、group member和topic 6种类型的实例。图6对Kenneth Brian在5个关系中的卷积核权重进行了可视化。由图可观察到,实体Kenneth Brian在每个关系时,得到的卷积核的权重不同。在关系/genre/artists中,对应于conv2和conv4的权重较大。关系/artists/genre的权重分布与关系/genre/artists相似,这可能是由于Kenneth Brian在关系/genre/artists和/artists/genre中都主要充当artist。关系/award/award/nominee和/award/award的权重分布比较相似,这可以解释为award winner和award nominee的语义比较相似。在关系/place_of_birth中,conv6对应的类型权重较大,在此关系中Kenneth Brian主要表达的是人物类型。基于动态卷积的解码器通过改变卷积核的权重使同一实体在不同关系中代表不同的类型。该案例研究可以发现,卷积核的权重在不同的关系中确实会发生变化。这证明本发明提出的基于动态卷积的解码器可以通过改变卷积核的权重更好地适应实际情况,使实体在不同的关系中表达其准确的语义。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (7)

1.一种基于先验权重增强的知识图谱的补全方法,知识图谱被形式化定义为G=(E,R,C,T),其中,E表示实体集合,R表示关系集合,C表示实体类型集合,T代表训练集三元组集合;三元组形式化为τ=(h,r,t),其中,头实体h∈E,尾实体t∈E,关系r∈R;头实体h对应类型表示为ch,尾实体t对应类型表示为ct;其特征在于:
该方法由一个实体编码器和一个解码器来实现知识图谱的补全;
利用所述实体编码器实现如下过程:
1-1)对于训练集三元组集合T,通过负采样方法得到负例三元组集合T′;
1-2)统计训练集三元组T和负例三元组T′中头实体h出现对应类型ch的频率Freq(h,ch)以及尾实体t出现对应类型ct的频率Freq(t,ct);
1-3)从训练集三元组集合T和负例三元组T′中随机选择一个三元组,分别将三元组中的关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息作为输入,通过预训练语言模型BERT得到初始嵌入,包括:头实体初始嵌入h′和头实体类型嵌入ch、尾实体初始嵌入t′和尾实体类型嵌入ct以及关系嵌入r;
1-4)通过先验权重增强的注意力机制,将头实体初始嵌入h′或尾实体初始嵌入t′作为Query,对应头实体类型嵌入ch或尾实体类型嵌入ct作为Key和Value,使用缩放点积方法得到计算出的权重矩阵;
通过非线性函数对频率Freq(h,ch)或Freq(t,ct)进行变换得到的先验权重矩阵;
计算出的权重矩阵和先验权重矩阵加权求和,通过Softmax概率化函数作为最终的权重矩阵;
使用最终的权重矩阵对头实体类型嵌入ch或尾实体类型嵌入ct加权求和,得到头实体h或尾实体t的类型整体表示
Figure FDA0003614882390000011
Figure FDA0003614882390000012
1-5)通过残差网络分别将步骤1-3)得到的头实体初始嵌入h′和尾实体初始嵌入t′与步骤1-4)得到的头实体h或尾实体t的类型整体表示
Figure FDA0003614882390000013
Figure FDA0003614882390000014
融合,得到头实体整体嵌入h和尾实体整体嵌入t;
利用所述解码器实现如下过程:
2-1)将从编码器得到的头实体整体嵌入h和尾实体整体嵌入t和关系嵌入r进行2Dreshape转换,转换后包括头实体2D嵌入表示
Figure FDA0003614882390000015
关系2D嵌入表示
Figure FDA0003614882390000016
和尾实体2D嵌入表示
Figure FDA0003614882390000017
2-2)通过拼接层,分别将转换后的头实体2D嵌入表示
Figure FDA0003614882390000018
和关系2D嵌入表示
Figure FDA0003614882390000019
以及转换后的尾实体2D嵌入表示
Figure FDA00036148823900000110
阳关系2D嵌入表示
Figure FDA00036148823900000111
拼接起来,得到拼接向量
Figure FDA00036148823900000112
Figure FDA00036148823900000113
2-3)将得到的拼接向量
Figure FDA00036148823900000114
Figure FDA00036148823900000115
通过动态卷积层,生成特征图;
2-4)通过全连接层将所述特征图映射到与所述初始嵌入相同的维度;
2-5)通过向量乘得分函数计算三元组得分;
2-6)通过最小化交叉熵损失训练模型参数,得到训练后的模型;
2-7)以知识图谱中的实体-关系对作为步骤2-6)训练后的模型的输入,将该模型输出的得分大于0.75的三元组作为新增三元组用于补全知识图谱。
2.根据权利要求1所述的知识图谱的补全方法,其特征在于,步骤1-3)的具体内容如下:
对于给定的三元组(h,r,t),分别将关系r、头实体h和头实体对应类型ch以及尾实体t和尾实体对应类型ct的文本描述信息送入Hugging Face公开预先训练好的BERT模型当中,将BERT嵌入结果中句子级语义信息[CLS]嵌入作为相应初始嵌入表示。
3.根据权利要求1所述的知识图谱的补全方法,其特征在于,步骤1-4)中,获得最终的权重矩阵的方法如下:
使用一个非线性函数f(x)=loga(x+1)作为频率到相关性的映射,频率越高,相关性越高,否则,反之;当频率小于0时,相关性得到0;对得到的相关性进行归一化处理,作为实体类型的先验权重矩阵;通过将先验权重矩阵与计算出的权重矩阵加权和,然后归一化获得最终的权重矩阵,计算公式如下:
Figure FDA0003614882390000021
p(e,ce)=loga(Freq(e,ce)+1),a>1
Figure FDA0003614882390000022
Figure FDA0003614882390000023
其中,e对应实体初始嵌入,ce为实体e对应类型ce的初始嵌入,p(e,ce)为实体e表达类型ce的先验权重矩阵,
Figure FDA0003614882390000024
为通过计算得出实体e表达类型ce的权重矩阵,
Figure FDA0003614882390000025
为实体e的类型整体表示,n为实体表达类型的数量。
4.根据权利要求1所述的知识图谱的补全方法,其特征在于,步骤2-3)的具体过程如下:
首先,将拼接后的2D表示
Figure FDA0003614882390000026
Figure FDA0003614882390000027
依次经过平均池化层和带有Relu激活函数的两层全连接层,得到z(x),其中x代表拼接后的2D表示
Figure FDA0003614882390000028
Figure FDA0003614882390000029
然后,通过Softmax输出概率化的卷积核权重πi
Figure FDA00036148823900000210
其中,n代表卷积核数量,z(x)表示通过平均池化和两层线性层得到的特征,0≤πi≤1且
Figure FDA00036148823900000211
动态卷积核通过对每个卷积核加权求和得到:
Figure FDA0003614882390000031
其中,ωi代表第i个卷积核,πi表示第i个卷积核的权重,ω(x)是由动态卷积层最终得到的卷积核;
最后,使用卷积核ω(x)对拼接后的2D表示
Figure FDA0003614882390000032
Figure FDA0003614882390000033
进行卷积操作,得到特征图。
5.根据权利要求1所述的知识图谱补全方法,其特征在于,步骤2-4)中,通过全连接层将特征图映射到与初始嵌入相同的维度,表示式如下:
g(x)=f(x*ω(x))W
其中,W是全连接层参数。
6.根据权利要求1所述的知识图谱的补全方法,其特征在于,步骤2-5)中,通过向量乘得分函数计算三元组得分,公式如下:
Figure FDA0003614882390000034
7.根据权利要求1所述的知识图谱的补全方法,其特征在于,步骤2-6)中,对得分函数使用Logistic sigmoid函数σ(·)处理,即sτ=σ(ψτ(h,r,t)),公式如下:
Figure FDA0003614882390000035
其中,T为数据集三元组集合,T′为负例三元组集合,tτ是三元组τ的标签,当三元组τ为正例三元组时tτ取1,否则取0;以上过程重复多次后,输出训练模型,模型训练过程结束。
CN202210440426.3A 2022-04-25 2022-04-25 基于先验权重增强的知识图谱的补全方法 Pending CN114780748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210440426.3A CN114780748A (zh) 2022-04-25 2022-04-25 基于先验权重增强的知识图谱的补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210440426.3A CN114780748A (zh) 2022-04-25 2022-04-25 基于先验权重增强的知识图谱的补全方法

Publications (1)

Publication Number Publication Date
CN114780748A true CN114780748A (zh) 2022-07-22

Family

ID=82433816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210440426.3A Pending CN114780748A (zh) 2022-04-25 2022-04-25 基于先验权重增强的知识图谱的补全方法

Country Status (1)

Country Link
CN (1) CN114780748A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN116306936A (zh) * 2022-11-24 2023-06-23 北京建筑大学 基于层次关系旋转和实体旋转的知识图谱嵌入方法及模型
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法
CN117273003A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法
CN117390091A (zh) * 2023-12-13 2024-01-12 福建天晴数码有限公司 一种教育元宇宙中的知识追踪方法及终端

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN116306936A (zh) * 2022-11-24 2023-06-23 北京建筑大学 基于层次关系旋转和实体旋转的知识图谱嵌入方法及模型
CN116416667A (zh) * 2023-04-25 2023-07-11 天津大学 基于动态关联信息嵌入的面部动作单元检测方法
CN116416667B (zh) * 2023-04-25 2023-10-24 天津大学 基于动态关联信息嵌入的面部动作单元检测方法
CN117273003A (zh) * 2023-11-14 2023-12-22 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法
CN117273003B (zh) * 2023-11-14 2024-03-12 腾讯科技(深圳)有限公司 文本数据处理方法、模型训练方法以及命名实体识别方法
CN117390091A (zh) * 2023-12-13 2024-01-12 福建天晴数码有限公司 一种教育元宇宙中的知识追踪方法及终端
CN117390091B (zh) * 2023-12-13 2024-02-09 福建天晴数码有限公司 一种教育元宇宙中的知识追踪方法及终端

Similar Documents

Publication Publication Date Title
CN114780748A (zh) 基于先验权重增强的知识图谱的补全方法
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
US10489914B2 (en) Method and apparatus for parsing and processing three-dimensional CAD model
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
CN115908908B (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
CN112818889A (zh) 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN115222998B (zh) 一种图像分类方法
CN112733602B (zh) 关系引导的行人属性识别方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN115080761A (zh) 一种基于语义感知的低资源知识图谱实体对齐方法
CN115587626A (zh) 异质图神经网络属性补全方法
CN116502181A (zh) 基于通道扩展与融合的循环胶囊网络多模态情感识别方法
CN115131605A (zh) 一种基于自适应子图的结构感知图对比学习方法
CN113836319B (zh) 融合实体邻居的知识补全方法及系统
CN117994623A (zh) 一种图像特征向量的获取方法
CN115186072A (zh) 一种基于双过程认知理论的知识图谱视觉问答方法
CN117150041A (zh) 一种基于强化学习的小样本知识图谱补全方法
CN114936327B (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质
Liu et al. Entity representation learning with multimodal neighbors for link prediction in knowledge graph
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination