CN112561064B - 基于owkbc模型的知识库补全方法 - Google Patents

基于owkbc模型的知识库补全方法 Download PDF

Info

Publication number
CN112561064B
CN112561064B CN202011518699.2A CN202011518699A CN112561064B CN 112561064 B CN112561064 B CN 112561064B CN 202011518699 A CN202011518699 A CN 202011518699A CN 112561064 B CN112561064 B CN 112561064B
Authority
CN
China
Prior art keywords
representation
entity
text
embedded
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011518699.2A
Other languages
English (en)
Other versions
CN112561064A (zh
Inventor
汪璟玢
苏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011518699.2A priority Critical patent/CN112561064B/zh
Publication of CN112561064A publication Critical patent/CN112561064A/zh
Application granted granted Critical
Publication of CN112561064B publication Critical patent/CN112561064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种基于OWKBC模型的知识库补全方法,包括以下步骤:步骤S1:获取知识库数据,并预处理,得到的实体对应的文本嵌入表示和图像嵌入表示;步骤S2:结合多模态知识编码器和TransE模型,构建基于翻译的多模态知识编码器;步骤S3:将实体的图像嵌入表示和文本嵌入表示输入到基于翻译的多模态知识编码器,得到实体和关系的嵌入表示;步骤S4:根据得到的实体和关系的嵌入表示输入到解码器中,获得实体和关系之间潜在的语义关系,完成知识库补全。本发明能够有效融合实体对应的图像信息和文本信息生成实体的嵌入表示,解决OOKB(Out‑Of‑Knowledge‑Base)实体问题,完成开放世界下的知识库补全。

Description

基于OWKBC模型的知识库补全方法
技术领域
本发明涉及一种基于OWKBC模型的知识库补全方法。
背景技术
近些年来出现了各种各样的知识库补全方法,如基于概率图的方法、基于路径的方法、基于表示学习的方法等,其中基于表示学习的方法是目前知识库补全比较活跃的研究领域。表示学习的目标是通过深度学习或者机器学习,提取出研究对象有效特征并且将其对应的语义信息表示为稠密低维的嵌入向量。知识表示学习主要是学习实体和关系的分布式嵌入。
已有的表示学习模型根据所使用的信息可以分为基于结构知识的表示学习方法和融入外部模态信息的表示学习方法。其中基于结构知识的表示学习方法主要包括:1)基于翻译/平移的知识图表示学习方法,如TransE、TransH、TransR;2)基于张量/矩阵分解的方法,如RESCAL、DisMult、ComplEx等模型;3)基于神经网络的表示学习模型,如DSKG、ConvE、ConvKB、CapsE等。这类方法,在训练时只考虑独立三元组的信息,易受显式存储知识的限制,从而导致知识补全的效果不稳定。与基于结构知识的表示学习模型相比,融入外部信息的表示学习方法更加稳定,主要在于这类模型在对实体建模时,在结构知识中加入知识库之外的属性、文本描述或图像等模态信息。这些模态信息不仅包括知识库中含有的知识,而且包括一些三元组难以描述的知识,因此其能丰富和扩充已有的知识库,提供更加丰富和多样的语义信息。现有的模型根据所使用的辅助信息可以分为:1)融入文本信息的表示学习模型,如AKRL模型、DKRL模型、SSP模型、TEKE模型和Veira等提出的WWV、PE-WWV和FeatureSum方法;2)融入图像的表示学习模型,如IKRL模型;3)融入多模态的表示学习模型,如MKBE模型和Mousselly等提出的基于多模态的翻译模型。
现有的知识表示学习方法在知识库补全工作上取得了显著的成功,但这些工作都基于一个封闭世界假设,即认为知识库是固定不变的,只能通过知识库中已存在的实体和关系去发现缺失的三元组。这就导致了基于封闭世界的知识库补全模型严重依赖于知识库的连通性,因此对于那些连通不良的实体,这些模型无法发挥其最优性能,对于新出现的实体即知识库之外的实体则无法生成对应的嵌入表示,只能重新训练模型。但事实是,现实世界的知识库发展得十分迅速,例如,DBPedia知识库在2015年10月到2016年4月增加了36340个新的实体,平均每天就会出现200个新的实体。显然那些需要频繁重新训练的模型是十分耗费精力。目前已有的针对开放世界知识库补全的方法,大多只用文本信息来编码这些新实体的嵌入表示,忽略了图像中所包含的丰富信息
发明内容
有鉴于此,本发明的目的在于提供一种基于OWKBC模型的知识库补全方法,解决OOKB(Out-Of-Knowledge-Base)实体问题,完成开放世界下的知识库补全。
为实现上述目的,本发明采用如下技术方案:
一种基于OWKBC模型的知识库补全方法,包括以下步骤:
步骤S1:获取知识库数据,并预处理,得到的实体对应的文本嵌入表示和图像嵌入表示;
步骤S2:结合多模态知识编码器和TransE模型,构建基于翻译的多模态知识编码器;
步骤S3:将实体的图像嵌入表示和文本嵌入表示输入到基于翻译的多模态知识编码器,得到实体和关系的嵌入表示;
步骤S4:根据得到的实体和关系的嵌入表示输入到解码器中,获得实体和关系之间潜在的语义关系,完成知识库补全。
进一步的,所述步骤S1具体为:
设定知识库KB=(E,R,T)
其,E是实体的集合,R是关系的集合,T={(h,r,t)}是三元组的集合;
使用TransE算法对知识库中实体和关系进行预训练,得到头实体、关系和尾实体的结构嵌入表示;
对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本嵌入表示;
对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用若干图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像嵌入表示。
进一步的,所述基于翻译的多模态知识编码器包括多模态知识编码器和TransE模型。
进一步的,所述步骤S3具体为:
步骤S31:将预处理得到的实体对应的文本嵌入表示et和图像嵌入表示ei,输入到MKE模块中得到实体基于多模态知识的编码emulti
步骤S32:将关系嵌入表示vr和实体基于多模态的编码emulti输入到TransE模型中,通过最小化损失函数,对实体和关系的嵌入表示进行训练,最终得到实体和关系的嵌入表示。
进一步的,所述多模态知识编码器包括基于GRU的多模态知识编码器GRU-MKE和基于门结构的多模态知识编码器Gate-MKE
进一步的,所述GRU-MKE编码器的输入为实体的文本嵌入表示和图像嵌入表示,其输出为实体基于多模态知识的编码,具体如下:
首先,将输入的文本嵌入表示
Figure BDA0002848822280000041
和图像嵌入表示/>
Figure BDA0002848822280000042
分别经过一个全连接层,得到降维后的文本嵌入表示/>
Figure BDA0002848822280000043
和图像嵌入表示/>
Figure BDA0002848822280000044
具体计算公式如(1)和(2)所示:
vt=et·Wt+bt (1)
vi=ei·Wi+bi (2)
其中
Figure BDA0002848822280000045
为全连接层可训练的参数;
使用降维后的文本嵌入表示vt和图像嵌入表示vi计算重置门控Gr和更新门控Gu的状态;首先将文本嵌入表示vt和图像嵌入表示vi拼接,将其作为全连接层的输入;然后使用Sigmoid非线性函数将全连接层的输出映射到(0,1)区间,以此来得到门控信号;
重置门的计算过程如公式(3)所示,更新门的计算公式如(4)所示:
Gr=σ([vt;vi]·Wr+br) (3)
Gu=σ([vt;vi]·Wu+bu) (4)
其中
Figure BDA0002848822280000051
和/>
Figure BDA0002848822280000052
分别为重置门全连接层的权重矩阵和偏参,/>
Figure BDA0002848822280000053
和/>
Figure BDA0002848822280000054
为更新门全连接层的权重矩阵和偏参,[;]表示拼接操作,σ表示Sigmoid激活函数。
将重置门Gr与输入的实体文本嵌入表示vt进行一个哈达玛积,来确定文本嵌入表示需要过滤和保留的信息;然后将过滤后的文本嵌入表示与图像嵌入表示vi进行一个拼接操作,经过一个线性变换,即右乘矩阵Wh,再将变换后的结果输入到双曲正切激活函数tanh中,得到候选隐藏状态的嵌入
Figure BDA0002848822280000055
计算过程如公式(5)所示
Figure BDA0002848822280000056
其中
Figure BDA0002848822280000057
为线性变换操作可训练的参数。
更新门用于控制文本嵌入表示中有多少信息被写入到候选当前隐藏状态表示中,Gu控制信号越接近1,表示被留下的信息越多,而越接近0则表示遗忘的越多;更新门的输出分别和文本嵌入表示以及候选隐藏状态的嵌入进行乘法操作,得到实体的隐藏层嵌入表示h,计算公式如(6)所示。
Figure BDA0002848822280000058
最后将得到的实体隐藏层嵌入表示h,经过一个全连接层,得到实体基于多模态知识的编码,计算公式如(7)所示。
emulti=h·We+be (7)。
其中
Figure BDA0002848822280000061
为全连接层可训练的参数。
进一步的,所述基于Gate的多模态知识编码器GRU-MKE输入为实体的文本嵌入表示和图像嵌入表示,输出为实体基于多模态知识的编码,具体为:
首先,将输入的实体的文本嵌入表示
Figure BDA0002848822280000062
和图像嵌入表示/>
Figure BDA0002848822280000063
分别经过一个全连接层,将它们映射到相同维度的空间中,得到降维后的文本嵌入表示/>
Figure BDA0002848822280000064
和图像嵌入表示/>
Figure BDA0002848822280000065
以便后续的融合操作;降维过程的计算公式如(8)和(9)所示:
vt=et·Wt+bt (8)
vi=ei·Wi+bi (9)
其中
Figure BDA0002848822280000066
为全连接层可训练的参数;
然后利用降维后的文本嵌入表示和图像嵌入表示来获得控制门的状态;将文本嵌入表示vt和图像嵌入表示vi拼接,然后将拼接后的向量经过一个全连接层,将向量映射到M维空间中,最后经过一个非线性激活函数Sigmoid,将向量的每一维元素都映射到0到1之间;值越接近1,表示留下来的信息越多,值越接近0表示信息遗忘的越多;
控制门的计算公式如(10)所示。
z=σ([vt;vi]·Wz+bz) (10)
其中σ表示Sigmoid激活函数,[;]表示拼接操作,
Figure BDA0002848822280000071
为全连接层的映射矩阵,/>
Figure BDA0002848822280000072
表示偏参;控制门主要控制文本特征和图像特征到底有多少信息可以被用于生成实体的隐藏嵌入表示he,具体的计算公式如(11)所示;
he=(1-z)*vt+z*vi (11)
其中(1-z)*vt表示对文本嵌入表示进行选择和遗忘,z*vi表示对图像嵌入表示进行选择和遗忘,(1-z)*vt+z*vi表示对选择后的文本嵌入表示和图像嵌入表示进行融合;
最后将获得的隐藏嵌入表示he经过一个线性变换,得到最终的实体基于多模态知识的编码
Figure BDA0002848822280000073
计算公式如(12)所示:
emulti=he·We+be (12)。
进一步的,所述多模态知识编码器训练使用实体结构嵌入表示es;最小化损失函数loss1来加速学习过程,计算公式如(13)所示:
Figure BDA0002848822280000074
对于输入的有效三元组(h,r,t),实体和关系嵌入表示应满足h+r≈t,表示t是通过关系r连接的h的最近邻居;最小化距离函数d(hmulti+vr,tmulti)=||hmulti+vr-tmulti||1/2来学习包含文本和图像信息的实体嵌入以及关系的嵌入,损失函数的计算公式如(14)所示:
Figure BDA0002848822280000081
其中,γ>0表示超参数,[x]+等价于max{x,0},T表示知识库中正确三元组的集合,T'为负例三元组,它是随机替换T中正例样本的头实体或尾实体来构造的,可以形式化为公式(15):
T'={(h',r,t)|h'∈E\h}∪{(h,r,t')|t'∈E\t} (15)
基于翻译的多模态知识编码器在训练期间的损失函数为上述两部分损失之和,计算公式为(16):
loss=α·loss1+β·loss2 (16)
其中,α和β为权重参数,用于调节两部分损失的比重。
进一步的,所述解码器采用CapsE具体为:对于输入的三元组(h,r,t),使用基于翻译的多模态知识编码器训练得到的实体和关系嵌入表示进行初始化,得到头实体基于多模态的嵌入表示hmulti,关系的结构嵌入表示vr和尾实体基于多模态知识的嵌入表示tmulti,然后将它们按列拼接,输入到CapsE模型中训练;
CapsE模型的评分函数为公式(17):
score(h,r,t)=||capsnet(g([hmulti;vr;tmulti]*Ω))|| (17)
其中capsnet表示胶囊网络,g表示非线性激活函数,*表示卷积操作,Ω表示卷积核的集合。训练过程中,使用自适应低阶矩估计优化器Adam优化器,损失函数的计算公式如(18)和(19)所示:
Figure BDA0002848822280000091
Figure BDA0002848822280000092
使用测试集对解码器训练得到的模型进行验证,最后完成知识库补全。
进一步的,所述验证采用链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率Hits@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果。
本发明与现有技术相比具有以下有益效果:
本发明能够有效融合实体对应的图像信息和文本信息生成实体的嵌入表示,解决OOKB(Out-Of-Knowledge-Base)实体问题,完成开放世界下的知识库补全。
附图说明
图1是本发明方法框架图;
图2是本发明一实施例中基于翻译的多模态知识编码器TransMKE架构图;
图3是本发明一实施例中基于GRU的多模态知识编码器GRU-MKE示意图;
图4是本发明一实施例中基于门结构的多模态知识编码器Gate-MKE示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于OWKBC模型的知识库补全方法,包括以下步骤:
步骤S1:获取知识库数据,并预处理,得到的实体对应的文本嵌入表示和图像嵌入表示;
步骤S2:结合多模态知识编码器和TransE模型,构建基于翻译的多模态知识编码器;
步骤S3:将实体的图像嵌入表示和文本嵌入表示输入到基于翻译的多模态知识编码器,得到实体和关系的嵌入表示;
步骤S4:根据得到的实体和关系的嵌入表示输入到解码器中,获得实体和关系之间潜在的语义关系,完成知识库补全。
在本实施例中,预设E={e1,e2,...,en},表示知识库中所有实体的集合,对应于知识图谱中所有的节点;R={r1,r2,...,rm},表示知识库中所有关系的集合。对应知识图谱中所有的边;triple=(h,r,t)表示一个三元组,h表示头实体,r表示关系,t表示尾实体,其中h,t∈E,r∈R。一个三元组也称为一个事实或一个知识;知识库KB=(E,R,T),其中T={(h,r,t)}为三元组的集合;结构嵌入表示
Figure BDA0002848822280000111
文本嵌入表示/>
Figure BDA0002848822280000112
和图像嵌入表示
Figure BDA0002848822280000113
其中M,N,P表示嵌入的维度;基于结构知识的嵌入表示/>
Figure BDA0002848822280000114
给定一个知识库KB=(E,R,T),开放世界中的知识库补全主要是找到一组缺失的三元组T',来补全知识库,其中/>
Figure BDA0002848822280000116
E'为实体超集:/>
Figure BDA0002848822280000115
在本实施例中,数据预处理,具体为:使用TransE算法对知识库中实体和关系进行预训练,得到头实体、关系和尾实体的结构嵌入表示;知识库中每一个实体都有一段文本描述和十张图像与其相对应;
对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本嵌入表示;
对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像嵌入表示。
在本实施例中,结合多模态知识编码器(Multimodal knowledge encoder,MKE)和翻译嵌入(Translating Embedding,TransE)提出了一种基于翻译的多模态知识编码器TransMKE。TransMKE的整体架构如图2所示。具体为:
首先将预处理得到的实体对应的文本嵌入表示et和图像嵌入表示ei,输入到MKE模块中得到实体基于多模态知识的编码emulti
使用预训练得到的关系结构嵌入表示对关系嵌入表示vr进行初始化,接着将关系嵌入表示vr和实体基于多模态的编码emulti输入到TransE模型中,通过最小化损失函数,对实体和关系的嵌入表示进行训练,最终得到实体和关系的嵌入表示。
优选的,在本实施例中,多模态知识编码器包括两种策略:基于GRU的多模态知识编码器GRU-MKE和基于门结构的多模态知识编码器Gate-MKE。
进参考图3,,所述GRU-MKE编码器的输入为实体的文本嵌入表示和图像嵌入表示,其输出为实体基于多模态知识的编码,具体如下:
首先,将输入的文本嵌入表示
Figure BDA0002848822280000121
和图像嵌入表示/>
Figure BDA0002848822280000122
分别经过一个全连接层,得到降维后的文本嵌入表示/>
Figure BDA0002848822280000123
和图像嵌入表示/>
Figure BDA0002848822280000124
具体计算公式如(1)和(2)所示:
vt=et·Wt+bt (1)
vi=ei·Wi+bi (2)
其中
Figure BDA0002848822280000125
为全连接层可训练的参数;
使用降维后的文本嵌入表示vt和图像嵌入表示vi计算重置门控Gr和更新门控Gu的状态;首先将文本嵌入表示vt和图像嵌入表示vi拼接,将其作为全连接层的输入;然后使用Sigmoid非线性函数将全连接层的输出映射到(0,1)区间,以此来得到门控信号;
重置门的计算过程如公式(3)所示,更新门的计算公式如(4)所示:
Gr=σ([vt;vi]·Wr+br) (3)
Gu=σ([vt;vi]·Wu+bu) (4)
其中
Figure BDA0002848822280000131
和/>
Figure BDA0002848822280000132
分别为重置门全连接层的权重矩阵和偏参,/>
Figure BDA0002848822280000133
和/>
Figure BDA0002848822280000134
为更新门全连接层的权重矩阵和偏参,[;]表示拼接操作,σ表示Sigmoid激活函数。
重置门和更新门是一个由0到1之间的数值组成的向量,反映了信息被保留或过滤的程度,例如,0表示将该位置对应的信息全部被过滤或遗忘,1表示将该位置对应的信息全部被保留。因此重置门和更新门可以控制一个输入数据的信息量。本发明使用重置门来控制文本嵌入有多少信息可以和图像嵌入进行融合。将重置门Gr与输入的实体文本嵌入表示vt进行一个哈达玛积(Hadamardproduct),来确定文本嵌入表示需要过滤和保留的信息。然后将过滤后的文本嵌入表示与图像嵌入表示vi进行一个拼接操作,经过一个线性变换,即右乘矩阵Wh,再将变换后的结果输入到双曲正切激活函数tanh中,得到候选隐藏状态的嵌入
Figure BDA0002848822280000135
计算过程如公式(5)所示
Figure BDA0002848822280000136
其中
Figure BDA0002848822280000137
为线性变换操作可训练的参数。
更新门用于控制文本嵌入表示中有多少信息被写入到候选当前隐藏状态表示中,Gu控制信号越接近1,表示被留下的信息越多,而越接近0则表示遗忘的越多;更新门的输出分别和文本嵌入表示以及候选隐藏状态的嵌入进行乘法操作,得到实体的隐藏层嵌入表示h,计算公式如(6)所示。
Figure BDA0002848822280000141
最后将得到的实体隐藏层嵌入表示h,经过一个全连接层,得到实体基于多模态知识的编码,计算公式如(7)所示。
emulti=h·We+be (7)。
其中
Figure BDA0002848822280000142
为全连接层可训练的参数。
参考图4,在本实施例中,使用门控单元,来整合实体的文本特征和图像特征,基于Gate的多模态知识编码器GRU-MKE输入为实体的文本嵌入表示和图像嵌入表示,输出为实体基于多模态知识的编码,具体为:
首先,将输入的实体的文本嵌入表示
Figure BDA0002848822280000143
和图像嵌入表示/>
Figure BDA0002848822280000144
分别经过一个全连接层,将它们映射到相同维度的空间中,得到降维后的文本嵌入表示/>
Figure BDA0002848822280000145
和图像嵌入表示/>
Figure BDA0002848822280000146
以便后续的融合操作;降维过程的计算公式如(8)和(9)所示:
vt=et·Wt+bt (8)
vi=ei·Wi+bi (9)
其中
Figure BDA0002848822280000147
为全连接层可训练的参数;
然后利用降维后的文本嵌入表示和图像嵌入表示来获得控制门的状态;将文本嵌入表示vt和图像嵌入表示vi拼接,然后将拼接后的向量经过一个全连接层,将向量映射到M维空间中,最后经过一个非线性激活函数Sigmoid,将向量的每一维元素都映射到0到1之间;值越接近1,表示留下来的信息越多,值越接近0表示信息遗忘的越多;
控制门的计算公式如(10)所示。
z=σ([vt;vi]·Wz+bz) (10)
其中σ表示Sigmoid激活函数,[;]表示拼接操作,
Figure BDA0002848822280000151
为全连接层的映射矩阵,/>
Figure BDA0002848822280000152
表示偏参;控制门主要控制文本特征和图像特征到底有多少信息可以被用于生成实体的隐藏嵌入表示he,具体的计算公式如(11)所示;
he=(1-z)*vt+z*vi (11)
其中(1-z)*vt表示对文本嵌入表示进行选择和遗忘,z*vi表示对图像嵌入表示进行选择和遗忘,(1-z)*vt+z*vi表示对选择后的文本嵌入表示和图像嵌入表示进行融合;其中z和(1-z)是相关联的,即对于传进来的文本嵌入表示有多少被选择性遗忘,就有多少的图像嵌入表示被记录下来对其进行补充,从而保持一种比较恒定的状态。
最后将获得的隐藏嵌入表示he经过一个线性变换,得到最终的实体基于多模态知识的编码
Figure BDA0002848822280000153
计算公式如(12)所示:
emulti=he·We+be (12)。
优选的,在本实施例中,使用实体结构嵌入表示es来帮助多模态知识编码器训练;最小化损失函数loss1来加速学习过程,计算公式如(13)所示:
Figure BDA0002848822280000161
对于输入的有效三元组(h,r,t),实体和关系嵌入表示应满足h+r≈t,表示t是通过关系r连接的h的最近邻居;最小化距离函数d(hmulti+vr,tmulti)=||hmulti+vr-tmulti||1/2来学习包含文本和图像信息的实体嵌入以及关系的嵌入,损失函数的计算公式如(14)所示:
Figure BDA0002848822280000162
其中,γ>0表示超参数,[x]+等价于max{x,0},T表示知识库中正确三元组的集合,T'为负例三元组,它是随机替换T中正例样本的头实体或尾实体来构造的,可以形式化为公式(15):
T'={(h',r,t)|h'∈E\h}∪{(h,r,t')|t'∈E\t} (15)
基于翻译的多模态知识编码器在训练期间的损失函数为上述两部分损失之和,计算公式为(16):
loss=α·loss1+β·loss2 (16)
其中,α和β为权重参数,用于调节两部分损失的比重。
在本实施例中,使用现有的基于结构知识的嵌入模型作为解码器,如ConvKB和CapsE。解码器的作用是提取三元组每一个维度上的全局嵌入特征并分析其内部的潜在语义特征,完成知识库补全。
优选的,解码器采用CapsE具体为:对于输入的三元组(h,r,t),使用基于翻译的多模态知识编码器训练得到的实体和关系嵌入表示进行初始化,得到头实体基于多模态的嵌入表示hmulti,关系的结构嵌入表示vr和尾实体基于多模态知识的嵌入表示tmulti,然后将它们按列拼接,输入到CapsE模型中训练;
CapsE模型的评分函数为公式(17):
score(h,r,t)=||capsnet(g([hmulti;vr;tmulti]*Ω))|| (17)
其中capsnet表示胶囊网络,g表示非线性激活函数,*表示卷积操作,Ω表示卷积核的集合。训练过程中,使用自适应低阶矩估计优化器Adam优化器,损失函数的计算公式如(18)和(19)所示:
Figure BDA0002848822280000171
Figure BDA0002848822280000172
使用测试集对解码器训练得到的模型进行验证,最后完成知识库补全。
在本实施例中,补全模型的验证采用链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率Hits@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果。
在本实施例中,具体的知识库补全:将经过损失函数训练模型后得到高评估指标的模型之后,模型应用于知识库KB2=(E2,R,T2),
Figure BDA0002848822280000181
遍历KB2中所有实体和关系组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在T2中的查询对,得到最终的查询对集;接着使用基于翻译的多模态知识编码器TransMKE,生成所有实体和关系的嵌入表示;然后将实体和关系的嵌入表示输入到解码器中,通过解码器的评分函数为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,将其合并到知识库中,完成知识库的补全。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种基于OWKBC模型的知识库补全方法,其特征在于,包括以下步骤:
步骤S1:获取知识库数据,并预处理,得到的实体对应的文本嵌入表示和图像嵌入表示;
步骤S2:结合多模态知识编码器和TransE模型,构建基于翻译的多模态知识编码器;
步骤S3:将实体的图像嵌入表示和文本嵌入表示输入到基于翻译的多模态知识编码器,得到实体和关系的嵌入表示;
步骤S4:根据得到的实体和关系的嵌入表示输入到解码器中,获得实体和关系之间潜在的语义关系,完成知识库补全;
所述解码器采用CapsE具体为:对于输入的三元组(h,r,t),使用基于翻译的多模态知识编码器训练得到的实体和关系嵌入表示进行初始化,得到头实体基于多模态的嵌入表示hmulti,关系的结构嵌入表示vr和尾实体基于多模态知识的嵌入表示tmulti,然后将它们按列拼接,输入到CapsE模型中训练;
CapsE模型的评分函数为公式(17):
score(h,r,t)=||capsnet(g([hmulti;vr;tmulti]*Ω))|| (17)
其中capsnet表示胶囊网络,g表示非线性激活函数,*表示卷积操作,Ω表示卷积核的集合;训练过程中,使用自适应低阶矩估计优化器Adam优化器,损失函数的计算公式如(18)和(19)所示:
Figure FDA0004011679580000021
Figure FDA0004011679580000022
使用测试集对解码器训练得到的模型进行验证,最后完成知识库补全。
2.根据权利要求1所述的基于OWKBC模型的知识库补全方法,其特征在于,所述步骤S1具体为:
设定知识库KB=(E,R,T)
其中,E是实体的集合,R是关系的集合,T={(h,r,t)}是三元组的集合;
使用TransE算法对知识库中实体和关系进行预训练,得到头实体、关系和尾实体的结构嵌入表示;
对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本嵌入表示;
对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用若干张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像嵌入表示。
3.根据权利要求1所述的基于OWKBC模型的知识库补全方法,其特征在于,所述基于翻译的多模态知识编码器包括多模态知识编码器和TransE模型。
4.根据权利要求3所述的基于OWKBC模型的知识库补全方法,其特征在于,所述步骤S3具体为:
步骤S31:将预处理得到的实体对应的文本嵌入表示et和图像嵌入表示ei,输入到MKE模块中得到实体基于多模态知识的编码emulti
步骤S32:将关系嵌入表示vr和实体基于多模态的编码emulti输入到TransE模型中,通过最小化损失函数,对实体和关系的嵌入表示进行训练,最终得到实体和关系的嵌入表示。
5.根据权利要求3所述的基于OWKBC模型的知识库补全方法,其特征在于,所述多模态知识编码器包括基于GRU的多模态知识编码器GRU-MKE和基于门结构的多模态知识编码器Gate-MKE。
6.根据权利要求5所述的基于OWKBC模型的知识库补全方法,其特征在于,所述GRU-MKE编码器的输入为实体的文本嵌入表示和图像嵌入表示,其输出为实体基于多模态知识的编码,具体如下:
首先,将输入的文本嵌入表示
Figure FDA0004011679580000031
和图像嵌入表示
Figure FDA0004011679580000032
分别经过一个全连接层,得到降维后的文本嵌入表示
Figure FDA0004011679580000033
和图像嵌入表示
Figure FDA0004011679580000034
具体计算公式如(1)和(2)所示:
vt=et·Wt+bt (1)
vi=ei·Wi+bi (2)
其中
Figure FDA0004011679580000035
为全连接层可训练的参数;
使用降维后的文本嵌入表示vt和图像嵌入表示vi计算重置门控Gr和更新门控Gu的状态;首先将文本嵌入表示vt和图像嵌入表示vi拼接,将其作为全连接层的输入;然后使用Sigmoid非线性函数将全连接层的输出映射到(0,1)区间,以此来得到门控信号;
重置门的计算过程如公式(3)所示,更新门的计算公式如(4)所示:
Gr=σ([vt;vi]·Wr+br) (3)
Gu=σ([vt;vi]·Wu+bu) (4)
其中
Figure FDA0004011679580000041
Figure FDA0004011679580000042
分别为重置门全连接层的权重矩阵和偏参,
Figure FDA0004011679580000043
Figure FDA0004011679580000044
为更新门全连接层的权重矩阵和偏参,[;]表示拼接操作,σ表示Sigmoid激活函数;
将重置门Gr与输入的实体文本嵌入表示vt进行一个哈达玛积,来确定文本嵌入表示需要过滤和保留的信息;然后将过滤后的文本嵌入表示与图像嵌入表示vi进行一个拼接操作,经过一个线性变换,即右乘矩阵Wh,再将变换后的结果输入到双曲正切激活函数tanh中,得到候选隐藏状态的嵌入
Figure FDA0004011679580000045
计算过程如公式(5)所示
Figure FDA0004011679580000046
其中
Figure FDA0004011679580000047
为线性变换操作可训练的参数;
更新门用于控制文本嵌入表示中有多少信息被写入到候选当前隐藏状态表示中,Gu控制信号越接近1,表示被留下的信息越多,而越接近0则表示遗忘的越多;更新门的输出分别和文本嵌入表示以及候选隐藏状态的嵌入进行乘法操作,得到实体的隐藏层嵌入表示h,计算公式如(6)所示:
Figure FDA0004011679580000051
最后将得到的实体隐藏层嵌入表示h,经过一个全连接层,得到实体基于多模态知识的编码,计算公式如(7)所示:
emulti=h·We+be (7)
其中
Figure FDA0004011679580000052
为全连接层可训练的参数。
7.根据权利要求5所述的基于OWKBC模型的知识库补全方法,其特征在于,基于Gate的多模态知识编码器GRU-MKE输入为实体的文本嵌入表示和图像嵌入表示,输出为实体基于多模态知识的编码,具体为:
首先,将输入的实体的文本嵌入表示
Figure FDA0004011679580000053
和图像嵌入表示
Figure FDA0004011679580000054
分别经过一个全连接层,将它们映射到相同维度的空间中,得到降维后的文本嵌入表示
Figure FDA0004011679580000055
和图像嵌入表示
Figure FDA0004011679580000056
以便后续的融合操作;降维过程的计算公式如(8)和(9)所示:
vt=et·Wt+bt (8)
vi=ei·Wi+bi (9)
其中
Figure FDA0004011679580000057
为全连接层可训练的参数;
然后利用降维后的文本嵌入表示和图像嵌入表示来获得控制门的状态;将文本嵌入表示vt和图像嵌入表示vi拼接,然后将拼接后的向量经过一个全连接层,将向量映射到M维空间中,最后经过一个非线性激活函数Sigmoid,将向量的每一维元素都映射到0到1之间;值越接近1,表示留下来的信息越多,值越接近0表示信息遗忘的越多;
控制门的计算公式如(10)所示:
z=σ([vt;vi]·Wz+bz) (10)
其中σ表示Sigmoid激活函数,[;]表示拼接操作,
Figure FDA0004011679580000061
为全连接层的映射矩阵,
Figure FDA0004011679580000062
表示偏参;控制门主要控制文本特征和图像特征到底有多少信息可以被用于生成实体的隐藏嵌入表示he,具体的计算公式如(11)所示;
he=(1-z)*vt+z*vi (11)
其中(1-z)*vt表示对文本嵌入表示进行选择和遗忘,z*vi表示对图像嵌入表示进行选择和遗忘,(1-z)*vt+z*vi表示对选择后的文本嵌入表示和图像嵌入表示进行融合;
最后将获得的隐藏嵌入表示he经过一个线性变换,得到最终的实体基于多模态知识的编码
Figure FDA0004011679580000063
计算公式如(12)所示:
emulti=he·We+be (12)。
8.根据权利要求5所述的基于OWKBC模型的知识库补全方法,其特征在于,所述多模态知识编码器训练使用实体结构嵌入表示es;最小化损失函数loss1来加速学习过程,计算公式如(13)所示:
Figure FDA0004011679580000071
对于输入的有效三元组(h,r,t),实体和关系嵌入表示应满足h+r≈t,表示t是通过关系r连接的h的最近邻居;最小化距离函数d(hmulti+vr,tmulti)=||hmulti+vr-tmulti||1/2来学习包含文本和图像信息的实体嵌入以及关系的嵌入,损失函数的计算公式如(14)所示:
Figure FDA0004011679580000072
其中,γ>0表示超参数,[x]+等价于max{x,0},T表示知识库中正确三元组的集合,T'为负例三元组,它是随机替换T中正例样本的头实体或尾实体来构造的,可以形式化为公式(15):
T'={(h',r,t)|h'∈E\h}∪{(h,r,t')|t'∈E\t} (15)
基于翻译的多模态知识编码器在训练期间的损失函数计算公式为(16):
loss=α·loss1+β·loss2 (16)
其中,α和β为权重参数,用于调节两部分损失的比重。
9.根据权利要求1所述的基于OWKBC模型的知识库补全方法,其特征在于,所述验证采用链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率Hits@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果。
CN202011518699.2A 2020-12-21 2020-12-21 基于owkbc模型的知识库补全方法 Active CN112561064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011518699.2A CN112561064B (zh) 2020-12-21 2020-12-21 基于owkbc模型的知识库补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011518699.2A CN112561064B (zh) 2020-12-21 2020-12-21 基于owkbc模型的知识库补全方法

Publications (2)

Publication Number Publication Date
CN112561064A CN112561064A (zh) 2021-03-26
CN112561064B true CN112561064B (zh) 2023-03-24

Family

ID=75032047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011518699.2A Active CN112561064B (zh) 2020-12-21 2020-12-21 基于owkbc模型的知识库补全方法

Country Status (1)

Country Link
CN (1) CN112561064B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800785B (zh) * 2021-04-13 2021-07-27 中国科学院自动化研究所 多模态机器翻译方法、装置、电子设备和存储介质
CN113486161A (zh) * 2021-05-27 2021-10-08 中国电子科技集团公司电子科学研究院 基于特殊领域知识图谱的智能语义检索系统
CN113837554B (zh) * 2021-08-30 2023-07-21 中华人民共和国青岛海关 基于多模态关键信息匹配的食品安全风险识别方法及系统
CN113836319B (zh) * 2021-09-30 2023-08-01 福州大学 融合实体邻居的知识补全方法及系统
CN114003730A (zh) * 2021-10-29 2022-02-01 福州大学 基于关系特定门过滤的开放世界知识补全方法及系统
CN115391563B (zh) * 2022-09-01 2024-02-06 广东工业大学 一种基于多源异构数据融合的知识图谱链路预测方法
CN116705338B (zh) * 2023-08-08 2023-12-08 中国中医科学院中医药信息研究所 基于规则和路径的中医药多模态知识图谱推理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851620A (zh) * 2019-10-29 2020-02-28 天津大学 一种基于文本嵌入和结构嵌入联合的知识表示方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016223193A1 (de) * 2016-11-23 2018-05-24 Fujitsu Limited Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen
CN111027700A (zh) * 2019-12-18 2020-04-17 福州大学 基于wcur算法的知识库补全方法
CN111753101B (zh) * 2020-06-30 2022-06-07 华侨大学 一种融合实体描述及类型的知识图谱表示学习方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851620A (zh) * 2019-10-29 2020-02-28 天津大学 一种基于文本嵌入和结构嵌入联合的知识表示方法

Also Published As

Publication number Publication date
CN112561064A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN111985245B (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110046656B (zh) 基于深度学习的多模态场景识别方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111488734A (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111985205A (zh) 一种方面级情感分类模型
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
Wang et al. Fg-t2m: Fine-grained text-driven human motion generation via diffusion model
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN106021402A (zh) 用于跨模态检索的多模态多类Boosting框架构建方法及装置
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114239675A (zh) 融合多模态内容的知识图谱补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant