CN112348191A - 一种基于多模态表示学习的知识库补全方法 - Google Patents

一种基于多模态表示学习的知识库补全方法 Download PDF

Info

Publication number
CN112348191A
CN112348191A CN202011159918.2A CN202011159918A CN112348191A CN 112348191 A CN112348191 A CN 112348191A CN 202011159918 A CN202011159918 A CN 202011159918A CN 112348191 A CN112348191 A CN 112348191A
Authority
CN
China
Prior art keywords
entity
knowledge base
knowledge
modal representation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011159918.2A
Other languages
English (en)
Other versions
CN112348191B (zh
Inventor
汪璟玢
苏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011159918.2A priority Critical patent/CN112348191B/zh
Publication of CN112348191A publication Critical patent/CN112348191A/zh
Application granted granted Critical
Publication of CN112348191B publication Critical patent/CN112348191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态表示学习的知识库补全方法,给定知识库KB,所述KB包含两部分,一是已知的知识集合
Figure DEST_PATH_IMAGE002
,二是未知的知识集合
Figure DEST_PATH_IMAGE004
;对知识库中的数据进行数据预处理;提出知识库补全模型ConvAt,对获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块
Figure DEST_PATH_IMAGE006
和空间注意力模块
Figure DEST_PATH_IMAGE008
处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;使用损失函数对步骤S2中的补全模型进行训练,并使用训练后的模型进行知识库补全。本发明提出的算法能够融合外部信息,能够利用更丰富的语义信息。

Description

一种基于多模态表示学习的知识库补全方法
技术领域
本发明涉及知识库补全领域,特别是一种基于多模态表示学习的知识库补全方法。
背景技术
近些年来出现了各种各样的知识库补全方法,其中基于知识表示学习的方法是目前知识库补全一个活跃的研究领域。表示学习的关键问题是学习实体和关系的低维分布式嵌入。
目前主要有两种信息可以用于知识表示学习的工作,第一种为知识图谱中已存在的三元组。主要包括:基于翻译/平移的知识图表示学习方法,如TransE;基于张量/矩阵分解的方法,如RESCAL模型;基于神经网络的表示学习模型,如ConvE。这类方法,在训练时只考虑独立三元组的信息,忽视了三元组在知识图谱的结构信息以及实体的描述信息,在复杂关系建模问题中存在局限性,易受数据稀疏的影响。第二种是三元组之外的文本、图像等模态信息。目前已有的融入外部信息的方法,大多只考虑了单一的模态信息,以文本模态居多,未能够利用多模态之间的互补特性,来学习更全面的特征。
目前大多数的知识图表示学习,只考虑实体和关系之间的结构知识,该类模型的性能受显示存储知识的限制,造成知识库补全效果不稳定;事实上,除了结构知识,实体还拥有多种模式的知识,如文本,图片,音频和视频等。这些不同模态的外部知识,在一定程度上可以丰富和扩充已有的知识库,进而为下游任务如问答和链路预测,提供更丰富的语义信息;现有的融入外部信息的表示学习方法,大多只考虑了单一的模态信息,未能够利用多模态之间的互补特性,来学习更全面的特征。
发明内容
有鉴于此,本发明的目的是提供一种基于多模态表示学习的知识库补全方法,融入了通道注意力和空间注意力,使模型能关注重要特征,抑制不重要特征,提高模型补全能力。
本发明采用以下方案实现:一种基于多模态表示学习的知识库补全方法,包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T′);
Figure BDA0002743767010000022
即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
步骤S3:使用损失函数
Figure BDA0002743767010000021
对步骤S2中的补全模型进行训练,并对训练后的模型进行验证,最后实现知识库补全。
进一步地,所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。进一步地,所述步骤S2具体包括以下步骤:
所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2
步骤S25:将带权重的特征图L2与原始特征图V相加,将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵
Figure BDA0002743767010000041
点积,得到三元组(h,r,t)的评分,评分的计算公式为:
Figure BDA0002743767010000042
进一步地,所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将输入的三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵
Figure BDA0002743767010000043
然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti
进一步地,所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加:首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e′t和图像特征向量e′i与结构特征向量es相加,因此,实体的多模态表示定义为:emulti=e′t+e′i+es,其中e′t=etW1+b1,e′i=eiW2+b2
Figure BDA0002743767010000044
Figure BDA0002743767010000045
为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中;将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入;使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数Sigmoid,得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e′t2e′i3es
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,
Figure BDA0002743767010000051
为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti
进一步地,所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵
Figure BDA0002743767010000052
为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A′;使用大小为1×3的过滤器
Figure BDA0002743767010000053
用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征
Figure BDA0002743767010000054
计算过程如(1)所示:
Figure BDA0002743767010000055
其中
Figure BDA0002743767010000061
表示第k个过滤器的第m行第n列,A′为填充后的矩阵,A′i,j表示矩阵的第i行第j列,b为偏参,f(.)为激活函数,这里使用RELU。
进一步地,所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力的计算公式如(2)~(3)所示:
Figure BDA0002743767010000062
Figure BDA0002743767010000063
其中,Waout、Wahidden、Wmout和Wmhidden为多层感知机MLP的权重参数矩阵,
Figure BDA0002743767010000064
表示元素乘法操作,f(.)为sigmoid函数。
进一步地,所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
Figure BDA0002743767010000071
其中[;]为连接操作,f(.)为sigmoid函数;
进一步地,所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵
Figure BDA0002743767010000072
点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
Figure BDA0002743767010000073
进一步地,所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
Figure BDA0002743767010000074
其中,
Figure BDA0002743767010000075
G为正确的三元组集合,G′为不正确的三元组集合,它通过随机替换G中三元组的头或尾实体生成的;θ为正则化参数,w为权重矩阵,
Figure BDA0002743767010000076
为L2正则化;
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
与现有技术相比,本发明具有以下有益效果:
(1)现有的表示学习模型大多只考虑知识库中存储的结构知识,因此这类模型的补全能力受到显式存储信息的限制,而本发明提出的算法能够融合外部信息,能够利用更丰富的语义信息。
(2)现有的融入外部信息的表示学习方法,大多只考虑了单一的模态信息,以文本模态居多,而本发明提出的算法在结构知识的基础上,融入了文本和图像两种外部模态信息,使模型能够利用多模态之间的互补性,提高表示学习的质量。
(3)现已有的运用卷积网络的知识表示学习算法,将提取出的特征都无差别对待,而本发明提出的算法,融入了通道注意力和空间注意力,使模型能关注重要特征,抑制不重要特征,提高实体和关系的表示质量。
(4)本文提出的知识库补全模型和现有的只考虑结构知识的模型相比,补全性能更稳定;与现有的结合外部模态信息的模型相比,本文提出的模型补全效果更优。
附图说明
图1为本发明实施例的ConvAT算法框架图。
图2为本发明实施例的实体的多模态表示图,其中,图2(a),图2(b)均为相加方式的多模态表示,图2(c)为注意力方式的多模态表示,图2(d)为连接映射形式的多模态表示。
图3为本发明实施例的通道注意力模块图。
图4为本发明实施例的空间注意力模块图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于多模态表示学习的知识库补全方法,包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T′);
Figure BDA0002743767010000101
即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
步骤S3:使用损失函数
Figure BDA0002743767010000102
对步骤S2中的补全模型进行训练,并对训练后的模型进行验证,最后实现知识库补全。
在本实施例中,所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中的每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2
步骤S25:将带权重的特征图L2与原始特征图V相加,将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重向量
Figure BDA0002743767010000111
点积,得到三元组(h,r,t)的评分,评分的计算公式为:
Figure BDA0002743767010000112
在本实施例中,所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将输入的三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵
Figure BDA0002743767010000121
然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti
在本实施例中,主要考虑结构知识以及结构知识中实体对应的文本信息和图像信息。首先从各模态知识中分别学习特征向量,然后将实体对应的不同模态的特征向量统一起来。提出了三种融合方式:
所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加(Add):首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e′t和图像特征向量e′i与结构特征向量es相加,如图2(a)和(b)所示。此时,实体的多模态表示定义为:emulti=e′t+e′i+es,其中e′t=etW1+b1,e′i=eiW2+b2
Figure BDA0002743767010000122
Figure BDA0002743767010000123
为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过图2(a)降维操作后被映射到与结构特征向量相同维度的空间中。将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入。使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数sigmoid,得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e′t2e′i3es,如图2(c)所示;
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加,如图2(d)所示;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,
Figure BDA0002743767010000131
为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti
在本实施例中,所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵
Figure BDA0002743767010000132
为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A′;使用大小为1×3的过滤器
Figure BDA0002743767010000133
用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征
Figure BDA0002743767010000134
计算过程如(1)所示:
Figure BDA0002743767010000135
其中
Figure BDA0002743767010000136
表示第k个过滤器的第m行第n列,A′为填充后的矩阵,A′i,j表示矩阵的第i行第j列,b为偏参,f(.)为激活函数,这里使用RELU。
在本实施例中,所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力具体操作过程如图3所示,计算公式如(2)~(3)所示:
Figure BDA0002743767010000141
Figure BDA0002743767010000142
其中,Waout、Wahidden、Wmout和Wmhidden为多层感知机MLP的权重参数矩阵,
Figure BDA0002743767010000143
表示元素乘法操作,f(.)为sigmoid函数。
在本实施例中,所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;空间注意力模块具体过程如图4所示,计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
Figure BDA0002743767010000151
其中[;]为连接操作,f(.)为sigmoid函数;
在本实施例中,所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵
Figure BDA0002743767010000152
点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
Figure BDA0002743767010000153
10、在本实施例中,所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
Figure BDA0002743767010000154
其中,
Figure BDA0002743767010000155
G为正确的三元组集合,G′为不正确的三元组集合,它通过随机替换G中三元组的头或尾实体生成的;θ为正则化参数,w为权重矩阵,
Figure BDA0002743767010000156
为L2正则化;
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
较佳的,本实施例首先,在学习实体表示时,考虑结构知识的同时加入文本信息和图像信息。本发明提出了三种不同融合方式,获得实体的多模态表示。其次,我们在卷积神经网络中,通过结合通道注意力和空间注意力来增强卷积表现力,提升模型的补全能力。
较佳的,本实施例提出了一个简称为ConvAT的算法(Convolutional networkwith attention module),该算法的主要处理过程分为分为五个阶段:第一阶段:实体的多模态表示生成模块。对于输入的三元组(h,r,t),首先从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti;第二阶段:卷积神经网络模块:将头实体的多模态表示hmulti、关系的结构表示rs和尾实体的多模态表示tmulti按列拼接,得到三元组的多模态表示,将其输入到卷积神经网络中,提取三元组的特征,得到特征图V;第三阶段:通道注意力模块MC。聚合特征图的空间信息,计算出每个特征图的权值MC(V)。然后将得到的特征图权值MC(V)和输入的特征图V进行按元素乘操作,得到特征图L1;第四阶段:空间注意力模块MS。聚合特征的通道信息,计算出特征图不同空间位置的权值MS(L1)。将特征图的的空间位置权值MS(L1)和特征图L1进行元素乘操作,得到带权重的特征图L2;第五阶段:输出三元组的评分。将特征图L2与原始特征图V相加,进行整形后和权值矩阵进行点积操作后,得到三元组的评分。
较佳的,本实施例在知识图谱的背景下,提出了基于多模态表示学习的知识库补全算法(ConvAt)。本实施例提出的算法能够融合实体对应的多种外部模态信息,生成实体的多模态表示。本实施例提出的表示学习模型通过结合通道注意力和空间注意力来增强卷积表现力,使模型重点关注对模型有帮助的特征,提高实体和关系表示的质量,进而提高模型的补全能力。
较佳的,在本实施例中,相关定义如下:
定义1(三元组,T)设T=(h,r,t)表示三元组,其中h表示头实体,r表示关系,t表示尾实体。一个三元组也可以称为一个知识或事实。
定义2(实体集合,E)设实体集E={e1,e2,...,en},表示知识库中的所有实体的集合。
定义3(关系集合,R)设关系集合R={r1,r2,...,rn},表示知识库中所有关系的集合。
定义4(知识库,KB)KB={(h,r,t)}表示知识库是由三元组集合构成的,其中h,t∈E,r∈R。
定义5结构表示/嵌入。在生成实体和关系向量时,只考虑其对应的结构关系。实体的结构表示为:
Figure BDA0002743767010000181
关系的结构表示为
Figure BDA0002743767010000182
其中M表示嵌入的维度。
定义6(文本表示/嵌入
Figure BDA0002743767010000183
)表示从实体对应的文本描述中生成实体的嵌入表示。N表示嵌入的维度。
定义7(图像表示/嵌入
Figure BDA0002743767010000184
)表示从实体对应的图像中生成实体的表示。P表示嵌入维度。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (10)

1.一种基于多模态表示学习的知识库补全方法,其特征在于:包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T');
Figure FDA0002743767000000011
即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
步骤S3:使用损失函数
Figure FDA0002743767000000012
对步骤S2中的补全模型进行训练,并对训练后的模型进行验证,最后实现知识库补全。
2.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。
3.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2
步骤S25:将带权重的特征图L2与原始特征图V相加,将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵
Figure FDA0002743767000000021
点积,得到三元组(h,r,t)的评分,评分的计算公式为:
Figure FDA0002743767000000031
4.根据权利要求2所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵
Figure FDA0002743767000000032
然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti
5.根据权利要求4所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加:首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e't和图像特征向量e'i与结构特征向量es相加,因此,实体的多模态表示定义为:emulti=e’t+e’i+es,其中e’t=etW1+b1,e’i=eiW2+b2
Figure FDA0002743767000000033
Figure FDA0002743767000000034
为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中;将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入;使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数Sigmoid,得到每个模态嵌入的权重;将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e’t2e’i3es
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,
Figure FDA0002743767000000041
为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti
6.根据权利要求3所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵
Figure FDA0002743767000000042
为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A';使用大小为1×3的过滤器
Figure FDA0002743767000000043
用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征
Figure FDA0002743767000000044
计算过程如(1)所示:
Figure FDA0002743767000000045
其中
Figure FDA0002743767000000046
表示第k个过滤器的第m行第n列,A'为填充后的矩阵,A’i,j表示矩阵的第i行第j列,b为偏参,f(.)为激活函数,这里使用RELU。
7.根据权利要求3所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力的计算公式如(2)~(3)所示:
Figure FDA0002743767000000053
Figure FDA0002743767000000051
其中,Waout、Wahidden、Wmout和Wmhidden为多层感知机MLP的权重参数矩阵,
Figure FDA0002743767000000052
表示元素乘法操作,f(.)为sigmoid函数。
8.根据权利要求3所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
Figure FDA0002743767000000061
其中[;]为连接操作,f(.)为sigmoid函数。
9.根据权利要求3所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵
Figure FDA0002743767000000062
点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
Figure FDA0002743767000000063
10.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
Figure FDA0002743767000000064
其中,
Figure FDA0002743767000000065
G为正确的三元组集合,G'为不正确的三元组集合,它通过随机替换G中三元组的头或尾实体生成的;θ为正则化参数,w为权重矩阵,
Figure FDA0002743767000000066
为L2正则化;
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
CN202011159918.2A 2020-10-26 2020-10-26 一种基于多模态表示学习的知识库补全方法 Active CN112348191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011159918.2A CN112348191B (zh) 2020-10-26 2020-10-26 一种基于多模态表示学习的知识库补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011159918.2A CN112348191B (zh) 2020-10-26 2020-10-26 一种基于多模态表示学习的知识库补全方法

Publications (2)

Publication Number Publication Date
CN112348191A true CN112348191A (zh) 2021-02-09
CN112348191B CN112348191B (zh) 2022-06-21

Family

ID=74359033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011159918.2A Active CN112348191B (zh) 2020-10-26 2020-10-26 一种基于多模态表示学习的知识库补全方法

Country Status (1)

Country Link
CN (1) CN112348191B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010780A (zh) * 2021-03-11 2021-06-22 北京三快在线科技有限公司 一种模型训练以及点击率预估方法及装置
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113239184A (zh) * 2021-07-09 2021-08-10 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113641829A (zh) * 2021-07-13 2021-11-12 北京百度网讯科技有限公司 图神经网络的训练与知识图谱的补全方法、装置
CN114881047A (zh) * 2022-07-12 2022-08-09 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN117271803A (zh) * 2023-11-20 2023-12-22 北京大学 知识图谱补全模型的训练方法、装置、设备及存储介质
CN117575007A (zh) * 2024-01-17 2024-02-20 清华大学 基于后解码可信增强的大模型知识补全方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning
CN107741943A (zh) * 2017-06-08 2018-02-27 清华大学 一种结合实体图像的知识表示学习方法及服务器
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283858A1 (en) * 2015-03-24 2016-09-29 International Business Machines Corporation Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning
CN107741943A (zh) * 2017-06-08 2018-02-27 清华大学 一种结合实体图像的知识表示学习方法及服务器
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN111339313A (zh) * 2020-02-18 2020-06-26 北京航空航天大学 一种基于多模态融合的知识库构建方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HATEM MOUSSELLY-SERGIEH等: "A Multimodal Translation-Based Approach for Knowledge Graph Representation Learning", 《PROCEEDINGS OF THE 7TH JOINT CONFERENCE ON LEXICAL AND COMPUTATIONAL SEMANTICS》, 6 June 2018 (2018-06-06), pages 225 - 234, XP093024276, DOI: 10.18653/v1/S18-2027 *
ZIKANG WANG等: "Multimodal Data Enhanced Representation Learning for Knowledge Graphs", 《 2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》, 30 September 2019 (2019-09-30) *
李少杰等: "基于卷积神经网络的高效知识表示模型", 《高技术通讯》, no. 09, 15 September 2020 (2020-09-15), pages 901 - 907 *
杜文倩等: "融合实体描述及类型的知识图谱表示学习方法", 《中文信息学报》, no. 07, 15 July 2020 (2020-07-15), pages 50 - 59 *
王会勇等: "基于联合知识表示学习的多模态实体对齐", 《控制与决策》, 29 September 2019 (2019-09-29), pages 2855 - 2864 *
赵晓娟等: "多源知识融合技术研究综述", 《云南大学学报(自然科学版)》, no. 03, 10 May 2020 (2020-05-10), pages 459 - 473 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010780B (zh) * 2021-03-11 2022-07-15 北京三快在线科技有限公司 一种模型训练以及点击率预估方法及装置
CN113010780A (zh) * 2021-03-11 2021-06-22 北京三快在线科技有限公司 一种模型训练以及点击率预估方法及装置
CN113221571A (zh) * 2021-05-31 2021-08-06 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113221571B (zh) * 2021-05-31 2022-07-01 重庆交通大学 基于实体相关注意力机制的实体关系联合抽取方法
CN113239184A (zh) * 2021-07-09 2021-08-10 腾讯科技(深圳)有限公司 知识库获取方法、装置、计算机设备及存储介质
CN113641829B (zh) * 2021-07-13 2023-11-24 北京百度网讯科技有限公司 图神经网络的训练与知识图谱的补全方法、装置
CN113641829A (zh) * 2021-07-13 2021-11-12 北京百度网讯科技有限公司 图神经网络的训练与知识图谱的补全方法、装置
CN114881047A (zh) * 2022-07-12 2022-08-09 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN114881047B (zh) * 2022-07-12 2022-10-25 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN117271803A (zh) * 2023-11-20 2023-12-22 北京大学 知识图谱补全模型的训练方法、装置、设备及存储介质
CN117271803B (zh) * 2023-11-20 2024-01-30 北京大学 知识图谱补全模型的训练方法、装置、设备及存储介质
CN117575007A (zh) * 2024-01-17 2024-02-20 清华大学 基于后解码可信增强的大模型知识补全方法及系统
CN117575007B (zh) * 2024-01-17 2024-04-05 清华大学 基于后解码可信增强的大模型知识补全方法及系统

Also Published As

Publication number Publication date
CN112348191B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN112348191B (zh) 一种基于多模态表示学习的知识库补全方法
Liu et al. Hard negative generation for identity-disentangled facial expression recognition
Peng et al. More trainable inception-ResNet for face recognition
CN109685819B (zh) 一种基于特征增强的三维医学图像分割方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
CN114398961B (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
US11748919B2 (en) Method of image reconstruction for cross-modal communication system and device thereof
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN111126256A (zh) 一种基于自适应空谱多尺度网络的高光谱图像分类方法
CN110059593B (zh) 一种基于反馈卷积神经网络的面部表情识别方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
Ding et al. Product color emotional design based on a convolutional neural network and search neural network
CN112488923A (zh) 图像超分辨率重建方法、装置、存储介质及电子设备
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN116704079B (zh) 图像生成方法、装置、设备及存储介质
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN115063709A (zh) 基于跨模态注意与分层融合的多模态情感分析方法及系统
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN116701611A (zh) 一种融合交互注意力的学习知识图谱的推荐方法及系统
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
US20220188595A1 (en) Dynamic matrix convolution with channel fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant