CN112348191B - 一种基于多模态表示学习的知识库补全方法 - Google Patents
一种基于多模态表示学习的知识库补全方法 Download PDFInfo
- Publication number
- CN112348191B CN112348191B CN202011159918.2A CN202011159918A CN112348191B CN 112348191 B CN112348191 B CN 112348191B CN 202011159918 A CN202011159918 A CN 202011159918A CN 112348191 B CN112348191 B CN 112348191B
- Authority
- CN
- China
- Prior art keywords
- entity
- knowledge
- knowledge base
- feature
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 111
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 241000208340 Araliaceae Species 0.000 claims description 6
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 6
- 235000008434 ginseng Nutrition 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 3
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及知识库补全领域,特别是一种基于多模态表示学习的知识库补全方法。
背景技术
近些年来出现了各种各样的知识库补全方法,其中基于知识表示学习的方法是目前知识库补全一个活跃的研究领域。表示学习的关键问题是学习实体和关系的低维分布式嵌入。
目前主要有两种信息可以用于知识表示学习的工作,第一种为知识图谱中已存在的三元组。主要包括:基于翻译/平移的知识图表示学习方法,如TransE;基于张量/矩阵分解的方法,如RESCAL模型;基于神经网络的表示学习模型,如ConvE。这类方法,在训练时只考虑独立三元组的信息,忽视了三元组在知识图谱的结构信息以及实体的描述信息,在复杂关系建模问题中存在局限性,易受数据稀疏的影响。第二种是三元组之外的文本、图像等模态信息。目前已有的融入外部信息的方法,大多只考虑了单一的模态信息,以文本模态居多,未能够利用多模态之间的互补特性,来学习更全面的特征。
目前大多数的知识图表示学习,只考虑实体和关系之间的结构知识,该类模型的性能受显示存储知识的限制,造成知识库补全效果不稳定;事实上,除了结构知识,实体还拥有多种模式的知识,如文本,图片,音频和视频等。这些不同模态的外部知识,在一定程度上可以丰富和扩充已有的知识库,进而为下游任务如问答和链路预测,提供更丰富的语义信息;现有的融入外部信息的表示学习方法,大多只考虑了单一的模态信息,未能够利用多模态之间的互补特性,来学习更全面的特征。
发明内容
有鉴于此,本发明的目的是提供一种基于多模态表示学习的知识库补全方法,融入了通道注意力和空间注意力,使模型能关注重要特征,抑制不重要特征,提高模型补全能力。
本发明采用以下方案实现:一种基于多模态表示学习的知识库补全方法,包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T′);即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2;
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
进一步地,所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。进一步地,所述步骤S2具体包括以下步骤:
所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti;
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1;
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2;
进一步地,所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将输入的三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti。
进一步地,所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加:首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e′t和图像特征向量e′i与结构特征向量es相加,因此,实体的多模态表示定义为:emulti=e′t+e′i+es,其中e′t=etW1+b1,e′i=eiW2+b2,和为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中;将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入;使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数Sigmoid,得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e′t+α2e′i+α3es;
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti。
进一步地,所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A′;使用大小为1×3的过滤器用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征计算过程如(1)所示:
进一步地,所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力的计算公式如(2)~(3)所示:
进一步地,所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
其中[;]为连接操作,f(.)为sigmoid函数;
进一步地,所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
进一步地,所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
与现有技术相比,本发明具有以下有益效果:
(1)现有的表示学习模型大多只考虑知识库中存储的结构知识,因此这类模型的补全能力受到显式存储信息的限制,而本发明提出的算法能够融合外部信息,能够利用更丰富的语义信息。
(2)现有的融入外部信息的表示学习方法,大多只考虑了单一的模态信息,以文本模态居多,而本发明提出的算法在结构知识的基础上,融入了文本和图像两种外部模态信息,使模型能够利用多模态之间的互补性,提高表示学习的质量。
(3)现已有的运用卷积网络的知识表示学习算法,将提取出的特征都无差别对待,而本发明提出的算法,融入了通道注意力和空间注意力,使模型能关注重要特征,抑制不重要特征,提高实体和关系的表示质量。
(4)本文提出的知识库补全模型和现有的只考虑结构知识的模型相比,补全性能更稳定;与现有的结合外部模态信息的模型相比,本文提出的模型补全效果更优。
附图说明
图1为本发明实施例的ConvAT算法框架图。
图2为本发明实施例的实体的多模态表示图,其中,图2(a),图2(b)均为相加方式的多模态表示,图2(c)为注意力方式的多模态表示,图2(d)为连接映射形式的多模态表示。
图3为本发明实施例的通道注意力模块图。
图4为本发明实施例的空间注意力模块图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于多模态表示学习的知识库补全方法,包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T′);即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2;
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
在本实施例中,所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中的每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti;
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1;
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2;
在本实施例中,所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将输入的三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti。
在本实施例中,主要考虑结构知识以及结构知识中实体对应的文本信息和图像信息。首先从各模态知识中分别学习特征向量,然后将实体对应的不同模态的特征向量统一起来。提出了三种融合方式:
所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加(Add):首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e′t和图像特征向量e′i与结构特征向量es相加,如图2(a)和(b)所示。此时,实体的多模态表示定义为:emulti=e′t+e′i+es,其中e′t=etW1+b1,e′i=eiW2+b2,和为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过图2(a)降维操作后被映射到与结构特征向量相同维度的空间中。将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入。使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数sigmoid,得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e′t+α2e′i+α3es,如图2(c)所示;
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加,如图2(d)所示;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti。
在本实施例中,所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A′;使用大小为1×3的过滤器用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征计算过程如(1)所示:
在本实施例中,所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力具体操作过程如图3所示,计算公式如(2)~(3)所示:
在本实施例中,所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;空间注意力模块具体过程如图4所示,计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
其中[;]为连接操作,f(.)为sigmoid函数;
在本实施例中,所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
10、在本实施例中,所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
较佳的,本实施例首先,在学习实体表示时,考虑结构知识的同时加入文本信息和图像信息。本发明提出了三种不同融合方式,获得实体的多模态表示。其次,我们在卷积神经网络中,通过结合通道注意力和空间注意力来增强卷积表现力,提升模型的补全能力。
较佳的,本实施例提出了一个简称为ConvAT的算法(Convolutional networkwith attention module),该算法的主要处理过程分为分为五个阶段:第一阶段:实体的多模态表示生成模块。对于输入的三元组(h,r,t),首先从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti;第二阶段:卷积神经网络模块:将头实体的多模态表示hmulti、关系的结构表示rs和尾实体的多模态表示tmulti按列拼接,得到三元组的多模态表示,将其输入到卷积神经网络中,提取三元组的特征,得到特征图V;第三阶段:通道注意力模块MC。聚合特征图的空间信息,计算出每个特征图的权值MC(V)。然后将得到的特征图权值MC(V)和输入的特征图V进行按元素乘操作,得到特征图L1;第四阶段:空间注意力模块MS。聚合特征的通道信息,计算出特征图不同空间位置的权值MS(L1)。将特征图的的空间位置权值MS(L1)和特征图L1进行元素乘操作,得到带权重的特征图L2;第五阶段:输出三元组的评分。将特征图L2与原始特征图V相加,进行整形后和权值矩阵进行点积操作后,得到三元组的评分。
较佳的,本实施例在知识图谱的背景下,提出了基于多模态表示学习的知识库补全算法(ConvAt)。本实施例提出的算法能够融合实体对应的多种外部模态信息,生成实体的多模态表示。本实施例提出的表示学习模型通过结合通道注意力和空间注意力来增强卷积表现力,使模型重点关注对模型有帮助的特征,提高实体和关系表示的质量,进而提高模型的补全能力。
较佳的,在本实施例中,相关定义如下:
定义1(三元组,T)设T=(h,r,t)表示三元组,其中h表示头实体,r表示关系,t表示尾实体。一个三元组也可以称为一个知识或事实。
定义2(实体集合,E)设实体集E={e1,e2,...,en},表示知识库中的所有实体的集合。
定义3(关系集合,R)设关系集合R={r1,r2,...,rn},表示知识库中所有关系的集合。
定义4(知识库,KB)KB={(h,r,t)}表示知识库是由三元组集合构成的,其中h,t∈E,r∈R。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (4)
1.一种基于多模态表示学习的知识库补全方法,其特征在于:包括以下步骤:
步骤S1:给定知识库KB,所述KB包括已知的知识集合K1=(E,R,T),即知识库中显式存储的三元组和未知的知识集合K2=(E,R,T');即需要补全出的知识集合;对知识库中的数据进行数据预处理;知识库补全的任务就是用已知的知识K1推导出未知的知识K2;
步骤S2:建立知识库补全模型ConvAt:对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示;然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后,分别通过卷积神经网络模块、通道注意力模块MC和空间注意力模块MS处理,最后与一个权重矩阵相乘得到三元组(h,r,t)的评分;
所述步骤S2具体包括以下步骤:
步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量,生成实体的多模态表示,即头实体的多模态表示hmulti和尾实体的多模态表示tmulti;
步骤S22:将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列拼接后,输入到卷积神经网络模块进行处理得到特征图V;
步骤S23:将特征图V输入到通道注意力模块MC,用以获得每张特征图的权重MC(V);将得到的特征图权重MC(V)和输入的原始特征图V进行元素乘操作得到特征图L1;
步骤S24:将特征图L1作为空间注意力模块MS的输入,用以计算特征图不同空间位置的权重Ms(L1);将得到的特征图空间位置权重Ms(L1)和特征图L1进行按元素乘操作,得到特征图L2;
所述步骤S21的具体内容为:
给定一个三元组(h,r,t),其中h表示头实体,r表示关系,t表示尾实体;一个三元组也称为一个知识或事实;将三元组使用结构特征向量进行初始化,即把三元组映射到M维空间,得到矩阵然后通过实体的多模态表示方式,获得头实体的多模态表示hmulti和尾实体的多模态表示tmulti;
所述步骤S22的具体内容为:
将头实体的多模态表示hmulti、关系的结构特征向量rs和尾实体的多模态表示tmulti按列进行拼接得到矩阵为了捕获矩阵A的边缘信息,对矩阵的左右边界进行填充0操作,得到矩阵A';使用大小为1×3的过滤器用以获得头实体、关系和尾实体在相同维度下的特征;经过卷积后获得特征图V;过滤器的数量为τ∈{64,128,256},对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图Vk,其第i行第j列的特征计算过程如(1)所示:
所述步骤S23的具体内容为:
首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息;然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP,感知机隐藏层的神经元个数为τ/q,其中q=16为缩小比例;使用元素求和来合并两个MLP输出的特征向量,再经过sigmoid层,得到每张特征图的权重MC(V);最后将得到的权重MC(V)和输入的特征图V进行元素乘操作,得到特征图L1;通道注意力的计算公式如(2)~(3)所示:
所述步骤S24的具体内容为:
将L1作为空间注意力模块MS的输入,分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息;然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作,得到一个高度为M,宽度为3,通道数为2的特征图;之后使用单个大小为1×2的卷积核进行卷积,生成的特征图与输入的特征图L1在空间维度上保持一致;最后经过一个sigmoid层,得到空间位置的权重MS(L1);将空间位置权重MS(L1)与输入特征图L1进行元素乘操作,得到特征图L2;计算公式如(4)~(5)所示:
Ms(L1)=f(convolve[reduce_mean(L1);reduce_max(L1)]) (4)
其中[;]为连接操作,f(.)为sigmoid函数;
所述步骤S25的具体内容为:
将带权值的特征图L2与原始特征图V相加;将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量,然后与一个权重矩阵点积,得到三元组(h,r,t)的评分;形式上,将ConvAT的评分函数F定义为公式(6):
2.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S1中所述进行数据预处理的具体内容为:
对于已知的知识集合K1,使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练,得到头尾实体和关系的结构特征向量;知识库中每一个实体都有一段文本描述和十张图像与其相对应;对于文本描述,使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练,得到文本描述对应的特征向量,将其作为实体对应的文本特征向量;对于图像,用VGG神经网络对其进行预训练,得到每张图片的特征向量表示,然后使用十张图片特征向量的平均值或最大值或注意力相加值,作为实体对应的图像特征向量。
3.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述实体的多模态表示方式包括相加、注意力或连接映射;
所述相加:首先将实体对应的文本特征向量et和图像特征向量ei分别经过一个全连接层,映射到与实体结构特征向量es相同维度的空间中,然后将降维后的文本特征向量e't和图像特征向量e'i与结构特征向量es相加,因此,实体的多模态表示定义为:emulti=e't+e'i+es,其中e't=etW1+b1,e'i=eiW2+b2,和为映射矩阵,b1和b2为偏参;
所述注意力:实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中;将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接,形成一个宽度为1,高度为M,通道数为3的特征图,将其作为卷积神经网络的输入;使用1×M大小,输入输出通道数都为3的卷积核进行特征提取后,经过一个激活函数Sigmoid,得到每个模态嵌入的权重;将得到的权重与对应的模态嵌入相乘后进行相加,此时实体的多模态表示为:emulti=α1e't+α2e'i+α3es;
所述连接映射:将实体对应的文本特征向量et和图像特征向量ei进行一个连接操作,然后将连接后的向量经过全连接层,映射到与实体结构特征向量相同的维度空间,然后将降维的向量与结构特征向量es进行相加;实体的多模态表示为emulti=([et;ei]W3+b3)+es,其中[;]为连接操作,为映射矩阵,b3为偏参;
从结构知识、实体的文本知识和图像知识中生成实体的多模态表示emulti,即头实体hmulti和尾实体tmulti。
4.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法,其特征在于:所述步骤S3的具体内容为:
在训练过程中,最小化损失函数loss,损失函数为公式(7):
具体补全模型的验证内容为:链路预测实验,对于每个测试三元组,通过用知识库中的全部实体,去轮流替换测试三元组的头实体或者尾实体来构造负例三元组;然后运用训练好的模型对测试三元组和负例三元组进行评分,并将这些评分升序排序,得到三元组的排名;使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10,这三个指标来评估知识库补全的效果;
具体知识库补全:遍历知识库K1中的所有实体和关系,组成(h,r,?)和(?,r,t)的查询对,然后过滤掉那些已出现在K1中的查询对,得到最终的查询对集;接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分,然后将候选实体的评分按升序排列,排名最前的实体即认为是当前查询对缺失的实体,然后将查询对和排名最前的实体组成完整的三元组,即得到知识集合K2,然后将K2合并到已知的知识集合中,完成知识库的补全。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159918.2A CN112348191B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多模态表示学习的知识库补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011159918.2A CN112348191B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多模态表示学习的知识库补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348191A CN112348191A (zh) | 2021-02-09 |
CN112348191B true CN112348191B (zh) | 2022-06-21 |
Family
ID=74359033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011159918.2A Active CN112348191B (zh) | 2020-10-26 | 2020-10-26 | 一种基于多模态表示学习的知识库补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348191B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010780B (zh) * | 2021-03-11 | 2022-07-15 | 北京三快在线科技有限公司 | 一种模型训练以及点击率预估方法及装置 |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
CN113239184B (zh) * | 2021-07-09 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113641829B (zh) * | 2021-07-13 | 2023-11-24 | 北京百度网讯科技有限公司 | 图神经网络的训练与知识图谱的补全方法、装置 |
CN114881047B (zh) * | 2022-07-12 | 2022-10-25 | 杭州远传新业科技股份有限公司 | 一种蔬菜病虫害图片问答方法及装置 |
CN118152581A (zh) * | 2022-12-06 | 2024-06-07 | 马上消费金融股份有限公司 | 知识图谱补全方法及装置、电子设备、计算机可读介质 |
CN117271803B (zh) * | 2023-11-20 | 2024-01-30 | 北京大学 | 知识图谱补全模型的训练方法、装置、设备及存储介质 |
CN117575007B (zh) * | 2024-01-17 | 2024-04-05 | 清华大学 | 基于后解码可信增强的大模型知识补全方法及系统 |
CN118627610A (zh) * | 2024-08-15 | 2024-09-10 | 山东浪潮科学研究院有限公司 | 一种基于知识表示和动态提示的多模态模型知识更新方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776710B2 (en) * | 2015-03-24 | 2020-09-15 | International Business Machines Corporation | Multimodal data fusion by hierarchical multi-view dictionary learning |
CN107741943B (zh) * | 2017-06-08 | 2020-07-17 | 清华大学 | 一种结合实体图像的知识表示学习方法及服务器 |
CN108009285B (zh) * | 2017-12-22 | 2019-04-26 | 重庆邮电大学 | 基于自然语言处理的林业生态环境人机交互方法 |
CN111339313A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种基于多模态融合的知识库构建方法 |
-
2020
- 2020-10-26 CN CN202011159918.2A patent/CN112348191B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112348191A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348191B (zh) | 一种基于多模态表示学习的知识库补全方法 | |
CN114398961B (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
Peng et al. | More trainable inception-ResNet for face recognition | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN111507311B (zh) | 一种基于多模态特征融合深度网络的视频人物识别方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN111126256B (zh) | 一种基于自适应空谱多尺度网络的高光谱图像分类方法 | |
CN107480206A (zh) | 一种基于多模态低秩双线性池化的图像内容问答方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN113496217A (zh) | 视频图像序列中人脸微表情识别方法 | |
CN112487949B (zh) | 一种基于多模态数据融合的学习者行为识别方法 | |
CN110059593B (zh) | 一种基于反馈卷积神经网络的面部表情识别方法 | |
CN113239825B (zh) | 一种复杂场景下高精度烟草甲虫检测方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
Ding et al. | Product color emotional design based on a convolutional neural network and search neural network | |
CN112905894B (zh) | 一种基于增强图学习的协同过滤推荐方法 | |
CN113297370A (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN113935435A (zh) | 基于时空特征融合的多模态情感识别方法 | |
CN112668486A (zh) | 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体 | |
CN113658091A (zh) | 一种图像评价方法、存储介质及终端设备 | |
Gao et al. | Generalized pyramid co-attention with learnable aggregation net for video question answering | |
CN111611852A (zh) | 一种表情识别模型的训练方法、装置及设备 | |
Yang et al. | Recognizing image semantic information through multi-feature fusion and SSAE-based deep network | |
CN113283530B (zh) | 基于级联特征块的图像分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |