CN112348191A

CN112348191A - 一种基于多模态表示学习的知识库补全方法

Info

Publication number: CN112348191A
Application number: CN202011159918.2A
Authority: CN
Inventors: 汪璟玢; 苏华
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-09
Anticipated expiration: 2040-10-26
Also published as: CN112348191B

Abstract

本发明涉及一种基于多模态表示学习的知识库补全方法，给定知识库KB，所述KB包含两部分，一是已知的知识集合

，二是未知的知识集合

；对知识库中的数据进行数据预处理；提出知识库补全模型ConvAt，对获取的数据首先生成头实体和尾实体的多模态表示；然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后，分别通过卷积神经网络模块、通道注意力模块

和空间注意力模块

处理，最后与一个权重矩阵相乘得到三元组(h,r,t)的评分；使用损失函数对步骤S2中的补全模型进行训练，并使用训练后的模型进行知识库补全。本发明提出的算法能够融合外部信息，能够利用更丰富的语义信息。

Description

一种基于多模态表示学习的知识库补全方法

技术领域

本发明涉及知识库补全领域，特别是一种基于多模态表示学习的知识库补全方法。

背景技术

近些年来出现了各种各样的知识库补全方法，其中基于知识表示学习的方法是目前知识库补全一个活跃的研究领域。表示学习的关键问题是学习实体和关系的低维分布式嵌入。

目前主要有两种信息可以用于知识表示学习的工作，第一种为知识图谱中已存在的三元组。主要包括：基于翻译/平移的知识图表示学习方法，如TransE；基于张量/矩阵分解的方法，如RESCAL模型；基于神经网络的表示学习模型，如ConvE。这类方法，在训练时只考虑独立三元组的信息，忽视了三元组在知识图谱的结构信息以及实体的描述信息，在复杂关系建模问题中存在局限性，易受数据稀疏的影响。第二种是三元组之外的文本、图像等模态信息。目前已有的融入外部信息的方法，大多只考虑了单一的模态信息，以文本模态居多，未能够利用多模态之间的互补特性，来学习更全面的特征。

目前大多数的知识图表示学习，只考虑实体和关系之间的结构知识，该类模型的性能受显示存储知识的限制，造成知识库补全效果不稳定；事实上，除了结构知识，实体还拥有多种模式的知识，如文本，图片，音频和视频等。这些不同模态的外部知识，在一定程度上可以丰富和扩充已有的知识库，进而为下游任务如问答和链路预测，提供更丰富的语义信息；现有的融入外部信息的表示学习方法，大多只考虑了单一的模态信息，未能够利用多模态之间的互补特性，来学习更全面的特征。

发明内容

有鉴于此，本发明的目的是提供一种基于多模态表示学习的知识库补全方法，融入了通道注意力和空间注意力，使模型能关注重要特征，抑制不重要特征，提高模型补全能力。

本发明采用以下方案实现：一种基于多模态表示学习的知识库补全方法，包括以下步骤：

步骤S1：给定知识库KB，所述KB包括已知的知识集合K₁＝(E,R,T)，即知识库中显式存储的三元组和未知的知识集合K₂＝(E,R,T′)；

即需要补全出的知识集合；对知识库中的数据进行数据预处理；知识库补全的任务就是用已知的知识K₁推导出未知的知识K₂；

步骤S2：建立知识库补全模型ConvAt：对步骤S1中获取的数据首先生成头实体和尾实体的多模态表示；然后将头实体的多模态表示、关系的结构特征向量和尾实体的多模态表示按列拼接后，分别通过卷积神经网络模块、通道注意力模块M_C和空间注意力模块M_S处理，最后与一个权重矩阵相乘得到三元组(h,r,t)的评分；

步骤S3：使用损失函数

对步骤S2中的补全模型进行训练，并对训练后的模型进行验证，最后实现知识库补全。

进一步地，所述步骤S1中所述进行数据预处理的具体内容为：

对于已知的知识集合K₁，使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练，得到头尾实体和关系的结构特征向量；知识库中每一个实体都有一段文本描述和十张图像与其相对应；对于文本描述，使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练，得到文本描述对应的特征向量，将其作为实体对应的文本特征向量；对于图像，用VGG神经网络对其进行预训练，得到每张图片的特征向量表示，然后使用十张图片特征向量的平均值或最大值或注意力相加值，作为实体对应的图像特征向量。进一步地，所述步骤S2具体包括以下步骤：

所述步骤S2具体包括以下步骤：

步骤S21:利用步骤S1中获取的实体的结构特征向量、文本特征向量和图像特征向量，生成实体的多模态表示，即头实体的多模态表示h_multi和尾实体的多模态表示t_multi；

步骤S22：将头实体的多模态表示h_multi、关系的结构特征向量r_s和尾实体的多模态表示t_multi按列拼接后，输入到卷积神经网络模块进行处理得到特征图V；

步骤S23：将特征图V输入到通道注意力模块M_C，用以获得每张特征图的权重M_C(V)；将得到的特征图权重M_C(V)和输入的原始特征图V进行元素乘操作得到特征图L₁；

步骤S24：将特征图L₁作为空间注意力模块M_S的输入，用以计算特征图不同空间位置的权重M_s(L₁)；将得到的特征图空间位置权重M_s(L₁)和特征图L₁进行按元素乘操作，得到特征图L₂；

步骤S25：将带权重的特征图L₂与原始特征图V相加，将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量，然后与一个权重矩阵

点积,得到三元组(h,r,t)的评分，评分的计算公式为：

进一步地，所述步骤S21的具体内容为：

给定一个三元组(h,r,t)，其中h表示头实体，r表示关系，t表示尾实体；一个三元组也称为一个知识或事实；将输入的三元组使用结构特征向量进行初始化，即把三元组映射到M维空间，得到矩阵

然后通过实体的多模态表示方式，获得头实体的多模态表示h_multi和尾实体的多模态表示t_multi。

进一步地，所述实体的多模态表示方式包括相加、注意力或连接映射；

所述相加：首先将实体对应的文本特征向量e_t和图像特征向量e_i分别经过一个全连接层，映射到与实体结构特征向量e_s相同维度的空间中，然后将降维后的文本特征向量e′_t和图像特征向量e′_i与结构特征向量e_s相加，因此，实体的多模态表示定义为：e_multi＝e′_t+e′_i+e_s，其中e′_t＝e_tW₁+b₁，e′_i＝e_iW₂+b₂，

和

为映射矩阵，b₁和b₂为偏参；

所述注意力：实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中；将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接，形成一个宽度为1，高度为M，通道数为3的特征图，将其作为卷积神经网络的输入；使用1×M大小，输入输出通道数都为3的卷积核进行特征提取后，经过一个激活函数Sigmoid，得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加，此时实体的多模态表示为：e_multi＝α₁e′_t+α₂e′_i+α₃e_s；

所述连接映射：将实体对应的文本特征向量e_t和图像特征向量e_i进行一个连接操作，然后将连接后的向量经过全连接层，映射到与实体结构特征向量相同的维度空间，然后将降维的向量与结构特征向量e_s进行相加；实体的多模态表示为e_multi＝([e_t；e_i]W₃+b₃)+e_s，其中[；]为连接操作，

为映射矩阵，b₃为偏参；

从结构知识、实体的文本知识和图像知识中生成实体的多模态表示e_multi，即头实体h_multi和尾实体t_multi。

进一步地，所述步骤S22的具体内容为：

将头实体的多模态表示h_multi、关系的结构特征向量r_s和尾实体的多模态表示t_multi按列进行拼接得到矩阵

为了捕获矩阵A的边缘信息，对矩阵的左右边界进行填充0操作,得到矩阵A′；使用大小为1×3的过滤器

用以获得头实体、关系和尾实体在相同维度下的特征；经过卷积后获得特征图V；过滤器的数量为τ∈{64,128,256}，对于第K∈{1,2,3,...,τ-1,τ}个过滤器会生成特征图V^k，其第i行第j列的特征

计算过程如(1)所示：

其中

表示第k个过滤器的第m行第n列，A′为填充后的矩阵，A′_i,j表示矩阵的第i行第j列，b为偏参，f(.)为激活函数，这里使用RELU。

进一步地，所述步骤S23的具体内容为：

首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息；然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP，感知机隐藏层的神经元个数为τ/q，其中q＝16为缩小比例；使用元素求和来合并两个MLP输出的特征向量，再经过sigmoid层，得到每张特征图的权重M_C(V)；最后将得到的权重M_C(V)和输入的特征图V进行元素乘操作，得到特征图L₁；通道注意力的计算公式如(2)～(3)所示：

其中，W_aout、W_ahidden、W_mout和W_mhidden为多层感知机MLP的权重参数矩阵，

表示元素乘法操作，f(.)为sigmoid函数。

进一步地，所述步骤S24的具体内容为：

将L₁作为空间注意力模块M_S的输入，分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息；然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作，得到一个高度为M，宽度为3，通道数为2的特征图；之后使用单个大小为1×2的卷积核进行卷积，生成的特征图与输入的特征图L₁在空间维度上保持一致；最后经过一个sigmoid层，得到空间位置的权重M_S(L₁)；将空间位置权重M_S(L₁)与输入特征图L₁进行元素乘操作，得到特征图L₂；计算公式如(4)～(5)所示：

M_s(L₁)＝f(convolve[reduce_mean(L₁)；reduce_max(L₁)]) (4)

其中[；]为连接操作，f(.)为sigmoid函数；

进一步地，所述步骤S25的具体内容为：

将带权值的特征图L₂与原始特征图V相加；将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量，然后与一个权重矩阵

点积,得到三元组(h,r,t)的评分；形式上，将ConvAT的评分函数F定义为公式(6)：

进一步地，所述步骤S3的具体内容为：

在训练过程中，最小化损失函数loss，损失函数为公式(7)：

其中，

G为正确的三元组集合，G′为不正确的三元组集合，它通过随机替换G中三元组的头或尾实体生成的；θ为正则化参数，w为权重矩阵，

为L₂正则化；

具体补全模型的验证内容为：链路预测实验，对于每个测试三元组，通过用知识库中的全部实体，去轮流替换测试三元组的头实体或者尾实体来构造负例三元组；然后运用训练好的模型对测试三元组和负例三元组进行评分，并将这些评分升序排序，得到三元组的排名；使用平均排名、平均倒数排名和前N名的命中率hit@N,其中N取值为1,3和10，这三个指标来评估知识库补全的效果；

具体知识库补全：遍历知识库K₁中的所有实体和关系，组成(h,r,？)和(？，r,t)的查询对，然后过滤掉那些已出现在K₁中的查询对，得到最终的查询对集；接着通过训练好的ConvAT模型来为每一个查询对下的候选实体评分，然后将候选实体的评分按升序排列，排名最前的实体即认为是当前查询对缺失的实体，然后将查询对和排名最前的实体组成完整的三元组，即得到知识集合K₂，然后将K₂合并到已知的知识集合中，完成知识库的补全。

与现有技术相比，本发明具有以下有益效果：

(1)现有的表示学习模型大多只考虑知识库中存储的结构知识，因此这类模型的补全能力受到显式存储信息的限制，而本发明提出的算法能够融合外部信息，能够利用更丰富的语义信息。

(2)现有的融入外部信息的表示学习方法，大多只考虑了单一的模态信息，以文本模态居多，而本发明提出的算法在结构知识的基础上，融入了文本和图像两种外部模态信息，使模型能够利用多模态之间的互补性，提高表示学习的质量。

(3)现已有的运用卷积网络的知识表示学习算法，将提取出的特征都无差别对待，而本发明提出的算法，融入了通道注意力和空间注意力，使模型能关注重要特征，抑制不重要特征，提高实体和关系的表示质量。

(4)本文提出的知识库补全模型和现有的只考虑结构知识的模型相比，补全性能更稳定；与现有的结合外部模态信息的模型相比，本文提出的模型补全效果更优。

附图说明

图1为本发明实施例的ConvAT算法框架图。

图2为本发明实施例的实体的多模态表示图，其中，图2(a)，图2(b)均为相加方式的多模态表示，图2(c)为注意力方式的多模态表示，图2(d)为连接映射形式的多模态表示。

图3为本发明实施例的通道注意力模块图。

图4为本发明实施例的空间注意力模块图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于多模态表示学习的知识库补全方法，包括以下步骤：

步骤S3：使用损失函数

在本实施例中，所述步骤S1中所述进行数据预处理的具体内容为：

对于已知的知识集合K₁，使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练，得到头尾实体和关系的结构特征向量；知识库中的每一个实体都有一段文本描述和十张图像与其相对应；对于文本描述，使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练，得到文本描述对应的特征向量，将其作为实体对应的文本特征向量；对于图像，用VGG神经网络对其进行预训练，得到每张图片的特征向量表示，然后使用十张图片特征向量的平均值或最大值或注意力相加值，作为实体对应的图像特征向量。

在本实施例中，所述步骤S2具体包括以下步骤：

步骤S25：将带权重的特征图L₂与原始特征图V相加，将相加后的特征图连接成一个高度为3·M·τ,宽度为1的特征向量，然后与一个权重向量

点积,得到三元组(h,r,t)的评分，评分的计算公式为：

在本实施例中，所述步骤S21的具体内容为：

在本实施例中，主要考虑结构知识以及结构知识中实体对应的文本信息和图像信息。首先从各模态知识中分别学习特征向量，然后将实体对应的不同模态的特征向量统一起来。提出了三种融合方式：

所述实体的多模态表示方式包括相加、注意力或连接映射；

所述相加(Add)：首先将实体对应的文本特征向量e_t和图像特征向量e_i分别经过一个全连接层，映射到与实体结构特征向量e_s相同维度的空间中，然后将降维后的文本特征向量e′_t和图像特征向量e′_i与结构特征向量e_s相加，如图2(a)和(b)所示。此时，实体的多模态表示定义为：e_multi＝e′_t+e′_i+e_s，其中e′_t＝e_tW₁+b₁，e′_i＝e_iW₂+b₂，

和

为映射矩阵，b₁和b₂为偏参；

所述注意力：实体的文本嵌入和图像嵌入经过图2(a)降维操作后被映射到与结构特征向量相同维度的空间中。将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接，形成一个宽度为1，高度为M，通道数为3的特征图，将其作为卷积神经网络的输入。使用1×M大小，输入输出通道数都为3的卷积核进行特征提取后，经过一个激活函数sigmoid，得到每个模态嵌入的权重。将得到的权重与对应的模态嵌入相乘后进行相加，此时实体的多模态表示为：e_multi＝α₁e′_t+α₂e′_i+α₃e_s,如图2(c)所示；

所述连接映射：将实体对应的文本特征向量e_t和图像特征向量e_i进行一个连接操作，然后将连接后的向量经过全连接层，映射到与实体结构特征向量相同的维度空间，然后将降维的向量与结构特征向量e_s进行相加，如图2(d)所示；实体的多模态表示为e_multi＝([e_t；e_i]W₃+b₃)+e_s，其中[；]为连接操作，

为映射矩阵，b₃为偏参；

在本实施例中，所述步骤S22的具体内容为：

计算过程如(1)所示：

其中

在本实施例中，所述步骤S23的具体内容为：

首先将特征图V分别通过平均池化和最大池化操作来聚合特征图的空间信息；然后将平均池化聚合特征图的空间信息和最大池化聚合特征图的空间信息分别经过具有一个隐藏层的多层感知机MLP，感知机隐藏层的神经元个数为τ/q，其中q＝16为缩小比例；使用元素求和来合并两个MLP输出的特征向量，再经过sigmoid层，得到每张特征图的权重M_C(V)；最后将得到的权重M_C(V)和输入的特征图V进行元素乘操作，得到特征图L₁；通道注意力具体操作过程如图3所示，计算公式如(2)～(3)所示：

表示元素乘法操作，f(.)为sigmoid函数。

在本实施例中，所述步骤S24的具体内容为：

将L₁作为空间注意力模块M_S的输入，分别在通道维度上进行平均池化和最大池化来聚合特征图的通道信息；然后将平均池化后得到的特征和最大池化后得到特征按通道维度进行连接操作，得到一个高度为M，宽度为3，通道数为2的特征图；之后使用单个大小为1×2的卷积核进行卷积，生成的特征图与输入的特征图L₁在空间维度上保持一致；最后经过一个sigmoid层，得到空间位置的权重M_S(L₁)；将空间位置权重M_S(L₁)与输入特征图L₁进行元素乘操作，得到特征图L₂；空间注意力模块具体过程如图4所示，计算公式如(4)～(5)所示：

M_s(L₁)＝f(convolve[reduce_mean(L₁)；reduce_max(L₁)]) (4)

其中[；]为连接操作，f(.)为sigmoid函数；

在本实施例中，所述步骤S25的具体内容为：

10、在本实施例中，所述步骤S3的具体内容为：

在训练过程中，最小化损失函数loss，损失函数为公式(7)：

其中，

为L₂正则化；

较佳的，本实施例首先，在学习实体表示时，考虑结构知识的同时加入文本信息和图像信息。本发明提出了三种不同融合方式，获得实体的多模态表示。其次，我们在卷积神经网络中，通过结合通道注意力和空间注意力来增强卷积表现力，提升模型的补全能力。

较佳的，本实施例提出了一个简称为ConvAT的算法(Convolutional networkwith attention module)，该算法的主要处理过程分为分为五个阶段：第一阶段：实体的多模态表示生成模块。对于输入的三元组(h,r,t)，首先从结构知识、实体的文本知识和图像知识中生成实体的多模态表示e_multi，即头实体h_multi和尾实体t_multi；第二阶段：卷积神经网络模块：将头实体的多模态表示h_multi、关系的结构表示r_s和尾实体的多模态表示t_multi按列拼接，得到三元组的多模态表示，将其输入到卷积神经网络中，提取三元组的特征，得到特征图V；第三阶段：通道注意力模块M_C。聚合特征图的空间信息，计算出每个特征图的权值M_C(V)。然后将得到的特征图权值M_C(V)和输入的特征图V进行按元素乘操作，得到特征图L₁；第四阶段：空间注意力模块M_S。聚合特征的通道信息，计算出特征图不同空间位置的权值M_S(L₁)。将特征图的的空间位置权值M_S(L₁)和特征图L₁进行元素乘操作，得到带权重的特征图L₂；第五阶段：输出三元组的评分。将特征图L₂与原始特征图V相加，进行整形后和权值矩阵进行点积操作后，得到三元组的评分。

较佳的，本实施例在知识图谱的背景下，提出了基于多模态表示学习的知识库补全算法(ConvAt)。本实施例提出的算法能够融合实体对应的多种外部模态信息，生成实体的多模态表示。本实施例提出的表示学习模型通过结合通道注意力和空间注意力来增强卷积表现力，使模型重点关注对模型有帮助的特征，提高实体和关系表示的质量，进而提高模型的补全能力。

较佳的，在本实施例中，相关定义如下：

定义1(三元组，T)设T＝(h,r,t)表示三元组，其中h表示头实体，r表示关系，t表示尾实体。一个三元组也可以称为一个知识或事实。

定义2(实体集合，E)设实体集E＝{e₁,e₂,...,e_n}，表示知识库中的所有实体的集合。

定义3(关系集合，R)设关系集合R＝{r₁,r₂,...,r_n}，表示知识库中所有关系的集合。

定义4(知识库，KB)KB＝{(h,r,t)}表示知识库是由三元组集合构成的，其中h，t∈E，r∈R。

定义5结构表示/嵌入。在生成实体和关系向量时，只考虑其对应的结构关系。实体的结构表示为：

关系的结构表示为

其中M表示嵌入的维度。

定义6(文本表示/嵌入

)表示从实体对应的文本描述中生成实体的嵌入表示。N表示嵌入的维度。

定义7(图像表示/嵌入

)表示从实体对应的图像中生成实体的表示。P表示嵌入维度。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于多模态表示学习的知识库补全方法，其特征在于：包括以下步骤：

步骤S1：给定知识库KB，所述KB包括已知的知识集合K₁＝(E,R,T)，即知识库中显式存储的三元组和未知的知识集合K₂＝(E,R,T')；

步骤S3：使用损失函数

2.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法，其特征在于：所述步骤S1中所述进行数据预处理的具体内容为：

对于已知的知识集合K₁，使用TransE算法或者采用随机初始化的方法对知识库中实体和关系进行预训练，得到头尾实体和关系的结构特征向量；知识库中每一个实体都有一段文本描述和十张图像与其相对应；对于文本描述，使用WordVectors模型、AutoExtend模型或PV-DM模型对其进行预训练，得到文本描述对应的特征向量，将其作为实体对应的文本特征向量；对于图像，用VGG神经网络对其进行预训练，得到每张图片的特征向量表示，然后使用十张图片特征向量的平均值或最大值或注意力相加值，作为实体对应的图像特征向量。

3.根据权利要求1所述的一种基于多模态表示学习的知识库补全方法，其特征在于：所述步骤S2具体包括以下步骤：

点积,得到三元组(h,r,t)的评分，评分的计算公式为：

4.根据权利要求2所述的一种基于多模态表示学习的知识库补全方法，其特征在于：所述步骤S21的具体内容为：

给定一个三元组(h,r,t)，其中h表示头实体，r表示关系，t表示尾实体；一个三元组也称为一个知识或事实；将三元组使用结构特征向量进行初始化，即把三元组映射到M维空间，得到矩阵

5.根据权利要求4所述的一种基于多模态表示学习的知识库补全方法，其特征在于：所述实体的多模态表示方式包括相加、注意力或连接映射；

所述相加：首先将实体对应的文本特征向量e_t和图像特征向量e_i分别经过一个全连接层，映射到与实体结构特征向量e_s相同维度的空间中，然后将降维后的文本特征向量e'_t和图像特征向量e'_i与结构特征向量e_s相加，因此，实体的多模态表示定义为：e_multi＝e’_t+e’_i+e_s，其中e’_t＝e_tW₁+b₁，e’_i＝e_iW₂+b₂，

和

为映射矩阵，b₁和b₂为偏参；

所述注意力：实体的文本嵌入和图像嵌入经过降维操作后被映射到与结构特征向量相同维度的空间中；将文本特征向量、图像特征向量和结构特征向量在通道维度上进行拼接，形成一个宽度为1，高度为M，通道数为3的特征图，将其作为卷积神经网络的输入；使用1×M大小，输入输出通道数都为3的卷积核进行特征提取后，经过一个激活函数Sigmoid，得到每个模态嵌入的权重；将得到的权重与对应的模态嵌入相乘后进行相加，此时实体的多模态表示为：e_multi＝α₁e’_t+α₂e’_i+α₃e_s；