CN113010656B

CN113010656B - 一种基于多模态融合和结构性控制的视觉问答方法

Info

Publication number: CN113010656B
Application number: CN202110292144.9A
Authority: CN
Inventors: 孟敏; 郑进怀; 郑伟金; 莫怡静; 武继刚
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2022-12-20
Anticipated expiration: 2041-03-18
Also published as: CN113010656A

Abstract

本发明涉及视觉问答技术领域，提供一种基于多模态融合和结构性控制的视觉问答方法，包括以下步骤：S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。本发明增强了视觉问答方法的泛化性，提高了视觉问答方法的性能。

Description

一种基于多模态融合和结构性控制的视觉问答方法

技术领域

本发明涉及视觉问答技术领域，具体涉及一种基于多模态融合和结构性控制的视觉问答方法。

背景技术

现今视觉问答技术(Visual Question Answering,VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向，可用于图像检索、帮助视力受损人群获取信息和提升人机交互体验等方面。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题，预测出关于图像对应问题的答案。

传统的视觉问答方法通常通过卷积网络提取图像的全局视觉特征向量，而忽略了视觉特征向量的局部空间信息，同时通过特征向量乘法或拼接等方式对问题语义特征向量和视觉特征向量进行特征向量融合，忽略了视觉特征向量和问题语义特征向量之间的联系，上述问题将会导致模型对基于局部图像特征向量的自然语言问题预测效果欠佳，且存在泛化能力较弱的问题。针对上述问题，基于注意力机制的视觉问答方法将视觉特征向量与问题语义特征向量输入到相同空间，反复迭代计算图像空间的注意力权值分布过程，以获取图像中与问题相关的特征向量空间信息。此外，传统的视觉问答方法未充分考虑答案语义之间的相似性，以及图像、问题和答案三者语义之间的关联性。

近年来，视觉问答领域中运用了深度学习模型，但尚未出现与生成模型相关的应用方法。变分自编码器(Variational Auto-Encoder,VAE)是一种生成模型，其在常规的自编码器的基础上，对编码器的结果加上高斯噪声，使得解码器网络能够对噪声具有鲁棒性。因此，通过VAE拟合样本答案特征向量的分布，进而实现正确答案与错误答案之间的结构性控制。

中国发明专利公开号CN110377710A(公开日为2019年10月25日)，公开了一种基于多模态融合的视觉问答融合增强方法。该发明步骤如下：1、利用GRU结构构建时序模型，获得问题的特征向量表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征向量表示；2、基于注意力模型Transformer进行多模态推理，引入注意力模型对图片-问题-答案这个三元组进行多模态融合，建立推理关系；3、针对不同的隐含关系有不同的推理过程和结果输出，再根据这些结果输出来进行标签分布回归学习，来确定答案。该发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中，能够帮助盲人或者视觉障碍者更好地感知周围环境，也应用于图片检索系统，提高图片检索的准确性和多样性。但是现有技术存在视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷。

发明内容

本发明的目的是解决现有技术中视觉特征向量空间信息丢失和在多路分类过程答案之间语义关系被消除的缺陷，提供一种包括协同注意力机制、多模态信息融合、结构性控制的视觉问答方法。

为了实现上述目的，本发明提供了一种基于多模态融合和结构性控制的视觉问答方法。

视觉问答方法需要进行视觉问答的训练，视觉问答的训练需要图像数据集、问题数据集、答案数据集，并从中选取图像样本及其对应的问题样本、答案样本，得到图像样本数据集、问题样本数据集、答案样本数据集。

一种基于多模态融合和结构性控制的视觉问答方法，包括以下步骤：

步骤S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；

步骤S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；

步骤S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；

步骤S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。

作为优选方案：步骤S1中，训练时输入的图像样本数据集和问题样本数据集构成的并集为

其中V＝[v₁,v₂,…,v_m]为所述并集的视觉特征向量组，d为图像样本中的区域数，l为每个区域的特征向量的维度，Q＝[q₁,q₂,…,q_m]为所述并集的问题语义特征向量组，r为样本中每个问题语义特征向量的维度，m为数据集中样本的总数，视觉特征向量v_i是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵，问题语义特征向量q_j则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM，即bi-LSTM，提取的特征向量。

作为优选方案：步骤S1中，计算答案样本数据集中的答案语义特征向量，答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量，先使用词表示的全局向量GloVe获取答案的嵌入向量；然后将答案特征向量输入到指定的多层感知器模型g_φ(answers)获取输出正确答案特征向量组A，其中A＝[a₁,a₂,…,a_m]，

a_i表示正确答案特征向量。

作为优选方案：步骤S2中，通过嵌入函数f_θ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络，获取图像中与问题文本相关的注意力加权特征向量，最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间，计算多模态信息融合特征向量组U_i，其中U_i＝[u₁,u₂,…,u_m]，

u为多模态信息融合特征向量，n为多模态融合特征向量的维度。

具体的，步骤S2中多模态融合特征向量的相关计算公式如下：

其中，k表示多模态融合特征向量迭代计算过程中的第k层注意力机制，融合特征向量h_A是利用注意力机制融合v_i和u^k-1得到的特征向量，

分别表示图像特征、问题特征到注意力机制的线性变换矩阵，

表示在图像上加权后得到的视觉特征向量，u为多模态信息融合特征向量，b_A为注意力机制的偏置项，p_I表示通过线性变化和多项逻辑斯蒂回归softmax得到融合特征向量h_A在图像上的概率分布，

和b_P分别表示计算概率分布过程中的权值矩阵、偏置项，j为权值矩阵的维度，l为每个区域的特征向量的维度，d为图像的区域数，

表示矩阵和向量的加法；I或者i作为下标，起到编号的作用，用于区分不同样本的对应参数。

作为优选方案：步骤S3中对多模态信息融合特征向量进行结构性控制的表达式为：

其中，λ表示权衡系数，S表示与正确答案相似的答案的个数，e_c表示错误答案语义特征向量，

表示计算数学期望，KL表示计算相对熵；变分自编码器VAE将多模态融合特征向量u_i作为识别模型φ的输入，生成近似服从于隐空间分布z的先验概率q_φ(z∣u_i)，接着通过解码器ψ生成后验近似概率p_θ(u_i|z)，进而缩小先验概率分布q_φ与隐分布p_ψ的差异；L₁表示损失函数，用于衡量变分自编码器在结构性控制中的表现。

具体的，变分自编码器VAE是一种生成模型，其在常规的自编码器的基础上，对编码器的结果加上高斯噪声，使得解码器网络能够对噪声具有鲁棒性；通过变分自编码器VAE拟合样本答案特征向量的分布，进而实现正确答案与错误答案之间的结构性控制。

步骤S3中，引入对多模态信息融合特征向量u_i和错误答案语义特征向量e_c的所述结构性控制，保留图像、问题和答案三者之间的关联性，确保视觉问答模型对噪声的鲁棒性。

作为优选方案：步骤S4中，结合步骤S3中的答案样本数据集中的答案语义特征向量和多模态信息融合特征向量进行答案预测，其表达式为：

L₂＝-∑y_i log y′_i

y′_i＝softmax(f(u_i,a_i))

其中，y_i为正确答案的独热one-hot向量，y′_i为预测答案的向量，u_i为多模态信息融合特征向量，a_i为正确答案特征向量，f(u_i,a_i)表示余弦相似度计算；L₂表示交叉熵损失函数，用于衡量实际输出和期望输出的相似性。

作为优选方案：步骤S4中，L＝βL₁+L₂，其中β为权重参数，L为本发明方法提供的损失函数。

与现有技术相比，本发明的有益效果在于：

本发明的多模态融合特征向量的方法能够克服传统视觉问答方法中视觉特征向量空间信息丢失问题，同时能够获取视觉特征向量和问题语义特征向量之间的联系。本发明设计的基于多模态融合和结构性控制的视觉问答方法有效地解决多路分类过程答案之间语义关系被消除的问题，获取答案语义之间的关系。此外，本发明通过使用多模态融合特征向量实现正确答案与错误答案之间的结构性控制，充分考虑了图像、问题和答案三者之间的关联性，因此本发明增强了视觉问答方法的泛化性，也有效地提高了视觉问答方法的性能，提高了视觉问答方法预测答案的准确度。

附图说明

图1是本发明实施例的基于多模态融合和结构性控制的视觉问答方法的流程示意图。

图2是本发明实施例的基于多模态融合和结构性控制的视觉问答方法的答案特征向量可视化示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

具体的，如图1，本发明一种基于多模态融合和结构性控制的视觉问答方法的一个实施例。

其中，Visual Genome是基于YFCC100M和COCO数据集生成的视觉问答数据集，包含108077张图片，平均每张图片有17个问题和答案。Visual7W是Visual Genome的子数据集，主要图片来源于COCO数据集。问题分为what、when、why、who、where和how六个类型，且每个问题都有四个候选答案。通过文本描述和图像区域之间建立关联性进行视觉问答任务。本实施使用Visual7W数据集对本发明提出的方法进行实例性说明。

具体的，一种基于多模态融合和结构性控制的视觉问答方法，包括如下步骤：

a_i表示正确答案特征向量。

L₂＝-∑y_i log y′_i

y′_i＝softmax(f(u_i,a_i))

如图2，图2为本实例提供的一种基于多模态融合和结构性控制的视觉问答方法的答案特征向量可视化示意图，图中不同的符号对应不同类别的答案特征向量。

本发明的工作过程为：步骤S1：计算图像样本数据集的视觉特征向量、问题样本数据集的问题语义特征向量和答案样本数据集的答案语义特征向量；步骤S2：将视觉特征向量和问题语义特征向量输入到基于协同注意力机制的网络，计算多模态信息融合特征向量；步骤S3：对多模态信息融合特征向量和根据答案样本数据集计算的答案语义特征向量进行结构性控制，缩小多模态信息融合特征向量和答案语义特征向量的概率分布；步骤S4：根据答案语义特征向量的概率分布预测视觉问答中图像对应问题的答案。

综上，本发明实施例提供一种基于多模态融合和结构性控制的视觉问答方法。本发明的多模态融合特征向量的方法能够克服传统视觉问答方法中视觉特征向量空间信息丢失问题，同时能够获取视觉特征向量和问题语义特征向量之间的联系。除此之外，本发明中通过使用多模态融合特征向量进行正确答案与错误答案的结构性控制考虑了图像、问题和答案三者之间的关联性，因此本发明增强了视觉问答方法的泛化性，也有效地提高了视觉问答方法的性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于多模态融合和结构性控制的视觉问答方法，视觉问答方法需要进行视觉问答的训练，视觉问答的训练需要图像数据集、问题数据集、答案数据集，并从中选取图像样本及其对应的问题样本、答案样本，得到图像样本数据集、问题样本数据集、答案样本数据集，其特征在于：包括以下步骤：

训练时输入的图像样本数据集和问题样本数据集构成的并集为

其中V＝[v₁,v₂,…,v_m]为所述并集的视觉特征向量组，d为图像样本中的区域数，l为每个区域的特征向量的维度，Q＝[q₁,q₂,…,q_m]为所述并集的问题语义特征向量组，r为样本中每个问题语义特征向量的维度，m为数据集中样本的总数，视觉特征向量v_i是通过152层的残差网络ResNet中最后一个卷积层提取的特征向量矩阵，问题语义特征向量q_j则是在词表示的全局向量GloVe嵌入的基础上使用双向LSTM，即bi-LSTM，提取的特征向量；

计算答案样本数据集中的答案语义特征向量，答案语义特征向量分为正确答案语义特征向量和错误答案语义特征向量，先使用词表示的全局向量GloVe获取答案的嵌入向量；然后将答案特征向量输入到指定的多层感知器模型g_φ(answers)获取输出正确答案特征向量组A，其中A＝[a₁,a₂,…,a_m]，

a_i表示正确答案特征向量；

通过嵌入函数f_θ(images,questions)将视觉特征向量V和问题语义特征向量Q输入到基于协同注意力机制的网络，获取图像中与问题文本相关的注意力加权特征向量，最后通过一个多层感知器将混合特征向量嵌入到输出维度为n的空间，计算多模态信息融合特征向量组U_i，其中U_i＝[u₁,u₂,…,u_m]，