CN114117101A

CN114117101A - 一种基于问题和图像成对训练的vqa方法和视觉问答装置

Info

Publication number: CN114117101A
Application number: CN202111328269.9A
Authority: CN
Inventors: 王雪枫; 赵佳; 王宇; 杨子龙; 张雪松
Original assignee: Fuyang Normal University
Current assignee: Fuyang Normal University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-03-01

Abstract

本发明公开了一种基于问题和图像成对训练的VQA方法和视觉问答装置，从数据集中获取图像，并采用预训练模型提取512维度的图像特征，该模型采用的是将图像和文本成对进行训练，因此提取的512维度的图像特征已经包含语义信息，然后从数据集中获取问题，采用该预训练模型提取文本特征，将提取的图像特征和文本特征送入MLP网络中进行预测。本发明将自然语言监督信号用于视觉问答中图像特征的提取，使得图像特征的提取融合了文本信息且维度较低，实现了在克服语言先验数据集vqacpv2上比基线模型vgg提取的图像特征和lstm提取的问题特征更高的准确率，同时在参数上降低了100倍，在时间上降低了500倍。

Description

一种基于问题和图像成对训练的VQA方法和视觉问答装置

技术领域

本申请涉及视觉问答领域，特别是涉及一种基于图像和文本成对训练的VQA方法和装置。

背景技术

VQA(VisualQuestionAnswering，视觉问答)是一种同时涉及计算机视觉和自然语言处理两大领域的多模态学习任务。视觉问答被定义为深度学习中的分类任务，给定一张图像和与图像相关的自然语言问题输入到VQA系统中，系统会给出关于该问题所属的答案类别。即视觉问答任务就是给定图片进行问答。解决视觉问答任务关键在于如何高效的结合图像特征和问题特征以获取对解决任务有帮助的信息。

常见的视觉问答模型比如vgg16+Lstm模型，由Li.L等人提出。SAN模型主要包含4个子模块组成，第一个模块是采用预训练的VGG16(卷积神经网络)网络提取图像的特征。第二个模块是采用LSTM(Long Short Term Memory长短期记忆网络)网络提取问题的特征。第三个模块是采用Stack Attention(堆叠式注意力网络)，将问题划分成单词，短语，句子，分别对它们求的注意力分布。第四个模块是采用MLP对图像和问题融合后的特征进行整合得到所述问题对应的答案。

SAN模型的整体准确率相较于最初提出的基线VQA模型并没有提高多少，且增加了很多的参数，导致模型复杂度增大。虽然对问题进行了注意力关注训练，但是对图像的关注度极小。模型过多关注于问题，从而带来语言先验的缺陷，即仅依靠问题和答案出现的频率就给出答案。除此之外，LSTM在学习过程中的知识仅来自于视觉问答数据集中的问题，VGG提取的图像特征与问题也没有关联。模型学习的与视觉任务有关的信息数据比较缺乏。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓解上述问题，即使得模型的复杂度降低，同时使得输入到模型中的图像特征包含文本信息，问题特征包含图像信息。

本发明所要解决的技术问题采用以下的技术方案来实现：

一种基于图像和问题成对训练的VQA方法，包括：

从数据集中获取图像，将图片进行网格化，每个网格进行序列化，并加入可学习的位置嵌入参数；

将序列化后的图像送入到VisionTransformer神经网络中，分别经归一化层、多头注意力层及MLP多层感知机层得到图像特征；

从相关数据集中获取与图像相对应的文本描述，将所述文本先进行词嵌入，然后送入到Transformer网络中进行文本特征提取，分别经过归一化层、多头注意力层及MLP多层感知机层得到文本特征；

根据所述图像特征和文本特征计算相似度矩阵，进行图像和问题成对训练，采用相似度矩阵来衡量文本和图像的相似度；

将采用图像和文本进行成对训练后的模型保存下来作为视觉问答中图像、文本特征提取的预训练模型，并分别对图像和问题进行特征提取；

将上述提取好的图像特征和文本特征，采用张量点乘的方式进行简单的特征融合；

采用MLP多层感知机对所述融合后的特征进行编码整合，最终得到所述图像问题对匹配的答案。

本发明的进一步技术：

优选的，将所述图像进行序列化划分后输入到VisualTransform神经网络结构中，再经过块嵌入层、归一化层、多头注意力层及MLP层得到图像特征，包括：将所述的图像先进行序列化划分即经过块嵌入层(patchembedded)将原始的2维图像转换成一系列的1维图像块嵌入，再将序列化后的块嵌入进行归一化，然后将归一化后的模型结果输入到多头注意力网络中求图像自我注意力的分布，再经过归一化网络层进行特征归一化，经过归一化指数函数运算后将其输入到MLP多层感知机中进行图像特征提取。

优选的，将关于图像的文本描述数据集进行词嵌入后输入到Transformer层中，首先对其词向量进行归一化，经过归一化指数函数运算后输入到多头注意力网络中求文本自我注意力的分布，得到文本特征。

优选的，将采用的Visual Transformer求解的图像特征和采用Transformer的文本特征进行成对训练，采用余弦相似度来衡量图像和文本的匹配程度，并进行多次训练，保存训练好的模型，其计算公式如下：

其中S代表图像和文本的相似度，I_i代表图像特征向量，T_i代表对应的文本特征向量。

优选的，采用成对训练后的模型作为视觉问答数据集中图像和问题的特征提取器，提取出来的图像特征包含了问题信息，提取出的问题特征包含了图像信息。

优选的，采用MLP多层感知机对所述包含跨模态信息的图像特征和对应的问题特征进行整合，得到所述问题对应的答案，包括：将所述包含跨模态信息的图像特征和对应的问题特征进行简单的矩阵点乘得到融合特征，将融合后的特征输入到MLP中，通过激活函数tanh运算后送入到softmax对答案进行预测，生成所述问题对应答案的概率分布。

本发明还提供了一种基于图像和问题成对训练的视觉问答装置，包括：

VisualTransformer图像特征提取模块，其配置成从数据集中获取图像，采用VisualTransformer网络架构对图像进行特征提取；

Transformer文本特征提取模块，其配置成从数据集中获取关于图像描述的文本数据，采用Transformer网络架构对文本特征进行提取；

相似度匹配模块，其配置成将获得的图像特征和其对应的文本特征进行成对训练，采用余弦相似度来衡量图像和文本的匹配程度；

新特征提取模块，其配置成获取视觉问答相关的图像数据集和其对应的问题集，采用成对训练的预训练模型分别对图像集和问题集进行特征提取，提取的新的图像特征包含文本信息，提取的新的问题特征包含图像信息；

MLP模块，其配置成采用MLP多层感知机对所提取的问题特征和图像特征进行整合，得到所述问题对应的答案。

所述VisualTransformer模块具体配置成：

将所述的图像先进行序列化划分、归一化，然后将归一化后的模型结果输入到多头注意力网络中求图像自我注意力的分布，再经过归一化网络层进行特征归一化，经过归一化指数函数运算后将其输入到MLP多层感知机中进行图像特征提取。

所述Transformer具体配置成：

将关于图像的文本描述数据集进行词嵌入后输入到Transformer层中，首先对其词向量进行归一化，经过归一化指数函数运算后输入到多头注意力网络中求文本自我注意力的分布，得到文本特征。

所述相似度匹配模块具体配置成：

将采用的VisualTransformer求解的图像特征和采用Transformer的文本特征进行相似度矩阵求解，采用余弦相似度来衡量图像和文本的匹配程度，并进行多次训练，保存训练好的模型。计算公式如下：

新特征提取模块具体配置成：

采用成对训练后的模型作为视觉问答数据集中图像和问题的特征提取器，提取出来的新的图像特征包含了问题信息，提取出的新的问题特征包含了图像信息。

所述MLP模块具体配置成包括：

将所述包含跨模态信息的图像特征和对应的问题特征进行简单的矩阵点乘得到融合特征，将融合后的特征输入到MLP中，通过激活函数tanh运算后送入到softmax对答案进行预测，生成所述问题对应答案的概率分布。

本发明还提供一种用于实施的计算设备。

本发明还提供一种计算机程序产品。

与现有技术相比，本发明具有以下技术效果：

通过从数据集中获取图像，并进行序列化输入到Visual Transformer网络中，经归一化、多头注意力、MLP获取图像特征，再从数据集中获取与图像相关的文本信息，经过词向量嵌入后输入到Transformer网络中，经归一化、多头注意力、MLP获取文本特征，采用余弦相似度计算图像和文本的匹配度，由此训练模型。将采用图像和文本成对训练好的模型作为预训练模型分别对图像和问题进一步提取特征，提取的新的图像特征包含文本信息，提取的问题特征包含图像信息，采用MLP对新的图像特征和新的文本特征进行整合，得到问题对应的答案。采用余弦相似度预训练好的特征提取的图像特征包含了文本信息，提取的文本特征包含了图像信息，从而实现了图像和问题的相互关联，同时指定提取的特征维度较小，使得模型参数呈现指数下降，不仅实现了跨模态特征的结合，还降低了模型计算的复杂度，使得将VQA任务仅采用CPU计算即可应用实际更进一步。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1为本申请的流程图；

图2为本申请的转置结构图；

图3为本申请的部分实验结果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于图像和文本成对训练的VQA方法，参见图1，该方法包括：

从数据集中获取图像，将图像输入到Visual Transformer模块中进行序列化后，经归一化、多头注意力、MLP得到图像特征。

从数据集中获取与图像的文本描述，将文本进行词向量表示后输入到Transformer中，经归一化、多头注意力、MLP得到文本特征。

将得到图像特征和文本特征结合，采用余弦相似度计算图像和文本的匹配度，并进行多次成对训练和学习。

从数据集中获取图像和与图像相关的问题，采用成对训练后的模型作为预训练模型分别对图像和问题进行特征提取。

将提取好的新的图像特征和新的问题特征，输入到MLP多层感知机中。

采用MLP多层感知机对新的图像特征和问题特征进行整合，得到问题对应的答案。

本实施例中，可选的，将图像经过VisualTransformer序列划分后，经归一化、多头注意力、MLP得到成对训练模型的图像输入特征，包括：

对输入的原始图片进行分块，展开成序列，输入进Transformer模型的编码器Encoder部分。

Encoder部分即由归一化层、多头注意力层、MLP层构成，将序列划分后的图像输入到Encoder部分，得到需要成对训练的图像的特征图。

本实施例中，可选的，将文本经过Embedding后，经归一化、多头注意力、MLP后得到成对训练模型的文本输入特征，包括：

对输入的文本进行词嵌入后，输入进Transformer模型的编码器Encoder部分。

Encoder部分即由归一化层、多头注意力层、MLP层构成，将词嵌入表示后的文本输入到Encoder部分，得到需要成对训练的文本的特征。

本实施例中，可选地，根据VisualTransformer提取的图像特征和Transformer提取的文本特征计算出它们之间的匹配度，并进行多次训练，保存精确度最高的模型。包括：

采用如下公式计算文本和图像的匹配程度：

本实施例中，可选地，将经过成对训练后的模型，作为预训练模型用于提取视觉问答中图像和与图像相关的问题的特征。包括：

将经过多次成对训练的文本和图像相关匹配度的模型作为预训练模型，用于提取视觉问答中图像的特征；

将经过多次成对训练的文本和图像相关匹配度的模型作为预训练模型，用于提取视觉问答中与图像相关的问题的特征；

提取的图像和问题的特征向量采用如下方式表示:

V＝{v₁，v₂，...，v_N}；

Q＝{q₁，q₂，...，q_N}；

其中N等于512。

本实施例中，可选地，将经过预训练提取的图像特征和问题特征送入到MLP模型中，采用MLP模型对新的图像特征和新的文本特征进行整合，得到问题的答案，包括：

将新的图像特征和新的文本特征，进行矩阵相乘，送入到MLP中，通过激活函数tanh运算后，输入到softmax函数作分类，生成问题对应的答案。

本申请提供的技术方案，通过从数据集中获取图像，并进行序列化输入到VisualTransformer网络中，经归一化、多头注意力、MLP获取图像特征，再从数据集中获取与图像相关的文本信息，经过词向量嵌入后输入到Transformer网络中，经归一化、多头注意力、MLP获取文本特征，采用余弦相似度计算图像和文本的匹配度，由此训练模型。将采用图像和文本成对训练好的模型作为预训练模型分别对图像和问题进一步提取特征，提取的新的图像特征包含文本信息，提取的问题特征包含图像信息，采用MLP对新的图像特征和新的文本特征进行整合，得到问题对应的答案。采用余弦相似度预训练好的特征提取的图像特征包含了文本信息，提取的文本特征包含了图像信息，从而实现了图像和问题的相互关联，同时指定提取的特征维度较小，使得模型参数呈现指数下降，不仅实现了跨模态特征的结合，还降低了模型计算的复杂度，使得将VQA任务仅采用CPU计算即可应用实际更进一步。

图2是根据本申请另一个实施例的装置结构图。参见图2，该装置包括：

VisualTransformer模块201，其转置成从数据集中获取图像，并进行分块，展开成序列。经归一化，多头注意力，MLP得到图像特征。

Transformer模块202，其转置成从数据集中获取与图像相关的描述文本，并进行词向量嵌入后，经归一化，多头注意力，MLP得到文本特征。

相似度匹配模块203，其装置成将提取好的图像特征和文本特征，采用相似度匹配方法，进行成对训练，作为预训练模型。

新特征提取模块204，其装置成采用成对训练好的模型，作为预训练模型，提取视觉问答数据集中的图像特征和关于图像的问题特征，计算得到新的图像特征和新的问题特征。

MLP模块205，其装置成采用MLP多层感知机对新的图像特征和新的问题特征进行整合，得到问题对应的答案。

本实施例中，可选地，相似度匹配模块，配置成:

采用如下公式计算文本和图像的匹配程度：

本实施例中，可选地，MLP匹配模块，配置成：

将新的图像特征向量和新的问题特征向量经过矩阵相乘后，输入到MLP中，通过激活函数tanh运算后送到softmax层中做分类，生成问题对应的答案。

本实施例中提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见实验部分。

本实施例提供的上述装置，通过从数据集中获取图像，并进行序列化输入到Visual Transformer网络中，经归一化、多头注意力、MLP获取图像特征，再从数据集中获取与图像相关的文本信息，经过词向量嵌入后输入到Transformer网络中，经归一化、多头注意力、MLP获取文本特征，采用余弦相似度计算图像和文本的匹配度，由此训练模型。将采用图像和文本成对训练好的模型作为预训练模型分别对图像和问题进一步提取特征，提取的新的图像特征包含文本信息，提取的问题特征包含图像信息，采用MLP对新的图像特征和新的文本特征进行整合，得到问题对应的答案。采用余弦相似度预训练好的特征提取的图像特征包含了文本信息，提取的文本特征包含了图像信息，从而实现了图像和问题的相互关联，同时指定提取的特征维度较小，使得模型参数呈现指数下降，不仅实现了跨模态特征的结合，还降低了模型计算的复杂度，使得将VQA任务仅采用CPU计算即可应用实际更进一步。

图3是根据本申请提供的部分实验结果图。参见图3，该实施步骤包括：

从数据集中获取图像，输入到VisualTransformer模块中进行分块，并展开成序列；

本实施例中，可选的，采用的实验数据集是MSCOCO，是微软开发的维护的大型图像数据集。MSCOCO数据集中的图像分为训练、验证和测试集，分别是82783训练图像，40504验证图像，81434测试图像。其中还包括，443757个训练图像，214354个验证问题和447793个测试问题，4437570个训练答案，2143540个验证答案(每个问题10个)。

将经过Visual Transformer模块序列化后的图像，输入到Transformer的Encoding中，经过归一化层、多头注意力层、MLP层后得到用于成对训练的图像的特征图。

本实施例中，可选地，VisualTransformer先将图像经过一个卷积层进行序列化展开，将序列化后的图像，经过位置嵌入后，送入到Transformer中，先经过多头注意力层，得到图像关于自己注意力分布特征图，然后输入到归一化层后进行归一化处理，再经过MLP层后得到图像经过Transformer后的特征，与原始的图像特征相加，更新图像特征，具体伪代码如下：

V＝Conv2(V)

V＝Position_embedding(V)

V＝V+Multi-Attention(V)

V＝V+MLP(LayNorm(V))

从数据集中获取文本数据，经过词嵌入后，采用Transformer模块经过多头注意力层、归一化层、MLP层后提取文本特征。具体伪代码如下：

Q＝Wordwmbedding(Q)

Q＝Position_embedding(Q)

Q＝Q+Multi-Attention(Q)

Q＝Q+MLP(LayNorm(Q))

将得到的图像特征和文本特征采用相似度匹配方法进行成对训练，包括：

采用如下公式计算文本和图像的匹配程度：

将经过多次成对训练的相似度匹配模型作为预训练模型，用于提取视觉问答中图像特征和文本特征，此模型提取出来的图像特征包含了文本信息，提取的文本特征包含了图像特征。

将新的包含文本信息的图像特征和新的包含图像信息的文本特征输入到MLP(Multi-LayerPerception,多层感知机)层中，通过激活函数tanh运算后送到softmax做分类，生成问题对应的答案。

本实施例提供的实验方法和实验结果是通过从数据集中获取图像，并进行序列化输入到Visual Transformer网络中，经归一化、多头注意力、MLP获取图像特征，再从数据集中获取与图像相关的文本信息，经过词向量嵌入后输入到Transformer网络中，经归一化、多头注意力、MLP获取文本特征，采用余弦相似度计算图像和文本的匹配度，由此训练模型。将采用图像和文本成对训练好的模型作为预训练模型分别对图像和问题进一步提取特征，提取的新的图像特征包含文本信息，提取的问题特征包含图像信息，采用MLP对新的图像特征和新的文本特征进行整合，得到问题对应的答案。采用余弦相似度预训练好的特征提取的图像特征包含了文本信息，提取的文本特征包含了图像信息，从而实现了图像和问题的相互关联，同时指定提取的特征维度较小使得模型参数呈现指数下降。由表1可以看出参数降低100级，时间上降低500倍。不仅实现了跨模态特征的结合，还降低了模型计算的复杂度，使得将VQA任务仅采用CPU计算即可应用实际更进一步。

本申请实施例还提供一种计算设备，采用NVIDIA2080ti(11G)进行预训练模型的成对训练，再采用仅有CPU的计算机即可在较短时间内完成我们的VQA实验的实施。

本申请实施例还提供了一种计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

Claims

1.一种基于问题和图像成对训练的视觉问答装置，其特征在于，包括：

2.根据权利要求1所述的一种基于问题和图像成对训练的视觉问答装置，其特征在于，所述VisualTransformer模块具体配置成：

3.根据权利要求1所述的一种基于问题和图像成对训练的视觉问答装置，其特征在于，所述Transformer具体配置成：

4.根据权利要求1所述的一种基于问题和图像成对训练的视觉问答装置，其特征在于，所述相似度匹配模块具体配置成：

将采用的VisualTransformer求解的图像特征和采用Transformer的文本特征进行相似度矩阵求解，采用余弦相似度来衡量图像和文本的匹配程度，并进行多次训练，保存训练好的模型，计算公式如下：

5.根据权利要求1所述的一种基于问题和图像成对训练的视觉问答装置，其特征在于，新特征提取模块具体配置成：

6.根据权利要求1所述的一种基于问题和图像成对训练的视觉问答装置，其特征在于，所述MLP模块具体配置成包括：