CN113157889A

CN113157889A - 一种基于主题损失的视觉问答模型构建方法

Info

Publication number: CN113157889A
Application number: CN202110430766.3A
Authority: CN
Inventors: 金鑫; 周兴晖; 吕建文; 肖超恩
Original assignee: Shaoding Artificial Intelligence Technology Co ltd
Current assignee: Shaoding Artificial Intelligence Technology Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-23

Abstract

本发明提出一种基于主题损失的视觉问答模型构建方法，所述视觉问答模型包括三个部分：视觉特征提取部分、问题提取部分和信息融合部分，在视觉问答模型中设计有一种损失函数，用于约束视觉问答中回答的生成与图像内容相关；使用卷积神经网络(CNN)和长短时记忆网络(LSTM)进行视觉问答任务，同时使用适用于多主题的损失函数。本发明对图像和问题分别编码后输出的向量进行融合，并执行视觉问答任务。同时由于许多主题的关键词数量较多，添加适用针对不同主题的损失函数将取得更好的效果。通过视觉问答，人们可以从图像中获得更多想要的信息，该技术可应用于智能拍照指导、艺术品评价指导、机器人智能交互等等应用领域，对计算机视觉和模式识别的影响深远。

Description

一种基于主题损失的视觉问答模型构建方法

技术领域

本发明涉及计算机视觉、图像处理、自然语言处理等学科，提出了一种基于主题损失的视觉问答模型构建方法，可以完成适应不同主题的，针对视觉信息和文本信息的跨模态问答。

背景技术

随着图像数据和视频数据在互联网时代的传播，人们对图像数据的质量提出了更高的要求。对于如何将图像处理为更符合人类喜好的形式，成为了计算机视觉与图像处理的重要任务。结合了计算机视觉、图像处理、自然语言处理等学科，有关于不同主题的图像问答的研究在这种背景下产生。

图像视觉问答(Image Question Answer)指的是根据已知的图像和对应的问题，由计算机算法结合图像和问题并输出回答的技术。该技术是建立在图像质量评价(ImageQuality Assessment)基础上的扩展性研究。

视觉问答是横跨计算机视觉和自然语言处理的难题，其任务不仅要求图像特征的提取，也要求文字部分特征的提取。与看图说话任务不同的是，简单的融合图像和文字特征往往并不能得到所需要的特征，即回答。在以往的研究中，研究者会通过施加注意力机制给图片或文字以获得较好的结果，但由于特征空间不同，且图片存在超高的维度的张量特征，因此很难从众多的图像特征中获得所想要的特征。

另一方面，视觉问答的问答往往具有高度模板化的趋势，这也是图像或文字特征数量过少所导致的结果。不论是Visual Madlibs还是更大的VQA，超过95％的回答都是2个单词以内的简单回答，且存在相当多的模板化问题，询问的是图片中的对象颜色、数量、位置等和目标检测相关的任务。部分问题甚至存在虽然是视觉问答，但实际上是多项的问答选择题任务的情况。这说明目前尚无法从有限的数据中获得所想获得足够多的特征，在满足特征数量足够多的前提下，视觉问答的回答才有可能会变长。

借由大量的数据作为基础，将可以以足够高的标准挖掘出足够多的图片和对应的评论，再进一步将评论转为所需的问答对。以主观化评价的统计特征代理客观化的评价是目前图像问答任务中常见的一种方法。

发明内容

本发明的技术解决问题：可以使用在不同主题数据集上的迁移学习和双层LSTM，构建专门的有针对性的视觉问答模型。同时使用适合各自主题的损失函数，即回答与主题中心词汇的相关性作为模型进一步优化的长处。在构建模型中，充分考虑了不同主题的视觉问答中存在的多种情况，设计出具有针对性的模型。

本发明的技术解决方案为一种基于主题损失的视觉问答模型构建方法，所述视觉问答模型包括三个部分：视觉提取部分、问题提取部分和信息融合部分，在视觉问答模型中设计有一种损失函数，用于约束视觉问答中回答的生成与图像内容相关；具体包括如下步骤：

步骤1、构建视觉特征提取部分：在AVA数据集上，使用VGG图像分类算法进行图像的分数回归模型，使得该分数回归模型为标准均方误差低于0.5的评分模型，进一步通过迁移学习将回归模型迁移至需要视觉特征的数据集上，在迁移学习中冻结神经网络的全部网络权重参数；

步骤2、构建文字特征提取部分：使用了三种问题特征提取方法，分别是单词袋模型、单层LSTM网络与双层LSTM网络，进行文字特征提取；其输入为已知的语言段落，通过文字特征提取，输出为视觉问答模型中的回答；

步骤3、构建信息融合部分，将以张量表示的视觉特征和文字特征输入至一个全连接层，该全连接层包括2个1000维的全连接单元和2个非线性函数，最终通过Softmax函数将输出压缩至所需要的范围，该部分的输出为由多个词汇链接而成的问句；

步骤4、设置多主题的损失函数为信息融合部分的损失函数，信息融合部分为对问句生成的回归任务，损失函数具体表示为生成的问句和参考问句之间在词频分布上的差。

进一步的，所述步骤1如下：

(1)已知ImageNet数据集上的基于VGG19网络的图像分类模型和已知的AVA图片分数回归任务，使用ImageNet数据集上的预训练模型，修改最后一层全连接层的输出参数，并加入Softmax函数，使得输出张量的大小与AVA数据集上的评分范围匹配，之后使用预训练模型在AVA数据集上进行图像评分的回归分析，通过神经网络的训练获得能回归得到评分的模型；

(2)使用在AVA数据集上训练好的图像评分模型进行迁移学习，对评分模型中的网络权重参数进行冻结，仅保留全连接层的参数可被更新，获得冻结的参数模型后得到视觉特征提取模型，其输入为图像，输出为图像的视觉特征。

进一步的，所述步骤2如下：

(1)构建文字特征提取部分包括三种操作：单词袋模型、单层LSTM和双层LSTM，该部分算法同时进行三种操作，并选择其中输出词汇数量最多的一种方法；其中，单词袋模型由词袋为基础，词袋具体表示为一个键为词汇，值为词汇的频率的字典；通过glove600词向量库，将词袋转为词汇-频率-词向量的新字典，通过计算每个句子中与全部词汇在词向量上距离最近的词汇，以得到该句子的中心词汇，将其作为文字特征进行提取。

单层LSTM为单向的LSTM，单向的长短时记忆网络，将词汇转为词向量后作为输入，每个长短时记忆单元包括三个部分：输入门、记忆门、输出门；对于每个门单位的状态，将根据时间进行动态的调整，其中输入门为上一个单元的词向量输出，初始记忆单元的输入为空，记忆门的输入为输入门的输出，同时将通过计算与前几个记忆门的相关性进行回归计算，得到最相关的词向量，输出为输出门的输入，输出门的输出为下一个输入门的输入，最后一个输出门的输出默认为停止符；

双层LSTM为双向的LSTM，与单向的LSTM不同，能同时进行两个方向的词汇生成操作。单层LSTM为从左到右，依次产生符合要求的词汇，而双层LSTM为从左到右和从右到左两个方向的词汇生成，两个方向中的记忆门单元共享神经网络的权重参数；

(2)然后处理文字信息，通过词向量和长短记忆网络，词汇的频率信息和词汇之间的相关联的信息，通过多个由输入门单元、输出门单元、遗忘门单元构成神经元函数，输出所需要的文字的信息，该步骤的输出向量的长度也设置为足够的1000维；对于同一批的图像和问答信息，视觉特征提取部分和文字特征提取部分将得到同样批次信息且维度一样的张量特征，这些特征将被设计为信息融合部分的输入；该部分最后连接一个全连接层，输出张量。

进一步的，所述步骤3如下：

(1)信息融合部分的输入为视觉特征提取部分的全连接层输出和文字特征提取部分的全连接层输出，为了保证输入能够匹配，两个全连接层都设计为统一的1024维大小；之后的部分由三个全连接层组成；

(2)通过三层全连接层和两个激活函数，每个批次间的图像和文字信息将被融合，信息的融合将不仅局限于图像和其对应的问答之间；该部分的作用是让神经网络能给予全体数据集而非部分图片做出问答的预测，最终输出的向量也被设置为1000维，输出的张量不直接表示为回答，而是可能的回答的概率分布，根据全体问答所计算得到的词向量，计算最为可能的回答，并与真实值计算损失函数。

进一步的，所述损失函数定义如下：

loss＝loss_BCE+loss_{Given themes}

其中，loss_BCE为交叉熵损失函数，表示为：

其中n表示批量大小，w_n表示权重；

作为批量大小为n时预测的输出值，y_n代表批量大小为n时输入值x对应的输出值。

基于LDA主题提取所获得的主题词的给定主题的损失，

其中，output表示输出，Topic_i为第i个主题。

有益效果：

本发明使用卷积神经网络(CNN)和长短时记忆网络(LSTM)进行视觉问答任务，同时使用适用于多主题的损失函数。本发明对图像和问题分别编码后输出的向量进行融合，并执行视觉问答任务。同时由于许多主题的关键词数量较多，添加适用针对不同主题的损失函数将取得更好的效果。通过视觉问答，人们可以从图像中获得更多想要的信息，该技术可应用于智能拍照指导、艺术品评价指导、机器人智能交互等等应用领域，对计算机视觉和模式识别的影响深远。

附图说明

图1为本发明的视觉特征提取部分示意图；

图2为本发明网络整体架构设计。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的一个实施例，一种基于主题损失的视觉问答模型构建方法，所述视觉问答模型包括三个部分：视觉特征提取部分、问题提取部分和信息融合部分，在视觉问答模型中设计有一种损失函数，用于约束视觉问答中回答的生成与图像内容相关；具体包括如下步骤：

下面对各部分进行详细介绍。

(1)视觉特征提取部分。在进行视觉特征提取时，需要参考使用已知的图像评分模型用于提取图像的不同主题特征。本发明中需要使用含有大量给定主题的图像的数据集来进行训练，且保证每张图片均有对应的评分。在该模型上训练卷积神经网络可获得模型参数，即本文所需要的用于提取图像主题特征的参数。该部分使用的神经网络为VGG19，是一种层数较少但参数量较多的经典神经网络模型。

VGG19来源于ImageNet图像分类任务，在该网络中，最后一层网络为全连接层，之后输出图像类别信息。而在AVA图像评分任务中，将在全连接层后加上Softmax层，目的在于将输出的图像特征压缩至固定的分数范围，由于网络模型中的大部分参数并未发生变动，因此可直接迁移学习ImageNet上已经训练完备的模型。

在图像特征学习任务中，直接迁移使用AVA图像评分任务中的模型，并不对其进行神经网络权重参数的反向回传，仅执行前向计算，该操作被称之为神经网络权重的冻结。

同时，对最后一层全连接层进行梯度的计算与更新。由于全连接层的参数量极大(如在VGG19网络结构中，最后一层全连接层的参数量大于之前全部参数量之和)，且全连接层的特征学习能力较弱，因此可实现部分权重更新，以满足在部分文字相关的特征的学习要求。

(2)文字特征提取部分。单词袋模型考察问题中的前1000个单词用于计算词袋，该词袋被定义为一个字典，其中字典的键为词汇或词组，字典的值为出现的频率。同时由于问题的第一个词汇，即疑问词和回答密切相关，因此加入了少量的疑问词(如how，what，which)，最终的词袋模型包括1005个词汇。

单层LSTM表示为包括一个隐藏层的长短时记忆网络，网络的输入为1024维。且由于问题的输入是按批次进行输入，因此每个问题都将经过全连接层和非线性函数(本文中选择tanh函数)进行维度压缩，压缩至300维。由于所有句子均需要维度压缩，因此词向量的输入词汇中包括训练集中全部的疑问词。

双层LSTM表示为包括两个隐藏层的长短时记忆网络，网络的输入为2048维，也使用全连接层和非线性函数进行维度压缩，与单层LSTM不同的是，双层LSTM能获得更多的词汇信息，同时能将模型视作为简单的编码器-解码器模型。

(3)信息融合部分。无论是简单的词向量模型，还是双层LSTM模型，均可获得维度为1024维的文字特征。而在经过给定主题数据集上的与训练后所获得的模型，可通过冻结参数与全连接层训练获得1024维的图像主题特征。两种特征将被输入至一个全连接层，该层包括2个1000维的全连接单元和2个非线性函数，最终通过softmax函数将输出压缩至所需要的范围。

对于问题的回答设计，一般分为选择题和开放题。由于有些主题性较强，因此选择题被设计为从若干的选项中挑选正确的选项，其答案来自于包括正确答案在内的随机5个回答。而开放题被设计为与回答相关的，且包括正确答案的5个回答或10个回答。

根据本发明的一个实施例，总体的网络架构如图2所示。

(4)主题损失设计部分。传统的损失函数为交叉熵损失函数(Binary CrossEntropy Loss，BCELoss)，这是一种用于多分类的损失函数，在视觉问答的任务中，最为简单的回答，如yes/no等可视作是一种选择，而一个单词的回答也可视作是更大范围的选择题。

以二分类为例，交叉熵损失函数的计算如下：

将回答视作随机变量，对于二分类任务而言，二分类的交叉熵形式为：

其中

作为预测的输出值在0到1之间，y代表输入值x对应的输出值，而对于批量样本(x₁，y₁)，(x₂，y₂)…等可对交叉熵求和或求均值：

在torch框架中，交叉熵损失函数表示为：

其中n表示批量大小，w_n表示权重，

在交叉熵损失函数的基础上，本发明设计了基于LDA主题提取所获得的主题词的给定主题的损失。以LDA所获得的主题数量为10为例：

其中，output表示输出，Topic_i为第i个主题

最终总的损失函数为二者之和，即：

loss＝loss_BCE+loss_{Given themes}

根据本发明的一个实施例，在计算机中实现上述建模方法，具体的，图像特征提取部分为使用冻结的卷积网络提取特征的操作，主要依靠算法框架对该步骤的支持。冻结参数对于算法的另外一个优点是加速模型训练，使之快速收敛。

文字特征提取部分为使用双层的LSTM提取特征的操作，在构建词向量时需要去掉部分词频过低的罕见词汇。

模型实现分为设置参数、输入数据集、网络定义、迭代器生成、目标函数与优化、模型训练与保存模型文件几个步骤。

设置参数包括批处理大小，问题的词向量大小，LSTM大小，RNN层数，联合嵌入层大小；

输入数据集包括归一化图像的特征，设计参数；

网络定义包括视觉问答部分，即输入词向量和RNN编码器，另一部分是多模态部分，读取仅前向通过VGG19网络的图像特征，使用矩阵乘法组合不同空间的特征参数；

迭代器生成部分设计每次训练的下一个批次参数，且每次进行迭代时均使用验证集的数据进行验证(数据在创建时已经随机化)，将每个批次的数据导入GPU；

目标函数与优化步骤需要首先将数据载入到网络参数中，将梯度数据清零，获得一个批次的数据量，对词向量和LSTM部分进行前向计算，以及多模态和损失函数的前向计算，之后对编码器进行反向回传，更新此步骤的权重参数，对词向量和LSTM部分进行反向回传，更新参数，定义损失函数和梯度下降的优化器形式，本发明使用的梯度下降策略为每迭代10次损失函数为上次的0.95倍；训练部分，由于在当前的设置下，损失函数逐渐减小，因此神经网络永远不会过拟合，可使用所有的数据进行训练，最终步骤为保存模型文件。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于主题损失的视觉问答模型构建方法，所述视觉问答模型包括三个部分：视觉特征提取部分、问题提取部分和信息融合部分，在视觉问答模型中设计有一种损失函数，用于约束视觉问答中回答的生成与图像内容相关；其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于主题损失的视觉问答模型构建方法，其特征在于，所述步骤1如下：

3.根据权利要求1所述的一种基于主题损失的视觉问答模型构建方法，其特征在于，所述步骤2如下：

(1)构建文字特征提取部分包括三种操作：单词袋模型、单层LSTM和双层LSTM，该部分算法同时进行三种操作，并选择其中输出词汇数量最多的一种方法；其中，单词袋模型由词袋为基础，词袋具体表示为一个键为词汇，值为词汇的频率的字典；通过glove600词向量库，将词袋转为词汇-频率-词向量的新字典，通过计算每个句子中与全部词汇在词向量上距离最近的词汇，以得到该句子的中心词汇，将其作为文字特征进行提取；

4.根据权利要求1所述的一种基于主题损失的视觉问答模型构建方法，其特征在于，所述步骤3如下：

5.根据权利要求1所述的一种基于主题损失的视觉问答模型构建方法，其特征在于，所述损失函数定义如下：

loss＝loss_BCE+loss_{Given themes}

其中，loss_BCE为交叉熵损失函数，表示为：

其中n表示批量大小，w_n表示权重；

作为批量大小为n时预测的输出值，y_n代表批量大小为n时输入值x对应的输出值；

基于LDA主题提取所获得的主题词的给定主题的损失，

其中，output表示输出，Topic_i为第i个主题。