CN112948609A

CN112948609A - 一种视觉问答预测方法、系统及存储介质

Info

Publication number: CN112948609A
Application number: CN202110136865.0A
Authority: CN
Inventors: 杨超; 冯溯; 蒋斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-06-11

Abstract

本发明公开了一种视觉问答预测方法、系统及存储介质，利用语言偏差构建一个联合损失函数去优化内容模块，上下文模块和最终的答案预测。这个联合损失函数包含内容损失，上下文损失和预测损失。内容损失用于优化内容模块的预测，以减少语言偏差带来的统计先验；上下文损失用于优化上下文模块的预测，以保留语言偏差带来的上下文先验；预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下，模型能够在消除语言偏差和获取先验知识间取得一个平衡，具有更好的鲁棒性。

Description

一种视觉问答预测方法、系统及存储介质

技术领域

本发明涉及人机交互技术领域，特别是一种视觉问答预测方法、系统及存储介质。

背景技术

随着互联网的发展，图像，文本，视频，音频等多模态数据以惊人的速度增长和累积，同时深度学习在计算机视觉，自然语言处理，语音识别等领域的成功，加速了传统人工智能向跨模态人工智能的转变。在这样的背景下，研究体现人类对多模态信息理解的问答系统具有重要意义。问答系统一直以来都是体现人工智能的一种通用方法，同时由于视觉信息占据了人脑数据处理的绝大部分，图像处理技术的发展也日趋成熟，基于图像和文本的视觉问答系统得到了很多的关注和研究。

视觉问答[1]的概念在2014年被提出，该任务通过对一幅图像提出问题并让机器来回答的方式，旨在检验机器对图像和问题的理解能力。具体地，将视觉问答任务定义为一种算法，该算法的输入是一幅图像和关于该图像的自然语言问题，输出是关于这个问题的自然语言答案。视觉问答任务非常具有挑战性，模型需要对图像和文本两种模态数据进行感知，识别和理解，并通过多模态交互，融合，推理得到答案。

最近研究表明，视觉问答模型的早期结果使人们高估了它们的性能，大多数现有模型对图片信息的利用不足，过度依赖于数据集中的语言偏差[2]，使得模型无需利用图像就能正确回答问题。这种偏差一部分可以概括为“语言先验”[3]，即模型利用问题与答案之间强烈的相关性，而忽视图片的相应内容，得到结果；另一部分可以概括为“视觉启动偏差”[4]，即模型利用提问者根据图片内容进行提问的倾向性，仅根据问题的一部分，就得到结果。这严重限制了视觉问答的实际应用，因为现实世界中问题与答案间的统计分布与数据集中的分布是存在明显差异的。

现存的应对语言偏差的方法，大致可以分为两种：基于额外数据的方法和非基于额外数据的方法。基于额外数据的方法通常寄希望于构建更平衡的数据集，或者通过额外的注释和视觉监督去减少模型对语言偏差的依赖。但这样往往意味着需要额外的数据标注成本和训练代价。而非基于额外数据的方法往往通过特定的学习策略，减少语言偏差对模型的影响，但这样会使得模型的预测准确率有明显的下降。因为语言偏差对模型并不全是坏的影响，它也能帮助模型学习到一些上下文先验，以过滤掉不必要的答案候选。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种视觉问答预测方法、系统及存储介质，避免模型仅根据片面的信息作出错误的预测。

为解决上述技术问题，本发明所采用的技术方案是：一种视觉问答预测方法，其特征在于，包括以下步骤：

S1、获取待提问的图像v，对图像进行特征提取，获得区域视觉特征f_v(v)；获取关于图像的自然语言问题，对所述自然语言问题q进行特征提取，获得问题特征f_q(q)；

S2、构建偏差模型，以所述自然语言问题q为偏差模型的输入，捕获语言偏差b；

S3、利用所述区域视觉特征f_v(v)、问题特征f_q(q)、语言偏差b，标准的视觉问答模型

获取第一预测内容

利用所述区域视觉特征f_v(v)、问题特征f_q(q)获取第二预测内容

其中，

nn_b是线性神经网络，输出一个权重值；⊙表示逐元素相乘；C_cx(nn_q(f_q(q))⊙nn_v(f_v(v)))表示使用两个线性神经网络

分别映射d_q维的问题特征向量和d_v维的区域视觉特征向量到一个公共空间

然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器C_cx；

为以图像v和问题q为输入，模型获得的预测答案分布；

S4、利用下式获取最终的预测答案

本发明通过构建内容模块和上下文模块，使得模型在回答问题的时候，既关注到了图像和问题中的局部关键信息，同时又不会忽视其中的全局有效信息，从而避免模型仅根据片面的信息作出错误的预测。

本发明的方法还包括：

S5、将所述最终的预测答案代入损失函数

当所述损失函数收敛时，固化所述内容模块和上下文模块的参数，并将此时得到的预测答案表达式作为最终的预测模型。

本发明通过构建联合损失函数，训练模型不需要单独对内容和上下文模块进行预训练，只需要端到端的馈以模型数据，就能完成最终的训练，从而避免了多模块训练的误差累积，增强了训练的稳定性，减少了工程复杂度。

所述损失函数

的表达式为：

其中，

其中i表示视觉问答数据集中第i个样本，v_i,q_i,b_i分别表示第i个样本的图像、问题和语言偏差；

表示第i个样本对应的最终的预测答案；y_i表示第i个图像与问题所对应的答案标签值，

表示一个取值为0到1之间的，维数为

向量的维数等于视觉问答数据集中不同答案的数量； r是超参数，N表示样本总数，σ(·)表示sigmoid函数；B(·)是将第i个图像与问题所对应的语言偏差b_i转化为标签的函数，

本发明在内容损失和上下文损失中，引入语言偏差，有助于在内容模块中，减少语言偏差对模型坏的影响——统计先验；同时在上下文模块中，保留语言偏差对模型好的影响——上下文先验，从而使得模型具有利用语言偏差获取有用信息的能力。

本发明还提供了一种视觉问答预测系统包括：

区域视觉特征提取网络，用于对待提问的图像v进行特征提取，获得区域视觉特征f_v(v)；

循环神经网络，用于获取关于图像的自然语言问题q，对所述自然语言问题进行特征提取，获得问题特征f_q(q)；

偏差模型，以所述自然语言问题为偏差模型的输入，捕获语言偏差b；

标准的视觉问答模型，以图像和自然语言问题为输入，输出预测答案分布

内容模块，用于利用所述区域视觉特征f_v(v)、问题特征f_q(q)、语言偏差b、标准的视觉问答模型

获取第一预测内容

其中，

nn_b是线性神经网络，输出一个权重值；⊙表示逐元素相乘；表示；

上下文模块，用于利用所述区域视觉特征f_v(v)、问题特征f_q(q)获取第二预测内容

其中，C_cx(nn_q(f_q(q))⊙nn_v(f_v(v)))表示使用两个线性神经网络

映射多模态特征分别映射问题特征向量和区域视觉特征向量到一个公共空间

联合预测模块，用于融合所述内容模块和上下文模块的输出，获得预测模型。

本发明的系统还包括：优化模块，用于将所述最终的预测答案代入损失函数

作为一个发明构思，本发明还提供了一种计算机可读存储介质，其存储有程序，所述程序被配置为用于执行本发明上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：本发明

1.本发明在一般的视觉问答模型的基础上，构建内容模块和上下文模块，引导模型去结合图像与问题中决定性内容信息和非决定性的上下文信息去预测答案。内容模块关注图片和问题中的局部关键信息，上下文模块关注图像和问题中的全局有效信息，在两个模块的联合影响下，模型产生一个预测答案分布，从而避免模型仅仅依赖于图像或者问题就得到最后的答案。

2.本发明利用语言偏差构建一个联合损失函数去优化内容模块，上下文模块和最终的答案预测。这个联合损失函数包含内容损失，上下文损失和预测损失。内容损失用于优化内容模块的预测，以减少语言偏差带来的统计先验；上下文损失用于优化上下文模块的预测，以保留语言偏差带来的上下文先验；预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下，模型能够在消除语言偏差和获取先验知识间取得一个平衡，具有更好的鲁棒性。

附图说明

图1为本发明实施例系统结构框图。

具体实施方式

如图1所示，本发明实施例1实现方法具体包括以下步骤：

1.获取待提问的图像，对图像进行特征提取，获得区域视觉特征。

使用预训练的FasterRCNN网络[5]作为图像编码器f_v，对图像v进行特征提取，得到区域视觉特征f_v(v)。

一幅图片幅图片提取个2048维向量(即对于一幅图片，提取图片中36个显著性区域的视觉特征)。

2.获取关于图像的自然语言问题，对问题进行特征提取，获得问题特征。

对于问题q,首先进行分词，然后使用预训练的GloVe词嵌入模型[6]将每个词编码为词向量，接着通过以GRU为基本单元的循环神经网络来捕获整个句子中词语的关联，取最终状态为整个句子的特征，这一个过程可以简单概括为通过文本编码器f_q，获取问题特征f_q(q)。

一个问题—个问题—特个300维向量(少于14，补全零向量)—补全循环神经网络(隐藏维数512)——2个512维向量

3.构建偏差模型，仅以问题为输入，捕获语言偏差

为了捕获语言偏差b，我们根据数据集所划分的64个问题类型，以及出现过的总计2274 个答案，对数据集进行统计，得到不同问题类型q_type与答案

的统计相关性。

P()表示条件概率。

其中q_type∈{1,2,...,64}，每一种问题类型对应一种语言偏差统计分布(一个2274维的向量，每个维度值表示:某种问题类型所对应某个答案出现次数/属于该问题类型的问题总数)。

4.构建CCB模型，其包含内容(content)和上下文(context)模块，两个模块均以多个区域视觉特征，问题特征与语言偏差为输入。

5.内容模块聚焦于图片和问题中局部的关键信息，并有选择地结合语言偏差，作出基于图像和文本内容的预测。

具体地，我们使用经典的视觉问答模型Bottom-Up andTop-Down[5]，去聚焦局部关键信息，获取答案预测概率分布

(一个2274维向量，每个维度值表示某个答案的预测分数)。接着通过典型的集成方法E(·)[7]去减少语言偏差对模型预测的影响，以得到最终的内容预测

这一过程可以被概括为：

6.上下文模块聚焦于图片和问题中全局的有效信息，得到基于图像和文本上下文的预测在上下文模块中，我们尝试去使用全局信息去产生一个均匀的预测分布

以助于模型去学习一个好的上下文先验去过滤掉不必要的答案候选。这一过程可以被描述为：

其中⊙表示逐元素乘。具体地,

使用两个线性神经网络(全连接层)

(将512维的问题特征向量通过全连接层映射为1024维的向量)

(将2048 维的视觉特征向量通过全连接层映射为1024维的向量)去分别映射问题和视觉特征到一个公共空间

然后它们的逐元素乘积被馈入到分类器C_cx，

(1024 的逐元素乘积)

7.接着，将基于内容和上下文的两个预测进行结合，以得到最终的答案预测

具体地，我们直接将两个模块的预测逐元素相乘，以获取最终的答案预测分布，输出概率最大的答案预测

8.构建一个联合损失函数，包含内容损失，上下文损失和预测损失。CCB模型通过该联合损失函数计算损失值，根据损失值求得模型梯度，反向传播，更新模型参数，联合优化两个模块和最终的答案预测。当损失函数收敛后，完成对CCB模型的训练。

9.在计算内容损失时，使用语言偏差对内容预测和答案的二值交叉熵进行重加权，来减少偏差样本对模型梯度的影响，从而避免语言偏差对模型获取内容信息产生影响对于第i个样本，内容损失被定义如下：

其中y_i表示第i个样本所对应的标签值，

r是一个超参数，N表示样本总数，σ(·)表示sigmoid函数。

本实施例中，超参数r＝1。

10.在计算上下文损失时，通过将语言偏差进行二值化处理，得到上下文标签，来计算与上下文预测的二值交叉熵，从而保留语言偏差对模型获取上下文信息的影响。

为了从语言偏差中获取上下文先验，我们转化b_i为一个二值向量B(b_i)作为计算

的标签，定义如下:

其中B(·)是将b_i转化为标签的函数，被定义为:

11.最终的预测损失则直接使用二值交叉熵损失函数，以使得预测分布与真实答案分布尽可能接近

本发明实施例2提供了一种对应上述方法的系统，该系统包括：

区域视觉特征提取网络(具体可以采用预训练的FasterRCNN网络[5])，用于对待提问的图像进行特征提取，获得区域视觉特征f_v(v)；

循环神经网络(具体可以采用LSTM)，用于获取关于图像的自然语言问题，对所述自然语言问题进行特征提取，获得问题特征f_q(q)；

偏差模型(即问题类型与答案间的概率分布模型)，以所述自然语言问题为偏差模型的输入，捕获语言偏差b；

内容模块，用于利用所述区域视觉特征f_v(v)、问题特征f_q(q)、语言偏差b获取第一预测内容

其中，E(·)表示集成方法；⊙表示逐元素相乘；

上下文模块，用于利用所述区域视觉特征f_v(v)、问题特征f_q(q)、语言偏差b获取第二预测内容

其中， C_cx(nn_q(f_q(q))⊙nn_v(f_v(v)))表示使用两个线性神经网络

去分别映射问题特征和视觉特征到一个公共空间

然后将映射成相同维度的两种模态特征向量的逐元素乘积被馈入到分类器C_cx；

联合预测模块，用于融合所述内容模块和上下文模块的输出，获得预测模型；

优化模块，用于将所述最终的预测答案代入损失函数

本发明实施例仿真实验中，按照标准的VQA评价指标[1]，在VQAv2数据集[4]和VQA-CP数据集[2]上，评估本发明的预测模型。为了公平的比较，本发明使用和 Up-Down[5]相同的方法提取图片和问题特征，使用和LMH[7]模型相同的集成方法，减少语言偏差对整个模型的影响。

表1本发明方法与其余方法比较结果

上表1证明了本发明的方法在总体准确率，是/否，数字，和其他问题类型上明显优于其他方法。没有使用额外的数据，本发明将LMH的性能从52.05％提升到 57.99％。从表格的最后一列，可以看到在这两个数据集上，大多数方法的总体准确率有一个明显的差距。值得注意的是，本发明的方法有效地减少了这个模型在两个数据集上的性能差距，达到了2.74％，提升了模型的鲁棒性。

表2本发明方法消融实验

上表2证明了本发明的方法各部分的有效性。基线模型选取Bottom-Up and Top-Down[5]，LMH[7]为典型的集成方法。为了验证CCB模型设置内容模块和上下文模块的有效性，在第三列的实验中，我们不使用语言偏差b来辅助计算内容损失和上下文损失。具体地，通过设置超参数r为0，使得内容损失的计算忽略b的影响；同时不使用通过b生成的上下文标签，而继续沿用数据集的标签来计算上下文损失。从上表可以看到，我们的方法即便不使用额外设计的损失函数，依然能将准确率从52.05％提升到55.06％。在第四列和第五列实验中，我们别验证了内容损失(r＝1,w/o)和上下文损失(r＝0,w)的有效性，准确率分别为55.70％和56.76％。最后，我们还验证了不同的r对模型结果的影响，当r＝1时，模型准确率最高，一个大的r可能影响模型对偏差样本的学习能力，而一个小的r可能使得模型不能完全摆脱对语言偏差的过度依赖。

参考文献

1.Antol,Stanislaw,et al."Vqa:Visual question answering."Proceedingsofthe IEEE international conference on computer vision.2015.

2.Agrawal,Aishwarya,et al."Don'tjust assume；look and answer:Overcoming priors for visual question answering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2018.

3.Niu,Yulei,et al."Counterfactual VQA:ACause-Effect Look at LanguageBias."arXiv preprint arXiv:2006.04315(2020).

4.Goyal,Yash,et al."Making the V in VQAmatter:Elevating the roleofimage understanding in Visual QuestionAnswering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2017.

5.Anderson,Peter,et al."Bottom-up and top-down attention for imagecaptioning and visual question answering."Proceedings ofthe IEEE conferenceon computer vision andpattern recognition.2018.

6.Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings ofthe 2014conference onempirical methods in natural language processing(EMNLP).2014.

7.Clark,Christopher,MarkYatskar,and Luke Zettlemoyer."Don't Take theEasy Way Out: Ensemble Based Methods forAvoiding Known Dataset Biases."arXivpreprint arXiv:1909.03683(2019).

8.Wu,Jialin,and Raymond Mooney."Self-critical reasoning for robustvisual question answering."Advances in Neural Information ProcessingSystems.2019.

9.Jing,Chenchen,et al."Overcoming Language Priors in VQAviaDecomposed Linguistic Representations."Proceedings ofthe AAAI ConferenceonArtificial Intelligence 34.7(2020):11181-11188.

10.Ramakrishnan,Sainandan,AishwaryaAgrawal,and Stefan Lee."Overcominglanguage priors in visual question answering with adversarialregularization."Advances in Neural Information Processing Systems.2018.

11.Cadene,Remi,et al."Rubi:Reducing unimodal biases for visualquestion answering."Advances in neural information processing systems.2019。