CN110309850A

CN110309850A - 基于语言先验问题识别和缓解的视觉问答预测方法及系统

Info

Publication number: CN110309850A
Application number: CN201910407218.1A
Authority: CN
Inventors: 程志勇; 郭洋洋; 刘一兵; 聂礼强; 宋雪萌; 王英龙
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2019-10-08

Abstract

本公开公开了基于语言先验问题识别和缓解的视觉问答预测方法及系统，包括：测试步骤：将测试集的测试图像、测试语言问题和测试语言答案，均输入到初步训练好的视觉问答模型中，对初步训练好的视觉问答模型进行测试；在测试的过程中，根据模型输出的语言答案的准确率计算语言先验得分；如果语言先验得分超过设定阈值，表示当前模型存在语言先验问题，则重新对视觉问答模型进行训练；如果语言先验得分低于设定阈值，表示当前模型不存在语言先验问题，即当前模型即为训练好的视觉问答模型；预测步骤：将待预测的图像和语言问题，输入到训练好的视觉问答模型中，输出最终的预测语言答案。

Description

基于语言先验问题识别和缓解的视觉问答预测方法及系统

技术领域

本公开涉及视觉问答技术领域，特别是涉及基于语言先验问题识别和缓解的视觉问答预测方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

受益于计算机视觉，自然语言处理和信息检索技术的进步，旨在回答关于图像或视频的问题的视觉问题回答在过去几年中受到了很多关注。虽然到目前为止取得了一些进展，但一些研究指出，目前的视觉问答模型受到语言先验问题的严重影响。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

问答一直被认为是一项具有挑战性的信息检索任务。一开始，它只关注文本域。随着自然语言处理，计算机视觉和信息检索的巨大进步，一种新的“人工智能完成”任务，即视觉问答，已经成为一个新兴的跨学科研究领域。过去几年。视觉问答旨在准确回答有关给定图像或视频的自然语言问题，为各种应用带来光明前景，包括医疗援助和人机交互。最近，已经构建了几个基准数据集来促进这项任务，接着是许多设计的深度模型。

尽管这些方法在目前显示出了优秀的性能，但许多研究指出，当今的视觉问答模型仍然受到训练数据中问题和答案之间依赖关系的严重驱动。并且，根据实验证明，精心设计的视觉问答模型实际上是根据问题中的前几个单词提供答案，并且常常能有不差的性能。以视觉问答1.0提供的训练集为例，其中答案为2的问题个数占整个数据集的31％。这导致视觉问答模型在测试时遇到“...... 有多少”的问题时，常常并没有真正理解给定的图像而作答。于此，关于模型所预测的答案是由训练集中相同问题类型的答案集所强烈驱动的情况，称之为视觉问答中的语言先验问题。

不难理解语言先验问题的原因，但是，这个问题不容易处理。其中一个原因是在强先验的情况下处于独立且相同分布的训练、测试集的性质所导致的。因此，很难判断一个表现良好的模型是由在图像理解方面取得进展所导致的，还是仅依赖于语言先验。此外，在不降低模型性能的情况下解决语言先验问题也是另一个挑战。

随着视觉问答中语言先验问题的发现，研究者已经投入了大量精力来解决或以某种方式推断问题，并开发了一套方法。该方法可大致分为两个方向：1) 使数据集偏差变小；2)通过增强对图像内容的分析使模型回答问题。在第一个方向，研究者旨在通过添加补充数据来平衡现有的数据集。更具体地说，对于数据集中每个<图像，问题，答案>三元组，收集具有相似的图像但答案不同的一个三元组以提升图像在视觉问答中的作用。然而，即使有这种平衡，增强后的视觉问答2.0数据集仍然存在显著的偏差。例如，对于“......有多少”的问题，答案为2的问题数目仍然占该问题总数的27％。另外，还有研究者设计了一个诊断3D形状的数据集，通过对相关问题簇内进行拒绝采样来控制基于问题所造成的偏差。由于他们皆从数据集的角度处理问题，以试图避免传统数据集所固有的缺陷，因此先前方法的语言先验问题仍然未解决。

相比之下，第二方向的研究人员从改进机制着手，使视觉问答模型避免语言先验问题。基于这个方向的方法可以直接用在具有偏差的数据集中，因此更加通用。例如，Aishwarya所提出的方法明确地解除了对于给定问题的答案预测中图像中存在的视觉概念的识别。最近，Ramakrishnan等人，将训练视为视觉问答模型和问答模型之间的对抗性游戏，以减少语言先验所造成的影响。这两种方法都建立在广泛使用的视觉问答模型Stacked Attention Networks(SAN)之上。然而，与视觉问答模型SAN相比，两种方法都造成了性能下降。

另一个重要问题是缺乏适当的评估指标来衡量视觉问答模型语言先验效应的程度。尽管以前的各种研究已经指出语言先验问题。当前，已提出了许多方法来处理这个问题，但是很少有人致力于如何数字化量化语言先验的影响。如上所述，在回答问题之前很难区分模型是否真正理解问题和图像内容，或者只是简单地发现问题单词和答案之间的某些关联。此外，还很难评估新设计的模型在解决语言先验问题方面的表现。

发明内容

为了解决现有技术的不足，本公开提供了基于语言先验问题识别和缓解的视觉问答预测方法及系统；

第一方面，本公开提供了基于语言先验问题识别和缓解的视觉问答预测方法；

基于语言先验问题识别和缓解的视觉问答预测方法，包括：

测试步骤：将测试集的测试图像、测试语言问题和测试语言答案，均输入到初步训练好的视觉问答模型中，对初步训练好的视觉问答模型进行测试；在测试的过程中，根据模型输出的语言答案的准确率计算语言先验得分；如果语言先验得分超过设定阈值，表示当前模型存在语言先验问题，则重新对视觉问答模型进行训练；如果语言先验得分低于设定阈值，表示当前模型不存在语言先验问题，即当前模型即为训练好的视觉问答模型；

预测步骤：将待预测的图像和语言问题，输入到训练好的视觉问答模型中，输出最终的预测语言答案。

进一步地，重新对视觉问答模型进行训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

进一步地，所述分数限制损失函数，等于0与设定差值二者中的最大值，所述设定差值等于输出值S_vqa与输出值S_qa的差值；

所述输出值S_vqa是将第二图像特征向量和语言答案特征向量融合后的特征向量输入到第四个多层感知机得到的；

所述输出值S_qa是将语言问题特征向量和语言答案特征向量融合后输入到第五个多层感知机得到的；

所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。

第二方面，本公开还提供了基于语言先验问题识别和缓解的视觉问答预测系统；

基于语言先验问题识别和缓解的视觉问答预测系统，包括：

测试模块，其被配置为将测试集的测试图像、测试语言问题和测试语言答案，均输入到初步训练好的视觉问答模型中，对初步训练好的视觉问答模型进行测试；在测试的过程中，根据模型输出的语言答案的准确率计算语言先验得分；如果语言先验得分超过设定阈值，表示当前模型存在语言先验问题，则重新对视觉问答模型进行训练；如果语言先验得分低于设定阈值，表示当前模型不存在语言先验问题，即当前模型即为训练好的视觉问答模型；

预测模块，其被配置为将待预测的图像和语言问题，输入到训练好的视觉问答模型中，输出最终的预测语言答案。

进一步地，训练模块重新训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

因为在测试的过程中，根据模型输出的语言答案的准确率计算语言先验得分，根据语言先验得分来识别视觉问答模型是否存在语言先验问题，以及根据语言先验得分判断语言先验问题的严重性；

因为当前模型存在语言先验问题，则重新对视觉问答模型进行训练，可以有效缓解语言先验问题对视觉问答结果来带的影响，使预测步骤视觉问答的答案更加准确。

因为重新对视觉问答模型进行训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；分数限制损失函数考虑了将第二图像特征、语言问题特征和语言答案特征融合后输入到第二个多层感知机得到的输出值S_vqa大于将语言问题特征和语言答案特征融合后输入到第三个多层感知机的输出值S_qa的差值；所以让视觉问答模型更多地考虑图像特征，进而视觉问答模型输出的答案更贴合实际图像，而不是依赖训练集的答案。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开的嵌入得分正则化模块的模型示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于语言先验问题识别和缓解的视觉问答预测方法；

如图1所示，基于语言先验问题识别和缓解的视觉问答预测方法，包括：

作为一个或多个实施例，所述方法的测试步骤之前，还包括：训练步骤：将训练集的训练图像、训练语言问题和训练语言答案，均输入到视觉问答模型中，对视觉问答模型进行训练，得到初步训练好的视觉问答模型。

作为一个或多个实施例，所述方法的训练步骤之前，还包括：视觉问答模型构建步骤：构建视觉问答模型，所述视觉问答模型，包括：卷积神经网络、循环神经网络、第一个多层感知机MLP(MLP,Multilayer Perceptron)和第二个多层感知机MLP，所述卷积神经网络用于对图像进行特征提取，提取第一图像特征；

所述循环神经网络对输入的语言问题进行特征提取，提取语言问题特征；

将提取的第一图像特征和语言问题特征同时输入到注意力模型中再次进行特征提取，提取第二图像特征；

将第二图像特征输入到第一个多层感知机MLP中，输出第二图像特征向量；

将第二图像特征向量输入到第二个多层感知机MLP中，输出语言答案。

应理解的，所述第一图像特征，包括以下特征的一种或多种：颜色特征、纹理特征、形状特征或空间关系特征。

应理解的，所述第二图像特征，包括以下特征的一种或多种：颜色特征、纹理特征、形状特征或空间关系特征。

应理解的，所述注意力模型是Convolutional Block Attention Module(CBAM)。

应理解的，语言问题为纯文字的语言表达的问题，例如“图中有几个人”、“图中左下角的物品是什么”。

应理解的，语言答案为纯文字的语言表达的答案，例如“三个人”、“打印机”。

应理解的，所述语言问题特征，包括以下特征的一种或多种：主体特征、动作特征或关系特征，例如：问题为“这个男孩在椅子旁边吃什么？”，其特征则包含主体特征(男孩)，动作特征(吃)，关系特征(在椅子旁边)等。

作为一个或多个实施例，根据输出的语言答案的准确率计算语言先验得分的具体步骤为：

其中，LP表示语言先验得分，|QT|表示所有问题类型的问题集的问题类型的个数；如{‘多少个？’，‘在吗？’}，则问题类型个数为2，|A_j|表示问题类型qt_j下答案集合中不重复的答案的个数，表示问题类型qt_j下的预测答案aⁱ的语言先验得分；QT表示所有问题类型的集合；A_j表示问题类型qt_j下答案集；j表示 QT中第j个元素的索引，j表示第j个问题类型；i表示A_j中第i个元素的索引，i表示第i个答案；表示问题类型为qt_j下预测的答案为aⁱ的精度；表示对于某个问题类型qt_j，其所有的答案中为aⁱ的答案所占比例；表示在集合中答案为aⁱ的数量；表示答案集合中所有答案的个数；σ(·)指的是sigmoid函数；表示正确答案的数量，即预测答案aⁱ与问题类型qt_j下的正确答案相同；表示错误答案的数量，即，预测答案aⁱ与问题类型qt_j下的正确答案不一致。

应理解的，在这里表示问题类型为“多少个”的问题的答案可重复集合，而A_j代表答案不可重复的集合。比如说：表示问题类型为‘多少个’的答案集合 {2,3,4,5,2,2}，而A_j则表示{2,3,4,5}(它不包含重复的答案)。

应理解的，所述问题类型，是指如‘多少个苹果’、‘多少个蛋糕’这样的问题，都属于多少个xx’这样的问题类型。

作为一个或多个实施例，重新对视觉问答模型进行训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

进一步地，新的损失函数L：

L＝L_answer+β*L_score；

其中，L表示新的损失函数，L_answer表示原损失函数；β表示是平衡L_answer和 L_score这两个损失函数的超参数，L_score表示分数限制损失函数。

其中，表示第二图像特征，h表示语言问题特征，softmax为归一化指数函数；a_gt表示每个问题下正确答案的概率分布；如‘多少个苹果？’，其答案分布为{“3个”：0.3,“2个”：0.7}(这里0.3表示答案为“3个”所对应的正确率，0.7 类似)。

作为一个或多个实施例，所述分数限制损失函数，等于0与设定差值二者中的最大值(即：若设定差值为0.1，则0.1>0,那么损失函数的值为0.1；反之若设定差值为-0.1，则0>-0.1,最后损失函数的值为0)，所述设定差值等于输出值S_vqa与输出值S_qa的差值；

L_score＝max(0,S_vqa-S_qa+γ)；

S_vqa＝MLP(O_vqa)；

S_qa＝MLP(O_qa)；

其中，γ表示设定的边界值；O_vqa表示第二图像特征、语言问题特征和语言答案特征融合的特征，O_qa表示语言问题特征和语言答案特征融合后的特征， MLP表示多层感知机。所述特征融合，可以选择串联融合或并联融合。

(1)语言先验得分(LP得分)

下面我们将详细说明本公开中所提出的指标——语言先验得分(称为LP得分)。我们首先列出指标中所使用的主要符号。

主要符号：设表示训练集中所有答案的可重复性集合，QT表示问题类型。对于问题类型qt_j，表示相应的答案的可重复性集合，它是的子集；A_j表示相应的答案集，其中包含中的非冗余元素。而是在答案为aⁱ的数量。例如，让我们假设只有一个问题类型，qt_j为“……有多少？”，且是{0,0,1,2,2,2,3,4}。那么应该与相同，且A_j应为{0,1,2,3,4}。如果aⁱ是2，那么应该是3。

每个问题种类的答案精度：在验证集中评估模型之后，我们可以计算每个问题类型的答案精度。我们忽略了当前答案集合A_j(即)未包含答案aⁱ的情况。否则我们计算它是问题类型qt_j下预测的答案aⁱ的精度，计算公式如下：

其中表示正确答案的数量，即预测答案aⁱ与问题类型qt_j下的正确答案相同。并且表示错误答案的数量，即，预测答案aⁱ与问题类型qt_j下的正确答案不一致。例如，如果测试问题属于问题类型qt_j并且预测答案是aⁱ，然后如果正确答案是aⁱ则否则显然，越大表示此种类型的问题回答正确的数目越多，反之亦然。

语言先验得分计算：让表示问题类型qt_j下的预测答案aⁱ的语言先验得分, 即LP分数。形式上，它被定义为：

其中σ(·)指的是非线性函数(这里采用sigmoid函数)，表示的大小。表示测试时模型的缺陷。在极端情况下，如果模型在预测中表现最佳，则应接近1。因此，应接近于0。表示在整个训练集中对于某个问题类型qt_j，其正确答案为aⁱ所占比例。我们使用σ(·)来平滑这一项的原因是不同答案的比例变化很大，我们希望稀疏答案以促成这个指标。我们可以看到，只有在以下两种情况时，才会获得较大的

1)验证集(或测试集)中的更多问题的答案被错误地预测为aⁱ时

2)aⁱ在训练集中是大多数问题的正确答案。

因此，该指标考虑了训练数据集中的原始偏差和模型的缺陷——导致语言先验问题的两个关键因素。最后，整个验证集上的LP得分的计算方法如下：

这里|QT|是整个问题类型集的大小，|A_j|是qt_j问题类型下答案集的大小。我们可以很容易地得出结论LP∈[0,1]。并且LP得分越大，语言先验的影响越大。

(2)得分正则化模块

如图1所示，得分正则化模块有两个流输入：O_vqa和O_qa。前者表示图像、问题和答案的整合表示，而后者表示问题和答案的整合。代表预先训练好的正确答案的词向量，它可以与其他元素(例如，<图像，问题>特征或仅问题特征)融合以获得O_vqa和O_qa。融合方法包括逐元素加法，乘法和连接。

在此步骤之后，<image，question，answer>和<question，answer>的融合特征用于预测S_vqa和S_qa，

S_vqa＝MLP(O_vqa)

S_qa＝MLP(O_qa)

其中MLP是多层感知器，我们利用MLP来实施我们的得分正则化模块。

为了实现图像问题比仅仅用于答案预测的问题更好，这里采用成对学习方法，

L_score＝max(0,S_vqa-S_qa+γ)

其中，γ是设定的边界值。通过这种方式，视觉问答模型被迫考虑用于回答问题的图像内容，而不是仅仅基于问题单词和答案之间的频繁模式。

利用上面所提出的正则化方法，视觉问答模型的最终损失函数是答案预测损失和分数限制损失的组合。

L＝L_answer+β*L_score

其中β是平衡这两个损失函数的超参数。这使我们能够在端到端多任务学习方案中使用我们的正则化方法训练视觉问答模型。视觉问答模型的默认优化方法保持不变，以优化最终损失函数。

在本公开中，我们为解决上述问题做出了两方面设计。首先，我们设计一个度量来定量测量视觉问答模型的语言先验效应。已经证明建议的度量标准在我们的研究中是有效的。其次，我们提出了一种正则化方法，通过减轻语言先验问题以及提高视觉问答模型性能来增强当前的视觉问答模型。所提出的得分正则化模块采用成对学习策略，这使得视觉问答模型基于图像的推理(在此问题上)回答问题而不是基于在偏见训练集中观察到的问答模式。另外，该正则化模块可灵活地集成到各种视觉问答模型中。

为了对语言先验所造成的影响进行评估，在本公开中，我们设计了一个正式的量化指标来衡量语言先验效应的程度(称为LP得分)，并设计了一个广义的正则化方法以缓解视觉问答中的语言先验问题。一方面，我们提出的LP得分通过考虑训练数据集的偏差和模型缺陷来评估语言先验效应。采用这种方式， LP得分可以定量地测量语言先验效应，并指导进一步研究如何减轻语言先验问题。另一方面，我们提出的正则化方法利用得分正则化模块来强制模型在预测答案之前更好地理解图像内容。更具体地来讲，在最终答案预测之前，我们会将得分正则化模块添加到主模型中。这是为了保证视觉问答模型通过理解问题和相应的图像内容来回答问题，而不是简单地分析问题关键词(例如，多少) 和答案(例如，2)的共现模式。为了实现这一目标，正则化模块的输入来自两个流：其一是融合了问题、图像与真实答案的特征，其二是问题特征以及真实答案的融合特征。然后得分正则化模块分别计算两个流的得分并采用成对学习方案进行训练。其与以往研究者所采用的多步学习不同，我们在端到端多任务学习方案中使用视觉问答模型训练所提出的正则化器。此外，我们提出的正则化方法可以应用于数据集上的大多数现有视觉问答模型。

实施例二，本实施例提供了基于语言先验问题识别和缓解的视觉问答预测系统；

基于语言先验问题识别和缓解的视觉问答预测系统，包括：

作为一个或多个实施例，所述方法的测试模块之前，还包括：训练模块，其被配置为将训练集的训练图像、训练语言问题和训练语言答案，均输入到视觉问答模型中，对视觉问答模型进行训练，得到初步训练好的视觉问答模型。

作为一个或多个实施例，所述方法的训练模块之前，还包括：视觉问答模型构建模块，其被配置为构建视觉问答模型，所述视觉问答模型，包括：卷积神经网络、循环神经网络和第一个多层感知机MLP(MLP,Multilayer Perceptron)，所述卷积神经网络用于对图像进行特征提取，提取第一图像特征；

作为一个或多个实施例，训练模块重新训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

实施例三：本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

所述电子设备可以是移动终端以及非移动终端，非移动终端包括台式计算机，移动终端包括智能手机(Smart Phone，如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于语言先验问题识别和缓解的视觉问答预测方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，所述方法的测试步骤之前，还包括：训练步骤：将训练集的训练图像、训练语言问题和训练语言答案，均输入到视觉问答模型中，对视觉问答模型进行训练，得到初步训练好的视觉问答模型。

3.如权利要求2所述的方法，其特征是，所述方法的训练步骤之前，还包括：视觉问答模型构建步骤：构建视觉问答模型，所述视觉问答模型，包括：卷积神经网络、循环神经网络、第一个多层感知机MLP和第二个多层感知机MLP，所述卷积神经网络用于对图像进行特征提取，提取第一图像特征；

4.如权利要求1所述的方法，其特征是，重新对视觉问答模型进行训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

5.如权利要求4所述的方法，其特征是，所述分数限制损失函数，等于0与设定差值二者中的最大值，所述设定差值等于输出值S_vqa与输出值S_qa的差值；

6.基于语言先验问题识别和缓解的视觉问答预测系统，其特征是，包括：

7.如权利要求6所述的系统，其特征是，训练模块重新训练的过程中，基于正则化方法构造新的损失函数，新的损失函数等于原损失函数与分数限制损失函数的求和；当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。

8.如权利要求7所述的方法，其特征是，所述分数限制损失函数，等于0与设定差值二者中的最大值，所述设定差值等于输出值S_vqa与输出值S_qa的差值；

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项方法所述的步骤。