CN110175231A

CN110175231A - 视觉问答方法、装置和设备

Info

Publication number: CN110175231A
Application number: CN201910468780.5A
Authority: CN
Inventors: 高鹏; 李鸿升; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-27
Anticipated expiration: 2039-05-31
Also published as: CN110175231B

Abstract

本公开实施例提供一种视觉问答方法、装置和设备，其中，所述方法包括：根据输入图像的多个图像区域特征得到多个图像总结特征，并根据输入问题的多个问题特征得到多个问题总结特征；根据所述图像总结特征和所述问题总结特征，生成多个隐变量特征，每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征；基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征；使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答。本公开提高了输出回答的准确性。

Description

视觉问答方法、装置和设备

技术领域

本公开涉及计算机视觉技术，具体涉及一种视觉问答方法、装置和设备。

背景技术

随着深度学习技术的发展，许多深度神经网络模型已经被应用在计算机视觉和自然语言处理任务中，并取得了关键的作用。例如，在视觉问答(Visual QuestionAnswering，VQA)任务中，深度神经网络需要有效利用图像和问题两种数据来给出回答。

发明内容

有鉴于此，本公开至少提供一种视觉问答方法、装置和设备。

第一方面，提供一种视觉问答方法，所述方法包括：

根据输入图像的多个图像区域特征得到多个图像总结特征，并根据输入问题的多个问题特征得到多个问题总结特征；

根据所述图像总结特征和所述问题总结特征，生成多个隐变量特征，每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征；

基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征；

使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答。

根据本公开的任一实施例，在一种可能的实现方式中，所述根据输入图像的多个图像区域特征得到多个图像总结特征，包括：根据所述图像区域特征，确定第一线性组合权重；根据所述第一线性组合权重和所述图像区域特征，生成所述图像总结特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述根据输入问题的多个问题特征得到多个问题总结特征，包括：根据所述问题特征，确定第二线性组合权重；根据所述第二线性组合权重和所述问题特征，生成所述问题总结特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述根据所述图像总结特征和问题总结特征，生成多个隐变量特征，包括：将图像总结特征和问题总结特征进行点积运算；对计算结果进行线性变换，得到所述隐变量特征。

根据本公开的任一实施例，在一种可能的实现方式中，在所述生成多个隐变量特征之后，所述方法还包括：对所述隐变量特征进行维度变换，得到第一变换隐变量；对所述隐变量特征进行空间变换，得到第二变换隐变量；根据所述第一变换隐变量和第二变换隐变量，得到更新后的隐变量特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征，包括：分别对所述图像区域特征和问题特征进行线性变换，得到各自的查询特征；对所述隐变量特征进行线性变换，得到对应的键特征和值特征；根据所述键特征和所述查询特征，得到分别对应所述图像区域特征和问题特征的权重；基于所述权重和值特征，对所述图像区域特征和问题特征进行信息聚合，得到聚合后的所述图像区域特征和问题特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答，包括：分别对所述聚合后的图像区域特征和问题特征进行池化；根据池化后的所述图像区域特征和问题特征，输入分类器，得到对应所述输入问题的回答。

根据本公开的任一实施例，在一种可能的实现方式中，在得到对应所述输入问题的回答之后，所述方法还包括：根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数，其中，所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题，得到所述输入问题的回答。

根据本公开的任一实施例，在一种可能的实现方式中，所述基于注意力机制将所述隐变量特征聚合至图像区域特征和问题特征之后，所述方法还包括：根据聚合后的所述图像区域特征，生成对应的图像总结特征；并根据聚合后的所述问题特征，生成对应的问题总结特征。

第二方面，提供一种视觉问答装置，所述装置包括：

特征总结模块，用于根据输入图像的多个图像区域特征得到多个图像总结特征，并根据输入问题的多个问题特征得到多个问题总结特征；

总结交互模块，用于根据所述图像总结特征和所述问题总结特征，生成多个隐变量特征，每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征；

特征聚合模块，用于基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征；

回答获得模块，用于使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答。

根据本公开的任一实施例，在一种可能的实现方式中，所述特征总结模块，在用于根据输入图像的多个图像区域特征得到多个图像总结特征时，包括：根据所述图像区域特征，确定第一线性组合权重；根据所述第一线性组合权重和所述图像区域特征，生成所述图像总结特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述特征总结模块，在用于根据输入问题的多个问题特征得到多个问题总结特征时，包括：根据所述问题特征，确定第二线性组合权重；根据所述第二线性组合权重和所述问题特征，生成所述问题总结特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述总结交互模块，具体用于：将所述图像总结特征和问题总结特征进行点积运算；对计算结果进行线性变换，得到所述隐变量特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述装置还包括：交互传播模块，用于对所述隐变量特征进行维度变换，得到第一变换隐变量；对所述隐变量特征进行空间变换，得到第二变换隐变量；根据所述第一变换隐变量和第二变换隐变量，得到更新后的隐变量特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述特征聚合模块，用于：分别对所述图像区域特征和问题特征进行线性变换，得到各自的查询特征；对所述隐变量特征进行线性变换，得到对应的键特征和值特征；根据所述键特征和所述查询特征，得到分别对应所述图像区域特征和问题特征的权重；基于所述权重和值特征，对所述图像区域特征和问题特征进行信息聚合，得到聚合后的所述图像区域特征和问题特征。

根据本公开的任一实施例，在一种可能的实现方式中，所述回答获得模块用于：分别对所述聚合后的图像区域特征和问题特征进行池化；根据池化后的所述图像区域特征和问题特征，输入分类器，得到对应所述输入问题的回答。

根据本公开的任一实施例，在一种可能的实现方式中，所述装置还包括：参数调整模块，用于根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数，其中，所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题，得到所述输入问题的回答。

第三方面，提供一种视觉问答设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的视觉问答方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例的视觉问答方法。

本公开一个或多个实施例的视觉问答方法、装置和设备，通过对图像区域特征和问题特征进行组合获得总结特征，减少了特征数量，从而能够进行不同模态的特征之间的交互，以获得跨模态的特征关联关系，使用这种跨模态的特征关联增强图像区域特征和问题特征，提高了网络预测结果的准确性。

附图说明

为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开至少一个实施例提供的一种视觉问答的应用示意图；

图2为本公开至少一个实施例提供的一种视觉问答网络的结构示意图；

图3为本公开至少一个实施例提供的一种视觉问答网络的训练流程；

图4为本公开至少一个实施例提供的一种视觉问答网络的原理示意图；

图5为本公开至少一个实施例提供的一种视觉问答方法的流程图；

图6为本公开至少一个实施例提供的一种视觉问答装置的结构示意图；

图7为本公开至少一个实施例提供的另一种视觉问答装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案，下面将结合本公开一个或多个实施例中的附图，对本公开一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

本说明书至少一个实施例提供了一种视觉问答方法，该方法是通过一个视觉问答网络来进行视觉问答，该视觉问答网络的输入是“图像”和“问题”，其中，该问题是对应于该图像的提问；视觉问答网络的输出是“回答”，即对应于所述“问题”的回答。

举例来说，请参见图1所示，视觉问答网络输入的图像11是几个人在操场上打球的图像，输入网络的问题12是“What sport are these people playing？这些人玩的是什么运动”，网络的输出“回答”13是运动类型。

下面将描述如何实现上述视觉问答，包括：视觉问答网络的网络结构、该视觉问答网络的训练过程、以及应用该视觉问答网络进行视觉问答的过程。

视觉问答网络的网络结构

本说明书的实施例中，在视觉问答网络中可以设置至少一个多模态隐交互模块(Multi-modality Latent Interaction module，MLI Module)。请参见图2的示例，该视觉问答网络中包括多个MLI Module21，如下的描述中以多个为例，实际实施中可以包括至少一个该MLI Module21。

此外，视觉问答网络中还包括如下模块：

图像特征提取模块22，用于对输入视觉问答网络的输入图像(image)进行特征提取，得到多个图像区域特征(visual-region features)。例如，该图像特征提取模块22包括但不限于目标检测网络Fast R-CNN。

问题特征提取模块23，用于对输入视觉问答网络的输入问题(question)进行特征提取，得到多个问题特征(word features)。例如，该问题特征提取模块 23包括但不限于双向编码器模型。

多个多模态隐交互模块21，用于对图像区域特征和问题特征进行更新。其中，每一个MLI Module21都可以分别对图像区域特征和问题特征进行增强，增强后的图像区域特征和问题特征可以继续作为下一个MLI Module21的输入，该下一个MLI Module21可以继续对输入的图像区域特征和问题特征进行增强。其中，每一个MLI模块的输入和输出可以具有相同的特征维度。

如图2所示，该视觉问答网络在通过多个MLI Module21对图像区域特征和问题特征进行增强后，对增强后的该图像区域特征和问题特征可以进行池化 (Pooling)和分类器识别等处理，最终预测出对应所述问题的回答(answer)。

由于该视觉问答网络包括了至少一个MLI Module21，也可以将该视觉问答网络称为多模态隐交互网络(Multi-modality Latent Interaction Network，MLIN)。

视觉问答网络的训练过程

图2所示的视觉问答网络可以按照图3所示的流程进行训练，该视觉问答网络可以根据输入图像和对应所述输入图像的输入问题，输出对应该输入问题的回答。在说明视觉问答网络训练过程时，将结合图4进行描述。如图3和图4 所示，该视觉问答网络的训练过程可以包括：

在步骤300中，对输入视觉问答网络的输入图像进行特征提取，得到多个图像区域特征；并对输入视觉问答网络的输入问题进行特征提取，得到多个问题特征。

本步骤中，仍以图1中的输入图像为例，当输入图像11输入网络后，可以通过Faster RCNN网络提取出该图像的多个图像区域特征。当输入问题12输入网络后，可以通过双向编码器提取得到多个问题特征。

例如，图像区域特征以R表示，问题特征以E表示。

在步骤302中，对多个图像区域特征进行组合，获得多个图像总结特征。并对多个问题特征进行组合，获得多个问题总结特征。

本步骤可以参见图4中的“总结”(Summarization)网络。

首先，如下通过公式(1)和公式(2)，确定线性组合权重：

如上，L_R可以称为第一线性组合权重，W_R和b_R是可以通过网络训练学习确定的线性变换参数。公式(1)是根据图像区域特征R，进行线性变换，再进行水平维度的softmax操作，得到第一线性组合权重。

L_E可以称为第二线性组合权重，W_E和b_E是可以通过网络训练学习确定的线性变换参数。公式(2)是根据问题特征E，进行线性变换，再进行水平维度的softmax操作，得到第二线性组合权重。

上述获得的第一线性组合权重和第二线性组合权重的数量均以k个为例，但实际实施中不局限于此。

接着，在确定第一线性组合权重和第二线性组合权重的基础上，可以按照公式(3)和公式(4)生成图像总结特征和问题总结特征：

其中，可以称为图像总结特征(latent visual summarization vectors)，可以称为问题总结特征(latent language summarization vectors)。通过上述公式(3)和公式(4)可见，将第一线性组合权重与图像区域特征R相乘，可以生成图像总结特征；将第二线性组合权重与问题特征E相乘，可以生成问题总结特征。

如上示例了一种图像总结特征和问题总结特征的方式，实际实施中不局限于此，也可以用其他方式生成总结特征。所述图像总结特征或者问题总结特征的数量也是k，可以结合参见图4所示，第一线性组合权重的数量与图像总结特征的数量可以一致，第二线性组合权重的数量与问题总结特征的数量可以一致。

上述的图像总结特征或者问题总结特征，都是总结特征。每一个该总结特征都是对输入的个体特征的线性组合。例如，以图像为例，将输入网络的图像可以提取特征得到多个图像区域特征，将该多个图像区域特征中的部分特征进行线性组合就可以得到一个总结特征。

而k个总结特征可以是对k个不同方面的图像区域特征进行组合，这些总结特征获得了不同方面的有意义的特征组合，提取到了更高层次的丰富信息，有助于使得网络预测结果更加准确。并且，将图像区域特征和问题特征进行组合后，得到的总结特征的数量要少于原始特征的数量，比如，的数量少于R 的数量，从而也减少了计算量，能够基于相对少量的总结特征更好的获取不同模态之间的特征关联，基于该特征关联进行特征增强，使得预测结果更准确。

在步骤304中，根据所述图像总结特征和问题总结特征，生成多个隐变量特征；每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征。

理解输入视觉问答网络的不同模态的特征之间的关联关系，对于预测对应该网络输入的回答非常重要。因此，本步骤中，将通过图4的“交互”网络确定跨模态的特征关联。

以步骤302中获得了k个图像总结特征和k个问题总结特征为例，本步骤将生成k*k个隐变量特征。每一个隐变量特征包括融合的图像总结特征和问题总结特征。例如，可以按照如下公式(5)获得隐变量特征：

如公式(5)所示，可以将所述图像总结特征和问题总结特征进行点积，再对点积计算结果进行线性变换，得到所述隐变量特征。其中，W_A和b_A是可以通过网络训练学习确定的线性变换参数。

在步骤306中，对隐变量特征进行变换，得到更新后的隐变量特征。

本步骤中，请参见图4的“传播”网络，将进行跨模态的信息传播，以通过这种信息传播学习复杂的模态间关联，这将有助于预测更加准确的回答。

如下示例两种信息传播的操作：

公式(6)进行隐变量特征的维度变换：

其中，所述的可以称为维度变换得到的第一变换隐变量，是根据公式(5)中的A得到，W_C和b_C是可以通过网络训练学习确定的线性变换参数。

公式(7)进行隐变量特征的空间变换：

其中，所述的可以称为空间变换得到的第二变换隐变量，W_p和b_p是可以通过网络训练学习确定的线性变换参数。

其中，上述的维度变换是对每一个隐变量特征进行的变换操作，空间变换是对不同的隐变量特征之间进行的变换操作。

在获得上述第一变换隐变量和第二变换隐变量的基础上，执行公式(8)：

其中，是更新后的隐变量特征，该更新后的隐变量特征已经很好的表达了不同模态之间的特征关联。

在步骤308中，基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征。

本步骤可以参见图4中的“聚合”网络。

可以对输入MLI模块的图像区域特征R和问题特征E，分别进行线性变换，得到各自的查询特征(query features)，如下公式(9)所示：

Q_R＝R·W_qr+b_qr，QE＝E·W_qe+b_qe

............(9)

其中，W_qr，W_qe，b_qr，b_qe都是线性变换参数，Q_R是图像区域特征R对应的查询特征，Q_E是问题特征E对应的查询特征。

根据隐变量特征进行线性变换，得到对应的键特征(key features)和值特征(value features)，如下公式(10)所示：

其中，W_k，W_v，b_k，b_v是在计算键特征和值特征时的线性变换参数，K是隐变量特征对应的键特征，V是隐变量特征对应的值特征。

根据所述键特征和所述查询特征，得到分别对应所述图像区域特征和问题特征的权重，参见如下的公式(11)和公式(12)：

其中，U_R是图像区域特征对应的权重，U_E是问题特征对应的权重，dim可以是一个常量，而可以表示垂直维度的softmax操作。

在获得权重的基础上，最初输入MLI模块的图像区域特征R和E，可以按照如下的公式(13)和公式(14)进行信息聚合，得到更新后的图像区域特征和问题特征。

其中，R_U是更新后的图像区域特征，E_U是更新后的问题特征。基于所述权重和值特征，对所述图像区域特征和问题特征进行信息聚合，即得到R_U和E_U。

如上，经过一个MLI模块的处理后，原始的图像区域特征R被增强为R_U，问题特征E被增强为E_U。

本实施例以视觉问答网络中包括多个MLI模块为例，那么，假设上述的过程是第一个MLI模块处理了，增强原R和E得到了R_U和E_U，那么，该R_U和 E_U可以继续输入下一个MLI模块，作为下一个MLI模块的输入，请继续参见步骤310。

在步骤310中，根据聚合后的所述图像区域特征，生成对应的图像总结特征；并根据聚合后的问题特征，生成对应的问题总结特征。

例如，前一个MLI模块处理后获得的R_U和E_U，将继续输入级联的下一个 MLI模块，作为该下一个MLI模块的输入，可以将该输入继续返回执行步骤302 至步骤310。直至视觉问答网络中的所有的MLI模块都处理完，则得到最终的聚合后的图像区域特征和问题特征，仍然用R_U和E_U表示。

在步骤312中，使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答。

请参见图2所示，可以分别对所述聚合后的图像区域特征和问题特征进行池化；并根据池化后的所述图像区域特征和问题特征，输入分类器，得到对应所述输入问题的回答。

如下的公式(15)至公式(17)，其中，M表示聚合后的图像区域特征的数量，N表示聚合后的问题特征的数量：

Answer＝Classifier[R_pool⊙E_pool]............(17)

在步骤314中，在得到对应所述输入问题的回答之后，根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数。

本步骤中，可以通过损失函数计算预测值和标签值之间的损失值，并据此反向调整网络参数，例如，包括上述的“总结”网络、“交互”网络等MLI模块的各个网络中的线性变换参数。

网络训练时可以迭代执行多次，直至满足预设的训练结束条件时，得到训练好的视觉问答网络。

上述的视觉问答网络的训练方法，通过对图像区域特征和问题特征进行组合获得总结特征，减少了特征数量，从而能够进行不同模态的特征之间的交互，以获得跨模态的特征关联关系，使用这种跨模态的特征关联增强图像区域特征和问题特征，提高了网络预测结果的准确性。

应用训练好的网络进行视觉问答

使用训练好的视觉问答网络，可以应用于视觉问答的场景。例如，可以向视觉问答网络输入一张图像，并同时输入对应该图像的问题，通过该网络可以预测出对应的回答，而且预测回答的准确率较高。

该应用过程与网络的训练过程相比，少了反向调整网络参数的过程。

请参见图5，示例了一种视觉问答的方法，该方法使用前述训练好的视觉问答网络执行。如图5所示，该方法可以包括如下处理，其中，具体的各个步骤的处理详细参见视觉问答网络训练的实施例部分，不再详述。

在步骤500中，分别对输入网络的输入图像和输入问题进行特征提取，得到多个图像区域特征和多个问题特征。

例如，可以根据输入的一张图像，提取该图像的多个图像区域特征。并根据输入的一个问题，提取该问题的多个问题特征。通常，输入的问题以文字字符的形式表示，也可以采用其他形式，这里不做限定。

在步骤502中，根据输入图像的多个图像区域特征得到多个图像总结特征，并根据输入问题的多个问题特征得到多个问题总结特征。

例如，可以对一张图像的多个图像区域特征进行组合，得到多个图像总结特征，该图像总结特征的数量比图像区域特征的数量要少。可以对一个问题的多个问题特征进行组合，得到多个问题总结特征，该问题总结特征的数量比问题特征的数量要少。

示例性的，可以使用线性组合的方式，对一张图像的多个图像区域特征进行组合。具体的过程可以参见前述的公式(1)至公式(4)，线性组合的线性变换参数可以通过模型的训练学习得到。

在步骤504中，根据所述图像总结特征和问题总结特征，生成多个隐变量特征；每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征。

在步骤506中，基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征。

在步骤508中，使用聚合后的图像区域特征和问题特征，获得对应所述输入问题的回答。例如，可以对聚合后的特征进行池化，并根据池化后的特征输入分类器，预测对应所述问题的回答。

上述的视觉问答方法，通过对图像区域特征和问题特征进行组合获得总结特征，减少了特征数量，从而能够进行不同模态的特征之间的交互，获得跨模态的特征关联关系，使用这种跨模态的特征关联增强图像区域特征和问题特征，提高了对视觉问答的回答结果的预测准确性。

图6为本公开提供的一种视觉问答装置，该装置可以执行本公开任一实施例的视觉问答方法。如图6所示，该装置可以包括：特征总结模块61、总结交互模块62、特征聚合模块63和回答获得模块64。

特征总结模块61，用于根据输入图像的多个图像区域特征得到多个图像总结特征，并根据输入问题的多个问题特征得到多个问题总结特征。

总结交互模块62，用于根据所述图像总结特征和所述问题总结特征，生成多个隐变量特征，每一个所述隐变量特征包括融合的所述图像总结特征和问题总结特征。

特征聚合模块63，用于基于注意力机制，将所述隐变量特征聚合至所述图像区域特征和问题特征。

回答获得模块64，用于使用聚合后的图像区域特征和问题特征，得到对应所述输入问题的回答。

示例性的，特征总结模块可以包括图4中多模态隐交互模块的总结网络，总结交互模块可以包括图4中多模态隐交互模块的交互网络，特征聚合模块可以包括多模态隐交互模块的聚合网络，而回答获得模块可以包括图4中的池化处理单元、分类器等，在对聚合后的特征进行池化后，将池化后的特征输入分类器得到对应输入问题的回答。

在一个例子中，特征总结模块61，在用于根据输入图像的多个图像区域特征得到多个图像总结特征时，包括：根据图像区域特征，确定第一线性组合权重；根据所述第一线性组合权重和所述图像区域特征，生成所述图像总结特征。

在一个例子中，特征总结模块61，在用于根据输入问题的多个问题特征得到多个问题总结特征时，包括：根据所述问题特征，确定第二线性组合权重；根据所述第二线性组合权重和所述问题特征，生成所述问题总结特征。

在一个例子中，总结交互模块62，具体用于：将所述图像总结特征和问题总结特征进行点积运算；对计算结果进行线性变换，得到所述隐变量特征。

在一个例子中，请参见图7，该装置还可以包括：交互传播模块65，用于对所述隐变量特征进行维度变换，得到第一变换隐变量；对所述隐变量特征进行空间变换，得到第二变换隐变量；根据所述第一变换隐变量和第二变换隐变量，得到更新后的隐变量特征。

在一个例子中，特征聚合模块63用于：分别对所述图像区域特征和问题特征进行线性变换，得到各自的查询特征；对所述隐变量特征进行线性变换，得到对应的键特征和值特征；根据所述键特征和所述查询特征，得到分别对应所述图像区域特征和问题特征的权重；基于所述权重和值特征，对所述图像区域特征和问题特征进行信息聚合，得到聚合后的所述图像区域特征和问题特征。

在一个例子中，回答获得模块64用于：分别对所述聚合后的图像区域特征和问题特征进行池化；根据池化后的所述图像区域特征和问题特征，输入分类器，得到对应所述输入问题的回答。

在一个例子中，请参见图7，当该装置用于网络训练时，该装置还包括：参数调整模块66，用于根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数，其中，所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题，得到所述输入问题的回答。

本公开还提供了一种视觉问答设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的视觉问答方法。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例的视觉问答方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例描述的用于文字识别的神经网络的训练方法的步骤，和/或，实现本公开任一实施例描述的文字识别方法的步骤。其中，所述的“和/或”表示至少具有两者中的其中一个，例如，“多和/或B”包括三种方案：多、B、以及“多和B”。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理网络。通常，中央处理网络将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理网络以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、 EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM 和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开一个或多个实施例的较佳实施例而已，并不用以限制本公开一个或多个实施例，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

1.一种视觉问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述图像总结特征和问题总结特征，生成多个隐变量特征，包括：

将所述图像总结特征和问题总结特征进行点积运算；

对计算结果进行线性变换，得到所述隐变量特征。

3.根据权利要求1所述的方法，其特征在于，在所述生成多个隐变量特征之后，所述方法还包括：

对所述隐变量特征进行维度变换，得到第一变换隐变量；

对所述隐变量特征进行空间变换，得到第二变换隐变量；

根据所述第一变换隐变量和第二变换隐变量，得到更新后的隐变量特征。

4.根据权利要求1至3任一所述的方法，其特征在于，在得到对应所述输入问题的回答之后，所述方法还包括：根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数，其中，所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题，得到所述输入问题的回答。

5.一种视觉问答装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，

所述总结交互模块，具体用于：将所述图像总结特征和问题总结特征进行点积运算；对计算结果进行线性变换，得到所述隐变量特征。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

交互传播模块，用于对所述隐变量特征进行维度变换，得到第一变换隐变量；对所述隐变量特征进行空间变换，得到第二变换隐变量；根据所述第一变换隐变量和第二变换隐变量，得到更新后的隐变量特征。

8.根据权利要求5至7任一所述的装置，其特征在于，所述装置还包括：参数调整模块，用于根据所述回答的预测值与标签值之间的损失，调整视觉问答网络的网络参数，其中，所述视觉问答网络用于根据所述输入图像和所述输入图像的输入问题，得到所述输入问题的回答。

9.一种视觉问答设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至4任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4任一所述的方法。