CN106649542B

CN106649542B - 用于视觉问答的系统和方法

Info

Publication number: CN106649542B
Application number: CN201610952620.4A
Authority: CN
Inventors: 陈侃; 王江; 徐伟
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2015-11-03
Filing date: 2016-11-02
Publication date: 2020-06-16
Anticipated expiration: 2036-11-02
Also published as: US20170124432A1; EP3166049A1; EP3166049B1; CN106649542A; KR101865102B1; KR20180038937A; JP2017091525A; JP6351689B2; US9965705B2

Abstract

本文描述的是用于生成并且使用用于视觉问答任务(VQA)的基于关注的深度学习架构以对图像(静止图像或视频图像)相关问题自动生成答案的系统和方法。为了生成正确的答案，模型的关注根据问题集中于图像中的相关区域上是重要的，因为不同问题可能就不同图像区域的属性提问。在实施方式中，此类经问题引导的关注利用可配置的卷积神经网络(ABC‑CNN)学习。ABC‑CNN模型的实施方式通过将图像特征图与通过问题语义确定的可配置的卷积内核卷积来确定关注图。在实施方式中，经问题引导的关注图集中于问题相关的区域上，并且过滤掉不相关区域中的噪声。

Description

用于视觉问答的系统和方法

技术领域

本发明大体上涉及计算技术，并且更具体地涉及用于自动进行对图像相关问题的问答任务并改进人机对接的系统和方法。

背景技术

存在的问题是如何自动回答与图像相关的问题。虽然已经尝试了使用深度学习来使回答问题的过程自动进行，但是仍需显著的提高。

因此，需要的是提供更有效且更准确的方式来自动回答与图像相关的问题的系统和方法。

发明内容

本申请提供了一种改进对问题输入生成的答案的准确性的计算机实施的方法、一种对图像相关的问题生成答案的计算机实施的方法、以及一种改进对问题输入生成的答案的准确性的装置

根据本申请的一方面，提供了一种改进对问题输入生成的答案的准确性的计算机实施的方法包括：接收图像输入；接收与图像输入相关的问题输入；将问题输入和图像输入输入到基于关注的可配置卷积神经网络框架中以生成答案，基于关注的可配置卷积神经网络框架包括：图像特征图提取组件，包括从图像输入提取图像特征图的卷积神经网络；语义问题嵌入组件，从问题输入获得问题嵌入；经问题引导的关注图生成组件，接收图像特征图和问题嵌入，并且获得集中于问题输入所询问的区域或多个区域的经问题引导的关注图；以及答案生成组件，通过使用经问题引导的关注图加权图像特征图，获得经关注加权的图像特征图，并且基于图像特征图、问题嵌入和经关注加权的图像特征图的融合来生成答案。

根据本申请的另一方面，提供了一种对图像相关的问题生成答案的计算机实施的方法，包括：使用深层卷积神经网络从包括多个像素的输入图像提取图像特征图；使用长短期存储器层从与输入图像相关的输入问题中获得密集问题嵌入；通过将密集问题嵌入从语义空间投影到视觉空间来产生多个经问题配置的内核；将经问题配置的内核与图像特征图卷积以生成经问题引导的关注图；通过使用经问题引导的关注图在空间上加权图像特征图，在多类别分类器处获得经关注加权的图像特征图，经关注加权的图像特征图降低与输入问题不相关的区域的权重；以及基于图像特征图、密集问题嵌入和经关注加权的图像特征图的融合对输入问题生成答案。

根据本申请的再一方面，提供了一种改进对问题输入生成的答案的准确性的装置，包括：响应于接收问题输入提取所述问题输入的密集问题嵌入的装置；响应于接收与所述问题输入相关的图像输入生成图像特征图的装置；至少基于所述图像特征图和所述密集问题嵌入生成经问题引导的关注图的装置，所述经问题引导的关注图选择性地集中于所述问题输入所询问的区域上；使用所述经问题引导的关注图在空间上加权所述图像特征图以获得经关注加权的图像特征图的装置；以及将语义信息、所述图像特征图和所述经关注加权的图像特征图融合以对所述问题输入生成答案的装置。

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。

图1示出根据本公开的实施方式的视觉问答中的关注的问题。

图2描绘根据本公开的实施方式的示例性流程或框架。

图3描绘根据本公开的实施方式的用于询问处理的LSTM框架的实施方式的细节。

图4描绘根据本公开的实施方式的基于关注加权图像(attention weightedimage)的答案生成的示例性流程图。

图5描绘根据本公开的实施方式的用于生成关注加权图像的示例性流程图。

图6描绘根据本公开的实施方式的一些示例图像以及对应QA对，每个图像以其相应数据集的编号标识。

图7示出根据本公开的实施方式的具有图像相关问题与在Toronto COCO-QA数据集中通过ABC-CNN生成的经问题引导的关注图的所选图像。

图8描绘根据本公开的实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在非瞬时计算机可读介质上实施。

附图中示出的组件或是模块是本发明实施方式的示例性说明，并且意图避免使本发明不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应当关注，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其他方式改变。另外，可以使用另外或更少的连接。还应关注，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”、“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。术语“图像”应理解为包括静态图像或视频图像。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到，(1)某些步骤可以可选地执行；(2)步骤可不限于本文所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

A.介绍

视觉问答(VQA)是计算机视觉化、自然语言处理和机器学习的积极跨学科性研究领域。给定图像以及与图像相关的自然语言问题，VQA使用自然语句回答问题。VQA不仅是构建人工智能的基本步骤，也对许多应用(例如图像检索、盲人导航和儿童早教)极为重要。VQA是一项有挑战的任务，因为它要求复杂的计算视觉技术以深层理解图像，还要求先进的自然语言处理技术以提取问题含义，并且要求统一框架来有效地整合视觉信息和语义信息。

目前，大多数的现有技术VQA模型包含视觉部分、自然语言部分和答案生成部分。视觉部分利用深度卷积神经网络(CNN)[参见例如Y·A·乐村(Y.A.LeCun)、L·伯特(L.Bottou)、G·B·奥尔(G.B.Orr)和K·R·穆勒(K.R.Muller)，“有效BackProp”(Efficient Backprop)，《神经网络：技巧》(Neural networks:Tricks of the trade))，第9–48页，施普林格出版公司(Springer)，2012]或传统的视觉特征提取器从输入图像中提取视觉特征。自然语言部分利用Bag-of-Word模型或循环神经网络(RNN)[参见例如S·霍奇瑞特(S.Hochreiter)和J·施密哈勃(J.Schmidhuber)，“长短期存储器(Long short-termmemory)”，《神经计算》(Neural computation)，9(8):1735–1780，1997]模型学习密集问题嵌入(dense question embedding)以对问题语义进行编码。答案生成部分在给定视觉特征和问题嵌入的情况下，生成答案。答案可为通过多类别分类器来生成的单字词答案或为通过另外的RNN解码器来生成的完整句子。全局视觉特征和密集问题嵌入通过线性/非线性的联合投影整合。这种整合通常并不足以充分利用视觉部分与问题理解部分之间的关系。

在本文中呈现新的基于关注的可配置卷积神经网络(ABC-CNN)的实施方式作为统一框架，它将VQA的视觉信息和语义信息整合。当试图回答与图像相关的问题时，人们趋于在给出答案前集中于根据问题意向的信息区域上。例如，在图1中，就询问“外套是什么颜色的？”而言，人们通常在判断外套颜色以回答问题之前找出外套区域。找出这些区域的机制是称为经问题引导的关注，因为这些区域通过图像以及图像相关的问题两者确定。

给定图像以及图像相关的问题，所提出的框架不仅生成自然语言答案，而且还提供经问题引导的关注信息作为回答问题的重要证据。在实施方式中，VQA任务考虑单字词答案；然而，实施方式可容易地扩展为通过使用例如RNN解码器生成完整句子。

为了处理这些问题，提出基于关注的可配置卷积神经网络(ABC-CNN)。根据本公开的一些实施方式的示例性ABC-CNN框架200在图2中示出。ABC-CNN框架包含视觉部分(也被称为图像特征图提取部分)、问题理解部分、答案生成部分和关注提取部分。在所描绘的实施方式中，方框205指示视觉部分或视觉组件；方框210为问题理解部分或问题理解组件；方框215表示具有可配置卷积的关注提取部分或关注提取组件；以及方框220是对经关注加权的图像特征图222使用多类别分类的答案生成部分或答案生成组件。

在实施方式中，卷积神经网络(CNN)207用于在视觉部分中提取视觉特征。替代提取单个全局视觉特征，空间特征图通过在滑动窗口中应用CNN或利用完全卷积神经网络被提取以保留重要空间信息。在实施方式中，长短期存储器(LSTM)模型214用于在问题理解部分中获得问题嵌入212，并且多类别分类器用于在答案生成部分中生成答案。视觉部分和问题理解部分通过利用经问题引导的关注进行整合。

在实施方式中，经问题引导的关注信息在关注提取部分215内被表示为经问题引导的关注图218，关注提取部分215是ABC-CNN框架的核心。其经由可配置的卷积神经网络实现，其中卷积内核216通过将问题嵌入从语义空间投影到视觉空间来生成。可配置卷积内核与根据问题含义所确定的视觉信息对应。例如，在图1中，问题“雨伞是什么颜色的？”应当生成与“雨伞”视觉特征对应的卷积内核。可配置卷积内核与图像特征图表的卷积自适应地将每个区域对于回答给定问题的重要性表示为经问题引导的关注图218。经问题引导的关注图218可以用于在空间上加权视觉特征图，以过滤掉噪声和不相关的信息。在实施方式中，ABC-CNN是有效地将图像和语言理解整合并可以以端对端的方式训练而不要求对图像中的关注区域进行任何人工标记的统一框架。

在实验中，根据本公开的ABC-CNN架构的实施方式针对三个基准VQA数据集进行评估：Toronto COCOQA[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploring models and data for image questionanswering)，arXiv:1505.02074.2015]；DAQUAR[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz)，“基于不确定的输入进行真实世界场景的问答的多世界性方法”(Amulti-world approach to question answering about real-world scenes based onuncertain input)，《神经信息处理系统发展》(Advances in Neural InformationProcessing Systems)，第1682–1690页，2014]；以及VQA[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：视觉问答”(VQA:Visual questionanswering)，arXiv预印本arXiv:1505.00468，2015]。实验表明，ABC-CNN框架显著优于现有技术方法。视觉化证实了ABC-CNN架构能够生成很好地反映问题询问的区域的关注图。

总而言之，统一的ABC-CNN框架被公开为经由经问题引导的关注有效地将视觉信息与语义信息整合以用于VQA。经问题引导的关注不仅显著改进VQA系统性能，而且它还帮助获得对问答过程的更好理解。

B.相关工作

VQA&为图像加说明：这两问题在推理视觉内容并以自然语言呈现结果方面存在相似。在VQA和为图像加说明方面的当前现有技术方法趋于应用CNN提取视觉特征并且应用LSTM模型作为解码器来生成答案或说明。一些方法在LSTM解码器中的生成期间应用多模型层来通过联合投影组合可视特征和字词嵌入矢量。至少一个其他方法[参见P·赛马内特(P.Sermanet)、A·福姆(A.Frome)和E·瑞尔(E.Real)，“用于精细的分类的关注”(Attention for fine-grained categorization)，arXiv预印本arXiv:1412.7054，2014]利用所投影的图像特征作为LSTM解码器的起始状态，这类似于序列至序列学习[参见，I·苏特科夫(I.Sutskever)、O·维亚尔斯(O.Vinyals)和Q·V·李(Q.V.Le)，“利用神经网络的序列-序列学习”(Sequence to sequence learning with neural networks)，《神经信息处理系统发展》(Advances in neural information processing systems)，第3104–3112页，2014]中的编解码-解码器框架。在将图像特征处理为全局视觉特征时，它们没有发掘问题中的有价值的信息来将它们的关注集中于图像中的对应区域上。

关注模型：关注模型已成功地用于许多计算机视觉任务，包括对象检测、精细图像分类、精细视觉识别和为图像加说明。关注信息可建模为图像中的关注区域序列。循环神经网络用于基于当前关注区域的位置和视觉特征来预测下一关注区域。一些人将该框架分别用于对象识别、对象检测和精细对象识别。另一些人已发展出用于为图像加说明的基于关注的模型，该模型使用循环神经网络作为生成器，使得在生成句子中的不同字词时，模型将其关注集中于不同图像区域上。所述模型提取每个图像中的一组建议区域，并且关注权重使用解码LSTM生成器隐藏状态和每个建议区域中提取的视觉特征来学习。在一种情况[参见T·Y·林(T.Y.Lin)、A·罗伊·乔杜里(A.Roy Chowdhury)和S·马基(S.Maji)，“用于精细视觉识别的双线性CNN模型”(Bilinear CNN models for fine-grained visualrecognition)，arXiv预印本arXiv:1504.07889，2015]下，双线性CNN结构被提出用于将位置和内容组合以用于精细图像分类。ABC-CNN受到将关注在这些视觉任务上的成功应用的启发，并且利用经问题引导的关注来改进VQA性能。

可配置卷积神经网络：已经提出用于小范围天气预测的动态的卷积层架构[参见B·克莱恩(B.Klein)、L·沃夫(L.Wolf)和Y·埃菲克(Y.Afek)，“用于小范围天气预测的动态的卷积层架构”(A dynamic convolutional layer for short range weatherprediction)，《IEEE计算机视觉和图案识别会刊》(Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition)第4840–4848页，2015]。动态的卷积层中的卷积内核通过神经网络在先前时间步长中对天气图像信息编码来确定。在VQA中，确定关注区域的最重要的线索是问题。因此，ABC-CNN框架的实施方式中的可配置卷积内核通过问题嵌入来确定。

C.基于关注的可配置CNN

图2中示出了ABC-CNN框架的实施方式。在实施方式中，具有单字词答案的QA对是本文中的重点示例，因为任务可看作是多类别分类的问题，这简化了评估度量并且允许集中于开发经问题引导的关注模型。然而，应当关注，关注模型的实施方式可容易地扩展为通过用LSTM解码器替代多类别分类模型来生成多字词的句子作为答案。

如图2所示，所描绘的ABC-CNN实施方式包括四个组件：图像特征提取部分205、问题理解部分210、关注提取部分215和答案生成部分220。在图像特征提取部分205中，在实施方式中，深度卷积神经网络207被用于针对每个图像提取图像特征图I 208作为图像表示。在实施方式中，使用了在1000类ImageNet分类挑战2012数据集[参见J·邓(J.Deng)、W·董(W.Dong)、R·索契尔(R.Socher)、L·J·李(L.-J.Li)、K·李(K.Li)和李菲菲(L.Fei-Fei)，“图像网络：大规模分级图像数据库”(A large-scale hierarchical imagedatabase)，《IEEE计算机视觉和图案识别2009CVPR2009会刊》(Computer Vision andPattern Recognition,2009.CVPR2009.IEEE Conference on)，第248–255页，IEEE，2009]上预训练的VGG-19深度卷积神经网络[K·西蒙亚恩(K.Simonyan)和A·齐塞曼(A.Zisserman，“用于大规模图像识别的极深卷积网络”(A very deep convolutionalnetworks for large-scale image recognition)，arXiv预印本)arXiv:1409.1556，2014]、以及在PASCAL 2007分段数据集上预训练的完全卷积分段神经网络[参见L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic image segmentation with deep convolutional nets and fullyconnected CRFS)，arXiv预印本arXiv:1412.7062，2014]。在实施方式中，问题理解部分210采用LSTM层214来学习密集问题嵌入s 213，以对图像相关问题的语义信息进行编码。在实施方式中，ABC-CNN框架的核心组件是关注提取部分215。在实施方式中，关注提取部分根据密集问题嵌入配置一组卷积内核216。表征问题中所问的对象的视觉特征的卷积内核216被应用于图像特征图208，以生成经问题引导的关注图218。在实施方式中，基于图像特征图I208、经关注加权的图像特征图222和密集问题嵌入213的融合的改进，答案生成部分220使用多类别分类器回答问题。本章节的其余部分将更详细地描述ABC-CNN框架的每个组件的实施方式。

1.关注提取

在实施方式中，经问题引导的关注图m(其反映了问题所询问的图像区域)使用可配置卷积神经网络从每个图像-问题对中生成。可配置卷积神经网络中的卷积内核可根据密集问题嵌入s通过将密集问题嵌入s从语义空间投影到视觉空间来配置。

其中σ(.)是sigmoid函数。

在实施方式中，密集问题表示s对编码问题中询问的语义对象信息。在实施方式中，投影将语义信息变换成对应的视觉信息以作为经问题配置的内核，其具有与图像特征图I相同数量的通道。例如，如果问题是“雨伞是什么颜色的？”，则经问题配置的内核k应当为雨伞的视觉特征。

在实施方式中，经问题引导的关注图可通过将经问题配置的内核k应用于图像特征图I上来生成。

其中m_ij是位置(i,j)处的经问题引导的关注的元素，并且符号*表示卷积运算。在实施方式中，Softmax归一化产生空间关注分布作为经问题引导的图。在实施方式中，卷积被填充以确保关注图m具有与图像特征图I相同的大小。经问题引导的关注图集中于问题所询问的区域上。例如，问题“雨伞是什么颜色的？”可以生成集中在图像中的雨伞区域上的关注图，因为卷积内核按照问题被配置成雨伞视觉特征。

利用关注图m，问答准确性可对所有四类问题改善，这是出于以下原因：

·对于计数问题，例如“在对象中存在多少汽车？”，关注图过滤掉不相关的区域，这使对象更容易地推断图像中的对象数量。

·对于颜色问题，例如“外套是什么颜色的？”，特定对象的颜色可通过集中于相关对象上来更有效地回答。

·对于对象问题，例如“桌面上放的是什么？”，关注图可以过滤掉不太相关的区域，例如背景，并且根据空间关系推断寻找对象的更好的位置。

·对于位置问题，例如“图像中的汽车在哪？”，关注图对于生成准确的答案来说是重要的，因为，它清楚地描述对象是在图像中的哪个位置。

2.问题理解

问题理解对于视觉问答来说是重要的。问题语义含义不仅会为答案生成提供最重要的线索，而且可以用于确定可配置卷积内核以成关注图。

最近，长短期存储器(LSTM)模型已表明了在语言理解上工作得很好。在实施方式中，LSTM模型被用于生成密集问题嵌入来表征问题语义含义。在实施方式中，问题q首先被分词成字词序列{v_t}。在实施方式中，所有大写字符被转换成小写字符，并且所有标点被删除。在训练集合中出现但未在测试集合中出现的字词用特殊符号来替代，例如#OOV#，并且#B#和#E#特殊符号被添加至序列头和序列尾。根据问题字典，每个字词可表示为密集字词嵌入向量。在实施方式中，LSTM被应用于字词嵌入序列以通过使用存储门(memory gate)c_t和遗忘门(forget gate)f_t从每个向量v_t生成隐藏状态h_t(等式3，如以下所示)：

i_t＝σ(W_viv_t+W_hih_t-1+b_i)

f_t＝σ(W_vfv_t+W_hfh_t-1+b_f)

o_t＝σ(W_vov_t+W_hoh_t-1+b_o)

g_t＝φ(W_vgv_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙φ(c_t) (3)

其中φ是双曲正切函数，并且⊙表示在两个向量之间的按元素的乘积。图3中示出了用于询问过程的LSTM框架的实施方式的细节。输入问题q的语义信息s通过在所有时间步长上求LSTM状态{h_t}的平均值来获得。

3.图像特征提取

在实施方式中，每个图像中的视觉信息被表示为N×N×D的图像特征图。特征图可通过将图像分成N×N的网格并在网格中的每个单元中提取的D维特征向量f来提取。在实施方式中，在原始图像和左右翻转图像的每个单元中的中心、左上、右上、左下和右下角落提取五个(5个)窗口，从而针对每个单元产生总共十个(10个)窗口。在实施方式中，VGG-19深度卷积神经网络对每个窗口提取D维特征。在实施方式中，每个单元的D维特征向量是所有十个(10个)D维特征向量的平均。最终N×N×D图像特征图是N×N×D维特征向量的串联。

也可以利用完全卷积神经网络架构来更有效地提取图像特征图。在实施方式中，在PASCAL 2007分段数据集上预训练的分段模型[L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic imagesegmentation with deep convolutional nets and fully connected CRFS)，arXiv预印本arXiv:1412.7062，2014]被使用，并且产生稍好的性能。

4.答案生成

在实施方式中，答案生成部分是用于原始图像特征图、密集问题嵌入和经关注加权的图像特征图的多类别分类器。在实施方式中，关注图用于在空间上加权图像特征图I。加权的图像特征图集中于与问题对应的对象上。在实施方式中，在空间上的加权通过图像特征图和关注图的每个通道之间的按元素的乘积实现。

I′_i＝I_i⊙m (4)

其中⊙表示按元素的乘积，I′_i和I_i分别表示经关注加权的图像特征图I′_i和原始图像特征图I的第i通道。经关注加权的图像特征图降低与问题不相关的区域的权重。在实施方式中，为了避免过度拟合，1×1卷积被应用于经关注加权的图像特征图以减少通道数量，从而得到减小的特征图I_r。在实施方式中，问题或询问的语义信息、图像特征图I和减小的特征图I_r通过非线性投影融合：

h＝g(W_ihI+W_rhI_r+W_shs+b_h) (5)

其中h表示最终投影特征，并且g(.)是按元素逐个标定的双曲正切函数：

该函数使得梯度进入值的最为非线性的范围，并且实现更高的训练速度。

在实施方式中，具有Softmax激活的多类别分类器在最终投影特征h上训练。答案id可以在答案字典中指定。ABC-CNN所生成的答案是具有最大概率的字词：

其中V_a是答案字典中的所有字词的集合。

应注意的是，对于实施方式，用于问题和答案的字典并不共享。这意味着，用于相同字词的表示可能对于问题和答案是不同。

图4描绘根据本公开的实施方式的用于使用ABC-CNN架构生成答案的示例性流程图。在实施方式中，ABC-CNN架构在步骤405中使用深度卷积神经网络从包括多个像素的输入图像提取图像特征图，并且在步骤410中使用长短期存储器(LSTM)层从与输入图像相关的输入问题中获得密集问题嵌入。在步骤415处，通过将密集问题嵌入从语义空间投影到视觉空间产生多个经问题配置的内核。在步骤420处，通过将经问题配置的内核与图像特征图卷积生成经问题引导的关注图。在步骤425处，通过使用经问题引导的关注图在空间上加权图像特征图，在多类别分类器处获得经关注加权的图像特征图。经关注加权的图像特征图用于降低与问题不相关的区域的权重，或者集中于与问题关联的区域上。在实施方式中，在空间上的加权通过图像特征图和经问题引导的关注图的每个通道之间的按元素的乘积来实现。最后，在步骤430处，基于图像特征图、深度问题嵌入和将关注加权的图像特征图的融合生成问题的答案。

图5描绘根据本公开的实施方式的用于使用ABC-CNN架构生成经问题引导的关注图的示例性流程图。在实施方式中，关注图生成部分在步骤505中接收从图像输入提取的图像特征图，并且在步骤510中接收使用LSTM从问题输入获得的密集问题嵌入。在步骤515中，通过将问题嵌入从语义空间投影到视觉空间，产生一组可配置卷积内核。在步骤520处，空间上的关注分布通过经问题配置的内核与图像特征图之间的卷积运算生成。在实施方式中，ABC-CNN框架具有初始权重，该初始权重在预训练期间随机调整为确保在ABC-CNN框架内的所有层(包括CNN层和LSTM层等)的每个维度的激活具有0均值以及一个标准导数。在步骤525中，将Softmax归一化应用至空间上的关注分布以生成经问题引导的关注图。

5.训练和测试

在实施方式中，整个框架可利用随机梯度下降和adadelta[参见M·D·齐勒，“Adadelta：自适应的学习速率方法”(Adadelta:An adaptive learning rate method)，arXiv预印本arXiv:1212.5701，2012]算法以端对端的方式训练。每批随机梯度下降独立随机采样64个图像问题对，并且向后传播可被应用以学习ABC-CNN架构的所有权重。在实施方式中，所有层的初始权重可以随机调整为确保所有层的每个维度的激活具有0均值以及一个标准导数。在实施方式中，初始学习速率设为0.1。在实验中，虽然在ABC-CNN实施方式中以端对端的方式来训练所有权重是有可能的，但是图像特征提取部分中的权重可固定以允许更快的训练速度。

在测试阶段期间，在实施方式中，针对每个图像提取图像特征图。在实施方式中，在给定问题的情况下，产生该问题的密集问题嵌入，并且问题嵌入用于配置卷积内核，以生成关注图。在实施方式中，多类别分类器使用原始特征图、问题嵌入和经关注加权的图像特征图的融合生成答案。

D.实验

本模型的实施方式在以下数据集上进行评估：Toronto COCOQA数据集[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]；DAQUAR数据集[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz)，“基于不确定的输入进行真实世界场景的问答的多世界性方法”(A multi-world approach to question answering about real-world scenes based onuncertain input)，《神经信息处理系统发展》(Advances in Neural InformationProcessing Systems)，第1682–1690页，2014]；以及VQA数据集[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：视觉问答”(VQA:Visual questionanswering)，arXiv预印本arXiv:1505.00468，2015]。实施方式针对具有单字词答案的QA对进行评估，其分别考虑到Toronto-QA数据集、VQA数据集和DAQUAR数据集的(100％、85％、90％)。它还符合M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploring models and data for image question answering)(arXiv:1505.02074.2015)中的评估。除此之外，ABC-CNN框架的实施方式可容易地扩展成通过在答案生成部分中使用RNN解码器来生成完整句子作为答案。

应注意的是，本专利文献中引用的实验和结果(在本章节或任何其他章节中)以说明的方式提供，并且使用具体实施方式或多个具体实施方式在具体条件下执行；因此，这些实验或其结果不应当用于限制本专利文献的公开的范围。

1.实现细节

在实验中，图像特征图和关注图两者的分辨率选择为3×3，ATT-SEG-HSV模型除外，该ATT-SEG-HSV模型使用从完全卷积分段网络提取的特征(16×16)。每个图像单元使用预训练过的VGG网络[参见K·查特菲德、K·西蒙亚恩、A·威达尔迪和A·齐塞曼，“魔鬼藏于细节之中：深入探究卷积网络”(Return of the devil in the details:Delving deepinto convolutional nets)，arXiv预印本arXiv:1405.3531，2014]生成4096维图像特征向量。来自所有图像单元的图像特征向量构成具有4096×3×3维度的图像特征图。为了避免过度拟合，图像特征图的维度使用1×1卷积被减小至256×3×3。密集问题嵌入的维度是256。另外，HSV颜色特征图被添加至图像特征图(ATT-HSV)。每个单元中的颜色特征被编码为该每个单元中像素的HSV直方图。在PASCAL 2007分段数据集上预训练的完全卷积神经网络[L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic image segmentation with deep convolutional nets andfully connected CRFS)，arXiv预印本arXiv:1412.7062，2014]也被用于生成16×16×1024特征图，并且将它们与HSV颜色特征图串接为图像特征图(ATT-SEG-HSV)。使用4个K40Nvidia GPU在Toronto COCO-QA数据集上训练网络ATT-HSV需要花费约24小时。系统可以在单个K40GPU上以每个问题9.89ms的速度生成答案。

2.数据集

根据本公开的模型的实施方式在三个数据集上进行评估：DAQUAR、Toronto COCO-QA和VQA。

DAQUAR数据集具有两种版本：完整的数据集(DQ-Full)和减少的数据集(DQ-Reduced)。DQ-Reduced具有37个对象类的问题答案对，这是具有894个对象类的DQ-Full数据集的子集。两种版本使用来自NYU-Depth V2数据集[参见N·希尔伯曼、D·霍伊埃姆、P·科里和R·弗古斯，来自RGBD图像的室内分段和支持推测(Indoor segmentation andsupport inference from RGBD images)，计算机视觉—ECCV 2012，第746–760页，斯普林格出版公司，2012(Computer Vision–ECCV 2012,pages 746–760.Springer,2012)]的室内场景图像。DQ-Full数据集包含具有6794个QA对的795个训练图像和具有5674个QA对的654个测试图像。DQ-Reduced数据集包含具有3825个QA对的781个训练图像和具有286个QA对的25个测试图像。在实验中，DAQUAR数据集仅针对具有单字词答案的QA对进行测试以及训练，这符合于由瑞恩(Ren)等人[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploring models and data for imagequestion answering)，arXiv:1505.02074.2015]进行的评估。这种QA对分别构成DQ-Full数据集和DQ-Reduced数据集的训练集合和测试集合中的(90.6％,89.5％)和(98.7％,97.6％)。

Toronto COCO-QA数据集使用来自Microsoft COCO数据集(MS-COCO)的图像。它的QA对仅包含单字词答案。它的基本统计总结于表1中。

表1.Toronto COCO-QA问题类型分解[参见P·赛马内特(P.Sermanet)、A·福姆(A.Frome)和E·瑞尔(E.Real)，“用于精细的分类的关注”(Attention for fine-grainedcategorization)，arXiv预印本arXiv:1412.7054，2014]。

VQA数据集是最近收集的数据集，其还利用MS-COCO数据集中的图像构建。针对VQA数据集中的VQA真实图像(开放式的)任务的建议模型被评估。其包含了82783个训练图像、40504个验证图像和81434个测试图像。MS-COCO数据集中的每个图像注有三个(3个)问题，并且每个问题具有十个(10个)候选答案。用于训练、测试和验证的QA对的总数分别为248349、121512、244302。本模型的实施方式针对VQA数据集中的单字词答案QA对进行评估，单字词答案QA对构成数据集中的总QA对的86.88％。图6中示出了来自三个数据集的一些样本。

3.评估度量

VQA模型的性能根据“答案的准确性”和“吴-帕尔马相似性测量集(Wu-Palmersimilarity measure Set)(WUPS)”评分来评估。答案的准确性(ACC)计算准确匹配参考答案的所生成的答案的百分比。WUPS评分从吴-帕尔马(WUP)相似性[参见，Z·吴(Z.Wu)和M·帕尔马(M.Palmer)，“动词语义和词汇选择”(Verbs semantics and lexical selection)，《计算语言协会第32届年会会刊》(Proceedings of the 32nd annual meeting onAssociation for Computational Linguistics)，第133–138页，计算语言协会出版，1994]得出，其值在[0,1]的范围内。WUP相似性基于两个字词在分类树中的最低共同祖先的深度测量两个字词的相似性。具有阈值的WUP评分是针对所有的所生成的答案和参考答案的向下加权的WUPS评分的平均值。如果两个字词的WUPS评分S_wups低于阈值，那么其向下加权的WUPS评分为0.1S_wups。否则，其向下加权的WUPS是S_wups。在实验中，具有阈值0.0和0.9的WUPS评分被使用。

4.基线方法

将本方法的实施方式与不同基准方法进行比较。以下列出所有基线模型：

1.VIS+LSTM(VL)：它是由瑞恩(Ren)等人所提出的框架[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploringmodels and data for image question answering)，arXiv:1505.02074.2015]，该框架具有提取图像特征的CNN，在该CNN后接着的是维度减小层。然后，图像特征被插入进问题字词嵌入序列头部作为问题LSTM的输入。

2.2-VIS+BLSTM(2VB)：图像特征在字词嵌入序列的头和尾处编码。除此之外，瑞恩(Ren)等人提出的框架中的LSTM设为在向前和向后方向行进。

3.IMG+BOW(IB)：瑞恩(Ren)等人使用Bag-of-Words特征生成密集问题嵌入。

4.IMG：仅图像特征被用于回答问题。它被称为“聋”模型。

5.LSTM：仅使用来自LTM的密集问题嵌入生成答案。它被称为“盲”模型。

6.ENSEMBLE：瑞恩(Ren)等人通过使用所有以上方法组合来对融合模型进行评估。

7.Q+I：安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：视觉问答”(VQA:Visual question answering)，arXiv预印本arXiv:1505.00468，2015]使用密集问题嵌入和图像特征两者训练多类别分类器以实现问答。

8.Q+I+C：类似于Q+I模型，Q+I+C模型采用标记的图像说明的密集嵌入作为附加输入。

9.ASK：马里诺维斯基(Malinowski)等人[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz)，“询问您的神经：用于回答关于图像的问题的基于神经的方法(Askyour neurons:A neural-based approach to answering questions about images)，arXiv预印本arXiv:1505.01121，2014]在LSTM解码器中将CNN特征和问题嵌入线性组合以生成答案。

5.结果和分析

表2、4和5总结了不同模型分别在Toronto COCO-QA数据集、DQ-Reduced数据集和DQ-Full数据集上的性能。表3分解每个分类中的不同方法在Toronto COCO-QA数据集上的性能。

在表2中，仅使用VGG特征图(AYY)的ABC-CNN优于瑞恩(Ren)等人[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel)，“探索用于图像问答的模型和数据”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]的单模型中的大多数。通过组合HSV特征图与VGG特征图(ATT-HSV)，ABC-CNN的性能超越所有基线模型。虽然我们仅采用单模型，但是ABC-CNN甚至在答案准确性上比ENSEMBLE模型高0.2％。ABC-CNN在“对象”、“数量”和“位置”分类上优于基线方法，因为经问题引导的关注发掘问题语义以及图像中的情景信息来回答问题。ABC-CNN的准确性在“颜色”分类上略微低于IB和ENSEMBLE模型。

还发现，完全卷积模型ATT-SEG-HSV的性能略好于VGG模型ATT-HSV，但是利用完全卷积神经网络提取特征图要快得多。使用VGG,SEG和HSV特征一起(ATT-VGG-SEG-HSV)得到最佳性能。具体来说，完全卷积模型的添加帮助正确回答位置问题。ABC-CNN中的关注(NO-ATT)也被去除以作为烧蚀实验(ablative experiment)，并且这分别会造成准确性上1.34％、0.85％和0.35％的损失、WUPS 0.9和WUPS 0.0的评分。

在表4中，ABC-CNN模型与基线模型在DQ-Reduced数据集上进行比较。ABC-CNN模型的性能在所有度量上高于所有单模型。在WUPS 0.9测量上，ABC-CNN模型仅比的ENSEMBLE模型低0.53％。

在DQ-Full和VQA数据集上，ABC-CNN在表5和6的数据集上优于现有技术方案。在DQ-Full数据集上，ABC-CNN模型与Toronto COCO-QA数据集和DQ-Reduced数据集上的模型相同。在VQA数据集上，为了进行公平评估，使用与安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：视觉问答”(VQA:Visualquestion answering)，arXiv预印本arXiv:1505.00468，2015]相同的包含1000个最频繁答案(ATT 1000)的答案字典。ABC-CNN模型还使用包含所有答案(ATT Full)的答案字典进行评估。

图7中示出了所生成的经问题引导的关注图及其对应的图像和问题的一些。可观察到，经问题引导的关注图成功捕获具有不同关注区域的不同问题的意向。利用这些关注图，通过将其关注集中于重要区域上并过滤掉不相关的信息，ABC-CNN能够生成更准确的答案。由于原始特征图在预测答案时也被提供，因此如果询问对象仅为图像中的对象(例如“躺在山坡上草地中的是什么？”)，那么ABC-CNN可以在不使用关注图的情况下回答问题。

表3每类别的Toronto COCO-QA准确性

表4关于DAQUAR-Reduce数据集的结果

表5关于DAQUAR-Full数据集的结果

表6不同模型的在VQA数据集上的性能

E.系统实施方式

在实施方式中，本专利文献的方面可涉及到信息处理系统/计算系统或者使用信息处理系统/计算系统实施。出于本公开的目的，计算系统可以包括出于商业、科学、控制或其他目的可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可以包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图8描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，信息处理系统可不同地配置并且包括不同组件，但应理解，针对系统800所示出的功能可操作为支持信息处理系统的各种实施方式。

如图8所示，系统800包括一个或多个中央处理单元(CPU)801，CPU 801提供计算资源并控制计算机。CPU 801可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)817和/或用于数学计算的浮点协处理器。系统800还可包括系统存储器802，系统存储器802可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图8所示，还可提供多个控制器和外围设备。输入控制器803表示至各种输入设备804的接口，例如键盘、鼠标或触笔。还可存在扫描仪控制器805，该扫描仪控制器805与扫描仪806通信。系统800还可包括存储控制器807，该存储控制器807用于与一个或多个存储设备808对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备808还可用于存储经处理的数据或是将要根据本发明处理的数据。系统800还可包括显示控制器809，该显示控制器809用于为显示设备811提供接口，显示设备811可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其他类型的显示器。计算系统800还可包括打印机控制器812，该打印机控制器812用于与打印机813通信。通信控制器814可与一个或多个通信设备815对接，这使系统800能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线816，总线816可以表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的实施方式可以利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

将理解，前文的示例、实施方式和实验是示例性的，并且出于清楚和理解的目的，而不限制本发明的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有替代、置换、增强、等同、组合或改进包括在本发明的范围内。因此，旨在说明的是，权利要求书包括落在本发明的真实精神和范围内的所有此类替代、置换、增强、等同、组合或改进，除非随附权利要求书以其语言来另外明确说明。应注意，随附权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。例如，在实施方式中，各权利要求的主题可与其他权利要求组合。

Claims

1.一种改进对问题输入生成的答案的准确性的计算机实施的方法，其中，所述问题输入与图像输入相关，所述方法包括：

接收所述图像输入；

接收与所述图像输入相关的所述问题输入；

将所述问题输入和所述图像输入输入到基于关注的可配置卷积神经网络框架中以生成答案，所述基于关注的可配置卷积神经网络框架包括：

图像特征图提取组件，包括从所述图像输入提取图像特征图的卷积神经网络；

语义问题嵌入组件，从所述问题输入获得问题嵌入；

经问题引导的关注图生成组件，接收所述图像特征图和所述问题嵌入，并且获得集中于所述问题输入所询问的区域的经问题引导的关注图；以及

答案生成组件，通过使用所述经问题引导的关注图加权所述图像特征图，获得经关注加权的图像特征图，并且基于所述图像特征图、所述问题嵌入和所述经关注加权的图像特征图的融合来生成答案。

2.如权利要求1所述的计算机实施的方法，其中，所述语义问题嵌入组件包括长短期存储器层以生成所述问题嵌入来表征所述问题输入的语义含义。

3.如权利要求1所述的计算机实施的方法，其中，所述经问题引导的关注图生成组件包括可配置的卷积内核，所述可配置的卷积内核通过将所述问题嵌入从语义空间投影到视觉空间而产生，并用于与所述图像特征图卷积以产生所述经问题引导的关注图。

4.如权利要求3所述的计算机实施的方法，其中，所述卷积内核具有与所述图像特征图相同数量的通道。

5.如权利要求3所述的计算机实施的方法，其中，所述经问题引导的关注图具有与所述图像特征图相同的大小。

6.如权利要求1所述的计算机实施的方法，其中，所述图像特征图通过将所述图像输入分成多个网格并在所述网格的每个单元中提取D维特征向量来提取。

7.如权利要求1所述的计算机实施的方法，其中，所述图像特征图被所述经问题引导的关注图在空间上加权，以获得所述经关注加权的图像特征图。

8.如权利要求7所述的计算机实施的方法，其中，所述在空间上加权通过在所述图像特征图和所述经问题引导的关注图的每个通道之间的按元素的乘积实现。

9.如权利要求8所述的计算机实施的方法，其中，所述在空间上加权还通过用于空间上的关注分布的Softmax归一化来限定。

10.如权利要求1所述的计算机实施的方法，其中，所述基于关注的可配置卷积神经网络框架利用随机梯度下降以端对端的方式来预训练。

11.如权利要求10所述的计算机实施的方法，其中，所述基于关注的可配置卷积神经网络框架具有初始权重，所述初始权重预训练期间被随机地调整为确保所述基于关注的可配置卷积神经网络框架内所有层的激活的每个维度具有0均值和一个标准导数。

12.一种对图像相关的问题生成答案的计算机实施的方法，所述方法包括以下步骤：

使用深层卷积神经网络从包括多个像素的输入图像提取图像特征图；

使用长短期存储器层从与所述输入图像相关的输入问题中获得密集问题嵌入；

通过将所述密集问题嵌入从语义空间投影到视觉空间来产生多个经问题配置的内核；

将所述经问题配置的内核与所述图像特征图卷积以生成经问题引导的关注图；

通过使用所述经问题引导的关注图在空间上加权所述图像特征图，在多类别分类器处获得经关注加权的图像特征图，所述经关注加权的图像特征图降低与所述输入问题不相关的区域的权重；以及

基于所述图像特征图、所述密集问题嵌入和所述经关注加权的图像特征图的融合对所述输入问题生成答案。

13.如权利要求12所述的方法，其中，所述在空间上加权通过在所述图像特征图和所述经问题引导的关注图的每个通道之间的按元素的乘积实现。

14.如权利要求12所述的方法，其中，所述经问题引导的关注图根据所述输入问题适应性地表示每个像素的关注度。

15.如权利要求12所述的方法，其中，所述经问题引导的关注图通过将所述经问题配置的内核应用于所述图像特征图上来获得。

16.如权利要求12所述的方法，其中，所述图像特征图、所述密集问题嵌入和所述经关注加权的图像特征图通过非线性投影融合。

17.如权利要求16所述的方法，其中，所述非线性投影是按元素逐个标定的双曲正切函数。

18.一种改进对问题输入生成的答案的准确性的装置，包括：

响应于接收问题输入提取所述问题输入的密集问题嵌入的装置；

响应于接收与所述问题输入相关的图像输入生成图像特征图的装置；

至少基于所述图像特征图和所述密集问题嵌入生成经问题引导的关注图的装置，所述经问题引导的关注图选择性地集中于所述问题输入所询问的区域上；

使用所述经问题引导的关注图在空间上加权所述图像特征图以获得经关注加权的图像特征图的装置；以及

将语义信息、所述图像特征图和所述经关注加权的图像特征图融合以对所述问题输入生成答案的装置。

19.如权利要求18所述的改进对问题输入生成的答案的准确性的装置，其中，生成经问题引导的关注图的装置还操作为对所述关注图的空间上的关注分布进行Softmax归一化。

20.如权利要求19所述的改进对问题输入生成的答案的准确性的装置，其中，生成经问题引导的关注图的装置操作为根据所述密集问题嵌入配置一组卷积内核，并且将所述卷积内核应用于所述图像特征图上，以生成所述经问题引导的关注图。