CN106649542B - 用于视觉问答的系统和方法 - Google Patents

用于视觉问答的系统和方法 Download PDF

Info

Publication number
CN106649542B
CN106649542B CN201610952620.4A CN201610952620A CN106649542B CN 106649542 B CN106649542 B CN 106649542B CN 201610952620 A CN201610952620 A CN 201610952620A CN 106649542 B CN106649542 B CN 106649542B
Authority
CN
China
Prior art keywords
question
image feature
feature map
map
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610952620.4A
Other languages
English (en)
Other versions
CN106649542A (zh
Inventor
陈侃
王江
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN106649542A publication Critical patent/CN106649542A/zh
Application granted granted Critical
Publication of CN106649542B publication Critical patent/CN106649542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Neurology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文描述的是用于生成并且使用用于视觉问答任务(VQA)的基于关注的深度学习架构以对图像(静止图像或视频图像)相关问题自动生成答案的系统和方法。为了生成正确的答案,模型的关注根据问题集中于图像中的相关区域上是重要的,因为不同问题可能就不同图像区域的属性提问。在实施方式中,此类经问题引导的关注利用可配置的卷积神经网络(ABC‑CNN)学习。ABC‑CNN模型的实施方式通过将图像特征图与通过问题语义确定的可配置的卷积内核卷积来确定关注图。在实施方式中,经问题引导的关注图集中于问题相关的区域上,并且过滤掉不相关区域中的噪声。

Description

用于视觉问答的系统和方法
技术领域
本发明大体上涉及计算技术,并且更具体地涉及用于自动进行对图像相关问题的问答任务并改进人机对接的系统和方法。
背景技术
存在的问题是如何自动回答与图像相关的问题。虽然已经尝试了使用深度学习来使回答问题的过程自动进行,但是仍需显著的提高。
因此,需要的是提供更有效且更准确的方式来自动回答与图像相关的问题的系统和方法。
发明内容
本申请提供了一种改进对问题输入生成的答案的准确性的计算机实施的方法、一种对图像相关的问题生成答案的计算机实施的方法、以及一种改进对问题输入生成的答案的准确性的装置
根据本申请的一方面,提供了一种改进对问题输入生成的答案的准确性的计算机实施的方法包括:接收图像输入;接收与图像输入相关的问题输入;将问题输入和图像输入输入到基于关注的可配置卷积神经网络框架中以生成答案,基于关注的可配置卷积神经网络框架包括:图像特征图提取组件,包括从图像输入提取图像特征图的卷积神经网络;语义问题嵌入组件,从问题输入获得问题嵌入;经问题引导的关注图生成组件,接收图像特征图和问题嵌入,并且获得集中于问题输入所询问的区域或多个区域的经问题引导的关注图;以及答案生成组件,通过使用经问题引导的关注图加权图像特征图,获得经关注加权的图像特征图,并且基于图像特征图、问题嵌入和经关注加权的图像特征图的融合来生成答案。
根据本申请的另一方面,提供了一种对图像相关的问题生成答案的计算机实施的方法,包括:使用深层卷积神经网络从包括多个像素的输入图像提取图像特征图;使用长短期存储器层从与输入图像相关的输入问题中获得密集问题嵌入;通过将密集问题嵌入从语义空间投影到视觉空间来产生多个经问题配置的内核;将经问题配置的内核与图像特征图卷积以生成经问题引导的关注图;通过使用经问题引导的关注图在空间上加权图像特征图,在多类别分类器处获得经关注加权的图像特征图,经关注加权的图像特征图降低与输入问题不相关的区域的权重;以及基于图像特征图、密集问题嵌入和经关注加权的图像特征图的融合对输入问题生成答案。
根据本申请的再一方面,提供了一种改进对问题输入生成的答案的准确性的装置,包括:响应于接收问题输入提取所述问题输入的密集问题嵌入的装置;响应于接收与所述问题输入相关的图像输入生成图像特征图的装置;至少基于所述图像特征图和所述密集问题嵌入生成经问题引导的关注图的装置,所述经问题引导的关注图选择性地集中于所述问题输入所询问的区域上;使用所述经问题引导的关注图在空间上加权所述图像特征图以获得经关注加权的图像特征图的装置;以及将语义信息、所述图像特征图和所述经关注加权的图像特征图融合以对所述问题输入生成答案的装置。
附图说明
将参考本发明的实施方式,它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述,但应理解,本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。
图1示出根据本公开的实施方式的视觉问答中的关注的问题。
图2描绘根据本公开的实施方式的示例性流程或框架。
图3描绘根据本公开的实施方式的用于询问处理的LSTM框架的实施方式的细节。
图4描绘根据本公开的实施方式的基于关注加权图像(attention weightedimage)的答案生成的示例性流程图。
图5描绘根据本公开的实施方式的用于生成关注加权图像的示例性流程图。
图6描绘根据本公开的实施方式的一些示例图像以及对应QA对,每个图像以其相应数据集的编号标识。
图7示出根据本公开的实施方式的具有图像相关问题与在Toronto COCO-QA数据集中通过ABC-CNN生成的经问题引导的关注图的所选图像。
图8描绘根据本公开的实施方式的计算设备/信息处理系统的简化框图。
具体实施方式
在以下描述中,出于解释目的,阐明具体细节以便提供对本发明的理解。然而,将对本领域的技术人员显而易见的是,可在没有这些细节的情况下实践本发明。此外,本领域的技术人员将认识到,下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在非瞬时计算机可读介质上实施。
附图中示出的组件或是模块是本发明实施方式的示例性说明,并且意图避免使本发明不清楚。还应理解,在本论述的全文中,组件可描述为单独的功能单元(可包括子单元),但是本领域的技术人员将认识到,各种组件或其部分可划分成单独组件,或者可整合在一起(包括整合在单个的系统或组件内)。应当关注,本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。
此外,附图内的组件或系统之间的连接并不旨在限于直接连接。相反,在这些组件之间的数据可由中间组件修改、重格式化、或以其他方式改变。另外,可以使用另外或更少的连接。还应关注,术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。
在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中。另外,在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。
在本说明书的各个地方使用某些术语目的在于说明,并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源;这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。术语“包括”、“包括有”、“包含”、“包含有”应理解为开放性的术语,并且其后任何列出内容都是实例,而不旨在限于所列项目。术语“图像”应理解为包括静态图像或视频图像。本文所使用的任何标题仅是为了组织目的,并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。
此外,本领域的技术人员应认识到,(1)某些步骤可以可选地执行;(2)步骤可不限于本文所阐述的特定次序;(3)某些步骤可以以不同次序执行;以及(4)某些步骤可同时地进行。
A.介绍
视觉问答(VQA)是计算机视觉化、自然语言处理和机器学习的积极跨学科性研究领域。给定图像以及与图像相关的自然语言问题,VQA使用自然语句回答问题。VQA不仅是构建人工智能的基本步骤,也对许多应用(例如图像检索、盲人导航和儿童早教)极为重要。VQA是一项有挑战的任务,因为它要求复杂的计算视觉技术以深层理解图像,还要求先进的自然语言处理技术以提取问题含义,并且要求统一框架来有效地整合视觉信息和语义信息。
目前,大多数的现有技术VQA模型包含视觉部分、自然语言部分和答案生成部分。视觉部分利用深度卷积神经网络(CNN)[参见例如Y·A·乐村(Y.A.LeCun)、L·伯特(L.Bottou)、G·B·奥尔(G.B.Orr)和K·R·穆勒(K.R.Muller),“有效BackProp”(Efficient Backprop),《神经网络:技巧》(Neural networks:Tricks of the trade)),第9–48页,施普林格出版公司(Springer),2012]或传统的视觉特征提取器从输入图像中提取视觉特征。自然语言部分利用Bag-of-Word模型或循环神经网络(RNN)[参见例如S·霍奇瑞特(S.Hochreiter)和J·施密哈勃(J.Schmidhuber),“长短期存储器(Long short-termmemory)”,《神经计算》(Neural computation),9(8):1735–1780,1997]模型学习密集问题嵌入(dense question embedding)以对问题语义进行编码。答案生成部分在给定视觉特征和问题嵌入的情况下,生成答案。答案可为通过多类别分类器来生成的单字词答案或为通过另外的RNN解码器来生成的完整句子。全局视觉特征和密集问题嵌入通过线性/非线性的联合投影整合。这种整合通常并不足以充分利用视觉部分与问题理解部分之间的关系。
在本文中呈现新的基于关注的可配置卷积神经网络(ABC-CNN)的实施方式作为统一框架,它将VQA的视觉信息和语义信息整合。当试图回答与图像相关的问题时,人们趋于在给出答案前集中于根据问题意向的信息区域上。例如,在图1中,就询问“外套是什么颜色的?”而言,人们通常在判断外套颜色以回答问题之前找出外套区域。找出这些区域的机制是称为经问题引导的关注,因为这些区域通过图像以及图像相关的问题两者确定。
给定图像以及图像相关的问题,所提出的框架不仅生成自然语言答案,而且还提供经问题引导的关注信息作为回答问题的重要证据。在实施方式中,VQA任务考虑单字词答案;然而,实施方式可容易地扩展为通过使用例如RNN解码器生成完整句子。
为了处理这些问题,提出基于关注的可配置卷积神经网络(ABC-CNN)。根据本公开的一些实施方式的示例性ABC-CNN框架200在图2中示出。ABC-CNN框架包含视觉部分(也被称为图像特征图提取部分)、问题理解部分、答案生成部分和关注提取部分。在所描绘的实施方式中,方框205指示视觉部分或视觉组件;方框210为问题理解部分或问题理解组件;方框215表示具有可配置卷积的关注提取部分或关注提取组件;以及方框220是对经关注加权的图像特征图222使用多类别分类的答案生成部分或答案生成组件。
在实施方式中,卷积神经网络(CNN)207用于在视觉部分中提取视觉特征。替代提取单个全局视觉特征,空间特征图通过在滑动窗口中应用CNN或利用完全卷积神经网络被提取以保留重要空间信息。在实施方式中,长短期存储器(LSTM)模型214用于在问题理解部分中获得问题嵌入212,并且多类别分类器用于在答案生成部分中生成答案。视觉部分和问题理解部分通过利用经问题引导的关注进行整合。
在实施方式中,经问题引导的关注信息在关注提取部分215内被表示为经问题引导的关注图218,关注提取部分215是ABC-CNN框架的核心。其经由可配置的卷积神经网络实现,其中卷积内核216通过将问题嵌入从语义空间投影到视觉空间来生成。可配置卷积内核与根据问题含义所确定的视觉信息对应。例如,在图1中,问题“雨伞是什么颜色的?”应当生成与“雨伞”视觉特征对应的卷积内核。可配置卷积内核与图像特征图表的卷积自适应地将每个区域对于回答给定问题的重要性表示为经问题引导的关注图218。经问题引导的关注图218可以用于在空间上加权视觉特征图,以过滤掉噪声和不相关的信息。在实施方式中,ABC-CNN是有效地将图像和语言理解整合并可以以端对端的方式训练而不要求对图像中的关注区域进行任何人工标记的统一框架。
在实验中,根据本公开的ABC-CNN架构的实施方式针对三个基准VQA数据集进行评估:Toronto COCOQA[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploring models and data for image questionanswering),arXiv:1505.02074.2015];DAQUAR[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz),“基于不确定的输入进行真实世界场景的问答的多世界性方法”(Amulti-world approach to question answering about real-world scenes based onuncertain input),《神经信息处理系统发展》(Advances in Neural InformationProcessing Systems),第1682–1690页,2014];以及VQA[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:视觉问答”(VQA:Visual questionanswering),arXiv预印本arXiv:1505.00468,2015]。实验表明,ABC-CNN框架显著优于现有技术方法。视觉化证实了ABC-CNN架构能够生成很好地反映问题询问的区域的关注图。
总而言之,统一的ABC-CNN框架被公开为经由经问题引导的关注有效地将视觉信息与语义信息整合以用于VQA。经问题引导的关注不仅显著改进VQA系统性能,而且它还帮助获得对问答过程的更好理解。
B.相关工作
VQA&为图像加说明:这两问题在推理视觉内容并以自然语言呈现结果方面存在相似。在VQA和为图像加说明方面的当前现有技术方法趋于应用CNN提取视觉特征并且应用LSTM模型作为解码器来生成答案或说明。一些方法在LSTM解码器中的生成期间应用多模型层来通过联合投影组合可视特征和字词嵌入矢量。至少一个其他方法[参见P·赛马内特(P.Sermanet)、A·福姆(A.Frome)和E·瑞尔(E.Real),“用于精细的分类的关注”(Attention for fine-grained categorization),arXiv预印本arXiv:1412.7054,2014]利用所投影的图像特征作为LSTM解码器的起始状态,这类似于序列至序列学习[参见,I·苏特科夫(I.Sutskever)、O·维亚尔斯(O.Vinyals)和Q·V·李(Q.V.Le),“利用神经网络的序列-序列学习”(Sequence to sequence learning with neural networks),《神经信息处理系统发展》(Advances in neural information processing systems),第3104–3112页,2014]中的编解码-解码器框架。在将图像特征处理为全局视觉特征时,它们没有发掘问题中的有价值的信息来将它们的关注集中于图像中的对应区域上。
关注模型:关注模型已成功地用于许多计算机视觉任务,包括对象检测、精细图像分类、精细视觉识别和为图像加说明。关注信息可建模为图像中的关注区域序列。循环神经网络用于基于当前关注区域的位置和视觉特征来预测下一关注区域。一些人将该框架分别用于对象识别、对象检测和精细对象识别。另一些人已发展出用于为图像加说明的基于关注的模型,该模型使用循环神经网络作为生成器,使得在生成句子中的不同字词时,模型将其关注集中于不同图像区域上。所述模型提取每个图像中的一组建议区域,并且关注权重使用解码LSTM生成器隐藏状态和每个建议区域中提取的视觉特征来学习。在一种情况[参见T·Y·林(T.Y.Lin)、A·罗伊·乔杜里(A.Roy Chowdhury)和S·马基(S.Maji),“用于精细视觉识别的双线性CNN模型”(Bilinear CNN models for fine-grained visualrecognition),arXiv预印本arXiv:1504.07889,2015]下,双线性CNN结构被提出用于将位置和内容组合以用于精细图像分类。ABC-CNN受到将关注在这些视觉任务上的成功应用的启发,并且利用经问题引导的关注来改进VQA性能。
可配置卷积神经网络:已经提出用于小范围天气预测的动态的卷积层架构[参见B·克莱恩(B.Klein)、L·沃夫(L.Wolf)和Y·埃菲克(Y.Afek),“用于小范围天气预测的动态的卷积层架构”(A dynamic convolutional layer for short range weatherprediction),《IEEE计算机视觉和图案识别会刊》(Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition)第4840–4848页,2015]。动态的卷积层中的卷积内核通过神经网络在先前时间步长中对天气图像信息编码来确定。在VQA中,确定关注区域的最重要的线索是问题。因此,ABC-CNN框架的实施方式中的可配置卷积内核通过问题嵌入来确定。
C.基于关注的可配置CNN
图2中示出了ABC-CNN框架的实施方式。在实施方式中,具有单字词答案的QA对是本文中的重点示例,因为任务可看作是多类别分类的问题,这简化了评估度量并且允许集中于开发经问题引导的关注模型。然而,应当关注,关注模型的实施方式可容易地扩展为通过用LSTM解码器替代多类别分类模型来生成多字词的句子作为答案。
如图2所示,所描绘的ABC-CNN实施方式包括四个组件:图像特征提取部分205、问题理解部分210、关注提取部分215和答案生成部分220。在图像特征提取部分205中,在实施方式中,深度卷积神经网络207被用于针对每个图像提取图像特征图I 208作为图像表示。在实施方式中,使用了在1000类ImageNet分类挑战2012数据集[参见J·邓(J.Deng)、W·董(W.Dong)、R·索契尔(R.Socher)、L·J·李(L.-J.Li)、K·李(K.Li)和李菲菲(L.Fei-Fei),“图像网络:大规模分级图像数据库”(A large-scale hierarchical imagedatabase),《IEEE计算机视觉和图案识别2009CVPR2009会刊》(Computer Vision andPattern Recognition,2009.CVPR2009.IEEE Conference on),第248–255页,IEEE,2009]上预训练的VGG-19深度卷积神经网络[K·西蒙亚恩(K.Simonyan)和A·齐塞曼(A.Zisserman,“用于大规模图像识别的极深卷积网络”(A very deep convolutionalnetworks for large-scale image recognition),arXiv预印本)arXiv:1409.1556,2014]、以及在PASCAL 2007分段数据集上预训练的完全卷积分段神经网络[参见L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic image segmentation with deep convolutional nets and fullyconnected CRFS),arXiv预印本arXiv:1412.7062,2014]。在实施方式中,问题理解部分210采用LSTM层214来学习密集问题嵌入s 213,以对图像相关问题的语义信息进行编码。在实施方式中,ABC-CNN框架的核心组件是关注提取部分215。在实施方式中,关注提取部分根据密集问题嵌入配置一组卷积内核216。表征问题中所问的对象的视觉特征的卷积内核216被应用于图像特征图208,以生成经问题引导的关注图218。在实施方式中,基于图像特征图I208、经关注加权的图像特征图222和密集问题嵌入213的融合的改进,答案生成部分220使用多类别分类器回答问题。本章节的其余部分将更详细地描述ABC-CNN框架的每个组件的实施方式。
1.关注提取
在实施方式中,经问题引导的关注图m(其反映了问题所询问的图像区域)使用可配置卷积神经网络从每个图像-问题对中生成。可配置卷积神经网络中的卷积内核可根据密集问题嵌入s通过将密集问题嵌入s从语义空间投影到视觉空间来配置。
Figure BDA0001141053140000091
其中σ(.)是sigmoid函数。
在实施方式中,密集问题表示s对编码问题中询问的语义对象信息。在实施方式中,投影将语义信息变换成对应的视觉信息以作为经问题配置的内核,其具有与图像特征图I相同数量的通道。例如,如果问题是“雨伞是什么颜色的?”,则经问题配置的内核k应当为雨伞的视觉特征。
在实施方式中,经问题引导的关注图可通过将经问题配置的内核k应用于图像特征图I上来生成。
Figure BDA0001141053140000101
其中mij是位置(i,j)处的经问题引导的关注的元素,并且符号*表示卷积运算。在实施方式中,Softmax归一化产生空间关注分布作为经问题引导的图。在实施方式中,卷积被填充以确保关注图m具有与图像特征图I相同的大小。经问题引导的关注图集中于问题所询问的区域上。例如,问题“雨伞是什么颜色的?”可以生成集中在图像中的雨伞区域上的关注图,因为卷积内核按照问题被配置成雨伞视觉特征。
利用关注图m,问答准确性可对所有四类问题改善,这是出于以下原因:
·对于计数问题,例如“在对象中存在多少汽车?”,关注图过滤掉不相关的区域,这使对象更容易地推断图像中的对象数量。
·对于颜色问题,例如“外套是什么颜色的?”,特定对象的颜色可通过集中于相关对象上来更有效地回答。
·对于对象问题,例如“桌面上放的是什么?”,关注图可以过滤掉不太相关的区域,例如背景,并且根据空间关系推断寻找对象的更好的位置。
·对于位置问题,例如“图像中的汽车在哪?”,关注图对于生成准确的答案来说是重要的,因为,它清楚地描述对象是在图像中的哪个位置。
2.问题理解
问题理解对于视觉问答来说是重要的。问题语义含义不仅会为答案生成提供最重要的线索,而且可以用于确定可配置卷积内核以成关注图。
最近,长短期存储器(LSTM)模型已表明了在语言理解上工作得很好。在实施方式中,LSTM模型被用于生成密集问题嵌入来表征问题语义含义。在实施方式中,问题q首先被分词成字词序列{vt}。在实施方式中,所有大写字符被转换成小写字符,并且所有标点被删除。在训练集合中出现但未在测试集合中出现的字词用特殊符号来替代,例如#OOV#,并且#B#和#E#特殊符号被添加至序列头和序列尾。根据问题字典,每个字词可表示为密集字词嵌入向量。在实施方式中,LSTM被应用于字词嵌入序列以通过使用存储门(memory gate)ct和遗忘门(forget gate)ft从每个向量vt生成隐藏状态ht(等式3,如以下所示):
it=σ(Wvivt+Whiht-1+bi)
ft=σ(Wvfvt+Whfht-1+bf)
ot=σ(Wvovt+Whoht-1+bo)
gt=φ(Wvgvt+Whght-1+bg)
ct=ft⊙ct-1+it⊙gt
ht=ot⊙φ(ct) (3)
其中φ是双曲正切函数,并且⊙表示在两个向量之间的按元素的乘积。图3中示出了用于询问过程的LSTM框架的实施方式的细节。输入问题q的语义信息s通过在所有时间步长上求LSTM状态{ht}的平均值来获得。
3.图像特征提取
在实施方式中,每个图像中的视觉信息被表示为N×N×D的图像特征图。特征图可通过将图像分成N×N的网格并在网格中的每个单元中提取的D维特征向量f来提取。在实施方式中,在原始图像和左右翻转图像的每个单元中的中心、左上、右上、左下和右下角落提取五个(5个)窗口,从而针对每个单元产生总共十个(10个)窗口。在实施方式中,VGG-19深度卷积神经网络对每个窗口提取D维特征。在实施方式中,每个单元的D维特征向量是所有十个(10个)D维特征向量的平均。最终N×N×D图像特征图是N×N×D维特征向量的串联。
也可以利用完全卷积神经网络架构来更有效地提取图像特征图。在实施方式中,在PASCAL 2007分段数据集上预训练的分段模型[L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic imagesegmentation with deep convolutional nets and fully connected CRFS),arXiv预印本arXiv:1412.7062,2014]被使用,并且产生稍好的性能。
4.答案生成
在实施方式中,答案生成部分是用于原始图像特征图、密集问题嵌入和经关注加权的图像特征图的多类别分类器。在实施方式中,关注图用于在空间上加权图像特征图I。加权的图像特征图集中于与问题对应的对象上。在实施方式中,在空间上的加权通过图像特征图和关注图的每个通道之间的按元素的乘积实现。
I′i=Ii⊙m (4)
其中⊙表示按元素的乘积,I′i和Ii分别表示经关注加权的图像特征图I′i和原始图像特征图I的第i通道。经关注加权的图像特征图降低与问题不相关的区域的权重。在实施方式中,为了避免过度拟合,1×1卷积被应用于经关注加权的图像特征图以减少通道数量,从而得到减小的特征图Ir。在实施方式中,问题或询问的语义信息、图像特征图I和减小的特征图Ir通过非线性投影融合:
h=g(WihI+WrhIr+Wshs+bh) (5)
其中h表示最终投影特征,并且g(.)是按元素逐个标定的双曲正切函数:
Figure BDA0001141053140000121
该函数使得梯度进入值的最为非线性的范围,并且实现更高的训练速度。
在实施方式中,具有Softmax激活的多类别分类器在最终投影特征h上训练。答案id可以在答案字典中指定。ABC-CNN所生成的答案是具有最大概率的字词:
Figure BDA0001141053140000122
其中Va是答案字典中的所有字词的集合。
应注意的是,对于实施方式,用于问题和答案的字典并不共享。这意味着,用于相同字词的表示可能对于问题和答案是不同。
图4描绘根据本公开的实施方式的用于使用ABC-CNN架构生成答案的示例性流程图。在实施方式中,ABC-CNN架构在步骤405中使用深度卷积神经网络从包括多个像素的输入图像提取图像特征图,并且在步骤410中使用长短期存储器(LSTM)层从与输入图像相关的输入问题中获得密集问题嵌入。在步骤415处,通过将密集问题嵌入从语义空间投影到视觉空间产生多个经问题配置的内核。在步骤420处,通过将经问题配置的内核与图像特征图卷积生成经问题引导的关注图。在步骤425处,通过使用经问题引导的关注图在空间上加权图像特征图,在多类别分类器处获得经关注加权的图像特征图。经关注加权的图像特征图用于降低与问题不相关的区域的权重,或者集中于与问题关联的区域上。在实施方式中,在空间上的加权通过图像特征图和经问题引导的关注图的每个通道之间的按元素的乘积来实现。最后,在步骤430处,基于图像特征图、深度问题嵌入和将关注加权的图像特征图的融合生成问题的答案。
图5描绘根据本公开的实施方式的用于使用ABC-CNN架构生成经问题引导的关注图的示例性流程图。在实施方式中,关注图生成部分在步骤505中接收从图像输入提取的图像特征图,并且在步骤510中接收使用LSTM从问题输入获得的密集问题嵌入。在步骤515中,通过将问题嵌入从语义空间投影到视觉空间,产生一组可配置卷积内核。在步骤520处,空间上的关注分布通过经问题配置的内核与图像特征图之间的卷积运算生成。在实施方式中,ABC-CNN框架具有初始权重,该初始权重在预训练期间随机调整为确保在ABC-CNN框架内的所有层(包括CNN层和LSTM层等)的每个维度的激活具有0均值以及一个标准导数。在步骤525中,将Softmax归一化应用至空间上的关注分布以生成经问题引导的关注图。
5.训练和测试
在实施方式中,整个框架可利用随机梯度下降和adadelta[参见M·D·齐勒,“Adadelta:自适应的学习速率方法”(Adadelta:An adaptive learning rate method),arXiv预印本arXiv:1212.5701,2012]算法以端对端的方式训练。每批随机梯度下降独立随机采样64个图像问题对,并且向后传播可被应用以学习ABC-CNN架构的所有权重。在实施方式中,所有层的初始权重可以随机调整为确保所有层的每个维度的激活具有0均值以及一个标准导数。在实施方式中,初始学习速率设为0.1。在实验中,虽然在ABC-CNN实施方式中以端对端的方式来训练所有权重是有可能的,但是图像特征提取部分中的权重可固定以允许更快的训练速度。
在测试阶段期间,在实施方式中,针对每个图像提取图像特征图。在实施方式中,在给定问题的情况下,产生该问题的密集问题嵌入,并且问题嵌入用于配置卷积内核,以生成关注图。在实施方式中,多类别分类器使用原始特征图、问题嵌入和经关注加权的图像特征图的融合生成答案。
D.实验
本模型的实施方式在以下数据集上进行评估:Toronto COCOQA数据集[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploring models and data for image question answering),arXiv:1505.02074.2015];DAQUAR数据集[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz),“基于不确定的输入进行真实世界场景的问答的多世界性方法”(A multi-world approach to question answering about real-world scenes based onuncertain input),《神经信息处理系统发展》(Advances in Neural InformationProcessing Systems),第1682–1690页,2014];以及VQA数据集[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:视觉问答”(VQA:Visual questionanswering),arXiv预印本arXiv:1505.00468,2015]。实施方式针对具有单字词答案的QA对进行评估,其分别考虑到Toronto-QA数据集、VQA数据集和DAQUAR数据集的(100%、85%、90%)。它还符合M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploring models and data for image question answering)(arXiv:1505.02074.2015)中的评估。除此之外,ABC-CNN框架的实施方式可容易地扩展成通过在答案生成部分中使用RNN解码器来生成完整句子作为答案。
应注意的是,本专利文献中引用的实验和结果(在本章节或任何其他章节中)以说明的方式提供,并且使用具体实施方式或多个具体实施方式在具体条件下执行;因此,这些实验或其结果不应当用于限制本专利文献的公开的范围。
1.实现细节
在实验中,图像特征图和关注图两者的分辨率选择为3×3,ATT-SEG-HSV模型除外,该ATT-SEG-HSV模型使用从完全卷积分段网络提取的特征(16×16)。每个图像单元使用预训练过的VGG网络[参见K·查特菲德、K·西蒙亚恩、A·威达尔迪和A·齐塞曼,“魔鬼藏于细节之中:深入探究卷积网络”(Return of the devil in the details:Delving deepinto convolutional nets),arXiv预印本arXiv:1405.3531,2014]生成4096维图像特征向量。来自所有图像单元的图像特征向量构成具有4096×3×3维度的图像特征图。为了避免过度拟合,图像特征图的维度使用1×1卷积被减小至256×3×3。密集问题嵌入的维度是256。另外,HSV颜色特征图被添加至图像特征图(ATT-HSV)。每个单元中的颜色特征被编码为该每个单元中像素的HSV直方图。在PASCAL 2007分段数据集上预训练的完全卷积神经网络[L·C·陈(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基诺斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille),“利用深度卷积网络和全连接的CRFS的语义图像分段”(Semantic image segmentation with deep convolutional nets andfully connected CRFS),arXiv预印本arXiv:1412.7062,2014]也被用于生成16×16×1024特征图,并且将它们与HSV颜色特征图串接为图像特征图(ATT-SEG-HSV)。使用4个K40Nvidia GPU在Toronto COCO-QA数据集上训练网络ATT-HSV需要花费约24小时。系统可以在单个K40GPU上以每个问题9.89ms的速度生成答案。
2.数据集
根据本公开的模型的实施方式在三个数据集上进行评估:DAQUAR、Toronto COCO-QA和VQA。
DAQUAR数据集具有两种版本:完整的数据集(DQ-Full)和减少的数据集(DQ-Reduced)。DQ-Reduced具有37个对象类的问题答案对,这是具有894个对象类的DQ-Full数据集的子集。两种版本使用来自NYU-Depth V2数据集[参见N·希尔伯曼、D·霍伊埃姆、P·科里和R·弗古斯,来自RGBD图像的室内分段和支持推测(Indoor segmentation andsupport inference from RGBD images),计算机视觉—ECCV 2012,第746–760页,斯普林格出版公司,2012(Computer Vision–ECCV 2012,pages 746–760.Springer,2012)]的室内场景图像。DQ-Full数据集包含具有6794个QA对的795个训练图像和具有5674个QA对的654个测试图像。DQ-Reduced数据集包含具有3825个QA对的781个训练图像和具有286个QA对的25个测试图像。在实验中,DAQUAR数据集仅针对具有单字词答案的QA对进行测试以及训练,这符合于由瑞恩(Ren)等人[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploring models and data for imagequestion answering),arXiv:1505.02074.2015]进行的评估。这种QA对分别构成DQ-Full数据集和DQ-Reduced数据集的训练集合和测试集合中的(90.6%,89.5%)和(98.7%,97.6%)。
Toronto COCO-QA数据集使用来自Microsoft COCO数据集(MS-COCO)的图像。它的QA对仅包含单字词答案。它的基本统计总结于表1中。
表1.Toronto COCO-QA问题类型分解[参见P·赛马内特(P.Sermanet)、A·福姆(A.Frome)和E·瑞尔(E.Real),“用于精细的分类的关注”(Attention for fine-grainedcategorization),arXiv预印本arXiv:1412.7054,2014]。
Figure BDA0001141053140000161
VQA数据集是最近收集的数据集,其还利用MS-COCO数据集中的图像构建。针对VQA数据集中的VQA真实图像(开放式的)任务的建议模型被评估。其包含了82783个训练图像、40504个验证图像和81434个测试图像。MS-COCO数据集中的每个图像注有三个(3个)问题,并且每个问题具有十个(10个)候选答案。用于训练、测试和验证的QA对的总数分别为248349、121512、244302。本模型的实施方式针对VQA数据集中的单字词答案QA对进行评估,单字词答案QA对构成数据集中的总QA对的86.88%。图6中示出了来自三个数据集的一些样本。
3.评估度量
VQA模型的性能根据“答案的准确性”和“吴-帕尔马相似性测量集(Wu-Palmersimilarity measure Set)(WUPS)”评分来评估。答案的准确性(ACC)计算准确匹配参考答案的所生成的答案的百分比。WUPS评分从吴-帕尔马(WUP)相似性[参见,Z·吴(Z.Wu)和M·帕尔马(M.Palmer),“动词语义和词汇选择”(Verbs semantics and lexical selection),《计算语言协会第32届年会会刊》(Proceedings of the 32nd annual meeting onAssociation for Computational Linguistics),第133–138页,计算语言协会出版,1994]得出,其值在[0,1]的范围内。WUP相似性基于两个字词在分类树中的最低共同祖先的深度测量两个字词的相似性。具有阈值的WUP评分是针对所有的所生成的答案和参考答案的向下加权的WUPS评分的平均值。如果两个字词的WUPS评分Swups低于阈值,那么其向下加权的WUPS评分为0.1Swups。否则,其向下加权的WUPS是Swups。在实验中,具有阈值0.0和0.9的WUPS评分被使用。
4.基线方法
将本方法的实施方式与不同基准方法进行比较。以下列出所有基线模型:
1.VIS+LSTM(VL):它是由瑞恩(Ren)等人所提出的框架[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploringmodels and data for image question answering),arXiv:1505.02074.2015],该框架具有提取图像特征的CNN,在该CNN后接着的是维度减小层。然后,图像特征被插入进问题字词嵌入序列头部作为问题LSTM的输入。
2.2-VIS+BLSTM(2VB):图像特征在字词嵌入序列的头和尾处编码。除此之外,瑞恩(Ren)等人提出的框架中的LSTM设为在向前和向后方向行进。
3.IMG+BOW(IB):瑞恩(Ren)等人使用Bag-of-Words特征生成密集问题嵌入。
4.IMG:仅图像特征被用于回答问题。它被称为“聋”模型。
5.LSTM:仅使用来自LTM的密集问题嵌入生成答案。它被称为“盲”模型。
6.ENSEMBLE:瑞恩(Ren)等人通过使用所有以上方法组合来对融合模型进行评估。
7.Q+I:安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:视觉问答”(VQA:Visual question answering),arXiv预印本arXiv:1505.00468,2015]使用密集问题嵌入和图像特征两者训练多类别分类器以实现问答。
8.Q+I+C:类似于Q+I模型,Q+I+C模型采用标记的图像说明的密集嵌入作为附加输入。
9.ASK:马里诺维斯基(Malinowski)等人[M·马里诺维斯基(M.Malinowski)和M·弗利特兹(M.Fritz),“询问您的神经:用于回答关于图像的问题的基于神经的方法(Askyour neurons:A neural-based approach to answering questions about images),arXiv预印本arXiv:1505.01121,2014]在LSTM解码器中将CNN特征和问题嵌入线性组合以生成答案。
5.结果和分析
表2、4和5总结了不同模型分别在Toronto COCO-QA数据集、DQ-Reduced数据集和DQ-Full数据集上的性能。表3分解每个分类中的不同方法在Toronto COCO-QA数据集上的性能。
在表2中,仅使用VGG特征图(AYY)的ABC-CNN优于瑞恩(Ren)等人[参见M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·泽内尔(R.Zemel),“探索用于图像问答的模型和数据”(Exploring models and data for image question answering),arXiv:1505.02074.2015]的单模型中的大多数。通过组合HSV特征图与VGG特征图(ATT-HSV),ABC-CNN的性能超越所有基线模型。虽然我们仅采用单模型,但是ABC-CNN甚至在答案准确性上比ENSEMBLE模型高0.2%。ABC-CNN在“对象”、“数量”和“位置”分类上优于基线方法,因为经问题引导的关注发掘问题语义以及图像中的情景信息来回答问题。ABC-CNN的准确性在“颜色”分类上略微低于IB和ENSEMBLE模型。
还发现,完全卷积模型ATT-SEG-HSV的性能略好于VGG模型ATT-HSV,但是利用完全卷积神经网络提取特征图要快得多。使用VGG,SEG和HSV特征一起(ATT-VGG-SEG-HSV)得到最佳性能。具体来说,完全卷积模型的添加帮助正确回答位置问题。ABC-CNN中的关注(NO-ATT)也被去除以作为烧蚀实验(ablative experiment),并且这分别会造成准确性上1.34%、0.85%和0.35%的损失、WUPS 0.9和WUPS 0.0的评分。
在表4中,ABC-CNN模型与基线模型在DQ-Reduced数据集上进行比较。ABC-CNN模型的性能在所有度量上高于所有单模型。在WUPS 0.9测量上,ABC-CNN模型仅比的ENSEMBLE模型低0.53%。
在DQ-Full和VQA数据集上,ABC-CNN在表5和6的数据集上优于现有技术方案。在DQ-Full数据集上,ABC-CNN模型与Toronto COCO-QA数据集和DQ-Reduced数据集上的模型相同。在VQA数据集上,为了进行公平评估,使用与安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇尔(M.Mitchell)、D·巴塔(D.Batra)、C·L·齐特尼科(C.L.Zitnick)和D·帕里克(D.Parikh),“VQA:视觉问答”(VQA:Visualquestion answering),arXiv预印本arXiv:1505.00468,2015]相同的包含1000个最频繁答案(ATT 1000)的答案字典。ABC-CNN模型还使用包含所有答案(ATT Full)的答案字典进行评估。
图7中示出了所生成的经问题引导的关注图及其对应的图像和问题的一些。可观察到,经问题引导的关注图成功捕获具有不同关注区域的不同问题的意向。利用这些关注图,通过将其关注集中于重要区域上并过滤掉不相关的信息,ABC-CNN能够生成更准确的答案。由于原始特征图在预测答案时也被提供,因此如果询问对象仅为图像中的对象(例如“躺在山坡上草地中的是什么?”),那么ABC-CNN可以在不使用关注图的情况下回答问题。
表3每类别的Toronto COCO-QA准确性
Figure BDA0001141053140000201
表4关于DAQUAR-Reduce数据集的结果
Figure BDA0001141053140000202
表5关于DAQUAR-Full数据集的结果
Figure BDA0001141053140000211
表6不同模型的在VQA数据集上的性能
Figure BDA0001141053140000212
E.系统实施方式
在实施方式中,本专利文献的方面可涉及到信息处理系统/计算系统或者使用信息处理系统/计算系统实施。出于本公开的目的,计算系统可以包括出于商业、科学、控制或其他目的可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如,计算系统可为个人计算机(例如,膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如,刀片式服务器或机架式服务器)、网络存储设备或任何其他合适设备,并且可在大小、形状、性能、功能和价格方面改变。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可以包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。
图8描绘根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解,信息处理系统可不同地配置并且包括不同组件,但应理解,针对系统800所示出的功能可操作为支持信息处理系统的各种实施方式。
如图8所示,系统800包括一个或多个中央处理单元(CPU)801,CPU 801提供计算资源并控制计算机。CPU 801可实施有微处理器等,并且还可包括一个或多个图形处理单元(GPU)817和/或用于数学计算的浮点协处理器。系统800还可包括系统存储器802,系统存储器802可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。
如图8所示,还可提供多个控制器和外围设备。输入控制器803表示至各种输入设备804的接口,例如键盘、鼠标或触笔。还可存在扫描仪控制器805,该扫描仪控制器805与扫描仪806通信。系统800还可包括存储控制器807,该存储控制器807用于与一个或多个存储设备808对接,存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序,它们可包括实施本发明的各方面的程序的实施方式)。存储设备808还可用于存储经处理的数据或是将要根据本发明处理的数据。系统800还可包括显示控制器809,该显示控制器809用于为显示设备811提供接口,显示设备811可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器或其他类型的显示器。计算系统800还可包括打印机控制器812,该打印机控制器812用于与打印机813通信。通信控制器814可与一个或多个通信设备815对接,这使系统800能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络,或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。
在示出的系统中,所有主要系统组件可连接至总线816,总线816可以表示多于一个的物理总线。然而,各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如,输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外,实现本发明的各方面的程序可经由网络从远程位置(例如,服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送,机器可读介质包括但不限于:诸如硬盘、软盘和磁带的磁性介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及硬件设备,该硬件设备专门被配置成存储或存储并执行程序代码,该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。
本发明的实施方式可以利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意,一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意,替代实现方式是可能的,其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此,任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地,如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式,应当理解,附图以及随附描述提供本领域的技术人员编写程序代码(即,软件)和/或制造电路(即,硬件)以执行所需处理所要求的功能信息。
应当注意,本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码,或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于:诸如硬盘、软盘和磁带的磁性介质;诸如CD-ROM和全息设备的光学介质;磁光介质;以及专门配置成存储或存储并执行程序代码的硬件设备,例如,专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如,编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中,程序模块可物理上定位在本地、远程或两者的设定中。
本领域的技术人员将认识到,计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到,多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。
将理解,前文的示例、实施方式和实验是示例性的,并且出于清楚和理解的目的,而不限制本发明的范围。旨在说明的是,在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有替代、置换、增强、等同、组合或改进包括在本发明的范围内。因此,旨在说明的是,权利要求书包括落在本发明的真实精神和范围内的所有此类替代、置换、增强、等同、组合或改进,除非随附权利要求书以其语言来另外明确说明。应注意,随附权利要求书的元素可不同地布置,包括具有多个从属、配置和组合。例如,在实施方式中,各权利要求的主题可与其他权利要求组合。

Claims (20)

1.一种改进对问题输入生成的答案的准确性的计算机实施的方法,其中,所述问题输入与图像输入相关,所述方法包括:
接收所述图像输入;
接收与所述图像输入相关的所述问题输入;
将所述问题输入和所述图像输入输入到基于关注的可配置卷积神经网络框架中以生成答案,所述基于关注的可配置卷积神经网络框架包括:
图像特征图提取组件,包括从所述图像输入提取图像特征图的卷积神经网络;
语义问题嵌入组件,从所述问题输入获得问题嵌入;
经问题引导的关注图生成组件,接收所述图像特征图和所述问题嵌入,并且获得集中于所述问题输入所询问的区域的经问题引导的关注图;以及
答案生成组件,通过使用所述经问题引导的关注图加权所述图像特征图,获得经关注加权的图像特征图,并且基于所述图像特征图、所述问题嵌入和所述经关注加权的图像特征图的融合来生成答案。
2.如权利要求1所述的计算机实施的方法,其中,所述语义问题嵌入组件包括长短期存储器层以生成所述问题嵌入来表征所述问题输入的语义含义。
3.如权利要求1所述的计算机实施的方法,其中,所述经问题引导的关注图生成组件包括可配置的卷积内核,所述可配置的卷积内核通过将所述问题嵌入从语义空间投影到视觉空间而产生,并用于与所述图像特征图卷积以产生所述经问题引导的关注图。
4.如权利要求3所述的计算机实施的方法,其中,所述卷积内核具有与所述图像特征图相同数量的通道。
5.如权利要求3所述的计算机实施的方法,其中,所述经问题引导的关注图具有与所述图像特征图相同的大小。
6.如权利要求1所述的计算机实施的方法,其中,所述图像特征图通过将所述图像输入分成多个网格并在所述网格的每个单元中提取D维特征向量来提取。
7.如权利要求1所述的计算机实施的方法,其中,所述图像特征图被所述经问题引导的关注图在空间上加权,以获得所述经关注加权的图像特征图。
8.如权利要求7所述的计算机实施的方法,其中,所述在空间上加权通过在所述图像特征图和所述经问题引导的关注图的每个通道之间的按元素的乘积实现。
9.如权利要求8所述的计算机实施的方法,其中,所述在空间上加权还通过用于空间上的关注分布的Softmax归一化来限定。
10.如权利要求1所述的计算机实施的方法,其中,所述基于关注的可配置卷积神经网络框架利用随机梯度下降以端对端的方式来预训练。
11.如权利要求10所述的计算机实施的方法,其中,所述基于关注的可配置卷积神经网络框架具有初始权重,所述初始权重预训练期间被随机地调整为确保所述基于关注的可配置卷积神经网络框架内所有层的激活的每个维度具有0均值和一个标准导数。
12.一种对图像相关的问题生成答案的计算机实施的方法,所述方法包括以下步骤:
使用深层卷积神经网络从包括多个像素的输入图像提取图像特征图;
使用长短期存储器层从与所述输入图像相关的输入问题中获得密集问题嵌入;
通过将所述密集问题嵌入从语义空间投影到视觉空间来产生多个经问题配置的内核;
将所述经问题配置的内核与所述图像特征图卷积以生成经问题引导的关注图;
通过使用所述经问题引导的关注图在空间上加权所述图像特征图,在多类别分类器处获得经关注加权的图像特征图,所述经关注加权的图像特征图降低与所述输入问题不相关的区域的权重;以及
基于所述图像特征图、所述密集问题嵌入和所述经关注加权的图像特征图的融合对所述输入问题生成答案。
13.如权利要求12所述的方法,其中,所述在空间上加权通过在所述图像特征图和所述经问题引导的关注图的每个通道之间的按元素的乘积实现。
14.如权利要求12所述的方法,其中,所述经问题引导的关注图根据所述输入问题适应性地表示每个像素的关注度。
15.如权利要求12所述的方法,其中,所述经问题引导的关注图通过将所述经问题配置的内核应用于所述图像特征图上来获得。
16.如权利要求12所述的方法,其中,所述图像特征图、所述密集问题嵌入和所述经关注加权的图像特征图通过非线性投影融合。
17.如权利要求16所述的方法,其中,所述非线性投影是按元素逐个标定的双曲正切函数。
18.一种改进对问题输入生成的答案的准确性的装置,包括:
响应于接收问题输入提取所述问题输入的密集问题嵌入的装置;
响应于接收与所述问题输入相关的图像输入生成图像特征图的装置;
至少基于所述图像特征图和所述密集问题嵌入生成经问题引导的关注图的装置,所述经问题引导的关注图选择性地集中于所述问题输入所询问的区域上;
使用所述经问题引导的关注图在空间上加权所述图像特征图以获得经关注加权的图像特征图的装置;以及
将语义信息、所述图像特征图和所述经关注加权的图像特征图融合以对所述问题输入生成答案的装置。
19.如权利要求18所述的改进对问题输入生成的答案的准确性的装置,其中,生成经问题引导的关注图的装置还操作为对所述关注图的空间上的关注分布进行Softmax归一化。
20.如权利要求19所述的改进对问题输入生成的答案的准确性的装置,其中,生成经问题引导的关注图的装置操作为根据所述密集问题嵌入配置一组卷积内核,并且将所述卷积内核应用于所述图像特征图上,以生成所述经问题引导的关注图。
CN201610952620.4A 2015-11-03 2016-11-02 用于视觉问答的系统和方法 Active CN106649542B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562250260P 2015-11-03 2015-11-03
US62/250,260 2015-11-03
US15/184,991 US9965705B2 (en) 2015-11-03 2016-06-16 Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US15/184,991 2016-06-16

Publications (2)

Publication Number Publication Date
CN106649542A CN106649542A (zh) 2017-05-10
CN106649542B true CN106649542B (zh) 2020-06-16

Family

ID=57281007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610952620.4A Active CN106649542B (zh) 2015-11-03 2016-11-02 用于视觉问答的系统和方法

Country Status (5)

Country Link
US (1) US9965705B2 (zh)
EP (1) EP3166049B1 (zh)
JP (1) JP6351689B2 (zh)
KR (1) KR101865102B1 (zh)
CN (1) CN106649542B (zh)

Families Citing this family (225)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180068330A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions
US10339167B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10339168B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10552968B1 (en) * 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
JP7221203B2 (ja) * 2017-01-23 2023-02-13 オックスフォード ユニヴァーシティ イノヴェーション リミテッド モバイル装置の位置特定方法
US10339421B2 (en) * 2017-03-30 2019-07-02 Toyota Motor Engineering & Manufacturing North America, Inc. RGB-D scene labeling with multimodal recurrent neural networks
US10489287B2 (en) 2017-05-15 2019-11-26 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US10223248B2 (en) 2017-05-15 2019-03-05 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
EP4156032A1 (en) * 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks
WO2018217828A1 (en) * 2017-05-23 2018-11-29 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
US11417235B2 (en) * 2017-05-25 2022-08-16 Baidu Usa Llc Listen, interact, and talk: learning to speak via interaction
JP6923362B2 (ja) * 2017-05-30 2021-08-18 株式会社Soken 操舵角決定装置、自動運転車
CN116957055A (zh) * 2017-06-05 2023-10-27 渊慧科技有限公司 使用多模态输入选择动作
US11645508B2 (en) 2017-06-09 2023-05-09 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for generating trained model
KR102419136B1 (ko) * 2017-06-15 2022-07-08 삼성전자주식회사 다채널 특징맵을 이용하는 영상 처리 장치 및 방법
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107688821B (zh) * 2017-07-11 2021-08-06 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
KR20190007816A (ko) 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN107480206B (zh) * 2017-07-25 2020-06-12 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN109426776A (zh) 2017-08-25 2019-03-05 微软技术许可有限责任公司 基于深度神经网络的对象检测
KR101986307B1 (ko) * 2017-08-29 2019-06-05 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
US10679075B2 (en) * 2017-08-31 2020-06-09 Nec Corporation Dense correspondence estimation with multi-level metric learning and hierarchical matching
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
US10671918B2 (en) 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
WO2019081623A1 (en) * 2017-10-25 2019-05-02 Deepmind Technologies Limited SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
US10592767B2 (en) * 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US10410350B2 (en) 2017-10-30 2019-09-10 Rakuten, Inc. Skip architecture neural network machine and method for improved semantic segmentation
US10395147B2 (en) * 2017-10-30 2019-08-27 Rakuten, Inc. Method and apparatus for improved segmentation and recognition of images
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108875751B (zh) * 2017-11-02 2021-03-02 北京旷视科技有限公司 图像处理方法和装置、神经网络的训练方法、存储介质
CN107862058B (zh) * 2017-11-10 2021-10-22 北京百度网讯科技有限公司 用于生成信息的方法和装置
US10542270B2 (en) * 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108154235A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种图像问答推理方法、系统及装置
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
EP3495992A1 (en) * 2017-12-07 2019-06-12 IMRA Europe SAS Danger ranking using end to end deep neural network
CN108021897B (zh) * 2017-12-11 2021-06-15 北京小米移动软件有限公司 图片问答方法及装置
KR102421856B1 (ko) * 2017-12-20 2022-07-18 삼성전자주식회사 영상의 상호작용 처리 방법 및 장치
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations
CN108153876B (zh) * 2017-12-26 2021-07-23 爱因互动科技发展(北京)有限公司 智能问答方法及系统
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN108229477B (zh) * 2018-01-25 2020-10-09 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108319909B (zh) * 2018-01-29 2021-11-30 清华大学 一种驾驶行为分析方法及系统
US11663249B2 (en) 2018-01-30 2023-05-30 Intel Corporation Visual question answering using visual knowledge bases
CN108491421B (zh) * 2018-02-07 2021-04-16 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
JP6992590B2 (ja) * 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
US11507800B2 (en) 2018-03-06 2022-11-22 Adobe Inc. Semantic class localization digital environment
US11287894B2 (en) 2018-03-09 2022-03-29 Adobe Inc. Utilizing a touchpoint attribution attention neural network to identify significant touchpoints and measure touchpoint contribution in multichannel, multi-touch digital content campaigns
CN110362809B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362810B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362808B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110555104B (zh) * 2018-03-26 2022-06-17 阿里巴巴(中国)有限公司 文本分析方法及装置
CN108921811B (zh) * 2018-04-03 2020-06-30 阿里巴巴集团控股有限公司 检测物品损伤的方法和装置、物品损伤检测器
CN108614996A (zh) * 2018-04-04 2018-10-02 杭州电子科技大学 一种基于深度学习的军船、民船自动识别方法
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
US11321618B2 (en) 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
US10621990B2 (en) * 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
US20210240931A1 (en) * 2018-04-30 2021-08-05 Koninklijke Philips N.V. Visual question answering using on-image annotations
CN112119412A (zh) * 2018-05-18 2020-12-22 伯耐沃伦人工智能科技有限公司 具有注意力的图神经网络
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108776779B (zh) * 2018-05-25 2022-09-23 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
US10769307B2 (en) 2018-05-30 2020-09-08 Bank Of America Corporation Processing system using natural language processing for performing dataset filtering and sanitization
JP2019211969A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 学習管理装置、学習管理サーバ、および学習管理方法
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
US10885395B2 (en) 2018-06-17 2021-01-05 Pensa Systems Method for scaling fine-grained object recognition of consumer packaged goods
KR102120751B1 (ko) * 2018-06-21 2020-06-10 주식회사 머니브레인 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체
CN108875034A (zh) * 2018-06-25 2018-11-23 湖南丹尼尔智能科技有限公司 一种基于层次化长短期记忆网络的中文文本分类方法
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
US20200019603A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network
CN109255012B (zh) * 2018-07-23 2021-04-30 深思考人工智能机器人科技(北京)有限公司 机器阅读理解以及减少候选数据集规模的方法、装置
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
CN109086405B (zh) * 2018-08-01 2021-09-14 武汉大学 基于显著性和卷积神经网络的遥感图像检索方法及系统
US10740536B2 (en) * 2018-08-06 2020-08-11 International Business Machines Corporation Dynamic survey generation and verification
CN109145970B (zh) * 2018-08-06 2021-01-12 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
US10832084B2 (en) * 2018-08-17 2020-11-10 Nec Corporation Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching
CN109145816B (zh) * 2018-08-21 2021-01-26 北京京东尚科信息技术有限公司 商品识别方法和系统
CN109410158B (zh) * 2018-08-21 2020-10-02 西安电子科技大学 一种基于卷积神经网络的多焦点图像融合方法
US11010559B2 (en) 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
KR102073323B1 (ko) * 2018-09-02 2020-02-03 주식회사 뉴로다임 인공지능 기반의 구조물 건전성 관리 시스템
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
US11645535B2 (en) 2018-09-24 2023-05-09 Samsung Electronics Co., Ltd. Normalization method for training deep neural networks
US20220003894A1 (en) * 2018-09-26 2022-01-06 Sofar Ocean Technologies, Inc. Ocean weather forecasting system
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
CN110019749B (zh) * 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US10799182B2 (en) 2018-10-19 2020-10-13 Microsoft Technology Licensing, Llc Video-based physiological measurement using neural networks
US11250299B2 (en) * 2018-11-01 2022-02-15 Nec Corporation Learning representations of generalized cross-modal entailment tasks
CN111971670A (zh) * 2018-11-02 2020-11-20 微软技术许可有限责任公司 在对话中生成响应
CN109712108B (zh) * 2018-11-05 2021-02-02 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN111177328B (zh) * 2018-11-12 2023-04-28 阿里巴巴集团控股有限公司 问答匹配系统和方法及问答处理设备和介质
CN111175681B (zh) 2018-11-13 2022-08-30 西门子(深圳)磁共振有限公司 基于刀锋序列的磁共振成像方法、装置及其存储介质
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109614613B (zh) 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109740515B (zh) * 2018-12-29 2021-08-17 科大讯飞股份有限公司 一种评阅方法及装置
US11120062B2 (en) 2019-01-07 2021-09-14 International Business Machines Corporation Framework for analyzing graphical data by question answering systems
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
KR102192016B1 (ko) * 2019-01-11 2020-12-16 연세대학교 산학협력단 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10373025B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for verifying integrity of parameters of CNN by using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations for functional safety
CN109871457A (zh) 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN111507141B (zh) * 2019-01-31 2023-04-18 阿里巴巴集团控股有限公司 图片识别方法、服务界面显示方法、系统及设备
CN109858555B (zh) 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN111598117B (zh) * 2019-02-21 2023-06-30 成都通甲优博科技有限责任公司 图像识别方法及装置
CN111666006B (zh) * 2019-03-05 2022-01-14 京东方科技集团股份有限公司 画作问答方法及装置、画作问答系统、可读存储介质
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109902166A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 视觉问答模型、电子设备及存储介质
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
US11568247B2 (en) 2019-03-22 2023-01-31 Nec Corporation Efficient and fine-grained video retrieval
US10997374B2 (en) * 2019-03-22 2021-05-04 Fortia Financial Solutions Generation of natural language text from structured data using a fusion model
CN110047076B (zh) * 2019-03-29 2021-03-23 腾讯科技(深圳)有限公司 一种图像信息的处理方法、装置及存储介质
CN111753600B (zh) * 2019-03-29 2024-05-17 北京市商汤科技开发有限公司 文本识别方法、装置及存储介质
EP3719745A1 (en) * 2019-04-01 2020-10-07 Siemens Healthcare GmbH Processing a medical image
US11494377B2 (en) * 2019-04-01 2022-11-08 Nec Corporation Multi-detector probabilistic reasoning for natural language queries
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110070224A (zh) * 2019-04-20 2019-07-30 北京工业大学 一种基于多步骤递归预测的空气质量预测方法
CN110097617B (zh) * 2019-04-25 2020-09-15 北京理工大学 基于卷积神经网络与显著性权重的图像融合方法
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
US10949718B2 (en) 2019-05-08 2021-03-16 Accenture Global Solutions Limited Multi-modal visual question answering system
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
US11875252B2 (en) 2019-05-17 2024-01-16 Robert Bosch Gmbh Neural network including a neural network projection layer configured for a summing parameter
CN110175229B (zh) * 2019-05-27 2021-07-06 言图科技有限公司 一种基于自然语言进行在线培训的方法和系统
CN110197307B (zh) * 2019-06-03 2023-07-25 上海海洋大学 一种结合注意力机制的区域型海表面温度预测方法
CN110209823B (zh) * 2019-06-12 2021-04-13 齐鲁工业大学 一种多标签文本分类方法及系统
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110225368B (zh) * 2019-06-27 2020-07-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
US11874882B2 (en) 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
CN110321864A (zh) * 2019-07-09 2019-10-11 西北工业大学 基于多尺度裁剪机制的遥感图像文字说明生成方法
CN110321565B (zh) * 2019-07-09 2024-02-23 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
KR102148607B1 (ko) * 2019-07-26 2020-08-26 연세대학교 산학협력단 오디오-비디오 정합 영역 탐지 장치 및 방법
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
WO2021045434A1 (ko) * 2019-09-05 2021-03-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN110704668B (zh) * 2019-09-23 2022-11-04 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
US11423678B2 (en) 2019-09-23 2022-08-23 Proscia Inc. Automated whole-slide image classification using deep learning
EP4007975A1 (en) * 2019-09-25 2022-06-08 DeepMind Technologies Limited Gated attention neural networks
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
KR20210044056A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
US11157554B2 (en) 2019-11-05 2021-10-26 International Business Machines Corporation Video response generation and modification
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110990630B (zh) * 2019-11-29 2022-06-24 清华大学 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111598118B (zh) * 2019-12-10 2023-07-07 中山大学 一种视觉问答任务实现方法及系统
CN111160140B (zh) * 2019-12-13 2023-04-18 浙江大华技术股份有限公司 一种图像检测方法及装置
CN111126258B (zh) * 2019-12-23 2023-06-23 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111080729B (zh) * 2019-12-24 2023-06-13 山东浪潮科学研究院有限公司 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111147396B (zh) * 2019-12-26 2023-03-21 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
EP4094194A1 (en) 2020-01-23 2022-11-30 Umnai Limited An explainable neural net architecture for multidimensional data
CN113296152A (zh) * 2020-02-21 2021-08-24 中国石油天然气集团有限公司 断层检测方法及装置
CN111325751B (zh) * 2020-03-18 2022-05-27 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111489334B (zh) * 2020-04-02 2023-08-08 暖屋信息科技(苏州)有限公司 一种基于卷积注意力神经网络的缺陷工件图像识别方法
CN111488887B (zh) * 2020-04-09 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置
CN111539884B (zh) * 2020-04-21 2023-08-15 温州大学 一种基于多注意力机制融合的神经网络视频去模糊方法
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
US11526678B2 (en) * 2020-05-14 2022-12-13 Naver Corporation Attention over common-sense network for natural language inference
CN111563513B (zh) * 2020-05-15 2022-06-24 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111737512B (zh) * 2020-06-04 2021-11-12 东华大学 基于深度特征区域融合的丝绸文物图像检索方法
CN111612103B (zh) * 2020-06-23 2023-07-11 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858882B (zh) * 2020-06-24 2022-08-09 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN111767379B (zh) * 2020-06-29 2023-06-27 北京百度网讯科技有限公司 图像问答方法、装置、设备以及存储介质
CN111782838B (zh) 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111782840B (zh) 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111783697A (zh) * 2020-07-06 2020-10-16 周书田 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
US11622117B2 (en) * 2020-07-21 2023-04-04 Tencent America LLC Method and apparatus for rate-adaptive neural image compression with adversarial generators
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法
AU2021349226C1 (en) * 2020-09-23 2023-08-24 Proscia Inc. Critical component detection using deep learning and attention
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
CN112511172B (zh) * 2020-11-11 2023-03-24 山东云海国创云计算装备产业创新中心有限公司 一种译码方法、装置、设备及存储介质
CN112365340A (zh) * 2020-11-20 2021-02-12 无锡锡商银行股份有限公司 一种多模态个人贷款风险预测方法
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
CN112527993B (zh) * 2020-12-17 2022-08-05 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112800191B (zh) * 2020-12-31 2023-01-17 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN112712092A (zh) * 2021-01-07 2021-04-27 泰康保险集团股份有限公司 采集图像特征的方法、装置、设备和计算机可读介质
CN112750082B (zh) * 2021-01-21 2023-05-16 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN112990213B (zh) * 2021-02-07 2023-10-10 西北大学 一种基于深度学习的数字万用表字符识别系统和方法
CN113065576A (zh) * 2021-02-26 2021-07-02 华为技术有限公司 一种特征提取的方法以及装置
CN113010712B (zh) * 2021-03-04 2022-12-02 天津大学 一种基于多图融合的视觉问答方法
CN113011332A (zh) * 2021-03-19 2021-06-22 中国科学技术大学 基于多区域注意力机制的人脸伪造检测方法
KR20220141537A (ko) 2021-04-13 2022-10-20 한국원자력연구원 피드백 데이터 기반 자가 학습 장치 및 방법
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN112949841B (zh) * 2021-05-13 2022-08-16 德鲁动力科技(成都)有限公司 一种基于Attention的CNN神经网络的行人重识别方法
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
US11967128B2 (en) * 2021-05-28 2024-04-23 Adobe Inc. Decompositional learning for color attribute prediction
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113313091B (zh) * 2021-07-29 2021-11-02 山东建筑大学 仓储物流下的基于多重注意力和拓扑约束的密度估计方法
CN113626662A (zh) * 2021-07-29 2021-11-09 山东新一代信息产业技术研究院有限公司 一种实现灾后图像视觉问答的方法
WO2023143995A1 (en) 2022-01-26 2023-08-03 Bayer Aktiengesellschaft Disease detection, identification and/or characterization using multiple representations of audio data
WO2023157265A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 応答生成装置、応答生成方法および応答生成プログラム
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
KR20240023928A (ko) 2022-08-16 2024-02-23 김찬우 이미지 기반 자동 문제 생성 장치 및 방법
WO2024056439A1 (de) 2022-09-14 2024-03-21 Bayer Aktiengesellschaft Ermittlung der stabilität von verpackten formulierungen
EP4350701A1 (en) 2022-10-07 2024-04-10 SIVA Health AG Classifying individuals suffering from chronic cough
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117393921A (zh) * 2023-10-17 2024-01-12 浙江博时新能源技术有限公司 分布式储能设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898159B2 (en) * 2010-09-28 2014-11-25 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US9002773B2 (en) * 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US10510018B2 (en) * 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8898159B2 (en) * 2010-09-28 2014-11-25 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Aligning where to see and what to tell: image caption with region-based attention and scene factorization;Junqi Jin et al;《Computer Vision and Pattern Recognition》;20150620;第1-20页 *
Are you talking to a machine? dataset and methods for multilingual image question answering;Haoyuan Gao et al;《Computer Vision and Pattern Recognition》;20150521;第1-10页 *
Exploring Models and Data for Image Question Answering;Mengye Ren et al;《Conference and Workshop on Neural Information Processing Systems 2015》;20150508;第1-9页 *
Recurrent Models of Visual Attention;Volodymyr Mnih et al;《Machine Learning》;20140624;第1-9页 *
VisKE: Visual knowledge extraction and question answering by visual verification of relation phrases;Fereshteh Sadeghi et al;《2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20150612;第1456-1464页 *

Also Published As

Publication number Publication date
EP3166049B1 (en) 2020-09-02
US9965705B2 (en) 2018-05-08
KR101865102B1 (ko) 2018-06-07
JP6351689B2 (ja) 2018-07-04
EP3166049A1 (en) 2017-05-10
CN106649542A (zh) 2017-05-10
KR20180038937A (ko) 2018-04-17
JP2017091525A (ja) 2017-05-25
US20170124432A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
CN106649542B (zh) 用于视觉问答的系统和方法
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
Shivakumara et al. CNN‐RNN based method for license plate recognition
Qiu et al. Learning spatio-temporal representation with pseudo-3d residual networks
US10043231B2 (en) Methods and systems for detecting and recognizing text from images
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
Wang et al. Sparse observation (so) alignment for sign language recognition
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
CN110245257B (zh) 推送信息的生成方法及装置
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
CN114495129B (zh) 文字检测模型预训练方法以及装置
Wu et al. The recognition of teacher behavior based on multimodal information fusion
Yan Computational Methods for Deep Learning: Theory, Algorithms, and Implementations
CN114037056A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质
Qin Application of efficient recognition algorithm based on deep neural network in English teaching scene
Li Special character recognition using deep learning
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
Qi et al. Real‐time motion data annotation via action string
Chen et al. Parts-probability-based vehicle detection
CN116612466B (zh) 基于人工智能的内容识别方法、装置、设备及介质
Annisa et al. Analysis and Implementation of CNN in Real-time Classification and Translation of Kanji Characters
Soukup Sémantická segmentace obrazu pomocí hlubokých neuronových sítí
Sugianto et al. Indonesian dynamic sign language recognition at complex background with 2d convolutional neural networks
Lucas et al. Automatic Detection of Comic Characters: An Analysis of Model Robustness Across Domains
Zhang The Cognitive Transformation of Japanese Language Education by Artificial Intelligence Technology in the Wireless Network Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant