CN114092707A

CN114092707A - 一种图像文本视觉问答方法、系统及存储介质

Info

Publication number: CN114092707A
Application number: CN202111368159.5A
Authority: CN
Inventors: 曾江峰; 马霄; 段尧清; 文轩; 兰又铭; 黄泳潼
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25

Abstract

本发明公开了一种图像文本视觉问答方法、系统及存储介质。所述方法包括：获取目标图像对象和目标问题对象；进行特征提取，获得图像视觉特征、图像文本特征、问题文本特征；将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，对同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合；将编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块，获得目标答案。采用本发明所述的方法进行图像文本视觉问答任务，步骤简单、效率高、准确率高。

Description

一种图像文本视觉问答方法、系统及存储介质

技术领域

本发明涉及人工智能技术，具体涉及一种图像文本视觉问答方法、系统及存储介质。

背景技术

视觉问答(Visual Question and Answering，VQA)，是一种复杂的多模态任务，旨在自动回答与给定图像内容相关的文本问题，并且需要同时理解视觉图像和自然语言问题。该领域近年来的研究取得了巨大进展，并成为人工智能中最活跃的研究领域之一。其发展大致有两个方向：一是关注模态间的关系，如协同注意力；二是关注模态内部的关系，如BERT(Bidirectional Encoder Representation from Transformers)模型处理NLP(Natural Language Processing，自然语言处理)。然而大多数现有的VQA任务忽略了一种涉及理解和推理图像中文本的问题。部分研究提出使用文本视觉问答任务来解决这一问题。

文本视觉问答任务(Text VQA task)，要求同时理解图像中的视觉场景、问题和文本以推断答案。其模型大多通过引入光学字符识别(Optical Character Recognition，OCR)组件，来读取图像中的文本，如LoRRA在图像区域上采用单向注意和以问题为条件的OCR标记来推断答案。这些模型的缺点是较少考虑多个模式间不同类型的交互，且只关注并学习特定的图像区域和由输入问题引导的OCR标记信息。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种图像文本视觉问答方法、系统及存储介质。本发明的图像文本视觉问答方法、系统及存储介质建立了文本视觉问答任务的多个模态的跨模态和模内交互模块，叠加模内模间信息融合模块以构建一个多层多模内模间信息融合模型，该模型可以得到图像区域、问题与OCR标记间的九种可能关系，最后根据包含不同层次交互信息的所有模块的交互特征的平均值，预测最终答案。

为实现上述目的，本发明采用如下技术方案。

在一些实施例中，提供一种图像文本视觉问答方法，获取目标图像对象和目标问题对象；

对所述目标图像对象进行图像视觉特征提取，获得图像视觉特征；

对所述目标图像对象进行图像文本特征提取，获得图像文本特征；

对所述目标问题对象进行问题文本特征提取，获得问题文本特征；

将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征；

对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；

将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块，获得目标答案。

在一些实施例中，所述将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征，包括：将所述图像视觉特征、图像文本特征和所述问题文本特征使用线性转化层转化到同一特征空间，所述线性转化层用于输入不同编码器提取的特征表示，转换成相同的特征维度并输出。

在一些实施例中，所述对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征，包括：将所述同一维度的图像视觉特征、图像文本特征和问题文本特征输入多层模内模间信息融合网络，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；所述多层模内模间信息融合网络包括跨模态交互模块和模内交互模块，所述跨模态交互模块和模内交互模块组成模内模间信息融合模块；其中，所述跨模态交互模块用于获取不同模态间的相关性；所述模内交互模块用于获取每个模态内实例之间的关系，并为跨模态交互模块提供补充信息。

在一些实施例中，所述将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块，获得目标答案，包括：

根据每个模内模间信息融合模块的输出特征，通过答案生成模块使每个模内模间信息融合模块的输出生成一个答案的预测分数，最后取预测分数的平均值中分数最高项对应的候选答案作为目标答案。

在一些实施例中，还提供一种图像文本视觉问答系统，包括：

交互模块，用于获取目标图像对象和目标问题对象，并显示目标答案；特征提取模块，用于

模内模间信息融合模块，用于将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征；用于对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；

答案生成模块，用于获得目标答案。

在一些实施例中，还提供一种存储介质，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行如上任一项所述的图像文本视觉问答方法。

在一些实施例中，还提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项所述的图像文本视觉问答方法。

本发明的实施例提供的图像文本视觉问答方法，采用图文多模态的特征提取模块、模内模间信息融合模块和答案生成模块，深度挖掘多种模态之间的语义关联，提出一种多层次模内模间信息融合网络模型，通过引入空间信息作为注意力机制的督导信息，不仅挖掘了每种模态内部的语义联系，并且建模了图像、问题和OCR标记(图像中的文字)三种模态之间的深层次信息交互，从而能够有效地从这三种模态中筛选出与答案相关的多个显著目标区域，以提升图像文本视觉问答的准确性，同时为其他涉及三种及以上模态的多模态应用提供了通用的多模态信息交互建模方法。采用本发明所述的方法进行图像文本视觉问答任务，步骤简单、效率高、准确率高。

与现有技术相比，本发明的实施例有益效果至少在于：本发明提出了多个(三个及以上)模态的跨模态和模内交互模块，其中比例点积注意力方法(scaled dot-productattention，SDA)被用来建立跨模态和模内关系，而能够有效地从这至少三种模态(图像、问题和OCR标记三种模态)中筛选出与答案相关的多个显著目标区域，提升图像文本视觉问答的准确性。本发明通过叠加模内模间信息融合模块组成的交互块，构建出文本视觉问答任务的多层次模内模间信息融合模块，可以对多个模式间的多级交互进行建模，本发明以互补的方式，利用包含不同层次交互信息的所有块的交互特征来预测最终答案，准确率高。本发明使用最新的文本视觉问答数据集进行验证，对提出的方法进行广泛的消融研究，结果表明本发明提出的方法和模型性能优于现有最先进的方法。

附图说明

图1是本发明一些实施例提供的一种图像文本视觉问答方法流程示意图。

图2是本发明一些实施例提供的一种图像文本视觉问答方法的应用场景示意图。

图3是本发明一些实施例提供的一种图像文本视觉问答方法流程示意图。

图4是本发明一些实施例提供的一种答案生成模块及答案预测流程示意图。

图5是本发明一些实施例提供的一种图像文本视觉问答系统的结构示意图。

图6是本发明一些实施例提供的用来实现本发明的实施例的图像文本视觉问答方法的电子设备的结构示意图。

图7A和图7B是现有技术中针对图内文字的视觉问答示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

视觉问答中的图片包含许多场景。对于商店、马路和衣服等场景经常会带有文字信息。当问题与这些文字相关时，传统的视觉问答方法将无法给出正确答案，图7A和图7B展示了现有技术中针对图内文字的视觉问答示例。

为了解决这种场景下的视觉问答任务，本发明首先使用一个外部的OCR文字识别系统提取图像中的文字信息，然后利用文本问题、图像和OCR识别文字三个通道的信息来推理答案。为了挖掘图像中的物体对象、问题的语义单词和OCR识别文字之间的关系，本发明提出了针对多模态数据中模态内部与跨模态的模内模间信息融合方法。本发明还将图像中物体对象与OCR识别文字之空间位置关系引入到跨模态交互过程中，极大地提高了关系学习的准确性，从而提高了答案预测的精度。为了适应不同复杂度的问题，本发明基于模内模间信息融合方法提出了多模态多层次模内模间信息融合方法，能提取不同层次交互的多模态融合特征。基于此方法构造的带文字的图像视觉问答模型主要包括四个部分：1)特征提取：基于Faster R-CNN的图像对象特征提取、基于LSTM网络的问题语义信息提取和基于FastText的OCR文字特征提取。2)信息交互：利用多模态多层次模内模间信息融合方法对三个模态特征执行多级交互得到多个层次的多模态融合特征。3)答案预测：从训练数据集中统计出一个答案候选列表，再从当前图片中识别出OCR文本，一起作为答案空间，然后利用多级信息交互模块得到的融合特征预测答案。

在本发明一些实施例中，如图1所示为本发明一些实施例提供的一种图像文本视觉问答方法流程示意图，该方法可以由图像文本视觉问答模型和/或图像文本视觉问答系统来执行，该系统可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是计算机设备或服务器设备等。在一些实施例中，图像文本视觉问答模型包括多层次模内模间信息融合模型。相应的，如图1-图3所示，该方法包括如下操作：

S110，获取目标图像对象和目标问题对象。

其中，目标图像对象可以是具有视觉特征的图像类型即图像，所谓视觉特征也即可直接从图像中识别到的特征。示例性的，如图2所示，视觉特征例如可以是图像中物体的大小、轮廓以及位置等可以直观获取的特征。目标图像对象一般是具有文本的图像类型，还包括图像文本信息(Text in images)，图像文本信息一般为文字形式。目标问题对象(Question)即目标图像对象配置的问题，一般为文本形式。目标图像对象和目标问题对象可以是用户手动输入，也可以是图像文本视觉问答系统自动获取。以图2为例说明，其中，图像对象为图2中的照片。进一步的，可以对图像对象设置目标问题对象(Question)，目标问题对象具有目标答案(Answer)。如，针对目标问题对象(Question)“what is the numberand letter of the plane？(飞机上的号码和字母是多少？)”的目标答案(Answer)为“N328KF”。当然，一个图像可以设置一个或多个问题，每个问题具有一个目标答案，本公开实施例对此并不进行限制。

S120，对所述目标图像对象进行图像视觉特征提取，获得图像视觉特征。

其中，所述对所述目标图像对象进行图像视觉特征提取，获得图像视觉特征，包括：采用Faster R-CNN对象检测模型提取所述目标图像对象基于区域的视觉特征，并检索边界框获得空间信息。

为了基于目标图像对象中的信息来进行答案推理，多层次模内模间信息融合模型首先使用已有数据集(例如ImageNet数据集和Visual Genome数据集)对Faster R-CNN(Faster Region-based Convolutional Neural Networks)对象检测模型进行预训练，然后利用Faster R-CNN对象检测模型来提取对象级别的图像视觉特征。Faster R-CNN对象检测模型可以提取目标图像对象中的对象特征，本实施例采用Faster R-CNN对象检测模型提取所述目标图像对象基于区域的视觉特征，并检索边界框获得空间信息。

此外，在多层次模内模间信息融合模型的训练阶段，仅对Faster R-CNN的最后一层全连接层fc7的参数进行微调，其他模型参数则保持不变。最终得到对象级别的视觉表征为X^v∈R^N×2048，其中N＝100表示给每个图像选择了置信度前100的对象区域特征。除此之外，多层次模内模间信息融合模型还提取每个对象区域对应的边界框B^v∈R^N×4作为空间信息。图像视觉特征提取过程可以表示为：

(X^v,B^v)＝Faster R-CNN(I), (1)

其中，I表示输入的目标图像对象，B^v _i表示第i个对象区域的空间信息，包含：对象区域在图像中的边界框的左上角和右下角的坐标。

S130，对所述目标图像对象进行图像文本特征提取，获得图像文本特征。

其中，所述对所述目标图像对象进行图像文本特征提取，获得图像文本特征，包括：将图像输入OCR系统，获取具有边界框的OCR标记，通过FastText模型提取FastText向量得到图像文本的表示和位置信息。

为了获得图像中文字的特征信息，多层次模内模间信息融合模型使用一个外部OCR文字识别系统来抠取图像中的文字，最终为每个图像获得L个OCR标记，L值的大小取决于每个图像包含的文字的多少。除此之外，多层次模内模间信息融合模型还收集了每个OCR标记的边界框在图像中的位置坐标。对于第l个标记(其中l∈[1,...,L])，多层次模内模间信息融合模型使用预训练好的FastText模型提取其包含子单词信息的特征，最终得到300维的特征向量X^o _l，得到图像文本的表示和位置信息。目标图像对象上的图像文本特征的提取过程可以表示为：

(token,B^o)＝OCR(I),

X^o＝FastText(token), (2)

其中，X^o∈R^L×300和B^o∈R^L×4分别表示目标图像对象上的图像文本特征以及每个文字的边界框在图像中的坐标位置，token表示OCR标记。

S140，对所述目标问题对象进行问题文本特征提取，获得问题文本特征。

其中，首先采用裁剪或者填充操作将目标问题对象的长度对齐，然后通过Glove词向量将目标问题对象中每一个单词编码转化为一个特征向量序列，然后通过LSTM网络进行序列信息编码，从而获得问题文本特征。

为了有效地获取问题文本特征，多层次模内模间信息融合模型使用了一个单层的LSTM网络来编码问题语句。具体来说，多层次模内模间信息融合模型首先采用裁剪或者填充操作将所有问题的长度对齐到M，然后通过Glove词向量将问题中每一个单词编码成300维的特征向量，如此一来问题就被转化为一个特征向量序列E＝[e₁,...,e_M]，此特征向量序列随后被输送到LSTM网络中进行序列信息编码，从而获得问题文本特征。

LSTM是对RNN的改进，其尝试解决RNN中的梯度消失和梯度爆炸的问题，其使用了门控机制来决定哪些需要保留的历史信息，提高了长期记忆能力。LSTM编码完所有单词之后，使用所有中间输出作为整个句子特征，为了有效地训练LSTM网络，一个残差结构将词向量与句子特征进行了链接。问题文本特征提取过程的公式如下：

hidden_m＝LSTM(E),X^q＝[hidden_m,E], (3)

其中，hidden_m∈R^{(M-300)×1024}表示LSTM网络的输出特征，X^q∈R^M×1024表示问题文本特征。

S150，将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征。

在步骤S120-S140获取了三个模态(Text VQA任务包含三个模态：图像、文本和OCR标记)的特征之后，多层次模内模间信息融合模型使用线性转化层将每个模态不同维度的特征转化到同一特征空间，即将所述图像视觉特征、图像文本特征和所述问题文本特征使用线性转化层转化到同一特征空间，所述线性转化层用于输入不同编码器提取的特征表示，转换成相同的特征维度并输出。具体的，采用如公式(4)所示将每个模态不同维度的特征转化到同一特征空间：

X^v ₀＝FC(X^v,θ_v),

X^q ₀＝FC(X^q,θ_q),

X^o ₀＝FC(X^o,θ_o), (4)

其中，X^v ₀∈R^N×d，X^q ₀∈R^M×d和X^o ₀∈R^L×d是各模态转化之后的维度都为d的特征。X^v、X^q、X^o分别代表提取的图像视觉特征、问题文本特征和图像文本特征，θ_v、θ_q、θ_o是对应的全连接层FC的参数。

S160，对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征。

具体的，将所述同一维度的图像视觉特征、图像文本特征和问题文本特征输入多层模内模间信息融合网络，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征。所述多层模内模间信息融合网络包括跨模态交互模块和模内交互模块，所述跨模态交互模块和模内交互模块组成模内模间信息融合模块；其中，所述跨模态交互模块用于获取不同模态间的相关性；所述模内交互模块用于获取每个模态内实例之间的关系，并为跨模态交互模块提供补充信息。

多层次模内模间信息融合模型使用模内模间信息融合模块充分地建模多模态特征之间的交互融合。模内模间信息融合模块首先将多个模态的特征X^v ₀，X^q ₀和X^o ₀传递到跨模态交互模块中，跨模态交互模块将基于SDA(或SDAG)机制学习三个模态之间的跨模态关系并更新三个模态的特征，使得每个模态的输出特征会包含其他模态的相关信息。

下面具体说明在跨模态交互模块中如何对SDA与SDAG机制进行选择。SDA机制主要用于不需要额外信息指导关系学习的情况。在文本模态与图像模态之间和文本模态与OCR标记模态之间的关系学习中无需使用额外的指导信息，因此跨模态交互模块在它们的跨模态交互中使用SDA机制进行关系学习，而在图像模态与OCR标记模态之间的跨模态交互中则需要它们的空间关系来辅助相关权重的学习，因此使用SDAG机制来学习相关权重。

以问题“What is the letter on the plane’s tail？”为例，图像中的飞机对象与文字对象之间的位置关系对于正确地回答问题至关重要，所以要引入空间信息来微调跨模态相关权重。为此，SDAG机制使用图像中的物体对象的边界框B^v与文字对象的边界框B^o来学习空间关系作为指导信息G。具体的，为了获得丰富的空间位置信息，SDAG机制计算了物体对象边界框B^v与文字对象边界框B^o的中心位置(C^v∈R^N×2和C^o∈R^L×2)和尺寸(即宽S^v∈R^N×2和高S^o∈R^L×2)以及它们之间的交并比(Intersection Over Union，IOU)IOU∈R^N×L，然后SDAG机制将这些空间信息进行拼接，并传递给带有sigmoid激活函数的两层全连接神经网络来学习每个物体对象和OCR标记对像之间的空间相关权重。SDAG机制将空间相关权重矩阵G应用于图像模态和OCR标记的跨模态交互过程中，SDAG机制使用表征语义信息以及空间关系信息来推理相关权重。空间关系信息的引入能够降低图像中距离较远或者不相交的两个对象之间的相关权重，从而学习到更精确的相关权重。

模内模间信息融合模块在得到来自跨模态交互模块的输出之后，利用模内交互模块学习模态内部关系，并使用此关系来更新各个模态的特征。所有模态内部关系的学习是通过SDA机制进行的。类似于跨模态交互模块，模内模间信息融合模块在模内交互模块的输出上加入了带有层正则化的残差结构。

模内模间信息融合模块是由跨模态交互模块和模内交互模块串联组成，可以执行多模态数据之间的跨模态和模态内部交互。为了完成更加复杂的交互(例如传递关系X^v→X^q→X^o)，在本发明一些实施例中，多层模内模间信息融合模块以一个模内模间信息融合模块为单元，进行了多个单元的堆叠，来获取高级别的语义关系信息。在执行了T次模内模间信息融合之后，多层模内模间信息融合模块会输出编码了跨模态和模态内部关系的图像视觉特征、问题文本特征和图像文本特征，即X^v _T∈R^N×d、X^q _T∈R^M×d和X^o _T∈R^L×d。

在一些实施例中，具体的，跨模态交互模块用于捕捉模式间的相关性，利用SDA或SDAG捕获其他模式与该模式有关的信息，将此信息传递以更新该模式，以完成该模式的跨模态交互。没有指导信息时，跨模态交互采用SDA建模，将来自其他模式的信息流与原始特征连接，利用完全连接层将连接特征转换为该模式的输出特征。其中，SDA机制使用三组矩阵作为输入，假设分别为查询矩阵q、键矩阵k和值矩阵v，其中q来自于模态一，k和v来自于同一个模态二。SDA机制使用查询矩阵和键矩阵之间的矩阵积qk^T来获得两个模态之间的相关分布矩阵，然后根据相关分布对值矩阵进行加权求和得到从模态二到模态一的相关信息流IF_1←2。SDA方式如公式(5)所示

其中，

和

分别包含n_q，n_k和n_v个特征向量，每个特征向量的维度为d，

是相关权重矩阵。内积的结果与向量维度成正比，在求相关权重矩阵M时会将内积除以维度d的平方根来规范化权重值。非线性函数softmax被作用到相关权重矩阵M的每一行，使相关权重值在0到1之间，并且每一行的权重和为1。

本实施例的SDA机制能进行多模态数据的关系建模，它通过语义特征来学习相关权重矩阵M。由于语义特征包含的信息比较片面(如图像视觉特征仅包含视觉对象的外貌信息)，学习到的相关权重可能不够精确。以图2中的样本为例，如果问题是“飞机机翼上的文字是什么？”，则仅通过飞机的外表信息以及OCR标记的文字语义信息很难准确学习到机翼上的OCR标记与飞机的相关权重更大，而这个相关权重很大程度由飞机和OCR标记的空间位置关系决定。

在本发明一些实施例中，引入空间关系来帮助相关权重学习，即SDAG机制也就是改进版SDA机制的结构。SDAG机制在计算相关权重时，加入外部的指导信息来辅助关系学习。外部指导信息可以是空间位置关系信息，也可以是其他形式的信息。在有相关信息时，使用SDAG建模，利用空间指导信息校准并学习区域位置和OCR标记的相关权重，以获得输出特征。其中SDAG方式如公式(6)所示

其中，⊙是逐元素乘法，矩阵G是外部引导信息，可以是空间关系矩阵或其他信号，可以通过神经网络模块学习或人工手动设置。

跨模态交互模块(Cross-Modal Interaction，CMI)整体如公式(7)所示

其中

是原始的X信息和其他模态与其相关的信息，

各模态转化之后的维度都为d的特征。

本发明一些实施例的跨模态交互模块可以将来自其他模态的信息流与原始特征连接，利用全连接层将连接特征转换为输出特征，该输出特征包含来自其他特征的关键信息，这种互动过程很容易扩展到具有更多模态的情况。

在其中一个实施例中，跨模态交互模块计算了物体对象边界框与文字对象边界框的中心位置和尺寸以及它们之间的交并比，从而获得更丰富的空间信息，并将指导信息矩阵应用于视觉区域和OCR标记特征之间的交互，以学习每个物体对象和OCR标记对像之间的空间相关权重。

在一些实施例中，模内交互模块用于揭示每个模态内实例之间的关系，并为跨模态交互提供补充和重要的信息，将每个特征转换为询问、键和值特征，将特征输入不同的SDA或SDAG中，添加每种模式的原始特征和信息流，并通过线性层传递以获得输出特征。本实施例的模内交互模块使用残差连接，将信息流纳入原始特征，添加原始特征和信息流，通过线性层传递以获得更新特征，这一过程也可以被轻松拓展到更多的模式。

采用本发明实施例的跨模态交互模块可以学习跨模态关系，并将所有其他模态的相关信息传输到一个模态。例如，对于图像模态，图2中的飞机区域可以利用跨模态交互模块来关注“Question”(目标问题对象)中的“plane”(飞机)一词以及“Text in images”(OCR标记)中的“SpaceShipOne”和“N328KF”。

模内交互模块(Intra-Modal Interaction，IMI)模拟模态内关系(例如，区域到区域、单词到单词)。例如,图2中“Question”(目标问题对象)中的“number”(数字)和“letter”(字母)是理解问题语义的关键，应该建模。每个模态内的模态内关系是对跨模态关系的补充。

本发明的一些实施例中，通过标度的点积注意模型对多种模式之间的模式内和模式间交互进行建模。将跨模态和模态内交互模块结合起来，形成一个模块即模内模间信息融合模块，该模内模间信息融合模块可以模拟多种模态(三种及以上)之间的完整交互。本发明基于所设计的模内模间信息融合模块，提出了一种文本VQA的多级完全交互方法。模内模间信息融合模块学习图像区域、问题词和OCR标记之间的潜在关系。通过堆叠多层模内模间信息融合模块，以多层方式对它们的关系进行编码。这样，可以更全面地考虑不同层次的关系。

本发明实施例提出的多模态多层次相关信息流融合方法，深入挖掘多模态数据中单个模态内部以及多个模态间的内在关联，提取高级多模态语义关联信息，克服语义鸿沟的不利影响。此方法利用模内模间相关信息流提取方法获取多模态数据中多个模态之间和单个模态内部的关联关系，根据关联关系进行特征融合。然后，多模态多层次相关信息流融合方法进行多层次模内模间相关信息流融合，以多层递进的方式不断深入的捕捉多模态数据之间的复杂关联关系，提取高级别的语义信息。在TextVQA(文本视觉问答)数据集上的大量的对比和消融实验结果表明，基于多模态多层次相关信息流融合方法的视觉问答模型相对于当前最好模型预测精度提升了5.42％。

S170，将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块，获得目标答案。

一般情况下，TextVQA任务中的问题都与图像中的文字相关，因此OCR标记中应该包含问题对应的答案。然而，由于OCR文字识别系统检测错误或漏检或者问题标注人员给出了与图像中文字无关问题等问题，导致有些问题的答案无法从OCR标记中找出。为了解决这个问题，答案生成模块使用一个从训练数据集中统计出来的答案列表以及当前图片(即目标图像对象)中识别出来的OCR标记一起作为答案空间。因此问题(即目标问题对象)的答案即可以来自于答案列表，也可以来自于当前图片中识别出来的文字。答案生成模块中的答案列表长度为a。首先，为了推理出正确的答案，答案生成模块保留图像文本特征X^o _T∈R^L×d的行向量与L个OCR标记之间的对应关系，通过一个多层感知机网络将第i个OCR标记特征X^o _T,i∈R^d(其中i∈[1,...,L])转化为第i个OCR标记是答案的预测分数

然后，答案生成模块通过均值池化操作聚合了图像视觉特征和问题文本特征，并通过逐元素相乘方法融合图像视觉特征和问题文本特征得到多模态融合特征；随后，答案生成模块将融合特征送入一个多层感知机网络，得到对答案列表中每个答案的预测分数y^voca。答案生成模块最终选择

和y^voca中最大预测分数对应的答案作为问题的预测答案。

多层模内模间信息融合模块中T层堆叠的模内模间信息融合模块对多模态数据执行了T次模内模间信息融合，逐渐地向各个模态的特征中增加相关信息。不同复杂度的答案需要的交互次数应该是不同的。为了有效地利用多层交互特征，本发明一些实施例中，采用多层特征联合预测(Multi-level Feature Joint Prediction，MFJP)方法使用答案生成模块对每层模内模间信息融合模块的输出结果生成一个答案预测分数。第t个答案预测分数表示为

多层特征联合预测方法计算出这些分数的平均值y^f，最后取y^f中分数最高项对应的候选答案作为最终答案即目标答案。多层特征联合预测方法考虑了不同抽象级别的特征对答案的贡献。

如图4所示，为本发明的多层特征联合预测方法预测答案的流程示意图，包括以下步骤：

(1)第i个OCR标记特征

疫一个分类器转换为关于第i个OCR标记的预测分数

(2)通过均值池化操作融合图像视觉特征

和问题文本特征

通过逐元素相乘方法整合以上两个特征，获得融合特征；

(3)将融合特征通过多层感知机网络，生成预测分数y^voca；

(4)选择

和y^voca中分数最高的作为预测答案的分数

(5)取各分数

的平均值y^f，最高得分y^final所对应的候选答案作为目标答案。

在本发明实施例中，对于答案预测，利用每个层的输出特征，而不是仅利用最后一个层来生成多个候选答案分数。最后，取这些分数的平均值来生成最终答案。使用多层体系结构的预测可以利用多层关系，而不仅仅是最高级别层的关系。

本发明另一实施例还提供一种评估模型，选取了最新的图像文本视觉问答数据集。

该数据集有28408幅图像，其中包含来自Open Images数据集的文本。数据集的每张图像包含1-2个问题，需要阅读图像中的文本来为每个图像做出回答，总共包含45336个问题。然后该数据集对每个问题收集了10个由人工提出的答案，模型的得分通过这10个答案进行投票统计。

数据集被分成了训练数据集、验证数据集和测试数据集三个部分。训练数据集包含34602个问题，验证数据集包含5000个问题，测试数据集包含5734个问题。由于测试数据集的人工标签没有公开发布出来，因此需要将对测试数据集的预测结果提交到远程评价服务器上才能得到测试分数。

实验装置设置如下：问题中视觉特征和词特征的维度分别为2048和1024。采用N＝100个来自Faster R-CNN的对象区域。通过截断或加尾将问题长度固定到M＝14。OCR标记被编码为维度300的FastText特征。通过丢弃多余的标记或增加零向量，使用固定L＝50的OCR标记。训练数据集中出现8次以上的答案被保留为答案词汇，产生a＝843个候选答案。其中隐藏特征维度设置为d＝512。所有全连接层使用相同的0.25的dropout率。使用Adamax优化器训练所有的模型，batch的大小为64，梯度裁剪为0.25，学习率设置为1.5-3，使用PyTorch实现。所有消融研究都是在验证数据集上进行的，训练数据集、验证数据集被组合在测试数据集上进行测试，没有任何额外的数据集。

将本发明与最先进的两个基线模型(LoRRA的变体)进行比较，结果表明本发明明显优于其它两个模型，具体来说，在验证数据集和测试数据集上的性能分别优于基线6.58和5.42个百分点。

图5是本发明实施例提供的一种图像文本视觉问答系统的结构图，本实施例可适用于利用视觉问答模型处理包括图像文本类型的视觉问答任务的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是计算机设备或服务器设备等。

一种图像文本视觉问答系统1000，其特征在于，包括：

人机交互模块100，用于获取目标图像对象和目标问题对象，并显示目标答案；

特征提取模块200，用于

模内模间信息融合模块300，用于将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征；并对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；

答案生成模块400，用于获得目标答案。

本实施例中的图像文本视觉问答系统可执行本发明任意实施例所提供的图像文本视觉问答方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本公开任意实施例提供的图像文本视觉问答方法。

在本发明一个实施例中，还提供了一种电子设备和一种存储介质。

本发明一些实施例提供的存储介质，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行如上任一实施例所述的图像文本视觉问答方法。

本发明一些实施例还提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一实施例所述的图像文本视觉问答方法。

图6示出了可以用来实施本发明的实施例的电子设备600的结构框图。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本发明所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本发明中描述的和/或者要求的本公开的实现。

电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如图像文本视觉问答方法。例如，在一些实施例中，图像文本视觉问答方法可被实现为计算机软件程序，其被有形地包含于机器可读存储介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上述的图像文本视觉问答方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像文本视觉问答方法。

本发明中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。存储介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施上述的图像文本视觉问答系统和图像文本视觉问答方法，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的图像文本视觉问答系统和图像文本视觉问答方法实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器还可以分布式系统的服务器，或者是结合了区块链的服务器。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像文本视觉问答方法，其特征在于，所述方法包括：

获取目标图像对象和目标问题对象；

2.根据权利要求1所述的图像文本视觉问答方法，其特征在于，所述对所述目标图像对象进行图像视觉特征提取，获得图像视觉特征，包括：采用Faster R-CNN对象检测模型提取所述目标图像对象基于区域的视觉特征，并检索边界框获得空间信息。

3.根据权利要求1所述的图像文本视觉问答方法，其特征在于，所述对所述目标图像对象进行图像文本特征提取，获得图像文本特征，包括：将图像输入OCR系统，获取具有边界框的OCR标记，提取FastText向量得到图像文本的表示和位置信息。

4.根据权利要求1所述的图像文本视觉问答方法，其特征在于，所述对所述目标问题对象进行问题文本特征提取，获得问题文本特征，包括：采用裁剪或者填充操作将目标问题对象的长度对齐，然后通过Glove词向量将目标问题对象中每一个单词编码转化为一个特征向量序列，然后通过LSTM网络进行序列信息编码，从而获得问题文本特征。

5.根据权利要求1所述的图像文本视觉问答方法，其特征在于，所述将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征，包括：将所述图像视觉特征、图像文本特征和所述问题文本特征使用线性转化层转化到同一特征空间，所述线性转化层用于输入不同编码器提取的特征表示，转换成相同的特征维度并输出。

6.根据权利要求1所述的图像文本视觉问答方法，其特征在于，所述对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征，包括：将所述同一维度的图像视觉特征、图像文本特征和问题文本特征输入多层模内模间信息融合网络，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；所述多层模内模间信息融合网络包括跨模态交互模块和模内交互模块，所述跨模态交互模块和模内交互模块组成模内模间信息融合模块；其中，所述跨模态交互模块用于获取不同模态间的相关性；所述模内交互模块用于获取每个模态内实例之间的关系，并为跨模态交互模块提供补充信息。

7.根据权利要求6所述的图像文本视觉问答方法，其特征在于，所述将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块，获得目标答案，包括：

8.一种图像文本视觉问答系统，其特征在于，包括：

交互模块，用于获取目标图像对象和目标问题对象，并显示目标答案；

特征提取模块，用于

模内模间信息融合模块，用于将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间，得到同一维度的图像视觉特征、图像文本特征和问题文本特征；并对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合，得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征；

答案生成模块，用于获得目标答案。

9.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-7中任一项所述的图像文本视觉问答方法。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的图像文本视觉问答方法。