CN113780486A

CN113780486A - 一种视觉问答的方法、装置及介质

Info

Publication number: CN113780486A
Application number: CN202111344175.0A
Authority: CN
Inventors: 王润民; 徐尉翔; 朱桂林; 刘莹莹; 刘明昊; 朱祯琳; 朱姿諭; 丁亚军; 戴颖龙; 代建华
Original assignee: Hunan Normal University
Current assignee: Dragon Totem Technology Hefei Co ltd; Hefei Minglong Electronic Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2021-12-10
Anticipated expiration: 2041-11-15
Also published as: CN113780486B

Abstract

本发明公开了一种视觉问答方法、装置及介质，应用于深度学习领域，获取目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征，进而将文字特征和图像特征输入至Transformer的模型得到融合特征，最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型，加快提取速度，节省计算成本，减少运算参数量，将文字特征和图像特征进行聚合，使来自图像特征与文本特征的信息达到更好的交互，提高特征表征能力，提升特征提取运行速率，提高视觉问答的答案准确率。

Description

一种视觉问答的方法、装置及介质

技术领域

本发明涉及深度学习领域，特别是涉及一种视觉问答的方法、装置及介质。

背景技术

随着人工智能的快速发展，通常情况下赋予机器学习输出人们想要的结果。然而在深度学习领域中的单模态方法的计算机视觉（Computer Vision，CV）和自然语言处理（Natural language processing，NLP）进入瓶颈状态，多模态深度学习逐渐成为研究热点，以CV和NLP结合的视觉问答（Visual Question Answering，VQA）为主，其VQA是一张图片和有关图片的自然语言问题作为输入，赋予机器理解和融合图像，语言模态所包含的信息将其输出答案。

现有的VQA模型其特征提取方面包括三个模块，文字特征提取、图像特征提取和特征融合模块，对于文字特征提取模块，常用的有循环神经网络（Recurrent NeuralNetwork，RNN）、长短期记忆网络（Long Short Term Memory networks，LSTM）、门控循环单元（Gated Recurrent Unit，GRU）等，对于图像特征提取模块常用的有卷积神经网络（Convolutional Neural Networks，CNN）、多层感知器（Multi-layer Perceptron，MLP）等，不同特征提取器的提取特征准确率也不同，有高有低，进行特征融合时来自图像特征和文字特征的信息没有达到更好的交互，极大降低了特征表征能力和特征提取运行速率，并导致了视觉问答的结果准确率降低。

因此，如何提高特征表征能力是本领域技术人员亟需要解决的。

发明内容

本发明的目的是提供一种视觉问答的方法、装置及介质。提高特征表征能力，提升特征提取运行速率，提高视觉问答的答案准确率。

为解决上述技术问题，本发明提供一种视觉问答方法，该方法包括：

获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；

将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征；

将文字特征和图像特征拼接并输入至Transformer的模型得到融合特征；

将融合特征输入至分类器得到视觉问答任务的答案。

优选地，将文字数据输入至基于Transformer的模型中以提取文字数据的文字特征，包括：

将文字数据输入至BERT模型中以提取文字数据的文字特征，其中BERT模型基于Transformer的模型得到。

优选地，将图像数据输入至基于Transformer的模型中以提取图像数据的图像特征，包括：

将图像数据输入至ViT模型中以提取图像数据的图像特征，其中ViT模型基于Transformer的模型得到。

优选地，在将目标文字与目标图像分别转换为文字数据和图像数据之后，在将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征之前，还包括：

将文字数据和图像数据前分别加入CLS Token标志，以便于聚合文字数据和图像数据并进行下游任务的预测。

优选地，在将文字特征和图像特征拼接之后，在输入至Transformer的模型得到融合特征之前，还包括：

为文字特征和图像特征提供位置嵌入，以便于识别文字特征和图像特征拼接后的顺序关系。

为文字特征和图像特征提供模态嵌入，以便于区分特征来自文字特征还是图像特征。

优选地，将融合特征输入至分类器得到视觉问答任务的答案，包括：

将融合特征输入至基于Sigmoid算法的分类器得到视觉问答任务的答案。

为解决上述技术问题，本发明提供一种视觉问答装置，包括：

获取模块，用于获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；

提取模块，用于将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征；

融合模块，用于将文字特征和图像特征拼接并输入至Transformer的模型得到融合特征；

分类模块，用于将融合特征输入至分类器得到视觉问答任务的答案。

为解决上述技术问题，本发明还提供一种视觉问答装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述视觉问答方法的步骤。

为解决上述技术问题，本发明还一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述视觉问答方法的步骤。

本发明提供的一种视觉问答方法，该方法包括：获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征，进而将文字特征和图像特征输入至Transformer的模型得到融合特征，最后将融合特征输入至分类器得到视觉问答任务的答案。通常情况下提取文字特征和图像特征采用不同的特征提取器，提取的时间有长有短，提取特征准确率有高有低，该方法特征提取方面完全采用Transformer模型，加快提取速度，节省计算成本，减少运算的参数量，将文字特征和图像特征进行聚合，使来自图像特征与文本特征的信息达到更好的交互，提高特征表征能力，提升特征提取运行速率，提高视觉问答的答案准确率。

另外，本发明还提供了一种视觉问答装置及计算机可读存储介质，具有如上述视觉问答方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视觉问答方法的流程图；

图2为本发明实施例提供的一种视觉问答装置的结构图；

图3为本发明实施例提供的另一种视觉问答装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种视觉问答的方法、装置及介质。提升特征提取运行速率，提高视觉问答的答案准确率。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

需要说明的是，以CV和NLP结合的VQA是一张图片和有关图片的自然语言问题作为输入，赋予机器理解和融合图像，语言模态所包含的信息将其输出答案。其应用范围广泛，在医疗诊断、自动驾驶、人机交互等领域均有应用，可以赋予机器理解和融合图像、语言模态所包含信息的能力，具有较大的商业价值与应用前景。基于深度学习领域，对计算机设备的配置显卡和内存要求也会相应提高，能够实现海量数据的预处理以及数据标注，大规模的训练，还有对图像的高分辨率以及帧数稳定都具有较好的效果。本发明中提到的计算机设备可以为高性能的笔记本电脑或者台式电脑，在此不做具体限定。

图1为本发明实施例提供的一种视觉问答方法的流程图，如图1所示，该方法包括：

S11：获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据。

可以理解的是，目标文字包括目标问题与答案，其目标文字的内容与目标图像的内容具有一定的关联性，目标文字的格式可以是文字格式，也可以是音频格式，其目标文字的问题可以是英文、中文或者其他语言，也可以是字母、数字以及文字组合形成的有关目标图像信息的内容，其答案和问题的语言、组合形式在本发明中不做限制。

目标图像是与目标文字有相关联的图像，具有一定特征信息，其图像格式可以为jpg或者png等格式，本发明不做限制。对于目标图像所占内存大小、图像灰度值以及图像分辨率不做具体要求，通常情况下图像分辨率可设置为224*224，也可以为384*384等，可根据实际视觉问答任务进行限定。

对于获取视觉问答任务对应的目标文字，可以通过输入问题与答案的形式，也可以通过语音信息进行输入，并将语音信息通过计算机设备的语音处理模块转化为数据的形式进行后续的提取相关特征。对于获取视觉问答任务对应的目标图像，可以通过扫描、摄像或者软件捕捉等方式进行获取，本发明不做具体的要求。对于获取后的目标文字和目标图像的存储针对视觉问答任务可以建立存放目标文字和目标图像的相关数据库。

另外，获取后的目标文字和目标图像对于计算机设备来说并不认识，为此，需要转换为计算机设备理解的语言，分别转换为文字数据和图像数据。进而需要对目标文字转换后的文字数据进行预处理，首先建立一个字典，字典中包含数据集中所有出现过的文字以及加在文字前的CLS Token标志并对所有文字从0开始编号，通过字典将文字的字符串数据映射为一串数字数据，进而转换为计算机设备可处理的文字数据，由于整个数据集较大，不能一次性载入全部的文字数据进行训练，计算机设备可能会无法支撑，需要对大的数据集分割进行分批处理，故在训练模型时将多个文字数据打包为批处理（Batch）。需要说明的是，Batch中每条数据的长度都相同，为此，基于运行速度和兼顾每条数据的长度，会设置一个最大长度，超过该长度的数据部分则删除，小于该长度的数据将进行补0到最大长度，完成文字数据的预处理过程。

对于图像数据也需要进行预处理操作，将所有图像数据需要缩放至统一的大小方便图像数据打包为Batch，根据本发明提供的后续特征提取时基于转换器（Transformer）模型，由于Transformer模型只能处理序列信息的二维数据，而图像数据为三维数据，则需要对图像数据进行降维操作。例如，图像数据为三维数据H*W*C的图像，其中H为图像的高，W为图像的宽，C为图像的通道数，需要处理为N*（P*P）*C的图像，其中N为序列的长度，即分割的Batch个数，P*P为切割后的图像块的长*宽，C为图像的通道数，进而二维数据为图像数据的N*P²C。对于处理后的二维数据的图像数据也加入CLS Token标志，完成图像数据的预处理过程。

需要说明的是，对于文字数据和图像数据的预处理过程，对于数据集中的数据，提前设定问题与图像数据的有关答案，其每个答案设定阈值，例如：针对一个问题（Is thewoman eating pasta

）10个人回答，其中8个人回答为NO，2个人回答YES，对10个人的回答进行打分，出现同样的答案次数为1次打分0.3，出现2次同样的答案打分为0.6，出现3次同样的答案打分为0.9，超过3次打分为1。对于数据的标记和数据的扩充不做具体限定，可以根据实际情况进行设置预处理。

S12：将文字数据和图像数据前分别加入CLS Token标志，以便于聚合文字数据和图像数据并进行下游任务的预测。

可以理解的是，BERT模型输入的目标文字，其格式为[CLS]+文本数据，其中[CLS]为分类Token，输入序列的第一个Token起分类作用，本发明中的CLS Token标志即是分类Token。对于目标图像来说，在上述实施例中已详细说明，在此不再赘述。

例如，文本数据的长度为M，图像数据的长度N，则加入CLS Token标志后文本数据和图像数据的长度则变为M+1和N+1，将加入了CLS Token标志的文本数据与图像数据分别进行特征提取，得到了M+1长度的文本特征和N+1的图像特征。将文字数据和图像数据前分别加入CLS Token标志，目的是使用CLS Token标志聚合文字数据和图像数据中所包含的信息，并利用CLS Token标志进行下游任务的预测。

将文字特征和图像特征基于Transformer模型进行特征融合，在此，将CLS Token标志分别相加得到融合特征，也就是提取出文本特征与图像特征中的CLS Token标志进行相加。通常情况下，对于特征融合过程中只是对文本特征进行提取，本发明加入了图像特征，进而需要聚合各自特征中的信息相加预测。

S13：将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征。

对文字数据和图像数据进行预处理后，分别输入至基于Transformer的模型中并对其提取文字特征和图像特征。

可以理解的是，Transformer模型能够实现端对端的训练，即输入端到输出端只用一个步骤，和其他端对端模型一样，Transformer模型的编码器（encoder）主要包含多头注意力（Multi-Head Attention）、前馈（Feed forward）和归一化层（Layer norm）三个子模块，其中，注意力（Attention）机制可以计算一句话中的每个词对于该句话中所有词的相互关系，词与词之间的相互关系在一定程度上反应了不同词之间的关联性以及重要程度，并利用相互关系调整每个词的重要性得到新的表达。Attention层可以捕捉到输入文字数据或者图像数据的联系，进而并行计算操作，直接对数据的序列信息进行两两比较，而RNN则需要一步步递推捕捉，无法充分利用图像处理器（Graphics Processing Unit，GPU）的并行化能力，增加了训练时间。CNN则关注于二维局部数据之间的关联性，随着层的加深，感知域更广，计算量也随之扩大。

另外，Transformer模型中对每个子模块之间都应用残差连接，用于解决多层网络训练的问题，防止模型在数据训练堆叠的过程中出现梯度消失的现象，减小误差。Layernorm层加快收敛，对特征做标准化处理。需要说明的是，Transformer模型并没有捕捉顺序序列的能力，无论目标文字如何打乱，都会得到类似的结果，因此，则需要在该模型中加入位置嵌入（Positional Encoding），进而根据相对的位置信息得到文字的顺序关系。

对于文字特征的提取，基于Transformer模型的模型进行提取，同理，对于图像特征的提取也基于Transformer模型，需要说明的是，两个特征提取分别进行，基于Transformer模型的特征提取方法不同。

S14：将文字特征和图像特征拼接并输入至Transformer的模型得到融合特征。

提取完文字特征和图像特征之后，在对文字特征和图像特征输入至Transformer的模型得到融合特征之前，需要将得到的文字特征和图像特征进行拼接，例如，文本特征的长度为20，图像特征的长度为197，则拼接后的文字特征和图像特征长度为217（20与197的总和）。进而将拼接后的两种特征进行融合，基于Transformer模型进行融合提取得到融合特征。VQA是一个涉及文字和图像两个模态的任务，为了处理、理解来自不同模态的信息，通过综合两者的信息才能进行下一步的判断，因此需要通过特征融合，综合分析文字特征和图像特征作出判断。

本发明提到的Transformer模型对于特征融合过程中包含同样的三个子模块，对于注意力机制能够提取表征能力较强和产生更具解释性的特征，各个注意头（attentionhead）将会学习到不同的特征表征，之后将多个注意头的表征结合起来，进而进行文字特征和图像特征的交互，最后将文字特征中的CLS Token标志与图像特征中的CLS Token标志相加得到融合特征。

S15：将融合特征输入至分类器得到视觉问答任务的答案。

将提取后的融合特征输入至分类器中进行分类，在视觉问答任务中，对于同一个问题及对应的图像，可能包含多种答案，因此涉及到多分类的应用，在选择分类器时需要考虑是否能进行多分类训练，通过分类器得到答案池中每个答案的概率分布，本发明最后只取概率最高者作为视觉问答任务的答案。

可以理解的是，在建立的字典中找到所有有关问题的答案，并放入一个答案池中，设定一个阈值，对答案池中的答案进行清洗，根据答案池中答案出现的次数超过阈值则放入一个全新的答案池，其全新的答案池中存有有关融合特征的答案。

需要说明的是，分类器的作用是利用给定的类别已知的训练数据学习分类规则，对未知数据进行分类或预测。对于分类器选用何种模型不做具体限定，只要能够将提取的融合特征输入至分类器后得到准确的答案即可。

本发明提供的一种视觉问答方法，该方法包括：获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征，进而将文字特征和图像特征输入至Transformer的模型得到融合特征，最后将融合特征输入至分类器得到视觉问答任务的答案。通常情况下提取文字特征和图像特征采用不同的特征提取器，提取的时间有长有短，提取特征准确率有高有低，该方法特征提取方面完全采用Transformer模型，加快提取速度，节省计算成本，减少运算参数量，将文字特征和图像特征进行聚合，使来自图像特征与文本特征的信息达到更好的交互，提高特征表征能力，提升特征提取运行速率，提高视觉问答的答案准确率。

基于上述提到的将文字数据输入至基于Transformer的模型中以提取文字数据的文字特征，具体包括：

将文字数据输入至基于转换器的双向编码器表示（Bidirectional EncoderRepresentations from Transformers，BERT）模型中以提取文字数据的文字特征，其中BERT模型基于Transformer的模型得到。

可以理解的是，BERT模型通过设计下一句预言（Next sentence predict）和掩码语言模型（Masked Language Model，Masked LM）两个任务对BERT模型进行预训练，Nextsentence predict从句子的角度考虑问题，预训练一个二值化预测任务，该任务可以从数据集中轻松生成，例如，选择句子A和B训练，A的下一句的50%可能是B，另外50%可能随机来自于数据集。Masked LM随机屏蔽掉部分CLS Token，然后再去预测被屏蔽的CLS Token。通过BERT模型进行对文字数据的提取，具有提取特征速度快，表征特征能力强的特点。

需要说明的是，对于文字特征基于Transformer的模型除了BERT模型，还可以是空间正规化（Spatial regularization，SRN）模型等，在本发明中采用BERT模型提取文字特征仅是一种优选地实施例。

本发明提供的将文字数据输入至BERT模型中以提取文字数据的文字特征，相对于其他文字提取模型，具有提取特征快，表征能力强，文字特征提取准确。

在上述实施例的基础上，将图像数据输入至基于Transformer的模型中以提取图像数据的图像特征，具体包括：

将图像数据输入至视觉转换器（Vision Transformer，ViT）模型中以提取图像数据的图像特征，其中ViT模型基于Transformer的模型得到。

可以理解的是，ViT模型包括图像分块处理（make patches）、图像块嵌入（patchembedding）与位置编码3个主要部分，其图像分块处理和上述实施例中提到的图像数据预处理过程相同，在此不再赘述。

图像块嵌入是将高维向量转化为低维向量的方式，例如，图像分为9个块处理（Patch），即N=9，一个输入的图像就会被均分为9个分块图像，输入至Transformer模型中就有9个向量，具体针对哪个向量做分类预测，为了公平合理，人为添加一个向量，也就是可学习的CLS Token标志，与9个向量一起输入至Transformer模型，最后取第一个向量作为提取特征，CLS Token标志可以理解为融合了其他9个向量的信息。

为了保持输入图像块之间的空间位置信息，需要对图像块嵌入中添加位置编码向量，进而完成对图像数据的图像特征提取。

需要说明的是，对于图像特征基于Transformer的模型除了ViT模型，还可以是金字塔视觉转换器（Pyramid Vision Transformer，PVT）模型等，在本发明中采用ViT模型提取图像特征仅是一种优选地实施例。

本发明提供的将图像数据输入至BERT模型中以提取图像数据的图像特征，相对于其他图像提取模型，参数量较少，节省计算成本，具有提取特征快，表征能力强，提高图像特征提取效率。

在上述实施例的基础上，在提取完文字特征和图像特征之后，在将文字特征和图像特征拼接之后，在输入至Transformer的模型得到融合特征之前，还包括：

对文字特征和图像特征进行拼接后，将两个二维矩阵拼接为一个二维矩阵，为文字特征和图像特征提供位置嵌入，由于Transformer模型没有循环神经网络的迭代操作，所以需要提供每个字和每个分块图像的位置信息输入至Transformer模型，每一个位置对应一个向量，便于识别文字特征和图像特征的顺序关系。结合上述实施例提到的图像预处理的例子，图像进行Patch后得到的9个分块图像，按照之前的图像顺序为1-9排列，打破了原有图像特征的空间特性，因此补足空间特性需要加入位置嵌入以识别图像特征的顺序关系。

本发明提供的为文字特征和图像特征提供位置嵌入。便于进行特征融合时识别文字特征和图像特征拼接后的顺序关系，提高特征融合的特征表征能力。

在上述实施例的基础上，在将文字特征和图像特征拼接之后，在输入至Transformer的模型得到融合特征之前，还包括：

对于何时提供模态嵌入，对文字特征和图像特征进行拼接后，在对文字特征和图像特征输入至Transformer的模型得到融合特征之前，为文字特征和图像特征提供模态嵌入，对于已经得到的文字特征和图像特征进行特征融合之前，需要让计算机设备能够区分特征来自文字特征还是图像特征。

在融合特征时基于Transformer模型进行，其输入为文本特征和图像特征，对于VQA的关键就是将两种特征进行高层次相关性表示，通过Transformer模型的自注意力（self-attention）机制自动聚合两种特征的有用信息，进行权重求和进行特征融合，在此加入模态嵌入，为后续的特征融合区分特征来自何种特征，进而通过顺序或者并行计算得到融合特征。

本发明提供的为文字特征和图像特征提供模态嵌入，便于区分特征来自文字特征还是图像特征，提高特征融合的特征表征能力。

在上述实施例的基础上，将文字特征和图像特征基于Transformer模型得到融合特征后，并将融合特征输入至分类器得到视觉问答任务的答案，包括：

将融合特征输入至基于S型函数（Sigmoid）算法的分类器得到视觉问答任务的答案。

可以理解的是，提取完特征之后将特征输入至分类器得到分类结果，基于Sigmoid算法的分类器得到视觉问答任务的答案。本发明中的Sigmoid算法作为最后的激活层，将每一个分类头映射为[0，1]的范围，本发明涉及多标签分类，一个样本的标签不局限于一个类别，可以具有多个类别，不同类之间有一定的关联性。例如，一件衣服，其具有的特征类别有长袖、蕾丝等属性，其两个属性的标签并不互斥，而是有关联性。

Sigmoid算法分别判断设置的标签是否属于某个类别进行假设，最后将每个融合特征经过Sigmoid算法的损失函数得到的数字都变成[0，1]之间的概率值，结合上述提到的例子，针对一个问题（Is the woman eating pasta

）10个人回答，其中8个人回答为NO，2个人回答YES，对10个人的回答进行打分，出现同样的答案次数为1次打分0.3，出现2次同样的答案打分为0.6，出现3次同样的答案打分为0.9，超过3次打分为1。因此，针对NO答案出现8次，其对应的位置为1，YES答案出现2次则对应的位置为0.6，则最后的答案为NO，其中NO和YES是设置的两个标签。

对于分类器也可以采用其他算法，可以为归一化指数函数（Softmax）算法，或者支持向量机（Support Vector Machine，SVM）算法，对于Softmax算法可以应用于多类分类，是一种概率分布，取概率值最大的作为最终的答案。一个样本只能属于一个类别，不同类之间互斥，其中所有类别之和为1，如果一个类别高，则另一个类别的概率下降。因此，本实施例基于Sigmoid算法的分类器进行分类得到视觉问答任务的答案。

本发明中提供的将融合特征输入至基于Sigmoid算法的分类器得到视觉问答任务的答案。VQA提取的融合特征通过分类器的Sigmoid算法得到较好效果的展现，提高特征表征能力，进而提高分类结果的准确率。

上述详细描述了视觉问答方法对应的各个实施例，在此基础上，本发明还公开与上述方法对应的视觉问答装置，图2为本发明实施例提供的一种视觉问答装置的结构图。如图2所示，视觉问答装置包括：

获取模块11，用于获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；

提取模块12，用于将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征；

融合模块13，用于将文字特征和图像特征拼接并输入至Transformer的模型得到融合特征；

分类模块14，用于将融合特征输入至分类器得到视觉问答任务的答案。

由于装置部分的实施例与上述的实施例相互对应，因此装置部分的实施例请参照上述装置部分的实施例描述，在此不再赘述。

本发明提供的一种视觉问答装置，该装置包括：获取视觉问答任务对应的目标文字和目标图像，并将目标文字与目标图像分别转换为文字数据和图像数据；将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征，进而将文字特征和图像特征输入至Transformer的模型得到融合特征，最后将融合特征输入至分类器得到视觉问答任务的答案。通常情况下提取文字特征和图像特征采用不同的特征提取器，提取的时间有长有短，提取特征准确率有高有低，该装置特征提取方面完全采用Transformer模型，加快提取速度，节省计算成本，减少运算参数量，将文字特征和图像特征进行聚合，使来自图像特征与文本特征的信息达到更好的交互，提高特征表征能力，提升特征提取运行速率，提高视觉问答的答案准确率。

请参照图3为本发明实施例提供的另一种视觉问答装置的结构图，如图3所示，该装置包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现视觉问答方法的步骤。

本实施例提供的视觉问答装置可以包括但不限于笔记本电脑或者台式电脑等。

其中，处理器22可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器22可以采用数字信号处理 (Digital Signal Processing，DSP)、现场可编程门阵列 (Field－Programmable Gate Array，FPGA)、可编程逻辑阵列 (Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器22也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器 (CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器22可以在集成有GPU，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器22还可以包括人工智能 (Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器21可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器21还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器21至少用于存储以下计算机程序201，其中，该计算机程序被处理器22加载并执行之后，能够实现前述任一实施例公开的视觉问答方法的相关步骤。另外，存储器21所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于视觉问答方法所涉及到的数据等等。

在一些实施例中，视觉问答装置还可包括有显示屏23、输入输出接口24、通信接口25、电源26以及通信总线27。

领域技术人员可以理解，图3为本申请实施例提供的另一种视觉问答装置的结构图。图3中示出的结构并不构成对视觉问答装置的限定，可以包括比图示更多或更少的组件。

处理器22通过调用存储于存储器21中的指令以实现上述任一实施例所提供的视觉问答的方法。

进一步的，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器22执行时实现如上述视觉问答方法的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的一种计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不再赘述，其具有上述视觉问答的方法相同的有益效果。

以上对本发明所提供的一种视觉问答的方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种视觉问答方法，其特征在于，包括：

获取视觉问答任务对应的目标文字和目标图像，并将所述目标文字与所述目标图像分别转换为文字数据和图像数据；

将所述文字数据和所述图像数据前分别加入CLS Token标志，以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测；

将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征；

将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征；

将所述融合特征输入至分类器得到所述视觉问答任务的答案。

2.根据权利要求1所述的视觉问答方法，其特征在于，将所述文字数据输入至基于Transformer的模型中以提取所述文字数据的文字特征，包括：

将所述文字数据输入至BERT模型中以提取所述文字数据的所述文字特征，其中所述BERT模型基于所述Transformer的模型得到。

3.根据权利要求1所述的视觉问答方法，其特征在于，将所述图像数据输入至基于Transformer的模型中以提取所述图像数据的图像特征，包括：

将所述图像数据输入至ViT模型中以提取所述图像数据的所述图像特征，其中所述ViT模型基于所述Transformer的模型得到。

4.根据权利要求1所述的视觉问答方法，其特征在于，在所述将所述文字特征和所述图像特征拼接之后，在所述输入至所述Transformer的模型得到融合特征之前，还包括：

为所述文字特征和所述图像特征提供位置嵌入，以便于识别所述文字特征和所述图像特征拼接后的顺序关系。

5.根据权利要求1或4所述的视觉问答方法，其特征在于，在所述将所述文字特征和所述图像特征拼接之后，在所述输入至所述Transformer的模型得到融合特征之前，还包括：

为所述文字特征和所述图像特征提供模态嵌入，以便于区分特征来自所述文字特征还是所述图像特征。

6.据权利要求1所述的视觉问答方法，其特征在于，所述将所述融合特征输入至分类器得到所述视觉问答任务的答案，包括：

将所述融合特征输入至基于Sigmoid算法的分类器得到所述视觉问答任务的所述答案。

7.一种视觉问答装置，其特征在于，包括：

获取模块，用于获取视觉问答任务对应的目标文字和目标图像，并将所述目标文字与所述目标图像分别转换为文字数据和图像数据；

标记模块，用于将所述文字数据和所述图像数据前分别加入CLS Token标志，以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测；

提取模块，用于将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征；

融合模块，用于将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征；

分类模块，用于将所述融合特征输入至分类器得到所述视觉问答任务的答案。

8.一种视觉问答装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任意一项所述的视觉问答方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任意一项所述的视觉问答方法的步骤。