CN114707017A

CN114707017A - 视觉问答方法、装置、电子设备和存储介质

Info

Publication number: CN114707017A
Application number: CN202210424711.6A
Authority: CN
Inventors: 曹健健; 李煜林; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-05
Anticipated expiration: 2042-04-20
Also published as: CN114707017B

Abstract

本公开提供了一种视觉问答方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉技术领域，可应用于OCR等场景中。视觉问答方法的具体实现方案为：识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息；根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列；对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列；以及根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。

Description

视觉问答方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉技术领域，可应用于OCR(Optical Character Recognition，光学字符识别)等场景下。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术对图像进行识别，以解答与该图像相关的问题。

发明内容

本公开旨在提供一种提高视觉问答效果和问答精度的视觉问答方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种视觉问答方法，包括：识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息；根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列；对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列；以及根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。

根据本公开的一个方面，提供了一种视觉问答装置，包括：文本识别模块，用于识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息；图像特征提取模块，用于根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列；词编码模块，用于对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列；以及答案确定模块，用于根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的视觉问答方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的视觉问答方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现本公开提供的视觉问答方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的视觉问答方法和装置的应用场景示意图；

图2是根据本公开实施例的视觉问答方法的流程示意图；

图3是根据本公开实施例的得到视觉特征序列的原理示意图；

图4是根据本公开第一实施例的视觉问答方法的原理示意图；

图5是根据本公开第二实施例的视觉问答方法的原理示意图；

图6是根据本公开实施例的确定答案文本的原理示意图；

图7是根据本公开另一实施例的确定答案文本的原理示意图；

图8是根据本公开实施例的视觉问答装置的结构框图；以及

图9是用来实施本公开实施例的视觉问答方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种视觉问答方法，包括文本识别阶段、图像特征提取阶段、词编码阶段和答案确定阶段。在文本识别阶段中，识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息。在图像特征提取阶段中，根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列。在词编码阶段中，对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列。在答案确定阶段中，根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的视觉问答方法和装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以用于执行视觉问答(Visual Question Answering，VQA)任务。其中，VQA任务是一项涉及计算机视觉、自然语言理解、知识表示与推理的学习任务。具体地，电子设备110可以对输入的问题文本120进行识别和语义理解，并对输入的图像130进行处理，以根据问题文本120的语义理解结果从图像130中获取问题文本120的答案文本140。其中，问题文本120表述与图像130相关的问题，具体地，问题文本120可以表述关于图像130的形式自由、开放式的任意自然语言问题。

其中，输入的图像130例如可以为对文档扫描得到的图像，文档中可以包括任意类型的信息。例如，文档可以包括表格、数字表单、收据和/或发票等各种结构化信息。

在一实施例中，该电子设备110可以采用视觉问答模型150来得到答案文本140。具体地，电子设备110可以将问题文本120和图像130输入该视觉问答模型150，由视觉问答模型150输出答案文本140。其中，视觉问答模型150可以采用基于卷积神经网络(Convolutional Neural Networks，CNN)和长短期记忆(Long Short-Term Memory，LSTM)网络的网络架构、基于CNN和注意力机制的网络架构、基于多模态转换器的结构化文本理解模型(Structured Text Understanding with Multi-Modal Transformers，SturcText)等，本公开对此不做限定。

在一实施例中，视觉问答模型150例如可以由服务器160训练得到。电子设备110可以通过网络与服务器160通信连接，以通过该网络向服务器160发送模型获取请求，服务器160例如可以响应于该模型获取请求向电子设备110发送视觉问答模型150。其中，网络可以包括有线或无线通信链路。

在一实施例中，电子设备110也可以将输入的问题文本120和图像130经由网络发送给服务器160，由服务器160将问题文本120和图像130输入视觉问答模型150，从而得到答案文本140。

需要说明的是，本公开提供的视觉问答方法可以由电子设备110执行，也可以由服务器160执行。相应地，本公开提供的视觉问答装置可以设置在电子设备110中，也可以设置在服务器160中。

应该理解，图1中的电子设备110、视觉问答模型150和服务器160的类型仅仅是示意性的。根据实现需要，可以具有任意类型的电子设备110、视觉问答模型150和服务器160。

以下将结合图2～图7对本公开提供的视觉问答方法进行详细描述。

图2是根据本公开实施例的视觉问答方法的流程示意图。

如图2所示，该实施例的视觉问答方法200可以包括操作S210～操作S240。

在操作S210，识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息。

根据本公开的实施例，目标图像可以为扫描文档得到的图像，也可以为任意的包括文本的图像。该实施例可以采用OCR技术或任意的文字检测模型来识别目标图像，从而得到目标文本和目标文本在目标图像中的位置信息。其中，位置信息可以包括目标文本的边界框(bounding box)在目标图像中的位置，该位置可以由边界框的左上角的顶点和边界框的右下角的顶点在图像坐标系中的坐标值来表示，还可以由边界框的宽度和高度等来表示。图像坐标系可以以目标图像中的任一像素点(例如目标图像的左上角顶点处的像素点)为坐标原点，该图像坐标系的横轴和纵轴可以分别与目标图像的宽度方向和高度方向平行，本公开对此不做限定。

示例性地，该实施例可以采用OCR引擎来实施操作S210。其中，OCR引擎可以为任意的OCR通用引擎。其中，OCR引擎为将OCR的核心技术整理得到的软件开发包，以供各种应用程序调用OCR核心技术。可以理解的是，采用不同的OCR通用引擎的性能可能存在不一致。或者，该实施例也可以采用卷积循环神经网络(Convolutional Recurrent NeuralNetworks，CRNN)等文字检测模型来识别目标图像中的文本。

在操作S220，根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列。

根据本公开的实施例，可以先截取目标图像中位置信息所指示位置处的图像，随后对该截取的图像提取图像特征。在目标文本包括一个或多个文本段时，位置信息可以指示每个文本段在目标图像中的位置。则根据该位置信息可以截取得到对应每个文本段的一个图像，对该对应每个文本段的一个图像提取图像特征，得到对应一个或多个文本段的一个或多个图像特征，该一个或多个图像特征中的每个图像特征作为一个视觉特征，可以构成视觉特征序列。

示例性地，可以采用骨干(Backbone)网络来提取图像特征。具体可以将截取的各个图像输入骨干网络，该各个图像经由骨干网络处理后，骨干网络可以输出各个图像的图像特征，骨干网络输出的所有图像特征构成视觉特征序列。其中，骨干网络可以为基于CNN的神经网络，也可以为基于转换器(Transformer)的神经网络。其中，基于CNN的神经网络可以包括残差网络(Residual Network，ResNet)或密集连接的卷积网络(Densely ConnectedConvolutional Networks，DenseNet)等，本公开对此不做限定。

在一实施例中，还可以先采用骨干网络来提取整张目标图像的图像特征，得到特征图。随后再根据每个文本段的位置截取特征图中的部分特征图，将截取得到的部分特征图作为该每个文本段的视觉特征。如此，得到由一个或多个文本段的视觉特征构成的视觉特征序列。

在操作S230，对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列。该操作S230与操作S220可以以任意的顺序执行，例如，操作S230可以与操作S220同时执行，操作S230可以在操作S220之前执行，也可以在操作S220之后执行，本公开对此不做限定。

根据本公开的实施例，可以先对目标文本和问题文本进行分词处理，得到目标文本包括的多个第一词和问题文本包括的多个第二词。该多个第一词和多个第二词可以构成词序列。随后，该实施例可以采用Word2Vector等编码方法对词序列中的每个词进行编码，得到针对每个词的文本特征。将针对词序列中的所有词的所有文本特征，根据词序列中词的排列顺序排序，可以构成文本特征序列。

在一实施例中，可以先采用Word2Vector等将词序列中的每个词映射至预先构建的词表空间，得到词序列中每个词的表征特征，多个词的表征特征构成特征序列。随后再采用门循环单元(Gate Recurrent Unit，GRU)、LSTM或全连接网络(Fully-Connectednetwork，FC network)等对该特征序列进行处理，依次输出每个词的文本特征，从而得到文本特征序列。如此，可以学习到目标文本和问题文本的上下文信息，可以提高得到的文本特征序列中各文本特征的表达能力。

在操作S240，根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。

根据本公开的实施例，可以将第一特征序列输入基于序列网络的编码器中，由编码器输出针对答案文本的预测信息。随后，根据该概率信息确定答案文本。其中，序列网络例如可以包括循环神经网络(Recurrent Neural Network)或基于自注意力机制的网络。其中，RNN可以包括LSTM网络、GRU网络等。基于自注意力机制的网络可以包括Transformer网络等。在一实施例中，采用的编码器可以为基于自注意力机制的编码器，具体可以为Transformer网络中的编码器。

根据本公开的实施例，输出针对答案文本的预测信息可以包括答案文本的嵌入表示，采用于word2vector方法互逆的方法对该预测信息进行转换，即可得到答案文本。预测信息还可以包括第一特征序列中各个特征对应的词属于答案文本的概率值。该实施例可以将概率值大于阈值的词作为组成答案文本的词，将所有组成答案文本的词根据概率值在预测信息中的排列顺序排序并拼接，可以得到答案文本。其中，各个特征对应的词为目标文本中的词或者问题文本中的词。

本公开的实施例通过在确定答案文本时同时考虑文本特征和视觉特征，可以提高确定的答案文本的精度。再者，通过根据目标文本在目标图像中的位置信息来提取图像特征，从而得到视觉特征，可以使得答案文本的确定充分考虑目标文本的局部视觉特征。如此，可以充分学习到目标文本的多维度特征，利于学习到目标图像与答案文本之间的多模态推理信息，并因此进一步提高确定的答案文本的精度。

图3是根据本公开实施例的得到视觉特征序列的原理示意图。

根据本公开的实施例，如图3所示，该实施例在提取图像特征时，可以先采用图像特征提取网络310来提取目标图像301的图像特征，从而得到特征图302。其中，图像特征提取网络310可以包括前文描述的任意一种骨干网络，本公开对此不做限定。

在该实施例300中，可以采用OCR引擎320识别目标图像301中的文本，从而得到至少一个文本段303及该至少一个文本段303中的每个文本段在目标图像301中的位置304。该至少一个文本段303即可构成目标文本，每个文本段在目标图像301中的位置304可以由该每个文本段的边界框在目标图像中的位置来表示。相应地，前述的目标文本的位置信息可以指示每个文本段在目标图像301中的位置304，具体地，该目标文本的位置信息可以包括每个文本段的边界框的左上角顶点和右下角顶点在图像坐标系中的坐标值，以及该每个文本段的边界框的宽度和高度等。

在得到位置304后，该实施例300可以根据该位置确定图像特征(即特征图302)中针对每个文本段的图像子特征。具体地，特征图302可以表示目标图像301中各个像素点的特征，该实施例可以从特征图302中截取表示每个文本段的边界框所包围的像素块的特征，从而得到一个图像子特征。针对至少一个文本段303，总计可以得到至少一个图像子特征，该至少一个图像子特征根据至少一个文本段303在目标图像301中的位置304排序，即可得到图像子特征序列305。

示例性地，该实施例可以将位置信息和特征图302输入到感兴趣区域池化层(Region of Interest Pooling layer，ROI Pooling)，由该感兴趣区域池化层输出图像子特征序列305。其中，采用ROI Pooling层可以根据位置信息对特征图302执行抠图操作，并对抠图操作得到的区域特征图执行池化操作，从而得到一个图像子特征。

根据本公开的实施例，在得到图像子特征序列305后，可以根据该图像子特征序列305来确定视觉特征序列。例如，该实施例可以将该图像子特征序列305作为视觉特征序列。

该实施例通过先提取整张目标图像的特征图，再根据构成目标文本的各文本段的位置来截取图像子特征，可以使得最终得到的视觉特征序列在反映文本段的局部视觉特征的同时，在一定程度上反映目标图像的全局特征，利于提高得到的视觉特征序列的表达能力，提高最终得到的答案文本的精度。

图4是根据本公开第一实施例的视觉问答方法的原理示意图。

根据本公开的实施例，在得到视觉特征序列和/或文本特征序列时，还可以考虑对应的文本在目标图像中的位置信息，以在理解结构化文档时可以引入更高级别的语义，从而提高存在歧义的实体的识别精度。

如图4所示，该实施例400可以采用前述实施例的方法识别目标图像411中的文本，得到目标文本和目标文本在目标图像中的位置信息。

其中，目标文本由前文描述的至少一个文本段412构成。位置信息可以指示该至少一个文本段412中的每个文本段在目标图像411中的位置413。该实施例400还可以采用前述实施例的方法得到至少一个文本段412中每个文本段的图像子特征，从而得到图像子特征序列401。同时，该实施例可以根据位置信息指示的该每个文本段在目标图像中的位置413，来确定针对该每个文本段的第一位置子特征，针对至少一个文本段的至少一个第一位置子特征可以构成位置子特征序列402。具体地，该实施例可以对该每个文本段的边界框的左上角顶点在图像坐标系中的坐标值、右下角顶点在图像坐标系中的坐标值、宽度和高度构成的6维数据进行编码，从而得到针对该每个文本段的第一位置子特征。例如，设定至少一个文本段为多个，则针对该至少一个文本段的图像子特征包括特征V0、特征V1、特征V2、...，针对该至少一个文本段的第一位置子特征包括特征B(v0)、特征B(v1)、特征B(v2)、...。

该实施例可以根据针对每个文本段的图像子特征和第一位置子特征，来确定针对该每个文本段的视觉特征。例如，该实施例可以将针对每个文本段的图像子特征和针对该每个文本段的第一位置子特征拼接，从而得到针对该每个文本段的视觉特征。例如，如图4所示，可以将位置子特征序列402和图像子特征序列401拼接，从而得到视觉特征序列。该位置子特征序列402和图像子特征序列401中相同位置处的特征对应于同一个文本段。例如特征Vi和特征B(vi)对应于同一个文本段，i的取值区间为[0，M]，其中，M为至少一个文本段的总个数与1的差值。

在一实施例中，在得到文本特征序列时，也可以考虑文本在目标图像中的位置信息，以提高得到的文本特征序列的表达能力。

示例性地，根据目标文本和问题文本得到的词序列可以包括属于目标文本的第一数量个第一词和属于问题文本的第三数量个第二词。例如，如图4所示，该实施例400在得到至少一个文本段412后，可以对该至少一个文本段412执行分词处理，从而得到第一数量个第一词414。同时，可以对问题文本415进行分词处理，从而得到第二数量个第二词416。将该第二数量个第二词416根据在问题文本415中的位置自前至后排序，并将第一数量个第一词414根据在目标图像411中的位置先自左至右，后自上至下排在第二数量个第二词416之后，即可得到词序列417。

该实施例在得到词序列417后，可以对该词序列中的每个词进行编码，从而得到每个词的文本子特征，词序列417中所有词的文本子特征按序(与词序列中词的排列顺序相同)排列，即可得到文本子特征序列403。其中，针对第一数量个第一词414的文本子特征包括特征T1、特征T2、...，针对第二数量个第二词416的文本子特征包括特征Q0、特征Q1、...。

在得到文本子特征的同时，该实施例400还可以根据目标文本在目标图像中的位置信息，来确定词序列中的每个词在目标图像中的位置子信息。

例如，该实施例可以根据对每个文本段进行分词处理得到的第一词的个数和该每个文本段的位置413，来确定对每个文本段分词处理得到的第一词414的位置子信息418。例如，若对每个文本段进行分词处理可以得到两个第一词，则该实施例可以将该每个文本段的边界框均分为两个子边界框，将分别表示该两个子边界框的位置的位置信息作为两个第一词的位置子信息。每个位置子信息包括子边界框的左上角顶点和右下角顶点在图像坐标系中的坐标值，以及该子边界框的宽度和高度。

例如，对于属于问题文本415的第二词416，可以将该第二词416在目标图像411中的位置子信息设定为预定信息。该预定信息例如可以为0等任意值来表示，这是由于问题文本415并非识别目标图像411而得到的。

在得到每个词在目标图像中的位置子信息后，该实施例可以对该位置子信息进行编码，从而得到针对该每个词的第二位置子特征。得到该第二位置子特征的方法与前述得到第一位置子特征的方法类似，在此不再赘述。针对词序列中的多个词的多个第二位置子特征可以构成位置子特征序列404。例如，针对第三数量个第二词416的位置子特征均为特征B(0)，针对第一数量个第一词414的位置子特征包括特征B(t1)、特征B(t2)、...。

随后，该实施例可以根据针对词序列中每个词的文本子特征和第二位置子特征，来确定针对该每个词的文本特征。例如，可以针对每个词的文本子特征和第二位置子特征拼接后，得到文本特征。例如，如图4所示，可以将位置子特征序列404和文本子特征序列403拼接，从而得到文本特征序列。该位置子特征序列404和文本子特征序列403中相同位置处的特征对应于同一个词。例如特征Tj和特征B(tj)对应于同一个第一词，j的取值区间为[1，N]，其中，N为第一数量。

在得到视觉特征序列和文本特征序列后，该实施例400可以将视觉特征序列排在文本特征序列之后，构成第一特征序列。随后即可根据该第一特征序列，来确定问题文本的答案文本。

示例性地，如图4所示，该实施例可以采用基于自注意力机制的编码器421对第一特征序列编码，从而得到编码后的第二特征序列。根据该第二特征序列，可以确定答案文本。具体地，该实施例可以将第一特征序列输入编码器421中，由编码器421输出第二特征序列。该实施例通过采用基于自注意力机制的编码器，可以更好地捕捉到视觉特征和文本特征之间的深层语义关系，利于提高得到的第二特征序列的表达能力，并因此提高得到的答案文本的精度。其中，编码器421例如可以采用Transformer网络中的编码器，本公开对此不做限定。

在一实施例中，在得到第二特征序列后，该实施例可以采用第一预测网络422来对第二特征序列进行处理。具体可以将第二特征序列输入第一预测网络422，由第一预测网络422输出针对答案文本的第一预测信息序列。该第一预测信息序列可以包括与输入的第一特征序列中每个特征对应的第一预测信息。该实施例可以根据该第一预测信息序列，来确定答案文本。例如，第一预测信息可以为每个特征对应的文本(可以为文本段或词)属于答案文本的概率值。该实施例可以根据概率值大于阈值的文本，来得到答案文本。例如可以将概率值大于阈值的至少一个文本按预测信息的排列顺序依次拼接，从而得到答案文本。

示例性地，第一预测网络422可以采用二分类的分类器。第一预测网络422例如可以输出2×P的概率矩阵，其中P为第一特征序列中的特征总个数。该概率矩阵中1×P的一个概率向量表示第一特征序列中每个特征对应的文本属于答案文本的概率值，1×P的另一个概率向量表示第一特征序列中每个特征对应的文本不属于答案文本的概率值。前述阈值可以为0.5，本公开对此不做限定。

可以理解的是，该实施例400中，对词进行编码的网络、图像特征提取网络、对位置信息进行编码的网络、基于自注意力机制的编码器421和第一预测网络422可以构成前文描述的StrucText模型。即，该实施例400可以采用StrucText模型来实现视觉问答方法。如此，该实施例在采用StrucText模型的基础上，通过串联加入问题文本的文本特征，可以在视觉问答任务中，对文本进行不同粒度的建模，从而提升模型的语义理解能力，提高得到的答案文本的精度，提高视觉问答的效果。

可以理解的是，该实施例可以在视觉子特征序列的末位添加补全特征pad_token，可以在文本子特征序列的首位添加起始特征[cls]，在文本子特征序列的末位添加终止特征[SEP]等，以为第二特征序列的获得提供参考信息。可以理解的是，添加的特征可以根据实际需求进行设定，本公开对此不做限定。

图5是根据本公开第二实施例的视觉问答方法的原理示意图。

根据本公开的实施例，在得到视觉特征序列和/或文本特征序列时，还可以考虑目标文本与目标图像中该目标文本所在位置处区域图像之间的对应关系，以在确定答案文本时更好地捕捉视觉特征与对应的文本特征之间的深层语义关系。并因此，在一定程度上提高确定的答案文本的精度。

如图5所示，该实施例500可以采用与前述实施例400类似的方法，从目标图像511中提取得到图像子特征序列501。同时，该实施例500可以针对每个文本段，根据该每个文本段与图像子特征序列501中的图像子特征之间的对应关系，来确定针对每个文本段的第一映射子特征，针对至少一个文本段的至少一个第一映射子特征可以构成映射子特征序列505。例如，可以为对应至不同文本段的图像子特征分配不同的第一映射子特征，以有效区分不同文本段的图像子特征。

在得到映射子特征序列505和图像子特征序列501后，该实施例可以根据针对每个文本段的图像子特征和针对该每个文本段的第一映射子特征，来确定针对该每个文本段的视觉特征。例如可以将针对每个文本段的图像子特征和第一映射子特征拼接得到的特征，作为针对该每个文本段的视觉特征。例如，如图5所示，可以将图像子特征序列501和映射子特征序列505拼接，从而得到视觉特征序列。该映射子特征序列505和图像子特征序列501中相同位置处的特征对应于同一个文本段。例如特征V0和特征0对应于同一个文本段，特征V1和特征2对应于同一个文本段。

类似地，可以在得到文本特征序列时，也考虑目标文本与目标图像中该目标文本所在位置处区域图像之间的的对应关系。该实施例500可以采用与前述实施例400类似的方法，得到词序列517。该词序列517中包括属于目标文本的第一数量个第一词514和属于问题文本515的第三数量个第二词516。在得到词序列517后，该实施例500可以采用与前述实施例400类似的方法，得到文本子特征序列503。同时，该实施例500还可以根据词序列517中的每个词与图像子特征之间的对应关系，确定针对每个词的第二映射子特征。其中，考虑到文本段512是与图像子特征一一对应的，则每个词与图像子特征之间的对应关系可以由每个词与文本段512之间的归属关系来表示。该实施例可以为归属于同一文本段的词分配相同的第二映射子特征，为归属于不同文本段的词分配不同的第二映射子特征。其中，考虑到第二词与文本段之间不存在归属关系，可以为第二词分配预定的第二映射子特征。例如，为该第二词分配的预定的第二映射子特征可以为1。如此，分别针对词序列中的多个词的多个第二映射子特征可以构成映射子特征序列506。

根据本公开的实施例，前述为某个文本段分配的第一映射子特征与为属于该某个文本段的词分配的第二映射子特征取相同的值，如此，可以建立起视觉特征和文本特征之间的对应关系，利于更好地捕捉视觉特征和文本特征之间的深层语义关系。例如，图像子特征V1与文本子特征T1、T2所针对的两个词对应于同一个文本段，则为图像子特征V1对应的文本段分配的第一映射子特征为2，为文本子特征T1、T2所针对的两个词分配的第二映射子特征也为2。

在得到映射子特征序列506和文本子特征序列503后，该实施例可以根据针对每个词的文本子特征和针对该每个词的第二映射子特征，来确定针对该每个词的文本特征。例如可以将针对每个词的文本子特征和第二映射子特征拼接得到的特征，作为针对该每个词的文本特征。例如，如图5所示，可以将文本子特征序列503和映射子特征序列506拼接，从而得到文本特征序列。该映射子特征序列506和文本子特征序列503中相同位置处的特征对应于同一个词。

在得到视觉特征序列和文本特征序列后，该实施例500可以将视觉特征序列排在文本特征序列之后，构成第一特征序列。随后即可根据该第一特征序列，来确定问题文本的答案文本。具体可以采用与实施例400类似的方法，借助编码器521和第一预测网络522，来得到答案文本，该实施例不再赘述。

在一实施例中，在得到视觉特征序列时，还可以考虑前述实施例得到的图像子特征序列中各图像子特征的排序信息，以利于确定答案文本时文本特征与视觉特征之间的对齐，更好地学习到文本特征与视觉特征之间的语义关系。

示例性地，该实施例可以根据针对每个文本段的图像子特征在图像子特征序列中的排序信息，确定针对每个文本段的第一排序子特征。例如，排序信息可以包括图像子特征在图像子特征序列中的排列位数，该实施例可以将该排列位数作为第一排序子特征。如此，若视觉子特征的个数为第二数量(M+1)，则针对至少一个文本段的至少一个第一排序子特征构成的第一排序子特征序列即为数值1～数值(M+1)的数字序列。且第一排序子特征序列和图像子特征序列中相同位置的特征对应于同一个文本段。该实施例可以根据针对每个文本段的图像子特征和针对每个文本段的第一排序子特征，来确定针对该每个文本段的视觉特征。具体可以将针对每个文本段的图像子特征和第一排序子特征拼接后所得到的特征作为针对该每个文本段的视觉特征。将第一排序子特征序列和图像子特征序列拼接，即可得到视觉特征序列。可以理解的是，该第一排序子特征实质上可以为图像子特征的图像ID。

类似地，在得到文本特征序列时，也可以考虑前述实施例得到的文本子特征序列中各文本子特征的排序信息，以利于确定答案文本时文本特征与视觉特征之间的对齐，更好地学习到文本特征与视觉特征之间的语义关系。

示例性地，该实施例在得到文本特征序列时，可以先对前述词序列中的每个词进行编码，得到针对每个词的文本子特征。随后根据针对每个词在词序列中的排序信息，确定针对每个词的第二排序子特征。此处之所以根据词在词序列中的排序信息确定第二排序子特征，是因为词在词序列中的排序信息与针对词的文本子特征在文本子特征序列中的排序信息是相同的。例如，排序信息可以包括词在词序列中的排列位数，该实施例可以将该排列位数作为第二排序子特征。如此，若文本子特征的个数为(P-M-1)，则分别针对词序列中多个词的多个第二排序子特征构成的第二排序子特征序列即为数值1～数值(P-M-1)的数字序列。且第二排序子特征序列和文本子特征序列中相同位置的特征对应于同一个词。该实施例可以根据针对每个词的文本子特征和针对每个词的第二排序子特征，来确定针对该每个词的视觉特征。具体可以将针对每个词的图像子特征和第二排序子特征拼接后所得到的特征作为针对该每个词的文本特征。将第二排序子特征序列和文本子特征序列拼接，即可得到文本特征序列。可以理解的是，该第二排序子特征实质上可以为词的Sentence ID。

在一实施例中，在确定视觉特征序列时，可以同时考虑对应的文本在目标图像中的位置信息、目标文本与目标图像中该目标文本所在位置处区域图像之间的对应关系和图像子特征序列中各图像子特征的排序信息，也可以考虑该三部分信息中的任意两种信息，本公开对此不做限定。相应地，在确定文本特征序列时，可以同时考虑对应的文本在目标图像中的位置信息、目标文本与目标图像中该目标文本所在位置处区域图像之间的对应关系和文本子特征序列中各文本子特征的排序信息，也可以考虑该三部分信息中的任意两种信息，本公开对此不做限定。可以理解的是，确定视觉特征序列时所考虑的信息类型和个数可以与确定文本特征序列时所考虑的信息类型和个数相同，以利于对视觉特征和文本特征进行对齐和融合。

图6是根据本公开实施例的确定答案文本的原理示意图。

根据本公开的实施例，在根据前述的第二特征序列确定答案文本时，可以仅考虑第一词对应的预测信息。这是由于在目标图像包括表格、数字表单、收据和发票等结构化文本信息时，答案文本通常选自目标图像中的文本。通过该方式，可以在一定程度上提高确定的答案文本的精度。

例如，可以采用前述实施例描述的第一预测网络对基于自注意力机制的编码器输出的第二特征序列进行处理，从而得到针对答案文本的第一预测信息序列。如前文所述，该第一预测信息序列中至少包括有与词序列中的每个词对应的第一预测信息。该第一预测信息可以包括其所对应的每个词属于答案文本的概率值。该实施例可以根据与第一数量个第一词对应的第一数量个第一预测信息，来确定答案文本。例如，可以将第一数量个第一预测信息中，概率值大于阈值的第一词作为构成答案文本的词。最后，将构成答案文本的所有词根据词序列中的排列顺序依次拼接，得到答案文本。

根据本公开的实施例，还可以在得到编码器输出的特征序列后，对特征序列中由视觉特征得到的编码特征和由目标文本中词的文本特征得到的编码特征进行进一步的融合。如此，可以更为充分的学习到视觉特征与文本特征之间的深层语义关系，利于进一步提高答案文本的精度。

如图6所示，在实施例600中，在得到第一特征序列601后，可以将该第一特征序列601输入基于自注意力机制的编码器621中，由该编码器621输出初始编码特征序列602。该初始编码特征序列包括与第一数量个第一词分别对应的第一数量个第一特征，与第二数量个视觉特征分别对应的第二数量个第二特征和与第三数量个第二词分别对应的第三数量个第三特征。

随后，该实施例可以采用注意力网络对第一数量个第一特征和第二数量个第二特征进行处理，以充分融合第一特征和第二特征，对第三特征不做处理，将融合得到的特征与第三特征构成的特征序列作为第二特征序列603。其中，注意力网络例如可以采用多头自注意力网络，该实施例可以将第一数量个第一特征和第二数量个第二特征拼接得到的特征序列作为输入特征，经由三个线性层处理后，分别得到查询特征、键特征和值特征，通过对查询特征和键特征处理后可以得到注意力矩阵，将该注意力矩阵作为值特征的权重，对值特征进行加权，从而得到第二特征序列。

图7是根据本公开实施例的确定答案文本的原理示意图。

根据本公开的实施例，在采用预测网络预测答案文本时，可以设置多个预测分支，不仅预测第一特征序列中作为token的各个特征所对应的文本是否属于答案文本，还可以答案文本的起始位置和终止位置。如此，可以为答案文本的预测设置多重约束，从而可以有效提高确定的答案文本的准确性。

示例性地，如图7所示，该实施例700可以采用第一预测网络7221、第二预测网络7222和第三预测网络7223分别对采用前文描述的方法得到的第二特征序列703进行处理，以分别得到针对答案文本的第一预测信息序列704、针对起始字符的第二预测信息序列705和针对终止字符的第三预测信息序列706。其中，第一预测信息序列704包括作为token的各个特征所对应的文本属于答案文本的概率值。第二预测信息序列705包括作为token的各个特征所对应的文本属于答案文本的起始字符的概率值。第三预测信息序列706包括作为token的各个特征所对应的文本属于答案文本的终止字符的概率值。

在得到三个预测信息序列706后，该实施例可以将第二预测信息序列中最大概率值对应的文本作为答案文本的起始字符，将第三预测信息序列中最大概率值对应的文本作为答案文本的终止字符，并判断第一预测信息序列中大于阈值的概率值所对应文本在词序列中的位置是否位于起始字符和终止字符之间，若是，则将起始字符、在词序列中位于起始字符和终止字符之间的字符和终止字符相拼接，从而得到答案文本。若否，则将第一预测信息序列中大于阈值的概率值所对应的文本根据词序列中的排列顺序相拼接，得到答案文本。

在一实施例中，可以仅考虑第一词对应的预测信息来确定答案文本。如此，如图7所示，仅考虑大括号之内的预测信息。即，针对第一数量个第一词，根据该第一数量个第一词对应的第一数量个第一预测信息、第一数量个第二预测信息和第一数量个第三预测信息，确定答案文本707。

例如，若问题文本包括文本“what is the DATE SERVED？”，第一数量个第一词包括词August，词3和词1998，若第一数量个第二预测信息中最大概率值对应的第一词为词3，第一数量个第三预测信息中最大概率值对应的第一词为词1998，第一数量个第一预测信息中大于阈值的概率值所对应的第一词包括词August，词3和词1998。则由于大于阈值的概率值所对应的第一词在词序列中的位置并非均位于作为起始字符的概率最大的词3与作为终止字符的概率最大的词1998之间，则可以确定最终的答案文本707包括文本“August 31998”。

可以理解的是，上述根据第一预测信息、第二预测信息和第三预测信息确定答案文本的方法仅作为示例以利于理解本公开，本公开对此不做限定。

可以理解的是，第一预测网络、第二预测网络和第三预测网络的结构可以类似，区别在于所采用的网络参数不同。三个预测网络的网络参数是通过预先训练得到。

在一实施例中，可以将前述各个步骤所采用的网络集成为一个端到端的模型，该实施例可以预先对该端到端的模型进行训练。如此，在执行视觉问答的方法时，可以将目标图像和答案文本输入该端到端的模型，由该端到端的模型输出答案文本。该端到端的模型可以基于前文描述的StrucText模型构建得到。相应地，可以采用“遮罩式视觉语言建模(Masked Visual Language Modeling)”任务、“字段长度预测(Segment LengthPrediction)”任务和“字段方位预测(Paired Box Direction)”任务等多种自监督训练任务对该端到端的模型进行训练。如此可以促进跨模态特征的交互，利于模型学习到多个模态之间的信息的关联，增强对文本的综合理解能力。

基于本公开提供的视觉问答方法，本公开还提供了一种视觉问答装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的视觉问答装置的结构框图。

如图8所示，该实施例的视觉问答装置800可以包括文本识别模块810、图像特征提取模块820、词编码模块830和答案确定模块840。

文本识别模块810用于识别目标图像包括的文本，得到目标文本及目标文本在目标图像中的位置信息。在一实施例中，文本识别模块810可以用于执行前文描述的操作S210，在此不再赘述。

图像特征提取模块820用于根据位置信息提取目标图像的图像特征，得到针对目标文本的视觉特征序列。在一实施例中，图像特征提取模块820可以用于执行前文描述的操作S220，在此不再赘述。

词编码模块830用于对根据目标文本和针对目标图像的问题文本得到的词序列进行编码，得到文本特征序列。在一实施例中，词编码模块830可以用于执行前文描述的操作S230，在此不再赘述。

答案确定模块840用于根据文本特征序列和视觉特征序列构成的第一特征序列，确定针对问题文本的答案文本。在一实施例中，答案确定模块840可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，上述答案确定模块840可以包括第一编码子模块和答案确定子模块。第一编码子模块用于采用基于自注意力机制的编码器对第一特征序列编码，得到编码后的第二特征序列。答案确定子模块用于根据第二特征序列，确定答案文本。

根据本公开的实施例，词序列包括属于目标文本的第一数量个第一词，文本特征序列包括与第一数量个第一词分别对应的第一数量个文本特征。上述答案确定子模块可以包括第一预测单元和答案确定单元。第一预测单元用于采用第一预测网络对第二特征序列进行处理，得到针对答案文本的第一预测信息序列。其中，第一预测信息序列至少包括与词序列中的每个词对应的第一预测信息，第一预测信息包括每个词属于答案文本的概率值。答案确定单元用于根据与第一数量个第一词对应的第一数量个第一预测信息，确定答案文本。

根据本公开的实施例，上述答案确定子模块还可以包括第二预测单元和第三预测单元。第二预测单元用于采用第二预测网络对第二特征序列进行处理，得到针对起始字符的第二预测信息序列。其中，第二预测信息序列至少包括与每个词对应的第二预测信息，第二预测信息包括每个词为答案文本的起始字符的概率值。第三预测单元用于采用第三预测网络对第二特征序列进行处理，得到针对终止字符的第三预测信息序列。其中，第三预测信息序列至少包括与每个词对应的第三预测信息，第三预测信息包括每个词为答案文本的终止字符的概率值。上述答案确定单元具体可以用于针对第一数量个第一词，根据对应的第一数量个第一预测信息、第一数量个第二预测信息和第一数量个第三预测信息，确定答案文本。

根据本公开的实施例，上述词序列包括属于目标文本的第一数量个第一词，相应地，文本特征序列包括与第一数量个第一词分别对应的第一数量个文本特征。位置信息可以指示针对第一数量个第一词的第二数量个位置，相应地视觉特征序列包括与第二数量个位置分别对应的第二数量个视觉特征。上述第一编码子模块可以包括编码单元和注意力处理单元。编码单元用于将第一特征序列输入编码器，得到初始编码特征序列；初始编码特征序列至少包括与第一数量个第一词分别对应的第一数量个第一特征及与第二数量个视觉特征分别对应的第二数量个第二特征。注意力处理单元用于采用注意力网络对第一数量个第一特征和第二数量个第二特征进行处理，得到第二特征序列。

根据本公开的实施例，目标文本包括至少一个文本段，相应地，位置信息指示至少一个文本段中的每个文本段在目标图像中的位置。上述图像特征提取模块820可以包括特征提取子模块、子特征确定子模块和视觉特征确定子模块。特征提取子模块用于采用图像特征提取网络提取目标图像的图像特征。子特征确定子模块用于根据每个文本段在目标图像中的位置，确定图像特征中针对每个文本段的图像子特征，得到由针对至少一个文本段的至少一个图像子特征构成的图像子特征序列。视觉特征确定子模块用于根据图像子特征序列，确定视觉特征序列。

根据本公开的实施例，上述视觉特征确定子模块可以包括位置特征确定单元和第一视觉特征确定单元。位置特征确定单元用于根据每个文本段在目标图像中的位置，确定针对每个文本段的第一位置子特征。第一视觉特征确定单元用于根据针对每个文本段的图像子特征和针对每个文本段的第一位置子特征，确定针对每个文本段的视觉特征。

根据本公开的实施例，上述视觉特征确定子模块可以包括映射特征确定单元和第二视觉特征确定单元。映射特征确定单元用于针对每个文本段，根据每个文本段与图像子特征序列中的图像子特征之间的对应关系，确定针对每个文本段的第一映射子特征。第二视觉特征确定单元用于根据针对每个文本段的图像子特征和针对每个文本段的第一映射子特征，确定针对每个文本段的视觉特征。

根据本公开的实施例，上述视觉特征确定子模块可以包括排序特征确定单元和第三视觉特征确定单元。排序特征确定单元用于根据针对每个文本段的图像子特征在图像子特征序列中的排序信息，确定针对每个文本段的第一排序子特征。第三视觉特征确定单元用于根据针对每个文本段的图像子特征和针对每个文本段的第一排序子特征，确定针对每个文本段的视觉特征。

根据本公开的实施例，上述词序列包括属于目标文本的第一数量个第一词和属于问题文本的第三数量个第二词。上述词编码模块830可以包括词编码子模块、位置确定子模块、位置编码子模块和第一文本特征确定子模块。词编码子模块用于对词序列中的每个词进行编码，得到针对每个词的文本子特征。位置确定子模块用于根据位置信息，确定每个词在目标图像中的位置子信息，其中第二词在目标图像中的位置子信息为预定信息。位置编码子模块用于对每个词在目标图像中的位置子信息进行编码，得到针对每个词的第二位置子特征。第一文本特征确定子模块用于根据针对每个词的文本子特征和针对每个词的第二位置子特征，确定针对每个词的文本特征。

根据本公开的实施例，目标文本包括至少一个文本段，相应地位置信息指示至少一个文本段中的每个文本段在目标图像中的位置。相应地，视觉特征序列包括分别针对至少一个文本段的至少一个图像子特征。上述词编码模块830可以包括词编码子模块、映射特征确定子模块和第二文本特征确定子模块。词编码子模块用于对词序列中的每个词进行编码，得到针对每个词的文本子特征。其中，词序列包括对至少一个文本段分词得到的第一数量个第一词和属于问题文本的第三数量个第二词。映射特征确定子模块用于根据每个词与图像子特征之间的对应关系，确定针对每个词的第二映射子特征。第二文本特征确定子模块用于根据针对每个词的文本子特征和针对每个词的第二映射子特征，确定针对每个词的文本特征。

根据本公开的实施例，上述词编码模块830可以包括词编码子模块、排序特征确定子模块和第三文本特征确定子模块。词编码子模块用于对词序列中的每个词进行编码，得到针对每个词的文本子特征。排序特征确定子模块用于根据每个词在词序列中的排序信息，确定针对每个词的第二排序子特征。第三文本特征确定子模块用于根据针对每个词的文本子特征和针对每个词的第二排序子特征，确定针对每个词的文本特征。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的视觉问答方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如视觉问答方法。例如，在一些实施例中，视觉问答方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的视觉问答方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视觉问答方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视觉问答方法，包括：

识别目标图像包括的文本，得到目标文本及所述目标文本在所述目标图像中的位置信息；

根据所述位置信息提取所述目标图像的图像特征，得到针对所述目标文本的视觉特征序列；

对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码，得到文本特征序列；以及

根据所述文本特征序列和所述视觉特征序列构成的第一特征序列，确定针对所述问题文本的答案文本。

2.根据权利要求1所述的方法，其中，所述根据所述文本特征序列和所述视觉特征序列构成的第一特征序列，确定针对所述问题文本的答案文本包括：

采用基于自注意力机制的编码器对所述第一特征序列编码，得到编码后的第二特征序列；以及

根据所述第二特征序列，确定所述答案文本。

3.根据权利要求2所述的方法，其中，所述词序列包括属于所述目标文本的第一数量个第一词；所述文本特征序列包括与第一数量个所述第一词分别对应的第一数量个文本特征；所述根据所述第二特征序列，确定所述答案文本包括：

采用第一预测网络对所述第二特征序列进行处理，得到针对所述答案文本的第一预测信息序列；所述第一预测信息序列至少包括与所述词序列中的每个词对应的第一预测信息，所述第一预测信息包括所述每个词属于所述答案文本的概率值；以及

根据与第一数量个所述第一词对应的第一数量个第一预测信息，确定所述答案文本。

4.根据权利要求3所述的方法，其中，所述根据所述第二特征序列，确定所述答案文本还包括：

采用第二预测网络对所述第二特征序列进行处理，得到针对起始字符的第二预测信息序列；所述第二预测信息序列至少包括与所述每个词对应的第二预测信息，所述第二预测信息包括所述每个词为所述答案文本的起始字符的概率值；

采用第三预测网络对所述第二特征序列进行处理，得到针对终止字符的第三预测信息序列；所述第三预测信息序列至少包括与所述每个词对应的第三预测信息，所述第三预测信息包括所述每个词为所述答案文本的终止字符的概率值；以及

针对第一数量个所述第一词，根据对应的第一数量个所述第一预测信息、第一数量个所述第二预测信息和第一数量个所述第三预测信息，确定所述答案文本。

5.根据权利要求2所述的方法，其中，所述词序列包括属于所述目标文本的第一数量个第一词；所述文本特征序列包括与第一数量个所述第一词分别对应的第一数量个文本特征；所述位置信息指示针对第一数量个所述第一词的第二数量个位置；所述视觉特征序列包括与所述第二数量个位置分别对应的第二数量个视觉特征；所述采用基于自注意力机制的编码器对所述第一特征序列编码，得到第二特征序列包括：

将所述第一特征序列输入所述编码器，得到初始编码特征序列；所述初始编码特征序列至少包括与第一数量个所述第一词分别对应的第一数量个第一特征及与第二数量个所述视觉特征分别对应的第二数量个第二特征；以及

采用注意力网络对第一数量个所述第一特征和第二数量个所述第二特征进行处理，得到所述第二特征序列。

6.根据权利要求1所述的方法，其中，所述目标文本包括至少一个文本段；所述位置信息指示所述至少一个文本段中的每个文本段在所述目标图像中的位置；所述根据所述位置信息提取所述目标图像的图像特征，得到针对所述目标文本的视觉特征序列包括：

采用图像特征提取网络提取所述目标图像的图像特征；

根据所述每个文本段在所述目标图像中的位置，确定所述图像特征中针对所述每个文本段的图像子特征，得到由针对所述至少一个文本段的至少一个图像子特征构成的图像子特征序列；以及

根据所述图像子特征序列，确定所述视觉特征序列。

7.根据权利要求6所述的方法，其中，所述根据所述图像子特征序列，确定所述视觉特征序列包括：

根据所述每个文本段在所述目标图像中的位置，确定针对所述每个文本段的第一位置子特征；以及

根据针对所述每个文本段的所述图像子特征和针对所述每个文本段的所述第一位置子特征，确定针对所述每个文本段的视觉特征。

8.根据权利要求6所述的方法，其中，所述根据所述图像子特征序列，确定所述视觉特征序列包括：

针对所述每个文本段，根据所述每个文本段与所述图像子特征序列中的图像子特征之间的对应关系，确定针对所述每个文本段的第一映射子特征；以及

根据针对所述每个文本段的所述图像子特征和针对所述每个文本段的所述第一映射子特征，确定针对所述每个文本段的视觉特征。

9.根据权利要求6所述的方法，其中，所述根据所述图像子特征序列，确定所述视觉特征序列包括：

根据针对所述每个文本段的图像子特征在所述图像子特征序列中的排序信息，确定针对所述每个文本段的第一排序子特征；以及

根据针对所述每个文本段的所述图像子特征和针对所述每个文本段的所述第一排序子特征，确定针对所述每个文本段的视觉特征。

10.根据权利要求1所述的方法，其中，所述词序列包括属于所述目标文本的第一数量个第一词和属于所述问题文本的第三数量个第二词；所述对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码，得到文本特征序列包括：

对所述词序列中的每个词进行编码，得到针对所述每个词的文本子特征；

根据所述位置信息，确定所述每个词在所述目标图像中的位置子信息；其中，所述第二词在所述目标图像中的位置子信息为预定信息；

对所述每个词在所述目标图像中的位置子信息进行编码，得到针对所述每个词的第二位置子特征；以及

根据针对所述每个词的文本子特征和针对所述每个词的第二位置子特征，确定针对所述每个词的文本特征。

11.根据权利要求1所述的方法，其中，所述目标文本包括至少一个文本段；所述位置信息指示所述至少一个文本段中的每个文本段在所述目标图像中的位置；所述视觉特征序列包括分别针对所述至少一个文本段的至少一个图像子特征；所述对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码，得到文本特征序列包括：

对所述词序列中的每个词进行编码，得到针对所述每个词的文本子特征；所述词序列包括对所述至少一个文本段分词得到的第一数量个第一词和属于所述问题文本的第三数量个第二词；

根据所述每个词与所述图像子特征之间的对应关系，确定针对所述每个词的第二映射子特征；以及

根据针对所述每个词的文本子特征和针对所述每个词的第二映射子特征，确定针对所述每个词的文本特征。

12.根据权利要求1所述的方法，其中，所述对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码，得到文本特征序列包括：

根据所述每个词在所述词序列中的排序信息，确定针对所述每个词的第二排序子特征；以及

根据针对所述每个词的所述文本子特征和针对所述每个词的所述第二排序子特征，确定针对所述每个词的文本特征。

13.一种视觉问答装置，包括：

文本识别模块，用于识别目标图像包括的文本，得到目标文本及所述目标文本在所述目标图像中的位置信息；

图像特征提取模块，用于根据所述位置信息提取所述目标图像的图像特征，得到针对所述目标文本的视觉特征序列；

词编码模块，用于对根据所述目标文本和针对所述目标图像的问题文本得到的词序列进行编码，得到文本特征序列；以及

答案确定模块，用于根据所述文本特征序列和所述视觉特征序列构成的第一特征序列，确定针对所述问题文本的答案文本。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～12中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1～12中任一项所述方法的步骤。