CN114445826A

CN114445826A - 视觉问答方法、装置、电子设备以及存储介质

Info

Publication number: CN114445826A
Application number: CN202210110386.6A
Authority: CN
Inventors: 曹健健; 李煜林; 钦夏孟; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-06

Abstract

本公开提供了一种视觉问答方法、装置、电子设备以及存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于图像处理等场景。具体实现方案为：对文本图像的文本图像数据进行处理，得到文本图像的至少一个文本区域各自的局部视觉特征；对待回答问题的待回答问题数据和文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征；根据多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到多个文本区域各自的深层语义特征；对多个文本区域各自的深层语义特征进行处理，生成针对待回答问题的答案。

Description

视觉问答方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于图像处理等场景。具体地，涉及一种视觉问答方法、装置、电子设备以及存储介质。

背景技术

随着人工智能技术的发展，人工智能技术在各个领域得到了广泛的应用。例如，在人工智能技术领域的计算机视觉技术领域，图像处理得到了广泛的应用。

在图像处理中，视觉问答是指通过文本图像来回答针对该文本图像的自然语言问题。

发明内容

本公开提供了一种视觉问答方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种视觉问答方法，包括：对文本图像的文本图像数据进行处理，得到上述文本图像的至少一个文本区域各自的局部视觉特征；对待回答问题的待回答问题数据和上述文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征，其中，上述待回答问题数据是根据上述文本图像数据确定的；根据上述多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到上述多个文本区域各自的深层语义特征，其中，上述位置特征与上述文本图像的至少一个文本区域的位置特征相关联；以及，对上述多个文本区域各自的深层语义特征进行处理，生成针对上述待回答问题的答案。

根据本公开的另一方面，提供了一种视觉问答装置，包括：第一处理模块，用于对文本图像的文本图像数据进行处理，得到上述文本图像的至少一个文本区域各自的局部视觉特征；获得模块，用于对待回答问题的待回答问题数据和上述文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征，其中，上述待回答问题数据是根据上述文本图像数据确定的；第二处理模块，用于根据上述多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到上述多个文本区域各自的深层语义特征，其中，上述位置特征与上述文本图像的至少一个文本区域的位置特征相关联；以及，第三处理模块，用于对上述多个文本区域各自的深层语义特征进行处理，生成针对上述待回答问题的答案。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被所述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用视觉问答方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的视觉问答方法的流程图；

图3示意性示出了根据本公开实施例的问答过程的示例示意图；

图4示意性示出了根据本公开实施例的视觉问答装置的框图；以及

图5示意性示出了根据本公开实施例的适于实现视觉问答方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

可以利用如下方式实现视觉问答。首先，利用不同的特征提取器提取整个文本图像的文本图像数据的视觉特征，再利用语义编码器提取与根据文本图像数据确定的待回答问题的待回答问题数据对应的语义特征，之后将视觉特征和语义特征进行融合后生成推理特征，再利用推理特征确定待回答问题的答案。

上述方式待回答问题的答案存在于文本图像的视觉特征中，然而在较多的视觉问答场景中，问题的答案还存在于文本图像的文字信息中。此外，上述方式难以捕捉视觉特征和语义特征之间的深层语义关系，使得预测答案的准确性不高。

为此，本公开实施例提出了一种问答方案。对多个文本区域各自的浅层语义特征、局部视觉特征和位置特征进行视觉和语言多模态特征之间有效的信息交互和特征学习，得到具有深层次地表征能力的与多个文本区域各自对应的深层语义特征，在此基础上，利用多个文本区域各自的深层语义特征进行答案预测，从而提高预测答案的准确性。

图1示意性示出了根据本公开实施例的可以应用视觉问答方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用视觉问答方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的视觉问答方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。

服务器105可以是提供各种服务的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，VPS)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的视觉问答方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的视觉问答装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的视觉问答方法一般也可以由服务器105执行。相应地，本公开实施例所提供的视觉问答装置一般可以设置于服务器105中。本公开实施例所提供的视觉问答方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视觉问答装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的视觉问答方法的流程图。

如图2所示，该方法200包括操作S210～S240。

在操作S210，对文本图像的文本图像数据进行处理，得到文本图像的至少一个文本区域各自的局部视觉特征。

在操作S220，对待回答问题的待回答问题数据和文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征。待回答问题数据是根据文本图像数据确定的。

在操作S230，根据多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到多个文本区域各自的深层语义特征。位置特征与文本图像的至少一个文本区域的位置特征相关联。

在操作S240，对多个文本区域各自的深层语义特征进行处理，生成针对待回答问题的答案。

根据本公开的实施例，文本图像可以指包括文本信息的图像。文本信息可以包括以下至少一项：字符、数字和各个语种的语言文字等。例如，各个语种可以包括以下至少一项：汉语、英语、法语和日语等。字符可以包括以下至少一项：标点符号和数学字符等。文本图像可以是互联网中公开使用的图像，也可以是开源图像数据库中的图像，还可以是由用户自行编辑得到的图像，对文本图像的来源不作限定。

根据本公开的实施例，文本图像数据可以是对文本图像的像素进行数值表征得到的。像素的数值与文本图像的颜色空间相关。颜色空间可以包括以下一项：灰度空间、RGB颜色空间、CMY颜色空间、HSV颜色空间和YUV颜色空间等。RGB颜色空间可以包括R(Red，红色)、G(Green，绿色)和B(Blue，蓝色)。CMY颜色空间可以包括C(Cyan，青色)、M(Magenta，品红色)和Y(Yellow，黄色)。HSV颜色空间可以包括H(Hue，色调)、S(Saturation，饱和度)和V(Value，明度)。YUV颜色空间可以包括Y(Luminance，亮度)、U(Chrominance，色度)和V(Chroma，浓度)。

根据本公开的实施例，文本信息在文本图像上占据的区域可以称为文本区域。文本区域可以利用文本提取算法从文本图像数据中确定文本区域。文本提取算法可以包括以下至少一项：基于图像的密度差和色差的文本区域提取算法、基于稀疏信号表征的文本区域提取算法和二值化聚类算法。

根据本公开的实施例，局部视觉特征可以指与文本区域对应的视觉特征。局部视觉特征可以是对与文本图像对应的全局视觉特征进行处理得到的。备选地，局部视觉特征也可以是对文本区域进行特征提取得到的。

根据本公开的实施例，待回答问题可以指需要回答的问题。待回答问题的待回答问题数据可以是根据文本图像的文本图像数据确定的，即，待回答问题数据可以是根据语义提取结果确定的。语义提取结果可以是对文本图像数据进行语义特征提取得到。例如，可以利用文字识别工具处理文本图像数据，得到语义提取结果。文字识别工具可以包括OCR(Optical Character Recognition，光学字符识别)引擎。

根据本公开的实施例，语义特征能够表征文本数据的语义信息。浅层语义特征可以指直接对文本数据进行语义特征提取而未结合其他类型的特征所得到的语义特征。浅层语义特征可以是利用自然语言处理算法对文本区域内的文本数据进行特征提取而得到的。位置特征可以是根据文本图像的至少一个文本区域各自的位置信息生成的。文本图像的至少一个文本区域各自的位置信息可以是对文本图像的文本图像数据进行处理得到的。例如，可以对文本图像的文本图像数据进行文本检测，得到文本图像的至少一个文本区域和至少一个文本区域各自的位置信息。可以利用文字检测模型处理文本图像的文本图像数据，得到文本图像的至少一个文本区域和至少一个文本区域各自的位置信息。

根据本公开的实施例，深层语义特征可以指对多种类型的特征进行语义特征提取得到的语义特征。多种类型的特征可以包括视觉特征、位置特征和浅层语义特征。深层语义特征可以是根据文本区域的局部视觉特征、位置特征和浅层语义特征得到的。深层语义特征可以是局部视觉特征、位置特征和浅层语义特征的融合信息。

根据本公开的实施例，在对文本图像数据进行处理前，还可以对文本图像数据进行预处理。预处理可以包括以下至少一项：插值、滤波和域变换等。

根据本公开的实施例，可以对文本图像的文本图像数据进行视觉特征提取，得到全局视觉特征。可以对文本图像数据进行处理，得到文本图像的至少一个文本区域和至少一个文本区域各自的位置信息。例如，可以利用文本检测模型处理文本图像数据，得到文本图像的至少一个文本区域和至少一个文本区域各自的位置信息。基于至少一个文本区域各自的位置信息，根据文本图像的全局视觉特征，得到文本图像的至少一个文本区域各自的局部视觉特征。可以对文本图像的至少一个文本区域各自的位置信息进行处理，得到文本图像的至少一个文本区域各自的位置特征。

根据本公开的实施例，可以对待回答问题数据和文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征。例如，可以利用词编码策略和语义提取策略处理待回答问题数据和文本图像的至少一个文本区域，得到与待回答问题对应的至少一个文本区域各自的浅层语义特征和文本图像的至少一个文本区域各自的浅层语义特征。备选地，可以利用词编码策略和语义提取策略依次处理待回答问题的待回答问题数据，得到与待回答问题对应的至少一个文本区域各自的浅层语义特征。针对文本图像的至少一个文本区域中的每个文本区域，利用词编码策略和语义提取策略依次处理每个文本区域，得到每个文本区域的浅层语义特征。多个文本区域可以包括待回答问题的至少一个文本区域和文本图像的至少一个文本区域。

根据本公开的实施例，针对多个文本区域中的每个文本区域，对文本区域的浅层语义特征、局部视觉特征和位置特征进行处理，得到文本区域的深层语义特征。对多个深层语义特征进行处理，得到待回答问题的答案。需要说明的是，可以对与待回答问题对应的至少一个文本区域的局部视觉特征和位置特征进行补全，以得到与待回答问题对应的至少一个文本区域的深层语义特征。例如，可以使用零向量作为与待回答问题对应的至少一个文本区域的局部视觉特征和位置特征。

根据本公开的实施例，通过对多个文本区域各自的浅层语义特征、局部视觉特征和位置特征进行视觉和语言多模态特征之间有效的信息交互和特征学习，得到具有深层次地表征能力的与多个文本区域各自对应的深层语义特征，在此基础上，利用多个文本区域各自的深层语义特征进行答案预测。网络学习到了更为深层次的语义关系推理以及更为丰富的多模态特征表达，因此，可以有效提高预测答案的准确性。

根据本公开的实施例，操作S210可以包括如下操作。

对文本图像数据进行视觉特征提取，得到全局视觉特征。基于至少一个文本区域各自的位置信息，根据全局视觉特征，得到至少一个文本区域各自的局部视觉特征。

根据本公开的实施例，全局视觉特征可以指整个文本图像的视觉特征。可以将文本图像数据输入到骨干网络(即Backbone)中进行特征提取，以得到全局视觉特征。骨干网络可以包括基于卷积神经网络的各种已有框架的神经网络。例如，骨干网络可以包括LeNet、AlexNet、VGG(Visual Geometry Group)或ResNet(Deep Residual Network，深度残差网络)等。备选地，骨干网络也可以包括基于Transformer的神经网络。

根据本公开的实施例，文本区域的位置信息可以指文本区域的文本框在文本图像中的位置。可以在与全局视觉特征的对应的特征图中对应于文本区域的位置信息的部分进行抠图操作。通过抠图操作截取下来的部分特征图确定为文本区域的局部视觉特征。备选地，还可以对截取下来的部分特征图进行池化操作，并将池化操作的结果确定为文本区域的局部视觉特征。池化操作可以包括以下一项：ROI(Region OfInterest，感兴趣区域)池化、最大值池化或平均池化。池化操作所利用的池化核的大小可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，操作S220可以包括如下操作。

利用词编码策略和语义提取策略依次处理待回答问题数据，得到与待回答问题对应的至少一个文本区域各自的浅层语义特征。针对文本图像的至少一个文本区域中的每个文本区域，利用词编码策略和语义提取策略依次处理每个文本区域，得到每个文本区域的浅层语义特征。

根据本公开的实施例，词编码策略可以指对文本区域的文本信息进行编码的策略。词编码策略可以包括以下至少一项：基于词向量的固定表征算法、基于词向量的动态表征算法、基于Bag-of-Words的算法和基于主题模型的算法。基于Bag-of-Words的算法可以包括One-Hot(即独热编码)、TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文本频率指数)或Textrank(即文本排序)。基于主题模型的算法可以包括LSA(LatentSemantic Analysis，潜在语义分析)、PLSI(Probabilistic Latent Semantic Indexing，基于概率潜在语义分析)或LDA(Latent Dirichlet allocation，隐含狄利克雷分布)。基于词向量的固定表征算法可以包括Word2vec(即Word to Vector)、fastText或Glove(即Global Vectors for Word Representation)。基于词向量的动态表征算法可以包括ELMo或BERT。

根据本公开的实施例，语义提取策略可以指对文本区域的文本信息进行语义提取的策略。语义提取策略可以包括基于循环神经网络实现的策略或基于全连接网络实现的策略。基于循环神经网络实现的策略可以包括基于GRU(Gated Recurrent Unit)实现的策略或基于LSTM(Long Short-Term Memory，长短期记忆网络)实现的策略。

例如，可以根据预定词表得到与待回答问题包括的至少一个文本区域各自的语义特征。根据预定词表得到与文本图像的至少一个文本区域各自的语义特征。利用语义提取策略处理与待回答问题的至少一个文本区域各自的语义特征，得到待回答问题的至少一个文本区域各自的浅层语义特征。利用语义提取策略处理与文本图像包括的至少一个文本区域各自的语义特征，得到文本图像的至少一个文本区域各自的浅层语义特征。

根据本公开的实施例，上述视觉问答方法还可以包括如下操作。

对至少一个文本区域各自的位置信息进行位置编码，得到至少一个文本区域各自的位置特征。

根据本公开的实施例，可以利用位置编码算法处理每个文本区域的位置信息，得到文本区域的位置特征。位置编码算法可以包括正余弦位置编码算法或学习位置向量算法。此外，表征位置信息的位置向量可以是相较于局部视觉特征或浅层语义特征具有更低维度。对位置信息进行位置编码还可以是将低维度的位置向量转换为高维度的位置特征。

根据本公开的实施例，操作S230可以包括如下操作。

针对多个文本区域中的每个文本区域，对每个文本区域的浅层语义特征、局部视觉特征和位置特征进行融合，得到多个文本区域各自的融合特征。对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征。

根据本公开的实施例，对浅层语义特征、局部视觉特征和位置特征进行融合可以包括将浅层语义特征、局部视觉特征和位置特征进行相加、加权相加和拼接等中的至少一项。

根据本公开的实施例，对融合特征进行语义特征提取可以是利用深度学习模型对融合特征进行学习和表达。深层学习模型可以包括基于注意力机制的神经网络等。

根据本公开的实施例，对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征，可以包括如下操作。

基于注意力策略，对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征。

根据本公开的实施例，注意力策略可以用于实现以高权重去聚焦重要信息，低权重去忽略非重要信息，并能通过共享重要信息与其他信息进行信息交换，从而实现重要信息的传递。即，注意力策略能够提取同一文本区域内部和不同文本区域之间的信息，以更好地完成对文本区域的语义特征提取。可以根据注意力策略确定多头自注意机制层和前馈神经网络层。

根据本公开的实施例，基于注意力策略，对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征，可以包括如下操作。

利用深层语义提取模型处理多个文本区域各自的融合特征，得到多个文本区域各自的深层语义特征。深层语义特征模型包括多头自注意机制层和前馈神经网络层。

根据本公开的实施例，深层语义提取模型可以是基于Transformer的神经网络模型。深层语义提取模型可以包括编码器和解码器。编码器可以包括级联的多头自注意机制层和前馈神经网络层。解码器可以包括级联的多头自注意机制层和前馈神经网络层。

根据本公开的实施例，可以利用深层语义提取模型的编码器处理多个文本区域各自的融合特征，得到多个文本区域各自的中间特征。利用深层语义提取模型的解码器处理多个文本区域各自的中间特征，得到多个文本区域各自的深层语义特征。

根据本公开的实施例，利用深层语义提取模型可以充分挖掘文本图像的视觉特征和待回答问题的语义特征之间的推理关系，利用处理得到的深层语义特征进行待回答问题的答案的预测，可以有效提高预测的准确性。

根据本公开的实施例，操作S240可以包括如下操作。

根据多个文本区域各自的深层语义特征，得到多个文本区域各自的分类结果。根据多个文本区域各自的分类结果，生成针对待回答问题的答案。

根据本公开的实施例，可以将文本区域的深层语义特征输入到预定分类器中，得到文本区域的分类结果。预定分类器可以包括决策树模型、逻辑回归模型或神经网络模型。预定分类器的类型可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，分类结果可以是针对待回答问题的答案归属于答案库中的每个预定答案的概率。通过对各个概率进行比较，可以选择概率最高的预定答案作为待回答问题的答案。答案库可以是预先设置的。答案库中可以包括多个预定答案。备选地，每个分类结果还可以具有对应的对象。对应的对象可以是字、词或字符等。通过将多个分类结果对应的对象进行组合可以得到待回答问题的答案。下面参考图3，结合具体实施例对根据本公开实施例所述的视觉问答方法做进一步说明。

图3示意性示出了根据本公开实施例的问答过程的示例示意图。

如图3所示，在300中，将文本图像的文本图像数据301输入骨干网络302进行特征提取，得到文本图像301的全局视觉特征303。

可以利用OCR引擎304处理文本图像数据301，得到文本图像的至少一个文本区域305和至少一个文本区域305各自的位置信息306。

根据位置信息306，从文本图像301的全局视觉特征中截取至少一个文本区域各自的视觉特征。再利用池化层307处理至少一个文本区域各自的视觉特征，得到至少一个文本区域各自的局部视觉特征308。

将至少一个文本区域305各自的位置信息306输入位置编码器309，得到至少一个文本区域各自的位置特征310。

将文本图像的至少一个文本区域和待回答问题数据311输入词编码器312，得到多个文本区域各自的浅层语义特征313。

针对多个文本区域中的每个文本区域，对每个文本区域的浅层语义特征313、局部视觉特征308和位置特征310进行融合，得到多个文本区域各自的融合特征。

将多个文本区域各自的融合特征输入深层语义提取模型314，得到多个文本区域各自的深层语义特征315。将多个文本区域各自的深层语义特征315输入答案预测网络316，得到针对待回答问题的答案317。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他视觉问答方法，只要能够提高答案预测的准确性即可。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图4示意性示出了根据本公开实施例的视觉问答装置的框图。

如图4所示，视觉问答装置400可以包括第一处理模块410、获得模块420、第二处理模块430和第三处理模块440。

第一处理模块410，用于对文本图像的文本图像数据进行处理，得到文本图像的至少一个文本区域各自的局部视觉特征。

获得模块420，用于对待回答问题的待回答问题数据和文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征。待回答问题数据是根据文本图像数据确定的。

第二处理模块430，用于根据多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到多个文本区域各自的深层语义特征。位置特征与文本图像的至少一个文本区域的位置特征相关联。

第三处理模块440，用于对多个文本区域各自的深层语义特征进行处理，生成针对待回答问题的答案。

根据本公开的实施例，第二处理模块430还可以包括第一处理子模块和第二处理子模块。

第一处理子模块，用于针对多个文本区域中的每个文本区域，对每个文本区域的浅层语义特征、局部视觉特征和位置特征进行融合，得到多个文本区域各自的融合特征。

第二处理子模块，用于对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征。

根据本公开的实施例，第二处理子模块还可以包括处理单元。

处理单元，用于基于注意力策略，对多个文本区域各自的融合特征进行语义特征提取，得到多个文本区域各自的深层语义特征。

根据本公开的实施例，处理单元还可以包括处理子单元。

处理子单元，用于利用深层语义提取模型处理多个文本区域各自的融合特征，得到多个文本区域各自的深层语义特征。深层语义特征模型包括多头自注意机制层和前馈神经网络层。

根据本公开的实施例，第一处理模块410还可以包括第三处理子模块和第四处理子模块。

第三处理子模块，用于对文本图像的文本图像数据进行视觉特征提取，得到全局视觉特征。

第四处理子模块，用于基于至少一个文本区域各自的位置信息，根据全局视觉特征，得到至少一个文本区域各自的局部视觉特征。

根据本公开的实施例，视觉问答装置400还可以包括编码模块，

编码模块，用于对至少一个文本区域各自的位置信息进行位置编码，得到至少一个文本区域各自的位置特征。

根据本公开的实施例，获得模块420还可以包括第一获得子模块和第二获得子模块。

第一获得子模块，用于利用词编码策略和语义提取策略依次处理待回答问题的待回答问题数据，得到与待回答问题对应的至少一个文本区域各自的浅层语义特征。

第二获得子模块，用于针对文本图像的至少一个文本区域中的每个文本区域，利用词编码策略和语义提取策略依次处理每个文本区域，得到每个文本区域的浅层语义特征。

根据本公开的实施例，第三处理模块440还可以包括第五处理子模块和第六处理子模块。

第五处理子模块，用于根据多个文本区域各自的深层语义特征，得到多个文本区域各自的分类结果。

第六处理子模块，用于根据多个文本区域各自的分类结果，生成针对待回答问题的答案。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图5示意性示出了根据本公开实施例的适于实现视觉问答方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储电子设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如视觉问答方法。例如，在一些实施例中，视觉问答方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的视觉问答方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视觉问答方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视觉问答方法，包括：

对文本图像的文本图像数据进行处理，得到所述文本图像的至少一个文本区域各自的局部视觉特征；

对待回答问题的待回答问题数据和所述文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征，其中，所述待回答问题数据是根据所述文本图像数据确定的；

根据所述多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到所述多个文本区域各自的深层语义特征，其中，所述位置特征与所述文本图像的至少一个文本区域的位置特征相关联；以及

对所述多个文本区域各自的深层语义特征进行处理，生成针对所述待回答问题的答案。

2.根据权利要求1所述的方法，其中，所述根据所述多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到所述多个文本区域各自的深层语义特征，包括：

针对所述多个文本区域中的每个文本区域，对所述每个文本区域的浅层语义特征、局部视觉特征和位置特征进行融合，得到所述多个文本区域各自的融合特征；以及

对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征。

3.根据权利要求2所述的方法，其中，所述对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征，包括：

基于注意力策略，对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征。

4.根据权利要求3所述的方法，其中，所述基于注意力策略，对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征，包括：

利用深层语义提取模型处理所述多个文本区域各自的融合特征，得到所述多个文本区域各自的深层语义特征，其中，所述深层语义特征模型包括多头自注意机制层和前馈神经网络层。

5.根据权利要求1～4中任一项所述的方法，其中，所述对文本图像的文本图像数据进行处理，得到所述文本图像的至少一个文本区域各自的局部视觉特征，包括：

对所述文本图像的文本图像数据进行视觉特征提取，得到全局视觉特征；以及

基于所述至少一个文本区域各自的位置信息，根据所述全局视觉特征，得到所述至少一个文本区域各自的局部视觉特征。

6.根据权利要求1～5中任一项所述的方法，还包括：

对所述至少一个文本区域各自的位置信息进行位置编码，得到所述至少一个文本区域各自的位置特征。

7.根据权利要求1～6中任一项所述的方法，其中，所述对待回答问题的待回答问题数据和所述文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征，包括：

利用词编码策略和语义提取策略依次处理所述待回答问题的待回答问题数据，得到与所述待回答问题对应的至少一个文本区域各自的浅层语义特征；以及

针对所述文本图像的至少一个文本区域中的每个文本区域，利用所述词编码策略和所述语义提取策略依次处理所述每个文本区域，得到所述每个文本区域的浅层语义特征。

8.根据权利要求1～7中任一项所述的方法，其中，所述对所述多个文本区域各自的深层语义特征进行处理，生成针对所述待回答问题的答案，包括：

根据所述多个文本区域各自的深层语义特征，得到所述多个文本区域各自的分类结果；以及

根据所述多个文本区域各自的分类结果，生成针对所述待回答问题的答案。

9.一种视觉问答装置，包括：

第一处理模块，用于对文本图像的文本图像数据进行处理，得到所述文本图像的至少一个文本区域各自的局部视觉特征；

获得模块，用于对待回答问题的待回答问题数据和所述文本图像的至少一个文本区域进行语义特征提取，得到多个文本区域各自的浅层语义特征，其中，所述待回答问题数据是根据所述文本图像数据确定的；

第二处理模块，用于根据所述多个文本区域各自的浅层语义特征、局部视觉特征和位置特征，得到所述多个文本区域各自的深层语义特征，其中，所述位置特征与所述文本图像的至少一个文本区域的位置特征相关联；以及

第三处理模块，用于对所述多个文本区域各自的深层语义特征进行处理，生成针对所述待回答问题的答案。

10.根据权利要求9所述的装置，其中，所述第二处理模块，包括：

第一处理子模块，用于针对所述多个文本区域中的每个文本区域，对所述每个文本区域的浅层语义特征、局部视觉特征和位置特征进行融合，得到所述多个文本区域各自的融合特征；以及

第二处理子模块，用于对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征。

11.根据权利要求10所述的装置，其中，所述第二处理子模块，包括：

处理单元，用于基于注意力策略，对所述多个文本区域各自的融合特征进行语义特征提取，得到所述多个文本区域各自的深层语义特征。

12.根据权利要求11所述的装置，其中，所述处理单元，包括：

处理子单元，用于利用深层语义提取模型处理所述多个文本区域各自的融合特征，得到所述多个文本区域各自的深层语义特征，其中，所述深层语义特征模型包括多头自注意机制层和前馈神经网络层。

13.根据权利要求9～12中任一项所述的装置，其中，所述第一处理模块，包括：

第三处理子模块，用于对所述文本图像的文本图像数据进行视觉特征提取，得到全局视觉特征；以及

第四处理子模块，用于基于所述至少一个文本区域各自的位置信息，根据所述全局视觉特征，得到所述至少一个文本区域各自的局部视觉特征。

14.根据权利要求9～13中任一项所述的装置，还包括：

编码模块，用于对所述至少一个文本区域各自的位置信息进行位置编码，得到所述至少一个文本区域各自的位置特征。

15.根据权利要求9～14中任一项所述的装置，其中，所述获得模块，包括：

第一获得子模块，用于利用词编码策略和语义提取策略依次处理所述待回答问题的待回答问题数据，得到与所述待回答问题对应的至少一个文本区域各自的浅层语义特征；以及

第二获得子模块，用于针对所述文本图像的至少一个文本区域中的每个文本区域，利用所述词编码策略和所述语义提取策略依次处理所述每个文本区域，得到所述每个文本区域的浅层语义特征。

16.根据权利要求9～15中任一项所述的装置，其中，所述第三处理模块，包括：

第五处理子模块，用于根据所述多个文本区域各自的深层语义特征，得到所述多个文本区域各自的分类结果；以及

第六处理子模块，用于根据所述多个文本区域各自的分类结果，生成针对所述待回答问题的答案。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～8中任一项所述的方法。