CN113722458A

CN113722458A - 视觉问答处理方法、设备、计算机可读介质和程序产品

Info

Publication number: CN113722458A
Application number: CN202110994133.5A
Authority: CN
Inventors: 连欢; 朱飞
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-30
Anticipated expiration: 2041-08-27
Also published as: CN113722458B

Abstract

本申请提供一种视觉问答处理方法、设备、计算机可读介质和程序产品。该方法包括：接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面；对提问指令的意图类型进行识别；若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；将指令的答案信息输出给用户。本申请的方法，针对提问的意图类型可输入至对应的典型属性模型或VQA模型，为从显示画面中确定提问指令的答案提供了更多维度的匹配方法，提升了视觉问答结果的准确率。

Description

视觉问答处理方法、设备、计算机可读介质和程序产品

技术领域

本申请涉及视觉问答领域，尤其涉及一种视觉问答处理方法、设备、计算机可读介质和程序产品。

背景技术

视觉问答(Visual Question Answering，VQA)是人工智能领域一项具有挑战性的任务，其属于计算机视觉和自然语言处理的交叉方向。视觉问答需要对图像的视觉内容和问题的文本内容同时有细致的理解，它以图像(或视频)和与图像(或视频)有关的文本问题的多模态信息作为计算机的输入，以计算机根据图片得到问题的正确答案为输出。

现有技术在视觉问答系统中，问题和图像输入的模型表征的特征不够丰富，导致视觉问答系统只能回答比较小部分的内容，覆盖领域不全面，造成输出的答案准确率不高。

发明内容

本申请提供一种视觉问答处理方法、设备、计算机可读介质和程序产品，用以解决现有视觉问答系统中模型推导速度慢、视觉问答结果准确率低的问题。

一方面，本申请提供一种视觉问答处理方法，包括：

接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面；

对提问指令的意图类型进行识别；

若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；

若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；

将指令的答案信息输出给用户。

第二方面，本申请提供一种视觉问答处理装置，包括：

接收模块，接收用户通过交互接口输入的提问指令；

获取模块，获取提问指令及对应的显示画面；

识别模块，若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；

输出模块，将指令的答案信息输出给用户。

第三方面，本申请提供一种电子设备，

包括：显示器，存储器，处理器；

显示器，用于显示图像，并在处理器的控制下进行显示；

存储器；用于存储处理器可执行指令的存储器；

其中，处理器被配置为运行存储器中存储的指令以执行第一方面任一项视觉问答处理方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现第一方面任一项视觉问答处理方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项视觉问答处理方法。

本申请提供的视觉问答处理方法、设备、计算机可读介质和程序产品，通过接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面；对提问指令的意图类型进行识别；若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；将指令的答案信息输出给用户。本申请的方法，针对提问的意图类型可输入至对应的典型属性模型或VQA模型，为从显示画面中确定提问指令的答案提供了更多维度的匹配方法，提升了视觉问答结果的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种视觉问答处理方法流程图；

图2为本申请实施例提供的一种视觉问答服务示意图；

图3为本申请实施例提供的一种影视知识视觉问答流程图；

图4为本申请实施例提供的一种通用视觉问答VQA模型对提问指令与显示画面进行协同注意力计算的流程图；

图5为本申请实施例提供的一种网格特征提取结构示意图；

图6为本申请实施例提供的三种MCA变体结构示意图；

图7为本申请实施例提供的又一种视觉问答处理方法流程图；

图8为本申请实施例提供的一种视觉问答处理装置示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请可以用于智能电视，智能平板，智能显示器等设备中，用户可以基于显示设备显示的图像提出问题，通过本申请提供的视觉问答处理方法，得到与问题相匹配的答案输出。该技术应用场景非常广泛，例如：应用于医学领域，可以帮助盲人和视障人士能够在网络或者现实世界获得更多的信息，甚至可以进行实时的人机交互，这将极大改善盲人和视障人士的生活条件和便捷性；又例如：应用于机器人领域，改善人机交互的方式，通过自然语言来查询视觉内容，拓展智能机器人的问答功能；再例如：应用于图像检索领域等等。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种视觉问答处理方法流程图，如图1所示，包括：

S101、接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面；

该方法的执行主体可以是智能电视机等设备。交互接口可以是任意一种交互设备，例如，交互设备为语音输入设备，可选的，可以是与智能电视相匹配的遥控器，用户按压遥控器语音键，输入要提问的问题，智能电视机接收到用户通过交互接口输入的提问指令。交互接口还可以是显示设备本身的交互接口，该交互接口同样可以接收用户输入的语音或文字指令，或触摸指令。

用户输入提问后，智能电视中的截屏模块会自动截取屏幕中图像，从而获取到与提问指令相对应的显示画面。

用户可以通过提问指令提出各种问题，例如，可以是：

电视中有什么？

电视中存在猫吗？

电视中的猫是什么颜色？

电视中的场景是什么？

电视中共有几只猫？

电视中指示牌的内容是什么？

S102、对提问指令的意图类型进行识别；

用户输出提问指令后，对提问指令进行识别，识别出用户意图。其中，意图识别可以采用各种分类方法。例如：卷积神经网络(Convolutional Neural Networks，简称CNN)文本分类方法、贝叶斯分类器、通过在数据库中配置各类型的典型说法来判断用户提问指令所在的意图类型等。也可以将以上方法进行融合使用，例如，将数据库中配置典型说法放在贝叶斯分类器的后面，来提高识别的准确性并增强可维护性。

S103、若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；

其中，非通用类型是指提问意图具有典型的属性类型，例如：植物视觉问答、动物视觉问答、食物视觉问答等等；通用类型是指以上非通用类型以外的，简单通用的问题。

若经过上述分类模块识别出的意图类型为非通用类型，则将提问指令输入至对应的典型属性模型即对应的模型或接口得到提问指令的答案信息，如图2所示。其中，非通用类型如上述的举例所示，包括但不限于以下的一种或者多种，例如，可以是植物类、动物类、车辆类、品牌类、景点类、热量类、食物类、人脸识别类、影视类和数量类。需要特别说明的是，图2中所示非通用模型或接口只是视觉问答系统的一部分，并不因此作为对本申请的限制。

为便于理解本步骤，举例说明如下：

例如，假设用户提问问题涉及通用分类模型中的影视知识问答，系统调用对应的知识图谱问答模型，得到答案。如图3所示，图3为影视知识视觉问答流程图，假设用户问题为“张三的妻子是谁”，当前正在播放的影视名为《xx》。通过到相关图数据库进行查询解析，得到结果为“李四”，通过答案编辑，输出“张三的妻子是李四”。

S104、若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；

如上所言，通用类型是指非通用类型以外的，简单通用的问题。若经过上述分类模块识别出的意图类型为通用类型时，则调用视觉问答模型(VQA模型)，该视觉问答模型是基于深度是协同注意力和网格特征的VQA模型。通过对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息。

S105、将指令的答案信息输出给用户。

视觉问答系统经过上述步骤得到与提问指令相对应的答案后，将指令的答案输出给用户。

本申请实施例提供的一种视觉问答处理方法，通过接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面；对提问指令的意图类型进行识别；若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；将指令的答案信息输出给用户。本实施例的方法，针对提问的意图类型可输入至对应的典型属性模型或VQA模型，为从显示画面中确定提问指令的答案提供了更多维度的匹配方法，提升了视觉问答结果的准确率。

图4为本申请实施例提供的一种通用视觉问答VQA模型对提问指令与显示画面进行协同注意力计算的流程图，在图1所示实施例的基础之上，对S104中将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行协同注意力计算，可以通过以下步骤实现：

S1041、对提问指令中的提问信息进行分词处理，并基于分词处理结果生成语义特征数据；

首先将输入的问题文本进行单词的划分，划分后为了便于识别语义特征，可以通过N维Word embeddings方法将每一个单词转化为向量，其中，Word embeddings方法是在大规模语料库上预训练而成。然后，将词嵌入并再输入一个单层Long Short Term MermoryNetwork(LSTM)网络。其中，LSTM是一种特殊的神经网络，可以解决长时依赖问题。最后，输出问题的特征矩阵，从而获取到语义特征数据Y。

S1042、对显示画面进行图像特征提取，得到图像特征数据；

图像特征是图像区域视觉特征的集合，可以对显示画面采用自下而上(bottom-up)的方式进行提取，这些特征通过Faster R-CNN(里面backbone是ResNet-101)来获取，其中，Faster R-CNN已经在Visual Genome数据库上训练好。通过设置置信阈值判断特征是否为活动目标，目标的数量介于[10,100]，对于第i个目标，它是由卷积层通过平均池化(mean-pooling)得到的特征，记为x_i，平均池化可以保留更多图像信息，最终将图像表示为一个特征矩阵，从而获取到图像特征数据X。

Faster R-CNN提取图像特征是通过区域特征提取的，其计算比较耗时，因此在本申请中考虑采用网格卷积特征来进行图像特征提取。将区域特征转化为网格特征的方法是通过共享的全连接卷积方式来获得与Faster R-CNN各层的输出。如图5所示，左图中，Faster R-CNN在给定输入图片条件下，采用ResNet网络得到C4层结果，然后分两步获取C5结果，最终得到区域特征。因此，可以直接采用ResNet网络计算C5的结果，并将其作为网格特征。图5右图中，为改进后方法，其采用1×1的ROI-Pooling检测器即每个region的特征只用一个一维向量表示，这样使得这个一维向量便会融合这个区域所有信息，使获得的网格特征更强。此外，改进后的方法同时保持了网格特征的输出架构，从而使得到的网格特征与区域特性保持一致。通过采用网格卷积特征来进行图像特征提取，提取速度从几秒提升到150ms内，极大的提高了视觉问答模型的推导速度，从而降低耗时。

S1043、对语义特征数据和图像特征数据进行深度协同注意力学习和多模态融合计算；

通过语义特征数据和图像特征数据进行深度协同注意力学习和多模态融合计算，将问题中的关键词和图像中的关键区域联系起来，即关注图片中与问题相关的区域或者关注问题中最关键的词，实现多模态之间的充分交互。

通过在S1041步骤中获取的语义特征数据Y和图像特征数据X作为Modular Co-Attention Layer(MCA layer)的输入，进行协同注意力学习。

首先，明确MCA layer的基本组件：

具体的，MCA layer是将两个注意力单元结合起来的一个模块，两个注意力单元分别是self attention(SA)单元和guided attention(GA)单元，其中，这两个注意力单元都采用caled-dot-product形式。通过两者之间不同的结合方式，能够获得三种MCA变体，用于实现不同的目的。

其中，caled-dot-product的输入由问题、关键词的维度d_key、值的维度d_value组成，为了方便，将这两个维度值都设为d，再计算问题和所有关键词的点积，除以

后再用softmax来获得attention的权重值。给定一组问题q∈R^1×d，关键词K∈R^n×d，值V∈R^n×d，进行attention后的特征权重f∈R^1×d可以表示为：

之后，再引入multi-head attention，它由h个平行的“head”组成，采用多头注意力来增加特征的表达能力，头数用h表示。为了减小模型的体量，常用dh＝d/h，其中，d为总的特征维度。每个头对应着一组独立的scaled-dot-product计算。这样f可以表示为：

f＝MA(q，K，V)＝[head₁，head₂，...，head_h]W⁰

head_j＝A(qW_j ^Q，KW_j ^K，VW_j ^V)

在SA单元中，SA单元由多头注意力层和FFN层组成。给定一组输入特征X＝[x₁；...；x_m]∈R^m×dx，通过SA获得输出特征Z，SA计算的是每一组样<x_i，x_j>的特征关系。对于输入X中每个x_i，输出f_i＝MA(x_i，X，X)，可以理解为X中所有样本相对于其与x_i的归一化相似性对x_i进行重构。

在GA单元中，给定两组输入特征X和Y，其中Y用来指导X的attention计算。因为X和Y的形状是可变的，因此可以用来标注不同模态的特征，比如对于问题Y和图像X，GA计算的是每一组样本<x_i，y_j>的特征关系。对于输入特征X和Y，f_i＝MA(x_i，Y，Y)，可以理解为利用Y中中所有样本的归一化跨模态相似度对x_i进行重构。

然后，明确MCA layer变体：

上述提到，MCA layer中两个注意力单元两者之间不同的结合方式，能够获得三种MCA变体，如下图6所示，分别是ID(Y)-GA(X，Y)、SA(Y)-GA(X，Y)和SA(Y)-SGA(X，Y)。这三种变体在深度方向都可以直接堆叠，即每一层的输入特征维度和输出特征维度都是相同的。

具体的，它们的表达含义如下：

ID(Y)-GA(X，Y)：输入问题特征，通过一个identity mapping到输出特征，图像X中每个region和问题Y中每个词的模态交互在GA中完成，交互结果会用来获取更深层次的图像特征；

SA(Y)-GA(X，Y)：和ID(Y)-GA(X，Y)相比，对于Y输入增加了一个SA单元。多增加的一个SA层来进行问题模态的内部交互；

SA(Y)-SGA(X，Y)：和ID(Y)-GA(X，Y)相比，对图像X和question Y各增加了一个SA单元。多增加的另一个SA层进行图像模态的内部交互。

通过得到不同的MCA layer变体，来实现问题模态的内部交互、图像模态的内部交互以及问题模态与图像模态之间的交互。

再然后，明确多层MCA layer：

上述三种变体可以在深度方向进行连接，从而形成深层次的网络。连接的方式可以采用直接堆叠的方式。以SA(Y)-SGA(X，Y)为例，假定采用L层MCA连接，则可以有以下两种方式：

Stacking：在深度方向上进行最简单的直接堆叠，获得最终的图像特征输出X^(L)和问题特征输出Y^(L)。

Encoder-Decoder：受到transformer的启发，相比Stacking而言，改动的地方在于将第L问题特征输出Y^(L)作为各层SGA(X，Y)的输入来获得最终的图像特征输出X^(L)。

通过形成多层MCA layer，可以实现更深层次的多模态交互，从而传递出更多信息。

进一步的，对通过上一步得到的含有关键信息的语义特征数据和图像特征数据进行特征融合，具体的：

对语义特征数据和图像特征数据进行深度协同注意力学习后，输出图片特征向量

和问题特征向量

这两个向量已经这两个特征向量已经包含了丰富问题和图像的信息。因此，对X^(L)和Y^(L)都采用了一个两层的MLP网络来获得进一步的表示，分别记为

和

以图像特征为例计算过程如下：

α＝softmax(MLP(X^(L)))

最终，获得的图像特征为：

通过对语义特征数据和图像特征数据进行深度协同注意力学习和多模态融合计算，使得到的多模态信息交互更加深层密集，进一步的提高了信息搜索的全面性和准确性。

S1044、基于分类算法对多模态融合计算结果进行分类，得到提问指令的答案信息。

在获得上述

和

后，采用一个线性多模态融合函数进行融合，得到了融合特征z：

将融合特征z映射为一个N维向量s，其中，N是训练集中频次最高答案的数量，然后接sigmoid函数进行分类。可选的，采用Binary Cross-Entropy(BCE)作为损失函数来对融合特征z训练一个N分类器。最终，选择出具有最大概率的类作为该对象所属的类，并得到答案信息。

此外，为了提升视觉问答模型的效果，本实施例还可以预先对该模型用到的数据集进行了语料优化。其中，进行语料优化的数据集为VQA-v2数据集，Visual Genome数据集等，需要说明的是，原始的数据集为英文数据集，本实施例中所用数据集是通过翻译接口进行翻译并经人工校验得到的中文数据集。优化的具体方式可以包括以下操作：

格式优化；

整理问答对中图片命名包含中文和异常符号的问题，规范化问题ID为唯一字段。

答案归一化；

整理英文答案翻译的多义词问题，合并相似的答案为同一个答案。

问答对优化；

删除或者重新标注部分不合适的问答对，比如包含OCR的问答对，涉及常识推理的问答对等。

数据均衡化；

对高频答案对应的问答对进行部分下采样，对高频出现的问题进行问题改写替换。

补充标注；

对数据集中没有出现的一些有意义的答案进行补充标注，比如收集运动类的图片、古装类的图片进行问答对标注。

通过对数据集进行优化，提升VQA模型的使用效果，使得到的与用户问题相匹配的答案更加准确。

本实施例中，通过对提问指令输入至通用视觉问答VQA模型，进一步的对提问指令与显示画面进行深度协同注意力学习，从而得到了与提问指令相对应的答案信息。

同样的，图7所示为本申请实施例提供的又一种视觉问答处理方法流程图，意图类型是非通用类型或通用类型，都可以在提供提问指令的答案信息基础上进一步给出答案信息的置信度，置信度表示答案信息的可能性概率。置信度越高，表明答案信息可信度越高，从而可以根据置信度来辅助校验答案与提问的匹配程度。具体如下：

在实现视觉问答功能前，首先要进入智能电视机视觉问答意图模块，其触发条件是用户输入指令，若用户指令以关键字“电视中”开头，则触发，其关键字可以进行调整或扩展，不因此作为限制。中控将视觉问答意图中的IF_VQA置为1，开始视觉问答服务。

在S101中，接收用户通过交互接口输入的提问指令，并获取提问指令及对应的显示画面，具体步骤包括：

S1011、接收用户发出交互信息；

S1012、对交互信息进行关键字识别确定交互信息为提问指令，则对当前显示画面进行截图以获取提问指令对应的显示画面。

如S101所言，在本申请中，视觉问答方法的执行主体为智能电视机。在智能电视中，用户通过语音输入设备，例如遥控器，在按压遥控器语音键的时间内(时间不定)，系统会接收到用户发出的交互信息。对交互信息进行关键字识别后确定交互信息为提问指令，智能电视中的截屏模块则会自动截取当前屏幕图像，从而获取到提问指令对应的显示画面。

视觉问答系统接收到用户提问指令和显示画面后，在步骤S102中对提问指令的意图类型进行识别之前，首先需要对用户提问指令和显示画面进行匹配，如果匹配度低，则不进行后续的意图类型识别操作而是直接进行兜底处理，例如提示用户更换提问，从而进一步提高视觉问答处理的效率。具体如下：

对提问指令和显示画面进行匹配识别；

若提问指令和显示画面的匹配度小于匹配阈值，说明提问指令与显示画面不相关，则输出更换提问的提示信息。

具体的，通过问题和图像匹配模块，对提问指令和显示画面进行匹配识别即判断提问指令和显示画面的相关性，如上述，匹配模块可以是图片文本匹配模型，第三方接口的解析模型或目标检测模型等任意一种可以实现匹配的模型。

若通过匹配模块得到的匹配度数值大于设定阈值，则认为用户指令与显示画面相关，相关则继续进行下一步；反之，若通过匹配模块得到的匹配度数值小于或等于设定阈值，则认为用户指令与显示画面不相关，不相关，系统输出兜底语句，可选的，兜底语句可以为“问题和电视画面无关，请换个问题吧”，流程结束。

为使匹配过程更加便于理解，举例说明如下，例如显示画面为苹果，若用户指令为“这是什么水果”，视觉问答系统返回：“苹果”，则属于相关问题，提问指令与显示画面相匹配；如果用户指令为：“这是什么车”，由于显示画面中没有车，则属于不相关问题，此时，提问指令与显示画面不匹配。

进一步的，经过上述步骤匹配用户提问指令和显示画面后，为使后续的提问和画面匹配精准度更高，还可以对提问的表述方式进行调整，具体如下：

对提问指令进行语义识别；

根据语义识别结果对提问指令的语义表述进行调整。

具体的，若用户指令与显示画面相匹配，且涉及到的具体画面为“人物”，对用户提问指令进行语义识别后，识别出用户指令不包含具体的对象，例如，用户提出的问题为“他演了什么”，可以理解的是，由于这句话中不包含具体的对象，视觉问答系统会对语义表述进行调整。假设电视截屏中的对象为张三，系统中会调用相关接口对语义表述进行调整，调整为“张三演了什么”。可选的，本实施例中相关接口为人脸识别接口。如果用户指令本来就是“张三演了什么”，则无需转化，直接输出原始句子。

在此，需要特殊说明的是，对语义表述进行调整仅适用于显示画面中的对象为“人物”的时候，如果电视截图中出现不是“人物”而是动物或者其它，则跳过这一步骤。执行下一步。

进一步的，经过S102步骤对提问指令的意图类型进行识别后，判断出用户的意图类型，表1所示为分类意图类型及其相关表述。如表1所示：

表1

可以理解的是，不管意图类型是非通用类型或通用类型，都可以在提供提问指令的答案信息基础上进一步给出答案信息的置信度，其中，置信度表示答案信息的可信程度。

对输出的答案信息进行校验，若置信度大于或等于阈值，则将指令的答案信息输出给用户。

若置信度小于阈值，且提问信息的语义符合图像描述的准入条件，则识别显示画面得到图像描述信息及相似度，相似度表示图像描述信息与图片的相似程度；

具体的：

首先，判断显示画面是否符合图像描述的准入条件。在一种可选的实施方式中，若图像描述的说法中包含“有什么、有啥、做什么、干什么、干啥、是什么、是啥、在干嘛等”，则认为符合图像描述的准入条件，进入图像描述，否则不进入图像描述，并进行兜底处理。可选的，兜底处理可以输出视觉问答兜底语句或者不回答。

然后，判断图像描述的结果是否符合输出校验条件。若显示画面是否符合图像描述的准入条件，进入到图像描述服务，如果图像描述的结果符合输出校验条件，则输出图像描述的结果，不符合则进入兜底处理。同样的，兜底处理可以输出视觉问答兜底语句或者不回答。其中，判断是否符合输出校验条件，可选的一种判断方式为：通过任意一种匹配模块，例如图片文本匹配模型等，来判断判断图像和描述语句的相似度score，当score大于阈值的时候则认为图像描述结果可用。

最后，若相似度数值大于相似度阈值，将图像描述信息输出给用户。

图8为本申请提供的一种视觉问答处理装置示意图，该装置包括：

接收模块81，接收用户通过交互接口输入的提问指令；

获取模块82，获取提问指令及对应的显示画面；

识别模块83，若识别出意图类型为非通用类型，则将提问指令输入至对应的典型属性模型得到提问指令的答案信息；若识别出意图类型为通用类型，则将提问指令输入至通用视觉问答VQA模型以对提问指令与显示画面进行深度协同注意力学习，得到提问指令的答案信息；

输出模块84，将指令的答案信息输出给用户。

图9为本申请提供的一种视觉问答处理设备的结构示意图。如9所示，该电子设备可以包括：至少一个显示器91，处理器92和存储器93。图9示出的是以一个处理器为例的电子设备。

显示器91，用于显示图像，并在处理器的控制下进行显示；

存储器93，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器93可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器92用于执行存储器93存储的计算机执行指令，以实现视觉问答处理方法；

其中，处理器92可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，处理器92通过运行存储器93中存储的指令以实现视觉问答处理。

可选的，在具体实现上，如果通信接口、存储器93和处理器92独立实现，则通信接口、存储器93和处理器92可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口、存储器93和处理器92集成在一块芯片上实现，则通信接口、存储器93和处理器92可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序信息，程序信息用于视觉问答处理。

本申请实施例还提供一种程序，该程序在被处理器执行时用于执行以上方法实施例提供的视觉问答处理方法。

本申请实施例还提供一种程序产品，例如计算机可读存储介质，该程序产品中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例提供的视觉问答处理。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种视觉问答处理方法，其特征在于，包括：

接收用户通过交互接口输入的提问指令，并获取所述提问指令及对应的显示画面；

对所述提问指令的意图类型进行识别；

若识别出所述意图类型为非通用类型，则将所述提问指令输入至对应的典型属性类型模型得到所述提问指令的答案信息；

若识别出所述意图类型为通用类型，则将所述提问指令输入至通用视觉问答VQA模型以对所述提问指令与所述显示画面进行深度协同注意力学习，得到所述提问指令的答案信息；

将所述指令的答案信息输出给所述用户。

2.根据权利要求1所述的方法，其特征在于，所述将所述提问指令输入至通用视觉问答VQA模型以对所述提问指令与所述显示画面进行协同注意力计算，包括：

对所述提问指令中的提问信息进行分词处理，并基于分词处理结果生成语义特征数据；

对所述显示画面进行图像特征提取，得到图像特征数据；

对所述语义特征数据和所述图像特征数据进行深度协同注意力学习和多模态融合计算；

基于分类算法对所述多模态融合计算结果进行分类，得到所述提问指令的答案信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

得到所述答案信息的置信度，所述置信度表示所述答案信息的可能性概率；

若所述置信度大于或等于阈值，则将所述指令的答案信息输出给所述用户。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述置信度小于阈值，且所述提问信息的语义符合图像描述的准入条件，则识别所述显示画面得到图像描述信息及相似度，所述相似度表示图像描述信息与图片的相似程度；

若所述相似度数值大于相似度阈值，将所述图像描述信息输出给所述用户。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述提问指令的意图类型进行识别之前，还包括：

对所述提问指令和所述显示画面进行匹配识别；

若所述提问指令和所述显示画面的匹配度小于匹配阈值则所述提问指令与所述显示画面不相关，则输出更换提问的提示信息。

6.根据权利要求5所述的方法，其特征在于，所述对所述提问指令的意图类型进行识别之前，还包括：

对所述提问指令进行语义识别；

根据所述语义识别结果对所述提问指令的语义表述进行调整。

7.根据权利要求1所述的方法，其特征在于，所述接收用户通过交互接口输入的提问指令，并获取所述提问指令及对应的显示画面，包括：

接收用户发出交互信息；

对所述交互信息进行关键字识别确定所述交互信息为所述提问指令，则对当前显示画面进行截图以获取所述提问指令对应的显示画面。

8.一种视觉问答处理装置，包括：

接收模块，接收用户通过交互接口输入的提问指令；

获取模块，获取所述提问指令及对应的显示画面；

识别模块，若识别出所述意图类型为非通用类型，则将所述提问指令输入至对应的典型属性模型得到所述提问指令的答案信息；若识别出所述意图类型为通用类型，则将所述提问指令输入至通用视觉问答VQA模型以对所述提问指令与所述显示画面进行深度协同注意力学习，得到所述提问指令的答案信息；

输出模块，将所述指令的答案信息输出给所述用户。

9.一种电子设备，包括：显示器，存储器，处理器；

显示器，用于显示图像，并在所述处理器的控制下进行显示；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：运行所述存储器中存储的指令以执行如权利要求1-7所述的视觉问答处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的视觉问答处理方法。

11.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-7中任一项所述的视觉问答处理方法。