CN113780370A

CN113780370A - 视觉问答方法、装置、设备及存储介质

Info

Publication number: CN113780370A
Application number: CN202110968379.5A
Authority: CN
Inventors: 张健
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-10
Anticipated expiration: 2041-08-23
Also published as: CN113780370B

Abstract

本申请公开了一种视觉问答方法、装置、设备及存储介质，该方法包括：采集第一待回答问题的第一视觉数据和第一主观数据，其中，所述第一主观数据包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项；基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果。在本申请中，可以理解，预设视觉问答模型是基于主观数据和视觉数据共同训练得到的，由于增加了主观数据，因而可以减少视觉问答数据的偏离度，使得视觉问答的效果与主观的意图匹配度更高，提升视觉问答的准确度。

Description

视觉问答方法、装置、设备及存储介质

技术领域

本申请涉及视觉技术领域，尤其涉及一种视觉问答方法、装置、设备及存储介质。

背景技术

视觉问答(Visual Question Answering,VQA)是一种涉及计算机视觉和自然语言处理的综合性任务，一个VQA系统是以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出的。

现有视觉问答模型是以标注处理的客观数据对深度卷积神经网络模型进行训练后得到的，然而，视觉问答本身是具有主观性的，只以标注处理的客观数据去训练模型，往往偏离度比较大，致使视觉问答的准确度低。

发明内容

本申请的主要目的在于提供一种视觉问答方法、装置、设备及存储介质，旨在解决现有视觉问答准确度低的技术问题。

为实现上述目的，本申请提供一种视觉问答方法，所述视觉问答方法包括：

采集第一待回答问题的第一视觉数据和第一主观数据，其中，所述第一主观数据包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项；

基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果。

可选地，所述基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果的步骤之前，所述方法包括：

获取第二主观数据、第二视觉数据、第二待回答问题以及对应答案标签；

对所述第二待回答问题进行特征提取，得到问题特征信息；

基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息；

对第一图像特征信息和所述问题特征信息进行特征交叉处理，得到第一交叉特征信息；

基于所述答案标签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

可选地，所述对所述第二待回答问题进行特征提取，得到问题特征信息的步骤之后，所述方法包括：

基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息；

基于第二交叉特征信息和所述问题特征信息进行特征交叉处理，得到第三交叉特征信息；

基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

可选地，所述基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息的步骤，包括：

对所述第二主观数据进行特征提取，得到第二图像特征信息；

对所述第一图像特征信息和所述第二图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

对所述第二视觉数据进行特征提取，得到第三图像特征信息；

对所述第二图像特征信息和所述第三图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

可选地，所述基于所述答案标签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型的步骤，包括：

将所述第一交叉特征信息输入至所述预设基础模型中，得到预测答案；

将所述预测答案与所述答案标签进行比对，得到比对结果；

基于所述比对结果，调整所述预设基础模型的模型参数，并得到参数调整后的所述预设基础模型；

对参数调整后的所述预设基础模型不断进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

可选地，所述第一视线数据包括视线的焦点范围、视线焦点的停留时间、视线移出焦点的速度、从上一个视线焦点移动到当前视线焦点的移动距离中的至少一个参数。

本申请还提供一种视觉问答装置，所述视觉问答装置包括：

采集模块，用于采集第一待回答问题的第一视觉数据和第一主观数据，其中，所述第一主观数据包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项；

确定模块，用于基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果。

可选地，所述视觉问答装置还包括：

第一获取模块，用于获取第二主观数据、第二视觉数据、第二待回答问题以及对应答案标签；

第二获取模块，用于对所述第二待回答问题进行特征提取，得到问题特征信息；

第三获取模块，用于基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息；

第一特征交叉模块，用于对第一图像特征信息和所述问题特征信息进行特征交叉处理，得到第一交叉特征信息；

第一训练模块，用于基于所述答案标签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

可选地，所述视觉问答装置还包括：

第二特征交叉模块，用于基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息；

第三特征交叉模块，用于基于第二交叉特征信息和所述问题特征信息进行特征交叉处理，得到第三交叉特征信息；

第二训练模块，用于基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

可选地，所述第二特征交叉模块包括：

挑选单元，用于基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息；

第一获取单元，用于对所述第二主观数据进行特征提取，得到第二图像特征信息；

第一特征交叉单元，用于对所述第一图像特征信息和所述第二图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

可选地，所述第二特征交叉模块还包括：

第二获取单元，用于对所述第二视觉数据进行特征提取，得到第三图像特征信息；

第三获取单元，用于对所述第二主观数据进行特征提取，得到第二图像特征信息；

第二特征交叉单元，用于对所述第二图像特征信息和所述第三图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

可选地，所述第一训练模块包括：

输入单元，用于将所述第一交叉特征信息输入至所述预设基础模型中，得到预测答案；

比对单元，用于将所述预测答案与所述答案标签进行比对，得到比对结果；

调整单元，用于基于所述比对结果，调整所述预设基础模型的模型参数，并得到参数调整后的所述预设基础模型；

训练单元，用于对参数调整后的所述预设基础模型不断进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

本申请还提供一种视觉问答设备，所述视觉问答设备为实体节点设备，所述视觉问答设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述视觉问答方法的程序，所述视觉问答方法的程序被处理器执行时可实现如上述所述视觉问答方法的步骤。

本申请还提供一种存储介质，所述存储介质上存储有实现上述视觉问答方法的程序，所述视觉问答方法的程序被处理器执行时实现如上述所述视觉问答方法的步骤。

本申请还提供一种计算机程序产品、包括计算机程序，该计算机程序被处理器执行时实现上述所述视觉问答方法的步骤。

本申请提供一种视觉问答方法、装置、设备及存储介质，与现有技术中视觉问答偏离度大，准确度低相比，在本申请中，采集第一待回答问题的第一视觉数据和第一主观数据，其中，所述第一主观数据包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项；基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果。在本申请中，增加包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项的主观数据，进而基于第一视觉数据、第一主观数据以及预设视觉问答模型，确定第一待回答问题的视觉问答结果，可以理解，预设视觉问答模型是基于主观数据和视觉数据共同训练得到的，由于增加了主观数据，因而可以减少视觉问答数据的偏离度，使得视觉问答的效果与主观的意图匹配度更高，提升视觉问答的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请视觉问答方法第一实施例的流程示意图；

图2为本申请视觉问答方法第二实施例的流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种视觉问答方法，在本申请视觉问答方法的第一实施例中，参照图1，所述视觉问答方法包括：

步骤S10，采集第一待回答问题的第一视觉数据和第一主观数据，其中，所述第一主观数据包括第一视线数据、第一瞳孔数据以及第一表情数据中的至少一项；

步骤S20，基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果。

具体步骤如下：

在本实施例中，需要说明的是，视觉问答方法可以应用于视觉问答系统，该视觉问答系统从属于视觉问答设备。

在本实施例中，针对的应用场景可以是：给机器看一些视频或者图片，然后问机器一些跟视频或图片相关的问题，机器基于内部的预设视觉问答模型，给出相关问题的回答，现有视觉问答模型都是使用已经标注好的数据集(这些数据集包含视频、图片和文本的客观数据)，对基础模型进行迭代训练后得到的，也即，现有视觉问答模型是以常规手段标注处理的客观数据，对基础模型进行迭代训练得到的，而视觉问答本身是有人参与的，具有主观性的，例如，问机器的相关问题就与问问题的人的主观性有关，具体地，问机器的相关问题与问问题的人的视线，瞳孔，表情等都具有关联性，只基于客观数据得到的视觉问答模型，导致机器问答的准确度降低。

在本实施例中，基于视觉数据和主观数据，得到视觉问答结果，因而，提升了机器问答的准确度。

在本实施例中，用户的视觉数据为V(视觉数据为图片或者视频，表达用户正在看的真实世界)，视线数据为VL,VL至少包括<p_scope,p_time,p_speed,p_distance>：具体地，视线的焦点范围为p_scope；视线焦点的停留时间为p_time；视线移出焦点的速度为p_speed；从上一个视线焦点移动到当前视线焦点的移动距离为p_distance。

其中，视线数据的获取通过特定的视线视觉设备完成。

在本实施例中，瞳孔数据SS为用户看视觉数据时的瞳孔数据，瞳孔数据主要是当前视线焦点对应瞳孔的大小，其中，瞳孔的大小通常能表达人的情感或者兴趣。

需要说明的是，瞳孔数据的获取通过特定的瞳孔视觉设备或者生物数据采集设备完成。

在本实施例中，表情数据为用户看视频或者图片时的表情E，用户的表情能够反映用户是否有想法或者疑问。

其中，计算机视觉的人脸表情识别属于现有的计算机视觉技术，在此不做具体说明。

在本实施例中，采集第一待回答问题的第一视觉数据和第一主观数据。

其中，第一视觉数据为包括一定特征信息的图像，该图像可以是jpg、png等各种格式，本申请对此不做限制。

在本实施例中，第一待回答问题可以是与第一视觉数据具有一定关联性的疑问句，该第一待回答问题的格式可以是文字格式、音频格式等各种格式，该第一待回答问题可以是各种语言的文字或音频，如中文、英文、俄文等，本申请对此不做限制。

获取第一待回答问题的方式可以是通过文字输入获取、通过语音输入获取等各种方式，本申请对此不做限制。在本实施例中，通过语音输入后，可以将语音输入的第一待回答问题转换为文本形式。

在本实施例中，参照图2，所述基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果的步骤之前，所述方法包括：

步骤S01，获取第二主观数据、第二视觉数据、第二待回答问题以及对应答案标签；

在本实施例中，获取第二主观数据、第二视觉数据、第二待回答问题以及对应答案标签(答案标签：用户在提出问题后，数据标注人员根据视觉数据和问题标注得到的答案标签)，其中，答案标签是与第二视觉数据及第二待回答问题相对应的真实答案。真实答案的格式可以是文字格式、音频格式等各种格式，真实答案可以是各种语言的文字或音频，如中文、英文、俄文等，本申请对此不做限制。

步骤S02，对所述第二待回答问题进行特征提取，得到问题特征信息；

在本实施例中，对所述第二待回答问题进行特征提取，得到问题特征信息，在本申请一实施例中，对第二待回答问题的特征提取属于文字提取，可以通过提取第二待回答问题中的关键词或关键字，并将提取到的关键词或关键字进行组合，得到问题特征信息。例如，假设第二待回答问题为“橘子是什么颜色的？”经过提取关键词得到该样问题特征信息包括“橘子的颜色”。

具体地，在本申请一实施例中，还可以通过编码等各种方式将问题特征信息转化为矩阵，之后还可以通过问题自注力模块等对编码后的问题特征信息进行特征进一步的提取。

步骤S03，基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息；

在本实施例中，基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息，具体地，基于所述第二主观数据中的视线数据VL，重新选择视觉数据V，并得到新的视觉数据V’(第三视觉数据)，最终得到用于训练的样本数据<V’，Q，A>。该用于训练的样本数据<V’，Q，A>是采用双流编码的方式输入至模型，并对模型进行训练的。也即，在本实施例中，以样本数据<V’，Q，A>对模型进行训练，在该训练过程中，模型的输入采用双流编码的方法，一路编码是针对V’的Transformer编码器(针对图像数据)，一路编码是针对于问答文本Q和答案A的transformer编码器(针对文本数据)，然后使用一个交叉模态编码器对双流编码进行融合对齐，并对模型进行训练。

在本实施例中，由于用户的视线范围内看的东西更能代表视觉数据，且用户的问题大概率针对视线范围内的视觉数据提出，也即，由于第三视觉数据是缩小视觉数据后的输入，因而，能够缩小‘搜索’范围，减小数据的偏离度，有利于提升视觉问答模型的性能。

在本申请一实施例中，对所述第三视觉数据进行特征提取，得到第一图像特征信息，第三视觉数据可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等，本申请对此不做限制。例如，假设第三视觉数据中包括“一个桌面是菱形的桌子，且桌子上放着一颗红色的苹果”，则提取到的第一图像特征信息可以是颜色特征“苹果是红色的”、形状特征“桌面是菱形的”或空间关系特征“苹果在桌子上”等等。

具体地，在本申请一实施例中，可以通过编码等各种方式将第一图像特征信息转化为矩阵，之后还可以通过问题自注力模块等对编码后的第一图像特征信息进行特征进一步的提取。

步骤S04，对第一图像特征信息和所述问题特征信息进行特征交叉处理，得到第一交叉特征信息；

对第一图像特征信息和所述问题特征信息进行特征交叉处理，得到第一交叉特征信息，具体地，可以将所述第一图像特征信息转换为第一图像特征矩阵，将问题特征信息转换为问题特征矩阵。基于第一图像特征矩阵和问题特征矩阵，得到第一交叉特征矩阵。

具体地，基于第一图像特征矩阵和问题特征矩阵，得到第一交叉特征矩阵的过程可以是：假设所述第一图像特征矩阵M为a*b的矩阵，其中包括a行b列，每行分别包括a₁₁-a_lb、a₂₁-a_2b…a_a1-a_ab,每列分别包括a₁₁-a_b1、a₁₂-a_b2…a_1b-a_ab所述问题特征矩阵B为c×d的矩阵，其中包括c行d列，每行分别包括每行分别包括c₁₁-c_ld、c₂₁-c_2d…c_c1-c_cd,每列分别包括c₁₁-c_d1、c₁₂-c_d2…c_1d-c_cd,其中b＝c,则将上述第一图像特征矩阵M与问题特征矩阵B相乘，即得到a×d的矩阵P,其中包括a行d列,并将该a×d的矩阵进行归一化处理，得到各个特征元素，分别为每一个特征元素均配置一个权重参数，进而即得到第一交叉特征矩阵。

在本实施例中，基于第一交叉特征矩阵和第一图像特征矩阵，即可得到携带有问题信息的第一图像特征向量。基于第一交叉特征矩阵和问题特征矩阵，即可得到携带有第一图像信息的问题特征向量。

步骤S05，基于所述答案签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

基于所述答案标签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型，该预设训练条件可以是预设损失函数收敛或者是训练次数达到预设训练次数。

所述基于所述答案标签和所述第一交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型的步骤，包括：

步骤A1，将所述第一交叉特征信息输入至所述预设基础模型中，得到预测答案；

步骤A2，将所述预测答案与所述答案标签进行比对，得到比对结果；

在本实施例中，将所述第一交叉特征信息输入至所述预设基础模型中，基于预设基础模型对第一交叉特征信息进行预测处理，得到预测答案，在得到预测答案后，将所述预测答案与所述答案标签进行比对，得到比对结果，该比对结果可以是：预测答案与答案标签一致，或者不一致，或者一致的比率为多少。

步骤A3，基于所述比对结果，调整所述预设基础模型的模型参数，并得到参数调整后的所述预设基础模型；

在本实施例中，基于所述比对结果，调整所述预设基础模型的模型参数如权重参数等，并得到参数调整后的所述预设基础模型，在得到参数调整后的所述预设基础模型后，继续对第一交叉特征信息进行预测处理，得到预测答案。

步骤A4，对参数调整后的所述预设基础模型不断进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

在本实施例中，对参数调整后的所述预设基础模型不断进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

在本实施例中，由于准确训练得到预设视觉问答模型，因而，在得到第一视觉数据以及第一主观数据后，将第一视觉数据以及第一主观数据输入至预设视觉问答模型中，基于预设视觉问答模型对第一视觉数据以及第一主观数据进行预测处理，得到第一待回答问题的视觉问答结果。

进一步地，基于本申请中第一实施例，提供本申请的另一实施例，在该实施例中，所述对所述第二待回答问题进行特征提取，得到问题特征信息的步骤之后，所述方法包括：

步骤S06，基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息；

在本实施例中，基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息，具体地，可以是对第二主观数据以及第二视觉数据进行特征交叉处理，得到第二交叉特征信息，或者对第二主观数据以及所述缩小范围后的第二视觉数据进行特征交叉处理，得到第二交叉特征信息。

所述基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息的步骤，包括：

步骤B1，基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息；

在本实施例中，基于所述第二主观数据，从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息。

整体地，在本实施例中，以样本数据<V’，<VL,SS,E>,Q,A>对模型进行训练，在该训练过程中，模型的输入采用双流编码的方法，一路编码是针对<V’，<VL,SS,E>>的Transformer编码器(针对图像数据V’和用户数据，使用一个模态交叉编码器对图像数据V’和用户数据进行融合对齐)，一路编码是针对于问答文本Q和答案A的transformer编码器(针对文本数据)，然后使用一个交叉模态编码器对双流编码进行融合对齐，并对模型进行训练。

在本实施例中，首先从所述第二视觉数据中挑选得到第三视觉数据，对所述第三视觉数据进行特征提取，得到第一图像特征信息，其中，得到第一图像特征信息的方式与第一实施例中的基本相同，在此不做具体限定。

步骤B2，对所述第二主观数据进行特征提取，得到第二图像特征信息；

在本实施例中，对所述第二主观数据进行特征提取，得到第二图像特征信息，具体对第二主观数据进行特征提取的过程与第一图像特征信息的提取过程相同，在此不再赘述。

步骤B3，对所述第一图像特征信息和所述第二图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

在本实施例中，对所述第一图像特征信息和所述第二图像特征信息，进行特征交叉处理，得到第二交叉特征信息，其中，特征交叉处理可以是矩阵相乘，或者矩阵池化处理。

步骤S07，基于第二交叉特征信息和所述问题特征信息进行特征交叉处理，得到第三交叉特征信息；

基于第二交叉特征信息和所述问题特征信息进行特征交叉处理(矩阵相乘，或者矩阵池化处理)，得到第三交叉特征信息。

步骤S08，基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

在本实施例中，在得到第三交叉特征信息后，基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练(调整模型参数)，直至得到满足预设训练条件的所述预设视觉问答模型。

在本实施例中，通过基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息；基于第二交叉特征信息和所述问题特征信息进行特征交叉处理，得到第三交叉特征信息；基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。本实施例中，准确得到预设视觉问答模型，进而，为提升视觉问答的准确度奠定基础。

进一步地，基于本申请中第一实施例和第二实施例，提供本申请的另一实施例，在该实施例中，所述基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息的步骤，包括：

步骤C1，对所述第二视觉数据进行特征提取，得到第三图像特征信息；

步骤C2，对所述第二主观数据进行特征提取，得到第二图像特征信息；

步骤C3，对所述第二图像特征信息和所述第三图像特征信息，进行特征交叉处理，得到第二交叉特征信息。

整体地，在本实施例中，以样本数据<V,<VL,SS,E>,Q,A>对模型进行训练，在该训练过程中，模型的输入采用双流编码的方法，一路编码是针对

<V,<VL,SS,E>>的Transformer编码器(针对图像数据V和用户数据，使用一个模态交叉编码器对图像数据V和用户数据进行融合对齐)，一路编码是针对于问答文本Q和答案A的transformer编码器(针对文本数据)，然后使用一个交叉模态编码器对双流编码进行融合对齐，并对模型进行训练。

具体地，在本实施例中，对所述第二主观数据进行特征提取，得到第二图像特征信息，然后对所述第二视觉数据进行特征提取，得到第三图像特征信息，进而对所述第二图像特征信息和所述第三图像特征信息，进行特征交叉处理，得到第二交叉特征信息，进而基于第二交叉特征信息对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型。

在本实施例中，通过对所述第二视觉数据进行特征提取，得到第三图像特征信息；对所述第二主观数据进行特征提取，得到第二图像特征信息；对所述第二图像特征信息和所述第三图像特征信息，进行特征交叉处理，得到第二交叉特征信息。本实施例中，准确得到预设视觉问答模型，进而，为提升视觉问答的准确度奠定基础。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该视觉问答设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该视觉问答设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的视觉问答设备结构并不构成对视觉问答设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及视觉问答程序。操作系统是管理和控制视觉问答设备硬件和软件资源的程序，支持视觉问答程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与视觉问答系统中其它硬件和软件之间通信。

在图3所示的视觉问答设备中，处理器1001用于执行存储器1005中存储的视觉问答程序，实现上述任一项所述的视觉问答方法的步骤。

本申请视觉问答设备具体实施方式与上述视觉问答方法各实施例基本相同，在此不再赘述。

本申请还提供一种视觉问答装置，所述视觉问答装置包括：

可选地，所述视觉问答装置还包括：

可选地，所述第二特征交叉模块包括：

可选地，所述第二特征交叉模块还包括：

可选地，所述第一训练模块包括：

本申请视觉问答装置的具体实施方式与上述所述视觉问答方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种存储介质，且所述存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述所述视觉问答方法的步骤。

本申请存储介质具体实施方式与上述所述视觉问答方法各实施例基本相同，在此不再赘述。

本申请计算机程序产品的具体实施方式与上述所述视觉问答方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视觉问答方法，其特征在于，所述视觉问答方法包括：

2.根据权利要求1所述的视觉问答方法，其特征在于，所述基于所述第一视觉数据、第一主观数据以及预设视觉问答模型，确定所述第一待回答问题的视觉问答结果的步骤之前，所述方法包括：

对所述第二待回答问题进行特征提取，得到问题特征信息；

3.根据权利要求2所述的视觉问答方法，其特征在于，所述对所述第二待回答问题进行特征提取，得到问题特征信息的步骤之后，所述方法包括：

4.根据权利要求3所述的视觉问答方法，其特征在于，所述基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息的步骤，包括：

5.如权利要求3所述的视觉问答方法，其特征在于，所述基于所述第二主观数据以及所述第二视觉数据，进行特征交叉处理，得到第二交叉特征信息的步骤，包括：

6.如权利要求3所述的视觉问答方法，其特征在于，所述基于所述答案标签和所述第三交叉特征信息，对预设基础模型进行迭代训练，直至得到满足预设训练条件的所述预设视觉问答模型的步骤，包括：

将所述第三交叉特征信息输入至所述预设基础模型中，得到预测答案；

将所述预测答案与所述答案标签进行比对，得到比对结果；

7.如权利要求1-6任一项所述的视觉问答方法，其特征在于，所述第一视线数据包括视线的焦点范围、视线焦点的停留时间、视线移出焦点的速度、从上一个视线焦点移动到当前视线焦点的移动距离中的至少一个参数。

8.一种视觉问答装置，其特征在于，所述视觉问答装置包括：

9.一种视觉问答设备，其特征在于，所述视觉问答设备包括：存储器、处理器以及存储在存储器上的用于实现所述视觉问答方法的程序，

所述存储器用于存储实现视觉问答方法的程序；

所述处理器用于执行实现所述视觉问答方法的程序，以实现如权利要求1至7中任一项所述视觉问答方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有实现视觉问答方法的程序，所述实现视觉问答方法的程序被处理器执行以实现如权利要求1至7中任一项所述视觉问答方法的步骤。