CN115905591A

CN115905591A - 一种视觉问答方法、系统、设备及可读存储介质

Info

Publication number: CN115905591A
Application number: CN202310147175.4A
Authority: CN
Inventors: 范宝余; 李仁刚; 李晓川; 郭振华; 赵雅倩
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-04-04
Anticipated expiration: 2043-02-22
Also published as: CN115905591B

Abstract

本申请属于计算机应用技术领域，并公开了一种视觉问答方法、系统、设备及可读存储介质，该方法包括：获取输入图像和问句文本，并分别提取图像特征和文本特征；利用图像特征，获得输入图像的词汇字典；结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征；对降噪后的文本特征和图像特征进行交互编码；从交互编码结果中，确定出问句答案和问句文本的错误提示。在本申请中，针对有问题的问句，通过以图中信息来对其进行降噪处理，仍然能够进行答案预测，具有较强鲁棒性。

Description

一种视觉问答方法、系统、设备及可读存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种视觉问答方法、系统、设备及可读存储介质。

背景技术

视觉问答（Visual Question Answering，VQA）指的是根据指定输入图像，预测用户提问的正确答案的任务。作为一项结合了视觉和文本的多模态任务，VQA是众多多模态任务的基础，其属性符合当前国际环境下多模态人工智能领域的发展趋势。VQA通过理解图像内容，对问句中所述要素进行推理，最终输出合理的答案。

当前阶段，多模态研究主要集中在内容理解层面（人工智能理论研究大致可分为内容理解和内容生成），而VQA任务是内容理解的一个基础任务，人工智能能否理解图像和文本的内容可以体现在VQA任务的精度上。为解决该问题，不断探索多模态理解领域，成果显著。通过transformer（一个利用注意力机制来提高模型训练速度的模型）结构对视觉特征和文本特征联合编码，对不同模态的信息进行融合，这个流程可以解决大多数的VQA问题。

但是，在实际应用环境中，某些问句中可能会出现单词的错误，例如，问句中出现了与图毫无关系的单词。造成这种错误的情况有很多种，如在向计算机提问的过程中可能会发生口误；问句中有计算机难以理解的比喻；语音文本转化模型在预测过程中的错误；对目标物的描述有歧义等等，这些都会造成问句中的若干词汇在算法看来与图像内容矛盾。而当这种现象发生的时候，现有VQA方法很难保持原有的性能，换言之，在真实世界环境下的VQA场景中，现有VQA方法的鲁棒性受到了挑战。

综上所述，如何有效地提升视觉问答鲁棒性等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种视觉问答方法、系统、设备及可读存储介质，能够针对问句文本进行降噪处理，从而提升视觉问答的鲁棒性。

为解决上述技术问题，本申请提供如下技术方案：

一种视觉问答方法，包括：

获取输入图像和问句文本，并分别提取图像特征和文本特征；

利用所述图像特征，获得所述输入图像的词汇字典；

结合所述词汇字典和所述图像特征，对所述文本特征进行降噪处理，得到降噪后的文本特征；

对所述降噪后的文本特征和所述图像特征进行交互编码；

从交互编码结果中，确定出问句答案和所述问句文本的错误提示。

可选地，结合所述词汇字典和所述图像特征，对所述文本特征进行降噪处理，得到降噪后的文本特征，包括：

对所述图像特征、所述词汇字典和所述文本特征进行初始化，得到异质图；

对所述异质图进行迭代更新，并利用更新后的异质图确定所述降噪后的文本特征。

可选地，对所述图像特征、所述词汇字典和所述文本特征进行初始化，得到异质图，包括：

对所述图像特征、所述词汇字典和所述文本特征进行图文理解初始化，得到图文理解异质图；

对所述图像特征、所述词汇字典和所述文本特征进行图文纠错初始化，得到图文纠错异质图。

可选地，利用更新后的异质图确定所述降噪后的文本特征，包括：

对更新后的所述图文理解异质图和所述图文纠错异质图进行叠加，得到所述降噪后的文本特征。

可选地，对所述图像特征、所述词汇字典和所述文本特征进行图文理解初始化，得到图文理解异质图，包括：

将所述图像特征初始化为视觉空间节点，在所述视觉空间节点中存储所述图像特征的特征向量；

计算所述图像特征与所述文本特征的相似度，得到相似度矩阵；

构造全零的词频相似度矩阵，并利用所述词汇字典对所述词频相似度矩阵进行赋值；

将所述词频相似度矩阵和所述相似度矩阵进行叠加，得到边初始化矩阵；

利用所述边初始化矩阵对所述视觉空间节点之间的边进行赋值，得到所述图文理解异质图。

可选地，计算所述图像特征与所述文本特征的相似度，得到相似度矩阵，包括：

计算所述图像特征与所述文本特征的余弦相似度，得到所述相似度矩阵。

可选地，所述构造全零的词频相似度矩阵，包括：

构造大小与所述相似度矩阵相同的词频相似度矩阵，并初始化为全零。

可选地，所述利用所述词汇字典对所述词频相似度矩阵进行赋值，包括：

将所述问句文本中的单词与所述词汇字典进行比对，并将所述词汇字典中的对应概率值填充到所述词频相似度矩阵中。

可选地，将所述问句文本中的单词与所述词汇字典进行比对，并将所述词汇字典中的对应概率值填充到所述词频相似度矩阵中，包括：

在所述词汇字典中查找所述问句文本中的单词，确定所述单词在所述词汇字典中的概率值和序号；

将所述概率值填入所述词频相似度矩阵中，以所述序号和所述单词在所述问句文本中出现的次序所确定的位置。

可选地，对所述图像特征、所述词汇字典和所述文本特征进行图文纠错初始化，得到图文纠错异质图，包括：

计算1减去所述边初始化矩阵，得到构建所述图文纠错异质图的边初始化矩阵；

利用所述图文纠错异质图的边初始化矩阵，对所述视觉空间节点之间的边进行赋值，得到所述图文纠错异质图。

可选地，对所述异质图进行迭代更新，包括：

构造注意力矩阵；

利用所述注意力矩阵，计算所述异质图中每两个空间节点间的映射权重；

对所述映射权重进行归一化；

利用归一化后的映射权重，将两个所述空间节点的边矩阵进行结合，更新节点特征；

对更新特征后的所有空间节点进行重加权，实现迭代更新所述异质图。

可选地，利用所述图像特征，获得所述输入图像的词汇字典，包括：

对所述图像特征的每个特征进行实体预测，得到实体预测结果；

对所述图像特征的每个特征进行属性预测，得到属性预测结果；

合并所述实体预测结果和所述属性预测结果，得到所述词汇字典。

可选地，合并所述实体预测结果和所述属性预测结果，得到所述词汇字典，包括：

按照实体概率阈值，对所述实体预测结果进行筛选；

按照属性概率阈值，对所述属性预测结果进行筛选；

在完成筛选后，合并筛选留下的所述实体预测结果和所述属性预测结果，得到所述词汇字典。

合并所述实体预测结果和所述属性预测结果，得到合并预测结果；

对所述合并预测结果进行同义词扩充，得到所述词汇字典。

可选地，对所述图像特征的每个特征进行实体预测，得到实体预测结果，包括：

若所述图像特征共有N个特征，则预测每一个特征对应分别属于M个实体类别的概率；

其中，所述实体预测结果包括所述N个特征分别对应的所述实体类别和所述概率。

可选地，所述获取输入图像和问句文本，包括：

获取所述输入图像和问句；

在所述问句中插入预设符，得到所述问句文本。

可选地，所述从交互编码结果中，确定出问句答案和所述问句文本的错误提示，包括：

从所述交互编码结果中，截取所述预设符对应的预测特征；

利用所述预测特征，确定所述问句答案和所述问句文本的错误提示。

可选地，在所述问句中插入预设符，得到所述问句文本，包括：

在所述问句中插入第一预设符和第二预设符，得到所述问句文本；

相应地，利用所述预测特征，确定所述问句答案和所述问句文本的错误提示，包括：

利用所述第一预设符对应的预测特征，确定所述问句答案；

利用所述第二预设符对应的预测特征，确定所述问句文本的错误提示。

一种视觉问答系统，包括：

特征提取模块，用于获取输入图像和问句文本，并分别提取图像特征和文本特征；

图文词汇关系提取模块，具体用于利用所述图像特征，获得所述输入图像的词汇字典；

问句动态降噪模块，具体用于结合所述词汇字典和所述图像特征，对所述文本特征进行降噪处理，得到降噪后的文本特征；

特征融合编码模块，用于对所述降噪后的文本特征和所述图像特征进行交互编码；

答案预测模块，用于从交互编码结果中，确定出问句答案和所述问句文本的错误提示。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述视觉问答方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述视觉问答方法的步骤。

应用本申请实施例所提供的方法，获取输入图像和问句文本，并分别提取图像特征和文本特征；利用图像特征，获得输入图像的词汇字典；结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征；对降噪后的文本特征和图像特征进行交互编码；从交互编码结果中，确定出问句答案和问句文本的错误提示。

在本申请中，基于输入图像与问句文本是息息相关的，因而在进行图文理解过程中，基于图像特征来，获得输入图像的词汇字典，然后再结合词汇字典和图像特征，对文本特征进行降噪处理，可以得到降噪后的文本特征。然后，在进行输出预测过程中，对降噪后的文本特征和图像特征进行交互编码，进而从交互编码结果中确定出答案可见预测和问句文本的错误提示。即，在本申请中，针对有问题的问句，通过以图中信息来对其进行降噪处理，仍然能够进行答案预测，具有较强鲁棒性。

相应地，本申请实施例还提供了与上述视觉问答方法相对应的视觉问答系统、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种视觉问答方法的实施流程图；

图2为本申请实施例中一种图文词汇关系提取模块示意图；

图3为本申请实施例中一种输入图像；

图4为本申请实施例中一种图文理解异质图结构示意图；

图5为本申请实施例中一种图文纠错异质图结构示意图；

图6为本申请实施例中一种视觉问答系统的结构示意图；

图7为一种视觉问答系统示意图；

图8为本申请实施例中一种视觉问答系统的示意图；

图9为本申请实施例中一种动态降噪模块示意图；

图10为本申请实施例中一种电子设备的结构示意图；

图11为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于本领域技术人员更好地理解本申请实施例所提供的技术方案，下面对本文中涉及的相关术语进行解释说明：

VQA，Visual Question Answering，视觉问答；

NVQA，Noisy Visual Question Answering，带噪视觉问答；

GNN，Graph Neural Net，图神经网络；

HG，Heterogeneous Graph，异质图；

MM，Multi Modal，多模态；

DL，Deep Learning，深度学习。

请参考图1，图1为本申请实施例中一种视觉问答方法的流程图，该方法可应用于抗噪视觉问答系统，该方法包括以下步骤：

S101、获取输入图像和问句文本，并分别提取图像特征和文本特征。

具体的，可针对输入图像进行特征检测，从而得到图像特征，对问句文本进行特征检测，从而得到文本特征。

其中，输入图像可以采用卷积神经网络（如ResNet网络（残差网络）、BUTD模型（Bottom-Up and Top-Down Attention，自下而上和自上而下的注意检测模型））等能够提取图像特征的网络或模型进行特征提取。

输入问句文本可采用文本编码器（如BERT（Bidirectional EncoderRepresentations from Transformers，语言表示模型）、RoBERTa（为BERT的改进版本））等能够提取文本特征的工具进行特征提取。

在本申请中的一种具体实施方式中，获取输入图像和问句文本，包括：

步骤一、获取输入图像和问句；

步骤二、在问句中插入预设符，得到问句文本。

为便于描述，下面将上述两个步骤结合起来进行说明。

即可直接获取输入图像和问句。然后，在问句中插入预设符，即可得问句文本。预设符可以在问句中的指定位置，如句首、句末或指定单词次序。

进一步地，由于本申请实施例所提供的视觉问答方法能够针对文本进行降噪，因而在输出结果时，会对应是否有噪音进行预测并输出，因而在添加预设符时，可以添加2个预设符。即，在问句中插入第一预设符和第二预设符，得到问句文本。一个预设符对应答案预测，另一预设符对应噪音预测。

其中，对于第一预设符和第二预设符中的第一和第二仅用于区别存在两个预设符，而并无先后，主次等限定含义。

当然，也可以先对输入问句采用现成的文本编码器（如BERT、RoBERTa）进行特征提取。之后，分别对提取好的特征进行编码。然后初始化固定的向量用来表示分类字段（[分类符]）和噪音字段，将其当作额外的2个字符拼在文本特征的后边得到扩充文本特征。

S102、利用图像特征，获得输入图像的词汇字典。

在图像中包括潜在的词汇字典。例如，车辆图片，其内即含有车辆颜色、车辆种类等词汇信息。

由于图像特征是从输入图像中提取出的特征，因而基于图像特征可以推测出输入图像的词汇字典。例如，一张车辆图像，其词汇字典包括：车辆，黄色（车辆颜色），车辆型号等词汇。词汇字典中的词汇形式可以具体为词汇-概率-序号的方式进行罗列，也可以通过建表等方式进行存储。

在本申请中的一种具体实施方式中，利用图像特征，获得输入图像的词汇字典，包括：

步骤一、对图像特征的每个特征进行实体预测，得到实体预测结果；

步骤二、对图像特征的每个特征进行属性预测，得到属性预测结果；

步骤三、合并实体预测结果和属性预测结果，得到词汇字典。

为便于描述，下面将上述三个步骤结合起来进行说明。

在图像中，主要涉及实体类的词汇和属性类的词汇。其中，实体即对应图像中的物体，如车辆，道路等；属性即对应图像中的物体的属性，如物体的颜色，大小，形状等。为了更好地预测出输入图像的词汇字典。可分别对图像特征中的每个特征进行实体预测和属性预测，从而得到实体预测结果和属性预测结果。然后再将实体预测结果和属性预测结果进行合并，即可得到词汇字典。也就是说，词汇字典中包括输入图像中所涉及的属性和实体对应的单词。

其中，对图像特征的每个特征进行实体预测，得到实体预测结果，包括：若图像特征共有N个特征，则预测每一个特征对应分别属于M个实体类别的概率；其中，实体预测结果包括N个特征分别对应的实体类别和概率。

具体的，请参考图2，图2为本申请实施例中一种图文词汇关系提取模块示意图。其中，图像检测特征为图像特征，其大小为[N,d]，其中N表示特征个数，d表示每个特征的维度。之后这个图像特征被分别输入到两个预测模块中，分别预测每个特征的实体和属性。以实体预测模块来说，对于N个特征来说，每个特征会预测得到其分别属于M个实体类别的概率（M个概率的和为1）。例如，对于图3所示的图片来说，该输出可能为[[truck, 0.6, 0],[car, 0.4, 1], [road, 0.8, 2], [person, 0.2, 3], …]。实体预测结果和属性预测结果可以为（词汇-概率-序号）。相应地，对于属性预测过程也可参照于此，在此不再一一赘述。类似的，属性预备词库将输出类似[[yellow, 0.6, 0], [long, 0.4, 1], [blue,0.8, 2], [big, 0.2, 3], …]这样关于形容词的（词汇-概率-序号）组，其中序号表示预测出该实体的特征在N个特征中的序号。

在一种可选的实施方式中，上述步骤三合并实体预测结果和属性预测结果，得到词汇字典，包括：

步骤1、按照实体概率阈值，对实体预测结果进行筛选；

步骤2、按照属性概率阈值，对属性预测结果进行筛选；

步骤3、在完成筛选后，合并筛选留下的实体预测结果和属性预测结果，得到词汇字典。

也就是说，在进行实体预测和属性预测之后，还可基于实体概率阈值和属性概率阈值，对实体预测结果和属性预测结果进行筛选，从而使得最终得到的词汇字典更加可靠。

步骤1、合并实体预测结果和属性预测结果，得到合并预测结果；

步骤2、对合并预测结果进行同义词扩充，得到词汇字典。

举例说明：之后可对两个词库：实体预备词库和属性预备词库（实体预备词库对应实体预测结果，属性预备词库对应属性预测结果）进行合并，并对合并之后的词汇进行同义词扩充。例如，对于road，可将其所有同义词（如street）扩充进来，最终输出词汇字典，其可具体化为图像词汇表，形式类似于[[truck, 0.6, 0], [car, 0.4, 1], [road, 0.8, 2],[street, 0.8, 2], [person, 0.2, 3], [yellow, 0.6, 0], [long, 0.4, 1], [blue,0.8, 2], [big, 0.2, 3], …]。

S103、结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征。

获取到输入图像的词汇字典和图像特征之后，便可借助图像所携带的信息对文本特征进行降噪处理。所谓降噪处理，即对文本特征进行修正，使得修正后的降噪后的文本特征与正确表达的文件文本对应。

在本申请中的一种可选实施方式中，结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征，包括：

步骤一、对图像特征、词汇字典和文本特征进行初始化，得到异质图；

步骤二、对异质图进行迭代更新，并利用更新后的异质图确定降噪后的文本特征。

其中，异质图可具体包括节点以及节点间的连接边，在节点中可存储特征。

该异质图可以由图像特征、词汇字典和文本特征初始化而来，并通过不断地迭代赋值，再利用更新后的异质图来确定降噪后的文本特征。

具体的，对图像特征、词汇字典和文本特征进行初始化，得到异质图，包括：

步骤1、对图像特征、词汇字典和文本特征进行图文理解初始化，得到图文理解异质图；

步骤2、对图像特征、词汇字典和文本特征进行图文纠错初始化，得到图文纠错异质图。

下面分别对图文理解异质图和图文纠错异质图的初始化过程进行详细说明。

其中，请参考图4，图4为本申请实施例中一种图文理解异质图结构示意图。初始化，图文理解异质图，包括：

步骤①、将图像特征初始化为视觉空间节点，在视觉空间节点中存储图像特征的特征向量。

步骤②、计算图像特征与文本特征的相似度，得到相似度矩阵。

具体的，可计算图像特征与文本特征的余弦相似度，得到相似度矩阵。余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估相似度。当然，还可以用其他相似度算法计算出相似度。

步骤③、构造全零的词频相似度矩阵，并利用词汇字典对词频相似度矩阵进行赋值。

其中，构造全零的词频相似度矩阵，可具体为构造大小与相似度矩阵相同的词频相似度矩阵，并初始化为全零。

步骤④、将词频相似度矩阵和相似度矩阵进行叠加，得到边初始化矩阵。

步骤⑤、利用边初始化矩阵对视觉空间节点之间的边进行赋值，得到图文理解异质图。

具体的，可将问句文本中的单词与词汇字典进行比对，并将词汇字典中的对应概率值填充到词频相似度矩阵中。

在一种可选的实施方式中，词频相似度矩阵的赋值过程，可具体为在词汇字典中查找问句文本中的单词，确定单词在词汇字典中的概率值和序号；将概率值填入词频相似度矩阵中，以序号和单词在问句文本中出现的次序所确定的位置。

为便于理解，下面举例说明，具体如何构造出图文理解异质图。

图文理解异质图结构由不同的节点以及某些节点之间的边组成。对于节点，每个节点表示不同模态（视觉或问句文本的特征），对于边，表示不同节点之间的相关性。不同节点由于模态的差异被分为两个集合，每个节点储存的数值为之前模块的特征输出。例如，对于大小为[N，d]的图像编码特征（上文中的图像检测特征），可以初始化为N个视觉空间节点，每个节点存储一个维度为d的特征向量。对于边初始化，需要先对大小为[N，d]的图像编码特征和大小为[k,d]的问句文本特征进行余弦相似度计算，得到一个大小为[N,K]的相似度矩阵s之后，构造一个大小也为[N,K]的全零矩阵Fr，对于问句中出现的每一个词汇，与词汇字典，即图像词汇表进行一一比对，并将图像词汇表中的对应概率值填充到Fr矩阵的对应位置中。例如，假设问句中第3个单词为“road”，而图像词汇表中检索到了[road, 0.8,2]的（词汇-概率-序号）三元组，则将矩阵的第2行第3列的值置为0.8；对于没有检索到行和列，保持原有的0。之后，可将矩阵Fr（词频相似度矩阵）和矩阵S（余弦相似度矩阵）相加起来得到边初始化矩阵，并将其赋值给对应节点之间的边。

其中，请参考图5，图5为本申请实施例中一种图文纠错异质图结构示意图。构建，图文纠错异质图，包括：

步骤①、计算1减去边初始化矩阵，得到构建图文纠错异质图的边初始化矩阵；

步骤②、利用图文纠错异质图的边初始化矩阵，对视觉空间节点之间的边进行赋值，得到图文纠错异质图。

类似的，图文纠错异质图初始化方式与图文理解异质图类似，不同处在于边初始化矩阵为1-Fr。这个差异是因为对于理解图模型来说，特征余弦相似度和词频统计均代表了该向量与图像中对影响量的关系强弱，这个强弱差异相当于一个先验的图文对齐关系，可用来表示图文互信息，通过这个关系对文本节点进行更新可增强其对于图像的理解；相反，对于纠错图来说，希望被更新的目标节点是那些在图像中无法找到匹配的节点（因为无法匹配意味着它有风险是有误的单词，因此才无法在图像中找到对应的特征）。所以采用1-Fr来初始化它的边。

在本申请中的一种可选方式中，上述步骤二对异质图进行迭代更新，包括：

步骤1、构造注意力矩阵；

步骤2、利用注意力矩阵，计算异质图中每两个空间节点间的映射权重；

步骤3、对映射权重进行归一化；

步骤4、利用归一化后的映射权重，将两个空间节点的边矩阵进行结合，更新节点特征；

步骤5、对更新特征后的所有空间节点进行重加权，实现迭代更新异质图。

为便于描述，下面将上述5个步骤结合起来进行说明。

对于异质图，两个图结构的更新过程相同。下面以视觉节点对文本节点进行修正为例，对异质图更新进行详细说明，其更新过程包括：

首先，构造四个注意力矩阵Wc、Wv、Wb、Wn，大小均为[d,d]，对于输入向量q，Wq表示矩阵运算，代表对向量q的映射过程。

计算节点I对节点T的映射权重，公式：；其中，和分别表示节点T和I中存储的特征向量，计算后的表示I对T的映射权重。

映射权重归一化，公式：；其中，表示归一化之后的映射权重，exp（*）表示指数运算符。

将两个空间节点间的边矩阵（图文向注意力权重）结合进来，更新节点特征，公式：其中表示边矩阵中对应的边值。

对更新特征后的所有Q空间节点进行重加权。具体的，可构造一个大小为[d,d]的矩阵，乘到所得特征上进行映射。

在本申请中的一种具体实施方式中，利用更新后的异质图确定降噪后的文本特征，包括：对更新后的图文理解异质图和图文纠错异质图进行叠加，得到降噪后的文本特征。即，可将图文理解异质图和图文纠错异质图的更新过程按需重复若干次后，最终将两个模块的文本节点集合输出，将其转化为向量并相加，得到最终的降噪问句文本向量。

S104、对降噪后的文本特征和图像特征进行交互编码。

降噪后的文本特征即降噪后的文本特征，将降噪后的文本特征和图像特征进行交互编码。交互编码过程可以参照相关交互编码方案，在此不再一一赘述。

S105、从交互编码结果中，确定出问句答案和问句文本的错误提示。

其中，问句答案即对应问句的答案，问句文本的错误提示即对应问句是否存在噪声，以及在有噪声的情况下，噪声的描述（是否存在噪声，以及具体操作位置、内容等）。例如，当输入图像为车辆图像，当问句为文图像中是否有车辆，问句答案为是，错误提示为无噪声，或者当问句为文图像中是否有车亮，问句答案为是，错误提示为有噪声，存在错别字。具体如何根据交互编码结果确定问句答案和问句文本的错误提示可以参照相关预测实现方案。

具体的，从交互编码结果中，确定出问句答案和问句文本的错误提示，包括：

步骤一、从交互编码结果中，截取预设符对应的预测特征；

步骤二、利用预测特征，确定问句答案和问句文本的错误提示。

为便于描述，下面将上述两个步骤结合起来进行说明。

预设符即插入到问句中的字符。将预设符对应的预测特征截取出，并基于预设特征进行问句答案和问句文本的错误提示。

若在问句中插入第一预设符和第二预设符，得到问句文本；相应地，利用预测特征，确定问句答案和问句文本的错误提示，包括：

步骤1、利用第一预设符对应的预测特征，确定问句答案；

步骤2利用第二预设符对应的预测特征，确定问句文本的错误提示。

例如，可将最终编码后，文本侧两个预设符的对应特征截取出来，使用[分类符a]（对应第一预设符）进行答案空间的预测；使用[分类符b]（对应第二预设符）进行该问句与图像是否匹配的预测。最终输出两个答案。

相应于上面的方法实施例，本申请实施例还提供了一种视觉问答系统，下文描述的视觉问答系统与上文描述的视觉问答方法可相互对应参照。

参见图6所示，该系统包括以下模块：

特征提取模块101，用于获取输入图像和问句文本，并分别提取图像特征和文本特征；

图文词汇关系提取模块102，具体用于利用图像特征，获得输入图像的词汇字典；

问句动态降噪模块103，具体用于结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征；

特征融合编码模块104，用于对降噪后的文本特征和图像特征进行交互编码；

答案预测模块105，用于从交互编码结果中，确定出问句答案和问句文本的错误提示。

应用本申请实施例所提供的系统，获取输入图像和问句文本，并分别提取图像特征和文本特征；利用图像特征，获得输入图像的词汇字典；结合词汇字典和图像特征，对文本特征进行降噪处理，得到降噪后的文本特征；对降噪后的文本特征和图像特征进行交互编码；从交互编码结果中，确定出问句答案和问句文本的错误提示。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于对图像特征、词汇字典和文本特征进行初始化，得到异质图；对异质图进行迭代更新，并利用更新后的异质图确定降噪后的文本特征。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于对图像特征、词汇字典和文本特征进行图文理解初始化，得到图文理解异质图；

对图像特征、词汇字典和文本特征进行图文纠错初始化，得到图文纠错异质图。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体包括：特征相加层，用于对更新后的图文理解异质图和图文纠错异质图进行叠加，得到降噪后的文本特征。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于将图像特征初始化为视觉空间节点，在视觉空间节点中存储图像特征的特征向量；

计算图像特征与文本特征的相似度，得到相似度矩阵；

构造全零的词频相似度矩阵，并利用词汇字典对词频相似度矩阵进行赋值；

将词频相似度矩阵和相似度矩阵进行叠加，得到边初始化矩阵；

利用边初始化矩阵对视觉空间节点之间的边进行赋值，得到图文理解异质图。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于计算图像特征与文本特征的余弦相似度，得到相似度矩阵。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于构造大小与相似度矩阵相同的词频相似度矩阵，并初始化为全零。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于将问句文本中的单词与词汇字典进行比对，并将词汇字典中的对应概率值填充到词频相似度矩阵中。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于在词汇字典中查找问句文本中的单词，确定单词在词汇字典中的概率值和序号；

将概率值填入词频相似度矩阵中，以序号和单词在问句文本中出现的次序所确定的位置。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体用于计算1减去边初始化矩阵，得到构建图文纠错异质图的边初始化矩阵；

利用图文纠错异质图的边初始化矩阵，对视觉空间节点之间的边进行赋值，得到图文纠错异质图。

在本申请的一种具体实施方式中，问句动态降噪模块103，具体包括：

更新层，用于构造注意力矩阵；

利用注意力矩阵，计算异质图中每两个空间节点间的映射权重；

对映射权重进行归一化；

利用归一化后的映射权重，将两个空间节点的边矩阵进行结合，更新节点特征；

对更新特征后的所有空间节点进行重加权，实现迭代更新异质图。

在本申请的一种具体实施方式中，图文词汇关系提取模块102，具体用于对图像特征的每个特征进行实体预测，得到实体预测结果；

对图像特征的每个特征进行属性预测，得到属性预测结果；

合并实体预测结果和属性预测结果，得到词汇字典。

在本申请的一种具体实施方式中，图文词汇关系提取模块102，具体用于按照实体概率阈值，对实体预测结果进行筛选；

按照属性概率阈值，对属性预测结果进行筛选；

在完成筛选后，合并筛选留下的实体预测结果和属性预测结果，得到词汇字典。

在本申请的一种具体实施方式中，图文词汇关系提取模块102，具体用于合并实体预测结果和属性预测结果，得到合并预测结果；

对合并预测结果进行同义词扩充，得到词汇字典。

在本申请的一种具体实施方式中，图文词汇关系提取模块102，具体用于若图像特征共有N个特征，则预测每一个特征对应分别属于M个实体类别的概率；

其中，实体预测结果包括N个特征分别对应的实体类别和概率。

在本申请的一种具体实施方式中，特征提取模块101，具体用于获取输入图像和问句；

在问句中插入预设符，得到问句文本。

在本申请的一种具体实施方式中，答案预测模块105，具体用于从交互编码结果中，截取预设符对应的预测特征；

利用预测特征，确定问句答案和问句文本的错误提示。

在本申请的一种具体实施方式中，特征提取模块101，具体用于在问句中插入第一预设符和第二预设符，得到问句文本；

相应地，答案预测模块105，具体用于利用第一预设符对应的预测特征，确定问句答案；

利用第二预设符对应的预测特征，确定问句文本的错误提示。

为便于本领域技术人员更好地理解本申请实施例所提供的视觉问答系统，下面结合具体例子，通过比对，对视觉问答系统进行详细说明。

经典VQA模型流程如图7所示，图7为一种视觉问答系统示意图。首先，实现现有模型提取输入图像和问句文本的特征：输入图像采用卷积神经网络（如ResNet网络、BUTD模型）进行特征提取；输入问句采用现成的文本编码器（如BERT、RoBERTa）进行特征提取。之后，分别对提取好的特征进行编码。然后初始化一个固定的向量用来表示一个分类字段（[分类符]），将其当做额外的一个字符拼在文本特征的后边得到扩充文本特征。然后对图像特征和扩充文本特征进行进一步编码，最终将文本特征段中的[分类符]对应的位置重新截取出来，用其表示预测向量。最后，将预测向量输入到分类网络中进行推理，在答案空间中找到概率得分最高的答案进行输出。对于上文的进一步编码，就是用诸如VLBERT、LXMERT中所提的各种单流/双流模型进行的transformer结构块组合，从而达到跨模态编码的目的。

通过transformer结构对视觉特征和文本特征联合编码，对不同模态的信息进行融合，这个流程可以解决大多数的VQA问题。但是，问句中的若干词汇在算法看来与图像内容矛盾。而当这种现象发生的时候，该视觉问答系统很难保持原有的性能，换言之，在真实世界环境下的VQA场景中，系统的鲁棒性受到了挑战。

因此，本申请聚焦这种潜在带噪的VQA样本，提出了一种基于动态图降噪模块的VQA系统。具体的，请参考图8，图8为本申请实施例中一种视觉问答系统的示意图。

在本申请中，在图像特征提取模块之后加入了图文词汇关系提取模块；在问句文本特征提取之后加入了问句动态降噪模块；整体流程的输入输出有所微调，输出端额外增加了一个预测问句有无噪声的计算单元。

其中，图文词汇关系提取模块如图2所示，图文词汇关系提取模块是为了动态降噪模块中的异质图初始化过程服务的，该模块的作用是根据图像特征推测图像中包含潜在的词汇字典，该模块的功能是输出带有权重的词表集合，作为降噪模块的输入。

动态降噪模块如图9所示，动态降噪模块包括若干个理解图更新层、若干个纠错图更新层、一个特征相加层。其中对于两组图更新层来说，输入分别为图文理解异质图结构和纠错异质图结构。

在本申请中，该视觉问答系统可以实施上述视觉问答方法的流程，具体的，整体流程上看，输入包括一个图像、一个问句、以及两个预设符。通过将两个预设符合并到问句的后端进行文本特征的提取过程，得到大小为[K,d]的文本编码特征，与此同时图像被编码为[N,d]的图像特征。之后，利用图文词汇关系提取模块进行图像词汇提取，得到若干词汇-概率-序号的三元组。这些三元组被用于动态问句降噪模块中两种异质图的初始化过程中，并通过若干次更新得到组中的问句降噪后的文本特征。此后，降噪后的文本特征被用来和图像特征进行交互编码，最后，将最终编码后，文本侧两个预设符的对应特征截取出来，可使用[分类符a]进行答案空间的预测；可使用[分类符b]进行该问句与图像是否匹配的预测。最终输出两个答案。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种视觉问答方法可相互对应参照。

参见图10所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的视觉问答方法的步骤。

具体的，请参考图11，图11为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的视觉问答方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种视觉问答方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的视觉问答方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视觉问答方法，其特征在于，包括：

利用所述图像特征，获得所述输入图像的词汇字典；

对所述降噪后的文本特征和所述图像特征进行交互编码；

2.根据权利要求1所述的视觉问答方法，其特征在于，结合所述词汇字典和所述图像特征，对所述文本特征进行降噪处理，得到降噪后的文本特征，包括：

3.根据权利要求2所述的视觉问答方法，其特征在于，对所述图像特征、所述词汇字典和所述文本特征进行初始化，得到异质图，包括：

4.根据权利要求3所述的视觉问答方法，其特征在于，利用更新后的异质图确定所述降噪后的文本特征，包括：

5.根据权利要求3所述的视觉问答方法，其特征在于，对所述图像特征、所述词汇字典和所述文本特征进行图文理解初始化，得到图文理解异质图，包括：

6.根据权利要求5所述的视觉问答方法，其特征在于，计算所述图像特征与所述文本特征的相似度，得到相似度矩阵，包括：

7.根据权利要求5所述的视觉问答方法，其特征在于，所述构造全零的词频相似度矩阵，包括：

8.根据权利要求5所述的视觉问答方法，其特征在于，所述利用所述词汇字典对所述词频相似度矩阵进行赋值，包括：

9.根据权利要求8所述的视觉问答方法，其特征在于，将所述问句文本中的单词与所述词汇字典进行比对，并将所述词汇字典中的对应概率值填充到所述词频相似度矩阵中，包括：

10.根据权利要求5所述的视觉问答方法，其特征在于，对所述图像特征、所述词汇字典和所述文本特征进行图文纠错初始化，得到图文纠错异质图，包括：

11.根据权利要求2所述的视觉问答方法，其特征在于，对所述异质图进行迭代更新，包括：

构造注意力矩阵；

对所述映射权重进行归一化；

12.根据权利要求1所述的视觉问答方法，其特征在于，利用所述图像特征，获得所述输入图像的词汇字典，包括：

13.根据权利要求12所述的视觉问答方法，其特征在于，合并所述实体预测结果和所述属性预测结果，得到所述词汇字典，包括：

按照实体概率阈值，对所述实体预测结果进行筛选；

按照属性概率阈值，对所述属性预测结果进行筛选；

14.根据权利要求12所述的视觉问答方法，其特征在于，合并所述实体预测结果和所述属性预测结果，得到所述词汇字典，包括：

对所述合并预测结果进行同义词扩充，得到所述词汇字典。

15.根据权利要求12所述的视觉问答方法，其特征在于，对所述图像特征的每个特征进行实体预测，得到实体预测结果，包括：

16.根据权利要求1至15任一项所述的视觉问答方法，其特征在于，所述获取输入图像和问句文本，包括：

获取所述输入图像和问句；

在所述问句中插入预设符，得到所述问句文本。

17.根据权利要求16所述的视觉问答方法，其特征在于，所述从交互编码结果中，确定出问句答案和所述问句文本的错误提示，包括：

从所述交互编码结果中，截取所述预设符对应的预测特征；

18.根据权利要求17所述的视觉问答方法，其特征在于，在所述问句中插入预设符，得到所述问句文本，包括：

利用所述第一预设符对应的预测特征，确定所述问句答案；

19.一种视觉问答系统，其特征在于，包括：

20.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至18任一项所述视觉问答方法的步骤。

21.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述视觉问答方法的步骤。