CN116628165A

CN116628165A - 基于问题引导和对象间差异建模的视觉问答方法及系统

Info

Publication number: CN116628165A
Application number: CN202310639639.3A
Authority: CN
Inventors: 耿玉水; 皇甫敏畅; 梁虎; 赵晶
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-22

Abstract

本发明涉及视觉问答技术领域，提供了一种基于问题引导和对象间差异建模的视觉问答方法及系统。该方法包括，获取待检测图像和问题，提取待检测图像中目标区域对象的视觉特征和问题中的词向量；基于词向量，构建问题表示向量；为问题表示向量中的每个词向量分配不同的权重值，得到词注意表示向量；分析问题表示向量中词与词之间的隐含语义关系，得到词之间的权重；基于词之间的权重和词向量，构建词关系表示向量；基于词注意表示向量和词关系表示向量，构建问题表示向量；基于视觉特征，在细粒度问题的指导下，比较目标区域对象的差异，得到图形表示向量；基于问题表示向量和图形表示向量，预测待检测图像对应问题的答案。

Description

基于问题引导和对象间差异建模的视觉问答方法及系统

技术领域

本发明涉及视觉问答技术领域，尤其涉及一种基于问题引导和对象间差异建模的视觉问答方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

视觉问答技术(Visual Question Answering，VQA)是一个结合计算机视觉和自然语言处理两大技术的研究方向。视觉问答技术指根据给定的一张图像和一个与图像相关的自然语言问题，预测出关于图像对应问题的答案。

现有的视觉问答技术有：

1、视觉问答

传统的VQA框架通常使用预先训练的卷积神经网络从图像中提取视觉特征，用递归卷积神经网络编码问题特征，图像和问题被编码并表示为全局特征。视觉问答工作主要从四个方面来探索改进基本模型的性能。多模态嵌入模型如基于双线性池化的模型，专注于图片和问题的特征融合。基于注意力的模型如堆叠注意力，通过多次查询图片渐进地推断答案。基于知识的模型尝试利用高层次的属性来改进视觉理解。另一个方向致力于在抽象场景或者开发复合网络以逐步解决空间推理问题。

2、视觉注意力机制

视觉注意力是为了解决视觉问答模型“看哪”这个问题，基于注意力的模型旨在将注意力集中在图像中与问题相关的区域或问题中最重要的词上，根据实际需要将有限的注意力集中在事物中最重要的部分。视觉问答中的注意力方法包括堆叠注意力，协同注意力，多层次注意力等等，这些方法专注于定位重要的图片区域，属性或者问题中的单词，从而学习更细粒度的表达。

3、图神经网络

VQA注意力机制能聚焦文本关键词和视觉对象，但还需对整体内容有充分理解，对复杂问题进行推理。图神经网络(GNN)是表示图结构数据的强大框架，GNN遵循一种聚合方案，该方案控制由邻近节点计算的节点表示向量如何捕获图的特定模式。最近，人们提出了许多GNN的变体，以在许多任务中捕获图的不同类型的模式。图网络是一种功能强大的模型，它可以通过消息传递执行关系推理，核心思想是实现图像区域之间的通信，以构建这些区域的上下文表示。

但是，目前提出的视觉问答技术存在以下问题：

1、视觉问答模型侧重于构建新的注意力机制和物体识别，忽略了对空间推理、语义关系的研究，对于图像中物体之间的各种视觉关系的探索还有待提高。

2、当前一些面向VQA的图模型虽然提高了VQA模型的可解释性，但是以往的方法忽略了对象间差异的重要性，不利于建立图中节点的关系。

3、目前VQA模型对问题的处理多是简单的使用循环神经网络进行特征提取，忽略对问题的细粒度处理，由于每个词在解决问题中的不同重要性，当图像中存在大量物体时，简单的特征提取不能够有效区分图像中对象之间的关系。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于问题引导和对象间差异建模的视觉问答方法及系统，首先将整张图像和整个问题用特征表示方法编码成高级表示，然后对问题进行细粒度处理，采用融合对象差异推理模块，在细粒度问题引导下，基于对象间差异构建对象关系图，并更新节点特征；最后，融合多模态特征，使用多标签损失函数预测答案，从而提高视觉问答模型的准确率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于问题引导和对象间差异建模的视觉问答方法。

基于问题引导和对象间差异建模的视觉问答方法，包括：

获取待检测图像和问题，提取待检测图像中目标区域对象的视觉特征和问题中的词向量；

基于词向量，构建问题表示向量；为问题表示向量中的每个词向量分配不同的权重值，得到词注意表示向量；

分析问题表示向量中词与词之间的隐含语义关系，得到词之间的权重；基于词之间的权重和词向量，构建词关系表示向量；

基于词注意表示向量和词关系表示向量，构建问题表示向量；

基于视觉特征，在细粒度问题的指导下，比较目标区域对象的差异，得到图形表示向量；

基于问题表示向量和图形表示向量，预测待检测图像对应问题的答案。

进一步地，所述分析问题表示向量中词与词之间的隐含语义关系采用以下公式：

采用点积运算计算第i个单词和第j个单词之间的相关关系m_i,j：

其中，W₁，b₁，W₂，b₂都是学习到的参数，m_i,j代表两个词之间的接近度，h_i为词i的表示，h_j为词j的表示。

进一步地，根据第i个单词和第j个单词之间的相关关系m_ij，计算第i个单词和第j个单词之间的权重。

进一步地，所述基于视觉特征，在细粒度问题的指导下，比较目标区域对象的差异，得到图形表示向量的过程包括：

基于两个不同的目标区域对象在问题引导下的比较结果，采用注意力机制，得到两个不同的目标区域对象的问题特定关系；

基于所述问题特定关系，采用注意力图形卷积层，构建图形表示向量。

进一步地，所述基于问题表示向量和图形表示向量，预测待检测图像对应问题的答案的过程包括：采用多模态融合推理模型，将问题表示向量和图形表示向量进行融合，得到融合特征；基于融合特征，采用全连接网络和Sigmoid分类器，预测待检测图像对应问题的答案。

进一步地，所述多模态融合推理模型包括自注意单元、引导注意单元、全连接层和多层感知机。

进一步地，所述视觉问答方法还包括训练过程，在训练时，基于融合特征，采用全连接网络和Sigmoid分类器，预测每个候选答案的概率；采用损失函数计算真实答案和预测得到的候选答案的损失值，根据损失值更新多模态融合推理模型的网络参数。

本发明的第二个方面提供一种基于问题引导和对象间差异建模的视觉问答系统。

基于问题引导和对象间差异建模的视觉问答系统，包括：

特征提取模块，其被配置为：获取待检测图像和问题，提取待检测图像中目标区域对象的视觉特征和问题中的词向量；

词注意表示模块，其被配置为：基于词向量，构建问题表示向量；为问题表示向量中的每个词向量分配不同的权重值，得到词注意表示向量；

词关系表示模块，其被配置为：分析问题表示向量中词与词之间的隐含语义关系，得到词之间的权重；基于词之间的权重和词向量，构建词关系表示向量；

问题向量构建模块，其被配置为：基于词注意表示向量和词关系表示向量，构建问题表示向量；

图像细粒度学习模块，其被配置为：基于视觉特征，在细粒度问题的指导下，比较目标区域对象的差异，得到图形表示向量；

预测模块，其被配置为：基于问题表示向量和图形表示向量，预测待检测图像对应问题的答案。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明设计的两个自适应问题注意模块能够挖掘关键字与其他常用词之间的依赖关系，有效识别图像中对象之间的关系。

本发明可以基于对象间差异建模对象间的语义关系，构建特定于问题的关系图，减少图节点冗余，通过卷积神经网络更新节点特征，聚焦图中与问题相关的对象，生成更丰富的节点信息来提高模型预测准确率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的基于问题引导和对象间差异建模的视觉问答方法的流程图；

图2是本发明示出的网络模型的结构图；

图3是本发明示出的消融实验结果对比图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种基于问题引导和对象间差异建模的视觉问答方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

如图2所示，本实施例的具体方案可参考以下内容实现：

(1)数据嵌入

视觉模型使用在Visual Genome数据集上预训练的Faster RCNN网络(以ResNet-101作为其主干)检测图像中显著的目标区域并提取每一区域中的视觉特征，具体而言，针对每张图像选择前K个极具关联性的区域视觉特征和它们的空间特征其中/>代表i^th个视觉特征，c_i＝[x_i,y_i,w_i,h_i]对应于该对象的空间位置，其中(x_i,y_i)是该边界框的左下角坐标，w_i和h_i分别是宽度和高度。

对于问题嵌入，首先使用在大规模语料库上预先训练的300-D Glove单词嵌入法将由n个单词组成的输入问题标记为单词，将每个单词转换为向量表示q^f＝(q₁,q₂,…,q_n)，然后将这些向量送入双向GRU中以获得问题表示h_q，其中所有问题都被截断或填充为相同的长度，编码过程表示如下。

h_t＝GRU(h_t-1,q^f)，t≤n (1)

h_q＝(h₁,h₂,…,h_n)， (2)

(2)细粒度问题关系表示

为了获得更具表达性的问题表征，本实施例设计了两个自适应问题注意模块，重点关注问题中的关键词语和词语之间的隐含语义关系。

在单词注意中，根据问题中的重要性，给每个单词分配不同的权重值。在回答这个问题时，描述一个物体或关系的词往往更重要。权重向量p^w和问题表示向量v^w计算如下：

其中，W^w是参数向量，是权重向量的第i^th元素，表示问题中第i^th单词的重要性。

此外，通过词语关系模块来探索词之间的隐含语义关系。问题中不同单词的重要性各不相同。为了获得细粒度的问题表示，将具有名词、动词、形容词和副词特征的词作为核心词，其余的作为规则词，对问题词的所有特征进行识别。单词i和j分别用h_i,h_j表示。

采用点积运算计算单词i和j之间的相关关系m_i,j如下:

其中，W₁，b₁，W₂，b₂都是学习到的参数，m_i,j代表两个词之间的接近度，然后，第i个单词和第j个单词之间的相关性m_ij通过softmax函数归一化，得到权重n_i,j计算如下：

其中，n是问题长度。

为了得到单词之间最有价值的语义关系，根据权重n_i,j和原单词表示，得到新的单词表示如下所示：

然后使用Maxpooling函数来获得最相关的单词表示v^r。从而得到整体的词关系表示:

最后，将两个自适应问题注意模块得到的词注意表示和词关系表示结合起来。之后，我们将这两个比特有效地加在一起，生成问题的最终表示。

为了将图像特征和文字特征的向量映射到一个共同的空间，如下，使用一个一维卷积层和一个全连接层来分别转换图像和问题特征。

V＝ReLU(Conv1d(v^f)) (8)

q＝ReLU(Lineat(v^q)) (9)

(3)融合对象差异的关系推理

一般来说，对象本身往往不足以提供足够的信息，由于与图片相关的问题的多样性，希望对象之间的关系是特定于问题的。在本实施例中，采用一种新的对象图构建策略。在细粒度问题的指导下，比较对象差异以生成输入图像的图形表示。

这个过程包括基于对象差异构建对象关系图操作和构建关系图后的图卷积操作。

(3-1)基于对象差异构建对象关系图操作

基于对象差异构建了一个对象关系图G＝(V,E)，其中节点V＝v₁,v₂,…,v_k是在前一节中定义的，边E表示对象之间的关系以及它们与给定问题的相关性。将(3-1)中学习到的对象关系图传递到(3-2)中的图卷积层，每个节点根据邻接矩阵收集相邻节点信息。

比较提供了更多关于如何将不同的注意力权重分配给不同对象的信息。模型关注的对象目标两个对象v_i和v_j，二者之间的问题特定关系可以通过公式(10)在问题q的指导下比较它们来学习：

A_ij＝[(v_i-v_j)⊙q]_dW_p， (10)

其中，是第i个图像对象和第j个图像对象在问题q的引导下的比较结果，它是一个m×md的矩阵，矩阵的第i行表示第i个图像对象与其他所有图像对象的比较结果，也是关系注意力中的注意力核。/> 是注意力核，是一个可学习的参数，它决定了如何作用于模型关注的对象目标，将图像对象的差异比较结果转换为注意力分布。

对于任何对象v_i，v_i与其它所有对象在问题q的指导下进行比较，这对衡量v_i对回答问题的重要性至关重要。

具体地，如图2所示，⊙表示逐元素乘法，邻接矩阵A_ij表示第i个对象v_i和第j个对象v_j之间的关系。为了不忽略对象本身的关系，如公式(11)在对原始邻接矩阵A的Softmax运算之后添加单位矩阵I。

A＝Softmax(A)+I， (11)

由于视觉问题与视觉场景中所有对象和关系的一个小的子集有关，对图稀疏性进行限制，对于每个节点，只选择前m个最相关的对象以及它的邻居N_i＝Top(A_i)。

由此，得到了如图2所示的邻接矩阵，将矩阵中的对象V＝v₁,v₂,…,v_k-1，v_k表示为对象图中的节点，矩阵中的对象之间的关系相关性表示为对象图中的边。最后，编码图像将被转换成问题自适应的对象关系图学习，馈入注意力图形卷积层，以更新对象和视觉关系的表示。

(3-2)构建关系图后的图卷积操作

在图卷积过程中，随着卷积层数的加深，图中与问题无关的对象将被赋予可以忽略不计的小权重，直至被几乎忽略。如公式(12)，定义对象的贡献权重α_i通过Softmax归一化后的图像对象v_i和问题向量q之间的点积来计算。

使用一组K高斯核来学习平均数和协方差作为补丁运算符来描述每个邻域的影响，其中平均数可以解释为两个节点的伪坐标的方向和距离。之后，获得了每个节点k(k∈K)的核权重w_n(u(c_i,c_j))，代表节点i的第j个邻居的第n个高斯核权重，即相对位置信息。如公式(13)，g_n(i)可以被看作节点i的相邻特征的加权和：

其中，w_n是学习的权重矩阵，N_(i)是与节点i相邻的节点集，v_j是代表结点i第j个邻居，A_ij表示节点i和节点j之间的边权重，α_j是对象v_j的注意力权重。然后，连接N个核的所有输出{g₁(i),g₂(i),…,g_N(i)}作为节点i的卷积运算结果g(i)。

最后，通过参考用多个卷积核聚集节点特征的方法，对每个结点执行相同的操作，如下：

其中，G_i是可学习的权重矩阵，h_v是更新的图像特征。这样，在一个特定问题的背景下，每一个新的对象都包含了丰富的邻域信息。

(4)多模态融合和答案预测

多模态融合推理模块由自注意单元SA、引导注意单元GA、全连接层Linear和多层感知机MLP组成，通过L个叠加SA和GA模块后，输出的图像特征X_L(前面计算的h_v)和问题特征Y_L(前面计算的v^q)在文本和图像区域包含更丰富的信息，以X_L为例，通过公式(15)(16)得到同理可得到/>最终通过公式(17)得到最终得到分类归一化融合特征Z：

s＝softmax(MLP(X_L)) (15)

上面是以X_L为例，通过(15)(16)得到同样可由Y_L通过同样的计算过程(15)(16)得到。

将最终分类归一化的融合特征Z输入到全连接网络和Sigmoid分类器中，计算每个候选答案的概率：

p^a＝softmax(W_a(σ(W_bZ))) (18)

其中，W_a和W_b为可训练参数，p^a表示答案的概率向量。

使用KL-散度作为损失函数，训练分类问题如下:

其中，y_i∈[0,1]是第i个真实答案的标号。

为了验证本实施例所提模型的有效性，在VQAv2.0 dataset上进行消融实验，Baseline表示一个基线模型。FQ+GCN表示在baseline基础上，使用细粒度单词关系表示来处理单词；OD_None-Att+GCN表示不引入问题引导软注意机制，仅仅使用基于对象差异图关系学习；OD+GCN：一种没有细粒度单词表示的方法，融合对象差异的关系推理；FQOD-GCN是本实施例提出的完整视觉问答模型。如图3所示，结果表明，本实施例所述的细粒度单词表示模块和融合对象差异的关系推理模块与基线模型相比有很大提升，说明了本模型提出的模块的有效性。

视觉问答可以应用于盲人导航，以图2中的给出的图片和问题“Is he walkingdogs”为例，首先对识别和定位图像中与问题相关的重要对象区域，逐一比较这些识别出来的对象；再者，我们希望能够专注于问题中重要单词“he”、“dogs”以及他们之间的潜在语义关系“walking”。通过上面两步，基于特定问题，提取对象之间的问题适应关系，构建关系图，它能够准确地关注与问题相关的对象以及问题自适应关系，从而得到该问题的答案“yes”。

此外，本实施例的方案还可以应用到儿童早期教育，教育儿童“理解”世界，在此不再赘述。

实施例二

本实施例提供了一种基于问题引导和对象间差异建模的视觉问答系统。

基于问题引导和对象间差异建模的视觉问答系统，包括：

此处需要说明的是，上述特征提取模块、词注意表示模块、词关系表示模块、问题向量构建模块、图像细粒度学习模块和预测模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于问题引导和对象间差异建模的视觉问答方法，其特征在于，包括：

2.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，所述分析问题表示向量中词与词之间的隐含语义关系采用以下公式：

3.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，根据第i个单词和第j个单词之间的相关关系m_ij，计算第i个单词和第j个单词之间的权重。

4.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，所述基于视觉特征，在细粒度问题的指导下，比较目标区域对象的差异，得到图形表示向量的过程包括：

5.根据权利要求1所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，所述基于问题表示向量和图形表示向量，预测待检测图像对应问题的答案的过程包括：采用多模态融合推理模型，将问题表示向量和图形表示向量进行融合，得到融合特征；基于融合特征，采用全连接网络和Sigmoid分类器，预测待检测图像对应问题的答案。

6.根据权利要求5所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，所述多模态融合推理模型包括自注意单元、引导注意单元、全连接层和多层感知机。

7.根据权利要求5所述的基于问题引导和对象间差异建模的视觉问答方法，其特征在于，所述视觉问答方法还包括训练过程，在训练时，基于融合特征，采用全连接网络和Sigmoid分类器，预测每个候选答案的概率；采用损失函数计算真实答案和预测得到的候选答案的损失值，根据损失值更新多模态融合推理模型的网络参数。

8.基于问题引导和对象间差异建模的视觉问答系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于问题引导和对象间差异建模的视觉问答方法中的步骤。