CN113297370A

CN113297370A - 基于多交互注意力的端到端多模态问答方法及系统

Info

Publication number: CN113297370A
Application number: CN202110848497.2A
Authority: CN
Inventors: 张宾; 孙喜民; 高亚斌; 贾江凯; 郑斌; 王帅; 李慧超; 孙博
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-08-24
Anticipated expiration: 2041-07-27
Also published as: CN113297370B

Abstract

本发明公开了基于多交互注意力的端到端多模态问答方法及系统，包括：（1）接收问题和背景知识；（2）从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识；（3）对筛选出的文本背景知识进行编码，获得文本背景知识中各段落的特征表示；（4）将筛选出的图像背景知识解析为图像特征表示，并构建可微场景图；（5）融合特征表示和可微场景图，获得背景知识的融合特征表示；（6）将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层，计算各候选答案的预测概率，输出预测概率最高的候选答案。本发明可有效利用多模态信息，提升多模态语义理解的准确度和全面性，从而提升多模态问答系统的准确率。

Description

基于多交互注意力的端到端多模态问答方法及系统

技术领域

本发明属于计算机视觉、自然语言处理和多模态问答技术领域，更具体地说，涉及基于多交互注意力的端到端多模态问答方法及系统。

背景技术

问答系统（Question Answer，简称QA）能自动满足用户的查询需求，帮助人们进行信息获取，它已显示出应用于现实世界问题的巨大潜力。但纯粹的文本难以描述人类面临的真实场景，实际生活中知识是多模态的，信息通过文本、图像和视频等传播。一个能够回答实际生活中问题的系统必须学会理解这些多模态信息，多模态问答是更贴近真实场景的任务。

近年来计算机视觉和自然语言处理技术都取得了巨大进展，促进了多模态任务的实际应用。教科书问答（Textbook Question Answer，简称TQA）任务是通过结合多模态信息（包含大量文本文档和图表）来描述现实世界中相当复杂的现象。因此，要回答课程问题，可能涉及较长的教科书课程中的多模态背景知识的理解。所以教科书问答相比于一般的文本问答、视觉问答等单模态问答任务更加复杂，对多模态数据的要求更高，也面临着更大的挑战。

基于深度学习的相关技术为多模态数据的表示任务打下了坚实的基础，在对文本和图像的建模和理解上取得了很好的效果。而在多模态问答领域，现有方法主要分为两类：一类是直接将全局图像特征和文本特征融合，比如拼接、双线性池化模型等；另一类是基于结构图的对齐融合，比如将文本解析为语法依赖树，将图像解析为无标签图。然而，一方面，这些方法都只考虑了图像内容和文本内容的浅层融合，忽略了单个模型数据中的自我影响以及跨模态数据之间的交互影响，难以有效联合多模态数据的信息进行语义理解；另一方面，图像解析模块、文本解析模块与语义理解模块分离，即两个模块单独训练，最终导致解析模块的误差直接影响语义理解模块，且该损失难以通过误差反向传播对解析模块修正。

综上所述，不难看出目前多模态问答技术难以对多模态数据的语义信息进行有效利用，浅层粗融合和解析后融合的方法都不可避免地产生语义损失，有效地多模态方法仍有待改善。

发明内容

本发明的目的在于克服现有技术的不足，提供基于多交互注意力的端到端多模态问答方法及系统，本发明可有效利用多模态信息，提升多模态语义理解的准确度和全面性，从而提升多模态问答系统的准确率。

本发明实施例提供的基于多交互注意力的端到端多模态问答方法，包括：

（1）接收问题和背景知识，所述背景知识包括文本背景知识和图像背景知识；

（2）从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识；

（3）对筛选出的文本背景知识进行编码，获得文本背景知识中各段落的特征表示；

（4）将筛选出的图像背景知识解析为图像特征表示，并构建可微场景图；

（5）融合步骤（3）和（4）所获段落的特征表示和可微场景图，获得背景知识的融合特征表示；本步骤具体包括：

利用注意力机制，从段落的特征表示中抽取与问题相关的文本重要特征；

利用注意力机制，从可微场景图中抽取与问题相关的图像重要特征；

将文本重要特征和图像重要特征输入多交互注意力模块进行融合，获得融合特征表示；

（6）将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层，计算各候选答案的预测概率，输出预测概率最高的候选答案。

可选的，在一些实施例中，步骤（2）中采用tf-idf法进行文本背景知识的筛选，具体为：

采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分，选取关联得分大于预设得分阈值的段落或关联得分最高的d个段落作为问题相关的文本背景知识，得分阈值和d均为经验值。

可选的，在一些实施例中，所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分，包括：

分别抽取文本问题与段落的词条；

计算各词条与段落的TF-IDF分数，文本问题中词条的TF-IDF分数构成文本问题的TF-IDF分数向量，段落中词条的TF-IDF分数构成段落的TF-IDF分数向量；

计算文本问题和段落的TF-IDF分数向量间的余弦相似度，即文本问题与段落间的关联得分；

其中，词条与段落的TF-IDF分数的计算方法如下：

计算词条在各段落中出现的频率，记为词频；计算词条的逆向文件频率；将词条的词频和逆向文件频率相乘得词条与段落间的TF-IDF分数。

可选的，在一些实施例中，步骤（2）中筛选出与问题相关的图像背景知识，包括：

将问题与图像背景知识中各图像分别进行编码，获得对应的特征表示；

基于特征表示分别计算各图像与问题的相似度，相似度最高的图像即问题相关的图像。

可选的，在一些实施例中，所述对筛选出的文本背景知识进行编码，包括：

利用GloVe模型将各段落中每个词条进行特征表示，将词条的特征表示输入双向GRU时序模型，输出段落的特征表示。

可选的，在一些实施例中，所述将筛选出的图像背景知识解析为可微场景图，包括：

提取图像背景知识中各图像的物体框集合以及物体之间的关系框集合；

取置信度超过预设值的物体框和关系框，再取并集获得候选的边界框集合；

提取候选的边界框集合中各边界框的图像特征表示；

基于候选的边界框集合以及相应的图像特征表示获得可微场景图。

可选的，在一些实施例中，步骤（5）中，所述从段落的特征表示中抽取与问题相关的文本重要特征，包括：

利用非线性模型获取问题与各段落之间的关联评分；

利用关联评分计算问题与各段落间的注意力权重；

利用注意力权重对各段落的特征表示进行加权求和，得文本重要特征。

可选的，在一些实施例中，步骤（5）中，所述从可微场景图中抽取与问题相关的图像重要特征，包括：

利用非线性模型获取问题与可微场景图的各候选边界框之间的关联评分；

利用关联评分计算问题与各候选边界框间的注意力权重；

利用注意力权重对各候选边界框的特征表示进行加权求和，得图像重要特征。

可选的，在一些实施例中，步骤（5）中，所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合，包括：

所述多交互注意力模块包括T层记忆网络，按如下方法迭代更新T次：

在第t层文本记忆网络中，执行如下：

（1a）利用上一层文本记忆网络输出的文本注意特征和步骤（3）获得的段落的特征表示，生成文本模态的注意力特征

；第1层文本记忆网络初始的文本注意特征采用文本重要特征；

（1b）利用上一层图像记忆网络输出的图像注意特征和步骤（3）获得的段落的特征表示，生成跨模态的注意力特征

；第1层图像记忆网络初始的图像注意特征采用图像重要特征；

（1c）将

和

输入平均池化层，获得第t层文本记忆网络输出的文本注意特征；

在第t层图像记忆网络中，执行如下：

（2a）利用上一层图像记忆网络输出的图像注意特征和步骤（4）获得的图像特征表示，生成视觉模态的注意力特征

；

（2b）利用上一层文本记忆网络输出的文本注意特征和步骤（4）获得的图像特征表示，生成跨模态的注意力特征

；

（2c）将

和

输入平均池化层，获得第t层图像记忆网络输出的图像注意特征；

（3）上述迭代完毕，将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合，获取背景知识的融合特征表示。

可选的，在一些实施例中，将步骤（4）构建可微场景图的损失与步骤（6）预测候选答案的损失联合，用来进行模型训练。

相应的，本发明实施例提供的一种基于多交互注意力的端到端多模态问答系统，包括：

接收模块，用来接收问题和背景知识，所述背景知识包括文本背景知识和图像背景知识；

筛选模块，用来从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识；

编码模块，用来对筛选出的文本背景知识进行编码，获得文本背景知识中各段落的特征表示；

解析模块，用来将筛选出的图像背景知识解析为图像特征表示，并获得可微场景图；

融合模块，用来融合编码模块和解析模块所获段落的特征表示和可微场景图，获得背景知识的融合特征表示；

所述融合模块包括：

第一子模块，用来利用注意力机制，从段落的特征表示中抽取与问题相关的文本重要特征；

第二子模块，用来利用注意力机制，从可微场景图中抽取与问题相关的图像重要特征；

融合子模块，用来将文本重要特征和图像重要特征输入多交互注意力模块进行融合，获得融合特征表示；

问答模块，用来将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层，计算各候选答案的预测概率，输出预测概率最高的候选答案。

和现有技术相比，本发明具有如下优点和有益效果：

（1）本发明可有效利用多模态信息，提升多模态语义理解的准确度和全面性，从而提升多模态问答系统的准确率，对多模态问答任务具有较大意义。

（2）本发明使用两个记忆网络分别对文本和图像数据进行建模，基于多交互注意力抽取不同层次的交互信息，并将交互信息进行非线性组合以学习跨模态数据间的多层次交互信息，实现多模态数据的有效融合。

（3）本发明基于记忆网络学习单模态数据中的自我影响，将解析过程和语义理解过程想统一，进行端到端地联立训练，实现全局损失共享，对两个模块同时训练，相互影响。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例的系统架构示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

参见图1，所示为本发明实施例的流程示意图，具体包括：

一、背景知识过滤。

背景知识过滤的目的在于筛选出与问题相关的背景知识。本发明中所输入背景知识包括文本背景知识和图像背景知识，所输入问题同样包括文本问题和图像问题。在本实施例中，背景知识为课文背景知识，问题为课文问题。首先输入课文问题和课文背景知识，然后对课文背景知识中的文本背景知识和图像背景知识分别进行过滤，去除问题不相关的文本背景知识和图像背景知识，保留与问题相关的文本背景知识和图像背景知识。

下面将详细描述本实施例如何对文本背景知识和图像背景知识进行过滤。

（1）文本背景知识的筛选。

本步骤中采用tf-idf法进行文本背景知识筛选。对于文本背景知识中多个文本段落p，基于tf-idf方法计算文本问题与各段落p之间的关联得分，选取出文本问题相关的段落，即所筛选的文本背景知识。本实施例中，根据预设规则筛选问题相关的段落，规则可以为：将关联得分大于预设得分阈值的段落作为问题相关段落；也可以为：将关联得分最高的d个段落作为问题相关段落，d值一般在3~6范围取值。本发明中得分阈值以及d值均为经验值，可通过多次试验寻求最优值。

TF-IDF全称：Term Frequency-Inverse Document Frequency，即词频-逆文档频率法，可用于评估某个词条对文档集中某文档的重要程度。主要评估思路为：判断某个词条在不同文档中出现的频率，当该词条在有的文档中出现频率高，而在其他文档中出现频率低，则认为该词条具有很好的类别区分能力。

TF-IDF法中，计算给定词条w在段落中出现的频率，即词频TF _w，如下：

（1）

TF-IDF法中，

是给定词条w的逆向文件频率，其为词条普遍重要性的度量，计算如下：

（2）

式（2）中，段落总数指文本背景知识中的段落总数。

某一特定段落内的高词语频率，以及该词语在整个段落集合中的低文档频率，可以产生出高权重的TF-IDF，即词条w与段落的TF-IDF分数TF-IDF _w：

TF-IDF _w=TF _w×IDF _w （3）

再基于各词条的TF-IDF _w计算文本问题和段落间的关联得分，过程如下：

首先，分别抽取文本问题与段落的词条，即关键词；然后，采用前述方法计算各关键词与段落的TF-IDF分数，文本问题中所有词条的TF-IDF分数构成文本问题的TF-IDF分数向量，段落中词条的TF-IDF分数构成段落的TF-IDF分数向量。最后，计算文本问题的TF-IDF分数向量与段落的TF-IDF分数向量之间的余弦相似度，即该文本问题与段落之间的关联得分。

（2）图像背景知识的筛选。

本实施例采用余弦相似度来度量问题与图像背景知识中各图像之间的相似度，从而对图像进行筛选。具体的，对图像背景知识中多个图像v，使用预训练的ResNet-101对各图像v分别进行全局编码，获取1024维的特征表示。利用预训练语义模型Bert获取问题的1024维特征表示

，利用余弦相似度分别计算图像背景知识中各图像与问题之间的相似度，选取相似度最高的图像，即问题相关的图像，也就是筛选出的图像背景知识。

二，对前一步筛选出的文本背景知识和图像背景知识进行解析，将文本背景知识进行编码，将图像背景知识解析为可微场景图。

解析的目的是为了后续将文本和图像进行融合。下面将详细描述本实施例如何对文本和图像进行解析。

（1）文本背景知识的编码，获得文本背景知识中段落的特征表示。

本实施例中，利用GloVe模型初始化筛选出的文本背景知识中词层次的表示，将文本段落p中每个词条表示为300维，然后将词条表示输入双向GRU时序模型，获得文本段落p的特征表示，记为f _p。

（2）图像背景知识的解析，获得可微场景图。

本实施例中，将筛选出的图像背景知识按比例缩小到最小边600像素，最长边裁剪到1000像素，得到预处理的图像。利用预训练的Faster R-CNN网络，提取图像中的物体框集合B={b _i }, 以及物体之间的关系框R={r _j }。其中，b _i为集合B中第i个物体框，物体框表示为一个四维向量(x, y, w, h)的边界框，（x, y）表示物体框中心点的坐标，w、h分别表示物体框的宽和高。r _j为集合R中第j个关系框，其是合并两个有关系的物体框获取的最大公共边界框。Faster R-CNN网络提取的物体框和关系框都带有一个置信度confidence，设置预定义阈值为0.5，选取置信度超过阈值0.5的若干边界框作为候选的物体框和关系框，所选取边界框数量范围为[10, 256]。

将候选的物体框和关系框取并集获得候选的边界框集合，利用Faster R-CNN网络获取候选边界框集合中各边界框的图像特征f _x ={f _xk}，f _xk是x _k的特征表示，本实施例中，特征表示f _xk为1024维特征表示；x _k是候选边界框集合中的第k个候选边界框。基于候选物体框、候选关系框、以及其相应特征表示可以得到可微场景图。

三、利用多交互注意力，将第二步所获段落特征表示和可微场景图进行文本和图像的融合。

本步骤分别在文本域和图像域，对文本和图像的语义分别进行多层次交互，获取多层次融合语义。下面将详细描述本实施例的具体实施步骤。

3.1利用基于问题引导的注意力机制，从段落的特征表示中抽取与问题相关的文本重要特征信息

，具体过程如下：

3.1a利用非线性模型获取问题q与第l个段落p _l之间的关联评分h _l：

（4）

式（4）中，W _text和b _text是非线性模型中的可训练参数，tanh表示非线性激活函数；

是段落p _l的特征表示，即第二步编码后获得的特征表示；

是问题q的特征表示。

3.1b 利用关联评分h _l计算问题q与段落p _l间的注意力权重

：

（5）

式（5）中，

表示以自然常数e为底的指数函数，l表示段落p _l的编号，L表示段落的总数，

表示问题q与第

个段落间的关联评分。

3.1c 对L个段落信息汇总，得到初始时刻下与问题q相关的文本重要特征信息

：

（6）

3.2 从图像的特征表示中抽取与问题相关的图像重要特征信息

，且在该过程中尽可能去除噪声。具体过程如下：

3.2a利用非线性模型获取问题q与第k个候选边界框x _k之间的关联评分h _k：

（7）

式（7）中，W _img和b _img是非线性模型中的可训练参数，tanh表示非线性激活函数，f _xk是第二步获取的第k个候选边界框的特征表示。

3.2b 利用关联评分h _k计算问题q与候选边界框x _k之间的注意力权重

：

（8）

式（8）中，

表示以自然常数e为底的指数函数，

表示x _k的编号，K表示候选边界框总数，

表示问题q与第

个候选边界框之间的关联评分。

3.2c 对K个候选边界框信息汇总，得到初始时刻下与问题相关的图像重要特征信息

：

（9）

3.3 将文本重要特征信息

和图像重要特征信息

输入多交互注意力模块，获取深层次交互信息。

本实施例采用的多交互注意力模块包含T层的记忆网络，不断迭代更新特征表示，即重复T次以下迭代过程，计算不同迭代次数t时的文本特征表示

和视觉特征表示

：

3.3a 在第t层文本记忆网络中，利用第二步所获的段落特征表示

生成文本模态的注意力特征

，用来捕捉文本模态自身影响：

（11）

式（10）中，t表示记忆网络当前层数，Att表示自注意力层网络，

是t-1层文本记忆网络输出的文本注意特征，

表示t层文本域下文本与文本交互获取的交互信息表示。

3.3b 利用图像特征查询文本记忆

，生成跨模态的注意力特征

，即跨模态的交互信息：

（12）

式（11）中，

是t-1层图像记忆网络输出的图像注意特征，

表示t层文本域下文本与图像交互获取的交互信息表示。

3.3c 将

和

输入平均池化层，获得文本注意特征

：

（13）

3.3d 同时，在第t层图像记忆网络中，利用步骤二所获得的图像特征表示f _xk，生成视觉模态的注意力特征

，即t层图像域下图像与图像交互获取的交互信息表示。

3.3e 利用文本特征查询视觉记忆

生成跨模态的注意力特征

，即t层图像域下图像与文本交互获取的交互信息表示。

3.3f 将

和

输入平均池化层，获得图像注意特征

。

3.4 利用深层神经网络作为解码器，将文本注意特征

和视觉注意特征

输入解码器，获取融合的背景知识表示

。

（14）

式（13）中，DNN表示深层神经网络，用于融合最终获取的T层文本注意特征

和视觉注意特征

，

即融合后的特征表示。

四、答案预测。

将融合特征

，问题q的特征表示、候选答案a _u的特征表示输入一个非线性层，再经过softmax函数得到预测概率pred _u，即候选答案a _u作为该问题q正确答案的概率，概率最高的候选答案即作为最终答案输出。

（15）

式（15）中，a _u表示第u个候选答案，

是的a _u的特征表示，

是候选答案的个数，F表示一个前向神经网络层，用于预测最终答案。

本发明中候选答案预先输入，例如对于选择题型的问题，输入问题即输入了若干候选答案。

五、端到端模型训练，解析模块与问答模块的损失联合。

本步骤为优选方案，可以进一步优化模型，提高问答精确度。

本实施例中，将第二步构建可微场景图的损失与第四步问答模块预测答案的损失进行联合，从而使得可微场景图与答案预测之间的损失共享。通过同时指导可微场景图的构建和问答任务，可以生成更适合于问答的可微场景图及其对应表示，并进一步优化问答模块的问答效果，提高整体的精确度。两个模块损失都使用交叉熵，使得两个模块损失共同对模型训练产生影响，实现端到端的模型训练构成。

交叉熵L _CE的计算公式如下：

（16）

式（16）中，

表示第m条数据的预测概率（如问答模块对候选答案的预测结果），

表示第m条数据的实际值（如问题的实际答案），M表示训练数据的总数量。

整体损失L定义为：

（17）

式（17）中，

是构建可微场景图的解析模块的交叉熵损失，

是预测候选答案的问答模块的交叉熵损失。

本发明实施例中，利用Faster R-CNN网络对图像理解的损失加入到模型训练中，利用Faster R-CNN生成的可微场景图，实现端到端的问答系统，避免了解析模块损失导致的整体问答效果不佳，减少了该过程的语义损失。利用多交互注意力，捕捉深层次的跨模态交互信息，同时基于网络学习单模态上的信息，实现对背景知识语义更好地理解。最终在TQA基准数据集上可以更好地提高精确度。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于多交互注意力的端到端多模态问答方法，其特征是，包括：

(1)接收问题和背景知识，所述背景知识包括文本背景知识和图像背景知识；

(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识；

(3)对筛选出的文本背景知识进行编码，获得文本背景知识中各段落的特征表示；

(4)将筛选出的图像背景知识解析为图像特征表示，并构建可微场景图；

(5)融合步骤(3)和(4)所获段落的特征表示和可微场景图，获得背景知识的融合特征表示；本步骤具体包括：

(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层，计算各候选答案的预测概率，输出预测概率最高的候选答案。

2.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

步骤(2)中采用tf-idf法进行文本背景知识的筛选，具体为：

3.如权利要求2所述的基于多交互注意力的端到端多模态问答方法，其特征是：

所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分，包括：

分别抽取文本问题与段落的词条；

计算各词条与段落的TF-IDF分数，文本问题中词条的TF-IDF分数构成文本问题的TF- IDF分数向量，段落中词条的TF-IDF分数构成段落的TF-IDF分数向量；

其中，词条与段落的TF-IDF分数的计算方法如下：

4.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

步骤(2)中筛选出与问题相关的图像背景知识，包括：

5.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

所述将筛选出的图像背景知识解析为可微场景图，包括：

提取候选的边界框集合中各边界框的图像特征表示；

6.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

步骤(5)中，所述从段落的特征表示中抽取与问题相关的文本重要特征，包括：

利用非线性模型获取问题与各段落之间的关联评分；

利用关联评分计算问题与各段落间的注意力权重；

7.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

步骤(5)中，所述从可微场景图中抽取与问题相关的图像重要特征，包括：

利用关联评分计算问题与各候选边界框间的注意力权重；

8.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

步骤(5)中，所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合，包括：

在第t层文本记忆网络中，执行如下：

(1a)利用上一层文本记忆网络输出的文本注意特征和步骤(3)获得的段落的特征表示，生成文本模态的注意力特征

(1b)利用上一层图像记忆网络输出的图像注意特征和步骤(3)获得的段落的特征表示，生成跨模态的注意力特征

(1c)将

和

在第t层图像记忆网络中，执行如下：

(2a)利用上一层图像记忆网络输出的图像注意特征和步骤(4)获得的图像特征表示，生成视觉模态的注意力特征

；

(2b)利用上一层文本记忆网络输出的文本注意特征和步骤(4)获得的图像特征表示，生成跨模态的注意力特征

；

(2c)将

和

(3)步骤(1a)- (1c)以及步骤(2a)- (2c)进行完T次迭代后，将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合，获取背景知识的融合特征表示。

9.如权利要求1所述的基于多交互注意力的端到端多模态问答方法，其特征是：

将步骤(4)构建可微场景图的损失与步骤(6)预测候选答案的损失联合，用来进行模型训练。

10.基于多交互注意力的端到端多模态问答系统，其特征是，包括：

所述融合模块包括：