CN110609891B

CN110609891B - 一种基于上下文感知图神经网络的视觉对话生成方法

Info

Publication number: CN110609891B
Application number: CN201910881298.4A
Authority: CN
Inventors: 郭丹; 王辉; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2021-06-08
Anticipated expiration: 2039-09-18
Also published as: CN110609891A

Abstract

本发明公开了一种基于上下文感知图神经网络的视觉对话生成方法，包括以下步骤：1、视觉对话中文本输入的预处理和单词表的构建；2、对话图像的特征提取以及对话文本的特征提取；3、获取历史对话上下文特征向量；4、构建上下文感知图；5、迭代更新上下文感知图；6、基于当前问题对上下文感知图节点进行注意力处理；7、多模态语义融合及解码生成答案特征序列；8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化；9、预测答案生成。本发明在视觉对话上构建了上下文感知的图神经网络，能利用更细粒度的文本语义信息来推理图像中不同对象之间的隐含关系，从而提高智能体对问题所预测生成的答案的合理性和准确性。

Description

一种基于上下文感知图神经网络的视觉对话生成方法

技术领域

本发明属于计算机视觉技术领域，涉及到模式识别、自然语言处理、人工智能等技术，具体地说是一种基于上下文感知图神经网络的视觉对话生成方法。

背景技术

视觉对话是一种人机交互方法，其目的是让机器智能体与人类能够对给定的日常场景图以问答的形式进行合理正确的自然对话。因此，如何让智能体正确的理解由图像、文本组成的多模态语义信息从而对人类提出的问题给出合理的回答是视觉对话任务的关键。视觉对话目前也是计算机视觉领域热门研究课题之一，其应用场景也非常的广泛，包括：帮助视觉障碍的人群了解社交媒体内容或日常环境、人工智能助力、机器人应用等方面。

随着现代图像处理技术和深度学习的发展，视觉对话技术也得到了巨大的发展，但是仍然面临以下几点问题：

一、智能体在处理文本信息时缺乏对文本特征进行更细粒度的学习。

例如2017年，Jiasen Lu等作者在顶级国际会议Conference and Workshop onNeural Information Processing Systems(NIPS 2017)上发表的文章《Best of BothWorlds:Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model》中提出的基于历史对话的图像注意力方法，该方法首先对历史对话进行句子层面的注意力处理，然后基于处理后的文本特征对图像特征进行注意力学习，但是该方法在处理当前问题的文本信息时只考虑了句子层面的语义，没有考虑词层面的语义，而在实际提问的句子里面通常只有部分关键词是与预测的答案最相关的。因此，该方法在实际应用时会有一定的局限性。

二、现有方法在处理图像信息时，缺乏对视觉对象之间的语义依赖关系的学习。

例如2019年，Zilong Zheng等作者在顶级国际会议IEEE Conference onComputer Vision and Pattern Recognition(CVPR 2019)上发表的《Reasoning VisualDialogs with Structural and Partial Observations》。这篇文章在视觉对话任务上构建了一个对话图神经网络，图网络中的每一个节点代表一段对话片段，图网络中的边代表不同对话片段之间的语义依赖关系，该方法利用EM算法来更新图网络结果，明确不同对话片段之间的具体语义依赖关系，并更据所更新的图网络来预测最后的答案。虽然这篇文章所提出的方法有效的建模了不同对话片段之间的语义依赖关系，但是该方法只考虑了文本层面的相互依赖关系，而没有去考虑图像信息中不同视觉对象之间的相互依赖关系，使得视觉语义信息没能够进行更细粒度的学习，在最终的预测答案生成上存在局限性。

发明内容

本发明是为了克服现有技术存在的不足之处，提出一种基于上下文感知图神经网络的视觉对话生成方法，以期能为智能体提供充分学习视觉对象间相互依赖关系的视觉语义信息，以及更细粒度的文本语义信息，从而提高智能体对问题所预测生成的答案的合理性和准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于上下文感知图神经网络的视觉对话生成方法的特点是按如下步骤进行：

步骤1、视觉对话中文本输入的预处理和单词表的构建：

步骤1.1、获取视觉对话数据集，所述视觉对话数据集中包含句子文本和图像；

对所述视觉对话数据集中所有的句子文本进行分词处理，得到分割后的单词；

步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词，并构建单词索引表Voc；再对所述索引表Voc中的每一个单词进行one-hot编码，得到one-hot向量表O＝[o₁,o₂,...,o_i,...,o_S]，其中o_i表示索引表Voc中的第i个单词所对应的one-hot编码向量，S为索引表Voc中的单词个数；

步骤1.3、随机初始化一个词嵌入矩阵W_e，

其中d_w代表词向量的维度；利用词嵌入矩阵W_e将one-hot向量表中的每个单词的编码向量映射到相应的词向量上，从而得到词向量表；

步骤2、对话图像的特征提取以及对话文本的特征提取；

步骤2.1、从视觉对话数据集中获取任意一个图像I及其对应的历史对话U＝[u₁,u₂,...,u_r,...,u_R]、当前问题

和真实答案标签A_GT所组成的视觉对话信息D；其中R为历史对话U中的对话片段总数，u_r表示对话中的第r段对话，L₁表示当前问题Q的句子长度，w_Q,i表示当前问题Q中的第i个单词在所述词向量表中所对应的词向量；

步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征，得到视觉对象特征V＝[v₁,v₂,...,v_i,...,v_M]，

其中v_i表示视觉对象特征V中的第i个目标对象特征，M表示视觉对象特征V中检测的目标对象总数，d为视觉对象特征V的通道维度；

步骤2.3、使用长短期记忆网络LSTM对当前问题Q进行特征提取，得到隐状态特征序列

并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征

作为当前问题Q的句子级问题特征向量q，

其中h_Q,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征；

步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话

进行特征提取，得到第r个隐状态序列

并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征

作为第r段对话u_r的句子级特征h_r，

则总的历史对话特征为

其中w_r,i表示第r段对话u_r中第i个单词在所述词向量表中所对应的词向量，L₂为第r段对话u_r的句子长度，h_r,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征；

步骤3、获取历史对话上下文特征向量；

利用式(1)对所述总的历史对话特征H＝[h₁,h₂,...,h_r,...,h_R]进行注意力处理，得到历史对话上下文特征向量h_a，

h_a＝α_hH′ (1)

式(1)中，

表示对历史对话特征H的注意力分布权重，并有：

α_h＝softmax(W_hz_h) (2)

式(2)中，

表示句子级问题特征向量q与历史对话特征H之间的相似度矩阵，

表示相似度矩阵z_h的待训练参数，并有：

z_h＝L2Norm((W_h2H)⊙(W_q2q)) (3)

式(3)中，

表示句子级问题特征向量q对应的待训练参数，

表示历史对话特征H对应的待训练参数，⊙表示点乘运算，L2Norm表示L2正则化操作；

步骤4、构建上下文感知图；

步骤4.1、利用所述历史对话上下文特征向量h_a和视觉对象特征V构建上下文感知图G＝{N,ξ}，其中ξ表示所述上下文感知图G中所有节点之间边的集合，

表示上下文感知图G中的节点集合，且

表示节点集合N中的第i个节点；

步骤4.2、利用式(4)对节点集合N中的第i个节点N_i进行初始化，1≤i≤M：

N_i＝[v_i；c_i]＝[v_i；h_a] (4)

式(4)中，

表示第i个节点N_i中的上下文特征向量，其初始值与历史对话上下文特征向量h_a相同，[；]表示特征拼接操作；

步骤5、迭代更新上下文感知图；

对所述上下文感知图G进行T轮迭代更新，并得到更新后的上下文感知图节点集合N^(T+1)；其中，上下文感知图G的第t轮迭代更新过程如下，1≤t≤T：

步骤5.1、在第t轮迭代更新过程中，利用式(5)对当前问题Q进行词级别注意力处理，得到第t轮迭代更新时的注意力关注的词级问题特征向量

式(5)中，

表示在第t轮迭代更新时对当前问题Q的注意力分布权重，并有：

式(6)中，

表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵，

表示自注意力语义矩阵

所对应的待训练参数，并有：

式(7)中，

表示在第t轮迭代更新时词级别注意力处理中当前问题Q所对应的待训练参数；

步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵

表示第t轮迭代更新时第i个节点

与上下文感知图G中所有其它节点的连接边权重：

式(8)中，

分别表示在第t轮迭代更新时上下文感知图节点集合N^(t)所对应的不同待训练参数，

表示注意力关注的词级问题特征向量

所对应的待训练参数；

步骤5.3、利用式(9)为上下文感知图节点集合N^(t)中的第i个节点

选择关系最相关的K个邻居节点集

式(9)中，topK表示排序操作，并返回连接边权重

中权重值最大的前K个连接节点所对应的索引；

步骤5.4、利用式(10)计算上下文感知图节点集合N^(t)中的第i个节点

从邻居节点集

中接收到的总消息特征

式(10)中，

表示邻居节点

传递给第i个节点

的消息特征，

表示邻居节点

到第i个节点

之间的连接边的归一化权值，邻居节点

表示邻居节点集

中索引为j所对应的节点，并有：

式(11)和式(12)中，

表示邻居节点

所对应的待训练参数，

表示注意力关注的词级问题特征向量

所对应的待训练参数；

步骤5.5、利用式(13)更新图节点集合N^(t)中的第i个节点

的特征，得到更新后的第i个节点

式(13)中，

表示在第t轮迭代更新后的上下文特征向量，并有：

式(14)中，

表示在第t轮迭代更新时的上下文特征向量，

表示中间变量

所对应的待训练参数；

步骤6、基于当前问题对上下文感知图节点进行注意力处理；

利用式(15)对所述更新后的上下文感知图节点集合N^(T+1)进行注意力处理，得到注意力关注的上下文感知图特征向量e_g，

e_g＝α_gN^(T+1) (15)

式(15)中，

表示对更新后的上下文感知图节点集合N^(T+1)的注意力分布权重，并有：

α_g＝softmax(W_gz_g) (16)

式(16)中，

表示句子级问题特征向量q与更新后的上下文感知图节点集合N^(T+1)之间的相似度矩阵，

表示相似度矩阵z_g对应的待训练参数，并有：

z_g＝tanh(W_g1q+W_g2N^(T+1)) (17)

式(17)中，

表示句子级问题特征向量q对应的待训练参数，

表示更新后的上下文感知图节点集合N^(T+1)对应的待训练参数；

步骤7、多模态语义融合及解码生成答案；

步骤7.1、将所述句子级问题特征向量q和注意力关注的上下文感知图特征向量e_g进行拼接，得到多模态特征向量e_M，

再利用全连接操作对所述多模态特征向量e_M进行映射，得到融合语义特征向量e,

步骤7.2、将所述融合语义特征向量e输入到长短期记忆网络LSTM中，得到预测答案的隐状态特征序列

其中h_A,i为长短期记忆网络LSTM的第i个步长的输出，L₃为真实答案标签A_GT的句子长度；

步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列

映射到与所述one-hot向量表O同一维度的空间中，得到预测答案的单词向量集合

其中y_i表示预测答案中第i个单词的映射向量，且向量长度与单词个数相同；

步骤8、基于上下文感知图神经网络的视觉对话生成网络模型的参数优化；

步骤8.1、根据所述单词one-hot向量表O对真实答案标签A_GT中的单词构建向量集合

其中

表示真实答案标签A_GT中第i个单词的映射向量，且向量长度与单词个数相同；

步骤8.2利用式(18)计算预测答案与真实答案A_GT之间的损失代价E：

步骤8.3、利用随机梯度下降法将所述损失代价E进行优化求解，使损失代价E达到最小，从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型；

步骤9、预测答案生成；

对所述预测答案的单词向量集合

使用贪心解码算法得到第i个单词的映射向量y_i中最大值所对应的位置，并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量y_i最终的预测单词，进而得到单词向量集合Y所对应的预测答案，并以所述当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。

与已有技术相比，本发明的有益效果体现在：

1、本发明从句子层面和词层面分别处理文本特征，在处理时首先对问题和历史对话进行句子层面的特征提取并对历史对话特征进行注意力处理；接着，在每一轮图网络迭代更新过程中都会对当前问题特征进行词级注意力处理，使得图网络在每次更新时都能根据不同的关键词语义来学习不同图节点之间的相互依赖关系；最终，经过多轮迭代关系图网络充分学习了内部节点之间的相互依赖关系，这种更细粒度的文本处理方法使得本发明在视觉对话中可以生成更准确合理的答案。

2、和以往研究的视觉对话技术相比，本发明不仅充分考虑了当前问题与历史对话之间的相互依赖关系，还利用历史上下文文本语义信息和视觉对象语义信息构建了一个上下文感知的图神经网络，并利用该图网络去学习图像中不同视觉对象之间的相互依赖关系，使得智能体能辨别不同视觉对象在当前问题下的重要性，进而获得更细粒度、更准确的视觉语义信息。

3、本发明提出了一种基于图网络的多模态语义融合结构，该结构首先利用句子层面的问题特征对迭代更新后的上下文感知图网络进行注意力处理，以进一步突出上下文感知图网络中与问题关键词相关的节点语义信息。接着，拼接句子级问题特征和注意力关注的上下文感知图特征，并进行学习与融合，使得视觉特征和文本特征可以通过上下文感知图网络和多模态语义融合互相产生影响，并辅助优化网络的参数，融合网络同时获取了视觉语义和文本语义之后，智能体的预测答案生成效果也有了很大的提升，预测的结果也更精确。

附图说明

图1为本发明的网络模型示意图；

图2为本发明中上下文感知图的迭代更新处理示意图；

图3为本发明网络模型训练示意图。

具体实施方式

在本实施例中，如图1所示，一种基于上下文感知图神经网络的视觉对话生成方法是按如下步骤进行：

步骤1、视觉对话中文本输入的预处理和单词表的构建：

步骤1.1、从网上获取视觉对话数据集，目前公开的数据集主要有VisDialDataset，该数据集由乔治亚理工学院的相关研究员收集而成，视觉对话数据集中包含句子文本和图像；

对视觉对话数据集中所有的句子文本进行分词处理，得到分割后的单词；

步骤1.2、从分割后的单词中筛选出词频率大于阈值的所有单词，阈值的大小可设置为4，并构建单词索引表Voc；创建单词索引表Voc的方法：单词表可以包含单词、标点符号；统计单词的个数并对单词进行排序，其中为了满足优化的训练过程，添加了一个空白符。对所有单词按照顺序构建单词与序号的对应表；再对索引表Voc中的每一个单词进行one-hot编码，得到one-hot向量表O＝[o₁,o₂,...,o_i,...,o_S]，其中o_i表示索引表Voc中的第i个单词所对应的one-hot编码向量，S为索引表Voc中的单词个数；

步骤1.3、随机初始化一个词嵌入矩阵W_e，

步骤2、对话图像的特征提取以及对话文本的特征提取；

和真实答案标签A_GT所组成的视觉对话信息D；其中R为历史对话U中的对话片段总数，u_r表示对话中的第r段对话，L₁表示当前问题Q的句子长度，L₁的大小可设置为16，对于句子长度小于16的句子会用零向量进行填充，填充至其长度为L₁，w_Q,i表示当前问题Q中的第i个单词在词向量表中所对应的词向量；

步骤2.2、使用目标检测特征提取器和多层感知器提取视觉对话信息D中图像I的特征，得到视觉对象特征

其中v_i表示视觉对象特征V中的第i个目标对象特征，M表示视觉对象特征V中检测的目标对象总数，d为视觉对象特征V的通道维度；本实施例中，可以采用预训练的Faster-RCNN目标检测特征提取器对图像I的局部视觉特征进行特征提取；Faster-RCNN所提取的局部视觉特征在许多视觉任务上都取得了优异的效果，因此我们使用在Visual Genome数据集上预训练过的Faster-RCNN作为实验的局部视觉特征提取器，并且这一部分的网络不参与后续步骤8的参数更新部分；

并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征

作为当前问题Q的句子级问题特征向量q，

步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话

进行特征提取，得到第r个隐状态序列

并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征

作为第r段对话u_r的句子级特征h_r，

则总的历史对话特征为

其中w_r,i表示第r段对话u_r中第i个单词在词向量表中所对应的词向量，L₂为第r段对话u_r的句子长度，L₂的大小可设置为25，对于句子长度小于25的句子会用零向量进行填充，填充至其长度为L₂，h_r,i表示长短期记忆网络LSTM的第i个步长输出的隐状态特征；

步骤3、获取历史对话上下文特征向量；

利用式(1)对总的历史对话特征H＝[h₁,h₂,...,h_r,...,h_R]进行注意力处理，得到历史对话上下文特征向量h_a，

h_a＝α_hH′ (1)

式(1)中，

表示对历史对话特征H的注意力分布权重，并有：

α_h＝softmax(W_hz_h) (2)

式(2)中，

表示相似度矩阵z_h的待训练参数，并有：

z_h＝L2Norm((W_h2H)⊙(W_q2q)) (3)

式(3)中，

表示句子级问题特征向量q对应的待训练参数，

步骤4、构建上下文感知图；

步骤4.1、利用历史对话上下文特征向量h_a和视觉对象特征V构建上下文感知图G＝{N,ξ}，其中ξ表示上下文感知图G中所有节点之间边的集合，

表示上下文感知图G中的节点集合，且

表示节点集合N中的第i个节点；

N_i＝[v_i；c_i]＝[v_i；h_a] (4)

式(4)中，

步骤5、如图2所示，迭代更新上下文感知图；

对上下文感知图G进行T轮迭代更新，并得到更新后的上下文感知图节点集合N^(T ⁺¹⁾；其中，上下文感知图G的第t轮迭代更新过程如下，1≤t≤T：

式(5)中，

式(6)中，

表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵，

表示自注意力语义矩阵

所对应的待训练参数，并有：

式(7)中，

步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵

表示第t轮迭代更新时第i个节点

与上下文感知图G中所有其它节点的连接边权重：

式(8)中，

表示注意力关注的词级问题特征向量

所对应的待训练参数；

选择关系最相关的K个邻居节点集

式(9)中，topK表示排序操作，并返回连接边权重

中权重值最大的前K个连接节点所对应的索引；

从邻居节点集

中接收到的总消息特征

式(10)中，

表示邻居节点

传递给第i个节点

的消息特征，

表示邻居节点

到第i个节点

之间的连接边的归一化权值，邻居节点

表示邻居节点集

中索引为j所对应的节点，并有：

式(11)和式(12)中，

表示邻居节点

所对应的待训练参数，

表示注意力关注的词级问题特征向量

所对应的待训练参数；

步骤5.5、利用式(13)更新图节点集合N^(t)中的第i个节点

的特征，得到更新后的第i个节点

式(13)中，

表示在第t轮迭代更新后的上下文特征向量，并有：

式(14)中，

表示在第t轮迭代更新时的上下文特征向量，

表示中间变量

所对应的待训练参数；

步骤6、基于当前问题对上下文感知图节点进行注意力处理；

利用式(15)对更新后的上下文感知图节点集合N^(T+1)进行注意力处理，得到注意力关注的上下文感知图特征向量e_g，

e_g＝α_gN^(T+1) (15)

式(15)中，

α_g＝softmax(W_gz_g) (16)

式(16)中，

表示相似度矩阵z_g对应的待训练参数，并有：

z_g＝tanh(W_g1q+W_g2N^(T+1)) (17)

式(17)中，

表示句子级问题特征向量q对应的待训练参数，

步骤7、多模态语义融合及解码生成答案；

步骤7.1、将句子级问题特征向量q和注意力关注的上下文感知图特征向量e_g进行拼接，得到多模态特征向量e_M，

再利用全连接操作对多模态特征向量e_M进行映射，得到融合语义特征向量e,

步骤7.2、将融合语义特征向量e输入到长短期记忆网络LSTM中，得到预测答案的隐状态特征序列

其中h_A,i为长短期记忆网络LSTM的第i个步长的输出，L₃为真实答案标签A_GT的句子长度，L₃的大小可设置为9；

步骤7.3、利用全连接操作将预测答案的隐状态特征序列

映射到与one-hot向量表O同一维度的空间中，得到预测答案的单词向量集合

步骤8、如图3所示，对基于上下文感知图神经网络的视觉对话生成网络模型的参数进行优化；

步骤8.1、根据单词one-hot向量表O对真实答案标签A_GT中的单词构建向量集合

其中

步骤8.3、利用随机梯度下降法将损失代价E进行优化求解，使损失代价E达到最小，从而得到最优参数的基于上下文感知图神经网络的视觉对话网络模型；

步骤9、预测答案生成；

对预测答案的单词向量集合

使用贪心解码算法得到第i个单词的映射向量y_i中最大值所对应的位置，并根据最大值所对应的位置在单词索引表Voc中查找相应位置的单词作为第i个单词的映射向量y_i最终的预测单词，进而得到单词向量集合Y所对应的预测答案，并以当前问题Q和单词向量集合Y所对应的预测答案作为最终生成的视觉对话。

Claims

1.一种基于上下文感知图神经网络的视觉对话生成方法，其特征是按如下步骤进行：

步骤1、视觉对话中文本输入的预处理和单词表的构建：

步骤1.3、随机初始化一个词嵌入矩阵W_e，

步骤2、对话图像的特征提取以及对话文本的特征提取；

并取长短期记忆网络LSTM的最后一个步长输出的隐状态特征

作为当前问题Q的句子级问题特征向量q，

步骤2.4、使用长短期记忆网络LSTM对历史对话U中的第r段对话

进行特征提取，得到第r个隐状态序列

并取长短期记忆网络取LSTM的最后一个步长输出的隐状态特征

作为第r段对话u_r的句子级特征h_r，

则总的历史对话特征为H＝[h₁,h₂,...,h_r,...,h_R]，

步骤3、获取历史对话上下文特征向量；

h_a＝α_hH′ (1)

式(1)中，

表示对历史对话特征H的注意力分布权重，并有：

α_h＝softmax(W_hz_h) (2)

式(2)中，

表示相似度矩阵z_h的待训练参数，并有：

z_h＝L2Norm((W_h2H)⊙(W_q2q)) (3)

式(3)中，

表示句子级问题特征向量q对应的待训练参数，

步骤4、构建上下文感知图；

表示上下文感知图G中的节点集合，且N＝[N₁,N₂,...,N_i,...,N_M]，

表示节点集合N中的第i个节点；

N_i＝[v_i；c_i]＝[v_i；h_a] (4)

式(4)中，

步骤5、迭代更新上下文感知图；

对所述上下文感知图G进行T轮迭代更新，并得到更新后的上下文感知图节点集合N^(T ⁺¹⁾；其中，上下文感知图G的第t轮迭代更新过程如下，1≤t≤T：

式(5)中，

式(6)中，

表示在第t轮迭代更新时当前问题Q的自注意力语义矩阵，

表示自注意力语义矩阵

所对应的待训练参数，并有：

式(7)中，

步骤5.2、利用式(8)计算在第t轮迭代更新时的图连接矩阵

表示第t轮迭代更新时第i个节点

与上下文感知图G中所有其它节点的连接边权重：

式(8)中，

表示注意力关注的词级问题特征向量

所对应的待训练参数；步骤5.3、利用式(9)为上下文感知图节点集合N^(t)中的第i个节点

选择关系最相关的K个邻居节点集

1≤i≤M：

式(9)中，topK表示排序操作，并返回连接边权重

中权重值最大的前K个连接节点所对应的索引；

从邻居节点集

中接收到的总消息特征

1≤i≤M：

式(10)中，

表示邻居节点

传递给第i个节点

的消息特征，

表示邻居节点

到第i个节点

之间的连接边的归一化权值，邻居节点

表示邻居节点集

中索引为j所对应的节点，并有：

式(11)和式(12)中，

表示邻居节点

所对应的待训练参数，

表示注意力关注的词级问题特征向量

所对应的待训练参数；

步骤5.5、利用式(13)更新图节点集合N^(t)中的第i个节点

的特征，得到更新后的第i个节点

1≤i≤M：

式(13)中，

表示在第t轮迭代更新后的上下文特征向量，并有：

式(14)中，

表示在第t轮迭代更新时的上下文特征向量，

表示中间变量

所对应的待训练参数；

步骤6、基于当前问题对上下文感知图节点进行注意力处理；

e_g＝α_gN^(T+1) (15)

式(15)中，

α_g＝softmax(W_gz_g) (16)

式(16)中，

表示句子级问题特征向量q与更新后的上下文感知图节点集合N^(T ⁺¹⁾之间的相似度矩阵，

表示相似度矩阵z_g对应的待训练参数，并有：

z_g＝tanh(W_g1q+W_g2N^(T+1)) (17)

式(17)中，

表示句子级问题特征向量q对应的待训练参数，

步骤7、多模态语义融合及解码生成答案；

步骤7.3、利用全连接操作将所述预测答案的隐状态特征序列

其中

步骤9、预测答案生成；

对所述预测答案的单词向量集合