CN113010712A

CN113010712A - 一种基于多图融合的视觉问答方法

Info

Publication number: CN113010712A
Application number: CN202110241850.0A
Authority: CN
Inventors: 张晔华; 张鹏; 骆克
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-22
Anticipated expiration: 2041-03-04
Also published as: CN113010712B

Abstract

本发明公开一种基于多图融合的视觉问答方法，该方法采用了一个图网络融合(MGI)模型，MGI模型包括基于图网络传播模块、图网络融合模块和类别预测模块。图网络传播模块通过注意力机制分别对物体特征和文本特征进行前向传播，从而提取和捕获数据的局部信息；图网络融合模块通过CIN网络使得两个图网络进行交互，从而获取数据的全局信息，给答案分类时增加足够的特征；最后通过类别预测模块融合模型学习到的特征信息，得到更加准确的答案分类标签。本发明克服从视觉问答模型难以提取局部和全局信息的现状。

Description

一种基于多图融合的视觉问答方法

技术领域

本发明涉及视觉问答和图网络技术领域，特别涉及针对某一图片和其对应的问题判断其答案类别的方法。

背景技术

视觉问答已成为自然语言处理和人工智能领域的热门研究课题。视觉问答在现实生活中具有许多应用场景，例如机器人导航，交互式购物和图像搜索。视觉问答旨在根据给定的视觉图像回答自然语言问题，由于难以发现复杂的视觉内容与问题之间的关系，因此这是一项有挑战性的任务。对着网络高速发展，互联网上的图片与问题数据越来越多，基于图片的文本问答越来越重要，同时处理的难度也在加大。随着神经网络的兴起，视觉问答技术有了突破的发展，目前大多数基于注意力机制获取图片物体间的关系，实现端到端训练，比如CNN-RNN^[1]、SANs^[2]、Co-Attention^[3]、Bottom-Up^[4]、Multi-grained Attention^[5]等。CNN-RNN使用整个图片的特征作为视觉特征，并且通过LSTM获得文本特征，并使用注意力机制机型分类；SANs使用问题的语义表示作为查询来搜索图像中与答案相关的区域；Co-Attention提出了一种新颖的VQA联合注意模型，该模型联合了图像和问题的注意力机制；Bottom-UP提出了一种自下而上和自上而下的组合注意力机制，可以在对象和其他显着图像区域上计算注意力；Multi-grained Attention提出了一种多增益注意力方法，该方法可以通过与句子-图像联想互补的两种类型的词级注意力学习显式的词-物对应关系。但是，获取图像中不同实体特征的方法会忽略不同实体之间的关系信息，从而使模型无法使用实体之间的关系信息进行推理，这限制了模型选择正确答案的能力。这依旧有待改进。

为了实现效果更好的视觉问答模型，目前的主要挑战是：视觉问答该任务需要对于图片和问题共同建模，并且从建模出的特征得出答案。答案的选取往往不仅关注局部特征也需要关注全局综合的特征，这就需要模型对图片和文本提取局部和全局语义，才能更好地回答问题。所以如何建模数据的局部和全局信息，是视觉问答模型的要解决的问题。

参考文献：

[1]Antol,S.,Agrawal,A.,Lu,J.,Mitchell,M.,Batra,D.,Zitnick,C.L.,&Parikh,D.(2015).Vqa:Visual question answering.In Proceedings of the IEEEinternational conference on computer vision(pp.2425-2433).

[2]Yang,Z.,He,X.,Gao,J.,Deng,L.,&Smola,A.(2016).Stacked attentionnetworks for image question answering.In Proceedings of the IEEE conferenceon computer vision and pattern recognition(pp.21-29).

[3]Lu,Jiasen,et al."Hierarchical question-image co-attention forvisual question answering."arXiv preprint arXiv:1606.00061(2016).

[4]Anderson,Peter,et al."Bottom-up and top-down attention for imagecaptioning and visual question answering."Proceedings of the IEEE conferenceon computer vision and pattern recognition.2018.

[5]Huang,Pingping,et al."Multi-grained attention with object-levelgrounding for visual question answering."Proceedings of the 57th AnnualMeeting of the Association for Computational Linguistics.2019.

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于多图融合的视觉问答方法，本发明克服了从视觉问答模型难以提取局部和全局信息的现状；利用图网络抽取不同数据结点的局部信息，结合CIN网络融合所有图网络的特征信息从而捕获全局信息，最终进行答案分类预测，并利用反向传播、随机梯度下降优化方法训练网络模型得到最优模型在测试集上预测结果，最终得到更加准确的视觉问答分类结果。

本发明的目的是通过以下技术方案实现的：

一种基于多图融合的视觉问答方法，基于图网络融合(MGI)模型，MGI模型采用CIN网络建模两个图网络，从而提取不同的图网络特征表示；所述MGI模型包括图网络传播模块、图网络融合模块和类别预测模块；

所述图网络传播模块用于提取图的局部语义信息，获取图结点的浅层特征；图网络传播模块包括物体表征图网络、文本表征图网络；物体表征图网络是通过Faster R-CNN提取图片物体特征，每个物体都是由一维稠密向量表示，并使用注意力机制进行前向传播；文本表征图网络是通过图片对应的问题文本单词，并使用glove词向量工具学习每个单词在word2vec模型中的嵌入表示，每个单词都是由一维稠密向量表示，并使用注意力机制进行前向传播；两个图网络使用的注意力机制均使用了结点向量进行内积操作，得到结点与结点之间的相似度得分，再利用相似度得分和结点向量表示对应位置加权求和获取结点的邻居信息；最后物体表征图网络、文本表征图网络分别提取了不同的局部信息；

图网络融合模块用于融合物体表征图网络和文本表征图网络的结点特征表示，从而建模两个图网络的整体表示，提高分类结果；图网络融合模块利用CIN网络融合两个图网络的信息；图网络融合模型分为了外积层和卷积层；首先把两个图网络的输出按0维度进行拼接产生新的特征矩阵，外积层对特征矩阵每一列进行外积操作，并产生一个三阶张量；卷积层通过卷积参数压缩三阶张量的每一个矩阵，产生交互后的特征矩阵；MGI模型训练时先随机初始化，之后通过神经网络的端到端过程实现自动学习；

类别预测模块用于预测问题和图片对应的答案分类类别，和目标值对比然后计算loss，然后利用反向传播算法多次更新和优化MGI模型的参数；类别预测模块的输入为图网络融合模块产生的组合后的特征矩阵；使用注意力机制将特征矩阵压缩成一个一维向量，然后通过一个线性变换层和softmax层输出答案的预测类别。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明提出的多图融合的视觉问答模型(MGI)构造了两个图网络，分别是物体表征图网络和文本表征图网络，并利用图网络传播技术编码各个图网络的图结点特征获取局部信息。

2.一般的图网络模型利用结点间的信息传递，具有较强的局部特征建模能力；而不同图的图网络，学习了数据的全局语义信息。MGI模型通过图网络传播模块和图网络融合模块可以同时学习视觉问答数据中的局部信息和全局语义，融合两种特征表示，从而提高视觉问答的准确率，增加神经网络模型的表达能力。

3.该方法在GQA视觉问答数据集上相比其他方法有了一定的提升。视觉问答中有大量图片，图片中大量的物体，物体之间有不同的关系，并且GQA的问题往往较为复杂，不是简单地把图片和文本进行匹配。所以本发明通过引入图网络传播模块和图网络融合模块来建模局部和全局信息，使得模型在回答问题时能全面考虑数据特征，从而提升效果。

附图说明

图1为本发明的方法流程图；

图2为基于多图融合的视觉问答方法模型图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于多图融合的视觉问答模型方法，基于图网络融合(MGI)模型，MGI模型采用CIN网络建模两个图网络，从而提取不同的图网络特征表示，使模型可从局部语义进而交互全局信息从而提高视觉问答分类结果。MGI模型包括图网络传播模块、图网络融合模块和类别预测模块。

图网络传播模块通过抽取数据集的局部信息，数据的输入包括视觉特征和文本特征。视觉特征由物体表征图网络进行编码，文本特征由文本表征图网络进行编码，两个图网络均通过对应位置加权求和的方法获取结点与其邻居结点的交互语义。首先确定两个图网络的参数设置(主要包括迭代次数、权重矩阵的输入维度和输出维度，多层的权重矩阵是否共享)。之后把视觉特征和文本特征分别输入到物体表征图网络和文本表征图网络，根据设定好的迭代次数分别进行前向传播。

图网络融合模块：首先把图网络传播模块的两个图网络所输出的两个矩阵进行拼接成一个矩阵，并初始化CIN网络的参数(卷积核个数)，通过二重循环把矩阵的任意两列作外积操作，从而生成一个三阶张量，并通过初始化好的卷积核参数，将其压缩。

类别预测模块：图网络融合模块将产生新的特征矩阵，类别预测模块将该矩阵通过线性变换和注意力机制后压缩成一个维向量，最后经过线性层和softmax层，就可以得到答案预测类别。

见图1显示了本方法提出的视觉问答方法的流程；图2显示了本实施例设计的神经网络视觉问答模型。本发明方法的具体操作步骤如下：

(1)遍历数据集的所有问题，确定数据集的固定句子长度n(一般为数据集中的最大句子长度)，填充数据集中的所有句子，缺失的地方补0，保证所有句子定长，便于神经网络和自注意力计算。

(2)运用glove工具得到每个单词的300维词向量w_i，构建词向量矩阵E＝[w₁,…,w_n]，矩阵每一个列表示一个单词，MGI模型初始化阶段直接使用外部训练好的向量加载该矩阵，并使其设定为可训练，在该模型训练过程中该词向量矩阵将会被优化。

(3)使用预训练好的Faster R-CNN网络，提取每个问题对应的图片特征向量，每张图片生成对应的k×2048的矩阵，k对应图片的物体特征个数，2048代表对应每个物体的特征向量的长度。

(3)使用物体表征图网络传播图片特征向量，运用方法如下：

(301)初始化一个2048×D_in的权重矩阵，并把k×2048通过该权重矩阵转化为大小为k×D_in的矩阵。

(302)初始化一个物体表征图网络，该网络有3个权重矩阵，每个权重矩阵的大小为D_in×D_out，3个权重矩阵分别作用于k×D_in矩阵，然后使用注意力机制实现对应位置加权求和从而进行前向传播。公式形式如下：

c_ij＝f₁(v_i)^Tf₂(v_j)

其中exp是softmax函数的计算方式，α_ij是结点i和结点j的注意力权重。f₁，f₂，f₃均是权重矩阵，v_j和

分别是输入向量和输出向量。通过上述形式进行多次迭代，可以将k×2048转化为k×D_out。

(4)使用文本表征图网络传播单词特征向量，运用方法如下：

(401)初始化一个300×D_in的权重矩阵，并把n×300通过该权重矩阵转化为大小为n×D_in的矩阵。

(402)初始化一个文本表征图网络，该网络有3个权重矩阵，每个权重矩阵的大小为D_in×D_out，3个权重矩阵分别作用于n×D_in矩阵，然后使用注意力机制实现对应位置加权求和从而进行前向传播。公式形式如下：

c_ij＝f₄(w_i)^Tf₅(w_j)

其中exp是softmax函数的计算方式，α_ij是结点i和结点j的注意力权重。f₄，f₅，f₆均是权重矩阵，w_j和

分别是输入向量和输出向量。通过上述形式进行多次迭代，可以将n×300转化为n×D_out。

(5)按照0维度拼接步骤(3)和(4)的输出，具体如下：

X＝concat(V,W)

其中

V是物体表征图网络的输出，W是文本表征图网络的输出，concat是拼接操作，X是拼接后的输出。

(6)使用CIN网络对该矩阵进行编码，从而捕获全局信息，对上述X矩阵的每一列进行外积操作，从而生成一个三阶张量，并把该三阶张量使用卷积参数压缩成一个矩阵，该矩阵作为CIN网络的输出，代表编码了全局数据特征的矩阵，具体如下：

其中

为可训练的参数，X_i,*和X_i,*均为步骤(5)X的向量。

(7)最后使用上述矩阵H输入到分类层，并使用注意力机制进行学习相互的关系并压缩矩阵，具体如下：

α_i＝softmax(f₇(h_i))

其中f₇和f₈是权重矩阵，α_i是h_i经过线性变化和softmax得到的系数，q是经过循环神经网络编码后的问题特征向量，然后通过对应位置加权求和得到预测向量y。

(8)最后在GQA数据集上进行训练和测试，测试的指标为MGI模型分类的准确率(百分比)。如表1所示。GQA数据集以探索视觉对象之间的关系的数据集。该数据集的图片由由1,703个非独立的目标对象，618个对象属性(形容词)和311个对象之间的关系(相对位置和运动)组成，数据集图片往往拥有较为复杂的属性和关系，所以需要模型更好地抽取数据间的语义关系。

表1各模型在GQA数据集上的对比结果

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于多图融合的视觉问答方法，其特征在于，基于图网络融合(MGI)模型，MGI模型采用CIN网络建模两个图网络，从而提取不同的图网络特征表示；所述MGI模型包括图网络传播模块、图网络融合模块和类别预测模块；