CN111858849A

CN111858849A - 一种基于密集协注意力模块的vqa方法

Info

Publication number: CN111858849A
Application number: CN202010520943.2A
Authority: CN
Inventors: 张佳宁; 武兆昌; 陈云芳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-10-30

Abstract

本发明提出了一种基于密集协注意力模块的VQA方法，从图像中提取出的特征V和问题中提取出的特征Q，送入多个密集协注意力机制模块中，第一个模块输出由问题引导提取出来的图像特征V₁和由图像引导提取出来的问题特征Q₁，之后按照同样的方式通过多个密集协注意力模块操作，由两种融合了对方特性的特征进行问题词的回答。本发明使图像与问题这两种信息处理模式之间进行密集的双向互动，实现的更高准确度的视觉问答模型，有助于提高预测答案的准确性。

Description

一种基于密集协注意力模块的VQA方法

技术领域

本发明属于机器学习领域，具体涉及一种基于密集协注意力模块的VQA方法，主要应用于视觉问答。

背景技术

Visual Question Answer(VQA)视觉图像的自然语言问答是一个多学科的人工智能研究问题，涉及到计算机视觉、自然语言处理和知识表示(KR)等领域，目前已经成为人工智能领域的热门方向。一般来说，VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言处理(NLP)来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。就其本性而言，这是一个多学科研究问题。相较于简单的文本问答，VQA的主要区别在于，搜索和推理部分必须在图像的内容上执行。因此，为了回答在某处是否有人类这样的问题，这个系统必须能够探测到物体。如果想要回答是否下雨这样的问题，系统就需要对一个场景进行分类。解决VQA问题的关键在于如何从图片和问题中提取有用的特征，并将二者进行有效地融合。对于问题特征的提取一般都利用RNN对其进行编码，而对于图片特征会采用预训练好的Resnet对图像块进行编码。

目前对于VQA问题的研究路线分为两个主要部分，一是更好的attention机制，二是改进的特征融合方式。一般而言，这两部分分属于模型独立模块，而本次提出的基于密集协注意力模块的VQA网络对这两个模块进行有机的结合与改进。在给定图像和问题的表示形式，首先为每个问题单词生成图像区域上的注意图，并为每个图像区域生成问题单词上的注意图。

发明内容

发明目的：本发明的目的在于提出一种基于密集协注意力模块的VQA方法，通过基于密集协注意力模块对图像与问题进行有机融合，实现更高准确度的视觉问答模型。

发明内容：本发明本发明的目的在于提出一种基于密集协注意力模块的VQA方法，所述方法为从图像中提取出的特征V和问题中提取出的特征Q，送入多个密集协注意力机制模块中，第一个模块输出由问题引导提取出来的图像特征V₁和由图像引导提取出来的问题特征Q₁，之后按照同样的方式通过多个密集协注意力模块操作，由两种融合了对方特性的特征进行问题词的回答，具体包括以下步骤：

(1)向VQA系统中输入图像与问题文本；

(2)使用双向LSTM对问题和图像进行编码；

(3)利用四个卷积层提取图像区域的视觉特征，利用问题引导的注意力对这些层进行融合，获得四个d×T的矩阵；

(4)通过softmax函数归一化获得四个注意力权重α₁，α₂，α₃，α₄，加权计算四个矩阵，获得图像表示d×T矩阵V＝[v₁，…，v_T]，它将图像第t个区域的特征存储在大小为d的第t个列向量中；

(5)将问题表示V与图像表示Q作为输入送入密集注意力层，Q_l与V_l表示(l+1)-st层的输入；

(6)给N个问题单词加上K个状态辅助信息以及T个图像区域信息，结合两个可学习的参数矩阵

和

在行方向上扩大矩阵Q_l与V_l获得矩阵

与

(7)线性投影d维特征

与

到多个低维空间，h为低维空间的数量，维度为d_h(≡d/h)，使用

与

来表示线性投影，从而获得第i个空间的投影特征的关联矩阵

注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得

和

多个参与特征的平均融合相当于平均我们的注意力图，即做平均运算获得

与

(8)将所得的附加特征

与

以及平行特征

与

相乘，得到融合了对方特征的

与

(9)融合第n列的向量

与第n个问题单词的表示

通过连接形成2d向量

将连接后的向量通过单层网络投影到d维空间中，然后进行ReLU激活和剩余连接获得q_(l+1)n；

(10)同步骤(9)，连接第t个图像区域的表示v_lt和与该区域相关的整个问题单词表示

将连接后的向量通过单层网络投影到d维空间中，然后进行ReLU激活和残差连接获得v_(l+1)t；

(11)给定最后一层的输出Q_L与V_L进行答案预测，通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得q_L1，…，q_LN的s_qL1，…，s_qLN；

(12)对s_qL1，…，s_qLN进行softmax从而获得注意力权重

计算出聚合表示

(13)同步骤12，使用不同权重的MLP，我们可以获得注意力权重

计算出

(14)按照步骤(2)的方法对答案进行编码，由M个单词组成的答案被转换为

同样经过Bi-LSTM，产生隐藏状态

与

获得

(15)计算

s_A总和的内积和：

其中，σ为逻辑函数，W为需学习的权重矩阵。

进一步地，所述步骤(2)包括以下步骤：

(21)将由N个单词组成的问题文本转换成GloVe词向量序列

(22)将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中，获得

与

(23)创建一个矩阵Q＝[q₁，…，q_N]∈R^d×N，其中

同时获得

用于后面获取图像的表示。

进一步地，所述步骤(3)的实现过程如下：

在最后四个池化层之前，从ReLU之后的四个卷积层提取输出；使用不同大小的张量，分别为256×112×112、512×56×56、1024×28×28、2048×14×14，通过对不同大小的最大池化将其转换为相同大小的张量(d×14×14)，对每个张量的深度维数进行l₂归一化，将归一化后的张量重新构造成四个d×T(T＝14×14)的矩阵：[s₁，s₂，s₃，s₄]＝MLP(s_Q)。

进一步地，步骤(5)所述的Q_l与V_l通过以下公式实现：

Q_l＝[q_l1，…，q_lN]∈R^d×N，

V_l＝[v_l1，…，v_lT]∈R^d×T。

进一步地，所述步骤(7)通过以下公式实现：

进一步地，所述步骤(8)中

与

计算公式如下：

进一步地，所述步骤(9)中q_(l+1)n计算公式如下：

其中，

为权重，

为偏差，相同的网络应用于每个问题词(n＝1，…，N)，从而获得Q_l+1＝[q_(l+1)1，…，q_(l+1)N]∈R^d×N。

进一步地，所述步骤(10)中v_(l+1)t计算公式如下：

其中，

为权重，

为偏差，相同的网络应用于每个图像区域(t＝1，…，T)，从而获得V_l+1＝[v_(l+1)1，…，v_(l+1)T]∈R^d×T。

有益效果：与现有技术相比，本发明的有益效果：本发明实现的更高准确度的视觉问答模型，对自然语言处理与计算机视觉方向都有所贡献，是人工智能领域的一次探索，提高了机器“理解”问题与图像的能力。

附图说明

图1为本发明的流程图；

图2为密集共同注意图的计算以及图像和问题的参与表示；

图3为单层密集关注层的内部结构，层数为l+1。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

从图像中提取出的特征V和问题中提取出的特征Q，送入多个密集协注意力机制模块中，第一个模块输出由问题引导提取出来的图像特征V₁和由图像引导提取出来的问题特征Q₁，之后按照同样的方式通过多个密集协注意力模块操作，最终由两种融合了对方特性的特征进行问题词的回答。对应的系统是一个完全对称的视觉和语言之间交互的体系结构，其中每个问题词对应于具体图像区域，每个图像区域亦对应问题词。通过将它们堆叠形成一个层次结构，用于图像-问题间的深层次交互。具体步骤如下：

步骤1：向VQA系统中输入图像与问题文本。

步骤2：使用双向LSTM(bi-directional LSTM)对问题和图像进行编码。首先将由N个单词组成的问题文本转换成GloVe词向量序列

然后将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中，获得

与

创建一个矩阵Q＝[q₁，…，q_N]∈R^d×N，其中

同时获得

用于后面获取图像的表示。

步骤3：利用四个卷积层提取图像特征，然后利用问题引导的注意力对这些层进行融合，获得四个d×T(T＝14×14)的矩阵。

步骤4：通过softmax函数归一化获得四个注意力权重α₁，α₂，α₃，α₄，加权计算四个矩阵，获得图像表示d×T矩阵V＝[v₁，…，v_T]，它将图像第t个区域的特征存储在大小为d的第t个列向量中。

步骤5：将问题表示V与图像表示Q作为输入送入密集注意力层，Q_l与V_l表示(l+1)-st层的输入。Q_l与V_l通过以下公式实现：

Q_l＝[q_l1，…，q_lN]∈R^d×N，

V_l＝[v_l1，…，v_lT]∈R^d×T。

步骤6：给N个问题单词加上K个状态辅助信息以及T个图像区域信息，结合两个可学习的参数矩阵

和

在行方向上扩大矩阵Q_l与V_l获得矩阵

与

步骤7：线性投影d维特征

与

与

来表示线性投影，从而获得第i个空间的投影特征的关联矩阵

和

与

其中

步骤8：将所得的附加特征

与

以及平行特征

与

相乘，得到融合了对方特征的

与

与

计算公式如下：

步骤9：融合第n列的向量

与第n个问题单词的表示

通过连接形成2d向量

将连接后的向量通过单层网络投影到d维空间中，然后进行ReLU激活和剩余连接获得q_(l+1)n，计算公式如下：

其中，

为权重，

步骤10：同步骤9，连接第t个图像区域的表示v_lt和与该区域相关的整个问题单词表示

将连接后的向量通过单层网络投影到d维空间中，然后进行ReLU激活和残差连接获得v_(l+1)t，计算公式如下：

其中，

为权重，

为偏差，相同的网络应用于每个图像区域(t＝1，…，T)，从而获得V_l+1＝[v_(l+1)1，…v_(l+1)T]∈R^d×T。

步骤11：给定最后一层的输出Q_L与V_L进行答案预测，通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得q_L1，…，q_LN的s_qL1，…，s_qLN。

步骤12：对s_qL1，…，s_qLN进行softmax从而获得注意力权重

计算出聚合表示

步骤13：同步骤12，使用不同权重的MLP，我们可以获得注意力权重

计算出

步骤14：按照步骤2的方法对答案进行编码，由M个单词组成的答案被转换为

同样经过Bi-LSTM，产生隐藏状态

与

获得

步骤15：计算

s_A总和的内积和：

其中，σ为逻辑函数，W为需学习的权重矩阵。

也可使用MLP来计算一组预定义答案的分数：

或者：

Claims

1.一种基于密集协注意力模块的VQA方法，其特征在于，所述方法为从图像中提取出的特征V和问题中提取出的特征Q，送入多个密集协注意力机制模块中，第一个模块输出由问题引导提取出来的图像特征V₁和由图像引导提取出来的问题特征Q₁，之后按照同样的方式通过多个密集协注意力模块操作，由两种融合了对方特性的特征进行问题词的回答，具体包括以下步骤：

(1)向VQA系统中输入图像与问题文本；

(2)使用双向LSTM对问题和图像进行编码；

(4)通过softmax函数归一化获得四个注意力权重α₁，α₂，α₃，α₄,加权计算四个矩阵，获得图像表示d×T矩阵V＝[v₁，…，v_T],它将图像第t个区域的特征存储在大小为d的第t个列向量中；