CN115936073A

CN115936073A - 一种语言导向卷积神经网络及视觉问答方法

Info

Publication number: CN115936073A
Application number: CN202310122178.2A
Authority: CN
Inventors: 张苗辉; 罗根; 周奕毅; 吴志勇; 纪荣嵘; 古和今
Original assignee: ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Current assignee: ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-04-07
Anticipated expiration: 2043-02-16
Also published as: CN115936073B

Abstract

本发明属于图像处理技术领域，公开一种语言导向卷积神经网络及视觉问答方法，所述语言导向卷积神经网络包括多组语言导向卷积模块，每组语言导向卷积模块后接最大池化层；所述语言导向卷积模块包含卷积层、归一化层和全连接层，输入图片经过卷积层卷积操作提取视觉特征，接着经过一个归一化层和输入通过门控机制进行加权相加，得到的结果经过全连接层和残差连接得到最终的输出；所述语言导向卷积模块通过视觉特征和语言特征经注意力机制得到语言导向的注意力特征；利用语言导向的注意力特征来预测卷积核参数以及门控参数。本发明能够通过语言信息来自适应地学习相关的视觉内容，从而提高视觉问答任务的精度。

Description

一种语言导向卷积神经网络及视觉问答方法

技术领域

本发明属于图像处理技术领域，具体涉及视觉问答和跨模态融合，特别涉及一种语言导向卷积神经网络及视觉问答方法。

背景技术

视觉问答技术，是一种基于视觉和语言的多模态任务。给定关于图像的某个自然语言问题，视觉问答需要根据问题和图像来给出答案。在现有的方法和文献中，视觉问答的模型通常先利用一个在大型图像数据集上预训练的卷积神经网络来提取图片特征，然后利用语言编码器来提取语言特征，最后通过跨模态交互的方式将两种特征融合在一起用于预测问题的答案。这种建模的方式在结构上非常依赖于预训练的卷积神经网络来得到视觉信息。而由于得到的视觉信息通常是与语言无关的，因此预训练的卷积神经网络显得非常冗余。与此同时，在方法上，现有的视觉问答系统更注重在跨模态交互上的研究。如何得到更好的视觉-本文之间的融合是这些方法关注的重点，而对于视觉内容的学习，现有方法仍然存在一定的瓶颈。具体来说，现有的方法难以根据语言信息来自适应地学习视觉内容，这使得视觉内容的学习局限于预训练的卷积神经网络。而语言信息中通常蕴藏着更为丰富的物体信息和细粒度内容，因此无法从语言中学习视觉内容就阻碍了视觉问答模型的进一步提升。

发明内容

本发明的目的提供一种语言导向卷积神经网络及视觉问答方法，本发明不依赖于视觉卷积神经网络来提取视觉特征，而直接通过语言来学习视觉内容并完成视觉问答任务。

为了达成上述目的，本发明的技术方案是：一种语言导向卷积神经网络，其具体结构是：从输入到输出依次包括第一全连接层、第一最大池化层、第一层的两个语言导向卷积模块、第二最大池化层、第二层的一个语言导向卷积模块、第三最大池化层、第三层的两个语言导向卷积模块、第四最大池化层、第四层的四个语言导向的卷积模块、第五最大池化层、第五层的一个语言导向卷积模块、分类器；

所述语言导向卷积模块包含卷积层、归一化层和第二全连接层，输入图片经过卷积层卷积操作提取视觉特征，接着经过一个归一化层和输入通过门控机制进行加权相加，得到的结果经过第二全连接层和残差连接得到最终的输出；

所述语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C；接着，利用语言导向的注意力特征C来预测卷积核参数W_conv以及门控参数W_gate；根据得到的卷积核参数W_conv和门控参数W_gate，卷积核参数通过卷积操作提取视觉信息，同时门控参数控制视觉信息的输出，完成语言导向卷积模块操作的计算，更新视觉特征，并通过一个两层的映射和残差连接得到更新后的视觉特征I′。

进一步优选，经过预处理的视觉特征I∈R^h×w×di，以及经过语言编码器处理的语言特征Q∈R^l×de ，通过注意力机制来计算语言导向的注意力特征C∈R^h×w×d，其中，R代表实数集，h代表高度，w代表宽度，d代表语言导向的注意力特征的维度，di代表视觉特征的维度，de代表语言特征的维度，l代表语言特征的长度；

语言导向的注意力特征计算过程如下：

M=((I+P)W_q)(QW_k)^T；

C=M(QW_v)；

其中，W_q∈R^di×d、W_k∈R^de×d和W_v∈R^de×d为三个不同的可学习参数矩阵，分别称为查询矩阵、键值矩阵和权重矩阵，分别将特征映射到不同的参数空间；P∈R^h×w×d表示位置编码，M∈R^h×w×h×w为注意力矩阵；利用语言导向的注意力特征预测出卷积操作的卷积核参数W_conv∈R^{h×w×(γ×β×g)}和门控参数W_gate∈R^h×w×d；

W_conv=σ(CW₀)W₁;

W_gate=σ(CW₀)W₂;

其中，W₀、W₁、W₂分别为共享的第一层映射权重、卷积核预测的第二层映射权重和门控预测的第三层映射权重，σ为激活函数，γ、β分别表示卷积核的长和宽，g表示卷积的分组数。

进一步优选，通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算，同时利用语言导向的注意力特征预测出的门控参数来进行残差连接，并得到更新后的视觉特征：I′=dyconv(I;W_conv)+G(I;W_gate)= I*W_conv+max(I*W_gate,0);其中，dyconv(I;W_conv)表示卷积操作，G(I;W_gate)表示门控操作，I′为更新后的视觉特征，*表示卷积运算操作，max()表示取最大运算。

本发明还提供一种基于语言导向卷积神经网络的视觉问答方法，用于根据RGB图像和自然语言问题，给出相应的回答，包括如下步骤：

步骤1，选择进行视觉问答的数据集，对选定的数据集进行预处理操作，制作训练集、验证集、测试集；设置输入的RGB图像的大小，利用预训练好的词向量Glove来将语言转换成特征向量，接着利用LSTM作为语言编码器，得到语言特征；

步骤2，构建语言导向卷积神经网络；

步骤3，使用训练集训练语言导向卷积神经网络，并使用验证集进行验证，使用测试集进行测试；

步骤4，利用训练好的语言导向卷积神经网络完成视觉问答任务。

进一步优选，在语言导向卷积神经网络训练阶段，给定问题答案的标签，利用交叉熵损失函数来计算标签和预测答案之间的损失，然后通过梯度反向传播来更新网络的参数，从而完成语言导向卷积神经网络的训练。

进一步优选，训练所用到的交叉熵损失函数的计算方法是：

对视觉特征通过一层全连接运算来预测出答案所属的答案类别：P_ans=SoftMax(I₀W₀)；其中，P_ans为预测的答案，W₀∈R^d×t为共享的第一层映射权重，d代表语言导向的注意力特征的维度，t表示答案数量，I₀为网络更新后的视觉特征，SoftMax函数为：

;

式中，x为输入特征，e为自然对数；

训练过程中给定的正确答案为G_ans，则交叉熵损失函数记为：

;

式中,G_ans为正确答案，为交叉熵损失函数。

本发明的有益效果：构建了语言导向卷积神经网络，利用RGB图像和自然语言作为输入，其预测由语言信息来控制，将视觉特征和语言特征输入到语言导向卷积神经网络得到预测结果。该语言导向卷积神经网络能够通过语言信息来自适应地学习相关的视觉内容，从而提高视觉问答任务的精度。

附图说明

图1是本发明所述语言导向卷积神经网络的示意图。

图2是单个语言导向的卷积模块示意图。

图3是语言导向的注意力特征生成示意图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

参照图1，一种语言导向卷积神经网络（LConvNet），它能够不依赖于传统卷积神经网络来提取视觉信息，而仅仅依靠语言导向的卷积模块完成视觉问答任务。语言导向卷积神经网络（LConvNet）具体结构是：从输入到输出依次包括了一个16维（16-d）的第一全连接层、一个2×2（步长为2且尺度为2）的最大池化层、两个16维卷积核大小为3的语言导向卷积模块（16-d LConv ×2）、一个2×2的最大池化层、一个64维卷积核大小为7的语言导向卷积模块（64-d LConv ×1）、一个2×2的最大池化层、两个128维卷积核大小为7的语言导向卷积模块（128-d LConv×2）、一个2×2的最大池化层、四个256维卷积核大小为7的语言导向的卷积模块（256-d LConv×4）、一个2×2的最大池化层、一个512维卷积核大小为7的语言导向卷积模块（512-d LConv×1）、一个分类器（包含了池化层和全连接层）。LConvNet执行视觉问答任务的具体特征是：将图片和问题输入到LConvNet中，经过LConvNet的处理并通过分类器预测出每个答案的概率分布，最终取概率最大的作为最终答案。

语言导向卷积模块（LConv）的结构如图2所示，包含卷积层、归一化层和第二全连接层，输入图片经过卷积层卷积操作提取视觉特征，接着经过一个归一化层和输入通过门控机制进行加权相加，得到的结果经过第二全连接层和残差连接得到最终的输出。它能够根据语言信息来调整视觉内容的学习，从而即完成对视觉信息的提取，又达到跨模态交互的目的。

参照图3，语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C。接着，利用语言导向的注意力特征C来预测卷积核参数W_conv以及门控参数W_gate；根据得到的卷积核参数W_conv和门控参数W_gate，卷积核参数通过卷积操作提取视觉信息，同时门控参数能够控制视觉信息的输出，完成语言导向卷积模块操作的计算，更新视觉特征，并通过一个两层的映射和残差连接得到更新后的视觉特征。

具体而言，经过预处理的视觉特征I∈R^h×w×di，以及经过语言编码器处理的语言特征Q∈R^l×de ，通过注意力机制来计算语言导向的注意力特征C∈R^h×w×d，其中，R代表实数集，h代表高度，w代表宽度，d代表语言导向的注意力特征的维度，di代表视觉特征的维度，de代表语言特征的维度，l代表语言特征的长度；

语言导向的注意力特征计算过程如下：

M=((I+P)W_q)(QW_k)^T；

0040.C=M(QW_v)；

W_conv=σ(CW₀)W₁;

W_gate=σ(CW₀)W₂;

结合图2，通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算，同时利用语言导向的注意力特征预测出的门控参数来进行残差连接，并得到更新后的视觉特征：I′=dyconv(I;W_conv)+G(I;W_gate)= I*W_conv+max(I*W_gate,0);其中，dyconv(I;W_conv)表示卷积操作，G(I;W_gate)表示门控操作，I′为更新后的视觉特征，*表示卷积运算操作，max()表示取最大运算。

本实施例提供一种基于语言导向卷积神经网络的视觉问答方法，用于根据RGB图像和自然语言问题，给出相应的回答；包括如下步骤：

步骤1，选择进行视觉问答的数据集，对选定的数据集进行预处理操作，制作训练集、验证集、测试集；设置输入的RGB图像的大小为224×224×3，输入图像数值上除以255，描述语言的最长文本输入设置为15；接着，针对于输入的描述语言，我们首先利用预训练好的词向量Glove来将语言转换成特征向量，接着利用LSTM作为语言编码器，得到语言特征。

步骤2，构建语言导向卷积神经网络（LConvNet）。

步骤3，使用训练集训练语言导向卷积神经网络，并使用验证集进行验证，使用测试集进行测试。在语言导向卷积神经网络训练阶段，给定问题答案的标签，我们利用交叉熵损失函数来计算标签和预测答案之间的损失，然后通过梯度反向传播来更新网络的参数，从而完成语言导向卷积神经网络的训练。训练过程中，所用到的交叉熵损失函数的计算方法是：

;

式中，x为输入特征，e为自然对数；

;

式中,G_ans为正确答案，为交叉熵损失函数。

通过梯度反向传播，可以在训练过程中优化网络的参数训练过程中，使用Adam优化器，并设置初始学习率和批大小分别为0.0001和64。每轮训练结束后，在验证集上进行验证，并取验证集上的最佳模型来用于测试集测试。

步骤4，利用训练好的语言导向卷积神经网络完成视觉问答任务。在部署过程中为了得到预测的答案，我们对P_ans进行进一步的运算：ans=argmax(P_ans);ans即为部署过程中网络预测得到的答案。

采用上述方案后，本发明利用语言导向卷积神经网络来完成视觉问答任务，与传统的方法不同，本发明不依赖于视觉卷积神经网络来提取视觉特征，而直接通过语言来学习视觉内容并完成视觉问答任务。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种语言导向卷积神经网络，其特征是：从输入到输出依次包括第一全连接层、第一最大池化层、第一层的两个语言导向卷积模块、第二最大池化层、第二层的一个语言导向卷积模块、第三最大池化层、第三层的两个语言导向卷积模块、第四最大池化层、第四层的四个语言导向的卷积模块、第五最大池化层、第五层的一个语言导向卷积模块、分类器；

2.根据权利要求1所述的语言导向卷积神经网络，其特征是：经过预处理的视觉特征I∈R^h×w×di，以及经过语言编码器处理的语言特征Q∈R^l×de ，通过注意力机制来计算语言导向的注意力特征C∈R^h×w×d，其中，R代表实数集，h代表高度，w代表宽度，d代表语言导向的注意力特征的维度，di代表视觉特征的维度，de代表语言特征的维度，l代表语言特征的长度；

语言导向的注意力特征计算过程如下：

M=((I+P)W_q)(QW_k)^T；

C=M(QW_v)；

其中，W_q∈R^di×d、W_k∈R^de×d和W_v∈R^de×d为三个不同的可学习参数矩阵，分别称为查询矩阵、键值矩阵和权重矩阵，分别将特征映射到不同的参数空间；P∈R^h×w×d表示位置编码，M∈R^h×w×h×w为注意力矩阵；利用语言导向的注意力特征预测出卷积操作的卷积核参数W_conv∈R^h ^{×w×(γ×β×g)}和门控参数W_gate∈R^h×w×d；

W_conv=σ(CW₀)W₁;

W_gate=σ(CW₀)W₂;

3.根据权利要求2所述的语言导向卷积神经网络，其特征是：通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算，同时利用语言导向的注意力特征预测出的门控参数来进行残差连接，并得到更新后的视觉特征：I′=dyconv(I;W_conv)+G(I;W_gate)= I*W_conv+max(I*W_gate,0);其中，dyconv(I;W_conv)表示卷积操作，G(I;W_gate)表示门控操作，I′为更新后的视觉特征，*表示卷积运算操作，max()表示取最大运算。

4.一种基于语言导向卷积神经网络的视觉问答方法，用于根据RGB图像和自然语言问题，给出相应的回答，其特征是，包括如下步骤：

步骤2，构建如权利要求1所述的语言导向卷积神经网络；

5.根据权利要求4所述的基于语言导向卷积神经网络的视觉问答方法，其特征是：在语言导向卷积神经网络训练阶段，给定问题答案的标签，利用交叉熵损失函数来计算标签和预测答案之间的损失，然后通过梯度反向传播来更新网络的参数，从而完成语言导向卷积神经网络的训练。

6.根据权利要求5所述的基于语言导向卷积神经网络的视觉问答方法，其特征是：训练所用到的交叉熵损失函数的计算方法是：

;

式中，x为输入特征，e为自然对数；

;

式中,G_ans为正确答案，为交叉熵损失函数。