CN109670576B

CN109670576B - 一种多尺度视觉关注图像描述方法

Info

Publication number: CN109670576B
Application number: CN201811446195.7A
Authority: CN
Inventors: 胡海峰; 何琛; 张俊轩; 刘峥
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2022-09-13
Anticipated expiration: 2038-11-29
Also published as: CN109670576A

Abstract

本发明公开了一种多尺度视觉关注图像描述方法，通过对海量已标注文本描述的图像训练，得到一个由三部分：双层循环神经网络，多尺度视觉关注模型，多模态层组成的图像描述模型，实现对任意测试图像自动生成与其内容相关的描述语句。本发明能更加结合联系文本与视觉信息之间的联系，并将视觉关注机制应用到区域视觉特征中，得到更精确的视觉关注特征。同时通过双层循环神经网络的设计，解耦文本和视觉特征的处理，并将多尺度视觉关注模型加入多模态层，进而提高模型性能；本发明还利用共享矩阵方案，在大幅减少模型参数量的同时，也使模型性能得到更进一步提升。

Description

一种多尺度视觉关注图像描述方法

技术领域

本发明涉及人工智能自然语言处理领域，更具体地，涉及一种多尺度视觉关注图像描述方法。

背景技术

随着2012年基于图像识别的AlexNet的提出，基于深度学习的人工神经网络得到了迅猛的发展。如今，基于图像分类的卷积神经网络已达到超越人类的图像识别精度，视觉领域的发展已为人们的科技生活提供了极大的便利。同时，基于文本特征的循环神经网络同样发展迅速，尤其是LSTM网络的提出，有效解决了传统循环神经网络RNN对长时信息的遗忘问题。而作为一个融合计算机视觉和自然语言处理领域的图像描述问题，具有广泛的应用前景，例如图像内容的识别，早期儿童教育以及盲人导航等等。对早期儿童教育等应用而言，自动获得图像的文本描述是非常有价值的。使用人力标注显然不现实，而随着深度学习技术的发展，使用图像描述技术，可以大大降低教师和家长的工作量，具有广泛的应用前景。对于盲人导航领域，图像描述技术可以有效解决导盲犬的培育成本和相关隐患，还能提供更加精准得分析和判断路况信息，来帮助盲人导航指路。

虽然传统M-RNN模型能够有效融合多种模态的特征信息，包括全局的图像视觉特征，但其并没有充分利用区域块的图像特征信息。然而一张图片中往往包含了多个目标，因此仅仅利用全局的图像特征会导致图像特征的冗余，同时也忽略了很多区域块的图像特征信息，导致最终生成的句子不能充分表达图片中的所有信息。同时，传统视觉关注模型缺乏考虑融合多种尺度的视觉特征。尽管M-RNN模型具有首尾对称结构，但模型中独热码与嵌入层之间的转换矩阵参数并没有被充分利用，这也给模型带来了额外的参数量，增加模型计算成本的同时也增加了训练时过拟合的风险。

发明内容

本发明为克服上述现有技术中参数量较大导致的计算成本高及训练时较高的过拟合风险的问题，提供一种多尺度视觉关注图像描述方法。

本发明旨在至少在一定程度上解决上述技术问题。

为解决上述技术问题，本发明的技术方案如下：

一种多尺度视觉关注图像描述方法，所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层，卷积神经网络层，循环层，多尺度视觉关注模型MVA，多模态层；

所述单词输入处理层：包括第一嵌入层和第二嵌入层；将欲训练的单词使用独热码表示，将独热码依次经过第一嵌入层和第二嵌入层转换为词向量，所述词向量作为循环层的输入；

所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度区域块视觉特征；

选用现有循环神经网络作为循环层，接受来自第二嵌入层的词向量作为输入；

所述多尺度视觉关注模型MVA将循环层中第二个循环神经网络隐含层的输出结果和卷积神经网络提取的区域块视觉特征一起作为输入，并输出视觉关注特征；

所述多模态层将所述第二嵌入层的输出特征、循环层第二层的输出特征，全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入，并输出词向量；

所述方法具体处理过程包括如下步骤：

S1：选用现有循环神经网络作为循环层，将欲训练的单词使用独热码表示，将独热码依次经过第一嵌入层和第二嵌入层转换为词向量，所述词向量作为循环层的输入；构造用于视觉特征提取的卷积神经网络具体步骤如下：

S1.1：选择在图像数据集ImageNet上预训练好的卷积神经网络相关参数，用于提取全局视觉特征；

S1.2：对图像描述的数据集的所有图片提取相关的全局视觉特征，并将每个全局视觉特征存储为向量v_f；

S1.3：在卷积神经网络模型中，通过CNN和RCNN模型，分别得到不同尺度的区域块视觉特征向量；

S1.4：在循环层中，采用双层循环神经网络的设计解耦文本和视觉特征处理，第一层循环神经网络用于处理文本模型，第二层循环神经网络用于处理视觉特征；

S2：构造多尺度视觉关注模型MVA，具体步骤如下：

S2.1：取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入，输入的区域块视觉特征包含多个区域块的特征信息，将每张图像中由CNN提取的区域块视觉特征表示为:a＝{a₁,…a_N}，由RCNN提取的区域块视觉特征表示为:b＝{b₁,…b_L}，根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出h_t，以及区域块视觉特征a,b通过元素点乘运算f_att计算得到当前时刻与当前上下文语境相关的关注激活状态向量

公式如下：

S2.2：将S2.1中计算得到的关注激活状态向量e_ti作为输入，通过一个SoftMax层计算出当前时刻每个区域块的关注权重，关注权重

公式如下：

S2.3：将步骤S2.1和步骤S2.2得到的关注激活状态向量e_ti和关注权重a_ti进行加权求和得到视觉关注特征A_i,B_i，公式如下：

S3：构造融合各类特征的多模态层，具体步骤如下：

S3.1:将所述第二嵌入层的输出特征w_t、循环层的第二个LSTM输出特征r_t，全局视觉特征v_f以及多尺度视觉关注模型MVA输出的视觉关注特征A_t,B_t作为多模态层的输入，将上述特征通过矩阵分别映射为同一维度的特征向量，多模态层输出m(t)表示为：

m(t)＝g(V_w·w_t+V_r·r_t+V_I·v_f+A_t+B_t)

其中，V_w,V_r,V_I分别表示为w_t,r_t,v_f的映射矩阵，g(·)为调整过的双曲正切函数

S4：多尺度视觉关注图像描述模型的训练和输出，具体步骤如下：

S4.1：图像采集：采用多个带有文本标注的图像数据集用于多尺度视觉关注图像描述模型的训练和验证；

S4.2：采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数，采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。

S4.3：将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码，独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。

进一步地，步骤S1中提取15个基于RCNN图像区域的区域块视觉特征，196个基于CNN的方格区域特征，所述视觉特征向量v_f为2048维。

进一步地，所述损失函数公式为：

其中，N表示单词总数，N_s表示训练集句子总数，L(i)表示第i个句子的长度，θ表示模型的参数。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过结合文本与视觉特征的关联，应用多尺度关注机制生成区域块视觉特征，从而有效提升模型的性能和效果，同时利用共享矩阵方案大幅降低模型参数，减少模型过拟合风险的同时增加模型的性能。

附图说明

图1为总结构框图。

图2为共享矩阵方案示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

参见图1，一种多尺度视觉关注图像描述方法，所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层，卷积神经网络层，循环层，多尺度视觉关注模型MVA，多模态层；

所述多尺度视觉关注模型MVA将循环层中隐含层的输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入，并输出视觉关注特征；

所述多模态层将所述第二嵌入层的输出特征、循环层的输出特征，全局视觉特征以及多尺度视觉关注模型MVA输出的视觉关注特征作为多模态层的输入，并输出词向量；

包括以下步骤：

具体步骤如下：

S1.2：对图像描述的数据集的所有图片提取相关的全局视觉特征，并将每个全局视觉特征存储2048维的向量v_f；

S1.3：在卷积神经网络模型中，首先提取网络最后一个卷积层的输出结果，然后将其通过空间自适应池化操作得到196个方格区域块特征，同时通过RCNN，得到15个特征区域块的视觉特征向量；由CNN提取的区域块视觉特征向量a，其维度196*2048，其中2048代表每个向量的维度，196对应图像中的14*14个区域块子区域，区域块视觉特征向量也可以表示为a＝{a₁,…a_N}。由RCNN提取的区域块视觉特征向量b，其维度15*2048，其中2048代表每个向量的维度，15对应图像中的15个区域块子区域，区域块视觉特征向量也可以表示为b＝{b₁,…b_L}。

S2构造多尺度视觉关注模型MVA，区域块视觉特征输入到多尺度视觉关注模型中，根据步骤S1中循环神经网络第二隐含层的输出，以及区域块视觉特征，共同计算出当前时刻每个区域的关注权重，然后将计算得到的权重与区域块图像特征进行加权求和，就可以得到当前时刻基于当前上下文语境下的视觉关注特征向量。该视觉关注特征将指导模型有效关注到与当前生成的描述语句相关的区域块图像区域，大幅提高了视觉特征的准确性，从而提升模型生成文本的效果。具体步骤如下：

S2.1：取S1.3步骤中输出的区域块视觉特征作为多尺度视觉关注模型MVA的输入，输入的区域块视觉特征包含多种区域块的特征信息，将每张图像中由CNN提取的区域块视觉特征表示为:a＝{a₁,…a_N}，由RCNN提取的区域块视觉特征表示为:b＝{b₁,…b_L}，根据步骤S1双层循环神经网络中第二个LSTM隐含层的输出h_t，以及区域块视觉特征a,b通过元素点乘运算f_att计算得到当前时刻与当前上下文语境相关的关注激活状态向量

公式如下：

公式如下：

S3：构造融合各类特征的多模态层，为了充分利用多种模态的特征信息，使得特征信息共同作用促进模型的性能，采用一个多模态层来融合这些特征。这些特征包括：卷积神经网络提取的全局图像特征v_f，步骤(2)中经过视觉关注模型输出的区域块图像特征A_t,B_t，第二个嵌入层的输出w_t以及循环神经网络第二层输出的文本特征r_t。具体步骤如下：

S3.1:将所述方法的第二嵌入层的输出特征w_t、循环层的输出r_t，全局视觉特征v_f以及多尺度视觉关注模型MVA输出的视觉关注特征A_t,B_t作为多模态层的输入将上述特征通过矩阵分别映射为同一维度的特征向量，多模态层输出m(t)表示为：

m(t)＝g(V_w·w_t+V_r·r_t+V_I·v_f+A_t+B_t)

本发明针对多模态层输出向量转换为独热码过程与单词输入处理阶段将独热码转为词向量的过程互为逆操作，设计了共享矩阵方案，如图2所示，在整个网络结构中，我们采用共享矩阵方案，利用模型的对称结构，通过共享模型中独热码与嵌入层之间的转换矩阵，大幅降低了模型的参数量，进一步提升了模型的性能。具体过程如下：

循环层的输入构建，所述方法初始时将单词用稀疏的独热码来表示，所述独热码经过U_w映射到第一嵌入层转换为稠密的嵌入层向量，然后将第一嵌入层得到的嵌入向量经过矩阵映射得到第二嵌入层得到嵌入层特征w_t，

第二嵌入层输出特征w_t作为循环层的输入，所述方法最后的输出是第一嵌入层的转换相反的逆变换，将待输出向量经过矩阵U_m转换为用于文本生成的独热码；将这两个互为逆操作的转换矩阵参数共享，两个转换矩阵参数量为：(1024N+2048N)，第一嵌入层维度为1024，多模态层特征维度为2048，单词总量也即独热码维度N取值为10000。

转换矩阵分解，由于矩阵维度的不同将多模态层到独热码的转换矩阵U_m拆分为两个矩阵，即

通过共享矩阵U_m的参数，有效减少模型的参数量，矩阵的参数总量减少到(1024N+2048×1024)；

S4：多尺度视觉关注图像描述模型的训练和输出，全局图像特征和区域块图像特征采用在ImageNet训练集预训练好的卷积神经网络进行特征提取，其他模型的所有参数则首先通过随机初始化，然后在训练过程中根据交叉熵误差，采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调。具体步骤如下：

S4.2：采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数，采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调，损失函数公式为：

S4.3：将多模态层的输出输出向量经过矩阵转换为用于文本生成的独热码，独热码通过SoftMax计算出当前时刻图像描述模型输出的单词即图像描述。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种多尺度视觉关注图像描述方法，其特征在于，所述方法构造的多尺度视觉关注图像描述模型包括单词输入处理层，卷积神经网络层，循环层，多尺度视觉关注模型MVA，多模态层；

所述卷积神经网络层用于提取输入图像的全局视觉特征和多尺度视觉特征；

选用现有循环神经网络作为循环层，接受来自第二嵌入层的词向量作为输入；同时，通过双层循环神经网络的设计，解耦文本和视觉特征的处理，第一层循环神经网络用于处理文本模型，第二层循环神经网络用于处理视觉特征；

所述多尺度视觉关注模型MVA将循环层中第二层的隐含层输出结果和卷积神经网络提取的多尺度视觉特征一起作为输入，并输出视觉关注特征；

所述方法具体处理过程包括如下步骤：

S2：构造多尺度视觉关注模型MVA，具体步骤如下：

公式如下：

公式如下：

S3：构造融合各类特征的多模态层，具体步骤如下：

S3.1:将所述第二嵌入层的输出特征w_t、循环层第二个LSTM的输出特征r_t，全局视觉特征v_f以及多尺度视觉关注模型MVA输出的视觉关注特征A_t,B_t作为多模态层的输入，将上述特征通过矩阵分别映射为同一维度的特征向量，多模态层输出m(t)表示为：

m(t)＝g(V_w·w_t+V_r·r_t+V_I·v_f+A_t+B_t)

S4.2：采用交叉熵损失作为多尺度视觉关注图像描述模型的目标函数，采用随机梯度下降算法计算损失梯度并使用反向传导算法对整个多尺度视觉关注图像描述模型网络里所有层中的参数进行微调；

S4.3：将多模态层的输出向量经过矩阵转换为用于文本生成的独热码，独热码通过SoftMax计算出当前时刻多尺度视觉关注图像描述模型输出的单词即图像描述。

2.根据权利要求1所述的一种多尺度视觉关注图像描述方法，其特征在于，步骤S1中提取15个基于RCNN图像区域的区域块视觉特征，196个基于CNN的方格区域特征，所述视觉特征向量v_f为2048维。

3.根据权利要求1所述的一种多尺度视觉关注图像描述方法，其特征在于，所述损失函数公式为：