CN112270344A

CN112270344A - 一种基于cbam的图像描述生成模型方法

Info

Publication number: CN112270344A
Application number: CN202011117296.7A
Authority: CN
Inventors: 陈金广; 余海波
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-26

Abstract

本发明公开的一种基于CBAM的图像描述生成模型方法，具体为：步骤1、选取Inception‑v4作为基准网络；步骤2、引入CBAM模块，分别在Inception‑v4中每个Inception模块之后加入CBAM模块，生成改进后的Inception‑v4；步骤3、使用改进后的Inception‑v4提取图像特征，生成512维图像特征矩阵；步骤4、引入LSTM，选取LSTM处理模型的时序问题，可以由单个LSTM得到输出单元h；步骤5、搭建基于编码器‑解码器框架的图像描述生成模型，完成图片到语句的转化。该方法解决针对现有模型描述质量不高、对图片重要部分特征提取不足和模型过于复杂的问题。

Description

一种基于CBAM的图像描述生成模型方法

技术领域

本发明属于计算机视觉和自然语言处理技术领域，具体涉及一种基于CBAM的图像描述生成模型方法。

背景技术

图像描述生成主要经历了三个发展阶段：①基于模板的图像描述生成，该方法通过检测得物体及物体属性之间的关系，之后将单词填入固定的句子模板，但该模型过于死板；②基于检索的图像描述生成，该方法先检索与当前图像相似的图像作为模板，在检索图像关系前需要调整，这个步骤增加了算法的复杂度；③基于深度学习的图像描述生成，通过构建编码器-解码器框架，采用端到端的方法对模型进行训练，相对前两种方法，在图像描述的准确性上有较大的提升。Vinyals等人提出NIC(Neural Image Caption)模型，其思路来源于机器翻译通过最大化源语言S转化成目标语言T的概率p(T/S)，将第一个循环神经网络(Recurrent Neural Networks,RNN)替换成卷积神经网络(Convolutional NeuralNetworks,CNN)，用于提取图片的特征(Vinyals O,Toshev A,Bengio S,et al.Show andtell:A neural image caption generator[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2015:3156-3164.)。Xu等人在NIC模型的基础上引入注意力机制，提取到图片的重要信息，提升了模型的准确率。大多数的视觉注意力机制只建模空间注意力机制(spatial attention)(Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image caption generation with visual attention[C]//International Conference on Machine Learning.2015:2048-2057.)。Chen等人提出了SCA-CNN模型，该模型同时建模空间注意力机制和通道注意力机制(channel-wiseattention)，较大的提升了模型的性能，但该模型不够轻便、灵活(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J.,Chua,T.S.:SCA-CNN:Spatial and channel-wise attentionin convolutional networks for image captioning.Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.)。Woo等人在SCA-CNN的基础上提出了一种轻量级通用卷积模块注意力机制模型(Convolutional BlockAttention Module,CBAM)(Woo S,Park J,Lee J Y,et al.CBAM:Convolutional blockattention module[C]//European Conference on Computer Vision,2018:3-19.)。该注意力机制结合空间注意力机制和通道注意力机制，并且两种注意力机制都使用平均池化和最大池化技术，使模型的效果更好。

考虑到注意力机制在图像描述生成中的有效性，提出了一种基于CBAM的图像描述生成模型。该模型将CBAM模块应用到Inception-v4网络中，用于提取图片特征，并送入长短期记忆网络(Long Short-Term Memory,LSTM)，生成符合图像内容描述的自然语言。模型使用Dropout技术和正则化防止过拟合，利用word2vec技术对自然语言进行编码处理，以避免维度灾难等问题。

发明内容

本发明的目的是提供一种优化图像描述生成模型问题的方法，解决针对现有模型描述质量不高、对图片重要部分特征提取不足和模型过于复杂的问题。

本发明所采用的技术方案是，一种基于CBAM的图像描述生成模型方法，具体按照以下步骤实施：

步骤1、选取Inception-v4作为基准网络；

步骤2、引入CBAM模块，分别在Inception-v4中每个Inception模块之后加入CBAM模块，生成改进后的Inception-v4；

步骤3、使用改进后的Inception-v4提取图像特征，生成512维图像特征矩阵；

步骤4、引入LSTM，选取LSTM处理模型的时序问题，可以由单个LSTM得到输出单元h；

步骤5、搭建基于编码器-解码器框架的图像描述生成模型，完成图片到语句的转化。

本发明的特征还在于，

步骤3具体按照以下步骤实施：

步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片，经过Stem模块之后输出尺寸为35*35*384；

其中，改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成；

步骤3.2、将步骤3.1的结果作为Inception-A的输入，每次经过Inception-A之后的特征送入CBAM模块，共有4层Inception-A+CBAM；

步骤3.3、将3.2生成的特征经过Reduction-A降维之后，再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征；

步骤3.4、将3.3的结果送入全连接层，输出为512维图像特征矩阵。

步骤3.2中，CBAM模块包括两部分内容，分别是空间注意力模块和通道注意力模块。其中，通道注意力模块，输入特征F，分别经过最大池化和平均池化，接着经过共享多层感知器，将得到的两个特征相加，再经过Sigmoid函数，最终生成通道注意力特征M_c(F)，公式如下：

式中，σ表示Sigmoid函数，MLP表示共享多层感知器，AvgPool表示平均池化，MaxPool表示最大池化，W₀和W₁表示不同的权重矩阵，

表示平均池化特征，

表示最大池化特征。

空间注意力模块将通道注意力特征M_c(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作，生成空间注意力模块的输入特征F′，对于输入的特征F′，分别经过最大池化和平均池化操作，然后进行卷积操作，接着通过Sigmoid函数生成空间注意力特征M_s(F’)，公式如下：

式中，σ表示Sigmoid函数，f^7×7表示7*7的卷积核，AvgPool表示平均池化，MaxPool表示最大池化，

表示平均池化特征，

表示最大池化特征。

步骤4具体按照以下步骤实施：

步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量W_e作为LSTM的输入，LSTM首先通过Sigmoid层控制遗忘层，对上一时刻的输出结果选择性的通过，更新公式为：

f_t＝σ(W_f*[h_t-1,x_t]+b_f)

式中，σ表示Sigmoid函数，h_t-1表示上一个LSTM的输出,x_t表示此刻LSTM的信息输入，W_f为权重矩阵，b_f是偏置向量，[]表示矩阵的拼接；

步骤4.2、在细胞中保存重要信息，包括两部分，一部分是通过i_t更新数值，另一部分是通过tanh层得到新的候选值，给上一时刻的状态乘以遗忘状态f_t，遗忘掉之前不重要的信息，再用

加上前者得到C_t，公式如下：

其中，i_t＝σ(W_i*[h_t-1,x_t]+b_i)，σ表示Sigmoid函数，i_t表示输入状态，W_i表示权重矩阵，h_t-1表示上一个LSTM的输出，b_i表示偏置向量，C_t表示细胞状态，C_t-1表示上一时刻的细胞状态，f_t表示遗忘状态，

表示细胞状态的候选值向量；

步骤4.3、最后一步先计算得到输出状态O_t，然后使用tanh函数对细胞状态C_t进行处理，乘上O_t的值得到LSTM单元的输出h_t，公式如下所示：

O_t＝σ(W_p*[h_t-1,x_t]+b_p)

其中，h_t＝O_t*tanh(C_t)，σ表示Sigmoid函数，tanh()表示正切函数，O_t表示输出状态，W_p表示权重矩阵，b_p表示偏置向量，h_t-1表示上一个LSTM的输出，x_t表示当前时刻的输入，h_t表示当前时刻LSTM的输出，又称输出单元。

步骤5具体按照以下步骤实施：

步骤5.1、使用步骤3构建编码器来提取图像特征，生成512维图像特征矩阵；

步骤5.2、使用步骤4构建解码器，将步骤3中生成的512维图像特征矩阵以及词向量W_e作为解码器的原始输入，按照时间序列逐步生成对应图片的描述语句。

本发明的有益效果是：

本发明方法中的模型采用Inception-v4网络作为基准网络。为了进一步增强模型提取特征的能力，在每个Inception模块之后加入CBAM模块。CBAM是一个轻量级的模块，它的计算量可以忽略不计，它可以嵌入到任何一个卷积神经网络中，提升卷积神经网络的准确性，更好地提取图片重要信息。SCA-CNN模型中空间注意力机制和通道注意力机制的应用与CBAM相比较为复杂。采用LSTM网络弥补循环神经网络的缺点，更好地处理远距离信号问题。

附图说明

图1是本发明一种基于CBAM的图像描述生成模型方法中的Inception-v4网络结构图；

图2是本发明一种基于CBAM的图像描述生成模型方法中的CBAM模块结构图；

图3是本发明一种基于CBAM的图像描述生成模型方法中的通道注意力机制模块结构图；

图4是本发明一种基于CBAM的图像描述生成模型方法中的空间注意力机制模块结构图；

图5是本发明一种基于CBAM的图像描述生成模型方法中的长短期记忆网络结构图；

图6是本发明一种基于CBAM的图像描述生成模型方法中的图像描述生成模型总体架构图；

图7是本发明一种基于CBAM的图像描述生成模型方法中的学习率衰减图；

图8是案例分析中模型训练过程中总损失图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于CBAM的图像描述生成模型方法，具体按照以下步骤实施：

步骤1、选取Inception-v4作为基准网络；

步骤3具体按照以下步骤实施：

其中，改进后的Inception-v4，如图1所示，改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成；

步骤3.2中，CBAM模块如图2所示，CBAM模块包括两部分内容，分别是空间注意力模块和通道注意力模块。其中，通道注意力模块如图3所示，输入特征F，分别经过最大池化和平均池化，接着经过共享多层感知器，将得到的两个特征相加，再经过Sigmoid函数，最终生成通道注意力特征M_c(F)，公式如下：

表示平均池化特征，

表示最大池化特征。

空间注意力模块如图4所示，将通道注意力特征M_c(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作，生成空间注意力模块的输入特征F′，对于输入的特征F′，分别经过最大池化和平均池化操作，然后进行卷积操作，接着通过Sigmoid函数生成空间注意力特征M_s(F’)，公式如下：

表示平均池化特征，

表示最大池化特征。

步骤4具体按照以下步骤实施：

步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量W_e作为LSTM的输入，其中LSTM结构如图5所示，LSTM首先通过Sigmoid层控制遗忘层，对上一时刻的输出结果选择性的通过，更新公式为：

f_t＝σ(W_f*[h_t-1,x_t]+b_f)

加上前者得到C_t，公式如下：

表示细胞状态的候选值向量；

O_t＝σ(W_p*[h_t-1,x_t]+b_p)

步骤5、搭建基于编码器-解码器框架的图像描述生成模型，完成图片到语句的转化；

步骤5具体按照以下步骤实施：

步骤5.1、使用步骤3构建编码器来提取图像特征，生成512维图像特征矩阵。其中，编码器结构如图6左部分所示，主要有Stem、4层Inception-A+CBAM、Reduction-A、7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化、Dropout和全连接层；

步骤5.2、使用步骤4构建解码器，将步骤3中生成的512维图像特征矩阵以及词向量W_e作为解码器的原始输入，按照时间序列逐步生成对应图片的描述语句。其中，解码器结构如图6左部分所示，主要有多个LSTM共同构成解码器，每个LSTM的输入为上一时刻生成的单词S_t-1和512维图像特征矩阵。

案例分析与方法验证

为了验证本发明的有效性，本发明在Ubuntu 16系统上进行实验验证。采用MSCOCO数据集，该数据集包括训练集、验证集和测试集，其中训练集共有82783张图片，验证集有40504张，测试集有40775张，每张图片共有五句标注，训练集全部用于训练模型，验证集全部用于模型评价准则的评估。测试集可以选取少部分验证模型的有效性。

实验前对数据集图片进行预处理，生成大小为299*299的彩色图片。设置模型参数。限定句子的长度为20，不足的位置补0，语句开始标志为<S>，结束标志为</S>。设置批处理大小(batch_size)为32，使用集束搜索(beamsearch)方法逐步生成描述语句，每个时间序列保留概率p最大的几个句子，迭代操作这个步骤，将beam大小设置为3。初始化learn_rate值为2，使用tf.train.exponential_decay(其为tensorflow中的方法)创建训练步数衰减的学习速率，设置staircase为true，表示阶梯衰减，如图7所示。将词汇字典尺寸大小设置为12000，将频率出现4次以上的单词存入词汇表。利用AdamOptimizer计算并得到频率最高的单词；

实验采用Bleu-1、Bleu-4、METEOR和CIDEr作为模型的评价指标。Bleu类的评价指标主要是用来测试两个句子之间的相似程度，最初，Bleu通过一个句子出现在另一个句子中单词的数量来判定两个句子的相似度，之后，经过几次不断的改进，引入惩罚值和最佳匹配长度计算语句之间的精度。METEOR测试精度主要是考虑准确率和召回率，它的出现是为了弥补Bleu中的不足。Bleu和向量空间模型结合产生了CIDEr，可以用来评价图像描述生成模型是否提取到图片的关键信息。如图8所示，改进后的模型的损失稳定在2到2.1之间。模型对比结果如表1所示。

表1模型评价准则得分表

注：模型得分较高者加粗斜体表示

可以看出，模型的性能明显优于人类表现。模型在Bleu-4的数值与SCA-CNN-ResNet模型相同，高于其它四个模型分数，分别提高了0.065，0.081，0.061。在CIDEr上比人类高8.4％，该值说明了本文模型更好的提取到了图像重要部分信息。在METEOR上比人类表现要高2.8％，比SCA-CNN-ResNet要高3.6％，比其余几个模型高出很多。本文模型在Bleu-1上的分数接近SCA-CNN-ResBet模型，比Multimodal RNN高0.091。从模型评价准则得分表可以得出，模型的综合性能优于其它模型。

Claims

1.一种基于CBAM的图像描述生成模型方法，其特征在于，具体按照以下步骤实施：

步骤1、选取Inception-v4作为基准网络；

2.根据权利要求1所述的一种基于CBAM的图像描述生成模型方法，其特征在于，步骤3具体按照以下步骤实施：

3.根据权利要求2所述的一种基于CBAM的图像描述生成模型方法，其特征在于，步骤3.2中，CBAM模块包括两部分内容，分别是空间注意力模块和通道注意力模块，其中，通道注意力模块，输入特征F，分别经过最大池化和平均池化，接着经过共享多层感知器，将得到的两个特征相加，再经过Sigmoid函数，最终生成通道注意力特征M_c(F)，公式如下：