CN112270344A - 一种基于cbam的图像描述生成模型方法 - Google Patents
一种基于cbam的图像描述生成模型方法 Download PDFInfo
- Publication number
- CN112270344A CN112270344A CN202011117296.7A CN202011117296A CN112270344A CN 112270344 A CN112270344 A CN 112270344A CN 202011117296 A CN202011117296 A CN 202011117296A CN 112270344 A CN112270344 A CN 112270344A
- Authority
- CN
- China
- Prior art keywords
- cbam
- inclusion
- lstm
- module
- denotes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 235000019987 cider Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种基于CBAM的图像描述生成模型方法,具体为:步骤1、选取Inception‑v4作为基准网络;步骤2、引入CBAM模块,分别在Inception‑v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception‑v4;步骤3、使用改进后的Inception‑v4提取图像特征,生成512维图像特征矩阵;步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;步骤5、搭建基于编码器‑解码器框架的图像描述生成模型,完成图片到语句的转化。该方法解决针对现有模型描述质量不高、对图片重要部分特征提取不足和模型过于复杂的问题。
Description
技术领域
本发明属于计算机视觉和自然语言处理技术领域,具体涉及一种基于CBAM的图像描述生成模型方法。
背景技术
图像描述生成主要经历了三个发展阶段:①基于模板的图像描述生成,该方法通过检测得物体及物体属性之间的关系,之后将单词填入固定的句子模板,但该模型过于死板;②基于检索的图像描述生成,该方法先检索与当前图像相似的图像作为模板,在检索图像关系前需要调整,这个步骤增加了算法的复杂度;③基于深度学习的图像描述生成,通过构建编码器-解码器框架,采用端到端的方法对模型进行训练,相对前两种方法,在图像描述的准确性上有较大的提升。Vinyals等人提出NIC(Neural Image Caption)模型,其思路来源于机器翻译通过最大化源语言S转化成目标语言T的概率p(T/S),将第一个循环神经网络(Recurrent Neural Networks,RNN)替换成卷积神经网络(Convolutional NeuralNetworks,CNN),用于提取图片的特征(Vinyals O,Toshev A,Bengio S,et al.Show andtell:A neural image caption generator[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2015:3156-3164.)。Xu等人在NIC模型的基础上引入注意力机制,提取到图片的重要信息,提升了模型的准确率。大多数的视觉注意力机制只建模空间注意力机制(spatial attention)(Xu K,Ba J,Kiros R,et al.Show,attend and tell:Neural image caption generation with visual attention[C]//International Conference on Machine Learning.2015:2048-2057.)。Chen等人提出了SCA-CNN模型,该模型同时建模空间注意力机制和通道注意力机制(channel-wiseattention),较大的提升了模型的性能,但该模型不够轻便、灵活(Chen,L.,Zhang,H.,Xiao,J.,Nie,L.,Shao,J.,Chua,T.S.:SCA-CNN:Spatial and channel-wise attentionin convolutional networks for image captioning.Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.)。Woo等人在SCA-CNN的基础上提出了一种轻量级通用卷积模块注意力机制模型(Convolutional BlockAttention Module,CBAM)(Woo S,Park J,Lee J Y,et al.CBAM:Convolutional blockattention module[C]//European Conference on Computer Vision,2018:3-19.)。该注意力机制结合空间注意力机制和通道注意力机制,并且两种注意力机制都使用平均池化和最大池化技术,使模型的效果更好。
考虑到注意力机制在图像描述生成中的有效性,提出了一种基于CBAM的图像描述生成模型。该模型将CBAM模块应用到Inception-v4网络中,用于提取图片特征,并送入长短期记忆网络(Long Short-Term Memory,LSTM),生成符合图像内容描述的自然语言。模型使用Dropout技术和正则化防止过拟合,利用word2vec技术对自然语言进行编码处理,以避免维度灾难等问题。
发明内容
本发明的目的是提供一种优化图像描述生成模型问题的方法,解决针对现有模型描述质量不高、对图片重要部分特征提取不足和模型过于复杂的问题。
本发明所采用的技术方案是,一种基于CBAM的图像描述生成模型方法,具体按照以下步骤实施:
步骤1、选取Inception-v4作为基准网络;
步骤2、引入CBAM模块,分别在Inception-v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception-v4;
步骤3、使用改进后的Inception-v4提取图像特征,生成512维图像特征矩阵;
步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;
步骤5、搭建基于编码器-解码器框架的图像描述生成模型,完成图片到语句的转化。
本发明的特征还在于,
步骤3具体按照以下步骤实施:
步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片,经过Stem模块之后输出尺寸为35*35*384;
其中,改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成;
步骤3.2、将步骤3.1的结果作为Inception-A的输入,每次经过Inception-A之后的特征送入CBAM模块,共有4层Inception-A+CBAM;
步骤3.3、将3.2生成的特征经过Reduction-A降维之后,再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征;
步骤3.4、将3.3的结果送入全连接层,输出为512维图像特征矩阵。
步骤3.2中,CBAM模块包括两部分内容,分别是空间注意力模块和通道注意力模块。其中,通道注意力模块,输入特征F,分别经过最大池化和平均池化,接着经过共享多层感知器,将得到的两个特征相加,再经过Sigmoid函数,最终生成通道注意力特征Mc(F),公式如下:
空间注意力模块将通道注意力特征Mc(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作,生成空间注意力模块的输入特征F′,对于输入的特征F′,分别经过最大池化和平均池化操作,然后进行卷积操作,接着通过Sigmoid函数生成空间注意力特征Ms(F’),公式如下:
步骤4具体按照以下步骤实施:
步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量We作为LSTM的输入,LSTM首先通过Sigmoid层控制遗忘层,对上一时刻的输出结果选择性的通过,更新公式为:
ft=σ(Wf*[ht-1,xt]+bf)
式中,σ表示Sigmoid函数,ht-1表示上一个LSTM的输出,xt表示此刻LSTM的信息输入,Wf为权重矩阵,bf是偏置向量,[]表示矩阵的拼接;
步骤4.2、在细胞中保存重要信息,包括两部分,一部分是通过it更新数值,另一部分是通过tanh层得到新的候选值,给上一时刻的状态乘以遗忘状态ft,遗忘掉之前不重要的信息,再用加上前者得到Ct,公式如下:
其中,it=σ(Wi*[ht-1,xt]+bi),σ表示Sigmoid函数,it表示输入状态,Wi表示权重矩阵,ht-1表示上一个LSTM的输出,bi表示偏置向量,Ct表示细胞状态,Ct-1表示上一时刻的细胞状态,ft表示遗忘状态,表示细胞状态的候选值向量;
步骤4.3、最后一步先计算得到输出状态Ot,然后使用tanh函数对细胞状态Ct进行处理,乘上Ot的值得到LSTM单元的输出ht,公式如下所示:
Ot=σ(Wp*[ht-1,xt]+bp)
其中,ht=Ot*tanh(Ct),σ表示Sigmoid函数,tanh()表示正切函数,Ot表示输出状态,Wp表示权重矩阵,bp表示偏置向量,ht-1表示上一个LSTM的输出,xt表示当前时刻的输入,ht表示当前时刻LSTM的输出,又称输出单元。
步骤5具体按照以下步骤实施:
步骤5.1、使用步骤3构建编码器来提取图像特征,生成512维图像特征矩阵;
步骤5.2、使用步骤4构建解码器,将步骤3中生成的512维图像特征矩阵以及词向量We作为解码器的原始输入,按照时间序列逐步生成对应图片的描述语句。
本发明的有益效果是:
本发明方法中的模型采用Inception-v4网络作为基准网络。为了进一步增强模型提取特征的能力,在每个Inception模块之后加入CBAM模块。CBAM是一个轻量级的模块,它的计算量可以忽略不计,它可以嵌入到任何一个卷积神经网络中,提升卷积神经网络的准确性,更好地提取图片重要信息。SCA-CNN模型中空间注意力机制和通道注意力机制的应用与CBAM相比较为复杂。采用LSTM网络弥补循环神经网络的缺点,更好地处理远距离信号问题。
附图说明
图1是本发明一种基于CBAM的图像描述生成模型方法中的Inception-v4网络结构图;
图2是本发明一种基于CBAM的图像描述生成模型方法中的CBAM模块结构图;
图3是本发明一种基于CBAM的图像描述生成模型方法中的通道注意力机制模块结构图;
图4是本发明一种基于CBAM的图像描述生成模型方法中的空间注意力机制模块结构图;
图5是本发明一种基于CBAM的图像描述生成模型方法中的长短期记忆网络结构图;
图6是本发明一种基于CBAM的图像描述生成模型方法中的图像描述生成模型总体架构图;
图7是本发明一种基于CBAM的图像描述生成模型方法中的学习率衰减图;
图8是案例分析中模型训练过程中总损失图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于CBAM的图像描述生成模型方法,具体按照以下步骤实施:
步骤1、选取Inception-v4作为基准网络;
步骤2、引入CBAM模块,分别在Inception-v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception-v4;
步骤3、使用改进后的Inception-v4提取图像特征,生成512维图像特征矩阵;
步骤3具体按照以下步骤实施:
步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片,经过Stem模块之后输出尺寸为35*35*384;
其中,改进后的Inception-v4,如图1所示,改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成;
步骤3.2、将步骤3.1的结果作为Inception-A的输入,每次经过Inception-A之后的特征送入CBAM模块,共有4层Inception-A+CBAM;
步骤3.2中,CBAM模块如图2所示,CBAM模块包括两部分内容,分别是空间注意力模块和通道注意力模块。其中,通道注意力模块如图3所示,输入特征F,分别经过最大池化和平均池化,接着经过共享多层感知器,将得到的两个特征相加,再经过Sigmoid函数,最终生成通道注意力特征Mc(F),公式如下:
空间注意力模块如图4所示,将通道注意力特征Mc(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作,生成空间注意力模块的输入特征F′,对于输入的特征F′,分别经过最大池化和平均池化操作,然后进行卷积操作,接着通过Sigmoid函数生成空间注意力特征Ms(F’),公式如下:
步骤3.3、将3.2生成的特征经过Reduction-A降维之后,再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征;
步骤3.4、将3.3的结果送入全连接层,输出为512维图像特征矩阵。
步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;
步骤4具体按照以下步骤实施:
步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量We作为LSTM的输入,其中LSTM结构如图5所示,LSTM首先通过Sigmoid层控制遗忘层,对上一时刻的输出结果选择性的通过,更新公式为:
ft=σ(Wf*[ht-1,xt]+bf)
式中,σ表示Sigmoid函数,ht-1表示上一个LSTM的输出,xt表示此刻LSTM的信息输入,Wf为权重矩阵,bf是偏置向量,[]表示矩阵的拼接;
步骤4.2、在细胞中保存重要信息,包括两部分,一部分是通过it更新数值,另一部分是通过tanh层得到新的候选值,给上一时刻的状态乘以遗忘状态ft,遗忘掉之前不重要的信息,再用加上前者得到Ct,公式如下:
其中,it=σ(Wi*[ht-1,xt]+bi),σ表示Sigmoid函数,it表示输入状态,Wi表示权重矩阵,ht-1表示上一个LSTM的输出,bi表示偏置向量,Ct表示细胞状态,Ct-1表示上一时刻的细胞状态,ft表示遗忘状态,表示细胞状态的候选值向量;
步骤4.3、最后一步先计算得到输出状态Ot,然后使用tanh函数对细胞状态Ct进行处理,乘上Ot的值得到LSTM单元的输出ht,公式如下所示:
Ot=σ(Wp*[ht-1,xt]+bp)
其中,ht=Ot*tanh(Ct),σ表示Sigmoid函数,tanh()表示正切函数,Ot表示输出状态,Wp表示权重矩阵,bp表示偏置向量,ht-1表示上一个LSTM的输出,xt表示当前时刻的输入,ht表示当前时刻LSTM的输出,又称输出单元。
步骤5、搭建基于编码器-解码器框架的图像描述生成模型,完成图片到语句的转化;
步骤5具体按照以下步骤实施:
步骤5.1、使用步骤3构建编码器来提取图像特征,生成512维图像特征矩阵。其中,编码器结构如图6左部分所示,主要有Stem、4层Inception-A+CBAM、Reduction-A、7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化、Dropout和全连接层;
步骤5.2、使用步骤4构建解码器,将步骤3中生成的512维图像特征矩阵以及词向量We作为解码器的原始输入,按照时间序列逐步生成对应图片的描述语句。其中,解码器结构如图6左部分所示,主要有多个LSTM共同构成解码器,每个LSTM的输入为上一时刻生成的单词St-1和512维图像特征矩阵。
案例分析与方法验证
为了验证本发明的有效性,本发明在Ubuntu 16系统上进行实验验证。采用MSCOCO数据集,该数据集包括训练集、验证集和测试集,其中训练集共有82783张图片,验证集有40504张,测试集有40775张,每张图片共有五句标注,训练集全部用于训练模型,验证集全部用于模型评价准则的评估。测试集可以选取少部分验证模型的有效性。
实验前对数据集图片进行预处理,生成大小为299*299的彩色图片。设置模型参数。限定句子的长度为20,不足的位置补0,语句开始标志为<S>,结束标志为</S>。设置批处理大小(batch_size)为32,使用集束搜索(beamsearch)方法逐步生成描述语句,每个时间序列保留概率p最大的几个句子,迭代操作这个步骤,将beam大小设置为3。初始化learn_rate值为2,使用tf.train.exponential_decay(其为tensorflow中的方法)创建训练步数衰减的学习速率,设置staircase为true,表示阶梯衰减,如图7所示。将词汇字典尺寸大小设置为12000,将频率出现4次以上的单词存入词汇表。利用AdamOptimizer计算并得到频率最高的单词;
实验采用Bleu-1、Bleu-4、METEOR和CIDEr作为模型的评价指标。Bleu类的评价指标主要是用来测试两个句子之间的相似程度,最初,Bleu通过一个句子出现在另一个句子中单词的数量来判定两个句子的相似度,之后,经过几次不断的改进,引入惩罚值和最佳匹配长度计算语句之间的精度。METEOR测试精度主要是考虑准确率和召回率,它的出现是为了弥补Bleu中的不足。Bleu和向量空间模型结合产生了CIDEr,可以用来评价图像描述生成模型是否提取到图片的关键信息。如图8所示,改进后的模型的损失稳定在2到2.1之间。模型对比结果如表1所示。
表1模型评价准则得分表
注:模型得分较高者加粗斜体表示
可以看出,模型的性能明显优于人类表现。模型在Bleu-4的数值与SCA-CNN-ResNet模型相同,高于其它四个模型分数,分别提高了0.065,0.081,0.061。在CIDEr上比人类高8.4%,该值说明了本文模型更好的提取到了图像重要部分信息。在METEOR上比人类表现要高2.8%,比SCA-CNN-ResNet要高3.6%,比其余几个模型高出很多。本文模型在Bleu-1上的分数接近SCA-CNN-ResBet模型,比Multimodal RNN高0.091。从模型评价准则得分表可以得出,模型的综合性能优于其它模型。
Claims (5)
1.一种基于CBAM的图像描述生成模型方法,其特征在于,具体按照以下步骤实施:
步骤1、选取Inception-v4作为基准网络;
步骤2、引入CBAM模块,分别在Inception-v4中每个Inception模块之后加入CBAM模块,生成改进后的Inception-v4;
步骤3、使用改进后的Inception-v4提取图像特征,生成512维图像特征矩阵;
步骤4、引入LSTM,选取LSTM处理模型的时序问题,可以由单个LSTM得到输出单元h;
步骤5、搭建基于编码器-解码器框架的图像描述生成模型,完成图片到语句的转化。
2.根据权利要求1所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤3具体按照以下步骤实施:
步骤3.1、在改进后的Inception-v4中输入尺寸为299*299,3通道的图片,经过Stem模块之后输出尺寸为35*35*384;
其中,改进后的Inception-v4由Stem模块、4层Inception-A、Reduction-A、7层Inception-B、Reduction-B、3层Inception-C、平均池化层、Dropout层以及Softmax层组成;
步骤3.2、将步骤3.1的结果作为Inception-A的输入,每次经过Inception-A之后的特征送入CBAM模块,共有4层Inception-A+CBAM;
步骤3.3、将3.2生成的特征经过Reduction-A降维之后,再经过7层Inception-B+CBAM、Reduction-B、3层Inception-C+CBAM、平均池化以及Dropout层生成1536维特征;
步骤3.4、将3.3的结果送入全连接层,输出为512维图像特征矩阵。
3.根据权利要求2所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤3.2中,CBAM模块包括两部分内容,分别是空间注意力模块和通道注意力模块,其中,通道注意力模块,输入特征F,分别经过最大池化和平均池化,接着经过共享多层感知器,将得到的两个特征相加,再经过Sigmoid函数,最终生成通道注意力特征Mc(F),公式如下:
空间注意力模块,将通道注意力特征Mc(F)和输入特征进行一个基于对应元素逐个相乘的乘法操作,生成空间注意力模块的输入特征F′,对于输入的特征F′,分别经过最大池化和平均池化操作,然后进行卷积操作,接着通过Sigmoid函数生成空间注意力特征Ms(F’),公式如下:
4.根据权利要求3所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤4具体按照以下步骤实施:
步骤4.1、将步骤3.4生成的512维图像特征矩阵和词向量We作为LSTM的输入,LSTM首先通过Sigmoid层控制遗忘层,对上一时刻的输出结果选择性的通过,更新公式为:
ft=σ(Wf*[ht-1,xt]+bf)
式中,σ表示Sigmoid函数,ht-1表示上一个LSTM的输出,xt表示此刻LSTM的信息输入,Wf为权重矩阵,bf是偏置向量,[]表示矩阵的拼接;
步骤4.2、在细胞中保存重要信息,包括两部分,一部分是通过it更新数值,另一部分是通过tanh层得到新的候选值,给上一时刻的状态乘以遗忘状态ft,遗忘掉之前不重要的信息,再用加上前者得到Ct,公式如下:
其中,it=σ(Wi*[ht-1,xt]+bi),σ表示Sigmoid函数,it表示输入状态,Wi表示权重矩阵,ht-1表示上一个LSTM的输出,bi表示偏置向量,Ct表示细胞状态,Ct-1表示上一时刻的细胞状态,ft表示遗忘状态,表示细胞状态的候选值向量;
步骤4.3、最后一步先计算得到输出状态Ot,然后使用tanh函数对细胞状态Ct进行处理,乘上Ot的值得到LSTM单元的输出ht,公式如下所示:
Ot=σ(Wp*[ht-1,xt]+bp)
其中,ht=Ot*tanh(Ct),σ表示Sigmoid函数,tanh()表示正切函数,Ot表示输出状态,Wp表示权重矩阵,bp表示偏置向量,ht-1表示上一个LSTM的输出,xt表示当前时刻的输入,ht表示当前时刻LSTM的输出,又称输出单元。
5.根据权利要求4所述的一种基于CBAM的图像描述生成模型方法,其特征在于,步骤5具体按照以下步骤实施:
步骤5.1、使用步骤3构建编码器来提取图像特征,生成512维图像特征矩阵;
步骤5.2、使用步骤4构建解码器,将步骤3中生成的512维图像特征矩阵以及词向量We作为解码器的原始输入,按照时间序列逐步生成对应图片的描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011117296.7A CN112270344A (zh) | 2020-10-19 | 2020-10-19 | 一种基于cbam的图像描述生成模型方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011117296.7A CN112270344A (zh) | 2020-10-19 | 2020-10-19 | 一种基于cbam的图像描述生成模型方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270344A true CN112270344A (zh) | 2021-01-26 |
Family
ID=74337469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011117296.7A Pending CN112270344A (zh) | 2020-10-19 | 2020-10-19 | 一种基于cbam的图像描述生成模型方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270344A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049501A (zh) * | 2021-11-22 | 2022-02-15 | 江苏科技大学 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
CN114332107A (zh) * | 2021-12-01 | 2022-04-12 | 石家庄铁路职业技术学院 | 一种改进隧道衬砌渗漏水图像分割方法 |
CN114648641A (zh) * | 2022-03-22 | 2022-06-21 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN115345280A (zh) * | 2022-08-16 | 2022-11-15 | 东北林业大学 | 人脸识别攻击检测系统、方法、电子设备及存储介质 |
CN115876655A (zh) * | 2022-12-02 | 2023-03-31 | 中国矿业大学 | 一种受限空间涉爆粉尘全过程监测系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145946A (zh) * | 2018-07-09 | 2019-01-04 | 暨南大学 | 一种智能图像识别和描述方法 |
-
2020
- 2020-10-19 CN CN202011117296.7A patent/CN112270344A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145946A (zh) * | 2018-07-09 | 2019-01-04 | 暨南大学 | 一种智能图像识别和描述方法 |
Non-Patent Citations (2)
Title |
---|
JIE HU等: "Squeeze-and-Excitation Networks", 《ARXIV》 * |
SANGHYUN WOO 等: "CBAM: Convolutional Block Attention Module", 《ARXIV》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049501A (zh) * | 2021-11-22 | 2022-02-15 | 江苏科技大学 | 融合集束搜索的图像描述生成方法、系统、介质及设备 |
CN114332107A (zh) * | 2021-12-01 | 2022-04-12 | 石家庄铁路职业技术学院 | 一种改进隧道衬砌渗漏水图像分割方法 |
CN114648641A (zh) * | 2022-03-22 | 2022-06-21 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN114648641B (zh) * | 2022-03-22 | 2024-09-27 | 平安科技(深圳)有限公司 | 图像描述方法和装置、计算机设备、存储介质 |
CN115345280A (zh) * | 2022-08-16 | 2022-11-15 | 东北林业大学 | 人脸识别攻击检测系统、方法、电子设备及存储介质 |
CN115876655A (zh) * | 2022-12-02 | 2023-03-31 | 中国矿业大学 | 一种受限空间涉爆粉尘全过程监测系统及方法 |
CN115876655B (zh) * | 2022-12-02 | 2023-06-16 | 中国矿业大学 | 一种受限空间涉爆粉尘全过程监测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109597891B (zh) | 基于双向长短时记忆神经网络的文本情感分析方法 | |
CN112270344A (zh) | 一种基于cbam的图像描述生成模型方法 | |
CN110399850B (zh) | 一种基于深度神经网络的连续手语识别方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111931736B (zh) | 利用非自回归模型与整合放电技术的唇语识别方法、系统 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN113361278B (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111460883A (zh) | 基于深度强化学习的视频行为自动描述方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN114385802A (zh) | 一种融合主题预测和情感推理的共情对话生成方法 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN111818397B (zh) | 一种基于长短时记忆网络变体的视频描述生成方法 | |
CN118262874A (zh) | 一种基于知识图谱的中医诊疗模型数据扩充系统及方法 | |
CN114330328A (zh) | 基于Transformer-CRF的藏文分词方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN111310892B (zh) | 一种基于独立循环神经网络的语言模型建模方法 | |
CN115936073A (zh) | 一种语言导向卷积神经网络及视觉问答方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |
|
RJ01 | Rejection of invention patent application after publication |