CN116543289B - 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 - Google Patents
一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 Download PDFInfo
- Publication number
- CN116543289B CN116543289B CN202310522422.4A CN202310522422A CN116543289B CN 116543289 B CN116543289 B CN 116543289B CN 202310522422 A CN202310522422 A CN 202310522422A CN 116543289 B CN116543289 B CN 116543289B
- Authority
- CN
- China
- Prior art keywords
- model
- lstm
- attention
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 235000019987 cider Nutrition 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于编码器‑解码器及Bi‑LSTM注意力模型的图像描述方法,包括:首先,构建带有卷积神经网络CNN的编码器模型并且用预处理过的图片去训练编码器模型,以便可以高效提取出图像特征;然后构建并训练Bi‑LSTM注意力机制模型,把提取的图像特征作为输入,生成准确地每个词向量;最后,构建带有循环神经网络RNN的句子解码器模型,将词向量输入模型中,以进行图像描述生成。本发明采用一种新的Bi‑LSTM模型,该模型结合前向和后向LSTM的生成信息,调整图像权重的分配,提高了图像描述结果的准确性;本发明通过提高循环神经网络RNN解码的效率,节省图像描述生成的时间成本。
Description
技术领域
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法。
背景技术
图像描述方法的实质就是将计算机提取的图像视觉特征转化成更高层次的语义信息,使计算机能够生成与人类大脑理解相近的图像描述,从而对图像可以进行分析,检阅,分类等应用。图像描述方法涉及了计算机视觉和自然语言处理两大人工智能领域,计算机不仅要检测出输入图像的各个物体的属性,而且还要识别出各个物体之间的关系,并用正确合适的自然语言表达出来,这也是该方法的难点所在。近几年,随着各个大型图像数据集的出现和深度学习的不断发展,如何提高图像描述的准确度也成为自然语言处理和计算机视觉领域的难点。
在图像描述技术的发展初期,研究人员尝试利用计算机识别出图像的物体以及确定目标的属性,并且以自然语言的形式描述图像内容。在最初的图像描述任务中,一般都是使用基于模板和检索的方式去生成图像描述,但是这些方法十分依赖前期的图像处理过程,只能处理较小规模的图像数据,对于描述生成的模型优化有限,因此难以生成高质量的图像描述。近年来,由于深度学习技术的发展,神经网络在计算机视觉和自然语言处理领域得到了广泛应用,研究人员提出了使用编码器-解码器模型来进行图像描述,他们是通过端到端的学习方法直接实现图像和描述句子间的映射,这个模型能够生成较准确地描述,性能也超过最初的方法。
由于传统的编码器-解码器模型结构过于简单,在处理固定长度的词向量有着局限性,损失了的大量详细信息,影响了图像描述的准确率。之后,研究人员又将注意力机制融入编码器-解码器框架进行图像描述,通过在注意力机制中加入LSTM网络,使模型效果得到很大的提升。然而,尽管注意力机制能够让模型的效果得到很大的提升,但是由于注意力机制并不能准确聚焦到各个图像的物体上,导致由图像特征经过LSTM网络生成词向量不够完整,造成了最终的图像描述不完整,影响了准确性。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法,采用新的Bi-LSTM注意力模型,结合编码器-解码器,该模型结合前向和后向LSTM的生成信息,增加注意力机制,调整图像权重的分配,提高了图像描述结果的准确性。
为了实现上述目的,本发明采用了如下技术方案:
一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法,具体步骤如下:
步骤1、提前准备好图像描述数据集(MSCOCO 2014),数据集里面有描述的标注,将数据集划分为训练集、测试集以及验证集;
步骤2、将训练集中标注的图像描述单词,按照单词出现的频率降序排列,将单词的映射以一维数组的形式存储在计算机中,形成与图像描述相关的词汇数组;
步骤3、构建并训练卷积神经网络CNN的编码器模型:构建一个由卷积层、平均池化层、全连接层和softmax层组成的编码器模型,并且设置每层的参数;然后不断训练这个模型,通过微调函数对各个参数进行微调,得到训练好的编码器模型;
步骤4、训练集中的图片输入到训练以及调参完成的卷积神经网络CNN编码器模型中,并且同时输入到经过ImageNet数据集训练过的Resnet101网络上,将全连接层的特征作为编码器的图像特征输出,并且存储在编码器中;
步骤5、构建循环神经网络RNN的句子解码器模型:构建一个由输入层、输出层、隐藏层以及循环层组成的句子编码器模型,并且设置每层的参数,之后用微调函数调整参数;
步骤6、构建带有Bi-LSTM的注意力机制模型:将一个注意力机制网络和双向长短期神经网络Bi-LSTM组成新的Bi-LSTM注意力模型,该Bi-LSTM注意力模型是由两个相互独立的正向LSTM和反向LSTM组成的,该Bi-LSTM注意力模型是由2048个神经元构成的;
步骤7、训练Bi-LSTM注意力模型;
步骤8、进行编码器-解码器及Bi-LSTM模型效果的测试,采用三通道的编码器提取输出图像特征,然后将提取的图像特征作为输入,输入训练过的Bi-LSTM注意力模型中,与词向量数组加权点乘,最后作为输入,输入训练优化过的句子编码器中,得到最后的图像描述,通过使用BLUE-4、METEOR和CIDER作为图像描述的评价指标。
优选地,在步骤7中,具体包括:
步骤7.1、在t0-tn不同时刻中,将训练集中每个图像描述的单词输入模型,从t0时刻开始,训练新的Bi-LSTM注意力模型;
步骤7.2、参照步骤4,将其中经过ImageNet数据集训练过的Resnet101网络最后一层全连接层进行平均池化,将其平均池化后的特征作为特征向量;
步骤7.3、将特征向量和当前tn时刻图像描述的词向量相加,输入到Bi-LSTM注意力模型中前向长短期记忆网络LSTM中,然后网络前向传导输出隐藏态;
步骤7.4、读取步骤2中的词向量数组,将词向量数组输入到Bi-LSTM注意力模型的注意力网络中,注意力网络前向传导出加权的词向量数组;
步骤7.5、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,输出tn+1时刻的单词向量概率;
步骤7.6、判断tn+1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn+1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.7;
步骤7.7、根据步骤7.3、步骤7.4,利用Bi-LSTM网络的双向性特点,首先将相加的词向量相加,输入模型中的后向长短期记忆网络LSTM中,网络后向传导输出隐藏态;将词向量数组输入模型的注意力网络中,注意力网络后向传导出加权的词向量数组;
步骤7.8、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,经过,输出tn-1时刻的单词向量概率;
步骤7.9、判断tn-1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn-1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.10;
步骤7.10、将t0-tn+1时间内的损失相加求和得到总损失和,并使用BP反向传播计算梯度和优化器Adam调整模型中的所有参数,减小总损失的值,优化模型的效果,当总损失趋于平稳时停止训练模型,得到训练完成的Bi-LSTM注意力模型。
通过采用上述技术方案:首先在注意力机制中将传统的长短期记忆网络LSTM改成了一种新的Bi-LSTM网络结构,将编码器提取的图像特征输入进入修改过的注意力机制中,不仅提高了描述图像的泛化能力,而且有效地将图像描述的准确性提高。其次,本发明同时还将译码器部分中的循环神经网络RNN进行优化,使输入编码器的词向量能够更加快速地生成图像描述,节省时间成本,并且让生成的语句更加真实自然,让人无法判读出是机器产生的,使图像描述更加的高效。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过构建的Bi-LSTM注意力模型利用双向长短期记忆网络Bi-LSTM,解决了现有图像描述方法生成语句不完整以及图像权重分配不均的缺点,前向和后向的长短期记忆网络LSTM相互对比结果,并且通过注意力机制调整,有效的提高了图像描述的准确性。
2、本发明利用Bi-LSTM模型生成加权词向量的输入以及通过优化过循环神经网络RNN后的句子解码器来对全连接层图像特征的优化,解决了现有技术仅使用过于简单的模型结构,大大浪费图像描述结果时间的问题,节省了模型的构建与训练时间,提高了图像描述的效率,而且使生成的图像描述更加真实自然。
附图说明
图1为本发明的结构示意图;
图2为本发明中Bi-LSTM隐藏结构原理示意图;
图3为本发明中训练过模型的具体实验效果图。
具体实施方式
下面结合附图将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法,具体步骤如下:
步骤1、提前准备好开源的图像描述数据集MSCOCO 2014,数据集里面有描述的标注,将数据集切分为113,287张训练集图片、5,000张测试集图片以及5,000张验证集图片。
步骤2、将训练集中标注的图像描述单词进行识别,按照单词出现的频率降序排列,将单词的映射以一维数组的形式存储在计算机中,获取词向量形成与图像描述相关的词汇数组。
步骤3、构建并训练卷积神经网络CNN的编码器模型:构建一个由卷积层、平均池化层、全连接层和softmax层组成的编码器模型,并且设置每层的参数,通道数为3通道,维度为1024;其中卷积层输出feature map表示为:
N=(W-F+2P)/S+1
其中,N为输出图片的大小,W为输入图片的大小,F为卷积核的大小,S为步长。
平均池化层需要用到AdaptiveAvgPool2d()函数将图像进行平均池化,softmax层中ei表示e中的第i个元素,这个元素经过这层后的值为:
其中Si表示第i个元素的归一化,j表示输出节点的个数。
然后不断训练这个模型,通过微调函数对各个参数进行微调,得到训练好的编码器模型。
步骤4、将训练集中的图片输入到训练以及调参完成的卷积神经网络CNN编码器模型中,并且同时输入到经过ImageNet数据集训练过的Resnet101网络上,将全连接层的特征作为编码器的图像特征输出,并且存储在编码器中。
其中,xi为第i个全连接层的输入,Ai为第i层输出,Wi1为第i层权重,bi为第i层为偏置,有如下全连接层的计算:
Ai=Wi1*x1+...+Wi1*xi+bi
步骤5、构建循环神经网络RNN的句子解码器模型:
构建一个由输入层、输出层、隐藏层以及循环层组成的句子编码器模型,并且设置每层的参数,之后用微调函数调整参数。对于任意一个序列时刻t,隐藏层中状态h(t)由t时刻的全连接层的输入x(t)和前一个时刻t-1的隐藏层状态h(t-1)得到:
h(t)=σ(z(t))=σ(Ux(t)+Wh(t)+b)
其中,σ为RNN的激活函数,一般都为tanh,U和W都为x(t)和h(t-1)的权重系数,b为可学习的偏置项。
当序列时刻t时,模型的输出层O(t)的表达式比较简单:
O(t)=Vh(t)+C
其中h(t)为隐藏层中状态,V都为h(t)的权重系数。
最终在序列时刻t时,得到的预测输出层为:
其中σ表示激活函数Sigmoid,O(t)表示之前的模型输出层。
步骤6、构建带有Bi-LSTM的注意力机制模型:
Ct-1
将一个注意力机制网络和双向长短期神经网络Bi-LSTM组成新的Bi-LSTM注意力模型,这个模型输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达,Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息,这种神经网络结构模型对文本特征提取效率和性能要优于单个LSTM结构模型,这个注意力模型是由2048个神经元构成的。
步骤7、根据图2,其中f(t)、i(t)、o(t)分别表示t时刻遗忘门、输入门、输出门的值,a(t)表示t时刻对ht-1和xt的初步特征提取,之后训练Bi-LSTM注意力模型:
具体的计算过程:
f(t)=σ(Wfht-1+Ufxt+bf)
i(t)=a(Wiht-1+Uixt+bi)
a(t)=tanh(Waht-1+Uaxt+ba)
o(t)=σ(Woht-1+Uoxt+bo)
其中,xt表示t时刻的输入,ht-1表示t–1时刻的隐层状态值;
Wf、Wi、Wa、Wo分别表示遗忘门、输入门、特征提取和输出门过程中ht-1的权重系数;
Uf、Ui、Ua、Uo分别表示遗忘门、输入门、特征提取和输出门过程中xt-1的权重系数;
bf、bi、ba、bo分别表示遗忘门、输入门、特征提取和输出门过程中xt-1的权重系数;
步骤7.1、在t0-tn不同时刻中,将训练集中每个图像描述的单词输入模型,从t0时刻开始,训练新的Bi-LSTM神经元,来达到训练注意力模型的目的。
步骤7.2、参照步骤4,将其中经过ImageNet数据集训练过的Resnet101网络最后一层全连接层进行平均池化,将其平均池化后的特征作为特征向量。
步骤7.3、将特征向量和当前tn时刻图像描述的词向量相加,输入到Bi-LSTM注意力模型中前向长短期记忆网络LSTM中,然后网络前向传导输出隐藏态。遗忘门和输入门计算的结果作用于,构成t时刻的细胞状态,用公式表示为:
c(t)=c(t-1)⊙f(t)+i(t)⊙a(t)
其中,⊙为点乘积。最终,t时刻的隐藏层状态h(t)由输出门o(t)和当前时刻的细胞状态c(t)求出:
h(t)=o(t)⊙tanh(c(t))
步骤7.4、读取步骤2中的词向量数组,将词向量数组输入到Bi-LSTM注意力模型的注意力网络中,注意力网络前向传导出加权的词向量数组。
步骤7.5、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,输出tn+1时刻的单词向量概率。
步骤7.6、判断tn+1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn+1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.7。
步骤7.7、根据步骤7.3、步骤7.4,利用Bi-LSTM网络的双向性特点,首先将相加的词向量相加,输入模型中的后向长短期记忆网络LSTM中,网络后向传导输出隐藏态。将词向量数组输入模型的注意力网络中,注意力网络后向传导出加权的词向量数组。
步骤7.8、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,经过激活函数Sigmoid,输出tn-1时刻的单词向量概率。
其中tanh表示正切双曲函数,σ表示激活函数Sigmoid,如下公式:
步骤7.9、判断tn-1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn-1时刻单词向量和单词向量概率之间的损失,计算N个样本的总的损失函数,只要将N个Loss叠加起来就可以了,如下表达式:
其中y(i)为当前时刻的真实输出,而为当前时刻的预测输出。
然后,继续执行步骤7.2;否则,执行步骤7.10。
步骤7.10、将t0-tn+1时间内的损失相加求和得到总损失和,并使用BP反向传播计算梯度和优化器Adam调整模型中的所有参数,减小总损失的值,优化模型的效果,当总损失趋于平稳时停止训练模型,得到训练完成的Bi-LSTM注意力模型。
步骤8、进行编码器-解码器及Bi-LSTM模型效果的测试,采用三通道的编码器提取输出图像特征,然后将提取的图像特征作为输入,输入训练过的Bi-LSTM注意力模型中,与词向量数组加权点乘,最后作为输入,输入训练优化过的句子编码器中,得到最后的图像描述,可以通过使用BLUE-4,METEOR和CIDER作为图像描述的评价指标。
为比较本发明方法和其他方法生成的图像描述的效率,分别对MSCOCO测试集数据集上生成方法进行评价,评价的指标为BLUE-4,METEOR和CIDER。现将指标的结果绘制成表格,如下表1,其中前两个为现有的自评价序列模型和自适应注意力模型方法的评价结果,最后,是本发明方法的评价结果。
表1.本发明方法与其他方法的评价分析表
从表1中可以发现,本发明的Bi-LSTM模型网络与自评价序列模型和自适应注意力模型方法相比,在各个评价结果上都取得较高的分数,说明本发明方法生成图像描述的效率和准确率都较高。
根据图3可以看出,本发明训练过模型的具体实验效果比较准确,十分高效地描述了图像内容。
综上所述,本发明采用一种新的Bi-LSTM模型,该模型结合前向和后向LSTM的生成信息,调整图像权重的分配,提高了图像描述结果的准确性;本发明将解码器中的结构进行优化,使图像描述更加真实自然地贴合人们的语言,并且通过提高循环神经网络RNN解码的效率,节省图像描述生成的时间成本。
本发明中披露的说明和实践,对于本技术领域的普通技术人员来说,都是易于思考和理解的,且在不脱离本发明原理的前提下,还可以做出若干改进和润饰。因此,在不偏离本发明精神的基础上所做的修改或改进,也应视为本发明的保护范围。
Claims (1)
1.一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法,其特征在于,具体步骤如下:
步骤1、提前准备好图像描述数据集,数据集里面有描述的标注,将数据集划分为训练集、测试集以及验证集;
步骤2、将训练集中标注的图像描述单词,按照单词出现的频率降序排列,将单词的映射以一维数组的形式存储在计算机中,形成与图像描述相关的词汇数组;
步骤3、构建并训练卷积神经网络CNN的编码器模型:构建一个由卷积层、平均池化层、全连接层和softmax层组成的编码器模型,并且设置每层的参数;然后不断训练这个模型,通过微调函数对各个参数进行微调,得到训练好的编码器模型;
步骤4、将训练集中的图片输入到训练以及调参完成的卷积神经网络CNN编码器模型中,并且同时输入到经过ImageNet数据集训练过的Resnet101网络上,将全连接层的特征作为编码器的图像特征输出,并且存储在编码器中;
步骤5、构建循环神经网络RNN的句子解码器模型:构建一个由输入层、输出层、隐藏层以及循环层组成的句子解码器模型,并且设置每层的参数,之后用微调函数调整参数;
步骤6、构建带有Bi-LSTM的注意力机制模型:将一个注意力机制网络和双向长短期神经网络Bi-LSTM组成新的Bi-LSTM注意力模型,该Bi-LSTM注意力模型是由两个相互独立的正向LSTM和反向LSTM组成的,该Bi-LSTM注意力模型是由2048个神经元构成的;
步骤7、训练Bi-LSTM注意力模型;
步骤8、进行编码器-解码器及Bi-LSTM模型效果的测试,采用三通道的编码器提取输出图像特征,然后将提取的图像特征作为输入,输入到训练过的Bi-LSTM注意力模型中,与词向量数组加权点乘,最后作为输入,输入到训练优化过的句子解码器中,得到最后的图像描述,通过使用BLUE-4、METEOR和CIDER作为图像描述的评价指标;
在步骤7中,具体包括:
步骤7.1、在t0-tn不同时刻中,将训练集中每个图像描述的单词输入模型,从t0时刻开始,训练新的Bi-LSTM注意力模型;
步骤7.2、参照步骤4,将其中经过ImageNet数据集训练过的Resnet101网络最后一层全连接层进行平均池化,将其平均池化后的特征作为特征向量;
步骤7.3、将特征向量和当前tn时刻图像描述的词向量相加,输入到Bi-LSTM注意力模型中前向长短期记忆网络LSTM中,然后网络前向传导输出隐藏态;
步骤7.4、读取步骤2中的词向量数组,将词向量数组输入到Bi-LSTM注意力模型的注意力网络中,注意力网络前向传导出加权的词向量数组;
步骤7.5、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,输出tn+1时刻的单词向量概率;
步骤7.6、判断tn+1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn+1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.7;
步骤7.7、根据步骤7.3、步骤7.4,利用Bi-LSTM网络的双向性特点,首先将相加的词向量相加,输入模型中的后向长短期记忆网络LSTM中,网络后向传导输出隐藏态;将词向量数组输入模型的注意力网络中,注意力网络后向传导出加权的词向量数组;
步骤7.8、将当前tn时刻Bi-LSTM注意力模型的隐藏态和注意力网络的加权词向量相加,将其输入到全连接层,经过,输出tn-1时刻的单词向量概率;
步骤7.9、判断tn-1时刻图像描述中的单词是否存在,若存在,则用交叉熵函数计算出图像描述的tn-1时刻单词向量和单词向量概率之间的损失,然后,继续执行步骤7.2;否则,执行步骤7.10;
步骤7.10、将t0-tn+1时间内的损失相加求和得到总损失和,并使用BP反向传播计算梯度和优化器Adam调整模型中的所有参数,减小总损失的值,优化模型的效果,当总损失趋于平稳时停止训练模型,得到训练完成的Bi-LSTM注意力模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522422.4A CN116543289B (zh) | 2023-05-10 | 2023-05-10 | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310522422.4A CN116543289B (zh) | 2023-05-10 | 2023-05-10 | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116543289A CN116543289A (zh) | 2023-08-04 |
CN116543289B true CN116543289B (zh) | 2023-11-21 |
Family
ID=87444846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310522422.4A Active CN116543289B (zh) | 2023-05-10 | 2023-05-10 | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912629B (zh) * | 2023-09-04 | 2023-12-29 | 小舟科技有限公司 | 基于多任务学习的通用图像文字描述生成方法及相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN109919221A (zh) * | 2019-03-04 | 2019-06-21 | 山西大学 | 基于双向双注意力机制图像描述方法 |
CN110288029A (zh) * | 2019-06-27 | 2019-09-27 | 西安电子科技大学 | 基于Tri-LSTMs模型的图像描述方法 |
CN110418210A (zh) * | 2019-07-12 | 2019-11-05 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN115311465A (zh) * | 2022-08-10 | 2022-11-08 | 北京印刷学院 | 一种基于双注意力模型的图像描述方法 |
CN115761739A (zh) * | 2022-11-21 | 2023-03-07 | 福建工程学院 | 一种基于图像的对联生成模型及其对联生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190287012A1 (en) * | 2018-03-16 | 2019-09-19 | Microsoft Technology Licensing, Llc | Encoder-decoder network with intercommunicating encoder agents |
US11423304B2 (en) * | 2020-01-15 | 2022-08-23 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for semantic analysis of multimedia data using attention-based fusion network |
-
2023
- 2023-05-10 CN CN202310522422.4A patent/CN116543289B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN109902750A (zh) * | 2019-03-04 | 2019-06-18 | 山西大学 | 基于双向单注意力机制图像描述方法 |
CN109919221A (zh) * | 2019-03-04 | 2019-06-21 | 山西大学 | 基于双向双注意力机制图像描述方法 |
CN111160467A (zh) * | 2019-05-31 | 2020-05-15 | 北京理工大学 | 一种基于条件随机场和内部语义注意力的图像描述方法 |
CN110288029A (zh) * | 2019-06-27 | 2019-09-27 | 西安电子科技大学 | 基于Tri-LSTMs模型的图像描述方法 |
CN110418210A (zh) * | 2019-07-12 | 2019-11-05 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN115311465A (zh) * | 2022-08-10 | 2022-11-08 | 北京印刷学院 | 一种基于双注意力模型的图像描述方法 |
CN115761739A (zh) * | 2022-11-21 | 2023-03-07 | 福建工程学院 | 一种基于图像的对联生成模型及其对联生成方法 |
Non-Patent Citations (4)
Title |
---|
Detection of Multiple Steganography Methods in Compressed Speech Based on Code Element Embedding, Bi-LSTM and CNN With Attention Mechanisms;Songbin Li;《IEEE Access》;全文 * |
基于双向注意力机制图像描述方法研究;陶云松;《测试技术学报》;全文 * |
基于双向注意力机制的图像描述生成;张家硕;洪宇;李志峰;姚建民;朱巧明;;中文信息学报(第09期);全文 * |
基于双注意力机制的图像描述生成方法研究;李灵君;《中国优秀硕士学位论文全文数据库(信息科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116543289A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
US11436414B2 (en) | Device and text representation method applied to sentence embedding | |
CN109992773B (zh) | 基于多任务学习的词向量训练方法、系统、设备及介质 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN106980683A (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN106650813A (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN112328767A (zh) | 基于bert模型和比较聚合框架的问答匹配方法 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN110222173B (zh) | 基于神经网络的短文本情感分类方法及装置 | |
CN111222338A (zh) | 基于预训练模型和自注意力机制的生物医学关系抽取方法 | |
CN117475038B (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN114490065A (zh) | 一种负载预测方法、装置及设备 | |
WO2022251719A1 (en) | Granular neural network architecture search over low-level primitives | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN117892175A (zh) | 一种snn多模态目标识别方法、系统、设备及介质 | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |