CN113627424B - 一种协同门控循环融合lstm图像标注方法 - Google Patents
一种协同门控循环融合lstm图像标注方法 Download PDFInfo
- Publication number
- CN113627424B CN113627424B CN202110794816.6A CN202110794816A CN113627424B CN 113627424 B CN113627424 B CN 113627424B CN 202110794816 A CN202110794816 A CN 202110794816A CN 113627424 B CN113627424 B CN 113627424B
- Authority
- CN
- China
- Prior art keywords
- rlstm
- lstm
- attention
- fusion
- sga
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 67
- 238000002372 labelling Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 68
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 abstract description 10
- 230000001351 cycling effect Effects 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及协同门控循环融合领域,具体涉及一种协同门控循环融合LSTM图像标注方法,通过协同门控注意方法执行图像‑文本匹配的多模态任务;由生成注意权值的注意LSTM循环融合组成注意rLSTM;由生成单词的语言LSTM循环融合组成语言rLSTM;把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM‑SGA;使用数据集对方法进行评论,从而通过SGA方法不仅注意图像的显著区域特征,还可以注意图像的空间特征信息,rLSTM方法,它可以代替传统单一的LSTM单元生成机制,每一时刻通过循环多个相同的LSTM对同一输入进行融合建模,进而对同一语义获取不同的上下文信息,以此提高模型序列学习的能力,生成更加准确的描述语句,整合上述两种创新方法在MSCOCO数据集上进行了评估。
Description
技术领域
本发明涉及协同门控循环融合技术领域,尤其涉及一种协同门控循环融合LSTM图像标注方法。
背景技术
近年来,深度学习方法有着非常大的进步,驱动着图像描述生成朝着深度学习的方法快速发展,并取得了突破性的结果。在机器翻译以及序列到序列任务启发下,基于编码器译码器框架的图像描述生成方法得到了广泛应用。人们为了更好地探索视觉区域之间关系,挖掘图像中可用的语义信息,最近出现一些建立场景图的方法,通过构造视觉关系图来增强图像表示和描述生成。
目前图像描述生成的大量工作在译码端,探索RNN如何更加有效的译码图像特征,使其能够更加快速的收敛模型,更加准确的预测目标单词概率。而LSTM作为一种时间循环神经网络,在图像描述模型的译码器中被广泛使用。它在处理序列数据过程中起着关键的作用,通过引入输入门、遗忘门与输出门,LSTM能够有效解决RNN中存在的梯度消失问题。但是,LSTM序列生成的链状结构相对比较单一,每一时刻只有一个LSTM单元的状态输出。对比传统的LSTM方法提出了一种并行LSTM机制,即pLSTM模型,在每一层并行多个LSTM对同一输入获取不同的上下文信息。然而,每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模,但是LSTM单元之间是缺少序列关联性的。
发明内容
本发明的目的在于提供一种协同门控循环融合LSTM图像标注方法,旨在解决现有技术中的对比传统的LSTM方法提出了一种并行LSTM机制,即pLSTM模型,在每一层并行多个LSTM对同一输入获取不同的上下文信息。然而,每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模,但是LSTM单元之间是缺少序列关联性的的技术问题。
为实现上述目的,本发明采用的一种协同门控循环融合LSTM图像标注方法,包括如下步骤,
通过协同门控注意方法执行图像-文本匹配的多模态任务;
由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为rLSTMa;
由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl;
把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
使用数据集对方法进行评论。
其中,在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中,所述方法还包括,
使用卷积神经网络模型提取空间语义信息;
使用Faster-RCNN提取显著区域信息;
将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本。
其中,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
在第一层上,rLSTMa网络的隐藏状态计算公式如下:
其中,是rLSTMa网络的输入矢量;/>是rLSTMa网络前一时刻的隐藏状态;是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数。
其中,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉矢量 组成,其中Iv为Faster-RCNN提取的池化特征,/>是rLSTMl前一个时间步的上下文矢量:
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表矢量拼接操作。
其中,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
在第二层上,rLSTMl的隐藏状态计算公式如下:
其中,是rLSTMl网络的输入矢量,/>是rLSTMl网络前一时刻的隐藏状态,/>是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数。
其中,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
第二层rLSTMl的输入矢量,记为定义如下:
其中,st表示协同门控注意(SGA)的输出,表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表矢量拼接操作。
其中,在“把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA”中,所述方法还包括,
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,代表rLSTMl在t时刻的隐藏状态。
本发明的一种协同门控循环融合LSTM图像标注方法,通过协同门控注意方法执行图像-文本匹配的多模态任务;由生成注意权值的注意LSTM循环融合组成注意rLSTM;由生成单词的语言LSTM循环融合组成语言rLSTM;把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;使用数据集对方法进行评论,从而通过SGA方法不仅注意图像的显著区域特征,还可以注意图像的空间特征信息,同时利用两种特征源的全局信息指导两种注意特征之间的相互作用,从而更好的融合到译码器中,指导图像语句的生成,rLSTM方法,它可以代替传统单一的LSTM单元生成机制,每一时刻通过循环多个相同的LSTM对同一输入进行融合建模,进而对同一语义获取不同的上下文信息,以此提高模型序列学习的能力,生成更加准确的描述语句,整合上述两种创新方法在MSCOCO数据集上进行了评估。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的rLSTM-SGA的整体架构图。
图2是本发明的SGA的结构图。
图3是本发明的循环融合LSTM的结构图。
图4是本发明的LSTM输出隐藏状态的不同方案示意图。
图5是本发明的协同门控循环融合LSTM图像标注方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图5,本发明提供了一种协同门控循环融合LSTM图像标注方法,包括如下步骤,
S101:通过协同门控注意方法执行图像-文本匹配的多模态任务;
S1011:使用卷积神经网络模型提取空间语义信息;
S1012:使用Faster-RCNN提取显著区域信息;
S1013:将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本;
S102:由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为rLSTMa;
在第一层上,rLSTMa网络的隐藏状态计算公式如下:
其中,是rLSTMa网络的输入矢量;/>是rLSTMa网络前一时刻的隐藏状态;/>是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数;
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉矢量 组成,其中Iv为Faster-RCNN提取的池化特征,/>是rLSTMl前一个时间步的上下文矢量:
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表矢量拼接操作。
S103:由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl;
在第二层上,rLSTMl的隐藏状态计算公式如下:
其中,是rLSTMl网络的输入矢量,/>是rLSTMl网络前一时刻的隐藏状态,是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数;
第二层rLSTMl的输入矢量,记为定义如下:
其中,st表示协同门控注意(SGA)的输出,表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表矢量拼接操作。
S104:把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
S105:使用数据集对方法进行评论;
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,代表rLSTMl在t时刻的隐藏状态。
在本实施方式中,
图1中.rLSTM-SGA的整体架构。模型由两个部分组成:协同门控注意(SGA),循环融合LSTM(rLSTM)。
我们首先在第3.1节中介绍我们的协同门控注意(SGA)方法,结构如图2所示。然后在第3.2节中介绍了我们的循环融合LSTM(rLSTM)方法,结构如图3所示。最后,我们在3.3节介绍我们的训练方法。
3.1协同门控注意
我们的协同门控注意(SGA)方法执行图像-文本匹配的多模态任务,包括使用CNN提取的空间语义信息,以及Faster-RCNN提取的显著区域信息。它们融合在一起使得LSTM在每个时刻能够同时利用图像不同的区域信息和空间信息生成当前的描述文本。
E={e1,e2,…,eM},ei∈Rd
V={v1,v2,…,vN},vi∈Rd
其中,E∈R(w×h)×d是卷积神经网络模型最后一层卷积层输出的特征图,h是该特征图的高度,w是该特征图的宽度,每个特征矢量ei的维度为d。M=w×h,代表了由相同大小的图像区域组成的网格数量。V∈Rk×d是Faster-R卷积神经网络模型的输出矢量,由N个d维的图像区域特征vi组成。
对于E的注意力公式解释如下:
αet=softmax(Zet)
其中We和Weh是学习空间注意的参数。αet={αet,1,αet,2,…,αet,M}是E的相关权值,其和为1。cet是E的加权和,表示图像网格区域的最相关位置。tanh(·)代表正切启动函数,softmax(·)代表归一化函数,E代表CNN网络输出的特征图,Zet代表E的注意力。
对于V的注意力公式解释如下:
αvt=softmax(Zvt)
其中Wv和Wvh是学习区域注意的参数。αvt={αvt,1,αvt,2,…,αvt,N}是V的相关权值,其和为1。cvt是V的加权和,表示图像显著区域的最相关位置。tanh(·)代表正切启动函数,softmax(·)代表归一化函数,E代表CNN网络输出的特征图,Zvt代表V的注意力。
为了解决两种特征融合过程中产生的语义噪声问题,我们把卷积神经网络模型提取的池化特征Ie和Faster-RCNN提取的池化特征Iv进行拼接并送入到门控制单元中:
gt=σ(Wg·[Ie,Iv])
其中,Ie∈Rd×1代表特征图矢量E的均值;代表显著特征矢量V的均值;gt∈Rd×1代表门控单元的输出;符号“[·]”代表矢量拼接操作;Wg∈Rd×2d代表门控单元学习参数,σ(·)表示Sigmoid函数。
我们受ETA-Transformer模型[Li Guang,et al.,2019]的启发,采用了更好的双边门控机制。通过引导显著区域注意信息和空间语义信息,实现最终有效的注意融合:
st=gt⊙cvt+(1-gt)⊙cet
其中,⊙表示hadamard乘积,表示协同门控注意(SGA)的输出。cvt表示V的加权和;cet表示E的加权和;gt表示门控单元的输出。
图3.循环融合LSTM的结构。第一层为注意循环融合LSTM(即LSTMa),由P个相同参数的注意LSTM组成。第二层为语言循环融合LSTM(即LSTMl),由P个相同参数的语言LSTM组成。每一层都有相同的输入,且都有P个不同的输出,最后用平均池化层来合并这些输出。
3.2循环融合LSTM
为了更加有效的提高LSTM序列生成性能,我们引入了循环融合LSTM(rLSTM)。如图所示,我们展示了rLSTM的结构。我们可以发现,该结构是基于双层rLSTM的编码器-译码器框架。第一层是注意rLSTM,表示为rLSTMa,由生成注意权值的注意LSTM(LSTMa)循环融合组成;第二层是语言rLSTM,可表示为rLSTMl,由生成单词的语言LSTM(LSTMl)循环融合组成。它们在t时刻的隐藏状态分别用和/>表示。
我们提出的循环融合LSTM相比于pLSTM模型可以更好的融合输入信息。pLSTM模型在同一层并行的多个LSTM具有相同的输入,且它们具有不同的参数,可以学习输入信息的不同部分,起到同层互补的效果。而我们的rLSTM通过在同一时刻循环多个LSTM,侧重于对同一输入进行融合建模,建立输入信息之间的关系。同一层的循环次数是P,这意味着在每一层有P个不同的融合输出。
在第一层上,rLSTMa网络的隐藏状态计算公式如下:
其中,是rLSTMa网络的输入矢量,/>是rLSTMa网络前一时刻的隐藏状态。是t时刻rLSTMa的第i次输出。LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数。
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉矢量 组成,其中Iv为Faster-RCNN提取的池化特征,/>是rLSTMl前一个时间步的上下文矢量(的开始阶段被初始化为0):
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词。符号“[·]”代表矢量拼接操作。
在第二层上,rLSTMl的隐藏状态计算公式如下:
其中,是rLSTMl网络的输入矢量,/>是rLSTMl网络前一时刻的隐藏状态。/>是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数。
第二层rLSTMl的输入矢量,记为定义如下:
其中,st表示协同门控注意(SGA)的输出,表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表矢量拼接操作。
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,代表rLSTMl在t时刻的隐藏状态。
3.3训练与目标
在给定目标的真值序列和带有参数θ的描述模型的情况下,通过交叉熵损失LXE对rLSTM-SGA进行训练:
LXE(θ)表示交叉熵损失函数。
表示参数为θ的联合概率分布。
表示t时刻的预测输出。
表示t时刻的输入。
自强化学习应用于描述模型以来,大量研究都使用该方法来优化训练。为了进行公平的比较,我们从交叉熵训练的模型初始化,寻求最小的负期望分数:
LR(·)表示强化学习的奖赏函数。
θ表示模型的优化参数。
pθ表示参数θ的分布。
E表示y1:T服从pθ分布时r(y1:T)的数学期望。
其中r为CIDEr-D评分函数。我们直接用自临界序列训练(SCST)优化不可微指标,这种损失的梯度可以近似:
其中为采样标题,上标“s”代表句子的意思,/>定义贪婪译码当前模型得到的基线得分。
表示求导操作。
LR(·)表示强化学习的奖赏函数。
pθ表示参数θ的分布。
符号“≈”表示使用蒙特卡罗方法近似采样。
实验细节
我们使用预先训练的ResNet-101模型提取图像的网格空间特征和使用Fatser-R卷积神经网络模型提取图像的Up-Down特征,整个Image Captioning框架主要是用PyTorch实现的。在实验的参数方面,编码特征原矢量的维数为2048,我们将其投影到一个维数为1024的新空间,协同门控注意的池化维度和注意层维度为1024。译码端的两层循环融合LSTM和单词嵌入维度为1024。在训练模型方面,我们遵循AoA模型中的训练策略,我们用交叉熵损失训练40个epochs,批次大小为10,使用ADAM[38]优化器,学习速率由2e-4初始化,每3个epoch退火0.8,并且每5个epoch增加0.05的计划抽样概率。我们使用自批评训练策略(self-critical training strategy),通过CIDEr-D奖赏继续优化训练20个轮(epochs),初始学习率为2e-5,当验证分割上的分数在某些训练步骤中没有改善时,我们将其退火0.5。在推理测试方面,我们采用波束搜索策略,并将波束大小设为2。同时使用传统的图像描述生成评价指标对模型进行评价。
描述生成模型性能
如表1所示,我们报告了我们提出的模型在离线COCO Karpathy测试拆分上的性能表现,为了与其他模型公平地进行比较,我们的模型都是基于编译码器框架的生成方法。参与性能比较的模型包括:LSTM-A,将高级属性特征运用到图像描述任务中;VS-LSTM,使用语义属性特征替换低级视觉特征;RFNet,利用递归神经网络融合多个CNN网络的编码特征;Up-Down,提出使用Faster R-CNN作为自下而上机制,提取图像的显著区域特征;Stack-Cap,使用LSTM组合注意力堆栈起来,产生由粗到细的描述;DAIC,提出了将句子级注意模型与词语级注意模型相结合的双重注意模型;SEM,提出了语义增强网络和极难否定挖掘方法;VRES+AFS,使用先前的视觉上下文来考虑当前的序列推理。我们可以看到,与其他模型相比,我们的模型在所有指标中取得了最高的分数。
表1本文方法rLSTM-SGA在COCOKarpathy数据集上的性能
我们从在线COCO测试服务器上对我们的模型进行了评估。如表2所示,我们总共比较了7个模型,并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试性能。我们可以看出,rLSTM-SGA在大多数指标上的得分优于其他模型。
表2本文方法rLSTM-SGA在COCO测试服务器的性能
消融实验
消融实验设置
为了量化我们提出的rLSTM-SGA在序列生成阶段和注意阶段对图像描述模型的影响,我们首先定义多个LSTM的融合方案,如图4所示。图中(a)表示一个普通的LSTMl输出图中(b)表示由三个并行的LSTMl池化合并输出/>图中(c)表示由三个不同的LSTMl循环融合输出/>图中(d)表示由三个相同的LSTMl循环融合输出/>图中(e)表示由三个相同的LSTMa循环融合输出/>
消融实验结果
消融实验的结果如下表所示。首先我们设置了两个基础模型,它们没有使用SGA和rLSTM方法,只是在注意阶段分别利用了ResNet提取的网格空间特征和Faster-RCNN提取的显著区域特征。然后分别采用不同的LSTM融合方案,以及是否使用SGA方法,得到表中的实验结果。消融实验结果表明,SGA方法是有效的,在注意力层和语言层同时采用图4中(d)和图4中(e)的LSTM融合结构,获得模型最优性能。
SGA的效果分析
我们设置了不同的方案来评估协同门控注意方法在注意阶段的效果:首先为了探讨在注意阶段同时关注两个显著区域特征对模型的影响,我们设置了"Region+Region+A",其中"A"表示软注意力过程;其次验证同时关注网格空间特征和显著区域特征对模型的影响,我们设置了"Grid×Region+A"和"Grid+Region+A",其中×表示通过矩阵乘法建立特征之间关系,+表示通过矩阵加法建立特征之间关系。最后验证在关注网格空间特征和显著区域特征的同时,利用两者特征的池化信息建立门控机制对模型的影响,我们设置了"Grid+Region+GA",其中"GA"表示加入门控机制。从表3中我们可以观察到,同时注意两个显著区域特征相比单个注意可以增加模型的性能,然而协同注意网格空间特征和显著区域特征模型提高效果更加明显,证明了网格空间信息可以更好的作为显著区域信息的补充。然后,我们可以进一步观察到,通过门控机制作用在两个不同特征之间可以有效的去除语义噪音,更好的指导两者之间信息的相互作用。
rLSTM的效果分析
如图4所示,我们设计了不同的LSTM结构,比较了使用不同的变体来建模隐藏状态矢量。从表3中,我们观察到图4(b)所示的同层并行LSTM融合方案pLSTMl,对提高图像标注模型性能不显著。相比较于pLSTMl,图4(c)所示的,在同层循环融合三个不同的LSTM可以带来稍好的性能,其中C指标相对提高了0.8。我们还发现,在同层的LSTM使用相同的参数可以对性能带来进一步的提高。同时,我们也评估了在译码端的第一层使用rLSTM,发现性优于普通LSTM,但模型表现不如在第二层使用效果好。最终,我们在原始的双层LSTM上都使用了rLSTM机制,发现模型优于其他结构达到了最高性能。
我们结合了协同门控注意和循环融合LSTM方法,组成"rLSTM-SGA"模型,该模型在译码端使用双层rLSTM,即rLSTMl+a结构,并设置了LSTM循环次数变量,来验证单时间步LSTM不同的循环次数对模型性能的影响。一般来说,在单时间步内LSTM循环更多次数能得到相应更多的不同输出,这些输出矢量融合后可以提高模型性能。从表中我们可以观察到,LSTM循环融合3次可以达到最好的性能,这从根本上验证了循环融合LSTM对同一时刻的输入进行循环建模的有效性。
表3SGA和RF-LSTM对基础模型的影响分析
在本文中,我们提出了一种协同门控注意模型,该模型可以同时注意显著区域特征和网格空间特征,以此在注意阶段可以更好的利用图像信息。我们还提出利用两种特征源的全局信息建立门控机制,能有效地指导两种源信息之间的相互作用,解决融合过程中产生的语义噪声问题。以此,我们将普通LSTM替换为rLSTM,新的结构可以在每一时刻循环LSTM来融合输入信息,使得模型能够对同一时刻的输入进行循环建模,产生比普通的LSTM更好的性能。大量的实验结果证明了我们方法的优越性,并在基准数据集上获得了与最先进的方法竞争的性能。在未来的工作中,我们计划使用本文的方法应用在遥感图像描述生成任务中,并研究在注意阶段添加更多的相关信息,以此生成可读性更好的描述语句。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (2)
1.一种协同门控循环融合LSTM图像标注方法,其特征在于,包括如下步骤,
通过协同门控注意方法执行图像-文本匹配的多模态任务;
由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为rLSTMa;
由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl;循环融合LSTM的第一层是rLSTMa,第二层是rLSTMl,表示为rLSTM;
把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
使用数据集对方法进行评论;
在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
在第一层上,rLSTMa网络的隐藏状态计算公式如下:
其中,是rLSTMa网络的输入矢量;/>是rLSTMa网络前一时刻的隐藏状态;/>是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数;
在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉矢量组成,其中Iv为Faster-RCNN提取的池化特征,/>是rLSTMl前一个时间步的上下文矢量:
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表矢量拼接操作;
在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
在第二层上,rLSTMl的隐藏状态计算公式如下:
其中,是rLSTMl网络的输入矢量,/>是rLSTMl网络前一时刻的隐藏状态,/>是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数;
在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
第二层rLSTMl的输入矢量,记为定义如下:
其中,st表示协同门控注意SGA的输出,表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表矢量拼接操作;
在“把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA”中,所述方法还包括,
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,代表rLSTMl在t时刻的隐藏状态。
2.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中,所述方法还包括,
使用卷积神经网络模型提取空间语义信息;
使用Faster-RCNN提取显著区域信息;
将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110794816.6A CN113627424B (zh) | 2021-07-14 | 2021-07-14 | 一种协同门控循环融合lstm图像标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110794816.6A CN113627424B (zh) | 2021-07-14 | 2021-07-14 | 一种协同门控循环融合lstm图像标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627424A CN113627424A (zh) | 2021-11-09 |
CN113627424B true CN113627424B (zh) | 2023-09-12 |
Family
ID=78379745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110794816.6A Active CN113627424B (zh) | 2021-07-14 | 2021-07-14 | 一种协同门控循环融合lstm图像标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627424B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958706B (zh) * | 2023-08-11 | 2024-05-14 | 中国矿业大学 | 基于词性标注的图像多样化描述可控生成方法 |
CN116883181B (zh) * | 2023-09-07 | 2023-12-05 | 北京中关村科金技术有限公司 | 基于用户画像的金融服务推送方法、存储介质及服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112629542A (zh) * | 2020-12-31 | 2021-04-09 | 山东师范大学 | 基于ddpg和lstm的无地图机器人路径导航方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6791780B2 (ja) * | 2017-02-16 | 2020-11-25 | 株式会社日立製作所 | 文章作成装置 |
CN111090987B (zh) * | 2019-12-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2021
- 2021-07-14 CN CN202110794816.6A patent/CN113627424B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN111832501A (zh) * | 2020-07-20 | 2020-10-27 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
CN112052889A (zh) * | 2020-08-28 | 2020-12-08 | 西安电子科技大学 | 基于双门控递归单元解码的喉镜图像识别方法 |
CN112629542A (zh) * | 2020-12-31 | 2021-04-09 | 山东师范大学 | 基于ddpg和lstm的无地图机器人路径导航方法及系统 |
Non-Patent Citations (1)
Title |
---|
Image Captioning with Synergy-Gated Attention and Recurrent Fusion LSTM;You Yang等;《KSII Transactions on Internet & Information Systems》;第16卷(第10期);3390-3405 * |
Also Published As
Publication number | Publication date |
---|---|
CN113627424A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | All in one: Exploring unified video-language pre-training | |
Cai et al. | Learning progressive joint propagation for human motion prediction | |
Fu et al. | Violet: End-to-end video-language transformers with masked visual-token modeling | |
Ge et al. | Bridging video-text retrieval with multiple choice questions | |
Park et al. | Adversarial inference for multi-sentence video description | |
CN113627424B (zh) | 一种协同门控循环融合lstm图像标注方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN110852273A (zh) | 一种基于强化学习注意力机制的行为识别方法 | |
CN108804611A (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
Yu et al. | Learning from inside: Self-driven siamese sampling and reasoning for video question answering | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
Song et al. | Image captioning with context-aware auxiliary guidance | |
Du et al. | Full transformer network with masking future for word-level sign language recognition | |
Xiao et al. | Exploring diverse and fine-grained caption for video by incorporating convolutional architecture into LSTM-based model | |
Tian et al. | An attempt towards interpretable audio-visual video captioning | |
CN112116685A (zh) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 | |
Sun et al. | Video understanding: from video classification to captioning | |
Li et al. | Tg-vqa: Ternary game of video question answering | |
Guo et al. | Multi-turn video question generation via reinforced multi-choice attention network | |
Fan et al. | A bi-directional attention guided cross-modal network for music based dance generation | |
Du et al. | OMG: Observe multiple granularities for natural language-based vehicle retrieval | |
Jing et al. | Memory-based Augmentation Network for Video Captioning | |
CN111639594B (zh) | 图像描述模型的训练方法及装置 | |
Zhang et al. | CT-GAN: A conditional Generative Adversarial Network of transformer architecture for text-to-image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |