CN113627424A - 一种协同门控循环融合lstm图像标注方法 - Google Patents

一种协同门控循环融合lstm图像标注方法 Download PDF

Info

Publication number
CN113627424A
CN113627424A CN202110794816.6A CN202110794816A CN113627424A CN 113627424 A CN113627424 A CN 113627424A CN 202110794816 A CN202110794816 A CN 202110794816A CN 113627424 A CN113627424 A CN 113627424A
Authority
CN
China
Prior art keywords
rlstm
lstm
attention
fusion
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110794816.6A
Other languages
English (en)
Other versions
CN113627424B (zh
Inventor
杨有
陈立志
胡峻滔
余平
杨学森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Normal University
Original Assignee
Chongqing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Normal University filed Critical Chongqing Normal University
Priority to CN202110794816.6A priority Critical patent/CN113627424B/zh
Publication of CN113627424A publication Critical patent/CN113627424A/zh
Application granted granted Critical
Publication of CN113627424B publication Critical patent/CN113627424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及协同门控循环融合领域,具体涉及一种协同门控循环融合LSTM图像标注方法,通过协同门控注意方法执行图像‑文本匹配的多模态任务;由生成注意权值的注意LSTM循环融合组成注意rLSTM;由生成单词的语言LSTM循环融合组成语言rLSTM;把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM‑SGA;使用数据集对方法进行评论,从而通过SGA方法不仅注意图像的显著区域特征,还可以注意图像的空间特征信息,rLSTM方法,它可以代替传统单一的LSTM单元生成机制,每一时刻通过循环多个相同的LSTM对同一输入进行融合建模,进而对同一语义获取不同的上下文信息,以此提高模型序列学习的能力,生成更加准确的描述语句,整合上述两种创新方法在MSCOCO数据集上进行了评估。

Description

一种协同门控循环融合LSTM图像标注方法
技术领域
本发明涉及协同门控循环融合技术领域,尤其涉及一种协同门控循环融合 LSTM图像标注方法。
背景技术
近年来,深度学习方法有着非常大的进步,驱动着图像描述生成朝着深度学习的方法快速发展,并取得了突破性的结果。在机器翻译以及序列到序列任务启发下,基于编码器解码器框架的图像描述生成方法得到了广泛应用。人们为了更好地探索视觉区域之间关系,挖掘图像中可用的语义信息,最近出现一些建立场景图的方法,通过构造视觉关系图来增强图像表示和描述生成。
目前图像描述生成的大量工作在解码端,探索RNN如何更加有效的解码图像特征,使其能够更加快速的收敛模型,更加准确的预测目标单词概率。而LSTM 作为一种时间循环神经网络,在图像描述模型的解码器中被广泛使用。它在处理序列数据过程中起着关键的作用,通过引入输入门、遗忘门与输出门,LSTM 能够有效解决RNN中存在的梯度消失问题。但是,LSTM序列生成的链状结构相对比较单一,每一时刻只有一个LSTM单元的状态输出。对比传统的LSTM 方法提出了一种并行LSTM机制,即pLSTM模型,在每一层并行多个LSTM 对同一输入获取不同的上下文信息。然而,每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模,但是LSTM单元之间是缺少序列关联性的。
发明内容
本发明的目的在于提供一种协同门控循环融合LSTM图像标注方法,旨在解决现有技术中的对比传统的LSTM方法提出了一种并行LSTM机制,即 pLSTM模型,在每一层并行多个LSTM对同一输入获取不同的上下文信息。然而,每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模,但是LSTM单元之间是缺少序列关联性的的技术问题。
为实现上述目的,本发明采用的一种协同门控循环融合LSTM图像标注方法,包括如下步骤,
通过协同门控注意方法执行图像-文本匹配的多模态任务;
由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为rLSTMa
由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl
把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
使用数据集对方法进行评论。
其中,在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中,所述方法还包括,
使用卷积神经网络模型提取空间语义信息;
使用Faster-RCNN提取显著区域信息;
将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本。
其中,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
在第一层上,rLSTMa网络的隐藏状态
Figure BDA0003162273470000021
计算公式如下:
Figure BDA0003162273470000022
Figure BDA0003162273470000023
其中,
Figure BDA0003162273470000024
是rLSTMa网络的输入向量;
Figure BDA0003162273470000025
是rLSTMa网络前一时刻的隐藏状态;
Figure BDA0003162273470000026
是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数。
其中,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉向量
Figure BDA0003162273470000027
组成,其中Iv为Faster-RCNN提取的池化特征,
Figure BDA0003162273470000028
是rLSTMl前一个时间步的上下文向量:
Figure BDA0003162273470000029
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表向量拼接操作。
其中,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为 rLSTMl”中,所述方法还包括,
在第二层上,rLSTMl的隐藏状态
Figure BDA0003162273470000031
计算公式如下:
Figure BDA0003162273470000032
Figure BDA0003162273470000033
其中,
Figure BDA0003162273470000034
是rLSTMl网络的输入向量,
Figure BDA0003162273470000035
是rLSTMl网络前一时刻的隐藏状态,
Figure BDA0003162273470000036
是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数。
其中,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为 rLSTMl”中,所述方法还包括,
第二层rLSTMl的输入向量,记为
Figure BDA0003162273470000037
定义如下:
Figure BDA0003162273470000038
其中,st表示协同门控注意(SGA)的输出,
Figure BDA0003162273470000039
表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表向量拼接操作。
其中,在“把协同门控注意SGA和循环融合LSTM整合在一起,形成 rLSTM-SGA”中,所述方法还包括,
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
Figure BDA00031622734700000310
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,
Figure BDA00031622734700000311
代表rLSTMl在t时刻的隐藏状态。
本发明的一种协同门控循环融合LSTM图像标注方法,通过协同门控注意方法执行图像-文本匹配的多模态任务;由生成注意权值的注意LSTM循环融合组成注意rLSTM;由生成单词的语言LSTM循环融合组成语言rLSTM;把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;使用数据集对方法进行评论,从而通过SGA方法不仅注意图像的显著区域特征,还可以注意图像的空间特征信息,同时利用两种特征源的全局信息指导两种注意特征之间的相互作用,从而更好的融合到解码器中,指导图像语句的生成,rLSTM方法,它可以代替传统单一的LSTM单元生成机制,每一时刻通过循环多个相同的LSTM对同一输入进行融合建模,进而对同一语义获取不同的上下文信息,以此提高模型序列学习的能力,生成更加准确的描述语句,整合上述两种创新方法在MSCOCO数据集上进行了评估。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的rLSTM-SGA的整体架构图。
图2是本发明的SGA的结构图。
图3是本发明的循环融合LSTM的结构图。
图4是本发明的LSTM输出隐藏状态的不同方案示意图。
图5是本发明的协同门控循环融合LSTM图像标注方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图5,本发明提供了一种协同门控循环融合LSTM图像标注方法,包括如下步骤,
S101:通过协同门控注意方法执行图像-文本匹配的多模态任务;
S1011:使用卷积神经网络模型提取空间语义信息;
S1012:使用Faster-RCNN提取显著区域信息;
S1013:将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本;
S102:由生成注意权值的注意LSTM循环融合组成注意rLSTM,表示为 rLSTMa
在第一层上,rLSTMa网络的隐藏状态
Figure BDA0003162273470000051
计算公式如下:
Figure BDA0003162273470000052
Figure BDA0003162273470000053
其中,
Figure BDA0003162273470000054
是rLSTMa网络的输入向量;
Figure BDA0003162273470000055
是rLSTMa网络前一时刻的隐藏状态;
Figure BDA0003162273470000056
是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数;
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉向量
Figure BDA0003162273470000057
组成,其中Iv为Faster-RCNN提取的池化特征,
Figure BDA0003162273470000058
是rLSTMl前一个时间步的上下文向量:
Figure BDA0003162273470000059
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表向量拼接操作。
S103:由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl;在第二层上,rLSTMl的隐藏状态
Figure BDA00031622734700000510
计算公式如下:
Figure BDA00031622734700000511
Figure BDA00031622734700000512
其中,
Figure BDA00031622734700000513
是rLSTMl网络的输入向量,
Figure BDA00031622734700000514
是rLSTMl网络前一时刻的隐藏状态,
Figure BDA0003162273470000061
是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数;
第二层rLSTMl的输入向量,记为
Figure BDA0003162273470000062
定义如下:
Figure BDA0003162273470000063
其中,st表示协同门控注意(SGA)的输出,
Figure BDA0003162273470000064
表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表向量拼接操作。
S104:把协同门控注意SGA和循环融合LSTM整合在一起,形成 rLSTM-SGA;
S105:使用数据集对方法进行评论;
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
Figure BDA0003162273470000065
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,
Figure BDA0003162273470000066
代表rLSTMl在t时刻的隐藏状态。
在本实施方式中,
图1中.rLSTM-SGA的整体架构。模型由两个部分组成:协同门控注意 (SGA),循环融合LSTM(rLSTM)。
我们首先在第3.1节中介绍我们的协同门控注意(SGA)方法,结构如图2 所示。然后在第3.2节中介绍了我们的循环融合LSTM(rLSTM)方法,结构如图3所示。最后,我们在3.3节介绍我们的训练方法。
3.1协同门控注意
我们的协同门控注意(SGA)方法执行图像-文本匹配的多模态任务,包括使用CNN提取的空间语义信息,以及Faster-RCNN提取的显著区域信息。它们融合在一起使得LSTM在每个时刻能够同时利用图像不同的区域信息和空间信息生成当前的描述文本。
E={e1,e2,…,eM},ei∈Rd
V={v1,v2,…,vN},vi∈Rd
其中,E∈R(w×h)×d是卷积神经网络模型最后一层卷积层输出的特征图,h 是该特征图的高度,w是该特征图的宽度,每个特征向量ei的维度为d。 M=w×h,代表了由相同大小的图像区域组成的网格数量。V∈Rk×d是Faster-R卷积神经网络模型的输出向量,由N个d维的图像区域特征vi组成。
对于E的注意力公式解释如下:
Figure BDA0003162273470000071
αet=softmax(Zet)
Figure BDA0003162273470000072
其中
Figure BDA0003162273470000073
We和Weh是学习空间注意的参数。αet={αet,1et,2,…,αet,M}是E的相关权值,其和为1。cet是E的加权和,表示图像网格区域的最相关位置。tanh(·)代表正切激活函数,softmax(·)代表归一化函数,E代表CNN网络输出的特征图,Zet代表E的注意力。
对于V的注意力公式解释如下:
Figure BDA0003162273470000074
αvt=softmax(Zvt)
Figure RE-GDA0003294621610000075
其中
Figure BDA0003162273470000076
Wv和Wvh是学习区域注意的参数。αvt={αvt,1vt,2,…,αvt,N}是V的相关权值,其和为1。cvt是V的加权和,表示图像显著区域的最相关位置。tanh(·)代表正切激活函数,softmax(·)代表归一化函数,E代表CNN网络输出的特征图,Zvt代表V的注意力。
为了解决两种特征融合过程中产生的语义噪声问题,我们把卷积神经网络模型提取的池化特征Ie和Faster-RCNN提取的池化特征Iv进行拼接并送入到门控制单元中:
Figure BDA0003162273470000077
Figure BDA0003162273470000078
gt=σ(Wg·[Ie,Iv])
其中,Ie∈Rd×1代表特征图向量E的均值;
Figure BDA0003162273470000079
代表显著特征向量V的均值;gt∈Rd×1代表门控单元的输出;符号“[·]”代表向量拼接操作;Wg∈Rd×2d代表门控单元学习参数,σ(·)表示Sigmoid函数。
我们受ETA-Transformer模型[Li Guang,et al.,2019]的启发,采用了更好的双边门控机制。通过引导显著区域注意信息和空间语义信息,实现最终有效的注意融合:
st=gt⊙cvt+(1-gt)⊙cet
其中,⊙表示hadamard乘积,
Figure BDA0003162273470000081
表示协同门控注意(SGA)的输出。 cvt表示V的加权和;cet表示E的加权和;gt表示门控单元的输出。
图3.循环融合LSTM的结构。第一层为注意循环融合LSTM(即LSTMa),由P个相同参数的注意LSTM组成。第二层为语言循环融合LSTM(即LSTMl),由P个相同参数的语言LSTM组成。每一层都有相同的输入,且都有P个不同的输出,最后用平均池化层来合并这些输出。
3.2循环融合LSTM
为了更加有效的提高LSTM序列生成性能,我们引入了循环融合LSTM (rLSTM)。如图所示,我们展示了rLSTM的结构。我们可以发现,该结构是基于双层rLSTM的编码器-解码器框架。第一层是注意rLSTM,表示为rLSTMa,由生成注意权值的注意LSTM(LSTMa)循环融合组成;第二层是语言rLSTM,可表示为rLSTMl,由生成单词的语言LSTM(LSTMl)循环融合组成。它们在t 时刻的隐藏状态分别用
Figure BDA0003162273470000082
Figure BDA0003162273470000083
表示。
我们提出的循环融合LSTM相比于pLSTM模型可以更好的融合输入信息。 pLSTM模型在同一层并行的多个LSTM具有相同的输入,且它们具有不同的参数,可以学习输入信息的不同部分,起到同层互补的效果。而我们的rLSTM通过在同一时刻循环多个LSTM,侧重于对同一输入进行融合建模,建立输入信息之间的关系。同一层的循环次数是P,这意味着在每一层有P个不同的融合输出。
在第一层上,rLSTMa网络的隐藏状态
Figure BDA0003162273470000084
计算公式如下:
Figure BDA0003162273470000085
Figure BDA0003162273470000086
其中,
Figure BDA0003162273470000087
是rLSTMa网络的输入向量,
Figure BDA0003162273470000088
是rLSTMa网络前一时刻的隐藏状态。
Figure BDA0003162273470000091
是t时刻rLSTMa的第i次输出。LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数。
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉向量
Figure BDA0003162273470000092
组成,其中Iv为Faster-RCNN提取的池化特征,
Figure BDA0003162273470000093
是rLSTMl前一
Figure BDA00031622734700000917
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词。符号“[·]”代表向量拼接操作。
在第二层上,rLSTMl的隐藏状态
Figure BDA0003162273470000096
计算公式如下:
Figure BDA0003162273470000097
Figure BDA0003162273470000098
态。
Figure BDA0003162273470000099
是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数。
第二层rLSTMl的输入向量,记为
Figure BDA00031622734700000910
定义如下:
Figure BDA00031622734700000911
其中,st表示协同门控注意(SGA)的输出,
Figure BDA00031622734700000912
表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表向量拼接操作。
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
Figure BDA00031622734700000913
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,
Figure BDA00031622734700000914
代表rLSTMl在t时刻的隐藏状态。
3.3训练与目标
在给定目标的真值序列
Figure BDA00031622734700000915
和带有参数θ的描述模型的情况下,通过交叉熵损失LXE对rLSTM-SGA进行训练:
Figure BDA00031622734700000916
LXE(θ)表示交叉熵损失函数。
Figure BDA0003162273470000101
表示参数为θ的联合概率分布。
Figure BDA0003162273470000102
表示t时刻的预测输出。
Figure BDA0003162273470000103
表示t时刻的输入。
自强化学习应用于描述模型以来,大量研究都使用该方法来优化训练。为了进行公平的比较,我们从交叉熵训练的模型初始化,寻求最小的负期望分数:
Figure BDA0003162273470000104
LR(·)表示强化学习的奖赏函数。
θ表示模型的优化参数。
pθ表示参数θ的分布。
E表示y1:T服从pθ分布时r(y1:T)的数学期望。
其中r为CIDEr-D评分函数。我们直接用自临界序列训练(SCST)优化不可微指标,这种损失的梯度可以近似:
Figure BDA0003162273470000105
其中
Figure BDA0003162273470000106
为采样标题,上标“s”代表句子的意思,
Figure BDA0003162273470000107
定义贪婪解码当前模型得到的基线得分。
Figure BDA0003162273470000108
表示求导操作。
LR(·)表示强化学习的奖赏函数。
pθ表示参数θ的分布。
符号“≈”表示使用蒙特卡罗方法近似采样。
实验细节
我们使用预先训练的ResNet-101模型提取图像的网格空间特征和使用 Fatser-R卷积神经网络模型提取图像的Up-Down特征,整个Image Captioning 框架主要是用PyTorch实现的。在实验的参数方面,编码特征原向量的维数为 2048,我们将其投影到一个维数为1024的新空间,协同门控注意的池化维度和注意层维度为1024。解码端的两层循环融合LSTM和单词嵌入维度为1024。在训练模型方面,我们遵循AoA模型中的训练策略,我们用交叉熵损失训练40 个epochs,批次大小为10,使用ADAM[38]优化器,学习速率由2e-4初始化,每3个epoch退火0.8,并且每5个epoch增加0.05的计划抽样概率。我们使用自批评训练策略(self-critical training strategy),通过CIDEr-D奖赏继续优化训练20个轮(epochs),初始学习率为2e-5,当验证分割上的分数在某些训练步骤中没有改善时,我们将其退火0.5。在推理测试方面,我们采用波束搜索策略,并将波束大小设为2。同时使用传统的图像描述生成评价指标对模型进行评价。
描述生成模型性能
如表1所示,我们报告了我们提出的模型在离线COCO Karpathy测试拆分上的性能表现,为了与其他模型公平地进行比较,我们的模型都是基于编解码器框架的生成方法。参与性能比较的模型包括:LSTM-A,将高级属性特征运用到图像描述任务中;VS-LSTM,使用语义属性特征替换低级视觉特征;RFNet,利用递归神经网络融合多个CNN网络的编码特征;Up-Down,提出使用Faster R-CNN作为自下而上机制,提取图像的显著区域特征;Stack-Cap,使用LSTM 组合注意力堆叠起来,产生由粗到细的描述;DAIC,提出了将句子级注意模型与词语级注意模型相结合的双重注意模型;SEM,提出了语义增强网络和极难否定挖掘方法;VRES+AFS,使用先前的视觉上下文来考虑当前的序列推理。我们可以看到,与其他模型相比,我们的模型在所有指标中取得了最高的分数。
表1本文方法rLSTM-SGA在COCO Karpathy数据集上的性能
Figure BDA0003162273470000111
我们从在线COCO测试服务器上对我们的模型进行了评估。如表2所示,我们总共比较了7个模型,并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试性能。我们可以看出,rLSTM-SGA在大多数指标上的得分优于其他模型。
表2本文方法rLSTM-SGA在COCO测试服务器的性能
Figure BDA0003162273470000112
Figure BDA0003162273470000121
消融实验
消融实验设置
为了量化我们提出的rLSTM-SGA在序列生成阶段和注意阶段对图像描述模型的影响,我们首先定义多个LSTM的融合方案,如图4所示。图中(a)表示一个普通的LSTMl输出
Figure BDA0003162273470000122
图中(b)表示由三个并行的LSTMl池化合并输出
Figure BDA0003162273470000123
图中(c)表示由三个不同的LSTMl循环融合输出
Figure BDA0003162273470000124
图中(d)表示由三个相同的 LSTMl循环融合输出
Figure BDA0003162273470000125
图中(e)表示由三个相同的LSTMa循环融合输出
Figure BDA0003162273470000126
消融实验结果
消融实验的结果如下表所示。首先我们设置了两个基础模型,它们没有使用SGA和rLSTM方法,只是在注意阶段分别利用了ResNet提取的网格空间特征和Faster-RCNN提取的显著区域特征。然后分别采用不同的LSTM融合方案,以及是否使用SGA方法,得到表中的实验结果。消融实验结果表明,SGA方法是有效的,在注意力层和语言层同时采用图4中(d)和图4中(e)的LSTM 融合结构,获得模型最优性能。
SGA的效果分析
我们设置了不同的方案来评估协同门控注意方法在注意阶段的效果:首先为了探讨在注意阶段同时关注两个显著区域特征对模型的影响,我们设置了 "Region+Region+A",其中"A"表示软注意力过程;其次验证同时关注网格空间特征和显著区域特征对模型的影响,我们设置了"Grid×Region+A"和 "Grid+Region+A",其中×表示通过矩阵乘法建立特征之间关系,+表示通过矩阵加法建立特征之间关系。最后验证在关注网格空间特征和显著区域特征的同时,利用两者特征的池化信息建立门控机制对模型的影响,我们设置了 "Grid+Region+GA",其中"GA"表示加入门控机制。从表3中我们可以观察到,同时注意两个显著区域特征相比单个注意可以增加模型的性能,然而协同注意网格空间特征和显著区域特征模型提高效果更加明显,证明了网格空间信息可以更好的作为显著区域信息的补充。然后,我们可以进一步观察到,通过门控机制作用在两个不同特征之间可以有效的去除语义噪音,更好的指导两者之间信息的相互作用。
rLSTM的效果分析
如图4所示,我们设计了不同的LSTM结构,比较了使用不同的变体来建模隐藏状态向量。从表3中,我们观察到图4(b)所示的同层并行LSTM融合方案pLSTMl,对提高图像标注模型性能不显著。相比较于pLSTMl,图4(c)所示的,在同层循环融合三个不同的LSTM可以带来稍好的性能,其中C指标相对提高了0.8。我们还发现,在同层的LSTM使用相同的参数可以对性能带来进一步的提高。同时,我们也评估了在解码端的第一层使用rLSTM,发现性优于普通LSTM,但模型表现不如在第二层使用效果好。最终,我们在原始的双层 LSTM上都使用了rLSTM机制,发现模型优于其他结构达到了最高性能。
我们结合了协同门控注意和循环融合LSTM方法,组成"rLSTM-SGA"模型,该模型在解码端使用双层rLSTM,即rLSTMl+a结构,并设置了LSTM循环次数变量,来验证单时间步LSTM不同的循环次数对模型性能的影响,如表5所示。一般来说,在单时间步内LSTM循环更多次数能得到相应更多的不同输出,这些输出向量融合后可以提高模型性能。从表中我们可以观察到,LSTM循环融合3次可以达到最好的性能,这从根本上验证了循环融合LSTM对同一时刻的输入进行循环建模的有效性。
表3 SGA和RF-LSTM对基础模型的影响分析
Figure BDA0003162273470000131
Figure BDA0003162273470000141
在本文中,我们提出了一种协同门控注意模型,该模型可以同时注意显著区域特征和网格空间特征,以此在注意阶段可以更好的利用图像信息。我们还提出利用两种特征源的全局信息建立门控机制,能有效地指导两种源信息之间的相互作用,解决融合过程中产生的语义噪声问题。以此,我们将普通LSTM 替换为rLSTM,新的结构可以在每一时刻循环LSTM来融合输入信息,使得模型能够对同一时刻的输入进行循环建模,产生比普通的LSTM更好的性能。大量的实验结果证明了我们方法的优越性,并在基准数据集上获得了与最先进的方法竞争的性能。在未来的工作中,我们计划使用本文的方法应用在遥感图像描述生成任务中,并研究在注意阶段添加更多的相关信息,以此生成可读性更好的描述语句。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (7)

1.一种协同门控循环融合LSTM图像标注方法,其特征在于,包括如下步骤,
通过协同门控注意方法执行图像-文本匹配的多模态任务;
由生成注意权值的注意LSTM循环融合组成注意rLSTM;
由生成单词的语言LSTM循环融合组成语言rLSTM;
把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA;
使用数据集对方法进行评论。
2.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中,所述方法还包括,
使用卷积神经网络模型提取空间语义信息;
使用Faster-RCNN提取显著区域信息;
将提取的空间语义信息和显著区域信息融合在一起,同时利用图像不同的区域信息和空间信息生成当前的描述文本。
3.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
在第一层上,rLSTMa网络的隐藏状态
Figure FDA0003162273460000011
计算公式如下:
Figure FDA0003162273460000012
Figure FDA0003162273460000013
其中,
Figure FDA0003162273460000014
是rLSTMa网络的输入向量;
Figure FDA0003162273460000015
是rLSTMa网络前一时刻的隐藏状态;
Figure FDA0003162273460000016
是t时刻rLSTMa的第i次输出;LSTMa代表注意力LSTM;rLSTMa代表循环融合LSTMa;P代表LSTMa的个数。
4.如权利要求3所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中,所述方法还包括,
第一层rLSTMa的输入由嵌入在当前时间步输入的词以及视觉向量
Figure FDA0003162273460000021
组成,其中Iv为Faster-RCNN提取的池化特征,
Figure FDA0003162273460000022
是rLSTMl前一个时间步的上下文向量:
Figure FDA0003162273460000023
其中,E是单词的嵌入矩阵,wt-1是前一个时间步rLSTMl生成的单词,符号“[·]”代表向量拼接操作。
5.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
在第二层上,rLSTMl的隐藏状态
Figure FDA0003162273460000024
计算公式如下:
Figure FDA0003162273460000025
Figure FDA0003162273460000026
其中,
Figure FDA0003162273460000027
是rLSTMl网络的输入向量,
Figure FDA0003162273460000028
是rLSTMl网络前一时刻的隐藏状态,
Figure FDA0003162273460000029
是t时刻rLSTMl的第i次输出;LSTMl代表语言LSTM;rLSTMl代表循环融合LSTMl;P代表LSTMl的个数。
6.如权利要求5所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“由生成单词的语言LSTM循环融合组成语言rLSTM,表示为rLSTMl”中,所述方法还包括,
第二层rLSTMl的输入向量,记为
Figure FDA00031622734600000210
定义如下:
Figure FDA00031622734600000211
其中,st表示协同门控注意(SGA)的输出,
Figure FDA00031622734600000212
表示当前时刻rLSTMa的隐藏状态,符号“[·]”代表向量拼接操作。
7.如权利要求1所述的协同门控循环融合LSTM图像标注方法,其特征在于,在“把协同门控注意SGA和循环融合LSTM整合在一起,形成rLSTM-SGA”中,所述方法还包括,
rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(yt∣y1:t-1),其计算公式定义为:
Figure FDA00031622734600000213
式中,softmax(·)代表归一化函数,Wp代表rLSTMl隐藏状态的学习参数,
Figure FDA0003162273460000031
代表rLSTMl在t时刻的隐藏状态。
CN202110794816.6A 2021-07-14 2021-07-14 一种协同门控循环融合lstm图像标注方法 Active CN113627424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110794816.6A CN113627424B (zh) 2021-07-14 2021-07-14 一种协同门控循环融合lstm图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110794816.6A CN113627424B (zh) 2021-07-14 2021-07-14 一种协同门控循环融合lstm图像标注方法

Publications (2)

Publication Number Publication Date
CN113627424A true CN113627424A (zh) 2021-11-09
CN113627424B CN113627424B (zh) 2023-09-12

Family

ID=78379745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110794816.6A Active CN113627424B (zh) 2021-07-14 2021-07-14 一种协同门控循环融合lstm图像标注方法

Country Status (1)

Country Link
CN (1) CN113627424B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883181A (zh) * 2023-09-07 2023-10-13 北京中关村科金技术有限公司 基于用户画像的金融服务推送方法、存储介质及服务器
CN116958706A (zh) * 2023-08-11 2023-10-27 中国矿业大学 基于词性标注的图像多样化描述可控生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20180232342A1 (en) * 2017-02-16 2018-08-16 Hitachi, Ltd. Text preparation apparatus
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112629542A (zh) * 2020-12-31 2021-04-09 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统
US20210200951A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for outputting information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232342A1 (en) * 2017-02-16 2018-08-16 Hitachi, Ltd. Text preparation apparatus
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
US20210200951A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for outputting information
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112052889A (zh) * 2020-08-28 2020-12-08 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112629542A (zh) * 2020-12-31 2021-04-09 山东师范大学 基于ddpg和lstm的无地图机器人路径导航方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JING ZHANG等: "Parallel-fusion LSTM with synchronous semantic and visual information for image captioning", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》, pages 1 - 9 *
YOU YANG等: "Image Captioning with Synergy-Gated Attention and Recurrent Fusion LSTM", 《KSII TRANSACTIONS ON INTERNET & INFORMATION SYSTEMS》, vol. 16, no. 10, pages 3390 - 3405 *
周义: "基于关注度LSTM的动作提议和行为识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, pages 138 - 1461 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116958706A (zh) * 2023-08-11 2023-10-27 中国矿业大学 基于词性标注的图像多样化描述可控生成方法
CN116958706B (zh) * 2023-08-11 2024-05-14 中国矿业大学 基于词性标注的图像多样化描述可控生成方法
CN116883181A (zh) * 2023-09-07 2023-10-13 北京中关村科金技术有限公司 基于用户画像的金融服务推送方法、存储介质及服务器
CN116883181B (zh) * 2023-09-07 2023-12-05 北京中关村科金技术有限公司 基于用户画像的金融服务推送方法、存储介质及服务器

Also Published As

Publication number Publication date
CN113627424B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Yan et al. HiGCIN: Hierarchical graph-based cross inference network for group activity recognition
CN112288091B (zh) 基于多模态知识图谱的知识推理方法
Fidler Teaching machines to describe images with natural language feedback
You et al. Image captioning at will: A versatile scheme for effectively injecting sentiments into image descriptions
Yu et al. Heterogeneous graph learning for visual commonsense reasoning
CN107832310A (zh) 基于seq2seq模型的结构化论点生成方法及系统
Zhang et al. Language-guided navigation via cross-modal grounding and alternate adversarial learning
CN109464803A (zh) 虚拟对象控制、模型训练方法、装置、存储介质和设备
Song et al. Image captioning with context-aware auxiliary guidance
CN113627424A (zh) 一种协同门控循环融合lstm图像标注方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111967272A (zh) 基于语义对齐的视觉对话生成系统
Du et al. Full transformer network with masking future for word-level sign language recognition
Tian et al. An attempt towards interpretable audio-visual video captioning
Guo et al. Multi-turn video question generation via reinforced multi-choice attention network
Chen et al. Coupled multimodal emotional feature analysis based on broad-deep fusion networks in human–robot interaction
Sun et al. Intelligent decision-making and human language communication based on deep reinforcement learning in a wargame environment
Chen et al. Neural task planning with and–or graph representations
Yan et al. Image captioning based on a hierarchical attention mechanism and policy gradient optimization
Yu et al. Hybrid reasoning network for video-based commonsense captioning
Chen et al. Q‐EANet: Implicit social modeling for trajectory prediction via experience‐anchored queries
Zhang Behaviour Detection and Recognition of College Basketball Players Based on Multimodal Sequence Matching and Deep Neural Networks
Li et al. D‐Cloth: Skinning‐based Cloth Dynamic Prediction with a Three‐stage Network
Wang et al. A multi-scale self-supervised hypergraph contrastive learning framework for video question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant