CN113627424A

CN113627424A - 一种协同门控循环融合lstm图像标注方法

Info

Publication number: CN113627424A
Application number: CN202110794816.6A
Authority: CN
Inventors: 杨有; 陈立志; 胡峻滔; 余平; 杨学森
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-09
Anticipated expiration: 2041-07-14
Also published as: CN113627424B

Abstract

本发明涉及协同门控循环融合领域，具体涉及一种协同门控循环融合LSTM图像标注方法，通过协同门控注意方法执行图像‑文本匹配的多模态任务；由生成注意权值的注意LSTM循环融合组成注意rLSTM；由生成单词的语言LSTM循环融合组成语言rLSTM；把协同门控注意SGA和循环融合LSTM整合在一起，形成rLSTM‑SGA；使用数据集对方法进行评论，从而通过SGA方法不仅注意图像的显著区域特征，还可以注意图像的空间特征信息，rLSTM方法，它可以代替传统单一的LSTM单元生成机制，每一时刻通过循环多个相同的LSTM对同一输入进行融合建模，进而对同一语义获取不同的上下文信息，以此提高模型序列学习的能力，生成更加准确的描述语句，整合上述两种创新方法在MSCOCO数据集上进行了评估。

Description

一种协同门控循环融合LSTM图像标注方法

技术领域

本发明涉及协同门控循环融合技术领域，尤其涉及一种协同门控循环融合 LSTM图像标注方法。

背景技术

近年来，深度学习方法有着非常大的进步，驱动着图像描述生成朝着深度学习的方法快速发展，并取得了突破性的结果。在机器翻译以及序列到序列任务启发下，基于编码器解码器框架的图像描述生成方法得到了广泛应用。人们为了更好地探索视觉区域之间关系，挖掘图像中可用的语义信息，最近出现一些建立场景图的方法，通过构造视觉关系图来增强图像表示和描述生成。

目前图像描述生成的大量工作在解码端，探索RNN如何更加有效的解码图像特征，使其能够更加快速的收敛模型，更加准确的预测目标单词概率。而LSTM 作为一种时间循环神经网络，在图像描述模型的解码器中被广泛使用。它在处理序列数据过程中起着关键的作用，通过引入输入门、遗忘门与输出门，LSTM 能够有效解决RNN中存在的梯度消失问题。但是，LSTM序列生成的链状结构相对比较单一，每一时刻只有一个LSTM单元的状态输出。对比传统的LSTM 方法提出了一种并行LSTM机制，即pLSTM模型，在每一层并行多个LSTM 对同一输入获取不同的上下文信息。然而，每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模，但是LSTM单元之间是缺少序列关联性的。

发明内容

本发明的目的在于提供一种协同门控循环融合LSTM图像标注方法，旨在解决现有技术中的对比传统的LSTM方法提出了一种并行LSTM机制，即 pLSTM模型，在每一层并行多个LSTM对同一输入获取不同的上下文信息。然而，每一层并行LSTM的方法虽然可以对输入信息进行多种不同的建模，但是LSTM单元之间是缺少序列关联性的的技术问题。

为实现上述目的，本发明采用的一种协同门控循环融合LSTM图像标注方法，包括如下步骤，

通过协同门控注意方法执行图像-文本匹配的多模态任务；

由生成注意权值的注意LSTM循环融合组成注意rLSTM，表示为rLSTM^a；

由生成单词的语言LSTM循环融合组成语言rLSTM，表示为rLSTM^l；

把协同门控注意SGA和循环融合LSTM整合在一起，形成rLSTM-SGA；

使用数据集对方法进行评论。

其中，在“通过协同门控注意方法执行图像-文本匹配的多模态任务”中，所述方法还包括，

使用卷积神经网络模型提取空间语义信息；

使用Faster-RCNN提取显著区域信息；

将提取的空间语义信息和显著区域信息融合在一起，同时利用图像不同的区域信息和空间信息生成当前的描述文本。

其中，在“由生成注意权值的注意LSTM循环融合组成注意rLSTM”中，所述方法还包括，

在第一层上，rLSTM^a网络的隐藏状态

计算公式如下：

其中，

是rLSTM^a网络的输入向量；

是rLSTM^a网络前一时刻的隐藏状态；

是t时刻rLSTM^a的第i次输出；LSTM^a代表注意力LSTM；rLSTM^a代表循环融合LSTM^a；P代表LSTM^a的个数。

第一层rLSTM^a的输入由嵌入在当前时间步输入的词以及视觉向量

组成，其中I_v为Faster-RCNN提取的池化特征，

是rLSTM^l前一个时间步的上下文向量：

其中,E是单词的嵌入矩阵，w_t-1是前一个时间步rLSTM^l生成的单词，符号“[·]”代表向量拼接操作。

其中，在“由生成单词的语言LSTM循环融合组成语言rLSTM，表示为 rLSTM^l”中，所述方法还包括，

在第二层上，rLSTM^l的隐藏状态

计算公式如下：

其中，

是rLSTM^l网络的输入向量，

是rLSTM^l网络前一时刻的隐藏状态，

是t时刻rLSTM^l的第i次输出；LSTM^l代表语言LSTM；rLSTM^l代表循环融合LSTM^l；P代表LSTM^l的个数。

第二层rLSTM^l的输入向量，记为

定义如下：

其中，s_t表示协同门控注意(SGA)的输出，

表示当前时刻rLSTM^a的隐藏状态，符号“[·]”代表向量拼接操作。

其中，在“把协同门控注意SGA和循环融合LSTM整合在一起，形成 rLSTM-SGA”中，所述方法还包括，

rLSTM-SGA图像描述模型在t时刻输出单词的概率记为p(y_t∣y_1:t-1)，其计算公式定义为：

式中，softmax(·)代表归一化函数，W_p代表rLSTM^l隐藏状态的学习参数，

代表rLSTM^l在t时刻的隐藏状态。

本发明的一种协同门控循环融合LSTM图像标注方法，通过协同门控注意方法执行图像-文本匹配的多模态任务；由生成注意权值的注意LSTM循环融合组成注意rLSTM；由生成单词的语言LSTM循环融合组成语言rLSTM；把协同门控注意SGA和循环融合LSTM整合在一起，形成rLSTM-SGA；使用数据集对方法进行评论，从而通过SGA方法不仅注意图像的显著区域特征，还可以注意图像的空间特征信息，同时利用两种特征源的全局信息指导两种注意特征之间的相互作用，从而更好的融合到解码器中，指导图像语句的生成，rLSTM方法，它可以代替传统单一的LSTM单元生成机制，每一时刻通过循环多个相同的LSTM对同一输入进行融合建模，进而对同一语义获取不同的上下文信息，以此提高模型序列学习的能力，生成更加准确的描述语句，整合上述两种创新方法在MSCOCO数据集上进行了评估。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的rLSTM-SGA的整体架构图。

图2是本发明的SGA的结构图。

图3是本发明的循环融合LSTM的结构图。

图4是本发明的LSTM输出隐藏状态的不同方案示意图。

图5是本发明的协同门控循环融合LSTM图像标注方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图5，本发明提供了一种协同门控循环融合LSTM图像标注方法，包括如下步骤，

S101：通过协同门控注意方法执行图像-文本匹配的多模态任务；

S1011：使用卷积神经网络模型提取空间语义信息；

S1012：使用Faster-RCNN提取显著区域信息；

S1013：将提取的空间语义信息和显著区域信息融合在一起，同时利用图像不同的区域信息和空间信息生成当前的描述文本；

S102：由生成注意权值的注意LSTM循环融合组成注意rLSTM，表示为 rLSTM^a；

在第一层上，rLSTM^a网络的隐藏状态

计算公式如下：

其中，

是rLSTM^a网络的输入向量；

是rLSTM^a网络前一时刻的隐藏状态；

是t时刻rLSTM^a的第i次输出；LSTM^a代表注意力LSTM；rLSTM^a代表循环融合LSTM^a；P代表LSTM^a的个数；

组成，其中I_v为Faster-RCNN提取的池化特征，

是rLSTM^l前一个时间步的上下文向量：

S103：由生成单词的语言LSTM循环融合组成语言rLSTM，表示为rLSTM^l；在第二层上，rLSTM^l的隐藏状态

计算公式如下：

其中，

是rLSTM^l网络的输入向量，

是rLSTM^l网络前一时刻的隐藏状态，

是t时刻rLSTM^l的第i次输出；LSTM^l代表语言LSTM；rLSTM^l代表循环融合LSTM^l；P代表LSTM^l的个数；

第二层rLSTM^l的输入向量，记为

定义如下：

其中，s_t表示协同门控注意(SGA)的输出，

S104：把协同门控注意SGA和循环融合LSTM整合在一起，形成 rLSTM-SGA；

S105：使用数据集对方法进行评论；

代表rLSTM^l在t时刻的隐藏状态。

在本实施方式中，

图1中.rLSTM-SGA的整体架构。模型由两个部分组成：协同门控注意 (SGA)，循环融合LSTM(rLSTM)。

我们首先在第3.1节中介绍我们的协同门控注意(SGA)方法，结构如图2 所示。然后在第3.2节中介绍了我们的循环融合LSTM(rLSTM)方法，结构如图3所示。最后，我们在3.3节介绍我们的训练方法。

3.1协同门控注意

我们的协同门控注意(SGA)方法执行图像-文本匹配的多模态任务，包括使用CNN提取的空间语义信息，以及Faster-RCNN提取的显著区域信息。它们融合在一起使得LSTM在每个时刻能够同时利用图像不同的区域信息和空间信息生成当前的描述文本。

E＝{e₁,e₂,…,e_M},e_i∈R^d

V＝{v₁,v₂,…,v_N},v_i∈R^d

其中，E∈R^(w×h)×d是卷积神经网络模型最后一层卷积层输出的特征图，h 是该特征图的高度，w是该特征图的宽度，每个特征向量e_i的维度为d。 M＝w×h，代表了由相同大小的图像区域组成的网格数量。V∈R^k×d是Faster-R卷积神经网络模型的输出向量，由N个d维的图像区域特征v_i组成。

对于E的注意力公式解释如下：

α_et＝softmax(Z_et)

其中

W_e和W_eh是学习空间注意的参数。α_et＝{α_et,1,α_et,2,…,α_et,M}是E的相关权值，其和为1。c_et是E的加权和，表示图像网格区域的最相关位置。tanh(·)代表正切激活函数，softmax(·)代表归一化函数，E代表CNN网络输出的特征图，Z_et代表E的注意力。

对于V的注意力公式解释如下：

α_vt＝softmax(Z_vt)

其中

W_v和W_vh是学习区域注意的参数。α_vt＝{α_vt,1,α_vt,2,…,α_vt,N}是V的相关权值，其和为1。c_vt是V的加权和，表示图像显著区域的最相关位置。tanh(·)代表正切激活函数，softmax(·)代表归一化函数，E代表CNN网络输出的特征图，Z_vt代表V的注意力。

为了解决两种特征融合过程中产生的语义噪声问题，我们把卷积神经网络模型提取的池化特征I_e和Faster-RCNN提取的池化特征I_v进行拼接并送入到门控制单元中：

g_t＝σ(W_g·[I_e,I_v])

其中，I_e∈R^d×1代表特征图向量E的均值；

代表显著特征向量V的均值；g_t∈R^d×1代表门控单元的输出；符号“[·]”代表向量拼接操作；W_g∈R^d×2d代表门控单元学习参数，σ(·)表示Sigmoid函数。

我们受ETA-Transformer模型[Li Guang,et al.,2019]的启发，采用了更好的双边门控机制。通过引导显著区域注意信息和空间语义信息，实现最终有效的注意融合：

s_t＝g_t⊙c_vt+(1-g_t)⊙c_et

其中，⊙表示hadamard乘积，

表示协同门控注意(SGA)的输出。 c_vt表示V的加权和；c_et表示E的加权和；g_t表示门控单元的输出。

图3.循环融合LSTM的结构。第一层为注意循环融合LSTM(即LSTM^a)，由P个相同参数的注意LSTM组成。第二层为语言循环融合LSTM(即LSTM^l)，由P个相同参数的语言LSTM组成。每一层都有相同的输入，且都有P个不同的输出，最后用平均池化层来合并这些输出。

3.2循环融合LSTM

为了更加有效的提高LSTM序列生成性能，我们引入了循环融合LSTM (rLSTM)。如图所示，我们展示了rLSTM的结构。我们可以发现，该结构是基于双层rLSTM的编码器-解码器框架。第一层是注意rLSTM，表示为rLSTM^a，由生成注意权值的注意LSTM(LSTM^a)循环融合组成；第二层是语言rLSTM，可表示为rLSTM^l，由生成单词的语言LSTM(LSTM^l)循环融合组成。它们在t 时刻的隐藏状态分别用

和

表示。

我们提出的循环融合LSTM相比于pLSTM模型可以更好的融合输入信息。 pLSTM模型在同一层并行的多个LSTM具有相同的输入，且它们具有不同的参数，可以学习输入信息的不同部分，起到同层互补的效果。而我们的rLSTM通过在同一时刻循环多个LSTM，侧重于对同一输入进行融合建模，建立输入信息之间的关系。同一层的循环次数是P，这意味着在每一层有P个不同的融合输出。

在第一层上，rLSTM^a网络的隐藏状态

计算公式如下：

其中，

是rLSTM^a网络的输入向量，

是rLSTM^a网络前一时刻的隐藏状态。

是t时刻rLSTM^a的第i次输出。LSTM^a代表注意力LSTM；rLSTM^a代表循环融合LSTM^a；P代表LSTM^a的个数。

组成，其中I_v为Faster-RCNN提取的池化特征，

是rLSTM^l前一

其中,E是单词的嵌入矩阵，w_t-1是前一个时间步rLSTM^l生成的单词。符号“[·]”代表向量拼接操作。

在第二层上，rLSTM^l的隐藏状态

计算公式如下：

态。

第二层rLSTM^l的输入向量，记为

定义如下：

其中，s_t表示协同门控注意(SGA)的输出，

代表rLSTM^l在t时刻的隐藏状态。

3.3训练与目标

在给定目标的真值序列

和带有参数θ的描述模型的情况下，通过交叉熵损失L_XE对rLSTM-SGA进行训练：

L_XE(θ)表示交叉熵损失函数。

表示参数为θ的联合概率分布。

表示t时刻的预测输出。

表示t时刻的输入。

自强化学习应用于描述模型以来，大量研究都使用该方法来优化训练。为了进行公平的比较，我们从交叉熵训练的模型初始化，寻求最小的负期望分数：

L_R(·)表示强化学习的奖赏函数。

θ表示模型的优化参数。

p_θ表示参数θ的分布。

E表示y_1:T服从p_θ分布时r(y_1:T)的数学期望。

其中r为CIDEr-D评分函数。我们直接用自临界序列训练(SCST)优化不可微指标，这种损失的梯度可以近似：

其中

为采样标题，上标“s”代表句子的意思，

定义贪婪解码当前模型得到的基线得分。

表示求导操作。

L_R(·)表示强化学习的奖赏函数。

p_θ表示参数θ的分布。

符号“≈”表示使用蒙特卡罗方法近似采样。

实验细节

我们使用预先训练的ResNet-101模型提取图像的网格空间特征和使用 Fatser-R卷积神经网络模型提取图像的Up-Down特征，整个Image Captioning 框架主要是用PyTorch实现的。在实验的参数方面，编码特征原向量的维数为 2048，我们将其投影到一个维数为1024的新空间，协同门控注意的池化维度和注意层维度为1024。解码端的两层循环融合LSTM和单词嵌入维度为1024。在训练模型方面，我们遵循AoA模型中的训练策略，我们用交叉熵损失训练40 个epochs，批次大小为10，使用ADAM[38]优化器，学习速率由2e-4初始化，每3个epoch退火0.8，并且每5个epoch增加0.05的计划抽样概率。我们使用自批评训练策略(self-critical training strategy)，通过CIDEr-D奖赏继续优化训练20个轮(epochs)，初始学习率为2e-5，当验证分割上的分数在某些训练步骤中没有改善时，我们将其退火0.5。在推理测试方面，我们采用波束搜索策略，并将波束大小设为2。同时使用传统的图像描述生成评价指标对模型进行评价。

描述生成模型性能

如表1所示，我们报告了我们提出的模型在离线COCO Karpathy测试拆分上的性能表现，为了与其他模型公平地进行比较，我们的模型都是基于编解码器框架的生成方法。参与性能比较的模型包括：LSTM-A，将高级属性特征运用到图像描述任务中；VS-LSTM，使用语义属性特征替换低级视觉特征；RFNet，利用递归神经网络融合多个CNN网络的编码特征；Up-Down，提出使用Faster R-CNN作为自下而上机制，提取图像的显著区域特征；Stack-Cap，使用LSTM 组合注意力堆叠起来，产生由粗到细的描述；DAIC，提出了将句子级注意模型与词语级注意模型相结合的双重注意模型；SEM，提出了语义增强网络和极难否定挖掘方法；VRES+AFS，使用先前的视觉上下文来考虑当前的序列推理。我们可以看到，与其他模型相比，我们的模型在所有指标中取得了最高的分数。

表1本文方法rLSTM-SGA在COCO Karpathy数据集上的性能

我们从在线COCO测试服务器上对我们的模型进行了评估。如表2所示，我们总共比较了7个模型，并详细说明了使用5个参考标题(c5)和40个参考标题(c40)的官方测试性能。我们可以看出，rLSTM-SGA在大多数指标上的得分优于其他模型。

表2本文方法rLSTM-SGA在COCO测试服务器的性能

消融实验

消融实验设置

为了量化我们提出的rLSTM-SGA在序列生成阶段和注意阶段对图像描述模型的影响，我们首先定义多个LSTM的融合方案，如图4所示。图中(a)表示一个普通的LSTM^l输出

图中(b)表示由三个并行的LSTM^l池化合并输出

图中(c)表示由三个不同的LSTM^l循环融合输出

图中(d)表示由三个相同的 LSTM^l循环融合输出

图中(e)表示由三个相同的LSTM^a循环融合输出

消融实验结果

消融实验的结果如下表所示。首先我们设置了两个基础模型，它们没有使用SGA和rLSTM方法，只是在注意阶段分别利用了ResNet提取的网格空间特征和Faster-RCNN提取的显著区域特征。然后分别采用不同的LSTM融合方案，以及是否使用SGA方法，得到表中的实验结果。消融实验结果表明，SGA方法是有效的，在注意力层和语言层同时采用图4中(d)和图4中(e)的LSTM 融合结构，获得模型最优性能。

SGA的效果分析

我们设置了不同的方案来评估协同门控注意方法在注意阶段的效果：首先为了探讨在注意阶段同时关注两个显著区域特征对模型的影响，我们设置了 "Region+Region+A"，其中"A"表示软注意力过程；其次验证同时关注网格空间特征和显著区域特征对模型的影响，我们设置了"Grid×Region+A"和 "Grid+Region+A"，其中×表示通过矩阵乘法建立特征之间关系，+表示通过矩阵加法建立特征之间关系。最后验证在关注网格空间特征和显著区域特征的同时，利用两者特征的池化信息建立门控机制对模型的影响，我们设置了 "Grid+Region+GA"，其中"GA"表示加入门控机制。从表3中我们可以观察到，同时注意两个显著区域特征相比单个注意可以增加模型的性能，然而协同注意网格空间特征和显著区域特征模型提高效果更加明显，证明了网格空间信息可以更好的作为显著区域信息的补充。然后，我们可以进一步观察到，通过门控机制作用在两个不同特征之间可以有效的去除语义噪音，更好的指导两者之间信息的相互作用。

rLSTM的效果分析

如图4所示，我们设计了不同的LSTM结构，比较了使用不同的变体来建模隐藏状态向量。从表3中，我们观察到图4(b)所示的同层并行LSTM融合方案pLSTM^l，对提高图像标注模型性能不显著。相比较于pLSTM^l，图4(c)所示的，在同层循环融合三个不同的LSTM可以带来稍好的性能，其中C指标相对提高了0.8。我们还发现，在同层的LSTM使用相同的参数可以对性能带来进一步的提高。同时，我们也评估了在解码端的第一层使用rLSTM，发现性优于普通LSTM，但模型表现不如在第二层使用效果好。最终，我们在原始的双层 LSTM上都使用了rLSTM机制，发现模型优于其他结构达到了最高性能。

我们结合了协同门控注意和循环融合LSTM方法，组成"rLSTM-SGA"模型，该模型在解码端使用双层rLSTM，即rLSTM^l+a结构，并设置了LSTM循环次数变量，来验证单时间步LSTM不同的循环次数对模型性能的影响，如表5所示。一般来说，在单时间步内LSTM循环更多次数能得到相应更多的不同输出，这些输出向量融合后可以提高模型性能。从表中我们可以观察到，LSTM循环融合3次可以达到最好的性能，这从根本上验证了循环融合LSTM对同一时刻的输入进行循环建模的有效性。

表3 SGA和RF-LSTM对基础模型的影响分析

在本文中，我们提出了一种协同门控注意模型，该模型可以同时注意显著区域特征和网格空间特征，以此在注意阶段可以更好的利用图像信息。我们还提出利用两种特征源的全局信息建立门控机制，能有效地指导两种源信息之间的相互作用，解决融合过程中产生的语义噪声问题。以此，我们将普通LSTM 替换为rLSTM，新的结构可以在每一时刻循环LSTM来融合输入信息，使得模型能够对同一时刻的输入进行循环建模，产生比普通的LSTM更好的性能。大量的实验结果证明了我们方法的优越性，并在基准数据集上获得了与最先进的方法竞争的性能。在未来的工作中，我们计划使用本文的方法应用在遥感图像描述生成任务中，并研究在注意阶段添加更多的相关信息，以此生成可读性更好的描述语句。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。