CN111368898B

CN111368898B - 一种基于长短时记忆网络变体的图像描述生成方法

Info

Publication number: CN111368898B
Application number: CN202010129973.0A
Authority: CN
Inventors: 王瀚漓; 杨龙雨
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2022-10-25
Anticipated expiration: 2040-02-28
Also published as: CN111368898A

Abstract

本发明涉及一种基于长短时记忆网络变体的图像描述生成方法，该方法利用一图像描述模型生成待识别图像的图像描述，所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块，所述卷积神经网络获得待识别图像的初始图像特征，所述图像特征编码模块对初始图像特征进行处理，所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入，所述描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子。与现有技术相比，本发明具有能显著提升图像描述的质量和准确性等优点。

Description

一种基于长短时记忆网络变体的图像描述生成方法

技术领域

本发明涉及图像理解和自然语言处理的交叉领域，尤其是涉及一种基于长短时记忆网络变体的图像描述生成方法。

背景技术

图像描述任务是近年来机器学习领域一大热点。该任务通过机器学习模型，将图像信息自动转换为自然语言描述，在人机交互、盲人导航、图片检索等领域有着广泛的应用前景，因此吸引了国内外大量学者的研究兴趣。同时，该任务也是机器学习领域的一大难点问题，因其不仅需要模型准确地识别图片、视频中的目标物体，还需要模型对物体与物体之间、物体与背景之间等关系有较为深刻地理解，并生成一段生动的自然语言描述，因此这一任务对计算机视觉和自然语言处理两大领域都有着较大的考验。

目前，大部分学者主要使用深度学习方法来实现视觉描述任务。最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征，再将视觉特征送入长短期记忆网络(LSTM)来生成自然语言描述，如专利申请CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制，注意力网络(Attention Network)也被引入视觉描述任务，如CN108052512A。但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的图像描述生成方法，能显著提升图像描述的质量和准确性。

本发明的目的可以通过以下技术方案来实现：

一种基于长短时记忆网络变体的图像描述生成方法，该方法利用一图像描述模型生成待识别图像的图像描述，所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块，所述卷积神经网络获得待识别图像的初始图像特征，所述图像特征编码模块对初始图像特征进行处理，所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入，所述描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子。

进一步地，所述图像特征编码模块的处理过程具体为：

将初始图像特征变换为序列图像特征，按照序列次序依次将所述序列图像特征输入至第一LSTM中，获取带有语义信息的全局图像特征。

进一步地，所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。

进一步地，所述第一LSTM中，在时间步j，第一LSTM的隐藏层

和细胞层

的计算方式为：

其中，v_j为序列图像特征中的元素。

进一步地，所述卷积神经网络输出的初始图像特征经维数变换后输入所述描述生成模块。

进一步地，所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息，生成前面时间步词特征，所述注意力网络用于生成局部注意力图像特征，所述CaptionNet网络为LSTM变体，其输入门和细胞输入仅以所述局部注意力图像特征作为输入，其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。

进一步地，所述第二LSTM中，在时间步t，第二LSTM的隐藏层

和细胞层

的计算方式为：

其中，x_t＝ReLU(W_eω_t-1)是词嵌入向量，ω_t-1是上一个词的one-hot向量。

进一步地，在时间步t，所述局部注意力图像特征的计算公式为：

其中，V_t ^a是局部注意力图像特征，α_ti是概率分布，V_i ^h是经维数变换后的初始图像特征中的元素，K是图像特征的个数。

进一步地，所述CaptionNet网络中，在时间步t，第二LSTM的隐藏层

和细胞层

的计算方式为：

其中，

是第二LSTM的隐藏层

是上一个时间步CaptionNet网络的隐藏层和细胞层，V_t ^a是局部注意力图像特征，

是图像特征编码模块的输出。

进一步地，所述图像描述模型的训练过程具体为：

使用交叉损失函数对所述图像描述模型进行M轮训练，其中前N轮训练中，卷积神经网络的参数固定，其他部分进行学习，后M-N轮训练中，卷积神经网络进行学习，其他部分的参数固定；

使用强化学习方法优化所述图像描述模型，优化过程中，卷积神经网络的参数固定，其他部分进行学习。

与现有技术相比，本发明具有如下有益效果：

1、本发明图像特征变换为序列图像特征(Sequential Image Features)并依次输入到长短期记忆(LSTM)中，可以获得语义信息更加丰富的全局图像特征，进而提高图像描述准确性。

2、本发明引用注意力网络，模型能根据当前的描述和视觉内容在视觉特征的维度上生成一个概率分布，这一分布能够反应当前即将生成的词与视觉特征中的哪一个区域最为相关，从而帮助模型更加准确地生成描述信息。

3、本发明针对LSTM每一个时间步只能接收一个输入，而基于注意力的图像描述生成模型往往有两个输入这一问题，对LSTM进行改进，使其能同时接收两个输出，以获得更多图像信息，减少前面时间步的词对当前时间步输出的不利影响，显著提升图像描述的质量和准确性。

附图说明

图1为本发明模型的整体框架图；

图2为本发明中图像特征编码的框架图；

图3为本发明中每个时间步使用注意力网络生成词的框架图；

图4为本发明中LSTM变体，即CaptionNet的内部示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于长短时记忆网络变体的图像描述生成方法，该方法利用一图像描述模型生成待识别图像的图像描述，如图1所示，所述图像描述模型包括卷积神经网络(CNN)、图像特征编码模块和描述生成模块，所述卷积神经网络获得待识别图像的初始图像特征，所述图像特征编码模块对初始图像特征进行处理，所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入，所述描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子。

如图2所示，所述图像特征编码模块的处理过程具体为：将初始图像特征变换为序列图像特征，按照序列次序依次将所述序列图像特征输入至第一LSTM(记作LSTM₁)中，获取带有语义信息的全局图像特征。所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。

图像特征编码模块的具体过程包括：

11)将图像描述数据集MS COCO中的图像一致调整为576×576大小，再随机裁剪成512×512大小，输入到已在ImageNet上提前训练好的ResNet152中，取其最后一个卷积层的输出记为V∈R^D×K，其中K＝256为图像特征的个数，D＝2048为每个图像特征的维数；

12)使用两个全连接层(FC)和一个ReLU激活函数，将V变换为“序列图像特征”(Sequential Image Features)V^s，具体表示为：

V^s＝ReLU(W_k(W_dV+b_d)^T+b_k)

其中W_d∈R^E×D,b_d∈R^E,W_k∈R^S×K,b_k∈R^S是待学习的参数，E＝512是用户预设的LSTM输入维数，S＝10是用户预设的序列图像特征的序列长度；

13)将V^s＝[v₁,v₂,···,v_s]一步一步输入到一个一层的LSTM₁中。在每个时间步j，LSTM₁的隐藏层

和细胞层

的计算方式为：

其中LSTM内部的计算方式为：

i_j＝σ(W_ivv_j+W_ihh_j-1+b_i)

f_j＝σ(W_fvv_j+W_fhh_j-1+b_f)

o_j＝σ(W_ovv_j+W_ohh_j-1+b_o)

g_j＝tanh(W_gvv_j+W_ghh_j-1+b_g)

c_j＝i_j⊙g_j+f_j⊙c_j-1

h_j＝o_j⊙tanh(c_j)

这里，i_j,f_j,o_j,g_j分别为LSTM的输入门、遗忘门、输出门和细胞输入。

描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息，生成前面时间步词特征，所述注意力网络用于生成局部注意力图像特征，所述CaptionNet网络为LSTM变体，其输入门和细胞输入仅以所述局部注意力图像特征作为输入，其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。

为了使得V的维数与注意力网络的维数一致，作以下变换：

V^h＝ReLU(W_vhV+b_vh)

其中W_vh∈R^H×D,b_vh∈R^H是待学习的参数，H＝1024是LSTM或CaptionNet隐藏层的维数大小。

如图3所示，生成时间步t的词时，包括步骤：

21)使用LSTM₂来表示前面时间步生成的句子信息，LSTM₂的隐藏层

和细胞层

的计算方式为：

其中x_t＝ReLU(W_eω_t-1)是词嵌入向量，ω_t-1是上一个词的one-hot向量，W_e是待学习的参数；

22)使用注意力网络生成在V上的一个概率分布α_t：

α_t＝softmax(z_t)

其中w_a∈R^H,W_va,W_ha,W_ca∈R^H×H是待学习的参数，

是上一个时间步CaptionNet的细胞层，之后，计算时间步t的局部注意力图像特征V_t ^a：

23)使用预测当前时间步生成的词，CaptionNet的输入输出为：

其中

是CaptionNet的隐藏层和细胞层。如图4所示，CaptionNet的内部的更新方式是只允许局部注意力图像特征V_t ^a进入输入门i′_t和细胞输入g′_t，具体表示为：

对于CaptionNet的遗忘门f′_t，需要局部图像特征V_t ^a和表示前面时间步生成的句子信息的

共同输入，以此训练模型忘记那些已经生成的图像信息，具体表示为：

对于CaptionNet的输出门o′_t，也同样需要局部图像特征V_t ^a和表示前面时间步生成的句子信息的

共同输入，以此训练模型决定哪些图像特征输出到本时间步：

之后，CaptionNet细胞层和隐藏层的更新方式与LSTM相同：

24)使用

来预测下一个词的概率，具体表示为：

其中W_p∈R^G×H,b_p∈R^G是待学习的参数，G是词典的大小。

上述图像描述模型搭建完毕后的训练过程具体为：

31)使用交叉损失函数对所述图像描述模型进行M轮训练，其中前N轮训练中，卷积神经网络的参数固定，其他部分进行学习，后M-N轮训练中，卷积神经网络进行学习，其他部分的参数固定。

本实施例中，设一个图像描述真实的词序列是

模型的全部待学习参数是θ，训练轮数为25轮，其中前10轮CNN的参数固定，剩余模型的学习率为5e-4，后15轮CNN参与训练，学习率为1e-5，剩余模型的学习率不变。

交叉损失函数具体表示为：

32)使用强化学习方法优化所述图像描述模型，优化过程中，卷积神经网络的参数固定，其他部分进行学习。

本实施例中，CNN的参数固定，剩余模型的学习率为5e-5。设

是采样得到的词序列，使用以下损失函数对CIDEr指标进行优化，其梯度的近似计算方式为：

其中r(·)是CIDEr指标的计算函数，

是贪心解码获得的词序列，用来约束梯度的变化幅度。

为了验证本申请方法的性能，设计了以下实验。

在公开数据集MS COCO上使用本方法进行训练以及测试，使用BLEU、METEOR、ROUGE_L、CIDEr和SPICE标准来对生成的句子进行评价。在MSCOCO数据集上，其训练集有113287张图像，验证集和验证集各有5000张图像，每张图像有5条以上人工标注的参考句子；

表1本发明在MS COCO数据集上性能表现

方法	B-1	B-4	METEOR	ROUGE_L	CIDEr	SPICE
							基准模型	79.8	36.3	27.7	56.9	120.1	21.4
本发明	80.0	37.6	28.2	57.8	123.9	21.9

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于长短时记忆网络变体的图像描述生成方法，其特征在于，该方法利用一图像描述模型生成待识别图像的图像描述，所述图像描述模型包括卷积神经网络、图像特征编码模块和描述生成模块，所述卷积神经网络获得待识别图像的初始图像特征，所述图像特征编码模块对初始图像特征进行处理，所述图像特征编码模块的输出和所述初始图像特征同时作为描述生成模块的输入，所述描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子；

所述描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述第二LSTM用于描述CaptionNet网络输出的前面时间步生成的句子信息，生成前面时间步词特征，所述注意力网络用于生成局部注意力图像特征，所述CaptionNet网络为LSTM变体，其输入门和细胞输入仅以所述局部注意力图像特征作为输入，其遗忘门和输出门同时以所述局部注意力图像特征和前面时间步词特征作为输入。

2.根据权利要求1所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述图像特征编码模块的处理过程具体为：

3.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述初始图像特征依次经过两个全连接层和一个ReLU激活函数后变换为所述序列图像特征。

4.根据权利要求2所述的基于长短时记忆网络变体的图像描述生成方法，其特征在于，所述第一LSTM中，在时间步j，第一LSTM的隐藏层