CN111818397B

CN111818397B - 一种基于长短时记忆网络变体的视频描述生成方法

Info

Publication number: CN111818397B
Application number: CN202010602795.9A
Authority: CN
Inventors: 王瀚漓; 李秦渝; 杨龙雨
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2021-10-08
Anticipated expiration: 2040-06-29
Also published as: CN111818397A

Abstract

本发明涉及一种基于长短时记忆网络变体的视频描述生成方法，包括以下步骤：1)构建视频描述模型，该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块；2)输入待描述的视频，通过卷积神经网络获取初始视频特征；3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征；4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块，并对视频描述模型进行训练，并使用训练好的视频描述模型生成描述句子。与现有技术相比，本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。

Description

一种基于长短时记忆网络变体的视频描述生成方法

技术领域

本发明涉及视频理解和自然语言处理交叉技术领域，尤其是涉及一种基于长短时记忆网络变体的视频描述生成方法。

背景技术

视频描述是视觉智能中的高级任务，要求模型具备对视频内容深度理解的能力，该任务通过机器学习模型，将视频信息自动转换为自然语言描述，在视频搜索、互联网内容审查、视频监控、机器人、智能医疗等领域都有广泛的应用前景，因此引起了国内外众多学者的研究兴趣，而视觉内容描述作为从视觉到语言的转化，是一项结合了计算机视觉和自然语言处理两个领域的综合任务，视频描述任务不仅要求算法模型能够识别视频中的对象，还需要识别对象的行为、理解对象之间的关系，再用自然语言进行描述，因此该任务也是机器学习领域的一大难点问题。

目前，大部分学者主要使用深度学习方法来实现视觉描述任务，最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征，再将视觉特征送入长短时记忆网络(LSTM)来生成自然语言描述，如中国专利CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制，注意力网络(Attention Network)也被引入视觉描述任务，如中国专利CN108052512A，但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的视频描述生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于长短时记忆网络变体的视频描述生成方法，包括以下步骤：

1)构建视频描述模型，该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块；

2)输入待描述的视频，通过卷积神经网络获取初始视频特征；

3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征；

4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块，并对视频描述模型进行训练，并使用训练好的视频描述模型生成描述句子。

所述的步骤3)具体为：

将初始视频特征按时间序列输入到第一LSTM中，获取带有语义信息的全局视频特征。

对于第一LSTM，在第i时间步，其第一LSTM的隐藏层

和细胞层

的计算式为：

其中，v_i为第i时间步视频特征序列中的元素，

分别为第一LSTM的第i-1时间步的隐藏层和细胞层，

分别为第一LSTM的初始隐藏层和细胞层，LSTM₁(·)为第一长短时记忆网络。

所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息，并生成句子特征，所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征，即注意力视频特征，所述的CaptionNet网络为LSTM变体，其输入门和细胞输入仅以注意力视频特征作为输入，其遗忘门和输出门同时以注意力视频特征和句子特征作为输入。

所述的步骤4)中，卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致，输入描述生成模块的注意力网络中。

对于第二LSTM，在第t时间步，其隐藏层

和细胞层

的计算式为：

其中，y_t-1为上一时间步视频描述模型所生成的词，W_e为可学习的词嵌入矩阵，

分别为第二LSTM的第t-1时间步的隐藏层和细胞层，

为第二LSTM的初始隐藏层和细胞层，LSTM₂(·)为第二长短时记忆网络。

在第t时间步，注意力视频特征的表达式为：

其中，

为注意力视频特征，α_tj为概率分布，V_j′为经维数变换后的初始视频特征中的一个特征向量，K为经维数变换后的初始视频特征的个数。

对于CaptionNet网络，在第t时间步，CaptionNet网络的隐藏层

和细胞层

的表达式为：

其中，

为第二LSTM的隐藏层，

为上一个时间步CaptionNet网络的隐藏层和细胞层，

为注意力视频特征，CaptionNet(·)为变体长短时记忆网络，

为视频特征编码模块的输出，下标k表示第k时间步；

在CaptionNet网络中，采用隐藏层

预测下一个词的概率p(y_t|y₁,…y_t-1)，则有：

其中，W_p为可学习的参数矩阵，b_p为可学习的偏置向量。

所述的步骤4)中，视频描述模型的具体训练过程具体为：

41)使用交叉损失函数对视频描述模型进行M轮训练；

42)使用强化学习方法优化视频描述模型，在优化过程中，卷积神经网络的参数固定，其他部分进行学习。

在步骤41)中，每轮训练的学习率递减。

与现有技术相比，本发明具有以下优点：

1、本发明将视频特征按时间序列输入到长短时记忆网络(LSTM)中，可以获得语义信息更加丰富的全局视频特征，进而提高视频描述准确性。

2、本发明针对现有经典模型缺失对某些关键帧特征的提取(如S2VT)，或者缺失对全局特征的提取(如SA-LSTM)这一问题，对注意力模型进行改进，使其不仅可以提取某些关键帧特征，还可以进行全局特征提取，兼顾了现有经典模型的优点，从而帮助模型更加准确地生成描述信息。

3、本发明针对LSTM每一时间步只能接收一个输入，而基于注意力的视频描述生成模型往往有两个输入这一问题，对LSTM进行改进，使其能接收两个输入，以获得更多视频信息，减少前面时间步的句子信息对当前时间步输出的不利影响，显著提升视频描述的质量和准确性。

附图说明

图1为视频描述模型的整体框架图。

图2为视频特征编码模块的框架图。

图3为每个时间步使用注意力网络生成词的框架图。

图4为LSTM变体，即CaptionNet网络的内部结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明，本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于长短时记忆网络变体的视频描述生成方法，本方法利用一视频描述模型生成待识别视频的视频描述，如图1所示，视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块，卷积神经网络获得待识别视频的初始视频特征，视频特征编码模块对初始视频特征进行处理，视频特征编码模块的输出和初始视频特征同时作为描述生成模块的输入，描述生成模块中，基于注意力机制和长短时记忆网络变体生成描述句子。

如图2所示，视频特征编码模块的处理过程具体为：将初始视频特征按照时间序列输入至第一LSTM(记作LSTM₁)中，获取带有语义信息的全局视频特征。

视频特征编码模块的具体过程包括：

1)将视频描述数据集MSR-VTT中的每一个视频按平均间隔提取30帧，将每一帧转化为RGB图像并调整大小为224×224，输入到已在ImageNet上预训练好的ResNet152中，取其最后一个卷积层的输出作为该帧的特征，记为

其中K＝30为帧数，D＝2048为每一帧的特征维数。

2)将初始视频特征V＝[v₁,v₂,…v_k]按时间序列输入到第一LSTM(LSTM₁)中，以此进行全局特征编码。在每个时间步i，LSTM₁的隐藏层

和细胞层

的计算方式为：

其中，LSTM内部的计算方式为：

i_i＝σ(W_ivv_i+W_ihh_i-1+b_i)

f_i＝σ(W_fvv_i+W_fhh_i-1+b_f)

o_i＝σ(W_ovv_i+W_ohh_i-1+b_o)

g_i＝tanh(W_gvv_i+W_ghh_i-1+b_g)

c_i＝i_i⊙g_i+f_i⊙c_i-1

h_i＝o_i⊙tanh(c_i)

这里，i_i，f_i，o_i，g_i分别为LSTM的输入门、遗忘门、输出门和细胞输入。

3)为了使得V的维数与注意力网络的维数一致，作以下变换：

V′＝ReLU(W_vV+b_v)

其中，W_v∈R^D′×D,b_v∈R^D′为可学习的参数，D′＝1024与LSTM隐藏层的维数大小相等。

如图3所示，描述生成模块包括依次连接的第二LSTM(记作LSTM₂)、注意力网络和CaptionNet网络，第二LSTM用于描述CaptionNet网络前面时间步的句子信息，生成句子特征，注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征，CaptionNet网络为LSTM变体，其输入门和细胞输入仅以注意力视频特征作为输入，其遗忘门和输出门同时以注意力视频特征和前面时间步的句子特征作为输入。

生成时间步t的词时，包括步骤：

1)使用LSTM₂来对前面时间步的句子内容进行建模，LSTM₂的隐藏层

和细胞层

的计算方式为：

其中，y_t-1是上一个时间步模型所生成的词，W_e是可学习的词嵌入矩阵。

2)使用注意力网络在视频特征时间维度上生成一个概率分布α_t：

α_t＝softmax(z_t)

其中，w_a∈R^H,W_va,W_ha∈R^H×H是待学习参数，之后，计算时间步t的注意力视频特征

3)使用CaptionNet预测时间步t生成的词，输入输出为：

其中，

是CaptionNet的隐藏层和细胞层。

如图4所示，CaptionNet的内部更新方式是只允许注意力视频特征

进入输入门i′_t和细胞输入g′_t，具体表示为：

对于CaptionNet的遗忘门f′_t，需要注意力视频特征

和前面时间步的句子内容

共同输入，以决定舍弃那些已生成句子信息的视频特征，具体表示为：

对于CaptionNet的输出门o′_t，也同样需要注意力视频特征

和前面时间步的句子内容

共同输入，以此训练模型决定哪些视频特征被输出到

中：

之后，CaptionNet细胞层和隐藏层的更新方式与LSTM相同：

4)使用

来预测下一个词的概率，具体表示为：

其中，W_p∈R^G×H是可学习的参数矩阵，b_p∈R^G是可学习的偏置向量，G是词典的大小。

上述视频描述模型搭建完毕后的训练过程具体为：

1)使用交叉损失函数对视频描述模型进行M轮训练

本实施例中，设一个视频描述真实的词序列是

模型的全部待学习参数为θ，CNN不参与训练。学习率lr初始化为5e-4，学习率按如下公式递减：

lr＝5×10^-4·β^[epoch/5」

其中，β＝0.8为学习率的递减率。

交叉损失函数具体表示为：

2)使用强化学习方法优化视频描述模型，优化过程中，卷积神经网络的参数固定，其他部分进行学习。

本实施例中，学习率为5e-5。设

是采样得到的词序列，使用以下损失函数对CIDEr指标进行优化，其梯度的近似计算方式为：

其中，r(·)是CIDEr指标结合BLEU指标的奖赏函数，

r(Y)＝λ·CIDEr-D(Y)+(1-λ)·BLEU@4(Y)(λ＝0.75)

b是模型经贪心搜索得到的词序列的奖赏，为了约束梯度变换的幅度。

为了验证本申请方法的性能，设计了以下实验。

在公开数据集MSR-VTT上使用本方法进行训练以及测试，使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSR-VTT数据集上，随机选取2990个视频作为测试集，497个视频作为验证集，剩下的6513个视频作为训练集。每个视频有20个人工标注的英文句子。

表1本发明在MSR-VTT数据集上性能表现

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于长短时记忆网络变体的视频描述生成方法，其特征在于，包括以下步骤：

3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征，具体为：

将初始视频特征按时间序列输入到第一LSTM中，获取带有语义信息的全局视频特征；

4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块，并对视频描述模型进行训练，并使用训练好的视频描述模型生成描述句子，所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络，所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息，并生成句子特征，所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征，即注意力视频特征，所述的CaptionNet网络为LSTM变体，其输入门和细胞输入仅以注意力视频特征作为输入，其遗忘门和输出门同时以注意力视频特征和句子特征作为输入，对于第二LSTM，在第t时间步，其隐藏层