CN111460883B

CN111460883B - 基于深度强化学习的视频行为自动描述方法

Info

Publication number: CN111460883B
Application number: CN202010074922.2A
Authority: CN
Inventors: 代成; 刘欣刚; 许浩; 倪铭昊; 曾昕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2022-05-03
Anticipated expiration: 2040-01-22
Also published as: CN111460883A

Abstract

本发明公开了一种基于深度强化学习的视频行为自动描述方法，属于视频自动描述技术领域。本发明首先对视频数据进行图像预处理，将其转化为帧图像，然后提取空间域特征和时域特征，进行拼接后得到视频序列各帧的特征向量；再基于LSTM编码器将各帧编码为一个向量，以及基于LSTM解码器将固定向量解码成不同长度的自然语言。LSTM编码器和解码器所涉及的神经网络参数优化时的损失函数为生成词语与标注的参考语句的单词的交叉熵损失；从而获得准确的视频描述。进一步还可以对训练好的LSTM编码器、解码器进行强化学习，损失函数采用随机策略概率乘上随机策略奖励与最优策略奖励之差，以获得更高的描述准确率。

Description

基于深度强化学习的视频行为自动描述方法

技术领域

本发明涉及视频自动描述技术领域，具体涉及一种基于深度强化学习的视频自动描述方法。

背景技术

随着互联网技术的发展，视频逐渐成为一种重要的内容形式，每时每刻，有无数新的视频出现在互联网上。在海量的视频数据面前，对于视频的分析理解，成为一个重要的研究课题。视频内容分析包括视频检索、视频分类、视频行为识别、视频自动描述等。其中，视频自动描述任务是指利用人类自然语言，对视频中所发生的事件进行正确的描述。这对于人类而言轻而易举，但对于机器而言，是一个极具挑战性的任务。这要求机器从时序上理解视频的内容，将提取的信息翻译成语法正确的人类可理解的语言。这是两大传统研究领域，计算机视觉与自然语言处理的结合，引起了许多研究者的研究兴趣。

视频自动描述任务是指利用人类自然语言，对视频中所发生的事件进行正确的描述。输入是一段一分钟以内的短视频，输出是对段该视频的一句话描述。传统的视频自动描述方法基于语言模板对视频的内容进行描述。这种方法主要有两个步骤，第一步是识别视频中的内容，包括物体、动作和主要人物，第二步则是将第一步识别到的内容利用一定的规则嵌入到事先给定的句子模板当中。然而，这种方法生成的句子往往比较呆板，难以描述较复杂的场景。因此，基于深度学习的自动视频描述方法成为现在的研究热点。对于使用深度学习建模视频自动描述任务，主要有两个步骤，第一步是提取视频的特征信息，第二步是利用编码器-解码器结构生成自然语言描述。然而，通常的基于深度学习语言模型存在着误差累积的问题，且模型评估在训练时和测试时不能保持一致性。因此，需要运用强化学习算法，解决视频描述模型训练和测试的不一致性，并提高模型测试时的准确性。

发明内容

本发明的发明目的在于：针对现有技术中语言描述生成准确率低的技术问题，提供一种基于深度强化学习的视频自动描述方法。

本发明的基于深度强化学习的视频自动描述方法，包括下列步骤：

步骤S1：图像预处理：

将待描述的视频数据转化为帧图像，得到帧图像序列；

步骤S2：特征提取：

基于预置的第一卷积神经网络提取帧图像的空间域特征；

基于预置的第二卷积神经网络提取帧图像的时域特征；

拼接同一帧图像的空间域特征和时域特征，得到帧图像的特征向量x_j，其中帧编号j＝1,…,T，T表示帧图像序列的帧数；

步骤S3：特征编码：

采用LSTM(Long Short-Term Memory)网络作为编码器(即LSTM编码器)，分别将各帧图像编码为一个固定向量；

将特征序列(x₁,...,x_T)输入LSTM编码器，基于编码器的输出得到注释序列(h₁,...,h_T)；

并根据输出时刻的不同产生不同的固定向量c_i：

即固定向量c_i是注释序列的加权和，其中i表示输出时刻，即对应帧图像序列的帧编号，权重

对齐模型e_ij＝a(s_i-1,h_j)，s_i-1表示编码器第i-1时刻的隐藏状态；a(·)表示预置的激活函数；

步骤S4：特征解码：

采用LSTM网络作为编码器(即LSTM解码器)，输出每帧图像的生成词；

预置视频描述的开始词和结束词；

生成任意第i帧的生成词(即生成第i个单词)具体为：

将前一个生成词基于预置的词向量映射函数映射为固定长度的词向量，记为y_i-1；其中，首个生成词时，其对应的前一个单词为预置的开始词，例如“<BOS>”；

根据前一个生成词的词向量y_i-1和解码器的上一个隐藏状态s_i-1生成解码器的当前隐藏状态s_i，即s_i＝f([y_i-1,c_i])，[]表示向量拼接，f()为预置的激活函数，其中，解码器的初始隐藏状态s₀为编码器生成的注释序列的最后一个值h_T；

再将LSTM网络的输出经过一个以Softmax为激活函数的全连接网络，得到该输出在预置的词库的每个单词的输出概率，并选择输出概率最高的单词作为当前的生成词；

基于预置的开始词和结束词，并按生成顺序组合所有生成词，得到待描述的视频数据的自动描述；

其中，步骤S3与步骤S4中所涉及的两个LSTM网络的神经网络参数在学习训练时所采用的损失函数为生成词语与标注的参考语句的单词的交叉熵损失：

其中，w_t表示参考语句中的第t个单词，

表示第t个生成词,p_θ(w_t)表示神经网络参数为θ时，生成单词w_t的概率。

即，对于本申请中所采用的两个LSTM网络神经网络参数，基于交叉熵损失L、以及抑制过拟合的方式对其进行优化(神经网络训练)，当满足预设的迭代收敛条件时，结束优化处理，得到训练好的LSTM编码器和LSTM解码器。

为了提升生成的语言质量，本申请还可以对基于交叉熵损失L训练确定的LSTM网络的神经网络参数再进行强化学习，具体学习过程为：

(1)计算随机策略奖励：

在每次生成词的生成过程中，随机从预置的词库中选择一个单词作为当前生成词，记为

i∈[1,T]；

基于预置的开始词和结束词，并按生成顺序组合所有生成词，得到第一生成语句；

计算第一生成语句在CIDEr(Consensus-based image description evaluation)指标上的得分，作为随机策略奖励，记为

(2)计算最优策略奖励：

在每次生成词的生成过程中，从预置的词库中选择对应LSTM解码器的当前输出的输出概率最大的单词作为当前生成词，记为

i∈[1,T]；

基于预置的开始词和结束词，并按生成顺序组合所有生成词，得到第二生成语句；

计算第二生成语句在CIDEr指标上的得分，作为最优策略奖励，记为

(3)计算第二交叉熵损失L′：

其中，

表示神经网络参数为θ时，生成单词序列

的概率；

基于第二交叉熵损失L′、以及预置的抑制过拟合方式继续对神经网络参数进行优化，当满足预设的迭代收敛条件时，结束优化，得到最终的LSTM编码器和LSTM解码器。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明通过深度学习技术能够获得复杂场景下的视频时空特征，再使用带有注意力机制的LSTM编码器-解码器对视频特征序列进行编码解码，能够得到较准确的视频描述；同时基于深度学习的视频自动描述方法相对于传统的SVO(Semi-Direct MonocularVisual Odometry)模板方法更加灵活，并且能够获得更高的描述准确率。

附图说明

图1为具体实施方式中，本发明总体框架示意图。

图2为具体实施方式中，本发明中基于循环卷积神经网络和循环神经网络的基本视频自动描述模型示意图；

图3为具体实施方式中，本发明所构建的自校准(self-critical)策略示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

参见图1，本发明的基于深度强化学习的视频自动描述方法，包括如下步骤：

步骤S1：图像预处理，将视频数据转化为帧图像；

使用FFmpeg工具，完成视频到对应帧的转换。

本具体实施方式中，处理的视频长度大多在10秒钟到25秒钟之内的短视频文件，按每秒24帧计算，大约有240-600帧。为了减少计算量，提高计算速度，使用系统采样的方式，等间隔将视频帧进行采样80帧，并将每一帧处理为224*224*3的大小。这样，减少了计算量，且尽量保存视频信息不丢失。

步骤S2：特征提取。

将预处理后的帧图像序列(视频图像序列)输入到预训练的卷积神经网络中，用于提取视频的空间域和时域特征。

本具体实施方式中，为了简化对卷积神经网络的训练过程，所采用的用于提取空间域特征的卷积神经网络为：在ImageNet数据集上预训练的152层的ResNet网络，即ResNet-152；用于提取时域特征的卷积神经网络为：在Kinetics数据集上预训练的152层的C3D-ResNet网络，即C3D-ResNet-152。

由于上述数据集上预训练的ResNet-152与C3D-ResNet-152是用于分类处理，故将分类层的前一层输出作为视频序列特征。即分别基于预训练的ResNet-152与C3D-ResNet-152的分类层的前一层输出得到对应的特征提取结果。

然后，将这些提取到的特征以对象的形式进行保存。例如将这些特征以Numpy(Python语言的一个扩展程序库)的ndarray对象的形式保存到npy格式的文件中，以便于更好的读取这些特征数据，其中ndarray对象用于存放同类型元素的多维数组。

由于输入C3D-ResNet-152的每16帧视频图像对应输出1个向量，因此将所提取的空间域特征和时域特征进行特征拼接(concat)时，需要将对应的维度复制16次(图1中的tile指的就是这个复制的过程)，从而得到所输入的帧图像序列的视频特征序列(x₁,...,x_T)，其中T表示帧数。

步骤S3：特征编码。

使用LSTM将视频的各个帧编码为一个向量，即将视频特征序列输入到LSTM编码器(LSTM Encoder)中，生成注释序列(h₁,...,h_T)，利用注意力机制，对于不同时刻，生成不同的上下文向量。

S31：使用LSTM编码器编码所输入的视频特征序列(x₁,...,x_T)，得到一段注释序列(h₁,...,h_T)；

S32：使用注意力机制，根据输出时刻的不同产生不同的固定词向量c_i，它代表了不同时刻产生单词的上下文向量，它是注释序列的加权和：

其中，权重α_ij为：

e_ij＝a(s_i-1,h_j)；

e_ij是一个对齐模型，用于评估位置j的输入与位置i的输出之间的匹配程度，即时刻j、i的输入之间的匹配程度，i,j＝1,…,T；a(·)表示预置的激活函数，其输入为s_i-1和h_j，输出为e_ij，其中s_i-1表示LSTM解码器第i-1时刻的隐藏状态。a(·)可以使用单层神经网络实现，如：a(s_i-1,h_j)＝h_jW_as_i-1，其中，W_a是一个神经网络的待学习参数，表示单层神经网络的一种形式。W_a在网络初始化时为随机值，在更新编码器解码器网络参数时将被一同更新。

步骤S4：特征解码。

使用LSTM将特征编码步骤得到的固定向量解码成不同长度的自然语言。

生成一个单词时，将此时的上下文向量和前一个单词的词向量拼接后输入LSTM解码器(LSTM Decoder)，LSTM解码器的初始隐藏状态s₀是LSTM编码器生成的注释序列的最后一个值h_T，再经过一个全连接网络，得到各个输出单词的概率，选择概率最大的词作为生成的单词。并计算与任选的一句参考语句的单词的交叉熵损失。

S41：生成第i个单词时，将前一个单词映射为固定长度的词向量；

S42：根据前一个单词的词向量y_i-1、解码器LSTM的上一隐藏状态s_i-1，以及当前的上下文向量c_i，生成解码器LSTM此刻的隐藏状态s_i：s_i＝f(s_i-1,y_i-1,c_i)；其中，f()为预置的激活函数，s_i-1由于是隐藏状态，具体实现时不显式输入，y_i-1和c_i拼接后输入到解码器。因此，也可以表示为s_i＝f([y_i-1,c_i])，其中符号[]表示向量拼接；

S43：将LSTM网络的输出(s_i)经过一个以Softmax为激活函数的全连接网络，得到对应输出s_i，词库(词表)的每个词的输出概率。选择输出概率最高的词作为此时的输出词。对于生成的初始词，它的前一个词为开始标记，表示为<BOS>。句子的末尾为结束标记，表示为<EOS>。

S44：计算损失，更新模型参数。只需要更新编码器和解码器对应的神经网络参数。损失函数为与标注的参考语句的单词的交叉熵损失：

其中，w_t代表参考语句中的第t个单词，

代表生成的第t个单词，p_θ(w_t)代表神经网络参数为θ时，生成单词w_t的概率。

即，本发明对于待处理的视频，等间隔采样一定数量的帧图像，并将尺寸归一化后的各帧图像输入到卷积神经网络CNN，提取到对应的视频特征序列，然后输入到LSTM编码器中，生成注释序列(h₁,...,h_T)以及上下文向量；LSTM解码器基于上下文向量和生成的前一个单词确定当前生成的单词，且在生成的第一个单词前增加开始标记<BOS>，在最后一个生成的单词词后增加结束标记<EOS>，则基于单词序列得到待处理视频的自动描述，如图2中，所输入的一定数量的帧图像的自动描述为：<BOS>A dog is barking<EOS>。

步骤S5：强化学习，使用一种称为自校准(self-critical)的强化学习策略，作为一种训练技巧，运用到监督学习中，解决模型训练过程和测试过程不一致的缺陷，提高生成语言质量。即以自校准的方式继续训练模型(即训继续练编码和解码过程中所涉及的神经网络参数)，只是特征解码的方式有所不同。参见图3，其具体包括下述步骤：

S51：将视频自动描述问题放入强化学习的框架中，语言模型是强化学习时的智能体，它与外部环境，即上一个单词(上一个生成词)的词向量交互。语言模型的参数定义了强化学习的策略网络，将前一个步骤训练的模型参数作为策略网络的初始参数。在单词序列的生成过程中，强化学习的每个动作指的是每一次预测序列中的下一个单词。

S52：生成一个单词时，以随机性策略选取动作，即按照此时单词的概率，随机地选择单词，而非直接选择概率最大的单词，生成完整的句子后，计算其在CIDEr(Consensus-based image description evaluation)指标上的得分，作为随机策略的奖励；

S53：生成一个单词时，以最优策略选取动作，即直接选择概率最大的单词，生成完整的句子后，计算其在CIDEr指标上的得分，作为最优策略的奖励；

S54：更新模型参数，损失函数定义为负的随机策略概率乘上随机策略奖励与最优策略奖励之差：

其中，

代表使用随机策略生成的第t个单词，

代表使用当前最优策略生成的第t个单词,p_θ(w₁,...w_T)代表神经网络参数为θ时，生成单词序列(w₁,...w_T)的概率，r(w₁,...w_T)代表(w₁,...w_T)序列的CIDEr得分。

即，在步骤S5中，生成一个单词时，它的编码过程与原先的方式相同；解码时有两种策略，一种是随机性策略，也称为采样(sample)，即按照此时单词的概率，随机地选择单词，而非直接选择概率最大的单词。另一种是最优性策略，也称为求最大值点(argmax)，即直接选择概率最大的单词。解码时输入初始状态s₀和初始单词<BOS>的词向量，以随机策略和最优策略分别生成单词编号序列并映射成句子，分别计算CIDEr得分，将随机策略的得分减去最优策略的得分作为强化学习的奖励，计算损失函数，更新LSTM编码器和LSTM解码器的神经网络参数。正常情况下，每个单词获得相同的奖励，但当句子到达末尾时，即出现EOS符号后，出现的单词不该获得奖励。因此，奖励需要乘上一个掩模(mask)，即将EOS符号后的单词奖励置为0。训练时采用早停法，例如发现模型使用最优策略的CIDEr分数在验证集上低于最高值的情况发生低于预设的次数(例如50次)时，认为模型过拟合，停止训练，并将CIDEr分数处于最高值的模型作为训练的结果。并基于该训练结果实现对待处理的视频的自动描述输出。

本具体实施方式中，通过采用预训练的ResNet和C3D-ResNet卷积神经网络模型来进行视频特征的提取，并采用数据集为MSVD进行仿真实验。MSVD包含1970段来自视某频网站的视频片段，时长在10-25s之间，包括了多样的人物、动物和场景。每段视频都有多种语言标注，其中英文句子大约有40条，平均每句话包含8个单词。进行仿真实验时，将数据集做进一步划分，其中1200段视频作为训练数据，100段视频作为验证数据，670段视频作为测试数据。选择训练数据中出现次数超过一次的单词作为词汇表，共计9896个单词。使用coco-caption工具评估候选语句在给定参考语句下的得分，涉及的机器翻译评价指标包括：BLEU-4、METEOR、ROUGE和CIDEr。未使用强化学习策略时，各个指标上的得分为：BLEU-4：0.456，METEOR：0.339，ROUGE：0.698，CIDEr：0.787。使用强化学习策略后，各个指标上的得分为：BLEU-4：0.487，METEOR：0.340，ROUGE：0.709，CIDEr：0.854。通过仿真实验结果可知，利用强化学习策略进一步训练模型，可以有效提高视频自动描述语句的准确率，具有非常良好的应用前景。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。