CN109213896A

CN109213896A - 基于长短期记忆网络强化学习的水下视频摘要生成方法

Info

Publication number: CN109213896A
Application number: CN201810884718.XA
Authority: CN
Inventors: 陈华杰; 张杰豪; 姚勤炜; 侯新雨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-15
Anticipated expiration: 2038-08-06
Also published as: CN109213896B

Abstract

本发明公开基于长短期记忆网络强化学习的水下视频摘要生成方法。本发明首先构建语义特征网络、长短期记忆网络、多层感知器网络；然后对摘要视频进行质量评估：多样性与代表性。最后根据质量评估的两个回报函数，采用强化学习中典型的策略梯度的方法训练整个视频摘要网络，更新对应的MLP网络参数，直至完成所有语义特征评估，得到优化的MLP模型，用于生成高质量的摘要视频。本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节，方法简单易于实现，对使用传统方法的工程无需重新构造，详细兼容，能够节省大量人力。

Description

基于长短期记忆网络强化学习的水下视频摘要生成方法

技术领域

本发明属于深度学习及视频分析技术领域，涉及一种基于长短期记忆网络强化学习的水下视频摘要生成方法。

背景技术

在视频分析领域，视频摘要是指利用计算机技术分析视频结构、理解视频内容，并从原始的多媒体数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。在实际应用于水下视频时，目前已有方法主要面对两大问题：一是视频标注数据较少(甚至没有)时的视频摘要，也就是弱(无)监督学习的视频摘要生成；二是针对水下视频的特征映射:水下视频的特性、包含场景、目标类型等均有别于常规的陆地上拍摄的视频，那么其特征映射方式就需要重新设计。本发明所提出的基于长短期记忆网络强化学习的水下视频摘要方法就是将时空关联建模作为突破口。

原始视频是时-空维度上的数据集合，视频摘要就是从这个数据集合上抽取有代表性的子集。视频摘要涉及到两个关键的处理环节：特征映射与时空关联建模。特征映射是将原始视频映射到特征空间，降低数据维度的同时初步降低数据冗余度，在特征空间上的相似性测度比在原始数据空间上的相似性测度有可能更符合人的视觉特点。时空关联是指视频数据集合在时间与空间上的相关性，视频数据的冗余一定程度上就体现其时空上的关联；挖掘这种时空关联模式，有助于抽取出相互独立的且有代表性的摘要视频子集。

在特征映射与时空关联建模这两个关键处理环节上，基于深度学习的视频摘要方法比传统的视频摘要方法具有优势。在特征映射方面，与传统的颜色、纹理、边缘、视觉显著性等特征相比，在大量样本的支撑下，卷积神经网络(Convolutional Neural Network，CNN)能提供的特征描述层次更多，内容更丰富，且适应性更强。本发明采用长短期记忆网络(Long Short-Term Memory，LSTM)对视频中存在的变时间长度关联结构进行时空关联建模，对其有更好的描述。

发明内容

本发明的目的在于针对传统视频摘要方法的不足，为深度学习及视频分析研究提供一种基于长短期记忆网络强化学习的水下视频摘要生成方法。

本发明方法包括以下步骤：

步骤(1)、设计与训练语义特征网络。

从水下监测需求出发，相关的语义内容包括感兴趣目标的类型、时空定位以及运动信息等。鉴于典型CNN在视觉特征提取上的良好表现，可以基于典型CNN构建语义特征网络。在CNN的大框架下，语义特征映射网络的结构设计的主要内容是其容量，如卷积层数、总的通道数等。制约容量设计有两方面的因素：其一是语义特征表达的需求，从底层特征逐步上升到高层语义，需要网络有足够的容量；其二是训练样本数的约束，特定目标的水下视频样本数量相对少，为了保证网络的泛化能力，网络的容量必须限制在于与样本相匹配的程度。在感兴趣目标水下视频相对有限的条件下，选择较为粗略的二分类方案，对CNN的容量的要求较低，从而能够保证获取的特征有较强的适应性。

语义特征网络输入为水下视频的每帧图像，输出为视频每帧的语义特征。

步骤(2)、设计长短期记忆网络结构。

采用长短期记忆网络(LSTM)对视频帧集合在不同时间尺度上关联进行建模，输出隐藏状态以便后续步骤中与步骤(1)的每帧特征信息结合，最终构建关键帧集合。

所述的不同时间尺度上关联具体表现必须为时序上的双向性，前向代表当前帧与之前帧的关联，后向代表当前帧与未来帧的关联。

具体是构建双层双向LSTM网络结构。第一层是前向网络，用来对顺序时间排序的视频帧集合的关联建模；第二层是后向网络，用来对逆序时间排序的视频帧集合的关联建模。

LSTM的输入为步骤(1)得到的视频每帧特征信息的集合，输出为LSTM单元中的隐藏状态信息(hiden state)。

步骤(3)、构建多层感知器网络

将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中，输出对应视频帧的概率测度(即上述对应视频帧属于摘要视频的概率)。

步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略

鉴于水下视频摘要标注样本较少，视频摘要网络的学习重点考虑无监督学习方式。将视频摘要看作是序列决策过程，采用强化学习进行训练。在强化学习范式下，视频摘要网络的动作是根据原始视频生成摘要视频，回报函数是摘要视频的综合性能评价指标，在回报函数的指引下，视频摘要网络进行迭代更新。回报函数的具体形式以及视频摘要网络的更新算法都是具体的设计内容。

假设p_i是第i个MLP的输出，表示第i个视频帧属于摘要视频的概率，那么根据全部MLP的输出进行阈值采样(概率高于一定阈值即采样)，就可以获取在当前网络下的摘要视频：S＝{v_yi|a_yi＝1,i＝1,2,3,...}，其中v_yi是当前选中的视频帧，a_yi∈{0,1}表示采样情况，即a_yi＝1则视频帧是属于摘要视频。

在训练过程中，评估当前网络获取的摘要视频的质量，并由此计算回报函数。对摘要视频的质量评估包含两个因素：多样性与代表性。

多样性评估是测度摘要视频帧之间的差异性。假设Y＝{y_i|i＝1,2,...N}是摘要视频帧的下标集合，是摘要视频帧的个数，那么多样性回报函数可表示为：

其中，x_t是摘要视频帧的第t个语义特征，x_t'是摘要视频帧的第t′个语义特征，d(·,·)是两个语义特征之间的差异或不显示性测度。

代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示。假设X＝{x_t|t＝1,2,...M}是原始视频的语义特征集合，M是原始视频帧的个数，那么代表性回报函数可表示为：

其中，exp()表示自然常数e为底的指数函数。

总回报函数R(S)＝R_div+R_rep。

根据回报函数，可采用强化学习中典型的策略梯度的方法训练整个视频摘要网络(包括语义特征网络、长短期记忆网络、多层感知器网络)，更新对应的MLP网络参数，直至摘要视频评估结束(即完成所有语义特征评估)，得到优化的MLP模型，用于生成高质量的摘要视频。

本发明的有益效果是：采用双层双向LSTM网络结构对视频帧集合在不同时间尺度上关联进行建模，再运用强化学习方法进行网络参数更新，最终生成高质量的视频摘要。

本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节，方法简单易于实现，对使用传统方法的工程无需重新构造，详细兼容，能够节省大量人力。并且可以与其它视频摘要的方法相结合，进一步提高生成的摘要视频质量。

附图说明

图1为本发明的流程图。

图2为本发明各网络构建设计图。

具体实施方式

下面结合具体实施例对本发明做进一步的分析。

本实施例在基于长短期记忆网络强化学习的水下视频摘要生成过程中具体包括以下步骤，如图1所示：

步骤(1)、设计与训练语义特征网络。

本发明的语义特征网络关注感兴趣目标的类型信息。从上述语义特征出发，选择适当的训练样本。训练样本集划分为两大类：感兴趣目标样本与其他样本。在感兴趣目标水下视频相对有限的条件下，选择较为粗略的二分类方案，对CNN的容量的要求较低，从而能够保证获取的特征有较强的适应性。

鉴于CNN在视觉特征提取上的良好表现，可以基于CNN构建语义特征映射网络。本实施例采用GoogleNet网络提取视频每帧的语义特征信息，输入为水下视频的每帧图像，输出为视频每帧的语义特征信息。

步骤(2)、基于长短期记忆网络进行视频摘要网络结构设计。

视频摘要网络可构建双层双向LSTM网络结构。第一层是前向网络，用来对顺序时间排序的视频帧集合的关联建模；第二层是后向网络，用来对逆序时间排序的视频帧集合的关联建模。

步骤(3)、构建多层感知器网络

将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中，输出上述关键帧的概率测度(即上述关键帧属于摘要视频的概率)，如图2所示。

步骤(4)、设计视频摘要网络的强化学习算法。

假设p_i是第i个MLP的输出，表示第i个数据帧属于摘要视频的概率，那么根据全部MLP的输出进行随机采样，就可以获取在当前网络下的摘要视频：S＝{v_yi|a_yi＝1,i＝1,2,3,...}，其中v_yi是当前选中的视频帧，a_yi＝1表示视频帧是属于摘要视频。

在训练过程中，评估当前网络获取的摘要视频的质量，并由此计算回报函数。对摘要视频的质量评估包含两个因素：多样性与代表性。多样性评估是测度摘要视频帧之间的差异性。假设Y＝{y_i|a_yi＝1,2,...N}是摘要视频帧的下标集合，是摘要视频帧的个数，那么多样性回报函数可表示为：

其中，x_t是摘要视频帧的语义特征，d(·,·)是两幅视频帧之间的差异或不显示性测度。代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示。假设X＝{x_t|t＝1,2,...M}是原始视频的语义特征集合，M是原始视频帧的个数，那么代表性回报函数可表示为：

总回报函数R(S)＝R_div+R_rep。

根据回报函数，可采用强化学习中典型的策略梯度的方法训练视频摘要网络，更新对应的MLP网络参数，直至摘要视频评估结束，得到优化的MLP模型，用于生成高质量的摘要视频。

从上述实施例可以看出：本发明提出的水下视频摘要方法用CNN表示语义特征，用LSTM对视频帧之间不同时间尺度上的关联建模，采用强化学习的方式训练摘要网络。CNN对语义特征具有良好的表达能力，成功应用于目标监测、目标识别等方面。LSTM对短时关联与长时关联都有良好的建模能力，契合视频摘要任务的内在需求。视频摘要生成及其质量评估，也在强化学习的适用范围之类。因此，所提出的基于长短期记忆网络强化学习的水下视频摘要生成方法是可行的。

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。

Claims

1.基于长短期记忆网络强化学习的水下视频摘要生成方法，其特征在于该方法包括以下步骤：

步骤(1)、构建语义特征网络

基于典型卷积神经网络构建语义特征网络；语义特征网络输入为水下视频的每帧图像，输出为视频每帧的语义特征；

语义特征包括感兴趣目标的类型、时空定位以及运动信息等；

步骤(2)、构建长短期记忆网络结构

构建双层双向LSTM网络结构：第一层是前向网络，用来对顺序时间排序的视频帧集合的关联建模；第二层是后向网络，用来对逆序时间排序的视频帧集合的关联建模；

LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合，输出为LSTM单元中的隐藏状态信息；

步骤(3)、构建多层感知器网络

将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中，输出对应视频帧的概率测度，即上述对应视频帧属于摘要视频的概率；

步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略

4.1假设p_i是第i个MLP的输出，表示第i个视频帧属于摘要视频的概率，那么根据全部MLP的输出进行阈值采样，获取在当前网络下的摘要视频：S＝{v_yi|a_yi＝1,i＝1,2,3,...}，其中v_yi是当前选中的视频帧，a_yi∈{0,1}表示采样情况，即a_yi＝1则视频帧是属于摘要视频；

4.2对摘要视频的质量进行多样性与代表性的评估：

1)多样性评估是测度摘要视频帧之间的差异性；假设Y＝{y_i|i＝1,2,...N}是摘要视频帧的下标集合，是摘要视频帧的个数，那么多样性回报函数可表示为：

其中，x_t是摘要视频帧的第t个语义特征，x_t'是摘要视频帧的第t′个语义特征，d(·,·)是两个语义特征之间的差异或不显示性测度；

2)代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示；假设X＝{x_t|t＝1,2,...M}是原始视频的语义特征集合，M是原始视频帧的个数，那么代表性回报函数可表示为：

其中，exp()表示自然常数e为底的指数函数；

总回报函数R(S)＝R_div+R_rep；

4.3根据上述两回报函数，采用强化学习中典型的策略梯度的方法训练语义特征网络、长短期记忆网络、多层感知器网络，更新对应的MLP网络参数，直至完成所有语义特征评估，得到优化的MLP模型，用于生成高质量的摘要视频。