CN111460979A

CN111460979A - 一种基于多层时空框架的关键镜头视频摘要方法

Info

Publication number: CN111460979A
Application number: CN202010237689.5A
Authority: CN
Inventors: 滕国伟; 周杏发
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28

Abstract

本发明公开了一种基于多层时空框架的关键镜头视频摘要方法，属于视频处理技术领域，用来解决视频摘要的技术问题；包括：1)提取深度特征，使用在Image数据集上训练好的ResNet152卷积神经网络提取每帧的深度特征，获得视频深度语义信息；2)视频镜头分割，使用核函数时间分割中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头，以视频镜头为基本单元参与到视频摘要网络中训练；3)视频镜头特征语义编码，使用全卷积神经网络对每个镜头帧间进行语义编码，获得每个镜头深度语义信息；4)摘要网络获取关键镜头，通过双向长短期记忆网络进行特征语义解码，回归视频镜头重要性评分，通过KL散度与数据集注释建立损失函数进行训练学习优化。

Description

一种基于多层时空框架的关键镜头视频摘要方法

技术领域

本发明涉及一种基于多层时空框架的关键镜头视频摘要方法，属于视频处理技术领域。

背景技术

近年来，数字技术的发展使得视频成为网络上非常重要的信息资源，与此同时，视频数据的爆炸式增长也给人们带来了一些困扰。根据2019年YouTube数据分析报告可知，平均每分钟有超过300小时的视频被上传，每个月有超过32.5亿小时的视频在YouTube上被浏览。所以，如何高效地浏览、管理和检索视频资源成为近年来的热点研究。

视频摘要技术应运而生，可以从冗长的原始视频中提取出关键部分，生成简明紧凑的视频摘要。在理想情况下，视频摘要保留了原始视频所有的关键信息，并尽可能地减少冗余信息，可以在最短的时间内为用户提供最大的目标视频信息。实际上，有好几种方法可以缩短视频的长度，比如有视频关键帧提取、关键镜头选择和视频浓缩等。视频摘要技术还有许多其他的实际应用，如视频检索、事件检测和电影预告等。

发明内容

本发明针对提高快速获取视频重要信息的能力，提出了一种基于多层时空框架的关键镜头视频摘要方法，该方法为了学习视频与关键镜头之间复杂的语义结构关系，采用了多层分而治之的策略，将视频摘要任务分解成视频帧深度特征提取、视频镜头分割、视频镜头特征语义编码(Encode)和视频镜头深度特征解码(Decode)生成关键镜头。时空结构的层次化建模具有较高的性能和效率，利用KL散度能进行较好的损失优化。实验结果表明，本发明方法在两个基准数据集(SumMe和TvSum)上优于几种最先进的视频摘要算法。

为达到以上目的，本发明采用如下技术方案：

一种基于多层时空框架的关键镜头视频摘要方法，具体操作步骤如下：

1)提取深度特征，使用在Image数据集上训练好的ResNet152卷积神经网络(CNN)提取每帧的深度特征，获得视频深度语义信息；

2)视频镜头分割，使用核函数时间分割(KTS)中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头，以视频镜头为基本单元参与到视频摘要网络中训练；

3)视频镜头特征语义编码，使用全卷积神经网络对每个镜头帧间进行语义编码，获得每个镜头深度语义信息；

4)摘要网络获取关键镜头，通过双向长短期记忆网络进行特征语义解码，回归视频镜头重要性评分，通过KL散度与数据集注释建立损失函数进行训练学习优化。

所述步骤2)中的视频镜头分割，具体步骤如下：

核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头。首先将视频分为一组描述符z_p∈Z,(p＝0,...,n-1)序列，让K:

为描述符间的核函数；让

为核函数K(.，.)的特征空间；记

为相关映射图，

为特征空间

的正则化，最小化下面的目标。

其中s为变化点的个数，m(s，n)为误差项，F_s，n为段内核方差

之和。

其中μ_p为段内均值。

在式(1)中目标分为两项，F_s，n为段内总体方差，m(s，n)为多段的误差项；使用带注释视频的验证集交叉验证B参数，因此得到了基于核函数的时态分割算法，该算法根据数据自动设置时态分割的分段数。

首先，计算序列中每对描述符的相似度，然后计算每个可能的起点t和段持续时间d的段方差；然后采用动态规划算法式(2)对目标进行最小化，迭代计算前i个描述符和j个变化点的最优目标值；最后，利用回溯法重建最优分割，由于动态规划算法已经为所有可能的段计数计算，因此惩罚引入了最小的计算量。

所述视频镜头特征语义编码和特征语义解码，具体如下：

视频镜头特征语义编码使用全卷积神经网络FCNN模型主要由二维卷积、池化和激活模块组成；视频帧通过等比例采样获得各个镜头的数据，第一层卷积使用64通道的3*3卷积核进行卷积，再通过正则化处理防止梯度消失，使用激活函数ReLU和池化处理；

特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸，它弥补了普通的递归神经网络无法长期记忆的缺陷；LSTM的关键在于长期记忆细胞的状态，信息的添加或删除通过一种叫做门的结构来实现，门能够实现选择性地让信息通过，主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的；Sigmoid层输出是一个向量，输出的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重或者占比，比如0表示“不让任何信息通过”，1表示“让所有的信息通过”；LSTM通过三个门结构来实现信息的保存和控制，这三个门分别为：遗忘门、输入门、输出门。

所述遗忘门、输入门、输出门具体如下：

遗忘门决定细胞状态丢失的信息量，该门会读取h_t-1和x_t，输出一个在0和1之间的数值给每个在细胞状态C_t-1中的数字，1表示“完全保留”，0表示“完全舍弃”；

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (3)

其中σ为Sigmoid型激活函数，h_t-1表示上一个记忆细胞的输出，x_t表示的是当前细胞的输入；

输入门决定细胞状态新增的信息量，实现这个门需要包括两个步骤：首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容

在下一步，把这两部分联合起来，对细胞的状态进行一个更新，把旧细胞状态与f_t相乘，丢弃掉确定需要丢弃的信息，接着加上

这就是新的候选值，决定更新每个状态的程度进行变化：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)

其中C_t为当前的时刻新的细胞状态；

输出门决定最终的输出信息，首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去，接着把细胞状态通过tanh进行处理，得到一个在-1到1之间的值，并将它和Sigmoid门的输出相乘，最终输出信息h_t；

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (7)

h_t＝o_t×tanh(C_t) (8)

Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成，双向LSTM能同时编码从前到后的信息和从后到前的信息，能在过去和未来的方向上建立更好的长期依赖关系，前向和反向LSTM在编码信息的过程中相互独立；

其中ρ为Softmax型激活函数，

为前向LSTM的输出，

为后向LSTM的输出，首先全连接层将

和

组合为

然后全连接层将组合向量输入到非线性映射层；最后Softmax层输出一个重要性分数。

与现有技术相比，本发明具有如下的优点：

1)提出了一种新颖的端到端关键镜头视频摘要网络(SVSN)，联合KL散度的有监督多层时空视频摘要框架，学习视频与关键镜头之间复杂的语义结构关系获得重要视频镜头内容；

2)对视频镜头进行重要度评分，而不是对每一帧进行重要度评分，不仅大大减少了冗余信息和保留视频动态信息，还采用分而治之策略提高运算效率和精度；

3)使用全卷积神经网络对每个镜头进行深度编码分层处理提高效率，使用长短期记忆网络更能够建模出镜头之间时间上和空间上的关系；

附图说明

图1为本发明一种基于多层时空框架的关键镜头视频摘要方法的流程图。

图2为本发明神经网络算法的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明做进一步详细的说明。

本发明实施例中提供一种基于多层时空框架的关键镜头视频摘要方法，流程如图1所示，首先对处理的视频进行分层处理，通过ResNet152卷积神经网络和核函数时间分割算法(KTS)对视频进行分层；第二层处理以每个场景镜头为基本处理单元，通过全卷积神经网络进行编码(Encode)获得场景帧间的时空语义信息；最后一层通过双向长短期记忆网络进行解码(Decode)获得各镜头分数信息；使用KL散度建立损失函数，进行学习优化网络参数，选出关键镜头达到预测效果。

如图1所示，一种基于多层时空框架的关键镜头视频摘要方法，具体操作步骤如下：

1)使用残差神经网络(ResNet152)提取待处理视频每帧f_t(f₁,f₂…f_n)的深度特征(2048维度的特征向量)；

2)使用核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头S_t(S₁,S₂…S_m)；

核函数时间分割KTS方法是按照场景不同将视频分割成不同镜头；首先将视频分为一组描述符z_p∈Z,(p＝0,...,n-1)序列，让K:

为描述符间的核函数；让

为核函数K(.,.)的特征空间；记

为相关映射图，

为特征空间

的正则化，最小化下面的目标：

其中s为变化点的个数，m(s,n)为误差项，F_s,n为段内核方差

之和；

其中μ_p为段内均值；

在式(1)中目标分为两项，F_s,n为段内总体方差，m(s,n)为多段的误差项；使用带注释视频的验证集交叉验证B参数，因此得到了基于核函数的时态分割算法，该算法根据数据自动设置时态分割的分段数；

3)以视频镜头为基本单元进行处理，通过全卷积神经网络(FCNN)对每个镜头进行编码，得到1024维的特征向量s_t(s₁,s₂…s_m)；

4)使用双向长短期记忆网络(BiLSTM)对每个镜头的特征向量进行解码获得每个镜头重要性评分p_t(p₁,p₂…p_m)；预测的镜头重要性评分p_t通过背包算法选择最重要的镜头作为摘要视频(原视频帧数的15％)，最后通过KL散度与数据集注释建立损失函数，学习优化网络变量。

本实施例中，全卷积神经网络(FCNN)模型主要由二维卷积、池化和激活等模块组成。视频帧通过等比例采样获得各个镜头的数据(1*32*2048)，第一层卷积使用64通道的3*3卷积核进行卷积，再通过正则化处理防止梯度消失，使用激活函数(ReLU)和池化(Pooling)处理，本实施例中FCNN模型使用了10层卷积处理输出(1*1024)的特征数据。

长短期记忆网络(LSTM)是递归神经网络的延伸，它弥补了普通的递归神经网络无法长期记忆的缺陷。LSTM的关键在于长期记忆细胞的状态，信息的添加或删除通过一种叫做门的结构来实现，门可以实现选择性地让信息通过，主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的。Sigmoid层输出(是一个向量)每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重(或者占比)，比如0表示“不让任何信息通过”，1表示“让所有的信息通过”。LSTM通过三个门结构来实现信息的保存和控制，这三个门分别为：遗忘门、输入门、输出门。

遗忘门决定细胞状态丢失的信息量，该门会读取h_t-1和x_t，输出一个在0和1之间的数值给每个在细胞状态C_t-1中的数字，1表示“完全保留”，0表示“完全舍弃”。

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

其中σ为Sigmoid型激活函数，h_t-1表示上一个记忆细胞的输出，x_t表示的是当前细胞的输入。

这就是新的候选值，决定更新每个状态的程度进行变化。

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (4)

其中C_t为当前的时刻新的细胞状态。

输出门决定最终的输出信息。首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去。接着把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和Sigmoid门的输出相乘，最终输出信息h_t。

o_t＝σ(W_o·[h_t-1，x_t]+b_o) (7)

h_t＝o_t×tanh(C_t) (8)

如图2所示Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成，双向LSTM能同时编码从前到后的信息和从后到前的信息，能在过去和未来的方向上建立更好的长期依赖关系，前向和反向LSTM在编码信息的过程中相互独立。

其中ρ为Softmax型激活函数，

为前向LSTM的输出，

为后向LSTM的输出，首先全连接层将

和

组合为

Claims

1.一种基于多层时空框架的关键镜头视频摘要方法，其特征在于，具体操作步骤如下：

1)提取深度特征，使用在Image数据集上训练好的ResNet152卷积神经网络CNN提取每帧的深度特征，获得视频深度语义信息；

2)视频镜头分割，使用核函数时间分割KTS中的基于核函数的变化点检测算法，按照场景不同将视频分割成不同镜头，以视频镜头为基本单元参与到视频摘要网络中训练；

2.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法，其特征在于，所述步骤2)中的视频镜头分割，具体步骤如下：

为描述符间的核函数；让

为核函数K(.，.)的特征空间；记

为相关映射图，

为特征空间

的正则化，最小化下面的目标：

其中s为变化点的个数，m(s，n)为误差项，F_s，n为段内核方差

之和；

其中μ_p为段内均值；

在式(1)中目标分为两项，F_s，n为段内总体方差，m(s，n)为多段的误差项；使用带注释视频的验证集交叉验证B参数，因此得到了基于核函数的时态分割算法，该算法根据数据自动设置时态分割的分段数；

3.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法，其特征在于，所述视频镜头特征语义编码和特征语义解码，具体如下：

特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸，它弥补了普通的递归神经网络无法长期记忆的缺陷；LSTM的关键在于长期记忆细胞的状态，信息的添加或删除通过一种叫做门的结构来实现，门能够实现选择性地让信息通过，主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的；Sigmoid层输出是一个向量，输出的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重或者占比，比如“0”表示“不让任何信息通过”，“1”表示“让所有的信息通过”；LSTM通过三个门结构来实现信息的保存和控制，这三个门分别为：遗忘门、输入门、输出门。

4.根据权利要求3所述的基于多层时空框架的关键镜头视频摘要方法，其特征在于，所述遗忘门、输入门、输出门具体如下：

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (3)