CN107729821B

CN107729821B - 一种基于一维序列学习的视频概括方法

Info

Publication number: CN107729821B
Application number: CN201710888621.1A
Authority: CN
Inventors: 黄思羽; 李玺; 张仲非
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2020-08-11
Anticipated expiration: 2037-09-27
Also published as: CN107729821A

Abstract

本发明公开了一种基于一维序列学习的视频概括方法，用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤：获取用于训练视频概括模型的视频数据集，并定义算法目标；对视频数据集中的时空语义结构进行序列特征建模；基于视频序列特征建立逐帧分数预测模型；使用所述预测模型预测输入视频中的关键片段。本发明适用于真实视频场景中的视频概括，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于一维序列学习的视频概括方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于一维序列学习的视频概括方法。

背景技术

21世纪初以来，随着视频数据的海量增长，自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务，其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准，其挑战性在于如何建模复杂和多层次的时间维度的语义结构。

现有的视频摘要方法可以分为以下两类：1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准，例如代表性、多样性和重要性，并用它们的组合来模拟真实的视频概括标准；2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达，并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模，模型的时间和空间复杂度较高。一方面，模型需要学习的参数很多，导致模型可能不稳定；另一方面，模型的运行时间较长。

发明内容

为解决上述问题，本发明的目的在于提供一种基于一维序列学习的视频概括方法，用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略，利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构，并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度，对真实未加工视频中的复杂情况有更稳定的性能。

为实现上述目的，本发明的技术方案为：

一种基于一维序列学习的视频概括方法，包括以下步骤：

S1、获取用于训练模型的视频数据集，所述视频数据集包括多个样本视频，并定义算法目标；

S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模，得到序列特征模型；

S3、通过所述序列特征模型，基于样本视频的序列特征建立逐帧分数预测模型；

S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。

进一步的，步骤S1中，所述的视频数据集包括视频X_train以及人工标注的逐帧重要性分数Y_train；

定义算法目标为：预测视频x＝{x₁，x₂，...，x_T}中的关键视频片段，即x的子集x_key∈x，x₁,x₂,...,x_T分别表示视频的每一帧，T是视频帧的数量。

进一步的，步骤S2具体包括：

S21、将视频x＝{x₁，x₂，...，x_T}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v＝{v₁，v₂，...，v_T}，v₁,v₂,...,v_T分别对应每一帧的空间语义特征；此神经网络表示为映射

S22、将S21中得到的视频空间语义特征v作为序列输入长短期记忆神经网络，进一步建模其时序语义结构得到h＝{h₁，h₂，...，h_t，...，h_T}，h₁,h₂,...,h_T分别对应每一帧的时间语义特征；此神经网络表示为映射

进一步的，步骤S3中具体包括：

S31、建立一维全卷积神经网络，将S22中得到的h＝{h₁，h₂，...，h_t，...，h_T}作为其输入：

其中W^(l，f，j)和b^(l，f，j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图，φ是激活函数，F_l是l层特征图的数目，h是一维全卷积神经网络第0层的特征图z⁽⁰⁾，第L个卷积层的输出

作为一维全卷积神经网络的输出；

S32、对S31中的输出

进行升采样得到

使其维度与原输入视频x的帧数T一致，y＝{y₁，y₂，...，y_T}表示逐帧重要性分数序列；S31和S32的神经网络统一表示为映射

S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络，其结构可以表示为从视频x到逐帧重要性分数y的映射x→y；

S34、神经网络x→y使用欧几里得损失函数，表示为

其中y是神经网络的输出，y_gt是人工标注的逐帧重要性分数，使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。

进一步的，步骤S4中，使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括：

S41、根据帧间光流的绝对值，将视频分割为不重叠的片段；

S42、使用0/1背包算法，选取拥有最大重要性分数且时间总长度小于某阈值的片段x_key∈x作为输入视频的关键片段。

本发明的基于一维序列学习的视频概括方法，相比于现有的视频概括方法，具有以下有益效果：

首先，本发明从时间序列建模的角度解决视频概括问题，引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构。

其次，本发明的视频概括方法基于三种不同的深度神经网络建立模型，不同的神经网络能够建模不同种类和层次的空间和时间语义结构。另外，时空特征表达和逐帧重要性分数预测被统一在一个端到端的框架里，提高了方法的最终效果。

本发明的基于一维序列学习的视频概括方法，在智能视频分析系统里具有良好的应用价值，能够有效提高视频概括的效率和准确度。例如，在视频类网站里，本发明的视频概括方法可以快速和准确地用视频片段概括原始视频中的重要内容，为用户快速浏览视频提供方便。

附图说明

图1为本发明的基于一维序列学习的视频概括方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，基于一维序列学习的视频概括方法，包括以下步骤：

首先，获取用于训练视频概括模型的视频数据集。其中，用于训练人群数量预测模型的监控图像数据集，包括视频X_train，人工标注的逐帧重要性分数Y_train；

定义算法目标为：预测视频x＝{x₁，x₂，...，x_T}中的关键视频片段，即x的子集x_key∈x，T是视频帧的数量。

其次，对视频数据集中的样本视频的时空语义结构进行序列特征建模。具体的，其包括如下步骤：

第一步，将视频x＝{x₁，x₂，...，x_T}中的每一帧图像分别输入二维深度卷积神经网络(2D CNN),提取每帧的空间语义特征v＝{v₁，v₂，...，v_T}；此神经网络表示为映射

第二步，将得到的视频空间语义特征v作为序列输入长短期记忆神经网络(LSTM)，进一步建模其时序语义结构得到h＝{h₁，h₂，...，h_t，...，h_T}；此神经网络表示为映射

之后，基于视频序列特征建立逐帧分数预测模型。具体包括：

第一步，建立一维全卷积神经网络(FCN)，将S22中得到的h＝{h₁，h₂，...，h_t，...，h_T}作为其输入：

作为一维全卷积神经网络的输出；

第二步，对S31中的输出

进行升采样得到

第三步，以串联形式拼接步骤S21、S22、S31、S32步骤所述的神经网络，其结构可以表示为从视频x到逐帧重要性分数y的映射x→y；

第四步，神经网络x→y使用欧几里得损失函数，表示为

最后，使用所述预测模型预测输入视频中的关键片段。具体包括：

第一步，根据帧间光流的绝对值，将视频分割为不重叠的片段；

第二步，使用0/1背包算法，选取拥有最大重要性分数且时间总长度小于某阈值的片段x_key∈x作为输入视频的关键片段。

上述实施例中，本发明的视频概括方法首先将视频的时间语义结构和空间语义结构联合建模为时空特征表达。在此基础上，将原问题转化为一维序列学习问题，并基于一维全卷积神经网络建立逐帧重要性分数预测模型。最后，利用训练好的逐帧重要性分数预测模型来估计新的视频中的重要片段。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频概括方法算法。本发明引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构，从而进行准确的视频概括并降低算法复杂度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于一维序列学习的视频概括方法，其特征在于，包括以下步骤：

S1、获取用于训练模型的视频数据集，所述视频数据集包括视频X_train以及人工标注的逐帧重要性分数Y_train，并定义算法目标为：预测视频x＝{x₁，x₂，...，x_T}中的关键视频片段，即x的子集x_key∈x，x₁,x₂,...,x_T分别表示视频的每一帧，T是视频帧的数量；

S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模，得到序列特征模型，具体包括：

S21、将视频x＝{x₁，x₂，...，x_T}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征υ＝{υ₁，υ₂，…，υ_T}，v₁,v₂,...,v_T分别对应每一帧的空间语义特征；此神经网络表示为映射

S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络，进一步建模其时序语义结构得到h＝{h₁，h₂，...，h_t，...，h_T}，h₁,h₂,...,h_T分别对应每一帧的时间语义特征；此神经网络表示为映射

2.如权利要求1所述的基于一维序列学习的视频概括方法，其特征在于，步骤S3中具体包括：

作为一维全卷积神经网络的输出；

S32、对S31中的输出

进行升采样得到

S34、神经网络x→y使用欧几里得损失函数，表示为

3.如权利要求2所述的基于一维序列学习的视频概括方法，其特征在于，步骤S4中，使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括：

S41、根据帧间光流的绝对值，将视频分割为不重叠的片段；