CN110413838A

CN110413838A - 一种无监督视频摘要模型及其建立方法

Info

Publication number: CN110413838A
Application number: CN201910636677.7A
Authority: CN
Inventors: 马汝辉; 何旭峰; 华扬; 宋涛; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-05
Anticipated expiration: 2039-07-15
Also published as: CN110413838B

Abstract

本发明公开了一种无监督视频摘要模型，涉及计算机视觉方向的视频处理领域，所述模型包括条件特征选择模块，帧级自注意力模块和条件生成对抗网络模块，其中，所述条件特征选择模块选取输出视频中较重要的帧特征引导所述条件生成对抗网络模块训练，使其可以更多的关注此区域特征；所述帧级自注意力模块可以获取视频中帧与帧的长时依赖，使模型可以更好的学习到全局特征，尽可能避免去掉视觉上相似但具有一定时间距离的帧；所述条件生成对抗网络模块，包含生成器和鉴别器，可实现无监督学习，不需任何人工标定数据，克服原有方法的信息损失、部分网络需要预训练、模型复杂等问题，可实现端到端训练，提升视频摘要性能。

Description

一种无监督视频摘要模型及其建立方法

技术领域

本发明涉及计算机视觉方向的视频处理领域，尤其涉及一种无监督视频摘要模型及其建立方法。

背景技术

视频摘要(Video Summarization)是计算机视频处理领域的研究问题之一。随着近年视频数据爆炸性的增长，如海量移动手机和监控摄像头拍摄的视频数据，给存储视频以及浏览视频带来了巨大的挑战。视频摘要的目的是缩短原有视频的长度同时使缩短后的视频仍可以完整反映原有视频的故事线，缩短后的视频也被称为视频摘要(VideoSummary)。视频摘要有着广泛的应用，可以减轻视频存储压力，节省用户浏览视频时间，生成视频精彩花絮等等。目前该领域主流方法包括监督式(Supervised)和无监督式(Unsupervised)视频摘要框架。

监督式视频摘要技术假设有人工标定信息存在，人工标定信息可分为是否选择该帧的标识以及帧重要性分数。监督式视频摘要技术进一步地将视频摘要任务转化为序列标注或预测问题，通过采用循环神经网络(如长短期记忆网络等)获取视频帧与帧间的关系，并对帧进行标注或者预测帧重要性分数，通过帧标识或者帧重要性分数，以及用户指定长度产生最后的视频摘要。此类框架要求人工标定信息，然而标定视频需完整地看完并理解视频内容后才可标定，十分耗费人力。与此同时，由于不同的人对视频有不同的理解，因此产生的标定数据因人而异，且监督式视频摘要技术的性能同人工标定数据强相关。

无监督式视频摘要技术则可以免去人工标定视频数据的过程，从而节省人力成本。目前大部分视频摘要技术都基于监督式视频摘要技术，无监督视频摘要技术相对较少，其中性能最好的无监督视频摘要技术主要基于强化学习和生成对抗网络。然而基于强化学习的无监督视频摘要技术的性能取决于人工设计的奖励函数，基于生成对抗网络的无监督视频摘要技术，虽然可以从数据中学习到对抗损失函数，从而避免人工设计损失函数，但现有基于生成对抗网络的方法却存在信息丢失，以及部分网络需要预训练的问题。

与此同时，现有监督式和无监督式视频摘要技术仅基于循环神经网络来获取视频中帧与帧之间的关系，普遍缺乏对视频长时依赖关系的提取。

因此，本领域的技术人员致力于开发一种无监督视频摘要模型，该模型通过设计新的生成对抗网络实现无监督学习，免去了人工标定视频的成本，提出的生成对抗网络模型克服了已有模型的信息丢失问题，同时，该模型提出条件特征选择模块来筛选较重要的视频帧特征以引导生成对抗网络训练，并提出用以获取视频长时依赖关系的帧级自注意力模块，以进一步提高模型性能。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何设计一种模型能克服以前方法存在的信息缺失、需要预训练的问题，以及更加关注视频中重要程度相对较高的区域，并获取视频长时依赖。

为实现上述目的，本发明提供了一种无监督视频摘要模型，输入视频并提取原始视频帧特征，模型可预测每帧重要性分数，根据所述每帧重要性分数和用户指定长度，可获取指定长度的视频摘要，所述模型包括条件特征选择模块、条件生成对抗网络模块和帧级自注意力模块，其中，

所述条件特征选择模块，输入为原始视频帧特征，计算所述原始视频帧特征帧与帧之间的相似性，将计算得到的相似性矩阵值按行放缩，将放缩后矩阵同所述原始视频帧特征矩阵相乘，然后根据相乘后矩阵每行的范数选取指定个数的特征，即为选择的帧特征，引导所述条件生成对抗网络模块训练；

所述条件生成对抗网络模块包含生成器(Generator)和鉴别器(Discriminator)两部分，其所述生成器输入为所述原始视频帧特征和所述选择的帧特征，通过算法预测每帧重要性分数并产生加权帧特征，其所述鉴别器输入为所述原始视频帧特征、所述选择的帧特征和所述加权帧特征，区分所述加权帧特征和所述原始帧特征；所述生成器和所述鉴别器通过计算对抗损失，交替更新所述生成器与所述鉴别器参数；

所述帧级自注意力模块，输入为视频帧特征，计算帧与帧之间相似性，然后将计算得到的相似性矩阵值按行放缩，并与原始输入所述视频帧特征矩阵相乘，将相乘后矩阵与原始输入所述视频帧特征矩阵相加作为其输出，所述帧级自注意力模块可以获取视频中帧与帧的长时依赖，从而可以使模型更好的学习到全局特征；

所述帧级自注意力模块应用于所述条件生成对抗网络模块的所述生成器和所述鉴别器中，用以获取帧与帧之间长时依赖关系。

进一步地，所述算法为：所述生成器对输入视频原始帧特征进行编码后得到时序表示，利用所述时序表示预测所述每帧重要性分数，将预测的所述每帧重要性分数同所述时序表示相乘后得到所述加权帧特征。

进一步地，所述编码为时序编码(Temporal Encoding)。

进一步地，所述帧与帧之间相似性，即点积。

进一步地，所述放缩的区间为0～1。

进一步地，所述范数，为L2范数。

本发明还提供了一种无监督视频摘要模型的建立方法，具体包括如下步骤：

(S1)输入视频，利用预训练好的卷积神经网络提取所述原始视频帧特征；

(S2)对无监督视频模型进行训练，模型的输入为所述步骤(S1)提取的所述原始视频帧特征；所述条件特征选择模块从中选取部分重要的帧特征作为所述条件生成对抗网络模块中所述生成器与所述鉴别器的一个输入；对所述生成器输入所述原始视频帧特征和所述选择的帧特征，所述生成器产生所述加权帧特征；对所述鉴别器输入所述原始视频帧特征和所述选择的帧特征，并将此输入标记为1，对所述鉴别器输入所述加权帧特征和所述选择的帧特征，并将此输入标记为0，计算所述鉴别器所述对抗损失，并更新所述鉴别器参数；对所述鉴别器输入所述加权帧特征和所述选择的帧特征，并将此输入标记为1，计算所述生成器所述对抗损失，并更新所述生成器参数；交替更新所述鉴别器与所述生成器参数直到N轮，可使所述生成器生成的所述加权帧特征与所述原始视频帧特征足够接近，从而所述生成器可以预测所述每帧重要性分数；

(S3)输入测试视频帧特征和用户输入的视频摘要长度；

(S4)根据所述步骤(S2)返回的所述生成器预测视频所述每帧重要性分数和所述步骤(S3)中所述用户输入的视频摘要长度，产生符合所述用户输入的视频摘要长度要求的视频摘要。

进一步地，所述原始视频帧特征，为特征向量。

进一步地，所述卷积神经网络，为GoogLeNet网络。

进一步地，所述原始视频帧特征，每帧的特征为1024维的特征向量。

这种无监督视频摘要模型与现有技术相比，至少具有以下有益的技术效果：

(1)所述条件生成对抗网络模块可实现无监督学习，不需要人工标定的任何数据，消除了人工标定视频数据所带来的巨大成本以标定数据时的主观性，有利于推进相关工作在现实生活中的应用研究；同时提出的生成对抗网络模型克服原有方法的信息损失、部分需要预训练、模型复杂等问题，可实现端到端训练。

(2)所述条件特征选择模块可以选择输入的所述原始视频帧特征中较为重要的帧作为所述条件生成对抗网络模块的条件输入，从而使所述条件生成对抗网络模块在训练时可以更多地关注此区域特征，从而提升性能。

(3)所述帧级自注意力模块可以获取视频中帧与帧的长时依赖关系，从而可以对视频进行更好的全局建模，尽可能避免去掉视觉上相似但具有一定时间距离的帧。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明提出摘要模型的模型架构图；

图2是本发明提出摘要模型的训练流程示意图；

图3是本发明提出摘要模型框架的运行流程示意图。

具体实施方式

以下参考说明书附图介绍本发明的一个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

如图3所示，本发明所述的无监督视频摘要模型，其建立方法包括以下步骤：

步骤1、输入T帧视频，利用预训练好的卷积神经网络提取原始视频帧特征，通常提取的原始视频帧特征为特征向量，本实施例采用GoogLeNet作为特征提取网络，则每帧的特征为1024维的特征向量。

步骤2、对无监督视频模型进行训练，模型的输入为步骤1提取的原始视频帧特征。如图1所示为本发明提出摘要模型的模型架构图，如图2所示为本发明提出摘要模型的训练流程示意图，输入T帧原始视频帧特征，条件特征选择模块从中选取部分重要的帧特征作为条件生成对抗网络模块中生成器与鉴别器的一个输入。对生成器输入T帧原始视频帧特征和选择的帧特征，生成器产生T帧加权帧特征。对鉴别器输入原始视频帧特征和选择的帧特征，并将此输入标记为1，对鉴别器输入加权帧特征和选择的帧特征，并将此输入标记为0，计算鉴别器对抗损失并更新鉴别器参数。对鉴别器输入加权帧特征和选择的帧特征，并将此输入标记为1，计算生成器对抗损失并更新生成器参数。交替更新鉴别器与生成器参数直到N轮，可使生成器生成的加权帧特征与原始视频帧特征足够接近，从而生成器可以预测每帧重要性分数。训练模型算法的主程序伪代码如下：

VS_GAN_MODEL_TRAIN(raw_feats,cf_selector,generator,discriminator):

for i＝1,2,…,N

c_feats＝GET_CONDITIONAL_FEATS(raw_feats,cf_selector)

weighted_feats＝GET_WEIGHTED_FEATS(raw_feats,c_feats,generator)

dis_loss＝GET_DIS_LOSS(weighted_feats,raw_feats,c_feats,discriminator)

gen_loss＝GET_GEN_LOSS(weighted_feats,c_feats,discriminator)

UPDATE_DISCRIMINATOR(dis_loss,discriminator)

UPDATE_GENERATOR(gen_loss,generator)

return generator

步骤3、输入测试视频帧特征和用户输入的视频摘要长度。

步骤4、根据步骤2返回的生成器预测视频每帧重要性分数和步骤3中用户输入的视频摘要长度，产生符合长度要求的视频摘要。

需要注意，上述过程中，输入仅为视频帧，没有任何人工标定数据，相比以前将视频编码成视频摘要，然后重建为视频让鉴别器鉴别的方法，本方法通过直接缩小加权帧特征和原始帧特征之间的距离(即让鉴别器鉴别加权帧特征和原始帧特征)，可以有效的避免编码重建过程带来的信息损失，并实现端到端训练。帧级自注意力机制模块如图1所示，其包含于生成器和鉴别器之中，用以更好的获取视频帧与帧的长时依赖关系。条件特征选择模块选择的帧特征会输入到生成器和鉴别器当中，从而使模型在训练过程中能关注更加重要的视频区域。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种无监督视频摘要模型，其特征在于，所述模型包括条件特征选择模块、条件生成对抗网络模块和帧级自注意力模块，其中，

所述条件生成对抗网络模块包含生成器和鉴别器两部分，其所述生成器输入为所述原始视频帧特征和所述选择的帧特征，通过算法预测每帧重要性分数并产生加权帧特征，其所述鉴别器输入为所述原始视频帧特征、所述选择的帧特征和所述加权帧特征，区分所述加权帧特征和所述原始帧特征；所述生成器和所述鉴别器通过计算对抗损失，交替更新所述生成器与所述鉴别器参数；

所述帧级自注意力模块，输入为视频帧特征，计算帧与帧之间的所述相似性，然后将计算得到的相似性矩阵值按行放缩，并与原始输入所述视频帧特征矩阵相乘，将相乘后矩阵与原始输入所述视频帧特征矩阵相加作为其输出；

2.如权利要求1所述的无监督视频摘要模型，其特征在于，所述算法为：所述生成器对输入视频原始帧特征进行编码后得到时序表示，利用所述时序表示预测所述每帧重要性分数，将预测的所述每帧重要性分数同所述时序表示相乘后得到所述加权帧特征。

3.如权利要求2所述的无监督视频摘要模型，其特征在于，所述编码，为时序编码。

4.如权利要求1所述的无监督视频摘要模型，其特征在于，所述相似性，即点积。

5.如权利要求1所述的无监督视频摘要模型，其特征在于，所述放缩的区间为0～1。

6.如权利要求1所述的无监督视频摘要模型，其特征在于，所述范数，为L2范数。

7.一种无监督视频摘要模型建立方法，其特征在于，所述模型包括如下步骤：

(S3)输入测试视频帧特征和用户输入的视频摘要长度；

8.如权利要求7所述的无监督视频摘要模型建立方法，其特征在于，所述原始视频帧特征，为特征向量。

9.如权利要求7所述的无监督视频摘要模型建立方法，其特征在于，所述卷积神经网络，为GoogLeNet网络。

10.如权利要求7所述的无监督视频摘要模型建立方法，其特征在于，所述原始视频帧特征，每帧的特征为1024维的特征向量。