CN112560760B

CN112560760B - 一种注意力辅助的无监督视频摘要系统

Info

Publication number: CN112560760B
Application number: CN202011550924.0A
Authority: CN
Inventors: 马汝辉; 刘俊男; 宋涛; 华扬; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-03-10
Anticipated expiration: 2040-12-24
Also published as: CN112560760A

Abstract

本发明公开了一种注意力辅助的无监督视频摘要系统。本发明涉及深度学习，计算机视觉，视频分析等领域，所述系统包括挖掘视频帧长时依赖关系的全局自注意力模块，以无监督的方式学习视频帧表征的生成对抗网络模块。本发明在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式，从而减少了人工大规模标注数据的成本，克服部分网络需要预训练、模型参数过大过多等问题，提升了视频摘要模型的性能。

Description

一种注意力辅助的无监督视频摘要系统

技术领域

本发明涉及深度学习计算机视觉中的视频理解领域，具体是一种注意力辅助的基于生成对抗网络的无监督视频摘要系统。

背景技术

近年来视频正快速成为互联网中使用最广泛的信息载体，根据思科公司的估计，2020年中视频这一载体可能占据超过80％的互联网流量。因此，自动视频摘要技术受到了越来越多的关注。视频摘要的主要目的是在保持原始视频的主要信息的条件下减少视频的长度。视频摘要生产的较短的视频能更有效率地在APP中被用户浏览，也能更快速地被搜索引擎检索，因此有着广泛的应用。视频摘要领域的主要方法可以分为有监督式和无监督式的视频摘要技术。

有监督的视频摘要技术使用大量人工标注的视频帧信息作为标准来训练模型。有监督的视频摘要通常将问题转化为对视频帧的重要性进行打分和选择的问题。有监督的视频摘要技术通常使用深度学习算法中的循环神经网络或长短期记忆网络学习视频中关键帧的信息，获取帧之间的关系。此类算法的缺点在于，循环神经网络无法有效利用GPU的并行计算能力；长短期记忆网络无法学习长时的依赖关系；需要大量的帧级别的人工标注信息，很难获得大量的学习样本。

无监督的视频摘要技术不需要人工标注的视频信息进行训练，因此可以节约大量的人工成本。通常无监督的视频摘要技术使用长短期记忆网络作为骨干网络，但是长短期记忆网络的特性使其很难捕获长时依赖信息。另一主要的无监督视频摘要技术使用基于强化学习的方法，然而基于强化学习的无监督视频摘要技术的性能依赖于人工设计的回报函数的优劣。

因此，本领域的技术人员致力于开发一种无监督视频摘要模型，通过设计新的自注意力模块与生成对抗网络的训练方式实现无监督的视频摘要模型，以克服现有技术中存在的技术缺陷，并提高模型的性能。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提出一个更好地利用长时依赖信息的视频摘要系统，该模型可以以无监督的方式进行训练和更好地挖掘长时依赖信息，同时达到更好的视频摘要性能。

一种注意力辅助的无监督视频摘要系统，包括特征提取模块、自注意力模块、和生成对抗网络模块，其中，

特征提取模块，被配置为：接受视频输入，并计算视频帧特征；

自注意力模块，被配置为：计算视频的相似性矩阵，获得加权视频帧特征；

生成对抗网络模块，包括生成器和鉴别器，被配置为：生成器使用自注意力模块输出的加权视频帧特征，并使用神经网络计算视频帧表征，预测视频帧的重要性分数并输出，生成新的帧特征；鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入，经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征，然后通过鉴别器的输出计算对抗损失和多样性损失；

系统根据生成器预测的分数，挑选关键帧，并生成视频摘要。

进一步地，自注意力模块的计算流程，包括：

步骤A1：输入视频帧特征；

步骤A2：计算整段视频的注意力矩阵；

步骤A3：计算视频帧特征的相似性矩阵；

步骤A4：计算加权视频帧特征。

进一步地，步骤A1中，采用GoogLeNet作为特征提取网络，提取的原始视频的视频帧的特征为1024维向量，作为输入视频帧特征。

进一步地，步骤A2中，通过计算任意两帧特征的加权点积，之后对点积结果进行线性缩放并使用Softmax函数，其结果作为整段视频的注意力矩阵；

进一步地，步骤A3中，使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的相似性矩阵；

进一步地，步骤A4中，将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征。

进一步地，系统运行流程，包括：

步骤1、将视频输入特征提取模块；

步骤2、训练自注意力模块和生成对抗网络模块；

步骤3、对于测试视频，将其进行步骤1的特征提取，并输出到步骤2中的生成器中得到重要性分数；

步骤4、根据生成器预测的分数，挑选关键帧，最终获得并生成视频摘要。

进一步地，步骤1中，特征提取模块采用GoogLeNet作为特征提取网络，提取的视频帧的特征为1024维向量。

进一步地，步骤2包括：

步骤2.1、计算视频中任意两帧的相似性矩阵和多样性矩阵，对输入视频帧进行相乘并加权，输入到生成器中，生成器从而生成新的加权特征和对应的重要性分数；

步骤2.2、鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入，计算多样性损失和对抗损失，更新鉴别器和生成器的参数；

步骤2.3、重复步骤2.1至步骤2.3直至生成器和鉴别器参数收敛。

进一步地，步骤2.2中，使用反向传播算法更新鉴别器和生成器的参数。

与现有技术相比，本发明的有益效果如下：

在基于深度神经网络的视频摘要任务基础上实现了无监督的训练方式，从而减少了人工大规模标注数据的成本，克服部分网络需要预训练、模型参数过大过多等问题，提升了视频摘要模型的性能。

附图说明

图1是本发明的实施例的视频摘要系统；

图2是本发明的实施例的自注意力模块计算流程示意图；

图3是本发明的实施例的视频摘要模型系统的运行流程示意图。

具体实施方式

以下参考说明书附图介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

如图1所示，本系统的一个实施例的结构，系统包括特征提取模块、生成对抗网络模块和自注意力模块，其中，

特征提取模块，可接受视频输入，并计算视频帧特征；

自注意力模块，可计算视频的相似性矩阵，获得加权视频帧特征；

生成对抗网络模块，包括生成器和鉴别器，其中生成器使用自注意力模块输出的加权视频帧特征，并使用神经网络计算视频帧表征，预测视频帧的重要性分数并输出，生成新的帧特征；鉴别器将注意力加权帧特征与生成器输出的帧特征作为输入，经过神经网络计算视频帧特征并区分原始视频帧特征和生成器加权帧特征，然后通过鉴别器的输出计算对抗损失和多样性损失。

如图2所示，一个实施例的自注意力模块的计算流程，

输入视频帧特征；

先通过计算任意两帧特征的加权点积，之后对点积结果进行线性缩放并使用Softmax函数，其结果作为整段视频的注意力矩阵A；

使用注意力矩阵A对每个视频帧按行求累积可以计算出视频帧特征的相似性矩阵，将相似性矩阵与原始视频帧特征相乘得到加权视频帧特征，自注意力模块加权的视频帧特征能获取视频帧之间的长时依赖关系，可以使得模型更好地学习全局特征。

如图3所示，一个实施例的系统运行流程：

步骤1、将视频输入特征提取模块，本实施例采用GoogLeNet作为特征提取网络，视频帧的特征为1024维向量；

步骤2、训练自注意力模块和生成对抗网络模块，具体为：

计算视频中任意两帧的相似性矩阵和多样性矩阵，对输入视频帧进行相乘并加权，输入到生成器中，生成器从而生成新的加权特征和对应的重要性分数；

鉴别器接收注意力加权帧特征和生成器生成的带权特征作为输入，计算多样性损失和对抗损失，使用反向传播算法更新鉴别器和生成器的参数；

通过不断的更新鉴别器和生成器的参数，可以使生成器生成的特征与原视频帧的特征足够相似，这样就使得生成器预测的重要性分数可以作为选取关键帧的依据；

训练模型的主程序伪代码如下：

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种注意力辅助的无监督视频摘要系统，其特征在于，包括特征提取模块、自注意力模块、和生成对抗网络模块，被配置为：

所述特征提取模块，接受视频输入，并计算视频帧特征；

所述自注意力模块，计算视频的相似性矩阵，获得加权视频帧特征；

所述生成对抗网络模块，包括生成器和鉴别器，所述生成器使用所述自注意力模块输出的加权视频帧特征，并使用神经网络计算视频帧表征，预测视频帧的重要性分数并输出，生成新的帧特征；所述鉴别器将所述自注意力模块输出的加权视频帧特征与所述生成器生成的帧特征作为输入，经过神经网络计算视频帧特征并区分原始视频帧特征和所述生成器生成的加权帧特征，计算对抗损失和多样性损失；

系统根据生成器预测的分数，挑选关键帧，并生成视频摘要；

所述注意力模块被配置为按以下流程运行，包括：

步骤A1：输入视频帧特征；

步骤A2：计算整段视频的注意力矩阵；

步骤A3：计算视频帧特征的所述相似性矩阵；

步骤A4：计算加权视频帧特征；

所述步骤A2中，通过计算任意两帧特征的加权点积，之后对点积结果进行线性缩放并使用Softmax函数，其结果作为整段视频的所述注意力矩阵；

所述步骤A3中，使用所述注意力矩阵对每个视频帧按行求累积计算出视频帧特征的所述相似性矩阵；

所述步骤A4中，将所述相似性矩阵与原始视频帧特征相乘得到所述加权视频帧特征。

2.如权利要求1所述的系统，其特征在于，所述步骤A1中，采用GoogLeNet作为特征提取网络，提取的原始视频的视频帧的特征为1024维向量，作为输入视频帧特征。

3.如权利要求1所述的系统，其特征在于，其被配置为按以下流程运行，包括：

步骤1、将视频输入特征提取模块；

步骤2、训练所述自注意力模块和所述生成对抗网络模块；

步骤3、对于测试视频，将其进行所述步骤1的特征提取，并输出到所述生成器中得到重要性分数；

步骤4、根据所述生成器预测的分数，挑选关键帧，最终获得并生成视频摘要。

4.如权利要求3所述的系统，其特征在于，所述步骤1中，所述特征提取模块采用GoogLeNet作为特征提取网络，提取的视频帧的特征为1024维向量。

5.如权利要求3所述的系统，其特征在于，所述步骤2包括：

步骤2.1、所述自注意力模块计算视频中任意两帧的所述相似性矩阵和多样性矩阵，对输入视频帧进行相乘并加权，输入到所述生成器中，所述生成器从而生成新的加权特征和对应的重要性分数；

步骤2.2、所述鉴别器接收上一步骤中所述自注意力模块生成的加权帧特征和所述生成器生成的加权特征作为输入，计算多样性损失和对抗损失，更新所述鉴别器和所述生成器的参数；

步骤2.3、重复所述步骤2.1至所述步骤2.3直至所述生成器和所述鉴别器参数收敛。

6.如权利要求5所述的系统，其特征在于，所述步骤2.2中，使用反向传播算法更新所述鉴别器和所述生成器的参数。