CN112016406B

CN112016406B - 一种基于全卷积网络的视频关键帧提取方法

Info

Publication number: CN112016406B
Application number: CN202010789819.6A
Authority: CN
Inventors: 刘云; 马瑞迪; 李辉; 薛盼盼; 崔雪红
Original assignee: Qingdao University of Science and Technology
Current assignee: Interstellar Digital Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-12-02
Anticipated expiration: 2040-08-07
Also published as: CN112016406A

Abstract

本发明公开了一种基于全卷积网络的视频关键帧提取方法，所述方法包括：将原始视频输入到预训练的卷积网络中进行特征提取，输出特征向量X；将所述特征向量X输入交叉注意力模块，经过关联操作和聚合操作，输出特征向量H'；将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"；利用解码器对所述特征向量H"进行特征重建，获得最终重建特征，并基于所述最终重建特征获取视频帧，确定为视频关键帧。应用本发明，能提高提取视频关键帧的精确度。

Description

一种基于全卷积网络的视频关键帧提取方法

技术领域

本发明属于视觉处理技术领域，具体地说，是涉及视频关键帧提取技术，更具体地说，是涉及基于全卷积网络的视频关键帧提取方法。

背景技术

随着视频采集设备的日益普及和成本的不断降低，近几年来视频数据量急剧增加，视频已经成为最重要的视觉数据形式之一。由于视频数据量巨大，人类观看这些视频并识别有用信息是不现实的。根据思科2017年视觉网络指数，预计到2021年，每个人每月要观看上传到互联网上的所有视频，大约需要500万年。因此，开发能够高效浏览海量视频数据的计算机视觉技术变得越来越重要。

视频摘要作为一种有前途的工具，有助于处理大量的视频数据。给定一个输入视频，视频摘要的目标是创建一个较短的视频，捕获输入视频的重要信息。视频摘要在许多实际应用中都很有用，例如，在视频监控中，人们浏览监控摄像头拍摄的许多个小时的视频，既繁琐又费时，如果能提供一个简短的摘要视频，从长视频中捕捉重要信息，这将大大降低视频监控所需的人力资源。视频摘要还可以在视频搜索、检索和理解方面提供更好的用户体验。由于短视频更易于存储和传输，因此它们对移动应用程序非常有用。摘要视频还可以帮助许多下游视频分析任务，例如，在短视频上运行任何其他分析算法(如动作识别)都更快。

视频摘要的核心工作是提取视频关键帧。现有技术中，通常将关键帧提取看作是一个序列标记问题，其中每个帧被分配一个二进制标签来指示它是否在摘要视频中被选择；然后使用LSTM(长短期记忆网络)或其变体来解决该问题。优点是LSTM能够捕获帧间的长距离结构依赖关系；缺点是LSTM中的计算通常是左偏右的。这意味着必须一次处理一个帧，并且每个帧必须等到前一帧处理完成之后，才能处理。一些方法使用双向LSTM(BiLSTM)解决该问题，但双向LSTM的任何一个方向的计算仍然存在相同的问题，并且大大增加计算量。在此基础上，现有技术出现了同时处理所有帧的全卷积网络模型。简单来说，全卷积网络指的是不存在全连接层的网络模型。采用全卷积网络模型提取视频关键帧，在一定程度上简化了网络模型结构，提高了运行速度。

但是，现有采用全卷积网络提取视频关键帧的技术，忽视了视频帧之间的长距离依赖关系，不能充分利用上下文信息，影响视频关键帧的提取精确度，进而降低了基于视频关键帧形成的视频摘要的准确性。

发明内容

本发明的目的是提供一种基于全卷积网络的视频关键帧的提取方法，提高提取关键帧的精确度。

为实现上述发明目的，本发明采用下述技术方案予以实现：

一种基于全卷积网络的视频关键帧提取方法，包括：

将原始视频输入到预训练的卷积网络中进行特征提取，输出特征向量X；所述卷积网络中不具有全连接层；

将所述特征向量X输入交叉注意力模块，经过关联操作和聚合操作，输出特征向量H'；

将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"；

利用解码器对所述特征向量H"进行特征重建，获得最终重建特征，并基于所述最终重建特征获取视频帧，确定为视频关键帧；所述解码器采用转置卷积层实现。

如上所述的方法，所述卷积网络为残差网络，所述残差网络的最后一层为1*1的卷积层，所述残差网络中的部分卷积层为空洞卷积层。

如上所述的方法，在训练所述残差网络时，在紧邻所述最后一层网络层的倒数第二层网络层中增加辅助损失函数loss2，利用所述辅助损失函数loss2与所述残差网络的主损失函数loss1共同作为损失函数进行所述残差网络的训练。

如上所述的方法，所述残差网络的损失函数为loss，满足：loss＝loss1+α*loss2；α为权重，0＜α＜1。

如上所述的方法，将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"，具体为：

将所述特征向量H'和所述特征向量F拼接，形成拼接后的特征向量；

将所述拼接后的特征向量做全局平均池化，获得平均池化后的特征向量；

将所述平均池化后的特征向量执行卷积操作和激活操作，获得卷积后的特征向量；

将所述卷积后的特征向量与所述特征向量F相乘，获得特征向量H"并输出。

如上所述的方法，对所述特征向量H"进行特征重建，获得最终重建特征，具体为：

对所述特征向量H"使用转置卷积重建，获得原始重建特征，将所述原始重建特征与所述特征向量F合并，合并后的特征向量再次使用转置卷积重建，获得最终重建特征。

如上所述的方法，所述解码器采用多样性奖励函数和代表性函数作为损失函数进行训练学习。

如上所述的方法，将所述特征向量X输入交叉注意力模块，具体为：

首先，将所述特征向量X降维处理，获得降维后的特征向量H；

然后，将所述降维后的特征向量H输入交叉注意力模块。

本发明的另一目的是提供一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时，实现上述的基于全卷积网络的视频关键帧提取方法。

本发明的又一目的是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述所述的基于全卷积网络的视频关键帧提取方法。

与现有技术相比，本发明的优点和积极效果是：本发明提供的视频关键帧提取方法，网络采用编解码结构，编码器为预训练的卷积网络CNN，且卷积网络CNN中不存在全连接层，解码器采用转置卷积层，实现了整体框架为不具有全连接层的全卷积网络的视频关键帧提取；同时，为了获取视频帧之间的长距离依赖以及丰富的上下文信息，在全卷积网络中引入注意力机制，全卷积网络中的编码器使用深层卷积网络提取视频特征，使得算法能够基于视频帧的高级视觉特征提取关键帧，使得所提取的关键帧较好地反映视频帧的真实内容信息；利用注意力机制可以获取视频帧之间的长距离依赖关系以及视频帧之间的上下文关系，有效补充全卷积网络不擅长捕获帧间的长距离依赖关系的缺陷，提高了所提取的视频关键帧的精确度，进而提高了基于视频关键帧形成的视频摘要的准确性。

结合附图阅读本发明的具体实施方式后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于全卷积网络的视频关键帧提取方法一个实施例的流程图；

图2是交叉注意力模块的结构示意图；

图3是通道注意力模块的结构示意图；

图4是本发明基于全卷积网络的视频关键帧提取方法另一个实施例的网络结构示意图；

图5是训练图4中的卷积网络的结构示意图；

图6是本发明电子设备一个实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。

参见图1，该图1所示为本发明基于全卷积网络的视频关键帧提取方法一个实施例的流程图，具体来说，是采用全卷积网络和注意力机制相结合的技术手段提取视频关键帧的一个实施例的流程图。

在利用全卷积网络提取视频关键帧之前，预先使用训练数据对所涉及的网络模型进行了学习训练。

如图1所示，该实施例采用包括有下述步骤的过程提取视频关键帧。

步骤101：将原始视频输入到预训练的卷积网络中进行特征提取，输出特征向量X。

在该实施例中，卷积网络作为视频关键帧提取的编码器使用，用于从原始视频中提取视频的视觉特征，并输出特征向量X。而且，卷积网络中的全连接层全部替换为卷积层，也即，本阶段使用的卷积网络是不具有全连接层的网络。卷积网络能够提取视频的深度特征，从而可以提高视频关键帧的提取准确度。并且，这种卷积网络能够同时处理多帧视频，在一定程度上能够简化提前视频帧的网络模型，提高运行速度。卷积网络预先使用训练数据进行了网络模型的深度训练。卷积网络可以采用现有技术中的网络结构，譬如，采用ResNet网络(残差网络)、VGG网络、GoogLeNet网络等，而网络模型的训练过程也参考现有技术中的训练方法。

步骤102：将特征向量X输入交叉注意力模块，经过关联操作和聚合操作，输出特征向量H'。

基于全卷积网络的视频摘要算法虽然能够以较快的速度提取视频的深度特征，但是其不擅长捕获帧间的长距离依赖关系，不能充分利用视频帧的上下文信息。为解决该问题，该实施例将注意力机制与全卷积网络架构进行结合。其中，注意力机制包括有交叉注意力模块和通道注意力模块，在卷积网络输出特征向量X后，输入到交叉注意力模块，经过交叉注意力模块中的关联操作和聚合操作，输出特征向量H'。

交叉注意力模块对输入视频执行关联操作及聚合操作的具体实现，可以参考现有技术。

在一个优选实施例中，首先对卷积网络输出的特征向量X降维处理，获得降维后的特征向量H。然后，采用图2示出的交叉注意力模块的结构对降维后的特征向量H执行关联操作及聚合操作。其中，对特征向量X降维处理，可以采用卷积降维方法、缺失值比率降维方法、高相关滤波降维方法等。

如图2所示，在交叉注意力模块中，降维后的特征向量H大小为(C*W*H)(C为通道数，W为宽，H为高)，首先经过三个1*1卷积层conv，分别得到特征向量Q、K、V。其中，V的尺寸不变，与H相同，而Q、K的尺寸均为(C’*W*H)，C’＜C。通过对Q、K降维处理，以减少计算量，方便后续操作。

然后，对Q、K执行关联操作，也即Affinity操作，关联操作公式如下：

d_i，u＝Q_uΩ_i，u ^T，

公式中，Qu表示特征图Q中位置u处的特征向量，假设Qu位于Q的第n行第m列，则将K中位于第n行和第m列的所有元素拿出组成特征图Ku,Ωi,u则表示特征图Ku中任意一处的特征向量；所有的d_i，u构成特征向量D，表示特征图中每个像素点与同行同列像素之间的关系。然后对D进行归一化操作，譬如，在D上应用softmax进行归一化操作，从而获得新的特征向量A，使得每个位置的贡献度更加明了。其中softmax是已经封装后的函数，直接调用即可。

然后，基于特征向量A和特征向量V执行聚合操作，即Aggregation操作，聚合操作公式如下：

其中，H’u表示经过聚合操作后输出的特征向量；Hu表示特征向量H中位置μ处的特征向量，Au表示特征向量A中位置μ处的特征向量；Φ_i,u表示特征向量V第i层中与Hu同行同列像素组成的特征向量。对Au与Φ_i,u向量相乘再与Hu相加，每个层都进行这样的操作，组成一个维度为C的新向量，再对每个位置都进行这样的操作，即可以获得一个新的特征向量H'，该特征向量H'的尺寸为(C*W*H)。

步骤103：将特征向量H'和卷积网络的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"。

随着网络层的加深，一些细节特征会丢失。而卷积网络的低层网络的输出具有更加丰富的细节特征信息，因此，在该实施例中，获取卷积网络的低层网络的输出特征向量F，将该特征向量F与步骤102获得的特征向量H'一同输入到通道注意力模块，输出特征向量H"。这里的特征向量F，可以是卷积网络任意一个低层网络的输出，可根据实际情况进行选择调整。通过引入低层网络的特征向量，可以恢复一些细节特征，从而获得更加丰富的视觉特征。

通过注意力模块的具体过程和实现，可以参考现有技术。更优选的实现过程，参考图3的结构示意图来实现。

如图3所示，作为优选实施方式，将基于全卷积网络中的高层网络的输出获取的特征向量H'和来自于低层网络的特征向量F进行拼接(concate操作)，形成拼接后的特征向量。然后，将拼接后的特征向量做全局平均池化(GAP)，获得平均池化后的特征向量。然后，将平均池化后的特征向量执行1*1卷积操作(1*1conv)以及激活操作，获得卷积后的特征向量。其中，激活操作是采用ReLU激活函数执行。然后，将得到的卷积后的特征向量再与低层网络的特征向量F相乘，得到特征向量H"并输出。通过两个注意力机制的处理，所输出的特征向量H"中既包含了每个视频帧的重要性得分，有包含了视频帧之间的长距离依赖关系。

步骤104：利用解码器对特征向量H"进行特征重建，获得最终重建特征，基于最终重建特征获取视频帧，确定为视频关键帧。

利用步骤101的卷积网络及步骤102、步骤103构成的注意力机制的结合，获得了既能反映视频真实内容又充分体现出视频帧之间的长距离依赖关系和上下文关系的特征向量H"，然后使用解码器对特征向量H"进行特征重建，具体来说是采用转置卷积执行特征重建，获得最终重建特征。最后，基于最终重建特征获取视频帧，所获取的视频帧即为视频关键帧。利用解码器重建特征以及基于重建特征获取视频帧的具体过程，采用现有技术来执行。

在其他一些优选实施例中，解码器采用多样性奖励函数和代表性函数作为损失函数进行训练学习。其中，多样性奖励函数通过测量特征空间中所选帧之间的差异来评估生成摘要的多样性程度，而代表性奖励函数主要用于测量生成的视频摘要是否能总结原始视频。对解码器采用多样性奖励函数和代表性函数作为损失函数进行训练学习，能够使得获取的视频摘要既具有代表性，又丰富多彩。多样性奖励函数和代表性函数的表达式及使用方法，均为现有技术，在此不作具体描述。

采用上述实施例的方法提取视频关键帧，将全卷积网络与注意力机制相结合，能够基于视频帧的高级视觉特征提取关键帧，使得所提取的关键帧较好地反映视频帧的真实内容信息，提高了特征提取效率；利用注意力机制可以获取视频帧之间的长距离依赖关系以及视频帧之间的上下文关系，有效补充基于全卷积网络的视频摘要算法不擅长捕获帧间的长距离结构依赖关系的缺陷，提高了所提取的视频关键帧的精确度，进而提高了基于视频关键帧形成的视频摘要的准确性。

图4示出了本发明基于全卷积网络的视频关键帧提取方法另一个实施例的网络结构示意图。在该实施例中，原始视频输入到预训练的卷积网络CNN中进行特征提取，输出特征向量X；特征向量X执行Reduction降维处理，获得降维后的特征向量H；特征向量H输入交叉注意力模块Criss-Cross Attention Module，经过关联操作和聚合操作，输出特征向量H'；将特征向量H'和卷积网络CNN的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"。上述各过程可以采用图1实施例及上述的其他优选实施例的方法具体实现，在此不作赘述。而该实施例与图1实施例及上述其他优选实施例不同之处在于利用解码器进行特征重建的过程。在该实施例中，利用解码器实现特征重建的过程具体为：首先，对特征向量H"进行特征重建，获得原始重建特征。具体的，是对特征向量H"应用1*1的转置卷积deconv1重建原始特征，获得原始重建特征。然后，将原始重建特征与来自全卷积网络的低层网络层的输出特征向量F合并，合并后的特征向量再次使用1*1的转置卷积deconv2重建，获得最终重建特征。采用该方法获得最终重建特征的目的在于：通过多层卷积所获得的特征向量H"的分辨率比较低，不利于重建特征。通过合并低层网络层的输出特征向量F，能够引入具有丰富细节信息的浅层特征，从而使得合并后的特征向量具有更加丰富的视觉特征，进一步提高最终提取的视频关键帧的精确度。

而且，在该实施例中，对于作为编码器的卷积网络CNN，使用残差网络。而且，为了尽可能地保留更多的细节和更有效地生成特征向量，对所采用的残差网络作如下改进设计：

残差网络中作为输出层的最后一层网络层为1*1的卷积层。也即，将残差网络的最后一个全连接层替换为1*1的卷积层。

将残差网络中的至少部分低层网络的部分卷积设置为空洞卷积。例如，对于五层结构的残差网络，将第一层至第四层中的部分卷积设置为空洞卷积。但不局限于此，具体选择哪层或哪几层的卷积设置为空洞卷积，可以根据实际要求通过实验结果进行判断设置。将卷积设置为空洞卷积，具体设置方法为：在卷积操作中有一个参数dilation，当dilation>1时为空洞卷积。例如，

conv1＝nn.Conv2d(1,1,3,stride＝1,bias＝False,dilation＝1)#普通卷积

conv2＝nn.Conv2d(1,1,3,stride＝1,bias＝False,dilation＝2)#空洞卷积。

通过将至少部分低层网络层的卷积设置为空洞卷积，能够在残差网络中使用池化操作来增加感受野的同时，尽可能地减少因池化操作而造成细节信息遗失的损失。

同时，还在训练残差网络时，在紧邻最后一层网络层的倒数第二层网络层中增加辅助损失函数，以监督生成的初始的关键帧序列。具体来说，参见图5示出的训练卷积网络的结构示意图，作为编码器的残差网络，为五层结构，分别为conv1、conv2、conv3、conv4和conv5。除了主损失函数loss1之后，还在第四层中增加了辅助损失函数loss2，利用辅助损失函数loss2与主损失函数loss1共同作为损失函数进行残差网络的训练。而且，两个损失函数均通过了第一层至第四层网络，利用辅助损失函数loss2进行训练，有助于优化学习过程，而主损失函数loss1承担最大责任。作为更优选的实施方式，还增加了权重来平衡辅助损失函数loss2，即虽然两个损失函数一起传播，大使用不同的权重共同优化网络参数。残差网络最终的损失函数为loss，则满足：loss＝loss1+α*loss2；α为权重，0＜α＜1，α的具体取值可以根据实验结果进行调整。

并且，考虑到一个视频中关键帧少、非关键帧多，为一个典型的不平衡问题，因此，对于辅助损失函数loss2，优选能够处理类不平衡问题的损失函数，譬如，distributionalranking loss、focal loss等。

在利用训练后的残差网络提取视频帧的测试阶段，不再使用辅助损失函数loss2，仅使用经过优化后的主损失函数用于最终的预测，以简化测试过程，提高测试效率。

上述的基于全卷积网络的视频关键帧提取方法可以应用在一个或者多个电子设备中。电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等设备。电子设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

图6示出了本发明电子设备一个实施例的结构示意图。在该实施例中，电子设备6包括有存储器61和处理器62，存储器61中存储有计算机程序。处理器62能够通过总线读取并运行/执行存储器61中存储的计算机程序。并且，处理器62在执行计算机程序时，实现上述的图1、图4实施例及其他优选实施例的基于全卷积网络的视频关键帧提取方法，实现方法所能产生的技术效果。

上述的基于全卷积网络的视频关键帧提取方法还可以以软件产品的形式体现出来，软件产品存储在计算机可读存储介质中。具体来说，本发明还提供一种计算机可读存储介质的实施例，在存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述的图1、图4实施例及其他优选实施例的基于全卷积网络的视频关键帧提取方法，实现方法所能产生的技术效果。对于计算机可读存储介质，包括但不限于U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟、光盘等。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

Claims

1.一种基于全卷积网络的视频关键帧提取方法，其特征在于，所述方法包括：

利用解码器对所述特征向量H"进行特征重建，获得最终重建特征，并基于所述最终重建特征获取视频帧，确定为视频关键帧；所述解码器采用转置卷积层实现；

所述卷积网络为残差网络，所述残差网络的最后一层为1*1的卷积层，所述残差网络中的部分卷积层为空洞卷积层；

将所述特征向量H'和所述卷积网络的低层网络的输出特征向量F同时输入通道注意力模块，输出特征向量H"，具体为：

2.根据权利要求1所述的基于全卷积网络的视频关键帧提取方法，其特征在于，在训练所述残差网络时，在紧邻所述最后一层网络层的倒数第二层网络层中增加辅助损失函数loss2，利用所述辅助损失函数loss2与所述残差网络的主损失函数loss1共同作为损失函数进行所述残差网络的训练。

3.根据权利要求2所述的基于全卷积网络的视频关键帧提取方法，其特征在于，所述残差网络的损失函数为loss，满足：loss=loss1+α*loss2；α为权重，0＜α＜1。

4.根据权利要求1所述的基于全卷积网络的视频关键帧提取方法，其特征在于，对所述特征向量H"进行特征重建，获得最终重建特征，具体为：

5.根据权利要求1至4中任一项所述的基于全卷积网络的视频关键帧提取方法，其特征在于，所述解码器采用多样性奖励函数和代表性函数作为损失函数进行训练学习。

6.根据权利要求1至4中任一项所述的基于全卷积网络的视频关键帧提取方法，其特征在于，将所述特征向量X输入交叉注意力模块，具体为：

然后，将所述降维后的特征向量H输入交叉注意力模块。

7.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现上述权利要求1至6中任一项所述的基于全卷积网络的视频关键帧提取方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述权利要求1至6中任一项所述的基于全卷积网络的视频关键帧提取方法。