CN115376052B

CN115376052B - 一种基于关键帧采样和多尺度稠密网络的长视频分类方法

Info

Publication number: CN115376052B
Application number: CN202211314446.2A
Authority: CN
Inventors: 付强; 赵洪伟; 朱东杰; 李良敏
Original assignee: Shandong Bim Information Technology Co ltd
Current assignee: Shandong Bim Information Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-04-07
Anticipated expiration: 2042-10-26
Also published as: CN115376052A

Abstract

本发明提供了一种基于关键帧采样和多尺度稠密网络的长视频分类方法，包括以下部分：S1、基于直方图差异的视频镜头边缘检测，对待分类视频进行镜头分割处理；S2、基于帧间差值的镜头内关键帧提取，提取S1分割出的视频镜头集合中的关键帧；S3、基于关键帧的长视频采样，利用S2提取到的关键帧将长视频按关键帧进行压缩；S4、基于多尺度稠密网络MSDNet的视频关键帧特征提取，利用多尺度稠密网络MSDNet提取S3压缩后的视频帧序列的特征表示；S5、基于LSTM的视频关键帧序列分类，将S4提取得到的视频帧序列特征表示输入LSTM网络得到视频序列的特征向量，利用得到的特征向量输入线性分类器得到分类结果。

Description

一种基于关键帧采样和多尺度稠密网络的长视频分类方法

技术领域

本发明属于视频检索与分类领域，具体而言，属于基于弹性计算的轻量化视频检索与分类领域。

背景技术

随着新一代信息技术的快速发展，互联网世界中的各种模态的信息呈现爆炸式增长的趋势，其中以视频为代表的流媒体，增长态势尤为突出。视频作为一种图片和音频的结合体、信息时代的交互载体，具有传递大量信息的能力，同时能够带给人们听觉和视觉上的双重感受，受到广大用户的追捧，进而带动了各大短视频平台的快速崛起。同时，随着智能手机、智能家居等智能终端设备的大量普及，亟需一种可以在计算资源相对有限的边缘设备上运行的视频检索与分类算法，以提升用户在使用此类边缘设备时的体验。

视频是一种由大量渐变的视频帧图像密集堆叠成的时序序列，且存在大量图像特征信息类似的冗余帧，这些冗余视频帧对于提取视频特征、提升分类精确度具有较低的正向促进作用。因此，需要按照不同视频帧对于视频分类的重要程度，有依据的对长视频进行视频帧压缩，剔除具有冗余性和重复性的视频帧，仅保留能够体现视频特征的关键帧即可。这种关键帧的长视频采样算法，屏蔽了大量冗余视频帧对于长视频分类的影响，大幅度节省了计算开支，降低了模型复杂度。

利用在深度神经网络中设置中间分类器的方式来自适应的分配计算资源是近段时间学术界的研究热点。通过在深度神经网络的不同深度处，分别设置非参数共享的多个分类器，使易于分类的样本可以尽可能早的从网络计算中退出节约计算资源，而难以分类的困难样本可以有更充足的计算资源从而进行更深层的网络计算。这种根据待分类样本的分类难易程度，自适应分配计算资源的方式，可以最大限度的提升计算资源利用率，回收固定分配给简单样本的非必要计算资源，提升困难样本计算资源额度，在保证计算精度的前提下，更好的实现了计算资源的弹性分配与利用。

视频是一种具有时序特征的图像堆叠而成的序列。因此，如果要合理的表述某视频特征，不仅要提取组成视频的视频帧的图像特征，还要在时间维度上提取视频作为一种时序样本的序列特征。基于LSTM的机器学习模型能够有效捕获时序样本中的长短期特征，适合作为视频类具有时序特征样本的特征向量提取模型。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题。

为此，本发明的目的在于提供一种基于关键帧采样和多尺度稠密网络的长视频分类方法，实现对长视频的检索与分类，而且能够自适应地根据待分类视频的难易程度分配计算资源，从而有效降低长视频分类任务对计算资源的要求，使在计算资源有限的边缘设备上进行高效的长视频分类成为可能，提升用户在使用此类边缘设备时的体验。

为了实现上述目的，本发明的第一方面的技术方案提供了一种基于关键帧采样和多尺度稠密网络的长视频分类方法，包括以下步骤：

S1、基于直方图差异的视频镜头边缘检测，对待分类视频进行镜头分割处理；

S2、基于帧间差值的镜头内关键帧提取，提取S1分割出的视频镜头集合中的关键帧；

S3、基于关键帧的长视频采样，利用S2提取到的关键帧将长视频按关键帧进行压缩；

S4、基于多尺度稠密网络MSDNet的视频关键帧特征提取，利用多尺度稠密网络MSDNet提取S3压缩后的视频帧序列的特征表示；

S5、基于LSTM的视频关键帧序列分类，将S4提取得到的视频帧序列特征表示输入LSTM网络得到视频序列的特征向量，利用得到的特征向量输入线性分类器得到分类结果。

在该技术方案中，优选地，所述S1基于直方图差异的视频镜头边缘检测算法包括：S11、对待分类的长视频进行帧化处理，并对视频中的所有帧逐帧计算视频帧图像的直方图；S12、基于S11中计算得到的视频帧图像直方图计算帧间差值并存储；S13、基于S12中计算得到的帧间差值信息，根据基于帧间差值的镜头分割算法对长视频进行镜头分割。

进一步的，所述帧间差值计算算法，根据计算得到的每个视频帧图像的直方图，计算帧与帧之间的帧间差值，计算方式为：

（1）

进一步的，所述基于帧间差值的镜头分割算法包括S131基于帧间差值的镜头边界帧选取和S132基于镜头边界帧的视频镜头分割与提取两个主要步骤；

首先执行基于帧间差值的镜头边界帧选取算法选择镜头的边界，随后根据选定的镜头边界帧切分视频提取镜头。

进一步的，所述S131基于帧间差值的镜头边界帧选取算法包括：

S1311、设置一个大小为10帧的窗口，步长为8，即窗口重叠次数为2；寻找窗口内帧间差值最大的帧定义为可能的边界帧，并判断该帧距离上一个边界帧的距离；如果距离小于，则取消该可能的边界帧的资格，否则定义该帧是一个新的边界帧；

S1312、进一步判断边界帧是否是镜头边缘帧；计算两个边界帧之间帧的帧间差值的平均值，并判断边界帧的帧间差值是否远大于平均值，预置阈值为6，即，当且仅当边界帧的帧间差值大于两个边界帧之间帧平均值的6倍，两个边界帧才得以保留；

S1313、进一步优化选取的镜头边缘，即，判断该边界帧后的小区间内是否有比该边界帧更合适的帧；从确定的边界帧开始，往后寻找8帧中的最大帧；

若最大帧的帧间差值小于边界帧的帧间差值，则边界帧得以保留；

若最大帧的帧间差值大于边界帧的帧间差值，则计算前一个边界帧和最新找到的最大帧之间帧的帧间差值的平均值，判断最大帧的帧间差值是否大于平均值的倍数，若没有大于，则边界帧得以保留，否则最大帧为新的边界帧，并继续执行镜头边缘优化；

S1314、最后，得到待分类视频对应的边界帧组成的边界帧序列。

进一步的，根据基于帧间差值的镜头边界帧选取算法选定的边界帧组成的边界帧序列，以每两个边界帧为界，截取视频帧组成视频子镜头，所有视频子镜头组成待分类视频对应的子镜头序列，表示待分类视频对应的子镜头序列中有个镜头组成。

在该技术方案中，优选地，所述S2基于帧间差值的镜头内关键帧提取算法包括：

S21、首先计算待分类视频对应的子镜头序列中的所有子镜头内的视频帧的帧间差值的平均值，其中，表示待分类视频对应的子镜头序列中有个镜头组成；

S22、找出子镜头内的视频帧的帧间差值大于对应的帧间差值平均值的倍数的视频帧（为基数不固定的视频帧集合）作为关键帧候选帧；

S23、如果子镜头内无法检索到如S22所述的视频帧，则证明该子镜头变化过于平缓，则选择子镜头的中间帧作为关键帧候选帧；

S24、排除关键帧候选帧构成的集合中过于黑暗的视频帧，剩余的候选帧构成的集合即为待分类视频对应的关键帧序列集合。

在该技术方案中，优选地，所述S3基于关键帧的长视频采样算法包括：

S31、判断S24中得到的待分类视频对应的关键帧序列集合的基数与多尺度稠密网络MSDNet的批处理大小的数量关系；

S32、若，则扩充关键帧序列集合使成立，即，从关键帧序列集合的首个关键帧开始，提取其临近的视频帧作为新的关键帧扩充关键帧序列集合，直至成立；若，则压缩关键帧序列集合使成立，即，提升S22中的关键帧帧间差值平均值提取阈值，再次执行S2所述；若，则跳过S32；

S33、将完成S32处理的待分类视频对应的关键帧序列集合定义为，即按长视频关键帧采样完成后的待分类视频样本，并回溯S22中关键帧帧间差值平均值提取阈值至初始值。

在该技术方案中，优选地，所述S4基于多尺度稠密网络MSDNet的视频关键帧特征提取算法包括：使用多尺度稠密网络MSDNet的初始化层提取定义的待分类视频对应的关键帧序列集合中的每张视频帧的不同分辨率尺度的基本特征映射图；将不同分辨率尺度的基本特征映射图输入MSDNet网络的浅层块中提取图像的浅层特征表示；将提取到的待分类视频对应的关键帧序列集合中的每张视频帧的浅层特征表示组成待分类视频帧浅层特征表示序列，并把浅层特征表示序列输入S5所述的基于LSTM的视频关键帧序列浅层分类器中进行视频分类；判断浅层分类器的分类结果的置信度是否满足预设置信度阈值要求；若满足，则退出MSDNet网络计算，节省计算资源；若不满足，则将MSDNet网络的浅层块提取的图像浅层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示；将提取到的待分类视频对应的关键帧序列集合中的每张视频帧的深层特征表示组成待分类视频帧深层特征表示序列，并把深层特征表示序列输入S5所述的基于LSTM的视频关键帧序列深层分类器中进行视频分类；判断深层分类器的分类结果的置信度是否满足预设置信度阈值要求。若满足，则退出MSDNet网络计算，节省计算资源；若不满足，则将MSDNet网络的深层块提取的图像深层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示，并执行S45。

进一步的，所述多尺度稠密网络MSDNet包括：

基于LSTM的机器学习模型能够有效捕获时序样本中的长短期特征，适合作为视频关键帧样本的特征向量提取模型；使用S5所述的基于LSTM的视频关键帧序列分类器替代原MSDNet网络中的线性分类器，将MSDNet中的稠密连接块输出的特征映射图经过处理后输入基于LSTM的视频关键帧序列分类器；

进一步的，位于MSDNet不同深度的基于LSTM的视频关键帧序列分类器是不共享参数的、互不相同的分类器。

进一步的，所述多尺度稠密网络MSDNet包括：

使用ImageNet对进行视频帧特征提取之前的多尺度稠密网络MSDNet进行预训练，使多尺度稠密网络MSDNet具有根据有限的资源自适应提取图像特征的能力。

进一步的，所述多尺度稠密网络MSDNet包括：

多尺度稠密网络MSDNet的初始化层由如下几个部分构成：3×3的常规卷积层，批量归一化层BN和ReLU线性激活单元；为了实现初始化层具有提取多种分辨率规模的基本映射图，3×3的常规卷积层采用2的幂次方步长进行卷积操作，从而实现对基本映射图的下采样；

多尺度稠密网络MSDNet主体部分是由多个稠密连接块组成，稠密连接块内有多个处理不同分辨率尺度的子网络，不同分辨率尺度子网络的输出通过跨步卷积和常规卷积将不同分辨率尺度的基本特征图提取为相同尺寸的特征表示，并在通道维上结连；

稠密连接块的结构为1×1常规卷积——批量归一化层BN——ReLU线性激活单元——3×3常规卷积——批量归一化层BN——ReLU线性激活单元；

更进一步的，为了将稠密连接块的输出作为LSTM分类器的输入，在稠密连接块后接128维3×3的滤波器、2×2平均池化层以及重塑特征尺寸的FlattenLayer。

进一步的，所述多尺度稠密网络MSDNet包括：

为了进一步节约计算资源，多尺度稠密网络MSDNet的深层稠密连接块无需维护对提升性能帮助不大的最精细分辨率尺度的视频帧特征图，因此，多尺度稠密网络MSDNet削减了深层稠密连接块中的子网络规模；

在多尺度稠密网络MSDNet的不同稠密连接块之间构建Transition层，在对接处理不同分辨率尺度的稠密连接块的同时进一步压缩计算规模；包括1×1常规卷积、批量归一化层BN、ReLU线性激活单元。

进一步的，所述多尺度稠密网络MSDNet包括：

多尺度稠密网络MSDNet中位于不同网络深度处的所有基于LSTM的视频关键帧序列分类器均使用交叉熵损失函数；

进一步的，整个多尺度稠密网络MSDNet的损失函数为所有中间分类器的加权和，具体定义如下：

（1）

其中，表示第个分类器，表示第个分类器的权重，集合表示训练集。

在该技术方案中，优选地，所述S5基于LSTM的视频关键帧序列分类算法包括：将经过MSDNet提取的视频帧特征表示按照时序次序，输入LSTM中；将处理完个视频帧特征后的LSTM网络的隐藏状态作为待检测视频对应的特征向量；将待检测视频对应的特征向量输入线性全连接层，并将输出后的预测向量做Softmax计算，且将计算结果作为待检测视频多分类结果的置信度；判断置信度是否达到预设的分类置信度阈值。若达到预设的分类置信度阈值，则计算结束，将达到预设的分类置信度阈值的分类结果作为最终结果输出；若未达到预设的分类置信度阈值，则继续执行MSDNet网络计算。

本发明的第二方面的技术方案提出了一种计算机设备，计算机设备包括处理器，处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第二方面的技术方案提出的任一项的基于关键帧采样和多尺度稠密网络的长视频分类方法的步骤。

在该技术方案中，计算机设备包括处理器，处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一项的基于关键帧采样和多尺度稠密网络的长视频分类方法的步骤，因此具有上述本发明的第一方面的技术方案提出的任一项的基于关键帧采样和多尺度稠密网络的长视频分类方法的全部有益效果，在此不再赘述。

本发明的第三方面的技术方案提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的基于关键帧采样和多尺度稠密网络的长视频分类方法的步骤。

在该技术方案中，计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的基于关键帧采样和多尺度稠密网络的长视频分类方法的步骤，因此具有上述本发明的第一方面的技术方案提出的任一项的基于分布式的网络资产扫描探测方法的全部有益效果，在此不再赘述。

本发明提出的一种基于关键帧采样和多尺度稠密网络的长视频分类方法具有以下有益技术效果：

（1）本发明提出的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，能够基于关键帧对长视频采样，屏蔽大量的冗余视频帧对长视频分类的影响，大幅度节省了计算开支，降低了模型复杂度；

（2）本发明提出的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，能够根据待分类样本的分类难易程度，自适应分配计算资源的方式，可以最大限度的提升计算资源利用率，回收固定分配给简单样本的非必要计算资源，提升困难样本计算资源额度，在保证计算精度的前提下，更好的实现了计算资源的弹性分配与利用；

（3）本发明提出的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，能够更有效地利用边缘设备上有限的计算资源执行长视频的分类任务，提升用户在使用这些边缘计算设备时的体验；

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的实施例的一种基于关键帧采样和多尺度稠密网络的长视频分类方法的总体流程示意图；

图2示出了根据本发明的另一实施例的一种基于关键帧采样和多尺度稠密网络的长视频分类方法的总体流程示意图；

图3示出了根据本发明的实施例的一种基于关键帧采样和多尺度稠密网络的长视频分类方法中基于多尺度稠密网络MSDNet和LSTM分类器的多尺度稠密网络的长视频分类网络架构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面结合图1至图2对根据本发明的实施例的一种基于关键帧采样和多尺度稠密网络的长视频分类方法进行具体说明。

如图1所示，一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，包括：

S4、基于多尺度稠密网络MSDNet的视频关键帧特征提取，利用多尺度稠密网络MSDNet提取S3压缩后的视频帧序列的特征表示（MSDNet即多尺度稠密网络，黄高等人于2018年提出）；

S5、基于LSTM的视频关键帧序列分类，将S4提取得到的视频帧序列特征表示输入LSTM网络得到视频序列的特征向量，利用得到的特征向量输入线性分类器得到分类结果；

进一步地，基于直方图差异的视频镜头边缘检测算法包括：

S11、对待分类的长视频进行帧化处理，并对视频中的所有帧逐帧计算视频帧图像的直方图；

S12、基于S11中计算得到的视频帧图像直方图计算帧间差值并存储；

S13、基于S12中计算得到的帧间差值信息，根据基于帧间差值的镜头分割算法对长视频进行镜头分割；

进一步地，S11对视频中的所有帧逐帧计算视频帧图像的直方图包括：将待分类的图像从RGB色彩空间转换到HSV色彩空间cvColor，使用直方图的方法可以很好的避免镜头内对象运动而造成的差异，提高一定鲁棒性。

根据S11计算得到的每个视频帧图像的直方图，计算帧与帧之间的帧间差值，计算方式为：

（1）

进一步地，基于帧间差值的镜头分割算法对长视频进行镜头分割包括：

S131基于帧间差值的镜头边界帧选取和S132基于镜头边界帧的视频镜头分割与提取两个主要步骤；

具体地，所述S131基于帧间差值的镜头边界帧选取算法包括：

S1311、设置一个大小为10帧的窗口，步长为8，即窗口重叠次数为2。寻找窗口内帧间差值最大的帧定义为可能的边界帧，并判断该帧距离上一个边界帧的距离。如果距离小于（最小镜头长度），则取消该可能的边界帧的资格，否则定义该帧是一个新的边界帧；

S1312、进一步判断边界帧是否是镜头边缘帧。计算两个边界帧之间帧的帧间差值的平均值，并判断边界帧的帧间差值是否远大于平均值，预置阈值为6，即，当且仅当边界帧的帧间差值大于两个边界帧之间帧平均值的6倍，两个边界帧才得以保留；

S1313、进一步优化选取的镜头边缘，即，判断该边界帧后的小区间内是否有比该边界帧更合适的帧。从确定的边界帧开始，往后寻找8帧中的最大帧。

若最大帧的帧间差值小于边界帧的帧间差值，则边界帧得以保留。

具体地，S132基于镜头边界帧的视频镜头分割与提取包括：

根据基于帧间差值的镜头边界帧选取算法选定的边界帧组成的边界帧序列，以每两个边界帧为界，截取视频帧组成视频子镜头，所有视频子镜头组成待分类视频对应的子镜头序列，表示待分类视频对应的子镜头序列中有个镜头组成。

进一步地，所述S2基于帧间差值的镜头内关键帧提取包括：

S24、排除关键帧候选帧构成的集合中过于黑暗的视频帧，剩余的候选帧构成的集合即为待分类视频对应的关键帧序列集合；

进一步地，所述S2基于关键帧的长视频采样包括：

S33、将完成S32处理的待分类视频对应的关键帧序列集合定义为，即按长视频关键帧采样完成后的待分类视频样本，并回溯S22中关键帧帧间差值平均值提取阈值至初始值；

进一步地，如图2所示，基于多尺度稠密网络MSDNet的视频关键帧特征提取包括：

S41 、使用多尺度稠密网络MSDNet的初始化层提取S33中定义的待分类视频对应的关键帧序列集合中的每张视频帧的不同分辨率尺度的基本特征映射图；

S42、将不同分辨率尺度的基本特征映射图输入MSDNet网络的浅层块中提取图像的浅层特征表示；

S43、将提取到的待分类视频对应的关键帧序列集合中的每张视频帧的浅层特征表示组成待分类视频帧浅层特征表示序列，并把浅层特征表示序列输入S5所述的基于LSTM的视频关键帧序列浅层分类器中进行视频分类；

S44、判断浅层分类器的分类结果的置信度是否满足预设置信度阈值要求。若满足，则退出MSDNet网络计算，节省计算资源；若不满足，则将MSDNet网络的浅层块提取的图像浅层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示；

S45、将提取到的待分类视频对应的关键帧序列集合中的每张视频帧的深层特征表示组成待分类视频帧深层特征表示序列，并把深层特征表示序列输入S5所述的基于LSTM的视频关键帧序列深层分类器中进行视频分类；

S46、判断深层分类器的分类结果的置信度是否满足预设置信度阈值要求。若满足，则退出MSDNet网络计算，节省计算资源；若不满足，则将MSDNet网络的深层块提取的图像深层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示，并执行S45；

进一步地，如图2所示，基于LSTM的视频关键帧序列分类包括：

S51、如S45所述，将经过MSDNet提取的视频帧特征表示按照时序次序，输入LSTM中；

S52、将处理完个视频帧特征后的LSTM网络的隐藏状态作为待检测视频对应的特征向量；

S53、将待检测视频对应的特征向量输入线性全连接层，并将输出后的预测向量做Softmax计算，且将计算结果作为待检测视频多分类结果的置信度；

S54、判断置信度是否达到预设的分类置信度阈值。若达到预设的分类置信度阈值，则计算结束，将达到预设的分类置信度阈值的分类结果作为最终结果输出；若未达到预设的分类置信度阈值，则继续执行MSDNet网络计算；

具体地，如图3所示，基于多尺度稠密网络MSDNet和LSTM分类器的多尺度稠密网络的长视频分类网络包括：

基于LSTM的机器学习模型能够有效捕获时序样本中的长短期特征，适合作为视频关键帧样本的特征向量提取模型。使用S5所述的基于LSTM的视频关键帧序列分类器替代原MSDNet网络中的线性分类器，将MSDNet中的稠密连接块输出的特征映射图经过处理后输入基于LSTM的视频关键帧序列分类器；

进一步的，如图3所示，基于多尺度稠密网络MSDNet和LSTM分类器的多尺度稠密网络的长视频分类网络包括：

位于MSDNet不同深度的基于LSTM的视频关键帧序列分类器是不共享参数的、互不相同的分类器；

具体地，稠密连接块的结构为1×1常规卷积——批量归一化层BN——ReLU线性激活单元——3×3常规卷积——批量归一化层BN——ReLU线性激活单元；为了将稠密连接块的输出作为LSTM分类器的输入，在稠密连接块后接128维3×3的滤波器、2×2平均池化层以及重塑特征尺寸的FlattenLayer。

具体地，在多尺度稠密网络MSDNet的不同稠密连接块之间构建Transition层，在对接处理不同分辨率尺度的稠密连接块的同时进一步压缩计算规模。包括1×1常规卷积、批量归一化层BN、ReLU线性激活单元；

具体地，整个多尺度稠密网络MSDNet的损失函数为所有中间分类器的加权和，具体定义如下：

（1）

Claims

1.一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，包括以下步骤：

S3、基于关键帧的长视频采样，利用S2提取到的关键帧将长视频按关键帧进行压缩，将完成压缩处理的待分类视频对应的关键帧序列定义为P^*；

S4、基于多尺度稠密网络MSDNet的视频关键帧特征提取，利用多尺度稠密网络MSDNet提取S3压缩后的视频帧序列的特征表示，具体包括6个步骤：

S41、使用多尺度稠密网络MSDNet的初始化层提取S3中定义的待分类视频对应的关键帧序列集合P^*中的每张视频帧的不同分辨率尺度的基本特征映射图；

S43、将提取到的待分类视频对应的关键帧序列集合P^*中的每张视频帧的浅层特征表示组成待分类视频帧浅层特征表示序列V¹，并把浅层特征表示序列V¹输入S5所述的基于LSTM的视频关键帧序列浅层分类器中进行视频分类；

S44、判断浅层分类器的分类结果的置信度是否满足预设置信度阈值要求；若满足，则退出MSDNet网络计算；若不满足，则将MSDNet网络的浅层块提取的图像浅层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示；

S45、将提取到的待分类视频对应的关键帧序列集合P^*中的每张视频帧的深层特征表示组成待分类视频帧深层特征表示序列V'，并把深层特征表示序列V'输入S5所述的基于LSTM的视频关键帧序列深层分类器中进行视频分类；

S46、判断深层分类器的分类结果的置信度是否满足预设置信度阈值要求；若满足，则退出MSDNet网络计算，节省计算资源；若不满足，则将MSDNet网络的深层块提取的图像深层特征表示输入MSDNet网络的深层块中继续提取图像的更深层特征表示，并执行S45。

上述多尺度稠密网络MSDNet的深层稠密连接块无需维护对提升性能帮助不大的最精细分辨率尺度的视频帧特征图，因此，多尺度稠密网络MSDNet削减了深层稠密连接块中的子网络规模；同时，在多尺度稠密网络MSDNet的不同稠密连接块之间构建Transition层，在对接处理不同分辨率尺度的稠密连接块的同时进一步压缩计算规模；包括1×1常规卷积、批量归一化层BN、ReLU线性激活单元。

2.根据权利要求1所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S1包括：

S13、基于S12中计算得到的帧间差值信息，根据基于帧间差值的镜头分割算法对长视频进行镜头分割。

3.根据权利要求2所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S11对视频中的所有帧逐帧计算视频帧图像的直方图包括：

将待分类的图像从RGB色彩空间转换到HSV色彩空间cvColor。

4.根据权利要求3所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S12包括：

根据S11计算得到的每个视频帧图像的直方图，计算帧与帧之间的帧间差值distance，计算方式为：

5.根据权利要求4所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S13包括：S131基于帧间差值的镜头边界帧选取和S132基于镜头边界帧的视频镜头分割与提取两个步骤；

6.根据权利要求5所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S131基于帧间差值的镜头边界帧选取算法包括：

S1311、设置一个大小为10帧的窗口，步长为8，即窗口重叠次数为2；寻找窗口内帧间差值distance最大的帧定义为可能的边界帧M^*，并判断该帧距离上一个边界帧M的距离；如果距离小于m_MinLengthOfShot，则取消该可能的边界帧M^*的资格，否则定义该帧是一个新的边界帧M；

S1312、进一步判断边界帧M是否是镜头边缘帧；计算两个边界帧M之间帧的帧间差值distance的平均值avg_distance，并判断边界帧M的帧间差值distance是否远大于平均值avg_distance，预置阈值为6，即，当且仅当边界帧M的帧间差值distance大于两个边界帧M之间帧平均值avg_distance的6倍，两个边界帧M才得以保留；

S1313、进一步优化选取的镜头边缘，即，判断该边界帧M后的小区间内是否有比该边界帧M更合适的帧；从确定的边界帧M开始，往后寻找8帧中的最大帧M'；

若最大帧M'的帧间差值distance'小于边界帧M的帧间差值distance，则边界帧M得以保留；

若最大帧M'的帧间差值distance'大于边界帧M的帧间差值distance，则计算前一个边界帧M和最新找到的最大帧M'之间帧的帧间差值的平均值avg_distance'，判断最大帧M'的帧间差值distance是否大于平均值avg_distance'的倍数，若没有大于，则边界帧M得以保留，否则最大帧M'为新的边界帧M，并继续执行镜头边缘优化；

S1314、最后，得到待分类视频对应的边界帧M组成的边界帧序列S。

7.根据权利要求5所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述根据选定的镜头边界帧切分视频提取镜头包括：

根据基于帧间差值的镜头边界帧选取算法选定的边界帧M组成的边界帧序列S，以每两个边界帧M为界，截取视频帧组成视频子镜头，所有视频子镜头组成待分类视频对应的子镜头序列C＝{C₁,C₂,...,C_N}，N表示待分类视频对应的子镜头序列中有N个镜头组成。

8.根据权利要求7所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S2包括：

S21、首先计算待分类视频对应的子镜头序列C中的所有子镜头C_i内的视频帧的帧间差值的平均值avg_distance _i，其中i＝1,2,...,N，N表示待分类视频对应的子镜头序列中有N个镜头组成；

S22、找出子镜头Ci内的视频帧的帧间差值distance大于对应的帧间差值平均值avg_distanc_ie的倍数的视频帧P_i作为关键帧候选帧；

S23、如果子镜头C_i内无法检索到如S22所述的视频帧P_i，则证明该子镜头变化过于平缓，则选择子镜头C_i的中间帧作为关键帧候选帧Pi；

S24、排除关键帧候选帧P_i构成的集合中过于黑暗的视频帧，剩余的候选帧P_i构成的集合P即为待分类视频对应的关键帧序列集合。

9.根据权利要求8所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S3包括：

S31、判断S24中得到的待分类视频对应的关键帧序列集合P的基数|P|与多尺度稠密网络MSDNet的批处理大小batch_size的数量关系；

S32、若|P|＜batch_size，则扩充关键帧序列集合P使| P| ＝batch_size成立，即从关键帧序列集合P的首个关键帧开始，提取其临近的视频帧作为新的关键帧扩充关键帧序列集合P，直至|P|＝batch_size成立；若|P|＞batch_size，则压缩关键帧序列集合P使| P|＝batch_size成立，即，提升S22中的关键帧帧间差值平均值提取阈值，再次执行S2所述；若| P| ＝batch_size，则跳过S32；

S33、将完成S32处理的待分类视频对应的关键帧序列集合P定义为P^*，即按长视频关键帧采样完成后的待分类视频样本，并回溯S22中关键帧帧间差值平均值提取阈值至初始值。

10.根据权利要求9所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述多尺度稠密网络MSDNet包括：

11.根据权利要求10所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述多尺度稠密网络MSDNet包括：

使用ImageNet对进行视频帧特征提取之前的多尺度稠密网络MSDNet进行预训练。

12.根据权利要求11所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述多尺度稠密网络MSDNet包括：

13.根据权利要求12所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述多尺度稠密网络MSDNet包括：

其中，f_k表示第k个分类器，w_k表示第k个分类器的权重，集合D表示训练集。

14.根据权利要求13所述的一种基于关键帧采样和多尺度稠密网络的长视频分类方法，其特征在于，所述S5包括：

S52、将处理完batch_size个视频帧特征后的LSTM网络的隐藏状态作为待检测视频对应的特征向量；

S54、判断置信度是否达到预设的分类置信度阈值；若达到预设的分类置信度阈值，则计算结束，将达到预设的分类置信度阈值的分类结果作为最终结果输出；若未达到预设的分类置信度阈值，则如步骤S4所述，继续执行MSDNet网络计算。