CN115205768B

CN115205768B - 一种基于分辨率自适应网络的视频分类方法

Info

Publication number: CN115205768B
Application number: CN202211125809.8A
Authority: CN
Inventors: 付强; 赵洪伟
Original assignee: Shandong Bim Information Technology Co ltd
Current assignee: Shandong Bim Information Technology Co ltd
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-01-31
Anticipated expiration: 2042-09-16
Also published as: CN115205768A

Abstract

本发明提供了一种基于分辨率自适应网络的视频分类方法，包括：基于视频帧颜色直方图的K值探测、基于K‑means聚类的关键帧获取、基于视频帧直方图序列的关键帧序列时序语义恢复、基于分辨率自适应网络的视频关键帧特征提取、基于GRU分类器的视频序列分类。本发明通过基于直方图差异动态选取K值，通过K‑means聚类获取关键帧集合，在兼顾效率的同时避免不同镜头间相似关键帧的重复选取。本发明利用视频帧直方图序列恢复视频关键帧序列的时序语义，解决K‑means聚类后关键帧时序语义损失的问题。

Description

一种基于分辨率自适应网络的视频分类方法

技术领域

本发明属于视频分类与检索领域，具体而言，属于基于自适应推理的视频分类与检索领域。

背景技术

近年来，随着互联网的发展以及智能设备的普及，社交网络上出现了大量的图像、音频以及视频等多媒体数据，与此同时，短视频的出现为多媒体赋予了新的形式，相较于传统的图片、博客的传播特性，短视频碎片化、社交化的特点更能吸引更多用户，也因此促进了自媒体产业的发展，目前的视频内容以及形式愈发复杂，数据规模出现了4V特征，根据Backlinko的数据，2021年用户每天在YouTube上传的视频时长为72万小时，假设平均大小为1GB（标准清晰度），2021年YouTube的数据大小约为263PB；Domo的Data Never Sleeps9.0报告估计，2021年Facebook与Instagram每分钟上传的图片数量分别为240k和65k，假设平均大小为2MB，则总共大约为252PB和68PB，这使得如何将海量视频进行分类检索成为一个有意义的课题。

传统的视频分类检索方式依赖人工，即人为对视频数据进行分类并加以注释、标签等信息，依靠文本信息实现视频的分类以及检索，然而，视频与语义信息之间的映射关系十分复杂，很难通过简单的文本信息将其概括；同时，人为的分类标注存在很强的主观性，不同标注者对同一视频总是存在不同的理解，难以客观描述视频信息，同时也难以对用户进行精准投放以及检索；此外，对海量内容复杂的视频使用传统方式进行人工分类，会消耗大量人力成本，因此，基于视觉的视频分类方法应运而生。

视频数据不仅是若干图片的堆叠，帧与帧之间按照某种特定的规则进行排列组合，包含丰富的语义信息，特征信息远远多于单一图片，但并不是视频序列中的每一帧都可以对视频特征产生决定性的影响，同一镜头内可能存在大量相似的冗余视频帧，这些冗余视频帧大量增加了计算量，却难以收获与之相对应的效果，因此目前通常会将其剔除，只保留镜头内具有代表性的关键帧作为样本进行模型的训练，通过关键帧提取可以大幅降低计算开销，降低模型复杂度。

近年来，深度学习成为研究热点之一，神经网络发展迅速，为新兴视频分类与检索方法提供了技术支持，卷积神经网络仿造生物的视知觉机制构建，对图像色彩与形状有着较高的亲和力，被广泛运用于计算机视觉与自然语言处理等领域，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求，此外，循环神经网络具有记忆性、参数共享并且图灵完备等特性，而GRU作为LSTM模型的变体，可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题，在提取视频语义信息上有着较大的优势，同时，自适应推理也是当下的研究热点之一，是深度网络中实现精度和计算成本之间的动态权衡的一种有效机制，可以根据推理难度动态分配计算资源，充分利用网络结构或计算的冗余性，提高分类效率。

发明内容

本发明重点研究基于分辨率自适应网络的视频分类方法，以解决当前在视频数据内容愈发复杂，体量爆发式增加的背景下传统的视频分类检索方式人工成本高、分类主观性强的问题，在保证分类有效的前提下降低分类成本，提供了一种基于分辨率自适应网络的视频分类方法，

一种基于分辨率自适应网络的视频分类方法，包括：

S1、基于视频帧颜色直方图的K值探测，动态获取聚类K值；

S2、基于K-means聚类的关键帧提取，利用S1动态获取的K值对视频序列进行K-means聚类，获取关键帧集合；

S3、基于视频帧直方图序列，恢复S2得到的关键帧集合的时序语义；

S4、基于分辨率自适应网络的视频关键帧特征提取，利用分辨率自适应网络提取S3恢复时序语义的关键帧序列的特征表示；

S5、基于GRU的关键帧序列分类，将S4提取得到的视频关键帧特征序列输入GRU网络得到视频关键帧序列的特征向量，利用得到的特征向量集合输入线性分类器得到分类结果。

进一步的，所述S1包括：

S11、对目标视频数据进行预处理，将其以帧单位进行分割，得到视频帧序列；

S12、基于S11中得到的视频帧序列，提取视频帧的颜色直方图特征；

S13、基于S12中得到的视频帧颜色直方图特征，计算相邻帧之间的帧差值及其平均值，并确定聚类K值。

进一步的，所述S12中提取视频帧颜色直方图特征包括：

将帧图像从RGB空间映射到HSV空间上，使用色调H（Hue，0≤H≤360）、饱和度S（Saturation，0≤S≤1）以及亮度V（Value，0≤V≤1）表示，然后提取视频帧i的颜色直方图特征H_i。

进一步的，所述S13包括：

根据S12计算得到的每个视频帧图像的颜色直方图，计算帧与帧之间的帧间差值D_i，计算方式为：

其中S(f_i, f_i+1)为第i帧与第i+1帧之间的相似度，该相似度表示为：

其中m_h表示HSV空间中H分量在帧间相似度中的权重（同理，m_s与m_v为S和V分量在帧间相似度中的权重），S_h(f_i,f_i+1)为第i帧与第i+1帧之间在H分量上的相似度（同理，S_s(f_i,f_i+1)与S_v(f_i,f_i+1)为第i帧与第i+1帧之间在S与V分量上的相似度），其中m_h、m_s与m_v的取值根据视频帧图像HSV分量的平均特征比值来决定，由于人类对H分量的敏感度要高于S与V分量，所以H分量的默认权重可以略微高于S与V分量的权重，

第i帧与第i+1帧之间在H分量上的相似度为：

其中，函数H()为图像帧的颜色直方图，k表示图像灰度或色彩级别，S与V分量的帧间相似度同理，

计算平均帧间差值D_avg，表示方式为：

对于帧间差值D_i(0<i<n)，如果D_i≥D_avg，则聚类K值+1。

进一步的，所述S2关键帧提取算法包括：

S21、根据S12得到的视频帧颜色直方图特征集合F={f₁,f₂,f₃...,f_n}（其中fi代表的是第i帧的颜色直方图特征）以及S13获取的聚类质心K值（K小于等于n），进行集合的划分；

S22、根据颜色直方图特征集合F划分聚类集合个数，划分过程可以根据K-means模型的最小值C表示，计算公式如下：

其中，C={c₁,c₂,c₃,...,c_k}为聚类的聚簇结果，μ_i为簇的质心；

S23、将视频帧中第一帧对应的颜色直方图特征f₁归入第一个簇中，并将其颜色直方图的特征值作为该簇的初始质心；

S24、计算视频帧到质心的距离，如果当前视频帧与质心的距离大于给定的初始阈值t，那么就将该帧归入到新的簇中；反之，则将当前帧归入到距离它最近的簇中，并重新计算更新该簇的质心；

S25、重复S24的过程，直至最后一视频帧颜色直方图特征归入某个聚簇或者其作为新的簇质心；

S26、选取每个簇中距离质心最近的视频帧作为关键帧。

进一步的，所述S3关键帧时序语义恢复算法包括：

S31、初始化cluster_left_boundary（簇左边界）、cluster_right_boundary（簇右边界）以及frame_idx（帧索引）为0，cur_seq（当前关键帧序号）为1；

S32、使frame_idx递增，若D_{frame_idx}≥D_avg，使cluster_right_boundary等于frame_idx，遍历视频帧序列中下标从cluster_left_boundary到cluster_right_boundary之间的帧集合FT；

S33、若存在关键帧kf_i等于FT中的任意帧，则kf_i在关键帧序列中序号为cur_seq，将cluster_left_boundary置为cluster_right_boundary，cur_seq加1，重复S32直至遍历完视频帧序列中最后一帧或已得到完整语义的关键帧序列；

S34、最终得到的关键帧序列为恢复时序语义的关键帧序列。

进一步的，所述S4包括：

S41 、利用RANet的初始层来生成视频关键帧的S尺度中的H基本特征，尺度最大的分辨率的特征通过常规卷积获得，小尺度的分辨率特征通过跨步卷积从前一个高尺度分辨率特征获得，需要的是，这些基本特性的规模可以是相同的，例如，一个在3个尺度中具有4个基本特征的RANet，其中最后两个基本特征的尺度具有相同的分辨率；

S42、输入的尺度最小的稠密块（Dense Block）首先被顺序激活，深度适应在单一尺度内进行；

S43、将提取到的待分类视频关键帧序列集合中每帧的特征表示组合成待分类视频帧特征序列集合，并将该视频帧特征序列集合输入到S5所述的基于GRU的视频关键帧序列分类器中进行视频分类；

S44、判断分类器得到的置信度是否达到阈值要求，如果分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度超过置信度阈值，则输出分类结果，停止深度适应；若分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度没有超过置信度阈值，则将输入样本传播到下一个子网络，并将小尺度分辨率的特征上卷积或常规卷积到深层的融合块（Fusion Block），重复深度自适应过程，直到预测置信度超过阈值，或者达到整个网络的最后一个分类器。

进一步的，所述RANet包括：

使用ImageNet数据集对分辨率自适应网络进行预训练，降低后续模型训练的时间成本，使模型收敛更快，达到更好的效果。

进一步的，所述RANet包括：

分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征，可以将其垂直布局看作是一个微型的“H层”卷积网络(H是网络中基本特征的数量)，最大尺度分辨率的特征通过常规卷积获得，而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得；

RANet被划分为H个子网络，这些子网络进一步由不同的Conv块组成，除最浅层子网外，每个子网都使用其对应的基本特征图和来自前一个子网的特征来进行分类任务；

RANet中最浅层的子网络可以被看作是一个具有多个分类器的稠密网络，由多个稠密块构成，用来处理最低分辨率的特征图；

RANet中高尺度的子网络主要由融合块构成，融合块融合了来自低尺度网络的低分辨率特征，可以有效利用计算冗余降低资源消耗，融合块主要分为两种类型，一种保持输入分辨率，另一种通过跨步卷积降低输入分辨率，对于前者，前一个子网络的尺度特征由上卷积层处理，该层由常规卷积层和上采样双线性插值组成，确保产生的特性具有相同的空间分辨率，然后将所得到的特征通过稠密连接的连接进行融合；而对于后者，带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率，稠密连接也在池化操作后进行，由于当前子网络的特征尺度减小，低尺度子网络的特征通过常规卷积层进行处理，以保持低分辨率，然后在融合块的末端通过连接进行融合；

RANet利用过渡层来进一步压缩每个子网络中的特征映射，过渡层由一个1×1的卷积算子、一个BN层以及一个ReLU层组成，进一步保证了网络的计算效率；

RANet的第h个子网（s个尺度）主要由以下部分组成：b₁到b_h-1块为融合块（其中h-1<n），其它的块为稠密块，并在第b_h-s到b_h-1块进行降采样，确保了在附加分类器的每个子网络的末尾，特征为最低的分辨率。

进一步的，所述分类器包括：

GRU模型作为LSTM模型的变体，可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题，适合用来提取视频关键帧的特征向量，使用S5所述的基于GRU的视频序列分类器作为RANet网络的分类器，将RANet每个子网络中的最后几个稠密块（或融合块）输出的特征映射图经过处理后输入基于GRU的视频序列分类器。

进一步的，所述分类器包括：

RANet作为一个具有K个分类器的网络，其中这些中间分类器被附加在模型的不同深度上，给定一个输入图像x，第k个分类器(k=1，…，K)的输出可以表示为：

其中，θ_k为第k个分类器对应的部分网络参数，每个元素

∈[0,1]为第c个分类器的预测置信度，

RANet通过根据样本的复杂性动态分配适当的计算资源来推断该样本的分类，一个样本将在置信度达到阈值的第一个分类器处退出网络。

本发明最为突出的特点和显著的有益效果是：

（1）本发明利用HSV颜色直方图帧差值的方式动态获取聚类质心数，有效解决了使用K-means聚类方式提取关键帧需要预设K值的问题；并考虑了视频序列中非连续镜头中可能存在高度相似关键帧的特点，利用聚类算法极大程度上削减了关键帧的数量，在保持视频特征低损耗的同时降低了计算成本；此外，考虑了使用聚类提取关键帧导致关键帧序列损失时序语义的问题，基于视频帧直方图序列恢复提取关键帧序列的时序语义，一定程度上保留视频的高维语义信息；

（2）视频的关键帧序列中可能同时存在大量典型与非典型的图像，若对此都进行深层网络的计算，将会明显降低分类效率，浪费计算资源，因此利用RANet等自适应推理的网络结构，可以利用冗余计算，在深度网络中实现精度和计算成本之间的动态权衡；此外，考虑使用GRU模型（LSTM模型的变体）用来提取视频关键帧的特征向量，在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度等问题。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法的总体流程示意图；

图2示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中基于视频帧直方图序列的关键帧序列时序语义恢复算法示意图；

图3示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中基于RANet和GRU分类器的视频分类网络架构图；

图4示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中RANet中高尺度子网融合块的分辨率保持实现方式；

图5示出了根据本发明的实施例的一种基于分辨率自适应网络的视频分类方法中RANet中高尺度子网融合块的降采样实现方式。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的，

为了更好说明本实施例，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，如图1-5所示，一种基于分辨率自适应网络的视频分类方法，包括：

S1、基于视频帧颜色直方图的K值探测，动态获取聚类K值；

进一步的，S1中基于视频帧颜色直方图的K值探测，动态获取聚类K值的步骤包括：

进一步的，所述S12中提取视频帧颜色直方图特征包括：

将帧图像从RGB空间映射到HSV空间上，使用色调H（Hue，0≤H≤360）、饱和度S（Saturation，0≤S≤1）以及亮度V（Value，0≤V≤1）表示，然后提取视频帧i的颜色直方图特征H_i，

进一步的，所述S13基于S12中得到的视频帧颜色直方图特征，计算相邻帧之间的帧差值及其平均值，并确定聚类K值包括：

第i帧与第i+1帧之间在H分量上的相似度为：

计算平均帧间差值D_avg，表示方式为：

对于帧间差值D_i(0<i<n)，如果D_i≥D_avg，则聚类K值+1。

进一步的，所述S2关键帧提取算法包括：

S26、选取每个簇中距离质心最近的视频帧作为关键帧。

进一步的，如图2所示，S3关键帧时序语义恢复算法包括：

S34、最终得到的关键帧序列为恢复时序语义的关键帧序列。

进一步的，所述S4包括：

进一步的，所述RANet包括：

在模型训练前，使用ImageNet数据集对分辨率自适应网络进行预训练，降低后续模型训练的时间成本，使模型收敛更快，达到更好的效果。

进一步的，所述RANet包括：

如图3所示，分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征，可以将其垂直布局看作是一个微型的“H层”卷积网络(H是网络中基本特征的数量)，最大尺度分辨率的特征通过常规卷积获得，而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得；

RANet中高尺度的子网络主要由融合块构成，融合块融合了来自低尺度网络的低分辨率特征，可以有效利用计算冗余降低资源消耗，融合块主要分为两种类型，一种保持输入分辨率，另一种通过跨步卷积降低输入分辨率，对于前者，如图4所示，前一个子网络的尺度特征由上卷积层处理，该层由常规卷积层和上采样双线性插值组成，确保产生的特性具有相同的空间分辨率，然后将所得到的特征通过稠密连接的连接进行融合；而对于后者，如图5所示，带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率，稠密连接也在池化操作后进行，由于当前子网络的特征尺度减小，低尺度子网络的特征通过常规卷积层进行处理，以保持低分辨率，然后在融合块的末端通过连接进行融合；

进一步的，所述分类器结构包括：

进一步的，所述分类器包括：

其中，θ_k为第k个分类器对应的部分网络参数，每个元素

∈[0,1]为第c个分类器的预测置信度，

Claims

1.一种基于分辨率自适应网络的视频分类方法，其特征在于，包括：

S1、基于视频帧颜色直方图的K值探测，通过比较帧间差值与平均帧间差值动态获取聚类K值；

所述S1包括：

S11、对目标视频数据进行预处理，将其以帧为单位进行分割，得到视频帧序列；

S13、基于S12中得到的视频帧颜色直方图特征，计算相邻帧之间的帧差值及所有帧间差值的平均值，并确定聚类K值；

S3、基于视频帧直方图序列，通过关键帧在视频帧序列中出现的顺序恢复S2得到的关键帧集合的时序语义；

所述S3关键帧时序语义恢复算法包括：

S31、初始化cluster_left_boundary、cluster_right_boundary以及frame_idx为0，cur_seq为1；

S34、最终得到的关键帧序列为恢复时序语义的关键帧序列；

S4、基于分辨率自适应网络RANet的视频关键帧特征提取，利用分辨率自适应网络提取S3恢复时序语义的关键帧序列的特征表示；

2.根据权利要求1所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述S12中提取视频帧颜色直方图特征包括：

将帧图像从RGB空间映射到HSV空间上，使用色调H、饱和度S以及亮度V表示，然后提取视频帧i的颜色直方图特征FE_i，其中色调H的范围是0°≤H≤360°，饱和度S的范围是0≤S≤1，亮度V的范围是0≤V≤1。

3.根据权利要求2所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述S13包括：

D_i＝1-S(f_i,f_i+1)

其中S(f_i,f_i+1)为第i帧与第i+1帧之间的相似度，该相似度表示为：

其中m_h表示HSV空间中H分量在帧间相似度中的权重，S_h(f_i,f_i+1)为第i帧与第i+1帧之间在H分量上的相似度，其中m_h、m_s与m_v的取值根据视频帧图像HSV分量的平均特征比值来决定，由于人类对H分量的敏感度要高于S与V分量，所以H分量的默认权重应略微高于S与V分量的权重，

第i帧与第i+1帧之间在H分量上的相似度为：

其中，函数H()为图像帧的颜色直方图，g表示图像灰度或色彩级别，S与V分量的帧间相似度同理，

计算平均帧间差值D_avg，表示方式为：

对于帧间差值D_i(0<i<n)，如果D_i≥D_avg，则聚类K值+1。

4.根据权利要求3所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述S2关键帧提取算法包括：

S21、根据S12得到的视频帧颜色直方图特征集合F＝{f₁,f₂,f₃...,f_n}以及S13获取的聚类质心K值，进行集合的划分；

S22、根据颜色直方图特征集合F划分聚类集合个数，划分过程根据K-means模型的最小值C表示，计算公式如下：

其中，C＝{c₁,c₂,c₃,...,c_k}为聚类的聚簇结果，μ_i为簇的质心；

S26、选取每个簇中距离质心最近的视频帧作为关键帧。

5.根据权利要求4所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述S4包括：

S41、利用分辨率自适应网络的初始层来生成视频关键帧的S尺度中的H基本特征，尺度最大的分辨率的特征通过常规卷积获得，小尺度的分辨率特征通过跨步卷积从前一个高尺度分辨率特征获得，需要的是，这些基本特性的规模是相同的；

S42、输入的尺度最小的稠密块首先被顺序激活，深度适应在单一尺度内进行；

S44、判断分类器得到的置信度是否达到阈值要求，如果分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度超过置信度阈值，则输出分类结果，停止深度适应；若分辨率自适应网络中当前子网络得到的特征经由分类器做出的置信度没有超过置信度阈值，则将输入样本传播到下一个子网络，并将小尺度分辨率的特征上卷积或常规卷积到深层的融合块，重复深度自适应过程，直到预测置信度超过阈值，或者达到整个网络的最后一个分类器。

6.根据权利要求5所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述分辨率自适应网络包括：

7.根据权利要求6所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述分辨率自适应网络包括：

分辨率自适应网络的初始层被实现用来生成S尺度中的H基本特征，可以将其垂直布局看作是一个微型的“H层”卷积网络，最大尺度分辨率的特征通过常规卷积获得，而小尺度分辨率的特征图通过高分辨率特征进行跨步卷积获得；

分辨率自适应网络被划分为H个子网络，这些子网络进一步由不同的Conv块组成，除最浅层子网外，每个子网都使用其对应的基本特征图和来自前一个子网的特征来进行分类任务；

分辨率自适应网络中最浅层的子网络可以被看作是一个具有多个分类器的稠密网络，由多个稠密块构成，用来处理最低分辨率的特征图；

分辨率自适应网络中高尺度的子网络主要由融合块构成，融合块融合了来自低尺度网络的低分辨率特征，可以有效利用计算冗余降低资源消耗，融合块主要分为两种类型，一种保持输入分辨率，另一种通过跨步卷积降低输入分辨率，对于前者，前一个子网络的尺度特征由上卷积层处理，该层由常规卷积层和上采样双线性插值组成，确保产生的特性具有相同的空间分辨率，然后将所得到的特征通过稠密连接的连接进行融合；而对于后者，带有降采样的融合块利用跨步卷积层来降低块末端的空间分辨率，稠密连接也在池化操作后进行，由于当前子网络的特征尺度减小，低尺度子网络的特征通过常规卷积层进行处理，以保持低分辨率，然后在融合块的末端通过连接进行融合；

分辨率自适应网络利用过渡层来进一步压缩每个子网络中的特征映射，过渡层由一个1×1的卷积算子、一个BN层以及一个ReLU层组成，进一步保证了网络的计算效率；

分辨率自适应网络的第h个子网主要由以下部分组成：b₁到b_h-1块为融合块，其它的块为稠密块，并在第b_h-s到b_h-1块进行降采样，确保了在附加分类器的每个子网络的末尾，特征为最低的分辨率。

8.根据权利要求7所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述分类器包括：

GRU模型作为LSTM模型的变体，可以在计算资源相对低的条件下较好地解决长期记忆和反向传播中的梯度问题，适合用来提取视频关键帧的特征向量，使用S5所述的基于GRU的视频序列分类器作为分辨率自适应网络的分类器，将分辨率自适应网络每个子网络中的最后几个稠密块输出的特征映射图经过处理后输入基于GRU的视频序列分类器。

9.根据权利要求8所述的一种基于分辨率自适应网络的视频分类方法，其特征在于，所述分类器包括：

分辨率自适应网络作为一个具有Q个分类器的网络，其中这些中间分类器被附加在模型的不同深度上，给定一个输入图像x，第q个分类器(q＝1，…，Q)的输出可以表示为：

其中，θq为第q个分类器对应的部分网络参数，每个元素

为第c个分类器的预测置信度，分辨率自适应网络通过根据样本的复杂性动态分配适当的计算资源来推断该样本的分类，一个样本将在置信度达到阈值的第一个分类器处退出网络。