CN110457524A

CN110457524A - 模型生成方法、视频分类方法及装置

Info

Publication number: CN110457524A
Application number: CN201910631666.XA
Authority: CN
Inventors: 刘倩; 王涛; 刘洁; 蔡东阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-15
Anticipated expiration: 2039-07-12
Also published as: CN110457524B

Abstract

本发明公开一种模型生成方法、视频分类方法及装置，一种模型生成方法包括：获取样本集，对样本集中的各视频样本进行采样得到采样帧；将采样帧输入到预设速度‑准确度均衡卷积神经网络的前端2D网络中，通过该卷积神经网络中的前端2D网络、后端2D网络和后端3D网络进行模型训练，得到视频分类模型；后端2D网络与后端3D网络并联、且均与前端2D网络级联；前端2D网络为轻量级2D卷积神经网络的前n1个层，前n1个层中嵌有m1个注意力机制卷积神经网络模块，后端2D网络为轻量级2D卷积神经网络的后n2个层，后n2个层中嵌有m2个注意力机制卷积神经网络模块，轻量级2D卷积神经网络由N个层构成，n1+n2＝N。

Description

模型生成方法、视频分类方法及装置

技术领域

本发明涉及机器视觉技术领域，特别涉及一种模型生成方法、视频分类方法及装置。

背景技术

随着互联网技术的快速发展，视频已成为内容创作和社交媒体平台的重要传播方式之一。视频分类作为视频行业中一个重要的环节，视频分类的效率直接影响着后续视频处理的效率。

现有技术中的一些视频分类方法，分类速度快但准确度低；另一些视频分类方法，分类准确度高但速度慢，均无法做到分类速度和准确度的均衡。因此，如何兼顾视频分类的速度和准确度已成为业内亟待解决的技术问题。

发明内容

本发明实施例提供一种模型生成方法、视频分类方法及装置，以解决现有技术中存在的视频分类速度和准确度不均衡的技术问题。

根据本发明的第一方面，公开了一种模型生成方法，所述方法包括：

获取样本集，其中，所述样本集中包括多个视频样本；

对所述样本集中的各视频样本进行采样，得到各视频样本的采样帧，其中，所述采样帧中包括多个视频帧；

将所述采样帧输入到预设速度-准确度均衡卷积神经网络的前端2D网络中，通过所述预设速度-准确度均衡卷积神经网络中的所述前端2D网络、后端2D网络和后端3D网络进行模型训练，得到视频分类模型；

其中，所述后端2D网络与所述后端3D网络并联、且均与所述前端2D网络级联；所述前端2D网络为轻量级2D卷积神经网络中的前n1个层，所述前n1个层中嵌有m1个注意力机制卷积神经网络模块，所述后端2D网络为所述轻量级2D卷积神经网络中的后n2个层，所述后n2个层中嵌有m2个注意力机制卷积神经网络模块，所述轻量级2D卷积神经网络由N个层构成，n1+n2＝N，所述后端3D网络为3D残差卷积神经网络，1≤m1＜n1，1≤m2＜n2。

可选地，作为一个实施例，所述轻量级2D卷积神经网络为Mobilenet V2网络。

可选地，作为一个实施例，所述Mobilenet V2网络为低宽度乘数的Mobilenet V2网络。

可选地，作为一个实施例，所述前端2D网络为所述Mobilenet V2网络中的前4个阶段，所述后端2D网络为所述Mobilenet V2网络中的后M-4个阶段，所述Mobilenet V2网络被划分为M个阶段。

可选地，作为一个实施例，所述前端2D网络的每个阶段中嵌有1个注意力机制卷积神经网络模块，所述后端2D网络的每个阶段中嵌有1个注意力机制卷积神经网络模块。

可选地，作为一个实施例，所述注意力机制卷积神经网络模块为缩聚-激发SE模块。

根据本发明的第二方面，公开了一种视频分类方法，用于上述视频分类模型进行视频分类，所述方法包括：

获取待分类视频；

对所述待分类视频进行采样，得到所述待分类视频的采样帧；

将所述待分类视频对应的采样帧输入所述视频分类模型，根据所述视频分类模型的输出结果确定所述待分类视频的视频类别。

根据本发明的第三方面，公开了一种模型生成装置，所述装置包括：

第一获取模块，用于获取样本集，其中，所述样本集中包括多个视频样本；

第一采样模块，用于对所述样本集中的各视频样本进行采样，得到各视频样本的采样帧，其中，所述采样帧中包括多个视频帧；

训练模块，用于将所述采样帧输入到预设速度-准确度均衡卷积神经网络的前端2D网络中，通过所述预设速度-准确度均衡卷积神经网络中的所述前端2D网络、后端2D网络和后端3D网络进行模型训练，得到视频分类模型；

根据本发明的第四方面，公开了一种视频分类装置，所述装置包括：

第二获取模块，用于获取待分类视频；

第二采样模块，用于对所述待分类视频进行采样，得到所述待分类视频的采样帧；

分类模块，用于将所述待分类视频对应的采样帧输入所述视频分类模型，根据所述视频分类模型的输出结果确定所述待分类视频的视频类别。

根据本发明的第五方面，公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的模型生成方法中的步骤。

根据本发明的第六方面，公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的模型生成方法中的步骤。

根据本发明的第七方面，公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的视频分类方法中的步骤。

根据本发明的第八方面，公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频分类方法中的步骤。

本发明实施例中，可以基于速度-准确度均衡卷积神经网络训练视频分类模型，使用该视频分类模型对视频进行分类。由于本发明实施例的速度-准确度均衡卷积神经网络中融合了计算速度较快的轻量级2D卷积神经网络和分类能力较强的注意力机制卷积神经网络模块，因此基于该神经网络训练得到的视频分类模型能够快速、准确地对视频进行分类，达到了兼顾视频分类的速度和准确度的目的。

附图说明

图1是本发明的一个实施例的模型生成方法的流程图；

图2是现有技术中ECO Full框架的网络结构图；

图3是本发明的一个实施例的速度-准确度均衡卷积神经网络的结构图；

图4是本发明的另一个实施例的速度-准确度均衡卷积神经网络的结构图；

图5是本发明的一个实施例的视频分类方法的流程图；

图6是本发明的一个实施例的模型生成装置的结构框图；

图7是本发明的一个实施例的视频分类装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

视频分类被应用到视频业务的很多场景中，例如视频推荐、监控分析和人机交互等场景，这些场景通常对视频分类的实时性和准确性要求较高。然而，现有技术中的视频分类方法无法兼顾速度和准确度。

为了解决上述技术问题，本发明实施例提供了一种模型生成方法、视频分类方法及装置。

下面首先对本发明实施例提供的模型生成方法进行介绍。

需要说明的是，本发明实施例提供的方法适用于电子设备，在实际应用中，该电子设备可以包括：智能手机、平板电脑、个人数字助理等移动终端，也可以包括：服务器、台式电脑、笔记本电脑和桌面机等计算机设备，本发明实施例对此不作限定。

图1是本发明的一个实施例的模型生成方法的流程图，如图1所示，该方法可以包括以下步骤：步骤101、步骤102和步骤103，其中，

在步骤101中，获取样本集，其中，样本集中包括多个视频样本。

本发明实施例中，视频样本为类别已知的视频(带类别标签的视频)，视频样本可以为短视频，也可以为长视频或长视频中的一个片段。

在步骤102中，对样本集中的各视频样本进行采样，得到各视频样本的采样帧，其中，采样帧中包括多个视频帧。

在本发明提供的一个实施例中，在对视频样本进行采样时，针对每个视频样本，可以将一个视频样本划分为n份，在每份中随机选取一帧，将选取的n帧作为采样帧。

在本发明提供的另一个实施例中，在对视频样本进行采样时，针对每个视频样本，可以将一个视频样本划分为n份，在每份的相同位置选取一帧，将选取的n帧作为采样帧。

在步骤103中，将采样帧输入到预设速度-准确度均衡卷积神经网络的前端2D网络中，通过预设速度-准确度均衡卷积神经网络中的前端2D网络、后端2D网络和后端3D网络进行模型训练，得到视频分类模型；其中，后端2D网络与后端3D网络并联、且均与前端2D网络级联；前端2D网络为轻量级2D卷积神经网络中的前n1个层，前n1个层中嵌有m1个注意力机制卷积神经网络模块，后端2D网络为轻量级2D卷积神经网络中的后n2个层，后n2个层中嵌有m2个注意力机制卷积神经网络模块，轻量级2D卷积神经网络由N个层构成，n1+n2＝N，后端3D网络为3D残差卷积神经网络，1≤m1＜n1，1≤m2＜n2。

本发明实施例中，在进行模型训练时，首先将视频样本的采样帧输入前端2D网络，前端2D网络对采样帧进行处理得到处理结果，之后，将前端2D网络的处理结果分别输入到后端2D网络和后端3D网络继续处理，直至训练得到视频分类模型。

本发明实施例中，预设的速度-准确度均衡卷积神经网络是在ECO Full框架基础上改进得到的卷积神经网络，其中，ECO Full框架是一种有效的用于视频理解的卷积神经网络架构。图2是现有技术中ECO Full框架的网络结构图，如图2所示，ECO Full框架200主要包括：前端2D网络201、后端2D网络202和后端3D网络203。

考虑到轻量级2D卷积神经网络的计算量较少、计算速度较快，轻量级2D卷积神经网络的网络结构是一个多层的网络结构以及注意力机制卷积神经网络模块的分类能力较强，本发明实施例中，在ECO Full框架基础上，前端2D网络采用轻量级2D卷积神经网络的前n1层，并在该前n1个层中稀疏地嵌入注意力机制卷积神经网络模块，后端2D网络采用轻量级2D卷积神经网络的后n2层，并在该后n2个层中稀疏地嵌入注意力机制卷积神经网络模块，以融合轻量级2D卷积神经网络和注意力机制卷积神经网络模块，得到图3所示的速度-准确度均衡卷积神经网络。

图3是本发明的一个实施例的速度-准确度均衡卷积神经网络的结构图，如图3所示，速度-准确度均衡卷积神经网络300包括：轻量级2D卷积神经网络的前n1个层301、轻量级2D卷积神经网络的后n2个层302和3D残差卷积神经网络303，其中，301中稀疏地嵌有m1个注意力机制卷积神经网络模块，302中稀疏地嵌有m2个注意力机制卷积神经网络模块。

需要说明的是，可以按照网络层结构，将轻量级2D卷积神经网络划分为不同粒度的单元，“密集地嵌入注意力机制卷积神经网络模块”可以理解为在每个最小粒度的单元中均嵌入注意力机制卷积神经网络模块；相应的，“稀疏地嵌入注意力机制卷积神经网络模块”可以理解为仅在部分最小粒度的单元中嵌入注意力机制卷积神经网络模块，或者在相对较大粒度的单元中嵌入注意力机制卷积神经网络模块，而不是在每个最小粒度的单元中均嵌入注意力机制卷积神经网络模块。

在本发明提供的另一个实施例中，考虑到MobilenetV2网络中inverted residual结构和深度可分离卷积的使用，使得乘加计算量较少，可以在电子设备(例如服务器或移动设备)上快速运行，优选地，本发明实施例中的轻量级2D卷积神经网络具体可以为Mobilenet V2网络。

本发明实施例中，当轻量级2D卷积神经网络为Mobilenet V2网络时，前端2D网络可以为Mobilenet V2网络中的前4个阶段，后端2D网络可以为Mobilenet V2网络中的后M-4个阶段，Mobilenet V2网络被划分为M个阶段。

为了便于理解，下面结合表1对Mobilenet V2网络中的“阶段”(即stage)和“模块”(即block)进行介绍，表1示出了Mobilenet V2网络的架构。

表1

stage的划分规则：Input一栏为输入图像的图像尺寸，按照Input的图像尺寸将Mobilenet V2网络划分为6个stage，分别为：表1中的第一行(图像尺寸224×224所在的行)构成第1个stage，表1中的第二行和第三行(图像尺寸112×112所在的行)构成第2个stage，表1中的第四行(图像尺寸56×56所在的行)构成第3个stage，表1中的第五行(图像尺寸28×28所在的行)构成第4个stage，表1中的第六行和第七行(图像尺寸14×14所在的行)构成第5个stage，表1中的第八行和第九行(图像尺寸7×7所在的行)构成第6个stage，表1中的最后两行不计入。

block的划分规则：表1中的一个bottleneck即为一个block。Mobilenet V2网络中包括37个block，第1个stage中包含0个block，第2个stage中包含7个block，第3个stage中包含6个block，第4个stage中包含6个block，第5个stage中包含12个block，第6个stage中包含6个block；其中，每个block通常包含Mobilenet V2网络中的3个层。

由此可见，当轻量级2D卷积神经网络为Mobilenet V2网络时，M＝6，在本发明提供的一个实施例中，速度-准确度均衡卷积神经网络包括：前端2D网络、后端2D网络和后端3D网络，前端2D网络与后端2D网络级联，前端2D网络与后端3D网络级联，后端2D网络与后端3D网络并联；前端2D网络包括：Mobilenet V2网络中的前4个stage，并且在部分或每个stage中嵌入注意力机制卷积神经网络模块；后端2D网络包括：Mobilenet V2网络中的后2个stage，并且在部分或每个stage中嵌入注意力机制卷积神经网络模块；后端3D网络为3D残差卷积神经网络。

优选地，前端2D网络包括Mobilenet V2网络中的前4个stage，并且每个stage中均嵌有一个注意力机制卷积神经网络模块；后端2D网络包括Mobilenet V2网络中的后2个stage，并且每个stage中均嵌有一个注意力机制卷积神经网络模块。

图4是本发明的另一个实施例的速度-准确度均衡卷积神经网络的结构图，如图4所示，速度-准确度均衡卷积神经网络400包括：Mobilenet V2网络中的前4个stage 401，Mobilenet V2网络中的后2个stage 402和3D残差卷积神经网络403，其中，401的每个stage中均嵌有一个注意力机制卷积神经网络模块，402的每个stage中均嵌有一个注意力机制卷积神经网络模块。

本发明实施例中，考虑到低宽度乘数的Mobilenet V2网络(即低WidthMultiplier的Mobilenet V2网络)可以进一步降低计算量，优选地，上述提及的MobilenetV2网络具体可以为低宽度乘数的Mobilenet V2网络，其中，Width指的是一个卷积层内通道的个数。在实际应用中，低宽度乘数的Mobilenet V2网络可以是宽度乘数为0.6的Mobilenet V2网络。

本发明实施例中，考虑到SE(Squeeze-and-Excitation，缩聚-激发)模块的分类能力较强，优选地，上述提及的注意力机制卷积神经网络模块具体可以为SE模块。

为了便于理解，对SE模块进行简单介绍，SE模块的工作原理是通过学习的方式来自动获取到每个特征通道的重要程度，然后依照重要程度去提升有用的特征并抑制对当前任务用处不大的特征，SE模块可以嵌入到现在几乎所有的网络结构中。

需要说明的是，在实际应用中，可以采用现有技术中的任一种嵌入手段将SE模块嵌入到Mobilenet V2网络的stage中，本发明实施例对此不作限定。

在本发明提供的一个优选实施例中，速度-准确度均衡卷积神经网络中包括：前端2D网络、后端2D网络和后端3D网络，前端2D网络与后端2D网络级联，前端2D网络与后端3D网络级联，后端2D网络与后端3D网络并联；前端2D网络包括：Mobilenet V2网络中的前4个阶段stage，并且每个stage中均嵌入一个SE模块；后端2D网络包括：Mobilenet V2网络中的后2个stage，并且每个stage中均嵌入一个SE模块；后端3D网络为3D残差卷积神经网络。

考虑到如果在Mobilenet V2网络的每个block中均嵌入SE模块，虽然MobilenetV2网络的分类能力会显著增强，但其计算速度会大幅下降，针对这种情况，本发明实施例中，在Mobilenet V2网络的stage中嵌入SE模块，即将SE模块稀疏地嵌入到Mobilenet V2网络中，这种稀疏地嵌入SE模块与全面地嵌入SE模块相比，可以降低内存占用率和节约运行时间，实现在保证分类准确度的同时兼顾分类速度。

由上述实施例可见，该实施例中，可以基于速度-准确度均衡卷积神经网络训练视频分类模型，使用该视频分类模型对视频进行分类。由于本发明实施例的速度-准确度均衡卷积神经网络中融合了计算速度较快的轻量级2D卷积神经网络和分类能力较强的注意力机制卷积神经网络模块，因此基于该神经网络训练得到的视频分类模型能够快速且准确地对视频进行分类，达到了兼顾视频分类的速度和准确度的目的。

图5是本发明的一个实施例的视频分类方法的流程图，该方法用于基于上述任一方法实施例中的视频分类模型进行视频分类，如图5所示，该方法可以包括以下步骤：步骤501、步骤502和步骤503，其中，

在步骤501中，获取待分类视频。

本发明实施例中，待分类视频可以为短视频，也可以为长视频或长视频中的一个片段。

在步骤502中，对待分类视频进行采样，得到待分类视频的采样帧。

本发明实施例中，可以采用与上述步骤102相同的采样方式，对待分类视频进行采样，得到待分类视频的采样帧。

在步骤503中，将待分类视频对应的采样帧输入视频分类模型，根据视频分类模型的输出结果确定待分类视频的视频类别。

本发明实施例中，将待分类视频的采样帧，输入到视频分类模型内进行处理，可以得到目标分类特征数据，其中，目标分类特征数据具体为特征向量。在获取待分类视频对应的特征向量后，将该特征向量输入到预设分类器中，得到类别标签，其中，分类器中记录有类别标签与特征向量的映射关系。

图6是本发明的一个实施例的模型生成装置的结构框图，如图6所示，模型生成装置600可以包括：第一获取模块601、第一采样模块602和训练模块603，其中，

第一获取模块601，用于获取样本集，其中，所述样本集中包括多个视频样本；

第一采样模块602，用于对所述样本集中的各视频样本进行采样，得到各视频样本的采样帧，其中，所述采样帧中包括多个视频帧；

训练模块603，用于将所述采样帧输入到预设速度-准确度均衡卷积神经网络的前端2D网络中，通过所述预设速度-准确度均衡卷积神经网络中的所述前端2D网络、后端2D网络和后端3D网络进行模型训练，得到视频分类模型；

图7是本发明的一个实施例的视频分类装置的结构框图，如图7所示，视频分类装置700可以包括：第二获取模块701、第二采样模块702和分类模块703，其中，

第二获取模块701，用于获取待分类视频；

第二采样模块702，用于对所述待分类视频进行采样，得到所述待分类视频的采样帧；

分类模块703，用于将所述待分类视频对应的采样帧输入所述视频分类模型，根据所述视频分类模型的输出结果确定所述待分类视频的视频类别。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

根据本发明的又一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一个实施例所述的模型生成方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一个实施例所述的模型生成方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一个实施例所述的视频分类方法中的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一个实施例所述的视频分类方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种模型生成方法、视频分类方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

获取样本集，其中，所述样本集中包括多个视频样本；

2.根据权利要求1所述的方法，其特征在于，所述轻量级2D卷积神经网络为MobilenetV2网络。

3.根据权利要求1或2所述的方法，其特征在于，所述Mobilenet V2网络为低宽度乘数的Mobilenet V2网络。

4.根据权利要求3所述的方法，其特征在于，所述前端2D网络为所述Mobilenet V2网络中的前4个阶段，所述后端2D网络为所述Mobilenet V2网络中的后M-4个阶段，所述Mobilenet V2网络被划分为M个阶段。

5.根据权利要求4所述的方法，其特征在于，所述前端2D网络的每个阶段中嵌有1个注意力机制卷积神经网络模块，所述后端2D网络的每个阶段中嵌有1个注意力机制卷积神经网络模块。

6.根据权利要求1所述的方法，其特征在于，所述注意力机制卷积神经网络模块为缩聚-激发SE模块。

7.一种视频分类方法，用于基于权利要求1至6任一项所述的视频分类模型进行视频分类，其特征在于，所述方法包括：

获取待分类视频；

8.一种模型生成装置，其特征在于，所述装置包括：

9.一种视频分类装置，其特征在于，所述装置包括：

第二获取模块，用于获取待分类视频；

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的模型生成方法中的步骤，和/或，如权利要求7所述的视频分类方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的模型生成方法中的步骤，和/或，如权利要求7所述的视频分类方法中的步骤。