CN110032926B

CN110032926B - 一种基于深度学习的视频分类方法以及设备

Info

Publication number: CN110032926B
Application number: CN201910133098.0A
Authority: CN
Inventors: 徐勇; 李钊颖; 罗闻
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Guizhou Siso Electronics Co ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2021-05-11
Anticipated expiration: 2039-02-22
Also published as: CN110032926A

Abstract

本发明公开了一种基于深度学习的视频分类方法以及设备。其中，所述方法包括：获取视频的数据集及其类别标签，和将该获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，和通过卷积神经网络，提取该分为N段后的视频的视频空间加权特征，和通过卷积神经网络，提取该分为N段后的视频的视频时间加权特征，和获得该分为N段后的视频的视频多尺度特征，和融合该N段视频特征计算预测得分，得到最终视频分类，和存储该训练好的视频分类模型，应用该训练好的视频分类模型，对测试视频进行分类。通过上述方式，能够实现提高视频特征提取的效果和准确度。

Description

一种基于深度学习的视频分类方法以及设备

技术领域

本发明涉及视频技术领域，尤其涉及一种基于深度学习的视频分类方法以及设备。

背景技术

随着高清视频设备等硬件器材的不断发展，基于视频分类技术的人工智能广泛应用在视频兴趣推荐、视频安防、智能家居等方面，应用场景极其广阔。对于视频提供平台来说，对视频进行分类，当用户播放某个视频后，可以为用户推荐同类视频，提高用户对视频平台的满意度。对安防公司来说，对视频中的异常行为进行分类，采取相应的安全措施，比如可以监控银行ATM(Automatic Teller Machine，自动取款机)取款机的异常取款，及时发出警报。

传统的视频分类方法主要有两个过程：人工提取视频特征和视频理解。人工提取视频特征主要是基于视频内容主体的几何形状或轮廓的基础，在一些简单的特定场景中的精确度尚可接受，然而在实际应用中，非常容易受光照条件各异、视角多样性、背景复杂、类内变化大等诸多因素的影响导致视频特征提取效果不佳，准确度一般。

近几年随着深度神经网络在图像领域取得重大突破，将其应用在视频分类领域取得了不错的效果。利用CNN(Convolutional Neural Networks，卷积神经网络)的卷积操作代替人工提取特征的过程，通过训练网络的参数得到最优的特征表达，其分类效果一般要比传统方法好。深度学习不仅具有优良的泛用性，同时避免了复杂的手工特征提取过程，用机器的特征学习代替了基于人类先验经验的特征提取，获得了比手工特征分类结果更好的准确率。

通常视频帧内的不同区域和视频序列中的不同位置的帧包含的信息量不同，对分类结果起到的重要性则不同；通过对视频帧的空间特征加权可以使网络能够关注每帧的显著性区域，对不同帧的特征图加权相当于为视频不同位置的帧加权，即为视频时间特征加权；空间加权和时间加权使得网络能够有区别性的对待不同的帧和帧区域，更好的表示视频的特征，从而提高视频分类的精确度。

卷积神经网络的卷积层或池化层的核维度往往为两维，在网络学习过程中通常只能学习到特征图的空间特征，而不能学习到通道之间的特征；采用三维卷积核或池化核，可以在学习特征图空间特征的同时学习到视频的时间特征。

全局池化操作主要应用在深度学习提取的最后一层特征图上，直接将特征图大小缩减至一维，可能损失大量信息。因此，采用多尺度多方式的池化核，将结果进行拼接后再送入全连接层能够尽可能保留更多的信息。

通常视频的不同位置包含的信息量不同，视频的重要信息往往出现在中间区域，因此为不同时间段的视频设置不同的权重，使得每段视频具有区分性，融合各段加权后的得分获得最终的预测分数。

但是，发明人发现现有技术中至少存在如下问题：

现有的视频分类方案中的人工提取视频特征的过程主要是基于视频内容主体的几何形状或轮廓的基础，在某些简单的特定场景中的精确度尚可接受，然而在实际应用中，非常容易受光照条件各异、视角多样性、背景复杂、类内变化大等诸多因素的影响导致视频特征提取效果不佳，准确度一般。

发明内容

有鉴于此，本发明的目的在于提出一种基于深度学习的视频分类方法以及设备，能够实现提高视频特征提取的效果和准确度。

根据本发明的一个方面，提供一种基于深度学习的视频分类方法，包括：

获取视频的数据集及其类别标签；

将所述获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像；

通过卷积神经网络，提取所述分为N段后的视频的视频空间加权特征；

通过卷积神经网络，提取所述分为N段后的视频的视频时间加权特征；

获得所述分为N段后的视频的视频多尺度特征；

融合所述N段视频特征计算预测得分，得到最终视频分类；

存储所述得到的最终的视频分类即训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类。

其中，所述将所述获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，可以包括：

将视频等分为N段，训练阶段每段视频随机选择M帧，测试阶段每段视频选择等距离M帧，将n＝N×M帧图像堆叠，得到通道数为3的图像块，设置输入网络的视频帧分别记为X＝{x₁,x₂,...,x_n}，n表示输入网络的总帧数。

其中，所述卷积神经网络，包括：

至少一个三维卷积层、至少一个三维池化层和至少一个全连接层。

其中，所述通过卷积神经网络，提取所述分为N段后的视频的视频空间加权特征，包括：

设置每帧图像提取到的某层空间特征为V＝{v₁,v₂,...,v_n}，空间提取网络的最后一层特征图为g，每一帧特征图与最后一层特征图点乘后做归一化操作得到每帧权重w_i＝softmax(v_i·g)，将权重与原始特征相乘得到加权空间特征 V′＝{v₁w₁,v₂w₂,...,v_nw_n}。

其中，所述通过卷积神经网络，提取所述分为N段后的视频的视频时间加权特征，包括：

设置网络中某一帧的某一层的特征图大小为H×W×C，计算每个特征图的权重，特征图乘上权重获得带有区分性的时间特征。

其中，所述计算特征图的时间权重，可以包括：

将特征图利用卷积操作将通道数缩小r倍，即通道数变为C/r；

利用大小为H×W的平均池化将特征图大小变为1×1，即特征图变为 1×1×C/r；

在第三维度上利用ReLU函数做非线性变换；

同样利用卷积操作将通道数恢复至C，最后通过sigmoid函数获得归一化时间权重W＝{w₁,w₂,...,w_C}。

其中，所述获得所述分为N段后的视频的视频多尺度特征，可以包括：

设置卷积神经网络最后一层特征图大小为H×W×C，直接利用大小为H×W 的池化核获得1×1×C的特征送入全连接层计算预测分值将导致较大信息损失；

采用不同大小的池化核和池化方式包括取平均值或者取最大值的方式，获得多尺度的特征，然后拼接送入全连接层将避免信息损失。

其中，所述融合所述N段视频特征计算预测得分，得到最终视频分类，包括：

不同段视频对视频分类结果的重要性不同，设每段视频的重要性分别为 w₁,w₂,...w_N，视频的预测得分分别为C₁,C₂,...,C_N，权重乘上得分后累加得到最终融合分数，即由以下公式计算得到：

其中，权重设置倾向于中间段权重偏高，开始和结束段权重偏低，权重和为1。

其中，所述存储所述得到的最终的视频分类即训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，包括：

存储所述得到的最终的视频分类即训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，通过训练好的卷积神经网络获得最后预测得分，选择分数最高类别作为分类结果。

根据本发明的另一个方面，提供一种基于深度学习的视频分类设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一项所述的基于深度学习的视频分类方法。

根据本发明的另一个方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于深度学习的视频分类方法。

可以发现，以上方案，可以获取视频的数据集及其类别标签，和将该获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，和通过卷积神经网络，提取该分为N段后的视频的视频空间加权特征，和通过卷积神经网络，提取该分为N段后的视频的视频时间加权特征，和获得该分为N段后的视频的视频多尺度特征，和融合该N段视频特征计算预测得分，得到最终视频分类，和存储该得到的最终的视频分类即训练好的视频分类模型，应用该训练好的视频分类模型，对测试视频进行分类，能够实现可以通过充分发挥深度学习自我学习特征能力的优势，能自动学习更为有用的语义特征，避免了传统人工筛选视频特征所导致的局限性，能够实现提高视频特征提取的效果和准确度。

进一步的，以上方案，可以采用深度学习中3D卷积与2D卷积相结合的方法，对特征进行提取，以适应视频片段中视频分类对时间和空间的双重要求，其中3D卷积采用三维卷积提取时间方向的特征，捕捉相关运动信息；通过并采用3Dpooling技术不仅仅降低了计算量，并且在时间方向具有良好的不变性，提高了识别的准确度以及鲁棒性。

进一步的，以上方案，可以对2D卷积特征提取的过程中引入了特征图加权，对特征图进行自我学习的加权，得到感兴趣区域的特征图表示，从而使得网络更加关注于特征图中权重更大的部分，增加视频分类的准确度。

进一步的，以上方案，可以对3D卷积提取过程中，不同于2D卷积特征图加权，其是针对于时间特征进行加权，从而最终增加视频分类的准确度。

进一步的，以上方案，可以在对特征表示的过程中，采用不同尺度不同池化核大小对特征图进行，可以有效缓解以往pooling过程中过度削减重要表示特征的弊端，使得保留更多的表示级特征，增强整个识别算法过程中的鲁棒性以及准确性。

进一步的，以上方案，由于不同段视频对视频分类结果的重要性不同，引入不同固定权重对每个段进行加权，其中中间段权重比两端权重更大，从而得到更合理的视频特征表示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于深度学习的视频分类方法实施例的流程示意图；

图2是本发明基于深度学习的视频分类方法一实施例将特征图利用卷积操作计算时间权重的一举例示意图；

图3是本发明基于深度学习的视频分类方法一实施例在2D卷积最后得到特征图过程的一举例示意图；

图4是本发明基于深度学习的视频分类设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于深度学习的视频分类方法，能够实现提高视频特征提取的效果和准确度。

请参见图1，图1是本发明基于深度学习的视频分类方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括如下步骤：

在步骤101中，获取包括视频类别的视频。其中，视频样本库可以是视频分类数据库例如美图视频分类数据库，其中可以包括多类常见视频行为，例如唱歌、跳舞和打篮球等，可以包括数万条视频数据，其中训练、验证和测试集的比例可以按需要进行配置，例如训练、验证和测试集的比例可以是8:1:1。

在102步骤中，通过稀疏采样得到网络输入，将输入视频平均分成M段，其中每段视频随机采样N帧，得到视频表示为

其中S_mn代表是对应的第m段中随机采样第n帧，随机采样帧位置在训练过程中可以保证其多样性，使网络适应动作实例化的变化。

在本实施例中，对102步骤中稀疏采样得到的视频表示，对其进行数据增强，其中数据增强可以包括裁剪，缩放，翻转等。

在步骤103中，采用3D(3Dimensions，三维)卷积神经网络提取数据增强后的视频表示，可以具体描述为，通过UCF101数据集预训练的3D卷积神经网络参数，通过网络对输入视频表示样本进行特征提取，最终得到输入视频的时间方向的特征表示。

在本实施例中，3D卷积可以采用3D-Resnet(Residual Neural Network，深度残差网络)18结构，可以包括18层，可以由3D卷积层和3D-pooling(3维 -池化层)层组成。

在本实施例中，3D卷积层中的卷积操作是用数量为n，卷积核大小为 cw*ch*cl，对上一层特征图进行卷积操作，通过时间域方向的卷积，可以更好的捕捉运动信息，3D卷积运算的计算公式可以为：

其中w为卷积核的权重，v为输入层，P、Q分别为输入层的二维矩阵的总行数和总列数，R是特征图长度，m是卷积核在时间轴上的长度。

在本实施例中，3D-pooling层与3D卷积可以一样，都可以是将卷积操作扩展到三维，是用尺度为pw*ph*pl的卷积核对上一层的特征图进行池化，其中池化层可以大大减少计算量，并在时间方向具有良好的不变性，提高分类的鲁棒性以及准确度。

在104步骤中，通过对自学习特征权重对特征图进行加权，得到具有强能力的特征表示。

在本实施例中，请参见图2，图2是本发明基于深度学习的视频分类方法一实施例将特征图利用卷积操作计算时间权重的一举例示意图。如图2所示，可以将特征图利用卷积操作将通道数缩小r倍，即通道数变为C/r；利用大小为 H×W的平均池化将特征图大小变为1×1，即特征图变为1×1×C/r；在第三维度上利用ReLU函数做非线性变换；同样利用卷积操作将通道数恢复至C，最后通过sigmoid函数获得归一化时间权重W＝{w₁,w₂,...,w_C}。

在105步骤中，采用2D卷积对输入视频表示提取空间维度的信息，具体描述可以是，通过ImageNet(计算机视觉系统识别项目)数据集预训练2D卷积神经网络参数，通过网络对输入视频表示样本进行特征提取，最终得到输入视频的空间方向的特征表示。

在本实施例中，其中在2D卷积的过程中，由于得到的特征图表示为 n*l*w*h，其中n代表输入视频表示的图片个数，l代表特征图个数，w和h分别代表特征图的宽和高，因此，需要通过3D-pooling将其特征图转化成1*l*w*h。

在106步骤中，可以通过对特征图加权即特征图和相同维度的自学习权重相乘得到感兴趣区域的特征图表示，从而使得网络更加关注于特征图中权重更大的部分，增加视频分类的准确度。

在步骤107中，以往的pooling过程中，为了降低计算量，因此很容易过分丢失有效的特征表示，因此可以通过多尺度池化核对特征图进行池化，得到不同池化后的特征图，在降低计算量的同时，减小特征的丢失，从而提升了网络的准确度。

在本实施例中，请参见图3，图3是本发明基于深度学习的视频分类方法一实施例在2D卷积最后得到特征图过程的一举例示意图。如图3所示，在2D 卷积最后得到的特征图，其维度为n*l*w*h，通过不同的3D-pooling来提取最后一层卷积层的特征，然后将不同pooling得到的特征拼接在一起得到最终的特征表示。

在108步骤中，把3D卷积得到的特征图和2D卷积得到的特征图拼接在一起，从而得到了同时具有空间以及时间维度的特征表示。

在109步骤中，经过softmax函数层，输出结果为M×N的二维向量，其中 M代表视频段个数，N代表视频类别数。

其中，该softmax函数表示如下：

其中

其中a_k表示全连接网络的输出，其输出个数为C，即输出为a₁,a₂,...,a_C，因此可以通过上述公式将输出值归一化为概率值。

在步骤110中，可以对不同段进行加权，即

最终得到1×N的一维向量，返回最大概率所在的index即为预测的结果。

需要说明的是，本发明基于深度学习的视频分类方法一实施例还可以包括以下步骤：

采用像素通道来处理视频的每一帧像素信息；

通过2D卷积来提取视频空间维度的特征；

通过3D卷积来提取视频时间方向的特征，提取视频中时序方向的信息；

在提取空间方向特征的过程中，采用自学习的权重对特征图层面进行加权，得到感兴趣区域的特征图表示；

在提取时间方向特征的过程中，采用自学习的权重对特征图时间层面进行加权，得到具有强时间特征的有效表示；

通过不同池化核大小进行池化，得到的不同尺度的特征图，减少空间信息的过度损失。

可选地，在本实施例中，可以将视频等分为N段，训练阶段每段视频随机选择M帧，测试阶段每段视频选择等距离M帧；将n＝N×M帧图像堆叠，得到通道数为3的图像块，可以预设输入网络的视频帧分别记为X＝{x₁,x₂,...,x_n}，n 表示输入网络的总帧数。

可选地，在本实施例中，该卷积神经网络，可以包括：

若干三维卷积层、三维池化层和全连接层等；

可选地，在本实施例中，可以设置每帧图像提取到的某层空间特征为V＝{v₁,v₂,…,v_n}，空间提取网络的最后一层特征图为g，每一帧特征图与最后一层特征图点乘后做归一化操作得到每帧权重w_i＝softmax(v_i·g)，将权重与原始特征相乘得到加权空间特征V′＝{v₁w₁,v₂w₂,...,v_nw_n}。

可选地，在本实施例中，可以设置网络中某一层的特征图大小为H×W×C，计算时间权重，每层特征图乘上权重获得带有区分性的时间特征。

可选地，在本实施例中，为了减少计算量，在计算时间权重时可以将特征图利用卷积操作将通道数缩小r倍，即通道数变为C/r；利用大小为H×W的平均池化将特征图大小变为1×1，即特征图变为1×1×C/r；在第三维度上利用ReLU 函数做非线性变换；同样利用卷积操作将通道数恢复至C，最后通过sigmoid 函数获得归一化时间权重W＝{w₁,w₂,…,w_C}。

可选地，在本实施例中，为了获得时间维度特征，卷积核和池化核的维度为三维，大小为P×Q×R，一共有m个核，能够同时获得特征图的空间和时间特征，输出特征图在(x,y,z)处的值由下列公式计算得到：

可选地，在本实施例中，可以设置设卷积神经网络最后一层特征图大小为 H×W×C，直接利用大小为H×W的池化核获得1×1×C的特征送入全连接层计算预测分值将导致较大信息损失；采用不同大小的池化核和池化方法(取平均值或者取最大值)获得多尺度的特征，然后拼接送入全连接层将避免信息损失。

可选地，在本实施例中，可以不同段视频对视频分类结果的重要性不同，设每段视频的重要性分别为w₁,w₂,…w_N，视频的预测得分分别为C₁,C₂,…,C_N，权重乘上得分后累加得到最终融合分数，即由以下公式计算得到：

可选地，在本实施例中，可以是视频均分N段，每段选择具有固定间隔的 M帧送入训练好的卷积神经网络获得最后预测得分，选择分数最高类别作为分类结果。

在本实施例中，可以充分发挥了深度学习自我学习特征能力的优势，能够自动学习更为有用的语义特征，避免了传统人工筛选特征所导致的局限性，能够实现提高视频特征提取的效果和准确度。

在本实施例中，可以采用深度学习中3D卷积与2D卷积相结合的方法，对特征进行提取，以适应视频片段中视频分类对时间和空间的双重要求，其中3D 卷积采用三维卷积提取时间方向的特征，捕捉相关运动信息；通过并采用 3Dpooling技术不仅仅降低了计算量，并且在时间方向具有良好的不变性，提高了识别的准确度以及鲁棒性。

在本实施例中，可以对2D卷积特征提取的过程中引入了特征图加权，对特征图进行自我学习的加权，得到感兴趣区域的特征图表示，从而使得网络更加关注于特征图中权重更大的部分，增加视频分类的准确度。

在本实施例中，可以对3D卷积提取过程中，不同于2D卷积特征图加权，其是针对于时间进行加权，从而最终增加视频分类的准确度。

在本实施例中，可以在对特征表示的过程中，采用不同尺度不同池化核大小对特征图进行，可以有效缓解以往pooling过程中过度削减重要表示特征的弊端，使得保留更多的表示级特征，增强整个识别算法过程中的鲁棒性以及准确性。

在本实施例中，由于不同段视频对视频分类结果的重要性不同，引入不同固定权重对每个段进行加权，其中中间段权重比两端权重更大，从而得到更合理的视频特征表示。

可以发现，在本实施例中，可以获取视频的数据集及其类别标签，

和将该获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，和通过卷积神经网络，提取该分为N段后的视频的视频空间加权特征，和通过卷积神经网络，提取该分为N段后的视频的视频时间加权特征，和获得该分为N段后的视频的视频多尺度特征，和融合该N段视频特征计算预测得分，得到最终视频分类，和存储该得到的最终的视频分类即训练好的视频分类模型，应用该训练好的视频分类模型，对测试视频进行分类，能够实现可以通过充分发挥深度学习自我学习特征能力的优势，能自动学习更为有用的语义特征，避免了传统人工筛选视频特征所导致的局限性，能够实现提高视频特征提取的效果和准确度。

进一步的，在本实施例中，可以采用深度学习中3D卷积与2D卷积相结合的方法，对特征进行提取，以适应视频片段中视频分类对时间和空间的双重要求，其中3D卷积采用三维卷积提取时间方向的特征，捕捉相关运动信息；通过并采用3Dpooling技术不仅仅降低了计算量，并且在时间方向具有良好的不变性，提高了识别的准确度以及鲁棒性。

进一步的，在本实施例中，可以对2D卷积特征提取的过程中引入了特征图加权，对特征图进行自我学习的加权，得到感兴趣区域的特征图表示，从而使得网络更加关注于特征图中权重更大的部分，增加视频分类的准确度。

进一步的，在本实施例中，可以对3D卷积提取过程中，不同于2D卷积特征图加权，其是针对于时间特征进行加权，从而最终增加视频分类的准确度。

进一步的，在本实施例中，可以在对特征表示的过程中，采用不同尺度不同池化核大小对特征图进行，可以有效缓解以往pooling过程中过度削减重要表示特征的弊端，使得保留更多的表示级特征，增强整个识别算法过程中的鲁棒性以及准确性。

进一步的，在本实施例中，由于不同段视频对视频分类结果的重要性不同，引入不同固定权重对每个段进行加权，其中中间段权重比两端权重更大，从而得到更合理的视频特征表示。

本发明还提供一种基于深度学习的视频分类设备，能够实现提高视频特征提取的效果和准确度。

请参见图4，图4是本发明基于深度学习的视频分类设备一实施例的结构示意图。该基于深度学习的视频分类设备40，包括：至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述的基于深度学习的视频分类方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明又提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

在本发明所提供的几个实施方式中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的视频分类方法，其特征在于，包括：

获取视频的数据集及其类别标签；

通过2D卷积神经网络，提取所述分为N段后的视频的视频空间加权特征；

通过3D卷积神经网络，提取所述分为N段后的视频的视频时间加权特征；

获得所述分为N段后的视频的视频多尺度特征；

融合所述N段视频特征计算预测得分，得到最终视频分类；

存储所述的训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类；

其中，所述将所述获取的视频均分N段，训练阶段每段视频随机选择M帧，将视频帧堆叠为多通道图像，包括：

将视频等分为N段，训练阶段每段视频随机选择M帧，测试阶段每段视频选择等距离M帧，将n＝N×M帧图像堆叠，得到通道数为3的图像块，设置输入网络的视频帧分别记为X＝{x₁,x₂,…,x_n},n表示输入网络的总帧数；

其中，所述通过2D卷积神经网络，提取所述分为N段后的视频的视频空间加权特征的步骤，包括：设置每帧图像提取到的某层空间特征为V＝{v₁,v₂,....,v_n}，空间提取的最后一层特征图为g，每一帧特征图与最后一层特征图点乘后做归一化处理得到每帧权重w_i＝softmax(v_i·g)，将权重与原始特征相乘得到加权空间特征V′＝{v₁w₁,v₂w₂,....,v_nw_n}；

其中，所述通过3D卷积神经网络，提取所述分为N段后的视频的视频时间加权特征的步骤，包括：设置网络中某一层的特征图大小为H×W×C，通道数为C，计算时间权重，每层特征图乘上权重获得带有区分性的时间特征；

其中，所述融合所述N段视频特征计算预测得分，得到最终视频分类的步骤，包括：不同段视频对视频分类结果的重要性不同，设每段视频的重要性分别为w₁,w₂,…w_N 视频的预测得分分别为C₁,C₂,.....,C_N，权重乘上得分后累加得到最终融合分数，即由以下公式计算得到：

其中，权重设置倾向于中间段权重偏高，开始和结束段权重偏低，权重和为1；

设置卷积神经网络最后一层特征图大小为H×W×C，直接利用大小为H×W的池化核获得1×1×C的特征送入全连接层计算预测分值将导致较大信息损失；

2.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述卷积神经网络，包括：

3.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述计算时间权重的步骤，包括：

将特征图利用卷积操作将通道数缩小r倍，即通道数变为C/r；

利用大小为H×W的平均池化将特征图大小变为1×1，即特征图变为1×1×C/r ；

在第三维度上利用ReLU函数做非线性变换；

4.如权利要求1所述的基于深度学习的视频分类方法，其特征在于，所述存储所述训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，包括：

存储所述得到的训练好的视频分类模型，应用所述训练好的视频分类模型，对测试视频进行分类，通过训练好的卷积神经网络获得最后预测得分，选择分数最高类别作为分类结果。

5.一种基于深度学习的视频分类设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的基于深度学习的视频分类方法。