CN110020639A

CN110020639A - 视频特征提取方法及相关设备

Info

Publication number: CN110020639A
Application number: CN201910312917.8A
Authority: CN
Inventors: 晋瑞锦; 张云桃
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-16
Anticipated expiration: 2039-04-18
Also published as: CN110020639B

Abstract

本发明提供了一种视频特征提取方法及相关设备，本方案可以对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征，然后对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征，再对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。本方案中，3D卷积神经网络可以将输入的多帧视频图像进行通道分离处理，不同通道在时域上进行不同尺度的卷积处理，分组的方式可以有效地减少网络参数，从而提高视频特征的提取效率，进而使得该网络模型的实际应用效果更佳。

Description

视频特征提取方法及相关设备

技术领域

本发明涉及视频处理技术领域，更具体地，是一种视频特征提取方法及相关设备。

背景技术

视频图像中包含有物体对象的相关信息，神经网络模型可以从视频图像中提取能够代表图像信息的特征数据，一种具体的神经网络模型为3D卷积神经网络(ConvolutionalNeural Networks，简称CNN)。

3D卷积神经网络其能够较好地对视频中的表观和运动信息建模，有效捕捉视频中的时空特征，是视频行为识别领域中广泛使用的模型架构，其具体可以应用在视频分类、视频精彩度分析、视频摘要等方面。

但是，3D卷积神经网络的视频特征提取效率较慢，实际应用效果欠佳。

发明内容

有鉴于此，本发明实施例提供了一种视频特征提取方法，用于解决3D卷积神经网络的视频特征提取效率较慢，实际应用效果欠佳的技术问题。另外，本发明还提供了一种视频特征提取相关设备，用以保证上述方法在实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

第一方面，本发明提供了一种视频特征提取方法，该方法适用于3D卷积神经网络，包括：

获得多帧目标视频图像；

对所述多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征；

对所述第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征；

对所述第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

第二方面，本发明提供了一种视频特征提取装置，适用于3D卷积神经网络，所述装置包括：

视频图像获得单元，用于获得多帧目标视频图像；

普通卷积处理单元，用于对所述多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征；

时域卷积处理单元，用于对所述第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征；

空域卷积处理单元，用于对所述第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

第三方面，本发明提供了一种视频特征提取设备，适用于3D卷积神经网络，所述设备包括处理器和存储器，所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据，至少执行如下步骤：

获得多帧目标视频图像；

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任意一项所述的视频特征提取方法。

与现有技术相比，本发明包括以下优点：

本发明提供了一种视频特征提取方法，该方法可以获取多帧目标视频图像，对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征，然后对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征，再对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。本方案中，3D卷积神经网络可以将输入的多帧视频图像进行通道分离处理，不同通道在时域上进行不同尺度的卷积处理，分组的方式可以有效地减少网络参数，从而提高视频特征的提取效率，进而使得该网络模型的实际应用效果更佳。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的视频特征提取方法的一个方法流程图；

图2为本发明提供的视频提取方法的一个应用示例图；

图3为本发明提供的3D卷积神经网络中各个步骤对视频图像的处理情况的一个示例图；

图4为本发明提供的视频特征提取装置的一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可应用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种视频特征提取方法，该方法可以应用在各类应用平台上的视频特征提取系统中，具体适用于系统中的3D卷积神经网络。图1示出了本发明实施例提供的视频特征提取方法的流程图，包括步骤S101～S104。

S101：获得多帧目标视频图像。

在一种实现方式中，可以获得目标视频，目标视频中包含多帧视频图像，为了便于与下文原始视频图像区分，该视频图像可以称为目标视频图像。目标视频图像是符合3D卷积神经网络输入格式要求的视频图像。其中，输入格式可以包括，分辨率、帧长。

具体地，可以从视频平台获取目标视频图像，获取方式可以是自行收集也是由用户上传。目标视频可以包括长视频、短视频等各种长度的视频。需要说明的是，关于长视频与短视频的定义，本发明并不做具体限定，只要是本领域技术人员能够根据本领域关于视频类型的公知理解，对视频类型进行定义即可。

或者在另一种实现方式中，可以获得多帧原始视频图像；以及对多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整，以得到符合3D卷积神经网络的分辨率要求的目标视频图像。具体地，原始视频图像中的某些视频图像，分辨率可能并不符合3D卷积神经网络对于输入视频图像分辨率的要求，因此将这些原始视频图像进行分辨率调整，经过调整后的原始视频图像以及符合要求的原始视频图像可以作为目标视频图像。

或者在又一种实现方式中，可以获得多帧原始视频图像；以及按照预设的帧间隔长度，从多帧原始视频图像中间隔抽取原始视频图像，以得到目标视频图像。具体地，原始视频图像中的视频图像是连续的，相邻两帧的图像基本相似，也就是说，视频图像之间的信息是冗余的。为了减少信息冗余，可以从原始视频图像中隔抽取一部分原始视频图像作为目标视频图像。另外，原始视频图像的帧长也是不固定的，一般大于3D卷积神经网络的输入帧长，因此需要从原始视频图像中抽取符合3D卷积神经网络所要求的输入帧长的视频图像作为目标视频图像。

或者在又一种实现方式中，可以获得多帧原始视频图像；以及对多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整，以得到符合3D卷积神经网络的输入尺寸要求的目标视频图像。具体地，原始的视频图像的宽高不统一，而3D卷积神经网络对于每一帧待处理的图像的分辨率要求是固定的，如112*112，因而应把视频图像的尺寸统一处理成同一尺度。

S102：对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征。

具体地，步骤S102～S104可以由预先训练完成的3D卷积神经网络实现，其中3D卷积神经网络包括卷积层以及瓶颈模块，瓶颈模块包括时域多尺度组卷积模块以及空域卷积模块。在具体实施过程中，需要预先训练3D卷积神经网络，具体的训练过程请见以下说明。

3D卷积神经网络可以包括若干个卷积层以及若干个瓶颈模块(Bottleneck模块)，其中卷积层和瓶颈模块的数量可以根据具体处理的视频类型的不同来进行改变，本发明实施例只是对其中一种数量类型进行说明。例如，3D卷积神经网络可以包括两个卷积层和四个瓶颈模块。

卷积层与瓶颈模块的连接顺序为，卷积层-瓶颈模块，从而表示卷积层的处理过程在前，瓶颈模块的处理过程在后。在包括多个卷积层及多个瓶颈模块的情况下，卷积层之间相互连接、瓶颈模块之间相互连接、多个卷积层之后再连接多个瓶颈模块。

具体地，将目标视频的多帧视频图像输入至3D卷积神经网络中，以使3D卷积神经网络执行处理操作：由卷积层对多帧视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征。

将多帧视频图像处理为多组视频图像，每组视频图像均由3D卷积神经网络进行相同的处理步骤。每组视频图像可以表示为L*H*W*N的矩阵，其中，L为帧长，H为视频图像的高度，W为视频图像的宽度，N为视频图像的通道数，例如视频图像包括RGB三个通道，则N为3。

首先，由卷积层对多帧视频图像进行普通卷积处理。普通卷积处理需要使用卷积核，可以使用l*h*w代表卷积核，其中l表示卷积核在时间上的滑窗尺寸、h表示卷积核在高度上的滑窗尺寸、w表示卷积核在宽度上的滑窗尺寸。卷积核具有对应的滑窗步长，可以使用S1*S2*S3代表滑窗步长，其中S1、S2、S3分别对应l、h及w三个维度，表示滑窗在该三个维度上的移动步长。卷积层的卷积处理可以从视频图像中提取视频特征并输出，输出的视频特征作为后续处理的输入。为了将该视频特征与其他处理得到的视频特征区分，将该视频特征称为第一视频特征。需要说明的是，该卷积层为普通卷积层，更准确地称为时域及空域卷积层，该层所进行的卷积处理既包括时域维度上的卷积，也包括空域维度上的卷积。

可以预先设置卷积层所输出的第一视频特征的通道数量，为了与其他输出通道数量区分，将该输出通道的数量称为第一预设数量，也就是说，卷积层所输出的第一视频特征的通道数量为第一预设数量，第一预设数量可以记为I。需要说明的是，视频特征包括多个维度，通道表示的是视频特征的维度，通道数量在经过每个处理步骤之后均可能发生变化，输出的通道数量变化表示的是所输出的视频特征的维度发生了变化。

S103：对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征。

前已述及，3D卷积神经网络还包括有瓶颈模块，瓶颈模块包括时域多尺度组卷积模块，该模块可以对视频特征进行分组卷积处理，每组所使用的卷积核尺寸不同，因此称为多尺度组卷积模块。

具体地，将卷积层输出的第一视频特征输入至瓶颈模块中，瓶颈模块中包含的时域多尺度组卷积模块对第一视频特征进行分组处理，并使用不同尺寸的卷积核对各个分组的第一视频特征进行卷积。需要说明的是，本发明中对第一视频特征进行了分组处理，每个分组使用的卷积核的尺寸不同，卷积核进行卷积处理，卷积处理可以包括普通卷积也可以包括膨胀卷积，卷积核的尺寸不同也可以指的是膨胀卷积的膨胀系数不同。

预先设置每个分组所输出的通道的个数，为了便于区分，将此处的通道数量称为第二预设数量，第二预设数量可以记为T/A，其中T为所有分组输出的通道总数量，A为分组的个数。另外，为了便于区分，分组输出的视频特征称为第二视频特征。可以理解的是，每个分组进行卷积处理后，都可以得到第二预设数量通道的第二视频特征。

S104：对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

需要说明的是，瓶颈模块还包括有空域卷积模块，由时域多尺度组卷积模块得到第二视频特征后，需要由空域卷积模块对时域卷积得到的第二视频特征进行处理，以得到时域及空域都进行卷积后的视频特征。空域卷积模块所使用的卷积方式可以是现有的空域卷积方法，也可以是通过以下逐层卷积的方式实现。

具体地，空域卷积模块具体包括合并模块以及逐层深度卷积模块，则空域卷积模块的卷积过程为：由合并模块合并每个分组各自得到的第二预设数量通道的第二视频特征，以得到一组包括第三预设数量通道的第二视频特征；以及由逐层深度卷积模块分别对一组中的每个通道的第二视频特征进行卷积处理，以得到与第三预设数量相同个数的通道的第三视频特征。有关该过程的说明可以参见下述关于操作3及操作4的说明，此处并不赘述。

经过瓶颈模块的处理，视频图像的通道数会发生变化，通道数可能先增加后减少或者先减少后增加，因此，瓶颈模块可以形象地理解为瓶颈形状，顶部和底部较宽、中间部分较窄的结构，或顶部和底部较窄、中间部分较宽的结构。

为了便于理解，以下结合具体示例对卷积层及瓶颈模块的处理过程进行详细描述，示例具体如下：

获得目标视频后，对目标视频中包含的多帧视频图像进行预处理，得到32*112*112*3大小的视频图像矩阵作为3D卷积神经网络的输入，其中，32为帧长，112为视频图像的高度和宽度，3代表RGB三个通道。

3D卷积神经网络中包括有两个卷积层和一个瓶颈模块。第一卷积层的卷积核尺寸为7*7*7，滑窗步长为2*2*2，第二卷积层的卷积核尺寸为3*3*3，滑窗步长为1*2*2。输入在经过第一卷积层后，视频图像矩阵尺寸变为16*56*56，输出的通道数为64，随后输入至第二卷积层中，视频图像矩阵尺寸变为16*28*28，输出的通道数为128。第二卷积层输出的为第一视频特征，其中第一预设数量I为128。

之后，第一视频特征输入至瓶颈模块中，第一视频特征的通道数量为128，瓶颈模块可以将输入的第一视频特征按照通道分成预设数量的组，其中预设数量可以为2的指数倍，经过研究发现，预设数量4为最优选项。

将128通道的第一视频特征平均分成四组后，每组包含32个通道。其中，第一组的视频特征作卷积核尺寸为1*1*1的卷积，第二组的视频特征作卷积核尺寸为3*1*1的卷积，第三组的视频特征作卷积核尺寸为3*1*1(d＝2)的膨胀卷积，第四组的视频特征作卷积核尺寸为3*1*1(d＝4)的膨胀卷积其中d代表膨胀卷积在时间维度的膨胀系数。由于每组的卷积核尺寸不同，膨胀系数也不同，更大膨胀系数的膨胀卷积使得网络能够对更长时间尺度上的帧图像之间进行卷积操作，因而能够使更长维度的时间信息在更浅层的网络就发生相互交流，更好捕捉时间维度的运动信息。四组不同的卷积处理构成了时域上的多尺度卷积，该模块为时域多尺度组卷积模块。

预先设置瓶颈模块总的输出通道数量T为256，则每个分组均可以将输入的包含32个通道的是视频特征，输出为含256/4(即64)个通道的视频特征。瓶颈模块输出的为第二视频特征，第二预设数量为64。

需要说明的是，现有的3D卷积神经网络中，瓶颈模块的卷积处理过程并未进行分组，这样本模块所使用的网络参数较多，网络参数较多从而导致视频特征的提取效率较低。例如，在输入通道数量为I、输出通道数量为T的情况下，瓶颈模块所使用的网络参数的个数为I*T个。然而本发明的瓶颈模块中包括时域多尺度组卷积模块，该模块进行分组形式的卷积处理，分组的方式可以有效减少网络参数的个数，从而提高视频特征的提取效率。同样以输入通道数量为I、输出通道数量为T的情况为例，假设本发明将输入通道I分为4组，每个分组输出的通道数量为T/4，则所使用的网络参数为(I/4)*(T/4)个，即I*T/16，可见与现有技术相比，网络参数降低为原来的1/16，大大降低了网络参数的数量。

由以上技术方案可以看出，本发明提供的一种视频特征提取方法，可以获取多帧目标视频图像，对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征，然后对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征，再对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。本方案中，3D卷积神经网络可以将输入的多帧视频图像进行通道分离处理，不同通道在时域上进行不同尺度的卷积处理，分组的方式可以有效地减少网络参数，从而提高视频特征的提取效率，进而使得该网络模型的实际应用效果更佳。另外，分组卷积所使用的卷积核的尺寸不同，可以捕捉到视频图像更多的图像特征，使得网络的特征提取效果也更好。

本发明还提供视频特征提取方法的另一实施例，具体包括如下处理操作步骤1-7。视频特征提取方法适用于3D卷积神经网络，该3D卷积神经网络可以具体包括：卷积层、瓶颈模块以及残差模块，其中，瓶颈模块包括时域多尺度组卷积模块、合并模块以及逐层深度卷积模块。

1、普通卷积操作：由卷积层对多帧视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征。

2、多尺度组卷积操作：由时域多尺度组卷积模块对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征。

需要说明的是，前两个处理操作与图1中步骤S102及步骤S103中的处理操作相同，请见上述说明，此处并不赘述。

3、合并操作：由合并模块获得每个分组各自得到的第二预设数量通道的第二视频特征，并依次分别提取不同分组的各个第二视频特征，以得到一组包括第三预设数量通道的第二视频特征。

具体地，根据步骤S102的说明可知，每个分组都会输出第二预设数量通道的第二视频特征，本步骤是将所有分组的第二视频特征进行合并，合并为一组视频特征，该组包括第三预设数量通道的第二视频特征。由于第二预设数量为T/A，分组数量为A，则可知第三预设数量为T。

具体地，合并方式可以为打乱合并，即将同一组的输出通道拆分，将所有组的输出通道重新合并为一组。具体的一种打乱合并方式为，假设输出通道总数为T，对输出通道从1～T进行编号，前T/4个通道来自第一组卷积，第T/4～2T/4通道来自第二组，以此类推。同时，为了使不同组之间的通道在以后的卷积操作中发生信息交流，将通道排列随机打乱，打乱后的通道排列为[1,1+T/4，1+2T/4，1+3T/4，2，2+T/4，2+2T/4，2+3T/4，…,T/4，2T/4，3T/4，T]。经过随机打乱合并操作后，得到一组包含T个通道的视频特征。

由于不同组所输出的视频信息种类是不同的，打乱合并的方式可以使得后续处理步骤，将组与组之间的视频信息可以融合，使得视频特征提取的准确度更高。

4、逐层深度卷积操作：由逐层深度卷积模块分别对一组中的每个通道的第二视频特征进行卷积处理，以得到与第三预设数量相同个数的通道的第三视频特征。

具体地，逐层深度卷积模块用T个预设尺寸如1*3*3大小的卷积核分别对输入的T个通道的视频特征做卷积处理。为了减少信息损失，在逐层深度卷积之后未加入非线性激活函数。

需要说明的是，在现有的3D卷积神经网络中，每一层的输出通道，都需要对所有的输入通道进行运算处理，输出通道与输入通道是一对多的关系；而在本实施例提供的逐层深度卷积模块中，每个输出通道，仅仅使用一个输入通道的视频特征，也就是说，输出通道与输入通道是一对一的关系，这样可以极大程度地降低网络运算压力，使得网络参数进一步减少，提高了运算效率，且可以使得对于网络模型的训练变得更加简单。

需要说明的是，经过操作3的合并处理及操作4的逐层深度卷积处理，输出通道的数量并未发生变化，仍为第三预设数量T的通道，视频特征由第二视频特征变为第三视频特征。

5、多尺度组卷积操作：由时域多尺度组卷积模块对第三预设数量通道的第三视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第三视频特征进行卷积处理，得到第四预设数量通道的第四视频特征；其中各个分组的第四预设数量的总和为第五预设数量。其中第一预设数量大于或等于第三预设数量，第三预设数量小于第五预设数量，第五预设数量大于第一预设数量。

具体地，此处与操作2中的多尺度组卷积操作的处理方式相同，只不过是每组卷积核的尺寸可能不同，以及每组预设的输出通道的数量不同。为了便于区分，本操作设置的输出通道的数量称为第四预设数量，第四预设数量可以记为O/B，其中O为所有分组输出的通道总数量，B为分组的个数。为了便于区分，所有分组输出的通道总数量可以称为第五预设数量，第五预设数量即为O。

例如，将输入的T个通道的视频特征分成四组，每组含T/4个通道，4个分组分别作1*1*1，3*1*1,3*1*1(d＝2),3*1*1(d＝4)的时域多尺度卷积，每组输出的通道数为O/4。

需要说明的是，输入3D卷积神经网络的通道数量为第一预设数量I，经过操作2的多尺度组卷积处理后，输出通道的总数量变为第三预设数量T，经过操作5的多尺度组卷积处理后，输出通道的总数量变为第五预设数量O。其中，I大于T，T小于O，O大于I，可见本发明的3D卷积神经网络首先通过时间维度上的组卷积将通道数由I降维到T，再做空间维度的逐层深度卷积，最后再经过时间维度上的组卷积将通道数由T升为O，这种先降维后升维的结构被称为瓶颈模块，不仅可以有效减少网络参数，使得对于网络模型的训练变得更加简单，而且可以防止网络模型输出的视频特征过多导致的过拟合现象。

6、合并操作：由合并模块获得每个分组各自得到的第四预设数量通道的第四视频特征，并依次分别提取不同分组的各个第四视频特征，以得到一组包括第五预设数量通道的第四视频特征。

具体地，此处与操作3中的合并操作的处理方式相同，为了便于区分，合并后的视频特征的通道数量为第五预设数量。

7、残差处理操作：由残差模块对第一视频特征进行卷积处理，以得到第五预设数量通道的第五视频特征，并将第五预设数量的第四视频特征与第五预设数量的第五视频特征分别对应相加，以得到第五预设数量的第六视频特征。

具体地，残差模块可以将输入至瓶颈模块的第一视频特征进行升维处理，得到的视频特征为第五视频特征，升维后的第五视频特征的通道数量为第五预设数量，然后将第五视频特征与操作6得到的每个对应的第四视频特征进行相加，从而得到第六视频特征。

例如，残差模块将输入的第一视频特征经过卷积核尺寸为1*1*1、通道数为O的升维卷积操作后，与操作6得到的视频特征分别对应相加，以得到最终输出的视频特征。

为了便于理解，可以对上述操作2-7进行具体示例说明。

见图2，其示出了操作2-7的一个具体示例过程。如图2所示，输入为操作1得到的第一视频特征，操作2将第一视频特征进行通道分离，分为4组通道，每个通道分别进行卷积核尺寸为1*1*1、3*1*1、3*1*1(d＝2)、3*1*1(d＝4)的卷积处理。经过归一化及修正线性单元的处理之后，进行操作3的合并操作，即矩阵拼接以及随机打乱。之后，操作4进行逐层深度卷积，卷积核的尺寸为1*3*3，然后进行归一化处理。再者，操作5再次进行将第一视频特征进行通道分离，分为4组通道，每个通道分别进行卷积核尺寸为1*1*1、3*1*1、3*1*1(d＝2)、3*1*1(d＝4)的卷积处理。经过归一化及修正线性单元的处理之后，进行操作6的合并处理，即矩阵拼接以及随机打乱。最后，操作7首先将输入的第一视频特征进行卷积核尺寸为1*1*1的升维处理，处理结果与操作6的合并处理结果进行相加。经过修正线性单元的处理之后，得到输出结果。

由以上技术方案可以看出，本发明另一实施例提供的一种视频特征提取方法，可以获取多帧目标视频图像，并将多帧目标视频图像输入至预先训练完成的3D卷积神经网络中，以使得3D卷积神经网络对多帧视频图像进行卷积处理，以提取出视频特征。瓶颈模块中加入了合并模块和逐层深度卷积模块，进一步减小了网络运算压力，进一步减小了网络参数，进一步提高了视频特征提取效率，使得实际应用效果更佳。

在实际应用中，3D卷积神经网络中包括多个瓶颈模块以及多个残差模块，每个瓶颈模块与每个残差模块分别一一对应组成瓶颈残差模块，前一瓶颈残差模块输出的视频特征作为后一瓶颈残差模块的输入。例如，本发明的3D卷积神经网络可以包括四个瓶颈残差模块。

进一步地，在分别经过第一瓶颈残差模块、第三瓶颈残差模块及第四瓶颈残差模块的处理之后，可以分别进行最大池化处理。处理的目的是在时空维度上对输出的视频特征的矩阵尺寸进行限定。例如，在经过第一瓶颈残差模块及第三瓶颈残差模块的处理后，可以分别均进行步长为2*2*2的最大池化处理，使得视频特征图尺寸在时空维度上降为原来的1/2；在经过第四瓶颈模块后，输出的矩阵尺寸为4*7*7，通道数为1024，最后在经过一个步长为1*1*1的全局池化，使得视频特征图尺寸变为1*1*1。

需要说明的是，3D卷积神经网络需要进行预先训练过程，训练过程与上述视频特征提取的应用过程相同，只不过是输入的目标视频包括的是预先设置的训练集中的视频图像。

具体地，可以使用UCF101视频数据集。首先，对于视频数据集的每个视频，需要选取固定时间长度、固定高度和宽度的帧图像作为网络的输入，这样网络就能够批处理视频数据，而数据集中的帧图像高度和宽度不完全一样，因此需要对其进行尺寸调整。选取帧图像中高度和宽度值中较小的值作为短边，等比例缩放调整帧图像短边像素尺寸到预设尺寸如128。

训练时，从帧图像中随机裁剪出112*112大小的图像块，每个帧图像包含RGB3个通道，在时间维度上，从每个视频中随机抽取32帧，帧间隔为3，这样就构成了一个32*112*112*3大小的矩阵作为网络的输入。

随机裁剪图像块和随机抽帧策略是一种网络训练中常用的数据扩充的方式，可以增加训练数据的多样性，有助于提高网络的学习效果。

训练过程使用的损失函数为交叉熵，同时加上正则化系数为0.01的l2正则化损失项以防止过拟合。优化函数采用动量系数为0.9的动量梯度下降，初始学习率为0.01，采用指数衰减形式，每1000步衰减0.9。一个视频处理单元的批处理大小为16，采用4个视频处理单元进行训练，即每次训练在视频数据集中取64个样本进行训练，经过上万步后3D卷积神经网络训练完成。

更进一步地，在训练过程中，经过上述最大池化处理之后可以接入keep_prob＝0.5的Dropout网络，其中keep_prob为神经元被保留的概率，即在网络的每次应用过程中，以1-keep_prob的概率随机扔掉一部分神经元，在此次过程中，被丢弃的神经元不更新权值，也不参加神经网络的计算，Dropout可以有效缓解网络的过拟合问题。之后后接全连接神经网络，输出一个长度为分类数目的一维向量，再通过归一化指数函数激活后，向量中第i个元素即对应该数据属于第i类的概率，其中归一化指数函数可以为softmax函数，能将一个含任意实数的n维向量s映射到另一个n维实向量f(s)中，使得每个元素的范围都在(0,1)之间，并且所有元素的和为1。其中，softmax函数公式如下：

3D卷积神经网络中每个卷积层的输出都可以使用批归一化和修正线性单元激活，批归一化也是缓解网络过拟合的有效手段，修正线性单元也增加了网络的非线性表达能力。

需要说明的是，现有的训练过程中，卷积神经网络较难收敛，且存在大量冗余性，易出现过拟合的情况，从而导致3D卷积神经网络的应用性能下降。本发明中，3D卷积神经网络的时域和空域卷积分离，能够在不损失模型性能的情况下，减少训练参数，加快模型收敛。

另外，本发明提供一个具体示例，说明3D卷积神经网络中各个步骤对视频图像的处理情况。如图3所示，Conv1表示第一卷积层、Conv2表示第二卷积层、Res3为第一瓶颈残差模块、Res4为第二瓶颈残差模块、Res5为第三瓶颈残差模块、Res6为第四瓶颈残差模块。计算操作一列记录有卷积操作所使用的卷积核的尺寸、滑窗的尺寸、输入通道的个数、输出通道的个数、最大池化的步长尺寸等等信息。

另外，本发明还提供了一种视频特征提取装置，适用于3D卷积神经网络。见图4，视频特征提取装置可以具体包括：视频图像获得单元401、普通卷积处理单元402、时域卷积处理单元403及空域卷积处理单元404。

视频图像获得单元401，用于获得多帧目标视频图像；

普通卷积处理单元402，用于对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征；

时域卷积处理单元403，用于对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征；

空域卷积处理单元404，用于对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

在一个示例中，空域卷积处理单元404用于对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征，具体包括：合并每个分组各自的第二预设数量通道的第二视频特征，以得到一组包括第三预设数量通道的第二视频特征；以及分别对一组中的每个通道的第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

在一个示例中，视频特征提取装置中的时域卷积处理单元403，还用于对第三预设数量通道的第三视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第三视频特征进行时域上的卷积处理，得到每个分组各自对应的第四预设数量通道的第四视频特征。

在一个示例中，视频特征提取装置中的空域卷积处理单元404，还用于合并每个分组各自的第四预设数量通道的第四视频特征，以得到一组包括第五预设数量通道的第四视频特征；以及将第一视频特征进行升维处理，以得到第五预设数量的第五视频特征，并将第五预设数量的第四视频特征与第五预设数量的第五视频特征分别对应相加，以得到第五预设数量的第六视频特征。

在一个示例中，视频图像获得单元401用于获得多帧目标视频图像，具体包括：获得多帧原始视频图像；以及对多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整，以得到符合3D卷积神经网络的分辨率要求的目标视频图像。

在一个示例中，视频图像获得单元401用于获得多帧目标视频图像，具体包括：获得多帧原始视频图像；以及按照预设的帧间隔长度，从多帧原始视频图像中间隔抽取原始视频图像，以得到目标视频图像。

另外，本发明还提供了一种视频特征提取设备，其特征在于，适用于3D卷积神经网络，设备包括处理器和存储器，处理器通过运行存储在存储器内的软件程序、调用存储在存储器内的数据，至少执行如下步骤：

获得多帧目标视频图像；对多帧目标视频图像进行时域及空域上的卷积处理，得到第一预设数量通道的第一视频特征；对第一预设数量通道的第一视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第一视频特征进行时域上的卷积处理，得到每个分组各自对应的第二预设数量通道的第二视频特征；以及对第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

另外，本发明还提供了一种存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时，实现上述任意一种的视频特征提取方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频特征提取方法，其特征在于，所述方法适用于3D卷积神经网络，包括：

获得多帧目标视频图像；

2.根据权利要求1所述的视频特征提取方法，其特征在于，所述对所述第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征，包括：

合并每个分组各自的第二预设数量通道的第二视频特征，以得到一组包括第三预设数量通道的第二视频特征；

分别对一组中的每个通道的第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征。

3.根据权利要求1所述的视频特征提取方法，其特征在于，还包括：

对所述第三预设数量通道的第三视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第三视频特征进行时域上的卷积处理，得到每个分组各自对应的第四预设数量通道的第四视频特征。

4.根据权利要求3所述的视频特征提取方法，其特征在于，还包括：

合并每个分组各自的第四预设数量通道的第四视频特征，以得到一组包括第五预设数量通道的第四视频特征；

将所述第一视频特征进行升维处理，以得到第五预设数量的第五视频特征，并将第五预设数量的所述第四视频特征与第五预设数量的所述第五视频特征分别对应相加，以得到第五预设数量的第六视频特征。

5.根据权利要求1所述的视频特征提取方法，其特征在于，所述获得多帧目标视频图像，包括：

获得多帧原始视频图像；

对所述多帧原始视频图像中的至少一帧原始视频图像进行分辨率调整，以得到符合3D卷积神经网络的分辨率要求的目标视频图像。

6.根据权利要求1所述的视频特征提取方法，其特征在于，所述获得多帧目标视频图像，包括：

获得多帧原始视频图像；

按照预设的帧间隔长度，从所述多帧原始视频图像中间隔抽取原始视频图像，以得到目标视频图像。

7.一种视频特征提取装置，其特征在于，适用于3D卷积神经网络，所述装置包括：

视频图像获得单元，用于获得多帧目标视频图像；

8.根据权利要求7所述的视频特征提取装置，其特征在于，空域卷积处理单元用于对所述第二视频特征进行空域上的卷积处理，以得到第三预设数量通道的第三视频特征，具体包括：

9.根据权利要求7所述的视频特征提取装置，其特征在于，

时域卷积处理单元，还用于对所述第三预设数量通道的第三视频特征进行分组，并使用不同尺寸的卷积核对各个分组的第三视频特征进行时域上的卷积处理，得到每个分组各自对应的第四预设数量通道的第四视频特征。

10.根据权利要求9所述的视频特征提取装置，其特征在于，

空域卷积处理单元，还用于合并每个分组各自的第四预设数量通道的第四视频特征，以得到一组包括第五预设数量通道的第四视频特征；以及将所述第一视频特征进行升维处理，以得到第五预设数量的第五视频特征，并将第五预设数量的所述第四视频特征与第五预设数量的所述第五视频特征分别对应相加，以得到第五预设数量的第六视频特征。

11.根据权利要求7所述的视频特征提取装置，其特征在于，所述视频图像获得单元用于获得多帧目标视频图像，具体包括：

获得多帧原始视频图像；

12.根据权利要求7所述的视频特征提取装置，其特征在于，所述视频图像获得单元用于获得多帧目标视频图像，具体包括：

获得多帧原始视频图像；

13.一种视频特征提取设备，其特征在于，适用于3D卷积神经网络，所述设备包括处理器和存储器，所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据，至少执行如下步骤：

获得多帧目标视频图像；

14.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-6任意一项所述的视频特征提取方法。