CN114419524A

CN114419524A - 一种基于伪光流辅助的视频分类方法及系统

Info

Publication number: CN114419524A
Application number: CN202210316304.3A
Authority: CN
Inventors: 卢修生; 鲍虎军; 程乐超; 杨非; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-04-29
Anticipated expiration: 2042-03-29
Also published as: CN114419524B

Abstract

本发明公开了一种基于伪光流辅助的视频分类方法及系统，能够计算伪光流特征并利用其辅助进行视频分类，其中伪光流计算模块利用相关性计算/卷积/转置卷积等操作，无监督地估计伪光流特征，然后将其融合到主干网络中，从而对段间运动信息进行有效显式建模；伪光流激励模块则在将伪光流特征对通道维度取均值后，用来对主干网络中的视频卷积特征进行空间注意力操作，从而使得主干网络更关注与运动信息更相关的空间位置。本发明实现方法简便，思路灵活，在动作视频数据集上取得了显著的分类效果提升。

Description

一种基于伪光流辅助的视频分类方法及系统

技术领域

本发明涉及视频分类技术领域，尤其是涉及一种基于伪光流辅助的视频分类方法及系统。

背景技术

随着通信技术的发展，我们已经从“文字时代”、“图片时代”步入了“视频时代”，智能视频分析技术逐渐成为研究热点，并在智能安防、鉴黄鉴恐、人机交互等领域得到了广泛应用，而动作视频分类任务作为智能视频分析领域的基础任务，吸引了众多研究者的关注。

在视频分类任务中主要有两种研究思路：一是从原始视频中取连续的视频段（如16帧）输入到深度网络中，对其时空特征进行建模，代表性方法有C3D，I3D，R(2+1)D等；二是对原始视频分段后进行采样，然后将各段的采样帧输入到深度网络中，再将其识别结果融合起来作为视频分类结果，代表性方法有TSN，TSM，TEA等。

本发明主要延续第二种研究思路，现有的TSM/TEA等网络通过时域转移（TemporalShift）、1D按通道时域卷积（Channel-wise Temporal Convolution）、计算帧差等方法对各段采样的视频帧间信息进行时域建模，但是一方面这些方法或者缺乏对帧间运动信息的显式计算，或者计算方法过于简单；另一方面因为视频帧是由各段中采样得到，所以帧间信息复杂多变，难以建模，这两方面的原因影响了现有方法的视频分类准确率。

本发明中，取得了良好的识别效果。

发明内容

为解决现有技术的不足，通过显式计算各段视频帧间的伪光流特征辅助视频分类，实现提高视频分类准确度的目的，本发明采用如下的技术方案：

一种基于伪光流辅助的视频分类方法，包括如下步骤：

步骤S1：对输入的视频样本进行均匀分段，在每个视频段中随机采样一帧，并将视频帧输入到主干网络中；

步骤S2：在主干网络的每层（Layer）之后，将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中，计算相邻段视频帧深度特征之间的相关性，并得到伪光流特征；

步骤S3：将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块，首先对两种特征进行加权融合，然后将伪光流特征在通道上取均值操作后，用于对融合后的深度特征进行空间加权，从而使网络更关注与运动信息更相关的空间区域，得到空间加权特征；

步骤S4：各段采样视频帧的识别结果融合后，得到视频样本的分类结果，通过分类结果与视频样本的真值，采用交叉熵损失函数（Cross Entropy Loss Function）进行训练，用于分类阶段获取最终的视频分类结果。

进一步地，所述步骤S2中，计算相邻段视频帧深度特征之间的相关性（Correlation Layer），再通过多个卷积层（Convolution Layer）和转置卷积层（Transposed Convolution Layer）计算伪光流特征，最后通过一层卷积将其通道数与各层视频特征进行对齐。

进一步地，在计算伪光流特征时，首先对输入特征利用卷积操作减少通道数，以降低整个模块的运算开销，然后计算相邻段视频帧深度特征之间的相关性，除最后一层卷积映射用于特征对齐外，其他各层均共享参数，以便于网络训练。

进一步地，所述步骤S2中，对于相邻段采样得到的视频帧

和

，m表示第m个视频段，第

层网络提取得到的卷积特征为

和

，

表示主干网络，则计算得到的伪光流特征为：

其中

表示计算两项卷积特征之间的相关性操作，

表示包含多个卷积层的卷积操作，

表示包含多个转置卷积层的转置卷积操作。

中包含了各视频段采样帧之间的运动信息，可以用来辅助进行视频分类。

进一步地，所述步骤S3中，首先对于第

层网络对应的卷积特征

与伪光流特征

，进行加权融合操作如下：

其中

和

表示权重超参数，

表示加权融合后的卷积特征，其中既包含了原始网络提取的视频时空特征，又包含了POPCM模块显式计算得到的伪光流运动特征，具有更强的表达能力；

然后，基于伪光流特征

，计算特征权重如下：

其中

表示在光流特征

的通道维度上进行取均值操作，再通过

卷积操作和

激活操作，计算在空间各位置上的权重

，

中包含了各空间位置与运动信息的相关程度；

最后，通过权重

，对加权融合特征

进行空间注意力操作：

其中

表示点乘操作，

表示加权特征，其中与运动信息更加相关的空间位置特征得到了加强，残差操作则降低了权重

的学习难度，加权特征

作为视频帧

所在深度网络的下一层输入，继续进行特征提取。

进一步地，所述步骤S4中，将段视频帧的识别结果进行均匀融合后，得到视频样本的分类预测结果：

其中

表示输入视频样本，

表示从第

段视频样本中选取的视频帧，

表示视频样本共切分为

段，

表示视频帧

提取的视频卷积特征，

表示主干网络，

表示全连接层；

采用交叉熵损失函数进行训练：

其中，N表示样本数目，C表示类别数目，n、c分别为N和C的索引，

表示视频样本真实类别标签，

表示视频样本预测类别标签。

进一步地，所述主干网络基于残差网络ResNet50框架进行扩展，在各网络层的每个块（Block）中，使用2D卷积和1D按通道卷积同时进行时空建模，1D按通道卷积采用等价于TSM网络中时域转移操作（Temporal Shift）的方式进行初始化。

一种基于伪光流辅助的视频分类系统，包括主干网络、伪光流计算模块和伪光流激励模块；

所述主干网络，用于获取相邻段的采样视频帧，并在主干网络的每层之后，将相邻段的采样视频帧的卷积特征输入伪光流计算模块；对各段采样视频帧的识别结果进行融合，得到视频样本的分类结果，通过分类结果与视频样本的真实类别，采用交叉熵损失函数进行训练，用于分类阶段获取最终的视频分类结果；

所述伪光流计算模块，用于计算相邻段视频帧深度特征之间的相关性，进而得到伪光流特征；将得到的伪光流特征与视频帧卷积特征，输入伪光流激励模块；

所述伪光流激励模块，对伪光流特征与视频帧卷积特征进行加权融合，再对伪光流特征在通道上取均值操作，然后用于对融合后的深度特征进行空间加权，从而使网络更关注与运动信息更相关的空间区域，得到的空间加权特征用于视频帧的识别。

进一步地，所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层，相关性层用于计算相邻段视频帧深度特征之间的相关性，卷积层和转置卷积层用于计算伪光流特征，映射卷积层将其通道数与各层视频特征进行对齐。

进一步地，所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层，加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合，得到融合特征；对于伪光流特征，依次通过取均值层、卷积层和激活层，进行取均值操作、卷积操作和激活操作，得到特征空间权重，然后将空间权重与融合特征相乘后，再与融合特征相加，得到空间加权特征。

本发明的优势和有益效果在于：

本发明的一种基于伪光流辅助的视频分类方法及装置，利用相关性计算/卷积/转置卷积等操作，无监督地计算伪光流特征，并将其作为较为准确的段间运动信息估计融合到主干网络中，从而对段间运动信息进行有效建模。此外类似空间注意力机制，伪光流特征在通道上取均值操作后，用来对主干网络中的视频卷积特征进行空间加权，从而使得主干网络更关注与运动信息更加相关的空间位置。

附图说明

图1是本发明实施例中的方法流程图。

图2是本发明实施例中POPCM模式的流程图。

图3是本发明实施例中POPEM模式的流程图。

图4是本发明实施例中其他方法与本方法在Sth-Sth V1数据集上的视频分类结果对比图。

图5是本发明实施例中的系统结构图。

图6是本发明实施例中的装置结构图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

一种基于伪光流辅助的视频分类方法，主要解决动作视频分类问题，定义有

个视频样本的训练数据集

,

为视频样本，

为视频动作标签。定义分类模型的预测结果为

，其中

为网络参数，

表示映射函数，

维实数空间。在主干网络的conv1/conv2_x/conv3_x层之后，加入所提出的伪光流计算模块（POPCM，Pseudo Optical Flow Computing Module）和伪光流激励模块（POPEM，Pseudo Optical Flow Excitation Module），如图1所示。具体地，在伪光流计算模块中，首先通过相关性层（Correlation Layer）计算当前帧中特征点与相邻帧周围

空间邻域内特征点的相关性，再通过三个卷积层和两个转置卷积层提取伪光流特征，最后使用一层卷积实现特征通道数的匹配；在伪光流激励模块中，首先对视频卷积特征和伪光流特征进行加权融合，然后将伪光流特征经过取均值层和卷积层后对视频特征进行空间加权，如图2所示。进一步地，为了易于网络训练，在插入的所有伪光流计算模块中，除最后一层卷积映射以外其它层均共享参数。本实施例中，采用Pytorch框架进行实验，并使用初始学习率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数据集上设置训练55个迭代，在第30和45次迭代调整学习率。批处理大小为64，视频分段数

，伪光流激励模块中融合权重

，

。主干网络使用了在ImageNet上预训练的ResNet50网络进行初始化，而且其各块（Block）中的1D按通道卷积采用等价于TSM网络中时域转移操作（Temporal Shift）的方式进行初始化。

如图1所示，视频分类方法具体包括如下步骤：

步骤S1：对输入的视频样本进行均匀分段，在每个视频段中随机采样一帧，并将视频帧输入到主干网络中。

主干网络基于残差网络ResNet50框架进行扩展，在各网络层的每个块（Block）中，使用2D卷积和1D按通道卷积同时进行时空建模。1D按通道卷积采用等价于TSM网络中时域转移操作（Temporal Shift）的方式进行初始化。

具体地，对于视频样本

，将其均匀切分为

段

，对于第

段视频

，随机选取视频帧

，通过主干网络提取得到的视频卷积特征为

，其中

表示主干网络。

步骤S2：如图2所示，在主干网络的每层（Layer）之后，将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中，在计算伪光流特征时，首先对输入特征利用卷积操作减少通道数，以降低整个模块的运算开销，然后计算相邻段视频帧深度特征之间的相关性（Correlation Layer），再通过多个卷积层（Convolution Layer）和转置卷积层（Transposed Convolution Layer）计算伪光流特征，最后通过一层卷积将其通道数与各层视频特征进行对齐，得到伪光流特征，除最后一层卷积用于映射外，其他各层均共享参数，以便于网络训练。

最后一层卷积的作用是将伪光流特征的通道数映射到和视频特征一致，POPCM中其它层都是共享的，例如：得到的伪光流特征通道里为49，但是网络第1/2/3层输出的卷积特征通道数分别为64/256/512，所以需要进行映射。

对于相邻段采样得到的视频帧

和

，m表示第m个视频段，第

层网络提取得到的卷积特征为

和

，

表示主干网络，则估计得到的伪光流特征为：

其中

表示计算两项卷积特征之间的相关性操作，

表示包含多个卷积层的卷积操作，

表示包含多个转置卷积层的转置卷积操作；

步骤S3：如图3所示，将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块，首先对两种特征进行加权融合，然后将伪光流特征在通道上取均值操作后，用于对加权融合后的深度特征进行空间加权，从而使网络更关注与运动信息更相关的空间区域，得到空间加权特征。

首先对于第

层网络对应的卷积特征

与伪光流特征

，进行加权融合操作如下：

其中

和

表示权重超参数，

然后，基于伪光流特征

，计算特征权重如下：

其中

表示在光流特征

的通道维度上进行取均值操作，再通过卷积核（Kernel Size）大小为3x3的

卷积操作和

激活操作，计算在空间各位置上的权重

，

中包含了各空间位置与运动信息的相关程度。

最后，通过权重

，对加权融合特征

进行空间注意力操作：

其中

表示点乘操作，

的学习难度，加权特征

作为视频帧

所在深度网络的下一层输入，继续进行特征提取。

将段视频帧的识别结果进行均匀融合后，得到视频样本的分类预测结果：

其中

表示输入视频样本，

表示从第

段视频样本中选取的视频帧，

表示视频样本共切分为

段，

表示视频帧

提取的视频卷积特征，

表示主干网络，

表示全连接层；

采用交叉熵损失函数进行训练：

表示视频样本真实类别标签，

表示视频样本预测类别标签。

通过交叉熵损失函数的训练，得到整个POFN伪光流网络的最优参数，参数包括提出的POPCM和POPEM模块的参数，以及conv1/conv2_x/conv3_x/conv4_x/conv5_x层中的2D卷积，1D按通道卷积，BN层等参数。虽然主干网络使用在ImageNet上预训练的ResNet50网络进行初始化，但是在训练过程中参数仍然微调更新。

如图4所示，在Something-Something V1（Sth-Sth V1）数据集上，将本发明实施例中的方法（POFN: Pseudo Optical Flow Network，伪光流网络）与其他方法（TSN、TSM、TSN+(2+1)D）进行比较，通过的视频分类结果得分可以看出，本方法的效果优于其他方法。其中TSN：Temporal Segment Network，时域分割网络，TSM: Temporal Shift Module，时域转移模块，TSN + (2+1)D: Temporal Segment Network with (2+1)D Convolution，使用(2+1)D卷积操作的时域分割网络。

如图5所示，一种基于伪光流辅助的视频分类系统，包括主干网络、伪光流计算模块和伪光流激励模块；

主干网络，用于获取相邻段的采样视频帧，并在主干网络的每层之后，将相邻段的采样视频帧的卷积特征输入伪光流计算模块；对各段采样视频帧的识别结果进行融合，得到视频样本的分类结果，通过分类结果与视频样本的真实类别，采用交叉熵损失函数进行训练，用于分类阶段获取最终的视频分类结果；

伪光流计算模块，用于计算相邻段视频帧深度特征之间的相关性，进而得到伪光流特征。将得到的伪光流特征与视频帧卷积特征，输入伪光流激励模块；

具体地，伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层，相关性层用于计算相邻段视频帧深度特征之间的相关性，卷积层和转置卷积层用于计算伪光流特征，映射卷积层将其通道数与各层视频特征进行对齐。

伪光流激励模块，对伪光流特征与视频帧卷积特征进行加权融合，再对伪光流特征在通道上取均值操作，然后用于对融合后的深度特征进行空间加权，从而使网络更关注与运动信息更相关的空间区域，得到的空间加权特征用于视频帧的识别。

具体地，伪光流激励模块包括加权融合层、取均值层、卷积层和激活层，加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合，得到融合特征。对于伪光流特征，依次通过取均值层、卷积层和激活层，进行取均值操作、卷积操作和激活操作，得到特征空间权重，然后将空间权重与融合特征相乘后，再与融合特征相加，得到空间加权特征。

与前述一种基于伪光流辅助的视频分类方法的实施例相对应，本发明还提供了一种基于伪光流辅助的视频分类装置的实施例。

参见图6，本发明实施例提供的一种基于伪光流辅助的视频分类装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种基于伪光流辅助的视频分类方法。

本发明一种基于伪光流辅助的视频分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种基于伪光流辅助的视频分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于伪光流辅助的视频分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于伪光流辅助的视频分类方法，其特征在于包括如下步骤：

步骤S2：在主干网络的每层之后，将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中，计算相邻段视频帧深度特征之间的相关性，并得到伪光流特征；

步骤S3：将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块，首先对两种特征进行加权融合，然后将伪光流特征在通道上取均值操作后，用于对融合后的深度特征进行空间加权，得到加权特征；

步骤S4：将各段采样视频帧的识别结果融合后，得到视频样本的分类结果，通过分类结果与视频样本的真值，采用交叉熵损失函数进行训练，用于分类阶段获取最终的视频分类结果。

2.根据权利要求1所述的一种基于伪光流辅助的视频分类方法，其特征在于：所述步骤S2中，计算相邻段视频帧深度特征之间的相关性，再通过多个卷积层和转置卷积层计算伪光流特征，最后通过一层卷积将其通道数与各层视频特征进行对齐。

3.根据权利要求2所述的一种基于伪光流辅助的视频分类方法，其特征在于：在计算伪光流特征时，首先对输入特征利用卷积操作减少通道数，然后计算相邻段视频帧深度特征之间的相关性，除最后一层卷积映射用于特征对齐外，其他各层均共享参数。

4.根据权利要求1所述的一种基于伪光流辅助的视频分类方法，其特征在于：所述步骤 S2中，对于相邻段采样得到的视频帧

和

，m表示第m个视频段，第

层网络提取得到的卷积特征为

和

，

表示主干网络，则计算得到的伪光流特征为：

其中

表示计算两项卷积特征之间的相关性操作，

表示包含多个卷积层的卷积操作，

表示包含多个转置卷积层的转置卷积操作。

5.根据权利要求1所述的一种基于伪光流辅助的视频分类方法，其特征在于：所述步骤 S3中，首先对于第

层网络对应的卷积特征

与伪光流特征

，进行加权融合操作如下：

其中

和

表示权重超参数，

表示加权融合后的卷积特征；

然后，基于伪光流特征

，计算特征权重如下：

其中

表示在光流特征

的通道维度上进行取均值操作，再通过

卷积操作和

激活操作，计算在空间各位置上的权重

，

中包含了各空间位置与运动信息的相关程度；

最后，通过权重

，对加权融合特征

进行空间注意力操作：

其中

表示点乘操作，

表示加权得到的特征，加权特征

作为视频帧

所在深度网络的下一层输入，继续进行特征提取。

6.根据权利要求1所述的一种基于伪光流辅助的视频分类方法，其特征在于：所述步骤S4中，将段视频帧的识别结果进行均匀融合后，得到视频样本的分类预测结果：

其中

表示输入视频样本，

表示从第

段视频样本中选取的视频帧，

表示视频样本共切分为

段，

表示视频帧

提取的视频卷积特征，

表示主干网络，

表示全连接层；

采用交叉熵损失函数进行训练：

表示视频样本真实类别标签，

表示视频样本预测类别标签。

7.根据权利要求1所述的一种基于伪光流辅助的视频分类方法，其特征在于：所述主干网络基于残差网络ResNet50框架进行扩展，在各网络层的每个块中，使用2D卷积和1D按通道卷积同时进行时空建模，1D按通道卷积采用时域转移操作的方式进行初始化。

8.一种基于伪光流辅助的视频分类系统，包括主干网络、伪光流计算模块和伪光流激励模块，其特征在于：

所述伪光流激励模块，对伪光流特征与视频帧卷积特征进行加权融合，再对伪光流特征在通道上取均值操作，然后用于对融合后的深度特征进行空间加权，得到的加权特征用于视频帧的识别。

9.根据权利要求8所述的一种基于伪光流辅助的视频分类系统，其特征在于：所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层，相关性层用于计算相邻段视频帧深度特征之间的相关性，卷积层和转置卷积层用于计算伪光流特征，映射卷积层将其通道数与各层视频特征进行对齐。

10.根据权利要求8所述的一种基于伪光流辅助的视频分类系统，其特征在于：所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层，加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合，得到融合特征；对于伪光流特征，依次通过取均值层、卷积层和激活层，进行通道取均值操作、卷积操作和激活操作，得到特征空间权重，然后将空间权重与融合特征相乘后，再与融合特征相加，得到空间加权特征。