CN115063731B

CN115063731B - 基于两阶段运动建模和注意力的动作视频分类方法和系统

Info

Publication number: CN115063731B
Application number: CN202210980577.8A
Authority: CN
Inventors: 卢修生; 赵思成; 程乐超; 苏慧; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-11
Anticipated expiration: 2042-08-16
Also published as: CN115063731A

Abstract

本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统，包括以下步骤：步骤S1：构建采样帧输入至主干网络；步骤S2：第一阶段段内运动信息建模，输出包含短时运动信息的视频卷积特征；步骤S3：第二阶段段间运动信息建模，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；步骤S4：经过全连接层后得到各视频段的分类结果并融合，训练网络。本发明利用卷积神经网络的多层次结构，在网络的较低层和较高层分别提取段内运动信息和段间运动信息，达到分阶段运动综合建模的目的。此外，本发明计算视频卷积特征各空间块之间的注意力关系，使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。

Description

基于两阶段运动建模和注意力的动作视频分类方法和系统

技术领域

本发明涉及计算机视觉与模式识别技术领域，尤其涉及一种基于两阶段运动建模和注意力的动作视频分类方法和系统。

背景技术

随着移动互联网的发展，视频作为一种信息媒介已经深入影响到我们的生活。视频分析技术在自动驾驶、智能安防和机器人等领域都得到了广泛应用。动作视频分类任务作为视频分析领域的核心任务，在科研界与工业界都引起了众多关注。与图像相比视频增加了时间维度，所以如何对视频中的时域运动信息进行建模是研究的核心问题。

在传统视觉时代，手工设计视频描述子的发展沿着两个方向：（1）将二维图像描述子推广到三维视频描述子，如3D SIFT、HOG3D描述子等；（2）提取视频帧的特征再进行后处理来代表整个视频的特征，如DTF、IDT描述子等。而在深度学习时代来临之后，视频深度网络的发展仍然继承了以上两个方向：（1）使用3D卷积直接对连续视频段进行建模，如C3D、I3D模型等；（2）从原始视频采样视频帧，然后提取视频帧的特征再进一步处理作为整个视频的特征，如TSN、TSM模型等。其中在第二种研究方向中，一般通过显式的时域建模模块来提取运动信息，在Something-Something等动作相关数据集上取得了更好的识别效果，且相较于第一类方法有更低的运算开销。比如目前的TSN/TSM/TEA等方法在对原始视频分段后，对各段采样视频帧通过时域转移操作、运动激励模块等方式进行运动建模。但是这些方法只关注了段间长时运动概况，而忽视了段内短时运动细节，从而丢失了视频中关键性运动信息，而跨段时域建模也加大了动作解析的难度，影响了视频识别效果。

为此，我们提出一种基于两阶段运动建模和注意力的动作视频分类方法和系统以解决上述技术问题。

发明内容

本发明为了解决上述技术问题，提供一种基于两阶段运动建模和注意力的动作视频分类方法和系统。

本发明采用的技术方案如下：

一种基于两阶段运动建模和注意力的动作视频分类方法，包括以下步骤：

步骤S1：对输入的原始视频进行均匀分段，每个视频段随机采样连续多帧，得到采样帧，并将所有所述采样帧输入至主干网络；

步骤S2：在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；

步骤S3：在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

步骤S4：各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果，并将所述分类结果进行平均融合得到原始视频的分类结果，采用交叉熵损失函数对所述主干网络进行训练。

进一步地，所述步骤S2具体包括以下子步骤：

步骤S21：在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模；

步骤S22：依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；

步骤S23：通过卷积核大小、填充大小、步长的参数设置，将所述包含短时运动信息的视频卷积特征在时间尺度降为一。

进一步地，所述步骤S3具体包括以下子步骤：

步骤S31：在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模；

步骤S32：以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；

步骤S33：利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。

进一步地，所述步骤S33具体包括以下子步骤：

步骤S331：利用空间块注意力模块将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块，得到多个空间块；

步骤S332：计算每个空间块与所有空间块之间的相关性矩阵，利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权，得到加权后特征；

步骤S333：将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。

进一步地，所述主干网络基于ResNet50模型进行扩展。

本发明还提供一种基于两阶段运动建模和注意力的动作视频分类系统，包括：

采样模块：用于对输入的原始视频进行均匀分段，每个视频段随机采样连续多帧，得到采样帧，并将所有所述采样帧输入至主干网络；

第一阶段段内运动信息建模模块：用于在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，在每层利用多个2D卷积和1D按深度卷积的串联组合分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；

第二阶段段间运动信息建模模块：用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，在每层利用多个2D卷积、1D按深度卷积和空间块注意力模块的串联组合分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

融合及训练模块：用于各视频段的所述融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征经过所述主干网络的全连接层后得到各视频段的分类结果，并将所述分类结果进行平均融合得到原始视频的分类结果，采用交叉熵损失函数对所述主干网络进行训练。

进一步地，所述第一阶段段内运动信息建模模块，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；并且通过卷积核大小、填充大小、步长的参数设置，使得所述包含短时运动信息的视频卷积特征在时间尺度降为一。

进一步地，所述第二阶段段间运动信息建模模块，以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；然后利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。

进一步地，所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后，计算每个空间块与所有空间块之间的相关性矩阵，利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权，得到加权后特征，再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。

本发明的有益效果是：本发明基于层次化建模理论，利用卷积神经网络的多层结构，在网络的较低层进行段内运动信息提取，同时在网络的较高层进行段间运动信息刻画，从而达到分阶段运动信息综合建模的效果。此外所提出的方法在对视频卷积特征空间分块后，计算各空间块之间的注意力关系，从而使得模型同时具有了卷积操作的短距离和注意力机制的长距离建模能力，而且与按空间点计算注意力相比，本方法所得到的注意力信息具有更好的空间平滑性，且有着更低的运算开销。本发明在一定程度上解决了现有的视频分类网络缺乏对段内短时运动和段间长时运动的综合考虑从而影响模型时域表达能力的问题。

附图说明

图1为本发明一种基于两阶段运动建模和注意力的动作视频分类方法的流程示意图；

图2为本发明具体方法的流程示意图；

图3为本发明一种基于两阶段运动建模和注意力的动作视频分类系统的结构示意图；

图4为实施例所提出的空间块注意力模块框架图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1-图2，一种基于两阶段运动建模和注意力的动作视频分类方法，包括以下步骤：

所述主干网络基于ResNet50模型进行扩展；

对于输入的原始视频P，首先将其均匀划分为N段

，对于第 n个视频段

，随机抽取 M张连续采样帧

。假设

表示网络模型，那么第l层网络得到的输入视频P对应的视频卷积特征可表示为

，视频段

对应的视频卷积特征可表示为

。

假设

表示第l 层网络中的2D卷积操作，

表示第l 层网络中的1D按深度卷积操作。那么经过网络的较低层（前 s层）后，对于视频段

可得到包含短时运动信息的视频卷积特征

，其中l≤s。注意在网络前 s层中，

操作是在各视频段内的连续采样帧的深度特征

上进行，用于提取各视频段内相邻所述采样帧间的短时运动信息，且经过第 s层后，视频段

对应的包含短时运动信息的视频卷积特征

在时间尺度降为一。

经过网络的较高层（第 s层之后网络层）中的2D卷积和1D按深度卷积后可得到输入的原始视频 P的融合了短时运动信息和长时运动信息的视频卷积特征

，其中l＞s 。注意第 s层之后网络层中，

操作是在各视频段

间的深度特征

之间进行，用于刻画视频段之间的长时运动信息，且此处

组合隐含了多个块（Block）中的卷积操作。

步骤S33：利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

在空间块注意力模块中首先将视频段

对应的融合了短时运动信息和长时运动信息的视频卷积特征

在空间上按照k*k进行划分。

计算第i块融合了短时运动信息和长时运动信息的视频卷积特征

和第 j块融合了短时运动信息和长时运动信息的视频卷积特征

之间的相关性矩阵

，然后将相关性矩阵

作为权重矩阵作用于所述融合了短时运动信息和长时运动信息的视频卷积特征

并进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征

。相关性矩阵

中包含了各空间块间的依赖关系，加权和融合操作实现了空间上的长距离地信息交互，而且空间块注意力模块作为自注意力操作的空间平滑版本，具有更低的计算开销：

其中Conv表示1*1 积运算，且在公式中省略了空间划分后的特征重组操作。

假设 F表示全连接层，那么第l = 5卷积层后，将视频段

对应的融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征

经过全连接层得到视频段的分类结果

，然后将各视频段的分类结果平均融合得到输入视频 P的类别预测结果：

假设

表示样本数目，

表示类别数目，那么所采用的交叉熵损失函数表示为：

其中，

表示真实类别标签，

表示预测类别标签。

参见图3，一种基于两阶段运动建模和注意力的动作视频分类系统，包括：

所述第一阶段段内运动信息建模模块，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；并且通过卷积核大小、填充大小、步长的参数设置，使得所述包含短时运动信息的视频卷积特征在时间尺度降为一；

所述第二阶段段间运动信息建模模块，以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；然后利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后，计算每个空间块与所有空间块之间的相关性矩阵，利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权，得到加权后特征，再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

实施例：

本发明主要解决动作视频的识别问题，这里正式定义有

个视频样本的训练数据集

，

为视频样本，

为视频动作标签。定义分类模型的预测结果为

，其中

为网络参数，

为映射函数。

在实验中，将输入视频均匀分为 8段，对每个视频段随机采样连续 3帧。在训练时从视频帧中随机裁剪 224*224大小的区域作为网络输入，在测试时则裁剪视频帧中心位置224*224大小的区域作为输入，并使用了水平翻转等数据增强方式和归一化等预处理方法。

参见图2所示，所提出的两阶段运动建模网络包含5个网络层，设置s = 1，即在conv1层进行第一阶段段内运动信息建模模块，在conv2_x/conv3_x/conv4_x/conv5_x层进行第二阶段段间运动信息建模。conv1层中包含一组2D卷积和1D按深度卷积，其中2D卷积的卷积核大小（Convolution Kernel Size）为 7*7，步长（Stride）为 2，能够将输入视频帧空间分辨率由 224*224降采样到 112*112；1D按深度卷积用来对属于同一视频段的相邻帧间进行短时运动建模，其卷积核大小为3，步长为 1，填充大小为 0，以保证各视频段时空特征在经过conv1层之后在时域维度大小为一。conv2_x/conv3_x/conv4_x/conv5_x层分别包含3、4、6、3个块（Block），考虑到运算开销与分类效果的折衷（conv2_x层对应的视频卷积特征空间维度太大所以运算开销大，conv4_x、conv5_x对应视频卷积特征空间维度太小对分类效果影响有限），只在conv3_x中插入了空间块注意力模块。即在conv2_x/conv4_x/conv5_x层的每个块包含一个2D卷积和1D按深度卷积的组合，在conv3_x层的每个块中包含了一个2D卷积、1D按深度卷积和空间块注意力模块的组合结构。另外还应用了瓶颈结构（Bottleneck Architecture）和残差连接（Residual Connection）来降低运算开销和加速网络训练，其2D卷积和1D按深度卷积的卷积核大小分别为 3*3和 3，在此阶段1D按深度卷积用来对不同视频段采样帧之间进行长时运动建模。

参见图4所示，空间块注意力模块（Spatial Patch-wise Attention Module，SPAM）包含了分割（Divide）、重组（Reshape）、拼装（Piece）等操作，其中分割操作将视频卷积特征在空间上划分为 7*7的块，重组操作将各空间块的特征按照通道维度拼接起来（或者反之），拼装操作是分割的逆操作。在此模块中，经过 1*1卷积和分割重组操作后，利用矩阵乘法计算得到各空间块之间的相关性矩阵，再经过Softmax后作用于视频卷积特征，然后将加权后的视频卷积特征在经过重组与拼装操作后，与输入特征进行累加融合，从而起到空间块之间长距离信息传递的作用。与以像素点为单位的注意力操作相比，计算空间块之间的依赖关系既具有平滑稳定效果，又大大降低了时间开销。

本发明的方法使用Pytorch框架进行实验，使用初始学习率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数据集上设置训练60个迭代，在第30、45和55次迭代调整学习率。批处理大小为64，视频分段数N = 8。主干网络使用在ImageNet上预训练的ResNet50网络进行初始化。conv1层中的1D时域卷积使用Pytorch默认初始化（Kaiming初始化），conv2_x/conv3_x/conv4_x/conv5_x层中的1D时域卷积使用等价于TSM网络中时域转移操作的方式进行初始化。Something-Something V1数据集包含108499个动作视频，174个动作类别，每个视频有2-6秒，被划分为训练集、验证集和测试集分别包括了86017、11522和10960个动作视频。

下表1中比较了所提出的两阶段运动建模网络（Two-stage Motion ModelingNetwork，TMMN）与现有方法在Something-Something V1数据集上的识别结果，在其训练集上进行训练，验证集上进行测试，通过视频分类准确率的比较可以看出，在Top1/Top5指标上，本方法都取得了最好的分类结果。所比较的方法包括TSN：Temporal Segment Network，时域分割网络；TRN-Multiscale：Multiscale Temporal Relation Network，多尺度时域关系网络；TSM: Temporal Shift Module，时域转移模块；TEINet：Temporal Enhancement-and-Interaction Network，时域增强和交互网络；TSN + (2+1)D: Temporal SegmentNetwork with (2+1)D Convolution，使用(2+1)D卷积操作的时域分割网络；TEA：TemporalExcitation and Aggregation，时域激发和聚合网络。

表1各方法在Something-Something V1数据集上的动作视频分类结果比较

综上所述，从表1中各方法的视频分类结果比较中可以看出，与TSN、TSM等方法只关注视频中的空域表观信息和长时运动信息相比，本发明利用深度卷积网络的层次化结构，对输入视频的短时和长时运动特征进行分阶段建模，得到同时包含局部运动细节和全局运动上下文的视频卷积特征。进一步地，本发明利用空间块注意力模块计算各空间块之间的关联关系，从而使所述网络模型同时具备了卷积操作的短距离建模能力和注意力机制的长距离建模能力，提升了模型的分类性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，包括以下步骤：

步骤S2：在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，前s层每层有多个串联组合，所述串联组合由2D卷积和1D按深度卷积构成，在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；

步骤S3：在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，后s层每层有多个串联组合，所述串联组合由2D卷积、1D按深度卷积和空间块注意力模块构成，在每层利用每个串联组合的2D卷积、1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

2.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S2具体包括以下子步骤：

3.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S3具体包括以下子步骤：

4.如权利要求3所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述步骤S33具体包括以下子步骤：

5.如权利要求1所述的一种基于两阶段运动建模和注意力的动作视频分类方法，其特征在于，所述主干网络基于ResNet50模型进行扩展。

6.一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，包括：

第一阶段段内运动信息建模模块：用于在所述主干网络的任意层第s层将所述主干网络进行分段，在所述主干网络的前s层进行第一阶段段内运动信息建模，前s层每层有多个串联组合，所述串联组合由2D卷积和1D按深度卷积构成，在每层利用每个串联组合的2D卷积和1D按深度卷积分别进行空域建模和时域建模，所述采样帧经过第一阶段后输出包含短时运动信息的视频卷积特征；

第二阶段段间运动信息建模模块：用于在所述主干网络的第s层之后网络层进行第二阶段段间运动信息建模，后s层每层有多个串联组合，所述串联组合由2D卷积、1D按深度卷积和空间块注意力模块构成，在每层利用每个串联组合的2D卷积、1D按深度卷积和空间块注意力模块分别进行空域建模、时域建模和空间块注意力操作，所述包含短时运动信息的视频卷积特征经过第二阶段后输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征；

7.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述第一阶段段内运动信息建模模块，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段内相邻所述采样帧间的短时运动信息，输出包含短时运动信息的视频卷积特征；并且通过卷积核大小、填充大小、步长的参数设置，使得所述包含短时运动信息的视频卷积特征在时间尺度降为一。

8.如权利要求6所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述第二阶段段间运动信息建模模块，以所述包含短时运动信息的视频卷积特征作为输入，依次利用2D卷积提取空域表观信息，利用1D按深度卷积提取各视频段之间的长时运动信息，得到融合了短时运动信息和长时运动信息的视频卷积特征；然后利用空间块注意力模块实现空间上长距离地信息交互，输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。

9.如权利要求8所述的一种基于两阶段运动建模和注意力的动作视频分类系统，其特征在于，所述空间块注意力模块用于将所述融合了短时运动信息和长时运动信息的视频卷积特征经过空间分块后，计算每个空间块与所有空间块之间的相关性矩阵，利用所述相关性矩阵作为权重矩阵对所述融合了短时运动信息和长时运动信息的视频卷积特征进行加权，得到加权后特征，再将加权后特征与所述融合了短时运动信息和长时运动信息的视频卷积特征进行融合操作，得到融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征。