CN112101248A

CN112101248A - 一种用于视频时空表征学习的多分组多注意力建模方法

Info

Publication number: CN112101248A
Application number: CN202010987037.3A
Authority: CN
Inventors: 石珍生; 郑海永
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-18
Anticipated expiration: 2040-09-18
Also published as: CN112101248B

Abstract

本发明涉及视频理解技术领域，具体公开了一种用于视频时空表征学习的多分组多注意力建模方法，包括步骤：S1.构建多分组多注意力模块(MGMA模块)；多分组多注意力模块包括多分组模块、多注意力模块和融合模块；多分组模块用于对视频通道进行排列后分组，多注意力模块用于将分组后各视频通道的输入X提取时序注意力特征权值和空间注意力特征权值，融合模块用于使用主网络对所述时序注意力特征权值和所述空间注意力特征权值进行融合，得到对应的视频时空特征；S2.将多分组多注意力模块嵌入到3D‑CNN网络中以构建多分组多注意力网络模型。本发明提出了一种新颖、轻量且灵活有效的MGMA模块，通过时空分离机制和多分组结构捕获高辨识度多注意力特征。

Description

一种用于视频时空表征学习的多分组多注意力建模方法

技术领域

本发明涉及视频理解技术领域，尤其涉及一种用于视频时空表征学习的多分组多注意力建模方法。

背景技术

视频行为识别是视频分析与理解研究中一项非常具有挑战性的任务。近年来，越来越多的方法和技术相继被研发出来，用于经裁剪的包含单个行为类别的视频片段识别任务。实际上对于人本身而言，通过一个视频片段去识别一种行为同样非常具有挑战性。例如，对于UCF101数据集中“皮划艇(Kayaking)”和“赛艇(Rowing)”两类行为，一个时长几秒的视频片段可能需要人反复仔细观察才可辨别。虽然视频比图像具有更多时序和空间上的表征信息，但人类视觉并不会处理整个时间范围内的全部画面。相反，人类视觉会选择性地将注意力专注于部分可视空间上的关键帧，进而获取所需的“何处何时(Where and When)”关键信息，并且通过时序和空间上不同的定位信息构建出行为的内在表征。这样，可以快速并准确识别行为信息，主要是因为空间和时间上选择性视觉注意机制发挥的重要作用。

选择性视觉注意力可能是人类智能中最吸引人的方面之一，这种能力也被研究者们建模并证明在图像和视频分析识别任务上是有效的。给定一幅图像，不仅是显著的物体，丰富多彩的背景也能够吸引人类的注意力，基于注意机制的模型旨在选择一个关注的位置，并同时增强相对应的表征信息。然而，对于给定一段视频序列而言，情况会更复杂，在建模注意机制时必须在空间上捕获多个物体信息，同时在时间上捕获多种运动信息，仅仅通过静态图像或动作信息来区分行为动作仍十分困难。如图1所示，只通过静止图像或运动信息来区分“将某物从左边推至右边”(左)和“将某物靠近某物”(右)是非常具有挑战性的工作。

发明内容

本发明提供一种用于视频时空表征学习的多分组多注意力建模方法，解决的技术问题在于：目前无法对视频行为进行高辨识度表征。

为解决以上技术问题，本发明提供一种用于视频时空表征学习的多分组多注意力建模方法，包括步骤：

S1.构建多分组多注意力模块；所述多分组多注意力模块包括多分组模块、多注意力模块和融合模块；所述多分组模块用于对视频通道进行重排，所述多注意力模块用于将分组后各视频通道的输入X提取时序注意力特征权值和空间注意力特征权值，所述融合模块用于使用主网络对所述时序注意力特征权值和所述空间注意力特征权值进行融合，得到对应的视频时空特征；

S2.将所述多分组多注意力模块嵌入到3D-CNN网络中以构建多分组多注意力网络模型。

进一步地，所述多注意力模块包括时序注意力提取模块和空间注意力提取模块；所述时序注意力提取模块和所述空间注意力提取模块均包括三维最大池化模块、插值模块、三维卷积模块、批归一化模块、特征权值生成模块，分别用于对输入X顺序执行三维最大池化操作、插值操作、三维卷积操作、批归一化操作、特征权值生成操作，最后得到输入X的时序注意力特征权值和空间注意力特征权值；

对于所述时序注意力提取模块，其三维最大池化操作和三维卷积操作在时序一维的范围内执行；

对于所述空间注意力提取模块，其三维最大池化操作和三维卷积操作在空间二维的范围内执行。

优选地，所述特征权值生成操作具体是采用Sigmoid函数进行处理。

进一步地，所述融合模块包括主网络、第一加和模块、点乘模块和第二加和模块；

所述第一加和模块用于对所述多注意力模块输出的时序注意力特征权值、空间注意力特征权值进行加和，得到三维注意力特征权值；

所述点乘模块用于对所述主网络、所述三维注意力特征权值进行点乘，得到点乘值；

所述第二加和模块用于对所述点乘值、所述主网络进行加和，得到输入X的视频时空特征。

进一步地，在所述步骤S2中，所述多分组多注意力模块嵌入在3D-CNN网络的至少一层残差学习层中。

本发明提供的一种用于视频时空表征学习的多分组多注意力建模方法，其有益效果在于：

1、时空可分离注意力建模。基于对人类视觉功能的观察与研究，即人类视觉能够将更多的注意力专注于行为发生在“何处何时”，因此能够快速且有效地处理视频内容，以此为驱动对视频中这种多注意(Multi-attention)机制进行建模，构建多注意力模块，分别在一维时序范围和二维空间范围将时序注意与空间注意进行分离，从而更多地将注意力专注于动作发生的“何处何时”，以此实现对视频行为的高辨识度时空表征；

2、多分组多注意力模块(简称为MGMA模块)。为了学习多注意力的时空表征，提出一个多分组结构，其由一条主干和多个通道(Channel)分组所划分的多条注意力分支组成，实验和可视化研究表明这种简单的多分组结构能够更好地学习到多注意力、高辨识度的三维时空表征；

3、由于MGMA模块具备轻量、灵活且高效的特点，可以嵌入到任何三维卷积神经网络(3D-CNN)架构中。因此，在实际应用中，可将1个或多个MGMA模块嵌入到3D-CNN中，以训练一个端到端、RGB输入数据的模型，实现对视频行为的高辨识度时空表征；

4、在四个主流的数据集(UCF101、HMDB51，Something-Something V1和V2)上进行了实验，消融对比研究和综合实验证明了MGMA模块的明显优势，其可达到优于目前先进方法的效果。

附图说明

图1是本发明背景技术提供的只通过静止图像或运动信息来区分“将某物从左边推至右边”(a)和“将某物靠近某物”(b)的特征图；

图2是本发明实施例提供的一种用于视频时空表征学习的多分组多注意力建模方法的步骤流程图；

图3是本发明实施例提供的MGMA模块的结构示意图；

图4是本发明实施例提供的在Something-Something V1数据集的部分输入帧上T-ATTN块、S-ATTN块和MGMA模块所提取特征的比对图；

图5是本发明实施例提供的在UCF101数据集的部分输入帧上T-ATTN块、S-ATTN块和MGMA模块所提取特征的比对图；

图6是本发明实施例提供的MGMA-Net相对于基线模型在每个类别上准确率的提升对比图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

本发明实施例提供的一种用于视频时空表征学习的多分组多注意力建模方法，如图2所示的步骤流程图，包括步骤：

S1.构建多分组多注意力模块(简称为MGMA模块，Multi-Group Multi-Attention)；

S2.将多分组多注意力模块嵌入到3D-CNN网络中以构建多分组多注意力网络模型。

步骤S1中，如图3所示，MGMA模块包括多分组模块(Multi-Group，MG)、多注意力模块(Multi-Attention，MA)和融合模块；多分组模块用于对视频通道进行重排(Shuffle)后分组(分为1～n组)，多注意力模块用于将分组后各视频通道的输入X提取时序注意力特征权值和空间注意力特征权值，融合模块用于使用主网络对时序注意力特征权值和空间注意力特征权值进行融合，得到对应的视频时空特征。

在多分组操作前，首先进行通道重排(Shuffle)操作，目的是让特征信息能够在通道之间流动，这样可以构建一个基于多分组多注意力操作的有效结构，同时也可克服通道分组操作带来的副效用。

如图3，多注意力模块包括时序注意力提取模块(T-ATTN)和空间注意力提取模块(S-ATTN)；时序注意力提取模块和空间注意力提取模块均可表示为ATTN模块，该ATTN模块包括三维最大池化模块(Maxpooling)、插值模块(Interpolation，本实施例使用最近邻插值法)、三维卷积模块(Conv3D)、批归一化模块(BatchNorm)、特征权值生成模块(本实施例采用Sigmoid函数)，分别用于对输入X顺序执行三维最大池化操作、插值操作、三维卷积操作、批归一化操作、特征权值生成操作，最后得到输入X的时序注意力特征权值和空间注意力特征权值。

ATTN块阐述了本实施例时空分离注意机制的运算操作。本实施例采用三维最大池化然后插值的方法来提取时序和空间的注意力信息，这种聚合降维再扩充升维的采样操作可以切实地捕捉到特征图的显著性信息，生成空间物体或时序运动增强的注意力特征图。三维卷积操作和批归一化对时空注意力特征进行学习，被学习到的注意力特征最后用Sigmoid函数进行处理，生成注意力特征的权值，以此增强主网络的时空特征。

对于T-ATTN，三维最大池化和卷积操作都是在时序一维的范围操作执行(即使用尺寸为t×1×1的卷积和池化核)，以学习时序注意力信息。而S-ATTN则是通过在空间二维范围内执行三维最大池化和卷积操作(即使用1×s×s卷积和池化核)来学习。插值操作是沿着与最大池化相同的维度执行的。

为了捕获时空多注意力信息，本实施例将T-ATTN和S-ATTN操作作用到多个注意力分支，把主网络一个网络单元作为主干，以这种多分组的方式进行融合，如图3中间部分所示。本实施例将主干和一个分支，扩展到多分组对应多个分支，每个分支执行一次分组的T-ATTN或S-ATTN操作。通过这种方式，多个T-ATTN和S-ATTN分别与多个时序和空间注意力相关联，它们以残差学习方式融合，生成多注意力的时空表征信息。

在本实施例中，如图3所示，融合模块包括主网络(Net Unit，Net Unit是主干网络的基本构成单元，例如Inception module、Residual block和ResNeXt block)、第一加和模块(从左至右第一个“+”)、点乘模块(“×”)和第二加和模块(从左至右第二个“+”)；第一加和模块用于对多注意力模块输出的时序注意力特征权值、空间注意力特征权值进行加和，得到三维注意力特征权值；点乘模块用于对主网络、三维注意力特征权值进行点乘，得到点乘值；第二加和模块用于对点乘值、主网络进行加和，得到输入X的视频时空特征。

给定主干输出R(X)，以及尺寸相同的输入X(Input)，每个分组的注意力分支T⁽ⁱ⁾(X)和S^(j)(X)学习通道大小为输入为X的1/n的注意力特征。将T⁽ⁱ⁾(X)表示为第i条T-ATTN分支的输出，而S^(j)(X)表示为第j条S-ATTN分支的输出。两种类型的注意力分支的输出表示为：

这里，n表示分组个数对应的注意力分支数。n个分组的T⁽ⁱ⁾(X)和S^(j)(X)分别进行拼接，然后加和到一起，再与R(X)进行点乘操作，最后得到多注意力时空表征的M(X)如下所示：

M_c,d,h,w(X)＝R_c,d,h,w(X)·(T_c,d,h,w(X)+S_c,d,h,w(X)) (3)

这样，每个分组的注意力分支不仅能够在前向处理中作为特征选择算子，还能在反向传播中作为梯度更新算子。注意分支的梯度计算可表示为：

这里λ表示主干(主网络)的参数，γ表示T-ATTN分支的参数，ζ表示S-ATTN分支的参数。最终的输出(Output)可以表示为：

H(X)＝R(X)·(1+T(X)+S(X)) (5)

实际上，注意力分支与主干的点乘可以使注意力分支在更新主干参数时避免产生错误的梯度，而主干与注意力分支加和可以在抑制噪声的同时增强主网络的时空特征。至此，本实施例通过时空分离的注意机制和多分组结构来生成多注意力、高辨识度时空特征，其可辨识视频中时序动作和空间物体。

为了能够在视频中学习高辨识度的时空表征信息，本实施例提出MGMA模块，其结构和细节见图3。为了捕获视频中的注意力特征，本实施例设计了一种时空可分离的注意机制，包括用于提取时序注意力的T-ATTN和用于提取空间注意力的S-ATTN。然后，本实施例提出一种多分组结构，主干由一个网络单元组成，多个通道分组构成多条注意力分支，这些注意力分支由T-ATTN和S-ATTN组成，从而产生多注意力、高辨识度的三维时空表征信息。

本实施例对MGMA模块所学习的特征进行可视化研究，以观察MGMA所学习的时空表征内容。可视化研究的网络特征图包括T-ATTN特征图、S-ATTN特征图以及MGMA特征图。图4和图5为MGMA方法的不同阶段的特征图，它将不同的ATTN(即T-ATTN和S-ATTN)块捕获的不同注意力特征进行比较显示。图4的输入视频片段是从Something-SomethingV1数据集中选取的，类别是“将某物靠近某物”。图5的输入帧是从UCF101数据集中剪切出来的，类别是“冰上舞蹈”。亮度表示特征，越亮表示特征越强。从图4、5中可以看出：

①进入MGMA之前的网络特征图主要是显示物体的边缘：手、红色打火机和黑色遥控器，这些是主网络卷积层的处理结果；

②T-ATTN块更加关注移动物体(手和红色打火机)的移动信息(或轨迹)，而不太关注静止的物体，只是保留它们的边缘信息(黑色遥控器)；

③S-ATTN块关注所有显著的物体，即：移动的手、红色打火机和静止的黑色遥控器；

④MGMA，融合多组T-ATTN和S-ATTN的注意力特征图，其能够同时捕捉物体以及其移动信息，并能对特征进行增强(图中光亮处)，从而产生多注意力、高辨别度的三维时空特征。

概括地说，T-ATTN可以捕获手和物体的运动信息，S-ATTN可以捕获所有突出的物体，而MGMA将它们融合在一起，进一步增强特征，生成具有区分时空特征的多注意力地图。

关于步骤S2中MGMA的实际应用，本实施例通过消融对比实验和性能评估实验来体现。

首先本实施例使用3D ResNet-34作为消融对比实验的基线模型(baseline)。下表1列出了基线模型的具体信息，其中包括4个残差学习层(Residual layer)，4个残差层各包含3、4、6、3个残差块，总共34个卷积层。模型输入数据尺寸为32×112×112。本实施例采用1×2×2的卷积步长在conv₁处执行一次二维空间降采样，并采用2×2×2卷积步长分别在res_{2_1}、res_{3_1}和res_{4_1}处各进行三维时空降采样。然后，本实施例在res₅层后执行池化核大小为4×7×7的时空平均池化操作，最后使用全连接层对类别进行预测。

表1.MGMA-Nets的网络细节

1、MGMA模块嵌入。为了学习基于多分组的时空分离多注意力，本实施例将MGMA模块嵌入到3D-CNN网络中来构建多分组多注意力网络，即MGMA-Nets，以此去学习高辨识度的时空表征信息。

2、网络样例：MGMA-ResNet-34。本实施例通过将MGMA模块嵌入到3D-CNN骨干网络来构建MGMA-Net。在当前的网络实现中，本实施例将MGMA模块嵌入至3D ResNet-34基线模型，以此构建MGMA-ResNet-34网络样例。由于运动信息建模主要在网络低层卷积层有效，因此没有必要在高层的语义信息中抽象建模，于是本实施例只在res₃和res₄层上插入MGMA模块，同时保持res₂和res₅层不变。这样，可以更好地平衡模型复杂度和处理效率。

3、高效率网络样例：MGMA-ShuffleNet。本实施例还尝试使用高效的骨干网络ShuffleNet-V2来构建MGMA-Net，ShuffleNet-V2由3组卷积层组成，各包含4、8、4个卷积模块组，总共50个卷积层，所有二维(3×3)卷积核执行于每个通道深度上(Depthwise卷积)。如表1所示，本实施例将所有的Depthwise 3×3卷积核膨胀为相应三维(3×3×3)卷积核。网络同样使用32×112×112的输入，但是仅在res₃层执行一次时序下采样。对于MGMA模块的构建，参照MGMA-ResNet-34的构建方式，本实施例将MGMA模块添加到res₃和res₄层，以此来构建MGMA-ShuffleNet。

4、多样化的MGMA-Nets。不同的分组数n表示不同的MGMA-Net网络结构，也对应MGMA模块的不同结构。因此，本实施例可以通过构建不同的MGMA模块来构建不同类型的MGMA网络。这些不同的MGMA网络可以很好地用来研究多分组多注意力方法的效果。因此，在本实施例的实验中，本实施例也构建这些不同的MGMA-Net用于消融对比研究，以探索本实施例提出的MGMA方法。

下面进行实验与分析。

本实施例在四个主流的数据集上评估本实施例的方法：经典的UCF101和HMDB51数据集，和具有精密标注且更具挑战性的Something-Something V1和V2数据集。

1、实验数据集介绍

UCF101和HMDB51是两个经典的视频行为识别数据集，其中UCF101包含101类共13320个视频片段，HMDB51包含51类共6766个视频片段，本实施例使用两个数据集的“split1”划分的训练集作为训练数据，测试集作为验证数据来进行实验，并使用最高(Top-1)分类准确度作为评价指标。

Something-Something V1和V2是近期开放的精密标注的数据集，数据集包含174个动作类别，每个视频片段时长为2-6秒。V1版本包含108499个视频片段，V2版本包含220847个视频片段。本实施例使用两个数据集划分的训练集作为训练数据，测试集作为验证数据来进行实验，并使用最高(Top-1)分类准确度作为评价指标。

2、实验环境设置

1)模型训练。本实施例在时序和空间范围内进行数据增加(Data Augmentation)操作。本实施例随机采样连续的32帧作为输入，其中UCF101和HMDB51数据集采样步长为2，Something-Something V1和V2的采样步长为1。所有的输入帧通过多尺度随机裁剪的方法进行裁剪，然后调整大小为112×112。裁剪窗口大小为d×d，其中d是输入帧短边长度和比例因子的乘积，对于UCF101和HMDB51数据集比例因子为[0.7,0.875]，对于Something-Something-V1和V2数据集比例因子为[0.8,1]。本实施例使用8路NVIDIA RTX 2080Ti GPU计算机对模型进行训练和评估，在训练过程中将单GPU小批量(mini-batch)设置为8(总共64)，并进行批归一化(BatchNorm)操作。模型训练采用随机梯度下降算法(SGD)作为优化器，并将动量(Momentum)参数设为0.9，权重衰减(Weight Decay)参数设为0.0001。所有实验都采用PyTorch框架(1.3版本)实现，本实施例还使用混合精度(FP32和FP16)训练方法。

2)模型测试评价。本实施例用最高(Top-1)准确率对四个数据集进行评价，并对多个裁剪片段进行测试评价，测试片段时序上平均采样自每个视频，并对测试片段每一帧图像进行空间区域裁剪。对于UCF101和HMDB51，本实施例对每个视频中在时序上平均采样10个片段，然后每个片段中逐帧空间裁剪3个区域(每帧图像的两边和中心)。对于Something-Something V1和V2，本实施例对每个视频中在时序上平均采样5个片段，其中起始帧的采样区间范围为[0,L-32](L是视频的完整长度)，然后每个片段中逐帧空间平均裁剪5个区域。本实施例采用空间全卷积的推理方法[9,31]，将每个视频帧的短边缩放到128像素，并保持宽高比。最后本实施例对所有输入片段的Softmax预测值求平均来得到最终的评价数值。

3、消融对比研究

本实施例采用3D ResNet-34为基线模型，3D ResNet-34和ShuffleNet-V2为骨干网络，在UCF101数据集上做消融对比实验，分析MGMA-Nets的多分组结构以及时空分离注意力的效果。消融对比实验的模型均为从初始开始训练(Training From Scratch)。训练过程总共持续50遍(Epoch)，初始学习率0.1，衰减因子为0.1，分别在训练到第30遍和40遍时执行衰减，前10遍训练用于学习率预热。实验数据参考下表2，表2展示了在UCF101数据集上，相对于基线模型(3D ResNet-34)，不同MGMA模块的Top-1结果以及模型参数(params)与每秒的浮点运算数(FLOPs)。

表2.MGMA-Nets消融对比研究

*表示每个组只包含一个通道的多注意力结构，U表示时空不分离的三维注意力。

1)多分组结构分析。本实施例首先对MGMA的分组数n进行消融对比实验，验证多分组结构的效果，并探索合适的分组数目选择。本实施例以3D ResNet-34的Top-1结果及其参数量和每秒浮点数运算量(FLOPs)作为本实施例的基线对比参照。参见表2(a)，对于MGMA-ResNet-34，能够看出：

①所有MGMA模块，即使是使用分离T-ATTN和S-ATTN的单分组模型(n＝1)，其效果也优于基线模型，这表明了本实施例的MGMA的有效性；

②随着n增加，相应MGMA模块的参数量和每秒浮点运算量不断下降，模型效果经历一个由优到差的过程，n＝{4,8,16}时，模型的效果好于其他分组数设置，由此可见，更多的分组数量能够提升模型的效果，但是分组数过多会限制效果的提升，因为过多的分组使得每组的通道数量有限，从而导致通道间注意力的交互和连接受限；

③分组数n＝8的MGMA模块表现最好，比基线模型提高了2.5％；

④与基线模型相比，所有MGMA模块的参数量和每秒浮点运算量增量都很小，而在n＝8之前，随着参数和计算量下降，性能是不断提升的，这表明MGMA模型即是轻量级的，又有很好的性能提升效果。

2)高效且有效的网络实现：MGMA-ShuffleNet。ShuffleNet是一种计算效率非常高的CNN架构，本实施例成功地将其应用至视频中的时空特征学习，并取得了不错的实验效果。消融对比实验结果如表2(b)所示。本实施例可得到相类似的结论，即与3D ShuffleNet相比，模型n＝{8,16,32}的效果更优，且最佳模型n＝32提升可达4.1％。特别说明的是，MGMA-ShuffleNet与本实施例的基线模型相比，参数量和每秒浮点数运算量非常少(只有1/10)，而效果却更好(60.6vs.59.8)，这表明本实施例MGMA在普通和高效的CNN架构中的灵活性和有效性。值得注意的是，高效的CNN架构使用没有通道间交互的空间卷积(Depthwise卷积)，由于在三维的Depthwise卷积中应用了本实施例多分组的结构设计，嵌入MGMA的高效CNN架构(例如MGMA-ShuffleNet)在通道之间建立连接并赋予其时空多注意力，从而获得很好的效果提升(例如4.1％)。

3)时空分离注意力效果分析。本实施例也对统一的时空三维注意力(表示为U，即U-ATTN)进行研究，并通过消融对比实验，来对比证明本实施例提出的时空分离注意力T-ATTN(时序一维)和S-ATTN(空间二维)机制的有效性。MGMA-ResNet-34和MGMA-ShuffleNet模型结果如表2(c)和表2(d)所示，本实施例选择效果较好的模型表2(a)(n＝{4,8,16})和表2(b)(n＝{8,16,32})进行对比。本实施例可以很明显地看到，MGMA-ResNet-34(U)和MGMA-ShuffleNet(U)与时空分离注意力模型相比，不仅参数量和计算量更多，效果也更差(60.8vs.62.3，n＝8和58.8vs.60.6，n＝32)，这表明本实施例的时空分离注意力设计是有效的。

由此可以得出结论，本实施例提出的MGMA方法对于视频中的行为识别是有效的，融合T-ATTN和S-ATTN的多分组多注意力设计是提高性能的关键。考虑到采用最好效果的模型与当前先进方法进行比较，本实施例在以下实验中使用n＝8的MGMA-ResNet。

4、先进方法对比实验

本实施例最后与当前先进的方法对比来评估本实施例MGMA模块的性能，本实施例不仅在经典数据集UCF101和HMDB51上进行实验，也在精密标注、细粒度的数据集Something-Something V1和V2上进行实验对比。

本实施例使用ResNet-34骨干网络，采用时空分离卷积R(2+1)D方法和不同数据集的预训练模型(Kinetics-400和IG-Kinetics-65M)，并在res₃和res₄层嵌入MGMA模块，以此来构建MGMA-ResNet-34模型。此外，本实施例同样采用Kinetics预训练模型来构建MGMA-ResNet-18，以便与先前的工作进行公平的比较。

1)UCF101和HMDB51数据集实验。训练过程总共持续40遍(Epoch)，初始学习率在Kinetics预训练模型上训练时设为0.001，在IG-Kinetics-65M+Kinetics预训练模型上训练时设为0.0001。衰减因子设为0.1，分别在训练到第15遍和30遍时执行衰减。本实施例与仅使用RGB数据的模型进行比较，表3展示了在UCF101和HMDB51数据集上的Top-1准确率结果。与具有相同骨干网络和预训练数据集的模型相比，本实施例在Kinetics预训练的MGMA-ResNet-18模型实现了在UCF101(94.7vs.94.3，ARTNet with TSN)和HMDB51(71.6vs.70.9，ARTNet with TSN)数据集上的优越效果。在相同的Kinetics预训练条件下，与MGMA-ResNet-18相比，MGMA-ResNet-34在UCF101和HMDB51数据集上Top-1准确率分别提升了1.9％和3.5％。而与现有的具有相同设置，但是骨干网络更深的复杂模型相比，本实施例采用IG-Kinetics-65M+Kinetics预训练的MGMA-ResNet-34模型达到了领先的效果。

表3.在UCF101和HMDB51数据集上与先进方法进行对比

2)Something-Something V1和V2数据集上的实验。训练过程总共持续E遍(Epoch)，初始学习率为L，衰减因子设为0.1。对于从初始开始训练(Training fromScratch)的实验，本实施例设置E＝50，L＝0.1，分别在训练40遍和45遍执行衰减，前10遍用于学习率预热；对于在Kinetics预训练模型上的调优实验，本实施例设置E＝40，L＝0.01，分别在训练到第30遍和35遍时执行衰减，前10遍用于学习率预热；对于在IG-Kinetics-65M+Kinetics预训练模型上的调优实验，本实施例设置E＝30，L＝0.001，并在训练到第20遍时执行衰减。

表4显示了在Something-Something V1和V2数据集上Top-1的比较结果，可以观察并得出以下结论：

①首先，本实施例的方法大幅度优于基线模型，本实施例从初始训练的ResNet-34将Top-1精度从47.5提高到49.6(V1)，从61.2提高到63.2(V2)，这也超过了最新的ir-CSN模型(49.6vs.49.3，V1)的结果；

②其次，采用Kinetics预训练的ResNet-18骨干网络的模型，与先前最先进方法相比(在相同的设置下)，Top-1准确率提升1.3％(50.8vs.49.5，ECO)；

③最后，通过在更深的ResNet-34骨干网络和IG-Kinetics-65M+Kinetics预训练模型上进行训练，进一步提高了本实施例模型的性能，与基线模型相比，将Top-1准确率提高6.7％(V1)和6.1％(V2)，达到了最先进的性能。

表4.在Something-Something V1 and V2数据集上与先进方法进行对比

^*带有额外信息的更复杂模型(轨迹特征或光流)

需要注意的是，Martinez等人的工作使用更深的ResNet-152骨干网络来实现有竞争力的Top-1准确率(53.4)结果，虽然没有实验过相同的骨干网络，但是本实施例预估模型会有类似的提升效果，因为本实施例仅将骨干网络从ResNet-18换成ResNet-34就实现了50.8到53.0(V1)和64.2到66.3(V2)的提升效果，如果换用ResNet-152则性能会进一步得到提升。

这两个具有挑战性的数据集上的领先结果证明了本实施例的MGMA-Nets的有效作用，其能够强调多注意力渲染的、高辨识度的时空表征，对视频行为识别的效果提升起到很好的作用。

5、提升分析

图6展示了在Something-Something V1数据集上，本实施例MGMA模块与基线模型相比，在每个类别上的准确率提升情况。从图中可以发现：

①单一物体的简单动作情况，比如“投掷某物”“翻倒某物”或“揭开某物”，需要模型同时关注时序运动和空间物体，这两者可从本实施例分离的T-ATTN和S-ATTN中获取；

②多个物体的简单动作情况，比如“把某物扔到某物上”“某物传播蔓延至某物”和“从某物上擦去某物”，这要求模型关注时序运动和多个空间物体，本实施例多注意力机制起到很大作用；

③而在一些复杂的情况下，属性难以判定的多个对象的多个动作，例如“显示某物是空的”“让某物沿斜面滚下”“把某物在平面上移动直到其落下”“把某物抛向空中，然后接住它”，人类识别难度也比较高，然而，由于本实施例多分组多注意力机制，MGMA模块可以学习高辨识度的时空表征，从而获得更好的识别效果。因此，这些动作类别的效果提升能够有力地表明，本实施例多注意力机制有助于模型去跟踪和识别多个且复杂的动作和对象。

6、实验总结

为了在视频理解尤其是行为识别中学习高辨识度的时空表征，本实施例提出了一种新颖、轻量且灵活有效的MGMA模块，旨在通过时空分离机制和多分组结构捕获多注意力特征。消融对比研究和综合实验同时表明，本实施例提出的MGMA方法在四个主流的数据集(UCF101和HMDB51，Something-Something V1和V2)上达到了先进方法的性能。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于视频时空表征学习的多分组多注意力建模方法，其特征在于，包括步骤：

S1.构建多分组多注意力模块；所述多分组多注意力模块包括多分组模块、多注意力模块和融合模块；所述多分组模块用于对视频通道进行排列后分组，所述多注意力模块用于将分组后各视频通道的输入X提取时序注意力特征权值和空间注意力特征权值，所述融合模块用于使用主网络对所述时序注意力特征权值和所述空间注意力特征权值进行融合，得到对应的视频时空特征；

2.如权利要求1所述的一种用于视频时空表征学习的多分组多注意力建模方法，其特征在于：所述多注意力模块包括时序注意力提取模块和空间注意力提取模块；

所述时序注意力提取模块和所述空间注意力提取模块均包括三维最大池化模块、插值模块、三维卷积模块、批归一化模块、特征权值生成模块，分别用于对输入X顺序执行三维最大池化操作、插值操作、三维卷积操作、批归一化操作、特征权值生成操作，最后得到输入X的时序注意力特征权值和空间注意力特征权值；

3.如权利要求2所述的一种用于视频时空表征学习的多分组多注意力建模方法，其特征在于：所述特征权值生成操作具体是采用Sigmoid函数进行处理。

4.如权利要求2所述的一种用于视频时空表征学习的多分组多注意力建模方法，其特征在于：所述融合模块包括主网络、第一加和模块、点乘模块和第二加和模块；

5.如权利要求4所述的一种用于视频时空表征学习的多分组多注意力建模方法，其特征在于：在所述步骤S2中，所述多分组多注意力模块嵌入在3D-CNN网络的至少一层残差学习层中。