CN110458085B

CN110458085B - 基于注意力增强三维时空表征学习的视频行为识别方法

Info

Publication number: CN110458085B
Application number: CN201910721902.7A
Authority: CN
Inventors: 石珍生; 郑海永
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2022-02-08
Anticipated expiration: 2039-08-06
Also published as: CN110458085A

Abstract

本发明公开了一种基于注意力增强三维时空表征学习的视频行为识别方法，设计了时空注意力增强残差学习模块，其采用双分支残差学习结构，包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支，且两个分支的输出集成在一起，由此产生时空注意力增强功能，提升了识别精度，另外，将时空注意力增强残差学习模块嵌入到主网络中，使时空注意力增强残差学习模块的主干分支复用主网络的基本网络单元从而形成整体的网络模型，在保证识别精度的前提下，网络结构简单、轻量且灵活。

Description

基于注意力增强三维时空表征学习的视频行为识别方法

技术领域

本发明涉及计算机视觉技术、视频理解技术领域，更具体地说，涉及一种基于注意力增强三维时空表征学习的视频行为识别方法。

背景技术

作为计算机视觉中的传统问题，图像识别被应用于执行大量基于机器的视觉任务，例如用标签标记图像内容，图像内容搜索和引导机器人，自动驾驶汽车和事故避免系统。深层卷积网络和大规模数据集使得这个领域有了一系列的突破。

AlexNet是第一个在深层卷积网络中被广泛应用的网络，和LeNet有一些类似。与传统方法相比，它利用了群组卷积并显著提高了性能。紧接着，VGG模型通过运用很小的3×3卷积块来加深了CNN网络的层数，并且表明了在网络深度达到16层和19层的时候有明显的提升。Inception模型则是很成功的多分支结构，每一条分支上都经过精心设计。DenseNet以前馈方式将每一层连接到每一层，这样任何两层都可以直接相互“沟通”。近几年来，通过使用帧级别的CNN模型，我们可以获得显着的行为识别性能提升。比如Karpathy他们团队的工作，是第一次提出使用卷积神经网络来做行为识别工作。紧接着，双流模型和3D-CNN的提出使得这两个框架成为了这项任务的两条主流。通常双流模型使用RGB视频数据和视频特征(比如像光流)来完善表示和分类任务。C3D使用一个三维卷积去学习时空特征，但是大量的参数导致了计算资源的损耗，因此亟需提供一种在保证识别精度的前提下，简单、且能节约计算资源的图像行为识别方法。近期3D-CNN方法比如I3D(Inflated-3D)使用的是对应二维网络扩展到三维的方法来学习时空特征，并且展示出了有效的结果提升以及计算资源的节省

发明内容

为解决上述技术问题，本发明提供一种基于注意力增强三维时空表征学习的视频行为识别方法。

为实现上述目的，本发明所采用的具体技术方案如下：

一种基于注意力增强三维时空表征学习的视频行为识别方法，包括如下步骤：

S1：建立主网络和时空注意力增强残差学习模块，所述时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支；

所述注意力掩膜分支包括相串联的注意力单元和归一化单元，所述主干分支包括至少一个基本网络单元，所述注意力掩膜分支通过注意力单元来提取注意力特征，并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)＝(1+M(X))*T(X)与所述主干分支联合在一起，从而输出注意力增强的时空特征；其中，H(X)表示注意力增强的时空特征，M(X)表示所述归一化单元输出的信息，T(X)表示所述主干分支输出的信息；

S2：将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中，使主干分支中的基本网络单元与所述主网络的基本网络单元复用从而形成总体的网络模型；

S3：用训练集训练所述网络模型，优化参数得到注意力增强的识别网络；

S4：将测试集输入到所述识别网络中进行视频行为识别。

进一步地，所述主网络为ResNet-50，所述基本网络单元为残差单元。

进一步地，每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成，所述ResNet-50的第2～4层卷积层中依次具有3、4、6个残差单元，所述步骤S2包括：

在ResNet-50的第2～4层卷积层中依次嵌入6个时空注意力增强残差学习模块，相邻的两个时空注意力增强残差学习模块之间通过一个残差单元连接，且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。

进一步地，所述注意力掩膜分支仅由依次串联的注意力单元和归一化单元构成；

所述注意力掩膜分支由依次串联的注意力单元、残差单元以及归一化单元构成。

进一步地，每一所述时空注意力增强残差学习模块的主干分支由两个残差单元构成，所述ResNet-50的第2～4层卷积层中依次具有3、4、6个残差单元，所述步骤S2包括：

在ResNet-50的第2～4层卷积层中依次嵌入4个时空注意力增强残差学习模块，第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元和倒数第二个残差单元中，第二个双时空注意力增强残差学习模块嵌入到ResNet-50第3个卷积层的最后一个残差单元和倒数第二个残差单元中，第三个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的第2个残差单元和第3个残差单元中，第四个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的最后一个残差单元和倒数第二个残差单元中。

进一步地，所述注意力掩膜分支包括以下结构中的至少一种：

所述注意力掩膜分支仅由依次串联的注意力单元和归一化单元构成；

所述注意力掩膜分支由依次串联的注意力单元、残差单元以及归一化单元构成；

所述注意力掩膜分支由依次串联的残差单元、注意力单元、残差单元以及归一化单元构成。

进一步地，所述训练集和所述测试集中的数据为单RGB视频数据。

进一步地，所述注意力单元通过三维池化操作以及三维插值操作来提取注意力特征。

本发明提供的基于注意力增强三维时空表征学习的视频行为识别方法，设计了时空注意力增强残差学习模块，其采用双分支残差学习结构，包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行时空注意力特征学习的注意力掩膜分支，且两个分支的输出集成在一起，由此产生时空注意力增强功能，提升了识别精度，另外，将时空注意力增强残差学习模块嵌入到主网络中，使模块的主干分支复用主网络的基本网络单元从而形成整体的网络模型，在保证识别精度的前提下，网络结构简单、轻量且灵活。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例提供的基于注意力增强三维时空表征学习机制的行为识别方法的流程示意图；

图2为本发明实施例提供的时空注意力增强残差学习模块的结构示意图；

图3为本实施例提供的第一种网络模型N1的模型示意图；

图4为本实施例提供的第二种网络模型N2的模型示意图；

图5-1为本实施例提供的时空注意力增强残差学习模块M1的结构示意图；

图5-2为本实施例提供的时空注意力增强残差学习模块M2的结构示意图；

图5-3为本实施例提供的时空注意力增强残差学习模块M3的结构示意图；

图5-4为本实施例提供的时空注意力增强残差学习模块M4的结构示意图；

图5-5为本实施例提供的时空注意力增强残差学习模块M5的结构示意图；

图6为本实施例提供的模型提取到的三维时空特征的可视化示意图。

具体实施方式

为了使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例提供一种基于注意力增强三维时空表征学习的视频行为识别方法，请参见图1所示，包括如下步骤：

S1：建立主网络和时空注意力增强残差学习模块，时空注意力增强残差学习模块包括用于对输入数据进行特征处理的主干分支和用于基于该输入数据进行注意力特征学习的注意力掩膜分支。

本实施例所提供的时空注意力增强残差学习模块的结构可以参见图2所示，其中，注意力掩膜分支包括相串联的注意力单元和归一化单元，主干分支包括至少一个基本网络单元，注意力掩膜分支通过注意力单元来提取注意力特征，并在通过归一化单元生成三维时空范围内注意力特征的概率分布信息后通过函数H(X)＝(1+M(X))*T(X)与主干分支联合在一起，从而输出注意力增强的时空特征；其中，H(X)表示注意力增强的时空特征，M(X)表示注意力掩膜分支的输出信息，也即是归一化单元输出的信息，T(X)表示主干分支输出的信息。

当主干分支输出T(X)的对应的输入为X时，注意力掩膜分支M(X)学习到的注意力特征和主干的维度是一样的。使用点乘操作来获得的权重输出G(X)公式如下：

G_c,t,h,w(X)＝M_c,t,h,w(X)*T_c,t,h,w(X)；

这里c表示的是通道数的标号，t代表的是视频帧的时序信息，h和w代表的是视频帧的高和宽。通过采用这种软注意机制，注意掩模不仅可以在前向处理期间用作特征选择器，而且可以在反向传播期间用作梯度更新算子。掩模的梯度公式表示为：

这里λ表示的是主干网络的参数并且γ表示的是掩膜分支的参数。接着使用和函数来将两个分支联合在一起。时空注意力增强残差学习模块的输出H(X)表示的是注意力增强的时空特征，从而可以表示为：

H_c,t,h,w(X)＝(1+M_c,t,h,w(X))*T_c,t,h,w(X)。

需要说明的是，本实施例中的注意力单元首先通过三维池化操作以增加感受野，然后执行三维插值操作以保持输出大小与输入大小相同，从而提取出注意力特征。

S2：将时空注意力增强残差学习模块嵌入到所述主网络的网络卷积层中，使主干分支中的基本网络单元与主网络的基本网络单元复用从而形成总体的网络模型。

以下将步骤S2中形成的总体网络模型称为AE-I3D网络。

S3：用训练集训练网络模型，优化参数得到注意力增强的识别网络。

S4：将测试集输入到识别网络中进行视频行为识别。

优选的，本实施例中的主网络为ResNet-50，ResNet-50的基本网络单元为残差单元，此时时空注意力增强残差学习模块中主干分支中的基本网络单元也应当为残差单元。应当说明的是，在其他的实施例中还可以采用其他的网络作为主网络。ResNet-50包含五个卷积层，第2到5层(Res₂到Res₅)分别由3、4、6、3个残差单元构成残差层。步骤S2中可以通过在ResNet-50的卷积层中嵌入AE-Res模块(也即时空注意力增强残差学习模块)来建立AE-I3D网络，并且AE-Res模块的主干分支复用的是ResNet-50的基本单元。

本实施例中可以基于以下原则在ResNet-50的卷积层中嵌入AE-Res模块：Res₅层不插入AE-Res模块，因为Res₅层的特征维度太小(4×7×7)，三维时空特征信息少，AE-Res模块在该层上的操作会退化高层特征并导致性能下降；

AE-Res模块的掩膜分支在相同输入输出通道数上执行操作，因此不使用ResNet-50每个卷积层中的第一个残差单元，因为其增加了通道数；

AE-I3D网络需要确保在传输到下一个残差层之前增强了特征映射，因此将AE-Res模块嵌入到残差层的最后一个残差单元中，以便为每个残差层提供完整的增强；

考虑到模型的复杂性和计算，不完全采用残差层的所有单元(第一块除外)。选取固定间隔的残差单元以嵌入AE-Res模块；

只使用一个或两个残差单元将AE-Res模块嵌入到网络中，因为它是嵌入多个AE-Res模块的灵活而有效的方法。主干分支的中残差单元的增多，会增加AE-Res模块的卷积层数，同时较大地改变了初始特征，这降低特征增强的有效性。

基于上述原则，本实施例提供两种网络模型：

第一种网络模型(N1)：

请参见图3所示，每一时空注意力增强残差学习模块的主干分支由一个残差单元构成，步骤S2包括：在ResNet-50的第2～4层卷积层中依次嵌入6个时空注意力增强残差学习模块，相邻的两个时空注意力增强残差学习模块之间通过一个残差单元连接，且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。

第二种网络模型(N2)：

请参见图4所示，每一时空注意力增强残差学习模块的主干分支由两个残差单元构成，步骤S2包括：在ResNet-50的第2～4层卷积层中依次嵌入4个时空注意力增强残差学习模块，第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元和倒数第二个残差单元中，第二个时空注意力增强残差学习模块嵌入到ResNet-50第3个卷积层的最后一个残差单元和倒数第二个残差单元中，第三个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的第2个残差单元和第3个残差单元中，第四个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的最后一个残差单元和倒数第二个残差单元中。图3以及图4中的Res_{i_j}表示第i层卷积层中的第j个残差单元，每一AE-Res模块中的Mask表示相应AE-Res模块中的注意力掩膜分支。

本实施例中可以基于以下原则建立AE-Res模块：

主干分支中有一个或两个残差单元，分别嵌入到上述的第一种网络模型或第二种网络模型这两种结构中；

除了注意力单元和归一化单元之外，向掩膜分支添加零到两个残差单元，用于研究残差单元的有效性；

在注意力单元之后添加残差单元，对提取的注意力特征执行残差学习；不会使掩膜分支的卷积层比主干更深，因此掩膜分支的残差单元的数量不会超过主干分支的残差单元的数量。

基于上述原则，本实施例提供五种时空注意力增强残差学习模块(M1-M5)，具体的请参见图5-1，图5-2，图5-3，图5-4以及图5-5，这五个图中虚线框中的结构即为时空注意力增强残差学习模块。图5-1中的时空注意力增强残差学习模块M1的主干分支中具有一个残差单元(也即Res),其注意力掩膜分支由依次串联的注意力单元(也即ATTN)以及归一化单元(也即Softmax)构成，图5-2中的时空注意力增强残差学习模块M2的主干分支中具有两个Res,其注意力掩膜分支由依次串联的ATTN以及Softmax构成，图5-3中的时空注意力增强残差学习模块M3的主干分支中具有一个Res,其注意力掩膜分支由依次串联的ATTN、Res以及Softmax构成，图5-4中的时空注意力增强残差学习模块M4的主干分支中具有两个Res,其注意力掩膜分支由依次串联的ATTN、Res以及Softmax构成，图5-5中的时空注意力增强残差学习模块M5的主干分支中具有两个Res,其注意力掩膜分支由依次串联的Res、ATTN、Res以及Softmax构成。

优选的，本实施例中训练集和测试集中的数据为单RGB视频数据，当然了，在其他的实施例中还可以包括音频信号、光流数据等等。

表1

表1为主网络的模型，该模型使用32帧视频帧作为输入。本实施例选取ResNet-50作为基础的主网络，并且将二维卷积核膨胀至三维。对于ResNet-50中的三层Bottleneck块，三层对应卷积核分别为3×1×1，1×3×3和1×1×1。

为了验证本实施例提供的基于注意力增强三维时空表征学习机制的行为识别方法的有效性，本实施例在UCF101、HMDB51以及Kinetics这三个经典数据集上执行本实施例提供的方法。

UCF101数据集是从电视节目和互联网特别是YouTube收集的，它包含13320个视频，分为101个动作类别。HMDB51数据集是从电影，一些公共数据库和YouTube等在线视频库中收集的，它包含6766个视频，分为51个动作类别。Kinetics数据集是从YouTube收集的，它包含400个动作类，包含大约24.6万个训练集视频和2万个验证集视频。对于UCF101和HMDB51，使用top-1分类准确度作为评估度量标准，对于Kinetics，测量top-1和top-5分类准确度的结果。

首先使用Kinetics数据集来执行初始化实验。将ImageNet预训练的二维ResNet-50模型扩展到其对应I3D的结构，然后在Kinetics数据集上调优模型。在使用Kinetics进行初始化实验后，使用生成的ImageNet+Kinetics预训练模型在UCF101和HMDB51上执行实验(使用“split1”文件)。从每个视频中按步长2采样32帧作为输入。输入帧缩放到[256,320]的尺寸，每帧随机裁剪窗口大小224×224。使用4路NVIDIAGTX 1080Ti GPU对模型进行训练和评估，并在训练过程中将批量大小设置为32。该网络采用SGD训练，动量为0.9，权重衰减为0.0001。训练过程总共持续40个epochs，初始学习率为0.001，并在到达20和30epoch将其降为0.1倍。使用PyTorch框架(版本1.0)来实现所有实验。手动设置随机种子并启用DeterministicCuDNN算法，以重现训练和评估过程。测试和模型评估，按照通常的做法，对每个视频中均匀采样的10个片段进行采样。对于空间域裁剪，从每个片段中裁剪6个区域(两侧和框架的中心加上翻转)。还通过将每个视频帧的短边缩放到256来执行空间全卷积推理。通过对所有60个输入片段的预测分值求平均来计算最终的分值。

通过进行消融研究来研究提出的AE-I3D架构以及AE-Res结构的性能。所有消融研究实验都使用相同的实验设置和超参数。

将实验模型表示为

并研究不同的AE-I3D模型中a和b的作用。

表2

表2展示了不同的AE-I3D模型与基准模型在UCF101和HMDB51上识别结果对比，其中基准模型参数量(parameters)为27.4M，每秒浮点运算次数(FLOPs)为33.1B，由此可得出如下结论:

所有五个AE-I3D模型都比基准备模型效果好，表明本实施例提出的方法是有效的；并且较基线模型相比，参数和运算量涨幅小，表明AE-I3D模型是轻量级的。

对于掩膜分支，添加的“Res”块是有效的，并且随着数量的增加表现更好。具体来说，对于网络N1，

的效果优于

对于网络N2，

表现最佳，因为它包含最多的“Res”块。我们不在掩膜分支中研究更多的“Res”块(超过2个)，以保证卷积数不超过主干分支。

对于主干分支，使用较少的“Res”块意味着嵌入更多的AE-Res模块，结果表明它随着AE-Res模块数量的增加而表现更好。也就是说，带有6个AE-Res模块的

表现最佳，即使与

(最复杂的模型，带有4个AE-Res模块)相比也是如此。

本实施例还提供了

的Res₂层提取的三维时空特征的可视化，具体的请参见图6所示，它表明AE-Res模块能够提取到注意力增强的三维时空表征，从而益于对行为识别进行研究。光亮处体现的时空注意区域包含背景，场景，人体姿势或交互式物体，这些对于识别人类行为是非常重要的。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，包括如下步骤：

S4：将测试集输入到所述识别网络中进行视频行为识别；

所述主网络为ResNet-50，所述基本网络单元为残差单元，残差单元设有三层Bottleneck块，且三层Bottleneck块对应卷积核大小分别为3×1×1，1×3×3和1×1×1；

当主干分支输出T(X)的对应的输入为X时，注意力掩膜分支M(X)学习到的注意力特征和主干的维度是一样的；使用点乘操作来获得的权重输出G(X)公式如下：

G_c,t,h,w(X)＝M_c,t,h,w(X)*T_c,t,h,w(X)；

这里c表示的是通道数的标号，t代表的是视频帧的时序信息，h和w代表的是视频帧的高和宽；

时空注意力增强残差学习模块的输出H(X)表示的是注意力增强的时空特征，从而表示为：H_c,t,h,w(X)＝(1+M_c,t,h,w(X))*T_c,t,h,w(X)。

2.如权利要求1所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，每一所述时空注意力增强残差学习模块的主干分支由一个残差单元构成，所述ResNet-50的第2～4层卷积层中依次具有3、4、6个残差单元，所述步骤S2包括：

在ResNet-50的第2～4层卷积层中依次嵌入6个时空注意力增强残差学习模块，相邻的两个双分支时空注意力增强残差学习模块之间通过一个残差单元连接，且第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元中。

3.如权利要求2所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，所述注意力掩膜分支包括以下结构中的至少一种：

4.如权利要求1所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，每一所述时空注意力增强残差学习模块的主干分支由两个残差单元构成，所述ResNet-50的第2～4层卷积层中依次具有3、4、6个残差单元，所述步骤S2包括：

在ResNet-50的第2～4层卷积层中依次嵌入4个时空注意力增强残差学习模块，第一个时空注意力增强残差学习模块嵌入到ResNet-50第2个卷积层的最后一个残差单元和倒数第二个残差单元中，第二个时空注意力增强残差学习模块嵌入到ResNet-50第3个卷积层的最后一个残差单元和倒数第二个残差单元中，第三个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的第2个残差单元和第3个残差单元中，第四个时空注意力增强残差学习模块嵌入到ResNet-50第4个卷积层的最后一个残差单元和倒数第二个残差单元中。

5.如权利要求4所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，所述注意力掩膜分支包括以下结构中的至少一种：

6.如权利要求1-5任一项所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，所述训练集和所述测试集中的数据为单RGB视频数据。

7.如权利要求1-5任一项所述的基于注意力增强三维时空表征学习的视频行为识别方法，其特征在于，所述注意力单元通过三维池化操作以及三维插值操作来提取注意力特征。