CN117011943A

CN117011943A - 基于多尺度自注意力机制的解耦的3d网络的动作识别方法

Info

Publication number: CN117011943A
Application number: CN202311030327.9A
Authority: CN
Inventors: 田秋红; 缪伟伦; 李赛伟; 潘豪
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2023-11-07

Abstract

本发明公开了一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。方法包括：将带有动作类别标签的动作视频进行预处理后构成动作训练集；建立多尺度自注意力机制的解耦的3D网络，将动作训练集输入训练；采集待检测的动作视频并输入，输出待检测的动作视频的动作类别，完成动作识别。本发明方法能够关注到多尺度特征图上的全局时空特征，可以在空间和时间维度上实现更好的平衡，能够充分的利用特征信息，更全面地建模视频数据的时空特性，提高对视频数据的表达能力，提高对视频内容的理解和解释能力，提高了视频动作分类的性能。

Description

基于多尺度自注意力机制的解耦的3D网络的动作识别方法

技术领域

本发明涉及了一种动作识别方法，涉及深度学习的动作识别技术领域，具体涉及一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。

背景技术

随着深度学习的技术不断发展以及动作识别应用场景不断增加，目前在动作识别领域，基于深度学习的动作识别技术逐渐称为一个关键领域。

动作识别技术是计算机视觉的一个重要的研究领域，在人机方面应用较为广泛，动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种，基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。

针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理，提取视频特征，对特征进行向量化，训练模型，预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响，无法充分提取手势特征，鲁棒性较差。

针对于深度学习的动作识别方法，相比于二维图像，增加了时序信息，因此深度学习的动作识别方法不仅可以学习空间序列信息，还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN，分别时使用空间流网络和时间流网络学习空间特征和时间特征，最后将两者融合，这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征，但是该方法存在参数过多，计算量较大等因素。并且，传统的卷积网络对于长期依赖关系的建模能力相对有限，难以捕捉到视频序列中更长时间跨度的语义信息。

发明内容

为了解决背景技术中存在的问题，本发明所提供一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法(Decoupled 3D network using multi-scale selfattention mechanism，MSA_(2+1)DNet)。方法具体针对复杂特征难以有效提取、传统的三维卷积神经网络计算量参数较大，以及无法同时兼顾长期和短期的时空信息等问题。3DCNN网络结构虽能较好的捕捉视频信息的时空特征，但其存在网络参数量较大的问题。针对此问题采用(2+1)D网络模型，通过将3D卷积核拆分为在空间维度上的二维卷积以及在时间维度上的一维卷积，该方法能够有效的减少参数的计算量。此外，设计出一种Attention-Mechnism模型，该模型通过将动作视频分为相同大小的视频块，并且引入了时空编码使得视频块在原始视频中的位置信息以及时间信息得以保留，通过视频块与视频块之间自注意力计算得到动作视频的全局时空信息，并且该注意力机制适用于卷积产生的多种尺度的特征图。并且设计的(2+1)D Residual Module模块不仅融合了注意力机制得到的全局时空特征，更进一步提取视频动作的局部时空特征，使得网络能够有效的兼顾长期和短期时空特征。

本发明采用的技术方案是：

本发明的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，包括：

步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集，实际操作时按照预设比例划分为训练集和测试集。

步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet，将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练，获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet。

步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别，完成动作识别。

所述的步骤1)中，将带有动作类别标签的若干动作类别的动作视频进行预处理，针对每个带有动作类别标签的动作视频，将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列，然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理，最终将预处理后的各个动作视频构成动作训练集。

所述的步骤2)中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器；(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块，四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组，(2+1)D注意力模块组中的第一个模块为注意力机制模块。

(2+1)D stem模块的输入为视频帧序列，视频帧序列经第一卷积层后提取到低层有关空间信息的特征图，然后输入第二卷积层，对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关低层时空信息的特征图。

(2+1)D Residual模块包含两个残差模块：在第一残差模块中，将输入的特征图经过两层三维卷积层提取局部时空特征，并且将得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出，并将此融合特征进行下采样，使通道数提升以及降低特征图的高和宽；在第二残差模块中，以第一残差模块的输出作为输入，输入的特征图经过两层三维卷积层后进一步提取局部的时空特征，与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。

(2+1)D Residual Module提取的时空特征经过一个全局平均池化层进一步提取高层全局时空特征，再经Flatten操作将多维特征进行一维化，之后经过一个全连接层并且采用SoftMax分类器进行动作分类，最后得到MSA_(2+1)DNet模型的动作分类结果。

所述的注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作。

注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图，特征图经过时空编码生成操作后获得特征图的可学习参数，可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作，然后分别输入至第二线性全连接层MLP、第三线性全连接层MLP和第四线性全连接层MLP中进行处理，第二线性全连接层MLP和第三线性全连接层MLP处理的输出依次经第一矩阵乘法Multiply操作、指数函数softmax归一化操作和向量除法Divide操作后的输出再与第四线性全连接层MLP的输出共同经第二矩阵乘法Multiply操作，操作后的输出进行上采样操作，操作后再和注意力机制模块的输入共同经过第二向量相加Add操作后输出作为注意力机制模块的输出。

特征图经过时空编码生成操作后根据特征图F(patch_embedding)的形状生成相同形状的包含时空编码信息的可学习参数space_temporal_embedding，随后将其和特征图F(patch_embedding)进行Add操作得到包含时空位置编码的特征图F′。

所述的切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。

所述的上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。

本发明首先对每个动作类别进行预处理，读取动作视频，获取类别标签；其次对每个动作视频进行预处理，采用(2+1)D Stem模块对视频帧进行特征提取和下采样获得动作视频的时空特征；本发明设计的注意力机制模块，能够关注到多尺度特征图上的全局时空特征，随后融入的(2+1)D Residual模块不仅能够进一步提取局部时空特征，而且输出特征融合了全局时空特征信息，从而使得网络能够充分地在多阶段兼顾多尺度的全局和局部时空特征信息，而引入的残差结构能够有效的解决因为增加网络的层数而带来的梯度消失问题。

本发明的有益效果是：

1)本发明设计的Attention-Mechnism模块，能够捕捉网络在多阶段卷积产生的多尺度特征图上的全局时空特征，从而使得网络弥补了在每个阶段全局时空特征，提高了对模型分类的性能。

2)多尺度自注意力机制可以帮助网络在处理视频时对上下文进行建模。通过关注不同尺度上的特征，网络可以更好地理解视频中物体或动作的上下文信息，从而提高对视频内容的理解和解释能力。

3)使用的(2+1)D Residual Module不仅能够进一步提取局部时空特征，而且最后的输出特征融合了长期和短期时空特征信息，从而使得网络能够充分的利用特征信息。(2+1)D网络结合多尺度自注意力机制可以在空间和时间维度上实现更好的平衡。2D卷积操作捕捉图像的空间信息，而1D卷积操作捕捉帧与帧之间的时间关系。这种平衡使得网络能够更全面地建模视频数据的时空特性，提高对视频数据的表达能力。

附图说明

图1为本发明方法的技术方案流程图；

图2为本发明注意力机制模块Attention-mechnism的结构图；

图3为本发明的验证集准确率曲线图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

步骤1)中，将带有动作类别标签的若干动作类别的动作视频进行预处理，针对每个带有动作类别标签的动作视频，将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列，然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理，最终将预处理后的各个动作视频构成动作训练集。

步骤2)中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器；(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块，四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组，(2+1)D注意力模块组中的第一个模块为注意力机制模块。

注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作。

切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。

上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。

本发明的具体实施例如下：

本发明主要针对于视频动作识别，由于本发明的识别对象为视频动作序列，所以挑选了美国中佛罗里达大学发布的包含了101个不同的人类运动行为类别的视频片段数据集UCF101共101类人与物体互动、人体动作、人与人互动、乐器演奏以及体育运动方面的视频进行识别。动作类别包括射箭、骑自行车、跳水、理发、弹奏大提琴、划船、打字、书写等。

如图1所示，首先通过读取UCF101数据集中的各类别视频，获取类别标签；然后对每个视频进行预处理操作：采用稀疏采样的方法提取指定参数的视频帧，然后进行尺寸归一化处理；以连续的视频帧序列作为(2+1)D stem的输入对其进行低层时空的特征提取和下采样操作；设计出了一个注意力机制模块Attention-mechnism，用于关注卷积过程中产生的不同尺度的特征图的全局时空信息；设计的(2+1)D Residual Module进一步提取视频动作的局部时空特征，并将其融合注意力机制得到兼顾全局和局部信息的时空特征；经过多次下采样和4次注意力机制和(2+1)D Residual Module的时空特征融合，其输出特征经过一个全局池化层提取高层时空信息，再连接一个全连接层FC，最后通过SoftMax分类器进行动作分类，得到分类结果。

本发明的具体步骤如下：

1)读取各类别视频，获取类别标签，然后对每个视频进行预处理操作，获取到每个视频动作的帧数；之后采用稀疏采样的方式获取指定的视频帧；最后对提取的视频帧进行尺寸归一化处理。

2)(2+1)D stem模块的输入为视频帧序列，视频帧序列经第一卷积层后得到提取到下采样的有关空间信息的特征图，第一卷积层为3D卷积，卷积核为1×7×7，步频为(1,2,2)，后面接着一层3D批归一化BatchNorm3d函数和一层RELU激活函数；接着将此特征图输入第二卷积层，对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关时空信息的特征图，第二卷积层为3D卷积，步频为(1,1,1)，后面接着一层3D批归一化BatchNorm3d函数和一层RELU激活函数。

3)如图2所示，注意力机制模块以上一个模块得到特征图F作为输入，进行切割块patch_embedding操作得到包含以视频块为单位的时空信息特征图F(patch_embedding)，其中切割块patch_embedding操作按顺序依次包含一个三维卷积层、一个特征图形状重塑Rearrange操作和一个线性层，三维卷积层的输出通道数是输入通道数的一半，卷积核为1×1×1，特征图形状重塑Rearrange操作具体为使用python的库函数Rearrange将特征图的形状从时间维度和空间维度切割成一个一个小块，即将特征图由T×W×H变成t×h×w个时间长度为pt、高为ph、宽为pw的小块，T为特征图原来在时间维度上的长度、W为特征图原来在空间维度上的宽度、H为特征图原来在空间维度上的高度、c为通道数、pt为视频块的帧数、ph为视频块的高、pw为视频块的宽、t为时间维度上切割视频块的个数、h和w分别为空间维度上高宽切割视频块的个数，这里设置t为4、h为7、w为7，线性层输入为pt×ph×pw×c，输出的神经元个数设置为192；切割块patch_embedding操作得到的特征图F(patch_embedding)的形状生成相同形状的包含时空编码信息的可学习参数space_temporal_embedding，具体为，使用pytorch的库函数Parameter生成，其中切割的块的数量num_patches为t×h×w，维度dim为192；随后将其和特征图F(patch_embedding)进行向量加法操作Add操作得到包含时空位置编码的特征图F′；将特征图F′输入到三个线性层，分别得到查询矩阵M_q、键矩阵M_k和值矩阵M_v，三个线性层的输入的神经元个数为192，输出的神经元个数为512；将矩阵M_q和键矩阵M_k进行矩阵乘法得到的特征图再经过指数函数归一化softmax归一化操作，再与值矩阵M_v进行矩阵乘法得到包含全局信息的特征图，再将此特征图和缩放注意力权重的因子d_k进行除法操作得到特征图F″；将特征图F″进行上采样操作，使其变成形状和特征图F一致的特征图F(attention)，其中上采样操作按顺序依次包含一个线性层、一个特征图形状重塑Rearrange操作和一个三维卷积层，线性层输入的神经元个数为192，输出为pt×ph×pw×c，Rearrange操作具体为使用python的库函数Rearrange将特征图的形状从之前切成的多个小块重塑回最初时的形状，即时间维度和空间维度切割成的t×h×w个时间长度为pt、高为ph、宽为pw的小块，变成t×h×w个时间长度为先前的T×W×H的特征图，三维卷积层输出通道数是输入通道数的2倍，卷积核为1×1×1；将特征图F(attention)和特征图F进行Add操作得到输出特征图F″′。

注意力机制模块通过以下公式得到输出特征：

F(patch_embedding)＝MLP(Rerrange(Conv3D(F)))

F′＝F(patch_embedding)+space_temporal_embedding

M_q＝MLP(F′)

M_k＝MLP(F′)

M_v＝MLP(F′)

F(attention)＝Conv3D(Rerrange(MLP(F)))

F″′＝F(attention)+F

其中，F为Attention-mechnism模块的输入特征，F(patch_embedding)为视频特征图作为切割后的特征图，F′为加上了时空编码的特征图，M_q为查询矩阵，M_k为键矩阵，M_v为值矩阵，F″为做完自注意力的特征图，F(attention)为做完上采样后的特征图，F″′为融合特征图，Conv3D表示3D卷积操作，Rerrange表示矩阵切割操作，MLP代表一个线性层，Softmax代表softmax激活函数，×代表矩阵乘法。

4)在第一残差模块中，将注意力机制得到的特征图作为输入，经过两层三维卷积层提取局部时空特征，第一层三维卷积的卷积核为1×3×3，步频为(1,2,2)，后面跟着的是RELU激活函数，第二层三维卷积的卷积核为3×1×1，步频为(2,1,1)，并且将上述残差模块得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出；在第二残差模块中，以第一残差模块的输出作为输入，输入的特征图经过两层三维卷积层后进一步提取局部的时空特征，与第二残差模块输入的特征进行Add操作得到第二残差模块的输出，其中第一层三维卷积的卷积核为1×3×3，步频为(1,1,1)，后面跟着的是RELU激活函数，第二层三维卷积的卷积核为3×1×1，步频为(1,1,1)。

5)将注意力机制得到的全局时空特征和(2+1)D Residual Module提取的时空特征经过多次融合得到特征图作为输入，使用一个全局池化层操作进一步提取高层时空特征，再经Flatten操作将多维特征进行一维化，之后经过一个全连接层并且采用SoftMax分类器进行动作分类，最后得到MSA_(2+1)DNet模型的动作分类结果，如图3和表1所示。

表1本发明与其他模型的结果对比表

本发明设计的Attention-Mechnism模块，能够捕捉网络在多阶段卷积产生的多尺度特征图上的全局时空特征，从而使得网络弥补了在每个阶段全局时空特征，提高了对模型分类的性能；多尺度自注意力机制可以帮助网络在处理视频时对上下文进行建模。通过关注不同尺度上的特征，网络可以更好地理解视频中物体或动作的上下文信息，从而提高对视频内容的理解和解释能力。最后融入的(2+1)D Residual Module不仅能够进一步提取局部时空特征，而且最后的输出特征融合了长期和短期时空特征信息，从而使得网络能够充分的利用特征信息。解耦的3D网络结合多尺度自注意力机制可以在空间和时间维度上实现更好的平衡。2D卷积操作捕捉图像的空间信息，而1D卷积操作捕捉帧与帧之间的时间关系。这种平衡使得网络能够更全面地建模视频数据的时空特性，提高对视频数据的表达能力。

上述具体技术流程用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于，包括：

步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集；

步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet，将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练，获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet；

2.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的步骤1)中，将带有动作类别标签的若干动作类别的动作视频进行预处理，针对每个带有动作类别标签的动作视频，将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列，然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理，最终将预处理后的各个动作视频构成动作训练集。

3.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的步骤2)中，多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器；(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块，四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组，(2+1)D注意力模块组中的第一个模块为注意力机制模块。

4.根据权利要求3所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作；

5.根据权利要求4所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。

6.根据权利要求4所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法，其特征在于：所述的上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。