CN113850182A

CN113850182A - 基于DAMR_3DNet的动作识别方法

Info

Publication number: CN113850182A
Application number: CN202111113825.0A
Authority: CN
Inventors: 田秋红; 张元奎; 孙文轩; 章立早
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU; Zhejiang University of Science and Technology ZUST
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-28

Abstract

本发明公开了一种基于DAMR_3DNet的动作识别方法。首先对每个动作类别进行预处理，读取动作视频，获取类别标签；其次对每个动作视频进行预处理，采用D‑3Dnet模块提取动作视频的低层时空特征，将3D卷积解耦为时间维度上的一维卷积和空间维度上的二维卷积；本发明设计的注意力机制模块，能够关注到对最终预测分类起到作用的通道特征信息和空间位置信息，提高模型分类的性能，最后融入的3D Residual Module不仅能够进一步提取高层时空特征，而且输出特征融合了高低层时空特征信息，从而使得网络能够充分的利用高低层特征信息，并且引入的残差结构能够有效的解决因为增加网络的层数而带来的梯度消失问题。

Description

基于DAMR_3DNet的动作识别方法

技术领域

本发明属于基于深度学习的动作识别技术领域，具体涉及一种基于DAMR_3DNet(Decouping 3D-CNN+Attention-Mechnism Module+3DResidual Module)的动作识别方法。

背景技术

随着深度学习的技术不断发展以及动作识别应用场景不断增加，目前在动作识别领域，基于深度学习的动作识别技术逐渐称为一个关键领域。

动作识别技术是计算机视觉的一个重要的研究领域，在人机方面应用较为广泛，动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种，基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。

针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理，提取视频特征，对特征进行向量化，训练模型，预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响，无法充分提取手势特征，鲁棒性较差。

针对于深度学习的动作识别方法，在视频分类上，与2D图像比，增加了时序信息，因此深度学习的动作识别方法不仅可以学习空间序列信息，还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN，分别时使用空间流网络和时间流网络学习空间特征和时间特征，最后将两者融合，这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征，但是该方法存在参数过多，计算量较大等因素。

发明内容

针对于上述动作识别方法所得到的复杂特征难以提取、2DCNN无法捕捉动作视频帧间的时序信息以及计算量参数较大的问题，本发明提出一种基于DAMR_3DNet(Decouping3D-CNN+Attention-Mechnism Module+3DResidual Module)的视频动作识别方法。3DCNN网络结构虽能较好的捕捉视频信息的时空特征，但其存在网络参数量较大的问题。针对此问题提出了一种Decouping-3DNet网络模型，通过将3D卷积核拆分为在空间维度上的二维卷积以及在时间维度上的一维卷积，该方法能够有效的减少参数的计算量。此外，设计出一种Attention-Mechnism模型，该模型由通道注意力模块和空间注意力模块组成，通道注意力模块能够在卷积过程中关注哪些通道特征信息对视频动作分类起到重要作用，空间注意力模块关注图像中哪些位置的空间特征信息起到重要作用。并且最后融入了一个3DResidual Module模块，该模块不仅融合了包含注意力信息的低层特征，更进一步提取视频动作的高层时空特征，最后通过残差结构融合了视频动作的高低层时空特征，使得网络能够有效的利用高低层时空特征。

本发明的技术方案包括下列步骤：

步骤1)读取动作数据集UCF101中各类别的动作视频，并获取各个动作视频的类别标签，对每个动作视频进行预处理得到视频帧序列，将视频帧序列作为训练数据集，训练数据集包括训练集和测试集；

步骤2)构建DAMR_3Dnet模型：DAMR_3Dnet模型包括依次连接的D-3Dnet(Decouping-3DCNN)模块、注意力机制模块(Attention-Mechnism)和3DResidual模块；

2.1)将视频帧序列输入D-3Dnet(Decouping-3DCNN)模块中提取动作视频的低层时空特征信息；

2.2)D-3DNet提取的低层时空特征信息输入注意力机制模块中提取具有通道间信息以及空间信息的注意力特征图；

2.3)将步骤2.2)提取的注意力特征图作为3D Residual Module的输入进一步提取高层时空特征；

2.4)3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化，最后通过SoftMax分类器进行动作分类，得到分类的结果；

步骤3)训练数据集输入步骤2)构建的DAMR_3Dnet模型进行训练；

步骤4)待分类的动作视频输入DAMR_3Dnet模型中进行动作分类识别，得到分类结果。

所述步骤1)中的预处理具体为：

1.1)通过openCv中的cv2.CAP_PROP_FRAME_COUNT方法依次获取每个动作视频的所有帧数；

1.2)采用稀疏采样的方法依次对每个类别的每个动作视频提取指定帧数的由视频帧组成的视频帧序列；本实验指定帧数为8帧；

1.3)对提取的视频帧序列中的每个视频帧进行尺寸归一化处理；本实验尺寸指定为(112,112,3)。

所述步骤2.1)具体为：

2.1.1)D-3Dnet模块的输入为视频帧序列，视频帧序列经第一卷积层后得到提取后的特征图；

2.1.2)将步骤2.1.1)卷积后提取的特征图输入第一最大池化层，对经过第一池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征，通过Add操作融合空间特征和时间特征；

2.1.3)将步骤2.1.2)融合后的特征图输入第二最大池化层，对经过第二池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征，通过Add操作融合空间特征和时间特征；

2.1.4)将步骤2.1.3)融合后的特征图输入第三最大池化层，对经过第三池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征，通过Add操作融合空间特征和时间特征；

2.1.5)将步骤2.1.4)融合后的特征图输入第四最大池化层，对经过第四池化层后的特征图使用3×3×3的卷积核进行卷积操作；

2.1.6)将步骤2.1.5)卷积得到的特征图输入第五最大池化层，得到降采样后的特征图为D-3DNet模块的输出特征。

所述解耦合卷积操作为将特征图分别经过3×3×1的空间维度卷积和1×1×3的时间维度卷积后得到空间特征和时间特征。

所述步骤2.2)具体为：

2.2.1)注意力机制模块以D-3Dnet模块的输出特征F作为输入，分别经过MaxPool3D操作以及AvgPool3D操作，得到两个包含通道描述信息的特征图F_c(max)和特征图F_c(avg)，对两个特征图使用Add操作融合得到特征图F_c(Add)；

2.2.2)将特征图F_c(Add)输入一个两层的神经网络中，两层的神经网络采用带有一个隐藏层的多层感知机(MLP)，并且为了减少计算参数量，将隐藏层的神经元个数设置为C/r(C表示通道的数量，r表示缩减率)，然后将多层感知机单元输出的特征经过sigmoid激活操作，生成通道注意力特征图(channel attention feature)M_c(F)，从而得到通道注意力权重矩阵；

2.2.3)将通道注意力特征图M_c(F)和输入注意力机制模块的特征图F进行Multiply操作，通过乘法逐通道加权得到原始输入特征，最终得到具有通道注意力信息的输出特征图F′；

2.2.4)将步骤2.2.3)得到的通道注意力特征图F′输入3D卷积层，经过3D卷积操作后进一步提取含有注意力信息的时空特征F′(conv)；

2.2.5)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层，经过3D卷积操作后提取的特征图经过sigmoid操作生成注意力权重系数矩阵M_s(F′)；

2.2.6)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层，经过3D卷积操作后得到的特征图与步骤2.2.5)得到的注意力权重系数矩阵M_s(F′)相乘，生成注意力特征图F″；

2.2.7)将步骤2.2.6)得到的注意力特征图F″输入3D卷积层，并且引入一个残差连接，将经过3D卷积操作后输出的特征图与步骤2.2.4)提取的特征图F′(conv)做Add融合操作，得到注意力机制模块的输出特征图F(attention)。

所述步骤2.3)具体为：注意力机制模块的输出特征作为3D Residual Module的输入，3D Residual Module包含两个残差模块：

2.3.1)在第一残差模块中，将输入的特征图经过两层3D卷积层提取高层时空特征，并且将得到的高层时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出；

2.3.2)在第二残差模块中，以第一残差模块的输出作为输入，输入的特征图经过两层三维卷积层后进一步提取高层时空特征，与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。

所述步骤2.4)具体为：

3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化，之后经过三个全连接层(fully connected layer)，最后一层全连接层的神经元个数为动作类别的个数，具体采用SoftMax分类器进行动作分类，最后得到DAMR_3DNet模型的动作分类结果。

本发明的有益效果：

1)本发明提出利用D-3DNet(Decouping-3DCNN)网络提取低层时空特征，将3D卷积解耦为时间维度上的一维卷积核空间维度上的二维卷积，不仅降低了模型的参数计算量还有效的融合了时空特征信息；

2)本发明设计的Attention-Mechnism模块，能够捕捉对最终预测分类起到作用的特征信息和空间位置信息，从而使得网络关注重要的时空特征信息，提高了对模型分类的性能；

3)最后融入的3D Residual Module不仅能够进一步提取高层时空特征，而且最后的输出特征融合了高低层时空特征信息，从而使得网络能够充分的利用高底层特征信息。

附图说明

图1为本发明方法的技术方案流程图。

图2和图3为本发明方法采用的部分数据集。

图4为本发明D-3DNet(Decouping-3DCNN)网络结构图。

图5为本发明注意力机制模块Attention-mechnism的结构图。

图6为本发明的训练集准确率、验证集准确率曲线图。

图7为本发明的训练集损失率、验证集准确率曲线图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明主要针对于视频动作识别，由于本发明的识别对象为视频动作序列，所以挑选了UCF101共101类人与物体互动、人体动作、人与人互动、乐器演奏以及体育运动方面的视频进行识别。部分数据集如图2、3所示。

如图1所示，首先通过读取UCF101数据集中的各类别视频，获取类别标签；然后对每个视频进行预处理操作：采用稀疏采样的方法提取指定参数的视频帧，然后进行尺寸归一化处理；以连续的视频帧序列作为D-3DNet的输入提取视频的低层时空特征；设计出了一个注意力机制模块Attention-Mechnism，用于关注卷积过程中的某些通道信息和空间信息对网络的分类起到作用；最后加入3D Residual Module进一步提取视频动作的高层时空特征以及融合包含注意力信息的低层特征信息，将3D Residual Module的输出特征经过两个全连接层FC，最后通过SoftMax分类器进行动作分类，得到分类结果。

本发明具体步骤如下：

1)读取各类别视频，获取类别标签，然后对每个视频进行预处理操作，通过Opencv中的cv2.CAP_PROP_FRAME_COUNT方法获取到每个视频动作的帧数；之后采用稀疏采样的方式获取指定的视频帧；最后对提取的视频帧进行尺寸归一化处理；

2)如图4所示，将连续的视频帧作为D-3DNet的输入提取低层时空特征，如图4所示，D-3DNet卷积神经网络主要是以C3D为基线模型，将原始3×3×3卷积拆分为3×3×1的空间维度卷积和1×1×3的时间维度卷积，D-3DNet首先经过第一卷积层，初步提取时空特征，然后经过第一池化层，第一池化层的池化核设置为2×2×1，在时间维度上不进行池化操作，得到第一MFP(Maxpooling Feature Map)，之后对第一MFP使用解耦合卷积，分别提取时空特征，然后使用keras的函数式API中的layers.Add()融合两个维度上的特征图；将融合后的特征图经过第二最大池化层，对池化后的第二MFP使用解耦合卷积，同样使用使用keras的函数式API中的layers.Add()融合两个维度上的特征图；将融合后的特征图经过第三最大池化层，对池化后的第三MFP使用解耦合卷积，同样使用使用keras的函数式API中的layers.Add()融合两个维度上的特征图；将融合后的特征图经过第四最大池化层，对第四MFP进行卷积操作，得到D-3DNet提取的低层时空特征，在D-3DNet网络中，所有的卷积层后加入激活层layers.Activation(‘relu’)，激活函数采用relu激活函数。

3)如图5所示，以D-3DNet的输出特征F作为通道注意力模块输入，分别经过MaxPool3D操作以及AvgPool3D操作得到；对输出的特征图使用Add操作融合将融合的特征输入到包含两层的神经网络中，两层的神经网络采用带有一个隐藏层的多层感知机(MLP)，第一层神经元的个数设置为channel(通道数)/ratio(减少率)，激活函数为relu，第二层神经元个数设置为channel(通道数)；然后将MLP输出的特征经过sigmoid激活操作，生成Channel Attention Feature通道注意特征图，将Channel Attention Feature通道注意特征图和输入特征图进行Multiply操作，得到通道注意力模块的输出特征图F′。将得到的通道注意力特征图F′经过3D卷积操作，进一步提取包含通道注意力信息的时空特征F′(conv)。然后对特征图F′(conv)分开做两次3D卷积，卷积核设置为1×1×1，并对其中一个3D卷积后的特征图使用sigmoid操作生成注意力权重系数M_s(F′)。注意力权重系数M_s(F′)与另外一个3D卷积的特征图进行相乘操作，通过乘法逐空间位置与特征图进行加权，生成注意力特征图F″。得到的注意力特征图F″经过3D卷积操作，并且引入一个残差连接，将输出特征图与特征图F′(conv)做一个Add融合操作，得到注意力机制模块的输出特征图F(attention)。

注意力机制模块通过以下公式得到输出特征：

M_c(F)＝σ(MLP(MaxPool3D(F)+Avgpool3D(F))) (1)

F′(conv)＝Conv3D(F′) (3)

M_s(F′)＝σ(Conv3D(F′(conv))) (4)

F(attention)＝F′(conv)+conv3D(F″) (6)

其中，F为Attention-mechnism模块的输入特征，M_c(F)为通道注意力权重矩阵，F′为通道注意力特征图，MaxPool3D()为3D最大池化操作，Avgpool3D()为3D平均池化操作，MLP是一个两层的神经网络，Conv3D()表示3D卷积操作，F′(conv)表示对F′进行一次3D卷积操作，M_s(F′为注意力权重矩阵，F″为注意力特征，F(attrention)为Attention-mechnism的输出特征；σ表示sigmoid激活函数，

表示Multiply操作。

4)3D Residual Module以Attention-Mechnism的输出特征作为输入，该输入特征包含了低层注意力特征信息，3D Residual Module包含两个残差模块，

在第一残差模块中，将输入的特征图经过两层三维卷积层提取高层时空特征，第一卷积层包含128个卷积核，第二卷积层包括256个卷积核，并且将原始输入特征图进行恒等映射，与经过两层卷积的特征进行Add操作得到第一残差模块的输出。经过第一残差模块的输出特征不仅包含了高层时空特征信息，还融合了由D-3DNet+Attention-Mechnism两个模块提取的低层时空特征。残差计算公式如下：

H(x)＝F(x)+G(x)

其中，H(x)为残差模块的输出函数；F(x)为残差映射函数；G(x)为恒等映射函数；x为残差模块的输入特征，在第二残差模块中，以第一残差模块的输出特征作为输入特征，输入特征图经过两层三维卷积层后进一步提取高层时空特征，第一卷积层包含128个卷积核，第二卷积层包括256个卷积核，将原始输入特征图进行恒等映射，并与经过两层三维卷积层的特征进行Add操作得到第二残差模块的输出特征。

5)3D Residual Module输出的特征图通过Flatten操作将多维特征图进行一维化，经过三个全连接层，第一全连接层(Fc-1)设计2048个神经单元节点，第二全连接层(Fc-2)设计为1024个神经单元节点，为了防止过拟合现象，在前两层全连接层后面添加Dropout层，dropout率设置为0.5、0.25，激活函数设置为relu，第三全连接层神经元个数为视频的动作类别数，采用SoftMax分类器进行分类，最后得到DRAM_3DNet网络动作分类结果。

Table 1本发明与其他模型的结果对比表

Method	Datasets	Acc％
			C3D	UCF101	85.2
Res3D	UCF101	85.8
			Two-Stream	UCF101	88
IDT	UCF101	86.4
			ResNet-50(RGB)	UCF101	89
ResNext-101(RGB)	UCF101	90.7
			P3D	UCF101	88.6
Ours	UCF101	92.4

本发明提出利用D-3DNet(Decouping-3DCNN)网络提取低层时空特征，将3D卷积解耦为时间维度上的一维卷积核空间维度上的二维卷积，不仅降低了模型的参数计算量还有效的融合了时空特征信息；其次本发明设计的Attention Mechnism模块，能够捕捉对最终预测分类起到作用的特征信息和空间位置信息，从而使得网络关注重要的时空特征信息，提高了对模型分类的性能，并且该模型参数较少，计算量小，内存负担较小；最后融入的3DResidual Module不仅能够进一步提取高层时空特征，而且最后的输出特征融合了高低层时空特征信息，从而使得网络能够充分的利用高底层特征信息。在注意力模块以及残差模块中引入的残差结构能够有效解决梯度消失的问题。

上述具体技术流程用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于DAMR_3DNet的动作识别方法，其特征在于，包括下列步骤：

步骤1)读取动作数据集中各类别的动作视频，并获取各个动作视频的类别标签，对每个动作视频进行预处理得到视频帧序列，将视频帧序列作为训练数据集，训练数据集包括训练集和测试集；

步骤2)构建DAMR_3Dnet模型：DAMR_3Dnet模型包括依次连接的D-3Dnet模块、注意力机制模块和3D Residual模块；

2.1)将视频帧序列输入D-3Dnet模块中提取动作视频的低层时空特征信息；

步骤3)训练数据集输入步骤2)构建的DAMR_3Dnet模型进行训练；

2.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述步骤1)中的预处理具体为：

1.2)采用稀疏采样的方法依次对每个类别的每个动作视频提取指定帧数的视频帧序列；

1.3)对提取的视频帧序列中的每个视频帧进行尺寸归一化处理。

3.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述步骤2.1)具体为：

4.根据权利要求3所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述解耦合卷积操作为将特征图分别经过3×3×1的空间维度卷积和1×1×3的时间维度卷积后得到空间特征和时间特征。

5.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述步骤2.2)具体为：

2.2.2)将特征图F_c(Add)输入一个两层的神经网络中，两层的神经网络采用带有一个隐藏层的多层感知机然后将多层感知机单元输出的特征经过sigmoid激活操作，生成通道注意力特征图M_c(F)，从而得到通道注意力权重矩阵；

2.2.3)将通道注意力特征图M_c(F)和输入注意力机制模块的特征图F进行Multiply操作得到具有通道注意力信息的输出特征图F′；

2.2.7)将步骤2.2.6)得到的注意力特征图F″输入3D卷积层，并且引入一个残差连接，将经过3D卷积操作后输出的特征图与步骤2.2.4)提取的特征图F′(conu)做Add融合操作，得到注意力机制模块的输出特征图F(attention)。

6.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述步骤2.3)具体为：注意力机制模块的输出特征作为3D Residual Module的输入，3D ResidualModule包含两个残差模块：

7.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法，其特征在于：所述步骤2.4)具体为：

3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化，之后经过三个全连接层，最后一层全连接层的神经元个数为动作类别的个数，具体采用SoftMax分类器进行动作分类，最后得到DAMR_3DNet模型的动作分类结果。