CN113850182A - 基于DAMR_3DNet的动作识别方法 - Google Patents
基于DAMR_3DNet的动作识别方法 Download PDFInfo
- Publication number
- CN113850182A CN113850182A CN202111113825.0A CN202111113825A CN113850182A CN 113850182 A CN113850182 A CN 113850182A CN 202111113825 A CN202111113825 A CN 202111113825A CN 113850182 A CN113850182 A CN 113850182A
- Authority
- CN
- China
- Prior art keywords
- module
- feature map
- convolution
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 2
- 101100440640 Drosophila melanogaster conu gene Proteins 0.000 claims 1
- 230000008034 disappearance Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于DAMR_3DNet的动作识别方法。首先对每个动作类别进行预处理,读取动作视频,获取类别标签;其次对每个动作视频进行预处理,采用D‑3Dnet模块提取动作视频的低层时空特征,将3D卷积解耦为时间维度上的一维卷积和空间维度上的二维卷积;本发明设计的注意力机制模块,能够关注到对最终预测分类起到作用的通道特征信息和空间位置信息,提高模型分类的性能,最后融入的3D Residual Module不仅能够进一步提取高层时空特征,而且输出特征融合了高低层时空特征信息,从而使得网络能够充分的利用高低层特征信息,并且引入的残差结构能够有效的解决因为增加网络的层数而带来的梯度消失问题。
Description
技术领域
本发明属于基于深度学习的动作识别技术领域,具体涉及一种基于DAMR_3DNet(Decouping 3D-CNN+Attention-Mechnism Module+3DResidual Module)的动作识别方法。
背景技术
随着深度学习的技术不断发展以及动作识别应用场景不断增加,目前在动作识别领域,基于深度学习的动作识别技术逐渐称为一个关键领域。
动作识别技术是计算机视觉的一个重要的研究领域,在人机方面应用较为广泛,动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种,基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。
针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理,提取视频特征,对特征进行向量化,训练模型,预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响,无法充分提取手势特征,鲁棒性较差。
针对于深度学习的动作识别方法,在视频分类上,与2D图像比,增加了时序信息,因此深度学习的动作识别方法不仅可以学习空间序列信息,还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN,分别时使用空间流网络和时间流网络学习空间特征和时间特征,最后将两者融合,这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征,但是该方法存在参数过多,计算量较大等因素。
发明内容
针对于上述动作识别方法所得到的复杂特征难以提取、2DCNN无法捕捉动作视频帧间的时序信息以及计算量参数较大的问题,本发明提出一种基于DAMR_3DNet(Decouping3D-CNN+Attention-Mechnism Module+3DResidual Module)的视频动作识别方法。3DCNN网络结构虽能较好的捕捉视频信息的时空特征,但其存在网络参数量较大的问题。针对此问题提出了一种Decouping-3DNet网络模型,通过将3D卷积核拆分为在空间维度上的二维卷积以及在时间维度上的一维卷积,该方法能够有效的减少参数的计算量。此外,设计出一种Attention-Mechnism模型,该模型由通道注意力模块和空间注意力模块组成,通道注意力模块能够在卷积过程中关注哪些通道特征信息对视频动作分类起到重要作用,空间注意力模块关注图像中哪些位置的空间特征信息起到重要作用。并且最后融入了一个3DResidual Module模块,该模块不仅融合了包含注意力信息的低层特征,更进一步提取视频动作的高层时空特征,最后通过残差结构融合了视频动作的高低层时空特征,使得网络能够有效的利用高低层时空特征。
本发明的技术方案包括下列步骤:
步骤1)读取动作数据集UCF101中各类别的动作视频,并获取各个动作视频的类别标签,对每个动作视频进行预处理得到视频帧序列,将视频帧序列作为训练数据集,训练数据集包括训练集和测试集;
步骤2)构建DAMR_3Dnet模型:DAMR_3Dnet模型包括依次连接的D-3Dnet(Decouping-3DCNN)模块、注意力机制模块(Attention-Mechnism)和3DResidual模块;
2.1)将视频帧序列输入D-3Dnet(Decouping-3DCNN)模块中提取动作视频的低层时空特征信息;
2.2)D-3DNet提取的低层时空特征信息输入注意力机制模块中提取具有通道间信息以及空间信息的注意力特征图;
2.3)将步骤2.2)提取的注意力特征图作为3D Residual Module的输入进一步提取高层时空特征;
2.4)3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,最后通过SoftMax分类器进行动作分类,得到分类的结果;
步骤3)训练数据集输入步骤2)构建的DAMR_3Dnet模型进行训练;
步骤4)待分类的动作视频输入DAMR_3Dnet模型中进行动作分类识别,得到分类结果。
所述步骤1)中的预处理具体为:
1.1)通过openCv中的cv2.CAP_PROP_FRAME_COUNT方法依次获取每个动作视频的所有帧数;
1.2)采用稀疏采样的方法依次对每个类别的每个动作视频提取指定帧数的由视频帧组成的视频帧序列;本实验指定帧数为8帧;
1.3)对提取的视频帧序列中的每个视频帧进行尺寸归一化处理;本实验尺寸指定为(112,112,3)。
所述步骤2.1)具体为:
2.1.1)D-3Dnet模块的输入为视频帧序列,视频帧序列经第一卷积层后得到提取后的特征图;
2.1.2)将步骤2.1.1)卷积后提取的特征图输入第一最大池化层,对经过第一池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.3)将步骤2.1.2)融合后的特征图输入第二最大池化层,对经过第二池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.4)将步骤2.1.3)融合后的特征图输入第三最大池化层,对经过第三池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.5)将步骤2.1.4)融合后的特征图输入第四最大池化层,对经过第四池化层后的特征图使用3×3×3的卷积核进行卷积操作;
2.1.6)将步骤2.1.5)卷积得到的特征图输入第五最大池化层,得到降采样后的特征图为D-3DNet模块的输出特征。
所述解耦合卷积操作为将特征图分别经过3×3×1的空间维度卷积和1×1×3的时间维度卷积后得到空间特征和时间特征。
所述步骤2.2)具体为:
2.2.1)注意力机制模块以D-3Dnet模块的输出特征F作为输入,分别经过MaxPool3D操作以及AvgPool3D操作,得到两个包含通道描述信息的特征图Fc(max)和特征图Fc(avg),对两个特征图使用Add操作融合得到特征图Fc(Add);
2.2.2)将特征图Fc(Add)输入一个两层的神经网络中,两层的神经网络采用带有一个隐藏层的多层感知机(MLP),并且为了减少计算参数量,将隐藏层的神经元个数设置为C/r(C表示通道的数量,r表示缩减率),然后将多层感知机单元输出的特征经过sigmoid激活操作,生成通道注意力特征图(channel attention feature)Mc(F),从而得到通道注意力权重矩阵;
2.2.3)将通道注意力特征图Mc(F)和输入注意力机制模块的特征图F进行Multiply操作,通过乘法逐通道加权得到原始输入特征,最终得到具有通道注意力信息的输出特征图F′;
2.2.4)将步骤2.2.3)得到的通道注意力特征图F′输入3D卷积层,经过3D卷积操作后进一步提取含有注意力信息的时空特征F′(conv);
2.2.5)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后提取的特征图经过sigmoid操作生成注意力权重系数矩阵Ms(F′);
2.2.6)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后得到的特征图与步骤2.2.5)得到的注意力权重系数矩阵Ms(F′)相乘,生成注意力特征图F″;
2.2.7)将步骤2.2.6)得到的注意力特征图F″输入3D卷积层,并且引入一个残差连接,将经过3D卷积操作后输出的特征图与步骤2.2.4)提取的特征图F′(conv)做Add融合操作,得到注意力机制模块的输出特征图F(attention)。
所述步骤2.3)具体为:注意力机制模块的输出特征作为3D Residual Module的输入,3D Residual Module包含两个残差模块:
2.3.1)在第一残差模块中,将输入的特征图经过两层3D卷积层提取高层时空特征,并且将得到的高层时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出;
2.3.2)在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取高层时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。
所述步骤2.4)具体为:
3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,之后经过三个全连接层(fully connected layer),最后一层全连接层的神经元个数为动作类别的个数,具体采用SoftMax分类器进行动作分类,最后得到DAMR_3DNet模型的动作分类结果。
本发明的有益效果:
1)本发明提出利用D-3DNet(Decouping-3DCNN)网络提取低层时空特征,将3D卷积解耦为时间维度上的一维卷积核空间维度上的二维卷积,不仅降低了模型的参数计算量还有效的融合了时空特征信息;
2)本发明设计的Attention-Mechnism模块,能够捕捉对最终预测分类起到作用的特征信息和空间位置信息,从而使得网络关注重要的时空特征信息,提高了对模型分类的性能;
3)最后融入的3D Residual Module不仅能够进一步提取高层时空特征,而且最后的输出特征融合了高低层时空特征信息,从而使得网络能够充分的利用高底层特征信息。
附图说明
图1为本发明方法的技术方案流程图。
图2和图3为本发明方法采用的部分数据集。
图4为本发明D-3DNet(Decouping-3DCNN)网络结构图。
图5为本发明注意力机制模块Attention-mechnism的结构图。
图6为本发明的训练集准确率、验证集准确率曲线图。
图7为本发明的训练集损失率、验证集准确率曲线图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明主要针对于视频动作识别,由于本发明的识别对象为视频动作序列,所以挑选了UCF101共101类人与物体互动、人体动作、人与人互动、乐器演奏以及体育运动方面的视频进行识别。部分数据集如图2、3所示。
如图1所示,首先通过读取UCF101数据集中的各类别视频,获取类别标签;然后对每个视频进行预处理操作:采用稀疏采样的方法提取指定参数的视频帧,然后进行尺寸归一化处理;以连续的视频帧序列作为D-3DNet的输入提取视频的低层时空特征;设计出了一个注意力机制模块Attention-Mechnism,用于关注卷积过程中的某些通道信息和空间信息对网络的分类起到作用;最后加入3D Residual Module进一步提取视频动作的高层时空特征以及融合包含注意力信息的低层特征信息,将3D Residual Module的输出特征经过两个全连接层FC,最后通过SoftMax分类器进行动作分类,得到分类结果。
本发明具体步骤如下:
1)读取各类别视频,获取类别标签,然后对每个视频进行预处理操作,通过Opencv中的cv2.CAP_PROP_FRAME_COUNT方法获取到每个视频动作的帧数;之后采用稀疏采样的方式获取指定的视频帧;最后对提取的视频帧进行尺寸归一化处理;
2)如图4所示,将连续的视频帧作为D-3DNet的输入提取低层时空特征,如图4所示,D-3DNet卷积神经网络主要是以C3D为基线模型,将原始3×3×3卷积拆分为3×3×1的空间维度卷积和1×1×3的时间维度卷积,D-3DNet首先经过第一卷积层,初步提取时空特征,然后经过第一池化层,第一池化层的池化核设置为2×2×1,在时间维度上不进行池化操作,得到第一MFP(Maxpooling Feature Map),之后对第一MFP使用解耦合卷积,分别提取时空特征,然后使用keras的函数式API中的layers.Add()融合两个维度上的特征图;将融合后的特征图经过第二最大池化层,对池化后的第二MFP使用解耦合卷积,同样使用使用keras的函数式API中的layers.Add()融合两个维度上的特征图;将融合后的特征图经过第三最大池化层,对池化后的第三MFP使用解耦合卷积,同样使用使用keras的函数式API中的layers.Add()融合两个维度上的特征图;将融合后的特征图经过第四最大池化层,对第四MFP进行卷积操作,得到D-3DNet提取的低层时空特征,在D-3DNet网络中,所有的卷积层后加入激活层layers.Activation(‘relu’),激活函数采用relu激活函数。
3)如图5所示,以D-3DNet的输出特征F作为通道注意力模块输入,分别经过MaxPool3D操作以及AvgPool3D操作得到;对输出的特征图使用Add操作融合将融合的特征输入到包含两层的神经网络中,两层的神经网络采用带有一个隐藏层的多层感知机(MLP),第一层神经元的个数设置为channel(通道数)/ratio(减少率),激活函数为relu,第二层神经元个数设置为channel(通道数);然后将MLP输出的特征经过sigmoid激活操作,生成Channel Attention Feature通道注意特征图,将Channel Attention Feature通道注意特征图和输入特征图进行Multiply操作,得到通道注意力模块的输出特征图F′。将得到的通道注意力特征图F′经过3D卷积操作,进一步提取包含通道注意力信息的时空特征F′(conv)。然后对特征图F′(conv)分开做两次3D卷积,卷积核设置为1×1×1,并对其中一个3D卷积后的特征图使用sigmoid操作生成注意力权重系数Ms(F′)。注意力权重系数Ms(F′)与另外一个3D卷积的特征图进行相乘操作,通过乘法逐空间位置与特征图进行加权,生成注意力特征图F″。得到的注意力特征图F″经过3D卷积操作,并且引入一个残差连接,将输出特征图与特征图F′(conv)做一个Add融合操作,得到注意力机制模块的输出特征图F(attention)。
注意力机制模块通过以下公式得到输出特征:
Mc(F)=σ(MLP(MaxPool3D(F)+Avgpool3D(F))) (1)
F′(conv)=Conv3D(F′) (3)
Ms(F′)=σ(Conv3D(F′(conv))) (4)
F(attention)=F′(conv)+conv3D(F″) (6)
其中,F为Attention-mechnism模块的输入特征,Mc(F)为通道注意力权重矩阵,F′为通道注意力特征图,MaxPool3D()为3D最大池化操作,Avgpool3D()为3D平均池化操作,MLP是一个两层的神经网络,Conv3D()表示3D卷积操作,F′(conv)表示对F′进行一次3D卷积操作,Ms(F′为注意力权重矩阵,F″为注意力特征,F(attrention)为Attention-mechnism的输出特征;σ表示sigmoid激活函数,表示Multiply操作。
4)3D Residual Module以Attention-Mechnism的输出特征作为输入,该输入特征包含了低层注意力特征信息,3D Residual Module包含两个残差模块,
在第一残差模块中,将输入的特征图经过两层三维卷积层提取高层时空特征,第一卷积层包含128个卷积核,第二卷积层包括256个卷积核,并且将原始输入特征图进行恒等映射,与经过两层卷积的特征进行Add操作得到第一残差模块的输出。经过第一残差模块的输出特征不仅包含了高层时空特征信息,还融合了由D-3DNet+Attention-Mechnism两个模块提取的低层时空特征。残差计算公式如下:
H(x)=F(x)+G(x)
其中,H(x)为残差模块的输出函数;F(x)为残差映射函数;G(x)为恒等映射函数;x为残差模块的输入特征,在第二残差模块中,以第一残差模块的输出特征作为输入特征,输入特征图经过两层三维卷积层后进一步提取高层时空特征,第一卷积层包含128个卷积核,第二卷积层包括256个卷积核,将原始输入特征图进行恒等映射,并与经过两层三维卷积层的特征进行Add操作得到第二残差模块的输出特征。
5)3D Residual Module输出的特征图通过Flatten操作将多维特征图进行一维化,经过三个全连接层,第一全连接层(Fc-1)设计2048个神经单元节点,第二全连接层(Fc-2)设计为1024个神经单元节点,为了防止过拟合现象,在前两层全连接层后面添加Dropout层,dropout率设置为0.5、0.25,激活函数设置为relu,第三全连接层神经元个数为视频的动作类别数,采用SoftMax分类器进行分类,最后得到DRAM_3DNet网络动作分类结果。
Table 1本发明与其他模型的结果对比表
Method | Datasets | Acc% |
C3D | UCF101 | 85.2 |
Res3D | UCF101 | 85.8 |
Two-Stream | UCF101 | 88 |
IDT | UCF101 | 86.4 |
ResNet-50(RGB) | UCF101 | 89 |
ResNext-101(RGB) | UCF101 | 90.7 |
P3D | UCF101 | 88.6 |
Ours | UCF101 | 92.4 |
本发明提出利用D-3DNet(Decouping-3DCNN)网络提取低层时空特征,将3D卷积解耦为时间维度上的一维卷积核空间维度上的二维卷积,不仅降低了模型的参数计算量还有效的融合了时空特征信息;其次本发明设计的Attention Mechnism模块,能够捕捉对最终预测分类起到作用的特征信息和空间位置信息,从而使得网络关注重要的时空特征信息,提高了对模型分类的性能,并且该模型参数较少,计算量小,内存负担较小;最后融入的3DResidual Module不仅能够进一步提取高层时空特征,而且最后的输出特征融合了高低层时空特征信息,从而使得网络能够充分的利用高底层特征信息。在注意力模块以及残差模块中引入的残差结构能够有效解决梯度消失的问题。
上述具体技术流程用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (7)
1.一种基于DAMR_3DNet的动作识别方法,其特征在于,包括下列步骤:
步骤1)读取动作数据集中各类别的动作视频,并获取各个动作视频的类别标签,对每个动作视频进行预处理得到视频帧序列,将视频帧序列作为训练数据集,训练数据集包括训练集和测试集;
步骤2)构建DAMR_3Dnet模型:DAMR_3Dnet模型包括依次连接的D-3Dnet模块、注意力机制模块和3D Residual模块;
2.1)将视频帧序列输入D-3Dnet模块中提取动作视频的低层时空特征信息;
2.2)D-3DNet提取的低层时空特征信息输入注意力机制模块中提取具有通道间信息以及空间信息的注意力特征图;
2.3)将步骤2.2)提取的注意力特征图作为3D Residual Module的输入进一步提取高层时空特征;
2.4)3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,最后通过SoftMax分类器进行动作分类,得到分类的结果;
步骤3)训练数据集输入步骤2)构建的DAMR_3Dnet模型进行训练;
步骤4)待分类的动作视频输入DAMR_3Dnet模型中进行动作分类识别,得到分类结果。
2.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤1)中的预处理具体为:
1.1)通过openCv中的cv2.CAP_PROP_FRAME_COUNT方法依次获取每个动作视频的所有帧数;
1.2)采用稀疏采样的方法依次对每个类别的每个动作视频提取指定帧数的视频帧序列;
1.3)对提取的视频帧序列中的每个视频帧进行尺寸归一化处理。
3.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤2.1)具体为:
2.1.1)D-3Dnet模块的输入为视频帧序列,视频帧序列经第一卷积层后得到提取后的特征图;
2.1.2)将步骤2.1.1)卷积后提取的特征图输入第一最大池化层,对经过第一池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.3)将步骤2.1.2)融合后的特征图输入第二最大池化层,对经过第二池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.4)将步骤2.1.3)融合后的特征图输入第三最大池化层,对经过第三池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;
2.1.5)将步骤2.1.4)融合后的特征图输入第四最大池化层,对经过第四池化层后的特征图使用3×3×3的卷积核进行卷积操作;
2.1.6)将步骤2.1.5)卷积得到的特征图输入第五最大池化层,得到降采样后的特征图为D-3DNet模块的输出特征。
4.根据权利要求3所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述解耦合卷积操作为将特征图分别经过3×3×1的空间维度卷积和1×1×3的时间维度卷积后得到空间特征和时间特征。
5.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤2.2)具体为:
2.2.1)注意力机制模块以D-3Dnet模块的输出特征F作为输入,分别经过MaxPool3D操作以及AvgPool3D操作,得到两个包含通道描述信息的特征图Fc(max)和特征图Fc(avg),对两个特征图使用Add操作融合得到特征图Fc(Add);
2.2.2)将特征图Fc(Add)输入一个两层的神经网络中,两层的神经网络采用带有一个隐藏层的多层感知机然后将多层感知机单元输出的特征经过sigmoid激活操作,生成通道注意力特征图Mc(F),从而得到通道注意力权重矩阵;
2.2.3)将通道注意力特征图Mc(F)和输入注意力机制模块的特征图F进行Multiply操作得到具有通道注意力信息的输出特征图F′;
2.2.4)将步骤2.2.3)得到的通道注意力特征图F′输入3D卷积层,经过3D卷积操作后进一步提取含有注意力信息的时空特征F′(conv);
2.2.5)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后提取的特征图经过sigmoid操作生成注意力权重系数矩阵Ms(F′);
2.2.6)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后得到的特征图与步骤2.2.5)得到的注意力权重系数矩阵Ms(F′)相乘,生成注意力特征图F″;
2.2.7)将步骤2.2.6)得到的注意力特征图F″输入3D卷积层,并且引入一个残差连接,将经过3D卷积操作后输出的特征图与步骤2.2.4)提取的特征图F′(conu)做Add融合操作,得到注意力机制模块的输出特征图F(attention)。
6.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤2.3)具体为:注意力机制模块的输出特征作为3D Residual Module的输入,3D ResidualModule包含两个残差模块:
2.3.1)在第一残差模块中,将输入的特征图经过两层3D卷积层提取高层时空特征,并且将得到的高层时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出;
2.3.2)在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取高层时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。
7.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤2.4)具体为:
3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,之后经过三个全连接层,最后一层全连接层的神经元个数为动作类别的个数,具体采用SoftMax分类器进行动作分类,最后得到DAMR_3DNet模型的动作分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113825.0A CN113850182A (zh) | 2021-09-23 | 2021-09-23 | 基于DAMR_3DNet的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113825.0A CN113850182A (zh) | 2021-09-23 | 2021-09-23 | 基于DAMR_3DNet的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850182A true CN113850182A (zh) | 2021-12-28 |
Family
ID=78979347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111113825.0A Pending CN113850182A (zh) | 2021-09-23 | 2021-09-23 | 基于DAMR_3DNet的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850182A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639169A (zh) * | 2022-03-28 | 2022-06-17 | 合肥工业大学 | 基于注意力机制特征融合与位置无关的人体动作识别系统 |
CN114648722A (zh) * | 2022-04-07 | 2022-06-21 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232361A (zh) * | 2019-06-18 | 2019-09-13 | 中国科学院合肥物质科学研究院 | 基于三维残差稠密网络的人体行为意图识别方法与系统 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
-
2021
- 2021-09-23 CN CN202111113825.0A patent/CN113850182A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232361A (zh) * | 2019-06-18 | 2019-09-13 | 中国科学院合肥物质科学研究院 | 基于三维残差稠密网络的人体行为意图识别方法与系统 |
CN112149504A (zh) * | 2020-08-21 | 2020-12-29 | 浙江理工大学 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639169A (zh) * | 2022-03-28 | 2022-06-17 | 合肥工业大学 | 基于注意力机制特征融合与位置无关的人体动作识别系统 |
CN114639169B (zh) * | 2022-03-28 | 2024-02-20 | 合肥工业大学 | 基于注意力机制特征融合与位置无关的人体动作识别系统 |
CN114648722A (zh) * | 2022-04-07 | 2022-06-21 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
CN114648722B (zh) * | 2022-04-07 | 2023-07-18 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN112149504B (zh) | 混合卷积的残差网络与注意力结合的动作视频识别方法 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
Pan et al. | Deepfake detection through deep learning | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN111310676A (zh) | 基于CNN-LSTM和attention的视频动作识别方法 | |
CN112784801A (zh) | 基于文本和图片的双模态胃部疾病分类方法及装置 | |
CN112766158A (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN112926396A (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
Lai et al. | Real-time micro-expression recognition based on ResNet and atrous convolutions | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN110826462A (zh) | 一种非局部双流卷积神经网络模型的人体行为识别方法 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN115222998B (zh) | 一种图像分类方法 | |
Ming et al. | 3D-TDC: A 3D temporal dilation convolution framework for video action recognition | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN115984700A (zh) | 一种基于改进Transformer孪生网络的遥感图像变化检测方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
CN113343953B (zh) | 一种用于遥感场景识别的fgr-am方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |