CN117011943A - 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 - Google Patents
基于多尺度自注意力机制的解耦的3d网络的动作识别方法 Download PDFInfo
- Publication number
- CN117011943A CN117011943A CN202311030327.9A CN202311030327A CN117011943A CN 117011943 A CN117011943 A CN 117011943A CN 202311030327 A CN202311030327 A CN 202311030327A CN 117011943 A CN117011943 A CN 117011943A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- action
- decoupled
- video
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 73
- 230000007246 mechanism Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 25
- 239000012633 leachable Substances 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 238000005520 cutting process Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000002779 inactivation Effects 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 15
- 239000000284 extract Substances 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。方法包括:将带有动作类别标签的动作视频进行预处理后构成动作训练集;建立多尺度自注意力机制的解耦的3D网络,将动作训练集输入训练;采集待检测的动作视频并输入,输出待检测的动作视频的动作类别,完成动作识别。本发明方法能够关注到多尺度特征图上的全局时空特征,可以在空间和时间维度上实现更好的平衡,能够充分的利用特征信息,更全面地建模视频数据的时空特性,提高对视频数据的表达能力,提高对视频内容的理解和解释能力,提高了视频动作分类的性能。
Description
技术领域
本发明涉及了一种动作识别方法,涉及深度学习的动作识别技术领域,具体涉及一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法。
背景技术
随着深度学习的技术不断发展以及动作识别应用场景不断增加,目前在动作识别领域,基于深度学习的动作识别技术逐渐称为一个关键领域。
动作识别技术是计算机视觉的一个重要的研究领域,在人机方面应用较为广泛,动作识别技术在最近几年来已经逐渐成为计算机视觉领域的主要研究内容。动作识别的研究方法总体上可以分为两种,基于传统机器学习手动提取特征的方法和基于深度网络学习特征的识别方法。
针对于传统机器学习手动提取特征的方法主要是通过采用传统机器学习算法对视频进行预处理,提取视频特征,对特征进行向量化,训练模型,预测动作分类。但是视频动作识别存在光照、背景变化、视频帧之间存在联系等因素的影响,无法充分提取手势特征,鲁棒性较差。
针对于深度学习的动作识别方法,相比于二维图像,增加了时序信息,因此深度学习的动作识别方法不仅可以学习空间序列信息,还可以识别时间序列特征信息。例如Simonyan首先提出了经典的双流CNN,分别时使用空间流网络和时间流网络学习空间特征和时间特征,最后将两者融合,这种方法弥补了在传统机器学习方法上在时间序列上特征信息的丢失。又如Tran等人提出了C3D模型来提取视频时空特征,但是该方法存在参数过多,计算量较大等因素。并且,传统的卷积网络对于长期依赖关系的建模能力相对有限,难以捕捉到视频序列中更长时间跨度的语义信息。
发明内容
为了解决背景技术中存在的问题,本发明所提供一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法(Decoupled 3D network using multi-scale selfattention mechanism,MSA_(2+1)DNet)。方法具体针对复杂特征难以有效提取、传统的三维卷积神经网络计算量参数较大,以及无法同时兼顾长期和短期的时空信息等问题。3DCNN网络结构虽能较好的捕捉视频信息的时空特征,但其存在网络参数量较大的问题。针对此问题采用(2+1)D网络模型,通过将3D卷积核拆分为在空间维度上的二维卷积以及在时间维度上的一维卷积,该方法能够有效的减少参数的计算量。此外,设计出一种Attention-Mechnism模型,该模型通过将动作视频分为相同大小的视频块,并且引入了时空编码使得视频块在原始视频中的位置信息以及时间信息得以保留,通过视频块与视频块之间自注意力计算得到动作视频的全局时空信息,并且该注意力机制适用于卷积产生的多种尺度的特征图。并且设计的(2+1)D Residual Module模块不仅融合了注意力机制得到的全局时空特征,更进一步提取视频动作的局部时空特征,使得网络能够有效的兼顾长期和短期时空特征。
本发明采用的技术方案是:
本发明的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,包括:
步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集,实际操作时按照预设比例划分为训练集和测试集。
步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet。
步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。
所述的步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。
所述的步骤2)中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组,(2+1)D注意力模块组中的第一个模块为注意力机制模块。
(2+1)D stem模块的输入为视频帧序列,视频帧序列经第一卷积层后提取到低层有关空间信息的特征图,然后输入第二卷积层,对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关低层时空信息的特征图。
(2+1)D Residual模块包含两个残差模块:在第一残差模块中,将输入的特征图经过两层三维卷积层提取局部时空特征,并且将得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出,并将此融合特征进行下采样,使通道数提升以及降低特征图的高和宽;在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取局部的时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。
(2+1)D Residual Module提取的时空特征经过一个全局平均池化层进一步提取高层全局时空特征,再经Flatten操作将多维特征进行一维化,之后经过一个全连接层并且采用SoftMax分类器进行动作分类,最后得到MSA_(2+1)DNet模型的动作分类结果。
所述的注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作。
注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图,特征图经过时空编码生成操作后获得特征图的可学习参数,可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作,然后分别输入至第二线性全连接层MLP、第三线性全连接层MLP和第四线性全连接层MLP中进行处理,第二线性全连接层MLP和第三线性全连接层MLP处理的输出依次经第一矩阵乘法Multiply操作、指数函数softmax归一化操作和向量除法Divide操作后的输出再与第四线性全连接层MLP的输出共同经第二矩阵乘法Multiply操作,操作后的输出进行上采样操作,操作后再和注意力机制模块的输入共同经过第二向量相加Add操作后输出作为注意力机制模块的输出。
特征图经过时空编码生成操作后根据特征图F(patch_embedding)的形状生成相同形状的包含时空编码信息的可学习参数space_temporal_embedding,随后将其和特征图F(patch_embedding)进行Add操作得到包含时空位置编码的特征图F′。
所述的切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。
所述的上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。
本发明首先对每个动作类别进行预处理,读取动作视频,获取类别标签;其次对每个动作视频进行预处理,采用(2+1)D Stem模块对视频帧进行特征提取和下采样获得动作视频的时空特征;本发明设计的注意力机制模块,能够关注到多尺度特征图上的全局时空特征,随后融入的(2+1)D Residual模块不仅能够进一步提取局部时空特征,而且输出特征融合了全局时空特征信息,从而使得网络能够充分地在多阶段兼顾多尺度的全局和局部时空特征信息,而引入的残差结构能够有效的解决因为增加网络的层数而带来的梯度消失问题。
本发明的有益效果是:
1)本发明设计的Attention-Mechnism模块,能够捕捉网络在多阶段卷积产生的多尺度特征图上的全局时空特征,从而使得网络弥补了在每个阶段全局时空特征,提高了对模型分类的性能。
2)多尺度自注意力机制可以帮助网络在处理视频时对上下文进行建模。通过关注不同尺度上的特征,网络可以更好地理解视频中物体或动作的上下文信息,从而提高对视频内容的理解和解释能力。
3)使用的(2+1)D Residual Module不仅能够进一步提取局部时空特征,而且最后的输出特征融合了长期和短期时空特征信息,从而使得网络能够充分的利用特征信息。(2+1)D网络结合多尺度自注意力机制可以在空间和时间维度上实现更好的平衡。2D卷积操作捕捉图像的空间信息,而1D卷积操作捕捉帧与帧之间的时间关系。这种平衡使得网络能够更全面地建模视频数据的时空特性,提高对视频数据的表达能力。
附图说明
图1为本发明方法的技术方案流程图;
图2为本发明注意力机制模块Attention-mechnism的结构图;
图3为本发明的验证集准确率曲线图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,包括:
步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集,实际操作时按照预设比例划分为训练集和测试集。
步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。
步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet。
步骤2)中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组,(2+1)D注意力模块组中的第一个模块为注意力机制模块。
(2+1)D stem模块的输入为视频帧序列,视频帧序列经第一卷积层后提取到低层有关空间信息的特征图,然后输入第二卷积层,对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关低层时空信息的特征图。
(2+1)D Residual模块包含两个残差模块:在第一残差模块中,将输入的特征图经过两层三维卷积层提取局部时空特征,并且将得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出,并将此融合特征进行下采样,使通道数提升以及降低特征图的高和宽;在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取局部的时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。
(2+1)D Residual Module提取的时空特征经过一个全局平均池化层进一步提取高层全局时空特征,再经Flatten操作将多维特征进行一维化,之后经过一个全连接层并且采用SoftMax分类器进行动作分类,最后得到MSA_(2+1)DNet模型的动作分类结果。
注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作。
注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图,特征图经过时空编码生成操作后获得特征图的可学习参数,可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作,然后分别输入至第二线性全连接层MLP、第三线性全连接层MLP和第四线性全连接层MLP中进行处理,第二线性全连接层MLP和第三线性全连接层MLP处理的输出依次经第一矩阵乘法Multiply操作、指数函数softmax归一化操作和向量除法Divide操作后的输出再与第四线性全连接层MLP的输出共同经第二矩阵乘法Multiply操作,操作后的输出进行上采样操作,操作后再和注意力机制模块的输入共同经过第二向量相加Add操作后输出作为注意力机制模块的输出。
特征图经过时空编码生成操作后根据特征图F(patch_embedding)的形状生成相同形状的包含时空编码信息的可学习参数space_temporal_embedding,随后将其和特征图F(patch_embedding)进行Add操作得到包含时空位置编码的特征图F′。
切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。
上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。
步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。
本发明的具体实施例如下:
本发明主要针对于视频动作识别,由于本发明的识别对象为视频动作序列,所以挑选了美国中佛罗里达大学发布的包含了101个不同的人类运动行为类别的视频片段数据集UCF101共101类人与物体互动、人体动作、人与人互动、乐器演奏以及体育运动方面的视频进行识别。动作类别包括射箭、骑自行车、跳水、理发、弹奏大提琴、划船、打字、书写等。
如图1所示,首先通过读取UCF101数据集中的各类别视频,获取类别标签;然后对每个视频进行预处理操作:采用稀疏采样的方法提取指定参数的视频帧,然后进行尺寸归一化处理;以连续的视频帧序列作为(2+1)D stem的输入对其进行低层时空的特征提取和下采样操作;设计出了一个注意力机制模块Attention-mechnism,用于关注卷积过程中产生的不同尺度的特征图的全局时空信息;设计的(2+1)D Residual Module进一步提取视频动作的局部时空特征,并将其融合注意力机制得到兼顾全局和局部信息的时空特征;经过多次下采样和4次注意力机制和(2+1)D Residual Module的时空特征融合,其输出特征经过一个全局池化层提取高层时空信息,再连接一个全连接层FC,最后通过SoftMax分类器进行动作分类,得到分类结果。
本发明的具体步骤如下:
1)读取各类别视频,获取类别标签,然后对每个视频进行预处理操作,获取到每个视频动作的帧数;之后采用稀疏采样的方式获取指定的视频帧;最后对提取的视频帧进行尺寸归一化处理。
2)(2+1)D stem模块的输入为视频帧序列,视频帧序列经第一卷积层后得到提取到下采样的有关空间信息的特征图,第一卷积层为3D卷积,卷积核为1×7×7,步频为(1,2,2),后面接着一层3D批归一化BatchNorm3d函数和一层RELU激活函数;接着将此特征图输入第二卷积层,对经过第二卷积层的特征图采用时间维度上的一维卷积操作后得到有关时空信息的特征图,第二卷积层为3D卷积,步频为(1,1,1),后面接着一层3D批归一化BatchNorm3d函数和一层RELU激活函数。
3)如图2所示,注意力机制模块以上一个模块得到特征图F作为输入,进行切割块patch_embedding操作得到包含以视频块为单位的时空信息特征图F(patch_embedding),其中切割块patch_embedding操作按顺序依次包含一个三维卷积层、一个特征图形状重塑Rearrange操作和一个线性层,三维卷积层的输出通道数是输入通道数的一半,卷积核为1×1×1,特征图形状重塑Rearrange操作具体为使用python的库函数Rearrange将特征图的形状从时间维度和空间维度切割成一个一个小块,即将特征图由T×W×H变成t×h×w个时间长度为pt、高为ph、宽为pw的小块,T为特征图原来在时间维度上的长度、W为特征图原来在空间维度上的宽度、H为特征图原来在空间维度上的高度、c为通道数、pt为视频块的帧数、ph为视频块的高、pw为视频块的宽、t为时间维度上切割视频块的个数、h和w分别为空间维度上高宽切割视频块的个数,这里设置t为4、h为7、w为7,线性层输入为pt×ph×pw×c,输出的神经元个数设置为192;切割块patch_embedding操作得到的特征图F(patch_embedding)的形状生成相同形状的包含时空编码信息的可学习参数space_temporal_embedding,具体为,使用pytorch的库函数Parameter生成,其中切割的块的数量num_patches为t×h×w,维度dim为192;随后将其和特征图F(patch_embedding)进行向量加法操作Add操作得到包含时空位置编码的特征图F′;将特征图F′输入到三个线性层,分别得到查询矩阵Mq、键矩阵Mk和值矩阵Mv,三个线性层的输入的神经元个数为192,输出的神经元个数为512;将矩阵Mq和键矩阵Mk进行矩阵乘法得到的特征图再经过指数函数归一化softmax归一化操作,再与值矩阵Mv进行矩阵乘法得到包含全局信息的特征图,再将此特征图和缩放注意力权重的因子dk进行除法操作得到特征图F″;将特征图F″进行上采样操作,使其变成形状和特征图F一致的特征图F(attention),其中上采样操作按顺序依次包含一个线性层、一个特征图形状重塑Rearrange操作和一个三维卷积层,线性层输入的神经元个数为192,输出为pt×ph×pw×c,Rearrange操作具体为使用python的库函数Rearrange将特征图的形状从之前切成的多个小块重塑回最初时的形状,即时间维度和空间维度切割成的t×h×w个时间长度为pt、高为ph、宽为pw的小块,变成t×h×w个时间长度为先前的T×W×H的特征图,三维卷积层输出通道数是输入通道数的2倍,卷积核为1×1×1;将特征图F(attention)和特征图F进行Add操作得到输出特征图F″′。
注意力机制模块通过以下公式得到输出特征:
F(patch_embedding)=MLP(Rerrange(Conv3D(F)))
F′=F(patch_embedding)+space_temporal_embedding
Mq=MLP(F′)
Mk=MLP(F′)
Mv=MLP(F′)
F(attention)=Conv3D(Rerrange(MLP(F)))
F″′=F(attention)+F
其中,F为Attention-mechnism模块的输入特征,F(patch_embedding)为视频特征图作为切割后的特征图,F′为加上了时空编码的特征图,Mq为查询矩阵,Mk为键矩阵,Mv为值矩阵,F″为做完自注意力的特征图,F(attention)为做完上采样后的特征图,F″′为融合特征图,Conv3D表示3D卷积操作,Rerrange表示矩阵切割操作,MLP代表一个线性层,Softmax代表softmax激活函数,×代表矩阵乘法。
4)在第一残差模块中,将注意力机制得到的特征图作为输入,经过两层三维卷积层提取局部时空特征,第一层三维卷积的卷积核为1×3×3,步频为(1,2,2),后面跟着的是RELU激活函数,第二层三维卷积的卷积核为3×1×1,步频为(2,1,1),并且将上述残差模块得到的局部时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出;在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取局部的时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出,其中第一层三维卷积的卷积核为1×3×3,步频为(1,1,1),后面跟着的是RELU激活函数,第二层三维卷积的卷积核为3×1×1,步频为(1,1,1)。
5)将注意力机制得到的全局时空特征和(2+1)D Residual Module提取的时空特征经过多次融合得到特征图作为输入,使用一个全局池化层操作进一步提取高层时空特征,再经Flatten操作将多维特征进行一维化,之后经过一个全连接层并且采用SoftMax分类器进行动作分类,最后得到MSA_(2+1)DNet模型的动作分类结果,如图3和表1所示。
表1本发明与其他模型的结果对比表
本发明设计的Attention-Mechnism模块,能够捕捉网络在多阶段卷积产生的多尺度特征图上的全局时空特征,从而使得网络弥补了在每个阶段全局时空特征,提高了对模型分类的性能;多尺度自注意力机制可以帮助网络在处理视频时对上下文进行建模。通过关注不同尺度上的特征,网络可以更好地理解视频中物体或动作的上下文信息,从而提高对视频内容的理解和解释能力。最后融入的(2+1)D Residual Module不仅能够进一步提取局部时空特征,而且最后的输出特征融合了长期和短期时空特征信息,从而使得网络能够充分的利用特征信息。解耦的3D网络结合多尺度自注意力机制可以在空间和时间维度上实现更好的平衡。2D卷积操作捕捉图像的空间信息,而1D卷积操作捕捉帧与帧之间的时间关系。这种平衡使得网络能够更全面地建模视频数据的时空特性,提高对视频数据的表达能力。
上述具体技术流程用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于,包括:
步骤1)将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集;
步骤2)建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet;
步骤3)采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。
2.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。
3.根据权利要求1所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的步骤2)中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)D Net包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,四个注意力机制模块和四个(2+1)D Residual残差模块相互交错并依次连接构成(2+1)D注意力模块组,(2+1)D注意力模块组中的第一个模块为注意力机制模块。
4.根据权利要求3所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二线性全连接层MLP、第三线性全连接层MLP、第四线性全连接层MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作;
注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图,特征图经过时空编码生成操作后获得特征图的可学习参数,可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作,然后分别输入至第二线性全连接层MLP、第三线性全连接层MLP和第四线性全连接层MLP中进行处理,第二线性全连接层MLP和第三线性全连接层MLP处理的输出依次经第一矩阵乘法Multiply操作、指数函数softmax归一化操作和向量除法Divide操作后的输出再与第四线性全连接层MLP的输出共同经第二矩阵乘法Multiply操作,操作后的输出进行上采样操作,操作后再和注意力机制模块的输入共同经过第二向量相加Add操作后输出作为注意力机制模块的输出。
5.根据权利要求4所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一线性全连接层MLP。
6.根据权利要求4所述的基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的上采样操作包括第五线性全连接层MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030327.9A CN117011943A (zh) | 2023-08-16 | 2023-08-16 | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311030327.9A CN117011943A (zh) | 2023-08-16 | 2023-08-16 | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011943A true CN117011943A (zh) | 2023-11-07 |
Family
ID=88563415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311030327.9A Pending CN117011943A (zh) | 2023-08-16 | 2023-08-16 | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011943A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292209A (zh) * | 2023-11-27 | 2023-12-26 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
-
2023
- 2023-08-16 CN CN202311030327.9A patent/CN117011943A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292209A (zh) * | 2023-11-27 | 2023-12-26 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
CN117292209B (zh) * | 2023-11-27 | 2024-04-05 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Dual vision transformer | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN109933682B (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN111027681B (zh) | 时序数据处理模型训练方法、数据处理方法、装置及存储介质 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN113780249A (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN115578574B (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN117011943A (zh) | 基于多尺度自注意力机制的解耦的3d网络的动作识别方法 | |
Kakillioglu et al. | 3D capsule networks for object classification with weight pruning | |
Zeng et al. | Pyramid hybrid pooling quantization for efficient fine-grained image retrieval | |
CN115909036A (zh) | 局部-全局自适应引导增强的车辆重识别方法及系统 | |
CN115965789A (zh) | 一种基于场景感知类注意力的遥感图像语义分割方法 | |
CN117994623A (zh) | 一种图像特征向量的获取方法 | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN114936327B (zh) | 元素识别模型的获取方法、装置、计算机设备和存储介质 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN116091763A (zh) | 苹果叶部病害图像语义分割系统及分割方法、设备和介质 | |
CN115471690A (zh) | 基于形变器的多视图融合分类系统及方法 | |
CN114548293A (zh) | 基于跨粒度自蒸馏的视频-文本跨模态检索方法 | |
CN114004992A (zh) | 多标签分类模型的训练方法、图像的多标签分类方法 | |
CN113282753A (zh) | 标题文本数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |