CN116246338B - 一种基于图卷积和Transformer复合神经网络的行为识别方法 - Google Patents
一种基于图卷积和Transformer复合神经网络的行为识别方法 Download PDFInfo
- Publication number
- CN116246338B CN116246338B CN202211649047.1A CN202211649047A CN116246338B CN 116246338 B CN116246338 B CN 116246338B CN 202211649047 A CN202211649047 A CN 202211649047A CN 116246338 B CN116246338 B CN 116246338B
- Authority
- CN
- China
- Prior art keywords
- graph
- model
- neural network
- transducer
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 40
- 239000002131 composite material Substances 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006978 adaptation Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000005096 rolling process Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图卷积和Transformer复合神经网络的行为识别方法,通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据;图处理模块将人体部位关键节点坐标数据处理成图数据结构,得到人体骨架序列特征矩阵,作为图卷积模型的输入;通过图卷积模型建模空间维度上的特征;通过输入端适配模块进行Transformer模块的输入端适配;通过Transformer模型建模时间维度上的特征;通过分类头部输出模型的预测结果;迭代训练和优化得到最终的复合神经网络,输出最终的动作识别结果。本发明结合了图卷积神经网络和Transformer神经网络各自的优点,提供了一种既满足输入数据轻量、抗干扰能力强,又能够有效建模持续时间较长的视频行为识别方法。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于图卷积和Transformer复合神经网络的行为识别方法。
背景技术
如何让机器理解人类行为是迈向通用人工智能所必须解决的问题之一,所以行为识别一直是人工智能领域的一个重要研究课题。根据数据的模态以及深度神经网络结构的不同,现有基于深度学习的行为识别方法主要分为三类。
第一类方法是基于视频RGB帧、深度图或光流的2D或者3D卷积神经网络,例如:TSN、I3D、SlowFast、R(2+1)D、X3D等。这类方法能够很好的对视频中的运动特征进行短时建模。但是,由于卷积核是专门为捕获短程时空信息而设计的,想要进一步扩大感受野就必须增加网络的深度。这样的网络结构无法有效建模持续时间较长的视频片段,而且过于深的模型不仅难以训练,而且还会使模型的计算成本成倍地递增,很难落地应用在具有实时性需求的真实场景中。
第二类方法是基于视频RGB帧的Transformer网络,例如:TimeSformer、MViT、CoVeR等。这类方法是由于Transformer网络结构在自然语言处理领域的优异表现而发展出来的新方法。由于Transformer的核心算子多头自注意力可以同时处理局部和全局信息,并且可以并行计算,所以这类方法的推理速度优于2D或者3D卷积神经网络,而且也能建模更长时间的视频。但是相比于图卷积和普通2D、3D卷积,多头自注意力本身并不具备平移不变性,这使得它的空间建模能力要弱于2D、3D卷积和图卷积。
第三类方法是基于人体骨架序列的图卷积神经网络,例如:ST-GCN、AGCN、2S-AGCN、MS-G3D、CTR-GCN等。这些方法的输入是人体骨架序列,它可以通过人体姿态估计算法或者专门的Kinetic相机获得的人体部位关键点构建。这类方法的优点是不受背景、光线、衣着打扮等环境因素的干扰,算法可以专注于行为本身。而且对于大幅度的肢体行为,它的泛化性比前一种方法要好。另外,由于输入数据与视频的分辨率大小没有直接关系,仅包含17-25个人体部位关键点,因此即使使用相同的网络结构,这种方法推理速度也普遍比基于视频RGB帧的两种方法更快。但是,现有的可实施的所有先进方法都是使用一个超大的2D或者3D卷积来建模时间维度的特征的,这也需要不菲的计算量,并且同样受限于卷积核感受野的大小而无法有效地建模持续时间较长的视频片段。
这三类方法各有优缺点,目前,还缺少一种既满足输入数据轻量、抗干扰能力强,又能够有效建模持续时间较长的视频的行为识别方法。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于图卷积和Transformer复合神经网络的行为识别方法,针对卷积的感受野受限于卷积核的大小的问题,设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于图卷积和Transformer复合神经网络的行为识别方法,包括如下步骤:
S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据;
S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构,得到人体骨架序列特征矩阵,作为图卷积模型的输入;
S3、通过图卷积模型建模空间维度上的特征;
S4、通过输入端适配模块进行Transformer模块的输入端适配;
S5、通过Transformer模型建模时间维度上的特征;
S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果;
S7、迭代训练和优化网络超参数,得到最终的复合神经网络,输出最终的动作识别结果。
优选的,步骤S1中,将远程摄像头的视频数据以视频流的方式作为OpenPose的输入,得到当前视频每一帧上的各个人体部位关键点坐标和置信度,保存在集合V={vti|t=1,...,T,i=1,...,N}中,其中,T为当前视频帧数,N为每一帧的人体部位关键点数目,vti为第t帧上的第i个人体部位关键点,人体部位关键点上的特征向量F(vti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。
优选的,步骤S2中,图处理模块具体包括:将关节点集合V={vti|t=1,...,T,i=1,...,N}中的节点用边连接起来保存在边集合E={vtivtj|(i,j)∈H}中,其中,H是自然连接的人体关节的集合;
然后,将V和E结合起来,得到每一帧的人体骨架图G=(V,E),使用邻接矩阵A来表示;
最后,把每一帧上所有节点的特征向量拼接成一个特征矩阵作为图卷积模型的输入。
优选的,在步骤S3的图卷积模型中,采用改进的CTR-GCN,在节点特征的通道维度上对邻接矩阵进行参数化,删除了多尺度时间卷积模块,并对多层的图卷积进行了层数削减和分组,避免图卷积过度参数化;图卷积模型建模空间维度上的特征具体表达公式如下:
其中,是输入张量;A是一个可学习的邻接矩阵,初始值为人体骨架图G=(V,E)邻接矩阵的归一化值;M是一个相关性矩阵,M的值由人体骨架图G=(V,E)中的节点vti和vtj两两计算相似度得到;W是一个可学习的参数矩阵。
优选的,所述步骤S4的输入端适配具体包括如下:
S41、将步骤S3中图卷积模型输出的特征张量进行维度转换,将通道维度和节点维度相乘得到一个新的特征维度;
S42、对上一步得到的特征做线性变化,将它投影到更高维的空间中转换成Token序列,作为Transformer模型的输入。
优选的,所述Transformer模型包含两个Transformer块;每一个Transformer块由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成。
优选的,在步骤S5的Transformer模型中,采用分类模型ViT并通过基于均匀分布的位置编码初始化方式,ViT中的多头自注意力计算公式如下:
其中,h表示多头自注意力的head数量,H是它的最大值;Qh、Kh、Vh分别由图卷积模型的输出经过输入端适配后分别乘上一个参数矩阵WQ、WK、WV得到。
优选的,在步骤S7中,将步骤S6得到的预测结果与真实标签计算交叉熵损失,并通过Adam优化器和反向传播算法迭代训练优化网络超参数,交叉熵损失函数的计算公式如下:
其中,M为类别数,yic代表来自目标域样本i的标签,如果样本i的真实类别等于c则为1,不等于c则为0,pi,c为样本i被预测为类别c的概率。
优选的,所述的网络超参数包括批大小、学习率、优化器、权重衰退和Dropout。
本发明的有益效果是:
1)本发明针对卷积的感受野受限于卷积核的大小的问题,设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络架构。
2)本发明使用人体骨架序列作为输入,以保证输入数据的轻量化和抗干扰能力;使用图卷积神经网络结构来建模空间维度的信息,以克服Transformer网络结构空间建模能力弱的缺点;使用Transformer网络结构来建模时间维度的信息,以克服图卷积受限于卷积核大小无法有效建模持续时间较长的视频片段的缺陷。
3)本发明是一种既满足输入数据轻量、抗干扰能力强,又能够有效建模持续时间较长的视频的行为识别方法。
附图说明
图1为本发明行为识别方法的步骤流程示意图;
图2为本发明行为识别方法的整体工作流程图;
图3为本发明图卷积和Transformer复合神经网络的整体网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供一种技术方案:一种基于图卷积和Transformer复合神经网络的行为识别方法,如图1所示,具体包括如下步骤:
S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据。
对于步骤S1中的人体姿态估计,本发明选择被广泛使用的实时人体姿态估计框架OpenPose作为人体姿态估计工具。实施步骤如下:首先,把远程摄像头的视频数据作为OpenPose的输入,从而得到当前视频每一帧上的各个人体部位关键点坐标和置信度。然后,把它们保存在一个集合V={vti|t=1,...,T,i=1,...,N}中,其中T为当前视频帧数,N为每一帧的人体部位关键点数目,vti为第t帧上的第i个人体部位关键点。人体部位关键点上的特征向量F(vti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。
S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构,得到人体骨架序列特征矩阵,作为图卷积模型的输入。
步骤S2的图处理模块的具体做法如下:首先,根据人体骨架的自然连通性,将步骤S1得到的关节点集合V={vti|t=1,...,T,i=1,...,N}中的节点用边连接起来保存在一个边集合E={vtivtj|(i,j)∈H}中,其中H是自然连接的人体关节的集合。然后,将V和E结合起来,得到每一帧的人体骨架图G=(V,E),本发明中使用邻接矩阵A来表示这个图。最后,把每一帧上所有节点的特征向量拼接成一个特征矩阵就得到了所述步骤S3的图卷积模块的输入。
S3、通过图卷积模型建模空间维度上的特征。
对于步骤S3设计的图卷积模型的实现,本发明借鉴了基于人体骨架序列的图卷积神经网络的最先进方法之一CTR-GCN。简而言之,图卷积所做的操作就是不断地聚合邻居节点的特征信息,CTR-GCN的改进就是在节点特征的通道维度上对邻接矩阵进行参数化,并通过节点相关性矩阵进行参数更新,这样的设计可以使模型在训练过程中从不同的通道维度上学习跨越人体自然连接的边(例如,手部关节点和脚部关节点之间的连接)。模型学习到的新连接可以更好地表示一些多个身体部位共同参与的行为(例如:下床、跑步),一定程度上减小节点缺失带来的负面影响。本发明对CTR-GCN做出改进,保留了CTR-GCN通道细化的邻接矩阵参数化设计,删除了其中的多尺度时间卷积模块,因为其内部包含一个9×9的超大卷积核,这会带来不菲的计算开销。另外,本发明还对多层的图卷积进行了层数削减和分组设计,从原来的10层减为了9层,并且分为了三组,每一组内部通道维数相同。这一步的目的是为了进一步减少模型的参数量,避免图卷积过度参数化。这一步骤的公式描述如下:
其中,是输入张量,它可以通过所述步骤S2得到;A是一个可学习的邻接矩阵,初始值为所述步骤S2得到的人体骨架图G=(V,E)的邻接矩阵的归一化值;M是一个相关性矩阵,M的值由所述步骤S2得到的人体骨架图G=(V,E)中的节点vti和vtj两两计算相似度得到;α是一个可训练的参数,用于调整通道细化的强度;W是一个可学习的参数矩阵,使用Xavier初始化方法进行初始化。
S4、通过输入端适配模块进行Transformer模块的输入端适配。
步骤S4的输入端适配模块的具体实现方式分为两步。第一步,将所述步骤S3中的图卷积模块所输出的5维的张量进行维度转换,具体地,它将通道维度和节点维度相乘得到一个新的特征维度使得5维的张量变成一个4维的张量;第二步,对上一步得到的特征做一个线性变化,将它投影到更高维的空间中。如此一来,人体骨架序列就转换成了Token序列可以直接作为Transformer模块的输入。
S5、通过Transformer模型建模时间维度上的特征。
步骤S5中Transformer模型的网络结构设计部分借鉴了图像分类领域第一个使用Transformer神经网络结构的分类模型ViT,只是为了结合图卷积神经网络并且更好地适配行为识别任务,本发明设计了新的位置编码的初始化方式:在时间维度上,本发明不采用基于高斯分布的初始化,而是采用基于均匀分布的初始化。本发明对ViT和原始的Transformer中的多头自注意力实现进行了对比,发现ViT在训练和推理时并行化做的更好,所以在设计我们的Transformer网络模块的时候,我们保留了ViT中的多头自注意力实现,它的计算公式如下:
其中h表示多头自注意力的head数量,H是它的最大值。Qh、Kh、Vh分别由步骤S3的输出经过输入端适配后分别乘上一个参数矩阵WQ、WK、WV得到。这一模块的每一个Transformer块都用GELU激活函数激活。
S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果。
步骤S6用一个小型神经网络作为整个复合神经网络的分类头部。该网络由一个全局平均池化层和一个具有n个神经元的全连接层组成,n表示训练数据集中的类别数。本发明使用Softmax来激活每个神经元,并使用n个神经元的输出作为预测向量,向量的值表示识别为该行为的概率。
S7、迭代训练和优化网络超参数,得到最终的复合神经网络,输出最终的动作识别结果。
将步骤S6得到的预测结果与真实标签计算交叉熵损失,并通过Adam优化器和反向传播算法迭代训练调优化网络参数,交叉熵损失函数的计算公式如下:
其中,N为样本个数,M为类别数,yic代表来自目标域样本i的标签,如果样本i的真实类别等于c为1,不等于则为0,pi,c为样本i被预测为类别c的概率。
本发明使用人体骨架序列作为输入,以保证输入数据的轻量化和抗干扰能力;使用图卷积神经网络结构来建模空间维度的信息,以克服Transformer网络结构空间建模能力弱的缺点;使用Transformer网络结构来建模时间维度的信息,以克服图卷积受限于卷积核大小无法有效建模持续时间较长的视频片段的缺陷。
实施例2
本实施例提供了一种基于图卷积及Transformer复合神经网络的行为识别方法,其工作流程图如图2所示,整体复合网络结构图如图3所示,行为识别方法具体步骤如下:
1、人体姿态估计和数据预处理
将自建的行为识别数据集ICUAction-8中的所有视频分辨率调整为340*250,并将帧率转换为30fps,然后以视频流的方式输入到OpenPose人体姿态估计框架对视频中的每一帧进行人体姿态估计,再通过图处理模块将每一帧上的人体姿态估计的结果处理成图数据结构,并将节点上的特征处理成维度为(256,3,500,18,2)的张量作为模型的输入,其中256为批大小,3为节点特征的通道维数,500为视频的最大帧数,18为人体关节点的数量,2为视频中人物的个数。
2、训练基于图卷积及Transformer的复合神经网络提取空间和时间维度上的特征。
将处理好的数据按照7:2:1的比例划分为训练集、验证集和测试集。设置初始学习率为0.1,进行120轮的迭代训练。
首先,将训练集中的数据输入到图卷积模块进行空间维度特征的提取。图卷积模块一共包含9个图卷积块,每个图卷积块由一个卷积核为9x9的图卷积网络层、一个BatchNorm归一化层以及一个Tanh激活层组成。
其次,通过输入端模块的维度转换操作将维度为(256,3,500,18,2)的张量转换为维度为(512,500,54)并通过一个全连接层做映射将最后一维上升到1024得到维度为(512,500,1024)的张量作为Transformer模块的输入。
然后,将上一步得到的张量输入到Transformer模块进行时间维度特征的提取。Transformer模块一共包含两个Transformer块组成,每一个Transformer块又由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成。
最后,将Transformer模块的输出既提取到的时空交互特征输入到识别头部进行动作类别预测。将预测结果与真实标签计算交叉熵损失,并通过Adam优化器和反向传播算法迭代训练优化网络参数。识别头部由一个全局平均池化层和一个包含400个神经元的全连接层构成。
3、通过验证集优化超参数设置。
将上一步在训练集上面训练得到的模型放到验证集上面进行测试,分析结果并适当调整批大小、学习率、优化器、权重衰退、Dropout等超参数后重复步骤2的训练过程。
4、使用测试集测试识别性能。
将测试集的视频通过人体姿态估计算法OpenPose和图处理模块处理后出入到训练和优化好的复合神经网络中得到最终的动作识别结果。
本发明针对卷积的感受野受限于卷积核的大小的问题,设计了结合图卷积神经网络和Transformer神经网络两种网络结构的复合神经网络架构,是一种既满足输入数据轻量、抗干扰能力强,又能够有效建模持续时间较长的视频的行为识别方法。
文中未详细说明的算法、计算步骤均为本领域的通用技术,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于,包括如下步骤:
S1、通过开源人体姿态估计框架OpenPose对视频流进行人体姿态估计得到视频中每一帧的人体部位的关键节点坐标数据;
S2、通过图处理模块将人体部位关键节点坐标数据处理成图数据结构,得到人体骨架序列特征矩阵,作为图卷积模型的输入;
S3、通过图卷积模型建模空间维度上的特征;
在步骤S3的图卷积模型中,采用改进的CTR-GCN,在节点特征的通道维度上对邻接矩阵进行参数化,删除了多尺度时间卷积模块,并对多层的图卷积进行了层数削减和分组,避免图卷积过度参数化;图卷积模型建模空间维度上的特征具体表达公式如下:
其中,是输入张量;A是一个可学习的邻接矩阵,初始值为人体骨架图G=(V,E)邻接矩阵的归一化值;M是一个相关性矩阵,M的值由人体骨架图G=(V,E)中的节点vti和vtj两两计算相似度得到;W是一个可学习的参数矩阵;
S4、通过输入端适配模块进行Transformer模块的输入端适配;
所述步骤S4的输入端适配具体包括如下:
S41、将步骤S3中图卷积模型输出的特征张量进行维度转换,将通道维度和节点维度相乘得到一个新的特征维度;
S42、对上一步得到的特征做线性变化,将它投影到更高维的空间中转换成Token序列,作为Transformer模型的输入;
S5、通过Transformer模型建模时间维度上的特征;
所述Transformer模型包含两个Transformer块;每一个Transformer块由一个位置编码层、2个LayerNorm归一化层以及一个包含GELU激活函数的MLP构成;
在步骤S5的Transformer模型中,采用分类模型ViT并通过基于均匀分布的位置编码初始化方式,ViT中的多头自注意力计算公式如下:
其中,h表示多头自注意力的head数量,H是它的最大值;Qh、Kh、Vh分别由图卷积模型的输出经过输入端适配后分别乘上一个参数矩阵WQ、WK、WV得到;
S6、通过一个包含全局平均池化层和全连接层的分类头部来输出模型的预测结果;
S7、迭代训练和优化网络超参数,得到最终的复合神经网络,输出最终的动作识别结果。
2.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:步骤S1中,将远程摄像头的视频数据以视频流的方式作为OpenPose的输入,得到当前视频每一帧上的各个人体部位关键点坐标和置信度,保存在集合V={vti|t=1,…,T,i=1,…,N}中,其中,T为当前视频帧数,N为每一帧的人体部位关键点数目,vti为第t帧上的第i个人体部位关键点,人体部位关键点上的特征向量F(vti)由第t帧上的第i个关节的坐标向量和姿态估计置信度组成。
3.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:步骤S2中,图处理模块具体包括:将关节点集合V={vti|t=1,…,T,i=1,…,N}中的节点用边连接起来保存在边集合E={vtivtj|(i,j)∈H}中,其中,H是自然连接的人体关节的集合;
然后,将V和E结合起来,得到每一帧的人体骨架图G=(V,E),使用邻接矩阵A来表示;
最后,把每一帧上所有节点的特征向量拼接成一个特征矩阵作为图卷积模型的输入。
4.根据权利要求1所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:在步骤S7中,将步骤S6得到的预测结果与真实标签计算交叉熵损失,并通过Adam优化器和反向传播算法迭代训练优化网络超参数,交叉熵损失函数的计算公式如下:
其中,M为类别数,yic代表来自目标域样本i的标签,如果样本i的真实类别等于c则为1,不等于c则为0,pi,c为样本i被预测为类别c的概率。
5.根据权利要求4所述的基于图卷积和Transformer复合神经网络的行为识别方法,其特征在于:所述的网络超参数包括批大小、学习率、优化器、权重衰退和Dropout。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211649047.1A CN116246338B (zh) | 2022-12-20 | 2022-12-20 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211649047.1A CN116246338B (zh) | 2022-12-20 | 2022-12-20 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116246338A CN116246338A (zh) | 2023-06-09 |
CN116246338B true CN116246338B (zh) | 2023-10-03 |
Family
ID=86635522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211649047.1A Active CN116246338B (zh) | 2022-12-20 | 2022-12-20 | 一种基于图卷积和Transformer复合神经网络的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246338B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726977B (zh) * | 2024-02-07 | 2024-04-12 | 南京百伦斯智能科技有限公司 | 基于dcnn的实验操作关键节点评分方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102311796B1 (ko) * | 2021-03-29 | 2021-10-12 | 인하대학교 산학협력단 | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
WO2022000420A1 (zh) * | 2020-07-02 | 2022-01-06 | 浙江大学 | 人体动作识别方法、人体动作识别系统及设备 |
CN113936333A (zh) * | 2021-09-23 | 2022-01-14 | 上海理工大学 | 一种基于人体骨架序列的动作识别算法 |
WO2022116616A1 (zh) * | 2020-12-01 | 2022-06-09 | 神思电子技术股份有限公司 | 一种基于转换模块的行为识别方法 |
CN114998525A (zh) * | 2022-06-21 | 2022-09-02 | 南京信息工程大学 | 基于动态局部-全局图卷积神经网络的动作识别方法 |
CN115100574A (zh) * | 2022-07-19 | 2022-09-23 | 电子科技大学长三角研究院(衢州) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 |
US11495055B1 (en) * | 2021-11-10 | 2022-11-08 | Huazhong University Of Science And Technology | Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network |
-
2022
- 2022-12-20 CN CN202211649047.1A patent/CN116246338B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022000420A1 (zh) * | 2020-07-02 | 2022-01-06 | 浙江大学 | 人体动作识别方法、人体动作识别系统及设备 |
WO2022116616A1 (zh) * | 2020-12-01 | 2022-06-09 | 神思电子技术股份有限公司 | 一种基于转换模块的行为识别方法 |
KR102311796B1 (ko) * | 2021-03-29 | 2021-10-12 | 인하대학교 산학협력단 | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 |
CN113936333A (zh) * | 2021-09-23 | 2022-01-14 | 上海理工大学 | 一种基于人体骨架序列的动作识别算法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
US11495055B1 (en) * | 2021-11-10 | 2022-11-08 | Huazhong University Of Science And Technology | Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network |
CN114998525A (zh) * | 2022-06-21 | 2022-09-02 | 南京信息工程大学 | 基于动态局部-全局图卷积神经网络的动作识别方法 |
CN115100574A (zh) * | 2022-07-19 | 2022-09-23 | 电子科技大学长三角研究院(衢州) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
基于图卷积的骨架行为识别;董安;左劼;孙频捷;;现代计算机(02);全文 * |
张聪聪;何宁.基于关键帧的双流卷积网络的人体动作识别方法.南京信息工程大学学报(自然科学版).2019,(06),全文. * |
融合图卷积和差异性池化函数的点云数据分类分割模型;张新良;付鹏飞;赵运基;谢恒;王琬如;;中国图象图形学报(06);全文 * |
陈佳伟;韩芳;王直杰.基于自注意力门控图卷积网络的特定目标情感分析.计算机应用.2020,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116246338A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
Du et al. | Representation learning of temporal dynamics for skeleton-based action recognition | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN112434655B (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN111695457B (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN113033276A (zh) | 一种基于转换模块的行为识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114550014A (zh) | 道路分割方法及计算机装置 | |
CN117671787A (zh) | 一种基于Transformer的康复动作评估方法 | |
CN114882493A (zh) | 一种基于图像序列的三维手部姿态估计与识别方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
Ahmed et al. | Two person interaction recognition based on effective hybrid learning | |
CN116453025A (zh) | 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 | |
CN116543338A (zh) | 一种基于注视目标估计的学生课堂行为检测方法 | |
CN116129051A (zh) | 一种基于图和注意力交织的三维人体姿态估计方法及系统 | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |