CN111931549B - 一种基于多任务非自回归解码的人体骨架的动作预测方法 - Google Patents
一种基于多任务非自回归解码的人体骨架的动作预测方法 Download PDFInfo
- Publication number
- CN111931549B CN111931549B CN202010429280.3A CN202010429280A CN111931549B CN 111931549 B CN111931549 B CN 111931549B CN 202010429280 A CN202010429280 A CN 202010429280A CN 111931549 B CN111931549 B CN 111931549B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- human
- input
- network
- future
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000033001 locomotion Effects 0.000 title claims abstract description 9
- 230000009471 action Effects 0.000 claims abstract description 45
- 230000006399 behavior Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 42
- 230000002123 temporal effect Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000035582 behavioral recognition Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101000640822 Mus musculus Sodium-coupled neutral amino acid transporter 3 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务非自回归解码的人体骨架的动作预测方法,用于人体3D骨架的动作预测问题。具体包括如下步骤:获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;建立分类器,对输入的人体3D骨架输入进行行为识别;建立非自回归解码器,预测未来时刻人体3D骨架;使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;使用所述联合学习框架进行未来时刻的人体动作预测。本发明用于真实视频中的人体动作预测分析,面对各类复杂情况具有较佳的效果和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于多任务非自回归解码的人体骨架的动作预测方法。
背景技术
基于人体骨架的动作预测问题被定义为如下问题:在包含多帧的一组人体骨骼关键点序列中,预测未来时刻的人体关键点序列。人体骨骼关键点常作为一些高层视觉任务的辅助信息,如人机交互,异常行为检测等。人体骨架动作预测的关键因素包括对于时序结构的建模。传统方法常使用自回归的解码方式,即后一帧的预测结果完全依赖于前一帧的预测结果,利用这种递归的方式对未来时刻进行预测,而没有考虑预测误差也会随非自回归解码过程进行传播这一事实。本发明提出了一种非自回归的解码方式,利用一种未知信息嵌入的特征以表征位置信息,学习到动作信息与位置信息的特定关联,打断了自回归方式中误差传播的路径,从而有效避免了预测误差在解码过程中的传播。
此外,本发明还探究了基于人体骨架的动作预测问题以及基于人体骨架的行为识别问题。由于两种任务的相似性较强,利用一种自监督的方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
由于统计建模的有效性,目前基于学习的方法逐渐被应用于基于人体骨架的动作预测任务中。现有的基于学习的方法主要采用深度学习框架,输入一组人体骨架序列,输出未来时刻对应的人体骨架序列。深度学习能够有效地解决特征表达的问题。
发明内容
为解决上述问题,本发明的目的在于基于多任务非自回归解码的人体动作预测方法。该方法基于深度神经网络,在解码过程中引入了位置信息嵌入,建模了动作信息和位置信息的关系,避免了预测误差在解码过程中的传播,从而使模型更具准确性和鲁棒性。此外,引入了与动作误测任务强关联的行为识别任务,利用自监督的学习方式同时完成动作预测和行为识别,能够有效地提高二者的准确率。
为实现上述目的,本发明的技术方案为:
基于多任务非自回归解码的人体骨架的动作预测方法,其包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。
基于上述方案,各步骤可以通过如下方式实现:
作为优选,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
进一步的,步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
进一步的,步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
进一步的,步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakvReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
进一步的,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
进一步的,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
本发明的基于多任务非自回归解码的人体动作预测方法,相比于现有的人体动作预测方法,具有以下有益效果:
首先,本发明的人体动作预测方法将解码过程中的自回归方式修改为非自回归方式,避免了传统方法中预测误差在递归过程中的传递,使算法更加鲁棒,可以有效地解决复杂场景下的动作预测问题。
其次,本发明提出了多任务学习算法,该方法引入了与原任务强相关的基于人体骨架的行为识别任务,利用自监督的方式,同时学习两种不同任务,获得了更好的特征表达,有效地提升了预测结果。
本发明的基于多任务非自回归解码的人体动作预测方法,在人体骨架动作预测中,能够有效地提高分析的准确率和效率,大大增加了视频视频动作预测的鲁棒性。例如,在背景近似的视频中,通过对人体骨骼关键点位置的追踪,能够大大提高预测的准确性,为后续分析提供多模态依据。
附图说明
图1为本发明的的流程示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于多任务非自回归解码的人体动作预测方法,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标。
在本步骤中,用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,3D信息使用四元数表示,n∈[1,N],t∈[1,T1],N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列/>其中/>为待预测的第t帧中第n个节点的3D信息真值,n∈[1,N],t∈[1,T2],T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征。本步骤的具体实现方法如下:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列。
S3、建立分类器,对输入的人体3D骨架输入进行行为识别。本步骤的具体实现方法如下:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数。
S4、建立非自回归解码器,预测未来时刻人体3D骨架。本步骤的具体实现方法如下:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,...,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别。本步骤的具体实现方法如下:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测。本步骤的具体实现方法如下:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在两个具有真值标注的数据集上实施,分别为:
Human3.6M数据集:该数据集包含约3,600,000人体3D姿态,其中包含了约15个动作;
CMU Mocap数据集:该数据集包含约86,000人体3D姿态,其中包含约8个动作。
上述预测方法中,参数设置如下N=25,T1=50,T2=10~25。最终本实施例的方法(记为mNAT)在两个数据集上的结果如表1和2所示,表格中同时列出了部分现有技术中的做法的结果作为对比。
表1.本实施例在Human3.6M数据集上评价指标对比
表2.本实施例在CMU Mocap数据集上评价指标对比
上述表格中列出的现有技术的具体做法参见下列参考文献:
参考文献:
[8]Martinez,Julieta,Michael J.Black,and Javier Romero.″On humanmotion prediction using recurrent neural networks.″Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017.
[9]Li,Chen,et a1.″Convolutional sequence to sequence model for humandynamics.″Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018.
[16]Gui,Liang-Yan,et al.″Adversarial geometry-aware human motionprediction.″Proceedings of the European Conference on Computer Vision(ECCV).2018.
[10]Guo,Xiao,and Jongmoo Choi.″Human Motion Prediction via LearningLocal Structure Representations and Temporal Dependencies.″Proceedings of theAAAI Conference on Artificial Intelligence.V01.33.2019.
[13]Mao,Wei,et al.″Learning trajectory dependencies for human motionprediction.″Proceedings of the IEEE International Conference on ComputerVision.2019.
由此表明,通过以上技术方案,本发明基于深度学习技术提供了一种基于多任务非自回归解码的人体动作预测方法,该方法可以在各类人体骨架关键点序列中,以非自回归的方式预测未来信息,从而得到更加准确、鲁棒地预测结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,包括以下步骤:
S1、获取用于训练的人体3D骨骼关键点数据集,并定义算法目标;
S2、建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征;
S3、建立分类器,对输入的人体3D骨架输入进行行为识别;
S4、建立非自回归解码器,预测未来时刻人体3D骨架;
S5、使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别;
S6、使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测;
步骤S2中,所述建立图卷积编码器,对输入的人体3D骨架进行特征学习,得到输入骨架的特征,具体包括:
S21、建立9层的图卷积编码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为9;利用该图卷积编码网络对给定的人体骨架输入提取其高层语义特征c,公式表示为:
c=fenc(X;θenc)
其中,fenc()为图卷积编码网络,θenc为编码网络参数,X为人体骨架输入序列;
步骤S3中,所述建立分类器,对输入的人体3D骨架输入进行行为识别,具体包括:
S31、建立3层的全连接网络作为行为识别分类网络,每一层加入LeakyReLU激活函数以及Dropout随机丢弃函数;在行为识别分类网络中,给定如S21所述的高层语义特征c,输出多类行为动作概率值p,公式表示为:
p=fcls(c;θcls)
其中,fcls()为行为识别分类网络,θcls为分类网络参数;
步骤S4中,所述建立非自回归解码器,预测未来时刻人体3D骨架,具体包括:
S41、计算一系列位置编码嵌入其中et为256维特征,表示第t帧的位置编码嵌入,公式表示为:
其中,表示第t帧的位置编码嵌入的第j维;位置编码嵌入的偶数维/>使用sin函数,奇数维/>使用cos函数;α和β表示超参数,用来控制位置编码嵌入的形状;dmodel为256,表示位置编码嵌入的维度大小;
S42、将S21所述的高层语义特征c与S41所述的一系列位置编码嵌入分别相加,得到一系列编码了位置的高层语义特征公式表示为:
ht=et+c,t=1,…,T2
S43、建立非自回归解码网络,每一层加入LeakyReLU激活函数,且网络的每一层分别包含图卷积部分和时序卷积部分;图卷积部分所使用的图结构为数据集所定义的人体骨骼连接关系,时序卷积部分卷积核大小为1;将S42所述的一系列编码了位置的高层语义特征传入非自回归解码网络,得到预测的未来时刻人体3D骨骼关键点信息公式表示为:
其中,为未来时刻第t帧中第n个节点的3D信息预测值,fdec()为非自回归解码网络,θdec为非自回归解码网络参数。
2.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S1中,所述的用于训练的人体3D骨骼关键点数据集,包括给定的人体骨架关键点序列其中/>表示第t帧中第n个节点的3D信息,该3D信息使用四元数表示,N为人体关节点总数,T1为给定序列帧数;还包括待预测的人体骨架关键点序列其中/>为待预测的第t帧中第n个节点的3D信息真值,T2为待预测序列帧数;
定义算法目标为:给定连续T1帧人体骨架序列作为输入,预测未来T2帧人体骨架序列的动作信息。
3.如权利要求1所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S5中,所述使用共享的图卷积编码器和分类器,对预测的人体3D骨架再进行行为识别,具体包括:
S51、使用如S21所述的图卷积编码网络fenc()、如S31所述的行为识别分类网络fcls(),以S43所述的预测的未来时刻人体3D骨骼关键点信息作为输入,输出多类行为动作概率值/>公式表示为:
其中,为基于网络预测值的高层语义特征,图卷积编码网络参数θenc和行为识别分类网络参数θcls均与S21和S31中的对应网络共享。
4.如权利要求3所述的基于多任务非自回归解码的人体骨架的动作预测方法,其特征在于,步骤S6中,所述使用S1~S5建立的联合学习框架进行未来时刻的人体动作预测,具体包括:
基于由S1~S5建立的统一的端到端联合学习框架,采用组输入和组输出的方式,将多组骨架序列输入该联合学习框架中进行训练,所有的卷积参数θ通过最小化损失函数学习得到,其中总的损失函数采用交叉熵损失函数与L2范数损失函数之和;
设定和/>分别为给定/>预测得到的概率值以及给定预测得到的概率值,其中pi和/>分别为第i类输出动作的概率值,D为行为动作数目;/>为真值的动作类别,以独热编码形式表示,gi为第i类输出动作的真值;则所述交叉熵损失函数为:
所述L2范数损失函数作用于预测的未来时刻人体3D骨骼关键点信息以及真实的未来时刻人体3D骨骼关键点信息/>其公式表达为:
总的损失函数为:
其中θ={θenc,θdec,θcls}为卷积参数;
使用Adam优化方法和反向传播算法在损失函数下训练整个网络,利用训练完成的神经网络预测未来时刻人体3D骨架的动作信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010429280.3A CN111931549B (zh) | 2020-05-20 | 2020-05-20 | 一种基于多任务非自回归解码的人体骨架的动作预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010429280.3A CN111931549B (zh) | 2020-05-20 | 2020-05-20 | 一种基于多任务非自回归解码的人体骨架的动作预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931549A CN111931549A (zh) | 2020-11-13 |
CN111931549B true CN111931549B (zh) | 2024-02-02 |
Family
ID=73316369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010429280.3A Active CN111931549B (zh) | 2020-05-20 | 2020-05-20 | 一种基于多任务非自回归解码的人体骨架的动作预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931549B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418164A (zh) * | 2020-12-07 | 2021-02-26 | 公安部昆明警犬基地 | 一种多任务学习网络对警犬动作进行动态识别的方法 |
CN112926517B (zh) * | 2021-03-26 | 2022-11-18 | 北京航空航天大学 | 一种人工智能监控方法 |
CN113158861B (zh) * | 2021-04-12 | 2024-02-13 | 杭州电子科技大学 | 一种基于原型对比学习的运动分析方法 |
WO2022226724A1 (en) * | 2021-04-26 | 2022-11-03 | Intel Corporation | Method and system of image processing with multi-skeleton tracking |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109492581A (zh) * | 2018-11-09 | 2019-03-19 | 中国石油大学(华东) | 一种基于tp-stg框架的人体动作识别方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110135319A (zh) * | 2019-05-09 | 2019-08-16 | 广州大学 | 一种异常行为检测方法及其系统 |
CN110188599A (zh) * | 2019-04-12 | 2019-08-30 | 哈工大机器人义乌人工智能研究院 | 一种人体姿态行为智能分析识别方法 |
CN110222611A (zh) * | 2019-05-27 | 2019-09-10 | 中国科学院自动化研究所 | 基于图卷积网络的人体骨架行为识别方法、系统、装置 |
CN110490035A (zh) * | 2019-05-17 | 2019-11-22 | 上海交通大学 | 人体骨架动作识别方法、系统及介质 |
-
2020
- 2020-05-20 CN CN202010429280.3A patent/CN111931549B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109492581A (zh) * | 2018-11-09 | 2019-03-19 | 中国石油大学(华东) | 一种基于tp-stg框架的人体动作识别方法 |
CN109858390A (zh) * | 2019-01-10 | 2019-06-07 | 浙江大学 | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 |
CN110188599A (zh) * | 2019-04-12 | 2019-08-30 | 哈工大机器人义乌人工智能研究院 | 一种人体姿态行为智能分析识别方法 |
CN110135319A (zh) * | 2019-05-09 | 2019-08-16 | 广州大学 | 一种异常行为检测方法及其系统 |
CN110490035A (zh) * | 2019-05-17 | 2019-11-22 | 上海交通大学 | 人体骨架动作识别方法、系统及介质 |
CN110222611A (zh) * | 2019-05-27 | 2019-09-10 | 中国科学院自动化研究所 | 基于图卷积网络的人体骨架行为识别方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111931549A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931549B (zh) | 一种基于多任务非自回归解码的人体骨架的动作预测方法 | |
Zhou et al. | APNet: Adversarial learning assistance and perceived importance fusion network for all-day RGB-T salient object detection | |
Li et al. | Unsupervised learning of view-invariant action representations | |
Zheng et al. | Unsupervised representation learning with long-term dynamics for skeleton based action recognition | |
Yue et al. | Action recognition based on RGB and skeleton data sets: A survey | |
CN110288555B (zh) | 一种基于改进的胶囊网络的低照度增强方法 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN110717431A (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN113313037A (zh) | 一种基于自注意力机制的生成对抗网络视频异常检测方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Gao et al. | A novel multiple-view adversarial learning network for unsupervised domain adaptation action recognition | |
CN111783540A (zh) | 一种视频中人体行为识别方法和系统 | |
Zhang et al. | CGNet: cross-guidance network for semantic segmentation | |
Xing et al. | Ventral & dorsal stream theory based zero-shot action recognition | |
CN110827265A (zh) | 基于深度学习的图片异常检测方法 | |
CN110705490A (zh) | 视觉情感识别方法 | |
Lin et al. | Joint learning of local and global context for temporal action proposal generation | |
CN118446292A (zh) | 家居行为的知识图谱构建方法、模型、检测装置及方法 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
CN114359626A (zh) | 基于条件生成对抗网络的可见光-热红外显著目标检测方法 | |
CN111666977B (zh) | 一种单色图像的阴影检测方法 | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、系统及装置 | |
Qian et al. | Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes | |
Liu et al. | A knowledge-based hierarchical causal inference network for video action recognition | |
Bi et al. | Continuous frame motion sensitive self-supervised collaborative network for video representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |