CN111950412A

CN111950412A - 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法

Info

Publication number: CN111950412A
Application number: CN202010759002.4A
Authority: CN
Inventors: 杨红红; 吴晓军; 张玉梅; 苏玉萍; 裴昭
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-17
Anticipated expiration: 2040-07-31
Also published as: CN111950412B

Abstract

本发明公开了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，包括如下步骤：基于YOLOv3检测器进行舞蹈者人体检测框提取，将RGB图像输入YOLOv3模型，获得人体检测框；对获得的人体检测框进行关节点特征提取，来获得融合多分辨率多尺度信息的特征，在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap，由heatmap估算获得各关节的位置信息；对估计得到的人体骨骼关节点进行关节点几何关系关联性预测，通过分析关节点之间的几何关系，构建基于关节点几何关系的层级姿态估计模型，进行多层次的关节点估计。本发明能够提高舞蹈者关节点位置的准确估计，提高舞蹈动作姿态估计的效果。

Description

一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法

技术领域

本发明属于计算机视觉技术领域，更具体的说是涉及一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法。

背景技术

舞蹈是文化的重要表现形式之一，我国舞蹈课堂人数通常较多，教师只能粗略地通过学生的肢体动作及面部表情获取学生的动作变化，难以精确地了解到学生对舞蹈动作实时掌握的情况。因此，运用信息技术实时对舞者的动作姿态进行估计，及时获得课堂舞蹈教学状态信息，将极大促进因材施教的实施。

随着科技与文化深度融合的开展，舞蹈图像中的动作姿态估计将成为计算机视觉技术的一个重要应用领域，其不仅可以用于专业舞蹈者动作纠正，舞蹈自助教学等应用场景，还可以用于运动员运动分析、比赛仲裁、动作识别、影视娱乐、辅助游戏设计、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)等多个人机交互现实场景。同时，可以充分发挥舞蹈教学作为“文化自信”育人载体的作用，实现中华民族文化的振兴，对于传承中华文化具有重要意义。

目前，多人姿态估计方法可以分为自顶向下(top-down)和自底向上(bottom-up)两类，前者主要是先通过目标检测器检测出图像中的人体检测框，然后对每一个人体检测框进行单人姿态估计产生人体关节点，最后对关节点进行连接形成人体姿态估计结果。自底向上的姿态估计方法与前者正好相反，主要分为关节点检测和关节点聚类两部分，其首先利用单人姿态估计算法将图像中所有的关节点检测出来，然后对不同人体的关节点进行聚类，将属于同一个人体的关节点聚合到一起实现多人姿态估计。

上述两类多人姿态估计方法各有优缺点，top-down方法将人体姿态估计分为人体目标检测和单人姿态估计两步。由于其依赖于性能较好的目标检测算法及单人姿态估计算法，人体姿态估计的准确率较高。但是，该类方法性能受目标检测框质量影响严重，即使最为先进的目标检测器也会存在检测误差，造成人体检测框冗余、漏检和误检等现象。而bottom-up方法不依赖于目标检测器进行人体框的检测，因此其检测速度较快，但是对不同关节点进行聚合时受遮挡影响严重，当多人距离较近时，很容易造成同一人体关节点聚类歧义问题，因此其人体姿态估计准确率较低。

此外，现有的人体姿态估计方法主要针对传统的数据集，如MSCOCO，MPII、LSP等，其包含简单的人体姿态，如站立，走路等。但是，舞蹈动作姿态估计中存在舞蹈动作复杂多变，连贯性强，遮挡问题严重，舞蹈课堂场景中多存在遮挡、光照变化及相机视角变化等干扰因素，极大地增加了舞蹈动作姿态估计的难度。因此，传统人体姿态估计方法存在难以准确估计舞蹈者动作变化的问题。

因此，如何提供一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点，传统人体姿态估计方法难以准确估计舞蹈者的动作变化，导致舞蹈动作姿态估计准确率较低的问题，提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法，首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题，构建基于序列多尺度特征融合表示的关节点估计模型。其次，针对舞蹈姿态形变较大、遮挡严重的问题，对人体关节点关联性进行分析，设计基于关节点几何关系的层级姿态估计模型，提高舞蹈动作姿态估计的效果。

为了实现上述目的，本发明采用如下技术方案：

一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，包括如下步骤：

(1)基于YOLOv3的人体框检测

首先基于YOLOv3检测器进行舞蹈者人体检测框的提取，将RGB图像输入YOLOv3模型，获得相应的人体检测框用于人体姿态估计；

(2)序列多尺度特征融合模型

对步骤(1)中所获得的人体检测框进行关节点特征提取，来获得融合多分辨率多尺度信息的特征；在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap，由heatmap估算获得各关节的位置信息；

(3)基于关节点几何关系的层级姿态估计方法

对步骤(2)中所估计得到的人体骨骼关节点进行关节点几何关系关联性预测，通过分析关节点之间的几何关系，构建基于关节点几何关系的层级姿态估计模型，进行多层次的关节点估计。

优选的，所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成，每个子网络采用ResNet模块设计原则，由4个残差单元组成。

优选的，所述HRNet网络首先以高分辨率的子网络作为起始阶段，然后重复添加从高分辨率到低分辨率的子网络形成第2，3，4阶段的输出，然后，通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合，并行连接多分辨率子网络，得到相应的输出特征图。

优选的，所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征

其中，m表示输入特征对应的分辨率；对于任意的第ith分辨率的特征，首先进行conv(3×3)卷积操作，然后进行插值和反卷积操作使ith分辨率的特征

上采样变成修正后的i-1th分辨率特征

其中，conv表示卷积操作，Int和Dec分别表示插值和反卷积操作；

接着，级联上采样获得的修正后的i-1th分辨率特征

和第i-1th分辨率特征

得到融合后的第i-1th分辨率特征X′_i-1：

其中，concat表示级联特征

和

经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合，通过公式(2)，最终获得融合多分辨率多尺度信息的特征X′₁；

最后，在最终的特征X′₁上使用softmax函数获得关节点的heatmap，由heatmap估算获得各关节的位置信息。

优选的，根据人体结构将步骤(2)中所获得的关节点划分为两类：第一类是形变较小的连接人体各关节的躯干关节k^trunk；第二类是形变明显的肢体关节k^limb；根据所划分的两类关节，设计层级姿态估计模型，将人体所有关节点聚合为5部分，颈部、左肩、右肩、左臀、右臀，进行基于人体关节几何关系的关节点预测。

优选的，基于关节点几何关系的层级姿态估计网络由三阶段组成，网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测，并计算相应的坐标位置；然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入，鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点，利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节k^trunk，将人体关节划分为以躯干关节为主的5部分；接着，将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入，构建第三阶段网络。

优选的，考虑人体结构的几何相关性，将人体所有的关节点进行类内关联划分到5类躯干关节中，实现肢体关节与躯干关节的连接。

优选的，对于任意一类的躯干关节与肢体关节，设N₁、N₂分别为第c部分躯干关节

和肢体关节

的候选关节点集合，则所有候选关节点连接集合的最优匹配问题为：

其中，

表示关节点k₁和k₂是否连接，K表示关节点个数。

优选的，对于相互连接的成对关节(k₁,k₂)，根据YOLOv3模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题；通过求解所有类内候选关节点连接集合的最优匹配问题，得到躯干关节与肢体关节之间连接的最优匹配，表示为：

其中，E_mn为关节点之间的关联概率；

连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。

本发明的有益效果在于：

本发明提出了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点，传统人体姿态估计方法难以准确估计舞蹈者的动作变化，导致舞蹈动作姿态估计准确率较低的问题，提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法，首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题，构建基于序列多尺度特征融合表示的关节点估计模型，解决舞蹈姿态存在较大的形变及遮挡严重的问题，通过分析人体骨骼关节点之间的几何关系，进行多层次的关节点估计，提高舞蹈者关节点位置的准确估计。其次，针对舞蹈姿态形变较大、遮挡严重的问题，对人体关节点关联性进行分析，设计基于关节点几何关系的层级姿态估计模型，提高舞蹈动作姿态估计的效果。本发明解决了解决舞蹈动作骨骼关节点尺度变化剧烈的问题，以HRNet网络为骨干网络，提出序列多尺度特征融合方法，通过对高、低层多尺度特征进行融合，提高姿态估计对尺度变化的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图。

图2为本发明中的骨干网络HRNet示意图。

图3为本发明中的序列多尺度特征融合模块示意图。

图4为本发明中人体关节点几何关系示意图。

图5为基于本发明方法在单人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。

图6为基于本发明方法在多人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅附图1，本发明提供了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，该方法基于YOLOv3的人体框检测，序列多尺度特征融合，基于关节点几何关系的层级实时姿态估计。本发明采用top-down框架，首先利用YOLOv3进行舞蹈者人体框的检测；然后以HRNet(High resolution network)网络为骨干网络，设计序列多尺度特征融合模型，对每个舞者人体检测框进行姿态估计；最后设计基于关节点几何关系的层级姿态估计模型对所预测的人体关节点进一步优化，通过偶图匹配子问题求解，获得躯干关节与肢体关节连接的最优匹配，形成舞者人体的最终姿态估计结果。具体包括如下步骤：

S1：基于YOLOv3的人体框检测

本发明在舞蹈者人体目标检测阶段采用端到端的一步走检测算法，基于YOLOv3检测器进行舞蹈者人体检测框(human proposal)的提取。将RGB图像输入YOLOv3模型，获得相应的人体检测框用于人体姿态估计。

S2：序列多尺度特征融合

由于姿态估计任务是像素(pixel-wise)级keypoint估计问题，其需要利用低层和高层特征对不同尺度大小的关节点进行定位，高层特征有利于大尺度关节点的定位，而低层特征对小尺度关节点的定位非常重要。针对舞蹈动作连贯性强，骨骼关节尺度变化剧烈的问题，本发明构建一种序列多尺度特征融合模型，提高姿态估计对尺度变化的鲁棒性。

1.HRNet网络。本发明以HRNet网络为骨干网络，如图2所示，其由4个并行的多分辨率子网构成，每个子网络采用ResNet模块设计原则，由4个残差单元组成。HRNet网络首先以高分辨率的子网络作为起始阶段，然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出。最后，通过聚合单元(exchange Unit)对高、中、低分辨率的特征进行跨尺度的融合，并行连接多分辨率子网络，得到相应的输出特征图(feature map)。

HRNet网络由于能够较好的提取输入图像的多分辨率特征，其具有较强的特征表示能力，在目标检测、识别、图像分割以及人体关节点估计任务中获得较好的结果，但是HRNet网络在人体姿态关节点估计过程中并没有充分利用其提取的多分辨率特征，仅使用其中的高分辨率特征进行关节点热图(heatmap)估计，丢弃其它中、低分辨率特征，从而造成特征表示过程中的信息损失，影响关节点估计的准确性。因此，针对上述问题，本发明提出构建序列多尺度特征融合模型，提高姿态估计特征表示的能力。

2.序列多尺度特征融合：在特征表示中，具有低分辨率的高层特征具有丰富的语义信息而位置信息相对粗糙，而具有高分辨率的低层特征虽然语义信息相对较弱但包含准确的位置信息。因此，本发明提出序列多尺度特征融合方法(SMF)，对高、低分辨率特征进行有序融合，增强网络特征表示的能力。如图3所示，该序列多尺度特征融合方法对HRNet网络最后一个聚合单元输出的4个分辨率特征图经过卷积、插值(interpolation)和反卷积(deconvolution)操作进行由高分辨率到低分辨率的序列多特征融合。

本发明以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征

其中，m表示输入特征对应的分辨率(m＝4)；对于任意的第ith分辨率的特征，首先进行conv(3×3)卷积操作，然后进行插值和反卷积操作使ith分辨率的特征

上采样变成修正后的i-1th分辨率特征

接着，级联上采样获得的修正后的i-1th分辨率特征

和第i-1th分辨率特征

得到融合后的第i-1th分辨率特征X′_i-1：

其中，concat表示级联特征

和

步骤3：基于关节点几何关系的层级姿态估计

由于舞蹈姿态存在大的形变及遮挡严重的问题，本发明利用步骤2所估计得到的人体骨骼关节点进行关节点几何关系关联性预测，通过分析关节点之间的几何关系，构建基于关节点几何关系的层级姿态估计模型，进行多层次的关节点估计，提高舞蹈者身体关节点位置的准确估计。

首先，根据人体结构将步骤2中所获得的关节点划分为两类：第一类是形变较小的连接人体各关节的躯干关节k^trunk，如肩，臀、颈部；第二类是形变明显的肢体关节k^limb，如手腕、手肘、膝盖及脚踝等铰链结构关节。然后，根据所划分的两类关节，设计层级姿态估计模型，将人体所有关节点聚合为如图4所示的5部分，颈部、左肩、右肩、左臀、右臀，进行基于人体关节几何关系的关节点预测。

如图1所示，本发明所设计的层级网络由三阶段组成，网络的第一阶段为根据步骤2所设计的SMF模型进行人体所有关节点的heatmap预测，并计算相应的坐标位置。然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入，鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点，本发明利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节k^trunk，将人体关节划分为以躯干关节为主的5部分，也称为5类(颈部、左肩、右肩、左臀、右臀)。接着，将网络第一阶段所有的关节点及第二阶段预测获得的5类躯干关节作为输入，构建第三阶段网络。同时，考虑人体结构的几何相关性，将人体所有的关节点进行类内关联划分到5类躯干关节中，实现肢体关节与躯干关节的连接。

由于每一类躯干关节，可以有多个候选肢体关节，同样，每一个肢体关节也可能与任意一类躯干关节相连接。因此，对于任意一类的躯干关节与肢体关节，设N₁、N₂分别为第c部分躯干关节

和肢体关节

其中，

表示关节点k₁和k₂是否连接，K表示关节点个数。

对于相互连接的成对关节(k₁,k₂)，根据图模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题。通过求解所有类内候选关节点连接集合的最优匹配问题，得到躯干关节与肢体关节之间连接的最优匹配，表示为：

其中，E_mn关节点之间的关联概率。

最后，连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。

为了验证本发明的有益效果，发明人采用本发明实施例的方法进行了仿真实验，实验情况如下：

1、仿真条件

硬件条件为：Ubuntu 16.04，4个NVIDIA 1080Ti GPU组成的服务器。

软件平台为：python语言及Pytorch深度网络框架。

2、仿真内容与结果

用本发明方法在上述仿真条件下进行实验，结果见图5、图6，与现有技术相比，本发明具有以下优点：

本发明提出了一种序列多尺度特征融合的层级舞蹈动作实时姿态估计方法，该发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点，传统人体姿态估计方法难以准确估计舞蹈者的动作变化，导致舞蹈动作姿态估计准确率较低的问题，提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法，通过构建序列多尺度特征融合模型，提高姿态估计特征表示的能力。同时，针对舞蹈姿态形变较大，遮挡严重的问题，对人体几何关节点进行关联性分析，设计基于关节点几何关系的层级姿态估计模型，提高舞蹈动作姿态估计的效果。

图5、图6为本发明选取的5类特色鲜明的单人、多人民族舞蹈数据集姿态估计可视化结果分析，分别为藏族舞蹈、傣族舞蹈、汉族秧歌、蒙古族舞蹈、维吾尔族舞蹈。

如图5(a)-(c)所示，在藏族舞蹈中，由于舞者所穿黑色长裙的遮挡，即使人眼也很难准确定位出腿部关节的位置，此外，如图5(d)-(e)所示，舞者白色上袖对胳膊关节及腿部关节的遮挡，加大的姿态估计的难度。本发明在此情况下，根据人体关节的几何关系，通过层级姿态估计模型进行偶图匹配子问题求解，进行遮挡关节点的预测，从而获得较为准确的关节点估计结果。在傣族舞蹈中，如图5(a)-(e)所示，舞者姿态存在剧烈的形变、舞者身体自遮挡及服饰遮挡现象严重，加大了关节点估计的难度；在汉族秧歌舞蹈中，如图5(a)-(e)所示，道具扇子对舞者姿态存在严重的遮挡，同时，舞者存在快速的运动导致运动模糊，如图5(d)-(e)所示。在蒙古族舞蹈中，如图5(a)-(e)所示，舞者姿态存在严重的自遮挡及服饰遮挡，即使人眼也很难准确定位出长裙遮挡腿部关节的位置。在维吾尔族舞蹈中，如图5(a)-(e)所示，由于灯光的影响以及舞者服饰和快速的运动，增加了舞者关节点估计的难度。综上所述，本发明针对舞蹈动作复杂多变，姿态形变剧烈等问题构建序列多尺度特征融合模型，提高姿态估计特征表示的能力，同时，对人体关节点几何关系进行分析，设计层级姿态估计模型，对遮挡关节点进行推理。如图5所示，本发明在舞者存在遮挡、剧烈形变、灯光干扰及快速运动等情况下均能较好的实现舞者姿态的估计。

图6为本发明在5类多人民族舞蹈数据集上的部分可视化结果。多人舞蹈动作姿态估计相对单人舞蹈姿态估计更具挑战性，其不仅包含单人姿态估计中舞者服饰变化、复杂背景、自遮挡及视角变化等问题，还需要处理人数未知，多人之间的互遮挡等问题。如图6(a)-(c)所示，在藏族舞蹈中，由于舞者所穿长裙的遮挡、摄像头视角变化以及舞者剧烈的动作变化，即使人眼也很难同时准确定位出多个舞者的身体关节点。在傣族舞蹈中，由于舞台灯光昏暗、舞者动作复杂多变、统一着装服饰的干扰及多人互遮挡、自遮挡的影响，加剧了舞者关节点估计的难度；在汉族秧歌舞蹈中，舞者存在较大的姿态变化、舞者动作复杂多变以及摄像头视角的变化，增加了姿态估计的难度；在蒙古族舞蹈中，舞者尺度变化较大、存在较为严重的遮挡及服饰遮挡，增加了舞者关节点估计的难度。在维吾尔族舞蹈中，由于舞者服饰严重的遮挡、舞蹈动作的复杂变化以及快速的运动，即使人眼也很难准确定位出遮挡部位关节点的位置。而本发明在上述舞者动作复杂多变、姿态形变剧烈，遮挡严重、服饰及舞台灯光干扰等情况下，通过所构建的序列多尺度特征融合的层级舞蹈动作姿态估计模型，提高姿态估计特征表示的能力及关节点估计的准确性，从而较好的实现了舞者姿态的估计。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，包括如下步骤：

(1)基于YOLOv3的人体框检测

(2)序列多尺度特征融合模型

(3)基于关节点几何关系的层级姿态估计方法

2.根据权利要求1所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成，每个子网络采用ResNet模块设计原则，由4个残差单元组成。

3.根据权利要求2所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，所述HRNet网络首先以高分辨率的子网络作为起始阶段，然后重复添加从高分辨率到低分辨率的子网络形成第2，3，4阶段的输出，然后，通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合，并行连接多分辨率子网络，得到相应的输出特征图。

4.根据权利要求3所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征

上采样变成修正后的i-1th分辨率特征

接着，级联上采样获得的修正后的i-1th分辨率特征

和第i-1th分辨率特征

得到融合后的第i-1th分辨率特征X′_i-1：

其中，concat表示级联特征

和

5.根据权利要求1或4所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，根据人体结构将步骤(2)中所获得的关节点划分为两类：第一类是形变较小的连接人体各关节的躯干关节k^trunk；第二类是形变明显的肢体关节k^limb；根据所划分的两类关节，设计层级姿态估计模型，将人体所有关节点聚合为5部分，颈部、左肩、右肩、左臀、右臀，进行基于人体关节几何关系的关节点预测。

6.根据权利要求5所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，基于关节点几何关系的层级姿态估计网络由三阶段组成，网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测，并计算相应的坐标位置；然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入，鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点，利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节k^trunk，将人体关节划分为以躯干关节为主的5部分；接着，将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入，构建第三阶段网络。

7.根据权利要求6所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，考虑人体结构的几何相关性，将人体所有的关节点进行类内关联划分到5类躯干关节中，实现肢体关节与躯干关节的连接。

8.根据权利要求7所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，对于任意一类的躯干关节与肢体关节，设N₁、N₂分别为第c部分躯干关节

和肢体关节

其中，

表示关节点k₁和k₂是否连接，K表示关节点个数。

9.根据权利要求8所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法，其特征在于，

对于相互连接的成对关节(k₁,k₂)，根据YOLOv3模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题；通过求解所有类内候选关节点连接集合的最优匹配问题，得到躯干关节与肢体关节之间连接的最优匹配，表示为：

其中，E_mn为关节点之间的关联概率；