CN111950412A - 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 - Google Patents
一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 Download PDFInfo
- Publication number
- CN111950412A CN111950412A CN202010759002.4A CN202010759002A CN111950412A CN 111950412 A CN111950412 A CN 111950412A CN 202010759002 A CN202010759002 A CN 202010759002A CN 111950412 A CN111950412 A CN 111950412A
- Authority
- CN
- China
- Prior art keywords
- joint
- resolution
- human body
- joints
- hierarchical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000004927 fusion Effects 0.000 title claims abstract description 44
- 230000009471 action Effects 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 230000033001 locomotion Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 21
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000012562 intraclass correlation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 230000036544 posture Effects 0.000 description 73
- 210000001503 joint Anatomy 0.000 description 37
- 210000003414 extremity Anatomy 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000002414 leg Anatomy 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 1
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,包括如下步骤:基于YOLOv3检测器进行舞蹈者人体检测框提取,将RGB图像输入YOLOv3模型,获得人体检测框;对获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征,在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;对估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。本发明能够提高舞蹈者关节点位置的准确估计,提高舞蹈动作姿态估计的效果。
Description
技术领域
本发明属于计算机视觉技术领域,更具体的说是涉及一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法。
背景技术
舞蹈是文化的重要表现形式之一,我国舞蹈课堂人数通常较多,教师只能粗略地通过学生的肢体动作及面部表情获取学生的动作变化,难以精确地了解到学生对舞蹈动作实时掌握的情况。因此,运用信息技术实时对舞者的动作姿态进行估计,及时获得课堂舞蹈教学状态信息,将极大促进因材施教的实施。
随着科技与文化深度融合的开展,舞蹈图像中的动作姿态估计将成为计算机视觉技术的一个重要应用领域,其不仅可以用于专业舞蹈者动作纠正,舞蹈自助教学等应用场景,还可以用于运动员运动分析、比赛仲裁、动作识别、影视娱乐、辅助游戏设计、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)等多个人机交互现实场景。同时,可以充分发挥舞蹈教学作为“文化自信”育人载体的作用,实现中华民族文化的振兴,对于传承中华文化具有重要意义。
目前,多人姿态估计方法可以分为自顶向下(top-down)和自底向上(bottom-up)两类,前者主要是先通过目标检测器检测出图像中的人体检测框,然后对每一个人体检测框进行单人姿态估计产生人体关节点,最后对关节点进行连接形成人体姿态估计结果。自底向上的姿态估计方法与前者正好相反,主要分为关节点检测和关节点聚类两部分,其首先利用单人姿态估计算法将图像中所有的关节点检测出来,然后对不同人体的关节点进行聚类,将属于同一个人体的关节点聚合到一起实现多人姿态估计。
上述两类多人姿态估计方法各有优缺点,top-down方法将人体姿态估计分为人体目标检测和单人姿态估计两步。由于其依赖于性能较好的目标检测算法及单人姿态估计算法,人体姿态估计的准确率较高。但是,该类方法性能受目标检测框质量影响严重,即使最为先进的目标检测器也会存在检测误差,造成人体检测框冗余、漏检和误检等现象。而bottom-up方法不依赖于目标检测器进行人体框的检测,因此其检测速度较快,但是对不同关节点进行聚合时受遮挡影响严重,当多人距离较近时,很容易造成同一人体关节点聚类歧义问题,因此其人体姿态估计准确率较低。
此外,现有的人体姿态估计方法主要针对传统的数据集,如MSCOCO,MPII、LSP等,其包含简单的人体姿态,如站立,走路等。但是,舞蹈动作姿态估计中存在舞蹈动作复杂多变,连贯性强,遮挡问题严重,舞蹈课堂场景中多存在遮挡、光照变化及相机视角变化等干扰因素,极大地增加了舞蹈动作姿态估计的难度。因此,传统人体姿态估计方法存在难以准确估计舞蹈者动作变化的问题。
因此,如何提供一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题,构建基于序列多尺度特征融合表示的关节点估计模型。其次,针对舞蹈姿态形变较大、遮挡严重的问题,对人体关节点关联性进行分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。
为了实现上述目的,本发明采用如下技术方案:
一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,包括如下步骤:
(1)基于YOLOv3的人体框检测
首先基于YOLOv3检测器进行舞蹈者人体检测框的提取,将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计;
(2)序列多尺度特征融合模型
对步骤(1)中所获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征;在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;
(3)基于关节点几何关系的层级姿态估计方法
对步骤(2)中所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。
优选的,所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。
优选的,所述HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出,然后,通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图。
优选的,所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征其中,m表示输入特征对应的分辨率;对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征上采样变成修正后的i-1th分辨率特征
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1;
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
优选的,根据人体结构将步骤(2)中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk;第二类是形变明显的肢体关节klimb;根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
优选的,基于关节点几何关系的层级姿态估计网络由三阶段组成,网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置;然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分;接着,将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入,构建第三阶段网络。
优选的,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
优选的,对于相互连接的成对关节(k1,k2),根据YOLOv3模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题;通过求解所有类内候选关节点连接集合的最优匹配问题,得到躯干关节与肢体关节之间连接的最优匹配,表示为:
其中,Emn为关节点之间的关联概率;
连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。
本发明的有益效果在于:
本发明提出了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题,构建基于序列多尺度特征融合表示的关节点估计模型,解决舞蹈姿态存在较大的形变及遮挡严重的问题,通过分析人体骨骼关节点之间的几何关系,进行多层次的关节点估计,提高舞蹈者关节点位置的准确估计。其次,针对舞蹈姿态形变较大、遮挡严重的问题,对人体关节点关联性进行分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。本发明解决了解决舞蹈动作骨骼关节点尺度变化剧烈的问题,以HRNet网络为骨干网络,提出序列多尺度特征融合方法,通过对高、低层多尺度特征进行融合,提高姿态估计对尺度变化的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程图。
图2为本发明中的骨干网络HRNet示意图。
图3为本发明中的序列多尺度特征融合模块示意图。
图4为本发明中人体关节点几何关系示意图。
图5为基于本发明方法在单人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。
图6为基于本发明方法在多人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,本发明提供了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,该方法基于YOLOv3的人体框检测,序列多尺度特征融合,基于关节点几何关系的层级实时姿态估计。本发明采用top-down框架,首先利用YOLOv3进行舞蹈者人体框的检测;然后以HRNet(High resolution network)网络为骨干网络,设计序列多尺度特征融合模型,对每个舞者人体检测框进行姿态估计;最后设计基于关节点几何关系的层级姿态估计模型对所预测的人体关节点进一步优化,通过偶图匹配子问题求解,获得躯干关节与肢体关节连接的最优匹配,形成舞者人体的最终姿态估计结果。具体包括如下步骤:
S1:基于YOLOv3的人体框检测
本发明在舞蹈者人体目标检测阶段采用端到端的一步走检测算法,基于YOLOv3检测器进行舞蹈者人体检测框(human proposal)的提取。将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计。
S2:序列多尺度特征融合
由于姿态估计任务是像素(pixel-wise)级keypoint估计问题,其需要利用低层和高层特征对不同尺度大小的关节点进行定位,高层特征有利于大尺度关节点的定位,而低层特征对小尺度关节点的定位非常重要。针对舞蹈动作连贯性强,骨骼关节尺度变化剧烈的问题,本发明构建一种序列多尺度特征融合模型,提高姿态估计对尺度变化的鲁棒性。
1.HRNet网络。本发明以HRNet网络为骨干网络,如图2所示,其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出。最后,通过聚合单元(exchange Unit)对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图(feature map)。
HRNet网络由于能够较好的提取输入图像的多分辨率特征,其具有较强的特征表示能力,在目标检测、识别、图像分割以及人体关节点估计任务中获得较好的结果,但是HRNet网络在人体姿态关节点估计过程中并没有充分利用其提取的多分辨率特征,仅使用其中的高分辨率特征进行关节点热图(heatmap)估计,丢弃其它中、低分辨率特征,从而造成特征表示过程中的信息损失,影响关节点估计的准确性。因此,针对上述问题,本发明提出构建序列多尺度特征融合模型,提高姿态估计特征表示的能力。
2.序列多尺度特征融合:在特征表示中,具有低分辨率的高层特征具有丰富的语义信息而位置信息相对粗糙,而具有高分辨率的低层特征虽然语义信息相对较弱但包含准确的位置信息。因此,本发明提出序列多尺度特征融合方法(SMF),对高、低分辨率特征进行有序融合,增强网络特征表示的能力。如图3所示,该序列多尺度特征融合方法对HRNet网络最后一个聚合单元输出的4个分辨率特征图经过卷积、插值(interpolation)和反卷积(deconvolution)操作进行由高分辨率到低分辨率的序列多特征融合。
本发明以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征其中,m表示输入特征对应的分辨率(m=4);对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征上采样变成修正后的i-1th分辨率特征
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1;
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
步骤3:基于关节点几何关系的层级姿态估计
由于舞蹈姿态存在大的形变及遮挡严重的问题,本发明利用步骤2所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计,提高舞蹈者身体关节点位置的准确估计。
首先,根据人体结构将步骤2中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk,如肩,臀、颈部;第二类是形变明显的肢体关节klimb,如手腕、手肘、膝盖及脚踝等铰链结构关节。然后,根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为如图4所示的5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
如图1所示,本发明所设计的层级网络由三阶段组成,网络的第一阶段为根据步骤2所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置。然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,本发明利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分,也称为5类(颈部、左肩、右肩、左臀、右臀)。接着,将网络第一阶段所有的关节点及第二阶段预测获得的5类躯干关节作为输入,构建第三阶段网络。同时,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
由于每一类躯干关节,可以有多个候选肢体关节,同样,每一个肢体关节也可能与任意一类躯干关节相连接。因此,对于任意一类的躯干关节与肢体关节,设N1、N2分别为第c部分躯干关节和肢体关节的候选关节点集合,则所有候选关节点连接集合的最优匹配问题为:
对于相互连接的成对关节(k1,k2),根据图模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题。通过求解所有类内候选关节点连接集合的最优匹配问题,得到躯干关节与肢体关节之间连接的最优匹配,表示为:
其中,Emn关节点之间的关联概率。
最后,连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。
为了验证本发明的有益效果,发明人采用本发明实施例的方法进行了仿真实验,实验情况如下:
1、仿真条件
硬件条件为:Ubuntu 16.04,4个NVIDIA 1080Ti GPU组成的服务器。
软件平台为:python语言及Pytorch深度网络框架。
2、仿真内容与结果
用本发明方法在上述仿真条件下进行实验,结果见图5、图6,与现有技术相比,本发明具有以下优点:
本发明提出了一种序列多尺度特征融合的层级舞蹈动作实时姿态估计方法,该发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,通过构建序列多尺度特征融合模型,提高姿态估计特征表示的能力。同时,针对舞蹈姿态形变较大,遮挡严重的问题,对人体几何关节点进行关联性分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。
图5、图6为本发明选取的5类特色鲜明的单人、多人民族舞蹈数据集姿态估计可视化结果分析,分别为藏族舞蹈、傣族舞蹈、汉族秧歌、蒙古族舞蹈、维吾尔族舞蹈。
如图5(a)-(c)所示,在藏族舞蹈中,由于舞者所穿黑色长裙的遮挡,即使人眼也很难准确定位出腿部关节的位置,此外,如图5(d)-(e)所示,舞者白色上袖对胳膊关节及腿部关节的遮挡,加大的姿态估计的难度。本发明在此情况下,根据人体关节的几何关系,通过层级姿态估计模型进行偶图匹配子问题求解,进行遮挡关节点的预测,从而获得较为准确的关节点估计结果。在傣族舞蹈中,如图5(a)-(e)所示,舞者姿态存在剧烈的形变、舞者身体自遮挡及服饰遮挡现象严重,加大了关节点估计的难度;在汉族秧歌舞蹈中,如图5(a)-(e)所示,道具扇子对舞者姿态存在严重的遮挡,同时,舞者存在快速的运动导致运动模糊,如图5(d)-(e)所示。在蒙古族舞蹈中,如图5(a)-(e)所示,舞者姿态存在严重的自遮挡及服饰遮挡,即使人眼也很难准确定位出长裙遮挡腿部关节的位置。在维吾尔族舞蹈中,如图5(a)-(e)所示,由于灯光的影响以及舞者服饰和快速的运动,增加了舞者关节点估计的难度。综上所述,本发明针对舞蹈动作复杂多变,姿态形变剧烈等问题构建序列多尺度特征融合模型,提高姿态估计特征表示的能力,同时,对人体关节点几何关系进行分析,设计层级姿态估计模型,对遮挡关节点进行推理。如图5所示,本发明在舞者存在遮挡、剧烈形变、灯光干扰及快速运动等情况下均能较好的实现舞者姿态的估计。
图6为本发明在5类多人民族舞蹈数据集上的部分可视化结果。多人舞蹈动作姿态估计相对单人舞蹈姿态估计更具挑战性,其不仅包含单人姿态估计中舞者服饰变化、复杂背景、自遮挡及视角变化等问题,还需要处理人数未知,多人之间的互遮挡等问题。如图6(a)-(c)所示,在藏族舞蹈中,由于舞者所穿长裙的遮挡、摄像头视角变化以及舞者剧烈的动作变化,即使人眼也很难同时准确定位出多个舞者的身体关节点。在傣族舞蹈中,由于舞台灯光昏暗、舞者动作复杂多变、统一着装服饰的干扰及多人互遮挡、自遮挡的影响,加剧了舞者关节点估计的难度;在汉族秧歌舞蹈中,舞者存在较大的姿态变化、舞者动作复杂多变以及摄像头视角的变化,增加了姿态估计的难度;在蒙古族舞蹈中,舞者尺度变化较大、存在较为严重的遮挡及服饰遮挡,增加了舞者关节点估计的难度。在维吾尔族舞蹈中,由于舞者服饰严重的遮挡、舞蹈动作的复杂变化以及快速的运动,即使人眼也很难准确定位出遮挡部位关节点的位置。而本发明在上述舞者动作复杂多变、姿态形变剧烈,遮挡严重、服饰及舞台灯光干扰等情况下,通过所构建的序列多尺度特征融合的层级舞蹈动作姿态估计模型,提高姿态估计特征表示的能力及关节点估计的准确性,从而较好的实现了舞者姿态的估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,包括如下步骤:
(1)基于YOLOv3的人体框检测
首先基于YOLOv3检测器进行舞蹈者人体检测框的提取,将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计;
(2)序列多尺度特征融合模型
对步骤(1)中所获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征;在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;
(3)基于关节点几何关系的层级姿态估计方法
对步骤(2)中所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。
2.根据权利要求1所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。
3.根据权利要求2所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出,然后,通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图。
4.根据权利要求3所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征其中,m表示输入特征对应的分辨率;对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征上采样变成修正后的i-1th分辨率特征
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1;
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
5.根据权利要求1或4所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,根据人体结构将步骤(2)中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk;第二类是形变明显的肢体关节klimb;根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
6.根据权利要求5所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,基于关节点几何关系的层级姿态估计网络由三阶段组成,网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置;然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分;接着,将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入,构建第三阶段网络。
7.根据权利要求6所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010759002.4A CN111950412B (zh) | 2020-07-31 | 2020-07-31 | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010759002.4A CN111950412B (zh) | 2020-07-31 | 2020-07-31 | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950412A true CN111950412A (zh) | 2020-11-17 |
CN111950412B CN111950412B (zh) | 2023-11-24 |
Family
ID=73338634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010759002.4A Active CN111950412B (zh) | 2020-07-31 | 2020-07-31 | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950412B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112560665A (zh) * | 2020-12-13 | 2021-03-26 | 同济大学 | 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法 |
CN112613498A (zh) * | 2020-12-16 | 2021-04-06 | 浙江大华技术股份有限公司 | 一种指针识别方法、装置、电子设备及存储介质 |
CN112861723A (zh) * | 2021-02-07 | 2021-05-28 | 北京卓视智通科技有限责任公司 | 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质 |
CN112990060A (zh) * | 2021-03-30 | 2021-06-18 | 北京工业大学 | 一种关节点分类和关节点推理的人体姿态估计分析方法 |
CN113158756A (zh) * | 2021-02-09 | 2021-07-23 | 上海领本智能科技有限公司 | 基于HRNet深度学习的姿态、行为分析模块及分析方法 |
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
CN114863237A (zh) * | 2022-03-25 | 2022-08-05 | 中国人民解放军国防科技大学 | 一种用于游泳姿态识别的方法和系统 |
US20220358310A1 (en) * | 2021-05-06 | 2022-11-10 | Kuo-Yi Lin | Professional dance evaluation method for implementing human pose estimation based on deep transfer learning |
CN115457518A (zh) * | 2022-08-30 | 2022-12-09 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115661929A (zh) * | 2022-10-28 | 2023-01-31 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN116386087A (zh) * | 2023-03-31 | 2023-07-04 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
CN112990060B (zh) * | 2021-03-30 | 2024-05-28 | 北京工业大学 | 一种关节点分类和关节点推理的人体姿态估计分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090252423A1 (en) * | 2007-12-21 | 2009-10-08 | Honda Motor Co. Ltd. | Controlled human pose estimation from depth image streams |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN110175575A (zh) * | 2019-05-29 | 2019-08-27 | 南京邮电大学 | 一种基于新型高分辨率网络模型的单人姿态估计方法 |
-
2020
- 2020-07-31 CN CN202010759002.4A patent/CN111950412B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090252423A1 (en) * | 2007-12-21 | 2009-10-08 | Honda Motor Co. Ltd. | Controlled human pose estimation from depth image streams |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN110135375A (zh) * | 2019-05-20 | 2019-08-16 | 中国科学院宁波材料技术与工程研究所 | 基于全局信息整合的多人姿态估计方法 |
CN110175575A (zh) * | 2019-05-29 | 2019-08-27 | 南京邮电大学 | 一种基于新型高分辨率网络模型的单人姿态估计方法 |
Non-Patent Citations (2)
Title |
---|
申小凤;王春佳;: "基于ASPP的高分辨率卷积神经网络2D人体姿态估计研究", 现代计算机, no. 13 * |
肖贤鹏;刘理想;胡莉;张华;: "基于深度图像的实时多人体姿态估计", 传感器与微系统, no. 06 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560665A (zh) * | 2020-12-13 | 2021-03-26 | 同济大学 | 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法 |
CN112560665B (zh) * | 2020-12-13 | 2022-05-13 | 同济大学 | 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法 |
CN112507904A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112507904B (zh) * | 2020-12-15 | 2022-06-03 | 重庆邮电大学 | 一种基于多尺度特征的教室人体姿态实时检测方法 |
CN112613498A (zh) * | 2020-12-16 | 2021-04-06 | 浙江大华技术股份有限公司 | 一种指针识别方法、装置、电子设备及存储介质 |
CN112861723A (zh) * | 2021-02-07 | 2021-05-28 | 北京卓视智通科技有限责任公司 | 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质 |
CN112861723B (zh) * | 2021-02-07 | 2023-09-01 | 北京卓视智通科技有限责任公司 | 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质 |
CN113158756A (zh) * | 2021-02-09 | 2021-07-23 | 上海领本智能科技有限公司 | 基于HRNet深度学习的姿态、行为分析模块及分析方法 |
CN112990060A (zh) * | 2021-03-30 | 2021-06-18 | 北京工业大学 | 一种关节点分类和关节点推理的人体姿态估计分析方法 |
CN112990060B (zh) * | 2021-03-30 | 2024-05-28 | 北京工业大学 | 一种关节点分类和关节点推理的人体姿态估计分析方法 |
US20220358310A1 (en) * | 2021-05-06 | 2022-11-10 | Kuo-Yi Lin | Professional dance evaluation method for implementing human pose estimation based on deep transfer learning |
US11823496B2 (en) * | 2021-05-06 | 2023-11-21 | Kuo-Yi Lin | Professional dance evaluation method for implementing human pose estimation based on deep transfer learning |
CN114863237B (zh) * | 2022-03-25 | 2023-07-14 | 中国人民解放军国防科技大学 | 一种用于游泳姿态识别的方法和系统 |
CN114863237A (zh) * | 2022-03-25 | 2022-08-05 | 中国人民解放军国防科技大学 | 一种用于游泳姿态识别的方法和系统 |
CN114821639B (zh) * | 2022-04-11 | 2023-04-18 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
CN115457518A (zh) * | 2022-08-30 | 2022-12-09 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115457518B (zh) * | 2022-08-30 | 2024-01-26 | 淮阴工学院 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
CN115661929A (zh) * | 2022-10-28 | 2023-01-31 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN115661929B (zh) * | 2022-10-28 | 2023-11-17 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN116386087A (zh) * | 2023-03-31 | 2023-07-04 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
CN116386087B (zh) * | 2023-03-31 | 2024-01-09 | 阿里巴巴(中国)有限公司 | 目标对象处理方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111950412B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950412B (zh) | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 | |
Liao et al. | A model-based gait recognition method with body pose and human prior knowledge | |
Liu et al. | Recent advances of monocular 2d and 3d human pose estimation: a deep learning perspective | |
Song et al. | Gaitnet: An end-to-end network for gait based human identification | |
Yang et al. | SiamAtt: Siamese attention network for visual tracking | |
Choutas et al. | Accurate 3D body shape regression using metric and semantic attributes | |
Zhang et al. | Unsupervised skeleton extraction and motion capture from 3D deformable matching | |
Tian et al. | Densely connected attentional pyramid residual network for human pose estimation | |
Chang et al. | The model-based human body motion analysis system | |
Guan et al. | Out-of-domain human mesh reconstruction via dynamic bilevel online adaptation | |
Weiyao et al. | Human action recognition using multilevel depth motion maps | |
Ren et al. | A deep and structured metric learning method for robust person re-identification | |
CN109583294B (zh) | 一种基于运动生物力学的多模式人体行为识别方法 | |
Cong et al. | Weakly supervised 3d multi-person pose estimation for large-scale scenes based on monocular camera and single lidar | |
Huang et al. | A review of 3D human body pose estimation and mesh recovery | |
Nguyen et al. | Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation | |
Liu et al. | Video based human animation technique | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model | |
Dhore et al. | Human Pose Estimation And Classification: A Review | |
CN103020631B (zh) | 基于星型模型的人体运动识别方法 | |
Xu et al. | 3D joints estimation of the human body in single-frame point cloud | |
Sheasby et al. | A robust stereo prior for human segmentation | |
CN115953806A (zh) | 一种基于yolo的2d姿态检测方法 | |
CN114782992A (zh) | 一种超关节与多模态网络及其在行为识别方法 | |
CN114120371A (zh) | 图示识别及动作矫正系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |