CN111950412A - 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 - Google Patents

一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 Download PDF

Info

Publication number
CN111950412A
CN111950412A CN202010759002.4A CN202010759002A CN111950412A CN 111950412 A CN111950412 A CN 111950412A CN 202010759002 A CN202010759002 A CN 202010759002A CN 111950412 A CN111950412 A CN 111950412A
Authority
CN
China
Prior art keywords
joint
resolution
human body
joints
hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010759002.4A
Other languages
English (en)
Other versions
CN111950412B (zh
Inventor
杨红红
吴晓军
张玉梅
苏玉萍
裴昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010759002.4A priority Critical patent/CN111950412B/zh
Publication of CN111950412A publication Critical patent/CN111950412A/zh
Application granted granted Critical
Publication of CN111950412B publication Critical patent/CN111950412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,包括如下步骤:基于YOLOv3检测器进行舞蹈者人体检测框提取,将RGB图像输入YOLOv3模型,获得人体检测框;对获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征,在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;对估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。本发明能够提高舞蹈者关节点位置的准确估计,提高舞蹈动作姿态估计的效果。

Description

一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法
技术领域
本发明属于计算机视觉技术领域,更具体的说是涉及一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法。
背景技术
舞蹈是文化的重要表现形式之一,我国舞蹈课堂人数通常较多,教师只能粗略地通过学生的肢体动作及面部表情获取学生的动作变化,难以精确地了解到学生对舞蹈动作实时掌握的情况。因此,运用信息技术实时对舞者的动作姿态进行估计,及时获得课堂舞蹈教学状态信息,将极大促进因材施教的实施。
随着科技与文化深度融合的开展,舞蹈图像中的动作姿态估计将成为计算机视觉技术的一个重要应用领域,其不仅可以用于专业舞蹈者动作纠正,舞蹈自助教学等应用场景,还可以用于运动员运动分析、比赛仲裁、动作识别、影视娱乐、辅助游戏设计、增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)等多个人机交互现实场景。同时,可以充分发挥舞蹈教学作为“文化自信”育人载体的作用,实现中华民族文化的振兴,对于传承中华文化具有重要意义。
目前,多人姿态估计方法可以分为自顶向下(top-down)和自底向上(bottom-up)两类,前者主要是先通过目标检测器检测出图像中的人体检测框,然后对每一个人体检测框进行单人姿态估计产生人体关节点,最后对关节点进行连接形成人体姿态估计结果。自底向上的姿态估计方法与前者正好相反,主要分为关节点检测和关节点聚类两部分,其首先利用单人姿态估计算法将图像中所有的关节点检测出来,然后对不同人体的关节点进行聚类,将属于同一个人体的关节点聚合到一起实现多人姿态估计。
上述两类多人姿态估计方法各有优缺点,top-down方法将人体姿态估计分为人体目标检测和单人姿态估计两步。由于其依赖于性能较好的目标检测算法及单人姿态估计算法,人体姿态估计的准确率较高。但是,该类方法性能受目标检测框质量影响严重,即使最为先进的目标检测器也会存在检测误差,造成人体检测框冗余、漏检和误检等现象。而bottom-up方法不依赖于目标检测器进行人体框的检测,因此其检测速度较快,但是对不同关节点进行聚合时受遮挡影响严重,当多人距离较近时,很容易造成同一人体关节点聚类歧义问题,因此其人体姿态估计准确率较低。
此外,现有的人体姿态估计方法主要针对传统的数据集,如MSCOCO,MPII、LSP等,其包含简单的人体姿态,如站立,走路等。但是,舞蹈动作姿态估计中存在舞蹈动作复杂多变,连贯性强,遮挡问题严重,舞蹈课堂场景中多存在遮挡、光照变化及相机视角变化等干扰因素,极大地增加了舞蹈动作姿态估计的难度。因此,传统人体姿态估计方法存在难以准确估计舞蹈者动作变化的问题。
因此,如何提供一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题,构建基于序列多尺度特征融合表示的关节点估计模型。其次,针对舞蹈姿态形变较大、遮挡严重的问题,对人体关节点关联性进行分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。
为了实现上述目的,本发明采用如下技术方案:
一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,包括如下步骤:
(1)基于YOLOv3的人体框检测
首先基于YOLOv3检测器进行舞蹈者人体检测框的提取,将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计;
(2)序列多尺度特征融合模型
对步骤(1)中所获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征;在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;
(3)基于关节点几何关系的层级姿态估计方法
对步骤(2)中所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。
优选的,所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。
优选的,所述HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出,然后,通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图。
优选的,所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征
Figure BDA0002612525500000041
其中,m表示输入特征对应的分辨率;对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征
Figure BDA0002612525500000049
上采样变成修正后的i-1th分辨率特征
Figure BDA0002612525500000042
Figure BDA0002612525500000043
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
接着,级联上采样获得的修正后的i-1th分辨率特征
Figure BDA0002612525500000044
和第i-1th分辨率特征
Figure BDA0002612525500000045
得到融合后的第i-1th分辨率特征X′i-1
Figure BDA0002612525500000046
其中,concat表示级联特征
Figure BDA0002612525500000047
Figure BDA0002612525500000048
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
优选的,根据人体结构将步骤(2)中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk;第二类是形变明显的肢体关节klimb;根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
优选的,基于关节点几何关系的层级姿态估计网络由三阶段组成,网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置;然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分;接着,将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入,构建第三阶段网络。
优选的,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
优选的,对于任意一类的躯干关节与肢体关节,设N1、N2分别为第c部分躯干关节
Figure BDA0002612525500000051
和肢体关节
Figure BDA0002612525500000052
的候选关节点集合,则所有候选关节点连接集合的最优匹配问题为:
Figure BDA0002612525500000053
其中,
Figure BDA0002612525500000054
表示关节点k1和k2是否连接,K表示关节点个数。
优选的,对于相互连接的成对关节(k1,k2),根据YOLOv3模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题;通过求解所有类内候选关节点连接集合的最优匹配问题,得到躯干关节与肢体关节之间连接的最优匹配,表示为:
Figure BDA0002612525500000055
Figure BDA0002612525500000056
其中,Emn为关节点之间的关联概率;
连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。
本发明的有益效果在于:
本发明提出了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,首先针对舞蹈动作骨骼关节点尺度变化剧烈的问题,构建基于序列多尺度特征融合表示的关节点估计模型,解决舞蹈姿态存在较大的形变及遮挡严重的问题,通过分析人体骨骼关节点之间的几何关系,进行多层次的关节点估计,提高舞蹈者关节点位置的准确估计。其次,针对舞蹈姿态形变较大、遮挡严重的问题,对人体关节点关联性进行分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。本发明解决了解决舞蹈动作骨骼关节点尺度变化剧烈的问题,以HRNet网络为骨干网络,提出序列多尺度特征融合方法,通过对高、低层多尺度特征进行融合,提高姿态估计对尺度变化的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程图。
图2为本发明中的骨干网络HRNet示意图。
图3为本发明中的序列多尺度特征融合模块示意图。
图4为本发明中人体关节点几何关系示意图。
图5为基于本发明方法在单人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。
图6为基于本发明方法在多人舞蹈数据集上的部分舞蹈姿态估计可视化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅附图1,本发明提供了一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,该方法基于YOLOv3的人体框检测,序列多尺度特征融合,基于关节点几何关系的层级实时姿态估计。本发明采用top-down框架,首先利用YOLOv3进行舞蹈者人体框的检测;然后以HRNet(High resolution network)网络为骨干网络,设计序列多尺度特征融合模型,对每个舞者人体检测框进行姿态估计;最后设计基于关节点几何关系的层级姿态估计模型对所预测的人体关节点进一步优化,通过偶图匹配子问题求解,获得躯干关节与肢体关节连接的最优匹配,形成舞者人体的最终姿态估计结果。具体包括如下步骤:
S1:基于YOLOv3的人体框检测
本发明在舞蹈者人体目标检测阶段采用端到端的一步走检测算法,基于YOLOv3检测器进行舞蹈者人体检测框(human proposal)的提取。将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计。
S2:序列多尺度特征融合
由于姿态估计任务是像素(pixel-wise)级keypoint估计问题,其需要利用低层和高层特征对不同尺度大小的关节点进行定位,高层特征有利于大尺度关节点的定位,而低层特征对小尺度关节点的定位非常重要。针对舞蹈动作连贯性强,骨骼关节尺度变化剧烈的问题,本发明构建一种序列多尺度特征融合模型,提高姿态估计对尺度变化的鲁棒性。
1.HRNet网络。本发明以HRNet网络为骨干网络,如图2所示,其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出。最后,通过聚合单元(exchange Unit)对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图(feature map)。
HRNet网络由于能够较好的提取输入图像的多分辨率特征,其具有较强的特征表示能力,在目标检测、识别、图像分割以及人体关节点估计任务中获得较好的结果,但是HRNet网络在人体姿态关节点估计过程中并没有充分利用其提取的多分辨率特征,仅使用其中的高分辨率特征进行关节点热图(heatmap)估计,丢弃其它中、低分辨率特征,从而造成特征表示过程中的信息损失,影响关节点估计的准确性。因此,针对上述问题,本发明提出构建序列多尺度特征融合模型,提高姿态估计特征表示的能力。
2.序列多尺度特征融合:在特征表示中,具有低分辨率的高层特征具有丰富的语义信息而位置信息相对粗糙,而具有高分辨率的低层特征虽然语义信息相对较弱但包含准确的位置信息。因此,本发明提出序列多尺度特征融合方法(SMF),对高、低分辨率特征进行有序融合,增强网络特征表示的能力。如图3所示,该序列多尺度特征融合方法对HRNet网络最后一个聚合单元输出的4个分辨率特征图经过卷积、插值(interpolation)和反卷积(deconvolution)操作进行由高分辨率到低分辨率的序列多特征融合。
本发明以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征
Figure BDA0002612525500000091
其中,m表示输入特征对应的分辨率(m=4);对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征
Figure BDA0002612525500000092
上采样变成修正后的i-1th分辨率特征
Figure BDA0002612525500000093
Figure BDA0002612525500000094
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
接着,级联上采样获得的修正后的i-1th分辨率特征
Figure BDA0002612525500000095
和第i-1th分辨率特征
Figure BDA0002612525500000096
得到融合后的第i-1th分辨率特征X′i-1
Figure BDA0002612525500000097
其中,concat表示级联特征
Figure BDA0002612525500000098
Figure BDA0002612525500000099
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
步骤3:基于关节点几何关系的层级姿态估计
由于舞蹈姿态存在大的形变及遮挡严重的问题,本发明利用步骤2所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计,提高舞蹈者身体关节点位置的准确估计。
首先,根据人体结构将步骤2中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk,如肩,臀、颈部;第二类是形变明显的肢体关节klimb,如手腕、手肘、膝盖及脚踝等铰链结构关节。然后,根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为如图4所示的5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
如图1所示,本发明所设计的层级网络由三阶段组成,网络的第一阶段为根据步骤2所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置。然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,本发明利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分,也称为5类(颈部、左肩、右肩、左臀、右臀)。接着,将网络第一阶段所有的关节点及第二阶段预测获得的5类躯干关节作为输入,构建第三阶段网络。同时,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
由于每一类躯干关节,可以有多个候选肢体关节,同样,每一个肢体关节也可能与任意一类躯干关节相连接。因此,对于任意一类的躯干关节与肢体关节,设N1、N2分别为第c部分躯干关节
Figure BDA0002612525500000101
和肢体关节
Figure BDA0002612525500000102
的候选关节点集合,则所有候选关节点连接集合的最优匹配问题为:
Figure BDA0002612525500000103
其中,
Figure BDA0002612525500000104
表示关节点k1和k2是否连接,K表示关节点个数。
对于相互连接的成对关节(k1,k2),根据图模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题。通过求解所有类内候选关节点连接集合的最优匹配问题,得到躯干关节与肢体关节之间连接的最优匹配,表示为:
Figure BDA0002612525500000111
Figure BDA0002612525500000112
其中,Emn关节点之间的关联概率。
最后,连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。
为了验证本发明的有益效果,发明人采用本发明实施例的方法进行了仿真实验,实验情况如下:
1、仿真条件
硬件条件为:Ubuntu 16.04,4个NVIDIA 1080Ti GPU组成的服务器。
软件平台为:python语言及Pytorch深度网络框架。
2、仿真内容与结果
用本发明方法在上述仿真条件下进行实验,结果见图5、图6,与现有技术相比,本发明具有以下优点:
本发明提出了一种序列多尺度特征融合的层级舞蹈动作实时姿态估计方法,该发明针对舞蹈图像中人体动作复杂多变、舞蹈动作连贯性强、舞蹈者存在严重遮挡不易检测等特点,传统人体姿态估计方法难以准确估计舞蹈者的动作变化,导致舞蹈动作姿态估计准确率较低的问题,提出一种基于序列多尺度特征融合表示的层级舞蹈动作姿态估计方法,通过构建序列多尺度特征融合模型,提高姿态估计特征表示的能力。同时,针对舞蹈姿态形变较大,遮挡严重的问题,对人体几何关节点进行关联性分析,设计基于关节点几何关系的层级姿态估计模型,提高舞蹈动作姿态估计的效果。
图5、图6为本发明选取的5类特色鲜明的单人、多人民族舞蹈数据集姿态估计可视化结果分析,分别为藏族舞蹈、傣族舞蹈、汉族秧歌、蒙古族舞蹈、维吾尔族舞蹈。
如图5(a)-(c)所示,在藏族舞蹈中,由于舞者所穿黑色长裙的遮挡,即使人眼也很难准确定位出腿部关节的位置,此外,如图5(d)-(e)所示,舞者白色上袖对胳膊关节及腿部关节的遮挡,加大的姿态估计的难度。本发明在此情况下,根据人体关节的几何关系,通过层级姿态估计模型进行偶图匹配子问题求解,进行遮挡关节点的预测,从而获得较为准确的关节点估计结果。在傣族舞蹈中,如图5(a)-(e)所示,舞者姿态存在剧烈的形变、舞者身体自遮挡及服饰遮挡现象严重,加大了关节点估计的难度;在汉族秧歌舞蹈中,如图5(a)-(e)所示,道具扇子对舞者姿态存在严重的遮挡,同时,舞者存在快速的运动导致运动模糊,如图5(d)-(e)所示。在蒙古族舞蹈中,如图5(a)-(e)所示,舞者姿态存在严重的自遮挡及服饰遮挡,即使人眼也很难准确定位出长裙遮挡腿部关节的位置。在维吾尔族舞蹈中,如图5(a)-(e)所示,由于灯光的影响以及舞者服饰和快速的运动,增加了舞者关节点估计的难度。综上所述,本发明针对舞蹈动作复杂多变,姿态形变剧烈等问题构建序列多尺度特征融合模型,提高姿态估计特征表示的能力,同时,对人体关节点几何关系进行分析,设计层级姿态估计模型,对遮挡关节点进行推理。如图5所示,本发明在舞者存在遮挡、剧烈形变、灯光干扰及快速运动等情况下均能较好的实现舞者姿态的估计。
图6为本发明在5类多人民族舞蹈数据集上的部分可视化结果。多人舞蹈动作姿态估计相对单人舞蹈姿态估计更具挑战性,其不仅包含单人姿态估计中舞者服饰变化、复杂背景、自遮挡及视角变化等问题,还需要处理人数未知,多人之间的互遮挡等问题。如图6(a)-(c)所示,在藏族舞蹈中,由于舞者所穿长裙的遮挡、摄像头视角变化以及舞者剧烈的动作变化,即使人眼也很难同时准确定位出多个舞者的身体关节点。在傣族舞蹈中,由于舞台灯光昏暗、舞者动作复杂多变、统一着装服饰的干扰及多人互遮挡、自遮挡的影响,加剧了舞者关节点估计的难度;在汉族秧歌舞蹈中,舞者存在较大的姿态变化、舞者动作复杂多变以及摄像头视角的变化,增加了姿态估计的难度;在蒙古族舞蹈中,舞者尺度变化较大、存在较为严重的遮挡及服饰遮挡,增加了舞者关节点估计的难度。在维吾尔族舞蹈中,由于舞者服饰严重的遮挡、舞蹈动作的复杂变化以及快速的运动,即使人眼也很难准确定位出遮挡部位关节点的位置。而本发明在上述舞者动作复杂多变、姿态形变剧烈,遮挡严重、服饰及舞台灯光干扰等情况下,通过所构建的序列多尺度特征融合的层级舞蹈动作姿态估计模型,提高姿态估计特征表示的能力及关节点估计的准确性,从而较好的实现了舞者姿态的估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,包括如下步骤:
(1)基于YOLOv3的人体框检测
首先基于YOLOv3检测器进行舞蹈者人体检测框的提取,将RGB图像输入YOLOv3模型,获得相应的人体检测框用于人体姿态估计;
(2)序列多尺度特征融合模型
对步骤(1)中所获得的人体检测框进行关节点特征提取,来获得融合多分辨率多尺度信息的特征;在融合多分辨率多尺度信息的特征上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息;
(3)基于关节点几何关系的层级姿态估计方法
对步骤(2)中所估计得到的人体骨骼关节点进行关节点几何关系关联性预测,通过分析关节点之间的几何关系,构建基于关节点几何关系的层级姿态估计模型,进行多层次的关节点估计。
2.根据权利要求1所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述序列多尺度特征融合模型首先以HRNet网络为骨干网络其由4个并行的多分辨率子网构成,每个子网络采用ResNet模块设计原则,由4个残差单元组成。
3.根据权利要求2所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述HRNet网络首先以高分辨率的子网络作为起始阶段,然后重复添加从高分辨率到低分辨率的子网络形成第2,3,4阶段的输出,然后,通过聚合单元对高、中、低分辨率的特征进行跨尺度的融合,并行连接多分辨率子网络,得到相应的输出特征图。
4.根据权利要求3所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,所述序列多尺度特征融合模型以HRNet网络最后一个聚合单元输出的4个特征图作为序列多尺度特征融合模块的输入特征
Figure FDA0002612525490000021
其中,m表示输入特征对应的分辨率;对于任意的第ith分辨率的特征,首先进行conv(3×3)卷积操作,然后进行插值和反卷积操作使ith分辨率的特征
Figure FDA0002612525490000022
上采样变成修正后的i-1th分辨率特征
Figure FDA0002612525490000023
Figure FDA0002612525490000024
其中,conv表示卷积操作,Int和Dec分别表示插值和反卷积操作;
接着,级联上采样获得的修正后的i-1th分辨率特征
Figure FDA0002612525490000025
和第i-1th分辨率特征
Figure FDA0002612525490000026
得到融合后的第i-1th分辨率特征X′i-1
Figure FDA0002612525490000027
其中,concat表示级联特征
Figure FDA0002612525490000028
Figure FDA0002612525490000029
经过反复执行公式(1)和公式(2)实现高、低分辨率特征的序列融合,通过公式(2),最终获得融合多分辨率多尺度信息的特征X′1
最后,在最终的特征X′1上使用softmax函数获得关节点的heatmap,由heatmap估算获得各关节的位置信息。
5.根据权利要求1或4所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,根据人体结构将步骤(2)中所获得的关节点划分为两类:第一类是形变较小的连接人体各关节的躯干关节ktrunk;第二类是形变明显的肢体关节klimb;根据所划分的两类关节,设计层级姿态估计模型,将人体所有关节点聚合为5部分,颈部、左肩、右肩、左臀、右臀,进行基于人体关节几何关系的关节点预测。
6.根据权利要求5所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,基于关节点几何关系的层级姿态估计网络由三阶段组成,网络的第一阶段为根据步骤(2)所设计的SMF模型进行人体所有关节点的heatmap预测,并计算相应的坐标位置;然后将第一阶段所获得的关节点heatmap作为第二阶段网络的输入,鉴于人体躯干关节的形变较小及肢体关节的形变较大的特点,利用SMF模型从第一阶段所获得的所有人体关节中预测形变较稳定的躯干关节ktrunk,将人体关节划分为以躯干关节为主的5部分;接着,将网络第一阶段所有的关节点及第二阶段预测获得的5部分躯干关节作为输入,构建第三阶段网络。
7.根据权利要求6所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,考虑人体结构的几何相关性,将人体所有的关节点进行类内关联划分到5类躯干关节中,实现肢体关节与躯干关节的连接。
8.根据权利要求7所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,对于任意一类的躯干关节与肢体关节,设N1、N2分别为第c部分躯干关节
Figure FDA0002612525490000031
和肢体关节
Figure FDA0002612525490000032
的候选关节点集合,则所有候选关节点连接集合的最优匹配问题为:
Figure FDA0002612525490000033
其中,
Figure FDA0002612525490000034
表示关节点k1和k2是否连接,K表示关节点个数。
9.根据权利要求8所述的一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法,其特征在于,
对于相互连接的成对关节(k1,k2),根据YOLOv3模型中两条边共享共同节点的方式将关节点之间的连接匹配问题转化为偶图匹配子问题;通过求解所有类内候选关节点连接集合的最优匹配问题,得到躯干关节与肢体关节之间连接的最优匹配,表示为:
Figure FDA0002612525490000035
Figure FDA0002612525490000041
其中,Emn为关节点之间的关联概率;
连接所有躯干关节与肢体关节的最优匹配组成人体的最终姿态估计结果。
CN202010759002.4A 2020-07-31 2020-07-31 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 Active CN111950412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010759002.4A CN111950412B (zh) 2020-07-31 2020-07-31 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010759002.4A CN111950412B (zh) 2020-07-31 2020-07-31 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法

Publications (2)

Publication Number Publication Date
CN111950412A true CN111950412A (zh) 2020-11-17
CN111950412B CN111950412B (zh) 2023-11-24

Family

ID=73338634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010759002.4A Active CN111950412B (zh) 2020-07-31 2020-07-31 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法

Country Status (1)

Country Link
CN (1) CN111950412B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507904A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于多尺度特征的教室人体姿态实时检测方法
CN112560665A (zh) * 2020-12-13 2021-03-26 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112613498A (zh) * 2020-12-16 2021-04-06 浙江大华技术股份有限公司 一种指针识别方法、装置、电子设备及存储介质
CN112861723A (zh) * 2021-02-07 2021-05-28 北京卓视智通科技有限责任公司 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质
CN112990060A (zh) * 2021-03-30 2021-06-18 北京工业大学 一种关节点分类和关节点推理的人体姿态估计分析方法
CN113158756A (zh) * 2021-02-09 2021-07-23 上海领本智能科技有限公司 基于HRNet深度学习的姿态、行为分析模块及分析方法
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN114863237A (zh) * 2022-03-25 2022-08-05 中国人民解放军国防科技大学 一种用于游泳姿态识别的方法和系统
US20220358310A1 (en) * 2021-05-06 2022-11-10 Kuo-Yi Lin Professional dance evaluation method for implementing human pose estimation based on deep transfer learning
CN115457518A (zh) * 2022-08-30 2022-12-09 淮阴工学院 基于姿态感知与几何约束下的驾驶员行为识别方法及系统
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
CN112990060B (zh) * 2021-03-30 2024-05-28 北京工业大学 一种关节点分类和关节点推理的人体姿态估计分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090252423A1 (en) * 2007-12-21 2009-10-08 Honda Motor Co. Ltd. Controlled human pose estimation from depth image streams
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110175575A (zh) * 2019-05-29 2019-08-27 南京邮电大学 一种基于新型高分辨率网络模型的单人姿态估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090252423A1 (en) * 2007-12-21 2009-10-08 Honda Motor Co. Ltd. Controlled human pose estimation from depth image streams
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110175575A (zh) * 2019-05-29 2019-08-27 南京邮电大学 一种基于新型高分辨率网络模型的单人姿态估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
申小凤;王春佳;: "基于ASPP的高分辨率卷积神经网络2D人体姿态估计研究", 现代计算机, no. 13 *
肖贤鹏;刘理想;胡莉;张华;: "基于深度图像的实时多人体姿态估计", 传感器与微系统, no. 06 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560665A (zh) * 2020-12-13 2021-03-26 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112560665B (zh) * 2020-12-13 2022-05-13 同济大学 基于深度迁移学习实现人体姿态检测的专业舞蹈评价方法
CN112507904A (zh) * 2020-12-15 2021-03-16 重庆邮电大学 一种基于多尺度特征的教室人体姿态实时检测方法
CN112507904B (zh) * 2020-12-15 2022-06-03 重庆邮电大学 一种基于多尺度特征的教室人体姿态实时检测方法
CN112613498A (zh) * 2020-12-16 2021-04-06 浙江大华技术股份有限公司 一种指针识别方法、装置、电子设备及存储介质
CN112861723A (zh) * 2021-02-07 2021-05-28 北京卓视智通科技有限责任公司 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质
CN112861723B (zh) * 2021-02-07 2023-09-01 北京卓视智通科技有限责任公司 基于人体姿势识别的体育动作识别计数方法、装置及计算机可读存储介质
CN113158756A (zh) * 2021-02-09 2021-07-23 上海领本智能科技有限公司 基于HRNet深度学习的姿态、行为分析模块及分析方法
CN112990060A (zh) * 2021-03-30 2021-06-18 北京工业大学 一种关节点分类和关节点推理的人体姿态估计分析方法
CN112990060B (zh) * 2021-03-30 2024-05-28 北京工业大学 一种关节点分类和关节点推理的人体姿态估计分析方法
US20220358310A1 (en) * 2021-05-06 2022-11-10 Kuo-Yi Lin Professional dance evaluation method for implementing human pose estimation based on deep transfer learning
US11823496B2 (en) * 2021-05-06 2023-11-21 Kuo-Yi Lin Professional dance evaluation method for implementing human pose estimation based on deep transfer learning
CN114863237B (zh) * 2022-03-25 2023-07-14 中国人民解放军国防科技大学 一种用于游泳姿态识别的方法和系统
CN114863237A (zh) * 2022-03-25 2022-08-05 中国人民解放军国防科技大学 一种用于游泳姿态识别的方法和系统
CN114821639B (zh) * 2022-04-11 2023-04-18 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN115457518A (zh) * 2022-08-30 2022-12-09 淮阴工学院 基于姿态感知与几何约束下的驾驶员行为识别方法及系统
CN115457518B (zh) * 2022-08-30 2024-01-26 淮阴工学院 基于姿态感知与几何约束下的驾驶员行为识别方法及系统
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
CN116386087B (zh) * 2023-03-31 2024-01-09 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Also Published As

Publication number Publication date
CN111950412B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111950412B (zh) 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法
Liao et al. A model-based gait recognition method with body pose and human prior knowledge
Liu et al. Recent advances of monocular 2d and 3d human pose estimation: a deep learning perspective
Song et al. Gaitnet: An end-to-end network for gait based human identification
Yang et al. SiamAtt: Siamese attention network for visual tracking
Choutas et al. Accurate 3D body shape regression using metric and semantic attributes
Zhang et al. Unsupervised skeleton extraction and motion capture from 3D deformable matching
Tian et al. Densely connected attentional pyramid residual network for human pose estimation
Chang et al. The model-based human body motion analysis system
Guan et al. Out-of-domain human mesh reconstruction via dynamic bilevel online adaptation
Weiyao et al. Human action recognition using multilevel depth motion maps
Ren et al. A deep and structured metric learning method for robust person re-identification
CN109583294B (zh) 一种基于运动生物力学的多模式人体行为识别方法
Cong et al. Weakly supervised 3d multi-person pose estimation for large-scale scenes based on monocular camera and single lidar
Huang et al. A review of 3D human body pose estimation and mesh recovery
Nguyen et al. Combined YOLOv5 and HRNet for high accuracy 2D keypoint and human pose estimation
Liu et al. Video based human animation technique
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model
Dhore et al. Human Pose Estimation And Classification: A Review
CN103020631B (zh) 基于星型模型的人体运动识别方法
Xu et al. 3D joints estimation of the human body in single-frame point cloud
Sheasby et al. A robust stereo prior for human segmentation
CN115953806A (zh) 一种基于yolo的2d姿态检测方法
CN114782992A (zh) 一种超关节与多模态网络及其在行为识别方法
CN114120371A (zh) 图示识别及动作矫正系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant