CN115083015B - 一种3d人体姿态估计数据标注方式和对应的模型构建方法 - Google Patents
一种3d人体姿态估计数据标注方式和对应的模型构建方法 Download PDFInfo
- Publication number
- CN115083015B CN115083015B CN202210653359.3A CN202210653359A CN115083015B CN 115083015 B CN115083015 B CN 115083015B CN 202210653359 A CN202210653359 A CN 202210653359A CN 115083015 B CN115083015 B CN 115083015B
- Authority
- CN
- China
- Prior art keywords
- human body
- coordinate
- posture estimation
- points
- model construction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 20
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 24
- 210000003414 extremity Anatomy 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 210000003423 ankle Anatomy 0.000 claims description 6
- 210000001624 hip Anatomy 0.000 claims description 6
- 210000003127 knee Anatomy 0.000 claims description 6
- 210000002414 leg Anatomy 0.000 claims description 6
- 210000000707 wrist Anatomy 0.000 claims description 6
- 210000000038 chest Anatomy 0.000 claims description 4
- 210000004394 hip joint Anatomy 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 210000000115 thoracic cavity Anatomy 0.000 claims description 2
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;对任一两个相邻点之间进行深度差值计算,神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量;最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。
Description
技术领域
本发明涉及计算机深度学习算法技术领域,尤其涉及一种新型的3D人体姿态估计数据标注方式和对应的模型构建方法。
背景技术
3D人体姿态估计,可通过人体图像推断出3D关键节点的位置,然后根据节点的相对位置和关节角度变化去估计人体的真实动作姿态。它是深度学习可落地算法中的一个重要算法应用技术,广泛被应用在行为分析、步态分析、危险行为检测、人机交互、虚拟游戏等领域。3D人体姿态估计按照输入数据类型,可进一步被分为基于RGB图像的姿态估计算法、基于视频的姿态估计算法以及基于深度图的姿态估计算法,本发明涉及到的技术可适配任意数据类型。
从算法上来分,姿态估计任务可分为两种:一种是端到端的单阶段方式,由深度学习模型直接从图像或视频推断出人体3D关键点的坐标信息(x,y,z),由于原始视频或图像中场景环境的复杂性、人物动作的多样性和不同衣物纹理的差异性,因此要想通过该方法得到通用能力较强的模型,必须要有大量的差异性明显的图片或视频,然而现有的人体数据集场景、动作比较单一,不能满足需要,同时3D人体数据标注成本很高,难以获取,因此该方法适配能力非常有限;第二种是两阶段方法,先通过2D人体姿态估计算法从图像或视频推断出人体2D关键点坐标信息(x,y),再由2D点坐标通过3D网络模型进行人体3D关键点坐标预测,由于2D人体标注简易且2D人体姿态估计算法相对来说比较成熟,因此第一阶段得到的2D点坐标较为精准,再通过第二阶段进行3D点坐标预测的时候,规避掉了场景环境、动作、衣服等因素的影响,该方法得到的模型跟第一种方法相比,通用性更强,但第二阶段自身也有明显的局限性,主要原因在于它抛弃了图像中人体动作不同肢体之间的前后深度差,只凭借2D人体姿态坐标去进行推断,而一个2D人体姿态对应多个3D人体姿态,即使利用了视频的前后多个帧的坐标综合进行判断,关键点的深度信息也经常预测错误。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。本发明在现有3D人体数据集基础上,提出了一种新型的数据标注方式,主要是通过相机坐标系下每相邻两个肢体关键点之间的深度差异,去推断出人体所有关键节点的深度分布,以这种相对深度作为标签值可以让每个点在进行预测和评估的时候只需要考虑相邻的位置变化,而不会去考虑整体的动作变化,任务难度大幅度降低。针对这种新型的数据标签格式,还需要一个与之对应的模型搭建相匹配,该模型的输入不再只是单一的2D人体姿态算法得到的人体2D关键点坐标,还需要额外的图像特征作为模型加强分支的输入,以这种方式预测的3D关键点坐标没有抛弃图像中人体肢体间的前后深度差,最终得到的3D点的精度大幅度提升。
为此,本发明公开了一种3D人体姿态估计数据标注方式和对应的模型构建方法,如图1所示,所述方法包括如下步骤:
步骤1,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;
步骤2,将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;
步骤3,对任一两个相邻点之间进行深度差值计算,初始化起始参照点自身的相对深度差,并跟其余所述预定数量减1个点计算得到的深度差组成数组,并将所述数组作为新的标签,然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代,得到最终的预定数量的相对3D坐标值;
步骤4,构建神经网络,采用二阶段姿态估计算法的训练,神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量,第二分支将人体2D坐标输入原有的2D转3D的映射网络;
步骤5,最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。
更进一步地,所述步骤1进一步包括:拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕,其中,所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。
更进一步地,所述步骤2进一步包括:所述预定数量为17,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标,其中,用C1,C2,C3...C17来表示所述相机坐标系下的3D坐标,和图像坐标系下的2D坐标。
更进一步地,所述步骤3进一步包括:选定起始参照点,将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号-->表示两点相邻,可以简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10,那么剩余的相邻点可表示为C2-->C1,C4-->C5,C5-->C6,C7-->C8,C8-->C9,C10-->C11,C11-->C12,C12-->C13,C13-->C14,C11-->C15,C15-->C16,C16-->C17;C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标,同理可得所有16点的相对相邻点的深度差;起始参照点C3自身的相对深度差记为0,跟剩余16点计算得到的深度差组成一个数组,数组长度为17,将这个数组作为新的标签,以这种方式进行数据标注之后,HM3.6M数据集每张图片,都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差,将每个点的3D坐标值的z轴坐标用相对深度差取代,得到最终的17个点的相对3D坐标值。
更进一步地,神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像进一步包括:所述预先裁剪的方式为按照所述关键节点进行裁剪。
更进一步地,所述预先裁剪的方式为按照所述关键节点进行裁剪进一步包括:在对人体图像进行特征提取之前,需要按照2D关键点将人体进行简单的分割,分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分,每部分裁剪尺寸为64*64。
更进一步地,所述步骤4进一步包括:
特征提取函数为:
其中,代表提取后的人体特征向量,Xi代表裁剪后的肢体部分,n是裁剪得到的身体总数,Concat表示拼接操作函数,F表示特征提取网络。
更进一步地,所述步骤5进一步包括:具体的计算公式如下:
其中,P3d为预测后的人体3D姿态坐标,P2d为第一阶段得到的人体2D姿态坐标,M为2D到3D的映射网络,Wfc和bfc代表全连接层的参数。
更进一步地,整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。
更进一步地,所述步骤5进一步包括:特征整合,并进行3D点坐标预测,用真实的相对坐标值进行监督训练。
本领域与现有技术相比,有益效果为:在现有3D人体数据集基础上,提出了一种新型的数据标注方式,主要是通过相机坐标系下每相邻两个肢体关键点之间的深度差异,去推断出人体所有关键节点的深度分布,以这种相对深度作为标签值可以让每个点在进行预测和评估的时候只需要考虑相邻的位置变化,而不会去考虑整体的动作变化,任务难度大幅度降低。针对这种新型的数据标签格式,还需要一个与之对应的模型搭建相匹配,该模型的输入不再只是单一的2D人体姿态算法得到的人体2D关键点坐标,还需要额外的图像特征作为模型加强分支的输入,以这种方式预测的3D关键点坐标没有抛弃图像中人体肢体间的前后深度差,最终得到的3D点的精度大幅度提升。并且,目前所有两阶段姿态估计算法在第一阶段获取到2D人体关键点之后,第二阶段就会抛弃图像特征,只通过映射网络进行2D转3D的坐标预测。本发明在保证映射网络不变的情况下,新建了另一个网络分支对人体图像特征进行提取度大幅度提升。以本发明的裁剪的方式得到肢体部分特征,会保证每个关键节点进行预测时,更多的注意力放在相邻肢体上,一定程度上减轻了任务的复杂度。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的数据标注方式和相匹配的模型构建方法的流程图。
图2是本发明一实施例的最终的3D坐标值预测的方法的流程图。
具体实施方式
实施例一
如图2所示的本实施例的核心包括两个方面:一是提出了一种新型的数据标注方式;二是与新型标注方式相匹配的模型构建方法。
方面一包括:
第一步,拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕。这些点可通过位置索引的方式进行筛选。
第二步,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标(用C1,C2,C3...C17来表示),和图像坐标系下的2D坐标。
第三步,每两个相邻点之间进行深度差值计算,具体步骤如下:将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号-->表示两点相邻,可以简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10,那么剩余的相邻点可表示为C2-->C1,C4-->C5,C5-->C6,C7-->C8,C8-->C9,C10-->C11,C11-->C12,C12-->C13,C13-->C14,C11-->C15,C15-->C16,C16-->C17;C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标,同理可得所有16点的相对相邻点的深度差;起始参照点C3自身的相对深度差记为0,跟剩余16点计算得到的深度差组成一个数组,数组长度为17,将这个数组作为新的标签。以这种方式进行数据标注之后,HM3.6M数据集每张图片,都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差,将每个点的3D坐标值的z轴坐标用相对深度差取代,得到最终的17个点的相对3D坐标值。
方面二核心在于构建网络,用于二阶段姿态估计算法的训练,步骤如下:
第一步,目前所有两阶段姿态估计算法在第一阶段获取到2D人体关键点之后,第二阶段就会抛弃图像特征,只通过映射网络进行2D转3D的坐标预测。本发明在保证映射网络不变的情况下,新建了另一个网络分支对人体图像特征进行提取,该分支的输入是第一阶段得到的人体抠图。
进一步地,新分支在对人体图像进行特征提取之前,需要按照2D关键点将人体进行简单的分割,分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分,每部分裁剪尺寸为64*64,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量。特征提取函数为:
其中,代表提取后的人体特征向量,Xi代表裁剪后的肢体部分,n是裁剪得到的身体总数,Concat表示拼接操作函数,F表示特征提取网络。
最后,以这种裁剪的方式得到肢体部分特征,会保证每个关键节点进行预测时,更多的注意力放在相邻肢体上,一定程度上减轻了任务的复杂度。最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测。具体的计算公式如下:
其中,P3d为预测后的人体3D姿态坐标,P2d为第一阶段得到的人体2D姿态坐标,M为2D到3D的映射网络,Wfc和bfc代表全连接层的参数。
整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (8)
1.一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述方法包括如下步骤:
步骤1,获取原始的人体3D骨骼数据,根据预设规则剔除所述人体3D骨骼数据中不需要的关键节点;
步骤2,将原人体骨骼筛选后的预定数量的3D世界坐标转成与之对应的相机坐标系下的3D坐标和图像坐标系下的2D坐标;
步骤3,对任意两个相邻点之间进行深度差值计算,初始化起始参照点自身的相对深度差,并跟其余所述预定数量减1个点计算得到的深度差组成数组,并将所述数组作为新的标签,然后将所述的关键节点的3D坐标值的z轴坐标用相对深度差取代,得到最终的预定数量的相对3D坐标值;
步骤4,构建神经网络,采用二阶段姿态估计算法的训练,神经网络的第一分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像,裁剪之后经过相同结构的卷积网络进行特征提取,且这些卷积网络之间不共享参数,将每部分肢体提取到的特征向量进行拼接得到一维的人体特征向量,第二分支将人体2D坐标输入原有的2D转3D的映射网络,其中,所述步骤4进一步包括:
特征提取函数为:
其中,代表提取后的人体特征向量,Xi代表裁剪后的肢体部分,n是裁剪得到的身体总数,Concat表示拼接操作函数,F表示特征提取网络;
步骤5,最后将拼接后的人体特征跟原有映射网络的分支进行整合,放入全连接层进行最终的3D坐标值预测,其中,所述步骤5进一步包括:具体的计算公式如下:
其中,P3d为预测后的人体3D姿态坐标,P2d为第一阶段得到的人体2D姿态坐标,M为2D到3D的映射网络,Wfc和bfc代表全连接层的参数。
2.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤1进一步包括:拿到原始的HM3.6M人体3D骨骼数据,该数据下每个人体有32个关键节点,其中有一半的节点是不可运动的,将其去掉,我们只需要可运动的17个关键节点:头顶,鼻子,颈部,左肩,左手肘,左手腕,右肩,右手肘,右手腕,胸部脊椎中心,髋关节,左髋,左膝,左脚腕,右髋,右膝,右脚腕,其中,所述预设规则为通过位置索引的方式进行筛选以剔除不需要的关键节点。
3.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤2进一步包括:所述预定数量为17,不同拍摄人的相机外参和所属的相机内参不同,按照各自的相机参数将原人体骨骼筛选后的17个3D世界坐标转成与之对应的相机坐标系下的3D坐标,其中,用C1,C2,C3...C17来表示所述相机坐标系下的3D坐标,和图像坐标系下的2D坐标。
4.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤3进一步包括:选定起始参照点,将颈部C3作为起始参照点,根据最近距离去定义,它的相邻点有4个,分别为鼻子C2、左肩C4、右肩C7、胸部脊椎中心C10,用距离符号-->表示两点相邻,简写成C3-->C2、C3-->C4、C3-->C7、C3-->C10,那么剩余的相邻点表示为C2-->C1,
C4-->C5,C5-->C6,C7-->C8,C8-->C9,C10-->C11,C11-->C12,C12-->C13,C13-->C14,C11-->C15,C15-->C16,C16-->C17;C2相对C3的深度差为C2的z轴坐标减去C3的z轴坐标,同理可得所有16点的相对相邻点的深度差;起始参照点C3自身的相对深度差记为0,跟剩余16点计算得到的深度差组成一个数组,数组长度为17,将这个数组作为新的标签,以这种方式进行数据标注之后,HM3.6M数据集每张图片,都有与之对应的人体17个点的2D坐标值、3D坐标值和相对深度差,将每个点的3D坐标值的z轴坐标用相对深度差取代,得到最终的17个点的相对3D坐标值。
5.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,神经网络的分支的输入是第一阶段得到的人体抠图经过预先裁剪后的图像进一步包括:所述预先裁剪的方式为按照所述关键节点进行裁剪。
6.如权利要求5所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述预先裁剪的方式为按照所述关键节点进行裁剪进一步包括:在对人体图像进行特征提取之前,需要按照2D关键点将人体进行简单的分割,分成头部、躯干、左手肢、右手肢、左腿、右腿6大部分,每部分裁剪尺寸为64*64。
7.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,整个训练过程用标注得到的新的17个点的相对3D坐标值进行监督训练。
8.如权利要求1所述的一种3D人体姿态估计数据标注方式和对应的模型构建方法,其特征在于,所述步骤5进一步包括:特征整合,并进行3D点坐标预测,用真实的相对坐标值进行监督训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653359.3A CN115083015B (zh) | 2022-06-09 | 2022-06-09 | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210653359.3A CN115083015B (zh) | 2022-06-09 | 2022-06-09 | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083015A CN115083015A (zh) | 2022-09-20 |
CN115083015B true CN115083015B (zh) | 2024-04-16 |
Family
ID=83252443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210653359.3A Active CN115083015B (zh) | 2022-06-09 | 2022-06-09 | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083015B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862149B (zh) * | 2022-12-30 | 2024-03-22 | 广州紫为云科技有限公司 | 一种生成3d人体骨骼关键点数据集的方法及系统 |
CN115830642B (zh) * | 2023-02-13 | 2024-01-12 | 粤港澳大湾区数字经济研究院(福田) | 2d全身人体关键点标注方法及3d人体网格标注方法 |
CN116612357B (zh) * | 2023-07-11 | 2023-11-24 | 睿尔曼智能科技(北京)有限公司 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020177498A1 (zh) * | 2019-03-04 | 2020-09-10 | 南京邮电大学 | 一种基于姿态估计的非侵入式人体热舒适检测方法及系统 |
CN112257639A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 基于人体骨架的学生学习行为识别方法 |
CN112861624A (zh) * | 2021-01-05 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种人体姿态检测方法、系统、存储介质、设备及终端 |
CN114529944A (zh) * | 2022-02-15 | 2022-05-24 | 中国科学院软件研究所 | 一种结合人体关键点热图特征的人像景别识别方法 |
-
2022
- 2022-06-09 CN CN202210653359.3A patent/CN115083015B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020177498A1 (zh) * | 2019-03-04 | 2020-09-10 | 南京邮电大学 | 一种基于姿态估计的非侵入式人体热舒适检测方法及系统 |
CN112257639A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 基于人体骨架的学生学习行为识别方法 |
CN112861624A (zh) * | 2021-01-05 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种人体姿态检测方法、系统、存储介质、设备及终端 |
CN114529944A (zh) * | 2022-02-15 | 2022-05-24 | 中国科学院软件研究所 | 一种结合人体关键点热图特征的人像景别识别方法 |
Non-Patent Citations (2)
Title |
---|
Human pose estimation based on human model using conditional priorHuman pose estimation based on human model using conditional prior;Zhao Yong等;Computer Engineering and Applications;20180815;第54卷(第16期);24-29页 * |
Overview of Human Pose Estimation Methods Based on Deep Learning;Deng Yinong等;Computer Engineering and Applications;20191001;第55卷(第19期);22-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115083015A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115083015B (zh) | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 | |
CN113706699B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
US11282257B2 (en) | Pose selection and animation of characters using video data and training techniques | |
CN111783506A (zh) | 目标特征的确定方法、装置和计算机可读存储介质 | |
CN114222179B (zh) | 虚拟形象视频合成方法及设备 | |
Valente et al. | Face tracking and realistic animations for telecommunicant clones | |
CN114067088A (zh) | 虚拟穿戴方法、装置、设备、存储介质及程序产品 | |
Chen et al. | Markerless monocular motion capture using image features and physical constraints | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
US20200013232A1 (en) | Method and apparatus for converting 3d scanned objects to avatars | |
Liu | Aerobics posture recognition based on neural network and sensors | |
CN115797851A (zh) | 一种动漫视频处理方法及系统 | |
Jiang et al. | independent hand gesture recognition with Kinect | |
CN112990154B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
CN114494543A (zh) | 动作生成方法及相关装置、电子设备和存储介质 | |
RU2755396C1 (ru) | Нейросетевой перенос выражения лица и позы головы с использованием скрытых дескрипторов позы | |
CN113947810A (zh) | 基于姿态识别的太极拳评估方法及系统 | |
CN111416938B (zh) | 一种增强现实合拍方法、设备及计算机可读存储介质 | |
US11361467B2 (en) | Pose selection and animation of characters using video data and training techniques | |
Purps et al. | Reconstructing facial expressions of HMD users for avatars in VR | |
Fan et al. | HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video | |
KR20210070874A (ko) | 3차원 인간 모델 복원 장치 및 방법 | |
CN110956599A (zh) | 图片处理方法和装置、存储介质及电子装置 | |
CN111783497A (zh) | 视频中目标的特征确定方法、装置和计算机可读存储介质 | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |