CN115565203A - 一种跨模态弱监督的三维人体姿态估计方法及系统 - Google Patents
一种跨模态弱监督的三维人体姿态估计方法及系统 Download PDFInfo
- Publication number
- CN115565203A CN115565203A CN202211214543.4A CN202211214543A CN115565203A CN 115565203 A CN115565203 A CN 115565203A CN 202211214543 A CN202211214543 A CN 202211214543A CN 115565203 A CN115565203 A CN 115565203A
- Authority
- CN
- China
- Prior art keywords
- human body
- body posture
- dimensional human
- dimensional
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 210000000988 bone and bone Anatomy 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 6
- 230000006798 recombination Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 2
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种跨模态弱监督的三维人体姿态估计方法及系统。该方法包括:获取有关人体的成对的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;获取二维人体姿态的关节点坐标;获取三维人体姿态估计的预估结果;根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;根据训练样本和损失函数对待训练的三维人体姿态估计网络进行训练,得到训练后的三维人体姿态估计模型;将测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。解决了现有方法存在的获取标签复杂、泛化性差的问题,减小了对有标签数据的依赖程度,提升了方法的泛化性能。
Description
技术领域
本发明属于机器学习领域,更具体地,涉及一种跨模态弱监督的三维人体姿态估计方法及系统。
背景技术
近年来,随着计算机视觉领域以及消费市场的发展,人体姿态估计技术在人机交互、虚拟现实、人体行为分析、医学诊断方面发挥着重要的作用。另一方面,获取高质量的三维人体姿态的标注信息,是十分昂贵且费时费力的,这也催生了诸多弱监督训练三维人体姿态估计网络的方法。
现在常用的三维人体全监督和弱监督方法,包括以下两种。
(1)基于深度图像(点云)的三维人体姿态估计方法
深度图像包含丰富的深度信息,可以为三维人体姿态估计任务提供三维特征,首先在深度图上提取手工设计的特征,随后利用回归或分类的方法得到每一个关节点的坐标位置信息。将原始深度图投影至三维体素,并设计了相应的利用3DCNN的网络来进行三维人体姿态的估计。利用2DCNN在原始深度图上得到权重、平面偏移量、深度偏移量三个分支,通过各个锚点预测加权求和的形式获取三维人体姿态估计的结果。利用点云来进行姿态估计的方法,其利用PointNet系列方法,针对每个点预测到目标关节点的偏移量和概率图,逐点加权求和获取最终的关节点预测结果。
(2)弱监督三维人体姿态估计方法
弱监督方法主要是为了解决三维人体姿态估计任务中的缺乏标注的问题,目前主流的三维人体姿态估计的弱监督方法主要包括:第一途径是利用多视角图像来对人体姿态估计的结果进行弱监督训练,在获取了多视角的二维人体关节点信息之后,利用相机的内参和外参,将原始的多视角的二维结果,通过迭代寻优或监督训练的形式,转化为三维人体姿态,但是这种方法在搜集数据的过程中,需要复杂校准的多相机系统,相机间的时序一致性难以保证,此外,在视角变化小和视角数目少的情况下,还有一定程度上的歧义性的问题。第二种途径是利用现有的渲染或生成模型,生成带有标签的人体模型,或根据预定义好的分块人体模型,将姿态映射回原始图像,形成监督训练;但是这种方法人工设计的模型,其结构形式单一,并且同真实人体模型还有一定的差异,在合成数据集上训练好的模型,在迁移到真实场景中往往面临严重的性能下降。第三种是利用人体的先验信息,例如骨骼的比例来约束预测结果;这种弱监督形式操作简单,但在深度信息不完全的情况下,相对深度并不能充分地利用人体姿态的先验信息,导致了诸如绝对长度、对称性之类的先验无法被很好地利用。
目前基于深度图像的三维人体姿态估计方法,在网络的训练阶段均需要标注好的三维人体姿态结果,都有样本量小,场景单一等缺点,极大地限制了上述方法的泛化性能;目前的三维人体姿态估计的弱监督方法,存在着获取标签复杂、泛化性差等缺点,数据的采集难度或模型设计难度依旧很高。
发明内容
针对相关技术的缺陷,本发明的目的在于提供一种跨模态弱监督的三维人体姿态估计方法,旨在解决目前三维人体姿态估计方法存在的获取标签复杂、泛化性差的问题。
为实现上述目的,本发明提供了一种跨模态弱监督的三维人体姿态估计方法,包括:
获取包含人体对象的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;
将所述RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标;
将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果;
根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;
根据所述训练样本对待训练的三维人体姿态估计网络进行训练,并根据所述损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型;
将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
可选的,所述将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果,包括:
所述三维人体姿态估计网络提取所述点云数据的特征,并输出概率分支和偏移量分支;
所述概率分支为:
所述偏移量分支为:
其中,pi是点云中的第i个点,φj是第j个待预测的关节点,r是最近邻算法中设置的最大半径长度;
计算逐点的偏移向量:
V=r·(1-Hij)·Uij;
所述三维人体姿态的预估结果表示为:
可选的,在所述三维人体姿态估计网络提取所述点云数据的特征之后,还包括:
对点云数据和对应深度图像进行特征提取,将提取的点云特征和深度特征进行特征融合,得到重组特征;
所述待训练的三维人体姿态估计网络根据所述重组特征得到三维人体姿态的预估结果。
可选的,所述根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数,包括:
根据所述二维人体姿态的关节点坐标、相机参数,确定第一损失函数;
根据人体姿态的先验信息,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数确定所述损失函数。
可选的,所述根据所述二维人体姿态的关节点坐标和相机参数,确定第一损失函数,包括:
将所述二维人体姿态的关节点坐标根据所述相机参数投影至三维空间形成射线;
根据所述相机参数将所述三维人体姿态的预估结果中的关节点的坐标进行转换,得到转换关节点;
计算所述射线与对应的所述转换关节点的直线距离,并根据所述直线距离确定第一损失函数。
可选的,所述相机参数包括RGB相机内参Krgb、点云相机内参Kp、点云相机外参Rp-r、RGB相机外参Tp-r;
所述三维人体姿态的预估结果中的关节点为:
所述转换关节点为:
所述二维人体姿态定义为:
其中,K为人体关节点个数;
所述直线距离表示为:
所述第一损失函数表示为:
可选的,所述根据人体姿态的先验信息,确定第二损失函数,包括:
根据所述点云数据获取三维关节点在真实场景下的尺度信息;
通过计算骨骼长度损失、人体对称性损失和时序损失,确定第二损失函数;
所述骨骼长度损失为:
其中,N为人体关节点所组成的连接数量;
所述人体对称性损失为:
所述时序损失被为:
Lcon=Lcon1+λ0Lcon2;
所述第二损失函数被为:
L2=λ2Llen+λ3Lsym+λ4Lcon。
可选的,所述损失函数为:
L=λ1L2d+λ2Llen+λ3Lsym+λ4Lcon
其中,λ1=10,λ1=1,λ1=0.002,λ1=0.1。
可选的,所述预训练的二维人体姿态估计网络使用大规模公开数据库进行预训练。
第二方面,本发明提供了一种跨模态弱监督的三维人体姿态估计系统,包括:
数据获取模块,用于获取包含人体的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;
二维姿态获取模块,用于将所述RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标;
三维姿态获取模块,用于将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果;
监督损失模块,用于根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;
训练模块,用于根据所述训练样本对待训练的三维人体姿态估计网络进行训练,并根据所述损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型;
计算模块,用于将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
本发明的技术方案通过一种跨模态弱监督的三维人体姿态估计方法,利用成对的跨模态RGB-点云数据,利用数据域间的信息互补特性,在无需已标注训练样本的条件下,完成深度神经网络的训练,将图像平面的二维关节点映射为三维空间中的射线的方式,提升了弱监督信号的有效性,利用人体姿态先验信息以及时序的平滑特性,设计三维人体姿态的自监督损失,在测试阶段,仅需要输入点云至已经训练好基于点云的三维人体姿态估计网络,无需RGB-点云对,即可得到目标对象的三维人体姿态估计结果。解决了目前三维人体姿态估计方法存在的获取标签复杂、泛化性差、对标签数据依赖程度高的问题,实现了减小数据的依赖,在大规模无标签数据集训练后,具有鲁棒性强,泛化性好的有益效果。
附图说明
图1是本发明实施例一提供的一种跨模态弱监督的三维人体姿态估计方法的流程示意图;
图2是本发明实施例一提供的基于点云的弱监督三维人体估计方法的示意图;
图3是本发明实施例一提供的方法在训练阶段和测试阶段的信息流图;
图4是本发明实施例一提供的弱监督损失函数中,将二维关节点映射至三维空间的的示意图;
图5是本发明实施例一提供的方法中提出的特征融合的示意图;
图6是本发明实施例一提供的方法中提出的特征融合的信息流的示意图;
图7是本发明实施例一提供的方法在提供的不同的点云人体姿态下的关节点预测结果图;
图8是本发明实施例一提供的方法在NTU RGB-D数据集中结果图;
图9是本发明实施例一提供的方法的结果与Kinect v2的部分结果对比图;
图10是本发明实施例二提供的一种跨模态弱监督的三维人体姿态估计系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
下面结合一个优选实施例,对上述实施例中涉及的内容进行说明。
实施例一
如图1所示,一种跨模态弱监督的三维人体姿态估计方法,包括:
S1、获取包含人体的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本。
S2、将RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标。
S3、将训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果。
S4、根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数。
S5、根据训练样本对待训练的三维人体姿态估计网络进行训练,并根据损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型。
S6、将测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
人体姿态估计任务是预测给定图像或点云中人体关节点的位置信息,不同于二维人体姿态估计任务,三维人体姿态估计任务需要估计出人体关节点在三维空间中的位置。针对三维人体姿态估计缺乏高质量标注导致难以训练的问题,本发明提出的一种跨模态弱监督的三维人体姿态估计方法不同于全监督的人体姿态估计方法,采用了弱监督方法,需要在训练样本无标注或不完全标注的情况下,完成对深度神经网络的训练。
在训练阶段,利用主流的深度相机采集用于训练的RGB-点云图像对,并通过相机相关信息获取相应的内参外参矩阵。其中,相机参数包括RGB相机内参Krgb、点云相机内参Kp、点云相机外参Rp-r、RGB相机外参Tp-r。选取部分点云数据作为训练样本,其余点云数据作为测试样本。使用在大规模公开数据库上预训练的二维人体姿态估计网络,获取RGB图像层面的二维人体姿态的关节点坐标,其中,二维人体姿态定义为:ck=(uk,vk),K为人体关节点个数;公开数据库包括COCO数据集(Microsoft Common Objects inContext)和MPII数据集(MPII Human Pose)。将包含人体信息的训练样本中的点云或RGB图像输入待训练的三维人体姿态估计网络中,获取三维人体姿态的预估结果,其中,待训练的三维人体姿态估计网络除了采用本发明提供的网络,还可以为通用网络,例如A2J、P2P。根据获取的RGB图像层面的二维人体姿态的关节点坐标和相机内外参信息,生成第一损失函数,作为第一监督信号,对获取的三维人体姿态的预估结果进行监督。同时,根据人体姿态的先验信息生成第二损失函数,作为第二监督信号,对获取的三维人体姿态的预估结果形成监督。根据第一损失函数和第二损失函数,确定最终的损失函数,第一监督信号和第二监督信号共同作用,对待训练的三维人体姿态估计网络进行深度神经网络的训练,损失函数进行梯度反向传播,更新深度神经网络参数。在测试阶段,仅需要采集点云数据,便可利用基于点云的三维人体姿态估计网络,直接获取点云上的三维人体姿态估计的结果。在训练阶段和测试阶段的信息流图如图3所示。
本实施例中,不同于利用多视角数据或人体结构化模型的弱监督方法,在神经网络的训练阶段,本算法无需对样本进行人工的标注,仅依靠成对的RGB-点云数据,便可完成神经网络的弱监督训练。针对三维人体姿态估计任务,本算法根据二维人体姿态的关节点坐标和相机参数计算得到第一损失函数,提升了弱监督信号的有效性;根据人体姿态的先验信息,计算得到第二损失函数,实现了三维人体姿态的自监督损失。根据损失函数完成对网络的训练。在测试阶段,由于已经训练好基于点云的三维人体姿态估计网络,本算法仅需要输入点云,无需RGB-点云对,大大提高了方法实际使用的便捷性。
进一步的,在另一实施例中,可以采用RGB图像训练网络,从而得到基于RGB图像的三维人体姿态估计网络,在测试时,仅需要输入RGB图像即可得到目标对象的三维人体姿态估计的结果。如图8所示。
在上述实施例的基础上,可选的,S2具体包括:
三维人体姿态估计网络提取点云数据的特征,并输出概率分支和偏移量分支。三维人体姿态估计网络中点云的点的个数设置为N(如1024,2048等),本实施例中采用N设置为2048。
概率分支为:
偏移量分支为:
其中,pi是点云中的第i个点,φj是第j个待预测的关节点,r是最近邻算法中设置的最大半径长度;本实施例中对人体姿态估计任务设置的最大半径长度为80cm。
计算逐点的偏移向量:
V=r·(1-Hij)·Uij;
三维人体姿态的预估结果表示为:
可选的,针对点云网络,在三维人体姿态估计网络提取点云数据的特征之后,还包括:设计了针对点云以及深度图同源数据的特征融合方法。
具体包括:
对点云数据和对应深度图像进行特征提取,将提取的点云特征和深度特征进行特征融合,得到重组特征;待训练的三维人体姿态估计网络根据重组特征得到三维人体姿态的预估结果。
如图5所示,将点云网络提取的特征,同深度图提取的特征进行特征融合,如图6所示,增强点云网络的性能,在不带来额外数据要求的情况下提升姿态估计的准确度。
采用RGB图像所提供的信息作为弱监督信号,基于点云的弱监督三维人体估计方法的如图2所示,具体包括:
A1、将二维人体姿态的关节点坐标根据相机参数投影至三维空间形成射线。
A2、根据相机参数将三维人体姿态的预估结果中的关节点的坐标进行转换,得到转换关节点。
A3、计算射线与对应的转换关节点的直线距离,并根据直线距离确定第一损失函数。
可选的,经过待训练的三维人体姿态估计网络输出的预估结果中的关节点为:
利用相机参数将其转换为彩色相机的三维坐标系下,转换关节点为:
利用获取的二维人体姿态的关节点坐标ck=(uk,vk)便可对上述网络输出进行弱监督约束,如图4所示,直线距离表示为:
弱监督损失函数即第一损失函数表示为:
本实施例将图像平面的二维关节点映射为三维空间中的射线的方式,提升了弱监督信号的有效性。
可选的,还可利用人体姿态的自监督先验信息进行自监督训练,图2所示。根据人体姿态的先验信息,确定第二损失函数,包括:
B1、根据点云数据获取三维关节点在真实场景下的尺度信息。
B2、通过计算骨骼长度损失、人体对称性损失和时序损失,确定第二损失函数。
其中,骨骼长度损失为:
其中,N为人体关节点所组成的连接数量。
人体对称性损失为:
时序损失被为:
Lcon=Lcon1+λ0Lcon2;
第二损失函数被为:
L2=λ2Llen+λ3Lsym+λ4Lcon。
可选的,最终的损失函数为第一损失函数和第二损失函数的和,表示为:
L=λ1L2d+λ2Llen+λ3Lsym+λ4Lcon
其中,λ1=10,λ1=1,λ1=0.002,λ1=0.1。
如图1所示,在测试或实际使用阶段,仅需要如图7所示的点云数据,将点云数据送入图1所示,训练阶段已经训练好的网络中,便可获取如图7所示的测试结果。
本发明的技术方案通过一种跨模态弱监督的三维人体姿态估计方法,利用成对的跨模态RGB-点云数据,利用数据域间的信息互补特性,在无需已标注训练样本的条件下,完成深度神经网络的训练,将图像平面的二维关节点映射为三维空间中的射线的方式,提升了弱监督信号的有效性,利用人体姿态先验信息以及时序的平滑特性,设计三维人体姿态的自监督损失,在测试阶段,仅需要输入点云至已经训练好基于点云的三维人体姿态估计网络,无需RGB-点云对,即可得到目标对象的三维人体姿态估计的结果。解决了目前三维人体姿态估计方法存在的获取标签复杂、泛化性差、标签数据依赖程度高的问题,实现了减小对有标签数据的依赖程度,提升了方法的泛化性能的有益效果。
实施例二
如图10所示,一种跨模态弱监督的三维人体姿态估计系统,包括:
数据获取模块210,用于获取包含人体的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;
二维姿态获取模块220,用于将RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标;
三维姿态获取模块230,用于将训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果;
监督损失模块240,用于根据二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;
训练模块250,用于根据训练样本对待训练的三维人体姿态估计网络进行训练,并根据损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型;
计算模块260,用于将测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
本发明实施例所提供的一种跨模态弱监督的三维人体姿态估计系统可执行本发明任意实施例所提供的一种跨模态弱监督的三维人体姿态估计方法,具备执行方法相应的功能模块和有益效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种跨模态弱监督的三维人体姿态估计方法,其特征在于,包括:
获取包含人体的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;
将所述RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标;
将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果;
根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;
根据所述训练样本对待训练的三维人体姿态估计网络进行训练,并根据所述损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型;
将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
3.如权利要求2所述的方法,其特征在于,在所述三维人体姿态估计网络提取所述点云数据的特征之后,还包括:
对点云数据和对应深度图像进行特征提取,将提取的点云特征和深度特征进行特征融合,得到重组特征;
所述待训练的三维人体姿态估计网络根据所述重组特征得到三维人体姿态的预估结果。
4.如权利要求2所述的方法,其特征在于,所述根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数,包括:
根据所述二维人体姿态的关节点坐标、相机参数,确定第一损失函数;
根据人体姿态的先验信息,确定第二损失函数;
根据所述第一损失函数和所述第二损失函数确定所述损失函数。
5.如权利要求4所述的方法,其特征在于,所述根据所述二维人体姿态的关节点坐标和相机参数,确定第一损失函数,包括:
将所述二维人体姿态的关节点坐标根据所述相机参数投影至三维空间形成射线;
根据所述相机参数将所述三维人体姿态的预估结果中的关节点的坐标进行转换,得到转换关节点;
计算所述射线与对应的所述转换关节点的直线距离,并根据所述直线距离确定第一损失函数。
8.如权利要求7所述的方法,其特征在于,所述损失函数为:
L=λ1L2d+λ2Llen+λ3Lsym+λ4Lcon
其中,λ1=10,λ1=1,λ1=0.002,λ1=0.1。
9.如权利要求1所述的方法,其特征在于,所述预训练的二维人体姿态估计网络使用大规模公开数据库进行预训练。
10.一种跨模态弱监督的三维人体姿态估计系统,其特征在于,包括:
数据获取模块,用于获取包含人体的点云数据和RGB图像,并选取部分数据作为训练样本,其余数据作为测试样本;
二维姿态获取模块,用于将所述RGB图像输入预训练的二维人体姿态估计网络,获取二维人体姿态的关节点坐标;
三维姿态获取模块,用于将所述训练样本中的点云数据输入待训练的三维人体姿态估计网络,获取三维人体姿态的预估结果;
监督损失模块,用于根据所述二维人体姿态的关节点坐标、相机参数和人体姿态的先验信息,确定损失函数;
训练模块,用于根据所述训练样本对待训练的三维人体姿态估计网络进行训练,并根据所述损失函数进行梯度反向传播,更新待训练的三维人体姿态估计网络参数,得到训练后的三维人体姿态估计模型;
计算模块,用于将所述测试样本中的点云数据输入训练好的三维人体姿态估计模型中,计算得到目标对象的三维人体姿态估计的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214543.4A CN115565203A (zh) | 2022-09-30 | 2022-09-30 | 一种跨模态弱监督的三维人体姿态估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214543.4A CN115565203A (zh) | 2022-09-30 | 2022-09-30 | 一种跨模态弱监督的三维人体姿态估计方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565203A true CN115565203A (zh) | 2023-01-03 |
Family
ID=84745009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211214543.4A Pending CN115565203A (zh) | 2022-09-30 | 2022-09-30 | 一种跨模态弱监督的三维人体姿态估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565203A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984972A (zh) * | 2023-03-20 | 2023-04-18 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
CN116503958A (zh) * | 2023-06-27 | 2023-07-28 | 江西师范大学 | 人体姿态识别方法、系统、存储介质及计算机设备 |
CN116912948A (zh) * | 2023-09-12 | 2023-10-20 | 南京硅基智能科技有限公司 | 一种数字人的训练方法、系统及驱动系统 |
-
2022
- 2022-09-30 CN CN202211214543.4A patent/CN115565203A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984972A (zh) * | 2023-03-20 | 2023-04-18 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
CN115984972B (zh) * | 2023-03-20 | 2023-08-11 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
CN116503958A (zh) * | 2023-06-27 | 2023-07-28 | 江西师范大学 | 人体姿态识别方法、系统、存储介质及计算机设备 |
CN116503958B (zh) * | 2023-06-27 | 2023-10-03 | 江西师范大学 | 人体姿态识别方法、系统、存储介质及计算机设备 |
CN116912948A (zh) * | 2023-09-12 | 2023-10-20 | 南京硅基智能科技有限公司 | 一种数字人的训练方法、系统及驱动系统 |
CN116912948B (zh) * | 2023-09-12 | 2023-12-01 | 南京硅基智能科技有限公司 | 一种数字人的训练方法、系统及驱动系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Self-supervised sparse-to-dense: Self-supervised depth completion from lidar and monocular camera | |
Sun et al. | Aerial 3D building detection and modeling from airborne LiDAR point clouds | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN115565203A (zh) | 一种跨模态弱监督的三维人体姿态估计方法及系统 | |
CN113012122B (zh) | 一种类别级6d位姿与尺寸估计方法及装置 | |
CN111723780A (zh) | 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统 | |
CN110197505B (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN110427799A (zh) | 基于生成对抗网络的人手深度图像数据增强方法 | |
CN111079695A (zh) | 一种人体关键点检测与自学习方法及装置 | |
CN113963240A (zh) | 多源遥感图像融合目标综合检测方法 | |
CN113297988B (zh) | 一种基于域迁移和深度补全的物体姿态估计方法 | |
JP2017033197A (ja) | 変化領域検出装置、方法、及びプログラム | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
CN117422884A (zh) | 三维目标检测方法、系统、电子设备及存储介质 | |
Wen et al. | Cooperative indoor 3D mapping and modeling using LiDAR data | |
CN115880720A (zh) | 一种基于置信度分享的无标注场景自适应人体姿态和外形估计方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN117523100A (zh) | 基于神经网络与多视图一致性的三维场景重建方法和装置 | |
CN117854155B (zh) | 一种人体骨骼动作识别方法及系统 | |
CN115984093A (zh) | 基于红外图像的深度估计方法、电子设备以及存储介质 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN115049833A (zh) | 一种基于局部特征增强和相似性度量的点云部件分割方法 | |
CN114612612A (zh) | 人体姿态估计方法及装置、计算机可读介质、电子设备 | |
CN112597956B (zh) | 基于人体锚点集合与感知增强网络的多人姿态估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |