CN108829232B - 基于深度学习的人体骨骼关节点三维坐标的获取方法 - Google Patents
基于深度学习的人体骨骼关节点三维坐标的获取方法 Download PDFInfo
- Publication number
- CN108829232B CN108829232B CN201810386825.XA CN201810386825A CN108829232B CN 108829232 B CN108829232 B CN 108829232B CN 201810386825 A CN201810386825 A CN 201810386825A CN 108829232 B CN108829232 B CN 108829232B
- Authority
- CN
- China
- Prior art keywords
- data
- joint
- coordinate
- coordinates
- joint point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于深度学习的人体骨骼关节点三维坐标的获取方法,该方法包括如下步骤:数据准备:加载标准的FBX模型至unity软件,设置所述FBX模型的关节旋转四元数并获取每个关节点的3d坐标和2d坐标;数据预处理:对所述3d坐标数据和所述2d坐标数据进行归一化处理并输入到卷积神经网络中;训练网络:计算训练集loss和验证集loss;实时人体关节点的3d坐标获取:检测出该图像中人体关节点2d坐标并进行归一化处理后输入到所述卷积神经网络,结合利用反归一化获取所述摄像头坐标系下的人体关节点3d坐标。与相关技术相比,本发明的基于深度学习的人体骨骼关节点三维坐标的获取方法硬件成本低、准确度高且适用范围广。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种基于深度学习的人体骨骼关节点三维坐标的获取方法。
背景技术
随着社会的发展和进步,语音控制等家电智能化的程度也越来越高,满足了人们对家居智能化的需求,但该类智能产品也有很大局限性,比如对一些存在语言障碍的人则无法体验。因此需要一些更加符合人类操作习惯的智能产品的出现,如在智能家居领域内,通过检测姿态动作,判断人进行了何种操作进而来驱动智能化产品;又比如在康复医疗领域内,利用检测到的人体姿态判断人体的行为与标准模板是否匹配。
相关技术中,已经有了一些对人体姿态估计的研究,主要有以下三类,一类是类似opti-track这类光学捕捉仪器,在人体上贴上多个Mark 点,检测到Mark点的位置,最终确定人体关节点的位置,该方法需要硬件辅助多,使用局限性大,不利用普及推广。第二类是类似于Kinect,通过多个摄像头,双目定位的方式获取到人体的三维关节点坐标,同样该方法使用局限性大,硬件辅助多,成本高,不利用普及推广。第三类是通过深度学习算法检测到人体的二维关节点的坐标,但并未实现向三维坐标的转换,不能获取到人体的关节的进一步的信息。有部分转换算法依赖于有限的训练数据,转换后只对部分图片处理有比较好的效果,无法进行广泛的使用。
因此,实有必要提供一种新的基于深度学习的人体骨骼关节点三维坐标的获取方法解决上述问题。
发明内容
针对以上现有技术的不足,本发明提出一种硬件成本低、准确度高且适用范围广的基于深度学习的人体骨骼关节点三维坐标的获取方法。
本发明提供的一种基于深度学习的人体骨骼关节点三维坐标的获取方法,该方法包括如下步骤:
步骤S1、数据准备:
加载标准的FBX模型至unity软件,设置摄像头需要采集的数据的组数和相应的摄像头参数,设置所述FBX模型的关节旋转四元数并获取每个关节点的3d坐标和2d坐标,用于最终驱动所述FBX模型运动;
步骤S2、数据预处理:
对所述3d坐标数据和所述2d坐标数据进行归一化处理得到预处理数据,将所述预处理数据按照批次分成不同的组输入到卷积神经网络中;
步骤S3、训练网络:
对输入到所述卷积神经网络中的所述预处理数据进行训练,计算训练集loss和验证集loss,使所述训练集loss和所述验证集loss的损失函数收敛至50mm;
步骤S4、实时人体关节点的3d坐标获取:
将摄像头获取的图像输入至2d关节点检测模块,检测出该图像中人体关节点2d坐标并对所述人体关节点2d坐标进行完整性判断与修正,再将所述人体关节点2d坐标进行归一化处理后输入到所述卷积神经网络,结合利用反归一化获取所述摄像头坐标系下的人体关节点3d 坐标。
优选的,所述基于深度学习的人体骨骼关节点三维坐标的获取方法还包括如下步骤:
步骤S5、关节点修正:
计算当前帧检测到的人体关节点与前一帧检测到的人体关节点的匹配率,利用当前帧在前一帧里最优匹配率所对应的指数作为修正,使当前帧在前一帧中有唯一的最优匹配。
优选的,步骤S1具体包括如下步骤:
步骤S11、加载所述FBX模型至所述unity软件中;
步骤S12、设定多组FBX模型更新的关节点数据,取第i组数据更新模型,i为整数,其中i初始为0;
步骤S13、将每一帧的关节点的2d坐标和3d坐标以字符串保存;
步骤S14、判断第i组数据中的FBX模型每个关节点更新完毕;若否,则返回步骤S13;若是,则进入步骤S15;
步骤S15、将FBX模型的关节点四元数重置为初始状态,每个关节点的2d坐标和3d坐标数据保存至jason文件格式下;
步骤S16、从jason文件数据解析出2d坐标和对应的3d坐标的数据,分别存储在2d.h5和3d.h5的数据格式下。
优选的,步骤S2中包括:
对3d坐标数据处理:
步骤a、将所述FBX模型的每一帧关节点的3d坐标数据转换到摄像头坐标系下;
步骤b、将所述FBX模型的每一帧关节点的3d坐标的数据进行平移置根节点为坐标原点;
步骤c、求出步骤b的数据的均值m和方差d;
步骤d、利用步骤c得到的均值m和方差d将步骤b的3d坐标数据归一化至均值为0,方差为1;
对2d坐标数据处理:
步骤a’、将所述FBX模型的每一帧关节点的2d坐标数据平移,使得根节点为坐标原点;
步骤b’、求得步骤a’计算得到的2d坐标数据的均值m1和方差d1;
步骤c’、利用步骤a’得到的均值m1和方差d1将2d坐标数据归一化到均值为0,方差为1。
优选的,步骤S3具体包括:
步骤S31、训练集函数损失:输出多个批次的关节点的3d坐标数据,计算对应经过归一化处理的理想的3d坐标数据的L2范数的均值;
步骤S32、验证集函数损失:在验证集中选择某个关节点的2d坐标数据以及与之对应的3d坐标数据,将3d坐标数据和2d坐标数据按照步骤S2中数据预处理的方法进行归一化处理,将2d坐标的数据输入到所述网络,计算输出与经过归一化处理的3d坐标数据的L2范数,作为误差。
优选的,步骤S4具体包括:
步骤S41、将摄像头获取到图像数据输入到2d关节点检测模块,检测出图像中人体关节点的2d坐标;
步骤S42、将检测出的单人或者多人的关节点的2d坐标输入到所述卷积神经网络中;
步骤S43、判断检测到的关节点是否完整,若不完整,对关节点数据进行修正;
步骤S44、将修正后的关节点数据归一化到均值为0,方差为1;
步骤S45、将归一化后的关节点数据输入到所述卷积神经网络,输出经过归一化的关节点的3d坐标数据;
步骤S46、利用反归一化,获取到摄像头坐标系下的人体的关节点的3d坐标数据;
步骤S47、调节所述摄像头的旋转矩阵和平移向量,使得经过所述卷积神经网络输出的3d姿态和真实三维空间中的3d姿态匹配上。
优选的,步骤S5具体包括:
步骤S51、对当前帧检测到的人体的关节点进行判断,如果对应的位置的坐标数据为0,将该关节的标志位置0;否则标志位置1;
步骤S52、获取到当前检测到人体的关节点的矩形框,计算矩形框面积;
步骤S53、计算当前帧检测的所有人和前一帧检测出的所有人的关节点的距离;
判断该距离是否小于1,若是,关节点匹配标志位置1;若否关节点匹配标志位置0;
步骤S54、计算当前帧检测出的关节点与前一帧检测出的关节点匹配率;
步骤S55、计算当前帧检测到的第N个人在前一帧里的最优匹配率;
步骤S56、对当前帧的人的关节点进行补偿。
优选的,步骤S55还包括:
若当前帧检测同一人在前一帧对应多个人存在相同的匹配率,则计算当前帧检测出的同一人相对于前一帧对应的多个人的最优匹配率。
优选的,所述2d关节点检测模块为openpose模块,以COCO作为训练数据集。
优选的,所述2d关节点检测模块检测的关节点为18个。
与相关技术相比,本发明的基于深度学习的人体骨骼关节点三维坐标的获取方法,只需要通过任意一个摄像头将采集到的人体图片输入到系统的2d关节点检测模块,即可获得人体相对于根节点的3d坐标,极大程度的将人体关节的3d位置获取从硬件中解放出,降低了硬件成本;而且通过对算法的轻量化处理,降低算法的运算量,实现了将算法运用于移动终端,方便快捷的通过2d图片获取人体的3d姿态。
附图说明的详细描述,本发明的上述或其他方面
下面结合附图详细说明本发明。通过结合以下附图所作的内容将变得更清楚和更容易理解。附图中:
图1为本发明基于深度学习的人体骨骼关节点三维坐标的获取方法的流程框图;
图2为步骤S1的子流程框图;
图3为步骤S2中对3d坐标数据处理的子流程框图;
图4为步骤S2中对2d坐标数据处理的子流程框图
图5为步骤S3的子流程框图;
图6为步骤S4的子流程框图;
图7为步骤S5的子流程框图;
具体实施方式
下面结合附图详细说明本发明的具体实施方式。
在此记载的具体实施方式/实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括采用对在此记载的实施例的做出任何显而易见的替换和修改的技术方案,都在本发明的保护范围之内。
请参图1所示,本发明提供了一种基于深度学习的人体骨骼关节点三维坐标的获取方法,本实施方式中,所谓2d坐标即为关节点的二维坐标,所谓3d坐标即为关节点的三维坐标,该方法包括如下步骤:
步骤S1、数据准备:
加载标准的FBX模型至unity软件,设置摄像头需要采集的数据的组数和相应的摄像头参数,设置所述FBX模型的关节旋转四元数并获取每个关节点的3d坐标和2d坐标,用于最终驱动所述FBX模型运动。
请结合参阅图2,步骤S1具体包括如下步骤:
步骤S11、加载所述FBX模型至所述unity软件中。
步骤S12、设定多组FBX模型更新的关节点数据,取第i组数据更新模型,i为整数,其中i初始为0。
步骤S13、将每一帧的关节点的2d坐标和3d坐标以字符串保存。
步骤S14、判断第i组数据中的FBX模型每个关节点更新完毕;若否,则返回步骤S13;若是,则进入步骤S15。
步骤S15、将FBX模型的关节点的旋转四元数重置为初始状态,每个关节点的2d坐标和3d坐标数据保存至jason文件格式下。
步骤S16、从jason文件数据解析出2d坐标和对应的3d坐标的数据,分别存储在2d.h5和3d.h5的数据格式下。
具体说明如下:
在数据准备步骤中,设置需要采集的数据的组数和相对应的摄像头参数,比如采集的目标数据量为100组数据,则设置dataCnt=100。
对每组数据设置所述FBX模型部分关节点的旋转四元数用于最终驱动所述FBX模型运动:以unity软件的坐标系为基准,其中,X轴定义为沿着屏幕向右为正,Y轴定义为沿着屏幕向上为正,Z轴定义为沿着屏幕向里为正。
所述FBX模型初始姿态设为面部朝Z轴的负方向,以2d姿态检测器估计的人体2d关节点为依据,确定FBX模型中姿态需要变化的关节点,可检测的关节点数为0~54个。根据人体生理学规律,确定每个关节允许的相对于unity软件的全局坐标系统设定的旋转轴和旋转角度。本实施方式中,以openpose作为2d姿态检测器,并以COCO作为训练数据集,检测出18个关节点,18个关节点即可完全实现人体姿态的调整,具体旋转的关节点为:
{0,HumanBodyBones.Hips},
{1,HumanBodyBones.LeftUpperLeg},
{2,HumanBodyBones.RightUpperLeg},
{3,HumanBodyBones.LeftLowerLeg},
{4,HumanBodyBones.RightLowerLeg},
{5,HumanBodyBones.LeftFoot},
{6,HumanBodyBones.RightFoot},
{7,HumanBodyBones.Spine},
{8,HumanBodyBones.Chest},
{9,HumanBodyBones.Neck},
{10,HumanBodyBones.Head},
{11,HumanBodyBones.LeftShoulder},
{12,HumanBodyBones.RightShoulder},
{13,HumanBodyBones.LeftUpperArm},
{14,HumanBodyBones.RightUpperArm},
{15,HumanBodyBones.LeftLowerArm},
{16,HumanBodyBones.RightLowerArm},
{17,HumanBodyBones.LeftHand},
{18,HumanBodyBones.RightHand},
每个关节点的旋转轴为:
{0,{Y}}
{1,{X,Z}}
{2,{X,Z}}
{3,{X,Z}}
{4,{X,Z}}
{5,{}}
{6,{}}
{7,{X,Y}}
{8,{Y}}
{9,{X,Y,z}}
{10,{X,Y}}
{11,{Y,Z}}
{12,{Y,Z}}
{13,{Y,Z}}
{14,{Y,Z}}
{15,{Y,Z}}
{16,{Y,Z}}
{17,{}}
{18,{}}
其中,0-18代表关节点的指数,x、y、z分别代表x轴、y轴和z 轴。
设置每个关节点的旋转角度为:
{0,(1,180)}
{1,(2,90,80)}
{2,(2,90,80)}
{3,(2,90,30)}
{4,(2,90,30)}
{7,,(2,90,90)}
{8,,(1,30)}
{9,,(3,30,30,30)}
{10,(3,30,30,30)}
{11,(2,20,20)}
{12,(2,20,20)}
{13,(2,90,90)}
{14,(2,90,90)}
{15,(2,90,90)}
{16,(2,90,90)}
其中,0-16为关节点的指数,小括号内为旋转轴的数量及对应的旋转轴可旋转的最大角度(旋转角度的阈值)。
确定每个关节点的旋转四元数:设置一个随机数,该随机数取值在 (0,1)之间,当所述随机数小于0.5时,标志位(Flag)设置为0,否则设置为1;所述标志位(Flag)用于确定选择候选的旋转轴和旋转角度。
根据上述确定的每个关节点的旋转角度的阈值,设定一个范围在 (0,1)的随机数,以该随机数为比率,乘以每个轴线上的旋转角度的阈值,得到在每个轴线上的旋转角度作为初始候选旋转角度。
根据上述标志位(Flag),从所述初始候选旋转角度里确定最终旋转角度:
如果所标志位为0,采取如下方法从所述初始候选旋转角度里确定最终旋转角度:
取所述关节点所有候选轴的初始候选旋转角度中最大的值,如果该值大于该关节点所有旋转轴的旋转角度的阈值中最小的值,则剔除掉该阈值中在旋转角度最大的角和对应的轴线;其中,循环退出的条件为:所述关节点初始候选旋转角度的最大值小于所述关节点旋转角度的阈值里的最小值;
如果所标志位为1,采取如下方法从所述初始候选旋转角度里确定最终转转角度:
取所述关节点所有候选轴的初始候选旋转角度中最小的值,如果该值小于该关节点所有旋转轴的旋转角度的阈值中的最小的值,则剔除掉该阈值中在旋转角度最小的角和对应的轴线;其中,循环退出的条件为: 所述关节点初始候选旋转角度的最小值小于所述关节点旋转角度的阈值里的最小值。
对关节点可对称旋转轴,产生一个取值为[0,1]之间的随机数,若该随机数大于等于0.5,取轴线的正方向;若小于0.5,取轴线的负方向。
需要说明的是,沿着某一个轴线正方向上可以旋转一定的角度,在负方向上也可以旋转一定的角度,该关节点旋转定义为关节点的可对称旋转轴。当关节点旋转只存在轴线的单个方向上的旋转,该关节轴线旋转定义为非对称旋转。
对于关节点的可对称旋转轴,产生一个取值在[0,1]之间的随机数,若该随机数大于等于0.5取轴线的正方向,若小于0.5,取轴线的负方向;通过该方式对关节点的对称旋转轴设定在每个候选轴线上的方向;
对于关节点的非对称旋转轴线强制设定只能按照某个固定的轴线方向,防止出现违反生理学规律的姿态。
关节点的旋转轴线确定为:
如:关节点i绕着X(1,0,0),Y(0,1,0)轴分别旋转(a1, a2),则最终旋转的轴线为:
Axis=a1/(a1+a2)*X+a2/(a1+a2)*Y
最终关节点的旋转角度为各个候选旋转角度的均值。
利用得到的关节点的最终旋转轴线和最终旋转角度,得到关节点的旋转四元数,所谓旋转四元数为该组数据下该关节点旋转的最终姿态。
设定随机数确定每个关节点旋转的速度,即由所述FBX模型初始 T-pose姿态到最终姿态的速度,该速度小于1。
获取到当前组的所有关节点的旋转完成的标志。如果完成,则设置新一组的FBX模型的旋转四元数对所述FBX模型进行更新,具体为:
如果为根节点:
利用旋转四元数插值,获取到当前帧的根节点的旋转四元数 Rot_Root。需要说明的是,此旋转四元数为相对于unity全局坐标系而言,因为根节点的父节点即是unity全局坐标系。
设定当前帧的根节点的姿态四元数为:
Root_q=Rot_root*init_q,
其中init_q为模型为T-pose的初始姿态下的四元数。
如果为非根节点:
A、将旋转四元数分解成角度和旋转轴以获取到当前关节点的旋转四元数相对于unity全局坐标系下的旋转轴线,设为worldAxis。
B、本实施方式中,基于如下理论:所述FBX模型在unity里每个关节点都有一个局部坐标系,所述FBX模型关节点的旋转是相对于该关节点的父节点的局部坐标秀旋转,关节点未旋转时,当前关节点的局部坐标系与父节点的局部坐标系保持一致。
将轴线转换到当前关节的局部坐标系下:
LocalAxis=q_rot*worldAxis,
其中q_rot为当前关节点的姿态四元数,worldAxis为当前关节点相对于unity坐标系下的旋转轴。
C、利用旋转四元数插值获取当前关节点的旋转四元数,即为当前关节相对于全局unity坐标系的旋转四元数,在unity里的表现形式为:
Quaternion curRot=Quaternion.Slerp(InitDirection,aimRot,t)
其中InitDireciton为单位四元数,aimRot为关节点相对于unity世界坐标系的目标姿态,t∈(0,1)。
D、将上述C中的当前关节相对于全局unity坐标系的旋转四元数转换成相对于该关节点前一帧的旋转的旋转四元数:
newRotation=curRot*Quaternion.Inverse((curRotations[i]),
其中curRotatinos[i]为当前关节前一帧旋转的四元数。
E、利用上述D中获取到的该关节点前一帧的旋转的旋转四元数,分解得到相对于前一帧的旋转角度。
F、利用上述E中获取到的相对于前一帧的旋转角度和上述B中得到的当前关节点相对于全局旋转四元数得到当前关节点旋转四元数q。
G、利用上述F中得到的当前关节点旋转四元数乘以当前关节点的四元数(即当前关节点的状态),得到当前帧关节点的姿态四元数。
boneTransform.rotation=q*boneTransform.rotation
H、保存当前帧关节点的旋转四元素,为下一帧在上述D步骤中的计算提供数据。
计算完毕每个关节的姿态四元数后,将当前关节点的时间标志位更新为当前时间加上速度(其中速度小于1),若累计时间大于等于1,表明关节点更新到最终姿态,则当前关节点姿态更新完毕。
当前帧所有关节点的姿态完成更新后,设置根节点位置的随机数 (x,y,z),使得所述FBX模型在新的一帧里,不仅姿态发生变换,整体的位置也发生相应的变化。为防止根节点的三维空间的位置平移后,所述FBX模型在屏幕坐标超过屏幕的边界,需要对模型的屏幕空间的坐标进行判断:
取所述FBX模型的四端点的关节点:
(Left_Hand,Right_Hand,Left_Foot,Right_Foot,Head),调用unity的系统函数,获取到所述FBX模型的这四个关节点在屏幕空间的坐标(xi,yi),其中, (i=1,2,3,4)。
(Left_Hand,Right_Hand,Left_Foot,Right_Foot)的x坐标的范围为(20, width-20),该范围是为保证FBX模型在变化过程中,FBX模型的2d 坐标在屏幕的范围内。
(Head,Left_Foot,Right_Foot)的y坐标范围为(20,height-20),该范围为为保证所述FBX模型运动过程中,所述FBX模型的2d坐标屏幕范围内)。
若检测(Left_Hand,Right_Hand,Left_Foot,Right_Foot)的x坐标范围和(Head,Left_Foot,Right_Foot)的y坐标范围的条件不满足,重新设置根节点的位置,直到满足上述条件。
当前帧所有关节更新完毕后,调用unity的系统函数,获取到每个关节相对于世界坐标系的3d坐标和2d坐标保存到变量bs中,将帧指数自增。
当所述FBX模型的所有关节点的姿态更新完毕后,置更新完毕标志为True,将每个关节点的2d坐标和3d坐标数据保存到本地的jason 文件中。
从该jason数据解析出2d坐标和对应的3d坐标数据,分别存储在 2d.h5和3d.h5的数据格式下。
至此,以上完成数据准备。
步骤S2、数据预处理:
对所述3d坐标数据和所述2d坐标数据进行归一化处理得到预处理数据,将所述预处理数据按照批次分成不同的组输入到卷积神经网络中。包括对关节点的3d坐标数据处理和2d坐标数据处理。
请结合图3所示,具体如下:
对3d坐标数据处理:
步骤a、将所述FBX模型的每一帧关节点的3d坐标数据转换到摄像头坐标系下。
步骤b、将所述FBX模型的每一帧关节点的3d坐标的数据进行平移置根节点为坐标原点。
步骤c、求出步骤b的数据的均值m和方差d;
步骤d、利用步骤c得到的均值m和方差d将步骤b的3d坐标数据归一化至均值为0,方差为1。
请结合图4所示,对2d坐标数据处理:
步骤a’、将所述FBX模型的每一帧关节点的2d坐标数据平移,使得根节点为坐标原点。
步骤b’、求得步骤a’计算得到的2d坐标数据的均值m1和方差d1。
步骤c’、利用步骤a’得到的均值m1和方差d1将2d坐标数据归一化到均值为0,方差为1。
将归一化处理后的数据按照批次分成不同的组输入到卷积神经网络中,比如选择批次为60,则将2d坐标和3d坐标数据分成60份,输入到该卷积神经网络中。
步骤S3、训练网络:
对输入到所述卷积神经网络中的所述预处理数据进行训练,计算训练集loss和验证集loss,使所述训练集loss和所述验证集loss的损失函数收敛至50mm。请结合图5所示,具体包括如下步骤:
步骤S31、训练集函数损失(训练集loss):
输出多个批次(比如60个批次)的关节点的3d坐标数据,计算对应经过归一化处理的理想的3d坐标数据的L2范数的均值。
步骤S32、验证集函数损失(验证集loss):
在验证集中选择某个关节点的2d坐标数据以及与之对应的3d坐标数据,将3d坐标数据和2d坐标数据按照步骤S2中数据预处理的方法进行归一化处理,将2d坐标的数据输入到所述网络,计算输出与经过归一化处理的3d坐标数据的L2范数,作为误差。
网络训练epoch(批次)选择为10,训练完毕后,发现训练集和测试集的函数损失(loss())都收敛到50mm附近,满足要求。
步骤S4、实时人体关节点的3d坐标获取:
将摄像头获取的图像输入至2d关节点检测模块,检测出该图像中人体关节点2d坐标并对所述人体关节点2d坐标进行完整性判断与修正,再将所述人体关节点2d坐标进行归一化处理后输入到所述卷积神经网络,结合利用反归一化获取所述摄像头坐标系下的人体关节点3d 坐标。请结合图6所示,具体的,本步骤包括如下:
步骤S41、将摄像头获取到图像数据输入到2d关节点检测模块,检测出图像中人体关节点的2d坐标。本步骤中,可利用任意2d检测器,如stacked hourglass检测器,只要能实现图像检测出人体的2d坐标即可。本实施方式中,具体使用openpose2d关节点检测器。
步骤S42、将检测出的单人或者多人的关节点的2d坐标输入到所述卷积神经网络中。具体为输入到2d转3d的卷积神经网络。
步骤S43、判断检测到的关节点是否完整,若不完整,对关节点数据进行修正。本实施方式中具体修正见步骤S5。
步骤S44、将修正后的关节点数据归一化到均值为0,方差为1。具体的,利用训练的网络数据得到的2d坐标的数据的均值m和方差std,将数据归一化到均值为0,方差为1。
步骤S45、将归一化后的关节点数据输入到所述卷积神经网络,输出经过归一化的关节点的3d坐标数据。
步骤S46、利用反归一化,获取到摄像头坐标系下的人体的关节点的3d坐标数据;
步骤S47、调节所述摄像头的旋转矩阵和平移向量,使得经过所述卷积神经网络输出的3d姿态和真实三维空间中的3d姿态匹配上。
步骤S5、关节点修正:
计算当前帧检测到的人体关节点与前一帧检测到的人体关节点的匹配率,利用当前帧在前一帧里最优匹配率所对应的指数作为修正,使当前帧在前一帧中有唯一的最优匹配。
请结合图7所示,本步骤中具体包括:
计算当前帧检测到的人和前一帧检测到人的匹配。
步骤S51、对当前帧检测到的人体的关节点进行判断,如果对应的位置的坐标数据为0,将该关节的标志位置0,表示关节未被检测到;否则标志位置1;
步骤S52、获取到当前检测到人体的关节点的矩形框,计算矩形框面积,用于归一化处理,比如:
对当前帧检测到的第i个人:
获取检测到的所有关节的x,y坐标的最小值(xmin,ymin),(xmax,ymax),计算矩形的面积。
步骤S53、计算当前帧检测的所有人和前一帧检测出的所有人的关节点的距离。判断该距离是否小于1,若是,关节点匹配标志位置1;若否关节点匹配标志位置0。
比如,若当前帧的第i个人的关节点joint_k在图像上的像素点坐标为(0,0),表示未识别到该关节点,将第i个人的joint_k与前一帧的所有人距离置为无穷大;否则,计算当前帧的第i个人的joint_k的像素点和前一帧检测出的对应该关节点的距离比当前帧检测出来第i个人的关节点的矩形区域,用于归一化。
步骤S54、计算当前帧检测出的关节点与前一帧检测出的关节点匹配率。具体为:
若步骤S53中计算的距离小于预设阈值,比如本实施方式中预设阈值为1.0,当然可以根据实际情况设定,则将匹配标志设定为1,否则将匹配标志设定为0,若dist(i,j,k)>1,则March(i,j,k)=0,其中(i,j,k) 表示为当前帧的第i个人和前一帧的第j个人对应的第k个关节。
步骤S55、计算当前帧检测到的第i个人在前一帧第j个人的最优匹配率:
pck(i,j)=sum(March(i,j))/nJoint,
其中,nJoint表示人体关节点的总数。
更优的,若当前帧检测同一人在前一帧对应多个人存在相同的匹配率,则计算当前帧检测出的同一人相对于前一帧对应的多个人的最优匹配率。
比当,若存在当前帧第i个人在前一帧里的多人存在相同的匹配率的情况,选择有效的匹配关节距离较小的,其他的匹配pck(i,t)=0(t!=k),从而保证在前一帧中选择到最优匹配。
a、计算当前帧第i个人(i=1…m)在前一帧里最优匹配,即计算 max(pck(i,0:n))所对应的指数,表示成匹配对的形式,即为p[i]=j。将前一帧中非最大匹配的pck置0,如果最大匹配指数对应的pck为0,则当前帧第i个人在前一帧中无关节匹配;将匹配指数置为-1,即修改 pck[i]=-1,保证当前帧在前一帧中有唯一的最优的匹配。
比如,当前帧第i个人在前一帧的pck最大的指数为j,则 pck(i,t)=0(t!=j)。
b、利用上述a中修正的pck,计算前一帧的第j个人(j=1…n)在当前帧率的最优唯一匹配,即计算max(pck(0:m,j)),得到最大值所对应的匹配指数比如为i,也即p1[j]=i,若pck(i,j)=0,则p1[j]=-1。
c、由上述a和b确定了当前帧的人和前一帧的人是一一映射的匹配,若当前帧的第i个人(i=1…m)在p[j](j=0..n)中,则c[i]=t,即表示第i个人在前一帧与第t个人匹配;若不在,则c[i]=-1,则表示当前帧第i个人在前一帧中无匹配)。
步骤S56、对当前帧的人的关节点进行补偿。具体如下:
若当前帧第i个人在前一帧有对应的人j与之匹配,选择用j的关节直接补偿i的关节。
若当前帧的第i个人在前一帧中无对应的人的关节与之匹配,直接将该人删除掉,不做处理。因为若检测到的关节点存在关节坐标为(0, 0)的坐标点输入到所述卷积神经网络中,会造成其他关节点的坐标位置异常,因此直接删除掉。
与相关技术相比,本发明的基于深度学习的人体骨骼关节点三维坐标的获取方法,只需要通过任意一个摄像头将采集到的人体图片输入到系统的2d关节点检测模块,即可获得人体相对于根节点的3d坐标,极大程度的将人体关节的3d位置获取从硬件中解放出,降低了硬件成本;而且通过对算法的轻量化处理,降低算法的运算量,实现了将算法运用于移动终端,方便快捷的通过2d图片获取人体的3d姿态。
需要说明的是,以上参照附图所描述的各个实施例仅用以说明本发明而非限制本发明的范围,本领域的普通技术人员应当理解,在不脱离本发明的精神和范围的前提下对本发明进行的修改或者等同替换,均应涵盖在本发明的范围之内。此外,除上下文另有所指外,以单数形式出现的词包括复数形式,反之亦然。另外,除非特别说明,那么任何实施例的全部或一部分可结合任何其它实施例的全部或一部分来使用。
Claims (9)
1.一种基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,该方法包括如下步骤:
步骤S1、数据准备:
加载标准的FBX模型至unity软件,设置摄像头需要采集的数据的组数和相应的摄像头参数,设置所述FBX模型的关节旋转四元数并获取每个关节点的3d坐标和2d坐标,用于最终驱动所述FBX模型运动;
步骤S2、数据预处理:
对所述3d坐标数据和所述2d坐标数据进行归一化处理得到预处理数据,将所述预处理数据按照批次分成不同的组输入到卷积神经网络中;
步骤S3、训练网络:
对输入到所述卷积神经网络中的所述预处理数据进行训练,计算训练集loss和验证集loss,使所述训练集loss和所述验证集loss的损失函数收敛至50mm;
步骤S4、实时人体关节点的3d坐标获取:
将摄像头获取的图像输入至2d关节点检测模块,检测出该图像中人体关节点2d坐标并对所述人体关节点2d坐标进行完整性判断与修正,再将所述人体关节点2d坐标进行归一化处理后输入到所述卷积神经网络,结合利用反归一化获取所述摄像头坐标系下的人体关节点3d坐标;具体包括如下步骤:
步骤S41、将摄像头获取到图像数据输入到2d关节点检测模块,检测出图像中人体关节点的2d坐标;
步骤S42、将检测出的单人或者多人的关节点的2d坐标输入到所述卷积神经网络中;
步骤S43、判断检测到的关节点是否完整,若不完整,对所述关节点的数据进行修正;
步骤S44、将修正后的关节点数据归一化到均值为0,方差为1;
步骤S45、将归一化后的关节点数据输入到所述卷积神经网络,输出经过归一化的关节点的3d坐标数据;
步骤S46、利用反归一化,获取到摄像头坐标系下的人体的关节点的3d坐标数据;
步骤S47、调节所述摄像头的旋转矩阵和平移向量,使得经过所述卷积神经网络输出的3d姿态和真实三维空间中的3d姿态匹配上。
2.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,该方法还包括如下步骤:
步骤S5、关节点修正:
计算当前帧检测到的人体关节点与前一帧检测到的人体关节点的匹配率,利用当前帧在前一帧里最优匹配率所对应的指数作为修正,使当前帧在前一帧中有唯一的最优匹配。
3.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,步骤S1具体包括如下步骤:
步骤S11、加载所述FBX模型至所述unity软件中;
步骤S12、设定多组FBX模型更新的关节点数据,取第i组数据更新模型,i为整数,其中i初始为0;
步骤S13、将每一帧的关节点的2d坐标和3d坐标以字符串保存;
步骤S14、判断第i组数据中的FBX模型每个关节点更新完毕;若否,则返回步骤S13;若是,则进入步骤S15;
步骤S15、将FBX模型的关节点四元数重置为初始状态,每个关节点的2d坐标和3d坐标数据保存至jason文件格式下;
步骤S16、从jason文件数据解析出2d坐标和对应的3d坐标的数据,分别存储在2d.h5和3d.h5的数据格式下。
4.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,步骤S2中包括:
对3d坐标数据处理:
步骤a、将所述FBX模型的每一帧关节点的3d坐标数据转换到摄像头坐标系下;
步骤b、将所述FBX模型的每一帧关节点的3d坐标的数据进行平移置根节点为坐标原点;
步骤c、求出步骤b的数据的均值m和方差d;
步骤d、利用步骤c得到的均值m和方差d将步骤b的3d坐标数据归一化至均值为0,方差为1;
对2d坐标数据处理:
步骤a’、将所述FBX模型的每一帧关节点的2d坐标数据平移,使得根节点为坐标原点;
步骤b’、求得步骤a’计算得到的2d坐标数据的均值m1和方差d1;
步骤c’、利用步骤a’得到的均值m1和方差d1将2d坐标数据归一化到均值为0,方差为1。
5.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,步骤S3具体包括:
步骤S31、训练集函数损失:输出多个批次的关节点的3d坐标数据,计算对应经过归一化处理的理想的3d坐标数据的L2范数的均值;
步骤S32、验证集函数损失:在验证集中选择某个关节点的2d坐标数据以及与之对应的3d坐标数据,将3d坐标数据和2d坐标数据按照步骤S2中数据预处理的方法进行归一化处理,将2d坐标的数据输入到所述网络,计算输出与经过归一化处理的3d坐标数据的L2范数,作为误差。
6.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,步骤S5具体包括:
步骤S51、对当前帧检测到的人体的关节点进行判断,如果对应的位置的坐标数据为0,将该关节的标志位置0;否则标志位置1;
步骤S52、获取到当前检测到人体的关节点的矩形框,计算矩形框面积;
步骤S53、计算当前帧检测的所有人和前一帧检测出的所有人的关节点的距离;
判断该距离是否小于1,若是,关节点匹配标志位置1;若否关节点匹配标志位置0;
步骤S54、计算当前帧检测出的关节点与前一帧检测出的关节点匹配率;
步骤S55、计算当前帧检测到的第N个人在前一帧里的最优匹配率;
步骤S56、对当前帧的人的关节点进行补偿。
7.根据权利要求6所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,步骤S55还包括:
若当前帧检测同一人在前一帧对应多个人存在相同的匹配率,则计算当前帧检测出的同一人相对于前一帧对应的多个人的最优匹配率。
8.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,所述2d关节点检测模块为openpose模块,以COCO作为训练数据集。
9.根据权利要求1所述的基于深度学习的人体骨骼关节点三维坐标的获取方法,其特征在于,所述2d关节点检测模块检测的关节点为18个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810386825.XA CN108829232B (zh) | 2018-04-26 | 2018-04-26 | 基于深度学习的人体骨骼关节点三维坐标的获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810386825.XA CN108829232B (zh) | 2018-04-26 | 2018-04-26 | 基于深度学习的人体骨骼关节点三维坐标的获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108829232A CN108829232A (zh) | 2018-11-16 |
CN108829232B true CN108829232B (zh) | 2021-07-23 |
Family
ID=64154130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810386825.XA Active CN108829232B (zh) | 2018-04-26 | 2018-04-26 | 基于深度学习的人体骨骼关节点三维坐标的获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829232B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460871B (zh) * | 2019-01-18 | 2023-12-22 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、存储介质 |
CN109766953B (zh) * | 2019-01-22 | 2021-07-13 | 中国人民公安大学 | 对象识别方法及装置 |
CN109758756B (zh) * | 2019-02-28 | 2021-03-23 | 国家体育总局体育科学研究所 | 基于3d相机的体操视频分析方法及系统 |
CN110633005A (zh) * | 2019-04-02 | 2019-12-31 | 北京理工大学 | 一种光学式无标记的三维人体动作捕捉方法 |
CN109951936B (zh) * | 2019-04-18 | 2021-04-02 | 大连海事大学 | 一种根据不同应用场景智能调整的照明控制系统及方法 |
CN110969114B (zh) * | 2019-11-28 | 2023-06-09 | 四川省骨科医院 | 一种人体动作功能检测系统、检测方法及检测仪 |
CN110992454B (zh) * | 2019-11-29 | 2020-07-17 | 南京甄视智能科技有限公司 | 基于深度学习的实时动作捕捉和三维动画生成方法与装置 |
CN111208783B (zh) * | 2019-12-30 | 2021-09-17 | 深圳市优必选科技股份有限公司 | 一种动作模仿方法、装置、终端及计算机存储介质 |
CN111563953A (zh) * | 2020-04-14 | 2020-08-21 | 上海交通大学医学院附属第九人民医院 | 基于机器学习的颌骨缺损重建方法、装置、终端和介质 |
CN111939488A (zh) * | 2020-09-22 | 2020-11-17 | 吉林大学 | 一种用于放疗室中的安全监控装置及方法 |
CN112711332B (zh) * | 2020-12-29 | 2022-07-15 | 上海交通大学宁波人工智能研究院 | 一种基于姿态坐标的人体动作捕捉方法 |
CN113033501A (zh) * | 2021-05-06 | 2021-06-25 | 泽恩科技有限公司 | 一种基于关节四元数的人体分类方法及装置 |
CN113643419B (zh) * | 2021-06-29 | 2024-04-23 | 清华大学 | 一种基于深度学习的人体反向动力学求解方法 |
CN113609963B (zh) * | 2021-08-03 | 2022-10-11 | 北京睿芯高通量科技有限公司 | 一种实时多人体角度的抽烟行为检测方法 |
CN114041758B (zh) * | 2022-01-06 | 2022-05-03 | 季华实验室 | 桡动脉触诊定位方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101839692A (zh) * | 2010-05-27 | 2010-09-22 | 西安交通大学 | 单相机测量物体三维位置与姿态的方法 |
CN105389005A (zh) * | 2015-10-27 | 2016-03-09 | 武汉体育学院 | 一种二十四式太极拳三维互动展示方法 |
CN106020440A (zh) * | 2016-05-05 | 2016-10-12 | 西安电子科技大学 | 一种基于体感交互的京剧教学系统 |
CN106780569A (zh) * | 2016-11-18 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种人体姿态估计行为分析方法 |
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩色视频的三维人体关节点定位方法 |
CN107928675A (zh) * | 2017-11-22 | 2018-04-20 | 王华锋 | 一种基于深度学习和红点激光相结合的人体躯干测量方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328887A1 (en) * | 2015-05-04 | 2016-11-10 | The Trustees Of Columbia University In The City Of New York | Systems and methods for providing assistance for manipulating objects using virtual proxies and virtual replicas |
-
2018
- 2018-04-26 CN CN201810386825.XA patent/CN108829232B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101839692A (zh) * | 2010-05-27 | 2010-09-22 | 西安交通大学 | 单相机测量物体三维位置与姿态的方法 |
CN105389005A (zh) * | 2015-10-27 | 2016-03-09 | 武汉体育学院 | 一种二十四式太极拳三维互动展示方法 |
CN106020440A (zh) * | 2016-05-05 | 2016-10-12 | 西安电子科技大学 | 一种基于体感交互的京剧教学系统 |
CN106780569A (zh) * | 2016-11-18 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种人体姿态估计行为分析方法 |
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩色视频的三维人体关节点定位方法 |
CN107928675A (zh) * | 2017-11-22 | 2018-04-20 | 王华锋 | 一种基于深度学习和红点激光相结合的人体躯干测量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108829232A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829232B (zh) | 基于深度学习的人体骨骼关节点三维坐标的获取方法 | |
CN111862296B (zh) | 三维重建方法及装置、系统、模型训练方法、存储介质 | |
CN109176512A (zh) | 一种体感控制机器人的方法、机器人及控制装置 | |
US11335456B2 (en) | Sensing device for medical facilities | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN109671120A (zh) | 一种基于轮式编码器的单目slam初始化方法及系统 | |
Cheng et al. | Improving visual localization accuracy in dynamic environments based on dynamic region removal | |
CN111862299A (zh) | 人体三维模型构建方法、装置、机器人和存储介质 | |
US11138416B2 (en) | Method and apparatus for recognizing an organism action, server, and storage medium | |
CN110728739B (zh) | 一种基于视频流的虚拟人控制与交互方法 | |
CN113077519B (zh) | 一种基于人体骨架提取的多相机外参自动标定方法 | |
WO2021051526A1 (zh) | 多视图3d人体姿态估计方法及相关装置 | |
CN113899364B (zh) | 定位方法及装置、设备、存储介质 | |
CN104778661A (zh) | 在姿态估计中使用的骨架平滑方法和设备 | |
CN111832386A (zh) | 一种估计人体姿态的方法、装置及计算机可读介质 | |
CN108073855A (zh) | 一种人脸表情的识别方法及系统 | |
CN113146634A (zh) | 机器人姿态的控制方法、机器人及存储介质 | |
CN111401340B (zh) | 目标对象的运动检测方法和装置 | |
CN110428461B (zh) | 结合深度学习的单目slam方法及装置 | |
CN109363701A (zh) | 一种调整扫描机架干涉的方法、系统和装置 | |
CN113256789B (zh) | 一种三维实时人体姿态重建方法 | |
CN117456124B (zh) | 一种基于背靠背双目鱼眼相机的稠密slam的方法 | |
CN112381952B (zh) | 一种基于多相机的面部轮廓点云模型重构方法及装置 | |
JP7498404B2 (ja) | 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム | |
CN116543104A (zh) | 人体三维模型构建方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200630 Address after: Building 1, No.2, Danzi North Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province Applicant after: SHENZHEN TONGWEI COMMUNICATION TECHNOLOGY Co.,Ltd. Address before: 518000 A 305-307, Nanshan medical instrument Park, 1019 Nanhai Road, Nanshan District merchants street, Shenzhen, Guangdong. Applicant before: SHENZHEN DEEPCONV TECHNOLOGIES Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |