CN111862299A

CN111862299A - 人体三维模型构建方法、装置、机器人和存储介质

Info

Publication number: CN111862299A
Application number: CN202010545430.7A
Authority: CN
Inventors: 嵇超
Original assignee: Flexiv Robotics Ltd
Current assignee: Flexiv Robotics Ltd; Shanghai Flexiv Robotics Technology Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-30

Abstract

本申请涉及一种人体三维模型构建方法、装置、机器人和存储介质。所述方法包括：获取包含待构建三维模型的对象的二维图像和对应的深度信息；根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型；根据二维图像和深度信息得到对象的包含深度信息的骨架模型；以及根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。采用本方法能够提高三维模型构建的准确性。

Description

人体三维模型构建方法、装置、机器人和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种人体三维模型构建方法、装置、机器人和存储介质。

背景技术

三维模型重建是计算机图形学和计算机视觉中的一项任务，具体如三维人体重建，旨在根据人体图像通过算法自动生成人体表面模型来精确还原人体在三维世界中的位置、姿态、表面形状等几何信息。

目前的三维模型构建方法中从图像中提取特征基于二维投影拟合构建模型，然而，不同位置、姿态或表面的对象在距离相机不同位置时可能呈现出相同的二维投影，从而导致拟合构建的三维模型存在深度误差，影响了构建的三维模型的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高三维模型构建准确性的人体三维模型构建方法、装置、机器人和存储介质。

一种人体三维模型构建方法，所述方法包括：

获取包含待构建三维模型的对象的二维图像和对应的深度信息；

根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型；

根据二维图像和深度信息得到对象的包含深度信息的骨架模型；以及

根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。

一种人体三维模型构建装置，所述装置包括：

图像获取模块，用于获取包含待构建三维模型的对象的二维图像和对应的深度信息；

待校准模型模块，用于根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型；

深度信息处理模块，用于根据二维图像和深度信息得到对象的包含深度信息的骨架模型；以及

深度校准模块，用于根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。

一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述人体三维模型构建方法、装置、机器人和存储介质，根据包含待构建三维模型的对象的二维图像通过蒙皮多人线性模型得到待校准三维模型，基于对象的二维图像和对应的深度信息得到包含深度信息的骨架模型，以及根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到对象对应的目标三维模型。在针对人体对象的三维模型构建过程中，基于包括对象深度信息的骨架模型对对象的待校准三维模型进行深度校准，降低了三维模型的深度误差，提高了三维模型构建的准确性。

附图说明

图1为一个实施例中人体三维模型构建方法的应用环境图；

图2为一个实施例中人体三维模型构建方法的流程示意图；

图3为一个实施例中相对深度误差的示意图；

图4为另一个实施例中人体三维模型构建方法的流程示意图；

图5为一个实施例中绝对深度误差的示意图；

图6为一个实施例中未校准的人体三维模型的示意图；

图7为一个实施例中图6中人体三维模型经相对深度校准的示意图；

图8为一个实施例中经校正构建得到的三维人体网格模型的示意图；

图9为一个实施例中人体三维模型构建装置的结构框图；

图10为一个实施例中机器人的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人体三维模型构建方法，可以应用于如图1所示的应用环境中。其中，终端102可以通过网络与服务器104进行通信。终端102可以对人物对象进行拍摄，得到包含待构建三维模型的人体的二维图像，如RGB(RGB color mode，RGB色彩模式)图像，在一些实施例中也可使用仅包含灰度信息的图像。终端102将人体的二维图像发送至服务器104，服务器104根据二维图像采用蒙皮多人线性模型得到待校准三维模型，基于对象的二维图像和对应的深度信息得到包含深度信息的骨架模型，以及根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到对象对应的目标三维模型，服务器104可以将目标三维模型通过连接显示设备进行显示，或反馈至终端102进行显示。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等可以存储图片的设备，终端102也可以为相机、摄像机等可进行拍摄的电子设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，服务器104可以通过连接显示设备对构建的目标三维模型进行展示。

在一个实施例中，如图2所示，提供了一种人体三维模型构建方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取包含待构建三维模型的对象的二维图像和对应的深度信息。

其中，二维图像可以为相机拍摄得到的包含待构建三维模型的对象的图片，待构建三维模型的对象为三维模型构建对应的对象，具体可以为人体、物体等。二维图像可以为不同通道格式的图片，如可以为RGB图片，RGB图片为以三种基本颜色(红绿蓝)的相对强度来描述像素点的颜色的方法而编码得到的图片，二维图像是不包含深度信息的平面图像。具体地，二维图像可以由终端对相应的人体对象进行拍摄得到，并发送至服务器进行人体三维模型构建处理。对于对象运动过程中的三维模型构建，二维图像的数量可以为多帧，且各帧二维图像间具有相应的时序关系，与二维图像的拍摄时序对应，基于多帧时序二维图像，可以对对象的运动过程进行三维模型构建，以得到对象对应三维模型的运动过程。

步骤S204，根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型。

服务器基于获得的二维图像进行三维模型构建，具体采用蒙皮多人线性模型(SMPL，Skinned Multi-Person Linear model)得到对象的待校准三维模型。其中，SMPL为一种可以输出不同体型的人体在不同姿态下的人体Mesh及骨架的数学模型，其可以将不同体型和姿态的人体用10个体型参数和72个姿态参数描述；Mesh模型即人体网孔模型，为一种通过对物体表面采集样本点，并以相邻样本点的链接关系以及样本点三维坐标描述物体表面几何形状的模型。体型参数代表个人体高矮胖瘦、头身比等比例；姿态参数可以代表人体整体运动位姿和24个关节相对角度的75个参数，根据姿态参数可以得到Skeleton模型，即人体骨架模型，其为连接人体关键点(Keypoint)得到的人体骨架(如小腿，大腿，上臂，下臂等)，人体骨架模型可以反映人体的动作和姿态。

其中，待校准三维模型基于对象的二维图像采用蒙皮多人线性模型得到，而二维图像包括对象的二维信息，则待校准三维模型的姿态可能与对象真实的姿态存在深度误差，需要结合对象的深度信息进行校准，以确保构建的三维模型的准确性。

步骤S206，根据二维图像和深度信息得到对象的包含深度信息的骨架模型。

其中，深度信息可以表征对象可见表面的几何形状，深度信息具体可以为在深度感应器的视野中，特定坐标处物体到离摄像头平面最近的物体到该平面的距离，即相对于相机拍摄得到的二维图像，对象的深度信息可以反映对象与相机的距离特征。深度信息可以从对象的深度图像中确定，深度图像也被称为距离影像，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像。深度图像可以通过深度相机，如Intel Realsense拍摄，具体可以基于激光雷达深度成像法、计算机立体视觉成像、坐标测量机法、莫尔条纹法、结构光法等得到。骨架模型为对象的关键点连接得到的反映人体骨架的模型，例如对象为人体时，关键点可以为人体的各个关节以及眼睛、鼻子等传递语言信息的人体上的点；又如具体可以为右肩、右肘、右腕、左肩、左肘、左腕、右髋、右膝、右踝、左髋、左膝、左踝、头顶和脖子等。根据二维图像和深度信息得到对象的包含深度信息的骨架模型，则该骨架模型携带对象的深度信息，即骨架模型中各关键点携带深度特征，其可以为各关键点在空间中的三维坐标。

本实施例中，服务器获取对象的深度信息，具体可以从对象的深度图像中提取得到，深度图像可以与二维图像由深度相机同时拍摄得到，根据对象的二维图像和相应的深度信息得到包含对象深度信息的骨架模型，具体可以确定对象各关键点的深度信息，并基于各关键点的深度信息连接各关键点得到携带对象深度信息的骨架模型。

步骤S208，根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。

得到待校准三维模型和包含对象深度信息的骨架模型后，服务器基于包含深度信息的骨架模型对待校准三维模型进行深度校准，得到经过深度校准后的目标三维模型。具体可以先由服务器确定包含深度信息的骨架模型与待校准三维模型之间的距离，距离可以根据骨架模型与待校准三维模型中相对应的关键点组成相应的向量之间的距离确定，骨架模型与待校准三维模型之间的距离反映了两个模型间的深度误差，具体为相对深度误差。其中，相对深度误差为通过二维图像拟合对象的三维模型时，对象实际不同的姿态可以对应于相同的二维图像投影，即不同的二维图像可能拟合到相同的三维模型，或相同的二维图像可能拟合到不同的三维模型，从而带来的相对深度误差。

如图3所示，人体三维模型构建中，传统的基于人体二维图像的投影拟合人体的轮廓时，二维的RGB图片无法提供人体表面点的深度信息，所生成模型中人体不同部分相对于其他部分在z-轴(即深度方向)上的坐标可能存在误差，例如手、脚、四肢在不同的(距离相机的)深度下在二维图像中可能呈现相同的投影。图中，A和D为不同的人体姿态，A为正面姿态，D为背面姿态，而A和D相应二维图像的投影均为B，且二维的骨架模型均为C，则在获得人体图像的投影为B，骨架模型为C时，无法准确拟合出为A或D，从而带来相对深度误差，影响了三维模型构建的准确性。

本实施例中，服务器通过包含深度信息的骨架模型对待校准三维模型进行深度校准，从而校准待校准三维模型的相对深度误差，得到消除了相对深度误差的目标三维模型，目标三维模型可以有效反映对象的三维特征，如姿态、动作等，从而确保了目标三维模型的准确性。

上述人体三维模型构建方法中，根据包含待构建三维模型的对象的二维图像通过蒙皮多人线性模型得到待校准三维模型，基于对象的二维图像和对应的深度信息得到包含深度信息的骨架模型，以及根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到对象对应的目标三维模型。在针对人体对象的三维模型构建过程中，基于包括对象深度信息的骨架模型对对象的待校准三维模型进行深度校准，降低了三维模型的深度误差，提高了三维模型构建的准确性。

在一个实施例中，如图4所示，提供了一种人体三维模型构建方法，包括：

步骤S402，获取包含待构建三维模型的对象的二维图像和对应的深度信息。

步骤S402中获取包含待构建三维模型的对象的二维图像的处理与步骤S202类似，在此不再赘述。而对于获取包含待构建三维模型的对象的二维图像对应的深度信息的处理，具体可以由服务器获取与二维图像对应的深度图像，深度图像与二维图像同时拍摄得到，具体可以由深度相机对对象进行拍摄，以同时得到二维图像和深度图像，深度图像包括对象的深度信息。

步骤S404，根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型。

步骤S404与步骤S204类似，在此不再赘述。

步骤S406，根据二维图像和深度信息得到对象的包含深度信息的骨架模型。

本实施例中，步骤S406具体包括：根据二维图像确定对象的多个关键点的二维坐标和置信度；将置信度大于预设置信度阈值的各关键点作为有效关键点；基于各有效关键点的二维坐标和深度图像，确定各有效关键点的三维坐标；以及根据有效关键点的三维坐标得到对象的包含深度信息的骨架模型。

本实施例构建包含深度信息的骨架模型时，服务器根据包含待构建三维模型的对象的深度图像和二维图像确定对象各有效关键点的深度信息，并基于各有效关键点的深度信息构建得到对象对应包含深度信息的骨架模型。具体地，服务器在构建对象的骨架模型时，根据二维图像确定对象的多个关键点相应的二维坐标和置信度，二维图像为二维的彩色图像，如RGB图片，基于二维图像可以确定二维图像中对象的各关键点的二维信息，如二维坐标以及相应的置信度，置信度反映了各关键点对应二维坐标的可靠程度，置信度越高，二维坐标可靠性越高，即关键点的二维坐标越准确。具体可以对二维图像进行对象的关键点识别，以从二维图像中识别出对象的多个关键点，并基于各个关键点在二维图像中的位置，得到多个关键点相应的二维信息，具体包括多个关键点的二维坐标和置信度。在具体实现时，可以基于AlphaPose算法确定二维图像中对象的多个关键点的二维坐标和置信度。服务器基于各个关键点的置信度，将置信度大于预设置信度阈值的各关键点作为有效关键点，即将置信度高、二维坐标可靠性高的关键点确定为有效关键点。其中，置信度阈值可以根据实际需求预先进行设定，有效关键点的置信度高，则其二维坐标准确度高，基于有效关键点进行后续三维模型构建，可以确保三维模型构建的准确性。

进一步地，服务器基于各有效关键点相应的二维信息，如二维坐标，以及深度图像，可以确定各有效关键点相应的深度信息，如各有效关键点的三维坐标。具体可以将从二维图像中确定的各有效关键点映射到深度图像对应的位置，得到各有效关键点相应的三维坐标。基于各有效关键点相应的三维坐标得到包含了对象深度信息的骨架模型，如可以将各有效关键点基于对应的三维坐标进行连接，得到包含深度信息的骨架模型，该骨架模型包含了对象的真实深度信息。

本实施例中，通过对象的二维图像和对应的深度图像确定对象的各有效关键点相应的三维坐标，并基于三维坐标得到包含了对象真实深度信息的骨架模型，基于该骨架模型可以对待校准三维模型进行深度校准，以提高三维模型构建的准确性。

步骤S408，根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。

本实施例中，待校准的三维模型包括对象的未校准的网格模型以及对应的未校准的骨架模型；步骤S408进行深度校准的处理，具体包括：

步骤S4082，待校准的三维模型包括对象的未校准的网格模型以及对应的未校准的骨架模型；获取未校准的骨架模型中对应多个有效关键点的多个比对关键点的三维坐标。

本实施例中，根据待校准的三维模型中未校准的骨架模型与包含深度信息的骨架模型之间的距离校正未校准的网格模型中对象的姿态参数，实现对待校准的三维模型的深度校准，得到目标三维模型。具体地，待校准的三维模型包括对象的未校准的网格模型以及对应的未校准的骨架模型，网格模型由姿态参数θ和体型参数β构建得到，姿态参数θ代表人体整体运动位姿和24个关节相对角度的75个参数，体型参数β代表是个人体高矮胖瘦、头身比等比例的10个参数；骨架模型可以根据姿态参数θ得到，其为连接人体关键点(Keypoint)得到的人体骨架(如小腿，大腿，上臂，下臂等)，骨架模型可以反映人体的动作和姿态。对于待校准的三维模型中未校准的骨架模型，其由二维图像得到，骨架模型中各关键点的三维信息不可靠，存在深度误差。

服务器确定未校准的骨架模型中与包含深度信息的骨架模型中多个有效关键点分别对应的多个比对关键点，并确定多个比对关键点的三维坐标。比对关键点与有效关键点对应，具体可以为表征相同的人体关键点，例如有效关键点A为包含深度信息的骨架模型中表征人体上臂的关键点，那么有效关键点A对应的比对关键点A’则为未校准的骨架模型中表征人体上臂的关键点。多个比对关键点的三维坐标的基于对象的二维图像得到，缺乏可靠的深度信息，各比对关键点的三维坐标存在深度误差，需要进行深度校准。

步骤S4084，根据多个有效关键点和多个比对关键点分别对应的三维坐标，确定未校准的骨架模型与包含深度信息的骨架模型之间的距离。

得到与包含深度信息的骨架模型中各有效关键点对应的比对关键点的三维坐标后，服务器根据多个有效关键点的三维坐标和对应多个比对关键点的三维坐标，得到未校准的骨架模型与包含深度信息的骨架模型之间的距离。具体可以由服务器将多个有效关键点之间进行两两组合得到多个第一向量，并确定各第一向量之间的第一余弦距离；类似的，服务器确定多个比对关键点对应的第二余弦距离，即服务器将多个比对关键点之间进行两两组合得到多个第二向量，并确定各第二向量之间的第二余弦距离，再根据第一余弦距离和第二余弦距离确定未校准的骨架模型与包含深度信息的骨架模型之间的距离。

具体地，步骤S4084包括：根据多个有效关键点中的至少一部分，确定多个第一向量；并确定多个第一向量两两之间的多个第一余弦距离；根据多个比对关键点中的至少一部分，确定对应多个第一向量的多个第二向量；并确定多个第二向量两两之间的多个第二余弦距离；以及根据各第一余弦距离和对应的各第二余弦距离之间的差值的平方和确定未校准的骨架模型与包含深度信息的骨架模型之间的距离。

其中，第一向量根据多个有效关键点中的至少一部分得到，例如可以从各有效关键点选取一定数量的第一向量关键点，通过多个第一向量关键点进行两两组合，构建得到多个第一向量。服务器构建多个第一向量后，确定多个第一向量之间的第一余弦距离，具体可由服务器将多个第一向量进行两两配对，构成第一向量对，并计算各第一向量对的余弦距离，得到多个第一向量之间的第一余弦距离，第一余弦距离的数目与构建的第一向量对的数目相同。类似于根据多个有效关键点得到第一余弦距离的处理，服务器获得多个比对关键点对应的第二余弦距离。具体地，服务器从各比对关键点选取与第一向量关键点数量相同的第二向量关键点，通过多个第二向量关键点进行两两组合，构建得到多个第二向量，第二向量的数目与第一向量的数目相同。服务器构建多个第二向量后，确定多个第二向量之间的第二余弦距离，具体可由服务器将多个第二向量进行两两配对，构成第二向量对，第二向量对的数目与第一向量对的数目相同，并计算各第二向量对的余弦距离，得到多个第二向量之间的第二余弦距离，第二余弦距离的数目与构建的第二向量对的数目相同。

得到多个第一向量之间的第一余弦距离和多个第二向量之间的第二余弦距离后，基于各第一余弦距离和各第二余弦距离得到未校准的骨架模型与包含深度信息的骨架模型之间的距离，具体由服务器确定各第一余弦距离和各第二余弦距离之间距离差值的平方和，并将该距离差值的平方和作为未校准的骨架模型与包含深度信息的骨架模型之间的距离。

步骤S4086，以未校准的骨架模型与包含深度信息的骨架模型之间的距离最小为目标，校正未校准的网格模型中对象的姿态参数，得到目标三维模型。

得到未校准的骨架模型与包含深度信息的骨架模型之间的距离后，基于该距离对待校准的三维模型中未校准的网格模型的姿态参数进行校正，得到姿态参数。具体地，服务器以未校准的骨架模型与包含深度信息的骨架模型之间的距离作为目标函数，以该距离的数值最小作为目标，并基于该距离的数值最小时对应的参数校正未校准的网格模型中对象的姿态参数，得到目标三维模型。

步骤S410，计算未校准的骨架模型和包含深度信息的骨架模型之间的平移参数。

根据包含深度信息的骨架模型对待校准三维模型进行深度校准后，可以消除待校准三维模型中的相对深度误差，得到克服了相对深度误差的目标三维模型，可以进一步利用包含深度信息的骨架模型消除目标三维模型中的绝对深度误差。其中，绝对深度误差为通过二维图像拟合对象三维模型时，在对象与相机处于任何距离，即在任何深度下，都可能较好的拟合二维图片中的对象轮廓，从而导致的三维模型在相机坐标系下的绝对深度存在歧义和误差。

如图5所示，在传统的人体三维模型构建方法中，通过最大化在RGB图片中人体模型二维投影和真实人体轮廓的拟合程度，然而，只需要调节人体模型的大小，不论任何深度下(距离相机)都有可能较好的拟合二维图片中的人体轮廓，从而导致的人体模型在相机坐标系下的绝对深度存在歧义或误差。图5中，物体P1和P2尽管绝对深度不同，即距离相机的距离不同，但在相机中呈现相同大小，即根据相机获得的二维图像无法有效确定对象的绝对深度，从而带来绝对深度误差。

本实施例中，对于待校准三维模型中的绝对深度误差，由服务器通过包含深度信息的骨架模型与未校准的骨架模型之间的平移参数，进一步对获得的目标骨架模型进行绝对深度校准，从而校准目标骨架模型中的绝对深度误差，得到消除了绝对深度误差，对象对应包含真实深度的目标三维模型。包含真实深度的目标三维模型即消除了相对深度误差，又消除了绝对深度误差，可以有效反映对象的三维特征，如姿态、动作等，从而确保了人体三维模型构建的准确性。

具体地，在根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型后，服务器计算未校准的骨架模型和包含深度信息的骨架模型之间的平移参数。其中，平移参数反映了包含深度信息的骨架模型与待校准三维模型之间的绝对误差，具体可以根据包含深度信息的骨架模型与待校准三维模型各自的重心获得的重心向量得到。

进一步地，步骤S410包括：

步骤S4102，分别确定未校准的骨架模型的第一骨架重心和包含深度信息的骨架模型的第二骨架重心。

本实施例中，基于包含深度信息的骨架模型对目标三维模型进行绝对深度校准，具体根据包含深度信息的骨架模型与未校准的骨架模型各自的重心获得的重心向量确定的平移向量进行绝对深度校准，以进一步消除目标三维模型的绝对深度误差。具体地，服务器得到经过相对误差校准后的目标三维模型后，服务器分别确定未校准的骨架模型的第一骨架重心和包含深度信息的骨架模型的第二骨架重心。第一骨架重心可以根据未校准的骨架模型中的各关键点进行确定，第二骨架重心可以根据包含深度信息的骨架模型中的各关键点进行确定。

步骤S4104，根据第一骨架重心和第二骨架重心得到平移向量。

得到第一骨架重心和第二骨架重心后，服务器根据第一骨架重心和第二骨架重心生成平移向量，平移向量可以作为平移参数，其反映了包含深度信息的骨架模型与未校准的骨架模型之间的绝对深度误差。通过平移向量对目标三维模型进行绝对深度误差校准，可以消除目标三维模型中的绝对深度误差，从而提高三维模型构建的准确性。

步骤S412，根据平移参数，将目标三维模型平移至相机坐标系下的真实深度，得到对象对应包含真实深度的目标三维模型。

得到平移参数后，服务器将目标三维模型按照该平移参数平移至相机坐标系下的真实深度，从而得到对象对应包含真实深度的目标三维模型，包含真实深度的目标三维模型消除了绝对深度误差。

进一步地，步骤S412包括：

步骤S4122，按照平移向量将目标三维模型平移至相机坐标系下的真实深度，得到对象对应包含真实深度的目标三维模型。

具体地，服务器根据第一骨架重心和第二骨架重心得到平移向量后，按照获得的平移向量平移目标三维模型，以将目标三维模型平移至相机坐标系下的真实深度，从而对目标三维模型进行绝对深度校验，消除目标三维模型的绝对深度误差，得到消除了相对深度误差和绝对深度误差的对象对应包含真实深度的目标三维模型。其中，相机坐标系(Camera Coordinate System)为以相机光心为原点、光轴为z轴、x和y轴平行于的图片宽边和高边的三维直角坐标系；真实深度为克服了绝对深度误差深度信息。

通过未校准的骨架模型与包含深度信息的骨架模型各自的重心获得的平移向量对目标三维模型进行绝对深度校验，消除了目标三维模型的绝对深度误差，提高了三维模型构建的准确性。

步骤S414，获取预设帧数的包含待构建三维模型的对象的若干在先二维图像和对应的若干在先深度图像；其中，在先二维图像和在先深度图像的拍摄时序在二维图像和深度图像之前。

本实施例中，考虑到实际应用中针对对象运动过程进行三维模型构建，而针对单帧图像进行三维模型构建时，缺乏运动过程中的历史图像信息，导致三维模型构建在时间序列上的变化幅度很大，进一步结合历史帧对校准后的目标三维模型进行平滑处理，具体根据历史帧对应的三维模型的姿态参数对包含真实深度的目标三维模型的姿态参数进行更新，进一步提升三维模型构建的准确性。

具体地，获得包含真实深度的目标三维模型后，服务器获取预设帧数的若干在先二维图像对应的若干在先深度图像，其中，在先二维图像与在先深度图像对应，具体可以为通过深度相机同时拍摄得到，在先二维图像和在先深度图像均包含待构建三维模型的对象，且在先二维图像和在先深度图像的拍摄时序在二维图像和深度图像之前，即在先二维图像的拍摄于二维图像之前，在先深度图像拍摄于在先深度图像。预设帧数可以根据实际需求进行设置，如可以为2帧。

步骤S416，确定若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数。

获得若干在先二维图像和对应的若干在先深度图像后，服务器确定若干在先二维图像和若干在先深度图像中对应对象校正后的姿态参数。若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数可以作为当前的包含真实深度的目标三维模型的历史参照，基于该历史参照可以对包含真实深度的目标三维模型进行平滑处理，以降低三维模型构建在时间序列上的变化幅度，进一步提升三维模型构建的准确性。

步骤S418，根据若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数，对包含真实深度的目标三维模型中校正后的姿态参数进行平滑处理，得到平滑处理后的目标三维模型。

得到若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数后，服务器基于该若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数对包含真实深度的目标三维模型中校正后的姿态参数进行平滑处理，具体可以由服务器根据若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数，以及包含真实深度的目标三维模型中校正后的姿态参数确定平滑姿态参数，如进行加权处理，得到平滑姿态参数。并将包含真实深度的目标三维模型中的校正后的姿态参数调整为平滑姿态参数，从而实现对包含真实深度的目标三维模型中校正后的姿态参数的平滑处理，得到平滑处理后的目标三维模型。具体地，可基于平滑处理后的平滑姿态参数对包含真实深度的目标三维模型中校正后的姿态参数进行更新，从而得到平滑处理后的目标三维模型。

基于得到的平滑姿态参数对包含真实深度的目标三维模型中校正后的姿态参数进行平滑处理，从而减小了构建的三维模型在时间序列上的变化幅度，提升了三维模型构建的准确性。

应当注意，步骤414、416和418可在步骤408之前执行，以在步骤4086中对未校准的网格模型中对象的姿态参数进行进一步的校正。

在一个实施例中，本申请提供的人体三维模型构建方法应用于人体三维模型重建处理中，构建的人体网格模型，即三维人体模型可应用于机器-人类交互、体育分析、虚拟试衣等场景。目前，传统的三维人体重建方法主要基于SMPL人体模型—利用传统的方法或深层神经网络从RGB图片中提取特征，以预测SMPL模型参数，并最终计算三维人体网格模型，即三维人体Mesh模型。其中，SMPL为一种可以输出不同体型的人体在不同姿态下的人体网格及骨架的数学模型，其可以将不同体型和姿态的人体用10个体型参数和72个姿态参数描述；Mesh模型即人体网孔模型，为一种通过对物体表面采集样本点，并以相邻样本点的链接关系以及样本点三维坐标描述物体表面几何形状的模型。

然而，尽管现有方法生成的三维模型在二维图像中的投影已经能较为准确的拟合图像中人体的轮廓，但由于RGB图片无法提供人体表面点的深度信息，所生成模型中人体不同部分相对于其他部分在z-轴(即深度方向)上的坐标可能存在误差，例如手、脚、四肢在不同的(距离相机的)深度下在二维图像中可能呈现相同的投影，具体如图3所示的相对深度误差。另一方面，由于现有方法的目标仅为最大化在RGB图片中人体模型二维投影和真实人体轮廓的拟合程度，而只需要调节人体模型的大小，不论任何深度下(距离相机)都有可能较好的拟合二维图片中的人体轮廓，从而导致的人体模型在相机坐标系下的绝对深度存在歧义或误差，具体如图5所示的绝对深度误差。本实施例，基于已有的Human Mesh Recovery(HMR，人体网格重建)算法得到的三维人体Mesh模型，利用采集到的深度图片对该Mesh模型存在的绝对和相对深度误差进行校准。其中，HMR算法为一种基于深度学习的、可以从RGB图片生成人体三维网孔模型的算法。三维人体Mesh模型由姿态参数θ和体型参数β构建得到，姿态参数θ代表人体整体运动位姿和24个关节相对角度的75个参数，体型参数β代表是个人体高矮胖瘦、头身比等比例的10个参数，根据姿态参数θ可以得到Skeleton模型，即人体骨架模型，其为连接人体关键点(Keypoint)得到的人体骨架(如小腿，大腿，上臂，下臂等)，人体骨架模型可以反映人体的动作和姿态。相机坐标系为以相机光心为原点、光轴为z轴、x和y轴平行于的图片宽边和高边的三维直角坐标系。

具体地，使用深度像机，例如Intel Realsense采集包含人体的时序RGB图片和深度图像，RGB图片作为包含待构建三维模型的对象的图像；深度图像利用深度相机采集到的图片，其与RGB图片大小相同，而每个像素包含相应RGB图片中像素所属于的物体上的点距离相机的距离。使用AlphaPose算法得到每张RGB图片中人体关键点的二维信息，即每个关键点的二维坐标和置信度，然后将这些关键点中置信度大于置信度阈值的关键点，映射到相应深度图像的对应位置，得到各关键点相应的深度信息，具体为三维坐标，并由此得到包含真实深度的人体骨架模型B^GT。其中，AlphaPose算法为一种基于深度学习的、可以从RGB图片生成人体二维关键点的算法；人体骨架模型，即Skeleton模型为连接人体关键点得到的人体骨架，如小腿、大腿、上臂、下臂等。另一方面，使用Human Mesh Recovery算法得到未校准的三维人体Mesh模型，以及相应的未校准的人体骨架模型B。

对未校准的人体骨架模型B进行相对深度校准时，计算两个人体骨架模型的距离D＝f(B(θ,β)，B^GT)，由Human Mesh Recovery算法的到的未校准的人体骨架B是由姿态参数θ和体型参数β决定。而人体体型不会随着姿态的变化而变化，所以只需要找到能最小化距离的姿态参数θ*，然后由β和θ*利用SMPL模型重新生成校准后的三维人体Mesh模型。具体地，以B(θ,β)和B^GT表示三维人体关键点的集合，其中，B(θ,β)＝{(x1,y1,z1),…,(xK,yK,zK)}，B^GT＝{(x₁ ^gt,y₁ ^gt,z₁ ^gt),…,(x_K ^gt,y_K ^gt,z_K ^gt)}，K表示关键点的个数。将同一个集合中任意两个关键点相连接可得到一个向量的集合，即得到V＝{(x_i-x_j,y_i-y_j,z_i-z_j)|所有的i和j}和V＝{(x_i-x_j,y_i-y_j,z_i-z_j)|所有的i和j}。对于V中的任意两个向量v_m和v_n,以及V^GT中的任意两个向量v_m ^gt和v_n ^gt,计算它们的余弦距离d＝1-<v_m,v_n>以及d^gt＝1-<v_m ^gt,v_n ^gt>(即1–余弦相似度)。确定两个人体骨架模型的模型距离D＝f(B(θ,β)，B_GT)，即为两个距离差值的平方(d–d^gt)²在所有向量对上的和D＝∑(d_m,n–d_m,n ^gt)²。利用梯度下降算法，以D为目标函数，找到能使D最小的θ*参数。利用SMPL模型重新生成人体骨架B(θ*,β)＝{(x₁,y₁,z₁),…,(x_K,y_K,z_K)}以及三维人体Mesh模型，从而实现对三维人体Mesh模型相对深度误差的校准。

如图6和图7所示，在一实施例中，经过相对深度校准后，三维人体Mesh模型的手臂由图6所示的姿态被修正为图7所示的下垂姿态。

进行相对深度误差校准后，进行绝对深度校准。可以通过计算包含真实深度的骨架模型B^GT和未校准骨架模型B之间的平移向量，然后利用该向量将校准后的三维人体Mesh模型平行移动到在相机坐标系下的真实深度。具体地，计算重新生成的人体骨架B(θ*,β)＝{(x₁,y₁,z₁),…,(x_K,y_K,z_K)}以及包含真实深度的人体骨架B^GT＝{(x₁ ^gt,y₁ ^gt,z₁ ^gt),…,(x_K ^gt,y_K ^gt,z_K ^gt)}的重心(c₁,c_2,c₃)和(c₁ ^gt,c₂ ^gt,c₃ ^gt)，即可得到向量v＝(c₁ ^gt-c₁,c₂ ^gt-c₂,c₃ ^gt-c₃)。将经过相对深度误差后重新生成的三维人体Mesh模型沿着v的方向和长度平移，即可得到经过绝对深度误差校准的三维人体Mesh模型。

此外，考虑到由于Human Mesh Recovery算法只依赖于某一帧RGB图片的信息，故其输出的三维人体Mesh模型可能在时间序列上的变化幅度很大。令θ_i-2、θ_i-1、θ_i分别表示第i-2，i-1，i帧的RGB图像经相对深度误差校准和绝对误差校准过的三维人体Mesh模型的人体姿态参数,则第i帧经过平滑后的参数θ_i’＝θ_i-2*w_i-2+θ_i-1*w_i-1+θ_i*w_i，即前两帧和第i帧的参数的加权平均，然后再通过SMPL生成经过校准和平滑处理后的最终三维人体Mesh模型。

如图8中，左侧相互垂直的三条线段表示相机位置和相机坐标系，右侧为一实施例中构建得到的三维人体Mesh模型的示意图，具体可以为经过相对深度误差校准和绝对深度误差校准后得到的三维人体Mesh模型。如图7和图8所示，一实施例中，经过绝对深度校准后，三维人体Mesh模型由图8中的位于相机坐标系基点的情况被修正到真实的相对相机坐标系的位置。图8中三维人体Mesh模型的中的骨架模型图6和图7中的骨架模型相同。

本实施例中，通过采集到的深度图像中人体的深度信息对三维人体Mesh模型存在的绝对深度误差和相对深度误差进行校准，提高了三维人体Mesh模型构建的准确性。

应该理解的是，虽然图2、4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种人体三维模型构建装置900，包括：图像获取模块902、待校准模型模块904、深度信息处理模块906和深度校准模块908，其中：

图像获取模块902，用于获取包含待构建三维模型的对象的二维图像和对应的深度信息；

待校准模型模块904，用于根据二维图像，采用蒙皮多人线性模型(SMPL)得到对象的待校准三维模型；

深度信息处理模块906，用于根据二维图像和深度信息得到对象的包含深度信息的骨架模型；以及

深度校准模块908，用于根据包含深度信息的骨架模型对待校准三维模型进行深度校准，得到目标三维模型。

在一个实施例中，深度信息处理模块906包括关键点确定模块、有效关键点模块、深度图像获取模块、三维坐标确定模块和骨架模型构建模块；其中：关键点确定模块，用于根据二维图像确定对象的多个关键点的二维坐标和置信度；有效关键点模块，用于将置信度大于预设置信度阈值的各关键点作为有效关键点；深度图像获取模块，用于获取与二维图像对应的深度图像；三维坐标确定模块，用于基于各有效关键点的二维坐标和深度图像，确定各有效关键点的三维坐标；以及骨架模型构建模块，用于根据有效关键点的三维坐标得到对象的包含深度信息的骨架模型。

在一个实施例中，待校准的三维模型包括对象的未校准的网格模型以及对应的未校准的骨架模型，深度校准模块908包括比对关键点模块、模型距离确定模块和姿态参数校正模块；其中：比对关键点模块，用于获取未校准的骨架模型中对应多个有效关键点的多个比对关键点的三维坐标；模型距离确定模块，用于根据多个有效关键点和多个比对关键点分别对应的三维坐标，确定未校准的骨架模型与包含深度信息的骨架模型之间的距离；以及姿态参数校正模块，用于以未校准的骨架模型与包含深度信息的骨架模型之间的距离最小为目标，校正未校准的网格模型中对象的姿态参数，得到目标三维模型。

在一个实施例中，模型距离确定模块包括第一距离确定模块、第二距离确定模块和模型距离获得模块；其中：第一距离确定模块，用于根据多个有效关键点中的至少一部分，确定多个第一向量；并确定多个第一向量之间的第一余弦距离；第二距离确定模块，用于根据多个比对关键点中的至少一部分，确定对应多个第一向量的多个第二向量；并确定多个第二向量之间的第二余弦距离；以及模型距离获得模块，用于根据各第一余弦距离和各第二余弦距离之间距离差值的平方和确定未校准的骨架模型与包含深度信息的骨架模型之间的距离。

在一个实施例中，还包括平移参数计算模块和模型平移模块；其中：平移参数计算模块，用于计算未校准的骨架模型和包含深度信息的骨架模型之间的平移参数；以及模型平移模块，用于根据平移参数，将目标三维模型平移至相机坐标系下的真实深度，得到对象对应包含真实深度的目标三维模型。

在一个实施例中，平移参数计算模块包括骨架重心确定模块和平移向量确定模块；其中：平移参数计算模块，用于分别确定未校准的骨架模型的第一骨架重心和包含深度信息的骨架模型的第二骨架重心；以及模型平移模块，用于根据第一骨架重心和第二骨架重心得到平移向量；平移参数包括平移向量；模型平移模块，还用于按照平移向量将目标三维模型平移至相机坐标系下的真实深度，得到对象对应包含真实深度的目标三维模型。

在一个实施例中，还包括在先图像获取模块、在先参数确定模块和平滑处理模块；其中：在先图像获取模块，用于获取预设帧数的包含待构建三维模型的对象的若干在先二维图像和对应的若干在先深度图像；其中，在先二维图像和在先深度图像的拍摄时序在二维图像和深度图像之前；在先参数确定模块，用于确定若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数；以及平滑处理模块，用于根据若干在先二维图像和若干在先深度图像中对象的校正后的姿态参数，对包含真实深度的目标三维模型中校正后的姿态参数进行平滑处理，得到平滑处理后的目标三维模型。

关于人体三维模型构建装置的具体限定可以参见上文中对于人体三维模型构建方法的限定，在此不再赘述。上述人体三维模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于机器人中的处理器中，也可以以软件形式存储于机器人中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种机器人1000，该机器人可以包括服务器，服务器内部结构图可以如图10所示。该机器人1000包括通过系统总线1004连接的处理器1002、存储器和网络接口1016。其中，该机器人1000的处理器1002用于提供计算和控制能力。该机器人1000的存储器包括非易失性存储介质1006、内存储器1014。该非易失性存储介质1006存储有操作系统1008、计算机程序1010和数据库1012。该内存储器1014为非易失性存储介质1006中的操作系统1008和计算机程序1010的运行提供环境。该机器人1000的数据库1012用于存储数据。该机器人1000的网络接口1016用于与外部的终端通过网络连接通信。该计算机程序1010被处理器1002执行时以实现一种人体三维模型构建方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的机器人的限定，具体的机器人可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种机器人，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任意实施例中的人体三维模型构建方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例中的人体三维模型构建方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人体三维模型构建方法，其特征在于，所述方法包括：

根据所述二维图像，采用蒙皮多人线性模型(SMPL)得到所述对象的待校准三维模型；

根据所述二维图像和所述深度信息得到所述对象的包含深度信息的骨架模型；以及

根据所述包含深度信息的骨架模型对所述待校准三维模型进行深度校准，得到目标三维模型。

2.根据权利要求1所述的方法，其特征在于，所述获取包含待构建三维模型的对象的二维图像对应的深度信息包括：获取与所述二维图像对应的深度图像；

所述根据所述二维图像和所述深度信息得到所述对象的包含深度信息的骨架模型的步骤包括：

根据所述二维图像确定所述对象的多个关键点的二维坐标和置信度；

将所述置信度大于预设置信度阈值的各所述关键点作为有效关键点；

基于各所述有效关键点的二维坐标和所述深度图像，确定各所述有效关键点的三维坐标；以及

根据所述有效关键点的所述三维坐标得到所述对象的包含深度信息的骨架模型。

3.根据权利要求2所述的方法，其特征在于，所述待校准的三维模型包括所述对象的未校准的网格模型以及对应的未校准的骨架模型，所述根据所述包含深度信息的骨架模型对所述待校准三维模型进行深度校准，得到目标三维模型的步骤包括：

获取所述未校准的骨架模型中对应所述多个有效关键点的多个比对关键点的三维坐标；

根据所述多个有效关键点和所述多个比对关键点分别对应的三维坐标，确定所述未校准的骨架模型与所述包含深度信息的骨架模型之间的距离；以及

以所述未校准的骨架模型与所述包含深度信息的骨架模型之间的所述距离最小为目标，校正所述未校准的网格模型中对象的姿态参数，得到目标三维模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个有效关键点和所述多个比对关键点分别对应的三维坐标，确定所述未校准的骨架模型与所述包含深度信息的骨架模型之间的距离的步骤包括：

根据所述多个有效关键点中的至少一部分，确定多个第一向量；并确定所述多个第一向量两两之间的多个第一余弦距离；

根据所述多个比对关键点中的至少一部分，确定对应所述多个第一向量的多个第二向量；并确定所述多个第二向量两两之间的多个第二余弦距离；以及

根据各所述第一余弦距离和对应的各所述第二余弦距离之间的差值的平方和确定所述未校准的骨架模型与所述包含深度信息的骨架模型之间的距离。

5.根据权利要求3所述的方法，其特征在于，还包括：

计算所述未校准的骨架模型和所述包含深度信息的骨架模型之间的平移参数；以及

根据所述平移参数，将所述目标三维模型平移至相机坐标系下的真实深度，得到所述对象对应包含真实深度的目标三维模型。

6.根据权利要求5所述的方法，其特征在于，

所述计算所述未校准的骨架模型和所述包含深度信息的骨架模型之间的平移参数的步骤包括：

分别确定所述未校准的骨架模型的第一骨架重心和所述包含深度信息的骨架模型的第二骨架重心；以及

根据所述第一骨架重心和所述第二骨架重心得到平移向量；

所述根据所述平移参数，将所述目标三维模型平移至相机坐标系下的真实深度，得到所述对象对应包含真实深度的目标三维模型的步骤包括：

按照所述平移向量将所述目标三维模型平移至相机坐标系下的真实深度，得到所述对象对应包含真实深度的目标三维模型。

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取预设帧数的包含待构建三维模型的对象的若干在先二维图像和对应的若干在先深度图像；其中，所述在先二维图像和在先深度图像的拍摄时序在所述二维图像和所述深度图像之前；

确定所述若干在先二维图像和所述若干在先深度图像中所述对象的校正后的姿态参数；以及

根据所述若干在先二维图像和所述若干在先深度图像中所述对象的校正后的姿态参数，对所述目标三维模型中校正后的所述姿态参数进行平滑处理，得到平滑处理后的目标三维模型。

8.一种人体三维模型构建装置，其特征在于，所述装置包括：

待校准模型模块，用于根据所述二维图像，采用蒙皮多人线性模型(SMPL)得到所述对象的待校准三维模型；

深度信息处理模块，用于根据所述二维图像和所述深度信息得到所述对象的包含深度信息的骨架模型；以及

深度校准模块，用于根据所述包含深度信息的骨架模型对所述待校准三维模型进行深度校准，得到目标三维模型。

9.一种机器人，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。