CN102842148B

CN102842148B - 一种无标记运动捕捉及场景重建方法及装置

Info

Publication number: CN102842148B
Application number: CN201210237812.9A
Authority: CN
Inventors: 戴琼海; 叶亘之; 刘烨斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-07-10
Filing date: 2012-07-10
Publication date: 2014-09-10
Anticipated expiration: 2032-07-10
Also published as: CN102842148A

Abstract

本发明提出一种基于多手持深度相机的无标记运动捕捉及场景重建方法及装置，其中该方法包括步骤：提供人体模型和地板模型；通过多个深度相机手持地拍摄；将相机返回的深度图进行空间变换得到三维点云集合；从对同一深度相机的相邻帧的彩色图中提取场景特征点；根据人体模型中的表面网格点、地板模型中的地板点和三维空间的场景特征点的信息，定义联合优化模型；将三维点云点与表面网格点进行匹配；和将匹配结果对引入联合优化模型进行求解和变换，得到运动捕捉结果和场景重建结果。本发明的方法，无需借助笨重的标志物，能够更加灵活便捷地进行运动捕捉和场景重建，具有运动参数准确鲁棒、场景复原程度高、算法运行速度快、系统成本低的优点。

Description

一种无标记运动捕捉及场景重建方法及装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于多手持深度相机的无标记运动捕捉及场景重建方法及装置。

背景技术

人体运动捕捉是计算机视觉中的重要以及难点问题。近几年来，运动捕捉已经成为商业电影虚拟人物制作的重要手段，但这种方法对采集环境要求十分苛刻。首先，表演者必须穿着带有特殊标志物的表演服，算法需要通过对这些标志物的跟踪才能重建出人体运动。其次，整个系统需要将相机固定在背景是绿幕布的摄影棚内，这些严格的局限性阻碍了其更广泛更自由的应用。

未解决上述缺陷，学者们将注意力转移到无标记运动捕捉技术的研究上。通过对算法的改进，表演者可以穿着日常着装进行表演。但是对绿幕布的需求依旧存在，因为普通彩色相机很难分割前景背景，需要绿幕布作为先验信息提供分割依据。

深度相机是近年来逐渐开始普及的感知三维世界的新方式，对于环境中的每个点，深度相机不但可以返回其颜色信息，还可以返回该点距离深度相机光心平面的垂直距离。这一开创性的技术发明为一般场景的无标记运动捕捉技术提供了可能性。

发明内容

本发明旨在至少解决上述技术问题之一。为此，本发明的目的在于提供一种利用多台手持深度相机拍摄到的点云跟踪人体运动参数以及相机位姿参数，同时实现人体运动捕捉以及背景环境三维重建的方法及对应的装置。

根据本发明的基于多手持深度相机的无标记运动捕捉及场景重建方法包括以下步骤：A.提供人体模型和地板模型；B.提供多个深度相机，以非固定的手持方式进行拍摄，获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频；C.根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P；D.对同一所述深度相机的相邻帧的所述彩色图进行匹配，提取二维空间的场景特征点，并在所述三维点云集合中找到对应的三维空间的场景特征点S；E.根据所述人体模型中的表面网格点V、所述地板模型中的地板点G和所述三维空间的场景特征点S的信息，定义联合优化模型；F.根据所述深度图和所述彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果；和G.将所述P-V匹配结果对引入所述联合优化模型，进行求解和变换，得到运动捕捉结果和场景重建结果。

根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法，不但实现了准确鲁棒的运动参数估计，还同时实现了相机参数的恢复以及三维场景的实时重建。将所述的优化模型进行线性化变形，即可快速求解所有参数，算法准确、鲁棒，真实感强，运行速度快，系统成本低，可以在普通PC机或工作站等硬件系统上实现，拥有广阔的应用前景。

根据本发明的基于多手持深度相机的无标记运动捕捉及场景重建装置包括以下部分：人体模型输入模块，用于输入人体模型；地板模型输入模块，用于输入地板模型；多视角的深度相机，用于非固定的手持方式进行拍摄，获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频；点云转换模块，用于根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P；特征点提取模块，用于对同一所述深度相机的相邻帧的所述彩色图进行匹配，提取二维空间的场景特征点，并在所述三维点云集合中找到对应的三维空间的场景特征点S；匹配模块，用于根据所述深度图和所述彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果；联合优化模型计算模块，用于定义联合优化模型，并将所述P-V匹配结果对引入所述联合优化模型，通过线性化为一最小二乘问题进行求解，得到骨架参数χ和所述手持相机的外参矩阵γ；运动捕捉模块，用于根据所述骨架参数χ，描述运动追踪结果，以实现运动捕捉；和场景重建模块，用于根据所述外参矩阵γ,结合所述内参矩阵，将所述手持相机获得的点云点进行坐标变换，即得到T_γ(P)，将变换后的点云增加到原场景点云中，以实现场景重建。

根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置，不但实现了准确鲁棒的运动参数估计，还同时实现了相机参数的恢复以及三维场景的实时重建。将所述的优化模型进行线性化变形，即可快速求解所有参数，算法准确、鲁棒，真实感强，运行速度快，系统成本低，可以在普通PC机或工作站等硬件系统上实现，拥有广阔的应用前景。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法的流程图；以及

图2是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

下面参考附图描述根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法及装置。

图1是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法的流程图。如图1所示，该方法包括下述步骤：

步骤S101，提供人体模型和地板模型。

其中，人体模型由骨架模型和表面网格构成，骨架有31个关节点组成的运动学链条组成，每个关节的位置、自由度以及转轴方向均为手工指定。表面网格被骨架模型拖动变形，模拟真实人体运动情况。在本发明的一个实施例中，人体模型符合骨架驱动表面规律，即满足骨架驱动表面规律的定义公式：其中V为表面网格点，T_χV为表面网格点在关节转角χ下变形T_χ得到的目标位置，α为关节序号，N为关节数目，θ_αξ_α为关节旋转参数。

此外，为了限制相机运动自由度，在联合优化中，需要加入地板平面约束。在本发明的一个实施例中，地板模型为圆形平面模型，地板模型用于提供地板平面约束。

步骤S102，提供多个深度相机，以非固定的手持方式进行拍摄，获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频。

需要说明的是，非固定的手持方式进行拍摄，意味着相机的外参矩阵为未知。由于人体骨架参数以及相机外参矩阵均为未知，本发明实际上提出一种联合优化模型同时求解骨架参数及相机外参矩阵，从而实现运动捕捉和场景重建。

步骤S103，根据深度图和深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P。

在本发明的一个实施例中，根据深度图和深度相机的内参矩阵，进行空间变换得到三维点云集合的空间变换公式为：其中P为三维点云集合中的三维点云点，（m,n）为深度图中的像素点，m、n表示像素点（m,n）的坐标，d(m,n)表示像素点（m,n）的深度值。

步骤S104，对同一深度相机的相邻帧的彩色图进行匹配，提取二维空间的场景特征点，并在三维点云集合中找到对应的三维空间的场景特征点S。

在本发明的一个实施例中，对同一深度相机的相邻帧的彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。

步骤S105，根据人体模型中的表面网格点V、地板模型中的地板点G和三维空间的场景特征点S的信息，定义联合优化模型。

在本发明的一个实施例中，联合优化模型为：

\arg \min_{χ, γ} \underset{i}{Σ} | | T_{χ} (V_{i}) - T_{γ} (P_{i}) | | + \underset{j}{Σ} | | G_{j} - T_{γ} (P_{j}) | | + \underset{k}{Σ} | | S_{k} - T_{γ} (P_{k}) | |

其中，χ表示骨架参数，表示每个关节的转动角度，γ＝{R_c|t_c}表示手持相机的外参矩阵，R_c表示旋转矩阵，t_c表示平移向量，V表示人体模型的表面网格点，T_χ(V)表示在骨架参数χ的牵引下对表面点V进行拖动后的位置，P为空间变换得到的三维点云点，T_γ(P)表示在手持相机在外参矩阵γ下进行观测到的三维点云点P在真实世界坐标系下的位置，G为真实世界的地板点，S为三维空间的场景特征点，下标i表示三维点云点P和表面网格点V的序号，j表示地板点G的序号，k表示场景特征点S的序号。

步骤S106，根据深度图和彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果。

在本发明的一个实施例中，遍历地计算三维点云点P与各个表面网格点V的匹配度量函数F(V,P)，并选取能使度量函数具有最大值的V点作为P点匹配成功的点，即v_i＝argmax_v∈VF(v，p_i)，其中，匹配度量函数F(v，p)＝Δ(||l_v-l_p||，θ_l)Δ(||x_v-x_p||，θ_x)max(n_vn_p，0)，其中运算符Δ表示 x_v，n_v，l_v分别表示表面网格点V的位置信息值、法向信息值及颜色信息值，x_p，n_p，l_p分别表示身体点云点P的位置信息值、法向信息值及颜色信息值，θ_l表示颜色信息的最大允许差值，θ_x表示位置信息的最大允许差值。

步骤S107，将P-V匹配结果对引入联合优化模型，进行求解和变换，得到运动捕捉结果和场景重建结果。

在本发明的一个实施例中，首先将P-V匹配结果对引入联合优化模型，通过线性化为一最小二乘问题进行求解，得到骨架参数χ和手持相机的外参矩阵γ；其次根据骨架参数χ，描述运动追踪结果，以实现运动捕捉；再次根据外参矩阵γ,结合内参矩阵，将手持相机获得的点云点进行坐标变换，即得到T_γ(P)，将变换后的点云增加到原场景点云中，以实现场景重建。

在本发明的一个优选实施例中，还可以进一步对人体模型进行拉普拉斯表面变形，以使追踪结果更接近实际情况，其中，拉普拉斯表面变形的计算公式为：其中||LV-δ||²为拉普拉斯坐标系表面几何约束，||CV-q||²为运动约束，λ为表面网格变形权重。

根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建方法，不但实现了准确鲁棒的运动参数估计，还同时实现了相机参数的恢复以及三维场景的实时重建。将的优化模型进行线性化变形，即可快速求解所有参数，算法准确、鲁棒，真实感强，运行速度快，系统成本低，可以在普通PC机或工作站等硬件系统上实现，拥有广阔的应用前景。

图2是根据本发明一个实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置的结构框图。如图2所示，该装置包括：人体模型输入模块100、地板模型输入模块200、多视角的深度相机300、点云转换模块400、特征点提取模块500、匹配模块600、联合优化模型计算模块700、运动捕捉模块800和场景重建模块900。具体地：

人体模型输入模块100用于输入人体模型。其中，人体模型由骨架模型和表面网格构成，骨架有31个关节点组成的运动学链条组成，每个关节的位置、自由度以及转轴方向均为手工指定。表面网格被骨架模型拖动变形，模拟真实人体运动情况。在本发明的一个实施例中，人体模型符合骨架驱动表面规律，即满足骨架驱动表面规律的定义公式：其中V为表面网格点，T_χV为表面网格点在关节转角χ下变形T_χ得到的目标位置，α为关节序号，N为关节数目，θ_αξ_α为关节旋转参数。

地板模型输入模块200用于输入地板模型。为了限制相机运动自由度，在联合优化中，需要加入地板平面约束。在本发明的一个实施例中，地板模型为圆形平面模型，地板模型用于提供地板平面约束。

多视角的深度相机300以非固定的手持方式进行拍摄，用于获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频。需要说明的是，非固定的手持方式进行拍摄，意味着相机的外参矩阵为未知。由于人体骨架参数以及相机外参矩阵均为未知，本发明实际上提出一种联合优化模型同时求解骨架参数及相机外参矩阵，从而实现运动捕捉和场景重建。

点云转换模块400用于根据深度图和深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P。在本发明的一个实施例中，根据深度图和深度相机的内参矩阵，进行空间变换得到三维点云集合的空间变换公式为：其中P为三维点云集合中的三维点云点，（m,n）为深度图中的像素点，m、n表示像素点（m,n）的坐标，d(m,n)表示像素点（m,n）的深度值。

特征点提取模块500用于对同一深度相机的相邻帧的彩色图进行匹配，提取二维空间的场景特征点，并在三维点云集合中找到对应的三维空间的场景特征点S。在本发明的一个实施例中，对同一深度相机的相邻帧的彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。

匹配模块600用于根据深度图和彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果。

在本发明的一个实施例中，遍历地计算三维点云点P与各个表面网格点V的匹配度量函数F(V,P)，并选取能使度量函数具有最大值的V点作为P点匹配成功的点，即v_i＝argmax_v∈VF(v，p_i)，其中，匹配度量函数F(v，p)＝Δ(||l_v-l_p||，θ_l)Δ(||x_v-x_p||,θ_x)max(n_vn_p，0)，其中运算符Δ表示 x_v,n_v，l_v分别表示表面网格点V的位置信息值、法向信息值及颜色信息值，x_p，n_p，l_p分别表示身体点云点P的位置信息值、法向信息值及颜色信息值，θ_l表示颜色信息的最大允许差值，θ_x表示位置信息的最大允许差值。

联合优化模型计算模块700用于定义联合优化模型，并将P-V匹配结果对引入联合优化模型，通过线性化为一最小二乘问题进行求解，得到骨架参数χ和手持相机的外参矩阵γ。在本发明的一个实施例中，联合优化模型为：

\arg \min_{χ, γ} \underset{i}{Σ} | | T_{χ} (V_{i}) - T_{γ} (P_{i}) | | + \underset{j}{Σ} | | G_{j} - T_{γ} (P_{j}) | | + \underset{k}{Σ} | | S_{k} - T_{γ} (P_{k}) | |

运动捕捉模块800用于根据骨架参数χ，描述运动追踪结果，以实现运动捕捉。

场景重建模块900用于根据外参矩阵γ,结合内参矩阵，将手持相机获得的点云点进行坐标变换，即得到T_γ(P)，将变换后的点云增加到原场景点云中，以实现场景重建。

在本发明的一个优选实施例中，还可以进一步包括优化模块。优化模块用于对人体模型进行拉普拉斯表面变形，以使追踪结果更接近实际情况，其中，拉普拉斯表面变形的计算公式为：其中||LV-δ||²为拉普拉斯坐标系表面几何约束，||CV-q||²为运动约束，λ为表面网格变形权重。

根据本发明实施例的基于多手持深度相机的无标记运动捕捉及场景重建装置，不但实现了准确鲁棒的运动参数估计，还同时实现了相机参数的恢复以及三维场景的实时重建。将的优化模型进行线性化变形，即可快速求解所有参数，算法准确、鲁棒，真实感强，运行速度快，系统成本低，可以在普通PC机或工作站等硬件系统上实现，拥有广阔的应用前景。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，包括以下步骤：

A.提供人体模型和地板模型；

B.提供多个深度相机，以非固定的手持方式进行拍摄，获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频；

C.根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P；

D.对同一所述深度相机的相邻帧的彩色图进行匹配，提取二维空间的场景特征点，并在所述三维点云集合中找到对应的三维空间的场景特征点S；

E.根据所述人体模型中的表面网格点V、所述地板模型中的地板点G和所述三维空间的场景特征点S的信息，定义联合优化模型，其中，所述联合优化模型为：

\arg \min_{χ, γ} \underset{i}{Σ} | | T_{χ} (V_{i}) - T_{γ} (P_{i}) | | + \underset{j}{Σ} | | G_{j} - T_{γ} (P_{j}) | | + \underset{k}{Σ} | | S_{k} - T_{γ} (P_{k}) | |

其中，χ表示骨架参数，表示每个关节的转动角度，γ＝{R_c|t_c}表示所述手持相机的外参矩阵，R_c表示旋转矩阵，t_c表示平移向量，V表示所述人体模型的表面网格点，T_χ(V)表示在骨架参数χ的牵引下对表面点V进行拖动后的位置，P为空间变换得到的所述三维点云点，T_γ(P)表示在所述手持相机在所述外参矩阵γ下进行观测到的三维点云点P在真实世界坐标系下的位置，G为真实世界的地板点，S为三维空间的场景特征点，下标i表示所述三维点云点P和表面网格点V的序号，j表示所述地板点G的序号，k表示所述场景特征点S的序号；

F.根据所述深度图和所述彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果；和

G.将所述P-V匹配结果对引入所述联合优化模型，进行求解和变换，得到运动捕捉结果和场景重建结果，步骤G具体包括：

将所述P-V匹配结果对引入所述联合优化模型，通过线性化为一最小二乘问题进行求解，得到骨架参数χ和所述手持相机的外参矩阵γ；

根据所述骨架参数χ，描述运动追踪结果，以实现运动捕捉；

根据所述外参矩阵γ,结合所述内参矩阵，将所述手持相机获得的点云点进行坐标变换，即得到T_γ(P)，将变换后的点云增加到原场景点云中，以实现场景重建。

2.如权利要求1所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，其中，所述人体模型符合骨架驱动表面规律，即满足所述骨架驱动表面规律的定义公式：其中V为表面网格点，T_χV为表面网格点在关节转角χ下变形T_χ得到的目标位置，α为关节序号，N为关节数目，θ_αξ_α为关节旋转参数。

3.如权利要求2所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，所述地板模型为圆形平面模型，所述地板模型用于提供地板平面约束。

4.如权利要求3所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，所述根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合的空间变换公式为：其中P为所述三维点云集合中的三维点云点，(m,n)为所述深度图中的像素点，m、n表示所述像素点(m,n)的坐标，d(m,n)表示所述像素点(m,n)的深度值。

5.如权利要求4所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，所述对同一所述深度相机的相邻帧的所述彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。

6.如权利要求5所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，所述步骤F进一步包括：遍历地计算所述三维点云点P与各个表面网格点V的匹配度量函数F(V,P)，并选取能使所述度量函数具有最大值的所述V点作为所述P点匹配成功的点，即v_i＝arg max_v∈vF(v,p_i)，其中，所述匹配度量函数F(v,p)＝Δ(||l_v-l_p||,θ_l)Δ(||χ_v-χ_p||,θ_x)max(n_vn_p,0)，其中运算符Δ表示χ_v,n_v,l_v分别表示所述表面网格点V的位置信息值、法向信息值及颜色信息值，x_p,n_p,l_p分别表示所述三维点云点P的位置信息值、法向信息值及颜色信息值，θ_l表示颜色信息的最大允许差值，θ_x表示位置信息的最大允许差值。

7.如权利要求6所述的基于多手持深度相机的无标记运动捕捉及场景重建方法，其特征在于，所述步骤F还包括：对所述人体模型进行拉普拉斯表面变形，以使所述追踪结果更接近实际情况，其中，所述拉普拉斯表面变形的计算公式为：其中||LV-δ||²为拉普拉斯坐标系表面几何约束，||CV-q||²为运动约束，λ为表面网格变形权重。

8.一种基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，包括以下部分：

人体模型输入模块，用于输入人体模型；

地板模型输入模块，用于输入地板模型；

多视角的深度相机，用于非固定的手持方式进行拍摄，获得包括多帧深度图的深度视频和包括多帧彩度图的彩色视频；

点云转换模块，用于根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合，并将三维点云点记为P；

特征点提取模块，用于对同一所述深度相机的相邻帧的彩色图进行匹配，提取二维空间的场景特征点，并在所述三维点云集合中找到对应的三维空间的场景特征点S；

匹配模块，用于根据所述深度图和所述彩色图的信息，将三维点云点P与表面网格点V进行匹配，得到P-V匹配结果；

联合优化模型计算模块，用于定义联合优化模型，并将所述P-V匹配结果对引入所述联合优化模型，通过线性化为一最小二乘问题进行求解，得到骨架参数χ和所述手持相机的外参矩阵γ，其中，所述联合优化模型为：

\arg \min_{χ, γ} \underset{i}{Σ} | | T_{χ} (V_{i}) - T_{γ} (P_{i}) | | + \underset{j}{Σ} | | G_{j} - T_{γ} (P_{j}) | | + \underset{k}{Σ} | | S_{k} - T_{γ} (P_{k}) | |

运动捕捉模块，用于根据所述骨架参数χ，描述运动追踪结果，以实现运动捕捉；和

场景重建模块，用于根据所述外参矩阵γ,结合所述内参矩阵，将所述手持相机获得的点云点进行坐标变换，即得到T_γ(P)，将变换后的点云增加到原场景点云中，以实现场景重建。

9.如权利要求8所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，其中，所述人体模型符合骨架驱动表面规律，即满足所述骨架驱动表面规律的定义公式：其中V为表面网格点，T_χV为表面网格点在关节转角χ下变形T_χ得到的目标位置，α为关节序号，N为关节数目，θ_αξ_α为关节旋转参数。

10.如权利要求9所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，所述地板模型为圆形平面模型，所述地板模型用于提供地板平面约束。

11.如权利要求10所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，所述根据所述深度图和所述深度相机的内参矩阵，进行空间变换得到三维点云集合的空间变换公式为：其中P为所述三维点云集合中的三维点云点，(m,n)为所述深度图中的像素点，m、n表示所述像素点(m,n)的坐标，d(m,n)表示所述像素点(m,n)的深度值。

12.如权利要求11所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，所述对同一所述深度相机的相邻帧的所述彩色图进行匹配的方法为尺度不变特征转换(SIFT)特征匹配。

13.如权利要求12所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，所述匹配模块的匹配方法为：遍历地计算所述三维点云点P与各个表面网格点V的匹配度量函数F(V,P)，并选取能使所述度量函数具有最大值的所述V点作为所述P点匹配成功的点，即v_i＝arg max_v∈VF(v,p_i)，其中所述匹配度量函数F(v,p)＝Δ(||l_v-l_p||,θ_l)Δ(||χ_v-χ_p||,θ_χ)max(n_vn_p,0)，其中运算符Δ表示 χ_v,n_v,l_v分别表示所述表面网格点V的位置信息值、法向信息值及颜色信息值，x_p,n_p,l_p分别表示所述三维点云点P的位置信息值、法向信息值及颜色信息值，θ_l表示颜色信息的最大允许差值，θ_x表示位置信息的最大允许差值。

14.如权利要求13所述的基于多手持深度相机的无标记运动捕捉及场景重建装置，其特征在于，还包括：

优化模块，所述优化模块用于对所述人体模型进行拉普拉斯表面变形，以使所述追踪结果更接近实际情况，其中，所述拉普拉斯表面变形的计算公式为：其中||LV-δ||²为拉普拉斯坐标系表面几何约束，||CV-q||²为运动约束，λ为表面网格变形权重。