CN103559736A

CN103559736A - 表演者的无标记点三维实时捕获系统

Info

Publication number: CN103559736A
Application number: CN201310555513.4A
Authority: CN
Inventors: 程志全; 陈寅; 林帅; 党岗
Original assignee: 程志全
Current assignee: China Telecom Puxin (Beijing) Technology Development Co.,Ltd.
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2014-02-05
Anticipated expiration: 2033-11-11
Also published as: CN103559736B

Abstract

本发明涉及一套表演者的无标记点三维实时捕捉系统。步骤包括：1）房间式采集硬件系统的建立：通过分析相机的参数，提出一种多目RGB-Depth相机的配置模型，多目相机的视角范围有效覆盖表演者；进而，建立房间式的封闭采集间。2）多目RGB-Depth相机的全局注册，通过相机的两两注册和全局优化，建立不同RGB-Depth相机不同坐标系上各点云模型间的对应关系。3）实时表演捕捉。使用GPU加速的泊松表面重建算法，实时处理多目RGB-Depth相机捕捉的稠密点云，完成动态三维网格模型序列的实时重建。本系统无需标记点，使用低成本的RGB-Depth相机，该系统即可实时地捕捉并重建出表演者的动态三维信息，建立相应的动态三维几何模型。

Description

表演者的无标记点三维实时捕获系统

技术领域

本发明隶属于一般的图像数据处理领域，关注的是表演者的三维捕捉问题，涉及的是不使用标记点、实时地捕捉表演者的形态（形状和姿态），重建出相应的动态三维模型序列。

背景技术

捕捉表演者的三维形态是图像数据处理领域的一个重要问题，是重建逼真的动态三维模型序列的关键技术，也是表演者的三维重建、处理等诸多应用问题的重要基础。

表演者的捕捉（Performance Capture）是指通过摄像机捕捉表演者的形态（形状和姿态），并在计算机虚拟场景中创建表演者的动态三维模型，重建出的模型不仅具有表演者逼真的个体形状，而且具有个体的姿态特性。

表演捕捉技术直到卡梅隆拍摄《阿凡达》的时候才有了质的飞跃。表演捕捉可同时在录制过程中以三维特效的形式，将表演者的表情及肢体行为真实的再现出来，并通过完善的数字摄影系统提供全方位的拍摄信息，最终使创造出来表演者的虚拟角色（动态三维模型序列）。

本发明进一步推进了表演者的捕捉技术，无需标记点，使用低成本的RGB-Depth相机，即可实时地捕捉并重建出表演者的动态三维信息。

以Kinect等为代表的新型RGB-Depth视频相机提供了全新的数据获取方式。与之前的数据获取技术不同，数据获取不需要通过在被捕捉对象的身体部位安置多个标记（感应点）来完成RGB-Depth数据的获取，捕捉速率为30帧/秒。从而，它具有非接触式、成本低（不依赖特殊设备）和智能化等优点。Kinect等设备硬件技术的发展使得数据获取设备便宜（2013年9月市场价约1500元人民币）而且便捷，为表演捕捉技术的改进奠定了硬件基础。

在封闭的房间式捕捉环境下，本发明将使用多个标定好的RGB-Depth视频相机，以30帧/秒的速率捕捉表演者的图像序列，借助模板拟合技术，实时地重建出表示表演者形态的动态三维模型序列。

根据专利文献检索，与本发明相关的有专利CN200910046517.3、专利US 8284157 B2与论文《Performance Capture from Sparse Multi-view Video》。专利CN200910046517.3主要用于有标记点的动作捕捉。表演者需要穿一套具有关节标志点的演示服，该演示服以黑色为底色，在各主要关节处绑上不同颜色的色带作为标志点。论文《Performance Capture from Sparse Multi-view Video》处理的是多个RGB相机所捕获的视频，但不能达到实时的重建效果。专利US 8284157 B2可以达到实时的效果，采用基于骨架的蒙皮驱动完成三维动画的实时生成。但其目标是生成表演者骨架所驱动的动画，并不是实时重建出表演者的动态三维模型序列。因此，尚未见到表演者的无标记点三维实时捕捉系统的有关报道。

发明内容

本发明提出一套表演者的无标记点三维实时捕捉系统。面向多目RGB-Depth相机获取的深度视频序列，实时重建出表演者的三维形态（形状和姿态）。

本发明从多目RGB-Depth相机实时重建表演者的动态三维模型，其工作流程（图1）包括房间式采集硬件系统的建立、多目RGB-Depth相机的全局注册、实时表演捕捉三个步骤。

第一步，建立房间式的采集硬件系统，包括两个步骤：多目RGB-Depth相机配置、封闭式采集间的建立，具体过程如下：

1.1 通过分析相机的参数，提出一种多目RGB-Depth相机的配置模型。该模型综合考虑了相机的视角范围、误差精度等参数，保证多目相机能有效覆盖表演者。

基于人体测量学知识，身高范围不超过2.4米，固定点的肢体活动范围半径一般不超过0.5米。简而化之，表演者的空间范围可视作半径为0.5米、高度为2.4米的圆柱体C。

下面以Kinect这款RGB-Depth相机为例，说明多目相机的覆盖配置模型。Kinect的相关参数如下，可视范围：水平视角57度，垂直视角43度；传感深度范围：0.4米至4米；精度：在1米处误差为2毫米，2米处为5毫米，3米处则为2.5厘米。对于表演捕捉，当前误差范围规定一般不超过5毫米，这就要求Kinect与表演者的距离不能超过2米。

建立多目RGB-Depth相机的配置模型是一种典型的集合覆盖问题，它是经典的NP-hard问题，同样也是运筹学研究中典型的组合优化问题。其数学模型可描述为：在获取误差Error小于给定阈值d的条件下，有效配置N个RGB-Depth相机，使得它们视角FoV范围的并集，能有效覆盖表征人体活动范围Space的圆柱体C，求相机的最少数目N和配置方法。可形式化表示为：

对于该问题，图2给出了一个能够有效覆盖表演者空间范围的优化配置实例。在该配置实例中，使用了6个Kinect相机。两个为一组，竖直放置，上下分布，分别位于0.6米和1.64米处。每组间夹角120度，形成一个圆形，半径长1.3米。

1.2 建立房间式采集间。为了有效降低采集环境对数据获取的干扰，需要建立房间式的封闭采集间。为了减少采集间所占的空间，该采集间的设计要与多目RGB-Depth相机配置相匹配。从而，对于图2多目相机的配置实例，构建了与之配套的六边形采集间，六块可组装的拼接板，每块长方形拼接板长2.4米、宽1.35米。

第二步，多目RGB-Depth的全局注册。对于每个RGB-Depth获取的带颜色的点云模型，在计算机世界中表示了一个三维模型，必须注册（register）扫描获取的局部点云，完成各局部点云模型的精确匹配（alignment），即建立不同RGB-Depth相机下不同坐标系上各点云模型间的对应关系（correspondence），求解出各点云模型注册在一起的刚性变换矩阵。它可以表述为：在一致对应关系和刚性变换的约束下，对以对应关系和刚性变换为变量的性能指标函数求取极值，完成多目RGB-Depth获取点云数据的精确匹配。

多目RGB-Depth获取点云数据的全局注册包括两个子步骤：局部点云数据的两两注册、全部点云数据的全局优化。

2.1局部点云数据的两两注册

假定已给两个局部点云数据P={p _i}、Q={q _i}，P、Q给出两个点集的空间变换f，使他们能进行空间匹配。这里的问题是，f为一未知函数，而且两点集中的点数不一定相同。解决这个问题使用的最多的方法是迭代最近点法（Iterative Closest Points，ICP）。ICP的基本思想是：根据某种几何特性对数据进行匹配，并设这些匹配点为假想的对应点，然后根据这种对应关系求解运动参数。再利用这些运动参数对数据进行变换。并利用同一几何特征，确定新的对应关系，重复上述过程。

ICP的求解方法建立过程如下：三维空间中两个3D点p _i=(x _i,y _i,z _i)、q _j=(x _j,y _j,z _j)，它们的欧式距离表示为：

Figure 2013105555134100002DEST_PATH_IMAGE002

三维点云匹配问题的目的是找到P和Q变化的矩阵R和T，对于q _i=Rp _i+T，i=1,…N，N为相互匹配顶点的总数，利用最小二乘法求解最优解使：

最小时的R和T。

2.2 全部点云数据的全局优化

通过点云数据的两两注册，相邻的相机两两注册在一起，能够建立稀疏特征点间的匹配关系。由于多个相机同时对一个个体进行捕捉，多个相机要注册在一起。两两注册为多个相机的注册提供了合理的初始值，但仍需全局优化过程，更好地完成多个相机的注册。

本发明提出一种特征匹配方法，通过全部点云数据的全局优化，完成多个相机的注册。该方法使用特征元组之间的超对称三阶张量表示几何约束关系，实现了特征集合之间准确的匹配。本方法将特征元组之间的高阶约束关系表示为三阶超对称张量的形式，进而，利用三阶张量的超对称性，使用高效的高阶的幂迭代公式和特征元组采样策略，完成全部点云数据的全局优化。

下面，形式化描述三阶超对称特征匹配问题：给定总数为M个特征点集合F，F内的部分稀疏点间已经建立了部分对应关系，假设，，

，

Figure 2013105555134100002DEST_PATH_IMAGE006

表示了F内三对特征点间的对应关系

，三阶超对称特征匹配则等价于进一步求解对应关系问题：寻找最优的向量

Figure 2013105555134100002DEST_PATH_IMAGE008

，使其满足：

其中，

Figure 2013105555134100002DEST_PATH_IMAGE010

定义了一组对应关系

的三阶超对称相似度关系，也可以视为定义了F中的有序特征元组

Figure 2013105555134100002DEST_PATH_IMAGE012

和

之间的相似度关系。给定一个三阶超对称张量

Figure 2013105555134100002DEST_PATH_IMAGE014

，则有：

Figure 2013105555134100002DEST_PATH_IMAGE016

，该值由三阶势函数

确定；向量

Figure 2013105555134100002DEST_PATH_IMAGE018

的元素

表示了指派

Figure 2013105555134100002DEST_PATH_IMAGE020

是否是最终的匹配：若是则值为1，否则值为0。

本发明给出了具有几何不变性的三阶势函数

。该三阶势函数采用高斯核函数，保证了势函数的非负性，以及势函数的值与输入参数的顺序无关，进而确保了相似度张量的非负性和超对称性。

定义了包含三个特征点在内的两个特征元组之间相似度关系。通常三个点构成的三角形，不随三角形平移、旋转的变换而改变，具有相似不变性，在此基础上定义三阶势函数

为：

其中ε>0为高斯核带宽参数,

Figure 2013105555134100002DEST_PATH_IMAGE022

和定义分别为三角形

Figure 2013105555134100002DEST_PATH_IMAGE024

和

的三个边长。

从而，基于三阶超对称特征匹配的结果，本发明求解出全部点云数据的全局对应关系，进而，完成多目RGB-Depth相机的全局注册。

第三步，实时表演捕捉。对于注册好的多目RGB-Depth相机，它们同步捕捉表演者，以每秒30帧的速率捕捉表演者的RGB-Depth数据。对于每帧的数据，本质上是一个附有RGB颜色的稠密三维点云。使用GPU加速的泊松表面重建算法，本发明实时重建出相应的三维网格模型，实现实时表演捕捉功能。

有益效果：本发明公开了一种表演者的无标记点三维实时捕捉系统。与已有方法相比，本发明具有以下优点：1）基于多目RGB-Depth相机，首次实现了无标记点三维实时捕捉，有效推动了低成本表演者的三维建模技术的发展；2）该实时系统是在房间式采集间内实现的，通过全局注册的多目RGB-Depth相机，快速精确捕捉表演者的稠密三维点云，使用GPU加速的泊松表面重建算法，保证了表演者动态三维网格模型序列的实时重建。

附图说明

图1为本发明的工作流程图；

图2为本发明提出的多目RGB-Depth相机的配置模型实例图。

具体实施方式

图1为本发明的工作流程图，如图所示，本发明的具体实施方式包括以下步骤：

第一步：房间式采集硬件系统的建立。该建立过程包括：

1.1 通过分析相机的参数，提出一种多目RGB-Depth相机的配置模型，多目相机有效覆盖表演者；

1.2 建立房间式的封闭采集间。

第二步：多目RGB-Depth相机的全局注册，建立不同RGB-Depth相机下不同坐标系上各点云模型间的对应关系，进一步分为：

2.1 基于局部点云数据两两注册的相邻两个相机的注册；

2.2 基于全部点云数据的全局优化的多目相机全局注册。

第三步：实时表演捕捉。使用GPU加速的泊松表面重建算法，实时处理多目RGB-Depth相机的稠密点云，完成动态三维网格模型序列的重建。

Claims

1.表演者的无标记点三维实时捕捉系统，无需标记点，使用低成本的RGB-Depth相机，实时地捕捉并重建出表演者的动态三维信息，建立相应的动态三维几何模型，其特征在于，包括第一步：房间式采集硬件系统的建立；第二步：多目RGB-Depth相机的全局注册；第三步：实时表演捕捉；

第一步：房间式采集硬件系统的建立，该过程包括：

建立多目RGB-Depth相机的配置模型是一种典型的集合覆盖问题，其数学模型描述为：在获取误差Error小于给定阈值d的条件下，有效配置N个RGB-Depth相机，使得它们视角FoV范围的并集，能有效覆盖表征人体活动范围Space的圆柱体C，求相机的最少数目N和配置方法，可形式化表示为：

Figure 2013105555134100001DEST_PATH_IMAGE001

，

表演者的空间范围可视作半径为0.5米、高度为2.4米的圆柱体C；

1.2 建立房间式的封闭采集间，采集间的设计要与多目RGB-Depth相机配置相匹配；

第二步：多目RGB-Depth相机的全局注册，多目RGB-Depth获取点云数据的全局注册包括两个子步骤：局部点云数据的两两注册、全部点云数据的全局优化；

2.1局部点云数据的两两注册

假定已给两个局部点云数据P={p _i}、Q={q _i}，P、Q给出两个点集的空间变换f，使他们能进行空间匹配， f为一未知函数，而且两点集中的点数不一定相同，解决这个问题使用的方法是迭代最近点法（Iterative Closest Points，ICP），

Figure 2013105555134100001DEST_PATH_IMAGE003

最小时的R和T；

2.2 全部点云数据的全局优化

通过点云数据的两两注册，相邻的相机两两注册在一起，能够建立稀疏特征点间的匹配关系，由于多个相机同时对一个个体进行捕捉，多个相机要注册在一起，两两注册为多个相机的注册提供了合理的初始值，但仍需全局优化过程，更好地完成多个相机的注册，

采用一种特征匹配方法，通过全部点云数据的全局优化，完成多个相机的注册，该方法使用特征元组之间的超对称三阶张量表示几何约束关系，实现了特征集合之间准确的匹配，将特征元组之间的高阶约束关系表示为三阶超对称张量的形式，利用三阶张量的超对称性，使用高效的高阶的幂迭代公式和特征元组采样策略，完成全部点云数据的全局优化；

基于三阶超对称特征匹配的结果，求解出全部点云数据的全局对应关系，进而，完成多目RGB-Depth相机的全局注册；

第三步：实时表演捕捉，使用GPU加速的泊松表面重建算法，实时处理多目RGB-Depth相机的稠密点云，完成动态三维网格模型序列的重建。

2.根据权利要求1所述的表演者的无标记点三维实时捕捉系统，其特征在于，

所述三阶超对称特征匹配：给定总数为M个特征点集合F，F内的部分稀疏点间已经建立了部分对应关系，假设，