CN101650834A

CN101650834A - 复杂场景下人体表面三维重建方法

Info

Publication number: CN101650834A
Application number: CN200910054924A
Authority: CN
Inventors: 严骏驰; 刘剑; 刘允才
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2009-07-16
Filing date: 2009-07-16
Publication date: 2010-02-17

Abstract

本发明涉及一种复杂场景下人体表面三维重建方法，基于鲁棒的图像前景提取和信息融合理论自动提取人体表面的三维信息，首先从各个摄像机采集到的多视角图像中提取人体目标的前景图像，计算出图像中各个点属于前景和背景的概率，获得前景相似概率图，再融合各幅视图的信息，计算出空间体素被人体占据的概率，进而重建人体三维表面。本发明具有易于实现、鲁棒性强、精确度高、重建速度快等优点，可以为在人机交互，虚拟现实，人体信息数字化，人体运动分析等相关应用领域提供快速可靠的人体表面三维信息。

Description

复杂场景下人体表面三维重建方法

技术领域

本发明涉及一种复杂场景下人体表面三维重建方法，可广泛用于人机交互，虚拟现实，人体信息数字化，视频编码，人体运动分析等领域。属于三维重建领域。

背景技术

随着社会信息化和数字化程度的与日俱增，计算机视觉领域软硬件技术的发展，依靠单个摄像机采集的单一人体二维图像信息，已经无法满足更高级的应用。而利用多个摄像机对人体的三维信息进行采集，可以同时获取人体的尺寸，空间方位，以及颜色等信息，为相关的产业和领域(人机交互，虚拟现实，人体信息数字化，视频编码，人体运动分析等)提供了基础性的技术支撑。目前的人体表面三维重建技术都假设场景简单，并以此在图像中分割出人的剪影和颜色信息，再进行重建。一旦场景比较复杂，现有的三维重建方法往往无法重建出理想的人体三维表面，而在实际中，理想的实验室环境是较难获得的。另外，为了重建技术的实用化，重建速度也是一项重要指标。如何在复杂的场景下对人体表面进行快速三维重建成为工程实践中亟待解决的问题。

经对现有技术文献的检索发现，目前利用多个摄像机对人体表面进行三维重建的方法主要分为两类：一类是基于单一几何信息(人体剪影)的方法，另一类是基于光度测定信息的方法。G.Cheung等人于2000年发表在CVPR(计算机视觉和模式识别)上的论文“A real time system for robust 3D voxel reconstruction of humanmotions.(一个鲁棒的人体运动三维体素重建实时系统)”向人们展示了这项基于几何信息进行三维重建的技术方案。基于几何剪影的方法的优点是算法比较简单，程序执行速度快。然而，基于单一剪影的方法有一个很大的缺点：对噪声和复杂背景的抗干扰能力不强，前景提取困难。目前提出来的方案大都在条件严格受控制的室内实验室环境，不太适合实际的工程应用。K.Kutulakos等人于2000年发表在《International Journal on Computer Vision(计算机视觉国际期刊)》上的论文“Atheory of shape by space carving(一个关于通过空间雕刻进行重建的理论)”对基于光度信息进行重建的方法进行了细致地阐述。基于光度检测信息的三维重建算法相比基于剪影信息的算法有其优点，可以免去剪影提取这一步。但是这种方法有2个重要的缺点：第一，这种算法对摄像机标定的精度十分敏感，标定精度低会使算法崩溃。其次，这种算法计算复杂度很高，速度较慢。这个主要是因为需要判断物体表面每个点是否可见。所以在通常情况下，尽管基于剪影的三维重建方法对使用环境要求更苛刻，但出于实用性，人们更喜欢采用基于剪影的三维重建方法。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种复杂场景下人体表面三维重建方法，能在场景复杂、检测噪声等实际工程应用的环境下，快速地重建人体三维表面，为相关产业和技术的后续处理提供丰富和准确的信息。

为实现上述目的，本发明首先从各个摄像机采集到的多视角图像中提取人体目标的前景图像。为了融合多视角图像的信息，各视角图像中的前景图像并不是通过简单的二值化图像区别各个像素点是前景还是背景，而是首先计算出图像中各个点属于前景和背景的概率，获得前景相似概率图。这是对图像的一种隐性的前景提取，为下一步的多视图信息融合提供了丰富的信息。之后再融合各幅视图的信息，通过从当前帧的结果来预测下帧感兴趣区域，快速重建人体三维表面。

本发明的方法通过以下具体步骤实现：

1.采用多路摄像机从不同角度对人体运动进行视频采集。

2.把从各个摄像机采集到的图像读入计算机，将第一帧的整个图像作为图像感兴趣区域，将第一帧的整个人体目标活动空间作为空间感兴趣区域。

3.在图像感兴趣区域内进行背景建模，按下式计算每个像素点的前景概率，

P (b_{r}^{p} = 0 | I_{r}^{p}) = 1 - \frac{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1)}{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1) + P (I_{r}^{p} | b_{r}^{p} = 0) P (b_{r}^{p} = 0)}

上式中，P(b_r ^p＝0)代表在r视图中像素点p是前景的先验概率，P(b_r ^p＝1)代表在r视图中像素点p是背景的先验概率，P(I_r ^p|b_r ^p＝1)代表在像素属于背景的条件下像素所在点颜色的概率分布，P(I_r ^p|b_r ^p＝0)代表在像素属于前景的条件下像素所在点颜色的概率分布；根据每个像素点的前景概率，得到人体目标前景相似概率图。

4. 在空间感兴趣区域内对多幅图像的信息进行融合，按下式计算空间中每个三维体素被人体占据的概率：

P (S_{i} - 1 | {I}_{r}) = \frac{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1)}{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1) + P ({I}_{r} | S_{i} = 0) P (S_{i} = 0)}

上式中，P(S_i＝1)代表三维体素i被前景占据的概率；P(S_i＝0)代表三维体素i未被前景占据的概率；P({I}_r|S_i＝1)代表三维体素i被占据的条件下其在r幅图像上投影的颜色概率分布，用上一步得到的前景相似概率图来模拟；P({I}_r|S_i＝0)表示三维体素i未被占据的条件下其在r幅图像上投影的颜色概率分布，用单高斯背景建模的方法得到。

5. 对空间中每个三维体素被人体占据的概率进行滤波和二值化，去除代表人体内部的体素，获得人体表面三维体素；对投影到图像中同一区域的若干个三维体素，以图像中此区域的颜色作为距离图像平面最近的三维体素的颜色；由此获得当前帧的人体表面三维体素的坐标和颜色信息。

6. 以当前帧的人体表面三维体素在图像平面的投影为基础，构成一个矩形区域作为下一帧的图像感兴趣区域；以当前帧三维体素所在空间为基础，构成一个立方体区域作为下一帧的空间感兴趣区域；采用步骤3)、4)、5)的方法，获取下一帧的人体表面三维体素的坐标和颜色信息；直至完成复杂场景下人体表面三维重建。

本发明与现有技术相比的显著效果在于：

第一，结合单像素和超像素的信息很好地提取各个视图中每个像素点的前景概率信息；利用信息融合的方法对各个视图中的前景概率信息进行融合，最后鲁棒地获得三维体素被占据的概率，在此基础上进一步重建人体三维表面。由于利用了多个视图的信息，并用隐变量对噪声进行了建模，所以本发明对单个视图中的光照变化、摄像机标定误差、摄像机图像采集噪声、前景检测误差等干扰具有较高的鲁棒性，保证了重建的质量。

第二，通过从当前帧的结果来预测下帧感兴趣区域，利用了帧间的连续信息，对每帧需要计算的各个视角图像和空间的感兴趣区域都大大减小，使得重建速度取得很大的提升。

通过以上两点，本发明克服了现有技术在实际工程应用方面难以解决的困难：重建质量和重建速度。因此真正实现了在复杂场景下较快速度地对人体表面进行三维重建。

本发明针对在虚拟现实，人机交互，人体信息数字化，视频编码，人体运动分析等实际应用的需要，利用鲁棒的图像前景提取技术，信息融合技术和感兴趣区域的估计技术，在复杂场景下较快速地实现了高质量的的人体表面三维重建，具有重建速度快、精确度高、鲁棒性强等优点。

附图说明

图1为本发明实施例场地摄像机布置示意图。

图2为本发明实施例场景及运动人体目标。

图3为各个视角图像的前景相似概率图。

图4为重建的人体三维表面(从3个视角显示)。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步详细说明。以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

为了更好地理解本发明提出的方法，本实施例选取一帧同时由16个摄像机采集得到的16幅对应图像进行重建，具体实施步骤如下(使用VS2005开发平台实现)：

1.采用16路摄像机从不同角度对人体运动进行视频采集，摄像机的分布如图1所示，图2为一帧视频所对应的采集得到的16幅图像。本实施例使用了两台个人计算机，一台进行图像数据采集，一台进行数据处理，即人体表面三维重建。两台电脑通过TCP/IP协议进行通信和图像数据传输。数据采集的电脑使用支持16路摄像机视频同时采集的硬盘机进行视频采集，把视频存入硬盘，并传输给另一台进行三维重建的计算机。

2.把从各个摄像机采集到的图像传入负责数据处理的计算机，将第一帧的整个图像作为图像感兴趣区域，将第一帧的整个人体目标活动空间作为空间感兴趣区域；

3.计算各视角图像的前景相似概率图。对于第一帧16路图像，把整幅图像(原始大小)作为图像感兴趣区域，在整幅图像内计算前景相似概率图。本实施例为方便起见只采用一帧作说明，而对于多帧图像则从第二帧开始，则将上帧的重建结果投影回图像平面来估计各个图像平面的感兴趣区域。相似概率图的计算仅需在感兴趣区域内，从而可以大大提高算法效率。

在图像感兴趣区域内进行背景建模，按下式计算每个像素点的前景概率，

P (b_{r}^{p} = 0 | I_{r}^{p}) = 1 - \frac{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1)}{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1) + P (I_{r}^{p} | b_{r}^{p} = 0) P (b_{r}^{p} = 0)} - - - (1)

上式中，P(b_r ^p＝0)代表在r视图中像素点p是前景的先验概率，P(b_r ^p＝1)代表在r视图中像素点p是背景的先验概率，P(I_r ^p|b_r ^p＝1)代表在像素属于背景的条件下像素所在点颜色的概率分布，P(I_r ^p|b_r ^p＝0)代表在像素属于前景的条件下像素所在点颜色的概率分布。

本实施例中，取前景和背景的先验概率(P(b_r ^p＝0)和P(b_r ^p＝1))均为0.5，即没有任何先验信息。取背景颜色概率分布P(I_r ^p|b_r ^p＝0)) 均为高斯分布，颜色空间为RGB空间，像素值取值范围在0到255之间，方差设定为36，中心点即为背景图像该点的像素值。取前景颜色概率分布(P(I_r ^p|b_r ^p=1)为均匀分布，颜色空间为RGB空间，像素值取值范围在0到255之间。

下面就本实施例第一路图像中的一个像素点的计算过程进行说明。该点像素值为RGB(135，139，112)，该点所对应的背景的像素值为RGB(135，139，118)，将这两个像素值分别代入(1)式中各项概率分布，得到(1)式等式右边各项的计算结果：

P ({b_{r}}^{p} = 0) = 0.5

P ({b_{r}}^{p} = 1) = 0.5

P ({I_{r}}^{p} = RGB (135,139,112) | {b_{r}}^{p} = 0) = 0.000175431

P = ({I_{r}}^{p} = RGB (135,139,112) | {b_{r}}^{p} = 1) = 1 / (255 * 255 * 255) = 0.0000000603086

根据上述四项计算结果，即可求得该像素点前景概率：

P ({b_{r}}^{p} = 0 | {I_{r}}^{p} = RGB (135,139,112)) = 0.00034

以相同的方法计算图像中所有点的前景概率，进而得到16路图像前景相似概率图。

图3为本实施例计算得到的一帧视频所对应的16路图像的前景相似概率图，每个像素点的取值在0到1之间，颜色的深浅代表其属于前景的概率大小。图3中，前景概率大的深色区域显示出人体目标的形态，而浅色区域为背景。

4.在空间感兴趣区域内对16幅图像的信息进行融合，按下式计算空间中每个三维体素被人体占据的概率：

P (S_{i} = 1 | {I}_{r}) = \frac{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1)}{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1) + P ({I}_{r} | S_{i} = 0) P (S_{i} = 0)} - - - (2)

式中，P(S_i＝1)代表三维体素i被前景占据的概率，在没有先验信息的情况下设定为0.5；P(S_i＝0)代表三维体素i未被前景占据的概率，在没有先验信息的情况下设定为0.5；P({I}_r|S_i＝0)表示三维体素i未被占据的条件下其在r幅图像上投影的颜色概率分布，用单高斯背景建模的方法得到，P({I}_r|S_i＝1)代表三维体素i被占据的条件下其在r幅图像上投影的颜色概率分布：

P({I}_r|S_i＝1)＝P({I}_r-1|S_i＝1)P({I}_r|S_i＝1)

(3)

＝P(I₁|S_i＝1)...P(I_j|S_i＝1)...P(I_r|S_i＝1)

(3)式中第j幅视图中的前景颜色分布上一步得到的前景相似概率来模拟：

P (I_{j} | S_{i} = 1) = P (b_{r}^{p} = 0 | I_{j}^{p}) - - - (4)

5.对空间中每个三维体素被人体占据的概率进行滤波和二值化，去除代表人体内部的体素，获得人体表面三维体素；对投影到图像中同一区域的若干个三维体素，以图像中此区域的颜色作为距离图像平面最近的三维体素的颜色，由此获得当前帧的人体表面三维体素的坐标和颜色信息，图4为从3个视角显示本实施例通过上述方法重建得到的一帧三维人体表面。

6.以当前帧的人体表面三维体素在图像平面的投影为基础，构成一个矩形区域作为下一帧的图像感兴趣区域；以当前帧三维体素所在空间为基础，构成一个立方体区域作为下一帧的空间感兴趣区域；采用步骤3)、4)、5)的方法，获取下一帧的人体表面三维体素的坐标和颜色信息；直至完成复杂场景下人体表面三维重建。

Claims

1、一种复杂场景下人体表面三维重建方法，其特征在于包括如下具体步骤：

1)采用多路摄像机从不同角度对人体运动进行视频采集；

2)把从各个摄像机采集到的图像读入计算机，将第一帧的整个图像作为图像感兴趣区域，将第一帧的整个人体目标活动空间作为空间感兴趣区域；

3)在图像感兴趣区域内进行背景建模，按下式计算每个像素点的前景概率，

P (b_{r}^{p} = 0 | I_{r}^{p}) = 1 - \frac{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1)}{P (I_{r}^{p} | b_{r}^{p} = 1) P (b_{r}^{p} = 1) + P (I_{r}^{p} | b_{r}^{p} = 0) P (b_{r}^{p} = 0)}

上式中，

P (b_{r}^{p} = 0)

代表在r视图中像素点p是前景的先验概率，

P (b_{r}^{p} = 1)

代表在r视图中像素点p是背景的先验概率，

P (I_{r}^{p} | b_{r}^{p} = 1)

代表在像素属于背景的条件下像素所在点颜色的概率分布，

P ({I_{r}}^{p} | b_{r}^{p} = 0)

代表在像素属于前景的条件下像素所在点颜色的概率分布；根据每个像素点的前景概率，得到人体目标前景相似概率图；

4)在空间感兴趣区域内对多幅图像的信息进行融合，按下式计算空间中每个三维体素被人体占据的概率：

P (S_{i} = 1 | {I}_{r}) = \frac{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1)}{P ({I}_{r} | S_{i} = 1) P (S_{i} = 1) + P ({I}_{r} | S_{i} = 0) P (S_{i} = 0)}

上式中，P(S_i＝1)代表三维体素i被前景占据的概率；P(S_i＝0)代表三维体素i未被前景占据的概率；P({I}_r|S_i＝1)代表三维体素i被占据的条件下其在r幅图像上投影的颜色概率分布，用上一步得到的前景相似概率图来模拟；P({I}_r|S_i＝0)表示三维体素i未被占据的条件下其在r幅图像上投影的颜色概率分布，用单高斯背景建模的方法得到；

5)对空间中每个三维体素被人体占据的概率进行滤波和二值化，去除代表人体内部的体素，获得人体表面三维体素；对投影到图像中同一区域的若干个三维体素，以图像中此区域的颜色作为距离图像平面最近的三维体素的颜色；由此获得当前帧的人体表面三维体素的坐标和颜色信息；

6)以当前帧的人体表面三维体素在图像平面的投影为基础，构成一个矩形区域作为下一帧的图像感兴趣区域；以当前帧三维体素所在空间为基础，构成一个立方体区域作为下一帧的空间感兴趣区域；采用步骤3)、4)、5)的方法，获取下一帧的人体表面三维体素的坐标和颜色信息；直至完成复杂场景下人体表面三维重建。