CN101719264A

CN101719264A - 一种多视角动态场景采集的视觉场计算方法

Info

Publication number: CN101719264A
Application number: CN200910243557A
Authority: CN
Inventors: 戴琼海; 武迪; 刘烨斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-12-28
Filing date: 2009-12-28
Publication date: 2010-06-02
Anticipated expiration: 2029-12-28
Also published as: US20110158507A1; US8335371B2; CN101719264B

Abstract

本发明的实施例提出了一种时间解耦的多视角动态场景采集视觉场计算方法，通过搭建多视角动态场景采集系统；对动态场景在视角-时间二维视场子空间上结合空间间插采样、时间间插曝光采样以及变曝光采样策略进行视觉场采样；基于时间解耦策略中时间求交与空间求交的统一一致性，对时空间插曝光的动态场景进行空间轮廓求交，得到对应于短时曝光条件下高时间分辨率的场景模型；对场景模型进行轮廓反投影，获取轮廓运动约束进行时间解耦去运动模糊，并通过三维重建算法建立解耦去运动模糊解后的动态场景三维模型，并对场景三维模型、各短时曝光下的时间解耦图像进行交替迭代优化。本发明提出的上述方案，不需要使用昂贵的工业级别相机，也能实现对真实世界三维场景的高速动态进行捕获，并且所述方案是视觉场采样的通用方法，具有很高的实用价值和适应性。

Description

一种多视角动态场景采集的视觉场计算方法

技术领域

本发明涉及计算机视觉、图形学视觉信号采样及重构技术领域，具体而言，本发明涉及一种多视角动态场景采集的视觉场计算方法。

背景技术

自1997年卡耐基梅隆大学的Kanade开创了第一个大规模相机阵列系统以来，基于相机阵列的多视角动态采集系统及其应用成为计算机图形学和视觉的交叉领域迅猛发展的研究热点。微软研究院的Zitnick等人搭建了8相机采集系统并证明了其高质量场景建模性能。2007年，萨里大学的Starck实现了一个针对动态人体的三维采集系统(Surface Capture forPerformance-Based Animation，2007，Computer Graphics and Applications)。传统的相机阵列采集设计都是同步触发所有相机同时对场景进行采集，斯坦福大学的Wilburn等人设计了可以捕获某一视角下时空域(spatiotemporalvolume)中的任意样本，基于光场插值和基于光流的变形，生成高速视频。计算机图形学和视觉的研究者越来越多的研究采集真实动态场景的多相机采集系统。目前最新研究进展已经实现了自由视点视频，用户可以在视觉媒介中任意选择视点和观察方向，并能够对深度进行感知从而具有沉浸感体验。

上述多相机系统大多采用帧率最高为30帧每秒的普通摄像机，这在很大程度上限制了可以有效采集的动态场景的运动速度。当场景的运动速率高于采集系统的最高采集帧率时，拍摄到的图像会产生运动模糊的效果，目前主流的三维重建算法都是基于特征匹配，而在运动模糊的情况下无法实现特征匹配，从而无法对动态场景进行有效的感知。

随着工业级别相机的不断普及，对真实世界三维场景的高速动态捕获成为可能，但是能够捕获500帧每秒以上的高速相机的价格非常昂贵，要搭建一个多视角高速相机采集系统的造价是难以想象的。在现有相机设备的基础上，研究能够优化的采集策略和重构算法，实现高速运动场景的动态感知是非常有研究价值和意义的。

因此，有必要提出一种有效的技术方案，能利用现有的相机设备的基础上，实现对高速运动场景进行感知和捕捉。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一，特别是通过空间间插采样、时间间插曝光采样以及变曝光采样，利用空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性的特点，实现在利用现有的相机设备的基础上，对高速运动场景进行感知。

为了达到上述目的，本发明的实施例提出了一种多视角动态场景采集的视觉场计算方法，包括以下步骤：

搭建多视角动态场景采集系统，所述多视角动态场景采集系统包括N个相机，所述相机离散分布于所述动态场景上，所述相机的视角在交叠条件下覆盖整个动态场景，即所述相机的视野范围能够覆盖动态场景的所占空间，其中N＞2；

控制所述多视角动态场景采集系统中的相机，在视角-时间二维视场子空间上分别进行空间间插采样、时间间插曝光采样以及变曝光采样，获取视场子空间的采样信息；

基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，进行时间空间求交算法，对所述视场子空间的采样信息进行时间求交，得到时间子空间的超过所述相机的标称分辨率信息，对所述视场子空间的采样信息进行空间求交，基于影像轮廓Visual Hull算法空间求交，得到对应于短时曝光条件下的场景模型，实现视角子空间的重构；

对所述场景模型进行各个视角的轮廓反投影，获取各个视角在原有的曝光时间内的轮廓运动约束，对所述轮廓运动进行时间解耦去运动模糊，并通过三维重建算法，建立解耦去运动模糊解后的动态场景三维模型，对得到的所述动态场景三维模型进行迭代优化，优化去运动模糊图像的时间解耦结果，直到迭代优化达到预定门限值为止。

本发明提出的上述方案，通过空间间插采样、时间间插曝光采样以及变曝光采样，利用空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性的特点，实现利用现有的相机设备的基础上，能够对高速运动场景进行感知和捕捉。本发明提出的上述方案，不需要使用昂贵的工业级别相机，也能实现对真实世界三维场景的高速动态进行捕获，具有很高的实用价值。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为三维视觉场空间示意图；

图2为时间解耦问题在视觉场理论框架下的示意图；

图3为本发明实施例多视角动态场景采集的视觉场计算方法的流程图；

图4为多视角动态场景采集系统及相机空间分布示意图；

图5为视角子空间间插分布示意图；

图6为时间子空间间插曝光时序示意图；

图7a为高速运动场景在不同视角下变曝光采集实际结果；

图7b为四个不同视角的相机进行短时曝光的示意图；

图8为时间子空间求交获取时间高分辨率的时间解耦机制示意图；

图9为基于影像轮廓(Visual Hull)的视角子空间求交获取时间高分辨率几何模型信息示意图；

图10为几何模型时间解耦与各视角图像时间解耦去运动模糊的交替迭代优化框图；

图11为基于高速几何模型约束的轮廓反投影及基于轮廓约束进行各视角图像时间解耦去运动模糊的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明提出的技术方案为针对三维视觉场空间，即视角、时间、光照三维视觉场空间中的视角——时间二维子空间的采样、重构问题。如图1所示，为视角、时间、光照三维视觉场空间示意图，图中，视觉场由视角-时间-光照三维空间所构成。该空间中的每一个元素都是一个二维图像。如图2所示，为时间解耦问题在视觉场理论框架下的示意图，通过采用环形相机阵列，空间间插采样、时间间插曝光采样以及变曝光采样，基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，进行时间解耦，获取高时间分辨率的三维模型，实现视角——时间二维视觉场子空间的计算。因此，本发明提出的技术方案的核心思想在于视角——时间二维视觉场采样机制与重构框架的设计与实现。

为了实现本发明之目的，本发明公开了一种多视角动态场景采集的视觉场计算方法，包括以下步骤：

搭建多视角动态场景采集系统，所述多视角动态场景采集系统包括N个相机，所述相机离散分布于所述动态场景上，所述相机的视角在交叠条件下覆盖整个动态场景，即所述相机的视野范围能够覆盖动态场景的所占空间，其中N＞2；控制所述多视角动态场景采集系统中的相机，在视角-时间二维视场子空间上分别进行空间间插采样、时间间插曝光采样以及变曝光采样，获取视场子空间的采样信息；基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，进行时间空间求交算法，对所述视场子空间的采样信息进行时间求交，得到时间子空间的超过所述相机的标称分辨率信息，对所述视场子空间的采样信息进行空间求交，基于影像轮廓Visual Hull算法空间求交，得到对应于短时曝光条件下的场景模型，实现视角子空间的重构；对所述场景模型进行各个视角的轮廓反投影，获取各个视角在原有的曝光时间内的轮廓运动约束，对所述轮廓运动进行时间解耦去运动模糊，并通过三维重建算法，建立解耦去运动模糊解后的动态场景三维模型，对得到的所述动态场景三维模型进行迭代优化，优化去运动模糊图像的时间解耦结果，直到迭代优化达到预定门限值为止。

如图3所示，为本发明实施例多视角动态场景采集的视觉场计算方法的流程图，包括以下步骤：

S101：搭建多视角动态场景采集系统。

在步骤S101中，搭建多视角动态场景采集系统，多视角动态场景采集系统包括N个相机，相机离散分布于所述动态场景上，相机的视角在交叠条件下覆盖整个动态场景，即相机的视野范围能够覆盖动态场景的所占空间，其中N＞2。

显然，在本发明中，相机的数目可多可少，通常由动态场景的大小决定，动态场景越大，需要的相机也越多，要求所有相机的视野范围能够覆盖动态场景的所占空间。通常，相机可以进行环形分布；显然环形分布只是一个具体的实施例，实际系统中不一定非要是环形分布，采样相机的空间分布是灵活的，实际也不一定是一个平面上，但是需要能够在一定的视角交叠条件下覆盖整个场景空间即可。

所有相机曝光时间精确可控，并具有高精度的同步控制体系。例如，在较高空间分辨率1024*768的设置下，摄像机最高帧率为25帧每秒，曝光时间长度精确可控。如图4所示，半球形的采集系统，直径6m，在图示圆圈所在平面上，相机呈圆形分布，每个”X”表示一个相机，该环形阵列共有20个相机组成，相机呈环形分布在动态场景的一个高度为2米的水平面上。俯视平面如图4右图所示，所有相机的视野范围之和稳定的覆盖了场景的空间范围。

S102：对动态场景视角-时间二维视场子空间上分别进行空间间插采样、时间间插曝光采样以及变曝光采样。

在步骤S102中，控制所述多视角动态场景采集系统中的相机，在视角-时间二维视场子空间上分别进行空间间插采样、时间间插曝光采样以及变曝光采样，获取视场子空间的采样信息。

在视角——时间二维视场子空间上进行优化采样，需要在有限采样信息大小下，尽可能多的包含反映视场子空间本质的信息量，因此，有必要使得采样点尽可能广泛而具有表征性的分布在视场子空间的关键区域。为此，需要对于空间、时间以及曝光时间长度进行优化采样

例如，相机呈环形分布在动态场景的一个水平面上，顺序间隔K个相机进行曝光采样实现空间间插采样，当动态场景沿着某一方向运动时，环形分布的所述相机通过间插曝光采样获取动态场景各个状态的采样信息，K＜N-2。具体而言，在上述多视角动态场景采集系统包括20个相机中，上述相机顺序间隔7个相机进行曝光采样实现空间间插采样。

结合图5进行说明，空间间插采样的目的在于避免方向性运动的采样不足，当动态场景沿着某一方向或者较窄区域等具有强方向性的运动时，空间相邻顺序采集很有可能在沿着运动方向的部分相机附近丢失空间运动信息，造成采样信息不足。如图5所示，内圆虚线对应相机标号，从0-19共20个相机，外圈虚线对应于相机的空间间插采样顺序：0→7→14→1→8→15→2→9→16→3→10→17→4→11→18→5→12→19→6→13→0，顺序间隔7进行间插采样。

在本发明实施例中，时间间插曝光采样包括：

所述N个相机按照所述空间间插采样的顺序依次间隔Δt时间触发曝光采样，所述间隔Δt时间触发曝光采样及其对应的曝光时间覆盖动态场景时间子空间。

具体而言，为了能够提高运动场景的时间分辨率，采取时间间插曝光的采集策略，20个相机按照上述空间间插顺序，依次间隔Δt时间触发采样，这样的时间采样点及其对应的曝光时间可以覆盖时间子空间，而不会受到同步曝光采样时间信息采样不足的局限。如图6所示，每一个相机采样用一个时间轴表示，轴上高电平信号表示相机曝光时间，而低电平信号表示相机停止曝光时间，由于相机内在固有的数据传输时间存在，两次曝光时间之间必然有一定的时间间隔，下面的分析中为了简单明了，有的地方省略了连续曝光之间的时间间隔。20个相机一次触发，直至所有相机都曝光完毕，为一个采样周期，在图6中以斜长方形阴影区域表示；垂直的黑色虚线表示每一轮采样的起始时刻，也即第一相机的起始曝光时刻，之后每一相机按照空间间插顺序，依次延时Δt时间触发采样。

在本发明实施例中，变曝光采样包括：

N个相机中至少有一个相机的曝光时间T1满足T1＜Tmax，Tmax为最高帧率限制下的最长曝光时间，以及N个相机中至少有一个相机的曝光时间T2满足0＜T2＜T1。显然，曝光时间的长短是相对的长和短，选择长曝光时间和短曝光时间应根据具体的动态场景来选择，例如，当高速运动时，则要求在尽可能高的信噪比的条件下短曝光时间尽可能短，以获取高速运动场景的有效信息。

具体而言，由于场景运动速度超过相机最高帧率，当使用最高帧率限制下的最长曝光时间必然会产生运动模糊效果，但具有高信噪比，相机固有噪声可以忽略；反之，当在每一帧采集时采用极短曝光时间，可以避免运动模糊效果，但是由于传感器接收到的光信息太少，相机内部噪声无法忽略，导致采集图像具有很低的信噪比。为了折中如上矛盾，使用部分相机进行短时曝光，为后续的运动模糊图像去模糊提供较强的约束。图7为为变曝光采集实际结果，高速运动场景在不同视角下，采用不同长曝光、短曝光效果的采集结果。如图7a所示，前两行是长曝光采集的多视角图像，每幅采集图像右下角的数字表示对应的采集相机标号，这些图像噪声很小但具有运动模糊；后两行分别是两个视角下采集到的短时曝光图像以及对应的亮度增强处理后的图像，可见没有运动模糊但是图像的信噪比非常低。如图7b所示，在0.5.10.15四个位置的相机进行短时曝光，用黑色矩形表示。

S103：基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，对采样信息进行时间求交和空间求交，得到对应于短时曝光条件下的场景模型。

在步骤S103中，基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，进行时间空间求交算法，对所述视场子空间的采样信息进行时间求交，得到时间子空间的超过所述相机的标称分辨率信息，对所述视场子空间的采样信息进行空间求交，基于影像轮廓Visual Hull算法空间求交，得到对应于短时曝光条件下的场景模型，实现视角子空间的重构。

在本发明的实施例中，对所述视场子空间的采样信息进行时间求交包括：

对所述各个相机选择不同采样周期内的曝光时间进行求交得到连续的短时曝光信息，所述短时曝光信息为超过所述相机的标称分辨率信息。具体而言，理想情况下是原来相机本身的最高帧率为F，采集系统中共有N个相机，那么通过上述短时曝光信息可以获取的时间分辨率可以达到F×N。

在本发明的实施例中，对所述视场子空间的采样信息进行空间求交包括：

对各个视角相机采集到的图像按照场景轮廓信息向空间投影，基于影像轮廓Visual Hull算法空间求交，得到对应于短时曝光条件下的场景模型。

具体而言，由于基于空间轮廓投影求交与曝光时间求交之间具有内在的统一一致性，因此可以提出对时间空间的求交算法，即

时间求交的时间超分辨率实现：时间子空间间插长曝光的求交对应于短时曝光，对各个相机选择不同采样周期内的曝光时间进行求交可以得到连续的短时曝光信息，实现时间子空间的超分辨率。如图8所示，以四个相机的简单情形为例，进行曝光时间的解耦，求交策略具体请见表1。

表1 对应于图8的时间模型时间解耦求交方案示例

空间轮廓求交的高速几何模型实现：对于各个视角相机采集到的图像按照场景轮廓信息向空间投影，基于影像轮廓(Visual Hull)算法空间求交的核心思想，可以得到对应于短时曝光条件下的高速场景模型，实现视角子空间的重构。如图9所示，运动场景的空间轮廓投影求交得到短时曝光对应的高速模型。

S104：对场景模型进行轮廓反投影，对轮廓运动进行时间解耦去运动模糊，并通过三维重建算法建立解耦去运动模糊解后的动态场景三维模型，并对场景三维模型进行迭代优化。

在步骤S104中，对所述场景模型进行各个视角的轮廓反投影，获取各个视角在原有的曝光时间内的轮廓运动约束，对所述轮廓运动进行时间解耦去运动模糊，并通过三维重建算法，建立解耦去运动模糊解后的动态场景三维模型，对得到的所述动态场景三维模型进行迭代优化，优化去运动模糊图像的时间解耦结果，直到迭代优化达到预定门限值为止。

在本发明的实施例中，对所述轮廓运动进行时间解耦去运动模糊包括：

通过对空间间插采样、时间间插曝光采样进行曝光解耦，获取动态场景的高速运动模型，将所述高速运动模型向各个视角反投影得到短时曝光下的轮廓信息，用所述短时曝光下的轮廓信息进行去运动模糊。

在本发明的实施例中，三维重建算法包括基于特征匹配的三维重建算法。

在本发明的实施例中，直到迭代优化达到预定门限值为止包括：

进行时间解耦去运动模糊运算两次迭代的优化结果小于预定门限值。当两次迭代的优化结果小于预定门限值，即可认为优化处理结果已经收敛，可以停止迭代，显然预定门限值可以根据系统实际情况进行选择。

具体而言，下面结合附图作进一步说明，具体的算法流程如图10算法流程所示。

(1)基于高时间分辨率的几何模型进行各个视角的轮廓反投影，从而获取各个视角在原长曝光时间内的轮廓运动约束。原曝光时间下的轮廓信息由于motion blur作用导致其耦合了场景的运动信息，通过时空间插曝光解耦，可以获取高速运动模型，将其向各个视角反投影可以得到短时曝光下的轮廓信息，这也是后续处理的重要约束条件。图7为基于高速几何模型约束的轮廓反投影示意图，这里仅一个视角的时间解耦为例。如图11左半部分所示，t1时间间隔在4个相机时间解耦系统中可以被分解为4个短时曝光t1.1，t1.2，t1.3，t1.4，并获取相应的反投影轮廓信息。

(2)基于上述轮廓约束的去运动模糊算法，从各个视角原长曝光下运动模糊图像中计算分解出各个相交短时曝光下的没有运动模糊同时具有和原曝光时间条件下相比信噪比的图像。这是一个非常欠定的逆问题求解。如图11右半所示，基于上述高时间分辨率的轮廓约束从原t1曝光时间采集到的运动模糊图像中解耦出t1.1，t1.2，t1.3，t1.4对应的具有和原曝光时间条件下相近的信噪比，同时没有运动模糊的图像。

(3)基于上述恢复得到的高时间分辨率的各视角去运动模糊图像序列，利用主流三维重建算法，求解各个求交曝光时间内的动态场景三维模型，获得高精度的高速三维模型。

基于上述获取的高精度三维模型，再返回步骤(1)至(3)，优化去运动模糊图像的时间解耦结果，获得更优的高时间分辨率的各视角纹理图像，并在其基础上获得更高精度的三维模型，迭代优化，直至迭代优化达到预定门限值为止，例如进行时间解耦去运动模糊运算两次迭代的优化结果小于预定门限值。当两次迭代的优化结果小于预定门限值，即可认为优化处理结果已经收敛，可以停止迭代，显然预定门限值可以根据系统实际情况进行选择。

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多视角动态场景采集的视觉场计算方法，其特征在于，包括以下步骤：

2.如权利要求1所述的多视角动态场景采集的视觉场计算方法，其特征在于，所述空间间插采样包括：

所述相机呈环形分布在动态场景的一个水平面上，顺序间隔K个相机进行曝光采样实现空间间插采样，当动态场景沿着某一方向运动时，环形分布的所述相机通过间插曝光采样获取动态场景各个状态的采样信息，K＜N-2。

3.如权利要求2所述的多视角动态场景采集的视觉场计算方法，其特征在于，所述时间间插曝光采样包括：

4.如权利要求3所述的多视角动态场景采集的视觉场计算方法，其特征在于，所述变曝光采样包括：

所述N个相机中至少有一个相机的曝光时间T1满足T1＜Tmax，Tmax为最高帧率限制下的最长曝光时间，以及所述N个相机中至少有一个相机的曝光时间T2满足0＜T2＜T1。

5.如权利要求4所述的多视角动态场景采集的视觉场计算方法，其特征在于，对所述视场子空间的采样信息进行时间求交包括：

对所述各个相机选择不同采样周期内的曝光时间进行求交得到连续的短时曝光信息，所述短时曝光信息为超过所述相机的标称分辨率信息。

6.如权利要求5所述的多视角动态场景采集的视觉场计算方法，其特征在于，对所述视场子空间的采样信息进行空间求交包括：

7.如权利要求6所述的多视角动态场景采集的视觉场计算方法，其特征在于，对所述轮廓运动进行时间解耦去运动模糊包括：

8.如权利要求7所述的多视角动态场景采集的视觉场计算方法，其特征在于，所述三维重建算法包括基于特征匹配的三维重建算法。

9.如权利要求8所述的多视角动态场景采集的视觉场计算方法，其特征在于，直到迭代优化达到预定门限值为止包括：

进行时间解耦去运动模糊运算两次迭代的优化结果小于预定门限值。

10.如权利要求9所述的多视角动态场景采集的视觉场计算方法，其特征在于，所述多视角动态场景采集系统包括20个相机，所述相机呈环形分布在动态场景的一个高度为2米的水平面上，所述相机顺序间隔7个相机进行曝光采样实现空间间插采样。