CN102111637A

CN102111637A - 生成立体视频深度图的方法及装置

Info

Publication number: CN102111637A
Application number: CN 201110077725
Authority: CN
Inventors: 戴琼海; 刘琼
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-03-29
Filing date: 2011-03-29
Publication date: 2011-06-29

Abstract

本发明提出一种生成立体视频深度图的方法及装置。其中，方法包括以下步骤：对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价；对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元；根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元；以每个第二分割单元为结点，对所述视差值进行全局优化以获得每个结点的最优视差值；以及将所述最优视差值转换为深度值，并根据所述深度值构建深度图。本发明通过根据运动信息对细小的分割区域进行自适应融合，可以在保证深度图的精度的同时，大幅度地降低计算复杂度。

Description

生成立体视频深度图的方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种生成立体视频深度图的方法及装置。

背景技术

交互式立体视频是一种全新的交互式多媒体形式，其允许用户自主地选择观看的视角以获得所感兴趣的立体视频内容。交互性立体视频系统具有自然场景或虚拟场景的三维沉浸视觉感受、无缝式视点切换与灵活的人机交互特性。交互式立体视频的研究已经吸引了广泛关注并成为研究热点。

交互式立体视频的场景捕获过程往往使用多视点采集的方式，为了能向人们以交互式的方式多角度地显示具有临境感的场景图像，客户端需要在展示重建多视点图像的基础上，绘制出虚拟视点图像以实现平滑的人机交互过程。关于虚拟视点图像的绘制技术有许多种，其中利用深度图进行绘制是最为重要的手段。深度图可以有效地表示场景对图像的三维空间信息，在客户端根据用户需要绘制出高质量的各虚拟视点图像，减少需要编码传输的视点数量，节省存储空间与传输带宽。

其中，深度图可以通过深度相机获取或由多路视频信号计算生成。但是，深度相机价格昂贵而且获得的深度图的精度不足。因此，现有技术通常由多路视频信号计算生成深度图。

现有的基于分割的深度图生成方法一般采用过分割的做法，使得单个分割区域尽可能细小，从而避免深度图精度的降低，但是这会导致全局优化具有很高的计算复杂度。

发明内容

本发明的目的旨在至少解决上述技术缺陷。

为达到上述目的，本发明一方面提出一种生成立体视频深度图的方法，包括以下步骤：对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价；对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元；根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元；以每个第二分割单元为结点，对所述视差值进行全局优化以获得每个结点的最优视差值；以及将所述最优视差值转换为深度值，并根据所述深度值构建深度图。

在本发明的一个实施例中，所述预定的搜索范围内的视差值的匹配代价Cost(i，j，l)通过以下的公式获得，

Cost(i，j，l)＝|p(i，j)-q(i，j+l)|，l∈预定的搜索范围，

其中，p(i，j)为一路视频中的像素点，q(i，j+l)为另一路视频中的像素点，l为p(i，j)与q(i，j+l)之间的视差值。

在本发明的一个实施例中，根据所述第二分割单元中所有像素点的匹配代价和构建优化目标函数，以对所述视差值进行优化。

在本发明的一个实施例中，所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。

在本发明的一个实施例中，所述当前视角的视频帧的运动信息通过运动搜索的方法获得，或者由外部输入。

在本发明的一个实施例中，对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。

本发明另一方面还提出一种生成立体视频深度图的装置，包括：匹配单元，用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价；分割单元，用于对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元；融合单元，用于根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元；优化单元，用于以每个第二分割单元为结点，对所述视差值进行全局优化以获得每个结点的最优视差值；以及构建单元，用于将所述最优视差值转换为深度值，并根据所述深度值构建深度图。

本发明通过根据运动信息对细小的分割区域进行自适应融合，可以在保证深度图的精度的同时，大幅度地降低计算复杂度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的生成立体视频深度图的方法的流程图；

图2为本发明一个实施例的视差值与深度值的关系示意图；

图3为本发明实施例的生成立体视频深度图的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示为本发明实施例的生成立体视频深度图的方法的流程图，包括以下步骤：

步骤S101，对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价。

具体地，首先读入一个单元长度的两路视频流，单位长度可以是一个视频序列，也可以是一个图像组。然后，对齐两路视频流，各取同时刻的一帧作为图像对为单位进行处理。对于每个像素点p(i，j)，在预定的搜索范围内，例如0～100，依次匹配，通过以下的公式计算每个视差值的代价值，

Cost(i，j，l)＝|p(i，j)-q(i，j+l)|，l∈[0，100]，

其中，p(i，j)为一路视频中的像素点，q(i，j+l)为另一路视频中的像素点，l为两者之间的视差偏移值。

应理解，搜索范围的大小可以根据实际需要而设定，不限于上述例子中的100。

步骤S102，对当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元。

需要注意的是，当前视角的视频帧应与步骤S101中的图像对属于同一时刻的视频帧。

此外，所述基于颜色的分割可以采用现有的颜色分割方法，例如采用mean-shift分割方法。此处，为了简单起见，不再赘述。

步骤S103，根据当前视角的视频帧的运动信息对多个第一分割单元进行融合以获得第二分割单元。

本发明发现，相邻的颜色分割块如果具有相同的运动信息，则应该属于同一对象，很有可能具有相同的深度数值。因此，在本发明的一个实施例中，对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。在具体实施例中，可以出于实现的简单性考虑，设置一个邻域范围。以每一个第一分割单元为几何中心，合并在此邻域范围内相邻且运动信息一致的第一分割单位，从而获得第二分割单元。很明显地，第二分割单元的数目少于第一分割单元的数目，这可以使得后面的步骤S104中的迭代结点数大大减少，因此可以降低整体计算复杂度。

其中，当前视角的视频帧的运动信息可以采用传统的运动搜索方法得到，也可以由外部输入。

步骤S104，以每个第二分割单元为结点，采用全局优化算法，获取最优视差值。

在本发明的一个实施例中，根据每个第二分割单元的匹配代价构建优化目标函数，其中，每个第二分割单元的匹配代价为这个分割单元中所有像素点的匹配代价和。应理解，这仅为示意性的例子，并不用于限制本发明，除此之外，也可以选取其他的优化目标函数。

此外，可以采取的优化方法也不限，例如可以采取图分割方法、动态规划优化等。

步骤S105，将最优视差值转换为深度值，并根据深度值构建深度图。

如图2所示，相机距离(双眼距离)t_c平行放置，焦距为f，物体P的深度值为Z，左右两个视点在成像图(焦平面)上距离光轴中心的距离分别为d_l＝d₁和d_r＝-d₂，

那么，视差d为d＝d_l-d_r＝d₁+d₂，

通过光学几何关系可以得到简单的视差和深度关系，

根据上述关系，可以将视差值转换为深度值，以便根据深度值构建深度图。

为实现上述实施例，本发明还提出一种生成立体视频深度图的装置。如图3所示为本发明实施例的生成立体视频深度图的装置的结构示意图，包括：匹配单元100、分割单元200、融合单元300、优化单元400和构建单元500。

匹配单元100用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价。分割单元200用于对当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元。融合单元300用于根据当前视角的视频帧的运动信息对多个第一分割单元进行融合以获得多个第二分割单元。优化单元400用于以每个第二分割单元为结点，对所述视差值进行全局优化以获得最优视差值。构建单元500用于将最优视差值转换为深度值，并根据所述深度值构建深度图。

每个单元的具体工作过程与上述方法中的描述相同，此处为了简单起见，不再赘述。

应注意的是，在上面的实施例中，以两路视频为例进行说明，但是本发明的方法和装置当然也可以适用于多路视频。例如，对于四路视频，可以将其分为两组两路视频，分别进行处理。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种生成立体视频深度图的方法，其特征在于，包括以下步骤：

对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价；

对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元；

根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元；

以每个第二分割单元为结点，对所述视差值进行全局优化以获得每个结点的最优视差值；以及

将所述最优视差值转换为深度值，并根据所述深度值构建深度图。

2.根据权利要求1所述的生成立体视频深度图的方法，其特征在于，其中，所述预定的搜索范围内的视差值的匹配代价Cost(i，j，l)通过以下的公式获得，

Cost(i，j，l)＝|p(i，j)-q(i，j+l)|，l∈预定的搜索范围，

3.根据权利要求1所述的生成立体视频深度图的方法，其特征在于，所述对所述视差值进行全局优化，进一步包括：

根据所述第二分割单元中所有像素点的匹配代价和，构建优化目标函数。

4.根据权利要求1所述的生成立体视频深度图的方法，其特征在于，所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。

5.根据权利要求1所述的生成立体视频深度图的方法，其特征在于，其中，所述当前视角的视频帧的运动信息通过运动搜索的方法获得，或者由外部输入。

6.根据权利要求1所述的生成立体视频深度图的方法，其特征在于，所述根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合，进一步包括：

对相邻且运动信息一致的第一分割单元进行合并以获得第二分割单元。

7.一种生成立体视频深度图的装置，其特征在于，包括：

匹配单元，用于对与当前视角相邻的两路视频帧进行立体匹配以获得预定的搜索范围内的视差值的匹配代价；

分割单元，用于对所述当前视角的视频帧进行基于颜色的分割以获得多个第一分割单元；

融合单元，用于根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合以获得多个第二分割单元；

优化单元，用于以每个第二分割单元为结点，对所述视差值进行全局优化以获得每个结点的最优视差值；以及

构建单元，用于将所述最优视差值转换为深度值，并根据所述深度值构建深度图。

8.根据权利要求7所述的生成立体视频深度图的装置，其特征在于，所述匹配单元通过以下的公式计算预定的搜索范围内的视差值的匹配代价，

Cost(i，j，l)＝|p(i，j)-q(i，j+l)|，l∈预定的搜索范围，

9.根据权利要求7所述的生成立体视频深度图的方法，其特征在于，所述对所述视差值进行全局优化，进一步包括：

10.根据权利要求7所述的生成立体视频深度图的装置，其特征在于，所述当前视角的视频帧与所述与当前视角相邻的两路视频帧属于同一时刻。

11.根据权利要求7所述的生成立体视频深度图的装置，其特征在于，其中，所述当前视角的视频帧的运动信息通过运动搜索的方法获得，或者由外部输入。

12.根据权利要求7所述的生成立体视频深度图的装置，其特征在于，所述根据所述当前视角的视频帧的运动信息对所述多个第一分割单元进行融合，进一步包括：