CN103236082A

CN103236082A - 面向捕获静止场景的二维视频的准三维重建方法

Info

Publication number: CN103236082A
Application number: CN2013101541645A
Authority: CN
Inventors: 刘天亮; 王亮; 莫一鸣; 朱秀昌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2013-04-27
Filing date: 2013-04-27
Publication date: 2013-08-07
Anticipated expiration: 2033-04-27
Also published as: CN103236082B

Abstract

本发明公开了一种面向捕获静止场景的二维视频的准三维重建方法，属于计算机视觉的三维视频重建领域。本发明方法包括以下步骤：步骤A、对二维视频中的每一帧，提取双视点图像对；步骤B、分别对各双视点图像对进行极线校正；步骤C、采用基于全局优化的双目立体匹配方法对极线校正后的各双视点图像对分别求解全局最优视差图；步骤D、对全局最优视差图进行反校正，得到二维视频中各帧相应的视差图；步骤E、将步骤D得到的视差图依所对应的视频帧次序拼接为视差图序列，并对视差图序列进行优化；步骤F、结合所提取的各视频帧及其对应视差图，采用DIBR方法恢复虚拟视点图像，并将虚拟视点图像拼接为虚拟视点视频。本发明计算复杂度低，简单易行。

Description

面向捕获静止场景的二维视频的准三维重建方法

技术领域

本发明涉及一种面向捕获静止场景的二维视频的准三维重建方法，属于计算机视觉的三维视频重建领域。

背景技术

二维(2D)视频指普通摄像机拍摄的单路视频。三维(3D)视频指用立体摄像机拍摄的两路视频。二维视频的准三维化重建主要依据双目立体视觉原理。其任务是根据二维视频中隐含的场景深度信息，重建出另外一路虚拟视点视频，以模拟双目视物过程。相关的研究工作从上世纪90年代初开始逐渐增多，主要集中在视频深度信息恢复和虚拟视点视频生成两个方向。近两年，受3D电影和电视市场需求的驱动，视频三维化重建工作成为图像和视频处理领域的研究热点。

浙江大学计算机辅助设计与计算机图形国家重点实验室采用多视点立体(MVS,Multi-View Stereo)方法求解视频深度图序列。主要流程包括：采用基于运动的结构恢复(SFM,Structure from Motion)方法恢复摄像机内外参数，利用置信传播(BP,BeliefPropagation)等全局优化算法结合图像分割信息求解初始深度图序列，采用捆集调整方法优化深度图序列。该整体流程能得到较高质量视频深度图序列，但对SFM方法精度和图像分割精度都有较高要求。SFM过程中产生的误差使得BP全局优化算法传递具有较大误差的消息，这将导致深度图序列精度的降低。图像分割中的误差将使深度图序列中物体边缘处的深度值出现误差。此外，SFM、BP全局优化算法、图像分割以及捆集调整优化都要花费较多的计算时间，一方面会对三维视频重建的硬件设备提出较高要求，另外一方面也会对整个三维视频重建流程造成较大的计算时间开销。

立体匹配方法是MVS方法中只有两个视点图像的特殊情况，适用于双视点图像的视差恢复。为了满足立体匹配的极线(Epipolar Line)约束要求，可以提取视频序列中的关键帧进行极线校正，将两帧图像之间对应像素点校正到同一水平线上。通过立体匹配方法对校正后的图像对求解视差图，再对像素视差进行取倒数操作得到像素深度。目前立体匹配主要分为两大类方法：局部立体匹配和全局立体匹配。局部立体匹配对像素点逐一进行匹配，全局立体匹配借助全局能量最小化求解全局最优视差。相对于MVS方法，立体匹配方法不需要恢复摄像机参数，且优化过程需要较少的计算时间。奥地利维也纳科技大学的Bleyer等人提出了基于对象分类的全局立体匹配方法。该方法对图像中物体进行复杂的语义分析，确立每个图像块的空间隶属关系，据此构造全局立体匹配能量先验项以约束邻域像素平滑性，在图像遮挡区域恢复出优异的视差结果。此方法的缺点在于图像语义分析较为复杂且据此构造的全局能量函数较难进行优化。

极线校正可以为双目立体匹配算法提供校正后的双目立体图像对，因此成为重要的双目立体匹配预备步骤。经过极线校正后的图像对在水平方向上极线平行，对应像素点具有相同纵坐标。有摄像机标定情况下的极线校正称为欧式极线校正，这是极线校正中的理想情况，能得到高质量校正结果。欧式极线校正的缺点在于需要进行摄像机标定，这将带来较大的计算时间开销，且摄像机标定过程中产生的误差将影响极线校正结果的精度。无摄像机标定情况下的极线校正方法较多，多以欧式极线校正为目标，期望校正后的图像变形程度尽量接近欧式极线校正的理想状况。

基于深度图渲染(DIBR,Depth Image Based Rendering)的绘制技术发展得较为完善，是虚拟视点视频生成的常用方法。DIBR绘制技术主要包含三方面工作：深度图预处理，像素映射，空洞填补。加拿大通信研究中心Zhang等人提出非对称深度图滤波，降低了虚拟视点图像几何形变。深度图滤波方法较为简便且可以减小虚拟视点图像中遮挡区域的人工痕迹，但也使得深度图损失了部分边缘信息。

发明内容

本发明所要解决的技术问题在于克服现有技术不足，提供一种面向捕获静止场景的二维视频的准三维重建方法，避免了MVS的三维视频重建方法中所需的SFM、全局优化算法、图像分割以及捆集调整优化等计算复杂度较高的操作流程，更为简单且易于操作。

本发明的面向捕获静止场景的二维视频的准三维重建方法，包括以下步骤：

步骤A、对所述静止场景二维视频中的每一帧，提取与其间隔固定帧数的另一帧，构成一对双视点图像对；

步骤B、分别对各双视点图像对进行极线校正；

步骤C、采用基于全局优化的双目立体匹配方法对极线校正后的各双视点图像对分别求解全局最优视差图；

步骤D、根据所述极线校正得到的单应矩阵，对全局最优视差图进行反校正，得到所述静止场景二维视频中各帧相应的视差图；

步骤E、将步骤D得到的视差图依所对应的视频帧次序拼接为视差图序列，并对视差图序列进行优化；

步骤F、结合所提取的各视频帧及其对应视差图，采用DIBR方法恢复虚拟视点图像，并将虚拟视点图像拼接为虚拟视点视频。

作为本发明的一种优选方案，所述基于全局优化的双目立体匹配方法具体为：对于包含左图I_L和右图I_R的双视点图像对，当左图I_L中像素点p视差为d时，用

表示右图I_R中与p对应的像素点；通过求解以下数学模型，从这两个视点图像中获得全局最优的稠密视差图D：

\min E (D) = \underset{p &Element; I}{Σ} e_{aggr} (p, {\overset{&OverBar;}{p}}_{d}) + η \cdot \underset{(p, q) &Element; N}{Σ} L (p, q) \cdot \min (| d_{p} - d_{q} |, T_{sm}),

其中，η为正则化系数；为像素点p与

的匹配代价，通过以下方法得到：

步骤1）按照下式确定像素点p与

的初始匹配代价

e (p, {\overset{&OverBar;}{p}}_{d}) = β \cdot d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) + (1 - β) \cdot d_{RGB} (p, {\overset{&OverBar;}{p}}_{d})

d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | ξ_{L}^{c} (p) - ξ_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{WLD}},

d_{RGB} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | I_{L}^{c} (p) - I_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{RGB}}

式中，

为像素点p与

的韦伯描述符向量之间的差异，

为像素点p与

的RGB通道彩色描述符向量之间的差异，T_WLD和T_RGB分别为预设的阈值，β为范围在[0,1]之间的权重系数，

分别为左图I_L中的像素点p与右图I_R中的像素点

在RGB色彩通道c下的差分激励；分别为左图I_L中的像素点p与右图I_R中的像素点

在RGB色彩通道c下的分量；

步骤2）按照下式将各像素点的初始匹配代价按导引滤波权重核进行权重化平均，实现匹配代价聚合：

e_{aggr} (p_{b}, {\overset{&OverBar;}{p}}_{b, d}) = Σ_{j} W_{b, j} (p_{b}, p_{j}) \cdot e (p_{j}, {\overset{&OverBar;}{p}}_{j, d}),

式中，

是导引滤波输出，作为目标像素点p_b的聚合代价；

是像素p_b在给定视差d时在右图I_R中的对应像素点；

表示像素点p_b的邻域像素点p_j在给定视差d时的初始匹配代价，作为导引滤波的输入；导引滤波权重核W_b,j(p_b,p_j)由下式得到：

W_{b, j} (p_{b}, p_{j}) = \frac{1}{{| w |}^{2}} \underset{k : (b, j) &Element; w_{k}}{Σ} (1 + {(I_{b} - μ_{k})}^{T} {(Σ_{k} + ϵU)}^{- 1} (I_{j} - μ_{k})),

其中，|w|为支撑窗口w_k中的像素个数；k:(b,j)∈w_k表示所有同时包含目标像素p_b和邻域像素p_j的支撑窗口，这些窗口用变量k表示；I_b和I_j是目标像素p_b和邻域像素p_j的3×1的RGB色彩向量；μ_k表示某个支撑窗口w_k内所有像素RGB色彩向量的3×1均值向量；∑_k表示某个支撑窗口w_k内所有像素RGB色彩向量的3×3协方差矩阵；U是3×3单位矩阵；ε为加权力度控制参数；

d_p和d_q分别为目标像素p和某个邻域像素q的视差；T_sm为预设的视差差异截断阈值；L(p,q)为目标像素p和邻域像素q间的自适应相似性权重，根据下式得到：

L(p,q)=L(q,p)=exp(-D(p,q)/σ)

其中，σ为相似性测度的控制参数；D(p,q)表示原图像的最小生成树上的目标顶点p和其邻域中顶点q之间的距离，即它们连接路径上边的权重和，所述目标顶点的邻域为所述最小生成树上与目标顶点距离最小的K个邻近顶点；所述最小生成树通过以下方法得到：首先将原图像的像素点作为图结构的顶点，将相邻像素点间的梯度模作为图结构中顶点间边上的权重，得到稠密的图结构；然后，采用克鲁斯卡尔算法对稠密的图结构求解，得到原图像的最小生成树。

进一步地，采用QPBO-α-expansion算法求解所述数学模型，从双视点图像中获得全局最优的稠密视差图D，所述QPBO-α-expansion算法具体如下：首先通过局部立体匹配方法求解初始视差图D_init，并根据视差值α生成常量视差图D_α；然后采用QPBO方法将初始视差图D_init和常量视差图D_α进行融合，生成较优视差图D_new；接着更新视差值α，得到新的常量视差图，并将该常量视差图与较优视差图D_new再次融合，生成新的较优视差图，重复该过程直到视差值α遍历视差搜索空间，最终的较优视差图即为全局最优视差图。

上述技术方案中，极线校正可采用现有的欧式极线校正方法或者非欧式极线校正方法，优选地，所述极线校正使用准欧式极线校正方法，包括以下步骤：匹配双视点图像对之间SIFT特征点；设定单应矩阵形式和参数并建立极线方程；依据极线方程建立Sampson误差函数；采用LM算法最小化误差函数并求解单应矩阵参数；按照单应矩阵对原始视点图像进行单应变化。

优选地，步骤E中所述对视差图序列进行优化，包括帧内增强和帧间去抖动；所述帧内增强包括中值滤波去噪和借助最邻近像素填充的错误视差填补处理；所述帧间去抖动根据当前视差帧平均视差值与邻近视差帧平均视差值之间的比值调整当前视差帧的整体视差值。

相比现有技术，本发明具有以下有益效果：

本发明采用极线校正结合立体匹配的方法求解视频视差图序列，避免了借助MVS的三维视频重建方法中所需的SFM、BP、图像分割以及捆集调整优化等计算复杂度较高的操作流程，简化了视频视差图序列的求解过程。本发明所采用的准欧式极线校正方法无需摄像机标定，简单易操作，性能接近欧式极线校正；采用的立体匹配方法精度高，可以恢复出较高质量视差图；采用的DIBR技术简便且切实可行。本发明中方法对计算机硬件要求不高，整个重建流程所需计算时间较少，恢复的虚拟视点视频人工痕迹较少。

附图说明

图1（a）、图1（b）分别为极线校正前、后的对极几何。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明：

本发明的思路是采用极线校正结合立体匹配的方法求解视频视差图序列，避免了借助MVS的三维视频重建方法中所需的SFM、BP、图像分割以及捆集调整优化等计算复杂度较高的操作流程，简化了视频视差图序列的求解过程。本发明进一步采用了简单易操作的准欧式极线校正方法。作为本发明方法的一个优选实施例，首先对二维视频中的每一帧，提取与其间隔固定帧数的另一帧，模拟双视点图像；然后采用准欧式极线校正方法校正双视点图像；接着借助全局双目立体匹配方法求解视差图；再对视差图进行反校正并对视差图序列进行增强后处理；最后采用DIBR技术恢复虚拟视点视频。为了便于公众理解，下面对该优选实施例的技术方案进行详细描述。

1．双视点图像对的提取

本发明中的二维视频可由摄像机沿水平方向接近匀速移动拍摄静止场景得到，其中间隔一定间隔的两帧图像可以用于模拟双视点图像。对于静止场景二维视频中的每一帧图像，按照一定的帧间隔选取视频序列中的另外一帧与之组成双视点图像。帧间隔由摄像移动速度决定，以提取出的两幅图像可以模拟双视点图像为准。不同的视频序列需要设定不同的帧间隔，帧间隔具体数值由主观观测得到。

2．双视点图像的极线校正

极线校正是将如图1(a)所示的汇聚摄像机对极几何校正为图1(b)所示的平行摄像机对极几何。极线校正后左右图像平面相互平行，对应点x_l、x_r的极线l_r和l_l位于同一水平方向并且相互平行。

本发明采用准欧式极线校正方法对双视点图像进行校正，包含以下步骤：匹配双视点图像对之间SIFT特征点；设定单应矩阵形式和参数并建立极线方程；依据极线方程建立Sampson误差函数；采用LM算法最小化误差函数并求解单应矩阵参数；按照单应矩阵对原始视点图像进行单应变化，实现双视点图像的极线校正。

（1）双视点图像SIFT特征匹配

双视点图像SIFT特征匹配包含四个重要步骤：生成尺度空间，检测尺度空间极值点，描述符生成，匹配SIFT特征。

给定高斯卷积核G(x,y,σ)和不同的尺度σ，对图像I(x,y)进行卷积操作得到尺度空间L(x,y,σ)：

L(x,y,σ)=G(x,y,σ)*I(x,y) （1）

对尺度σ乘以不同的系数k得到不同的高斯卷积核G(x,y,kσ)，根据不同高斯核生成尺度空间中的一组图像，相邻图像间尺度相差k倍。高斯差分核DoG(x,y,σ)可以得到图像中稳定的极值点：

DoG(x,y,σ)=G(x,y,kσ)-G(x,y,σ) （2）

确定特征点后须要为特征点构造具体的描述符。以特征点为中心，选择特征点周围16×16的邻域，在邻域中统计梯度方向直方图，形成128维的矢量，作为特征点描述符。对于左图像中的一个SIFT特征点，右图像中与该特征点具有最小欧式距离的SIFT特征点被判定为与其匹配的SIFT特征点。

（2）基于RANSAC算法剔除SIFT误匹配

由于计算误差的影响，匹配后的SIFT特征点对中存在一些误差较大的匹配对。这些匹配对的误差相对于其他匹配对的误差大很多，称为宿外匹配特征点对。野匹配对后续单应矩阵参数计算的精度影响显著，故须要剔除宿外匹配。RANSAC算法是剔除此类宿外匹配的高效且通用的方法，该算法从人为匹配的SIFT特征点对样本集

中剔除宿外匹配对，剩下正确匹配对，构成样本一致集，其中i=1,2,…,N，N为样本个数。

（3）单应矩阵分解与参数化

准欧式极线校正方法假定单应由无穷远平面引导，因此单应矩阵H_l和H_r分解为摄像机内参矩阵和旋转矩阵的乘积：

H_{l} = K_{l} R_{l} K_{l}^{- 1}; H_{r} = K_{r} R_{r} K_{r}^{- 1} - - - (3)

其中K_l和K_r分别表示左右摄像机的内参矩阵，R_l和R_r表示极线校正过程中摄像机绕中心进行旋转操作的旋转矩阵。

假定左右摄像机内参矩阵相等，统一表示为K。对于多数正常的拍摄情形，可以假定摄像机像素无扭曲，像素长宽相等，主点在图像平面中心，摄像机内参矩阵表示为：

K = [\begin{matrix} f & 0 & w / 2 \\ 0 & f & h / 2 \\ 0 & 0 & 1 \end{matrix}] - - - (4)

其中，f表示摄像机焦距，是未知量；w和h是图像的宽和高，是已知量。以像素为量纲的焦距f取值在[(1/3)(w+h),3(w+h)]区间内，用参数g表示f/( w+h)，则g的取值范围在[1/3,3]，确定参数g后即可确定摄像机内参矩阵K。

摄像机旋转矩阵R_l和R_r表示左右两个摄像机坐标系在极线校正过程中围绕各自的三个坐标轴进行的旋转操作。旋转过程可以依次分解为摄像机主轴绕Y轴、Z轴和X轴的旋转：

R_{l} = R_{lx} R_{lz} R_{ly} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (φ / 2) & - \sin (φ / 2) \\ 0 & \sin (φ / 2) & \cos (φ / 2) \end{matrix}] [\begin{matrix} \cos α_{l} & - \sin α_{l} & 0 \\ \sin α_{l} & \cos α_{l} & 0 \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} \cos β_{l} & 0 & \sin β_{l} \\ 0 & 1 & 0 \\ - \sin β_{l} & 0 & \cos β_{l} \end{matrix}]

(5)

R_{r} = R_{rx} R_{rz} R_{ry} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (- φ / 2) & - \sin (- φ / 2) \\ 0 & \sin (- φ / 2) & \cos (- φ / 2) \end{matrix}] [\begin{matrix} \cos α_{r} & - \sin α_{r} & 0 \\ \sin α_{r} & \cos α_{r} & 0 \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} \cos β_{r} & 0 & \sin β_{r} \\ 0 & 1 & 0 \\ - \sin β_{r} & 0 & \cos β_{r} \end{matrix}]

（4）单应矩阵求解

用参数集P={α_l、α_r、β_l、β_r、φ、g}表示单应矩阵参数集合。符号x_l、y_l表示非齐次坐标下特征点x_l的横坐标和纵坐标，x_r、y_r表示非齐次坐标下特征点x_r的横坐标和纵坐标，则特征点对样本

确定了IR⁴空间中的一个点X=(x_l, y_l,x_r, y_r)^T。对于给定的基本矩阵F，满足对极方程

的估计量

确定了IR⁴空间中的点对极方程可以简写为

其中符号

表示IR⁴空间中的点

关于对极方程的代价函数。给定点X，存在多个点偏移δ使得

其中有一个点偏移δ_s具有最小的平方模值||δ_s||²，该平方模值||δ_s||²被定义为关于点X的Sampson误差：

{| | δ_{s} | |}^{2} = δ_{s}^{T} δ_{s} = C {(X)}^{T} {(C^{'} (X) C^{'} {(X)}^{T})}^{- 1} C (X) - - - (6)

点偏移δ_s的模||δ_s||可以表示为参数集P的函数f(P)，于是Sampson误差可以改写为：

||δ_s||²=(f(P))² （7）

根据特征点对样本

(i=1,2,…,T)求解单应矩阵参数集时，总的Sampson误差E_s(P)定义为：

E_{s} (P) = \frac{1}{2} Σ_{i = 1}^{T} {(f_{i} (P))}^{2} = \frac{1}{2} f {(P)}^{T} f (P) - - - (8)

其中，f(P)是T×1的函数矢量，第i个元素为f_i(P)。通过LM算法对总误差E_s进行最小化，求得最优参数集P^*。

（5）单应变换

借助LM算法求得最优参数集P^*，进而确定参数α_l、α_r、β_l、β_r、φ、g的取值。这些参数被用于构造摄像机的内外参矩阵：K,R_l,R_r。再根据公式（3）确定对应极线校正前原始左右图像的单应矩阵H_l和H_r。最后依据单应矩阵，分别对原始左右图像进行单应变换，实现极线校正。若x_rl和x_rr表示极线校正后左右图像中像素的齐次坐标，则单应变换表示为：

x_rl=H_lx_l （9）

x_rr=H_rx_r

3．基于全局优化的双目立体匹配

全局立体匹配从整体最优角度出发求解视差图。全局化方法的两个关键点是：第一，定义鲁棒高效的目标函数；第二，提供切实可行的计算方法优化目标函数以求解全局最优解。本发明所构造的全局能量函数由基于导引滤波的聚合代价表示能量似然项，由基于MST引导的平滑性代价表示能量先验项，有效提高了双目立体匹配的精度；并进一步采用QPBO-α-expansion算法（基于二次伪布尔优化的最优视差求解算法），以所构造的全局能量函数最小为目标，求解全局最优视差图。本发明的基于全局优化的双目立体匹配方法具体包括以下内容：

（1）全局能量函数

给定包含左图I_L和右图I_R的立体图像对，全局立体匹配的目标是从这两个视点图像中获得稠密视差图D。当左图I_L中像素点p视差为d时，用

表示右图I_R中对应点。全局立体匹配的能量函数定义为：

E (D) = \underset{p &Element; I}{Σ} V_{p} (d) + \underset{(p, q) &Element; N}{Σ} V_{s} (d_{p}, d_{q}) - - - (10)

其中似然项能量V_p(d)表示像素点p和之间的匹配代价，先验项能量V_s(d_p,d_q)表示视差图中相邻像素点p和q之间的视差平滑性代价。

（2）基于导引滤波聚合的似然项

本发明将局部立体匹配方法中的聚合代价引入全局能量似然项中。借助WLD描述符计算初始代价并基于线性滤波计算聚合代价，据此构造充分鲁棒的能量似然项。

根据韦伯定理稠密构造图像韦伯描述符，当前像素x在RGB色彩通道c下的差分激励表示为ξ^c(x)，c∈{R,G,B}，如下式所示:

ξ^{c} (x) = \arctan [θ \frac{v_{00}}{v_{01}}] = \arctan [θ Σ_{i = 0}^{P - 1} (\frac{x_{i} - x}{x})], c &Element; {R, G, B} - - - (11)

连接RGB三个色彩通道的差分激励，形成韦伯描述符向量WLD(x)=(ξ^R(x),ξ^G(x),ξ^B(x))。

左图像中像素p和右图像中像素

之间的初始匹配代价用两像素间WLD描述符和RGB通道色彩描述符的差异进行度量。采用绝对值和SAD（Sum of AbsoluteDifferences）度量准则，并对两种描述符差异分别设置阈值T_WLD和T_RGB，初始匹配代价

表示如下：

e (p, {\overset{&OverBar;}{p}}_{d}) = β \cdot d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) + (1 - β) \cdot d_{RGB} (p, {\overset{&OverBar;}{p}}_{d})

d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | ξ_{L}^{c} (p) - ξ_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{WLD}} - - - (12)

d_{RGB} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | I_{L}^{c} (p) - I_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{RGB}}

式中，

为像素点p与

的韦伯描述符向量之间的差异，

为像素点p与

分别为左图I_L中的像素点p与右图I_R中的像素点

在RGB色彩通道c下的差分激励；

分别为左图I_L中的像素点p与右图I_R中的像素点

在RGB色彩通道c下的分量。

代价聚合过程将邻域像素的初始匹配代价权重化平均后作为中心目标像素的聚合代价，可以进一步消除噪声影响并减小匹配歧义。在支撑窗口w_k中，给定视差d，窗口中各个像素在其初始匹配代价集中都存在一个对应于给定视差d的初始匹配代价。将这些初始匹配代价按导引滤波权重核进行权重化平均，实现匹配代价聚合：

e_{aggr} (p_{b}, {\overset{&OverBar;}{p}}_{b, d}) = Σ_{j} W_{b, j} (p_{b}, p_{j}) \cdot e (p_{j}, {\overset{&OverBar;}{p}}_{j, d}) - - - (13)

其中

是导引滤波输出，作为目标像素p_b的聚合代价。

是像素p_b在给定视差d时在右图I_R中的对应像素。

表示邻域像素点p_j在给定视差d时的初始匹配代价，作为导引滤波的输入。导引滤波权重核W_b,j(p_b,p_j)由导引图像I_L的相关信息计算得到：

W_{b, j} (p_{b}, p_{j}) = \frac{1}{{| w |}^{2}} \underset{k : (b, j) &Element; w_{k}}{Σ} (1 + {(I_{b} - μ_{k})}^{T} {(Σ_{k} + ϵU)}^{- 1} (I_{j} - μ_{k})) - - - (14)

其中|w|为支撑窗口w_k中像素个数；k:(b,j)∈w_k表示所有同时包含目标像素p_b和邻域像素p_j的支撑窗口，这些窗口用变量k表示；I_b和I_j是目标像素p_b和邻域像素p_j的3×1色彩向量；μ_k表示某个支撑窗口w_k内所有像素色彩向量的3×1均值向量，∑_k表示这些色彩向量的3×3协方差矩阵，U是3×3单位矩阵；参数ε控制导引滤波权重化平均的加权力度。

根据聚合代价

公式（10）所示全局能量函数中的能量似然项V_p(d)表示为：

V_{p} (d) = e_{aggr} (p, {\overset{&OverBar;}{p}}_{d}) - - - (15)

（3）最小生成树引导先验项

由最小生成树（MST,Minimum Spanning Tree）引导的邻域能够自动归类相似的像素点，符合人眼感知物体过程。

立体图像对中的一幅图像（例如左图I_L）可以用无向图G=(V,E)表示。图像中的所有像素组成无向图G的顶点集V。假定每个像素与其上下左右四个相邻像素之间存在边，这些边组成无向图G的边集合E。给定特定边两端的像素s和r，借助两者色彩向量I_s和I_r计算边的权重W(s,r)：

W(s,r)=W(r,s)=|I_s-I_r| （16）

通过克鲁斯卡尔算法(Kruskal's algorithm)去除无向图G中权重较大的边，可以得到图G的MST。MST上两个顶点p和q之间的距离D(p,q)等于它们连接路径上边的权重和。

计算MST中与目标顶点距最小的K个邻域顶点，据此定义目标顶点的邻域。选取与其距离最小的有限个顶点作为邻域顶点。目标顶点与邻域顶点的相似性L(p,q)与它们之间的距离D(p,q)成反比：

L(p,q)=L(q,p)=exp(-D(p,q)/σ) （17）

其中参数σ控制两顶点之间的相似性测度。

图像中像素与MST中顶点一一对应，与邻域顶点对应的像素被定义为目标像素的邻域像素。

给定目标像素p和某个邻域像素q，像素间自适应相似性权重L(p,q)由公式（17）表达，结合像素视差d_p和d_q，借助权重化线性截断模型表示MST引导能量先验V_s(d_p,d_q)：

V_s(d_p,d_q)=L(p,q)·min(|d_p-d_q|,T_sm) （18）

其中，视差差异截断阈值T_sm防止能量先验项过大，有助于能量先验项与能量似然项大小保持相同数量级，平衡两个能量项对全局能量的贡献。在视差搜索范围最大值d_max已知时，截断阈值T_sm一般等于d_max乘以一个经验比例常数λ_d(T_sm=λ_dd_max)。

（4）基于二次伪布尔优化的最优视差求解

计算得到基于导引滤波聚合的似然项和MST引导先验项后，由公式（10）表示的全局能量函数具体展开为：

E (D) = \underset{p &Element; I}{Σ} e_{aggr} (p, {\overset{&OverBar;}{p}}_{d}) + η \cdot \underset{(p, q) &Element; N}{Σ} L (p, q) \cdot \min (| d_{p} - d_{q} |, T_{sm}) - - - (19)

其中正则化系数η调节两个能量项在总能量中的贡献。

本发明采用QPBO-α-expansion算法最小化公式（19）所示的全局能量函数。QPBO-α-expansion算法具体如下：首先通过局部立体匹配方法求解初始视差图D_init，并根据视差值α生成常量视差图D_α；然后采用QPBO方法将初始视差图D_init和常量视差图D_α进行融合，生成较优视差图D_new；接着更新视差值α，得到新的常量视差图，并将该常量视差图与较优视差图D_new再次融合，生成新的较优视差图，重复该过程直到视差值α遍历视差搜索空间，最终的较优视差图即为全局最优视差图。

4．视差图的反校正

由于立体匹配系统的输入图像是经过极线校正的左右图像对，这两幅图像相对原始视点图像有几何形变，因此求解出的视差图并不完全与原始视点图像对应。为了获取与原始视点图像对应的视差图，需要根据极线校正中单应矩阵的逆矩阵对立体匹配求得的视差图进行几何变换。该几何变换过程是公式（9）表示的单应变换过程的逆过程，表示如下：

x_{l}^{ori} = H_{l}^{- 1} x_{rl}

(20)

x_{r}^{ori} = H_{r}^{- 1} x_{rr}

其中

和

为反校正后左右视差图中像素的齐次坐标。反校正后的视差图与原始视点图像几何形状保持一致，对应像素点具有相同齐次坐标。

5．视差图序列的增强后处理

将视差图拼接为视差图序列。视差图序列的质量较大程度地决定了虚拟视点视频的质量，因此也影响了三维视频的主观效果。本发明的视差图序列增强处理主要包含帧内增强和帧间去抖动两方面的处理。帧内增强消除帧内噪声并填补空洞。帧间去抖动使得相邻视差图之间平滑变换。

（1）帧内增强

由于误匹配、低纹理区域和遮挡区域影响，恢复出的视差图含有噪点和错误的空洞区域。本发明采用中值滤波去除帧内噪声。本发明在处理空洞区域时，首先根据空洞具有较大灰度值的特性，设定灰度阈值T_illu，识别出空洞区域；然后采用最邻近像素填充方法对空洞进行填补。

（2）帧间去抖动

在提取双视点图像并进行立体匹配的过程中，相邻图像帧单独求解视差图，造成相邻视差图之间视差值出现差异，这些差异表现在视差图序列中即为帧间抖动。采用邻近视差图序列平均可以减缓帧间抖动。邻近视差图序列平均方法首先求解每帧视差图的平均视差值avg_i(i=1,2,3,…,N)，N是视差图序列总帧数；然后，将相邻的n帧视差图视为邻近视差图序列组，求解它们平均视差值的平均值AVG，即该组视差图的平均视差值；最后，对于某个特定视差图D_i，按照视差调整公式进行整体调整：

D_i=D_i·(AVG/avg_i) （21）

邻近视差图序列组包含的帧数n由摄像机平移速度决定。摄像机移动速度越快，n取值越小。n的取值要保证形成的视差图序列组中图像具有较多共同场景，这样才能使得组内视差图调整为具有相同平均视差值的操作变得有意义。

6．面向三维内容的虚拟视点视频生成

二维视频的准三维化重建最终目标是恢复出人工痕迹少的虚拟视点视频。DIBR绘制是一类发展成熟的虚拟视点视频生成技术，该技术通过原始视点图像和视差图生成虚拟视点图像，其生成新图像的过程模拟了虚拟摄像机成像过程。DIBR绘制一般包含三方面的工作：视差图预处理，像素映射和空洞填补。本发明所采用的DIBR方法包括：首先对视差图进行低通滤波预处理，然后依据视差图对原始视点图像进行像素平移；接着利用最邻近像素填充方法对像素平移产生的空洞进行填补；最后对填补区域的像素进行均值滤波。

（1）视差图预处理

虚拟视点图像生成过程中，像素映射过程会在虚拟视点图像中造成空洞。对大面积的空洞区域进行修补难免会引入较明显的人工痕迹，给虚拟视点视频的主观质量带来负面影响。对视差图进行低通滤波，可以减小视差图中物体边缘处的视差差异。这有助于在像素映射过程中，减小虚拟视点图像中的空洞。

本发明采用高斯低通滤波对视差图进行预处理。给定w×w的滤波窗口，高斯滤波函数为：

g (μ, σ) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{μ^{2}}{σ^{2}}), - \frac{w}{2} \leq μ \leq \frac{w}{2} - - - (22)

其中，标准差σ与视差图低通滤波强度成正比。实际应用中，通常滤波窗口宽度w=3σ。记符号d(x,y)为视差图中目标像素p(x,y)的视差值，则高斯低通滤波后目标像素的视差值d_g(x,y)表示为：

d_{g} (x, y) = Σ_{v = - w / 2}^{w / 2} (Σ_{μ=-w/2}^{w / 2} (d (x - μ, y - v) g (μ, σ)) g (v, σ)) / Σ_{v = - w / 2}^{w / 2} (Σ_{μ = - w / 2}^{w / 2} g (μ, σ) g (v, σ)) - - - (23)

标准差σ的最佳取值是使得虚拟视点图像空洞面积达到稳定状态的最小值。该最小值大约等于双视点摄像机基线距离的四分之一。

（2）像素映射

像素映射过程根据像素视差信息，将像素映射到虚拟摄像机成像平面。采用平行摄像机设置后，像素映射特指像素平移。像素点x_r到像素点x_l的映射通过像素在水平方向上的平移实现：

x_l=x_r+(0,Δd)^T （24）

其中，像素点x_r水平方向上的视差Δd=x_l-x_r，该视差预先通过立体匹配求得。

（3）空洞填补

虚拟视点中的空洞区域可以根据像素映射情况确定。对于虚拟视点图像中像素点位置(i,j)，若无像素平移到该位置，则设定该位置标记值mask(i,j)=1；若有像素平移到该位置，则设定其标记值mask(i,j)=0。虚拟视点图像中所有标记值mask(i,j)=1的像素组成了空洞区域。进行最邻近像素填充时，根据像素的标记值mask(i,j)，优先查找到空洞像素左边水平方向上最近的非空洞像素，并将非空洞像素复制到空洞像素处。对于虚拟视点图像中图像左边缘处的空洞，在左边找不到非空洞像素时，转向右边查找到最近的非空洞像素，并进行像素复制。

为了进一步减小人工痕迹，本发明还对空洞填补区域的像素进行均值滤波。

恢复出与原始视点视频每帧图像对应的虚拟视点图像后，将虚拟视点图像拼接为虚拟视点视频。当原始视点视频和虚拟视点视频通过3D播放设备分别进入左右眼时，人脑产生三维立体感觉。

Claims

1.一种面向捕获静止场景的二维视频的准三维重建方法，其特征在于，包括以下步骤：步骤A、对所述静止场景二维视频中的每一帧，提取与其间隔固定帧数的另一帧，构成一对双视点图像对；

步骤B、分别对各双视点图像对进行极线校正；

2.如权利要求1所述面向捕获静止场景的二维视频的准三维重建方法，其特征在于，所述基于全局优化的双目立体匹配方法具体为：对于包含左图I_L和右图I_R的双视点图像对，当左图I_L中像素点p视差为d时，用

\min E (D) = \underset{p &Element; I}{Σ} e_{aggr} (p, {\overset{&OverBar;}{p}}_{d}) + η \cdot \underset{(p, q) &Element; N}{Σ} L (p, q) \cdot \min (| d_{p} - d_{q} |, T_{sm})

其中，η为正则化系数；

为像素点p与

的匹配代价，通过以下方法得到：

步骤1）按照下式确定像素点p与

的初始匹配代价

e (p, {\overset{&OverBar;}{p}}_{d}) = β \cdot d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) + (1 - β) \cdot d_{RGB} (p, {\overset{&OverBar;}{p}}_{d})

d_{WLD} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | ξ_{L}^{c} (p) - ξ_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{WLD}},

d_{RGB} (p, {\overset{&OverBar;}{p}}_{d}) = \min {\underset{c &Element; {R, G, B}}{Σ} | I_{L}^{c} (p) - I_{R}^{c} ({\overset{&OverBar;}{p}}_{d}) |, T_{RGB}}

式中，

为像素点p与

的韦伯描述符向量之间的差异，

为像素点p与

分别为左图I_L中的像素点p与右图I_R中的像素点在RGB色彩通道c下的差分激励；

分别为左图I_L中的像素点p与右图I_R中的像素点

在RGB色彩通道c下的分量；

e_{aggr} (p_{b}, {\overset{&OverBar;}{p}}_{b, d}) = Σ_{j} W_{b, j} (p_{b}, p_{j}) \cdot e (p_{j}, {\overset{&OverBar;}{p}}_{j, d}),

式中，

是导引滤波输出，作为目标像素点p_b的聚合代价；是像素p_b在给定视差d时在右图I_R中的对应像素点；

W_{b, j} (p_{b}, p_{j}) = \frac{1}{{| w |}^{2}} \underset{k : (b, j) &Element; w_{k}}{Σ} (1 + {(I_{b} - μ_{k})}^{T} {(Σ_{k} + ϵU)}^{- 1} (I_{j} - μ_{k})),

L(p,q)=L(q,p)=exp(-D(p,q)/σ)

3.如权利要求2所述面向捕获静止场景的二维视频的准三维重建方法，其特征在于，采用QPBO-α-expansion算法求解所述数学模型，从双视点图像中获得全局最优的稠密视差图D，所述QPBO-α-expansion算法具体如下：首先通过局部立体匹配方法求解初始视差图D_init，并根据视差值α生成常量视差图D_α；然后采用QPBO方法将初始视差图D_init和常量视差图D_α进行融合，生成较优视差图D_new；接着更新视差值α，得到新的常量视差图，并将该常量视差图与较优视差图D_new再次融合，生成新的较优视差图，重复该过程直到视差值α遍历视差搜索空间，最终的较优视差图即为全局最优视差图。

4.如权利要求1所述面向捕获静止场景的二维视频的准三维重建方法，其特征在于，所述极线校正使用准欧式极线校正方法，包括以下步骤：匹配双视点图像对之间SIFT特征点；设定单应矩阵形式和参数并建立极线方程；依据极线方程建立Sampson误差函数；采用LM算法最小化误差函数并求解单应矩阵参数；按照单应矩阵对原始视点图像进行单应变化。

5.如权利要求1所述面向捕获静止场景的二维视频的准三维重建方法，其特征在于，步骤E中所述对视差图序列进行优化，包括帧内增强和帧间去抖动；所述帧内增强包括中值滤波去噪和借助最邻近像素填充的错误视差填补处理；所述帧间去抖动根据当前视差帧平均视差值与邻近视差帧平均视差值之间的比值调整当前视差帧的整体视差值。

6.如权利要求1所述面向捕获静止场景的二维视频的准三维重建方法，其特征在于，所述DIBR方法具体如下：首先对视差图进行低通滤波预处理，然后依据视差图对原始视点图像进行像素平移；接着利用最邻近像素填充方法对像素平移产生的空洞进行填补；最后对填补区域的像素进行均值滤波。