CN104574311B

CN104574311B - 图像处理方法和装置

Info

Publication number: CN104574311B
Application number: CN201510005026.XA
Authority: CN
Inventors: 杨小伟; 章国锋; 何轶
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-01-06
Filing date: 2015-01-06
Publication date: 2017-08-11
Anticipated expiration: 2035-01-06
Also published as: US20170302901A1; BR112017014647A2; EP3232661A1; CN104574311A; KR20170102521A; EP3232661A4; US10382737B2; KR101923845B1; US10630956B2; US20190335155A1; EP3232661B1; WO2016110239A1

Abstract

本发明的实施例提供了一种图像处理方法和装置，该方法包括：获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。由于在生成浏览帧之前对视频帧图像进行了补全，因此保证图像浏览的完整性的同时，提高了图像浏览的速度。

Description

图像处理方法和装置

技术领域

本发明的实施例涉及图像处理领域，并更具体地，涉及一种图像处理方法和装置。

背景技术

三维拍照技术是对传统视频图像采集的一大改进，目的在于把图像采集的二维图像序列，通过一系列的处理，呈现出三维浏览的效果。使得图像采集结果不仅仅是一段视频，除了从图像采集的角度被动的观察目标物体以外，还可以主动的调整观察角度，从各个方向进行观察。

通常，恢复每张图像对应的摄像机参数可以采用运动推断结构(Structure-from-Motion)技术。摄像机参数包括摄像机内参矩阵K和运动参数[R|T]，R为一个3x3的旋转矩阵，表示相机朝向；T为一个3维平移向量，表示相机在场景中的平移。对于场景中任意三维点X，可通过摄像机参数投影至图像中一点x：

其中为二维点x的齐次坐标系，即将这样的投影关系用一个投影函数π表示：x＝π(K,R,T,X)。如果不同图像间存在足够多的公共点，则可通过最小化能量函数同时恢复每帧图像对应的摄像机参数和所有场景点的三维位置：

其中(K_i,R_i,T_i)为第i帧的摄像机参数，X_j为第j个三维点位置，若第j个三维点在第i帧图像中可见，则v_ij＝1，x_ij为第j个三维点在第i帧图像中的位置，否则v_ij＝0。

算法需要自动由图像中提取特征点，并将不同图像中对应于相同场景点的图像特征点匹配起来。具体地，对每张图像提取SIFT(尺度不变特征转换)特征点，并为每个SIFT特征点计算一个64维的向量，称为特征描述量。特征描述量包含了特征点周围的图像信息，不同图像中，对应于相同场景点的特征描述量相近，因此，可通过计算特征描述量的欧式距离，将不同图像中对应于相同场景点的图像特征点匹配起来。另外，每两张图像的匹配点之间应满足极线几何约束，因此可以利用这一约束，使用RANSAC(随机抽样一致)方法剔除误匹配。

然后，根据特征匹配的结果，采用渐进式的运动推断结构(Structure fromMotion)技术来恢复每张图像对应的运动参数以及场景中稀疏的三维点位置。例如，系统选择公共点较多、基线较长的图像对，使用五点法估计这两帧图像相机相对位置，并使用三角化算法为这两帧的公共点估计三维位置。对于其余帧图像，若某一帧中可见足够多已恢复的三维点，则使用EPnP算法估计该帧对应的摄像机参数，并再次使用三角化算法往场景中添加该帧图像中尚未恢复的三维点。将这一步骤迭代进行，直至所有帧均被处理。为消除误差累积，每次迭代后，可以使用集束调整技术联合优化所有已恢复的摄像机参数和三维点云。

现有技术有一种三维拍照技术，首先利用Structure from Motion技术恢复摄像机参数和场景三维点，并根据浏览视点的摄像机参数选取最接近的源图像。然后根据场景三维点，对源图像建立网格，并根据三维点在源图像上的投影建立纹理映射关系。再以多帧源图像进行绘制，然后根据视角关系进行阿尔法混合。最后对缺失区域进行补全。

由于遮挡的关系，观察视角下部分区域可能在拍摄条件下并不可见，在实时绘制阶段得到最终投影结果之后再进行补全，则会对显示的效率造成极大影响，使得实时绘制的流畅度大大降低。

发明内容

本发明的实施例提供了一种图像处理方法和装置，能够保证图像浏览的完整性的同时，提高图像浏览的速度。

第一方面，提供了一种方法，该方法包括：获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。

结合第一方面，在第一方面的第一种可能的实现方式中，根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧，包括：获取浏览视角与多个视频帧的采集视角之间的位置关系；根据位置关系，从多个视频帧中选择目标视频帧；将目标视频帧和目标视频帧的补全视频帧的像素映射至浏览视角下；利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，根据位置关系，从多个视频帧中选择目标视频帧，包括：根据位置关系，从多个视频帧中选择目标视频帧，其中，在多个视频帧中，目标视频帧的采集视角与浏览视角差值最小的。

结合第一方面、第一方面的第一种或第二种可能的实现方式，在第一方面的第三种可能的实现方式中，根据所确定的多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图，包括：从多个视频帧中确定待补全帧以及待补全帧的多个投影帧，待补全帧为多个视频帧的任一帧，多个投影帧包括待补全帧中的背景缺失区域；确定待补全帧的深度图与每个投影帧的深度图之间的像素映射关系；根据多个像素映射关系，利用多个投影帧对待补全帧进行补全，得到补全帧以及补全帧的深度图，其中，待补全帧的第一像素对应于每个投影帧的第二像素，当第一像素与第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有第二像素的颜色通道值和深度通道值，当第一像素与第二像素之间的深度差不大于预设阈值时，设置补全帧的像素具有第一像素的颜色通道值和深度通道值，补全帧的深度图与补全帧之间的对应像素具有相同的深度通道值。

结合第一方面、第一方面的第一种至第三种中的任一种可能的实现方式，在第一方面的第四种可能的实现方式中，

在根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图之后，还包括：根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，该方法还包括：在目标视频帧中，确定第一像素窗口，第一像素窗口包括目标像素，第一像素窗口的宽度大于两个像素宽度，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，其中前景像素的深度小于背景像素的深度，当多个像素中属于前景像素的像素不在补全区域中时，将像素确定为补全扩充区域的像素，补全扩充区域包括补全区域，根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，对目标视频帧进行高斯模糊，包括：对补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，包括：确定每个像素与目标像素之间的深度差，得到与多个像素对应的多个深度差，对多个深度差进行从小到大或从大到小排序，根据排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；将增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，确定每个像素属于前景像素或背景像素，其中前景像素对应的深度差小于临界像素对应的深度差，背景像素对应的深度差大于临界像素对应的深度差。

结合第一方面、第一方面的第一种至第六种中的任一种可能的实现方式，在第一方面的第七种可能的实现方式中，在获取多个视频帧之后，该方法还包括：确定多个视频帧之间对应的多个初始特征像素，多个初始特征像素是根据多个视频帧的像素亮度梯度确定的；根据约束条件，从多个初始特征像素中，确定多个最终特征像素，约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，第二像素窗口的宽度大于一个像素宽度；根据多个视频帧之间的对应像素点，确定每个视频帧的深度图，包括：根据多个最终特征像素，确定每个视频帧对应的摄像机参数以及多个最终特征像素的位置信息；根据多个最终特征像素的位置信息，以及每个视频帧对应的摄像机参数，确定每个视频帧的多个最终特征像素的深度；通过像素间相似性计算，根据每个视频帧的多个最终特征像素的深度，确定每个视频帧的稠密深度图；对每个视频帧的稠密深度图进行平面拟合处理；对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

结合第一方面、第一方面的第一种至第七种中的任一种可能的实现方式，在第一方面的第八种可能的实现方式中，在根据多个视频帧之间的对应像素点，确定每个视频帧的深度图之前，该方法还包括：确定多个视频帧之间的对应像素点，根据对应像素点，确定每个视频帧的摄像机参数；根据每个视频帧的摄像机参数以及多个视频帧的对应像素点的位置信息，建立球面坐标系，在以球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，根据浏览视点的位置信息确定指定浏览视角。

第二方面，提供了一种装置，该装置包括：第一获取模块，获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；第一确定模块，根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；补全模块，根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；第一生成模块，根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；第二生成模块，根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。

结合第二方面，在第二方面的第一种可能的实现方式中，第二生成模块具体用于：获取浏览视角与多个视频帧的采集视角之间的位置关系；根据位置关系，从多个视频帧中选择目标视频帧；将目标视频帧和目标视频帧的补全视频帧的像素映射至浏览视角下；利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，第二生成模块具体用于：根据位置关系，从多个视频帧中选择目标视频帧，其中，在多个视频帧中，目标视频帧的采集视角与浏览视角差值最小的。

结合第二方面、第二方面的第一种或第二种可能的实现方式，在第二方面的第三种可能的实现方式中，补全模块具体用于：从多个视频帧中确定待补全帧以及待补全帧的多个投影帧，待补全帧为多个视频帧的任一帧，多个投影帧包括待补全帧中的背景缺失区域；确定待补全帧的深度图与每个投影帧的深度图之间的像素映射关系；根据多个像素映射关系，利用多个投影帧对待补全帧进行补全，得到补全帧以及补全帧的深度图，其中，待补全帧的第一像素对应于每个投影帧的第二像素，当第一像素与第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有第二像素的颜色通道值和深度通道值，当第一像素与第二像素之间的深度差不大于预设阈值时，设置补全帧的像素具有第一像素的颜色通道值和深度通道值，补全帧的深度图与补全帧之间的对应像素具有相同的深度通道值。

结合第二方面、第二方面的第一种至第三种中的任一种可能的实现方式，在第二方面的第四种可能的实现方式中，该装置还包括：高斯模糊模块，在根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图之后，根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

结合第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，该装置还包括：第二确定模块，在目标视频帧中，确定第一像素窗口，第一像素窗口包括目标像素，第一像素窗口的宽度大于两个像素宽度，第三确定模块，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，其中前景像素的深度小于背景像素的深度，当多个像素中属于前景像素的像素不在补全区域中时，将像素确定为补全扩充区域的像素，补全扩充区域包括补全区域，高斯模糊模块具体用于对补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，第三确定模块具体用于：确定每个像素与目标像素之间的深度差，得到与多个像素对应的多个深度差，对多个深度差进行从小到大或从大到小排序，根据排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；将增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，确定每个像素属于前景像素或背景像素，其中前景像素对应的深度差小于临界像素对应的深度差，背景像素对应的深度差大于临界像素对应的深度差。

结合第二方面、第二方面的第一种至第六种中的任一种可能的实现方式，在第二方面的第七种可能的实现方式中，该装置还包括：第四确定模块，在获取多个视频帧之后，确定多个视频帧之间对应的多个初始特征像素，多个初始特征像素是根据多个视频帧的像素亮度梯度确定的；第五确定模块，根据约束条件，从多个初始特征像素中，确定多个最终特征像素，约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，第二像素窗口的宽度大于一个像素宽度；第一确定模块具体用于：根据多个最终特征像素，确定每个视频帧对应的摄像机参数以及多个最终特征像素的位置信息；根据多个最终特征像素的位置信息，以及每个视频帧对应的摄像机参数，确定每个视频帧的多个最终特征像素的深度；通过像素间相似性计算，根据每个视频帧的多个最终特征像素的深度，确定每个视频帧的稠密深度图；对每个视频帧的稠密深度图进行平面拟合处理；对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

结合第二方面、第二方面的第一种至第七种中的任一种可能的实现方式，在第二方面的第八种可能的实现方式中，该装置还包括：第六确定模块，在根据多个视频帧之间的对应像素点，确定每个视频帧的深度图之前，确定多个视频帧之间的对应像素点，第七确定模块，根据对应像素点，确定每个视频帧的摄像机参数；建立模块，根据每个视频帧的摄像机参数以及多个视频帧的对应像素点的位置信息，建立球面坐标系，第二获取模块，在以球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，第八确定模块，根据浏览视点的位置信息确定指定浏览视角。

本发明的实施例能够对视频帧的背景缺失区域进行补全，再根据补全视频帧生成指定浏览视角下的浏览帧。由于在生成浏览帧之前对视频帧图像进行了补全，因此保证图像浏览的完整性的同时，提高了图像浏览的速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明的一个实施例的图像处理方法的示意性流程图。

图2是根据本发明的另一实施例的颜色矫正方法的示意图。

图3是根据本发明的又一实施例的掩膜扩充前后的图像截图。

图4是根据本发明的又一实施例的图像处理方法的图像截图。

图5是根据本发明的另一实施例的图像处理装置的示意性结构图。

图6是根据本发明的另一实施例的图像处理装置的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1是根据本发明的一个实施例的图像处理方法的示意性流程图。图1的方法100由图像处理装置来执行，包括：

110、获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；

120、根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；

130、根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；

140、根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；

150、根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。

应理解，本发明实施例提供的一种图像处理方法可以应用到二维转三维，图像视频补全等领域，多个视频帧之间的对应像素点可以是每个视频帧中对应于世界坐标系下的多个特征点的多个特征像素，其中每个视频帧的多个特征像素之间具有映射关系，多个特征点可以是基于SIFT或其他方式确定的；也可以是其他的能建立多个视频帧之间的部分像素的关系的对应像素点。本发明的实施例对此不作限定。还应理解，根据补全处理的结果设定的阿尔法通道值，可以是根据补全的部分设定的阿尔法通道值，例如，在与补全部分对应的视频帧内的部分设定阿尔法通道值为1，视频帧的其他部分设定阿尔法通道值为0。或者在补全部分的边界部分设定0到1之间的阿尔法通道值。

根据本发明的实施例，根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧，包括：获取浏览视角与多个视频帧的采集视角之间的位置关系；根据位置关系，从多个视频帧中选择目标视频帧；将目标视频帧和目标视频帧的补全视频帧的像素映射至浏览视角下；利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧。

应理解，获取浏览视角与多个视频帧的采集视角之间的位置关系，可以是，浏览视角对应的摄像机参数与采集视角对应的摄像机参数的关系，不同的视频帧具有不同的采集视角，摄像机参数可以通过多个视频帧之间的对应像素点来获取。摄像机参数可以包括摄像机内参和采集视频帧处的摄像机外参。文中的位置关系，可以是所有像素的三维位置关系，也可以是建立部分的像素的三维位置关系，然后再基于部分像素建立三维网络之间的位置映射关系，其中该映射关系包括目标视频帧与浏览帧的位置映射关系，目标补全帧与浏览帧的位置映射关系。阿尔法图与浏览帧之间的位置映射关系与目标视频帧与浏览帧之间的位置映射关系相同。利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧，可以根据位置映射关系，将设置浏览帧的各个像素的颜色通道值，深度通道值等。由于浏览帧是根据浏览视角与多个视频帧的采集视角之间的位置关系生成的，因此有限的角度下的映射保证了较好的效果，避免了映射过程中造成的图像的模糊或扭曲等现象。

根据本发明的实施例，根据位置关系，从多个视频帧中选择目标视频帧，包括：根据位置关系，从多个视频帧中选择目标视频帧，其中，在多个视频帧中，目标视频帧的采集视角与浏览视角差值最小的。

例如，可以通过浏览视角对应的摄像机参数和采集视角对应的摄像机参数来确定该视角差。浏览视角与视频帧的采集视角的差最小，可以在生成浏览帧时保证图像的清晰度。

根据本发明的实施例，根据所确定的多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图，包括：从多个视频帧中确定待补全帧以及待补全帧的多个投影帧，待补全帧为多个视频帧的任一帧，多个投影帧包括待补全帧中的背景缺失区域；确定待补全帧的深度图与每个投影帧的深度图之间的像素映射关系；根据多个像素映射关系，利用多个投影帧对待补全帧进行补全，得到补全帧以及补全帧的深度图，其中，待补全帧的第一像素对应于每个投影帧的第二像素，当第一像素与第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有第二像素的颜色通道值和深度通道值，当第一像素与第二像素之间的深度差不大于预设阈值时，设置补全帧的像素具有第一像素的颜色通道值和深度通道值，补全帧的深度图与补全帧之间的对应像素具有相同的深度通道值。

应理解，确定该多个视频帧的多个补全视频帧，可以采用迭代的方式来进行，例如，该多个投影帧以及待补全帧的帧号差大于1，作为优选的实施例，帧号差为10。进行迭代时，可以利用该多个投影帧对待补全帧进行补全，然后将补全后的补全帧作为投影帧继续对多个投影帧中的其他帧来进行补全。或者，利用该多个投影帧迭代地对待补全帧进行补全，换句话说，多个投影帧之间可以进行迭代的补全，然后可以将该迭代过程的中间的补全结果作为投影帧对待补全帧进行补全。本发明的实施例对具体迭代的方式不作限定。由于预设了基于深度的阈值，使得可以在深度图的基础上进行简洁的补全处理，有效地提高了计算效率。

还应理解，该多个视频帧可以是根据摄像机的采集视角范围获取的，其中采集该多个视频帧的视角在采集视角范围内，这样可以使得只需对满足该范围的多个视频帧进行补全，因此减少了补全时的计算量。

可选地，作为另一实施例，该方法还包括：对多个补全视频帧中的每个补全视频帧进行颜色矫正。应理解，由于光照条件的变化，投影结果的颜色和非投影区域的颜色存在差异，不同投影源所得到的投影结果之间也存在颜色差异，因此会造成视觉上的缝隙，需要进行颜色矫正。图2是根据本发明的另一实施例的颜色矫正方法的示意图。例如，使用泊松图像编辑(Poisson Image Editing)方法对投影结果进行颜色矫正，在图2中，使不同的区域的像素满足一定的约束条件，例如，使得边界像素等于原值不变，不同区域之间的梯度为零，相同区域之间的梯度相等，其中不同的区域来自于不同的投影帧。通过这种方式可以使补全帧各个部分的纹理和颜色保持一致。

可选地，作为另一实施例，在根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图之后，该方法还包括：根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

由于对补全区域的边界进行高斯模糊，使图像的视觉效果更接近与真实场景。

可选地，作为另一实施例，该方法还包括：在目标视频帧中，确定第一像素窗口，第一像素窗口包括目标像素，第一像素窗口的宽度大于两个像素宽度，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，其中前景像素的深度小于背景像素的深度，当多个像素中属于前景像素的像素不在补全区域中时，将像素确定为补全扩充区域的像素，补全扩充区域包括补全区域，根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，对目标视频帧进行高斯模糊，包括：对补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

具体地，图3是根据本发明的又一实施例的掩膜扩充前后的图像截图。在图3的左侧图中，本该是连续的部分由于采用常规的高斯模糊处理，形成了深度断层，解决该问题可以采用局部高斯滤波的方式以实现掩膜的扩充，形成补全扩充区域。例如，对每一个像素p，在其周围取11*11的窗口，对其中所有的像素q，计算与像素p的深度差，得到数组{|D_p-D_q|}，然后对数组进行排序，计算排序后递增序列的增幅，取增幅最大处进行截断。如果窗口内同时存在前景和背景像素，则由于深度存在跳变，增幅最大处一定是两类像素的分界面。由此可以把与像素p深度差较大(不属于同一层)的像素剔除掉。然后对剩余像素统计掩膜值，若存在掩膜标记为遮挡区域的像素，则将像素p也设置为遮挡区域。最后对扩充后的掩膜进行高斯滤波，高斯核取11*11的窗口，σ取值为5，设定阿尔法通道值。采用深度差排序的方式可以更精确地确定临界像素，从而更加精确地处理图像。换句话说，对于深度接近的实际对象中由于补全处理而使实际对象的部分被补全时，高斯模糊会使实际对象出现断层的现象，通过对补全扩充区域进行高斯模糊，会使深度差较大处的视觉效果更接近于真实场景，使得对深度接近或连续的部分的模糊在视觉上不会被察觉。

根据本发明的实施例，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，包括：确定每个像素与目标像素之间的深度差，得到与多个像素对应的多个深度差，对多个深度差进行从小到大或从大到小排序，根据排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；将增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，确定每个像素属于前景像素或背景像素，其中前景像素对应的深度差小于临界像素对应的深度差，背景像素对应的深度差大于临界像素对应的深度差。

可选地，作为另一实施例，在获取多个视频帧之后，该方法还包括：确定多个视频帧之间对应的多个初始特征像素，多个初始特征像素是根据多个视频帧的像素亮度梯度确定的；根据约束条件，从多个初始特征像素中，确定多个最终特征像素，约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，第二像素窗口的宽度大于一个像素宽度；根据多个视频帧之间的对应像素点，确定每个视频帧的深度图，包括：根据多个最终特征像素，确定每个视频帧对应的摄像机参数以及多个最终特征像素的位置信息；根据多个最终特征像素的位置信息，以及每个视频帧对应的摄像机参数，确定每个视频帧的多个最终特征像素的深度；通过像素间相似性计算，根据每个视频帧的多个最终特征像素的深度，确定每个视频帧的稠密深度图；对每个视频帧的稠密深度图进行平面拟合处理；对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

应理解，第二像素窗口的宽度可以是三个像素宽度或大于三个像素宽度。由于采用了约束条件，因此进行深度恢复时，减少了计算量。另外，平面拟合处理减少了图像由于深度的误差在视觉上产生的分层现象，时空一致性处理，使得不同的视频中对于同一对象的深度上的连续性，在视频帧连续播放时保证了时空一致性。

换句话说，快速深度恢复先检测出图像中特征比较明显一系列点，然后对这些稀疏的采样点进行深度恢复，剩余点的深度由这些稀疏点的深度扩散得到。利用稀疏点的深度进行平面拟合来消除深度扩散造成的深度的“分层”效果，另外利用快速集束优化加强深度的时空一致性。由于计算的点变少，大大节省了计算量，加快了数据处理的速度。

可选地，作为另一实施例，在根据多个视频帧之间的对应像素点，确定每个视频帧的深度图之前，该方法还包括：确定多个视频帧之间的对应像素点，根据对应像素点，确定每个视频帧的摄像机参数；根据每个视频帧的摄像机参数以及多个视频帧的对应像素点的位置信息，建立球面坐标系，在以球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，根据浏览视点的位置信息确定指定浏览视角。

由于建立了球面坐标系使得在与用户交互时，用户可以直观精准地定为观察视点，提高了用户体验。

根据本发明的实施例，多个视频帧的对应像素点的位置信息为多个特征点中每个特征点在世界坐标系下的三维坐标，根据每个视频帧的摄像机参数信息以及多个视频帧的对应像素点的位置信息，建立球面坐标系，包括：确定多个视频帧中的每个视频帧的中心窗口，根据多个视频帧中的多个中心窗口以及每个特征点的三维坐标，确定多个特征点中的部分特征点，其中，部分特征点在多个视频帧中每个视频帧上的投影在每个视频帧的中心窗口内，将部分特征点的多个三维坐标，按每个维度取平均值，得到球面坐标系的原点坐标，并将多个视频帧对应的摄像机的纵向取平均值，作为球面坐标系的纵轴方向；将多个视频帧对应的摄像机的图像采集角度的平均值作为球面坐标系的竖轴近似方向；将竖轴近似方向的向量与纵轴方向的向量的外积向量作为球面坐标系的横轴方向，将横轴方向的向量与纵轴方向的向量的外积向量作为球面坐标系的竖轴方向。

图4是根据本发明的又一实施例的图像处理方法的图像截图。图4直观地示出了预处理过程和实时浏览过程每个阶段的图像处理情况。

图5是根据本发明的另一实施例的图像处理装置的示意性结构图。图5的图像处理装置500与图1的方法相对应，包括：

第一获取模块510，获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；

第一确定模块520，根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；

补全模块530，根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；

第一生成模块540，根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；

第二生成模块550，根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。

应理解，图像处理装置可以是各种硬件设备，包括移动终端，例如手机、平板电脑、笔记本电脑、UMPC(Ultra-mobile Personal Computer，超级移动个人计算机)、上网本、PDA(Personal Digital Assistant，个人数字助理)等终端设备等。

根据本发明的实施例，第二生成模块具体用于：获取浏览视角与多个视频帧的采集视角之间的位置关系；根据位置关系，从多个视频帧中选择目标视频帧；将目标视频帧和目标视频帧的补全视频帧的像素映射至浏览视角下；利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧。

根据本发明的实施例，第二生成模块具体用于：根据位置关系，从多个视频帧中选择目标视频帧，其中，在多个视频帧中，目标视频帧的采集视角与浏览视角差值最小的。

根据本发明的实施例，补全模块具体用于：从多个视频帧中确定待补全帧以及待补全帧的多个投影帧，待补全帧为多个视频帧的任一帧，多个投影帧包括待补全帧中的背景缺失区域；确定待补全帧的深度图与每个投影帧的深度图之间的像素映射关系；根据多个像素映射关系，利用多个投影帧对待补全帧进行补全，得到补全帧以及补全帧的深度图，其中，待补全帧的第一像素对应于每个投影帧的第二像素，当第一像素与第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有第二像素的颜色通道值和深度通道值，当第一像素与第二像素之间的深度差不大于预设阈值时，设置补全帧的像素具有第一像素的颜色通道值和深度通道值，补全帧的深度图与补全帧之间的对应像素具有相同的深度通道值。

可选地，作为另一实施例，该装置还包括：高斯模糊模块，在根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图之后，根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

可选地，作为另一实施例，该装置还包括：第二确定模块，在目标视频帧中，确定第一像素窗口，第一像素窗口包括目标像素，第一像素窗口的宽度大于两个像素宽度，第三确定模块，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，其中前景像素的深度小于背景像素的深度，当多个像素中属于前景像素的像素不在补全区域中时，将像素确定为补全扩充区域的像素，补全扩充区域包括补全区域，高斯模糊模块具体用于对补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

根据本发明的实施例，第三确定模块具体用于：确定每个像素与目标像素之间的深度差，得到与多个像素对应的多个深度差，对多个深度差进行从小到大或从大到小排序，根据排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；将增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，确定每个像素属于前景像素或背景像素，其中前景像素对应的深度差小于临界像素对应的深度差，背景像素对应的深度差大于临界像素对应的深度差。

可选地，作为另一实施例，该装置还包括：第四确定模块，在获取多个视频帧之后，确定多个视频帧之间对应的多个初始特征像素，多个初始特征像素是根据多个视频帧的像素亮度梯度确定的；第五确定模块，根据约束条件，从多个初始特征像素中，确定多个最终特征像素，约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，第二像素窗口的宽度大于一个像素宽度；第一确定模块具体用于：根据多个最终特征像素，确定每个视频帧对应的摄像机参数以及多个最终特征像素的位置信息；根据多个最终特征像素的位置信息，以及每个视频帧对应的摄像机参数，确定每个视频帧的多个最终特征像素的深度；通过像素间相似性计算，根据每个视频帧的多个最终特征像素的深度，确定每个视频帧的稠密深度图；对每个视频帧的稠密深度图进行平面拟合处理；对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

可选地，作为另一实施例，该装置还包括：第六确定模块，在根据多个视频帧之间的对应像素点，确定每个视频帧的深度图之前，确定多个视频帧之间的对应像素点，第七确定模块，根据对应像素点，确定每个视频帧的摄像机参数；建立模块，根据每个视频帧的摄像机参数以及多个视频帧的对应像素点的位置信息，建立球面坐标系，第二获取模块，在以球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，第八确定模块，根据浏览视点的位置信息确定指定浏览视角。

图5的各模块的执行的操作参照图1的方法，此处不再赘述。

图6是根据本发明的另一实施例的图像处理装置的示意性结构图。图的图像处理装置600对应与图1的方法，包括：存储器610，用于存储程序；处理器620，用于执行程序，当所述程序被执行时，所述处理器620用于获取多个视频帧，多个视频帧是从不同角度对同一场景采集得到的；根据多个视频帧之间的对应像素点，确定每个视频帧的深度图；根据多个视频帧的深度图，对多个视频帧的背景缺失区域进行补全，得到多个视频帧的补全视频帧以及多个补全视频帧的深度图；根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图；根据多个视频帧、多个视频帧的补全视频帧，以及多个视频的阿尔法图，生成指定浏览视角下的浏览帧。

根据本发明的实施例，处理器具体用于：获取浏览视角与多个视频帧的采集视角之间的位置关系；根据位置关系，从多个视频帧中选择目标视频帧；将目标视频帧和目标视频帧的补全视频帧的像素映射至浏览视角下；利用目标视频帧的阿尔法图，对映射至浏览视角下的像素进行混合，生成浏览帧。

根据本发明的实施例，处理器具体用于：根据位置关系，从多个视频帧中选择目标视频帧，其中，在多个视频帧中，目标视频帧的采集视角与浏览视角差值最小的。

根据本发明的实施例，处理器具体用于：从多个视频帧中确定待补全帧以及待补全帧的多个投影帧，待补全帧为多个视频帧的任一帧，多个投影帧包括待补全帧中的背景缺失区域；确定待补全帧的深度图与每个投影帧的深度图之间的像素映射关系；根据多个像素映射关系，利用多个投影帧对待补全帧进行补全，得到补全帧以及补全帧的深度图，其中，待补全帧的第一像素对应于每个投影帧的第二像素，当第一像素与第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有第二像素的颜色通道值和深度通道值，当第一像素与第二像素之间的深度差不大于预设阈值时，设置补全帧的像素具有第一像素的颜色通道值和深度通道值，补全帧的深度图与补全帧之间的对应像素具有相同的深度通道值。

根据本发明的实施例，处理器还用于：在根据多个视频帧中每个视频帧与每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成每个视频帧的阿尔法图之后，根据遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

根据本发明的实施例，处理器还用于：在目标视频帧中，确定第一像素窗口，第一像素窗口包括目标像素，第一像素窗口的宽度大于两个像素宽度，从第一像素窗口内的多个像素中，确定多个像素中每个像素属于前景像素或背景像素，其中前景像素的深度小于背景像素的深度，当多个像素中属于前景像素的像素不在补全区域中时，将像素确定为补全扩充区域的像素，补全扩充区域包括补全区域，处理器具体用于：对补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

根据本发明的实施例，处理器具体用于：确定每个像素与目标像素之间的深度差，得到与多个像素对应的多个深度差，对多个深度差进行从小到大或从大到小排序，根据排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；将增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，确定每个像素属于前景像素或背景像素，其中前景像素对应的深度差小于临界像素对应的深度差，背景像素对应的深度差大于临界像素对应的深度差。

根据本发明的实施例，处理器还用于：在获取多个视频帧之后，确定多个视频帧之间对应的多个初始特征像素，多个初始特征像素是根据多个视频帧的像素亮度梯度确定的；根据约束条件，从多个初始特征像素中，确定多个最终特征像素，约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，第二像素窗口的宽度大于一个像素宽度；处理器具体用于：根据多个最终特征像素，确定每个视频帧对应的摄像机参数以及多个最终特征像素的位置信息；根据多个最终特征像素的位置信息，以及每个视频帧对应的摄像机参数，确定每个视频帧的多个最终特征像素的深度；通过像素间相似性计算，根据每个视频帧的多个最终特征像素的深度，确定每个视频帧的稠密深度图；对每个视频帧的稠密深度图进行平面拟合处理；对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

根据本发明的实施例，处理器具体用于：在根据多个视频帧之间的对应像素点，确定每个视频帧的深度图之前，确定多个视频帧之间的对应像素点，根据对应像素点，确定每个视频帧的摄像机参数；根据每个视频帧的摄像机参数以及多个视频帧的对应像素点的位置信息，建立球面坐标系，在以球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，根据浏览视点的位置信息确定指定浏览视角。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

获取多个视频帧，所述多个视频帧是从不同角度对同一场景采集得到的；

根据所述多个视频帧之间的对应像素点，确定所述每个视频帧的深度图；

根据所述多个视频帧的深度图，对所述多个视频帧的背景缺失区域进行补全，得到所述多个视频帧的补全视频帧以及所述多个补全视频帧的深度图；

根据所述多个视频帧中每个视频帧与所述每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成所述每个视频帧的阿尔法图；

根据所述多个视频帧、所述多个视频帧的补全视频帧，以及所述多个视频的阿尔法图，生成指定浏览视角下的浏览帧；

其中，所述根据所述多个视频帧、所述多个视频帧的补全视频帧，以及所述多个视频的阿尔法图，生成指定浏览视角下的浏览帧，包括：

获取所述浏览视角与所述多个视频帧的采集视角之间的位置关系；

根据所述位置关系，从所述多个视频帧中选择目标视频帧；

将所述目标视频帧和所述目标视频帧的补全视频帧的像素映射至所述浏览视角下；

利用所述目标视频帧的阿尔法图，对映射至所述浏览视角下的像素进行混合，生成所述浏览帧。

2.根据权利要求1所述的方法，其特征在于，所述根据所述位置关系，从所述多个视频帧中选择目标视频帧，包括：

根据所述位置关系，从所述多个视频帧中选择目标视频帧，其中，在所述多个视频帧中，所述目标视频帧的采集视角与所述浏览视角差值最小的。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所确定的所述多个视频帧的深度图，对所述多个视频帧的背景缺失区域进行补全，得到所述多个视频帧的补全视频帧以及所述多个补全视频帧的深度图，包括：

从所述多个视频帧中确定待补全帧以及所述待补全帧的多个投影帧，所述待补全帧为所述多个视频帧的任一帧，所述多个投影帧包括所述待补全帧中的背景缺失区域；

确定所述待补全帧的深度图与所述每个投影帧的深度图之间的像素映射关系；

根据多个像素映射关系，利用所述多个投影帧对所述待补全帧进行补全，得到所述补全帧以及所述补全帧的深度图，其中，所述待补全帧的第一像素对应于所述每个投影帧的第二像素，当所述第一像素与所述第二像素之间的深度差大于预设阈值时，设置补全帧的像素具有所述第二像素的颜色通道值和深度通道值，

当所述第一像素与所述第二像素之间的深度差不大于所述预设阈值时，设置所述补全帧的像素具有所述第一像素的颜色通道值和深度通道值，所述补全帧的深度图与所述补全帧之间的对应像素具有相同的深度通道值。

4.根据权利要求1或2所述的方法，其特征在于，在所述根据所述多个视频帧中每个视频帧与所述每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成所述每个视频帧的阿尔法图之后，还包括：

根据所述遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

5.根据权利要求4所述的方法，其特征在于，还包括：

在所述目标视频帧中，确定第一像素窗口，所述第一像素窗口包括目标像素，所述第一像素窗口的宽度大于两个像素宽度，

从所述第一像素窗口内的多个像素中，确定所述多个像素中每个像素属于前景像素或背景像素，其中所述前景像素的深度小于所述背景像素的深度，

当所述多个像素中属于所述前景像素的像素不在所述补全区域中时，将所述像素确定为补全扩充区域的像素，所述补全扩充区域包括所述补全区域，

所述根据所述遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，对所述目标视频帧进行高斯模糊，包括：

对所述补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

6.根据权利要求5所述的方法，其特征在于，所述从所述第一像素窗口内的多个像素中，确定所述多个像素中每个像素属于前景像素或背景像素，包括：

确定每个像素与所述目标像素之间的深度差，得到与多个像素对应的多个深度差，

对所述多个深度差进行从小到大或从大到小排序，

根据所述排序中相邻的两个深度差之间的增幅，确定增幅最大处的深度差；

将所述增幅最大处的深度差对应的像素确定为前景像素与背景像素之间的临界像素，

确定每个像素属于前景像素或背景像素，其中所述前景像素对应的深度差小于所述临界像素对应的深度差，所述背景像素对应的深度差大于所述临界像素对应的深度差。

7.根据权利要求1或2所述的方法，其特征在于，在所述获取多个视频帧之后，所述方法还包括：

确定所述多个视频帧之间对应的多个初始特征像素，所述多个初始特征像素是根据所述多个视频帧的像素亮度梯度确定的；

根据约束条件，从多个初始特征像素中，确定多个最终特征像素，所述约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，所述第二像素窗口的宽度大于一个像素宽度；

所述根据所述多个视频帧之间的对应像素点，确定所述每个视频帧的深度图，包括：

根据所述多个最终特征像素，确定每个视频帧对应的摄像机参数以及所述多个最终特征像素的位置信息；

根据所述多个最终特征像素的位置信息，以及所述每个视频帧对应的摄像机参数，确定所述每个视频帧的多个最终特征像素的深度；

通过像素间相似性计算，根据所述每个视频帧的多个最终特征像素的深度，确定所述每个视频帧的稠密深度图；

对所述每个视频帧的稠密深度图进行平面拟合处理；

对进行平面拟合处理后的多个稠密深度图进行时空一致性处理，得到多个视频帧的多个深度图。

8.根据权利要求1或2所述的方法，其特征在于，在所述根据所述多个视频帧之间的对应像素点，确定所述每个视频帧的深度图之前，所述方法还包括：

确定所述多个视频帧之间的对应像素点，

根据所述对应像素点，确定所述每个视频帧的摄像机参数；

根据所述每个视频帧的摄像机参数以及所述多个视频帧的对应像素点的位置信息，建立球面坐标系，

在以所述球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，

根据所述浏览视点的位置信息确定所述指定浏览视角。

9.一种图像处理装置，其特征在于，包括：

第一获取模块，获取多个视频帧，所述多个视频帧是从不同角度对同一场景采集得到的；

第一确定模块，根据所述多个视频帧之间的对应像素点，确定所述每个视频帧的深度图；

补全模块，根据所述多个视频帧的深度图，对所述多个视频帧的背景缺失区域进行补全，得到所述多个视频帧的补全视频帧以及所述多个补全视频帧的深度图；

第一生成模块，根据所述多个视频帧中每个视频帧与所述每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成所述每个视频帧的阿尔法图；

第二生成模块，根据所述多个视频帧、所述多个视频帧的补全视频帧，以及所述多个视频的阿尔法图，生成指定浏览视角下的浏览帧；

其中，所述第二生成模块具体用于：

根据所述位置关系，从所述多个视频帧中选择目标视频帧；

10.根据权利要求9所述的装置，其特征在于，所述第二生成模块具体用于：

11.根据权利要求9或10所述的装置，其特征在于，所述补全模块具体用于：

12.根据权利要求9或10所述的装置，其特征在于，还包括：

高斯模糊模块，在所述根据所述多个视频帧中每个视频帧与所述每个视频帧的补全视频帧在背景缺失区域的遮挡关系，生成所述每个视频帧的阿尔法图之后，根据所述遮挡关系指示的补全区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

13.根据权利要求12所述的装置，其特征在于，还包括：

第二确定模块，在所述目标视频帧中，确定第一像素窗口，所述第一像素窗口包括目标像素，所述第一像素窗口的宽度大于两个像素宽度，

第三确定模块，从所述第一像素窗口内的多个像素中，确定所述多个像素中每个像素属于前景像素或背景像素，其中所述前景像素的深度小于所述背景像素的深度，

所述高斯模糊模块具体用于对所述补全扩充区域的边界，通过设定大于零小于一的阿尔法通道值，进行高斯模糊。

14.根据权利要求13所述的装置，其特征在于，所述第三确定模块具体用于：

对所述多个深度差进行从小到大或从大到小排序，

15.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

第四确定模块，在所述获取多个视频帧之后，确定所述多个视频帧之间对应的多个初始特征像素，所述多个初始特征像素是根据所述多个视频帧的像素亮度梯度确定的；

第五确定模块，根据约束条件，从多个初始特征像素中，确定多个最终特征像素，所述约束条件为在每个视频帧中，任意第二像素窗口内具有一个特征像素，所述第二像素窗口的宽度大于一个像素宽度；

所述第一确定模块具体用于：

对所述每个视频帧的稠密深度图进行平面拟合处理；

16.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

第六确定模块，在所述根据所述多个视频帧之间的对应像素点，确定所述每个视频帧的深度图之前，确定所述多个视频帧之间的对应像素点，

第七确定模块，根据所述对应像素点，确定所述每个视频帧的摄像机参数；

建立模块，根据所述每个视频帧的摄像机参数以及所述多个视频帧的对应像素点的位置信息，建立球面坐标系，

第二获取模块，在以所述球面坐标系的原点为球心的球面上，获取浏览视点的位置信息，

第八确定模块，根据所述浏览视点的位置信息确定所述指定浏览视角。