CN110660131B

CN110660131B - 一种基于深度背景建模的虚拟视点空洞填补方法

Info

Publication number: CN110660131B
Application number: CN201910906822.9A
Authority: CN
Inventors: 陈芬; 李壮壮; 汤锐彬; 彭宗举; 蒋刚毅
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-12-27
Anticipated expiration: 2039-09-24
Also published as: CN110660131A

Abstract

一种基于深度背景建模的虚拟视点空洞填补方法，包括：输入参考视点的深度视频和纹理视频；分别对参考视点的深度视频和纹理视频进行背景建模获取深度背景图和纹理背景图；使用三维映射方法分别对参考视点的深度视频、深度背景图、参考视点的纹理视频和纹理背景图进行映射，获取虚拟视点的深度视频、深度背景图、纹理视频和纹理背景图；最后，分别对虚拟视点的深度视频和深度背景图进行深度空洞填补；将虚拟视点的纹理背景图与虚拟视点的纹理视频进行融合，得到虚拟视点的纹理视频中每帧图像的融合图；对每帧融合图中的剩余空洞区域进行填补，获取虚拟视点的第一纹理视频。本方法克服了深度视频时间不一致的缺点，且填补之后的虚拟视点感知质量好。

Description

一种基于深度背景建模的虚拟视点空洞填补方法

技术领域

本发明涉及虚拟视点绘制中的空洞填补领域，特别涉及一种基于深度背景建模的虚拟视点空洞填补方法。

背景技术

随着计算机视觉和3D视频技术的蓬勃发展，多视点视频(MVV)和自由视点视频(FVV)技术应运而生，能让观看者自由地选择观看的位置与观看的角度方向。然而现阶段的技术无法保证连续并同步地捕获任意位置与角度的视点信息，并将如此大量的数据进行实时传输，因此需要利用有限的视点去合成虚拟视点。

FVV的核心是虚拟视点绘制技术，采用多视点加深度的视频格式(MVD)数据格式的基于深度图的绘制方法(DIBR)只需要利用几个甚至一个参考视点，即可绘制得到几乎任意目标位置的虚拟视点。DIBR的关键步骤是三维映射和空洞填补。

三维映射，它利用深度信息将参考视点的像素映射到真实三维空间，然后再根据相机参数和视点间的基线距离信息投影到目标虚拟视点。

经过三维映射后的图像中存在很多空洞，这是因为随着视点的切换，原始参考视点中前景遮挡的区域和画幅边缘的区域在目标虚拟视点中被暴露可见，且这部分信息无法从原始参考视点中获得；另外由于深度图质量不高和映射过程中的舍入误差等因素，在虚拟视点中也会生成裂纹空洞。空洞填补的质量直接影响主观视觉感知，不正确的填补将极大降低合成虚拟视点的感知质量，因此空洞填补十分重要。

通过调研现有空洞填补算法，常用的空洞填补算法有两种：预处理深度图和利用时空域信息填补。第一种方法的主要思想是平滑深度值突变区域如前景边缘区域，从而减小空洞尺寸。Zinger等人利用高斯滤波器平滑整个深度图的方法。但是仅适用于小基线场景下的虚拟视点绘制。第二种方法是利用时空域相关性来填补空洞。在空间域中，Criminisi提出了一种最佳优先的填补算法，像广播传播一样由空洞边缘区域往空洞中心区域迭代填补，每次都以最佳匹配块填补空洞。但是以上图像修复方法均有不同程度的模糊失真，特别是当景深(前景和背景之间的距离)相对较大时，空洞有很大的概率会被混合的前景和背景纹理填充。Ahn等人将深度图映射到虚拟视点，并使用Hessian矩阵结构张量用于填补优先级的计算。但当参考视点和虚拟视点间的基线距离较长时，此方法绘制的结果仍会遭受严重的视觉质量损失。Luo等人提出了一种基于前景去除的空洞填补方法，从纹理视频及其对应的深度视频中剔除前景，然后，对每一帧计算深度背景和纹理背景，最后用这些背景信息填补当前帧中的空洞。但是这些工作没有利用邻近帧的相关性。在时间域中，随着前景的运动，当前帧中被前景遮挡区域可能在其他帧中暴露可见，则利用背景信息即可有效填补运动前景周围的空洞，因此获得一个时域稳定的背景是此类方法的难点。Yao等人使用高斯混合模型(GMM)离线构建深度和纹理背景。Sun等人使用可切换高斯模型在线构建背景。Rahaman等人将GMM扩展到多视点视频的融合过程。但是，以上方法都是从概率的角度来构建背景，默认假设在时域中出现概率越大的即为背景，与实际应用中的部分场景相违背。另外由于深度图质量不佳，前景的边缘轮廓在时域上可能是不稳定的，此类方法构建的背景在这些区域中可能会产生一定的伪影，导致不自然的填补结果。

发明内容

本发明所要解决的技术问题是针对现有技术的现状，提供一种基于深度背景建模的虚拟视点空洞填补方法，有效地填补空洞，提高虚拟视点感知质量。

本发明解决上述技术问题所采用的技术方案为：一种基于深度背景建模的虚拟视点空洞填补方法，其特征在于包括以下步骤：

步骤1、输入参考视点的深度视频和纹理视频；

步骤2、对参考视点的深度视频进行深度背景建模获取深度背景图；

步骤3、根据深度背景图和参考视点的纹理视频进行纹理背景建模获取纹理背景图；

步骤4、使用三维映射方法分别对参考视点的深度视频、深度背景图、参考视点的纹理视频和纹理背景图进行映射，获取虚拟视点的深度视频、深度背景图、纹理视频和纹理背景图，且虚拟视点的深度视频、深度背景图、纹理视频和纹理背景图中均存有空洞；

步骤5、分别对虚拟视点的深度视频和深度背景图进行空洞填补，得到虚拟视点的第一深度视频和第一深度背景图；

其中，对虚拟视点的深度视频和深度背景图进行深度空洞填补的具体步骤如下：

步骤5-1、分别将虚拟视点的深度视频的每帧图像和虚拟视点的深度背景图中位于图像左边界的空洞，用该空洞右端点外的第一个有效深度值填补该空洞内的所有区域，即Dep_X(ξ,j)＝Dep_X(Index_right,j)；

Dep_X(i,j)表示虚拟视点的深度背景图和虚拟视点的深度视频的每帧图像中像素点(i,j)的深度值，1≤i≤w，1≤j≤h，w和h分别表示虚拟视点的深度背景图和虚拟视点的深度视频的每帧图像的宽和高；变量ξ表示在虚拟视点的深度背景图和虚拟视点的深度视频的每帧图像中第j行的空洞连续区域，Index_right为空洞右端点外的第一个有效像素点的横坐标；

步骤5-2、分别将虚拟视点的深度视频的每帧图像和虚拟视点的深度背景图中位于图像右边界的空洞，用该空洞左端点外的第一个有效深度值填补该空洞内的所有区域，即Dep_X(ξ,j)＝Dep_X(Index_left,j)；

Index_left为空洞左端点外的第一个有效像素点的横坐标；

步骤5-3、分别将虚拟视点的深度视频的每帧图像和虚拟视点的深度背景图中左、右两个端点均位于图像内部的空洞，用该空洞左端点和右端点外的第一个有效深度值中的较小深度值填补该空洞内的所有区域，即：

Dep_X(ξ,j)＝min(Dep_X(Index_left,j)，Dep_X(Index_right,j))；

步骤6、将虚拟视点的纹理背景图与虚拟视点的纹理视频进行融合，得到虚拟视点的纹理视频中每帧图像的融合图；

其中，融合的具体步骤为：

步骤6-1、建立与虚拟视点的纹理视频中每帧图像相对应的大小相同的融合图，其中每帧融合图中所有像素点的像素初始值均为0；

步骤6-2、分别对虚拟视点的纹理视频的每帧图像进行逐像素遍历，并对每帧融合图的像素点进行赋值：当虚拟视点的纹理视频的某帧图像中某个像素点不为空洞时，则将该像素点对应的像素值直接赋值给对应帧融合图中对应的像素点；当虚拟视点的纹理视频的某帧图像中某个像素点为空洞时，则通过比较第一深度视频的对应帧图像和第一深度背景图中的深度值来进行该帧融合图的赋值，该帧融合图记为Mer_Tex；

其中，T_Dep表示预设的深度背景阈值，WarpedBG_Tex(i,j)、WarpedBG_Dep(i,j)、Warped_Tex(i,j)和Warped_Dep(i,j)分别表示虚拟视点的纹理背景图中像素点(i,j)的像素值、第一深度背景图中像素点(i,j)的深度值、虚拟视点的纹理视频的对应帧图像中像素点(i,j)的像素值和第一深度视频的对应帧图像中像素点(i,j)的深度值；

步骤7、对步骤6中得到的每帧融合图中的剩余空洞区域进行填补，获取虚拟视点的第一纹理视频；

其中，对剩余空洞区域进行填补的具体步骤为：

步骤7-1、建立与参考视点的纹理视频帧数相同且每帧图像大小相同的虚拟视点纹理视频，且虚拟视点纹理视频的每帧图像中每个像素点的像素初始值均为0；

步骤7-2、遍历虚拟视点的纹理视频的每帧图像对应的融合图：

当虚拟视点的纹理视频的某帧图像对应的融合图中某个像素点为非空洞时，即：Mer_Tex(i,j)≠0，则将该帧融合图中该像素点的像素值直接赋值给虚拟视点的纹理视频对应帧中对应的像素点，即Virtual_Tex(i,j)＝Mer_Tex(i,j)；

当虚拟视点的纹理视频的某帧图像对应的融合图中某个像素点为空洞时，即：Mer_Tex(i,j)＝0，记录空洞的左右边缘分别为A_left和A_right；当Ax_left＝1时，则将该帧融合图的空洞右边缘外第一个有效像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内位置对应的所有像素点，即Virtual_Tex(ξ,j)＝Mer_Tex(Index_right,j)；当A_right＝w时，则将该帧融合图的空洞左边缘外第一个有效像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内所有像素点相位置对应的像素点，即Virtual_Tex(ξ,j)＝Mer_Tex(Index_left,j)；当A_left>1且A_right<w时，则比较该帧融合图的空洞左边缘和右边缘外的第一个有效像素值，把较小像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内所有像素点位置相对应的像素点，即：Virtual_Tex(ξ,j)＝min(Mer_Tex(Index_left,j)，Mer_Tex(Index_right,j))。

作为改进，所述步骤2中的深度背景图的获取方法包括以下步骤：

步骤2-1、从参考视点的深度视频中获取N帧视频帧，分别统计每个位置的像素点在所有视频帧中对应的深度值，并将每个位置的像素点对应的深度值分别组成时域直方图；

步骤2-2、判断时域直方图中的柱是否有且只有一个，如是，该位置的像素点为稳定像素点，将该柱对应的深度值作为该位置的背景深度值；如否，则转入步骤2-3；

步骤2-3、记录直方图中最高峰值的频次H，判断H/N是否大于T_unknow，T_unknow为预设的最大分割阈值，如是，则进入步骤2-4；如否，则该位置的像素点为非稳定像素，且将该位置的深度值设为0；

步骤2-4、从深度值从0值开始遍历直方图，判断是否存在频次大于等于N/T_noise的柱，如是，则记录第一个频次大于等于N/T_noise的柱，并将该柱对应的深度值作为该位置的背景深度值，其中，T_noise为预设的噪声阈值；如否，则该位置的像素点为非稳定像素，且将该位置的深度值设为0；

步骤2-5、将每个位置的背景深度值依次赋值给深度背景图中的相应位置，得到深度背景图。

进一步的，所述步骤3的具体步骤为：

步骤3-1、建立纹理背景池Pool(i,j)和累加池Sum(i,j)，其中，纹理背景池和累加池中每个像素点的初始值均为0；

步骤3-2、对参考视点的深度视频中某帧深度图像的每个像素点分别进行遍历，获取当前帧的深度背景掩模，其中，当前帧的深度背景掩模记为Mask(i,j)，计算公式为：

其中，BG_Dep(i,j)表示深度背景图BG_Dep中像素点(i,j)的深度值，Ref_Dep(i,j)表示参考视点的深度视频中当前帧深度图Ref_Dep中像素点(i,j)的深度值，T_BG表示预设的背景阈值；

步骤3-3、当Mask(i,j)等于1时，则对纹理背景池和累加池中该像素点对应的值进行计算，纹理背景池和累加池的计算公式为：

其中，Ref_Tex(i,j)表示参考视点的纹理视频的当前帧图像中像素点(i,j)的像素值；

步骤3-4、对参考视点的深度视频中所有帧深度图均进行步骤3-2和步骤3-3的遍历，得到纹理背景池和累加池中每个像素点的值；

步骤3-5、根据步骤3-4中得到的纹理背景池和累加池每个像素点的值计算纹理背景图BG_Tex中每个像素点的像素值，计算公式为：

与现有技术相比，本发明的优点在于：通过分别对参考视点的深度视频和纹理视频进行背景建模获取深度背景图和纹理背景图，克服了深度视频时间不一致的缺点，且通过将位于图像左/右边界的空洞，使用空洞右/左端点外的第一个有效深度值对虚拟视点的深度视频和虚拟视点的深度背景图进行深度空洞填补，使用正确的背景信息有效地填补了空洞，且剩余空洞区域也选择当前行最近邻的背景信息进行填补，因此与现有方法相比，能有效地避免了块效应，且在视频流中保持了良好的时域一致性，填补之后的虚拟视点感知质量好。

附图说明

图1为本发明实施例中虚拟视点空洞填补方法的原理框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示，一种基于深度背景建模的虚拟视点空洞填补方法包括以下步骤：

步骤1、输入参考视点的深度视频和纹理视频；

其中，从参考视点的深度视频中提取深度背景图的方法可以采用现有的方法，例如：可采用作者陈悦等发表的论文《基于背景提取和分区修复的DIBR空洞填补方法》中的背景深度图提取方法，也可采用如下的方法，本实施例中，深度背景图的获取方法包括以下步骤：

步骤2-1、从参考视点的深度视频中获取N帧视频帧，分别统计每个位置的像素点在所有视频帧中对应的深度值，并将每个位置的像素点对应的深度值分别组成时域直方图；其中，N为正整数；

步骤2-3、记录直方图中最高峰值的频次H，判断H/N是否大于T_unknow，T_unknow为预设的最大分割阈值，如是，则进入步骤2-4；如否，则该位置的像素点为非稳定像素，且将该位置的深度值设为0；本实施例中，T_unknow＝0.2，该步骤能使在排除非稳定像素的基础上使稳定像素的区域面积最大；

步骤2-4、从深度值从0值开始遍历直方图，判断是否存在频次大于等于N/T_noise的柱，如是，则记录第一个频次大于等于N/T_noise的柱，并将该柱对应的深度值作为该位置的背景深度值，其中，T_noise为预设的噪声阈值；如否，则该位置的像素点为非稳定像素，且将该位置的深度值设为0；本实施例中，T_noise＝8；

步骤2-5、将每个位置的背景深度值依次赋值给深度背景图中的相应位置，得到深度背景图；

其中，从参考视点的纹理视频中提取出纹理背景图的方法可以采用现有的方法，例如：可采用作者王奎等公开的论文《基于Kinect的实时深度提取与多视绘制算法》中的方法提取纹理背景图，也可采用如下的方法，本实施例中，纹理背景图的获取方法包括以下步骤：

其中，BG_Dep(i,j)表示深度背景图BG_Dep中像素点(i,j)的深度值，Ref_Dep(i,j)表示参考视点的深度视频中当前帧深度图Ref_Dep中像素点(i,j)的深度值，T_BG表示预设的背景阈值；本实施例中，T_BG＝5，能得到时域最为稳定的纹理背景，而且能最大程度减少将因邻近帧曝光差异而引入的误差影响；

步骤4、使用三维映射方法分别对参考视点的深度视频、深度背景图、参考视点的纹理视频和纹理背景图进行映射，获取虚拟视点的深度视频、深度背景图、纹理视频和纹理背景图，且虚拟视点的深度视频、深度背景图、纹理视频和纹理背景图中均存有空洞；其中，使用的三维映射方法为现有方法中比较常用的DIBR算法；

其中，深度空洞填补的具体步骤如下：

Index_left为空洞左端点外的第一个有效像素点的横坐标；

Dep_X(ξ,j)＝min(Dep_X(Index_left,j)，Dep_X(Index_right,j))；

其中，融合的具体步骤为：

其中，T_Dep表示预设的深度背景阈值，WarpedBG_Tex(i,j)、WarpedBG_Dep(i,j)、Warped_Tex(i,j)和Warped_Dep(i,j)分别表示虚拟视点的纹理背景图中像素点(i,j)的像素值、第一深度背景图中像素点(i,j)的深度值、虚拟视点的纹理视频的对应帧图像中像素点(i,j)的像素值和第一深度视频的对应帧图像中像素点(i,j)的深度值；本实施例中，T_Dep＝5；

步骤7、对步骤6中得到的每帧融合图中的剩余空洞区域进行填补，获取虚拟视点的第一纹理视频，且该第一纹理视频为空洞填补之后得到的虚拟视点最终的纹理视频；

其中，对剩余空洞区域进行填补的具体步骤为：

本发明方法中充分考虑了深度信息和纹理信息之间的关系，有效地获得深度和纹理背景，克服深度视频时间不一致的缺点；且充分考虑了深度信息，不仅可以正确地合并当前帧和背景，有效提升了感知质量，还具有良好的时域连续性，提高了虚拟视点图像的质量。

为了测试本发明方法的性能，分别采用基于图像的修复方法：Criminisi算法和Ahn算法；基于空间域的修复方法：VSRS算法和Luo算法；基于时间域的修复方法：Ya算法和采用本发明方法对序列“Book Arrival”、“Leave Laptop”、“LoveBird1”、“PoznanStreet”、“Dog”进行虚拟视点空洞填补。其上述的算法简要概述如下：Criminisi算法是基于是空洞区域周围的小匹配块来填补；Ahn算法在Criminisi算法的基础上进行改进的，结合深度信息来确定匹配块的优先级；VSRS算法是虚拟视点空洞填补的标准参考平台，利用空间域中的信息进行填补；Luo算法是通过剔除每一帧的前景来近似得到背景，并进一步用来填补当前帧的空洞；Yao算法是利用时域信息构建GMM背景模型来进行空洞填补。表1给出了测试序列的参数。

表1测试序列参数

表2给出了用以上几种算法对序列“Poznan Street”、“Book Arrival”、“LoveBird1”、“Dog”、“Leave Laptop”进行空洞填补后的客观质量评价指标PSNR和SSIM。PSNR是测量算法在绘制生成图像和参考图像之间的像素平方差；SSIM使测量算法在绘制生成图像和参考图像之间的结构相似性，两者都是值越大代表质量越好。各算法的实验对比客观指标如表2所示。为方便记录与对比，对表中“Test Sequence”列条目进行特殊命名：前两个大写字母是测试序列名称的首字母缩写，接下来的数字表示参考视点和虚拟视点。例如，“PS34”表示映射关系为“Poznan Street”序列的参考视点3映射到虚拟视点4。每项测试序列的最佳结果均以粗体突出显示。由表可见，对于大多数序列，本发明方法在结果上领先。而对于“Poznan Street”序列，因其背景的某些部分存在动态变化的现象，如树木随风摇曳等。对此部分计算的客观指标会因像素不匹配而较低，然而，该部分区域对主观感知的影响非常小，对这一部分的影响将在主观评价中详细解释。与VSRS参考平台相比，采用本发明方法的PSNR和SSIM指标平均增加1.84％和2.38％。

表2测试序列平均PSNR和SSIM指标

Claims

1.一种基于深度背景建模的虚拟视点空洞填补方法，其特征在于包括以下步骤：

步骤1、输入参考视点的深度视频和纹理视频；

步骤5-1、分别将虚拟视点的深度视频的每帧图像和虚拟视点的深度背景图中位于图像左边界的空洞，用该空洞右端点外的第一个有效深度值填补该空洞内的所有区域，即Dep_X(x,j)＝Dep_X(Index_right,j)；

步骤5-2、分别将虚拟视点的深度视频的每帧图像和虚拟视点的深度背景图中位于图像右边界的空洞，用该空洞左端点外的第一个有效深度值填补该空洞内的所有区域，即Dep_X(x,j)＝Dep_X(Index_left,j)；

Index_left为空洞左端点外的第一个有效像素点的横坐标；

Dep_X(x,j)＝min(Dep_X(Index_left,j)，Dep_X(Index_right,j))；

其中，融合的具体步骤为：

其中，对剩余空洞区域进行填补的具体步骤为：

当虚拟视点的纹理视频的某帧图像对应的融合图中某个像素点为空洞时，即：Mer_Tex(i,j)＝0，记录空洞的左右边缘分别为A_left和A_right；当Ax_left＝1时，则将该帧融合图的空洞右边缘外第一个有效像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内位置对应的所有像素点，即Virtual_Tex(x,j)＝Mer_Tex(Index_right,j)；当A_right＝w时，则将该帧融合图的空洞左边缘外第一个有效像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内所有像素点相位置对应的像素点，即Virtual_Tex(x,j)＝Mer_Tex(Index_left,j)；当A_left>1且A_right<w时，则比较该帧融合图的空洞左边缘和右边缘外的第一个有效像素值，把较小像素值赋值给虚拟视点的纹理视频对应帧中与该空洞内所有像素点位置相对应的像素点，即：Virtual_Tex(x,j)＝min(Mer_Tex(Index_left,j)，Mer_Tex(Index_right,j))。

2.根据权利要求1所述的基于深度背景建模的虚拟视点空洞填补方法，其特征在于：所述步骤2中的深度背景图的获取方法包括以下步骤：

3.根据权利要求1所述的基于深度背景建模的虚拟视点空洞填补方法，其特征在于：所述步骤3的具体步骤为：