CN103856777A

CN103856777A - 一种基于光场渲染的视频编解码方法

Info

Publication number: CN103856777A
Application number: CN201210512295.1A
Authority: CN
Inventors: 刘海亮; 杨艾琳; 罗笑南; 苏航; 陈湘萍; 王炫盛
Original assignee: Shenzhen Research Institute of Sun Yat Sen University
Current assignee: Shenzhen Research Institute of Sun Yat Sen University
Priority date: 2012-12-04
Filing date: 2012-12-04
Publication date: 2014-06-11

Abstract

本发明提供了一种基于光场渲染的视频编解码方法，包括步骤1：用TransCAIP方法计算新视点的起始帧；步骤2：结合高斯混合背景建模和场景几何计算，将场景分为背景区域和前景区域；步骤3：用高斯混合模型计算出视点1的当前帧的前景区域，利用场景几何关系将该区域变换成新视点当前帧的前景，并且利用高斯混合模型提取出新视点前一帧的前景区域，用新视点当前帧的前景区域更新新视点前一帧的前景区域，得到新视点的当前帧；步骤4：连续计算K-1次，在循环中统计前景区域点所在的层次分布；步骤5：若当循环的帧数超过K时，则根据统计的前景点分布自适应地划分场景层次；返回步骤1。本发明的方法使图像细节更清晰自然，渲染效果好，数据量大。

Description

一种基于光场渲染的视频编解码方法

技术领域

本发明涉视频编解码技术领域，尤其涉及一种基于光场渲染的视频编解码方法。

背景技术

传统的视频技术都是由一个摄像机拍摄的，称为单通道视频，观看者只能获得方向的观看角度，并且无法获得立体效果。随着生活水平的提高，人们越来越不满足现有的平面视频。由于当前的成像系统只能提供“单眼看世界”的效果，无法提供身其境的真实感受，需要一种全新的描述三维场景的方法来代替传统的二维视频HDTv技术通过增加视频信号的分辨率和屏幕的尺寸等来供更加逼真的模拟现实效果，但其仍然没有摆脱二维平面视频的束缚。

在二维视频中，主要通过各种三维因素，如透视、遮挡、阴影等，给人以三维深感的暗示，但是，这并不是真正的三维立体视频。人们在观看现实世界的时候，不仅够看到物体的宽度和高度，而且能够通过双目视差感受出物体的深度信息，立体视频是利用了人眼的双目视差原理，通过使用两个摄像机同时采集某一个场景的视频信再通过一定的方法将两路视频信号分别传送到人的左右两眼，使得左眼看到的是偏左图像，右眼看到的是偏右的图像，形成双目视差，最后通过人的大脑合成来模拟真场景，达到立体视频的效果。而多视点视频通过放置一组摄像机，使得用户观看时以选择相邻的某对摄像机采集到的视频，达到交互的性能。

然而，立体视频的实用化还存在很多问题，其中重要的一个就是如何进行有效地解码，由于立体视频采用多个摄像机同时采集并传输，数据量远大于二维视频，同加上人们对视频的清晰度要求的提高，进一步导致数据量的加大。如何有效地利用视内和相邻视点间的数据冗余进行立体视频的压缩成为了学术界研究的热点。

传统的解决方法是采用图像渲染的光场技术，光场技术虽然避开了复杂的建模过程，但由于没有3D网格模型的信息载体，需要大量的采样场景图像，以获得足够的信息恢复场景，因此会产生大量的采样数据，不利于视频的存储和传输。基于3D网格模型绘制方法的优点在于其场景模型的信息完全由3D网格模型描述，不需要对场景大量采样，即可恢复场景。因此，在基于图像绘制方法中引入部分几何信息，由3D网格模型承担部分信息的载体，可以减少对场景的大量采样，有效地减少数据量，然而，传统的方法一方面渲染效果不是很好，而且数据量大，不利于传输；另一方面，为了渲染出接近真实的场景，光场采集必须足够密，否则就会出现偏差，因此需要耗费大量的存储空间存储源信息。

因此，有必要提供一种基于光场渲染的视频编解码方法来解决现有技术的缺陷。

发明内容

本发明的目的在于满足现有技术的需求，提供一种能够使图像细节更清晰自然，渲染效果好，数据量大的基于光场渲染的视频编解码方法。

为了解决上述问题，本发明提出了一种基于光场渲染的视频编解码方法，包括以下步骤，步骤1：用TransCAIP方法计算新视点的起始帧；步骤2：结合高斯混合背景建模和场景几何计算，将场景分为背景区域和前景区域；步骤3：用高斯混合模型计算出视点1的当前帧的前景区域，利用场景几何关系将该区域变换成新视点当前帧的前景，并且利用高斯混合模型提取出新视点前一帧的前景区域，用新视点当前帧的前景区域更新新视点前一帧的前景区域，得到新视点的当前帧；步骤4：连续计算K-1次，在循环中统计前景区域点所在的层次分布；步骤5：若当循环的帧数超过K时，则根据统计的前景点分布自适应地划分场景层次；返回步骤1重复循环。

较佳地，所述步骤1中的TransCAIP方法具体为，将拍摄的场景沿z轴划分为N层，计算经过新视点的每一条目标光线与各层的交点，以及所述交点在4幅视图中对应点的颜色一致性，颜色一致性最小的层为交点所处的层，即交点的深度。

较佳地，所述步骤5中自适应地划分场景层次包括以下步骤：步骤51：根据给定的最远层z max、最近层z min和层数N，将场景分成N+1个间隔均匀的空间区间[Z min，Z 1]，[Z 2，Z 3]，...，[Z N，Z max]；步骤52：对本次循环中的每一帧统计落在各个空间区间的前景点的数目，在循环结束时得到前景点数最多的空间区间，假设为[z[j]，z[j+1]]；步骤53：在下一轮循环中，场景的层次包括2部分：第一部分为上述方法划分出的层次；第二部分为在上轮循环中统计出的前景点最密集的空间区间[zj，zj+1]，此区间均匀地划分新的层次Z[1]，...，Z[m]，其中Z[i]-Z[i-1]＝C(常数)。

本发明实施例的基于光场渲染的视频编解码方法，该方法充分利用了光场渲染的优势并结合背景建模和场景几何的计算，自适应地划分场景层次，使图像细节更清晰自然，在图像渲染效果和数据量大小方面比传统的方法都有明显的性能提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是光场渲染的结构示意图；

图2是本发明实施例起始帧+后续帧的循环模式；

图3是本发明实施例的基于光场渲染的视频编码方法的流程图；

图4是本发明实施例起始帧计算的示意图；

图5是图3中步骤S05的子流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于光场渲染的视频编解码是从多视点视频图像中获取场景目标的光场数据，然后再通过图形硬件完成目标的光场重建.。为了解决绘制阶段的计算复杂度，达到实时渲染要求，光场的采样及处理过程存在着大量的计算，因此将这些计算放在不需要实时处理的编码端完成，生成易于图形硬件渲染的光场数据。编码端的任务不仅是完成光场数据的采集过程，还要通过技术手段保证处理后的光场数据的数据量尽可能地小并且能够保证重建后的真实感效果.解码端不需要进行复杂的计算，只需计算光场数据的内存地址，读取相应的光场数据进行重建过程，由于计算复杂度小，大部分操作仅仅是存储器的读取操作，可以达到实时渲染要求，光场渲染的整体架构如图1所示。本发明所提出的基于光场渲染的视频编码改进方法。该方法充分利用了光场渲染的优势并结合背景建模和场景几何的计算，自适应地划分场景层次，使图像细节更清晰自然，在图像渲染效果和数据量大小方面比传统的方法都有明显的性能提高。

本发明所提供的基于光场渲染的视频编解码方法以TransCAIP方法为基础计算起始帧，然后在新视点的上一帧的基础上更新前景，得到新视点的当前帧，这样做避免了重复绘制占据图像大部分且变化缓慢的背景区域。但是，如果前一帧点的计算有误差，后继一帧会继承这个误差，所造成的累积误差将影响后继多帧，当累积误差增大到一定程度时，必然会影响图像的质量。为了消除累积误差，本发明采用起始帧+后续帧的循环模式，如图2所示。其中每K帧为一个循环，循环开始时先计算起始帧，在起始帧的基础上更新前景得到第1帧；第2帧在第1帧的基础上得到，依次计算后续帧，一直计算到第K-1帧；第K帧便进入了新循环，通过计算起始帧来矫正上次循环的累积误差。同时，在每个循环中统计前景点的层次，采用自适应层次划分策略重新划分场景。

本发明的基于光场渲染的视频编码方法流程如图3所示，包括以下步骤：

步骤S01：用TransCAIP方法计算新视点的起始帧；

步骤S02：结合高斯混合背景建模和场景几何计算，将场景分为背景区域和前景区域；

步骤S03：用高斯混合模型计算出视点1的当前帧的前景区域，利用场景几何关系将该区域变换成新视点当前帧的前景，并且利用高斯混合模型提取出新视点前一帧的前景区域，用新视点当前帧的前景区域更新新视点前一帧的前景区域，得到新视点的当前帧；

步骤S04：连续计算K-1次，在循环中统计前景区域点所在的层次分布；

步骤S05：若当循环的帧数超过K时，则根据统计的前景点分布自适应地划分场景层次；返回步骤S01重复循环。

具体地，起始帧是每个循环的第一帧，循环中的后续帧都将受到起始帧计算的影响。本发明用TransCAIP方法计算起始帧，但根据系统摄像机阵列的部署情况，在颜色一致性和插值系数的计算上与TransCAIP方法有所不同。如图4所示，4个输入视点在空间中松散排列成四边形(非严格排列在同一个平面中)，r(x)为新视点要求的目标光线，ri(x，z)为第i条参考光线(i＝(1，2，3，4)，分别表示4个输入视点)，p(x，z)是目标光线与层z＝z m的交点，disti是第i个视点的光心到目标光线的垂直距离。图4中左上角的坐标设定为世界坐标。

TransCAIP方法的基本思想如下：将拍摄的场景沿z轴划分为N层，计算经过新视点的每一条目标光线与各层的交点，以及这些交点在4幅视图中对应点的颜色一致性，颜色一致性最小的层认为是交点所处的层，即交点的深度。

较佳地，在摄像机阵列不移动的情况下，场景背景的改变一般很缓慢。针对这个特性，本发明在计算新视点的当前帧时，采用在新视点前一帧的背景基础上更新前景的方法。本发明将新视点当前帧的计算分为3部分：1)检测新视点前一帧的背景，并将其作为当前帧的背景，而前一帧的前景区域是当前帧中需要重新计算的；2)检测新视点当前帧的前景区域；3)在新视点前一帧背景上更新前景。

为了检测新视点的前一帧的背景，本发明采用高斯混合背景建模技术，假设图像中的每个像素点服从于高斯混合分布，该分布由K个独立的高斯分布构成。在时刻N，给定的像素点的值为X[N]的概率可以写为其中，wk是第k个高斯分布变量的权重；η(k，θj)是第k个正态分布。

在用高斯混合模型计算背景时，先通过一幅图像建立高斯混合背景模型，表示图像中各个像素点的特征；然后利用第二幅图像更新该模型，通过判断当前图像中像素点与模型的匹配关系来决定该像素点是否是背景。所以，高斯混合模型计算背景至少需要提供2幅图像。本发明用新视点的连续前2帧计算出新视点的前一帧的背景区域和前景区域。

通过高斯混合背景建模技术和场景几何计算检测新视点当前帧的前景区域。本发明先利用高斯混合背景建模技术，通过输入视点(本发明选择视点1)当前帧和前一帧检测出视点1当前帧的前景区域，再由新视点视图和视点1视图的几何关系将视点1当前帧的前景区域映射到新视点视图上，计算出新视点要计算的前景区域。几何关系为x[1]＝P[1]X，x[new]＝P[new]X，其中，X为空间点的齐次坐标；P[1]，P[new]分别为视点1和新视点的投影变换矩阵，由已知的摄像机内外参数计算得到；x[1]，x[new]分别为视点1视图和新视点视图的像素点齐次坐标。由这2个公式可得到x[1]和x[new]的透视变换关系。经过前两部分，本发明得到了新视点前一帧的背景区域和新视点当前帧的前景区域。最后用上述介绍的起始帧计算方法计算新视点当前帧的前景区域，并更新前一帧的背景区域，得到新视点的当前帧的图像。

较佳地，基于起始帧，新视点的后续帧依靠前一帧提供的背景更新前景。这种方式提高了计算效率，但是随着后续帧数的增大，累积误差越来越大，会降低图像质量。为了消除累积误差，本发明采用在误差达到一定程度之后重新计算起始帧，起始帧+后续帧循环的方法。在光场渲染方法中计算起始帧时，划分的场景层次将整个场景空间分割成离散的平面(层)，从而模拟真实的场景空间。层次划分越密集的空间区域，越能够贴切地模拟出连续的真实场景，投影到图像上细节也越清晰，更符合人类的视觉感官。但是层次划分越密集，计算量也会增加。在视觉习惯上，人们观看的重点一般在图像的前景上。基于这一原理，本发明在计算新视点时，通过对前景点所在层次进行统计，自适应地将前景所在的空间层次划分得更密集。参考图5，本发明划分场景层次的具体步骤如下：

步骤S51：根据上述给定的最远层zmax、最近层zmin和层数N，将场景分成N+1个间隔均匀的空间区间[Zmin，Z1]，[Z2，Z3]，...，[ZN，Zmax]；

步骤S52：对本次循环中的每一帧统计落在各个空间区间的前景点的数目，在循环结束时得到前景点数最多的空间区间，假设为[z[j]，z[j+1]]；

步骤S53：在下一轮循环中，场景的层次包括2部分：第一部分为上述方法划分出的层次；第二部分为在上轮循环中统计出的前景点最密集的空间区间[zj，zj+1]，此区间均匀地划分新的层次Z[1]，...，Z[m]，其中Z[i]-Z[i-1]＝C(常数)。

这样的划分方式能够自适应地追踪场景的前景，在前景点密集的空间区间将层次的划分也更密集，更好地表现了场景内的运动物体，增强了人们所关心的前景细节。

以上对本发明实施例所提供的基于光场渲染的视频编解码方法进行了详细介绍，本发明中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于光场渲染的视频编解码方法，包括以下步骤：

步骤1：用TransCAIP方法计算新视点的起始帧；

步骤2：结合高斯混合背景建模和场景几何计算，将场景分为背景区域和前景区域；

步骤3：用高斯混合模型计算出视点1的当前帧的前景区域，利用场景几何关系将该区域变换成新视点当前帧的前景，并且利用高斯混合模型提取出新视点前一帧的前景区域，用新视点当前帧的前景区域更新新视点前一帧的前景区域，得到新视点的当前帧；

步骤4：连续计算K-1次，在循环中统计前景区域点所在的层次分布；

步骤5：若当循环的帧数超过K时，则根据统计的前景点分布自适应地划分场景层次；返回步骤1重复循环。

2.根据权利要求1所述的基于光场渲染的视频编解码方法，其特征在于，所述步骤1中的TransCAIP方法具体为，将拍摄的场景沿z轴划分为N层，计算经过新视点的每一条目标光线与各层的交点，以及所述交点在4幅视图中对应点的颜色一致性，颜色一致性最小的层为交点所处的层，即交点的深度。

3.根据权利要求1所述的基于光场渲染的视频编解码方法，其特征在于，所述步骤5中自适应地划分场景层次包括以下步骤：

步骤51：根据给定的最远层z max、最近层z min和层数N，将场景分成N+1个间隔均匀的空间区间[Z min，Z1]，[Z2，Z3]，...，[Z N，Z max]；

步骤52：对本次循环中的每一帧统计落在各个空间区间的前景点的数目，在循环结束时得到前景点数最多的空间区间，假设为[z[j]，z[j+1]]；

步骤53：在下一轮循环中，场景的层次包括2部分：第一部分为上述方法划分出的层次；第二部分为在上轮循环中统计出的前景点最密集的空间区间[zj，zj+1]，此区间均匀地划分新的层次Z[1]，...，Z[m]，其中Z[i]-Z[i-1]＝C(常数)。