CN103581647A

CN103581647A - 一种基于彩色视频运动矢量的深度图序列分形编码方法

Info

Publication number: CN103581647A
Application number: CN201310453270.3A
Authority: CN
Inventors: 祝世平; 赵冬玉
Original assignee: Beihang University
Current assignee: Jiangsu huaptek Petroleum Equipment Co., Ltd.
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2014-02-12
Anticipated expiration: 2033-09-29
Also published as: CN103581647B

Abstract

本发明提出了一种基于彩色视频运动矢量的深度图序列分形编码方法。首先使用分形视频压缩方法编码彩色视频，然后用分形视频解压缩方法解码彩色视频，以获得彩色视频各宏块及小块的运动矢量。深度图序列的I帧编码，在H.264帧内预测编码方法基础上定义了平滑块，平滑块直接复制相邻参考像素值，而无需遍历各种预测方向；深度图序列的P帧进行块运动估计/补偿分形编码，利用深度图序列帧宏块与相应彩色视频宏块运动矢量相关性，进行深度图序列帧宏块运动矢量预测，并设计增强型非均匀多层次六边形搜索模板代替原非对称十字型多层次六边形格点搜索算法（UMHexagonS）中的非均匀多层次六边形搜索模板，利用改进的UMHexagonS算法搜索最相似匹配块，记录分形参数。最后利用熵编码CABAC压缩I帧和P帧的残差帧和P帧的分形参数。

Description

一种基于彩色视频运动矢量的深度图序列分形编码方法

技术领域：

本发明属于三维视频压缩编码领域，涉及深度图序列的压缩编码，为三维立体视频编码的实时性应用奠定了基础，进一步提高了基于深度图的立体视频压缩编码的性能。

背景技术：

深度图所代表的是场景到摄像机成像平面的距离信息，它将实际深度值量化到[0,255]，以获得代表深度信息的灰度图（参见Tanimoto M,Fujii T,Suzuki K,et al.Multi-view depth mapof Rena and Akko&Kayo[C],ISO/IEC JTC1/SC29/WG11,MPEG-M14888,China:Shenzhen,2007.）。

深度图压缩是三维视频系统中的核心技术。目前，对深度图序列压缩的方法，主要是基于H.264/AVC标准。如杨旭等针对三维视频编码复杂度较高的问题，提出一种快速深度图像帧内编码方法，该方法基于视频图像与深度图像的相关性，利用视频图像的最优帧内预测模式信息，优化深度图像帧内编码预测模式的选择范围，减少率失真代价函数的计算量，从而降低深度图像帧内编码复杂度（参见杨旭,常义,林霍等.一种三维视频深度图像快速帧内编码方法[J].西安电子科技大学学报（自然科学版）,2012,39(3):7-13.）。Byung Tae Oh等定义了一个深度失真函数（参见Byung Tae Oh,Jaejoon Lee,Du-sik Park.Depth map coding based onsynthesized view distortion function[J].IEEE Journal of Selected Topics in Signal Processing.2011,5(7):1344-1352.）。D.V.S.X.De Silva等提出了新的模式选择方法（参见D.V.S.X.De Silva,W.A.C.Fernando,S.T.Worrall.Intra mode selection method for depth maps of3D video based onrendering distortion modeling[J].IEEE Transactions on Consumer Electronics,2010,56(4):2735-2740.）。

近年来分形理论也被应用到视频序列的压缩上，其基本思想是在视频编码过程中将每视频帧（首帧除外）上的子块从前一帧而不是同一帧找相匹配的父块。其中最为经典和影响较大的参见（C.S.Kim,R.C.Kim,S.U.Lee.Fractal coding of video sequence using circularprediction mapping and noncontractive inter frame mapping[J].IEEE Transactions on ImageProcessing,1998,7(4):601-605.）。该方法采用类似于标准视频编码方法所采用的运动估计/补偿技术，利用了相邻帧之间的时间强相关性，对视频序列压缩取得了较好的效果。KojiOhse与Masahiro Nakagawa提出将视频序列变换到频率域，再应用分形视频压缩方法将不同分量的序列压缩编码（参见Koji Ohse,Masahiro Nakagawa.Fractal video coding withthe orthogonal transformation[J],Electronics and Communications in Japan,2007,90(3):36-47），此方法提供了在确定压缩比的情况下，实现对视频较好的压缩。张喻平与丰洪才提出了一种利用遗传算法提高视频分形压缩编码搜索速度的算法。（参见张喻平,丰洪才.利用遗传算法提高视频分形压缩编码搜索速度[J].计算机与数字工程,2007,35(1):28-30.）这种基于遗传算法的视频分形压缩编码改进了遗传算法中搜索空间的构造机理，结合运用合适的迭代函数系统和仿射变换，从而缩短了压缩编码时间，并且视频的恢复质量略优于全搜索算法和传统的分形压缩算法。

为了解决目前基于深度图的三维视频编码复杂度高的问题，本发明方法通过改进H.264帧内预测编码方法，实现深度图序列I帧编码；通过利用深度图序列帧宏块与相应彩色视频宏块运动矢量相关性，进行深度图序列帧宏块运动矢量预测，并设计增强型非均匀多层次六边形搜索模板代替原非对称十字型多层次六边形格点搜索算法（UMHexagonS）中的非均匀多层次六边形搜索模板，实现深度图序列P帧分形编码。实验证明，本发明方法实现了深度图序列压缩编码，并且编码时间及编码码率明显减少。

发明内容：

一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于实现步骤如下：

步骤一：使用基于分形的视频压缩方法编码彩色视频；

步骤二：使用基于分形的视频解压缩方法解码彩色视频，获得彩色视频各宏块及小块编码运动矢量，作为相应深度图序列帧宏块或小块的候选预测运动矢量；

步骤三：若为深度图序列的I帧（第一帧必须为I帧，其它帧可以设置是否为I帧），使用改进的H.264帧内预测编码方法预测I帧。通过原始帧和预测帧之差得到编码端残差帧。转入步骤五编码残差；若为深度图序列的P帧，转到步骤四；

步骤四：若为深度图序列的P帧，依次对当前帧的所有宏块进行运动估计/补偿分形编码。在参考帧中的搜索窗内对当前宏块进行块匹配，父块的大小与子块的大小相同。利用改进的非对称十字型多层次六边形格点搜索算法（UMHexagonS），搜索出匹配误差MSE最小的点。如果匹配误差MSE小于开始设定的阈值，保存当前的迭代函数系统系数即IFS系数，转入步骤六得到本块的重建块；否则，依次按照树状结构对该块进行划分，并对各个划分得到的小块，利用改进的UMHexagonS算法，分别计算最小匹配误差MSE，如果最小匹配误差MSE小于设定阈值，停止划分并记录该小块IFS系数，转入步骤六得到本块的重建块；否则继续划分，直到将当前块划分为预先设定的最小块4×4块，记录IFS系数，转入步骤六得到本块的重建块。如果当前帧所有的宏块都已编码完毕，所有的重建块组成重建图像（即下一帧的参考帧），通过原始图像与重建图像之差得到编码端残差图像，转到步骤五编码残差。所述搜索窗为在参考帧中的矩形搜索区域；所述IFS系数包括父块与子块的位置偏移，即运动矢量(x,y)和比例因子s、偏移因子o；

步骤五：残差图像的数据经过DCT、量化之后的系数一方面进行Zig-Zag扫描，然后用熵编码CABAC进行编码写入码流；另一方面经过反量化、反DCT变换后得到解码端残差帧。由预测帧和解码端残差帧之和得到重建帧（即下一帧的参考帧）。如果是P帧则还要对所有IFS系数进行有符号指数哥伦布编码。判断当前帧是否为最后一帧，如果是最后一帧结束编码；否则，返回步骤三继续处理下一帧图像；

步骤六：通过保存的IFS系数代入解码方程计算得到预测值，由原始块和预测块之差得到编码端残差块，编码端残差块经过DCT变换、量化、反量化和反DCT变换得到解码端残差块，再由预测块和解码端残差块之和得到重建块。转入步骤四编码深度图序列P帧下一宏块。

所述一种基于彩色视频运动矢量的深度图序列分形编码方法，处理的彩色视频与深度图序列均为YUV格式。

所述步骤一中基于分形的视频压缩方法包括以下四个步骤：

1)如果是I帧（第一帧必须为I帧，其它帧可以设置是否为I帧），采用H.264帧内编码方式，对于每个当前块在各种可能的预测方式中选择具有最小代价的预测模式，完成所有块的预测后可以得到I帧的预测帧。通过原始帧和预测帧之差得到编码端残差帧。转入步骤3)编码残差；如果是P帧，转到步骤2)；

2)如果是P帧。依次对当前帧的所有宏块进行编码。在参考帧中的搜索窗内对当前宏块进行块匹配；在进行子块与父块的匹配过程中，子块的位置作为父块的起始搜索点，父块的大小与子块的大小相同；对每个宏块进行树状结构分块，即分块从大到小可分为16×16、16×8、8×16、8×8，8×8往下（亚宏块分割）可以分为8×4，4×8，4×4。帧间编码时，首先对编码宏块的各种块划分尺寸的帧间预测模式进行运动估计，确定迭代函数系统系数即IFS系数；然后比较所有模式的率失真代价；最后将率失真代价最小的模式作为最优帧间预测模式。

IFS系数由如下的率失真优化函数确定：

J_MOTION=MSE(s,o,x,y,ref)+λ_MOTION*R(s,o,x,y,ref) (1)

其中IFS系数包括运动矢量(x,y)和比例因子s、偏移因子o，s和o的计算公式如下：

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]} - - - (2)

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}] - - - (3)

式中，N为子块和父块像素的个数，r_i为子块的像素值，d_i为父块的像素值。

最优帧间预测模式由如下率失真优化函数确定：

J(s,c,MODE|QP,λ_MODE)=SSD(s,c,MODE|QP)+λ_MODE*R(s,c,MODE|QP) (4)

对宏块的最佳分块模式，保存相应IFS系数，转入步骤4)得到本块的重建块。

如果当前帧所有的宏块都已编码完毕，所有的重建块组成重建图像（即下一帧的参考帧）。原始图像与重建图像之差得到残差图像，转到步骤3)编码残差；

3)残差图像的数据经过DCT、量化之后的系数一方面进行Zig-Zag扫描，然后用熵编码CABAC进行编码写入码流；另一方面经过反量化、反DCT变换后得到解码端残差帧。由预测帧和解码端残差帧之和得到重建帧（即下一帧的参考帧）。如果是P帧则还要对所有IFS系数进行有符号指数哥伦布编码。判断当前帧是否为最后一帧，如果是最后一帧结束编码；否则，返回步骤1)继续处理下一帧图像；

4)通过保存的迭代函数系统系数代入解码方程式

r_i=s·d_i+o (5)

计算得到预测值，由原始块和预测块之差得到编码端残差块，再由预测块和解码端残差块之和得到重建块。其中，解码端残差块是由编码端残差块经过DCT变换、量化、反量化和反DCT变换得到的。转入步骤2)编码P帧下一宏块。

所述步骤二中基于分形的视频解压缩方法包括以下五个步骤：

1)解码端获得压缩的码流。码流中数据元素首先进行熵解码和重排序，获得一系列量化系数，这些系数经过反量化和反变换得到解码端残差数据；

2)判断解码帧是否为I帧，若是I帧转入步骤3)，否则转入步骤4)；

3)对于I帧，首先由H.264帧内预测方式得到预测帧，预测帧与解码端残差帧进行相加之后得到重建帧，帧数加1转入步骤5)；

4)对于P帧，首先从码流中读入该帧所有宏块的划分方式、每一个小块的迭代函数系统系数与运动矢量，由各迭代函数系统系数和运动矢量分别计算出解码端的预测块形成解码端的预测帧，预测帧与残差帧相加得到重建帧。帧数加1转到步骤5)；

5)判断此时所有帧是否都已解码，若都解码完毕，结束解码过程，否则转入步骤2)。

所述步骤三中改进的H.264帧内预测编码方法，相比于原H.264帧内预测编码方法，本方法节省了预测时间与编码码率。

原H.264帧内预测编码方法，需要在各种可能的预测方向中，利用拉格朗日率失真优化准则选择率失真代价最小的预测模式。若最终预测模式为16×16，则需依次将MBtype,Pred_y,CBP,Pred_uv,QP,Coeff写入码流；若最终预测模式为4×4，则需依次将MBtype,T8,16(Pred_y),CBP,Pred_uv,QP,Coeff写入码流。其中Pred_y代表亮度预测方向，Pred_uv代表色度预测方向，QP代表量化参数，CBP代表编码块模式，Coeff代表变换系数，T8代表8×8分块标志位。

相比于原H.264帧内预测编码方法，本方法的改进主要体现在以下三点：

1)首先定义“平滑块”的概念。统计发现，在深度图中除了包含尖锐的对象边缘的块外，大部分块中包含的各像素亮度值相等，基于此定义“平滑块”：若当前块不包含对象边缘，且其各相邻参考像素值相等，则定义当前块为“平滑块”。其中16×16宏块的相邻参考像素位于该宏块左方与上方，4×4块的相邻参考像素位于该4×4块左方、上方与右上方；

2)若当前编码宏块模式为16×16，且为平滑块，则无需选择预测方向，预测块像素值直接复制该块相邻参考像素的值，且无需将语法元素Pred_y写入码流；若为非平滑块，则按照传统H.264帧内预测编码方法编码宏块；

3)若当前编码宏块模式为4×4，且宏块包含有N个4×4平滑块，则每个4×4平滑块预测像素值直接复制该4×4块相邻参考像素的值，相应预测方向Pred_y无需写入码流；非平滑块按照传统H.264帧内预测编码方法在9种可能的预测方向中选择率失真代价最小的预测方向。则此时码流中共有16-N个Pred_y语法元素，为了在解码时知道正确的Pred_y的个数，需要对语法元素重排序，并且本发明方法不使用8×8块，将语法元素T8移去，则最终码流中语法元素依次为：MBtype,Pred_uv,Pred_y,CBP,QP,Coeff,(16-N)Pred_y。

所述步骤四中改进的UMHexagonS算法相比于H.264中的UMHexagonS算法，本方法的改进主要体现在以下两点：

1)起始点预测：

深度图序列帧宏块的运动矢量与相应彩色视频宏块运动矢量具有相关性，且基于分形的深度图序列编码算法没有涉及到多参考帧，故利用四种方式进行起始点预测：

a)空域中值预测：取当前子块的左、上、右相邻块的运动矢量中间值为预测运动矢量；

b)相应彩色视频宏块运动矢量预测：根据深度图序列帧宏块与相应彩色视频宏块运动矢量的相关性，取相应彩色视频宏块的运动矢量为当前编码深度图序列帧宏块的预测运动矢量；

c)原点预测：令预测运动矢量为(0,0)；

d)相邻参考帧预测：利用前一参考帧中对应位置块的运动矢量作为当前块的预测运动矢量。

2)用增强型非均匀多层次六边形搜索模板代替原非均匀多层次六边形搜索模板：

UMHexagonS算法采用了多种搜索模板，但搜索过程中并不记录前一步骤已搜索区域内的检测点，造成多个检测点重复搜索。因此设计了增强型非均匀多层次六边形搜索模板，既避免了运动矢量密集区域重复搜索现象，又兼顾了自然深度图序列的运动规律，使分布在水平方向±45°区域的搜索点数多于在垂直方向±45°区域的搜索点数，取代原非均匀多层次六边形搜索模板。本发明方法中增强型非均匀多层次六边形搜索模板由内至外，在第1至第4层上分布的搜索点数分别为8、12、16、16，其中第1、2层减少了原非均匀多层次六边形搜索模板第1、2层垂直方向的搜索点数，仅保留了垂直方向最上、最下与中间的检测点，第1层斜边中点的检测点也未保留，第3、4层与原非均匀多层次六边形搜索模板第3、4层相应检测点相同。

本发明所提出的基于彩色视频运动矢量的深度图序列分形编码方法的优点在于：

(1)本方法中深度图序列的I帧编码在H.264帧内预测编码方法基础上进行了改进，定义了“平滑块”的概念，对于平滑块，预测块像素值直接复制该块相邻参考像素的值，而无需遍历各种预测方向，进行预测方向选择，在保证深度图序列I帧编码质量的同时，节省了预测时间与编码码率；

(2)本方法针对深度图序列的P帧编码，利用了深度图序列帧宏块与相应彩色视频宏块运动矢量的相关性，进行运动矢量预测，提高预测精度；

(3)本方法设计了增强型非均匀多层次六边形搜索模板代替原非对称十字型多层次六边形格点搜索算法（UMHexagonS）中的非均匀多层次六边形搜索模板，既避免了运动矢量密集区域重复搜索现象，又兼顾了自然深度图序列的运动规律，提高运动估计的速度。

附图说明：

图1为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法流程图；

图2(a)为微软研究院交互视觉媒体组提供的测试序列“Breakdancers”的彩色视频第3帧；

图2(b)为微软研究院交互视觉媒体组提供的测试序列“Breakdancers”的深度图序列第3帧；

图3(a)为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法步骤一中彩色视频帧内预测模式选择流程图；

图3(b)为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法步骤一中彩色视频帧间编码模式选择流程图；

图4为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法步骤二中解码经本发明方法压缩编码以后的测试序列“Breakdancers”的彩色视频第3帧宏块及各小块运动矢量示意图；

图5(a)为一个16×16宏块和一个4×4块的相邻参考像素示意图；

图5(b)为改进的H.264帧内预测编码方法中一个宏块分割成的各4×4小块中包含的平滑块与非平滑块示意图；

图6(a)为原H.264帧内预测编码方法编码帧内16×16模式的宏块比特流语法元素示意图；

图6(b)为改进的H.264帧内预测编码方法编码帧内16×16模式的宏块比特流语法元素示意图；

图6(c)为原H.264帧内预测编码方法编码帧内4×4模式块比特流语法元素示意图；

图6(d)为改进的H.264帧内预测编码方法编码帧内4×4模式块比特流语法元素示意图；

图7(a)是原UMHexagonS算法中采用的非均匀多层次六边形搜索模板；

图7(b)是改进的UMHexagonS算法中采用的增强型非均匀多层次六边形搜索模板；

图8为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法解码经本发明方法压缩编码以后的测试序列“Breakdancers”的深度图序列第3帧结果图像；

图9(a)为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法与传统的国际视频编码标准H.264标准测试模型JM18.1方法对“Breakdancers”深度图序列的1～12帧进行压缩编码的峰值信噪比的对比图；

图9(b)为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法与传统的国际视频编码标准H.264标准测试模型JM18.1方法对“Breakdancers”深度图序列的1～12帧进行编码的比特数的对比图；

图9(c)为本发明一种基于彩色视频运动矢量的深度图序列分形编码方法与传统的国际视频编码标准H.264标准测试模型JM18.1方法对“Breakdancers”深度图序列的1～12帧进行压缩的时间的对比图。

具体实施方式：

下面将结合附图对本发明方法作进一步的详细说明，仅以亮度分量Y为例，色度分量U和V的压缩步骤与亮度分量基本相同。

本发明提出了一种基于彩色视频运动矢量的深度图序列分形编码方法。首先使用分形视频压缩方法编码彩色视频，然后用分形视频解压缩方法解码彩色视频，以获得彩色视频各宏块及小块的运动矢量。深度图序列的I帧编码，在H.264帧内预测编码方法基础上定义了平滑块，平滑块直接复制相邻参考像素值，而无需遍历各种预测方向，非平滑块采用传统的H.264帧内预测编码；深度图序列的P帧进行块运动估计/补偿分形编码，利用深度图序列帧宏块与相应彩色视频宏块运动矢量相关性，进行深度图序列帧宏块运动矢量预测，并设计增强型非均匀多层次六边形搜索模板代替原非对称十字型多层次六边形格点搜索算法（UMHexagonS）中的非均匀多层次六边形搜索模板，利用改进的UMHexagonS算法搜索最相似匹配块，记录分形参数。最后利用熵编码CABAC压缩I帧和P帧的残差帧和P帧的分形参数。

如附图1所示，一种基于彩色视频运动矢量的深度图序列分形编码方法流程图。以微软研究院交互视觉媒体组提供的测试序列“Breakdancers”的前12帧为例，编码图像组结构设置为IPPPIPPPIPPP，即第1帧编码为I帧，然后每隔3个P帧编码1个I帧。附图2(a)是测试序列“Breakdancers”彩色视频的第3帧，附图2(b)是其相应的深度图。

步骤一：使用基于分形的视频压缩方法编码彩色视频。具体步骤如下：

第1步、首先判断是否为彩色视频的I帧，如果是I帧，采用H.264帧内预测方式，其中4×4亮度块有9种预测方式，16×16亮度块和8×8色度块有四种预测方式。附图3(a)为帧内预测模式选择流程图。每个宏块的预测要对各种可能的宏块预测模式进行搜索，采用基于拉格朗日率失真优化的模式判决方法，编码器对每个宏块所有可能的模式分别计算率失真代价，然后对它们进行比较。选择率失真代价最小的模式为最佳模式。率失真代价函数J定义如下：

J(s,c,MODE|QP,λ_MODE)=SSD(s,c,MODE|QP)+λ_MODE*R(s,c,MODE|QP) (6)

通过原始帧和预测帧之差得到编码端残差帧，转入第3步编码残差；否则转到第2步；

第2步、彩色视频P帧编码。依次对当前P帧的所有宏块进行编码。附图3(b)为帧间编码模式选择流程图。在参考帧中的搜索窗内对当前宏块进行块匹配；在进行子块与父块的匹配过程中，子块的位置作为父块的起始搜索点，父块的大小与子块的大小相同；对每个宏块进行树状结构分块，即分块从大到小可分为16×16、16×8、8×16、8×8，8×8往下（亚宏块分割）可以分为8×4，4×8，4×4。帧间编码时，首先对编码宏块的各种块划分尺寸的帧间预测模式进行运动估计，确定迭代函数系统系数即IFS系数；然后比较所有模式的率失真代价；最后将率失真代价最小的模式作为最优帧间预测模式。

IFS系数由如下的率失真优化函数确定：

J_MOTION=MSE(s,o,x,y,ref)+λ_MOTION*R(s,o,x,y,ref) (7)

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]} - - - (8)

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}] - - - (9)

最优帧间预测模式由如下率失真优化函数确定：

J(s,c,MODE|QP,λ_MODE)=SSD(s,c,MODE|QP)+λ_MODE*R(s,c,MODE|QP) (10)

对宏块的最佳分块模式，保存相应IFS系数，转入第4步得到本块的重建块。

如果当前帧所有的宏块都已编码完毕，所有的重建块组成重建图像（即下一帧的参考帧）。原始图像与重建图像之差得到残差图像，转到第3步编码残差；

第3步、残差图像的数据经过DCT、量化之后的系数一方面进行Zig-Zag扫描，然后用熵编码CABAC进行编码写入码流；另一方面经过反量化、反变换后得到解码端残差帧。由预测帧和解码端残差帧之和得到重建帧（即下一帧的参考帧）。如果是P帧则还要对所有IFS系数进行有符号指数哥伦布编码。判断当前帧是否为最后一帧，如果是最后一帧结束编码；否则，返回第1步继续处理下一帧图像；

第4步、通过保存的迭代函数系统系数代入解码方程式

r_i=s·d_i+o (11)

计算得到预测值，由原始块和预测块之差得到编码端残差块，再由预测块和解码端残差块之和得到重建块。转入第2步编码P帧下一宏块。

步骤二：使用基于分形的视频解压缩方法解码彩色视频，以获得彩色视频各宏块及小块的运动矢量。测试序列“Breakdancers”彩色视频第3帧解码结果图及各宏块及小块的运动矢量见附图4。具体步骤如下：

第1步、解码端获得压缩的码流。码流中数据元素首先进行熵解码和重排序，获得一系列量化系数，这些系数经过反量化和反变换得到解码端残差数据；

第2步、判断解码帧是否为I帧，若是I帧转入第3步，否则转到第4步；

第3步、对于I帧，首先由H.264帧内预测方式得到预测帧，预测帧与残差帧进行相加之后得到重建帧，帧数加1转到第5步；

第4步、对于P帧，首先从码流中读入该帧所有宏块的划分方式、每一个小块的迭代函数系统系数与运动矢量，由各迭代函数系统系数和运动矢量分别计算出解码端的预测块形成解码端的预测帧，预测帧与残差帧相加得到重建帧。帧数加1转到第5步；

第5步、判断此时所有帧是否都已解码，若都解码完毕，结束解码过程，否则转入第2步。

步骤三：若为深度图序列的I帧，使用改进的H.264帧内预测编码方法预测I帧。通过原始帧和预测帧之差得到编码端残差帧。转入步骤五编码残差；若为深度图序列的P帧，转到步骤四。

改进的H.264帧内预测编码方法相比于原H.264帧内预测编码方法，改进之处主要体现在以下3点：

1)首先定义“平滑块”的概念。若当前块不包含对象边缘，且其各相邻参考像素值相等，则定义当前块为“平滑块”。其中16×16宏块的相邻参考像素位于该宏块左方与上方，4×4块的相邻参考像素位于该4×4块左方、上方与右上方。如附图5(a)所示，是一16×16宏块和一4×4块的相邻参考像素示意图，附图5(b)是一宏块分割成的各4×4小块中包含的平滑块与非平滑块示意图；

2)若当前编码宏块模式为帧内16×16，且为平滑块，则无需选择预测方向，预测块像素值直接复制该块相邻参考像素的值，且无需将语法元素Pred_y写入码流；若为非平滑块，则按照传统H.264帧内预测编码方法编码宏块。附图6(a)为原H.264帧内预测编码方法编码帧内16×16模式的宏块比特流语法元素示意图，附图6(b)为改进的帧内预测编码方法编码帧内16×16模式的宏块比特流语法元素示意图；

3)若当前编码宏块模式为4×4，且宏块包含有N个4×4平滑块，则每个4×4平滑块预测像素值直接复制该4×4块相邻参考像素的值，相应预测方向Pred_y无需写入码流；非平滑块按照传统H.264帧内预测编码方法在9种可能的预测方向中选择率失真代价最小的预测方向。则此时码流中共有16-N个Pred_y语法元素，为了在解码时知道正确的Pred_y的个数，需要对语法元素重排序，并且本方法不使用8×8块，将语法元素T8移去。附图6(c)为原H.264帧内预测编码方法编码帧内4×4模式块比特流语法元素示意图，附图6(d)为改进的帧内预测编码方法编码帧内4×4模式块比特流语法元素示意图。

步骤四：若为深度图序列的P帧，依次对当前帧的所有宏块进行编码。在参考帧中的搜索窗内对当前宏块进行块匹配，父块的大小与子块的大小相同。设定子块的匹配误差阈值γ=tol×tol×no，其中tol根据不同的子块大小而改变，大的子块tol就越大，小的子块tol就小。在本例中，取16×16宏块的tol为10.0，8×8子块的tol为8.0，4×4子块的tol为6.0，no为当前子块属于该视频对象区域的像素个数。

首先设定16×16宏块的匹配误差阈值γ₁₆=10.0×10.0×no，在参考帧的搜索窗内利用改进的非对称十字型多层次六边形格点搜索算法（UMHexagonS），搜索出匹配误差MSE最小的点。如果最小匹配误差MSE小于开始设定的阈值γ₁₆，则保存当前的IFS系数，继续下一宏块的匹配。

否则，按照树状结构对该宏块进行划分，对宏块的划分有四种模式，模式一为一个16×16小块，模式二为两个8×16的小块，模式三为两个16×8的小块，模式四为四个8×8的小块。具体步骤如下：

第1步、首先按模式二的划分计算，利用改进的UMHexagonS进行块匹配，若模式二中两个小块都满足MSE<γ₁₆,则保存当前的IFS系数并停止块的划分，转入步骤六得到本块的重建块；否则按模式三划分，转入第2步；

第2步、按模式三当前宏块进行划分，利用改进的UMHexagonS进行块匹配，若模式三中两个小块都满足MSE<γ₁₆，则保存当前的IFS系数并停止块的划分，转入步骤六得到本块的重建块；否则按模式四划分，转入第3步；

第3步、按照模式四对当前宏块进行划分，利用改进的UMHexagonS进行块匹配，此时匹配误差阈值设置为γ₈=8.0×8.0×no，如果模式四中的4个小块都满足MSE<γ₈，则保存当前的IFS系数并停止块的划分，转入步骤六得到本块的重建块；否则对模式四中的每一个小块依次树状结构划分，转入第4步；

第4步、对模式四中的一个8×8小块首先按照2个4×8的小块划分，利用改进的UMHexagonS进行块匹配，如果两个子块的匹配误差MSE全部小于γ₈时，则保存当前的IFS系数并停止块的划分；否则，按照2个8×4的划分方式进行块的划分，对这两个子块利用改进的UMHexagonS进行块匹配，如果两个子块的匹配误差MSE全部小于γ₈时，则保存当前的IFS系数并停止块的划分；否则，将该子块划分为4个4×4的小块，同时匹配误差阈值设为γ₄=6.0×6.0×no，对四个小块分别利用改进的UMHexagonS进行块匹配，并分别记录每个子块的IFS系数并停止块的划分。循环执行第4步，直到模式四中的4个8×8小块均匹配完毕。转入步骤六得到本块的重建块。

如果当前帧所有的宏块都已编码完毕，所有的重建块组成重建图像（即下一帧的参考帧），通过原始图像与重建图像之差得到编码端残差图像，转到步骤五编码残差。所述搜索窗为在参考帧中的矩形搜索区域；所述IFS系数包括父块与子块的位置偏移，即运动矢量(x,y)和比例因子s、偏移因子o。

改进的UMHexagonS算法相比于H.264中的UMHexagonS算法，本方法的改进主要体现在以下两点：

1)起始点预测：

c)原点预测：令预测运动矢量为(0,0)；

UMHexagonS算法采用了多种搜索模板，但搜索过程中并不记录前一步骤已搜索区域内的检测点，造成多个检测点重复搜索。因此设计了增强型非均匀多层次六边形搜索模板，既避免了运动矢量密集区域重复搜索现象，又兼顾了自然深度图序列的运动规律，使分布在水平方向±45°区域的搜索点数多于在垂直方向±45°区域的搜索点数，取代原非均匀多层次六边形搜索模板。本发明方法中增强型非均匀多层次六边形搜索模板由内至外，在第1至第4层上分布的搜索点数分别为8、12、16、16，其中第1、2层减少了原均匀多层次六边形搜索模板第1、2层垂直方向的搜索点数，仅保留了垂直方向最上、最下与中间的检测点，第1层斜边中点的检测点也未保留，第3、4层与原均匀多层次六边形搜索模板第3、4层相应检测点相同。附图7(a)是原UMHexagonS算法中采用的非均匀多层次六边形搜索模板，附图7(b)是改进的UMHexagonS算法中采用的增强型非均匀多层次六边形搜索模板。

步骤五：残差图像的数据经过DCT、量化之后的系数一方面进行Zig-Zag扫描，然后用熵编码CABAC进行编码写入码流；另一方面经过反量化、反DCT变换后得到解码端残差帧。由预测帧和解码端残差帧之和得到重建帧（即下一帧的参考帧）。如果是P帧则还要对所有IFS系数进行有符号指数哥伦布编码。判断当前帧是否为最后一帧，如果是最后一帧结束编码；否则，返回步骤三继续处理下一帧图像。

本方法处理的彩色视频与深度图序列均为YUV格式，本方法选择Visual C++6.0作为所述方法的实现平台，CPU为Intel Core^TM2Duo T8300，2.4GHz主频，内存大小为2G，对测试序列“Breakdancers”进行了基于彩色视频运动矢量的深度图序列分形编码实验，配置参数如下：总帧数为12帧，编码图像组结构为IPPPIPPPIPPP，搜索范围为±7，量化参数QP为24。附图8为经本发明基于彩色视频运动矢量的深度图序列分形编码方法压缩再重建后的“Breakdancers”深度图序列第3帧结果图。

分别采用传统的国际视频编码标准H.264标准测试模型JM18.1和本发明方法对“Breakdancers”深度图序列的1～12帧进行压缩编码的峰值信噪比的对比图如附图9(a)所示；分别采用JM18.1和本发明方法对“Breakdancers”深度图序列的1～12帧进行编码的比特数的对比图如附图9(b)所示；分别采用H.264标准测试模型JM18.1和本发明方法对“Breakdancers”深度图序列的1～12帧进行压缩的时间的对比图如附图9(c)所示。

分别采用传统的国际视频编码标准H.264标准测试模型JM18.1和本发明方法对“Breakdancers”深度图序列的1～12帧压缩性能均值对比结果如表1所示。其中△PSNR、△比特率、△压缩时间的定义如下：

△PSNR=PSNR_OURS-PSNR_H.264 (12)

△比特率=（比特率_OURS-比特率_H.264）/比特率_H.264 (13)

△压缩时间=（压缩时间_OURS-压缩时间_H.264）/压缩时间_H.264 (14)

表1H.264测试标准模型JM18.1和本发明方法对“Breakdancers”深度图序列1～12帧压缩性能均值对比

从附图9和表1可以看出，本发明方法与传统的国际视频编码标准H.264标准测试模型JM18.1方法相比，峰值信噪比PSNR平均降低0.98dB的情况下，压缩时间减少了84.24%，编码码流比特率降低了17.73%。这是因为本发明方法在深度图序列I帧编码上，采用了改进的H.264帧内预测编码方法；在深度图序列P帧编码上，利用深度图序列帧宏块与相应彩色宏块运动矢量的相关性，进行深度图序列帧宏块运动矢量预测，并设计了增强型非均匀多层次六边形模板以改进UMHexagonS算法，从而降低了深度图序列编码的复杂度。

Claims

1.一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于如下步骤：

步骤一：使用基于分形的视频压缩方法编码彩色视频；

2.根据权利要求1所述一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于：处理的彩色视频与深度图序列均为YUV格式。

3.根据权利要求1所述一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于：所述步骤一中基于分形的视频压缩方法包括以下四个步骤：

IFS系数由如下的率失真优化函数确定：

J_MOTION=MSE(s,o,x,y,ref)+λ_MOTION*R(s,o,x,y,ref) (1)

其中IFS系数包括父块位置(x,y)和比例因子s、偏移因子o，s和o的计算公式如下：

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]} - - - (2)

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}] - - - (3)

最优帧间预测模式由如下率失真优化函数确定：

J(s,c,MODE|QP,λ_MODE)=SSD(s,c,MODE|QP)+λ_MODE*R(s,c,MODE|QP) (4)

4)通过保存的迭代函数系统系数代入解码方程式

r_i=s·d_i+o (5)

4.根据权利要求1所述一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于：所述步骤二中基于分形的视频解压缩方法包括以下五个步骤：

5.根据权利要求1所述一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于：所述步骤三中改进的H.264帧内预测编码方法，相比于原H.264帧内预测编码方法，本方法节省了预测时间与编码码率。

6.根据权利要求1所述一种基于彩色视频运动矢量的深度图序列分形编码方法，其特征在于：所述步骤四中改进的UMHexagonS算法相比于H.264中的UMHexagonS算法，本方法的改进主要体现在以下两点：

1)起始点预测：

c)原点预测：令预测运动矢量为(0,0)；