CN101980538A

CN101980538A - 一种基于分形的双目立体视频压缩编解码方法

Info

Publication number: CN101980538A
Application number: CN 201010522161
Authority: CN
Inventors: 祝世平; 侯仰拴; 陈菊嫱; 王再阔
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2011-02-23
Anticipated expiration: 2030-10-21
Also published as: CN101980538B

Abstract

本发明提出了一种基于分形的双目立体视频压缩与解压缩方法，在双目立体视频编码中以左通道为基本层，采用单独的运动补偿预测方式(MCP)进行编码，首先对左目的起始帧采用块DCT变换编码，对左目的非I帧进行块运动估计/补偿编码，计算与子块域和父块域相关子块的像素和与像素平方和，然后在前一帧即左目视频的参考帧搜索窗中利用全搜索方法寻找最相似的匹配块，最后利用Huffman编码方法压缩迭代函数系统系数。右通道为增强层，采用MCP加视差补偿预测方式(DCP)进行编码，选择误差最小的作为预测结果。在进行DCP编码方式时，充分利用立体平行摄像结构中的偏振性和方向性。对应的解压缩过程为：对于左目，首先对起始帧I帧采用反DCT变换的方式解码，对非I帧进行Huffman解码获得迭代函数系统系数，然后进行基于宏块的解码，计算前一帧中的父块域相关子块的像素和与像素平方和；对于右目，计算右目前一帧和左目对应帧的父块域相关子块的像素和与像素平方和。

Description

一种基于分形的双目立体视频压缩编解码方法

技术领域：

本发明属于视频压缩编码领域，涉及双目立体视频的压缩编码，在保证压缩比和PSNR保持不变的前提下，极大地降低了运算复杂度，为双目立体视频编码的实时性应用奠定了基础，进一步提高了分形视频压缩编码的性能，使其更加具有实用性和推广性。

背景技术：

分形理论最初由Mandelbrot于上世纪70年代提出(参见

B.Mandelbrot.TheFractal Geometry of Nature[M].New York：W.H.Freeman and Company，1982.)。分形编码的数学基础是迭代函数系统(IFS)理论。Barnsley首先将分形编码用于交互式图像压缩(参见Michael F.Barnsley，Alan D.Sloan.A better way to compress image[J].ByteMagazine，1988，13(1)：215-233.)。Jacqain提出了全自动的分形图像压缩方法(参见Arnaud E.Jacquin.A novel fractal blocking-coding technique for digitalimage[C].IEEEInternational Conference on Acoustics，Speech and Signal Processing，1990，4：2225-2228.)，(参见Arnaud E.Jacquin.Fractal image coding：a review[J].Proceeding of the IEEE，1993，81(10)：1451-1465.)，该方法采用基于图像分块的方式以局部的仿射变换代替全局的仿射变换。之后，Fisher利用四叉树改进了这一方法(参见Y.Fisher.Fractal ImageCompression[J].Fractals，1994，2(3)：347-361.)，(参见Y.Fisher，E.W.Jacobs.Imagecompression：A study the iterated transform method[J].Signal Processing，1992，29(3)，251-263.)，(参见Y.Fisher.Fractal Image Compression：Theory and application to digitalimages[M].New York：Spring-Verlag，1995，55-77.)，大大提高了编码效率，并成为目前分形图像编码中的主流方法。

在此基础之上，一些学者和研究人员把分形图像压缩的方法应用到视频序列的压缩上。Meiqing Wang等提出了综合基于数据立方体和基于帧的分形视频压缩方法(参见Meiqing Wang，Choi-Hong Lai.A hybrid fractal video compression method[J].Computers &Mathematics with Applications，2005，50(3-4)：611-621.)，(参见Meiqing Wang，ZhehuangHuang，Choi-Hong Lai.Matching search in fractal video compression and its parallelimplementation in distributed computing environments[J].Applied Mathematical Modeling，2006，30(8)：677-687.)，(参见Meiqing Wang，Rong Liu，Choi-Hong Lai.Adaptive partitionand hybrid method in fractal video compression[J].Computers & Mathematics withApplications，2006，51(11)：1715-1726.)。其中最为经典和影响较大的参见(C.S.Kim，R.C.Kim，S.U.Lee.Fractal coding of video sequence using circular prediction mapping andnoncontractive interframe mapping[J].IEEE Transactions on ImageProcessing，1998，7(4)：601-605.)。该方法采用类似于标准视频编码方法所采用的运动估计/补偿技术，该方法利用了相邻帧之间的时间强相关性，对视频序列压缩取得了较好的效果。在CPM和NCIM中，子块域中的每个图像块都由来自相邻帧相同大小的父块域通过运动补偿得到。CPM和NCIM两者间最大的不同在于CPM在解码的过程中需要具备收敛性，而NCIM不需要。但是在循环预测编码(CPM)方法中，为了保证起始帧经过自身的循环解码能够近似收敛到原来的图像，压缩过程需要经过复杂变换、搜索和迭代等，压缩时间和图像质量难以达到要求。目前典型的分形图像和视频压缩方法的运算量很大，编码速度较慢，并且解码的质量有待提高，使得分形图像和视频压缩方法还需要进一步的改进和提高。

随着多媒体技术的不断发展，多视点视频因其具有单目视频无法比拟的优越性渐渐成为研究的热点。而双目立体视频是多视点视频中应用最为广泛的一种形式，它增加了场景的深度信息，使欣赏到的图像有强烈的现实感和逼真感，可以应用于立体电视，远程教育，远程工业控制，远程医学诊断和虚拟现实等众多领域(参见A Schertz.Sourcecoding of stereoscopic television pictures[C].Proceedings of the IEEE InternationalConference on Image Processing and its Applications.Maastricht，The Netherlands，1992，462-464)。双目立体视频是利用人眼睛的双目视差原理，双目各自独立地接收来自同一场景的特定摄像点的左右图像，左眼看偏左的图像，右眼看偏右的图像，形成双目视差，大脑能得到图像的深度信息，使欣赏到的图像有强烈深度感、逼真感，观众能欣赏到超强的立体视觉效果。但是相对于单目视频，双目立体视频系统必须传输和存储翻番的数据量，所以必须对其进行有效地压缩。(参见Shigang Wang，Xuejun Wang，Hexin Chen.Stereoscopic video compression coding based on H.264[J].Chinese Journal of Stereologyand Image Analysis，2008，13(1)：11-16)

在双目立体视频编码过程中，不但要考虑各通道内前后帧图像之间的时域相关性和帧内图像的空域相关性，还要充分利用通道之间的空域相关性进行编码。前者可以利用运动补偿预测(MCP)去除冗余，后者可以采用视差补偿预测(DCP)去除通道间冗余。DCP与MCP相比要复杂的多，其中的关键技术是视差匹配。Michael E.Lukaces是双目立体视频编码的早期研究者，他探索了将视差补偿(DC-based)(指使用双目视差关系在两幅图像之间建立对应)用于从双目立体视频序列中的一个视频序列预测另一个视频序列，并提出了多种基于视差补偿的方法(参见Lukacs M E.Predictive coding ofmulti-viewpoint image sets[C].IEEE International Conference on Acoustics，Speech andSignal Processing，1986，521-524)。Perkins将基于视差补偿的方法归纳为一种条件编码方法，对于无损编码来说是最优的，对于有损编码则是次优的(参见Perkins M G.Datacompression of stereo pairs[J].IEEE Transactions on Communications，1992，40(4)：684-696)。Tzovaras等人提出了视差估计的分层块匹配以及运动视差双向补偿方法，称之为聚合估计(参见Tzovaras D，Grammalidis N，Strintzis M G.Object-based codingof stereoscopic image sequences using joint 3D motion/disparity segmentation[C].Proceedings of SPIE：Visual Communication and Image Processing，1995，1678-1689)。另外Franich还提出了基于通用块匹配算法的视差估计方法，并引入一种平滑检测手段来评价视差匹配好坏(参见Franch R E H，Lagendijk R L，Biemond J.Stereo-enhanceddisplacement estimation by genetic block matching[C].Proceedings of SPIE：Volume2094-Visual Communications and Image Processing.Cambridge，MA，USA，1993，362-371)。Siram Sethuramn以及M.Siegel等人提出了基于视差和运动的可变块四叉树多分辨率分割方法，针对基于MPEG视频编码标准的双目立体视频流的编码，按在解码端是否有合成中间视图的需要，提出了两个双目立体视频流的混合分辨率编码方法(参见Sethuraman S，SiegelM W，Jordan A G.Segmentation based coding of stereoscopic imagesequences[C].Proceedings of SPIE：Volume 2668-Digital Video Compression：Algorithmsand Technologies.San Jose，CA，USA，1996，420-429)。常用的双目立体视频编码方案有：独立MCP(Motion Compensated Prediction)编码，层间DCP(Disparity CompensatedPrediction)编码和MCP与DCP相结合编码。其中在MCP与DCP相结合编码中，基本层采用独立MCP编码，增强层采用MCP与DCP两种方式进行预测，从中选择误差较小的一种作为预测结果。

发明内容：

一种基于分形的视频压缩编码方法，包括以下步骤：

步骤一：对于左目，首先判断是否为I帧，若是I帧，则对该帧进行互不重叠的固定大小的块划分，对每一个图像块分别采用基于块DCT变换的I帧帧内图像压缩方法，对图像进行单独编码和解码，转到步骤十；所述I帧为视频序列起始帧或者视频序列中只进行帧内编码的图像帧；所述将当前帧划分为固定大小的互不重叠的图像块称为宏块；所述将当前宏块进行树状划分得到的块称为小块；所述当前帧为正在进行压缩的帧，所述参考帧为当前帧的已经编码并重建的前一帧；所述当前帧所有块的集合称为子块域；所述前一帧的所有块的集合称为父块域；所述块DCT变换中的块采用固定大小模式；对于右目，转到步骤四；

步骤二：若左目为非I帧，用常规单目的运动补偿预测(MCP)编码，对该帧进行互不重叠的宏块划分，然后计算这些宏块以及经树状划分得到的小块的像素和、像素平方和，以及左目前一帧重建图像即参考帧中，按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和；

步骤三：依次对当前帧的所有宏块进行编码，在父块域中的搜索窗内首先对该宏块进行块匹配；在进行子块与父块的匹配过程中，子块的位置作为父块的起始搜索点，父块的大小与子块的大小相同；如果匹配误差RMS小于开始设定的阈值γ，保存当前的迭代函数系统系数即IFS系数，转入步骤三编码下一宏块；否则，依次按照树状结构对该块进行划分，并对各个划分得到的小块分别计算匹配误差RMS，如果RMS小于设定阈值γ，停止划分并记录该小块IFS系数，转入步骤三编码下一宏块；否则继续划分，直到将当前块划分为预先设定的最小块，记录IFS系数；转入步骤三编码下一宏块；所述搜索窗为在参考帧中的矩形搜索区域；所述IFS系数包括父块位置(x，y)和比例因子s、偏移因子o；如果当前帧所有的宏块都已编码完毕，且是左目，则转到步骤十；若是右目，则继续执行步骤五；

步骤四：对右目图像，首先进行互不重叠的宏块划分，然后计算这些宏块以及经树状划分得到的小块的像素和、像素平方和，以及右目前一帧重建图像参考帧，按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和，以减少块匹配过程中的重复计算，转到步骤三；

步骤五：计算左目中对应帧图像参考帧，按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和，以减少块匹配过程中的重复计算，转到步骤六；

步骤六：首先对与当前子块位置相同的父块进行块匹配，得到RMS，并保存迭代函数系统系数，该系数包括父块与子块的相对位移矢量(x，y)，比例因子s和偏移因子o；依次对当前帧的所有宏块进行编码，在父块域中的搜索窗内首先对该宏块进行块匹配；在进行子块与父块的匹配过程中，子块的位置作为父块的起始搜索点，父块的大小与子块的大小相同并转入步骤七；如果所得的匹配误差RMS小于开始设定的阈值γ，保存当前的迭代函数系统系数即IFS系数，转入步骤六编码下一宏块；否则，依次按照树状结构对该块进行划分，并对各个划分得到的小块分别转入步骤七计算匹配误差RMS，如果RMS小于设定阈值γ，停止划分并记录该小块IFS系数，转入步骤六编码下一宏块；否则继续划分，直到将当前块划分为预先设定的最小块，转入步骤七计算RMS，记录IFS系数，转入步骤六编码下一宏块；最后与步骤三所得结果比较，选择误差最小的作为预测结果；所述搜索窗为在参考帧中的矩形搜索区域；所述IFS系数包括父块位置(x，y)和比例因子s、偏移因子o；如果当前帧所有的宏块都已编码完毕，则转到步骤十；

步骤七：在垂直方向上先上下隔行搜索两个点；如果这两个点的RMS均大于偏振线上点的RMS转到步骤八，否则转到步骤九；

步骤八：只沿初始点的右侧进行搜索，在搜索过程中进行跳跃式搜索；点匹配完之后，向右间隔两个点进行搜索，计算RMS，并转入步骤七进行垂直方向搜索；如果当前点的RMS小于前一点的RMS，将当前点作为新的起始搜索点，转回到步骤八开始位置，继续水平搜索下一点；否则说明最佳匹配点位于这两点之间，选择合适的小区域进行全搜索，至此选择RMS最小的点作为最终匹配结果，结束DCP搜索过程，继续执行步骤六；

步骤九：选择两点中RMS最小的点，在垂直方向上再搜索相邻两点之间的点，计算其RMS，选择误差最小的点作为此垂直方向上的最佳匹配点，转入步骤八继续沿偏振线方向进行搜索；

步骤十：对所有IFS系数进行Huffman编码，降低IFS系数数据的统计冗余；判断当前帧是否为最后一帧，如果是最后一帧结束编码；否则，返回步骤一继续处理下一帧图像。

所述一种基于分形的双目立体视频压缩编码方法，处理的视频序列为YUV格式，分别对3个分量中的每个采用上述十个步骤进行处理。

所述步骤三和步骤六中对宏块采用树状划分，块匹配采用匹配误差准则；子块与父块的匹配误差RMS为：

RMS = \frac{1}{N} [Σ_{i = 1}^{N} r_{i}^{2} + s (s Σ_{i = 1}^{N} d_{i}^{2} - 2 Σ_{i = 1}^{N} r_{i} d_{i} + 2 o Σ_{i = 1}^{N} d_{i}^{2}) + o (N \cdot o - 2 Σ_{i = 1}^{N} r_{i})] - - - (1)

其中参数s和o分别为：

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]} - - - (2)

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}] - - - (3)

其中，N为子块和父块像素的个数，r_i为子块的像素值，d_i为父块的像素值；

计算当前宏块在参考帧中的块匹配误差RMS，其中r_i是子块的像素值，d_i是父块的像素值；如果RMS小于预先设定的阈值γ，记录IFS系数，IFS系数包括匹配块的位移矢量(x，y)和公式2，3中的s和o，处理下一宏块；否则，对当前宏块进行树状划分，计算划分后小块的RMS，如果小于阈值γ，则停止划分，否则继续划分，直到子块达到预先设定的最小块为止。

所述步骤七中垂直方向的搜索方法运用了双目立体视频的偏振性，最佳匹配点位于偏振线上即水平线上；在立体平行摄像系统中，沿水平方向进行DCP搜索。

两摄像机在同一时刻观看空间同一特征点P(x_c，y_c，z_c)，在左图像和右图像的坐标分别为p_left＝(X_left，Y_left)，p_right＝(X_right，Y_right)；其中点P(x_c，y_c，z_c)与两个光心所确定的平面称为偏振平面，偏振平面与左右图像的交线称为偏振线；由几何关系得到：

\{\begin{matrix} X_{left} = f \frac{x_{c}}{z_{c}} \\ X_{right} = f \frac{(x_{c} - B)}{z_{c}} \\ Y = f \frac{y_{c}}{z_{c}} \end{matrix} - - - (4)

所述步骤八中水平方向的搜索方法运用了双目立体视频的方向性；同一空间点在两图像平面中的投影位置差矢量即视差由此可知视差D是深度z的函数，表示相对深度，对于同一特征点，其透视投影左图像是右图像沿水平负向的局部平移；同一空间点在右图像上的图像坐标比在左图像上的图像坐标偏右，在搜索时沿一个方向进行。

一种基于分形的双目立体视频解压缩方法，其特征在于包含以下步骤：

步骤I：首先读入左目压缩信息，包括压缩帧数，每帧图像的宽和高，I帧压缩质量和插入I帧的间隔；

步骤II：判断解码帧是否为I帧，若是I帧转入步骤III，否则转入步骤IV；

步骤III：对于I帧，从压缩文件中读入码流，进行类似于JPEG的解压缩方式进行解码，帧数加一转入步骤VII；

步骤IV：对于非I帧，计算左目前一帧中按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和；

步骤V：读入右目压缩信息，包括压缩帧数，每帧图像的宽和高，I帧压缩质量和插入I帧的间隔；计算右目前一帧和左目对应帧中按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和，转入步骤VI；

步骤VI：从对应的压缩文件中读入块的划分信息和Huffman码流，并根据以上的信息得到该帧所有宏块的划分方式和每一个小块的迭代函数系统系数，按照每一宏块进行解码；转入步骤VII；

步骤VII：判断此时所有帧是否都已解码，若都解码完毕，结束解码过程，否则转入步骤II。

对于每一个宏块进行解压缩时，首先判断该宏块在编码时的划分方式，对于每一个子块，首先在父块域找到与该子块相对应的区域，然后利用下面的公式获得该子块的像素值：

r_i＝s·d_i+o (5)

其中r_i为待解码子块的像素值，d_i为父块域中的像素值，s为比例因子，o为偏移因子。

在基于分形的双目立体视频解码过程中，左目用常规单目的运动补偿预测(MCP)编码，右目的每个图像块通过运动补偿预测(MCP)和视差补偿预测(DCP)两种方式进行预测，从中选择误差较小的一种作为预测结果。

处理的视频序列为YUV格式，分别对3个分量中的每个采用上述七个步骤进行处理。

本发明所提出的分形双目立体视频压缩方法的优点在于：

(1)本方法中对起始帧采用帧内块DCT变换编码，相对于CPM/NCIM编码方案，不但大幅度减少了压缩时间和块效应，而且提高了峰值信噪比。

(2)本方法先将一帧图像划分为互不重叠的、由若干固定大小尺寸的宏块组成的棋盘格式；然后根据匹配准则与设定阈值的关系，对宏块进行树状结构划分；相对于四叉树划分准则，大大降低了计算复杂度，提高了编码速度。

(3)本方法在进行子块的块匹配之前，计算当前帧互不重叠的宏块及其经树状划分之后得到的小块的像素和与像素平方和；在参考帧中，按照匹配步长分别计算各宏块以及经树状划分以后得到的小块的像素和与像素平方和；避免了在块匹配过程中出现重复计算的弊端，大大节约了子块的匹配时间。

(4)本方法中，左目的编码方式与单目分形编码相同；右目中，除了采用前一帧作为参考帧外，加入了左目对应的帧共同作为参考帧，选取误差最小的块作为父块，使得面向的范围更广，实现更好的效果。

(5)本方法中，在进行DCP编码方式时，充分利用立体平行摄像结构中的偏振性和方向性，对DCP搜索方式进行了简化运算，提出了一种新型快速搜索算法。

附图说明：

图1a为本发明一种基于分形的双目立体视频压缩与解压缩方法的左目MCP压缩流程图；

图1b为本发明一种基于分形的双目立体视频压缩与解压缩方法的右目DCP压缩流程图；

图1c为本发明一种基于分形的双目立体视频压缩与解压缩方法的左目MCP解压缩流程图；

图1d为本发明一种基于分形的双目立体视频压缩与解压缩方法的右目DCP解压缩流程图；

图1e为本发明一种基于分形的双目立体视频压缩与解压缩方法的DCP快速算法流程图；

图2a为本发明一种基于分形的双目立体视频压缩与解压缩方法对宏块的四种划分模式图；

图2b为本发明一种基于分形的双目立体视频压缩与解压缩方法对宏块的划分模式四进一步进行划分的四种划分模式图；

图3为本发明一种基于分形的双目立体视频压缩与解压缩方法的MCP和DCP结构示意图；

图4a为本发明一种基于分形的双目立体视频压缩与解压缩方法单独解码经本发明方法压缩编码以后的双目立体视频序列“exit”的第3帧全搜索右目结果图像；

图4b为本发明一种基于分形的双目立体视频压缩与解压缩方法单独解码经本发明方法压缩编码以后的双目立体视频序列“exit”的第3帧快速搜索右目结果图像；

图5为双目立体平行摄像系统成像原理图；

图6为本发明一种基于分形的双目立体视频压缩与解压缩方法的DCP快速搜索模式图；

图7a为本发明一种基于分形的双目立体视频压缩与解压缩方法的DCP快速算法与传统的全搜索方法分别对“ballroom”和“exit”双目立体视频序列左右两个通道的前20帧进行压缩的右目压缩比的对比图。

图7b为本发明一种基于分形的双目立体视频压缩与解压缩方法的DCP快速算法与传统的全搜索方法分别对“ballroom”和“exit”双目立体视频序列左右两个通道的前20帧进行压缩的右目PSNR的对比图。

图7c本发明一种基于分形的双目立体视频压缩与解压缩方法的DCP快速算法与传统的全搜索方法分别对“ballroom”和“exit”双目立体视频序列左右两个通道的前20帧进行压缩的右目压缩搜索点数的对比图。

具体实施方式：

下面将结合附图对本发明方法作进一步的详细说明，仅以亮度分量Y为例，色差分量U和V的压缩步骤与亮度分量相同。

如附图1a和图1b所示，一种基于分形的双目立体视频压缩编码方法，包括以下步骤：

步骤一：以双目立体视频序列“exit”的前20帧为例。所述I帧为视频序列起始帧或者视频序列中只进行帧内编码的图像帧；所述将当前帧划分为固定大小的互不重叠的图像块称为宏块；所述将当前宏块进行树状划分得到的块称为小块；所述当前帧为正在进行压缩的帧，所述参考帧为当前帧的已经编码并重建的前一帧；所述当前帧所有块的集合称为子块域；所述前一帧的所有块的集合称为父块域；所述块DCT变换中的块采用固定大小模式。对于右目，转到步骤四；

对视频序列“exit”左目的起始帧，对每一个图像块分别采用基于块DCT变换的I帧帧内图像压缩方法，将起始帧划分为8×8的互不重叠的子块，对每一子块分别进行DCT变换。离散余弦变换将8×8的图像样本X，变换成8×8的系数矩阵Y。变换过程(包括反变换)可以用变换矩阵A来表示。

8×8样本块的正向DCT(FDCT)变换如下：

Y＝AXA^T (6)

反向DCT(IDCT)如下：

X＝A^TYA (7)

其中A是8×8的变换矩阵。A中的各个元素如下：

A_{ij} = C_{i} \cos \frac{(2 j + 1) iπ}{16} - - - (8)

其中

C_{i} = \sqrt{\frac{1}{8}}

(i＝0)

C_{i} = \frac{1}{2}

(i＞0) (9)

i，j分别为矩阵A的行和列。

对变换系数进行量化和编码，转入步骤十。

步骤二：若左目为非I帧，用常规单目的运动补偿预测(MCP)编码，对图像进行互不重叠的16×16宏块划分，分别计算当前帧互不重叠的16×16，16×8，8×16，8×8，8×4，4×8，4×4的小块的像素和与像素的平方和。然后分别计算参考帧也就是前一帧的解压缩图像中以1为步长的大小分别为16×16，16×8，8×16，8×8，8×4，4×8，4×4的小块的像素和与像素的平方和。从第一个宏块开始处理，依次对当前帧的所有16×16宏块进行编码；

步骤三：依次对当前帧的所有16×16宏块进行编码，在父块域中的搜索窗内对整个宏块进行块运动估计/补偿。匹配的依据是分形迭代函数系统原理，简要介绍一下分形图像压缩的数学基础一迭代函数系统(IFS：Iterative Function System)理论。设D是Rⁿ欧氏空间的子集，ω为D→D的映射，如果存在一个实数C，0≤C＜1，使得对于Rⁿ上的度量d，满足对任意x，y∈D，有d(ω(x)，ω(y))≤C(d(x，y))，则称ω为压缩映射，实数C称为ω的压缩因子。完备的度量空间(X，d)以及n个压缩映射ω_i：X→X(其压缩因子分别为C₁，C₂，...C_n)一起，就组成一个迭代函数系统(Iterated Function System)，简称IFS，记作{X：ω₁，ω₂，...，ω_n}。C＝max(C₁，C₂，...，C_n)称为IFS的压缩因子。因此{R²：ω₁，ω₂，ω₃}就是一个IFS。

分形图像压缩中，一般的匹配准则是RMS，即：

RMS = \frac{1}{N} [Σ_{i = 1}^{N} r_{i}^{2} + s (s Σ_{i = 1}^{N} d_{i}^{2} - 2 Σ_{i = 1}^{N} r_{i} d_{i} + 2 o Σ_{i = 1}^{N} d_{i}^{2}) + o (N \cdot o - 2 Σ_{i = 1}^{N} r_{i})]

其中s，o分别为：

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]}

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}]

其中，N为子块和父块像素的个数，r_i为子块的像素值，d_i为父块的像素值。

首先设定子块的匹配误差阈值γ＝tol×tol×no，其中tol根据不同的子块大小而改变，大的子块tol就越大，小的子块tol就小。在本例中，我们取16×16宏块的tol为10.0，8×8子块的tol为8.0，4×4子块的tol为6.0，no为当前子块属于该视频对象区域的像素个数。

首先设定16×16宏块的匹配误差阈值γ₁₆＝10.0×10.0×no，在参考帧的父块域中以当前子块的位置开始在15×15的搜索窗内对整个宏块进行块匹配，如果匹配误差RMS小于开始设定的阈值γ₁₆，保存当前的IFS系数包括比例因子s，偏移o，父块相对于当前子块的坐标偏移x，y，返回步骤三，继续下一宏块的匹配。

否则，按照树状结构对该宏块进行划分，对宏块的划分有四种模式，如附图2a，模式一为一个16×16小块，模式二为两个8×16的小块，模式三为两个16×8的小块，模式四为四个8×8的小块。

1、首先按模式二的划分计算，若模式二中两个小块都满足RMS＜γ₁₆，保存当前的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分，转到5；

2、否则按模式三划分，若模式三中两个小块都满足RMS＜γ₁₆，保存当前的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分，转到5；

3、否则按照模式四对当前宏块进行划分，此时匹配误差阈值设置为γ₈＝8.0×8.0×no，如果模式四中的4个小块都满足RMS＜γ₈，保存当前的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分，转到5；

4、否则对模式四中的每一个小块按照附图2b中的模式划分顺序进行划分，可依次划分为1个8×8的小块，2个4×8的小块，2个8×4的小块，4个4×4的小块。这里只对第一个8×8小块的匹配过程进行阐述，其它3个8×8小块的匹配过程与第一个相同，不再赘述。首先按照2个4×8的小块划分，进行块匹配，如果两个子块的匹配误差RMS全部小于γ₈时，保存当前的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分。否则，按照2个8×4的划分方式进行块的划分，对这两个子块进行块匹配，如果两个子块的匹配误差RMS全部小于γ₈时，保存当前的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分。否则，对该子块划分为4个4×4的小块，同时匹配误差阈值设为γ₄＝6.0×6.0×no，对四个小块分别进行块匹配，并分别记录每个子块的IFS系数包括比例因子s，偏移o，以及父块相对于当前子块的坐标偏移x，y，并停止块的划分，转到5；

5、返回步骤三，继续下一宏块的编码。

如果当前帧所有的宏块都已编码完毕，且是左目，则转到步骤十，若是右目，则继续执行步骤四；

步骤四：对于右目，首先进行互不重叠的16×16宏块划分，分别计算当前帧互不重叠的16×16，16×8，8×16，8×8，8×4，4×8，4×4的小块的像素和与像素的平方和。然后分别计算参考帧也就是前一帧的解压缩图像和左目中对应帧的解压缩图像中以1为步长的大小分别为16×16，16×8，8×16，8×8，8×4，4×8，4×4的小块的像素和与像素的平方和，以减少块匹配过程中的重复计算。附图3为双目立体视频编码的MCP和DCP结构示意图，右目中，每个宏块使用DCP从左目中预测，使用MCP从右目的前一帧预测。编码器首先在右目的前一帧中搜索，选择最匹配的D块；从第一个宏块开始处理，依次对当前帧的所有16×16宏块进行编码，转入步骤三；

步骤五：然后编码器在左目对应帧搜索，选择最匹配的D块。从第一个宏块开始处理，依次对当前帧的所有16×16宏块进行编码，转入步骤六；附图4(a)为双目立体视频序列“exit”第3帧，利用全搜索方法解压缩DCT变换编码之后的右目解压缩图像，附图4(b)为双目立体视频序列“exit”第3帧，利用DCP快速方法解压缩DCT变换编码之后的右目解压缩图像。

附图4(a)中，对应PSNR＝37.176，压缩比CR＝97.772；附图4(b)中，对应PSNR＝37.186dB，压缩比CR＝98.230。可以看出：快速算法虽然搜索点数大大减少，但是图像的质量和压缩比都能在原有基础上，有稍微的上升，保证了在减低编码时间情况下，不影响图像的质量。

步骤六：对与当前子块位置相同的父块进行块匹配，得到RMS，并保存迭代函数系统系数，该系数包括父块与子块的相对位移矢量(x，y)，比例因子s和偏移因子o；依次对当前帧的所有宏块进行编码，在父块域中的搜索窗内首先对该宏块进行块匹配；在进行子块与父块的匹配过程中，子块的位置作为父块的起始搜索点，父块的大小与子块的大小相同并转入步骤七；如果所得的匹配误差RMS小于开始设定的阈值γ，保存当前的迭代函数系统系数即IFS系数，转入步骤六编码下一宏块；否则，依次按照树状结构对该块进行划分，并对各个划分得到的小块分别转入步骤七计算匹配误差RMS，如果RMS小于设定阈值γ，停止划分并记录该小块IFS系数，转入步骤六编码下一宏块；否则继续划分，直到将当前块划分为预先设定的最小块，转入步骤七计算RMS，记录IFS系数，转入步骤六编码下一宏块；最后与步骤三所得结果比较，选择误差最小的作为预测结果；所述搜索窗为在参考帧中的矩形搜索区域；所述IFS系数包括父块位置(x，y)和比例因子s、偏移因子o；如果当前帧所有的宏块都已编码完毕，则转到步骤十；

步骤七：图1e为DCP快速算法流程图，具体实现如下：根据立体几何极线约束，图5中点P(x_c，y_c，z_c)在左右图像上的点必定位于对应的偏振线上；由偏振性可知，最佳匹配点位于偏振线上也就是水平线上，但在实际中可能存在一定的误差，因此采用在垂直方向上先上下隔行搜索两个点，例如图6中的点2和点3；如果这两个点的RMS均大于偏振线上点的RMS转到步骤八，否则转到步骤九；

两摄像机在同一时刻观看空间同一特征点P(x_c，y_c，z_c)，它在左图像和右图像的坐标分别为p_left＝(X_left，Y_left)，p_right＝(X_right，Y_right)。其中点P(x_c，y_c，z_c)与两个光心所确定的平面称为偏振平面，偏振平面与左右图像的交线称为偏振线。由几何关系得到：

\{\begin{matrix} X_{left} = f \frac{x_{c}}{z_{c}} \\ X_{right} = f \frac{(x_{c} - B)}{z_{c}} \\ Y = f \frac{y_{c}}{z_{c}} \end{matrix} - - - (10)

步骤八：由视差矢量

可知，对于同一特征点，其透视投影左图像可认为是右图像沿水平负向的局部平移。也就是说同一空间点在右图像上的图像坐标比在左图像上的图像坐标偏右，因此在搜索时只需沿一个方向进行。在立体平行摄像系统中，进行DCP搜索时只需沿水平方向进行搜索即可。最佳匹配点位于初始点的右侧，只沿初始点的右侧进行搜索，在搜索过程中进行跳跃式搜索；如图6所示，例如点1匹配完之后，向右间隔两个点进行搜索，即搜索点4，计算RMS，并转入步骤七进行垂直方向搜索；如果点4的RMS小于点1的RMS值，将点4作为起始搜索点，转回到步骤八开始位置，继续水平搜索下一点；

否则说明当前点的RMS大于前一点的RMS，例如点13的RMS大于点7的RMS，那么说明最佳匹配点位于这两点之间，如果点8的RMS小于点9，那么此最佳匹配点位于虚线框内，此时搜索点范围已大大缩小，并且为了最大化匹配精度，本文对此虚线框内未搜索的点进行全搜索，反之如果点8的RMS大于点9的RMS，那么最佳匹配点位于实线框内，对实线框进行全搜索，至此选择RMS最小的点作为最终匹配结果，结束DCP搜索过程，继续执行步骤六；

步骤九：选择两点中RMS最小的点，例如此时点2的RMS最小，那么在垂直方向上再搜索点1和点2之间的点，计算其RMS，选择这三个点中误差最小的点作为此垂直方向上的最佳匹配点，转入步骤八继续沿偏振线方向进行搜索；

步骤十：对所有IFS系数进行Huffman编码，Huffman编码是根据出现的概率将每个符号映射到一个变长码字的集合(VLC)上，降低IFS系数数据的统计冗余。判断当前帧是否为最后一帧，如果是最后一帧结束编码，否则，返回步骤一继续处理下一帧图像。

如附图1c和图1d所示，一种基于分形的双目立体视频解压缩方法，包括以下步骤：

步骤I：首先读入左目压缩信息，包括压缩帧数，每帧的宽和高，I帧重建质量，插入I帧的间隔；

步骤III：对于I帧，从压缩文件中读入码流，进行类似于JPEG的解压缩方式进行解码，进行反DCT变换，得到每一个8×8的块的像素值，帧数加一转入步骤VII；

步骤IV：对于非I帧，计算左目前一帧即参考帧中按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和；

步骤V：读入右目压缩信息，包括压缩帧数，每帧图像的宽和高，I帧压缩质量和插入I帧的间隔；计算右目前一帧和左目对应帧即参考帧中按照设定步长划分的所有宏块以及经树状划分得到的小块的像素和、像素平方和，转入步骤VI；

步骤VI：从压缩文件中读入块的划分信息和Huffman码流，并根据以上的信息得到该帧所有宏块的划分方式和每一个小块的迭代函数系统系数，按照每一宏块进行解码，对于每一个宏块进行解压缩时，首先判断该宏块在编码时的划分方式，对于每一个子块，首先在父块域找到与该子块相对应的区域，然后利用下面的公式获得该子块的像素值，

r_i＝s·d_i+o

处理的双目立体视频序列为YUV格式，分别对3个分量中的每个采用上述七个步骤进行处理。

本方法选择Visual C++6.0作为所述方法的实现语言，CPU为

Core^TM 2DuoT8300，2.4GHz主频，内存大小为2G，对标准测试视频序列“bus.cif”进行了基于分形的双目立体视频编码实验。

表1为在同等条件下，利用本发明方法与CPM/NCIM方法对标准测试序列“bus.cif”起始帧的对比实验结果。

表1CPM/NCIM方法和本发明方法的起始帧压缩结果对比

表2为两段视频中的右目视频的平均性能参数结果，左目结果没有列举出来。

分别对“exit”和“ballroom”双目立体视频序列1至20帧采用全搜索算法和本文所提出的快速搜索算法对增强目进行编码结果的平均值如表2所示。从图7和表2可以看到，对“exit”双目立体视频序列，采用快速搜索算法的搜索点数仅为全搜索算法的0.029倍，而PSNR值提高了0.01dB，同时压缩比增加了0.26；对于“ballroom”双目立体视频序列，采用快速搜索算法搜索点数仅为全搜索算法的0.028倍，而PSNR和压缩比仅分别下降了0.01dB和0.12。

表2两段视频序列压缩性能均值对比

分别对“ballroom”和“exit”双目立体视频序列左右两个通道前20帧进行了实验，二者大小均为640×480像素，YUV 4:2:0制式的双目立体视频序列。本文基于分形视频编码算法，比较的对象为基本层均为分形编码方法，而增强层在进行DCP编码时一种采用传统全搜索算法，另一种采用本文所提出的快速搜索算法。主要从增强目视频图像重建质量、压缩比和运算复杂度三方面对二者进行对比。其中重建帧质量用峰值信噪比(PSNR)表示，运算复杂度用平均搜索点数表示。MCP水平和垂直搜索范围都是[-7，7]，DCP全搜索水平搜索范围为[-50，50]，垂直搜索范围[-2，2]，本文所提快速DCP水平搜索范围[0，50]，垂直搜索范围[-2，2]，所得实验结果如图7所示。

将分形视频编码方法应用到双目立体视频编码领域，并根据立体平行摄像结构的几何约束，提出了一种新的视差估计算法，通过仿真实验可以得到，该算法在保证压缩比和PSNR保持不变的前提下，极大地降低了运算复杂度，为双目立体视频编码的实时性应用奠定了基础。

本方法充分利用双目立体视频的结构特性，在搜索方法上提出了新的改进，使得搜索点数大大减少，从而运算的复杂度和时间都降低了。在分形编码中，算法复杂度和编码时间一直都是最为关注的问题，也是比较难解决的方面。本方法针对这方面，进行了深入的挖掘和思考，同时也取得了很好的效果，为以后的研究打下了良好的基础，也指明了一定的方向。

Claims

1.一种基于分形的双目立体视频压缩编码方法，其特征在于具体步骤如下：

2.根据权利要求1所述一种基于分形的双目立体视频压缩编码方法，其特征在于：处理的视频序列为YUV格式，分别对3个分量中的每个采用上述十个步骤进行处理。

3.根据权利要求1所述一种基于分形的双目立体视频压缩编码方法，其特征在于：所述步骤三和步骤六中对宏块采用树状划分，块匹配采用匹配误差准则；子块与父块的匹配误差RMS为：

RMS = \frac{1}{N} [Σ_{i = 1}^{N} r_{i}^{2} + s (s Σ_{i = 1}^{N} d_{i}^{2} - 2 Σ_{i = 1}^{N} r_{i} d_{i} + 2 o Σ_{i = 1}^{N} d_{i}^{2}) + o (N \cdot o - 2 Σ_{i = 1}^{N} r_{i})] - - - (1)

其中参数s和o分别为：

s = \frac{[N Σ_{i = 1}^{N} r_{i} d_{i} - Σ_{i = 1}^{N} r_{i} Σ_{i = 1}^{N} d_{i}]}{[N Σ_{i = 1}^{N} d_{i}^{2} - {(Σ_{i = 1}^{N} d_{i})}^{2}]} - - - (2)

o = \frac{1}{N} [Σ_{i = 1}^{N} r_{i} - s Σ_{i = 1}^{N} d_{i}] - - - (3)

4.根据权利要求1所述一种基于分形的双目立体视频压缩编码方法，其特征在于：所述步骤七中垂直方向的搜索方法运用了双目立体视频的偏振性，最佳匹配点位于偏振线上即水平线上；在立体平行摄像系统中，沿水平方向进行DCP搜索；

\{\begin{matrix} X_{left} = f \frac{x_{c}}{z_{c}} \\ X_{right} = f \frac{(x_{c} - B)}{z_{c}} \\ Y = f \frac{y_{c}}{z_{c}} \end{matrix} - - - (4)

5.根据权利要求1所述一种基于分形的双目立体视频压缩编码方法，其特征在于：所述步骤八中水平方向的搜索方法运用了双目立体视频的方向性：同一空间点在两图像平面中的投影位置差矢量即视差

视差D是深度z的函数，表示相对深度，对于同一特征点，其透视投影左图像是右图像沿水平负向的局部平移；同一空间点在右图像上的图像坐标比在左图像上的图像坐标偏右，在搜索时沿一个方向进行。

6.一种基于分形的双目立体视频解压缩方法，包含以下步骤：

步骤II ：判断解码帧是否为I帧，若是I帧转入步骤III，否则转入步骤IV；

7.根据权利要求6所述一种基于分形的双目立体视频解压缩方法，其特征在于：对于每一个宏块进行解压缩时，首先判断该宏块在编码时的划分方式，对于每一个子块，首先在父块域找到与该子块相对应的区域，然后利用下面的公式获得该子块的像素值，

r_i＝s·d_i+o (5)

8.根据权利要求6所述一种基于分形的双目立体视频解压缩方法，其特征在于：在基于分形的双目立体视频解码过程中，左目用常规单目的运动补偿预测(MCP)编码，右目的每个图像块通过运动补偿预测(MCP)和视差补偿预测(DCP)两种方式进行预测，从中选择误差较小的一种作为预测结果。

9.根据权利要求6所述一种基于分形的双目立体视频解压缩方法，其特征在于：处理的视频序列为YUV格式，分别对3个分量中的每个采用上述七个步骤进行处理。