CN100531400C

CN100531400C - 基于宏块级和像素级运动估计的视频差错掩盖方法

Info

Publication number: CN100531400C
Application number: CN 200710044221
Authority: CN
Inventors: 宋利; 杨小康; 张文军; 郑世宝; 马鑫
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai National Engineering Research Center of Digital Television Co Ltd
Priority date: 2007-07-26
Filing date: 2007-07-26
Publication date: 2009-08-19
Anticipated expiration: 2027-07-26
Also published as: CN101102511A

Abstract

一种数字视频通信技术领域的基于宏块级和像素级运动估计的视频差错掩盖方法，步骤为：接收端视频解码的错误检测：视频解码过程中，通过错误检测机制定位出当前帧内错误宏块的位置；当错误检测发现传输差错时，对受损宏块进行宏块级的运动估计和像素级的运动估计；根据估计出的宏块级运动矢量、像素级运动矢量和参考帧中相应位置的像素值，加权预测受损宏块内每个像素的预测值；根据获得的预测值对受损宏块内像素进行替代。本发明与现有技术相比，峰值信号噪声平均要高1.3db，且具有更好的主观视觉效果。本发明尤其适合于较差传输性能的PSTN或无线信道，能显著地提高视频传输的可靠性，改善视频图像的质量。

Description

基于宏块级和像素级运动估计的视频差错掩盖方法

技术领域

本发明涉及一种数字通信技术领域的方法，尤其涉及一种基于宏块级和像素级运动估计的视频差错掩盖方法。

背景技术

当前，公共电话交换网(PSTN)、国际互联网和移动通信环境下的视频传输研究正在引起国内外的广泛关注。然而，由于目前数字视频传输所采用压缩技术和标准大多数如ITU指定的H.261，H.263，H.263+，H.264标准以及ISO的MPEG组织指定的MPEG-1，MPEG-2，MPEG-4等都是建立在混合编码的框架之上的。所谓混合编码框架是一种混合时间空间视频图像编码方法，是以运动补偿预测编码以及变长编码作为压缩的核心技术。用这类技术压缩后的数据流在极易发生干扰的环境中传输时，信息丢失产生的影响会迅速地在时间和空间上扩散，从而导致视频质量明显下降，甚至产生极差的视觉效果。目前已有许多差错控制技术用来对抗视频传输干扰影响，其中，差错掩盖技术便是在解码器中广泛采用的一种改善视频主观效果的方法。

从已有的研究成果来看，差错掩盖技术可分为空间掩盖和时间掩盖两类，分别应用视频丢失信息在空域上的周边信息及丢失信息在时域上的周边信息对丢失的信息进行恢复。其中，由于视频大量地使用了运动估计的技术，因此时域差错掩盖通常能够获得更好的效果。时域差错掩盖的基本思路在于通过恢复丢失块的运动信息，从而根据运动信息来恢复出整个块的像素信息。

经对现有技术的文献检索发现，Y.K.Wang等人在2002年9月《图像处理国际会议刊物》(Proceedings of International Conference on ImageProcessing)729页到732页发表的“The Error Concealment Feature in theH.26L Test Model”(H.26L测试模型中的错误掩盖特征)一文中采用的边界匹配方法(简称为BMA)，以及J.Zhang等人在2000年《IEEE电路系统与视频技术期刊》(IEEE Transaction on Circuits System and Video Technology)第10卷659页到665页发表的“A Cell-Loss Concealment Technique for MPEG-2Coded Video”(一种用于MPEG-2的编码视频的包丢失掩盖技术)一文中提出的解码端运动估计(简称为DMVE)方法，是两种较好的运动信息恢复方法。DMVE方法利用丢失宏块的周边可获得的像素在参考帧中进行搜索，得到与这些像素最匹配的结果，并记录下这个最佳匹配所对应的运动信息，包括运动矢量及参考帧索引。然后基于运动的一致性，认为此运动信息为丢失宏块运动信息的恢复，利用恢复的运动信息恢复出整个宏块的像素值。其中最佳匹配是通过计算当前宏块的周围像素值与相应的替换宏块周围的像素值的平均绝对值误差(简称为MAD)来确定。

上述方法是利用受损宏块与其周围邻近宏块的运动矢量具有一定的相关性这一特征，由于宏块周围的像素本身并不能保证处于一致的运动，因此以这些像素进行匹配得到的运动估计，很可能对于宏块中的某些像素是不准确的。同样，鉴于新的视频标准如H.264的发展，对于宏块已经能最小划分到4x4大小进行运动估计，这样当宏块内部像素存在多个不同运动时，可更好地提高编码效率，因此利用运动信息对宏块在时间域进行差错掩盖时，如果宏块内的所有像素都使用同一种运动信息进行恢复，在运动复杂区域难以获得理想的结果。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于宏块级和像素级运动估计的视频差错掩盖方法，使其通过在解码端进行宏块级和像素级两次运动估计，能够自适应地估计出宏块内每个像素点的运动矢量，恢复受损图像，提高数字视频传输的图像质量。

本发明是通过以下技术方案实现的，本发明方法步骤如下：

第一步，接收端视频解码的错误检测：视频解码过程中，通过错误检测机制定位出当前帧内错误宏块的位置；

第二步，当错误检测发现传输差错时，对受损宏块进行宏块级的运动估计和像素级的运动估计。

所述对受损宏块进行宏块级的运动估计和像素级的运动估计，具体如下：

a.用平均像素绝对误差作为丢失宏块内每个像素运动估计的代价准则，代价最小时的运动矢量作为宏块级运动矢量的估计值，同时计算出宏块级运动矢量所对应的基于距离的平均像素绝对误差。

b.把每个宏块周边像素与当前被预测的像素点的距离考虑到平均绝对误差的计算中，用基于距离的平均像素绝对误差作为丢失宏块内每个像素运动估计的代价准则，代价最小时的运动矢量记为像素级估计值，并存储记录下对应的代价值。

此外，计算平均像素绝对误差和基于距离的平均像素绝对误差时，根据丢失宏块周边像素状态的不同，权重不同，具体方式是：如果周围像素是正常解码获得的像素，则权重较高，默认为一；如果周围像素是差错掩盖后获得的像素，则权重较低，默认权重值为三分之一。

所述的默认权重值可根据具体应用进行修改。

第三步，根据上述步骤估计出的宏块级运动矢量、像素级运动矢量和参考帧中相应位置的像素值，加权预测受损宏块内每个像素的预测值；

所述加权预测受损宏块内每个像素的预测值，具体如下：根据宏块级运动矢量和像素级运动矢量对应的基于距离的平均像素绝对误差值，将每个像素所分别对应的两个运动所指向的两个预测像素值进行加权平均，获得最终每个像素的预测值，即基于距离的平均像素绝对误差值越小的运动，在掩盖中的贡献越大。

第四步，根据上述步骤获得的预测值，对受损宏块内像素进行替代。

与现有技术相比，本发明充分考虑了丢失宏块整体运动、宏块内每个像素的局部运动以及周围像素的状态信息，自适应地从参考帧内选择合适的预测像素，进一步提高了时间掩盖的性能，可以明显地提高数字视频图像传输的可靠性，改善图像的显示效果，并且本发明与MPEG-X和H.26X等标准兼容，适用范围广。实验表明，本发明与传统的边界匹配方法和解码端运动估计方法相比，峰值信号噪声平均要高1.3db，且具有更好的主观视觉效果。

附图说明

图1是本发明实施例的流程框图。

图2是实施例基于平均像素绝对误差进行解码端运动估计的示意图。

图3是实施例的基于距离的平均像素绝对误差计算的示意图。

图4是实施例的视频测试序列“Bus”在第4帧丢失多个宏块条的条件下，各种掩盖方法性能比较图。其中图(a)没有进行掩盖，16.33db，图(b)BMA掩盖结果，29.12db，图(c)DMVE掩盖结果，29.54db，(d)本发明掩盖结果，30.86db。

图5是实施例的视频测试序列“Bus”在第4帧局部区域掩盖比较图。其中图(a)为掩盖结果，(b)DMVE掩盖结果，(c)本发明掩盖结果。

具体实施方式

下面结合附图对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和过程，但本发明的保护范围不限于下述的实施例。

将352x288大小的CIF(通用中间媒体格式)、帧率为25帧/秒的视频测试序列“Bus”，用ITU视频压缩标准H.264的测试模型JM11.1编码器进行压缩，采用GOP(图像组)为16，结构为IPPP…(首帧为帧内编码类型，其余帧为前向预测的帧间编码类型)，量化索引为30。I帧不出错，P帧每隔5帧加错，出错为连续宏块丢失，其中每隔三行宏块，即有连续的18个宏块丢失。本发明当发生传输错误时，考虑了丢失宏块周边像素的状态，以平均像素绝对误差和基于距离的平均像素绝对误差为匹配代价函数，对受损宏块进行宏块级的运动估计和像素级的运动估计，然后根据估计出的两个运动矢量和参考帧中相应位置的像素值，执行基于像素的自适应差错掩盖。

如图1示出了本发明实施例处理步骤：

(1)差错检测：视频解码时，通过判断数据包的时间戳或序号是否正确、或判断每个编码基本单元运动矢量是否超出了设定的范围、接收到的压缩码流的码字是否合法、解码后数据是否正常、每个数据块中宏块个数是否正常等等，定位出当前帧内错误宏块的位置。

(2)受损块内像素点的运动矢量估计：对每个受损宏块周围边界内的像素集合，在参考帧中以对应位置为起始点，对周围一定范围内的每个像素点进行搜索，以失真度最小为原则，分别按照两种不同边界匹配失真度准则，从一组侯选运动矢量中选择出最合适的两组运动矢量，图2所示为边界匹配的示意图。

第一种边界匹配失真度为平均像素绝对值误差(简写为MAD)，其计算如公式(1)

MAD = \frac{1}{Σ w_{i, j}} (\underset{i, j &Element; B}{Σ} w_{i, j} | F_{i, j} - F_{i + m_{x}, j + m_{y}}^{r} |) - - - (1)

其中，(i，j)为像素在一帧视频中的位置，B为可获得的边界像素集合，F_i，j为当前帧中丢失宏块周围可获得像素点的值，(m_x，m_y)为当前考虑的可能运动矢量，为参考帧中的像素值，N为总的边界点得个数，w_i，j代表像素点(i，j)的权重选择如公式(2)

第二种边界匹配失真度为基于距离的平均像素绝对值误差(简写为DMAD)，其计算如公式(3)

DMAD = \frac{\underset{(i, j) &Element; B}{Σ} \frac{1}{d [(i, j), (m, n)]} w_{i, j} | F_{i, j} - F_{i + m_{x}, j + m_{y}}^{r} |}{\underset{(i, j) &Element; B}{Σ} \frac{1}{d [(i, j), (m, n)]} w_{i, j}} - - - (3)

其中(m，n)为当前被估计的丢失宏块中的像素点的坐标，d[(i，j)，(m，n)]表示边界点(i，j)到当前点(m，n)的距离。w_i，j代表像素点(i，j)的权重选择如公式(2)。DMAD的计算如图4所示。

每个像素点用失真度为平均像素绝对值误差所获得的整体运动信息，计算相应的DMAD值，记为dmad_m，n ^w。

(3)像素预测值的自适应加权：对宏块中的每一个像素而言，都有一个基于像素的估计获得的运动所计算得到的dmad_m，n ^p，及一个基于估计获得的整体运动所计算得到的dmad_m，n ^w，利用这两个DMAD值将每个像素所分别对应的两个运动所指向的两个预测像素值进行加权平均，获得最终每个像素的预测值，即DMAD值越小的运动，在掩盖中的贡献越大，其计算如公式(4)

F_{m, n}^{'} = \frac{\frac{1}{{dmad}_{m, n}^{w}} F_{m + {mv}_{x}^{w}, n + {mv}_{y}^{w}}^{r^{w}} + \frac{1}{{dmad}_{m, n}^{p}} F_{m + {mv}_{x}^{p}, n + {mv}_{y}^{p}}^{r^{p}}}{\frac{1}{{dmad}_{m, n}^{w}} + \frac{1}{{dmad}_{m, n}^{p}}} - - - (4)

其中，F′_m，n为像素点(m，n)的恢复值，(mv_x ^w，n+mv_y ^w)及

为DMVE获得的宏块整体的运动矢量及其指向的对应的预测像素，(mv_x ^p，n+mv_y ^p)及

为用DPMVE获得的当前丢失像素点的运动矢量及其指向的对应预测像素。

(4)差错掩盖：对当前受损宏块内的每个像素，用上述步骤得到的预测像素值进行替代，完成差错掩盖。

对于所有丢失的宏块按照上述步骤处理，即可掩盖所有出错图像信息。

作为对比实例，本实施例还实现了在相同出错情况下，BMA方法与DMVE方法。其中为了测试掩盖的效果，在进行DMVE和本发明方法实施时，考虑到实际应用中解码所需要的实时性，只选取宏块周围一像素宽的边界作匹配之用，并在可能的运动集合选取上，根据前文所提的运动一致性，只取与丢失宏块所相邻的4x4块的运动为可能的运动集合，然后在这个集合中进行运动估计。实验发现，本发明相比BMA和DMVE有更好的掩盖效果，峰值信号噪声平均要高1.3db。同时可以进一步发现，当序列中出现比较大或者比较复杂的运动时，本发明优势更明显。图4给出了本发明方法即对比方法对剧烈运动测试序列“Bus”的实验结果，图5为图4中汽车车头位置局部放大的效果。从效果图中可以看出，BMA方法在汽车车头位置恢复效果不理想，栏杆两侧有明显的视觉瑕疵，IDMVE方法恢复效果比BMA方法有显著改善，但是掩盖位置的块效应比本发明要大。缺失的栏杆被DMVE方法掩盖为汽车的外壳白颜色，而本发明方法将其用周围像素加权值进行掩盖，颜色较深，视觉上有明显的改善。

Claims

1、一种基于宏块级和像素级运动估计的视频差错掩盖方法，其特征在于，步骤如下：

第二步，当错误检测发现传输差错时，对受损宏块进行宏块级的运动估计和像素级的运动估计；

2、如权利要求1所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，所述对受损宏块进行宏块级的运动估计和像素级的运动估计，具体如下：

a.用平均像素绝对误差作为丢失宏块内每个像素运动估计的代价准则，代价最小时的运动矢量作为宏块级运动矢量的估计值，同时计算出宏块级运动矢量所对应的基于距离的平均像素绝对误差；

3、如权利要求2所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，计算平均像素绝对误差和基于距离的平均像素绝对误差时，根据丢失宏块周边像素状态的不同，权重不同。

4、如权利要求3所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，当周围像素是正常解码获得的像素，则权重取值大。

5、如权利要求4所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，当周围像素是正常解码获得的像素，则默认权重值为一。

6、如权利要求3所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，当周围像素是差错掩盖后获得的像素，则权重取值小。

7、如权利要求6所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，当周围像素是差错掩盖后获得的像素，则默认权重值为三分之一。

8、如权利要求1所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，所述加权预测受损宏块内每个像素的预测值，具体如下：

根据宏块级运动矢量和像素级运动矢量对应的基于距离的平均像素绝对误差值，将每个像素所分别对应的两个运动所指向的两个预测像素值进行加权平均，获得最终每个像素的预测值，即基于距离的平均像素绝对误差值越小的运动，在掩盖中的贡献越大。

9、如权利要求1所述的基于宏块级和像素级运动估计的视频差错掩盖方法，其特征是，所述通过错误检测机制定位出当前帧内错误宏块的位置，具体如下：视频解码时，通过判断数据包的时间戳或序号是否正确、或判断每个编码基本单元运动矢量是否超出了设定的范围、接收到的压缩码流的码字是否合法、解码后数据是否正常、每个数据块中宏块个数是否正常，定位出当前帧内错误宏块的位置。