CN1589016A

CN1589016A - 视频编码中一种提高运动估计速度和精度的技术

Info

Publication number: CN1589016A
Application number: CN 200410056870
Authority: CN
Inventors: 杨振华; 陈越; 李长业; 谷湘煜
Original assignee: CHANGXINJIA INFORMATION TECHNOLOGY Co Ltd BEIJING
Current assignee: CHANGXINJIA INFORMATION TECHNOLOGY Co Ltd BEIJING
Priority date: 2004-08-27
Filing date: 2004-08-27
Publication date: 2005-03-02

Abstract

本发明属于运动图像编码技术领域。本发明提供一种提高视频运动估计速度、精度及正确性的技术，尤其是在编码有噪声的视频序列时，编码效率可以较大的提高。它包括两部分：一、在当前待编码块做运动估计前：判断该块是否需要做运动估计，并根据判断结果选择后续处理方式。二、在当前待编码块运动估计后：判断当前运动估计的结果是否是正确的运动估计。该发明的主要特征在于：在两部分处理过程中，不是根据重建的参考帧数据，而是根据参考帧的原始图像数据中相应位置块和当前帧中相应块的相互关系做出判断。与现有的技术相比，该技术不仅具有很强的抗干噪声扰性能，而且节省了大量的搜索时间，提高了压缩比，在压缩质量上也有了相当的提高。

Description

视频编码中一种提高运动估计速度和精度的技术

技术领域

本发明属于视频编码技术领域，涉及一种提高视频压缩中运动估计速度和精度的技术。

背景技术

在当今信息化时代，图像的存储和传输变得越来越重要。由于图像原始数据信息量十分巨大，要在有限容量的存储介质进行存储和有限带宽的信息通道传输图像，图像数据的编码压缩是必不可少的。运动图像编码是通过综合利用图像信号在时间、空间、统计三方面的冗余度，以及场景的知识、人的视觉特征实现的。目前较为成熟的编码方法是综合了预测编码、变换编码、墒编码几种编码方法以及运动补偿技术的混合编码方法，混合编码方法在现有的标准中表现为帧内压缩和帧间压缩，其中帧间压缩是其压缩比的主要来源，因此现有的视频压缩标准MPEG1/2/4、H.261/3/4大都采用基于运动估计的帧间压缩方案。其原理就是先将当前帧分成若干大小相同的块，对每个块(当前待编码块)在参考帧某个的窗口内搜索与之最相似的匹配块。当前待编码块和匹配块的位置差称为运动矢量，象素差称为残差块。由于残差块中接近0的象素很多，通过变换、量化、墒编码，可以大幅度提高压缩比。

现有的实现上述混合编码方法的编码器如附图1。该编码器(这里只叙述帧间编码)的工作过程是：

首先对一帧(一幅)图像以宏块(16×16象素)或块(8×8或4×4)为单位进行编码。整个编码过程分为两部分：运动估计和编码核心。当前帧的每个宏块首先进入运动估计模块作运动估计(搜索最佳匹配块)，方法是：直接在参考帧中对应块(下称同一位置块)的相应位置(0，0)或根据其他信息得到的初始点作为搜索起点，在一定范围内，向上、下、左、右方向搜索，获得一个运动向量，使得的SAD(绝对差和：

Σ_{i = 0}^{T 1} | I_{i} (m, n) - I_{i}^{'} (m, n) |,

其中i为当前待编码块内的所有点；I_i为当前帧中i位置的灰度值，I′_i为重建参考帧中i位置的灰度值)最小。运动估计后，编码核心对当前帧宏块进行编码，根据运动估计的得到的宏块的运动向量，对参考帧预测得到当前预测帧宏块，然后用当前帧宏块减去当前预测帧宏块计算预测误差，接着做余弦变换、量化、墒编码和图像重建。

在上述步骤中，运动估计、预测及预测误差的计算构成预测编码，是为了消除图像在时间上的相关性。图像时间上的相关性表现在当前帧图像的一部分是由上一帧图像上的一部分经过运动而得到的。这个运动是通过运动向量来描述的。运动估计的目的是获得这个运动向量，而预测是根据运动向量来补偿，抵消当前帧图像与上一帧图像部分间因运动而产生的信号的变化。

正交变换构成变换编码，目的是为了消除图像信号在空间上的相关性。量化既是后面墒编码的需要，又是利用了人的视觉特性来提高编码的压缩比。

变长编码构成墒编码，进一步消除了图像信号的统计相关性。逆量化、逆余弦变换；加法器实现重建，为后续的预测提供参考。

实践证明，这种编码器的实现方法存在很多不足之处，尤其在实用时，摄像头拍摄的视频序列中存在大量的噪声情况下，存在压缩比低、压缩时间慢，视觉质量差等问题。

实践证明，在上述编码器的实现过程中，运动估计不仅最费时，而且直接影响压缩效率，是视频压缩的关键，因而产生了许多运动估计算法，包括最费时间的全搜索法和一系列快速算法。但总的说来，这些算法在速度和精度上不能令人满意。

发明内容

本发明的目的在于克服已有技术的不足之处，在原有编码方法的基础上对运动估计、运动补偿以及编码框架做了改进，改进后的编码器流程见附图2。技术方法的流程图见说明书附图3、附图4。

下面是对这些改进部分的详细说明：

在对当前帧每块运动估计前在原始参考帧上做运动分析：现有运动估计方法都没有这一步。本发明里提出的分析方法是：对当前帧的块里的所有点，计算该点周围一定“区域AREA【见注1】”内的点(数目为T1个【见注2】)与(0，0)点(即原始参考帧同一位置点)周围的点的差累加和SD；如果差累加和SD的绝对值小于某个域值T2，则该点是静止点，否则是运动点；统计每一个块中的运动点和静止点的个数，如果运动点个数少于某个域值T3【见注3】，则认为该块是静止块，则运动估计以及后续的变换量化编码等处理都可以省略。否则该块是运动块。

对于运动块的处理有两种：

1.用已有技术做运动估计。运动估计后，对当前待编码块中的每一点与运动矢量指向的原始参考块对应的点按上述方法分别求差累加和SD，判断是否是静止点；统计该块的中运动点的个数，如果运动点个数少于某个域值T3，则认为该块运动估计的结果是找到了正确的运动向量，可继续后续的运动补偿变换等处理。否则该运动向量不是正确的运动向量，这种判断为高质量编码提供了客观的依据。

2.对于存在运动点个数小于T4【注4】的运动块，可不作运动估计，直接在参考帧中的对应块和当前待编码块间做运动补偿：并置所有静止点间的差为0，保留所有运动点所引起的差，这样做的目的是只编码动点的差值，不编码静止点间的差值。

在本发明中，采取上述方案是基于下述考虑：

1.用参考帧的原始数据作为运动分析的参考帧。到目前为止，在现有的视频编码技术中大都没有充分利用原始数据的有用信息，是用重建帧(或者滤波图象)数据来做运动估计等分析。实际上重建数据的一些信息特性经过量化等处理与原始数据有了较大的改变，将其作为运动估计和运动分析的唯一依据，必然引起一定的误差。本方法采用原始数据做参考，是合乎自然规律的。

2.原来的运动估计使用的是SAD，在本技术里面用的是差累加和SD作为判断规则。在有噪声的情况下，静止块的SAD也很大，根据无规律热噪声的特性，静止块的差累加和SD非常小；如果采取传统的编码器技术在运动补偿后会将这部分噪声编码，而采取本发明中的方法将不会对因为噪声引起的差编码，从而将大大提高编码速度，提高压缩比，增强视觉效果。

3.对于本技术检测到的静止点、静止块，可认为就是静止点、静止块。因此运动估计、变换、量化、墒编码、反量化、反变换都可以省略。

4.对于需要做运动估计的块：在用现有的运动估计做完后，得到的运动向量仅仅是使得SAD最小的运动向量，该运动向量是并不能保证是编码效果最好的运动向量。用得到的运动向量指向的在原始帧中的块与当前待编码块求差的累加和SD。如果差累加和SD比较小(小于某个域值)，说明得到的运动既是使得SAD最小的运动向量又是真正的运动向量，否则就是仅仅使得SAD最小的运动向量。该技术能正确地评价运动估计的效果，为高质量的编码提供了合理的客观参考信息。

实验证明，本发明提出的技术充分利用了原始视频图象相邻帧间的关联性以及噪声特性，实现的技术灵活、高效，可以大大提高视频压缩的速度和质量。

【注1】“区域AREA”：可是任意形状的，一般情况下是围绕待处理点为中心的圆形或者方形区域。

【注2】T1：根据原始图象上噪声的数学模型定。通常情况下，可设置在9～100个象素内，数目过少对噪声压制能力有限，数目过大则计算量过大。

【注3】T2：为T1乘以某个系数：一般情况下可设为【1×T1～3×T1】。

【注4】T3：与块的大小有关；一般情况下可设为【1～0.25×T1】。

【注5】T4：描述的方法中T4：与块的大小有关；一般情况下可设为【1～0.5×T1】。

【注6】差累加和SD：

Σ_{i = 0}^{T 1} (I_{i} (m, n) - I_{i}^{'} (m, n)) .

其中i为区域T1内的所有点；

I_i为但前帧中i位置的灰度值，I′_i为原始数据参考帧中i位置的灰度值。

附图说明

附图1：现有编码器框图

附图2：改进的编码器流程图

附图3：改进的运动分析及编码流程图

附图4：运动分析流程图

Claims

1.本发明是一种提高视频压缩中运动估计速度和精度的技术，其特征包括：整帧象素点运动分析，即分析当前帧的每个点的运动情况：计算该点周围一定“区域AREA”内的点(数目为T1个)与(0，0)点(即参考帧原始数据同一位置点)周围点的差累加和(简称SD)；如果差累加和的绝对值小于某个域值T2，则该点是静止点，否则是运动点。

2.在权利(1)中所述方法对整帧图像运动分析后，整帧被分割成运动区域和静止区域：运动区域只包含运动点，静止区域只包含静止点；这种分割方法可以为形状编码提供参考信息。

3.在权利(1)中所述方法对整帧图像运动分析后，统计每一个块中运动点和静止点的个数；如果运动点个数少于某个域值T3，则判断该块是静止块，且运动估计以及后续的变换、量化、编码、反量化、反变换处理都可省略；否则该块是运动块。

4.对于运动块的处理有两种方案：

a)用现有方法对该块做运动估计：做完运动估计后，对待编码块中的每一点与运动矢量指向的块对应的点按权利(1)中所述的方法分别求差累加和SD，判断是否是静止点；统计该块的中运动点的个数，如果运动点个数少于某个域值T3，则判定该块运动估计的结果是找到了真正的运动向量，否则该运动向量并不是该块真正的运动向量；

b)对于存在动点个数小于T4的运动块，不作运动估计，直接在参考帧中的对应块和当前待编码块间做运动补偿，并置所有静止点间的差为0，保留所有运动点所引起的差；这样做是只编码运动点的差值，不编码静止点间的差值。

5.在权利(1)中所述方法对整帧图像运动分析后，统计整个图像中运动点和静止点的个数，如果静止点个数大于某个域值T5(或这些点主要分布在图像的边框部分)，则认为此刻获得该帧时的镜头是静止的，这种方法可作为判断镜头是否运动或全局运动估计的一种方法。

6.编码过程中，如果对于每个块不是按上述权利代表的流程对当前帧原始数据中的所有的点做处理，而只统计该块与原始参考帧数据相应块的差累加和，进而根据差累加和大小判断该块是否是静止块的方法，也是本发明的一种实现方式。

7.该技术可在整帧编码前做，保存相应结果，进而在编码每块的过程中使用这些结果，或者在编码每个块前做，利用其结果指导每个块的编码。

8.该方法可以适用于各种压缩标准，适用于多参考帧情况：多帧情况与单帧情况处理一样。

9.权利(1)中所述“区域AREA”可是任意形状的，一般情况下是围绕待处理点为中心的圆形或者方形区域。

10.权利(1)描述的方法中T1：根据原始图像上噪声的数学模型定；通常情况下可设置在9～100个象素内，数目过少对噪声压制能力有限，数目过大则计算量过大；

差累加和

SD : Σ_{i = 0}^{T 1} (I_{i} (m, n) - I_{i}^{'} (m, n)) .

其中i为区域T1内的所有点；I_i为当前帧中i位置的灰度值，I′_i为原始数据参考帧中i位置的灰度值；T2：为T1乘以某个系数，一般情况下可设为【1×T1～3×T1】；权利(3)所述块：它的大小可以是32×32～2×2之间的任意大小组合。

权利(3)描述的方法中T3：与块的大小有关；一般情况下可设为【1～0.25×T1】；

权利(4)描述的方法中T4：与块的大小有关；一般情况下可设为【1～0.5×T1】；

权利(5)描述的方法中T5：与帧的大小有关；一般情况下可设为【1～0.5×整帧含有的象素点】。