CN1215439C

CN1215439C - 执行可缩放的分层运动估算的装置与方法

Info

Publication number: CN1215439C
Application number: CNB988126281A
Authority: CN
Inventors: 宋旭东; 蒋迪豪; 张亚勤; 拉维·克里系纳穆尔蒂
Original assignee: Sarnoff Corp
Current assignee: MediaTek Inc
Priority date: 1997-12-31
Filing date: 1998-12-31
Publication date: 2005-08-17
Anticipated expiration: 2018-12-31
Also published as: AU1947099A; JP2002500402A; KR20010033797A; WO1999034331A1; CN1283291A; US6208692B1; EP1042734A1

Abstract

公开了执行带高度可缩放性的分层的基于块的运动估算的装置及伴生的方法。本发明将图象序列内的各图象帧分解成M元金字塔。在M元金字塔的不同层上使用不同的动态范围来表示象素值，借此生成多个不同的P位层，即多种不同的M元金字塔系统结构。本可缩放分层运动估算提供根据可利用的平台源与/或用户选择从一种M元金字塔系统结构切换到另一种M元金字塔系统结构的灵活性。

Description

执行可缩放的分层运动估算的装置与方法

这是1997年12月31日提交的申请号09/002,258的部分继续申请。

技术领域

本发明一般地涉及一种用于编码图象序列的系统，而更具体地涉及执行分层的基于块的具有高度缩放性(scalability)的运动估算的装置及伴生的方法。

背景技术

诸如电视图象序列等图象序列通常包含图象帧或画面序列。再现包含运动物体的电视通常需要每秒30个图象帧的帧速度，各帧有可能包含超过一兆字节的信息。结果，传输或存储这些图象序列需要大量传输带宽或存储容量，为了减少必需的传输带宽或存储容量，将帧序列压缩从而不存储或传输序列内的冗余信息。电视、电视会议及CD-ROM的存档为能从高效视频序列编码中受益的应用实例。

通常，为了编码图象序列，关于从一帧到下一帧的场景中的物体的运动的信息在编码过程中扮演重要的角色。由于在大多数图象序列内的接连的帧之间存在着高冗余度，可采用称作运动估算/补偿的技术达到显著的数据压缩。简言之，编码器只对相对于已编码的区位移了的区的差进行编码。即，运动估算是当前帧中的一个区(如块或宏块)相对于一或多个参照帧的运动的方向与幅度(运动矢量)的确定过程。而运动补偿是利用运动矢量来生成当前帧的预测(预测图象)的过程。当前帧与预测帧之间的差得出残余信号(误差信号)，它包含比当前帧本身明显地少的信息。从而，通过只编码及传输残余信号及对应的运动矢量实现了编码位的明显节省。

然而，编码器设计人员必须解决试图提高运动估算过程的精度来减小残余信号(即减少编码位)还是接收运动估算过程中较低的精度级来减少计算开销的两分法问题。即，从帧序列确定运动矢量需要在帧之间彻底的搜索来确定运动信息。越彻底的搜索以更多的计算周期为代价生成越精确的运动矢量集合。

为了说明，一些系统利用所谓基于块的方法确定运动信息。在简单的基于块的方法中，将当前帧分成若干象素块(此后称作“当前块”)。对于各当前块，在前面的帧中的选定的搜索区内进行搜索与当前块“最佳”匹配的象素块。这一搜索通常是通过重复地将选择的当前块与前一帧中选定的搜索区中类似大小的象素块进行比较来完成的。然而，用这一穷尽搜索法来确定运动矢量是计算密集的，尤其是当搜索区特别大时。

作为替代，其它运动估算方法包含分层运动估算(HME)的概念，其中将图象分解成多分辨率构架，即金字塔形。然后执行分层运动矢量搜索，搜索从金字塔的最低分辨率向最高分辨率进行。虽然HME已表明为快速与高效的运动估算方法，金字塔的生成仍招致可观的计算周期量。

此外，上述运动估算法不是容易地可缩放的。即这些运动估算法的系统结构并不向用户或编码人员提供带有可改变比例或切换到不同的系统结构来计及可获得的计算资源与/或用户的选择的灵活性。

因此，在本技术中存在着对具有高度可量测性的分层的基于块的运动估算的装置及伴生的方法的需求。

发明内容

本发明的实施例为用于执行具有高度可缩放性的分层的基于块的运动估算装置及方法。本可缩放的分层运动估算系统结构按照可利用的平台资源与/或用户选择提供从一位/象素切换到8位/象素表示的灵活性。

根据本发明的一方面，提供一种将图象序列中的图象分解成M元金字塔的方法，所述方法包括下述步骤：(a)从所述图象中生成具有多层的图象金字塔；以及(b)从所述图象金字塔中生成具有多个P位层的M元金字塔，其中所述M元金字塔的所述P位层的至少两个的P是不同的，其中所述M元金字塔的所述P位层的至少之一是从所述图象金字塔的两层得到的。

更具体地，本发明的将图象序列内的各图象帧分解成M元金字塔，如四层二元金字塔。将表示象素值的不同动态范围用于二元金字塔的不同层上，借此生成多个不同的“P位”层。

根据本发明的另一方面，提供一种为图象序列执行运动估算的方法，其中各所述图象分成至少一块，所述方法包括下述步骤：(a)生成具有不同金字塔系统结构的多个M元金字塔，其中各所述M元金字塔系统结构包括多个P位层，其中至少一种所述M元金字塔系统结构的至少两个所述P位层的P是不同的；(b)为该图象生成平均金字塔；(c)从所述平均金字塔生成所述多个M元金字塔；(d)选择所述M元金字塔系统结构之一用于执行分层运动估算；以及(e)从所述选择的M元金字塔的最高层开始生成多个运动矢量，其中所述多个运动矢量分层传递到所述选择的M元金字塔的较低层。

例如，在M元金字塔的最高层上用8位来表示各象素值(8位/象素(P＝8))，而在M元金字塔的所有其它层上则用一位来表示各象素值(1位/象素(P＝1))。可缩放的分层运动估算是通过改变M元金字塔的层的动态范围达到的，即实现8位象素层与一位层的不同组合来产生可变复杂性的多个M元金字塔。从而，可将分层运动估算的可量测性实现成对计算复杂性、存储器需求与/或通信带宽敏感的，借此提供诸如平台自适应编码与计算等特征。

根据本发明的又一方面，提供一种将图象序列中的图象分解成M元金字塔的装置，所述装置包括：图象金字塔发生器，用于从该图象生成具有多层的图象金字塔；以及M元金字塔发生器，用于从所述图象金字塔生成具有多个P位层的M元金字塔，其中所述M元金字塔的至少两个所述P位层的P是不同的，其中所述M元金字塔的所述P位层的至少之一是从所述图象金字塔的两层得到的。

根据本发明的再一方面，提供一种用于编码具有至少一个输入帧的图象序列的装置，所述装置包括：运动补偿器，用于响应运动矢量来生成当前输入帧的预测图象，及运动估算模块，用于响应所述输入帧及一M元金字塔来生成所述运动矢量，其中所述运动矢量是基于所述M元金字塔的分层运动估算；一M元金字塔发生器，用于响应所述输入帧生成所述M元金字塔，其中所述M元金字塔有许多P位层，其中至少两个所述P位层的P是不同的；求差模块，用于确定所述输入帧及所述预测图象之间的差信号；变换模块，用于将所述差值信号变换成多个系数；量化器，用于用至少一个量化器尺度量化所述多个系数以生成多个量化系数；以及编码器，用于将所述量化的系数编码成位流。

附图说明

通过考虑下面结合附图的详细描述便能容易地理解本发明的内容，附图中：

图1示出本发明的编码器的框图；

图2示出在为基于块的运动估算确定运动矢量中降低计算复杂性的方法的流程图；

图3示出通用平均金字塔的框图；

图4示出生成M元金字塔的量化过程的框图；

图5示出已分割及分类成多块的输入帧；

图6示出本发明的编码系统；

图7示出带多尺度瓦片的象素块的框图；

图8示出本发明的装置的第二实施例的框图；

图9示出子波树的图形表示；

图10示出生成图象的M元金字塔的方法的流程图；

图11示出在M元金字塔上执行可缩放的运动估计的方法的流程图；以及

图12示出多个不同M元金字塔系统结构的框图。

具体实施方式

图1描绘本发明的用于为基于块的运动估算确定运动矢量中降低计算复杂性的装置100的框图。下面用编码器描述本发明的较佳实施例，但应理解本发明能用在一般图象处理系统中。此外，本发明能用在符合各种编码标准的编码器中。这些标准包括，但不限于，运动图像专家组标准(如MPEG-1(11172-*)与MPEG-2(13818-*)、H.261及H.263。

装置100为一编码器或更复杂的基于块的运动补偿编码系统的一部分。装置100包括运动估算模块140、运动补偿模块150、可选用的分段模块151、预处理模块120、速率控制模块130、变换模块(如DCT模块)160、量化模块170、编码器(如可变长度编码模块)180、缓冲器190、逆量化模块175、逆变换模块(如逆DCT模块)165、减法器115及加法器155。虽然编码器100包括多个模块，熟悉本技术的人员会理解不需要将各种模块所执行的功能隔离成图1中所示的独立模块。例如，通常将包含运动补偿模块150、逆量化模块175与逆DCT模块165的模块组称作“嵌入解码器”。

图1示出路径110上的被按照MPEG标准数字化及表示成亮度与两个色度差信号(Y、C_r、C_b)的输入图象(图象序列)。进一步将这些信号分成多层，使各画面(帧)由多个宏块表示。各宏块包括四个亮度块、一个C_r块及一个C_b块，其中一块定义为一个8×8的样本阵列。将画面分成块单位改进了分辨两个接连的画面之间的变化的能力并通过消除低幅变换系数改进了图象压缩(下面讨论)。

下面的公开内容使用MPEG标准术语；然而，应理解本发明中的名词宏块或块旨在描述任何大小或形状的用作编码基础的象素块。广义地说，“宏块”可小到单个象素或大到整个视频帧。

在较佳实施例中，数字化输入图象信号在预处理模块120中经受一或多个预处理步骤。更具体地，预处理模块120包括M元金字塔发生器122及块分类器124。M元金字塔发生器122采用平均滤波器123a与量化器123b将各帧滤波与量化成多种不同分辨率，即分辨率的M元金字塔，其中各帧的不同分辨率是以下述分层方式关联的。块分类器124能用分辨率金字塔将区(块)快速分类成高活动性或低活动性区。下面提供对预处理模块120所执行的功能的详细描述。

还将路径110上的输入图象接收到运动估算模块140中用于估算运动矢量。运动矢量为运动补偿用来提供从当前画面中的块的坐标位置到参照帧中的坐标的位移的二维矢量。运动矢量的使用通过减少在信道上传输的信息量极大地增进了图象压缩，因为只编码和传输当前帧内的变化。在较佳实施例中，运动估算模块140还接收来自预处理模块120的信息来增强运动估算过程的性能。

运动补偿模块150接收来自运动估算模块140的运动矢量用于改进样本值的预测效率。运动补偿涉及利用运动矢量来提供到包含前面解码的样本值的过去与/或未来参照帧中的位移的预测，并用来形成预测误差。即，运动补偿模块150利用前面解码的帧与运动矢量在路径152上构成当前帧的估算(运动补偿的预测或预测图象)。通过减法器115从路径110上当前宏块中的输入图象中减去这一运动补偿预测以在路径153上形成误差信号或预测残余。

将预测残余信号传递给变换模块，如DCT模块160。DCT模块于是在各预测残余信号块上作用前向离散余弦变换过程来生成一组DCT系数的8×8的块。离散余弦变换为可逆的离散正交变换，其中的DCT系数表示一组余弦基函数的幅值。

量化(Q)模块170接收得出的8×8 DCT系数块，在其中量化这些DCT系数。量化过程通过用一组量化值或尺度去除这些DCT系数并适当地舍入成整数值而降低表示DCT系数的精度。可使用根据基函数的能见度标准为各DCT系数单个地设定量化值(称作视觉上加权的量化)。通过用这一值量化DCT系数，将许多DCT系数转换成零，借此改进图象压缩效率。

接着，诸如可变长度编码模块180等编码器通过信号连接线171接收得出的量化DCT系数的8×8块，在其中以“Z字形”次序扫描量化系数的二维块将其转换成量化DCT系数的一维串。然后可变长度编码(VLC)模块180编码量化DCT系数串及诸如宏块类型与运动矢量等宏块的所有从属信息。从而VLC模块180执行将输入图象转换成有效数据流的最后步骤。

将该数据流接收到缓冲器中，诸如“先进先出”(FIFO)缓冲器190。采用不同画面类型与可变长度编码的结果在于总体位率是可变的。即，用来编码各帧的位数可以是不同的。从而，在包含固定速率信道的应用中，利用FIFO缓冲器将编码器输出与信道匹配来平滑位率。从而，来自FIFO缓冲器190的路径195上的输出信号为输入图象110的压缩表示，将其发送到存储介质或电信信道。

速率控制模块130用于监视及调节进入FIFO缓冲器190的数据流的位速率以防止在数据流传输之后在解码器(在接收机或目标存储设备内，未示出)侧上的上溢或下溢。固定速率信道假定在恒定的速率上将数据位带给解码器(未示出)内的输入缓冲器。在画面速率所确定的有规律的间隔上，解码器从其输入缓冲器中瞬时移走下一画面的所有位。如果输入缓冲器中的位太少，即尚未收到下一画面所有的位，则输入缓冲器下溢而导致出错。类似地如果输入缓冲器中有太多的位，即在画面开始之间超过了输入缓冲器的容量，则输入缓冲器上溢而导致上溢错误。从而，速率控制模块130的任务为监视缓冲器190的状态来控制编码器生成的位数，借此防止上溢与下溢状态。速率控制方法可通过调节量化级来控制编码位数。

此外，逆量化模块175与逆DCT模块165通过信号连接线172接收来自量化模块170的得出的量化DCT系数的8×8块。简言之，在这一级上，编码器通过解码数据再生图象序列的I帧与P帧，以便为以后的编码将它们用作参照帧。

图2示出在为基于块的运动估算确定运动矢量中降低计算复杂性的方法200的流程图。即，方法200通过快速定义其中可能出现匹配的初始搜索区而增强基于块的运动估算方法。

更具体地，方法200在步骤205中开始并进行到步骤210，在其中为图象序列中的各图象帧生成M元金字塔(或M元平均金字塔)。下面参照图3、4与10提供生成M元金字塔的方法的详细说明。

更具体地，图10示出为图象生成M元金字塔的方法1000的流程图。该方法开始于步骤1005并进行到步骤1010，在其中将原始图象分解成图3中所示的图象的平均金字塔。

图3示出通用平均金字塔300的框图，其中该平均金字塔包括多层310、320与330。最低层310为来自图象序列的具有多个用X表示的象素311的原始图象帧。通常，这些象素是用具有被分配来表示象素值的位的数目限制的动态范围的象素值表示的。例如，如果分配8位，则象素值可取256个可能值之一的值。

在平均金字塔中，下一个较高层是通过低通滤波并且在两个方向上都用因子2下抽样生成的，从而来自较低层中的四个象素值(子女)生成较高层的单一象素值(双亲)。这示出在图3中，其中利用每一组4个象素312a-d生成层320中的单个象素值321。依次，利用4个象素值的组322a生成层330中的单个象素值331，以此类推。应理解，本发明不限于具有三层的平均金字塔。层数通常受图象的大小及选择用来生成下一个较低分辨率图象的下抽样因子的限制。从而，可为特定应用选择平均金字塔的层数。

在平均金字塔中，双亲象素值是通过取其四个子女象素值的平均值导出的，因此称作平均金字塔。然而，可用其它测度或度量生成其它类型的金字塔，例如测度可基于四个子女象素值的中值，作为替代，可用加权平均子女象素周围的较大区域来获得一般低通金字塔。为了本发明的目的，可将具有一组金字塔形图象的这些不同类型的金字塔的每一种(诸如平均金字塔、中值金字塔、低通金字塔等)广义地分类为“图象金字塔”。从这一图象金字塔，生成M元金字塔。

返回到图10，然后方法1000在步骤1020中从所述平均金字塔生成M元金字塔。即，在一“M元金字塔”中，将象素值量化成使各量化的象素值只能取“M”个可能的象素值，如下面图4中所示。例如，如果M等于2，则各量化象素值只能取值0或1，即，得出“二元金字塔”。

从而，将表示象素值的不同动态范围用于二元金字塔的不同层上，从而生成多个不同的“P位”层。此外，具有8位/象素的M元金字塔的层称作8位层(在图12中示出为“E”层)，而具有1位/象素(如布尔型)的M元金字塔的层称作1位层(在图12中示出为“O”层)，从而，上面讨论的平均金字塔300包括多个“E”层。下面进一步讨论这些“E”与“O”层的区别及组合使用。

图4示出生成其中M等于3的三元金字塔的量化过程的框图。更具体地，根据子女与双亲象素之间的差，将8位象素值255(410a)量化成两位象素值10(420a)。即，计算双亲430a与其各子女410a-d之间的差，这里将其中4个差的各个量化成三个可能的值10、00与01。从而，将象素值128(410b与410c)量化成象素值00(420b与420c)，并将象素值0(410d)量化成象素值01(420d)。这些表示级适用于运动估算所使用的基于逐位异或(XOR)的价值函数(costfunction)。它们对特征检测与块分类也有用。M元金字塔降低象素值的精度，从而允许快速检测图象内的“特征”。特征定义为诸如物体的边沿等高活动区或亮度区。应指出层410与430为平均金字塔的层，而层420为M元金字塔(其中M＝3)的层。两种金字塔都可具有附加层，如图4中所示，但M元金字塔将比平均金字塔少一层。即，需要两个平均金字塔层410与430来生成单个M元金字塔层420。

再者，用来表示象素值的位的数目的明显减少转化成运动估算过程中的计算开销的减少。例如，由于象素值能取的可能值较少，从而能加速运动估算过程中所执行的块匹配操作，由此简化了总体匹配过程。

虽然M可以是任何值，但已发现诸如2元金字塔等“较低次”M元金字塔的分解比诸如三元金字塔等“较高次”M元金字塔对噪声更敏感。即，由于二元金字塔中的量化象素值只能取两个可能值之一，噪声可引入误差，一个象素值可错误地译码为具有值1而不是0，反之亦然。然而，“较高次”M元金字塔需要更多的计算开销。从而，虽然已观察到最好采用M大于2的M元金字塔分解，但特定的M元金字塔分解的选择往往受特定应用的要求的支配。一旦生成了M元金字塔，方法1000便在步骤1030中结束并返回到图2的步骤220。

应理解步骤210中的重要方面是为图象序列中的各输入图象生成M元金字塔。这样，虽然较佳实施例生成M元平均金字塔，但在本发明中也能采用其它类型的M元金字塔，诸如M元中值金字塔、M元低通金字塔等等。

此外，M元金字塔分解的创造性概念可用公式的形式表示。令(i，j)表示图象帧上的象素位置，并令I(i，j)表示在位置(i，j)上的亮度。再者，令l表示金字塔内的层，且0≤l≤L，其中L为金字塔的最高层。则平均金字塔X^l(i，j)，1≤l≤L，构成如下：

X^{l} (i, j) = \frac{1}{4} Σ_{m = 0}^{l} Σ_{n = 0}^{l} X^{l - 1} (2 i + m, 2 j + n) - - - (1)

其中X⁰(i，j)＝I(i，j)。

返回到图2，在下面的步骤220中，可从这些平均金字塔中抽取诸如块内的特征等信息。在一个实施例中，块是宏块的8×8子块，但应理解本发明不限于这一块尺寸。具体地可从块内的亮度变化中抽取例如边沿等特征。这一变化是通过计算层l上的平均值，0≤l≤L-1与层l+1上的平均值之间的差表示的。然而，为了得到加强的特征及为了促进快速运动估算，将这些差量化来产生M元金字塔。M元金字塔的各层将展示能用来识别如边沿与过零点等图象特征或实现运动估算的图象上的模式。

例如，图象的二元金字塔B^l(i，j)可建立如下：

B^{l} (i, j) = \{\begin{matrix} 0 & if X^{l} (i, j) &GreaterEqual; X^{l + 1} (INT (\frac{i}{2}), INT (\frac{j}{2})) \\ 1 & otherwise \end{matrix}- - - - (1 a)

其中l表示二元金字塔中的层。虽然式(1a)示出定义二元金字塔的两个值(“0”与“1”)的具体条件(量化器步长)，根据特定应用也可用其它条件或量化器步长定义二元金字塔的两个值(“0”与“1”)。

此外，可建立图象的三元金字塔Y^l(i，j)。例如，用Y^l(i，j)表示M元(M＝3)金字塔中的模式值：

Y^{l} (i, j) = Quant [X^{l} (i, j) - X^{l + 1} (INT (\frac{i}{2}), INT (\frac{j}{2}))], 0 \leq l \leq L - 1 - - - (2)

用λ表示Quant[·]的自变量。例如，考虑三元金字塔具有阈值T的情况，并定义Y^l(i，j)如下：

Y^{l} (i, j) = \{\begin{matrix} 00 & | λ | < T \\ 01 & λ > T \\ 10 & λ < - T \end{matrix} - - - (3)

如果为特定应用适当地选择量化阈值T(如在较佳实施例中将T选定为5)，这一定义具有噪声耐受性的优点。即，有可能定义一个“死区”，诸如|λ|＜T，其中能有效地消除由噪声引起的象素值中的细微变化。从而，具有零附近的死区的任何M元金字塔(M＞2)能最小化噪声敏感性问题。

在相对平坦的区中(低活动性区)，Y^l(i，j)将包含大量的零(0)，而在包含边沿的区中，Y^l(i，j)将包含若干个一(1)。一旦将输入图象分解成了M元金字塔，为了用M元金字塔Y^l(i，j)抽取特征的目的可将输入图象中的块分类。即，可用M元金字塔快速检测输入图象中的特征而不遭受高计算开销。可利用检测到的特征来增强下述运动估算过程或其它图象处理步骤，如利用分段模块151分段图象内的区(诸如目标)。分段是重要的图象处理步骤，在其中能识别出图象中的重要区以便接受特殊处理。例如，电视会议应用期间的人物的脸部可能需要诸如接受较多的编码位分配等特殊图象处理。此外，可利用分段来识别大目标，其中可在这些大目标上执行整体运动估算。

应理解前面的讨论利用三元金字塔作为例子并示出一种可能的方法，在该方法中可为特征识别与分类赋予量化阈值或级。通常，M≥2的M元金字塔可与取决于特定应用的要求与/或图象序列的内容的量化阈值的特定赋值一起使用。

返回到图2，生成了M元金字塔之后，方法200进行到步骤220，在其中根据考虑到M元金字塔的低活动性或高活动性分类帧中的块。在较佳实施例中，“分类块大小”为具有用128位表示的64个M元象素值8×8的块。设定“活动性阈值”为25，如果25个或更多象素值为非零便将该8×8块分类为高活动性块。否则将该8×8块分类为低活动性块。可以执行附加的更高的块分类，例如将宏块分类为高活动性或低活动性宏块。在该较佳实施例中，使包含至少一个分类为高活动性的子块的宏块同样被分类成高活动性的。应理解，“分类块大小”与“活动性阈值”是能按照特定应用调整的，且不限于较佳实施例中所选择的这些值。

返回到图2，块分类之后，方法200进行到步骤230，在其中利用块分类增强运动估算过程。通常，带有明显图象特征的区中的运动估算比由于孔径问题而引起的较小变化的相对“平坦区”中的运动估算(如其中相邻的块中的图象内容非常相似的均匀区)更可靠。因此，利用上述分类法来提高总的运动估算的可靠性。然而，应理解在运动估算应用中使用M元金字塔之前，没有必要根据其内容来预分类块。即，应理解，可直接利用M元金字塔的本发明(如图2中用虚线所示)来增强各种类型或不同系统结构的运动估算方法的性能。

更具体地，运动估算通常以光栅扫描次序逐块地执行。计算开销或成本在运动估算过程期间通常均匀地分布在所有块上。本发明中，可利用依赖于Y^l(i，j)与/或X^l(i，j)的价值函数首先执行“边沿”块(高活动性块)中的运动估算。这一方法能使图象中的特征突出并在存在传感器噪声、量化噪声及亮度变化时提供坚实的可靠的运动估算。价值函数的实例包含金字塔中M元层上的逐位异或运算，它可在一些系统结构中作为快速方法实现。价值函数用来确定“最佳匹配”。考虑在时间t上的M元有值的块(当前帧)Y^l(i，j，t)及在时间t-1上的另一M元有值的块(前一帧)Y^l(m，n，t-1)。然后将价值函数表达为：

\underset{the block}{\underset{pixeis within}{Σ}} Number of ones in {Y^{l} (i, j . t) &CircleTimes; Y^{l} (m . n . t - 1)} - - - (4)

其中○表示逐位异或运算。这一价值函数与用在原始8位象素亮度值上的标准“绝对差”价值函数相比，产生实质性计算节省。这一过程是在M元金字塔上分层执行的。

换言之，运动估算法是在高活动性块上起动的。图5示出已划分及分类成多块510的输入帧500。在该较佳实施例中，将两块510a分类为高活动性块。这样，运动估算首先在这两块上执行。事实上这两块的计算价值可能增加，因为这些高活动性块(高可信度“边沿”块)最有可能提供非常高精度的运动矢量。从而，在这两块上执行比图象帧500中的其它块更密集的运动估算，例如，可将高活动性块分裂以得出更精确的运动矢量，可在这两块中执行“半象素”运动估算或者可采用更精密的搜索策略。

依次，在为高活动性块完成了运动估算之后，然后将运动估算传播到图象中的低活动性块(“低可信度”)。然而，这一传播是根据在分类中获得的区域或目标分段智能地进行的。这一传播是通过用边沿块的运动作为邻接的块的运动的初值并用相对小的搜索范围来求精这一初值而执行的。即，运动估算过程传播(如以螺旋次序)到块510b中，其中的初始搜索区是从高活动性块的运动矢量导出的。然后，这一传播策略依次延伸到并不位于邻接“边沿”块的诸如块510c等“平坦的”块中，这具有快速计算的优点，因为求精搜索范围相对地小。再者，这种运动估算较为平滑及容易编码，这在运动信息构成位流的主要部分的非常低的位速率(VLBR)应用中是重大的优点。再者，可以期望这些较平滑的运动估算在瞬时内插应用中执行得较好。

最后，当使用半象素求精来提高运动估算的精度时，该分类方法还产生计算节省。只在“边沿”块上执行半象素求精，并不在图象的相对平坦区上执行。

本发明的另一实施例包含利用多种M元金字塔系统结构或结构(示出在图2中)来实行可以缩放的分层运动估算。例如，在这另一实施例中，4层二元金字塔的构成如下：

X^{l} (i, j) = INT {\frac{1}{4} Σ_{m = 0}^{l} Σ_{n = 0}^{l} X^{l - 1} (2 i + m, 2 j + n)}, 1 \leq l \leq 3 - - - (5)

其中X^l(i，j)表示在第l层的位置(i，j)上的灰度级而X₀(i，j)表示原始图象。

第二，4层二元金字塔形图象建立如下：

B^{l} (i . j) = \{\begin{matrix} 0 & if X^{l} (i . j) &GreaterEqual; X^{l + 1} (INT (\frac{i}{2}), INT (\frac{j}{2})) \\ 1 & otherwise \end{matrix} - - - (6)

其中0≤l≤2

B³(i，j)＝X³(i，j) (7)

应指出用式(6)与(7)生成的M元金字塔生成经过修正具有用式(7)表示的该M元金字塔的最高层的二元金字塔，即，用平均金字塔的最高层取代M元金字塔(如二元金字塔(M＝2))的最高层。这一特定M元金字塔的系统结构1210示出在图12中。在较佳实施例中，生成多个M元金字塔系统结构1210、1220、1230及1240来提供可以缩放的分层运动估算方法。

更具体地，图12示出复杂性不同的四个M元金字塔系统结构。M元金字塔系统结构1210包括三个一位层(O)1210a-1210c及一个8位层(E)1210d。M元金字塔系统结构1220包括两个一位层(O)1220a-1220b及两个8位层(E)1220c-1220d。M元金字塔系统结构1230包括一个一位层(O)1230a及三个8位层(E)1230b-1230d。M元金字塔系统结构1240包括四个8位层(E)1240a-1240d。应指出M元金字塔系统结构1240简单地为平均金字塔。

操作中，用8×8(710)与4×4(720)大小的“瓦块”，即图7中所示的多尺度瓦片全面搜索为所有四种M元金字塔系统结构估算层3(1210d-1240d)的原运动矢量。多尺度(或N尺度)铺瓦为利用不同“瓦块”尺度对帧中的当前块执行运动估算的过程。例如，如将N设定为3，则为各帧中的各块生成三个运动矢量，即用三种不同块大小或尺度“铺瓦”该块。

依次，将层3的运动矢量传播到层2并用8×8与4×4的块大小求精。将来自层2的运动矢量传播到层1并用8×8的块大小求精。将来自层1的运动矢量传播到层0并用16×16的块大小求精。然而本发明不限于特定数目的块及块大小。事实上，可用本发明实现任何数目的块与/或块大小。例如，能结合本发明实现N尺度铺瓦，如在名为“采用带N尺度铺瓦的M元金字塔的装置与方法”(代理人摘录SAR 12455；序号09/106,707)的1998年6月29日与本申请同时提交的伴随专利申请中所公开的发明，通过引用将其结合在此。

可缩放的分层运动估算是通过在分层运动估算过程中将O层改变成E层来达到的。应指出，一旦生成了M元金字塔系统结构1210，便可获得其它M元金字塔系统结构1220-1240的必要的层。例如，E层1220c(M元金字塔的层2)只是前面为计算二元层1210c而生成的平均金字塔的层2。类似地，E层1230b(M元金字塔的层1)只是前面为计算二元层1210b而生成的平均金字塔的层1，等等。从而，将为导出M元金字塔1210而生成的整个平均金字塔存储在计算机系统的存储器中的单元中供以后使用。以这一方式，得出4种分层运动矢量估算系统结构，它们是HME_3B、HME_2B、HME_1B与HME_0B，来提供可缩放的分层运动估算过程。标记HME_3B、HME_2B、HME_1B与HME_0B指带有3个O层、2个O层、1个O层与0个O层的分层运动估算，如图12中所示。

图11示出在M元金字塔上执行可缩放的分层运动估算的方法1100的流程图。更具体地，方法1100在步骤1105中开始并进行到步骤1110，在其中为图象序列中的一帧选择一种初始M元金字塔系统结构(如式6与7的二元金字塔(M＝2))。

步骤1115中，方法1100询问是否应改变当前的M元金字塔系统结构。可根据诸如计算复杂性、可利用的存储器资源、存储器带宽、用户选择与/或可利用的通信带宽等一或多种标准确定改变特定的M元金字塔系统结构。如果询问的回答是否定的，则方法1100进行到步骤1125，在其中按照选择的M元金字塔系统结构生成M元金字塔。如果询问的回答是肯定的，则方法1100进行到步骤1120，在其中为当前的帧选择新的M元金字塔系统结构(如从系统结构1210改变到1220)，然后进行到步骤1125。

在步骤1130中，方法1100从M元金字塔的最高层开始执行分层运动估算。一旦为最高层生成了运动矢量，便如上面所讨论的那样将运动矢量传递给M元金字塔的较低层。

在步骤1135中，方法1100询问是否应为M元金字塔系统结构的下一层改变当前的M元金字塔。即，在分层运动估算过程中方法1100能切换到不同的M元金字塔系统结构。同理，可根据诸如计算复杂性、可利用的存储器资源、用户选择与/或可利用的通信带宽等不同标准决定改变特定的M元金字塔系统结构层。如果询问的答复是否定的，则方法1100进行到步骤1145。如果询问的答复是肯定的，则方法1100进行到步骤1140，在其中为当前的帧选择新的M元金字塔系统结构(或只是新的层，诸如用E层替换O层)，然后进行到步骤1145。

在步骤1145中，方法1100询问当前M元金字塔系统结构中是否有下一层。如果询问的答复是否定的，则方法进行到步骤1150。如果询问的答复是肯定的，则方法返回到步骤1130，在其中在M元金字塔系统结构的下一层上执行分层运动估算。

在步骤1150中，方法1100询问图象序列中是否有下一帧。如果询问的答复是否定的，则方法1100在步骤1155中结束。如果询问的答复是肯定的，则方法1100返回到步骤1115，在其中为图象序列中下一帧执行分层运动估算。

利用带有四层及四种不同二元金字塔系统结构的二元金字塔的本分层运动估算提供可缩放的运动估算方法。为了说明，假定视频图象的宽度与高度分别为W与H。视频序列的帧率为F_r。假定图象块的大小为N×N。画面帧包含

个画面片，而各片中有

块。搜索窗口具有±M个象素。

在块匹配运动估算方法中，邻接的块的搜索区可以重叠。可将这一重叠区数据存储在芯片上缓冲器内部以减小外部存储器带宽。假定缓冲器“D”的大小等于搜索区，(N+2M)×(N+2M)字节。当下一块在同一画面片上时，缓冲器D的新加载数据量为N×(N+2M)字节。在处理一个画面片时，在一片开始时加载整个缓冲器。从而，如果忽略边界块的情况，每片的总的外部存储器带宽大约为((N+2M)²+((W/N)-1)×N×(2M+N)字节。对于720×480图象的HME_3B的存储器带宽需求的推导给出如下。

将层3上的搜索范围设定为±16个象素。将层0、层1与层2上的搜索范围设定为±3个象素。

在层3上，存储器带宽(字节)近似地为：

{MB}_{3} = \frac{60}{4} \times ({(4 + 32)}^{2} + (\frac{90}{4} - 1) \times 4 \times (32 + 4)) + \frac{60}{8} \times ({(8 + 32)}^{2} + (\frac{90}{8} - 1) \times 8 \times (32 + 8)) - - - 8)

在层2上，存储器带宽(字节)近似地为：

{MB}_{2} = \frac{120}{4} \times ({(4 + 6)}^{2} + (\frac{180}{4} - 1) \times 4 \times (6 + 4)) + \frac{120}{8} \times ({(8 + 6)}^{2} + (\frac{180}{8} - 1) \times 8 \times (6 + 8)) - - - 9)

在层1上，存储带宽(字节)近似地为：

{MB}_{1} = 2 \times \frac{240}{8} \times ({(8 + 6)}^{2} + (\frac{360}{8} - 1) \times 8 \times (6 + 8)) - - - (10)

在层0上，存储器带宽(字节)近似地为：

{MB}_{0} = \frac{480}{16} \times ({(16 + 6)}^{2} + (\frac{720}{16} - 1) \times 16 \times (6 + 16)) - - - (11)

因此，HME_0B的存储器带宽(字节/秒)近似地为：

{MB}_{{HME}_{0 B}} \approx F_{r} \times ({MB}_{0} + {MB}_{1} + {MB}_{2} + {MB}_{3}) - - - (12)

可以以上面为推导HME_0B相同的方式推导HME_1B、HME_2B及HME_3B的存储器带宽需求。表1列出四种二元金字塔系统结构的存储器带宽需求(以Mbytes/s(兆字节/秒)表示)。

二元金字塔系统结构	存储器带宽
二元金字塔系统结构	存储器带宽	HME₃₀	6.341
HME₂₀	8.560	HME₃₀	6.341

HME₁₀	16.630
HME₁₀	16.630	HME₀₀	29.208

从表1中可看出，随着O层改变成E层，本发明的存储器带宽需求可从6.341Mbytes/s缩放到29.208Mbytes/s。

应指出虽然本发明采用带四层的二元金字塔，但本发明不限于此。事实上，可实现带不同层的其它M元金字塔。再者，可用上述块分类(高活动性与低活动性)方法来选择要使用的M元金字塔系统结构的层或类型。例如，可根据特定帧中的“活动性”(高或低)选择M元金字塔系统结构的类型。事实上，可结合本发明使用任何其它块分类方法。

图8描述包含本发明的基于子波的编码器800。该编码器包含块运动补偿器(BMC)与运动矢量编码器804、减法器802、离散子波变换(DWT)编码器806、位速率控制器810、DWT解码器812及输出缓冲器814。

通常，如上面所讨论的，输入信号为视频图象(定义视频序列中的帧的二维象素(pel)阵列)。为了通过低位速率信道精确地传输图象，必须充分地减少视频帧序列中的空间与时间冗余性。这通常是通过只编码与传输接连的帧之间的差来完成的。编码器具有三种功能：第一，它利用BMC及其编码器804生成表示出现在帧之间的运动的多个运动矢量；第二，它利用重构前一帧与运动矢量组合的形式来预测当前帧；以及第三从当前帧中减去预测的帧来产生残余帧，并将其编码及与运动矢量一起传输给接收机。

离散子波变换执行子波分层子带分解来产生输入图象的传统子波树表示。为了完成这一图象分解，利用2倍分取样成高水平高垂直(HH)、高水平低垂直(HL)、低水平高垂直(LH)、及低水平低垂直(LL)子频带分解该图象。然后进一步2倍分取样LL子带产生一组HH、HL、LH及LL子带。逆归地进行这一分取样以产生子带阵列，诸如图9中所示的使用三倍分取样的。实践中最好使用六倍分取样。子带之间的双亲与子女的相关性示出为从双亲节点的子带指向子女节点的子带的箭头。最低频率子带为左上的LL₁，而最高频率子带为右下HH₃。在该例中，所有子女节点具有一个双亲。在J.M.Shapiro的“利用子波系数的零树的嵌入图象编码”，IEEE信号处理会报(卷41、12号，3445-62页，1993年12月〕中提出子带分解的详细讨论。

图8的DWT编码器以“宽度优先”或“深度优先”方式编码子波树的系数。宽度优先方式用位平面方式横向通过位平面中的子波树，即，量化所有双亲节点，然后所有子女，然后所有孙子女，等等。反之，深度优先方式通过各树，从低-低子带(LL₁)中的根通过子女(从上向下)或从子女通过低-低子带(从下向上)。如上所述速率控制器810选择适当的量化级来控制序列的各帧内的各宏块的位速率。这样，本发明便能适用于采用不同变换的各种类型的编码器。

图6示出本发明的编码系统600。该编码系统包括通用计算机610及各种输入/输出设备620。通用计算机包括中央处理单元(CPU)612、存储器614及用于接收与编码图象序列的编码器616。

在较佳实施例中，编码器616就是上面讨论的编码器100与800。编码器616可以是通过通信道耦合在CPU 612上的物理设备。作为替代，编码器616可用从诸如磁或光盘等存储设备加载及常驻在计算机的存储器612中的软件应用程序(或诸如应用特定的集成电路(ASIC)等软件与硬件的组合)表示。这样，可将本发明的编码器100存储在计算机可读的介质上。

计算机610可耦合在多个输入与输出设备620上，诸如键盘、鼠标器、照相机、摄录机、视频监视器、任何数目的成象设备或存储设备，包含但不限于磁带驱动器、软件驱动器、硬盘驱动器或紧致盘驱动器。输入设备用于向计算机提供输入供产生编码的视频位流或从存储设备或成象设备接收视频图象序列。最后，示出将编码信号从编码系统提交给解码系统(未示出)的通信信道630。

虽然已示出并详细描述了包含本发明的内容的各种实施例，熟悉本技术人员能容易地设计出包含这些内容的许多其它不同的实施例。

Claims

1.一种将图象序列中的图象分解成M元金字塔的方法，所述方法包括下述步骤：

(a)从所述图象中生成具有多层的图象金字塔；以及

(b)从所述图象金字塔中生成具有多个P位层的M元金字塔，其中所述M元金字塔的所述P位层的至少两个的P是不同的，其中所述M元金字塔的所述P位层的至少之一是从所述图象金字塔的两层得到的。

2.权利要求1的方法，其中所述M元金字塔的所述P位层的至少两个的所述P为1与8。

3.权利要求1的方法，还包括下述步骤：

(c)在所述M元金字塔上执行分层运动估算。

4.权利要求3的方法，其中所述执行分层运动估算步骤(c)包括下述步骤：

(c1)从所述M元金字塔的最高层开始生成多个运动矢量，其中所述多个运动矢量分层传递到所述M元金字塔的较低层；

(c2)在所述M元金字塔的下一层上确定是否有必要将所述P改变到一个不同的值；以及

(c3)按照所述步骤(c2)将所述P改变到一个不同的值并重复所述步骤(c1)与(c2)直到为所述M元金字塔的最低层生成多个运动矢量为止。

5.权利要求4的方法，其中所述运动矢量生成步骤(c1)根据多种瓦片块大小生成多个运动矢量。

6.权利要求1的方法，还包括下述步骤：

(c)根据标准有选择地改变所述P。

7.一种为图象序列执行运动估算的方法，其中各所述图象分成至少一块，所述方法包括下述步骤：

(a)生成具有不同金字塔系统结构的多个M元金字塔，其中各所述M元金字塔系统结构包括多个P位层，其中至少一种所述M元金字塔系统结构的至少两个所述P位层的P是不同的；

(b)为该图象生成平均金字塔；

(c)从所述平均金字塔生成所述多个M元金字塔；

(d)选择所述M元金字塔系统结构之一用于执行分层运动估算；以及

(e)从所述选择的M元金字塔的最高层开始生成多个运动矢量，其中所述多个运动矢量分层传递到所述选择的M元金字塔的较低层。

8.一种将图象序列中的图象分解成M元金字塔的装置，所述装置包括：

图象金字塔发生器，用于从该图象生成具有多层的图象金字塔；以及

M元金字塔发生器，用于从所述图象金字塔生成具有多个P位层的M元金字塔，其中所述M元金字塔的至少两个所述P位层的P是不同的，其中所述M元金字塔的所述P位层的至少之一是从所述图象金字塔的两层得到的。

9.一种用于编码具有至少一个输入帧的图象序列的装置，所述装置包括：

运动补偿器，用于响应运动矢量来生成当前输入帧的预测图象，及

运动估算模块，用于响应所述输入帧及一M元金字塔来生成所述运动矢量，其中所述运动矢量是基于所述M元金字塔的分层运动估算；

M元金字塔发生器，用于响应所述输入帧生成所述M元金字塔，其中所述M元金字塔有多个P位层，其中至少两个所述P位层的P是不同的；

求差模块，用于确定所述输入帧及所述预测图象之间的差信号；

变换模块，用于将所述差信号变换成多个系数；

量化器，用于用至少一个量化器尺度量化所述多个系数以生成多个量化系数；以及

编码器，用于将所述量化系数编码成位流。