CN1383684A

CN1383684A - 彩色视频编码与解码方法

Info

Publication number: CN1383684A
Application number: CN01801686A
Authority: CN
Inventors: B·佩斯奎特－波佩斯库
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-06-14
Filing date: 2001-06-08
Publication date: 2002-12-04
Also published as: US6898324B2; EP1297709A1; US20020009233A1; WO2001097527A1; JP2004503964A; KR20020026254A

Abstract

在三彩色平面Y,U,V中使用SPIHT处理的彩色视频压缩方法,利用三个排序列表LIS,LIP与LSP将像素转换成系数次序。对于自然的序列,在根子带中色度系数很可能比亮度系数具有较小的幅度。当在给定的比特平面级别中亮度系数具有一个无效子节点的时候,在同样位置的色度系数也非常可能具有无效子节点。为了应用这种Y,U,V平面之间的冗余,如果相应于三个平面上的同样位置的三个系数在无效符号LIS列表中处于相邻的位置,三暂态空间零树的无效子节点可以使用一个符号进行编码。

Description

彩色视频编码与解码方法

本发明涉及一种包括以帧组构成的连续帧的视频序列的压缩编码方法，每一帧以三维小波变换的方式分解，从而引起给定数量的连续分辨率级，所述的编码方法依赖于被称为“分层树中的局部设定”(SPIHT)的分层子带编码处理并且将每一帧组的图像元素(像素)的原始设定转换成利用二进制格式编码的小波变换系数并且形成了一锥状的层级结构，所述的系数构成了一个空间暂态方向树，其底部为3D小波变换低频频率(或者近似子带)，并且在高频子带完成了衍生，所述树的系数排列成有关像素的局部设定并且与各自的有效级相应，所述的设定被定义成量级测试的形式，这导致了有效信息在三个序列列表中的分类，这三个列表被分别称为无效设定列表(LIS)，无效象素列表(LIP)以及有效象素列表(LSP)，执行所述的测试从而将所述的原始像素设定依据分解过程分解成所述的局部设定，直至每一有效系数被编码成所述的二进制表示，并且所述的空间暂态方向树在所述的层级结构中定义了空间暂态关系，所述的SPIHT法则包括下述步骤：初始化，分类传送，改进传送，以及量化步骤更新。

本发明也涉及相应的解码方法。

近来随着多媒体应用的发展，人们期望视频编码系统变得更为可伸缩。在多媒体应用中，压缩的视频序列实际上经常以多点传送的方式流向具有不同的规格和容量的接收机面板。一种通过多路网络连接传送多级质量的方法是以一套独立的编码器编码视频信号，每一编码器产生一个不同的输出率。这种同时联播解决方法的主要缺点在于它的次级最佳压缩执行以及其巨大的存储量。

现在的视频压缩系统变得更为灵活：尤其是，他们能够将单独的视频比特流适应于可变的传输环境(带宽，误码率等)以及变化的接收机容量和需求(CPU，显示尺寸，设备等)。在这种结构中，“可伸缩性”是期望的访问这些条目的函数。“可缩放”是指允许压缩比特流的局部解码的方法：根据不同的条件(比特率，误码，源)，解码器能够读取部分比特流并以不同的质量级别解码图象。

目前的标准，像H.263，MPEG-2，或MPEG-4都是基于替代帧差DFD的块DCT编码，可伸缩性是通过单级预测循环的附加级实现的。但是，在分辨率以及率伸缩性的的效率上是受限的并且可以通过在子带分解的基础上通过在逐级解码技术的方向上有所提高。实际上，小波提供了一个对于静止图像以及视频的自然的多级代表，并且它们在逐级解码图象上的高效性产生了一个可伸缩性的表示。多级表示可以应用到三维视频数据(3D)，或者空间暂态(2D+t)，小波分析包括分解中的暂时维数。在这样的3D子带解码方案中引入运动补偿步骤导致了视频信号的空间暂态多分辨率表示(多层级)，这要比低比特率的混合编码要好。

子带分解自然地导致了可伸缩性的方案，并且应用了多层级空间暂态树的相关性的编码法则产生了最好的压缩性能，以及所期待的性质，例如比特流的嵌入。近来这些法则都应用到3D视频编码系统中，获得了一些最有效的可伸缩视频编码：在多层级树中的3D设定局部编码(SPIHT)以及基于3-零树的这种编码器的变形。大部分存在的编码方法考虑的是一个单独的编码策略并将其独立的应用到每一彩色平面。产生的比特流是分别相应于每一彩色平面的三个清楚分开的比特流的连接。但是这一策略并不适合于可伸缩的方法，因为对于一个低比特率来说，没有相应于色度信息的比特被解码。

本发明的目的是提供一种编码色度系数的新的方法，能够消除这种缺点。

结果是，本发明涉及一种在描述的介绍部分定义的编码方法，其特征在于，根据附录B表明的运算法则：

(a)在初始化步骤中：

-如果在每一有效级别中逐个分析的时候，它们都具有无效子节点，则在三个彩色平面Y，U，V中相应于同一位置的三个系数被顺序输入到LIS中，从而占据了相邻的位置，并且在接下来的分类传送中在所述的LIS中保持位置在一起；

-亮度的无效子节点的最后的比特平面暗示了色度的无效子节点，n_i，是根据根子带中的系数的设定有效级计算的，并输出到比特流中；

(b)在从n_max到n_i的分类传送中，当一个亮度系数具有无效子节点并且如果在LIS中跟随所述系数的两个系数满足如下的三个条件：

-它们分别是U，V系数；

-它们与所述的亮度系数具有同样的空间暂态坐标；

-它们都具有无效子节点；

这样这种情况下采用一个单独的符号进行编码，在所有其他的情况下，输出比特流不根据原始SPIHT法则进行修改。

建议的方法的优势在于利用了在亮度与色度的空间暂态方向树之间的冗余。它也提供了一种比原始的SPIHT法则更强的在结果比特流中的彩色嵌入。这导致了编码效率的提高以及相关的压缩视频序列的逐级解码可视质量的增强。

本发明也涉及一种采用这种编码方法处理的压缩视频序列的解码方法，只是在编码法则中的“输出”操作被相应的解码法则中的“输入”操作所取代。

现在参照附图，以实施例的方式对本发明作详细的描述：

附图1表明了具有运动补偿的视频信息的暂态子带分解；

附图2示出了在原始的SPIHT计算法则中的空间相关，箭头表明了Y平面，U平面以及V平面之间的衍生关系；

附图3示出了，参照图2，按照本发明的编码方法的所介绍的色平面分解之间的附加相关；

附图4示出了在原始的SPIHT计算法则中LIS与LIP列表的初始结构，以及附图5示出了在本发明的方法的情况下所述的初始结构。

如图1所示的视频序列的暂态子带分解。图示的具有运动补偿的3D小波分解应用于一组帧(GOF)，如F1到F8。在该3D子带分解方案中，输入视频的每一个GOF首先进行运动补偿(MC)(该步骤允许处理较大运动的序列)，然后使用Harr小波进行暂态滤波(TF)(虚线箭头相应于高通暂态滤波，而其它的相应于低通暂态滤波)。在图1中，示出了三个层面的分解(L与H＝第一层面；LL与LH＝第二层面；LLL与LLH＝第三层面)。以预测方案进行的3D小波分解的主要优点在于：

-提高暂态伸缩能力，它可以通过以可变的暂态分辨率的重建而自然地获得；

-比传统的预测方案更高的能量压缩；

-非递归解码结构，这避免了传输错误的传播；

-可能引进一个防止传输错误的信息数据的有效保护。

MCTF(运动补偿暂态滤波)的操作，执行运动方向的暂态滤波，分层应用于几个暂态分辨率级上并且产生了一个暂态分解树，其页(暂态子带)包含几个帧。这些帧进一步被空间分解并且产生小波系数的空间暂态树。在空间多分辨率分析的执行中选择了一个非常灵活的解决方法：所谓的提升或者梯子分解方法。修正SPIHT计算法则提供了一个SNR(或质量)可伸缩性。根据SPIHT技术，例如在“在层级树中基于设定分块的一个新的，快速并且有效的图象编码”，A.Said与W.A.Pearman，IEEE视频技术电路与系统学报，第6卷，n.3，1996，6，第243-250页中有所描述，空间暂态树的小波传输系数被分成由表示它们的幅度的比特平面的最高有效位的级别定义的设定。这一分段法则利用了空间暂态方向树的能量重新分配从而产生了无效系数的大量子集。在本法则中应用了三种系数设定：无效设定列表(LIS)，无效象素列表(LIP)，有效象素列表(LSP)。来自于相近子带的系数被用于初始化LIP，并且，其中具有子节点的被用于初始化LIS。与固定门限的比较体现在子集上，它将被进一步分解直至单个有效系数被分开并且被传送给LSP以进一步地被处理。

在描述本发明的编码方法以前，假定视频序列为QCIF的格式(176×144像素)并且执行了三级暂态与空间小波分解。该原则也应用于具有图像规模为2ⁿ⁺¹的序列，其中执行了n级的分解。

必须提到经常用于序列代表的格式为4∶2∶0，这引起了有关空间暂态分解树的深度的问题，它将实际上改变SPIHT的计算法则。在一方面，该技术只在同样大小的子带中工作良好。另一方面，亮度与色度之间的大小的差使得无法对三个层面应用同样的分解。为了避免该问题，并且为色度层面选择一个合适的分解级别，定义了两个策略：

1)在多分辨率分析中，对亮度与色度考虑同样数目的分辨率级别，这导致了亮度平面的奇数子带的分辨率级别最低，原始的SPIHT的计算法则无法在不改变的情况下进行处理(例如，对于QCIF帧，176×144像素，并且三级分解，亮度根子带为22×18像素，同时色度相近子带具有11×9像素)；

2)每一色平面的分辨率级选择相近数目的分解级(n表示Y平面，n-1表示U平面与V平面)，在这种情况下，SPIHT计算法则可以直接使用，这意味亮度具有三级，并且色度平面具有两级，在QCIF帧的情况下。

第一策略在“视频的运动补偿3D子带编码”，S.J.Choi与J.W.Woods，IEEE图像处理学报，第8卷，n.2，1998，2，第155-167页中描述。在图2中示出了三彩色平面的小波分解，表明了原始SPIHT计算方法的相关性(以及通过箭头标明的衍生关系)。LIP与LIS在所有的三个平面中用顶级相近坐标初始化。为了解决奇次子带的问题，在最低空间暂态子带帧进行了空间推算。推算结果被用于原始图像。当分解图象时，人工系数必须被编码，这样降低了计算法则的效率。在运动补偿中引用了同样的人工方法。这些推断无法避免地提高了最终的比特率。同时，这样的解决方法也不会利用Y-，U-，V-平面之间的冗余。

本发明采用了第二策略，并使用了U-，V-平面采用4∶2∶0的格式，该格式为相应于亮度信号的子采样中经常使用的格式。因此，所有的色度平面的分辨率都可以被看作是一个亮度平面的全部分辨率的邻近值。在执行几个分辨率级别的小波分解中，亮度的n-th分辨率级与色度的(n-1)-th分辨级的大小是一样的。这在图3中示出，该图示出了由该方法引起的彩色平面分解之间的附加相关性(连续的箭头表示衍生关系，虚线箭头相应于亮度与色度平面的相关关系)。嵌入的三个成分平面通过来自于三彩色空间暂态树的根子带系数的同步处理获得，这也用于设定LIP与LIS。

可以作出的最早的以及在几个序列中校验的发现是，在自然序列中色度系数具有比根子带中的亮度较小的幅度是非常可能的。根据本发明，假定如果亮度系数在一个指定的比特平面级别中具有一个非有效子节点，在同样位置的亮度系数也具有一个较高的可能性也有一个非有效的子节点。在三空间暂态零树中的非有效点可以使用单独的符号编码。这样如果相应于三彩色平面中同样的位置的三系数在LIS中位于邻近的位置是可能的。这一列表的特别的初始化可以正确排列系数。

这一初始化在附图5，6中示出，附图4中相应于原始的初始化而附图5相应于建议的特定的初始化。在原始初始化中，来自于根子带的所有亮度系数首先输入到LIS中，然后色度系数被包括进来。在建议的初始化中，来自于根子带的三系数，Y，U，V具有同样的系数空间暂态坐标，被串行输入到LIS中。如建议地将彩色平面合并起来的另一个优点在于在最终比特流中可以更好的嵌入色度。

在初始化完成以后，在每一个有效级，运算法则逐个分析Y，U，V成分。如果它们都具有无效子节点，它们将被保留在LIS中用于接下来的SPIHT法则中分类传送。运算法则改变分类传送，从而使得对于每一个具有无效子节点的亮度系数，看起来似乎是如果在LIS中跟随它的两个系数为U和V，并且如果他们具有同样的空间暂态坐标。在这种情况下，被证实它们也具有无效子节点，并且这种情况被以0比特编码。在所有的其他情况中，输出比特流相对于原始法则没有改变。

但是，原始假设(基本假设)并不满足于所有的有效级别(n_max为最多有效级)。典型的，经常在第一级别中校验，而最低有效级别未被证实。精确的比特平面级别中所体现出的状态上的改变依赖于序列并且在编码开始以前被确定。找到这一级别的任务是在初始化步骤中实现的，并且以有效级别的最大值一起输出。而且，任务通过在法则开始的时候计算与每一系数相联系的设定有效级SSL而简化。交叉级，n_i，以下面的等式(1)获得：n_i＝min_x，y，z{SSL_y(x，y，z)such as SSL_y(x，y，z)≥SSL_U(x，y，z)and SSL_y(x，y，z)≥SSL_v(x，y，z)}(1)

实际上，级别n_i是按照下式计算的。对于每一个比特平面，并且对于根子带中的每一个像素，经常存在一个设定有效级别SSL。这样，如果伴随着色度系数的具有无效子节点的亮度系数在同样的位置，只有亮度系数被编码。不符合这种条件的第一比特平面是n_i。

只执行一次该步骤也避免了重复计算树的有效位，并且与之比较也降低了串行分类传送中的门限值。原始以及建议的计算法则在9-11页中附录A，B中给出。实验结果在色度平面中的编码压缩执行过程中改进了的SPIHT彩色编码法则的影响被突出出来。

这里描述的编码方法利用了亮度与色度成分之间的相关性从而提供了一个更为有效的压缩，其主要具有下述优点：

-U与V平面以一个降低的分辨率级别被分解，这降低了运算法则的计算复杂性；

-在空间暂态树中应用了亮度与色度成分之间的相关性：更精确地说，如果一个亮度系数具有无效子节点，相应的色度系数很可能也具有无效子节点，这被有效应用于编码三子级树；

-无须推断并且不需要引入人工系数：只有真实的像素被分解与编码，并且简化的附加级别被引入到运算法则当中，不需要计算运动矢量以及为这些人工的像素编码；

-被确保可以完全插入结果比特流，由于在三列表中像素的亮度与色度成分非常接近(必须提醒注意，在初始法则中，LIP与LIS的初始化是通过分离Y，U，V系数进行的，这意味着在每一分辨率级别中将它们进行顺序处理。

下面给出了一个可能执行的一些细节。构成一个GOF的帧的数目的选择必须在处理太多的帧所需的延时与在分辨率级别上的较多数目的暂态小波分析执行中能量压缩之间较好的平衡。在实验中表明16帧的GOF具有最好的压缩结果。完全搜索块匹配法则被执行，其具有一半的像素精度。当暂态分解中使用了Harr滤波时，可以注意到在输入序列中由于以2进行暂态下抽样，只是每两帧才执行一次运动运动预测与运动补偿(ME/MC)。通过在相近的子带中在几个分解级别上重复这一处理过程，ME/MC的操作总数大致与预测方案相同。运动矢量被不同的编码并被输入到比特流中，在GOF的开始。

但是，在比特流的部分中发生的任何错误都可能导致在重建序列上的重要破坏。为了确保通道错误的稳定，引入了一个两部分比特流的不对称错误保护。空间的分解的上升执行使得在操作使用类型的行或者列上具有较大的灵活性。

当与原始的SPIHT法则相比，建议的方法导致了编码效率的提高以及压缩视频序列的顺序解码的可视质量的提高。当这种方法应用在例如具有176×144象素，4∶2∶0子抽样格式，帧率为10f/s的彩色视频序列QCIF中时，低比特率获得的实验结果表明所述的压缩方法在色度平面上的压缩执行的影响。由于在亮度与色度平面上的自动比特定位，获得的节省的比特要感谢在本方法中色度范围分布在亮度与色度平面上，并且导致了在这三个范围内的提高。

该方法可以被看作是与MPEG-4标准的竞争，尤其是在低比特流中，因为建议的方法原则上改变了LIS编码，它的有关LSP的预算定位的影响较小，却具有较大的比特预算。也应该注意到MPEG-4的帧内编码的实际上引起了较为波动的图像质量；特别是，由于缓冲控制策略，PSNR峰值发生在跟随每一帧内编码帧的帧间编码帧。采用建议的方法，构成GOF的帧被一起处理，这导致了在整个序列中PSNR变化的更为一致。

附录A

函数S_n()表示象素有效位或者给定级别n的一套像素并且小波变换系数采用c_{(x，y，z，chroma)}表示，原始的计算法则如下执行：

1：初始化：

输出n＝[log₂(max_{(x，y，z，chroma)}{|c_{x，y，z，chroma}|}]，将LSP设定为空的列表，将坐标(x，y，z，chroma)∈H加入到LIP，并且只有具有子节点的加入到LIS，作为类型A输入，根据下面的命令：对于所有的(x，y，z)∈H，(x，y，z，chroma＝Y)，然后，对于所有的(x，y，z)∈H，(x，y，z，chroma＝U)，对于所有的(x，y，z)∈H，(x，y，z，chroma＝V)。

2.分类传送

2.1在LIP中对于每一个输入(x，y，z，chroma)，

2.1.1输出bit＝S_n(x，y，z，chroma)；

2.1.2如果(bit＝1)，然后：

将(x，y，z，chroma)移到LSP，并且输出

bit＝sign(x，y，z，chroma)；

2.2在LIS中对于每一个输入(x，y，z，chroma)，

2.2.1如果输入类型为A，然后：

·输出bit＝S_n(D(x，y，z，chroma))；

·如果(bit＝1)，然后：

a).对于每一个(x＇，y＇，z＇，chroma)∈0(x，y，z，chroma)，输出bit＝S_n(x＇，y＇，z＇，chroma)；

·如果(bit＝1)，然后：

将(x’，y’，z’，chroma)移到LSP的末尾，并且输出bit＝sign(x‘，y’，z’，chroma)；

·否则将(x’，y’，z’，chroma)移到LIP的末尾；

b)如果L(x，y，z，chroma)≠0，将(x，y，z，chroma)移到LIS的末尾，作为类型B的输入，然后进入步骤2.2.2，否则从LIS中移走输入(x，y，z，chroma)；

2.2.2如果输入为类型B，则：

·输出bit＝S_n(L(x，y，z，chroma))；

·如果(bit＝1)，然后：

a)将每一个(x＇，y＇，z＇，chroma)∈0(x，y，z，chroma)加入到LIS的末尾，作为类型A的输入；

b)从LIS中移走(x，y，z，chroma)。

3.改进传送

对于LSP中的每一个输入(x，y，z，chroma)，排除包含在最后分类传送的那些(即具有同样的n)，输出c_{(x，y，z，chroma)}的最高有效位n^th。

4.量化步骤更新：将n减1，并且回到步骤2。

附录B

函数S_n以及小波变换系数被同样的表示。LIS中的下一个系数采用“next”表示，在“next”系数之后的系数用“next2”表示，它们的坐标以及色度分别被表示为：(x，y，z)_next，chroma_next，(x，y，z)_next2，以及chroma-next2。建议的方法采用下式的方法执行(粗体字表示改进的步骤)：

1.初始化

输出n＝[log₂(max_{(x，y，z，chroma)}{|c_{x，y，z，chroma}|}]，输出n_color，亮度中的无效子节点的最后的比特平面级别暗示了色度的无效子节点，将LSP设定为空的列表，将坐标(x，y，z，chroma)∈H加入到LIP，根据同样的顺序对于每一个空间暂态坐标(x，y，z)∈H。

2.分类传送：

2.1在LIP中对于每一个输入(x，y，z，chroma)，

2.1.1输出bit＝S_n(x，y，z，chroma)

2.1.2如果(bit＝1)，然后：

将(x，y，z，chroma)移到LSP，并且输出bit＝sign(x，y，z，chroma)

2.2在LIS中对于每一个输入(x，y，z，chroma)，

2.2.1如果输入类型为A，然后：

    ·bit＝Sn(D(x，y，z，chroma))；

    -if n＞n_color：

    -if(bit＝0 and chroma＝Y)，then：

    -if(chroma_next＝U and chroma_next2＝V)，then：

    -if((x，y，z)＝(x，y，z)_next＝(x，y，z)_next2)，then：

    move forward of two coefficients in the LIS

    -else：output bit，and break.

·如果(bit＝1)，然后：

·对于每一个(x＇，y＇，z＇，chroma)∈0(x，y，z，chroma)，输出bit＝S_n(x＇，y＇，z＇，chroma)；

·如果(bit＝1)，然后：

将(x’，y’，z’，chroma)移到LSP的末尾，并且输出bit＝sign(x’，y’，z’，chroma)；

·否则将(x’，y’，z’，chroma)移到LIP的末尾；

2.2.2如果输入为类型B，则：

·输出bit＝S_n(L(x，y，z，chroma))；

·如果(bit＝1)，然后：

b)从LIS中移走(x，y，z，chroma)

3.改进传送：

4.量化步骤更新：将n减1，并且回到步骤2。

Claims

1.一种包括以帧组构成的连续帧的视频序列的压缩编码方法，每一帧以三维小波转换的方式分解，从而引起特定数量的连续分解级，所述的编码方法依赖于被称为“分层树中的局部设定”(SPIHT)的分层子带编码处理并且将每一帧组的图像元素(像素)的原始设定转换成利用二进制格式编码的小波变换系数并且形成了一锥状的层级结构，所述的系数构成了一个空间暂态方向树，其底部为3D小波变换低频频率(或者近似子带)，并且在高频子带完成了衍生，所述树的系数排列成有关像素的局部设定并且与各自的有效级相应，所述的设定被定义成量级测试的形式，这导致了有效信息在三个序列列表中的分类，这三个列表被分别称为无效设定列表(LIS)，无效象素列表(LIP)以及有效象素列表(LSP)，执行所述的测试从而将所述的原始像素设定依据分解过程分解成所述的局部设定，直至每一有效系数被编码成所述的二进制表示，并且所述的空间暂态方向树在所述的层级结构中定义了空间暂态关系，所述的SPIHT法则包括下述步骤：初始化，分类传送，改进传送，量化步骤更新，所述的方法其特征在于，根据附录B表示的计算法则：

(a)在初始化步骤中：

-他们分别是U，V系数；

-它们与所述的亮度系数具有同样的空间暂态坐标；

-它们都具有无效子节点；

2.如权利要求1所述的编码方法，其特征在于，根据处理的视频序列，所述的利用一个独特的符号的编码子步骤被限制在第一有效级别并且不应用于最低的级别，精确的比特平面级别n_i被看作是采用下式在初始化步骤中定义的限制：n_i＝min_x，y，z{SSL_y(x，y，z)such as SSL_y(x，y，z)≥SSL_U(x，y，z)and SSL_y(x，y，z)≥SSL_V(x，y，z)}(1)

SSL为与每一系数相连系的设定有效级，n_max为最大有效级。

3.一种用于解码根据权利要求1和2中的任何一个方法编码处理的压缩视频序列的方法，所述的方法其特征在于如附录B中描述的计算法则具有同样的步骤，只是“输出”操作被“输入”操作所取代。