CN1595986A

CN1595986A - 用于三维子带视频编码的方法和设备

Info

Publication number: CN1595986A
Application number: CNA2004100785520A
Authority: CN
Inventors: J·卡巴尔; L·切普林斯基
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-09-09
Filing date: 2004-09-09
Publication date: 2005-03-16
Anticipated expiration: 2024-09-09
Also published as: US20050053132A1; JP4794147B2; CN100411441C; EP1515561B1; JP2005086834A; EP1515561A1; DE60317670T2; US7881374B2; DE60317670D1

Abstract

一种使用包括时域滤波的3D子带分解对一个帧序列进行编码和解码的方法。在一定的条件下，对于至少一个像素而言，所述像素的值是使用同一帧中的一个或多个像素来近似的。

Description

用于三维子带视频编码的方法和设备

技术领域

本发明涉及一种对一个图象序列进行编码和解码的方法。本发明尤其涉及包括先进行时域滤波后进行空间滤波的3D子带编码。

背景技术

Jens-Rainer Ohm所作的论文《具有运动补偿的三维子带编码(Three-Dimensional Subband Coding with Motion Compension)》以及Choi和Woods所作的论文《运动补偿的三维子带视频编码(Motion-Compensated 3-D Subband Coding of Video)》是描述三维子带编码的背景参考资料。简而言之就是，通过运动补偿(MC)时域分析，紧接着再进行空间子波变换，将一个视频序列中的一个图象序列，例如一个图象组(GOP)，分解成时空子带。对所得到的子带(系数)进行进一步编码，以用于发送。

以下将结合图1和2来具体描述一个3D子带编码系统的实例。

图1是一个运动补偿嵌入零字段编码器(MC-EZBC：motioncompensated embedded zeroblock coder)的方框图，它是一个三维子带编码器的实例。该编码器包括一个运动补偿时域滤波(MCTF)模块10。MCTF模块10的输出端与空间变换模块12和运动估计模块18相连接。空间变换模块的输出端被连接到零字段嵌入模块14。运动估计模块18的一个输出端被输入到MCTF模块10，而另一个输出端与运动向量编码模块20相连接。EZBC模块14和运动向量编码模块20的输出端都与数据分组模块16相连接，该数据分组模块16输出所要发送的压缩视频数据。

一个GOP(一般为16帧)被输入到MCTF模块10，在其中执行MCTF。并和运动估计模块18一起，对这些帧进行运动估计。在这个例子中，运动估计是利用分级可变大小块匹配(HVSBM：hierarchical variablesize block matching)的后向运动估计。在这个方案中，首先用大块(64×64像素)来进行运动估计。然后每个块被分成四个子块。通过精炼较大块的运动向量来产生子块的运动向量。重复进行这一操作，直到达到最小块大小(4×4)像素。在完成速率失真优化中的修剪过程后，获得了一个可变块大小的网格并且所获得的运动向量被分配给相应块中的所有像素。

接下来，MCTF模块10通过由运动估计模块18输入的运动向量来执行时域滤波。在这个例子中，通过Haar时域子波变换(上升方案)来实现时域滤波，如图2所示，其产生一个分级的时域分解。

更具体地讲，参照图2，利用适当的变换对GOP中的每对连续的帧A和B进行操作，以产生一个经低通滤波的帧和一个经高通滤波的帧，从而产生一个第一级子带。这为GOP产生了8个经低通滤波(t-L)的帧和8个经高通滤波的帧(t-H)。

使用经低通滤波的帧重复进行这一过程(运动估计和变换)，以产生四个经低通滤波的帧(t-LL)和四个经高通滤波的帧(t-LH)。类似地，在低时域子带递归地重复这一过程，直到只剩下一个低时域子带的帧为止。如图2所示，这得出了四层分解，具有1个t-LLLL帧，1个t-LLLH帧，2个t-LLH和t-LLL帧，4个t-LL和t-LH帧，和8个t-H和t-L帧。

时域阶段后，在空间变换模块12中进行空间分解。具体讲，采用子波变换，对图2所示的分解过程中被突出显示的每个时域的子带帧进行空间滤波和分解。J.M.Shapiro于1993年12月发表的论文《使用小波系数的零起点树形结构的嵌入式图象编码(Embedded ImageCoding using Zerotrees of Wavelet Coefficients)》，介绍了子波变换对图象帧的应用。简而言之就是，空间分解产生了一个与图2所示的时域滤波的结构相似的分级分解。

总之，时空滤波得到了一个经滤波的帧的分级阵列，每个帧由针对各个像素位置的系数组成。

US6,519,284解释和描述了分级子带编码。

在EZBC模块14中对3D子带系数进行空间编码。所有的时空子带是独立地编码的。

通过采用无损预测和自适应算术编码，运动向量编码模块20对由运动估计模块18输出的运动向量场进行编码。

信息分组模块将经编码的子带系数和经编码的运动向量场进行组合。在为了形成最终的输出比特流而进行的位面扫描中，一个GOP中所有时域子带帧的空间子带被隔行扫描。比特流的运动向量部分是以一种非缩放方式独立地存储的。

在上述的运动估计步骤中，一个运动向量被分配给预测/当前帧的每个像素(如图3所示，对于连续的帧A和B而言，在后向运动估计的情况下，预测帧是帧B，而参考帧是帧A)。基于移位帧差(DFD)，即运动向量标识的帧B的像素和帧A中相应的像素的像素值的差，运动向量可能代表或不代表帧B的像素和帧A的像素之间的良好匹配。使用两个匹配不好的像素而进行的时域滤波导致了包括DFD的问题，其具有高能量和视觉质量差的低帧率视频。

在运动补偿方式下的主要问题在于帧之间的关系并非总是能够由一个运动模型完美地描述。对于基于块的模型而言，只要运动不是分段平移的就会出现这一问题，这种情况可能出现在遮断、摄像机变焦或摇摄等等情况下。在这些区域中，像素能被分成不关联的(未覆盖的(uncoverd)，运动向量不确定的)或多关联(multi-connected)的(覆盖的(coverd)，帧B的几个像素可以具有指向帧A中相同像素的运动向量)。在这种无关联(disconnected)的区域，无法期望运动补偿是有效的。

为了避免匹配不好的像素之间的运动滤波，将帧A和B对应像素之间的DFD与一个预定义阈值进行比较。对于一个像素，所分配的运动向量产生一个高于阈值的DFD，则该运动向量被认为是不好的，而该像素被当作不关联的(运动向量不确定)像素处理。比如，DFD均方误差(MSE)比它们的比例方差大的像素被归类为不关联的。

对于多关联的像素(帧A的像素，其在估测的帧——帧B中具有几个相应的像素)，针对每个运动向量计算DFD的绝对值，并且选择帧B中具有DFD最小值的运动向量和相关的像素。帧B中指向帧A中相同像素的其它像素被当作无关联像素处理。

在图3中，像素b8和a2是无关联的，像素a5是多关联的，而其余的是关联的。假设a5/b4的DFD大于a5/b5的DFD，那么a5和b5之间的运动向量被保留，而b4被当作无关联像素处理。

多关联的和无关联的像素的问题不仅在上述的Ohm、Choi和Woods的论文中进行了讨论，而且也在WO02/085026和US6,381,276中进行了讨论，后者还阐明了覆盖/未覆盖的图象区域。

以下将陈述以上提及的Haar时域子波变换的详细内容。

对于两个连续的帧A和B，由下式给出高通滤波：

H (m, n) = (\sqrt{2} / 2) * [B (m, n) - A (m - k, n - 1)],

式中A(参考帧)和B(当前帧)是原始的帧，而H是经高通滤波的帧，m和n标引像素，而k和1是运动向量。

适合于关联像素的低通滤波为，

L (m, n) = H (m + k, n + 1) + \sqrt{2} * A (m, n),

和适合于不关联的(覆盖的/未覆盖的)像素的低通滤波为

L (m, n) = \sqrt{2} * A (m, n),

在解码器中，通过使用L和H，对H进行相同的内插，为关联的像素将A精确重构为，

A (m, n) = (1 / \sqrt{2}) * [L (m, n) - H (m + k, n + 1)],

而为不关联的(覆盖的/未覆盖的)像素将A量构为

A(m，n)＝(1/2)*L(m，n)，

在求得A后，对A进行相同的内插来精确地将B重构为，

B (m, n) = \sqrt{2} * H (m, n) + A (m - k, n - 1)

为了对不关联的块编码，现有技术中的算法是对分割的不关联块进行前向运动估计。如果对于一个特定的块而言，这样做产生了较低的DFD，则采用前向运动补偿预测(MCP)。否则将采用默认的后向MCP。这给出了三种编码模式：

·默认(关联块)

·帧内(使用后向MCP的不关联块)

·反向(使用前向MCP的不关联块)

用三符号的霍夫曼码0、10和11来分别代表这三种情形，其作为附加信息和运动向量一起被发送。由于MCP代替了用于帧内和反向块的MCTF，当前帧中原先选作为帧内和反向块的块将不会在时域中被低通滤波。

由于运动向量不是一致地分布，因此使用了可变长度编码来对运动向量进行编码。通过对向量差进行自适应算术编码，运动向量被转换成比特流。

3D子带系数是采用EZBC进行编码的。EZBC是利用子带/子波系数的零字段编码和前后关系建模的嵌入式图象编码算法。每幅帧独立地进行空间编码，并且所得的比特流被传送到数据分组模块。

用于图象序列编码的备选技术(MPEG-2，MPEG-4，H.263，H.264)包括运动估计/补偿和空间变换编码。对某些帧(I帧)进行没有采用运动估计的帧内编码。其它的帧(B和P帧)需要进行块运动补偿和所得的差异块的空间编码。块内编码也能在B和P帧中进行，这样的B和P帧是在运动估计中没有发现适合的运动向量的帧。为了提高帧内编码的效率，在给定帧中的相邻块之间可以采用空间修正。尤其在MPEG-4 AVC/H.264编解码器中，可以根据周围块的方向信息，由它们预测出所关心的块。然后实际的块和它的预测之间的差被编码，并且对这个块而言，没有运动向量需要被编码和发送。

一般说来，MC-EZBC和帧间小波编码器的问题之一是在较低比特率下性能相对较差，这主要是由于运动向量的不可缩放引起的。

同样，例如，按照当前帧间子波视频编码方法，采用运动补偿估测将相邻帧之间的不良匹配按照与良好匹配相同的方式时域滤波成了高通时域帧，这导致这些帧(或帧内的块)品质低下，这是由于对不良匹配而言，运动估计不能找到相邻帧之间的对应关系，得自参考帧的用作预测结果的块与所要预测的块明显不同。

发明内容

在所附的权利要求中阐述了本发明的各个方面。

本发明提供了一种使用包括时域滤波的三维子带分解对帧序列进行编码和解码的方法，其特征在于，在时域分解中，在一定的条件下，对于至少一个像素而言，所述像素的值是利用同一帧中的其它的一个或多个像素的值来近似或预测的。时域滤波包括求得一幅帧的一个运动向量场，而且在时域滤波中涉及至少两幅帧。在(时域)子带分解中，所近似的像素值可以用来表示高通或低通帧中的所述像素。

最好，所述像素是利用同一帧中的一个或多个相邻像素或它们的组合来近似的。对于一个给定的像素，一个邻近像素可以是与所述像素直接相邻的像素中任何一个。另外，对于一个像素块中的一个像素，比如一个4×4的块，例如，比方说在可变块大小匹配之中一个用于确定运动向量的块，或一个像素块或组，其中所述组或块的所有像素具有相同的运动向量，或一个关联的或分段的像素块或组，一个邻近的像素可以被认为是与所述像素块或组邻接的或周围的一个像素。

这种“帧内”预测可用于，例如，不关联的像素，或当通过使用同一帧的预测所得到的DFD比使用运动补偿预测要低时，也可使用这种“帧内”预测。否则，标准的时域滤波可被使用。

在本说明书中，术语“帧”被用来描述一个图象单元，包括在滤波后，但是该术语也应用于其它相似的术语，例如图象、场、画面、或图像的子单元或区域、帧等。术语像素和像素块或组在合适处可以相互交换使用。

附图说明

本发明的实施例将参照附图来进行介绍，其中：

图1是编码系统的方框图；

图2是一个GOP时域分解的示意图；

图3表示了一对帧和关联的以及不关联的像素；

图4是一幅帧中一个像素阵列的图形；

图5是表示用于选择预测像素的方向的示意图。

具体实施方式

本发明能用与上述的现有技术系统相似的系统来实现，只是对所述系统进行了下述的改进。

因此，按照本实施例的编码系统的基本组成部分为如图1所示的各组成部分，并且这些基本组成按照上面针对现有技术介绍的方式进行工作，只是针对不关联像素或像素的块的处理对MCTF模块进行了修改。

如上所述，运动估计一直进行到4×4像素块大小，而且块中的每个像素被分给了相同的运动向量。在图4中示出了这样一个4×4像素块，该像素块具有代表所研究的块中的像素的c(m，n)。用t(p，q)来表示4×4块顶行的上一行中的邻近像素，而用1(r，s)来表示4×4块左列的左边一列中的邻近像素。

在确定了运动向量之后，对运动向量和相关的DFD按照现有技术进行处理，来决定哪些像素应该按照视作不关联像素(如以上所定义的)进行处理。

对于不关联的块中的任一像素，为了进一步处理，使用相同帧中一个邻近的像素来近似(或预测)该像素，下面将描述为帧内预测。这一帧内预测能用很多方式实现。

在这个例子中，有三个帧内模式：垂直帧内预测模式，水平帧内预测模式和平均水平-垂直帧内预测模式。

垂直帧内预测模式：

·c(0，0)，c(0，1)，c(0，2)和c(0，3)由t(0，-1)来预测

·c(1，0)，c(1，1)，c(1，2)和c(1，3)由t(1，-1)来预测

·c(2，0)，c(2，1)，c(2，2)和c(2，3)由t(2，-1)来预测

·c(3，0)，c(3，1)，c(3，2)和c(3，3)由t(3，-1)来预测

水平帧内预测模式

·c(0，0)，c(1，0)，c(2，0)和c(3，0)由1(-1，0)来预测

·c(0，1)，c(1，1)，c(2，1)和c(3，1)由1(-1，1)来预测

·c(0，2)，c(1，2)，c(2，2)和c(3，2)由1(-1，2)来预测

·c(0，3)，c(1，3)，c(2，3)和c(3，3)由1(-1，3)来预测

平均水平-垂直帧内预测模式

·c(0，0)由(t(0，-1)+1(-1，0))/2来预测

·c(1，0)由(t(1，-1)+1(-1，0))/2来预测

·c(2，0)由(t(2，-1)+1(-1，0))/2来预测

·c(3，0)由(t(3，-1)+1(-1，0))/2来预测

·c(0，1)由(t(0，-1)+1(-1，1))/2来预测

·c(1，1)由(t(1，-1)+1(-1，1))/2来预测

·c(2，1)由(t(2，-1)+1(-1，1))/2来预测

·c(3，1)由(t(3，-1)+1(-1，1))/2来预测

·c(0，2)由(t(0，-1)+1(-1，2))/2来预测

·c(1，2)由(t(1，-1)+1(-1，2))/2来预测

·c(2，2)由(t(2，-1)+1(-1，2))/2来预测

·c(3，2)由(t(3，-1)+1(-1，2))/2来预测

·c(0，3)由(t(0，-1)+1(-1，3))/2来预测

·c(1，3)由(t(1，-1)+1(-1，3))/2来预测

·c(2，3)由(t(2，-1)+1(-1，3))/2来预测

·c(3，3)由(t(3，-1)+1(-1，3))/2来预测

该系统能够设置哪种预测模式是首选的。如果是那样的话，如果用于被使用的预测模式的预测值不可用(比如在垂直帧内预测模式，相关的r(p，q)值不可得，那么该系统能被设置成使用另一个备选的预测模式(比如水平预测模式)。如果其它预测模式的预测值不可得，那么将使用预测值128。

当使用帧内预测模式时，在针对两个连续帧B(当前)和A(参考)中的相应块进行的上升实施中对运动补偿的时域滤波(MCTF)进行了稍许修改。适用于不关联像素的高通滤波H为

H (m, n) = (\sqrt{2} / 2) * [B (m, n) - B^{'} (m, n)]

其中B′(m，n)是使用上述帧内预测的当前帧的预测像素。用于相关像素的高通滤波和低通滤波保持不变。

然后针对不关联像素，按下式对当前帧进行重构，

B (m, n) = \sqrt{2} * H (m, n) + B^{'} (m, n),

其中B′(m，n)是前次重构的像素。剩余的重构等式保持不变。

通过使用这种帧内预测方法，由于使用的预测值可以比使用运动估计方法时更接近所要预测的像素值，所以高通时域帧得到了改进。为了得到最好的结果，对帧内预测模式和基于运动估计方法的MC预测进行比较，并且选择得到最低平均失真值的模式(帧内预测或MC预测)。

更具体地讲，计算所有帧内预测模式(垂直、水平或水平-垂直)和MC预测模式(后向和前向)的平均绝对差值(MAD)。具有最低MAD值的模式被选为最佳预测模式。

在这个实施例中，依据各种模式导致的失真程度，对所有的分量(即，亮度(亮度，Y)和色度(色度，Cb和Cr))使用了同样的三种帧内预测模式，再加上原有的MCP模式。

通过使用一个可变加权参数，像素/块使用不同模式的比例可以是变化的。例如，将加权参数设置成零意味着通过使用相同帧中的像素作为预测值来预测所有不关联的像素/块，并且增大加权参数就增加了使用运动补偿预测进行预测的像素/块的比例。

上述的帧内预测模式仅使用了垂直、水平和平均预测方式。不过，也可以采用各种不同的其它预测方式。例如，为MPEG-4 AVC编解码器定义的所有模式都可以使用。这些模式是九种帧内预测模式，分别名为垂直(模式0)、水平(模式1)、DC(模式2)、对角线下/左(模式3)、对角线下/右(模式4)、垂直右(模式5)、水平下(模式6)、垂直左(模式7)和水平上(模式8)预测模式。还有四个不同的帧内预测模式，它们能被用于不同的块大小和不同的颜色分量。

如图5所示，一套完整的预测模式的方向如下所述：

·模式0：垂直_上

·模式1：垂直_上_右

·模式2：对角_上_右

·模式3：水平_上_右

·模式4：水平_右

·模式5：水平_下_右

·模式6：对角_下_右

·模式7：垂直_下_右

·模式8：垂直_下

·模式9：垂直_下_左

·模式10：对角_下_左

·模式11：水平_下_左

·模式12：水平_左

·模式13：水平_上_左

·模式14：对角_上_左

·模式15：垂直_上_左

·模式16：DC

在运动估计中，块大小的选择是基于速率失真优化进行的。帧内预测处理当前是在运动估计后进行的，因此，速率失真没有被优化。帧内预测模式选择可以被结合到速率失真优化中。

可以为经低通滤波的帧引入一个相似的帧内预测处理。

也可以采用其它类型的3D分解和变换。例如，本发明能够被用于这样一个分解方案中：先进行空阃滤波，然后再进行时域滤波。

本发明可以在例如一个基于计算机的系统中或使用适当的硬件和/或软件来实现。在图1中给出的是一个编码器，而一个相应的解码器具有相应的组成部分，用于执行相反的解码操作。

Claims

1.一种使用包括时域滤波的3D子带分解对一个帧序列进行编码的方法，其特征在于，对于至少一个像素而言，所述像素的值是使用同一帧中的一个或多个像素值来近似的。

2.如权利要求1所述方法，使用三维(3D)子带分解包括时域和空间滤波。

3.如权利要求1所述的方法，其中所述像素是使用同一帧中的一个或多个相邻像素、或它们的组合来近似的。

4.如权利要求3所述的方法，其中在垂直方向上和水平方向上相邻的像素被用作近似值。

5.如权利要求1所述的方法，其中同一帧中的多个像素中的任一个可被当作所述像素的近似值。

6.如权利要求1所述的方法，包括比较所述像素的值和近似值之间的差，并选择最佳的近似。

7.如权利要求1所述的方法，进一步包括使用运动补偿和其它帧中的值来近似所述像素值，并且比较使用其它帧进行的近似与使用同一帧进行的近似所得到的结果，并选择最佳的近似。

8.如权利要求1所述的方法，其中所述近似用于不关联的像素(如前文所定义的)。

9.如权利要求1所述的方法，其中所近似的像素值被用于表示子带分解中的高通或低通帧中的所述像素。

10.如权利要求9所述的方法，其中所述的表示包括了一个使用所近似的像素值、或者所近似的像素值和所述像素值的变换等式。

11.一种使用包括时域滤波和空间滤波的3D子带分解对一个帧序列进行编码的方法，其中3D子带分解包括对至少一个像素使用同一帧中的一个或者多个像素值来近似所述像素的值。

12.对使用了权利要求1或11所述的方法进行编码的一个帧序列进行解码的方法，该方法包括使用一个帧中的至少一个其它像素的值来为同一帧重构一个像素值。

13.适合于实现权利要求1、11或12所述的方法的编码和/或解码设备。