CN1457605A

CN1457605A - 精细颗粒可伸缩性视频编码技术中增强层的改进预测结构

Info

Publication number: CN1457605A
Application number: CN02800425A
Authority: CN
Inventors: A·普里; Y·陈; H·拉哈
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-02-26
Filing date: 2002-02-14
Publication date: 2003-11-19
Anticipated expiration: 2022-02-14
Also published as: CN1254975C; KR20090026367A; WO2002069645A3; KR20020090239A; WO2002069645A2; EP1364534A2; JP2004519909A; JP4446660B2; US20020118742A1

Abstract

本发明的目的是提供一种技术，用来灵活、有效地对视频数据进行编码。这种技术要对叫做基层帧的一部分视频数据进行编码，以及对视频数据和预测信号产生的剩余图像进行编码。每个视频帧的预测是利用多个译码后的基层帧产生的，可以利用运动补偿。这些剩余图像叫做增强层帧，随后被编码。在这一技术的基础之上，由于采用了周围的一些基层帧，因此能够获得更好的预测。由于增强层帧中得到的剩余数据很少，因此能够对它们进行有效的编码。对于增强层帧的编码，可以采用精细颗粒可伸缩性技术(比如离散余弦变换编码或者小波编码)。译码过程是编码过程的相反过程。因此，能够灵活同时有效地对视频数据进行编码和译码。

Description

精细颗粒可伸缩性视频编码技术中增强层的改进预测结构

发明背景

总的来说，本发明涉及视频压缩技术，具体而言，本发明涉及采用多个基层帧(base layer frames)来产生每一个增强层帧的一种伸缩结构。

可伸缩视频编码技术是许多多媒体应用和业务所需要的一种功能。例如，视频伸缩性被用于采用具有大范围处理能力的译码器的系统中。在这种情况下，计算能力低的处理器只对可伸缩视频流的一个子集进行译码。

可伸缩视频技术的另一种应用是可变传输带宽环境。在这种情况下，带宽较窄的接收机只对可伸缩视频流的一个子集进行接收和译码，其中这个可伸缩视频流的这个子集的大小正比于可以获得的带宽。

MPEG-2和MPEG-4这样的主流视频压缩标准采用了几种视频可伸缩性方法。在这些标准中规定了时间、空间和质量(SNR)可伸缩性类型。所有这些方法都包括一个基层(BL)和一个增强层(EL)。总的来说，可伸缩视频流的基层部分代表对视频类进行译码所需要的最少的数据。视频流的增强层部分是接收器译码的时候用来增强视频信号的额外信息。

用于对静止图像进行编码的另外一类可伸缩性是精细颗粒可伸缩性(FGS)。用这种可伸缩性技术编码的图像被逐步译码。换句话说，译码器在接收完对这一图像进行编码的所有数据之前就开始对这个图像进行译码和显示。随着收到的数据越来越多，译码后图像的质量逐渐提高，直到用于对这个图像进行编码的所有数据被收到、译码和显示。

在MPEG-4中正在对视频信号精细颗粒可伸缩性进行标准化，MPEG-4就是下一代多媒体国际标准。在这种可伸缩性结构里，在基层中象其它普通视频可伸缩性方法中一样使用运动预测编码技术。对于每一编码基层帧，随后利用精细颗粒可伸缩性方法对一个剩余图像进行计算和编码，产生一个增强层帧。这种结构消除了增强层帧之间的依赖性，因而具有精细颗粒可伸缩性，同时充分利用了基层中进行预测的优点，因而能够提高编码效率。

图1画出了FGS结构的一个实例。如图所示，这个结构还包括一个基层和一个增强层。此外，每一个增强帧都是从同一时刻的原始基层帧产生的。这一点由从每个基层帧向上指向对应的增强层帧的箭头反映出来。

图2画出了FGS编码系统的一个实例。这个系统包括一个网络6，它的带宽在(B_min＝R_min，B_max＝R_max)这个范围内可变。还画出了一个计算功能框4，这个功能框用于估计或者测量当前可用带宽(R)。

此外，基层(BL)视频编码器8利用(R_min，R)范围内的比特率(R_BL)对视频源2出来的信号进行压缩。在典型情况下，基层编码器8利用最小比特率(R_min)对信号进行压缩。当基层在发送视频信号之前就以离线形式进行基层编码的情况下尤其如此。可以看出，图中的单元10用于计算剩余图像12。

增强层(EL)编码器14以比特率R_BL对剩余信号12进行压缩，这个比特率可以在R_BL到R_max-R_BL的范围之内。注意到视频信号(增强层和基层)的编码既可以实时进行(如同图中所暗示的一样)，又可以在传送图像之前以离线方式进行，这一点是非常重要的。在后一种情形中，如图所示，视频信号可以储存起来，然后晚些时候在一个实时速率控制器16的控制下发送(或者传送)。实施控制器16将当前(实时)可用带宽R考虑在内，选择最佳的质量增强层信号。因此，速率控制器16输出的增强层信号的比特率等于R-R_BL。

发明简述

本发明的目的是对输入的视频数据进行灵活同时高效编码的一种技术。该方法要对叫做基层帧和增强层帧的一部分视频数据进行编码。用MPEG-4或者MPEG-2这种运动补偿DCT编码技术中的任意一种对基层帧进行编码。

剩余图像是通过从输入的视频数据中减去预测信号产生的。根据本发明，预测是从有或者没有运动补偿的多个译码基层帧形成的，在这里的编码流中包括了模式选择判决。由于这种预测非常有效，剩余图像数据相对较少。然后用精细颗粒可伸缩性(比如DCT变换编码或者小波编码)对叫做增强层帧的剩余图像进行编码。这样就能够实现对视频数据的灵活而且高效的编码。

本发明还提供一种方法，它翻转前面对视频数据的编码过程，产生译码后的帧。编码后的数据包括两部分，基层和增强层。该方法包括基层，它的译码方法取决于编码方法(编码器那里选择的MPEG-2或者MPEG-4)，从而产生译码后的基层视频帧。还有，要译码的增强层取决于精细颗粒可伸缩性(比如编码器那里选择的离散余弦变换编码或者小波编码)，以此来产生增强层帧。对于编码流中的模式判决信息，从多个译码后基层视频帧中选择出来的帧被用来产生预测信号，而不管有还是没有运动补偿。然后在译码基层视频帧中增加预测来产生译码输出视频数据。

附图简述

现在参考附图，其中相似的引用数字表示对应的部件：

图1是一种伸缩性结构的一个示意图；

图2是一个编码系统的一个框图；

图3是本发明中可伸缩性结构一个实例的一个示意图；

图4是本发明中可伸缩性结构另一个实例的一个示意图；

图5是本发明中可伸缩性结构另一个实例的一个示意图；

图6是本发明一个编码器实例的一个框图；

图7是本发明一个译码器实例的一个框图；

图8是本发明一个系统实例的一个框图。

实施例描述

为了产生很容易压缩的增强层帧，需要减少要编码和发送的信息的量。在这个FGS增强方案中，这一点是通过在基层中包括预测信号来实现的。这些预测信号取决于基层压缩量，它包括来自原始图像的变化的信息量。基层信号没有包含的剩余信息随后用增强层编码器进行编码。

由于相邻图片具有很强的时间相关性，除了对应的基层编码帧以外，与某个原始图像有关的信息还驻留在其它帧内，注意到这一点是非常重要的。例如，前面的基层帧的压缩质量可能比当前帧高，并且这两个原始图片之间的时间相关性非常强。在这种情况下，有可能是前面的基层帧比当前基层帧携带了更多的当前原始图片信息。因此，最好是利用前面一个基层帧来计算这个图片的增强层信号。

如同前面参考图1所作的讨论一样，当前FGS结构从对应的当前基层帧产生每一个增强层帧。虽然不是那么复杂，这种结构无法充分利用基层帧附近更大范围内能够获得的信息，而它能够产生更好的增强信号。因此，根据本发明，与当前基层帧相比，利用基层图片周围的信息可以为任意图片产生增强层帧。

通过下面的数学公式来说明当前可伸缩结构和新的可伸缩结构之间的差别。当前的增强结构用以下公式表示：

E(t)＝O(t)-B(t)， (1)其中E(t)是增强层信号，O(t)是原始图片，B(t)是时刻“t”的基层编码图片。本发明的新的增强结构用以下表达式说明：

E(t)＝O(t)-sum{a(t-i)*M(B(t-i))} (2)

i＝L1，-L1+1，...，0，1，...，L2-1，L2其中L1和L2是“局部性，”参数，而a(t-i)则是给每个基层图片的加权参数。权值a(t-i)受到如下约束：

0＜＝a(t-i)＜+1 (3)

Sum{a(t-i)}＝1

i＝-L1，-L1+1，...，0，1，...，L2-1，L2

此外，选择等式(2)的加权参数a(t-i)的时候最好是使得增强层信号E(t)的尺寸最小。这一计算是在增强层剩余计算单元中进行的。但是，如果无法获得进行这一计算所需要的计算能力，那么这个权参数a(t-i)就可以在0和1之间切换，或者平均成a(t+1)＝0.5或者a(t-1)＝0.5。

公式(2)中的M运算符表示运动估计运算，因为相邻图片或者帧内的对应部分通常都因为视频图像的运动而不在同一个位置。这样，在相邻基层图片或者帧上进行运动估计运算，为等式2中定义的增强层信号产生运动补偿(MC)信息。一般情况下，MC信息包括运动矢量和相邻图片之间的所有差别信息。

根据本发明，计算方法有几种，为按照公式(2)产生的增强层信号使用，和发送运动补偿(MC)信息。例如，用于M运算符的运动补偿信息可以与基层计算出来的运动补偿信息(例如运动矢量)相同。但是，会出现基层没有所需运动补偿信息的情况。

例如，采用后向预测的时候，如果没有作为基层的一部分计算并且发送出去(例如如果基层只包括I和P图片而不包括B图片)，就必须计算并且发送后向运动补偿信息。在基层需要的以外需要计算和发送的运动信息的信息量的基础之上，有三种可能。

在一种可能中，只是为增强层预测计算另外一组运动矢量所增加的复杂性无关紧要。从理论上讲，这一选择应该给随后的压缩提供最好的增强层信号。

在第二种可能中，增强层预测只利用基层中已经计算出来的运动矢量。某个图片的增强层预测的源图片(预测是从这些图片进行的)必定是同一图片基层中使用的那些的一个子集。例如，如果基层是一幅内图片，那么它的增强层只能从同一个内基图片预测。如果这个基层是一个P图片，那么它的增强图片必须从用作基层运动预测的同样的参考图片预测，B图片也是这样。

上面描述的第二种情况可能限制增强层能够使用的预测的类型。但是，它不要求传送额外的运动矢量，也不需要计算任何额外的运动矢量。因此，这样就能够降低编码器的复杂性，而只略微牺牲质量。

第三种可能介于前两种可能之间。在这种可能中，对增强层可以使用的预测的类型没有多少或者根本没有限制。对于刚好拥有所需增强预测类型所需要的基层运动矢量的图片，重复使用基运动矢量。对于其它图片，单独为增强预测计算运动矢量。

上述公式为增强层信号的计算提供了通用框架。但是，在这里值得注意通用框架中的几个特别之处。例如，如果在公式(2)中L1＝L2＝O，新的FGS增强预测结构就缩减为图1所示的当前FGS增强预测结构。应该指出，这种新结构提供的功能一点也不会被这里建议的改进所削弱，因为增强层图片之间的关系没有改变，因为增强层图片不是互相导出的。

除此以外，如果在公式(2)中L1＝0并且L2＝1，那么这个通用框架缩减为图3所示的可收缩性结构。在本发明可收缩性结构的这个实例里，当前基层帧和后一个基层帧被用来产生每一个增强层帧。因此，公式(2)中的M运算符将进行前向预测。

类似地，如果公式(2)中L1＝1并且L2＝0，那么这个通用框架缩减为图4所示的可伸缩结构。在本发明可伸缩结构的这个实例中，当前的基层帧和前一个基层帧被用于产生每一个增强层帧。因此，公式(2)中的M运算符将进行后向预测。

除此以外，如果公式(2)中L1＝L2＝1，那么这个通用框架就缩减为图5所示的可伸缩结构。在本发明可伸缩结构的这个实例中，当前的、后面的和前面的基层帧被用于产生每一个增强层帧。因此，公式(2)中的M运算符将进行双向预测。

在图6中说明本发明的一个编码器实例。可以看出，这个编码器包括一个基层编码器18和一个增强层译码器36。这个基层编码器18对输入视频O(t)的一部分进行编码，以便产生基层信号。此外，增强层编码器36对输入视频O(t)的其余部分进行编码，产生增强层信号。

可以看出，基层编码器18包括一个运动估计/补偿预测功能块20，一个离散余弦变换(DCT)功能块22，一个量化功能块24，一个可变长度编码(VLC)功能块26和一个基层缓冲器28。在工作的过程中，这个运动估计/补偿预测功能块20对输入的视频信号O(t)进行运动估计，产生运动矢量，以及关于如何对数据进行编码产生模式判决，传递给VLC功能块26。此外，运动估计/补偿预测功能块20还将输入视频信号O(t)的另一部分不加改变地传送给DCT功能块22。这一部分对应于输入的视频信号O(t)，它们将被编码成I帧和没有编码进运动矢量的部分B和P帧。

离散余弦变换功能块22对从运动估计/补偿预测功能块20收到的输入视频信号进行离散余弦变换。此外，量化功能块24对离散余弦变换功能块22的输出进行量化。可变长度编码功能块26对运动估计/补偿预测功能块20和量化功能块24的输出进行可变长度编码，产生基层帧。输出进行实时传送或者长时间储存之前，这些基层帧暂时储存在基层比特缓冲器28中。

还可以看到，一个逆量化功能块34和一个逆离散余弦变换功能块32串联在量化功能块24的输出端。在工作的时候，这些功能块32和34提供前面的编码帧的译码后版本，储存在一个帧存储器30中。译码后的这一帧被运动估计/补偿预测功能块20用来为当前帧产生运动矢量。利用前一帧的译码后版本就能够使译码器一侧的运动补偿更加精确，因为在译码器一侧它与收到的相同。

从图6还可以看出，增强层编码器36包括一个增强预测和剩余计算功能块38，一个增强层FGS编码功能块40和一个增强层缓冲器42。在工作的时候，增强预测和剩余计算功能块38通过从输入视频信号O(t)中减去预测信号来产生剩余图像信号。

根据本发明，按照公式(2)从多个基层帧B(t)，B(t-1)形成预测信号。如前所述，B(t)代表当前基层帧，B(t-i)代表一个或者多个相邻基层帧，比如前一帧，后一帧或者这两者。因此，利用多个基层帧形成每一个剩余图像。

此外，增强层FGS编码功能块40被用于对增强预测和剩余计算功能块38产生的剩余图像进行编码，产生增强层帧。增强层编码功能块40使用的编码技术可以是任意精细颗粒可伸缩编码技术，比如离散余弦变换或者小波图像编码。输出进行实时传输或者长时间储存之前，增强层帧暂时储存在增强层比特缓冲器42中。

图7说明本发明一个译码器实例。可以看出，译码器包括一个基层译码器44和一个增强层译码器56。基层译码器44对进来的基层帧进行译码，产生基层视频信号B’(t)。此外，增强层译码器56对进来的增强层帧进行译码，将这些帧与适当的译码后基层帧进行组合，产生增强输出视频信号O’(t)。

可以看出，基层译码器44包括可变长度译码(VLD)功能块46，逆量化功能块48和逆离散傅里叶变换功能块50。在工作的过程中，这些功能块46、48、50对进来的基层帧分别进行可变长度译码、逆量化和逆离散余弦变换，产生译码运动矢量、I帧、部分B和P帧。

基层译码器44还包括运动补偿预测功能块52，用于对逆离散余弦变换功能块50的输出进行运动补偿，产生基层视频信号。此外，还有一个帧存储器54，用来储存以前译码的基层帧B’(t-i)。于是就能够在储存在帧存储器54中的译码后运动矢量和基层帧B’(t-i)的基础之上对部分B或者P帧进行运动补偿。

可以看出，增强层译码器56包括一个增强层FGS译码功能块58和一个增强预测和剩余组合功能块60。在工作的时候，增强层FGS译码块58对进来的增强层帧进行译码。这种译码是编码器一侧所进行的操作的逆操作，它可能包括任何精细颗粒可伸缩性技术，比如离散余弦变换或者小波图像译码。

此外，增强预测和剩余合并功能块60将译码后的增强层帧E’(t)与基层视频信号B’(t)、B’(t-i)进行合并，以便产生增强视频信号O’(t)。具体而言，每个译码后的增强层帧E’(t)都与预测信号合并。根据本发明，从当前的基层帧B’(t)和储存在帧存储器54中的至少一个其它基层帧B’(t-i)形成预测信号。根据本发明，另一个基层帧可以是一个相邻帧，比如前一帧，后一帧或者这两者。这些帧按照以下公式合并：

O’(t)＝E’(t)+sum{a(t-i)*M(B’(t-i))} (4)

i＝-L1，-L1+1，...，0，1，...，L2-1，L2，其中M运算符是运动位移或者补偿运算符，a(t-i)是一个加权参数。公式(4)中进行的运算是公式(2)所示译码器一侧进行的运算的逆运算。可以看出，这些运算包括将每一个译码后的增强层帧E’(t)加到运动补偿后的基层视频帧的加权和上去。

在图8中给出能够采用本发明的一个系统实例。作为一个实例，系统66可以表示电视机、机顶盒、台式计算机、膝上型或者掌上型计算机、个人数字助理(PDA)、盒式磁带录像机(VCR)、数字录像机(DVR)、TiVO装置等等这样的视频/图像存储器以及这些装置和其它装置的部分或者组合。系统66包括一个或者多个视频源68，一个或者多个输入/输出装置76，一个处理器70和一个存储器72。

视频/图像源68可以代表，例如电视接收机，VCR或者其它视频/图像存储器。源68也可以代表一个或者多个网络连接，用于从服务器或者因特网、广域网、城际网、局域网、陆地广播系统、有线网、卫星网、无线网或者电话网这样的全球计算机通信网或者这些网络和其它网络的一部分或者组合上的服务器接收视频信号。

输入/输出装置76、处理器70和存储器72通过通信媒介78进行通信。通信媒介78可以代表例如总线、通信网、一个或者多个内部电路连接、电路卡或者其它装置，以及这些通信媒介和其它通信媒介的一部分和它们的组合。从源68输入的视频数据按照存储器72中储存，处理器70执行的一个或者多个软件程序来进行处理，从而产生视频/图像，在显示器74上显示出来。

在一个实施方案中，采用本发明的新的可伸缩性结构的编码和译码技术是利用计算机能够读，这个系统能够执行的代码来实现的。这些代码可以储存在存储器72中，或者从CD-ROM或者软盘这样的存储媒介读出/下载。在其它实施方案中，可以用硬件电路来代替软件指令，或者与它们结合，来实现本发明。例如，图6～7所示的部件也可以作为离散的硬件实现。

虽然前面用具体实例描述了本发明，但是应该明白，本发明不是只限于这里公开的实例。例如，本发明不限于任何具体的编码帧类型和概率分布。相反，本发明包括包括在权利要求的实质和范围之内的各种结构和改进。

Claims

1.对视频数据进行编码的一种方法，包括以下步骤：

对一部分视频数据进行编码，产生基层帧；

对于每个剩余图像利用多个基层帧从视频数据和基层帧产生剩余图像；和

用精细颗粒可伸缩性技术对剩余图像进行编码，产生增强层帧。

2.权利要求1的方法，其中的多个基层帧包括当前的基层帧和至少一个相邻基层帧。

3.权利要求1的方法，其中的每个剩余图像都是通过从视频数据中减去预测信号产生的，其中的预测信号是由多个基层帧形成的。

4.权利要求3的方法，其中的预测信号是利用以下步骤产生的：

对每个基层帧进行运动估计；

对每个基层帧进行加权；和

将多个基层帧加起来。

5.用于对包括一个基层和一个增强层的视频信号进行译码的一种方法，包括以下步骤：

对基层进行译码以产生基层视频帧；

用精细颗粒可伸缩性技术对增强层进行译码，产生增强层视频帧；和

将每个增强层视频帧和多个基层视频帧结合产生输出视频信号。

6.权利要求5的方法，其中的多个基层视频帧包括当前基层视频帧和至少一个相邻的基层视频帧。

7.权利要求5的方法，其中的结合步骤是通过将每个增强层增加到预测信号中去形成的，其中的预测信号是由多个基层视频帧形成的。

8.权利要求7的方法，其中的预测信号是按照以下步骤产生的：

对每个基层视频帧进行运动补偿；

对每个基层视频帧进行加权；和

将多个基层视频帧加起来。

9.对视频数据进行编码的一种装置，包括：

对一部分视频数据进行编码产生基层帧的第一个编码器；

对于每个剩余帧利用多个基层帧从视频数据和基层帧产生剩余图像的增强预测和剩余计算功能块；和

用精细颗粒可伸缩性技术对剩余帧进行编码产生增强层帧的第二个编码器。

10.对视频信号进行译码的一种装置，包括一个基层和一个增强层，包括以下步骤：

对基层进行译码产生基层视频帧的第一个译码器；

利用精细颗粒可伸缩技术对增强层进行译码产生增强层视频帧的第二个译码器；和

将多个基层视频帧和每个增强层视频帧结合起来的一个增强预测和剩余结合功能块。

11.包括代码用来对视频数据进行编码的一种存储媒介，这些代码包括：

对一部分视频数据进行编码产生基层帧的代码；

对于每个剩余图像利用多个基层帧从视频数据和基层帧产生剩余图像的代码；和

利用精细颗粒可伸缩性技术对剩余图像进行编码产生增强层帧的代码。

12.包括代码对包括基层和增强层的视频信号进行译码的一种存储媒介，这些代码包括：

对基层进行译码产生基层视频帧的代码；

利用精细颗粒可伸缩性技术对增强层进行译码产生增强层视频帧的代码；和

将每一个增强层视频帧与多个基层视频帧结合产生输出视频的代码。