CN1778117A

CN1778117A - 使用参变速率失真模型对视频编码进行数率失真优化数据划分的系统和方法

Info

Publication number: CN1778117A
Application number: CN 200480010482
Authority: CN
Inventors: J·C·叶
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-18
Filing date: 2004-04-05
Publication date: 2006-05-24

Abstract

公开了一种使用参变速率－失真(RD)模型提供简单而有效的分层视频编码技术的系统和方法。视频编码系统可以包括速率－失真优化数据划分编码器和解码器。概括地讲，RD－DP编码器逐块地修改划分点，这大大提高了基本层位流的编码效率，而不用明示传输划分点，从而明显节省了带宽。而且，即使对于非参变速率－失真曲线，参变速率－失真模型也能够防止发生基本层的不足划分，并且参变模型在编码器和解码器处是同时更新的，以实现同步。

Description

使用参变速率失真模型对视频编码进行数率失真优化数据划分的系统和方法

本发明涉及可伸缩视频编码系统，具体来说，本发明涉及使用参变化速率-失真(RD)模型的用于在分组有损网络上的视频传输的离散余弦变换(DCT)系数的通用速率-失真优化数据划分(gRDDP)。

视频录像是画面的序列；每个画面是由像素阵列构成的。未经压缩的视频录像的大小是巨大的。为了减小这个大小，可以使用视频压缩来减小该大小和提高数据传输速率。已经建立了各种视频编码方法(例如，MPEG1、MPEG2和MPEG4)来为数字存储介质上的运动画面和相关的音频数据的编码表达形式提供国际标准。

这样的视频编码方法格式化和压缩用于低速率传输的素材视频数据。例如，MPEG2标准的的格式由4层构成：画面组、画面、片段、宏块。视频序列以包括一个或多个画面组(GOP)的序列头部开始，并且以序列结束代码结束。画面组(GOP)包括头部和用来实现视频序列内的随机访问的一系列多个画面之一。

画面是视频序列的初级编码单位。画面由表示亮度(Y)和两个色度(Cb和Cr)值的三个矩形矩阵构成。Y矩阵具有偶数个行和列。Cb和Cr矩阵在各个方向(水平和垂直)上都是Y矩阵的大小的一半。片段是一个或多个“邻接”的宏块。宏块在片段内的顺序是从左到右且从上到下。

宏块是MPEG算法中的基本编码单位。宏块是帧中的16×16像素段。由于各个色度分量具有亮度分量的垂直和水平分辨率的一半，因此宏块由四个Y、一个Cr和一个Cb块构成。块是MPEG算法中的最小编码单位。它由8×8像素构成，并且可以是这三种类型之一：亮度(Y)、红色色度(Cr)或蓝色色度(Cb)。块是帧内编码中的基本单位。

MPEG2标准定义了三种类型的画面：帧内画面(I画面)、预测画面(P画面)和双向画面(B画面)。帧内画面或I画面是仅使用存在于画面本身中的信息进行编码的，并且在压缩视频数据内提供了可能的随机访问点。预测画面或P画面是相对于最近的在前I或P画面进行编码的。象I画面一样，P画面也可以用作B画面和之后的P画面的预测参考。而且，P画面使用运动补偿来实现比使用I画面可能得到的更多的压缩。双向画面或者B画面是使用之前和之后的画面作为参考画面的画面。B画面给出最大的压缩，因为它使用之前和之后的画面作为参考画面。这三种类型的画面组合起来就构成了画面组。

MPEG变换编码算法包括下述编码步骤：离散余弦变换(DCT)、量化和游程-长度(rUn-length)编码。

视频编码中的一项重要技术是可伸缩性。关于这一点，将可伸缩视频编解码器定义为这样的编解码器：能够产生可分成内嵌子集的位流。可对这些子集独立编码，以提供质量渐增的视频序列。这样，单独一次压缩操作能够产生具有不同速率和重构质量的位流。最初可以传送原始位流的小子集，以提供基本层质量，随后传送额外的层作为增强层。可伸缩性得到大多数视频压缩标准的支持，比如MPEG-2、MPEG-4和H.263。

可伸缩性的一项重要应用是在错误复原视频传输中。可以使用可伸缩性来对基本层应用比增强层更加强健的错误保护(即，不均等错误保护)。这样，基本层被成功解码的可能性很高，即使在不利的传输信道条件下也是如此。

数据划分(DP)用于简易化可伸缩性。例如在MPEG2中，片段层表明包含在特定位流中的块变换系数的最大数量(称为优先级断点)。数据划分是一种频域方法，它将64个经过量化的变换系数的块拆成两个位流。第一个优先级较高的位流(例如基本层)包含更关键的较低频率系数和辅助信息(比如DC值、运动向量)。第二个优先级较低的位流(例如，增强层)携带较高频率的AC数据。

附图1表示图解说明可在编码器之外实现的数据划分的框图。在发射器处，去多路复用器从可变长解码器(VLD)接收用于各个可变长代码的位数，并且根据优先级断点(PBP)值分离位流。注意，根据所使用的速率划分逻辑，PBP可能在各个片段上有所改变。具体来说，在传统的DP视频编码器(例如MPEG)中，在DCT域中将单独一层位流划分成两个或多个位流。在传送期间，发送一个或多个位流，以实现位速率可伸缩性。可以对基本层和增强层应用不均等错误保护来提高对信道恶化的强健性。

附图2表示图解说明可在解码器之外实现的合并的框图。如图所示，使用了两个VLD来处理基本层和增强层流，然后输出不分层的位流。PBP定义了编码位流是如何划分的。在解码之前，取决于资源分配和/或接收器容量，将所接收到的位流或它们的子集合并成一个单独的位流并且加以解码。

传统的DP结构在家用网络环境中很有优势。更加具体地讲，在其完全质量下，DP的速率失真性能象其单层对应情况一样好，同时还能够实现速率可伸缩性。速率-失真(R-D)性能牵涉到找出速率和失真的最佳组合。这种最佳组合(也可以看作成本与质量的最佳组合)并不是唯一的。R-D方案尝试着使用可行的最少位来代表一段信息并且同时尝试以将会得到最佳再现质量的方式代表这段信息。

还要注意，在传统的DP结构中，在其完全质量下，额外的解码复杂性系统开销是非常小的，同时DP提供了较宽的解码器复杂性可伸缩性的范围。这是因为DCT游程-长度对的可变长解码(VLD)(是计算量最大的部分)现在变得可伸缩了。

在传统的DP结构中，DCT优先级断点(PBP)值需要作为辅助信息明示传送。为了最小化系统开销，PBP值通常对各个片段或视频数据包中的所有DCT块都是固定的。

虽然传统的DP方法简单且具有一些优点，但是却不能适应基本层最佳化，因为只有一个PBP值用于各个片段或视频数据包中的所有块。此外，用于数据划分的单环预测结构会造成在低位速率下出现预测漂移。这样，在数据划分期间，如何为各个块选择DCT断点，以使基站质量在基本划分速率下为最佳是很难的。为了在基本层上实现最小失真，在DCT块层面上，必须允许划分点改变。不过，由于断点值是明示传送的，这样的断点精细控制会带来显著的速率系统开销。

由此，存在着对克服传统数据划分方案的局限性和提供得到改善的基本层优化的视频编码技术的需求。

本发明致力于前述的需求，并且通过采用参变RD模型来提供经过改善的数据划分技术而提供额外的优点。在按照本发明的一个实施例中，这可以通过采用基于前后关系的向后自适应用最小的系统开销(≈对每个片段或视频数据包或者甚至是对每个帧20位)。

本发明的一个方面致力于一种提供用于视频传输的DCT系数的速率-失真优化数据划分(gRD-DP)的系统和方法。

按照本发明的另一个方面，RD-DP逐块地修改划分点，因此大大提高了基本层位流的编码效率。这还使得解码器能够从解码数据中以后向方式找出划分位置，而不用明示传输，因此明显节省了带宽。

按照本发明的再一个方面，计算出了拉格朗日参数λ。使用标准的一维二等分算法将λ的值确定成满足速率预算Rb(对于基本层传输信道)。

本发明的一个实施例致力于一种用于可伸缩视频编码器的数据划分方法。该方法包括下述步骤：接收视频数据；为视频帧的多个宏块确定DCT系数；对DCT系数进行量化并且将经过量化的DCT系数转换成(游程，长度)对；对于视频帧的多个宏块中的每一个，确定参变速率-失真曲线的斜率，其中如果该斜率小于λ，或者如果第k个斜率是不小于λ的第一个斜率，则将第k个(游程，长度)对放到基本层中，否则如果第k个斜率大于λ，则将第k个(游程，长度)对放到增强层中，其中λ是按照拉格朗日计算而确定的。

本发明的另一个实施例致力于一种在可伸缩视频解码器中确定基本层和至少一个增强层之间的边界的方法。该方法包括下述步骤：接收基本层和至少一个增强层，该基本层和增强层包括代表对应于视频帧中的多个宏块的(游程，长度)对的数据。对于视频帧的多个宏块中的每一个，确定参变速率-失真曲线的斜率。如果该斜率小于λ，或者如果第k个斜率是不小于λ的第一个斜率，则从基本层中读取第k个(游程，长度)对，否则如果第k个斜率大于λ，则从所述至少一个增强层中读取第k个(游程，长度)对，其中λ是按照拉格朗日计算而确定的。

本发明的再一个实施例致力于一种能够合并来自于基本层和至少一个增强层的数据的可伸缩解码器。该解码器包括：存储器，存储着计算机可执行的处理步骤；和处理器，执行存储在存储器中的处理步骤，以便(i)接收基本层和至少一个增强层，该基本层和增强层包括代表对应于视频帧中的多个宏块的(游程，长度)对的数据；(ii)对于视频帧的多个宏块中的每一个，确定参变速率-失真模型，对于第i个块，使用第k个(游程，长度)对计算参变速率-失真模型的斜率(正切)，和(iii)如果使用第k个(游程，长度)对更新的参变模型的斜率小于λ，或者如果它是不小于λ的第一个斜率，则从基本层中读取第k个(游程，长度)对，否则如果该斜率大于λ，则从所述至少一个增强层中读取第k个(游程，长度)对，其中λ是依照拉格朗日计算而确定的。

本发明的又一个实施例致力于可伸缩代码转换器。对单层编码视频位流(MPEG-1、MPEG-2、MPEG-4、H.264等)进行部分解码，并且根据前述的边界确定方法实施例对各个DCT块确定位流分离点。然后根据该分离点将VLC代码分成两个或多个部分。部分解码仅涉及可变长解码、反向扫描和反向量化。不需要反向DCT或运动补偿。

本发明与可变带宽网络和能够适应不同位速率并且因此能够适应不同质量的图像的计算机系统相结合具有卓越的效果。

附图1和2是用于数据划分和合并的系统的一般性框图。

附图3表示按照本发明的一个方面的视频编码系统。

附图4表示典型的凸形速率-失真曲线。

附图5表示非凸形速率-失真曲线。

附图6表示可以实现本发明的计算机系统。

附图7表示附图6中所示的计算机系统中的个人计算机的体系结构。

附图8表示按照本发明的一个实施例的代码转换器的框图。

附图3表示采用分层编码和传输优先化的可伸缩视频系统100。分层源编码器110对输入视频数据进行编码。分层源编码器110的输出包括基本层121和一个或多个增强层122-124。多个信道120传送这些输出编码数据。分层源解码器130对编码数据进行解码。

实现分层编码有很多不同的方式。例如，在时域中进行分层编码，基本层包含具有较低帧速率的位流，而增强层包含增值信息，用来获得具有较高帧速率的输出。在空间域中进行分层编码，基本层对原始视频序列的二次采样形式进行编码，而增强层包含用来在解码器处获得较高空间分辨率的附加信息。

一般来说，不同的层使用不同的数据流并且对信道错误具有明显不同的容限。为了对抗信道错误，分层编码通常与传送优先化结合使用，从而使得基本层得以以较高的错误保护程度进行传递。如果基本层121丢失，那么包含在增强层122-124中的数据就可能没用了。

按照本发明的一个实施例，基本层121的视频质量在DCT块级别上得到了灵活控制。期望基本层可以通过在DCT块级别上修改断点来加以控制，断点的修改是通过采用参变RD模型来为每个DCT块近似RD平面的凸包、从而在编码器和解码器处同时找到最佳划分点(稍后将参照附图5和6加以解释)来实现的。

注意，DCT的用途是减少相连错误像素之间的空间相关性和将错误像素的能量压缩到少量系数中。因为很多高频系数在经过量化之后是零，因此可变长编码(VLC)是通过游程长度编码方法实现的，这种方法使用所谓的之字形扫描将系数按顺序排列成一维阵列，使得低频系数处于高频系数之前。这样，经过量化的系数是用非零值和在前的零的个数来规定的。使用可变长码字对不同的符号(各自相应于一对零的游程长度和非零值)加以编码。

可伸缩视频系统100最好使用熵编码。在熵编码过程中，通过以之字形顺序对量化DCT系数进行扫描，将它们重排成一维阵列。这种重排将DC系数放在阵列的第一个位置上，而剩下的AC系数在水平和垂直方向上都是从低频到高频排列的。前提是较高频率下的量化DCT系数很有可能是零，从而将非零和零部分分开。将经过重排的阵列编码成游程-级别对(run-level pair)。“游程”定义为阵列中两个非零系数之间的距离。“级别”是紧跟在零序列之后的非零值。这种编码方法产生8×8DCT系数的简洁表达形式，因为大量的系数已经量化为零值了。

使用熵编码进一步压缩游程-级别对和与宏块相关的信息，比如运动向量和预测类型。可变长和固定长度代码都可以用于这一用途。

视频系统100的设计是由操作速率-失真(RD)原理启发的。RD原理在编码和压缩方案中很有用，其中事先已知可用带宽，并且其中目的是实现能够在这个带宽内实现的最佳再现质量(即，自适应算法)。

下面讨论的是用于求解最佳划分(即，基本层和增强层划分)的公式化举例说明。在下面的讨论中，假设对每个视频帧有“n”个DCT块，并且对于基本层划分位速率预算Rb是已知的。速率预算是根据最小视频质量要求和信道流量波动确定的。于是，可以将下面的最佳化问题公式化，以求解最佳划分：

\min_{P 1 . . . Pn} Σ_{i = 1}^{n} Di (Pi) subject to Σ_{i = 1}^{n} Ri (Pi) \leq Rb - - - (1)

其中P_i∈{0，1，...，K(i)}，i＝1，...，n是用于第i个块的断点值，并且K(i)表示第i个块中的最大(游程，长度)对，R_i(P_i)和D_i(P_i)分别表示得自第i个块的相应位速率和失真。

最佳化问题可以使用基于拉格朗日最佳化的迭代二等分算法来求解。对于所有的i＝1，...，n，最佳划分点P_i满足下述条件：

\frac{&PartialD; Di (Pi)}{&PartialD; Ri (Pi)} + λ = 0, i = 1, . . ., n - - - (2)

其中拉格朗日算子λ＞0是通过标准的二等分搜索确定的，从而满足(1)中的速率约束条件。

如果用于第i个块的第k个DCT(游程，长度)对是L_i ^k位，并且具有系数值X_i ^k；则，第i个块的速率-失真(R-D)曲线在第k个DCT(游程，长度)对处的斜率具有下列一组离散值：

\frac{&PartialD; Di (Pi)}{&PartialD; Ri (Pi)} = \frac{Di (P_{i + 1}) - Di (Pi)}{Ri (P_{i + 1}) - Ri (Pi)} &Element; {\frac{{| X_{i}^{k} |}^{2}}{L_{i}^{k}}}_{k = 1}^{K (t)} - - - (3)

现在参照附图4，给出了凸形R-D曲线来解释说明如何确定划分点和分层源解码器130如何以向后自适应方式推断划分点。注意，即使R-D曲线不是凸形的，分层源解码器130也是以相同方式操作的。

从附图4中可以看出，如果速率-失真曲线是凸形的，则总体上λ是关于R的减函数，因此，总体上，保持有下述关系：

\frac{{| X_{i}^{1} |}^{2}}{L_{i}^{1}} &GreaterEqual; \frac{{| X_{i}^{2} |}^{2}}{L_{i}^{2}} &GreaterEqual; \cdot \cdot \cdot &GreaterEqual; \frac{{| X_{i}^{K (i)} |}^{2}}{L_{i}^{K (i)}} - - - (4)

依据公式(4)，如果速率-失真曲线是凸形的，下面给出了用于分层源编码器110端的DCT系数的划分算法。注意，为了达到这一点，使用离散余弦变换(DCT)转换对应于帧的视频数据、对DCT系数进行量化，然后使用可变长编码(VLC)转换成二进制码字(游程，长度)。

for i＝1，...，n {对于帧中的每个宏块

for k＝1，...，K(i){对于每个(游程，长度)对

求算相应的X_i ^k、L_i ^k。

将第k个(游程，长度)VLC放入基本

层中。

if

{| X_{i}^{k} |}^{2} / L_{i}^{k} < λ

break；

}

将剩余的第i个块的(游程，长度)对放入ENH层

}

拉格朗日参数λ可以单独进行编码并且作为辅助信息(即，系统开销信息)发送。使用下述算法，分层源解码器130能够找到基本层121和增强层122的边界，以及找到同步：

for i＝1，...，n {对于帧中的每个宏块

for k＝1，...，K(i){对于每个(游程，长度)对

从基本层中读取VLC(游程，长度)对

求算相应的X_i ^k、L_i ^k。

if

{| X_{i}^{k} |}^{2} / L_{i}^{k} < λ

break；

}

从ENH层中读取剩余的第i个块的(游程，长度)对。

}

如上面所讨论的，所要传送的仅有的辅助信息是拉格朗日参数λ。使用标准的一维二等分算法确定λ的值，以满足公式(1)的速率预算Rb。不过，λ的最佳值可能是实数，并且应当对其进行量化，以便在信道120上传送。

不过，在对(游程，长度)对进行的可变长编码的实际执行当中，附图4的R-D曲线可能不是凸形的，如附图5所示，因为VLC仅仅是源的真实熵的近似值。在这种情况下，检验变量|X_i ^k|²/L_i ^k不再关于k单调。在这种情况下，由公式(4)给出的划分规则不再有效，并且RDDP的近似最优性可能会被打破，如附图5所示。注意，最佳断点值可能是k₂，虽然RDDP算法给出了k₁，这使得基本层发生不足划分(under-partiotioned)。

由此，按照优选的实施例，使用参变模型模拟凸包，在编码器和解码器处同时使用之前解码的(游程，长度)对连续不断地更新该模型。

更加具体地讲，按照优选的实施例，下述划分规则：

| \frac{&PartialD; D_{i} (R_{i} (k); θ_{i} (k))}{&PartialD; R_{i} (k)} | \{\begin{matrix} > λ, k \leq B_{i} \\ \leq λ, k > B_{i} \end{matrix} - - - (5)

其中D_i(R；θ)表示关于速率R和参数向量θ_i的第i个块的基本层失真模型，R_i(k)表示包含k-(游程，级别)对的情况下的速率，而θ_i(k)是使用k-(游程，级别)对为第i个块估计的参数。

在公式(5)中，可以使用任何速率失真模型，只要它是凸形并且是单调减函数即可。例如，可以使用指数失真模型：

D(R；θ)＝σ²exp(-αR) (6)

其中θ＝(σ，α)是要进行估测的未知参数。

对于失真模型公式(6)，划分规则变为：

σ^{2} (k) α (k) \exp (- α (k) R_{i} (k)) \{\begin{matrix} > λ, k \leq B_{i} \\ \leq λ, k > B_{i} \end{matrix}

其中σ(k)、α(k)是使用k-(游程，级别)VLC对估测的参数。

由此，分层源解码器130使用下述算法能够找出基本层121和增强层122的边界，以及找出同步，以几乎最佳地分离位流，而不用发送断点值的明示信息：

编码：

将λ编码到基本划分中。

for I＝1，...，N{//对于每个DCT块

for k＝1，...，K(I){//对于每个(游程，级别)对

求算和L_i(k)。

使用和{L_i(k)}_m＝1 ^k估测θ_i(k)并且更新参变失真函数Di(Ri(k)，θ_i(k))

将第k个(游程，级别)VLC放到基本层中。

If

| \frac{&PartialD; D_{i} (R_{i} (k); θ_{i} (k))}{&PartialD; R_{i} (k)} | < λ

break。

end

将剩余的(游程，级别)对放到增强划分中。

end

解码

从基本划分中解码出λ。

for I＝1，...，N{//对于每个DCT块

for k＝1，...，K(I){//对于每个(游程，级别)对

从基本层中读取第k个(游程，级别)VLC

求算

和L_i(k)。

使用

和{L_i(k)}_m＝1 ^k估测θ_i(k)并且更新参变失真函数Di(Ri(k)，θ_i(k))

If

| \frac{&PartialD; D_{i} (R_{i} (k); θ_{i} (k))}{&PartialD; R_{i} (k)} | < λ

break。

end

从增强划分中读取剩余的(游程，级别)对。

end

如上面所解释的，所要传送的仅有的辅助信息是拉格朗日参数λ。使用标准的一维二等分算法确定λ的值，以满足公式(1)的速率预算Rb。然后，对其进行量化，并且对于每个帧头部，将其传送一次，因此速率系统开销可以忽略不计。

因此，通过在更加可靠的传输信道上传送λ值和相应的低频和部分高频DCT系数(作为基本层121)，能够实现更大的DCT信息的动态分配。万一来自一个或多个增强层122-124的数据丢失，这能够实现对最小视频质量的更多控制。

而且，参变模型近似速率失真曲线的凸包，因此即使在非凸形速率-失真函数的情况下，也能够防止不足划分的出现。

上面讨论的本发明的实施例可应用于任何可伸缩视频编码系统，例如，MPEG2、MPEG4、H.263等。

附图6表示可以实现本发明的计算机系统9的代表性实施例。如附图3所示，个人计算机(“PC”)10包括：网络连接线路11，用于与网络(比如可变带宽网络或因特网)进行连接；和传真/调制解调连接线路12，用于与其它远程源(比如摄像机(未示出))进行连接。PC10还包括用于向用户显示信息(包括视频数据)的显示屏幕14、用于输入文本和用户命令的键盘15、用于在显示屏幕14上定位光标和用于输入用户命令的鼠标13、用于对安装在其中的软盘进行读取和写入的盘驱动器16和用于访问存储在CD-ROM上的信息的CD-ROM驱动器17。PC10还可以具有一个或多个与其相连的外围设备，比如用于输入文档文本图像、图形图像等的扫描仪(未示出)和用于输出图像、文本等的打印机19。

附图7表示PC10的内部结构。如附图7所示，PC10包括存储器20，它包括计算机可读介质，比如计算机硬盘。存储器20存储数据23、应用程序25、打印机驱动程序24和操作系统26。按照本发明的优选实施例，操作系统26是视窗操作系统，比如Microsoft Windows2000；不过本发明也可以由其它操作系统使用。在存储在存储器20中的应用程序当中，有可伸缩视频编码器21和可伸缩视频解码器22。可伸缩视频编码器21以下面详细给出的方式执行可伸缩视频数据编码，可伸缩视频解码器22对按照由可伸缩视频编码器21指定的方式进行了编码的视频数据进行解码。

而且在PC10中还包含显示器接口29、键盘接口30、鼠标接口31、盘驱动器接口32、CD-ROM驱动器接口34、计算机总线36、RAM37、处理器38和打印机接口40。处理器38优选包括用于运行出自RAM37的应用程序(比如上面提到的那些应用程序)的微处理器之类的装置。这些应用程序，包括可伸缩视频编码器21和可伸缩视频解码器22，可以存储在存储器20中(如上面所述的)，或，另外，可以存储在盘驱动器16中的软盘上或CD-ROM驱动器17中的CD-ROM上。处理器38通过盘驱动器接口32访问存储在软盘上的应用程序(或其它数据)并且通过CD-ROM驱动器接口34访问存储在CD-ROM上的应用程序(或其它数据)。

PC4的应用程序运行和其它任务可以使用键盘15或鼠标13来激活，来自键盘或鼠标的命令分别通过键盘接口30和鼠标接口31传送到处理器38。由在PC10上运行的应用程序输出的结果可以由显示器接口29加以处理，并且然后在显示器14上显示给用户，或者，按照另外的方式，通过网络连接线路11输出。例如，已经由可伸缩视频编码器21进行了编码的输入视频数据一般来说是通过网络连接线路11输出的。另一方面，从，例如，可变带宽网络接收到的编码视频数据由可伸缩视频解码器22进行解码，并且然后显示在显示器14上。为此，显示器接口29优选包括显示处理器，用于根据由处理器38通过计算机总线36提供的解码视频数据形成视频图像，并且用于将这些图像输出到显示器14。在PC10上运行的其它应用程序(比如字处理程序)的输出结果可通过打印机接口40提供给打印机19。处理器38执行打印驱动程序24，以便在打印任务传送给打印机19之前对它们进行适当的格式化。

本发明的另一个实施例关注于可伸缩代码转换器。如附图8所示，由可变长解码器210对单层编码视频位流200(MPEG-1、MPEG-2、MPEG-4、H.264等)进行部分解码。将DCT系数220发送给反向扫描/量化单元230，然后发送给划分线查找器240。根据上面讨论过的边界确定方法的实施例为各个DCT块确定位流分离点。根据该分离点将向后VLC代码250分离成两个或多个部分。将结果提供给可变长代码缓冲器260。按照该实施例，部分解码仅涉及可变长解码、反向扫描和反向量化。不需要反向DCT或运动补偿。

虽然本文所介绍的本发明的实施例优选的是作为计算机代码实现的，但是上面讨论过的全部或部分实施例可以使用分立硬件单元和/或逻辑电路来实现。而且，虽然是在PC环境下介绍的本发明的编码和解码技术，但是这些技术也可以用于其它任何类型的视频装置中，包括，但不局限于，数字电视/机顶盒、电视会议器材等。

在这点上，本发明是针对具体的说明性实施例加以介绍的。例如，上面的实施例中介绍的本发明的原理也可以用于划分增强层。要理解，本发明并不局限于上面介绍的实施例及其修改方式，并且本领域的技术人员可以进行各种各样的改变和修改，而不会超出所附权利要求的思想和范围。

Claims

1.一种用于可伸缩视频编码器的划分数据的方法，该方法包括下述步骤：

接收视频数据；

为视频帧的多个宏块确定DCT系数；

对DCT系数进行量化；

将经过量化的DCT系数转换成(游程，长度)对；和

对于视频帧中的多个宏块中的每一个，确定比值

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

其中D_i(R；θ)代表用于第i个块的失真模型，R_i(k)代表对应于k-(游程，级别)对的速率，而θ_i(k)代表使用k-(游程，级别)对为第i个块估测的参数，和

如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

小于λ，或者如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

是不小于λ的第一个定量，则将第k个(游程，长度)对放到基本层中，否则如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

大于λ，则将第k个(游程，长度)对放到增强层中，其中λ是按照拉格朗日计算而确定的。

2.按照权利要求1所述的方法，此外还包括在不同的传输信道上传送基本层和增强层的步骤。

3.按照权利要求1所述的方法，其中可伸缩视频编码器是MPEG4编码器。

4.按照权利要求1所述的方法，其中可伸缩视频编码器是H.263编码器。

5.按照权利要求1所述的方法，其中可伸缩视频编码器是MPEG2编码器。

6.按照权利要求1所述的方法，其中可伸缩视频编码器是具有DCT变换和熵编码的视频编码器。

7.按照权利要求1所述的方法，其中可伸缩视频编码器是通过对单层MPEG2、MPEG4和H.26L进行代码转换实现的。

8.按照权利要求1所述的方法，此外还包括对λ进行量化并且将经过量化的值作为辅助信息传送给解码器的步骤。

9.按照权利要求6所述的方法，其中辅助信息仅在用于视频帧的帧头部中发送一次。

10.按照权利要求6所述的方法，其中可以将辅助信息发送给片段头部或视频数据包头部，以提高强健性。

11.按照权利要求1所述的方法，其中使用二等分算法将λ确定成满足用于基本层的传输信道的速率预算。

12.按照权利要求1所述的方法，其中使用自适应算法将λ确定成满足用于基本层的传输信道的速率预算。

13.一种在可伸缩视频解码器中确定基本层和至少一个增强层之间的边界的方法，该方法包括下述步骤：

接收基本层和至少一个增强层，该基本层和增强层包括代表对应于视频帧中的多个宏块的(游程，长度)对的数据；

对于视频帧中的多个宏块中的每一个，确定比值

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

小于λ，或者如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

是不小于λ的第一个定量，则从基本层中读取第k个(游程，长度)对，否则如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

大于λ，则从所述至少一个增强层中读取第k个(游程，长度)对，其中λ是由解码端信息确定的。

14.按照权利要求13所述的方法，此外还包括通过不同的传输信道接收基本层和增强层的步骤。

15.按照权利要求13所述的方法，其中可伸缩视频解码器是MPEG4解码器。

16.按照权利要求13所述的方法，其中可伸缩视频解码器是H.263解码器。

17.按照权利要求13所述的方法，其中可伸缩视频解码器是MPEG2解码器。

18.按照权利要求13所述的方法，其中可伸缩视频解码器是使用DCT和熵编码的视频解码器。

19.按照权利要求13所述的方法，其中可伸缩视频解码器是通过在从MPEG2、MPEG4和H.26L解码器构成的组中选取的单层视频解码器之前的合并实现的。

20.按照权利要求13所述的方法，此外还包括接收作为与视频帧相关的辅助信息的λ的步骤。

21.按照权利要求20所述的方法，其中辅助信息仅在用于视频帧的帧头部中发送一次。

22.按照权利要求20所述的方法，其中为各个片段头部或视频数据包头部拷贝辅助信息，以提高强健性。

23.按照权利要求13所述的方法，其中将λ确定成满足用于基本层的传输信道的速率预算。

24.一种能够合并来自于基本层和至少一个增强层的数据的可伸缩解码器，包括：

存储器，其存储计算机可执行的处理步骤；和

处理器，执行存储在存储器中的处理步骤，以便(i)接收基本层和至少一个增强层，该基本层和增强层包括代表对应于视频帧中的多个宏块的(游程，长度)对的数据；和(ii)对于视频帧中的多个宏块中的每一个，确定比值

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

其中D_i(R；θ)代表用于第i个块的失真模型，R_i(k)代表对应于k-(游程，级别)对的速率，而θ_i(k)代表使用k-(游程，级别)对为第i个块估测的参数，和(iii)如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

小于λ，或者如果

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |,

| \frac{{&PartialD; D}_{i} (R_{i} (k); θ_{i} (k))}{{&PartialD; R}_{i} (k)} |

大于λ，则从所述至少一个增强层中读取第k个(游程，长度)对，其中λ是依照拉格朗日计算而确定的。

25.按照权利要求24所述的解码器，其中λ是作为与视频帧相关的辅助信息由解码器接收的，并且辅助信息在用于视频帧的帧头部中仅发送一次。

26.按照权利要求24所述的解码器，其中将λ确定成满足用于基本层的传输信道的速率预算。