CN1843035A

CN1843035A - 使用预解码器的可伸缩视频编码方法和设备

Info

Publication number: CN1843035A
Application number: CN 200480024327
Authority: CN
Inventors: 韩宇镇; 任昶勋; 河昊振; 李培根
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-08-26
Filing date: 2004-07-09
Publication date: 2006-10-04

Abstract

提供了一种方法和设备，该方法和设备用于在使用预解码器的基于小波的可伸缩视频编码技术中通过使用预解码器可用的信息来以最佳方式控制比特率。用于控制比特率的方法包括以下步骤：对通过将原始图像编码而产生的比特流确定用于每个编码单元的比特量，以将最终图像偏离原始图像的失真最小化；和通过基于确定的比特量截断所产生的比特流的一部分，来提取具有目标量的比特的比特流。

Description

使用预解码器的可伸缩视频编码方法和设备

技术领域

本发明涉及视频编码技术，更具体地讲，涉及这样一种方法和设备，其用于在使用预解码器的基于小波的可伸缩(scalable)视频编码技术中通过使用预解码器可用的信息来以最佳方式控制比特率。

背景技术

已经知道可通过使用复杂的率控制算法来显著提高视频编码技术的R-D性能(率失真性能)。大多数已知的技术使用一些在编码阶段产生的有用信息，按照最佳率失真意义为每个编码单元分配足够数量的比特。在基于小波的可伸缩视频编码中，编码器产生一个大的比特流，预解码器或代码转换器按照嵌入原理可将该比特流截为任意尺寸。当比特流被遵循嵌入原理的编码方法压缩时，即使该比特流的一部分被截断，数据也能被恢复。但是，当比特流被不遵循嵌入原理的其它编码方法压缩时，如果以任意方式从由编码器产生的大的比特流截断该比特流的一部分，那么数据不能被恢复。

这个性质使得可伸缩视频编码器自然适合于使用率控制算法。但是，由于在可伸缩视频编码器中应该仅在编码阶段之后进行实际的比特分配，所以使用一些仅在编码器中可用的信息的传统率控制算法不能被直接应用。为此，需要创建一种适合于可伸缩视频编码器的单独的率控制算法。

允许以从单个压缩比特流获得的各种分辨率、质量和时间级别进行部分解码的可伸缩视频编码被广泛地看作为一种有前景的技术，其用于从移动电话中的低质量视频会议到来自数字存储介质的高质量电影重放的异类环境中的高效的信号显示和传输。这里，时间级别指的是当每秒帧数与原始数据的每秒帧数不同时各自的每秒帧数。

有多种可实现视频编码技术中的可伸缩性的方法。尽管MPEG-4FGS(精细粒度可伸缩性)已经被建立为SNR(声噪比)和时间可伸缩视频编码标准，但是已经证明了许多基于小波的可伸缩视频编码方案在SNR、空间和时间可伸缩性方面具有潜力。术语“时间”指的是基于时间布置的多个帧中的一些帧，术语“空间”指的是帧的一部分。

运动补偿嵌入零块编码(MC-EZBC)是使用3-D子带/小波变换的完全的可伸缩视频编码系统，其中，3-D子带/小波变换通过运动补偿时间滤波(MCTF)使用时间相关并通过小波变换使用空间相关。要获得关于MC-EZBC更详细的信息，可参见S.-T.Hsiang的博士论文“Highly scalable subband/wavelet imageand video coding”(Rensselaer Polytechnic Institute，New York，Jan.2002)。

最近的实验结果显示MC-EZBC在几乎所有的测试条件下优于MPEG-4FGS。在MC-EZBC中，通常包括16或32帧的画面组(GOP)由可逆运动补偿时间滤波沿着所有的运动轨迹变换。滤波后的帧还被小波变换分解以使用空间冗余，并且被嵌入零块编码(EZBC)算法编码，而运动矢量码流被DPCM(差分脉冲编码调制)和算术编码的组合编码。

由于EZBC算法的嵌入性质，MC-EZBC的比特流可在任意点被截断，而没有显著的可察觉的失真。因为控制参数是为每个编码单元分配的比特率，而不是通常在混合编码器中使用的量化步长大小，所以嵌入性质很大地简化了率控制。与MPEG的率控制相比，对关于嵌入小波视频编码器的率控制的研究相对很少。P.-Y.Cheng在他的论文“Rate control for an embedded waveletvideo coder”(IEEE Trans.Grcuits Syst.Video Technol.，vol.7，no.4，pp.696-702，Aug.1997)中提出了一种通过嵌入小波编码器的率失真性能以及参考帧和预测帧之间的帧依赖性而导出的率控制方案。另外，Caetano在“Rate controlstrategy for embedded wavelet video coders”(Electronics Letters，vol.35，no.21，pp.1815-1817，Oct.1999)中还通过使用分段线性率失真模型而改进了P.-Y.Cheng的工作。并且，H.J.Lee在“Scalable rate control for MPEG-4 video”(IEEE Trans.Grcuits Syst.Video Technol.，vol.10，pp.878-894，Sept.2000)中提出了基于用于零树熵小波编码的最优化技术的率失真。大多数率失真最优化方法使用一些在编码器中可用的有用信息，诸如平均绝对差(MAD)、均方差(MSE)和峰值信噪比(PSNR)。

图1是示出基于率失真最优化技术的视频编码解码器的整个结构的方框图。参照该图，率控制模块130基于比特率30，即用户的目标比特率，来选择关于每个编码单元的最佳量化器步长或最佳比特量，编码器110通过基于量化步长或最佳比特量对原始运动画面编码来产生适合于有限的通信条件的带宽有限的比特流40。然后，解码器120从带宽有限的比特流40恢复图像序列，并且输出解压缩的运动画面20。在传统技术中，仅在编码器110中执行率控制。

将更详细地描述在率控制模块130中执行的基于目标比特率30的率控制过程。为此，假设源统计具有拉格朗日分布。如果使用差分函数作为失真测量，那么存在用于率失真函数的封闭形式的求解等式[1]，其中，D表示在数据压缩中产生的失真率，并且通过原始图像和最终解压缩的图像之间的差而被计算出。

R (D) = \ln (\frac{1}{αD}) \cdot \cdot \cdot [1]

许多率失真最优化技术基于二次率失真函数，该函数是等式[1]的简化形式，定义为如下：

R(i)＝aQ(i)^-1+bQ(i)^-2 [2]

其中，a和b是模型参数，Q(i)是量化器索引，R(i)是用于对第i编码单元进行编码的比特的总数。在H.J.Lee的论文中，通过引入两个新的参数：MAD和非纹理开销，将二次R-D函数修改为等式[3]。

\frac{R (i) - H (i)}{M (i)} = aQ {(i)}^{- 1} + bQ {(i)}^{- 2} \cdot \cdot \cdot [3]

在等式[3]中，H(i)表示用于头信息和运动矢量的比特，M(i)表示使用亮度分量的运动估计残差而计算出的MAD。因为在同一比特率限制下，较大的步长应该用于高复杂度的帧，较小的步长应该用于低复杂度的帧，所以将MAD包括在R-D函数中的原因是考虑了用于选择量化器步长的场景复杂度。

修改后的R-D函数[3]已经被采纳为MPEG-4标准的一部分。在MPEG-4验证模型5.1中，通过使用过去帧的数据点选择以及线性回归分析来找到a和b，从运动补偿块计算M(i)，并且最终找到目标量化器索引Q(i)。在找到Q(i)之后，根据当前帧的信息来更新模型参数。尽管在MPEG-4中使用的率控制算法能有效地提高R-D性能，但是应该做出一些改变，以将该算法应用于使用预解码器的可伸缩视频编码框架。

图2是示出根据传统技术的基于小波的可伸缩视频编码解码器的操作结构的方框图。

传统的率控制算法通常已经提高了R-D性能，但是所有传统方法利用仅在编码阶段可用的预测误差信息，这表明应该在编码器210中进行率控制。对于大多数需要完全的可伸缩视频编码器的应用，考虑到质量、时间和空间条件，编码器210应该产生足够大的比特流35，并且预解码器或代码转换器220通过从比特流35截断一部分比特来提取具有足够数量的比特的比特流40。然后，解码器230能够从比特流40恢复视频序列20，并且显示解压缩的运动画面20。

发明内容

技术问题

再参照图2，因为在预解码器220中确定实际的比特率，所以应该在预解码器220中而不是在编码器210中进行率控制。但是，对预解码器220中的率控制算法的研究很少，相反，通常使用恒定比特率(CBR)方案(参见S.-T.Hsiang的论文)。因此，值得对使用仅在预解码器中可用的信息的率控制算法进行讨论。

技术解决方案

构思本发明以解决上述问题。本发明的一方面在于提供一种使用仅在预解码器中可用的信息的新的率控制算法，以提高基于小波的可伸缩视频编码器的性能。

本发明的另一方面在于提供这样一种方法，该方法通过将最佳量的比特分配给每个编码单元，而不是通过将相同量的比特分配给各个编码单元，来提高率失真性能。

本发明的另一方面在于提出允许率控制算法应用于所有基于小波的可伸缩视频编码技术。

与本发明的一方面一致，提供一种用于控制比特率的方法，该方法包括以下步骤：对通过将原始图像编码而产生的比特流确定用于每个编码单元的比特量，以将最终图像偏离原始图像的失真最小化；和通过基于确定的比特量截断所产生的比特流的一部分，来提取具有目标量的比特的比特流。

为了获得通过使用场景复杂度函数以及最终帧偏离原始帧的失真而限定的编码单元的比特量，确定步骤最好包括以下步骤：通过使用根据每编码单元的比特面的数量的比特分布，来确定场景复杂度函数；和使用将最终帧偏离原始帧的失真最小化的方法来确定每编码单元的比特量。

关于编码单元的比特量R(i)被定义为

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}),

其中，对于使用k个比特面的累加的编码的比特B(i，k)，通过使用外插方案来确定面的数量K^*，由此编码的比特的总数为B_T，用B(i，k)来取代场景复杂度函数M(i)，在应用所述计算的率失真函数中D(i)²为最小的R(i)的表达是

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)}),

并且通过应用限制

Σ_{i = 1}^{N} R (i) = B_{T}

而具有最佳比特分配的R(i)被获得。

与本发明的另一方面一致，提供一种用于可伸缩视频编码的方法，该方法包括以下步骤：通过将原始运动画面编码来产生比特流；使用根据产生的比特流的比特面的数量的比特分布来确定场景复杂度函数，通过将对原始运动画面编码所产生的比特流表示为相对于每编码单元的比特量的场景复杂度函数，来进行所述确定，以使得最终帧偏离原始运动画面的失真被最小化；和通过基于确定的比特量截断产生的比特流的一部分，来提取具有目标量的比特的比特流。

该方法还包括从提取的比特流恢复并解压缩原始运动画面的图像序列的步骤。

与本发明的另一方面一致，提供一种用于控制比特率的设备，该设备包括：用于通过将原始图像编码来确定每编码单元的比特量以使得最终帧偏离原始图像的失真最小的装置；和用于通过基于确定的比特量截断产生的比特流的一部分来提取具有目标量的比特的比特流的装置。

与本发明的另一方面一致，提供一种用于可伸缩视频编码的设备，该设备包括：编码器，用于通过将原始运动画面编码来产生比特流；率控制模块，用于使用根据产生的比特流的比特面的数量的比特分布来确定场景复杂度函数，通过将对原始运动画面编码所产生的比特流表示为相对于每编码单元的比特量的场景复杂度函数，来进行所述确定，以使得最终帧偏离原始运动画面的失真被最小化；和预解码器，用于通过基于确定的比特量截断产生的比特流的一部分，来提取具有目标量的比特的比特流。

该设备还可包括：解码器，用于从提取的比特流恢复并解压缩原始运动画面的图像序列。

与本发明的另一方面一致，提供一种在其上存储有使用预解码器的基于小波的可伸缩视频编码方法的存储介质，所述存储介质可由计算机读取。

附图说明

通过结合附图，从下面详细的描述中，本发明的以上和其它方面、特点及其它优点将会更清楚地被理解，其中：

图1是示出基于率失真最优化技术的视频编码解码器的整个结构的方框图；

图2是示出根据传统技术的基于小波的可伸缩视频编码解码器的操作结构的方框图；

图3是示出根据本发明的基于小波的可伸缩视频编码解码器的操作结构的方框图；

图4是示出关于foreman QCIF序列的比特分布的视图；

图5是示出M(i)和B(i，K^*)的视图，其中，α为0.156；

图6是示出关于football QCIF的纹理比特率；

图7是示出关于football QCIF的GOP平均PSNR；

图8是示出本发明的整个操作的流程图；和

图9是示出图8中所示的步骤S820的详细子步骤的流程图。

具体实施方式

以下，将参照附图来详细描述本发明的示例性实施例。

图3是示出根据本发明的基于小波的可伸缩视频编码解码器的操作结构的方框图。参照该图，可伸缩编码器310通过对原始运动画面进行编码来产生足够大的比特流35，率控制模块340基于用户的目标比特率35来为各个编码单元选择最佳比特量。预解码器320接收输入的比特流35，并且通过基于由率控制模块340选择的最佳比特量截断比特流35的一部分，来提取具有足够比特量的比特流40。然后，解码器330从提取的比特流40恢复原始运动画面的图像序列，并将其解压缩。接下来，产生最终解压缩的原始运动画面。

本发明特别集中在率控制模块340中的操作上。率控制模块340中的操作包括三个过程：定义预解码器的率失真函数；使用来自预解码器的信息来对场景复杂度函数进行建模；和通过使用预解码器的率失真函数来推导新的率控制函数以最小化失真。本发明使用场景复杂度函数，该函数使用相同数量的比特面(bitplane)上的比特分布来取代根据传统技术仅在编码器中可用的MAD(平均绝对差)信息。

首先，将描述定义率失真函数的过程。

假设发送的视频可被分割为多个具有画面组(GOP)的编码单元，每个GOP具有多个帧，由此存在于GOP中的各个帧由于MCTF过程而非常相关，然而，因为各个GOP被单独编码并且彼此独立，所以率控制算法可被简化。对于起始点，将等式[1]的R-D函数修改为具有等式[4]中的场景复杂度参数M(i)。

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}) \cdot \cdot \cdot [4]

其中，R(i)、M(i)和D(i)分别是用于第iGOP(编码单元)的比特总数、场景复杂度参数以及一帧与由解码器解压缩的最终帧之间的平均差。为了简化符号，由于非纹理开销H(i)具有微小的影响，所以在本说明书的等式[4]和其它等式中没有考虑H(i)。假设B_T是用于包括N个GOP的整个视频序列的总的比特，则可得到等式[5]。

Σ_{i = 1}^{N} R (i) = B_{T} \cdot \cdot \cdot [5]

现在，率控制问题可被表示为下式：

{R (1), \cdot \cdot \cdot, R (N)} = {\arg \min}_{{R (1), \cdot \cdot \cdot, R (N)}} Σ_{i = 1}^{N} {D (i)}^{2} \cdot \cdot \cdot [6]

其中，等式右侧表示R(1)或R(N)被选择，以使得D(i)²在等式[4]和[5]的条件下具有最小值。均方差(MSE)用于[6]中的失真测量。非常清楚的是，等式[6]中R(i)的计算需要两个参数：M(i)和D(i)。尽管在传统方法中，平均绝对差(MAD)通常用于M(i)，但是因为在不得知源数据的值的预解码器阶段中不能获得MAD，所以在本发明中，MAD不能用于M(i)。因此，必须使用在预解码器中可用的其它信息来逼近M(i)。

第二，将描述使用比特分布的场景复杂度函数建模的过程。用于量化小波系数的嵌入量化算法基本包括两个步骤：为各个子带建立四叉树表示；和对有效像素进行逐行(pregressive)比特面编码。逐行比特面编码可被认为是逐次逼近量化方案，该方案具有用于系数比特面索引n的阈值2ⁿ。另外，有效像素的数量与所分配的比特的量直接相关。有效像素的数量越大，那么对这些像素进行编码所需的比特就越多，反之亦然。

图4是示出关于foreman QCIF序列的比特分布的视图。在该图中，灰度强度表示用于GOP索引和使用的比特面的数量的所分配的比特的总量，其中，灰度强度越亮，那么比特的数量就越大。为了清楚地示出相对强度，灰度强度被在给定数量的比特面上的所有GOP之和归一化。如该图所示，清楚的是，分配的比特的数量对于具有相同数量的比特面的不同GOP索引(相对于时间的GOP逐次排列)变化很大。如果将场景复杂度定义为对给定图像帧进行编码的困难程度，那么用于相同数量的比特面上的GOP的分配的比特的量与GOP中的相对场景复杂度强烈相关。

假设B(i，k)是使用k个比特面的累加的编码的比特，并且使用的比特面的数量是用于所有GOP的常值K，那么B(i，K)产生用于第iGOP的场景复杂度的一些统计，并且总的分配的比特由下式给出：

A (K) = Σ_{i = 1}^{N} B (i, K) \cdot \cdot \cdot [7]

其中，N是GOP的总数。通过使用线性内插技术，可获得在总的编码的比特具有B_T的确切点的更准确的场景复杂度的统计。假设K^*是比特面的非整数数量，其中所述比特面的分配的比特的总量确切为B_T，那么可获得下面的等式。

B(i，K^*)＝Γ(i，K){B_T-A(K)}+B(i，K) [8]

其中，

Γ (i, K) = \frac{B (i, K) - B (i, K - 1)}{A (K) - A (K - 1)} \cdot \cdot \cdot [9]

并且，A(K-1)≤B_T＜A(K) [10]

为了找到MAD值M(i)和在相同数量的比特面上的比特的量B(i，K^*)之间的一些关系，R(i)的值被固定以产生用于foreman QCIF序列的512kbps的比特流。从原始序列和解码的序列之间的PSNR计算D(i)。此外，从等式[4]计算M(i)。

图5是示出M(i)和B(i，K^*)的视图，其中，α为0.156。如该图中所示，B(i，K^*)与M(i)很好地匹配，因此，B(i，K^*)可用于使用近似值alpha(α)来取代M(i)。用B(i，K^*)取代等式[4]中的M(i)则产生下式：

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)}) \cdot \cdot \cdot [11]

第三，将描述用于找到最小化失真的率控制算法的过程。现在，可解决率控制问题。可通过使用拉格朗日方法将等式[6]中的有约束的最优化问题转化为无约束的最优化问题。为了使用用于GOP而不是一帧的数量的比特，稍微修改了Cheng的方法。在这种情况下，可通过将下面的等式最小化来实现本发明的目的。

J (R (1), \cdot \cdot \cdot, R (N)) = Σ_{i = 1}^{N} D {(i)}^{2} + λ (Σ_{i = 1}^{N} R (i) - B_{T}) \cdot \cdot \cdot [12]

其中，R(i)是用于第i GOP的分配的比特，D(i)由等式[11]给出。由于每个GOP被独立地处理，所以D(i)仅取决于R(i)。因此，在最佳点获得下面的等式：

\frac{&PartialD; D {(i)}^{2}}{&PartialD; R (i)} + λ = 0, i = 1,2, \cdot \cdot \cdot, N \cdot \cdot \cdot [13]

针对D(i)²来重新布置等式[11]并将其代入等式[13]，则产生下面的等式：

R (i) = - \frac{B (i, K^{*})}{2} {\ln \frac{α^{2} λ}{2} + \ln \frac{B (i, K^{*})}{2}} \cdot \cdot \cdot [14]

因为用于所有GOP的R(i)之和应为B_T，所以等式[14]的右侧满足下面的等式：

- Σ_{i = 1}^{N} \frac{B (i, K^{*})}{2} {\ln \frac{α^{2} λ}{2} + \ln \frac{B (i, K^{*})}{2}} = B_{T} \cdot \cdot \cdot [15]

重新布置等式[15]并将其代入等式[14]，则产生如下面的等式所示的最佳比特分配。

R_{0} (i) = B (i, K^{*}) + \frac{B (i, K^{*}) β (i)}{Σ_{i = 1}^{N} B (i, K^{*})} \cdot \cdot \cdot [16]

其中，

β (i) = Σ_{i = 1}^{N} \frac{B (i, K^{*})}{2} \ln \frac{B (i, K^{*})}{2} - \ln \frac{B (i, K^{*})}{2} Σ_{i = 1}^{N} \frac{B (i, K^{*})}{2} \cdot \cdot \cdot [17]

应该注意的是，可同时去除两个未知参数α和λ。此外，可容易地看出，等式[16]的右侧的第二项从i＝1到N之和为零。使用本发明提出的等式[16]，而不是使用恒定比特分配方案，可提高视频编码器的R-D性能。另外，由于等式[16]和[17]是简单的求和，并且在每个GOP被计算一次，所以加于率控制的计算复杂度是可忽略的。

将通过仿真来将本发明提出的方法的性能与传统方法的性能进行比较。公开的MC-EZBC实现(参见S.-T.Hsiang的论文)用作两种方法的基线视频编码器。作为用于性能比较的运动画面源，30Hz帧率(FPS：每秒帧数)的QCIF大小的foreman、football和canoa序列被使用。在将这些序列编码之后，使用传统CBR(参见S.-T.Hsiang的论文)和本发明提出的两种率控制方案，使用预解码器以从62kbps到768kbps的比特率来产生比特流。

表1显示了使用CBR和所提出的率控制方案的平均PSNR结果。VBR-D是提出的用于将失真最小化的方法。

表1

比特率(kbps)	CBR	VBR-D
比特率(kbps)	CBR	VBR-D		Foreman QCIF@30Hz
64128256384512768	27.5732.3036.4038.9140.7343.63		27.7232.5036.7239.1941.0443.86	Foreman QCIF@30Hz
64128256384512768	27.5732.3036.4038.9140.7343.63		27.7232.5036.7239.1941.0443.86	Football QCIF@30Hz
64128256384512768	21.8125.6228.7330.7532.3635.15		21.8825.8128.9431.0632.7335.58	Football QCIF@30Hz
64128256384512768	21.8125.6228.7330.7532.3635.15		21.8825.8128.9431.0632.7335.58	Canoa QCIF@30Hz
64128256384512768	23.4326.3429.2631.3933.2736.31		23.8426.3929.3431.4533.3736.40	Canoa QCIF@30Hz

如上表所示，提出的方案优于传统CBR方案可达0.4dB。另外，可以看出，PSNR性能在比特率为64kbps时非常小。因为在传统的MC-EZBC下只有纹理信息可伸缩，所以主要由于在非常低的比特率下缺乏纹理信息而导致这种趋势。

表2显示了使用CBR和VBR-D的PSNR值的标准差。

表2

比特率(kbps)	CBR	VBR-D	VBR-D/CBR(％)
比特率(kbps)	CBR	VBR-D	VBR-D/CBR(％)		Foreman QCIF@30Hz
64128256384512768	2.042.322.141.921.831.64	1.631.841.611.341.271.12		80.079.075.170.269.568.4	Foreman QCIF@30Hz
64128256384512768	2.042.322.141.921.831.64	1.631.841.611.341.271.12		80.079.075.170.269.568.4	Football QCIF@30Hz
64128256384512768	2.092.903.203.303.423.58	1.582.352.282.352.332.29		75.880.871.371.068.264.1	Football QCIF@30Hz
64128256384512768	2.092.903.203.303.423.58	1.582.352.282.352.332.29		75.880.871.371.068.264.1	Canoa QCIF@30Hz
64128256384512768	1.301.261.311.301.291.31	1.121.031.030.990.981.00		86.681.878.175.976.376.3	Canoa QCIF@30Hz

清楚的是，VBR-D可显著地降低PSNR曲线的标准差。VBR-D将帧PSNR的标准差降低大约25％。图6是示出关于football QCIF的纹理比特率。以512kbps的平均比特率将Football QCIF编码。因为没有包括用于运动矢量和头信息的比特率，所以在该图中显示的实际平均比特率小于目标比特率。此外，显示了GOP平均PSNR，而不是显示了帧PSNR，以研究PSNR曲线的总体平直度。在图6中，CBR的比特率几乎不变，而由于VBR-D的比特率被可变化很大的场景特性最优化，所以VBR-D的比特率是可变化很大。另一方面，如图7所示，VBR-D的GOP平均PSNR曲线比CBR的GOP平均PSNR曲线稍微平直一些。该性质对于增加主观视觉质量非常有用，这是因为可通过牺牲一些“太好”的帧的视觉质量而提高一些“太差”的帧的视觉质量来按照更感性的意义控制视觉质量。

图8是示出本发明的整个操作的流程图，图9是示出图8中所示的步骤S820的详细子步骤的流程图。可伸缩编码器310通过将原始运动画面编码来产生足够大的比特流35(S810)。然后，率控制模块340基于用户的目标比特率来选择用于每个编码单元的最佳比特量(S820)。

为了更详细地描述步骤S820，通过使用每编码单元的比特总数、场景复杂度函数以及单帧与最终帧之间的差值(最终帧偏离该单帧的失真)，来定义率失真函数(S910)。然后，场景复杂度函数通过根据编码单元和比特面的数量的比特分布来执行建模，并且已执行了建模的场景复杂度函数被应用于率失真函数(S920)。接下来，通过使用应用了已执行建模的场景复杂度函数的率控制函数，来导出用于最小化失真的新的率控制函数(S930)。

预解码器320接收输入的比特流35，并且，通过基于在率控制模块340中导出的新的率控制函数，即导出的最佳比特量截断比特流35的一部分，来提取具有适量比特的比特流40(S830)。然后，解码器330从提取的比特流40恢复并解压缩原始运动画面的图像序列(S840)。最后，产生解压缩的原始运动画面。

产业上的可利用性

如上所述，本发明提供了根据带宽而具有合适大小的比特流，其中，带宽根据网络环境而可变。

与利用预解码器中的CBR的率控制方法相比，本发明更具有优势，其在于视觉场景质量的平均PSNR提高到上至0.4dB。

此外，根据本发明的率控制算法被有利地应用于所有基于小波的可伸缩视频编码技术。

虽然本发明是结合其示例性的实施例被描述的，但是本领域的技术人员应该理解，在不脱离本发明的范围和精神的情况下，可以对其进行各种修改和变化。因此，应该理解，上述实施例在所有方面不是限制性的，而是示意性的。

Claims

1、一种用于控制比特率的方法，包括以下步骤：

对通过将原始图像编码而产生的比特流确定用于每个编码单元的比特量，以将最终图像偏离原始图像的失真最小化；和

通过基于确定的比特量截断所产生的比特流的一部分，来提取具有目标量的比特的比特流。

2、根据权利要求1所述的方法，其中，为了获得通过使用场景复杂度函数以及最终帧偏离原始帧的失真而限定的编码单元的比特量，所述确定步骤包括以下步骤：

通过使用根据每编码单元的比特面的数量的比特分布，来确定场景复杂度函数；和

使用将最终帧偏离原始帧的失真最小化的方法来确定每编码单元的比特量。

3、根据权利要求2所述的方法，其中，关于编码单元的比特量R(i)被定义为

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}),

其中，对于使用k个比特面的累加的编码的比特B(i，k)，通过使用外插方案来确定比特面的数量K^*，由此编码的比特的总数为B_T，用B(i，k)来取代场景复杂度函数M(i)，在率失真函数中具有D(i)²的最小值的R(i)的表达是

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)}),

并且通过应用限制

Σ_{i = 1}^{N} R (i) = B_{T}

而具有最佳比特分配的R(i)被获得。

4、一种用于可伸缩视频编码的方法，包括以下步骤：

通过将原始运动画面编码来产生比特流；

使用根据产生的比特流的比特面的数量的比特分布来确定场景复杂度函数，通过将对原始运动画面编码所产生的比特流表示为相对于每编码单元的比特量的场景复杂度函数，来进行所述确定，以使得最终帧偏离原始运动画面的失真被最小化；和

通过基于确定的比特量截断产生的比特流的一部分，来提取具有目标量的比特的比特流。

5、根据权利要求4所述的方法，还包括从提取的比特流恢复并解压缩原始运动画面的图像序列的步骤。

6、根据权利要求4所述的方法，其中，关于编码单元的比特量R(i)被定义为

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}),

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)}),

并且通过应用限制

Σ_{i = 1}^{N} R (i) = B_{T}

而具有最佳比特分配的R(i)被获得。

7、根据权利要求6所述的方法，其中，通过使用拉格朗日方法来获得具有D(i)²的最小值的表达R(i)。

8、一种用于控制比特率的设备，包括：

编码器，用于通过将原始图像编码来确定每编码单元的比特量，以使得最终帧偏离原始图像的失真最小；和

提取器，用于通过基于确定的比特量截断产生的比特流的一部分，来提取具有目标量的比特的比特流。

9、根据权利要求8所述的设备，其中，为了获得通过使用场景复杂度函数以及最终帧偏离原始帧的失真而限定的编码单元的比特量，编码器包括：

场景复杂度确定器，用于通过使用根据每编码单元的比特面的数量的比特分布，来确定场景复杂度函数；和

编码单元确定器，用于使用将最终帧偏离原始帧的失真最小化的方法来确定每编码单元的比特量。

10、根据权利要求9所述的设备，其中，关于编码单元的比特量R(i)被定义为

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}),

\frac{R (i)}{B (i, K^{- *})} = \ln (\frac{1}{αD (i)}),

并且通过应用限制

Σ_{i = 1}^{N} R (i) = B_{T}

而具有最佳比特分配的R(i)被获得。

11、一种用于可伸缩视频编码的设备，包括：

编码器，用于通过将原始运动画面编码来产生比特流；

率控制模块，用于使用根据产生的比特流的比特面的数量的比特分布来确定场景复杂度函数，通过将对原始运动画面编码所产生的比特流表示为相对于每编码单元的比特量的场景复杂度函数，来进行所述确定，以使得最终帧偏离原始运动画面的失真被最小化；和

预解码器，用于通过基于确定的比特量截断产生的比特流的一部分，来提取具有目标量的比特的比特流。

12、根据权利要求11所述的设备，还包括：解码器，用于从提取的比特流恢复并解压缩原始运动画面的图像序列。

13、根据权利要求11所述的设备，其中，关于编码单元的比特量R(i)被定义为

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)}),

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)}),

并且通过应用限制

Σ_{i = 1}^{N} R (i) = B_{T}

而具有最佳比特分配的R(i)被获得。

14、根据权利要求13所述的设备，其中，通过使用拉格朗日方法来获得具有D(i)²的最小值的表达R(i)。

15、一种在其上存储有根据权利要求1所述的方法的存储介质，所述存储介质可由计算机读取。