CN1871858A

CN1871858A - 规格化视觉品质的比特率控制方法与装置

Info

Publication number: CN1871858A
Application number: CN200480031027.1A
Authority: CN
Inventors: 韩宇镇; 李培根; 河昊振
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-10-20
Filing date: 2004-10-14
Publication date: 2006-11-29
Also published as: EP1680922A1; JP2007509525A; WO2005039184A1; US20050084015A1; AU2004307036B2; RU2006117352A; AU2004307036A1; RU2329616C2

Abstract

一种可伸缩视频编解码器，包含：编码器，其对原始运动画面编码；速率控制单元，其基于用户希望的比特率为每个编码单元分配最优比特量；前置解码器，其接收比特流，并且抽取具有适当比特量的比特流；以及解码器，其根据所抽取的比特流解码运动画面图像序列，从而重构原始运动画面。具体地，本发明致力于在速率控制单元340中进行的操作。速率控制单元执行：对前置解码器中可用的比特率函数定义的步骤；推测步骤，由此获得均一视觉品质；近似步骤，以确定畸变函数；以及规格化步骤，以使所分配的总比特率等于目标比特率。

Description

规格化视觉品质的比特率控制方法与装置

技术领域

本发明涉及一种视频编码。更具体地，本发明涉及一种利用前置解码器可用信息来控制比特率、从而在利用该前置解码器基于小波的可伸缩(scalable)视频编码中最小化峰值信噪比(PSNR)方差的方法与装置。

背景技术

可伸缩视频编码(其允许以各种解晰度、品质以及时间等级(level)根据单个经压缩的比特流进行部分解码)被广泛地认为是一种异构环境下的高效信号表示与传送的有前途的技术。虽然MPEG-4细粒度可伸缩性(FGS)被确立为信噪比(SNR)与时间可伸缩视频编码标准，但是许多基于小波的可伸缩视频编码方案已经显示出它们在SNR、空间与时间可伸缩性方面的潜力。关于MPEG-4FGS的详细信息可以从Mr.W.Li发表的报告"Overview of finegranularity scalability in MPEG-4 video standard″(IEEE Trans.Circuits Syst.Video Technol.，vol.11，pp.301-317，Mar.2001)中获得。

图1为显示基于现有的速率畸变(R-D)优化技术的视频编解码器的总体配置的方框图。视频编解码器100包含：速率控制模块130，其为每个编码单元选择最优量化步阶或者最优比特量；编码器110，其生成其带宽受限的比特流40；以及解码器120，其根据带宽受限比特流40重构图像序列20。在现有技术中，只在编码器110中进行速率控制。

图2为显示根据现有技术的、基于小波的可伸缩视频编解码器的操作配置(operational configuration)的方框图。

虽然速率控制算法一般会改进R-D性能，但是现有方法都利用只可用于编码阶段的预测误差信息，这暗示着速率控制应该在编码器210中进行。对于要求完全可伸缩视频编解码器的大部分应用，在考虑品质、时间、与空间要求的同时编码器210应该生成足够大的比特流35，以便前置解码器或代码转换器220从该比特流中抽取足够量的比特40。用于抽取符合品质、时间、与空间要求的、适当量的比特流的条件被称为可伸缩性条件。然后，解码器230可以根据被截断(truncated)比特流40恢复视频序列20。

因为实际比特率在前置解码器220中确定，所以速率控制应该在前置解码器220而不是编码器中进行。对于前置解码器220中的速率控制算法，还没有什么研究，大部分研究都集中于恒定比特率(CBR)方案。然而Mr.Hsiang在其博士论文″Highly scalable subband/wavelet image and videocoding″(Rensselaer Polytechnic Institute，New York，Jan.2002.)中提出可变比特率(VBR)方案，其也可以用于前置解码器(此后称为Hsiang的方案)。在该方案中，用于前置解码器中的小波位平面(bit plane)数目相同，以增强现有CBR方案的性能。

此后将详细描述Hsiang的方案。

在以下说明书中，所发送的视频可以被分为多个图片组(GOP)，每个GOP具有多个帧。这可以简化速率分配算法，这是因为每个GOP被分别编码。因此，每个GOP彼此独立，但是GOP中的每一帧彼此高度相关。如果B_T为包含N个GOP的整个视频序列的总比特，则速率分配问题可以用公式表示为：

{R (1) . . . . . . R (N)} = \arg \min_{{R (1) . . . . . . R (N)}} Σ_{i = 1}^{N} D (i)

公式1

其中R(i)为对于第i个GOP的所分配的比特，D(i)为原始与已解码的帧之间的绝对差异。VBR方法的基本方面是向相对复杂的场景分配较多比特，向其他场景分配较少比特，以获得更好的R-D性能或者视觉品质。如果我们将场景复杂度定义为编码给定图像帧的困难程度，则对于GOP的所分配的比特量(所使用的小波位平面数目恒定)与GOP中的相对场景复杂度高度相关。根据这一事实，Hsiang的方案提出VBR方案使用于所有帧的位平面数目的相等。

如果b(i，j)为对于第i个GOP和第j个位平面的经编码的比特(encoded bit)数目，并且B(i，k)表示使用k个位平面的所累积的经编码的比特的数目，则B(i，k)定义为：

B (i, k) = Σ_{j = 1}^{k} b (i, j)

公式2

如果对于所有帧、所使用的位平面数目为常数值K，则B(i，K)给出了第i帧的场景复杂度的某个统计，并且所分配的总比特A(K)由以下给出：

A (K) = Σ_{i = 1}^{N} B (i, K)

公式3

其中N为GOP的总数。如果K^*表示其被分配的比特总量最接近B_T的整数个位平面，则对于第i个GOP的最终所分配的比特R₀(i)可以由以下给出：

R₀(i)＝B(i，K^*) 公式4

其中

A(K-1)≤B_T＜A(K) 公式5

通过使用线性内插技术，可以通过使经编码的总比特等于B_T来获得场景复杂度的更精确的统计。

发明内容

技术问题

基于小波的可伸缩视频编码固有地利用嵌入的特性，因此适于将其用于可变比特率(VBR)算法。关于这一点，尽管Hsiang的方案简单且有效，但是其还需要进一步改进，以减少PSNR值的变化，这是因为其只致力于最小化客观误差度量(objective error measure)。即使平均PSNR足够高，如果PSNR方差高，也可能在低PSNR帧中观察到显而易见的视觉假象(artifact)。因此，拥有使PSNR方差最小化的比特分配方案是有意义的。

技术方案

考虑到以上内容，提供了一种利用在前置解码器侧可用的信息来分配比特以使解码器侧具有最优品质的方法。

还提供了一种分配可变比特率以便使基于小波的可伸缩视频编码的PSNR方差最小化的方法。

根据本发明的一个方面，提供了一种比特率控制方法，包含：第一步骤，用来确定来自通过编码原始运动画面而生成的比特流的每个编码单元的比特量，以允许该运动画面的视觉品质相对于其编码单元而言是均一的；以及第二步骤，用来通过根据所确定的比特量截断该比特流的一部分，来抽取具有所期望的比特量的比特流。

根据本发明的另一个方面，提供了一种比特率控制装置，包含：第一部件，用来确定来自通过编码原始运动画面而生成的比特流的每个编码单元的比特量，以使得该运动画面的视觉品质相对于其编码单元而言均一的；以及第二部件，用来通过根据所确定的比特量截断该比特流的一部分，来抽取具有所期望的比特量的比特流。

附图说明

通过以下参照附图的、对示范性实施方式的详细描述，本发明的以上以及其他目的、特征、以及优点将变得明显，其中：

图1为图示基于现有的速率畸变优化技术的视频编解码器的总体配置的方框图；

图2为图示根据现有技术的、基于小波的可伸缩视频编解码器的操作配置的方框图；

图3为图示根据本发明的示范性实施方式的基于小波的可伸缩视频编解码器的操作配置的方框图；

图4为图示经编码的Canoa QCIF(Quarter Common Interchange format，四分之一共同交换格式)序列中的、D(i)/D与B(i，K^*)的比较的图；

图5为图示分配给Football QCIF序列中每个GOP的比特率的图；

图6为图示分配给Football QCIF序列中每个GOP的平均PSNR的图；

图7与8分别图示被编码成VBR-D和VBR-N的Foreman QCIF序列的第92帧的例子；以及

图9与10分别图示被编码成VBR-D和VBR-N的Foreman QCIF序列的第106帧的例子。

具体实施方式

此后将参照附图详细描述本发明的示范性实施方式。

图3为图示根据本发明的示范性实施方式的基于小波的可伸缩视频编解码器的操作配置的方框图。

可伸缩视频编解码器300包含：编码器310，其编码原始运动画面10，从而生成足够大的比特流35；速率控制单元340，其基于用户期望的比特率30为每个编码单元分配最优比特量；前置解码器320，其接收比特流35，并且根据在速率控制单元340中选择的最优比特量，通过截断所接收的比特流35的一部分，来抽取具有适当比特量的比特流40；以及解码器330，其根据所抽取的比特流40解码运动画面的图像序列，从而重构原始运动画面。

具体地，本发明致力于在速率控制单元340中进行的操作。速率控制单元340包含四个步骤，并且进行：通过利用具有恒定数目的位平面的比特分布与畸变函数、定义可用于前置解码器320的比特速率函数的步骤；通过修正比特率函数以获得均一的视觉品质、来对比特率进行推测(pre-summation)的步骤；通过利用比特分布、对畸变函数进行近似以确定畸变函数的步骤；以及规格化修正后的比特率函数以使所分配的总比特率等于目标比特率的步骤。因为所评定的画面视觉品质一般基于PSNR，所以在本发明中也使用PSNR作为品质评定的标准。另外，将现有编码器中使用的平均绝对分布(meanabsolute distribution MAD)信息用作为场景复杂度函数的恒定数目的位平面的比特分布来替换。

将描述通过利用具有恒定数目位平面的比特分布与畸变函数、定义前置解码器中可用的比特速率函数的步骤。类似于公式6，我们假设源统计为拉普拉斯(Laplacian)分布：

P (x) = \frac{α}{2} e^{- α | x |}

公式6

其中α为常数。

如果将差异函数用做畸变度量，则存在如公式7所导出的速率畸变函数的闭合形式的解。D(i)表示畸变函数，表示原始图像与解压之后的最终图像之间的差异。

\frac{R (i)}{M (i)} = \ln (\frac{1}{αD (i)})

公式7

通过引入两个新参数-MAD与非纹理开销-的公式8，可以进一步修正R-D函数。

\frac{R (i) - H (i)}{M (i)} = \ln (\frac{1}{αD (i)})

公式8

在公式8中，H(i)表示用于头部信息与运动矢量的比特，M(i)表示利用亮度分量的运动补偿残余计算的MAD。MAD包含在R-D函数中，以考虑场景复杂度，这是因为在相同目标比特率限制下，应该对相对复杂的帧使用较多的比特、对其他帧使用较少的比特。

虽然现有VBR方案使用B(i，K^*)作为所分配的比特，但是本发明使用B(i，K^*)替换M(i)，这是因为B(i，K^*)与第i个GOP的场景复杂度高度相关。通过用B(i，K^*)来替换M(i)，得到以下的结果：

\frac{R (i)}{B (i, K^{*})} = \ln (\frac{1}{αD (i)})

公式9

为了标记简单，在公式9及本说明书剩余文本中未考虑非纹理开销H(i)，这是因为它是微不足道的问题。在发明人的早期试验中，显示了：通过选择α的最优值，该替换对于比特速率、解晰度、以及序列的许多组合是合理的。

比特率的推测的步骤通过修正比特率函数来获得均一视觉品质，现在对其进行描述。

如果D为所有GOP的D(i)的平均值，则将ln(D(i)/D)加到公式9的两侧得到：

\frac{R^{'} (i)}{B (i, K^{*})} = \ln (\frac{1}{αD})

公式10

其中：

R^{'} (i) = R (i) + B (i, K^{*}) \ln (\frac{D (i)}{D})

公式11

因为公式10的右侧为常数值，所以对第i个GOP分配R′(i)比特导致恒定畸变。为了获得R′(i)，应该如公式11所示那样计算R(i)与ln(D(i)/D)。然而这可能是个难题，因为在前置解码器中不能确定实际畸变D(i)。

现在描述通过利用比特分布对畸变函数进行近似，来确定畸变函数的步骤。

为了解决以上问题，首先设置初始比特分配R(i)等于上述R₀(i)，并且通过某些近似来估计D(i)/D。在公式11中，D(i)/D为畸变的相对幅度对平均畸变的比例。因为当场景复杂度增加时畸变的相对幅度增加，所以假设D(i)/D可以由场景复杂度函数B(i，K^*)表示为：

\frac{D (i)}{D} \approx \frac{B {(i, K^{*})}^{r}}{B}

公式12

其中：

B = \frac{1}{N} Σ_{n = 1}^{N} B {(i, K^{*})}^{r}

公式13

并且r为用于补偿实际畸变与所分配的比特之间的非线性的试验常数。图4显示按512kbps编码的Canoa QCIF序列中的D(i)/D与B(i，K^*)/B的比较图，其中值r＝0.4。如图4所示，D(i)/D可以由相对场景复杂度B(i，K^*)^r/B大体模拟。另外，根据穷尽的前期试验，显示值r＝0.4对于几乎所有测试条件都是令人满意的。

将公式12插入公式11得到：

R^{'} (i) = R_{0} (i) + B (i, K^{*}) \ln (\frac{NB {(i, K^{*})}^{r}}{Σ_{j = 1}^{N} B {(j, K^{*})}^{r}})

公式14

现在将描述规格化修正后的比特率函数以使所分配的总比特率等于目标比特率的步骤。

因为R′(i)是从R(i)修正得来而没有考虑比特率限制，所以应该将R′(i)规格化，以满足目标比特率要求。简单的规格化得到最终的等式，其被定义为：

R_{n} (i) = \frac{R^{'} (i) B_{T}}{Σ_{j = 1}^{N} R^{'} (i)}

公式15

其中R_n(i)为对于第i个GOP的所分配的比特，其可以使畸变变得平坦。

CBR指恒定比特率分配的现有方案，VBR-D指根据Hsiang的方案的可变速率分配，VBR-N指根据本发明的可变速率分配。如表1所示，由于VBR-N方案高效实现了自适应比特分配技术，所以VBR-N方案在性能上超过CBR方案的Foreman OCIF以及Canoa OCIF分别多达0.9dB和0.6dB的净余量(clear margin)。另外，对于这两个序列，VBR-D与VBR-N之间的所有性能差距都限制在大约0.2dB内。

表1

比特率(kbps)	CBR	VBR-D	VBR-N
比特率(kbps)	CBR	VBR-D	VBR-N	Foreman OCIF@30Hz
64 27.57 27.98 27.80128 32.30 32.93 32.71256 36.40 37.05 36.90384 38.91 39.40 39.31512 40.73 41.21 41.17768 43.63 43.97 43.91				Foreman OCIF@30Hz
				Canoa OCIF@30Hz
64 23.43 23.59 23.54128 26.34 26.48 26.41256 29.26 29.42 29.40384 31.39 31.53 31.50512 33.27 33.44 33.40768 36.31 36.48 36.46				Canoa OCIF@30Hz

表2显示利用CBR、VBR-D、以及VBR-N的PSNR值的标准偏差。首先，该表揭示VBR-D以及VBR-N方案比CBR方案更多地减小了PSNR标准偏差。虽然未明确表示，但是在每帧获得的PSNR的标准偏差中，与VBR-D相比，VBR-N将其减小了23％至50.8％。因为VBR-N采用基于GOP的优化技术，所以通过每个GOP获得的PSNR的标准偏差(所谓的GOP平均PSNR标准偏差)中，减小百分比变得很大。这说明VBR-N方案在使总体PSNR曲线变平坦方面更有效。参照表2，与VBR-D相比，VBR-N将GOP平均PSNR标准偏差减小了26.1％至89.7％。

表2

比特率(kbps)	CBR	VBR-D	VBR-N	1-VBR-N/VBR-D(％)
比特率(kbps)	CBR	VBR-D	VBR-N	1-VBR-N/VBR-D(％)	Foreman OCIF@30Hz
64 1.93 1.51 0.73128 2.44 1.92 1.00256 2.33 1.69 0.48384 2.06 1.34 0.26512 1.89 1.19 0.25768 1.61 0.97 0.32				51.747.771.380.979.467.5	Foreman OCIF@30Hz
				51.747.771.380.979.467.5	Canoa OCIF@30Hz
64 1.29 1.10 0.81128 1.23 0.98 0.50256 1.22 0.88 0.23384 1.17 0.75 0.08512 1.14 0.76 0.10768 1.12 0.69 0.21				26.149.174.089.787.469.2	Canoa OCIF@30Hz

图5为显示为Football QCIF序列中每个GOP分配的比特率的图示，图6为显示Football QCIF序列中每个GOP的平均PSNR的图示。Football QCIF按512kbps的平均比特率编码。另外，我们说明GOP平均PSNR而非帧PSNR，以察看PSNR曲线的整体平坦程度。在图5中，CBR的比特率几乎恒定，而VBR-D与VBR-N的比特率高度可变，这是因为它们被高度可变的场景特性优化了。在另一方面，VBR-N的GOP平均PSNR曲线比CBR和VBR-D要平坦的多。

图7、8、9、10显示编码Foreman QCIF序列的几个例子。

图7显示由VBR-D生成的第92帧(PSNR＝38.02)，图8显示由VBR-N在相同位置上生成的第92帧(PSNR＝39.94)。

如图所示，VBR-N显著减少了假象。因为VBR-N可以使PSNR曲线变得平坦、并且具有稍小些的平均PSNR，所以这是自然的结果，由此PSNR的最小值显著增加。

图9显示由VBR-D生成的第106帧(PSNR＝44.05)，图10显示由VBR-N生成的第106帧(PSNR＝44.02)。

如这些图所示，虽然VBR-D的PSNR值大于VBR-N的PSNR值，但是实际视觉品质几乎相同，这是因为两个PSNR值都高得足以使编码假象不可察觉。该性质对于主观视觉品质非常有用，这是因为通过以牺牲非常良好品质的帧的PSNR来改进差品质的帧的PSNR，可以在更容易察觉的意义上控制视觉品质。

工业实用性

根据本发明，可以大大减少PSNR标准偏差，同时几乎原样地保持平均PSNR。该性质对于主观视觉品质非常有用，这是因为通过以牺牲非常良好品质的帧的PSNR来改进差品质的帧的PSNR，可以在更容易察觉的意义上控制视觉品质。

根据本发明，因为使用了只有在前置解码器侧才可用的信息，所以前置解码器不需要附加信息。

虽然联系本发明的优选实施方式描述了本发明，但是本领域技术人员应该理解：在不脱离本发明的范围与精神的前提下可以进行各种修改与变动。因此，应该理解在所有方面，以上实施方式都是说明性的、而不是限制性的。本发明的范围由权利要求限定，而不是由对本发明详细说明限定。应该将从权利要求与其对等物的范围与精神导出的所有修改与变动认为是落入本发明的范围之中。

Claims

1.一种比特率控制方法，包含：

确定来自于通过编码原始运动画面而生成的比特流的多个编码单元中每一个的比特量，以允许该运动画面的视觉品质相对于其编码单元是均一的；以及

通过根据所确定的比特量截断该比特流的一部分，来抽取具有所述比特量的比特流。

2.如权利要求1所述的方法，其中峰值信噪比(PSNR)被用做测量视觉品质的基准。

3.如权利要求1所述的方法，其中由编码器生成的比特流遵从基于小波的视频编码方案，并且被前置解码器按照可伸缩性条件自适应地修正。

4.如权利要求1所述的方法，其中通过增加分配给第一编码单元的比特、并且减少分配给第二编码单元的比特，使品质测量基准平坦，并且

其中第一编码单元与第二编码单元相比具有较低品质的图像。

5.如权利要求1所述的方法，其中所述确定比特量包含：

通过利用具有恒定数目的位平面的比特分布与畸变函数，来定义前置解码器中可用的比特率函数；以及

通过修正比特率函数来推测比特率，以获得均一视觉品质。

6.如权利要求5所述的方法，其中所述确定比特量还包含：最初利用比特分布对畸变函数进行近似，以利用前置解码器中可用的信息来确定畸变函数。

7.如权利要求6所述的方法，其中所述确定比特量还包含：通过修正比特率函数来规格化比特率函数以使所分配的总比特率等于目标比特率。

8.一种比特率控制装置，包含：

第一部件，用来确定来自于通过编码原始运动画面而生成的比特流的多个编码单元中每一个的比特量，以使该运动画面的视觉品质相对于其编码单元是均一的；以及

第二部件，用来通过根据所确定的比特量截断该比特流的一部分，来抽取具有所述比特量的比特流。

9.如权利要求8所述的装置，其中由编码器生成的、遵从基于小波的视频编码方案的比特流，被前置解码器按照可伸缩性条件自适应地修正。

10.如权利要求8所述的装置，其中第一部件包含：

用来通过利用具有恒定数目的位平面的比特分布与畸变函数来定义前置解码器中可用的比特率函数、以及通过修正该比特率函数来推测比特率、从而获得均一视觉品质的部件。

11.如权利要求10所述的装置，其中第一部件还包含：用来最初利用比特分布对畸变函数进行近似，以利用前置解码器中可用的信息来确定畸变函数的部件。

12.如权利要求10所述的装置，其中第一部件还包含：用来通过修正比特率函数来规格化比特率函数以使所分配的总比特率等于目标比特率的部件。

13.一种记录计算机程序代码的计算机可读记录介质，所述代码使计算机能够提供一种比特率控制方法的服务，该方法包含：

14.一种比特率控制的装置，包含：

确定单元，用来确定来自于通过编码原始运动画面而生成的比特流的多个编码单元中每一个的比特量、以使得该运动画面的视觉品质相对于其编码单元是均一的；以及

抽取单元，用来通过根据所确定的比特量截断该比特流的一部分、来抽取具有所述比特量的比特流。

15.如权利要求14所述的装置，其中由编码器生成的比特流遵从基于小波的视频编码方案，并且被前置解码器按照可伸缩性条件自适应地修正。

16.如权利要求14所述的装置，其中确定单元包含：

定义单元，用来通过利用具有恒定数目的位平面的比特分布与畸变函数、来定义前置解码器中可用的比特率函数，以及推测单元，用来修正比特率函数以获得均一视觉品质。

17.如权利要求16所述的装置，其中确定单元还包含：近似单元，用来最初利用比特分布对畸变函数进行近似、以利用前置解码器中可用的信息来确定畸变函数。

18.如权利要求16所述的装置，其中确定单元还包含：规格化单元，用来通过修正比特率函数来规格化比特率函数以使所分配的总比特率等于目标比特率。