CN1754389A

CN1754389A - 用于改进的编码模式选择的方法和装置

Info

Publication number: CN1754389A
Application number: CN 200480002031
Authority: CN
Inventors: A·杜米特拉斯; B·G·哈斯克尔; A·普里
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2003-01-08
Filing date: 2004-01-07
Publication date: 2006-03-29
Anticipated expiration: 2024-01-07
Also published as: CN101651831A; CN100536571C; CN101651831B

Abstract

本发明公开了一种新颖的方法，用于H.264(MPEG4/部分10)的框架中B图像中直接模式的增强以及P图像中跳过模式的增强。直接模式和跳过模式增强是通过群集拉格朗日值、移除非正常值以及在对编码模式选择的速率失真最优化中指定拉格朗日乘数的较小值来获得的。利用高质量的视频序列的实验结果表明，以峰值信噪比(PSNR)上微小的损失为代价，利用本发明的方法获得比特率减少。通过执行两个不同的实验，已经验证了尽管峰值信噪比发生了改变，但没有主观的视觉损失。与当前用在(非标准)MPEG－4/部分10编码器中的现有的比率失真最优化方法相比，本发明的方法提供了一种简单而有用的附加项。更重要的是，当由于不允许的伪像引入到解码的图像中使得其它的方法，诸如进一步增加量化参数的值不可用时，本发明的方法得到比特率减少而不用在解码的序列中引入可见的失真。而且，尽管本发明利用了H.264框架，但是推荐的方法可用在任何对编码模式选择的使用比率失真最优化的视频编码系统中。

Description

用于改进的编码模式选择的方法和装置

相关申请

本专利申请要求名称为“用于改进的编码模式选择的方法和装置”、序列号为60/439062，于2003年1月8日公开的美国临时专利申请的优先权。

技术领域

本发明涉及多媒体压缩系统领域。具体地，本发明公开了用于改进编码模式选择的方法和系统。

背景技术

基于数字的电子介质格式正在最终大规模地代替模拟电子介质格式。数字光盘(CD)很久以前就取代了模拟聚乙烯唱片。模拟磁带变得日益稀少。第二和第三代数字音频系统，诸如小型磁盘和MP3(MPEG音频第3层)正从第一代数字音频光盘格式夺取市场份额。

然而，视频介质向数字存储和传输格式发展的速度要比音频的发展速度慢。这主要是由于以数字格式精确表示视频需要大量的数字信息。精确表示视频所需的大量数字信息需要非常高容量的数字存储系统和高带宽的传输系统。

但是，视频正快速地向数字存储和传输格式发展。更快的计算机处理器、高密度的存储系统、以及新的高效压缩编码算法最终使得数字视频实践在消费价格方面变得实用。在几年间，DVD(数字多功能光盘)、数字视频系统已经成为销售最快的消费电子产品之一。由于其视频质量高、音频质量高、便利以及其它特点，DVD已经迅速代替了录像机(VCR)，成为选择的预先录制的视频重放系统。废弃的模拟NTSC(国家电视标准委员会)视频传输标准最终由数字化的ATSC(先进电视标准委员会)视频传输系统所代替。

多年来，计算机系统已经使用各种不同的数字视频编码格式。由计算机系统使用的最好的数字化视频压缩和编码系统是由公知的其缩写为MPEG的运动图像专家组支持的数字化视频系统。MPEG的三种最公知并且使用率非常高的数字视频格式是MPEG-1、MPEG-2和MPEG-4。视频CD以及用户级数字视频编辑系统使用早期的MPEG-1格式。数字多功能光盘(DVD)以及碟形网络品牌(brand)直播卫星(DBS)电视广播系统使用MPEG-2数字视频压缩和编码系统。基于数字视频编码器的最新计算机和相关的数字视频播放器正迅速地采用MPEG-4编码系统。

发明内容

本发明公开了用于改进编码模式选择的方法和系统。在本公开中，公开了一种新颖的方法，用于H.264(MPEG-4/部分10)的框架中B-图像中直接模式的增强以及P-图像中跳过模式的增强。

直接模式和跳过模式增强是通过对现有的压缩系统做多个改变来获得的。具体地，本发明的系统引入了移除失真值中非正常值的步骤、在对编码模式选择的速率失真优化中指定拉格朗日乘数的较小值的步骤、以及在编码模式选择之前群集(clustering)拉格朗日值的步骤。在一个实施方式中，为了移除非正常值，利用Huber成本函数计算不同编码模式的失真。在本发明的一个实施方式中，系统改变拉格朗日乘数以作为量化器值Q的函数，比基准H.264(MPEG4/部分10)的实现变化得更慢。利用拉格朗日群集来支持比特率减少的模式0的编码模式。

利用高质量的视频序列的实验结果表明，以峰值信噪比(PSNR)的微小损失为代价，利用本发明的方法获得比特率的减少。通过执行两个不同的实验，验证了尽管峰值信噪比发生了改变，但没有主观的视觉损失。

与当前用在(非标准)MPEG-4/部分10编码器中的现有的比率失真优化方法相比，本发明的方法提供了一种简单而有用的附加项(add-on)。更重要的是，当由于不被接受的伪像引入到解码的图像中使得其它的方法，诸如进一步增加量化参数的值不可用时，本发明的方法不将可见失真引入解码序列中就可获得比特率的减少。

通过附图以及下列的详细描述，本发明的其它目的、特点以及优点将会显而易见。

附图说明

通过下面的详细描述，本发明的目的、特点以及优点对本领域的技术人员来讲将会是显而易见的，其中：

图1图解地示出了变量r的Huber成本函数。

图2A示出了原始和修改的拉格朗日乘数λ_mode在所关心的范围内作为量化参数(Q)值的函数的变化。

图2B示出了原始和修改的B-帧拉格朗日乘数λ_mode在所关心的范围内作为量化参数(Q)值的函数的变化。

图2C示出了原始和修改的拉格朗日乘数λ_motion在所关心的范围内作为量化参数(Q)值的函数的变化。

图3示出了说明如何选择编码模式的流程图。

具体实施方式

本发明公开了用于改进编码模式选择的方法和系统。在下列的描述中，为了便于解释，提出具体的术语来提供对本发明的完整的理解。然而，对本领域技术人员来讲显而易见的是为了实施本发明并不需要这些具体的细节。

出现的H.264视频编码标准，也称作MPEG4/部分10、联合视频队(JVT)、先进视频编码(AVC)以及H.26L，其已经由运动图像专家组(MPEG)以及国际电信同盟(ITU)共同开发，以提供比艺术级的视频编码系统更高的运动图像的压缩，其中所述的艺术级的视频编码系统与现有的MPEG标准相适应。其有望成为2003年的国际标准的H.264的目标应用包括(但不限于)视频会议、数字存储介质、电视广播、因特网流和通信。

与其它的视频编码标准(在它们的主体或附件中)相似，H.264标准使用速率失真(RD)确定框架。具体地，H.264标准使用对编码模式选择的速率失真优化和运动评估。在公开中，主要焦点是在H.264标准的框架内的编码模式选择。

在大多数视频编码系统中，将视频序列的每个视频帧分成像素子集，其中像素子集被称作像素模块。在H.264标准中，像素模块具有不同的尺寸(具有16×16像素大小的像素模块通常被称作宏块)。编码模式选择问题可以非正式地定义为“选择所有可能的编码方法(或编码模式)中最好的以对视频帧中的每个像素模块”进行编码。可以以多种不同的方式由视频编码器来解决编码模式选择问题。解决编码模式选择问题的一个可能的方法就是利用速率失真优化。

存在多种不同的编码模式，其可以被选择用来编码H.264视频编码标准的框架内的每个像素模块。模式0称作B帧中的“直接模式”以及P帧中的“跳过模式”。其它的编码模式利用B帧或P帧中大小等于16×16、16×8以及8×16像素、8×8、8×4、4×8、4×4像素的像素模块。

在直接模式中(B图像的模式0)，没有运动信息传输到解码器。而是使用预测系统生成运动信息。因此，直接模式可以对序列提供重要的比特率的节约，其中该序列利用邻近的空间或时间信息允许良好的运动向量预测。然而，实验性的估计表明H.264中的直接模式选择并不生成与对一些视频序列所期望的一样多的被选择的像素模块。

本公开推荐了一种方法，用于增强H.264标准的框架内的双向预测图像(称作B图像或B帧)中的直接模式(模式0)选择。当应用到P帧时，本发明的编码方法获得跳过模式(也是模式0)选择的增强。直接模式和跳过模式的增强通过群集拉格朗日值、移除非正常值并且在对编码模式选择的速率失真优化中指定拉格朗日乘数的较小值来获得。

利用高质量采样的视频序列的实验结果表示，与利用H.264编解码获得的压缩的比特流相比，本发明的压缩的比特流的比特率减少了。比特率的减少与比特流的峰值信噪比(PSNR)的轻微损失有关。然而两个测试的实验证明没有主观的视觉损失与峰值信噪比的变化有关。更重要的是，当由于不可接受的伪像被引入到解码的图像中，使得诸如进一步增加量化参数的值的其它可能的方案不适用时，本发明的方法不在解码的视频序列中引入可视的失真的情况下，就显著地进一步获得比特率减少。而且，不管本发明使用H.264框架的事实，本发明的编码方法可适用于任何使用比特失真优化的视频编码系统。

本文档的剩余部分组织如下。视频压缩综述部分首先描述了与H.264标准内的比特失真的优化框架有关的基本概念。本发明提出的编码方法在提出的直接模式增强方法部分进行了详细描述。最后，在实验结果部分和结论部分分别提供了一组实验结果和结论。

视频压缩综述

如本文档之前所述，每个视频帧被分成H.264标准的像素模块组。可以利用运动补偿预测编码对这些像素模块进行编码。预测的像素模块可以是在其编码中不使用之前图像信息的内部(I)的像素模块(I像素模块)、使用前一个图像信息的单向预测(P)的像素模块(P像素模块)或者使用前一个图像信息和后一个图像信息的双向预测(B)的像素模块(B像素模块)。

对于每一个P图像中的P像素模块，计算一个运动向量。(注意在每一个视频图像内，可以以多种方式编码像素模块)。例如，可以将像素模块分成更小的子模块，对每个子模块计算和传输运动向量。子模块的形状可以改变并且可以不是正方形的)。利用计算机运动向量，通过上述之前图像中的像素转换，可以形成预测像素模块。视频图像中实际的像素模块和预测的像素模块之间的差异然后被编码用于传输。(该差异用于纠正预测的像素模块和实际的像素模块之间的较小的差异)。

也可以通过预测的编码传输每个运动向量。也就是，利用附近的已经被传输的运动向量来形成对运动向量的预测，并且然后实际的运动向量和预测的运动向量之间的差异被随后编码用于传输。

对于每个B像素模块，典型地计算两个运动向量，一个是上述的前一个图像的运动向量，一个是后一个图像的运动向量。(注意在P图像或B图像内，可以不用运动补偿而对一些像素模块更好地编码。这样的像素可以被编码为内部像素模块。在B图像内，利用向前或向后单向运动补偿可以对一些像素模块更好地编码。这样的像素可以被编码为向前预测或向后预测，这取决于是否在预测中使用了前一个图像或后一个图像。)两个预测像素模块从两个B像素模块运动向量计算。然后将两个预测像素模块结合在一起，以形成最终的预测像素模块。如上所述，视频图像中实际的像素模块和预测模块之间的差异然后被编码用于传输。

如P像素模块，B像素模块的每个运动向量可以通过预测编码传输。也就是，利用附近的已经被传输的运动向量来形成预测运动向量。然后实际的运动向量和预测的运动向量之间的差异被随后编码用于传输。

然而，对于B像素模块，也存在内插运动向量的机会，运动向量来自于配置或邻近的存储的图像像素模块中的运动向量。(当利用当前像素模块的配置的模块的运动向量构建运动向量预测时，直接模式类型称作时间直接模式。当利用当前像素模块的空间相邻的来构建运动向量预测时，直接模式类型已知为空间直接模式。)内插值然后可用作预测运动向量，实际的运动向量和预测运动向量之间的差异然后被编码用于传输。这样的内插在编码器和解码器中都执行。(注意编码器总是具有解码器，所以该编码器将准确地知道重建的视频图像将如何出现)。

在一些情况下，内插的运动向量足够良好来进行使用，不需要做任何差异校正，在这种情况下根本不需要传输运动向量数据。这称为H.264(以及H.263)标准中的直接模式。当记录摄影机缓慢地摇摄(pan)静态的背景时，直接模式选择就特别有效。实际上，这样的运动向量内插足够良好可以按照现状使用，这意味着对这些B像素模块运动向量来讲不需要传输差别信息。在跳过模式(P图像中的模式0)中，与在16×16直接模式中相同的方式构建运动向量预测，使得没有运动向量比特的传输被执行。

在传输之前，典型地将像素模块或子模块的预测误差(差异)进行转换、量化和熵编码，以减小比特的数量。计算为原始的期望像素模块和在利用直接模式编码后被解码的预测像素模块之间的均方误差的预测误差以直接模式被编码。然而在跳过模式中预测误差没有被编码并传输。用于转换的子模块的尺寸和形状可以与用于运动补偿的子模块尺寸和形状不同。例如，8×8像素或4×4像素通常用于转换，而16×16像素、16×8像素、8×16像素或更小的尺寸通常用于运动补偿。运动补偿以及转换子模块尺寸和形状在像素模块与像素模块之间可以不同。

编码每个像素模块的最好的编码模式的选择是在H.264标准中的决定之一，该标准对被压缩的比特流的比特率R以及被解码的视频序列中的失真D具有非常直接的影响。编码模式选择的目的是选择编码模式M^*，其将受R( P)≤R_max的比特率限制的失真D( p)最小化，其中 P是可调整的编码参数的向量，R_max是最大的可允许的比特率。受约束的最优化问题可以转换为利用拉格朗日等式J( p，λ)的无约束优化问题，由下式给出：

J( p，λ)＝D( p)+λR( p) (1)

其中λ是拉格朗日乘数，其控制失真率的折中。编码模式确定问题就变成了J( p，λ)的最小化。这可以以下列的方程表达：

\min_{all \overset{&OverBar;}{p}} {D (\overset{&OverBar;}{p}) + λR (\overset{&OverBar;}{p})} - - - (2)

可以通过对每个可容许的编码模式执行下列步骤来评估前述的拉格朗日方程：

(a)在利用特定的编码模式编码和解码之后，计算失真D作为原始的像素模块和重建的像素模块之间的误差的标准L₂；

(b)计算比特率R作为编码运动向量和转换系数所必需的比特的总数；

(c)利用方程(1)计算拉格朗日值J；

最后，在对所有的编码模式计算拉格朗日值J之后，获得的最小的拉格朗日值J表示解决了由方程(2)表达的最小化的编码模式M^*。

注意，在H.264视频压缩标准中，在确定较大的像素模块的编码模式之前，利用8×8以及更小的像素模块来执行编码模式的确定。而且，注意在减小最优化进程的复杂性的工作中，利用固定的量化器值Q来执行最小化确定，并且经常选择拉格朗日乘数等于(例如)0.85×Q/2或者0.85×2^Q/3，其中Q是量化参数。对于多个B图像，经常选择更大的值。当然，该复杂性的降低也限制了对失真率平面中拉格朗日J的最小值的搜索。

推荐的直接模式增强方法

本发明的系统推荐了一种方法，用于增强B帧中的直接模式选择和增强P帧中跳过模式选择。本发明的系统利用群集成本值、非正常值减小以及拉格朗日乘数的说明。在一个实施方式中，本系统利用四个步骤执行该方法。参照附图3，下列的正文提供了对这些方法步骤的详细描述。

首先，对每个可能的编码模式M的当前像素模块进行编码和解码，并且如步骤310和320所述对失真D_M进行计算。在一个实施方式中，将失真D_M计算成原始的像素模块中的像素和解码的像素模块中的像素之间误差的Huber函数值之和。Huber函数，如如图1中所述，由下列等式给出：

D_{M} (χ) = \{\begin{matrix} \frac{1}{2} χ^{2}, | χ | \leq β \\ β | χ | - \frac{1}{2} β^{2}, | χ | > β \end{matrix}

其中x是像素模块的一个像素的误差，β是参数。无疑，对于小于β的误差值，Huber函数的值等于由平方误差给定的值。对于大于β的误差值，Huber函数的值小于相同误差值的平方误差的值。

第二，如步骤330所述，计算每个编码模式的比特率R。在一个实施方式中，系统计算比特率R作为编码运动向量和转换像素模块系数所必需的比特的总数。

第三，如步骤340所述，本发明的系统利用等式(1)计算编码模式的格朗日算符。在一个实施方式中，该系统选择拉格朗日乘数λ的值，该拉格朗日乘数λ的值作为量化参数的函数，其比H.264标准4.1版本的非标准化部分建议的原始的拉格朗日算子λ变化得更慢。作为量化器Q的函数的拉格朗日算子λ的建议的变化在附图2A、2B和2C中进行了描述。通过使得拉格朗日乘数拉姆达变化得比基准实现中的拉姆达更慢，本发明的系统较少强调拉格朗日等式(1)的比特率成分R，并且因而较多强调失真成分D。作为对拉格朗日乘数拉姆达改变的结果，比特率R微小的增加将对输出的拉格朗日值J具有较小的影响。(这也将减小比特率R对如下段落中所述的拉格朗日群集的影响)。

第四，使得J_M*成为所有J_M的最小值(利用等式(1))，M是其中的一个可能的编码模式。系统不选择生成J_M*的编码模式(M^*)，而是如下来群集计算的拉格朗日值J_M。使得S设为编码模式K的集合，其中计算的拉格朗日值满足条件：

S = {k | \frac{J^{*}}{J_{k}} | &GreaterEqual; ϵ} - - - (3)

其中厄普西隆(“ε”)是选定的误差值，J^*是所有模式的最小的J。如果编码模式0是集合S的元素，则系统选择编码模式0作为将被用来编码像素模块的编码模式，否则系统选择与J_M*对应的编码模式M^*(生成最小的J值的编码模式M^*)。

上述的步骤利用了与基准(非标准化的)H.264编码器相比新颖的组件。特别地，本发明使用Huber成本函数计算失真、修改的拉格朗日乘数以及拉格朗日值的群集。

Huber成本函数属于鲁棒M估计器类别。这些函数的重要特性是它们减小非正常值影响的能力。更具体的是，如果任何非正常值存在于像素模块内，则Huber成本函数对它们的加权(线性地)要比均方误差函数的(二次方地)要低，依次使得对像素模块所选定的编码模式可能与相邻的宏块的编码模式相同。

修改的拉格朗日乘数λ作为量化参数Q的函数变化得较慢，因而对拉格朗日值J的失真成分注重的程度比对比特率成分R注重的程度要高。(在该文档中，“拉姆达”或“λ”表示用在编码模式确定进程中的拉格朗日乘数。用在运动向量选择进程中的乘数是不同的)。

最后，以前描述的拉格朗日值的群集支持编码模式0。因此，本发明的系统允许分别利用用于B像素模块和P像素模块的直接模式或跳过模式来编码更多的像素模块。

实验结果

用在实验中的视频测试集由来自于电影片段“探访埃及(Discovering Egypt)”、“飘”以及“英国病人”的9种彩色视频剪辑构成。这些视频序列的特定特性如表1所述。

表1：测试序列

(略写ch和Og分别代表章节和反向闪烁(glance))

序列号	视频序列名称	帧尺寸	帧号	类型
序列号	视频序列名称	帧尺寸	帧号	类型	1	探访埃及，ch.1	704×464	58	遥摄
2	飘，ch.11	720×480	44	Og	1	探访埃及，ch.1	704×464	58	遥摄
2	飘，ch.11	720×480	44	Og	3	探访埃及，ch.1	704×464	630	遥摄
4	探访埃及，ch.2	704×464	148	变焦	3	探访埃及，ch.1	704×464	630	遥摄
4	探访埃及，ch.2	704×464	148	变焦	5	探访埃及，ch.3	704×464	196	升降(Boom)
6	探访埃及，ch.6	704×464	298	遥摄	5	探访埃及，ch.3	704×464	196	升降(Boom)
6	探访埃及，ch.6	704×464	298	遥摄	7	英国病人，ch.2	720×352	97	纹理化
8	英国病人，ch.6	720×352	196	Og	7	英国病人，ch.2	720×352	97	纹理化
8	英国病人，ch.6	720×352	196	Og	9	英国病人，ch.8	720×352	151	Og

视频帧以YUV格式表示，对于所有的视频序列视频帧速率等于每秒23.976帧(fps)。利用压缩的视频序列的比特率R以及解码的视频序列的可视化质量来对本发明推荐的方法的效果进行评估。通过视频序列的可视检查以及峰值信噪比(PSNR)值对后者进行评估。

在推荐的直接模式增强方法部分描述的本发明的编码方法中的新颖的组件根据它们对速率和失真的影响而相互补充。本发明的方法使得总体的比特率减少以及轻微的峰值信噪比的减少。利用在下列文本部分描述的两个实验对本发明的系统进行了评估。

所有序列的固定量化参数

对所有的视频序列来讲，第一个实验所选择的量化参数是相同的，并且对于I帧、P帧和B帧分别等于Q、Q+1、Q+3。如表2中所述，当利用本发明的编码方法时，比特率的减少可以为9％，其中峰值信噪比(PSNR)的损失大约0.12dB。与利用基准的方法编码的相比，利用本发明的编码方法编码的视频序列中没有可见的失真。

表2：对所有的序列利用相同的量化参数Q使用基准方法和推荐的方法的视频序列的比特率(BR)[k比特/秒]以及峰值信噪比(PSNR)[dB]

序列号	基准方法		推荐的方法
	基准方法		推荐的方法		比特率[k比特/秒]	PNSR[dB]	比特率[k比特/秒]	PNSR[dB]
	1	162.04	38.89	155.43(-4.08％)	比特率[k比特/秒]	PNSR[dB]	比特率[k比特/秒]	PNSR[dB]	38.75(-0.13dB)
2	1	162.04	38.89	155.43(-4.08％)	287.71	39.82	283.35(-1.51％)	39.71(-0.11dB)	38.75(-0.13dB)
2	3	659.14	37.32	650.92(-1.24％)	287.71	39.82	283.35(-1.51％)	39.71(-0.11dB)	37.20(-0.12dB)
4	3	659.14	37.32	650.92(-1.24％)	1029.02	35.84	1012.17(-1.63％)	35.76(-0.07dB)	37.20(-0.12dB)
4	5	390.46	36.77	354.25(-9.27％)	1029.02	35.84	1012.17(-1.63％)	35.76(-0.07dB)	39.59(-0.18dB)
6	5	390.46	36.77	354.25(-9.27％)	144.82	39.11	139.02(-4.00％)	39.02(-0.09dB)	39.59(-0.18dB)
6	7	257.06	37.30	255.08(-0.76％)	144.82	39.11	139.02(-4.00％)	39.02(-0.09dB)	37.12(-0.18dB)
8	7	257.06	37.30	255.08(-0.76％)	102.75	40.17	99.81(-2.85％)	40.03(-0.13dB)	37.12(-0.18dB)
8	9	222.29	39.62	218.48(-1.71％)	102.75	40.17	99.81(-2.85％)	40.03(-0.13dB)	39.50(-0.12dB)
	9	222.29	39.62	218.48(-1.71％)	最大BR	改变：	-9.27％		39.50(-0.12dB)
	最小BR	改变：	-0.76％		最大BR	改变：	-9.27％
	最小BR	改变：	-0.76％		平均BR	改变：	-3.00％
	最大PSNR	增益：		0dB	平均BR	改变：	-3.00％
	最大PSNR	增益：		0dB	最大PSNR	损失：		-0.183dB
	平均PSNR	改变：		-0.128dB	最大PSNR	损失：		-0.183dB

每个序列的最高的量化参数

为了进一步评估本发明的编码方法的有效性，设计并进行了第二个实验。当比特率R和峰值信噪比值都降低时，一般的论点是多种方法诸如预过滤视频序列、增加量化器Q的值等可以生成相同的结果。该实验的目的是表明当在没有不可接受地削弱视频的质量的情况下这些方法不能进一步应用时，本发明的方法可以进一步降低比特率。

首先，对每个测试的视频序列，当失真变得可见时，通过增加量化参数的值利用基准方法尽可能降低比特率，直到Q_max+1。接下来，系统利用Q_max(失真还不可见的最大值)和基准方法编码并解码视频序列，生成包括在表3中的比特率和峰值信噪比(PSNR)值。对于每个序列，Q_max值是不同的，对于I帧、P帧和B帧，其分别也是不同的。假定最大的可得到的比特减少没有视觉损失，然后用本发明的编码方法编码在相同Q_max值的序列。

表3：利用最高的量化参数使用基准方法和推荐的方法的电影序列的比特率(BR)[k比特/秒]以及峰值信噪比(PSNR)[dB]

序列号	基准方法		推荐的方法
	基准方法		推荐的方法		比特率[k比特/秒]	PNSR[dB]	比特率[k比特/秒]	PNSR[dB]
	1	512.59	41.39	479.52(-6.45％)	比特率[k比特/秒]	PNSR[dB]	比特率[k比特/秒]	PNSR[dB]	41.15(-0.24dB)
2	1	512.59	41.39	479.52(-6.45％)	316.70	40.10	298.86(-5.63％)	39.89(-0.21dB)	41.15(-0.24dB)
2	5	238.78	35.74	210.40(-11.33％)	316.70	40.10	298.86(-5.63％)	39.89(-0.21dB)	35.18(-0.56dB)
6	5	238.78	35.74	210.40(-11.33％)	169.28	39.46	146.75(-13.30％)	39.10(-0.36dB)	35.18(-0.56dB)
6	7	300.56	37.78	290.67(-3.28％)	169.28	39.46	146.75(-13.30％)	39.10(-0.36dB)	37.50(-0.28dB)
9	7	300.56	37.78	290.67(-3.28％)	276.91	40.45	270.56(-2.30％)	40.31(-0.14dB)	37.50(-0.28dB)
9		最大BR	改变：	-13.30％	276.91	40.45	270.56(-2.30％)	40.31(-0.14dB)
最小BR		最大BR	改变：	-13.30％	改变：	-2.30％
最小BR		平均BR	改变：	-7.04％	改变：	-2.30％
最大PSNR		平均BR	改变：	-7.04％	增益：		0dB
最大PSNR		最大PSNR	损失：		增益：		0dB	-0.56dB
平均PSNR		最大PSNR	损失：		改变：		-0.29dB	-0.56dB

如表3中所述，本发明的方法可进一步显著地降低比特率13.3％，对于峰值信噪比(PSNR)损失大约0.29dB。(为了评估任何B帧相关的伪像)通过在全帧速率下的序列视觉检查，可以确定比特率减少并没有向解码的视频序列中引入可视的伪像。注意，当利用本发明的方法时，可以增加量化参数的值超过Q_max，并获得更多的比特率减少而没有视觉损失。

结论

本发明提供了一种方法，用于H.264(MPEG4/部分10)的视频压缩标准的框架中B图像中直接模式的增强以及P图像中跳过模式的增强。本发明的系统利用Huber成本函数计算失真，修改拉格朗日乘数，群集拉格朗日值以选择用来编码像素模块的编码模式。试验已表明利用本发明的方法，以微小的峰值信噪比(PSNR)损失就可获得显著的比特率缩减，而没有主观的视觉质量下降。作为附加物，当其它的方案诸如进一步增加量化参数的值不再适用时，这些特点使得本发明的方法对于任何视频编码系统中的比特率减少特别有用，该视频编码系统利用对编码模式确定的失真率最优化框架。

以上已描述了执行数字图像增强的方法和装置。在不背离本发明的范围的情况下，本领域的普通技术人员可以对本发明的部件的材料和安排做出改变和修改。

Claims

1、一种在视频压缩和编码系统中执行模式选择的方法，所述方法包括：

用每个可能的编码模式来编码和解码；

计算每个编码模式的失真值，其中所述失真值减小了非正常值的影响；

计算每个编码模式的比特率值；

使用所述失真值、所述比特率值以及拉格朗日乘数计算每个编码模式的拉格朗日值；以及

使用所述拉格朗日值选择编码模式。

2、根据权利要求1所述的方法，其中计算所述失真值包括使用Huber函数。

3、根据权利要求1所述的方法，其中计算所述比特率值包括编码一组运动向量和一组转换系数所必需的全部比特。

4、根据权利要求1所述的方法，其中所述拉格朗日乘数包括缓慢改变的拉格朗日乘数，其作为量化值的函数。

5、根据权利要求1所述的方法，其中使用所述拉格朗日值选择编码模式包括群集所述拉格朗日值以及如果模式0的编码方法是在特定的群集中，则选择所述模式0的编码方法。

6、根据权利要求5所述的方法，其中所述特定的群集包括生成最小拉格朗日值的编码模式。

7、一种在视频压缩和编码系统中执行模式选择的方法，所述方法包括：

用每个可能的编码模式来编码和解码；

计算每个编码模式的失真值；

计算每个编码模式的比特率值；

使用所述失真值、所述比特率值以及拉格朗日乘数计算每个编码模式的拉格朗日值，其中所述拉格朗日乘数包括作为量化值的函数缓慢变化的拉格朗日乘数；以及

利用所述拉格朗日值选择编码模式。

8、根据权利要求7所述的方法，其中所述失真值减小非正常值的影响。

9、根据权利要求7所述的方法，其中计算所述失真值包括使用Huber函数。

10、根据权利要求7所述的方法，其中计算所述比特率值包括编码一组运动向量和一组转换系数所必需的全部比特。

11、根据权利要求7所述的方法，其中使用所述拉格朗日值选择编码模式包括群集所述拉格朗日值以及如果模式0的编码方法是在特定的群集中，则选择所述模式0的编码方法。

12、根据权利要求5所述的方法，其中所述特定的群集包括生成最小拉格朗日值的编码模式。

13、一种在视频压缩和编码系统中执行模式选择的方法，所述方法包括：

用每个可能的编码模式来编码和解码；

计算每个编码模式的失真值；

计算每个编码模式的比特率值；

使用所述失真值、所述比特率值以及拉格朗日乘数计算每个编码模式的拉格朗日值；

群集所述拉格朗日值；以及

如果模式0的编码方法是在特定的群集中，通过选择所述模式0的编码方法来选择利用所述拉格朗日值的编码模式。

14、根据权利要求13所述的方法，其中所述失真值减小了非正常值的影响。

15、根据权利要求13所述的方法，其中计算所述失真值包括利用Huber函数。

16、根据权利要求13所述的方法，其中计算所述比特率值包括编码一组运动向量和一组转换系数所必需的全部比特。

17、根据权利要求13所述的方法，其中所述拉格朗日乘数包括缓慢变化的拉格朗日乘数，其作为量化值的函数。

18、根据权利要求13所述的方法，其中所述特定的群集包括生成最小的拉格朗日值的编码模式。

19、根据权利要求13所述的方法，其中所述方法进一步包括：

如果模式0的编码方法不在特定的群集中，则选择生成最小的拉格朗日值的编码模式。