CN101960466A

CN101960466A - 用于误差弹性视频编码的帧间模式生成的比率失真优化

Info

Publication number: CN101960466A
Application number: CN200880105912.8A
Authority: CN
Inventors: 区子廉; 陈彦
Original assignee: Hong Kong University of Science and Technology HKUST
Current assignee: Hong Kong University of Science and Technology HKUST
Priority date: 2007-09-11
Filing date: 2008-09-05
Publication date: 2011-01-26
Also published as: JP2010539750A; US20090067495A1; EP2186039A4; KR20100058531A; EP2186039A1; WO2009035919A1

Abstract

当解码视频数据时，为被编码的视频数据提供帧间模式的最优选择，以实现增强的误差弹性。基于剩余能量和量化误差，确定用于帧间模式选择的从编码器到解码器的端到端失真成本。使用基于剩余能量和量化误差以及最优拉格朗日参数的失真成本函数，选择用于编码期间使用的最优帧间模式，用于最大误差弹性。最优拉格朗日参数可以设为与具有由分组丢失率确定的缩放因子的无误差拉格朗日参数成比例。

Description

用于误差弹性视频编码的帧间模式生成的比率失真优化

技术领域

本发明涉及用于增强的误差弹性(resilience)的在视频编码期间对帧间模式的选择的比率失真(rate distortion)优化。

背景技术

通常来说，使用特定编码方案，数据压缩或源编码是使用比未编码的表示将使用的位更少的位来编码信息的处理。如在任何通信的情况下，压缩数据通信只在信息的发送者和接收者都理解编码方案时才起作用。例如，只有使得解码方法也被接收者知道或已经被接收者知道，才可以理解编码的或压缩的数据。

压缩是有用的，因为其帮助减少昂贵资源(如硬盘空间或传输带宽)的消耗。不利地，压缩数据必须解压缩以观看，并且该额外处理对一些应用可能是有害的。例如，对于视频的压缩方案可能要求昂贵硬件，用于在解压缩视频时，将视频解压缩足够快以便观看(即，实时)。例如，对于一些时间敏感的应用，时间可能非常关键，使得在观看视频前完全解压缩视频是不容许的，或者至少是不方便的，对于薄的客户端，由于对解压缩视频的存储要求，预先完全解压缩可能是不可能的。压缩数据还可以引入信号质量的丢失。因此，数据压缩方案的设计涉及各种因素之间的平衡，所述因素包括压缩度、如果使用有损压缩方案则引入的失真量、以及压缩和解压缩数据所需的计算资源。

通过和利用ISO/IEC和ITU-T标准组织保持的版本联合开发，H.264、a.k.a高级视频编码(AVC)和MPEG-4部分10是共同使用的视频编码标准，其考虑对各种应用(如数字存储介质、电视广播、因特网流和实时音频视频通信)的运动画面的更高压缩的增长需要而设计。还设计H.264以允许对于多种网络环境以灵活的方式使用编码的视频表示。进一步设计H.264以便在一般意义上服务广范围的应用、位速率、分辨率、质量和服务。

H.264的使用允许运动视频作为计算机数据的形式操作，并存储在各种存储介质上，通过现有的或将来的网络发送和接收，并且在现有的或将来的广播信道上分发。在创建H.264的过程中，来自多种应用的要求和任何必需的算法元素集成到单个语法中，便利在不同应用之间交换视频数据。

作为进一步的背景，设计语法中指定的编码表示以允许具有图像质量的最小劣化(即，最小失真)的高压缩能力。该算法不是普通的无损，因为通过编码和解码过程，精确源样本值典型地没有保留，然而，定义了与解码处理有关的多个句法特征，其可以用于实现高度有效的压缩，并且可以发送单独选择的区域而没有损失。

与之前的编码标准MPEG2和H.263相比，新的视频编码标准H.264/AVC通过采用复杂的特征(如使用一组丰富的编码模式)，在宽范围的位速率上具有更好的编码效率。然而，已知的是通过H.264/AVC生成的位流对由于预测编码和可变长度编码导致的传输误差脆弱。在这点上，一个分组丢失或者甚至单个位误差可能致使视频的整个片段不能解码，结果严重地劣化接收的视频序列的视觉质量。

已经提出来减少由于这种传输误差导致的视觉质量的劣化的传统系统包括数据分割方法。利用数据分割技术，不同类型的符号分割为不同分组，以更高优先级发送更重要的符号(如运动矢量)，在该情况下，因为数据优先级，假设在解码器正确接收运动矢量变为是合理的。然后在解码器处，运动补充帧可以用于隐藏任何丢失帧。

一种传统的基于比率失真优化的模式确定算法包括递归最优每像素估计(ROPE)。ROPE操作来通过跟踪重建像素值的第一和第二阶时刻(moment)来估计期望的样本失真。然而，ROPE对近似误差非常敏感，并且实际来说，当进行各种像素平均操作(如子像素运动估计)时难以维持精确度。已经提出在H.264参考软件中采用的误差健壮比率失真优化方法，其中通过利用不同误差模式将宏块(MB)解码K次并平均它们来计算失真。然而，该方法显然过于复杂。为了帮助简化复杂度，已经提出失真图来帮助计算传播误差。

然而，这些传统模式确定系统和方法主要关注如何选择最优帧内刷新位置，而没有传统模式确定系统已经关注帧间模式的选择，即，如何在编码器处产生用于P帧的最优帧间模式以增强误差弹性。

因此，将期望提供一种用于编码视频数据的最优解决方案，其优化在编码器处进行的帧间模式确定。上述用于视频编码的当前设计的缺陷仅旨在提供如今设计的一些问题的概括，并且不旨在是穷尽性的。在审阅本发明的各种非限制性实施例的以下描述时，现有技术的其它问题和本发明的对应优点将变得更明显。

发明内容

当解码视频数据时，为编码的视频数据提供帧间模式的最优选择，以实现增强的误差弹性。基于剩余能量和量化误差，确定用于帧间模式选择的从编码器到解码器的端到端失真成本。使用基于剩余能量和量化误差以及最优拉格朗日参数的成本函数，本发明选择用于编码期间使用的最优帧间模式，用于最大误差弹性。在一个非限制性实施例中，将最优拉格朗日参数设为与具有由分组丢失率确定的缩放因子的无误差拉格朗日参数成比例。

在此提供简化的概述，以帮助实现对在下面更详细的描述和附图中的示例性、非限制性实施例的各个方面的基本或一般理解。然而，该概述不旨在作为延伸的或穷尽性的概括。该概述的唯一目的是作为对下面的更详细描述的前序，以简化形式呈现与本发明的各个示例性、非限制性实施例有关的一些概念。

附图说明

参照附图进一步描述根据本发明的用于选择帧间模式的最优视频编码技术，附图中：

图1是用于本发明的各个实施例的操作的、用于视频数据的视频编码/解码系统的示例性方块图；

图2图示从原始序列的图像到依据根据本发明的视频编码标准的帧间模式的一组运动补偿的重建图像引入的示例性误差；

图3是一般地图示依据根据本发明的视频编码处理的帧间模式的最优选择的流程图；

图4是图示根据本发明的用于视频编码处理的最优帧间模式的示例性、非限制性确定的流程图；

图5A是图示根据本发明实施例的端到端失真成本的示例性、非限制性确定的流程图；

图5B是图示根据本发明实施例的拉格朗日参数的示例性、非限制性确定的流程图；

图6A和6B分别比较对于20％和40％的数据分组丢失率、本发明的操作相对于传统技术的峰值信噪比对位速率；

图7A、7B和7C表示演示在20％的分组丢失率、本发明的技术对于传统系统的效率的一系列视觉比较；

图8A、8B和8C表示演示在40％的分组丢失率、本发明的技术对于传统系统的效率的一系列视觉比较；

图9图示关于用于解码根据本发明的优化编码的视频的H.264解码处理的补充环境；

图10是表示其中可以实现本发明的示例性、非限制性计算系统或操作环境的方块图；以及

图11图示适于本发明的实施例的服务的网络环境的概况。

具体实施方式

如在背景技术中所讨论的，作为应用于视频编码的传统模式确定算法(如H.264视频编码)已经关注与帧间模式相对的帧内模式的优化选择以及帧内和帧间模式之间的最优切换。然而，没有传统系统已经关注在编码器(例如，用于H.264的P帧的编码器)产生最优帧间模式，而不管帧内模式。更具体地，利用关于现有(各)信道条件的知识或统计假设(例如分组丢失率)，并且使用运动补偿帧来隐藏在解码器的丢失帧，因此没有传统系统已经处理如何生成最优帧间模式以增强误差弹性。

因此，与已经关注帧内模式选择的传统系统相反，根据本发明，优化地选择用于H.264的帧间模式用于增强的误差弹性。如所述的，使用数据分割技术，可以合理假设将在解码器处正确接收运动矢量。已经在解码器处访问运动矢量意味着可以生成运动补偿帧以隐藏丢失帧。在该框架内，本发明因此在解码器处生成用于P帧的最优帧间模式，以最小化误差对重建的运动补偿帧的影响。

在图1中一般地示出可以应用本发明的技术的编码/解码系统。要压缩的原始视频数据100输入包括多个编码模式的视频编码器110，所述编码模式至少包括帧间模式编码组件112，以及可选地包括帧内模式编码组件114，尽管本发明不关注帧内模式编码组件的选择或使用。

对于更大环境，典型地，编码算法定义对于每个画面的各个块形区域何时使用帧间编码(路径a)以及何时使用帧内编码(路径b)。帧间编码使用用于基于块的帧间预测的运动矢量，以开发不同画面之间的时间统计依赖性。帧内编码使用各种空间预测模式来开发单个画面内的源信号中的空间统计依赖性。因此，在传统方法已经关注进行优化帧内编码确定的情况下，本发明应用于通过帧间模式组件112进行的帧间模式确定的环境。

在帧间模式编码器112操作之前(例如，将数据拆分为片断和宏块)以及在编码器112操作之后(例如，进一步转换/压缩)，还可以将额外步骤应用于视频数据100，但是帧间模式编码的结果是产生H.264P帧116。根据本发明，基于信道条件118(例如分组丢失率)和已经通过解码器120正确接收用于视频数据的运动矢量124的假设，本发明通过在编码视频数据100时优选地生成用于视频数据100的帧间模式，增强了P帧116的编码的误差弹性。结果，与次优的传统方法相比，基于运动矢量124由视频编码器120生成的重建的运动补偿帧122展现优异的视觉质量。

通常来说，如图2所示，当编码一组原始图像200(例如，I₁，I₂，...，I_k)时，作为通过有损编码自身引入的一部分误差212(例如，由于量化、平均等的误差)或传输误差214(例如没有使其到达解码器的位)，可能出现多种误差210(例如，e₁，e₂，...，e_n)。利用本发明，进行这样的假设，即运动矢量220将以高优先级发送给解码器，因此将可用于帮助形成重建图像230，以便隐藏目前解码帧中的丢失数据。

更具体地，根据本发明，通常注意到期望的端到端失真通过三项确定：剩余能量、量化误差和传播误差。然而，如提到的，当环境限制于用于增强的误差弹性为视频数据进行的帧间模式确定而不是帧间/帧内切换时，前两项足够确定端到端失真，即，用于选择帧间模式的优化方法不依赖于传播误差。本发明应用最优拉格朗日参数，其与具有由分组丢失率确定的缩放因子的无误差拉格朗日参数成比例。根据本发明，利用基于剩余能量和量化误差以及最优拉格朗日参数的成本函数，本发明选择在编码期间使用的最优帧间模式用于最大误差弹性。

下面更详细描述本发明的帧间模式选择系统和处理的各种实施例和进一步的底层构思。

最优帧间模式选择

如所述的，根据本发明的实施例，提出一种比率失真优化的帧间模式确定方法以增强H.264视频编码标准的误差弹性。如图3的流程图中一般所示的，在300，在视频数据的帧序列中接收视频数据的当前帧。利用本发明，在310，选择最优帧间模式用于根据H.264视频编码标准编码当前帧。然后，在320，基于最优帧间模式的选择，根据H.264标准编码当前帧。在这点上，使用期望的端到端失真的确定而不是源编码失真，这导致最优拉格朗日参数。

图4图示用于根据本发明确定用于视频编码标准(如H.264视频编码)的最优帧间模式的示例性处理。在400，确定与编码正被编码的帧序列中的当前帧有关的端到端失真成本。然后，在410确定最优拉格朗日参数。有利地，在420可以基于在400确定的失真成本和在410确定的最优拉格朗日参数选择用于H.264编码的最优帧间模式。

基于运动矢量以高优先级发送因此将在解码器处正确接收的假设，期望的端到端失真函数通过三项产生：之前帧中的剩余能量、量化误差和传播误差。然而，因为本发明贯注于进行帧间模式确定，因此前两项足够。在这点上，根据本发明，利用基于剩余能量和量化误差的失真函数以及对应的最优拉格朗日参数，进行优化的帧间模式选择，其改进了编码处理的误差弹性。

图5A图示用于与根据本发明选择用于编码视频的最优帧间模式相关的确定端到端失真成本的示例性、非限制的流程图。在500，确定与编码当前帧数据有关的剩余能量。在510，确定与编码当前帧有关的量化误差。在520，作为在500确定的剩余能量和在510确定的量化误差的函数，然后可以计算端到端失真成本。

图5B依次图示用于确定如在此描述的比率失真优化等式的最优拉格朗日参数的示例性、非限制的流程图。在530，计算将在无误差发送条件下得到的拉格朗日参数。在540，该“无误差”拉格朗日参数然后通过基于从编码器到解码器的期望信道条件的因子缩放。在550，最优拉格朗日参数设为如基于信道条件(例如，分组丢失率)缩放的无误差拉格朗日参数。

对于与根据本发明选择用于编码的帧间模式相关地确定的期望的端到端失真，首先定义一些符号用于下面的讨论。这里，f_i指原始第i帧，

指第(i-1)无误差重建帧，并且

指在解码器处的实际的第(i-1)重建帧，其由于分组丢失可能变为损坏。对于预测编码标准，等式1关于：

f_{i} = {\hat{f}}_{i - 1} (mv) + e_{i}

等式1

{\tilde{f}}_{i - 1} = {\hat{f}}_{i - 1} (mv) + {\tilde{e}}_{i - 1}

等式2

其中e_i是帧i的剩余，并且

是第(i-1)帧中的传播误差。

如提到的，通过使用数据分割技术，可以假设在解码器处正确接收(各)运动矢量。因此，如果当前帧丢失，则只有当前帧的剩余丢失，即，原始信号的部分不由从(各)运动矢量构建的运动补偿帧表示。因此，正确接收的运动矢量总是可以用于隐藏丢失帧。根据该符号，当前帧的重建版本因此可以表示为：

{\tilde{f}}_{i}^{loss} = {\tilde{f}}_{i - 1} (mv)

等式3

\underset{&OverBar;}{{\tilde{f}}_{i}^{lossless} = {\tilde{f}}_{i - 1} (mv) + {\hat{e}}_{i}}

等式4

其中，和

分别代表当前帧丢失和正确接收时的当前帧的重建版本。并且

是当前帧的量化剩余。

组合等式1、2、3和4，当前帧的原始值和在解码器处的重建值之间的差可以表示为下，得到等于5和6：

e_{i}^{loss} = f_{i} - {\tilde{f}}_{i}^{loss} = f_{i} - {\tilde{f}}_{i - 1} (mv)

= f_{i} - {\hat{f}}_{i - 1} (mv) - {\tilde{e}}_{i - 1}

等式5

e_{i}^{loss} = e_{i} - {\tilde{e}}_{i - 1}

e_{i}^{lossless} = f_{i} - {\tilde{f}}_{i}^{lossless} = f_{i} - {\tilde{f}}_{i - 1} (mv) - {\hat{e}}_{i}

= f_{i} - {\hat{f}}_{i - 1} (mv) - {\tilde{e}}_{i - 1} - {\hat{e}}_{i}

等式6

e_{i}^{lossless} = e_{i} - {\hat{e}}_{i} - {\tilde{e}}_{i - 1}

其中，e_i ^loss和e_i ^lossless分别代表当前帧丢失和正确接收时的剩余，即，运动补偿帧和原始帧之间的差。

根据等式5和6，显示为期望均方差的用于e_i ^loss和e_i ^lossless的重建失真分别在以下等式7和8中导出：

D_{i}^{loss} = E {(e_{i}^{loss})}^{2} = E {(e_{i} - {\tilde{e}}_{i - 1})}^{2}

等式7

D_{i}^{loss} = {Ee}_{i}^{2} - 2 {Ee}_{i} {\tilde{e}}_{i - 1} + E {\tilde{e}}^{2}_{i - 1}

D_{i}^{lossless} = E {(e_{i}^{lossless})}^{2} = E {(e_{i} - {\hat{e}}_{i} - {\tilde{e}}_{i - 1})}^{2}

等式8

D_{i}^{lossless} = E {(e_{i} - {\hat{e}}_{i})}^{2} - 2 E (e_{i} - {\hat{e}}_{i}) {\tilde{e}}_{i - 1} + E {\tilde{e}}^{2}_{i - 1}

假设剩余e_i和量化剩余

都与之前帧中的传播误差

无关，并且平均剩余Ee_i和量化剩余

都等于0，则等式9和10如下：

{Ee}_{i} {\tilde{e}}_{i - 1} = {Ee}_{i} E {\tilde{e}}_{i - 1} = 0

等式9

E (e_{i} - {\hat{e}}_{i}) {\tilde{e}}_{i - 1} = ({Ee}_{i} - E {\hat{e}}_{i}) E {\tilde{e}}_{i - 1} = 0

等式10

组合等式7、8、9和10，并且假设分组丢失率p，则得到如以下等式11中所示的期望端到端失真的确定：

E (D) = p D_{i}^{loss} + (1 - p) D_{i}^{lossless}

= p [E e_{i}^{2} - 2 E e_{i} {\tilde{e}}_{i - 1} + E {\tilde{e}}^{2}_{i - 1}]

+ (1 - p) [E {(e_{i} - {\hat{e}}_{i})}^{2} - 2 E (e_{i} - {\hat{e}}_{i}) {\tilde{e}}_{i - 1} + E {\tilde{e}}^{2}_{i - 1}]

= pE e_{i}^{2} + (1 - p) E {(e_{i} - {\hat{e}}_{i})}^{2} + E {\tilde{e}}^{2}_{i - 1}

等式11

= p D_{r} + (1 - p) D_{q} + D_{p}

其中

是剩余能量，是量化失真，并且是之前帧中的传播失真。

比率失真优化的帧间模式确定

已经提出上述基础，通过用于进行帧间模式确定的进一步环境的方式，H.264视频编码标准允许一组丰富的帧间编码模式，从4×4到16×16变化。在这点上，对于每个宏块或MB，通过最小化由以下给出的拉格朗日等式选择最佳帧间模式：

J₀＝D_q+λ₀R 等式12

J₀是与位速率有关的拉格朗日乘数，并且通常假设位速率R为以下的失真D的函数：

R (D) = α \log (\frac{D_{r}}{D_{q}})

等式13

因此，对于无误差信道，拉格朗日参数可以如等式14所示通过对D_q求导来产生：

\frac{&PartialD; J_{0}}{&PartialD; D_{q}} = 1 - λ_{0} α \frac{1}{D_{q}} = 0 &DoubleRightArrow; λ_{0} = \frac{D_{q}}{α}

等式14

因此，对于有误差信道，期望最小化以下拉格朗日等式，其可以扩展为等式15：

J＝E(D)+λR

＝pD_r+(1-p)D_q+D_p+λR

J = p D_{r} + (1 - p) D_{q} + D_{p} + λα \log (\frac{D_{r}}{D_{q}})

等式15

因为本发明关注进行帧间模式确定，所以可以假设之前帧中的传播失真D_p独立于帧间模式。因此，只有D_r和D_q影响帧间模式确定，将等式15减少为等式16，如下：

\min_{mode} J = \min_{mode} p D_{r} + (1 - p) D_{q} + λα \log (\frac{D_{r}}{D_{q}})

等式16

等式16显示J是目标函数，其在D_r中单调增加，并且关于D_q凸起。因此，当D_r固定时，等式可以关于D_q最小化如下：

\frac{&PartialD; J}{&PartialD; D_{q}} = (1 - p) - λα \frac{1}{D_{q}} = 0 &DoubleRightArrow; λ = (1 - p) \frac{D_{q}}{α} = (1 - p) λ_{0}

等式17

等式16然后可以重写如下：

\min_{mode} J = \min_{mode} p D_{r} + (1 - p) D_{q} + (1 - p) λ_{0} R

\min_{mode} J = \min_{mode} \frac{p}{1 - p} D_{r} + D_{q} + λ_{0} R

等式18

因此，在各种非限制性实施例中，通过最小化由等式18表示的成本函数选择最佳帧间模式。因此，剩余能量、量化失真和分组丢失率看起来全部影响最优帧间模式的选择。

因为本发明主要关注帧间模式选择，所以与已经关注帧间/帧内模式切换的其它方法的直接比较不可能基于同类事物。然而，本发明可以通过仿真相等丢失条件来与H.264无误差编码器比较。如上所述，并且如等式16演示的，当关注帧间模式选择时，剩余能量(隐藏失真)而不是传播失真有助于模式选择。还注意到，如果假设剩余能量(隐藏失真)独立于模式选择，则目标函数返回或减少到H.264无误差编码器目标函数。

为了非限制性演示，测试称为“foreman”的示例性视频序列。测试序列首先通过使用H.264无误差编码器编码，并且还使用提出的方法编码。然后，通过使用同一误差模式文件来仿真信道特性和采用同一隐藏方法，即，使用运动补偿帧来隐藏丢失帧，在解码器处生成不同的重建视频。在示例中，第一帧编码为I帧，并且连续帧编码为P帧。因为本发明应用于帧间模式选择，所以没有帧内模式用于P帧。通过与原始视频序列比较来计算峰值信噪比(PSNR)。然后测试在20％和40％的分组丢失率。

图6A图示与本发明的使用的比较的、使用传统H.264技术的具有20％分组丢失率的图像序列“Foreman(QCIF)”的代表性能。曲线600a代表用于本发明的性能的PSNR对位速率，其与表示用于H.264无误差解码器的性能的PSNR对位速率的曲线610a比较。

类似地，图6B图示与本发明的使用的比较的、使用传统H.264技术的具有40％分组丢失率的图像序列“Foreman(QCIF)”的代表性能。曲线600b代表用于本发明的性能的PSNR对位速率，其与表示用于H.264无误差解码器的性能的PSNR对位速率的曲线610b比较。

因此，图6A和6B中示出提出的算法和H.264无误差编码器之间的位速率v.PSNR曲线的比较。曲线的检查说明对于不同丢失率，本发明的性能比H.264无误差编码器的性能好很多。在这点上，平均来说，在相同位速率，与H.264无误差编码器相比本发明提供超过1dB的收获，这说明本发明的效率。还观察到，利用本发明，当分组丢失率增加时，本发明的性能收获实现或增加更多。这是合理的，因为上述等式(如等式18)指示，当分组丢失率p增加时，剩余能量项

起到更显著的角色。

重建视频的视觉质量还可以经由在20％的分组丢失率的图7A到7C的图像比较以及经由在在40％的分组丢失率的图8A到8C的图像比较来检查。例如，图7A和8A表示“foreman”样本视频的两个原始帧。图7B和8B表示应用本发明的最优帧间模式选择技术的两个原始帧的重建帧。图7C和8C依次示出通过H.264无误差编码器产生的结果，分别用于与图7B和8B的简单视觉比较。在这点上，在简单视觉检查时，观察到通过本发明重建的帧的质量比通过H.264无误差编码器产生的帧的质量好很多，例如，本发明表明更少的“脏”伪像(artifact)。

如上面在本发明的各个非限制性实施例中描述的，比率失真优化的帧间模式确定算法用于增强H.264视频编码标准的误差弹性能力。基于运动矢量总是在解码器接收的假设，期望的端到端失真由三项确定：之前帧中的剩余能量、量化失真和传播失真，前两项应用于帧间模式选择。关注最优帧间模式选择，确定期望的端到端失真并用于选择用于编码P帧的最佳帧间模式。利用这种失真函数和对应的最优拉格朗日参数，结果视觉地和数学地演示改进的误差弹性。在一个非限制性实施例中，最优拉格朗日参数设为与具有通过分组丢失率确定的缩放因子的无误差拉格朗日参数成比例。

用于H.264视频编码的补充环境

下面的描述提出关于H.264标准的进一步细节，用于关于该标准的补充背景或额外环境；然而，为了避免疑问，在没有相反的表述说明时，这些额外细节不应当认为限制上述本发明的各种非限制性实施例，或限制定义本发明的精神和范围的权利要求。

H.264/AVC是互补的和广泛使用的视频编码标准。该标准的目的包括增强的压缩效率、对交互应用(例如，视频电话)和非交互应用(例如，广播应用、存储介质应用以及其它)的网络友好视频表示。相比于之前标准，H.264/AVC提供在宽范围的位速率和视频分辨率上、压缩效率的高达50％的收获。与之前标准相比，解码器复杂性大约是MPEG-2的四倍和MPEG-4视觉简单类(profile)的两倍。

相对于之前的视频编码标准，H.264/AVC引入以下非限制性特征。为了减少分块伪像，在预测回路中可以使用自适应回路滤波器来减少分块伪像。作为题外话提到的，可以使用称为帧内预测的预测方案，其利用空间冗余。在该方案中，来自之前处理的宏块的数据用于预测用于当前编码帧中的当前宏块的数据。之前视频编码标准使用8×8实离散余弦变换(DCT)来利用图像数据的8×8块中的空间冗余。在H.264/AVC中，使用较小的4×4整数DCT，其显著减少与变换有关的振铃(ringing)伪像。

此外，利用帧间模式，允许从16×16到4×4的各种块大小来执行运动补偿预测。之前的视频编码标准使用最大半像素精确度用于运动估计。H.264的帧间预测模式还允许多个参考帧用于基于块的运动补偿预测。环境自适应可变长度编码(CAVLC)和环境自适应二进制运算编码(CABAC)也可以用于加密编码/解码，其与之前方案相比将压缩提高10％。

期望的编码算法为每个画面的块形区域在帧间和帧内之间选择。如关于设置最优帧间模式的本发明的各个实施例所述的，帧间编码使用用于基于块的帧间预测的运动矢量来利用不同画面之间的时间统计依赖性。帧内编码(不是本发明的焦点)使用各种空间预测模型来利用单个画面中的源信号中的空间统计依赖性。可以为画面中的各种块大小指定运动矢量和帧内预测模式。

在帧内或帧间预测后剩下的剩余信号然后使用变换进一步压缩，以移除每个变换块内的空间相关性。变换的块然后被量化。量化典型地是在形成对源样本的近似时丢弃不太重要的视觉信息的不可逆处理。最后，运动矢量或帧内预测模式与量化变换系数信息结合，并且使用环境自适应可变长度代码或环境自适应算术编码来编码。

要重复的是本描述一般是关于H.264的补充环境，因此在此描述的任何特征仅仅被认为纯粹是可选的，除非另外明确说明。基于逐个片段，压缩的H.264位流数据是可用的，然而片段通常是按照光栅扫描顺序处理的一组宏块。在用于H.264的基线类中支持两种片段类型。在I片段中，所有宏块以帧内模式编码。在P片段中，一些宏块使用利用参考帧组中的一个参考帧的运动补偿预测来预测，而一些宏块以帧内模式编码。H.264解码器基于逐个宏块处理数据。对于依赖于其特性的每个宏块，将通过宏块的预测部分和使用CA VLC编码的剩余(误差)部分955构造。

图9示出用于解码基本H.264位流900的示例性、非限制性的H.264基线类视频解码器系统。H.264位流900通过“片段报头解析”块905，其提取关于每个片段的信息。在H.264视频编码中，每个宏块归类为编码的或跳过的。如果在965跳过宏块，则该宏块使用帧间预测模块920完全重建。在该情况下，剩余信息为0。如果编码宏块，则基于预测模式，通过“帧内4×4预测”模块925或“帧内16×16预测”块930或“帧间预测”块920。在935使用来自预测模块的预测输出和来自“缩放和变换”模块950的剩余输出重建输出的宏块。一旦重建帧中的所有宏块，则去块滤波器940将应用于整个帧。

“宏块解析模块”910解析与宏块有关的信息，如预测类型、宏块中编码的块数、分割类型、运动矢量等。当宏块编码为帧间宏块时，如果宏块分割为大小8×8、8×4和4×4之一的子宏块，则“子宏块”解析模块915解析信息。如果宏块没有分割为子宏块，则可以使用三种预测类型(帧内16×16、帧内4×4或帧间)的任何。

在帧间预测模块920中，从已经解码的之前帧中预测运动补偿预测块。

帧内预测意味着通过使用相同图像的已经发送的宏块预测宏块的样本。在H.264/AVC中，两种不同类型的帧内预测模式可用于编码宏块的亮度分量。第一种类型称为INTRA_4x4模式，并且第二种类型称为INTRA_16x16模式。在INTRA_4x4预测模式中，每个大小16x16的宏块划分为大小4x4的小块，并且使用可用的九种预测模式之一，单独地对每个子块执行预测。在INTRA_16x16预测模式中，使用可用的四种预测模式之一，在宏块级别执行预测。用于宏块的色度分量的帧内预测类似于亮度分量的INTRA_16x16预测。

H.264/AVC基线类视频解码器可以使用CAVLC熵编码方法来解码编码的量化剩余变换系数。在CAVLC模块945中，非零量化变换系数的数目、每个系数的位置和实际大小分开解码。用于解码这些参数的表格依赖于之前解码的语法元素自适应地改变。在解码后，各系数被反Z形扫描并形成4x4块，其给到缩放和反变换模块950。

在缩放和反变换模块950中，对解码的系数执行反量化和反变换，并且形成适于反预测的剩余数据。在H.264标准中使用三种不同类型的变换。第一种类型是4x4反整数离散余弦变换(DCT)，其用于形成亮度和色度块的剩余块。第二种类型是4x4反Hadamard变换，其用于形成INTRA_16x16宏块的16个亮度块的DC系数。第三种变换是2x2反Hadamard变换，其用于形成色度块的DC系数。

4x4块变换和运动补偿预测可以是解码图像中的分块伪像的源。H.264标准典型地应用回路中去块滤波器940来移除分块伪像。

示例性计算机网络和环境

本领域普通技术人员可以意识到，本发明可以结合可以部署为计算机网络的部分的任何计算机或其它客户端或服务器设备实现，或在连接到任何类型的数据存储的分布式计算机环境中实现。在这点上，本发明适合具有任何数目的存储器或存储单元以及跨越任何数目的存储单元或卷(volume)发生的任何数目的应用和处理的任何计算机系统或环境，其可以结合根据本发明执行的优化算法和处理使用。本发明可以应用于具有部署在网络环境中的具有服务器计算机和客户端计算机的环境或具有远程或本地存储的分布式计算环境。本发明还可以应用于单机计算设备，其具有编程语言功能，用于关于远程或本地服务和处理产生、接收和发送信息的解释和执行能力。

分布式计算通过在计算设备和系统之间的交换提供计算机资源和服务的共享。这些资源和服务包括信息的交换、用于对象(如文件)的高速缓存存储和盘存储。分布式计算利用网络连接的优点，允许客户端杠杆作用它们的集体能力来使整个企业受益。在这点上，多个设备可以具有可以涉及本发明的优化算法和处理的应用、对象或资源。

图10提供示例性联网或分布式计算环境的示意图。分布式计算环境包括计算对象1010a、1010b等和计算对象或设备1020a、1020b、1020c、1020d、1020e等。这些对象可以包括程序、方法、数据存储、可编程逻辑等。该对象可以包括相同或不同设备(如PDA、音频/视频设备、MP3播放器、个人计算机等)的部分。每个对象可以通过通信网络1040与其它对象通信。该网络自身可以包括为图10的系统提供服务的其它计算对象和计算设备，并且自身可以表示多个互连网络。根据本发明的一个方面，每个对象1010a、1010b等或1020a、1020b、1020c、1020d、1020e等可以包含适于使用根据本发明的设计框架的可能使用API的应用、或其它对象、软件、固件和/或硬件。

还可以意识到，如1020c的对象可以寄宿在另一计算设备1010a、1010b等或1020a、1020b、1020c、1020d、1020e等上。因此，尽管描述的物理环境可能显示连接的设备为计算机，这种图示仅仅是说明性的，并且物理环境可以替代地描绘或描述为包括各种数字设备，如PDA、电视、MP3播放器等，其中的任何可以采用多个有线和无线设备、软件对象，如接口、COM对象等。

存在多种支持分布式计算环境的系统、组件和网络配置。例如，计算系统可以通过有线或无线系统、通过本地网络或广泛分布的网络连接到一起。当前，许多网络耦合到因特网，其提供用于广泛分布的计算的基础架构并且包含许多不同网络。任何基础架构可以用于与根据本发明的优化算法和处理关联的示例性通信。

在家庭联网环境中，存在至少四种全异的网络传送介质，其每个可以支持独特的协议，如电源线、数据(无线和有线两种)、声音(例如，电话)和娱乐介质。大多数家庭控制设备(如电灯开关和器械)可以使用电源线用于连接。数据服务可以作为宽带(例如，DSL或电缆调制解调器)进入家中，并且可以使用无线(例如，HomeRF或1002.11B)或有线(例如，家庭PNA、Cat 5、以太网、甚至电源线)在家庭内可访问。声音业务可以作为有线(例如，Cat 3)或无线(例如，蜂窝式电话)进入家中，并且可以使用Cat 3布线在家庭内分布。娱乐介质或其它图形数据可以通过卫星或电缆进入家中，并且典型地使用同轴电缆在家中分布。IEEE 1394和DVI也是用于介质设备簇的数字互连。所有这些可以融合或已经融合作为协议标准的网络环境和其它可以互连以形成网络(如内联网)，其可以通过广域网(如因特网)连接到外部世界。简而言之，存在多种分立资源用于数据的存储和传输，因此，本发明的任何计算设备可以以任何现有方式共享和通信数据，并且在此实施例中描述的任何方式不旨在限制。

因特网通常指利用传输控制协议/因特网协议(TCP/IP)协议组的网络和网关的集合，其在现有技术的计算机联网中是众所周知的。因特网可以描述为通过执行联网协议的计算机互连的地理分布的远程计算机网络的系统，该联网协议允许用户通过(各)网络交互和共享信息。因为这种广泛传播的信息共享，所以迄今远程网络(如因特网)已经通常发展为开放系统，利用开放系统，开发者可以设计用于执行特定操作或服务的软件应用，基本没有限制。

因此，网络基础架构允许网络拓扑的主机(如客户端/服务器、对等网络或混合架构)。“客户端”是使用与其无关的另一类或组的服务的一类或组的成员。因此，在计算中，客户端是处理，即，粗略地为一组指令或任务，其请求由另一程序提供的服务。客户端处理利用请求的服务而不用“知道”关于其它程序或服务自身的任何工作细节。在客户端/服务器架构中，特别是联网的系统中，客户端通常是访问由另一计算机(例如，服务器)提供的共享网络资源的计算机。在图10的图示中，作为示例，计算机1020a、1020b、1020c、1020d、1020e等可以被认为是客户端，并且计算机1010a、1010b等可以被认为是服务器，其中服务器1010a、1010b等保持随后复制给客户端计算机1020a、1020b、1020c、1020d、1020e等的数据，尽管依赖于情况，任何计算机可以被认为是客户端、服务器或两种。这些计算设备的任何可以是可以设计根据本发明的优化算法或处理的处理数据或请求服务或任务。

服务器典型地是可通过远程或本地网络(如因特网或无线网络基础架构)访问的远程计算机系统。客户端处理可以在第一计算机系统中有效，并且服务器处理可以在第二计算机系统中有效，通过通信介质相互通信，因此提供分布式功能并允许多个客户端利用服务器的信息收集能力。依据本发明的优化算法和处理的任何利用的软件对象可以跨越多个计算设备或对象分布。

(各)客户端和(各)服务器利用由(各)协议层提供的功能相互通信。例如，超文本传送协议(HTTP)是结合万维网(WWW)或“环球网”使用的普通协议。典型地，计算机网络地址(如因特网协议(IP)地址)或其它参考(如通用资源定位符(URL))可以用来相互标识服务器或客户端计算机。网络地址可以称为URL地址。可以通过通信介质提供通信，例如，(各)客户端和(各)服务器可以经由高容量通信的(各)TCP/IP连接相互耦合。

因此，图10图示其中可以采用本发明的示例性联网的或分布式环境，其中(各)服务器经由网络/总线与(各)客户端计算机通信。更具体地，根据本发明，多个服务器1010a、1010b等经由通信网络/总线1040与多个客户端或远程计算设备1020a、1020b、1020c、1020d、1020e等(如便携式计算机、手持式计算机、薄的客户端、联网设备或其它设备(如VCR、TV、炉子、灯、加热器灯))互连，该通信网络/总线1040可以是LAN、WAN、内联网、GSM网络、因特网等。因此，预期本发明可以应用于任何计算设备，关于任何计算设备希望在网络上通信数据。

在其中通信网络/总线1040是因特网的网络环境中，例如，服务器1010a、1010b等可以是Web服务器，客户端1020a、1020b、1020c、1020d、1020e等经由任何数目的已知协议(如HTTP)与其通信。服务器1010a、1010b等还可以用作客户端1020a、1020b、1020c、1020d、1020e等，作为可以是分布式计算环境的特性。

如提到的，只要适合，通信可以是有线或无线或组合。客户端设备1020a、1020b、1020c、1020d、1020e等可以或可以不经由通信网络/总线1040通信，并且可以具有与其关联的独立通信。例如，在TV或VCR的情况下，可以存在或可以不存在联网方面用于其控制。每个客户端计算机1020a、1020b、1020c、1020d、1020e等和服务器计算机1010a、1010b等可以配备有各种应用程序模块或对象1035a、1035b、1035c等，并且配备有对各种类型的存储元件或对象的连接或访问，遍及该存储元件或对象可以存储文件或数据流，或可以将文件的(各)部分或数据流下载、发送或移动到该存储元件或对象。计算机1010a、1010b、1020c、1020d、1020e等的任何一个或多个可以负责数据库1030或其它存储元件(如用于存储根据本发明处理或保存的数据库或存储器1030)的维护和更新。因此，本发明可以在具有可以访问和与计算机网络/总线1040的客户端计算机1020a、1020b、1020c、1020d、1020e等、以及可以与客户端计算机1020a、1020b、1020c、1020d、1020e等以及其它类似设备交互的服务器计算机1010a、1010b等、以及数据库1030的计算机网络环境中使用。

示例性计算设备

如提到的，本发明应用到其中例如可能期望将数据通信到移动设备的任何设备。因此，应当理解的是，预期手持式、便携式和其它计算设备和全部种类的计算对象结合本发明使用，即，设备可以通信数据或接收、处理或存储数据的任何地方。因此，下面图11中描述的下面的通用远程计算机仅仅是一个示例，并且本发明可以利用具有网络/总线互用性和交互的任何客户端实现。因此，本发明可以在其中牵涉非常少或最少客户端资源的联网主机服务的环境中实现，例如，其中客户端设备仅仅用作对网络/总线的接口的联网环境，如放置在器械中的对象。

尽管没有要求，但是本发明可以部分地经由操作系统实现，用于由设备或对象的服务的开发者使用，和/或包括在结合本发明的(各)组件操作的应用软件内。软件可以在由一个或多个计算机(如客户端工作站、服务器或其它设备)执行的计算机可执行指令(如程序模块)的一般环境中描述。本领域技术人员将意识到，可以利用其它计算机系统配置和协议实践本发明。

图11因此图示其中可以实现本发明的适合的计算系统环境1100a的示例，尽管如上面说清楚的，计算系统环境1100a只是用于介质设备的适合的计算环境的一个示例，并且不旨在提出关于本发明的使用或功能的范围的任何限制。计算环境1100a也不应当解释为具有与示例性操作环境1100a中所示的组件的任何一个或组合有关的任何依赖性或要求。

参照图11，用于实现本发明的示例性远程设备包括计算机1110a形式的通用计算设备。计算机1110a的组件可以包括但不限于处理单元1120a、系统存储器1130a和系统总线1121a，其将包括系统存储器的各种系统组件耦合到处理单元1120a。系统总线1121a可以是若干类型的总线结构的任何，包括存储器总线或存储器控制、外围总线和使用多种总线架构的任何的本地总线。

计算机1110a典型地包括多种计算机可读介质。计算机可读介质可以是可以被计算机1110a访问的任何可用介质。通过示例的方式并且不是限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质，用于信息(如计算机可读指令、数据结构、程序模块或其它数据)的存储。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CDROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或任何其它介质，其可以用于存储期望的信息并且可以被计算机1110a访问。通信介质典型地包含计算机可读指令、数据结构、程序模块或调制数据信号(如载波)或其它传送机制中的其它数据，并且包括任何信息传递介质。

系统存储器1130a可以包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)和/或随机存取存储器(RAM)。存储器1130a中可以存储基本输入/输出系统(BIOS)，其包含帮助如在启动期间在计算机1110a内的各元件之间传送信息的基本例程。存储器1130a典型地还包含由操作单元1120a立即可访问的和/或当前正操作的数据和/或程序模块。通过示例的方式并且不是限制，存储器1130a还可以包括操作系统、应用程序、其它程序模块和程序数据。

计算机1110a还可以包括其它可移除/不可移除、易失性/非易失性计算机存储介质。例如，计算机1110a可以包括读写不可移除、非易失性磁介质的硬盘驱动器、读写可移除、非易失性磁盘的的磁盘驱动器、和/或读写可移除、非易失性光盘(如CD-ROM)或其它光学介质的光盘驱动器。在示例性操作环境中可以使用的其它可移除/不可移除、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器典型地通过不可移除存储器接口(如接口)连接到系统总线1121a，并且磁盘驱动器或光盘驱动器典型地通过可移除存储器接口(如接口)连接到系统总线1121a。

用户可以通过输入设备(如键盘和通常称为鼠标、跟踪球或触摸垫的指向设备)输入命令和信息到计算机1110a。其它输入设备可以包括麦克风、操纵杆、游戏垫、卫星电视天线、扫描仪等。这些和其它输入设备通常通过用户输入1140a和耦合到系统总线1121a的相关(各)接口连接到处理单元1120a，但是可以通过其它接口和总线结构(如并行端口、游戏端口或通用串行总线(USB))连接。图形子系统也可以连接到系统总线1121a。监视器或其它类型的显示设备也经由如输出接口1150a的接口连接到系统总线1121a，该输出接口1150a依次可以与视频存储器通信。除了监视器外，计算机还可以包括如扬声器和打印机的其它外围输出设备，其可以通过输出接口1150a连接。

计算机1110a可以使用到一个或多个远程计算机(如远程计算机1170a)的逻辑连接在联网或分布式环境中操作，该远程计算机1170a依次可以具有不同于设备1110a的介质容量。远程计算机1170a可以是个人计算机、服务器、路由器、网络PC、对等设备或其它公共网络接点、或任何其它远程介质消耗或传输设备，并且可以包括上面关于计算机1110a描述的元件的任何或全部。图11中描绘的逻辑连接包括网络1171a，如局域网(LAN)或广域网(WAN)，但是还可以包括其它网络/总线。这种联网环境在家庭、办公室、企业范围的计算机网络、内联网和因特网中是普通的。

当在LAN联网环境中使用时，计算机1110a通过网络接口或适配器连接到LAN 1171a。当在WAN联网环境中使用时，计算机1110a典型地包括通信组件(如调制解调器)或用于通过WAN(如因特网)建立通信的其它部件。可以是内部的或外部的通信组件(如调制解调器)可以经由输入1140a的用户输入接口或其它适合机制连接到系统总线1121a。在联网环境中，关于计算机1110a描绘的程序模块或其部分可以存储在远程存储器存储设备中。将意识到，示出和描绘的网络连接是示例性的，并且可以使用在计算机之间建立通信链接的其它部件。

尽管已经关于各图的优选实施例描述了本发明，但是要理解的是，可以使用其它类似的实施例，或者可以对描述的实施例进行修改或增加，用于执行本发明的相同功能而不偏离本发明。例如，本领域技术人员将认识到，本申请中描述的本发明可以应用于无论是有线或无线的任何环境，并且可以应用于经由通信网络连接的并且跨越网络交互的任何数目的这种设备。因此，本发明不应当限于任何单个实施例，而是应当以根据权利要求的宽度和范围解释。

在此使用词语“示例性”来表示作用示例、实例或图示。为了避免疑问，在此公开的主题不受这种示例的限制。此外，在此描述为“示例性”的任何方面或设计不必解释为比其它方面或设计优选或有利，也不意味着排除本领域技术人员所知的等效示例性结构或技术。此外，对于在详细描述或权利要求中使用的术语“包括”、“具有”、“包含”和其它类似词语的程度，为了避免疑问，这种术语意图与作为开放式过渡词语的术语“包括”类似的方式是包括的，而不是排出任何额外的或其它元件。

在此描述的本发明的各种实现可以具有整体为硬件、部分硬件和部分软件、以及软件的方面。如在此使用的，术语“组件”、“系统”等类似地旨在指计算机相关的实体，为硬件、硬件和软件的组合、软件、或执行中的软件。例如，组件可以是但不限于是在处理器上运行的处理、处理器、对象、可执行的、执行的线程、和/或计算机。通过图示的方式，运行在计算机上的应用和计算机两种都可以为组件。一个或多个组件可以驻留在处理和/或执行的线程内，并且组件可以本地化到一个计算机和/或在两个或更多计算机之间分布。

因此，本发明的方法和装置或其某些方面或部分可以采用刚性介质(如软盘、CD-ROM、硬盘驱动器或任何其它机器可读存储介质)中包含的程序代码(即，指令)的形式，其中，当程序代码由机器(如计算机)载入并执行时，机器变为用于实践本发明的装置。在可编程计算机上的程序代码执行的情况下，计算设备通常包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备、和至少一个输出设备。

此外，公开的主题内容可以实现为系统、方法、装置或制造产品，其使用标准编程和/或工程技术来产生软件、固件、硬件或其任何组合，以便控制计算机或基于处理器的设备来实现在此详细描述的各方面。在此使用的术语

“制造产品”、“计算机程序产品”或类似术语旨在包括从任何计算机可读设备、载体、或介质可访问的计算机程序。例如，计算机可读介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条...)、光盘(例如，致密盘(CD)、数字多功能盘(DVD)...)、智能卡、和闪存设备(例如，卡、棒)。此外，已知载波可用来携带计算机可读电数据，如在发送和接收电子邮件或访问网络(如因特网或局域网(LAN))时使用的那些。

已经参照若干组件之间的交互描述了前述系统。可以意识到的是，这种系统和组件可以包括那些组件或特定子组件、一些特定组件或子组件和/或额外组件，并且根据前述的各种排列和组合。子组件还可以实现为通信耦合到其它组件而不是例如根据分级安排包括在父组件中的组件。此外，要注意的是，一个或多个组件可以组合为提供集合功能的单个组件，或者划分为若干分开的子组件，并且任何一个或多个中间层(如管理层)可以提供来通信地耦合到这种子组件以便提供集成的功能。在此描述的任何组件还可以与没有在此特别描述但是为本领域技术人员通常所知的一个或多个其它组件交互。

考虑在前描述的示例性系统，可以根据公开的主题内容实现的方法参照流程图将会更好的理解。尽管为了说明的简单，该方法示出和描述为一系列方块，但是要理解和意识到，要求保护的主题不受方块顺序的限制，因为一些方块可能以与在此描绘和描述的那些不同顺序发生和/或与其它方块并发地发生。在非序列或分支的情况下，经由流程图图示流程，可以意识到，可以实现各种其它分支、流程路径和方块顺序，其实现相同或类似效果。此外，不要求全部图示的方块来实现在此描述的方法。

此外，如将意识到的，上面公开的系统和下面的方法的各个部分可以包括或由以下组成：基于人工智能或知识或规则的组件、子组件、处理、部件、方法或机制(例如，支持矢量机器、神经网络、专家系统、Bayesian信任网络、模糊逻辑、数据融合引擎、分类器...)。这种组件和其它可以是某种自动化机制或执行的处理，从而使得系统和方法的各部分更适应以及更有效和智能。

尽管已经关于各图的优选实施例描述了本发明，但是要理解的是，可以使用其它类似的实施例，或者可以对描述的实施例进行修改或增加，用于执行本发明的相同功能而不偏离本发明。

尽管示例性实施例指在特定编程语言解释、说明或标准的环境中利用本发明，但是本发明不限于此，而是可以以任何语言实现以执行优化算法和处理。此外，本发明可以在多个处理芯片或设备中或跨越多个处理芯片或设备实现，并且存储可以类似地跨越多个设备起作用。因此，本发明不应当限制为任何单个实施例，而是应当以根据权利要求的宽度和范围解释。

权利要求书(按照条约第19条的修改)

1.一种用于以帧间模式编码视频数据的方法，包括：

接收表示图像序列的图像帧数据的当前帧数据；

当根据帧间模式编码时，优化帧间模式的选择，所述帧间模式用于基于在图像帧数据的各帧之间确定的时间依赖性编码当前帧数据，所述当前帧数据使用用于基于块的帧间预定的运动矢量；

其中所述优化包括确定作为从编码器到解码器的期望的分组丢失率的函数的最优拉格朗日参数。

2.如权利要求1所述的方法，其中所述优化包括确定与编码当前帧数据有关的端到端失真成本。

3.如权利要求2所述的方法，其中所述优化包括确定与编码当前帧数据有关的剩余能量。

4.如权利要求2所述的方法，其中所述优化包括确定与编码当前帧数据有关的量化误差。

5.如权利要求3所述的方法，其中所述优化包括确定与编码当前帧数据有关的量化误差。

6.如权利要求1所述的方法，其中所述优化包括确定最优拉格朗日参数。

7.如权利要求6所述的方法，其中所述优化包括确定作为具有由分组丢失率确定的缩放因子的无误差拉格朗日参数的函数的最优拉格朗日参数。

8.如权利要求1所述的方法，其中所述优化包括优化如由H.264视频编码标准定义的帧间模式的选择。

9.如权利要求8所述的方法，其中所述编码包括根据通过所述优化选择的帧间模式编码图像帧数据的P帧。

10.一种计算机可读介质，包括用于执行权利要求1所述的方法的计算机可执行指令。

11.一种用于编码视频数据的视频编码计算系统，包括：

用于存储视频数据的多个帧的至少一个数据存储；以及

编码组件，其至少通过基于端到端失真和至少一个信道条件最小化比率失真成本函数，对要编码的每个预测帧选择用于视频压缩标准的帧间编码处理的最优帧间模式，

其中所述视频编码标准至少包括帧间编码模块和帧内编码模块，所述帧间编码模块用于基于从多个帧的各帧之间的时间相关性导出的至少一个运动矢量执行帧间编码处理，所述帧内编码模块用于基于多个帧的各帧之间的空间相关性编码；

其中所述编码组件基于作为编码的帧的从编码器到解码器的期望分组丢失率的函数确定的最优拉格朗日参数，确定最优帧间模式。

12.如权利要求11所述的视频编码系统，其中所述编码组件基于与编码的帧有关的剩余能量和量化误差确定端到端失真的量。

13.如权利要求11所述的视频编码系统，其中所述编码组件包括用于根据H.264先进视频编码标准编码视频数据的多个帧的H.264编码器。

14.如权利要求11所述的视频编码系统，其中所述编码组件基于端到端失真和分组丢失率最小化比率失真成本函数。

15.一种图形处理装置，包括：

存储器，用于存储包括图像的视频数据；

至少一个图形处理单元(GPU)，用于响应于由所述至少一个GPU接收的指令，处理视频数据以根据H.264编码标准编码由视频数据表示的图像，从而响应于接收指令，所述至少一个GPU选择最优帧间模式，用于至少基于与当前图像有关的剩余能量和量化失真编码图像的当前图像的，并且基于最优帧间模式编码当前图像；

其中所述最优帧间模式基于作为编码的帧的从编码器到解码器的期望的分组丢失率的函数确定的最优拉格朗日参数。

16.如权利要求15所述的图形处理装置，其中所述至少一个GPU基于与用于发送图像的编码图像到H.264解码器的发送信道有关的信道条件，选择用于编码当前图像的最优帧间模式。

17.如权利要求15所述的图形处理装置，其中所述至少一个GPU基于与用于发送图像的编码图像到H.264解码器的发送信道有关的分组丢失率，选择用于编码当前图像的最优帧间模式。

18.如权利要求15所述的图形处理装置，其中所述至少一个GPU基于剩余能量和量化失真确定端到端失真成本。

说明或声明(按照条约第19条的修改)

声明

响应于2009年1月26日从审查员Juan Cruz收到的修改权利要求的要求，由于在2009年1月19日取消了权利要求7和13，所以从权利要求组中移除它们。已经依次重新编号权利要求1-20为权利要求1-18。

19条(1)下的声明

已经修改权利要求1、12和17，以指示作为从编码器到解码器的期望的分组丢失率的函数以及作为具有由分组丢失率确定的缩放因子的无误差拉格朗日参数的函数实现最优拉格朗日参数的确定。

权利要求1-20被认为相对于US 2007/0030894A1(Tian)不具备新颖性。

要求保护的主题内容涉及用于在视频编码期间的帧间模式的选择的比率失真优化，用于增强对误差的弹性。当解码视频数据时，对被编码的视频数据提供帧间模式的最优选择，以实现增强的误差弹性。使用基于剩余能量和量化误差以及最优拉格朗日参数的成本函数，选择用于编码期间使用的最优帧间模式，用于最大的误差弹性。最优拉格朗日参数设为与具有由分组丢失率确定的缩放因子的无误差拉格朗日参数成比例。

Tian公开了对每个编码模式确定成本值。对于每个模式，确定量化失真值，其从可应用于宏块的量化操作得到。提供拉格朗日参数，其与编码模式和用于编码模式的位数有关。依赖于量化失真值、拉格朗日参数、位数和与编码模式有关的失真值，确定成本值。例如，见[0029]。

Tian关注于对每个编码模式确定成本值。特定编码模式的每个成本值依赖于特定编码模式的失真值。最终编码模式从多个编码模式选择，这基于成本值的比较。选择最小成本值用于最终编码模式。(见[0019])。Tian没有涉及确定作为从编码器到解码器的期望的分组丢失率的函数以及作为具有由分组丢失率确定的缩放因子的无误差拉格朗日参数的函数的最优拉格朗日参数。审查意见指出Tian公开了由分组丢失率确定的缩放因子，见[0027]和[0137]-[0140]。然而，Tian仅仅公开了作为分组丢失概率的函数估计帧内编码模式的失真值。

考虑上述意见，敬请有利地考虑本专利申请。

Claims

1.一种用于以帧间模式编码视频数据的方法，包括：

接收表示图像序列的图像帧数据的当前帧数据；

当根据帧间模式编码时，优化帧间模式的选择，所述帧间模式用于基于在图像帧数据的各帧之间确定的时间依赖性编码当前帧数据，所述当前帧数据使用用于基于块的帧间预定的运动矢量。

7.如权利要求6所述的方法，其中所述优化包括确定作为从编码器到解码器的期望的分组丢失率的函数的最优拉格朗日参数。

8.如权利要求7所述的方法，其中所述优化包括确定作为具有由分组丢失率确定的缩放因子的无误差拉格朗日参数的函数的最优拉格朗日参数。

9.如权利要求1所述的方法，其中所述优化包括优化如由H.264视频编码标准定义的帧间模式的选择。

10.如权利要求9所述的方法，其中所述编码包括根据通过所述优化选择的帧间模式编码图像帧数据的P帧。

11.一种计算机可读介质，包括用于执行权利要求1所述的方法的计算机可执行指令。

12.一种用于编码视频数据的视频编码计算系统，包括：

用于存储视频数据的多个帧的至少一个数据存储；以及

其中所述视频编码标准至少包括帧间编码模块和帧内编码模块，所述帧间编码模块用于基于从多个帧的各帧之间的时间相关性导出的至少一个运动矢量执行帧间编码处理，所述帧内编码模块用于基于多个帧的各帧之间的空间相关性编码。

13.如权利要求12所述的视频编码系统，其中所述编码组件基于作为编码的帧的从编码器到解码器的期望分组丢失率的函数确定的最优拉格朗日参数，确定最优帧间模式。

14.如权利要求12所述的视频编码系统，其中所述编码组件基于与编码的帧有关的剩余能量和量化误差确定端到端失真的量。

15.如权利要求12所述的视频编码系统，其中所述编码组件包括用于根据H.264先进视频编码标准编码视频数据的多个帧的H.264编码器。

16.如权利要求12所述的视频编码系统，其中所述编码组件基于端到端失真和分组丢失率最小化比率失真成本函数。

17.一种图形处理装置，包括：

存储器，用于存储包括图像的视频数据；

至少一个图形处理单元(GPU)，用于响应于由所述至少一个GPU接收的指令，处理视频数据以根据H.264编码标准编码由视频数据表示的图像，从而响应于接收指令，所述至少一个GPU选择最优帧间模式，用于至少基于与当前图像有关的剩余能量和量化失真编码图像的当前图像的，并且基于最优帧间模式编码当前图像。

18.如权利要求17所述的图形处理装置，其中所述至少一个GPU基于与用于发送图像的编码图像到H.264解码器的发送信道有关的信道条件，选择用于编码当前图像的最优帧间模式。

19.如权利要求18所述的图形处理装置，其中所述至少一个GPU基于与用于发送图像的编码图像到H.264解码器的发送信道有关的分组丢失率，选择用于编码当前图像的最优帧间模式。

20.如权利要求18所述的图形处理装置，其中所述至少一个GPU基于剩余能量和量化失真确定端到端失真成本。