CN102176748A

CN102176748A - 用于多分辨率视频编码和解码的重新采样和调整图像大小操作的方法

Info

Publication number: CN102176748A
Application number: CN201110120389XA
Authority: CN
Inventors: G·J·苏利万
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-01-06
Filing date: 2007-01-08
Publication date: 2011-09-07
Anticipated expiration: 2027-01-08
Also published as: HK1161016A1; JP2009522935A; JP5302010B2; US9319729B2; IL192420A0; IL192420A; US7956930B2; CN101366281A; US20130271651A1; CN102176748B; JP2012191655A; JP5590574B2; US20140269912A1; CA2635898A1; AU2010219337A1; KR20130041378A; EP1985120A2; CN101366281B; IL218145A0; RU2420915C2

Abstract

描述了在诸如空间可伸缩视频编码和解码的应用中为调整图像大小计算高精度位置的技术和工具。在一个方面，根据重新采样比例因子执行视频图像的重新采样。重新采样包括计算重新采样的阵列中位置i，j处的样本值。计算包括以涉及通过用上采样比例因子的逆(近似的或精确的)乘以2ⁿ值来对值的一部分进行近似的方式来计算导出的水平或垂直子样本位置x或y。近似可以是舍入或者某些其他类型的近似，诸如近似到邻近整数的取上限整数或取下限整数函数。使用滤波器对样本值进行内插。

Description

用于多分辨率视频编码和解码的重新采样和调整图像大小操作的方法

本申请是申请人于2007年1月8日提交的、申请号为“200780001989.6”(国际申请号为“PCT/US2007/000195”)的、发明名称为“用于多分辨率视频编码和解码的重新采样和调整图像大小操作的方法”的发明专利申请的分案申请。

技术领域

描述了用于编码/解码数字视频的技术和工具。

背景

随着DVD的日益流行，经因特网、数码相机、数字媒体传递音乐也变得愈发平常。工程师使用各种技术在维持质量的同时有效处理数字音频、视频和图像。为了理解这些技术，理解音频、视频和图像信息是如何在计算机内表示和处理是有帮助的。

I.计算机中媒体信息的表示

计算机将媒体信息作为表示该信息的一系列数字来处理。例如，单个数字可以表示图像的每个元素小区域的亮度强度和诸如红色、绿色或蓝色的色彩分量的强度，使得图像的数字表示由这些数字的一个或多个阵列组成。每个这样的数字可以被称为一个样本。对于彩色图像，习惯上用一个以上的样本来表示每个元素区域的颜色，通常使用三个样本。针对该元素区域的这些样本的集合可被称之为像素，其中单词“像素”指的是“图像元素”这一概念的缩写。例如，一个像素可以由显示元素区域所必须的表示红光、绿光和蓝光强度的三个样本组成。这一像素类型被称为RGB像素。若干因素影响媒体信息的质量，包括样本深度、分辨率和帧率(用于视频)。

样本深度是指示能够用来表示一样本的数量范围的通常以比特为单位测得的性质。当用于该样本的可能值越多，质量就越高，因为该数量能够捕捉更精细的强度变化和/或更大的值范围。分辨率通常指的是某一持续时间(对于音频)或空间(对于图像或单独的视频图像)内的样本数。空间分辨率更高的图像往往比其他图像看上去更明快，并且包含更多可辨别的有用细节。帧率是视频时间分辨率的常用术语。较高帧率的视频往往比其他视频更能模拟自然物体的平滑运动，并且也可以类似地认为其在时间维度上包含更多细节。鉴于所有这些因素，如下表1所示按照表示样本深度、分辨率和帧率所需的比特率，高质量对存储和传输信息的成本的折衷。

表1：原始视频不同质量级的比特率

不考虑存储和发送高质量视频(诸如HDTV)所需的高比特率，公司和消费者愈发依赖计算机来创建、分布和回放高质量内容。为此，工程师使用压缩(也称为源译码或源编码)来降低数字媒体的比特率。压缩通过将信息转换成更低比特率的形式而降低了信息存储和传送的成本。压缩可以是无损的，其中视频质量不受损害，但是比特率的降低受到视频复杂度的限制。或者，压缩可以是有损的，其中视频质量受到损害，但是比特率的降低更显著。解压(也被称为解码)从压缩形式中重构原始信息版本。“编解码器”是编码器/解码器系统。

一般而言，视频压缩技术包括“帧内”压缩和“帧间”或预测压缩。对于视频图像，帧内压缩技术压缩各个图像。帧间压缩技术参考在前和/或在后图像压缩图像。

II.多分辨率视频和空间可伸缩性

标准的视频编码器在目标比特率低于某一阈值时会经历大幅的性能劣化。量化和其他有损处理阶段引入失真。在低比特率的情况下，高频信息可能会严重失真或者完全丢失。结果是出现明显的伪像并使得重构视频的质量显著降低。虽然可用比特率随着传输和处理技术的改进而提升，但是以受限的比特率维持高视觉质量仍然是视频编解码设计的主要目标。现有的编解码器使用若干种方法来改善受限比特率下的视觉质量。

多分辨率编码允许以不同的空间分辨率来编码视频。分辨率降低的视频能够以信息损失为代价按足够低的比特率编码。例如，在前视频编码器可以下采样(使用下采样滤波器)全分辨率视频并在垂直和/或水平方向上以降低的分辨率对其进行编码。每个方向上分辨率降低一半使得经编码图像的大小维度缩小一半。编码器发信号通知解码器这一分辨率降低的编码。解码器接收指示分辨率降低编码的信息并从接收到的信息确定该分辨率降低的视频应被如何上采样(使用上采样滤波器)来在显示前增加其图像大小。然而，在编码器下采样和编码时就已损失的信息在经上采样的图像中仍然丢失。

空间可伸缩的视频使用多层方法，允许编码器在基层降低空间分辨率(并由此降低比特率)，同时在一个或多个增强层中维持来自源视频的更高分辨率的信息。例如，基层帧内图像可以用降低的分辨率编码，而伴随的增强层帧内图像则可以用更高分辨率编码。类似地，基层预测的图像可由增强层预测的图像伴随。解码器可以选择(鉴于比特率约束和/或其他准则)仅解码较低分辨率的基层以图像获得较低分辨率的重构图像，或者解码基层和增强层的图像以获得更高分辨率的重构图像。当以低于显示图像的分辨率对基层进行编码(也被称为下采样)时，经编码的图像大小实际上小于显示的图像。解码器执行计算以调整重构图像的大小并使用上采样滤波器在重构图像内的合适位置处生成内插样本值。然而，使用空间可伸缩视频的早先的编解码器已经由于非柔性的上采样滤波器以及不精确或昂贵(在计算时间或比特率方面)的调整图像大小技术而蒙受损失。

给定视频压缩和解压对于数字视频的关键重要性，视频压缩和解压是充分开发的领域并不令人惊奇。然而，不论早先的视频压缩和解压技术的好处如何，它们都没有以下技术和工具的优点。

发明内容

提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识要求保护的主题的关键特征或本质特征，也不旨在用于帮助限制要求保护的主题的范围。

在本概述中，详细描述涉及用于多分辨率和分层空间可伸缩视频编码和解码的各种技术和工具。

例如，详细描述涉及在诸如空间可伸缩视频编码和解码的应用中用于调整图像大小的高精度位置计算的各种技术和工具。描述了在诸如空间可伸缩视频编码和解码的应用中为调整图像大小高精度位置计算的技术和工具。在一个方面，根据重新采样比例因子执行视频图像的重新采样。重新采样包括计算重新采样阵列中位置i，j处的样本值。计算包括以涉及通过用上采样比例因子的逆(近似的或精确的)乘以2ⁿ值来对值的一部分进行近似(或者用2ⁿ值除以上采样比例因子或者对上采样比例因子的近似)的方式来计算导出的水平或垂直子样本位置x或y。指数n可以是包括表示分数分量位数的整数F在内的两个整数之和。近似可以是舍入或者某些其他类型的近似，诸如近似到邻近整数的取上限整数或取下限整数函数。使用滤波器对样本值进行内插。

所描述的技术的一些替换提供了变化的样本位置计算，在一个实现中提供计算中近似一个额外位的精度而不会明显改变该样本位置计算过程或其复杂性。所描述的技术的一些进一步替换涉及如何对4:2:2和4:4:4采样结构进行样本位置计算。用于这些采样结构的这些替换技术只要在色度和亮度采样网格的分辨率在一特定维度上相同就把亮度和色度样本位置计算锁定在一起。

当参考附图阅读以下各个实施例的详细描述时，可以清楚其它特征和优点。

附图说明

图1是可结合其实现所描述的若干实施例的合适的计算环境的框图。

图2是可结合其实现所描述的若干实施例的通用视频编码器系统的框图。

图3是可结合其实现所描述的若干实施例的通用视频解码器系统的框图。

图4是在所描述的若干实施例中使用的宏块格式的图示。

图5A是隔行扫描视频帧的一部分的图示，示出了上半帧和下半帧的交错行。图5B是为编码/解码组织为帧的隔行扫描视频帧的图示，且图5C是为编码/解码组织为半帧的隔行扫描视频帧的图示。

图5D示出了相对于视频帧每个半帧的亮度样本位置的4:2:0色度样本位置的六个示例性空间排列。

图6是示出了用于多分辨率视频编码的概括性技术的流程图。

图7是示出了用于多分辨率视频解码的概括性技术的流程图。

图8是示出了多分辨率帧内图像和帧间预测图像的多分辨率编码技术的流程图。

图9是示出了多分辨率帧内图像和帧间预测图像的多分辨率解码技术的流程图。

图10是示出了用于编码空间可伸缩比特流层以允许按不同分辨率解码视频的技术的流程图。

图11是示出了用于解码空间可伸缩比特流层以允许按不同分辨率解码视频的技术的流程图。

图12和13是示出了用于示例性多阶段位置计算技术的伪码的代码图。

图14是示出了用于示例性增量位置计算技术的伪码的代码图。

具体实施方式

描述的实施例涉及用于多分辨率的和分层的空间可伸缩视频编码和解码的技术和工具。

本文描述的各种技术和工具可以独立使用。某些技术和工具也可以结合使用(例如，在组合的编码和/或解码过程的各不同相位)。

如下将参考处理动作的流程图描述各种技术。在流程图中示出的各种处理动作可以合并为更少的动作或者分割成更多的动作。为了简明，在特定流程图中示出的各动作与在其它地方描述的各动作之间的关系通常不示出。在许多情况下，可以重排流程图中的动作。

大部分详细描述旨在表示、编码和解码视频信息。本文中描述的用于表示、编码和解码视频信息的技术和工具可以应用于音频信息、静止图像信息或其他媒体信息。

I.计算环境

图1示出了适合在其中实现所描述的若干实施例的合适计算环境100的一个通用示例。计算环境100并非旨在对使用范围或功能提出任何限制，因为这些技术和工具可以在完全不同的通用或专用计算环境中实现。

参考图1，计算环境100包括至少一个处理单元110和存储器120。在图1中，这一最基本配置130包括在虚线内。处理单元110执行计算机可执行指令，且可以是真实或虚拟处理器。在多处理系统中，多个处理单元执行计算机可执行指令以提高处理能力。存储器120可以是易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪存等)或两者的某一组合。存储器120储存用此处所描述的一个或多个技术或工具实现视频编码器或解码器的软件180。

计算环境可具有额外的特征。例如，计算环境100包括存储140、一个或多个输入设备150、一个或多个输出设备160以及一个或多个通信连接170。诸如总线、控制器或网络等互连机制(未示出)将计算环境100的组件互连。通常，操作系统软件(未示出)为在计算环境100中执行的其它软件提供了操作环境，并协调计算环境100的组件的活动。

存储140可以是可移动或不可移动的，且包括磁盘、磁带或磁带盒、CD-ROM、DVD、闪存或可用于储存信息并可在计算环境100内访问的任何其它介质。存储140储存用于软件180实现视频编码器或解码器的指令。

输入设备150可以是诸如键盘、鼠标、笔、触摸屏或跟踪球等触摸输入设备、语音输入设备、扫描设备或可向计算环境100提供输入的另一设备。对于音频或视频编码，输入设备150可以是声卡、显卡、TV调谐卡、或接受模拟或数字格式的音频或视频输入的类似的设备、或将音频或视频样值读入计算环境100的CD-ROM、CD-RW或DVD。输出设备160可以是显示器、打印机、扬声器、CD或DVD刻录机、或从计算环境100提供输出的另一设备。

通信连接170允许通过通信介质到另一计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频输入或输出、或已调制数据信号形式的其它数据等信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限，通信介质包括以电、光、RF、红外、声学或其它载波实现的有线或无线技术。

各种技术和工具可以在计算机可读介质的一般上下文中描述。计算机可读介质可以是可在计算环境内访问的任何可用介质。作为示例而非局限，对于计算环境100，计算机可读介质包括存储器120、存储140、通信介质以及上述任一个的组合。

各种技术和工具可以在诸如程序模块中所包括的在计算环境中的一个或多个目标真实或虚拟处理器上执行的计算机可执行指令的一般上下文中描述。一般而言，程序模块包括例程、程序、库、对象、类、组件、数据结构等，它们执行特定任务或实现特定抽象数据类型。程序模块的功能可以如各实施例中所需的组合或在程序模块之间分离。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。

为了呈现，详细描述使用了如“编码”、“解码”和“选择”等术语来描述计算环境中的计算机操作。这些术语是由计算机执行的操作的高级抽象，且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。

II.示例性视频编码器和解码器

图2是可结合其实现所描述的某些实施例的示例性视频编码器200的框图。图3是可结合其实现所描述的某些实施例的概括性视频解码器300的框图。

编码器200和解码器300内的模块之间所示的关系指示了编码器和解码器中的一般信息流；为简明起见，未示出其它关系。具体地，图2和3一般不示出指示用于视频序列、图像、片、宏块、块等的编码器设置、模式、表等辅助信息。这一辅助信息通常在该辅助信息的熵编码之后在输出比特流中发送。输出比特流的格式可以取决于实现变化。

编码器200和解码器300处理视频图像，视频图像可以是视频帧、视频半帧或帧和半帧的组合。图像和宏块级的比特流句法和语法可取决于使用了帧还是半帧。也可以对宏块组织和总体时序有改变。编码器200和解码器300是基于块的并且对帧使用4:2:0的宏块格式，其中每一宏块包括四个8×8的亮度块(有时候作为一个16×16的宏块来对待)以及两个8×8的色度块。对于半帧，可使用相同或不同的宏块组织和格式。8×8的块还可在不同阶段细分，例如在频率变换和熵编码阶段。示例性视频帧组织在以下更详细描述。或者，编码器200和解码器300是基于对象的，使用不同的宏块或块格式，或对与8×8的块和16×16的宏块不同大小或配置的样本集执行操作。

取决于所需的实现和压缩类型，编码器或解码器的模块可被添加、省略、分成多个模块、与其它模块组合、和/或用相似的模块来替代。在替换实施例中，具有不同模块和/或其它模块配置的编码器或解码器执行一个或多个所描述的技术。

A.视频帧组织

在某些实现中，编码器200和解码器300处理如下组织的视频帧。帧包含视频信号的空间信息行。对于逐行扫描视频，这些行包含表示从一同时刻立即采样一场景内容快照并从该帧上到下覆盖整幅场景的样值。逐行扫描视频帧被划分成诸如图4所示的宏块400等宏块。宏块400包括四个8×8的亮度块(Y1到Y4)以及两个8×8的色度块，这些色度块与四个亮度块共同定位，但是水平和垂直分辨率都是一半，遵循常规的4:2:0的宏块格式。8×8的块还可在不同阶段细分，例如在频率变换(例如，8x4、4x8或4x4DCT)和熵编码阶段。逐行扫描I帧是帧内编码的逐行扫描视频帧，其中术语“帧内”指的是不涉及从其他在前解码的图像内容进行预测的编码方法。逐行扫描P帧是使用从与当前图像时间上不同的时刻处的一个或多个图像的预测(在某些上下文中有时也称为前向预测)来编码的逐行扫描视频帧，而逐行扫描B帧是使用涉及在某些区域内(可能加权的)多个预测的平均的帧间预测(有时称为双预测或双向预测)来编码的逐行扫描视频帧。逐行扫描P帧和B帧可包括帧内编码宏块以及各种类型的帧间预测宏块。

隔行扫描视频帧由一场景的两种扫描类型的交替序列构成——一种包括帧的偶数行(行号为0、2、4等)，称之为上半帧，而另一种包括帧的奇数行(行号1、3、5等)，称之为下半帧。这两个半帧可表示两个不同的快照时间瞬间。图5A示出了隔行扫描视频帧500的一部分，包括位于隔行扫描视频帧500的左上部分的上半帧和下半帧的交替行。

图5B示出了为编码/解码组织为帧530的图5A的隔行扫描视频帧500。隔行扫描视频帧500已被划分成诸如宏块531和532等的宏块或其他这类区域，它们使用如图4所示的4:2:0的格式。在亮度平面中，每一宏块531、532包括来自上半帧的8行，这8行与来自下半帧的8行交替，总共有16行，且每一行是16个样本长。(将该图像实际组织到宏块或其他这类区域以及宏块531、532内亮度块和色度块的实际组织和布置未示出，且实际上对不同的编码决策以及对不同的视频编码设计可以有所变化。)在给定宏块内，上半帧信息和下半帧信息可以联合编码或在各相位处的任一个单独编码。

隔行扫描I帧是包括两个半帧的帧内编码的隔行扫描视频帧，其中每个宏块包括关于一个或两个半帧的信息。隔行扫描P帧是包括两个半帧的使用帧间预测编码的隔行扫描视频帧，其中每个宏块包括关于一个或两个半帧的信息，同隔行扫描B帧一样。隔行扫描P帧和B帧可包括帧内编码的宏块以及各种类型的帧间预测宏块。

图5C示出了为编码/解码而被组织成半帧560的图5A的隔行扫描视频帧500。隔行扫描视频帧500的两个半帧中的每一个被划分成宏块。上半帧被划分成诸如宏块561等的宏块，下半帧被划分成诸如宏块562等的宏块。(同样地，这些宏块也使用如图4所示的4:2:0格式，并且将图像组织到宏块或其他这类区域以及各宏块内亮度块和色度块的布置未示出且可以变化。)在亮度平面中，宏块561包括来自上半帧的16行，而宏块562包括来自下半帧的16行，且每一行是16个样本长。

隔行扫描I半帧是隔行扫描视频帧的单个单独表示的半帧。隔行扫描P半帧是使用帧间图像预测编码的隔行扫描视频帧的单个单独表示的半帧，同隔行扫描B半帧一样。隔行扫描P半帧和B半帧可包括帧内编码的宏块以及不同类型的帧间预测宏块。

为编码/解码组织为半帧的隔行扫描视频帧可包括不同半帧类型的各种组合。例如，这样的帧可在上半帧和下半帧两者中具有相同的半帧类型(I-半帧、P-半帧或B-半帧)，或者在每一半帧中具有不同的半帧类型。

术语图像一般指的是源、已编码或已重构图像数据的帧或半帧。对于逐行扫描视频，图像通常是逐行扫描视频帧。对于隔行扫描视频，图像取决于上下文可以指隔行扫描视频帧、帧的上半帧、或帧的下半帧。

或者，编码器200和解码器300是基于对象的，使用不同的宏块或格式(例如，4:2:2或4:4:4)或块格式，或对与8×8的块和16×16的宏块不同大小或配置的样本集执行操作。

B.视频编码器

图2是示例性视频编码器系统200的框图。编码器系统200接收包括当前图像205(例如，逐行扫描视频帧、隔行扫描视频帧或隔行扫描视频帧的半帧)的视频图像序列，并产生压缩的视频信息295作为输出。视频编码器的具体实施例通常使用示例编码器200的变化或补充版本。

编码器系统200为帧内编码(帧内)图像(I-图像)和帧间图像预测(帧间)图像(P或B图像)使用编码过程。为演示起见，图2示出了I图像的通过编码器系统200的路径以及用于帧间图像预测图像的路径。编码器系统200的许多组件用于同时压缩I图像和帧间预测图像两者。由这些组件执行的确切操作可以取决于所压缩的信息类型而变化。

帧间图像预测图像按照来自一个或多个其它图像(通常被称为参考图像)的预测(或差)来表示。预测残差是所预测的和原始图像之差。相反，I图像不参考其它图像来压缩。I图像可以使用空间预测或频域预测(即，帧间图像预测)从来自I图像本身其他部分的数据来预测I图像的某些部分。但为了简明，这些I图像在本文中将不被称为“预测”图像，因而短语“预测”图像可被理解为帧间图像预测图像(例如，P图像或B图像)。

如果当前图像205是预测图像，则运动估计器210估计当前图像205的宏块或其它样本集相对于一个或多个参考图像(例如，缓冲在图像存储220中的重构的前一图像225)的运动。运动估计器210可以相对于一个或多个时间上在前的参考图像和一个或多个时间上在将来的参考图像(例如，在双向预测图像的情况下)估计运动。因此，编码器系统200可使用单独的存储220和222用于多个参考图像。

运动估计器210可按照全样本、1/2样本、1/4样本或其它增量来估计运动，并可在逐图像的基础或其它基础上切换运动估计的分辨率。运动估计器210(和补偿器230)也可在每一帧或其它基础上在参考图像样本内插的类型之间切换(例如，在三次卷积内插和双线性内插之间)。运动估计的分辨率可以在水平和垂直上相同或不同。运动估计器210输出运动信息215，诸如差分运动矢量信息作为辅助信息。编码器200通过例如为运动矢量计算一个或多个预测值，计算运动矢量和预测值之间的差，以及对差进行熵编码，来对运动信息215进行编码。为重构运动矢量，运动补偿器230将预测值与运动矢量差信息组合。

运动补偿器230将重构的运动矢量应用于重构的图像225，以形成经运动补偿的预测235。然而，预测很少是完美的，且经运动补偿的预测235和原始的当前图像205之间的差是预测残差245。在稍后的图像重构期间，将预测残差245的近似添加到经运动补偿的预测235，以获得比经运动补偿预测235更接近于原始的当前图像205的重构图像。然而，在有损压缩中，某些信息仍从原始当前图像205中丢失。或者，运动估计器和运动补偿器应用另一类型的运动估计/补偿。

频率变换器260将空间域视频信息转换成频域(即，频谱)数据。对于基于块的视频编码，频率变换器260通常向样本数据或预测残差数据的块应用离散余弦变换(DCT)、DCT的变体或某些其它块变换，从而产生频域变换系数块。或者，频率变换器260应用诸如傅立叶变换等另一常规频率变换类型或使用小波或子带分析。频率变换器260可应用8×8、8×4、4×8、4×4或其它大小的频率变换。

量化器270随后量化频域变换系数块。量化器根据在逐图像的基础、宏块基础或某些其它基础上变化的量化步长向变换系数应用标量量化，其中量化步长是管理在解码器反量化器过程中在可离散表示重构点之间均匀隔开的间隔的控制参数，而这也可以在编码器反量化器过程276中重复。或者，量化器向频域变换系数应用另一类型的量化，例如带有非均匀重构点的标量量化器、矢量量化器或非自适应量化，或直接在不使用频率变换的编码器系统中量化空间域数据。除自适应量化之外，编码器200可为速率控制使用帧丢弃、自适应滤波或其它技术。

当需要重构的当前图像用于后续的运动估计/补偿时，反量化器276在量化的频域变换系数上执行反量化。反频率变换器266然后执行频率变换器260的逆运算，从而产生重构的预测残差的近似(对于预测图像)或重构的I图片的近似。如果当前图像205是I图像，则重构的I图像的近似用作重构的当前图像的近似(未示出)。如果当前图像205是预测图像，则重构的预测残差的近似被添加到经运动补偿的预测235，以形成重构的当前图像的近似。一个或多个图像存储220、222缓冲重构的当前图像的近似，以在后续图像的经运动补偿预测中用作参考图像。编码器可以在将图像近似存储到一个或多个图像存储220、222之前，向重构帧应用解块滤波器或其他图像细化过程以便自适应地平滑来自图像的不连续性并移除其它伪像。

熵编码器280压缩量化器270的输出以及某些辅助信息(例如，运动信息215、量化步长)。典型的熵编码技术包括算术编码、差分编码、哈夫曼编码、行程长度编码、Lempel-Ziv编码、字典式编码以及上述的组合。熵编码器280通常对不同种类的信息(例如，低频系数、高频系数、零频系数、不同种类的辅助信息)使用不同的编码技术，并可从特定编码技术内的多个代码表中进行选择。

熵编码器280向多路复用器[“MUX”]290提供压缩的视频信息295。MUX290可包括缓冲器，并且缓冲器完整性级别指示符可被反馈给比特率自适应模块用于速率控制。在MUX 290之前或之后，压缩的视频信息295可被信道编码用于通过网络发送。信道编码可向压缩的视频信息295应用检错和纠错数据。

C.视频解码器

图3是示例性视频解码器系统300的框图。解码器系统300接收关于压缩的视频图像序列的信息395，并产生包括重构的图像305(例如，逐行扫描视频帧、隔行扫描视频帧或隔行扫描视频帧的半帧)的输出。视频解码器的具体实施例通常使用概括性解码器300的变体或补充版本。

解码器系统300解压预测图像和I图像。为演示起见，图3示出了通过解码器系统300用于I图片的路径以及用于预测图像的路径。解码器系统300的许多组件用于解压I图像和预测图像两者。由这些组件执行的确切操作可以取决于所解压的信息类型而变化。

DEMUX 390接收关于压缩的视频序列的信息395，并使得所接收的信息对熵解码器380可用。DEMUX 390可包括抖动缓冲器以及其它缓冲器。在DEMUX 390之前或之中，压缩的视频信息可以被信道解码，并被处理用于检错和纠错。

熵解码器380对熵编码的量化数据以及熵编码的辅助信息(例如，运动信息315、量化步长)进行熵解码，通常应用编码器中执行的熵编码的逆运算。熵解码技术包括算术解码、差分解码、哈夫曼解码、行程长度解码、Lempel-Ziv解码、字典式解码以及上述的组合。熵解码器380通常对不同种类的信息(例如，低频系数、高频系数、零频系数、不同种类的辅助信息)使用不同的解码技术，并可从特定解码技术内的多个代码表中进行选择。

解码器300通过例如为运动矢量计算一个或多个预测值、对运动矢量差进行熵解码(在熵解码器380处)、以及将解码的运动矢量差与预测值组合以重构运动矢量，来对运动信息315进行解码。

运动补偿器330向一个或多个参考图像315应用运动信息325，以形成所重构的图像305的预测335。例如，运动补偿器330使用一个或多个宏块运动矢量以找出样本块或者在参考图像325中的样本之间内插分数位置。一个或多个图像存储(例如，图像存储320、322)存储先前重构的图像以用作参考图像。通常，B图像具有一个以上参考图像(例如，至少一个时间上先前的参考图像以及至少一个时间上未来的参考图像)。因此，解码器系统300可对多个参考图像使用单独的图像存储320和322。运动补偿器330可以按全样本、1/2样本、1/4样本或其它增量来补偿运动，并可在逐图像的基础或其它基础上切换运动补偿的分辨率。运动补偿器330也可在每一帧或其它基础上在参考图像样本内插的类型之间(例如，在三次卷积内插和双线性内插之间)切换。运动补偿的分辨率可以在水平和垂直上相同或不同。或者，运动补偿器应用另一类型的运动补偿。运动补偿器的预测很少是完美的，因此解码器300也重构预测残差。

反量化器370对熵解码的数据进行反量化。一般而言，反量化器向熵解码的数据应用均匀的标量反量化，其中重构步长在逐图像的基础上、宏块基础上或某些其它基础上变化。或者，反量化器向数据应用另一类型的反量化，例如用于在非均匀矢量或非自适应反量化，或直接在不使用反频率变换的解码器系统中对空间域数据进行反量化。

反频率变换器360将反量化频域变换系数转换成空间域视频信息。对于基于块的视频图像，反频率变换器360向频率变换系数块应用反DCT[“IDCT”]、IDCT的变体或其它反块变换，从而分别对I图像或预测图像产生样本数据或帧间图像预测残差数据。或者，反频率变换器360应用另一类型的反频率变换，诸如傅立叶反变换或使用小波或子带合成。反频率变换器360可应用8×8、8×4、4×8、4×4或其它大小的反频率变换。

对于预测图像，解码器300将重构的预测残差345与经运动补偿的预测335组合，以形成重构的图像305。当解码器需要重构的图像305用于后续的运动补偿时，一个或多个图像存储(例如，图像存储320)缓冲重构的图像305以供预测下一图像时使用。在某些实施例中，解码器300可以在将重构图像305存储到一个或多个图像存储(例如，图像存储320)之前或者在解码视频放出期间显示解码图像之前，向重构图像应用解块滤波器或其他图像细化过程以便自适应地平滑来自图像的不连续性并移除其它伪像。

III.多分辨率编码和解码的概览

视频可以按不同的分辨率编码(和解码)。出于本描述的目的，多分辨率编码和解码可以被描述为基于帧的编码和解码(例如，参考图像重新采样)或者分层的(有时也称为可空间缩放的)编码和解码。多分辨率编码和解码还可以涉及隔行扫描视频、基于半帧的编码和解码、以及在指定分辨率基础上或某些其他基础上在基于帧和基于半帧的编码和解码之间的切换。然而，在此概览中出于简化概念描述的目的讨论了进行逐行扫描视频的帧编码。

A.基于帧的多分辨率编码和解码

在基于帧的多分辨率编码中，编码器以不同的分辨率编码输入图像。编码器在逐图像的基础上或在某些其他基础上为各图像选择空间分辨率。例如，在参考图像重新采样时，如果该图像以不同于当前编码的分辨率编码则可以对该参考图像进行重新采样。术语重新采样用于描述用于表示图像区域或者采样信号的某些其他部分的样本数增加(上采样)或降低(下采样)。每单位面积或者每信号部分的样本数被称为采样的分辨率。

空间分辨率可以基于例如可用比特率的减小/增大、量化步长的的减小/增大、输入视频内容运动量的减小/增大、视频内容的其他属性(例如，在较低分辨率下可能会明显失真的强边缘、文本或其他内容的呈现)或在某些其他基础上来选择。空间分辨率可以在垂直、水平或者垂直和水平维度两者上变化。水平分辨率可以与垂直分辨率相同或不同。解码器使用互补技术对编码帧进行解码。

一旦编码器已经为当前图像或者当前图像内的区域选择了空间分辨率，编码器将在对原始图像编码前将其重新采样至期望的分辨率。编码器随后可以发信号通知解码器这一空间分辨率的选择。

图6示出了基于帧的多分辨率图像编码的技术(600)。诸如图2所示编码器的编码器为一图像设置分辨率(610)。例如，编码器考虑以上列出准则或其他准则。编码器随后按此分频率编码图像(620)。如果完成了要编码的所有图像的编码(630)，则编码器退出。如果没有，则编码器就为下一幅图像设置分辨率(610)并继续编码。作为替换，编码器可以在图像级以外的某些级别上设置分辨率，诸如为图像的不同部分不同地设置分辨率或者为一组或一系列图像作出分辨率选择。

编码器可以编码预测图像以及帧内图像。图8示出了基于帧的多分辨率帧内图像和图像间预测图像编码的技术(800)。首先，编码器在810检查要编码的当前图像是帧内图像还是预测图像。如果当前图像是帧内图像，编码器就在820设置针对当前图像的分辨率。如果图像是预测图像，编码器就在830针对当前图像设置分辨率之前设置针对参考图像的分辨率。在为当前图像设置分辨率之后，编码器就按该分辨率编码当前图像(840)。为一图像设置分辨率(无论是当前源图像或者是存储的参考图像)可涉及对该图像的重新采样以便与所选分辨率相匹配并且可以涉及对信号进行编码以将该所选分辨率指示给解码器。如果完成了要编码的所有图像的编码(850)，则编码器退出。如果没有，编码器继续编码另外的图像。作为替换，编码器以不同的方式处理预测图像。

解码器对经编码图像进行解码，并且如有必要，在显示前重新采样该图像。与经编码的图像的分辨率相类似，解码图像的分辨率可以用许多不同方式调整。例如，解码图像的分辨率可被调整为适应输出显示设备或者输出显示设备一区域(例如，用于“画中画”或PC桌面窗口显示)的分辨率。

图7示出了基于帧的多分辨率图像解码的技术(700)。诸如图3所示解码器的解码器为图像设置分辨率(在710)。例如，解码器从编码器获取分辨率信息。解码器随后按此分频率解码图像(720)。如果完成了要解码的所有图像的编码(730)，则解码器退出。如果没有，则解码器就为下一幅图像设置分辨率(710)并继续解码。作为替换，解码器在图像级以外的某些级别上设置分辨率。

解码器可以解码预测图像以及帧内图像。图9示出了基于帧的多分辨率帧内图像和预测图像解码的技术(900)。

首先，解码器检查要解码的当前图像是帧内图像还是预测图像(910)。如果当前图像是帧内图像，解码器设置针对当前图像的分辨率(920)。如果图像是预测图像，编码器就在针对当前图像设置分辨率(920)之前设置针对参考图像的分辨率(930)。设置参考图像的分辨率可以涉及对存储的参考图像进行重新采样以匹配所选分辨率。在为当前图像设置分辨率(920)之后，解码器就按该分辨率解码当前图像(940)。如果完成了要解码的所有图像的解码(950)，则解码器退出。如果没有，解码器继续解码。

解码器通常按编码器使用的同一分辨率来解码图像。作为替换，解码器可以按不同的分辨率解码图像，诸如在解码器可用的分辨率无法与编码器中使用的分辨率完全相同的情况下。

B.分层的多分辨率编码和解码

在分层的多分辨率编码中，编码器在各层中编码视频，其中各层具有按不同分辨率解码视频的信息。以此方式，编码器以一个以上的分辨率来对视频内的至少某些独立图像进行编码。解码器随后可以通过处理各层的不同组合来按一个或多个分辨率解码该视频。例如，第一层(有时被称为基层)含有用于按较低分辨率解码视频的信息，而一个或多个其他层(有时被称为增强层)含有用于按较高分辨率解码视频的信息。

可以将基层本身设计为可独立解码的比特流。于是，在这一设计中，仅解码基层的解码器将按基层的较低分辨率生成有效解码的比特流。使用增强层恰当解码较高分辨率图像可能还需要解码部分或全部的经编码基层数据以及可能的一个或多个增强层。解码基层和一个或多个其他更高分辨率层的解码器将能够比仅解码基层的解码器生成更高分辨率的内容。两、三或更多层可用来允许两、三或更多不同的分辨率。作为替换，更高分辨率层本身也可以是能独立解码的比特流。(这一设计通常被称为同时联播多分辨率编码方法。)

图10示出了用于编码比特流层以便允许按不同分辨率解码的技术(1000)。诸如图2所示编码器200的编码器获取全分辨率视频信息作为输入(1010)。编码器下采样全分辨率视频信息(1020)并使用下采样信息编码基层(1030)。编码器使用基层和更高分辨率视频信息编码一个或多个更高分辨率层(1040)。更高分辨率层可以是允许按全分辨率解码的层或者是按某一中间分辨率解码的层。编码器随后输出包括两个以上编码层的分层比特流。作为替换，更高分辨率层的编码(1040)可能不使用基层信息，于是就能够为同时联播多分辨率编码方法来独立解码更高分辨率层的数据。

编码器能够按照图10所示的基本概要用各种方式来实现多分辨率层的编码。更多信息，请参见例如美国专利No.6,510,177，或者MPEG-2标准或其他视频标准。

图11示出了用于解码比特流层以便允许按不同分辨率解码视频的技术(1100)。诸如图3所示解码器300的解码器获取分层比特流作为输入(1110)。各层包括较低分辨率层(基层)和一个或多个包含更高分辨率信息的层。更高分辨率层无需包含可独立编码的图像；一般而言，更高分辨率层包括描述各图像较高和较低分辨率版本之间差异的残差信息。解码器解码基层(1120)，并且如果期望更高分辨率的解码，则解码器将解码的基层图像下采样至期望的分辨率(1130)。解码器解码一个或多个较高分辨率层(1140)并将解码的较高分辨率信息与下采样的解码基层图片相结合以形成较高分辨率的图像(1150)。取决于期望的分辨率级，更高分辨率图像可以是全分辨率图像或者中间分辨率图像。更多信息，请参见例如美国专利No.6,510,177，或者MPEG-2标准或其他视频标准。

解码器通常按编码器使用分辨率之一来解码图像。作为替换，解码器可用的分辨率可以不与编码器中使用的分辨率完全相同。

IV.可伸缩视频编码和解码的重新采样滤波器

这一部分描述用于可伸缩视频编码和解码的技术和工具。虽然所述的一些技术和工具是在分层(或空间可伸缩)的上下文中描述的，但是所述的一些技术和工具也可以在基于帧(或者参考图像采样)的上下文中或者在涉及重新采样滤波器的某些其他上下文中使用。此外，虽然所述的一些技术和工具可以在重新采样图像的上下文中描述，但是所述的一些技术和工具也可以用于对来自更高分辨率信号预测的残差或差分信号进行重新采样。

可伸缩视频编码(SVC)是允许对一较大比特流的子集进行解码以生成其帧质量在某些应用中可接受的解码图像(虽然这些图像质量要低于解码整个较高比特率比特流而生成的质量)的一种数字视频编码类型。一种周知类型的SVC被称为空间可伸缩性，或者分辨率可伸缩性。在空间SVC设计中，编码过程(或者在编码过程前执行的预处理功能，这取决于编码过程范围的精确定义)通常包括将该视频下采样至一较低分辨率并对该较低分辨率视频进行编码以启用较低分辨率解码过程，同时上采样该较低分辨率的解码图像来用作更高分辨率视频图像中各样本值的预测。针对更高分辨率视频的解码过程随后包括解码较低分辨率视频(或其部分)，并使用上采样的视频作为更高分辨率视频图像中各样本值的预测。这些设计要求使用重新采样滤波器。更具体地，编解码器的设计包括在解码器和编码器两者中使用上采样滤波器并在编码器或编码预处理器中使用下采样滤波器。对这类设计中使用的上采样滤波器予以特别关注。一般而言，上采样过程被设计为在编码器和解码器中相同以防止漂移现象，所谓漂移是由于在编码和解码期间使用同一信号的不同预测而导致的误差累积。

某些空间SVC设计的一大缺点是在解码过程中使用低质量滤波器(例如，双抽头双线性滤波器)。使用更高质量的滤波器会有益于视频质量。

空间SVC可以包括能在滤波器的重新采样比率内实现更高程度灵活性的重新采样滤波器。然而，这可能需要在编码器和解码器实现中针对要开发的这一滤波器的每个不同“相位”以及要存储的这些滤波器的“抽头”值的大量特定的滤波器设计。

此外，这对视频质量有益以允许编码器控制用于空间SVC的重新采样滤波器的模糊的量。于是，对设计用于上采样或下采样的重新采样的每个“相位”，取决于要在该过程中引入的模糊的期望程度来从若干不同的滤波器进行的选择会是有利的。要在上采样期间执行的模糊程度的选择可以作为传达以供解码过程使用的信息而从编码器发送至解码器。这一额外的灵活性使设计进一步复杂，因为它大幅增加来需要在编码器或解码器中存储的必要抽头值的数量。

可以使用统一的设计来指定具有各种相位和各种模糊程度的各种重新采样的滤波器。一种可能的解决方案是使用Mitchell-Netravali滤波器设计方法。Mitchell-Netravali滤波器设计方法对这些问题的直接应用可能会以针对要在编码器或解码器中计算的量的过大可能值动态范围的形式来要求过多的计算资源。例如，一种这样的设计可能要求使用45位算术处理，而不是在通用CPU和DSP中常用的16位或32位处理元件。为解决这一问题，提供了一些设计改进。

典型的SVC设计要求针对空间可伸缩性的标准化上采样滤波器。为了支持任意重新采样比率(已知为扩展的空间可伸缩性特征)，描述了一种结合了关于重新采样比率的大量灵活性的上采样滤波器设计。另一个关键方面是亮度和色度的相对对准。当在单层方法中发现各种对准结构(参见例如针对4:2:0色度的H.261/MPEG-1相对于MPEG-2对准以及H.264/MPEG-4AVC)时，所描述的技术和工具以一种编码器能够轻易向解码器指示如何恰当应用滤波的方式支持各类灵活对准。

所述的技术和工具包括能够进行高质量上采样和良好抗图形失真的上采样滤波器。更具体地，所描述的技术和工具具有的质量要优于由在前针对空间可伸缩性的双线性滤波器设计提供的质量。所描述的技术和工具具有视觉上合意并能提供良好信号处理频率行为的高质量上采样滤波器。所描述的技术和工具包括指定简单且不要求大型存储器存储表来保持抽头值的滤波器设计，并且滤波操作本身在计算上也操作简单。例如，所描述的技术和工具具有不过于冗长且不要求过度数学精度或极度复杂数学函数的滤波器。

这一部分描述具有一个或多个下列特征的设计：

-亮度/色度相位对准的灵活性；

-重新采样比率的灵活性；

-频率特性的灵活性；

-高视觉质量；

-不太少也不太多的滤波器抽头(例如，在4到6之间)；

-指定简单；

-操作简单(例如，使用实用字长的算术)。

A.Mitchell-Netravali上采样滤波器

所描述的技术和工具采用可分的滤波方法——因此随后的讨论将主要集中在一维信号的处理，因为二维情况是一维情况的简单可分应用。首先基于由下式给出的概念连续脉冲响应h(x)提出一组两参数滤波器集合：

h (x) = \frac{1}{6} * \{\begin{matrix} (12 - 9 b - 6 c) {| x |}^{3} - (18 - 12 b - 6 c) {| x |}^{2} + (6 - 2 b) & | x | < 1 \\ - (b + 6 c) {| x |}^{3} + (6 b + 30 c) {| x |}^{2} - (12 b + 48 c) | x | + (8 b + 24 c) & 1 \leq | x | < 2 \\ 0 & otherwise \end{matrix} - - - (1),

其中b和c是那两个参数(otherwise即其他)。对于相对相位偏移量位置0≤x＜1，该核生成由以下矩阵等式给出的抽头值的4抽头有限脉冲响应(FIR)滤波器：

\frac{1}{6} * [\begin{matrix} 1 & x & x^{2} & x^{3} \end{matrix}] * [\begin{matrix} b & 6 - 2 b & b & 0 \\ - (3 b + 6 c) & 0 & 3 b + 6 c & 0 \\ 3 b + 12 c & - 15 + 12 b + 6 c & 18 - 15 b - 12 c & - 6 c \\ - (b + 6 c) & 12 - 9 b - 6 c & - (12 - 9 b - 6 c) & b + 6 c \end{matrix}] - - - (2)

实际上，只有考虑x的范围从0到1/2就够了，因为用于x的FIR滤波器核完全就是逆序的用于1-x的FIR滤波器核。

这一设计具有多个感兴趣且有用的属性。如下列出其中的一部分：

-计算该滤波器抽头值不需要三角函数、超越函数或者无理数处理。实际上，这一滤波器的抽头值可以用很少的简单操作直接计算。没有必要为要使用的各种可能参数值和相位存储这些抽头值，因为在需要是可以简单计算这些值。(因此，为了标准化这些滤波器的使用，只需要少量公式——而不需要对类似余弦或贝塞尔函数的近似函数的多次或标准化尝试的大型表。

-所得的滤波器具有4个抽头。这是非常实用的数目。

-滤波器在其主波瓣的每一侧只有单个旁瓣。于是就不会生成过度的边缘振荡效应。

-滤波器具有平滑的脉冲响应。其值及其一阶导数都是连续的。

-它具有单位增益DC响应，意味着被上采样的信息种不存在整体的亮度放大或衰减。

-这些滤波器系列的成员包括对周知良好滤波器的相对良好的近似，诸如“Lanczos-2”设计和“Catmull-Rom”设计。

此外，所描述的技术和工具包括在用于选择视觉合意滤波器的两参数之间的特定关系。这一关系可如下表达为：

c = \frac{1}{2} (1 - b) - - - (3)

这将自由度降低至单个带宽控制参数b。这一参数控制由滤波器引入的额外模糊程度。注意与值b＝0相关联的这一系列的成员是优秀且周知的Catmull-Rom上采样滤波器(也被称为密钥“三次卷积”内插滤波器)。

除了Mitchell-Netravali滤波器系列的所有成员都能找到的基本优点之外，Catmull-Rom上采样滤波器本身还具有诸多良好的属性：

-它是“内插”滤波器——即，对于相位值x＝0和x＝1而言，滤波器具有等于1的单个非零抽头。换句话说，上采样信号将会正好在每个上采样曲线段的边缘处通过输入样本的值。

-如果输入样本的设置形成抛物线(或直线或静态值)，输出点将正好落在抛物线曲线(或直线或静态值)上。

实际上，用某些方式，Catmull-Rom上采样器出于这些原因可被认为是这一长度的最佳上采样滤波器——虽然引入某些额外模糊(增加b)有时可能更为视觉合意。同样地，引入某些额外模糊可以有助于抹掉低比特率压缩伪像，于是就能够更相似地充当真实上采样图像的Wiener滤波器(用于噪声滤波的周知滤波器)估计器。

简单地将等式(3)代入等式(2)可得如下抽头值：

\frac{1}{6} * [\begin{matrix} 1 & x & x^{2} & x^{3} \end{matrix}] * [\begin{matrix} b & 6 - 2 b & b & 0 \\ - 3 & 0 & 3 & 0 \\ 6 - 3 b & - 15 + 9 b & 12 - 9 b & - 3 + 3 b \\ - (3 - 2 b) & 9 - 6 b & - (9 - 6 b) & 3 - 2 b \end{matrix}] - - - (4) .

据报告，基于9位专家观察者和超过500个样本的主观性测试，可得：

-可用范围被报告为0≤b≤5/3；

-0≤b≤1/2被归类为视觉上“令人满意”，当b＝1/3时报告为视觉合意；

-b＞1/2被归类为“模糊”，当b＝3/2时报告为非常模糊

B.带宽控制参数的整数化

在等式(4)中被6除可能是不合宜的。相反，希望整数化带宽控制参数和滤波器抽头值，因为作为解码器设计一部分的无限精度是不可行的。考虑使用如下定义的新整数值变量a代入：

a＝(b/6)*2^S (5)，

其中S是整数移位因子而a是用作整数化带宽控制参数的无符号整数。参数a可以由编码器在比特流中的视频序列级处编码为语法元素。例如，参数a可以用可变长度或固定长度代码来显式编码，共同地用其他信息编码，或者显式地作为信号通知。可选地，参数a可以在比特流中的某些其他级处作为信号通知。

整数化导致整数化的抽头值：

[\begin{matrix} 1 & x & x^{2} & x^{3} \end{matrix}] * [\begin{matrix} a & 2^{S} - 2 a & a & 0 \\ - 2^{S - 1} & 0 & 2^{S - 1} & 0 \\ 2^{S} - 3 a & - 5 * 2^{S - 1} + 9 a & 2^{S + 1} - 9 a & - 2^{S - 1} + 3 a \\ - (2^{S - 1} - 2 a) & 3 * 2^{S - 1} - 6 a & - (3 * 2^{S - 1} - 6 a) & 2^{S - 1} - 2 a \end{matrix}] - - - (6)

该结果随后需要在二进制算术处理中按比例减小S个位置。

如果a的范围从0到M，b的范围则从0到6*M/2^S。对M的某些可能有用的选择包括以下各项：

-M＝2^(S-2)-1，得到b的范围从0到3/2-6/2^S。

-M＝Ceil(2^S/6)，返回大于或等于2^S/6的最小整数，得到b的范围从0到略大于1。

-M＝2^(S-3)-1，导致b的近似范围从0到3/4-6/2^S。

这些对M的选择大到足以覆盖大多数有用情况，其中第一个选择(M＝2^(S-2)-1)是三个选择中较大的。S的有用范围在6到8之间。例如，考虑S＝7和M＝2(S-2)-1，即M＝31。作为替换，也可以使用M和S的其他值。

C.分数样本定位的整数化

接下来，考虑x值的粒度。为了实用性，也应该近似x。例如，可以如下定义整数i：

x＝i÷2^F (7)

其中F表示所支持的分数样本位置精度。对于一个足够精确的重新采样操作示例而言，考虑F≥4(1/16或更高的样本定位精度)。这就得到以下的整数化滤波器抽头值：

[\begin{matrix} 1 & i & i^{2} & i^{3} \end{matrix}] * [\begin{matrix} a * 2^{3 F} & (2^{S} - 2 a) * 2^{3 F} & a * 2^{3 F} & 0 \\ - 2^{2 F + S - 1} & 0 & 2^{2 F + S - 1} & 0 \\ (2^{S} - 3 a) * 2^{F} & (- 5 * 2^{S - 1} + 9 a) * 2^{F} & (2^{S + 1} - 9 a) * 2^{F} & (- 2^{S - 1} + 3 a) * 2^{F} \\ - (2^{S - 1} - 2 a) & 3 * 2^{S - 1} - 6 a & - (3 * 2^{S - 1} - 6 a) & 2^{S - 1} - 2 a \end{matrix}] - - - (8)

例如，考虑F＝4。该结果随后需要按比例减小3F+S个位置。

注意到上述矩阵中的每个元都含有因子2(假设S大于1)。于是能够如下代替地将抽头值公式化为：

[\begin{matrix} 1 & i & i^{2} & i^{3} \end{matrix}] * [\begin{matrix} a * 2^{3 F - 1} & (2^{S - 1} - a) * 2^{3 F} & a * 2^{3 F - 1} & 0 \\ - 2^{2 F + S - 2} & 0 & 2^{2 F + S - 2} & 0 \\ (2^{S} - 3 a) * 2^{F - 1} & (- 5 * 2^{S - 1} + 9 a) * 2^{F - 1} & (2^{S + 1} - 9 a) * 2^{F - 1} & (- 2^{S - 1} + 3 a) * 2^{F - 1} \\ - (2^{S - 2} - a) & 3 * (2^{S - 2} - a) & - 3 * (2^{S - 2} - a) & 2^{S - 2} - a \end{matrix}] - - - (9),

其中每个抽头值都已被除以2。该结果随后仅需要按比例减小3F+S-1个位置。

对于按比例减小，定义函数RoundingRightShift(p，R)作为为输入值p计算的右移R位的输出(带舍入)，其计算如下：

RoundingRightShift (p, R) \{\begin{matrix} (p + 2^{R - 1}) > > R & for & R = 2,3,4, . . . \\ (p) > > R & for & R = 0 or 1 \end{matrix} - - - (10)

其中符号“＞＞”指的是使用2的补码二进制算术的二进制算术右移算符。作为替换，不同地执行舍入右移。

如下提供舍入右移的一些示例性应用。

D.动态范围考虑

如果用N位样本位长度滤波图像并在执行任何舍入之前两维地这般执行，那么在将结果按比例减小2*(3F+S-1)个位置并将输出限制为N位范围之前，将会在累加器内需要2*(3F+S-1)+N+1位的动态范围。例如，如果F＝4，S＝7且N＝8，则需要使用45位的累加器来计算滤波的结果。

会在以下各分段中讨论一些缓解这一问题的方法。这些方法可以彼此分开或彼此结合使用。应该理解基于本文对所述动态范围缓解方法进行变化是可能的。

1.第一示例性动态范围缓解方法

考虑首先执行水平滤波随后进行垂直滤波的示例。考虑对二维处理流水线中任何点的W位最大字长。在第一动态范围缓解方法中，为了实现滤波，在该过程的第一(水平)阶段输出处使用R_H位舍入右移，而在该过程的第二(垂直)阶段输出处使用R_V位舍入右移。

于是可以如下计算：

2*(3F+S-1)+N+1-R_H＝W (11)，

因此

R_H＝2*(3F+S-1)+N+1-W (12).

随后从下式计算第二(垂直)阶段的右移：

R_H+R_V＝2*(3F+S-1) (13)，

因此

R_V＝2*(3F+S-1)-R_H. (14).

例如，对于F＝4且S＝7且N＝8且W＝32，得到R_H＝13且R_V＝23。于是，代替45位的动态范围，用舍入右移将动态范围缩减到32位。可以为不同的W值使用不同的右移位数。

2.第二示例性动态范围缓解方法

第二动态范围缓解方法涉及降低抽头值的精度而非该相位定位的精度(即，缩减F)，降低滤波器带宽调整参数的粒度(即，缩减S)或降低第一阶段输出的精度(即，增加R_H)。

将等式(9)生成的四个整数抽头值表示为[t-1，t₀，t₁，t₂]。注意到四个滤波器抽头值之和将会等于2^3F+S-1，即：t_-1+t₀+t₁+t₂＝2^3F+S-1

(15).

这是该示例性动态范围缓解方法的一个重要性质，因为只要当四个输入样本具有相同的值，输出就会具有相同的值。

使用在等式(10)中找出的舍入右移的示例性定义并给出用于抽头值的右移量R_t，则如下定义：

u_-1＝RoundingRightShift(t_-1，R_t)；

u₁＝RoundingRightShift(t₁，R_t)；

u₂＝RoundingRightShift(t₂，R_t)；

u₀＝2^3F+S-1-u_-1-u₁-u₂.

随后用抽头值[u_-1，u₀，u₁，u₂]而非[t_-1，t₀，t₁，t₂]来执行滤波。R_t的值每增加1就表示算术累加器中所需的动态范围减少1位，同时在后续处理阶段中要执行的右移也减少1位。

3.第三示例性动态范围缓解方法

前一设计使用类似于第一示例性动态范围缓解方法概念的手段，不同之处在于它在该过程的第一阶段之后让右移量作为相位定位变量i值的函数。

可以认识到当i的值是2^K的整数倍时，等式(9)所示的滤波器抽头值将含有K个零值LSB。于是，如果滤波过程的第二阶段使用2^K整数倍的相位定位变量i，那么就可以将第二阶段的抽头值右移K位并将第一阶段的右移量减小K位。

这在操作一般的重新采样因子时将变得相当难以跟踪。然而，当执行2∶1的简单重新采样因子或其他简单因子时，很容易确认在滤波过程第二阶段中使用的所有相位都含有相同的乘数2^K，从而允许将该方法应用于这些特定的情况。

V.位置计算的技术和工具

描述了为空间SVC计算定位信息的技术和工具。

一些技术和工具涉及如何聚焦于字长B并在该字长约束内优化计算精度。并非只是选择精度并要求一些必要的字长，应用这一新方法会在真实实现中得到更高的精度并将拓宽该技术的有效应用范围，因为它使用所有可用字长来最大化该约束内的准确性。

一些技术和工具涉及a)偏移坐标系的原点以及b)使用无符号整数而非带符号整数以实现精度和字长/动态范围之间更好的折衷。需要增加少量的计算用以将原点偏移项加入每个计算的位置。

一些技术和工具涉及将要生成样本串的各不同部分的计算打入处理的不同阶段，其中坐标系的原点在每阶段开始时改变。同样地，它用另一个少量计算要求的增加(因为在每阶段开始时执行某些额外计算)来提供精度和字长/动态范围之间更好的折衷。如果到达该技术的逻辑极值，就能够排除对乘法操作的需要，从而进一步改进精度和字长/动态范围之间的折衷。然而，将会需要为每个样本执行某些额外的操作(因为“每一阶段”所需的额外计算在每阶段仅含一个样本的情况下就变成为每个样本所需)。

作为一概括主题，描述的设计用于该处理位置计算部分以实现计算结果的精度、处理元素的字长/动态范围、以及处理中涉及数学操作的次数和类型(例如，移位、加法和乘法操作)之间理想的折衷。

例如，所描述的技术和工具允许使用B位(例如，32位)算术的灵活精度计算。这允许空间SVC编码器/解码器灵活适应不同的图像大小而无需为了计算转换成不同的算术(例如，16位或64位算术)。使用灵活精度B位(例如，32位)算术，编码器/解码器能够将灵活位数用于分数分量。这允许随着表示整数分量所需的位数降低(例如，对于较小的帧大小)而增加计算精度。随着表示整数分量的所需位数的增加(例如，对于较大的帧大小)，编码器/解码器能够为整数分量使用更多位而为分数分量使用更少位，从而降低精度但维持B位算术。由此就能大大简化不同精度和不同帧大小之间的变化。

这一部分包括用于一示例性实现的具体细节。然而，应该注意到本文描述的具体细节可以依据在此描述的原则而在其他实现中有所变化。

A.介绍和位置计算原则

描述了用于计算位置和相位信息以实现低得多的计算要求而无需任何显著准确性损失的技术。例如，所描述的技术能够显著降低计算要求，例如通过动态降低额定动态范围要求(例如，降低几十位)。考虑可在基层和增强层中使用的各种可能的色度位置，期望找出一种提供重新采样色度样本相对于亮度样本的合适定位的解决方案。因此，所描述的技术允许用亮度和色度位置之间的不同关系来作出调整以计算视频格式的位置。

为扩展空间可伸缩性设计的在前的上采样方法使用一种相当麻烦的方法来计算上采样低分辨率层时的位置和相位信息；它按比例缩放分母的上移近似逆，从而在分子增加时(即，在上采样过程从左向右或从上往下移时)导致了反演近似中舍入误差的放大通过比较，本文描述的技术具有卓越的准确性和简化的计算。更具体地，所述技术使得动态范围和位置计算中的右移量减小了几十位。

例如，描述的一种技术用于计算位置信息来获取整数位置和相位定位变量i，其中i＝0..2^F-1，以便在SVC空间上采样中使用。

所描述的技术将重新采样过程应用于空间可伸缩视频编码应用，而非前向参考图像重新采样。在这一空间可伸缩编码的应用中，可以应用某些简化。并非是普通的变形过程，只需要调整图像大小操作。这可以是针对每一维度分开的设计。

B.位置计算设计

考虑问题陈述，在每一维度(x或y)中，因为样本串的生成概念地处于新的(上采样的)阵列中实值从L至R＞L的范围。这一实值范围对应于参考低分辨率阵列中从从L′至R′＞L′的范围。

对于在新阵列中的位置T其中L≤T≤R，于是需要计算对应于该新阵列中位置的参考阵列中的位置。这会是位置T′＝L′+(T-L)*(R′-L′)÷(R-L)。

现在代替考虑调整从L至R的范围大小，定义整数M＞0并且考虑通过相同的大小调整比率(R′-L′)÷(R-L)来调整从L至L+2^M的范围大小。参考样本坐标中对应的范围则是从L′至R″，其中R″＝L′+2^M*(R′-L′)÷(R-L)。如果M足够大，即if M≥Ceil(Log₂(R-L))，则R″≥R′。(目前假设维持这一约束以解释以下概念，虽然这一约束对于等式的适当功能并不真是必需的。)

现在能够为定位计算使用位置L′和R″之间的线性内插。位置L被映射至位置L′，并且位置T≥L被映射至位置((2^M-(T-L))*L′+(T-L)*R″)÷2^M。这将操作的分母转换为2的幂，从而通过允许用二进制右移代替除法操作而降低了除法操作的计算复杂性。

可以作出适当修改来整数化这一计算。将L′和R″的值舍入为1÷2^G的整数倍，其中G是整数，使得L′由k÷2^G近似，而R″由r÷2^G近似，其中k和r是整数。使用这一调整，就能将位置T映射至位置((2^M-(T-L))*k+(T-L)*r)÷2^(M+G)。

现在假设T和L的相关值是1÷2^J的整数倍，其中J是整数，使得T-L＝j÷2^J。使用这一调整，就能将位置T映射至位置((2^(M+J)-j)*k+j*r)÷2^(M+G+J)。

回想以上部分IV，重新采样滤波器的分数相位可以是单位为1÷2^F的整数。所以在这些单位中，算出的位置是Round(((2^(M+J)-j)*k+j*r)÷2^(M+G+J-F))，或者

t′＝((2^(M+J)-j)*k+j*r+2^(M+G+J-F-1))＞＞(M+G+J-F) (16)，

或者，更简单地，

t′＝(j*C+D)＞＞S (17)，

其中

S＝M+G+J-F (18)，

C＝r-k (19)，

D＝(k＜＜(M+J))+(1＜＜(S-1)) (20)。

此处描述的方法在将算出的位置舍入至1÷2^F最近倍数之前(在两个设计内都存在的误差)产生的仅有误差(假设在L和R以及L′和R′的表示中没有误差)是从位置R″舍入到最近倍数1÷2^G的舍入误差。该量在G+M相对较大的情况下会很小。实际上，这一误差源被紧紧绑定在约(T-L)÷2^(G+M+1)的大小，结果计算的字长要求适中，并且模算术允许将结果的整数部分分出以使得字长最小化，或者允许用其他类似方法分解该计算。

F例如可以是4或更大。(对于某些应用，F＝3或F＝2就足够了。)J值的示例包括用于亮度位置计算的J＝1以及用于色度样本位置的J＝2。如下可以找出这些J值示例的基本原理。

1.使用带符号的B位算术的第一示例性简化位置计算技术

如果R′＞0且L′＞-R′，那么在要上采样图像中计算的所有位置t′，作为以1÷2^F为单位的整数，则位于-2^Z和2^Z-1之间，其中Z＝Ceil(Log2(R′))+F。如果(j*C+D)计算的字长是B位，并且假设使用带符号的2的补码算术，则可以要求B-1≥Z+S。如果这一约束严格，即如果B-1＝Z+M+G+J-F，则实现高精度。

对于相当小的图像大小(例如，在当前H.264/MPEG-4 AVC标准中达4.2级)，可以使用B＝32作为字长。也可以使用其他的B值。对于很大的图像，可以使用更大的B。该计算也可以被轻易分解成更小的字长子计算以便在16位或其他处理器上使用。

剩下的两个自由度是M和G。它们的关系是灵活的，只要G大到足以避免在将L′表示为k÷2^G时舍入误差的任何需要。于是，基于下一部分对SVC讨论的问题，可以选择G＝2，得到：

M＝B+F-(G+J+Z+1)

即，

M＝32+4-(2+1+Z+1)

即，

M＝32-Z。

例如，如果希望用B＝32和L′＝0上采样具有1000个亮度样本宽度的图像亮度阵列，那么可以使用这第一示例性位置计算技术来使用F＝4、G＝2、J＝1、M＝18、S＝17和Z＝14。

当T很接近(或等于)R且R′很接近(或等于)2的整数幂，特别是当(T-L)*(R′-L′)÷2^F较大(例如，大于1/2)时，那么可以在假设上存在由1违背上限的可能。在此不进一步考虑这些情况，虽然处理这些情况的调整是直接的。

2.使用无符号的B位算术的第二示例性位置计算技术

如果在低分辨率图像中计算的所有位置都大于或等于0，这种情况有时通过将合适的偏移量加入坐标系原点时存在，那么使用无符号的整数算术而非带符号的2的补码算术来计算t′＝(j*C+D)会是更好的选择。这允许多一位的动态范围而不会在计算中溢出(即，能够使用B位的动态范围大小而非B-1位)，从而将M(或G)和S分别加1并进一步增加计算结果的精度。于是，在包括偏移量E以调整坐标系原点之后，计算的形式可以是t′＝((j*C+D′)＞＞S′)+E而非只是t′＝(j*C+D)＞＞S。

通过标识何时将不需要原点偏移量E，提供有关该涉及无符号算术的更精确方法的进一步细节如下。

-如上所述选择用于B、F、G、J和Z的值。

-设置M＝B+F-(G+J+Z)。

-分别计算在上式(18)、(19)和(20)指定的S、C和D，其中D按带符号数计算。

-如果D大于或等于0，则不需要原点偏移量(即，不使用E)并且可以使用无符号算术简单执行计算为t′＝(j*C+D)＞＞S，而所得结果的精度会高于以上在部分V.B.1中描述的第一示例性位置计算技术。

除了通过启用使用无符号整数的计算来增加精度之外，偏移原点有时也可用于通过启用Z值的下降来提供改善的精度。没有原点偏移量，Z是R′的函数。但用原点偏移量，就可以让Z是R′-L′的函数，则在其得到较小Z值的情况下将使计算更为精确。

通过示出一种对原点的偏移的方式，导出D′和E，提供有关该涉及无符号算术的更精确方法的进一步细节如下。

-如上所述选择用于B、F、G和J的值。

-设置Z＝Ceil(Log2(R′-L′))+F。

-设置M＝B+F-(G+J+Z)。

-设置E＝D＞＞S。

-Set D′＝D-(E＜＜S)。

-该位置计算于是可执行为t′＝((j*C+D′)＞＞S)+E。

如果以此方式计算D′和E(以及M、S和Z)，则等式t′＝((j*C+D′)＞＞S)+E的算术结果实际将总是与等式t′＝(j*C+D)＞＞S的结果理论上相同，除了(j*C+D)的值有时会落入从0到2^B-1的范围之外，而(j*C+D′)的值则不会。

例如，如果希望用B＝32和L′＝0上采样具有1000个亮度样本宽度的图像亮度阵列，那么可以使用这第二示例性位置计算技术来使用F＝4、G＝2、J＝1、M＝19、S＝18和Z＝14。也等效地起作用，并非偏移原点以使得j*C+D所有值都非负，并由此允许使用B位计算使用无符号算术来使用范围从0到2^B-1的B位计算的另一种可能性是通过另一个2^(B-1)以允许使用带符号算术来使用范围从-2^(B-1)到2^(B-1)-1的B位计算来进一步将原点向右偏移。

而在前一部分的第一示例性位置计算技术中，存在当T很接近(或等于)R且R′-L′很接近(或等于)2的整数幂时所需的“角情况”调整。

3.用于位置计算的示例性多阶技术

已经讨论了在其中使设计能够为覆盖要生成样本范围的所有j值(即，为在L和R之间的所有T值)而用相同的变量值C、D′、S和E用相同的等式(例如，t′＝((j*C+D′)＞＞S)+E)执行计算的方法。现在讨论如何放松这一假设，从而允许更高的精度和/或降低的计算动态范围要求。

一般而言，重新采样过程从左向右(或从上向下)进行以在相等间隔的位置上生成连续的样本串。在以上部分V.B.2中描述的第二示例性位置技术，示出了改变使用偏移量参数E的原点如何能用于利用寄存器的B位动态范围来计算位置计算的(j*C+D′)部分。

回想前一部分，D中仅有的S个最低有效位在D′中保留，其他则移至E中。于是，计算(j*C+D′)的主要剩余的问题是j*C的大小。

回想T和L是1÷2^J的整数倍。一般在较高分辨率图像中执行上采样过程以生成整数值增量处的样本串，例如相继生成样本之间的2^J间隔。于是期望为p和N的一些值计算对于i＝0至N-1对应于位置T_i＝(p+i*2^J)÷2^J的位置t′_i

这一过程可以如图12的伪码1200所示为p和N的一些值而用伪码总结。随着i向N递增，q值增加，并且q的最大值应被维持在B位可用动态范围内。为q计算的最大值为(p+(N-1)*2^J)*C+D′。

现在，代替以此方式在一个循环中生成所有样本，考虑将该过程分成多个阶段，例如两个阶段。例如，在两阶段过程中，第一阶段生成第一N₀＜N个样本，而第二阶段生成剩下的N-N₀个样本。同样地，因为p是关于循环的约束，所以可以在第一阶段前将其影响移入D′和E。这导致了在图13的伪码1300中示出的两阶段过程。

在伪码1300中每阶段的开始处，原点已被重设使得针对此阶段的q的第一值中除了S个最低有效位之外的所有位都已移入E(即，针对第一阶段的E₀和针对第二阶段的E₁)。于是，在两阶段中每阶段的操作期间，q要求更小的动态范围。在以此方式将该过程分成各阶段之后，q的最大值将会是N₀*C′+D₀或((N-N₀-1)*C′+D₁中的较大值。但是因为D₀和D₁各自具有不多于S位的无符号动态范围，所以这通常将会是小于前述单阶段设计的最大值。在此阶段中生成的样本数(即，第一阶段N₀个而第二阶段N-N₀个)可以影响关联计算的动态范围。例如，在每一阶段使用较少样本数将导致相关计算的较小动态范围。

每个阶段可以进一步分成更多的阶段，于是总共N个样本的生成可以被进一步分解成任何数量的这些更小的阶段。例如，该过程可以被分成大小相等的各阶段，从而在每一阶段生成例如8或16个相继样本的块。这一技术或者可用于降低计算q时所需的动态范围B的位数，或者可用于增加计算的精度(增加S和G+M)同时保持动态范围相同，或者是这两大优点的混合。

将位置计算过程分解成各阶段的这一技术也能够用于沿着极长的输入样本串(概念上，该串可以是无限长)执行连续的重新采样过程，诸如随着样本从音频信号的模数转换器的到来执行采样率转换。无疑的是，如果不把该过程分成有限大小的阶段并从每一阶段到下一阶段递增地重新设置原点，则在先前各部分中描述的技术将无法处理无限长度的样本串，因为这需要处理字长中无限的动态范围。然而，将各技术应用于有效无限串长的困难并非这些技术的实质限制，因为应用于有效无限长度仅在以用代表1÷2^G倍数为整数单位的假设基准位置L′和R″的表示没有引入舍入误差时有用。

在其中能够应用多阶段位置计算技术的场景下，提供一种沿着无限长度样本串执行计算的方式，该方式不带有舍入误差的“漂移”累积，无论在整个速率转换过程的位置计算操作中发生了什么。

4.位置计算的示例性增量操作

针对上述多阶段分解概念的有趣的指定情况是当每个阶段要生成的样本数已经降低至每阶段一个样本。图14中的伪码1400表示针对i＝0至N-1生成N个位置t′_i的过程。

因为将该过程描述为上采样过程(虽然相同的原理也可应用于下采样过程)，所以知道对于每次i的增量都在较高分辨率图像中存在有1的间隔，因此在较低分辨率图像中存在有小于或等于1的增量。在较低分辨率图像中空间位置内1的增量对应于C′的2^(S+F)的值。同样知道D′＜2^S。因此，q＝C′+D′具有从0到小于2^(S+F)+2^S的范围，因此可以使用无符号整数算术用不多于B＝S+F+1位的动态范围要求来计算q。在一个实现中，这一动态范围要求对图像大小是不变的(即，不依赖于R′或R′-L′的值)。

对于可伸缩视频编码和许多其他这类应用，并不真的需要支持上采样比率非常接近1。在这类应用中，可以假设C′实际上要求不多于S+F位。

例如，如果希望用B＝32和L′＝0上采样具有1000个亮度样本宽度的图像亮度阵列，那么可以使用这一方法来使用F＝4、G＝2、J＝1、M＝29、S＝28和Z＝14。结果将会是如此的格外精确使得较小的B值看上去是更为合理的选择。

作为替换，如果希望用B＝16和L′＝0上采样具有1000个亮度样本宽度的图像亮度阵列，那么可以使用这一方法来使用F＝4、G＝2、J＝1、M＝13、S＝12和Z＝14。

关于进一步了解执行上采样操作场景可提供进一步的优化机会。例如，如果上采样比率明显大于2，则动态范围要求将再减小一位，并且对于大于4、16等的上采样比率而言继续减小。

参考这一部分中的示例性增量位置计算技术描述的改变(相对于上述的示例性多阶位置计算机技术)都不会影响在给定C、D和S的值时所实际算出的位置t′_i的值。只有改变支持该计算所需的动态范围。

用于这一分解形式的伪码1400中的内部循环不要求任何乘法操作。这一事实有利于在某些计算处理器上提供缩短的计算时间。

5.额外的注释

对于诸如2∶1、3∶2之类的常见重新采样比率——在其中无需为了将位置L′和R″近似为以为1÷2^G单位的整数而作出舍入的任何情况——在使用这些方法时根本不存在任何舍入误差(除了当将最终结果舍入以1÷2^F为单位的整数时引入的任何舍入误差，该误差是无论位置计算方法都将存在的误差)。

C.亮度和色度位置和关系

假设全新(上采样)图像和参考图像阵列相对于亮度采样网格索引坐标精确对准，则当前图像坐标内的位置L和R是

和

其中W是取决于相关重新采样维度图像在垂直或水平方向上的样本数。等效地，可以设置图像空间坐标系的原点向网格索引0位置左移(或上移)半个样本在并在从图像空间坐标转换成网格索引值时加1/2，由此免于在空间坐标系中执行计算时处理负数的需要。

参考(低分辨率)图像中的位置L′和R′以相同方式参考采样网格坐标，其中在此情况下W是参考图像而非新图像中的样本数。

对于色度采样网格(无论是在新图像还是在参考图像中)，情况多少没那么简单。为了构建色度样本相对于亮度的指定对准，考虑由色度样本表示的图像矩形与由亮度样本表示的矩形相同。这会产生如下情况：水平

地，对于4:2:0色度采样类型0、2和4(参见图5D)，当前图像坐标由

和

定义。

-水平地，对于4:2:0色度采样类型3、1和5(参见图5D)，当前图像坐标由

和定义。

-垂直地，对于4:2:0色度采样类型2和3(参见图5D)，当前图像坐标由

和

定义。

-垂直地，对于4:2:0色度采样类型0和1(参见图5D)，当前图像坐标由

和

定义。

-垂直地，对于4:2:0色度采样类型4和5(参见图5D)，当前图像坐标由

和

定义。

-水平地，对于4:2:2色度采样，通常用于工业实践的4:2:2采样的当前图像坐标由

和

定义。

-垂直地，对于4:2:2色度采样，通常用于工业实践的4:2:2采样的当前图像坐标由

和

定义。

-对于水平和垂直两者而言，对于4:4:4色度采样，当前图像坐标由

和

定义。

同样地，使用一偏移量充分的将坐标系的原点移动到位置L的左侧以免于处理负数。

整数坐标和分数相位偏移量余数通过调整要在上采样阵列中生成的各样本的整数坐标位置以补偿分数偏移量L，并在随后应用部分V.B结尾处所示的转换来计算。概念地，将结果右移F位导致指向参考图像的整数系数指针，并且减去左移的整数坐标(移位F位)提供相位偏移量余数。

D.上采样位置计算的额外精度

这一部分描述如何将以上部分V.C.4的位置计算方法映射至特定的上采样过程，诸如用于H.264 SVC扩展的上采样过程。位置计算以一种非常灵活的方式应用以最大化各种色度格式以及逐行和隔行扫描帧格式下亮度和色度通道两者的精度。在这一部分中描述的技术能够取决于实现和不同的上采样过程而变化。

在上述位置计算中(在以上部分V.A-C中)，比例改变参数(是变量C，其后在以下标记为deltaX(或者deltaY))由等于2^J的比例因子按比例增加(其中对于亮度J＝1，而对于色度则为2)来形成增量，加入该增量以从左向右或从上到下生成每个样本位置。选择缩放比例以使得按比例放大的增量将符合16位。

1.比例缩放位置计算的最大精度

应用位置计算方法的一种直接方式是将比例改变参数按比例放大等于2^J的比例因子，其中对于亮度J＝1而对于色度则为2，从而形成增量，加入该增量以从左向右或从上到下生成每个样本位置。随后选择比例缩放参数以确保按比例放大的增量将符合指定的字长，诸如16位。在如下部分将描述更灵活的设计来最大化位置精度。

a.亮度通道

“直接”亮度位置计算方法可以在F＝4和S＝12时由以下示例性等式(沿着水平方向)概括：

deltaX＝Floor(((BasePicWidth＜＜15)+(ScaledBaseWidth＞＞1))÷ScaledBaseWidth)

xf＝((2*(xP-ScaledBaseLeftOffset)+1)*deltaX-30720)＞＞12

在此，BasePicWidth是基层或低分辨率图像的水平分辨率；ScaledBaseWidth是高分辨率图像区域或窗口的水平分辨率；deltaX是中间比例改变参数，在此情况下是32768乘以上采样比率的逆的舍入近似；xP表示在高分辨率图像中的样本位置；ScaledBaseLeftOffset表示高分辨率图像中图像窗口的相对位置，以及Floor( )指示小于或等于其自变量的最大整数。常数值30720是由在右移之前添加2^S-1作为舍入偏移量并针对亮度采样网格参考位置的半个样本偏移量来减去2^S*2^F/2而产生，如在上述部分V.C开始处所讨论的。

值得注意的是xP的每次增量都导致等式内部2*deltaX的增量。同样地，量2*deltaX的LSB总是为零，使得计算精度的一位实质上被浪费。通过如下改变这些等式，可以在复杂度没有任何显著增加的情况下近似地获取额外一位的精度：

deltaX＝Floor(((BasePicWidth＜＜16)+(ScaledBaseWidth＞＞1))÷ScaledBaseWidth)

xf＝((xP-ScaledBaseLeftOffset)*deltaX+(deltaX＞＞1)-30720)＞＞12

或者(略微)更加精确的形式如下：

deltaXa＝Floor(((BasePicWidth＜＜16)+(ScaledBaseWidth＞＞1))÷ScaledBaseWidth)

deltaXb＝Floor(((BasePicWidth＜＜15)+(ScaledBaseWidth＞＞1))÷ScaledBaseWidth)

xf＝((xP-ScaledBaseLeftOffset)*deltaXa+deltaXb-30720)＞＞12

推荐后两种形式，因为其更高的准确性和可以忽略的复杂度影响(虽然精度的差异看上去也很小)。

注意到对于处理其上难以执行除法计算的体系结构，具有这些等式之一的结果能够简化其他的计算。deltaXa的值将总是在2*deltaXa加1或减1的范围内。因此可以导出如下的简化规则以避免对deltaXa的计算执行除法操作的需要：

deltaXa＝(deltaXb＜＜1)

remainderDiff＝(BasePicWidth＜＜16)+(ScaledBaseWidth＞＞1)-deltaXa

if(remainderDiff＜0)

deltaXa--

else if(remainderDiff≥ScaledBaseWidth)

deltaXa++

b.色度通道

在这一部分的设计中可以为色度通道使用四因子乘法器来代替二因子乘法器，从而能够表示4:2:0采样的色度位置(为色度使用J＝2而非如所述地为亮度使用的J＝1)。因此，“直接”等式为：

deltaXC＝Floor(((BasePicWidthC＜＜14)+(ScaledBaseWidthC＞＞1))÷

ScaledBaseWidthC)

xfC＝((((4*(xC-ScaledBaseLeftOffsetC)+

(2+scaledBaseChromaPhaseX))*deltaXC)

+2048)＞＞12)-4*(2+baseChromaPhaseX)

在此，baseChromaPhaseX和scaledBaseChromaPhaseX分别表示用于低分辨率和高分辨率的色度采样网格位置偏移量。这些参数的值可以随着信息从编码器发送至解码器而被显式传达，或者可以具有由应用确定的特定值。所有其他的变量与为亮度通道定义的那些相似，而其带有的“C”后缀表示对色度通道的应用。

xC的每次递增都导致等式内部4 * deltaXC的增量。因此，通过如下改变这些等式，可以在复杂度没有任何实质增加的情况下近似地获取额外两位的精度：

deltaXC＝Floor(((BasePicWidthC＜＜16)+(ScaledBaseWidthC＞＞1))÷

ScaledBaseWidthC

xfC＝(((xC-ScaledBaseLeftOffsetC)*deltaXC

+(2+scaledBaseChromaPhaseX)*((deltaXC+K)＞＞2)

+2048)＞＞12)-4*(2+baseChromaPhaseX)

其中K＝0、1或2。使用K＝0可以避免一次额外操作。使用K＝1或K＝2可以具有稍高的准确性。

相对应地稍微更精确的形式可以如下：

deltaXCa＝Floor(((BasePicWidthC＜＜16)+(ScaledBaseWidthC＞＞1))÷

ScaledBaseWidthC)

deltaXCb＝Floor(((BasePicWidthC＜＜14)+(ScaledBaseWidthC＞＞1))÷

ScaledBaseWidthC)

xfC＝(((xC-ScaledBaseLeftOffsetC)*deltaXCa+

(2+scaledBaseChromaPhaseX)*deltaXCb

+2048)＞＞12)-4*(2+baseChromaPhaseX)

如同亮度情况一样，推荐后一种变体，因为复杂度的差异看上去可以忽略不计(虽然精度差异看上去也很小)。

c.隔行扫描场坐标

对图像坐标系的参考通常基于亮度帧坐标中半个样本位置，于是导致如上所述针对亮度坐标参考位置的为2的比例因子。亮度帧坐标中半个样本的位移对应于4:2:0色度帧坐标中四分之一个样本的位移，这也是当前在用于上述色度坐标的比例缩放中使用为4的因子而非为2的因子的原因。

水平地，对表示帧的编码图像和表示隔行扫描视频单个半帧的那些图像进行的操作不存在本质上的差别。然而，当编码的图像表示单个半帧时，在亮度帧垂直坐标中半个样本的位移对应于在亮度场垂直坐标中四分之一个样本的位移。于是，应该在垂直亮度坐标位置的计算中应用为4而非为2的比例因子。

类似地，当编码的图像表示单个半帧时，在亮度帧垂直坐标中半个样本的位移对应于在色度场垂直坐标中八分之一个样本的位移。于是，应该在垂直色度坐标位置的计算中应用为8而非为4的比例因子。

用于在编码场图像中计算垂直坐标位置的这些比例缩放因子可以与以上关于编码帧图像中增量计算所述相同的方式并入deltaY垂直增量计算。在此情况下，由于应用了增加的比例缩放因子，使得精度的改善对亮度位置近似为2位的精度增加而对色度(垂直地)近似为3位的精度增加。

2.4:2:2和4:4:4色度限制和细化

部分V.D.1.b的位置计算方法要求为色度使用亮度不同的乘法因子。这对4:2:0视频有意义并且对4:2:2视频在水平上也合理，但是它对4:2:2视频在垂直上或者对4:4:4视频在水平或垂直上都不必要，因为在这些情况下亮度和色度分辨率相同并且亮度和色度样本因此推测起来在同一地点。

结果，部分V.D.1.b的方法可能要求分开计算来确定亮度和色度位置，即使在某些维度中亮度和色度分辨率相同且无意相移的情况下也是如此，这只是因为在这两种情况下将要执行的舍入略有不同。这是不期望的，所以在这一部分中建议为4:2:2和4:4:4采样结构使用不同的色度处理。

a.4:2:2垂直的和4:4:4水平的和垂直的位置

对于4:2:2视频的垂直维度以及4:4:4视频的垂直和水平维度两者，不存在对色度相位的自定义控制的明显需要。因此，只要在某一维度中色度分辨率与亮度分辨率相同，就应该对用于计算色度位置的等式进行修改以便无论何时色度采样格式在某一具体维度上对亮度和色度具有相同的分辨率，为亮度和色度样本两者计算准确相同的位置。一个选项是仅设置色度位置变量等于亮度位置变量，另一选项是设置色度位置等式以使它们具有相同的结果。

b.4:2:2水平位置

虽然水平地允许为4:2:2视频的色度相位调整不存在功能问题，但如果4:2:2只使用了一种类型的水平子采样结构，诸如对应于部分V.D.1.b各等式中用于scaledBaseChromaPhaseX或BaseChromaPhaseX的值-1的那个，那么可能期望考虑只要颜色采样格式是4:2:2就强迫使用这些值。

VI.扩展和变化

本文中的技术和工具也可应用于使用参考图像重新采样的多分辨率视频编码，诸如在ITU-T国际标准推荐H.263的附件P中找出的情况。

本文中的技术和工具不仅还可应用于图像样本阵列的上采样，还可用于残差数据信号或其他信号的上采样。例如，本文中的技术和工具也可应用于降低分辨率更新编码的残差数据信号上采样，例如可在ITU-T国际标准推荐H.263的附件Q中找出。作为另一个示例，本文中描述的技术和工具也可应用于在空间可伸缩视频编码设计中从较低分辨率残差信号中预测高分辨率残差信号的残差数据信号的上采样。作为又一个示例，本文中描述的技术和工具也可应用于在空间可伸缩视频编码设计中运动矢量场的上采样作为再一个示例，本文中描述的技术和工具也可应用于图形图像、静止照片图像、音频样本信号等的上采样。

参考各所述实施例描述和示出了本发明的原理之后，可以认识到，可以在排列和细节上修改所述各实施例，而不脱离这些原理。应当理解，此处所描述的程序、过程或方法不相关于或不限于任何特定类型的计算环境，除非另外指明。可依照此处所描述的教导来使用各种类型的通用或专用计算环境或执行操作。描述的实施例中以软件示出的元素可以用硬件来实现，反之亦然。

鉴于可应用本发明的原理的许多可能的实施例，要求保护落入所附权利要求书及其等效技术方案的范围和精神之内的所有这样的实施例作为本发明。

Claims

1.一种用于在视频编码或解码期间执行基层图像数据的上采样的方法，其特征在于，所述方法包括：对于上采样的阵列中的一个位置：

计算所述基层图像数据中的一个位置，其中y指示所述基层图像数据中的该位置的垂直值，而y的导出包括数学上等价于(j*C+D)＞＞S的结果的计算，并且其中：

j指示上采样的阵列中的该位置的垂直值；

C是通过对垂直比例因子的倒数乘以2^S+F的值进行近似；

D是偏移量；

S是移位值；以及

F是基于在y的分数分量中的位数。

2.如权利要求1所述的方法，其特征在于，其中j、C和D部分基于所述基层图像数据是用于帧还是半帧，并且其中，j和D部分基于所述基层图像数据是用于亮度还是色度。

3.如权利要求1所述的方法，其特征在于，其中

S设置动态范围和精度；以及

D基于所述基层图像数据的垂直分辨率、所述垂直比例因子和S。

4.如权利要求1所述的方法，其特征在于，其中F是4，而S为12。

5.如权利要求1所述的方法，其特征在于，x指示所述基层图像数据中的该位置的水平值，而x的导出包括数学上等价于(i*C’+D’)＞＞S’的结果的计算，并且其中：

i指示上采样的阵列中的该位置的水平值；

C’是通过对水平比例因子的倒数乘以2^S’^+F’的值进行近似；

D’是可以与D相同或不同的偏移量；

S’是可以与S相同或不同的移位值；以及

F’是基于在x的分数分量中的位数。

6.如权利要求5所述的方法，其特征在于，i是基于T-L，T指示水平偏移量，而L指示左偏移量。

7.如权利要求5所述的方法，其特征在于，其中F’是4，而S’为12。

8.如权利要求7所述的方法，其特征在于，根据下式来导出C’：

((BasePic Width＜＜16)+(ScaledBase Width＞＞1))÷ScaledBase Width，

其中BasePicWidth指示所述基层图像数据的水平分辨率，而ScaledBaseWidth指示在上采样之后的水平分辨率。

9.如权利要求5所述的方法，其特征在于，x还基于偏移量E，x的导出包括数学上等价于((i*C’+D’)＞＞S’)+E的结果的计算。

10.如权利要求5所述的方法，其特征在于，还包括：

基于y的F个最低有效位来选择垂直滤波器，并基于y的剩余位来选择要过滤的垂直整数位置，其中，所述基层图像数据的垂直内插在所述垂直整数位置处使用所述垂直滤波器；以及

基于x的F’个最低有效位来选择水平滤波器，并基于x的剩余位来选择要过滤的水平整数位置，其中，垂直内插的结果的水平内插在所述水平整数位置处使用所述水平滤波器。

11.如权利要求1所述的方法，其特征在于，还包括：

在所述基层图像数据中的该位置处内插一个值；以及

将所述内插的值分配给所述上采样阵列中的该位置。

12.如权利要求1所述的方法，其特征在于，所述基层图像数据是采样值。

13.如权利要求1所述的方法，其特征在于，所述基层图像数据是剩余的数据值。

14.一种系统，包括处理器、存储器和存储有计算机可执行指令的计算机可读存储，所述计算机可执行指令用于一种在视频编码或解码期间对基层图像数据进行上采样的方法，其特征在于，所述方法包括：对于上采样的阵列中的一个位置：

j指示上采样的阵列中的该位置的垂直值；

C是通过对垂直比例因子的倒数乘以2S+F的值进行近似；

D是偏移量；

S是移位值；以及

F是基于在y的分数分量中的位数。

15.如权利要求14所述的系统，其特征在于，其中

j、C和D部分基于所述基层图像数据是用于帧还是半帧，

j和D部分基于所述基层图像数据是用于亮度还是色度；

D基于所述基层图像数据的垂直分辨率、所述垂直比例因子和S；

F是4，以及

S为12。

16.如权利要求14所述的系统，其特征在于，其中x指示所述基层图像数据中的该位置的水平值，而x的导出包括数学上等价于(i*C’+D’)＞＞S’的结果的计算，并且其中：

i指示上采样的阵列中的该位置的水平值；

D’是可以与D相同或不同的偏移量；

S’是可以与S相同或不同的移位值；以及

F’是基于在x的分数分量中的位数。

17.如权利要求16所述的系统，其特征在于，i是基于T-L，T指示水平偏移量，而L指示左偏移量；

F’是4，

S’为12；以及。

根据下式来导出C’：

((BasePic Width＜＜16)+(ScaledBase Width＞＞1))÷ScaledBase Width，

18.如权利要求16所述的系统，其特征在于，所述方法还包括：

19.如权利要求18所述的系统，其特征在于，所述计算机可读存储进一步存储用于为所述基层图像数据在上采样阵列中的位置处使用内插的采样值来编码增强层的计算机可执行指令。

20.如权利要求18所述的系统，其特征在于，所述计算机可读存储进一步存储用于为所述基层图像数据在上采样阵列中的位置处使用内插的采样值来解码增强层的计算机可执行指令。