CN105103553B

CN105103553B - 用于对视频信息译码的设备与方法以及非暂时性计算机可读媒体

Info

Publication number: CN105103553B
Application number: CN201480010100.0A
Authority: CN
Inventors: 瓦迪姆·谢廖金; 郭立威; 陈建乐; 克里希纳坎斯·拉帕卡
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-03-01
Filing date: 2014-02-27
Publication date: 2018-08-28
Anticipated expiration: 2034-02-27
Also published as: KR20150122764A; WO2014134334A2; JP6466349B2; BR112015020968A2; US20140247879A1; KR102276276B1; ES2769837T3; EP2962463B1; HUE046809T2; BR112015020968B1; JP2016513441A; CN105103553A; TWI543590B; TW201448573A; US9743097B2; WO2014134334A3; EP2962463A2

Abstract

在一个实施方案中，提供一种用于编码或解码视频信息的设备。所述设备包括存储器单元，所述存储器单元经配置以存储与基础层及/或增强层相关联的视频信息。所述设备进一步包括可操作地耦合到所述存储器单元的处理器。在一个实施例中，所述处理器经配置以基于与所述基础层及所述增强层相关联的空间尺寸值确定(430)缩放因数，使得所述缩放因数被约束于预定范围内。所述处理器还经配置以使用所述缩放因数及时间运动向量缩放过程来空间缩放(440)与所述基础层或所述增强层相关联的元素。

Description

用于对视频信息译码的设备与方法以及非暂时性计算机可读媒体

技术领域

本发明涉及视频译码及压缩的领域。详言之，本发明涉及高效率视频译码(HEVC)及其扩展，例如，可缩放视频译码(SVC)、多视图及3D译码(MVC、3DV)等。在一些实施例中，本发明涉及用于SVC的空间运动向量缩放。

背景技术

数字视频能力可并入到广泛范围的装置中，所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、便携式或台式计算机、平板型计算机、电子书阅读器、数字摄影机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主机、蜂窝或卫星无线电电话、所谓的“智能型手机”、视频电话会议装置、视频流装置，及其类似者。数字视频装置实施视频译码技术，例如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分“高级视频译码(AVC)”所界定的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展等中所描述的视频译码技术。视频装置可通过实施这些视频译码技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码，可将视频片段(例如，视频帧或视频帧的一部分)分割成视频块(其还可被称作树型块)、译码单元(CU)及/或译码节点。图片的帧内译码(I)图块中的视频块使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的帧间译码(P或B)图块中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

空间预测或时间预测导致用于待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差异的残余数据来编码帧间译码块。根据帧内译码模式及残余数据来编码帧内译码块。为了进一步压缩，可将残余数据自像素域变换至变换域，从而引起残余变换系数，可接着量化所述残余变换系数。可扫描最初布置成二维阵列的经量化的变换系数以便产生变换系数的一维向量，且可应用熵译码以达成甚至更多压缩。

在一些情形下，所要的是空间地缩放来自具有不同于正经编码或解码的层的空间缩放性的数个层的运动向量。在其它情形下，所要的是将来自层的视频块的位置映射到正经编码或解码的层中的等效位置。然而，空间缩放及层间位置映射归因于经执行以确定适当缩放参数的任意除法运算而通常需要增加的处理成本。

发明内容

一般来说，本发明描述涉及可缩放视频译码(SVC)的技术。下文描述的技术提供一种指示对于特定基础层译码解码器(例如，HEVC等)是否允许层间语法预测(包含运动信息)的机构。

在一个实施中，提供一种用于编码或解码视频信息的设备。所述设备包括存储器单元，所述存储器单元经配置以存储与基础层及/或增强层相关联的视频信息。所述设备进一步包括可操作地耦合到所述存储器单元的处理器。在一个实施例中，所述处理器经配置以执行视频信息的空间运动向量缩放。举例来说，所述处理器可经配置以在可缩放视频译码框架内执行空间运动向量缩放。

在一个实施例中，提供一种用于对视频信息译码的设备。所述设备包含存储器单元及处理器。所述存储器单元经配置以存储与基础层、增强层或两者相关联的视频信息。所述处理器可操作地耦合到所述存储器单元且经配置以：基于与所述基础层及所述增强层相关联的空间尺寸值确定缩放因数，使得所述缩放因数被约束于预定范围内；及使用所述缩放因数及时间运动向量缩放过程或函数来空间缩放与所述基础层或所述增强层相关联的元素。

在另一实施例中，一种解码视频信息的方法包含通过耦合到经配置以存储与基础层、增强层或两者相关联的视频信息的存储器单元的处理器基于与所述基础层及所述增强层相关联的空间尺寸值确定缩放因数，使得所述缩放因数被约束于预定范围内。所述方法还包含使用所述缩放因数及时间运动向量缩放过程来空间缩放与所述基础层或所述增强层相关联的元素。所述方法还包含使用所述空间缩放元素解码所述视频信息。

在另一实施例中，一种编码视频信息的方法包含通过耦合到经配置以存储与基础层、增强层或两者相关联的视频信息的存储器单元的处理器基于与所述基础层及所述增强层相关联的空间尺寸值确定缩放因数，使得所述缩放因数被约束于预定范围内。所述方法包含还包含使用所述缩放因数及一时间运动向量缩放过程来空间缩放与所述基础层或所述增强层相关联的元素。所述方法包含还包含使用所述空间缩放元素编码所述视频信息。

在另一实施例中，一种非暂时性计算机可读媒体包含指令，所述指令在执行时使得设备基于与基础层及增强层相关联的空间尺寸值确定缩放因数，使得所述缩放因数被约束于预定范围内。所述指令还使得所述设备使用所述缩放因数及时间运动向量过程来空间缩放与所述基础层或增强层相关联的元素。所述指令还使得所述设备使用所述空间缩放元素译码所述视频信息。

在另一实施例中，一种设备经配置以对视频信息译码。所述设备包含用于基于与基础层及增强层相关联的空间尺寸值确定缩放因数使得所述缩放因数被约束于预定范围内的装置。所述设备包含还包含用于使用所述缩放因数及时间运动向量缩放过程来空间缩放与所述基础层或所述增强层相关联的元素的装置。所述设备包含还包含用于使用所述空间缩放元素译码所述视频信息的装置。

在以下随附图式及描述中阐述一或多个实例的细节，随附图式及描述并不意欲限制本文中所描述的发明概念的全范畴。其它特征、目标及优点将自所述描述及所述图式以及自权利要求书系显而易见。

附图说明

贯穿图式，参考数字可经重用以指示所参考元件之间的对应。图式经提供以说明本文中所描述的实例实施例，且并不意欲限制本发明的范畴。

图1为说明可利用根据本发明中所描述的方面的技术的实例视频编码及解码系统的框图。

图2为说明可实施根据本发明中所描述的方面的技术的视频编码器的实例的框图。

图3为说明可实施根据本发明中所描述的方面的技术的视频解码器的实例的框图。

图4为说明根据本发明的方面的使用时间缩放函数执行空间缩放的方法的实施例的流程图。

具体实施方式

本发明中所描述的技术大体上涉及可缩放视频译码(SVC)及多视图/3D视频译码。举例来说，所述技术可是关于高效率视频译码(HEVC)可缩放视频译码(SVC，有时被称作SHVC)扩展，且与所述扩展一起使用或在所述扩展内使用。在SVC扩展中，可存在多个视频信息层。最底部层级处的层可充当基础层(BL)，且最顶部处的层(或最高层)可充当经增强层(EL)。“经增强层”有时被称作“增强层”，且可互换地使用这些术语。基础层有时被称作“参考层”(RL)，且还可互换地使用这些术语。基础层与顶部层之间的所有层可充当EL或参考层(RL)中的任一者或两者。举例来说，中间的层可为在所述层以下的数个层(例如基础层或任何介入增强层等)的EL，且同时充当所述层以上的增强层的RL。基础层与顶部层(或最高层)之间的每一层可用作较高层的层间预测的参考，且可将较低层用作层间预测的参考。

为了简单，仅依据两个层来呈现实例：BL及EL；然而，应充分理解，下文所描述的理念及实施例还适用于具有多个层的状况。此外，为易于解释，时常使用术语“帧”或“块”。然而，这些术语并不意谓为限制性的。举例来说，下文所描述的技术可与包含(但不限于)像素、块(例如，CU、PU、TU、宏块等)、图块、图片等的多种视频单元中的任一者一起使用。

视频译码

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(还称作ISO/IECMPEG-4AVC)(包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展)。SVC及MVC的最新联合草案被描述于“Advanced video coding for generic audiovisual services(用于通用视听服务的高级视频译码)”ITU-T推荐标准H.264(2010年3月)中。

此外，存在正在由ITU-T视频译码专业团体(VCEG)及ISO/IEC动画专业团体(MPEG)的关于视频译码的联合合作团队(JCT-VC)开发的新视频译码标准：高效视频译码(HEVC)。新近高效率视频译码(HEVC)文字规范草案可自http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v13.zip获得。被称作HEVC WD9的HEVC的另一新近工作草案(WD)可在http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v13.zip处获得。HEVC的被称作HEVC WD8(或WD8)的另一工作草案可在http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip处获得。下文被称作HEVC WD7的HEVC的另一工作草案可在http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/ JCTVC-I1003-v5.zip处获得。所有这些文献的全文以引用的方式并入本文中。

在SVC中，可提供视频信息作为多个层。最底部层级处的层可仅充当基础层(BL)，且最顶部层级处的层可充当增强层(EL)。顶部层与底部层之间的所有层可充当增强层及基础层两者。举例来说，中间的层可为所述层以下的层的EL，且同时为所述层以上的层的BL。为了描述简单，在说明下文描述的技术中，可假设存在两个层BL及EL。然而，本文中所描述的所有技术又适用于具有多个(两个以上)层的状况。

可缩放视频译码(SVC)可用以提供质量(亦称作信噪比(SNR))可缩放性、空间可缩放性及/或时间可缩放性。举例来说，在一个实施例中，参考层(例如，基础层)包含足以以第一质量层级显示视频的视频信息，且增强层包含相对于参考层的额外视频信息，使得参考层及增强层一起包含足以以高于第一层级的第二质量层级(例如，较低噪声、较大分辨率、更好帧速率等)显示视频的视频信息。经增强层相较于基础层可具有不同空间分辨率。举例来说，EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换言之，EL的空间纵横比可等于BL的空间纵横比的1.0、1.5或2.0倍。在一些实例中，EL的缩放因数可大于BL的缩放因数。举例来说，EL中图片的大小可大于BL中图片的大小。以此方式，尽管并非限制，但可为可能的是，EL的空间分辨率大于BL的空间分辨率。

在H.264的SVC扩展中，当前块的预测可使用针对SVC提供的不同层来执行。此预测可被称作层间预测。层间预测方法可用于SVC中以便减少层间冗余。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中并置块的重建以预测增强层中的当前块。层间运动预测使用基础层的运动信息(包含运动向量)来预测增强层中的运动。层间残余预测使用基础层的残余来预测增强层的残余。

在层间运动预测的一些实施例中，基础层(例如，针对并置块)的运动数据(包含运动向量)可用以预测增强层中的当前块。举例来说，虽然对增强层中的视频单元译码，但视频译码器可使用来自参考层的信息来获得可用以识别额外假定的额外运动补偿数据。由于这些额外假定隐含地自视频位流中的数据(现有数据)导出，因此视频译码中的额外性能可以位流大小上的很少成本或无额外成本而获得。在另一实例中，来自空间相邻视频单元的运动信息可用以定位额外假定。所导出的假定可接着进行平均或以其它方式与显式编码假定组合以产生视频单元的值的更好预测。在某些情形下，例如在基底(或参考)层的空间分辨率不同于当前块的层的空间分辨率等时，基础层运动信息在用以编码或解码当前块之前经空间缩放。同样，在层具有不同于当前块的层的空间分辨率时，如下文所描述，块在基底(或参考)层中的位置可通过层间位置映射来确定。

空间运动向量缩放

来自基础层的运动向量(MV)在至少合并或AMVP模式中可用作MV候选者。因为基础层及增强层可潜在地具有不同分辨率，所以来自基础层的MV在用作层间MV预测候选者之前可需要根据分辨率差进行缩放。在一个实例中，此缩放通过下式表达：

MV＝{MVx,MVy}，

其中el指示增强层，bl指示基础层，W指示宽度，且H指示高度。

以上公式出于说明性目的而提供，且可使用类似公式。举例来说，在(例如)添加舍位偏移之处，可使用类似公式。

层间位置映射

基础层图片与增强层图片之间的定位映射针对层间纹理及/或语法预测来执行。举例来说，在层间纹理预测中，对于增强层的位置(x,y)处的像素(其可被称作PEL(x,y))，可导出对应位置(blx,bly)。因此，可被称作PBL(blx,bly)的基础层的(blx,bly)处的像素值可用以预测PEL(x,y)的值。位置映射可表达为：

以上公式用于说明性目的，在(例如)可添加数字偏移的处，可使用类似公式。如果基础层图片与增强层图片具有不同修剪，则修剪参数可在公式中进行整合。然而，使用以上公式的一个缺点为，对于任意基础层与增强层的缩放性纵横比要求除法运算。如下文更详细地论述，此除法运算在计算上为昂贵的，且要求广泛计算资源及/或较大存储器及频宽要求。

已提议，在HEVC标准中可用的时间运动向量预测子(TMVP)缩放函数可用于基础层MV缩放。此函数的输入参数为经缩放的计算为的变数，其等效于iScaleBase＝256×elW/blW(其中elW及blW分别对应于增强层图片及基础层图片的宽度)。表达式x<<y是指使数字x的二进位表示向左移位y个位，其等效于使数字x除以2^y。类似地，表达式x>>y是指使数字x的二进位表示向右移位y个位，其等效于使数字x乘以2^y。对于无缩放，例如，在基础层及增强层图片大小相等时，输入参数iScaleBase等于256。对于2x的缩放性(例如，当增强层图片的宽度为基础层的宽度的两倍时)，输入参数iScaleBase等于512，且对于1.5x，输入参数iScaleBase等于384。此输入参数可每序列计算一次。然而，如上文所提及，要求通过任意除法器进行的除法，其可使编码及/或解码过程的成本增加及/或使效率减低。

下文中参看随附图式更充分地描述新颖系统、设备及方法的各种方面。然而，本发明可以许多不同形式来体现，且不应解译为限于贯穿本发明所呈现的任何特定结构或功能。确切来说，这些方面经提供，使得本发明将为详尽且完整的，且将向所属领域的技术人员充分传达本发明的范畴。基于本文中的教示，所属领域的技术人员应了解，本发明的范畴意欲涵盖在本文中所揭示的新颖系统、设备及方法的任何方面，不管其独立实施抑或与本发明的任何其它方面相组合而实施。举例来说，可使用本文中所阐述的任何数目个方面来实施设备或实践方法。此外，本发明的范畴意欲涵盖除本文中所阐述的本发明的各种方面之外或不同于本文中所阐述的本发明的各种方面的使用其它结构、功能性或结构与功能性实践的此种设备或方法。应理解，可通过技术方案的一或多个元素来体现本文中所揭示的任何方面。

虽然本文中描述特定方面，但这些方面的许多变化及置换属于本发明的范畴。虽然提及较佳方面的一些益处及优点，但本发明的范畴并不意欲限于特定益处、用途或目标。确切来说，本发明的方面意欲广泛适用于不同无线技术、系统配置、网络及发射协议，其中一些通过诸图中及较佳方面的以下描述中的实例来说明。实施方式及图式仅说明本发明而非限制本发明，本发明的范畴由附加权利要求书及其等效物来界定。

视频译码系统

图1为说明可利用根据本发明中所描述的方面的技术的实例视频译码系统10的框图。如本文中所使用所描述，术语“视频译码器”一般指视频编码器及视频解码器两者。在本发明中，术语“视频译码”或“译码”可一般指视频编码及视频解码。

如图1中所展示，视频译码系统10包含源装置12及目的地装置14。源装置12产生经编码的视频数据。目的地装置14可解码由源装置12产生的经编码视频数据。源装置12可经由计算机可读媒体16将视频数据提供至目的地装置14。源装置12及目的地装置14可包含广泛范围的装置，所述装置包含台式计算机、笔记型(例如，便携式)计算机、平板计算机、机顶盒、例如所谓“智能”电话的电话手机、所谓“智能型”平板、电视、摄影机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机、视频流装置，或其类似者等。源装置12及目的地装置14可为无线通信而装备。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据自源装置12移动至目的地装置14的类型的媒体或装置。举例来说，计算机可读媒体16可包括通信媒体以使得源装置12能够将经编码视频数据实时地直接发射至目的地装置14。可根据通信标准(例如无线通信协议等)调制经编码视频数据，且将经编码视频数据发射至目的地装置14。通信媒体可包括无线或有线通信媒体，例如射频(RF)频谱或一或多个物理发射线等。通信媒体可形成基于包的网络(例如区域网络、广域网络或例如因特网的全球网络等)的部分。通信媒体可包含路由器、交换器、基站，或可用于促进自源装置12至目的地装置14的通信的其它设备。

在一些实施例中，可将经编码数据自输出接口22输出到存储装置。类似地，可通过输入接口自存储装置存取经编码数据。存储装置可包含多种分布式或本地存取式数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或用于存储视频数据的其它数字存储媒体等。存储装置可对应于文件服务器或可存储通过源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载自存储装置存取所存储视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射至目的地装置14的一类型的服务器。实例文件服务器包含网页服务器(例如，用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由标准数据连接(包含因特网连接)而存取经编码视频数据。此数据连接可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、缆线调制解调器，等等)，或两者的组合。经编码视频数据自存储装置的发射可为流式传输、下载发射，或其组合。

本发明的技术可应用除无线应用或设定外的应用或设定。所述技术可应用于支持例如以下应用的多种多媒体应用中的一者的视频译码：空中电视广播、有线电视发射、卫星电视发射、例如HTTP动态自适应性流式传输(DASH)等的因特网流视频发射、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码，或其它应用。在一些实施例中，系统10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频播放、视频广播及/或视频电话等的应用。

在图1中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。源装置12的视频编码器20可经配置以应用用于译码位流的技术，所述位流包含符合多个标准或标准扩展的视频数据。在其它实施例中，源装置及目的地装置可包含其它组件或布置。举例来说，源装置12可自外部视频源18(例如外部摄影机等)接收视频数据。同样地，目的地装置14可与外部显示装置介接，而非包含整合式显示装置。

源装置12的视频源18可包含例如视频摄影机等的视频捕捉装置、含有先前捕捉的视频的视频存档，及/或自视频内容提供者接收视频的视频馈入接口。视频源18可产生基于计算机图形的数据作为源视频，或实况视频、经封存视频及计算机产生的视频的组合。在一些实施例中，如果视频源18为视频摄影机，则源装置12及目的地装置14可形成所谓的摄影机电话或视频电话。经捕捉、预先捕捉或计算机产生的视频可由视频编码器20进行编码。经编码视频信息可由输出接口22输出至计算机可读媒体16。

计算机可读媒体16可包含暂态媒体，例如无线广播或有线网络发射等；或存储媒体(例如，非暂时性存储媒体)，例如硬盘、随身盘、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体等。网络服务器(图中未示)可自源装置12接收经编码视频数据，且将所述经编码的视频数据提供至目的地装置14(例如，经由网络发射)。媒体生产设施(例如光盘压印设施等)的计算装置可自源装置12接收经编码视频数据且产生含有所述经编码视频数据的光盘。因此，可将计算机可读媒体16理解成包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28可自计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的可由视频解码器30使用的语法信息，所述语法信息包含描述块及其它经译码单元(例如，GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包含多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置等。

视频编码器20及视频解码器30可根据例如目前在开发中的高效率视频译码(HEVC)标准的视频译码标准等而操作，且可符合HEVC测试模型(HM)。替代性地，视频编码器20及视频解码器30可根据例如替代地被称作MPEG-4第10部分高级视频译码(AVC)的ITU-TH.264标准的其它专属或行业标准或者这些标准的扩展等而操作。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管未展示于图1中，但在一些方面中，视频编码器20及视频解码器30可各自与音讯编码器及解码器整合，且可包含适当MUX-DEMUX单元或其它硬件及软件以处置共同数据流或独立数据流中的音讯及视频两者的编码。如果适用，则MUX-DEMUX单元可符合ITU H.223复用器协议，或例如用户数据报协议(UDP)等的其它协议。

视频编码器20及视频解码器30可各自实施为多种合适编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件等或其任何组合。当所述技术部分地以软件实施时，装置可将针对软件的指令存储于非暂时性计算机可读媒体中，且使用一或多个处理器来执行硬件中的所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中，其中任一者可整合为相应装置中的组合式编码器/解码器(编码解码器(CODEC))的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置(例如，蜂窝电话等)。

JCT-VC正致力于HEVC标准的开发。HEVC标准化努力是基于视频译码装置的被称作HEVC测试模型(HM)的演进模型。HM假设视频译码装置相对于根据(例如)ITU-T H.264/AVC的现有装置的若干额外能力。举例来说，鉴于H.264提供九个帧内预测编码模式，HM可提供多达三十三个帧内预测编码模式。

一般来说，HM的工作模型描述，视频帧或图片可划分成包含明度样本及色度样本两者的树型块或最大译码单元(LCU)的序列。位流内的语法数据可定义LCU的大小，LCU就像素的数目来说为最大译码单元。图块包含按译码次序的数个连续树型块。可将视频帧或图片分割成一或多个图块。每一树型块可根据四分树而分裂成数个译码单元(CU)。一般来说，四分树数据结构每CU包含一个节点，其中根节点对应于树型块。若将CU分裂成四个子CU，则对应于所述CU的节点包含四个叶节点，所述四个叶节点中的每一者对应于所述子CU中的一者。

所述四分树数据结构中的每一节点可提供针对对应CU的语法数据。举例来说，四分树中的节点可包含分裂标志，从而指示是否将对应于节点的CU分裂成子CU。可递归地定义针对CU的语法元素，且针对CU的语法元素可取决于CU是否分裂成子CU。如果CU未经进一步分裂，则其被称作叶CU。在本发明中，即使不存在原始叶CU的显式分裂，一叶CU的四个子CU还将被称作叶CU。举例来说，如果16×16大小的CU未经进一步分裂，则四个8×8子CU还将被称作叶CU，尽管16×16CU从未经分裂。

除了CU不具有大小区别之外，CU的用途类似于H.264标准的宏块的用途。举例来说，树型块可分裂成四个子节点(也被称作子CU)，且每一子节点可又为父节点并分裂成另外四个子节点。被称作四分树的叶节点的最终未分裂子节点包括译码节点，所述译码节点也被称作叶CU。与经译码位流相关联的语法数据可定义可分裂树型块的最大次数(其被称作最大CU深度)，且还可定义所述译码节点的最小大小。因此，位流还可定义最小译码单元(SCU)。本发明使用术语“块”来指HEVC的内容脉络中的CU、PU或TU中的任一者，或其它标准的内容脉络中的类似数据结构(例如，在H.264/AVC中的宏块及其子块)。

CU包含译码节点，及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小，且形状必须为正方形。CU的大小的范围可自8×8个像素直至具有最大64×64像素或大于64×64像素的树型块的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)CU至一或多个PU的分割。分割模式可视CU经跳过或直接模式编码、经帧内预测模式编码抑或经帧间预测模式编码而不同。PU的形状可分割成非正方形。与CU相关联的语法数据还可描述例如CU根据四分树至一或多个TU的分割。TU的形状可为正方形或非正方形(例如，矩形)。

HEVC标准允许根据TU的变换，所述变换对于不同CU可不同。通常基于针对经分割LCU所定义的给定CU内的PU的大小而设定TU的大小，尽管可能并非总是如此状况。TU大小通常与PU相同，或小于PU。在一些实例中，可使用称为“残余四分树”(RQT)的四分树结构而将对应于CU的残余样本再分为更小的单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生可经量化的变换系数。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于对应CU的全部或一部分的空间区域，且可包含用于撷取PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可包含于残余四分树(RQT)中，残余四分树可包含描述对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含定义所述PU的一或多个运动向量的数据。定义PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，及/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。可使用RQT(还被称作TU四分树结构)指定变换单元，如上文所论述。举例来说，分裂标志可指示叶CU是否分裂成四个变换单元。接着，每一变换单元可进一步分裂成其它子TU。当TU不进一步分裂时，其可被称作叶TU。通常，对于帧内译码，属于叶CU的所有叶TU共享相同帧内预测模式。即，通常应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可将使用帧内预测模式的每一叶TU的残余值计算为CU的对应于所述TU的部分与原始块之间的差。TU未必限于PU的大小。因此，TU可能大于或小于PU。对于帧内译码，PU可与用于同一CU的对应叶TU并置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

此外，叶CU的TU还可与被称作残余四分树(RQT)的相应四分树数据结构相关联。即，叶CU可包含指示如何将叶CU分割成TU的四分树。TU四分树的根节点通常对应于叶CU，而CU四分树的根节点通常对应于树型块(或LCU)。RQT的不分裂的TU被称作叶TU。一般来说，除非另有指示，否则本发明分别使用术语CU及TU来指叶CU及叶TU。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列视频图片中的一或多者。GOP可在GOP的标头、图片中的一或多者的标头中或在别处包含语法数据，所述语法数据描述包含于GOP中的图片的数目。图片的每一图块可包含描述所述相应图块的编码模式的图块语法数据。视频编码器20通常对个别视频图块内的视频块进行操作，以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且可根据指定译码标准而在大小上不同。

作为一实例，HM支持以各种PU大小进行预测。假定特定CU的大小为2N×2N，则HM支持以2N×2N或N×N的PU大小进行帧内预测，及以2N×2N、2N×N、N×2N或N×N的对称PU大小进行帧间预测。HM还支持以2N×nU、2N×nD、nL×2N及nR×2N的PU大小进行帧间预测的不对称分割。在不对称分割中，CU的一个方向未分割，而另一方向分割成25％与75％。CU的对应于25％分割的部分由“n”继之以“上”、“下”、“左”或“右”的指示来指示。因此，例如，“2N×nU”指在水平方向上以顶部2N×0.5N PU及底部2N×1.5N PU分割的2N×2N CU。

在本发明中，“N×N”与“N乘N”可互换地使用以指视频块在垂直尺寸与水平尺寸方面的像素尺寸，例如，16×16像素或16乘16像素。一般来说，16×16块在垂直方向上将具有16个像素(y＝16)且在水平方向上将具有16个像素(x＝16)。同样，N×N块通常在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。可按列及行来布置块中的像素。此外，块未必需要在水平方向上具有与在垂直方向上相同的数目个像素。举例来说，块可包括N×M个像素，其中M未必等于N。

在使用CU的PU的帧内预测性或帧间预测性译码之后，视频编码器20可计算CU的TU的残余数据。PU可包括描述在空间域(亦称作像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在将例如离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换的变换应用至残余视频数据之后变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残余数据的TU，且接着变换所述TU以产生CU的变换系数。

在任何变换以产生变换系数之后，视频编码器20可执行变换系数的量化。量化是意欲具有其最广泛一般含义的广义术语。在一个实施例中，量化指如下过程：将变换系数量化以可能地减少用以表示所述系数的数据的量，从而提供进一步压缩。所述量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说，可在量化期间将n位值降值舍位至m位值，其中n大于m。

在量化之后，视频编码器可扫描变换系数，从而自包含经量化的变换系数的二维矩阵产生一维向量。扫描可经设计成将较高能量(且因此较低频率)系数置于阵列前部，且将较低能量(且因此较高频率)系数置于阵列后部。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化的变换系数，以产生可经熵编码的串列化向量。在其它实例中，视频编码器20可执行自适应性扫描。在扫描经量化的变换系数以形成一维向量之后，视频编码器20可(例如)根据上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进位算术译码(CABAC)、基于语法的上下文自适应性二进位算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法而熵编码所述一维向量。视频编码器20还可熵编码与经编码视频数据相关联的语法元素以供视频解码器30用于解码视频数据中。

为了执行CABAC，视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可能涉及例如符号的相邻值是否为非零。为了执行CAVLC，视频编码器20可针对待发射的符号选择可变长度码。VLC中的码字可经建构，使得相对较短码对应于更有可能的符号，而较长码对应于较不可能的符号。以此方式，使用VLC可达成位节省(与例如针对待发射的每一符号使用等长度码字相比较)。概率确定可基于指派给符号的上下文。

视频编码器20可进一步发送语法数据(例如基于块的语法数据、基于帧的语法数据，及基于GOP的语法数据等)至视频解码器30(例如，在帧标头、块标头、图块标头或GOP标头中)。GOP语法数据可描述相应GOP中的帧的数目，且帧语法数据可指示用以编码对应帧的编码/预测模式。

视频编码器

图2为说明可实施根据本发明中所描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部，包含(但不限于)下文关于图4更详细地描述的使用时间缩放函数执行空间缩放的方法。作为一个实例，层间预测单元66(在提供时)可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面并不限于此。在一些实例中，本发明中所描述的技术可在视频编码器20的各种组件间经共享。在一些实例中，此外或替代地，处理器(图中未示)可经配置以执行本发明中所描述的技术中的任一者或全部。

视频编码器20可执行视频图块内的视频块的帧内预测、帧间预测及层间预测(有时称作帧内译码、帧间译码或层间译码)。帧内译码依赖于空间预测以减少或移除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。层间译码依赖于同一视频译码序列内的不同层内的视频的预测。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等的帧间模式可指若干基于时间的译码模式中的任一者。

如图2中所示，视频编码器20接收视频帧内的待编码的当前视频块。在图2的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46、层间预测单元66及分割单元48。

对于视频块重建，视频编码器20包含还包含反量化单元58、反变换单元60及求和器62。解块滤波器(图2中未展示)还可经包含以对块边界进行滤波从而从经重建的视频移除方块效应伪影。如果需要，则解块滤波器通常将对求和器62的输出进行滤波。除解块滤波器外，还可使用额外滤波器(回路内或回路后)。为简洁起见未展示这些滤波器，但这些滤波器在需要时可对求和器50的输出进行滤波(作为回路内滤波器)。

在所述编码过程期间，视频编码器20接收待译码的视频帧或图块。可将所述帧或图块划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块来执行经接收视频块的帧间预测性译码，以提供时间预测。帧内预测单元46可替代性地执行接收到的视频块相对于与待译码的块相同的帧或图块中的一或多个相邻块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次(例如)以选择针对视频数据的每一块的适当译码模式。

此外，分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据的块分割成若干子块。举例来说，分割单元48可最初将帧或图块分割成LCU，且基于速率-失真分析(例如，速率-失真最佳化等)来将所述LCU中的每一者分割成子CU。模式选择单元40可进一步产生指示LCU至子CU的分割的四分树数据结构。四分树的叶节点CU可包含一或多个PU及一或多个TU。

模式选择单元40可选择译码模式(帧内、帧间或层间预测模式)中的一者(例如，基于错误结果)，且将所得的经帧内、帧间或层间译码的块提供至求和器50以产生残余块数据且提供至求和器62，以重建经编码块用作参考帧。模式选择单元40亦将语法元素(例如运动向量、帧内模式指示符、分割信息及其它此语法信息等)提供至熵编码单元56。

运动估计单元42及运动补偿单元44可高度整合，但为概念目的而分离地说明。由运动估计单元42执行的运动估计为产生运动向量的过程，运动向量估计视频块的运动。举例来说，运动向量可指示在当前视频帧或图片内的视频块的PU相对于在参考帧(或其它经译码单元)内的预测性块的位移(所述参考帧是相对于所述当前帧(或其它经译码单元)内正经译码的当前块)。预测性块为被发现在像素差方面紧密地匹配于待译码块的块，所述像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量予以确定。在一些实例中，视频编码器20可计算存储于参考帧存储器64中的参考图片的次整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分率像素位置的值。因此，运动估计单元42可执行相对于全像素位置及分率像素位置的运动搜寻，且以分率像素精度输出运动向量。

运动估计单元42通过比较帧间译码图块中的视频块的PU的位置与参考图片的预测性块的位置而计算所述PU的运动向量。参考图片可从第一参考图片列表(列表0)或第二参考图片列表(列表1)选择，所述列表中的每一者识别存储于参考帧存储器64中的一或多个参考图片。运动估计单元42将经计算运动向量发送至熵编码单元56及运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及到基于由运动估计单元42所确定的运动向量来提取或产生预测性块。在一些实例中，运动估计单元42及运动补偿单元44可在功能上进行整合。在接收到当前视频块的PU的运动向量时，运动补偿单元44可将运动向量所指向的预测性块定位于参考图片列表中的一者中。求和器50通过从被译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块，从而形成像素差值，如下文所论述。在一些实施例中，运动估计单元42可相对于明度分量而执行运动估计，且运动补偿单元44可将基于所述明度分量所计算的运动向量用于色度分量与明度分量两者。模式选择单元40可产生与视频块及视频图块相关联的语法元素以供视频解码器30用于解码视频图块的视频块。

作为由运动估计单元42及运动补偿单元44执行的帧间预测的替代例，帧内预测单元46可帧内预测或计算当前块，如上文所描述。详言之，帧内预测单元46可确定用来编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可例如在分离的编码遍次期间使用各种帧内预测模式来编码当前块，且帧内预测单元46(或在一些实例中，模式选择单元40)可自所测试的模式选择适当帧内预测模式以使用。

举例来说，帧内预测单元46可使用对各种经测试的帧内预测模式的速率-失真分析而计算速率-失真值，且在经测试的模式间选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析通常确定经编码块与原始未经编码块之间的失真(或错误)量以及用以产生经编码块的位速率(即，位数目)，所述原始未经编码块经编码以产生经编码块。帧内预测单元46可自各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现块的最佳速率-失真值。

在选择块的帧内预测模式之后，帧内预测单元46可将指示块的所选择帧内预测模式的信息提供至熵编码单元56。熵编码单元56可编码指示所选择帧内预测模式的信息。视频编码器20可在经发射的位流中包含配置数据，所述配置数据可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也被称作码字映射表)、各种块的编码上下文的定义及将用于所述上下文中的每一者的最有可能的帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示。

视频编码器20可包含层间预测单元66。层间预测单元66经配置以使用在SVC中可用的一或多个不同层(例如，基础层或参考层)来预测当前块(例如，EL中的当前块)。此预测可被称作层间预测。层间预测单元66利用预测方法来减少层间冗余，借此改善译码效率并减少计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中并置块的重建以预测增强层中的当前块。层间模式预测使用基础层的运动信息来预测增强层中的运动。层间残余预测使用基础层的残余来预测增强层的残余。当基础层与增强层具有不同空间分辨率时，使用时间缩放函数的空间运动向量缩放及/或层间位置映射可通过层间预测单元66来执行，如下文更详细地描述。

视频编码器20通过自正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等的变换应用于残余块，从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。举例来说，还可使用离散正弦变换(DST)、小波变换、整数变换、子频带变换或其它类型的变换。

变换处理单元52可将变换应用至残余块，从而产生残余变换系数块。所述变换可将残余信息自像素值域转换至变换域(例如频域等)。变换处理单元52可将所得的变换系数发送至量化单元54。量化单元54量化所述变换系数以进一步减少位率。所述量化过程可减少与所述系数中的一些或全部相关联的位深度。可通过调整量化参数而修改量化程度。在一些实例中，量化单元54可接着执行包含经量化的变换系数的矩阵的扫描。替代性地，熵编码单元56可执行所述扫描。

在量化之后，熵编码单元56熵编码经量化的变换系数。举例来说，熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进位算术译码(CABAC)、基于语法的上下文自适应性二进位算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的状况下，上下文可基于相邻块。在通过熵编码单元56进行熵译码之后，可将经编码位流式传输至另一装置(例如，视频解码器30)或经存档以供稍后发射或撷取。

反量化单元58及反变换单元60分别应用反量化及反变换以在像素域中重建残余块(例如，以供稍后用作参考块)。运动补偿单元44可通过将残余块加至参考帧存储器64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建的残余块以计算次整数像素值以供用于运动估计中。求和器62将经重建的残余块加至由运动补偿单元44产生的运动补偿预测块，以产生经重建的视频块以供存储于参考帧存储器64中。经重建的视频块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧中的块进行帧间译码。

视频解码器

图3为说明可实施根据本发明中所描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部，包含(但不限于)下文关于图4更详细地描述的使用时间缩放函数执行空间缩放的方法。作为一个实例，层间预测单元75可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面并不限于此。在一些实例中，本发明中所描述的技术可在视频解码器30的各种组件间经共享。在一些实例中，此外或替代地，处理器(图中未示)可经配置以执行本发明中所描述的技术中的任一者或全部。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、层间预测单元75、反量化单元76、反变换单元78、参考帧存储器82及求和器80。在一些实施例中，运动补偿单元72及/或帧内预测单元74可经配置以执行层间预测，在所述状况下，层间预测单元75可被省略。在一些实例中，视频解码器30可执行解码遍次，所述解码遍次大体上与关于视频编码器20(图2)所描述的编码遍次互逆。运动补偿单元72可基于自熵解码单元70接收的运动向量而产生预测数据，而帧内预测单元74可基于自熵解码单元70接收的帧内预测模式指示符而产生预测数据。

在解码过程期间，视频解码器30自视频编码器20接收经编码的视频位流，所述视频位流表示经编码视频图块的视频块及关联语法元素。视频解码器30的熵解码单元70熵解码位流以产生经量化的系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转递至运动补偿单元72。视频解码器30可以视频图块层级及/或视频块层级接收语法要素。

当视频图块经译码为帧内译码(I)图块时，帧内预测单元74可基于经发信的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频图块的视频块的预测数据。当视频帧译码为帧间译码(例如，B、P或GPB)图块时，运动补偿单元72基于接收自熵解码单元70的运动向量及其它语法元素而产生当前视频图块的视频块的预测性块。可自参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器30可基于存储于参考帧存储器82中的参考图片而使用默认建构技术来建构参考帧列表(列表0及列表1)。运动补偿单元72通过剖析运动向量及其它语法元素而确定当前视频图块的视频块的预测信息，且使用所述预测信息以产生正经解码的当前视频块的预测性块。举例来说，运动补偿单元72使用一些所接收的语法元素以确定用以译码视频图块的视频块的预测模式(例如，帧内预测或帧间预测)、帧间预测图块类型(例如，B图块、P图块或GPB图块)、图块的参考图片列表中的一或多者的建构信息、图块的每一帧间编码视频块的运动向量、图块的每一帧间译码视频块的帧间预测状态，及用以解码当前视频图块中的视频块的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器，以计算参考块的次整数像素的内插值。在此状况下，运动补偿单元72可自所接收的语法元素确定由视频编码器20使用的内插滤波器，且使用所述内插滤波器来产生预测性块。

视频解码器30还可包含层间预测单元75。层间预测单元75经配置以使用在SVC中可用的一或多个不同层(例如，基础层或参考层)来预测当前块(例如，EL中的当前块)。此预测可被称作层间预测。层间预测单元75利用预测方法来减少层间冗余，借此改善译码效率并减少计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测及层间残余预测。层间帧内预测使用基础层中并置块的重建以预测增强层中的当前块。层间模式预测使用基础层的运动信息来预测增强层中的运动。层间残余预测使用基础层的残余来预测增强层的残余。当基础层与增强层具有不同空间分辨率时，空间运动向量缩放及/或层间位置映射可使用时间缩放函数通过层间预测单元75来执行，如下文更详细地描述。

反量化单元76反量化(例如，解量化)提供于位流中且由熵解码单元70解码的经量化变化系数。反量化过程可包含使用视频图块中每一视频块的通过视频解码器30计算的量化参数QPY来确定应应用的量化程度且同样反量化程度。

反变换单元78将反变换(例如，反DCT、反DST、反整数变换或概念上类似的反变换过程)应用于变换系数，以便在像素域中产生残余块。

在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块之后，视频解码器30通过对来自反变换单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码视频块。求和器90表示执行此求和运算的(多个)组件。如果需要，还可应用解块滤波器来对经解码块滤波以便移除方块效应伪影。其它回路滤波器(译码回路内或译码回路后)还可用以使像素转变平滑，或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储于参考图片存储器92中，参考图片存储器92存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频以用于稍后在显示装置(例如图1的显示装置32等)上呈现。

运动向量缩放

如上文所论述，在一些实施例中，作为编码或解码过程的部分缩放运动向量。举例来说，来自具有不同于当前块的层的空间分辨率的层的运动向量在用以编码或解码当前块之前可经缩放。在一个实施例中，处理器经配置以实施运动向量缩放方法。所述方法的第一步骤可为改变上文论述的输入参数iScaleBase为：

使用增强层高度值与基础层高度值的比率确定的iScaleBase提供优于使用增强层宽度值与基础层宽度值的比率的优点，此是因为高度值通常小于宽度。

作为输入参数计算的方法的另一实施例，偏移可被添加至等式如下：

其中偏移可为对应于0.5舍位偏移值的blW/2。在提供舍位偏移的另一实施例中，输入参数可为：

如上文所论述，这些输入参数可用作对在HEVC标准下已存在的TMVP时间缩放函数的输入以执行空间缩放。将现有TMVP时间缩放函数用于执行空间缩放提供允许空间缩放而不将新的特定缩放函数引入至HEVC标准或其扩展(例如SHVC扩展等)的优点。

水平方向及垂直方向的缩放性比率

如果所要的是缩放性比率在水平方向与垂直方向上应不同，则上文所描述的方法可通过分别引入两个缩放参数iScaleBaseX及iScaleBaseY用于水平方向及垂直方向来扩展。在一个实施例中：

其中缩放因数N可为整数，例如256等。在另一实例中，可将偏移添加至每一缩放参数的分子。

在此实施例中，TMVP缩放函数将具有两个输入参数iScaleBaseX及iScaleBaseY，且TMVP缩放方法可独立地应用于每一运动向量分量。举例来说，TMVP函数可被调用两次；第一次使用iScaleBaseX作为输入，且第二次使用iScaleBaseY作为输入。

此外，下文依据一个缩放性比率描述的所有方法及技术可类似地独立应用至水平及垂直缩放性比率。举例来说，类似方法可针对下文描述的位置映射而执行，其中可引入两个缩放参数(例如，一个缩放参数用于水平方向，且一个缩放参数用于垂直方向)。对于水平参数计算，使用elW及blW，且对于垂直参数计算，使用elH及blH。

除法的数据范围减少

在一些实施例中，为了减少计算、频宽及/或存储器成本，iScaleBase参数的除法运算通过将除数约束于某(例如，预定)范围内而受到限制。如此做，除法运算可通过较小大小的查找表来实施。

基础层宽度或高度及增强层宽度或高度的值经减少，使得基础层宽度将在(0,blMax)的范围内，其中blMax为最大可能基础层宽度值，且其可连接至所述大小的查找表。此值愈小，则可使用的查找表愈小。查找表大小与准确度之间的最佳阈值可通过改变blMax值来找到。

对于给定数字blMax，移位的数目(或2的幂的除数)针对基础层宽度或高度进行计算，以使得值在(0,blMax)的范围内。在一个实施例中，移位数目被称作N，且基础层的对应除数为2^N。二的幂可用以简化实施，此是由于除以二的运算可由位移位来执行。然而，在其它实施例中，值可为小于基础层宽度或高度的任何数字。

接着，基础层及增强层向右移位N以保持相同缩放性比率。最终输入参数计算可表达为：

iScaleBase＝((elW>>N)<<8)/(blW>>N)。

变体公式可用以减少舍位错误：

iScaleBase＝((elW<<8)>>N)/(blW>>N)，

其中(blW>>N)是在范围(0,blMax)内，从而具有上限值，且向左移位8用以使TMVP缩放函数的输入参数正规化(例如，1的缩放对应于256)。

此外，舍位偏移可经添加至以上公式。举例来说，可添加偏移为：

iScaleBase＝(((elW>>N)+offset))<<8)/(blW>>N)，

其中偏移可为对应于0.5舍位偏移值的(blW>>(N+1))。舍位偏移的另一变体可为(blW>>(N+1))-1，其中使用朝向零的舍位。

以下变体针对elW的减少的数据范围可用以减少舍位错误：

iScaleBase＝(((elW<<8)>>N)+offset))/(blW>>N)。

类似地，偏移可设定为(blW>>(N+1))，从而对应于0.5舍位偏移值，或(blW>>(N+1))-1从而对应于朝向零的舍位。所有以上等式中的变数blW及elW都可由blH及elH替换。

C++实施

C++实施的一个实例如下：

其中iBWidth为基础层宽度，iEWidth为增强层宽度。尽管此实施例省略舍位偏移，但可包含舍位偏移，如上文所论述。

避免除法运算

为了自除法运算至查找表存取函数的更容易转换，输入参数计算可实施如下：

在另一实施例中，添加偏移：

其中偏移可设定为如上文所论述的blW/2或在另一实施例中：

其中K为预定恒定值(例如，K的一个实例值为16)。通过此表达式，除法可易于被查找表替换。

上文所描述的方法可又应用至此“避免除法运算”章节的方法。举例来说，在一个实施例中，blW被向右移位N个位，使得(blW>>N)的经移位值是在预定范围(0,blMax)内。(2^K/(blW>>N))的值存储于针对范围(0,blMax)内的(blW>>N)的查找表中。

计算可经执行为：

在另一实施例中：

其中偏移可设定为如上文所提及的(blW＞＞(N+1)或((blW＞＞(N+1)-1)。

如上文所提及，所有以上等式中的变数blW及elW可被blH及elH替换。

层间位置映射的改善

简化除法运算可应用到使用根据缩放性纵横比的除法的其它元件。举例来说，可能还有必要的是，除以基础层宽度或高度以在基础层图片中定位并置像素位置。在此状况下，上文所论述且用以缩放运动向量的相同技术或方法可经应用以计算并置像素或并置块在基础层中的位置。

如上文所提及，像素(或块)在基础层中的x及y坐标(blx,bly)可表达为：

其中x及y对应于像素在增强层中的坐标，且blW、elW、blH及elH分别对应于基础层宽度及高度以及增强层宽度及高度。以上等式可经修改如下：

blx＝(x*iScaleBase'+offset1)>>M

bly＝(y*iScaleBase'+offset1)>>M

其中iScaleBase'可计算为

上文所提及的所有方法可应用到以上等式以减少除以elW的运算的成本。又，上文所描述的偏移中的任一者可经应用以界定以上offset1。

查找表实施

在另一实施例中，除法运算通过用查找表替换除法运算而被移除，所述查找表是基于基础层及增强层的宽度及/或高度的范围减少的值。

在一个实施例中，基础层及增强层的宽度及/或高度的值经减少以确保其将分别在(0,blMax)与(0,elMax)的范围内。blMax为最大可能基础层宽度及/或高度值，且elMax为最大可能增强层宽度及/或高度值。blMax及elMax两者可连接到或涉及查找表的大小。这些值愈小，则可使用的查找表愈小。

此方法提供计算复杂性与缩放的准确度之间的取舍。查找表大小与准确度之间的最佳阈值可通过改变blMax及elMax值来找到。

对于给定数字blMax，移位的数目(或2的幂的除数)针对基础层及/或宽度或高度进行计算，以使得值分别在(0,blMax)及/或(0,elMax)的范围内。举例来说，移位数目可表示为Nb，且基础层的对应除数将为2^Nb。相同技术及方法可又应用到增强层。2的幂可归因于易于运算而被选定，此是由于除法可由移位来执行；然而，在其它实施例中，除数可为小于基础层宽度或高度的任何数字。

基础层及增强层随后向右移位Nb及Ne，以维持相同缩放性比率。最终输入参数计算可表达为：

iScaleBase＝LookUpTable[(iEWidth>>N_e)][(iBWidth>>N_b)]。

LookUpTable函数可基于舍位准确度、速率失真成本等以许多方式来实施。此外，所有以上等式中的变数iEWidth及iBWidth可被iEHeight及iBHeight替换。

图4说明使用时间缩放函数执行空间缩放的方法的一个实施例，所述方法可通过图2的视频编码器20或图3的视频解码器30来执行。方法400可通过以下各者中的任何一或多者来执行：图2的视频编码器20的运动估计单元42、运动补偿单元44、帧内预测单元46及层间预测单元66。在另一实施例中，方法400可通过以下各者中的任何一或多者来执行：图3的解码器的运动补偿单元72、帧内预测单元74，及层间预测单元75。

方法400以块410开始。在块420处，确定基础层(BL)及增强层(EL)空间尺寸值。举例来说，在块420处，可确定基础层图片的宽度及增强层图片的宽度。在另一实施例中，在块420处，确定基础层图片的高度及增强层图片的高度。在另一实施例中，尺寸在BL及EL两者中为相同尺寸。

在块430处，基于BL及EL空间尺寸值来确定缩放因数，使得缩放因数受约束于预定范围内。举例来说，BL尺寸值可经约束以在(0,blMax)的范围内，如上文所论述；且EL尺寸值可经约束以在(0,elMax)范围内，如上文所论述。在一个实施例中，缩放因数通过使EL与BL尺寸值的比率乘以第一值且使所述乘积除以第二值而受到约束。在一个实施例中，第二值为2的幂，使得除法可通过向右移位运算来执行。缩放因数受到约束，使得缩放因数可与预先存在的运动向量缩放过程或函数(例如HEVC规范提供的TMVP缩放过程等)一起使用。在一个实施例中，缩放因数通过使用截割函数受到约束。

在块440处，使用时间缩放函数及缩放因数来空间缩放与EL或BL相关联的元素。举例来说，在一个实施例中，元件对应于与BL中的视频块相关联的运动向量。在另一实施例中，元素对应于BL中像素或视频块的空间方位(或位置)。方法400继续到块450且结束。

虽然以上揭示内容已描述了特定实施例，但许多变化为可能的。举例来说，如上文所提及，以上技术可应用至3D视频编码。在3D视频的一些实施例中，参考层(例如，基础层)包含足以显示视频的第一视图的视频信息，且增强层包含相对于参考层的额外视频信息，使得参考层及增强层一起包含足以显示视频的第二视图的视频信息。这些两个视图用以产生立体影像。如上文所论述，根据本发明的方面，来自参考层的运动信息可用以在编码或解码增强层中的视频单元时识别额外隐含假定。此情形可提供3D视频位流的更大译码效率。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可以不同序列执行、可经添加、合并或完全省略(例如，对于实践所述技术来说并非所有所描述的动作或事件皆为必要的)。此外，在某些实例中，可例如经由多线程处理、中断处理或多个处理器并行而非顺序地执行动作或事件。

本文中所揭示的信息及信号可使用多种不同技艺及技术中的任一者来表示。举例来说，可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可贯穿以上描述内容所提及的数据、指令、命令、信息、信号、位、符号及码片。

可将结合本文中所揭示的实施例而描述的各种说明性逻辑块、模块、电路及算法步骤实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体在功能性方面描述了各种说明性组件、块、模块、电路及步骤。此功能性实施为硬件抑或软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以变化的方式实施所描述的功能性，但不应将所述实施决策解译为导致偏离本发明的范畴。

本文中所描述的技术可以硬件、软件、固件或其任一组合来实施。这些技术可实施于例如以下各者等的多种装置中的任一者中：通用计算机、无线通信装置手机，或具有多个用途(包含无线通信装置手机及其它装置中的应用程序)的集成电路装置。描述为模块或组件的任何特征可一起实施于整合逻辑装置中或独立地实施为离散但可共同操作的逻辑装置。如果以软件来实施，则可至少部分由包括程序代码的计算机可读数据存储媒体实现所述技术，所述程序代码包含在执行时执行上文所描述方法中的一或多者的指令。计算机可读取数据存储媒体可形成计算机程序产品的部分，所述计算机程序产品可包含包装材料。计算机可读媒体可包括存储器或数据存储媒体，例如随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM)等)、仅读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可抹除可编程仅读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等及其类似者。另外或替代地，可至少部分通过计算机可读通信媒体(例如所传播的信号或波等)来实现所述技术，所述计算机可读通信媒体携载或传达呈指令或数据结构的形式的程序代码且可由计算机来存取、读取及/或执行。

可由处理器来执行程序代码，所述处理器可包含一或多个处理器，例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效整合或离散逻辑电路等。此处理器可经配置以执行本发明中所描述的技术中的任一者。通用处理器可为微处理器，但在替代例中，处理器可为任何习知处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器，或任一其它此配置。因此，如本文中所使用的术语“处理器”可指前述结构中的任一者、前述结构的任何组合，或适于实施本文中所描述的技术的任何其它结构或设备。此外，在一些方面中，可将本文中所描述的功能性提供于经配置以用于编码及解码的专用软件模块或硬件模块内，或并入于组合式视频编码器-解码器(CODEC)中。

已描述了本发明的各种实施例。这些及其它实施例是在以下【权利要求书】的范畴内。

Claims

1.一种用于对视频信息译码的设备，所述设备包括：

存储器单元，其经配置以存储与基础层BL、增强层EL或两者相关联的视频信息，其中所述BL包括一或多个BL图片，所述一或多个BL图片具有第一BL空间尺寸值及第二BL空间尺寸值，且所述EL包括一或多个EL图片，所述一或多个EL图片具有第一EL空间尺寸值及第二EL空间尺寸值；以及

处理器，其可操作地耦合到所述存储器单元且经配置以：

基于所述第一BL空间尺寸值及所述第一EL空间尺寸值确定(1)第一缩放因数，及基于所述第二BL空间尺寸值及所述第二EL空间尺寸值确定(2)第二缩放因数，其中所述第一缩放因数不同于所述第二缩放因数；

使用所确定的第一缩放因数作为到缩放函数的输入而空间缩放与所述BL相关联的元素的第一分量，其中所述缩放函数经配置以时间缩放运动向量以产生时间运动向量预测子TMVP；

使用所确定的第二缩放因数作为到所述缩放函数的输入来空间缩放与所述BL相关联的所述元素的第二分量；以及

使用所述元素的经空间缩放的第一及第二分量译码所述视频信息。

2.根据权利要求1所述的设备，其中所述第一及第二BL空间尺寸值分别包括BL宽度及BL高度，且所述第一及第二EL空间尺寸值分别包括EL宽度及EL高度。

3.根据权利要求1所述的设备，其中所述第一缩放因数包括(a)所述第一EL空间尺寸值与所述第一BL空间尺寸值的比率与(b)第一预定值的乘积，且所述第二缩放因数包括(a)所述第二EL空间尺寸值与所述第二BL空间尺寸值的比率与(b)所述预定值的乘积。

4.根据权利要求3所述的设备，其中所述预定值为256。

5.根据权利要求1所述的设备，其中所述第一EL空间尺寸值包括(a)EL宽度尺寸值乘以预定值与(b)偏移值的总和，且其中所述第一BL空间尺寸值包括BL宽度尺寸值。

6.根据权利要求5所述的设备，其中所述偏移值为所述BL宽度尺寸值的一半。

7.根据权利要求5所述的设备，其中所述偏移值为小于所述BL宽度尺寸值的一半的值。

8.根据权利要求1所述的设备，其中所述第一EL空间尺寸值及所述第一BL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

9.根据权利要求1所述的设备，其中所述处理器经进一步配置以使用所述元素的经空间缩放的第一及第二分量将所述视频信息编码于位流中。

10.根据权利要求1所述的设备，其中所述处理器经进一步配置以使用所述元素的经空间缩放的第一及第二分量将所述视频信息解码于位流中。

11.根据权利要求1所述的设备，其中所述元素包括运动向量。

12.根据权利要求1所述的设备，其中所述元素包括像素或视频块的空间位置。

13.根据权利要求1所述的设备，包括其中所述设备为选自由以下各者组成的群组的装置：数字电视、数字直播系统、无线广播系统、个人数字助理PDA、膝上型计算机、台式计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝电话、卫星无线电电话、智能电话、视频电话会议装置，及视频流式传输装置。

14.根据权利要求1所述的设备，其中所述处理器经进一步配置以在不执行除法运算的情况下确定所述第一及第二缩放因数。

15.根据权利要求1所述的设备，其中所述处理器经进一步配置以通过使用针对与所述第一及第二缩放因数相关联的每一除法运算的查找表来确定所述第一及第二缩放因数。

16.根据权利要求1所述的设备，其中所述第二BL空间尺寸值及所述第二EL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

17.根据权利要求16所述的设备，其中所述第二BL空间尺寸为所述一或多个BL图片的高度，且所述第二EL空间尺寸值为所述一或多个EL图片的高度。

18.一种解码视频信息的方法，所述方法包括：

通过耦合到经配置以存储与基础层BL、增强层EL或两者相关联的视频信息的存储器单元的处理器，其中所述BL包括一或多个BL图片，所述一或多个BL图片具有第一BL空间尺寸值及第二BL空间尺寸值，且所述EL包括一或多个EL图片，所述一或多个EL图片具有第一EL空间尺寸值及第二EL空间尺寸值，

使用所述元素的经空间缩放的第一及第二分量解码所述视频信息。

19.根据权利要求18所述的方法，其中所述第一及第二BL空间尺寸分别包括BL宽度及BL高度，且所述第一及第二EL空间尺寸值分别包括EL宽度及EL高度。

20.根据权利要求18所述的方法，其中所述第一缩放因数包括(a)所述第一EL空间尺寸值与所述第一BL尺寸值的比率与(b)第一预定值的乘积，且所述第二缩放因数包括(a)所述第二EL空间尺寸值与所述第二BL尺寸值的比率与(b)所述预定值的乘积。

21.根据权利要求20所述的方法，其中所述预定值为256。

22.根据权利要求18所述的方法，包括其中所述第一EL空间尺寸值包括(a)EL宽度尺寸值乘以预定值与(b)偏移值的总和，且其中所述第一BL空间尺寸值包括BL宽度尺寸值。

23.根据权利要求22所述的方法，其中所述偏移值为所述BL宽度尺寸值的一半。

24.根据权利要求22所述的方法，其中所述偏移值为小于所述BL宽度尺寸值的一半的值。

25.根据权利要求18所述的方法，其中所述第一EL空间尺寸值及所述第一BL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

26.根据权利要求18所述的方法，其中所述元素包括运动向量。

27.根据权利要求18所述的方法，其中所述元素包括像素或视频块的空间位置。

28.根据权利要求18所述的方法，其中确定所述第一及第二缩放因数包括在不执行除法运算的情况下确定所述第一及第二缩放因数。

29.根据权利要求18所述的方法，其中确定所述第一及第二缩放因数包括通过使用针对与所述第一及第二缩放因数相关联的每一除法运算的查找表来确定所述第一及第二缩放因数。

30.根据权利要求18所述的方法，其中所述第二BL空间尺寸值及所述第二EL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

31.根据权利要求30所述的方法，其中所述第二BL空间尺寸为所述一或多个BL图片的高度，且所述第二EL空间尺寸值为所述一或多个EL图片的高度。

32.一种编码视频信息的方法，所述方法包括：

使用所述元素的经空间缩放的第一及第二分量编码所述视频信息。

33.根据权利要求32所述的方法，其中所述第一及第二BL空间尺寸值分别包括BL宽度及BL高度，且所述第一及第二EL空间尺寸值分别包括EL宽度及EL高度。

34.根据权利要求32所述的方法，其中所述第一缩放因数包括(a)所述第一EL空间尺寸值与所述第一BL空间尺寸值的比率与(b)第一预定值的乘积，且所述第二缩放因数包括(a)所述第二EL空间尺寸值与所述第二BL空间尺寸值的比率与(b)所述预定值的乘积。

35.根据权利要求34所述的方法，其中所述预定值为256。

36.根据权利要求32所述的方法，其中所述第一EL空间尺寸值包括(a)EL宽度尺寸值乘以预定值与(b)偏移值的总和，且其中所述第一BL空间尺寸值包括BL宽度尺寸值。

37.根据权利要求36所述的方法，其中所述偏移值为所述BL宽度尺寸值的一半。

38.根据权利要求36所述的方法，其中所述偏移值为小于所述BL宽度尺寸值的一半的值。

39.根据权利要求32所述的方法，其中所述第一EL空间尺寸值及所述第一BL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

40.根据权利要求32所述的方法，其中所述元素包括运动向量。

41.根据权利要求32所述的方法，其中所述元素包括像素或视频块的空间位置。

42.根据权利要求32所述的方法，其中确定所述第一及第二缩放因数包括在不执行除法运算的情况下确定所述第一及第二缩放因数。

43.根据权利要求32所述的方法，其中确定所述第一及第二缩放因数包括通过使用针对与所述第一及第二缩放因数相关联的每一除法运算的查找表而确定所述第一及第二缩放因数。

44.根据权利要求32所述的方法，其中所述第二BL空间尺寸值及所述第二EL空间尺寸值在0到所述BL的最大宽度尺寸值的范围内。

45.根据权利要求44所述的方法，其中所述第二BL空间尺寸值为所述一或多个BL图片的高度，且所述第二BL空间尺寸值为所述一或多个EL图片的高度。

46.一种非暂时性计算机可读媒体，其存储指令，所述指令在执行时使得设备：

基于基础层BL中的BL图片的第一BL空间尺寸值及增强层EL中的EL图片的第一EL空间尺寸值确定(1)第一缩放因数，及基于所述BL图片的第二BL空间尺寸值及所述EL图片的第二EL空间尺寸值确定(2)第二缩放因数，其中所述第一缩放因数不同于所述第二缩放因数；

使用所述元素的经空间缩放的第一及第二分量译码视频信息。

47.根据权利要求46所述的媒体，其中所述第一缩放因数包括(a)所述第一EL空间尺寸值与所述第一BL空间尺寸值的比率与(b)第一预定值的乘积，且所述第二缩放因数包括(a)所述第二EL空间尺寸值与所述第二BL空间尺寸值的比率与(b)所述预定值的乘积。

48.根据权利要求46所述的媒体，其中所述指令使得所述设备在不执行除法运算的情况下确定所述第一及第二缩放因数。

49.一种经配置以对视频信息译码的设备，所述设备包括：

用于基于基础层BL中的BL图片的第一BL空间尺寸值及增强层EL中的EL图片的第一EL空间尺寸值确定(1)第一缩放因数及基于所述BL图片的第二BL空间尺寸值及所述EL图片的第二EL空间尺寸值确定(2)第二缩放因数的装置，其中所述第一缩放因数不同于所述第二缩放因数；

用于使用所确定的第一缩放因数作为到缩放函数的输入而空间缩放与所述BL相关联的元素的第一分量的装置，其中所述缩放函数经配置以时间缩放运动向量以产生时间运动向量预测子TMVP；

用于使用所确定的第二缩放因数作为到所述缩放函数的输入来空间缩放与BL相关联的所述元素的第二分量的装置；以及

用于使用所述元素的经空间缩放第一及第二分量译码所述视频信息的装置。

50.根据权利要求49所述的设备，其中所述第一缩放因数包括(a)所述第一EL空间尺寸值与所述第一BL空间尺寸值的比率与(b)第一预定值的乘积，且所述第二缩放因数包括(a)所述第二EL空间尺寸值与所述第二BL空间尺寸值的比率与(b)所述预定值的乘积。

51.根据权利要求49所述的设备，其中所述用于确定所述第一缩放因数的装置包括用于在不执行除法运算的情况下确定所述第一缩放因数的装置，且所述用于确定所述第二缩放因数的装置包括用于在不执行除法运算情况下确定所述第二缩放因数的装置。