CN104685880B

CN104685880B - 用于译码视频信息的设备、装置和方法及计算机可读介质

Info

Publication number: CN104685880B
Application number: CN201380051795.2A
Authority: CN
Inventors: 陈颖; 瓦迪姆·谢廖金
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-10-05
Filing date: 2013-10-02
Publication date: 2019-08-06
Anticipated expiration: 2033-10-02
Also published as: EP2904805B1; EP2904805A2; WO2014055631A2; JP2015532553A; TW201424398A; KR102142737B1; US10375405B2; ES2914950T3; KR20150065841A; TWI504239B; US20140098881A1; CN104685880A; WO2014055631A3; JP6352271B2; HUE058800T2

Abstract

根据某些方面，一种用于译码视频信息的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元经配置以存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息，其中所述第一空间分辨率小于所述第二空间分辨率。所述视频信息包含与所述第一层相关联的至少运动场信息。所述处理器升频采样与所述第一层相关联的所述运动场信息。所述处理器进一步将包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片添加到待用于帧间预测的参考图片列表。所述处理器可编码或解码所述视频信息。

Description

用于译码视频信息的设备、装置和方法及计算机可读介质

技术领域

本发明涉及视频译码和压缩、基于高效率视频译码(HEVC)的可缩放译码和基于HEVC的多视图与3DV译码的领域。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置，数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置和类似者。数字视频装置实施视频压缩技术，例如，在由MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4、先进式视频译码(AVC)第10部分、目前在开发中的高效率视频译码(HEVC)标准定义的标准和此类标准的扩展中描述的技术。所述视频装置可通过实施这些视频译码技术，更有效率地传输、接收、编码、解码和/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码，可将视频图块(例如，视频帧、视频帧的一部分等)分割成视频块(其也可被称作树型块)、译码单元(CU)和/或译码节点。可使用相关于图片中的相邻块中的参考样本的空间预测来编码同一图片的经帧内译码(I)图块中的视频块。图片的经帧间编码(P或B)图块中的视频块可使用相关于同一图片中的相邻块中的参考样本的空间预测或相关于其它参考图片中的参考样本的时间预测。图片可被称作帧，且参考图片可被称作参考帧。

空间预测或时间预测导致用于块的预测性块经译码。残余数据表示待译码的原始块与预测性块之间的像素差。根据指向形成预测性块的参考样本的块的运动向量和指示经译码块与预测性块之间的差异的残余数据来编码经帧间译码块。根据帧内译码模式和残余数据编码帧内译码块。为了进一步压缩，可将残余数据从像素域变换到变换域，从而导致残余变换系数，可接着量化残余变换系数。可扫描最初按二维阵列排列的经量化变换系数以便产生变换系数的一维向量，且可应用熵编码以达成甚至更多压缩。

发明内容

可缩放视频译码(SVC)指使用有时被称作参考层(RL)的基层(BL)和一或多个可缩放增强层(EL)的视频译码。对于SVC，基层可载运具有基本质量等级的视频数据。所述一或多个增强层可载运额外视频数据以支持较高空间、时间和/或信号对噪声SNR等级。可相对于先前编码的层定义增强层。

例如，底层可充当BL，而顶层可充当EL。中间层可充当EL或RL，或两者。例如，在中间的层可为针对在其下的层(例如，基层或任何介入增强层)的EL，且同时充当针对在其上的一或多个增强层的RL。

在HEVC扩展中，增强层中的当前块可使用基层中的对应的块来预测。例如，当前块的语法元素、运动信息(例如，运动向量)或模式信息(例如，帧内模式)可基于基层中的对应的块。例如，基层中的图片的运动向量可用以预测所述当前块的运动向量。

然而，基层与增强层可具有不同分辨率。当所述两个层具有不同空间分辨率时，可不易于由HEVC译码单元级设计存取一些信息(例如，基层的运动场)。通过在两个层具有不同空间分辨率时促进可缩放视频译码中的层间运动预测，本发明中描述的技术可在不显著修改HEVC的块级模块的情况下改善译码效率。

本发明的系统、方法和装置各自具有若干创新方面，所述方面中无任何单一方面单独地负责本文中所揭示的合乎需要的属性。

在一个实施例中，一种经配置以译码视频信息的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元经配置以存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息，其中所述第一空间分辨率小于所述第二空间分辨率。所述视频信息包含与所述第一层相关联的至少运动场信息。所述处理器经配置以升频采样与所述第一层相关联的所述运动场信息。所述处理器进一步将包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片添加到参考图片列表。所述处理器可进一步经配置以基于所述层间参考图片的所述经升频采样的运动场信息预测所述第二层的至少一部分。在一个实施例中，视频编码器或解码器可将所述层间参考图片的一部分用作待用于时间运动向量预测(TMVP)的同置型图片。在一个实施例中，所述运动场信息的所述升频采样可包括将译码树、译码单元、预测单元、模式、帧内模式、帧间模式和帧内预测模式中的至少一者与所述经升频采样的纹理图片相关联。

在一个实施例中，分开来针对所述第一层的所述层间参考图片中的每一4×4块执行所述运动场升频采样，且导出多达两个向量，每一向量与参考索引相关联。在另一实施例中，分开来针对所述第一层的所述层间参考图片中的每一16×16块执行所述运动场升频采样，且结合升频采样所述运动场信息而导出多达两个运动向量，每一向量与参考索引相关联。

在一个实施例中，对于所述第二层中的每一N×N块，将所述N×N块的中心位置映射到对应于所述第一层中的N×N块的唯一位置，且从与所述第一层中的所述N×N块相关联的所述经升频采样的运动场信息导出所述第二层中的所述N×N块的运动场信息。在一个实施例中，N可为至少16。在一个实施例中，所述第二层中的每一N×N块具有在所述层间参考图片中的特定同置型N×N块，且所述特定N×N块具有在所述第一层中的同置型块，从其针对所述特定N×N块升频采样所述运动场信息。在一个实施例中，已基于HEVC运动压缩而压缩所述第一层的所述运动场信息。在一个实施例中，首先在所述第二层中决定具有中心位置的像素样本(例如，针对所述增强层中的所述当前块)，且接着将其映射到所述第一层中的对应的位置(例如，层间、视图间或参考图片)。在另一实施例中，首先针对所述第一层中的对应的块决定具有中心位置的像素样本，且接着将其映射到所述第二层。

在一个实施例中，用等于所述第二空间分辨率与所述第一空间分辨率的比率的比率对所述第一层的所有N×N块升频采样。在所述运动场信息经升频采样且与含有所述经升频采样块的虚拟图片相关联之后，所述第二层(例如，增强层)中的每一N×N块的中心位置直接用以将所述块映射到所述虚拟图片中的对应的块。含有所述中心位置的所述对应的经升频采样块的运动信息的全集合再用于所述第二层中的所述N×N块。在另一实施例中，所述第二层中的所述N×N块的任何位置(例如，角落)用以将所述块映射到所述基层图片或所述经升频采样图片。在一个实施例中，当N×N块与所述第一层中的多个经升频采样块对准时，可进一步应用参考索引选择和运动向量选择。

在一个实施例中，如果第一层块的初始预测模式为帧内，那么在所述第一层的升频采样之后，针对所述第一层块保持所述帧内模式，且并不针对帧内块升频采样运动场。在另一实施例中，不管所述初始第一层预测模式，在升频采样之后，将帧间预测模式连同所述升频采样运动场信息指派到每一块。在另一实施例中，在将运动场信息和预测模式信息指派到经升频采样块过程中考虑相邻块的预测模式。例如，在一个实施例中，即使所述第一层中的特定块为帧内块，如果所述特定块的大部分相邻块具有帧间预测模式，那么也针对所述特定块指派帧间预测模式。

在另一实施例中，一种编码视频信息的方法包含：接收与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频信息包含与所述第一层相关联的至少运动场信息；升频采样与所述第一层相关联的所述运动场信息；和在位流中发信与所述第二层相联的至少一个语法元素。所述方法可进一步包含：将包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片添加到参考图片列表。所述方法也可包含基于所述层间参考图片的所述经升频采样的运动场信息预测所述第二层的至少一部分。

在另一实施例中，一种解码视频信息的方法包含：接收从经编码视频位流提取的语法元素，其中所述语法元素包括与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频信息包含与所述第一层相关联的至少运动场信息；和升频采样与所述第一层相关联的所述运动场信息。所述方法可进一步包含：添加包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片。所述方法也可包含基于所述层间参考图片的所述经升频采样的运动场信息预测所述第二层的至少一部分。

在另一实施例中，一种非暂时性计算机可读媒体包含代码，其当执行时，使设备：存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频信息包含与所述第一层相关联的至少运动场信息；和升频采样与所述第一层相关联的所述运动场信息。可进一步使所述设备将包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片添加到参考图片列表。可进一步使所述设备基于所述层间参考图片的所述经升频采样的运动场信息预测所述第二层的至少一部分。

在另一实施例中，一种经配置以译码视频信息的视频译码装置包含：用于存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频信息的装置，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频信息包含与所述第一层相关联的至少运动场信息；和用于升频采样与所述第一层相联的所述运动场信息的装置。所述装置可进一步包括用于将包含与所述第一层的经升频采样的纹理图片相关联的所述经升频采样的运动场信息的层间参考图片添加到参考图片列表的装置。所述装置可进一步包括用于基于所述层间参考图片的所述经升频采样的运动场信息预测所述第二层的至少一部分的装置。

附图说明

图1为说明可利用根据本发明中描述的方面的技术的视频编码和解码系统的实例的框图。

图2为说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。

图3为说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。

图4为说明时间优先译码的样本图。

图5为说明多视图视频译码(MVC)时间和视图间预测结构的样本图。

图6为说明清洁随机存取(CRA)图片和前置图片的样本图。

图7为使用HEVC设计的视图/层间运动预测的实例。

图8为说明运动场升频采样的实例。

图9为说明用于译码视频信息的方法的流程图。

具体实施方式

本文中所描述的某些实施例涉及先进视频编解码器的情况下的用于可缩放视频译码的层间预测，例如，HEVC(高效率视频译码)。更明确地说，本发明涉及用于HEVC的可缩放视频译码(SVC)扩展中的层间预测的改善的性能的系统和方法。在以下描述中，描述与某些实施例有关的H.264/AVC技术；也论述HEVC标准和有关技术。虽然本文中在HEVC和/或H.264标准的上下文中描述某些实施例，但所属领域的技术人员可了解，本文中所揭示的系统和方法可适用于任一合适的视频译码标准。例如，本文中所揭示的实施例可适用于下列标准中的一者或多者：ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IECMPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual，和ITU-T H.264(也被称为ISO/IECMPEG-4 AVC)，包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。

仅出于说明的目的，用包含仅仅两个层(例如，例如基层的较低级层，和例如增强层的较高级层)的实例描述本文中所揭示的某些实施例。应理解，这些实例可适用于包含多个基层和/或增强层的配置。另外，为易于解释，以下揭示内容参照某些实施例包含术语“帧”或“块”。然而，这些术语并不意谓为限制性的。例如，下文描述的技术可供任何合适的视频单元使用，例如，块(例如，CU、PU、TU、宏块等)、图块、帧等。

HEVC在许多方面中大体遵循先前视频译码标准的构架。HEVC中的预测的单元与某些先前视频译码标准中的预测的单元不同(例如，宏块)。实际上，宏块的概念并非如某些先前视频译码标准中所理解的存在于HEVC中。宏块由阶层式结构基于四分树方案替换，此可除其它可能益处之外提供高灵活性。例如，在HEVC方案内，定义了三种类型块，即，译码单元(CU)、预测单元(PU)和变换单元(TU)。CU可指区域分裂的基本单元。CU可视为类似于宏块的概念，但其并不限制最大大小，且可允许递归分裂成四个相等大小的CU，以改善内容自适应性。PU可视为帧间/帧内预测的基本单元，且其可在单一PU中含有多个任意形状分割区，以有效地译码不规则图像图案。TU可视为变换的基本单元。其可独立于PU进行定义；然而，其大小可限于TU所属的CU。块结构到三个不同概念的此分离可允许每一者根据其角色而优化，此可导致改善的译码效率。

视频译码标准

例如视频图像、TV图像、静态图像或由视频记录器或计算机产生的图像的数字图像可由排列成水平线和垂直线的像素构成。单一图像中的像素的数目通常上万个。每一像素通常含有亮度和色度信息。在无压缩的情况下，待从图像编码器传达到图像解码器的信息的数量如此巨大，使得其致使实时图像传输不可能。为减少待传输的信息的量，已开发许多不同压缩方法，例如，JPEG、MPEG和H.263标准。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual和ITU-T H.264(也被称为ISO/IEC MPEG-4 AVC)，包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展，其皆被以引用的方式全部并入。

另外，新视频译码标准，(即，高效率视频译码(HEVC))正由ITU-T视频译码专业团体(VCEG)与ISO/IEC动画专业团体(MPEG)的关于视频译码的联合协作小组(JCT-VC)开发。HEVC的最近草案可从2013年8月9日起从http://phenix.it-sudparis.eu/jct/doc_end_ user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得，所述草案被以引用的方式全部并入。HEVC草案10的完全引用为ITU-T SG16 WP3与ISO/IEC JTC1/SC29/WG11的关于视频译码的联合协作小组(JCT-VC)于2013年1月14日到2013年1月23日在瑞士日内瓦召开的第12次会议上布罗斯(Bross)等人的“高效率视频译码(HEVC)文本规范草案10(HighEfficiency Video Coding(HEVC)Text Specification Draft 10)”的文件JCTVC-L1003。

在下文中参考随附图式更全面地描述新颖系统、设备和方法的各种方面。然而，本发明可以各种不同形式体现，且不应解释为限于本发明通篇呈现的任一特定结构或功能。相反地，这些方面经提供使得本发明将透彻且完整，并将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示，所属领域的技术人员应了解，本发明的范围希望涵盖本文中所揭示的新颖系统、设备和方法的任何方面，不管是独立于本发明的任何其它方面实施或是结合本发明的任何其它方面实施。例如，可使用本文中阐明的任何数目个方面实施设备或实践方法。另外，本发明的范围希望涵盖使用其它结构、功能性或除本文中阐明的本发明的各种方面外或不同于本文中阐明的本发明的各种方面的结构和功能性实践的此设备或方法。应理解，本文中所揭示的任何方面可由权利要求书的一或多个要素实施。

尽管本文中描述了特定方面，但这些方面的许多变化和置换属于本发明的范围内。尽管提及优选方面的一些益处和优点，但本发明的范围并不希望限于特定益处、用途或目标。相反地，本发明的方面希望广泛地适用于不同无线技术、系统配置、网络和传输协议，其中一些借助于实例而于诸图中和优选方面的以下描述中进行说明。实施方式和图式仅说明本发明，而非限制性的，本发明的范围由所附权利要求书和其等效物界定。

附图说明实例。附图中通过参考数字指示的元件对应于以下描述中由相同参考数字指示的元件。

视频译码系统

图1为说明可利用根据本发明中描述的方面的技术的实例视频译码系统10的框图。如本文中所描述的而使用的术语“视频译码器”一般指视频编码器和视频解码器两者。在本发明中，术语“视频译码”或“译码”可一般指视频编码和视频解码。

如图1中所示，视频译码系统10包含源装置12和目的地装置14。源装置12产生经编码视频数据。目的地装置14可解码由源装置12产生的经编码视频数据。源装置12和目的地装置14可包括广泛范围的装置，包含桌上型计算机、笔记型计算机(例如，膝上型计算机等)、平板计算机、机顶盒、例如所谓的“智能型”手机的电话手持机、所谓的“智能型”板、电视、摄影机、显示装置、数字媒体播放器、视频游戏主控台、车内计算机或类似者。在一些实例中，源装置12和目的地装置14可经装备以用于无线通信。

目的地装置14可经由信道16从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中，信道16可包括使源装置12能够实时将经编码视频数据直接传输到目的地装置14的通信媒体。在此实例中，源装置12可根据通信标准(例如，无线通信协议)调制经编码视频数据，且可将经调制的视频数据传输到目的地装置14。通信媒体可包括无线或有线通信媒体(例如，射频(RF)频谱)或一或多个物理传输线。通信媒体可形成例如局域网的基于封包的网络、广域网或例如因特网的全球网络的部分。通信媒体可包含促进从源装置12到目的地装置14的通信的路由器、交换器、基站或其它装备。

在另一实例中，信道16可对应于存储由源装置12产生的经编码视频数据的存储媒体。在此实例中，目的地装置14可经由磁盘存取或卡存取来存取存储媒体。所述存储媒体可包含多种本地存取的数据存储媒体，例如，Blu-ray光盘、DVD、CD-ROM、快闪存储器或用于存储经编码视频数据的其它合适的数字存储媒体。在再一实例中，信道16可包含存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。在此实例中，目的地装置14可经由流式传输或下载存取存储于文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据传输到目的地装置14的一类服务器。实例文件服务器包含网站服务器(例如，用于网站等)、FTP服务器、网络附接式存储(NAS)装置和本地磁盘机。目的地装置14可经由任何标准数据连接(包含因特网连接)存取经编码视频数据。数据连接的实例类型可包含适合于存取存储于文件服务器上的经编码视频数据的无线信道(例如，Wi-Fi连接等)、有线连接(例如，DSL、电缆调制解调器等)或两者的组合。来自文件服务器的经编码视频数据的传输可为流式传输传输、下载传输或两者的组合。

本发明的技术不限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码，所述多媒体应用例如空中电视广播、有线电视传输、卫星电视传输、流式传输视频传输(例如，经由因特网)(例如，经由HTTP的动态自适应性流式传输(DASH)等)、供存储于数据存储媒体上的数字视频的编码、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中，视频译码系统10可经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频播放、视频广播和/或视频电话的应用。

在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口22。在某些情况下，输出接口22可包含调制器/解调器(调制解调器)和/或传输器。在源装置12中，视频源18可包含来源，例如，视频俘获装置(例如，摄像机)、含有先前俘获的视频数据的视频存档、从视频内容提供者接收视频数据的视频馈入接口和/或用于产生视频数据的计算机图形系统或这些来源的组合。

视频编码器20可经配置以编码已俘获的、预俘获的或计算机产生的视频数据。经编码视频数据可经由源装置12的输出接口22直接传输到目的地装置14。经编码视频数据也可存储于存储媒体或文件服务器上，以供稍后由目的地装置14存取以用于解码和/或播放。

在图1的实例中，目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些情况下，输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由信道16接收经编码视频数据。所述经编码视频数据可包含由视频编码器20产生的表示视频数据的多种语法元素。所述语法元素可描述块和其它经译码单元(例如，图片群组(GOP))的特性和/或处理。这些语法元素可与在通信媒体上传输、存储于存储媒体上或存储于文件服务器上的经编码视频数据包含在一起。

显示装置32可与目的地装置14集成或可在目的地装置14外部。在一些实例中，目的地装置14可包含集成式显示装置，且也可经配置以与外部显示装置接口连接。在其它实例中，目的地装置14可为显示装置。一般来说，显示装置32将经解码视频数据对用户显示。显示装置32可包括多种显示装置中的任一者，例如，液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20和视频解码器30可根据视频压缩标准操作，例如，目前在开发中的高效率视频译码(HEVC)标准，且可符合HEVC测试模型(HM)。替代地，视频编码器20和视频解码器30可根据其它专有或行业标准操作，例如，ITU-T H.264标准(替代地被称作MPEG-4，先进式视频译码(AVC)第10部分)，或这些标准的扩展。然而，本发明的技术不限于任一特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-T H.263。

尽管未展示于图1的实例中，但视频编码器20和视频解码器30可各与音频编码器和解码器集成，且可包含适当的MUX-DEMUX单元，或其它硬件和软件，以在共享数据流或单独数据流中处置音频和视频两者的编码。如果可适用，那么在一些实例中，MUX-DEMUX单元可符合ITU H.223多路复用器协议，或例如用户数据报协议(UDP)的其它协议。

再次，图1仅为实例，且本发明的技术可应用于未必包含编码与解码装置之间的任何数据通信的视频译码设定(例如，视频编码或视频解码)。在其它实例中，数据可从本地存储器检索，经由网络流式传输，或类似者。编码装置可编码数据且将其存储到存储器，和/或解码装置可从存储器检索数据且解码数据。在许多实例中，编码和解码由彼此并不通信而仅将数据编码到存储器和/或从存储器检索数据且解码数据的装置执行。

视频编码器20和视频解码器30中的每一者可实施为多种合适电路中的任一者，例如，一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件或其任何组合。当所述技术部分以软件实施时，装置可将用于软件的指令存储于合适的非暂时性计算机可读存储媒体中，且可使用一或多个处理器在硬件中执行指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含于一或多个编码器或解码器中，其中任一者可集成为相应装置中的组合式编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置(例如，蜂窝式电话)。

如上文简要提及，视频编码器20编码视频数据。视频数据可包括一或多个图片。所述图片中的每一者为形成视频的部分的静态图像。在一些情况下，图片可被称作视频“帧”。当视频编码器20编码视频数据时，视频编码器20可产生位流。所述位流可包含形成视频数据的经译码表示的一连串位。位流可包含经译码图片和相关联的数据。经译码图片为图片的经译码表示。

为产生位流，视频编码器20可对视频数据中的每一图片执行编码操作。当视频编码器20对所述图片执行编码操作时，视频编码器20可产生一系列经译码图片和相关联的数据。所述相关联的数据可包含序列参数集合、图片参数集合、调适参数集合和其它语法结构。序列参数集合(SPS)可含有适用于零或多个图片序列的参数。图片参数集合(PPS)可含有适用于零或多个图片的参数。调适参数集合(APS)可含有适用于零或多个图片的参数。APS中的参数可为比PPS中的参数更可能改变的参数。

为产生经译码图片，视频编码器20可将图片分割成相等大小的视频块。视频块可为二维样本阵列。视频块中的每一者与树型块相关联。在一些情况下，树型块可被称作最大译码单元(LCU)。HEVC的树型块可广泛类似于先前标准(例如，H.264/AVC)的宏块。然而，树型块不必限于特定大小且可包含一或多个译码单元(CU)。视频编码器20可使用四分树分割，以将树型块的视频块分割成与CU相关联的视频块，因此名称为“树型块”。

在一些实例中，视频编码器20可将图片分割成多个图块。所述图块中的每一者可包含整数数目个CU。在一些情况下，图块包括整数数目个树型块。在其它情况中，图块的边界可在树型块内。

作为对图片执行编码操作的部分，视频编码器20可对所述图片的每一图块执行编码操作。当视频编码器20对图块执行编码操作时，视频编码器20可产生与所述图块相关联的经编码数据。与所述图块相关联的经编码数据可被称作“经译码图块”。

为了产生经译码图块，视频编码器20可对图块中的每一树型块执行编码操作。当视频编码器20对树型块执行编码操作时，视频编码器20可产生经译码树型块。所述经译码树型块可包括表示所述树型块的经编码型式的数据。

当视频编码器20产生经译码图块时，视频编码器20可根据光栅扫描次序对所述图块中的树型块执行编码操作(即，编码)。换句话说，视频编码器20可以在所述图块中的最高列树型块上从左到右前进、接着在下一较低列树型块从左到右前进等等直到视频编码器20已编码所述图块的所述树型块中的每一者的次序编码所述图块的所述树型块。

作为根据光栅扫描次序编码树型块的结果，可已编码给定树型块的上方和左侧的树型块，但尚未编码给定树型块之下方和右侧的树型块。因此，视频编码器20可能能够在编码所述给定树型块时存取通过编码给定树型块上方和左侧的树型块而产生的信息。然而，视频编码器20可能不能够在编码所述给定树型块时存取通过编码所述给定树型块下方和右侧的树型块而产生的信息。

为了产生经译码树型块，视频编码器20可对树型块的视频块递归地执行四分树分割，以将视频块分成逐渐更小的视频块。所述较小视频块中的每一者可与不同CU相关。例如，视频编码器20可将树型块的视频块分割成四个相等大小的子块，将所述子块中的一或多者分割成四个相等大小的子子块等等。经分割的CU可为视频块被分割成与其它CU相关联的视频块的CU。未分割的CU可为视频块未被分割成与其它CU相关联的视频块的CU。

位流中的一或多个语法元素可指示视频编码器20可分割树型块的视频块的最大次数。CU的视频块可在形状上为正方形。CU的视频块的大小(即，CU的大小)可范围从8×8个像素直到具有最多64×64个像素或更多的树型块的视频块的大小(即，树型块的大小)。

视频编码器20可根据z型扫描次序对树型块的每一CU执行编码操作(即，编码)。换句话说，视频编码器20可将左上CU、右上CU、左下CU且接着右下CU按这个次序编码。当视频编码器20对经分割的CU执行编码操作时，视频编码器20可根据z型扫描次序编码与经分割的CU的视频块的子块相关联的CU。换句话说，视频编码器20可将与左上子块相关联的CU、与右上子块相关联的CU、与左下子块相关联的CU且接着与右下子块相关联的CU按这个次序编码。

作为根据z型扫描次序编码树型块的CU的结果，可已编码给定CU的上方、左上方、右上方、左侧和左下方的CU。尚未编码给定CU的右下方的CU。因此，视频编码器20可能能够在编码给定CU时存取通过编码邻接给定CU的一些CU而产生的信息。然而，视频编码器20可能不能够在编码给定CU时存取通过编码邻接给定CU的其它CU而产生的信息。

当视频编码器20编码未分割的CU时，视频编码器20可产生针对CU的一或多个预测单元(PU)。CU的PU中的每一者可与CU的视频块内的不同视频块相关联。视频编码器20可产生针对CU的每一PU的预测的视频块。PU的预测的视频块可为样本的块。视频编码器20可使用帧内预测或帧间预测产生针对PU的预测的视频块。

当视频编码器20使用帧内预测产生PU的预测的视频块时，视频编码器20可基于与所述PU相关联的图片的经解码样本产生所述PU的预测的视频块。如果视频编码器20使用帧内预测产生CU的PU的预测的视频块，那么所述CU为经帧内预测的CU。当视频编码器20使用帧间预测产生PU的预测的视频块时，视频编码器20可基于除与所述PU相关联的图片之外的一或多个图片的经解码样本产生所述PU的预测的视频块。如果视频编码器20使用帧间预测产生CU的PU的预测的视频块，那么所述CU为经帧间预测的CU。

此外，当视频编码器20使用帧间预测产生针对PU的预测的视频块时，视频编码器20可产生用于所述PU的运动信息。用于所述PU的运动信息可指示所述PU的一或多个参考块。所述PU的每一参考块可为参考图片内的视频块。所述参考图片可为除与所述PU相关联的图片之外的图片。在一些情况下，PU的参考块也可被称作PU的“参考样本”。视频编码器20可基于所述PU的参考块而产生针对所述PU的预测的视频块。

在视频编码器20产生针对CU的一或多个PU的预测的视频块之后，视频编码器20可基于针对所述CU的所述PU的所述预测的视频块产生用于所述CU的残余数据。用于所述CU的所述残余数据可指示针对所述CU的所述PU的所述预测的视频块与所述CU的原始视频块之间的差异。

此外，作为对未分割的CU执行编码操作的部分，视频编码器20可对所述CU的残余数据执行递归四分树分割，以将所述CU的残余数据分割成与所述CU的变换单元(TU)相关联的残余数据的一或多个块(即，残余视频块)。CU的每一TU可与不同残余视频块相关联。

视频编码器20可将一或多个变换应用到与TU相关联的残余视频块，以产生与TU相关联的变换系数块(即，变换系数的块)。概念上，变换系数块可为变换系数的二维(2D)矩阵。

在产生变换系数块之后，视频编码器20可对变换系数块执行量化过程。量化大体上指将变换系数量化以可能地减少用以表示变换系数的数据的量从而提供进一步压缩的过程。量化过程可减小与变换系数中的一些或全部相关联的位深度。例如，n位变换系数可在量化期间向下舍入到m位变换系数，其中n大于m。

视频编码器20可将每一CU与量化参数(QP)值相关联。与CU相关的QP值可确定视频编码器20如何量化与CU相关联的变换系数块。视频编码器20可通过调整与CU相关联的QP值而调整应用于与CU相关的变换系数块的量化的程度。

在视频编码器20量化变换系数块之后，视频编码器20可产生表示经量化变换系数块中的变换系数的语法元素的集合。视频编码器20可将熵编码操作(例如，上下文自适应性二进制算术译码(CABAC)操作)应用于这些语法元素中的一些。也可使用例如内容自适应性可变长度译码(CAVLC)、概率区间分割熵(PIPE)译码或其它二进制算术译码的其它熵译码技术。

由视频编码器20产生的位流可包含一系列网络抽象层(NAL)单元。NAL单元中的每一者可为含有NAL单元中的数据类型的指示的语法结构和含有所述数据的字节。例如，NAL单元可含有表示序列参数集合、图片参数集合、经译码图块、补充增强信息(SEI)、存取单元分隔符号、填料数据或另一类型的数据的数据。NAL单元中的数据可包含各种语法结构。

视频解码器30可接收由视频编码器20产生的位流。所述位流可包含由视频编码器20编码的视频数据的经译码表示。当视频解码器30接收所述位流时，视频解码器30可对所述位流执行剖析操作。当视频解码器30执行剖析操作时，视频解码器30可从所述位流提取语法元素。视频解码器30可基于从所述位流提取的语法元素重构建视频数据的图片。基于所述语法元素重构建视频数据的过程可大体与由视频编码器20执行以产生语法元素的过程互逆。

在视频解码器30提取与CU相关联的语法元素之后，视频解码器30可基于所述语法元素产生针对CU的PU的预测的视频块。另外，视频解码器30可反量化与CU的TU相关联的变换系数块。视频解码器30可对变换系数块执行反变换以重构建与CU的TU相关联的残余视频块。在产生预测的视频块且重构建残余视频块之后，视频解码器30可基于预测的视频块和残余视频块重构建CU的视频块。以此方式，视频解码器30可基于位流中的语法元素重构建CU的视频块。

视频编码器

图2为说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任何者或全部。作为一个实例，帧间预测模块121和升频采样模块130可经配置以执行本发明中描述的技术中的任何者或全部。然而，本发明的方面不受如此限制。在一些实例中，本发明中描述的技术可在视频编码器20的各种组件间共享。在一些实例中，另外或代替地，处理器(未图示)可经配置以执行本发明中描述的技术中的任何者或全部。

出于解释的目的，本发明描述在HEVC译码的情况下的视频编码器20。然而，本发明的技术可适用于其它译码标准或方法。

视频编码器20可执行视频图块内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指若干基于时间的译码模式中的任一者。

在图2的实例中，视频编码器20包含多个功能组件。视频编码器20的功能组件包含预测模块100、残余产生模块102、变换模块104、量化模块106、反量化模块108、反变换模块110、重构建模块112、滤波器模块113、经解码图片缓冲器114和熵编码模块116。预测模块100包含帧间预测模块121、运动估计模块122、运动补偿模块124、帧内预测模块126和升频采样模块130。在其它实例中，视频编码器20可包含更多、更少或不同的功能组件。此外，运动估计模块122和运动补偿模块124可高度集成，但出于解释的目的而分开来表示于图2的实例中。

视频编码器20可接收视频数据。视频编码器20可从各种源接收视频数据。例如，视频编码器20可从视频源18(图1)或另一来源接收视频数据。视频数据可表示一系列图片。为编码所述视频数据，视频编码器20可对所述图片中的每一者执行编码操作。作为对图片执行编码操作的部分，视频编码器20可对图片的每一图块执行编码操作。作为对图块执行编码操作的部分，视频编码器20可对图块中的树型块执行编码操作。

作为对树型块执行编码操作的部分，预测模块100可对树型块的视频块执行四分树分割，以将视频块分成逐渐更小的视频块。所述较小视频块中的每一者可与不同CU相关联。例如，预测模块100可将树型块的视频块分割成四个相等大小的子块，将所述子块中的一或多者分割成四个相等大小的子子块等等。

与CU相关联的视频块的大小可范围从8×8个样本直到具有最多64×64个样本或更多的树型块的大小。在本发明中，“N×N”与“N乘N”可互换使用，以指视频块就垂直和水平尺寸来说的样本尺寸，例如，16×16个样本或16乘16个样本。一般来说，16×16个视频块在垂直方向上具有十六个样本(y＝16)，且在水平方向上具有十六个样本(x＝16)。同样的，N×N块大体在垂直方向上具有N个样本，且在水平方向上具有N个样本，其中N表示非负整数值。

此外，作为对树型块执行编码操作的部分，预测模块100可产生针对树型块的阶层式四分树数据结构。例如，树型块可对应于四分树数据结构的根节点。如果预测模块100将树型块的视频块分割成四个子块，那么根节点具有四分树数据结构中的四个子节点。所述子节点中的每一者对应于与子块中的一者相关联的CU。如果预测模块100将所述子块中的一者分割成四个子子块，那么对应于与所述子块相关联的CU的节点可具有四个子节点，所述子节点中的每一者对应于与所述子子块中的一者相关联的CU。

四分树数据结构的每一节点可含有用于对应的树型块或CU的语法数据(例如，语法元素)。例如，四分树中的节点可包含分裂旗标，其指示对应于所述节点的CU的视频块是否经分割(即，分裂)成四个子块。用于CU的语法元素可递归地定义，且可取决于CU的视频块是否被分裂成子块。其视频块未分割的CU可对应于四分树数据结构中的叶节点。经译码树型块可包含用于对应的树型块的基于四分树数据结构的数据。

视频编码器20可对树型块的每一未分割的CU执行编码操作。当视频编码器20对未分割的CU执行编码操作时，视频编码器20产生表示所述未分割的CU的经编码表示的数据。

作为对CU执行编码操作的部分，预测模块100可在CU的一或多个PU间分割CU的视频块。视频编码器20和视频解码器30可支持各种PU大小。假定特定CU的大小为2N×2N，视频编码器20和视频解码器30可支持2N×2N或N×N的PU大小，和在2N×2N、2N×N、N×2N、N×N、2N×nU、nL×2N、nR×2N或类似者的对称PU大小中的帧间预测。视频编码器20和视频解码器30也可支持针对2N×nU、2N×nD、nL×2N和nR×2N的PU大小的不对称分割。在一些实例中，预测模块100可执行几何分割，以按直角沿着不与CU的视频块的边会合的边界在CU的PU间分割CU的视频块。

帧间预测模块121可对CU的每一PU执行帧间预测。帧间预测可提供时间压缩。为对PU执行帧间预测，运动估计模块122可产生用于PU的运动信息。运动补偿模块124可基于除与CU相关联的图片外的图片(即，参考图片)的运动信息和经解码样本产生用于PU的预测的视频块。在本发明中，通过运动补偿模块124产生的预测的视频块可被称作经帧间预测的视频块。

图块可为I图块、P图块或B图块。运动估计模块122和运动补偿模块124可视PU在I图块、P图块或是B图块中而针对CU的PU执行不同操作。在I图块中，所有PU经帧内预测。因此，如果PU在I图块中，那么运动估计模块122和运动补偿模块124并不对PU执行帧间预测。

如果PU位于P图块中，那么含有所述PU的图片与被称作“列表0”的参考图片列表相关联。列表0中的参考图片中的每一者含有可用于其它图片的帧间预测的样本。当运动估计模块122关于P图块中的PU执行运动估计操作时，运动估计模块122可在列表0中的参考图片中搜索以找到用于PU的参考块。PU的参考块可为最紧密对应于PU的视频块中的样本的一组样本(例如，样本的块)。运动估计模块122可使用多种度量确定参考图片中的一组样本对应于PU的视频块中的样本的紧密程度。例如，运动估计模块122可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定参考图片中的一组样本对应于PU的视频块中的样本的紧密程度。

在识别P图块中的PU的参考块之后，运动估计模块122可产生指示列表0中含有参考块的参考图片的参考索引，和指示PU与参考块之间的空间位移的运动向量。在各种实例中，运动估计模块122可以不同精确度程度产生运动向量。例如，运动估计模块122可以四分之一样本精确度、八分之一样本精确度或其它分数样本精确度产生运动向量。在分数样本精确度的情况下，参考块值可从整数字置样本值内插于参考图片中。运动估计模块122可输出参考索引和运动向量，作为PU的运动信息。运动补偿模块124可基于通过PU的运动信息识别的参考块而产生PU的预测的视频块。

如果PU在B图块中，那么含有PU的图片可与被称作“列表0”和“列表1”的两个参考图片列表相关联。在一些实例中，含有B图块的图片可与为列表0与列表1的组合的列表组合相关联。

此外，如果PU位于B图块中，那么运动估计模块122可针对PU执行单向预测或双向预测。当运动估计模块122针对PU执行单向预测时，运动估计模块122可在列表0或列表1的参考图片中搜索以找到用于PU的参考块。运动估计模块122可接着产生指示列表0或列表1中含有参考块的参考图片的参考索引，和指示PU与参考块之间的空间位移的运动向量。运动估计模块122可输出参考索引、预测方向指示符和运动向量，作为PU的运动信息。预测方向指示符可指示参考索引指示列表0或是列表1中的参考图片。运动补偿模块124可基于由PU的运动信息指示的参考块产生PU的预测的视频块。

当运动估计模块122针对PU执行双向预测时，运动估计模块122可在列表0的参考图片中搜索以找到用于PU的参考块，且也可在列表1的参考图片中搜索以找到用于PU的另一参考块。运动估计模块122可接着产生指示列表0和列表1中含有参考块的参考图片的参考索引，和指示参考块与PU之间的空间位移的运动向量。运动估计模块122可输出PU的参考索引和运动向量，作为PU的运动信息。运动补偿模块124可基于由PU的运动信息指示的参考块产生PU的预测的视频块。

在一些情况下，运动估计模块122并不将用于PU的完全运动信息集合输出到熵编码模块116。相反地，运动估计模块122可参考另一PU的运动信息发信PU的运动信息。例如，运动估计模块122可确定PU的运动信息充分类似于相邻PU的运动信息。在此实例中，运动估计模块122可指示在与所述PU相关的语法结构中的向视频解码器30指示所述PU具有与相邻PU相同的运动信息的值。在另一实例中，运动估计模块122可识别在与所述PU相关的语法结构中的相邻PU和运动向量差(MVD)。运动向量差指示PU的运动向量与指示的相邻PU的运动向量之间的差。视频解码器30可使用指示的相邻PU的运动向量和运动向量差来确定PU的运动向量。通过在发信第二PU的运动信息时参考第一PU的运动信息，视频编码器20可能能够使用较少位发信第二PU的运动信息。

作为对CU执行编码操作的部分，帧内预测模块126可对CU的PU执行帧内预测。帧内预测可提供空间压缩。当帧内预测模块126对PU执行帧内预测时，帧内预测模块126可基于同一图片中的其它PU的经解码样本而产生用于所述PU的预测数据。用于所述PU的预测数据可包含预测的视频块和各种语法元素。帧内预测模块126可对I图块、P图块和B图块中的PU执行帧内预测。

为对PU执行帧内预测，帧内预测模块126可使用多个帧内预测模式产生用于所述PU的多组预测数据。当帧内预测模块126使用帧内预测模式产生用于所述PU的一组预测数据时，帧内预测模块126可在与帧内预测模式相关联的方向和/或梯度上跨所述PU的视频块从相邻PU的视频块延伸样本。假定针对PU、CU和树型块的从左到右、从上到下编码次序，相邻PU可在所述PU的上方、右上方、左上方或左侧。帧内预测模块126可视PU的大小而定使用各种数目个帧内预测模式，例如，33个方向帧内预测模式。

预测模块100可在由运动补偿模块124产生的用于PU的预测数据或由帧内预测模块126产生的用于PU的预测数据中间选择用于PU的预测数据。在一些实例中，预测模块100基于所述组预测数据的速率/失真度量而选择用于PU的预测数据。

如果预测模块100选择由帧内预测模块126产生的预测数据，那么预测模块100可发信用以产生用于PU的预测数据的帧内预测模式，即，选定帧内预测模式。预测模块100可以各种方式发信选定帧内预测模式。例如，选定帧内预测模式可能与相邻PU的帧内预测模式相同。换句话说，相邻PU的帧内预测模式可为针对当前PU最可能的模式。因此，预测模块100可产生指示选定帧内预测模式与相邻PU的帧内预测模式相同的语法元素。

如下文参看图9进一步论述，由预测模块100执行的预测可至少部分基于基本视图/基层的经升频采样的运动场信息(例如，由升频采样模块130确定)。另外，预测模块100也可执行涉及预测当前(例如，增强)视图/层的其它步骤，例如，将经升频采样的运动场信息与基本视图/基层的经升频采样的纹理图片相关联和/或将帧间预测参考图片添加到用于帧间预测的参考图片列表，这些在下文中参看图9更详细地描述。

在预测模块100选择了用于CU的PU的预测数据之后，残余产生模块102可通过从CU的视频块减去CU的PU的预测的视频块产生用于CU的残余数据。CU的残余数据可包含对应于CU的视频块中的样本的不同样本分量的2D残余视频块。例如，残余数据可包含对应于CU的PU的预测的视频块中的样本的亮度分量与CU的原始视频块中的样本的亮度分量之间的差的残余视频块。另外，CU的残余数据可包含对应于CU的PU的预测的视频块中的样本的色度分量与CU的原始视频块中的样本的色度分量之间的差的残余视频块。

预测模块100可执行四分树分割以将CU的残余视频块分割成子块。每一未划分的残余视频块可与CU的不同TU相关联。与CU的TU相关联的残余视频块的大小和位置可或可不基于与CU的PU相关联的视频块的大小和位置。被称为“残余四分树”(RQT)的四分树结构可包含与残余视频块中的每一者相关的节点。CU的TU可对应于RQT的叶节点。

变换模块104可通过将一或多个变换应用于与TU相关的残余视频块而产生针对CU的每一TU的一或多个变换系数块。变换系数块中的每一者可为变换系数的2D矩阵。变换模块104可将各种变换应用于与TU相关联的残余视频块。例如，变换模块104可将离散余弦变换(DCT)、方向变换或概念上类似的变换应用于与TU相关联的残余视频块。

在变换模块104产生与TU相关联的变换系数块之后，量化模块106可量化所述变换系数块中的变换系数。量化模块106可基于与CU相关联的QP值而量化与CU的TU相关联的变换系数块。

视频编码器20可以各种方式将QP值与CU相关联。例如，视频编码器20可对与CU相关联的树型块执行速率-失真分析。在速率-失真分析中，视频编码器20可通过多次对树型块执行编码操作而产生树型块的多个经译码表示。视频编码器20可在视频编码器20产生树型块的不同经编码表示时将不同QP值与CU相关联。视频编码器20可在给定QP值在具有最低位率和失真度量的树型块的经译码表示中与CU相关联时发信所述给定QP值与CU相关联。

反量化模块108和反变换模块110可分别将反量化和反变换应用于变换系数块，以从变换系数块重构建残余视频块。重构建模块112可将经重构建残余视频块添加到由预测模块100产生的一或多个预测的视频块中的对应的样本，以产生与TU相关联的经重构建视频块。通过以此方式重构建针对CU的每一TU的视频块，视频编码器20可重构建CU的视频块。

在重构建模块112重构建CU的视频块之后，滤波器模块113可执行解块操作以减少与CU相关联的视频块中的块伪影。在执行一或多个解块操作之后，滤波器模块113可将CU的经重构建视频块存储于经解码图片缓冲器114中。运动估计模块122和运动补偿模块124可使用含有经重构建视频块的参考图片对后续图片的PU执行帧间预测。另外，帧内预测模块126可使用经解码图片缓冲器114中的经重构建视频块对与CU相同的图片中的其它PU执行帧内预测。

熵编码模块116可从视频编码器20的其它功能组件接收数据。例如，熵编码模块116可从量化模块106接收变换系数块，且可从预测模块100接收语法元素。当熵编码模块116接收数据时，熵编码模块116可执行一或多个熵编码操作以产生经熵编码的数据。例如，视频编码器20可对数据执行上下文自适应性可变长度译码(CAVLC)操作、CABAC操作、变量到变量(V2V)长度译码操作、基于语法的上下文自适应性二进制算术译码(SBAC)操作、概率间隔分割熵(PIPE)译码操作或另一类型的熵编码操作。熵编码模块116可输出包含经熵编码的数据的位流。

作为对数据执行熵编码操作的部分，熵编码模块116可选择上下文模型。如果熵编码模块116正在执行CABAC操作，那么上下文模型可指示对具有特定值的特定位子的概率的估计。在CABAC的情况下，术语“位子(bin)”用以指语法元素的二进制化型式的位。

升频采样模块130可缩放或再采样视频数据(包含，例如预测模式信息和/或运动场信息的像素和非像素信息)，以增加空间分辨率。在一些实施例中，基本视图/基层的视频数据可经升频采样以匹配增强视图/增强层的空间分辨率。升频采样模块130也可与视频编码器20的一或多个其它功能组件协调，以在将基层图片插入到参考图片列表之前升频采样基层图片的基本视图/基层视频数据。

视频解码器

图3为说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任何者或全部。作为一个实例，运动补偿模块162和升频采样模块170可经配置以执行本发明中描述的技术中的任何者或全部。然而，本发明的方面不受如此限制。在一些实例中，本发明中描述的技术可共享于视频解码器30的各种组件中。在一些实例中，另外或代替，处理器(未图示)可经配置以执行本发明中描述的技术中的任何者或全部。

在图3的实例中，视频解码器30包含多个功能组件。视频解码器30的功能组件包含熵解码模块150、预测模块、反量化模块154、反变换模块156、重构建模块158、滤波器模块和经解码图片缓冲器160。预测模块包含运动补偿模块162、帧内预测模块164，和升频采样模块170。在一些实例中，视频解码器30可执行大体上与关于图2的视频编码器20描述的编码遍次互逆的解码遍次。在其它实例中，视频解码器30可包含更多、更少或不同的功能组件。

视频解码器30可接收包括经编码视频数据的位流。位流可包含多个语法元素。当视频解码器30接收位流时，熵解码模块150可对位流执行剖析操作。作为对位流执行剖析操作的结果，熵解码模块150可从所述位流提取语法元素。作为执行剖析操作的部分，熵解码模块150可熵解码位流中的经熵编码的语法元素。预测模块、反量化模块154、反变换模块156、重构建模块158和滤波器模块可基于从所述位流提取的语法元素而执行产生经解码视频数据的重构建操作。

如上文所论述，位流可包括一系列NAL单元。位流的NAL单元可包含序列参数集合NAL单元、图片参数集合NAL单元、SEI NAL单元等等。作为对位流执行剖析操作的部分，熵解码模块150可执行提取且熵解码来自序列参数集合NAL单元的序列参数集合、来自图片参数集合NAL单元的图片参数集合、来自SEI NAL单元的SEI数据等等的剖析操作。

另外，位流的NAL单元可包含经译码图块NAL单元。作为对位流执行剖析操作的部分，熵解码模块150可执行提取且熵解码来自经译码图块NAL单元的经译码图块的剖析操作。经译码图块中的每一者可包含图块标头和图块数据。图块标头可含有与图块有关的语法元素。图块标头中的语法元素可包含识别与含有所述图块的图片相关联的图片参数集合的语法元素。熵解码模块150可对经译码图块标头中的语法元素执行熵解码操作(例如，CABAC解码操作)，以恢复所述图块标头。

作为从经译码图块NAL单元提取图块数据的部分，熵解码模块150可执行提取来自图块数据中的经译码CU的语法元素的剖析操作。经提取的语法元素可包含与变换系数块相关联的语法元素。接着，熵解码模块150可对一些语法元素执行CABAC解码操作。

在熵解码模块150对未分割的CU执行剖析操作之后，视频解码器30可对未分割的CU执行重构建操作。为对未分割的CU执行重构建操作，视频解码器30可对CU的每一TU执行重构建操作。通过针对CU的每一TU执行重构建操作，视频解码器30可重构建与CU相关联的残余视频块。

作为对TU执行重构建操作的部分，反量化模块154可反量化(即，去量化)与TU相关联的变换系数块。反量化模块154可以类似于针对HEVC提出或由H.264解码标准定义的反量化过程的方式反量化变换系数块。反量化模块154可使用由视频编码器20针对变换系数块的CU计算的量化参数QP确定量化的程度，和同样的，反量化模块154应用的反量化的程度。

在反量化模块154反量化变换系数块之后，反变换模块156可产生针对与变换系数块相关联的TU的残余视频块。反变换模块156可将反变换应用于变换系数块，以便产生针对TU的残余视频块。例如，反变换模块156可将反DCT、反整数变换、反卡忽南-拉维变换(KLT)、反旋转变换、反方向变换或另一反变换应用于变换系数块。在一些实例中，反变换模块156可基于从视频编码器20的发信而确定应用于变换系数块的反变换。在这些实例中，反变换模块156可基于针对与变换系数块相关联的树型块的四分树的根节点处的经发信的变换而确定反变换。在其它实例中，反变换模块156可从一或多个译码特性(例如，块大小、译码模式或类似者)推断反变换。在一些实例中，反变换模块156可应用级联反变换。

在一些实例中，运动补偿模块162可通过执行基于内插滤波器的内插而改进PU的预测的视频块。用于待用于具有子样本精确度的运动补偿的内插滤波器的识别符可包含于语法元素中。运动补偿模块162可在产生PU的预测的视频块期间使用与由视频编码器20所使用相同的内插滤波器，以计算用于参考块的子整数样本的内插值。运动补偿模块162可根据所接收的语法信息确定由视频编码器20使用的内插滤波器，且使用内插滤波器产生预测的视频块。

如果PU是使用帧内预测编码，那么帧内预测模块164可执行帧内预测以产生针对所述PU的预测的视频块。例如，帧内预测模块164可基于位流中的语法元素确定用于所述PU的帧内预测模式。位流可包含帧内预测模块164可用以确定PU的帧内预测模式的语法元素。

在一些情况下，语法元素可指示帧内预测模块164将使用另一PU的帧内预测模式确定当前PU的帧内预测模式。例如，当前PU的帧内预测模式可能与相邻PU的帧内预测模式相同。换句话说，相邻PU的帧内预测模式可为用于当前PU的最可能模式。因此，在此实例中，位流可包含指示所述PU的帧内预测模式与相邻PU的帧内预测模式相同的小语法元素。帧内预测模块164可接着基于在空间上相邻的PU的视频块使用帧内预测模式产生用于所述PU的预测数据(例如，经预测的样本)。

如上文所论述，由预测模块执行的预测可至少部分基于基本视图/基层的经升频采样的运动场信息。另外，预测模块也可执行预测当前(例如，增强)视图/层所涉及的其它步骤，例如，将经升频采样的运动场信息与基本视图/基层的经升频采样的纹理图片相关联，和/或将帧间预测参考图片添加到用于帧间预测的参考图片列表，此在下文中参看图9更详细地进行描述。

升频采样模块170可缩放或再采样视频数据(包含例如预测模式信息和/或运动场信息的像素和非像素信息)，以增加空间分辨率。在一些实施例中，基本视图/基层的视频数据可经升频采样以匹配增强视图/增强层的空间分辨率。升频采样模块170也可与视频解码器30的一或多个其它功能组件协调，以在将基层图片插入到参考图片列表之前升频采样基层图片的基本视图/基层视频数据。

重构建模块158可使用与CU的TU相关联的残余视频块和CU的PU的预测的视频块(即，适用的帧内预测数据或帧间预测数据)重构建CU的视频块。因此，视频解码器30可基于位流中的语法元素产生预测的视频块和残余视频块，且可基于预测的视频块和残余视频块产生视频块。

在重构建模块158重构建CU的视频块之后，滤波器模块可执行解块操作以减少与CU相关联的块伪影。在滤波器模块执行解块操作以减少与CU相关联的块伪影之后，视频解码器30可将CU的视频块存储于经解码图片缓冲器160中。经解码图片缓冲器160可提供参考图片，以供后续运动补偿、帧内预测和在显示装置(例如，图1的显示装置32)上的呈现。例如，视频解码器30可基于经解码图片缓冲器160中的视频块对其它CU的PU执行帧内预测或帧间预测操作。

多视图视频译码

多视图视频译码(MVC)为H.264/AVC的扩展。典型MVC解码次序(例如，位流次序)展示于图4中。图400包含存取单元401、402和403；视图411、412和413；和经译码图片421、422和423。为了简洁起见，并未标注图4中所示的所有存取单元、视图和经译码图片。图4中所示的解码次序排列被称作时间优先译码。每一存取单元(例如，垂直列T0、T1、……、T8)经定义含有针对一个输出时间执行个体的所有视图(例如，S0、S1、……、S7)的经译码图片。存取单元的解码次序可不等同于输出或显示次序。

用于多视图视频译码的典型MVC预测(包含每一视图内的图片间预测和视图间预测两者)结构展示于图5中。图500包含存取单元501、502和503；视图511、512和513；和经译码图片521、522、523和524。为了简洁起见，并未标注图5中所示的所有存取单元、视图和物件。预测由箭头(例如，箭头531和532)指示，其中每一所指向的物件将相关联的指向从的物件用于预测参考。在MVC中，不均等运动补偿支持视图间预测。不均等运动补偿使用H.264/AVC运动补偿的语法，但允许不同视图中的图片(例如，不同行S0、……、S7等)被用作参考图片。

多个视图的译码也由MVC支持。MVC的一个优点在于，MVC编码器可将两个以上视图作为3D视频输入，且MVC解码器可解码此多视图表示。因此，具有MVC解码器的显现器可期望具有两个以上视图的3D视频内容。

在MVC中，在同一存取单元(例如，具有相同时间执行个体)中的图片间允许视图间预测。当在非基本视图中的一者中译码图片时，如果图片在不同视图中但具有相同时间执行个体，那么可将其添加到参考图片列表内。可将视图间预测参考图片置于参考图片列表的任何位置中，正如任一帧间预测参考图片一样。

HEVC技术

1.参考图片列表构建

通常，用于B图片的第一或第二参考图片列表的参考图片列表构建包含两个步骤：(1)参考图片列表初始化，和(2)参考图片列表重排序(修改)。参考图片列表初始化为基于POC(图片次序计数，与图片的显示次序对准)值的次序将参考图片存储器(也被称为经解码图片缓冲器或DPB)中的参考图片置入列表内的显式机制。参考图片列表重排序机制可将在参考图片列表初始化期间置于所述列表中的图片的位置修改成任何新位置，或在参考图片存储器中的任一参考图片并不存在于经初始化的列表中的情况下将所述图片置于任何位置中。

在参考图片列表重排序/修改之后，可将一些图片放置于列表下方极远的位置中。然而，如果图片的位置超过列表的有效参考图片的数目，那么所述图片不被视为最终参考图片列表的项。可针对每一列表在图块标头中发信有效参考图片的数目。在构建参考图片列表之后(例如，RefPicList0和RefPicList1，如果可用)，可使用参考索引识别任何参考图片列表中的图片。

2.TMVP

时间运动向量预测(TMVP)用以改善HEVC的译码效率。TMVP存取经解码图片缓冲器中(更明确地说，参考图片列表中)的帧的运动向量。

在经帧间预测的图块中，当针对整个经译码视频序列启用TMVP时(例如，序列参数集合中的sps_temporal_mvp_enable_flag经设定到1)，在图块标头中发信slice_temporal_mvp_enable_flag以指示是否针对当前图块启用TMVP。当针对当前图块启用TMVP时，如果当前图片为B图块，那么在图块标头中发信collocated_from_l0_flag以指示同置型图片来自RefPicList0或是RefPicList1。

在识别参考图片列表之后，使用在图块标头中发信的collocated_ref_idx识别列表中的图片。接着，通过检查同置型图片而识别同置型预测单元(PU)。使用含有此PU的译码单元(CU)的右下方PU的运动或在含有此PU的CU的中心PU内的右下方PU的运动。

3.HEVC中的随机存取

存在可由HEVC中的网络抽象层(NAL)单元类型识别的四个图片类型。这些为瞬时解码再新(IDR)图片、清洁随机存取(CRA)图片、时间层存取(TLA)图片，和并非IDR、CRA或TLA图片的经译码图片。

IDR和经译码图片为类似于H.264/AVC规范中所使用的图片类型的图片类型。CRA和TLA图片类型为HEVC中的新型，且不可用于H.264/AVC规范中。CRA图片为以比插入IDR图片有效率的方式促进从视频序列中间的任何随机存取点开始的解码的图片类型。在HEVC中，开始于这些CRA图片的位流也为一致位流。TLA图片为可用以指示有效时间层切换点的图片类型。以下章节进一步详细描述CRA和TLA图片。

在例如广播和流式传输的视频应用程序中，用户常希望在不同信道之间切换，且以最小延迟跳到视频广播或流的特定部分。此特征是通过在视频位流中具有规则间隔的随机存取图片而实现。指定于H.264/AVC和HEVC两者中的IDR图片可用于随机存取。然而，由于IDR图片开始经译码视频序列，且始终清洁经解码图片缓冲器(DPB)，因此按解码次序在IDR之后的图片不能将先于IDR图片解码的图片用作参考。因此，用于随机存取的依赖于IDR图片的位流可具有显著较低译码效率(例如，6％)。为了改善译码效率，HEVC中的CRA图片允许按解码次序在CRA图片之后但按输出次序在其之前的图片将在CRA图片前解码的图片用作参考。

围绕CRA图片的典型预测结构展示于图6中。图600说明前一图片群组(GOP)601、当前GOP 602和下一GOP 603。在图600中，图片611和612属于前一GOP 601，图片621-628属于当前GOP 602，且图片631和632属于下一GOP 603。如结合图5所论述，预测由箭头(例如，箭头641和642)指示，其中每一所指向的图片将相关联的指向从的图片用于预测参考。POC为24的CRA图片(即，图片628)属于当前GOP 602，其含有按解码次序在CRA图片之后但按输出次序在CRA图片之前的其它图片621-627(POC为17到23)。这些图片(例如，图片621-627)叫作CRA图片(例如，图片628)的前置图片，且可在解码从当前CRA图片前的IDR或CRA图片开始的情况下进行正确地解码。然而，当从此CRA图片的随机存取发生时，不能正确地解码前置图片；因此，通常在随机存取解码期间抛弃这些前置图片。

为防止错误从视解码开始处而定可能不可用的参考图片传播，按解码次序和输出次序两者在CRA图片之后之下一GOP 603中的所有图片(如图6中所示)不将按解码次序或输出次序先于CRA图片的任一图片(其包含前置图片)用作参考。

类似随机存取功能性用恢复点SEI消息而于H.264/AVC中得以支持。H.264/AVC解码器实施方案可或可不支持所述功能性。在HEVC中，开始于CRA图片的位流被视为一致位流。当位流开始于CRA图片时，CRA图片的前置图片可指不可用参考图片，且因此不能正确地解码。然而，HEVC指定不输出开始CRA图片的前置图片，因此名称为“清洁随机存取”。为了位流一致性要求的建立，HEVC指定解码过程以产生用于未输出的前置图片的解码的不可用参考图片。然而，一致解码器实施方案未必遵循那个解码过程，只要与从位流的开始执行解码过程时相比其可产生相同的输出。

在HEVC中，一致位流可完全不含有IDR图片，且因此可含有经译码视频序列或经不完全译码视频序列的子集。

除IDR和CRA图片之外，也存在其它类型随机存取点图片，例如，BLA。对于随机存取点图片的主要类型中的每一者，取决于随机存取点图片可潜在地由系统处理的方式，可存在子类型。随机存取点图片的每一子类型可具有不同NAL单元类型。

4.HEVC中的运动压缩

为使解码器能够以需要较小经解码图片缓冲器(DPB)的方式实施，在HEVC中引入运动压缩，以按图片的每一块(如果呈16×16块光栅扫描次序)假设含有用于RefPicList0的相同第一运动向量(如果可用)和用于RefPicList1的相同第二运动向量(如果可用)的方式压缩运动场。运动压缩适用于所有时间参考图片，使得可显著减小DPB大小。

在本发明中，16×16块中的每一者被称作“对准的16×16块”。然而，在当前HEVC规范中，按在存取在对准的16×16块内部的任何4×4块时使用在对准的16×16块内的左上角块的运动向量的方式实时进行运动场。当前HEVC规范下的此设计需要CU级过程来实时处置运动压缩，智能型解码器可在图片级中进行此。

JCT-3V中的MV-HEVC

为将上述HEVC概念实施到多视图HEVC(MV-HEVC)，可能需要HEVC的多视图扩展、译码单元级或较低级改变。

1.MV-HEVC中的随机存取

HEVC的随机存取概念扩展到多视图和3DV扩展。随机存取点存取单元以及随机存取视图组件的详细定义描述于MV-HEVC工作草案规范JCT3V-A1004中，其被以引用的方式全部并入。另外，随机存取点存取单元以及随机存取视图组件的详细定义也在MV-HEVC工作草案规范中：JCT3V-A1004(ITU-T SG16 WP3与ISO/IEC JTC1/SC29/WG11的关于3D视频译码扩展开发联合协作小组于2012年7月16日到20日在瑞典斯德哥尔摩召开的第1次会议上杰哈德·泰克(Gerhard Tech)、克日什托夫·瓦格纳(Krzysztof Wegner)、陈英(音译，YingChen)、密斯卡·汉努克塞拉(Miska Hannuksela)的“MV-HEVC工作草案1(MV-HEVC WorkingDraft 1)”，其被以引用的方式全部并入)。

视图组件是否为随机存取点取决于所述视图组件的NAL单元类型。如果类型属于用于随机存取点图片的HEVC基本规范中定义的类型，那么当前视图组件为随机存取点视图组件(或为简单起见，当前视图的随机存取点图片)。

随机存取功能性仅以与HEVC基本规范中类似地停用或约束时间维度中的某些预测(因此，针对单一视图)的方式而适用于时间预测。然而，用于随机存取点视图组件的视图间预测仍是可能且典型的，以改善译码效率，此类似于H.264/MVC中的锚图片。随机存取点(RAP)视图组件在其使用视图间预测的情况下可为P或B图片。

如下所述，此概念可扩展到HEVC或“朝向HEVC”多标准编解码器的可缩放扩展。

2.视图间参考图片集合

视图间参考图片集合可基于在视频参数集合(VPS)中发信的视图相依性而建立。对于当前图片，在同一存取单元中且属于相依视图(在VPS中发信)的图片形成视图间参考图片集合。视图间参考图片集合中的图片可用以添加到当前图片的参考图片列表内。

基于仅高阶语法(仅HLS)的HEVC的可缩放译码

在仅HLS的HEVC中，如果两个空间层具有相同空间分辨率，那么可类似于MV-HEVC而支持仅HLS的HEVC，其中甚至在同置型图片来自不同视图时也启用TMVP。注意，将基层图片(在可能的升频采样/滤波之后)作为参考图片列表中的参考图片添加。

层间/视图间运动预测

通过当前HEVC设计，可通过将参考图片列表中的参考层/视图图片用作同置型图片而启用层间/视图间运动预测。图7中展示使用HEVC设计的视图间/层间运动预测的实例。图700说明当前视图/层710(例如，增强层)中的图片701-703和参考视图/层720(例如，基层)中的图片704-706。当前图片703具有等于当前视图710中的POC0的POC。将基本视图/基层图片706作为同置型图片而发信(通过图块标头中的语法元素)，且将此图片中的同置型块的运动向量(表示为MV)用作候选以预测当前预测单元(PU)的运动向量(例如，预测的MV)。在此情况下，基本视图/基层720中的图片706不仅在参考图片列表中，且也作为同置型图片而在参考图片列表中(例如，RefPicListX[collocated_ref_idx]，其中X等于collocated_from_l0_flag)。

然而，在多视图情况中，同置型PU可通过使用不均等向量而非使用HEVC中定义的方法来定位。在另一实施例中，可明显地对不均等向量执行视图间运动预测，因此就存取所述同置型PU来说，按与HEVC中相同的方式。

具有不同空间分辨率的多个层

以下实施例描述在两个层具有不同空间分辨率而无译码单元级或低级改变时支持可缩放视频译码中的层间运动预测的装置、系统和方法。

在一个实施例中，基本视图/基层图片的运动场经升频采样且与基本视图/基层的经升频采样的纹理图片相关联，使得包含纹理(即，样本像素)和运动向量两者的层间参考图片可通过HEVC时间运动向量预测设计明显地使用，而无任何修改。例如，基本视图/基层图片的运动场可为一组运动向量，其中每一运动向量对应于基本视图/基层图片中的像素。可在将层间参考图片添加到参考图片集合或参考图片列表内之前在图片级执行运动场升频采样。例如，经升频采样的运动场可存储于与经升频采样的纹理图片相关联的层间参考图片中。这些层间参考图片可包含作为规则时间参考图片的所有必要信息，且因此可将这些层间参考图片添加到参考图片列表且用于增强视图/增强层的帧间预测。可将层间参考图片添加到一或多个参考列表或替换一或多个参考列表中的另一图片。在实施例中，运动场的升频采样匹配基本视图/基层图片的升频采样，使得根据相同空间纵横比对两者升频采样。

运动场升频采样也可包含译码树、译码单元和预测单元升频采样，使得经升频采样的译码树、译码单元和预测单元符合HEVC设计。运动场升频采样也可包含模式的升频采样(例如，帧内/帧间，帧内预测模式)，使得经升频采样的模式以符合HEVC设计的方式与译码单元相关联。换句话说，模式也与基本视图/基层的经升频采样的纹理图片相关联。

可执行运动场升频采样，使得分开来执行目标层间参考图片的每一4×4块，且导出多达两个运动向量，每一运动向量与参考索引相关联。替代地，可执行升频采样，使得分开来执行目标层间参考图片的每一16×16块，且导出多达两个运动向量，每一运动向量与参考索引相关联。

对于图片的每一当前N×N(例如，N等于4或16，或大体任何大小)块，所述块的中心位置被映射到基层图片的唯一位置，且覆盖所述映射位置的基层的N×N块的运动信息直接用以导出运动信息。可首先在当前帧(例如，EL)中决定具有中心位置的此像素样本，且将此像素样本映射到层间/视图间块或参考图片中的对应的或同置型位置。替代地，可针对层间/视图间的对应的或同置型块决定具有中心位置的像素样本，且将所述像素样本映射到当前(例如，EL)块。视空间分辨率而定，这些两个方法可导致不同的运动场映射。

当使用16×16时，运动场已如HEVC中所描述地压缩到16×16的粒度，使得每一16×16最大具有对应于RefPicListX(其中X等于0或1)的一个运动向量。在一个实施例中，在中心像素的映射期间，当经映射像素位置在子像素位置中时，其被舍入到右下方整数样本位置。经映射中心像素可针对垂直和水平分量两者进一步移位1。在一个实施例中，选择当前N×N块的任何位置(例如，块的任何角落)以将其映射到基层图片。替代地，可选择在当前N×N块之外的任何位置以将其映射到基层图片。

在另一实施例中，用等于两个层的空间分辨率比的比率升频采样所有基层N×N块。例如，如果N等于4，且比率为1.5，那么在经升频采样的结构(例如，图8的图800中所示的经升频采样的基层图片802)中，每一经升频采样块804(例如，6×6块)含有运动信息的全集合，且最大含有对应于RefPicListX(其中X等于0或1)的一个运动向量。在升频采样基层运动结构之后，对于图片的每一当前N×N块，中心位置直接用于含有经升频采样块(例如，6×6块)的虚拟图片中。含有中心位置的经升频采样块的运动信息的全集合再用于当前N×N块(例如，图8中所示的当前层806中的块808)。在图8的当前层806中，虚线指示经升频采样6×6块(例如，块804)的边缘将所处的处。在一个实施例中，选择当前N×N块的任何位置(例如，块的任何角落)以将其经映射到基层图片。当N×N块可与来自基层的多个经升频采样块(例如，图8中所示的块810)对准时，可进一步应用参考索引选择和运动向量选择。

在另一实施例中，在运动场映射期间，可设定基层块的预测模式和相邻块的预测模式，使得对于经升频采样帧中的任何块，已知所述块属于经帧内预测的预测单元或是经帧间预测的预测单元。

在一个实施例中，如果基层块的初始预测模式为帧内，那么在基层升频采样之后，保持所述帧内模式，且并不针对帧内块升频采样运动场。译码器可检查基层块的预测模式是否为帧内预测模式。例如，图2的视频编码器20的预测模块100可执行此检查。如果确定为基层块的预测模式为帧内，那么可跳过运动场信息的升频采样。另一方面，如果确定为基层块的预测模式并非为帧内，那么升频采样基层块的运动场(例如，通过图2的视频编码器20的升频采样模块130)，且至少部分基于基层块的经升频采样的运动场确定当前块的预测的值。如上文所论述，可由图2的视频编码器20的预测模块100执行当前块的预测的值的确定。

替代地，与初始基层预测模式无关，在基层升频采样之后，针对具有经升频采样的运动场的所有块指派帧间预测模式。在一些实施例中，与基层预测模式无关，升频采样基层块的运动场(例如，由图2的视频编码器20的升频采样模块130)。在这些实施例中，可将帧间预测模式指派到具有经升频采样的运动场的所有块。至少部分基于基层块的经升频采样的运动场，可确定当前块的预测的值。当前块的预测的值的确定可由图2的视频编码器20的预测模块100执行。

在运动场升频采样期间，在指派运动场之前，除当前块预测模式之外，也可考虑相邻块预测模式。可将所述预测模式转换到为与相邻块相关联的最常见模式的预测模式。

在一些实施例中，与经升频采样的运动场相关联的经升频采样视频块的预测模式可基于在空间上邻近所述经升频采样视频块的至少一个相邻视频块的预测模式确定。例如，如果当前块为帧内块，但其周围相邻块的大部分具有帧间预测模式，那么当前块的模式可设定为帧间，且针对此当前块指派经升频采样的运动场。在另一实例中，如果相邻块中的至少一者为经帧间预测的块，那么当前块预测模式可也设定为经帧间预测的块，且也指派经升频采样的运动场。至少部分基于基层块的经升频采样的运动场，可确定当前块的预测的值。如上文所论述，当前块的预测模式和预测的值的确定可由图2的视频编码器20的预测模块100执行。

在一个替代例中，另外，如果经升频采样图片中的当前块对应于(原始图片中)经帧内译码的块的至少一个像素，那么所述当前块被视为经帧内译码。

根据实施例的用于译码视频信息的实例方法900说明于图9中。方法900可由视频编码器20或视频解码器30的一或多个组件执行，包含(但不限于)帧间预测模块121、升频采样模块130、运动补偿模块162或升频采样模块170。在一些实施例中，其它组件可用以实施本文中所描述的步骤中的一或多者。例如，方法900可用以执行关于图4到8描述的动作中的一或多者。尽管将方法900的步骤描述为由译码器执行，但这些步骤可由编码器(例如，视频编码器20)或解码器(例如，视频解码器30)执行。

方法900开始于步骤901。在步骤905，升频采样与第一层(例如，基层)相关联的运动场信息。运动场信息可包含(例如)与特定第一层相关联的一组运动向量，且也可包含帧间方向、参考索引或与运动估计相关的任何其它信息。本文中所描述的升频采样可为缩放、再采样或任何其它类似技术。例如，运动场信息的升频采样可匹配第一层的纹理图片的升频采样，使得两者根据相同空间纵横比进行升频采样。

在步骤910，译码器添加包含与第一层的经升频采样的纹理图片相关联的经升频采样的运动场信息的层间参考图片。层间参考图片可仅添加到参考图片列表或替换参考图片列表中的现有参考图片。

在步骤915，译码器基于层间参考图片的经升频采样的运动场信息预测第二层的至少一部分。例如，译码器可将层间参考图片用于时间运动向量预测(TMVP)。例如，可使用添加到参考图片列表的层间参考图片来预测第二层中的特定译码单元或预测单元。方法900结束于步骤920。

在上述描述中，可已将块结构用作实例。然而，可对像素使用本文中描述的技术、装置和方法，且代替利用与相邻块相关联的信息，可利用相邻像素。

实施方案

存在用于在当前层中的一个块对应于基层中的多个块时导出参考索引和运动向量信息的额外技术。在当前N×N块与来自基层的多个经升频采样块同置时，如下文论述，可使用若干方法中的任何一或多者。

1.参考索引转换

由于基层参考图片列表和增强层参考图片列表未必相同(就每一项的POC值来说)，因此如果基层的参考索引rIdxB与增强层的参考索引rIdxE对应于具有相同POC值的图片，那么基层的参考索引rIdxB经转换成增强层的参考索引rIdxE。如果rIdxE不存在，那么基层块被视为不可用于特定RefPicList0或RefPicList1方向。

也可在将基层处的与RefPicListX(其中X等于0或1)有关的参考索引转换到增强层处的与RefPicListY(其中Y等于1-X)有关的参考索引时执行类似操作。

在另一实施例中，如果rIdxE不存在，那么可基于POC距离，针对基层块中的待缩放到的MV选择时间参考图片(例如，具有最小参考索引)。另外，可将rIdxB转换到基层中的对于EL有效的另一参考索引。另外，可对位流强加编码器约束以避免此问题。

在另一实施例中，如果基层块为双向，且参考索引rIdxB中的一者无效，那么可将MV转换到具有有效参考索引的单向，而非使整个运动场不可用。

在以下描述中，参考索引可被视为已经转换。

2.基于帧间方向的选择

在一个实施例中，就MV选择来说的优先权可由帧间方向预定义。例如，如果当前图块类型为B图块，那么可将优先权给予具有双向MV的块，意谓经双向预测的块具有被选择以预测当前N×N块的更好机会。

3.基于位置优先权的选择

在另一实施例中，就方向来说的优先权可预定义，例如(i)首先上方，接着左侧；(ii)首先下方，接着右侧；或(iii)首先上方，接着右侧。首先选择在第一方向边界与当前N×N块相交的所有经升频采样块。接着，接下来选择在第二方向边界与当前N×N块相交的所述经升频采样块。运动信息的全集合经设定为当前N×N块的运动信息。

4.基于时间距离的选择

在一个实施例中，在经升频采样块中，具有POC距离最接近当前图片的参考图片的经升频采样块经选择以提供N×N块的运动信息的全集合。可分开来针对每一预测方向(对应于RefPicList0或RefPicList 1)进行此操作。

在另一实施例中，如果存在含有指具有最近POC距离的相同参考图片的参考索引的多个经升频采样块，那么可应用以下操作以进一步导出运动向量：(1)导出运动向量的平均值，作为最终运动向量；(2)导出运动向量的中数，作为最终运动向量。在一个实施例中，仅针对中数操作选择多达3个运动向量。

5.虚拟运动向量产生

在另一实施例中，当一个经升频采样块含有对应于RefPicListX(其中X等于0或1)的参考索引和MV，但无对应于RefPicListY(其中Y等于1-X)的可用参考索引，而另一块含有对应于RefPicListY的参考索引和MV时，这些两个块的运动向量可用以形成经双向预测的运动信息的全集合。

另外，当一个经升频采样块含有对应于RefPicListX(其中X等于0或1)的参考索引和MV，但无对应于RefPicListY(其中Y等于1-X)的可用参考索引，而另一块含有对应于RefPicListX的参考索引(refIdxXB)和MV，但对应于与RefPicListY中的一个参考图片相同的图片时，另一块的运动向量用以形成经双向预测的运动信息的全集合，其中refIdxXB转换成refIdxYB'，其对应于由RefPicListX中的refIdxXB识别的图片。

可使用多种不同技术中的任一者来表示本文中所揭示的信息和信号。例如，可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示可贯穿以上描述提及的数据、指令、命令、信息、信号、位、符号和码片。

结合本文中所揭示的实施例而描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体在其功能性方面描述了各种说明性组件、块、模块、电路和步骤。此功能性实施为硬件或是软件取决于特定应用和强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以变化的方式实施所描述的功能性，但不应将这些实施方案决策解释为造成背离本发明的范围。

本文中描述的技术可以硬件、软件、固件或其任何组合实施。这些技术可实施于多种装置中的任一者中，例如，通用计算机、无线通信装置手持机或具有包含在无线通信装置手持机和其它装置中的应用的多个用途的集成电路装置。描述为模块或组件的任何特征可一起实施于集成式逻辑装置中，或作为离散但可交互操作的逻辑装置分开来实施。如果以软件实施，那么所述技术可至少部分由包括程序代码的计算机可读数据存储媒体来实现，所述程序代码包含在经执行时执行上述方法中的一或多者的指令。计算机可读数据存储媒体可形成计算机程序产品的部分，其可包含包装材料。计算机可读媒体可包括存储器或数据存储媒体，例如，随机存取存储器(RAM)(例如，同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可抹除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体和类似者。另外或替代地，所述技术可至少部分由计算机可读通信媒体(例如，经传播的信号或波)实现，所述计算机可读通信媒体以指令或数据结构的形式载运或传送程序代码且可由计算机存取、读取和/或执行。

程序代码可由处理器执行，处理器可包含一或多个处理器，例如，一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成式或离散逻辑电路。此处理器可经配置以执行本发明中描述的技术中的任一者。通用处理器可为微处理器；但在替代例中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心或任何其它此配置。因此，如本文所使用的术语“处理器”可指前述结构中的任一者、前述结构的任何组合或适用于实施本文中所描述的技术的任何其它结构或设备。另外，在一些方面中，本文中所描述的功能性可提供于经配置以用于编码和解码的专用软件模块或硬件模块内，或并入于组合式视频编码器解码器(CODEC)中。又，所述技术可充分实施于一或多个电路或逻辑元件中。

本发明的技术可以广泛的多种装置或设备实施，所述装置或设备包含无线手持机、集成电路(IC)或IC集合(例如，芯片集)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面，但未必需要由不同硬件单元来实现。相反地，如上所述，可将各种单元组合于编解码器硬件单元中，或可由互操作性硬件单元(包含如上所述的一或多个处理器)的集合结合合适的软件和/或固件来提供各种单元。

已描述本发明的各种实施例。这些和其它实施例在以下权利要求书的范围内。

Claims

1.一种经配置以译码视频信息的设备，其包括：

存储器，其经配置以存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频数据，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频数据包含与所述第一层相关联的至少运动场信息；以及

处理器，其与所述存储器通信，所述处理器经配置以：

对于能用于预测所述第二层且具有多个块的层间参考图片的每一相应块：

确定对应于所述相应块的所述第一层的相应部分是否经帧内译码；以及

执行以下一者：(i)基于确定所述第一层的所述相应部分经帧内译码，将与所述层间参考图片的所述相应块相关联的译码模式设定为帧内模式，或者(ii)基于确定所述第一层的所述相应部分未经帧内译码，升频采样与所述第一层的所述相应部分相关联的运动场信息并将经升频采样的所述运动场信息与所述相应块相关联；

将所述层间参考图片添加到将被用于所述第二层的至少一部分的层间预测的参考图片列表；以及

基于所述层间参考图片预测所述第二层的至少一部分，

其中对于所述第二层中的每一N×N块，所述处理器经配置以：

将中心位置映射到所述第一层中的唯一位置，以及

从与所述第一层中的所述唯一位置相关联的经升频采样的运动场信息导出所述第二层中的全部N×N块的运动场信息，其中N可为至少16，其中所述第二层中的每一N×N块具有在所述层间参考图片中的特定同置型N×N块，所述特定同置型N×N块具有在所述第一层中的同置型块，所述运动场信息是针对所述层间参考图片中的所述特定同置型N×N块而升频采样自所述同置型块。

2.根据权利要求1所述的设备，其中所述处理器经进一步配置以使用所述层间参考图片作为用于确定待用于预测所述第二层的运动向量的同置型图片。

3.根据权利要求1所述的设备，其中所述运动场升频采样针对所述层间参考图片的每一4×4块分开来执行。

4.根据权利要求1所述的设备，其中所述第一层的所述运动场信息基于高效率视频译码HEVC运动压缩而压缩。

5.根据权利要求1所述的设备，其中所述运动场信息的所述升频采样包括：将译码树、译码单元、预测单元、模式、帧内模式或帧间模式中的至少一者与所述层间参考图片相关联。

6.根据权利要求1所述的设备，其中所述处理器经进一步配置以结合升频采样所述运动场信息而导出多达两个运动向量，每一运动向量与参考索引相关联。

7.根据权利要求1所述的设备，其中帧间模式被指派给所述层间参考图片中的一个或多个块。

8.根据权利要求1所述的设备，其中所述第一层的所有N×N块是以等于所述第二空间分辨率与所述第一空间分辨率的比率的比率而升频采样。

9.根据权利要求1所述的设备，其中所述处理器经进一步配置以基于确定所述第一层中的同置型块经帧内译码且所述同置型块的大部分相邻块的每一者经帧间译码，为所述层间参考图片中的特定块指派帧间模式。

10.根据权利要求1所述的设备，其中所述处理器经进一步配置以基于确定所述第一层中的特定块的同置型块经帧内译码，不为所述层间参考图片中的所述特定块升频采样运动场信息。

11.根据权利要求1所述的设备，其中所述处理器经进一步配置以基于确定所述第一层中的特定块的同置型块具有属于所述第一层中的经帧内译码的块的至少一个像素，不为所述层间参考图片中的所述特定块升频采样运动场信息。

12.一种编码视频信息的方法，所述方法包括：

接收与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频数据，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频数据包含与所述第一层相关联的至少运动场信息；对于能用于预测所述第二层且具有多个块的层间参考图片的每一相应块：

将所述层间参考图片添加到将被用于所述第二层的至少一部分的层间预测的参考图片列表基于所述层间参考图片预测所述第二层的至少一部分；以及

在位流中发信与所述第二层相关联的至少一个语法元素，

其中对于所述第二层中的每一N×N块：

将中心位置映射到所述第一层中的唯一位置，以及

13.根据权利要求12所述的方法，其进一步包括使用所述层间参考图片作为用于确定待用于预测所述第二层的运动向量的同置型图片。

14.根据权利要求12所述的方法，其中所述运动场升频采样针对所述层间参考图片的每一4×4块分开来执行。

15.根据权利要求12所述的方法，其中所述第一层的所述运动场信息基于高效率视频译码HEVC运动压缩而压缩。

16.根据权利要求12所述的方法，其中所述运动场信息的所述升频采样包括：将译码树、译码单元、预测单元、模式、帧内模式或帧间模式中的至少一者与所述层间参考图片相关联。

17.根据权利要求12所述的方法，其进一步包括结合升频采样所述运动场信息而导出多达两个运动向量，每一运动向量与参考索引相关联。

18.根据权利要求12所述的方法，其中帧间模式被指派给所述层间参考图片中的一个或多个块。

19.根据权利要求12所述的方法，其中所述第一层的所有N×N块是以等于所述第二空间分辨率与所述第一空间分辨率的比率的比率而升频采样。

20.根据权利要求12所述的方法，其进一步包括基于确定所述第一层中的同置型块经帧内译码且所述同置型块的大部分相邻块的每一者经帧间译码，为所述层间参考图片中的特定块指派帧间模式。

21.根据权利要求12所述的方法，其进一步包括基于确定所述第一层中的特定块的同置型块经帧内译码，不为所述层间参考图片中的所述特定块升频采样运动场信息。

22.根据权利要求12所述的方法，其进一步包括基于确定所述第一层中的特定块的同置型块具有属于所述第一层中的经帧内译码的块的至少一个像素，不为所述层间参考图片中的所述特定块升频采样运动场信息。

23.一种解码视频信息的方法，所述方法包括：

接收从经编码视频位流提取的语法元素，其中所述语法元素包括与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频数据，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频数据包含与所述第一层相关联的至少运动场信息；

基于所述层间参考图片预测所述第二层的至少一部分，

其中对于所述第二层中的每一N×N块：

将中心位置映射到所述第一层中的唯一位置，以及

24.根据权利要求23所述的方法，其进一步包括使用所述层间参考图片作为用于确定待用于预测所述第二层的运动向量的同置型图片。

25.根据权利要求23所述的方法，其中所述运动场升频采样针对所述层间参考图片的每一4×4块分开来执行。

26.根据权利要求23所述的方法，其中所述第一层的所述运动场信息基于高效率视频译码HEVC运动压缩而压缩。

27.根据权利要求23所述的方法，其中所述运动场信息的所述升频采样包括：将译码树、译码单元、预测单元、模式、帧内模式或帧间模式中的至少一者与所述层间参考图片相关联。

28.根据权利要求23所述的方法，其进一步包括结合升频采样所述运动场信息而导出多达两个运动向量，每一运动向量与参考索引相关联。

29.根据权利要求23所述的方法，其中帧间模式被指派给所述层间参考图片中的一个或多个块。

30.根据权利要求23所述的方法，其中所述第一层的所有N×N块是以等于所述第二空间分辨率与所述第一空间分辨率的比率的比率而升频采样。

31.根据权利要求23所述的方法，其进一步包括基于确定所述第一层中的同置型块经帧内译码且所述同置型块的大部分相邻块的每一者经帧间译码，为所述层间参考图片中的特定块指派帧间模式。

32.根据权利要求23所述的方法，其进一步包括基于确定所述第一层中的特定块的同置型块经帧内译码，不为所述层间参考图片中的所述特定块升频采样运动场信息。

33.根据权利要求23所述的方法，其进一步包括基于确定所述第一层中的特定块的同置型块具有属于所述第一层中的经帧内译码的块的至少一个像素，不为所述层间参考图片中的所述特定块升频采样运动场信息。

34.一种非暂时性计算机可读媒体，其包括当经执行时使设备进行以下操作的代码：

存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频数据，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频数据包含与所述第一层相关联的至少运动场信息；

基于所述层间参考图片预测所述第二层的至少一部分，

其中对于所述第二层中的每一N×N块，所述代码当经执行时进一步使所述设备进行以下操作：

将中心位置映射到所述第一层中的唯一位置，以及

35.根据权利要求34所述的非暂时性计算机可读媒体，其中所述代码经执行时进一步使所述设备使用所述层间参考图片作为用于确定待用于预测所述第二层的运动向量的同置型图片。

36.根据权利要求34所述的非暂时性计算机可读媒体，其中所述运动场信息的所述升频采样包括：将译码树、译码单元、预测单元、模式、帧内模式或帧间模式中的至少一者与所述层间参考图片相关联。

37.根据权利要求34所述的非暂时性计算机可读媒体，其中所述代码经执行时进一步使所述设备基于确定所述第一层中的同置型块经帧内译码且特定块的大部分相邻块的每一者经帧间译码，为所述层间参考图片中的所述特定块指派帧间模式。

38.一种视频译码装置，其经配置以译码视频信息，所述视频译码装置包括：

用于存储与具有第一空间分辨率的第一层和具有第二空间分辨率的对应的第二层相关联的视频数据的装置，其中所述第一空间分辨率小于所述第二空间分辨率，所述视频数据包含与所述第一层相关联的至少运动场信息；

用于对于能用于预测所述第二层且具有多个块的层间参考图片的每一相应块执行以下操作的装置：

用于将所述层间参考图片添加到将被用于所述第二层的至少一部分的层间预测的参考图片列表的装置；

用于基于所述层间参考图片预测所述第二层的至少一部分的装置；以及

对于所述第二层中的每一N×N块：

用于将中心位置映射到所述第一层中的唯一位置的装置，且

用于从与所述第一层中的所述唯一位置相关联的经升频采样的运动场信息导出所述第二层中的全部N×N块的运动场信息的装置，其中N可为至少16，其中所述第二层中的每一N×N块具有在所述层间参考图片中的特定同置型N×N块，所述特定同置型N×N块具有在所述第一层中的同置型块，所述运动场信息是针对所述层间参考图片中的所述特定同置型N×N块而升频采样自所述同置型块。

39.根据权利要求38所述的装置，其进一步包括用于使用所述层间参考图片作为用于确定待用于预测所述第二层的运动向量的同置型图片的装置。

40.根据权利要求38所述的装置，其中所述运动场信息的所述升频采样包括：将译码树、译码单元、预测单元、模式、帧内模式或帧间模式中的至少一者与所述层间参考图片相关联。

41.根据权利要求38所述的装置，其进一步包括用于基于确定所述第一层中的同置型块经帧内译码且特定块的大部分相邻块的每一者经帧间译码，为所述层间参考图片中的所述特定块指派帧间模式的装置。