CN104521237B

CN104521237B - 用于可缩放视频译码及3d视频译码的多假设运动补偿

Info

Publication number: CN104521237B
Application number: CN201380041593.XA
Authority: CN
Inventors: 李想; 陈建乐; 马尔塔·卡切维奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-08-07
Filing date: 2013-08-05
Publication date: 2018-06-12
Anticipated expiration: 2033-08-05
Also published as: CN104521237A; JP2015529065A; WO2014025692A1; US20140044179A1; US9635356B2

Abstract

根据某些方面，一种用于译码视频信息的设备包含存储器单元及与所述存储器单元通信的处理器。所述存储器单元存储参考层及增强层的视频信息。所述处理器至少部分基于从来自所述参考层的移动信息计算的显式假设及隐式假设来确定所述增强层的当前视频单元的值。

Description

用于可缩放视频译码及3D视频译码的多假设运动补偿

技术领域

本发明涉及视频译码。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术，例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所界定的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地传输、接收、编码、解码及/或存储数字视频信息。

视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说，视频切片(即，视频帧或视频帧的一部分)可以分割成视频块，视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称为帧，且参考图片可涉及参考帧。

空间或时间预测导致对块的预测块进行译码。残差数据表示待译码的原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量及指示经译码块与预测块之间的差的残差数据编码的。经帧内译码块是根据帧内译码模式及残差数据来编码。为了实现进一步压缩，可以将残差数据从像素域变换到变换域，从而产生残差变换系数，接着可以对残差变换系数进行量化。可扫描最初布置为二维阵列的经量化变换系数，以便产生变换系数的一维向量，且可应用熵译码以实现更多压缩。

发明内容

一般来说，本发明描述与可缩放视频译码(SVC)相关的技术。在一些实施例中，使用采用显式地编码的假设及隐式地导出的假设两者的多假设运动补偿以便减轻归因于视频压缩而引起的图像失真。举例来说，在译码增强层中的视频单元时，视频译码器可使用来自参考层的信息以获得可用于识别额外假设的额外运动补偿数据。在从视频位流中的已经存在的数据隐式地导出这些额外假设时，可以极少或没有位流大小上的额外成本而获得视频译码中的额外性能。在另一实例中，来自在空间上相邻的视频单元的运动信息可用于定位额外假设。所导出的假设可随后被平均或另外与显式地编码的假设组合以产生对视频单元的值的更好预测。

附图和以下描述中陈述一或多个实例的细节。其它特征、目标及优势将从所述描述及所述图式以及从权利要求书而显而易见。

附图说明

在整个图式中，参考数字可再使用以指示参考元件之间的对应关系。提供图式以说明本文中描述的实例实施例，并且无意限制本发明的范围。

图1为说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。

图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。

图3是说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。

图4是说明根据本发明的方面的实例候选运动向量的框图。

图5是说明根据本发明的方面的空间候选扫描的框图。

图6是说明根据本发明的方面的导出用于B切片的空间MVP候选者的实例的框图。

图7是说明根据本发明的方面的三个不同维度上的可缩放性的框图。

图8是说明根据本发明的方面的SVC位流的实例结构的框图。

图9是说明根据本发明的方面的位流中的实例SVC存取单元的框图。

图10是说明根据本发明的方面的用于隐式多假设运动补偿(IMMC)的实例方法的框图。

图11为说明根据本发明的方面的用于编码例程的方法的实施例的流程图。

图12是说明根据本发明的方面的用于解码例程的方法的一个实施例的流程图。

具体实施方式

本发明中描述的技术通常涉及可缩放视频译码(SVC)及3D视频译码。举例来说，所述技术可与高效率视频译码(HEVC)可缩放视频译码(SVC)扩展相关，及供该HEVCSVC扩展使用或在该HEVC SVC扩展内使用。在SVC扩展中，可存在多个视频信息层。在极底层级处的层可充当基层(BL)，且在极顶部的层可充当增强层(EL)。“增强型层”有时被称作“增强层”，且这些术语可互换地使用。所有在中间的层可充当EL或参考层(RL)，或EL及参考层两者。举例来说，在中间的层可为在其下方的层(例如基层或任何介入增强层)的EL，且同时充当在其上方的增强层的RL。

仅出于说明的目的，使用仅包含两个层(例如，较低层级层(例如基础层)及较高层级层(例如增强型层))的实例来描述本发明中描述的技术。应理解，本发明中描述的实例也可扩展到具有多个基础层及增强层的实例。另外，为便于说明，以下揭示内容主要使用术语“帧”或“块”。然而，这些术语不打算是限制性的。举例来说，下文描述的技术可与不同视频单元(例如块(例如，CU、PU、TU、宏块等)、切片、帧等)一起使用。

视频译码标准

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IEC MPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称为ISO/IEC MPEG-4 AVC)，包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。此外，存在一种新的视频译码标准，即高效率视频译码(HEVC)，其正由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。截至2012年6月7日，可从http：//wg11.sc29.org/jct/doc_end_user/current_document.php？id＝5885/JCTVC-I1003-v2获得HEVC的最近草案。截至2012年6月7日，可从http：//phenix.it-sudparis.eu/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-v3.zip下载被称作“HEVC工作草案7”的HEVC标准的另一最近草案。对HEVC工作草案7的完全引用是布洛斯等人的文献HCTVC-I1003“高效率视频译码(HEVC)文本规范草案7(High Efficiency VideoCoding(HEVC)Text Specification Draft7)”，ITU-T SG16WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)，第9次会议：瑞士日内瓦，2012年4月27日到2012年5月7日。这些参考文献中的每一者以全文引用的方式并入本文中。

可缩放视频译码(SVC)可用于提供质量(还被称作信噪比(SNR))可缩放性、空间可缩放性及/或时间可缩放性。举例来说，在一个实施例中，参考层(例如，基础层)包含足以在第一质量水平下显示视频的视频信息，且增强层包含相对于所述参考层的额外视频信息，以使得所述参考层及所述增强层一起包含足以在高于所述第一水平的第二质量水平(例如，更少的噪声、更大的分辨率、更好的帧速率等)下显示视频的视频信息。增强型层可具有与基础层不同的空间分辨率。举例来说，EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说，EL的空间方面可等于BL的空间方面的1.0、1.5或2.0倍。在一些实例中，EL的缩放因数可大于BL。举例来说，EL中的图片的大小可大于BL中的图片的大小。以此方式，可有可能(但不限制)EL的空间分辨率大于BL的空间分辨率。

在H.264的SVC扩展中，可使用针对SVC提供的不同层来执行对当前块的预测。此预测可被称作层间预测。在SVC中可利用层间预测方法以便减少层间冗余。层间预测的一些实例可包含层间帧内预测、层间运动预测及层间残差预测。层间帧内预测使用基础层中的位于同一地点的块的重构来预测增强层中的当前块。层间运动预测使用基础层的运动来预测增强层中的运动。层间残差预测使用基础层的残差来预测增强层的残差。

在层间运动预测的一些实施例中，基础层(例如，位于同一地点的块)的运动数据可用于预测增强层中的当前块。举例来说，在译码增强层中的视频单元时，视频译码器可使用来自参考层的信息以获得可用于识别额外假设的额外运动补偿数据。在从视频位流中的已经存在的数据隐式地导出这些额外假设时，可以极少或没有位流大小上的额外成本而获得视频译码中的额外性能。在另一实例中，来自在空间上相邻的视频单元的运动信息可用于定位额外假设。所导出的假设可随后被平均或另外与显式地编码的假设组合以产生对视频单元的值的更好预测。

下文参考附图更充分地描述新颖系统、设备及方法的各种方面。然而，本发明可以许多不同形式来体现，且不应将其解释为限于贯穿本发明所呈现的任何特定结构或功能。而是，提供这些方面以使得本发明将为透彻且完整的，并且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示，所属领域的技术人员应了解，本发明的范围既定涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备及方法的任何方面。举例来说，可使用本文中所阐述的任何数目个方面来实施设备或实践方法。另外，本发明的范围既定涵盖使用除本文中所阐述的本发明的各种方面之外的或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解，可通过技术方案的一或多个要素来体现本文中所揭示的任何方面。

尽管本文描述了特定方面，但这些方面的许多变化和排列属于本发明的范围。尽管提及优选方面的一些益处及优点，但本发明的范围无意限于特定益处、用途或目标。而是，本发明的方面既定广泛地适用于不同无线技术、系统配置、网络和传输协议，其中的一些是作为实例而在图中以及在优选实施例的以下描述中得以说明。详细描述和图式仅说明本发明，而不是限制由所附权利要求书及其等效者界定的本发明的范围。

图1为说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。如图1中所示，系统10包含源装置12，所述源装置12提供经编码视频数据以在稍后时间由目的地装置14解码。具体来说，源装置12经由计算机可读媒体16将视频数据提供给目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型(例如，膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、所谓的“智能”板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下，源装置12和目的地装置14可能经装备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，计算机可读媒体16可包括使得源装置12能够实时将经编码视频数据直接传输到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如，无线通信协议)来调制，且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线路。通信媒体可形成基于包的网络(例如，局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它装备。

在一些实例中，经编码数据可以从输出接口22输出到存储装置。类似地，可以通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码视频数据的合适的数字存储媒体。在另一实例中，存储装置可以对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取经存储的视频数据。文件服务器可以是能够存储经编码视频数据并且将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线通道(例如，Wi-Fi连接)、有线连接(例如，DSL、缆线调制解调器，等等)，或适合于存取存储于文件服务器上的经编码视频数据的以上两者的组合。经编码视频数据从存储装置的传输可能是流式传输、下载传输或两者的组合。

本发明的技术不必限于无线应用或环境。所述技术可以应用于支持多种多媒体应用中的任一者的视频译码，例如空中协议电视广播、有线电视传输、卫星电视传输、因特网流式视频传输(例如，动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。

在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明，源装置12的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位流进行译码的技术。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18(例如外部相机)接收视频数据。同样，目的地装置14可以与外部显示装置介接，而非包含集成显示装置。

图1的所说明的系统10只是一个实例。用于确定当前块的运动向量预测符的候选列表的候选者的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行，但是所述技术还可通过视频编码器/解码器(通常被称作“编码解码器”)来执行。此外，本发明的技术还可通过视频预处理器来执行。源装置12及目的地装置14仅为源装置12在其中产生经译码视频数据以供传输到目的地装置14的此些译码装置的实例。在一些实例中，装置12、14可以实质上对称的方式操作，使得装置12、14中的每一者包含视频编码及解码组件。因此，系统10可支持视频装置12、14之间的单向或双向视频传播以例如用于视频流式传输、视频回放、视频广播或视频电话。

源装置12的视频源18可包含视频俘获装置，例如视频摄像机、含有先前所俘获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案，视频源18可产生基于计算机图形的数据作为源视频，或实况视频、所存档视频与计算机产生的视频的组合。在一些情况下，如果视频源18是摄像机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而，如上文所提及，本发明中所描述的技术一般来说可适用于视频译码，且可应用于无线及/或有线应用。在每一种情况下，可由视频编码器20编码所俘获、经预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络传输，或存储媒体(也就是说，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未图示)可例如经由网络传输、直接有线通信等从源装置12接收经编码视频数据且将经编码视频数据提供给目的地装置14。类似地，媒体生产设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码视频数据并且生产容纳经编码视频数据的光盘。因此，在各种实例中，计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20界定的语法信息，所述语法信息还供视频解码器30使用，所述语法信息包含描述块及其它经译码单元(例如，GOP)的特性及/或处理的语法元素。显示装置32将经解码视频数据显示给用户，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20和视频解码器30可以根据视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作，并且可以符合HEVC测试模型(HM)。或者，视频编码器20和视频解码器30可以根据其它专有或业界标准来操作，所述标准例如是ITU-T H.264标准，也被称为MPEG-4，第10部分，高级视频译码(AVC)，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准，包含但不限于上文所列的标准中的任一者。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当的MUX-DEMUX单元或其它硬件及软件，以处置对共同数据流或单独数据流中的音频及视频两者的编码。如果适用的话，MUX-DEMUX单元可符合ITU H.223多路复用器协议，或例如用户数据报协议(UDP)等其它协议。

视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时，装置可将用于软件的指令存储在合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置，例如蜂窝式电话。

JCT-VC正在致力于开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置根据(例如)ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说，虽然H.264提供了九种帧内预测编码模式，但是HM可提供多达三十三种帧内预测编码模式。

一般来说，HM的工作模型描述视频帧或图片可以分成包含亮度及色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可以界定最大译码单元(LCU，其在像素数目方面为最大译码单元)的大小。切片包含呈译码次序的多个连续树块。视频帧或图片可以被分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。一般来说，四叉树数据结构包含每个CU一个节点，其中一个根节点对应于所述树块。如果CU分裂成四个子CU，那么对应于CU的节点包含四个叶节点，其中叶节点中的每一者对应于所述子CU中的一者。

四叉树数据结构的每一节点可以提供相对应的CU的语法数据。举例来说，四叉树中的一节点可包含一分裂旗标，其指示对应于所述节点的所述CU是否分裂成子CU。CU的语法元素可以递归地界定，且可以取决于CU是否分裂成子CU。如果CU不进一步分裂，那么将其称为叶CU。在本发明中，叶CU的子CU也将被称作叶CU，即使不存在原始叶CU的显式分裂时也是如此。举例来说，如果16×16大小的CU不进一步分裂，那么这四个8×8子CU将也被称作叶CU，虽然16×16CU从未分裂。

CU具有类似于H.264标准的宏块的目的，但是CU并不具有大小区别。举例来说，树块可以分裂成四个子节点(还被称作子CU)，并且每一子节点又可以是父节点并且可以分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括译码节点，还称为叶CU。与经译码位流相关联的语法数据可以界定树块可以分裂的最大次数，被称作最大CU深度，并且还可界定译码节点的最小大小。因此，位流还可界定最小译码单元(SCU)。本发明使用术语“块”来指代在HEVC的情况下的CU、PU或TU或在其它标准的情况下的类似数据结构(例如，H.264/AVC中的宏块及其子块)中的任一者。

CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可以在从8×8像素直到具有最大64×64像素或更大的树块的大小的范围内。每一CU可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可以在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述CU根据四叉树被分割为一或多个TU。TU可以是正方形或非正方形(例如，矩形)形状。

HEVC标准允许根据TU的变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU界定的给定CU内的PU的大小而设置，但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，对应于CU的残差样本可以使用被称为“残差四叉树”(RQT)的四叉树结构而细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数，可以将所述变换系数量化。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于相对应的CU的全部或一部分的空间区域，并且可包含用于检索PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可以包含在残差四叉树(RQT)中，残差四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含界定PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量指向的参考帧，和/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用RQT(还称为TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可以指示叶CU是否分裂成四个变换单元。接着，每一变换单元可以进一步分裂成其它的子TU。当TU未经进一步分裂时，其可被称作叶TU。总体上，对于帧内译码，所有属于一个叶CU的叶TU共用相同的帧内预测模式。也就是说，一般应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可以使用帧内预测模式针对每一叶TU计算残差值，作为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，PU可以与相同CU的相对应的叶TU位于同一地点。在一些实例中，叶TU的最大大小可以对应于对应叶CU的大小。

此外，叶CU的TU还可与相应四叉树数据结构(被称作残差四叉树(RQT))相关联。也就是说，叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说，除非以其它方式提及，否则本发明分别使用术语CU及TU来指叶CU及叶TU。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法数据，其描述GOP中所包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视频数据。视频块可以对应于CU内的译码节点。视频块可以具有固定或变化的大小，并且根据指定译码标准可以有不同大小。

作为实例，HM支持各种PU大小的预测。假设特定CU的大小是2N×2N，那么HM支持2N×2N或N×N的PU大小的帧内预测，及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而将另一方向分割成25％及75％。CU的对应于25％分区的部分由“n”继之以“上”、“下”、“左”或“右”的指示来指示。因此，例如，“2N×nU”是指经水平分割的2N×2NCU，其中顶部为2N×0.5N PU，而底部为2N×1.5N PU。

在本发明中，“N×N”与“N乘N”可以可互换地使用，以在垂直和水平尺寸方面指代视频块的像素尺寸，例如16×16像素或16乘16像素。一般来说，16×16块将在垂直方向上具有16个像素(y＝16)，并且在水平方向上具有16个像素(x＝16)。同样地，N×N块一般在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可按行及列布置。此外，块可能不一定在水平方向与垂直方向上具有相同数目的像素。举例来说，块可包括N×M像素，其中M未必等于N。

在使用CU的PU进行帧内预测或帧间预测译码之后，视频编码器20可以计算CU的TU的残差数据。PU可包括描述产生空间域(还被称作像素域)中的预测性像素数据的方法或模式的语法数据且TU可包括在对残差视频数据应用变换(例如，离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后的变换域中的系数。残差数据可以对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残差数据的TU，并且接着变换TU以产生用于CU的变换系数。

在进行用于产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化为既定具有其最广泛一般含义的广义术语。在一个实施例中，量化是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些系数或全部相关联的位深度。举例来说，可在量化期间将n位值向下舍入到m位值，其中n大于m。

在量化之后，视频编码器可以扫描变换系数，从包含经量化变换系数的二维矩阵产生一维向量。扫描可以经设计以将较高能量(并且因此较低频率)的系数放置在阵列前面，并且将较低能量(并且因此较高频率)的系数放置在阵列的后面。在一些实例中，视频编码器20可利用预先界定的扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中，视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对所述一维向量进行熵编码。视频编码器还20可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。

为了执行CABAC，视频编码器20可以向待传输的符号指派上下文模型内的上下文。上下文可涉及(例如)符号的相邻值是否为非零。了执行CAVLC，视频编码器20可针对待传输的符号选择可变长度码。可建构VLC中的码字以使得相对较短代码对应于更有可能的符号，而较长代码对应于不太可能的符号。(例如)与对待传输的每一符号使用等长度码字的情形相比较，以此方式，使用VLC可实现位节省。概率确定可基于指派给符号的上下文。

视频编码器20可进一步例如在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的帧的数目，且帧语法数据可指示用以编码相对应的帧的编码/预测模式。

图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例，模式选择单元40可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中，作为补充或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

视频编码器20可以执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻接帧或图片内的视频中的时间冗余。帧内模式(I模式)可以指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以指若干基于时间的译码模式中的任一者。

如图2中所示，视频编码器20接收待编码视频帧内的当前视频块。在图1的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。为了视频块重构，视频编码器20还包含反量化单元58、反变换单元60，及求和器62。还可包含解块滤波器(图2中未图示)以便对块边界进行滤波，以从经重构视频移除成块性假影。必要时，解块滤波器通常将对求和器62的输出进行滤波。除解块滤波器之外，还可使用额外滤波器(环路内或环路后)。为简洁起见未展示此类滤波器，但是必要时，这些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。所述帧或切片可被划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测译码以提供空间预测。视频编码器20可以执行多个译码遍次，例如，以便为每一视频数据块选择一种适当的译码模式。

此外，分割单元48可以基于前述译码遍次中的前述分割方案的评估将视频数据块分割成子块。举例来说，分割单元48最初可以将帧或切片分割成LCU，并且基于速率失真分析(例如，速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示LCU划分成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。

模式选择单元40可以基于错误结果选择译码模式中的一者(帧内或帧间)，并且将所得的经帧内译码或经帧间译码块提供到求和器50以便产生残差块数据，并且提供到求和器62以便重构经编码块用作参考帧。模式选择单元40还将语法元素(例如，运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供到熵编码单元56。

运动估计单元42与运动补偿单元44可高度集成，但出于概念目的分开加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程，所述过程估计视频块的运动。举例来说，运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正经译码的当前块的移位。预测块是被发现在像素差方面与待译码块紧密匹配的块，像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中，视频编码器20可计算存储于参考帧存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。

运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，所述参考图片列表中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将计算出来的运动向量发送到熵编码单元56及运动补偿单元44。

由运动补偿单元44执行的运动补偿可以涉及基于由运动估计单元42确定的运动向量提取或产生预测块。同样，在一些实例中，运动估计单元42与运动补偿单元44可以在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44便可以在参考图片列表中的一者中定位所述运动向量指向的预测块。求和器50通过从经译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残差视频块，如下文所论述。一般来说，运动估计单元42相对于亮度分量执行运动估计，并且运动补偿单元44对于色度分量及亮度分量两者使用基于亮度分量计算的运动向量。模式选择单元40还可产生与视频块和视频切片相关联的供视频解码器30在对视频切片的视频块进行解码时使用的语法元素。

作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案，帧内预测单元46可以对当前块进行帧内预测或计算。明确地说，帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可(例如)在单独编码回合期间使用各种帧内预测模式对当前块进行编码，且帧内预测单元46(在一些实例中，或为模式选择单元40)可从所测试的模式中选择将使用的适当的帧内预测模式。

举例来说，帧内预测单元46可以使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值，并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(也就是说，位数目)。帧内预测单元46可以根据用于各种经编码块的失真及速率计算比率，以确定哪种帧内预测模式对于所述块展现最佳速率失真值。

在选择了用于块的帧内预测模式之后，帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可以对指示所选帧内预测模式的信息进行编码。视频编码器20可在所传输的位流中包含配置数据，所述配置数据可包含多个帧内预测模式索引表及多个修改的帧内预测模式索引表(还被称作码字映射表)、编码用于各种块的上下文的界定，及用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内预测模式索引表的指示。

视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据形成残差视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残差块，从而产生包括残差变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子频带变换或其它类型的变换。在任何情况下，变换处理单元52向残差块应用所述变换，从而产生残差变换系数的块。所述变换可将残差信息从像素值域转换到变换域，例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54将变换系数量化以进一步减小位速率。量化过程可减少与系数中的一些系数或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。替代地，熵编码单元56可以执行所述扫描。

在量化之后，熵编码单元56对经量化的变换系数进行熵译码。举例来说，熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间划分熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可以基于相邻块。在熵编码单元56的熵译码之后，可以将经编码位流传输到另一装置(例如视频解码器30)，或者将所述视频存档用于以后传输或检索。

反量化单元58及反变换单元60分别应用反量化及反变换以在像素域中重构残差块，例如以供稍后用作参考块。运动补偿单元44可以通过将残差块添加到参考帧存储器64的帧中的一者的预测块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重新构造的残差块以计算子整数像素值以用于运动估计。求和器62将经重构的残差块添加到由运动补偿单元44产生的经运动补偿的预测块以产生经重构参考块以供存储在参考帧存储器64中。经重构视频块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧中的块进行帧间译码。

图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例，运动补偿单元72及/或帧内预测单元74可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中，作为补充或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、反量化单元76、反变换单元78、参考帧存储器82及求和器80。视频解码器30在一些实例中可执行一般与关于来自图2的视频编码器20所描述的编码回合互逆的解码回合。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30从视频编码器20接收表示经解码视频切片和相关联的语法元素的视频块的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化的系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可以接收在视频切片层级和/或视频块层级处的语法元素。

当视频切片经译码为经帧内译码(I)切片时，帧内预测单元74可以基于用信号发送的帧内预测模式和来自当前图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。在视频帧被译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元72基于运动向量及从熵解码单元70接收的其它语法元素而产生用于当前视频切片的视频块的预测块。可以从参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可基于存储于参考帧存储器92中的参考图片使用默认建构技术来建构参考帧列表：列表0及列表1。运动补偿单元72通过解析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息，并且使用所述预测信息产生用于正被解码的当前视频块的预测块。举例来说，运动补偿单元72使用所接收的语法元素中的一些语法元素来确定用于对视频切片的视频块进行译码的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的建构信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态，及用以对当前视频切片中的视频块进行解码的其它信息。

运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下，运动补偿单元72可根据所接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测块。

反量化单元76将在位流中提供且由熵解码单元80解码的经量化变换系数反量化，例如解量化。反量化过程可包含使用视频解码器30针对视频切片中的每一视频块计算以确定应该应用的量化程度和同样反量化程度的量化参数QPY。反变换单元78对变换系数应用反变换，例如反DCT、反整数变换或概念上类似的反变换过程，以便产生像素域中的残差块。

在运动补偿单元82基于运动向量和其它语法元素产生当前视频块的预测块之后，视频解码器30通过对来自反变换模块78的残差块与由运动补偿单元72产生的对应预测块求和而形成经解码视频块。求和器90表示可执行此求和运算的组件。必要时，还可应用解块滤波器以对经解码块进行滤波以便移除成块性假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中，参考图片存储器92存储参考图片用于后续运动补偿。参考帧存储器82还存储经解码视频用于以后在显示装置(例如图1的显示装置32)上呈现。

HEVC中的运动补偿

如上文所提及，HEVC是下一代视频译码标准。一般来说，HEVC遵循先前视频译码标准的框架。HEVC的运动补偿循环保持与H.264/AVC中的运动补偿循环相同，即，当前帧的重构等于经解量化的系数r加上时间预测P：

其中P指示P帧或切片的单向预测或B帧或切片的双向预测。

HEVC中的运动补偿的单元不同于先前视频译码标准中的单元。实际上，在HEVC中不存在先前视频译码标准中的宏块的概念。而是，宏块概念被基于通用四叉树方案的高度灵活的分层结构取代。在此方案内，界定三种类型的块，即，译码单元(CU)、预测单元(PU)及变换单元(TU)。CU是区拆分的基础单元。CU类似于宏块的概念，但其不限制最大大小且其允许递归地拆分为四个相等大小的CU来改进内容适应性。PU是帧间/帧内预测的基础单元且其可在单一PU中含有多个任意形状的分区以有效地译码不规则的图像图案。TU是变换的基础单元。其可独立于PU而界定；然而，其大小受限于TU所属的CU。此将块结构分离为三个不同概念允许每一者根据其作用被优化，这促成改进的译码效率。

一般来说，在多假设运动补偿中，同时使用一个以上运动补偿预测信号来预测当前帧。如今，B帧是二假设运动补偿的最常见实例。对多假设运动补偿进行的研究已发现增加假设的数目将一般导致更高的译码效率。进一步的研究指示在考虑额外假设的运动信息的成本时，二假设运动补偿是几乎最佳的。因此，二假设运动补偿广泛用于现今的视频译码标准及实际的视频编解码器中，因为来自使用额外假设(例如，第三或第四假设)的额外质量或译码效率增益的益处一般不及用于编码额外假设的额外运动信息的位成本。然而，在一些实施例中，以下揭示内容描述允许在仅需要将最少的额外数据编码到位流中的同时使用额外假设的系统及装置。实际上，所述系统及装置可使用预先存在的数据以导出所述额外假设。

HEVC中的运动预测

在HEVC中，对于每一帧间预测单元(PU)，传输个别运动参数。为了实现改进的译码效率，利用块合并过程以在所谓的合并模式中选择最佳运动向量预测符。

如下描述合并模式的实施例的解码过程。

●解析如预测单元中指定的候选者列表的索引：merge_idx。

●根据图4建构合并候选者列表。使用以下特定次序的来自空间相邻者A、B、C、D及在时间上位于同一地点的块的相对于当前预测单元的候选运动向量：

○A，如果availableFlagA等于1

○B，如果availableFlagB等于1

○Col(时间位于同一地点的块)，如果availableFlagCol等于1

○C，如果availableFlagC等于1

○D，如果availableFlagD等于1

●如果若干合并候选者具有所述运动向量及相同参考索引，那么除了在合并候选者列表中具有最小次序的合并候选者之外，从列表移除所述合并候选者。

●在合并候选者列表中选择具有经解析的merge_idx的候选者。

在一些情况下，时间位于同一地点的候选者的参考索引及运动向量可能(例如)基于图片次序计数(POC)而被缩放。此外，在HEVC的SVC或3D视频译码扩展中，可将基础层或基础视图中的位于同一地点的块的运动放入合并列表中。

运动向量预测

除所述运动合并模式以外，在HEVC中支持运动向量预测。在运动向量预测中，对于当前PU，建立运动向量预测符(MVP)列表。所述预测符可为来自空间相邻者或/和时间相邻者的运动向量。MVP列表含有至多三个候选者，空间左边MVP A、空间顶部MVP B及时间MVPCol。所述三个候选者中的一或多者可能不可用，因为(例如)相邻块在帧内、不存在。在此情况下，MVP列表将具有较少的条目且缺失的候选者被视为不可用。

如图5中所展示，对于左边MVP的搜索，使用两个相邻PU：Am+1、Am。类似地，对于顶部MVP的搜索，使用至多三个相邻PU：Bn+1、Bn、B-1。在不损失一般性的情况下，仅描述上MVP的产生。

应用基于优先级的方案以用于导出每一空间运动向量预测符(MVP)候选者。基于优先级的方案检查属于相同类别(例如，A或B)的若干块。如下以一定次序检查运动向量(MV)：

1)将MV设定为当前检查块的运动向量。如果当前检查块中的MV指向与当前PU相同的参考图片(具有相同参考索引)，那么选择所述MV以表示相同类别，去往(4)，否则去往(2)。

2)如果先前块已经是此类别的最后一个块，那么去往(3)，否则将所述块设定为所述类别的下一块且去往(1)。

3)基于以下距离缩放MV：此MV的当前图片与参考图片之间的POC距离及当前PU的当前图片与参考图片之间的POC距离。

4)退出

图6展示每一列表使用单一参考图片(用于列表0的图片j及用于列表1的图片l)的B切片的实例。在图6中，假定基于当前PU的已经用信号发送的ref_idx，用于最终MVP的参考图片是图片j。当前列表是列表0，且当前PU的参考图片是图片j。虚线蓝色箭头表示相邻块的列表0MV，且虚线红色箭头表示相邻块的列表1MV。编号表示两个MV的优先级。在列表0MV可用时，其用作空间MVP候选者。否则的话，在列表1MV可用时，其如实心红色箭头基于POC距离被缩放到当前参考图片且随后用作空间MVP候选者。

根据当前列表及当前参考图片而选择一个时间运动向量预测符(mvL0Col或mvL1Col)，且将其添加到MVP列表。基于位于同一地点的时间块的运动向量及当前图片与当前参考图片之间的POC差及位于同一地点的图片与由位于同一地点的时间块参考的参考图片之间的POC差而导出mvL0Col或mvL1Col。

在MVP列表中存在多个候选者时，用信号发送索引以指示将使用哪一候选者。类似于合并列表，在HEVC的SVC或3D视频译码中，可将基础层或基础视图中的位于同一地点的块的运动放入MVP列表中。

可缩放视频译码

在图7中展示不同维度上的可缩放性的实例。在所述实例中，在三个维度上实现可缩放性。在时间维度上，可通过时间可缩放性(T)支持具有7.5Hz、15Hz或30Hz的帧速率。当支持空间可缩放性(S)时，可启用不同分辨率(例如QCIF、CIF及4CIF)。对于每一特定空间分辨率及帧速率，可添加SNR(Q)层以提高图片质量。一旦已以此可缩放方式编码视频内容，便可使用提取器工具来根据应用要求调适实际递送的内容，所述应用要求可取决于(例如)客户端或传输通道。中图7中展示的实例中，每一立方体含有具有相同帧速率(时间层级)、空间分辨率及SNR层的图片。可通过在任何维度上添加那些立方体(图片)来实现更好的表示。当启用两个、三个或甚至更多可缩放性时，支持组合的可缩放性。

根据SVC规范，具有最低空间及质量层的图片与H.264/AVC相容，且最低时间层级处的图片形成时间基础层，所述时间基础层可使用较高时间层级处的图片来增强。除H.264/AVC相容层之外，可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。SNR可缩放性还被称作质量可缩放性。每一空间或SNR增强层自身可为时间上可缩放的，具有与H.264/AVC相容层相同的时间可缩放性结构。对于一个空间或SNR增强层，其所取决于的较低层还被称作所述特定空间或SNR增强层的基础层。

在图8中展示SVC译码结构的实例。具有最低空间及质量层的图片(层0及层1的具有QCIF分辨率的图片)与H.264/AVC相容。其中，最低时间层级的那些图片形成时间基础层，如图8的层0中所展示。此时间基础层(层0)可使用较高时间层级(层1)的图片来增强。除H.264/AVC相容层之外，可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。举例来说，增强层可为具有与层2相同的分辨率的CIF表示。在所述实例中，层3是SNR增强层。如所述实例中所展示，每一空间或SNR增强层自身可为在时间上可缩放的，具有与H.264/AVC相容层相同的时间可缩放性结构。而且，增强层可增强空间分辨率及帧速率两者。举例来说，层4提供4CIF增强层，其进一步将帧速率自15Hz增加到30Hz。

如图9中所展示，相同时间实例中的经译码切片在位流次序上是连续的，且在SVC的情况下形成一个存取单元。那些SVC存取单元接着遵循解码次序，所述解码次序可不同于显示次序且(例如)是由时间预测关系来决定。

H.264/AVC的可缩放扩展的特征

SVC的一些功能性是从H.264/AVC继承的。与先前可缩放标准相比，下文回顾大多数重要优点，即层间预测及单循环解码。

为了保持低复杂性解码器，在SVC中，单循环解码是必选的。在单循环解码中，可使用单一运动补偿循环来解码每一支持的层。为了实现此，仅允许针对增强层宏块使用层间帧内预测，对于增强层宏块，位于同一地点的参考层信号经帧内译码。进一步需要使用受约束的帧内预测来译码用于对较高层进行层间预测的所有层。

SVC引入基于纹理、残差及运动的对空间及SNR可缩放性的层间预测。已将SVC中的空间可缩放性一般化为两个层之间的任何分辨率。可通过粗糙粒度可缩放性(CGS)或中等粒度可缩放性(MGS)来实现SNR可缩放性。在SVC中，两个空间或CGS层属于不同相依层(由NAL单元标头中的dependency_id指示)，而两个MGS层可在相同的相依层中。一个相依层包含具有从0到较高值的quality_id的对应于质量增强层的质量层。在SVC中，利用层间预测方法以减少层间冗余。在以下段落中简要地介绍所述方法。

使用层间帧内预测的译码模式在SVC中被称为“IntraBL”模式。为了实现单循环解码，仅MB(其在经译码为受约束的帧内模式的基础层中具有位于同一地点的MB)可使用层间帧内预测模式。受约束的帧内模式MB经帧内译码，而不参考来自相邻的经帧间译码的MB的任何样本。

如果指示MB使用残差预测，那么用于层间预测的基础层中的位于同一地点的MB必须为帧间MB且其残差可根据空间分辨率而被上取样。增强层与基础层之间的残差经译码。也就是说，增强层的当前帧的重构等于以下各者的总和：增强层的经解量化的系数r_e、来自增强层的时间预测P_e，及基础层的量化规格化的残差系数r_b。

可缩放位于同一地点的基础层运动向量以产生用于增强层中的MB或MB分区的运动向量的预测符。另外，存在一种MB类型(被命名为基础模式)，其针对每一MB发送一个旗标。如果此旗标为真且对应的基础层MB不是帧内，则运动向量、分割模式及参考索引全部从基础层导出。

多假设运动补偿

图10是说明根据本发明的方面的如由实施IMMC的译码器(例如，编码器或解码器)执行的用于隐式多假设运动补偿(IMMC)的实例方法的框图1100。为方便起见，其运动信息未在位流中被显式译码的假设在本发明中被称为隐式假设，而其运动信息在位流中被译码的假设被称为显式假设。本发明中描述的技术提供可由解码器及/或编码器实施的隐式多假设运动补偿框架。

如上文所论述，多假设运动补偿能够提供较高的译码效率，但代价是需要将额外的运动信息译码到位流中。然而，IMMC有益地允许从已经存在的运动信息导出特定额外假设。在SVC及3D视频译码的情况下，在译码增强层或相依视图时，基础层或基础视图的运动信息是可用的。在一些实施例中，IMMC使用此基础层/视图信息来导出用于隐式假设的运动信息。另外，IMMC的实施例可使用当前块的空间及时间相邻块的运动信息来定位隐式假设。在一些实施例中，IMMC编码器可通过在用于运动候选者(例如，视频单元)的位流中设定旗标、模式索引或其它指示符而向IMMC解码器指示此类运动信息是可用的及/或有用于导出隐式假设。IMMC解码器可随后从位流中的已经存在的数据导出隐式假设。因此，在一些实施例中，仅需要将最少的额外数据(例如，旗标或其它指示符)添加到位流以便使用IMMC。通常，此指示符数据显著小于用于额外显式假设的运动信息(例如，运动向量)。

图10说明具有增强层520及基础层525的位流的三个连续图片(1105、1110、1115)的B、P及I帧。在一些实施例中，图片1105紧接在图片1110前面，图片1110紧接在视频中的图片1115前面。在增强层中的是分别对应于图片1、2及3的P帧1(PE1)1125、B帧2(BE2)1130及I帧3(IE3)1135。在基础层中的是分别对应于图片1、2及3的P帧1(PB1)1140、B帧2(BB2)1145及I帧3(IB3)1150。虽然图10将所述三个图片说明为P帧，接着是B帧，接着是I帧，但在其它情况下，IMMC可应用于帧的不同组合、帧的不同次序及/或帧的不同数目。

在操作1处，译码器(例如，编码器或解码器)在已经处理基础层1125之后编码或解码增强层的BE21130的当前视频单元1155。译码器从位流获得用于BE2的经显式译码的运动信息(例如，运动向量或运动补偿数据)。此类运动信息可存储在译码器的存储器上。所述运动信息可允许译码器使用与当前视频单元1155匹配或对应的帧间帧预测来识别在时间上在前面的帧(或另一在时间上相邻的帧)中的经运动补偿的视频单元。通过使用所述运动信息，译码器将参考前面帧PE11160中的视频单元1160的显式假设1识别为对当前视频单元1155的候选匹配。

在操作2处，译码器使用经显式译码的运动信息将参考在时间上在后面的帧IE31165(或另一在时间上相邻的帧)中的视频单元1165的显式假设2识别为另一候选匹配。

在操作3处，译码器从BB21145的位于同一地点的块1170的基础层1125获得经显式译码的运动信息。如上文所论述，BE21130及BB21145是相同图片(图片2)的帧，但在不同层上。举例来说，BB2可为较低分辨率帧，而BE2是相同图片的较高分辨率帧。位于同一地点的视频单元1170处于图片的与当前视频单元1155对应的位置中。来自基础层1125的经显式译码的运动信息可包含识别用于基础层中的位于同一地点的视频单元1170的假设(1175、1180)的运动向量。

在操作4及5处，译码器使用基础层运动信息导出隐式假设1185及1190。举例来说，译码器可识别由用于位于同一地点的基础层视频单元1170的显式假设识别的视频单元1175、1180。译码器可随后确定那些基础层视频单元1175、1180的位于同一地点的增强层视频单元1185、1190。在一些实施例中，译码器缩放或以其它方式修改基础层运动信息。举例来说，译码器可基于增强层1120与基础层1125之间的分辨率将缩放因数应用于基础层运动信息。

使用经缩放的基础层运动

在IMMC的一个实施例中，除了用于双向预测块/PU(例如，当前视频单元1155)的两个常规假设之外，允许至多两个隐式假设。在此情况下，位于同一地点的基础层/视图PU的经缩放运动用作隐式假设的运动。让V_e0及V_e1表示两个常规假设的运动，且经缩放的基础层运动V_sb0及V_sb1表示两个隐式假设的运动。由于可导出经缩放的基础层运动，所以在一个实施例中，仅需要在位流中译码指示是否使用隐式假设的旗标(隐式假设旗标)。

假设由V_e0、V_e1、V_sb0及V_sb1指向的假设分别是P_e0、P_e1、P_sb0及P_sb1。在不损失一般性的情况下，可进一步假设P_e0及P_sb0来自参考列表0，P_e1及P_sb1来自参考列表1。在四个假设全部可用时，可通过将所述四个假设平均化而获得最终预测P，例如

P＝(P_e0+P_e1+P_sb0+P_sb1+o)/4

其中o指示可为0或2的舍入偏移。

在不是全部假设都可用时，例如仅P_e0、P_e1及P_sb0可用，预测的算术平均值可用作最终预测，例如

P＝(P_e0+P_e1+P_sb0+o)/4

其中舍入偏移o可为0、1或2。

由于除以3可难以使用硬件实施，所以在不是全部假设都可用时，可应用两步平均化。可通过首先将来自相同参考列表的假设平均化且随后将所述两个列表的假设平均化来执行两步平均化。对于以上实例，使用两步平均的最终预测是

P＝((P_e0+P_sb0+o₁)/2+P_e1+o)/2

其中舍入偏移o₁及o可为0或1。

在一个实施例中，用于位于同一地点的基础层运动的缩放过程可基于基础层与增强层之间的分辨率。举例来说，在分辨率是r时，经缩放的位于同一地点的基础层运动是

Vx_sb＝r·Vx_b

Vy_sb＝r·Vy_b

其中Vx_b及Vy_b分别表示位于同一地点的基础层运动向量的x及y分量，且Vx_sb及Vy_sb表示相关的经缩放的增强层运动。

此外，还可在运动缩放过程中施加额外的预先界定的移位，例如针对两个运动分量移位1。举例来说：

Vx_sb＝r·Vx_b+1

Vy_sb＝r·Vy_b+1

在一些情况下，仅P_e0及P_sb1是可用的。也就是说，增强层运动指示PU是从参考列表0单向预测，而基础层运动展示PU是从参考列表1单向预测(或反之亦然)。在一个实施例中，作为使用单向预测的替代，译码器在编码及/或解码期间将PU处理为双向预测，即使PU语法元素inter_pred_idc可指示PU被单向预测也如此。

在一些实施例中，单向预测的视频单元是从1)在时间上在所述单向预测的视频单元前面的一或多个视频单元或2)在时间上在单向预测的视频单元后面的一或多个视频单元预测的。举例来说，第一视频单元可在第一帧中，而用于预测中的视频单元在第一帧前面或后面的第二帧中。在一些实施例中，双向预测的视频单元是从1)在时间上在双向预测的视频单元前面的一或多个视频单元及2)在时间上在双向预测的视频单元后面的一或多个视频单元两者来预测。

举例来说，译码器可使用来自在时间上在当前PU前面的增强层帧的预测信息及来自在时间上在当前PU后面的基础层帧的预测信息以便使用多假设模式来用于预测当前PU。在需要时，译码器可缩放预测信息(例如，运动信息)。举例来说，如果当前PU在增强层上，那么译码器可缩放来自后续基础层帧(例如，来自基础层上的对应位置处的第二PU)的预测信息且将PU视为从来自后续基础层帧的经缩放预测信息及来自前面的增强层帧的预测信息双向预测。

在一些实施例中，译码器进一步使用如上文所描述的多假设模式以预测正被视为双向预测的当前PU。此外，虽然以上内容将增强层帧描述为在时间上在前面，且将基础层帧描述为在时间上在后面，但在增强层帧作为在时间上在后面且基础层帧作为在时间上在前面的情况下也可应用以上技术。

在其中仅P_e0及P_sb1是可用的一些情况下，对应于预测符P_e0或P_sb1的运动向量中的一者可经缩放，从而使其对于增强层或基础层可用于相同的参考列表，且允许使用单向多假设。在以上实例中，对应于P_sb1的基础层列表1运动向量可经缩放，使其为来自列表0的运动向量，且可将多假设模式应用为对列表0的单向预测。

在识别显式假设1160、1165及隐式假设1185、1190之后，译码器可随后基于在显式及隐式假设中识别的视频单元的值来确定当前视频单元555的值。举例来说，如上文所论述，译码器可对那些视频单元(1160、1165、1186、1190)的值求平均以确定当前视频单元1155的预测值。在图11及图12中以额外的细节描述IMMC过程的实施例。

编码过程

图11为说明根据本发明的方面的用于编码例程的方法的实施例的流程图。过程1200可由编码器(例如，如图2中所展示的编码器)、解码器(例如，如图3中所展示的解码器)或任何其它组件执行。相对于图2中的视频编码器20描述过程1200的步骤，但过程1200可由如上文所提及的其它组件(例如解码器)执行。

如上文所论述，在一些实施例中，在增强层/视图中允许至多四个假设(两个隐式及两个常规(显式))。通过增强层的预先界定的运动预测符指示所述两个隐式假设。举例来说，可使用PU的合并列表或MVP列表中的运动候选者。为了指示隐式多假设模式，在位流中译码旗标。在此旗标为真时，以与合并列表及MVP列表中的次序相同的次序检查运动候选者，直到通过所述运动候选者确定所述两个隐式假设为止。一般来说，所述两个隐式假设的运动不同于两个常规假设的运动。然而，在一些情况下，所述假设可部分或完全重叠。

在另一实施例中，在位流中译码合并列表或MVP列表中的运动候选者的索引以便指示隐式假设的运动。

在框1205处，编码器20编码增强层的第一帧的第一视频块(或其它视频单元)的视频数据。编码器确定第一视频块(例如，正由编码器处理的当前块)的运动补偿假设1(MCH1)。MCH1可识别在时间上相邻的帧(例如，在第一视频单元的当前帧前面的帧或后面的帧)中的视频块。

在框1210处，编码器20确定第一视频块的运动补偿假设2(MCH2)。MCH2可识别在时间上相邻的帧(例如，在第一视频单元的当前帧前面的帧或后面的帧)中的视频块。通常，MCH2将指向与MCH1不同的块。举例来说，MCH1可指向在当前帧前面的帧中的第二视频块，而MCH2可指向后续帧中的第三视频块。

在框1215处，编码器20将MCH1及MCH2(即，显式假设)或用于MCH1及MCH2的运动信息(例如，使用运动向量)编码到位流中以用于传输到解码器，所述解码器可在解码期间使用此类信息来确定第一视频块的值。虽然当前例程1200描述识别MCH1及MCH2，但在一些情况下，编码器20可仅来确定单一假设。

在框1220处，编码器20从与当前帧相关联的参考层帧(例如，基础层)获得运动信息。举例来说，此帧可为基础层中的用于与增强层中的当前帧相同的图片的对应帧。在一个实施例中，编码器20获得参考层帧上的对应于增强层帧上的第一视频块的位于同一地点的视频块的运动信息。

在框1225处，编码器20缩放参考层运动信息。如上文所描述，编码器可缩放或以其它方式修改参考层运动信息。举例来说，译码器可基于增强层与参考层之间的分辨率将缩放因数应用于所述参考层运动信息。

在框1230处，编码器20从经缩放的参考层运动信息确定MCH3及MCH4。如在图10中所论述，层信息可用于基于位于同一地点的参考视频块的参考层中的假设来识别MCH3及MCH4。虽然当前例程1200描述识别MCH3及MCH4，但在一些情况下，编码器20可仅确定单一假设。

在框1235处，编码器20确定是否引导解码器使用MCH3及MCH4(即，隐式假设)来解码第一视频块。在一些情况下，编码器20可来确定不存在通过使用所述隐式假设而获得的额外译码效率。举例来说，使用所述隐式假设可未减少失真或允许更有效的压缩(例如，在MCH3及MCH4具有与MCH1及MCH2相同的值的情况下)。

编码器20可使用旗标或其它指示符指示解码器是否应计算隐式假设。如果编码器确定隐式假设是有益的，那么例程前进到框1240。如果编码器确定所述隐式假设不是有益的，那么例程1200可结束。在一些实施例中，编码器20可能需要编码旗标，所述旗标引导解码器在编码例程之前不执行IMMC(例如，在解码器被设定成默认使用隐式假设的情况下)。

在框1240处，编码器20将用于隐式多假设运动补偿(IMMC)的旗标编码到位流中。在解码器接收所述位流时，其可检查第一视频块的IMMC旗标以确定其是否应计算隐式假设或仅使用显式假设。在一些实施例中，编码器20可能不需要编码旗标，以在编码例程之前执行IMMC(例如，在解码器被设定成默认使用隐式假设的情况下)。

通过用信号通知解码器何时应该不计算隐式假设，解码器不会浪费计算资源。有益的是，与不使用告知解码器何时使用隐式假设的此指示符的实施例相比，此可增加位流的解码速度。例程1200可随后结束。

关于多假设模式的信令的额外细节

可在序列或帧层级处启用/停用所提出的多假设模式。举例来说，序列参数集(SPS)或图片参数集(PPS)中的旗标可用于指示所述模式。

在一些情况下，在针对小视频单元执行多假设运动补偿中会获得极少的额外译码效率。因此，在一些实施例中，可针对具有较小大小的CU/PU(例如不大于8×8的CU/PU)停用所提出的多假设模式。可在切片或较高层级(例如SPS、PPS及切片标头中)处译码指示此的参数。

或者，可针对使用特定模式译码的CU/PU(例如使用非零加权因子在GRP模式中译码的CU/PU；或被译码为非跳过或非合并模式的帧间CU/PU)停用所提出的多假设模式。

在一个实施例中，仅经缩放的基础层运动可用于指示隐式假设。在此情况下，在帧间PU层级处译码旗标以指示使用或未使用隐式假设模式。此旗标可使用一个单一位译码或使用CABAC译码。在使用CABAC时，空间及时间相邻的经译码PU的信息(例如左边及顶部PU的隐式假设模式旗标)可用于确定当前PU的隐式假设模式的上下文。此外，当前PU的先前经译码信息(例如当前PU的合并旗标)还可用作上下文。

在另一实施例中，存在用以定位隐式假设的若干运动候选者(例如合并列表中的运动候选者)。在此情况下，需要在位流中译码运动候选者的索引。在使用CABAC来译码所述索引时，无正负号的整数指数-哥伦布译码、截断的无正负号整数指数-哥伦布译码、一元码、或截断的一元码[8]可用于将所述索引二进制化。空间及/或时间相邻的CU或PU的信息可用作用于CABAC译码的上下文。此外，当前PU的信息(例如合并旗标、PU分区或PU大小)也可用作所述上下文。

在以上实施例中，在运动候选者的数目在某一阈值以上时，可使用模板匹配来修剪候选者。随后用信号发送所述索引。在候选者数目减少到小于二时，不需要在位流中显式地用信号发送旗标或索引。

在一个实施例中，可针对特定预测模式应用多假设模式。在此情况下，可仅针对那些特定模式译码旗标。可针对第一组预测模式但不针对第二组预测模式应用多假设模式。举例来说，可仅针对合并模式且不针对高级运动向量预测(AMVP)应用多假设。在此实例中，可仅在使用合并模式时且不在使用AMVP时译码多假设旗标。

在一些情况下，可基于先前经译码的信息导出多假设旗标及模式索引。在一个实施例中，对于除合并及跳过之外的经帧间译码的PU，多假设旗标或索引始终被设定成0且不需要在位流中译码。

在另一实施例中，还可有条件地译码所述多假设模式旗标以进一步节省位空间。首先，如下界定隐式假设的可用性：在无法根据预定义规则导出隐式假设的运动时(例如，基础层中的位于同一地点的PU经帧内译码且因此没有基础运动可用于定位隐式假设)或在所导出的运动与当前PU的一个常规假设的运动相同时，隐式假设不可用于PU。使用此定义，编码器可有条件地译码隐式多假设模式旗标。举例来说，仅在PU的一或多个隐式假设可用时，编码器才译码所述旗标。否则的话，旗标不被译码且其被设定成零。还可如下界定隐式假设的可用性：在PU处于B切片中且被单向预测的情况下，PU的隐式假设被标记为不可用。还可如下界定隐式假设的可用性：在PU的合并旗标是真且其合并索引不是零时，PU的隐式假设被标记为可用。否则的话，所述隐式假设被标记为不可用。

图12是说明根据本发明的方面的用于解码例程的方法的一个实施例的流程图。过程1300可由编码器(例如，如图2中所展示的编码器)、解码器(例如，如图3中所展示的解码器)或任何其它组件执行。相对于图3中的视频解码器30描述过程1300的步骤，但过程1300可由如上文所提及的其它组件(例如编码器)执行。

在框1305处，解码器30解码增强层的第一帧的第一视频块(或其它视频单元)的视频数据。解码器从位流(或在存储信息之后经由存储器)获得用于第一视频块的显式运动信息且确定用于所述第一视频块(例如，正由编码器处理的当前块)的运动补偿假设1(MCH1)。MCH1可识别在时间上相邻的帧(例如，在第一视频单元的当前帧前面的帧或后面的帧)中的视频块。

在一些实施例中，解码器30还确定用于第一视频块的运动补偿假设2(MCH2)。MCH2可识别在时间上相邻的帧(例如，在第一视频单元的当前帧前面的帧或后面的帧)中的视频块。通常，MCH2将指向与MCH1不同的块。举例来说，MCH1可指向在当前帧前面的帧中的第二视频块，而MCH2可指向后续帧中的第三视频块。

在框1310处，解码器30(例如)基于IMMC旗标而确定是否在解码第一视频块中计算隐式假设。在一些情况下，编码器20可已确定通过使用隐式假设未获得额外的译码效率(例如，未减小图像失真或提高压缩)且因此已设定/复位旗标以使得解码器经引导以使用隐式假设。如果解码器经引导以使用隐式假设，那么例程前进到框1315。如果解码器经引导而不使用隐式假设，那么例程前进到框1335。

在框1315处，解码器30从与当前帧相关联的参考层帧(例如，基础层)获得运动信息。举例来说，此帧可为基础层中的用于与增强层中的当前帧相同的图片的对应帧。在一个实施例中，解码器获得参考层帧上的对应于增强层帧上的第一视频块的位于同一地点的视频块的运动信息。

在框1320处，解码器30缩放参考层运动信息。如上文所描述，解码器可缩放或以其它方式修改参考层运动信息。举例来说，译码器可基于增强层与参考层之间的分辨率将缩放因数应用于所述参考层运动信息。

在框1325处，解码器30从经缩放的参考层运动信息确定MCH3及MCH4。如在图10中所论述，层信息可用于基于位于同一地点的参考视频块的参考层中的假设来识别MCH3及MCH4。虽然当前例程1200描述识别MCH3及MCH4，但在一些情况下，编码器20可仅确定单一假设。

在框1330处，解码器30确定第一视频块的图像数据或值。如上文关于图10所描述，解码器可计算MCH1、MCH2、MCH3及MCH4的值的平均值(例如，由所述假设参考的视频块的值)。在一些情况下，将舍入偏移添加到所述假设。例程1300可随后结束。

回到框1310，如果IMMC旗标指示不应计算隐式假设，那么例程1300可前进到框1335。在框1335处，解码器30基于显式假设而确定第一视频块的图像数据或值，而不计算所述隐式假设。举例来说，解码器可计算MCH1及MCH2的值的平均值。例程1300可随后结束。

虽然以上揭示内容已描述特定实施例，但许多变化是可能的。举例来说，如上文所提及，以上技术可应用于3D视频编码。在3D视频的一些实施例中，参考层(例如，基础层)包含足以显示视频的第一视图的视频信息且增强层包含相对于参考层的额外视频信息以使得参考层及增强层一起包含足以显示视频的第二视图的视频信息。这两个视图可用于产生立体图像。如上文所论述，根据本发明的方面，来自参考层的运动信息可用于在编码或解码增强层中的视频单元时识别额外的隐式假设。此可提供对3D视频位流的更大译码效率。

应认识到，取决于实例，本文中所描述的技术中的任一者的某些动作或事件可用不同顺序执行、可添加、合并或全部省略(例如，实践所述技术并不需要所有的所描述动作或事件)。此外，在某些实例中，可例如通过多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。

在一或多个实例中，所描述的功能可以用硬件、软件、固件或其任何组合来实施。如果以软件实施，则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包含任何促进将计算机程序从一处传送到另一处的媒体(例如，根据通信协议)的通信媒体。以此方式，计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

举例来说且并非限制，所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，快闪存储器，或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样，任何连接可恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而，应理解，所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体，而是实际上针对非暂时性的有形存储媒体。如本文所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘，其中磁盘通常以磁性方式重现数据，而光盘使用激光以光学方式重现数据。上述各者的组合也应包含在计算机可读媒体的范围内。

指令可以由一或多个处理器执行，所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供，或者并入在组合编解码器中。并且，可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中，包含无线手持机、集成电路(IC)或IC组(例如，芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面，但不必需要通过不同硬件单元实现。实际上，如上文所描述，各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims

1.一种解码视频信息的方法，其包括：

识别第一层中的第一视频单元；

基于所述第一层中的至少一个其他视频单元的运动信息确定用于预测所述第一视频单元的显式假设，显式假设为其运动信息在所述视频信息中被译码的假设；

确定旗标的值，所述旗标指示隐式假设是否用于预测，隐式假设为其运动预测信息未在所述视频信息中被译码的假设；

基于确定所述旗标的所述值指示使用所述隐式假设：

识别第二层中的第二视频单元，

获取与所述第二层中的所述第二视频单元相关联的运动信息，以及

确定用于从与所述第二层中的所述第二视频单元相关联的所述运动信息预测所述第一视频单元的所述隐式假设，以及

根据所述显式假设和所述隐式假设来预测所述第一视频单元，或者

基于确定所述旗标的所述值指示未使用所述隐式假设，基于所述显式假设来预测所述第一视频单元。

2.根据权利要求1所述的方法，其中所述第一视频单元及所述第二视频单元各自包括帧、切片、译码单元CU、预测单元PU、块或像素区。

3.根据权利要求1所述的方法，其中所述第一层是增强层且所述第二层是参考层，或其中所述第一层是3D视频的相依视图且所述第二层是3D视频的基础视图。

4.根据权利要求1所述的方法，其中所述第二层中的所述第二视频单元在空间上与所述第一层中的所述第一视频单元位于同一地点。

5.根据权利要求1所述的方法，其中所述第一层的所述至少一个其他视频单元在空间上邻近于所述第一视频单元。

6.根据权利要求1所述的方法，其中所述第一层的所述至少一个其他视频单元在时间上邻近于所述第一视频单元且在空间上与所述第一视频单元位于同一地点。

7.根据权利要求1所述的方法，其中所述第一层的所述至少一个其他视频单元在时间上在所述第一视频单元后面，或在时间上在所述第一视频单元前面。

8.根据权利要求1所述的方法，其中通过缩放与所述第二视频单元关联的预先界定的运动向量来得到与所述第二视频单元关联的所述运动信息，且其中所述缩放是基于所述第一层与所述第二层之间的空间分辨率上的差异及帧速率上的差异中的至少一者。

9.根据权利要求1所述的方法，其中通过对以下值平均来预测所述第一视频单元：(i)基于确定所述旗标的所述值指示未使用所述隐式假设的所述显式假设，或(ii)所述显式假设和基于确定所述旗标的所述值指示使用所述隐式假设的隐式假设，并将0，1或2的舍入偏移应用于通过平均获得的值。

10.一种用于译码视频信息的设备，其包括：

存储器单元，其经配置以存储与第一层及对应第二层相关联的视频信息，所述视频信息包含用于所述第一层及第二层的至少运动预测信息；及

处理器，其与所述存储器单元通信，所述处理器经配置以：

识别所述第一层中的第一视频单元；

获取与所述第一层中的至少一个其它视频单元相关联的运动信息；

对所述视频信息中的所述至少一个其他视频单元的所述运动信息进行编码；

识别所述第二层中的第二视频单元；

确定用于从与所述第二层中的所述第二视频单元相关联的所述运动信息预测所述第一视频单元的隐式假设，隐式假设为其运动预测信息未在所述视频信息中被译码的假设；以及

基于确定所述隐式假设是否用于预测所述第一视频单元，在所述视频信息中提供指示。

11.根据权利要求10所述的设备，其中所述第一视频单元及所述第二视频单元各自包括帧、切片、译码单元CU、预测单元PU、块或像素区。

12.根据权利要求10所述的设备，其中所述第一层是增强层且所述第二层是参考层，或其中所述第一层是3D视频的相依视图且所述第二层是3D视频的基础视图。

13.根据权利要求10所述的设备，其中所述第二层中的所述第二视频单元在空间上与所述第一层中的所述第一视频单元位于同一地点。

14.根据权利要求10所述的设备，其中所述第一层的所述至少一个其他视频单元在空间上邻近于所述第一视频单元。

15.根据权利要求10所述的设备，其中所述第一层的所述至少一个其他视频单元在时间上邻近于所述第一视频单元且在空间上与所述第一视频单元位于同一地点。

16.根据权利要求10所述的设备，其中所述第一层的所述至少一个其他视频单元在时间上在所述第一视频单元后面，或在时间上在所述第一视频单元前面。

17.根据权利要求10所述的设备，其中通过缩放与所述第二视频单元关联的预先界定的运动向量得到与所述第二视频单元关联的所述运动信息，且其中所述缩放是基于所述第一层与所述第二层之间的空间分辨率上的差异及帧速率上的差异中的至少一者。

18.根据权利要求10所述的设备，其中至少部分通过对以下值平均来预测所述第一视频单元：(i)基于确定隐式假设用于预测所述第一视频单元的所述显式假设，或(ii)所述显式假设和基于确定所述隐式假设应用于预测所述第一视频单元的所述隐式假设，并将0，1或2的舍入偏移应用于通过平均获得的值。

19.一种其上存储有用于译码视频信息的指令的非暂时性计算机存储装置，所述指令在由具有计算机存储装置的计算机系统执行时致使所述计算机系统：

识别第一层中的第一视频单元；

识别第二层中的第二视频单元；

确定用于从与所述第二层中的所述第二视频单元相关联的运动信息预测所述第一视频单元的隐式假设，隐式假设为其运动预测信息未在所述视频信息中被译码的假设；以及

20.根据权利要求19所述的非暂时性计算机存储装置，其中所述至少一个其他视频单元在空间上邻近于所述第一视频单元。

21.根据权利要求19所述的非暂时性计算机存储装置，其中所述至少一个其他视频单元在时间上邻近于所述第一视频单元且在空间上与所述第一视频单元位于同一地点。

22.根据权利要求19所述的非暂时性计算机存储装置，其中所述至少一个其他视频单元在时间上在所述第一视频单元后面的，或在时间上在所述第一视频单元前面。

23.根据权利要求19所述的非暂时性计算机存储装置，其中通过缩放预先界定的运动向量得到与所述第二视频单元关联的所述运动信息，且其中所述缩放是基于所述第一层与所述第二层之间的空间分辨率上的差异及帧速率上的差异中的至少一者。

24.根据权利要求19所述的非暂时性计算机存储装置，其中至少部分通过对以下值平均来预测所述第一视频单元：(i)基于确定隐式假设不应用于预测所述第一视频单元的所述显式假设，或(ii)所述显式假设和基于确定所述隐式假设应用于预测所述第一视频单元的所述隐式假设，并将0，1或2的舍入偏移应用于通过平均获得的值。