CN104769948A

CN104769948A - 在视频译码中执行残差预测

Info

Publication number: CN104769948A
Application number: CN201380050269.4A
Authority: CN
Inventors: 陈颖; 克里希纳坎斯·拉帕卡; 马尔塔·卡切维奇; 李想; 陈建乐
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-09-30
Filing date: 2013-09-30
Publication date: 2015-07-08
Anticipated expiration: 2033-09-30
Also published as: US9648318B2; EP2901700A1; KR20150064118A; US20140105299A1; WO2014052982A1; CN104769948B

Abstract

一般来说，本发明描述用于在视频译码中执行残差预测的技术。作为一个实例，经配置以译码可缩放或多视图视频数据的装置可包括经配置以执行所述技术的一或多个处理器。所述处理器可针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片。所述经解码图片可处于与所述第一参考图片相同的存取单元中。所述处理器可基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分。

Description

在视频译码中执行残差预测

本申请案主张2012年9月30日申请的第61/708,011号美国临时申请案和2013年7月1日申请的第61/749,874号美国临时申请案的权益，所述美国临时申请案中的每一者特此以全文引用的方式并入。

技术领域

本发明涉及视频译码，并且更具体来说涉及多视图或可缩放视频数据的译码。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置及其类似者。数字视频装置实施视频压缩技术，例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所界定的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频压缩技术而更有效率地传输、接收、编码、解码及/或存储数字视频信息。

视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说，视频切片(即，图片或图片的一部分)可以分割成视频块，视频块还可被称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间编码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。

空间或时间预测导致对块的预测块进行译码。残差数据表示待译码的原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量及指示经译码块与预测块之间的差的残差数据编码的。经帧内译码块是根据帧内译码模式及残差数据来编码。为了实现进一步压缩，可以将残差数据从像素域变换到变换域，从而产生残差变换系数，接着可以对残差变换系数进行量化。可扫描最初布置为二维阵列的经量化变换系数，以便产生变换系数的一维向量，且可应用熵译码以实现更多压缩。

发明内容

一般来说，本发明描述用于多视图或可缩放视频译码的技术。执行新兴的视频译码标准的视频译码装置(其可一般是指视频编码器及/或视频解码器)可以避免在块层级处改变的方式执行一种形式的高级残差预测。换句话说，视频译码装置可使用先前界定的双向预测执行一种形式的高级残差预测，其为一般用于从与当前图片相同或不同的层或视图中的参考图片的一或多个参考块预测当前块的运动补偿技术，而不必修改新兴的视频译码标准的基础层或视图处的块层级操作。

为了说明，对于当前增强层(其为以某一方式加强基础层的层)中的当前图片，视频译码器(其可指视频编码器及/或视频解码器中的任一者或两者)可基于当前层的参考图片及其参考层(例如，基础层)中的参考图片的位于同一地点的图片(其可为相同存取单元中的图片)而计算差异图片。视频译码器可将差异图片添加到当前图片的参考图片列表。在一些实例中，视频译码器可将差异图片多次添加到参考图片列表，且每次作为具有或不具有不同处理/滤波的条目。视频译码器可随后在译码当前图片时使用此差异图片。以此方式，所述技术可使得视频译码器能够使用先前界定的双向预测执行一种形式的高级残差预测而不必潜在地修改新兴的视频译码标准的块层级。

在一个方面中，一种解码可缩放或多视图视频数据的方法包括针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中。所述方法进一步包括基于所述差异图片而执行双向预测以解码所述当前图片的至少一部分。

在另一方面中，一种编码可缩放或多视图视频数据的方法包括针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片。所述经解码图片处于与所述第一参考图片相同的存取单元中。所述方法进一步包括基于所述差异图片而执行双向预测以编码所述当前图片的至少一部分。

在另一方面中，一种经配置以译码可缩放或多视图视频数据的装置包括一或多个处理器，所述一或多个处理器经配置以针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中。所述一或多个处理器可进一步经配置以基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分。

在另一方面中，一种经配置以译码可缩放或多视图视频数据的装置，所述装置包括：用于针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片的装置，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及用于基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分的装置。

在另一方面中，一种非暂时性计算机可读存储媒体具有存储在其上的指令，所述指令在被执行时致使经配置以译码可缩放或多视图视频数据的装置的一或多个处理器：针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分。

在附图及以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其他特征、目标及优点将从描述及图式且从权利要求书而显而易见。

附图说明

图1是说明可利用本发明中描述的技术的实例视频编码及解码系统的框图。

图2是说明可实施本发明中描述的技术的实例视频编码器的框图。

图3是说明可实施本发明中描述的技术的实例视频解码器的框图。

图4是说明在执行本发明中描述的技术的各种方面的视频编码器的实例操作的流程图。

图5是说明在执行本发明中描述的技术的各种方面中的视频解码器的实例操作的流程图。

图6是说明用于SVC的实例经加权差异域单向预测的图。

图7是说明译码多视图视频译码(MVC)序列的概念图。

图8为说明实例MVC预测模式的概念图。

图9是说明由对H.264/AVC的可缩放视频译码(SVC)扩展实现的可缩放性的不同维度的概念图。

图10是说明实例SVC译码结构的概念图。

图11是说明位流中的SVC存取单元的概念图。

图12是说明实例清洁随机存取(CRA)图片及实例前导图片的概念图。

具体实施方式

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IECMPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也被称为ISO/IECMPEG-4 AVC)，包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。

此外，存在正由ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发的一种新的视频译码标准(被称作“高效率视频译码”或“HEVC”)。可从http://phenix.int-evry.fr/jct/doc_end_user/documents/ 10_Stockholm/wg11/JCTVC-J1003-v8.zip得到HEVC的最新的工作草案(WD)且在下文被称作HEVC WD8，其全部内容以引用的方式并入本文中。

在大多数视频译码标准中(包含上文所列的视频译码标准)，视频数据对应于以相对高的帧速率回放的个别图片序列。视频译码器(例如视频编码器及视频解码器)通常利用基于块的视频译码技术。也就是说，视频译码器可将图片中的每一者划分为一组个别视频数据块，随后译码图片的每一个别块。

基于块的视频译码通常涉及两个一般步骤。第一步骤包含预测当前视频数据块。此预测可通过使用帧内预测(即，基于相同图片的相邻的先前经译码块的空间预测)或帧间预测(即，基于一或多个先前经译码图片的时间预测)。此预测过程的执行产生当前块的预测块。另一步骤涉及对残差块的译码。一般来说，残差块表示当前块的原始未译码版本与预测块之间的逐像素差异。视频编码器通过计算逐像素差异而形成残差块，而视频解码器将残差块添加到预测块以重现原始块。

多视图视频数据一般用于产生针对观看者的三维(3D)效果。可大体上同时显示来自两个视图(即，从略微不同的水平位置的相机观点)的图片，以使得一个图片由观察者的左眼看到，且另一图片由观察者的右眼看到。在两个图片中展示的对象之间的视差对观看者产生3D效果。

因为两个图片包含类似信息，所以多视图视频译码技术包含视图间预测。即，一个视图(“基础视图”)的图片可经帧内及帧间预测(即，在时间上进行帧间预测)，且非基础视图的图片可相对于基础视图的图片进行视图间预测。在视图间预测中，视差运动向量可用于指示当前视图中的当前块的参考块相对于基础视图(或其它参考视图)中的参考图片的位置。用作参考视图的非基础视图在相对于参考视图译码非基础视图时可视为基础视图。

可缩放视频数据一般用于产生自适应视频数据，所述自适应视频数据可缩放以适应可用带宽中的改变、显示器能力之间的差异(常常在分辨率方面)及可重现可缩放视频数据的装置的其它能力之间的差异。通常，基础层是指具有第一空间分辨率的第一图片序列，且被称作“增强层”的更高层可提供额外的视频数据，其加强或以其它方式补充基础层以促进基础层的可缩放性(常常加强基础层图片以提供增加的分辨率(作为一个实例))。

可缩放视频数据，比如多视图视频数据，可涉及与上文相对于多视图视频数据所描述的译码技术类似的译码技术。因为基础层及增强层的图片包含几乎类似的信息，所以可缩放视频译码技术还可包含层间预测。即，基础层的图片可经帧内及帧间预测(即，在时间上经帧间预测)，且增强层的图片可相对于基础层的图片经层间预测。在层间预测中，视差运动向量可用于指示当前层中的当前块的参考块相对于基础层(或其它参考层)中的参考图片的位置。用作参考层的非基础层可在相对于参考层译码非基础层时视为基础层。

集中到可缩放视频译码(SVC)以用于说明目的，已经提出用于执行被称作用于旧版视频译码标准(例如H.264视频译码标准)的经加权差异域单向预测的东西的过程。经加权差异单向预测涉及计算差异信号(其也可被称为“差异块”)，其中此差信号被计算为当前层(其可为涉及增强层(EL)的另一方式)经重构信号及对应基础层经重构信号的函数。具体来说，通过从对应的基础层经重构信号减去当前层经重构信号而计算差异信号。所述差异信号随后用于预测当前块的残差，其中此差异信号可在所述差异信号用作残差的预测块(其也可被称作残差块)之前经加权。

虽然用于SVC及MVC两者的高级残差预测可与不利用高级残差预测的视频译码过程相比促进译码效率(或，换句话说，更好地压缩给定图片)，但可必须在块层级(或在HEVC术语中被称作“译码单元”层级的东西)处修改新兴的视频译码标准(例如，所提出的高效率视频译码(HEVC)标准)以支持用于对HEVC提议的任何SVC或MVC扩展的这些高级残差预测过程。因为逐块地导出一些高级残差预测过程中的差异信号或块，所以可能需要块层级改变(因此使用替代性名称“差异块”来指代此差异)。在HEVC提议(例如)一般已完成块层级信令及设计的条件下，HEVC提议可不能够在不修改来自HEVC提议的所采用的编解码器的情况下在对HEVC提议的对应的SVC及/或MVC扩展中实施或执行高级残差预测过程。

根据此描述的技术，可修改或以其它方式调适执行新兴的视频译码标准的视频译码装置(其可一般指代视频编码器及/或视频解码器)从而以避免对新兴的视频译码标准的有效块层级的改变的方式执行一种形式的高级残差预测。换句话说，所述视频译码装置可使用先前界定的双向预测执行一种形式的高级残差预测，如下文更详细地描述，其为一般用于从与当前图片相同或不同的层或视图中的参考图片的一或多个参考块预测当前块的运动补偿技术。

实际上，视频译码装置可执行此双向预测从而以模拟高级残差预测的应用的方式预测增强层中的当前图片的当前块。以此方式，所述技术可调适或以其它方式修改双向预测以执行图片层级形式的高级残差预测，其可不需要对HEVC或其它新兴的视频译码标准提议的块层级方面的显著修改。所述技术可因此使得遵守新兴的视频译码标准的视频译码装置能够执行高级残差预测且进而与不能够执行高级残差预测的那些视频译码装置相比实现额外的压缩效率。

图1是说明可利用用于时间运动向量预测的技术的实例视频编码和解码系统10的框图。如图1中所示，系统10包含源装置12，所述源装置12提供将在稍后时间由目的地装置14解码的经编码视频数据。确切地说，源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者，包含桌上型计算机、笔记型(即，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如，所谓的“智能”电话)、所谓的“智能”平板计算机、电视机、摄像机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或其类似者。在一些情况下，源装置12和目的地装置14可能经装备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中，计算机可读媒体16可包括使得源装置12能够实时将经编码的视频数据直接传输到目的地装置14的通信媒体。

经编码视频数据可根据通信标准(例如，无线通信协议)来调制，且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线路。通信媒体可形成基于包的网络(例如，局域网、广域网或全球网络，例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它装备。

在一些实例中，经编码数据可以从输出接口22输出到存储装置。类似地，可以通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取式数据存储媒体中的任一者，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中，存储装置可以对应于文件服务器或可存储源装置12产生的经编码视频的另一中间存储装置。

目的地装置14可经由流式传输或下载从存储装置存取经存储的视频数据。文件服务器可以是能够存储经编码视频数据并且将所述经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线通道(例如，Wi-Fi连接)、有线连接(例如，DSL、缆线调制解调器，等等)，或适合于存取存储于文件服务器上的经编码视频数据的以上两者的组合。经编码视频数据从存储装置的传输可能是流式传输、下载传输或其组合。

本发明的技术不一定限于无线应用或环境。所述技术可以应用于支持多种多媒体应用中的任一者的视频译码，例如空中电视广播、有线电视传输、卫星电视传输、因特网流式视频传输(例如，动态自适应HTTP流式传输(DASH))、经编码到数据存储媒体上的数字视频，存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，系统10可经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。

在图1的实例中，源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本发明，源装置12的视频编码器20可经配置以应用所述技术以用于多视图译码中的运动向量预测。在其它实例中，源装置及目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18(例如外部相机)接收视频数据。同样，目的地装置14可以与外部显示装置介接，而不是包含集成显示装置。

图1的所说明系统10只是一个实例。可以由任何数字视频编码和/或解码装置来执行用于时间运动向量预测的技术。尽管本发明的技术一般通过视频编码装置来执行，但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外，本发明的技术还可通过视频预处理器执行。源装置12及目的地装置14仅为源装置12在其中产生经译码视频数据以供传输到目的地装置14的此些译码装置的实例。在一些实例中，装置12、14可以大体上对称的方式操作以使得装置12、14中的每一者包含视频编码和解码组件。因此，系统10可支持视频装置12、14之间的单向或双向视频传输以例如用于视频流式传输、视频回放、视频广播或视频电话。

源装置12的视频源18可包含视频俘获装置，例如摄像机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案，视频源18可产生基于计算机图形的数据作为源视频，或直播视频、存档视频与计算机产生的视频的组合。在一些情况下，如果视频源18是摄像机，则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而，如上文所提及，本发明中所描述的技术可大体上适用于视频译码，且可应用于无线及/或有线应用。在每一状况下，可由视频编码器20来编码经俘获的、经预先俘获的或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含瞬时媒体，例如无线广播或有线网络传输，或存储媒体(也就是说，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未图示)可以从源装置12接收经编码视频数据，并且例如经由网络传输将经编码视频数据提供到目的地装置14。类似地，媒体生产设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码的视频数据并且生产含有经编码的视频数据的光盘。因此，在各种实例中，计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息，所述语法信息也被视频解码器30使用，其包含描述块及其它经译码单元(例如GOP)的特性及/或处理的语法元素。显示装置32向用户显示经解码的视频数据，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。

视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作，并且可以符合HEVC测试模型(HM)。在布洛斯等人的文献HCTVC-L1003_d7“对高效率视频译码(HEVC)文本规范草案9(SoDIS)的所提议的编辑改进(Proposed editorial improvements for High Efficiency Video Coding(HEVC)Text Specification Draft 9(SoDIS))”(ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)，第12次会议：瑞士日内瓦，2013年1月)中描述HEVC的最新的工作草案(WD)，工作草案9，其在下文被称作HEVC WD9且可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L0030-v1.zip得到，其全部内容以引用的方式并入本文中。在一些方面中，本发明中描述的技术可应用于一般符合H.264及/或即将到来的HEVC标准的装置。

或者，视频编码器20及视频解码器30可根据其它专属或业界标准来操作，所述标准例如是ITU-T H.264标准，也被称为MPEG-4第10部分高级视频译码(AVC)，或此类标准的扩展。然而，本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。虽然本发明的技术是相对于H.264标准及即将到来的HEVC标准而描述，但本发明的技术一般适用于任何视频译码标准。

ITU-T H.264/MPEG-4(AVC)标准是由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)制定以作为被称为联合视频小组(JVT)的集体伙伴关系的产品。在一些方面中，本发明中描述的技术可应用到一般符合H.264标准的装置。H.264标准描述于ITU-T研究组的日期为2005年3月的“ITU-T推荐H.264，用于通用视听服务的高级视频译码(ITU-T Recommendation H.264，Advanced Video Coding for generic audiovisualservices)”中，其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4 AVC的扩展。

JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM假设视频译码装置根据(例如)ITU-T H.264/AVC相对于现有装置的若干额外能力。举例来说，虽然H.264提供了九种帧内预测编码模式，但HM可提供多达三十三种帧内预测编码模式。

一般来说，HM的工作模型描述视频帧或图片可以被划分为包含亮度和色度样本两者的树块或最大译码单元(LCU)的序列。位流内的语法数据可以定义LCU的大小，LCU是在像素数目方面的最大译码单元。切片包含按译码次序的数个连续树块。图片可以分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。一般来说，四叉树数据结构包含每个CU一个节点，其中根节点对应于树块。如果CU分裂成四个子CU，那么对应于CU的节点包含四个叶节点，其中叶节点中的每一者对应于所述子CU中的一者。

四叉树数据结构的每一节点可以提供对应CU的语法数据。举例来说，四叉树中的节点可包含分裂旗标，从而指示对应于所述节点的CU是否分裂成数个子CU。用于CU的语法元素可以递归地来定义，且可以取决于CU是否分裂成子CU。如果CU不进一步分裂，那么将其称为叶CU。在本发明中，叶CU的四个子CU也将被称作叶CU，即使不存在原始叶CU的明确分裂时也是如此。举例来说，如果16×16大小的CU不进一步分裂，那么这四个8×8子CU将也被称作叶CU，虽然16×16CU从未分裂。

CU具有类似于H.264标准的宏块的目的，但是CU并不具有大小区别。举例来说，树块可以分裂成四个子节点(还称为子CU)，并且每一子节点又可以是父节点并且可以分裂成另外四个子节点。最后的未经分裂子节点(被称作四叉树的叶节点)包括译码节点，还被称作叶CU。与经译码位流相关联的语法数据可以定义树块可以分裂的最大次数，被称作最大CU深度，并且还可定义译码节点的最小大小。所以，位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者，或者其它标准的上下文中的类似数据结构(例如，其在H.264/AVC中的宏块和子块)。

CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可以在从8×8像素直到具有最大64×64像素或更大的树块的大小的范围内。每一CU可含有一或多个PU及一或多个TU。举例来说，与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可以在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。PU可分割成非正方形形状。举例来说，与CU相关联的语法数据还可描述CU根据四叉树被分割为一或多个TU。TU可以是正方形或非正方形(例如，矩形)形状。

HEVC标准允许根据TU的变换，TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU界定的给定CU内的PU的大小而设置，但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中，对应于CU的残差样本可以使用被称为“残差四叉树”(RQT)的四叉树结构而细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数，可以将所述变换系数量化。

未分裂的叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于相对应的CU的全部或一部分的空间区域，并且可包含用于检索PU的参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可以包含在残差四叉树(RQT)中，残差四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含定义PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量指向的参考帧，和/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用RQT(还称为TU四叉树结构)来指定，如上文所论述。举例来说，分裂旗标可以指示叶CU是否分裂成四个变换单元。接着，每一变换单元可以进一步分裂成其它的子TU。当TU不进一步分裂时，其可被称为叶TU。一般来说，对于帧内译码，属于叶CU的所有叶TU共享相同的帧内预测模式。也就是说，一般应用相同的帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器20可以使用帧内预测模式针对每一叶TU计算残差值，作为CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因而，TU比PU大或小。对于帧内译码，PU可以与相同CU的对应叶TU并置。在一些实例中，叶TU的最大大小可以对应于对应叶CU的大小。

此外，叶CU的TU还可与相应的四叉树数据结构(被称作残差四叉树(RQT))相关联。也就是说，叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说，除非以其它方式提及，否则本发明分别使用术语CU及TU来指叶CU及叶TU。

视频序列通常包含一系列视频帧或图片。如本文所描述，术语“图片”与“帧”可以互换地使用。即，含有视频数据的图片可被称为视频帧或简称为“帧”。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法数据，其描述GOP中所包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视频数据。视频块可以对应于CU内的译码节点。视频块可以具有固定或变化的大小，并且根据指定译码标准可以有不同大小。

作为实例，HM支持各种PU大小的预测。假设特定CU的大小是2N×2N，那么HM支持2N×2N或N×N的PU大小的帧内预测，及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N及nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中，不分割CU的一个方向，而将另一方向分割成25％及75％。CU的对应于25％分区的部分由“n”继之以“上”、“下”、“左”或“右”的指示来指示。因此，例如，“2N×nU”是指经水平分割的2N×2N CU，其中顶部为2N×0.5N PU，而底部为2N×1.5N PU。

在本发明中，“N×N”与“N乘N”可以可互换地使用，以在垂直和水平尺寸方面指代视频块的像素尺寸，例如16×16像素或16乘16像素。一般来说，16×16块将在垂直方向上具有16个像素(y＝16)，并且在水平方向上具有16个像素(x＝16)。同样地，N×N块一般在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可按行及列布置。此外，块不一定需要在水平方向与垂直方向上具有相同数目的像素。举例来说，块可包括N×M像素，其中M未必等于N。

为了使用被称作“双向预测”(其是指常常从两个不同参考帧的双向预测)的一种形式的帧间预测产生预测块，视频编码器20可针对当前图片存储第一组参考图片(其可统称为参考图片列表零(0)及第二组参考图片(其可统称为参考图片列表一(1))，其中所述列表中的每一者包含参考图片可包含不同于另一列表的参考图片的参考图片。包含在这些列表中的图片可在本发明中被称为参考图片，而存储到经解码图片缓冲器但未在列表中的任一者中指定的图片可被称为经解码图片。所有参考图片可表示经解码图片，而所有经解码图片可不表示参考图片。在任何情况下，视频编码器20可从参考图片列表0选择一或多个参考图片且从参考图片列表列表1选择一或多个参考图片。在这方面中，视频编码器20可确定视频数据的至少两个不同参考图片。

在选择参考图片之后，视频编码器20可执行默认经加权预测或显式经加权预测(其在本发明中也可被称为“经加权预测”)以从至少两个参考视频块预测当前块的预测性视频块，每一参考视频块选自至少两个不同参考图片中的不同一者。在一些情况下，所述两个参考图片在时间上远离当前图片。同样，所述至少两个参考视频块在时间上远离将预测的当前视频块。换句话说，参考图片列表0的参考图片(及选自这些参考图片的参考视频块)可包括在时间上出现在针对其预测当前块的当前图片之前或之后或之前及之后两者的参考图片。同样，参考图片列表1的参考图片(及选自这些参考图片的参考视频块)可包括在时间上出现在针对其预测当前块的当前帧之前或之后或之前及之后两者的图片。

视频编码器20可因此从参考图片列表0选择在时间上出现在当前帧之前或之后的第一参考图片且从参考图片列表1选择在时间上出现在当前帧之前或之后的第二参考图片。在以此方式预测时，从这两个所选择的参考帧预测的当前图片常常被称作双向图片(简称为B图片)，原因在于当前图片是从两个时间方向(例如，出现在预测帧之前及之后的两个参考单元)预测的。虽然出于此原因被称作“B图片”，但在各种方面中，B图片还可从在时间上出现在B图片之前的两个参考图片，或替代地，从在时间上出现在B图片之后的两个参考图片来预测。

通常，以此方式逐块地预测B图片且视频编码器20可从第一参考图片选择第一参考视频块且从第二参考图片选择第二视频块。为了选择这些块，视频编码器20可将第一和第二块识别为最佳匹配当前视频块或展现与将预测的当前视频块的像素值类似的像素值的块。

为了执行默认经加权预测，视频编码器20可使第一参考视频块乘以第一权重以确定第一经加权视频块且使第二参考视频块乘以第二权重以确定第二经加权视频块。视频编码器20可接下来将第一经加权视频块添加到第二经加权视频块以产生总经加权视频块。视频编码器20可根据默认经加权预测算法通过将总经加权视频块除以被选择用于预测当前视频块的第一版本的参考视频块的数目(其在此情况下是二，例如，第一和第二参考视频块)而预测当前视频块的第一版本。通常，第一和第二权重彼此相等，例如，第一权重等于0.5或50％且第二权重等于0.5或50％。

为了执行显式经加权预测，视频编码器20可执行一种形式的预测，其中将用于预测当前图片的两个或更多个权重(例如)编码在经译码单元内。换句话说，在显式经加权预测中，视频编码器20可明确地指定用于预测位流中的图片及/或切片层级处(例如，在PPS及/或切片标头中)的当前视频块的权重。可在PPS及/或切片标头中逐参考图片地界定这些权重。显式经加权预测可在选择权重方面向视频编码器20提供更多的宽容度，并且因此可使得视频编码器20能够将对当前图片(例如，B图片)的预测修整为适合特定上下文或形式的视频数据。无论执行默认经加权预测还是显式经加权预测，视频编码器20通过由经预测视频块减去当前视频块以导出残差视频数据而编码当前视频块，其随后以下文描述的方式处理。

在使用CU的PU的帧内预测或帧间预测译码之后，视频编码器20可以计算CU的TU的残差数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素数据的方法或模式的语法数据，并且TU可包括在对残差视频数据应用变换(例如，离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后在变换域中的系数。所述残差数据可对应于未编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残差数据的TU，并且接着变换TU以产生用于CU的变换系数。

在进行用于产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化一般是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些系数或全部相关联的位深度。举例来说，可在量化期间将n位值向下舍入到m位值，其中n大于m。

在量化之后，视频编码器可以扫描变换系数，从而从包含经量化的变换系数的二维矩阵产生一维向量。扫描可以经设计以将较高能量(并且因此较低频率)的系数放置在阵列的前面，并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中，视频编码器20可利用预先界定的扫描次序来扫描经量化的变换系数以产生可被熵编码的串行化向量。在其它实例中，视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对所述一维向量进行熵编码。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。

为了执行CABAC，视频编码器20可向待传输的符号指派上下文模型内的上下文。举例来说，所述上下文可与符号的相邻值是否为非零有关。为了执行CAVLC，视频编码器20可以选择用于待传输的符号的可变长度码。VLC中的码字可经建构而使得相对较短的码对应于更有可能的符号，而较长的码对应于不太可能的符号。以此方式，使用VLC可例如实现优于针对待传输的每一符号使用等长度码字的位节省。概率确定可基于指派给符号的上下文。

视频编码器20可例如在图片标头、块标头、切片标头或GOP标头中进一步将例如基于块的语法数据、基于图片的语法数据及基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的数个图片，且图片语法数据可指示用以对对应图片进行编码的编码/预测模式。

尽管图1中未展示，但在一些方面中，视频编码器20及视频解码器30可各自与音频编码器及解码器集成，且可包含适当的MUX-DEMUX单元或其它硬件及软件，以处理对共同数据流或单独数据流中的音频与视频两者的编码。如果适用，MUX-DEMUX单元可符合ITU H.223多路复用器协议或例如用户数据报协议(UDP)等其它协议。

视频编码器20及视频解码器30各自可实施为可适用的多种合适的编码器或解码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20及视频解码器30中的每一者可以包含在一或多个编码器或解码器中，所述编码器或解码器中的任一者可以集成为组合视频编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置，例如蜂窝式电话。

根据本发明的方面，视频编码器20和/或视频解码器30可根据本发明中描述的技术的各种方面执行高级残差预测。为了执行高级残差预测(ARP)，视频编码器20和/或视频解码器30可一般必须修改译码单元(CU)或预测单元(PU)层级，如HEVC WD 8(及可能的HEVC WD 9)中当前所提议的。

即，本发明中描述的技术可支持基于HEVC的可缩放或多视图编解码器中的层间/视图间预测，可能不会将新的译码工具模块引入到HEVC。另外，所述技术可提供所谓的“钩”以使得可将HEVC视为以一种方式对HEVC的MV-HEVC扩展或可缩放扩展“更友好”，使得可能在不需要修改HEVC规范的情况下支持HEVC规范的功能性。

为了说明，考虑下文相对于图6更详细地描述的高级残差预测(ARP)的一个实例。虽然用于SVC及MVC两者的所述形式的ARP与不利用ARP的视频译码过程相比可提高译码效率(或，换句话说，更好地压缩给定图片)，但可能必须在块层级(或在HEVC术语中被称作“译码单元”层级的东西)处修改新兴的视频译码标准(例如所提议的高效率视频译码(HEVC)标准)以支持用于对HEVC提议的任何SVC或MVC扩展的高级残差预测。因为逐块地导出现有ARP中的差异信号，所以可需要块层级改变。在HEVC提议(例如)一般已完成块层级信令及设计的条件下，HEVC提议可不能够在不修改来自HEVC提议的所采用的编解码器的情况下在对HEVC提议的对应的SVC及/或MVC扩展中实施或执行ARP。

根据此描述的技术，可修改或以其它方式调适执行新兴的视频译码标准的视频译码装置(其可一般指代视频编码器20及/或视频解码器30)从而以避免对新兴的视频译码标准的块层级改变的方式执行各种形式的高级残差预测。换句话说，视频译码装置20及/或30可使用先前界定的双向预测执行一种形式的高级残差预测，其为上文所描述的一般用于从与当前图片相同或不同的层或视图中的参考图片的一或多个参考块预测当前块的运动补偿技术。所述技术可通过计算所有差异图片且随后将此差异图片存储到与当前图片相关联的参考图片列表而避免对块层级的这些改变，其中此差异图片随后用作在执行双向预测时的参考图片中的一者。因此，所述技术可通过形成差异图片而非确定差异块而潜在地避免一次一个地(或，以更口头的术语，“在运行中”)针对将预测的每一块产生残差。

实际上，视频译码装置20及/或30可执行此双向预测以预测增强层中的当前图片的当前块，以使得此双向预测经调适以模仿或(换句话说)模拟ARP的应用。以此方式，所述技术可充分利用双向预测以执行图片层级形式的高级残差预测，其可不需要对HEVC或其它新兴的视频译码标准的块层级方面的显著修改。所述技术可因此使得遵守新兴的视频译码标准的视频译码装置(例如视频编码器20和/或视频解码器30)仍能够执行高级残差预测且进而与归因于遵守这些新兴的视频译码标准而不能够执行基于逐块的形式的高级残差预测的那些视频译码装置相比实现额外的压缩效率。

在操作中，视频解码装置(其将在下文相对于视频编码器20进行描述以用于说明目的)可针对当前图片从与所述当前图片相同的层或视图中的参考图片及与所述当前图片不同的层或视图中的经解码图片(其再次可指存储到经解码图片缓冲器但未包含在参考图片列表中的图片)确定差异图片(类似于下文相对于图6的实例对常规的ARP过程的论述)。通常，当前图片处于SVC视频数据或MVC视频数据的增强层中。相同层或视图中的参考图片可指在与当前图片的层或视图(例如，增强层)相同的层或视图中的在时间上不同的图片。当前图片的不同层或视图中的经解码图片可指当前层下方的层(例如通常被称为基础层的东西)中的图片。参考图片及经解码图片可处于相同的存取单元中，所述存取单元可指存储来自不同的层及/或视图的所有在时间上等效的图片的单元。

虽然本文中单独地标示为层及视图，但可将SVC视为MVC的特殊情况，其中可将SVC的不同层视为视图的特殊情况。换句话说，虽然视图可从MVC中的不同角度俘获同一场景，但不同层全部反映SVC中的相同视图，但以不同的尺度反映，如下文相对于图9的实例较详细地论述。因此，下文对视图的参考可指在MVC的意义上的视图及/或在SVC的意义上的层。如所使用的术语“视图”在下文假设是指MVC中的视图及SVC中的层两者，除非明确地指示相反情况。为了表示视图何时仅打算指代MVC的视图，MVC的这些视图被称作“MVC的视图”。对层的参考可仅是指SVC的层，且在层表示视图子集的条件下，以上表示不是必需的。换句话说，所有层可被视为视图，但不是所有视图可被视为层。

通常，在SVC中，经重构图片存储在参考图片列表中以用于预测当前图片的至少部分(其可指块或HEVC术语中的“译码单元”)。根据本发明中描述的技术，视频编码器20可将差异图片存储到一般用于存储参考图片的两个参考图片列表(例如，上文提到的参考图片列表0及/或参考图片列表1)中的一或两者。视频编码器20可产生将存储在表示可缩放或多视图视频数据的经编码版本的位流16中的一或多个语法元素，其中所述一或多个语法元素将差异图片识别为在解码当前图片时使用的图片。在这方面中，所述技术可略微修改双向预测的目的以适应或以其它方式模仿或模拟ARP的应用。

即，双向预测通常涉及从由运动信息(常常表达为第一运动向量及第二运动向量)识别的两个参考块(其可在相同参考图片中但通常包含在两个不同图片内)对当前块的经加权预测。在执行经加权预测中，视频编码器20可建构两个参考图片列表，常常被称作参考图片列表0及参考图片列表1(且在语法表中被称作RefPicList0及RefPicList1，或一般被称作RefPicListX，其中X可为零或一)。视频编码器20可随后识别将存储到这些列表的参考图片且识别应将存储到每一列表的参考图片中的哪一者用于预测当前块。视频编码器20可识别所识别的参考图片中的块且随后将权重(其通常为零、0.5及一)应用于所识别的块中的每一者，之后将这些块加在一起以形成当前块的预测块。视频编码器20可随后通过从当前块减去预测块而计算当前块的残差块。

但是，在执行双向预测以模拟ARP的应用时，视频编码器20可执行双向预测以基于存储到参考图片列表中的第一者的差异图片及存储到参考图片列表中的第二者的参考图片来预测当前帧的当前块。视频编码器20可因此执行双向预测以适应ARP的应用而不需要对HEVC提议的块层级方面的改变。

换句话说，视频编码器20可利用所述差异块以预测将权重应用于差异图片的残差块(其中可根据每一显式经加权预测或“显式经加权样本预测”显式地用信号发送此权重，因为此形式的经加权预测在HEVC中提及)且将经加权版本添加到当前块的残差块以相对于当前块有效地执行ARP以便导出残差块。视频编码器20可随后执行对双向预测过程的第二预测，将权重(其可再次针对参考图片列表中的第二者中的参考图片显式地用信号发送)应用于参考图片列表中的第二者中的参考图片以产生经加权参考图片，之后将所导出的残差块添加到经加权第二参考图片。此双向预测的结果可实际上模仿将ARP应用于当前块的残差数据且随后应用单向预测以恢复(至少部分)当前块。视频编码器20可在位流中用信号发送将在执行双向预测以模仿应用ARP接着是单向预测时使用的第一参考图片列表(例如，参考图片列表0)中的差异图片的索引及第二参考图片列表(例如，参考图片列表1)中的参考图片的索引。

视频解码器30可随后从表示可缩放或多视图视频数据的经编码版本的位流确定一或多个语法元素，所述一或多个语法元素识别作为图片中的一者存储到参考图片列表中的第一者的差异图片及存储到参考图片列表中的第二者的参考图片的索引。视频解码器30可随后形成当前图片的两个参考图片列表，将所识别的差异图片及所识别的参考图片存储到参考图片列表且以至少部分模拟ARP的应用的方式执行双向预测。视频解码器30可接下来基于所识别的差异图片及所识别的参考图片而执行双向预测，从而以模拟或(换句话说)模拟ARP的应用的方式产生当前图片以导出当前块的残差数据，接着应用单向预测以至少部分恢复当前块。

此外，双向预测通常仅相对于具有仅正像素值范围(例如零到255)的图片起作用。为了适应双向预测的此常见操作，所述技术可使得视频编码器20能够以视频解码器30在执行双向预测时所理解的方式指定差异图片(其中差异图片的一个共同特征是这些图片在这些图片表达差异的条件下可具有是负的像素值。即，视频解码器30可执行检查以确保图片未归因于传输、存储或其它条件而损坏。视频解码器30可检查存储到参考图片列表的图片的像素值以确保这些在给定正范围内，例如零到255。在一些情况下，视频解码器30可丢弃具有负值的那些图片。

为了适应差异图片，视频解码器30可将差异图片的每一像素的值移位成处于所接受的正值范围中(例如，将差异像素从-127到128的范围移位到零到255的正范围)。视频解码器30可将这些差异像素从负范围移位到正范围，之后将这些差异图片存储到参考图片列表，且随后在执行双向预测之前将所述值从正范围移位回到原始范围。

另外，在时间运动向量预测过程依赖于运动信息(例如，运动向量及/或在MVC的情况下的视差向量)的方面，所述技术可使得视频编码器20能够使从其导出差异图片的参考图片的运动信息归于所述差异图片。即，视频编码器20可确定差异图片的运动信息等效于从其导出差异图片的参考图片的运动信息。

以此方式，所述技术可避免由于在图片层级处操作以产生差异信号而对新兴的视频译码标准的块层级改变(同时经加权预测仅逐块地操作以产生差异信号)。此差异信号可随后以上文所描述的方式常常通过将差异图片的像素值移位到指定的仅正值范围而被存储到参考图片列表。此外，在ARP依赖于运动信息的方面，所述技术使得视频编码器20和/或视频解码器30能够执行双向预测，其中差异图片的运动信息等效于与当前图片相关联的运动信息。所述技术的以上方面中的每一者可有效地使得视频译码装置能够通过以上述方式修改双向预测而模仿应用高级残差预测，上述方式中的每一者需要极少或不需要对新兴的视频译码标准的块层级改变。

在这方面中，本发明中描述的技术可使得包括一或多个处理器的视频译码装置(其可指视频编码器20和/或视频解码器30中的任一者或两者)能够针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片。如上所述，经解码图片可处于与所述第一参考图片相同的存取单元中。处理器可随后基于差异图片而执行双向预测以译码当前图片的至少一部分。

在一些情况下，一或多个处理器进一步经配置以在确定差异图片时通过将差异图片的每一像素值设定为第一参考图片的相同像素位置中的对应像素值减去经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

在一些情况下，差异图片的像素的原始值中的至少一者小于零。在这些情况下，一或多个处理器可进一步经配置以在确定差异图片时移位差异图片的像素中的每一者的原始值以产生大于或等于零的像素中的每一者的经移位值，且设定差异图片的像素值以使得差异像素的像素值属于与当前图片的像素值相同的范围及相同的位深度。一或多个处理器可随后在执行双向预测之前将像素中的每一者的经移位值移位回以恢复差异图片的像素中的每一者的原始值。

在一些情况下，一或多个处理器进一步经配置以将差异图片存储到第一参考图片列表。在执行双向预测时，在这些情况下，处理器可从存储到第一参考图片列表的差异图片及在与当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测当前图片的当前块。

在一些情况下，一或多个处理器可在执行双向预测时对当前图片应用显式经加权预测，将第一预测权重应用于差异图片，且将第二预测权重应用于第二参考图片。

在一些情况下，一或多个处理器可在执行双向预测之前将第二预测权重应用于第二参考图片，所述第二预测权重等于一。在这些及其它实例中，差异图片的第一预测权重与第二参考图片的第二预测权重相同。在这些及其它实例中，差异图片的第一预测权重等于第二参考图片的第二预测权重的二分之一。

在一些情况下，一或多个处理器进一步经配置以在确定差异图片时使第一参考图片乘以等于二的权重以产生经加权第一参考图片，且针对当前图片基于经加权第一参考图片及经解码图片而确定差异图片，其中差异图片的每一像素值被设定为经加权第一参考图片的相同像素位置中的对应像素值减去经解码图片的相同像素位置中的对应像素值。

在一些情况下，一或多个处理器进一步经配置以将差异图片或其派生物的两个或更多个副本存储到第一参考图片列表，且在执行双向预测时基于存储到第一参考图片列表的差异图片的两个或更多个副本中的一者及在与所述当前图片相同的层或视图处存储到第二参考图片列表的参考图片而对当前图片的当前块执行双向预测。

在一些情况下，一或多个处理器进一步经配置以在时间运动向量预测是来自差异图片时确定差异图片的运动信息等效于当前图片的第一参考图片的运动信息。

更具体来说，所述技术可提供视频编码器20和/或视频解码器30中的以下功能性。首先，针对当前(增强)层中的当前图片，视频编码器20基于当前层的参考图片及基础层中的位于同一地点的图片(相同存取单元中且在相同时间位置处的图片)而计算差异图片。视频编码器20可将差异图片添加到当前图片的参考图片列表。在一些实例中，视频编码器20还可将差异图片多次添加到参考图片列表中，且每次作为具有或不具有不同处理/滤波的条目。

在一些实例中，视频编码器20可使用与用于指定基础层中的图片相同的精度来指定差异图片。例如，在使用8位精度译码基础层时，使用8位精度指定差异图片。作为另一实例，在使用10位精度译码基础层时，使用10位精度指定差异图片。在一些情况下，差异图片及相关联的图片不应一起使用来对一个块(预测单元)进行双向帧间预测。在一些情况下，在用于预测双向经帧间预测块时，用于此块的另一参考图片必须是基础层/参考视图位于同一地点的图片，也被称作层间/视图间参考图片。

在一些实例中，视频编码器20可修改基础HEVC规范以使得在双向预测过程期间，视频编码器20可从预测符的像素值减去(1＜＜(bitDepth-1))，其中bitDepth可等于颜色分量的位深度(通常为8)。

在一些实例中，可将对应于不同的经先前译码图片位置的一或多个差异图片添加到层间参考图片列表中。

在一些实例中，一旦当前层中的差异图片的相关联图片被标记为“不用于参考”，视频编码器20便将差异图片标记为“不用于参考”。一旦此差异图片被标记为“不用于参考”，视频编码器20便可随后从经解码图片缓冲器(DPB)移除差异图片。替代地，可以更优化的方式将差异图片标记为“不用于参考”。

在一些实例中，视频编码器20可基于如在HEVC中界定的预测权重表中的信令而对差异图片加权。替代地，在增强层编解码器中，视频编码器20可在序列参数集、图片参数集或切片标头中显式地用信号发送每一差异图片的权重。替代地，视频编码器20可基于各种条件、语法元素或视频数据的其它方面将预测权重导出为0.5或1。

在一些实例中，视频编码器20可仅将按显示次序最靠近当前图片的差异图片添加到参考图片列表中。可将此差异图片两次添加到参考图片列表，其中分别用于两个条目的在切片标头的预测权重表中用信号发送或被导出为等于0.5及1的预测权重对应于相同的差异图片。

在一些实例中，视频编码器20可将差异图片的运动字段(如由运动信息(例如运动向量及/或视差向量)指定)设定为与当前层中的相关联的图片的运动字段相同。在差异图片用于将一个块预测为对应于RefPicListX(其中X等于0或1)的参考图片时，视频编码器20可对当前块双向预测且另一参考图片是层间参考图片。

在一些实例中，视频编码器20可使用以下过程中的一或多者通过当前层的参考图片(picEnhT)及其位于同一地点的图片(picBaseT)而产生不同图片，其中减法运算指示两个输入图片的每一位于同一地点的像素对的减法：

1)(picEnhT-picBaseT)*0.5；

2)picEnhT-picBaseT；及

3)picEnhT*2-picBaseT。

以此方式，所述技术可调适或以其它方式修改双向预测以执行图片层级形式的高级残差预测，其可不需要对HEVC或其它新兴的视频译码标准提议的块层级方面的显著修改。所述技术可因此使得遵守新兴的视频译码标准的视频译码装置能够执行高级残差预测且进而与不能够执行高级残差预测的那些视频译码装置相比实现额外的压缩效率。

图2是说明可实施本发明中描述的技术的实例视频编码器20的框图。视频编码器20可执行上文所描述的技术的方面的任何方面或组合。视频编码器20可以对视频切片内的视频块执行帧内和帧间译码。帧内译码依赖于空间预测来减少或移除给定图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻接图片或图片内的视频中的时间冗余。帧内模式(I模式)可以指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以指代若干基于时间的压缩模式中的任一者。

如图2中所示，视频编码器20接收待编码的视频数据。在图2的实例中，视频编码器20包含模式选择单元40、求和器50、变换处理单元52、量化单元54、熵编码单元56和参考图片存储器64。模式选择单元40又包含运动估计单元42、运动补偿单元44、帧内预测单元46和分割单元48。为了视频块重构，视频编码器20还包含反量化单元58、反变换处理单元60，及求和器62。还可包含解块滤波器(图2中未图示)以便对块边界进行滤波，以从经重构视频移除成块性假影。在需要时，解块滤波器通常对求和器62的输出进行滤波。除了解块滤波器之外，还可使用额外的环路过滤器(环路内或环路后)。为简洁起见未展示此类滤波器，但在需要时，这些滤波器可以对求和器50的输出进行滤波(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频图片或切片。图片或切片可划分成多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个块执行所接收视频块的帧间预测译码以提供时间压缩。帧内预测单元46可替代地相对于与待译码的块相同的图片或切片中的一或多个相邻块执行所接收视频块的帧内预测译码以提供空间压缩。视频编码器20可以执行多个译码回合，例如，以针对每一视频数据块选择适当的译码模式。

此外，分割单元48可以基于前述译码回合中的先前分割方案的评估将视频数据块分割成子块。举例来说，分割单元48可以首先将图片或切片分割成LCU，并且基于速率失真分析(例如，速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示将LCU分割成若干子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。

模式选择单元40可以基于错误结果选择译码模式中的一者(帧内或帧间)，并且将所得的经帧内译码或经帧间译码块提供到求和器50以便产生残差块数据，并且提供到求和器62以便重构经编码块以用作参考图片。模式选择单元40还将语法元素(例如，运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供到熵编码单元56。

运动估计单元42、运动向量预测单元43及运动补偿单元44可高度集成，但出于概念性目的而分开说明。由运动估计单元42执行的运动估计是产生运动向量的过程，所述过程估计视频块的运动。举例来说，运动向量可以指示当前图片内的视频块的PU相对于参考图片(或其它经译码单元)内的预测块相对于当前图片(或其它经译码单元)内正经译码的当前块的移位。

预测块是经发现在像素差异方面密切地匹配待译码的块的块，其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异量度来确定。在一些实例中，视频编码器20可计算存储于参考图片存储器64(其还可被称作参考图片缓冲器)中的参考图片的子整数像素位置的值。举例来说，视频编码器20可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。

运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的预测块的位置来计算PU的运动向量。因此，一般来说，运动向量的数据可包含参考图片列表、到参考图片列表中的索引(ref_idx)、水平分量及垂直分量。参考图片可选自第一参考图片列表(列表0)、第二参考图片列表(列表1)或组合参考图片列表(列表c)，其中的每一者识别存储在参考图片存储器64中的一或多个参考图片。

运动估计单元42可产生识别参考图片的预测块的运动向量并将所述运动向量发送到熵编码单元56及运动补偿单元44。即，运动估计单元42可产生并发送识别含有预测块的参考图片列表的运动向量数据、到识别预测块的图片的参考图片列表中的索引，及水平及垂直分量以定位所识别的图片内的预测块。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量及/或来自运动向量预测单元43的信息而获取或产生预测块。而且，在一些实例中，运动估计单元42、运动向量预测单元43及运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44即刻可以在参考图片列表中的一者中定位所述运动向量指向的预测块。

求和器50通过从经译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残差视频块，如下文所论述。一般来说，运动估计单元42相对于亮度分量执行运动估计，并且运动补偿单元44对于色度分量及亮度分量两者使用基于亮度分量计算的运动向量。模式选择单元40还可产生与视频块和视频切片相关联的供视频解码器30在对视频切片的视频块进行解码时使用的语法元素。

作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案，帧内预测单元46可以对当前块进行帧内预测。明确地说，帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可(例如)在单独编码回合期间使用各种帧内预测模式对当前块进行编码，且帧内预测单元46(在一些实例中，或为模式选择单元40)可从所测试的模式中选择将使用的适当的帧内预测模式。

举例来说，帧内预测单元46可以使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值，并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(也就是说，位数目)。帧内预测单元46可以根据用于各种经编码块的失真及速率计算比率，以确定哪种帧内预测模式对于所述块展现最佳速率失真值。

在选择了用于一块的帧内预测模式之后，帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所述选定帧内预测模式的信息。视频编码器20可在所传输的位流中包含配置数据，所述配置数据可包含多个帧内预测模式索引表及多个修改的帧内预测模式索引表(还被称作码字映射表)、编码用于各种块的上下文的界定，及用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内预测模式索引表的指示。

在针对一块选择帧内预测模式之后，帧内预测单元46可将指示用于所述块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。视频编码器20可在所传输的位流中包含配置数据，所述配置数据可包含多个帧内预测模式索引表及多个修改的帧内预测模式索引表(还被称作码字映射表)，编码用于各种块的上下文的定义，及用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内预测模式索引表的指示。

视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据形成残差视频块。求和器50表示可执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残差块，从而产生包括残差变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。也可使用子波变换、整数变换、子带变换或其它类型的变换。在任何情况下，变换处理单元52向残差块应用所述变换，从而产生残差变换系数块。所述变换可将残差信息从像素值域转换到变换域，例如频域。

变换处理单元52可将所得变换系数发送到量化单元54。量化单元54将变换系数量化以进一步减小位速率。量化过程可减少与系数中的一些系数或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。替代地，熵编码单元56可以执行所述扫描。

在量化之后，熵编码单元56对经量化的变换系数进行熵译码。举例来说，熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间划分熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可以基于相邻块。在由熵编码单元56进行熵译码之后，可将经编码位流传输到另一装置(例如，视频解码器30)，或将经编码位流存档以供稍后传输或检索。

反量化单元58及反变换处理单元60分别应用反量化及反变换以在像素域中重构残差块，例如以供稍后用作参考块。运动补偿单元44可以通过将残差块添加到参考图片存储器64的图片中的一者的预测块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于所重构的残差块以计算子整数像素值用于运动估计。求和器62将经重构的残差块添加到由运动补偿单元44产生的运动补偿预测块以产生经重构视频块用于存储在参考图片存储器64中。经重构视频块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续图片中的块进行帧间译码。

根据本发明中描述的技术，运动补偿单元44可针对当前图片基于与所述当前图片相同的层或视图中的参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片。使用此差异图片，运动补偿单元44可随后执行双向预测以产生当前图片的至少一部分的经编码版本。

在一些情况下，所述差异图片的至少一个像素值小于零。即，差异图片可表达两个图片之间的差异，其常常是图片的经加权版本。在图片的像素值通常被约束到仅正值范围(包含零)的条件下，运动补偿单元44可移位差异图片的至少一个像素值以产生具有大于或等于零的值的经移位像素值。运动补偿单元44可在将差异图片存储在参考图片列表中之前执行此移位。在执行双向预测之前，运动补偿单元44可将经移位的像素值移位回以恢复差异图片的原始像素值。通过以此方式移位像素，所述技术可不改变基础的HEVC提议，同时确保高级残差预测能够在HEVC提议的SVC及/或MVC扩展中执行。

在一些情况下，可能在移位像素值之后，运动补偿单元44可将差异图片存储到参考图片列表且产生在解码当前图片时将差异图片识别为将使用的图片的一或多个语法元素。所述一或多个语法元素可存储在表示可缩放或多视图视频数据的经编码版本的位流16中。通常，运动补偿单元44执行多个译码回合以编码单一块，每一回合涉及译码过程的不同配置。运动补偿单元44可执行这些多个译码回合以便执行一种形式的速率-失真优化，选择可被视为最佳(在信噪比、位速率及/或其它准则方面)的译码回合的东西。运动补偿单元44可随后选择用于最佳译码回合中的语法元素且将这些语法元素提供给熵编码单元56，熵编码单元56将所述语法元素(可能在熵编码语法元素之后)存储在位流16中。

在一些情况下，运动补偿单元44可将差异图片或其派生物的两个或更多个副本存储到一或多个参考图片列表。在执行双向预测时，运动补偿单元44可基于差异图片或其派生物的两个或更多个副本而预测当前图片以产生当前图片的至少所述部分。

在一些实例中，运动补偿单元44可确定差异图片的运动信息等效于当前图片的运动信息。运动补偿单元44可基于针对差异图片所确定的运动信息且基于差异图片而执行双向预测从而以至少部分模拟执行高级残差预测的方式产生当前图片。

在一些实例中，运动补偿单元44可基于所述差异图片而执行双向预测从而以模拟执行经加权预测的方式至少产生当前图片的部分。再次，下文相对于图6更详细地描述经加权预测的应用。

在一些实例中，在确定差异图片时，运动补偿单元44可针对当前图片基于与当前图片相同的层或视图中的参考图片的经加权版本及与当前图片不同的层或视图中的参考图片的经加权版本而确定差异图片。可使用各种权重，但通常权重包含零、0.5及一。如上所述，可在位流中显式地用信号发送这些权重(作为一个实例，意味着用信号发送所述值)，暗示(意味着(例如)从其它语法元素、约束或值暗示这些权重)或识别(作为一实例，意味着通过到表或其它数据结构中的索引或可能通过存储器地址来识别这些权重，等等)这些权重。

在操作中，视频编码器20可：针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及基于所述差异图片而执行双向预测以解码当前图片的至少一部分。

在一些情况下，差异图片的像素的原始值中的至少一者小于零，且视频编码器20可确定差异图片包括移位差异图片的像素中的每一者的原始值以产生大于或等于零的像素中的每一者的经移位值，且设定差异图片的像素值以使得差异像素的像素值属于与当前图片的像素值相同的范围及相同的位深度。视频编码器20可在执行双向预测之前将像素中的每一者的经移位值移位回以恢复差异图片的像素中的每一者的原始值。

在一些情况下，视频编码器20可将差异图片存储到第一参考图片列表，且在执行双向预测时从存储到第一参考图片列表的差异图片及在与当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测当前图片的当前块。

在一些情况下，在确定差异图片时，视频编码器20可将权重应用于差异图片以产生经加权差异图片。在执行双向预测时，视频编码器20可基于经加权差异图片而执行双向预测从而以至少部分模拟执行高级残差预测的方式至少解码当前图片的部分。在一些情况下，所述权重与第二参考图片相同。在一些情况下，所述权重等于第二参考图片的二分之一。

在一些情况下，视频编码器20可将权重应用于第二参考图片以产生经加权第二参考图片，其中所述权重等于一。在这些情况下，在执行双向预测时，视频编码器20可从存储到第一参考图片列表的经加权差异图片及在与当前图片相同的层或视图处存储到第二参考图片列表的经加权第二参考图片预测当前图片的当前块。

在一些情况下，视频编码器20可潜在地在执行双向预测之前将显式经加权预测应用于当前图片。

在一些情况下，在确定差异图片时，视频编码器20可使第一参考图片乘以等于二的权重以产生经加权第一参考图片，且针对当前图片基于经加权第一参考图片及经解码图片而确定差异图片。

在一些情况下，视频编码器20可将差异图片或其派生物的两个或更多个副本存储到第一参考图片列表。在执行双向预测时，视频编码器20可基于存储到第一参考图片列表的差异图片的两个或更多个副本中的一者及在与所述当前图片相同的层或视图处存储到第二参考图片列表的参考图片而对当前图片的当前块执行双向预测。

在这些及其它情况下，视频编码器20可在时间运动向量预测是来自差异图片时确定差异图片的运动信息等效于当前图片的第一参考图片的运动信息。

图3是说明可实施本发明中描述的技术的实例视频解码器30的框图。视频解码器30可执行上文所描述的技术的方面的任何方面或组合。在图3的实例中，视频解码器30包含熵解码单元80、预测单元81、反量化单元86、反变换单元88、求和器90和参考图片存储器92。预测单元81包含运动补偿单元82和帧内预测单元84。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测单元81。视频解码器30可以接收视频切片层级及/或视频块层级处的语法元素。

举例来说，借助于背景，视频解码器30可以接收已压缩以供经由网络传输到所谓的“网络抽象层单元”或NAL单元中的经压缩视频数据。每一NAL单元可包含标头，其识别存储到NAL单元的数据的类型。存在通常存储到NAL单元的两个类型的数据。存储到NAL单元的第一类型的数据是视频译码层(VCL)数据，所述数据包含经压缩视频数据。存储到NAL单元的第二类型的数据被称作非VCL数据，所述数据包含例如参数集等额外信息，其界定大量NAL单元共用的标头数据和辅助增强信息(SEI)。

举例来说，参数集可以含有序列等级标头信息(例如，在序列参数集(SPS)中)和不频繁改变的图片等级标头信息(例如，在图片参数集(PPS)中)。参数集中含有的不频繁改变的信息不需要针对每一序列或图片重复，由此改进译码效率。此外，使用参数集使得标头信息能够带外传输，由此不再需要进行冗余传输以便进行错误恢复。

当视频切片经译码为经帧内译码(I)切片时，预测单元81的帧内预测单元84可基于用信号发送的帧内预测模式及来自当前图片的先前经解码块的数据而产生用于当前视频切片的视频块的预测数据。当图片经译码为经帧间译码(即，B、P或GPB)切片时，预测单元81的运动补偿单元82基于从熵解码单元80接收到的运动向量和其它语法元素产生用于当前视频切片的视频块的预测块。预测块可以从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可以基于存储在参考图片存储器92中的参考图片使用默认建构技术建构参考图片列表：列表0和列表1。

运动补偿单元82通过解析运动向量及其它语法元素来确定用于当前视频切片的视频块的预测信息，并且使用所述预测信息产生用于正被解码的当前视频块的预测块。举例来说，运动补偿单元82使用所接收的语法元素中的一些语法元素来确定用于对视频切片的视频块进行译码的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的建构信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态，及用以对当前视频切片中的视频块进行解码的其它信息。在一些实例中，运动补偿单元82可从运动向量预测单元83接收某一运动信息。

运动向量预测单元83可接收指示在哪里检索当前块的运动信息的预测数据。在确定当前块的运动信息之后，运动向量预测单元83可产生当前块的预测块。

反量化单元86将在位流中提供且由熵解码单元80解码的经量化变换系数反量化，即，解量化。反量化过程可包含使用视频编码器20针对视频切片中的每一视频块计算以确定应该应用的量化程度和同样反量化程度的量化参数。

反变换处理单元88对变换系数应用反变换，例如反DCT、反整数变换或概念上类似的反变换过程，以便产生像素域中的残差块。根据本发明的方面，反变换处理单元88可确定将变换应用于残差数据的方式。即，例如，反变换处理单元88可确定表示其中将变换(例如，DCT、整数变换、小波变换或一或多个其它变换)应用于与所接收的视频数据的块相关联的残差亮度样本及残差色度样本的方式的RQT。

在运动补偿单元82基于运动向量和其它语法元素产生当前视频块的预测块之后，视频解码器30通过对来自反变换处理单元88的残差块与由运动补偿单元82产生的对应预测块求和而形成经解码视频块。求和器90表示可执行此求和运算的组件。如果需要的话，还可应用解块滤波器以对经解码块进行滤波，以便移除成块性假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)来使像素转变变平滑或者以其它方式改善视频质量。给定图片中的经解码视频块接着存储于参考图片存储器92中，参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频以供稍后呈现在显示装置(例如，图1的显示装置32)上。

根据本发明中描述的技术，视频解码器30可执行与上文相对于图1及2的实例中的视频编码器20所描述的过程互逆或在一些方面中相同的过程。即，熵解码单元70可接收可表示可缩放及/或多视图视频数据的经编码版本的位流16。除了残差数据之外，位流16还可包含有效地配置视频解码器30的各种模块及/或单元以解码可缩放及/或多视图视频数据的经编码版本的语法元素。这些语法元素中的一或多者可以预先配置、用信号发送或隐式已知的方式识别如上文所描述的将存储到参考图片列表的差异图片。熵解码单元80可将增强层的残差数据及在存储到参考图片列表时识别差异图片的这些一或多个语法元素传递到预测单元81。

预测单元81可随后以类似于上文所描述模拟应用ARP的方式执行双向预测以基于差异图片解码增强层的当前图片，且下文相对于图6的实例更详细地对其进行描述。具体来说，运动补偿单元82可执行此双向预测。

换句话说，熵解码单元80可从表示可缩放或多视图视频数据的经编码版本的位流16确定一或多个语法元素，所述一或多个语法元素将存储到参考图片列表的差异图片识别为将在解码当前图片时使用的图片。运动补偿单元82可随后将差异图片存储到参考图片列表。在执行双向预测时，运动补偿单元82可将差异图片识别为将在基于一或多个语法元素及参考图片列表相对于当前图片执行双向预测时使用的图片，且以至少部分模拟执行高级残差预测的方式基于参考图片列表中的所识别的差异图片而执行双向预测以产生当前图片。

在操作中，运动补偿单元82可针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中经解码图片处于与所述第一参考图片相同的存取单元中，且基于差异图片而执行双向预测以编码当前图片的至少一部分。

在一些实例中，差异图片的像素的原始值中的至少一者小于零。运动补偿单元82可在确定差异图片时移位差异图片的像素中的每一者的原始值以产生大于或等于零的像素中的每一者的经移位值，且设定差异图片的像素值以使得差异像素的像素值属于与当前图片的像素值相同的范围及相同的位深度。运动补偿单元82可方法进一步包括在执行双向预测之前将像素中的每一者的经移位值移位回以恢复差异图片的像素中的每一者的原始值。

在一些实例中，运动补偿单元82可将差异图片存储到第一参考图片列表。运动补偿单元82可在执行双向预测时从存储到第一参考图片列表的差异图片及在与当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测当前图片的当前块。

在一些实例中，运动补偿单元82可在确定差异图片时将权重应用于差异图片以产生经加权差异图片。在执行双向预测时，运动补偿单元82可基于经加权差异图片而执行双向预测从而以至少部分模拟执行高级残差预测的方式至少解码当前图片的部分。在一个实例中，所述权重与第二参考图片相同。在其它实例中，所述权重等于第二参考图片的二分之一。

在一些实例中，运动补偿单元82可将权重应用于第二参考图片以产生经加权第二参考图片，其中所述权重等于一。在执行双向预测时，运动补偿单元82从存储到第一参考图片列表的经加权差异图片及在与当前图片相同的层或视图处存储到第二参考图片列表的经加权第二参考图片预测当前图片的当前块。

在一些实例中，运动补偿单元82可将显式经加权预测应用于当前图片。

在一些实例中，运动补偿单元82可在确定差异图片时使第一参考图片乘以等于二的权重以产生经加权第一参考图片，且针对当前图片基于经加权第一参考图片及经解码图片而确定差异图片。

在一些实例中，运动补偿单元82可将差异图片或其派生物的两个或更多个副本存储到第一参考图片列表。在这些实例中，在执行双向预测时，运动补偿单元82可基于存储到第一参考图片列表的差异图片的两个或更多个副本中的一者及在与所述当前图片相同的层或视图处存储到第二参考图片列表的参考图片而对当前图片的当前块执行双向预测。

在一些实例中，运动补偿单元82可在时间运动向量预测是来自差异图片时确定差异图片的运动信息等效于当前图片的第一参考图片的运动信息。

图4是说明在执行本发明中描述的技术的各种方面中的视频编码器的实例操作的流程图。作为一个实例，图2的实例中展示的视频编码器20可根据本发明的技术而编码视频数据。为了根据所述技术来编码视频数据，视频编码器20的运动补偿单元44可针对视频数据的当前图片确定将在以上文所描述的方式执行对视频数据的当前图片的双向预测时使用的差异图片(100)。运动补偿单元44可随后将差异图片存储到参考图片列表(102)。

视频编码器20可随后使用由图片次序计数值识别的差异图片来编码当前图片的部分。换句话说，运动补偿单元44还可经配置以通过以上文所描述的方式使用差异图片执行双向预测而确定经预测块(104)。运动补偿单元44随后基于所述经预测块而确定残差视频块(106)。即，运动补偿单元44随后通过从正译码的当前视频块的像素值减去预测块的像素值而确定残差视频块，从而将残差数据形成为像素差值。求和器50表示可执行此减法运算的一或多个组件。

变换处理单元52随后使用例如离散余弦变换(DCT)或概念上类似的变换等变换来变换残差块以确定变换系数(108)。变换处理单元52可将残差视频数据从像素(空间)值域转换到变换域，例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对残差变换系数进行量化以进一步降低位速率(110)。量化过程可减少与系数中的一些系数或全部相关联的位深度。在量化之后，熵编码单元56对经量化变换系数进行熵编码(112)，从而将熵经量化变换系数插入到位流中。

运动补偿单元44还可产生一或多个语法元素，所述一或多个语法元素识别用于预测参考图片列表中的当前图片的至少部分的差异图片。运动补偿单元44可随后将此索引传递到熵编码单元56。熵编码单元56可随后在表示视频数据的经编码版本的位流中指定差异图片的此索引(114)。

图5是说明在执行本发明中描述的技术的各种方面中的视频解码器的实例操作的流程图。作为一个实例，视频解码器30实施或经配置以执行上文所描述的技术。熵解码单元80可对表示经编码视频数据的位流进行熵解码以确定对应于经编码视频数据的块(其可表示部分)的经量化变换系数(120)。熵解码单元80可随后将这些经量化变换系数传递到反量化单元86。反量化单元86可相对于所述经量化变换系数执行反量化以确定变换系数(122)。反变换处理单元88可随后相对于所述变换系数执行反变换以产生当前图片的残差数据(124)。

熵解码单元80还可解析所述位流以针对当前图片的块而确定识别将在执行对当前图片的所述块的双向预测时使用的差异图片的语法元素(126)。熵解码单元80可将这些语法元素传递到运动补偿单元82。运动补偿单元82可以上文所描述的方式确定差异图片，从而指定此差异图片是参考图片列表(128、130)。运动补偿模块82可随后基于所述语法元素从参考图片列表检索差异图片，所述语法元素可指定到参考图片列表中的索引(132)。

运动补偿模块162可随后使用所识别的差异图片以模仿或(换句话说)模拟高级残差预测的应用的方式解码当前图片的部分(134)。视频解码器30可将视频数据的经解码块存储到经解码图片缓冲器以供稍后用于解码后续图片，所述经解码图片缓冲器在图3的实例中展示为参考图片存储器92。视频解码器可随后与如上文所描述类似地解码当前图片的其它切片(如果存在的话)。

一般来说，视频编码器20和/或视频解码器30可通过首先产生差异图片(其可标示为“picDiff”)且随后将此picDiff添加到RefPicListX(其中“X”可为0或1)中的一或两者而执行ARB。视频编码器20和/或视频解码器30可随后识别正常的参考图片，其可标示为“picT”，其中T表示在时间上远隔的参考图片。视频编码器20和/或视频解码器30可随后从picDiff及picT双向预测当前图片中的当前块。因为picT的权重通常为1且picDiff的权重是某一其它值，所以权重常常是不同于正常经加权预测的默认0.5及0.5的值。为了实现充分的高级残差预测，可使用经加权预测，其中权重可不合计为一，但可为某一不同值(通常大于一但还可以小于一)。执行本发明中描述的技术的实际效果可为从具有为一的权重的picT加上来自picDiff的某一残差而单向预测当前块。

在一些实例中，视频编码器20和/或视频解码器30可实施HEVC的之后提出的经修改版本以执行本发明中描述的技术，其中使用粗体及斜体字标示对HEVC WD8的部分的各种修改。

为了执行所述技术，视频编码器20和/或视频解码器30可以下文描述的方式在HEVC扩展(例如，对HEVC的MVC扩展(被称作“MV-HEVC”或对HEVC的SVC扩展)中产生差异图片。

相对于图片的纹理分量，在解码当前层图片PicLc且其基础层图片是PicLb之后，可将差异图片界定为PicDc＝PicLc-PicLb+(1＜＜(bitDepth-1))，其中减法应用于每一颜色分量的每个像素。应注意，假设每一像素被存储为8位。

相对于运动字段，将PicDc的运动字段设定为与PicLc相同。PicDc可指当前图片PicLc的差异图片。PicLc可指差异图片PicDc的相关联图片。

相对于HEVC扩展中的差异图片的管理，为参考图片标记提供以下内容。差异图片存储在经解码图片缓冲器(DPB)中。如下产生差异图片参考图片列表(DPRPS)：

对于RefPicSetLtCurr、RefPicSetLtFoll、RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetStFoll中的每一图片，可将其差异图片插入到DPRPS中。

可从DPB移除不在DPRPS中的所有其它差异图片。

可进一步选择DPRPS中的条目以决定哪些图片可用于预测当前图片。例如，仅选择最靠近当前图片的图片以形成currDiffRPS。在一个替代方案中，currDiffRPS等于DPRPS。

另外，可从DPRPS移除更多的差异图片。

currDiffRPS用于形式类似于层间参考图片列表的参考图片列表。

currDiffRPS中的条目被标记为短期参考图片。

相对于HEVC扩展中的差异图片的管理，为参考图片列表提供以下内容。RefPicSetLtCurr、RefPicSetLtFoll、RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetStFoll、层间参考图片列表及currDiffRPS中的图片用于参考图片列表建构，其类似于HEVC及MV-HEVC。

相对于HEVC扩展中的参考图片列表建构，在一个实例中，currDiffRPS仅含有一个条目且将此条目两次添加到参考图片列表中，其中可能进行参考图片列表修改。

相对于HEVC扩展中的预测权重派生物，对于来自currDiffRPS的两个条目，可如下在切片标头中设定预测权重。在不损失一般性的情况下，假设差异图片处于RefPicList0中，其中参考索引等于i(其中此差异图片还可在RefPicList1中)。在差异图片的加权因子是1时，RefPicList0中的差异图片的权重被设定为：

luma_log2_weight_denom： 0

delta_chroma_log2_weight_denom： 0

(在一些情况下，以上两个语法元素对于每一条目是共同的)。

luma_weight_l0_flag[i]： 1

delta_luma_weight_l0[i]： 63

chroma_weight_l0_flag[i]： 1

delta_chroma_weight_l0[i][j](j等于0或1)：63

luma_offset_l0[i]： -128

delta_chroma_offset_l0[i][j]： -128

然而，正常图片的预测权重可被设定为：

使得如果predSamplesL0来自差异图片且predSamplesL1来自正常图片，那么如等式(8-230)(其可指HEVC WD8中的标示为8-230的等式)中指定的以下双向经加权预测等式：

(predSamplesL0[x][y]*w0+predSamplesL1[x][y]*w1+((o0+o1+1)＜＜log2WD))＞＞(log2WD+1))变为：

(predSamplesL0[x][y]*64+predSamplesL1[x][y]*64+((-128+0+1)＜＜6))＞＞7)

在差异图片的加权因子是0.5时，RefPicList0中的差异图片的权重被设定为：

delta_chroma_weight_l0[i][j](j等于0或1)：31

luma_offset_l0[i]： -64

delta_chroma_offset_l0[i][j]： -64

然而，正常图片的预测权重可被设定为：

使得如果predSamplesL0来自差异图片且predSamplesL1来自正常图片，那么如等式(8-230)中指定的以下双向经加权预测等式：

(predSamplesL0[x][y]*32+predSamplesL1[x][y]*64+((-64+0+1)＜＜6))＞＞7)

在一些情况下，在HEVC扩展中，可在序列参数集、图片参数集或切片标头中存在一个旗标或指示符，其指示是否使用差异图片及对它们使用多少，以使得不需要用信号发送预测权重且可以类似于上文所描述的方式导出。

相对于HEVC基础规范中的双向预测钩，引入两个旗标sFlagL0及sFlagL1以指示是否应进一步通过分别对应于RefPicList0及RefPicList1方向的预测符的(1＜＜(bitDepth-1))的值来提取预测符。在一些情况下，可不需要使用隐式经加权预测，且在权重是1的情况下可一直使用默认经加权样本预测过程以支持差异域预测。

在一个实例情况中，视频编码器20可一直将这两个旗标sFlagL0及sFlagL1设定到HEVC基础规范中的0。然而，在例如HEVC的可缩放扩展中，视频编码器20可在图片层级中设定这些旗标。此外，如果到RefPicListX(其中X等于0或1)的参考索引对应于差异图片，那么视频编码器20可将sFlagLX设定为1。否则的话，视频编码器20可将sFlagLX设定为0。或者，在一些实例中，视频编码器20可仅设定基础规范中的一个旗标sFlagL0或sFlagL1，其可导致对仅一个图片的减去。

如下展示对HEVC基础规范的修改，其中使用粗体及斜体字标示再次修改。

8.5.2.2.3.1 默认经加权样本预测过程

对此过程的输入是：

-指定当前预测块的左上方样本相对于当前译码块的左上方样本的位置(xB，yB)，

-此预测块的宽度及高度nPbW及nPbH，

-两个(nPbW)×(nPbH)阵列predSamplesL0及predSamplesL1，

-预测列表利用旗标predFlagL0及predFlagL1，

-样本的位深度bitDepth。

-值substraction的两个变量sFlagL0、sFlagL1。

这个过程的输出是：

-预测样本值的(nPbW)×(nPbH)阵列predSamples。

如下导出变量shift1、shift2、offset1和offset2。

-变量shift1设定成等于14位深且变量shift2设定成等于15位深，

-如下导出变量offset1。

-如果shift1大于0，那么offset1设定成等于1＜＜(shift1-1)。

-否则的话(shift1等于0)，offset1设定成等于0。

-如果sFlagL0、shift1设定成等于(1＜＜(bitDepth-1))

-那么变量offset2设定为等于1＜＜(shift2-1)。

-如果sFlagL1，那么变量offset2进一步被修改为shift2-(1＜＜(bitDepth-1))。

取决于predFlagL0及predFlagL1的值，如下导出具有x＝0..(nPbW)-1及y＝0..(nPbH)-1的预测样本predSamples[x][y]。

-如果predFlagL0等于1，且predFlagL1等于0，

那么predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，(predSamplesL0[x][y]+offset1)＞＞shift1) (8-213)

-否则的话，如果predFlagL0等于0，且predFlagL1等于1，

那么predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，(predSamplesL1[x][y]+offset1)＞＞shift1) (8-214)

-否则，

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，

(predSamplesL0[x][y]+predSamplesL1[x][y]+offset2)＞＞shift2) (8-215)

8.5.2.2.3.2 默认经加权样本预测过程

对此过程的输入是：

-此预测块的宽度及高度nPbW及nPbH，

-两个(nPbW)×(nPbH)阵列predSamplesL0及predSamplesL1，

-预测列表利用旗标predFlagL0及predFlagL1，

-参考索引refIdxL0及refIdxL1，

-指定彩色分量索引的变量cIdx，

-样本的位深度bitDepth。

-值substraction的两个变量sFlagL0、sFlagL1。

这个过程的输出是：

-预测样本值的(nPbW)×(nPbH)阵列predSamples。

变量shift1设定成等于14位深。

变量subsOffset0设定为(sFlagL0＜＜(bitDepth-1))，且subsOffset1设定为(sFlagL1＜＜(bitDepth-1))。

如下导出变量log2WD、o0、o1及w0、w1。

-如果cIdx对于亮度样本等于0，

-否则的话(cIdx对于色度样本不等于0)，

如下导出具有x＝0..(nPbW)-1及y＝0..(nPbH)-1的预测样本predSamples[x][y]：

-如果predFlagL0等于1且predFlagL1等于0，那么通过以下部分导出预测样本：

-否则的话，如果predFlagL0等于0且predFlagL1等于1，那么通过以下部分导出最终预测样本值predSamples[x][y]

-否则的话，通过以下部分导出最终预测样本值predSamples[x][y]

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，

((predSamplesL0[x][y]-subsOffset0)*w0+(predSamplesL1[x][y]-subsOffset1)*w1+

((o0+o1+1)＜＜log2WD))＞＞(log2WD+1)) (8-230)

在一些其它实例中，类似于上文所描述的实例，然而，在任何情况下sFlagL0+sFlagL1应小于二且在它们仅影响双向预测块时等于一。如下展示更详细的HEVC基础规范改变：

8.5.2.2.3.1 默认经加权样本预测过程

对此过程的输入是：

-此预测块的宽度及高度nPbW及nPbH，

-两个(nPbW)×(nPbH)阵列predSamplesL0及predSamplesL1，

-预测列表利用旗标predFlagL0及predFlagL1，

-样本的位深度bitDepth。

-值substraction的两个变量sFlagL0、sFlagL1。

这个过程的输出是：

-预测样本值的(nPbW)×(nPbH)阵列predSamples。

如下导出变量shift1、shift2、offset1和offset2。

-变量shift1设定成等于14位深且变量shift2设定成等于15位深，

-如下导出变量offset1。

-如果shift1大于0，那么offset1设定成等于1＜＜(shift1-1)。

-否则的话(shift1等于0)，offset1设定成等于0。

-如果sFlagL0、shift1设定成等于(1＜＜(bitDepth-1))

-那么变量offset2设定为等于1＜＜(shift2-1)。

-如果predFlagL0等于1，且predFlagL1等于0，

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，(predSamplesL0[x][y]+offset1)＞＞shift1) (8-213)

-否则的话，如果predFlagL0等于0，且predFlagL1等于1，

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，(predSamplesL1[x][y]+offset1)＞＞shift1) (8-214)

-否则，

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，

(predSamplesL0[x][y]+predSamplesL1[x][y]+offset2)＞＞shift2)

(8-215)

8.5.2.2.3.2 默认经加权样本预测过程

对此过程的输入是：

-此预测块的宽度及高度nPbW及nPbH，

-两个(nPbW)×(nPbH)阵列predSamplesL0及predSamplesL1，

-预测列表利用旗标predFlagL0及predFlagL1，

-参考索引refIdxL0及refIdxL1，

-指定色彩分量索引的变量cIdx，

-样本的位深度bitDepth。

-值substraction的两个变量sFlagL0、sFlagL1。

这个过程的输出是：

-预测样本值的(nPbW)×(nPbH)阵列predSamples。

变量shift1设定成等于14位深。

如下导出变量log2WD、o0、o1及w0、w1。

-如果cIdx对于亮度样本等于0，

-否则的话(cIdx对于色度样本不等于0)，

-否则的话，通过以下部分导出最终预测样本值predSamples[x][y]

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，

((predSamplesL0[x][y]-subsOffset0)*w0+(predSamplesL1[x][y]-subsOffset1)*w1+

((o0+o1+1)＜＜log2WD))＞＞(log2WD+1)) (8-230)

在一些实例中，为了进一步使用默认经加权样本预测过程支持0.5加权，可如下进一步修改默认经加权样本预测过程。为简单起见，在此实例中，我们假设差异图片一直在RefPicList0中。

对此过程的输入是：

-此预测块的宽度及高度nPbW及nPbH，

-两个(nPbW)×(nPbH)阵列predSamplesL0及predSamplesL1，

-预测列表利用旗标predFlagL0及predFlagL1，

-样本的位深度bitDepth。

-值substraction的两个变量sFlagL0。

-加权旗标wf。

这个过程的输出是：

-预测样本值的(nPbW)×(nPbH)阵列predSamples。

变量addShift被设定为0。

如下导出变量shift1、shift2、offset1和offset2。

-变量shift1设定成等于14位深且变量shift2设定成等于15位深，

-如下导出变量offset1。

-如果shift1大于0，那么offset1设定成等于1＜＜(shift1-1)。

-否则的话(shift1等于0)，offset1设定成等于0。

-如果sFlagL0、shift1设定成等于(1＜＜(bitDepth-1))且addShift设定为wf

-那么变量offset2设定为等于1＜＜(shift2-1)。

-如果predFlagL0等于1，且predFlagL1等于0，

-否则的话，如果predFlagL0等于0，且predFlagL1等于1，

-否则，

predSamples[x][y]＝Clip3(0，(1＜＜bitDepth)-1，

((predSamplesL0[x][y]＞＞addShift)+predSamplesL1[x][y]+offset2)＞＞shift2) (8-215)

类似于sFlagL0，变量wf在基础规范中一直设定为0。在HEVC可缩放编解码器中，在归因于来自差异图片的预测而将sFlagL0导出为1时，变量wf可被设定为0或1。

图6是说明被称作SVC的经加权差异域单向预测的实例一种形式的高级残差预测的图。在图6的实例中，经加权差异单向预测涉及差异信号的计算，其中依据当前层(其可另外是指增强层(EL))经重构信号及对应的基础层经重构信号来计算此差异信号。具体来说，通过从对应的基础层经重构信号减去当前层经重构信号而计算差异信号。差异信号随后用于预测当前块的残差，其中可在差异信号用作残差(其也可被称作残差块)的预测块之前对此差异信号加权。

可如下界定经加权差异信号：

经加权差异信号＝We*EL参考-Wb*BL col参考+偏移，

其中We及Wb是分别针对EL参考及BL参考像素而应用的权重。偏移的值可通常在-128到127(包含-128及127)的范围内。EL参考是指表示对当前增强层(在图6的实例中标示为ELC 142)的时间参考的增强层(EL)参考(在图6的实例中标示为ELR 140)。

可通过调制We及Wb而获得对差异域重构的不同加权。例如，在对于参考图片We＝Wb＝1且对于当前图片We＝1且Wb＝0时，EL最终预测＝BL并置块144+MC(EL经重构块140-BL经重构块146)，其中MC()函数是指运动补偿函数，意味着可界定视差向量以相对于EL经重构块140识别BL经重构块146。作为另一实例，在对于参考图片We＝Wb＝0.5且对于当前图片We＝1且Wb＝0时，EL最终预测＝BL并置块144+0.5*MC(EL经重构块140-BL经重构块146)。作为又一实例，在对于参考图片We＝1且Wb＝0且对于当前图片We＝1且Wb＝0时，EL最终预测＝MC(EL经重构块140)。

虽然用于SVC及MVC两者的经加权预测与不利用经加权预测的视频译码过程相比可提高译码效率(或，换句话说，更好地压缩给定图片)，但可能必须在块层级(或在HEVC术语中被称作“译码单元”层级的东西)处修改新兴的视频译码标准(例如所提议的高效率视频译码(HEVC)标准)以支持用于对HEVC提议的任何SVC或MVC扩展的高级残差预测。因为逐块地导出某一形式的高级残差预测中的差异信号，所以可需要块层级改变。在HEVC提议(例如)一般已完成块层级信令及设计的条件下，HEVC提议可不能够在不修改来自HEVC提议的所采用的编解码器的情况下在对HEVC提议的对应的SVC及/或MVC扩展中实施或执行高级残差预测。

换句话说，将差异域预测界定为其中从对应的基础层经重构信号减去当前层经重构信号且所得物形成差异信号的技术。差异信号可进一步用于预测当前块的残差。进一步如图6中所展示，差异信号可在其用作残差的预测之前经加权。

参看图6，可观测到以下部分：

经加权差异信号＝We*EL参考-Wb*BL col参考+偏移。We及Wb可分别表示针对EL参考及BL参考像素而应用的权重。在一些情况下，偏移的值可在-128到127(包含-128及127)的范围内。在一些情况下，可通过调制We及Wb而获得对差异域重构的不同加权。

例如：

1)在对于参考图片We＝Wb＝1且对于当前图片We＝1且Wb＝0时，EL最终预测＝BL并置块+MC(EL Recon-BL Recon)

2)在对于参考图片We＝Wb＝0.5且对于当前图片We＝1且Wb＝0时，于是EL最终预测＝BL并置块+0.5*MC(EL Recon-BL Recon)

3)在对于参考图片We＝1且Wb＝0且对于当前图片We＝1且Wb＝0时，于是EL最终预测＝MC(EL Recon)

在一些情况下，这与HEVC常规的单向预测相同。在一些情况下，可基于R-D优化准则来选择更精细的自适应权重。

图7是说明译码多视图视频译码(MVC)序列的概念图。如上所述，MVC为H.264/AVC的扩展。在图7中展示典型的MVC解码次序(其可指所谓的“位流次序”)。解码次序配置被称作“时间优先译码”。即，每一存取单元可经界定以含有用于一个输出时间实例的所有视图的经译码图片。在一些情况下，存取单元的解码次序可不等同于输出或显示次序。

图8是说明实例MVC预测模式的概念图。在图8中展示对于多视图视频译码的典型MVC预测(包含每一视图内的图片间预测及视图间预测两者)结构，其中使用用于预测参考的指出对象通过具有指向对象的箭头指示预测。在MVC中，通过视差运动补偿支持视图间预测，其使用H.264/AVC运动补偿的语法，但允许在预测待编码的当前图片(其在本发明中可被称为“当前图片”)时将不同视图中的图片用作参考图片。

在一些情况下，MVC可支持对两个视图的译码。MVC的优点中的一者是MVC编码器可采用两个以上视图作为三维(3D)视频输入且MVC解码器可解码此多视图表示。因此与MVC解码器联合操作的任何再现器可接收具有两个以上视图的3D视频内容。

在MVC扩展中，允许在相同存取单元中的图片(其可指具有相同时间实例的那些图片)当中进行视图间预测。当译码非基础视图中的一者中的图片时，如果图片处于不同视图中但具有相同时间实例，那么可将所述图片添加到参考图片列表中。视图间预测参考图片可放置在参考图像列表的任何位置中，正如任何帧间预测参考图片一般。

图9是说明通过对H.264/AVC的可缩放视频译码(SVC)扩展实现的不同可缩放性维度的概念图。在图9中，层零可表示基础层，其中层一到四表示增强层。图9的实例中展示的SVC视频数据可具有空间及时间可缩放性两者的特征。即，从基础层(是指层零)到层四的分辨率(即，用于表示每一图片的像素的数目)可从QCIF(四分之一通用中间格式)增加到4CIF(其为四倍CIF)。在层四中，在与层零到三的频率(其各自处于15赫兹(Hz))相比时，图片的频率也从15Hz加倍到30Hz。此外，如通过图9中的箭头所示，在给定层下方(在它们的编号方面)的层可用于预测更高层中的图片。虽然展示为从给定图片正下方的图片预测，但所述预测可基于将在增强层中的一者中预测的当前图片下方一个以上层的图片。

虽然图9中为了易于说明而未展示，但图9中展示的箭头可表示相同层预测，在从相同视图中的其它图片预测的图片在时间上远隔的条件下，其可被称为时间预测。还通过SVC提供另一可缩放性维度但在图9中未展示，其中此第三可缩放性维度是在质量(Q)方面，常常通过视频数据的压缩随后解压缩的版本与原始视频数据之间的信噪比来测量。

换句话说，如图9中所展示，在三个维度中实现可缩放性。在时间维度上，可在相容的视频解码器中通过时间可缩放性(T)支持具有7.5Hz、15Hz或30Hz的帧速率。在通过视频解码器支持空间可缩放性(S)时，实现四分之一通用中间格式(QCIF)、通用中间格式(CIF)及四倍CIF(4CIF)的分辨率。对于每一特定空间分辨率及帧速率，可添加信噪比(SNR)(Q)层以改进图片质量。一旦SVC相容的视频编码器已以此可缩放方式编码视频内容，可使用提取器工具以根据应用要求来调适实际递送的内容，其取决于(例如)客户端或传输通道。

在图9中展示的实例中，每一立方体含有具有相同帧速率(时间层级)、空间分辨率及SNR层的图片。通常可通过在任何维度上添加那些立方体(图片)来实现更好的表示。当启用两个、三个或甚至更多可缩放性时，支持组合的可缩放性。

根据对H.264/AVC的SVC扩展，具有最低空间及质量层的图片与H.264/AVC相容。在最低时间层级处的图片形成时间基础层，所述时间基础层可具有在较高时间层级处的图片来增强。除H.264/AVC兼容层之外，还可添加若干空间和/或SNR增强层以提供空间和/或质量可缩放性。SNR可缩放性也可被称作“质量可缩放性”。每一空间或SNR增强层自身可为时间上可缩放的，具有与H.264/AVC相容层相同的时间可缩放性结构。对于一个空间或SNR增强层，此增强层所相依的下部层还被称作特定空间或SNR增强层的基础层。

图10是说明实例SVC译码结构的概念图。具有最低空间及质量层的图片(层0及层1的具有QCIF分辨率的图片)与H.264/AVC相容。其中，最低时间层级的那些图片形成时间基础层，如图10的层0中所展示。此时间基础层(层0)可使用较高时间层级(例如，层1)的图片来增强。除H.264/AVC兼容层之外，可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。举例来说，增强层可为具有与层2相同的分辨率的CIF表示。在所述实例中，层3是SNR增强层。如图10的实例中所展示，每一空间或SNR增强层自身可为在时间上可缩放的，具有与H.264/AVC相容层相同的时间可缩放性结构。而且，增强层可增强空间分辨率及帧速率两者。举例来说，层4提供4CIF增强层，其进一步将帧速率从15Hz增加到30Hz。

图11是说明相同时间实例中的经译码切片如何以位流次序连续且在SVC的情况下形成一个存取单元的概念图。在图11的实例中标示为存取单元(AU)150A到150E的那些SVC存取单元随后遵循解码次序，所述解码次序可不同于显示次序且例如通过时间预测关系来决定。

SVC的一些功能性是从H.264/AVC继承的。与先前可缩放标准相比，SVC的一或多个优点可包含分层时间可缩放性、层间预测、单环路解码及灵活输送接口，以下回顾其中的每一者。

SVC引入基于纹理、残差及运动的对空间及SNR可缩放性的层间预测。已将SVC中的空间可缩放性一般化为两个层之间的任何分辨率。可通过粗糙粒度可缩放性(CGS)或中等粒度可缩放性(MGS)来实现SNR可缩放性。在SVC中，两个空间或CGS层属于不同相依层(由NAL单元标头中的dependency_id指示)，而两个MGS层可在相同的相依层中。一个相依层包含具有从0到较高值的quality_id的对应于质量增强层的质量层。在SVC中，利用层间预测方法以减少层间冗余，以下段落简要地介绍其中的每一者。

使用层间纹理预测的译码模式在SVC中被称为“IntraBL”模式。为了启用单环路解码，在被译码为受约束帧内模式的基础层中具有位于同一地点的宏块(MB)的MB可使用层间纹理预测模式。受约束的帧内模式MB可在不参考来自相邻的经帧间译码的MB的任何样本的情况下被帧内译码。

对于层间残差预测，如果指示MB使用残差预测，那么用于层间预测的基础层中的位于同一地点的MB应为帧间MB且可根据空间分辨率将对应的残差上取样。增强层与基础层之间的残差差异通常被译码。

对于层间运动预测，可缩放位于同一地点的基础层运动向量以产生用于增强层中的MB或MB分区的运动向量的预测符。另外，通常存在一种MB类型(被命名为基础模式)，其针对每一MB发送一个旗标。如果此旗标为真且对应的基础层MB不是帧内，则运动向量、分割模式及参考索引全部可从基础层导出。

除了回顾MVC及SVC之外，下文提供对HEVC及多视图HEVC(“MV-HEVC”)的回顾。如下文更详细地描述，HEVC是基础版本(2D)当前正在JCT-VC中开发的新的视频译码标准。在高清及超高清(UHD)视频领域中看到HEVC的主要使用。许多HD显示器已经提供用于立体声再现的能力，且预期UHD显示器的增加的分辨率及显示器大小使它们更适合于此类目的。除此之外，HEVC的改进的压缩能力(与AVC高简档相比具有相同质量的预期的二分之一位速率)使其对于引入立体声更具吸引力。例如，通过使用采用视图之间的冗余的机例如，通过使用采用视图之间的冗余的机构，HEVC可能够以相同的质量及分辨率以AVC仅针对一个(单视场)视图所采用的速率显著更低的速率编码全分辨率立体声。

类似于基于AVC的计划，VCEG及MPEG的3D视频译码联合合作小组(JCT-3V)正在进行对使用HEVC译码技术的两个3DV解决方案的研究。第一个研究是HEVC的多视图扩展，所谓的MV-HEVC，且另一个研究是基于深度增强型HEVC的全3DV编解码器，被称作3D-HEVC。标准化工作的部分包含基于HEVC的多视图/3D视频译码的标准化。可在https://hevc.hhi.fraunhofer.de/svn/svn_3DVCSoftware/tags/HTM-5.0/处以电子方式得到最新的软件3D-HTM版本5.0。为了进一步提高译码效率，已经在最新的参考软件中采用两个新技术，即“视图间运动预测”及“视图间残差预测”(下文描述)。

回顾HEVC中的第一参考图片列表建构，用于B图片的第一或第二参考图片列表的参考图片列表建构通常包含两个步骤：参考图片列表初始化及参考图片列表重新排序(修改)。参考图片列表初始化可指基于图片次序计数(POC)值的次序(其可与图片的显示次序对准)将参考图片存储器(也被称作经解码图片缓冲器)中的参考图片放到列表中的显式机构。参考图片列表重新排序机构可将在参考图片列表初始化期间放入列表中的图片的位置修改为任何新位置，或将参考图片存储器中的任何参考图片放在任何位置，即使图片可能不属于初始化列表也如此。可将参考图片列表重新排序(或，换句话说，修改)之后的一些图片放在列表中的可远离初始位置的更向下的位置中。然而，如果图片的位置超过列表的有效参考图片的数目，则可不将所述图片视为最终参考图片列表的条目。视频编码器可在用于每一列表的切片标头中用信号发送有效参考图片的数目。在建构参考图片列表之后(即，RefPicList0及RefPicList1(如果可用))，视频编码器可使用参考索引以识别任何参考图片列表中的图片。

接下来，时间运动向量预测符(TMVP)通常用于提高HEVC的译码效率。不同于其它译码工具，TMVP可需要存取经解码图片缓冲器中的帧的运动向量，且在一些情况下存取参考图片列表中的帧的运动向量。

为了说明，在经帧间预测切片中，在针对整个经译码视频序列启用TMVP时(即，在一些实例中，在与视频图片序列相关联的序列参数集中的sps_temporal_mvp_enable_flag设定为1时)，在切片标头中用信号发送slice_temporal_mvp_enable_flag以指示是否针对当前切片启用TMVP。

在针对当前切片启用TMVP且当前图片是B切片时，视频编码器可在切片标头中用信号发送collocated_from_l0_flag语法元素以指示位于同一地点的图片是否来自RefPicList0或RefPicList1。

在识别参考图片列表之后，视频编码器可在切片标头中用信号发送collocated_ref_idx语法元素以识别列表中的图片中的参考图片。

随后通过检查位于同一地点的图片来识别位于同一地点的预测单元(PU)。使用含有此PU的译码单元(CU)的右下方PU的运动或含有此PU的CU的中心PU内的右下方PU的运动。

相对于HEVC中的随机存取，存在可通过HEVC中的NAL单元类型识别的四个图片类型。这些是即时解码刷新(IDR)图片、清洁随机存取(CRA)图片、时间层存取(TLA)图片及不是IDR、CRA或TLA图片的经译码图片。

IDR及经译码图片是从H.264/AVC规范继承的图片类型。CRA及TLA图片类型在HEVC中是新的且不可用于H.264/AVC规范。CRA图片可表示促进从视频序列中间的任何随机存取点开始的解码的图片类型，其通常比插入IDR图片更有效。在HEVC中，从这些CRA图片开始的位流还可表示相符位流。TLA图片可指可用于指示有效的时间层切换点的图片类型。以下部分进一步详细地描述CRA及TLA图片。

在例如广播及流式传输等视频应用中，用户可能想要在不同频道之间交换且以最小延迟跳转到视频的特定部分。可通过使随机存取图片以规则的间隔处于视频位流中而实现此特征。在H.264/AVC及HEVC两者中指定的IDR图片可用于随机存取。然而，因为IDR图片开始经译码视频序列且始终清理经解码图片缓冲器(DPB)，所以在解码次序中在IDR后面的图片可无法使用在IDR图片之前解码的图片作为参考。因此，依赖于IDR图片以进行随机存取的位流可具有显著较低的译码效率(例如，6％)。为了改进译码效率，HEVC中的CRA图片允许在解码次序中在CRA图片后面但在输出次序中在此图片前面的图片使用在CRA图片之前解码的图片作为参考。

图12是说明实例清洁随机存取(CRA)图片及实例前导图片的概念图。在图12中展示的围绕CRA图片的典型预测结构，其中CRA图片(具有POC 24且标示为CRA图片160)属于图片群组(GOP)162，其含有在解码次序中在CRA图片160之后但在输出次序中在CRA图片160前面的其它图片(POC 17到23)164。这些图片被称为CRA图片160的前导图片164，且可在解码从当前CRA图片160之前的IDR或CRA图片开始的情况下被正确地解码。然而，当发生从此CRA图片160的随机存取时，前导图片可不被正确地解码。因此，通常在随机存取解码期间丢弃这些前导图片。

为防止错误从取决于解码开始的地方而可能不可用的参考图片传播，在解码次序及输出次序两者中在CRA图片160之后的下一GOP 166中的所有图片(如图6中所示)应不将在解码次序或输出次序中在CRA图片160前面的任何图片(其包括前导图片)用作参考。

在具有恢复点SEI消息的H.264/AVC中支持类似的随机存取功能性。H.264/AVC解码器实施方案可支持或可不支持所述功能性。在HEVC中，开始于CRA图片的位流被视为相符位流。当位流开始于CRA图片时，CRA图片的前导图片可能指不可用参考图片，且因此可不被正确地解码。然而，HEVC指定不输出开始的CRA图片的前导图片，因此名称是“清洁随机存取”。为了建立位流相符要求，HEVC规定解码过程产生不可用的参考图片以用于解码非输出的前导图片。然而，相符的解码器实施方案不必在解码过程之后，只要这些相符的解码器可产生与从位流的开始执行解码过程时的情形相比相同的输出即可。

在HEVC中，相符位流可能完全不含有IDR图片，且因此可含有经译码视频序列的子集或不完整的经译码视频序列。

除IDR及CRA图片以外，存在其它类型的随机存取点图片(例如，断链存取(BLA)图片)。对于主要类型的随机存取点图片中的每一者，取决于可如何由系统潜在地处理随机存取点图片，可能存在子类型。每一子类型的随机存取点图片具有不同NAL单元类型。

相对于HEVC中的运动压缩，为了使得能够实施解码器以使得可需要更少的存储器专用于经解码图片缓冲器(DPB)，在HEVC中引入运动压缩，从而以图片的每一块可(作为一个实例，如果以16×16块光栅扫描次序)假设含有RefPicList0的相同第一运动向量(如果可用)及RefPicList1的相同第二运动向量(如果可用)的方式压缩运动字段。此运动压缩可应用于所有时间参考图片，以使得可减小分配给DPB的存储器的量。在本发明中，16×16块中的每一者可被称为“对准的16×16块”。

然而，在当前HEVC规范中，可实时或准实时地进行运动字段，以使得在存取对准的16×16块内的任何4×4块时，可使用对准的16×16块内的左上角块的运动向量。

此设计需要译码单元(CU)层级过程以实时地处置运动压缩，但更高级的解码器可在图片层级处处置此运动压缩。

相对于JCT-3V中非多视图(MV)-HEVC，可形成MV-HEVC以使得在HEVC实施方案可用时，MV-HEVC的实施方案不需要译码单元层级或下部层级改变。

相对于MV-HEVC中的随机存取，HEVC的随机存取概念被扩展到多视图及3DV扩展。随机存取点存取单元以及随机存取视图分量的具体定义在标题为“MV-HEVC工作草案1(MV-HEVC Working Draft 1)”的MV-HEVC工作草案规范：JCT3V-A1004中(JCT3V-A1004，ITU-T SG 16 WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组，第一届会议：瑞典斯德哥尔摩，2012年7月16日到20日)且可在http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/1_Stockholm/wg11/JCT3V-A1004-v1.zip处得到。随机存取点存取单元以及随机存取视图分量的具体定义在上文直接叙述的MV-HEVC工作草案规范(即，JCT3V-A1004)中。

视图分量是不是随机存取点取决于视图分量的NAL单元类型。如果所述类型属于在HEVC基础规范中针对随机存取点图片界定的类型，那么当前视图分量是随机存取点视图分量(或，为简单起见，是当前视图的随机存取点图片)。

在一些情况下，随机存取功能性仅以一种方式应用于时间预测，使得时间维度上(因此在视图内部)的某些预测被停用或受约束，与HEVC基础规范中类似。然而，对随机存取点视图分量的视图间预测仍是可能的，且一般经执行以提高译码效率，类似于H.264/MVC中的锚图片。随机存取点(RAP)视图分量在使用视图间预测的情况下可为P或B图片。在一些情况下，此上述概念可经扩展为HEVC的可缩放扩展或下文描述的“朝向HEVC”的多标准编解码器。

相对于MV-HEVC中的视图间参考图片列表，视频译码器(其是指代视频编码器及/或视频解码器中的任一者或两者的一般术语)可基于在视频参数集(VPS)中用信号发送的视图相依性而产生视图间参考图片。针对当前图片，在相同的存取单元中且属于相依视图(在VPS中用信号发送)的图片可形成视图间参考图片列表。可将视图间参考图片列表中的图片添加到当前图片的参考图片列表中。

相对于仅基于超文本传输协议(HTTP)实时流式传输(HLS)-HEVC的可缩放译码，在仅HLS-HEVC中，在两个空间层具有相同的空间分辨率时，可类似于MV-HEVC支持视图间预测，其中甚至在位于同一地点的图片来自不同视图时启用TMVP。

在仅HLS可缩放HEVC编解码器中，应不存在等于或低于译码单元层级的改变。通常，在此译码器/解码器(其常常被称作“编解码器”)中，基础层图片(之后可能上取样)可被插入到参考图片列表中且可用作参考图片。此可类似于MV-HEVC中的视图间参考图片。此外，可将例如使用不同(上取样)滤波器产生的基础层图片的多个表示添加到相同参考图片列表中。

然而，层间参考图片产生的解码过程被视为图片层级解码过程。因此，如果以轻量方式设计，那么此解码过程可表示用于可缩放编解码器的仅潜在额外硬件模块，从而假设HEVC硬件设计是可用的。

在此仅HLS可缩放编解码器中，可创建类似于视图间参考图片列表的层间参考图片列表，且可将层间参考图片中的条目添加到参考图片列表中。

因此，具有高级技术的相对于基于HLS的可缩放/多视图编解码器，当前不存在与支持高级译码工具的HEVC相容的标准可缩放编解码器。可能的高级译码工具可为具有/不具有进一步改进的SVC中的高级译码工具。

以上详细描述的本发明的技术可通过在图片层级处操作以产生差异信号而避免对新兴的视频译码标准的块层级改变(虽然各种形式的高级残差预测仅逐块地操作以产生所述差异信号)。此差异信号可随后以上文所描述的方式常常通过将差异图片的像素值移位到指定的仅正值范围而被存储到参考图片列表。此外，在高级残差预测依赖于运动信息的方面，所述技术使得视频译码装置能够执行修改形式的双向预测，其中用于差异图片的运动信息等效于与当前图片相关联的运动信息。所述技术的以上方面中的每一者可有效地使得视频译码装置能够通过以上述方式修改双向预测而模仿应用高级残差预测，上述方式中的每一者需要极少或不需要对新兴的视频译码标准的块层级改变。

应理解，取决于实例，本文中的任何所描述的方法的某些动作或事件可以用不同顺序执行、可以添加、合并或全部省略(例如，实践所述方法并不需要所有的所描述动作或事件)。此外，在某些实例中，可例如通过多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。此外，虽然为了清晰起见，本发明的某些方面被描述为是通过单个模块或单元执行，但是应理解，本发明的技术可以通过与视频译码器相关联的单元或模块的组合执行。

虽然在上文描述所述技术的各种方面的特定组合，但提供这些组合仅为了说明本发明中描述的技术的实例。因此，本发明的技术不应限于这些实例组合且可涵盖本发明中描述的技术的各种方面的任何可设想的组合。

在一或多个实例中，所描述的功能可以用硬件、软件、固件或其任何组合来实施。如果以软件实施，则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包含任何促进将计算机程序从一处传送到另一处的媒体(例如，根据通信协议)的通信媒体。

以此方式，计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

举例来说且并非限制，所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，快闪存储器，或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。同样，任何连接可恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。

然而，应理解，所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它瞬时媒体，而是实际上针对非瞬时的有形存储媒体。如本文所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘，其中磁盘通常以磁性方式重现数据，而光盘使用激光以光学方式重现数据。上述各者的组合也应包含在计算机可读媒体的范围内。

指令可以由一或多个处理器执行，所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供，或者并入在组合编解码器中。并且，可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛多种装置或设备中，包含无线手持机、集成电路(IC)或IC组(例如，芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示技术的装置的功能方面，但不必需要通过不同硬件单元实现。实际上，如上文所描述，各种单元可以结合合适的软件及/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。

已描述本发明的各种方面。这些及其它方面在所附权利要求书的范围内。

Claims

1.一种解码可缩放或多视图视频数据的方法，所述方法包括：

针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及

基于所述差异图片而执行双向预测以解码所述当前图片的至少一部分。

2.根据权利要求1所述的方法，其中确定所述差异图片包括通过将所述差异图片的每一像素值设定为所述第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

3.根据权利要求1所述的方法，

其中所述差异图片的像素的原始值中的至少一者小于零，

其中确定所述差异图片包括移位所述差异图片的所述像素中的每一者的所述原始值以产生大于或等于零的所述像素中的每一者的经移位值，且设定所述差异图片的像素值以使得所述差异像素的所述像素值属于与所述当前图片的所述像素值相同的范围及相同的位深度，且

其中所述方法进一步包括在执行所述双向预测之前将所述像素中的每一者的所述经移位值移位回以恢复所述差异图片的所述像素中的每一者的所述原始值。

4.根据权利要求1所述的方法，其进一步包括：

将所述差异图片存储到第一参考图片列表，

其中执行所述双向预测包括从存储到所述第一参考图片列表的所述差异图片及在与所述当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测所述当前图片的当前块。

5.根据权利要求4所述的方法，其中执行所述双向预测包括：

对所述当前图片应用显式经加权预测；

将第一预测权重应用于所述差异图片；及

将第二预测权重应用于所述第二参考图片。

6.根据权利要求5所述的方法，其进一步包括在执行所述双向预测之前将所述第二预测权重应用于所述第二参考图片，所述第二预测权重等于一。

7.根据权利要求5所述的方法，其中所述差异图片的所述第一预测权重与所述第二参考图片的所述第二预测权重相同。

8.根据权利要求5所述的方法，其中所述差异图片的所述第一预测权重等于所述第二参考图片的所述第二预测权重的二分之一。

9.根据权利要求1所述的方法，其中确定所述差异图片进一步包括：

使所述第一参考图片乘以等于二的权重以产生经加权第一参考图片；及

针对所述当前图片基于所述经加权第一参考图片及所述经解码图片而确定所述差异图片，其中所述差异图片的每一像素值被设定为所述经加权第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值。

10.根据权利要求1所述的方法，其进一步包括：

将所述差异图片或其派生物的两个或更多个副本存储到第一参考图片列表，

其中执行双向预测包括基于存储到所述第一参考图片列表的所述差异图片的所述两个或更多个副本中的一者及在与所述当前图片相同的层或视图处存储到第二参考图片列表的参考图片而对所述当前图片的当前块执行双向预测。

11.根据权利要求1所述的方法，其进一步包括在时间运动向量预测是从所述差异图片时确定所述差异图片的运动信息等效于所述当前图片的所述第一参考图片的运动信息。

12.一种编码可缩放或多视图视频数据的方法，所述方法包括：

基于所述差异图片而执行双向预测以编码所述当前图片的至少一部分。

13.根据权利要求12所述的方法，其中确定所述差异图片包括通过将所述差异图片的每一像素值设定为所述第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

14.根据权利要求12所述的方法，

其中所述差异图片的像素的原始值中的至少一者小于零，

15.根据权利要求12所述的方法，其进一步包括：

将所述差异图片存储到第一参考图片列表，

16.根据权利要求15所述的方法，其中执行所述双向预测包括：

对所述当前图片应用显式经加权预测；

将第一预测权重应用于所述差异图片；及

将第二预测权重应用于所述第二参考图片。

17.根据权利要求16所述的方法，其进一步包括在执行所述双向预测之前将所述第二预测权重应用于所述第二参考图片，所述第二预测权重等于一。

18.根据权利要求16所述的方法，其中所述差异图片的所述第一预测权重与所述第二参考图片的所述第二预测权重相同。

19.根据权利要求16所述的方法，其中所述差异图片的所述第一预测权重等于所述第二参考图片的所述第二预测权重的二分之一。

20.根据权利要求12所述的方法，其中确定所述差异图片进一步包括：

21.根据权利要求12所述的方法，其进一步包括：

22.根据权利要求12所述的方法，其进一步包括在时间运动向量预测是从所述差异图片时确定所述差异图片的运动信息等效于所述当前图片的所述第一参考图片的运动信息。

23.一种经配置以译码可缩放或多视图视频数据的装置，所述装置包括：

一或多个处理器，其经配置以：针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分。

24.根据权利要求23所述的装置，其中所述一或多个处理器进一步经配置以在确定所述差异图片时通过将所述差异图片的每一像素值设定为所述第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

25.根据权利要求23所述的装置，

其中所述差异图片的像素的原始值中的至少一者小于零，

其中所述一或多个处理器进一步经配置以在确定所述差异图片时移位所述差异图片的所述像素中的每一者的所述原始值以产生大于或等于零的所述像素中的每一者的经移位值，且设定所述差异图片的像素值以使得所述差异像素的所述像素值属于与所述当前图片的所述像素值相同的范围及相同的位深度，且

其中所述一或多个处理器进一步经配置以在执行所述双向预测之前将所述像素中的每一者的所述经移位值移位回以恢复所述差异图片的所述像素中的每一者的所述原始值。

26.根据权利要求23所述的装置，

其中所述一或多个处理器进一步经配置以将所述差异图片存储到第一参考图片列表，且

其中所述一或多个处理器进一步经配置以在执行所述双向预测时从存储到所述第一参考图片列表的所述差异图片及在与所述当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测所述当前图片的当前块。

27.根据权利要求26所述的装置，其中所述一或多个处理器进一步经配置以在执行所述双向预测时：对所述当前图片应用显式经加权预测；将第一预测权重应用于所述差异图片；及将第二预测权重应用于所述第二参考图片。

28.根据权利要求27所述的装置，其中所述一或多个处理器进一步经配置以在执行所述双向预测之前将所述第二预测权重应用于所述第二参考图片，所述第二预测权重等于一。

29.根据权利要求27所述的装置，其中所述差异图片的所述第一预测权重与所述第二参考图片的所述第二预测权重相同。

30.根据权利要求27所述的装置，其中所述差异图片的所述第一预测权重等于所述第二参考图片的所述第二预测权重的二分之一。

31.根据权利要求23所述的装置，其中所述一或多个处理器进一步经配置以在确定所述差异图片时使所述第一参考图片乘以等于二的权重以产生经加权第一参考图片，且针对所述当前图片基于所述经加权第一参考图片及所述经解码图片而确定所述差异图片，其中所述差异图片的每一像素值被设定为所述经加权第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值。

32.根据权利要求23所述的装置，

其中所述一或多个处理器进一步经配置以将所述差异图片或其派生物的两个或更多个副本存储到第一参考图片列表，且

其中所述一或多个处理器进一步经配置以在执行双向预测时基于存储到所述第一参考图片列表的所述差异图片的所述两个或更多个副本中的一者及在与所述当前图片相同的层或视图处存储到第二参考图片列表的参考图片而对所述当前图片的当前块执行双向预测。

33.根据权利要求23所述的装置，其中所述一或多个处理器进一步经配置以在时间运动向量预测是从所述差异图片时确定所述差异图片的运动信息等效于所述当前图片的所述第一参考图片的运动信息。

34.一种经配置以译码可缩放或多视图视频数据的装置，所述装置包括：

用于针对当前图片基于与所述当前图片相同的层或视图中的第一参考图片及与所述当前图片不同的层或视图中的经解码图片而确定差异图片的装置，其中所述经解码图片处于与所述第一参考图片相同的存取单元中；及

用于基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分的装置。

35.根据权利要求34所述的装置，其中所述用于确定所述差异图片的装置包括用于以下操作的装置：通过将所述差异图片的每一像素值设定为所述第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

36.根据权利要求34所述的装置，

其中所述差异图片的像素的原始值中的至少一者小于零，

其中所述用于确定所述差异图片的装置包括用于以下操作的装置：移位所述差异图片的所述像素中的每一者的所述原始值以产生大于或等于零的所述像素中的每一者的经移位值，且设定所述差异图片的像素值以使得所述差异像素的所述像素值属于与所述当前图片的所述像素值相同的范围及相同的位深度，且

其中所述装置进一步包括用于以下操作的装置：在执行所述双向预测之前将所述像素中的每一者的所述经移位值移位回以恢复所述差异图片的所述像素中的每一者的所述原始值。

37.根据权利要求34所述的装置，其进一步包括：

用于将所述差异图片存储到第一参考图片列表的装置，

其中所述用于执行所述双向预测的装置包括用于以下操作的装置：从存储到所述第一参考图片列表的所述差异图片及在与所述当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测所述当前图片的当前块。

38.根据权利要求37所述的装置，其中所述用于执行所述双向预测的装置包括：

用于对所述当前图片应用显式经加权预测的装置；

用于将第一预测权重应用于所述差异图片的装置；及

用于将第二预测权重应用于所述第二参考图片的装置。

39.根据权利要求38所述的装置，其进一步包括用于以下操作的装置：在执行所述双向预测之前将所述第二预测权重应用于所述第二参考图片，所述第二预测权重等于一。

40.根据权利要求38所述的装置，其中所述差异图片的所述第一预测权重与所述第二参考图片的所述第二预测权重相同，或所述差异图片的所述第一预测权重等于所述第二参考图片的所述第二预测权重的二分之一。

41.根据权利要求34所述的装置，其中所述用于确定所述差异图片的装置进一步包括：

用于使所述第一参考图片乘以等于二的权重以产生经加权第一参考图片的装置；及

用于针对所述当前图片基于所述经加权第一参考图片及所述经解码图片而确定所述差异图片的装置，其中所述差异图片的每一像素值被设定为所述经加权第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值。

42.一种在其上存储有指令的非暂时性计算机可读存储媒体，所述指令在被执行时致使经配置以译码可缩放或多视图视频数据的装置的一或多个处理器：

基于所述差异图片而执行双向预测以译码所述当前图片的至少一部分。

43.根据权利要求42所述的非暂时性计算机可读存储媒体，其中所述在被执行时致使所述一或多个处理器确定所述差异图片的指令包括在被执行时致使所述一或多个处理器进行以下操作的指令：通过将所述差异图片的每一像素值设定为所述第一参考图片的相同像素位置中的对应像素值减去所述经解码图片的相同像素位置中的对应像素值而产生所述差异图片。

44.根据权利要求42所述的非暂时性计算机可读存储媒体，

其中所述差异图片的像素的原始值中的至少一者小于零，

其中其中所述在被执行时致使所述一或多个处理器确定所述差异图片的指令包括在被执行时致使所述一或多个处理器进行以下操作的指令：移位所述差异图片的所述像素中的每一者的所述原始值以产生大于或等于零的所述像素中的每一者的经移位值，且设定所述差异图片的像素值以使得所述差异像素的所述像素值属于与所述当前图片的所述像素值相同的范围及相同的位深度，且

其中所述非暂时性计算机可读存储媒体进一步包括在被执行时致使所述一或多个处理器进行以下操作的指令：在执行所述双向预测之前将所述像素中的每一者的所述经移位值移位回以恢复所述差异图片的所述像素中的每一者的所述原始值。

45.根据权利要求42所述的非暂时性计算机可读存储媒体，其进一步包括在被执行时致使所述一或多个处理器进行以下操作的指令：

将所述差异图片存储到第一参考图片列表，

其中所述在被执行时致使所述一或多个处理器执行所述双向预测的指令包括在被执行时致使所述一或多个处理器进行以下操作的指令：从存储到所述第一参考图片列表的所述差异图片及在与所述当前图片相同的层或视图处存储到第二参考图片列表的第二参考图片预测所述当前图片的当前块。

46.根据权利要求45所述的非暂时性计算机可读存储媒体，其中所述在被执行时致使所述一或多个处理器执行所述双向预测的指令包括在被执行时致使所述一或多个处理器进行以下操作的指令：

对所述当前图片应用显式经加权预测；

将第一预测权重应用于所述差异图片；及

将第二预测权重应用于所述第二参考图片。

47.根据权利要求46所述的非暂时性计算机可读存储媒体，其进一步包括在被执行时致使所述一或多个处理器进行以下操作的指令：在执行所述双向预测之前将所述第二预测权重应用于所述第二参考图片，所述第二预测权重等于一。

48.根据权利要求46所述的非暂时性计算机可读存储媒体，其中所述差异图片的所述第一预测权重与所述第二参考图片的所述第二预测权重相同，或所述差异图片的所述第一预测权重等于所述第二参考图片的所述第二预测权重的二分之一。

49.根据权利要求42所述的非暂时性计算机可读存储媒体，其中所述在被执行时致使所述一或多个处理器确定所述差异图片的指令包括在被执行时致使所述一或多个处理器进行以下操作的指令：