CN104365105B - 视频译码中的外部图片 - Google Patents
视频译码中的外部图片 Download PDFInfo
- Publication number
- CN104365105B CN104365105B CN201380027853.8A CN201380027853A CN104365105B CN 104365105 B CN104365105 B CN 104365105B CN 201380027853 A CN201380027853 A CN 201380027853A CN 104365105 B CN104365105 B CN 104365105B
- Authority
- CN
- China
- Prior art keywords
- syntactic element
- video
- exterior artwork
- prediction
- syntactic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
视频编码器产生指示当前图片的视频单元是否是从外部图片预测的语法元素。所述外部图片处于与所述当前图片不同的层中。此外,所述视频编码器输出视频数据位流,所述视频数据位流包含所述语法元素的表示。视频数据位流可或可不包含外部图片的经译码表示。视频解码器从所述视频数据位流获得所述语法元素。所述视频解码器在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素。
Description
本申请案主张2012年6月1日申请的第61/654,552号美国临时专利申请案的权益,所述申请案的整个内容以引用方式并入本文。
技术领域
本发明涉及视频译码(即,视频数据的编码和/或解码)。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置,及其类似物。数字视频装置实施视频压缩技术,例如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高效视频译码(HEVC)标准所定义的标准和这些标准的扩展中所描述的技术。视频装置可通过实施此类视频压缩技术来更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(即,视频帧或视频帧的一部分)分割为若干视频块。图片的经帧内译码(I)切片中的视频块是相对于同一图片中的相邻块中的参考样本使用空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测,或相对于其它参考图片中的参考样本使用时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块与预测性块之间的像素差。经帧问译码块是根据指向形成预测性块的参考样本的块的运动向量来编码,且残余数据指示在经译码块与预测性块之间的差。经帧内译码块是根据帧内译码模式及残余数据来编码。为进行进一步压缩,可将残余数据从像素域变换到变换域,从而产生接着可被量化的残余系数。最初以二维阵列布置的经量化系数可经扫描, 以便产生系数的一维向量,且可应用熵译码以实现甚至更多的压缩。
通过对例如来自多个视角的视图进行编码可产生多视图译码位流。已开发出利用多视图译码方面的一些三维(3D)视频标准。举例来说,不同视图可传输左眼和右眼视图以支持3D视频。替代地,一些3D视频译码过程可应用所谓的多视图加深度译码。在多视图加深度译码中,3D视频位流可不仅含有纹理视图分量,而且含有深度视图分量。举例来说,每一视图可包括一个纹理视图分量和一个深度视图分量。
发明内容
大体上,本发明描述在视频译码中支持外部图片的使用的语法元素。特定来说,视频编码器可产生指示当前图片的视频单元是否是从外部图片预测的语法元素。所述外部图片处于与所述当前图片不同的层中。视频数据位流可或可不包含外部图片的经译码表示。此外,所述视频编码器可输出视频数据位流,所述视频数据位流包含所述语法元素的表示。视频解码器可从所述视频数据位流解码所述语法元素。另外,所述视频解码器可在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素。
在一个实例中,本发明描述一种对视频数据进行解码的方法。所述方法包括从视频数据位流获得指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述方法还包括在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素。
在另一实例中,本发明描述一种对视频数据进行编码的方法。所述方法包括产生指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述方法还包括输出视频数据位流,所述视频数据位流包含所述语法元素的表示。
在另一实例中,本发明描述一种视频解码装置,其包括一或多个处理器,所述一或多个处理器经配置以从视频数据位流获得指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述一或多个处理器还经配置以在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素。
在另一实例中,本发明描述一种视频编码装置,其包括一或多个处理器,所述一或多个处理器经配置以产生指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述一或多个处理器还经配置以输出经译码视频位流,所述经译码视频位流包含所述语法元素的表示。
在另一实例中,本发明描述一种视频解码装置,其包括用于从视频数据位流获得指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素的装置。所述视频解码装置还包括用于在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素的装置。
在另一实例中,本发明描述一种视频编码装置,其包括用于产生指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素的装置。所述视频编码装置还包括用于输出视频数据位流的装置,所述视频数据位流包含所述语法元素的表示。
在另一实例中,本发明描述一种具有存储于其上的指令的计算机可读数据存储媒体,所述指令在执行时配置视频解码装置以从视频数据位流获得指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述指令在执行时进一步配置所述视频解码装置以在重构所述视频单元的一部分的视频数据的过程中使用所述语法元素。
在另一实例中,本发明描述一种具有存储于其上的指令的计算机可读数据存储媒体,所述指令在执行时配置视频编码装置以产生指示当前图片的视频单元是否是从处于与所述当前图片不同的层中的外部图片预测的语法元素。所述指令在执行时进一步配置所述视频编码装置输出视频数据位流,所述视频数据位流包含所述语法元素的表示。
在附图和以下描述中陈述本发明的一或多个实例的细节。从描述、附图和权利要求书将明了其它特征、目标和优点。
附图说明
图1是说明可利用本发明中描述的技术的实例性视频译码系统的框图。
图2是说明多视图译码过程中的实例性解码次序的概念图。
图3是说明实例性时间和视图问预测结构的概念图。
图4是说明可实施本发明中描述的技术的实例性视频编码器的框图。
图5是说明可实施本发明中描述的技术的实例性视频解码器的框图。
图6是说明根据本发明的一或多个技术的视频编码器的实例性操作的流程图。
图7是说明根据本发明的一或多个技术的视频解码器的实例性操作的流程图。
具体实施方式
在3维(3D)视频译码和可缩放视频译码中,外部产生的图片(即,外部图片)的使用可增加一些视频单元的译码效率,例如译码单元(CU)、预测单元(PU)、宏块、宏块分区等等。视频单元可包含样本(例如,视频数据)块和相关联的语法元素。视频编码器不产 生囊封外部产生的图片的经译码切片的网络抽象层(NAL)单元。而且,视频解码器不对囊封外部产生的图片的经译码切片的NAL单元进行解码。而是,视频编码器和视频解码器可合成外部产生的图片,或可以带外方式用信号发送外部产生的图片。当视频编码器使用外部产生的图片对视频单元进行编码时,视频编码器不用信号发送所述视频单元的任何运动信息。而是,当使用外部产生的图片对CU进行编码时,用于视频单元的预测性块可匹配于外部产生的图片的位于同一地点的块。
一些视频译码标准(例如,高效视频译码(HEVC)、H.264/高级视频译码(AVC)等等)的基本规范不支持此些外部产生的图片的使用。根据本发明的技术,视频编码器可输出位流(即,视频数据位流),所述位流包含表示指示视频单元是否是从至少一个外部产生的图片预测的语法元素的数据(即,所述语法元素的表示)。为便于阐释,本发明可将指示视频单元是否是从外部产生的图片预测的语法元素称为“外部图片旗标”。在本发明中,视频单元(例如CU或PU)在与所述视频单元相关联的预测性块是至少部分地基于外部产生的图片而产生时可从所述外部产生的图片预测。如果位流不包含除了基本层之外的层,那么用于视频单元的外部图片旗标可从不指示视频单元是从外部产生的图片预测(例如,外部图片旗标可总是等于0)。
因此,根据本发明的一个或多个实例性技术,视频编码器可产生指示当前图片的视频单元是否是从处于与当前图片不同的层中的外部图片预测的语法元素。视频数据位流可或可不包含外部图片的经译码表示。视频编码器可输出视频数据位流。视频数据位流可包含语法元素的表示。在本发明中,语法元素的表示可称为表示所述语法元素的数据。类似地,视频解码器可从视频数据位流解码指示当前图片的视频单元是否是从处于与当前图片不同的层中的外部图片预测的语法元素。而且,视频解码器可在重构视频单元的至少一部分的视频数据(即,样本块)的过程中使用所述语法元素。
图1是说明可利用本发明的技术的实例性视频译码系统10的框图。如本文使用,术语“视频译码器”一般指代视频编码器和视频解码器两者。在本发明中,术语“视频译码”或“译码”可一般指代视频编码或视频解码。
如图1的实例中所示,视频译码系统10包含源装置12和目的地装置14。源装置12产生经编码视频数据。因此,源装置12可称为视频编码装置或视频编码设备。目的地装置14可对由源装置12产生的经编码视频数据进行解码。因此,目的地装置14可称为视频解码装置或视频解码设备。源装置12和目的地装置14可为视频译码装置或视频译码设备的实例。
源装置12和目的地装置14可包括广范围的装置,包含桌上型计算机、移动计算装置、笔记本(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、车内计算机或类似物。
目的地装置14可经由信道16从源装置12接收经编码视频数据。信道16可包括能够将经编码视频数据从源装置12移动到目的地装置14的一或多个媒体或装置。在一个实例中,信道16可包括使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的一或多个通信媒体。在此实例中,源装置12可根据例如无线通信协议等通信标准调制经编码视频数据,且可将经调制视频数据发射到目的地装置14。所述一或多个通信媒体可包含无线和/或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。所述一或多个通信媒体可形成例如局域网、广域网或全球网(例如,因特网)等基于包的网络的部分。所述一或多个通信媒体可包含路由器、交换器、基站,或促进从源装置12到目的地装置14的通信的其它设备。
在另一实例中,信道16可包含存储由源装置12产生的经编码视频数据的存储媒体。在此实例中,目的地装置14可例如经由磁盘存取或卡存取而存取所述存储媒体。所述存储媒体可包含多种局部存取的数据存储媒体,例如蓝光光盘、DVD、CD-ROM、快闪存储器或用于存储经编码视频数据的其它合适数据存储媒体。
在又一实例中,信道16可包含文件服务器或存储由源装置12产生的经编码视频数据的另一中间存储装置。在此实例中,目的地装置14可经由流式传输或下载来存取存储在所述文件服务器或其它中间存储装置处的经编码视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据发射到目的地装置14的一类服务器。实例性文件服务器包含网络服务器(例如,用于网站)、文件传送协议(FTP)服务器、网络附接存储(NAS)装置以及本地磁盘驱动器。
目的地装置14可通过例如因特网连接等标准数据连接来存取经编码视频数据。数据连接的实例性类型可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从文件服务器的发射可为流式传输发射、下载发射或两者的组合。
本发明的技术不限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用,例如空中电视广播、电缆电视发射、卫星电视发射、流式传输视频发射(例如,经由因特网)、用于存储在数据存储媒体上的视频数据的编码、存储在数据存储媒体上的视频数据的解码,或其它应用。在一些实例中,视频译码系统10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
图1仅为实例且本发明的技术可应用于不一定包含编码与解码装置之间的任何数据通信的视频译码设定(例如,视频编码或视频解码)。在其它实例中,数据是从局部存储器检索,经由网络流式传输,或类似操作。视频编码装置可对数据进行编码且存储到存储器,和/或视频解码装置可从存储器检索数据且对数据进行解码。在许多实例中,编码和解码由不彼此通信但仅将数据编码到存储器和/或从存储器检索且解码数据的装置执行。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。在一些实例中,输出接口22可包含调制器/解调器(调制解调器)和/或发射器。视频源18可包含视频俘获装置,例如摄像机、含有先前俘获的视频数据的视频存档、用以从视频内容提供者接收视频数据的视频馈送接口和/或用于产生视频数据的计算机图形系统,或此些视频数据源的组合。
视频编码器20可对来自视频源18的视频数据进行编码。在一些实例中,源装置12经由输出接口22将经编码视频数据直接发射到目的地装置14。在其它实例中,经编码视频数据也可存储到存储媒体或文件服务器上用于目的地装置14稍后存取以用于解码和/或重放。
在图1的实例中,目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些实例中,输入接口28包含接收器和/或调制解调器。输入接口28可经由信道16接收经编码视频数据。显示装置32可与目的地装置14集成或可在所述目的地装置的外部。大体上,显示装置32显示经解码视频数据。显示装置32可包括多种显示装置,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
可将视频编码器20和视频解码器30各自实施为多种合适的电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、硬件,或其任何组合。如果所述技术部分地以软件实施,那么装置可将用于所述软件的指令存储在合适的非暂时性计算机可读存储媒体中,且可使用一或多个处理器以硬件执行所述指令以执行本发明的技术。前述内容中的任一者(包含硬件、软件、硬件与软件的组合等等)可视为一或多个处理器。可将视频编码器20和视频解码器30中的每一者包含于一或多个编码器或解码器中,其中任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。
本发明可一般地涉及视频编码器20将某些信息“用信号发送”到另一装置,例如视频解码器30。术语“用信号发送”可一般指代用以对经压缩视频数据进行解码的语法 元素和/或其它数据的通信。此通信可实时或近实时地发生。替代地,此通信可在一时间跨度中发生,例如可能在编码时在经编码位流中将语法元素存储到计算机可读存储媒体时发生,其随后在存储到此媒体之后的任何时间可由解码装置检索。
在一些实例中,视频编码器20和视频解码器30根据视频压缩标准操作,例如ISO/IEC MPEG-4视觉和ITU-T H.264(也称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)扩展、多视图视频译码(MVC)扩展和基于MVC的3DV扩展。在一些实例中,符合基于MVC的3DV的任何位流总是含有顺应于MVC简档(例如,立体高简档)的子位流。此外,一直在努力形成对H.264/AVC的三维视频(3DV)译码扩展,即基于AVC的3DV。在其它实例中,视频编码器20和视频解码器30可根据ITU-TH.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264、ISO/IEC视觉而操作。
在图1的实例中,视频编码器20和视频解码器30可根据当前由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作组(JCT-VC)开发的高效视频译码(HEVC)标准来操作。称为“HEVC工作草案6”的即将到来的HEVC标准的草案在布罗斯(Bross)等人的“高效视频译码(HEVC)文字规范草案6”(ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC),瑞士日内瓦第7次会议,2011年11月)中描述,其在2013年5月30日可从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/8_San%20Jose/wg11/JCTVC-H1003-v1.zip得到。称为“HEVC工作草案10”的即将到来的HEVC标准的另一草案在布罗斯(Bross)等人的“高效视频译码(HEVC)文字规范草案10(用于FDIS和最后呼叫)”(ITU-T SG16 WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC),瑞士日内瓦第12次会议,2013年1月)中描述,其在2013年5月30日可从http://phenix.it-sudparis.eu/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip得到。此外,一直在努力形成用于HEVC的SVC、多视图译码和3DV扩展。HEVC的SVC扩展可称为SHEVC。HEVC的3DV扩展可称为基于HEVC的3DV或3D-HEVC。
在HEVC和其它视频译码标准中,视频序列通常包含一系列图片。图片也可称为“帧”。图片可包含三个样本阵列,表示为SL、SCb和SCr。SL是亮度样本的二维阵列(即,块)。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。色度样本在本文也可称为“色度”样本。在其它实例中,图片可为单色的,且可仅包含亮度样本阵列。
为了产生图片的经编码表示,视频编码器20可产生一组译码树单元(CTU)。CTU中的每一者可为亮度样本的译码树块、色度样本的两个对应译码树块,以及用以对译码 树块的样本进行译码的语法结构。在单色图片或使用三个单独颜色平面译码的图片中,CTU可为样本的译码树块和用以对样本进行译码的语法结构。译码树块可为样本的NxN块。CTU也可称为“树块”或“最大译码单元(LCU)”。HEVC的CTU可广义地类似于例如H.264/AVC等其它视频译码标准的宏块。然而,CTU不一定限于特定大小,且可包含一或多个译码单元(CU)。切片可包含在光栅扫描中连续排序的整数数目个CTU。每一CTU可与包含与CTU相关联的语法元素的译码树语法结构相关联。语法结构可为在位流中以指定次序一起呈现的零或多个语法元素。
为了产生经译码CTU,视频编码器20可对CTU的译码树块递归地执行四叉树分割以将译码树块划分为若干译码块,因此名为“译码树单元”。译码块为样本的NxN块。CU可为具有亮度样本阵列、Cb样本阵列和Cr样本阵列的图片的亮度样本的译码块和色度样本的两个对应译码块,以及用以对译码块的样本进行译码的语法结构。在单色图片或使用三个单独颜色平面译码的图片中,CU可为样本的译码块和用以对样本进行译码的语法结构。更具体来说,视频编码器20可产生CTU的译码树。译码树的内部节点可对应于译码树语法结构,且译码树的叶节点可对应于CU。译码树可表示为囊封额外译码树语法结构或CU的译码树语法结构。
视频编码器20可将CU的译码块分割为一或多个预测块。预测块可为对其应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可为亮度样本的预测块、图片的色度样本的两个对应预测块,以及用以预测预测块样本的语法结构。在单色图片或使用三个单独颜色平面译码的图片中,PU可为样本的预测块和用以预测预测块样本的语法结构。视频编码器20可产生CU的每一PU的预测性亮度、亮度的Cb和Cr块、Cb和Cr预测块。
视频编码器20可使用帧内预测或帧间预测来产生PU的预测性块。如果视频编码器20使用帧内预测来产生PU的预测性块,那么视频编码器20可基于与所述PU相关联的图片的经解码样本来产生所述PU的预测性块。
如果视频编码器20使用帧间预测来产生PU的预测性块,那么视频编码器20可基于除了与所述PU相关联的图片之外的一或多个图片的经解码样本来产生所述PU的预测性块。帧间预测可为单向帧间预测(即,单向预测)或双向帧间预测(即,双向预测)。为了执行单向预测或双向预测,视频编码器20可产生用于当前切片的第一参考图片列表(RefPicList0)和第二参考图片列表(RefPicList1)。参考图片列表中的每一者可包含一或多个参考图片。当使用单向预测时,视频编码器20可搜索RefPicList0和RefPicList1中的任一者或两者中的参考图片以确定参考图片内的参考位置。此外,当使用单向预测时, 视频编码器20可至少部分地基于对应于参考位置的样本来产生PU的预测性块。而且,当使用单向预测时,视频编码器20可产生指示PU的样本块与参考位置之间的空间位移的单个运动向量。为了指示PU的样本块与参考位置之间的空间位移,运动向量可包含指定PU的样本块与参考位置之间的水平位移的水平分量,且可包含指定PU的样本块与参考位置之间的垂直位移的垂直分量。
当使用双向预测来对PU进行编码时,视频编码器20可确定RefPicList0中的参考图片中的第一参考位置和RefPicList1中的参考图片中的第二参考位置。视频编码器20可随后至少部分地基于对应于第一和第二参考位置的样本来产生PU的预测性块。而且,当使用双向预测来对PU进行编码时,视频编码器20可产生指示PU的样本块与第一参考位置之间的空间位移的第一运动向量,和指示PU的所述样本块与第二参考位置之间的空间位移的第二运动向量。
在视频编码器20产生CU的一或多个PU的预测性亮度、Cb和Cr块之后,视频编码器20可产生所述CU的亮度残余块。CU的亮度残余块中的每一样本可指示CU的预测性亮度块中的一者中的亮度样本与CU的原始亮度译码块中的对应样本之间的差。另外,视频编码器20可产生CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中的对应样本之间的差。视频编码器20还可产生CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差。
此外,视频编码器20可使用四叉树分割来将CU的亮度、Cb和Cr残余块分解为一或多个亮度、Cb和Cr变换块。变换块可为对其应用相同变换的样本的矩形块。CU的变换单元(TU)可为亮度样本的变换块、色度样本的两个对应变换块,以及用以对变换块样本进行变换的语法结构。因此,CU的每一TU可与亮度变换块、Cb变换块和Cr变换块相关联。在单色图片或使用三个单独颜色平面译码的图片中,TU可为大小8x8、16x16或32x32的亮度样本的变换块或大小4x4的亮度样本的四个变换块和用以对变换块样本进行变换的语法结构。与TU相关联的亮度变换块可为CU的亮度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。
视频编码器20可将一或多个变换应用于TU的亮度变换块以产生所述TU的亮度系数块。系数块可为变换系数的二维阵列。变换系数可为标量。视频编码器20可将一或多个变换应用于TU的Cb变换块以产生所述TU的Cb系数块。视频编码器20可将一或多个变换应用于TU的Cr变换块以产生所述TU的Cr系数块。
在产生系数块(例如,亮度系数块、Cb系数块或Cr系数块)之后,视频编码器20可量化系数块。量化一般指代其中对变换系数进行量化以可能减少用以表示变换系数的数据量从而提供进一步压缩的过程。此外,视频编码器20可对变换系数进行逆量化,且将逆变换应用于变换系数以便重构图片的CU的TU的变换块。视频编码器20可使用CU的TU的经重构变换块和CU的PU的预测性块来重构CU的译码块。通过重构图片的每一CU的译码块,视频编码器20可重构图片。视频编码器20可将经重构图片存储在经解码图片缓冲器(DPB)中。视频编码器20可使用DPB中的经重构图片用于帧问预测和帧内预测。
在视频编码器20量化系数块之后,视频编码器20可对指示经量化变换系数的语法元素进行熵编码。举例来说,视频编码器20可对指示经量化变换系数的语法元素执行上下文自适应二进制算术译码(CABAC)。视频编码器20可在位流中输出经熵编码语法元素。以此方式,视频编码器20可输出包含语法元素的表示的位流。
视频解码器30可接收位流。另外,视频解码器30可剖析位流以获得语法元素的值。在本发明中,从位流或位流内的语法结构获得语法元素可称为基于位流或语法结构确定语法元素的值。获得语法元素可涉及对位流中表示语法元素的数据进行熵解码。视频解码器30可至少部分地基于从位流获得的语法元素来重构视频数据的图片。用以重构视频数据的过程可一般与由视频编码器20执行的过程互逆。举例来说,视频解码器30可使用PU的运动向量来确定当前CU的PU的预测性块。视频解码器30可使用PU的一或多个运动向量来产生PU的预测性块。
另外,视频解码器30可对与当前CU的TU相关联的变换系数块进行逆量化。视频解码器30可对变换系数块执行逆变换以重构与当前CU的TU相关联的变换块。视频解码器30可通过将当前CU的PU的预测性块的样本加到当前CU的TU的变换块的对应样本来重构当前CU的译码块。换句话说,视频解码器30可重构视频单元(例如,当前CU)的至少一部分的视频数据。通过重构图片的每一CU的译码块,视频解码器30可重构图片。视频解码器30可将经解码图片存储在经解码图片缓冲器中以用于输出和/或用于对其它图片进行解码。
视频编码器20可输出包含语法元素的表示的位流。位流可包含形成经译码图片的表示和相关联数据的位序列。位流可包括网络抽象层(NAL)单元的序列。NAL单元中的每一者包含NAL单元标头,且囊封原始字节序列有效负载(RBSP)。NAL单元标头可包含指示NAL单元类型代码的语法元素(例如,nal_unit_type)。由NAL单元的NAL单元标头指定的NAL单元类型代码指示NAL单元的类型。RBSP可为囊封于NAL单元内的含有整数数目的字节的语法结构。在一些实例中,RBSP包含零个位。
不同类型的NAL单元可囊封不同类型的RBSP。举例来说,第一类型的NAL单元可囊封用于图片参数集(PPS)的RBSP,第二类型的NAL单元可囊封用于经译码切片的RBSP,第三类型的NAL单元可囊封用于补充增强信息(SEI)的RBSP,等等。囊封用于视频译码数据的RBSP(与用于参数集和SEI消息的RBSP相反)的NAL单元可称为视频译码层(VCL)NAL单元。囊封经译码切片的NAL单元在本文可称为经译码切片NAL单元。用于经译码切片的RBSP可包含切片标头和切片数据。
NAL单元的标头可包含层识别符语法元素(例如,nuh_reserved_zero_6bits语法元素)。如果NAL单元涉及多视图译码、3DV译码或可缩放视频译码中的基本层,那么NAL单元的层识别符语法元素等于0。位流的基本层中的数据可在不参考位流的任何其它层中的数据的情况下解码。如果NAL单元不涉及多视图译码、3DV或可缩放视频译码中的基本层,那么层识别符语法元素可具有非零值。具体来说,如果NAL单元不涉及多视图译码、3DV或可缩放视频译码中的基本层,那么NAL单元的层识别符语法元素指定层识别符。
此外,层内的一些图片可在不参考同一层内的特定其它图片的情况下解码。因此,囊封一层的特定图片的数据的NAL单元可从位流移除而不会影响视频解码器30对所述层中的其它图片进行解码的能力。举例来说,具有偶数图片次序计数(POC)值的图片可在不参考具有奇数POC值的图片的情况下解码。移除囊封此些图片的数据的NAL单元可减少位流的帧速率。层内的可在不参考所述层内的其它图片的情况下解码的图片子集在本文可称为子层。POC值是与每一图片相关联的变量。与图片相关联的POC值唯一地识别经译码视频序列中的所有图片当中的相关联图片,且当相关联图片将从经解码图片缓冲器输出时指示相关联图片在输出次序中相对于同一经译码视频序列中将从经解码图片缓冲器输出的其它图片的输出次序位置的位置。
NAL单元可包含时间识别符语法元素(例如,nuh_temporal_id_plus1语法元素)。NAL单元的时间识别符语法元素可指示NAL单元的时间识别符(即,temporal_id)。如果第一NAL单元的时间识别符小于第二NAL单元的时间识别符,那么由第一NAL单元囊封的数据可在不参考由第二NAL单元囊封的数据的情况下解码。
位流的操作点各自与层识别符集合(即,nuh_reserved_zero_6bits值的集合)和时间识别符相关联。层识别符集合可表示为OpLayerIdSet,且时间识别符可表示为TemporalID。如果NAL单元的层识别符在操作点的层识别符集合中且NAL单元的时间识别符小于或等于所述操作点的时间识别符,那么所述NAL单元与所述操作点相关联。操作点表示是与操作点相关联的位流子集(即,子位流)。操作点的操作点表示可包含与所述操作点 相关联的每一NAL单元。操作点表示不包含与所述操作点不相关联的VCLNAL单元。
外部源可指定用于操作点的目标层识别符集合。举例来说,例如媒体认知网络元件(MANE)等中间网络装置可指定目标层识别符集合。在此实例中,中间装置可使用目标层识别符集合来识别操作点。中间装置可随后提取操作点的操作点表示,且将操作点表示而不是原始位流转发到客户端装置。提取操作点表示且将其转发到客户端装置可减少位流的位速率。
当视频编码器20开始对视频数据的当前图片进行编码时,视频编码器20可产生用于当前图片的五个参考图片集合(即,参考图片集)。这五个参考图片集是:RefPicSetStCurrBefore、RefPicSetStCurrAfter、RefPicSetStFoll、RefPicSetLtCurr和RefPicSetLtFoll。RefPicSetStCurrBefore、RefPicSetStCurrAfter、RefPicSetStFoll中的参考图片称为“短期参考图片”或“STRP”。RefPicSetLtCurr和RefPicSetLtFoll中的参考图片称为“长期参考图片”或“LTRP”。在一些实例中,LTRP可在比STRP长的时间周期中保持可用于帧问预测。视频编码器20可针对视频数据的每一图片再产生五个参考图片集。
此外,在当前图片的当前切片为P切片时,视频编码器可使用来自当前图片的RefPicStCurrAfter、RefPicStCurrBefore和RefPicStLtCurr参考图片集的参考图片来产生用于当前切片的单个参考图片列表(RefPicList0)。在当前切片为B切片时,视频编码器20可使用来自当前图片的RefPicStCurrAfter、RefPicStCurrBefore和RefPicStLtCurr参考图片集的参考图片来产生用于当前切片的两个参考图片列表(RefPicList0和RefPicList1)。换句话说,参考图片列表初始化基于三个参考图片集(RPS)子集:RefPicStCurrBefore、RefPicSetStCurrAfter和RefPicSetLtCurr来产生默认列表0和列表1(如果当前切片为B切片)。RefPicStCurrBefore可包含由当前图片使用且在输出次序中早于当前图片发生的STRP。RefPicStCurrAfter可包含由当前图片使用且在输出次序中晚于当前图片发生的STRP。RefPicLtCurr可包含由当前图片使用的LTRP。
当视频编码器20使用帧问预测来产生当前图片的PU的预测性块时,视频编码器20可基于用于当前切片的参考图片列表中的一或多者中的一或多个参考图片内的样本来产生所述PU的预测性块。对于B切片,视频译码器可使用列表0和列表1(即,RefPicList1)用于双向预测(即,具有两个参考图片的帧间预测)。在H.264/AVC中,列表0和列表1也可用于单向预测(即,具有一个参考图片的帧间预测)。具有用于单向预测的单独列表可使得可移除当列表0和列表1用于单向预测(例如,如果同一参考图片出现在列表0和列表1两者中)时可出现的信令开销。
为了构造列表0,视频译码器可在到当前图片的POC距离的升序中将来自RefPicStCurrBefore的参考图片插入到列表0中,随后在到当前图片的POC距离的升序中将来自RefPicStCurrAfter的参考图片插入到列表0中,且随后将来自RefPicStLtCurr的参考图片插入到列表0中。为了构造列表1,视频译码器可在到当前图片的POC距离的升序中将来自RefPicStCurrAfter的参考图片插入到列表1中,随后在到当前图片的POC距离的升序中将来自RefPicStCurrBefore的参考图片插入到列表1中,且随后将来自RefPicStLtCurr的参考图片插入到列表1中。换句话说,具有较早(较晚)输出次序的STRP首先在到当前图片的POC距离的升序中插入到列表0(列表1),随后具有较晚(较早)输出次序的STRP在到当前图片的POC距离的升序中插入到列表0(列表1),且最终LTRP插入在末尾。在RPS方面,对于列表0,RefPicSetStCurrBefore中的条目插入在初始列表中,随后是RefPicSetStCurrAfter中的条目。之后,附加RefPicSetLtCurr中的条目(如果可用)。参考图片到当前图片的POC距离可为参考图片的POC值与当前图片的POC值之间的差。
在HEVC中,视频译码器可在参考图片列表(例如,列表0或列表1)中的条目的数目小于有效参考图片的目标数目时重复上述过程。换句话说,已经添加到参考图片列表的参考图片可再次添加到参考图片列表。有效参考图片的目标数目可在PPS、切片标头或位流中表示的另一语法结构中指示。PPS是可含有应用于零或多个完整经译码图片的语法元素的语法结构。当参考图片列表(例如,列表0或列表1)中的参考图片(即,条目)的数目大于有效参考图片的目标数目时,视频译码器可截断参考图片列表。通过截断参考图片列表,视频译码器可确保参考图片列表中的参考图片的数目不超过有效参考图片的目标数目。
在视频译码器已初始化参考图片列表(例如,列表0或列表1)之后,视频译码器可修改参考图片列表中的参考图片的次序。换句话说,视频译码器可执行参考图片列表修改(RPLM)过程。视频编码器20可在位流中包含RPLM命令。换句话说,位流可包含RPLM命令的表示。RPLM命令可向视频解码器30指示如何修改参考图片列表中的参考图片的次序。因此,视频解码器30可基于RPLM命令修改参考图片列表中的参考图片的次序。视频译码器可以任何次序修改参考图片的次序,包含其中一个特定参考图片可在参考图片列表中的一个以上位置中出现的情况。
在HEVC中,当指示RPLM命令是否存在的语法元素(例如,旗标)设定为1时,位流中包含固定数目的RPLM命令,且每一RPLM命令插入用于参考图片列表的一个条目。在一些实例中,RPLM命令的固定数目等于参考图片列表中的参考图片的目标数目。 RPLM命令可通过从RPS导出的到用于当前图片的参考图片列表的索引来识别参考图片。这不同于H.264/AVC中的RPLM过程。在用于H.264/AVC的RPLM过程中,通过图片编号(从frame_num语法元素导出)或长期参考图片索引来识别图片。此外,在用于H.264/AVC的RPLM过程中,可能比HEVC中需要更少的RPLM命令。举例来说,在H.264/AVC中,RPLM命令可指示交换初始列表的前两个条目或在初始列表的开始处插入一个条目且移位其它条目。
此外,在对HEVC的一些提议中,视频译码器可产生组合参考图片列表(即,列表C)。不同于从RPS构造的列表0和列表1,视频译码器可从最终列表0和列表1构造列表C。也就是说,视频译码器可在将RPLM过程应用于列表0和列表1之后从列表0和列表1构造列表C。如果用于组合列表的修改语法元素(例如,修改旗标)为0,那么视频解码器30可通过隐式机制构造组合列表。否则,如果用于组合列表的修改语法元素为1,那么视频解码器30可至少部分地基于显式地用信号发送的参考图片组合命令来构造组合列表。
在一些情况下,视频编码器20可使用合并模式或高级运动向量预测(AMVP)模式来指示PU的运动信息。PU的运动信息可包含PU的运动向量和PU的参考索引。当视频编码器20使用合并模式指示当前PU的运动信息时,视频编码器20产生合并候选列表。合并候选列表包含一组候选。所述候选可指示空间或时间上相邻于当前PU的PU的运动信息。视频编码器20可随后从候选列表选择候选,且可使用由选定候选指示的运动信息作为当前PU的运动信息。此外,在合并模式中,视频编码器20可指示选定候选在候选列表中的位置。视频解码器30可产生相同候选列表,且可基于选定候选的位置的指示来确定选定候选。视频解码器30可随后使用选定候选的运动信息来产生当前PU的预测性块。换句话说,视频解码器30可至少部分地基于由合并候选列表中的选定候选指示的参考图片样本来产生当前PU的预测性块。
AMVP模式类似于合并模式之处在于,视频编码器20产生候选列表且从候选列表选择候选。然而,当视频编码器20使用AMVP模式指示当前PU的运动信息时,除了在位流中指示候选列表中选定候选的位置外,视频编码器20还可在位流中包含当前PU的运动向量差(MVD)和参考索引。当前PU的MVD可指示当前PU的运动向量与选定候选的运动向量之间的差。在单向预测中,视频编码器20可在位流中指示当前PU的一个MVD和一个参考索引。在双向预测中,视频编码器20可在位流中指示当前PU的两个MVD和两个参考索引。
此外,当使用AMVP模式指示当前PU的运动信息时,视频解码器30可产生相同 候选列表,且可基于选定候选的位置的指示来确定选定候选。视频解码器30可通过将MVD加到选定候选的运动向量来恢复当前PU的运动向量。视频解码器30可随后使用当前PU的经恢复的一或多个运动向量来产生当前PU的预测性块。
基于在时间上相邻于当前PU的PU(即,在与当前PU不同的图片中的PU)的运动信息的合并候选列表或AMVP候选列表中的候选可称为时间运动向量预测符(TMVP)。为了确定TMVP,视频译码器(例如,视频编码器20或视频解码器30)可首先识别包含与当前PU位于同一地点的PU的参考图片。换句话说,视频译码器可识别位于同一地点的图片。如果当前图片的当前切片是B切片,那么可在切片标头中指示语法元素(例如,collocated_from_10_flag)以指示位于同一地点的图片是否来自RefPicList0或RefPicList1。在视频解码器30识别包含位于同一地点的图片的参考图片列表之后,视频解码器30可使用可在切片标头中指示的另一语法元素(例如,collocated_ref_idx)来识别所识别参考图片列表中的图片(即,位于同一地点的图片)。视频解码器30可随后通过检查位于同一地点的图片来识别位于同一地点的PU。TMVP可指示含有位于同一地点的PU的CU的右下方PU的运动信息,或含有此PU的CU的中心PU内的右下方PU的运动信息。换句话说,TMVP可指示在参考图片中且覆盖与当前PU的右下角位于同一地点的位置的PU的运动信息,或TMVP可指示在参考图片中且覆盖与当前PU的中心位于同一地点的位置的PU的运动信息。
当由上述过程识别的运动向量用以产生AMVP或合并模式的候选时,可基于时间位置(由POC值反映)来按比例缩放所述运动向量。举例来说,与在当前图片与参考图片的POC值之间的差较小时相比,视频译码器可在当前图片与参考图片之间的POC值之间的差较大时将运动向量的量值增加较大的量。
PPS是含有应用于零或多个完整经译码图片的语法元素的语法结构。在HEVC工作草案6中,PPS可包含enable_temporal_mvp_flag语法元素。当具有等于0的temporal_id的特定图片参考具有等于0的enable_temporal_mvp_flag的PPS时(即,当与特定图片相关联的VCL NAL单元指定等于0的时间识别符且与具有等于0的enable_temporal_mvp_flag语法元素的PPS相关联时),视频译码器可将DPB中的所有参考图片标记为“未用于时间运动向量预测”,且视频译码器可不使用来自在解码次序中在所述特定图片之前的图片的运动向量作为在所述特定图片或在解码次序中在所述特定图片之后的图片的解码中的TMVP。
在SHEVC中,位流包括基本层和一或多个增强层。基本层可与基本HEVC标准完全兼容。基本层可在不参考增强层中的任一者的情况下解码。然而,增强层的解码可能 需要位流的一或多个较低层的解码。增强层可用以增加经解码视频数据的视觉质量。
SHEVC的一些功能性类似于用于H.264/AVC的SVC扩展的实施方案。用于HEVC的SVC扩展的一些功能性是从H.264/AVC继承。
举例来说,H.264/AVC的SVC扩展基于纹理、残余和运动提供用于空间可缩放性和信噪比(SNR)可缩放性的层问预测。空间可缩放性使得增强层能够增加较低层的分辨率。SVC中的空间可缩放性已经一般化到两个层之间的任何分辨率比率。SNR可缩放性可通过粗糙粒度可缩放性(CGS)或中等粒度可缩放性(MGS)来实现。在SVC中,两个空间层或两个CGS层可属于不同的相依性层(由NAL单元标头中的dependency_id语法元素指示),而两个MGS层可属于同一相依性层。一个相依性层包含具有对应于质量增强层的从0到较高值的quality_id的质量层。在SVC中,可使用层问预测方法来减少层问冗余。
H.264/AVC的SVC扩展支持层问纹理预测。在H.264/AVC的SVC扩展中使用层问纹理预测的译码模式称为“IntraBL”模式。为了实现单循环解码,仅在作为受限帧内模式译码的基本层中具有位于同一地点的MB的宏块(MB)可使用层问纹理预测模式。受限帧内模式MB是在不参考来自经帧问译码的相邻MB的任何样本的情况下译码的经帧内译码MB。
此外,H.264/AVC的SVC扩展支持层问残余预测。如果指示当前MB使用残余预测,那么用于层间预测的基本层中的位于同一地点的MB必须为帧间MB(即,使用帧间预测译码的MB),且可根据空间分辨率比率对位于同一地点的MB的残余进行上取样。大体上,MB的残余是MB的原始版本与MB的预测性块之间的差。对增强层与基本层之间的残余差进行译码。因此,替代于指示当前MB的残余,视频编码器可指示当前MB的残余与位于同一地点的MB的残余之间的差。视频解码器可使用位于同一地点的MB的残余和所指示残余差来确定当前MB的残余。
另外,H.264/AVC的SVC扩展支持层间运动预测。当对增强层中的当前MB或当前MB分区进行译码时,位于同一地点的基本层运动向量(即,与当前MB或当前MB分区位于同一地点的基本层MB的运动向量)可按比例缩放以产生用于当前MB或当前MB分区的运动向量的预测符。另外,存在一个MB类型命令的基本模式,其中编码器为每一MB发送一个旗标。如果此旗标为真且对应基本层MB未使用帧内预测来译码,那么运动向量、分割模式和参考索引全部从基本层导出。
图2是说明多视图译码过程中的实例性解码次序的概念图。多视图译码过程中的解码次序可为位流次序。在图2的实例中,每一正方形对应于一视图分量。正方形的列对 应于存取单元。也就是说,每一列包含特定存取单元的视图。每一存取单元可经界定为含有一时间实例的所有视图的经译码图片。正方形的行对应于视图。也就是说,每一行包含在一系列存取单元上的特定视图的视图注释。在图2的实例中,存取单元标记为T0...T7且视图标记为S0...S7。因为存取单元的每一视图分量是在下一存取单元的任一视图分量之前解码,所以图2的解码次序可称为首先时间译码。如图2的实例中所示,存取单元的解码次序可能不同于视图的输出或显示次序。
在多视图译码中,可存在同一场景的来自不同视点的多个视图。术语“存取单元”用以指代对应于同一时间实例的图片的集合。因此,视频数据可经概念化为随着时间发生的一系列存取单元。“视图分量”可为单个存取单元中的视图的经译码表示。在本发明中,“视图”可指代与同一视图识别符相关联的视图分量的序列。
多视图译码支持视图问预测。视图问预测类似于在H.264/AVC或HEVC中使用的帧问预测,且可使用相同的语法元素。然而,当视频译码器(例如,视频编码器20或视频解码器30)对当前视频单元(例如宏块或预测单元(PU))执行视图问预测时,视频译码器可使用与当前视频单元在同一存取单元中但在不同视图中的图片作为参考图片。相比之下,常规帧问预测仅使用不同存取单元中的图片作为参考图片。
在多视图译码中,如果视频解码器(例如,视频解码器30)可在不参考任一其它视图中的图片的情况下对视图中的图片进行解码,那么所述视图可称为“基本视图”。当对非基本视图中的一者中的当前图片进行译码时,视频译码器(例如,视频编码器20或视频解码器30)可在特定图片与当前图片在不同视图中但在同一时间实例(即,存取单元)内的情况下将所述特定图片添加到参考图片列表中。视图间预测参考图片是与当前图片在不同视图中但在同一存取单元内的参考图片。类似于其它帧问预测参考图片,视频译码器可在参考图片列表的任一位置处插入视图间预测参考图片。
图3是说明用于多视图译码的实例性多视图预测结构的概念图。图3的多视图预测结构包含时间和视图间预测。在图3的实例中,每一正方形对应于一视图分量。标记为“I”的正方形是经帧内预测视图分量。标记为“P”的正方形是经单向帧问预测视图分量。标记为“B”和“b”的正方形是经双向帧间预测视图分量。标记为“b”的正方形可使用标记为“B”的正方形作为参考图片。从第一正方形指向第二正方形的箭头指示第一正方形在帧问预测中可用作第二正方形的参考图片。如图3中的垂直箭头指示,同一存取单元的不同视图中的视图分量可用作参考图片。使用存取单元的一个视图分量作为同一存取单元的另一视图分量的参考图片可称为视图问预测。
在H.264/AVC的MVC扩展中,视图问预测由视差运动补偿支持,其使用H.264/AVC运动补偿的语法,但允许将不同视图中的图片用作参考图片。两个视图的译码也可由H.264/AVC的MVC扩展支持。H.264/AVC的MVC扩展的优点之一在于MVC编码器可取两个以上视图作为3D视频输入且MVC解码器可对此多视图表示进行解码。因此,具有MVC解码器的任何再现器可预期具有两个以上视图的3D视频内容。
3D-HEVC提供同一场景的来自不同视点的多个视图。针对3D-HEVC的标准化努力的部分包含基于HEVC的多视图视频编解码器的标准化。类似地,在基于HEVC的3DV中,启用基于来自不同视图的经重构视图分量的视图问预测。类似于H.264/AVC中的MVC,3D-HEVC支持视图问预测。在3D-HEVC中,视图问预测类似于在标准HEVC中使用的运动补偿,且可利用相同或类似的语法元素。然而,当视频译码器对PU执行视图问预测时,视频译码器可使用与所述PU在同一存取单元中但在不同视图中的图片作为参考图片。相比之下,常规运动补偿仅使用不同存取单元中的图片作为参考图片。
此外,3D-HEVC支持环路内视图合成预测(VSP)。当视频编码器使用VSP时,视频编码器可基于同一存取单元的先前经译码纹理视图分量和深度视图分量来产生VSP图片。而且,视频编码器可如同VSP图片与正编码的当前图片在同一视图内那样产生VSP图片。视频编码器可在用于当前图片的参考图片列表(例如,列表0或列表1)中包含VSP图片。参考图片列表中的图片在同一存取单元中的图片块的帧问预测期间可用作参考图片。
在3D-HEVC和SHEVC中,通过在对CU、PU或其它类型的视频单元进行译码时存取一或多个额外图片可增加译码效率。举例来说,在3D视频译码、可缩放视频译码或多标准视频译码情形中,通过存取可仅含有样本且无运动信息的额外图片(用于帧问预测参考)可增加译码效率。所述一或多个额外图片可在外部产生。换句话说,额外图片可通过外部装置产生。与所述一或多个额外图片相关联的语法元素可不在位流中指示。因此,本发明可将此些额外图片称为“外部图片”。
所述一或多个外部图片可具有与当前正译码的图片(即,当前图片)相同的空间分辨率(例如,以像素计的高度和宽度)。外部图片还具有与当前图片相同的位深度和色度取样格式。在一个替代例中,对于外部图片,每一像素的仅样本值存在。当使用外部图片对CU或PU进行编码时,视频编码器不在位流中指示所述CU或PU的任何运动信息。而是,当使用外部图片对CU或PU进行编码时,所述CU或PU的预测性块可匹配于外部图片的位于同一地点的块,即在外部图片中与在当前图片中将译码的块的位置相同位置处的块。
HEVC基本规范的当前版本不支持此些外部图片的使用。也就是说,在当前HEVC 基本规范中未界定用以存取外部图片的接口。因此,对HEVC基本规范的不同扩展可界定存取额外(即,外部)图片的多种方式。而且,可能需要对译码树单元、CU、PU等等的语法元素做出多个改变以实现外部图片的使用。
根据本发明的技术,视频编码器20可在位流中包含指示视频单元(例如CU或PU)是否是从至少一个外部图片预测的语法元素(例如,旗标)的表示。在本发明中,视频单元(例如CU或PU)在所述视频单元的预测性块是至少部分地基于外部图片而产生时可从所述外部图片预测。为便于阐释,此语法元素在本文可称为“外部图片旗标”。如果位流不包含除了基本层之外的层,那么外部图片旗标可总是指示视频单元不是从任何外部图片预测(例如,外部图片旗标可总是等于0)。虽然本发明将指示视频单元是否是至少部分地基于外部图片产生的语法元素称为“外部图片旗标”,但在一些实例中,所述语法元素可包含1个以上位。
当位流仅包含基本层时,外部图片旗标可总是指示视频单元不是从外部图片预测。举例来说,对于HEVC基本规范顺应性位流,外部图片旗标可总是等于0。HEVC基本规范顺应性位流不包含任何增强层或额外视图。然而,HEVC基本规范(而不是对HEVC基本规范的扩展)可指定当外部图片旗标等于1时将使用的解码过程。也就是说,描述对符合视频译码标准的位流的基本层进行解码的视频译码规范可指定如何对具有指示视频单元是从一或多个外部图片预测的外部图片旗标的视频单元(例如,CU)进行解码。换句话说,位流可包括符合视频译码标准的基本层,所述视频译码标准指定用于从外部图片预测的视频单元的解码过程。此外,HEVC基本规范可指示可存在一或多个外部图片且所述一或多个外部图片是由外部装置产生。所述一或多个外部图片中的每一者可具有与当前图片相同的空间分辨率。因此,外部图片旗标可存在于符合视频译码标准的基本规范的位流和符合所述基本规范的任何扩展的位流中。而且,因为与外部图片旗标相关联的解码过程是在基本规范中指定,所以与外部图片旗标相关联的解码过程可为相同的,无论位流是否符合基本规范的扩展。
虽然在仅包含基本层的位流中指示的CU的外部图片旗标可总是等于0,但在包含多个层的位流(例如,包含用于SVC的增强层或用于3DV中的额外视图的层的位流)中指示的CU的外部图片旗标可等于0或1。也就是说,在包含多个层的位流中指示的CU的外部图片旗标可指示CU是或不是从一或多个外部图片预测。以此方式,本发明的一或多个实例性技术可例如用于基于HEVC兼容基本层或H.264/AVC兼容基本层的HEVC的SVC扩展。此外,本发明的一或多个实例性技术可用于具有HEVC兼容基本层或H.264/AVC兼容基本层的HEVC的多视图视频译码。在其中位流包含对应于不同视图的 多个层的至少一些实例中,外部图片可为VSP图片。换句话说,本发明的技术可在3D视频译码的上下文中以额外图片为VSP图片(即,基于一或多个参考视图的纹理和深度的图片)的方式使用。
在一个实例中,用于切片的切片标头语法结构可包含指示是否至少一个外部图片用以预测所述切片的CU的语法元素(additional_pics_flag)。在此实例中,切片标头语法结构还可包含指示用以预测所述切片的CU的额外图片的数目的语法元素(num_additional_pics_minus1)。此外,如果additional_pics_flag指示至少一个外部图片用以预测切片的CU,那么CU可包含外部图片旗标(add_pred_cu_flag)。
如上文提到,外部图片旗标(add_pred_cu_flag)可指示CU是否是从外部图片预测。在此实例中,如果外部图片旗标指示CU是从外部图片预测,那么可从CU省略各种语法元素。举例来说,如果外部图片旗标指示CU是从外部图片预测,那么可从CU省略跳过旗标、预测模式旗标、分割模式指示符、PU语法结构以及无残余数据旗标。
在一些实例中,可存在多个外部图片。在其中存在多个外部图片的一个实例中,与CU相关联的语法结构可包含指定到外部图片列表内从其预测CU的外部图片的位置的索引的语法元素(add_pic_idx)。在一些实例中,当add_pic_idx语法元素不存在时,视频解码器可推断add_pic_idx语法元素等于0。也就是说,当add_pic_idx语法元素不存在时,视频解码器可推断CU是从外部图片列表中的第一外部图片预测。以此方式,视频编码器20可在与CU相关联的语法结构中产生索引语法元素,其指定到外部图片列表中的外部图片的索引。类似地,视频解码器30可从与CU相关联的语法结构获得索引语法元素,其指定到外部图片列表中的外部图片的索引。
在其它实例中,视频编码器20可在译码树语法结构或PU中包含add_pred_cu_flag语法元素。译码树语法结构中包含的add_pred_cu_flag语法元素可指示个别CU或多个CU是否是从外部图片预测。PU中包含的add_pred_cu_flag语法元素可指示PU是否是从外部图片预测。
当多个额外图片可用(表示为AddtPic)时,额外图片可经识别为用于给定CU的AddtPic[add_pic_idx]。当存在仅一个额外图片时,所述额外图片(即,外部图片)直接表示为AddtPic。在一些实例中,仅当add_pred_cu_flag等于1时执行以下操作。假定纹理图片(TexturePic)当存在仅一个参考时等于AddtPic且当存在多个额外图片时等于AddtPic[add_pic_idx]。对于每一颜色分量,与当前CU位于同一地点的块经复制为用于所述当前CU的预测符。视频编码器20可进一步指示当前CU的残余数据,其中add_pred_cu_flag语法元素等于1。
本发明的技术也可应用于多标准视频编解码器。在多标准视频编解码器中,第一视频译码标准用以对位流的基本层进行译码,且第二视频译码标准用以对同一位流的一或多个额外层进行译码。换句话说,视频数据位流可包括基本层和一或多个额外层,其中基本层符合第一视频译码标准且额外层符合第二不同视频译码标准。所述一或多个额外层可包括一或多个增强层或包括一或多个视图。举例来说,H.264/AVC可用以对位流的基本层/视图进行译码,且3D-HEVC或SHEVC可用以对同一位流的增强层或非基本视图进行译码。在一些此类实例中,可在第一或第二视频译码标准中指定外部图片旗标。
图4是说明可实施本发明的技术的实例性视频编码器20的框图。图4是为了阐释的目的提供,且不应视为对本发明中广泛例示且描述的技术的限制。为了阐释的目的,本发明在HEVC译码的上下文中描述视频编码器20。然而,本发明的技术可适用于其它译码标准或方法。
在图4的实例中,视频编码器20包含预测处理单元100、残余产生单元102、变换处理单元104、量化单元106、逆量化单元108、逆变换处理单元110、重构单元112、滤波器单元114、经解码图片缓冲器116,和熵编码单元118。预测处理单元100包含帧间预测处理单元120和帧内预测处理单元126。帧间预测处理单元120包含运动估计单元122和运动补偿单元124。在其它实例中,视频编码器20可包含更多、更少或不同的功能组件。
视频编码器20可接收视频数据。视频编码器20可对视频数据的图片的切片中的每一CTU进行编码。图片的CTU可与图片的相等大小的亮度译码树块(CTB)和对应色度CTB相关联。作为对CTU进行编码的部分,预测处理单元100可执行四叉树分割以将CTU的CTB划分为逐渐变小的块。所述较小的块可为CU的译码块。举例来说,预测处理单元100可将与CTU相关联的CTB分割为四个相等大小的子块,将所述子块中的一或多者分割为四个相等大小的子子块,等等。
视频编码器20可对CTU的CU进行编码以产生CU的经编码表示(即,经译码CU)。作为对CU进行编码的部分,预测处理单元100可在CU的一或多个PU当中对与CU相关联的译码块进行分割。因此,每一PU可与亮度预测块和对应色度预测块相关联。视频编码器20和视频解码器30可支持具有各种大小的PU。如上文指示,CU的大小可涉及CU的亮度译码块的大小,且PU的大小可涉及PU的亮度预测块的大小。假定特定CU的大小为2Nx2N,视频编码器20和视频解码器30可支持用于帧内预测的2Nx2N或NxN的PU大小,以及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似的对称PU大小。视频编码器20和视频解码器30还可支持用于帧间预测的2NxnU、2NxnD、 nLx2N和nRx2N的PU大小的不对称分割。
帧间预测处理单元120可通过对CU的每一PU执行帧问预测来产生PU的预测性数据。PU的预测性数据可包含PU的预测性块和PU的运动信息。帧问预测处理单元120可取决于CU的PU是在I切片、P切片还是B切片中来执行针对所述PU的不同操作。在I切片中,所有PU经帧内预测。因此,如果PU在I切片中,那么帧问预测处理单元120不对PU执行帧问预测。
如果PU在P切片中,那么运动估计单元122可搜索参考图片列表(例如,“RefPicList0”)中的参考图片是否存在用于PU的参考区。用于PU的参考区可为参考图片内含有最接近地对应于PU的样本块的样本块的区。运动估计单元122可产生指示参考图片的RefPicList0中含有用于PU的参考区的位置的参考索引。另外,运动估计单元122可产生指示PU的译码块与同参考区相关联的参考位置之间的空间位移的运动向量。举例来说,运动向量可为提供从当前经解码图片中的坐标到参考图片中的坐标的偏移的二维向量。运动估计单元122可输出参考索引和运动向量作为PU的运动信息。运动补偿单元124可基于由PU的运动向量指示的参考位置处的实际或经内插样本来产生PU的预测性块。
如果PU在B切片中,那么运动估计单元122可执行PU的单向预测或双向预测。为了执行PU的单向预测,运动估计单元122可搜索RefPicList0或第二参考图片列表(“RefPicList1”)的参考图片是否存在用于PU的参考区。运动估计单元122可输出指示参考图片的RefPicList0或RefPicList1中含有参考区的位置的参考索引、指示PU的样本块与同参考区相关联的参考位置之间的空间位移的运动向量,以及指示参考图片是否在RefPicList0或RefPicList1中的一或多个预测方向指示符,作为PU的运动信息。运动补偿单元124可至少部分地基于由PU的运动向量指示的参考区处的实际或经内插样本来产生PU的预测性块。
为了执行PU的双向帧间预测,运动估计单元122可搜索RefPicList0中的参考图片是否存在用于PU的参考区,且还可搜索RefPicList1中的参考图片是否存在用于PU的另一参考区。运动估计单元122可产生指示参考图片的RefPicList0和RefPicList1中含有参考区的位置的参考索引。另外,运动估计单元122可产生指示与参考区相关联的参考位置与PU的样本块之间的空间位移的运动向量。PU的运动信息可包含PU的参考索引和运动向量。运动补偿单元124可至少部分地基于由PU的运动向量指示的参考区处的实际或经内插样本来产生PU的预测性块。
帧内预测处理单元126可通过对PU执行帧内预测来产生PU的预测性数据。PU的 预测性数据可包含PU的预测性块和各种语法元素。帧内预测处理单元126可对I切片、P切片和B切片中的PU执行帧内预测。
为了对PU执行帧内预测,帧内预测处理单元126可使用多个帧内预测模式来产生PU的预测性数据的多个集合。相邻PU可在PU的上方、右上方、左上方或左边,假定PU、CU和CTU的从左到右、从上到下编码次序。帧内预测处理单元126可使用各种数目的帧内预测模式,例如33个方向性帧内预测模式。在一些实例中,帧内预测模式的数目可取决于与PU相关联的区的大小。
预测处理单元100可从由帧问预测处理单元120为PU产生的预测性数据或由帧内预测处理单元126为PU产生的预测性数据当中选择CU的PU的预测性数据。在一些实例中,预测处理单元100基于预测性数据集合的速率/失真量度来选择CU的PU的预测性数据。选定预测性数据的预测性块在本文可称为选定预测性块。
残余产生单元102可基于CU的亮度、Cb和Cr译码块以及CU的PU的选定预测性亮度、Cb和Cr块来产生CU的亮度、Cb和Cr残余块。举例来说,残余产生单元102可产生CU的残余块以使得残余块中的每一样本具有等于CU的译码块中的样本与CU的PU的对应选定预测性块中的对应样本之间的差的值。
变换处理单元104可执行四叉树分割以将与CU相关联的残余块分割为与CU的TU相关联的变换块。因此,TU可与亮度变换块和两个色度变换块相关联。CU的TU的亮度和色度变换块的大小和位置可或可不基于CU的PU的预测块的大小和位置。称为“残余四叉树”(RQT)的四叉树结构可包含与区中的每一者相关联的节点。CU的TU可对应于RQT的叶节点。在本发明中,RQT也可称为“变换树”。
变换处理单元104可通过将一或多个变换应用于TU的变换块来产生CU的每一TU的变换系数块。变换处理单元104可将各种变换应用于与TU相关联的变换块。举例来说,变换处理单元104可将离散余弦变换(DCT)、方向性变换或概念上类似的变换应用于变换块。在一些实例中,变换处理单元104不将变换应用于变换块。在此些实例中,变换块可作为变换系数块来处理。
量化单元106可对系数块中的变换系数进行量化。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,n位变换系数可在量化期间下舍入到m位变换系数,其中n大于m。量化单元106可基于与CU相关联的量化参数(QP)值对与CU的TU相关联的系数块进行量化。视频编码器20可通过调整与CU相关联的QP值来调整应用于与CU相关联的系数块的量化程度。量化可引入信息损失,因此经量化变换系数可具有比原始变换系数低的精度。
逆量化单元108和逆变换处理单元110可分别将逆量化和逆变换应用于系数块,以从系数块重构残余块。重构单元112可将经重构残余块加到来自由预测处理单元100产生的一或多个预测性块的对应样本以产生与TU相关联的经重构变换块。通过以此方式重构CU的每一TU的变换块,视频编码器20可重构CU的译码块。
滤波器单元114可执行一或多个解块操作以减少与CU相关联的译码块中的成块假象。经解码图片缓冲器116可在滤波器单元114对经重构译码块执行一或多个解块操作之后存储经重构译码块。帧问预测单元120可使用含有经重构译码块的参考图片来对其它图片的PU执行帧问预测。另外,帧内预测处理单元126可使用经解码图片缓冲器116中的经重构译码块来对与CU在同一图片中的其它PU执行帧内预测。
熵编码单元118可从视频编码器20的其它功能组件接收数据。举例来说,熵编码单元118可从量化单元106接收系数块且可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作以产生经熵编码数据。举例来说,熵编码单元118可对数据执行上下文自适应可变长度译码(CAVLC)操作、CABAC操作、可变到可变(V2V)长度译码操作、基于语法的上下文自适应二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作、指数哥伦布编码操作,或另一类型的熵编码操作。视频编码器20可输出包含语法元素的表示的位流,例如由熵编码单元118产生的经熵编码数据。
根据本发明的一或多个实例性技术,视频编码器20可在位流中包含指示视频单元(例如CU或PU)是否是从至少一个外部图片预测的语法元素(例如,外部图片旗标)的表示。在一些实例中,视频编码器20可产生当前切片的切片标头。切片标头可包含指示当前切片的任一CU是否是从一或多个外部图片预测的语法元素。此外,切片标头可包含指示多少外部图片用以预测当前切片的CU的语法元素。以下表1展示用于切片标头的实例性语法。表1的斜体部分指示HEVC工作草案6的切片标头语法中不包含的元素。
表1-切片标头语法
在以上表1的实例性语法和本发明的其它语法表中,具有类型描述符ue(v)的语法元素可为以首先左边位使用0阶指数哥伦布(Exp-Golomb)编码的可变长度无符号整数。在表1和以下表的实例中,具有形式u(n)(其中n为非负整数)的描述符的语法元素为具有长度n的无符号值。具有形式se(v)的描述符的语法元素为首先左边位的有符号整数经指数哥伦布译码语法系统。具有形式ae(v)的描述符的语法元素为经CABAC译码语法元素。
此外,在表1的实例性语法中,切片标头可包含additional_pics_flag语法元素。等于1的additional_pics_flag语法元素指示使用至少一个额外(即,外部)图片来预测当前切片的CU。额外图片不同于当前切片的任一参考图片列表中的任何图片。等于0的additional_pics_flag语法元素指示未使用额外(即,外部)图片来预测当前切片的CU。
因此,视频编码器20可产生切片的切片标头语法结构。切片标头语法结构可包含指示切片的任何CU是否是从任一外部图片预测的语法元素(例如,additional_pics_flag)。类似地,视频解码器30可从位流解码切片的切片标头语法结构。如前,切片标头语法结构可包含指示切片的任何CU是否是从任一外部图片预测的语法元素。
在HEVC基本规范中,additional_pics_flag语法元素可总是等于0。在其它实例中,additional_pics_flag语法元素在HEVC基本规范中不存在。此外,在再其它实例中,additional_pics_flag语法元素的存在可取决于额外信令。额外信令可在SPS、PPS、视频参数集(VPS)或在位流中用信号发送的另一语法结构中。VPS是可含有应用于零或多个完整经译码视频序列的语法元素的语法结构。SPS是可含有应用于零或多个完整经译码视频序列的语法元素的语法结构。经译码视频序列是存取单元序列,其在解码次序中由瞬时解码刷新(IDR)存取单元之后是零或多个非IDR存取单元组成,所述零或多个非IDR存取单元包含所有后续存取单元直到(但不包含)任何后续IDR存取单元为止。
在表1的实例性语法中,切片标头可包含hum_additional_pics_minus1语法元素。在一些实例中,num_additional_pics_minus1加1指定用以预测当前切片的CU的额外图片的数目。因此,视频编码器20可在切片的切片标头语法结构中产生指示用以预测切片的CU的外部图片的数目的语法元素。类似地,视频解码器30可从切片的切片标头语法 结构获得指示用以预测切片的CU的外部图片的数目的语法元素。在替代实例中,不包含num_additional_pics_minus1语法元素,且其总是经推导为等于0。
在另一替代实例中,在VPS、SPS、PPS或调适参数集(APS)中包含additional_pics_enabled_flag语法元素以指示参考此参数集的切片是否使用额外图片用于预测。APS可为适用于图片的参数集。APS中的语法元素的值可比PPS中的参数更可能改变。因此,视频编码器20可在参数集中产生指示参考所述参数集的切片的任一CU是否是从任一外部图片预测的语法元素(例如,additional_pics_enabled_flag)。类似地,视频解码器30可从参数集获得指示参考所述参数集的切片的任一CU是否是从任一外部图片预测的语法元素(例如,additional_pics_enabled_flag)。
在另一替代实例中,在VPS、SPS、PPS或APS中包含num_additional_pics_enabled_minus1语法元素加1以指示可由参考此参数集的切片使用的额外图片的最大数目。因此,视频编码器20可在参数集中产生指示可由参考所述参数集的切片使用的外部图片的最大数目的语法元素(例如,num_additional_pics_enabled_minus1)。类似地,视频解码器30可从参数集获得指示可由参考所述参数集的切片使用的额外图片的最大数目的语法元素(例如,num_additional_pics_enabled_minus1)。在各种实例中,参数集可为VPS、SPS、PPS或APS中的一者。
此外,视频编码器20可产生与CU相关联的语法结构。根据本发明的一或多个实例性技术,与CU相关联的语法结构可符合以下表2中所示的实例性语法。表2的斜体部分指示HEVC工作草案6中所示的与CU相关联的语法结构的语法中不包含的元素。
表2-译码单元语法
在表2的实例性语法中,CU可包含add_pred_cu_nag[x0][y0]语法元素。值x0和y0指示当前图片内与CU相关联的位置。等于1的add_pred_cu_flag[x0][y0]语法元素指定对于当前CU,当对I、P或B切片进行解码时,不存在与运动向量预测和帧内预测相关的语法元素。也就是说,如果add_pred_cu_flag[x0][y0]语法元素等于1,那么视频编码器20不在位流中指示当前CU的PU的运动信息。等于0的add_pred_cu_flag[x0][y0]语法元素指定在与当前CU相关联的语法结构中存在运动向量预测和/或帧内预测语法元素。当add_pred_cu_flag[x0][y0]语法元素等于1时,整个CU可从额外(即,外部)图片预测,其中在用于当前CU的变换树中包含可能的残余数据。当add_pred_cu_flag[x0][y0]语法元素不存在时,视频解码器30可推断add_pred_cu_flag[x0][y0]语法元素的值等于0。
因此,视频编码器20可在与CU相关联的语法结构中产生指示CU是否是从外部图片预测的外部图片旗标(例如,add_pred_cu_flag[x0][y0])。类似地,视频解码器30可从与CU相关联的语法结构解码指示CU是否是从外部图片预测的外部图片旗标(例如,add_pred_cu_flag[x0][y0])。而且,当CU不是从外部图片预测时,视频编码器20可在与CU相关联的语法结构中产生与CU的PU相关联的语法结构(例如,prediction_unit语法结构)。然而,当CU是从外部图片预测时,视频编码器20可避免在与CU相关联的语法结构中产生CU的任一PU的语法结构。类似地,响应于确定外部图片旗标(例如,add_pred_cu_flag[x0][y0])指示CU不是从外部图片预测,视频解码器30可从与CU相关联的语法结构获得与CU的PU相关联的语法结构。然而,响应于确定外部图片旗标(例如,add_pred_cu_flag[x0][y0])指示CU是从外部图片预测,视频解码器30可避免从与CU相关联的语法结构获得CU的任一PU的语法结构。
如果CU的变换树包含等于1的add_pred_cu_flag[x0][y0]语法元素,那么视频解码器30可如同CU是在2Nx2N分割模式中译码的帧问CU那样处理CU。在一些实例中,HEVC基本规范可指定add_pred_cu_flag[x0][y0]语法元素从不存在于CU中。在其它实例中,HEVC基本规范可指定add_pred_cu_flag[x0][y0]语法元素总是存在于CU中,但add_pred_cu_flag[x0][y0]语法元素的值总是等于0。
另外,当CU的add_pred_cu_flag[x0][y0]语法元素等于1时,CU可视为不可用于运动向量预测。举例来说,在当前CU的add_pred_cu_flag[x0][y0]语法元素等于1时,视频解码器30不在合并候选列表或AMVP候选列表中产生指定当前CU的运动信息的候选。
在表2的实例性语法中,只有additional_pics_flag变量等于1,与CU相关联的语法结构才可包含add_pred_cu_flag[x0][y0]语法元素。视频解码器30可基于与CU相关联的切片标头中的additional_pics_flag语法元素来设定additional_pics_flag变量的值。在替 代实例中,视频编码器20可总是在与CU相关联的语法结构中包含add_pred_cu_flag[x0][y0]语法元素,无论additional_pics_flag变量的值如何。
替代地,add_pred_cu_flag[x0][y0]语法元素可在与CU相关联的语法结构中存在于与CU相关联的语法结构中的skip_flag语法元素之后。在一个替代实例中,无论与CU相关联的语法结构中的skip_flag语法元素的值如何,add_pred_cu_flag[x0][y0]语法元素均存在于与CU相关联的语法结构中,且当add_pred_cu_flag[x0][y0]语法元素和skip_flag语法元素两者均等于1时,当前CU是从额外图片预测而无任何残余。在一个替代解决方案中,仅当CU的skip_flag语法元素等于0时add_pred_cu_flag[x0][y0]语法元素才存在于与CU相关联的语法结构中。在此实例中,等于1的skip_flag语法元素暗示CU不是从额外图片预测。
此外,在表2的实例中,当add_pred_cu_flag[x0][y0]语法元素等于1时,CU可包含no_residual_data_flag语法元素。等于1的no_residual_data_flag语法元素可指定没有残余数据存在于当前CU的语法结构中。等于0的no_residual_data_flag语法元素可指定残余数据存在于当前CU的语法结构中。因此,在表2的实例中,在当前CU是从外部图片预测时,视频编码器20可在与当前CU相关联的语法结构中产生指示残余数据是否存在于与当前CU相关联的语法结构中的残余数据语法元素(例如,no_residual_data_flag)。类似地,响应于确定外部图片旗标(例如,add_pred_cu_flag[x0][y0])指示CU是从外部图片预测,视频解码器30可从与CU相关联的语法结构获得指示残余数据是否存在于与CU相关联的语法结构中的残余数据语法元素(例如,no_residual_data_flag)。
以下表3展示与CU相关联的语法结构的替代语法的实例性部分。表3中未展示的与CU相关联的语法结构的语法的部分可与表2中展示的语法相同。表3的斜体部分指示HEVC工作草案6中描述的与CU相关联的语法结构的语法中不包含的元素。表3的粗斜体部分指示表2中展示的与CU相关联的语法结构的语法中不包含的元素。
表3-译码单元语法
在表3的实例性语法中,与当前CU相关联的语法结构可包含add_pic_idx[x0][y0]语法元素。如前,x0和y0指示与当前CU相关联的图片内的当前CU的位置。add_pic_idx[x0][y0]语法元素指定到额外图片列表中从其预测当前CU的额外(即,外部)图片的索引。当add_pic_idx[x0][y0]语法元素不存在于与当前CU相关联的语法结构中时,视频解码器30可推断add_pic_idx[x0][y0]语法元素等于0。
在替代实例中,视频编码器20可在译码树或PU中包含类似于上述add_pred_cu_flag语法元素的外部图片旗标。当可为译码树的第一语法元素的外部图片旗标具有等于1的值时,译码树可经分割为具有最大CU大小的CU且每一LCU的add_pred_cu_flag语法元素等于1。因此,视频编码器20可在译码树中产生指示视频单元是否是从外部图片预测的语法元素,其中所述视频单元是具有最大译码单元大小的CU。类似地,视频解码器30可从译码树获得指示视频单元是否是从外部图片预测的语法元素,其中所述视频单元是具有最大译码单元大小的译码单元。
在一些实例中,HEVC基本规范(或其它基本视频译码规范)可指定外部图片旗标总是设定为0。在其它实例中,HEVC基本规范(或其它基本视频译码规范)可指定外部图片旗标从不存在。在其它实例中,HEVC基本规范(或其它基本视频译码规范)可指定外部图片旗标总是存在但总是具有等于0的值。
prediction_unit语法结构是含有与PU相关联的语法元素的语法结构。如果PU是使用帧内预测来译码,那么与所述PU相关联的prediction_unit语法结构包含与帧内预测相关联的语法元素集合。与帧内预测相关联的语法元素集合在本文可称为prediction_unit语法结构的帧内模式分支或PU的帧内模式分支。类似地,如果PU是使用帧问预测来编码,那么prediction_unit语法结构包含与帧问预测相关联的语法元素集合。与帧问预测相关联的语法元素集合在本文可称为prediction_unit语法结构的帧问模式分支或PU的帧问模式分支。与帧问预测相关联的实例性语法元素可包含:merge_flag语法元素,其指示PU的运动信息是否是使用合并模式或AMVP模式指示;inter_pred_flag语法元素,其指定使用单向预测还是双向预测;指示合并或AMVP候选列表中的选定候选的语法元素;以及指示MVD的语法元素。
在其中视频编码器20在与当前CU的PU相关联的语法结构中包含外部图片旗标的一些实例中,视频编码器20可包含语法元素作为PU的prediction_unit语法结构的帧问模式分支中的第一语法元素。在此实例中,当外部图片旗标指示当前CU是从外部图片预测时,当前CU可作为帧问预测模式CU来处理。以此方式,视频编码器20可在PU的帧问模式分支中产生指示PU是否是从外部图片预测的外部图片旗标。类似地,视频 解码器30可从PU的帧问模式分支获得指示PU是否是从外部图片预测的外部图片旗标。
在替代实例中,视频编码器20可在用于PU的给定参考图片列表的prediction_unit语法的帧问模式分支中包含外部图片旗标。当视频编码器20在位流中包含用于给定参考图片列表(例如,用于RefPicListX)的外部图片旗标时,从RefPicListX的预测可由从额外(即,外部)图片的预测代替。如上文指示,prediction_unit语法结构包含帧问模式分支,其包含与帧问预测相关联的语法元素。prediction_unit语法结构的帧问模式分支包含与列表0相关联的语法元素集合和与列表1相关联的另一语法元素集合。本发明可将与列表0相关联的语法元素集合称为用于列表0的帧问模式分支,且可将与列表1相关联的语法元素集合称为用于列表1的帧问模式分支。与参考图片列表相关联的实例性语法元素可包含指示合并候选列表或AMVP候选列表中的候选的索引的语法元素、与MVD相关联的语法元素等等。
在此实例中,当视频编码器20在用于特定参考图片列表的帧问模式分支中包含外部图片旗标且外部图片旗标指示CU是从外部图片预测时,视频编码器20不产生且视频解码器30不获得与prediction_unit语法结构中的特定参考图片列表相关联的任何额外语法元素。然而,如果PU在B切片中,那么视频编码器20和产生且视频解码器30可获得与prediction_unit语法结构中的另一参考图片列表相关联的语法元素。举例来说,视频编码器20可产生且视频解码器30可获得用于列表0的帧间模式分支中的外部图片旗标(即,用于列表0的外部图片旗标)和用于列表1的帧间模式分支中的外部图片旗标(即,用于列表1的外部图片旗标)。在此实例中,用于列表0的外部图片旗标可指示外部图片用作PU的参考图片,且用于列表1的外部图片旗标可指示列表1中的参考图片用作PU的参考图片。此外,在此实例中,视频解码器30可基于外部图片的位于同一地点的块和列表1中的参考图片的块来产生PU的预测性块。可提供类似实例,其中以列表1替代列表0且以列表0替代列表1。
以此方式,与PU相关联的语法结构可包含用于特定参考图片列表的帧间模式分支。视频编码器20可在用于特定参考图片列表的帧间模式分支中产生指示PU是否是从外部图片预测的外部图片旗标。类似地,视频解码器30可从用于特定参考图片列表的帧间模式分支获得指示PU是否是从外部图片预测的外部图片旗标。而且,在一些实例中,外部图片语法元素是第一外部图片旗标,所述第一外部图片旗标指示PU的第一参考块是否是从外部图片或第一参考图片列表中的参考图片导出,且与PU相关联的语法结构包含用于第二参考图片列表的帧间模式分支。此外,在此些实例中,视频编码器20可在用于第二参考图片列表的帧间模式分支中产生第二外部图片旗标。第二外部图片旗标 可指示PU的第二参考块是否是从外部图片或第二参考图片列表中的参考图片导出。视频编码器20可至少部分地基于第一参考块和第二参考块来产生PU的预测性块。类似地,视频解码器30可从用于第二参考图片列表的帧间模式分支获得第二外部图片旗标。视频解码器30可至少部分地基于第一参考块和第二参考块来产生PU的预测性块。
在另一替代实例中,外部图片旗标是CU的PU的prediction_unit语法结构的帧内模式分支内的第一语法元素。在此实例中,当外部图片旗标指示CU是从外部图片预测时,视频解码器30可作为帧内预测模式CU来处理CU,其中帧内预测意味着仅存在从当前存取单元内的预测,但从处于不同层但在同一存取单元中的另一图片的预测是可能的。在此实例中,当外部图片旗标指示CU是从外部图片预测时,视频编码器20不产生且视频解码器30不获得与prediction_unit语法结构中的帧内预测相关联的任何额外语法元素。与帧内预测相关联的实例性语法元素可包含prev_intra_luma_pred_flag语法元素、mpm_idx语法元素和rem_intra_luma_pred_mode语法元素,其指定用于与PU相关联的亮度样本的帧内预测模式。另外,与帧内预测相关联的语法元素可包含指示用于与PU相关联的色度样本的帧内预测模式的intra_chroma_pred_mode语法元素。
图5是说明经配置以实施本发明的技术的实例性视频解码器30的框图。图5是为了阐释的目的提供,且不是对本发明中广泛例示且描述的技术的限制。为了阐释的目的,本发明在HEVC译码的上下文中描述视频解码器30。然而,本发明的技术可适用于其它译码标准或方法。
在图5的实例中,视频解码器30包含熵解码单元150、预测处理单元152、逆量化单元154、逆变换处理单元156、重构单元158、滤波器单元160以及经解码图片缓冲器162。预测处理单元152包含运动补偿单元164和帧内预测处理单元166。在其它实例中,视频解码器30可包含更多、更少或不同的功能组件。
熵解码单元150可接收NAL单元,且可剖析NAL单元以从位流获得语法元素。熵解码单元150可对NAL单元中的经熵编码语法元素进行熵解码。预测处理单元152、逆量化单元154、逆变换处理单元156、重构单元158和滤波器单元160可基于从位流获得的语法元素来产生经解码视频数据。举例来说,熵解码单元150可从位流获得指示当前图片的视频单元(例如,CU或PU)是否是从处于与当前图片不同的层中的外部图片预测的外部图片旗标。位流可或可不包含外部图片的经译码表示。
位流的NAL单元可包含经译码切片NAL单元。作为对位流进行解码的部分,熵解码单元150可从经译码切片NAL单元获得语法元素。经译码切片中的每一者可包含切片标头和切片数据。切片标头可含有关于切片的语法元素。切片标头中的语法元素可包 含识别与含有切片的图片相关联的PPS的语法元素。
视频解码器30可使用从位流解码的语法元素来执行重构视频单元。举例来说,视频解码器30可在重构视频单元的视频数据(例如,样本块)的过程中使用外部图片旗标。为了对CU执行重构操作,视频解码器30可对CU的每一TU执行重构操作。通过对CU的每一TU执行重构操作,视频解码器30可重构CU的残余块。
作为对CU的TU执行重构操作的部分,逆量化单元154可对与TU相关联的系数块进行逆量化(即,解量化)。逆量化单元154可使用与TU的CU相关联的QP值来确定逆量化单元154将应用的量化程度且同样确定逆量化程度。也就是说,可通过调整在量化变换系数时使用的QP的值来控制压缩比,即用以表示原始序列的位的数目与经压缩序列的比率。压缩比也可取决于所采用的熵译码的方法。
在逆量化单元154逆量化系数块之后,逆变换处理单元156可将一或多个逆变换应用于系数块以便产生与TU相关联的残余块。举例来说,逆变换处理单元156可将逆DCT、逆整数变换、逆卡忽南-拉维变换(KLT)、逆旋转变换、逆方向性变换或另一逆变换应用于系数块。
如果PU是使用帧内预测来编码,那么帧内预测处理单元166可执行帧内预测以产生PU的预测性块。帧内预测处理单元166可使用帧内预测模式基于空间相邻PU的预测块来产生PU的预测性亮度、Cb和Cr块。帧内预测处理单元166可基于从位流获得的一或多个语法元素确定用于PU的帧内预测模式。
预测处理单元152可基于从位流获得的语法元素构造第一参考图片列表(RefPicList0)和第二参考图片列表(RefPicList1)。此外,如果PU是使用帧间预测来编码,那么熵解码单元150可解码PU的运动信息。运动补偿单元164可基于PU的运动信息确定PU的一或多个参考区。运动补偿单元164可基于PU的一或多个参考块处的样本块来产生PU的预测性亮度、Cb和Cr块。
重构单元158可在适用时使用与CU的TU相关联的亮度、Cb和Cr变换块以及CU的PU的预测性亮度、Cb和Cr块(即,帧内预测数据或帧间预测数据)来重构CU的亮度、Cb和Cr译码块。举例来说,重构单元158可将亮度、Cb和Cr变换块的样本加到预测性亮度、Cb和Cr块的对应样本来重构CU的亮度、Cb和Cr译码块。
滤波器单元160可执行解块操作以减少与CU的亮度、Cb和Cr译码块相关联的成块假象。视频解码器30可将CU的亮度、Cb和Cr译码块存储在经解码图片缓冲器162中。经解码图片缓冲器162可提供参考图片以用于后续运动补偿、帧内预测和在显示装置(例如图1的显示装置32)上的呈现。举例来说,视频解码器30可基于经解码图片缓 冲器162中的亮度、Cb和Cr块对其它CU的PU执行帧内预测或帧间预测操作。
图6是说明根据本发明的一或多个技术的视频编码器20的实例性操作200的流程图。在图6的实例中,视频编码器20可产生指示当前图片的视频单元是否是从处于与当前图片不同的层中的外部图片预测的语法元素(202)。此外,视频编码器20可输出视频数据位流,所述视频数据位流包含语法元素的表示(204)。视频数据位流可或可不包含外部图片的经译码表示。
图7是说明根据本发明的一或多个技术的视频解码器250的实例性操作250的流程图。在图7的实例中,视频解码器30可从视频数据位流获得指示视频单元是否是从处于与当前图片不同的层中的外部图片预测的语法元素(252)。视频数据位流可或可不包含外部图片的经译码表示。另外,视频解码器30可在重构视频单元的至少一部分的视频数据的过程中使用所述语法元素(254)。举例来说,作为执行重构视频单元的所述部分的视频数据的过程的部分,视频解码器30可确定语法元素是否指示视频单元是从外部图片预测。在此实例中,如果视频解码器30确定语法元素指示视频单元是从外部图片预测,那么视频解码器30可使用外部图片中的样本集合(例如,与同视频单元相关联的样本块位于同一地点的样本集合)来产生视频单元的预测性块。此外,在此实例中,视频解码器30可至少部分地基于视频单元的预测性块和视频单元的残余块来产生视频单元的经重构样本块。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任一组合实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体等有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
举例来说且并非限制,计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它 远程源发射指令,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。然而应了解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它瞬态媒体,而替代地针对非瞬态有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文使用的术语“处理器”可指代前述结构或适于实施本文所述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。而是如上文所述,各种单元可组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所述的一或多个处理器)的集合结合合适的软件和/或固件来提供。
已描述各种实例。这些和其它实例在所附权利要求书的范围内。
Claims (22)
1.一种对视频数据进行解码的方法,所述方法包括:
从包括在视频数据位流中的当前图片的译码单元CU的预测单元PU的帧内模式分支获得第一语法元素,所述帧内模式分支用于第一参考图片列表,所述第一参考图片列表不包括处于与所述当前图片不同的层中的外部图片,所述第一语法元素指示所述PU是否是从所述外部图片预测的,且指示所述PU的第一参考块是否是从所述外部图片导出的,或者所述PU的所述第一参考块是否是从所述第一参考图片列表中的参考图片导出的,且其中:
所述外部图片由外部过程产生,
所述当前图片和所述外部图片具有相同的空间分辨率,
如果所述第一语法元素指示所述PU是从所述外部图片预测,那么没有与运动向量预测相关的语法元素且没有与帧内预测相关的信息存在于所述PU中;以及
从包括在所述视频数据位流中的切片的切片标头语法结构获得第二语法元素,所述第二语法元素指示所述切片是否包括从所述外部图片或任一其它外部图片预测的至少一个CU;
基于所述第二语法元素指示所述切片包括从所述外部图片或任一其它外部图片预测的至少一个CU,从所述切片标头语法结构获得第三语法元素,所述第三语法元素指示用以预测从所述外部图片或任一其它外部图片预测的所述至少一个CU的外部图片的数目;在重构所述PU的一部分的视频数据的过程中使用所述第一语法元素,其中使用所述第一语法元素包括基于所述第一语法元素指示所述PU是从所述外部图片预测,复制所述外部图片的与所述PU位于同一地点的块作为用于所述PU的预测符;
确定与所述PU相关联的语法结构包括第二参考图片列表的帧内模式分支,所述第二参考图片列表不包括所述外部图片;
从所述第二参考图片列表的所述帧内模式分支获得第四语法元素,所述第四语法元素指示所述PU的所述第二参考块是否是从所述外部图片预测,或者所述PU的所述第二参考块是否是从所述第二参考图片列表中的参考图片导出,且
至少部分基于所述第一参考块和所述第二参考块,产生所述PU的预测性块。
2.根据权利要求1所述的方法,其中所述视频数据位流不包含所述外部图片的经译码表示。
3.根据权利要求1所述的方法,其进一步包括:
从参数集获得第五语法元素,所述第五语法元素指示参考所述参数集的任何切片的任一CU是否是从所述外部图片或任一其它外部图片预测,
其中所述参数集是视频参数集、序列参数集、图片参数集或调适参数集中的一者。
4.根据权利要求1所述的方法,其进一步包括:
从参数集获得第五语法元素,所述第五语法元素指示关于参考所述参数集的切片可使用的外部图片的最大数目,
其中所述参数集是视频参数集、序列参数集、图片参数集或调适参数集中的一者。
5.根据权利要求1所述的方法,其中:
所述方法进一步包括从与所述CU相关联的语法结构获得第五语法元素,所述第五语法元素指示所述CU是否是从所述外部图片预测。
6.根据权利要求5所述的方法,其中所述方法进一步包括:
响应于确定所述第五语法元素指示所述CU不是从所述外部图片预测,从与所述CU相关联的所述语法结构获得与所述CU的所述PU相关联的语法结构;以及
响应于确定所述第五语法元素指示所述CU是从所述外部图片预测,避免从与所述CU相关联的所述语法结构获得用于所述CU的任一PU的语法结构。
7.根据权利要求5所述的方法,其进一步包括响应于确定所述第五语法元素指示所述CU是从所述外部图片预测,从与所述CU相关联的所述语法结构获得指示残余数据是否存在于与所述CU相关联的所述语法结构中的残余数据语法元素。
8.根据权利要求5所述的方法,其进一步包括从与所述CU相关联的所述语法结构获得指定到外部图片列表中的所述外部图片的索引的索引语法元素。
9.根据权利要求1所述的方法,其中所述视频数据位流包括符合视频译码标准的基本层,所述视频译码标准指定用于从外部图片预测的视频单元的解码过程。
10.根据权利要求1所述的方法,其中所述外部图片是视图合成预测VSP图片。
11.一种视频解码装置,其包括:
存储器,其经配置以存储视频数据位流的至少一部分;以及
耦合到所述存储器的一个或更多个处理器,所述一个或更多个处理器经配置以:
从包括在所述视频数据位流中的当前图片的译码单元CU的预测单元PU的帧内模式分支获得第一语法元素,所述帧内模式分支用于第一参考图片列表,所述第一参考图片列表不包括处于与所述当前图片不同的层中的外部图片,所述第一语法元素指示所述PU是否是从所述外部图片预测的,且指示所述PU的第一参考块是否是从所述外部图片导出的,或者所述PU的所述第一参考块是否是从所述第一参考图片列表中的参考图片导出的,且其中:
所述外部图片由外部过程产生,
所述当前图片和所述外部图片具有相同的空间分辨率,
如果所述第一语法元素指示所述PU是从所述外部图片预测,那么没有与运动向量预测相关的语法元素且没有与帧内预测相关的信息存在于所述PU中;以及
从包括在所述视频数据位流中的切片的切片标头语法结构获得第二语法元素,所述第二语法元素指示所述切片是否包括从所述外部图片或任一其它外部图片预测的至少一个CU;
基于所述第二语法元素指示所述切片包括从所述外部图片或任一其它外部图片预测的至少一个CU,从所述切片标头语法结构获得第三语法元素,所述第三语法元素指示用以预测从所述外部图片或任一其它外部图片预测的所述至少一个CU的外部图片的数目;
在重构所述PU的一部分的视频数据的过程中使用所述第一语法元素,其中为了使用所述第一语法元素,所述一个或更多个处理器经配置以基于所述第一语法元素指示所述PU是从所述外部图片预测,复制所述外部图片的与所述PU位于同一地点的块作为用于所述PU的预测符;
确定与所述PU相关联的语法结构包括第二参考图片列表的帧内模式分支,所述第二参考图片列表不包括所述外部图片;
从所述第二参考图片列表的所述帧内模式分支获得第四语法元素,所述第四语法元素指示所述PU的所述第二参考块是否是从所述外部图片预测,或者所述PU的所述第二参考块是否是从所述第二参考图片列表中的参考图片导出,且
至少部分基于所述第一参考块和所述第二参考块,产生所述PU的预测性块。
12.根据权利要求11所述的视频解码装置,其中所述视频数据位流不包含所述外部图片的经译码表示。
13.根据权利要求11所述的视频解码装置,其中:
所述一个或更多个处理器进一步经配置以从与所述CU相关联的语法结构获得第五语法元素,所述第五语法元素指示所述CU是否是从所述外部图片预测。
14.根据权利要求13所述的视频解码装置,其中所述一个或更多个处理器经配置以使得:
响应于确定所述第五语法元素指示所述CU不是从所述外部图片预测,所述一个或更多个处理器从与所述CU相关联的所述语法结构获得与所述CU的所述PU相关联的语法结构;以及
响应于确定所述第五语法元素指示所述CU是从所述外部图片预测,所述一个或更多个处理器避免从与所述CU相关联的所述语法结构获得用于所述CU的任一PU的语法结构。
15.根据权利要求13所述的视频解码装置,其中所述一个或更多个处理器经配置以使得响应于确定所述第五语法元素指示所述CU是从所述外部图片预测,所述一个或更多个处理器从与所述CU相关联的所述语法结构获得指示残余数据是否存在于与所述CU相关联的所述语法结构中的残余数据语法元素。
16.根据权利要求13所述的视频解码装置,其中所述一个或更多个处理器经配置以从与所述CU相关联的所述语法结构获得指定到外部图片列表中的所述外部图片的索引的索引语法元素。
17.根据权利要求11所述的视频解码装置,其中当所述视频数据位流仅包含基本层时,所述第一语法元素总是指示所述PU不是从所述外部图片预测。
18.根据权利要求11所述的视频解码装置,其中所述视频数据位流包括符合视频译码标准的基本层,所述视频译码标准指定用于从外部图片预测的PU的解码过程。
19.根据权利要求11所述的视频解码装置,其中所述视频数据位流包括基本层和一或多个额外层,其中所述基本层符合第一视频译码标准且所述额外层符合第二不同视频译码标准。
20.根据权利要求19所述的视频解码装置,其中所述一或多个额外层包括一或多个增强层或包括一或多个视图。
21.根据权利要求11所述的视频解码装置,其中所述外部图片是视图合成预测VSP图片。
22.一种视频解码装置,其包括:
用于从包括在视频数据位流中的当前图片的译码单元CU的预测单元PU的帧内模式分支获得第一语法元素的装置,所述帧内模式分支用于第一参考图片列表,所述第一参考图片列表不包括处于与所述当前图片不同的层中的外部图片,所述第一语法元素指示所述PU是否是从所述外部图片预测的,且指示所述PU的第一参考块是否是从所述外部图片导出的,或者所述PU的所述第一参考块是否是从所述第一参考图片列表中的参考图片导出的,其中所述PU与所述当前图片相关联,且其中:
所述外部图片由外部过程产生,
所述当前图片和所述外部图片具有相同的空间分辨率,
如果所述第一语法元素指示所述PU是从所述外部图片预测,那么没有与运动向量预测相关的语法元素且没有与帧内预测相关的信息存在于所述PU中;以及
用于从包括在所述视频数据位流中的切片的切片标头语法结构获得第二语法元素的装置,所述第二语法元素指示所述切片是否包括从所述外部图片或任一其它外部图片预测的至少一个CU;
用于基于所述第二语法元素指示所述切片包括从所述外部图片或任一其它外部图片预测的至少一个CU,从所述切片标头语法结构获得第三语法元素的装置,所述第三语法元素指示用以预测从所述外部图片或任一其它外部图片预测的所述至少一个CU的外部图片的数目;
用于在重构所述PU的一部分的视频数据的过程中使用所述第一语法元素的装置,其中所述用于使用所述第一语法元素的装置包括用于基于所述第一语法元素指示所述PU是从所述外部图片预测,复制所述外部图片的与所述PU位于同一地点的块作为用于所述PU的预测符的装置;
用于确定与所述PU相关联的语法结构包括第二参考图片列表的帧内模式分支的装置,所述第二参考图片列表不包括所述外部图片;
用于从所述第二参考图片列表的所述帧内模式分支获得第四语法元素的装置,所述第四语法元素指示所述PU的所述第二参考块是否是从所述外部图片预测,或者所述PU的所述第二参考块是否是从所述第二参考图片列表中的参考图片导出,且
用于至少部分基于所述第一参考块和所述第二参考块,产生所述PU的预测性块的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261654552P | 2012-06-01 | 2012-06-01 | |
US61/654,552 | 2012-06-01 | ||
US13/906,264 | 2013-05-30 | ||
US13/906,264 US9762903B2 (en) | 2012-06-01 | 2013-05-30 | External pictures in video coding |
PCT/US2013/043706 WO2013181595A2 (en) | 2012-06-01 | 2013-05-31 | External pictures in video coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104365105A CN104365105A (zh) | 2015-02-18 |
CN104365105B true CN104365105B (zh) | 2017-09-15 |
Family
ID=49670231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380027853.8A Expired - Fee Related CN104365105B (zh) | 2012-06-01 | 2013-05-31 | 视频译码中的外部图片 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9762903B2 (zh) |
CN (1) | CN104365105B (zh) |
WO (1) | WO2013181595A2 (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108156463B (zh) | 2012-08-29 | 2022-07-01 | Vid拓展公司 | 用于可分级视频编码的运动矢量预测的方法和装置 |
US10129550B2 (en) | 2013-02-01 | 2018-11-13 | Qualcomm Incorporated | Inter-layer syntax prediction control |
KR101967398B1 (ko) * | 2013-07-09 | 2019-04-09 | 노키아 테크놀로지스 오와이 | 모션 정보를 시그널링하기 위한 구문을 수반하는 비디오 코딩을 위한 방법 및 장치 |
US10187662B2 (en) * | 2013-10-13 | 2019-01-22 | Sharp Kabushiki Kaisha | Signaling parameters in video parameter set extension and decoder picture buffer operation |
CN105659602B (zh) | 2013-10-14 | 2019-10-08 | 微软技术许可有限责任公司 | 用于视频和图像编码的帧内块复制预测模式的编码器侧选项 |
AU2013403224B2 (en) | 2013-10-14 | 2018-10-18 | Microsoft Technology Licensing, Llc | Features of intra block copy prediction mode for video and image coding and decoding |
US9654794B2 (en) * | 2014-01-03 | 2017-05-16 | Qualcomm Incorporated | Methods for coding an inter-layer reference picture set (RPS) and coding end of bitstream (EOB) network access layer (NAL) units in multi-layer coding |
US10560710B2 (en) | 2014-01-03 | 2020-02-11 | Qualcomm Incorporated | Method for coding recovery point supplemental enhancement information (SEI) messages and region refresh information SEI messages in multi-layer coding |
US10390034B2 (en) | 2014-01-03 | 2019-08-20 | Microsoft Technology Licensing, Llc | Innovations in block vector prediction and estimation of reconstructed sample values within an overlap area |
WO2015100726A1 (en) | 2014-01-03 | 2015-07-09 | Microsoft Corporation | Block vector prediction in video and image coding/decoding |
US11284103B2 (en) | 2014-01-17 | 2022-03-22 | Microsoft Technology Licensing, Llc | Intra block copy prediction with asymmetric partitions and encoder-side search patterns, search ranges and approaches to partitioning |
US10116948B2 (en) * | 2014-02-21 | 2018-10-30 | Sharp Kabushiki Kaisha | System for temporal identifier handling for hybrid scalability |
AU2014385769B2 (en) | 2014-03-04 | 2018-12-06 | Microsoft Technology Licensing, Llc | Block flipping and skip mode in intra block copy prediction |
US10187657B2 (en) * | 2014-03-14 | 2019-01-22 | Samsung Electronics Co., Ltd. | Method and device for configuring merge candidate list for decoding and encoding of interlayer video |
US20150264404A1 (en) * | 2014-03-17 | 2015-09-17 | Nokia Technologies Oy | Method and apparatus for video coding and decoding |
KR102311815B1 (ko) * | 2014-06-19 | 2021-10-13 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 통합된 인트라 블록 카피 및 인터 예측 모드 |
KR102378459B1 (ko) * | 2014-06-30 | 2022-03-24 | 한국전자통신연구원 | 움직임 병합 모드에서 시점 합성 예측 후보의 중복성 제거 장치 및 방법 |
JP2017535145A (ja) | 2014-09-30 | 2017-11-24 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 波面並列処理が可能にされた場合のピクチャ内予測モードに関する規則 |
US10455242B2 (en) * | 2015-03-04 | 2019-10-22 | Qualcomm Incorporated | Signaling output indications in codec-hybrid multi-layer video coding |
US20160309154A1 (en) * | 2015-04-17 | 2016-10-20 | Qualcomm Incorporated | Dynamic range adjustment for high dynamic range and wide color gamut video coding |
US10694202B2 (en) * | 2016-12-01 | 2020-06-23 | Qualcomm Incorporated | Indication of bilateral filter usage in video coding |
US11877001B2 (en) | 2017-10-10 | 2024-01-16 | Qualcomm Incorporated | Affine prediction in video coding |
US10986349B2 (en) | 2017-12-29 | 2021-04-20 | Microsoft Technology Licensing, Llc | Constraints on locations of reference blocks for intra block copy prediction |
CN117119195A (zh) * | 2018-03-29 | 2023-11-24 | 弗劳恩霍夫应用研究促进协会 | 变换系数块编码 |
TWI720470B (zh) * | 2018-04-30 | 2021-03-01 | 聯發科技股份有限公司 | 用於視訊編解碼中的獨立編碼樹的語法交錯方法和裝置 |
WO2019210857A1 (en) * | 2018-04-30 | 2019-11-07 | Mediatek Inc. | Method and apparatus of syntax interleaving for separate coding tree in video coding |
FR3080968A1 (fr) | 2018-05-03 | 2019-11-08 | Orange | Procede et dispositif de decodage d'une video multi-vue, et procede et dispositif de traitement d'images. |
EP3791582A1 (en) * | 2018-05-30 | 2021-03-17 | Huawei Technologies Co., Ltd. | Method and apparatus for boundary partition |
CN112438047B (zh) * | 2018-06-26 | 2022-08-09 | 华为技术有限公司 | 用于点云译码的高级语法设计 |
CN114697663B (zh) | 2018-08-17 | 2024-01-30 | 华为技术有限公司 | 对编码视频位流进行解码的方法,解码设备以及译码系统 |
JP2022515088A (ja) * | 2018-12-17 | 2022-02-17 | インターデイジタル ヴィーシー ホールディングス インコーポレイテッド | Mmvdおよびsmvdと動きモデルおよび予測モデルとの組み合わせ |
JP2022549837A (ja) * | 2019-09-24 | 2022-11-29 | 華為技術有限公司 | ビデオコーディングにおけるピクチャーヘッダーのシグナリング |
EP4022917A4 (en) * | 2019-10-02 | 2022-11-30 | Beijing Bytedance Network Technology Co., Ltd. | SYNTAX FOR SUBPICTURE SIGNALING IN A VIDEO BITSTREAM |
US11310511B2 (en) * | 2019-10-09 | 2022-04-19 | Tencent America LLC | Method and apparatus for video coding |
WO2021073630A1 (en) | 2019-10-18 | 2021-04-22 | Beijing Bytedance Network Technology Co., Ltd. | Syntax constraints in parameter set signaling of subpictures |
MX2022008445A (es) * | 2020-01-13 | 2022-10-18 | Lg Electronics Inc | Metodo y aparato de inter prediccion en sistema de codificacion de imagenes/video. |
AR121126A1 (es) * | 2020-02-29 | 2022-04-20 | Beijing Bytedance Network Tech Co Ltd | Señalización de elementos de sintaxis para indicación de imagen de referencia |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127904A (zh) * | 2006-03-16 | 2008-02-20 | 苹果电脑有限公司 | 与不可伸缩解码器兼容的可伸缩视频编码/多路技术 |
WO2010126613A2 (en) * | 2009-05-01 | 2010-11-04 | Thomson Licensing | Inter-layer dependency information for 3dv |
CN103430458A (zh) * | 2011-03-10 | 2013-12-04 | 维德约股份有限公司 | 可伸缩视频编码的依存参数集 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US817866A (en) * | 1906-04-17 | A corpora | ||
US6937774B1 (en) * | 2000-10-24 | 2005-08-30 | Lockheed Martin Corporation | Apparatus and method for efficiently increasing the spatial resolution of images |
PT2278816E (pt) * | 2002-07-11 | 2013-05-10 | Panasonic Corp | Gestão de memória tampão pós-descodificador para um fluxo de bits de mpeg de h.264-svc |
US20040117840A1 (en) * | 2002-12-12 | 2004-06-17 | Boudreau Paul A. | Data enhanced multi-media system for a set-top terminal |
US7489342B2 (en) * | 2004-12-17 | 2009-02-10 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for managing reference pictures in multiview videos |
WO2006108917A1 (en) * | 2005-04-13 | 2006-10-19 | Nokia Corporation | Coding, storage and signalling of scalability information |
US9049449B2 (en) * | 2005-04-13 | 2015-06-02 | Nokia Corporation | Coding of frame number in scalable video coding |
MY159176A (en) * | 2005-10-19 | 2016-12-30 | Thomson Licensing | Multi-view video coding using scalable video coding |
EP1806930A1 (en) * | 2006-01-10 | 2007-07-11 | Thomson Licensing | Method and apparatus for constructing reference picture lists for scalable video |
US8619865B2 (en) * | 2006-02-16 | 2013-12-31 | Vidyo, Inc. | System and method for thinning of scalable video coding bit-streams |
KR100966567B1 (ko) | 2006-03-30 | 2010-06-29 | 엘지전자 주식회사 | 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치 |
KR101450921B1 (ko) * | 2006-07-05 | 2014-10-15 | 톰슨 라이센싱 | 멀티뷰 비디오 엔코딩 및 디코딩을 위한 방법 및 장치 |
US20080043832A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Techniques for variable resolution encoding and decoding of digital video |
BRPI0716957A2 (pt) * | 2006-10-13 | 2013-10-29 | Thomson Licensing | Sintaxe de gerenciamento de lista de imagens de referência para codificação de vídeo de múltiplas vistas |
US20080089411A1 (en) * | 2006-10-16 | 2008-04-17 | Nokia Corporation | Multiple-hypothesis cross-layer prediction |
US20080095228A1 (en) * | 2006-10-20 | 2008-04-24 | Nokia Corporation | System and method for providing picture output indications in video coding |
KR20090085581A (ko) * | 2006-10-24 | 2009-08-07 | 톰슨 라이센싱 | 다중-뷰 비디오 코딩을 위한 화상 관리 |
JP2010520697A (ja) | 2007-03-02 | 2010-06-10 | エルジー エレクトロニクス インコーポレイティド | ビデオ信号のデコーディング/エンコーディング方法及び装置 |
US8548261B2 (en) * | 2007-04-11 | 2013-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding multi-view image |
KR20090004660A (ko) * | 2007-07-02 | 2009-01-12 | 엘지전자 주식회사 | 디지털 방송 시스템 및 데이터 처리 방법 |
WO2009130561A1 (en) * | 2008-04-21 | 2009-10-29 | Nokia Corporation | Method and device for video coding and decoding |
JP5400876B2 (ja) * | 2008-06-16 | 2014-01-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ビデオ符号化のための、スライス依存性に基づくレート制御モデル適合化 |
EP2392138A4 (en) * | 2009-01-28 | 2012-08-29 | Nokia Corp | METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING |
AU2009201637B2 (en) * | 2009-04-24 | 2011-08-11 | Canon Kabushiki Kaisha | Processing multi-view digital images |
CN102037732B (zh) * | 2009-07-06 | 2013-03-27 | 联发科技(新加坡)私人有限公司 | 一种执行单循环自适应内插滤波的方法、编码器和译码器 |
EP2491723A4 (en) * | 2009-10-20 | 2014-08-06 | Ericsson Telefon Ab L M | METHOD AND ARRANGEMENT FOR MULTILOOK VIDEO COMPRESSION |
RU2551207C2 (ru) | 2009-12-17 | 2015-05-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Способ и устройство для кодирования видео |
EP2355511A1 (en) * | 2009-12-21 | 2011-08-10 | Alcatel Lucent | Method and arrangement for jointly encoding a plurality of video streams |
US9357229B2 (en) | 2010-07-28 | 2016-05-31 | Qualcomm Incorporated | Coding motion vectors in video coding |
US9565449B2 (en) | 2011-03-10 | 2017-02-07 | Qualcomm Incorporated | Coding multiview video plus depth content |
US8494290B2 (en) * | 2011-05-05 | 2013-07-23 | Mitsubishi Electric Research Laboratories, Inc. | Method for coding pictures using hierarchical transform units |
CN103765902B (zh) | 2011-08-30 | 2017-09-29 | 英特尔公司 | 多视角视频编码方案 |
ES2898887T3 (es) * | 2011-11-08 | 2022-03-09 | Nokia Technologies Oy | Manejo de imágenes de referencia |
EP2772058A1 (en) * | 2011-12-26 | 2014-09-03 | General Instrument Corporation | Implicit determination of collocated picture for temporal prediction |
KR20130080324A (ko) * | 2012-01-04 | 2013-07-12 | 한국전자통신연구원 | 실감형 방송을 위한 스케일러블 비디오 코딩 장치 및 방법 |
-
2013
- 2013-05-30 US US13/906,264 patent/US9762903B2/en not_active Expired - Fee Related
- 2013-05-31 CN CN201380027853.8A patent/CN104365105B/zh not_active Expired - Fee Related
- 2013-05-31 WO PCT/US2013/043706 patent/WO2013181595A2/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127904A (zh) * | 2006-03-16 | 2008-02-20 | 苹果电脑有限公司 | 与不可伸缩解码器兼容的可伸缩视频编码/多路技术 |
WO2010126613A2 (en) * | 2009-05-01 | 2010-11-04 | Thomson Licensing | Inter-layer dependency information for 3dv |
CN102484700A (zh) * | 2009-05-01 | 2012-05-30 | 汤姆森特许公司 | 3d视频编码格式 |
CN103430458A (zh) * | 2011-03-10 | 2013-12-04 | 维德约股份有限公司 | 可伸缩视频编码的依存参数集 |
Non-Patent Citations (1)
Title |
---|
Extensible High Layer Syntax for Scalability;Jill Boyce, Danny Hong, Stephan.;《Joint Collaborative Team on Video Coding (JCT-VC)of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG1,Document: JCTVC-E279,15th Meeting: Geneva, CH, 16-23 March, 2011》;20110323;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2013181595A3 (en) | 2014-02-20 |
WO2013181595A2 (en) | 2013-12-05 |
US9762903B2 (en) | 2017-09-12 |
US20130322531A1 (en) | 2013-12-05 |
CN104365105A (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104365105B (zh) | 视频译码中的外部图片 | |
CN104471943B (zh) | 视频译码中的参数集 | |
CN104205846B (zh) | 用于三维视频译码的视图合成模式 | |
CN103999467B (zh) | 用于多视图和三维视频译码的参考图片列表建构 | |
CN104904218B (zh) | 视差矢量推导 | |
CN104170380B (zh) | 视频译码中的视差矢量预测 | |
CN105027571B (zh) | 三维视频译码中导出的视差向量 | |
CN105122812B (zh) | 用于三维(3d)视频译码的高级合并模式 | |
CN104335589B (zh) | 用于视频译码的视图间预测的视差向量产生 | |
CN103975597B (zh) | 纹理及深度视图分量当中的内部视图运动预测 | |
CN105009586B (zh) | 多视图或3维视频译码中的视图间残余预测 | |
CN103155571B (zh) | 译码立体视频数据 | |
CN104335586B (zh) | 运动向量舍入 | |
CN104365103B (zh) | 视频译码中的视差向量选择 | |
CN110024403A (zh) | 用于视频译码的仿射运动模型的运动向量生成 | |
CN107409209A (zh) | 用于线性模型预测模式的降取样处理 | |
CN105052145A (zh) | 剖析三维视频译码中的语法元素 | |
CN104885459B (zh) | 用于多层译码的多分辨率经解码图片缓冲器管理 | |
CN106063262A (zh) | 3d视频译码中的增量dc残差译码的简化 | |
CN105580374B (zh) | 一种对多层视频数据进行编解码的方法、视频解码设备及存储媒体 | |
CN104969551A (zh) | 可缩放及多视角视频译码中的高级残差预测 | |
CN105230022A (zh) | 使用基于相邻者的视差向量导出的用于3d视频译码的并行经导出视差向量 | |
CN105580365A (zh) | Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计 | |
CN105580364A (zh) | Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计 | |
CN105075267A (zh) | 在视频译码中停用用于参考图片列表的视图间预测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170915 Termination date: 20190531 |