CN105052142A - 仅高级语法shvc中的一般化残余预测及其信令和管理 - Google Patents

仅高级语法shvc中的一般化残余预测及其信令和管理 Download PDF

Info

Publication number
CN105052142A
CN105052142A CN201480017850.0A CN201480017850A CN105052142A CN 105052142 A CN105052142 A CN 105052142A CN 201480017850 A CN201480017850 A CN 201480017850A CN 105052142 A CN105052142 A CN 105052142A
Authority
CN
China
Prior art keywords
reference picture
residual prediction
prediction reference
picture
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480017850.0A
Other languages
English (en)
Other versions
CN105052142B (zh
Inventor
李想
王益魁
陈颖
陈建乐
阿达许·克里许纳·瑞玛苏布雷蒙尼安
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105052142A publication Critical patent/CN105052142A/zh
Application granted granted Critical
Publication of CN105052142B publication Critical patent/CN105052142B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

根据某些方面的用于对视频信息进行解码的设备包含存储器单元和操作性地耦合到所述存储器单元的处理器。所述存储器单元经配置以存储增强层的至少一个参考图片列表,所述至少一个参考图片列表包括残余预测参考图片信息。所述处理器经配置以:对关于残余预测参考图片产生的用信号表示的信息进行解码;基于增强层参考图片和所述经解码用信号表示的信息而产生残余预测参考图片以使得所述产生的残余预测参考图片具有与所述残余预测参考图片从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数POC;以及将所述产生的残余预测参考图片存储在所述增强层的所述至少一个参考图片列表中。

Description

仅高级语法SHVC中的一般化残余预测及其信令和管理
技术领域
本发明涉及仅高级语法可缩放视频译码和在例如HEVC(高效率视频译码)等高级视频编解码器的上下文中的3D视频译码中的一般化残余预测(GRP)参考图片的信令和管理。
背景技术
可将数字视频能力并入到多种多样的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频串流装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-TH.263或ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此类视频译码技术而更有效率地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可以分割成视频块,视频块还可被称作树块、译码单元(CU)及/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可以被称为帧,且参考图片可以被称为参考帧。
空间或时间预测导致对块的预测块进行译码。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。经帧内译码块是根据帧内译码模式及残余数据而编码。为了进一步压缩,可以将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。可扫描一开始按二维阵列排列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵译码以达成更多压缩。
发明内容
本发明的系统、方法及装置各自具有若干创新方面,其中没有单个方面单独负责本文所揭示的合乎需要的属性。
一般来说,在一些方面中,本发明描述基于增强层参考图片产生一或多个残余预测参考图片的技术。根据某些方面,产生的残余预测参考图片可提供在块层级应用经加权一般化残余预测的效果。产生的残余预测参考图片可共享与来自它们所基于的增强层的参考图片相同的运动字段。产生的残余预测参考图片也可具有与它们所基于的增强层参考图片相同的图片次序计数(POC)数目。残余预测参考图片可基于在位流中接收而不是正经解码的用信号表示的信息而产生。所述技术可用信号表示与如何产生残余预测参考图片相关的信息。
根据某些方面的用于对视频信息进行解码的设备包含存储器单元和操作性地耦合到所述存储器单元的处理器。所述存储器单元经配置以存储增强层的至少一个参考图片列表,所述至少一个参考图片列表包括残余预测参考图片信息。所述处理器经配置以:对关于残余预测参考图片产生的用信号表示的信息进行解码;基于增强层参考图片和所述经解码用信号表示的信息而产生残余预测参考图片以使得所述产生的残余预测参考图片具有与所述残余预测参考图片从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数(POC);以及将所述产生的残余预测参考图片存储在所述增强层的所述至少一个参考图片列表中。
根据某些方面的用于对视频信息进行编码的设备包含存储器单元和操作性地耦合到所述存储器单元的处理器。所述存储器单元经配置以存储与可缩放视频译码中的视频信息的一或多个层相关联的至少一个参考图片列表。所述处理器经配置以:对关于至少部分地基于与增强层相关联的对应增强层参考图片产生残余预测参考图片的信息进行编码,所述残余预测参考图片经配置以具有与所述残余预测参考图片将从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数(POC);以及在位流中用信号表示所述经编码信息。
随附图式及以下描述中阐述一或多个实例的细节。其它特征、目标和优点将从所述描述和图式以及权利要求书而显而易见。
附图说明
图1是说明可利用根据本发明中描述的方面的技术的实例视频编码和解码系统的框图。
图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。
图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。
图4说明不同维度中的可缩放性的实例。
图5说明可缩放视频译码(SVC)译码结构的实例。
图6说明SVC的上下文中的存取单元。
图7说明一般化残余预测(GRP)的单向预测情况。
图8是说明根据本发明的方面的残余预测参考图片的产生的框图。
图9是说明根据本发明的方面的用于产生残余预测参考图片且用信号表示相关信息的实例方法的流程图。
图10是说明根据本发明的方面的用于基于用信号表示的信息产生残余预测参考图片的实例方法的流程图。
图11说明产生增强层间参考(EILR)。
具体实施方式
本发明中描述的技术大体涉及可缩放视频译码(SVC)及3D视频译码。举例来说,所述技术可与高效率视频译码(HEVC)可缩放视频译码(SVC)扩展相关,及供HEVCSVC扩展使用或在HEVCSVC扩展内使用。HEVCSVC扩展也可被称作可缩放HEVC(SHVC)。在SVC扩展中,可存在多个视频信息层。在最底层级处的层可充当基础层(BL),且在最顶部的层可充当增强型层(EL)。“增强型层”有时被称作“增强层”,且这些术语可互换地使用。所有在中间的层可充当EL或BL,或其两者。举例来说,在中间的层可为在其下方的层(例如基层或任何介入增强层)的EL,且同时充当在其上方的增强层的BL。
仅出于说明的目的,本发明中描述的技术是关于仅包含两个层(例如,例如基层等较低层级的层及例如增强型层等较高层级的层)的实例进行描述的。应理解,本发明中描述的实例也可扩展到具有多个基础层及增强层的实例。
视频译码标准包含ITU-TH.261、ISO/IECMPEG-1视频、ITU-TH.262或ISO/IECMPEG-2视频、ITU-TH.263、ISO/IECMPEG-4视觉及ITU-TH.264(也被称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。SVC及MVC的最新联合草案描述于“用于通用视听服务的高级视频译码(AdvancedVideoCodingforGenericAudiovisualServices)”(ITU-T推荐H.264,2010年3月)中。此外,存在一种新的视频译码标准,即高效率视频译码(HEVC),其正由ITU-T视频译码专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。已经使HEVC规范的各种工作草案可用,包含版本7和8。审批通过的HECV规范可见于http://www.itu.int/rec/T-REC-H.265-201304-I。这些参考文献中的每一者以全文引用的方式并入本文中。
另外,以下公开案中的每一者在此以引用的方式全文并入本文。可通过在本发明中的参考文献之前的对应数字来指代以下参考文件,以便于论述。
●[1]W·J·韩、J·民、I·K·基姆、E·阿尔希那、A·阿尔新、T·李;J·陈;V·赛瑞金、S·李、Y·M·宏、M·S·柴昂、N·诗雅科夫、K·麦凯恩、T·达维斯、J·H·帕克,“通过译码工具的灵活单元表示和对应扩展改进的视频压缩效率(ImprovedVideoCompressionEfficiencyThroughFlexibleUnitRepresentationandCorrespondingExtensionofCodingTools)”,IEEE视频技术的电路和系统学报第20卷12号1709-1720页,2010年12月。
●[2]B·布洛斯、W·J·韩、J·R·欧姆、G·J·萨利文、T·伟甘德、Y·K·王,“(高效率视频译码(HEVC)文字规范草案10(用于FDIS和同意)Highefficiencyvideocoding(HEVC)textspecificationdraft10(forFDIS&Consent))”,ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),JCTVC-L1003,瑞士日内瓦,2013年1月。
●[3]E·弗兰克斯、J·塔奎特、C·吉斯奎特、G·拉罗切、P·奥诺,“非-TE3:SHVC中的一般化残余层间预测(GRILP)的简化(Non-TE3:SimplificationofGeneralizedResidualInter-LayerPrediction(GRILP)inSHVC)”,文献JCTVC-L0104,ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)第12次会议,瑞士日内瓦,2013年1月14-23日。
●[4]R·思巧伯格、Y·陈、A·藤林、M·M·汉努克塞拉、J·萨缪尔森、T·K·谭、Y·K·王和S·威戈,“HEVC高级语法和参考图片管理的概述(OverviewofHEVCHigh-LevelSyntaxandReferencePictureManagement)”,IEEE视频技术的电路和系统学报第22卷12号1858-1870页,2012年12月。
●[5]J·陈、J·博伊斯、Y·叶、M·M·汉努克塞拉,“SHVC工作草案1(SHVCWorkingDraft1)”,JCTVC-L1008,2013年3月。
●[6]J·陈、Y·叶、J·博伊斯、M·M·汉努克塞拉,“SHVC测试模型1(SHM1)(SHVCTestModel1(SHM1))”,JCTVC-L1007,2013年2月。
●[7]A·阿民娄、J·莱内马、K·优格、M·汉努克塞拉,“非-CE3:基于RefIdx的可缩放性的增强层间参考图片(Non-CE3:EnhancedinterlayerreferencepictureforRefIdxbasedscalability)”,JCTVC-M0155,2013年4月。
●[8]Y·何、Y·叶,“非-SCE3:用于RefIdx框架的差分译码的ILR增强(Non-SCE3:ILRenhancementwithdifferentialcodingforRefIdxframework)”,JCTVC-M0189,2013年4月。
可缩放视频译码(SVC)可用于提供质量(还被称作信噪比(SNR))可缩放性、空间可缩放性及/或时间可缩放性。增强型层可具有与基础层不同的空间分辨率。举例来说,EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说,EL的空间纵横尺寸可等于BL的空间纵横尺寸的1.0、1.5或2.0倍。在一些实例中,EL的缩放因数可大于BL。举例来说,EL中的图片的大小可大于BL中的图片的大小。以此方式,可有可能(但不限于)EL的空间分辨率大于BL的空间分辨率。
一般化残余预测(GRP)框架已在以下申请案中描述:2012年7月10日申请的第61/670,075号美国临时申请案,2012年9月27日申请的第61/706,692号美国临时申请案,2013年7月2日申请的第13/933,588号美国申请案,2012年8月7日申请的第61/680,522号美国临时申请案,和2013年8月2日申请的第13/957,841号美国申请案,以上申请案的揭示内容以全文引用的方式并入本文。GRP框架可将加权因数应用于参考层的残余。层间残余预测在预测当前视频单元(例如,块或帧)中使用参考层的残余。在一般化残余预测中,当前视频单元的层间残余预测可基于当前层的残余、当前层的时间预测或空间预测,以及参考层的残余。参考层的残余可通过加权因数来调整。恰当地调整加权因数可导致用于残余预测的显著译码增益。在加权因数被设定成1时,GRP可适应传统的残余预测。
然而,在仅高级语法SHVC中,当相比于HEVC单层译码时不存在新的块层级译码工具,且因此,无法在块层级提供GRP。在仅高级语法SHVC中允许仅切片和更高层级语法改变以及图片层级操作,包含图片滤波和/或上取样。
本发明中描述的技术可解决在仅高级语法SHVC中并入经加权一般化残余预测。本发明中描述的技术可基于增强层参考图片产生一或多个残余预测参考图片。残余预测参考图片也可被称作“GRP参考图片”。根据某些方面,产生的残余预测参考图片可提供在块层级应用经加权一般化残余预测的效果。举例来说,残余预测参考图片可并入在GRP中使用的加权因数。产生的残余预测参考图片可共享与来自它们所基于的增强层的参考图片相同的运动字段。产生的残余预测参考图片也可具有与它们所基于的增强层参考图片相同的图片次序计数(POC)数目。残余预测参考图片可基于在位流中接收而不是正经解码的用信号表示的信息而产生。所述技术可用信号表示如何产生残余预测参考图片。通常,SHVC对于POC数目提供仅一个参考图片。由于可对于同一POC提供多个参考图片,因此所述技术也可提供用信号表示应使用哪些参考图片的各种方式。
下文参考附图更充分地描述新颖系统、设备和方法的各个方面。然而,本发明可以许多不同形式来体现,且不应将其解释为限于贯穿本发明所呈现的任何特定结构或功能。而是,提供这些方面以使得本发明将为透彻且完整的,并且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示,所属领域的技术人员应了解,本发明的范围既定涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备及方法的任何方面。举例来说,可使用本文中所阐述的任何数目个方面来实施设备或实践方法。另外,本发明的范围既定涵盖使用除本文中所阐述的本发明的各种方面之外的或不同于本文中所阐述的本发明的各种方面的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解,可通过技术方案的一或多个要素来体现本文中所揭示的任何方面。
尽管本文描述了特定方面,但这些方面的许多变化及排列落在本发明的范围内。尽管提到了优选方面的一些益处和优点,但本发明的范围不希望限于特定益处、用途或目标。而是,本发明的方面既定广泛地适用于不同无线技术、系统配置、网络及发射协议,其中的一些是借助于实例而在图中以及在优选方面的以下描述中说明。详细描述和图式仅说明本发明,而不是限制由所附权利要求书及其等效者界定的本发明的范围。
图1是说明可利用根据本发明中描述的方面的技术的实例视频编码和解码系统的框图。如图1中所示,系统10包含源装置12,所述源装置12提供经编码视频数据以在稍后时间由目的地装置14解码。确切地说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记本(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”垫、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置,或类似物。在一些情况下,源装置12和目的地装置14可经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时将经编码的视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据例如无线通信协议等通信标准加以调制,且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可以用于促进从源装置12到目的地装置14的通信的任何其它装备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或可存储源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可以是任何类型的能够存储经编码的视频数据且将经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可以通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可能是流式传输发射、下载发射或其组合。
本发明的技术不必限于无线应用或设置。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网流式传输视频发射(例如,经由HTTP的动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频流式传输、视频重放、视频广播及/或视频电话的应用。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位流进行译码的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
图1的说明的系统10只是一个实例。用于确定当前块的运动向量预测符的候选列表的候选的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术一般通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)来执行。此外,本发明的技术还可由视频预处理器来执行。源装置12及目的地装置14仅为源装置12在其中产生经译码视频数据以供发射到目的地装置14的此类译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码和解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传输以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如相机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、所存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18是摄像机,则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(也就是说,非暂时存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码的视频数据及例如经由网络发射、直接有线通信等将经编码的视频数据提供到目的地装置14。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可以从源装置12接收经编码视频数据并且生成含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息还供视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20及视频解码器30可根据视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可根据其它专有或业界标准来操作,所述标准例如是ITU-TH.264标准,也被称为MPEG-4,第10部分,高级视频译码(AVC),或此类标准的扩展。然而,本发明的技术不限于任何特定译码标准,包含但不限于上文所列的标准中的任一者。视频译码标准的其它实例包含MPEG-2和ITU-TH.263。尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器(MUX-DEMUX)单元或其它硬件及软件,以处置对共同数据流或单独数据流中的音频及视频两者的编码。如果适用的话,多路复用器-多路分用器单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合等多种合适编码器电路中的任一者。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可以包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可以集成为相应装置中的组合编码器/解码器(编解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包括集成电路、微处理器及/或无线通信装置,例如蜂窝式电话。
JCT-VC正在努力开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM根据(例如)ITU-TH.264/AVC假设视频译码装置相对于现存装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HM可提供多达三十三种帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图片可以分成包含明度及色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可以定义LCU的大小,LCU是就像素数目来说的最大译码单元。切片包含按译码顺序的多个连续树块。视频帧或图片可被分割成一或多个切片。每一树块可以根据四叉树而分裂成译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中一个根节点对应于所述树块。如果CU分裂成4个子CU,那么对应于CU的节点包含四个叶节点,所述叶节点中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可以提供用于相对应的CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,从而指示对应于所述节点的CU是否分裂成数个子CU。CU的语法元素可递归地定义,且可取决于CU是否分裂成子CU。如果CU不进一步分裂,那么将其称为叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU未经进一步分裂,那么尽管16x16CU从未经分裂,四个8x8子CU也将被称作叶CU。
CU具有与H.264标准的宏块类似的目的,除了CU不具有大小区别。举例来说,树块可以分裂成四个子节点(还称为子CU),并且每一子节点又可以是父节点并且可以分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括译码节点,还称为叶CU。与经译码位流相关联的语法数据可以定义树块可以分裂的最大次数(被称作最大CU深度),并且还可定义译码节点的最小大小。所以,位流还可定义最小译码单元(SCU)。本发明使用术语“块”来指HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块及子块)。
CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小且形状必须是正方形。CU的大小可以从8x8像素到具有最大64x64像素或更大的树块的大小变动。每一CU可含有一或多个PU和一或多个TU。举例来说,与CU相关联的语法数据可描述CU到一或多个PU的分割。分割模式可在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有所不同。PU可以分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树划分成一或多个TU。ATU可以是正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU进行变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU残余样本可以使用一种被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称作变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,所述变换系数可经量化。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于对应CU的全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含界定PU的一或多个运动向量的数据。界定PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用RQT(还被称作TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成更多个子TU。当TU未经进一步分裂时,其可被称作叶TU。一般来说,对于帧内译码,属于叶CU的所有叶TU共享相同的帧内预测模式。也就是说,总体上应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可以使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因而,TU可比PU大或小。对于帧内译码,PU可与相同CU的对应叶TU位于同一地点。在一些实例中,叶TU的最大大小可以对应于对应叶CU的大小。
此外,叶CU的TU还可与相应的四叉树数据结构(被称作残余四叉树(RQT))相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点总体上对应于叶CU,而CU四叉树的根节点总体上对应于树块(或LCU)。未分裂的RQT的TU被称作叶TU。一般来说,除非另有陈述,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列的一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为一实例,HM支持各种PU大小的预测。假定特定CU的大小为2Nx2N,那么HM支持2Nx2N或NxN的PU大小的帧内预测,和2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N及nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,而另一方向分割成25%及75%。CU的对应于25%分区的部分由“n”跟随有“上方”、“下方”、“左侧”或“右侧”的指示来指示。因此,例如,“2NxnU”是指经水平分割的2Nx2NCU,其中顶部为2Nx0.5NPU,而底部为2Nx1.5NPU。
在本发明中,“NxN”与“N乘N”可互换使用来根据垂直及水平尺寸指代视频块的像素尺寸,例如,16x16像素或16乘16像素。总的来说,16x16块将在垂直方向上具有16个像素(y=16),并且在水平方向上具有16个像素(x=16)。同样,NxN块总体上在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。一块中的像素可布置成若干行和若干列。此外,块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来说,块可包括NxM像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可以计算用于CU的TU的残余数据。PU可包括描述在空间域(还称为像素域)中产生预测性像素数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用了变换(例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)变换域中的系数。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。
在任何用于产生变换系数的变换之后,视频编码器20可以执行变换系数的量化。量化大体上是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值向下舍入到m位值,其中n大于m。
在量化之后,视频编码器可以扫描变换系数,从而从包含经量化的变换系数的二维矩阵产生一维向量。扫描可以经过设计以将较高能量(并且因此较低频率)的系数放置在阵列正面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行熵编码。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据进行解码时使用。
为了执行CABAC,视频编码器20可以向待发射的符号指派上下文模型内的上下文。所述上下文可(例如)与符号的相邻值是否为非零有关。为执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经构造使得相对较短码对应于更有可能符号,而较长码对应于不太可能符号。以此方式,使用VLC可例如实现优于对待发射的每一符号使用等长码字的位节省。概率确定可基于指派给符号的上下文。
视频编码器20可进一步例如在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据和基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的数个帧,且帧语法数据可指示用以对对应帧进行编码的编码/预测模式。
图2是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例,模式选择单元40可经配置以执行本发明中描述的技术中的任一者或全部。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未展示)可经配置以执行本发明中描述的技术中的任一者或全部。
在一些实施例中,模式选择单元40、运动估计单元42、运动补偿单元44(或模式选择单元40的另一组件,图示或未图示)或编码器20的另一组件(图示或未图示)可执行本发明的技术。举例来说,模式选择单元40可基于可执行哪种运动估计和运动补偿而产生一或多个残余预测参考图片。编码器20可至少部分地基于与增强层相关联的对应增强层参考图片而编码关于产生残余预测参考图片的信息。待产生的残余预测参考图片可具有与所述残余预测参考图片将从其产生的增强层参考图片相同的运动字段和相同的图片次序计数(POC)。编码器20可在位流中用信号表示经编码信息。
视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图2中所示,视频编码器20接收待编码视频帧内的当前视频块。在图1的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。为了视频块重构,视频编码器20还包含逆量化单元58、逆变换单元60,和求和器62。还可包含解块滤波器(图2中未图示)以便对块边界进行滤波,以将成块效应假象从经重构的视频中去除。视需要,解块滤波器将通常对求和器62的输出进行滤波。除解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示这些滤波器,但是必要时,这些滤波器可对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可被划分成多个视频块。运动估计单元42和运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行所接收视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次,例如以针对每一视频数据块选择适当的译码模式。
此外,分割单元48可以基于前述译码遍次中的先前分割方案的评估将视频数据块分割成子块。举例来说,分割单元48可起初将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示LCU划分成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可以基于错误结果选择译码模式中的一者(帧内或帧间),并且将所得的经帧内译码或经帧间译码块提供到求和器50以便产生残余块数据,并且提供到求和器62以便重构经编码块用作参考帧。模式选择单元40还将语法元素(例如,运动向量、帧内模式指示符、分割信息及其它此类语法信息)提供到熵编码单元56。
运动估计单元42和运动补偿单元44可高度集成,但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正经译码的当前块的移位。预测性块是被发现在像素差方面与待译码块紧密匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可以计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元42可相对于整数像素位置及分数像素位置执行运动搜索且输出具有分数像素精度的运动向量。
运动估计单元42通过比较经帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置来计算PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将计算出来的运动向量发送到熵编码单元56和运动补偿单元44。
运动补偿单元44执行的运动补偿可以包括基于运动估计单元42确定的运动向量来取出或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44可即刻在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。一般来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44针对色度分量及明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可以对当前块进行帧内预测。确切地说,帧内预测单元46可以确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可(例如)在单独的编码编次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中为模式选择单元40)可从所测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值,且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析总体上确定经编码块与经编码以产生所述经编码块的原始未编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在选择用于块的帧内预测模式后,帧内预测单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式指数表及多个经修改的帧内预测模式指数表(也称为码字映射表),对用于各种块的上下文进行编码的定义,及对最可能帧内预测模式、帧内预测模式指数表及经修改的帧内预测模式指数表的指示以用于所述上下文中的每一者。
视频编码器20通过从经译码的原始视频块减去来自模式选择单元40的预测数据形成残余视频块。求和器50表示可执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。替代地,熵编码单元56可以执行所述扫描。
在量化之后,熵编码单元56熵译码经量化的变换系数。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论,上下文可基于相邻块。在由熵编码单元56进行熵译码之后,可以将经编码位流发射到另一装置(例如,视频解码器30),或者将所述经编码位流存档以用于稍后发射或检索。
逆量化单元58及逆变换单元60分别应用逆量化及逆变换以在像素域中重构残余块,例如以供稍后用作参考块。运动补偿单元44可通过将残余块加到参考帧存储器64的帧中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于所重构的残余块以计算子整数像素值用于运动估计。求和器62将经重构的残余块添加到由运动补偿单元44产生的运动补偿预测块以产生经重构视频块用于存储在参考帧存储器64中。经重构视频块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续视频帧中的块进行帧间译码。
图3是说明可实施本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例,运动补偿单元72及/或帧内预测单元74可经配置以执行本发明中描述的技术中的任一者或全部。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未展示)可经配置以执行本发明中描述的任何或所有技术。
在一些实施例中,熵解码单元70、运动补偿单元72或解码器30的另一组件(图示或未图示)可执行本发明的技术。解码器30可对关于残余预测参考图片产生的用信号表示的信息进行解码。运动补偿单元72可基于增强层参考图片和经解码用信号表示的信息而产生残余预测参考图片,以使得产生的残余预测参考图片具有与所述残余预测参考图片从其产生的增强层参考图片相同的运动字段和相同的图片次序计数(POC)。运动补偿单元72可将产生的残余预测参考图片存储在增强层的至少一个参考图片列表中(例如,参考帧存储器82中)。
在图3的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考帧存储器82及求和器80。在一些实例中,视频解码器30可执行总体上与关于视频编码器20(图2)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频块的视频块及相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70熵解码位流以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可以基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧被译码为经帧间译码(例如,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。可从参考图片列表中的一者内的参考图片中的一者产生所述预测性块。视频解码器30可以基于存储在参考帧存储器82中的参考图片使用默认构造技术构造参考帧列表--列表0和列表1。运动补偿单元72通过剖析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码的当前视频块的预测性块。举例来说,运动补偿单元72使用一些接收到的语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态和用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可根据接收的语法元素而确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测性块。
逆量化单元76对提供于位流中且由熵解码单元70解码的经量化变换系数进行逆量化,例如,解量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算以确定应应用的量化程度及同样的逆量化程度的量化参数QPY
逆变换单元78对变换系数应用逆变换,例如逆DCT、逆整数变换或概念上类似的逆变换过程,以便产生像素域中的残余块。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自逆变换处理单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码的视频块。求和器80表示执行此求和运算的一或多个组件。必要时,还可应用解块滤波器以对经解码块进行滤波以便去除成块效应假象。其它环路滤波器(译码环路中或译码环路之后)也可用于使像素转变变平滑或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考帧存储器82中,参考帧存储器82存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频用于以后在显示装置(例如图1的显示装置32)上呈现。
HEVC中的运动补偿
通常,HEVC遵循先前视频译码标准的架构。HEVC的运动补偿环路保持与H.264/AVC中的相同,例如,当前帧的重构等于解量化系数r加时间预测P:
I ^ = r + P , - - - ( 1 )
其中P指示对P帧的单向预测或对B帧的双向预测。
HEVC中的运动补偿的单元不同于先前视频译码标准中的单元。在HEVC中不存在先前视频译码标准中的宏块的概念。宏块被基于通用四叉树方案的高度灵活阶层式结构代替。在此方案内,界定三个类型的块,例如译码单元(CU)、预测单元(PU)和变换单元(TU)。CU是区分裂的基本单元。CU类似于宏块的概念,但其不限制最大大小且其允许递归地分裂为四个相等大小的CU来改进内容适应性。PU是帧间/帧内预测的基本单元且其可在单一PU中含有多个任意形状的分区以有效地译码不规则的图像模式。TU是变换的基本单元。其可独立于PU而界定;然而,其大小受限于TU所属的CU。此将块结构分离为三个不同概念允许每一者根据其作用被优化,这导致改善的译码效率。
HEVC中的参考管理
在HEVC中,在参考参数集(RPS)的概念下在经解码图片缓冲器(DPB)中管理先前经解码图片用于参考。DPB中的图片可标记为“用于短期参考”、“用于长期参考”或“不用于参考”。一旦图片已标记为“不用于参考”,那么其可不再用于预测,且当其不再需要以用于输出时可将其从DPB移除。用于参考图片管理的RPS概念根本上不同于先前视频译码标准的参考图片管理。替代于用信号表示DPB的相对改变,在每个切片中用信号表示DPB的状态。HEVC开发中用于参考图片管理的目标是在所有符合标准的位流和解码器中具有基本水平的误差稳健性。
RPS的信令
HEVC中的每一切片标头必须包含用于用信号表示含有切片的图片的RPS的参数。仅有的例外时对于瞬时解码器刷新(IDR)切片不用信号表示RPS。实际上,将RPS推断为空的。对于并不属于IDR图片的I切片,即使它们属于I图片也可提供RPS,因为可存在按解码次序跟随所述I图片的图片,其使用从按解码次序在所述I图片之前的图片的帧间预测。RPS中的图片的数目不应超过如由序列参数集(SPS)中的sps_max_dec_pic_buffering语法元素指定的DPB大小限制。
每一图片与表示输出次序的图片次序计数(POC)值相关联。切片标头含有表示全POC值的最低有效位(也被称作POCLSB)的固定长度码字,pic_order_cnt_lsb。码字的长度在SPS中用信号表示且可在4与16位之间。RPS概念使用POC以识别参考图片。除其自身的POC值以外,每一切片标头直接含有或从SPS继承RPS中的每一图片的POC值的经译码表示。
用于每一图片的RPS由五个不同参考图片列表组成,也被称作五个RPS子集:
●RefPicSetStCurrBefore包括在解码次序和输出次序两者中在当前图片之前且可以用于当前图片的帧间预测的所有短期参考图片。
●RefPicSetStCurrAfter包括在解码次序中在当前图片之前、在输出次序中在当前图片之后且可以用于当前图片的帧间预测的所有短期参考图片。
●RefPicSetStFoll包括可以用于在解码次序中跟随当前图片的图片中的一或多者的帧间预测且不在当前图片的帧间预测中使用的所有短期参考图片。
●RefPicSetLtCurr包括可以用于当前图片的帧间预测的所有长期参考图片。
●RefPicSetLtFoll包括可以用于在解码次序中跟随当前图片的图片中的一或多者的帧间预测且不在当前图片的帧间预测中使用的所有长期参考图片。
RPS是在不同类型的参考图片上使用多达三个循环迭代而用信号表示:具有比当前图片低的POC值的短期参考图片、具有比当前图片高的POC值的短期参考图片,以及长期参考图片。另外,针对每一参考图片发送旗标(used_by_curr_pic_X_flag),其指示所述参考图片是否用于当前图片进行参考(包含在列表RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetLtCurr中的一者中)或不进行参考(包含在列表RefPicSetStFoll或RefPicSetLtFoll中的一者中)。
图片标记
在图片解码之前,通常将存在存在于DPB中的若干图片。其中一些可用于预测且因此标记为“用于参考”。其它的可能不可用于预测但等待输出,因此标记为“不用于参考”。当已剖析切片标头时,在切片数据经解码之前进行图片标记过程。存在于DPB中且标记为“用于参考”但不包含在RPS中的图片标记为“不用于参考”。如果used_by_curr_pic_X_flag等于零,那么忽略不存在于DPB中但包含在参考图片集中的图片。然而,如果used_by_curr_pic_X_flag改为等于一,那么此参考图片既定用于当前图片中的预测,但却丢失。随后,推断出无意的图片损失且解码器应采取适当动作。在解码当前图片之后,将其标记为“用于短期参考”。
短期参考图片集语法
下文提供用于短期参考图片集的语法的实例。
参考列表初始化
参考图片列表初始化基于三个RPS子集RefPicSetStCurrBefore、RefPicSetStCurrAfter和RefPicSetLtCurr而产生两个默认列表,列表0和列表1(如果切片是B切片)。具有较早输出次序的短期图片首先按到当前图片的POC距离的升序插入到列表0中,随后具有较晚输出次序的短期图片按到当前图片的POC距离的升序插入到列表0中,且最后在末端插入长期图片。类似地,具有较晚输出次序的短期图片首先按到当前图片的POC距离的升序插入到列表1中,随后具有较早输出次序的短期图片按到当前图片的POC距离的升序插入到列表1中,且最后在末端插入长期图片。在用于列表0的RPS方面,RefPicSetStCurrBefore中的条目插入在初始列表中,随后是RefPicSetStCurrAfter中的条目。然后,如果可用,那么附加RefPicSetLtCurr中的条目。在HEVC中,当列表中条目的数目小于作用中参考图片的目标数目(在图片参数集或切片标头中用信号表示)时重复以上过程(再次添加已经添加到参考图片列表的参考图片)。当条目的数目大于目标数目时截断列表。
H.264/AVC的可缩放扩展
下文提供可缩放视频译码、H.264/AVC的可缩放扩展的简短介绍。
SVC的结构
在图4中展示不同维度中的可缩放性的实例。在三个维度中启用可缩放性。在时间维度上,可通过时间可缩放性(T)410支持具有7.5Hz、15Hz或30Hz的帧速率。当支持空间可缩放性(S)420时,例如QCIF(四分之一通用中间格式)、CIF(通用中间格式)和4CIF等不同分辨率经启用。对于每一特定空间分辨率和帧速率,可添加SNR(Q)层430来改进图片质量。一旦已以此可缩放方式编码视频内容,便可使用提取器工具来根据应用要求调适实际递送的内容,所述应用要求取决于(例如)客户端或发射信道。在图4中展示的实例中,每一立方体450含有具有相同帧速率(时间层级)、空间分辨率和SNR层的图片。可通过在任何维度上添加那些立方体(图片)450来实现更好的表示。当启用两个、三个或更多可缩放性时,支持组合可缩放性。
根据SVC规范,具有最低空间及质量层的图片与H.264/AVC兼容,且最低时间层级处的图片形成时间基础层,所述时间基础层可使用较高时间层级处的图片来增强。除H.264/AVC兼容层之外,可添加若干空间和/或SNR增强层以提供空间和/或质量可缩放性。SNR可缩放性还被称作质量可缩放性。每一空间或SNR增强层自身可为时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。对于一个空间或SNR增强层,其所取决于的较低层还被称作所述特定空间或SNR增强层的基础层。
在图5中展示SVC译码结构的实例。具有最低空间和质量层的图片(层0(510)和层1(520)中的图片,具有QCIF分辨率)与H.264/AVC兼容。其中,最低时间层级的那些图片形成时间基础层,如图5的层0(510)中所展示。此时间基础层(层0(510))可以较高时间层级(层1(520))的图片增强。除H.264/AVC兼容层之外,可添加若干空间及/或SNR增强层以提供空间及/或质量可缩放性。举例来说,增强层可为具有与层2(530)相同的分辨率的CIF表示。在所述实例中,层3(540)是SNR增强层。如所述实例中所展示,每一空间或SNR增强层自身可为在时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。而且,增强层可增强空间空间分辨率及帧速率两者。举例来说,层4(550)提供4CIF增强层,其进一步将帧速率从15Hz增加到30Hz。
如图6中所展示,同一时间实例中的经译码切片在位流次序上是连续的,且在SVC的上下文中形成一个存取单元610。那些SVC存取单元610接着遵循解码次序,所述解码次序可不同于显示次序且(例如)是由时间预测关系来决定。
H.264/AVC的可缩放扩展的特征
SVC的一些功能性是从H.264/AVC继承的。与先前可缩放标准相比,下文回顾某些重要特征,例如层间预测和单环路解码。
单环路解码
为了保持低复杂性解码器,在SVC中,单环路解码是必选的。在单环路解码中,可使用单一运动补偿环路来解码每一支持的层。为了实现此目的,仅允许针对增强层宏块使用层间帧内预测,对于增强层宏块,位于同一地点的参考层信号经帧内译码。进一步需要使用受约束的帧内预测来译码用以层间预测较高层的所有层。
层间预测
SVC引入基于纹理、残余及运动的对空间及SNR可缩放性的层间预测。已将SVC中的空间可缩放性一般化为两个层之间的任何分辨率。可通过粗糙粒度可缩放性(CGS)或中等粒度可缩放性(MGS)来实现SNR可缩放性。在SVC中,两个空间或CGS层属于不同相依层(由NAL单元标头中的dependency_id指示),而两个MGS层可在相同的相依层中。一个相依层包含具有从0到较高值的quality_id的对应于质量增强层的质量层。在SVC中,利用层间预测方法以减少层间冗余。在以下段落中简要地介绍所述方法。
层间帧内预测
使用层间帧内预测的译码模式在SVC中被称为“BL内(IntraBL)”模式。以实现单环路解码,仅在作为受约束帧内模式而译码的基础层中具有位于同一地点的宏块(MB)的MB才可使用层间帧内预测模式。受约束帧内模式MB经帧内译码,而不参考来自相邻的经帧间译码MB的任何样本。
层间残余预测
如果指示MB使用残余预测,那么用于层间预测的基础层中的位于同一地点的MB必须为帧间MB且其残余可根据空间分辨率而被上取样。增强层与基础层之间的残余经译码。也就是说,增强层的当前帧的重构等于以下各者的总和:增强层的经解量化的系数re、来自增强层的时间预测Pe,及基础层的量化经正规化的残余系数rb
I ^ e = r e + P e + r b - - - ( 2 )
应注意在许多实施方案中,在图片水平缓冲所述残余。虽然在运行中的残余预测是可能的,但其将成本很高,因为其需要在位流中定位基础层块且再次剖析所述块以得到基础块残余。
层间运动预测
可缩放位于同一地点的基础层运动向量以产生用于增强层中的MB或MB分区的运动向量的预测符。另外,存在一种MB类型(被命名为基础模式),其针对每一MB发送一个旗标。如果此旗标为真且对应的基础层MB不是帧内,则运动向量、分割模式及参考索引全部从基础层导出。
HEVCSVC扩展
类似于H.264/AVC,HEVC也将具有可缩放视频译码扩展,其将至少提供时间可缩放性、SNR可缩放性和空间可缩放性。
用于HEVCSVC及3DV扩展的一般化残余预测
用于可缩放视频译码和3D视频译码的一般化残余预测(GRP)在以下申请案中描述:2012年7月10日申请的第61/670,075号美国临时申请案,2012年9月27日申请的第61/706,692号美国临时申请案,2013年7月2日申请的第13/933,588号美国申请案,2012年8月7日申请的第61/680,522号美国临时申请案,和2013年8月2日申请的第13/957,841号美国申请案,以上申请案的揭示内容以全文引用的方式并入本文。在此技术中,位于同一地点的参考层块的帧间预测残余可用以预测增强层中的当前块的那些残余。此方法可应用于帧间CU和跳过模式CU。此方法的框架的实例展示于图7中,其中说明单向预测的情况。
假设Be(725)和Bb(715)分别表示增强层图片中的当前块及其位于同一地点的参考层块。假设Pe0(720)表示通过使用运动向量MVe0(其中子索引0指代参考列表0)获得的用于块Be(725)的时间预测。类似地,假设Pb0(710)表示通过使用经上取样(必要时)参考图片中的同一运动向量MVe0获得的用于块Bb(715)的时间预测。随后,获得参考层块Rb0的帧间预测残余为:
Rb0=(Bb-Pb0),(3)
考虑用于块Be(725)的时间预测Pe0(720),用于块Be(725)的最终单向预测是
P=Pe0+w·(Bb-Pb0),(4)
其中w是加权因数,其采用值0、0.5或1。
在例如对于P帧的某些情况下,(4)的以下变型有时更有效
P=Bb+w·(Pe0-Pb0),(5)
其中w=0.5。因此,针对GRP模式提出四个加权模式,例如在(4)中的w=0、0.5和1和在(5)中的w=0.5。
加权因数w可在CU层级用信号表示为加权索引。举例来说,加权索引0、1、2和3(或按不同次序)可用以分别指示在(4)中的加权模式0、0.5和1和在(5)中的w=0.5。常规CABAC模式中的截断一元码可用于所述信令。
单个MC内插GRP
为了减少GRP的计算复杂性和存储器带宽要求,单个MC内插在2012年11月29日申请的第61/731,448号美国临时申请案中描述,所述申请案以全文引用的方式并入本文。在应用中,将(4)重写为(6),即
P=(Pe0-w·Pb0)+w·Bb(6)
考虑Pe0和Pb0共享同一运动,MC内插可直接应用于差分块(Pe0-w·Pb0)以使得MC内插的次数从二减少到一。因此,计算复杂性和存储器存取均减少。
仅高级语法SHVC
在仅高级语法SHVC中,当与HEVC单层译码相比时不存在新块层级译码工具。在此方法中允许仅切片和更高层级语法改变以及图片层级操作,例如图片滤波或上取样。
为了减少层之间的冗余,将经上取样的位于同一地点的参考层图片放入增强层的参考缓冲器中,以使得以与同一层中的帧间预测相同的方式实现层间预测。在SHVC的当前工作草案([5]陈,“SHVC工作草案1”)和测试模型([6]陈,“SHVC测试模型1”)中,将层间参考图片标记为长期参考图片。将层间参考的运动向量差约束为零。
仅高级语法SHVC中的GRP仿效
可如下所述在仅高级语法SHVC或多视图HEVC中仿效GRP。额外细节在2012年9月30日申请的第61/708,011号美国临时申请案、2013年1月7日申请的第61/749,874号美国临时申请案和2013年9月27日申请的第14/040,290号美国申请案中描述,以上申请案的揭示内容以全文引用的方式并入本文。
GRP参考图片的产生
通过以双向预测框架仿效块层级GRP预测可在仅高级语法SHVC中实现GRP。在此情况下,可仿效仅单向GRP预测。当前,存在三个GRP单向预测模式(例如,(3)-(5))如下:
P = P e 0 + 1 2 · ( B b - P b 0 ) = ( 2 · P e 0 - P b 0 ) + B b 2 - - - ( 7 )
P = P e 0 + ( B b - P b 0 ) = 2 · ( P e 0 - P b 0 ) + 2 · B b 2 - - - ( 8 )
P = B b + 1 2 · ( P e 0 - P b 0 ) = ( P e 0 - P b 0 ) + 2 · B b 2 - - - ( 9 )
此处,Bb指示用于当前图片的层间参考。对于GRP参考图片,POC和运动信息应与用以产生GRP参考的增强参考图片的那些相同。
预定义GRP参考图片的产生
为了保持差分图片中的像素样本的合理动态范围,如下定义两个类型的GRP参考图片:
RGhalf=min(max(0,2·Pe0-Pb0),2位深度-1)(10)
RGone=min(max(0,Pe0-Pb0+2位深度-1),2位深度-1)(11)
一般来说,RGhalf和RGone可每当增强层参考图片和(经上取样)位于同一地点的参考层图片两者可用时产生。
为了仿效(7)中的单向GRP预测,
P = ( 2 · P e 0 - P b 0 ) + B b 2 = RG h a l f + B b 2 - - - ( 12 )
基本上,当RGhalf和Bb用作参考图片时,可易于仿效(7)中的GRP。
对于(8)中的单向GRP预测,
对此情况,用于RGone和Bb两者的额外加权2和偏移-2位深度-1需要以经加权预测参数语法用信号表示([2]布洛斯,“HEVC规范草案10”)。
对于(9)中的单向GRP预测,
对此情况,用于Bb的额外加权2和偏移-2位深度-1需要以经加权预测参数语法用信号表示([2]布洛斯“HEVC规范草案10”)。
一般来说,对于每一增强参考图片,可产生GRP参考RGhalf和RGone且放入参考图片列表中以仿效GRP。然而,当译码图片时使用多少GRP参考图片可取决于编码器优化。
GRP参考图片的标记
差分图片存储在DPB中。如下产生差异图片参考图片集(DPRPS):
●对于RefPicSetLtCurr、RefPicSetLtFoll、RefPicSetStCurrBefore、RefPicSetStCurrAfter或RefPicSetStFoll中的每一图片,可将其差异图片插入到DPRPS中。
●从DPB移除不在DPRPS中的所有其它差异图片。
●可进一步选择DPRPS中的条目以决定哪些图片可用于预测当前图片。例如,仅选择最靠近当前图片的图片以形成currDiffRPS。在一个替代方案中,currDiffRPS等于DPRPS。
●另外,可从DPRPS移除更多的差异图片。
●currDiffRPS用于形式类似于层间参考图片集合的参考图片列表。
●currDiffRPS中的条目被标记为短期参考图片。
仅高级语法SHVC中的一般化残余预测的信令和管理
本发明可解决用于界定如何有效地用信号表示和管理GRP参考图片的解决方案。此外,在当前SHVC框架中,当对增强层中的当前图片进行译码时产生且使用仅一个层间参考图片。本发明提供如何提供管理多个层间参考图片的高效方式的描述。
本发明中描述的技术可产生GRP参考图片且将其放入增强层的参考图片列表中。GRP参考图片可共享与GRP参考图片基于其产生的增强层参考图片相同的运动信息和POC。举例来说,将GRP参考图片基于其产生的增强层参考图片的POC数目和运动字段复制到GRP参考图片。如上文所解释,POC可指代与图片相关联的指示所述图片的输出次序的值。POC数目可用以识别参考图片。运动字段可指代与图片中的各种块相关的运动信息且可包含一或多个运动向量。GRP参考图片是基于来自增强层参考图片的所复制POC数目和运动字段而产生。以此方式产生的GRP参考图片可存储在参考图片列表中。
在本发明中,在图片方面解释GRP参考和其它视频数据(例如,增强层参考、待重构的当前图片等),但所述技术也可应用于视频数据的其它单元(例如,帧等)。举例来说,所述技术可应用于GRP参考帧、增强层参考帧、当前帧等。在渐进译码的情况下,图片和帧可为相同的。
图8是说明根据本发明的方面的残余预测参考图片的产生的框图。图8展示针对时间T0的基础层(“BL”)参考810、增强层(“EL”)参考820和GRP参考830。BL参考810可为来自与增强层(例如,经上取样)相关联的基础层的参考。如上文所解释,GRP参考830可基于对应EL参考820而产生。在一个实施例中,EL参考820具有POC数目n。BL参考810也具有相同POC数目n。EL参考820具有与其相关联的运动字段,其包含运动向量。GRP参考830是基于EL参考820而产生以使得其具有与EL参考820相同的POC数目n且具有与EL参考820相同的运动字段。这可通过从EL参考820复制POC数目n和运动字段而完成。GRP参考830可存储在参考列表870中(例如,用于GRP参考830的特定子集中)。针对时间T1的EL当前图片或帧825可基于GRP参考830而重构。时间T1晚于时间T0。GRP参考830可产生但不输出。举例来说,GRP参考830可在预测中使用以产生图片的重构,但自身可不输出到显示装置。
在一个实施例中,可存在两个类型的GRP参考830,且可例如基于等式(10)和(11)如上文所解释产生GRP参考图片830。RGhalf、RGone或两者可取决于实施例而产生。RGhalf和RGone可反映不同加权因数。举例来说,RGhalf可反映0.5的加权,且RGone可反映1的加权;RGhalf可仿效具有加权因数0.5的块层级GRP,且RGone可仿效具有加权因数1的块层级GRP。在一个实施例中,为了仿效等式(7)中所示的具有加权0.5的块层级GRP,如(12)中所示使用RGhalf。在另一实施例中,为了仿效等式(8)中所示的具有加权1的块层级GRP,如等式(13)中所示使用RGone。在又一实施例中,RGone也可用以反映0.5的加权。举例来说,为了仿效等式(9)中所示的具有加权0.5的块层级GRP,如表达式(14)中所示使用RGone
使用GRP参考图片830可允许在仅高级语法SHVC中在块层级并入经加权残余预测。举例来说,在GRP中使用的加权因数已经应用于可以用于预测的GRP参考图片830。GRP参考图片830可共享与它们从其导出或产生的增强层参考图片820相同的运动字段和POC。使GRP参考830共享与对应增强层参考图片820相同的运动字段和POC可导致较好的预测结果。通常,增强层参考图片820具有较好质量运动字段,并因此,复制EL参考图片820的运动字段可提供较好预测结果。由于GRP参考830图片具有与EL参考图片820相同的POC,因此可存在更多参考图片可用于同一POC,其可导致较好预测结果。
所述技术还可用信号表示与GRP参考图片830相关的信息。所述技术可例如在视频参数集(VPS)或SPS中用信号表示是否将使用GRP参考图片830。所述技术还可用信号表示如何产生GRP参考图片830(例如,基于哪一短期参考以及用何种加权类型)。一般来说,仅一个参考图片可用于POC。由于以GRP参考830的产生,多个参考图片可为可用的,因此可在位流中用信号表示将使用哪一参考图片。可应用一符合约束,即属于同一图片的所有切片应共享相同的GRP参考信息。
所述技术可通过产生用于GRP参考图片的两个额外RPS子集RefPicSetGRPRefCurrBefore875a和RefPicSetGRPRefCurrAfter875b而管理GRP参考。这两个子集可以与RefPicSetStCurrBefore和RefPicSetStCurrAfter类似的方式管理。仅GRP参考图片830可放入这两个子集中。此外,GRP参考图片830不可放入其它子集中。可应用GRP参考图片830可仅用于当前图片825的符合限制以使得GRP参考图片830将不存储在DPB中。
可对GRP参考图片的使用应用各种符合限制。举例来说,可应用GRP参考图片830必须用作双向预测中的一对(GRP参考和层间参考)的符合限制。
用于GRP参考管理的技术也可以应用于其它产生的图片,例如经上取样参考层图片。举例来说,可在位流中,例如在切片标头中用信号表示如何产生/上取样位于同一地点的参考层图片。可应用任何产生的图片可仅用于当前图片825的符合限制以使得产生的图片将不存储在DPB中。
以此方式,所述技术可界定如何有效地用信号表示且管理GRP参考图片830,如下文进一步所解释。
工具启用/控制信令
所述技术可在VPS(用于每一增强层)或SPS中用信号表示旗标以指示GRP参考图片830是否将用于所述层。举例来说,以下语法可添加到SPS。
if(sps_extension_flag)
grp_ref_enabled_flag u(1)
等于1的grp_ref_enabled_flag指定GRP参考830将在所述层中使用。等于0的grp_ref_enabled_flag指定GRP参考830将不在所述层中使用。当grp_ref_enabled_flag不存在时,将其推断为0。
GRP参考图片的信令
所述技术可在位流中,例如在图片参数集(PPS)、切片标头和RPS中用信号表示GRP参考图片830的使用信息。下文描述用信号表示GRP参考图片830的各种实施例。
实施例1
在一个实施例中,在切片标头或PPS中用信号表示用于当前图片825的具有预定义类型(RGhalf和RGone)的GRP参考图片830的数目。所述用信号表示的数目可为RGhalf和RGone的总数目(例如,组合的RGhalf和RGone的总数目)。或者,可用信号表示这两个数目(例如,可单独地用信号表示RGhalf的数目和RGone的数目)。在此实施例中,针对当前图片825的每一短期参考图片产生RGhalf和RGone且放入RefPicSetGRPRefCurrBefore875a和RefPicSetGRPRefCurrAfter875b中直到达到GRP参考图片830的用信号表示的数目为止。当针对同一短期参考图片产生RGhalf和RGone两者时,将RGhalf放置在RGone之前。此实施例可仅用信号表示待产生的GRP参考830的数目,且可产生(例如,如预定义那样)RGhalf和RGone两者直到达到GRP参考830的用信号表示的数目为止。
实施例2
在此实施例中,在切片标头中用信号表示GRP参考图片830,如下:
grp_ref_s0_flag[i]和grp_ref_s1_flag[i]指定是否将基于短期参考图片产生GRP参考图片。当grp_ref_s0_flag[i](grp_ref_s1_flag[i])等于0时,将不基于短期参考图片产生GRP参考图片。当grp_ref_s0_flag[i](grp_ref_s1_flag[i])等于1时,将基于短期参考图片产生RGhalf。或者,当grp_ref_s0_flag[i](grp_ref_s1_flag[i])等于1时,将基于短期参考图片产生RGone。当grp_ref_s0_flag[i]和grp_ref_s1_flag[i]不存在时,它们推断为0。在此实施例中,将产生仅一个或另一类型的两个GRP参考类型。使用哪一类型的GRP参考可为预定义的。举例来说,当grp_ref_s0_flag[i](grp_ref_s1_flag[i])等于1时使用仅RGhalf或使用仅RGone
实施例3
在此实施例中,在切片标头中用信号表示GRP参考图片830,如下:
grp_ref_s0_idc[i]和grp_ref_s1_idc[i]指定如何基于短期参考图片产生GRP参考图片830。当grp_ref_s0_idc[i](grp_ref_s1_idc[i])等于0时,将不基于短期参考图片产生GRP参考图片。当grp_ref_s0_idc[i](grp_ref_s1_idc[i])等于1时,将基于短期参考图片产生RGhalf。当grp_ref_s0_idc[i](grp_ref_s1_idc[i])等于2时,将基于短期参考图片产生RGone。当grp_ref_s0_idc[i](grp_ref_s1_idc[i])等于3时,将基于短期参考图片产生RGhalf和RGone两者。当grp_ref_s0_idc[i]和grp_ref_s1_idc[i]不存在时,它们推断为0。grp_ref_s0_idc[i]和grp_ref_s1_idc[i]可以2位固定译码或截断一元译码而译码。
在此实施例中,可产生所有类型的GRP参考830。取决于grp_ref_s0_idc[i](grp_ref_s1_idc[i])的值,如上文所解释可产生RGhalf或RGone或两者或均不产生。此实施例可用信号表示比实施例1、2和4多的信息。
实施例4
由于译码效率与复杂性之间的折衷,可仅基于短期参考图片中的一些而产生GRP参考830。在一个实施例中,可在切片标头中用信号表示GRP参考信息,如下:
等于1的one_grp_ref_in_one_list指定将基于用于P切片的列表0中的第一短期参考图片产生一个GRP参考图片且将基于用于B切片的列表0和列表1中的第一短期参考图片产生两个GRP参考图片830(每一列表具有一个GRP参考)。等于0的one_grp_ref_in_one_list指定对此切片将不产生GRP参考图片。当one_grp_ref_in_one_list不存在时,推断其为0。此实施例针对列表0和/或列表1中的仅第一短期参考图片产生GRP参考图片830,并因此可减少信令量。产生的GRP参考图片的类型可为预定义的(例如,RGhalf或RGone)。
GRP参考管理
所述技术还可提供以高效方式管理GRP参考图片830的方法。
以GRP参考图片的参考列表初始化
在一个实施例中,除RPS的五个子集875之外,还为GRP参考图片830提供两个新子集。所述两个新子集875a、b可被称为RefPicSetGRPRefCurrBefore875a和RefPicSetGRPRefCurrAfter875b。GRP参考图片可仅添加到这两个子集875a、b中。
●RefPicSetGRPRefCurrBefore875a由具有比当前图片825小的POC的所有GRP参考图片830组成。所述列表是按POC值的降序初始化。当两个GRP参考图片830共享同一POC时,首先放置具有GRP引用类型RGhalf的一者。或替代地,首先放置RGone
●RefPicSetGRPRefCurrAfter875b由具有比当前图片825大的POC的所有GRP参考图片830组成。所述列表是按POC值的升序初始化。当两个GRP参考图片830共享同一POC时,首先放置具有GRP参考类型RGhalf的一者。或替代地,首先放置RGone
当初始化参考列表时,RefPicSetGRPRefCurrBefore875a和RefPicSetGRPRefCurrAfter875b中的条目循序地插入在RefPicSetLtCurr中的那些条目之后。替代地,RefPicSetGRPRefCurrBefore875a和RefPicSetGRPRefCurrAfter875b中的条目循序地插入在RefPicSetLtCurr875b中的那些条目之前。
对GRP参考图片的使用的符合限制
产生GRP参考图片的目的中的一者是仿效仅高级语法SHVC中的GRP译码模式。因此,可进一步约束GRP参考图片830可仅在双向预测中与相关上取样参考层图片一起使用,如(12)、(13)和(14)中示出。这可导致较好的预测结果。
可应用另一符合限制,即产生的GRP参考图片830可仅用于当前图片825以使得它们在当前图片825经解码之后将不会放入DPB中。
其它产生的层间参考图片的管理
类似于GRP参考图片830,层间参考图片可能不是经解码图片,但可基于位于同一地点的参考层图片而产生。与GRP参考图片830相关的技术也可以用于层间参考图片。
在一个实施例中,启用自适应上取样滤波器或第二上取样滤波器。因此,可存在用于当前图片825的层间参考图片的一个以上版本。当初始化参考列表时,应首先插入来自最近参考层的层间图片。当层间图片是来自同一参考层时,通过自适应上取样滤波器或第二上取样滤波器产生的一者应插入在以默认上取样滤波器产生的一者之后。
此外,可在位流中,例如在SPS、PPS、切片标头或RPS中用信号表示层间参考图片的数目。可应用另一符合限制,即所有层间参考图片可仅用于当前图片825以使得它们在当前图片825经解码之后将不会放入DPB中。
图9是说明根据本发明的方面的用于产生残余预测参考图片且用信号表示相关信息的实例方法的流程图。过程900可由编码器(例如,如图2中所示的编码器等)、解码器(例如,如图3中所示的解码器等)或任何其它组件执行。相对于图2中的编码器20描述过程900的框,但可通过如上文所提及的其它组件(例如解码器)执行过程900。另外,相对于图9所描述的所有实施例可单独地或彼此组合地实施。上文例如相对于图8阐释与过程900相关的某些细节。
如上文所解释,GRP参考图片也可被称作残余预测参考图片(“RPRP”)。过程900在框901处开始。在框902处,编码器20确定残余预测参考图片是否将可用于在解码器处的图片的重构。编码器20可基于各种因数做出决策,例如速率失真折衷、计算复杂性、存储器存取要求、编码器优化等。在某些实施例中,可经重构除图片外的视频单元,例如切片群组、切片等。
在框903处,编码器20对关于产生残余预测参考图片的信息进行编码。所述信息可包含关于如何至少部分地基于与增强层相关联的对应增强层参考图片产生残余预测参考图片的信息。举例来说,可基于来自增强层的增强层参考图片产生残余预测参考图片。残余预测参考图片可经配置以具有与所述残余预测参考图片将从其产生的增强层参考图片相同的运动字段和相同的图片次序计数(POC)。所述信息可包含残余预测参考图片的使用是否经启用。举例来说,编码器20可对指示残余预测参考图片的使用经启用或未经启用的旗标进行编码。
编码器20可如上文所解释以各种方式用信号表示所述信息。在一些实施例中,解码器可经预配置以用某一方式产生残余预测参考图片(例如,产生仅RGhalf、仅RGone或两者),且编码器20仅用信号表示将产生的残余预测参考图片的数目。在其它实施例中,解码器经预配置以产生特定类型的残余预测参考图片(例如,产生仅RGhalf或RGone),且编码器20用信号表示指示是否应产生所述特定类型的残余预测参考图片的一或多个语法元素。举例来说,如果旗标指示值1,那么其意味着产生预定义类型的残余预测参考图片,且如果所述旗标指示值0,那么其意味着不产生预定义类型的残余预测参考图片。
在某些实施例中,解码器经配置以产生不同类型的残余预测参考图片,且编码器20用信号表示指示是否应产生残余预测参考图片以及应产生哪一类型的残余预测参考图片的一或多个语法元素。举例来说,旗标可指示多个值,且每一值可与将产生哪一(哪些)类型的残余预测参考图片相关联。在以上实施例3中,0意味着不产生残余预测参考图片,1意味着产生RGhalf,2意味着产生RGone,且3意味着产生RGhalf和RGone两者。
在一些实施例中,解码器可经配置以仅基于参考图片列表中的第一短期参考图片产生残余预测参考图片。编码器20仅用信号表示是否产生残余预测参考图片。举例来说,旗标具有值1以指示应产生残余预测参考图片,且具有值0以指示不应产生残余预测参考图片。
所述信息还可包含与各种约束或符合限制相关的信息。此些约束或符合限制的实例可包含:
●属于同一图片的切片应共享相同的GRP参考信息。举例来说,图片的所有切片具有参考列表中的相同GRP参考。
●GPR参考应成对使用。举例来说,应基于至少两个GRP参考而重构增强层的图片。
●GRP参考图片应与层间参考图片一起使用。举例来说,应基于GRP参考图片和参考层的经上取样的位于同一地点的参考图片而重构增强层的图片。参考层可对应于与GRP参考图片基于其产生的增强层参考图片相关联的增强层。
●GPR参考图片可仅用于当前图片以使得其不被放入DPB中。
这些约束可在解码器处经解码或推断且在残余预测参考图片的产生中应用。
在框904处,编码器20在位流中用信号表示经编码信息。所述经编码信息可用信号表示给解码器以进行解码。所述信息可在切片或更高层级指定。举例来说,所述经编码信息可在图片参数集(PPS)、视频参数集(VPS)、序列参数集(SPS)、参考参数集(RPS)、切片标头等中指定。下文相对于图10阐释与用信号表示的信息的解码相关的某些细节。过程900在框905处结束。
编码器20可包含经配置以存储与可缩放视频译码中的视频信息的一或多个层相关联的至少一个参考图片列表的存储器单元。编码器20可产生和/或存储残余预测参考图片,例如以在对关于产生残余预测参考图片的信息进行编码的过程中参考。
图10是说明根据本发明的方面的用于基于用信号表示的信息产生残余预测参考图片的实例方法的流程图。过程1000可由编码器(例如,如图2中所示的编码器等)、解码器(例如,如图3中所示的解码器等)或任何其它组件执行。相对于图3中的解码器30描述过程1000的框,但可通过如上文所提及的其它组件(例如编码器)执行过程1000。相对于图10所描述的所有实施例可单独地或彼此组合地实施。上文例如相对于图8和9阐释与过程1000相关的某些细节。
过程1000在框1001处开始。在框1002处,解码器30对关于残余预测参考图片产生的用信号表示的信息进行解码。所述用信号表示的信息可包含上文相对于图9阐释的信息。举例来说,所述用信号表示的信息可指示是否产生残余预测参考图片和/或产生哪一类型的残余预测参考图片。取决于实施例,用信号表示的信息中包含的信息可变化。结合图9描述若干实施例,且用信号表示的信息可包含这些各种实施例中的信息中的任一者。
所述用信号表示的信息可包含残余预测参考图片的使用是否经启用。举例来说,旗标可指示残余预测参考图片的使用经启用或未经启用。所述用信号表示的信息可在切片或更高层级指定。举例来说,用信号表示的信息可在图片参数集(PPS)、视频参数集(VPS)、序列参数集(SPS)、参考参数集(RPS)、切片标头等中指定。上文相对于图9阐释与用信号表示的信息的编码相关的某些细节。
关于是否产生和/或如何产生残余预测参考图片的信息可以不同方式用信号表示。在一些实施例中,解码器30可经配置以用某一方式产生残余预测参考图片(例如,产生仅RGhalf、仅RGone或两者),且用信号表示的信息包含将产生的残余预测参考图片的数目。在其它实施例中,解码器30经配置以产生特定类型的残余预测参考图片(例如,产生仅RGhalf或RGone),且用信号表示的信息包含指示是否应产生所述特定类型的残余预测参考图片的一或多个语法元素。举例来说,如果旗标指示值1,那么其意味着产生预定义类型的残余预测参考图片,且如果所述旗标指示值0,那么其意味着不产生预定义类型的残余预测参考图片。
在某些实施例中,解码器30经配置以产生不同类型的残余预测参考图片,且用信号表示的信息包含指示是否应产生残余预测参考图片以及应产生哪一类型的残余预测参考图片的一或多个语法元素。举例来说,旗标可指示多个值,且每一值可与将产生哪一(哪些)类型的残余预测参考图片相关联。在以上实施例3中,0意味着不产生残余预测参考图片,1意味着产生RGhalf,2意味着产生RGone,且3意味着产生RGhalf和RGone两者。
在一些实施例中,解码器30可经配置以仅基于参考图片列表中的第一短期参考图片产生残余预测参考图片。用信号表示的信息仅指示是否产生残余预测参考图片。举例来说,旗标具有值1以指示应产生残余预测参考图片,且具有值0以指示不应产生残余预测参考图片。
图9中描述的约束和/或符合限制中的任一者可由解码器30应用。与所述约束或限制相关的信息可从用信号表示的信息解码,可基于用信号表示的信息推断,或此两种情况。约束或符合限制的一些实例可包含:
●属于同一图片的切片应共享相同的GRP参考信息。举例来说,图片的所有切片具有参考列表中的相同GRP参考。
●GPR参考应成对使用。举例来说,应基于至少两个GRP参考而重构增强层的图片。
●GRP参考图片应与层间参考图片一起使用。举例来说,应基于GRP参考图片和参考层的经上取样的位于同一地点的参考图片而重构增强层的图片。参考层可对应于与GRP参考图片基于其产生的增强层参考图片相关联的增强层。
●GPR参考图片可仅用于当前图片以使得其不被放入DPB中。
这些约束或限制可在产生残余预测参考图片或重构增强层的图片中应用。解码器30可根据预定义语法对用信号表示的信息进行解码,且在产生一或多个残余预测参考图片中使用经解码信息。
在框1003处,解码器30基于增强层参考图片和经解码用信号表示的信息而产生残余预测参考图片。残余预测参考图片可基于增强层中的参考图片而产生且存储在增强层的参考图片列表中。产生的残余预测参考图片可具有与所述残余预测参考图片从其产生的增强层参考图片相同的运动字段和相同的图片次序计数(POC)。在一个实施例中,残余预测参考图片是以一方式产生以使得残余预测参考图片具有与增强层参考图片相同的运动字段和POC。举例来说,残余预测参考图片使用与其基于的增强层参考图片相同的运动字段,且将用于增强层参考图片的相同POC指派给残余预测参考图片。
在框1004处,解码器30将产生的残余预测参考图片存储在存储器单元中的增强层的至少一个参考图片列表中。残余预测参考图片可经存储且在预测中使用,但可不输出(例如,到显示装置)。解码器30可具有其中将存储残余预测参考图片的额外RPS子集。仅残余预测参考图片可存储在这些RPS子集中,且残余预测参考图片不可存储在增强层参考列表的其它现有子集中。
解码器30可基于残余预测参考图片产生增强层的经重构图片。在一个实施例中,解码器30产生增强层的参考层的经上取样的位于同一地点的参考图片,且基于残余预测参考图片和参考层的经上取样的位于同一地点的参考图片而产生增强层的经重构图片。举例来说,这可当GRP参考与层间参考一起使用的约束时完成。在某一实施例中,残余预测参考图片可仅用于当前图片以使得其不被放到DPB中。
这些技术可在仅高级语法SHVC中使用。在仅高级语法SHVC中,用信号表示的信息是在切片层级或更高层级指定。因为GRP在块层级不可用,所以解码器30可产生增强层的经重构图片而无需将加权因数应用于与增强层相关联的参考层中的对应图片的残余。实际上,解码器30可使用一或多个残余预测参考图片。过程1000在框1005处结束。
本发明中相对于GRP参考描述的任何特征和/或实施例可单独地或以其任何组合来实施。
在仅高级语法SHVC中仿效GRP的另一方法
在[7]阿民娄“增强层间参考图片”中,提出在仅高级语法SHVC中仿效GRP的另一方法。在此方法中,使用基础层运动信息、基础层参考帧和增强层参考产生称为增强层间参考(“EILR”)图片的新参考帧。以此新产生的参考帧,可仿效块层级GRP。
EILR图片是通过将来自增强层的经运动补偿高频分量添加到基础层的经重构样本值而产生。如图11中所示,对于EILR1150(H(x,y))1125的每一块,对应位于同一地点的块位于基础层(B(x,y))1115中,且提取其运动信息,包含参考帧和运动向量(MVBL)。使用基础层运动信息,通过从基础层参考图片(R′(x,y))1110和对应增强层参考图片(R(x,y))1120的经运动补偿预测而产生两个块。随后,计算这两个块之间的差(D(x,y))1130,乘以权重因数(w)且添加到基础层参考帧的位于同一地点的块1115的样本值以形成EILR1150的块1125。在[7]阿民娄中,使用用于明度分量的加权因数7/8和用于色度分量的加权因数1(即,不加权)。
在[8]何“差分译码的ILR增强”中,权重因数由编码器确定且用信号表示给解码器。然而,为了减少计算复杂性和存储器存取要求,可将GRP块的运动向量舍入到整数像素位置,如2013年3月8日申请的第61/775,352号美国临时申请案、2013年3月19日申请的第61/803,368号美国临时申请案、2013年6月7日申请的第61/832,623号美国临时申请案和2014年1月7日申请的第14/149,260号美国申请案中描述,以上申请案的揭示内容以全文引用的方式并入本文。
在本发明中,各种实施例是针对改善以下方面:
●在[7]阿民娄中介绍的GRP参考的产生并不非常高效,但在计算复杂性方面是复杂的。
●在将GRP参考插入到增强层的参考列表中之后,GRP参考的使用不受约束,其导致在译码性能和实施成本方面的较低效率。
●由于高计算复杂性和高存储器存取要求,在GRP参考产生期间不需要运动补偿内插。虽然运动向量可舍入到整数像素位置,但无法完全解决问题,因为整数像素准确性运动向量仍可导致色度分量的运动补偿内插,尤其是关于呈4:2:0颜色格式的视频内容。
根据本发明的某些方面,GRP参考图片是通过位于同一地点的基础层块以及增强层参考与基础层参考之间的运动补偿差直接产生,而不需要任何额外加权因数。在一个实施例中,GRP参考图片是根据等式(10)和(11)产生,而不需要并入额外加权因数(例如,仅提供加权因数0.5和1,且不提供其它加权因数)。在某些实施例中,以全文引用的方式并入本文的2013年1月30日申请的第61/758,723号美国临时申请案中描述的3分接头或4分接头上取样/平滑滤波器可以用于导出增强层参考与基础层参考之间的运动补偿差。在此类实施例中,可如下产生GRP参考。当位于同一地点的基础层块不具有运动向量或经帧内译码时,基础层的经上取样/经滤波重构用于GRP参考中的位于同一地点的块。替代地,对于基础块假定例如零运动的默认运动向量以产生GRP参考中的位于同一地点的块。替代地,来自相邻块的运动向量用以产生GRP参考中的位于同一地点的块。
如上所提到,为了产生GRP图片中的块,通过位于同一地点的基础层块的经按比例缩放MV来指示基础层中的位于同一地点的基础层块的参考图片。随后,将增强层中的对应参考图片设定成属于与基础层的参考图片相同的存取单元的增强层图片。有可能希望的增强层和/或参考层可不存在于经译码位流中。当通过用以形成GRP图片中的当前块的位于同一地点的基础块(经帧间译码)的MV指示的增强层中的两个参考中的一者不可用时,通过使用单向预测产生块。当位于同一地点的基础块(经帧间译码)的两个参考在增强层中不可用时,块可被视为经帧内译码,且以下操作中的任一者可适用:
●如果位于同一地点的基础块(经帧间译码)的参考不可用,那么在同一参考列表中的增强层和基础层两者中可用的第一参考可用以导出运动补偿差。在此情况下,应基于时间距离(例如,POC差)按比例缩放新参考的运动向量。
●使用位于同一地点的基础块以形成GRP参考图片中的当前块。
GRP参考图片的运动字段可以与层间参考图片(经上取样的位于同一地点的基础图片)的方式相同的方式产生。用以导出增强参考与基础层参考之间的运动补偿差的运动补偿过程可基于GRP参考图片的所产生运动字段且基于运动字段中的最小单元大小的层级,例如16x16块的层级。
当将GRP参考插入参考列表中时:
●GRP参考图片可经标记为短期参考且可具有非零运动向量。
●GRP参考图片可经标记为长期参考且必须具有零运动。
●可应用GRP参考图片可仅用于当前增强图片且将不放入DPB中的约束。
●GRP参考图片可仅用作单向预测的源的约束,意味着其无法成为双向预测的元素。
当初始化增强参考列表时,GRP参考图片可恰好放置在层间参考图片之前。替代地,GRP参考图片代替层间参考图片。类似于GRP参考,可通过以基础层运动和增强参考产生用于增强层的新参考帧而仿效例如2013年1月7日申请的第61/749,865号美国临时申请案、2012年12月7日申请的第61/734,920号美国临时申请案和2013年1月4日申请的第61/749,077号美国临时申请案中描述的推断模式等一些其它低层级工具,以上申请案中的每一者的揭示内容以全文引用的方式并入本文。
当产生GRP参考图片时,可使用经舍入的运动向量以使得对于明度和色度分量两者不需要运动补偿内插。在一个实施例中,明度和色度分量共享同一经舍入的运动向量。当视频内容呈4:2:0颜色格式时,以双像素准确性舍入运动向量以保证对于色度分量不需要运动补偿内插。当视频内容呈4:2:2颜色格式时,以双像素准确性舍入运动向量的水平分量,同时以整数像素准确性舍入运动向量的垂直分量。
在另一实施例中,同一运动向量的不同经舍入的版本用于明度和色度分量以确保不需要运动补偿内插。例如对于呈4:2:0颜色格式的视频,块的运动向量(以1/4像素准确性且以32位表示)是(MVx,MVy)。对于明度分量,经舍入的MV可为((MVx+4)&0xFFFFFFFC,(MVy+4)&0xFFFFFFFC)。对于色度分量,经舍入的MV可为((MVx+8)&0xFFFFFFF8,(MVy+8)&0xFFFFFFF8)。应注意此处“&”指示逐位逻辑运算“与”。
运动向量可始终朝向零、正无限处或负无限处舍入。替代地,运动向量可基于其值而朝向正/负无限处舍入。举例来说,运动向量的垂直分量当其为正时朝向正无限处舍入,且当其为负时朝向负无限处舍入。类似地,运动向量的水平分量可当其为正时朝向正无限处舍入,且当其为负时朝向负无限处舍入。
GRP参考图片产生
在此实施例中,GRP参考图片是基于经重构位于同一地点的基础层块而产生。假设IB指示经上取样的位于同一地点的基础图片。假设IB的运动字段已通过与用于产生层间参考的运动字段的运动映射相同的运动映射产生。假设B表示IB中的PU,MV表示B中的运动向量,且Re、R′b分别指示增强参考和经上取样/平滑基础参考。GRP参考中的位于同一地点的块可如下产生:
RGRP=B+w·MV(Re-R′b),(15)
其中MV(R)指示具有运动向量MV的参考R中的参考块。w指示经加权因数,且w的典型值可为1。w的值是基于切片类型或其它切片层级或更高层级信息而预定义的。w也可以在位流中用信号表示。当在位流中用信号表示时,w可基于预定义值而经量化。额外滤波可应用于B、Re、R′b、MV(Re-R′b)或任一组合。当块B具有两个运动向量时,可使用(15)的双向形式。当块B经帧内译码时,MV(R)可被视为0以使得RGRP=B。产生的GRP参考可共享与位于同一地点的基础图片的POC相同的POC。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同序列执行,可添加、合并或全部省略(例如,实践所述技术并不需要所有的所描述动作或事件)。此外,在某些实例中,可(例如)通过多线程处理、中断处理或多个处理器同时而非顺序地执行动作或事件。
可使用多种不同技术及技艺中的任一者来表示本文中所揭示的信息及信号。举例来说,可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可在整个以上描述中参考的数据、指令、命令、信息、信号、位、符号及码片。
结合本文揭示的实施例所描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清晰地说明硬件与软件的此可互换性,上文已大体就其功能性而言描述了各种说明性组件、块、模块、电路和步骤。此类功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式来实施所描述的功能性,但这样的实施方案决策不应被解释为会导致脱离本发明的范围。
本文中所描述的技术可以硬件、软件、固件或其任一组合来实施。所述技术可实施于多种装置中的任一者中,例如通用计算机、无线通信装置手持机或集成电路装置,其具有包含在无线通信装置手持机及其它装置中的应用的多种用途。被描述为模块或组件的任何特征可共同实施于集成的逻辑装置中或单独实施为离散但可互操作的逻辑装置。如果以软件实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体来实现,所述程序代码包含在执行时执行上文所描述的方法中的一或多者的指令。计算机可读数据存储媒体可形成计算机程序产品的一部分,所述计算机程序产品可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体,例如随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等。另外或作为替代,所述技术可至少部分地由计算机可读通信媒体来实现,所述计算机可读通信媒体以指令或数据结构的形式载运或传送程序代码且可由计算机存取、读取和/或执行(例如,传播的信号或波)。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效集成或离散逻辑电路。此处理器可经配置以执行本发明中描述的技术中的任一者。通用处理器可为微处理器;但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、一或多个微处理器与DSP核心的联合,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指代上述结构中的任一者、上述结构的任何组合,或适用于实施本文中所描述的技术的任何其它结构或设备。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(编解码器)中。
已描述本发明的各种实施例。这些和其它实施例在所附权利要求书的范围内。

Claims (30)

1.一种用于对视频信息进行解码的设备,所述设备包括:
存储器单元,其经配置以存储增强层的至少一个参考图片列表,所述至少一个参考图片列表包括残余预测参考图片信息;以及
处理器,其操作性地耦合到所述存储器单元且经配置以:
对关于残余预测参考图片产生的用信号表示的信息进行解码;
基于增强层参考图片和所述经解码用信号表示的信息而产生残余预测参考图片以使得所述产生的残余预测参考图片具有与所述残余预测参考图片从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数POC;以及
将所述产生的残余预测参考图片存储在所述增强层的所述至少一个参考图片列表中。
2.根据权利要求1所述的设备,其中图片的多个切片具有相同的所述产生的残余预测参考图片。
3.根据权利要求1所述的设备,其中所述用信号表示的信息包括指示是否使用残余预测参考图片的旗标,且其中所述处理器进一步经配置以当所述旗标指示使用残余预测参考图片时产生所述残余预测参考图片。
4.根据权利要求1所述的设备,其中所述处理器进一步经配置以将所述产生的残余预测参考图片存储在包含仅残余预测参考图片的参考参数集RPS子集中。
5.根据权利要求1所述的设备,其中所述用信号表示的信息包括将产生的残余预测参考图片的数目。
6.根据权利要求1所述的设备,其中所述残余预测参考图片与选自多个类型的残余预测参考的类型相关联。
7.根据权利要求6所述的设备,其中所述用信号表示的信息包括指示是否产生所述残余预测参考图片的一或多个语法元素,且其中所述多个类型的残余预测参考中的仅一者可用于将产生的所述残余预测参考图片。
8.根据权利要求6所述的设备,其中所述多个类型的残余预测参考图片中的至少两个类型可用,且所述用信号表示的信息包括指示是否产生所述残余预测参考图片且指示所述残余预测参考图片的所述至少两个类型中的一者的一或多个语法元素。
9.根据权利要求1所述的设备,其中所述处理器进一步经配置以:
基于所述残余预测参考图片产生所述增强层的经重构图片。
10.根据权利要求9所述的设备,其中所述处理器进一步经配置以:
产生所述增强层的参考层的经上取样的位于同一地点的参考图片;以及
基于所述残余预测参考图片和所述参考层的所述经上取样的位于同一地点的参考图片而产生所述增强层的所述经重构图片。
11.根据权利要求9所述的设备,其中所述残余预测参考图片不放入经解码图片缓冲器DPB中。
12.根据权利要求1所述的设备,其中所述用信号表示的信息是在切片层级或更高层级指定。
13.根据权利要求9所述的设备,其中所述处理器进一步经配置以产生所述增强层的所述经重构图片而不需要将加权因数应用于与所述增强层相关联的参考层中的对应图片的残余。
14.根据权利要求1所述的设备,其中所述用信号表示的信息是在选自以下各者的层级指定:图片参数集PPS、视频参数集VPS、序列参数集SPS、参考参数集RPS,或切片标头。
15.根据权利要求1所述的设备,其中所述设备选自由以下各者中的一或多者组成的群组:桌上型计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、智能电话、智能板、电视、相机、显示装置、数字媒体播放器、视频游戏控制台,和视频流式传输装置。
16.一种对视频信息进行解码的方法,所述方法包括:
使用操作性地耦合到存储器单元的处理器对关于残余预测参考图片产生的用信号表示的信息进行解码;
基于增强层的增强层参考图片和所述经解码用信号表示的信息而产生残余预测参考图片以使得所述产生的残余预测参考图片具有与所述残余预测参考图片从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数POC;以及
将所述产生的残余预测参考图片存储在所述存储器单元中的所述增强层的至少一个参考图片列表中。
17.根据权利要求16所述的方法,其中所述残余预测参考图片与选自多个类型的残余预测参考的类型相关联。
18.根据权利要求17所述的方法,其中所述用信号表示的信息包括指示是否产生所述残余预测参考图片的一或多个语法元素,且其中所述多个类型的残余预测参考中的仅一者可用于将产生的所述残余预测参考图片。
19.根据权利要求17所述的方法,其中所述多个类型的残余预测参考图片中的至少两个类型可用,且所述用信号表示的信息包括指示是否产生所述残余预测参考图片且指示所述残余预测参考图片的所述至少两个类型中的一者的一或多个语法元素。
20.一种用于对视频信息进行编码的设备,所述设备包括:
存储器单元,其经配置以存储与可缩放视频译码中的视频信息的一或多个层相关联的至少一个参考图片列表;以及
处理器,其操作性地耦合到所述存储器单元且经配置以:
对关于至少部分地基于与增强层相关联的对应增强层参考图片产生残余预测参考图片的信息进行编码,所述残余预测参考图片经配置以具有与所述残余预测参考图片将从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数POC;以及
在位流中用信号表示所述经编码信息。
21.根据权利要求20所述的设备,其中所述处理器进一步经配置以应用图片的多个切片具有相同的所述产生的残余预测参考图片的约束。
22.根据权利要求20所述的设备,其中所述经编码信息包括将产生的残余预测参考图片的数目。
23.根据权利要求20所述的设备,其中所述残余预测参考图片与选自多个类型的残余预测参考的类型相关联。
24.根据权利要求23所述的设备,其中所述多个类型包含表示0.5的加权因数的第一类型和表示1的加权因数的第二类型。
25.根据权利要求23所述的设备,其中所述经编码信息包括指示是否产生所述残余预测参考图片的一或多个语法元素,且其中所述多个类型的残余预测参考中的仅一者可用于将产生的所述残余预测参考图片。
26.根据权利要求23所述的设备,其中所述多个类型的残余预测参考图片中的至少两个类型可用,且所述经编码信息包括指示是否产生所述残余预测参考图片且指示所述残余预测参考图片的所述至少两个类型中的一者的一或多个语法元素。
27.根据权利要求20所述的设备,其中所述经编码信息包括指示是否基于与所述增强层相关联的参考图片列表中的第一短期参考图片产生所述残余预测参考图片的一或多个语法元素。
28.根据权利要求20所述的设备,其中所述经编码信息是在选自以下各者的层级指定:图片参数集PPS、视频参数集VPS、序列参数集SPS、参考参数集RPS,或切片标头。
29.一种对视频信息进行编码的方法,所述方法包括:
使用操作性地耦合到存储器单元的处理器对关于至少部分地基于与增强层相关联的对应增强层参考图片产生残余预测参考图片的信息进行编码,
其中所述残余预测参考图片经配置以具有与所述残余预测参考图片将从其产生的所述增强层参考图片相同的运动字段和相同的图片次序计数POC,且
其中所述存储器单元经配置以存储与可缩放视频译码中的视频信息的一或多个层相关联的至少一个参考图片列表;以及
在位流中用信号表示所述经编码信息。
30.根据权利要求29所述的方法,其中所述残余预测参考图片与选自多个类型的残余预测参考的类型相关联,且其中所述多个类型的残余预测参考图片中的至少两个类型可用,且所述经编码信息包括指示是否产生所述残余预测参考图片且指示所述残余预测参考图片的所述至少两个类型中的一者的一或多个语法元素。
CN201480017850.0A 2013-04-05 2014-04-02 仅高级语法shvc中的一般化残余预测及其信令和管理 Expired - Fee Related CN105052142B (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201361809216P 2013-04-05 2013-04-05
US61/809,216 2013-04-05
US201361811070P 2013-04-11 2013-04-11
US61/811,070 2013-04-11
US201361845037P 2013-07-11 2013-07-11
US61/845,037 2013-07-11
US14/242,679 2014-04-01
US14/242,679 US9380305B2 (en) 2013-04-05 2014-04-01 Generalized residual prediction in high-level syntax only SHVC and signaling and management thereof
PCT/US2014/032707 WO2014165613A1 (en) 2013-04-05 2014-04-02 Generalized residual prediction in high-level syntax only shvc and signaling and management thereof

Publications (2)

Publication Number Publication Date
CN105052142A true CN105052142A (zh) 2015-11-11
CN105052142B CN105052142B (zh) 2018-06-08

Family

ID=51654449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480017850.0A Expired - Fee Related CN105052142B (zh) 2013-04-05 2014-04-02 仅高级语法shvc中的一般化残余预测及其信令和管理

Country Status (6)

Country Link
US (1) US9380305B2 (zh)
EP (1) EP2982112A1 (zh)
JP (1) JP6352390B2 (zh)
KR (1) KR20150139554A (zh)
CN (1) CN105052142B (zh)
WO (1) WO2014165613A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522518A (zh) * 2018-10-19 2019-03-26 中国矿业大学 数据流值域和频域分布的动态互耦合元数据发布方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140121315A (ko) * 2013-04-04 2014-10-15 한국전자통신연구원 참조 픽처 리스트를 이용한 다 계층 기반의 영상 부호화/복호화 방법 및 그 장치
US9510001B2 (en) 2013-07-09 2016-11-29 Electronics And Telecommunications Research Institute Video decoding method and apparatus using the same
US20150103924A1 (en) * 2013-10-13 2015-04-16 Sharp Laboratories Of America, Inc. On operation of decoded picture buffer for interlayer pictures
WO2015056735A1 (ja) * 2013-10-16 2015-04-23 シャープ株式会社 画像復号装置
EP3078195A4 (en) * 2013-12-02 2017-08-09 Nokia Technologies OY Video encoding and decoding
WO2015163146A1 (ja) * 2014-04-22 2015-10-29 ソニー株式会社 符号化装置および符号化方法
US20160127728A1 (en) * 2014-10-30 2016-05-05 Kabushiki Kaisha Toshiba Video compression apparatus, video playback apparatus and video delivery system
CN107005692B (zh) * 2014-11-27 2020-11-17 株式会社Kt 对视频信号进行解码或编码的方法及设备
WO2018026148A1 (ko) * 2016-08-01 2018-02-08 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US10511853B2 (en) * 2016-11-24 2019-12-17 Ecole De Technologie Superieure Method and system for parallel rate-constrained motion estimation in video coding
CN116320477A (zh) * 2016-12-22 2023-06-23 株式会社Kt 对视频进行解码或编码的方法和发送视频数据的方法
WO2018124957A1 (en) * 2016-12-30 2018-07-05 Telefonaktiebolaget Lm Ericsson (Publ) Decoded picture buffer management for handling cross-picture data prediction
EP3854099A4 (en) * 2018-09-21 2022-06-29 Sharp Kabushiki Kaisha Systems and methods for signaling reference pictures in video coding
WO2020093999A1 (en) 2018-11-05 2020-05-14 Beijing Bytedance Network Technology Co., Ltd. Inter prediction with refinement in video processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102318202A (zh) * 2006-03-29 2012-01-11 维德约股份有限公司 用于可缩放与非可缩放视频编解码器之间的译码的系统和方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101277355B1 (ko) * 2004-10-13 2013-06-20 톰슨 라이센싱 복잡도 스케일러블 비디오 인코딩 및 디코딩을 위한 방법및 장치
DE102004059993B4 (de) * 2004-10-15 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Bewegungsdaten-Prädiktion sowie Computerprogramm und computerlesbares Medium
KR100888962B1 (ko) * 2004-12-06 2009-03-17 엘지전자 주식회사 영상 신호의 인코딩 및 디코딩 방법
JP4659838B2 (ja) * 2005-01-10 2011-03-30 株式会社エヌ・ティ・ティ・ドコモ 一連のフレームを予測的にコード化する装置
KR100746007B1 (ko) * 2005-04-19 2007-08-06 삼성전자주식회사 엔트로피 코딩의 컨텍스트 모델을 적응적으로 선택하는방법 및 비디오 디코더
EP1727372A1 (en) * 2005-05-27 2006-11-29 Thomson Licensing Method and apparatus for encoding and decoding video data,
US20070014349A1 (en) * 2005-06-03 2007-01-18 Nokia Corporation Residual prediction mode in scalable video coding
KR100746006B1 (ko) * 2005-07-19 2007-08-06 삼성전자주식회사 계층적 구조에 적합하게 시간적 다이렉트 모드로인코딩하며, 디코딩하는 방법 및 장치
EP1806930A1 (en) * 2006-01-10 2007-07-11 Thomson Licensing Method and apparatus for constructing reference picture lists for scalable video
WO2007107170A1 (en) * 2006-03-22 2007-09-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding scheme enabling precision-scalability
US20100091845A1 (en) * 2006-03-30 2010-04-15 Byeong Moon Jeon Method and apparatus for decoding/encoding a video signal
WO2008071036A1 (en) * 2006-12-14 2008-06-19 Thomson Licensing Method and apparatus for encoding and/or decoding bit depth scalable video data using adaptive enhancement layer prediction
TWI338869B (en) * 2007-08-03 2011-03-11 Via Tech Inc Method and apparatus for block-based digital encoded picture
WO2012044487A1 (en) * 2010-10-01 2012-04-05 Dolby Laboratories Licensing Corporation Optimized filter selection for reference picture processing
JP2012169763A (ja) * 2011-02-10 2012-09-06 Sony Corp 画像符号化装置と画像符号化方法およびプログラム
JP2013031141A (ja) * 2011-06-24 2013-02-07 Panasonic Corp 動画像符号化装置および動画像符号化方法
US9094689B2 (en) * 2011-07-01 2015-07-28 Google Technology Holdings LLC Motion vector prediction design simplification
MX353235B (es) * 2011-09-29 2018-01-08 Sharp Kk Star Dispositivo de decodificación de imágenes, método de decodificación de imágenes y dispositivo de codificación de imágenes.
JP2013110518A (ja) * 2011-11-18 2013-06-06 Canon Inc 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム
TWI616087B (zh) * 2012-01-31 2018-02-21 Vid衡器股份有限公司 可縮放高效率視訊編碼(hevc)參考圖集(rps)傳訊
CA2807404C (en) * 2012-09-04 2017-04-04 Research In Motion Limited Methods and devices for inter-layer prediction in scalable video compression
WO2014049196A1 (en) * 2012-09-27 2014-04-03 Nokia Corporation Method and techniqal equipment for scalable video coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102318202A (zh) * 2006-03-29 2012-01-11 维德约股份有限公司 用于可缩放与非可缩放视频编解码器之间的译码的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN J ET AL: "Description of scalable video coding technology proposal by Qualcomm", 《11.JCT-VC MEETING;102. MPEG MEETING》 *
LI X ET AL: "TE3:Results of Test 4.6.2.1 on Generalized Residual Prediction", 《12.JCT-VC MEETING;103.MPEG MEETING》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522518A (zh) * 2018-10-19 2019-03-26 中国矿业大学 数据流值域和频域分布的动态互耦合元数据发布方法

Also Published As

Publication number Publication date
JP6352390B2 (ja) 2018-07-04
US9380305B2 (en) 2016-06-28
KR20150139554A (ko) 2015-12-11
JP2016519508A (ja) 2016-06-30
EP2982112A1 (en) 2016-02-10
CN105052142B (zh) 2018-06-08
US20140301466A1 (en) 2014-10-09
WO2014165613A1 (en) 2014-10-09

Similar Documents

Publication Publication Date Title
CN105052142A (zh) 仅高级语法shvc中的一般化残余预测及其信令和管理
CN106576171B (zh) 一种对视频数据进行编码、解码的方法以及装置
CN105122812B (zh) 用于三维(3d)视频译码的高级合并模式
CN105191315B (zh) 一种用于对视频信息进行译码的方法和设备
CN105009590B (zh) 用于视频信息的可缩放译码的装置和方法
CN105284113A (zh) 分量间滤波
CN104737537A (zh) 用于可缩放视频译码的加权预测模式
CN105144719A (zh) 使用一般化残差预测对视频信息进行可缩放及多视图/3d译码的装置及方法
CN104620576A (zh) 可缩放视频译码中的替代变换
CN105409220A (zh) 用于视频译码的经解码图片缓冲器操作
CN104521237A (zh) 用于可缩放视频译码及3d视频译码的多假设运动补偿
CN104685883A (zh) 用于3d视频的经视图间预测运动向量
CN104471942A (zh) 重新使用参数集用于视频译码
CN105556969A (zh) 视频译码中使用视差向量的块识别
CN105103560A (zh) 用于仅高级语法可缩放视频译码的层间参考图片限制
CN104704833A (zh) 多视图或3维视频译码中的高级视图间残差预测
CN104584550A (zh) 用于可缩放视频译码的帧内预测改善
CN104685875A (zh) 用于视频译码中的4:2:2样本格式的帧内译码
CN105580374B (zh) 一种对多层视频数据进行编解码的方法、视频解码设备及存储媒体
CN104718752A (zh) 在可缩放视频译码中减少取样相位信息的发信
CN105580364A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN104823449A (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN104838658A (zh) 具有不对称空间分辨率的纹理和深度视图分量当中的内部视图运动预测
CN104798372A (zh) 在视频译码中针对高效率视频译码(hevc)扩展对多个层的低复杂性支持
CN104412591A (zh) 用于差域帧内预测的帧内模式扩展

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180608

Termination date: 20190402