CN104255027A - 用于视频译码的层间纹理预测 - Google Patents

用于视频译码的层间纹理预测 Download PDF

Info

Publication number
CN104255027A
CN104255027A CN201380015150.3A CN201380015150A CN104255027A CN 104255027 A CN104255027 A CN 104255027A CN 201380015150 A CN201380015150 A CN 201380015150A CN 104255027 A CN104255027 A CN 104255027A
Authority
CN
China
Prior art keywords
video
weight
block
enhancement layer
predictor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380015150.3A
Other languages
English (en)
Other versions
CN104255027B (zh
Inventor
翔林·王
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104255027A publication Critical patent/CN104255027A/zh
Application granted granted Critical
Publication of CN104255027B publication Critical patent/CN104255027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明揭示一种根据某些方面用于对视频信息进行译码的设备。可对包含基层及增强层的多层视频流进行译码。针对所述基层及所述增强层产生的预测子可组合以形成所述增强层的最终预测子。可对每一预测子进行加权以使得可在所述最终预测子中将更有可能产生高质量结果的那些预测子作为更重要的因素进行考虑。可从所述预测子或其特性隐含地导出确定增强层预测子及基层预测子的相应权重的条件。或者,可产生对指示所述权重或提供可确定所述权重的信息进行解释的数据。

Description

用于视频译码的层间纹理预测
相关申请案的交叉参考
本申请案主张2012年3月22日申请的第61/614,450号美国临时申请案、2012年9月28日申请的第61/707,620号美国临时申请案及2013年3月15日申请的第13/838,270号美国专利申请案的优先权,所述申请案的全部内容以引用的方式并入本文中且其全部揭示内容形成为本说明书的一部分。
技术领域
本发明通常涉及视频译码及压缩的领域,且更明确地说,涉及可缩放视频译码(SVC)及用于层间纹理预测的技术。
背景技术
数字视频能力可以并入到多种多样的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子图书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频串流装置及其类似物。数字视频装置实施视频压缩技术,例如,由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效率视频译码(HEVC)标准及这些标准的扩展中所描述的视频压缩技术。视频装置通过实施这些视频压缩技术可以更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测和/或时间(图片间)预测来减少或移除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可以分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。图片的经帧内译码(I)切片中的视频块是使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可被称为帧,且参考图片可被称为参考帧。
空间或时间预测产生用于待译码块的预测块。残余数据表示待译码原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本块的运动向量及指示经译码块与预测性块之间的差的残余数据编码的。经帧内译码块是根据帧内译码模式及残余数据编码的。为了进一步压缩,可以将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。可以扫描起初用二维阵列布置的经量化变换系数,以便产生变换系数的一维向量,并且可以应用熵译码以实现更多的压缩。
发明内容
本发明的系统、方法及装置各自具有若干创新方面,其中没有单个方面单独负责本文所揭示的合乎需要的属性。
本发明的一个方面提供一种用于对视频信息进行译码的设备。所述设备包含经配置以存储与基层及对应增强层相关联的视频信息的存储器。所述设备进一步包含与所述存储器通信的处理器。所述处理器经配置以至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重。所述处理器经进一步配置以至少部分基于所述第一及第二权重对所述增强层中的所述视频单元进行译码。
本发明的另一方面提供一种用于对视频信息进行译码的方法。所述方法包含获得与基层及对应增强层相关联的视频信息。所述方法还包含至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重。所述方法进一步包含至少部分基于所述第一及第二权重对所述增强层中的所述视频单元进行译码。
本发明的又一方面提供一种包含可由设备的处理器执行的指令的计算机可读媒体。所述指令可致使所述设备获得与基层及对应增强层相关联的视频信息。所述指令还可致使所述设备至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重。所述指令可进一步致使所述设备至少部分基于所述第一及第二权重对所述增强层中的所述视频单元进行译码。
本发明的另一方面提供一种用于对视频信息进行译码的设备。所述设备包含用于获得与基层及对应增强层相关联的视频信息的装置。所述设备还包含用于至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重的装置。所述设备进一步包含用于至少部分基于所述第一及第二权重对所述增强层中的所述视频单元进行译码的装置。
附图说明
图1为可利用根据本发明中描述的方面的技术的说明性视频编码及解码系统的框图。
图2为用于实施本发明中描述的译码技术的说明性过程的流程图。
图3为说明可实施本发明中描述的译码技术的实例视频编码器的框图。
图4为说明可实施本发明中描述的译码技术的实例视频解码器的框图。
图5为说明性帧内预测模式的图。
图6为预测过程的说明性表示。
图7为待译码的说明性当前增强块的图,其中当前增强块的某些像素被识别为相对靠近于相邻块的边界。
图8A及8B为待译码的说明性当前增强块的图,其中当前增强块的某些像素被识别为相对靠近于基于预测方向的相邻块的边界。
图9为待译码的说明性当前增强块的图,其中加权参数基于预测方向而变化。
图10为用于使用加权的基层预测子及增强层预测子对视频进行译码的说明性方法的流程图。
图11为用于基于像素位置加权及组合基层预测子及增强层预测子的说明性方法的流程图。
图12为用于基于基层及增强层的特定特性加权及组合基层预测子及增强层预测子的说明性方法的流程图。
具体实施方式
按通常描述,本发明涉及可缩放视频译码。本发明的方面将关于用以产生增强层的最终预测子的加权的基层预测子与增强层预测子的组合使用进行描述。在一些实例中,对于整个切片译码块或位流,权重可为常量。在额外实例中,用于特定像素、切片、译码块等的权重可变化。在确定变化的权重时可考虑的因数除了别的之外还包含像素到经先前译码或经解码块的接近性及帧内预测方向。其它因数包含量化参数及空间缩放比。
在其它实例中,确定用于增强层预测子及基层预测子的相应权重的条件可从预测子或从其特性隐含地导出。因此,不需要将额外数据发射到解码器;而是,解码器可动态地导出加权。在又其它实例中,位流中可包含解码器可用以确定加权的数据。
随附图式及以下描述中陈述一或多个实例的细节。其它特征、目标及优点将从所述描述及图式以及权利要求书而显而易见。
例如视频图像、TV图像、静态图像或由视频记录器或计算机产生的图像等数字图像由布置成水平及垂直线的像素构成。单个图像中的像素的数目对于较小图像来说通常为数万个,且对于高清晰度图像来说通常为数百万个。每一像素通常含有亮度及色度信息。在无压缩的情况下,从图像编码器传达到图像解码器的信息数量太大以致于其可使实时发射不切实际。为了减少待发射的信息量,已开发了例如JPEG、MPEG及H.263标准等数个不同压缩方法。
在典型视频编码器中,原始视频序列的帧可分割成矩形区或块,所述矩形区或块是在帧内模式(I模式)或帧间模式(P模式)中经编码的。可使用例如DCT译码等某一种类的变换译码对块进行译码。然而,纯基于变换的译码仅减少特定块内的像素间相关,而不考虑像素的块间相关,且通常仍产生高位率以用于发射。当前数字图像译码标准也采用减少块之间的像素值的相关的某些方法。
总的来说,从经先前译码的帧及发射的帧中的一者中预测在P模式中编码的块。块的预测信息由二维(2D)运动向量表示。对于在I模式中编码的块,经预测的块可使用从相同帧内的已经编码的相邻块的空间预测而形成。预测误差(即,正被编码的块与经预测的块之间的差别)表示为某一离散变换的一组加权基底函数。通常在8x8或4x4块的基础上执行变换。随后量化权重(例如,变换系数)。量化引入信息的损耗,且因此经量化系数可具有比原始精度低的精度。
经量化变换系数与运动向量及某一控制信息一起形成完整译码序列表示,且被称作语法元素。在从编码器发射到解码器之前,可对语法元素进行熵译码以便进一步减少其表示所需要的位的数目。
在视频解码器处,可通过首先以与在编码器中相同的方式建构其预测及通过将经压缩预测误差添加到预测而获得当前帧中的块。可通过使用经量化系数加权变换基底函数而发现经压缩预测误差。经重建构帧与原始帧之间的差别常常被称作重建构误差。
本发明中描述的技术通常涉及可缩放视频译码(SVC)及3D视频译码。举例来说,技术可与高效率视频译码(HEVC)可缩放视频译码(SVC)扩展相关,及供所述HEVC SVC扩展使用或在所述HEVC SVC扩展内使用。在SVC扩展中,可存在多个视频信息层。在极底层级处的层可充当基层(BL),且在极顶部的层可充当增强型层(EL)。“增强型层”有时被称作“增强层”,且这些术语可互换地使用。所有在中间的层可充当EL或BL,或EL及BL两者。举例来说,在中间的层可为在其下方的层(例如基层或任何介入增强层)的EL,且同时充当在其上方的增强层的BL。
仅出于说明的目的,本发明中描述的技术是关于仅包含两个层(例如,例如基层等较低层级的层及例如增强型层等较高层级的层)的实例进行描述的。应理解本发明中描述的实例也可扩展到具有多个基层及增强层的实例。
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1 Visual、ITU-T H.262或ISO/IECMPEG-2 Visual、ITU-T H.263、ISO/IEC MPEG-4 Visual及ITU-T H.264(也称为ISO/IECMPEG-4 AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。在“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisualservices)”(ITU-T规范H.264,2010年3月)中描述SVC及MVC的最新联合草案。另外,ITU-T视频译码专家组(VCEG)及ISO/IEC运动图片专家组(MPEG)的视频译码联合协作小组(JCT-VC)正开发新视频译码标准,即高效率视频译码(HEVC)。新近高效率视频译码(HEVC)文本规范草案可自http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v13.zip获得。HEVC的另一新近工作草案(WD)(且其被称作HEVC WD9)可在http://phenix.int-evry.fr/jct/doc_end_user/documents/11_Shanghai/wg11/JCTVC-K1003-v13.zip处获得。被称作HEVC WD8(或WD8)的HEVC的另一工作草案可在http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip处获得。HEVC的另一工作草案(且其在下文中被称作HEVC WD7)可自http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I1003-V5.zip获得。所有这些文件的全文是以引用的方式并入。
在可缩放视频译码(SVC)中,将来自每一层(例如,基层及增强层)的位流一起多路复用成单个位流。在增强层位流在被解码时可将某些增强提供到基层的意义上,此位流是可缩放的。此些增强包含关于基层的空间分辨率、时间分辨率、质量增强及其类似者。基层可与增强层独立地解码。对应地,此些增强也分别被称作空间可缩放性、时间可缩放性及信噪比(SNR)可缩放性。
SVC的目标通常为利用层间相关来改进译码效率,而不管可缩放性的类型。此层间相关可存在于不同层中的对应块的不同语法(例如,预测模式、运动向量、预测残余等)中。
为了利用此些相关,在过去已提出数个译码工具。在H.264/AVC的可缩放扩展中,举例来说,定义了例如帧内基层(BL)模式、残余预测、模式继承及运动向量预测等若干译码工具。在帧内BL模式中,将基层重建构块的纹理用作在预测对应增强层块时的预测子。在残余预测的情况下,基层块的预测残余用以预测对应增强层块的预测残余。在模式继承的情况下,基层块的预测模式(包含分割模式)用以预测增强层块的预测模式。在运动向量预测的情况下,基层块的运动向量用以预测增强层块的运动向量。
在SVC中,层为基层还是增强层通常可被看作相对的。举例来说,第一层与最后层之间的任何层可为用于一或多个较低层的增强层,且同时可充当用于一或多个较高层的基层。
SVC可用以提供质量(还被称作信噪比(SNR))可缩放性、空间可缩放性和/或时间可缩放性。增强型层可具有不同于基层的空间分辨率。举例来说,EL与BL之间的空间宽高比可为1.0、1.5、2.0或其它不同比。换句话说,EL的空间宽高比可等于BL的空间宽高比的1.0、1.5或2.0倍。在一些实例中,EL的缩放因数可大于BL。举例来说,EL中的图片的大小可大于BL中的图片的大小。以此方式,EL的空间分辨率大于BL的空间分辨率是有可能的,但并不限于此。
本发明的方面涉及基于来自EL及BL两者的预测子使用组合的预测子产生经预测EL块。在对EL进行译码时,可如上文所通常描述般产生预测子。其后,EL预测子可与BL预测子组合以便改进用于EL像素的层间预测的最终预测子的质量。在组合EL预测子与BL预测子时,可应用加权以使得在EL预测子很可能更准确的状况下,EL预测子对最终预测子的影响超过BL预测子。或者,可应用加权以使得在BL预测子很可能更准确的状况下,BL预测子对最终预测子的影响超过EL预测子。在并不知道哪一预测子更有可能准确的状况下,BL预测子及EL预测子可均匀地进行加权。
下文中参考随附图式更全面描述新颖系统、设备及方法的各种方面。然而,本发明可以许多不同形式体现,且不应解释为限于遍及本发明所呈现的任何特定结构或功能。而是,提供这些方面以使得本发明将为全面的及完整的,且将向所属领域的技术人员完全地传达本发明的范围。基于本文中的教示,所属领域的技术人员应了解本发明的范围既定涵盖新颖本文中揭示的系统、设备及方法的任何方面,不管是独立于本发明的任何其它方面实施还是与本发明的任何其它方面组合地实施。举例来说,可使用本文中所阐述的任何数目的方面来实施设备或实践方法。另外,本发明的范围既定涵盖使用其它结构、功能性或除了本文中所阐述的本发明的各种方面之外或不同于本文中所阐述的本发明的各种方面的结构及功能性来实践的此设备或方法。应理解,可由权利要求的一或多个要素来体现本文中揭示的任何方面。
尽管本文描述了特定方面,但这些方面的许多变化和排列属于本发明的范围。尽管提及了较佳方面的一些益处及优点,但本发明的范围不欲限于特定益处、用途或目标。而是,本发明的方面意在广泛地适用于不同无线技术、系统配置、网络和发射协议,其中的一些是作为实例而在图中以及在优选实施例的以下描述中得以说明。详细描述和图式仅说明本发明,而不是限制由所附权利要求书及其等效者界定的本发明的范围。
图1为说明可利用根据本发明中描述的方面的技术的实例视频编码及解码系统的框图。如图1中所示,系统10包含源装置12,其提供稍后将由目的地装置14解码的经编码的视频数据。明确地说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括多种多样的装置中的任一者,包含桌上型计算机、笔记型(例如,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板电脑、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频串流装置或类似者。在一些状况下,源装置12和目的地装置14可能经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码的视频数据。计算机可读媒体16可包括能够将经编码的视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包括使得源装置12能够实时将经编码的视频数据直接发射到目的地装置14的通信媒体。经编码的视频数据可以根据通信标准(例如无线通信协议)得到调制,并且被发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线路。通信媒体可能形成分组网络(例如局域网。广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换器、基站或任何其它可以用于促进从源装置12到目的地装置14的通信的设备。
在一些实例中,经编码数据可以从输出接口22输出到存储装置。类似地,可以通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码的视频数据的合适的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或另一可存储源装置12产生的经编码视频的中间存储装置。目的地装置14可经由串流或下载从存储装置存取经存储的视频数据。文件服务器可以是任何类型的能够存储经编码的视频数据并且将经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含万维网服务器(例如,用于网站)、FTP服务器、网络连接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。这可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码的视频数据从存储装置的发射可能是流式发射、下载发射或两者的组合。
本发明的技术不必限于无线应用或设置。所述技术可以应用于视频译码并且支持多种多媒体应用中的任一者,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网串流视频发射(例如动态自适应HTTP串流(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包括输入接口28、视频解码器30和显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位流进行译码的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可以从外部视频源18(例如外部相机)接收视频数据。同样,目的地装置14可以与外部显示装置介接,而非包括集成显示装置。
图1的所说明系统10只是一个实例。用于确定当前块的运动向量预测子的候选列表的候选的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术总体上通过视频编码装置来执行,但是所述技术还可通过视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术还可通过视频预处理器执行。源装置12及目的地装置14仅为源装置12在其中产生经译码视频数据以供发射到目的地装置14的此些译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频传播以例如用于视频流式传输、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。作为另一替代方案,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源18是摄像机,则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术可大体上适用于视频译码,且可应用于无线和/或有线应用。在每一状况下,可由视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(也就是说,非暂时存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可从源装置12接收经编码的视频数据及例如经由网络发射、直接有线通信等将经编码的视频数据提供到目的地装置14。类似地,媒体生产设施(例如光盘冲压设施)的计算装置可以从源装置12接收经编码的视频数据并且生产容纳经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体16可以理解为各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含通过视频编码器20定义的语法信息,所述语法信息还由视频解码器30使用,包含描述块和其它经译码单元(例如GOP)的特性和/或处理的语法元素。显示装置32将经解码视频数据显示给用户,且可包括多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可以根据一种视频译码标准(例如目前正在开发的高效率视频译码(HEVC)标准)来操作,并且可以符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可根据其它专属或业界标准来操作,所述标准例如是ITU-TH.264标准,也被称为MPEG-4第10部分高级视频译码(AVC),或此类标准的扩展。然而,本发明的技术不限于任何特定译码标准,包含但不限于上文所列的标准中的任一者。视频译码标准的其它实例包含MPEG-2和ITU-T H.263。尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件及软件以处置对共同数据流或单独数据流中的音频或视频两者的编码。如果适用的话,多路复用器-多路分用器单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储于合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
JCT-VC正在努力开发HEVC标准。所述HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化的模型。HM假设视频译码装置根据例如ITU-TH.264/AVC相对于现存装置的几个额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但是HM可提供多达三十三种帧内预测编码模式。
总的来说,HM的工作模型描述视频帧或图片可以分成包含明度和色度样本两者的一连串树块或最大译码单元(LCU)。位流内的语法数据可以界定最大译码单位(LCU,其是就像素数目来说的最大译码单位)的大小。切片包含译码次序的多个连续树块。视频帧或图片可分割成一或多个切片。每一树块可以根据四叉树分裂成译码单元(CU)。总的来说,四叉树数据结构包含每个CU一个节点,其中一个根节点对应于所述树块。如果一个CU分裂成4个子CU,那么对应于CU的节点包含4个叶节点,其中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说,四叉树中的一个节点可包含一个分裂旗标,这表明对应于所述节点的所述CU是否分裂成子CU。可以取决于所述CU是否分裂成子CU来递归地定义CU的语法元素。如果CU不进一步分裂,那么将其称为叶CU。在本发明中,叶CU的子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU不进一步分裂,那么这四个8x8子CU将也被称作叶CU,虽然16x16 CU从未分裂。
CU具有类似于H.264标准的宏块的用途,但是CU并不具有大小区别。举例来说,树块可以分裂成四个子节点(还称为子CU),并且每一子节点又可以是父节点并且可以分裂成另外四个子节点。最终的未分裂子节点(被称作四叉树的叶节点)包括译码节点,还称为叶CU。与经译码位流相关联的语法数据可以界定树块可以分裂的最大次数,被称作最大CU深度,并且还可界定译码节点的最小大小。所以,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块和子块)。
CU包含译码节点和与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小并且形状必须是正方形。CU的大小可以从8x8像素到具有最大64x64像素或更大的树块的大小变动。每一CU可含有一或多个PU及一或多个TU。举例来说,与CU相关联的语法数据可描述CU分割成一或多个PU。分割模式可以在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有区别。PU可以分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU可以是正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU变换,TU可以针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而确定,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可被称为变换单元(TU)。可以变换与TU相关联的像素差值以产生变换系数,所述变换系数可以经量化。
叶CU可包含一或多个预测单元(PU)。总的来说,PU表示对应于对应CU的全部或一部分的空间区域,并且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可以包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含界定PU的一或多个运动向量的数据。举例来说,定义PU的运动向量的数据可以描述运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片和/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可以使用RQT(还称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可以指示叶CU是否分裂成四个变换单元。接着,每一变换单元可以进一步分裂成更多个子TU。当TU不进一步分裂时,其可被称为叶TU。总体上,对于帧内译码,所有属于一个叶CU的叶TU共用相同的帧内预测模式。也就是说,总体上应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可以使用帧内预测模式针对每一叶TU计算残余值,作为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因而,TU比PU大或小。对于帧内译码,PU可以与相同CU的对应叶TU设在同一位置。在一些实例中,叶TU的最大大小可以对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四叉树数据结构(被称作残余四叉树(RQT))相关联。也就是说,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点总体上对应于叶CU,而CU四叉树的根节点总体上对应于树块(或LCU)。未分裂的RQT的TU被称作叶TU。总的来说,本发明分别使用术语CU和TU指代叶CU和叶TU,除非以其它方式指出。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)总体上包括一系列视频图片中的一或多者。GOP可包含GOP的标头、图片中的一或多者的标头或其它地方中的语法数据,其描述GOP中包含的图片的数目。图片的每一切片可包含切片语法数据,其描述用于相应切片的编码模式。视频编码器20通常对各个视频切片内的视频块进行操作以便对视频数据进行编码。视频块可以对应于CU内的译码节点。视频块可以具有固定或变化的大小,并且根据指定译码标准可以有不同大小。
作为实例,HM支持各种PU大小的预测。假设特定CU的大小是2Nx2N,则HM支持2Nx2N或NxN的PU大小的帧内预测,及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,但是另一方向分割成25%和75%。CU的对应于25%分割区的部分表示成“n”,接着是用“上方”、“下方”、“左侧”或“右侧”指示。因此,举例来说,“2NxnU”是指水平地分割的2Nx2NCU,其中上方有2Nx0.5N PU,而下方有2Nx1.5N PU。
在本发明中,“NxN”和“N乘N”可以互换使用来指代在垂直和水平尺寸方面的视频块的像素尺寸,例如,16x16像素或16乘16像素。总的来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块总体上在垂直方向上具有N个像素,并且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行及列。此外,块可能不一定在水平方向与垂直方向上具有相同数目的像素。举例来说,块可包括NxM像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器20可以计算CU的TU的残余数据。PU可包括描述在空间域(还称为像素域)中产生预测性像素数据的方法或模式的语法数据,并且TU可包括在对残余视频数据应用了变换(例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)变换域中的系数。所述残余数据可以对应于未编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可以形成包含用于CU的残余数据的TU,并且接着变换TU以产生用于CU的变换系数。
在任何用于产生变换系数的变换之后,视频编码器20可以执行变换系数的量化。量化为既定具有其最广泛一般含义的广义术语。在一个实施例中,量化是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,n位值可在量化期间被下舍入到m位值,其中n大于m。
在量化之后,视频编码器可以扫描变换系数,从包括经量化变换系数的二维矩阵产生一维向量。扫描可以经过设计以将较高能量(并且因此较低频率)的系数放置在阵列正面,并且将较低能量(并且因此较高频率)的系数放置在阵列的背面。在一些实例中,视频编码器20可以利用预定义扫描次序来扫描经量化变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可以执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可以例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行编码。视频编码器还20可对与经编码的视频数据相关联的语法元素进行熵编码以供视频解码器30在对视频数据解码时使用。
为了执行CABAC,视频编码器20可以向待发射的符号指派上下文模型内的一个上下文。举例来说,所述上下文可与符号的相邻值是否为非零有关。为了执行CAVLC,视频编码器20可以选择用于待发射的符号的可变长度码。VLC中的码字可经建构而使得相对短的代码对应于更有可能的符号,而较长的代码对应于不太可能的符号。以此方式,使用VLC可以举例来说实现优于对待发射的每一符号使用等长码字的位节省。概率确定可基于指派给符号的上下文。
视频编码器20可例如在帧标头、块标头、切片标头或GOP标头中进一步将例如基于块的语法数据、基于帧的语法数据及基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的数个帧,及帧语法数据可指示用以对对应帧进行编码的编码/预测模式。
图2说明可由各种视频译码器(例如图3的视频编码器20、图4的视频解码器30或一些其它视频译码器)实施的实例过程流程。在以下描述中,为说明方便起见,基层块经重建构纹理被称作BL预测子(表示为Pb)。在增强层处使用增强层块的信息形成的预测子被称作EL预测子(表示为Pe)。由BL预测子及EL预测子两者的自适应组合形成的预测被称作最终预测子(表示为Pf),根据本发明的技术,所述最终预测子为实际上用以预测当前增强层块的预测子。图2中说明的过程可用于在产生层间预测时组合BL预测子与EL预测子。
基层视频信息300及增强层视频信息302可由视频译码器获得。在框310处,例如BL块等基层视频的译码可开始。BL预测子(例如,在基层处的经重建构块)可根据本文中所描述的运动补偿预测、帧内预测及残余预测技术来产生。在框312处,例如EL块等增强层视频的译码也可开始。EL预测子可根据运动补偿预测及帧内预测而产生。另外,在框310处产生的BL预测子可与在框312处产生的EL预测子组合以便产生最终EL预测子。在产生最终EL预测子时,可将加权因数应用于BL预测子及EL预测子以便将更多权重给予更有可能准确的预测子,如下文所描述。
在一些实施例中,对于基层预测子的所有像素,第一加权因数可为常量,及对于基层预测子的所有像素,第二加权因数可为常量。在额外实施例中,第一加权因数可依据像素位置而变化,及第二加权因数可依据像素位置而变化。在其它实施例中,加权因数可基于量化参数或空间缩放比而变化。对于给出的实例中的任一者,可确定加权因数以使得第一加权因数与第二加权因数的总和等于常量。
举例来说,对于在当前增强层块(例如,当前正译码的EL块)的边界处或靠近于所述边界的像素,对应于EL预测子的第二加权因数可大于对应于BL预测子的第一加权因数。可在其中邻近像素或紧密接近于当前EL块的像素的像素提供比来自基层的像素更好的预测子的状况下使用此加权。对于并非在当前增强层块的边界处及并非靠近于所述边界的像素,对应于BL预测子的第一加权因数可大于对应于EL预测子的第二加权因数。在这些状况下,可确定来自对应于当前增强层块的基层块的像素提供比来自其它增强层块的像素更好的预测子。可由视频译码器基于当前增强层块的帧内预测方向确定像素何时足够地靠近于邻近增强层块以影响到应用于预测子的加权的确定。
视频译码器还可依据像素与当前增强层块的边界之间的距离确定第一加权因数。对于更靠近于边界的像素,第二加权因数通常可增加,且对于距边界较远的像素,第一加权因数通常增加。
视频译码器还可基于基层预测子的量化参数及增强层预测子的量化参数确定第一加权因数及第二加权因数。举例来说,如果BL的量化参数实质上等于EL的量化参数或在EL的量化参数的某一阈值内,那么BL预测子及EL预测子的权重可比在EL及BL量化参数中的差很大的情况下更接近。如果BL量化参数比EL量化参数大得多,那么视频译码器指派给EL预测子的权重可实质上大于指派给BL预测子的权重(例如,指派给EL预测子的权重随着QP1-QP2的差增加而增加,其中QP1表示BL的量化参数,且QP2表示EL的量化参数)。同样,如果BL量化参数比EL量化参数小得多,那么视频译码器指派给EL预测子的权重可实质上低于指派给BL预测子的权重。
视频译码器还可基于缩放比选择第一加权因数及第二加权因数。举例来说,较大缩放比通常可对应于第二加权因数的较高值。
在框320处,可对表示原始BL块与如上文所描述产生的预测性BL块之间的像素差的残余数据进行译码。举例来说,在对视频进行编码时,可以将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可以对残余变换系数进行量化。在框322处,可对表示原始EL块与如上文所描述产生的预测性EL块之间的像素差的残余数据进行译码。
在框330处,基层的运动向量的预测子可根据运动预测技术(例如本文中所描述的技术)而产生。在框332处,增强层的运动向量的预测子也可根据运动预测技术产生。另外,基层运动向量可用作增强层运动向量的预测子。
在框340处,可从视频译码器输出经译码BL视频。在框342处,可从视频译码器输出经译码EL视频。在由视频编码器执行过程时,可对BL残余及其它语法元素进行熵译码,从而进一步减少所得位流的大小,且可以类似方式对EL残余及其它语法元素进行熵译码。接着可多路复用对应于每一层的位流以用于输出(例如,发射或存储)。在由视频解码器执行过程时,经译码EL视频及BL视频可用以输出视频信号以供呈现(例如,经由与解码器相关联的显示器)。
图3为说明可实施根据本发明中描述的方面的译码技术的视频编码器20的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例,模式选择单元40可经配置以执行本发明中描述的技术中的任一者或全部,例如基于像素位置、BL及EL特性及其类似者确定BL及EL权重。然而,本发明的方面不限于此。在一些实例中,可在视频编码器20的各种组件当中共享本发明中描述的技术。在一些实例中,另外或替代性地,处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。
视频编码器20可对视频切片内的视频块执行帧内及帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻接帧或图片内的视频中的时间冗余。帧内模式(I模式)可以指若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以指代若干基于时间的译码模式中的任一者。
如图3中所示,视频编码器20接收待编码视频帧内的当前视频块。在图3的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42帧内预测单元46及分割单元48。为了视频块重建构,视频编码器20还包含逆量化单元58、逆变换单元60及求和器62。还可包含去块滤波器(图3中未图示)以对块边界进行滤波,从而从经重建构视频移除成块假影。必要时,去块滤波器通常将对求和器62的输出进行滤波。除了去块滤波器之外,还可使用额外滤波器(环路内或环路后)。此些滤波器为简洁起见未图示,但必要时可对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可划分成多个视频块。运动估计单元42及运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收的视频块的帧内预测性译码以提供空间预测。视频编码器20可以执行多个译码遍次,例如,为了为每一视频数据块选择一种适当的译码模式。
此外,分割单元48可以基于前述译码遍次中的前述分割方案的评估将视频数据块分割成子块。举例来说,分割单元48可以首先将帧或切片分割成LCU,并且基于速率失真分析(例如,速率失真优化)将LCU中的每一者分割成子CU。模式选择单元40可以进一步产生指示LCU分割成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可以基于错误结果选择译码模式中的一者(帧内或帧间),并且将所得的经帧内译码或经帧间译码块提供到求和器50以便产生残余块数据,并且提供到求和器62以便重建经编码块用作参考帧。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分割信息和其它这些语法信息)提供到熵编码单元56。
运动估计单元42和运动补偿单元44可以高度集成,但出于概念目的分开加以图解说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正经译码的当前块的移位。预测性块是被发现在像素差方面与待译码块紧密匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量来确定。在一些实例中,视频编码器20可以计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元42可以相对于整数像素位置和分数像素位置执行运动搜索并且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将计算出来的运动向量发送到熵编码单元56和运动补偿单元44。
运动补偿单元44执行的运动补偿可以包括基于运动估计单元42确定的运动向量来取出或生成预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44即刻可以在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器50通过从经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块,如下文所论述。总的来说,运动估计单元42相对于明度分量执行运动估计,并且运动补偿单元44对于色度分量和明度分量两者使用基于明度分量计算的运动向量。模式选择单元40还可产生与视频块和视频切片相关联的供视频解码器30在对视频切片的视频块进行解码时使用的语法元素。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可以对当前块进行帧内预测或计算。明确地说,帧内预测单元46可以确定用来对当前块进行编码的帧内预测模式。在一些实例中,帧内预测单元46可以例如在分开的编码编次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测单元46(或在一些实例中为模式选择单元40)可以从所述测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可以使用速率失真分析计算用于各种经测试帧内预测模式的速率失真值,并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析总体上确定经编码块与经编码以产生所述经编码块的原始未编码块之间的失真(或误差)的量,以及用于产生经编码块的位率(也就是说,位数目)。帧内预测单元46可依据用于各种经编码块的失真及速率计算成本值,以确定哪个帧内预测模式对于所述块展现最佳的速率-失真值(或最低成本值)。
在针对块选择帧内预测模式之后,帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可以对指示所选帧内预测模式的信息进行编码。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,和对最可能帧内预测模式、帧内预测模式索引表和修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20通过从经译码原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示可执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可以执行概念上类似于DCT的其它变换。还可使用小波变换、整数变换、子带变换或其它类型的变换。在任何情况下,变换处理单元52向残余块应用所述变换,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经量化变换系数的矩阵的扫描。或者,熵编码单元56可以执行所述扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵译码。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论,上下文可以基于相邻块。在熵编码单元56的熵译码之后,可以将经编码位流发射到另一装置(例如视频解码器30),或者将所述视频存档用于以后发射或检索。
逆量化单元58和逆变换单元60分别应用逆量化和逆变换以在像素域中重构残余块,例如以供稍后用作参考块。运动补偿单元44可以通过将残余块添加到参考帧存储器64的帧中的一者的预测性块中来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于所重构的残余块以计算子整数像素值用于运动估计。求和器62将经重建的残余块添加到由运动补偿单元44产生的运动补偿预测块以产生经重建视频块用于存储在参考帧存储器64中。经重构视频块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续视频帧中的块进行帧间译码。
以此方式,图3的视频编码器20表示经配置以执行本发明的技术的视频编码器的实例。举例来说,视频编码器20可组合基层预测子与增强层预测子以形成最终预测子,及基于最终预测子执行用于当前增强层块的层间预测。执行层间预测可包含执行层间纹理预测。在组合基层预测子与增强层预测子时,视频编码器20可将第一加权因数指派给基层预测子,及将第二加权因数指派给增强层预测子。
图4为说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例,运动补偿单元72和/或帧内预测单元74可经配置以执行本发明中描述的技术中的任一者或全部,例如基于像素位置、BL及EL特性及其类似者确定BL及EL权重。然而,本发明的方面不限于此。在一些实例中,可在视频解码器30的各种组件当中共享本发明中描述的技术。在一些实例中,另外或替代性地,处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。
在图4的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考帧存储器82及求和器80。在一些实例中,视频解码器30可执行大体上与关于视频编码器20(图3A)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可以基于用信号表示的帧内预测模式和来自当前图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。在视频帧经译码为经帧间译码(例如,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生用于当前视频切片的视频块的预测性块。预测性块可以从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可以基于存储在参考图片存储器92中的参考图片使用默认建构技术建构参考帧列表,即列表0和列表1。运动补偿单元72通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测性块。举例来说,运动补偿单元72使用一些接收到的语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态和用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此状况下,运动补偿单元72可根据接收的语法信息元素而确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测性块。
逆量化单元76将在位流中提供且由熵解码单元80解码的经量化变换系数逆量化,例如去量化。逆量化过程可包含使用视频解码器30针对视频切片中的每一视频块计算以确定应应用的量化程度和同样逆量化程度的量化参数QPY
逆变换单元78对变换系数应用逆变换,例如逆DCT、逆整数变换或概念上类似的逆变换过程,以便产生像素域中的残余块。
在运动补偿单元82基于运动向量和其它语法元素产生了当前视频块的预测性块之后,视频解码器30通过将来自逆变换单元78的残余块与运动补偿单元72产生的对应预测性块求和来形成经解码视频块。求和器90表示可以执行此求和运算的一或多个组件。必要时,去块滤波器还可应用于对经解码块进行滤波以便移除成块假影。其它环路过滤器(在译码环路中或在译码环路之后)也可用于平滑化像素转变或以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中,参考图片存储器92存储参考图片用于后续运动补偿。参考帧存储器82还存储经解码视频用于以后在显示装置(例如图1的显示装置32)上呈现。
以此方式,图4的视频解码器30表示经配置以执行本发明的技术的视频解码器的实例。举例来说,视频解码器30可组合基层预测子与增强层预测子以形成最终预测子,及基于最终预测子执行用于当前增强层块的层间预测。执行层间预测可包含执行层间纹理预测。在组合基层预测子与增强层预测子时,视频解码器30可将第一加权因数指派给基层预测子及将第二加权因数指派给增强层预测子。在一些情况下,对于基层预测子的所有像素,第一加权因数可为常量,及对于基层预测子的所有像素,第二加权因数可为常量。
视频解码器30可依据经解码的增强层块内的像素的特性及BL预测子及EL预测子的特性等等来确定加权因数。视频解码器30可经配置以类似于上文所描述的视频编码器20的方式的方式确定加权因数。以此方式,视频解码器30可确定用以对视频块进行编码而不需要例如关于使用哪些权重的数据等额外数据的相同或实质上类似的加权参数。
如上文关于视频编码器20所描述,第一加权因数可依据像素位置而变化,且第二加权因数可依据像素位置而变化。举例来说,对于在当前增强层块的边界处或靠近于所述边界的像素,第二加权因数可大于第一加权因数。对于并非在当前增强层块的边界处及并非靠近于所述边界的像素,第一加权因数可大于第二加权因数。可由视频解码器30基于当前增强层块的帧内预测方向来确定哪些建构靠近于边界的确定。
视频解码器30还可依据像素与当前增强块的边界之间的距离确定第一加权因数。对于更靠近于边界的像素,第二加权因数通常可增加,且对于距边界较远的像素,第一加权因数通常增加。
视频解码器30还可以类似于上文关于图3所描述的方式的方式基于基层预测子的量化参数及增强层预测子的量化参数确定第一加权因数及第二加权因数。
视频解码器30还可基于缩放比选择第一加权因数及第二加权因数。举例来说,较大缩放比通常可对应于第二加权因数的较高值。
现转而参看图5,如下描述了用于H.264译码器中的空间预测(即帧内预测)的实例。为了执行空间预测,H.264译码器提供用于预测4x4块的9个模式,包含DC预测(模式0)及标记为1到8的8个方向模式,如图5中所示。图6中说明预测过程。如图6中所示,将对块600中从a到p的像素进行编码,且来自相邻块602到608的像素A到R已经进行编码且可用于预测。如果例如选择模式1,那么像素a、e、i及m是通过将其设定成等于像素A来预测的,且像素b、f、j及n是通过将其设定成等于像素B来预测的,等等。类似地,如果选择模式2,那么像素a、b、c及d是通过将其设定成等于像素I来预测的,且像素e、f、g及h是通过将其设定成等于像素J来预测的,等等。因此,在此实例中,模式1为在垂直方向上的预测子;及模式2为在水平方向上的预测子。
图5和6中所说明帧内模式定义及实例仅为说明性的,及并不意欲为限制性的。可使用其它帧内模式定义,例如HEVC中的定义。在HEVC中,预测模式的数目进一步增加。举例来说,35个预测模式分别可以用于4x4块、8x8块及更大的块。HEVC中针对每一模式定义的模式索引也可为不同的。举例来说,在HEVC中,平面预测被定义为模式0及DC预测被定义为模式1。
在如帧内BL模式中所描述的层间纹理预测中,来自基层块的经重建构纹理可以用作用以预测对应增强层块的纹理的预测子。然而,在某些状况下,在来自基层块的经重建构纹理中并非所有的像素为用于增强层块中的对应像素的最佳或优选预测子。所属领域内的当前方案并不提供在形成用于增强层块的预测子时仅使用像素的一部分或减轻来自基层的像素的一部分的权重的灵活性。本发明描述了用于使得此灵活性能够达成较好译码效率的技术。
在一些实施例中,可使用预测子的常量加权组合。根据此技术,可在EL预测子Pe与BL预测子Pb组合从而形成最终预测子Pf时分别将某些加权指派给EL预测子Pe及BL预测子Pb。对于预测子内的所有像素,此些加权可为常量。举例来说,可基于以下等式而形成最终预测子。
Pf=c1*Pb+c2*Pe  (1)
在等式(1)中,c1及c2表示加权系数。c1及c2的总和可等于常量,例如1。对于Pb及Pe内的所有像素,c1及c2两者可保持为常量。
在一些实施例中,用于每一预测子的加权系数可基于像素位置而变化,而不是使用常量加权。举例来说,对于预测子内的不同像素位置,加权系数可不同。更确切地说,可基于以下等式形成最终预测子。
Pf[i,j]=c1[i,j]*Pb[i,j]+c2[i,j]*Pe[i,j]  (2)
在等式(2)中,i及j表示分别指示行及列的在预测子内的二维坐标。加权参数c1及c2可在不同位置[i,j]处不同。然而,c1[i,j]及c2[i,j]的总和可等于常量,例如1。基于等式(2),如果c1[i,j]=1且c2[i,j]=0,那么最终预测子中的对应像素全部由BL预测子中的像素形成。或者,如果c1[i,j]=0且c2[i,j]=1,那么最终预测子中的对应像素全部由EL预测子中的像素形成。
在一些实施例中,在使用帧内预测形成EL预测子时,位于当前EL层块(例如,当前正译码的块)的边界处且靠近于经重建构像素的相邻块的在EL预测子中的像素可在其与BL预测子组合以形成最终预测子时被给予较高加权。对于其它像素位置,可将较高加权给予来自BL预测子的像素。
在增强层处的经重建构像素通常比在基层处的对应像素更准确(例如,具有更接近于其原始像素值的值)。结果,在EL预测子中,归因于相邻像素之间的强相关,位于靠近于相邻块的经重建构像素处的像素可用以产生较高质量预测(例如,EL预测子可被给予比对应BL预测子高的权重)。然而,对于位于距用于预测的相邻块经重建构像素很远处的在EL预测子中的其它像素,预测质量可在一些情况下较低。在这些情况下,BL预测子可用以产生较高质量最终预测子(例如,BL预测子可被给予比对应EL预测子高的权重)。
图7中说明此想法。在图7中,EL块700为待预测及译码的当前EL块。区域720(用“/”线条图形标记)为可用于预测当前EL块700的相邻EL块702到708的经重建构像素区域。展示为阴影的区域710为靠近于相邻EL块702到708的区域,其中可将相对较高加权指派给EL预测子。举例来说,基于等式(2),对于阴影区域710中的像素来说,c1[i,j]可小于0.5,且c2[i,j]大于0.5。对于阴影区域710内的在相邻EL块702到708的边界上的像素来说,c1[i,j]可取值0,且c2[i,j]取值1,使得最终预测子中的预测值全部基于用于这些像素的EL预测子。
图7中所示的状况仅为实例,且并不意欲为限制性的。实际上,阴影区域710的形状可自适应地定义,例如基于为当前块700选定的帧内预测方向。图8A及8B说明两个其它实例,其中阴影区域可不同地定义。图8A说明其中预测方向为垂直的状况。在此状况下,较高加权可被给予在垂直方向上实质上在相邻EL块的边界上或靠近所述边界的在阴影区域810a中的像素的EL预测子。图8B展示其中预测方向为水平的实例。在此状况下,较高加权可被给予在水平方向上实质上在相邻EL块的边界上或靠近所述边界的在阴影区域810b中的像素的EL预测子。
尽管在上文所描述的实例中指示阴影区域,但加权参数在阴影区域之内或之外仍可变化。阴影区域仅用作用以说明其中可在形成最终预测子时将比BL预测子多的加权给予EL预测子的区的实例。在一些实施例中,用于某一像素位置的加权因数可基于帧内预测方向及基本上像素位置距用于预测的对应边界像素的距离来确定。举例来说,对于某一像素位置的较短距离来说,可将较高加权因数指派给EL预测子中的对应像素。
在额外实施例中,可使用基于量化参数或空间缩放比的预测子的加权组合。在确定用于组合来自基层及增强层的预测子的系数(例如,加权参数)时,也可考虑量化参数(QP)。总的来说,QP值越低,预测子的质量越高。结果,如果增强层块具有与用于基层块中的QP相比显著较低的QP,那么可在形成用于当前增强层块的最终预测子时将更多的加权指派给EL预测子。举例来说,基层块与增强层块之间的QP差可以用作用于确定加权参数的因数。
也可在确定加权参数时考虑空间缩放比。在空间可缩放性中,增强帧具有比基层帧高的空间分辨率。在此状况下,在基层经重建构纹理可用作用于对应增强层块的预测子之前必须相应地对基层经重建构纹理进行升取样。纹理质量可在升取样过程期间降级。较大的缩放比通常产生质量的较大降级。因此,缩放比可被认为是用于确定加权参数的因数。总的来说,缩放比越大,在产生最终预测子时就越应将更多权重指派给EL预测子。
对于迄今所描述的技术,可取决于某些条件或内容而隐含地确定或导出加权参数。以此方式,在编码器及解码器两者皆使用相同方案来导出加权参数时,针对加权参数的从编码器到解码器的额外发信号可能并非所需要的。
如上文所描述,用以隐含地导出加权参数的条件或内容可包含帧内预测方向(或帧内模式)、像素位置距用于预测的对应边界像素的距离、基层QP及增强层QP以及不同层之间的空间缩放比。也可使用其它因数,例如运动向量差、块大小等。
作为加权参数的隐含导出的替代方案,编码器还可将某些信息用信号发出到解码器以用于确定加权参数。举例来说,编码器可用信号发出当前块中的坐标以指示应如何计算加权参数。
图9中提供实例。在帧内预测方向为垂直时,可将行坐标910用信号发出到解码器,所述行坐标指示其中相等加权(例如,0.5)经指派于EL预测子与BL预测子之间的位置。假定顶部行具有来自EL预测子的加权1(即,来自BL的加权0),且底部行具有来自BL预测子的加权1(即,来自EL的加权0),因此可基于某一方案(例如线性内插法)来内插用于当前增强层块900内的所有其它像素位置的加权参数。可在预测方向为水平时应用相同技术。此想法可扩展到二维状况。在一些实施例中,可将行及列坐标两者用信号发出到解码器,使得以二维方式执行加权参数的内插。在一些实施例中,行和/或列坐标并不指示给予BL预测子及EL预测子的加权均匀的点,而是可指示用于BL预测子或EL预测子的加权将形成用于最终预测子的整个基底的点。在此类状况下,指派给位置的剩余部分的权重可以类似方式进行推断。
现转而参看图10,将描述用于对视频进行译码的说明性过程。可在本文中所描述的装置(例如,源装置12或目的地装置14)中的一或多者中实施过程。
过程在框1002处开始,其中接收数字视频的第一层及数字视频的第二层。在由目的地装置14或某一其它解码器实施时,可经由有线和/或无线装置(例如,USB、PSTN、以太网、蜂窝式电话、卫星、WiFi、蓝牙等)将层发射为数字信号。可单独地或作为相同发射的一部分接收层。在一些实施例中,可直接从源装置12或经由一或多个中间装置从源装置接收层。也可接收多个源装置接收层或其部分。接收过程还可包含将接收的层存储于存储器中。
在一些实施例中,过程可由源装置12或一些其它编码器实施。在一些状况下,可从存储器获得包含第一层及第二层的数字视频(例如,存储于磁盘、DVD、蓝光光盘等上的视频)。存储器可包含于实施所述过程的装置中,或存储器可为可由实施所述方法的装置接入的单独的装置(例如,联网存储装置)。在一些实施例中,可从传感器(例如,相机)获得数字视频。
在框1004处,实施所述过程的装置可确定与第一层相关联的预测子(例如,基层预测子)及与第二层相关联的预测子(例如,增强层预测子)的权重。举例来说,目的地装置14可基于加权的EL预测子及BL预测子从所述视频的特定帧解码增强层块。可已经对相邻EL块进行解码。对于靠近相邻块的像素,解码器可将比指派给对应BL预测子(例如,基层中的并置预测子)的权重大的权重指派给所述像素的EL预测子。对于距先前经解码相邻EL块很远的像素,解码器可将比指派给EL预测子的权重大的权重指派给对应于像素的BL预测子。下文关于图11描述用于基于像素位置将权重指派给EL及BL预测子的说明性过程。在确定权重时也可考虑其它因数。举例来说,可考虑预测方向。在此类状况下,与靠近于相邻块但并不与当前预测方向一致的像素相关联的EL预测子可能不一定被指派大于对应BL预测子的权重。可以考虑的其它因数包含QP值、空间缩放比及其类似者。下文关于图12描述用于基于EL及BL特性将权重指派给EL及BL预测子的说明性过程。
在框1006处,实施所述过程的装置可基于框1004中所确定的加权预测子对增强层视频单元(例如,块或像素)进行译码。举例来说,根据上文所描述的等式(1)及(2),用以对特定增强层像素进行解码的最终预测子可基于对应于像素的EL预测子与同EL预测子相关联的权重的乘积,并且还基于对应于像素的BL预测子与同BL预测子相关联的权重的乘积。可对相应加权的预测子进行求和以提供用于特定像素的最终预测子。
图11说明用于基于EL块内或相对于经先前译码相邻EL块的像素位置将权重指派给EL及BL预测子的过程。过程可实施于本文中所描述的装置(例如,源装置12的视频编码器20或目的地装置14的视频解码器)中的一或多者中。
过程在框1102处开始,其中确定了EL中的特定像素的位置。确切地说,在用于当前EL块的预测方向上从所述位置到经先前译码EL块(例如,邻近于当前正译码的EL块的EL块)中的像素的距离可与被给予EL预测子的权重成反比。
在框1104处,执行过程的装置可基于位置及距经先前译码EL块的距离将权重指派给用于当前像素(或行,或列)的EL预测子,如上文所确定的。示意性地,指派给EL预测子的权重可接近或等于1,其中当前像素在预测方向上与经先前译码像素直接相邻。EL预测子可随着在预测方向上的当前像素与经先前译码像素之间的距离增加而变小或接近零。
在框1106处,执行所述过程的装置可基于指派给EL预测子的权重将权重指派给BL预测子。示意性地,任何像素的指派给EL预测子及BL预测子的权重可加总为常量,例如1。在一些实施例中,基于当前EL像素的位置指派BL预测子的权重,及指派给EL预测子的权重是基于指派给BL预测子的权重。
在框1108处,执行所述过程的装置可针对当前EL块中的每一像素重复确定像素位置及基于所述位置指派权重的过程。
图12说明用于基于基层及增强层的特性确定或指派BL及EL预测子权重的过程。可在本文中所描述的装置(例如,源装置12或目的地装置14)中的一或多者中实施过程。
过程在框1202处开始,其中确定基层及增强层的相关特性。特性可为量化参数、缩放因数或与加权预测子相关的一些其它特性。
在框1204处,基于上文确定的特性确定或指派EL预测子的权重。举例来说,如果增强层及基层的量化参数或缩放因数之间的差别很大,那么可指派相对较大的EL预测子权重。此大差别可指示经先前译码EL块为当前EL块提供比BL块更好的预测子,因为例如BL块的质量可显著低于EL块的质量。
在框1206处,执行所述过程的装置可基于指派给EL预测子的权重将权重指派给BL预测子。示意性地,指派给EL预测子及BL预测子的权重可加总为常量,例如1。在一些实施例中,基于EL块及BL块的特性指派BL预测子的权重,及指派给EL预测子的权重是基于指派给BL预测子的权重。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处的媒体(例如,根据一种通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时形的,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用的媒体。计算机程序产品可包括计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或任何其它可用来存储指令或数据结构的形式的期望程序代码并且可由计算机存取的媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文所述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调,其经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以配合合适的软件和/或固件组合在一个编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (37)

1.一种用于对数字视频进行译码的设备,所述设备包括:
存储器,其经配置以存储与基层及对应增强层相关联的视频信息;及
与所述存储器通信的处理器,所述处理器经配置以:
至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重;及
至少部分基于所述第一和第二权重对所述增强层中的所述视频单元进行译码。
2.根据权利要求1所述的设备,其中所述第一和第二权重中的至少一者不等于1。
3.根据权利要求1所述的设备,其中所述处理器经进一步配置以至少部分基于最终预测子对所述增强层中的所述视频单元进行译码,且其中所述最终预测子包括根据所述第一权重加权的基层预测子与根据所述第二权重加权的增强层预测子的组合。
4.根据权利要求3所述的设备,其中对于经组合以确定用于当前增强层块的最终预测子的所有基层预测子及增强层预测子,所述第一权重及所述第二权重加总为预定常量。
5.根据权利要求1所述的设备,其中对于在预测方向上实质上邻近于经先前译码增强层块的增强层视频单元来说,所述第二权重大于所述第一权重。
6.根据权利要求1所述的设备,其中对于在预测方向上距经先前译码增强层块最远的增强层视频单元来说,所述第一权重大于所述第二权重。
7.根据权利要求1所述的设备,其中所述视频信息包括帧内预测方向、像素位置、量化参数及空间缩放比中的一或多者。
8.根据权利要求7所述的设备,其中依据所述基层的量化参数QP1及所述增强层的量化参数QP2两者确定所述第二权重。
9.根据权利要求8所述的设备,其中所述第二权重通常随着QP1-QP2的值增加而增加。
10.根据权利要求7所述的设备,其中依据所述空间缩放比确定所述第二权重。
11.根据权利要求10所述的设备,其中所述第二权重通常随着所述空间缩放比增加而增加。
12.根据权利要求1所述的设备,其中所述增强层中的所述视频单元包括在当前增强层块中的像素,且其中依据在预测方向上在所述像素与相邻增强层块的边界之间的距离确定所述第二权重。
13.根据权利要求12所述的设备,其中对于更靠近于所述边界的像素,所述第二权重通常增加,且对于距所述边界较远的像素,所述第一权重通常增加。
14.根据权利要求1所述的设备,其中所述视频信息并不包括所述第一和第二权重。
15.根据权利要求1所述的设备,其中所述视频信息包括关于所述第一和第二权重的加权数据。
16.根据权利要求15所述的设备,其中所述加权数据包括在当前增强层块内的位置,在所述位置处所述第一权重及所述第二权重相等。
17.根据权利要求16所述的设备,其中所述处理器经进一步配置以至少部分基于所述第一和第二权重相等的所述位置确定与所述当前增强层块相关联的多个视频单元的所述第一和第二权重。
18.根据权利要求1所述的设备,其中对数字视频进行译码包括对数字视频进行编码。
19.根据权利要求1所述的设备,其中对数字视频进行译码包括对数字视频进行解码。
20.一种对数字视频进行译码的方法,所述方法包括:
获得与基层及对应增强层相关联的视频信息;
至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重;及
至少部分基于所述第一和第二权重对所述增强层中的所述视频单元进行译码。
21.根据权利要求20所述的方法,其中对所述增强层中的所述视频单元进行译码至少部分基于最终预测子,且其中所述最终预测子包括根据所述第一权重加权的基层预测子与根据所述第二权重加权的增强层预测子的组合。
22.根据权利要求21所述的方法,其中对于经组合以确定用于当前增强层块的最终预测子的所有基层预测子及增强层预测子,所述第一权重及所述第二权重加总为预定常量。
23.根据权利要求20所述的方法,其中对于实质上邻近于经先前译码增强层块的增强层视频单元来说,所述第二权重大于所述第一权重。
24.根据权利要求20所述的方法,其中对于距经先前译码增强层块最远的增强层视频单元来说,所述第一权重大于所述第二权重。
25.根据权利要求20所述的方法,其中所述视频信息包括帧内预测方向、像素位置、量化参数及空间缩放比中的一或多者。
26.根据权利要求25所述的方法,其中依据所述基层的量化参数QP1及所述增强层的量化参数QP2两者确定所述第二权重。
27.根据权利要求26所述的方法,其中所述第二权重通常随着QP1-QP2的值增加而增加。
28.根据权利要求25所述的方法,其中依据所述空间缩放比确定所述第二权重。
29.根据权利要求28所述的方法,其中所述第二权重通常随着所述空间缩放比增加而增加。
30.根据权利要求20所述的方法,其中所述增强层中的所述视频单元包括在当前增强层块中的像素,且其中依据所述像素与相邻增强层块的边界之间的距离确定所述第二权重。
31.根据权利要求30所述的方法,其中对于更靠近于所述边界的像素,所述第二权重通常增加,且对于距所述边界较远的像素,所述第一权重通常增加。
32.根据权利要求20所述的方法,其中所述视频信息并不包括所述第一和第二权重。
33.根据权利要求20所述的方法,其中所述视频信息包括关于所述第一和第二权重的加权数据。
34.根据权利要求33所述的方法,其中所述加权数据包括在当前增强层块内的位置,在所述位置处所述第一权重及所述第二权重相等。
35.根据权利要求34所述的方法,其进一步包括至少部分基于所述第一和第二权重相等的所述位置确定与所述当前增强层块相关联的多个视频单元的所述第一和第二权重。
36.一种包括可由设备的处理器执行的指令的计算机可读存储媒体,所述指令致使所述设备:
获得与基层及对应增强层相关联的视频信息;
至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重;及
至少部分基于所述第一和第二权重对所述增强层中的所述视频单元进行译码。
37.一种用于对视频进行译码的设备,所述设备包括:
用于获得与基层及对应增强层相关联的视频信息的装置;
用于至少部分基于所述视频信息确定与所述基层中的视频单元相关联的第一权重及与所述增强层中的视频单元相关联的第二权重的装置;及
用于至少部分基于所述第一和第二权重对所述增强层中的所述视频单元进行译码的装置。
CN201380015150.3A 2012-03-22 2013-03-20 用于视频译码的层间纹理预测 Active CN104255027B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201261614450P 2012-03-22 2012-03-22
US61/614,450 2012-03-22
US201261707620P 2012-09-28 2012-09-28
US61/707,620 2012-09-28
US13/838,270 US9392274B2 (en) 2012-03-22 2013-03-15 Inter layer texture prediction for video coding
US13/838,270 2013-03-15
PCT/US2013/033068 WO2013142558A1 (en) 2012-03-22 2013-03-20 Inter layer texture prediction for video coding

Publications (2)

Publication Number Publication Date
CN104255027A true CN104255027A (zh) 2014-12-31
CN104255027B CN104255027B (zh) 2017-11-24

Family

ID=49211796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380015150.3A Active CN104255027B (zh) 2012-03-22 2013-03-20 用于视频译码的层间纹理预测

Country Status (8)

Country Link
US (1) US9392274B2 (zh)
EP (1) EP2829062B1 (zh)
JP (1) JP6199371B2 (zh)
KR (1) KR20140139571A (zh)
CN (1) CN104255027B (zh)
ES (1) ES2736308T3 (zh)
HU (1) HUE043633T2 (zh)
WO (1) WO2013142558A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108886598A (zh) * 2016-01-12 2018-11-23 上海科技大学 全景立体视频系统的压缩方法和装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6060394B2 (ja) * 2012-06-27 2017-01-18 インテル・コーポレーション クロスレイヤー・クロスチャネル残差予測
KR20140016823A (ko) * 2012-07-24 2014-02-10 한국전자통신연구원 영상의 복호화 방법 및 이를 이용하는 장치
WO2014047881A1 (en) * 2012-09-28 2014-04-03 Intel Corporation Inter-layer intra mode prediction
KR20150063379A (ko) 2012-09-28 2015-06-09 소니 주식회사 부호화 장치 및 부호화 방법, 및 복호 장치 및 복호 방법
WO2014072571A1 (en) * 2012-10-01 2014-05-15 Nokia Corporation Method and apparatus for scalable video coding
GB2509311B (en) * 2012-12-21 2016-12-14 Canon Kk Method and device for determining residual data for encoding or decoding at least part of an image
EP3085095B1 (en) * 2013-12-22 2020-07-08 LG Electronics Inc. Method and apparatus for intra prediction of a video signal
WO2015168581A1 (en) * 2014-05-01 2015-11-05 Arris Enterprises, Inc. Reference layer and scaled reference layer offsets for scalable video coding
WO2017121549A1 (en) * 2016-01-12 2017-07-20 Telefonaktiebolaget Lm Ericsson (Publ) Frequency based prediction
KR20230058541A (ko) 2018-07-26 2023-05-03 구글 엘엘씨 공간 계층 레이트 할당

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0644695A3 (en) * 1993-09-21 1995-10-11 At & T Corp Spatially scaled video coding and decoding.
CN101366283A (zh) * 2006-01-11 2009-02-11 高通股份有限公司 具有精细粒度空间可缩放性的视频编码

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070014348A1 (en) * 2005-04-12 2007-01-18 Nokia Corporation Method and system for motion compensated fine granularity scalable video coding with drift control
KR100781525B1 (ko) * 2006-04-06 2007-12-03 삼성전자주식회사 가중 평균합을 이용하여 fgs 계층을 인코딩 및디코딩하는 방법 및 장치
GB2440004A (en) * 2006-07-10 2008-01-16 Mitsubishi Electric Inf Tech Fine granularity scalability encoding using a prediction signal formed using a weighted combination of the base layer and difference data
US8422555B2 (en) 2006-07-11 2013-04-16 Nokia Corporation Scalable video coding
US8175158B2 (en) 2008-01-04 2012-05-08 Sharp Laboratories Of America, Inc. Methods and systems for inter-layer image prediction parameter determination
EP2243297B1 (en) 2008-02-05 2017-03-08 Thomson Licensing Methods and apparatus for implicit block segmentation in video encoding and decoding
US8711948B2 (en) 2008-03-21 2014-04-29 Microsoft Corporation Motion-compensated prediction of inter-layer residuals
US9681142B2 (en) 2009-02-03 2017-06-13 Thomson Licensing Dtv Methods and apparatus for motion compensation with smooth reference frame in bit depth scalability

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0644695A3 (en) * 1993-09-21 1995-10-11 At & T Corp Spatially scaled video coding and decoding.
CN101366283A (zh) * 2006-01-11 2009-02-11 高通股份有限公司 具有精细粒度空间可缩放性的视频编码

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREW SEGALL ET AL: "CE8: SVC-to-AVC Bit-stream Rewriting for Coarse Grain Scalability", 《JOINT VIDEO TEAM(JVT) OF ISO/IEC MPEG&ITU-T VCEG》 *
KAZUYA HAYASE ET AL: "A weighted prediction of spatial scalable video coding with inter-layer information", 《PICTURE CODING SYMPOSIUM》 *
STEFFEN KAMP ET AL: "Quality Scalable Low Delay Video Coding using Leaky Base Layer Prediction", 《COMMUNICATION AND INFORMATION TECHNOLOGIES. IEEE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108886598A (zh) * 2016-01-12 2018-11-23 上海科技大学 全景立体视频系统的压缩方法和装置
US10636121B2 (en) 2016-01-12 2020-04-28 Shanghaitech University Calibration method and apparatus for panoramic stereo video system
US10643305B2 (en) 2016-01-12 2020-05-05 Shanghaitech University Compression method and apparatus for panoramic stereo video system
CN108886598B (zh) * 2016-01-12 2020-08-25 上海科技大学 全景立体视频系统的压缩方法和装置

Also Published As

Publication number Publication date
HUE043633T2 (hu) 2019-08-28
EP2829062B1 (en) 2019-04-17
JP6199371B2 (ja) 2017-09-20
EP2829062A1 (en) 2015-01-28
US9392274B2 (en) 2016-07-12
JP2015514362A (ja) 2015-05-18
KR20140139571A (ko) 2014-12-05
US20130251030A1 (en) 2013-09-26
CN104255027B (zh) 2017-11-24
WO2013142558A1 (en) 2013-09-26
ES2736308T3 (es) 2019-12-27

Similar Documents

Publication Publication Date Title
CN104584550B (zh) 用于可缩放视频译码的帧内预测改善
CN105393536B (zh) 使用位移向量从预测性块的帧内预测
CN104685875B (zh) 用于视频译码的方法、设备、计算机可读存储媒体
CN104685883B (zh) 用于3d视频的经视图间预测运动向量
CN104704833B (zh) 多视图或3维视频译码中的高级视图间残差预测
CN103621095B (zh) 用于视频译码中的帧内预测的边界像素填补
CN104604224B (zh) 可缩放视频译码中的变换基底调整
CN104429072B (zh) 自适应差域空间和时间参考重构及平滑
CN104255027B (zh) 用于视频译码的层间纹理预测
CN104412591A (zh) 用于差域帧内预测的帧内模式扩展
CN104737537A (zh) 用于可缩放视频译码的加权预测模式
CN105009590B (zh) 用于视频信息的可缩放译码的装置和方法
CN105052152A (zh) 用于仅高级语法可缩放视频译码的层间参考图片限制
CN104704843A (zh) 视频性质的指示
CN104429076B (zh) 用于可缩放视频译码和3d视频译码的一般化残差预测
CN104937936A (zh) 用于帧内预测的模式决策简化
CN104303502A (zh) 用于3d-hevc的视差向量建构方法
CN104170380A (zh) 视频译码中的视差矢量预测
CN104823449A (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN104521237A (zh) 用于可缩放视频译码及3d视频译码的多假设运动补偿
CN104396250A (zh) 用于3d视频译码的深度图的帧内译码
CN105052139B (zh) 用于shvc的多个基础层参考图片
CN105409219A (zh) 高效率视频译码扩展中的目标输出层的选择
CN104756499A (zh) 用于视频译码的参考图片状态
CN104221378A (zh) 在视频译码中用于量化矩阵的均匀粒度

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant