CN105103551A - 多层视频译码中的跨层对准 - Google Patents

多层视频译码中的跨层对准 Download PDF

Info

Publication number
CN105103551A
CN105103551A CN201480019752.0A CN201480019752A CN105103551A CN 105103551 A CN105103551 A CN 105103551A CN 201480019752 A CN201480019752 A CN 201480019752A CN 105103551 A CN105103551 A CN 105103551A
Authority
CN
China
Prior art keywords
picture
layer
video
decoding
comprised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480019752.0A
Other languages
English (en)
Inventor
王益魁
阿达许·克里许纳·瑞玛苏布雷蒙尼安
陈建乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105103551A publication Critical patent/CN105103551A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种根据某些方面的用于对视频信息译码的设备包含存储器单元和与所述存储器单元通信的视频处理器。所述视频处理器经配置以识别图片的第一集合中包含的第一图片,其中所述图片的第一集合内的具有在所述第一图片的输出位置之后的输出位置的图片还具有在所述第一图片的解码位置之后的解码位置。所述视频处理器进一步经配置以识别图片的第二集合中包含的第二图片,其中所述图片的第二集合内的具有在所述第二图片的输出位置之后的输出位置的图片还具有在所述第二图片的解码位置之后的解码位置。所述视频处理器还经配置以经由一个语法元素将所述经识别第一图片和所述经识别第二图片译码到一个存取单元中。

Description

多层视频译码中的跨层对准
技术领域
本发明涉及视频译码的领域,包含单层、多层、可缩放HEVC(SHVC)和多视图HEVC(MV-HEVC)。
背景技术
数字视频能力可并入到广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频串流装置及其类似者。数字视频装置实施视频译码技术,例如由MPEG-2、MPEG-4、ITU-TH.263或ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)所定义的标准、目前正在开发的高效视频译码(HEVC)标准及这些标准的扩展中所描述的视频译码技术。视频装置可通过实施此些视频译码技术而更有效地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频帧或视频帧的一部分)可分割成视频块,视频块也可被称作树块、译码单元(CU)和/或译码节点。CU可进一步分割成一或多个预测单元(PU)以确定针对CU的预测视频数据。视频压缩技术还可将CU分割为残余视频块数据的一或多个变换单元(TU),所述残余视频块数据表示待译码视频块与预测视频数据之间的差。例如二维离散余弦变换(DCT)等线性变换可应用于TU以将残余视频块数据从像素域变换到频域以实现进一步压缩。此外,图片的经帧内译码(I)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测,或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测导致用于待译码块的预测块。残余数据表示待译码的原始块与预测块之间的像素差。经帧间译码块是根据指向形成预测块的参考样本块的运动向量和指示经译码块与预测块之间的差的残余数据编码的。经帧内译码块是根据帧内译码模式和残余数据来编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,接着可将残余变换系数量化。可扫描最初布置成二维阵列的经量化变换系数,以便产生变换系数的一维向量,且可应用熵编码以实现更多压缩。
一些译码实施方案包含多个层中译码的视频。每一层可表示视频的经不同编码版本。关注提供一种灵活标准,可给予每一层关于如何表示经译码视频信息的完全自由。然而,此自由需要译码装置处置可能不同地译码的分层信息。当层经组织和译码时,此可引入资源利用开销,例如处理器循环、存储器和/或功率消耗。此外,当处理经译码信息的层时,此可引入呈现延迟。
发明内容
大体来说,本发明描述关于视频译码(确切地说,多层视频译码)的技术。下文描述的技术提供增强多层视频处理所需的资源利用率的若干译码特征。
在一个创新方面中,提供一种用于对视频信息译码的设备。所述设备包含存储器单元,其经配置以存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合。所述图片的第一集合和所述图片的第二集合提供视频信息的不同表示。此外,图片的所述第一集合和图片的所述第二集合具有针对相应集合中包含的图片的输出次序。所述输出次序识别图片的显示序列,每一图片具有相关联输出次序内的输出位置。所述图片的第一集合和所述图片的第二集合具有针对相应集合中包含的图片的解码次序。所述解码次序识别针对相应集合中包含的图片的解码序列。每一图片进一步具有相关联解码次序内的解码位置。
所述设备还包含操作上耦合到存储器单元的视频处理器。视频处理器经配置以识别图片的第一集合中包含的第一图片,其中图片的第一集合内的具有第一图片的输出位置之后的输出位置的图片还具有第一图片的解码位置之后的解码位置。视频处理器进一步经配置以识别图片的第二集合中包含的第二图片,其中图片的第二集合内的具有第二图片的输出位置之后的输出位置的图片还具有第二图片的解码位置之后的解码位置。视频处理器进一步经配置以将经识别第一图片和经识别第二图片译码到一个存取单元中。
在一些实施方案中,所述图片的第一集合包含图片的第一群组,且所述图片的第二集合包括图片的第二群组。来自图片的第一集合的具有经识别第一图片的输出位置之前的输出位置且具有经识别第一图片的解码位置之后的解码位置的图片还可具有基础层中包含的图片的第三集合中包含的第三图片之前的解码位置。图片的第三集合内的具有第三图片的输出位置之后的输出位置的图片还可具有第三图片的解码位置之后的解码位置。来自图片的第二集合的具有经识别第二图片的输出位置之前的输出位置且具有经识别第二图片的解码位置之后的解码位置的图片还可具有增强层中包含的图片的第四集合中包含的第四图片之前的解码位置,其中图片的第四集合内的图片具有第四图片的输出位置之后的输出位置,还具有第四图片的解码位置之后的解码位置。
第一图片和第二图片可为经帧内译码随机存取点图片。存取单元可为针对视频信息的第一存取单元,且存取单元可包含针对包含所述视频信息的每一层的图片。在所述设备的一些实施方案中,与除基础层之外的层相关联的图片可不译码为经帧内译码随机存取点图片,除非对于具有视频信息中的至少一个图片的图片的层下方的每一层,存在存取单元中的图片。
所述设备可包含编码器,其经配置以产生存取单元,所述存取单元经配置以对准与存取单元的层相关联的图片。所述设备的一些实施方案可包含解码器,其经配置以处理存取单元,所述存取单元经配置以对准与存取单元的层相关联的图片。所述设备可包含台式计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、车内计算机或视频串流装置。
在另一创新方面中,提供一种编码视频信息的方法。所述方法包含存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合。所述图片的第一集合和所述图片的第二集合提供视频信息的不同表示。此外,图片的第一集合和图片的第二集合具有针对相应集合中包含的图片的输出次序,其中所述输出次序识别图片的显示序列。每一图片具有相关联输出次序内的输出位置。图片的第一集合和图片的第二集合各自具有相应集合中包含的图片的解码次序。所述解码次序识别针对相应集合中包含的图片的解码序列。每一图片进一步具有相关联解码次序内的解码位置。
所述方法还包含识别图片的第一集合中包含的第一图片。图片的第一集合内的具有第一图片的输出位置之后的输出位置的图片还具有第一图片的解码位置之后的解码位置。所述方法还包含识别图片的第二集合中包含的第二图片。图片的第二集合内的具有第二图片的输出位置之后的输出位置的图片还具有第二图片的解码位置之后的解码位置。所述方法还包含在一个存取单元中编码经识别第一图片和经识别第二图片。
图片的第一集合包括图片的第一群组,且图片的第二集合包括图片的第一群组和图片的第二群组。第一图片和第二图片可为经帧内译码随机存取点图片。在所述视频编码方法的一些实施方案中,存取单元为用于视频信息的第一存取单元,且所述存取单元包含针对包含所述视频信息的每一层的图片。在一些实施方案中,与除基础层之外的层相关联的图片可不译码为经帧内译码随机存取点图片,除非对于具有视频信息中的至少一个图片的图片的层下方的每一层,存在存取单元中的图片。
在所述视频编码方法的一些实施方案中,图片的第一集合包含图片的第一群组,且图片的第二集合包括图片的第二群组。来自图片的第一集合的具有经识别第一图片的输出位置之前的输出位置且具有经识别第一图片的解码位置之后的解码位置的图片还可具有基础层中包含的图片的第三集合中包含的第三图片之前的解码位置。图片的第三集合内的具有第三图片的输出位置之后的输出位置的图片还可具有第三图片的解码位置之后的解码位置。来自图片的第二集合的具有经识别第二图片的输出位置之前的输出位置且具有经识别第二图片的解码位置之后的解码位置的图片还可具有增强层中包含的图片的第四集合中包含的第四图片之前的解码位置,其中图片的第四集合内的图片具有第四图片的输出位置之后的输出位置,还具有第四图片的解码位置之后的解码位置。
在一创新方面中,提供一种非暂时性计算机可读媒体,其包括可由设备的处理器执行的指令。所述指令致使所述设备执行上文描述的视频编码方法。
在又一创新方面中,提供一种解码视频信息的方法。所述方法包含接收包含图片的两个或两个以上层的视频信息的第一部分,其中图片的每一层具有针对相应层中包含的图片的输出次序。所述输出次序识别图片的显示序列,每一图片具有相关联输出次序内的输出位置。此外,图片的第一集合和图片的第二集合具有针对相应集合中包含的图片的解码次序,所述解码次序识别针对相应集合中包含的图片的解码序列。每一图片进一步具有相关联解码次序内的解码位置。
所述方法还包含识别关键图片,关键图片为符合以下条件的图片:无来自与所述图片相关联的层中包含的具有所述图片的解码位置之前的解码位置的图片的其它图片具有所述图片的输出位置之后的输出位置。所述方法进一步包含基于关于存取单元中包含的所有图片是否为经识别关键图片的确定而解码视频信息。
在一个创新方面中,提供一种非暂时性计算机可读媒体,其包括可由设备的处理器执行的指令。所述指令致使所述设备执行上文描述的视频解码方法。
在确定存取单元中包含的所有图片为经识别关键图片或存取单元中包含的所有图片不是经识别关键图片后,所述方法可包含配置解码管线用于跨层对准解码。在一些实施方案中,所述方法可包含识别关键图片,其中来自源自一层的具有所述关键图片的输出位置之前的输出位置且具有所述经识别关键图片的解码位置之后的解码位置的图片的第一集合的图片还具有所述层中包含的另一关键图片之前的解码位置,其中所述另一关键图片为按输出次序在所述关键图片之后的下一经识别关键图片。在此些实施方案中,图片的第一集合包括一层中包含的图片的第一群组。
与除基础层以外的层相关联的图片可不译码为经帧内译码随机存取点图片,除非对于具有视频信息中的至少一个图片的图片的层下方的每一层,存在存取单元中的图片。
在此方法的一些实施方案中,选择性地执行所述识别。可基于执行所述方法的解码装置的操作特性选择性地执行所述识别。所述操作特性可包含解码装置处理负载、热状态、带宽容量、存储器容量或经耦合硬件。
所述方法的一些实施方案可包含存储关于存取单元中包含的所有图片是否为经识别关键图片的确定。所述方法可随后包含基于自从所述确定消逝的持续时间选择性的执行所述识别。
在另一创新方面中,提供一种用于对视频信息译码的设备。所述设备包含用于存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合的装置。所述图片的第一集合和所述图片的第二集合提供视频信息的不同表示。图片的第一集合和图片的第二集合各自具有针对相应集合中包含的图片的输出次序,所述输出次序识别图片的显示序列。每一图片具有相关联输出次序内的输出位置。图片的第一集合和图片的第二集合具有针对相应集合中包含的图片的解码次序,所述解码次序识别针对相应集合中包含的图片的解码序列。每一图片进一步具有相关联解码次序内的解码位置。
所述设备进一步包含用于识别图片的第一集合中包含的第一图片和用于识别图片的第二集合中包含的第二图片的装置。图片的第一集合内的具有第一图片的输出位置之后的输出位置的图片还具有第一图片的解码位置之后的解码位置。图片的第二集合内的具有第二图片的输出位置之后的输出位置的图片还具有第二图片的解码位置之后的解码位置。所述设备还包含用于将经识别第一图片和经识别第二图片译码到一个存取单元中的装置。
在所述设备的一些实施方案中,图片的第一集合包括图片的第一群组,且图片的第二集合包括图片的第一群组和图片的第二群组。存取单元可可包含针对视频信息的第一存取单元,且其中存取单元可包含针对包含所述视频信息的每一层的图片。可能需要与除基础层之外的层相关联的图片不译码为经帧内译码随机存取点图片,除非对于具有视频信息中的至少一个图片的图片的层下方的每一层,存在存取单元中的图片。
在附图及以下描述中陈述一或多个实例的细节,其并不希望限制本文中所描述的发明性概念的完整范围。其它特征、目标和优点将从所述描述和图式以及从权利要求书而显而易见。
附图说明
贯穿所述图式,参考数字可再使用以指示参考元件之间的对应关系。提供图式以说明本文中描述的实例实施例,且并不希望限制本发明的范围。
图1展示包含沿着不同维度的实例视频可缩放性的维度图。
图2说明示范性多层译码结构的译码结构图。
图3说明针对包含经译码多层视频数据的位流的存取单元图。
图4是说明可利用根据本发明中描述的方面的技术的实例视频编码和解码系统的框图。
图5是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。
图6为说明可实施根据本发明中描述的方面的技术的跨层对准处理器的实例的框图。
图7是说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。
图8说明未对准经译码存取单元的实例。
图9说明未对准经译码存取单元的另一实例。
图10说明经对准经译码存取单元的实例。
图11说明视频译码的方法的过程流程图。
图12展示包含跨层对准的视频译码的另一方法的过程流程图。
图13展示识别跨层对准视频数据的方法的过程流程图。
具体实施方式
本发明中描述的技术大体涉及视频译码,确切地说涉及多层视频译码,包含可缩放视频译码和多视图/3D视频译码。举例来说,所述技术可涉及高效视频译码(HEVC)可缩放视频译码扩展(被称作SHVC),且与之一起使用或在其内使用。在SHVC扩展中,可存在多个视频信息层。最底层级处的层可充当基础层(BL),且最顶部(或最高层)处的层或其间的层可充当经增强层(EL)。“经增强层”有时被称作“增强层”,且这些术语可互换地使用。基础层或基础层与最高层两者之间的层有时被称作“参考层”(RL),且这些术语也可可互换地使用。基础层与顶层两者之间的所有层可充当EL或参考层(RL)中的任一者或两者。举例来说,在中间的层可为在其下方的层(例如,基础层或任何介入增强层)的EL,且同时充当在其上方的增强层的RL。在基础层与顶层(或最高层)两者之间的每一层可用作较高层进行层间预测的参考,且可使用下部层作为用于层间预测的参考。
仅出于说明的目的,本发明中描述的技术是关于仅包含两个层(例如,比如基础层等较低层级的层和比如经增强层等较高层级的层)的实例进行描述的。应理解,本发明中描述的实例也可扩展到具有多个增强层的实例。另外,为便于说明,以下揭示内容主要使用术语“帧”或“块”。然而,这些术语不打算是限制性的。举例来说,下文描述的技术可与不同视频单元一起使用,所述不同视频单元例如块(例如,CU、PU、TU、宏块等)、切片、帧等,且术语“图片”和“帧”可互换使用。
视频译码
视频译码标准包含ITU-TH.261、ISO/IECMPEG-1Visual、ITU-TH.262或ISO/IECMPEG-2Visual、ITU-TH.263、ISO/IECMPEG-4Visual和ITU-TH.264(也被称为ISO/IECMPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。此外,存在一种新的视频译码标准,即高效视频译码(HEVC),其正由ITU-T视频译码专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。HEVC标准的另一新近草案(被称作“HEVC工作草案7”)是布洛斯等人的文献HCTVC-I1003,“高效视频译码(HEVC)文本规格草案7”,ITU-TSG16WP3和ISO/IECJTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第九次会议,瑞士日内瓦,2012年4月27日到2012年5月7日。另一新近草案(被称作工作草案8)在HEVC的最新工作草案(WD)处可用,且在下文被称作HEVCWD8。
多层译码标准的一个实例为可缩放视频译码。可缩放视频译码(SVC)可用于提供质量(也称为信噪比(SNR))可缩放性、空间可缩放性和/或时间可缩放性。举例来说,在一个实施例中,参考层(例如,基础层)包含足以在第一质量水平下显示视频的视频信息,且增强层包含相对于所述参考层的额外视频信息,以使得所述参考层和所述增强层一起包含足以在高于所述第一水平的第二质量水平(例如,更少的噪声、更大的分辨率、更好的帧速率等)下显示视频的视频信息。经增强层可具有与基础层不同的空间分辨率。举例来说,EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说,EL的空间纵横尺寸可等于BL的空间纵横尺寸的1.0、1.5或2.0倍。在一些实例中,EL的缩放因子可大于BL。举例来说,EL中的图片的大小可大于BL中的图片的大小。以此方式,可有可能(但非限制)EL的空间分辨率大于BL的空间分辨率。
然而,当前技术并不提供跨越层的关键图片的对准。如下文更详细地描述,此些技术将实现较好译码效率和减少的计算资源。
图1展示包含沿着不同维度的实例视频可缩放性的维度图。如图1中所示,可缩放性以三维形式实现。在时间维度上,可通过时间可缩放性(T)支持例如7.5Hz、15Hz或30Hz等帧速率。当支持空间可缩放性(S)时,可实现不同分辨率(例如QCIF、CIF和4CIF)。对于每一特定空间分辨率和帧速率,可添加SNR(Q)层来改进图片质量。
一旦已以此可缩放方式编码视频内容,便可使用提取器工具来根据应用要求调适实际递送的内容,所述应用要求取决于(例如)客户端或发射信道。在图1中展示的实例中,每一立方体含有具有相同帧速率(时间层级)、空间分辨率和SNR层的图片。可通过在任一维度中添加那些立方体(例如,图片)而实现改进的表示。当实现两个、三个或更多可缩放性时,支持组合可缩放性。
根据SVC规范,具有最低空间和质量层的图片与H.264/AVC兼容,且最低时间层级处的图片形成时间基础层,所述时间基础层可使用较高时间层级处的图片来增强。除H.264/AVC兼容层之外,可添加若干空间和/或SNR增强层以提供空间和/或质量可缩放性。SNR可缩放性也被称作质量可缩放性。每一空间或SNR增强层自身可为时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。对于一个空间或SNR增强层,其所取决于的下部层也被称作特定空间或SNR增强层的基础层。
图2说明示范性多层译码结构的译码结构图。具有最低空间和质量层的图片(层0和层1中的图片,具有QCIF分辨率)与H.264/AVC兼容。其中,最低时间层级的那些图片形成时间基础层,如图2的层0中所展示。此时间基础层(层0)可使用较高时间层级(层1)的图片来增强。除H.264/AVC兼容层之外,可添加若干空间和/或SNR增强层以提供空间和/或质量可缩放性。举例来说,增强层可为具有与层2相同的分辨率的CIF表示。在所述实例中,层3是SNR增强层。如所述实例中所展示,每一空间或SNR增强层自身可为在时间上可缩放的,具有与H.264/AVC兼容层相同的时间可缩放性结构。并且,增强层可增强空间空间分辨率和帧速率两者。举例来说,层4提供4CIF增强层,其进一步将帧速率从15Hz增加到30Hz。
图3说明针对包含经译码多层视频数据的位流的存取单元图。相同时间例项中的经译码切片在位流次序中是连续的。所述切片在SVC的上下文中形成一个存取单元。那些存取单元接着遵循解码次序,所述解码次序可不同于显示次序且(例如)是由时间预测关系来决定。
通常,层间纹理预测指代其中经重建基础层像素值用于预测增强层中的像素值的情况。存在两种方法:“帧内BL模式”和“层间参考图片”。
所述图片如何经译码(例如,使用预测)和在位流内封装可影响发射、解码和处理视频数据所消耗的资源。位流中组织图片的复杂性随着位流中包含的层的数目增加而进一步增加。在下文更详细地描述用于来自各种层的图片的跨层对准的系统、装置和方法。所描述特征可减少处理视频信息所需的资源和改进整个系统性能。
下文参考附图更充分地描述新颖系统、设备和方法的各种方面。然而,本发明可以许多不同形式来体现,且不应将其解释为限于贯穿本发明所呈现的任何特定结构或功能。实际上,提供这些方面以使得本发明将为透彻且完整的,并且将向所属领域的技术人员充分传达本发明的范围。基于本文中的教示,所属领域的技术人员应了解,本发明的范围既定涵盖无论是独立于本发明的任何其它方面而实施还是与之组合而实施的本文中所揭示的新颖系统、设备和方法的任何方面。举例来说,可使用本文中所陈述的任何数目个方面来实施设备或实践方法。此外,本发明的范围既定涵盖使用作为本文中所陈述的本发明的各种方面的补充或替代的其它结构、功能性或结构与功能性来实践的此设备或方法。应理解,可通过权利要求的一或多个要素来体现本文中所揭示的任何方面。
尽管本文描述了特定方面,但这些方面的许多变化和排列落在本发明的范围内。尽管提到了优选方面的一些益处和优点,但本发明的范围不希望限于特定益处、用途或目标。实际上,本发明的方面既定广泛地适用于不同无线技术、系统配置、网络和发射协议,其中的一些是借助于实例而在图中以及在优选方面的以下描述中说明。详细描述和图式仅说明本发明,而不具有限制性,本发明的范围由所附权利要求书及其等效物界定。
视频译码系统
图4是说明可利用根据本发明中所描述的方面的技术的实例视频译码系统10的框图。如本文中所描述地使用,术语“视频译码器”一般指视频编码器和视频解码器两者。在本发明中,术语“视频译码”或“译码”可一般地指视频编码和视频解码。
如图4中所示,视频译码系统10包含源装置12和目的地装置14。源装置12产生经编码的视频数据。目的地装置14可解码由源装置12产生的经编码的视频数据。源装置12可经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包含广泛范围的装置,包含台式计算机、笔记本(例如,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话、所谓的“智能”板)、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机、视频串流装置,等等。源装置12和目的地装置14可经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的一类型的媒体或装置。举例来说,计算机可读媒体16可包括使得源装置12能够实时将经编码的视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被发射到目的地装置14。通信媒体可包括无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的其它设备。
在一些实施例中,经编码数据可从输出接口22输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或在本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器,或用于存储视频数据的其它数字存储媒体。存储装置可对应于可存储由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由串流或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据并且将经编码视频数据发射到目的地装置14的一类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可经由标准数据连接(包含因特网连接)来存取经编码的视频数据。此可包含适合于存取存储于文件服务器上的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或两者的组合。经编码视频数据从存储装置的发射可能是串流发射、下载发射或两者的组合。
本发明的技术可应用除无线应用或环境之外的应用或环境。所述技术可应用于视频译码以支持多种多媒体应用,例如空中协议电视广播、有线电视发射、卫星电视发射、因特网串流视频发射(例如动态自适应HTTP串流(DASH))、经编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实施例中,系统10可经配置以支持单向或双向视频发射,以支持例如视频串流、视频重放、视频广播和/或视频电话等应用。
在图4中,源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。源装置12的视频编码器20可经配置以应用用于译码包含视频数据(符合多个标准或标准扩展)的位流的技术。在其它实施例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如,外部相机)接收视频数据。同样,目的地装置14可与外部显示装置介接,而非包含集成显示装置。
源装置12的视频源18可包含视频俘获装置,例如摄像机、含有先前所俘获视频的视频档案和/或用于从视频内容提供者接收视频的视频馈送接口。视频源18可产生基于计算机图形的数据(作为源视频),或实况视频、所存档视频和计算机产生的视频的组合。在一些实施例中,如果视频源18是摄像机,那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。可由视频编码器20编码所俘获视频、预俘获的视频或计算机产生的视频。经编码视频信息可由输出接口22输出到计算机可读媒体16。
计算机可读媒体16可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(例如,非暂时性存储媒体),例如硬盘、闪存驱动器、压缩光盘、数字影音光盘、蓝光光盘或其它计算机可读媒体。网络服务器(未图示)可从源装置12接收经编码视频数据,且将经编码视频数据提供到目的地装置14(例如经由网络发射)。媒体生产设施(例如光盘冲压设施)的计算装置可从源装置12接收经编码视频数据,且生产含有所述经编码视频数据的光盘。因此,可将计算机可读媒体16理解为包括各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28可从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,所述语法信息可供视频解码器30使用,所述语法信息包含描述块和其它经译码单元(例如,GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包含多种显示元件中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
视频编码器20和视频解码器30可根据一种视频译码标准(例如,目前正在开发的高效视频译码(HEVC)标准)来操作,且可符合HEVC测试模型(HM)。或者,视频编码器20和视频解码器30可根据其它专有或业界标准来操作,所述标准例如是ITU-TH.264标准,也被称为MPEG-4,第10部分,高级视频译码(AVC),或此类标准的扩展。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2和ITU-TH.263。尽管图4中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当多路复用器-多路分用器单元或其它硬件和软件以处置对共同数据流或单独数据流中的音频和视频两者的编码。如果适用的话,多路复用器-多路分用器单元可符合ITUH.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20和视频解码器30各自可实施为例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合等多种合适编码器电路中的任一者。当部分地用软件实施所述技术时,装置可将用于软件的指令存储在非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置,例如蜂窝式电话。
JCT-VC正在致力于开发HEVC标准。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM假设视频译码装置根据例如ITU-TH.264/AVC相对于现有装置的若干额外能力。举例来说,虽然H.264提供了九种帧内预测编码模式,但HM可提供多达三十三种帧内预测编码模式。
一般来说,HM的工作模型描述视频帧或图片可被划分为包含明度和色度样本两者的树块或最大译码单元(LCU)的序列。位流内的语法数据可定义LCU的大小,LCU是在像素数目方面的最大译码单元。切片包含呈译码次序的多个连续树块。视频帧或图片可分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。一般来说,四叉树数据结构包含每个CU一个节点,其中根节点对应于所述树块。如果CU分裂成四个子CU,那么对应于CU的节点包含四个叶节点,其中叶节点中的每一者对应于所述子CU中的一者。
四叉树数据结构的每一节点可提供用于对应的CU的语法数据。举例来说,四叉树中的节点可包含分裂旗标,从而指示对应于所述节点的所述CU是否分裂成子CU。CU的语法元素可递归地定义,且可取决于CU是否分裂成子CU。如果CU不进一步分裂,那么将其称为叶CU。在本发明中,叶CU的四个子CU也将被称作叶CU,即使不存在原始叶CU的明确分裂时也是如此。举例来说,如果16x16大小的CU不进一步分裂,那么这四个8x8子CU将也被称作叶CU,虽然16x16CU从未分裂。
CU具有与H.264标准的宏块类似的用途,只是CU不具有大小区别。举例来说,树块可分裂成四个子节点(也称为子CU),且每一子节点又可为父节点且可分裂成另外四个子节点。最后的未经分裂子节点(被称作四叉树的叶节点)包括译码节点,也称为叶CU。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,被称作最大CU深度,且还可界定译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC的上下文中的CU、PU或TU中的任一者,或者其它标准的上下文中的类似数据结构(例如,其在H.264/AVC中的宏块和子块)。
CU包含译码节点以及与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小且形状必须是正方形。CU的大小范围可从8x8像素到具有最大64x64像素或更大的树块的大小。每一CU可含有一或多个PU和一或多个TU。举例来说,与CU相关联的语法数据可描述CU划分成一或多个PU。分割模式可在CU被跳过或经直接模式编码、帧内预测模式编码或帧间预测模式编码之间有所不同。PU可分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述CU根据四叉树分割成一或多个TU。TU可以是正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU变换,TU可针对不同CU而有所不同。TU的大小通常是基于针对经分割LCU定义的给定CU内的PU的大小而设定,但是情况可能并不总是如此。TU通常与PU大小相同或小于PU。在一些实例中,可使用被称为“残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本细分成较小单元。RQT的叶节点可被称作变换单元(TU)。可变换与TU相关联的像素差值以产生变换系数,所述变换系数可经量化。
叶CU可包含一或多个预测单元(PU)。一般来说,PU表示对应于对应CU的全部或一部分的空间区域,且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,用于PU的数据可包含在残余四叉树(RQT)中,残余四叉树可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的一或多个运动向量的数据。举例来说,定义PU的运动向量的数据可描述运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量指向的参考图片和/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个变换单元(TU)。变换单元可使用RQT(也称为TU四叉树结构)来指定,如上文所论述。举例来说,分裂旗标可指示叶CU是否分裂成四个变换单元。接着,每一变换单元可进一步分裂成更多个子TU。当TU不进一步分裂时,其可被称为叶TU。总体上,对于帧内译码,所有属于一叶CU的叶TU共享相同的帧内预测模式。也就是说,总体上应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于TU的部分与原始块之间的差。TU不必限于PU的大小。因而,TU比PU大或小。对于帧内译码,PU可与相同CU的对应叶TU并置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四叉树数据结构(也称作残余四叉树(RQT))相关联。即,叶CU可包含指示叶CU如何分割成TU的四叉树。TU四叉树的根节点一般对应于叶CU,而CU四叉树的根节点一般对应于树块(或LCU)。未经分裂的RQT的TU被称作叶TU。一般来说,除非另有陈述,否则本发明分别使用术语CU和TU来指代叶CU和叶TU。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可包含GOP的标头、图片中的一或多者的标头或其它处的语法数据,其描述GOP中所包含的图片的数目。图片的每一切片可包含描述用于相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且根据指定译码标准可具有不同大小。
作为一实例,HM支持各种PU大小的预测。假设特定CU的大小是2N×2N,那么HM支持2N×2N或N×N的PU大小的帧内预测,及2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于2N×nU、2N×nD、nL×2N和nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中,不分割CU的一个方向,而将另一方向分割成25%和75%。CU的对应于25%分割区的部分通过“n”后接续“上”、“下”、“左”或“右”的指示来指示。因此,例如,“2NxnU”是指经水平分割的2Nx2NCU,其中顶部为2Nx0.5NPU,而底部为2Nx1.5NPU。
在本发明中,“N×N”与“N乘N”可以互换使用以指依据垂直尺寸和水平尺寸的视频块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16x16块将在垂直方向上具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样,NxN块总体上在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可按行和列布置。此外,块未必需要在水平方向与垂直方向上具有相同数目个像素。举例来说,块可包括N×M像素,其中M未必等于N。
在使用CU的PU进行帧内预测性或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包括描述在空间域(也称为像素域)中产生预测像素数据的方法或模式的语法数据,且TU可包括在应用变换之后变换域中的系数,所述变换例如离散正弦变换(DST)、离散余弦变换(DCT)、整数变换、小波变换或与残余视频数据概念上类似的变换。所述残余数据可对应于未编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU,且接着变换TU以产生用于CU的变换系数。
如下文更详细地论述,视频编码器20或视频解码器30可经配置以基于正译码视频的一或多个特性选择变换。举例来说,所述变换可基于变换单元大小和视频类型(例如,色度、明度)以及其它特性来选择。可由视频编码器20或解码器30实施的跨层对准的方法在下文更详细地描述,包含(例如)相对于图10到12。
在用以产生变换系数的任何变换后,视频编码器20可执行变换系数的量化。量化为既定具有其最广泛一般含义的广义术语。在一个实施例中,量化是指变换系数经量化以可能减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与变换系数中的一些或全部相关联的位深度。举例来说,n位值可在量化期间向下舍入到m位值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从包括经量化变换系数的二维矩阵产生一维向量。所述扫描可经设计以将较高能量(并且因此较低频率)系数放置在阵列的前面,并且将较低能量(并且因此较高频率)系数放置在阵列的后面。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化变换系数以产生可被熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法对一维向量进行熵编码。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵编码以供视频解码器30在解码视频数据时使用。
为执行CABAC,视频编码器20可向待发射的符号指派上下文模型内的上下文。举例来说,所述上下文可涉及符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。VLC中的码字可经建构而使得相对短的码对应于更有可能的符号,而较长的码对应于不太可能的符号。举例来说,与对待发射的每一符号使用等长度码字的情形相比较,以此方式,使用VLC可实现位节省。概率确定可基于指派给符号的上下文。
视频编码器20可进一步例如在帧标头、块标头、切片标头或GOP标头中将例如基于块的语法数据、基于帧的语法数据和基于GOP的语法数据等语法数据发送到视频解码器30。GOP语法数据可描述相应GOP中的数个帧,且帧语法数据可指示用以对对应帧进行编码的编码/预测模式。
视频编码器
图5是说明可实施根据本发明中描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部,包含但不限于下文相对于图10和11更详细地描述的跨层对准方法。作为一个实例,变换处理单元52和逆变换单元60可经配置以执行本发明中描述的技术中的任一者或全部。在另一实施例中,编码器20包含任选层间预测单元66,其经配置以执行本发明中描述的技术中的任一者或全部。在其它实施例中,可通过模式选择单元40执行层间预测,在此情况下,可省略层间预测单元66。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。
视频编码器20可执行视频切片内的视频块的帧内、帧间和层间预测(有时被称作帧内、帧间或层间译码)。帧内译码依赖于空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。层间译码依赖于基于相同视频译码序列内的不同层内的视频的预测。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。
如图5中所示,视频编码器20接收待编码视频帧内的当前视频块。在图5的实例中,视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46、层间预测单元66和分割单元48。
为了视频块重建,视频编码器20还包含逆量化单元58、逆变换单元60,和求和器62。还可包含解块滤波器(图5中未展示)以对块边界进行滤波以从重建的视频移除成块假影。视需要,解块滤波器将通常对求和器62的输出进行滤波。除了解块滤波器之外,还可使用额外滤波器(环路内或环路后)。为简洁起见未图示这些滤波器,但是必要时,这些滤波器可对求和器50的输出进行滤波(作为环路内滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。所述帧或切片可被划分成多个视频块。运动估计单元42和运动补偿单元44可相对于一或多个参考帧中的一或多个块执行所接收视频块的帧间预测性译码以提供时间预测。帧内预测单元46或者可相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码以提供空间预测。视频编码器20可执行多个译码遍次,例如,以针对每一视频数据块选择适当的译码模式。
此外,分割单元48可基于先前译码遍次中的先前分割方案的评估将视频数据块分割成子块。举例来说,分割单元48可初始地将帧或切片分割为LCU,且基于速率失真分析(例如,速率失真优化等)将LCU中的每一者分割为子CU。模式选择单元40可进一步产生指示LCU划分成子CU的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。
模式选择单元40可例如基于误差结果选择译码模式、帧内、帧间或层间预测模式中的一者,且将所产生的帧内、帧间或层间经译码块提供到求和器50来产生残余块数据并提供到求和器62来重建经编码块以用作参考帧。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分割信息和其它此些语法信息)提供到熵编码单元56。
运动估计单元42与运动补偿单元44可高度集成,但出于概念目的而分别加以说明。运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测块是经发现在像素差方面与待译码块密切匹配的块,所述像素差可由绝对差总和(SAD)、平方差总和(SSD)或其它差量度来确定。在一些实例中,视频编码器20可计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插四分之一像素位置、八分之一像素位置或参考图片的其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将计算得出的运动向量发送到熵编码单元56和运动补偿单元44。
运动补偿单元44执行的运动补偿可涉及基于运动估计单元42确定的运动向量来提取或产生预测块。在一些实例中,运动估计单元42和运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后,运动补偿单元44便可在参考图片列表中的一者中定位所述运动向量指向的预测块。求和器50通过从经译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残余视频块,如下文所论述。在一些实施例中,运动估计单元42可相对于明度分量执行运动估计,且运动补偿单元44可针对色度分量和明度分量两者使用基于明度分量计算的运动向量。模式选择单元40可产生与视频块和视频切片相关联的语法元素供视频解码器30在解码视频切片的视频块时使用。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可对当前块进行帧内预测或计算。明确地说,帧内预测单元46可确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可例如在单独编码编次期间使用各种帧内预测模式对当前块进行编码,并且帧内预测单元46(或在一些实例中为模式选择单元40)可从所述测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用速率失真分析计算用于各种经测试帧内预测模式的速率失真值,并且从所述经测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(也就是说,位数目)。帧内预测单元46可根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在选择用于块的帧内预测模式之后,帧内预测单元46可将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示选定帧内预测模式的信息进行编码。视频编码器20在发射的位流中可包含配置数据,其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表),对用于各种块的上下文进行编码的定义,以及对最可能帧内预测模式、帧内预测模式索引表和经修改的帧内预测模式索引表的指示以用于所述上下文中的每一者。
视频编码器20可包含层间预测单元66。层间预测单元66经配置以使用可用于SVC(例如,基础或参考层)中的一或多个不同层来预测当前块(例如,EL中的当前块)。此预测可称作层间预测。层间预测单元66利用预测方法以减少层间冗余,进而改进译码效率且降低计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测和层间残余预测。层间帧内预测使用基础层中的协同定位块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动。层间残余预测使用基础层的残余来预测增强层的残余。
视频编码器20通过从正译码原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块,从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。举例来说,还可使用离散正弦变换(DST)、小波变换、整数变换、子带变换或其它类型的变换。在一个实施例中,变换处理单元52基于残余块的特性选择变换。举例来说,变换处理单元52可基于正译码块的变换单元大小和颜色分量类型(例如,明度、色度)而选择变换。
变换处理单元52可将变换应用于残余块,从而产生残余变换系数的块。所述变换可将残余信息从像素值域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可接着执行对包含经量化变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
在量化后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵译码技术。就基于上下文的熵译码而论,上下文可基于相邻块。在熵编码单元56的熵译码之后,可将经编码位流发射到另一装置(例如,视频解码器30)或存档以用于稍后发射或检索。
逆量化单元58和逆变换单元60分别应用逆量化和逆变换以在像素域中重建残余块(例如,以供稍后用作参考块)。运动补偿单元44可通过将残余块加到参考帧存储器64的帧中的一者的预测块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重建残余块以计算子整数像素值用于运动估计。求和器62将经重建残余块加到由运动补偿单元44产生的运动补偿预测块以产生经重建视频块用于存储在参考帧存储器64中。经重建视频块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续视频帧中的块进行帧间译码。
跨对准处理器
图6为说明可实施根据本发明中描述的方面的技术的跨层对准处理器的实例的框图。跨层对准处理器600可包含在源装置12或目的地装置14中。
跨层对准处理器600采用经编码视频信息作为一个输入。可包含层提取器602以将经编码视频中包含的每一层的图片信息分离。在一些实施方案中,在跨层对准处理器600包含在编码器中的情况下,可在编码过程期间提供所述图片信息。在此些实施方案中,可能不必要提取图片,而是仅接收图片信息连同其相关联层信息。
每一层可包含一或多个图片。所述图片可在层内组织为输出次序。所述输出次序识别应显示所述图片的序列。可通过向每一图片指派输出位置而指定所述输出次序。当图片通过其输出位置布置时(例如,输出位置0为第一图片,输出位置1为第二图片,等),所述图片形成视频序列。所述图片还可压缩或以其它方式编码。由此,一些图片可需要具有在所关注图片之前或之后的输出位置的图片中包含的信息。因此,每一图片还与解码次序相关联。所述解码次序识别层中包含的图片的解码序列。每一图片与指示何时可解码图片的解码位置相关联使得任何居先图片都在图片的解码开始之前经解码。
图片和层信息提供到关键图片识别单元604。关键图片识别单元604还接收关键图片准则输入。关键图片准则输入包含指示必须满足以有资格作为关键图片的图片的方面的信息。举例来说,关键图片准则可将关键图片指定为满足以下条件的图片:对于所述图片而言,不存在相同层中的按解码次序在所述图片之前或按输出次序在所述图片之后的其它图片。关键图片准则可依据输出位置和解码位置来表达。在此表达中,当与一图片相同的层中的相同组图片内的具有在所述图片的输出位置之后的输出位置的图片还具有在所述图片之后的解码位置时,所述图片为关键图片。关键图片识别单元604可针对每一图片应用关键图片准则来识别关键图片。所述识别可例如经由标头字段添加到图片信息。在一些实施方案中,所述识别可存储于存储器(未图示)中,且用于进一步跨层对准处理。
切换器606包含在图6中展示的跨层对准处理器600中。切换器606允许跨层对准处理器600充当待发射的经编码数据的组织器和所接收经编码数据的顺应测试器两者。切换器606由切换器控制消息激活。切换器控制消息可从存储器接收(例如,配置值),或在装置操作期间例如基于所接收的经编码数据的源而动态地确定。
当在源装置12中实施时,跨层对准处理器600可经配置以产生一或多个网络抽象层消息以经由网络将经编码的视频数据携载到其处。在一些实施方案中,跨对准处理器600可包含在视频编码器20中或输出接口22中。切换器606可接收指示组织器模式的控制消息。当如此激活时,网络抽象层打包器610经配置以将图片组织到一或多个网络抽象层单元中以及一或多个存取单元中。
网络抽象层打包器610可接收识别可如何基于图片信息打包图片的打包规则,所述图片信息例如关键图片识别信息、解码相依性、时间识别符、图片次序计数等等。举例来说,可提供指定当存取单元中的一个层的图片为关键图片时相同存取单元中的其它层的所有图片将为关键图片的打包规则。可实施的另一打包规则指定经帧内译码随机存取点(IRAP)存取单元将含有具有经译码视频序列中的至少一个图片的每一层的图片,且IRAP存取单元中的所有图片将为IRAP图片。另一打包规则可指定具有等于0的时间识别符的存取单元将含有具有经译码视频序列中的至少一个图片的每一层的图片。打包规则可独立地指定或结合一或多个额外打包规则而指定。相同打包规则可应用于基于(例如)经编码的视频数据、编码器配置、装置操作特性(例如,可用功率、可用带宽、可用存储器、可用处理器容量、热状态)或类似者处理或动态地选择的所有视频。NAL打包器610提供对准的经编码数据作为输出。
将理解,图6中展示的跨层对准处理器600为实例。可能需要在专用于打包的编码装置上实施跨层对准处理器600。在此些实施方案中,可排除切换器606,且信息从关键图片识别单元604提供到NAL打包器610。
跨层对准处理器600可经配置以产生指示所接收经编码的视频数据是否为跨层对准的消息。可能需要在编码装置中包含顺应指示以确保发射之前视频数据的对准。在一些实施方案中,可能需要在视频解码器30中或输入接口28中包含跨对准处理器600。
切换器606可接收指示对准顺应检测模式的控制消息。当如此激活时,顺应检测器620接收视频数据且经配置以确定经编码的视频数据是否根据顺应准则对准。提供顺应准则作为到顺应检测器620的另一输入。顺应准则包含指示经编码的视频数据的与对准相关联的特性的信息。所述特性可包含存取单元的跨层的关键图片的包含、存取单元中包含的图片的时间id和/或存取单元中包含的图片的解码次序。可接收顺应准则作为带内或带外所发射视频数据的一部分。所述顺应准则可例如经由与跨层对准处理器进行数据通信的存储器而静态地配置。所述顺应准则可基于(例如)经编码的视频数据、译码器配置、装置操作特性(例如,可用功率、可用带宽、可用存储器、可用处理器容量、热状态)或类似者而动态地检索。
顺应检测器620经配置以提供对准指示符作为一个输出。在一些实施方案中,对准指示符为指示所接收的经编码视频数据是否对准的二进制值。在一些实施方案中,对准指示符可指定例如%对准等对准程度。所述输出可用于编码装置中以确定是否发射经编码数据。所述输出可用于解码装置中以建立解码管线,其可依赖于顺应网络抽象层格式以加快解码过程。
如果恰当地实施,那么从跨对准处理器600的组织配置输出的经编码视频数据当提供作为到跨层对准处理器600的输入时应提供用于顺应对准准则的肯定指示。
图6中展示的跨对准处理器600可经配置以执行本发明的技术中的任一者或全部,包含但不限于下文相对于图11到13更详细地描述的跨层对准方法的方面。在一些实例中,另外或作为替代,处理器(未图示)或例如信号产生器、输入/输出处理器或调制解调器(未图示)等其它电子通信组件可经配置以执行所描述的技术中的任一者或全部。
视频解码器
图7是说明可实施根据本发明中描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部,包含但不限于下文相对于图11到13更详细地描述的跨层对准方法的方面。作为一个实例,逆变换单元78可经配置以执行本发明中描述的技术中的任一者或全部。然而,本发明的方面不限于此。在一些实例中,本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中,作为补充或替代,处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。
在图7的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、层间预测单元75、逆量化单元76、逆变换处理单元78、参考帧存储器82和求和器80。在一些实施例中,运动补偿单元72和/或帧内预测单元74可经配置以执行层间预测,在此情况下可省略层间预测单元75。在一些实例中,视频解码器30可执行总体上与相对于视频编码器20(图5)描述的编码遍次互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符和其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可基于所信令帧内预测模式和来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。在视频帧经译码为经帧间译码(例如,B、P或GPB)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量和其它语法元素产生用于当前视频切片的视频块的预测块。可从参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可基于存储在参考帧存储器92中的参考图片使用默认建构技术建构参考帧列表,即列表0和列表1。运动补偿单元72通过解析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,且使用所述预测信息产生用于经解码的当前视频块的预测块。举例来说,运动补偿单元72使用一些接收到的语法元素确定用于对视频切片的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、切片的参考图片列表中的一或多者的建构信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态和用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元72还可基于内插滤波器执行内插。运动补偿单元72可使用由视频编码器20在编码视频块期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可根据所接收的语法元素而确定由视频编码器20使用的内插滤波器并使用所述内插滤波器来产生预测块。
视频解码器30还可包含层间预测单元75。层间预测单元75经配置以使用SVC中可用的一或多个不同层(例如,基础或参考层)预测当前块(例如,EL中的当前块)。此预测可被称作层间预测。层间预测单元75利用预测方法以减少层间冗余,借此改进译码效率且降低计算资源要求。层间预测的一些实例包含层间帧内预测、层间运动预测和层间残余预测。层间帧内预测使用基础层中的协同定位块的重建来预测增强层中的当前块。层间运动预测使用基础层的运动信息来预测增强层中的运动。层间残差预测使用基础层的残余来预测增强层的残余。
逆量化单元76对提供于位流中且由熵解码单元70解码的经量化变换系数进行逆量化,例如解量化。逆量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY来确定应应用的量化程度和同样的逆量化程度。
逆变换单元78对变换系数应用逆变换,例如逆DCT、逆DST、逆整数变换或概念上类似的逆变换过程,以便产生像素域中的残余块。在一个实施例中,逆变换单元78基于正解码的视频信息的一或多个特性选择待应用的特定变换。举例来说,逆变换单元78可基于视频信息的变换单元大小和颜色分量类型而选择变换。
在运动补偿单元72基于运动向量和其它语法元素产生当前视频块的预测块之后,视频解码器30通过将来自逆变换单元78的残余块与由运动补偿单元72产生的对应的预测块求和来形成经解码视频块。求和器90表示可执行此求和运算的一或多个组件。视需要,解块滤波器还可应用于对经解码块进行滤波以便移除成块假影。其它环路滤波器(在译码环路中或在译码环路之后)也可用于使像素转变平滑或以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频以用于稍后呈现在显示装置(例如,图4的显示装置32)上。
跨层对准译码
以下实施例可与(例如)SHVCWD1和MV-HEVCWD3视频编码和解码技术一起应用。在多个实施例中,下文论述的存取单元类似于例如SVC和MVC中使用的网络抽象层单元,使得存取单元(AU)由与相同输出时间及其相关联非VCL(视频译码层)网络抽象层(NAL)单元相关联的所有经译码图片构成。
图片群组(GOP)结构可用于指代时间预测结构,例如阶层式B译码结构等。每一GOP包含一个关键图片和若干相关联非关键图片。非关键图片按解码次序跟随在关键图片之后但按输出次序先于关键图片,类似地作为IRAP图片及其相关联前导图片。在一个实施例中,IRAP图片及其相关联前导图片是包含关键图片和相关联非关键图片的GOP的一个实例。
在每一AU包含针对每一层的图片而非其它方式的情况下,此AU暗含地需要关键图片和非关键图片的跨层对准。举例来说,此AU并不保证当不同层具有不同图片速率时的跨层关键图片对准。
图8说明未对准经译码存取单元的实例。图8中包含的关键图片不对准。图8中的存取单元包含在基础层802或增强层804中的一者中。虽然图8中仅展示一个增强层,但应了解,所描述的跨层对准方法可应用于利用额外增强层编码的视频。
基础层802包含五个图片。增强层804包含十个图片。图8中以时间次序说明图片,在左侧开始且向右递增。所述时间次序对应于图片的显示或输出次序使得图片经呈现以形成视频序列。
所述图片可在多个存取单元820中译码。存取单元各自包含来自一或多个层的一或多个图片。举例来说,第一存取单元822包含来自增强层804的具有时间阶数1的图片。第二存取单元824包含来自基础层802和增强层804两者的图片。应注意,存取单元820的解码次序与输出次序不同。如图8中所展示,第二存取单元824包含具有时间(例如,输出)识别符t+0的图片,而第一存取单元822包含具有时间识别符t+1的图片。
解码次序与输出次序的此差异的出现部分是因为给定输出时间点处每一层中包含的图片可具有对于解码的不同相依性。图8中使用箭头说明相依性。从第一图片指向第二图片的箭头指示所述第二图片使用来自第一图片的信息用于解码。举例来说,增强层804中t+0处的图片参考来自增强层804中t+1处的图片的信息。因此,t+0处的图片直至接收和处理t+1处的图片才可解码。
如图8中所展示,增强层804的t+1处的图片可独立地解码。类似地,基础层802的t+0处的图片可独立地解码。然而,这些图片可不包含在相同存取单元中。由于关键图片不对准,所以存取单元的处理包含组织所述关键图片。图片的此重排序可添加延迟并增加顺应测试成本,而无实质益处。
此外,可存在如下位流:其中特定层处且具有特定时间识别符值的所有图片的相对解码次序与其输出次序不同。下文参看图9描述此位流的一个实例。
图9说明未对准经译码存取单元的另一实例。类似于图8,图9中的关键图片不对准,且因此可在译码期间展现类似低效率。图9包含基础层902和增强层904。基础层902包含五个图片,而增强层904包含九个图片。与图8中一样,图9中以时间次序说明图片,在左侧开始且向右递增。所述时间次序对应于图片的显示或输出次序使得图片经呈现以形成视频序列。所述图片可类似于参看图8论述的图片在多个存取单元920中译码。然而,类似于图8,所述层的关键图片不对准,这可导致资源低效率。如图9中所展示,特定层和时间识别符处的图片具有与输出次序不同的解码次序的灵活性未必提供任何益处,而是添加延迟、资源消耗等。
图10说明经对准经译码存取单元的实例。图10包含基础层1002和增强层1004。基础层1002包含五个图片,而增强层1004包含九个图片。与图8和9中相同,以时间次序说明图10中的图片,在左侧开始且向右递增。所述时间次序对应于图片的显示或输出次序使得图片经呈现以形成视频序列。所述图片可在多个存取单元1020中译码。然而,不同于图8和9,存取单元1020经译码使得关键图片包含在相同存取单元中。举例来说,时间t+0处的第一存取单元包含来自增强层的图片t+0和来自基础层的图片t+0。此确保经译码视频信息跨层对准以实现增加效率处理。图10说明位流的实例,其中关键图片对准,但不需要具有相同TemporalId值(在此实例中TemporalId=1)的图片具有与解码次序相同的输出次序。此在关键图片的译码的灵活性与跨层对准之间达成平衡。
图10提供合乎需要的经对准译码的一个说明。本文中描述若干方面,其可包含在一或多个实施方案中以提供所描述的有益特征。
在各种实施例中,一或多个视频编码和解码方法或装置可经配置以识别关键和非关键图片。如简要提到,关键图片可为可在不参考具有在所述图片之前的输出次序的任何图片而解码的层中包含的图片。由此,关键图片可用于解码待在关键图片之后而非之前输出的图片。
在已识别关键图片后,所述方法或装置可经配置以处理视频信息使得存取单元包含来自多个层的图片,当包含一显示时间点处针对一个层的关键图片时,所述显示时间点处的来自其它层的其它图片也是关键图片。换句话说,当存取单元中的一个层的图片为关键图片时,相同存取单元中的其它层的所有图片将为针对相同时间识别符(例如,呈现时间)的关键图片。通过根据此方法处理视频信息,确保关键图片为跨层对准的。
关键图片并不使用按输出次序在稍后的任何其它图片用于帧间预测参考,且层的任何两个关键图片之间的相对输出次序与相对解码次序相同。关键图片的跨层对准暗示非关键图片的跨层对准。
依据以上,含有关键图片的存取单元可被称为关键存取单元,且不含有关键图片的存取单元可被称为非关键存取单元。IRAP图片按照定义是所有关键图片。
在识别关键图片时,未识别为关键图片的图片可被称为非关键图片。非关键图片为按解码次序在相同层中另一图片之后且按输出次序在所述另一图片之前的图片。
表1展示视频数据的层的简化图片群组的信息。表1突显在一个实施方案中图片如何确定为“关键图片”。
表1
显示次序 相依性 解码次序 关键图片?
0 0
1 2 3
2 0和4 2
3 2 4
4 1 1
具有显示次序0的图片可在不使用具有用于解码的图片之前的输出次序的任何图片的情况下解码。在一些实施方案中,图片的显示次序可由与所述图片相关联的时间识别符指示。由于不具有相依性、具有显示次序0的图片的独立性确认为关键。因此,在此实例实施方案中,具有显示次序0的图片为关键图片。
然而,如表1中所展示,一图片可具有相依性且仍识别为关键图片。取具有显示次序4的图片。此图片相依于图片1。然而,因为图片1先前经解码且并不具有在图片4之前的输出次序,所以图片4可识别为关键图片。
举例来说,对比图片0和4与具有显示次序1的图片。图片1相依于图片2且具有解码次序3。因为图片1需要具有稍后输出位置的图片用于解码,所以图片1不识别为关键图片。换句话说,图片1在此实例中识别为非关键图片。
表1说明针对单一层的一个图片群组。可针对视频流中包含的每一层执行关键图片的识别。一旦识别关键图片,就可构造存取单元使得如果额外图片将包含在存取单元中,那么包含第一层的关键图片的每一存取单元仅包含来自其它层的其它关键图片。
作为另一说明,图8的基础层802中包含的图片全部为关键图片。然而,应注意,在一些实施方案中,并非所有基础层图片必定为关键图片。举例来说,例如针对增强层804说明的关系等预测关系也可应用于基础层。
表2展示与视频信息的两层相关联的图片的相应群组的关键图片的假设识别。
表2
时间Id 关键? 存取单元
基础 0 1
基础 2 3
基础 4 2
增强 0 1
增强 1 4
增强 2 3
增强 3 5
增强 4 2
如表2中所说明,具有时间识别符0的基础层图片连同具有时间识别符0的增强层图片一起包含在存取单元1中。此表示关键图片的对准。此外,对准还表示具有相同输出识别符第关键图片的对准。然而,可能不必对于所有实施方案都要求如此。举例来说,增强层可包含多个关键图片,其可不与基础层中包含的关键图片对准。由此,增强层中的关键图片可个别地包含在存取单元中(例如,每存取单元一个关键图片)和/或与来自基础层的具有不同时间识别符的关键图片组合。
在一些实施方案中,所述系统或方法可经配置以通过识别特殊类别的关键图片而对准图片。限制可强加于关键和非关键图片,类似于应用于IRAP和前导图片的限制,以仅需要特定关键图片的对准。这些特殊关键图片将在本文中被称作“边界关键图片”。
边界关键图片通常指代具有按解码次序先于按输出次序的下一关键图片的前导非关键图片(如果存在的话)的关键图片。如果关键图片不具有按输出或解码次序的先前图片,那么所述图片为边界关键图片。一旦经识别,就可通过确保包含第一层的边界关键图片的任何存取单元包含来自其它层(如果存在的话)的边界关键图片而使边界关键图片跨层对准。关键图片的前导非关键图片是按解码次序在关键图片之后且按输出次序先于关键图片的那些非关键图片。并未识别为关键图片且并未识别为前导非关键图片的图片可被称为训练非关键图片。
使用表1中展示的实例,图片0和4是边界关键图片。相对于图片4,图片1到3将识别为前导非关键图片。在将图片封装到存取单元中的过程中,如果任何额外图片将包含在存取单元中,那么包含一个边界关键图片的单一存取单元可仅包含其它边界关键图片。
利用边界关键图片的此描述,应了解,一些不是边界关键图片的关键图片可经识别。由此,所述装置或方法可强加另一约束使得将被识别为“关键图片”的仅有图片是作为“边界关键图片”的图片。此增加对哪些图片可识别为“关键”的约束且因此向译码系统、装置或方法中引入较多可预测性。
下方表3说明与视频信息的层相关联的图片的相应群组的图片的识别的另一实例。
表3
在一些实施方案中,可依据图片次序计数界定关键图片。视频流的图片次序计数识别流中包含的每一图片的特定计数值。当图片基于图片次序计数按升序布置时,所述图片呈显示次序。可在图片的群组内识别关键图片,如果当前图片的图片次序计数/识别符大于针对当前图片群组解码的最高图片次序计数/识别符,那么当前图片为关键图片。
一些方法或装置可经配置以对视频信息译码使得具有相同时间识别符的所有图片的解码次序与其输出次序相同。此特征可自身独立应用或连同所描述的其它对准特征一起应用。
一些方法或装置可经配置以对视频信息译码使得IRAP存取单元含有具有经译码视频序列中的至少一个图片的每一层的图片,且IRAP存取单元中的所有图片将为IRAP图片。此特征可自身独立应用或连同所描述的其它对准特征一起应用。
一些方法或装置可经配置以对视频信息译码使得视频流的初始存取单元(例如,具有时间识别符0的存取单元)含有具有经译码视频序列中的至少一个图片的每一层的图片。此特征可自身独立应用或连同所描述的其它对准特征一起应用。
一些方法或装置可经配置以对视频信息译码使得具有大于0的网络接入层(NAL)单元标头识别符(“nuh_layer_id”)的图片将不是IRAP图片,除非对于具有经译码视频序列中的至少一个图片的每一下部层,存在存取单元中的一图片。此特征可自身独立应用或连同所描述的对准特征一起应用。
图11说明视频译码的方法的过程流程图。方法1100可由上文描述的装置中的一或多者整体或部分执行,所述装置例如图3的编码装置或图6的跨层对准处理器600。所述方法开始于节点1102。方法1100包含在节点1104处接收用于识别关键图片的准则。在一些实施方案中,关键图片可识别为对于其不存在具有在图片的解码位置前面的解码位置且具有在所述图片的输出位置之后的输出位置的相同层中的其它图片的图片。在其它实施方案中,如果当前关键图片的所有前导非关键图片按解码次序均先于按输出次序的下一关键图片,那么关键图片可识别为边界关键图片。所述准则可与相关联视频流关联而接收(例如,带内或带外)。所述准则可被接收和存储于存储器中以供将来使用,例如配置。在节1106处,接收视频的图片的两个或两个以上层。在节点1108处,基于所接收的准则识别关键图片。在节点1110处,图片译码到存取单元中,借此在每一存取单元内,关键图片跨层对准。关键图片的对准包含对第一层的关键图片连同来自另一层的关键图片进行译码。对准还暗示无单一存取单元将包含关键和非关键图片两者。方法1100在节点1190处结束但可重复以对额外图片进行译码。
图12展示包含跨层对准的视频译码的另一方法的过程流程图。方法1200可由上文描述的装置中的一或多者整体或部分执行,所述装置例如图3的编码装置或图6的跨层对准处理器600。
方法1200开始于节点1202。方法1200在节点1204处例如从存储器或接收器获得包含基础层的图片的第一集合和增强层的图片的第二集合的视频信息。第一和第二集合可在一些实施方案中被称作图片的群组。所述图片的第一集合和所述图片的第二集合提供视频信息的不同表示。举例来说,每一层的帧速率可不同。图片的第一集合和图片的第二集合各自具有针对相应集合中包含的图片的输出次序。输出次序识别集合中图片的显示序列。集合中的每一图片具有相关联输出次序内的输出位置。每一层还具有相应集合中包含的图片的解码次序。所述解码次序识别针对相应集合中包含的图片的解码序列。每一图片进一步具有相关联解码次序内的解码位置。
在节点1206处,识别图片的第一集合中包含的第一图片。经识别的第一图片不具有来自图片的第一集合的按输出次序在第一图片之后的其它图片(其具有在第一图片之前的解码次序)。在一些实施方案中,可识别第一图片使得具有第一图片的输出位置之后的输出位置的图片的第一集合内的图片还具有第一图片的解码位置之后的解码位置。在一些实施方案中,经识别图片可被称为关键图片。
在节点1208处,识别图片的第二集合中包含的第二图片。第二图片不具有来自图片的第二集合的按输出次序在第二图片之后的其它图片(其具有在第二图片之前的解码次序)。在一些实施方案中,可识别第二图片使得具有第二图片的输出位置之后的输出位置的图片的第二集合内的图片还具有第二图片的解码位置之后的解码位置。在一些实施方案中,经识别第二图片可被称为关键图片。
在节点1210处,将经识别第一图片和经识别第二图片译码到一个存取单元中。方法1200在节点1290处结束。方法1200可针对与视频的另一部分(例如,时间段)的不同表示相关联的图片的后续第一和第二集合重复。
虽然以上方法(例如,方法1100和方法1200)说明经译码存取单元内的跨层对准,但类似跨层对准特征可在解码器中实施。通过在解码侧包含这些特征,位流可确定为跨层对准。一旦位流识别为跨层对准,就可调节位流的后续解码以利用上文参考的效率。
图13展示识别跨层对准视频数据的方法的过程流程图。方法1300可由上文描述的装置中的一或多者整体或部分执行,所述装置例如图4的解码装置或图6的跨层对准处理器600。
在节点1304处,接收经译码多层视频信息的第一部分,所述第一部分包含多个存取单元,每一存取单元包含与视频的层相关联的一或多个图片。在一些实施方案中,第一部分对应于多层视频信息的层的图片的第一群组。在节点1306处,作出关于所述多个存取单元的存取单元是否包含全部为关键图片的图片的确定。所述确定可包含确定存取单元中的每一图片是否为对于其不存在具有在所述图片的解码位置前面的解码位置且具有在所述图片的输出位置之后的输出位置的相同层中的其它图片的图片。如果节点1306处的确定为肯定的,那么在节点1310处,存取单元可识别为跨层对准。节点1306处的确定可针对第一部分中包含的每一存取单元重复。针对第一部分的方法1300在节点1390处结束。方法1300可针对经译码多层视频信息的其它部分重复。
如果节点1306处针对存取单元的确定为否定的,那么在节点1308处,确定是否存取单元中包含的所有图片为非关键图片。如果是,那么方法1300继续到节点1310,如上文所描述。如果否,那么方法1300继续到节点1310,其中存取单元识别为非跨层对准。方法1300可在如上文所描述节点1390处针对存取单元的确定后终止。在一些实施方案中,可针对初始图片集合(例如,图片的第一群组)执行所述方法。在此实施方案中,所述确定可为混合的使得一些存取单元识别为跨层对准且其它存取单元识别为非跨层对准。在一些实施方案中,可能需要基于非对准的单一识别提供对于视频流的最终确定。由此,方法1300可在一个存取单元识别为非跨层对准(参看节点1312)后终止。
在一些实施方案中,跨层对准确定可对于视频信息的后续部分重复。举例来说,跨层对准可基于发射条件变化使得多层视频信息的稍后部分以跨对准格式发射。在此系统中,可选择性地执行识别过程。举例来说,所述识别可在例如初始识别之后的一持续时间等可配置时间周期之后重复。所述时间可(例如)由所接收视频信息的量(例如,所接收存取单元的数目)或由经处理视频信息的量时间上进行标记。在一些实施方案中,可基于解码装置的操作特性执行所述选择性识别,所述操作特性例如解码装置的处理负载、热状态、带宽容量、存储器容量或耦合硬件。
虽然以上揭示内容已描述特定实施例,但许多变化是可能的。举例来说,如上文所提及,以上技术可应用于3D视频编码。在3D视频的一些实施例中,参考层(例如,基础层)包含足以显示视频的第一视图的视频信息,且增强层包含相对于参考层的额外视频信息以使得参考层和增强层一起包含足以显示视频的第二视图的视频信息。这两个视图可用于产生立体图像。如上文所论述,根据本发明的方面,这些层中包含的图片信息可对准。此可提供对3D视频位流的更大译码效率。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同序列来执行,可添加、合并或全部省略所述动作或事件(例如,实践所述技术未必需要所有所描述动作或事件)。此外,在某些实例中,可(例如)通过多线程处理、中断处理或多个处理器同时而非循序地执行动作或事件。
在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果用软件实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处的媒体(例如,根据一种通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)有形计算机可读存储媒体,其是非暂时的,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用的媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。并且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置用于编码和解码的专用硬件和/或软件模块内提供,或并入于组合式编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,所述装置或设备包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。这些和其它实例在所附权利要求书的范围内。

Claims (30)

1.一种用于对视频信息译码的设备,所述设备包括:
存储器单元,其经配置以存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合,所述图片的第一集合和所述图片的第二集合提供所述视频信息的不同表示,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的输出次序,所述输出次序识别所述图片的显示序列,每一图片具有所述相关联输出次序内的输出位置,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的解码次序,所述解码次序识别针对所述相应集合中包含的所述图片的解码序列,每一图片进一步具有所述相关联解码次序内的解码位置;以及
视频处理器,其操作上耦合到所述存储器单元且经配置以:
识别所述图片的第一集合中包含的第一图片,其中所述图片的第一集合内的具有在所述第一图片的所述输出位置之后的输出位置的图片还具有在所述第一图片的所述解码位置之后的解码位置;
识别所述图片的第二集合中包含的第二图片,其中所述图片的第二集合内的具有在所述第二图片的所述输出位置之后的输出位置的图片还具有在所述第二图片的所述解码位置之后的解码位置;以及
将所述经识别第一图片和所述经识别第二图片译码到一个存取单元中。
2.根据权利要求1所述的设备,其中所述图片的第一集合包括图片的第一群组,且所述图片的第二集合包括图片的第二群组。
3.根据权利要求1所述的设备,其中来自所述图片的第一集合的具有在所述经识别第一图片的所述输出位置之前的输出位置且具有在所述经识别第一图片的所述解码位置之后的解码位置的图片还具有在所述基础层中包含的图片的第三集合中包含的第三图片之前的解码位置,其中所述图片的第三集合内的图片具有在所述第三图片的所述输出位置之后的输出位置,还具有在所述第三图片的所述解码位置之后的解码位置;且
其中来自所述图片的第二集合的具有在所述经识别第二图片的所述输出位置之前的输出位置且具有在所述经识别第二图片的所述解码位置之后的解码位置的图片还具有所述增强层中包含的图片的第四集合中包含的第四图片之前的解码位置,其中所述图片的第四集合内的图片具有在所述第四图片的所述输出位置之后的输出位置,还具有在所述第四图片的所述解码位置之后的解码位置。
4.根据权利要求1所述的设备,其中所述第一图片和所述第二图片是经帧内译码的随机存取点图片。
5.根据权利要求1所述的设备,其中所述存取单元为针对所述视频信息的第一存取单元,且其中所述存取单元包含包含所述视频信息的每一层的图片。
6.根据权利要求1所述的设备,其中与除所述基础层之外的层相关联的图片将不译码为经帧内译码的随机存取点图片,除非对于具有所述视频信息中的至少一个图片的图片的层下方的每一层,存在所述存取单元中的图片。
7.根据权利要求1所述的设备,其中所述设备包括经配置以产生所述存取单元的编码器,所述存取单元经配置以使与存取单元的层相关联的所述图片对准。
8.根据权利要求1所述的设备,其中所述设备包括经配置以处理所述存取单元的解码器,所述存取单元经配置以使与存取单元的层相关联的所述图片对准。
9.根据权利要求1所述的设备,其中所述设备包含台式计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机或视频串流装置。
10.一种编码视频信息的方法,所述方法包括:
存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合,所述图片的第一集合和所述图片的第二集合提供所述视频信息的不同表示,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的输出次序,所述输出次序识别所述图片的显示序列,每一图片具有所述相关联输出次序内的输出位置,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的解码次序,所述解码次序识别针对所述相应集合中包含的所述图片的解码序列,每一图片进一步具有所述相关联解码次序内的解码位置;
识别所述图片的第一集合中包含的第一图片,其中所述图片的第一集合内的具有在所述第一图片的所述输出位置之后的输出位置的图片还具有在所述第一图片的所述解码位置之后的解码位置;
识别所述图片的第二集合中包含的第二图片,其中所述图片的第二集合内的具有在所述第二图片的所述输出位置之后的输出位置的图片还具有在所述第二图片的所述解码位置之后的解码位置;以及
在一个存取单元中编码所述经识别第一图片和所述经识别第二图片。
11.根据权利要求10所述的方法,其中所述图片的第一集合包括图片的第一群组,且所述图片的第二集合包括图片的第一群组和图片的第二群组。
12.根据权利要求10所述的方法,其中来自所述图片的第一集合的具有在所述经识别第一图片的所述输出位置之前的输出位置且具有在所述经识别第一图片的所述解码位置之后的解码位置的图片还具有在所述基础层中包含的图片的第三集合中包含的第三图片之前的解码位置,其中所述图片的第三集合内的图片具有在所述第三图片的所述输出位置之后的输出位置,还具有在所述第三图片的所述解码位置之后的解码位置;且
其中来自所述图片的第二集合的具有在所述经识别第二图片的所述输出位置之前的输出位置且具有在所述经识别第二图片的所述解码位置之后的解码位置的图片还具有所述增强层中包含的图片的第四集合中包含的第四图片之前的解码位置,其中所述图片的第四集合内的图片具有在所述第四图片的所述输出位置之后的输出位置,还具有在所述第四图片的所述解码位置之后的解码位置。
13.根据权利要求10所述的方法,其中所述第一图片和所述第二图片是经帧内译码的随机存取点图片。
14.根据权利要求10所述的方法,其中所述存取单元为针对所述视频信息的第一存取单元,且其中所述存取单元包含包含所述视频信息的每一层的图片。
15.根据权利要求10所述的方法,其中与除所述基础层之外的层相关联的图片将不译码为经帧内译码的随机存取点图片,除非对于具有所述视频信息中的至少一个图片的图片的层下方的每一层,存在所述存取单元中的图片。
16.一种对视频信息进行解码的方法,所述方法包括:
接收所述视频信息的包含图片的两个或两个以上层的第一部分,图片的每一层具有针对所述相应层中包含的图片的输出次序,所述输出次序识别所述图片的显示序列,每一图片具有所述相关联输出次序内的输出位置,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的解码次序,所述解码次序识别针对所述相应集合中包含的所述图片的解码序列,每一图片进一步具有所述相关联解码次序内的解码位置;
识别关键图片,关键图片为符合以下条件的图片:无来自与所述图片相关联的层中包含的具有所述图片的所述解码位置之前的解码位置的图片的其它图片具有在所述图片的所述输出位置之后的输出位置;以及
基于关于存取单元中包含的所有图片是否是经识别关键图片的确定解码所述视频信息。
17.根据权利要求16所述的方法,其中在确定所述存取单元中包含的所有图片为经识别关键图片或所述存取单元中包含的所有图片不是经识别关键图片后,配置解码管线用于跨层对准解码。
18.根据权利要求16所述的方法,其进一步包括识别关键图片,其中来自源自一层的具有所述关键图片的所述输出位置之前的输出位置且具有所述经识别关键图片的所述解码位置之后的解码位置的图片的第一集合的图片还具有所述层中包含的另一关键图片之前的解码位置,其中所述另一关键图片为按输出次序在所述关键图片之后的下一经识别关键图片。
19.根据权利要求18所述的方法,其中所述图片的第一集合包括层中包含的图片的第一群组。
20.根据权利要求16所述的方法,其中与除所述基础层之外的层相关联的图片将不译码为经帧内译码的随机存取点图片,除非对于具有所述视频信息中的至少一个图片的图片的层下方的每一层,存在所述存取单元中的图片。
21.根据权利要求16所述的方法,其中选择性地执行所述识别。
22.根据权利要求21所述的方法,其中基于执行所述方法的解码装置的操作特性执行所述识别。
23.根据权利要求22所述的方法,其中所述操作特性包含所述解码装置处理负载、热状态、带宽容量、存储器容量或耦合硬件。
24.根据权利要求16所述的方法,其进一步包括:
存储关于存取单元中包含的所有图片是否是经识别关键图片的所述确定;以及基于自从所述确定消逝的持续时间选择性地执行所述识别。
25.一种用于对视频信息译码的设备,所述设备包括:
用于存储基础层中包含的图片的第一集合和增强层中包含的图片的第二集合的装置,所述图片的第一集合和所述图片的第二集合提供所述视频信息的不同表示,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的输出次序,所述输出次序识别所述图片的显示序列,每一图片具有所述相关联输出次序内的输出位置,所述图片的第一集合和所述图片的第二集合具有针对所述相应集合中包含的图片的解码次序,所述解码次序识别针对所述相应集合中包含的所述图片的解码序列,每一图片进一步具有所述相关联解码次序内的解码位置;
用于识别所述图片的第一集合中包含的第一图片以及用于识别所述图片的第二集合中包含的第二图片的装置,其中所述图片的第一集合内的具有在所述第一图片的所述输出位置之后的输出位置的图片还具有在所述第一图片的所述解码位置之后的解码位置,其中所述图片的第二集合内的具有在所述第二图片的所述输出位置之后的输出位置的图片还具有在所述第二图片的所述解码位置之后的解码位置;以及
用于将所述经识别第一图片和所述经识别第二图片译码到一个存取单元中的装置。
26.根据权利要求25所述的设备,其中所述图片的第一集合包括图片的第一群组,且所述图片的第二集合包括图片的第一群组和图片的第二群组。
27.根据权利要求25所述的设备,其中所述存取单元为针对所述视频信息的第一存取单元,且其中所述存取单元包含包含所述视频信息的每一层的图片。
28.根据权利要求25所述的设备,其中与除所述基础层之外的层相关联的图片将不译码为经帧内译码的随机存取点图片,除非对于具有所述视频信息中的至少一个图片的图片的层下方的每一层,存在所述存取单元中的图片。
29.一种非暂时性计算机可读媒体,其包括可由一设备的处理器执行的指令,所述指令致使所述设备执行根据权利要求10所述的视频编码方法。
30.一种非暂时性计算机可读媒体,其包括可由一设备的处理器执行的指令,所述指令致使所述设备执行根据权利要求16所述的视频解码方法。
CN201480019752.0A 2013-04-05 2014-04-01 多层视频译码中的跨层对准 Pending CN105103551A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361809258P 2013-04-05 2013-04-05
US61/809,258 2013-04-05
US14/230,853 2014-03-31
US14/230,853 US20140301436A1 (en) 2013-04-05 2014-03-31 Cross-layer alignment in multi-layer video coding
PCT/US2014/032552 WO2014165526A1 (en) 2013-04-05 2014-04-01 Cross-layer alignment in multi-layer video coding

Publications (1)

Publication Number Publication Date
CN105103551A true CN105103551A (zh) 2015-11-25

Family

ID=51654430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480019752.0A Pending CN105103551A (zh) 2013-04-05 2014-04-01 多层视频译码中的跨层对准

Country Status (6)

Country Link
US (1) US20140301436A1 (zh)
EP (1) EP2982113A1 (zh)
JP (1) JP2016518764A (zh)
KR (1) KR20150139889A (zh)
CN (1) CN105103551A (zh)
WO (1) WO2014165526A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2452499A1 (en) * 2009-07-06 2012-05-16 Thomson Licensing Methods and apparatus for spatially varying residue coding
US9525883B2 (en) * 2013-07-15 2016-12-20 Qualcomm Incorporated Cross-layer alignment of intra random access point pictures
JP2015089078A (ja) * 2013-11-01 2015-05-07 ソニー株式会社 画像処理装置および方法
US10841604B2 (en) * 2018-09-04 2020-11-17 Google Llc Temporal prediction shifting for scalable video coding
US11539957B2 (en) * 2019-06-20 2022-12-27 Tencent America LLC Layered random access with reference picture resampling
CN115868165A (zh) * 2020-03-21 2023-03-28 抖音视界有限公司 参考图片重采样
WO2021254379A1 (en) 2020-06-20 2021-12-23 Beijing Bytedance Network Technology Co., Ltd. Inter layer prediction with different coding block size
US11363262B1 (en) * 2020-12-14 2022-06-14 Google Llc Adaptive GOP structure using temporal dependencies likelihood

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1187734A (zh) * 1996-10-24 1998-07-15 次级系统有限公司 立体视频序列的同步
US20060083309A1 (en) * 2004-10-15 2006-04-20 Heiko Schwarz Apparatus and method for generating a coded video sequence by using an intermediate layer motion data prediction
US20120183065A1 (en) * 2009-05-05 2012-07-19 Thomas Rusert Scalable Video Coding Method, Encoder and Computer Program

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126759A1 (en) * 2001-01-10 2002-09-12 Wen-Hsiao Peng Method and apparatus for providing prediction mode fine granularity scalability
US20100232520A1 (en) * 2007-11-05 2010-09-16 Zhenyu Wu Scalable video coding method for fast channel change and increased error relilience
US8369415B2 (en) * 2008-03-06 2013-02-05 General Instrument Corporation Method and apparatus for decoding an enhanced video stream
US20110110418A1 (en) * 2008-07-16 2011-05-12 Xiuping Lu Scalable video coding method for fast channel change to increase coding efficiency
GB2488159B (en) * 2011-02-18 2017-08-16 Advanced Risc Mach Ltd Parallel video decoding
EP2810443B1 (en) * 2012-02-01 2021-03-31 Nokia Technologies Oy Method and apparatus for video coding
US9357197B2 (en) * 2012-05-24 2016-05-31 Dolby Laboratories Licensing Corporation Multi-layer backwards-compatible video delivery for enhanced dynamic range and enhanced resolution formats
CN107087205B (zh) * 2012-06-12 2020-04-14 Lg 电子株式会社 图像解码方法及使用其的装置
JP6050488B2 (ja) * 2012-07-06 2016-12-21 サムスン エレクトロニクス カンパニー リミテッド ランダムアクセスのためのマルチレイヤビデオ符号化方法及びその装置、並びにランダムアクセスのためのマルチレイヤビデオ復号化方法及びその装置
JP2014039252A (ja) * 2012-08-10 2014-02-27 Panasonic Corp 画像復号方法および画像復号装置
US20140218473A1 (en) * 2013-01-07 2014-08-07 Nokia Corporation Method and apparatus for video coding and decoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1187734A (zh) * 1996-10-24 1998-07-15 次级系统有限公司 立体视频序列的同步
US20060083309A1 (en) * 2004-10-15 2006-04-20 Heiko Schwarz Apparatus and method for generating a coded video sequence by using an intermediate layer motion data prediction
US20120183065A1 (en) * 2009-05-05 2012-07-19 Thomas Rusert Scalable Video Coding Method, Encoder and Computer Program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MISKA M. HANNUKSELA: "On SHVC RAP pictures", 《JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11,12TH MEETING: GENEVA》 *

Also Published As

Publication number Publication date
WO2014165526A1 (en) 2014-10-09
JP2016518764A (ja) 2016-06-23
EP2982113A1 (en) 2016-02-10
US20140301436A1 (en) 2014-10-09
KR20150139889A (ko) 2015-12-14

Similar Documents

Publication Publication Date Title
CN105191310B (zh) 用于视频译码的并行处理
CN104471942B (zh) 重新使用参数集用于视频译码
CN103190147B (zh) 用于视频译码的语法元素的联合译码方法及设备
CN104704843B (zh) 视频性质的指示
CN106464919A (zh) 视频译码中用于第0个输出层集合的简档、层次、层级
CN105340276A (zh) 对多层视频译码的层间预测信令的优化
CN104823449A (zh) 在视频译码中用信号表示关注区和逐渐解码刷新
CN104221381A (zh) 用于视频译码的波前并行处理
CN105103551A (zh) 多层视频译码中的跨层对准
CN106464917A (zh) 用信号表示用于位流分区的hrd参数
CN104737537A (zh) 用于可缩放视频译码的加权预测模式
CN105409219A (zh) 高效率视频译码扩展中的目标输出层的选择
CN104685876A (zh) 用于视频译码中的4:2:2样本格式的经译码块旗标(cbf)译码
CN105075258A (zh) 针对具有不同纵横比的空间可缩放性的层间参考图片建构
CN104488267A (zh) 平铺块及波前并行处理
CN105284113A (zh) 分量间滤波
CN105379286A (zh) 跨层的图片分割的位流限制
CN104704833A (zh) 多视图或3维视频译码中的高级视图间残差预测
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN104604224A (zh) 可缩放视频译码中的变换基底调整
CN103563378A (zh) 存储器高效的上下文建模
CN104798372A (zh) 在视频译码中针对高效率视频译码(hevc)扩展对多个层的低复杂性支持
CN104718752A (zh) 在可缩放视频译码中减少取样相位信息的发信
CN104685887A (zh) 于视频译码中发信用于操作点的层识别符
CN104396243A (zh) 用于视频压缩的自适应上取样滤波器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125

WD01 Invention patent application deemed withdrawn after publication