CN105122814A - 可包含未对准irap图片的多层位流的跨层poc对准 - Google Patents

可包含未对准irap图片的多层位流的跨层poc对准 Download PDF

Info

Publication number
CN105122814A
CN105122814A CN201480019393.9A CN201480019393A CN105122814A CN 105122814 A CN105122814 A CN 105122814A CN 201480019393 A CN201480019393 A CN 201480019393A CN 105122814 A CN105122814 A CN 105122814A
Authority
CN
China
Prior art keywords
picture
poc value
value
reset
poc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480019393.9A
Other languages
English (en)
Other versions
CN105122814B (zh
Inventor
陈颖
王益魁
阿达许·克里许纳·瑞玛苏布雷蒙尼安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105122814A publication Critical patent/CN105122814A/zh
Application granted granted Critical
Publication of CN105122814B publication Critical patent/CN105122814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • H04N19/68Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience involving the insertion of resynchronisation markers into the bitstream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

在一个实例中,一种视频译码器经配置以:译码指示图片的图片次序计数POC值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。使用所述复位的POC值来译码视频数据可包含相对于所述图片对后续图片的块进行帧间预测,其中所述块可包含运动参数,其使用所述复位的POC值来识别所述图片。可使用时间帧间预测或层间预测来译码所述块。

Description

可包含未对准IRAP图片的多层位流的跨层POC对准
本申请案主张2013年4月8日申请的第61/809,855号美国临时申请案以及2013年7月15日申请的第61/846,532号美国临时申请案的权益,上述临时申请案中的每一者特此以全文引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入到较宽范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置等。数字视频装置实施视频译码技术,例如MPEG-2;MPEG-4;ITU-TH.263;ITU-TH.264/MPEG-4,第10部分;高级视频译码(AVC);目前尚在开发的高效视频译码(HEVC)标准,以及此类标准的扩展所定义的标准中描述的那些技术。视频装置可通过实施此类视频译码技术来更高效地发射、接收、编码、解码和/或存储数字视频信息。
视频译码技术包含空间(图片内)预测和/或时间(图片间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(例如,视频帧或视频帧的一部分)可分为若干视频块其也可称为树块、译码单元(CU)和/或译码节点。相对于同一图片中的相邻块中的参考样本,使用空间预测来编码图片的经帧内译码(I)切片中的视频块。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测,且相对于其它参考图片中的参考样本使用时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测针对待译码的块产生预测块。残余数据表示待译码的原始块与预测块之间的像素差。根据指向形成预测块的参考样本块的运动向量,以及指示经译码块与预测块之间的差异的残余数据来编码经帧间译码块。根据帧内译码模式和残余数据来编码经帧内译码的块。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生残余变换系数,其接着可量化。可扫描最初布置成二维阵列的经量化的变换系数,以便产生变换系数的一维向量,且可应用熵译码来实现更多的压缩。
发明内容
一般来说,本发明描述用于译码图片的语法元素的技术,所述语法元素指示所述图片的图片次序计数(POC)值是否将复位。明确地说,当具有非帧内随机存取点(IRAP)图片的存取单元中,例如,不同的视频译码层中包含IRAP图片时,视频译码器(例如视频编码器或视频解码器)可译码指示非IRAP图片的POC值将复位的值。以此方式,本发明的技术可支持跨不同视频译码层的IRAP图片的非对准,同时还确保POC值在不同视频译码层的图片之间对准。
在一个实例中,解码视频数据的方法包含:当语法元素的值指示图片的图片次序计数(POC)值的至少一部分将复位到值零时,确定所述语法元素的所述值是否指示所述POC值的所述部分将复位到值零;使所述POC值的至少所述部分复位,使得POC值的所述部分等于零;以及使用复位的POC值来解码视频数据。
在另一实例中,一种编码视频数据的方法包含:响应于确定使图片的图片次序计数(POC)值的至少一部分复位,确定是否使所述POC值的至少所述部分复位到值零;使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;以及解码语法元素的值,所述语法元素指示所述POC值的至少所述部分将复位到值零;以及使用复位的POC值来编码视频数据。
在另一实例中,一种用于译码视频数据的装置包含视频译码器,其经配置以:译码指示图片的图片次序计数(POC)值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。
在另一实例中,一种用于译码视频数据的装置包含:用于译码语法元素的值的装置,所述语法元素指示图片的图片次序计数(POC)值的至少一部分是否将复位到值零;用于在所述语法元素的所述值指示所述POC值的所述部分将复位到值零时,使所述POC值的至少所述部分复位使得所述POC值的所述部分等于零的装置;以及用于使用所述复位的POC值来译码视频数据的装置。
在另一实例中,一种上面存储有指令的计算机可读存储媒体,所述指令在被执行时,致使可编程处理器:译码指示图片的图片次序计数(POC)值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。
附图和下文的描述中陈述一个或一个以上实例的细节。将从描述和图式,且从所附权利要求书明白其它特征、目标和优点。
附图说明
图1是说明根据本发明中所描述的一个或一个以上实例的实例视频编码和解码系统的框图。
图2是说明可实施本发明中所描述的技术的实例视频编码器的框图。
图3是说明可实施本发明中所描述的技术的实例视频解码器的框图。
图4是说明经译码视频图片序列的概念图。
图5是说明根据本发明的技术的编码视频数据的实例方法的流程图。
图6是说明根据本发明的技术的解码视频数据的实例方法的流程图。
具体实施方式
本发明描述用于支持非对准帧内随机存取点(IRAP)图片的技术,其可开始新的经译码视频序列,使得保证相同图片次序计数(POC)值跨层对准。所述技术可应用于多层译码中。一些所揭示的方法也可应用于单层视频译码。
明确地说,在存取单元在不同的视频译码层中包含IRAP图片和非IRAP图片两者的情形中,出现非对准IRAP图片。经译码视频序列(CVS)中的图片具有唯一地识别所述CVS中的相应图片的POC值。图片的POC值通常指示所述图片相对于同一CVS中的其它图片的输出次序。IRAP图片具有POC值0。因此,非对准IRAP图片导致存取单元包含具有不同POC值的图片。
然而,使用POC值来识别层间参考图片。就是说,当使用层间预测(例如,视图间预测)来译码图片时,用信号通知参考图片的值,使得视频解码器可识别所述参考图片。在POC值对准的情况下,确定当前图片经层间预测较简单,即当参考图片的POC值与当前图片的POC值相同时。视频译码层之间的图片的失对准的POC值使得参考图片的识别较困难。此外,存取单元边界变得难以检测,且可容易发生错误。
因此,本发明描述用于允许非对准IRAP图片,同时还确保共用存取单元中的图片的POC值交叉对准的技术。明确地说,语法元素可指示图片的POC值的至少一部分将复位(就是说,设定为值零)。举例来说,视频编码器可确定存取单元在一个层中包含IRAP图片,且在另一不同层中包含非IRAP图片。视频编码器可因此用信号通知非IRAP图片的POC值将复位。视频解码器可使非IRAP图片的POC值复位,且还修改与非IRAP图片相同的视频译码层中的其它图片的POC值。就是说,视频解码器可修改这些其它图片的POC值,使得在使非IRAP图片的POC值复位之后,非IRAP图片的POC值与同一层以及同一CVS中的其它图片之间的差保持恒定。
通过以此方式调整POC值,可确保共用存取单元中的所有图片具有相同的POC值,但IRAP图片无需对准。因此,可简化存取单元边界检测,且使其更具容错性,且也可简化层间参考图片的识别。
视频译码标准包括ITU-TH.261、ISO/IECMPEG-1视觉、ITU-TH.262或ISO/IECMPEG-2视觉、ITU-TH.263、ISO/IECMPEG-4视觉,以及ITU-TH.264(也称为ISO/IECMPEG-4AVC),包括其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。
最近,ITU-T视频译码专家组(VCEG)和ISO/IEC运动图片专家组(MPEG)的视频译码联合协作团队(JCT-VC)已完成了一种新的视频译码标准,即高效视频译码(HEVC)的设计。最新的HEVC草案规范,下文称为HEVCWD10,可从以下网址获得:http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip。
HEVC的多视图扩展,即MV-HEVC也正由JCT-3V开发。MV-HEVC的新近工作草案(WD),下文称为MV-HEVCWD3,可从以下网址获得:http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/3_Geneva/wg11/JCT3V-C1004-v4.zip。
HEVC的可缩放扩展,即SHVC,也正由JCT-VC开发。SHVC的新近工作草案(WD),下文称为SHVCWD1,可从以下网址获得:http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1008-v1.zip。
本文献假定(经译码)图片、存取单元(AU)、IRAPAU、经译码视频序列(CVS)和位流的以下概念,但如果这些假定改变,所述方法也适用:
–(经译码)图片:类似于当前(经译码)图片定义,其中经译码图片等效于SVC中的层表示、MVC中的视图分量以及MVC+D中的纹理或深度视图分量。
–存取单元:与SVC和MVC中类似,AU由与相同输出时间及其关联的非VCLNAL单元相关联的所有经译码的图片组成。
–IRAP存取单元:其中所有经译码图片均为IRAP图片的存取单元。
–经译码视频序列(CVS):存取单元序列,其由具有等于1的NoRaslOutputFlag的IRAP存取单元,接以不作为具有等于1的NoRaslOutputFlag的IRAP存取单元的零个或零个以上存取单元,以解码次序组成,所述零个或零个以上存取单元包含至多达所有后续存取单元,但不包含作为具有等于1的NoRaslOutputFlag的IRAP存取单元的任何后续存取单元。
○注意,措词与HEVCWD10中相同。
–位流:呈NAL单元流或字节流形式的位序列,其形成一个或一个以上CVS的表示。
○位流中的第一AU将为IRAPAU(如上文所定义)。
瞬时解码器刷新(IDR)图片、清洁随机存取(CRA)图片以及断链存取(BLA)图片统称为IRAP图片。要求IRAP图片的跨层对准将不允许一些有利使用情景。举例来说,在双层位流中,当基础层中存在比增强层中多的IRAP图片时,在广播和多播应用中,可实现低延迟调谐,其中同时可实现高译码效率。因此,允许非对准IRAP图片是合意的。
然而,当一个图片(picA)为具有等于1的NoRaslOutputFlag的IRAP图片,且同一存取单元中的另一图片(picB)不是具有等于1的NoRaslOutputFlag的IRAP图片时,含有picA的层中的图片(picC)的POC值可不同于含有picB的层中的图片(picD)的POC值,其中picC和picD在同一存取单元中,且picC可或可不为picA(且因此picD可或可不为picB)。这是因为具有等于1的NoRaslOutputFlag的每一IRAP图片使POC值复位成等于针对具有等于1的NoRaslOutputFlag的IRAP图片而用信号通知或导出的POC最低有效位(LSB)。
这使得与POC值交叉对准时相比,在具有层间预测的多层视频译码中识别参考图片较困难。举例来说,在MV-HEVCWD3中,将POC用作二维识别中的一者来识别层间参考图片。
此外,这使得存取单元(AU)边界检测较难,且不具容错性。举例来说,假定AU1由分别基础层和增强层中的picA和picB组成,AU2由分别基础层和增强层中的和picD组成,且AU1在解码次序中在AU2之前。接着,如果失去picB和picC两者,那么解码器无法基于经译码图片知晓接收到的picA和picD属于两个不同AU。在同一实例中,如果AU2仅由增强层中picD组成,而picC从未存在,那么甚至在失去仅一个图片picB时,也将发生相同的问题。
本发明描述实现具有等于1的NoRaslOutputFlag的IRAP图片的非交叉对准,同时提供所有AU的POC值的交叉对准的技术。
图1是说明根据本发明中所描述的一个或一个以上实例的实例视频编码和解码系统的框图。举例来说,系统10包含源装置12和目的地装置14。源装置12和目的地装置14经配置以实施本发明中所描述的技术。在一些实例中,系统10可经配置以支持经编码的视频数据的编码、传输、存储、解码和/或呈现,所述经编码的视频数据例如为根据HEVC标准编码的视频数据,所述HEVC标准例如在WD10及其扩展中描述,例如MV-HEVCWD3、SHVCWD1等中所描述的扩展。然而,本发明中所描述的技术可适用于其它视频译码标准或其它扩展。
如图1中所示,系统10包含源装置12,其产生稍后时间将由目的地装置14解码的经编码的视频数据。源装置12和目的地装置14可包括各种各样装置中的任何一种,包含桌上型计算机、笔记本型(亦即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话,所谓的“智能”平板电脑)、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似装置。在一些情况下,源装置12和目的地装置14可配备用于无线通信。
目的地装置14可接收将经由链路16解码的经编码的视频数据。链路16可包括任何类型的能够将经编码的视频数据从源装置12移到目的地装置14的媒体或装置。在一个实例中,链路16可包括通信媒体,以使源装置12能够将经编码的视频数据直接实时发射到目的地装置14。经编码的视频数据可根据通信标准(例如无线通信协议)来调制,并发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一个或一个以上物理传输线。通信媒体可形成基于包的网络的一部分,例如局域网、广域网或全局网络,例如因特网。通信媒体可包含路由器、交换机、基站,或可对促进从源装置12到目的地装置14的通信有用的任何其它设备。
或者,经编码数据可从输出接口22输出到存储装置34。类似地,可通过输入接口从存储装置34存取经编码数据。存储装置34可包含多种分布式或本地存取数据存储媒体中的任何一种,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或任何其它用于存储经编码视频数据的合适数字存储媒体。在另一实例中,存储装置34可对应于可保持源装置12所产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置34存取所存储的视频数据。文件服务器可任何类型的能够存储经编码的视频数据并将所述经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接,包含因特网连接,来存取经编码的视频数据。这可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合存取存储在文件服务器上的经编码视频数据的两者的组合。经编码的视频数据从存储装置34的传输可为流式传输、下载传输或两者的组合。
本发明的技术不限于无线应用或设定。所述技术可在多种多媒体应用中的任何一种的支持下应用于视频译码,例如空中电视广播、有线电视发射、卫星电视发射、流式视频传输,例如,经由因特网、对数字视频进行编码以存储在数据存储媒体上,对存储在数据存储媒体上的数字视频进行解码,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在图1的实例中,源装置12包括视频源18、视频编码器20和输出接口22。在一些情况下,输出接口22可包含调制器/解调器(调制解调器)和/或发射器。在源装置12中,视频源18可包含来源,例如视频捕获装置(例如,摄像机)、含有先前所捕获的视频的视频存档、用来接收来自视频内容提供者的视频的视频馈送接口,和/或用于产生计算机图形数据作为源视频的计算机图形系统,或此类来源的组合。作为一个实例,如果视频源18为摄像机,源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而,本发明中所描述的技术一般来说可适用于视频译码,且可适用于无线和/或有线应用。
所捕获、预捕获或计算机产生的视频可由视频编码器20编码。可经由源装置12的输出接口22,将经编码的视频数据直接发射到目的地装置14。经编码的视频数据也可(或替代地)存储到存储装置34上,以供以后由目的地装置14或其它装置存取,用于解码和/或重放。
目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些情况下,输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码的视频数据。经由链路16传送或提供于存储装置34上的经编码的视频数据可包含多种语法元素,其由视频编码器20产生以供视频解码器(例如视频解码器30)用来解码视频数据。此类语法元素可与在通信媒体上传输、存储在存储媒体上或存储在文件服务器中的经编码的视频数据包含在一起。
显示装置32可与目的地装置14集成,或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。一般来说,显示装置32向用户显示经解码的视频数据,且可包括多种显示装置中的任何一种,例如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
视频编码器20和视频解码器30可根据视频压缩标准,例如ITU-TH.264标准,或者称为MPEG4,第10部分;高级视频译码(AVC)或此类标准的扩展来操作。或者,视频编码器20和视频解码器30可根据其它专有或行业标准,例如目前正在开发的高效视频译码(HEVC)标准以及HEVC标准的扩展来操作。然而,本发明的技术不限于任何特定译码标准。视频压缩标准的其它实例包含MPEG-2和ITU-TH.263。
尽管图1中未展示,但在一些方面中,视频编码器20和视频解码器30可各自与音频编码器和解码器集成,且可包含适当的MUX-DEMUX单元,或其它硬件和软件,来处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用,那么在一些实例中,MUX-DEMUX单元可遵从ITUH.223多路复用器协议,或其它协议,例如用户数据报协议(UDP)。
根据本发明的技术,视频编码器20和视频解码器30可经配置以译码指示图片的图片次序计数(POC)值是否将部分地或完全复位的语法元素的值。部分复位可对应于将POC值的一部分,例如仅最高有效位(MSB)设定为等于零。完全复位可对应于将POC值的所有位设定为等于零。因此,当语法元素指示图片的POC值将部分地或完全复位时,视频解码器30可使POC值的对应位复位到零。
另外,视频解码器30也可设定与针对其使POC值复位的图片相同的层中的其它图片的POC值的位,使得这些其它图片的POC值之间的差在复位之后保持与复位之前相同。举例来说,对于N个其它图片中的每一者,视频解码器30可确定差Di,其中i介于0与N-1之间,包含0和N-1,且表示这些其它图片中的一者。在此实例中,视频解码器30可计算Di=POCbase-POCi,其中“base”指代针对其使POC值复位的图片。视频解码器30可接着递减,使得POCi_decremented+Di=POCbase_reset,其中POCi_decremented表示图片i的递减的POC值,且POCbase_reset表示POCbase的复位值。在其中图片的将复位的POC值设定为零的实例中,视频解码器30可使相同CVS和相同视频译码层中的其它图片的POC值递减所述图片的初始(即,在复位之前)POC值。或者,视频解码器30可将相同CVS和相同视频译码层中的其它图片的POC值设定为等于将针对其使POC值复位的图片的初始POC值与所述其它图片的POC值之间的差(即,等于Di)。
在一组实例中,将第一旗标添加到切片标头,以指定POC值是否复位到等于POC最低有效位(LSB),即,使POC最高有效位(MSB)复位到等于0,且如果是,那么使与当前图片相同的层中以及经解码图片缓冲器(DPB)中的所有图片的POC值递减,使得当前图片以及相同层中和DPB中的任何图片的POC值之间的差保持相同,就像第一旗标原本指示的那样。
在此组实例中,可将第二旗标添加到切片标头,以指定POCLSB是否复位到等于0。当连同第一旗标使用时,第二旗标使编码器能够为不同层中的图片自由地分配POCLSB的不同值。此组实例实现具有等于1的NoRaslOutputFlag的IRAP图片的非交叉对准,同时保证所有AU的POC值的交叉对准,其中具有等于1的NoRaslOutputFlag的IRAP图片可为三种类型的IRAP图片,即IDR、CRA和BLA图片中的任何一种。
在另一组实例中,提出当IDR图片在存取单元中不对准时,如果所述AU中的至少一个图片为IDR图片,那么将一个存取单元中的所有图片的POC值设定为0,类似于IDR图片。这将实现具有等于1的NoRaslOutputFlag的IRAP图片的非交叉对准,同时保证所有AU的POC值的交叉对准,其中具有等于1的NoRaslOutputFlag的IRAP图片为IDR图片。更具体地说,以下各项适用于此组实例:
1.在切片标头中用信号通知旗标,即idr_au_present_flag,例如作为在具有slice_reserved_flag[i]的切片标头的开头用信号通知的位的部分。
a.对于具有大于0的nuh_layer_id的图片,等于1的旗标指示POC值复位到0,如针对IDR图片所进行,等于0的旗标指示POC值未复位。
2.对于IDR图片,此旗标可用于其它目的,或可保留为1,或可不存在,但推断为等于1。
对于两组实例,对于具有等于0的nuh_layer_id的图片,旗标并不对HEVC版本1解码器(其为基于HEVCWD10的单层2D解码器)具有任何影响,因为此类解码器忽略所述旗标。
下文描述这些实例技术的详细实施方案的各种实例。下文强调所提出的对所述标准的改变,其中用斜体字表示的文本表示添加,且[去除:“”]表示相对于标准的先前版本的删除。一般来说,视频编码器20和/或视频解码器30可经配置以执行本发明的技术。本发明将“视频译码器”描述为执行这些技术。应理解,术语“视频译码器”可指代视频编码器,例如视频编码器20,或视频解码器,例如视频解码器30。同样地,术语视频译码可指代视频编码和/或视频解码。视频译码器,例如视频编码器20或视频解码器30,可经配置以执行本发明中所描述的技术中的任一者或全部。在从视频解码器的角度描述某些技术的情况下,视频编码器可执行相同或相似的(例如,互反)技术。同样地,在从视频编码器的角度描述某些技术的情况下,视频解码器可执行相同或相似的(例如,互反)技术。
下文描述根据本发明的技术的第一实例。下文将此实例称为实例1。一般来说,下文的语法和语义指代HEVCWD10中的对应章节。如上文所提到,突出显示指示所提出的添加,且删除线指示所提出的删除。
实例1
下文首先描述一般切片片段标头语法和语义。
一般切片片段标头语法
下文描述一般切片片段标头语义。如上文所提到,用斜体字表示的文本指示所提出的添加,且[去除:“”]指示所提出的删除。用于未改变的语法元素的语义可保持与标准的先前版本中所描述的语义相同。
等于1的poc_msb_reset_flag指定当前图片的所导出的图片次序计数等于slice_pic_order_cnt_lsb。等于0的poc_msb_reset_flag指定当前图片的所导出的图片次序计数可或可不等于slice_pic_order_cnt_lsb。
当存在时,当当前图片不是具有等于1的NoRaslOutputFlag的IRAP图片,且当前存取单元中的至少一个图片为具有等于1的NoRaslOutputFlag的IRAP图片时,poc_msb_reset_flag的值将等于1。
当不存在时,推断poc_msb_reset_flag的值等于0。
等于1的poc_lsb_reset_flag指定当前图片的所导出的图片次序计数等于0。等于0的poc_lsb_reset_flag指定当前图片的所导出的图片次序计数可或可不等于0。
当存在时,当当前图片不是IDR图片,且当前存取单元中的至少一个图片为IDR图片时,poc_lsb_reset_flag的值将等于1。
当不存在时,推断poc_lsb_reset_flag的值等于0。
因此,视频编码器20可将poc_msb_reset_flag设定为针对不是IRAP图片且不在包含图片的存取单元中,例如在不同视频译码层中的图片具有值1。同样地,在针对不是IRAP图片的图片接收到值1后,视频解码器30可使所述图片的POC值的MSB的值复位,且根据需要调整相同层和相同经译码视频序列中的其它图片的POC值。
下文描述一般解码过程语义。视频解码器30可经配置以如下文所述解码视频数据。视频编码器20可经配置以根据与下文所述互反的过程来编码视频数据。如上文所提到,可参考HEVCWD10的对应部分来作出下文的改变。用斜体字表示的文本指示所提出的添加,且[去除:“”]指示所提出的删除。
一般解码过程
对此过程的输入为位流。此过程的输出为经解码图片的列表。
如下指定层识别符列表TargetDecLayerIdList,其以nuh_layer_id值的增加次序,指定待解码的NAL单元的nuh_layer_id值的列表:
–如果本说明书中未指定的一些外部手段可用于设定TargetDecLayerIdList,那么TargetDecLayerIdList由所述外部手段设定。
–否则,如果如子条款C.1中所指定,在位流一致性测试中调用解码过程,那么如子条款C.1中所指定,设定TargetDecLayerIdList。
–否则,TargetDecLayerIdList仅含有等于0的一个nuh_layer_id值。
如下指定变量HighestTid,其识别待解码的最高时间子层:
–如果本说明书中未指定的一些外部手段可用于设定HighestTid,那么HighestTid由所述外部手段设定。
–否则,如果如子条款C.1中所指定,在位流一致性测试中调用解码过程,那么如子条款C.1中所指定,设定HighestTid。
–否则,将HighestTid设定为等于sps_max_sub_layers_minus1。
如条款10中所指定的子位流提取过程以位流HighestTid和TargetDecLayerIdList供应作为输入,且将输出指派给称为BitstreamToDecode的位流。
此子条款的其余部分中所指定的解码过程适用于BitstreamToDecode中的每一经译码图片,称为当前图片,且由变量CurrPic表示。
取决于chroma_format_idc的值,当前图片的样本阵列的数目如下:
–如果chroma_format_idc等于0,那么当前图片由1个样本阵列SL组成。
–否则(chroma_format_idc不等于0),那么当前图片由3个样本阵列SL、SCb、SCr组成。
用于当前图片的解码过程将来自条款7的语法元素和大写变量作为输入。当解译每一NAL单元中的每一语法元素的语义时,术语“位流”(或其一部分,例如,位流的CVS)指代BitstreamToDecode(或其一部分)。
指定解码过程,使得所有解码器将产生数目相同的经裁切的经解码图片。产生与本文所述的过程所产生的那些图片相同(具有正确的输出次序或输出时序,如所指定)的经裁切的经解码图片的任何解码过程符合本说明书的解码过程要求。
当当前图片为IRAP图片时,以下适用:
–如果当前图片为IDR图片或BLA图片,那么将变量NoRaslOutputFlag设定为等于1。
–否则(当前图片为CRA图片),以下适用:
–如果当前图片为解码次序中位流中的第一图片或解码次序中的序列NAL单元结束之后的第一图片,同一存取单元中的所有图片均将为CRA图片,那么将变量NoRaslOutputFlag设定为等于1。
–否则,如果本说明书中未指定的一些外部手段可用于将变量HandleCraAsBlaFlag设定为当前图片的值,那么将变量HandleCraAsBlaFlag设定为等于所述外部手段所提供的值,且将变量NoRaslOutputFlag设定为等于HandleCraAsBlaFlag。在此情况下,当当前存取单元中存在一个非CRA图片时,当前图片的HandleCraAsBlaFlag的值将不等于1。
–否则,将变量HandleCraAsBlaFlag设定为等于0,且将变量NoRaslOutputFlag设定为等于0。
当当前图片具有等于0的nuh_layer_id时,调用子条款8.1.1中所指定的具有等于0的nuh_layer_id的经译码图片的解码过程。
下文描述用于具有等于0的nuh_layer_id的经译码图片的解码过程的语义。视频解码器30可经配置以如下文所述解码视频数据。视频编码器20可经配置以根据与下文所述互反的过程来编码视频数据。
用于具有等于0的nuh_layer_id的经译码图片的解码过程
当当前图片为具有等于BLA_W_LP的nal_unit_type的BLA图片或为CRA图片时,以下适用:
–如果本说明书中未指定的一些外部手段可用于将变量UseAltCpbParamsFlag设定为一值,那么将UseAltCpbParamsFlag设定为等于所述外部手段所提供的值。
–否则,将UseAltCpbParamsFlag的值设定为等于0。
[去除:“当当前图片为IRAP图片时,以下适用:
–如果具有特定nuh_layer_id的当前图片为IDR图片、BLA图片、解码次序中位流中具有所述特定nuh_layer_id的第一图片,或解码次序中在序列NAL单元结束之后具有所述特定nuh_layer_id的第一图片,那么将变量NoRaslOutputFlag设定为等于1。
–否则,如果本说明书中未指定的一些外部手段可用于将变量HandleCraAsBlaFlag设定为当前图片的值,那么将变量HandleCraAsBlaFlag设定为等于所述外部手段所提供的值,且将变量NoRaslOutputFlag设定为等于HandleCraAsBlaFlag。
–否则,将变量HandleCraAsBlaFlag设定为等于0,且将变量NoRaslOutputFlag设定为等于0。”]
取决于separate_colour_plane_flag的值,解码过程的结构如下:
–如果separate_colour_plane_flag等于0,那么以当前图片作为输出,调用解码过程单次。
–否则(separate_colour_plane_flag等于1),调用解码过程三次。向解码过程的输入为具有colour_plane_id的相同值的经译码图片的所有NAL单元。指定具有colour_plane_id的特定值的NAL单元的解码过程,就像仅具有colour_plane_id的所述特定值的呈单色格式的CVS将存在于所述位流中一样。将三个解码过程中的每一者的输出指派给当前图片的3个样本阵列中的一者,其中分别将具有等于0、1和2的colour_plane_id的NAL单元指派给SL、SCb和SCr
注意–当separate_colour_plane_flag等于1,且chroma_format_idc等于3时,将变量ChromaArrayType导出为等于0。在解码过程中,评估此变量的值,从而产生与单色图片的操作相同的操作(当chroma_format_idc等于0时)。
解码过程对当前图片如下操作:
1.子条款8.2中指定NAL单元的解码。
2.子条款8.3中的过程指定使用切片片段层及以上中的语法元素的以下解码过程:
–在子条款8.3.1中导出与图片次序计数有关的变量和函数。这需要仅对图片的第一切片片段调用。
–调用子条8.3.2中用于RPS的解码过程,其中可将参考图片标记为“未用于参考”或“用于长期参考”。这需要仅对图片的第一切片片段调用。
–当当前图片为BLA图片或为具有等于1的NoRaslOutputFlag的CRA图片时,调用子条款8.3.3中所指定的用于产生不可用参考图片的解码过程,其需要仅对图片的第一切片片段调用。
–如下设定PicOutputFlag:
–如果当前图片为RASL图片,且相关联的IRAP图片的NoRaslOutputFlag等于1,那么将PicOutputFlag设定为等于0。
–否则,将PicOutputFlag设定为等于pic_output_flag。
–在针对每一P或B切片的解码过程的开始,调用子条款8.3.4中所指定的用于参考图片列表构建的解码过程,以导出参考图片列表0(RefPicList0),且当解码B切片时,导出参考图片列表1(RefPicList1)。
3.子条款8.4、8.5、8.6和8.7中的过程指定使用所有语法结构中的语法元素的解码过程。以下时位流一致性的要求:图片的经译码切片将含有图片的每个译码树单元的切片片段数据,使得将图片分为若干切片,将所述切片分为若干切片区段,且将所述切片区段分为各自形成图片的分区的若干译码树单元。
4.在已解码当前图片的所有切片之后,将经解码图片标记为“用于短期参考”。
下文描述用于图片次序计数的解码过程的语义。
用于图片次序计数的解码过程
此过程的输出为PicOrderCntVal,当前图片的图片次序计数。
使用图片次序计数来识别图片,用于导出合并模式和运动向量预测中的运动参数,且用于解码器一致性检查(见子条款C.5)。
每一经译码图片与表示为PicOrderCntVal的图片次序计数变量相关联。
当当前图片不是具有等于1的NoRaslOutputFlag的IRAP图片时,如下导出变量prevPicOrderCntLsb和prevPicOrderCntMsb:
–令prevTid0Pic为解码次序中具有等于0的TemporalId和等于当前图片的nuh_layer_id的nuh_layer_id且不是RASL图片、RADL图片也不是子层非参考图片的先前图片,且prevPicOrderCnt等于prevTid0Pic的PicOrderCntVal。
–将变量prevPicOrderCntLsb设定为等于prevPicOrderCnt&(MaxPicOrderCntLsb-1)[去除:“prevTid0Pic的slice_pic_order_cnt_lsb”]。
–将变量prevPicOrderCntMsb设定为等于prevPicOrderCnt–prevPicOrderCntLsb[去除:“prevTid0Pic的PicOrderCntMsb”]。
如下导出当前图片的变量PicOrderCntMsb:
–如果当前图片为具有等于1的NoRaslOutputFlag的IRAP图片,那么将PicOrderCntMsb设定为等于0。
–否则,如下导出PicOrderCntMsb:
如下导出PicOrderCntVal:
PicOrderCntVal=(poc_msb_reset_flag?0:PicOrderCntMsb)+(8-2)
(poc_lsb_reset_flag?0:slice_pic_order_cnt_lsb)
注意1–所有IDR图片将具有等于0的PicOrderCntVal,因为针对IDR图片,推断slice_pic_order_cnt_lsb为0,且将prevPicOrderCntLsb和prevPicOrderCntMsb两者设定为等于0。
当poc_msb_reset_flag等于1时,位于DPB中且属于与当前图片相同的层的每一图片的PicOrderCntVal递减PicOrderCntMsb。
当poc_lsb_reset_flag等于1时,在DPB中且属于与当前图片相同的层的每一图片的PicOrderCntVal递减slice_pic_order_cnt_lsb。
PicOrderCntVal的值将在-231到231-1的范围内,包含-231和231-1。在一个CVS中,同一层中的任何两个经译码图片的PicOrderCntVal值将不相同。
如下指定函数PicOrderCnt(picX):
PicOrderCnt(picX)=图片picX的PicOrderCntVal(8-3)
如下指定函数DiffPicOrderCnt(picA,picB):
DiffPicOrderCnt(picA,picB)=PicOrderCnt(picA)-PicOrderCnt(picB)(8-4)
位流将不含有得出解码过程中所使用的不在-215到215-1的范围内(包含-215和215-1)的DiffPicOrderCnt(picA,picB)的值的数据。
注意2-令X为当前图片,且Y和Z为同一序列中的两个其它图片,当DiffPicOrderCnt(X,Y)和DiffPicOrderCnt(X,Z)为正或两者均为负时,将Y和Z视为在从X开始的相同输出次序方向上。
用于参考图片集合的解码过程
此过程每图片调用一次,在切片标头的解码之后,但在任何译码单元的解码之前,且在针对如子条款8.3.3中所指定的用于切片的参考图片列表建构的解码过程之前。此过程可导致DPB中的一个或一个以上参考图片被标记为“未用于参考”或“用于长期参考”。
注意1-RPS为当前和未来经译码图片的解码过程中所使用的参考图片的绝对描述。在包含于RPS中的所有参考图片均明确列出的意义上,RPS信令是明确的。
DPB中的经解码图片可标记为“未用于参考”、“用于短期参考”或“用于长期参考”,但在解码过程的操作期间的任何给定时刻,仅存在这三个中的一个。在适用时,将这些标记中的一者指派给图片隐含地去除这些标记中的另一个。当将图片称为标记为“用于参考”时,这共同指代正被标记为“用于短期参考”或“用于长期参考”(但不是两者)的图片。
当当前图片为具有等于1的NoRaslOutputFlag的IRAP图片时,当前在DPB中的所有参考图片(如果存在的话)均标记为“未用于参考”。
短期参考图片由其PicOrderCntVal值识别。长期参考图片由其PicOrderCntVal值或其slice_pic_order_cnt_lsb值识别。
建构五个图片次序计数值列表来导出RPS。这五个列表PocStCurrBefore、PocStCurrAfter、PocStFoll、PocLtCurr和PocLtFoll,分别具有NumPocStCurrBefore、NumPocStCurrAfter、NumPocStFoll、NumPocLtCurr和NumPocLtFoll个元素。如下导出所述五个列表和五个变量:
–如果当前图片为IDR图片,那么将PocStCurrBefore、PocStCurrAfter、PocStFoll、PocLtCurr和PocLtFoll全部设定为空,且将NumPocStCurrBefore、NumPocStCurrAfter、NumPocStFoll、NumPocLtCurr和NumPocLtFoll全部设定为等于0。
–否则,以下适用:
其中PicOrderCntVal为如子条款8.3.1中所指定的当前图片的图片次序计数。
注意2–在0到num_short_term_ref_pic_sets-1的范围内(包含0和num_short_term_ref_pic_sets-1)的CurrRpsIdx的值指示正使用来自活动SPS的候选短期RPS,其中CurrRpsIdx为所述候选短期RPS到活动SPS中用信号通知的候选短期RPS的列表中的索引。等于num_short_term_ref_pic_sets的CurrRpsIdx指示当前图片的短期RPS直接在切片标头中用信号通知。
对于在0到NumPocLtCurr-1的范围内(包含0和NumPocLtCurr-1)的每一i,当CurrDeltaPocMsbPresentFlag[i]等于1时,位流一致性的要求是以下条件适用:
实例2
以下描述涉及根据本发明的第二实例。一般来说,下文的语法和语义涉及HEVCWD10中的对应章节。如上文所提到,用斜体字表示的文本指示所提出的添加,且[去除:“”]指示所提出的删除。
下文首先描述一般切片片段标头语法和语义。
一般切片片段标头语法
或者,语法可如下:
下文描述一般切片片段标头语义。
一般切片片段标头语义
等于1的poc_reset_flag指定为当前图片导出的图片次序计数等于0。等于0的poc_reset_flag指定为当前图片导出的图片次序计数可或可不等于0。
当存在时,当当前图片不是IDR图片,且当前存取单元中的至少一个图片为IDR图片时,poc_reset_flag的值将等于1。
当不存在时,推断poc_reset_flag的值等于0。
因此,针对不是IRAP图片且在包含IRAP图片的存取单元中,例如在不同的视频译码层中的图片,视频编码器20可将poc_reset_flag设定为具有值1。同样地,在针对不是图片的图片接收到值1后,视频解码器30可使图片的POC值复位,且根据需要调整同一层和同一经译码视频序列中的其它图片的POC值。
下文描述根据此第二实例的所提出的解码过程变化。
解码过程变化
切片解码过程
8.3.1用于图片次序计数的解码过程
此过程的输出为PicOrderCntVal,当前图片的图片次序计数。
使用图片次序计数来识别图片,用于导出合并模式和运动向量预测中的运动参数,且用于解码器一致性检查(见子条款C.5)。
每一经译码图片与表示为PicOrderCntVal的图片次序计数变量相关联。
当当前图片不是具有等于1的NoRaslOutputFlag的IRAP图片时,如下导出变量prevPicOrderCntLsb和prevPicOrderCntMsb:
–令prevTid0Pic为解码次序中具有等于0的TemporalId和等于当前图片的nuh_layer_id的nuh_layer_id且不是RASL图片、RADL图片也不是子层非参考图片的先前图片,且prevPicOrderCnt等于prevTid0Pic的PicOrderCntVal。
–将变量prevPicOrderCntLsb设定为等于prevPicOrderCnt&(MaxPicOrderCntLsb–1)[去除:“prevTid0Pic的slice_pic_order_cnt_lsb”]。
–将变量prevPicOrderCntMsb设定为等于prevPicOrderCnt–prevPicOrderCntLsb[去除:“prevTid0Pic的PicOrderCntMsb”]。
如下导出当前图片的变量PicOrderCntMsb:
–如果当前图片为具有等于1的NoRaslOutputFlag的IRAP图片,那么将PicOrderCntMsb设定为等于0。
–否则,如下导出PicOrderCntMsb:
如下导出PicOrderCntVal:
PicOrderCntVal=PicOrderCntMsb+slice_pic_order_cnt_lsb(8-2)
注意1–所有IDR图片将具有等于0的PicOrderCntVal,因为针对IDR图片,推断slice_pic_order_cnt_lsb为0,且将prevPicOrderCntLsb和prevPicOrderCntMsb两者设定为等于0。
当poc_reset_flag等于1时,以下依序适用:
–位于DPB中且属于与当前图片相同的层的每一图片的PicOrderCntVal递减PicOrderCntVal。
–将PicOrderCntVal设定为0。
PicOrderCntVal的值将在-231到231-1的范围内,包含-231和231-1。在一个CVS中,同一层中的任何两个经译码图片的PicOrderCntVal值将不相同。
如下指定函数PicOrderCnt(picX):
PicOrderCnt(picX)=图片picX的PicOrderCntVal(8-3)
如下指定函数DiffPicOrderCnt(picA,picB):
DiffPicOrderCnt(picA,picB)=PicOrderCnt(picA)-PicOrderCnt(picB)(8-4)
位流将不含有得出解码过程中所使用的不在-215到215-1的范围内(包含-215和215-1)的DiffPicOrderCnt(picA,picB)的值的数据。
注意2–令X为当前图片,且Y和Z为同一序列中的两个其它图片,当DiffPicOrderCnt(X,Y)和DiffPicOrderCnt(X,Z)为正或两者均为负时,将Y和Z视为在从X开始的相同输出次序方向上。
此实例中用于参考图片集合的解码过程可与针对实例1描述的过程相同。
以此方式,视频编码器20可经配置以设定指示是否将使图片的POC值的至少一部分复位的语法元素(例如,poc_msb_reset_flag或poc_reset_flag)的值。如上文所论述,视频编码器20可经配置以设定语法元素的值,来指示当图片包含于包含至少一个IRAP图片的存取单元中时,将使POC值复位。同样地,视频解码器30可从语法元素的值确定是否使图片的POC值的至少一部分(或整个POC值复位。举例来说,在语法元素为poc_msb_reset_flag的情况下,视频解码器30可使图片的POC值的MSB复位。当语法元素为poc_reset_flag时,视频解码器30可使图片的整个POC值复位。
另外,视频编码器20和视频解码器30可调整同一层中且同一经译码视频序列(CVS)中的其它图片的POC值,使得所述POC值相对于待调整的POC值之间的差在复位之前和之后保持恒定。以此方式,当视频编码器20使用层间预测来编码图片的块时,其中所述图片(在上文所论述的POC调整之后)具有POC值N,所述块可使用POC值N来识别参考图片。就是说,在调整之后,存取单元中的每一图片将具有相同POC值。
此外,视频解码器30可经配置以检测存取单元的边界。
视频编码器20和视频解码器30各自可实施为多种合适编码器电路中的任一者,例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件中实施时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中,且在硬件中使用一个或一个以上处理器来执行所述指令以实施本发明的技术。视频编码器20和视频解码器30中的每一者可包含在一个或一个以上编码器或解码器中,其中的任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的一部分。
视频编码器20和视频解码器30各自可一般根据HEVCWD10、MV-HEVCWD3和/或SHVCWD1来操作,如上文所述,或根据其中本发明中所描述的技术可为有用的其它类似标准或扩展来操作。HEVC标准指定视频译码装置相对于根据例如,ITU-TH.264/AVC的现有装置的若干额外能力。举例来说,鉴于H.264提供九种帧内预测编码模式,HEVC标准可提供至多达三十三种帧内预测编码模式。
一般来说,可将视频帧或图片分为包含亮度和色度样本两者的树块或最大译码单元(LCU)序列。HEVC译码过程中的树块具有与H.264标准的宏块相似的目的。切片包含若干在译码次序上连续的树块。可将视频帧或图片分割成一个或一个以上切片。每一树块可根据四叉树分裂成译码单元(CU)。举例来说,作为四叉树的根节点,树块可分裂为四个子节点,且每一子节点又可为母节点,且分裂为另外四个子节点。作为四叉树的叶节点的最后的未分裂子节点包括译码节点,即,经译码视频块。与经译码位流相关联的语法数据可界定树块可分裂的最大倍数,且也可界定译码节点的最小大小。
CU包含译码节点,以及与所述译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小,且形状必须为正方形。CU的大小的范围可从8x8个像素至多达具有最大64x64个像素或以上的树块的大小。每一CU可含有一个或一个以上PU以及一个或一个以上TU。与CU相关联的语法数据可例如描述将CU分割成一个或一个以上PU。分割模式可在CU是经跳过或直接模式编码、帧内预测模式编码还是帧间预测模式编码之间不同。可将PU分割为形状为非正方形。与CU相关联的语法数据也可例如描述根据四叉树将CU分割成一个或一个以上TU。TU的形状可为正方形或非正方形。
HEVC标准允许根据TU的变换,其可针对不同CU而不同。TU的大小通常基于为所分割的LCU界定的给定CU内的PU的大小,但不总是这种情况。TU通常为与PU相同大小或小于PU。在一些实例中,可使用称为“残差四叉树”(RQT)的四叉树结构,将对应于CU的残余样本再分为较小的单元。RQT的叶节点可称为变换单元(TU)。可变换与TU相关联的像素差异值,以产生变换系数,其可量化。
一般来说,PU包含与预测过程有关的数据。举例来说,当PU经模式内编码时,PU可包含描述用于所述PU的帧内预测模式的数据。作为另一实例,当PU经模式间编码时,PU可包含界定用于所述PU的运动向量的数据。界定用于PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片和/或用于所述运动向量的参考图片列表(例如,RefPicList0(L0)或RefPicList1(L1))。
一般来说,TU用于变换和量化过程。具有一个或一个以上PU的给定CU也可包含一个或一个以上变换单元(TU)。在预测之后,视频编码器20可计算对应于所述PU的残余值。所述残余值包括可使用TU变换为变换系数、量化和扫描仪产生用于熵译码的串行化变换系数的像素差值。本发明通常使用术语“视频块”来指代CU的译码节点。在一些特定情况下,本发明也可使用术语“视频块”来指代树块(即,LCU)或CU,其包含译码节点以及PU和TU。
举例来说,对于根据HEVC标准的视频译码,可将视频帧分割为译码单元(CU)、预测单元(PU)和变换单元(TU)。CU通常指代充当对其应用各种译码工具以进行视频压缩的基本单元的图像区。CU通常具有正方形几何形状,且可被视为类似于其它视频译码标准,例如ITU-TH.264下的所谓的“宏块”。
为了实现较佳的译码效率,CU可具有取决于其含有的视频数据的变量大小。就是说,可将CU分割或“分裂”成较小的块或子CU,其中的每一者也可称为CU。另外,未分裂成子CU的每一CU可进一步分割成一个或一个以上PU和TU,以分别用于CU的预测和变换的目的。
可将PU视为类似于其它视频译码标准,例如H.264下的块的所谓的分区。PU是对其执行块的预测以产生“残余”系数的基础。CU的残余系数表示CU的视频数据与使用CU的一个或一个以上PU确定的CU的所预测数据之间的差。具体地说,一个或一个以上PU指定如何出于预测的目的来分割CU,以及使用哪一预测模式来预测包含在CU的每一分区内的视频数据。
CU的一个或一个以上TU基于将哪一变换应用于所述块以产生所述CU的残余变换系数块,来指定CU的残余系数块的分区。一个或一个以上TU也可与所应用的变换的类型相关联。所述变换将残余系数从像素或空间域转换到变换域,例如频域。另外,一个或一个以上TU可基于将哪一量化应用于所得残余变换系数块以产生经量化残余变换系数块来指定参数。可量化残余变换系数以尽可能减少用来表示所述系数的数据的量。
CU通常包含一个亮度分量,表示为Y,以及两个色度分量,表示为U和V。换句话说,不进一步分裂成子CU的给定CU可包含Y、U和V分量,其中的每一者可进一步分割成一个或一个以上PU和TU,以用于CU的预测和变换目的,如先前所描述。举例来说,取决于视频取样格式,依据若干样本,U和V分量的大小可与Y分量的大小相同或不同。由此,上文参考预测、变换和量化所述的技术可针对给定CU的Y、U和V分量中的每一者执行。
为了编码CU,首先基于CU的一个或一个以上PU导出CU的一个或一个以上预测符。预测符是含有为CU预测的数据的参考块,且是基于CU的对应PU而导出,如先前所述。举例来说,PU指示CU的将为其确定所预测数据的分区,以及用于确定所预测数据的预测模式。可通过帧内(I)预测(即,空间预测)或帧间(P或B)预测(即,时间预测)模式来导出预测符。因此,可相对于同一帧中的相邻参考块或CU使用空间预测来对一些CU进行帧内译码(I),而可相对于其它帧中的参考块或CU来对其它CU进行帧间译码(P或B)。
在基于CU的一个或一个以上PU识别一个或一个以上预测符后,计算对应于一个或一个以上PU的CU的原始视频数据与包含在一个或一个以上预测符中的CU的所预测数据之间的差。此差,也称为预测残差,包括残余系数,且指代一个或一个以上PU所指定的CU的部分与一个或一个以上预测符之间的像素差,如先前所述。所述残余系数通常以对应于CU的一个或一个以上PU的二维(2-D)阵列布置。
为了实现进一步压缩,通常例如,使用离散余弦变换(DCT)、整数变换、卡-洛(K-L)变换或另一变换来变换预测残差。所述变换将空间域中的预测残差(即残余系数)变换为变换域(例如,频域)中的残余变换系数,如先前也描述。变换系数还通常布置成对应于CU的一个或一个以上TU的2D阵列。为了进一步压缩,可量化残余变换系数,以尽可能减少用来表示所述系数的数据的量,也如先前所述。
为了实现更进一步压缩,熵译码器随后使用上下文自适应二进制算术译码(CABAC)、上下文自适应可变长度译码(CAVLC)、概率区间分割熵译码(PIPE)或另一熵译码方法来编码所得的残余变换系数。熵译码可通过减少或去除由所述系数表示的CU的视频数据中相对于其它CU固有的统计冗余。
视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一个或一个以上视频图片。GOP可在GOP的标头中、所述图片中的一者或一者以上的标头中或在别处包含语法数据,其描述包含在GOP中的图片的数目。图片的每一切片可包含切片语法数据,其描述所述相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块操作,以便编码所述视频数据。视频块可对应于CU内的译码节点。视频块可具有固定的或变化的大小,且可根据指定译码标准而大小不同。
举例来说,HEVC支持各种PU大小的预测。假定特定CU的大小为2Nx2N,那么HEVC支持2Nx2N或NxN的PU大小的帧内预测,以及2Nx2N、2NxN、Nx2N或NxN的对称PU大小的帧间预测。HEVC还支持2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中,CU的一个方向未经分割,而另一方向分割成25%和75%。CU的对应于25%分区的部分由“n”接以“上”、“下”、“左”或“右”的指示来指示。因此,例如,“2NxnU”指代水平分割的2Nx2NCU,其中2Nx0.5NPU在上,且2Nx1.5NPU在下。
在本发明中,“NxN”和“N乘N”可互换使用,来指代依据垂直或水平维度的视频块的像素尺寸,例如,16x16像素或16乘16像素。一般来说,16x16块在垂直方向上将具有16个像素(y=16),且在水平方向上具有16个像素(x=16)。同样地,NxN块通常在垂直方向上具有N个像素,且在水平方向上具有N个像素,其中N表示非负整数值。块中的像素可布置成行和列。此外,块不一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说,块可包括NxM个像素,其中M不一定等于N。
在使用CU的PU的帧内预测或帧间预测译码之后,视频编码器20可为CU的TU计算残余数据。PU可包括空间域(也称为像素域)中的像素数据,且TU可包括在对残余视频数据应用变换之后变换域中的系数,所述变换例如为离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换。残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残余数据的TU,且接着变换TU以产生CU的变换系数。
在用以产生变换系数的任何变换之后,视频编码器20可执行变换系数的量化。量化通常指代其中使变换系数量化以可能地减少用来表示系数的数据量,从而提供进一步压缩的过程。量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说,可在量化期间将n位值遐想舍入到m位值,其中n大于m。
在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数,以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后,视频编码器20可例如根据上下文自适应变长译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法,来对一维向量进行熵编码。视频编码器20还可对与经编码的视频数据相关联的语法元素进行熵编码,以供视频解码器30用来解码视频数据。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。上下文可与例如所述符号的相邻值是非零还是零有关。为了执行CAVLC,视频编码器20可为待发射的符号选择变长码。可构造VLC中的码字,使得相对较短的代码对应于较可能的符号,而较长的代码对应于较不可能的符号。以此方式,VLC的使用可例如比将等长码字用于待发射的每一符号实现位节省。概率确定可基于指派给所述符号的上下文。
视频编码器20和视频解码器30可经配置以实施本发明的实例技术。视频编码器20和视频解码器30可通常称为视频译码器。
举例来说,视频解码器30可经配置以接收第一语法元素,其指示当前图片的图片次序计数(POC)值是否复位到等于当前图片的POC值的一组最低有效位(LSB),当第一语法元素指定当前图片的POC值复位到等于当前图片的POC值的所述组LSB时,使与当前图片相同的译码层中的其它图片的POC值递减,使得当前图片的POC值与同一层中的图片中的任何一者的POC值之间的差保持与当前图片的POC值复制之前相同,且使用递减的POC值来解码当前图片和其它图片中的至少一些。所述其它图片可包含短期参考图片和长期参考图片,且视频解码器30可使短期参考图片和长期参考图片的POC值递减。
当第一语法元素指定当前图片的POC值复位到等于所述组POC值LSB时,视频解码器30可使经解码图片缓冲器(DPB)中的其它图片的POC值递减,使得当前图片的POC值与DPB中的图片中的任何一者的POC值之间的差保持与当前图片的POC值复位之前相同。
当第一语法元素指定当前图片的POC值复位到等于当前图片的POC值的所述组LSB时,当前图片的POC值的最高有效位(MSB)复位到零。在一实例中,当前图片的POC值的LSB和MSB是互斥的。
在一些实例中,视频解码器30可接收第二语法元素,其指定当前图片的POC值的LSB是否复位到零。第一和/或第二语法元素可各自为旗标,且可在切片标头中接收所述语法元素中的一者或两者。当前图片可包括IDR、CRA或BLA图片中的一者。
在另一实例中,视频解码器30可经配置以接收第一语法元素,其指定当前图片的图片次序计数(POC)值是否复位到等于零,当第一语法元素指定当前图片的POC值复位到等于零时,如果当前图片位于大于层0的层中,那么使当前图片复位到等于零,且使用复位的POC值来解码当前图片。
在一个实例中,当前图片为非IDR图片。语法元素可包括旗标,例如idr_au_present_flag。可在切片标头中接收语法元素。当当前图片为IDR图片时,语法元素总是指定当前图片的POC值复位到等于零。
视频编码器20也可经配置以执行根据本发明的实例的方法。举例来说,视频编码器20可经配置以产生第一语法元素,其指定当前图片的图片次序计数(POC)值是否复位到等于当前图片的POC值的一组最低有效位(LSB),当第一语法元素指定当前图片的POC值复位到等于当前图片的POC值的所述组LSB时,使与当前图片相同的译码层中的其它图片的POC值递减,使得当前图片的POC值与同一层中的图片中的任一者的POC值之间的差保持与当前图片的POC值复位之前相同,且使用递减的POC值来编码当前图片和其它图片中的至少一些。
当第一语法元素指定当前图片的值复位到等于所述组POC值LSB时,视频编码器20可使经解码图片缓冲器(DPB)中的其它图片的POC值递减,使得当前图片的POC值与DPB中的图片中的任何一者的POC值之间的差保持与当前图片的POC值复位之前相同。
当第一语法元素指定当前图片的POC值复位到等于当前图片的POC值的所述组LSB时,当前图片的POC值的最高有效位(MSB)复位到零。在一实例中,当前图片的POC值的LSB和MSB是互斥的。
视频编码器20可产生第二语法元素,其指定当前图片的POC值的LSB是否复位到零。第一和/或第二语法元素可各自为旗标,且可在切片标头中接收所述语法元素中的一者或两者。当前图片可包括IDR、CRA或BLA图片中的一者。
在另一实例中,视频编码器20可经配置以产生第一语法元素,其指定当前图片的图片次序计数(POC)值是否复位到等于零,当第一语法元素指定当前图片的POC值复位到等于零时,如果当前图片位于大于层0的层中,那么使当前图片复位到等于零,且使用复位的POC值来编码当前图片。当前图片可为非IDR图片。语法元素可包括旗标,例如idr_au_present_flag,且所述旗标可在切片标头中用信号通知。当图片为IDR图片时,语法元素总是指定当前图片的POC值复位到等于零。
图2是说明可实施本发明中所描述的技术的实例视频编码器20的框图。视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依靠空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。模式内(I模式)可指代若干基于空间的压缩模式中的任一者。帧间模式,例如单向预测(P模式)或双向预测(B模式),可指代若干基于时间的压缩模式中的任何一种。
在图2的实例中,视频编码器20包含分割单元40、预测处理单元42、参考图片存储器64、求和器50、变换处理单元52、量化处理单元54和熵编码单元56。预测处理单元42包含运动估计单元44、运动补偿单元46和帧内预测单元48。对于视频块重构,视频编码器20还包含逆量化处理单元58、逆变换处理单元60和求和器62。还可包含去块滤波器(图2中未展示),来对块边界进行滤波,以将成块假影从经重构的视频去除。如果需要,那么去块滤波器将通常对求和器62的输出进行滤波。除去块滤波器之外,也可使用额外的循环滤波器(循环中或循环后)。
在各种实例中,可为视频编码器20的单元来分派任务以执行本发明的技术。并且,在一些实例中,本发明的技术可划分在视频编码器20的单元中的一者或一者以上之间。
如图2中所示,视频编码器20接收视频数据,且分割单元40将所述数据分割成若干视频块。此分割还可包含分割成切片、瓦片或其它较大单元,以及视频块分割,例如根据LCU和CU的四叉树结构。视频编码器20通常说明编码待编码视频切片内的视频块的组件。可将切片分为多个视频块(且可能分为称为瓦片的若干组视频块)。预测处理单元42可基于错误结果(例如,译码速率和失真等级),为当前视频块选择多个可能译码模式中的一者,例如多个帧内译码模式中的一者或多个帧间译码模式中的一者。预测处理单元42可将所得的经帧内或帧间译码的块提供给求和器50,以产生残余块数据,且提供给求和器62以重构经编码块,来用作参考图片。
预测处理单元42内的帧内预测单元48可相对于与待译码的当前块相同的图片或切片中的一个或一个以上相邻块执行当前视频块的帧内预测译码,以提供空间压缩。预测处理单元42内的运动估计单元44和运动补偿单元46相对于一个或一个以上参考图片中的一个或一个以上预测块执行当前视频块的帧间预测译码,以提供时间压缩。
运动估计单元44可经配置以根据视频序列的预定式样,为视频切片确定帧间预测模式。运动估计单元44和运动补偿单元46可高度集成,但出于概念目的而分开说明。运动估计单元44所执行的运动估计是产生运动向量的过程,其估计视频块的运动。运动向量例如可指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测块的位移。
预测块是发现依据像素差异而与待译码的视频块的PU密切匹配的块,所述像素差异可由绝对差和(SAD)、方差和(SSD)或其它差异量度来确定。在一些实例中,视频编码器20可计算存储在参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元44可相对于整个像素位置和分数像素位置执行运动搜索,且输出具有分数像素精度的运动向量。
运动估计单元44通过将PU的位置与参考图片的预测块的位置进行比较,来计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一者识别存储在参考图片存储器64中的一个或一个以上参考图片。运动估计单元44将所计算的运动向量发送到熵编码单元56和运动补偿单元46。
运动补偿单元46所执行的运动补偿可涉及基于运动估计所确定的运动向量来取或产生预测块,从而可能将内插执行到子像素精度。在接收到当前视频块的PU的运动向量后,运动补偿单元46可即刻在参考图片列表的一者中定位运动向量所指向的预测块。视频编码器20通过将预测块的像素值从正译码的当前视频块的像素值减去,从而形成像素差值,来形成残余视频块。像素差异值形式所述块的残余数据,且可包含亮度和色度差异分量两者。求和器50表示执行此减法操作的组件。运动补偿单元46也可产生与视频块和视频切片相关联的语法元素,以供视频解码器30用来解码视频切片的视频块。
此外,在一些情况下,预测处理单元42可确定使用层间预测来预测图片的块。举例来说,对于多视图视频数据,预测处理单元42可确定使用视图间预测从另一视图的图片预测一个视图的图片的块。在视图间预测的情况下,运动估计单元44可计算所述块的视差运动向量,其中视差运动向量通常识别参考视图的图片中的参考块的位置。作为另一实例,对于可缩放视频译码,预测处理单元42可确定使用层间预测从另一层的图片预测一个层的图片的块。
层间预测(其包含视图间预测,因为视图可被视为一种类型的层)可涉及指向不同层中的参考块,而不是在同一层中但在不同时刻的图片中的块的运动向量的使用。通常,使用同一存取单元的图片作为包含将使用层间预测来预测的块的图片,来执行层间预测。经帧间预测的块的运动参数可因此使用例如图片次序计数(POC)值来识别参考图片。
通常,层间译码扩展(例如,对HEVC的多视图和可缩放扩展)的技术已基于以下假定,POC值是对准的,即,同一存取单元中的所有图片具有相同的POC值。为了实现这一点,常规的技术也已对准帧内随机存取点(IRAP)图片。然而,如上文所述,迫使IRAP图片的对准阻碍了某些有利使用情形。
因此,根据本发明的技术,预测处理单元42不一定使不同层之间的所有IRAP图片对准。就是说,预测处理单元42可确定译码包含IRAP图片的存取单元的至少一个图片作为非IRAP图片。然而,预测处理单元42可使用本发明的技术来实现IRAP图片的非对准,同时维持对准不同层的图片之间的POC值。以此方式,预测处理单元42可确保图片的经层间预测块可适当地参考不同层中的参考图片,其中所述参考图片具有与包含经层间预测块的图片相同的POC值,而不对准IRAP图片。
明确地说,根据本发明的技术,预测处理单元42可接收待为包含IRAP图片的存取单元编码的图片。就是说,视频编码器20可能先前已编码了包含IRAP图片的基础层(或其它层),且已确定编码所述IRAP图片作为IRAP图片,例如,IDR、CRA或BLA图片。然而,视频编码器20可接着确定将另一层中的经排列图片(即,同一存取单元中的图片)编码为非IRAP图片。
在确定将作为位于同一存取单元中的非IRAP图片的图片编码为IRAP图片之后,视频编码器20可设定语法元素的值,所述语法元素指示所述非IRAP图片的POC值的至少一部分将复位到值零。所述POC值的至少所述部分可仅包含所述POC值的最高有效位(MSB),或整个POC值(即,POC值的所有位)。所述语法元素可包括例如以上实例1的poc_msb_reset_flag或以上实例2的poc_reset_flag。
在确定将图片编码为非IRAP图片之后,视频编码器20也可使图片的POC值复位。此外,视频编码器20可使参考图片存储器64的在与所述图片相同的层中且在与所述图片相同的经译码视频序列中的图片的POC值复位。明确地说,使这些图片的POC值复位可包含确保当前图片的值与这些其它图片的POC值之间的差保持与复位之前和之后相同。因此,如果参考图片存储器64中的图片具有相对于当前图片的POC值N的POC值差,那么视频编码器20可使参考图片存储器64中的图片的POC值复位,使得POC值等于当前图片的经复位POC值减N。
以此方式,当使用层间预测来编码后续图片(例如,同一层或后续编码的层的图片)时,视频编码器20可编码语法数据,其使用参考图片的POC值来识别参考图片,所述POC值等于包含指代所述参考图片的经层间预测的块的图片的POC值。
帧内预测单元48可对当前块进行帧内预测,作为运动估计单元44和运动补偿单元46所执行的帧间预测的替代方案,如上文所述。明确地说,帧内预测单元48可确定用来编码当前块的帧内预测模式。在一些实例中,帧内预测单元48可使用各种帧内预测来编码当前块,例如在单独的编码遍次期间,且帧内预测单元48可从测试过的模式选择适当的帧内预测模式来使用。举例来说,帧内预测单元48可使用对各种测试过的帧内预测模式的速率失真分析来计算速率失真值,且在测试过的模式之中选择具有最佳速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的的失真量(或错误),以及用来产生所述经编码块的位速率(即,位数)。帧内预测单元48可从各种经编码块的失真和速率计算比率,以确定哪一帧内预测模式对所述块展现最佳速率失真值。
在任何情况下,在为块选择帧内预测模式之后,帧内预测单元48可将指示所述块的选定帧内预测模式的信息提供给熵编码单元56。熵编码单元56可根据本发明的技术对指示选定帧内预测模式的信息进行编码。视频编码器20可在所发射的位流配置数据(其可包含多个帧内预测模式索引表,以及多个经修改的帧内预测模式索引表(也称为码字映射表))中包含各种块的编码上下文的定义,以及将用于所述上下文中的每一者的最可能帧内预测模式的指示、帧内预测模式索引表,以及经修改的帧内预测模式索引表。
在预测处理单元42经由帧间预测或帧内预测产生当前视频块的预测块之后,视频编码器20通过将预测块从当前视频块减去来形成残余视频块。残余块中的残余视频数据可包含在一个或一个以上TU中,且应用于变换处理单元52。变换处理单元52使用变换,例如离散余弦变换(DCT)或概念上类似的变换,将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化处理单元54。量化处理单元54量化变换系数以进一步降低位速率。量化过程可减少与所述系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化处理单元54可接着执行包括经量化的变换系数的矩阵的扫描。或者,熵编码单元56可执行所述扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在熵编码单元56进行的熵编码之后,可将经编码位流发射到视频解码器30,或存档供以后发射或由视频解码器30检索。熵编码单元56也可对正编码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化处理单元58和逆变换处理单元60分别应用逆量化和逆变换,来重构像素域中的残余块,供以后用作参考图片的参考块。运动补偿单元46可通过将残余块添加到参考图片列表的一者内的参考图片中的一者的预测块,来计算参考块。运动补偿单元46还可将一个或一个以上内插滤波器应用于经重构的残余块,以计算用于运动估计中的子整数像素值。求和器62将经重构的残余块添加到运动补偿单元46所产生的经运动补偿的预测块,以产生参考块来存储在参考图片存储器64中。参考块可由运动估计单元44和运动补偿单元46用作参考块来对后续的视频帧或图片中的块进行帧间预测。
以此方式,视频编码器20表示视频译码器的实例,所述视频译码器经配置以:译码指示图片的图片次序计数(POC)值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。
图3是说明可实施本发明中所描述的技术的实例视频解码器30的框图。在图3的实例中,视频解码器30包含熵解码单元70、预测处理单元71、逆量化处理单元76、逆变换单元78、求和器80和参考图片存储器82。预测处理单元71包含运动补偿单元72和帧内预测单元74。在一些实例中,视频解码器30可执行大体上与相对于来自图2的视频编码器20而描述的编码遍次互反的解码遍次。
在各种实例中,可为视频解码器30的单元分派执行本发明的技术的任务。并且,在一些实例中,本发明的技术可划分在视频解码器30的单元中的一者或一者以上之间。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块以及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码,以产生经量化的系数、运动向量和其它语法元素。熵解码单元70将运动向量和其它语法元素转发到预测处理单元71。视频解码器30可在视频切片等级和/或视频块等级下接收语法元素。
当将视频切片译码为经帧内译码(I)切片时,预测处理单元71的帧内预测单元74可基于用信号通知的帧内预测模式以及来自当前帧或图片的先前经解码块的数据,产生当前视频切片的视频块的预测数据。当将视频图片译码为经帧间译码(即,B或P)切片时,预测处理单元71的运动补偿单元72基于从熵解码单元70接收到的运动向量和其它语法元素,产生当前视频切片的视频块的预测块。可从参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可使用默认建构技术或任何其它技术,基于存储在参考图片存储器82中的参考图片来建构参考图片列表,列表0和列表1。
运动补偿单元72通过剖析运动向量和其它语法元素来确定当前视频切片的视频块的预测信息,且使用所述预测信息来产生正解码的当前视频块的预测块。举例来说,运动补偿单元72使用接收到的语法元素中的一些来确定用以对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的参考图片列表中的一者或一者以上的构造信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态,以及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可执行基于内插滤波器的内插。在视频块的编码期间,运动补偿单元72可使用如视频编码器20所使用的内插滤波器来计算参考块的子整数像素的经内插值。在此情况下,运动补偿单元72可从接收到的语法元素确定视频编码器20所使用的内插滤波器,且使用内插滤波器来产生预测块。
根据本发明的技术,熵解码单元70可解码指示图片的第一图片次序计数(POC)值的至少一部分是否将复位到值零的语法元素的值。语法元素可包括例如如上文所述的实例1的poc_msb_reset_flag或如上文所述的实例2的poc_reset_flag。当语法元素具有指示POC值将复位的值时,视频解码器30可接着使POC值的至少所述部分复位。举例来说,视频解码器30可将POC值的至少所述部分的位(例如,poc_msb_reset_flag的最高有效位或poc_reset_flag的所有位)设定为等于零。
此外,视频解码器30也可调整参考图片存储器82中的其它图片(即,在同一视频译码层和同一经译码视频序列中的那些图片)的POC值。举例来说,视频解码器30可使其它图片的POC值递减,使得所述POC值与为其用信号通知复位的POC值之间的差保持与复位之前相同。因此,如果参考图片存储器82中的图片具有相对于当前图片的POC值N的POC值差,那么视频解码器30可使参考图片存储器82中的图片的POC值复位,使得POC值等于当前图片的经复位POC值减N。
一般来说,经帧间预测的视频块可包含识别参考块的语法元素,不管帧间预测是时间还是层间(例如,视图间)。根据本发明的技术,经帧间预测的块的语法元素可在复位之后使用参考图片的POC值来识别参考图片,如上文所论述。因此,当用信号通知作为用于帧间预测的目的的运动信息时,视频解码器30无需调整识别参考图片的POC值。
逆量化处理单元76对位流中所提供且由熵解码单元70解码的经量化的变换系数进行逆量化,即去量化。逆量化过程可包含对视频切片中的每一视频块使用视频编码器20所计算的量化参数,以确定量化程度,且同样地,确定应应用的逆量化的程度。逆变换处理单元78将逆变换,例如,逆DCT、逆整数变换或概念上类似的逆变换过程应用于变换系数,以便产生像素域中的残余块。
在运动补偿单元72基于运动向量和其它语法元素产生当前视频块的预测块之后,视频解码器30通过将来自逆变换处理单元78的残余块与运动补偿单元72所产生的对应预测块求和来形成经解码的视频块。求和器80表示执行此求和运算的组件。如果需要,那么也可应用去块滤波器来对经解码的块进行滤波,以便去除成块假影。还可使用其它环路滤波器(在译码循环中,或在译码循环之后)来平滑像素过渡,或以其它方式改进视频品质。接着将给定帧或图片中的经解码的视频块存储在参考图片存储器82中,参考图片存储器82存储用于后续运动补偿的参考图片。参考图片存储器82还将用于以后呈现的经解码视频存储在显示装置上,例如图1的显示装置32上。
在一些实例中,本发明中所描述的技术的一个或一个以上方面可由中间网络装置执行,所述中间网络装置例如为媒体意识网络元件(MANE)、流适应处理器、拼接处理器或编辑处理器。举例来说,此中间装置可经配置以产生如本发明中所描述的多种信令中的任何一种。举例来说,此中间装置可经配置以接收第一语法元素,其指定当前图片的图片次序计数(POC)值是否复位到等于当前图片的POC值的一组最低有效位(LSB),当第一语法元素指定当前图片的POC值复位到等于当前图片的POC值的所述组LSB时,使与当前图片相同的译码层中的其它图片的POC值递减,使得当前图片的POC值与同一层中的图片中的任一者的POC值之间的差保持与当前图片的POC值复位之前相同,且使用递减的POC值来解码当前图片和其它图片中的至少一些。
在另一实例中,此中间装置可经配置以接收第一语法元素,其指定当前图片的图片次序计数(POC)值是否复位到等于零,当第一语法元素指定当前图片的POC值复位到等于零时,如果当前图片位于大于层0的层中,那么使当前图片复位到等于零,且使用复位的POC值来解码当前图片。
以此方式,视频解码器30表示视频译码器的实例,所述视频译码器经配置以:译码指示图片的图片次序计数(POC)值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。
图4是说明经译码视频图片100到132的序列的概念图。不同地为所述图片加阴影,以指示分层预测结构内的位置。举例来说,为图片100、116和132加黑色阴影,来表示图片100、116、132位于分层预测结构的顶部。图片100、116、132可包括例如从单个方向上的其它图片(例如,P图片)预测的经帧内译码图片或经帧间译码图片。当经帧内译码时,单独从同一图片内的数据预测图片100、116、132。当经帧间译码时,可相对于图片100的数据来译码图片116,如由从图片116到图片100的虚线箭头所指示。图片116、132分别形成图片群组(GOP)134、136的关键图片。
对图片108、124加暗阴影,以指示其在编码层级中紧接图片100、116和132之后。图片108、124可包括经双向模式间预测编码的图片。举例来说,可从图片100和116的数据预测图片108,而可从图片116和132预测图片124。对图片104、112、120和128加淡阴影,以指示其在编码层级中紧接图片108和124之后。图片104、112、120和128也可包括经双向模式间预测编码的图片。举例来说,可从图片100和108预测图片104,可从图片108和116预测图片112,可从图片116和124预测图片120,且可从图片124和132预测图片128。
最后,对图片102、106、110、114、118、122、126和130加白色阴影,以指示这些图片在编码层级的最后。图片102、106、110、114、118、122、126和130可为经双向模式间预测编码的图片。可从图片100和104预测图片102,可从图片104和108预测图片106,可从图片108和112预测图片110,可从图片112和116预测图片114,可从图片116和120预测图片118,可从图片120和124预测图片122,可从图片124和128预测图片126,且可从图片128和132预测图片130。
以显示次序说明图片100到132。就是说,在解码之后,图片100在图片102之前显示,图片102在图片104之前显示,以此类推。然而,归因于编码层级,可以不同次序解码图片100到132。此外,在经编码之后,图片100到132可在包含图片100到132的经编码数据的位流中以解码次序排列。举例来说,图片116可在GOP134的图片之中在最后显示。然而,归因于编码层级,图片116可为GOP134中首先解码的。就是说,为了适当地解码图片108,例如可需要首先解码图片116,以便充当图片108的参考图片。同样地,图片108可充当图片104、106、110和112的参考图片,且因此可需要在图片104、106、110和112之前解码。
显示图片的时间可称为呈现时间,而解码所述图片的时间可称为解码时间。解码时间和呈现时间通常提供相对于同一序列的其它图片的时间排序的指示。图片的解码时间与图片的呈现时间之间的差可称为图片的图片重排序延迟。
根据本发明的技术,当图片中的一者为包含在也包含(不同视频译码层的)IRAP图片的存取单元中的非IRAP图片时,视频译码器(例如,视频编码器20和/或视频解码器30)可调整视频译码层中的图片的POC值。举例来说,假设图片132为P图片,且与另一视频译码层的作为IRAP图片的图片搭配(即,与所述图片包含在同一存取单元中)。在此实例中,图片132将为包含在与IRAP图片相同的存取单元中的非IRAP图片(因为其经帧间译码)。
因此,继续上文所陈述的实例,视频译码器将译码指示图片132的POC值将复位的语法元素的值。就是说,语法元素将指示图片132的POC值的至少一部分将复位(到值零)。因此,视频译码器可调整图片132的POC值。举例来说,根据上文所论述的其中语法元素为poc_msb_reset_flag的实例1,视频译码器将把图片132的POC值的最高有效位(MSB)设定为等于零。作为另一实例,根据上文所论述的其中语法元素为poc_reset_flag的实例2,视频译码器将把图片132的整个POC值设定为等于零。
视频译码器也可调整其它图片的POC值。举例来说,假定图片100和116先前经译码,视频译码器可基于图片132的经复位POC值来调整图片100和116的POC值。在图4的实例中,图片132的POC值比图片116的POC值大八,且比图片100的POC值大十六。在实例2中,在整个POC值复位的情况下,视频译码器可将图片100的POC值调整为等于-16(负十六),且将图片116的POC值调整为等于-8(负八)。以此方式,图片132以及图片100和116的POC值之间的差在POC值复位之后,相对于POC值复位之前保持恒定。
上文阐述基于当译码图片132时这些图片将已经存在于经解码图片缓冲器(DPB)中的假定来修改图片100和116的POC值的实例。在一些情况下,图片102到114也可存在于DPB中,在此情况下,视频译码器可同样地调整图片102到114的POC值。然而,因为图片118到130可取决于图片132,所以当图片132将复位时,预期图片118到130将不存在于DPB中。就是说,图片118到130具有比图片132的解码次序晚的解码次序。因此,视频译码器无需调整图片118到130的POC值。在一些实例中,图片102到114也可具有比图片132的解码次序晚的解码次序。
图5是说明根据本发明的技术的编码视频数据的实例方法的流程图。将视频编码器20描述为执行图5的方法。然而,将理解,其它译码装置可经配置以执行此方法或类似方法。此外,所述方法的步骤可以不同次序或并行执行,且可添加或省略某些步骤。
在图5的实例中,视频编码器20最初编码第一视频译码层的图片(150)。如上文所论述,所述层可对应于可缩放视频译码层或用于多视图视频译码的视图。术语“第一”在此上下文中的使用既定是名称而不是序数;在一些实例中,在相对于图5所论述的第一层之前,视频编码器20可能已编码了一个或一个以上额外视频译码层。编码第一视频译码层的图片通常涉及将第一层的某些图片编码为帧内随机存取点(IRAP)图片,且将其它图片编码为非IRAP图片,例如,经帧间预测的图片(不管是时间还是层间)。
视频编码器20可接着确定与第一视频译码层的IRAP图片搭配的第二视频译码层的图片(152)。然而,视频编码器20可确定将第二视频译码层的此图片编码为非IRAP图片(154)。举例来说,视频编码器20可确定使用时间帧间预测和/或层间(例如,视图间)预测来编码所述图片。
由于所述图片为非IRAP图片,但与IRAP图片搭配(例如,包含在与IRAP图片相同的存取单元中),因此视频编码器20可编码指示所述图片的POC值的至少一部分将复位的语法元素的值(156)。举例来说,所述语法元素可包括上文所论述的实例1的poc_msb_reset_flag,或上文所论述的实例2的poc_reset_flag。此外,视频编码器20可调整所述图片以及在同一层中且在同一经译码视频序列中的先前经编码图片的POC值(158)。明确地说,视频编码器20可调整其它图片的POC值,使得其它图片和当前图片的POC值之间的差在使当前图片的POC值复位之后保持与复位之前相同。
视频编码器20可进一步编码所述图片(160)。就是说,对于所述图片的每一块,视频编码器20可确定是对所述块进行帧内预测还是帧间预测(使用时间或层间预测)。视频编码器20可接着解码所述图片(162),并将经解码的图片存储在经解码图片缓冲器(DPB),例如参考图片存储器64中。视频编码器20可接着相对于经解码图片来编码后续图片(例如,同一层中具有稍后译码次序的图片,或不同层的同一存取单元中的图片)的一部分(166)。为了识别经解码的图片,视频编码器20可将经解码的图片的经复位POC值编码为后续图片的块的运动信息(168)。
以此方式,图5的方法表示一种方法的实例,所述方法包含:响应于确定使POC值的至少一部分复位,确定是否使图片的图片次序计数(POC)值的至少所述部分复位到值零;使所述POC值的至少所述部分复位,使得第一POC值的所述部分等于零,且编码指示POC值的至少所述部分将复位到值零的语法元素的值;以及使用所述复位的POC值来编码视频数据。
图6是说明根据本发明的技术的解码视频数据的实例方法的流程图。将视频解码器30描述为执行图6的方法。然而,应理解,其它译码装置可经配置以执行此方法或类似方法。此外,所述方法的步骤可以不同次序或并行执行,且可添加或省略某些步骤。
在图6的实例中,视频解码器30最初解码第一视频译码层的图片(180)。如上文所论述,所述层可对应于可缩放视频译码层或用于多视图视频译码的视图。术语“第一”在此上下文中的使用既定是名称而不是序数;在一些实例中,在相对于图6所论述的第一层之前,视频解码器30可能已经解码了一个或一个以上额外视频译码层。解码第一视频译码层的图片通常涉及将第一层的某些图片解码为帧内随机存取点(IRAP)图片,且将其它图片编码为非IRAP图片,例如,经帧间预测的图片(不管是时间还是层间)。
视频解码器30可接着解码与第一视频译码层的IRAP图片搭配(即,在同一存取单元中)的第二视频译码层的图片的语法元素,其指示所述图片的POC值的至少一部分将复位(182)。举例来说,所述语法元素可包括上文所论述的实例1的poc_msb_reset_flag,或上文所论述的实例2的poc_reset_flag。基于此语法元素的值,视频解码器30可调整所述图片以及同一层中且同一经译码视频序列中的先前经解码图片的POC值(184)。明确地说,视频解码器30可调整其它图片的POC值,使得其它图片和当前图片的POC值之间的差在使当前图片的POC值复位之后保持与复位之前相同。
视频解码器30也可解码所述图片(186),且将经解码的图片存储在经解码图片缓冲器(DPB),例如,参考图片存储器82中(188)。解码所述图片可包含使用帧内预测、时间帧间预测和/或层间预测来解码所述图片的块。当执行层间预测时,视频解码器30可解码另一层中的参考图片(例如,第一层中的IRAP图片)的POC值,其等于当前图片的经复位POC值。当执行时间帧间预测时,视频解码器30可解码DPB中的参考图片的POC值,其中经解码的POC值可对应于DPB中的先前经解码图片中的一者的经调整的POC值中的一者。
此外,视频解码器30可使用经解码的图片作为将后续解码的图片的参考图片。就是说,视频解码器30可将经解码图片的经复位POC值解码为后续图片的块的运动信息(例如,运动参数)(190)。所述后续图片可为第二层中的后续图片或不同层的图片(例如,与经解码图片相同的存取单元中的图片)。在任一情况下,所述经解码的运动信息可包含对经解码图片的POC值的参考,其对应于经解码的图片的经复位POC值(即,不是在复位之前的图片的POC值)。基于作为后续图片的块的运动信息的此经解码的POC值,视频解码器30可相对于经解码的图片来解码后续图片的块(192)。
以此方式,图6的方法表示一种方法的实例,所述方法包含:确定语法元素的值是否指示图片的图片次序计数(POC)值的至少一部分将复位到值零;当所述语法元素的所述值指示所述POC值的所述部分将复位到值零时,使POC值的至少所述部分复位,使得所述POC值的所述部分等于零;以及使用复位的POC值来解码视频数据。
在一个或一个以上实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么所述功能可存储在计算机可读媒体上或作为一个或一个以上指令或代码经由计算机可读媒体传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体,或通信媒体,其包含例如,根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取已检索指令、代码和/或数据结构来实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置、或其它磁性存储装置、快闪存储器,或可用来以指令或数据结构的形式存储所要的程序代码且可由计算机存取的任何其它媒体。并且,任何连接均可适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术,从网站、服务器或其它远程来源发射指令,那么所述同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时媒体,而是针对非暂时性的有形存储媒体。磁盘和光盘,如本文所使用,包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘以及蓝光光盘,,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。
指令可由一个或一个以上处理器执行,例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程大门阵列(FPGA),或其它等效集成或离散逻辑电路。因此,术语“处理器”在本文中使用时,可指代适合实施本文所描述的技术的前述结构或任何其它结构中的任一者。另外,在一些方面中,本文所述的功能性可在经配置以用于编码和解码,或并入到组合式编解码器中的专用硬件和/或软件模块内提供。并且,所述技术可完全在一个或一个以上电路或逻辑元件中实施。
本发明的技术可在各种各样的装置或设备中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元来强调经配置以执行所揭示技术的装置的功能方面,但不一定要求通过不同硬件单元来实现。相反,如上文所描述,各种单元可在编解码器硬件单元中组合,或由相互操作的硬件单元的集合(包括如上文所述的一个或一个以上处理器)结合合适的软件和/或固件提供。
已描述了各种实例。这些和其它实例在所附权利要求的范围内。

Claims (43)

1.一种解码视频数据的方法,所述方法包括:
确定语法元素的值是否指示图片的图片次序计数POC值的至少一部分将复位到值零;
当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;以及
使用所述复位的POC值来解码视频数据。
2.根据权利要求1所述的方法,其中所述语法元素的所述值指示所述POC值的包含所述部分的所有位是否将复位到所述值零,所述方法进一步包括:当所述语法元素的所述值指示所述POC值的所有位均将复位到所述值零时,使所述POC值复位,使得所述POC值的所有位均等于零。
3.根据权利要求1所述的方法,其中所述图片包括第一图片,所述方法进一步包括接收包含第一视频译码层中的所述第一图片和第二视频译码层中的第二图片的存取单元,其中所述第二视频译码层不同于所述第一视频译码层,且其中,在使所述POC值复位之前,所述第一图片的所述POC值不同于所述第二图片的第二POC值。
4.根据权利要求3所述的方法,其中使所述第一图片的所述POC值复位包括使所述第一图片的所述POC值复位,使得在所述复位之后,所述第一图片的所述POC值等于所述第二图片的所述POC值。
5.根据权利要求3所述的方法,其中所述第二图片包括具有等于1的NoRaslOutputFlag语法元素的帧内随机存取点IRAP图片,且所述第一图片包括非IRAP图片。
6.根据权利要求5所述的方法,其中所述IRAP图片包括瞬时解码器刷新IDR图片、清洁随机存取CRA图片或断链存取BLA图片中的一者。
7.根据权利要求3所述的方法,其中所述存取单元进一步包含不同于所述第一视频译码层和所述第二视频译码层的第三视频译码层中的第三图片,且其中使用所述复位的POC值来解码视频数据包括:当所述第三图片的块包含对所述复位的POC值的参考时,相对于所述第一图片,使用层间预测来解码所述块。
8.根据权利要求1所述的方法,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,所述方法进一步包括,当所述语法元素指示所述第一POC值的所述部分将复位到所述值零时:
确定第二图片的第二POC值,其中所述第一图片和所述第二图片位于共同视频译码层和共同经译码视频序列中;
确定所述第一POC值与所述第二POC值之间的第一差;以及
使所述第二POC值递减,使得所述递减的第二POC值与所述复位的第一POC值之间的第二差等于所述第一差。
9.根据权利要求1所述的方法,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,所述方法进一步包括,当所述语法元素指示所述第一POC值的所述部分将复位到所述值零时:
确定与所述图片共同的视频译码层中的多个其它图片的POC值;
确定所述第一POC值与所述其它图片的所述POC值之间的差;以及
使所述其它图片的所述POC值递减,使得所述递减的POC值与所述复位的第一POC值之间的相应差等于所述第一POC值与所述其它图片的所述POC值之间的所述相应的所确定的差。
10.根据权利要求9所述的方法,其中参考图片集合的数据指示所述其它图片是短期参考图片还是长期参考图片,且其中使所述POC值递减包括:
使所述短期参考图片的所述POC值递减;以及
使所述长期参考图片的所述POC值递减。
11.根据权利要求1所述的方法,其中所述语法元素包括POC复位旗标。
12.根据权利要求1所述的方法,其进一步包括解码包含所述语法元素的切片标头。
13.根据权利要求1所述的方法,其中所述部分包括所述POC值的最高有效位MSB。
14.一种编码视频数据的方法,所述方法包括:
确定是否使图片的图片次序计数POC值的至少一部分复位到值零;
响应于确定使所述POC值的至少所述部分复位,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零,且编码指示所述POC值的至少所述部分将复位到所述值零的语法元素的值;以及
使用所述复位的POC值来编码视频数据。
15.根据权利要求14所述的方法,其中所述语法元素的所述值指示所述POC值的包含所述部分的所有位是否将复位到所述值零,所述方法进一步包括:当所述语法元素的所述值指示所述POC值的所有位均将复位到所述值零时,使所述POC值复位,使得所述POC值的所有位均等于零。
16.根据权利要求14所述的方法,其中所述图片包括第一图片,所述方法进一步包括形成包含第一视频译码层中的所述第一图片和第二视频译码层中的第二图片的存取单元,其中所述第二视频译码层不同于所述第一视频译码层,且其中,在使所述POC值复位之前,所述第一图片的所述POC值不同于所述第二图片的第二POC值。
17.根据权利要求16所述的方法,其中确定是否复位包括当所述第二图片包括具有等于1的NoRaslOutputFlag语法元素的帧内随机存取点IRAP图片时且当所述第一图片包括非IRAP图片时,确定使所述POC值复位。
18.根据权利要求16所述的方法,其中形成所述存取单元进一步包括形成所述存取单元以包含不同于所述第一视频译码层和所述第二视频译码层的第三视频译码层中的第三图片,其中使用所述复位的POC值来编码视频数据包括:
相对于所述第一图片,使用层间预测来编码所述第三图片的块;以及
编码所述块的语法元素来参考所述复位的POC值。
19.根据权利要求14所述的方法,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,所述方法进一步包括,当所述语法元素指示所述第一POC值的所述部分将复位到所述值零时:
确定第二图片的第二POC值,其中所述第一图片和所述第二图片位于共同视频译码层和共同经译码视频序列中;
确定所述第一POC值与所述第二POC值之间的第一差;以及
使所述第二POC值递减,使得所述递减的第二POC值与所述复位的第一POC值之间的第二差等于所述第一差。
20.一种用于译码视频数据的装置,所述装置包括视频译码器,其经配置以:译码指示图片的图片次序计数POC值的至少一部分是否将复位到值零的语法元素的值;当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;且使用所述复位的POC值来译码视频数据。
21.根据权利要求20所述的装置,其中所述语法元素的所述值指示所述POC值的包含所述部分的所有位是否将复位到所述值零,且其中所述视频译码器进一步经配置以在所述语法元素的所述值指示所述POC值的所有位均将复位到所述值零时,使所述POC值复位,使得所述POC值的所有位均等于零。
22.根据权利要求20所述的装置,其中所述图片包括第一图片,且其中所述视频译码器经配置以译码包含第一视频译码层中的所述第一图片和第二视频译码层中的第二图片的存取单元,其中所述第二视频译码层不同于所述第一视频译码层,且其中,在使所述POC值复位之前,所述第一图片的所述POC值不同于所述第二图片的第二POC值。
23.根据权利要求22所述的装置,其中所述第二图片包括具有等于1的NoRaslOutputFlag语法元素的帧内随机存取点IRAP图片,且其中所述第一图片包括非IRAP图片,其包括瞬时解码器刷新IDR图片、清洁随机存取CRA图片或断链存取BLA图片中的一者。
24.根据权利要求22所述的装置,其中所述存取单元进一步包含不同于所述第一视频译码层和所述第二视频译码层的第三视频译码层中的第三图片,且其中为了使用所述复位POC值来译码视频数据,所述视频译码器经配置以在所述第三图片的块包含对所述复位的POC值的参考时,相对于所述第一图片,使用层间预测来译码所述块。
25.根据权利要求20所述的装置,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,且其中所述视频译码器经配置以:在所述语法元素指示所述第一POC值的所述部分将复位到所述值零时,确定第二图片的第二POC值,其中所述第一图片和所述第二图片在共同视频译码层和共同经译码视频序列中;确定所述第一POC值与所述第二POC值之间的第一差;且使所述第二POC值递减,使得所述递减的第二POC值与所述复位的第一POC值之间的第二差等于所述第一差。
26.根据权利要求20所述的装置,其中所述语法元素包括POC复位旗标。
27.根据权利要求20所述的装置,其中所述装置包括经配置以使用所述复位的POC值来解码视频数据的视频解码器。
28.根据权利要求20所述的装置,其中所述装置包括经配置以使用所述复位的POC值来编码视频数据的视频编码器。
29.根据权利要求20所述的装置,其中所述装置包括以下各项中的至少一者:
集成电路;
微处理器;以及
无线通信装置。
30.一种用于译码视频数据的装置,所述装置包括:
用于译码指示图片的图片次序计数POC值的至少一部分是否将复位到值零的语法元素的值的装置;
用于在所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位以使得所述POC值的所述部分等于零的装置;
用于使用所述复位的POC值来译码视频数据的装置。
31.根据权利要求30所述的装置,其中所述语法元素的所述值指示所述POC值的包含所述部分的所有位是否将复位到所述值零,其中所述用于复位的装置包括用于在所述语法元素的所述值指示所述POC值的所有位均将复位到所述值零时,使所述POC值复位以使得所述POC值的所有位均等于零的装置。
32.根据权利要求30所述的装置,其中所述图片包括第一图片,所述装置进一步包括用于译码包含第一视频译码层中的所述第一图片和第二视频译码层中的第二图片的存取单元的装置,其中所述第二视频译码层不同于所述第一视频译码层,且其中,在使所述POC值复位之前,所述第一图片的所述POC值不同于所述第二图片的第二POC值。
33.根据权利要求32所述的装置,其中所述第二图片包括具有等于1的NoRaslOutputFlag语法元素的帧内随机存取点IRAP图片,且其中所述第一图片包括非IRAP图片,其包括瞬时解码器刷新IDR图片、清洁随机存取CRA图片或断链存取BLA图片中的一者。
34.根据权利要求32所述的装置,其中所述存取单元进一步包含不同于所述第一视频译码层和所述第二视频译码层的第三视频译码层中的第三图片,且其中所述用于使用所述复位的POC值来译码视频数据的装置包括用于在所述第三图片的块包含对所述复位的POC值的参考时,相对于所述第一图片使用层间预测来译码所述块的装置。
35.根据权利要求30所述的装置,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,所述装置进一步包括:
用于在所述语法元素指示所述第一POC值的所述部分将复位到所述值零时,确定第二图片的第二POC值的装置,其中所述第一图片和所述第二图片位于共同视频译码层和共同经译码视频序列中;
用于确定所述第一POC值与所述第二POC值之间的第一差的装置;以及
用于使所述第二POC值递减,使得所述递减的第二POC值与所述复位的第一POC值之间的第二差等于所述第一差的装置。
36.根据权利要求30所述的装置,其中所述语法元素包括POC复位旗标。
37.一种上面存储有指令的计算机可读存储媒体,所述指令在被执行时,致使用于译码视频数据的装置的处理器:
译码指示图片的图片次序计数POC值的至少一部分是否将复位到值零的语法元素的值;
当所述语法元素的所述值指示所述POC值的所述部分将复位到所述值零时,使所述POC值的至少所述部分复位,使得所述POC值的所述部分等于零;以及
使用所述复位的POC值来译码视频数据。
38.根据权利要求37所述的计算机可读存储媒体,其中所述语法元素的所述值指示所述POC值的包含所述部分的所有位是否将复位到所述值零,所述计算机可读存储媒体进一步包括致使所述处理器进行以下动作的指令:当所述语法元素的所述值指示所述POC值的所有位均将复位到所述值零时,使所述POC值复位,使得所述POC值的所有位均等于零。
39.根据权利要求37所述的计算机可读存储媒体,其中所述图片包括第一图片,所述计算机可读存储媒体进一步包括致使所述处理器进行以下动作的指令:译码包含第一视频译码层中的所述第一图片和第二视频译码层中的第二图片的存取单元,其中所述第二视频译码不同于所述第一视频译码层,且其中,在使所述POC值复位之前,所述第一图片的所述POC值不同于所述第二图片的第二POC值。
40.根据权利要求39所述的计算机可读存储媒体,其中所述第二图片包括具有等于1的NoRaslOutputFlag语法元素的帧内随机存取点IRAP图片,且其中所述第一图片包括非IRAP图片,其包括瞬时解码器刷新IDR图片、清洁随机存取CRA图片或断链存取BLA图片中的一者。
41.根据权利要求39所述的计算机可读存储媒体,其中所述存取单元进一步包含不同于所述第一视频译码层和所述第二视频译码层的第三视频译码层中的第三图片,且其中致使所述处理器使用所述复位的POC值来译码视频数据的所述指令包括致使所述处理器进行以下动作的指令:当所述第三图片的块包含对所述复位的POC值的参考时,相对于所述第一图片,使用层间预测来译码所述块。
42.根据权利要求37所述的计算机可读存储媒体,其中所述图片包括第一图片,且其中所述POC值包括第一POC值,所述计算机可读存储媒体进一步包括致使所述处理器进行以下动作的指令:当所述语法元素指示所述第一POC值的所述部分将复位到所述值零时:
确定第二图片的第二POC值,其中所述第一图片和所述第二图片位于共同视频译码层和共同经译码视频序列中;
确定所述第一POC值与所述第二POC值之间的第一差;以及
使所述第二POC值递减,使得所述递减的第二POC值与所述复位的第一POC值之间的第二差等于所述第一差。
43.根据权利要求37所述的计算机可读存储媒体,其中所述语法元素包括POC复位旗标。
CN201480019393.9A 2013-04-08 2014-04-07 可包含未对准irap图片的多层位流的跨层poc对准 Active CN105122814B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361809855P 2013-04-08 2013-04-08
US61/809,855 2013-04-08
US201361846532P 2013-07-15 2013-07-15
US61/846,532 2013-07-15
US14/245,115 2014-04-04
US14/245,115 US9532052B2 (en) 2013-04-08 2014-04-04 Cross-layer POC alignment for multi-layer bitstreams that may include non-aligned IRAP pictures
PCT/US2014/033172 WO2014168872A1 (en) 2013-04-08 2014-04-07 Cross-layer poc alignment for multi-layer bitstreams that may include non-aligned irap pictures

Publications (2)

Publication Number Publication Date
CN105122814A true CN105122814A (zh) 2015-12-02
CN105122814B CN105122814B (zh) 2018-10-26

Family

ID=51654433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480019393.9A Active CN105122814B (zh) 2013-04-08 2014-04-07 可包含未对准irap图片的多层位流的跨层poc对准

Country Status (9)

Country Link
US (1) US9532052B2 (zh)
EP (1) EP2984844B1 (zh)
JP (1) JP6158422B2 (zh)
KR (1) KR101818831B1 (zh)
CN (1) CN105122814B (zh)
BR (1) BR112015025639B1 (zh)
ES (1) ES2773276T3 (zh)
HU (1) HUE047299T2 (zh)
WO (1) WO2014168872A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659599A (zh) * 2013-10-14 2016-06-08 瑞典爱立信有限公司 可缩放视频中的图序计数对齐

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SI4017006T1 (sl) 2011-09-22 2023-12-29 Lg Electronics, Inc. Postopek in naprava za signaliziranje informacij o sliki ter postopek za dekodiranje in naprava, ki le-tega uporablja
KR102290421B1 (ko) * 2013-04-05 2021-08-17 삼성전자주식회사 랜덤 엑세스를 위한 멀티 레이어 비디오 부호화 방법 및 그 장치, 랜덤 엑세스를 위한 멀티 레이어 비디오 복호화 방법 및 그 장치
US9525883B2 (en) * 2013-07-15 2016-12-20 Qualcomm Incorporated Cross-layer alignment of intra random access point pictures
KR20150043222A (ko) * 2013-10-12 2015-04-22 삼성전자주식회사 멀티 레이어 비디오 부호화 방법 및 그 장치, 멀티 레이어 비디오 복호화 방법 및 그 장치
US9900605B2 (en) 2013-10-14 2018-02-20 Qualcomm Incorporated Device and method for scalable coding of video information
US9628820B2 (en) 2013-11-19 2017-04-18 Qualcomm Incorporated POC value design for multi-layer video coding
US9674544B2 (en) 2013-11-25 2017-06-06 Qualcomm Incorporated POC value design for multi-layer video coding
US9942546B2 (en) 2013-12-12 2018-04-10 Qualcomm Incorporated POC value design for multi-layer video coding
CN104754347B (zh) * 2013-12-26 2019-05-17 中兴通讯股份有限公司 视频图像序号的编码、解码方法及装置、电子设备
CN104754358B (zh) * 2013-12-27 2019-02-19 中兴通讯股份有限公司 码流的生成和处理方法、装置及系统
KR102266902B1 (ko) * 2014-01-13 2021-06-18 삼성전자주식회사 멀티 레이어 비디오 부호화 방법 및 장치, 멀티 레이어 비디오 복호화 방법 및 장치
US9794595B2 (en) * 2014-03-18 2017-10-17 Qualcomm Incorporated Derivation of end of sequence NAL unit information for multi-layer bitstreams
CN112118454B (zh) * 2019-06-20 2023-02-24 腾讯美国有限责任公司 视频解码方法、设备和计算机可读存储介质
US11166038B2 (en) * 2019-06-20 2021-11-02 Tencent America LLC Method for support of scalability with adaptive picture resolution
WO2021061025A1 (en) * 2019-09-24 2021-04-01 Huawei Technologies Co., Ltd. An encoder, a decoder with picture order counter derivation
US11962936B2 (en) 2020-09-29 2024-04-16 Lemon Inc. Syntax for dependent random access point indication in video bitstreams

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048311A1 (en) * 2011-09-27 2013-04-04 Telefonaktiebolaget L M Ericsson (Publ) Decoders and methods thereof for managing pictures in video decoding process

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130037161A (ko) * 2011-10-05 2013-04-15 한국전자통신연구원 스케일러블 비디오 코딩을 위한 향상된 계층간 움직임 정보 예측 방법 및 그 장치
KR102094503B1 (ko) * 2012-04-15 2020-03-30 삼성전자주식회사 다계층 비디오 부호화 방법 및 장치, 다계층 비디오 복호화 방법 및 장치
US9807421B2 (en) * 2013-04-05 2017-10-31 Sharp Kabushiki Kaisha NAL unit type restrictions
US9591321B2 (en) * 2013-04-07 2017-03-07 Dolby International Ab Signaling change in output layer sets

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048311A1 (en) * 2011-09-27 2013-04-04 Telefonaktiebolaget L M Ericsson (Publ) Decoders and methods thereof for managing pictures in video decoding process

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GARY J. SULLIVAN 等: "CRA pictures with broken links", 《JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11, 9TH MEETING: GENEVA》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659599A (zh) * 2013-10-14 2016-06-08 瑞典爱立信有限公司 可缩放视频中的图序计数对齐
US10306245B2 (en) 2013-10-14 2019-05-28 Telefonaktiebolaget L M Ericsson (Publ) Picture order count alignment in scalable video
US10743006B2 (en) 2013-10-14 2020-08-11 Telefonaktiebolaget Lm Ericsson (Publ) Picture order count alignment in scalable video

Also Published As

Publication number Publication date
EP2984844A1 (en) 2016-02-17
BR112015025639A2 (pt) 2017-07-18
US9532052B2 (en) 2016-12-27
BR112015025639A8 (pt) 2020-06-23
BR112015025639B1 (pt) 2023-03-28
KR20150140732A (ko) 2015-12-16
HUE047299T2 (hu) 2020-04-28
US20140301439A1 (en) 2014-10-09
KR101818831B1 (ko) 2018-01-15
EP2984844B1 (en) 2019-11-13
JP2016518776A (ja) 2016-06-23
CN105122814B (zh) 2018-10-26
ES2773276T3 (es) 2020-07-10
JP6158422B2 (ja) 2017-07-05
WO2014168872A1 (en) 2014-10-16

Similar Documents

Publication Publication Date Title
CN105122814A (zh) 可包含未对准irap图片的多层位流的跨层poc对准
CN111557095B (zh) 用于处理视频数据的方法、设备和计算机可读存储媒体
US9736489B2 (en) Motion vector determination for video coding
JP6185143B2 (ja) スキップおよびダイレクトモード用の3dビデオコーディングにおける視差ベクトル導出
CN103299621B (zh) 用于视频译码中的一般化p/b帧的参考图片列表构造
CN105052156A (zh) Irap存取单元与位流切换及拼接
CN104412591A (zh) 用于差域帧内预测的帧内模式扩展
CN105409220A (zh) 用于视频译码的经解码图片缓冲器操作
CN104247430A (zh) 标记视频序列中具有断链图片的参考图片
CN105103560A (zh) 用于仅高级语法可缩放视频译码的层间参考图片限制
CN106797477A (zh) 用于帧内bc和帧间预测统一的amvp和合并候选者列表导出
CN105379288A (zh) 处理对视频译码的照明补偿
CN104756499A (zh) 用于视频译码的参考图片状态
CN104769949A (zh) 用于视差向量导出的图片的选择
CN105580364A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN105580365A (zh) Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计
CN105075259A (zh) 用于视频译码预测的存储器减少
EP3158747A1 (en) Single color palette mode in video coding
CN104685883A (zh) 用于3d视频的经视图间预测运动向量
CN104303502A (zh) 用于3d-hevc的视差向量建构方法
CN105052145A (zh) 剖析三维视频译码中的语法元素
CN103828374A (zh) 参考图片信令和经解码图片缓冲器管理
CN104335589A (zh) 用于视频译码的视图间预测的视差向量产生
CN103947210A (zh) 视频译码中借助高级经解码图片缓冲器(dpb)管理的随机存取
CN103430539A (zh) 经解码图片缓冲器管理

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant