CN111149361A - 具有在用于视频译码的随机存取配置中的未来参考帧的自适应图片群组结构 - Google Patents

具有在用于视频译码的随机存取配置中的未来参考帧的自适应图片群组结构 Download PDF

Info

Publication number
CN111149361A
CN111149361A CN201880061591.XA CN201880061591A CN111149361A CN 111149361 A CN111149361 A CN 111149361A CN 201880061591 A CN201880061591 A CN 201880061591A CN 111149361 A CN111149361 A CN 111149361A
Authority
CN
China
Prior art keywords
picture
future
encoding
pictures
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880061591.XA
Other languages
English (en)
Other versions
CN111149361B (zh
Inventor
李圣远
钱威俊
A·K·瑞玛苏布雷蒙尼安
M·Z·科班
陈建乐
陈义文
M·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111149361A publication Critical patent/CN111149361A/zh
Application granted granted Critical
Publication of CN111149361B publication Critical patent/CN111149361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于对视频数据进行编码的装置包含:存储器,其经配置以存储视频数据;以及视频编码器,其实施于电路中且经配置以:编码所述视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期IP中,所述IP包括多个图片群组GOP;以及在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。以此方式编码所述未来图片可在编码及解码复杂度增加最小的情况下改进编码性能。

Description

具有在用于视频译码的随机存取配置中的未来参考帧的自适 应图片群组结构
本申请案主张2017年9月26日申请的美国临时申请案第62/563,526号及2018年9月25日申请的美国申请案第16/141,714号的权益,所述申请案中的每一者的全部内容特此以引用的方式并入。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏主控台、蜂窝式或卫星无线电话(所谓的“智能电话”)、视频电传会议装置、视频流式传输装置及其类似者。数字视频装置实施视频译码技术,例如由ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4第10部分进阶视频译码(AVC)、高效率视频译码(HEVC)标准、ITU-T H.265/高效率视频译码(HEVC)定义的标准及这些标准的扩展(例如可调式视频译码(SVC)及多视图视频译码(MVC)扩展)中所描述的那些技术。视频装置可通过实施此类视频译码技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频图片或视频图片的一部分)可分割成视频块,视频块也可被称作译码树单元(CTU)、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测来编码图片的帧内译码(I)切片中的视频块。图片的帧间译码(P或B)切片中的视频块可使用关于同一图片中的相邻块中的参考样本的空间预测或关于其它参考图片中的参考样本的时间预测。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测产生用于待译码块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量及指示经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据编码。为了进一步压缩,可将残余数据从像素域变换到变换域,从而产生可接着进行量化的残余变换系数。可扫描最初布置成二维阵列的经量化变换系数以便产生变换系数的一维向量,且可应用熵译码以实现甚至更多压缩。
发明内容
大体来说,本发明描述与随机存取配置中的图片群组(GOP)结构及参考图片建构有关的技术,所述随机存取配置决定进阶视频编码解码器上下文中的译码(编码及/或解码)次序、参考图片列表及图片缓冲器需求,所述编码解码器例如即将到来的视频编码解码器的联合勘探模型(Joint Exploration Model;JEM)。更明确地说,本发明所提出的技术可通过采用更高效的译码次序及参考图片列表来改进层间预测的性能。
在一个实例中,一种编码视频数据的方法包含:编码视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于视频数据的帧内周期(IP)中,所述IP包括多个图片群组(GOP);以及在编码所述未来图片之后,使用所述未来图片作为参考图片来编码多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
在另一实例中,一种用于对视频数据进行编码的装置包含:存储器,其经配置以存储视频数据;以及视频编码器,其实施于电路中且经配置以:编码所述视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期(IP)中,所述IP包括多个图片群组(GOP);以及在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
在另一实例中,一种用于编码视频数据的装置包含:用于编码视频数据中具有第一显示次序位置的未来图片的装置,所述未来图片包含于视频数据的帧内周期(IP)中,所述IP包括多个图片群组(GOP);以及用于在编码所述未来图片之后,使用所述未来图片作为参考图片来编码多个GOP中的顺序第一GOP的图片的装置,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
在另一实例中,一种存储有指令的计算机可读存储媒体,所述指令在经执行时,致使用于编码视频数据的装置的处理器执行以下操作:编码视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期(IP)中,所述IP包括多个图片群组(GOP);以及在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目标及优点将从实施方式及图式以及权利要求书而显而易见。
附图说明
图1A及1B分别为示出封闭式及开放式图片群组(GOP)的帧间预测截止的概念图。
图2为示出可使用本发明的自适应图片群组(GOP)结构的技术的实例视频编码及解码系统的框图。
图3为示出可执行本发明的使用自适应图片群组(GOP)结构的技术的视频编码器的实例的框图。
图4为示出可执行本发明的使用自适应图片群组(GOP)结构的技术的视频解码器的实例的框图。
图5A及5B为示出其中每组帧内周期(IP)图片中的单一未来帧内预测帧(I帧)在第一GOP中按译码次序在前一I帧之后的第一图片之前经译码的实例的概念图。
图6A及6B为示出根据本发明技术的实例参考图片结构的概念图。
图7A及7B为示出根据本发明技术的实例的六十五个图片的实例译码的概念图。
图8及9为说明由对本发明技术的“DaylightRoad”测试序列的每一图片的亮度(Y)峰值信杂比(PSNR)及位元速率的分析产生的数据的曲线图。
图10为示出IP=64的GOP64的实例的概念图。
图11为示出根据本发明的技术编码视频数据的实例方法的流程图。
具体实施方式
视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也称作ISO/IECMPEG-4AVC),包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展。MVC的联合草案描述于“(用于通用视听服务的高级视频译码)Advanced video coding for genericaudiovisual services”,ITU-T H.264,2010年3月中,其可获自www.itu.int/rec/T-REC-H.264-201003-S/en。另外,新近开发的视频译码标准,即高效率视频译码(HEVC)是由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)开发的。HEVC的最新草案可从phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip获得。
本发明认识到,使用未来帧作为参考帧可在对现有视频编码解码器的改动最小的情况下增加译码效率。举例来说,通过在包含多个图片群组(GOP)的帧内周期(IP)开始时译码一或多个未来帧,可将所述未来帧用作IP的随后经译码图片的参考帧。以此方式对IP的图片进行译码可增加译码效率(例如,减小位流的大小),而不会增加视频译码过程的复杂度。
图1A及1B分别为示出封闭式及开放式图片群组(GOP)的帧间预测截止的概念图。通过使用帧内随机存取点(IRAP)图片,包含瞬时解码刷新(IDR)图片、清洁随机存取(CRA)图片及断链存取(BLA)图片,来实现HEVC中的随机存取。IDR图片遵循封闭式图片群组(GOP)结构,而CRA图片遵循开放式GOP结构。即,一般来说,封闭式GOP的图片不包含按解码次序在所述GOP之前的图片的帧间预测参考,而开放式GOP可包含按解码次序在所述GOP之前的图片的帧间预测参考。BLA图片通常由在CRA图片位置处拼接位流而产生。
图1A及1B示出封闭式GOP及开放式GOP结构中的不同IRAP图片。图1A及1B指示所展示的每一图片的输出次序及解码次序。明确地说,陈述了图片的POC值的显示及解码次序。即,从左到右参考图片的POC值展示图片的解码次序,其意谓解码次序列中的第二POC值左边的解码次序列中的第一POC值指示具有所述第一POC值的图片将在具有所述第二POC值的图片之前经解码。举例来说,具有图片次序计数(POC)值(其可被视为经指派以用于识别位流中的每一图片的唯一值)52的图片按输出次序在具有POC值51的图片后面。此意谓具有POC 51的图片将比具有POC值52的图片更早输出。同样地,具有POC值52的图片按解码次序在具有POC值50的图片前面,其意谓具有POC值52的图片将比具有POC值50的图片更早解码。
一般来说,视频译码器在译码(编码或解码)当前图片时可将比所述当前图片更早解码的图片用于帧间预测参考。对于随机存取,为了能够从IRAP图片开始解码过程,存在帧间预测截止,以使得截止点之后的图片不可根据按解码次序在帧间预测截止之前的任何预先经解码图片而经帧间预测。图1A示出帧间预测截止点4,而图1B示出帧间预测截止点8。图1A还示出前置图片2,而图1B示出前置图片6。
图1A说明封闭式GOP结构的实例,其包含实例帧间预测截止点4。帧间预测截止点4右侧(即帧间预测截止点4之后)的图片不可根据帧间预测截止点4左侧的图片经帧间预测。如图1A中所示,存在一组按解码次序在具有POC值60的IRAP图片后面但比所述具有POC值60的IRAP图片更早输出的图片(前置图片2)。由此,图1A中具有POC值57、58及59的图片被称为前置图片。在例如根据图1A的封闭式GOP结构中,与IRAP图片相关联的前置图片不可根据按解码及输出次序均在具有POC值60的IRAP前面的参考图片(即,帧间预测截止点4左边的图片,其在图1A中为具有POC值56或更小值的图片)经预测。然而,前置图片2可用作按解码及输出次序均在具有POC值60的IRAP图片后面的图片(即,具有POC值61或更大值的图片,其也被称为具有POC值60的IRAP图片的后置图片)的帧间预测参考。
图1B说明开放式GOP结构的实例,其包含位于具有POC值60的IRAP图片处的帧间预测截止点8。在具有POC值60的IRAP图片左侧以及按解码次序在具有POC值60的IRAP图片后面的图片(即,前置图片6)仍可参考具有POC 60的IRAP图片而经帧间预测。具有POC值60的IRAP图片右侧的图片也可参考具有POC值60的IRAP图片而经帧间预测,但不使用具有POC值60的IRAP图片(及帧间预测截止点8)左侧的图片作为帧间预测参考。由此,前置图片2、6描绘封闭式GOP与开放式GOP之间的差异。在开放式GOP实例中,前置图片可以指按解码次序比其相关联IRAP图片更早的图片(即,用作帧间预测参考),但封闭式GOP实例中不允许此情形。此差异使得前置图片在开放式GOP实例中比在封闭式GOP实例中更高效地经译码。在开放式GOP及封闭式GOP实例中,前置图片均不可用作后置图片(即,按解码及输出次序均在IRAP后面的图片)的帧间预测参考。
在用于下一代视频编码解码器的JEM 4.0常用测试条件(Common TestCondition;CTC)中,通过针对帧内周期(IP)(有时也称作帧内帧周期)处的图片采用CRA而默认启用开放式GOP结构。一般来说,帧内周期为包含多个图片群组(GOP)的图片集合,其中GOP中的每一者可具有共同大小,且帧内周期具有GOP大小的倍数。举例来说,GOP可具有16个图片的大小,且IP可为四个GOP的集合,使得所述IP具有64个图片。关于不同图片类型(例如IDR及CRA)的特征的其它细节论述于G.J.Sullivan,J.-R.Ohm,W.-J.Han,T.Wiegand,“Overview of the high efficiency video coding(HEVC)standard”,IEEETrans.Circuits Syst.Video Technol.,第22卷,第1648-1667页,2012年12月及ITU-TH.265(04/2013)中。
参考图片集合(RPS)为可用于帧间预测以按解码次序解码后续图片的预先经解码图片的集合。在RPS中,POC值用于识别每一图片。一旦图片经解码,所述图片即存储于经解码图片缓冲器(DPB)(例如计算机可读存储媒体的经解码图片缓冲器,例如存储器)中。DPB中的图片可用作用于解码未来图片的参考图片,及/或可经显示而不用作参考图片。如果DPB中的图片未经指定在RPS中,则所述图片经标记为不用于参考且可在显示之后从DPB删除。应注意,RPS及参考图片列表的HEVC规格不同。HEVC规定,参考图片列表含有待用作当前图片的帧间预测参考的特定数目个图片,而RPS描述应保存用于当前及未来图片的所有图片。关于RPS及参考图片列表的建构的其它细节论述于ITU-T H.265(04/2013)中。
根据HEVC,在使用两种可能译码模式中的一者的序列参数集(SPS)中指定RPS传信:显式译码模式或差分译码模式,所述序列参数集支持多达NRPS,max=64个RPS。如果RPS在整个序列内不改变,则切片标头中指定的索引iRPS=0,…,(NRPS-1)足以指示哪个RPS将应用于当前切片。然而,如果存在未包含于经由SPS传信的RPS中的额外RPS,则使用显式或差分译码模式用索引iRPS=NRPS在切片标头中传信所述额外RPS。图片中的每一切片标头应指代同一RPS,这是由于每个图片仅建构一次RPS。JEM 4.0软件使用与HEVC相同的传信方法,如上文所论述。
为了最大化随机存取配置中的译码效率,可使用经最佳化的量化参数(QP)值、RD最佳化中的λ、GOP大小及帧间预测参考结构。然而,本发明认识到,在实践中,在不增加编码器复杂度或存储器需求的情况下难以采用那些参数的最佳集合以获得译码效率的显著改进。
举例来说,如K.Andersson,P.Wennersten,R.
Figure BDA0002421230880000061
J.Samuelsson,J.
Figure BDA0002421230880000062
P.Hermansson,M.Pettersson,“Non-normative JEM encoder improvements”,JVET-B0039,2016年2月(下文简称“Andersson”)中所提出,QP值及λ的改变产生位元消耗与重建构质量之间的良好折衷,其在QP值与λ充分匹配时带来BD速率增益。而且,GOP大小的增加(例如在Andersson中从GOP 8增加到GOP 16)由于在编码器及解码器两者中需要一个额外图片缓冲器而增加译码性能。上文所提及的改变适用于JEM 4.0中的常用测试条件(CTC)。
可通过增加GOP大小(例如GOP 32或GOP 64)来实现进一步增益。然而,GOP大小的进一步增加可由于三个原因而受限。首先,相比于GOP 16,GOP 32或GOP 64可能分别需要编码器及解码器两者上的缓冲器大小增加1或2倍。此情形尤其在译码更高分辨率序列(例如4K或8K序列)时可引起障碍。其次,较大GOP大小限制了可应用帧内周期的数目,这是由于帧内周期应为GOP大小的倍数,如G.J.Sullivan,J.-R.Ohm,W.-J.Han,T.Wiegand,“Overviewof the high efficiency video coding(HEVC)standard”,IEEE Trans.CircuitsSyst.Video Technol.,第22卷,第1648-1667页,2012年12月中所规定。举例来说,如果GOP大小为64,则不可应用32或48的帧内周期。第三,具有较大GOP大小的固定GOP结构难以适应目标视频序列的各种特性。举例来说,如果GOP 64应用于具有较快运动的视频序列,则由于当前图片与参考图片之间的较大POC距离,其帧间预测的准确度相比于较小GOP大小(例如GOP 16)的帧间预测准确度可明显降低。
本发明描述可用于在对现有视频编码解码器(例如HEVC或进阶视频编解码器,例如JEM)的改动最小的情况下改进译码效率的技术。所提出的技术类似于例如GOP 8或GOP16的常规GOP结构,但不限制可应用帧内周期的数目,同时在图片缓冲器大小增加最小的情况下提供较大译码增益。另外,就本发明的技术来说,可在任何给定GOP大小的情况下实现自适应参考结构。为了在现有编码解码器(例如HEVC或JEM)上实施所提出的技术,例如可在无任何解码器改变的情况下使用常规RPS传信。在其它实例中,可使用新颖的传信方法来实施所提出的技术,从而实现更佳译码效率,但可能包含编码器及解码器两者上的改变。本发明的技术可产生在解码器处所接收的位流中的经译码图片的特定次序,即经译码位流中的POC值的次序。
图2为说明可使用本发明的自适应图片群组(GOP)结构的技术的实例视频编码及解码系统10的框图。如图2中所示,系统10包含源装置12,其提供稍后时间将由目的地装置14解码的经编码视频数据。明确地说,源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12及目的地装置14可包含广泛范围装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”手写板、电视、相机、显示装置、数字媒体播放器、视频游戏主控台、视频流式传输装置或其类似者。在一些情况下,源装置12及目的地装置14可能经装备以用于无线通信。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包含能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,计算机可读媒体16可包含使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。可根据通信标准(例如,无线通信协议)调制经编码视频数据,且将其发射到目的地装置14。通信媒体可包含任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络(例如,区域网、广域网或例如因特网的全球网络)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12到目的地装置14的通信的任何其它设备。
在一些实例中,可从输出接口22将经编码数据输出到存储装置。类似地,可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分散式或本地存取的数据存储媒体中的任一者,例如,硬盘机、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在再一实例中,存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)装置或本地磁盘机。目的地装置14可经由任何标准数据连接(包含因特网连接)来存取经编码视频数据。所述标准数据连接可包含无线信道(例如Wi-Fi连接)、有线连接(例如DSL、电缆调制解调器等)或适用于存取存储于文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的传输可为流式传输、下载传输或其组合。
本发明的技术不限于无线应用或设定。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如,空中电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(例如,经由HTTP动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射从而支持例如视频流、视频回放、视频广播及/或视频电话的应用。
在图2的实例中,源装置12包含视频源18、视频编码器20及输出接口22。目的地装置14包含输入接口28、视频解码器30及显示装置32。根据本发明,源装置12的视频编码器20可经配置以应用用于具有在随机存取配置中的未来参考帧的自适应GOP结构的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置12可从外部视频源18(例如,外部相机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包含集成式显示装置。
图2所示的系统10仅为一个实例。用于具有在随机存取配置中的未来参考帧的自适应GOP结构的技术可由任何数字视频编码及/或解码装置执行。所述技术还可由视频编码器/解码器(通常称为“编码解码器”)执行。此外,本发明的技术还可由视频预处理器执行。源装置12及目的地装置14仅为源装置12产生经译码视频数据以供发射到目的地装置14的这些译码装置的实例。在一些实例中,装置12、14可以实质上对称的方式操作,使得装置12、14中的每一者包含视频编码及解码组件。因此,系统10可支持视频装置12、14之间的单向或双向视频发射,例如用于视频流、视频回放、视频广播或视频电话。
源装置12的视频源18可包含视频俘获装置,例如视频相机、含有先前俘获的视频的视频存档及/或用以从视频内容提供者接收视频的视频馈送接口。作为另一替代,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、经存档视频及计算机产生的视频的组合。在一些状况下,如果视频源18为视频相机,则源装置12及目的地装置14可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明所描述的技术一般可适用于视频译码,且可适用于无线及/或有线应用。在每一情况下,俘获、预先俘获或计算机产生的视频可由视频编码器20编码。经编码视频信息可接着由输出接口22输出到计算机可读媒体16上。
计算机可读媒体16可包含暂时性媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、紧密光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可例如经由网络发射从源装置12接收经编码视频数据且将所述经编码视频数据提供到目的地装置14。类似地,例如光盘冲压设施的媒体生产设施的运算设备可从源装置12接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20定义的语法信息,其还由视频解码器30使用,其包含描述块及其它经译码单元的特性及/或处理的语法元素。显示装置32向用户显示经解码视频数据,且可包含多种显示装置中的任一者,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器,或另一类型的显示装置。
视频编码器20及视频解码器30可根据视频译码标准操作,例如,也被称作ITU-TH.265的高效率视频译码(HEVC)标准。替代地,视频编码器20及视频解码器30可根据其它专属或行业标准(例如ITU-T H.264标准,替代地被称作MPEG-4第10部分,进阶视频译码(AVC))或这些标准的扩展而操作。此外,视频编码器20及视频解码器30可根据JEM或多功能视频译码(VVC)操作。然而,本发明的技术不限于任何特定译码标准。视频译码标准的其它实例包含MPEG-2及ITU-T H.263。尽管图2中未示出,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当MUX-DEMUX单元或其它硬件及软件以处置共同数据流或单独数据流中的音频及视频两者的编码。如果适用,则MUX-DEMUX单元可遵照ITU H.223多工器协议或例如用户数据报协议(UDP)的其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分以软件实施时,装置可将用于软件的指令存储于适合的非暂时性计算机可读媒体中,且使用一或多个处理器在硬件中执行所述指令,以执行本发明的技术。视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(编码解码器)的部分。
在一些实例中,例如ITU-T H.265中,视频图片可划分成一连串译码树单元(CTU)(或最大译码单元(LCU)),所述译码树单元可包含明度及色度样本两者。替代地,CTU可包含单色数据(即,仅明度样本)。位流内的语法数据可定义CTU的大小,CTU就像素的数目来说为最大译码单元。切片包含按译码次序的数个连续CTU。视频图片可分割成一或多个切片。每一CTU可根据四分树而分裂成译码单元(CU)。大体来说,四分树数据结构每CU包含一个节点,其中根节点对应于CTU。如果将CU拆分成四个子CU,则对应于所述CU的节点包含四个叶节点,所述四个叶节点中的每一者对应于所述子CU中的一者。
四分树数据结构中的每一节点可提供对应CU的语法数据。举例来说,所述四分树中的节点可包含分裂旗标,从而指示是否将对应于所述节点的CU分裂成子CU。针对CU的语法元素可经递回地定义,且可取决于所述CU是否分裂成子CU。如果CU未经进一步分裂,则其被称作叶CU。在本发明中,尽管不存在原始叶CU的显式分裂,但叶CU的四个子CU也将被称作叶CU。举例来说,如果16×16大小的CU未进一步分裂,则尽管所述16×16CU从未分裂,但四个8×8子CU也将被称作叶CU。
除CU不具有大小区别外,CU具有与H.264标准的宏块类似的用途。举例来说,CTU可分裂成四个子节点(也被称作子CU),且每一子节点转而可为父节点且分裂成另外四个子节点。被称作四分树的叶节点的最终的未分裂子节点包含译码节点,所述译码节点也被称作叶CU。与经译码位流相关联的语法数据可定义可分裂CTU的最大次数(其被称作最大CU深度),且还可定义译码节点的最小大小。因此,位流还可定义最小译码单元(SCU)。本发明使用术语“块”指代HEVC上下文中的CU、预测单元(PU)或变换单元(TU)中的任一者,或其它标准上下文中的类似数据结构(例如,H.264/AVC中的宏块及其子块)。
CU包含译码节点及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且大体上为正方形形状。CU的大小范围可为8×8个像素达到最大大小为例如64×64像素或大于64×64像素的CTU的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU经跳过或直接模式编码、帧内预测模式编码或是帧间预测模式编码之间不同。PU可被分割成非正方形形状。与CU相关联的语法数据还可描述例如根据四分树将CU分割成一或多个TU。TU可为正方形或非正方形(例如,矩形)形状。
HEVC标准允许根据TU进行变换,所述变换对于不同CU可为不同的。TU通常基于针对经分割CTU界定的给定CU内的PU(或CU的分区)的大小而设定大小,尽管可能并非总是此状况。TU通常与PU(或CU的分区,例如在帧内预测的情况下)大小相同或小于PU。在一些实例中,可使用被称为“残余四分树”(RQT)的四分树结构而将对应于CU的残余样本再分为较小单元。可将RQT的叶节点称作变换单元(TU)。与TU相关联的像素差值可经变换以产生可经量化的变换系数。
叶CU在使用帧间预测经预测时可包含一或多个预测单元(PU)。大体来说,PU表示对应于所述对应CU的全部或一部分的空间区域,且可包含用于针对PU检索及/或产生参考样本的数据。此外,PU包含与预测有关的数据。当CU经帧间模式编码时,CU的一或多个PU可包含定义例如一或多个运动向量的运动信息的数据,或PU可经跳过模式译码。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0或列表1)。
叶CU还可经帧内模式预测。一般来说,帧内预测涉及使用帧内模式来预测叶CU(或其分区)。视频译码器可选择叶CU的一组相邻的先前译码像素以用以预测叶CU(或其分区)。
叶CU还可包含一或多个变换单元(TU)。如上文所论述,可使用RQT(也称作TU四分树结构)来指定变换单元。举例来说,分裂旗标可指示叶CU是否经分裂成四个变换单元。接着,可将每一TU进一步分裂为其它子TU。当TU未进一步分裂时,可将其称作叶TU。大体来说,对于帧内译码来说,属于叶CU的所有叶TU共享相同的帧内预测模式。即,一般应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于所述TU的部分与原始块之间的差。TU不必受限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,CU的分区或CU自身可与CU的对应叶TU并置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四分树数据结构(被称作残余四分树(RQT))相关联。即,叶CU可包含指示所述叶CU如何被分割成TU的四分树。TU四分树的根节点大体对应于叶CU,而CU四分树的根节点大体对应于CTU(或LCU)。将RQT的未被分裂的TU称作叶TU。一般来说,除非另有指示,否则本发明分别使用术语CU及TU来指叶CU及叶TU。
视频序列通常包含以随机存取点(RAP)图片开始的一系列视频帧或图片。视频序列可包含序列参数集(SPS)中的语法数据,所述序列参数集包含视频序列的特性。图片的每一切片可包含描述所述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块进行操作,以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
作为一实例,可针对各种大小的PU执行预测。假定特定CU的大小为2N×2N,则可对2N×2N或N×N的PU大小执行帧内预测,且可对2N×2N、2N×N、N×2N或N×N的对称PU大小执行帧间预测。还可针对2N×nU、2N×nD、nL×2N及nR×2N的PU大小执行帧间预测的不对称分割。在不对称分割中,CU的一个方向未分割,而另一方向分割成25%及75%。CU的对应于25%分割的部分由“n”其后接着“上(Up)”、“下(Down)”、“左(Left)”或“右(Right)”的指示来指示。因此,例如,“2N×nU”是指水平地以顶部的2N×0.5N PU及底部的2N×1.5N PU分割的2N×2N CU。
在本发明中,“N×N”及“N乘N”可互换使用,以指视频块就竖直及水平尺寸来说的像素尺寸,例如16×16像素或16乘16像素。一般来说,16×16块在竖直方向上将具有16个像素(y=16)且在水平方向上将具有16个像素(x=16)。同样地,N×N块通常在竖直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。可按列及行来排列块中的像素。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包含N×M个像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器20可计算CU的TU的残余数据。PU可包含描述在空间域(也称作像素域)中产生预测性像素数据的方法或模式的语法数据,且TU可包含在对残余视频数据应用变换(例如离散余弦变换(DCT)、整数变换、小波变换或在概念上类似的变换)之后变换域中的系数。所述残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含表示CU的残余数据的经量化变换系数的TU。即,视频编码器20可计算残余数据(以残余块的形式)、变换残余块以产生变换系数的块,且接着量化变换系数以形成经量化变换系数。视频编码器20可形成包含经量化变换系数的TU,以及其它语法信息(例如,TU的分裂信息)。
如上文所提及,在任何变换以产生变换系数后,视频编码器20可执行变换系数的量化。量化通常指变换系数经量化以可能减少用以表示系数的数据的量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或所有相关联的位元深度。举例来说,可在量化期间将n位元值降值舍位到m位元值,其中n大于m。
在量化之后,视频编码器可扫描变换系数,从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列前部,且将较低能量(且因此较高频率)系数置于阵列后部。在一些实例中,视频编码器20可利用预定义扫描次序来扫描经量化的变换系数以产生可经熵编码的串行化向量。在其它实例中,视频编码器20可执行自适应扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码方法来对一维向量进行熵编码。视频编码器20还可熵编码与经编码视频数据相关联的语法元素,以供由视频解码器30用于解码视频数据。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可能涉及(例如)符号的邻近值是否为非零。为执行CAVLC,视频编码器20可选择用于待发射的符号的可变长度码。可将VLC中的码字建构成使得相对较短码对应于更有可能的符号,而较长码对应于较不可能的符号。以此方式,相对于(例如)针对待发射的每一符号使用相等长度码字,使用VLC可实现位元节省。机率确定可基于经指派到符号的上下文而进行。
大体来说,视频解码器30执行尽管与由视频编码器20执行的过程互逆但与其实质上类似的过程,以解码经编码数据。举例来说,视频解码器30反量化且反变换所接收TU的系数以再生残余块。视频解码器30使用所传信的预测模式(帧内预测或帧间预测)以形成经预测块。接着视频解码器30(在逐像素基础上)使经预测块与残余块组合以再生原始块。可执行额外处理,例如执行解块过程以减少沿块边界的视觉假影。此外,视频解码器30可以尽管与视频编码器20的CABAC编码过程互逆但与其实质上类似的方式使用CABAC解码语法元素。
视频编码器20可进一步(例如)在图片标头、块标头、切片标头或其它语法数据(例如序列参数集(SPS)、图片参数集(PPS)或视频参数集(VPS))中将语法数据(例如基于块的语法数据、基于图片的语法数据及基于序列的语法数据)发送到视频解码器30。
就随机存取配置中的任何给定帧内周期(IP)及GOP大小来说,常规GOP结构针对序列内的每一GOP保持使用相同译码次序及参考图片。然而,根据本发明的技术,视频编码器20及/或视频解码器30可对比其它图片更早的两个相邻IRAP图片之间的帧内周期(IP)图片中的特定数目个未来(提前经译码)图片(例如在IP=64的情况下对64个图片)进行译码。未来(提前经译码)图片在显示次序上可超出给定GOP边界,但在显示次序上应在下一IRAP图片之前。且除了未来(提前经译码)图片以外,视频编码器20及/或视频解码器30按照每一GOP的固定次序译码其余图片。两个相邻IRAP图片之间的图片的经修改译码次序在整个序列中重复;NF个未来(提前经译码)图片相对于相邻IRAP图片的相对POC值在整个输入序列中不会改变。
视频编码器20及/或视频解码器30将提前经译码图片存储于包含图片缓冲器的存储器中,且可使用这些提前经译码图片作为按译码次序的后续图片的多个参考图片中的一者。存储提前经译码图片所需的缓冲器大小增加取决于提前经译码图片的数目及其POC值。视频编码器20及视频解码器30两者中的经修改译码次序可匹配,以避免任何错配。将未来(提前经译码)图片的数目表示为NF,其中NF可为0、1、…或IP。对于其余图片,可使用任何GOP大小,只要IP的值为GOP大小的倍数。
在一个实例中,视频编码器20及/或视频解码器30对每一IP图片(例如IP=64时64个图片)中的单一未来图片(例如,I帧)进行译码,之后再对第一GOP中按译码次序在前一I帧之后的第一图片进行译码。下文图5A及5B示出每组IP图片中的单一未来I帧在第一GOP中按译码次序在前一I帧之后的第一图片之前经译码的实例。
在一个实例中,视频编码器20及/或视频解码器30对表示未来(提前经译码)图片的可用性的数据进行译码。此数据可通过采用HEVC标准中所指定(如JEM中也采用)的显式或差分译码而使用常规RPS传信。首先,视频编码器20及/或视频解码器30可对指示包含未来(提前经译码)图片的给定GOP大小及其参考结构的SPS的数据进行译码。其次,在需要参考未来(提前经译码)图片更新δPOC值的图片中,视频编码器20及/或视频解码器30可使用显式或差分译码在切片标头中对表示经更新的RPS的数据进行译码。由此,此方法不需要HEVC或JEM解码器的任何改变。
在一个实例中,视频编码器20及视频解码器30可在SPS中仅使用常规RPS传信来对指示未来图片的可用性的数据进行译码,而不在切片标头中使用RPS传信。替代地,视频编码器20及视频解码器30可对相对于HEVC/JEM添加到SPS的两个条目的数据进行译码:指示是否启用所提出方案的旗标,及在所述旗标启用时的帧内周期。由于未来(提前经译码)图片始终为下一I帧,因此视频解码器30可基于图片的POC值及帧内周期值来检测当前图片是否为未来图片。接着,视频解码器30可视需要基于例如HEVC中所指定的RPS建构的固定规则来修改RPS。由此,此方法相对于HEVC可包含视频编码器20及视频解码器30两者的标准改变。
在一个实例中,视频编码器20及视频解码器30可对潜在未来经译码图片的列表的一组δPOC值进行译码,使得所述δPOC值关于第一参考图片经译码。视频编码器20及视频解码器30可在SPS或其它参数集(例如,视频参数集(VPS)、图片参数集(PPS)或调适参数集(APS))中对传信数据进行译码。代替第一参考图片,可使用按解码次序的前一IRAP图片、RPS中的IRAP图片或RPS中具有最小POC值的IRAP图片中的任一者。可替代地,视频编码器20及视频解码器30可对潜在未来经译码图片的列表的多组δPOC值进行译码,作为待选择的模板。
在一个实例中,视频编码器20及视频解码器30可对指示每一给定帧内周期的未来经译码图片的子集的数据进行译码。所述数据可指示如上文所论述的未来经译码图片的集合中未来经译码图片的数目NF;此数值将指示潜在经译码图片的列表中的第一NF个图片。所述数据可明确地指示在帧内周期中经译码的潜在未来经译码图片的集合。视频编码器20及/或视频解码器30接着可将一索引译码到集合列表中,所述索引指示SPS中的未来经译码图片的δPOC值/列表的子集中的一者的选择。
在一个实例中,视频编码器20及视频解码器30可对传信未来经译码图片的子集的位置的数据进行译码。此指示可包含在SPS中且应用于所有帧内周期。另外或可替代地,视频编码器20及/或视频解码器30可在切片层级对指示未来经译码图片的子集的数据进行译码。
在一个实例中,视频编码器20及视频解码器30可经配置以基于HEVC的现有RPS导出过程及位流中所指示的未来经译码图片的子集来导出当前图片的RPS。明确地说,视频编码器20及视频解码器30可经配置以基于适用于当前帧内周期的未来经译码图片的子集且在帧内周期中的未来经译码图片经解码时将一或多个未来经译码图片添加到RPS中,及/或跟踪何时在现有RPS导出过程中移除未来经译码图片。
另外或替代地,视频编码器20及视频解码器30可经配置以译码(分别编码或解码)每一帧内周期(IP)图片(例如IP=64时64个图片)中的单一未来帧(不一定为I帧),随后遵循任何给定GOP大小的固定次序译码其余图片。未来(提前经译码)图片相对于相邻IRAP图片的相对位置在整个序列中可为固定的。举例来说,对于IP=64,未来帧可为定位于两个连续I帧中间的图片,即POC 32+IP*i,其中i=0、1、2、…。由此,译码次序将为POC 0→POC 32→POC 16→POC 8→…→POC 24→…→POC 48→POC 40→…→POC 64→POC 56-…→POC63。经译码帧(例如POC 32)存储于包含视频编码器20或视频解码器30的缓冲器的存储器中,使得所述经译码帧可用作后续图片的多个潜在参考图片中的一者。
在一些实例中,视频解码器30不需要改变,其通过使用如上文所论述的常规RPS传信来支持此译码方案。即,视频编码器20可使用如HEVC及JEM中所指定的显式或差分译码将未来(提前经译码)图片的可用性传信到使用常规RPS传信的视频解码器30。
在一个实例中,可如下实现译码效率的进一步改进:通过将视频编码器20及视频解码器30配置成根据上文关于SPS中的常规RPS传信所描述但不使用切片标头中的RPS传信的技术来译码额外信息(例如,相对于给定帧内周期的δPOC)。在上文所描述的实例中,δPOC值为32。由于未来(提前经译码)图片相对于IRAP图片的相对位置不会改变,因此δPOC的一个单一值将足以使得视频解码器30能够检测哪个POC应被视为未来帧,且视频解码器30可基于RPS建构的固定规则而产生经修改RPS。
在一个实例中,视频编码器20及视频解码器30可译码每一IP图片(例如其中IP=64时“IP图片”为64个图片)中的多个帧,随后遵循任何给定GOP大小的固定次序译码其余图片。取决于应用的需求,未来(提前经译码)图片可包含或可不包含未来I帧。举例来说,在IP=64及GOP 16的情况下,可采用深度优先搜索(DFS)类译码次序。在四个未来(提前经译码)图片的情况下,译码次序可为POC 0→POC 64→POC 16→POC 32→POC 48→POC 8→…→POC 24→…→POC 40…→POC 56→…→POC 63。本文中,未来(提前经译码)图片相对于两个相邻IRAP图片的位置的相对位置在整个序列中为固定的。在以上实例中,四个未来帧具有POC值POC1=16+IP*i、POC2=32+IP*i、POC3=48+IP*i、POC4=64+IP*i,其中i=0、1、2、…。应注意,所需的缓冲器大小随着未来帧的数目增加而增加。
在一些实例中,视频解码器30不需要改变,其通过使用如上文所论述的常规RPS传信来支持此译码方案。即,视频编码器20可使用如HEVC及JEM中所指定的显式或差分译码将未来(提前经译码)图片的可用性传信到使用常规RPS传信的视频解码器30。可替代地,此传信数据可包含δPOC的多个元素,如上文所论述。
另外或可替代地,就任何给定GOP大小及帧内周期(IP)(例如GOP16及IP=64)来说,在随机存取配置中,视频编码器20及/或视频解码器30可采用单一或多个未来(提前经译码)图片的自适应选择。即,未来(提前经译码)图片的POC值在每一IP图片中不一定为固定的;在一些实例中,相对于相邻IRAP图片的相对POC值可改变。视频编码器20及视频解码器30在译码每一IP图片中的第一图片之前可确定未来图片的数目(NF)及其POC值。
(视频编码器20及/或用户或管理员)可通过针对输入视频序列的训练过程来确定未来(提前经译码)图片的数目及选择。另外或可替代地,(视频编码器20及/或用户或管理员)可使用输入视频序列的特性来确定未来(提前经译码)图片的数目及选择。可以常规方式(例如,根据HEVC)译码第一GOP或特定数目个GOP中的图片。在周期期间,视频编码器20可收集统计数据,以通过考虑运动向量的平均大小、帧内预测比率、跳过比率及/或类似特性而测量输入视频序列的动力学。输入视频译码得越困难,那些图片中预期需要更多具有更小POC距离的未来(提前经译码)图片。
对于将未来(提前经译码)图片的可用性传信到视频解码器30来说,可使用比上文所描述的技术更多的位元,这是由于相对于相邻IRAP图片的相对POC值可改变。在一些实例中,视频解码器30不需要改变,其通过使用如上文所论述的常规RPS传信来支持此译码方案。即,视频编码器20可使用如HEVC及JEM中所指定的显式或差分译码将未来(提前经译码)图片的可用性传信到使用常规RPS传信的视频解码器30。替代地,可传信两个旗标:在SPS中传信一个旗标,且在切片标头中传信另一旗标。SPS的条目可为指示是否启用所提出方案的旗标。一旦所述旗标启用,则视频编码器20及视频解码器30在切片标头中译码另一旗标,以指示当前图片是否为未来(提前经译码)图片。如果所述旗标不启用,则视频解码器30遵循RPS中已经由SPS传信的参考结构。如果切片标头中的旗标启用,则视频解码器30可基于RPS建构的固定规则相应地建构经修改RPS。
视频编码器20及视频解码器30各自可经实施为可适用的多种合适编码器或解码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器20及视频解码器30中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式编码器/解码器(编码解码器)的部分。包含视频编码器20及/或视频解码器30的装置可包含集成电路、微处理器及/或无线通信装置(例如蜂窝式电话)。
图3为说明实例视频编码器20的框图,所述视频编码器可实施用于执行本发明的使用自适应图片群组(GOP)结构的技术的技术。视频编码器20可执行视频切片内的视频块的帧内译码及帧间译码。帧内译码依赖于空间预测以减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的相邻帧或图片内的视频的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。帧间模式(例如,单向预测(P模式)或双向预测(B模式))可指代若干基于时间的译码模式中的任一者。
如图3中所示,视频编码器20接收待编码视频讯帧内的当前视频块。在图3的实例中,视频编码器20包含模式选择单元40、参考图片存储器64(其也可被称为经解码图片缓冲器(DPB))、求和器50、变换处理单元52、量化单元54及熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46及分割单元48。为了实现视频块重建构,视频编码器20还包含反量化单元58、反变换单元60及求和器62。还可包含解块滤波器(图3中未图示)以便对块边界进行滤波,以从经重建构视频中移除块效应假影。如果需要,解块滤波器将通常对求和器62的输出进行滤波。除了解块滤波器外,还可使用额外滤波器(环路中或环路后)。为简洁起见未示出这些滤波器,但如果需要,这些滤波器可对求和器50的输出进行滤波(作为环路中滤波器)。
在编码过程期间,视频编码器20接收待译码的视频帧或切片。可将所述帧或切片划分成多个视频块。运动估计单元42及运动补偿单元44执行所接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性编码以提供时间预测。帧内预测单元46可替代地执行所接收视频块相对于与待译码块在同一帧或切片中的一或多个邻近块的帧内预测性编码以提供空间预测。视频编码器20可执行多个译码遍次,(例如)以选择用于每一视频数据块的适当译码模式。
此外,分割单元48可基于对先前译码遍次中的先前分割方案的评估而将视频数据的块分割成子块。举例来说,分割单元48可初始地将帧或切片分割成CTU,且基于速率-失真分析(例如,速率-失真最佳化)来将所述CTU中的每一者分割成子CU。模式选择单元40可进一步产生指示将CTU分割为子CU的四分树数据结构。四分树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元40可(例如)基于误差结果而选择预测模式(帧内或帧间)中的一者,且将所得经预测块提供到求和器50以产生残余块数据,及提供到求和器62以重建构经编码块以用作参考帧。模式选择单元40还将语法元素(例如运动向量、帧内模式指示符、分区信息及其它此类语法信息)提供到熵编码单元56。
运动估计单元42及运动补偿单元44可高度集成,但出于概念目的而单独示出。由运动估计单元42执行的运动估计为产生运动向量的处理,所述运动向量估计视频块的运动。举例来说,运动向量可指示当前视频帧或图片内的视频块相对于参考帧(或其它经译码单元)内的预测性块的PU相对于所述当前帧(或其它经译码单元)内正经译码的当前块的位移。预测性块为就像素差来说被发现紧密地匹配待译码块的块,所述像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差异度量确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的次整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行关于全像素位置及分数像素位置的运动搜索且输出具有分数像素精确度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测性块的位置而计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56及运动补偿单元44。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量提取或产生预测性块。再次,在一些实例中,运动估计单元42与运动补偿单元44可在功能上集成。在接收当前视频块的PU的运动向量之后,运动补偿单元44可在参考图片列表中的一者中定位运动向量所指向的预测性块。求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值,如下文所论述。一般来说,运动估计单元42执行关于明度分量的运动估计,且运动补偿单元44将基于所述明度分量计算的运动向量用于色度分量与明度分量两者。模式选择单元40还可产生与视频块及视频切片相关联的语法元素以供视频解码器30在解码视频切片的视频块时使用。
如上文所描述,作为由运动估计单元42及运动补偿单元44执行的帧间预测的替代方案,帧内预测单元46可对当前块进行帧内预测。明确地说,帧内预测单元46可确定待用以编码当前块的帧内预测模式。在一些实例中,帧内预测单元46可(例如)在单独编码遍次期间使用各种帧内预测模式来编码当前块,且帧内预测单元46(或在一些实例中为模式选择单元40)可从所测试模式中选择适当帧内预测模式来使用。
举例来说,帧内预测单元46可使用对各种所测试帧内预测模式的速率-失真分析来计算速率-失真值,且可在所测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析大体上确定经编码块与原始未经编码块(其经编码以产生经编码块)之间的失真(或误差)量,以及用以产生经编码块的位元率(即,位元的数目)。帧内预测单元46可从各种经编码块的失真及速率计算比率以确定哪一帧内预测模式展现所述块的最佳速率-失真值。
在选择用于块的帧内预测模式后,帧内预测单元46可将指示用于块的所选帧内预测的信息提供到熵编码单元56。熵编码单元56可编码指示所选帧内预测模式的信息。视频编码器20可在所发射的位流中包含以下各者:配置数据,其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称作码字映射表);各种块的编码上下文的定义;及待用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示。
视频编码器20通过从正被译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将变换(例如离散余弦变换(DCT)或概念上类似的变换)应用于残余块,从而产生包含变换系数值的视频块。可使用小波变换、整数变换、子带变换、离散正弦变换(DST)或其它类型的变换代替DCT。在任何情况下,变换处理单元52将变换应用于残余块,从而产生变换系数块。变换可将残余信息从像素域转换到变换域,例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减少位元率。量化过程可减小与系数中的一些或所有相关联的位元深度。可通过调整量化参数来修改量化程度。
在量化之后,熵编码单元56熵译码经量化的变换系数。举例来说,熵编码单元56可执行上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵译码技术。在基于上下文的熵译码的状况下,上下文可基于邻近块。在由熵编码单元56进行熵译码之后,可将经编码位流发射到另一装置(例如视频解码器30),或加以存档以供稍后发射或检索。
反量化单元58及反变换单元60分别应用反量化及反变换以重建构像素域中的残余块。明确地说,求和器62将经重建残余块添加到由运动补偿单元44或帧内预测单元46产生的运动补偿预测块,以产生用于存储于参考图片存储器64中的经重建构的视频块。所述经重建构的视频块可由运动估计单元42及运动补偿单元44使用,作为参考块以对后续视频帧中的块进行帧间译码。
图4为说明实例视频解码器30的框图,所述视频解码器可执行本发明的使用自适应图片群组(GOP)结构的技术。在图4的实例中,视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、反量化单元76、反变换单元78、参考图片存储器82及求和器80。在一些实例中,视频解码器30可执行大体上互逆于关于视频编码器20(图3)所描述的编码遍次的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据,而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。
在解码过程期间,视频解码器30从视频编码器20接收表示经编码视频切片的视频块及相关联的语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元70将运动向量及其它语法元素转递到运动补偿单元72。视频解码器30可在视频切片层级及/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,帧内预测单元74可基于经传信帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即B或P)切片时,运动补偿单元72基于从熵解码单元70接收的运动向量及其它语法元素产生当前视频切片的视频块的预测性块。预测性块可从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储于参考图片存储器82中的参考图片使用默认建构技术建构参考图片列表--列表0及列表1。运动补偿单元72通过解析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息,且使用预测信息产生用于正解码的当前视频块的预测性块。举例来说,运动补偿单元72可使用所接收的语法元素以确定用于译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的一或多个参考图片列表的建构信息、切片的每一帧间编码视频块的运动向量、切片的每一帧间译码视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元72还可执行基于内插滤波器的内插。运动补偿单元72可使用如由视频编码器20在视频块的编码期间使用的内插滤波器,以计算参考块的子整数像素的内插值。在此情况下,运动补偿单元72可从所接收的语法元素确定由视频编码器20所使用的内插滤波器并使用所述内插滤波器以产生预测性块。
反量化单元76反量化(即,解量化)位流中所提供且由熵解码单元70解码的经量化变换系数。反量化过程可包含使用由视频解码器30针对视频切片中的每一视频块计算的量化参数QPY以确定应进行应用的量化程度及(同样地)反量化程度。
反变换单元78将反变换(例如,反DCT、反整数变换或在概念上类似的反变换过程)应用于变换系数,以便在像素域中产生残余块。
在运动补偿单元72基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器30通过对来自反变换单元78的残余块与由运动补偿单元72产生的对应预测性块求和而形成经解码视频块。求和器80表示执行此求和运算的所述或所述组件。如果需要,还可应用解块滤波器来对经解码块滤波以便移除块效应假影。还可使用其它环路滤波器(在译码环路内或在译码环路之后)使像素转变平滑,或以其它方式改进视频质量。接着将给定帧或图片中的经解码视频块存储于参考图片存储器82中,所述参考图片存储器存储用于后续运动补偿的参考图片。参考图片存储器82还存储经解码视频以供稍后在显示装置(例如图2的显示装置32)上呈现。
图5A为示出帧内周期(IP)=64内的图片群组(GOP)的实例集合的概念图。图5A的图片100到116包含相应POC值0、16、32、48、64、8、24、40及56。图5A中的箭头指示参考图片与目标图片之间的预测方向。明确地说,实线箭头表示从过去(更早显示的图片,即显示次序位置比目标图片的显示次序位置更早的参考图片)预测,且点线箭头表示从未来(稍后显示的图片,即显示次序位置比目标图片的显示次序位置更晚的参考图片)预测。应注意,为了易于说明,参考结构仅描绘某些所选择帧。
如图5A中所示出,对于帧内周期64及GOP 16来说,常规GOP16结构在非所提出方案的情况下按图片100、图片102、图片110、…图片104、图片112、…图片106、图片114、…图片108、图片116的次序译码,随后译码后续图片。即,就POC值来说图片译码次序为POC 0→POC16→POC 8→…→POC 32→POC 24→…→POC 48→POC 40→…→POC 64→POC 56→…→POC 63。由此,具有POC 64的图片108可仅用作最后15个图片的潜在参考图片,即具有POC56的图片116到具有POC 63的图片(未图示)。换句话说,按译码次序在具有POC 56的图片116前面的任一图片(例如,具有POC 16的图片102、具有POC 32的图片104、具有POC 48的图片106以及其类似者)不可使用POC 64作为参考图片。
图5B为说明在IP=64的情况下根据本发明的技术的实例译码方案的概念图。图5B的图片120到136包含相应POC值0、16、32、48、64、8、24、40及56。同样,图5B中的箭头指示参考图片与目标图片之间的预测方向。明确地说,实线箭头表示从过去(更早显示的图片,即显示次序位置比目标图片的显示次序位置更早的参考图片)预测,且点线箭头表示从未来(稍后显示的图片,即显示次序位置比目标图片的显示次序位置更晚的参考图片)预测。应注意,出于更佳观测的目的,参考结构仅描绘某些所选择帧。
在图5B中所描绘的本发明的实例所提出方案中,图片译码次序为图片120、图片128、…图片122、图片130、…图片124、图片132、…图片126、图片134、…图片136,且随后为后续图片。即,具有POC 64的图片128紧跟在具有POC 0的图片120后面经译码,且由此就POC值来说译码次序改变为POC 0→POC 64→POC 16→POC 8→…→POC 32→POC 24→…→POC48→POC 40→…→POC 56→…→POC 63。此情形使得更多图片能够使用POC 64作为潜在参考图片中的一者。与图5A中所示的实例对比,包含具有POC 16的图片122、具有POC 32的图片124、具有POC 48的图片126以及其类似者的额外15个图片可采用POC 64作为参考图片,其可使总体译码性能增加。
下文论述可在基于HM16.6的JEM4.0编码解码器中应用本发明所提出方案的方式的实例,所述编码解码器为评估下一代视频编码解码器的参考软件。由于所提出方案可应用于随机存取配置,因此省略例如帧内配置或低延迟配置的其它配置。而且,所述实例采用先前章节中所呈现的可能方法中的一种:采用下一I帧作为可用参考图片中的一者。下文关于图6A、6B、7A及7B的论述描述具有GOP大小16及如下译码次序的随机存取配置中的参考图片结构:其中帧内周期(IP)等于64,其中每第64个图片为I帧。下文关于图8及9的论述描述JEM 4.0软件上的模拟结果。应注意,本发明的技术不限于仅用于JEM4.0。这些技术可容易地应用于其它现有视频编码解码器,只要所述编码解码器支持随机存取配置,例如H.264或HEVC。
图6A及6B为示出根据本发明技术的实例参考图片结构的概念图。图6B表示图6A的延续,其中图6B在图6A的右侧跟随图6A。出于可读性,已将图片拆分成图6A及6B。图6A及6B的实例描绘具有GOP大小16的参考图片结构。图6A右侧及图6B左侧标记为“A”到“G”的箭头表示图6A与图6B之间的对应箭头,且指示潜在图片间预测。举例来说,标记为“A”的箭头指示POC 64可用于预测POC 16,标记为“B”的箭头指示POC 64可用于预测POC 32,等等。
对于帧内周期64来说,图6A及6B中的POC 0及POC 64为I帧,且其它图片为B帧。应注意,突出显示的图片用POC 64作为参考图片中的一者。在常规GOP16结构中,10个图片(POC 52与POC 63之间的突出显示POC,包含端值)可使用POC 64作为其参考图片中的一者,但本发明所提出的方案使得另外15个图片(总共25个图片)能够采用POC 64作为其参考图片中的一者。在I帧(图6A及6B中的POC 64)由于较低QP及高效帧内预测演算法而具有高重建构质量的情况下,图6A及6B中的POC 64与突出显示图片之间的帧间预测准确度增加而不消耗更多位元。此外,突出显示图片的较高重建构质量在整个给定参考结构中朝其它相邻图片传播,即,当POC 4在帧间预测中指向POC8时,POC 8的较高质量可增加POC 4的质量,其产生总体Bjontegaard-Delta(BD)速率增益。
图7A及7B为示出根据本发明技术的实例的六十五个图片的实例译码的概念图。图7B表示图7A的延续,其中图7B在图7A的右侧跟随图7A。出于可读性,已将图片拆分成图7A及7B。图7A及7B示出在本发明所提出的方案的实例中编码最初65个图片(包含POC 0到POC 64的图片)时的具体操作。更明确地说,图7A及7B描绘五种类别的信息:(1)译码次序;(2)时间层id(TID);(3)存储于图片缓冲器(DPB)中的图片;(4)来自过去的参考图片(L0参考图片);及(5)来自未来的参考图片(L1参考图片)。
相比于具有GOP 16的常规随机存取配置中的译码次序,除POC 64外,所提出方案具有相同次序。在常规配置中,GOP 64在POC 47之后经译码;所述次序将为POC 0→…→POC47→POC 64→POC 56→POC 52→…→POC 63。由此,POC 64将仅可用作POC 49到POC 63的最后15个图片的参考图片。然而,根据此实例中所提出的方案,POC 64紧跟在POC 0后面经译码。因此,在图7A及7B中,POC 64可用作多达全部63个图片(POC 1到POC 63)的参考图片中的一者。由于POC 64为因最小QP值及/或帧内预测技术而展现最高重建构质量的I帧,因此如图7A及7B中所突出显示采用POC 64作为参考图片中的一者可增加重建构质量,而不消耗更多位元。应注意,视频编码器20及视频解码器30两者将遵循相同译码次序。
图7A及7B示出缓冲器中应保持以译码后续图片的经译码图片。举例来说,当编码POC 8时,缓冲器应含有POC 0、POC 16及POC 64,这是由于所述三个图片用作POC8的参考图片中的一者且将用于后续图片。应注意,支持所提出参考图片结构所需的缓冲器的最大大小为6,所述缓冲器大小大于例如HEVC的具有GOP大小16的常规随机存取配置中的缓冲器大小。在此实例中,使用HEVC规格中的常规参考图片集(RPS)传信,且因此将不需要对符合HEVC或JEM的视频解码器作出任何改变。
下表1说明就BD速率来说本发明的技术相比于具有常用测试条件(CTC)的JEM 4.0的性能改进。在编码及解码复杂度增加最小的情况下,所提出方案相比于JEM 4.0实现5.27%的BD速率增益。由于在此实例中图片缓冲器大小增加一,因此编码器及解码器的存储器使用量分别增加约5%及6%。表1展示每一序列的结果的全部细节。应注意,省略了例如帧内配置及低延迟配置的其它配置的结果,因为所述结果不受所提出方案影响。
表1--模拟结果
Figure BDA0002421230880000241
图8及9为说明由对本发明技术的“DaylightRoad”测试序列的每一图片的亮度(Y)峰值信杂比(PSNR)及位元速率的分析产生的数据的曲线图。在这些曲线图中,使用QP37。图8示出常规GOP 16结构与所提出方案之间的每一图片(由POC值识别)的Y分量的PSNR趋势的分析,其中在大部分图片中,所提出方案的PSNR值更高。
图9展示所提出方案的位元消耗与常规GOP 16结构的位元消耗的比率;负值指示所提出方案比常规GOP 16消耗更少位元。就所提出方案来说,使用POC 64作为参考图片中的一者的主要图片(例如POC 32及POC48)相比于GOP 16明显消耗更少位元但保留较高质量,此情形产生更佳译码效率。
下表2展示总体位元节省及PSNR增加(对于QP37来说,-2.16%位元节省及0.12dBPSNR增加)。此产生6.55%BD速率增益,如下表3中所示。
表2--IP=64的DAYLIGHTROAD序列针对不同QP值的明度PSNR及位元速率的改变
序列名称 QP 速率(%) psnrY(dB)
S03_DaylightRoad 22 -0.69% 0.01
27 -2.00% 0.04
32 -2.31% 0.08
37 -2.16% 0.12
表3--JEM 4.0上每一序列的所提出方案的模拟结果
Figure BDA0002421230880000251
Figure BDA0002421230880000261
图10为示出IP=64的GOP 64的实例的概念图。明确地说,图10的GOP包含图片120到136,其分别具有POC值0、16、32、48、64、8、24、40及56。箭头指示参考图片与目标图片之间的预测方向:实线箭头表示从过去图片(更早显示的图片,即显示次序位置比目标图片的显示次序位置更早的参考图片)的预测,且点线箭头表示从未来图片(稍后显示的图片,即显示次序位置比目标图片的显示次序位置更晚的参考图片)的预测。应注意,出于更佳观测的目的,参考结构仅描绘所选择帧。下文在一定程度上参考图10论述本发明技术优于JEM 4.0的某些优势。
由于JEM 4.0的常规GOP 64也早于其它图片译码POC 64,如图10中所说明,因此其可能看起来类似于本发明所提出的技术。然而,本发明所提出的方案相比于JEM 4.0的GOP64配置具有三个潜在优势。
首先,本发明所提出的方案展现更佳译码效率。相比于具有常规GOP 64配置的JEM4.0,下表4指示本发明所提出的方案展现较高译码效率,而视频编码器及视频解码器(例如视频编码器20及视频解码器30)两者的复杂度降低。出于公平比较,在此比较中GOP64与本发明所提出的方案之间的QP值及λ相同。
其次,由于HEVC规格中帧内周期(IP)应为GOP大小的倍数的约束,GOP 64配置不可应用于IP=32、48或96的序列。此为表4中仅呈现序列的子集的一个原因。然而,由于所提出方案遵循常规GOP 16结构,因此除了首先编码未来帧且使用所述未来帧作为多个参考帧中的一者以译码帧内周期内(例如前一IRAP与未来IRAP之间)的图片外,所提出方案不受所述约束限制。
最后,存储JEM 4.0的GOP 64的经译码图片所需的存储器的量比本发明所提出方案所需的存储器的量大5%到6%。更明确地说,根据JEM 4.0,GOP 64需要在良好实施的编码器及解码器中存储多达7个经译码图片,但在本发明所提出的方案中,仅需要存储至多6个经译码图片。
表4--JEM 4.0上所提出方案与常规GOP64结构之间的性能比较;负数指示所提出方案相比于GOP 64展现BD速率增益
Figure BDA0002421230880000262
Figure BDA0002421230880000271
通过修改JEM 7.0及HM 16.16两者的参考软件来测试本发明所提出的方案。模拟结果展示出如上文所描述且如下表5及表6中所说明的类似译码增益。JEM 7.0可获自vceg.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-7.0/,且HM 16.16可获自hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/tags/HM-16.16。
表5--所提出方案在JEM 7.0上的模拟结果
Figure BDA0002421230880000272
表6--所提出方案在HM 16.16上的模拟结果
Figure BDA0002421230880000273
图11为示出根据本发明的技术编码视频数据的实例方法的流程图。关于图2及3的视频编码器20的实例阐述图11的方法,但应理解,在其它实例中,其它装置可经配置以执行此方法或类似方法。
首先,视频编码器20可确定帧内周期中将提前编码的未来图片的数目(150)。举例来说,视频编码器20可选择零个、一个或多于一个未来图片来提前编码。为了确定此数目,视频编码器20可对输入视频序列执行训练过程及/或确定输入视频序列的特性。所述特性可例如为平均运动向量大小、帧内预测比率及/或跳过比率。在一些实例中,视频编码器20可确定未来图片的数目及相对位置对于整个输入视频序列的每一帧内周期来说是相同的,使得多个帧内周期的提前经编码未来图片的数目及相对位置相同。
随后,视频编码器20可编码帧内周期的顺序第一图片(152)。即,视频编码器20可编码例如帧内周期的顺序第一图片群组(GOP)的顺序第一图片,其中所述帧内周期包含多个GOP,包含所述第一GOP。视频编码器20接着可编码帧内周期的所确定数目个未来图片(154)。举例来说,假定视频编码器20确定编码一个未来图片,视频编码器20可(就图5B来说)首先编码图片120,随后编码图片128。在此实例中,未来图片被视为显示次序位置在帧内周期的顺序第一GOP的每一图片之后的图片。
视频编码器20接着可更新参考图片集以将未来图片添加到参考图片集中(156)。举例来说,视频编码器20可将所确定未来图片中的每一者添加到帧内周期的一或多个随后经编码图片的参考图片集中。随后,视频编码器20可使用包含未来图片的相应经更新参考图片集来编码帧内周期的后续图片(158)。举例来说,视频编码器20可使用从参考图片集中的可用参考图片当中进行选择的参考图片列表建构过程,使得一或多个所建构参考图片列表包含一或多个未来图片。以此方式,编码帧内周期的后续图片可包含使用未来图片作为帧间预测参考图片来预测后续图片中的一者(例如,顺序第一GOP的图片或后续GOP的图片)的至少一部分。
视频编码器20可进一步编码表示GOP大小、IP大小、经启用未来图片译码及经更新参考图片集的方式的元数据(160)举例来说,视频编码器20可在例如视频参数集(VPS)、序列参数集(SPS)或图片参数集(PPS)的参数集及/或切片标头中编码任何或所有此元数据。元数据可例如使用未来图片的POC值与参考POC值(例如帧内周期的顺序第一图片的POC值)之间的差值来指示未来图片的位置。指示经启用未来图片译码的数据可为参数集(例如VPS或SPS)的旗标。
最后,视频编码器20可输出经编码数据(162),所述经编码数据包含经编码的顺序第一图片、经编码的未来图片、经编码的后续图片及经编码的元数据。
以此方式,图11的方法表示一种方法的实例,所述方法包含:编码视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于视频数据的帧内周期(IP)中,所述IP包含多个图片群组(GOP);以及在编码所述未来图片之后,使用所述未来图片作为参考图片来编码多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列被执行、可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非顺序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果实施于软件中,则所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体大体可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例说明而非限制,这些计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要代码且可通过计算机存取的任何其它媒体。而且,可将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术,从网站、服务器或其它远程源来发射指令,则同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为关于非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软碟及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文所述的功能可提供在用于编码及解码的专用硬件及/或软件模块中,或并入在编码解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种装置或设备中,包含无线手持机、集成电路(IC)或IC集合(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切地说,如上文所描述,可将各种单元组合于可在编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合而结合与适合的合适软件及/或固件一起组合或由互操作硬件单元的集合来提供所述单元,所述硬件单元包含如上文所描述的一或多个处理器。
已描述各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (45)

1.一种编码视频数据的方法,所述方法包括:
编码视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期IP中,所述IP包括多个图片群组GOP;以及
在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
2.根据权利要求1所述的方法,其中所述未来图片包括经帧内预测图片I图片。
3.根据权利要求1所述的方法,其中所述第一显示次序位置包括所述IP的顺序最后显示次序位置。
4.根据权利要求1所述的方法,其中所述顺序第一GOP的所述图片包括所述顺序第一GOP的第二图片,所述方法进一步包括在编码所述未来图片之前编码所述顺序第一GOP的第一图片。
5.根据权利要求1所述的方法,其进一步包括:
编码表示图片序列中的所述多个GOP的GOP大小的数据,所述IP包括所述图片序列;
编码指示所述未来图片将在所述图片序列中的其它图片之前经解码的数据,所述第一显示次序位置位于所述图片序列的末端处;
更新所述图片序列的第二图片的参考图片集,以包含所述未来图片;
编码指示所述第二图片的经更新参考图片集的数据;以及
使用所述经更新参考图片集来编码所述第二图片,其包括从所述未来图片预测所述第二图片的至少一部分。
6.根据权利要求5所述的方法,其中编码表示所述GOP大小的所述数据包括编码包含表示所述GOP大小的所述数据的序列参数集SPS。
7.根据权利要求5所述的方法,其进一步包括更新所述第二图片的δ图片次序计数POC值以指代所述未来图片。
8.根据权利要求5所述的方法,其中编码指示所述经更新参考图片集的所述数据包括编码所述第二图片的切片的切片标头,所述切片标头包含指示所述经更新参考图片集的所述数据。
9.根据权利要求1所述的方法,其进一步包括:
编码序列参数集SPS的第一旗标,所述第一旗标指示启用所述未来图片在所述IP的其它图片前的编码;以及
响应于启用所述未来图片在所述IP的其它图片前的编码而编码指定所述IP的大小的所述SPS的数据。
10.根据权利要求9所述的方法,其进一步包括基于所述未来图片为按译码次序的下一经帧内预测图片I图片、所述未来图片的图片次序计数POC值或所述IP中的至少一者来确定所述未来图片。
11.根据权利要求9所述的方法,其进一步包括基于如ITU-T H.265高效率视频译码HEVC中所指定的参考图片集建构的固定规则来更新参考图片集。
12.根据权利要求1所述的方法,其进一步包括编码包含所述未来图片的潜在未来图片列表的一或多个δ图片次序计数δPOC值。
13.根据权利要求12所述的方法,其中编码所述一或多个δPOC值包括在参数集中编码所述一或多个δPOC值。
14.根据权利要求13所述的方法,其中所述参数集包括序列参数集SPS、图片参数集PPS或视频参数集VPS中的一者。
15.根据权利要求12所述的方法,其中编码所述一或多个δPOC值包括相对于第一参考图片的第一POC值编码所述一或多个δPOC值。
16.根据权利要求12所述的方法,其中编码所述一或多个δPOC值包括相对于先前帧内随机存取点IRAP图片、参考图片集中的IRAP图片或所述参考图片集中具有最小POC值的IRAP图片中的一者编码所述一或多个δPOC值。
17.根据权利要求12所述的方法,其中编码所述一或多个δPOC值包括根据经指示模板编码所述一或多个δPOC值。
18.根据权利要求1所述的方法,其进一步包括编码指示所述IP的未来图片子集的数据,所述未来图片子集包括所述未来图片。
19.根据权利要求18所述的方法,其进一步包括编码指示所述子集的大小的数据。
20.根据权利要求18所述的方法,其中编码指示所述未来图片子集的所述数据包括编码所述子集的所述未来图片的一或多个δ图片次序计数δPOC值。
21.根据权利要求18所述的方法,其中编码指示所述未来图片子集的所述数据包括显式地指定所述子集的所述未来图片。
22.根据权利要求18所述的方法,其进一步包括编码识别未来图片的δ图片次序计数δPOC值或列表的多个子集中的一者的索引值。
23.根据权利要求22所述的方法,其中编码所述索引值包括在序列参数集SPS中编码所述索引值。
24.根据权利要求1所述的方法,其进一步包括编码表示包含所述未来图片的未来图片子集中的未来图片位置的数据。
25.根据权利要求24所述的方法,其中编码表示所述位置的所述数据包括在序列参数集SPS中译码表示所述位置的所述数据。
26.根据权利要求24所述的方法,其中表示所述位置的所述数据应用于所述视频数据的所有帧内周期。
27.根据权利要求24所述的方法,其进一步包括编码指示所述未来图片子集的切片标头或切片的数据。
28.根据权利要求1所述的方法,其进一步包括使用在位流中传信的未来图片子集来导出所述IP的当前图片的参考图片集,所述未来图片子集包含所述未来图片。
29.根据权利要求28所述的方法,其进一步包括将所述未来图片中的一或多者添加到所述参考图片集中。
30.根据权利要求1所述的方法,其中编码所述未来图片包括编码包含所述未来图片的多个未来图片,所述未来图片中的每一者的相应显示次序位置在所述顺序第一GOP的每一图片的显示次序位置后面。
31.根据权利要求1所述的方法,其进一步包括编码所述视频数据的每一IP的相应未来图片,所述未来图片在所述相应IP中分别具有对应于所述第一显示次序位置的相对显示次序位置。
32.一种用于编码视频数据的装置,所述装置包括:
存储器,其经配置以存储视频数据;及
视频编码器,其实施于电路中且经配置以:
编码所述视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期IP中,所述IP包括多个图片群组GOP;以及
在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
33.根据权利要求32所述的装置,其中所述未来图片包括经帧内预测图片I图片。
34.根据权利要求32所述的装置,其中所述第一显示次序位置包括所述IP的顺序最后显示次序位置。
35.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以:
编码表示图片序列中的所述多个GOP的GOP大小的数据,所述IP包括所述图片序列;
编码指示所述未来图片将在所述图片序列中的其它图片之前经解码的数据,所述第一显示次序位置位于所述图片序列的末端处;
更新所述图片序列的第二图片的参考图片集,以包含所述未来图片;
编码指示所述第二图片的经更新参考图片集的数据;以及
使用所述经更新参考图片集来编码所述第二图片,其中所述视频编码器经配置以从所述未来图片预测所述第二图片的至少一部分。
36.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以:
编码序列参数集SPS的第一旗标,所述第一旗标指示启用所述未来图片在所述IP的其它图片前的编码;以及
响应于启用所述未来图片在所述IP的其它图片前的编码而编码指定所述IP的大小的所述SPS的数据。
37.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以编码包含所述未来图片的潜在未来图片列表的一或多个δ图片次序计数δPOC值。
38.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以编码指示所述IP的未来图片子集的数据,所述未来图片子集包括所述未来图片。
39.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以编码表示包含所述未来图片的未来图片子集中的未来图片位置的数据。
40.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以使用在位流中传信的未来图片子集来导出所述IP的当前图片的参考图片集,所述未来图片子集包含所述未来图片。
41.根据权利要求32所述的装置,其中所述视频编码器经配置以编码包含所述未来图片的多个未来图片,所述未来图片中的每一者的相应显示次序位置在所述顺序第一GOP的每一图片的显示次序位置后面。
42.根据权利要求32所述的装置,其中所述视频编码器进一步经配置以编码所述视频数据的每一IP的相应未来图片,所述未来图片在所述相应IP中分别具有对应于所述第一显示次序位置的相对显示次序位置。
43.根据权利要求32所述的装置,其进一步包括相机,所述相机经配置以俘获所述视频数据。
44.根据权利要求32所述的装置,其中所述装置包括相机、计算机、移动装置、广播接收器装置或机顶盒中的一或多者。
45.一种存储有指令的计算机可读存储媒体,所述指令在经执行时,致使用于对视频数据进行编码的装置的处理器执行以下操作:
编码视频数据中具有第一显示次序位置的未来图片,所述未来图片包含于所述视频数据的帧内周期IP中,所述IP包括多个图片群组GOP;以及
在编码所述未来图片之后,使用所述未来图片作为参考图片来编码所述多个GOP中的顺序第一GOP的图片,所述顺序第一GOP的每一图片的显示次序位置早于所述第一显示次序位置。
CN201880061591.XA 2017-09-26 2018-09-26 具有在用于视频译码的随机存取配置中的未来参考帧的自适应图片群组结构 Active CN111149361B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762563526P 2017-09-26 2017-09-26
US62/563,526 2017-09-26
US16/141,714 US11736687B2 (en) 2017-09-26 2018-09-25 Adaptive GOP structure with future reference frame in random access configuration for video coding
US16/141,714 2018-09-25
PCT/US2018/052876 WO2019067555A1 (en) 2017-09-26 2018-09-26 ADAPTIVE IMAGE GROUP STRUCTURE WITH FUTURE REFERENCE FRAME IN RANDOM ACCESS CONFIGURATION FOR VIDEO CODING

Publications (2)

Publication Number Publication Date
CN111149361A true CN111149361A (zh) 2020-05-12
CN111149361B CN111149361B (zh) 2024-05-31

Family

ID=65809116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880061591.XA Active CN111149361B (zh) 2017-09-26 2018-09-26 具有在用于视频译码的随机存取配置中的未来参考帧的自适应图片群组结构

Country Status (6)

Country Link
US (2) US11736687B2 (zh)
EP (1) EP3688990B1 (zh)
CN (1) CN111149361B (zh)
SG (1) SG11202001518UA (zh)
TW (1) TW201921938A (zh)
WO (1) WO2019067555A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021003447A1 (en) * 2019-07-03 2021-01-07 Futurewei Technologies, Inc. Types of reference pictures in reference picture lists
CN114342398A (zh) 2019-08-20 2022-04-12 北京字节跳动网络技术有限公司 默认缩放矩阵和用户定义缩放矩阵的使用
US11973985B2 (en) * 2021-11-23 2024-04-30 Mediatek Inc. Video encoder with motion compensated temporal filtering

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146229A (zh) * 2007-10-29 2008-03-19 北京大学 一种svc视频fgs优先级调度方法
CN101188757A (zh) * 2003-12-01 2008-05-28 三星电子株式会社 用于可伸缩视频编码和解码的方法和设备
US20090304080A1 (en) * 2004-01-07 2009-12-10 Edouard Francois Method for coding an image sequence
US20110235703A1 (en) * 2008-10-28 2011-09-29 Labrozzi Scott C Stream Synchronization for Live Video Encoding
US8774272B1 (en) * 2005-07-15 2014-07-08 Geo Semiconductor Inc. Video quality by controlling inter frame encoding according to frame position in GOP
CN104412599A (zh) * 2012-06-28 2015-03-11 高通股份有限公司 对视频译码发信长期参考图片
CN105872545A (zh) * 2016-04-19 2016-08-17 电子科技大学 一种随机接入视频编码中层次化时域率失真优化方法
CN107079170A (zh) * 2013-11-19 2017-08-18 高通股份有限公司 用于多层视频译码的poc值设计

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101132386B1 (ko) * 2007-04-13 2012-07-16 노키아 코포레이션 비디오 코더
US20140036999A1 (en) * 2012-06-29 2014-02-06 Vid Scale Inc. Frame prioritization based on prediction information
KR101792518B1 (ko) * 2013-12-16 2017-11-02 엘지전자 주식회사 트릭 플레이 서비스 제공을 위한 신호 송수신 장치 및 신호 송수신 방법
US10148983B2 (en) 2015-09-25 2018-12-04 Qualcomm Incorporated Methods and systems of improved video stream switching and random access

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188757A (zh) * 2003-12-01 2008-05-28 三星电子株式会社 用于可伸缩视频编码和解码的方法和设备
US20090304080A1 (en) * 2004-01-07 2009-12-10 Edouard Francois Method for coding an image sequence
US8774272B1 (en) * 2005-07-15 2014-07-08 Geo Semiconductor Inc. Video quality by controlling inter frame encoding according to frame position in GOP
CN101146229A (zh) * 2007-10-29 2008-03-19 北京大学 一种svc视频fgs优先级调度方法
US20110235703A1 (en) * 2008-10-28 2011-09-29 Labrozzi Scott C Stream Synchronization for Live Video Encoding
CN104412599A (zh) * 2012-06-28 2015-03-11 高通股份有限公司 对视频译码发信长期参考图片
CN107079170A (zh) * 2013-11-19 2017-08-18 高通股份有限公司 用于多层视频译码的poc值设计
CN105872545A (zh) * 2016-04-19 2016-08-17 电子科技大学 一种随机接入视频编码中层次化时域率失真优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCHWARZ,HEIKO ET AL.: "Hierarchical B pictures", pages 2 *

Also Published As

Publication number Publication date
CN111149361B (zh) 2024-05-31
WO2019067555A1 (en) 2019-04-04
TW201921938A (zh) 2019-06-01
US20230319269A1 (en) 2023-10-05
US20190098301A1 (en) 2019-03-28
EP3688990C0 (en) 2024-04-10
SG11202001518UA (en) 2020-04-29
US11736687B2 (en) 2023-08-22
EP3688990A1 (en) 2020-08-05
EP3688990B1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
JP6543716B2 (ja) 適応型成分間残差予測
CN113612997B (zh) 针对视频译码使用与位置相关的预测组合的改进视频帧内预测
KR102346986B1 (ko) 컬러-공간 변환 코딩에서의 비트 심도들의 수정
US9277212B2 (en) Intra mode extensions for difference domain intra prediction
KR102334126B1 (ko) 인트라 블록 복사를 위한 레지듀얼 예측
KR101676938B1 (ko) 비디오 코딩을 위한 장기 참조 화상들에 대한 데이터 시그널링
US9332255B2 (en) Signaling long-term reference pictures for video coding
US20130272409A1 (en) Bandwidth reduction in video coding through applying the same reference index
CN111213376A (zh) 使用基于编码结构的候选列表构建对视频数据的运动信息进行编码
US20130070855A1 (en) Hybrid motion vector coding modes for video coding
KR20180061281A (ko) 비디오 코딩을 위한 향상된 양방향 광학 흐름
US20140064359A1 (en) Intra prediction most probable mode order improvement for scalable video coding
CN111295883B (zh) 视频译码中的增强参考图片管理
CN108718415B (zh) 处理视频数据的方法和装置
KR20160068808A (ko) 비디오 코딩을 위한 고 정확도 명시적 가중 예측
US9338452B2 (en) Motion vector difference coding extension for enhancement layer
US20230319269A1 (en) Adaptive gop structure with future reference frame in random access configuration for video coding
WO2013184810A1 (en) Bi-layer texture prediction for video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019986

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant