CN110073661A - 用于视频译码的多种类型树架构 - Google Patents

用于视频译码的多种类型树架构 Download PDF

Info

Publication number
CN110073661A
CN110073661A CN201880005017.2A CN201880005017A CN110073661A CN 110073661 A CN110073661 A CN 110073661A CN 201880005017 A CN201880005017 A CN 201880005017A CN 110073661 A CN110073661 A CN 110073661A
Authority
CN
China
Prior art keywords
block
video data
transformation
video
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880005017.2A
Other languages
English (en)
Other versions
CN110073661B (zh
Inventor
李翔
赵欣
张莉
陈建乐
庄孝强
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110073661A publication Critical patent/CN110073661A/zh
Application granted granted Critical
Publication of CN110073661B publication Critical patent/CN110073661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

本发明提供一种解码视频的方法,所述方法包括:接收经编码视频数据块;确定用于所述经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的变换;应用具有所述经修改大小S'的反变换至所述经编码视频数据块以产生残余视频数据;及解码所述残余视频数据以产生经解码视频数据块。

Description

用于视频译码的多种类型树架构
本发明请求2017年1月6日申请的美国临时申请案第62/443,569号的权利,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及视频编码及视频解码。
背景技术
数字视频能力可并入至广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话(所谓的“智能电话”)、视频电传话会议装置、视频流式发射装置及其类似者。数字视频装置实施视频译码技术,诸如由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)定义的标准、高效率视频译码(HEVC)标准及这些标准的扩展中所描述的技术。视频装置可通过实施此类视频译码技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中固有的冗余。对于基于块的视频译码,可将视频切片(例如,视频帧或视频帧的一部分)分割成视频块(其也可被称作树块)、译码单元(CU)及/或译码节点。图片可被称为“帧”。参考图片可被称为参考帧。
空间或时间预测导致用于待译码块的预测性块。残余数据表示待译码的原始块及预测性块之间的像素差。为了进一步压缩,可将残余数据从像素域变换至变换域,从而产生可接着进行量化的残余变换系数。可应用熵译码以实现甚至更进一步压缩。
发明内容
本发明描述用于使用多种类型树(MTT)架构分割视频数据块的技术。本发明的技术包含在树状结构的各种节点处确定多个分割技术中的一者。多个分割技术的实例可包含穿过块中心对称地分裂块的分割技术,以及对称地或不对称地分裂块使得块中心不被分裂的分割技术。以此方式,视频块的分割可以导致更高效译码的方式执行;包含较好捕捉视频数据中的在块中心的物件的分割。
本发明进一步描述用于应用变换至根据MTT架构分割的块的技术,用于产生及剖析指示如何根据MTT架构分裂块的语法元素的技术,用于根据MTT架构分割明度及色度块的技术,及用于译码(即,编码及/或解码)根据MTT架构分割的块的技术。可个别地或以任何组合一起使用本发明中描述的技术。
在本发明的一个实例中,解码视频数据的方法包括:接收经编码视频数据块;确定用于所述经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的反变换;应用具有所述经修改大小S'的反变换至所述经编码视频数据块以产生残余视频数据;及解码所述残余视频数据以产生经解码视频数据块。
在本发明的另一实例中,编码视频数据的方法包括:接收视频数据块;预测所述视频数据块以产生残余视频数据;确定用于所述残余视频数据的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的变换;应用具有所述经修改大小S'的变换至所述残余视频数据以产生变换系数;及在经编码视频位流中编码所述变换系数。
在本发明的另一实例中,一种经配置以解码视频数据的设备包括:存储器,其经配置以存储所述视频数据;及与所述存储器通信的一或多个处理器,所述一或多个处理器经配置以:接收所述视频数据的经编码块;确定用于所述视频数据的所述经编码块的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的反变换;应用具有所述经修改大小S'的所述反变换至所述经编码视频数据块以产生残余视频数据;及解码所述残余视频数据以产生经解码视频数据块。
在本发明的另一实例中,一种设备经配置以编码视频数据,所述设备包括:存储器,其经配置以存储所述视频数据;及与所述存储器通信的一或多个处理器,所述一或多个处理器经配置以:接收视频数据块;预测所述视频数据块以产生残余视频数据;确定用于所述视频数据的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的变换;应用具有所述经修改大小S'的所述变换至所述残余视频数据以产生变换系数;及在经编码视频位流中编码所述变换系数。
在本发明的另一实例中,一种经配置以解码视频数据的设备包括:用于接收经编码视频数据块的装置;用于确定用于所述经编码视频数据块的变换的装置,其中所述变换具有并非为二的幂的大小S;用于将S舍位至二的幂从而产生具有经修改大小S'的反变换的装置;用于应用具有所述经修改大小S'的所述反变换至所述经编码视频数据块以产生残余视频数据的装置;及用于解码所述残余视频数据以产生经解码视频数据块的装置。
在本发明的另一实例中,一种经配置以编码视频数据的设备包括:用于接收视频数据块的装置;用于预测所述视频数据块以产生残余视频数据的装置;用于确定用于所述残余视频数据的变换的装置,其中所述变换具有并非为二的幂的大小S;用于将S舍位至二的幂从而产生具有经修改大小S'的变换的装置;用于应用具有所述经修改大小S'的所述变换至所述残余视频数据以产生变换系数的装置;及用于在经编码视频位流中编码所述变换系数的装置。
在另一实例中,本发明描述一种存储指令的计算机可读存储媒体,所述指令当经执行时使得经配置以解码视频数据的设备的一或多个处理器执行以下操作:接收经编码视频数据块;确定用于所述经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的反变换;应用具有所述经修改大小S'的所述反变换至所述经编码视频数据块以产生残余视频数据;及解码所述残余视频数据以产生经解码视频数据块。
在另一实例中,本发明描述一种存储指令的计算机可读存储媒体,所述指令当经执行时使得经配置以编码视频数据的设备的一或多个处理器执行以下操作:接收视频数据块;预测所述视频数据块以产生残余视频数据;确定用于所述残余视频数据的变换,其中所述变换具有并非为二的幂的大小S;将S舍位至二的幂从而产生具有经修改大小S'的变换;应用具有所述经修改大小S'的所述变换至所述残余视频数据以产生变换系数;及在经编码视频位流中编码所述变换系数。
在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目标及优势从描述、图式及权利要求书将为显而易见的。
附图说明
图1为说明经配置以实施本发明的技术的实例视频编码及解码系统的框图。
图2为说明高效率视频译码(HEVC)中的译码单元(CU)结构的概念图。
图3为说明用于帧间预测模式的实例分割类型的概念图。
图4A为说明使用四叉树二叉树(QTBT)结构进行块分割的实例的概念图。
图4B为说明对应于使用图4A的QTBT结构进行块分割的实例树状结构的概念图。
图5A为说明四叉树分割的概念图。
图5B为说明竖直二叉树分割的概念图。
图5C为说明水平二叉树分割的概念图。
图5D为说明竖直中心侧树分割的概念图。
图5E为说明水平中心侧树分割的概念图。
图6为说明根据本发明的技术的译码树型单元(CTU)分割的实例的概念图。
图7为说明根据QTBT分割的一个实例的实例不对称分割的概念图。
图8为说明零值区加均匀量化方案的概念图。
图9展示实例不对称分割类型。
图10为说明视频编码器的实例的框图。
图11为说明视频解码器的实例的框图。
图12为展示本发明的实例编码方法的流程图。
图13为展示本发明的实例解码方法的流程图。
具体实施方式
本发明涉及基于块的视频译码中的视频数据块(例如译码单元)的分割及/或组织。本发明的技术可在视频译码标准中应用。在下文所描述的各种实例中,本发明的技术包含使用三个或三个以上不同分割结构分割视频数据块。在一些实例中,可在译码树状结构的每一深度处使用三个或三个以上不同分割结构。这些分割技术可被称为多种类型树(MTT)分割。通过使用MTT分割,视频数据可更灵活地分割,因此允许较大译码效率。
本发明进一步描述用于应用变换至根据MTT架构分割的块的技术,用于产生及剖析指示如何根据MTT架构分裂块的语法元素的技术,用于根据MTT架构分割明度及色度块的技术,及用于译码(即,编码及/或解码)根据MTT架构分割的块的技术。可个别地或以任何组合一起使用本发明中描述的技术。
图1为说明可利用本发明的技术以用于分割视频数据块、信令及剖析分割类型并应用变换及另外变换分割的实例视频编码及解码系统10的框图。如图1中所示,系统10包含源装置12,源装置12提供待在稍后时间由目的地装置14解码的经编码视频数据。确切地说,源装置12经由计算机可读媒体16将视频数据提供至目的地装置14。源装置12及目的地装置14可包括广泛范围的装置中的任一者,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机上盒、诸如所谓的“智能”电话的电话手机、平板计算机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式发射装置或其类似者。在一些情况下,源装置12及目的地装置14可经装备以用于无线通信。因此,源装置12及目的地装置14可为无线通信装置。源装置12为实例视频编码装置(即,用于编码视频数据的装置)。目的地装置14为实例视频解码装置(例如,用于解码视频数据的装置或设备)。
在图1的实例中,源装置12包含视频源18、经配置以存储视频数据的存储媒体20、视频编码器22及输出接口24。目的地装置14包含输入接口26、经配置以存储经编码视频数据的存储媒体28、视频解码器30及显示装置32。在其它实例中,源装置12及目的地装置14包含其它组件或布置。举例来说,源装置12可从外部视频源(诸如,外部相机)接收视频数据。同样地,目的地装置14可与外部显示装置介接,而非包含集成显示装置。
图1中所说明的系统10仅为一个实例。用于处理视频数据的技术可通过任何数字视频编码及/或解码装置或设备来执行。尽管通常本发明的技术由视频编码装置及视频解码装置来执行,但所述技术也可由组合式视频编码器/解码器(通常被称作“编解码器”)执行。源装置12及目的地装置14仅为源装置12产生经编码视频数据以供发射到目的地装置14的此类译码装置的实例。在一些实例中,源装置12及目的地装置14可以基本上对称方式操作,使得源装置12及目的地装置14中的每一者包含视频编码及解码组件。因此,系统10可支持源装置12与目的地装置14之间的单向或双向视频发射,例如用于视频流式发射、视频播放、视频广播或视频电话。
源装置12的视频源18可包含视频捕捉装置,诸如视频相机、含有先前捕捉的视频的视频存档及/或用以从视频内容提供者接收视频数据的视频馈入接口。作为另一替代,视频源18可产生基于计算机图形的数据作为源视频,或实况视频、经存档视频及计算机产生的视频的组合。源装置12可包括经配置以存储视频数据的一或多个数据存储媒体(例如,存储媒体20)。本发明中所描述的技术可大体上适用于视频译码,且可应用于无线及/或有线应用。在每一状况下,可由视频编码器22对所捕捉、预先捕捉或计算机产生的视频进行编码。输出接口24可将经编码视频信息输出到计算机可读媒体16。
目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一些实例中,计算机可读媒体16包括通信媒体以使源装置12能够实时地将经编码视频数据直接发射到目的地装置14。可根据通信标准(诸如,无线通信协议)调制经编码视频数据,且将其发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体,诸如,射频(RF)频谱或一或多个物理发射线。通信媒体可形成基于包的网络(诸如,局域网、广域网或诸如因特网的全域网)的部分。通信媒体可包含路由器、交换器、基站或可用于促进从源装置12至目的地装置14的通信的任何其它设备。目的地装置14可包括经配置以存储经编码视频数据及经解码视频数据的一或多个数据存储媒体。
在一些实例中,经编码数据(例如经编码视频数据)可从输出接口24输出到存储装置。类似地,可由输入接口26从存储装置存取经编码数据。存储装置可包含多种分散式或本地存取式数据存储媒体中的任一者,诸如,硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器、服务器或用于存储经编码视频数据的任何其它合适的数字存储媒体。在再一实例中,存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式发射或下载从存储装置存取存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任何类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)装置或本地硬盘驱动器。目的地装置14可经由任一标准数据连接(包含因特网连接)而存取经编码的视频数据。此连接可包含适合于存取存储于文件服务器上的经编码视频数据的无线通道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等)或两者的组合。从存储装置的经编码视频数据的发射可为流式发射、下载发射或其组合。
本发明的技术可应用于视频译码以支持多种多媒体应用中的任一者,诸如,空中电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(诸如,HTTP动态自适应流式发射(DASH))、经编码到数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频发射从而支持诸如视频流式发射、视频播放、视频广播及/或视频电话的应用。
计算机可读媒体16可包含暂态媒体,诸如无线广播或有线网络发射;或存储媒体(即,非暂时性存储媒体),诸如硬盘、闪存盘、光盘、数字视频光盘、蓝光光盘、服务器或其它计算机可读媒体。在一些实例中,网络服务器(图中未展示)可接收来自源装置12的经编码视频数据且例如经由网络发射提供经编码视频数据至目的地装置14。类似地,诸如光盘冲压设施的媒体生产设施的计算装置可从源装置12接收经编码视频数据且生产含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体16可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置14的输入接口26从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器22的视频编码器22定义的语法信息,语法信息也由视频解码器30使用,语法信息包含描述块及其它译码单元(例如,图片群组(GOP))的特性及/或处理的语法元素。存储媒体28可存储通过输入接口26接收的经编码视频数据。显示装置32向用户显示经解码视频数据。显示装置32可包括多种显示装置中的任一者,所述显示装置诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器22及视频解码器单元30各自可实施为多种合适编码器或解码器电路中的任一者,诸如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术以软件部分地实施时,装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且可在硬件中使用一或多个处理器执行指令以执行本发明的技术。视频编码器22及视频解码器30中的每一者可包含在一或多个编码器或解码器中,编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(编解码器)的部分。
在一些实例中,视频编码器22及视频解码器30可根据视频译码标准操作。实例视频译码标准包含但不限于:ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IECMPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称作ISO/IECMPEG-4AVC),包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展。已通过ITU-T视频译码专家群(VCEG)及ISO/IEC运动图片专家群(MPEG)的视频译码联合协作小组(JCT-VC)开发视频译码标准(高效率视频译码(HEVC)或ITU-T H.265),包含其范围及屏幕内容译码扩展、3D视频译码(3D-HEVC)及多视图扩展(MV-HEVC)及可调式扩展(SHVC)。视频编码器22及视频解码器30也可经配置以根据未来视频译码标准(诸如通过联合视频探索小组(JVET)群开发的视频译码标准)操作。JEM软件是基于HEVC模型(HM)软件且为用于JVET的参考软件。
在HEVC及其它视频译码规范中,视频序列通常包含一系列图片。图片也可被称为“帧”。图片可包含三个样本阵列,表示为SL、SCb及SCr。SL为明度样本的二维阵列(即,块)。SCb为Cb色讯样本的二维阵列。SCr为Cr色讯样本的二维阵列。色讯样本也可在本文中被称作“色度”样本。在其它情况下,图片可为单色的,且可仅包含明度样本的阵列。
此外,在HEVC及其它视频译码规范中,为产生图片的经编码表示,视频编码器22可产生一组译码树型单元(CTU)。CTU中的每一者可包括明度样本的译码树块、色度样本的两个对应译码树块,及用以译码所述译码树块的样本的语法结构。在单色图片或具有三个单独彩色平面的图片中,CTU可包括单一译码树块及用以译码对所述译码树块的样本进行译码的语法结构。译码树块可为样本的N×N块。CTU也可被称作“树块”或“最大译码单元”(LCU)。HEVC的CTU可广泛地类似于诸如H.264/AVC的其它标准的宏块。然而,CTU未必限于特定大小,且可包含一或多个译码单元(CU)。切片可包含按光栅扫描次序连续地定序的整数数目个CTU。
在根据HEVC的操作中,为产生经译码CTU,视频编码器22可对CTU的译码树块递回地执行四叉树分割,以将译码树块划分成译码块,因此命名“译码树型单元”。译码块为样本的N×N块。CU可包括明度样本的译码块及具有明度样本阵列、Cb样本阵列及Cr样本阵列的图片的色度样本的两个对应译码块,以及用于译码所述译码块的样本的语法结构。在单色图片或具有三个单独色彩平面的图片中,CU可包括单个译码块及用于译码所述译码块的样本的语法结构。
位流内的语法数据也可定义CTU的大小。切片包含按译码次序的数个连续CTU。视频帧或图片可分割成一或多个切片。如上文所提及,每一树块可根据四叉树分裂成译码单元(CU)。一般来说,四叉树数据结构包含每CU一个节点,其中根节点对应于树块。如果将CU分裂成四个子CU,则对应于所述CU的节点包含四个叶节点,所述四个叶节点中的每一者对应于所述子CU中的一者。
四叉树数据结构中的每一节点可提供对应CU的语法数据。举例来说,所述四叉树中的节点可包含分裂旗标,从而指示是否将对应于所述节点的CU分裂成子CU。针对CU的语法元素可经递回地定义,且可取决于所述CU是否分裂成子CU。如果CU未经进一步分裂,则其被称作叶CU。如果CU的块经进一步分裂,则其可通常被称作非叶片CU。在本发明的一些实例中,即使不存在原始叶CU的明显分裂,叶CU的四个子CU也将被称作叶CU。举例来说,如果16×16大小的CU未经进一步分裂,则尽管所述16×16CU从未经分裂,但4个8×8子CU也可被称作叶CU。
除CU不具有大小区别外,CU具有与H.264标准的宏块类似的用途。举例来说,树块可分裂成四个子节点(也称作子CU),且每一子节点又可为上代节点且可被分裂成另外四个子节点。被称作四叉树的叶节点的最终的未分裂子节点包括译码节点,所述译码节点也被称作叶CU。与经译码位流相关联的语法数据可定义树块可被分裂的最大次数(被称作最大CU深度),且也可定义译码节点的最小大小。树块结构的深度可指示块已被分裂的次数。举例来说,深度0可涉及在任何分裂之前的块,深度1可涉及自上代块的一次分裂产生的块,深度2可涉及自深度1处的块的一次分裂产生的块等。位流也可定义最小译码单元(SCU)。本发明使用术语“块”来指代在HEVC的情况下的CU、PU或TU中的任一者,或在其它标准的情况下的类似数据结构(例如,JEM中的译码单元、H.264/AVC中的其宏块及子块,等)。
CU包含译码节点以及与所述译码节点相关联的预测单元(PU)及变换单元(TU)。CU的大小对应于译码节点的大小,且在一些实例中可为正方形形状。在HEVC的实例中,CU的大小可介于8×8像素达到最大64×64像素或更大的树块的大小的范围内。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。分割模式可在CU经跳过或直接模式编码、帧内预测模式编码或是帧间预测模式编码之间不同。PU可经分割成非正方形形状。与CU相关联的语法数据也可描述例如根据四叉树将CU分割成一或多个TU。TU形状可为正方形或非正方形(例如,矩形)。
HEVC标准允许根据TU进行变换,所述TU对于不同CU可不同。通常基于针对经分割LCU所定义的给定CU内的PU的大小来对TU设定大小,但可并非总是此状况。TU通常与PU大小相同或小于PU。在一些实例中,可使用有时被称为“残余四叉树”(RQT)的四叉树结构而将对应于CU的残余样本再分为更小的单元。RQT的叶节点可被称作TU。与TU相关联的像素差值可经变换以产生可经量化的变换系数。
叶CU可包含一或多个PU。一般来说,PU表示对应于对应CU的所有或一部分的空间区域,且可包含用于检索PU的参考样本的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,PU的数据可包含于RQT中,所述RQT可包含描述用于对应于PU的TU的帧内预测模式的数据。作为另一实例,当PU经帧间模式编码时,PU可包含定义PU的一或多个运动向量的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU也可包含一或多个TU。如上文所论述,可使用RQT(也称作TU四叉树结构)来指定TU。举例来说,分裂旗标可指示叶CU是否经分裂成四个变换单元。在一些实例中,可将每一变换单元进一步分裂为其它若干子TU。当TU未进一步分裂时,可将其称作叶TU。大体来说,对于帧内译码,属于叶CU的所有叶TU含有产生自相同帧内预测模式的残余数据。即,通常应用相同帧内预测模式以计算经预测值,所述经预测值将在叶CU的所有TU中变换。对于帧内译码,视频编码器22可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于所述TU的部分与原始块之间的差。TU不必受限于PU的大小。因此,TU可大于或小于PU。对于帧内译码,PU可与用于同一CU的对应叶TU共置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU也可与相应RQT结构相关联。即,叶CU可包含指示所述叶CU如何被分割成TU的四叉树。TU四叉树的根节点通常对应于叶CU,而CU四叉树的根节点通常对应于树块(或LCU)。
如上文所论述,视频编码器22可将CU的译码块分割成一或多个预测块。预测块为供应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的PU可包括明度样本的预测块、色度样本的两个对应预测块,及用以对预测块进行预测的语法结构。在单色图片或具有三个单独色彩平面的图片中,PU可包括单个预测块及用于预测所述预测块的语法结构。视频编码器22可针对CU的每一PU的预测块(例如,明度、Cb及Cr预测块)产生预测性块(例如,明度、Cb及Cr预测性块)。
视频编码器22可使用帧内预测或帧间预测以产生用于PU的预测性块。如果视频编码器22使用帧内预测以产生PU的预测性块,则视频编码器22可基于包含PU的图片的经解码样本产生PU的预测性块。
在视频编码器22产生用于CU的一或多个PU的预测性块(例如明度、Cb及Cr预测性块)之后,视频编码器22可产生用于CU的一或多个残余块。举例来说,视频编码器22可产生CU的明度残余块。CU的明度残余块中的每一样本指示CU的预测性明度块中的一者中的明度样本与CU的原始明度译码块中的对应样本之间的差异。另外,视频编码器22可产生用于CU的Cb残余块。CU的Cb残余块中的每一样本可指示CU的预测性Cb块中的一者中的Cb样本与CU的原始Cb译码块中的对应样本之间的差异。视频编码器22也可产生用于CU的Cr残余块。CU的Cr残余块中的每一样本可指示CU的预测性Cr块的中的一者中的Cr样本与CU的原始Cr译码块中的对应样本之间的差异。
此外,如上文所论述,视频编码器22可使用四叉树分割以将CU的残余块(例如,明度、Cb及Cr残余块)分解成一或多个变换块(例如,明度、Cb及Cr变换块)。变换块为供应用相同变换的样本的矩形(例如,正方形或非正方形)块。CU的变换单元(TU)可包括明度样本的变换块、色度样本的两个对应变换块及用以变换块样本的语法结构。因此,CU的每一TU可具有明度变换块、Cb变换块以及Cr变换块。TU的明度变换块可为CU的明度残余块的子块。Cb变换块可为CU的Cb残余块的子块。Cr变换块可为CU的Cr残余块的子块。在单色图片或具有三个单独色彩平面的图片中,TU可包括单个变换块及用于变换所述变换块的样本的语法结构。
视频编码器22可将一或多个变换应用于TU的变换块以产生用于TU的系数块。举例来说,视频编码器22可将一或多个变换应用于TU的明度变换块,以产生TU的明度系数块。系数块可为变换系数的二维阵列。变换系数可为纯量。视频编码器22可将一或多个变换应用于TU的Cb变换块以产生TU的Cb系数块。视频编码器22可将一或多个变换应用于TU的Cr变换块,以产生TU的Cr系数块。
在一些实例中,视频编码器22将变换的应用跳至变换块。在这些实例中,视频编码器22可以与变换系数相同的方式处理残余样本值。因此,在视频编码器22跳过变换的应用的实例中,变换系数及系数块的以下论述可适用于残余样本的变换块。
在产生系数块(例如,明度系数块、Cb系数块或Cr系数块)之后,视频编码器22可量化系数块以可能减少用以表示系数块的数据量,从而可能提供进一步压缩。量化通常指代其中值的范围压缩为单个值的过程。举例来说,可通过以常数除以值且接着舍位至最接近的整数进行量化。为量化系数块,视频编码器22可量化系数块的变换系数。在视频编码器22量化系数块之后,视频编码器22可熵编码指示经量化的变换系数的语法元素。举例来说,视频编码器22可对指示经量化变换系数的语法元素执行上下文适应性二进制算术译码(CABAC)或其它熵译码技术。
视频编码器22可输出包含形成经译码图片及相关联数据的表示的位序列的位流。因此,位流包括视频数据的经编码表示。所述位流可包括网络抽象层(NAL)单元的序列。NAL单元为含有NAL单元中的数据的类型的指示及含有彼数据的呈按需要穿插有模拟阻止位的原始字节序列有效负载(RBSP)的形式的字节的语法结构。NAL单元中的每一者可包含NAL单元标头且可囊封RBSP。NAL单元标头可包含指示NAL单元类型码的语法元素。通过NAL单元的NAL单元标头指定的NAL单元类型码指示NAL单元的类型。RBSP可为含有囊封在NAL单元内的整数数目个字节的语法结构。在一些情况下,RBSP包含零个位。
视频解码器30可接收由视频编码器22产生的位流。视频解码器30可解码位流以重构视频数据的图片。作为解码位流的部分,视频解码器30可剖析位流以自位流获得语法元素。视频解码器30可至少部分基于自位流获得的语法元素而重构视频数据的图片。重构视频数据的过程可与由视频编码器22执行的过程大体互逆。举例来说,视频解码器30可使用PU的运动向量确定当前CU的PU的预测性块。另外,视频解码器30可反量化当前CU的TU的系数块。视频解码器30可对系数块执行反变换,以重构当前CU的TU的变换块。视频解码器30可通过将当前CU的PU的预测性块的样本添加至当前CU的TU的变换块的对应样本来重构当前CU的译码块。通过重构图片的各CU的译码块,视频解码器30可重构图片。
下文描述HEVC的共同概念及某些设计方面,其集中于用于块分割的技术。在HEVC中,切片中的最大译码单元被称作CTB。CTB根据四叉树结构而划分,其节点为译码单元。四叉树结构中的多个节点包含叶节点及非叶节点。叶节点在树状结构中无子节点(即,叶节点不进一步分裂)。非叶节点包含树状结构的根节点。根节点对应于视频数据的初始视频块(例如,CTB)。对于多个节点的每一相应非根节点,相应非根节点对应于视频块,所述视频块为对应于相应非根节点的树状结构中的上代节点的视频块的子块。在树状结构中,多个非叶节点的每一相应非叶节点具有一或多个子节点。
CTB的大小可介于HEVC主规范中的16×16至64×64的范围(尽管技术上可支持8×8CTB大小)。如W.J.Han等人,2010年12月,视频技术的电路及系统的IEEE汇刊,第20卷,第12号,第1709至1720页,“经由译码工具的柔性单元表示及对应扩展的经改进视频压缩效率(Improved Video Compression Efficiency Through Flexible Unit Representationand Corresponding Extension of Coding Tools)”中所描述,及图2中所展示,CTB可以四叉树方式递回地分裂成CU。如图2中所示,每一级别的分割为分裂成四个子块的四叉树。黑色块为叶节点的实例(即,未进一步分裂的块)。
在一些实例中,CU可与CTB的大小相同,虽然CU可与8×8一样小。每一CU用一个译码模式进行译码,所述译码模式可例如为帧内译码模式或帧间译码模式。其它译码模式也是可能的,包含用于屏幕内容的译码模式(例如,块内副本模式、基于调色板的译码模式等)。当CU经帧间译码(即,应用帧间模式)时,CU可进一步分割成预测单元(PU)。举例来说,CU可分割成2或4个PU。在另一实例中,当未应用进一步分割时,整个CU被视为单个PU。在HEVC实例中,当两个PU存在于一个CU中时,所述PU可为一半大小的矩形或具有CU的1/43/4大小的两个矩形大小。
在HEVC中,如图3中所示,存在用于运用帧间预测模式译码的CU的八分割模式,即:PART_2Nx2N、PART_2NxN、PART_Nx2N、PART_NxN、PART_2NxnU、PART_2NxnD、PART_nLx2N及PART_nRx2N。如图3中所示,用分割模式PART_2Nx2N进行译码的CU未进一步分裂。即,整个CU被视为单个PU(PU0)。用分割模式PART_2NxN进行译码的CU水平对称地分裂成两个PU(PU0及PU1)。用分割模式PART_Nx2N进行译码的CU竖直对称地分裂成两个PU。用分割模式PART_NxN进行译码的CU对称地分裂成四个大小相等的PU(PU0、PU1、PU2、PU3)。
用分割模式PART_2NxnU进行译码的CU水平不对称地分裂成具有CU的1/4大小的一个PU0(上部PU)及具有CU的3/4大小的一个PU1(下部PU)。用分割模式PART_2NxnD进行译码的CU水平不对称地分裂成具有CU的3/4大小的一个PU0(上部PU)及具有CU的1/4大小的一个PU1(下部PU)。用分割模式PART_nLx2N进行译码的CU竖直不对称地分裂成具有CU的1/4大小的一个PU0(左侧PU)及具有CU的3/4大小的一个PU1(右侧PU)。用分割模式PART_nRx2N进行译码的CU竖直不对称地分裂成具有CU的3/4大小的一个PU0(左侧PU)及具有CU的1/4大小的一个PU1(右侧PU)。
当CU经帧间译码时,针对每一PU存在运动信息的一个集合(例如运动向量、预测方向及参考图片)。另外,每一PU是运用唯一帧间预测模式来译码以导出运动信息集合。然而,应理解,即使两个PU经唯一译码,在一些情况下,所述两个PU可仍具有相同运动信息。
在2015年9月国际电信联盟J.An等人的“用于下一代视频译码的块分割结构(Block partitioning structure for next generation video coding)”COM16-C966(在下文中,“VCEG建议书COM16-C966”),提议除HEVC之外,将四叉树二叉树(QTBT)分割技术用于未来视频译码标准。模拟已展示所提议QTBT结构比在所使用HEVC中的四叉树结构更有效。
在VCEG建议书COM16-C966的所提议QTBT结构中,首先使用四叉树分割技术分割CTB,其中一个节点的四叉树分裂可被迭代直到节点到达最小允许四叉树叶节点大小。可通过语法元素MinQTSize的值向视频解码器指示最小允许四叉树叶节点大小。如果四叉树叶节点大小不大于最大允许二叉树根节点大小(例如,如通过语法元素MaxBTSize表示),则四叉树叶节点可使用二叉树分割而进一步分割。一个节点的二叉树分割可经迭代直到节点到达最小允许二叉树叶节点大小(例如,如通过语法元素MinBTSize所表示)或最大允许二叉树深度(例如,如通过语法元素MaxBTDepth所表示)。VCEG建议书COM16-C966使用术语“CU”来指二叉树叶节点。在VCEG建议书COM16-C966中,CU用于预测(例如,帧内预测、帧间预测等)及在无更进一步分割的情况下变换。一般来说,根据QTBT技术,存在用于二叉树分裂的两种分裂类型:对称水平分裂及对称竖直分裂。在每一情况下,块通过从中间水平地或竖直地划分块而分裂。
在QTBT分割结构的一个实例中,CTU大小经设定为128×128(例如,128×128明度块及两个对应64×64色度块),MinQTSize经设定为16×16,MaxBTSize经设定为64×64,MinBTSize(对于宽度及高度两者)经设定为4,且MaxBTDepth经设定为4。四叉树分割首先应用于CTU以产生四叉树叶节点。四叉树叶节点可具有自16×16(即,MinQTSize为16×16)至128×128(即,CTU大小)的大小。根据QTBT分割的一个实例,如果叶四叉树节点为128×128,则叶四叉树节点不可通过二叉树进一步分裂,这是由于叶四叉树节点的大小超过MaxBTSize(即,64×64)。否则,叶四叉树节点通过二叉树进一步分割。因此,四叉树叶节点也为二叉树的根节点并具有为0的二叉树深度。到达MaxBTDepth的二叉树深度(例如,4)意指不存在进一步分裂。具有等于MinBTSize(例如,4)的宽度的二叉树节点意指不存在进一步水平分裂。类似地,具有等于MinBTSize的高度的二叉树节点意指不进一步竖直分裂。二叉树的叶节点(CU)在无更进一步分割的情况下被进一步处理(例如,通过执行预测过程及变换过程)。
图4A说明使用QTBT分割技术分割的块50(例如,CTB)的实例。如图4A中所示,使用QTBT分割技术,经由每一块的中心对称地分裂所得块中的每一者。图4B说明对应于图4B的块分割的树状结构。图4B中的实线指示四叉树分裂且虚线指示二叉树分裂。在一个实例中,在二叉树的每一分裂(即,非叶)节点中,语法元素(例如,旗标)经用信号表示以指示执行的分裂的类型(例如,水平或竖直),其中0指示水平分裂且1指示竖直分裂。对于四叉树分裂,不需要对于指示分裂类型,这是由于四叉树分裂始终将块水平地及竖直地分裂成具有相等大小的4个子块。
如图4B中所示,在节点70处,块50使用QT分割分裂成图4A中所示的四个块51、52、53及54。块54并不进一步分裂,且因此为叶节点。在节点72处,使用BT分割将块51进一步分裂成两个块。如图4B中所示,节点72以1标记,指示竖直分裂。因而,在节点72处的分裂导致块57及包含块55及块56两者的块。通过节点74处的另一竖直分裂产生块55及块56。在节点76处,使用BT分割将块52进一步分裂成两个块58及59。如图4B中所示,节点76以1标记,指示水平分裂。
在节点78处,使用QT分割将块53分裂成4个相等大小块。块63及块66从此QT分割而产生且不进一步分裂。在节点80处,使用竖直二叉树分裂首先分裂左上方块,从而产生块60及右竖直块。接着使用水平二叉树分裂将右竖直块分裂成块61及块62。在节点84处,使用水平二叉树分裂将在节点78处从四叉树分裂所产生的右下块分裂成块64及块65。
尽管上文所描述的QTBT结构展示比HEVC中使用的四叉树结构更好的译码性能,但QTBT结构缺乏灵活性。举例来说,在上文所描述的QTBT结构中,四叉树节点可用二叉树进一步分裂,但二叉树节点不可用四叉树进一步分裂。在另一实例中,四叉树及二叉树两者可仅达成均匀分裂(即,从块的中心分裂),当物件在待分裂的块的中心中时均匀分裂并不高效。因此,对于未来视频译码标准,可缺乏QTBT的译码性能。
为解决上文所提及的问题,2017年1月12日申请的美国专利公开案第20170208336号及2017年3月20日申请的美国专利公开案第20170272782号(其两者以引用的方式并入本文中)描述多种类型树(MTT)分割结构的各种实例。根据MTT分割结构,树节点可用多种树类型(诸如二叉树、对称中心侧三叉树及四叉树)进一步分裂。模拟已展示多种类型树状结构比四叉树二叉树状结构更加有效。
为较好达成CTU的更灵活分割,基于MTT的CU结构经提议替换基于QT、BT及/或QTBT的CU结构。本发明的MTT分割结构仍为递归树状结构。然而,使用多个不同分割结构(例如三个或三个以上)。举例来说,根据本发明的MTT技术,可在树状结构的每一深度处使用三个或三个以上不同分割结构。在此情况下,树状结构中的节点的深度可指从节点至树状结构的根的路径的长度(例如,分裂的数目)。
在根据本发明的技术的一个实例中,视频编码器22及/或视频解码器30可经配置以接收视频数据的图片,并使用三个或三个以上不同分割结构将视频数据的图片分割成多个块,且重构/编码视频数据的图片的多个块。在一个实例中,分割视频数据的图片包括使用三个或三个以上不同分割结构将视频数据的图片分割成多个块,其中可在表示视频数据的图片如何分割的树状结构的每一深度处使用三个或三个以上不同分割结构中的至少三者。在一个实例中,三个或三个以上不同分割结构包含三叉树分割结构,且视频编码器22及/或视频解码器30可经配置以使用三叉树分割结构的三叉树分割类型分割多个视频数据块中的一者,其中在不穿过中心划分多个块中的一者的情况下,三叉树分割结构将多个块中的一者划分成三个子块。在本发明的另一实例中,三个或三个以上不同分割结构进一步包含四叉树分割结构及二叉树分割结构。
因此,在一个实例中,视频编码器22可产生视频数据的初始视频块(例如,译码树块或CTU)的经编码表示。作为产生初始视频块的经编码表示的部分,视频编码器22确定包括多个节点的树状结构。举例来说,视频编码器22可使用本发明的MTT分割结构分割树块。
MTT分割结构中的多个节点包含多个叶节点及多个非叶节点。在树状结构中,叶节点不具有子节点。非叶节点包含树状结构的根节点。根节点对应于初始视频块。对于多个节点的每一相应非根节点,相应非根节点对应于一视频块(例如,译码块),所述视频块为对应于相应非根节点的树状结构中的上代节点的视频块的子块。在树状结构中,多个非叶节点的每一相应非叶节点具有一或多个子节点。在一些实例中,图片边界处的非叶节点可归因于强制性分裂仅仅具有一个子节点,且子节点中的一者对应于图片边界外部的块。
根据本发明的技术,对于在树状结构的每一深度级别处的树状结构的每一相应非叶节点,存在用于相应非叶节点的多个允许分裂图案(例如分割结构)。举例来说,可存在针对树状结构的每一深度所允许的三个或三个以上分割结构。视频编码器22可经配置以根据多个所允许分割结构中的一者将对应于相应非叶节点的视频块分割成对应于相应非叶节点的子节点的视频块。所述多个所允许分割结构中的每一相应所允许分割结构可对应于将对应于相应非叶节点的视频块分割成对应于相应非叶节点的子节点的视频块的不同方式。此外,在此实例中,视频编码器22可包含包括视频数据的经编码表示的位流中的初始视频块的经编码表示。
在类似实例中,视频解码器30可确定包括多个节点的树状结构。如在先前实例中,多个节点包含多个叶节点及多个非叶节点。在树状结构中,叶节点不具有子节点。非叶节点包含树状结构的根节点。根节点对应于视频数据的初始视频块。对于多个节点的每一相应非根节点,相应非根节点对应于视频块,所述视频块为对应于相应非根节点的树状结构中的上代节点的视频块的子块。在树状结构中,多个非叶节点的每一相应非叶节点具有一或多个子节点。对于在树状结构的每一深度级别处的树状结构的每一相应非叶节点,存在相应非叶节点的多个允许的分裂图案且对应于相应非叶节点的视频块根据多个允许的分裂图案中的一者而分割成对应于相应非叶节点的子节点的视频块。多个允许的分裂图案的每一相应允许的分裂图案对应于将对应于相应非叶节点的视频块分割成对应于相应非叶节点的子节点的视频块的不同方式。此外,在此实例中,对于树状结构的每一(或至少一个)相应叶节点,视频解码器30重构对应于相应叶节点的视频块。
在一些这些实例中,对于除根节点以外的树状结构的每一相应非叶节点,用于相应非叶节点的多个允许的分裂图案(例如分割结构)与分割结构无关,根据所述分割结构将对应于相应非叶节点的上代节点的视频块分割成对应于相应非叶节点的上代节点的子节点的视频块。
在本发明的其它实例中,在树状结构的每一深度处,视频编码器22可经配置以使用三个以上分割结构中的一者当中的特定分割类型进一步分裂子树。举例来说,视频编码器22可经配置以从QT、BT、三叉树(TT)及其它分割结构确定特定分割类型。在一个实例中,QT分割结构可包含正方形四叉树及矩形四叉树分割类型。视频编码器22可通过从中心水平地或竖直地将块划分成四个相等大小的正方形块使用正方形四叉树分割来分割正方形块。同样,视频编码器22可通过从中心水平地或竖直地将矩形块划分成四个相等大小的矩形块使用矩形四叉树分割来分割矩形(例如非正方形)块。
BT分割结构可包含水平对称二叉树、竖直对称二叉树、水平非对称二叉树及竖直非对称二叉树分割类型。对于水平对称二叉树分割类型,视频编码器22可经配置以从块的中心水平地将块分裂成相同大小的两个对称块。对于竖直对称二叉树分割类型,视频编码器22可经配置以从块的中心竖直地将块分裂成相同大小的两个对称块。对于水平非对称二叉树分割类型,视频编码器22可经配置以水平地将块分裂成不同大小的两个块。举例来说,如图3的PART_2NxnU或PART_2NxnD分割类型中,一个块可为上代块的1/4大小且另一块可为上代块的3/4大小。对于竖直非对称二叉树分割类型,视频编码器22可经配置以竖直地将块分裂成不同大小的两个块。举例来说,如图3的PART_nLx2N或PART_nRx2N分割类型中,一个块可为上代块的1/4大小且另一块可为上代块的3/4大小。
在其它实例中,不对称二叉树分割类型可将上代块划分成不同大小部分。举例来说,一个子块可为上代块的3/8且另一子块可为上代块的5/8。当然,此分割类型可为竖直的或水平的。
TT分割结构不同于QT或BT结构的分割结构,原因在于TT分割结构不从中心分裂块。块的中心区共同保持在相同子块中。不同于QT(其产生四个块)或二叉树(其产生两个块),根据TT分割结构的分裂产生三个块。根据TT分割结构的实例分割类型包含水平对称三叉树、竖直对称三叉树、水平非对称三叉树及竖直非对称三叉树分割类型。对于水平对称三叉树分割类型,视频编码器22可经配置以在不从中心分裂块的情况下水平地将块分裂成三个块。当根据水平对称三叉树分割划分时,在中心子块上方及下方的块经镜像,即其为相同的大小。如果块可直接由三除尽(例如12个样本高),则中心块可与上部块及下部块有相同的大小。如果块不可直接由三除尽(例如8个样本高),则中心块与上部块及下部块相比可有不同的大小。举例来说,对于8个样本高的块,上部块及下部块可为3个样本高且中心块可为2个样本高。在另一实例中,对于8个样本高的块,上部块及下部块可为2个样本高,且中心块可为4个样本高。图5E展示水平三叉树分割的实例。
对于竖直对称三叉树分割类型,视频编码器22可经配置以在不从中心分裂块的情况下竖直地将块分裂成三个块。当根据竖直对称三叉树分割划分时,中心子块左侧及右侧的块经镜像,即其为相同的大小。如果块可直接由三除尽(例如12个样本宽),则中心块可与左侧块及右侧块有相同的大小。如果块不可直接由三除尽(例如8个样本宽),则中心块与左侧块及右侧块相比可有不同的大小。举例来说,对于8个样本宽的块,左侧块及右侧块可为3个样本宽且中心块可为2个样本宽。在另一实例中,对于8个样本宽的块,左侧块及右侧块可为2个样本宽,且中心块可为4个样本宽。图5D展示竖直三叉树分割的实例。
对于水平非对称三叉树分割类型,视频编码器22可经配置以水平地将块分裂成不对称地镜像的三个块。在一些实例中,水平非对称三叉树分割类型可从中心分裂块,且在其它实例中,水平非对称三叉树分割类型可并不从中心分裂块。对于竖直非对称三叉树分割类型,视频编码器22可经配置以竖直地将块分裂成不对称地镜像的三个块。在一些实例中,竖直非对称三叉树分割类型可从中心分裂块,且在其它实例中,竖直非对称三叉树分割类型可并不从中心分裂块。
在其中块(例如在子树节点处)分裂成非对称三叉树分割类型的实例中,视频编码器22及/或视频解码器30可应用限制,使得三个分割中的两者具有相同的大小。此限制可对应于视频编码器22在编码视频数据时必须符合的限制。此外,在一些实例中,视频编码器22及视频解码器30可应用一限制,藉此当根据非对称三叉树分割类型分裂时,两个分割的面积的总和等于剩余分割的面积。举例来说,视频编码器22可产生或视频解码器30可接收运用一限制编译的初始视频块的经编码表示,所述限制指定当对应于树状结构的节点的视频块根据非对称三叉树图案分割时,节点具有第一子节点、第二子节点及第三子节点,所述第二子节点对应于在对应于第一子节点与第三子节点的视频块之间的一视频块,对应于第一及第三子节点的视频块具有相同的大小,且对应于第一子节点及第三子节点的视频块的大小的总和等于对应于第二子节点的视频块的大小。
在本发明的一些实例中,视频编码器22可经配置以自前述分割类型的所有类型当中选择用于QT、BT及TT分割结构中的每一者。在其它实例中,视频编码器22可经配置以仅从前述分割区类型的子集当中确定一分割类型。举例来说,上文论述的分割类型(或其它分割类型)的子集可用于某些块大小或用于四叉树结构的某些深度。所支持分割类型的子集可在位流中用信号表示以供视频解码器30使用或可经预定义,以使得视频编码器22及视频解码器30可在没有任何信令的情况下确定子集。
在其它实例中,所支持分割类型的数目对于所有CTU中的所有深度可为固定的。即,视频编码器22及视频解码器30可经预先配置以使用相同数目的分割类型用于CTU的任一深度。在其它实例中,所支持分割类型的数目可变化且可取决于深度、切片类型或其它先前译码的信息。在一个实例中,在树状结构的深度0或深度1处,仅使用QT分割结构。在大于1的深度处,可使用QT、BT及TT分割结构中的每一者。
在一些实例中,视频编码器22及/或视频解码器30可应用对于所支持分割类型的经预先配置约束,以便避免对于视频帧的某一区或CTU的区的重复分割。在一个实例中,当块运用非对称分割类型分裂时,视频编码器22及/或视频解码器30可经配置以不进一步分裂自当前块分裂的最大子块。举例来说,当正方形块根据非对称分割类型(例如图3中的PART_2NxnU分割类型)分裂时,所有子块当中的最大子块(例如图3中的PART_2NxnU分割类型的PU1)为所提及的叶节点且不可进一步分裂。然而,较小子块(例如图3中的PART_2NxnU分割类型的PU0)可进一步分裂。
作为其中对于所支持分割类型的约束可经应用以避免对于某一区的重复分割的另一实例,当块运用非对称分割类型分裂时,自当前块分裂的最大子块不可在相同方向上进一步分裂。举例来说,当正方形块运用非对称分割类型(例如图3中的PART_2NxnU分割类型)分裂时,视频编码器22及/或视频解码器30可经配置以并不在水平方向上分裂所有子块当中的大子块(例如图3中的PART_2NxnU分割类型的PU1)。然而,在此实例中,视频编码器22及/或视频解码器30可同样在竖直方向上分裂PU1。
作为其中对于所支持分割类型的约束可经应用以避免在进一步分裂时困难的另一实例,视频编码器22及/或视频解码器30可经配置以当块的宽度/高度并非为2的幂时(例如,当宽度高度并非为2、4、8、16等时),不水平地或竖直地分裂块。
以上实例描述视频编码器22可如何经配置以执行根据本发明的技术的MTT分割。视频解码器30也可接着应用与通过视频编码器22执行的MTT分割相同的MTT分割。在一些实例中,视频数据的帧如何通过视频编码器22分割可通过在视频解码器30处应用预定义规则的相同集合而确定。然而,在许多情形中,视频编码器22可基于速率失真准则针对正被译码的视频数据的特定帧确定待使用的特定分割结构及分割类型。因而,为了视频解码器30确定用于特定帧的分割,视频编码器22可在经编码位流中用信号表示语法元素,所述语法元素指示帧及帧的CTU如何被分割。视频解码器30可剖析这些语法元素且相应地分割帧及CTU。
在本发明的一个实例中,视频编码器22可经配置以将所支持分割类型的特定子集作为高级语法元素在序列参数集(SPS)、图片参数集(PPS)、切片标头、自适应参数集(APS)或任何其它高级语法参数集中用信号表示。举例来说,分割类型的最大数目及支持哪些类型可在序列参数集(SPS)、图片参数集(PPS)或任何其它高级语法参数集中经预定义,或在位流中作为高级语法元素用信号表示。视频解码器30可经配置以接收并剖析此语法元素以确定使用的分割类型的特定子集及/或支持的分割结构(例如QT、BT、TT等)及类型的最大数目。
在一些实例中,在每一深度处,视频编码器22可经配置以用信号表示指示在树状结构的彼深度处使用的所选择分割类型的一索引。此外,在一些实例中,视频编码器22可在每一CU处适应性地用信号表示此分割类型索引,即,所述索引对于不同CU可为不同的。举例来说,视频编码器22可基于一或多个速率失真计算而设定分割类型的索引。在一个实例中,如果满足某一条件,则可跳过分割类型(例如分割类型的索引)的信令。举例来说,当存在仅一个与特定深度相关联的支持分割类型时,视频编码器22可跳过分割类型的信令。在此实例中,当接近图片边界时待译码的区域可小于CTU。因此,在此实例中,CTU可经强迫被分裂以适于图片边界。在一个实例中,仅对称二叉树用于强迫的分裂且无分割类型被用信号表示。在一些实例中,在某一深度处,分割类型可基于先前译码的信息(诸如切片类型、CTU深度、CU位置)而导出。
在本发明的另一实例中,对于每一CU(叶节点),视频编码器22可经进一步配置以用信号表示指示变换是否将对相同大小的CU执行的语法元素(例如,一位transform_split旗标)(即,旗标指示TU为相同大小的CU还是经进一步分裂)。在transform_split旗标经用信号表示为真的状况下,视频编码器22可经配置以将CU的残余进一步分裂成多个子块且对每一子块进行变换。视频解码器30可执行互逆过程。
在一个实例中,当transform_split旗标经用信号表示为真时,以下被执行。如果CU对应于正方形块(即,CU为正方形),则视频编码器22使用四叉树分裂将残余分裂成四个正方形子块,且对每一正方形子块执行变换。如果CU对应于非正方形块(例如,M×N),则视频编码器22将残余分裂成两个子块,且当M>N时子块大小为0.5M×N,且当M<N时子块大小为M×0.5N。作为另一实例,当transform_split旗标经用信号表示为真且CU对应于非正方形块(例如,M×N)(即,CU为非正方形)时,视频编码器22可经配置以将残余分裂成大小为K×K的子块,且K×K正方形变换用于每一子块,其中K等于M及N的最大因数。作为另一实例,当CU为正方形块时无transform_split旗标经用信号表示。
在一些实例中,当在预测之后CU中存在残余时,无分裂旗标经用信号表示且使用仅具有一个经导出大小的变换。举例来说,对于大小等于M×N的CU,使用K×K正方形变换,其中K等于M及N的最大因数。因此,在此实例中,对于大小为16×8的CU,相同8×8变换可应用于CU的残余数据的两个8×8子块。“分裂旗标”为指示树状结构中的节点具有树状结构中的子节点的语法元素。
在一些实例中,对于每一CU,如果CU未经分裂成正方形四叉树或对称二叉树,则视频编码器22经配置以将变换大小始终设定为等于分割的大小(例如CU的大小)。
应理解,对于关于视频编码器22描述的以上实例中的每一者,视频解码器30可经配置以执行互逆过程。关于用信号表示语法元素,视频解码器30可经配置以接收及剖析此语法元素且因此分割及解码相关联视频数据。
在本发明的一个特定实例中,视频解码器可经配置以根据三个不同分割结构(QT、BT及TT)分割视频块,其中在每一深度处允许五种不同分割类型。分割类型包含四叉树分割(QT分割结构)、水平二叉树分割(BT分割结构)、竖直二叉树分割(BT分割结构)、水平中心侧三叉树分割(TT分割结构),及竖直中心侧三叉树分割(TT分割结构),如图5A至图5E中所示。
五种实例分割类型的定义如下。请注意正方形被视为矩形的特殊状况。
·四叉树分割:块经进一步分裂成四个相同大小的矩形块。图5A展示四叉树分割的实例。
·竖直二叉树分割:块经竖直地分裂成两个相同大小的矩形块。图5B为竖直二叉树分割的实例。
·水平二叉树分割:块经水平地分裂成两个相同大小的矩形块。图5C为水平二叉树分割的实例。
·竖直中心侧三叉树分割:块经竖直地分裂成三个矩形块,以使得两个侧块共用相同的大小而中心块的大小为两个侧块的总和。图5D为竖直中心侧三叉树分割的实例。
·水平中心侧三叉树分割:块经水平地分裂成三个矩形块,以使得两个侧块共用相同的大小而中心块的大小为两个侧块的总和。图5E为水平中心侧三叉树分割的实例。
对于与特定深度相关联的块,视频编码器22确定使用哪一分割类型(包含未进一步分裂)且显式地或隐式地用信号表示经确定分割类型(例如分割类型可从预先确定的规则导出)至视频解码器30。视频编码器22可基于检查使用不同分割类型的块的速率失真成本确定待使用的分割类型。为得到速率失真成本,视频编码器22可需要递回地检查块的可能的分割类型。
图6为说明译码树型单元(CTU)分割的实例的概念图。换句话说,图6说明对应于CTU的CTB 80的分割。在图6的实例中,
·在深度0处,CTB 80(即,整个CTB)运用水平二叉树分割(如具有由单个点分隔开的短划线的线82所指示)而分裂成两个块。
·在深度1处:
·运用竖直中心侧三叉树分割(如通过具有小短划线的线84及86所指示),将上部块分裂成三个块。
·运用四叉树分割(如通过具有由两个点分隔开的短划线的线88及90所指示),将下部块分裂成四个块。
·在深度2处:
·运用水平中心侧三叉树分割(如通过具有由短的短划线分隔开的长短划线的线92及94所指示),将在深度1处的上部块的左侧块分裂成三个块。
·在深度1处无对于上部块的中心及右块的进一步分裂。
·在深度1处无对于下部块的四个块的进一步分裂。
如可在图6的实例中看到,使用具有四个不同分割类型(水平二叉树分割、竖直中心侧三叉树分割、四叉树分割及水平中心侧三叉树分割)的三个不同分割结构(BT、QT及TT)。
在另一实例中,额外约束可应用于在某一深度处或具有某一大小的块。举例来说,在块的高度/宽度小于16像素情况下,不可运用竖直/水平中心侧树分裂块以避免具有小于4像素的高度/宽度的块。
在2016年10月F.Le Léannec,T.Poirier,F.Urban的“QTBT中的不对称译码单元(Asymmetric Coding Units in QTBT)”JVET-D0064(在下文中,“JVET-D0064”中,提议结合QTBT使用不对称译码单元。四种新二叉树分裂模式(例如,分割类型)被引入至QTBT架构中,以便允许新的分裂配置。除QTBT中已经可用的分裂模式之外,提议所谓的不对称分裂模式,如通过图7所示。如图7中所示,HOR_UP、HOR_DOWN、VER_LEFT及VER_RIGHT分割类型为不对称分裂模式的实例。
根据附加不对称分裂模式,大小为S的译码单元在水平(例如,HOR_UP或HOR_DOWN)方向或竖直(例如,VER_LEFT或VER_RIGHT)方向上划分成大小为S/4及3.S/4的2个子CU。在JVET-D0064中,新加的CU宽度或高度可仅仅为12或24。
现将论述用于正及反变换的技术。在图像/视频译码中,变换主要应用于2-D输入数据源。于2-D输入数据上应用变换的实例方法包含可分离的及不可分离的2-D变换。由于可分离变换与不可分离2-D变换相比需要更少操作(加法及乘法)计数,所以通常使用可分离2-D变换。
在一个实例中,变数X为输入W×H数据阵列,其中W为阵列的宽度且H为阵列的高度。实例可分离2-D变换顺序应用X的水平向量及竖直向量的1-D变换,公式如下:
Y=C·X·RT
其中Y为X的经变换阵列,且其中C及R分别表示W×W及H×H变换矩阵,其可呈整数精度或双精度。T(如以下等式(1)中)表示呈整数值的变换矩阵。从公式可见C应用X的列向量的1-D竖直(列、左侧)变换,而R应用X的行向量的1-D水平(行、右侧)变换。
在HEVC中,W等于H(且等于S)。因而,W×H数据阵列可由22*K表示,其中K为整数且S等于2K。变换矩阵(C及R)如下产生为T。
其中T表示呈整数值的变换矩阵,int()为获得矩阵的每一浮点元素值的最接近整数值的函数,S指示变换的大小(诸如8点或32点变换),M指示呈浮动值的变换类型的酉矩阵,且2N为控制整数变换矩阵T的准确度的缩放因数(诸如N=6用于HEVC变换)。如果复方矩阵U的共轭转置U*也为其逆(即,如果U*U=U U*=I,其中I为单位矩阵),则其为酉阵。另外,在HEVC中,变换矩阵可导出为具有稍微通过+1或-1调整的几个元素的T。
在HEVC中,在应用水平及竖直变换之后,变换的输出与酉变换(即M)相比被放大大致)2。由于S在HEVC中为2的幂,所以)2的值也变为2的幂。因此,变换矩阵中引入的可在变换期间用位移位补偿。由于HEVC矩阵与正规正交DCT变换相比较通过(假设S=2K)缩放,且为了经由正及反二维变换保持残余块的范数,所以应用额外比例因数fwd_shift1及fwd_shift2。类似地,对于反变换,归因于通过缩放的反变换矩阵,也使用缩放因数。因此,为经由二维正及反变换保持范数,比例因数的乘积应等于举例来说,在HEVC参考软件中的正变换中,视频编码器22分别在如下水平(fwd_shift1)及竖直(fwd_shift2)正变换之后应用一移位,以确保在每一变换之后,在D等于8情况下,输出适合16位。
fwd_shift1=log2S+D+6-r (2)
fwd_shift2=log2S+6 (3)
对于HEVC参考软件中的反变换,视频解码器30分别在如下竖直(inv_shift1)及水平(inv_shift2)反变换之后应用一移位,
inv_shift1=7 (4)
invshift2=5-D+r (5)
其中D表示用于重构视频的位深度。四个移位的总和为(2*log2S+24=2*K+24)。位深度可在SPS中指定。位深度值D=8及D=10分别导致8位及10位像素重构。参数r控制水平正变换的精度。r的较大值得到较高精度。在一些实例中,r的值取决于如SPS中指定的配置可为固定值15或15或D+6中的最大值(例如,max(15、D+6))。
应注意,S的相同值用于以上shift1及shift2计算,这是因为仅正方形变换(水平及竖直变换的大小相同)用于HEVC。
在视频译码的一些实例中,使用QTBT分割,一些新的变换,例如,非正方形8×4变换。在此状况下,log2(W)+log2(H)的输出并非为偶数值。在此状况下,额外因数被引入,但在变换期间不可用简单位移位补偿。因此,如2016年11月22日申请的美国专利公开案第20170150176号,及2016年11月22日申请的美国专利公开案第20170150183号中所描述,提议将值吸收至量化过程(例如与改变变换矩阵相反)中。
在不对称译码单元(例如,图7中展示的所述单元)中,可使用大小不等于2的幂的变换,诸如大小为12及24的变换。因此,这些不对称译码单元引入无法在变换过程中容易进行补偿的更多因数。可能需要额外处理来对这些不对称译码单元执行变换或反变换。
现将论述用于正及/或反量化的技术。在变换过程(其将残余能量压至较低频率系数)之后,视频编码器22应用量化以控制残余重构的失真。因此,在视频解码器30处,在反变换之前执行反量化(解量化)过程。
对于正量化,在HEVC参考软件中,视频编码器22应用零值区加均匀量化方案,如下文所描述,
y′=sign(y)·(|y|·Q+f·2qbits)>>qbits (6)
其中y为输入变换系数,Q为量化缩放因数,f为控制零值区大小(如图8中所示,其中零值区是在范围[-(1-f)*Δ,(1-f)*Δ])内,sign(y)=y>0?1:-1,qbits为移位参数,且y'给出输出经量化变换系数。落至零值区区域中的所有值将经量化为0。图8为说明零值区加均匀量化方案的概念图。在一个实例中,增量的值(图8中的Δ)可为Δ=2qbits
在HEVC中,对于帧内切片,f为171/512,否则,f为85/512。
以上量化缩放因数Q及移位参数qbits经指定如下,
Q=g_quantScales[QP%6] (7)
其中QP为用户定义的量化参数,g_quantScales为以下如HEVC参考软件中指定的常数阵列。
另外,qbits经导出如下,
其中iTransformShift=r-D-log2(S),其中S为块大小,D及r与以上等式(2)及(5)中定义的相同。
对于HEVC中的反量化,反量化过程经指定如下,
其中y'为输入经量化变换系数,为经解量化变换系数,DQ经指定如下,
Q=g_invQuantScales[QP%6] (10)
其中g_invQuantScales为如下指定的常数阵列,
另外,qbits'经导出如下,
其中iTransformShift=r-D-log2(S),其中S为块大小,D及r与等式(2)及(5)中定义的相同。
从等式(8)中的iTransformShift的上述定义,可见反量化过程取决于块大小。
现将论述帧内切片的分离的树状结构。在VCEG建议书COM16-C966中,提议帧内切片的分离的树状结构。为进一步改进译码性能,尤其对于色度分量,提议帧内切片中的明度及色度分量具有不同的树状结构。即,色度块可以与明度块不同的方式而分割。帧内切片为包含经帧内译码的译码单元的切片。
运用根据各种QTBT及MTT分割结构译码视频数据的当前提议观察到以下问题。当将大小不为2的幂的变换并入至MTT架构中时,可需要特定处理以更有效处理在变换及/或反变换过程期间无法用移位操作补偿的因数。当在MTT架构下使用分离的明度及色度树状结构时,用于色度分量的复杂的树状结构可未必总是有益的。当将分离的明度及色度树扩展至帧间帧时,运动信息经用信号表示用于明度及色度两者,这导致大量信令成本。当使用分离的明度及色度树状结构时,明度及色度树有时确实具有相同分裂图案。在此状况下,独立地用信号表示明度及色度分割可并非是高效的。
为解决上文所提及的问题,提议以下技术。视频编码器22及视频解码器30可经配置以按互逆方式执行以下技术。可个别地应用以下详细列举的技术。另外,以下技术中的每一者可以任何组合一起使用。
在本发明的第一实例中,当并入大小不为2的幂的变换时,本发明提议在视频解码器30处及/或在视频编码器22及视频解码器30两者处使用舍位的经修改S'而非等式(1)中的真大小S产生变换矩阵。当块具有非正方形形状时可发生具有并非为2的幂的大小的变换。在这些变化情况下,变换的缩放(其不可通过位移位补偿)经吸收至变换矩阵中。因此,可能不必在变换及量化处理中改变其它处理技术(假定问题是以上文所论述方式来处置)。
在第一实例的一个方面中,视频编码器22及视频解码器30可经配置以将真大小S舍位至变换以通过将真大小S舍位至为2的幂的值而获得经修改值S′。举例来说,为12的S值经舍位至16,且为24的S值经舍位至32。一般来说,S′的值可通过将S上下舍位至最接近2的幂而获得。
在一个实例中,视频解码器30可经配置以接收经编码视频数据块。在一个实例中,经编码视频数据块包含经反量化变换系数。在一些实例中,视频数据块可具有非正方形形状。视频解码器30可经进一步配置以确定用于经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S。视频解码器30可经进一步配置以将S舍位至二的幂,从而产生具有经修改大小S'的变换。视频解码器30接着可将具有经修改大小S'的反变换应用于经编码视频数据块以产生残余视频数据,且解码残余视频数据以产生经解码视频数据块。
类似地,视频编码器22可经配置以接收视频数据块。在一些实例中,视频编码器22将视频数据块分割成非正方形形状。视频编码器22可预测(例如,使用帧间预测及/或帧内预测)视频数据块以产生残余视频数据。视频编码器22可确定用于残余视频数据的变换,其中所述变换具有并非为二的幂的大小S。视频编码器22可将S舍位至二的幂从而产生具有经修改大小S'的变换,且将具有经修改大小S'的变换应用于残余视频数据以产生变换系数。在一些实例中,视频编码器22也可量化变换系数。视频编码器22接着可在经编码视频位流中编码(例如使用熵译码,诸如CABAC)变换系数。
在第一实例的另一方面中,等式(2)及等式(3)中的自适应移位基于S′而非S。举例来说,经修改等式(2)'及等式(3)'可修改如下:
fwd_shift1=log2S′+D+6-r (2)'
fwd_shift2=log2S′+6 (3)'
在第一实例的另一方面中,当导出整数变换矩阵T时,紧接着如等式(1)中所示的酉变换的缩放因数由预定义固定值(例如,256、512或1024)替换。在一个实例中,如等式(2)及等式(3)中所描述的右移位操作是以fwd_shift1及/或fwd_shift2的值不再取决于S的方式而修改,即,自等式(2)及/或等式(3)中移除log2S。在此状况下,S将与变换大小无关,即,等式(2)及等式(3)中的移位不管变换大小而设定成固定值。
在第一实例的另一方面中,对于反变换,原始移位操作保持不变。即,视频解码器30可经配置以执行如等式(4)及等式(5)中所描述的反移位。
inv_shift1=7 (4)
invshift2=5-D+r (5)
在第一实例的另一方面中,如等式(8)及/或等式(11)中所描述的右移位操作是以qbits及/或qbits'的值不再取决于S的方式而修改,即,从等式(8)及/或等式(11)中移除log2S。经修改等式(8)'及等式(11)'展示如下。
在本发明的一个实例中,当执行变换系数的量化时,视频编码器22可将qbits的值确定为下文所示,
其中iTransformShift=r-D,其中D及r与上述等式(2)及等式(5)中定义的相同。
另外,当执行变换系数的反量化时,视频解码器30可将qbits'的值确定为下文所示,
其中iTransformShift=r-D,其中D及r与等式(2)及等式(5)中定义的相同。
在第一实例的另一方面中,如等式(4)及等式(5)中所描述的右移位操作是以inv_shift1及/或inv_shift2的值取决于S的方式而修改,诸如
inv_shift1=7+log2S (4)”
invshift2=5-D+r+log2S (5)”
在本发明的第二实例中,当根据MTT结构(诸如使用二叉树、对称中心侧三叉树、四叉树及不对称树类型的结构)分割块时,视频编码器22及视频解码器30可经配置以使用可使用的两级MTT分割块。实例两级MTT结构是在2017年3月20日申请的美国专利公开案第US20170272782号中描述。在两级MTT中,在第一级(被称作“区域树级”)处,视频数据的图片或块经分裂成数个区域,每一区域具有能够将大块快速分割成小块(例如使用四叉树或十六分树)的一或多个树类型。在第二级(被称作“预测级别”)处,区域是用MTT技术进一步分裂(包含非进一步分裂)。预测树的叶节点在本发明中称为译码单元(CU)。另外,可使用以下技术。
在第二实例的一个方面中,对于已经用信号表示为进一步分裂的预测树,视频编码器22可首先用信号表示指示竖直或水平分裂的旗标。视频编码器22接着可用信号表示指示此分裂是否为对称分裂(例如,二叉树或对称中心侧三叉树)的旗标。如果分裂为对称分裂,则视频编码器22可用信号表示各种允许的对称分割区类型(诸如二叉树或对称中心侧三叉树)的类型索引。否则(例如分裂为不对称分裂),视频编码器22可用信号表示指示不对称分裂是上下分裂(例如当分裂为水平分裂时),还是指示分裂为左右分裂(例如当分裂为竖直分裂时)的旗标。视频解码器30可经配置以接收及剖析前述旗标且因此分割视频块。
在第二实例的另一方面中,对于已经用信号表示为进一步分裂的预测树,视频编码器22可首先用信号表示指示竖直或水平分裂的旗标。接下来,视频编码器22可用信号表示指示分裂是否为二叉树分割类型的旗标。如果分裂并非为二叉树分割类型,则视频编码器22可用信号表示其它树类型(诸如对称中心侧三叉树或不对称树)的类型索引。如果分裂为不对称树,则视频编码器22可用信号表示指示分裂为上下分裂(例如当分裂为水平分裂时),或指示分裂为左右分裂(例如当分裂为竖直分裂时)的旗标。视频解码器30可经配置以接收及剖析前述旗标且因此分割视频块。
在第二实例的另一方面中,对于已经用信号表示为进一步分裂的预测树,视频编码器22可用信号表示指示竖直或水平分裂的旗标。视频编码器22接着可用信号表示指示分裂是否为对称中心侧三叉树的旗标。如果分裂并非为对称中心侧三叉树分割类型,则视频编码器22可用信号表示其它树类型(诸如二叉树或不对称树)的类型索引。如果分裂为不对称树,则视频编码器22可用信号表示指示不对称树分裂为上下分裂(例如当分裂为水平分裂时),还是指示不对称树分裂为左右分裂(例如当分裂为竖直分裂时)的旗标。视频解码器30可经配置以接收及剖析前述旗标且因此分割视频块。
在本发明的另一方面中,视频编码器22可经配置以根据经译码信息的特性(诸如相关联指示符/相邻块的分割类型、切片/图片类型)自适应地改变用于用信号表示指示竖直/水平分裂、及/或上/下分裂、及/或左/右分裂、及/或树类型分割类型的语法元素的次序。在一个实例中,不同切片/图片可使用指示分割(块如何被分裂)的经用信号表示语法元素的不同次序。在另一实例中,视频编码器22可经配置以改变每一块的语法元素的次序。视频解码器30可经配置以按通过视频编码器22确定的相同次序接收前述语法元素。视频解码器30可以与视频编码器22相同的方式确定语法元素的次序。
在第二实例的另一方面中,用以熵译码指示不对称树分割类型(例如,上/下或左/右分割)的语法元素的上下文可经如下导出。图9展示本发明的此实例的实例不对称分割类型。让A、B、C为涵盖紧接在图9(左上)中所说明的分割中的每一者的中心位置上方的位置的块的块大小。在此实例中,视频编码器22及视频解码器30可使用初始化成零的计数器确定上下文模型的索引。计数器的值用以确定上下文。
考虑以下条件:
条件1:如果A不等于B且B等于C。
条件2:如果上方CU为在左半边具有边界的竖直分割的不对称树。
在一个实例中,如果满足条件1或条件2,则视频编码器22及视频解码器30可经配置以将计数器递增一。在另一实例中,如果满足条件1及条件2两者,则视频编码器22及视频解码器30可经配置以将计数器递增一。在另一实例中,如果满足条件1,则视频编码器22及视频解码器30可经配置以将计数器递增一。类似地,如果满足条件2,则视频编码器22及视频解码器30可经配置以将计数器递增一。
在另一实例中,A、B、C可相对于分割在其它位置处。在一个实例中,A、B、C为涵盖紧接在图9(上方中间)中所说明的分割中的每一者的左上方拐角的上方的位置的块的块大小。在另一实例中,让A、B、C为涵盖紧接在图9(右上)中所说明的分割中的每一者的右上方拐角的上方的位置的块的块大小。
在另一实例中,让D、E、F为涵盖紧接在图9(左下方)中所说明的分割中的每一者的中心位置的左侧的位置的块的块大小。
在此实例中,考虑以下条件:
条件1:如果D不等于E且E等于F。
条件2:如果左侧CU为在上半部具有边界的水平分割的不对称树。
在一个实例中,如果满足条件1或条件2,则视频编码器22及视频解码器30可经配置以将计数器递增一。在另一实例中,如果满足条件1及条件2两者,则视频编码器22及视频解码器30可经配置以将计数器递增一。在另一实例中,如果满足条件1,则视频编码器22及视频解码器30可经配置以将计数器递增一。类似地,如果满足条件2,则视频编码器22及视频解码器30可经配置以将计数器递增一。
在另一实例中,D、E、F可在其它位置处。在一个实例中,D、E、F为涵盖紧接在图9(底部中间)中所说明的分割中的每一者的左上方拐角左侧的位置的块的块大小。在另一实例中,让D、E、F为涵盖紧接在图9(右下)中所说明的分割中的每一者的左下拐角左侧的位置的块的块大小。
在另一实例中,视频编码器22及视频解码器30可经配置以按预定义方式确定A至F的位置。在另一实例中,视频编码器22可经配置以在SPS、PPS或切片标头中用信号表示块A至F的位置。
在第二实例的另一方面中,视频编码器22及视频解码器30可经配置以将用以用信号表示树对称性的旗标的上下文导出如下。在一个实例中,可使用单个上下文模型。在另一实例中,视频编码器22及视频解码器30可经配置以基于计数器使用多级上下文模型。在一个实例中,计数器的初始值为零。如果上方CU为不对称块,则视频编码器22及视频解码器30可经配置以将计数器递增一。如果左侧CU为不对称块,则视频编码器22及视频解码器30可经配置以将计数器递增一。如果左上方CU为不对称块,则视频编码器22及视频解码器30可经配置以将计数器递增一。如果右上方CU为不对称块,则视频编码器22及视频解码器30可经配置以将计数器递增一。如果上方四个块中无一者属于不对称块,则视频编码器22及视频解码器30可经配置以将计数器设定为5。
在第二实例的另一方面中,视频编码器22可经配置以条件性地产生及用信号表示指示预测树是否经进一步分裂的旗标。当预测树的大小在不进一步分裂的情况下使用不支持其大小的变换时,视频编码器22可经配置以不用信号表示分裂旗标。更确切来说,基于预测树的大小在不进一步分裂的情况下使用不支持其大小的变换的条件,视频编码器22及视频解码器30两者可经配置以推断预测将被进一步分裂。
在第二实例的另一方面中,在基于区域树(RT)运用可变预测树(PT)深度译码的视频系统中,最低限度允许的块大小可为RT相依的。因而,可避免用信号表示PT的分裂旗标、分裂方向旗标(水平/竖直)、树对称性旗标或其它前述树类型旗标。另外,如果CTU经允许用某些或所有类型的PT分裂,则类似约束条件可强加于处于跨越帧边界的CTU。
在本发明的一个实例中,视频编码器22可经配置以使用两级多种类型树分割结构分割视频数据,并产生指示两级多种类型树分割结构的预测树如何构造的语法元素,所述语法元素包含以下各者中的一或多者:指示竖直或水平分裂的旗标;指示分裂是否为对称分裂的旗标;类型索引;或指示不对称分裂是上下分裂还是左右分裂的旗标。在一个实例中,视频编码器22可经配置以基于相邻块的块大小确定用于语法元素的上下文。在本发明的另一实例中,视频编码器22可经配置以基于相邻块的分割类型确定用于语法元素的上下文。
在本发明的第三实例中,当使用用于明度及色度分量的分离的树状结构(例如明度块及色度块经独立地分割)时,视频编码器22可经配置以产生及用信号表示独立地指示用于明度及色度分量的允许的树类型的语法元素。即,视频编码器22可产生指示用于明度块及色度块两者的允许的树类型的独立语法元素。语法元素的值可指示两个或大于两个树类型中的哪些经允许用于特定明度或色度块。实例树类型可为上文所论述的树类型中的任何者,包含对称及不对称二叉树类型、四叉树树类型以及对称及不对称三叉树类型。视频解码器30可经配置以剖析指示允许的树类型的语法元素。
视频编码器22可经进一步配置以用信号表示指示所允许树类型中的哪些用于特定块的额外语法元素。视频解码器可经配置以剖析额外语法元素,并从指示允许的树类型的语法元素及指示所允许树类型当中的待使用的特定树类型的额外语法元素确定如何分割特定块。
在一个实例中,视频编码器22可在视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)、自适应参数集(APS)或任何其它序列/图片/切片级别语法元素体处单独地用信号表示用于明度及色度分量的允许的树类型。在一个实例中,树类型可包含二叉树、对称中心侧三叉树、四叉树或不对称树类型中的至少两者。在另一实例中,二进制及/或对称中心侧三叉树可始终启用(例如始终允许),而对称中心侧三叉树及/或不对称CU/树分割类型是可选的且在位流中用信号表示。
在本发明的第四实例中,当扩展分离的明度/色度树状结构至帧间切片时,视频编码器22可经配置以用信号表示诸如仅用于明度树(也称为初级树)的运动信息一次。视频解码器30接着可经配置以继承(例如再次使用)用于在与明度块共置位置处的块的其它树状结构(例如,用于色度块的二级树状结构)的运动信息。在共置色度块大于单个共置明度块的情况下,视频解码器30可经配置以再次使用所有共置明度块的运动信息,即,一个色度译码块可包含来自所有共置明度块的运动信息的若干集合。在另一实例中,视频解码器30可经配置以使用初级树的运动信息作为其它树(例如色度块的树状结构)的运动信息的预测因子。
一般来说,根据本发明的此实例,视频解码器30可经配置以分割视频数据的明度块,且独立于分割视频数据的明度块而分割视频数据的一或多个色度块。用于视频数据的明度块的分割结构可为多种类型树分割结构,且用于视频数据的一或多个色度块的分割结构也可为多种类型树分割结构。视频解码器30可经进一步配置以对于帧间切片,确定视频数据的明度块的运动信息,且从视频数据的明度块的经确定运动信息推断用于视频数据的一或多个色度块的运动信息。
在本发明的第五实例中,在分离的树译码(例如,明度及色度块经独立地运用可能不同分割来分割)中,当初级树中的共置块含有帧内译码块及帧间译码块两者时色度树(可称为二级树)的树分裂图案是从明度树(可称为初级树)继承。即,视频编码器22及视频解码器30可经配置以当明度块包含帧内译码块及帧间译码块两者时使用与相关联明度块相同的分裂图案分割色度块。
在此实例中,视频编码器22可经配置以仅在初级树中的共置块(例如明度块)仅含有相同类型块时仅用信号表示用于二级树的树分裂图案。即,共置明度块包含所有帧间译码块或所有帧内译码块。在一个实例中,树分裂图案包含(但不限于)树类型(不分裂也可视为特定树类型)。树类型可包含对称树类型及不对称树类型两者,诸如二叉树、三叉树及四叉树。
一般来说,根据本发明的此实例,视频解码器30可经配置以分割视频数据的明度块,在明度块包含帧内译码块及帧间译码块两者的情况下推断用于视频数据的一或多个色度块的分割与用于视频数据的明度块的分割相同,及当明度块包含所有相同类型的译码块时从所用信号表示的语法元素确定用于视频数据的一或多个色度块的分割。
在本发明的第六实例中,为了减少PT分裂旗标的信令成本,视频编码器22及视频解码器30可经配置以使用相邻块与当前块的大小的相对大小来确定PT分裂旗标的上下文。
在一个实例中,视频编码器22及视频解码器30可经配置以使用块相对于其相邻块的大小选择用于PT树类型译码的上下文。在一个实例中,当当前块的宽度大于其上方相邻块的宽度时,当前块更可能经进一步分裂。类似地,当当前块的高度大于其左侧相邻块的高度时,当前块更可能经进一步分裂。此外,左上方、右上方及左下方相邻块与当前块大小的相对大小也提供有用信息以确定当前块是否应进一步分裂。如果当前块大小大于其相邻块大小,则当前块也更可能经进一步分裂。视频编码器22及视频解码器30可经配置以使用前述事件的聚合出现次数作为至PT分裂旗标的上下文的索引。另外,个别事件也可形成用于PT分裂旗标的上下文的集合。
在一个实例中,视频编码器22及视频解码器30可经配置以使用上部相邻块的宽度及左侧相邻块的高度来确定用于PT分裂方向(例如水平分裂或竖直分裂)的上下文。如果上部相邻块的宽度小于当前块的宽度且左侧相邻块的高度大于或等于当前块的高度,则当前块更可能经竖直地分裂。类似地,如果左侧相邻块的高度小于当前块的高度且上部相邻块的宽度大于或等于当前块的宽度,则当前块更可能经水平地分裂。
在另一实例中,视频编码器22及视频解码器30可经配置以使用上部相邻块的宽度及左侧相邻块的高度来确定用于PT分裂模式的上下文(例如,在分裂模式之间(诸如二叉树与中心侧三叉树之间)的确定)。如果上部相邻块的宽度小于当前块的宽度且当前块经竖直地分裂,或如果左侧相邻块的高度小于当前块的高度且当前块经水平地分裂,则当前块更可能经分裂为三叉树。
在一个实例中,如果相邻块不可用,则视频编码器22及视频解码器30可经配置以在当前上下文导出期间使用预设上下文值。在另一实例中,当不同RT或PT分裂经允许用于不同分量(诸如,Y、Cb、Cr或深度分量)时,可通过使用其它分量中的相关联块作为相邻块而应用所有前述方法。
在另一实例中,视频编码器22及视频解码器30可经配置以使用相邻块与当前块的深度相对的深度来确定PT分裂语法元素的上下文。
在另一实例中,对于具有等于最小块大小三倍的宽度/高度的块的一个侧面,视频编码器22及视频解码器30可经配置以使用上方或左侧相邻块的中心位置的块大小或PT深度以导出上下文。
在另一实例中,当块的宽度/高度等于最小块大小的三倍时,视频编码器22及视频解码器30可经配置以使用三个相邻块的块大小的平均值或PT深度以导出上下文。
在另一实例中,当块的宽度/高度等于最小块大小的三倍时,视频编码器22及视频解码器30可经配置以使用三个相邻块的块大小的最大值或PT深度以导出上下文。
在另一实例中,当块的宽度/高度等于最小块大小的三倍时,视频编码器22及视频解码器30可经配置以使用三个相邻块的块大小的最小值或PT深度以导出上下文。
在另一实例中,当块的宽度/高度等于最小块大小的三倍时,视频编码器22及视频解码器30可经配置以使用三个相邻块的块大小的中位值或PT深度以导出上下文。
在另一实例中,块大小的聚合值或PT深度(如上文所描述)为相邻块的大小的表示。在一个实例中,如果上部相邻块的宽度小于当前块的宽度,则使用上下文1。否则,使用上下文0。类似地,如果左侧相邻块的高度小于当前块的高度,则使用上下文1。否则,使用上下文0。在一个实例中,块大小的聚合值或PT深度可用以递增一计数器,所述计数器等于或控制待使用的上下文模型的索引。另外,聚合值可链接至以下等式中的设计作为单独定位值的替换。对于相邻块中的每一者,上下文(CTX)的以下设定过程可按次序执行。CTX的总和可用于选择上下文索引。在另一实例中,以下前两个等式首先应用于相邻块中的每一者,且接着最后等式用以选择上下文索引,其中输入CTX为来自所有相邻块的CTX的总和。
CTX=(W>WT2)+(H>HL2)+(W*H>STL)+(W*H>STR)
CTX=((W<WT2)&&(H<HL2)&&(W*H<STL)&&(W*H<STR))?0:CTX
CTX=(CTX≥3)?3:CTX
一般来说,根据本发明的此实例,视频编码器22及视频解码器30可经配置以基于相邻块与当前块的相对大小确定用于当前块的分裂旗标的上下文并基于经确定上下文来对分裂旗标进行上下文译码。
在本发明的第七实例中,在任一树结构架构(诸如MTT)中,视频编码器22及/或视频解码器30可经配置以基于块大小应用变换。在一些实例中,某些块大小可不具有相关变换(即,无支持的相同大小变换)。举例来说,视频编码器22及/或视频解码器30可经配置以分割64×48CU,但可经配置以不使用48×48变换。在另一实例中,视频编码器22及/或视频解码器30可经配置以分割256×256CU,但最大支持变换仅为128×128。
在这些实例中,视频编码器22及/或视频解码器30可经配置以仅允许某些译码模式用于这些CU。在一个实例中,如果不存在用于CU的相关变换,则视频编码器22及/或视频解码器30可仅经配置以使用跳过模式用于CU。在此实例中,相关变换为具有等于CU的至少一个尺寸的大小的变换。在此实例中,视频编码器22可不用信号表示跳过模式旗标。更确切来说,视频解码器30可经配置以基于CU具有一具有不相关变换的大小而推断跳过旗标的值为真。
在另一实例中,如果不存在用于CU的大小的所支持变换,则视频编码器22及/或视频解码器30可经配置以不允许CU具有任何非零残余(残余值)。在此实例中,视频编码器可经配置以不用信号表示经译码块旗标(CBF)。经译码块旗标为指示块是否包含任何非零变换系数的旗标。在此实例中,由于在CU不具有所支持变换的情况下,CU可不具有任何非零残余值,所以视频解码器30可指示CBF旗标为零(即,不存在非零变换系数)。
在一个实例中,视频编码器22及视频解码器30可经配置以基于视频数据块的大小确定用于视频数据块的译码模式。确切地说,视频编码器22及视频解码器30可经配置以基于视频数据块的大小及通过视频编码器22及视频解码器30支持的变换确定用于视频数据块的译码模式。如果不存在与视频数据块的大小相关的所支持变换,则视频编码器22及视频解码器30可经配置以确定用于视频数据块的某些预先确定的译码模式。在一个实例中,译码模式可为跳过模式。在本发明的另一实例中,译码模式可为另一译码模式(例如,合并模式、AMVP模式、帧内模式),但CBF旗标经推断为零。
一般来说,视频编码器22及视频解码器30可经配置以基于块的大小确定块是否具有相关联变换,且如果块不具有相关联变换,则重新开始用于块的译码模式。
图10为说明可实施本发明的技术的实例视频编码器22的框图。出于解释的目的提供图10,且不应将所述图视为对如本发明中广泛例示及描述的技术的限制。本发明的技术可应用于各种译码标准或方法。
在图10的实例中,视频编码器22包含预测处理单元100、视频数据存储器101、残余产生单元102、变换处理单元104、量化单元106、反量化单元108、反变换处理单元110、重构单元112、滤波器单元114、经解码图片缓冲器116及熵编码单元118。预测处理单元100包含帧间预测处理单元120及帧内预测处理单元126。帧间预测处理单元120可包含运动估计单元及运动补偿单元(图中未展示)。
视频数据存储器101可经配置以存储待由视频编码器22的组件编码的视频数据。存储于视频数据存储器101中的视频数据可(例如)从视频源18获得。经解码图片缓冲器116可为参考图片存储器,其存储用于由视频编码器22在编码视频数据(例如,在帧内或帧间译码模式中)时使用的参考视频数据。视频数据存储器101及经解码图片缓冲器116可由多种存储器装置中的任一者形成,诸如,动态随机存取存储器(DRAM),包含同步DRAM(SDRAM)、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。可通过相同存储器装置或独立存储器装置来提供视频数据存储器101及经解码图片缓冲器116。在各种实例中,视频数据存储器101可与视频编码器22的其它组件一起在芯片上,或相对于所述组件在芯片外。视频数据存储器101可与图1的存储媒体20相同或为图1的存储媒体20的部分。
视频编码器22接收视频数据。视频编码器22可编码视频数据的图片的切片中的每一CTU。CTU中的每一者可与图片的相等大小的明度译码树块(CTB)及对应CTB相关联。作为编码CTU的部分,预测处理单元100可执行分割以将CTU的CTB分割成逐渐较小的块。所述较小块可为CU的译码块。举例来说,预测处理单元100可根据树状结构分割与CTU相关联的CTB。根据本发明的一或多种技术,对于在树状结构的每一深度级别处的树状结构的每一相应非叶节点,存在针对相应非叶节点的多个允许的分裂图案且对应于相应非叶节点的视频块根据所述多个允许的分裂图案中的一者而分割成对应于相应非叶节点的子节点的视频块。在一个实例中,预测处理单元100或视频编码器22的另一处理单元可经配置以执行上文所描述的MTT分割技术的任何组合。
视频编码器22可编码CTU的CU以产生所述CU的经编码表示(即,经译码CU)。作为编码CU的部分,预测处理单元100可分割与CU的一或多个PU中的CU相关联的译码块。根据本发明的技术,CU可仅仅包含单个PU。即,在本发明的一些实例中,CU未被划分成独立预测块,而是对整个CU执行预测过程。因此,每一PU可与明度预测块及对应的色度预测块相关联。视频编码器22及视频解码器30可支持具有各种大小的CU。如上文所指示,CU的大小可指CU的明度译码块的大小,也为明度预测块的大小。如上文所论述,视频编码器22及视频解码器30可支持CU大小,其由上文所描述的实例MTT分割类型的任何组合定义。
帧间预测处理单元120可通过对CU的每一PU执行帧间预测而产生用于PU的预测性数据。如上文所解释,在本发明的一些MTT实例中,CU可仅仅含有单个PU,即,CU及PU可为同义的。用于PU的预测性数据可包含PU的预测性块及用于PU的运动信息。取决于PU是在I切片中、P切片中还是在B切片中,帧间预测处理单元120可针对CU的PU执行不同操作。在I切片中,所有PU经帧内预测。因此,如果PU在I切片中,则帧间预测处理单元120并不对PU执行帧间预测。因此,对于I模式中编码的块,经预测块使用来自经先前编码的同一帧内的相邻块的空间预测而形成。如果PU在P切片中,则帧间预测处理单元120可使用单向帧间预测以产生PU的预测性块。如果PU在B切片中,则帧间预测处理单元120可使用单向或双向帧间预测以产生PU的预测性块。
帧内预测处理单元126可通过对PU执行帧内预测而产生用于PU的预测性数据。用于PU的预测性数据可包含PU的预测性块及各种语法元素。帧内预测处理单元126可对I切片、P切片及B切片中的PU执行帧内预测。
为对PU执行帧内预测,帧内预测处理单元126可使用多个帧内预测模式来产生用于PU的预测性数据的多个集合。帧内预测处理单元126可使用来自相邻PU的样本块的样本以产生用于PU的预测性块。对于PU、CU及CTU,假定从左到右、从上到下的编码次序,则所述相邻PU可在PU上方、右上方、左上方或左边。帧内预测处理单元126可使用各种数目的帧内预测模式,例如,33个定向帧内预测模式。在一些实例中,帧内预测模式的数目可取决于与PU相关联的区的大小。
预测处理单元100可从由帧间预测处理单元120所产生的用于PU的预测性数据中,或从由帧内预测处理单元126所产生的用于PU的预测性数据中选择用于CU的PU的预测性数据。在一些实例中,预测处理单元100基于预测性数据集合的速率/失真量度而选择用于CU的PU的预测性数据。所选预测性数据的预测性块在本文中可被称作所选预测性块。
残余产生单元102可基于CU的译码块(例如,明度、Cb及Cr译码块)及CU的PU的所选预测性块(例如,预测性明度、Cb及Cr块)产生CU的残余块(例如,明度、Cb及Cr残余块)。举例来说,残余产生单元102可产生CU的残余块,以使得残余块中的每一样本具有等于CU的译码块中的样本与CU的PU的对应所选择预测性样本块中的对应样本之间的差的值。
变换处理单元104可执行四叉树分割以将与CU相关联的残余块分割成与CU的TU相关联的变换块。因此,TU可与一明度变换块及两个色度变换块相关联。CU的TU的明度变换块及色度变换块的大小及定位可或可不基于CU的PU的预测块的大小及定位。被称为“残余四叉树”(RQT)的四叉树结构可包含与区中的每一者相关联的节点。CU的TU可对应于RQT的叶节点。在其它实例中,变换处理单元104可经配置以根据上文所描述的MTT技术分割TU。举例来说,视频编码器22可不使用RQT结构将CU进一步划分成TU。因而,在一个实例中,CU包含单个TU。
变换处理单元104可通过将一或多个变换应用于TU的变换块而产生CU的每一TU的变换系数块。变换处理单元104可将各种变换应用于与TU相关联的变换块。举例来说,变换处理单元104可将离散余弦变换(DCT)、定向变换或概念上类似的变换应用于变换块。在一些实例中,变换处理单元104并不将变换应用于变换块。在这些实例中,变换块可经处理为变换系数块。
量化单元106可量化系数块中的变换系数。量化过程可减少与所述变换系数中的一些或全部相关联的位深度。举例来说,n位变换系数可在量化期间被舍位至m位变换系数,其中n大于m。量化单位106可基于与CU相关联的量化参数(QP)值量化与CU的TU相关联的系数块。视频编码器22可通过调整与CU相关联的QP值来调整应用于与CU相关联的系数块的量化程度。量化可引入信息的损失。因此,经量化变换系数可具有比最初变换系数低的精度。
反量化单元108及反变换处理单元110可分别将反量化及反变换应用于系数块,以从系数块重构残余块。重构单元112可将经重构的残余块添加至来自由预测处理单元100产生的一或多个预测性块的对应样本,以产生与TU相关联的经重构的变换块。通过以此方式重构CU的每一TU的变换块,视频编码器22可重构CU的译码块。
滤波器单元114可执行一或多个解块操作以减少与CU相关联的译码块中的块假影。经解码图片缓冲器116可在滤波器单元114对经重构译码块执行一或多个解块操作之后,存储经重构译码块。帧间预测处理单元120可使用含有经重构译码块的参考图片来对其它图片的PU执行帧间预测。另外,帧内预测处理单元126可使用经解码图片缓冲器116中的经重构译码块,以对处于与CU相同的图片中的其它PU执行帧内预测。
熵编码单元118可从视频编码器22的其它功能组件接收数据。举例来说,熵编码单元118可从量化单元106接收系数块,并可从预测处理单元100接收语法元素。熵编码单元118可对数据执行一或多个熵编码操作以产生经熵编码的数据。举例来说,熵编码单元118可对数据执行CABAC操作、上下文自适应性可变长度译码(CAVLC)操作、可变至可变(V2V)长度译码操作、基于语法的上下文自适应性二进制算术译码(SBAC)操作、概率区间分割熵(PIPE)译码操作、指数哥伦布编码操作或另一类型的熵编码操作。视频编码器22可输出包含由熵编码单元118所产生的经熵编码数据的位流。举例来说,根据本发明的技术,位流可包含表示CU的分割结构的数据。
图11为说明经配置以实施本发明的技术的实例视频解码器30的框图。出于解释的目的而提供图11,且其并不限制如本发明中所广泛例示及描述的技术。出于解释的目的,本发明描述在HEVC译码的情况下的视频解码器30。然而,本发明的技术可适用于其它译码标准或方法。
在图11的实例中,视频解码器30包含熵解码单元150、视频数据存储器151、预测处理单元152、反量化单元154、反变换处理单元156、重构单元158、滤波器单元160,及经解码图片缓冲器162。预测处理单元152包含运动补偿单元164及帧内预测处理单元166。在其它实例中,视频解码器30可包含较多、较少或不同的功能组件。
视频数据存储器151可存储待由视频解码器30的组件解码的经编码视频数据,诸如经编码视频位流。存储于视频数据存储器151中的视频数据可例如从计算机可读媒体16(例如,从本地视频源,诸如相机)经由视频数据的有线或无线网络通信或通过存取物理数据存储媒体而获得。视频数据存储器151可形成存储来自经编码视频位流的经编码视频数据的经译码图片缓冲器(CPB)。经解码图片缓冲器162可为存储用于视频解码器30(例如)以帧内或帧间译码模式解码视频数据或以供输出的参考视频数据的参考图片存储器。视频数据存储器151及经解码图片缓冲器162可由多种存储器装置中的任一者形成,诸如,动态随机存取存储器(DRAM),包含同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储器装置。可由同一存储器装置或独立存储器装置提供视频数据存储器151及经解码图片缓冲器162。在各种实例中,视频数据存储器151可与视频解码器30的其它组件一起在芯片上,或相对于所述组件在芯片外。视频数据存储器151可与图1的存储媒体28相同或为图1的存储媒体28的部分。
视频数据存储器151接收并存储位流的经编码视频数据(例如,NAL单元)。熵解码单元150可从视频数据存储器151接收经编码视频数据(例如,NAL单元),且可剖析NAL单元以获得语法元素。熵解码单元150可对NAL单元中的经熵编码语法元素进行熵解码。预测处理单元152、反量化单元154、反变换处理单元156、重构单元158及滤波器单元160可基于从位流提取的语法元素而产生经解码视频数据。熵解码单元150可执行大体上与熵编码单元118的所述过程互逆的过程。
根据本发明的一些实例,熵解码单元150或视频解码器30的另一处理单元可确定树状结构,作为自位流获得语法元素的部分。树状结构可指定如何将初始视频块(诸如,CTB)分割成较小视频块(诸如,译码单元)。根据本发明的一或多种技术,对于在树状结构的每一深度级别处的树状结构的每一相应非叶节点,存在针对相应非叶节点的多个允许的分割类型且对应于相应非叶节点的视频块根据多个允许的分裂图案中的一者而分割成对应于相应非叶节点的子节点的视频块。
除从位流获得语法元素之外,视频解码器30可对未经分割的CU执行重构操作。为对CU执行重构操作,视频解码器30可对CU的每一TU执行重构操作。通过对CU的每一TU执行重构操作,视频解码器30可重构CU的残余块。如上文所论述,在本发明的一个实例中,CU包含单个TU。
作为对CU的TU执行重构操作的部分,反量化单元154可反量化(即,解量化)与TU相关联的系数块。在反量化单元154反量化系数块之后,反变换处理单元156可将一或多个反变换应用于系数块,以便产生与TU相关联的残余块。举例来说,反变换处理单元156可将反DCT、反整数变换、反Karhunen-Loeve变换(KLT)、反旋转变换、反定向变换或另一反变换应用于系数块。
如果使用帧内预测编码CU或PU,则帧内预测处理单元166可执行帧内预测以产生PU的预测性块。帧内预测处理单元166可使用帧内预测模式来基于样本空间相邻块产生PU的预测性块。帧内预测处理单元166可基于从位流获得的一或多个语法元素确定用于PU的帧内预测模式。
如果使用帧间预测编码PU,则熵解码单元150可确定PU的运动信息。运动补偿单元164可基于PU的运动信息而确定一或多个参考块。运动补偿单元164可基于一或多个参考块产生PU的预测性块(例如,预测性明度、Cb及Cr块)。如上文所论述,在使用MTT分割的本发明的一个实例中,CU可包含仅仅单个PU。即,CU可能不会划分成多个PU。
重构单元158可使用CU的TU的变换块(例如,明度、Cb及Cr变换块)及CU的PU的预测性块(例如,明度、Cb及Cr块)(即,可适用的帧内预测数据或帧间预测数据)来重构CU的译码块(例如,明度、Cb及Cr译码块)。举例来说,重构单元158可添加变换块(例如,明度、Cb及Cr变换块)的样本至预测性块(例如,明度、Cb及Cr预测性块)的对应样本来重构CU的译码块(例如,明度、Cb及Cr译码块)。
滤波器单元160可执行解块操作以减少与CU的译码块相关联的块假影。视频解码器30可将CU的译码块存储于经解码图片缓冲器162中。经解码图片缓冲器162可提供参考图片用于后续运动补偿、帧内预测及在显示装置(诸如图1的显示装置32)上的呈现。举例来说,视频解码器30可基于经解码图片缓冲器162中的块对其它CU的PU执行帧内预测或帧间预测操作。
图12为展示本发明的实例编码方法的流程图。图12的技术可通过视频编码器22(包含变换处理单元104及/或量化单元106)执行。
在本发明的一个实例中,视频编码器22可经配置以接收视频数据块(200),且预测视频数据块以产生残余视频数据(202)。视频编码器22可经进一步配置以确定用于残余视频数据的变换,其中变换具有并非为二的幂的大小S(204),且将S舍位至二的幂从而产生具有经修改大小S'的变换(206)。视频编码器22也可将具有经修改大小S'的变换应用于残余视频数据以产生变换系数(208),且在经编码视频位流中编码变换系数(210)。
在另一实例中,视频编码器22可经配置以将S舍位至最接近的二的幂。
在另一实例中,视频编码器22可经配置以量化变换系数。
在另一实例中,视频数据块具有非正方形形状。
在另一实例中,S为12,且视频编码器22可经配置以将12舍位至16,其中经修改大小S'为16。在另一实例中,S为24,且视频编码器22可经配置以将24舍位至32,其中经修改大小S'为32。
在一个实例中,S为变换的宽度。在另一实例中,S为变换的高度。
图13为展示本发明的实例解码方法的流程图。图13的技术可通过视频解码器30(包含反变换处理单元156及/或反量化单元154)执行。
在本发明的一个实例中,视频解码器30可经配置以接收经编码视频数据块(300)、确定用于经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S(302),且将S舍位至二的幂从而产生具有经修改大小S'的反变换(304)。视频解码器30可经进一步配置以将具有经修改大小S'的反变换应用于经编码视频数据块以产生残余视频数据(306),且解码残余视频数据以产生经解码视频数据块(308)。
在一个实例中,视频解码器30可经配置以将S舍位至最接近的二的幂。在另一实例中,S为12且视频解码器30可经配置以将12舍位至16,其中经修改大小S'为16。在另一实例中,S为24且视频解码器30可经配置以将24舍位至32,其中经修改大小S'为32。
在另一实例中,经编码视频数据块包含经反量化变换系数。在另一实例中,经编码视频数据块具有非正方形形状。在一个实例中,S为变换的宽度。在另一实例中,S为变换的高度。
在本发明的另一实例中,视频解码器30可经配置以基于S'确定反变换的移位值。
为了说明的目的,本发明的某些方面已经关于HEVC标准的扩展而描述。然而,本发明中所描述的技术可用于其它视频译码过程,包含尚未开发的其它标准或专有视频译码过程。
如本发明中所描述,视频译码器可指视频编码器或视频解码器。类似地,视频译码单元可指视频编码器或视频解码器。同样地,如适用,视频译码可指视频编码或视频解码。在本发明中,片语“基于”可指示仅仅基于、至少部分地基于,或以某一方式基于。本发明可使用术语“视频单元”或“视频块”或“块”以指代一或多个样本块及用以译码样本的一或多个块的样本的语法结构。视频单元的实例类型可包含CTU、CU、PU、变换单元(TU)、宏块、宏块分割,等等。在一些情况下,PU的论述可与宏块或宏块分割的论述互换。视频块的实例类型可包含译码树块、译码块及视频数据的其它类型的块。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列被执行、可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非顺序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果实施于软件中,则所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于诸如数据存储媒体的有形媒体)或通信媒体(其包含(例如)根据通信协议促进计算机程序从一处传送至另一处的任何媒体)。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)诸如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或诸如红外线、无线电及微波的无线技术,从网站、服务器或其它远程源来发射指令,则同轴缆线、光纤缆线、双绞线、DSL或诸如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为关于非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
可由一或多个处理器执行指令,所述一或多个处理器诸如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些实例中,本文所描述的功能性可提供于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于多种装置或设备中,包含无线手机、集成电路(IC)或IC集合(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要通过不同硬件单元来实现。确切来说,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编码解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
各种实例已予以描述。这些及其它实例在以下权利要求书的范围内。

Claims (40)

1.一种解码视频数据的方法,所述方法包括:
接收经编码视频数据块;
确定用于所述经编码视频数据块的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的反变换;
将具有所述经修改大小S'的所述反变换应用至所述经编码视频数据块以产生残余视频数据;及
解码所述残余视频数据以产生经解码视频数据块。
2.根据权利要求1所述的方法,其中将S舍位至二的幂包括将S舍位至最接近的二的幂。
3.根据权利要求1所述的方法,其中所述经编码视频数据块包含经反量化变换系数。
4.根据权利要求1所述的方法,其中所述经编码视频数据块具有非正方形形状。
5.根据权利要求1所述的方法,其中S为12,且其中将S舍位至二的幂包括将12舍位至16,其中所述经修改大小S'为16。
6.根据权利要求1所述的方法,其中S为24,且其中将S舍位至二的幂包括将24舍位至32,其中所述经修改大小S'为32。
7.根据权利要求1所述的方法,其中S为所述变换的宽度。
8.根据权利要求1所述的方法,其中S为所述变换的高度。
9.根据权利要求1所述的方法,其进一步包括:
基于S'确定所述反变换的移位值。
10.一种编码视频数据的方法,所述方法包括:
接收视频数据块;
预测所述视频数据块以产生残余视频数据;
确定用于所述残余视频数据的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的变换;
将具有所述经修改大小S'的所述变换应用至所述残余视频数据以产生变换系数;及
在经编码视频位流中编码所述变换系数。
11.根据权利要求10所述的方法,其中将S舍位至二的幂包括将S舍位至最接近的二的幂。
12.根据权利要求10所述的方法,其进一步包括:
量化所述变换系数。
13.根据权利要求10所述的方法,其中所述视频数据块具有非正方形形状。
14.根据权利要求10所述的方法,其中S为12,且其中将S舍位至二的幂包括将12舍位至16,其中所述经修改大小S'为16。
15.根据权利要求10所述的方法,其中S为24,且其中将S舍位至二的幂包括将24舍位至32,其中所述经修改大小S'为32。
16.根据权利要求10所述的方法,其中S为所述变换的宽度。
17.根据权利要求10所述的方法,其中S为所述变换的高度。
18.一种经配置以解码视频数据的设备,所述设备包括:
存储器,其经配置以存储所述视频数据;及
一个或多个处理器,其与所述存储器通信,所述一或多个处理器经配置以:
接收所述视频数据的经编码块;
确定用于所述视频数据的所述经编码块的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的反变换;
将具有所述经修改大小S'的所述反变换应用至所述视频数据的所述经编码块以产生残余视频数据;及
解码所述残余视频数据以产生所述视频数据的经解码块。
19.根据权利要求18所述的设备,其中为将S舍位至二的幂,所述一或多个处理器经配置以将S舍位至最接近的二的幂。
20.根据权利要求18所述的设备,其中所述视频数据的所述经编码块包含经反量化变换系数。
21.根据权利要求18所述的设备,其中所述视频数据的所述经编码块具有非正方形形状。
22.根据权利要求18所述的设备,其中S为12,且其中为将S舍位至二的幂,所述一或多个处理器经配置以将12舍位至16,其中所述经修改大小S'为16。
23.根据权利要求18的设备,其中S为24,且其中为将S舍位至二的幂,所述一或多个处理器经配置以将24舍位至32,其中所述经修改大小S'为32。
24.根据权利要求18的设备,其中S为所述变换的宽度。
25.根据权利要求18的设备,其中S为所述变换的高度。
26.根据权利要求18的设备,其中所述一或多个处理器经进一步配置以:
基于S'确定所述反变换的移位值。
27.根据权利要求18的设备,其进一步包括:
显示器,其经配置以显示所述视频数据的所述经解码块。
28.一种经配置以编码视频数据的设备,所述设备包括:
存储器,其经配置以存储所述视频数据;及
一个或多个处理器,其与所述存储器通信,所述一或多个处理器经配置以:
接收所述视频数据的块;
预测所述视频数据的所述块以产生残余视频数据;
确定用于所述残余视频数据的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的变换;
将具有所述经修改大小S'的所述变换应用至所述残余视频数据以产生变换系数;及
在经编码视频位流中编码所述变换系数。
29.根据权利要求28所述的设备,其中为将S舍位至二的幂,所述一或多个处理器经配置以将S舍位至最接近的二的幂。
30.根据权利要求28所述的设备,其中所述一或多个处理器经进一步配置以:
量化所述变换系数。
31.根据权利要求28所述的设备,其中所述视频数据块具有非正方形形状。
32.根据权利要求28所述的设备,其中S为12,且其中为将S舍位至二的幂,所述一或多个处理器经配置以将12舍位至16,其中所述经修改大小S'为16。
33.根据权利要求28所述的设备,其中S为24,且其中为将S舍位至二的幂,所述一或多个处理器经配置以将24舍位至32,其中所述经修改大小S'为32。
34.根据权利要求28所述的设备,其中S为所述变换的宽度。
35.根据权利要求28所述的设备,其中S为所述变换的高度。
36.根据权利要求28所述的设备,其进一步包括:
相机,其经配置以捕捉所述视频数据。
37.一种经配置以解码视频数据的设备,所述设备包括:
用于接收经编码视频数据块的装置;
用于确定用于所述经编码视频数据块的变换的装置,其中所述变换具有并非为二的幂的大小S;
用于将S舍位至二的幂从而产生具有经修改大小S'的反变换的装置;
用于将具有所述经修改大小S'的所述反变换应用至所述经编码视频数据块以产生残余视频数据的装置;及
用于解码所述残余视频数据以产生经解码视频数据块的装置。
38.一种经配置以编码视频数据的设备,所述设备包括:
用于接收视频数据块的装置;
用于预测所述视频数据块以产生残余视频数据的装置;
用于确定用于所述残余视频数据的变换的装置,其中所述变换具有并非为二的幂的大小S;
用于将S舍位至二的幂从而产生具有经修改大小S'的变换的装置;
用于将具有所述经修改大小S'的所述变换应用至所述残余视频数据以产生变换系数的装置;及
用于在经编码视频位流中编码所述变换系数的装置。
39.一种存储指令的计算机可读存储媒体,所述指令在经执行时使得经配置以对视频数据进行解码的装置的一或多个处理器:
接收所述视频数据的经编码块;
确定用于所述视频数据的所述经编码块的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的反变换;
将具有所述经修改大小S'的所述反变换应用至所述视频数据的所述经编码块以产生残余视频数据;及
解码所述残余视频数据以产生所述视频数据的经解码块。
40.一种存储指令的计算机可读存储媒体,所述指令在经执行时使得经配置以编码视频数据的装置的一或多个处理器:
接收所述视频数据的块;
预测所述视频数据的所述块以产生残余视频数据;
确定用于所述残余视频数据的变换,其中所述变换具有并非为二的幂的大小S;
将S舍位至二的幂从而产生具有经修改大小S'的变换;
将具有所述经修改大小S'的所述变换应用至所述残余视频数据以产生变换系数;及
在经编码视频位流中编码所述变换系数。
CN201880005017.2A 2017-01-06 2018-01-05 用于编码和解码视频数据的方法和装置 Active CN110073661B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762443569P 2017-01-06 2017-01-06
US62/443,569 2017-01-06
US15/862,203 US10848788B2 (en) 2017-01-06 2018-01-04 Multi-type-tree framework for video coding
US15/862,203 2018-01-04
PCT/US2018/012589 WO2018129322A1 (en) 2017-01-06 2018-01-05 Multi-type-tree framework for video coding

Publications (2)

Publication Number Publication Date
CN110073661A true CN110073661A (zh) 2019-07-30
CN110073661B CN110073661B (zh) 2021-09-14

Family

ID=62781948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880005017.2A Active CN110073661B (zh) 2017-01-06 2018-01-05 用于编码和解码视频数据的方法和装置

Country Status (8)

Country Link
US (1) US10848788B2 (zh)
EP (1) EP3566439A1 (zh)
JP (1) JP2020504506A (zh)
KR (1) KR102292788B1 (zh)
CN (1) CN110073661B (zh)
BR (1) BR112019013645A2 (zh)
TW (1) TWI728220B (zh)
WO (1) WO2018129322A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108713320B (zh) * 2016-03-16 2022-05-17 寰发股份有限公司 视频编码中限制块尺寸的视频数据处理方法与装置
US10609423B2 (en) 2016-09-07 2020-03-31 Qualcomm Incorporated Tree-type coding for video coding
US20190238888A1 (en) * 2017-07-17 2019-08-01 Ki Baek Kim Image data encoding/decoding method and apparatus
KR20230010060A (ko) 2016-10-04 2023-01-17 주식회사 비원영상기술연구소 영상 데이터 부호화/복호화 방법 및 장치
EP3349455A1 (en) 2017-01-11 2018-07-18 Thomson Licensing Method and device for coding a block of video data, method and device for decoding a block of video data
KR102559063B1 (ko) * 2017-02-24 2023-07-24 주식회사 케이티 비디오 신호 처리 방법 및 장치
EP3716631A1 (en) * 2017-12-21 2020-09-30 LG Electronics Inc. Method for coding image on basis of selective transform and device therefor
KR102445899B1 (ko) * 2017-12-29 2022-09-21 인텔렉추얼디스커버리 주식회사 서브-블록 단위 화면 내 예측을 사용하는 비디오 코딩 방법 및 장치
KR20230025504A (ko) * 2018-01-02 2023-02-21 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
CA3092638A1 (en) * 2018-03-01 2019-09-06 Arris Enterprises Llc System and method of motion information storage for video coding and signaling
CN111819857A (zh) * 2018-03-14 2020-10-23 联发科技股份有限公司 用于视频编解码的优化分割结构的方法和装置
WO2019185815A1 (en) * 2018-03-29 2019-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Partitioning concepts for block-based picture coding
US10972758B2 (en) * 2018-04-02 2021-04-06 Qualcomm Incorporated Multi-type-tree framework for transform in video coding
WO2019216710A1 (ko) * 2018-05-10 2019-11-14 삼성전자주식회사 영상의 부호화 및 복호화를 위한 영상의 분할 방법 및 장치
WO2019234604A1 (en) * 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Extended quad-tree with asymmetric sub-blocks
CN110636314B (zh) * 2018-06-21 2022-09-27 北京字节跳动网络技术有限公司 改进的边界分割
US10887594B2 (en) * 2018-07-05 2021-01-05 Mediatek Inc. Entropy coding of coding units in image and video data
TWI720584B (zh) * 2018-08-16 2021-03-01 聯發科技股份有限公司 視訊處理系統中色度量化參數導出的方法以及裝置
AU2018217336A1 (en) * 2018-08-17 2020-03-05 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding a transformed block of video samples
CN113228650B (zh) * 2018-11-08 2024-03-19 交互数字Vc控股公司 基于块的表面的视频编码或解码的量化
WO2020111749A1 (ko) * 2018-11-27 2020-06-04 엘지전자 주식회사 변환 스킵 플래그 코딩 방법 및 장치
CN116668674A (zh) * 2018-12-07 2023-08-29 华为技术有限公司 视频译码的约束预测模式
CN111435993B (zh) * 2019-01-14 2022-08-26 华为技术有限公司 视频编码器、视频解码器及相应方法
WO2020156572A1 (en) * 2019-02-03 2020-08-06 Beijing Bytedance Network Technology Co., Ltd. Unsymmetrical quad-tree partitioning
WO2020162732A1 (ko) * 2019-02-09 2020-08-13 엘지전자 주식회사 비디오 신호를 처리하기 위한 방법 및 장치
WO2020164632A1 (en) * 2019-02-15 2020-08-20 Beijing Bytedance Network Technology Co., Ltd. Non-power-two-partition tree in video compression
JP7399973B2 (ja) * 2019-02-19 2023-12-18 ヒューマックス・カンパニー・リミテッド イントラ予測ベースのビデオ信号処理方法及び装置
WO2020182182A1 (en) * 2019-03-12 2020-09-17 Beijing Bytedance Network Technology Co., Ltd. Compound triple tree in video coding
US11677969B2 (en) * 2019-03-22 2023-06-13 Tencent America LLC Method and apparatus for video coding
US11032543B2 (en) * 2019-03-22 2021-06-08 Tencent America LLC Method and apparatus for video coding
US11190777B2 (en) * 2019-06-30 2021-11-30 Tencent America LLC Method and apparatus for video coding
WO2021023258A1 (en) 2019-08-06 2021-02-11 Beijing Bytedance Network Technology Co., Ltd. Video region partition based on color format
US11317090B2 (en) * 2019-08-12 2022-04-26 Tencent America LLC Method and apparatus for video coding
EP4008106A4 (en) 2019-09-02 2022-11-09 Beijing Bytedance Network Technology Co., Ltd. PARTITION OF A VIDEO ZONE ACCORDING TO A COLOR FORMAT
CN114424565A (zh) 2019-09-21 2022-04-29 北京字节跳动网络技术有限公司 基于色度帧内模式的尺寸限制
US11399195B2 (en) * 2019-10-30 2022-07-26 Tencent America LLC Range of minimum coding block size in video coding
MX2022005197A (es) * 2019-11-01 2022-07-04 Lg Electronics Inc Metodo a base de transformacion para codificar imagenes y dispositivo para el mismo.
JP2023500298A (ja) * 2019-11-01 2023-01-05 エルジー エレクトロニクス インコーポレイティド 変換に基づく画像コーディング方法及びその装置
CA3159801A1 (en) * 2019-11-01 2021-05-06 Lg Electronics Inc. Image coding method based on transform, and device therefor
CN113875256A (zh) * 2019-12-23 2021-12-31 腾讯美国有限责任公司 用于视频编解码的方法和装置
WO2022171071A1 (en) * 2021-02-10 2022-08-18 Beijing Bytedance Network Technology Co., Ltd. Video decoder initialization information signaling
CN117157978A (zh) * 2021-03-30 2023-12-01 抖音视界有限公司 非二元块上的帧内预测
WO2023236775A1 (en) * 2022-06-06 2023-12-14 Mediatek Inc. Adaptive coding image and video data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104081777A (zh) * 2012-01-30 2014-10-01 高通股份有限公司 用于视频译码的残余四叉树(rqt)译码
CN105103548A (zh) * 2013-04-08 2015-11-25 索尼公司 根据输入数据的位深选择变换数据的最大动态范围和变换矩阵的数据精度
WO2015190839A1 (ko) * 2014-06-11 2015-12-17 엘지전자(주) 임베디드 블록 파티셔닝을 이용하여 비디오 신호를 인코딩, 디코딩하는 방법 및 장치
WO2016090568A1 (en) * 2014-12-10 2016-06-16 Mediatek Singapore Pte. Ltd. Binary tree block partitioning structure
CN106105216A (zh) * 2014-03-13 2016-11-09 高通股份有限公司 用于3d视频译码的受约束深度帧内模式译码

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009051719A2 (en) 2007-10-16 2009-04-23 Thomson Licensing Methods and apparatus for video encoding and decoding geometically partitioned super blocks
FR2926694B1 (fr) 2008-01-18 2010-04-16 Sagem Comm Decodeur de donnees video et procede de decodage de donnees video
US9110849B2 (en) * 2009-04-15 2015-08-18 Qualcomm Incorporated Computing even-sized discrete cosine transforms
KR20110017719A (ko) 2009-08-14 2011-02-22 삼성전자주식회사 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치
JP5672678B2 (ja) 2009-08-21 2015-02-18 Tdk株式会社 電子部品及びその製造方法
CN104601996B (zh) 2009-10-20 2018-04-10 夏普株式会社 运动图像编码装置、运动图像解码装置、运动图像编码方法及运动图像解码方法
KR101457396B1 (ko) 2010-01-14 2014-11-03 삼성전자주식회사 디블로킹 필터링을 이용한 비디오 부호화 방법과 그 장치, 및 디블로킹 필터링을 이용한 비디오 복호화 방법 및 그 장치
PL3703377T3 (pl) 2010-04-13 2022-03-07 Ge Video Compression, Llc Kodowanie wideo przy wykorzystaniu podpodziałów obrazów multidrzewa
EP2547108A4 (en) 2010-04-13 2014-07-02 Samsung Electronics Co Ltd VIDEO CODING METHOD AND VIDEO CODING DEVICE WITH PRECODING UNITS BASED ON CODING UNITS FOLLOWING A TREE STRUCTURE AND VIDEO CODING METHOD AND VIDEO ENCODING DEVICE WITH PRECODING UNITS BASED ON CODING UNITS DEFINED ACCORDING TO A TREE STRUCTURE
US20120170648A1 (en) 2011-01-05 2012-07-05 Qualcomm Incorporated Frame splitting in video coding
US9807424B2 (en) 2011-01-10 2017-10-31 Qualcomm Incorporated Adaptive selection of region size for identification of samples in a transition zone for overlapped block motion compensation
US8548057B2 (en) 2011-01-25 2013-10-01 Microsoft Corporation Video coding redundancy reduction
KR20120090740A (ko) 2011-02-07 2012-08-17 (주)휴맥스 정밀한 단위의 필터 선택을 적용한 영상 부호화/복호화 장치 및 방법
CN103535036B (zh) 2011-06-24 2017-04-05 太阳专利托管公司 解码方法和解码装置
US9883203B2 (en) 2011-11-18 2018-01-30 Qualcomm Incorporated Adaptive overlapped block motion compensation
JP2013229674A (ja) * 2012-04-24 2013-11-07 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法、画像符号化プログラム、及び画像復号プログラム
CN104885470B (zh) 2013-01-30 2018-08-07 英特尔公司 用于下一代视频的预测和编码的内容自适应划分
US9906813B2 (en) 2013-10-08 2018-02-27 Hfi Innovation Inc. Method of view synthesis prediction in 3D video coding
FR3029333A1 (fr) 2014-11-27 2016-06-03 Orange Procede de codage et decodage d'images, dispositif de codage et decodage et programmes d'ordinateur correspondants
WO2016154963A1 (en) 2015-04-01 2016-10-06 Mediatek Inc. Methods for chroma coding in video codec
US20170150176A1 (en) 2015-11-25 2017-05-25 Qualcomm Incorporated Linear-model prediction with non-square prediction units in video coding
AU2015261734A1 (en) 2015-11-30 2017-06-15 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding video data according to local luminance intensity
US10212444B2 (en) 2016-01-15 2019-02-19 Qualcomm Incorporated Multi-type-tree framework for video coding
US11223852B2 (en) 2016-03-21 2022-01-11 Qualcomm Incorporated Coding video data using a two-level multi-type-tree framework

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104081777A (zh) * 2012-01-30 2014-10-01 高通股份有限公司 用于视频译码的残余四叉树(rqt)译码
CN105103548A (zh) * 2013-04-08 2015-11-25 索尼公司 根据输入数据的位深选择变换数据的最大动态范围和变换矩阵的数据精度
CN106105216A (zh) * 2014-03-13 2016-11-09 高通股份有限公司 用于3d视频译码的受约束深度帧内模式译码
WO2015190839A1 (ko) * 2014-06-11 2015-12-17 엘지전자(주) 임베디드 블록 파티셔닝을 이용하여 비디오 신호를 인코딩, 디코딩하는 방법 및 장치
WO2016090568A1 (en) * 2014-12-10 2016-06-16 Mediatek Singapore Pte. Ltd. Binary tree block partitioning structure

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F. LE LÉANNEC: "Asymmetric Coding Units in QTBT", 《JOINT VIDEO EXPLORATION TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 4TH MEETING: CHENGDU》 *
MADHUKAR BUDAGAVI: "Core Transform Design in the High Efficiency", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 *

Also Published As

Publication number Publication date
KR20190104032A (ko) 2019-09-05
TW201841501A (zh) 2018-11-16
CN110073661B (zh) 2021-09-14
WO2018129322A1 (en) 2018-07-12
KR102292788B1 (ko) 2021-08-24
US20180199072A1 (en) 2018-07-12
TWI728220B (zh) 2021-05-21
EP3566439A1 (en) 2019-11-13
US10848788B2 (en) 2020-11-24
BR112019013645A2 (pt) 2020-01-21
JP2020504506A (ja) 2020-02-06

Similar Documents

Publication Publication Date Title
CN110073661A (zh) 用于视频译码的多种类型树架构
KR102089202B1 (ko) 비디오 코딩에서 비-정사각형 블록들에 대한 예측 파라미터들의 결정
CN105874797B (zh) 视频数据的编解码方法、装置、设备和存储媒体
CN104185990B (zh) 视频译码中的系数的译码
CN110100439A (zh) 用于视频译码的帧内预测技术
CN105393536B (zh) 使用位移向量从预测性块的帧内预测
CN104995919B (zh) 用于最末重要系数位置编码中的上下文减少的设备和方法
CN105191320B (zh) 对视频数据进行编码和解码的方法和设备
JP2022050614A (ja) ビデオコード化のためのマルチタイプツリーフレームワーク
CN104205837B (zh) 视频译码中的经译码块旗标推断
CN104025602B (zh) 三维视频译码中用信号通知视图合成预测支持
EP2834978B1 (en) Coded block flag coding
CN104221377B (zh) 一种视频译码方法、装置和计算机可读存储媒体
EP3844963A1 (en) Improved attribute support in point cloud coding
CN107211132B (zh) 用于大的译码树型单元的上下文
CN110024401A (zh) 用于时间扩缩性支持的修改适应性环路滤波器时间预测
CN108293119A (zh) 在视频译码中用于非正方形变换单元的变换系数的修改
CN103975595B (zh) 用于视频译码的分段参数集
CN108781289A (zh) 针对视频译码工具的受约束块层级优化和用信号发送
CN104471942A (zh) 重新使用参数集用于视频译码
CN105637878A (zh) 在视频译码中用于基于子解码图片缓冲器(sub-dpb)的dpb操作的传信
CN104081777A (zh) 用于视频译码的残余四叉树(rqt)译码
CN104685875A (zh) 用于视频译码中的4:2:2样本格式的帧内译码
CN105103560A (zh) 用于仅高级语法可缩放视频译码的层间参考图片限制
CN105379270A (zh) 颜色分量间残余预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40005713

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant