CN114521330A - 低频不可分离变换(lfnst)简化 - Google Patents

低频不可分离变换(lfnst)简化 Download PDF

Info

Publication number
CN114521330A
CN114521330A CN202080064605.0A CN202080064605A CN114521330A CN 114521330 A CN114521330 A CN 114521330A CN 202080064605 A CN202080064605 A CN 202080064605A CN 114521330 A CN114521330 A CN 114521330A
Authority
CN
China
Prior art keywords
block
transform coefficients
current block
lfnst
luma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080064605.0A
Other languages
English (en)
Inventor
H·E·埃伊尔梅茨
C-T·谢
V·谢廖金
M·卡切夫维茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN114521330A publication Critical patent/CN114521330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

对视频数据进行解码的示例方法包括:接收针对当前块的经编码的数据。方法进一步包括:确定单个树划分是否被启用用于当前块,以及对经编码的数据进行解码,以产生针对当前块的亮度变换系数和针对当前块的色度变换系数。方法进一步包括:响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对当前块的残差块。方法进一步包括:使用针对当前块的残差块和预测块来重建视频数据的当前块。

Description

低频不可分离变换(LFNST)简化
本申请要求享有于2020年9月23日提交的、编号为17/029,416的美国申请的优先权以及于2019年9月26日提交的、编号为62/906,671的美国临时申请的利益,上述两个申请是通过引用的方式全部并入的。
技术领域
本公开内容涉及视频编码和视频解码。
背景技术
数字视频能力可以并入各种各样的设备中,所述设备包括数字电视、数字直接广播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数字照相机、数字记录设备、数字媒体播放器、视频游戏设备、视频游戏控制台、蜂窝式或卫星无线电话、所谓的“智能电话”、视频电话会议设备、视频流设备等。数字视频设备实现视频译码技术,比如在通过MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分,改进的视频译码(AVC)、ITU-T H.265/高效率视频译码(HEVC)定义的标准中以及在这样的标准的扩展中所描述的那些视频译码技术。视频设备可以通过实现这样的视频译码技术来更有效地对数字视频信息进行发送、接收、编码、解码和/或存储。
视频译码技术包括空间(图像内)预测和/或时间(图像间)预测以减少或移除在视频序列中固有的冗余。对于基于块的视频译码,视频切片(例如,视频图像或视频图像的一部分)可以划分成视频块,所述视频块还可以称为译码树单元(CTU)、译码单元(CU)和/或译码节点。在图像的内译码的(I)切片中的视频块是使用关于在同一图像中的邻近块中的参考样本的空间预测来进行编码的。在图像的间译码的(P或B)切片中的视频块可以使用关于在同一图像中的邻近块中的参考样本的空间预测或关于在其它参考图像中的参考样本的时间预测。图像可以称为帧,以及参考图像可以称为参考帧。
发明内容
通常,本公开内容描述用于使用低频不可分离变换(LFNST)的变换译码的技术。视频编码器可以表示以适合用于从视频编码器以信号发送和用于由视频解码器接收的形式来表示针对视频数据的残差块。例如,视频编码器可以应用将在像素域中的残差块转换至在频域中的系数块的可分离变换,以及然后对低频系数应用LFNST而将其它系数设置为零。以这种方式,LFNST可以提高变换系数块的能量集中性。以这种方式,可以减少用于表示残差块的数据,从而减少针对视频数据的带宽和/或存储要求,以及潜在地减少视频解码器和视频编码器的能量使用。
不是总是针对亮度变换系数和色度变换系数两者应用LFNST,本文中描述的技术可以基于对视频数据的划分来可选择地对色度变换系数应用LFNST。例如,视频编码器可以对色度变换系数应用LFNST,以及当使用单个树划分时避免对色度变换系数应用LFNST。当使用单个树划分时,视频译码器(例如,视频编码器或视频解码器)可以根据单个树对针对视频数据的当前块的亮度分量的块进行拆分,以及根据相同的单个树对针当前块的色度分量的相应的块进行拆分。然而,当使用分离树划分时,视频译码可以根据双重树亮度来对针对视频数据的当前块的亮度分量的块进行拆分,以及根据双重树色度来对针当前块的色度分量的相应的块进行拆分。通过仅当执行分离树划分时应用LFNST,视频译码器(例如,视频编码器或视频解码器)可以潜在地降低视频编码器的复杂度,以及在预测精确度中具有少量损失或没有损失的情况下减少信令开销。
在一个示例中,本公开内容描述对视频数据进行解码的方法,所述方法包括:接收针对当前块的经编码的数据;确定单个树划分是否被启用用于当前块;对经编码的数据进行解码以产生针对当前块的亮度变换系数和针对当前块的色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对当前块的残差块;以及使用针对当前块的残差块和预测块,来重建视频数据的当前块。
在另一示例中,本公开内容描述对视频数据进行编码的方法,所述方法包括:确定单个树划分是否被启用用于当前块;基于针对当前块的预测块来产生针对当前块的残差值;对残差值应用可分离变换,以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对当前块的亮度变换系数和针对当前块的色度变换系数;以及对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据;以及输出经编码的视频数据。
在另一示例中,本公开内容描述用于对视频数据进行解码的设备,所述设备存储器和处理电路,所述处理电路被配置为:接收针对当前块的经编码的数据;确定单个树划分是否被启用用于当前块;对经编码的数据进行解码,以产生针对当前块的亮度变换系数和针对当前块的色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对当前块的残差块;以及使用针对当前块的残差块和预测块,来重建视频数据的当前块。
在另一示例中,本公开内容描述用于对视频数据进行编码的设备,所述设备存储器和处理电路,所述处理电路被配置为:确定单个树划分是否被启用用于当前块;基于针对当前块的预测块来产生针对当前块的残差值;对残差值应用可分离变换,以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对当前块的亮度变换系数和针对当前块的色度变换系数;对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据;以及输出经编码的视频数据。
在另一示例中,本公开内容描述具有在其上存储的指令的计算机可读存储介质,所述指令当执行时配置存储器以:接收针对当前块的经编码的数据;确定单个树划分是否被启用用于当前块;对经编码的数据进行解码,以产生针对当前块的亮度变换系数和针对当前块的色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对当前块的残差块;以及使用针对当前块的残差块和预测块,来重建视频数据的当前块。
在另一示例中,本公开内容描述具有在其上存储的指令的计算机可读存储介质,所述指令当执行时配置处理器以:确定单个树划分是否被启用用于当前块;基于针对当前块的预测块来产生针对当前块的残差值;对残差值应用可分离变换,以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数;响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对当前块的亮度变换系数和针对当前块的色度变换系数;对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据;以及输出经编码的视频数据。
在另一示例中,本公开内容描述用于对视频数据进行解码的设备,所述设备包括:用于接收针对当前块的经编码的数据的单元;用于确定单个树划分是否被启用用于当前块的单元;用于对经编码的数据进行解码以产生针对当前块的亮度变换系数和针对当前块的色度变换系数的单元;响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆低频不可分离变换(LFNST)以生成针对当前块的残差块;以及用于使用针对当前块的残差块和预测块,来重建视频数据的当前块的单元。
在另一示例中,本公开内容描述用于对视频数据进行编码的设备,所述设备包括:用于确定单个树划分是否被启用用于当前块的单元;用于基于针对当前块的预测块来产生针对当前块的残差值的单元;用于对残差值应用可分离变换以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数的单元;响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对当前块的亮度变换系数和针对当前块的色度变换系数;以及用于对亮度变换系数和色度变换系数进行编码以生成经编码的视频数据的单元;以及用于输出经编码的视频数据的单元。
在附图和下文说明书中阐述一个和多个示例的细节。根据说明书、附图和权利要求,其它特征、对象和优势将是显而易见的。
附图说明
图1是示出可以执行本公开内容的技术的示例视频编码和解码系统的方块图。
图2A和图2B示出示例四叉树二叉树(QTBT)结构和相应的译码树单元(CTU)的概念图。
图3是示出可以执行本公开内容的技术的示例视频编码器的方块图。
图4是示出可以执行本公开内容的技术的示例视频解码器的方块图。
图5是示出在编码器和解码器侧的低频不可分离变换(LFNST)的概念图,其中LFNST在编码解码器中的可分离变换与量化之间引入新的阶段。
图6是示出当使用LFNST时的逆变换过程的概念图。
图7是示出用于根据16个输入系数的列表来重建16个中间系数的4x4逆LFNST的概念图。
图8是示出用于形成16个输入系数的列表来重建48个中间系数的8x8逆LFNST的概念图。
图9是示出用于根据本公开内容的技术来对视频数据的当前块进行编码的示例方法的流程图。
图10是示出用于根据本公开内容的技术来对视频数据的当前块进行解码的示例方法的流程图。
图11是示出用于根据本公开内容的技术基于划分来对视频数据的当前块进行编码的示例方法的流程图。
图12是示出用于根据本公开内容的技术基于划分来对视频数据的当前块进行解码的示例方法的流程图。
具体实施方式
通常,本公开内容描述涉及低频不可分离变换(LFNST)的技术。视频编码器可以表示以适合用于从视频编码器以信号发送和用于由视频解码器接收的形式来表示针对视频数据的残差块。期望减少用于表示残差块的数据的量,使得减少从视频编码器发送的和由视频解码器接收的数据的量。在视频译码中,由于可分离变换可以使用较少的运算(例如,加法、乘法)因此相比于不可分离变换,可分离变换已经应用得超过不可分离变换。可分离变换是可以写为两个或更多个滤波器的乘积的滤波器。与此相反,不可分离滤波器不能写为两个或更多个滤波器的乘积。
不是仅仅依赖将在像素域中的残差块转换至在频域中的系数块的可分离变换,视频编码器还可以应用LFNST以增加变换系数块的能量集中性。例如,LFNST可以将变换系数块的非零系数集中到更靠近变换系数块的DC系数。结果,在系数块的DC系数与变换系数块的最后重要的(即,非零)变换系数之间存在较少的变换系数,导致用于表示残差块的减少的量的数据。类似地,视频解码器可以应用逆可分离变换,以将变换系数块变换成残差块。以这种方式,可以减少用于表示残差块的数据,从而减少用于视频数据的带宽和/或存储要求,以及潜在地减少视频解码器和视频编码器的能量使用。
为了在译码精确度中具有少量损失或没有损失的情况下降低译码的复杂度,视频译码器(例如,视频编码器或视频解码器)可以被配置为使用亮度分量来表示视频数据的块的明亮度以及使用色度分量来表示视频数据的块的颜色特性。色度分量可以包括蓝色减去亮度值(‘Cb’)和/或红色减去亮度值(‘Cr’)。例如,视频译码器(例如,视频编码器或视频解码器)可以被配置为通过亮度分量的8x8亮度块(例如,‘Y’)、色度分量的第一4x4色度块(例如,‘Cr’)和色度分量的第二4x4色度块(例如,‘Cb’)来表示8x8块。也就是说,视频数据的块的色度分量可以是二次采样的,以具有与视频数据的块的亮度分量相比要少的样本。以这种方式,对色度分量进行二次采样可以在具有译码精确度的少量损失或没有损失的情况下改善译码效率。
视频编码器可以被配置为基于包括亮度树(本文中还称为“双重树亮度”)和色度数(本文中还称为“双重树色度”)的双重树来将视频数据划分成多个块(例如,分离树划分)。例如,不是根据单个树来对针对视频数据的当前块的亮度分量的块进行拆分(例如,单个树划分)以及根据相同的单个树来对针对当前块的色度分量的相应的块进行拆分,视频编码器可以根据双重树亮度来对针对视频数据的当前块的亮度分量进行拆分,以及根据双重树色度来对针对当前块的色度分量的相应的块进行拆分。以这种方式,视频编码器可以以不同方式对针对当前块的亮度块和色度块进行拆分,这可以在预测精确度和/或复杂度中具有少量损失或没有损失的情况下,潜在地减少用于发送视频数据的数据的量。
在一些示例中,应用单个树划分的视频编码器可以将针对当前块的亮度分量划分成8x8亮度变换系数的块。在该示例中,对8x8亮度变换系数应用LFNST可以在具有可比较地少量额外处理负担的情况下帮助显著地减少所发送的数据的量。当应用单个树划分时,视频编码器可以将针对当前块的色度分量划分成4x4色度变换系数的块,这是因为色度分量可能是相对于亮度分量来二次采样的(例如,4:2:0色度二次采样)。对4x4色度变换系数应用LFNST可以在所发送的数据的量中具有少量可比较的降低或没有可比较的降低的情况下,显著地增加处理负担。
与此相反,当应用分离树划分(例如,双重树划分)时,视频编码器可以将针对当前块的亮度分量划分成8x8亮度变换系数的块,以及避免进一步拆分8x8色度块。在该示例中,视频编码器可以对8x8亮度变换系数和8x8色度变换系数应用LFNST,这可以在具有可比较地少量额外处理负担的情况下帮助显著地减少所发送的数据的量。类似地,视频解码器可以对8x8亮度变换系数和8x8色度变换系数应用逆LFNST,这可以在具有可比较地少量额外处理负担的情况下帮助显著地减少所发送的数据的量。
根据本公开内容的技术,视频译码器(例如,视频编码器或视频解码器)可以基于划分来可选择地对色度变换系数应用LFNST。例如,当使用分离树划分时视频编码器可以对色度变换系数应用LFNST,以及当使用单个树划分时避免对色度变换系数应用LFNST。通过仅当执行分离树划分时应用LFNST,视频译码器(例如,视频编码器或视频解码器)可以在预测精确度中具有较少损失或没有损失的情况下,潜在地降低视频编码器的复杂度以及较少信令开销。
在视频编码器应用4x4 LFNST(例如,对变换系数的4x4块应用LFNST)并且视频解码器应用逆4x4 LFNST的系统中可能存在一个或多个问题。例如,视频编码器对色度变换系数的4x4块应用4x4 LFNST可能随着两阶段变换过程引入过多的延时。在一些示例中,利用LFNST对4x4块(例如,变换单元(TU))进行编码可以表示最坏情况的延时。类似地,视频解码器对色度变换系数的4x4块应用逆4x4 LFNST(例如,对变换系数的4x4块应用逆4x4 LFNST)可能随着两阶段变换过程引入过多的延时。在一些示例中,利用LFNST对4x4块(例如,TU)进行解码可以表示最坏情况的延时。
本文中描述的技术可以表示对上文列出的问题以及其它问题的一个或多个解决方案,以及因此改善视频译码器或视频译码过程的操作。例如,视频编码器可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。类似地,视频解码器可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST,以生成针对当前块的残差块。
图1是示出可以执行本公开内容的技术的示例视频编码和解码系统100的方块图。本公开内容的技术通常针对对视频数据进行译码(编码和/或解码)。通常,视频数据包括用于对视频进行处理的任何数据。因此,视频数据可以包括原始的、未经编码的视频、经编码的视频、经解码的(例如,重建的)视频和视频元数据,比如信令数据。
如在图1中所示出的,在该示例中,系统100包括源设备102,所述源设备102提供要由目标设备116进行解码和显示的经编码的视频数据。特别是,源设备102经由计算机可读介质110向目标设备116提供视频数据。源设备102和目标设备116可以包括各种各样的设备中的任何设备,所述设备包括桌上型计算机、笔记本(即,膝上型)型计算机、平板型计算机、机顶盒、电话手机(比如智能手机)、电视机、照相机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备等。在一些情况下,源设备102和目标设备116可以被装备用于无线通信,以及因此可以称为无线通信设备。
在图1的示例中,源设备102包括视频源104、存储器106、视频编码器200和输出接口108。目标设备116包括输入接口122、视频解码器300和显示设备118。根据本公开内容,源设备102的视频编码器200和目标设备116的视频解码器300可以被配置为应用用于对LFNST进行简化的技术。因此,源设备102表示视频编码设备的示例,而目标设备116表示视频解码设备的示例。在其它示例中,源设备和目标设备可以包括其它组件或布置。例如,源设备102可以从外部视频源(比如外部照相机)接收视频数据。同样地,目标设备116可以与外部显示设备相连接,而不是包括集成的显示设备。
如在图1中所示出的系统100仅仅是一个示例。通常,任何数字视频编码和/或解码设备可以执行用于对LFNST进行简化的技术。源设备102和目标设备116仅仅是这样的译码设备的示例,在这样的译码设备中,源设备102产生用于向目标设备116传输的经译码的视频数据。本公开内容将“译码”设备称作为执行对数据的译码(编码和/或解码)的设备。因此,视频编码器200和视频解码器300表示译码设备的示例,特别是,分别表示视频编码器和视频解码器。在一些示例中,源设备102和目标设备116可以以大体上对称的方式工作,使得源设备102和目标设备116中的每者包括编码和解码组件。因此,系统100可以支持在源设备102与目标设备116之间的单向或双向视频传输,例如,用于视频流、视频回放、视频广播或视频电话。
通常,视频源104表示视频数据的源(即,原始的、未经编码的数据数据)以及提供视频数据的连续系列的图像到视频编码器200,所述视频编码器200对针对图像的数据进行编码。源设备102的视频源104可以包括视频捕获设备(比如视频照相机)、包含先前捕获的原始的视频的视频存档、和/或用于从视频内容提供方接收视频的视频馈送接口。作为进一步的选择方案,视频源104可以产生基于计算机图形的数据作为源视频、或即时视频的组合、存档的视频、以及计算机产生的视频。在每种情况下,视频编码器200对捕获的、预先捕获的或计算机产生的视频数据进行编码。视频编码器200可以将图像从接收到的次序(有时称为“显示次序”)重新安排成用于译码的译码次序。视频编码器200可以产生包括经编码的视频数据的比特流。源设备102可以接着经由输出接口108将经编码的视频数据输出到计算机可读介质110上,用于由例如目标设备116的输入接口122进行的接收和/或由取回。
源设备102的存储器106和目标设备116的存储器120表示通用存储器。在一些示例中,存储器106、存储器120可以存储原始的视频数据,例如来自视频源104的原始的视频和来自视频解码器300的原始的、经解码的视频数据。额外地或替代地,存储器106、存储器120可以分别存储由例如视频编码器200和视频解码器300可执行的软件指令。虽然存储器106和存储器120在该示例中示为分别来自视频编码器200和视频解码器300,但是应当理解的是,出于功能上类似或等效的目的,视频编码器200和视频解码器300还可以包括内部存储器。此外,存储器106、存储器120可以存储经编码的视频数据,例如,来自视频编码器200的输出以及到视频解码器300的输入。在一些示例中,存储器106、存储器120的一部分可以被分配为一个多个视频缓冲区,例如以存储原始的、经解码的和/或经编码的视频数据。
计算机可读介质110可以表示能够将经编码的视频数据从源设备102传送给目标设备116的任何类型的介质或设备。在一个示例中,计算机可读介质110表示用以使得源设备102能够例如经由射频网络或基于计算机的网络实时地将经编码的视频数据直接地发送给目标设备116的通信介质。根据通信标准(比如无线通信协议),输出接口108可以对包括经编码的视频数据的传输信号进行调制,以及输入接口122可以对接收到的传输信号进行解调。通信介质可以包括任何无线或有线的通信介质,比如射频(RF)频谱或一个或多个物理传输线。通信介质可以形成基于分组的网络(比如局域网、广域网或比如互联网的全球网络)的一部分。通信介质可以包括路由器、交换机、基站或可以用于促进从源设备102到目标设备116的通信的任何其它装备。
在一些示例中,计算机可读介质110可以包括存储设备112。源设备102可以将经编码的数据从输出接口108输出到存储设备112。类似地,目标设备116可以经由输入接口122从存储设备112存取经编码的数据。存储设备112可以包括多种分布式或本地存取的数据存储介质中的任何数据存储介质,比如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪速存储器、易失性或非易失性存储器、或用于存储经编码的视频数据的任何其它适当的数字存储介质。
在一些示例中,计算机可读介质110可以包括存储设备112。源设备102可以将经编码的视频数据输出到文件服务器114或可以存储由源设备102产生的经编码的视频的另一中间存储设备。目标设备116可以经由流或下载来从文件服务器114存取所存储的视频数据。文件服务器114可以是能够存储经编码的视频数据以及将该经编码的视频数据发送给目标设备116的任何类型的服务器设备。文件服务器114可以表示网页服务器(例如,用于网站)、文件传输协议(FTP)服务器、内容递送网络设备或网络附加存储(NAS)设备。目标设备116可以通过任何标准数据连接(包括互联网连接)来从文件服务器114存取经编码的视频数据。这可以包括适合于存取在文件服务器114上存储的经编码的视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,数字用户线(DSL)、电缆调制解调器等)或两者的组合。文件服务器114和输入接口122可以被配置为根据流式传输协议、下载传输协议或其组合来工作。
输出接口108和输入接口122可以表示无线发射机/接收机、调制解调器、有线网络组件(例如,以太网卡)、根据多种IEEE 802.11标准中的任何标准来工作的无线通信组件、或其它物理组件。在输出接口108和输入接口122包括无线组件的示例中,输出接口108和输入接口122可以被配置为根据蜂窝通信标准(比如4G、4G-LTE(长期演进)、改进的LTE、5G等)来传送数据(比如经编码的视频数据)。在输出接口108包括无线发射机的一些示例中,输出接口108和输入接口122可以被配置为根据其它无线标准(比如IEEE 802.11规范、IEEE802.15规范(例如,ZigBee(紫蜂)TM),蓝牙标准等)来传送数据(比如经编码的视频数据)。在一些示例中,源设备102和/或目标设备116可以包括各自的片上系统(SoC)设备。例如,源设备102可以包括SoC设备以执行被认为是视频编码器200和/或输出接口108所为的功能,以及目标设备116可以包括SoC设备以执行被认为是视频解码器300和/或输入接口122所为的功能。
本公开内容的技术可以应用于支持多种多媒体应用中的任何多媒体应用的视频译码,所述多媒体应用比如无线电视广播、有线电视传输、卫星电视传输、互联网流式视频传输(比如在HTTP上的动态自适应流(DASH))、编码到数据存储介质上的数字视频、对存储在数据存储介质上的数字视频的解码、或其它应用。
目标设备116的输入接口122从计算机可读介质110(例如,通信介质、存储设备112、文件服务器114等)接收经编码的视频比特流。经编码的视频比特流可以包括由视频编码器200定义的、还由视频解码器300使用的信令信息,比如具有描述视频块或其它经编码的单元(例如,切片、图像、图像组、序列等)的特性和/或处理的值的语法元素。显示设备118向用户显示经解码的视频数据的经解码的图像。显示设备118可以表示多种显示设备中的任何显示设备,比如液晶显示器(LCD)、等离子体显示器、有机发光二级光(OLED)显示器、或另一类型的显示设备。
虽然未在图1中示出,但是在一些示例中,视频编码器200和视频解码器300可以各自与音频编码器和/或音频解码器整合,以及可以包括适当的MUX-DEMUX单元或其它硬件和/或软件,以处理包括在公共数据流中的音频和视频两者的经复用的流。如果适用的话,MUX-DEMUX单元可以符合ITU H.233复用器协议或其它协议(比如用户数据报协议(UDP))。
视频编码器200和视频解码器300各自可以实现为多种适当的编码器和/或解码器电路中的任何电路,比如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑、软件、硬件、固件或其任意组合。当技术是部分地在软件中实现时,设备可以在适当的、非暂时性计算机可读介质中存储用于软件的指令,以及使用一个或多个处理器来执行在硬件中的指令以执行本公开内容的技术。视频编码器200和视频解码器300中的每者可以是包括在一个或多个编码器或解码器中的,所述编码器或解码器中的任何一者可以整合为在各自的设备中的组合的编码器/解码器(编码解码器)的一部分。包括视频编码器200和/或视频解码器300的设备可以包括集成电路、微处理器和/或无线通信设备(比如蜂窝电话)。
视频编码器200和视频解码器300可以根据视频译码标准(比如ITU-T H.265,还称为高效视频译码(HEVC))或随之的扩展(比如多视图)和/或可扩展的视频译码扩展来工作。或者,视频编码器200和视频解码器300可以根据其它专有标准或工业标准(比如联合勘探试验模型(JEM)或ITU-T H.266,还称为通用的视频译码(VVC))来工作。VVC标准的最近的草案是在ITU-T SG 16WP 3的联合视频专家组(JVET)和ISO/IEC JTC 1/SC 29/WG 11于2019年7月3日–12日在瑞典哥德堡举行的第15次会议中布罗斯等人的“Versatile VideoCoding(通用视频译码)(草案6)”JVET-O2001-vE(下文中“VVC草案6”)中描述的。然而,本公开内容的技术不限于任何特定的译码标准。
通常,视频编码器200和视频解码器300可以执行图像的基于块的译码。术语“块”通常指的是包括要处理的数据(例如,经编码的、经解码的或以其它方式在编码和/或解码过程中使用的)的结构。例如,块可以包括亮度和/或色度数据的样本的二维矩阵。通常,视频编码器200和视频解码器300可以对以YUV(例如,Y、Cb、Cr)格式表示的视频数据进行译码。也就是说,不是对针对图像的样本的红色、绿色和蓝色(RGB)数据进行译码,视频编码器200和视频解码器300可以对亮度分量和色度分量进行译码,其中色度分量可以包括红色色调和蓝色色调色度分量两者。在一些示例中,视频编码器200在编码之前将接收到的RGB格式化的数据转换至YUV表示,以及视频解码器300可以将YUV表示转换至RGB格式。或者,预处理和后处理单元(未示出)可以执行这些转换。
本公开内容通常可以涉及对图像的译码(例如,编码和解码),以包括对图像的数据进行编码和解码的过程。类似地,本公开内容可以涉及对图像的块的译码,以包括对针对块的数据进行编码和解码的过程,例如预测和/或残差译码。经编码的视频比特流通常包括针对表示译码决定(例如,译码模式)和将图像划分成块的语法元素的一系列值。因此,对图像或块进行译码的引用通常应当理解为对针对形成图像或块的语法元素的值进行译码。
HEVC定义各种块,包括译码单元(CU)、预测单元(PU)和变换单元(TU)。根据HEVC,视频译码器(比如视频编码器200)根据四叉树结构将译码树单元(CTU)划分成CU。也就是说,视频译码器将CTU和CU划分成四个相等的、不重叠的正方形,以及四叉树的每个节点具有零或四个子节点。没有子节点的节点可以称为“叶节点”,以及这样的叶节点的CU可以包括一个或多个PU和/或一个或多个TU。视频译码器可以进一步对PU和TU进行划分。例如,在HEVC中,残差四叉树(RQT)表示对TU的划分。在HEVC中,PU表示帧间预测数据,而TU表示残差数据。被进行帧内预测的CU包括帧内预测信息,比如模式内指示。
作为另一示例,视频编码器200和视频解码器300可以被配置为根据VVC来工作。根据VVC,视频译码器(比如视频编码器200)将图像划分成多个译码树单元(CTU)。视频编码器200可以根据树结构(比如四叉树-二叉树(QTBT)结构或多类型树(MTT)结构)来对CTU进行划分。QTBT结构移除多个划分类型的概念,比如在HEVC的CU、PU和TU之间的分离。QTBT结构包括两个级别:根据四叉树划分来进行划分的第一级别,和根据二叉树划分来进行划分的第二级别。QTBT结构的根节点与CTU相对应。二叉树的叶节点与译码单元(CU)相对应。
在MTT划分结构中,块可以是使用四叉树(QT)划分、二叉树(BT)划分和一个或多个类型的三叉树(TT)(还称为三元树(TT))划分来进行划分的。三叉树或三元树划分是块被拆分成三个子块的划分。在一些示例中,三叉树或三元树划分在不将穿过中心的原来的块进行分割的情况下将块分割成三个子块。在MTT中的划分类型(例如,QT、BT和TT)可以是对称的或非对称的。
在一些示例中,视频编码器200和视频解码器300可以使用单个QTBT或MTT结构来表示亮度分量和色度分量中的每者,而在其它示例中,视频编码器200和视频解码器300可以使用两个或更多个QTBT或MTT结构,比如针对亮度分量的一个QTBT/MTT结构和针对色度分量两者的另一QTBT/MTT结构(或针对各自的色度分量的两个QTBT/MTT结构)。
视频编码器200和视频解码器300可以被配置为每HEVC使用四叉树划分、QTBT划分、MTT划分或其它划分结构。出于解释的目的,对本公开内容的技术的描述是相对于QTBT划分来给出的。然而,应当理解的是,本公开内容的技术还可以应用于被配置为还使用三叉树划分或其它类型的划分的视频译码器。
块(例如,CTU或CU)可以是在图像中以各种方式来分组的。作为一个示例,砖块可以指的是在图像中的特定图块内的CTU行的矩形区域。图块可以是在图像中的特定图块列和特定图块行内的CTU的矩形区域。图块列指的是具有等于图像的高度的高度和通过语法元素(例如,比如在图像参数集合中)指定的宽度的CTU的矩形区域。图块行指的是具有通过语法元素(例如,比如在图像参数集合中)指定的高度和等于图像的宽度的宽度的CTU的矩形区域。
在一些示例中,图块可以划分成多个砖块,所述砖块中的每个砖块可以包括在图块内的一个或多个CTU行。未划分成多个砖块的图块也可以称为砖块。然而,是图块的真子集的砖块不可以成为图块。
在图像中的砖块还可以是在切片中布置的。切片可以是图像的可以专有地包含在单个网络抽象层(NAL)单元中的整数个砖块。在一些示例中,切片包括若干完整的图块或仅包括一个图块的连续系列的完整的砖块。
本公开内容可以可互换地使用“NxN”和“N乘N”来提及在垂直和水平维度方面的块(比如CU或其它视频块)的样本尺寸,例如16x16样本或16乘16样本。通常,16x16 CU将具有在垂直方向上的16个样本(y=16)和在水平方向上的16个样本(x=16)。同样地,NxN CU通常具有在垂直方向上的N个样本和在水平方向上的N个样本,其中N表示非负整数值。在CU中的样本可以是以行和列来布置的。此外,CU不一定需要在水平方向上具有与在垂直方向上相同数量的样本。例如,CU可以包括NxM个样本,其中M不一定等于N。
视频编码器200对针对表示预测和/或残差信息和其它信息的CU的视频数据进行编码。预测信息指示CU是如何预测的以便形成针对CU的预测块。残差信息通常表示在编码之前的CU的样本与预测块之间的逐样本的差异。
为了预测CU,视频编码器200通常可以通过帧间预测或帧内预测来形成针对CU的预测块。帧间预测通常指的是根据先前译码的图像的数据来预测CU,而帧内预测指的是根据同一图像的先前译码的数据来预测CU。为了执行帧间预测,视频编码器200可以使用一个或多个运动矢量来产生预测块。视频编码器200通常可以执行运动搜索来识别与CU紧密地匹配的参考块,例如依据在CU与参考块之间的差。视频编码器200可以使用绝对误差和(SAD)、差的平方和(SSD)、平均绝对差(MAD)、均方差(MSD)或其它这样的差值计算来计算差度量,以确定参考块是否与当前的CU紧密地匹配。在一些示例中,视频编码器200可以使用单向预测或双向预测来预测当前的CU。
VVC的一些示例还提供仿射运动补偿模式,其可以认为是帧间预测模式。在仿射运动补偿模式中,视频编码器200可以确定表示非平移运动(比如放大或缩小、旋转、透视运动或其它不规则的运动类型)的两个或更多个运动矢量。
为了执行帧内预测,视频编码器200可以选择帧内预测模式来产生预测块。VVC的一些示例提供六十七种帧内预测模式,包括各种定向模式以及平面模式和DC模式。通常,视频编码器200选择描述与当前块(CU的块)邻近的样本的帧内预测模式,根据所述邻近的样本来预测当前块的样本。假设视频编码器200以光栅扫描次序(左到右,上到下)来对CTU和CU进行译码,则这样的样本通常可以与当前块在相同图像中在当前块的上方、左上方或左侧。
视频编码器200对表示针对当前块的预测模式的数据进行编码。例如,针对帧间预测模式,视频编码器200可以对表示使用多种可用的帧间预测模式中的哪种模式以及针对相应的模式的运动信息的数据进行编码。例如,对于单向或双向帧间预测,视频编码器200可以使用改进的运动矢量预测(AMVP)或合并模式来对运动矢量进行编码。视频编码器200可以使用类似的模式来对针对仿射运动补偿模式的运动矢量进行编码。
在预测(比如块的帧内预测或帧间预测)之后,视频编码器200可以计算针对块的残差数据。残差数据(比如残差块)表示使用相应的预测模式来形成的、在块与针对块的预测块之间的逐样本的差异。视频编码器200可以对残差块应用一个或多个变换,以在变换域中而不是样本域中生成经变换的数据。例如,视频编码器200可以对残差视频数据应用离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换。此外,在第一变换之后,视频编码器200可以应用次级变换(例如,LFNST),比如与模式有关的不可分离次级变换(MDNSST)、与信号有关的变换、卡洛(Karhunen-Loeve)变换(KLT)等。在对一个或多个变换的应用之后,视频编码器200生成变换系数。
根据本公开内容的技术,视频编码器200可以确定单个树划分是否被启用用于当前块,以及响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。与此相反,视频编码器200可以响应于确定分离树划分被启用用于当前块,对针对当前块的亮度变换系数和针对当前块的色度变换系数两者应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。
如上文所指出的,在用于生成变换系数的任何变换之后,视频编码器200可以执行对变换系数的量化。量化通常指的是在其中对变换系数进行量化来可能地减少用于表示变换系数的数据的量以提供进一步压缩的过程。通过执行量化过程,视频编码器200可以减小与变换系数中的一些或全部变换系数相关联的比特深度。例如,视频编码器200可以在量化期间将n比特的值下舍入为m比特的值,其中n大于m。在一些示例中,为了执行量化,视频编码器200可以对要量化的值执行按位右移。
在量化之后,视频编码器200可以对变换系数进行扫描,根据包括经量化的变换系数的二维矩阵生成一维矢量。扫描可以被设计为将较高能量(以及因此的较低频率)变换系数放置在矢量的前面以及将较低能量(以及因此的较高频率)变换系数放置在矢量的后面。在一些示例中,视频编码器200可以利用预先定义的扫描次序来对经量化的变换系数进行扫描,以生成序列化的矢量,以及接着对矢量的经量化的变换系数进行熵编码。在其它示例中,视频编码器200可以执行自适应扫描。在对经量化的变换系数进行扫描以形成一维矢量之后,视频编码器200可以例如根据上下文自适应二进制算术编码(CABAC)对一维矢量进行熵编码。视频编码器200可以对针对描述与经编码的视频数据相关联的元数据的语法元素的值进行熵编码,用于由视频解码器300在对视频数据进行解码时使用。
为了执行CABAC,视频编码器200可以给要发送的符号分配在上下文模型内的上下文。上下文可以涉及例如符号的邻近值是否是零值。概率确定可以基于分配给符号的上下文。
视频编码器200可以进一步例如在图像报头、块报头、切片报头中产生去往视频解码器300的语法数据(比如基于块的语法数据、基于图像的语法数据和基于序列的语法数据)或其它语法数据(比如序列参数集(SPS)、图像参数集(PPS)或视频参数集(VPS))。视频解码器300可以同样地对这样的语法数据进行解码,以确定如何对相应的视频数据进行解码。
以这种方式,视频编码器200可以产生包括经编码的视频数据的比特流,例如描述将图像划分成块(例如,CU)和针对块的预测和/或残差信息的语法元素。最终,视频解码器300可以接收比特流以及对经编码的视频数据进行解码。
通常,视频解码器300执行与由视频编码器200执行的过程互逆的过程,以对比特流的经编码的视频数据进行解码。例如,视频解码器300可以以与视频编码器200的CABAC编码过程虽然互逆但是大体上相似的方式使用CABAC,来对针对比特流的语法元素的值进行解码。语法元素可以定义用于将图像划分成CTU以及根据相应的划分结构(比如QTBT结构)的对每个CTU的划分的划分信息,以定义CTU的CU。语法元素可以进一步定义针对视频数据的块(例如,CU)的预测和残差信息。
残差信息可以是通过例如经量化的变换系数来表示的。视频解码器300可以对块的经量化的变换系数进行逆量化以及逆变换,以再现针对块的残差块。
根据本公开内容的技术,视频解码器300可以确定单个树划分是否被启用用于当前块,以及响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST,以生成针对当前块的残差块。与此相反,视频解码器300可以响应于确定分离树划分被启用用于当前块,对针对当前块的亮度变换系数和针对当前块的色度变换系数两者应用逆LFNST,以生成针对当前块的残差块。
视频解码器300使用以信号发送的预测模式(帧内预测或帧间预测)和有关的预测信息(例如,针对帧间预测的运动信息)来形成针对块的预测块。视频解码器300可以接着将预测块和残差块(以逐样本为基础)进行组合以再现原来的块。视频解码器300可以执行额外的处理,比如执行去块过程,以减少沿着块的边界的视觉伪影。
根据本公开内容的技术,视频编码器200可以被配置为基于针对当前的预测块来产生针对当前块的残差值,以及对残差值应用可分离变换以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数。视频编码器200可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。视频编码器200可以被配置为对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据以及输出经编码的视频数据。
根据本公开内容的技术,视频解码器300可以被配置为接收针对当前块的经编码的视频数据,以及对经编码的视频数据进行解码以产生针对当前块的亮度变换系数和针对当前块的色度变换系数。视频解码器300可以被配置为确定单个树划分是否被启用用于当前块。视频解码器300可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST以生成针对当前块的残差块,以及使用针对当前块的残差块和预测块来重建视频数据的当前块。
本公开内容通常可以涉及“以信号发送”某些信息,比如语法元素。术语“以信号发送”通常可以指的是对针对语法元素的值和/或用于对经编码的视频数据进行解码的其它数据的传送。也就是说,视频编码器200可以在比特流中以信号发送针对语法元素的值。通常,以信号发送指的是产生在比特流中的值。如上文所指出的,源设备102可以大体上实时地将比特流传送给目标设备116,或者不实时地,比如当向存储设备112存储语法元素用于由目标设备116进行随后的取回。
图2A和图2B是示出示例四叉树二叉树(QTBT)结构130和相应的译码树单元(CTU)132的概念图。实线表示四叉树拆分,以及虚线指示二叉树拆分。在二叉树的每个拆分(即,非叶)节点中,以信号发送一个标记以指示使用了哪个拆分类型(即,水平的或垂直的),其中在该示例中0指示水平拆分以及1指示垂直拆分。对于四叉树拆分,不需要指示拆分类型,因为四叉树节点将块水平地和垂直地拆分成具有相同大小的4个子块。相应地,视频编码器200可以对针对QTBT结构130(即,实线)的区域树级别(即,第一级别)的语法元素(比如拆分信息)和针对QTBT结构130(即,虚线)的预测树级别(即,第二级别)的语法元素(比如拆分信息)进行编码,以及视频解码器300可以对其进行解码。视频编码器200可以对针对通过QTBT结构130的终端叶节点表示的CU的视频数据(比如预测和变换数据)进行编码,以及视频解码器300可以对其进行解码。
通常,图2B的CTU 132可以与定义同在第一级别和第二级别上的QTBT结构130的节点相对应的块的大小的参数相关联。这些参数可以包括CTU大小(表示在样本中的CTU 132的大小)、最小四叉树大小(MinQTSize,表示最小的允许的四叉树叶节点大小)、最大二叉树大小(MaxBTSize,表示最大的允许的二叉树根节点大小)、最大二叉树深度(MaxBTDepth,表示最大的允许的二叉树深度)、和最小二叉树大小(MinBTSize,表示最小的允许的二叉树叶节点大小)。
QTBT结构的与CTU相对应的根节点可以在QTBT结构的第一级别上具有四个子节点,所述四个子节点中的每个子节点可以是根据四叉树划分来划分的。也就是说,第一级别的节点可以是叶节点(不具有子节点)或具有四个子节点。QTBT结构130的示例将这样的节点表示为包括父节点和具有针对分支的实线的子节点。如果第一级别的节点不大于最大的允许的二叉树根节点大小(MaxBTSize),则节点可以是通过各自的二叉树来进一步划分的。一个节点的二叉树拆分可以迭代,直到从拆分导致的节点达到最小的允许的二叉树叶节点大小(MinBTSize)或最大的允许的二叉树深度(MaxBTSize)为止。QTBT结构130的示例将这样的节点表示为具有针对分支的虚线。二叉树叶节点称为译码单元(CU),所述CU用于预测(例如,图像内预测和图像间预测)和变换,不再进行任何进一步的划分。如上文所讨论的,CU还可以称为“视频块”或“块”。
在QTBT划分结构的一个示例中,CTU大小设置为128x128(亮度样本和两个相应的64x64色度样本),MinQTSize设置为16x16,MaxBTSize设置为64x64,MinBTSize(针对宽度和高度两者)设置为4,以及MaxBTDepth设置为4。四叉树划分首先应用于CTU以产生四叉树叶节点。四叉树叶节点可以具有从16x16(即,MinQTSize)到128x128(即,CTU大小)的大小。如果四叉树叶节点是128x128,则四叉树叶节点将不通过二叉树进行进一步拆分,这是因为大小超过MaxBTSize(即,64x64,在本示例中)。否则,四叉树叶节点将通过二叉树进行进一步划分。因此,四叉树叶节点还是针对二叉树的根节点,以及具有为0的二叉树深度。当二叉树深度达到MaxBTSize(4,在本示例中)时,不允许进一步拆分。当二叉树节点具有等于MinBTSize(4,在本示例中)的深度时,意味着不允许进一步的垂直拆分。类似地,具有等于MinBTSize的高度的二叉树节点意味着不允许针对该二叉树节点的进一步水平拆分。如上文所指出的,二叉树的叶节点称为CU,以及是在不进一步划分的情况下根据预测和变换来进一步处理的。
图3是示出可以执行本公开内容的技术的示例视频编码器200的方块图。图3是出于解释的目的而提供的以及不应当认为是对如在本公开内容中所广泛例证和描述的技术的限制。出于解释的目的,本公开内容在视频译码标准(比如在发展中的HEVC视频译码标准和H.266视频译码标准)的上下文中描述频编码器200。然而,本公开内容的技术不限于这些视频译码标准,以及通常可适用于视频编码和解码。
在图3的示例中,视频编码器200包括视频数据存储器230、模式选择单元202、残差产生单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重建单元214、滤波单元216、经解码的图像缓冲器(DPB)218和熵编码单元220。视频数据存储器230、模式选择单元202、残差产生单元204、变换处理单元206、量化单元208、逆量化单元210、逆变换处理单元212、重建单元214、滤波单元216、DPB 218和熵编码单元220中的任何或全部可以是在一个或多个处理器中或在处理电路中实现的。例如,视频编码器200的单元可以实现为一个或多个电路、或者作为硬件电路的一部分的逻辑元素、或作为处理器、ASIC、FPGA的一部分。此外,视频编码器200可以包括额外的或替代的处理器或处理电路,以执行这些功能或其它功能。
视频数据存储器230可以存储要由视频编码器200的组件进行编码的视频数据。视频编码器200可以从例如视频源104(图1)接收存储在视频数据存储器230中的视频数据。DPB 218可以充当参考图像存储器,其存储参考视频数据用于在对随后的视频数据的预测中由视频编码器200进行使用。视频数据存储器230和DPB 218可以是由多种存储设备中的任何存储设备来形成的,比如动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其它类型的存储设备。视频数据存储器230和DPB 218可以由相同的存储设备或分开的存储设备提供。在各种示例中,视频数据存储器230可以与视频编码器200的其它组件一起在芯片上,如所示出的,或相对于那些组件在芯片外。
在本公开内容中,对视频数据存储器230的引用不应当解释为限于在视频编码器200内部的存储器(除非特别地如此描述),或限于在视频编码器200外部的存储器(除非特别地如此描述)。准确地说,对视频数据存储器230的引用应当理解为存储视频编码器200接收以用于编码的视频数据(例如,针对要编码的针对当前块的视频数据)的参考存储器。图1的存储器106还可以提供对来自视频编码器200的各种单元的输出的暂时存储。
示出图3的各种单元来辅助理解由视频编码器200执行的操作。单元可以实现为固定功能电路、可编程电路或其组合。固定功能电路指的是提供特定的功能以及对可以执行的操作预设置的电路。可编程电路指的是可以被编程为执行各种任务以及提供在可以执行的操作中的灵活功能的电路。例如,可编程电路可以执行使得可编程电路以通过软件或固件的指令定义的方式来工作的软件或固件。固定功能电路可以执行软件指令(例如,以接收参数或输出参数),但是固定功能电路执行的操作的类型通常是不可变的。在一些示例中,单元中的一个或多个单元可以是有区别的电路块(固定功能或可编程的),以及在一些示例中,单元中的一个或多个单元可以是集成电路。
视频编码器200可以包括根据可编程电路形成的算术逻辑单元(ALU)、基本功能单元(EFU)、数字电路、模拟电路和/或可编程内核。在视频编码器200的操作是使用由可编程电路执行的软件来执行的示例中,存储器106(图1)可以存储视频编码器200接收以及执行的软件的指令(例如,目标代码),或在视频编码器200内的另一存储器(未示出)可以存储这样的指令。
视频数据存储器230被配置为存储接收的视频数据。视频编码器200可以从视频数据存储器230取回视频数据的图像,以及将视频数据提供至残差产生单元204和模式选择单元202。在视频数据存储器230中的视频数据可以是要编码的原始的视频数据。
模式选择单元202包括运动估计单元222、运动补偿单元224及帧内预测单元226。模式选择单元202可以包括用以根据其它预测模式执行视频预测的额外的功能单元。作为示例,模式选择单元202可以包括调色板单元、块内复制单元(其可以是运动估计单元222和/或运动补偿单元224的一部分)、仿射单元、线性模型(LM)单元等。
模式选择单元202通常协调多个编码通路以对编码参数的组合以及针对这样的组合的所得到的率失真值进行测试。编码参数可以包括CTU至CU的划分、用于CU的预测模式、用于CU的残差数据的变换类型、用于CU的残差数据的量化参数等。模式选择单元202可以最终选择具有与其它所测试的组合相比较好的率失真值的编码参数的组合。
视频编码器200可以将从视频数据存储器230取回的图像划分成一系列CTU,以及将一个或多个CTU封装在切片内。模式选择单元202可以根据树结构(比如上文所描述的HEVC的QTBT结构或四叉树结构)来对图像的CTU进行划分。如上文所描述的,视频编码器200可以根据树结构从对CTU进行划分来形成一个或多个CU。这样的CU通常还可以称作为“视频块”或“块”。再次,树结构可以包括用于亮度块和用于色度块两者的单个树(例如,单个树划分)和双重树(例如,分离树划分)。利用双重树,视频编码器200可以使用第一树来对亮度块进行划分(例如,双重树亮度),以及使用第二树来对色度块进行划分(例如,双重树色度)。
通常,模式选择单元202还控制其组件(例如运动估计单元222、运动补偿单元224及帧内预测单元226)以产生针对当前块(例如当前的CU,或在HEVC中,PU及TU的重叠部分)的预测块。对于当前块的帧间预测,运动估计单元222可以执行运动搜索以识别在一个或多个参考图像(例如在DPB 218中存储的一个或多个先前经译码的图像)中的一个或多个紧密地匹配的参考块。特定是,运动估计单元222可以例如根据绝对误差和(SAD)、差的平方和(SSD)、平均绝对差(MAD)、均方差(MSD)等来计算表示潜在的参考块与当前块如何类似的值。运动估计单元222通常可以使用在当前块与所考虑的参考块之间的逐样本的差异来执行这些计算。运动估计单元222可以识别具有由这些计算产生的最小值的参考块,指示最紧密地匹配当前块的参考块。
运动估计单元222可以形成一个或多个运动矢量(MV),所述MV定义参考块在参考图像中相对于当前块在当前图像中的位置的位置。运动估计单元222可以接着将运动矢量提供至运动补偿单元224。例如,对于单向帧间预测,运动估计单元222可以提供单个运动矢量,而对于双向帧间预测,运动估计单元222可以提供两个运动矢量。运动补偿单元224可以接着使用运动矢量来产生预测块。例如,运动补偿单元224可以使用运动矢量来取回参考块的数据。作为另一示例,如果运动矢量具有分数的样本精确度,则运动补偿单元224可以根据一个或多个内插滤波器来为预测块内插值。此外,对于双向帧间预测,运动补偿单元224可以取回针对通过各自的运动矢量来识别的两个参考块的数据,以及例如通过逐样本进行平均或加权平均来对所取回的数据进行组合。
作为另一示例,对于帧内预测,或帧内预测译码,帧内预测单元226可以根据邻近当前块的样本来产生预测块。例如,对于定向模式,帧内预测单元226通常可以对邻近样本的值进行算术地合并,以及在跨越当前块的定义的方向上填入这些所计算的值以生成预测块。作为另一示例,对于DC模式,帧内预测单元226可以计算与当前块邻近的样本的平均,以及产生预测块以包括针对预测块的每个样本的该所得到的平均。
模式选择单元202将预测块提供至残差产生单元204。残差产生单元204接收来自视频数据存储器230的当前块以及来自模式选择单元202的预测块的原始的未经编码的码版本。残差产生单元204计算在当前块与预测块之间的逐样本的差异。所得到的逐样本的差异定义针对当前块的残差块。在一些示例中,残差产生单元204还可确定在残差块中的样本值之间的差,以使用残差差分脉冲编码调制(RDPCM)产生残差块。在一些示例中,残差产生单元204可以是使用执行二进制减法的一个或多个减法器电路来形成的。
在模式选择单元202将CU划分成PU的示例中,每个PU可以与亮度预测单元和相应的色度预测单元相关联。视频编码器200和视频解码器300可以支持具有各种大小的PU。如上文所指出的,CU的大小可以指的是CU的亮度译码块的大小,以及PU的大小可以指的是PU的亮度预测单元的大小。假定特定CU的大小为2Nx2N,则视频编码器200可以支持用于帧内预测的2Nx2N或NxN的PU大小,以及用于帧间预测的2Nx2N、2NxN、Nx2N、NxN或类似大小的对称PU大小。视频编码器200和视频解码器300还可以支持针对用于帧间预测的2NxnU、2NxnD、nLx2N和nRx2N的PU大小的非对称划分。
在模式选择单元202未将CU进一步划分为PU的示例中,每个CU可以与亮度译码块和相应的色度译码块相关联。如上文,CU的大小可以指的是CU的亮度译码块的大小。视频编码器200和视频解码器300可以支持2Nx2N、2NxN或Nx2N的CU大小。
对于其它视频译码技术(比如块内复制模式译码、仿射模式译码和线性模型(LM)模式译码),如少数示例,模式选择单元202经由与译码技术相关联的各自的单元来产生针对正被编码的当前块的预测块。在比如调色板模式译码的一些示例中,模式选择单元202可能不产生预测块,而是基于所选择的调色板来产生用于指示以其重建块的方式的语法元素。在这样的模式中,模式选择单元202可以将这些语法元素提供至熵编码单元220来进行编码。
如上文所描述的,残差产生单元204接收针对当前块和相应的预测块的视频数据。残差产生单元204接着产生针对当前块的残差块。为了产生残差块,残差产生单元204计算在预测块与当前块之间的逐样本的差异。
变换处理单元206将一个或多个变换应用于残差块以产生变换系数的块(在本文中称为“变换系数块”)。变换处理单元206可以将各种变换应用于残差块以产生变换系数的块。例如,变换处理单元206可以将离散余弦变换(DCT)、定向变换、卡洛(Karhunen-Loeve)变换(KLT)或概念上类似的变换应用于残差块。在一些示例中,变换处理单元206可以对残差块执行多重变换,例如初级变换和次级变换,比如旋转变换。在一些示例中,变换处理单元206未将变换应用于残差块。
根据本公开内容的技术,变换处理单元206可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。例如,响应于模式选择单元202确定应用单个树划分,变换处理单元206可以仅对针对当前块的可分离亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。与此相反,响应于模式选择单元202确定应用分离树划分(例如,双重树划分),变换处理单元206可以对针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数两者应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。
量化单元208可以对在变换系数块中的变换系数进行量化,以生成经量化的变换系数块。量化单元208可以根据与当前块相关联的量化参数(QP)值来对变换系数块的变换系数进行量化。视频编码器200(例如,经由模式选择单元202)可以通过调整与CU相关联的QP值来调整应用于与当前块相关联的变换系数块的量化的度。量化可以引入信息的损耗,以及因此经量化的变换系数可以具有与由变换处理单元206生成的原来的变换系数相比要低的精确度。
逆量化单元210和逆变换处理单元212可以将逆量化及逆变换分别应用于经量化的变换系数块,以根据变换系数块来重建残差块。在一些示例中,逆变换处理单元212可以应用本文中描述的用于简化的LFNST的技术。重建单元214可以基于重建的残差块和由模式选择单元202产生的预测块,来生成与当前块相对应的重建的块(尽管可能地具有一定程度的失真)。例如,重建单元214可以将重建的残差块的样本增加至来自由模式选择单元202产生的预测块的相应的样本,以生成经重建的块。
滤波器单元216可以对经重建的块执行一个或多个滤波操作。例如,滤波器单元216可以执行去块操作以减少沿着CU的边缘的块效应伪影。在一些示例中,可以跳过滤波器单元216的操作。
视频编码器200将经重建的块存储在DPB 218中。例如,在不需要滤波器单元216的操作的示例中,重建单元214可以将经重建的块存储至DPB 218。在需要滤波器单元216的操作的示例中,滤波器单元216可以将经滤波的重建的块存储至DPB 218。运动估计单元222和运动补偿单元224可以从DPB 218取回根据经重建的(以及可能地经滤波的)块形成的参考图像,以对随后编码的图像的块进行帧间预测。另外,帧内预测单元226可以使用在当前图像的DPB 218中的经重建的块来对在当前图像中的其它块进行帧内预测。
通常,熵编码单元220可以对从视频编码器200的其它功能组件接收的语法元素进行熵编码。例如,熵编码单元220可以对来自量化单元208的经量化的变换系数块进行熵编码。作为另一示例,熵编码单元220可以对来自模式选择单元202的预测语法元素(例如,针对帧间预测的运动信息或针对帧内预测的模式内信息)进行熵编码。熵编码单元220可以对语法元素(这是视频数据的另一示例)执行一个或多个熵编码操作,以产生经熵编码的数据。例如,熵编码单元220可以对数据执行上下文自适应可变长度译码(CAVLC)操作、CABAC操作、变量至变量(V2V)长度译码操作、基于语法的上下文自适应二进制算术译码(SBAC)操作、概率区间划分熵(PIPE)译码操作、指数哥伦布编码操作或另一类型的熵编码操作。在一些示例中,熵编码单元220可以以旁路模式工作,其中语法元素未经熵编码。
视频编码器200可以输出比特流,所述比特流包括重建切片或图像的块所需要的经熵编码的语法元素。特别是,熵编码单元220可以输出比特流。
上文所描述的操作是相对于块来描述的。这样的描述应当理解为是用于亮度译码块和/或色度译码块的操作。如上文所描述的,在一些示例中,亮度译码块及色度译码块是CU的亮度和色度分量。在一些示例中,亮度译码块及色度译码块是PU的亮度和色度分量。
在一些示例中,无需针对色度译码块来重复关于亮度译码块执行的操作。作为一个示例,用于识别针对亮度译码块的运动矢量(MV)和参考图像的操作不需要为了识别针对色度块的MV和参考图像而重复。准确地说,针对亮度译码块的MV可以缩放以确定针对色度块的MV,以及参考图像可以是相同的。作为另一示例,对于亮度译码块和色度译码块,帧内预测过程可以是相同的。
视频编码器200表示被配置为对视频数据进行编码的设备的示例,所述设备包括被配置为存储视频数据的存储器和处理电路,所述处理电路被配置为确定单个树划分是否被启用用于当前块以及基于针对当前块的预测块来产生针对当前块的残差值。视频编码器200可以进一步被配置为对残差值应用可分离变换,以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数。视频编码器200可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。视频编码器200可以被配置为对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据以及输出经编码的视频数据。
图4是示出可以执行本公开内容的技术的示例视频解码器300的方块图。图4是出于说明的目的而提供的,以及不限制于如在本公开内容中所广泛例证和描述的技术。出于解释的目的,本公开内容根据VVC和HEVC的技术来描述视频解码器300。然而,本公开内容的技术可以由被配置为其它视频译码标准的视频译码设备来执行。
在图4的示例中,视频解码器300包括经译码的图像缓冲器(CPB)存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310、滤波器单元312和经解码的图像缓冲器(DPB)314。CPB存储器320、熵解码单元302、预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310、滤波器单元312和DPB 314中的任何或全部可以是在一个或多个处理器或在处理电路中实现的。例如,视频解码器300的单元可以实现为作为硬件电路的一部分的一个或多个电路或逻辑元素、或者处理器、ASIC的、FPGA的一部分。此外,视频解码器300可以包括额外的或替代的处理器或处理电路以执行这些或其它功能。
预测处理单元304包括运动补偿单元316和帧内预测单元318。预测处理单元304可以包括用以根据其它预测模式执行预测的额外的单元。作为示例,预测处理单元304可以包括调色板单元、块内复制单元(其可以形成运动补偿单元316的一部分)、仿射单元、线性模型(LM)单元等。在其它示例中,视频解码器300可以包括较多、较少或不同功能的组件。
CPB存储器320可以存储要由视频解码器300的组件进行解码的视频数据,比如经编码的视频比特流。存储在CPB存储器320中的视频数据可以是例如从计算机可读介质110(图1)获得的。CPB存储器320可以包括存储来自经编码的视频比特流的经编码的视频数据(例如,语法元素)的CPB。此外,CPB存储器320可以存储除了经译码的图像的语法元素之外的视频数据,比如表示来自视频解码器300的各种单元的输出的临时数据。DPB 314通常存储经解码的图像,其中视频解码器300可以在对经编码的视频比特流的随后的数据或图像进行解码时将所述经解码图像输出,和/或将其作为参考视频数据来使用。CPB存储器320和DPB 314可以由各种存储设备中的任何存储设备(比如DRAM,包括SDRAM、MRAM、RRAM,或其它类型的存储设备)形成。CPB存储器320和DPB 314可以由相同的存储设备或单独的存储设备提供。在各种示例中,CPB存储器320可以与视频解码器300的其它组件一起在芯片上,或相对于那些组件在芯片外。
另外地或替代地,在一些示例中,视频解码器300可以从存储器120(图1)取回经译码的视频数据。也就是说,存储器120可以利用CPB存储器320存储如上文所论述的数据。同样地,当视频解码器300的一些或所有功能在要由视频解码器300的处理电路执行的软件中实现时,存储器120可以存储要由视频解码器300执行的指令。
示出图4中所示出的各种单元来辅助理解由视频解码器300执行的操作。单元可以实现为固定功能电路、可编程电路或其组合。类似于图3,固定功能电路指的是提供特定功能以及对可以执行的操作预设置的电路。可编程电路指的是可以被编程为执行各种任务以及提供在可以执行的操作中的灵活功能的电路。例如,可编程电路可以执行使得可编程电路以由软件或固件的指令定义的方式工作的软件或固件。固定功能电路可以执行软件指令(例如,以接收参数或输出参数),但是固定功能电路执行的操作的类型通常是不可变的。在一些示例中,单元中的一个或多个单元可以是有区别的电路块(固定功能或可编程的),以及在一些示例中,单元中的一个或多个单元可以是集成电路。
视频解码器300可以包括ALU、EFU、数字电路、模拟电路和/或形成于可编程电路的可编程内核。在视频解码器300的操作是由在可编程电路上执行的软件来执行的示例中,芯片上或芯片外存储器可以存储视频解码器300接收和执行的软件的指令(例如,目标代码)。
熵解码单元302可以从CPB接收经编码的视频数据,以及对视频数据进行熵解码以再现语法元素。预测处理单元304、逆量化单元306、逆变换处理单元308、重建单元310和滤波器单元312可以基于从比特流提取的语法元素来产生经解码的视频数据。
通常,视频解码器300在逐块的基础上重建图像。视频解码器300可以对每个块单独地执行重建操作(其中当前正重建(即,经解码的)的块可以称为“当前块”)。
熵解码单元302可以对定义经量化的变换系数块的经量化的变换系数的语法元素以及变换信息(比如量化参数(QP)和/或变换模式指示)进行熵解码。逆量化单元306可以使用与经量化的变换系数块相关联的QP,来确定量化的程度,以及同样地,确定逆量化的程度供逆量化单元306应用。逆量化单元306可以例如执行按位左移操作以将经量化的变换系数进行逆量化。逆量化单元306可以因此形成包括变换系数的变换系数块。
在逆量化单元306形成变换系数块之后,逆变换处理单元308可以将一个或多个逆变换应用于变换系数块,以产生与当前块相关联的残差块。例如,逆变换处理单元308可以将逆DCT、逆整数变换、逆卡洛(Karhunen-Loeve)变换(KLT)、逆旋转变换、逆定向变换或另一逆变换应用于变换系数块。在一些示例中,逆变换处理单元308可以应用本文中描述的用于简化的LFNST的技术。
根据本公开内容的技术,逆变换处理单元308可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用逆LFNST,以生成针对当前块的残差块。例如,响应于预测处理单元304确定应用单个树划分,逆变换处理单元308可以仅对针对当前块的可分离亮度变换系数应用逆LFNST,以生成针对当前块的残差块。也就是说,逆变换处理单元308可以避免对针对当前块的可分离色度变换系数应用逆LFNST。与此相反,响应于预测处理单元304确定应用分离树划分(例如,双重树划分),逆变换处理单元308可以对针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数两者应用逆LFNST,以生成针对当前块的残差块。
此外,预测处理单元304根据由熵解码单元302进行熵解码的预测信息语法元素来产生预测块。例如,如果预测信息语法元素指示当前块是帧间预测的,则运动补偿单元316可以产生预测块。在这种情况下,预测信息语法元素可以指示要从其中取回参考块的在DPB314中的参考图像以及运动矢量,所述运动矢量标识参考块在参考图像中相对于当前块在当前图像中的位置的位置。运动补偿单元316通常可以以大体上与相对于运动补偿单元224(图3)所描述的方式类似的方式执行帧间预测过程。
作为另一示例,如果预测信息语法元素指示当前块是帧内预测的,则帧内预测单元318可以根据通过预测信息语法元素指示的帧内预测模式来产生预测块。再次,帧内预测单元318通常可以以与相对于帧内预测单元226(图3)所描述的方式类似的方式来执行帧内预测过程。帧内预测单元318可以从DPB 314取回与当前块邻近的样本的数据。
重建单元310可以使用预测块和残差块来重建当前块。例如,重建单元310可以将残差块的样本增加到预测块的相应的样本以重建当前块。
滤波器单元312可以对经重建的块执行一个或多个滤波操作。例如,滤波器单元312可以执行去块操作,以减少沿着经重建的块的边缘的块效应伪影。滤波器单元312的操作不一定是在所有示例中执行的。
视频解码器300可以将经重建的块存储在DPB 314中。例如,在不执行滤波单元312的操作的示例中,重建单元310可以将经重建的块存储到DPB 314。在执行滤波单元312的操作的示例中,滤波单元312可以将经滤波的经重建的块存储到DPB 314。如上文所论述的,DPB 314可以向预测处理单元304提供参考信息,比如用于帧内预测的当前图像的样本以及用于随后的运动补偿的先前经解码图像的样本。此外,视频解码器300可以输出来自DPB314的经解码的图像用于随后呈现在显示设备(比如图1的显示设备118)上。
以这种方式,视频解码器300表示视频解码设备的示例,所述视频解码设备包括被配置为存储视频数据的存储器以及一个或多个处理单元,所述一个或多个处理器是在电路中实现的以及被配置为:接收针对当前块的经编码的数据,以及对经编码的数据进行解码,以产生针对当前块的亮度变换系数和针对当前块的色度变换系数。视频解码器300可以被配置为确定单个树划分是否被启用用于当前块。视频解码器300可以被配置为响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST以生成针对当前块的残差块,以及使用针对当前块的残差块和预测块来重建视频数据的当前块。
本公开内容与变换译码有关,所述变换译码典型地是现代视频压缩标准的基本元素。本公开内容包括针对可以对一些现有技术进行简化的各种低频不可分离变换设计的技术,包括在VVC草案6中的设计。本文中所描述的技术可以是在包括HEVC的扩展和下一代视频译码标准的其它改进的视频编码解码器中使用的。
在HEVC之前的视频译码标准中,仅固定的可分离变换是在既垂直地又水平地使用DCT-2的情况下来使用的。在HEVC中,除了DCT-2之外,DST-7也作为固定的可分离变换被采用用于4x4块。多变换选择(MTS)技术的示例可以在例如编号为10,306,229的美国专利、编号为2018/0020218的美国公开和美国专利申请16/426,749中找到,所述文件中的每个文件通过引用的方式并入本文中。MTS先前称为自适应多变换(AMT),这仅是名称改变而技术是相同的。在编号为2018/0020218的美国公开中的MTS的示例已经在ITU-T SG 16WP 3的联合视频专家小组(JVET)和ISO/IEC JTC1/SC 29/WG 11,JEM软件,
https://jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-7.0(下文中“联合实验模型-7.0”或简单地“JEM-7.0”)中采用,以及随后的MTS的简化版本在VVC草案6中采用。
在图5中示出的低频不可分离变换(LFNST)在JEM-7.0中使用以进一步改善MTS的译码效率,其中LFNST的示例实现方式是在编号为10,448,053的美国专利中描述的,所述文件在此通过引用的方式并入本文中。LFNST的替代的实现方式的示例也可以在例如编号为2017/009431的美国专利公开、编号为2017/0094314的美国专利公开、编号为10,349,085的美国专利、美国专利申请62/668,105和美国专利申请16/364,007中找到,上述文件中的每个文件在此通过引用的方式并入本文中。最近,LFNST已经在JVET-N0193,简化的次级变换(RST)(CE6-3.1)中采用,可在线获得:http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/14_Geneva/wg11/JVET-N0193-v5.zip。LFNST先前称为不可分离次级变换(NSST)或次级变换,其中所有这些缩写相同。
在图5的示例中,视频编码器200可以对当前块的残差值应用可分离变换301以生成可分离变换系数,对可分离变换系数应用LFNST 303以生成变换系数,以及对变换系数应用量化305以产生经量化的变换系数。类似地,视频解码器300可以对经量化的变换系数应用逆量化307以产生变换系数,对变换系数应用逆LFNST 309以产生可分离变换系数,以及对变换系数应用逆可分离变换311以产生残差值。
在下文中描述利用LFNST的解码过程。利用LFNST的逆变换涉及如在图6中示出的以下步骤:
1)经解码的变换系数(参见在图6中的阴影的子块315)是通过经由预先定义的扫描/排列来对2-D块首先转换成系数的1-D列表(或矢量)来用作为到逆LFNST的输入;
2)逆LFNST是对输入系数的1-D列表应用的,以及输出系数是经由预先定义的扫描/排列来重新组织成2-D块的(参见在图6中的阴影的子块317);
3)经逆变换的LFNST系数是用作为输入可分离逆DCT-2以获得重建的残差的。
在VVC草案6中,LFNST可以应用于4x4和8x8子块。在两种情况下,在4x4子块中的16个经解码的系数(其中的一些可以被规范地归零)是到逆LFNST的输入:
·对于4x4情况,16x16逆LFNST用于在如在图7中所示出的可分离逆DCT-2之前构造16个中间系数。
·对于8x8情况,16x48逆LFNST用于在如在图7中所示出的可分离逆DCT-2之前构造48个中间系数。注意,48个中间系数是以L形状的模式来重新组织的。
·逆LFNST过程可以基于(i)变换(即,LFNST)矩阵和(ii)针对中间系数的重新组织模式/扫描。
·在VVC草案6中的归零过程的示例细节是在编号为62/849,689的美国专利申请中描述的,所述美国专利申请通过引用的方式并入本文中。
图7是示出用于根据16个输入系数的列表来重建16个中间系数的4x4逆LFNST的概念图。对于4x4 LFNST,视频译码器(例如,视频编码器200或视频解码器300)可以取决于内模式来使用以下两个模式/扫描:
const int g_lfnstRGScan4x4[16]={//0 1 2 3 4 5 6 7 8 9 10 11 12 13 1415
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15};
const int g_lfnstRGTranScan4x4[16]={//0 1 2 3 4 5 6 7 8 9 10 11 1213 14 15
0,4,8,12,1,5,9,13,2,6,10,14,3,7,11,15};
其中,以上两个模式/扫描指示对中间系数的重新排序。例如,g_lfnstRGScan4x4不改变系数的以行为主的重新排序。然而,lfnstRGTranScan4x4通过置换系数的次序来进行重新排序(例如,在1、2、3、6、7和11处的系数分别与在4、8、12、9、13和14处的系数交换)。
图8是示出用于根据16个输入系数的列表来重建48个中间系数的8x8逆LFNST的概念图。中间系数是以如通过虚线示出的L形状的模式来重新组织的。对于4x4 LFNST,在VVC草案6中,视频译码器可以使用八个16x16矩阵作为候选,这是在JVET-O2001的章节8.7.4.3中列出的。中间系数是以L形状的模式来重新组织的。
对于8x8 LFNST,视频译码器可以取决于内模式来使用以下两个模式/扫描:
const int g_lfnstRGScan8x8[48]={//0 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 16 17 1819 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 394041 42 43 44 45 46 47
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,40,41,42,43,48,49,50,51,56,57,58,59};
const int g_lfnstRGTranScan8x8[48]={//0 1 2 3 4 5 6 7 8 9 10 11 1213 14 15 16 17 1819 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 3839 4041 42 43 44 45 46 47
0,8,16,24,32,40,48,56,1,9,17,25,33,41,49,57,2,10,18,26,34,42,50,58,3,11,19,27,35,43,51,59,4,12,20,28,5,13,21,29,6,14,22,30,7,15,23,31};
其中,以上两个模式/扫描指示对中间系数的重新排序。特别地,g_lfnstRGScan8x8以L形状的模式来重新组织48个中间系数(例如,第48个系数映射到在图8中的位置59)。扫描lfnstRGTranScan4x4通过置换系数对L形状的模式进行重新排序(例如,第48个系数映射到在图8中的位置31)。
对于8x8 LFNST,在VVC草案6中使用八个16x48矩阵作为候选,这是在JVET-O2001的章节8.7.4.3中列出的。
在VVC草案6中,LFNST应用于在TU中的4x4或8x8左上子块(例如,LFNST子块)。例如,对于4x4 LFNST和8x8 LFNST两者,存在4个变换集合,所述变换集合中的每个变换集合包括2个LFNST矩阵。集合是取决于内模式来选择的,以及LFNST索引是以信号发送以在用于变换的2个LFNST矩阵之中选择的。4x4 LFNST的问题是,4x4 LFNST可能随着两阶段变换过程引入不想要的延时。利用LFNST对4x4 TU进行译码可能增加延时,以及4x4 LFNST的译码益处对于HD和UHD序列是非常有限的。此外,在VVC草案6中,LFNST被启用用于对亮度块进行译码,这还可能是复杂的以及提供有限的益处。本文档提出移除4x4 LFNST(例如,应用于4x4、Nx4和4xN块)以减小在变换步骤中的最坏情况延时。此外,移除4x4 LFNST可以将用于存储LFNST矩阵的8KB存储器要求减小到6KB。
此外,本公开内容提出对于4x4、4xN和Nx4块禁用LFNST以及降低延时,这对于小块可以是有帮助的,以及可以降低2KB的存储器。实验结果显示,所提出的简化在VTM-6.0上可以引起0.16%AI和0.10%RA亮度BD-率损失,以及对于AI译码,视频译码器运行时间可以减少大约10%。
本公开内容描述用于LFNST的以下技术,所述技术可以分别地或以任意组合使用。
在第一示例中,LFNST可以仅用于其宽度和高度大于4的块。例如,视频译码器(例如,视频编码器200或视频解码器300)可以仅对其宽度和高度大于4的块使用LFNST。也就是说,视频译码器可以确定当前块是否包括大于4的高度以及确定当前块是否包括大于4的宽度。在该示例中,响应于确定高度大于4并且宽度大于4,视频编码器200可以应用LFNST。类似地,响应于确定高度大于4并且宽度大于4,视频解码器300可以应用逆LFNST。
在第二示例中,仅8x8 LFNST可以用于其宽度和高度大于4并且归零区域可以在8x8 LFNST子块的外面的块(即,在图6中的阴影的子块317的大小可以仅是8x8)。如本文中所使用的,归零区域可以指的是块的样本值设为值零的区域。视频译码器(例如,视频编码器200或视频解码器300)可以仅对其宽度和高度大于4并且归零区域在8x8 LFNST子块的外面的块使用8x8 LFNST(例如,在图6中的阴影的子块315的大小仅是8x8)。
也就是说,视频译码器可以确定当前块是否包括大于4的高度,确定当前块是否包括大于4的宽度,以及确定亮度变换系数的归零区域是否在8x8 LFNST子块的外面。在该示例中,响应于确定高度大于4并且宽度大于4并且亮度变换系数的归零区域在8x8 LFNST子块的外面,视频编码器200可以应用LFNST(例如,对可分离亮度变换系数的8x8 LFNST子块应用8x8 LFNST)。类似地,响应于确定高度大于4并且宽度大于4并且亮度变换系数的归零区域在8x8 LFNST子块的外面,视频解码器300可以应用逆LFNST(例如,对亮度变换系数的8x8 LFNST子块应用逆8x8 LFNST)。
在第三示例中,对于其宽度和高度大于4的块,可以不以信号发送LFNST索引。例如,响应于确定块包括大于4的宽度和大于4的高度,视频编码器200可以避免以信号发送LFNST索引。
在第四示例中,如果使用分离树(例如,双重树)划分,LFNST索引/标记可以是针对亮度和色度通道分别地以信号发送的,以及LFNST是仅在如果亮度/色度块宽度和高度大于4的话使用和以信号发送的。例如,响应于确定使用分离树划分,视频译码器可以仅如果亮度/色度块宽度和高度大于4的话使用LFNST。在一些示例中,响应于确定使用分离树划分,如果亮度/色度块宽度和高度大于4,则视频编码器200可以针对亮度和色度通道分别地以信号发送LFNST索引/标记。
在第五示例中,如果使用单个树划分(例如,如果色度块拆分是根据亮度块拆分推测的),则LFNST索引/标记可以是仅针对亮度来以信号发送的。例如,响应于确定使用单个树划分,视频编码器200可以以信号发送仅针对亮度的LFNST索引/标记(以及避免以信号发送针对色度的LFNST索引/标记)。
例如,如果亮度或色度经译码的块的宽度和高度大于4,则应用LFNST以及以信号发送LFNST索引/标记。例如,响应于确定亮度或色度经译码的块宽度和高度大于4,视频译码器可以应用LFNST。在一些示例中,响应于确定亮度或色度经译码的块宽度和高度大于4,视频编码器200可以以信号发送LFNST索引/标记。
在一些示例中,如果亮度块的大小是8x8、8xN或Nx8(其中,N>8),则相应的色度块的大小是4x4、4x(N/2)和(N/2)x4,在这种情况下,以信号发送LFNST以及仅针对亮度块应用LFNST,以及不针对色度块应用LFNST。例如,响应于确定亮度块大小是8x8、8xN或Nx8(其中,N>8)以及相应的色度块大小是4x4、4x(N/2)和(N/2)x4,视频译码器可以仅针对亮度块应用LFNST以及避免针对色度块应用LFNST。在一些示例中,响应于确定亮度块大小是8x8、8xN或Nx8(其中,N>8)以及相应的色度块大小是4x4、4x(N/2)和(N/2)x4,视频编码器200可以以信号发送针对亮度块的LFNST索引/标记以及避免以信号发送针对色度块的LFNST。
在第六示例中,视频译码器(例如,视频编码器200或视频解码器300)可以仅对亮度块应用LFNST,和/或视频编码器200可以仅针对亮度块以信号发送LFNST。例如,在分离树(双重树)划分中,色度块LFNST可以是禁用的以及是不以信号发送的。例如,响应于分离树(例如,双重树)划分,视频译码器可以禁用色度块LFNST。在一些示例中,响应于分离树(例如,双重树)划分,视频编码器200可以避免以信号发送色度块LFNST。
在第七示例中,如果启用了分离树(双重树)划分,则LFNST可以用于亮度块和色度块两者,以及LFNST索引/标记可以是分别地以信号发送的。例如,响应于启用了确定分离树(例如,双重树)划分,视频译码器(例如,视频编码器200或视频解码器300)可以针对亮度块和色度块两者使用LFNST。也就是说,视频编码器200可以响应于确定分离树划分被启用用于当前块,对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数,以及对针对当前块的可分离色度变换系数应用LFNST以生成针对当前块的色度变换系数。类似地,视频解码器300可以响应于确定分离树划分被启用用于当前块,对亮度变换系数和色度变换系数两者应用逆LFNST以生成针对当前块的残差块。在一些示例中,响应于确定启用了分离树(例如,双重树)划分,视频编码器200可以分别地以信号发送LFNST索引/标记。
在第八示例中,如果启用了单个树划分,LFNST可以是仅针对亮度块应用的,以及可以对于色度块禁用LFNST。也就是说,视频编码器200可以响应于确定单个树划分被启用用于当前块,对针对当前块的可分离色度变换系数禁用LFNST。类似地,视频编码器200可以响应于确定单个树划分被启用用于当前块,对针对当前块的色度变换系数禁用逆LFNST。
例如,响应于确定启用了单个树划分,视频译码器可以仅针对亮度块使用LFNST以及针对色度块禁用LFNST。也就是说,视频编码器200可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。类似地,视频解码器300可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用LFNST以生成针对当前块的残差块。
在一些示例中,响应于确定启用了单个树划分,视频编码器200可以以信号发送针对亮度块的LFNST索引/标记,以及避免以信号发送针对色度块的索引/标记。在这种情况下,LFNST索引/标记是仅针对亮度块来以信号发送的。也就是说,视频编码器200可以响应于确定单个树划分被启用用于当前块,在经编码的数据中以信号发送对于针对当前块的亮度变换系数的LFNST索引,以及避免在经编码的数据中以信号发送针对色度变换系数的LFNST索引。类似地,视频解码器300可以响应于确定单个树划分被启用用于当前块,根据经编码的数据确定对于针对当前块的亮度变换系数的LFNST索引,以及避免根据经编码的数据确定针对色度变换系数的LFNST索引。
在第九方面中,仅4x4 LFNST可以用于其宽度和高度大于4并且归零区域可以在4x4 LFNST子块的外面的块(即,在图6中的阴影的子块的大小可以仅是4x4)。例如,响应于确定块包括大于4的宽度和大于4的高度并且归零区域可以在4x4 LFNST子块的外面的块(即,在图6中的阴影的子块的大小可以仅是4x4),视频译码器可以使用4x4 LFNST。
也就是说,视频译码器可以确定当前块是否包括大于4的高度,当前块是否包括大于4的宽度,以及确定亮度变换系数的归零区域是否在4x4 LFNST子块的外面。在该示例中,响应于确定高度大于4、宽度大于4并且亮度变换系数的归零区域在4x4 LFNST子块的外面,视频编码器200可以应用LFNST(例如,对可分离亮度变换系数的4x4 LFNST子块应用4x4LFNST)。类似地,响应于确定高度大于4、宽度大于4并且亮度变换系数的归零区域在4x4LFNST子块的外面,视频解码器300可以应用逆LFNST(例如,对亮度变换系数的4x4 LFNST子块应用4x4逆LFNST)。
在一些示例中,对上文的示例一至五进行组合可以与同VVC草案6文本(JVET-O2001-v14)有关的以下变化(增加是通过+++来指示的,以及删除是通过***来指示的)一起实现:
Figure BDA0003546845210000211
对本过程的输入是:
–指定当前亮度变换块的左上样本相对于当前图像的左上亮度样本的亮度位置(xTbY,yTbY)
–指定当前变换块的宽度的变量nTbW
–指定当前变换块的高度的变量nTbH
–指定当前变换块的颜色分量的变量cIdx
–经缩放的变换系数的(nTbW)x(nTbH)阵列d[x][y],其中x=0..nTbW-1,y=0..nTbH-1.
本过程的输出是残差样本的(nTbW)x(nTbH)阵列r[x][y],其中x=0..nTbW-1,y=0..nTbH-1.
当lfnst_idx[xTbY][yTbY]不等于0以及nTbW和nTbH两者大于***或等于***4,应用以下操作:
–变量predModeIntra、nLfnstOutSize、log2LfnstSize、nLfnstSize和nonZeroSize是如下导出的:
predModeIntra=(cIdx==0)?IntraPredModeY[xTbY][yTbY]:IntraPredModeC[xTbY][yTbY] (8-965)
nLfnstOutSize=***(nTbW>=8&&nTbH>=8)?***48***:16*** (8-966)
log2LfnstSize=***(nTbW>=8&&nTbH>=8)?***3***:2*** (8-967)
nLfnstSize=1<<log2LfnstSize (8-968)
nonZeroSize=(***(nTbW==4&&nTbH==4)||***(nTbW==8&&nTbH==8))?8:16 (8-969)
–当intra_mip_flag[xTbComp][yTbComp]等于1以及cIdx等于0,设置predModeIntra等于INTRA_PLANAR.
变量nonZeroW和nonZeroH是如下导出的:
–如果lfnst_idx[xTbY][yTbY]不等于0以及nTbW大于***或等于***4以及nTbH大于***或等于
***4,应用以下操作:
nonZeroW=***(nTbW==4||nTbH==4)?4:***8 (8-977)
nonZeroH=***(nTbW==4||nTbH==4)?4:***8 (8-978)
–否则,应用以下操作:
nonZeroW=Min(nTbW,(trTypeHor>0)?16:32) (8-979)
nonZeroH=Min(nTbH,(trTypeVer>0)?16:32) (8-980)
图9是示出用于对当前块进行编码的示例方法的流程图。当前块可以包括当前的CU。虽然关于视频编码器200(图1和图3)描述的,应当理解的是,其它设备可以被配置为执行与图9的方法类似的方法。
在该示例中,视频编码器200首先对当前块进行预测(350)。例如,视频编码器200可以形成针对当前块的预测块。视频编码器200可以接着计算针对当前块的残差块(352)。为了计算残差块,视频编码器200可以计算在原始的、未经编码的块与针对当前块的预测块之间的差。
视频编码器200可以接着对残差块的系数进行变换和量化(354)。例如,视频编码器200可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST,以生成针对当前块的亮度变换系数和针对当前块的色度变换系数。然而,响应于确定分离树划分被启用用于当前块,视频编码器200可以对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数,以及对针对当前块的可分离色度变换系数应用LFNST以生成针对当前块的第二色度变换系数。
视频编码器200可以对残差块的经量化的变换系数进行扫描(356)。在扫描期间,或在扫描之后,视频编码器200可以对变换系数进行熵编码(358)。例如,视频编码器200可以使用CAVLC或CABAC对变换系数进行编码。视频编码器200可以基于划分使用LFNST来对变换系数进行编码。视频编码器200可以接着输出块的经熵编码的数据(360)。
图10是示出对视频数据的当前块进行解码的示例方法的流程图。当前块可以包括当前的CU。虽然关于视频解码器300(图1和图4)描述的,应当理解的是,其它设备可以被配置为执行与图10的方法类似的方法。
视频解码器300可以接收针对当前块的经熵编码的数据,比如针对与当前块相对应的残差块的系数的经熵编码的预测信息和经熵编码的数据(370)。视频解码器300可以对经熵编码的数据进行熵解码,以确定针对当前块的预测信息以及再现残差块的系数(372)。例如,视频解码器300可以基于划分使用LFNST来对变换系数进行解码。视频解码器300可以对当前块进行预测(374),例如使用如通过针对当前块的预测信息指示的帧内预测模式或帧间预测模式,以计算针对当前块的预测块。视频解码器300可以接着对再现的系数进行逆扫描(376),以创建经量化的变换系数的块。
视频解码器300可以接着对变换系数进行逆量化和逆变换,以生成残差块(378)。例如,视频解码器300可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST,以生成针对当前块的残差块。然而,响应于确定分离树划分被启用用于当前块,视频解码器300可以对针对当前块的亮度变换系数和针对当前块的色度变换系数应用逆LFNST,以生成针对当前块的残差块。视频解码器300可以通过对预测块和残差块进行组合对当前块进行最终解码(380)。
所提出的简化是在VTM-6.0之上实现的,以及是在共同测试条件(CTC)之下来评估的。注意,省略低延迟B结果,因为在CTC中针对低延迟B禁用LFSNT。表1给出在VTM-6.0上移除4x4 LFNST的结果。
表1。在VTM-6.0之上在CTC之下所提出的简化的结果。
Figure BDA0003546845210000231
根据本公开内容的技术,视频译码器(例如,视频编码器200或视频解码器300)可以移除4x4LFNST以减小在变换过程中的最坏情况延时。实验结果显示4x4 LFNST的译码益处是非常有限的,特别是对于在AI和RA配置之下的UHD序列。
图11是示出根据本公开内容的技术基于划分对视频数据的当前块进行编码的示例方法的流程图。视频编码器200(例如,模式选择单元202)可以确定单个树划分是否被启用用于当前块(400)。视频编码器200(例如,残差产生单元204)可以基于针对当前块的预测块来产生针对当前块的残差值(402)。例如,视频编码器200(例如,残差产生单元204)可以产生针对当前块的色度残差块和针对当前块的亮度残差块。
视频编码器200(例如,变换处理单元206)可以对残差值应用可分离变换,以生成针对当前块的可分离亮度变换系数和针对当前块的可分离色度变换系数(404)。例如,视频编码器200(例如,残差产生单元204)可以对针对当前块的色度残差块的残差值应用可分离变换以产生针对当前块的可分离色度变换系数,以及对针对当前块的亮度残差块的残差值应用可分离变换以产生针对当前块的可分离亮度变换系数。
视频编码器200(例如,变换处理单元206)可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数和针对当前块的色度变换系数(406)。例如,视频编码器200(例如,残差产生单元204)可以对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数。在该示例中,视频编码器200(例如,残差产生单元204)可以避免为了生成针对当前块的色度变换系数而对针对当前块的可分离色度变换系数应用LFNST(例如,绕过LFNST)。
然而,响应于确定单个树划分被启用用于当前块,视频编码器200可以既对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数,又对针对当前块的可分离色度变换系数应用LFNST以生成针对当前块的色度变换系数。例如,视频编码器200(例如,残差产生单元204)可以对针对当前块的可分离亮度变换系数应用LFNST以生成针对当前块的亮度变换系数。在该示例中,视频编码器200(例如,残差产生单元204)可以对针对当前块的可分离色度变换系数应用LFNST,以生成针对当前块的色度变换系数。
在一些示例中,视频编码器200可以确定当前块是否包括大于4的高度以及确定当前块是否包括大于4的宽度。在该示例中,视频编码器200可以进一步响应于确定高度大于4并且宽度大于4,仅对亮度变换系数应用LFNST。
在一些示例中,视频编码器200可以确定当前块是否包括大于4的高度以及确定当前块是否包括大于4的宽度。在该示例中,视频编码器200可以进一步响应于确定高度大于4并且宽度大于4,仅对亮度变换系数应用LFNST。
在一些示例中,视频编码器200可以确定当前块是否包括大于4的高度,确定当前块是否包括大于4的宽度以及确定亮度变换系数的归零区域是否在针对LFNST的8x8 LFNST子块的外面。在该示例中,视频编码器200可以进一步响应于确定高度大于4、宽度大于4并且亮度变换系数的归零区域在针对LFNST的8x8 LFNST子块的外面,仅对亮度变换系数应用LFNST。
在一些示例中,视频编码器200可以确定当前块是否包括大于4的高度,确定当前块是否包括大于4的宽度并且确定亮度变换系数的归零区域是否在针对LFNST的4x4 LFNST子块的外面。在该示例中,视频编码器200可以进一步响应于确定高度大于4、宽度大于4以及亮度变换系数的归零区域在针对LFNST的4x4 LFNST子块的外面,仅对亮度变换系数应用LFNST。
视频编码器200(例如,量化单元208和熵编码单元220)可以对亮度变换系数和色度变换系数进行编码,以生成经编码的视频数据(408)。例如,量化单元208可以对亮度变换系数进行量化以产生经量化的亮度变换系数,以及对色度变换系数进行量化以产生经量化的色度变换系数。在该示例中,熵编码单元220可以对经量化的亮度变换系数和经量化的色度变换系数进行编码(例如,熵编码)以产生经编码的视频数据。视频编码器200(例如,熵编码单元220)可以输出经编码的视频数据(410)。
在一些示例中,视频编码器200可以以信号发送LFNST索引(例如,LFNST标记)。例如,响应于确定单个树划分被启用用于当前块,视频编码器200可以在经编码的数据中以信号发送对于针对当前块的亮度变换系数的LFNST索引,以及避免在经编码的数据中以信号发送针对色度变换系数的LFNST索引。然而,响应于确定分离树划分被启用用于当前块,视频编码器200可以在经编码的数据中以信号发送对于针对当前块的亮度变换系数的LFNST索引,以及在经编码的数据中以信号发送针对色度变换系数的LFNST索引。
图12是示出根据本公开内容的技术用于基于来划分对视频数据的当前块进行解码的示例方法的流程图。视频解码器300(例如,熵解码单元302)可以接收针对当前块的经编码的数据(452)。视频解码器300(例如,预测处理单元302)可以确定单个树划分是否被启用用于当前块(454)。例如,视频解码器300可以接收由视频编码器200以信号发送的关于针对当前块的视频数据是使用单个树划分还是分离树划分来进行划分的指示。在一些示例中,视频解码器300可以基于隐式的信令或在没有由视频编码器200进行的信号发送的情况下,来确定针对当前块的视频数据是使用单个树划分还是分离树划分来进行划分的。
视频解码器300(例如,熵解码单元302)可以对经编码的数据进行解码,以产生针对当前块的亮度变换系数和针对当前块的色度变换系数(456)。例如,视频解码器300(例如,熵解码单元302)可以对针对当前块的经量化的亮度变换系数和针对当前块的经量化的色度变换系数进行解码(例如,熵解码)。在该示例中,视频解码器300(例如,逆量化单元306)可以对经量化的亮度变换系数进行逆量化以产生亮度变换系数,以及对经量化的色度变换系数进行逆量化以产生色度变换系数。在一些示例中,可以绕过对亮度变换系数和/或色度变换系数的逆量化。
视频解码器300(例如,逆变换处理单元308)可以响应于确定单个树划分被启用用于当前块,仅对针对当前块的亮度变换系数应用逆LFNST以生成针对当前块的残差块(458)。例如,视频解码器300(例如,逆变换处理单元308)可以对针对当前块的亮度变换系数应用逆LFNST,以生成针对当前块的亮度残差块。在该示例中,视频解码器300(例如,逆变换处理单元308)可以避免为了生成针对当前块的色度残差块而对色度变换系数应用逆LFNST(例如,绕过逆LFNST)。在执行逆LFNST之后,视频解码器300(例如,逆变换处理单元308)可以对由逆LFNST产生的亮度变换系数(例如,可分离亮度变换系数)应用逆可分离变换以产生亮度残差块,以及对经逆量化的色度变换系数应用逆可分离变换以产生色度残差块(例如,Cr残差块或Cb残差块)。
然而,响应于确定分离树划分被启用用于当前块,视频解码器300(例如,逆变换处理单元308)可以对亮度变换系数和色度变换系数两者应用逆LFNST以生成残差块。例如,视频解码器300(例如,逆变换处理单元308)可以对针对当前块的亮度变换系数应用逆LFNST,以生成针对当前块的亮度残差块。在该示例中,视频解码器300(例如,逆变换处理单元308)可以对亮度变换系数应用逆LFNST以生成针对当前块的色度残差块。再次,在执行逆LFNST之后,视频解码器300(例如,逆变换处理单元308)可以对可分离亮度变换系数应用逆可分离变换以产生亮度残差块。类似地,视频解码器300(例如,逆变换处理单元308)可以对可分离色度变换系数应用逆可分离变换以产生色度残差块。
在一些示例中,视频解码器300可以确定当前块是否包括大于4的高度以及确定当前块是否包括大于4的宽度。在该示例中,视频解码器300可以进一步响应于确定高度大于4并且宽度大于4,仅对亮度变换系数应用逆LFNST。
在一些示例中,视频解码器300可以确定当前块是否包括大于4的高度,确定当前块是否包括大于4的宽度,以及确定亮度变换系数的归零区域是否在针对逆LFNST的8x8LFNST子块的外面。在该示例中,视频解码器300可以进一步响应于确定高度大于4、宽度大于4并且亮度变换系数的归零区域在8x8 LFNST子块的外面,仅对亮度变换系数应用逆LFNST。
在一些示例中,视频解码器300可以确定当前块是否包括大于4的高度,确定当前块是否包括大于4的宽度,以及确定亮度变换系数的归零区域是否在针对逆LFNST的4x4LFNST子块的外面。在该示例中,视频解码器300可以进一步响应于确定高度大于4、宽度大于4并且亮度变换系数的归零区域在4x4 LFNST子块的外面,仅对亮度变换系数应用逆LFNST。
视频解码器300(例如,重建单元310)可以使用针对当前块的残差块和预测块来重建视频数据的当前块(460)。例如,视频解码器300(例如,重建单元310)可以通过对针对当前块的亮度残差块和针对当前块的亮度预测块进行组合以及对针对当前块的色度残差块和针对当前块的色度预测块进行组合,来重建当前块。视频解码器300(例如,DPB 314)可以输出经编码的视频数据。
在一些示例中,视频解码器300可以确定LFNST索引(例如,LFNST标记)。例如,响应于确定单个树划分被启用用于当前块,视频解码器300可以根据经编码的数据来确定针对当前块的亮度变换系数的LFNST索引,以及避免根据经编码的数据来确定针对色度变换系数的LFNST索引。然而,响应于确定分离树划分被启用用于当前块,视频解码器300可以根据经编码的数据来确定对于针对当前块的亮度变换系数的LFNST索引,以及根据经编码的数据来确定针对色度变换系数的LFNST索引。LFNST索引可以指示逆LFNST的类型和/或LFNST是否被启用。
下文提供本公开内容的技术的示例的非限制性的说明性列表。
示例1。对视频数据进行译码的方法,方法包括:确定块是否包括大于4的高度;确定块是否包括大于4的宽度;响应于确定块包括大于4的高度以及大于4的宽度,对块应用低频不可分离变换(LFNST);以及响应于确定块包括等于或小于4的高度或者等于或小于4的宽度,避免对块应用LFNST。
示例2。对视频数据进行译码的方法,方法包括:确定块是否包括大于4的高度;确定块是否包括大于4的宽度;确定归零区域是否在8x8 LFNST块的外面;响应于确定块包括大于4的高度,块包括大于4的宽度以及归零区域在8x8 LFNST子块的外面,来使用8x8LFNST。
示例3。对视频数据进行译码的方法,方法包括:确定块是否包括大于4的高度;确定块是否包括大于4的宽度;响应于确定块包括大于4的高度以及大于4的宽度,以信号发送低频不可分离变换(LFNST)索引;以及响应于确定块包括等于或小于4的高度或者等于或小于4的宽度,避免以信号发送LFNST索引。
示例4。对视频数据进行译码的方法,方法包括:确定块是否包括大于4的高度;确定块是否包括大于4的宽度;确定是否使用单个树划分;响应于确定使用单个树划分,响应于确定块包括大于4的高度以及大于4的宽度来使用LFNST。
示例5。对视频数据进行译码的方法,方法包括:确定是否使用单个树划分;以及响应于确定使用单个树划分,仅以信号发送针对亮度的LFNST索引/标记。
示例6。对视频数据进行译码的方法,方法包括:仅对亮度块应用LFNST。
示例7。对视频数据进行译码的方法,方法包括:确定分离树划分是否被启用;以及响应于确定启用了分离树划分,针对亮度和色度块两者使用LFNST。
示例8。对视频数据进行译码的方法,方法包括:确定单个树划分是否被启用;以及响应于确定启用了单个树划分,仅针对亮度块使用LFNST,以及针对色度块禁用LFNST。
示例9。对视频数据进行译码的方法,方法包括:确定块是否包括大于4的高度;确定块是否包括大于4的宽度;确定归零区域是否在8x8 LFNST子块的外面;响应于确定块包括大于4的高度、大于4的宽度并且归零区域在4x4 LFNST子块的外面,使用4x4 LFNST。
示例10。示例1-9中的任何示例的方法,其中,译码包括解码。
示例11。示例1-9中的任何示例的方法,其中,译码包括编码。
示例12。用于对视频数据进行译码的设备,设备包括用于执行示例1-11中的任何示例的块的一个或多个单元。
示例13。示例12的设备,其中一个或多个单元包括在电路中实现的一个或多个处理器。
示例14。示例12和示例13中的任何示例的设备,进一步包括存储器以存储视频数据。
示例15。示例12-14中的任何示例的设备,进一步包括显示器,所述显示器被配置为对经解码的视频数据进行显示。
示例16。示例12-15中的任何示例的设备,其中设备包括照相机、计算机、移动设备、广播接收机设备或机顶盒中的一项或多项。
示例17。示例12-16中的任何示例的设备,其中设备包括视频解码器。
示例18。示例12-17中的任何示例的设备,其中设备包括视频编码器。
示例19。具有存储在其上的指令的计算机可读存储介质,所述指令当被执行时使得一个或多个处理器执行示例1-9中的任何示例的方法。
要认识的是,取决于示例,本文中所描述的技术中的任何技术的某些动作或事件可以以不同顺序执行,可以增加、合并或完全省去(例如,并非所有所描述的动作或事件对于技术的实践都是必需的)。此外,在某些示例中,动作或事件可以并行地执行(例如,通过多线程处理、中断处理或多个处理器),而不是顺序地。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合来实现。如果以软件实现,则所述功能可以作为一个或多个指令或代码在计算机可读介质上存储或传输,以及由基于硬件的处理单元来执行。计算机可读介质可以包含计算机可读存储介质或通信介质,所述计算机可读存储介质与比如数据存储介质的有形介质相对应,所述通信介质包括例如根据通信协议促进计算机程序从一个地方转移到另一地方的任何介质。以这种方式,计算机可读介质通常可以对应于(1)是非暂时性的有形计算机可读存储介质,或(2)比如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器存取以取回用于在本公开内容中描述的技术的实现方式的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。
通过示例而非限制的方式,这样的计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、闪速存储器或可以用于以指令或数据结构的形式存储期望的程序代码并且可以由计算机存取的任何其它介质。此外,任何连接适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或无线技术(比如红外线、无线电及微波)来从网站、服务器或其它远程源来发送的,则同轴电缆、光纤光缆、双绞线、DSL或无线技术(比如红外线、无线电及微波)是包括在介质的定义中的。然而,应当理解的是,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,但是反而针对非暂时性、有形存储介质。如本文中所使用的,磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常磁性地复制数据,而光盘利用激光来光学地再现数据。上述的组合也应当包括在计算机可读介质的范围内。
指令可以由一个或多个处理器来执行,所述处理器比如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成的或离散的逻辑电路。因此,如本文所用的术语“处理器”和“处理电路”可以指的是前述结构或适用于实现本文中所描述的技术的实现方式的任何其它结构中的任何一项。另外,在一些方面中,本文中所描述的功能可以是在被配置用于编码及解码的专用硬件和/或软件内提供的,或是合并在组合的编码解码器中的。此外,技术可以在一个或多个电路或逻辑元素中充分地实现。
本公开内容的技术可以是在多种设备或装置中实现的,包括无线手持机、集成电路(IC)或IC集合(例如,芯片集合)。各种组件、模块或单元在本公开内容中是为了强调被配置为执行所公开的技术的设备的功能方面而描述的,但不一定要求由不同的硬件单元来实现。确切地说,如上文所描述的,各种单元可以组合在编码解码器硬件单元中,或由一些互操作硬件单元连同适当的软件和/或固件来提供,所述硬件单元包括如上文所描述的一个或多个处理器。
已经描述各种示例。这些示例以及其它示例在所附权利要求的范围内。

Claims (30)

1.一种对视频数据进行解码的方法,所述方法包括:
接收针对当前块的经编码的数据;
确定单个树划分是否被启用用于所述当前块;
对所述经编码的数据进行解码,以产生针对所述当前块的亮度变换系数和针对所述当前块的色度变换系数;
响应于确定所述单个树划分被启用用于所述当前块,仅对针对所述当前块的所述亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对所述当前块的残差块;以及
使用针对所述当前块的所述残差块和预测块,来重建所述视频数据的所述当前块。
2.根据权利要求1所述的方法,还包括:响应于确定所述单个树划分被启用用于所述当前块,对针对所述当前块的所述色度变换系数禁用所述LFNST。
3.根据权利要求1所述的方法,还包括:
接收针对第二块的第二经编码的数据;
确定分离树划分是否被启用用于所述第二块;
对所述第二经编码的数据进行解码,以产生针对所述第二块的第二亮度变换系数和针对所述第二块的第二色度变换系数;
响应于确定分离树划分被启用用于所述第二块,对所述第二亮度变换系数和所述第二色度变换系数两者应用所述逆LFNST,以生成针对所述第二块的第二残差块;以及
使用针对所述第二块的所述第二残差块和第二预测块,来重建所述视频数据的所述第二块。
4.根据权利要求1所述的方法,还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;以及
其中,仅对所述亮度变换系数应用所述逆LFNST是还响应于确定所述高度大于4并且所述宽度大于4。
5.根据权利要求1所述的方法,其中,应用所述逆LFNST包括:对所述亮度变换系数的8x8LFNST子块应用逆8x8 LFNST,所述方法还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述逆LFNST的所述8x8 LFNST子块的外面;以及
其中,仅对所述亮度变换系数应用所述逆LFNST是还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述8x8 LFNST子块的外面。
6.根据权利要求1所述的方法,其中,应用所述逆LFNST包括:对所述亮度变换系数的4x4LFNST子块应用逆4x4 LFNST,所述方法还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述逆LFNST的所述4x4 LFNST子块的外面;以及
其中,仅对所述亮度变换系数应用所述逆LFNST是还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述4x4 LFNST子块的外面。
7.根据权利要求1所述的方法,还包括:
响应于确定所述单个树划分被启用用于所述当前块,根据所述经编码的数据确定对于针对所述当前块的所述亮度变换系数的LFNST索引,以及避免根据所述经编码的数据确定针对所述色度变换系数的LFNST索引;以及
其中,仅对所述亮度变换系数应用所述逆LFNST是基于针对所述亮度变换系数的LFNST索引的。
8.一种对视频数据进行编码的方法,所述方法包括:
确定单个树划分是否被启用用于当前块;
基于针对所述当前块的预测块来产生针对所述当前块的残差值;
对所述残差值应用可分离变换,以生成针对所述当前块的可分离亮度变换系数和针对所述当前块的可分离色度变换系数;
响应于确定所述单个树划分被启用用于所述当前块,仅对针对所述当前块的所述可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对所述当前块的亮度变换系数和针对所述当前块的色度变换系数;
对所述亮度变换系数和所述色度变换系数进行编码,以生成经编码的视频数据;以及
输出所述经编码的视频数据。
9.根据权利要求8所述的方法,还包括:响应于确定所述单个树划分被启用用于所述当前块,对针对所述当前块的所述可分离色度变换系数禁用所述LFNST。
10.根据权利要求8所述的方法,还包括:
确定分离树划分被启用用于第二块;
基于针对所述第二块的第二预测块,来产生针对所述第二块的第二残差值;
对所述第二残差值应用所述可分离变换,以生成针对所述第二块的第二可分离亮度变换系数和针对所述第二块的第二可分离色度变换系数;
响应于确定所述分离树划分被启用用于所述第二块,对针对所述第二块的所述第二可分离亮度变换系数应用所述LFNST以生成针对所述第二块的第二亮度变换系数,以及对针对所述第二块的所述第二可分离色度变换系数应用所述LFNST以生成针对所述第二块的第二色度变换系数;
对所述第二亮度变换系数和所述第二色度变换系数进行编码,以生成经编码的视频数据;以及
输出所述经编码的视频数据。
11.根据权利要求8所述的方法,还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;以及
其中,仅对所述亮度变换系数应用所述LFNST是还响应于确定所述高度大于4并且所述宽度大于4。
12.根据权利要求8所述的方法,其中,应用所述LFNST包括:对所述可分离亮度变换系数的8x8 LFNST子块应用8x8 LFNST,所述方法还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述LFNST的所述8x8 LFNST子块的外面;以及
其中,仅对所述亮度变换系数应用所述LFNST是还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述8x8 LFNST子块的外面。
13.根据权利要求8所述的方法,其中,应用所述LFNST包括:对所述可分离亮度变换系数的4x4 LFNST子块应用4x4 LFNST,所述方法还包括:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述LFNST的所述4x4 LFNST子块的外面;以及
其中,仅对所述亮度变换系数应用所述LFNST是还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述4x4 LFNST子块的外面。
14.根据权利要求8所述的方法,还包括:响应于确定所述单个树划分被启用用于所述当前块,在所述经编码的数据中以信号发送对于针对所述当前块的所述亮度变换系数的LFNST索引,以及避免在所述经编码的数据中以信号发送针对所述色度变换系数的LFNST索引。
15.一种用于对视频数据进行解码的设备,所述设备包括:
存储器,其被配置为存储所述视频数据;以及
处理电路,其被配置为:
接收针对当前块的经编码的数据;
确定单个树划分是否被启用用于所述当前块;
对所述经编码的数据进行解码,以产生针对所述当前块的亮度变换系数和针对所述当前块的色度变换系数;
响应于确定所述单个树划分被启用用于所述当前块,仅对针对所述当前块的所述亮度变换系数应用逆低频不可分离变换(LFNST),以生成针对所述当前块的残差块;以及
使用针对所述当前块的所述残差块和预测块,来重建所述视频数据的所述当前块。
16.根据权利要求15所述的设备,其中,所述处理电路还被配置为:响应于确定所述单个树划分被启用用于所述当前块,对针对所述当前块的所述色度变换系数禁用所述LFNST。
17.根据权利要求15所述的设备,其中,所述处理电路还被配置为:
接收针对第二块的第二经编码的数据;
确定分离树划分是否被启用用于所述第二块;
对所述第二经编码的数据进行解码,以产生针对所述第二块的第二亮度变换系数和针对所述第二块的第二色度变换系数;
响应于确定分离树划分被启用用于所述第二块,对所述第二亮度变换系数和所述第二色度变换系数两者应用所述逆LFNST,以生成针对所述第二块的第二残差块;以及
使用针对所述第二块的所述第二残差块和第二预测块,来重建所述视频数据的所述第二块。
18.根据权利要求15所述的设备,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;以及
其中,仅对所述亮度变换系数应用所述逆LFNST是还响应于确定所述高度大于4并且所述宽度大于4。
19.根据权利要求15所述的设备,其中,为了应用所述逆LFNST,所述处理电路被配置为:对所述亮度变换系数的8x8 LFNST子块应用逆8x8 LFNST,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述逆LFNST的所述8x8 LFNST子块的外面;以及
其中,所述处理电路被配置为:还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述8x8 LFNST子块的外面,仅对所述亮度变换系数应用所述逆LFNST。
20.根据权利要求15所述的设备,其中,为了应用所述逆LFNST,所述处理电路被配置为:对所述亮度变换系数的4x4 LFNST子块应用逆4x4 LFNST,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述逆LFNST的所述4x4 LFNST子块的外面;以及
其中,所述处理电路被配置为:还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述4x4 LFNST子块的外面,仅对所述亮度变换系数应用所述逆LFNST。
21.根据权利要求15所述的设备,其中,所述处理电路还被配置为:
响应于确定所述单个树划分被启用用于所述当前块,根据所述经编码的数据确定对于针对所述当前块的所述亮度变换系数的LFNST索引,以及避免根据所述经编码的数据确定针对所述色度变换系数的LFNST索引;以及
其中,所述处理电路被配置为:基于针对所述亮度变换系数的LFNST索引来仅对所述亮度变换系数应用所述逆LFNST。
22.根据权利要求15所述的设备,还包括被配置为显示图像的显示器。
23.根据权利要求15所述的设备,其中,所述设备包括照相机、计算机、移动设备、广播接收机设备或机顶盒中的一项或多项。
24.一种用于对视频数据进行编码的设备,所述设备包括:
存储器,其被配置为存储所述视频数据;以及
处理电路,其被配置为:
确定单个树划分是否被启用用于当前块;
基于针对所述当前块的预测块,来产生针对所述当前块的残差值;
对所述残差值应用可分离变换,以生成针对所述当前块的可分离亮度变换系数和针对所述当前块的可分离色度变换系数;
响应于确定所述单个树划分被启用用于所述当前块,仅对针对所述当前块的所述可分离亮度变换系数应用低频不可分离变换(LFNST),以生成针对所述当前块的亮度变换系数和针对所述当前块的色度变换系数;
对所述亮度变换系数和所述色度变换系数进行编码,以生成经编码的视频数据;以及
输出所述经编码的视频数据。
25.根据权利要求24所述的设备,其中,所述处理电路还被配置为:响应于确定所述单个树划分被启用用于所述当前块,对针对所述当前块的所述可分离色度变换系数禁用所述LFNST。
26.根据权利要求24所述的设备,其中,所述处理电路还被配置为:
确定分离树划分被启用用于第二块;
基于针对所述第二块的第二预测块,来产生针对所述第二块的第二残差值;
对所述第二残差值应用所述可分离变换,以生成针对所述第二块的第二可分离亮度变换系数和针对所述第二块的第二可分离色度变换系数;
响应于确定所述分离树划分被启用用于所述第二块,对针对所述第二块的所述第二可分离亮度变换系数应用所述LFNST以生成针对所述第二块的第二亮度变换系数,以及对针对所述第二块的所述第二可分离色度变换系数应用所述LFNST以生成针对所述第二块的第二色度变换系数;
对所述第二亮度变换系数和所述第二色度变换系数进行编码,以生成经编码的视频数据;以及
输出所述经编码的视频数据。
27.根据权利要求24所述的设备,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;以及
其中,所述处理电路被配置为:还响应于确定所述高度大于4并且所述宽度大于4,仅对所述亮度变换系数应用所述LFNST。
28.根据权利要求24所述的设备,其中,为了应用所述LFNST,所述处理电路被配置为:对所述可分离亮度变换系数的8x8 LFNST子块应用8x8 LFNST,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述LFNST的所述8x8 LFNST子块的外面;以及
其中,所述处理电路被配置为:还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述8x8 LFNST子块的外面,仅对所述亮度变换系数应用所述LFNST。
29.根据权利要求24所述的设备,其中,为了应用所述LFNST,所述处理电路被配置为:对可分离亮度变换系数的4x4 LFNST子块应用4x4 LFNST,其中,所述处理电路还被配置为:
确定所述当前块是否包括大于4的高度;
确定所述当前块是否包括大于4的宽度;
确定所述亮度变换系数的归零区域是否在针对所述LFNST的所述4x4 LFNST子块的外面;以及
其中,所述处理电路被配置为:还响应于确定所述高度大于4、所述宽度大于4并且所述亮度变换系数的所述归零区域在所述4x4 LFNST子块的外面,仅对所述亮度变换系数应用所述LFNST。
30.根据权利要求24所述的设备,其中,所述处理电路还被配置为:响应于确定所述单个树划分被启用用于所述当前块,在所述经编码的数据中以信号发送对于针对所述当前块的所述亮度变换系数的LFNST索引,以及避免在所述经编码的数据中以信号发送针对所述色度变换系数的LFNST索引。
CN202080064605.0A 2019-09-26 2020-09-24 低频不可分离变换(lfnst)简化 Pending CN114521330A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962906671P 2019-09-26 2019-09-26
US62/906,671 2019-09-26
US17/029,416 US11206400B2 (en) 2019-09-26 2020-09-23 Low-frequency non-separable transform (LFNST) simplifications
US17/029,416 2020-09-23
PCT/US2020/052484 WO2021061977A1 (en) 2019-09-26 2020-09-24 Low-frequency non-separable transform (lfnst) simplifications

Publications (1)

Publication Number Publication Date
CN114521330A true CN114521330A (zh) 2022-05-20

Family

ID=75162686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080064605.0A Pending CN114521330A (zh) 2019-09-26 2020-09-24 低频不可分离变换(lfnst)简化

Country Status (5)

Country Link
US (1) US11206400B2 (zh)
EP (1) EP4035390A1 (zh)
CN (1) CN114521330A (zh)
TW (1) TW202121903A (zh)
WO (1) WO2021061977A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11363267B2 (en) * 2017-09-28 2022-06-14 Samsung Electronics Co., Ltd. Encoding method and device, and decoding method and device
CN112335247A (zh) * 2018-06-29 2021-02-05 Vid拓展公司 用于基于仿射运动模型的视频译码的自适应控制点选择
CN114651445B (zh) * 2019-09-21 2024-01-26 Lg电子株式会社 基于变换的视频编码方法及其装置
CN114846799B (zh) * 2019-10-29 2023-06-13 Lg电子株式会社 图像编码和解码方法、存储介质及图像数据的发送方法
CN114930850A (zh) * 2019-10-29 2022-08-19 Lg电子株式会社 基于变换的图像编码方法及其设备
US11228787B2 (en) * 2019-11-27 2022-01-18 Mediatek Inc. Signaling multiple transmission selection
US11457229B2 (en) 2019-12-23 2022-09-27 Qualcomm Incorporated LFNST signaling for chroma based on chroma transform skip
US11582491B2 (en) 2020-03-27 2023-02-14 Qualcomm Incorporated Low-frequency non-separable transform processing in video coding
US20220150518A1 (en) * 2020-11-11 2022-05-12 Tencent America LLC Method and apparatus for video coding
WO2023080691A1 (ko) * 2021-11-03 2023-05-11 주식회사 윌러스표준기술연구소 비디오 신호 처리 방법 및 이를 위한 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10306229B2 (en) 2015-01-26 2019-05-28 Qualcomm Incorporated Enhanced multiple transforms for prediction residual
US10491922B2 (en) 2015-09-29 2019-11-26 Qualcomm Incorporated Non-separable secondary transform for video coding
US10349085B2 (en) 2016-02-15 2019-07-09 Qualcomm Incorporated Efficient parameter storage for compact multi-pass transforms
US10448053B2 (en) 2016-02-15 2019-10-15 Qualcomm Incorporated Multi-pass non-separable transforms for video coding
US10972733B2 (en) 2016-07-15 2021-04-06 Qualcomm Incorporated Look-up table for enhanced multiple transform
US20170009431A1 (en) 2016-09-20 2017-01-12 Caterpillar Inc. Wing shroud retention system for a bucket of a machine
US10863199B2 (en) 2018-03-26 2020-12-08 Qualcomm Incorporated Minimization of transform memory and latency via parallel factorizations
US10986340B2 (en) 2018-06-01 2021-04-20 Qualcomm Incorporated Coding adaptive multiple transform information for video coding
US11032572B2 (en) 2019-05-17 2021-06-08 Qualcomm Incorporated Low-frequency non-separable transform signaling based on zero-out patterns for video coding
US11218728B2 (en) * 2019-06-04 2022-01-04 Tencent America LLC Method and apparatus for video coding

Also Published As

Publication number Publication date
WO2021061977A1 (en) 2021-04-01
TW202121903A (zh) 2021-06-01
EP4035390A1 (en) 2022-08-03
US20210099702A1 (en) 2021-04-01
US11206400B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
CN113940069A (zh) 用于视频译码中的低频不可分离变换的变换和最后有效系数位置信令
CN113812148A (zh) 用于视频译码的参考图片重采样和帧间译码工具
WO2020236509A1 (en) Low-frequency non-separable transform signaling based on zero-out patterns for video coding
CN114521330A (zh) 低频不可分离变换(lfnst)简化
CN114009026A (zh) 视频译码中的色度量化参数偏移的块级信令
CN113853784A (zh) 用于视频译码的多个自适应环路滤波器集合
CN114223202A (zh) 低频不可分离变换(lfnst)信令
CN114830648A (zh) 用于视频译码的图像报头信令
CN114424570B (zh) 用于视频编解码的变换单元设计
CN113170162A (zh) 用于视频译码的共享候选列表和并行候选列表推导
CN114080805A (zh) 用于视频译码的自适应环路滤波的非线性扩展
CN113924776A (zh) 使用不同的色度格式的具有未经滤波的参考样本的视频译码
CN114424566A (zh) 视频译码中用于联合色度残差模式的量化参数信令
CN113632466A (zh) 视频数据的帧间-帧内预测模式
EP4186237A1 (en) Multiple adaptive loop filter sets
CN113994674A (zh) 增加经帧内译码的块的解码吞吐
CN114846796A (zh) 用于视频译码中的参考图片重采样的环绕偏移
CN113545054A (zh) 视频编解码中子块变换的简化
CN112673636A (zh) 将运动向量四舍五入以自适应运动向量差分辨率及提高视频译码中的运动向量存储精度
CN114830649A (zh) 推断bdpcm经译码的块中的帧内译码模式
CN112335251B (zh) 以分组的旁路位元的系数编码
CN113940063A (zh) 解码图片缓冲器索引
WO2021207232A1 (en) Signaling number of subblock merge candidates in video coding
CN114846801A (zh) 基于色度变换跳过的用于色度的lfnst信令
CN115428462A (zh) 用于视频译码中的变换跳过块的高级约束

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination