CN115004706B - 关于变换和系数信令的方法和装置 - Google Patents
关于变换和系数信令的方法和装置 Download PDFInfo
- Publication number
- CN115004706B CN115004706B CN202180011530.4A CN202180011530A CN115004706B CN 115004706 B CN115004706 B CN 115004706B CN 202180011530 A CN202180011530 A CN 202180011530A CN 115004706 B CN115004706 B CN 115004706B
- Authority
- CN
- China
- Prior art keywords
- block
- transform
- video
- lfnst
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000011664 signaling Effects 0.000 title description 15
- 241000023320 Luma <angiosperm> Species 0.000 claims abstract description 51
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 claims abstract description 51
- 238000000926 separation method Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 42
- 238000003860 storage Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 description 41
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 22
- 238000013139 quantization Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000000638 solvent extraction Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000005192 partition Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241000985610 Forpus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Abstract
一种电子装置执行对视频数据进行解码的方法。所述方法包括:接收控制标志,其中控制标志指示视频数据中的编码块的亮度样点和色度样点是基于单树还是两个分离树被分割;接收与编码块对应的比特流;根据所确定的亮度样点和色度样点被单树分割:确定针对编码块的亮度样点的最后非零变换系数的扫描顺序索引;根据所确定的最后非零变换系数的扫描顺序索引满足预定义标准:从比特流接收低频不可分变换(LFNST)索引;并且基于LFNST索引,将逆LFNST变换应用于编码块的亮度样点的变换系数;根据所确定的亮度样点和色度样点被两个分离树分割:分别确定针对编码块的亮度样点和色度样点的最后非零变换系数的扫描顺序索引;根据所确定的最后非零变换系数的扫描顺序索引中的相应一个扫描顺序索引满足预定义标准:从比特流接收对应的LFNST索引;并且基于对应的LFNST索引,将相应的逆LFNST变换应用于编码块的对应样点的变换系数。
Description
相关申请
本申请要求于2020年01月28日提交的题为“METHODS AND APPARATUS ONTRANSFORM AND COEFFICIENT SIGNALING(关于变换和系数信令的方法和装置)”的第62/966,871号美国临时专利申请的优先权,其全部内容通过引用并入本文。
技术领域
本申请总体涉及视频编解码和压缩,并且更具体地,涉及关于改进和简化通用视频编解码(VVC)标准中的变换和系数编解码方法的现有设计的方法和装置。
背景技术
各种电子设备(诸如数字电视、笔记本电脑或台式计算机、平板电脑、数码相机、数字记录设备、数字媒体播放器、电子游戏机、智能手机、视频电话会议设备、视频流设备等)都支持数字视频。电子设备通过实施如由MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4、Part10、高级视频编解码(AVC)、高效视频编解码(HEVC)和通用视频编解码(VVC)标准定义的视频压缩/解压缩标准来发送、接收、编码、解码和/或存储数字视频数据。视频压缩通常包括执行空间(帧内)预测和/或时间(帧间)预测来减少或去除视频数据中固有的冗余。对于基于块的视频编解码,将视频帧分割为一个或多个条带,每个条带具有多个视频块,视频块也可被称为编码树单元(CTU)。每个CTU可包含一个编码单元(CU)或者递归地被拆分为更小的CU直到达到预定义的最小CU尺寸为止。每个CU(也称为叶CU)包含一个或多个变换单元(TU)并且每个CU还包含一个或多个预测单元(PU)。可以以帧内、帧间或IBC模式对每个CU进行编解码。视频帧的帧内编解码(I)条带中的视频块使用关于同一视频帧内的相邻块中的参考样点的空间预测来进行编码。视频帧的帧间编解码(P或B)条带中的视频块可使用关于同一视频帧内的相邻块中的参考样点的空间预测或关于其他先前参考视频帧和/或未来参考视频帧中的参考样点的时间预测。
基于先前已被编码的参考块(例如,相邻块)的空间预测或时间预测得出用于待编解码的当前视频块的预测块。找到参考块的过程可通过块匹配算法来完成。表示待编解码的当前块与预测块之间的像素差的残差数据被称为残差块或预测误差。根据残差块和指向参考帧中的形成预测块的参考块的运动矢量来对帧间编码块进行编码。确定运动矢量的过程通常被称为运动估计。根据帧内预测模式和残差块对帧内编码块进行编码。为了进一步压缩,将残差块从像素域变换到变换域(例如,频域),从而得出残差变换系数,残差变换系数然后可被量化。最初以二维阵列布置的量化的变换系数可被扫描以生成变换系数的一维矢量,然后被熵编码为视频比特流以实现甚至更大的压缩。
然后,将经编码的视频比特流保存于计算机可读存储介质(例如,闪存存储器)中,以由具有数字视频能力的另一电子设备访问或者有线或无线地直接发送到电子设备。然后,电子设备执行视频解压缩(其为与上文描述的视频压缩相反的过程),例如,通过对经编码的视频比特流进行解析来从比特流获得语法元素,并且至少部分地基于从比特流获得的语法元素从经编码的视频比特流将数字视频数据重建为其原始格式,并且电子设备在电子设备的显示器上呈现重建的数字视频数据。
随着数字视频质量从高清变为4K×2K或甚至8K×4K,待编码/解码的视频数据量呈指数增长。在如何在保持解码视频数据的图像质量的同时能够更有效率地对视频数据进行编码/解码方面,是一个长久挑战。
发明内容
本申请描述了与视频数据编码和解码相关的实施方式,并且更具体地,描述了与关于改进和简化变换和系数编解码方法的现有设计的方法和装置相关的实施方式。
根据本申请的第一方面,在计算设备处执行对视频数据进行解码的方法,并且所述方法包括以下步骤:接收控制标志,其中所述控制标志指示所述视频数据中的编码块的亮度样点和色度样点是基于单树还是两个分离树被分割;接收与所述编码块对应的比特流;根据所确定的所述亮度样点和所述色度样点被单树分割:确定针对所述编码块的所述亮度样点的最后非零变换系数的扫描顺序索引;根据所确定的所述最后非零变换系数的扫描顺序索引满足预定义标准:从所述比特流接收低频不可分变换(LFNST)索引;并且基于所述LFNST索引,将逆LFNST变换应用于所述编码块的所述亮度样点的变换系数;根据所确定的所述亮度样点和所述色度样点被两个分离树分割:分别确定针对所述编码块的所述亮度样点和所述色度样点的最后非零变换系数的扫描顺序索引;根据所确定的所述最后非零变换系数的所述扫描顺序索引中的相应一个扫描顺序索引满足所述预定义标准:从所述比特流接收对应的LFNST索引;并且基于所述对应的LFNST索引,将相应的逆LFNST变换应用于所述编码块的对应样点的变换系数。
根据本申请的第二方面,一种电子装置包括一个或多个处理单元、存储器和存储在存储器中的多个程序。程序在被一个或多个处理单元执行时使电子装置执行如上文所描述的对视频数据进行解码的方法。
根据本申请的第三方面,一种非易失性计算机可读存储介质存储用于由具有一个或多个处理单元的电子装置执行的多个程序。程序在被一个或多个处理单元执行时使电子装置执行如上文所描述的对视频数据进行解码的方法。
附图说明
被包括以提供对实施方式的进一步理解并且被并入本文并构成说明书的一部分的附图示出了所描述的实施方式,并且与本说明书一起用于解释基本原理。相似的附图标记指代相应的部分。
图1是示出根据本公开的一些实施方式的示例性视频编码和解码系统的框图。
图2是示出根据本公开的一些实施方式的示例性视频编码器的框图。
图3是示出根据本公开的一些实施方式的示例性视频解码器的框图。
图4A至图4E是示出根据本公开的一些实施方式的如何将帧递归地分割为不同尺寸和形状的多个视频块的框图。
图5是示出根据本公开的一些实施方式的示例性低频不可分变换(LFNST)过程的框图,其中,LFNST为用于在首次变换之后对帧内编码块的变换系数的能量进行压缩的二次变换。
图6是示出根据本公开的一些实施方式的具有非零变换系数的示例性变换块的框图。
图7是示出根据本公开的一些实施方式的视频编解码器实施基于变换块的不同分量有条件地用信号发送LFNST的技术的示例性过程的流程图。
具体实施方式
现在将详细参照具体实施方式,在附图中示出具体实施方式的示例。在以下详细描述中,阐述了很多非限制性具体细节以便帮助理解本文呈现的主题。但是对于本领域普通技术人员将显而易见的是,在不脱离权利要求的范围的情况下,可使用各种替代方案,并且可在没有这些具体细节的情况下实践主题。例如,对于本领域普通技术人员将显而易见的是,本文呈现的主题可在具有数字视频能力的许多类型的电子设备上实现。
图1是示出根据本公开的一些实施方式的用于并行地对视频块进行编码和解码的示例性系统10的框图。如图1中所示,系统10包括源设备12,源设备12生成并编码稍后将由目标设备14进行解码的视频数据。源设备12和目标设备14可包括各种各样的电子设备中的任何电子设备,包括台式计算机或笔记本电脑、平板电脑、智能手机、机顶盒、数字电视、相机、显示器设备、数字媒体播放器、电子游戏机、视频流传输设备等。在一些实施方式中,源设备12和目标设备14配备有无线通信能力。
在一些实施方式中,目标设备14可经由链路16接收待解码的编码视频数据。链路16可包括能够将编码视频数据从源设备12移动到目标设备14的任何类型的通信介质或设备。在一个示例中,链路16可包括使源设备12能够实时地将编码视频数据直接发送到目标设备14的通信介质。编码视频数据可根据通信标准(诸如无线通信协议)被调制,并且被发送到目标设备14。通信介质可包括任何无线或有线通信介质,诸如射频(RF)频谱或一个或多个物理传输线。通信介质可形成基于分组的网络(例如,局域网、广域网或诸如互联网的全球网)的一部分。通信介质可包括路由器、交换机、基站或可有利于促进从源设备12到目标设备14的通信的任何其他装置。
在一些其他实施方式中,编码视频数据可从输出接口22被发送到存储设备32。随后,存储设备32中的编码视频数据可通过目标设备14经由输入接口28被访问。存储设备32可包括各种分布式或本地访问的数据存储介质中的任何数据存储介质,诸如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存存储器、易失性或非易失性存储器、或者用于存储编码视频数据的任何其他合适的数字存储介质。在另一示例中,存储设备32可对应于文件服务器或可保留由源设备12生成的编码视频数据的另一中间存储设备。目标设备14可从存储设备32经由流传输或下载来访问存储的视频数据。文件服务器可以是能够存储编码视频数据并且将编码视频数据发送到目标设备14的任何类型的计算机。示例性文件服务器包括web服务器(例如,用于网站)、FTP服务器、网络附属存储(NAS)设备或本地磁盘驱动器。目标设备14可通过适合于访问存储在文件服务器上的编码视频数据的任何标准数据连接来访问编码视频数据,标准数据连接包括无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或无线信道和有线连接两者的组合。编码视频数据从存储设备32的传输可以是流传输、下载传输或流传输和下载传输两者的组合。
如图1中所示,源设备12包括视频源18、视频编码器20和输出接口22。视频源18可包括诸如以下项的源或此类源的组合:视频捕获设备(例如,摄像机)、包含先前捕获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口、和/或用于生成作为源视频的计算机图形数据的计算机图形系统。作为一个示例,如果视频源18是安全监控系统的摄像机,则源设备12和目标设备14可形成相机电话或视频电话。然而,本申请中所描述的实施方式通常可适用于视频编解码,并且可应用于无线和/或有线应用。
可由视频编码器20对捕获、预先捕获或计算机生成的视频进行编码。可经由源设备12的输出接口22直接将编码视频数据发送到目标设备14。还可(或可选地)将编码视频数据存储到存储设备32上以供稍后被目标设备14或其他设备访问,以用于解码和/或回放。输出接口22可进一步包括调制解调器和/或发送器。
目标设备14包括输入接口28、视频解码器30和显示器设备34。输入接口28可包括接收器和/或调制解调器,并且通过链路16接收编码视频数据。通过链路16通信传送或在存储设备32上提供的编码视频数据可包括由视频编码器20生成的各种语法元素以供视频解码器30在对视频数据进行解码时使用。此类语法元素可被包括在通信介质上发送、存储在存储介质上或存储在文件服务器上的编码视频数据内。
在一些实施方式中,目标设备14可包括显示器设备34,显示器设备34可以是集成显示器设备和被配置为与目标设备14通信的外部显示器设备。显示器设备34将解码视频数据显示给用户,并且可包括各种显示器设备中的任何显示器设备,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示器设备。
视频编码器20和视频解码器30可根据专有标准或行业标准(例如,VVC、HEVC、MPEG-4、Part 10、高级视频编解码(AVC))或此类标准的扩展进行操作。应当理解,本申请不限于特定的视频编码/解码标准,并且可适用于其他视频编码/解码标准。通常认为源设备12的视频编码器20可被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行编码。类似地,还通常认为目标设备14的视频解码器30可被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行解码。
视频编码器20和视频解码器30可分别被实现为各种合适的编码器电路中的任何电路,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地以软件实现时,电子设备可将用于软件的指令存储于合适的非易失性计算机可读介质中,并且使用一个或多个处理器执行硬件中的指令以执行本公开中所公开的视频编码/解码操作。视频编码器20和视频解码器30中的每一个可被包括在一个或多个编码器或解码器中,编码器或解码器中的任一个可被集成为相应设备中的组合式编码器/解码器(CODEC)的一部分。
图2是示出根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可执行对视频帧内的中视频块的帧内预测编码和帧间预测编码。帧内预测编码依赖于空间预测以减少或去除给定视频帧或图片内的视频数据中的空间冗余。帧间预测编码依赖于时间预测以减少或去除视频序列的相邻视频帧或图片内的视频数据中的时间冗余。
如图2中所示,视频编码器20包括视频数据存储器40、预测处理单元41、已解码图片缓冲器(DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41进一步包括运动估计单元42、运动补偿单元44、分割单元45、帧内预测处理单元46和帧内块复制(BC)单元48。在一些实施方式中,视频编码器20还包括用于视频块重建的反量化单元58、逆变换处理单元60和加法器62。去块滤波器(未示出)可位于加法器62与DPB 64之间以对块边界进行滤波以从重建视频去除块效应伪像。除了去块滤波器之外,还可使用环路滤波器(未示出)来对加法器62的输出进行滤波。视频编码器20可采取固定或可编程硬件单元的形式,或者可分散在所说明的固定或可编程硬件单元中的一个或多个中。
视频数据存储器40可存储将由视频编码器20的组件进行编码的视频数据。视频数据存储器40中的视频数据可例如从视频源18获得。DPB 64是存储供视频编码器20(例如,以帧内或帧间预测编码模式)在对视频数据进行编码时使用的参考视频数据的缓冲器。视频数据存储器40和DPB 64可由各种存储器设备中的任何存储器设备形成。在各种示例中,视频数据存储器40可与视频编码器20的其他组件一起在芯片上,或相对于那些组件在芯片外。
如图2中所示,在接收到视频数据之后,预测处理单元41内的分割单元45将视频数据分割为视频块。此分割还可包括根据与视频数据相关联的预定义的拆分结构(诸如四叉树结构)将视频帧分割为条带、瓦片(tile)或其他更大编码单元(CU)。视频帧可被划分为多个视频块(或被称为分区的视频块集合)。预测处理单元41可基于误差结果(例如,编解码速率和失真等级)为当前视频块选择多个可行预测编码模式之一,诸如多个帧内预测编码模式中的一个或多个帧间预测编码模式中的一个。预测处理单元41可将所得的帧内预测编码块或帧间预测编码块提供给加法器50以生成残差块,并且提供给加法器62以重建编码块以用于随后作为参考帧的一部分使用。预测处理单元41还将语法元素(诸如运动矢量、帧内模式指示符、分割信息和其他此类语法信息)提供给熵编码单元56。
为了选择用于当前视频块的合适的帧内预测编码模式,预测处理单元41内的帧内预测处理单元46可与和待编码的当前块在同一帧中的一个或多个相邻块相关地执行当前视频块的帧内预测编码以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44与一个或多个参考帧中的一个或多个预测块相关地执行当前视频块的帧间预测编码以提供时间预测。视频编码器20可执行多个编码通道,例如,来为视频数据的每个块选择合适的编码模式。
在一些实施方式中,运动估计单元42通过根据视频帧序列内的预定模式生成运动矢量来确定用于当前视频帧的帧间预测模式,运动矢量指示当前视频帧内的视频块的预测单元(PU)相对于参考视频帧内的预测块的位移。由运动估计单元42执行的运动估计是生成估计针对视频块的运动的运动矢量的过程。例如,运动矢量可指示当前视频帧或图片内的视频块的PU相对于与当前帧内正被编码的当前块(或其他编码单元)相关的参考帧内的预测块(或其他编码单元)的位移。预定模式可将序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以与由运动估计单元42确定用于帧间预测的运动矢量类似的方式确定用于帧内BC编码的矢量(例如,块矢量),或可利用运动估计单元42确定块矢量。
在像素差方面,预测块是被认为与待编码视频块的PU紧密匹配的参考帧的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其他差度量确定。在一些实施方式中,视频编码器20可计算用于DPB 64中存储的参考帧的子整数像素位置的值。例如,视频编码器20可对参考帧的四分之一像素位置、八分之一像素位置或其他分数像素位置的值进行插值。因此,运动估计单元42可相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动矢量。
运动估计单元42通过以下方式来计算针对帧间预测编码帧中的视频块的PU的运动矢量:将PU的位置与从第一参考帧列表(列表0)或第二参考帧列表(列表1)选择的参考帧的预测块的位置进行比较,第一参考帧列表和第二参考帧列表中的每一个标识存储在DPB64中的一个或多个参考帧。运动估计单元42将计算的运动矢量发送到运动补偿单元44,然后发送到熵编码单元56。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动矢量提取或生成预测块。在接收到针对当前视频块的PU的运动矢量后,运动补偿单元44可在参考帧列表中的一个参考帧列表中定位运动矢量所指向的预测块,从DPB 64取回预测块,并且将预测块转发到加法器50。然后,加法器50通过从正被编码的当前视频块的像素值减去由运动补偿单元44提供的预测块的像素值来形成像素差值的残差视频块。形成残差视频块的像素差值可包括亮度差分量或色度差分量或两者。运动补偿单元44还可生成与视频帧的视频块相关联的语法元素以供视频解码器30在对视频帧的视频块进行解码时使用。语法元素可包括例如定义用于识别预测块的运动矢量的语法元素、指示预测模式的任何标志、或本文描述的任何其他语法信息。应注意,运动估计单元42和运动补偿单元44可高度集成,但出于概念目的而单独说明。
在一些实施方式中,帧内BC单元48可以以与上文结合运动估计单元42和运动补偿单元44所描述的方式类似的方式生成矢量并提取预测块,但是这些预测块在与正被编码的当前块的同一帧中,并且这些矢量被称为块矢量而非运动矢量。具体地,帧内BC单元48可确定将用于对当前块进行编码的帧内预测模式。在一些示例中,帧内BC单元48可例如在单独的编码通道期间使用各种帧内预测模式来对当前块进行编码,并且通过率失真分析来测试它们的性能。接下来,帧内BC单元48可在各种测试的帧内预测模式中选择合适的帧内预测模式以使用并相应地生成帧内模式指示符。例如,帧内BC单元48可使用率失真分析针对各种测试的帧内预测模式计算率失真值,并且在测试的模式中选择具有最佳率失真特性的帧内预测模式作为合适的帧内预测模式来使用。率失真分析大体上确定编码块与被编码以生成编码块的原始未编码块之间的失真(或误差)量、以及用于生成编码块的比特率(即,比特数量)。帧内BC单元48可从针对各种编码块的失真和速率计算比率,以确定哪个帧内预测模式展现针对块的最佳率失真值。
在其他示例中,帧内BC单元48可全部或部分地使用运动估计单元42和运动补偿单元44来执行根据本文描述的实施方式的用于帧内BC预测的此类功能。在任一情况下,对于帧内块复制,在像素差方面,预测块可以是被认为与待编码的块紧密匹配的块,像素差可由绝对差总和(SAD)、平方差总和(SSD)或其他差度量确定,并且预测块的识别可包括计算针对子整数像素位置的值。
无论预测块是来自根据帧内预测的同一帧还是来自根据帧间预测的不同帧,视频编码器20可通过从正被编码的当前视频块的像素值减去预测块的像素值来形成像素差值,从而形成残差视频块。形成残差视频块的像素差值可包括亮度分量差和色度分量差两者。
作为如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测或由帧内BC单元48执行的帧内块复制预测的替代方案,帧内预测处理单元46可对当前视频块进行帧内预测。具体地,帧内预测处理单元46可确定帧内预测模式以用于对当前块进行编码。为此,帧内预测处理单元46可例如在单独的编码通道期间使用各种帧内预测模式来对当前块进行编码,并且帧内预测处理单元46(或在一些示例中,模式选择单元)可从测试的帧内预测模式中选择合适的帧内预测模式来使用。帧内预测处理单元46可将指示针对块选择的帧内预测模式的信息提供给熵编码单元56。熵编码单元56可将指示选择的帧内预测模式的信息编码到比特流中。
在预测处理单元41经由帧间预测或帧内预测确定针对当前视频块的预测块之后,加法器50通过从当前视频块减去预测块来形成残差视频块。残差块中的残差视频数据可被包括在一个或多个变换单元(TU)中并且提供给变换处理单元52。变换处理单元52使用变换(诸如离散余弦变换(DCT)或概念上类似的变换)将残差视频数据变换为残差变换系数。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步减小比特率。量化过程还可减小与系数中的一些或全部相关联的比特深度。可通过调整量化参数来修改量化程度。在一些示例中,量化单元54可随后执行对包括量化的变换系数的矩阵的扫描。可选地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56使用例如上下文自适应可变长度编解码(CAVLC)、上下文自适应二进制算术编解码(CABAC)、基于语法的上下文自适应二进制算术编解码(SBAC)、概率区间分割熵(PIPE)编解码或另一熵编解码方法或技术,将量化的变换系数熵编码成视频比特流。然后,编码的比特流可被发送到视频解码器30,或存档于存储设备32中以供稍后发送到视频解码器30或由视频解码器30取回。熵编码单元56还可对用于正被编码的当前视频帧的运动矢量和其他语法元素进行熵编码。
反量化单元58和逆变换处理单元60分别应用反量化和逆变换以在像素域中重建残差视频块以用于生成用于预测其他视频块的参考块。如上文指出的,运动补偿单元44可从存储在DPB 64中的帧的一个或多个参考块生成运动补偿预测块。运动补偿单元44还可将一个或多个内插滤波器应用于预测块以计算子整数像素值以用于在运动估计时使用。
加法器62将重建的残差块加到由运动补偿单元44生成的运动补偿预测块来生成参考块以存储在DPB 64中。然后,参考块可由帧内BC单元48、运动估计单元42和运动补偿单元44用作预测块以对后续视频帧中的另一视频块进行帧间预测。
图3是示出根据本申请的一些实施方式的示例性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、反量化单元86、逆变换处理单元88、加法器90和DPB 92。预测处理单元81进一步包括运动补偿单元82、帧内预测单元84和帧内BC单元85。视频解码器30可执行与上文结合图2关于视频编码器20所描述的编码过程基本互逆的解码过程。例如,运动补偿单元82可基于从熵解码单元80接收的运动矢量生成预测数据,而帧内预测单元84可基于从熵解码单元80接收的帧内预测模式指示符生成预测数据。
在一些示例中,视频解码器30的单元可被分派任务以执行本申请的实施方式。此外,在一些示例中,本公开的实施方式可分散在视频解码器30的多个单元中的一个或多个单元中。例如,帧内BC单元85可单独地或与视频解码器30的其他单元(诸如,运动补偿单元82、帧内预测单元84和熵解码单元80)组合地执行本申请的实施方式。在一些示例中,视频解码器30可不包括帧内BC单元85,并且帧内BC单元85的功能可由预测处理单元81的其他组件(诸如运动补偿单元82)执行。
视频数据存储器79可存储将由视频解码器30的其他组件进行解码的视频数据,诸如编码视频比特流。存储在视频数据存储器79中的视频数据可例如从存储设备32、从本地视频源(诸如相机)、经由视频数据的有线或无线网络通信,或通过访问物理数据存储介质(例如,闪存驱动器或硬盘)获得。视频数据存储器79可包括存储来自编码视频比特流的编码视频数据的编解码图片缓冲器(CPB)。视频解码器30的解码图片缓冲器(DPB)92存储参考视频数据以供视频解码器30(例如,以帧内或帧间预测编解码模式)在对视频数据进行解码时使用。视频数据存储器79和DPB 92可由各种存储器设备中的任何存储器设备形成,诸如动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其他类型的存储器设备。出于说明性目的,视频数据存储器79和DPB 92在图3中描绘为视频解码器30的两个不同组件。但是对于本领域的技术人员将显而易见的是,视频数据存储器79和DPB 92可由同一存储器设备或单独存储器设备提供。在一些示例中,视频数据存储器79可与视频解码器30的其他组件一起在芯片上,或相对于那些组件在芯片外。
在解码过程期间,视频解码器30接收表示编码视频帧的视频块和相关联的语法元素的编码视频比特流。视频解码器30可在视频帧级和/或视频块级接收语法元素。视频解码器30的熵解码单元80对比特流进行熵解码以生成量化系数、运动矢量或帧内预测模式指示符、以及其他语法元素。然后,熵解码单元80将运动矢量和其他语法元素转发到预测处理单元81。
当视频帧被编码为帧内预测编码(I)帧或用于其他类型的帧中的帧内编码预测块时,预测处理单元81的帧内预测单元84可基于用信号发送的帧内预测模式和来自当前帧的先前解码块的参考数据来生成用于当前视频帧的视频块的预测数据。
当视频帧被编码为帧间预测编码(即,B或P)帧时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动矢量和其他语法元素生成针对当前视频帧的视频块的一个或多个预测块。预测块中的每一个可从参考帧列表中的一个参考帧列表内的参考帧生成。视频解码器30可基于存储在DPB 92中的参考帧使用默认构建技术来构建参考帧列表,列表0和列表1。
在一些示例中,当根据本文描述的帧内BC模式对视频块进行编解码时,预测处理单元81的帧内BC单元85基于从熵解码单元80接收的块矢量和其他语法元素生成针对当前视频块的预测块。预测块可在由视频编码器20定义的与当前视频块的同一图片的重建区域内。
运动补偿单元82和/或帧内BC单元85通过解析运动矢量和其他语法元素来确定针对当前视频帧的视频块的预测信息,然后使用该预测信息生成针对正被解码的当前视频块的预测块。例如,运动补偿单元82使用接收到的语法元素中的一些语法元素来确定用于对视频帧的视频块进行编解码的预测模式(例如,帧内预测或帧间预测)、帧间预测帧类型(例如,B或P)、用于针对帧的参考帧列表中的一个或多个的构建信息、用于帧的每个帧间预测编码视频块的运动矢量、用于帧的每个帧间预测编解码视频块的帧间预测状态、以及用于对当前视频帧中的视频块进行解码的其他信息。
类似地,帧内BC单元85可使用接收到的语法元素中的一些语法元素,例如标志,以确定当前视频块是使用帧内BC模式预测的、帧的哪些视频块在重建区域内且应被存储在DPB 92中的构建信息、用于帧的每个帧内BC预测视频块的块矢量、用于帧的每个帧内BC预测视频块的帧内BC预测状态、以及用于对当前视频帧中的视频块进行解码的其他信息。
运动补偿单元82还可使用如由视频编码器20在视频块的编码期间使用的内插滤波器执行插值,以计算针对参考块的子整数像素的插值。在这种情况下,运动补偿单元82可从接收到的语法元素确定由视频编码器20使用的内插滤波器,并且使用这些内插滤波器来生成预测块。
反量化单元86使用由视频编码器20针对视频帧中的每个视频块计算的用于确定量化程度的相同的量化参数,对在比特流中提供且由熵解码单元80熵解码的量化的变换系数进行反量化。逆变换处理单元88将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便在像素域中重建残差块。
在运动补偿单元82或帧内BC单元85基于矢量和其他语法元素生成针对当前视频块的预测块之后,加法器90通过将来自逆变换处理单元88的残差块与由运动补偿单元82和帧内BC单元85生成的对应预测块相加,来重建针对当前视频块的解码视频块。环路滤波器(未示出)可位于加法器90与DPB 92之间以进一步处理解码视频块。然后,将给定帧中的解码视频块存储在DPB 92中,DPB 92存储用于接下来的视频块的后续运动补偿的参考帧。DPB92或与DPB 92分离的存储器设备还可存储解码视频以用于稍后呈现在显示器设备(例如,图1的显示器设备34)上。
在典型的视频编解码过程中,视频序列通常包括帧或图片的有序集合。每一帧可包括三个样点阵列,表示为SL、SCb和SCr。SL是亮度样点的二维阵列。SCb是Cb色度样点的二维阵列。SCr是Cr色度样点的二维阵列。在其他情况下,帧可以是单色的,因此仅包括亮度样点的一个二维阵列。
如图4A中所示,视频编码器20(或更具体地,分割单元45)通过首先将帧分割为编码树单元(CTU)的集合来生成帧的编码表示。视频帧可包括以光栅扫描顺序从左到右和从上到下连续排序的整数个CTU。每个CTU是最大的逻辑编码单元,并且由视频编码器20以序列参数集用信号发送CTU的宽度和高度,使得视频序列中的所有CTU具有128×128、64×64、32×32和16×16之一的相同尺寸。但是应当注意,本申请不一定限于特定尺寸。如图4B中所示,每个CTU可包括亮度样点的一个编码树块(CTB)、色度样点的两个对应编码树块、以及用于对编码树块的样点进行编解码的语法元素。语法元素描述编码像素块的不同类型的单元的性质以及可如何在视频解码器30处重建视频序列,包括帧间预测或帧内预测、帧内预测模式、运动矢量和其他参数。在单色图片或具有三个单独颜色平面的图片中,CTU可包括单个编码树块和用于对该编码树块的样点进行编解码的语法元素。编码树块可以是N×N样点块。
为实现更好的性能,视频编码器20可对CTU的编码树块递归地执行树分割,例如二叉树分割、三叉树分割、四叉树分割或两者的组合,并且将CTU划分为较小的编码单元(CU)。如图4C中所描绘的,首先将64×64CTU 400划分为四个较小的CU,每个CU具有32×32的块尺寸。在四个较小的CU中,将CU 410和CU 420分别划分为块尺寸为16×16的四个CU。将两个16×16的CU 430和CU 440分别进一步划分为块尺寸为8×8的四个CU。图4D描绘了示出如图4C中所描绘的CTU 400的分割过程的最终结果的四叉树数据结构,四叉树的每个叶节点与范围从32×32到8×8的各个尺寸的一个CU对应。类似于图4B中描绘的CTU,每个CU可包括相同尺寸的帧的亮度样点的编码块(CB)和色度样点的两个对应编码块、和用于对编码块的样点进行编解码的语法元素。在单色图片或具有三个单独颜色平面的图片中,CU可包括单个编码块和用于对编码块的样点进行编解码的语法结构。应注意,图4C和图4D中所描绘的四叉树分割仅出于说明性目的,并且一个CTU可基于四叉树/三叉树/二叉树分割被拆分为CU以适应于变化的局部特性。在多类型树结构中,一个CTU被四叉树结构分割,并且每个四叉树叶CU可被二叉和三叉树结构进一步分割。如图4E所示,存在五种分割类型,即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。
在一些实施方式中,视频编码器20可进一步将CU的编码块分割为一个或多个M×N预测块(PB)。预测块是被应用相同预测(帧间或帧内)的矩形(正方形或非正方形)样点块。CU的预测单元(PU)可包括亮度样点的预测块、色度样点的两个对应预测块和用于对预测块进行预测的语法元素。在单色图片或具有三个单独颜色平面的图片中,PU可包括单个预测块和用于对预测块进行预测的语法结构。视频编码器20可生成针对CU的每个PU的亮度预测块、Cb预测块和Cr预测块的预测亮度块、预测Cb块和预测Cr块。
视频编码器20可使用帧内预测或帧间预测来生成针对PU的预测块。如果视频编码器20使用帧内预测来生成PU的预测块,则视频编码器20可基于与PU相关联的帧的解码样点来生成PU的预测块。如果视频编码器20使用帧间预测来生成PU的预测块,则视频编码器20可基于除与PU相关联的帧之外的一个或多个帧的解码样点来生成PU的预测块。
在视频编码器20生成针对CU的一个或多个PU的预测亮度块、预测Cb块和预测Cr块之后,视频编码器20可通过从CU的原始亮度编码块减去CU的预测亮度块来生成针对CU的亮度残差块,使得CU的亮度残差块中的每个样点指示CU的预测亮度块之一中的亮度样点与CU的原始亮度编码块中的对应样点之间的差。类似地,视频编码器20可分别生成针对CU的Cb残差块和Cr残差块,使得CU的Cb残差块中的每个样点指示CU的预测Cb块之一中的Cb样点与CU的原始Cb编码块中的对应样点之间的差,并且CU的Cr残差块中的每个样点可指示CU的预测Cr块之一中的Cr样点与CU的原始Cr编码块中的对应样点之间的差。
此外,如图4C中所示,视频编码器20可使用四叉树分割将CU的亮度残差块、Cb残差块和Cr残差块分解成一个或多个亮度变换块、Cb变换块和Cr变换块。变换块是被应用相同变换的矩形(正方形或非正方形)样点块。CU的变换单元(TU)可包括亮度样点的变换块、色度样点的两个对应变换块和用于对变换块样点进行变换的语法元素。因此,CU的每个TU可与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中,与TU相关联的亮度变换块可以是CU的亮度残差块的子块。Cb变换块可以是CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可包括单个变换块和用于对该变换块的样点进行变换的语法结构。
视频编码器20可将一个或多个变换应用于TU的亮度变换块以生成针对TU的亮度系数块。系数块可以是变换系数的二维阵列。变换系数可以是标量。视频编码器20可将一个或多个变换应用于TU的Cb变换块以生成针对TU的Cb系数块。视频编码器20可将一个或多个变换应用于TU的Cr变换块以生成针对TU的Cr系数块。
在生成系数块(例如,亮度系数块、Cb系数块或Cr系数块)之后,视频编码器20可对系数块进行量化。量化通常是指变换系数被量化以可能减少用于表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20对系数块进行量化之后,视频编码器20可对指示量化的变换系数的语法元素进行熵编码。例如,视频编码器20可对指示量化的变换系数的语法元素执行上下文自适应二进制算术编解码(CABAC)。最后,视频编码器20可输出包括比特序列的比特流,比特序列形成编码帧和相关联数据的表示,比特流被保存于存储设备32中或被发送到目标设备14。
在接收到由视频编码器20生成的比特流之后,视频解码器30可解析比特流以从比特流获得语法元素。视频解码器30可至少部分地基于从比特流获得的语法元素来对视频数据的帧进行重建。对视频数据进行重建的过程通常与由视频编码器20执行的编码过程互逆。例如,视频解码器30可对与当前CU的TU相关联的系数块执行逆变换以重建与当前CU的TU相关联的残差块。视频解码器30还通过将针对当前CU的PU的预测块的样点加到当前CU的TU的变换块的对应样点,来重建当前CU的编码块。在重建针对帧的每个CU的编码块之后,视频解码器30可重建帧。
如上所述,视频编解码主要使用两种模式(即,帧内部预测(或帧内预测)和帧之间预测(或帧间预测))来实现视频压缩。基于调色板的编解码是已被许多视频编解码标准采用的另一编解码方案。在基于调色板的编解码(可能特别适合于屏幕生成的内容编解码)中,视频编解码器(例如,视频编码器20或视频解码器30)形成表示给定块的视频数据的颜色的调色板表。调色板表包括给定块中的最主要(例如,频繁使用的)像素值。在给定块的视频数据中不被频繁表示的像素值不包括在调色板表中或者作为逃逸颜色包括在调色板表中。
调色板表中的每个条目包括针对调色板表中的对应像素值的索引。针对块中的样点的调色板索引可被编解码为指示来自调色板表的哪个条目将被用于预测或重建哪个样点。此调色板模式开始于生成针对图片、条带、瓦片或其他此类的视频块分组的第一块的调色板预测因子的过程。如下文将解释,通常通过更新先前使用的调色板预测因子来生成针对后续视频块的调色板预测因子。为了说明的目的,假设调色板预测因子在图片级被定义。换句话说,图片可包括多个编码块,每个编码块具有其自己的调色板表,但存在针对整个图片的一个调色板预测因子。
为了减少在视频比特流中用信号发送调色板条目所需的比特,视频解码器可利用调色板预测因子来确定用于重建视频块的调色板表中的新调色板条目。例如,调色板预测因子可包括来自先前使用的调色板表的调色板条目,或者甚至通过包括最近使用的调色板表的所有条目来利用最近使用的调色板表被初始化。在一些实施方式中,调色板预测因子可包括比来自最近使用的调色板表的所有条目更少的条目,然后并入来自其他先前使用的调色板表的一些条目。调色板预测因子可具有与用于编解码不同块的调色板表相同的大小,或者可大于或小于用于编解码不同块的调色板表。在一个示例中,调色板预测因子被实现为包括64个调色板条目的先进先出(FIFO)表。
为了从调色板预测因子生成针对视频数据的块的调色板表,视频解码器可从编码视频比特流接收针对调色板预测因子的每个条目的一比特标志。一比特标志可具有指示调色板预测因子的关联条目将被包括在调色板表中的第一值(例如,二进制一)或指示调色板预测因子的关联条目将不被包括在调色板表中的第二值(例如,二进制零)。如果调色板预测因子的大小大于用于视频数据的块的调色板表,则一旦达到针对调色板表的最大大小,视频解码器就可停止接收更多标志。
在一些实施方式中,调色板表中的一些条目可在编码视频比特流中直接用信号发送,而不使用调色板预测因子确定。对于此类条目,视频解码器可从编码视频比特流接收指示针对与条目相关联的亮度分量和两个色度分量的像素值的三个单独m比特值,其中m表示视频数据的比特深度。与直接用信号发送的调色板条目所需的多个m比特值相比,从调色板预测因子导出的那些调色板条目仅需要一比特标志。因此,使用调色板预测因子用信号发送一些或所有调色板条目可显著减少用信号发送新调色板表的条目所需的比特的数量,从而提高调色板模式编解码的整体编解码效率。
在许多情况下,针对一个块的调色板预测因子基于被用于对一个或多个先前编解码的块进行编解码的调色板表被确定。但是当对图片、条带或瓦片中的第一编码树单元进行编解码时,先前编解码的块的调色板表可能不可用。因此,不能使用先前使用的调色板表的条目来生成调色板预测因子。在这种情况下,可在序列参数集(SPS)和/或图片参数集(PPS)中用信号发送调色板预测因子初始化值的序列,调色板预测因子初始化值是用于在先前使用的调色板表不可用时生成调色板预测因子的值。SPS通常是指应用于被称为已编码视频序列(CVS)的一系列连续的编码视频图片的语法元素的语法结构,其中该CVS是由每个条带片段头中找到的语法元素所提及的PPS中找到的语法元素的内容确定的。PPS通常是指应用于CVS内的一个或多个单独图片的语法元素的语法结构,其中该CVS是由在每个条带片段头中找到的语法元素确定的。因此,SPS通常被认为是比PPS更高等级的语法结构,这意味着与包括在PPS中的语法元素相比,包括在SPS中的语法元素通常改变频率低并且应用于更大部分的视频数据。
图5是示出根据本公开的一些实施方式的示例性低频不可分变换(LFNST)过程的框图,其中,LFNST过程为用于在首次变换之后对帧内编码块的变换系数的能量进行压缩的二次变换。如图中所示,LFNST在视频编码器20内被应用在首次正变换与量化之间,并且在视频解码器30内被应用在反量化与首次逆变换之间。在一些实施例中,基于一个编码块的尺寸来应用具有变化的变换尺寸的不可分变换,这可被描绘为以下矩阵乘法过程。假设LFNTS被应用于一个4×4块,4×4块内的样点,即,
首先被序列化为一个向量,如下所示
然后,LFNTS被应用为其中/>是LFNTS之后的变换系数,T是变换核。在该示例中,T是一个16×16矩阵。随后根据一个预定义的扫描顺序将16×1向量/>重新组织为4×4块,其中位于该向量开始处的系数将与4×4块中的较小扫描索引相关联。
从上面的示例可以看出,LFNST基于直接矩阵乘法,其在计算操作和用于存储变换系数的存储器方面是相当昂贵的。在一些实施例中,使用一个减小的不可分变换核来减少LFNST的实施代价。这种方法的主要思想是将一个N维向量映射到不同空间中的一个R维向量,其中R<N。因此,代替进行N×N矩阵,正向LFNST变为如下的R×N矩阵:
其中通过选取原始N维变换矩阵(即,N×N)的前R个基向量来生成TR×N中的R个基向量。
在应用LFNST之后,超出左上潜在非零LFNST系数区域的所有变换系数被强制为零。对于尺寸为4×4、8×8、4×M和/或M×4的变换块,左上潜在非零LFNST系数区域包括沿着系数扫描顺序的前8个系数位置。对于所有其他尺寸的变换块,左上潜在非零LFNST系数区域包括左上4×4子块中的系数位置。在本公开的以下描述中,为简便描述,这种潜在非零LFNST系数区域被称作“非零LFNST区域”。
在一些实施例中,总共存在四个变换集,其中每个变换集启用两个不可分变换核。根据一个帧内块的帧内预测模式来选择变换集。从帧内预测模式到变换集的映射被预定义如下表1所示。对于每个变换集,通过在视频比特流中用信号发送一个LFNST索引来指示所选择的不可分二次变换候选。
帧内预测模式 | 集 |
IntraPredMode<0 | 1 |
0<=帧内预测模式<=1 | 0 |
2<=帧内预测模式<=12 | 1 |
13<=帧内预测模式<=23 | 2 |
24<=帧内预测模式<=44 | 3 |
45<=帧内预测模式<=55 | 2 |
56<=帧内预测模式<=80 | 1 |
81<=帧内预测模式<=83 | 0 |
表1帧内模式与LFNST变换集之间的映射
在一些实施例中,仅当给定变换块的第一4×4子块之外的所有变换系数为零时,LFNST索引可用于在视频解码器处进行解析。用信号发送LFNST索引取决于最后有效系数的位置,其指示变换块中的非零系数的数量。例如,对于4×4编码块和8×8编码块,仅当最后有效(即,非零)变换系数的位置小于8时才用信号发送LFNST索引;对于其他编码块尺寸,仅当最后有效变换系数的位置小于16时才用信号发送LFNST索引;否则,不用信号发送LFNST索引,并且始终将LFNST索引推断为零,即,禁用LFNST。在一些其他实施例中,针对LFNST索引设置最小阈值(例如,1),使得当非零变换系数的总数等于或小于最小阈值时,不用信号发送LFNST索引。
此外,为了减小变换系数的高速缓存缓冲器大小,在当前编码块的宽度或高度大于如用信号发送的序列参数集(SPS)中的最大变换尺寸(例如,64)时,禁用LFNST。在一些实施例中,仅当首次变换是DCT 2时应用LFNST。将LFNST应用于帧内条带和帧间条带两者中的帧内编码块,并且应用于亮度分量和色度分量两者。如果启用双树/局部树(即,分离树)(其中亮度分量和色度分量的分区未对齐),则针对亮度分量和色度分量分别用信号发送LFNST索引(即,亮度分量和色度分量可应用不同的LFNST变换)。否则,当应用单树时(其中亮度分量和色度分量的分区对齐),用信号发送单个LFNST索引,并且亮度分量和色度分量共享一个相同的LFNST变换。
图6是示出根据本公开的一些实施方式的具有非零变换系数的示例性变换块600的框图。变换块600包括与变换块600的左上网格部分对应的第一区域602和由变换块600的虚线部分表示的第二区域604。第一区域602变换块600中具有预定义尺寸(例如,左上方16×16区域),并且包括一个或多个非零变换系数(例如,第一非零系数606、第二非零系数608和第三非零系数610)。第二区域604是第一区域602外部的区域,其可以包括或可以不包括一个或多个非零变换系数。
在当前VVC中,用信号发送LFNST索引取决于CU中的所有分量的解码变换系数的可用性。因为在应用LFNST之后,超出非零LFNST区域的所有变换系数被强制为零,所以用信号发送LFNST是以CU中的三个分量的最后非零系数的位置为条件。具体来说,对于4×4CU和8×8CU,仅在所有分量(其将变换应用于残差编解码,即,非变换跳过分量)的最后非零系数的位置小于8时才用信号发送LFNST索引;对于其他CU尺寸,仅在所有非变换跳过分量的最后非零系数的位置小于16时才用信号发送LFNST索引。这种解析依赖性可能导致硬件编码器和解码器的不期望的延迟。例如,通过这种设计,在一个TU中的色度残差的解析完成之前,不能开始亮度分量的解码。
在一些实施例中,提出了一种简化的LFNST信令方法以去除LFNST索引对一个CU中的亮度TB和色度TB两者的变换系数的可用性的解析依赖性。由于去除了解析相依性,解码器可及时获得关于LFNST是否被应用于一个当前CU的信息,使得可基于潜在非零系数的对应数量来计算准确的CCB限制。
如前所述,LFNST在一个帧内CU的末尾处被用信号发送,并且用信号发送LFNST索引取决于所有编码分量的最后有效系数的位置。例如,由于应用于LFNST的归零约束,仅在编码分量的最后非零系数的位置在对应归零区域外部时用信号发送LFNST索引。为了解决这个问题,LFNST信令仅以亮度分量的最后有效系数的位置为条件,如下文语法表中所示。
如上面的语法表所示,在单树情况下,在所提出的方法中,LFNST信令仅以亮度分量的最后有效系数的位置为条件。例如,对于4×4编码块和8×8编码块,仅当最后亮度有效变换系数的位置小于8时才用信号发送LFNST索引;对于其他编码块尺寸,仅在最后亮度有效变换系数的位置小于16时才用信号发送LFNST索引。在分离树的情况下,针对亮度分量和色度分量分别用信号发送LFNST索引。另外,应用原始仅DC约束,使得仅在最后亮度有效系数的位置等于或大于1时用信号发送LFNST索引。
如上文所提及的,可使用单树或两个分离树对编码块的亮度样点和色度样点进行分割。该特征可能影响用信号发送LFNST索引。例如,当编码块的亮度样点和色度样点被单树分割时,仅与亮度样点对应的变换系数适合于LFNST,而色度样点不适合于LFNST。在这种情况下,不需要在接收LFNST索引之前验证与编码块的任何色度样点对应的最后非零系数的位置。实际上,仅编码块的亮度样点所对应的最后非零系数的位置与确定是否已针对编码块启用LFNST相关。但当编码块的亮度样点和色度样点被两个分离树分割时,将LFNST单独地应用于亮度样点和色度样点,亮度样点和色度样点各自具有其自己的LFNST索引。
图7是示出根据本公开的一些实施方式的视频编解码器(例如,视频解码器30)实施基于变换块的不同分量有条件地用信号发送LFNST的技术的示例性过程的流程图700。
视频解码器30接收(710)与编码块或多个编码块相关联的控制标志。此控制标志指示视频数据中的编码块的亮度样点和色度样点是基于单树还是两个分离树被分割。视频解码器还接收(720)与编码块对应的比特流,其可包括与编码块的不同分量相关联的变换系数。
接下来,视频解码器30基于控制标志确定编码块的分割树类型。当控制标志指示亮度样点和色度样点被单树分割(730-1)时,视频解码器30确定(740-1)针对编码块的亮度样点的最后非零变换系数的扫描顺序索引。如上文所提及的,单树分割意味着仅编码块的亮度样点适用于LFNST。当最后非零变换系数的扫描顺序索引满足预定义标准(750-1)时,视频解码器然后从比特流接收(760-1)LFNST索引,并基于LFNST索引将逆LFNST变换应用(770-1)于编码块的亮度样点的变换系数。
当控制标志指示亮度样点和色度样点被两个分离树分割(730-2)时,视频解码器30分别确定(740-2)针对编码块的亮度样点和色度样点的最后非零变换系数的扫描顺序索引。如上所述,亮度分量和色度分量分别通过LFNST处理。例如,当与亮度样点或色度样点对应的最后非零变换系数的扫描顺序索引中的相应一个扫描顺序索引满足预定义标准(750-2)时,视频解码器然后从比特流接收(760-2)与该分量对应的LFNST索引,并基于对应的LFNST索引将相应的逆LFNST变换应用(770-2)于编码块的对应分量的变换系数。
在一些实施例中,在将逆LFNST变换应用于编码块的亮度样点或色度样点的变换系数之前,视频解码器30首先确定LFNST索引的值,然后在对应的LFNST索引为非零时基于对应的LFNST索引来识别LFNST变换核。如上文所提及,视频编解码器可存取多个LFNST变换核,并且视频编码器20选择这多个LFNST变换核之一用于对编码块执行LFNST,并且在视频数据中用信号发送所选择的LFNST变换核的索引。视频解码器30然后从视频数据接收LFNST索引,然后使用所识别的LFNST变换核对编码块的对应样点的变换系数进行逆变换。
在一些实施例中,当最后非零变换系数的扫描顺序索引不小于与编码块相关联的最小阈值并且小于与编码块相关联的最大阈值时,满足上述预定义标准。例如,最小阈值是1,而最大阈值取决于编码块的尺寸,诸如对于4×4编码块或8×8编码块,最大阈值是8,或者对于其他编码块尺寸,最大阈值是16。与MTS类似,逆LFNST变换被应用于与编码块对应的变换块的左上区域内的非零变换系数,并且扫描顺序是对角线扫描顺序。
在一个或多个示例中,所描述的功能可以以硬件、软件、固件或其任何组合实施。如果以软件实施,则功能可作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输,并且由基于硬件的处理单元执行。计算机可读介质可包括计算机可读存储介质,其对应于诸如数据存储介质的有形介质,或对应于包括促进将计算机程序从一处传送到另一处(例如,根据通信协议)的任何介质的通信介质。以此方式,计算机可读介质通常可对应于(1)非易失性的有形计算机可读存储介质、或(2)通信介质,诸如信号或载波。数据存储介质可以是可由一个或多个计算机或一个或多个处理器访问以取回用于实现本申请中描述的实现方式的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包括计算机可读介质。
在本文的实施方式的描述中使用的术语仅用于描述特定实施方式的目的,并不旨在限制权利要求的范围。如在实施方式的描述和所附权利要求中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还将理解,如本文使用的术语“和/或”是指并且涵盖相关联的所列项目中的一个或多个的任何和所有可能的组合。将进一步理解,术语“包括”和/或“包括…的”当在本说明书中使用时,指定存在所陈述的特征、元件和/或组件,但不排除存在或添加一个或多个其他特征、元件、组件和/或其群组。
还将被理解,尽管本文可使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。例如,在不脱离实施方式的范围的情况下,第一电极可被称为第二电极,并且类似地,第二电极可被称为第一电极。第一电极和第二电极都是电极,但它们不是相同的电极。
本申请的描述已经出于说明和描述的目的被呈现,并且不旨在穷举或限于所公开的形式的发明。受益于在前面的描述和相关联的附图中呈现的教导,许多修改、变化和替代实施方式对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理、实际应用,并且使本领域的其他技术人员能够理解本发明的各种实施方式,并且最好地利用基本原理和具有适合于预期的特定用途的各种修改的各种实施方式。因此,将理解,权利要求的范围不限于所公开的实施方式的具体示例,并且修改和其他实施方式旨在被包括在所附权利要求的范围内。
Claims (9)
1.一种对视频数据进行解码的方法,所述方法包括:
接收控制标志,其中所述控制标志指示所述视频数据中的编码块的亮度样点和色度样点是基于单树还是两个分离树被分割;
接收与所述编码块对应的比特流;
根据所确定的所述亮度样点和所述色度样点被单树分割:
确定针对所述编码块的所述亮度样点的最后非零变换系数的扫描顺序索引;
根据所确定的所述最后非零变换系数的扫描顺序索引满足预定义标准:
从所述比特流接收低频不可分变换LFNST索引;并且
基于所述LFNST索引,将逆LFNST变换应用于所述编码块的所述亮度样点的变换系数;
根据所确定的所述亮度样点和所述色度样点被两个分离树分割:
分别确定针对所述编码块的所述亮度样点和所述色度样点的最后非零变换系数的扫描顺序索引;
根据所确定的所述最后非零变换系数的所述扫描顺序索引中的相应一个扫描顺序索引满足所述预定义标准:
从所述比特流接收对应的LFNST索引;并且
基于所述对应的LFNST索引,将相应的逆LFNST变换应用于所述编码块的对应样点的变换系数。
2.根据权利要求1所述的方法,其中基于所述对应的LFNST索引,将相应的逆LFNST变换应用于所述编码块的对应样点的变换系数,还包括:
根据所确定的所述LFNST索引为非零:
基于所述对应的LFNST索引识别LFNST变换核;并且
使用所识别的LFNST变换核,对所述编码块的所述对应样点的所述变换系数进行逆变换。
3.根据权利要求1所述的方法,其中当所述最后非零变换系数的扫描顺序索引不小于与所述编码块相关联的最小阈值且小于与所述编码块相关联的最大阈值时,满足所述预定义标准。
4.根据权利要求3所述的方法,其中所述最小阈值为1,所述最大阈值取决于所述编码块的尺寸。
5.根据权利要求4所述的方法,其中对于4×4编码块或8×8编码块,所述最大阈值为8,或者,对于其他编码块尺寸,所述最大阈值为16。
6.根据权利要求1所述的方法,其中所述逆LFNST变换被应用于与所述编码块对应的变换块的左上区域内的非零变换系数。
7.根据权利要求1所述的方法,其中所述扫描顺序是对角线扫描顺序。
8.一种电子装置,包括:
一个或多个处理单元;
被耦接到所述一个或多个处理单元的存储器;以及
被存储在所述存储器中的多个程序,所述多个程序在由所述一个或多个处理单元执行时,使所述电子装置执行如权利要求1至7中的任一项所述的方法。
9.一种非易失性计算机可读存储介质,存储用于由具有一个或多个处理单元的电子装置执行的多个程序,其中所述多个程序在由所述一个或多个处理单元执行时使所述电子装置执行如权利要求1至7中的任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062966871P | 2020-01-28 | 2020-01-28 | |
US62/966,871 | 2020-01-28 | ||
PCT/US2021/015504 WO2021155005A1 (en) | 2020-01-28 | 2021-01-28 | Methods and apparatus on transform and coefficient signaling |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115004706A CN115004706A (zh) | 2022-09-02 |
CN115004706B true CN115004706B (zh) | 2024-06-04 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110622511A (zh) * | 2017-04-13 | 2019-12-27 | Lg 电子株式会社 | 图像编码/解码方法及其设备 |
CN110636313A (zh) * | 2019-09-18 | 2019-12-31 | 浙江大华技术股份有限公司 | 变换、二次变换矩阵训练方法、编码器及相关装置 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110622511A (zh) * | 2017-04-13 | 2019-12-27 | Lg 电子株式会社 | 图像编码/解码方法及其设备 |
CN110636313A (zh) * | 2019-09-18 | 2019-12-31 | 浙江大华技术股份有限公司 | 变换、二次变换矩阵训练方法、编码器及相关装置 |
Non-Patent Citations (1)
Title |
---|
高效视频编码;沈燕飞;李锦涛;朱珍民;张勇东;;计算机学报;20131115(11);全文 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116193131B (zh) | 一种用于视频编码的方法、电子装置及存储介质 | |
US20220030228A1 (en) | Methods and apparatus of video coding using improved matrix-based intra prediction coding mode | |
US20220174301A1 (en) | Methods and apparatus of video coding using palette mode | |
CN114567786B (zh) | 以4:4:4色度格式进行视频编解码的方法和装置 | |
US11985311B2 (en) | Prediction mode signaling in video coding | |
US20220086464A1 (en) | Methods and apparatus of segment-based video coding using palette mode | |
CN115802061B (zh) | 对视频数据进行编码的方法、电子装置和存储介质 | |
WO2021155005A1 (en) | Methods and apparatus on transform and coefficient signaling | |
CN115004706B (zh) | 关于变换和系数信令的方法和装置 | |
CN118075461A (zh) | 一种视频解码的方法、装置和介质 | |
WO2020214899A1 (en) | Supplemental enhancement information message for embedded image | |
US20220030259A1 (en) | Methods and apparatus of video coding using palette mode | |
US20220329817A1 (en) | In-loop filters for video coding | |
WO2021062017A1 (en) | Methods and apparatus of performing rate-distortion analysis for palette mode | |
CN114026873A (zh) | 用于视频编解码中预测简化的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |