CN116018805A - 用于视频编码的karhunen loeve变换 - Google Patents

用于视频编码的karhunen loeve变换 Download PDF

Info

Publication number
CN116018805A
CN116018805A CN202180054068.6A CN202180054068A CN116018805A CN 116018805 A CN116018805 A CN 116018805A CN 202180054068 A CN202180054068 A CN 202180054068A CN 116018805 A CN116018805 A CN 116018805A
Authority
CN
China
Prior art keywords
transform
block
klt
residual
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180054068.6A
Other languages
English (en)
Inventor
K·纳赛尔
F·莱莱昂内克
F·加尔平
T·杜马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Interactive Digital Vc Holdings France Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Digital Vc Holdings France Ltd filed Critical Interactive Digital Vc Holdings France Ltd
Publication of CN116018805A publication Critical patent/CN116018805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

在一个具体实施中,在编码或解码过程期间导出KLT变换矩阵。具体地,可针对主变换阶段或二次变换阶段或两者导出KLT变换矩阵。因为这些KLT变换矩阵可在编码器侧和解码器侧两者处导出,所以不需要在比特流中用信号通知这些KLT变换矩阵。为了针对要编码或解码的当前块导出KLT变换矩阵,定义该当前块的模板,并且使用该模板在重构区域中搜索具有与该当前模板类似的模板的多个块。使用这些多个块来训练该KLT变换矩阵。

Description

用于视频编码的KARHUNEN LOEVE变换
技术领域
本发明实施方案整体涉及一种用于使用Karhunen Loeve变换(KLT)进行视频编码或解码的方法和装置。
背景技术
为了实现高压缩效率,图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用图像内或图像间相关性,然后对在原始块与预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。
发明内容
根据实施方案,提供了一种视频编码方法,包括:获得当前块的预测块和残差块;基于多个相应相邻块和所述当前块来获得多个残差块;将主变换应用于所述多个残差块以获得多个相应的经变换的残差块;基于所述多个经变换的残差块来获得KLT变换矩阵;将所述主变换应用于所述当前块的所述残差块,以获得当前经变换的残差块;以及将所述KLT变换矩阵作为二次变换应用于所述当前经变换的残差块。
根据另一个实施方案,提供了一种视频编码方法,包括:获得当前块的预测块和变换系数;基于多个相应相邻块和所述当前块来获得多个残差块;将主变换应用于所述多个残差块以获得多个相应的经变换的残差块;基于所述多个经变换的残差块来获得KLT变换矩阵;将所述KLT变换矩阵作为逆二次变换应用于所述当前块的所述变换系数,以获得当前经逆二次变换的块;以及将所述主变换的逆变换应用于所述当前经逆二次变换的块。
根据另一个实施方案,提供了一种视频编码方法,包括:对指示将使用KLT变换来对块的残差进行变换的信号进行编码;以及针对所述块禁用一个或多个其他变换类型。
根据另一个实施方案,提供了一种视频解码方法,包括:对指示将使用KLT变换进行逆变换以重构块的残差的信号进行解码;以及推断出针对所述块禁用了一个或多个其他变换类型。
一个或多个实施方案还提供了一种计算机程序,该计算机程序包括指令,这些指令在由一个或多个处理器执行时使该一个或多个处理器执行根据本文所述的任一实施方案所述的编码方法或解码方法。本发明实施方案中的一个或多个实施方案还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有用于根据本文所述的方法对视频数据进行编码或解码的指令。一个或多个实施方案还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有根据本文所述方法生成的比特流。一个或多个实施方案还提供了一种用于发射或接收比特流的方法和装置,所述比特流根据本文所述的方法生成。
附图说明
图1示出了可实现本发明实施方案各方面的系统的框图。
图2示出了视频编码器的实施方案的框图。
图3示出了视频解码器的实施方案的框图。
图4示出了在JEM(联合探索模型)7.0中的KLT推导中使用的模板。
图5示出了JEM 7.0中的KLT推导过程。
图6示出了根据实施方案的用于推导KLT二次变换矩阵的方法。
图7示出了正二次变换和逆二次变换。
图8示出了根据实施方案的用于在编码器侧推导KLT主变换矩阵和KLT二次变换矩阵的方法。
图9示出了根据实施方案的用于在解码器侧推导KLT主变换矩阵和KLT二次变换矩阵的方法。
具体实施方式
图1示出了可实现各种方面和实施方案的系统的示例性框图。系统100可体现为一种设备,该设备包括下文所述的各种部件,并且被配置为执行本申请所述各方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,例如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统100的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统100的处理和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中,系统100经由例如通信总线或通过专用输入和/或输出端口通信耦合到其他系统或其他电子设备。在各种实施方案中,系统100被配置为实现本申请所述的一个或多个方面。
系统100包括至少一个处理器110,该至少一个处理器被配置为执行加载到其中的指令,以用于实现例如本申请所述的各个方面。处理器110可包括嵌入式存储器、输入输出接口和如本领域已知的各种其他电路。系统100包括至少一个存储器120(例如,易失性存储器设备和/或非易失性存储器设备)。系统100包括存储设备140,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备140可包括内部存储设备、附接存储设备和/或网络可访问的存储设备。
系统100包括编码器/解码器模块130,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块130可包括其自身的处理器和存储器。编码器/解码器模块130表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。另外,编码器/解码器模块130可被实现为系统100的独立元件,或可被结合在处理器110内作为本领域技术人员已知的硬件和软件的组合。
要加载到处理器110或编码器/解码器130上以执行本申请中所述的各个方面的程序代码可存储在存储设备140中,并且随后加载到存储器120上以供处理器110执行。根据各种实施方案,处理器110、存储器120、存储设备140和编码器/解码器模块130中的一者或多者可在本申请中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码视频或解码视频的部分、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在若干实施方案中,处理器110和/或编码器/解码器模块130内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间需要的处理。然而,在其他实施方案中,在处理设备外部的存储器(例如,处理设备可以是处理器110或编码器/解码器模块130)用于这些功能中的一个或多个功能。外部存储器可以是存储器120和/或存储设备140,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中,例如RAM的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器,例如用于MPEG-2、HEVC或VVC。
如框105中所指示,可通过各种输入设备提供对系统100的元件的输入。此类输入设备包括但不限于:(i)接收例如由广播器通过无线电发射的RF信号的RF部分;(ii)复合输入端子;(iii)USB输入端子和/或(iv)HDMI输入端子。
在各种实施方案中,框105的输入设备具有本领域已知的相关联的相应输入处理元件。例如,RF部分可与适于以下项的元件相关联:(i)选择期望的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调经下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择期望的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包含执行这些功能中的各种功能的调谐器,这些功能包含例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至期望的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模拟-数字转换器。在各种实施方案中,RF部分包括天线。
另外,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统100连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如,Reed-Solomon纠错)的各个方面可根据需要在例如单独的输入处理IC内或在处理器110内实现。类似地,USB或HDMI接口处理的各方面可根据需要在单独的接口IC内或在处理器110内实现。经解调、纠错和解复用的流被提供给各种处理元件,包括例如处理器110和编码器/解码器130,该编码器/解码器与存储器和存储元件结合操作以根据需要处理数据流以供在输出设备上呈现。
系统100的各种元件可设置在集成外壳内。在集成外壳内,各种元件可使用合适的连接布置115(例如,本领域已知的内部总线,包括I2C总线、布线和印刷电路板)进行互连并在其间发射数据。
系统100包括能够经由通信信道190与其他设备通信的通信接口150。通信接口150可包括但不限于被配置为通过通信信道190发射和接收数据的收发器。通信接口150可包括但不限于调制解调器或网卡,并且通信信道190可在例如有线和/或无线介质内实施。
在各种实施方案中,使用如IEEE 802.11等Wi-Fi网络将数据流式传输到系统100。这些实施方案中的Wi-Fi信号通过适用于Wi-Fi通信的通信信道190和通信接口150进行接收。这些实施方案中的通信信道190通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以允许流式应用和其他OTT通信。其他实施方案使用机顶盒向系统100提供流传输数据,该机顶盒通过输入框105的HDMI连接来递送数据。其他实施方案使用输入框105的RF连接向系统100提供流传输数据。
系统100可向各种输出设备(包括显示器165、扬声器175和其他外围设备185)提供输出信号。在实施方案的各种示例中,其他外围设备185包括以下中的一者或多者:独立DVR、磁盘播放器、立体音响系统、照明系统和基于系统100的输出提供功能的其他设备。在各种实施方案中,控制信号通过信令(如AV.Link、CEC或其他通信协议)在系统100与显示器165、扬声器175或其他外围设备185之间传送,该通信协议能够在有或没有用户干预的情况下实现设备到设备控制。这些输出设备可通过相应的接口160、170和180经由专用连接通信地耦接到系统100。另选地,输出设备可使用通信信道190经由通信接口150连接到系统100。显示器165和扬声器175可与电子设备(例如,电视机)中的系统100的其他部件集成在单个单元中。在各种实施方案中,显示器接口160包括显示器驱动器,例如,定时控制器(T Con)芯片。
另选地,例如,如果输入105的RF部分是单独机顶盒的一部分,则显示器165和扬声器175可与其他部件中的一个或多个部件分开。在显示器165和扬声器175为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)来提供。
图2示出了示例性视频编码器200,如高效视频编码(HEVC)编码器。图2还可以示出对HEVC标准进行改进的编码器或采用类似于HEVC的技术的编码器,如通过联合视频探索团队(JVET)开发的多功能视频编码(VVC)编码器。
在本申请中,术语“重构”和“解码”可以互换使用,术语“经编码”或“编码”可以互换使用,属于“像素”或“样本”可以互换使用,并且术语“图像”、“图片”和“帧”可以互换使用。通常,但不必然,术语“重构”在编码端使用,而“解码”在解码端使用。
在进行编码之前,视频序列可经过预编码处理(201),例如,将颜色变换应用于输入的彩色图片(例如,从RGB 4:4:4转换到YCbCr 4:2:0),或执行输入图片分量的重新映射,以便获取更能弹性应对压缩的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附加到比特流。
如下所述,在编码器200中,图片由编码器元件进行编码。在例如CU的单元中对要编码的图片进行分区(202)和处理。例如,使用帧内模式或帧间模式对每个单元进行编码。当以帧内模式对单元进行编码时,该单元执行帧内预测(260)。在帧间模式中,执行运动估计(275)和补偿(270)。编码器决定(205)使用帧内模式或帧间模式中的哪一者对单元进行编码,并通过例如预测模式标志来指示帧内/帧间决策。例如,通过从初始图像块减去(210)预测块来计算预测残差。
然后,对预测残差进行变换(225)和量化(230)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(245)以输出比特流。该编码器可跳过变换,并对未变换的残差信号直接应用量化。该编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。
该编码器对编码块进行解码以提供进一步预测的参考。对经量化的变换系数进行去量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测块,重构图像块。将环路滤波器(265)应用于重构图片以执行例如去块/样本自适应偏移(SAO)滤波,从而减少编码伪影。经滤波的图像存储在参考图片缓冲器(280)中。
图3示出了示例性视频解码器300的框图。在解码器300中,比特流由解码器元件进行解码,如下所述。视频解码器300一般执行与如图2中所述的编码过程相反的解码过程。编码器200通常还执行视频解码作为对视频数据进行编码的一部分。
具体地,解码器的输入包括视频比特流,该视频比特流可以由视频编码器200生成。首先,对比特流进行熵解码(330)以获得变换系数、运动向量和其他编码信息。图片分区信息指示如何对图片进行分区。因此,解码器可根据经解码的图片分区信息来划分(335)图片。对变换系数进行去量化(340)和逆变换(350)以对预测残差进行解码。组合(355)经解码的预测残差和预测块,重构图像块。可以通过帧内预测(360)或运动补偿预测(即帧间预测)(375)来获得(370)预测块。将环路滤波器(365)应用于重构图像。将经滤波的图像存储在参考图片缓冲器中(380)。
经解码的图片还可经过解码后处理(385),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码过程(201)中执行的重新映射的逆过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中有信号通知的元数据。
变换编码是视频压缩的基本部分。其目的在于提供经历量化和二进制编码的残差块的缩压表示。传统上,DCT-II一直被用作核心变换。然而,多功能视频编码(VVC)配备有多种变换(DCT-VIII和DST-VII),其中这些变换的组合可用于对块进行变换。该技术称为多变换选择(MTS)。
经变换的系数还可利用应用于低频部分的不可分离变换来进一步变换。这被称为低频不可分离变换(LFNST)。该变换阶段的主要思想是进一步去除未被可分离的二维第一级变换(DCT-II和MTS)捕获的信号冗余。通过使用主成分分析最小化变换系数之间的相关性,从离线训练导出变换矩阵。
在VVC开发过程中,在联合探索测试模型7.0(JEM)中引入KLT。KLT是一种附加的变换编码方法,其中在编码过程期间通过访问重构的样本并计算残差块的协方差矩阵来导出变换矩阵。该矩阵的特征向量被认为是变换矩阵。这种变换模式可伴随有称为模板匹配预测(TPM)的附加的预测模式,其中通过在当前图像的重构的部分内找到具有类似L形邻域的块(称为模板)来生成预测信号。
本申请提议将KLT用于例如VVC编解码器,其中可在编码或解码过程期间导出变换矩阵。与JEM模型不同,本文档提议针对主变换阶段或二次变换阶段或两者导出矩阵。这是为了提高后VVC编解码器的编码增益。
KLT在JEM 7.0中实现。推导过程如图4和图5所示那样进行。对于当前块C(410),当前模板(tcurr,420)被定义(510)为当前块的L形邻居(上和左)的重构像素的集合。一般来讲,模板可采用不同的形状并且包括不同数量的样本。当前模板被用于搜索(520)当前图像的整个重构部分以找到N个相似模板(430,440,450)。分别被N个模板包围的命名为目标块(xi,i=1,2,…,N)的N个块(460,470,480)被认为与当前块相似。这里,xi=(xi1,xi2,…,xiD)T和D指示为变换块大小的向量尺寸。例如,对于4x8变换块,D对于水平尺寸为4且对于垂直尺寸为8。目标块的统计值被假设为类似于当前块的统计值。预测块可通过基于目标块的平均值的模板匹配预测或通过常规帧内预测(角度、DC或平面预测)来生成(530)。通过从特定目标块(获得的重构图像)减去当前预测块来生成(540)特定目标块的残差ui,i=1,2,…,N,其中
Figure BDA0004104016190000081
然后,这些残差块被用作具有零均值的训练样本进行KLT推导。这N个训练样本可由下式表示:U=(u1,u2,…,uN),其为D×N矩阵。考虑如下给出的协方差矩阵Σ:
∑=UUT
其中该协方差矩阵的尺寸是D×D。KLT基(T)则是该协方差矩阵的特征向量(550)。
具体地,首先,计算在水平和垂直两个方向上的系数之间的协方差矩阵。然后,在将水平和垂直协方差矩阵的特征向量适当缩放以便由固定比特深度内的整数变量表示之后,使用(550)水平和垂直协方差矩阵的特征向量作为水平和垂直尺寸的变换矩阵。应用(560)KLT以变换当前块。对于编码器或解码器处的逆变换,导出的KLT变换的转置TT被用作变换基础。因为KLT变换矩阵可在编码器侧和解码器侧导出,所以不需要在比特流中用信号通知KLT变换矩阵。
JEM中的KLT限于主变换阶段,其中没有用于训练二次变换(类似LFNST的变换)的机制可用。此外,矩阵加权帧内预测(MIP)、帧内子分区(ISP)和多参考线预测(MRL)的新预测工具不能启用KLT。
KLT标志的信令
在JEM 7.0中,KLT与TPM耦接。即,用信号通知单个标志以指示TMP和KLT两者的使用。然而,看起来更符合逻辑的是具有在与其他变换相关标志相同的级别下用信号通知的用于KLT的单独标志。具体地,在编码单元语法的末尾处用信号通知MTS和LFNST的索引。因此,提议在该级别下用信号通知KLT的使用,使得当用信号通知KLT时,MTS和LFNST标志两者不用信号通知并且被推断为零。
对应的变化是(添加的部分加了下划线):
Figure BDA0004104016190000091
Figure BDA0004104016190000101
cu_klt_flag是指示KLT的使用的标志。当它等于一时,解码器搜索与当前模板相似的模板,并且计算目标块的经计算的残差的协方差矩阵(水平尺寸和垂直尺寸)。变换矩阵可例如通过特征向量分解来计算,与JEM中相同。当cu_klt_flag等于一时,不需要用信号通知mts_idx或lfnst_idx,因为这两者都没有被使用。这是因为主变换仅具有单个选项:KLT,并且针对该模式停用二次变换,因为变换矩阵未针对这种类型的主变换类型进行训练。
应当指出的是,利用这种类型的信令,允许KLT用于所有帧内预测类型:MIP、ISP和MRL,以及帧间预测。也可允许KLT用于色度部分。这将变换类型与预测类型完全脱离。即,无论执行MIP、TMP、ISP、MRL还是常规预测,都可使用KLT。这是因为在变换单元级别下的信令的使用独立于预测类型的信令。
为了降低复杂度,KLT可仅限于亮度部分和/或帧内部分。此外,可添加SPS标志以控制该模式的可用性。最后,可允许KLT达到一定的CU大小。对应的信令如下,其中sps_klt_enabled_flag是用于控制KLT的使用的SPS标志,并且MaxKltSizeY是允许KLT达到的最大大小。
Figure BDA0004104016190000111
Figure BDA0004104016190000121
KLT用于二次变换
学习二次变换可比学习主变换简单。这是因为二次变换仅应用于低频系数。即,将二次变换应用于左上16×16系数或左上48×16系数。
图6示出了根据实施方案的用于推导二次变换的方法600。在该实施方案中,用于学习二次变换的方法遵循用于主变换的相同方法(500),不同之处在于,不是使用残差信号来计算协方差矩阵,而是使用具有主变换的经变换的残差。例如,DCT-II可用于主变换,如VVC中所进行的。
对于当前块,将当前模板定义(610)为当前块的L形邻居(上和左)的重构像素的集合。然后,当前模板被用于搜索(620)当前图像的整个重构部分以找到N个相似模板。通过从目标块(获得的具有相似模板的重构图像)中减去当前预测块来生成(630)目标块的残差。利用DCT-II对特定目标块的残差进行变换,以获得(640)特定目标块的经变换的残差块(tri)。基于N个经变换的残差块的集合,首先通过计算协方差矩阵,并且然后将协方差矩阵的特征向量用作变换矩阵,来导出(650)KLT(V)。可基于主变换系数的全部或子集来导出KLT。在一个示例中,为了与LFNST相似,我们可将4x4左上系数用于小块并且将三个4x4左上系数用于大块(46×16的LFNST)。其他方法诸如基于图的推导可用于推导KLT变换基础。
在步骤660处,将主变换(DCT-II)应用于当前块以获得当前经变换的残差块。在步骤670处,将KLT二次变换应用于当前经变换的残差块。
如图7所示,在(编码器侧的)正主变换和量化之间以及在(解码器侧的)去量化和逆主变换之间应用二次变换。通过使用二次变换来修改来自主变换的那些系数的子集。在正二次变换中应用KLT二次变换(V),并且在逆二次变换中使用KLT二次变换的转置VT
类似于前一实施方案,LFNST和MTS索引将不用信号通知。
KLT用于主变换和二次变换两者
图8示出了根据实施方案的用于推导主变换和二次变换两者的KLT的方法(800)。在该实施方案中,可针对主变换和二次变换两者执行KLT。即,首先学习主变换并将其用于学习二次变换。这是为了完全使用图片统计值来实现最大比特率节省。
主变换训练类似于方法500:
ο对于当前块,将当前模板定义(810)为当前块的L形邻居(上和左)的重构像素的集合。模板通常应当包含重构的样本并且在解码器侧是可用的,并且可采取除L形之外的另一形状。
ο搜索(820)当前图像的整个重构部分以找到N个相似模板。
ο通过从目标块(获得的具有相似模板的重构图像)中减去当前预测块来生成(840)目标块的残差。需注意,预测块不一定使用(830)模板匹配预测模式。
ο基于N个残差块的集合,首先通过计算水平方向和垂直方向两者上的系数之间的协方差矩阵,并且然后将水平和垂直协方差矩阵的特征向量用作水平和垂直尺寸的变换矩阵,来导出(850)KLT。
二次变换训练使用来自主变换的结果:
ο利用从主变换训练获得的二维KLT变换对从目标块获得的残差进行变换(860),以获得经变换的残差块。
ο基于N个经残差变换的块的集合,首先通过计算协方差矩阵,并且然后在将协方差矩阵的特征向量适当缩放以便由给定比特深度内的整数变量表示之后,将协方差矩阵的特征向量用作变换矩阵,来导出(870)KLT。
ο通过KLT主变换来变换(880)当前块的残差,以获得当前经变换的残差块。
ο将KLT二次变换应用(890)于当前经变换的残差块。然后对变换系数进行量化和熵编码。
图9示出了根据实施方案的用于在解码器处推导主变换和二次变换两者的KLT的方法(900)。步骤910-970与方法800中的步骤810-870相同。在KLT变换和KLT二次变换导出之后,在步骤980处,对当前经变换的残差块应用逆KLT二次变换,并且在步骤990处,对来自步骤980的结果应用逆KLT变换以获得重构的残差块。
本文描述了各种方法,并且每种方法包括用于实现方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。另外,术语例如“第一”、“第二”等可用于各种实施方案以修改元件、部件、步骤、操作等,例如“第一解码”和“第二解码”。除非特定需要,否则使用此类术语并不暗示对修改操作的排序。因此,在这个示例中,第一解码不需要在第二解码之前执行,并且可例如在第二解码之前、期间或重叠的时间段发生。
本专利申请中所述的各种方法和其他方面可用于修改模块,例如,如图2和图3所示的视频编码器200和解码器300的变换和逆变换模块(225、240、350)。此外,本发明方面不限于VVC或HEVC,并且可应用于例如其他标准和推荐以及任何此类标准和推荐的扩展。除非另外指明或技术上排除在外,否则本申请中所述的方面可单独或组合使用。
在本申请中使用各种数值。具体值是为了示例目的,并且所述方面不限于这些具体值。
各种具体实施参与解码。如本申请中所用,“解码”可涵盖例如对所接收的编码序列执行以便产生适于显示的最终输出的全部或部分过程。在各种实施方案中,此类过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
各种具体实施参与编码。以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(例如,处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、(例如,从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如(例如,从存储器)访问信息或检索信息中的一者或多者。此外,在例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,该编码器发信号通知用于去量化的量化矩阵。这样,在一个实施方案中,在编码器侧和解码器侧两者均使用相同的参数。因此,例如,编码器可将特定参数发射(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他,则可在不发射(隐式信令)的情况下使用信令,以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能,在各种实施方案中实现了比特节省。应当理解,信令可以各种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标志等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带该实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

Claims (23)

1.一种用于视频编码的方法,所述方法包括:
获得当前块的预测块和残差块;
基于多个相应相邻块和所述当前块来获得多个残差块;
将主变换应用于所述多个残差块,以获得多个相应的经变换的残差块;
基于所述多个经变换的残差块来获得KLT变换矩阵;
将所述主变换应用于所述当前块的所述残差块,以获得当前经变换的残差块;以及
将所述KLT变换矩阵作为二次变换应用于所述当前经变换的残差块。
2.一种用于视频解码的方法,所述方法包括:
获得当前块的预测块和变换系数;
基于多个相应相邻块和所述当前块来获得多个残差块;
将主变换应用于所述多个残差块,以获得多个相应的经变换的残差块;
基于所述多个经变换的残差块来获得KLT变换矩阵;
将所述KLT变换矩阵作为逆二次变换应用于所述当前块的所述变换系数,以获得当前经逆二次变换的块;以及
将所述主变换的逆变换应用于所述当前经逆二次变换的块,以重构所述当前块的残差块。
3.根据权利要求1或2所述的方法,其中所述主变换是DCT-II。
4.根据权利要求1或2所述的方法,其中所述主变换是另一种KLT变换。
5.一种用于视频编码的方法,所述方法包括:
对指示要使用KLT变换来对块的残差进行变换的信号进行编码;以及
针对所述块禁用所述一个或多个其他变换类型。
6.一种用于视频解码的方法,所述方法包括:
对指示要使用KLT变换来进行逆变换以重构块的残差的信号进行解码;以及
推断出针对所述块禁用了所述一个或多个其他变换类型。
7.根据权利要求5或6所述的方法,其中指示要使用KLT变换的信令独立于所述块的预测类型的信令。
8.根据权利要求5至7中任一项所述的方法,其中所述KLT变换被允许用于任何帧内预测类型。
9.根据权利要求5至8中任一项所述的方法,其中所述KLT变换被允许用于帧间预测。
10.根据权利要求5至9中任一项所述的方法,其中所述KLT变换被允许达到所述块的大小。
11.一种用于视频编码的装置,所述装置包括:至少一个存储器和一个或多个处理器,其中所述一个或多个处理器被配置为:
获得当前块的预测块和残差块;
基于多个相应相邻块和所述当前块来获得多个残差块;
将主变换应用于所述多个残差块,以获得多个相应的经变换的残差块;
基于所述多个经变换的残差块来获得KLT变换矩阵;
将所述主变换应用于所述当前块的所述残差块,以获得当前经变换的残差块;以及
将所述KLT变换矩阵作为二次变换应用于所述当前经变换的残差块。
12.一种用于视频解码的装置,所述装置包括:至少一个存储器和一个或多个处理器,其中所述一个或多个处理器被配置为:
获得当前块的预测块和变换系数;
基于多个相应相邻块和所述当前块来获得多个残差块;
将主变换应用于所述多个残差块,以获得多个相应的经变换的残差块;
基于所述多个经变换的残差块来获得KLT变换矩阵;
将所述KLT变换矩阵作为逆二次变换应用于所述当前块的所述变换系数,以获得当前经逆二次变换的块;以及
将所述主变换的逆变换应用于所述当前经逆二次变换的块,以重构所述当前块的残差块。
13.根据权利要求11或12所述的装置,其中所述主变换是DCT-II。
14.根据权利要求11或12所述的装置,其中所述主变换是另一种KLT变换。
15.一种用于视频编码的装置,所述装置包括:至少一个存储器和一个或多个处理器,其中所述一个或多个处理器被配置为:
对指示要使用KLT变换来对块的残差进行变换的信号进行编码;以及
针对所述块禁用所述一个或多个其他变换类型。
16.一种用于视频解码的装置,所述装置包括:至少一个存储器和一个或多个处理器,其中所述一个或多个处理器被配置为:
对指示要使用KLT变换来进行逆变换以重构块的残差的信号进行解码;以及
推断出针对所述块禁用了所述一个或多个其他变换类型。
17.根据权利要求15或16所述的装置,其中指示要使用KLT变换的信令独立于所述块的预测类型的信令。
18.根据权利要求15至17中任一项所述的装置,其中所述KLT变换被允许用于任何帧内预测类型。
19.根据权利要求15至18中任一项所述的装置,其中所述KLT变换被允许用于帧间预测。
20.根据权利要求15至19中任一项所述的装置,其中所述KLT变换被允许达到所述块的大小。
21.一种包括比特流的信号,所述信号通过执行根据权利要求1、3至5和7至10中任一项所述的方法形成。
22.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令用于根据权利要求1至10中任一项所述的方法对视频进行编码或解码。
23.一种计算机程序,所述计算机程序包括指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1至10中任一项所述的编码方法或解码方法。
CN202180054068.6A 2020-09-29 2021-09-23 用于视频编码的karhunen loeve变换 Pending CN116018805A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20306120.5 2020-09-29
EP20306120 2020-09-29
PCT/EP2021/076155 WO2022069331A1 (en) 2020-09-29 2021-09-23 Karhunen loeve transform for video coding

Publications (1)

Publication Number Publication Date
CN116018805A true CN116018805A (zh) 2023-04-25

Family

ID=72944063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180054068.6A Pending CN116018805A (zh) 2020-09-29 2021-09-23 用于视频编码的karhunen loeve变换

Country Status (4)

Country Link
US (1) US20240031606A1 (zh)
EP (1) EP4222955A1 (zh)
CN (1) CN116018805A (zh)
WO (1) WO2022069331A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024049770A1 (en) * 2022-08-28 2024-03-07 Beijing Dajia Internet Information Technology Co., Ltd. Methods and apparatus for transform training and coding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019009129A1 (ja) * 2017-07-03 2019-01-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法及び復号方法

Also Published As

Publication number Publication date
EP4222955A1 (en) 2023-08-09
US20240031606A1 (en) 2024-01-25
WO2022069331A1 (en) 2022-04-07

Similar Documents

Publication Publication Date Title
KR20220047725A (ko) 암시적 다중 변환 선택을 위한 변환 선택
US20230396805A1 (en) Template matching prediction for versatile video coding
CN112806011A (zh) 改进的虚拟时间仿射候选
CN116134822A (zh) 用于更新基于深度神经网络的图像或视频解码器的方法和装置
CN115152231A (zh) 估计加权预测参数
CN116018805A (zh) 用于视频编码的karhunen loeve变换
KR20210058846A (ko) 인트라 변환 코딩 및 광각 인트라 예측의 조화
JP2021528893A (ja) 可変重みを使用する複数参照イントラ予測
WO2020005572A1 (en) Virtual temporal affine candidates
US20230096533A1 (en) High-level constraint flag for local chroma quantization parameter control
CN116457793A (zh) 针对多个机器任务的学习视频压缩框架
CN115516858A (zh) 视频编码中的缩放列表控制
CN113950834B (zh) 用于隐式多变换选择的变换选择
US20220360781A1 (en) Video encoding and decoding using block area based quantization matrices
US20220224902A1 (en) Quantization matrices selection for separate color plane mode
US20230143712A1 (en) Transform size interactions with coding tools
US20220272356A1 (en) Luma to chroma quantization parameter table signaling
WO2023046518A1 (en) Extension of template based intra mode derivation (timd) with isp mode
EP3754981A1 (en) Explicit signaling of reduced secondary transform kernel
CN117981305A (zh) 用于对视频进行编码/解码的方法和装置
EP3606075A1 (en) Virtual temporal affine motion vector candidates
WO2022101018A1 (en) A method and an apparatus for encoding or decoding a video
CN114270829A (zh) 局部照明补偿标志继承
KR20210019454A (ko) 비디오 코딩에서의 조명 보상
CN114600450A (zh) 使用位置相关帧内预测组合进行画面编码和解码的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231011

Address after: Paris France

Applicant after: Interactive digital CE patent holdings Ltd.

Address before: French Sesong Sevigne

Applicant before: Interactive digital VC holdings France Ltd.