CN114208178A - 用于视频编码和解码的二次变换 - Google Patents
用于视频编码和解码的二次变换 Download PDFInfo
- Publication number
- CN114208178A CN114208178A CN202080054509.8A CN202080054509A CN114208178A CN 114208178 A CN114208178 A CN 114208178A CN 202080054509 A CN202080054509 A CN 202080054509A CN 114208178 A CN114208178 A CN 114208178A
- Authority
- CN
- China
- Prior art keywords
- transform
- block
- coding
- size
- coding block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 91
- 230000009466 transformation Effects 0.000 claims abstract description 24
- 230000011664 signaling Effects 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 abstract description 37
- 230000008569 process Effects 0.000 description 55
- 230000015654 memory Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 241000023320 Luma <angiosperm> Species 0.000 description 12
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 12
- 238000013139 quantization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
- H04N19/122—Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种用于对图片进行编码/解码的方法和装置,其针对INTRA模式中视频编码和解码使用二次变换,并且更具体地,针对帧内子分区模式中的译码单元的变换单元使用二次变换。根据译码单元和变换单元的各种参数提出了不同的信令和选择变量。
Description
技术领域
本发明的至少一个实施例一般涉及视频压缩领域。至少一个实施例具体旨在针对帧内子块分区的视频编码或解码使用二次变换。
背景技术
为了实现高压缩效率,图像和视频译码方案通常采用预测和变换以利用视频内容中的空间和时间冗余。通常,帧内或帧间预测用于利用帧内或帧间相关性,然后对通常表示为预测误差或预测残差(residual)的原始块与预测块之间的差进行变换、量化和熵译码。为了重构视频,通过与熵译码、量化、变换和预测相对应的逆过程来对压缩数据进行解码。
发明内容
本发明的一个或多个实施例针对帧内(INTRA)模式中的视频编码和解码使用二次变换,并且更具体地,针对帧内子分区模式中的译码单元的变换单元使用二次变换。根据译码单元和变换单元的各种参数提出了不同的信令和选择变量。
根据至少一个实施例的第一方面,一种视频编码方法包括对译码单元应用第一变换,决定第二变换是否将被应用以及当第二变换将被应用时:发信号通知针对译码单元的第二变换的使用且对译码单元的变换单元执行第二变换,接着利用发信号通知的信息编码译码单元,其中译码单元以帧内子分区模式被译码。
根据至少一个实施例的第二方面,一种视频解码方法包括当针对译码单元发信号通知第二变换时,对变换单元执行第二逆变换以及对译码单元的变换单元执行第一逆变换,并且解码逆变换的变换单元,其中译码单元以帧内子分区模式被译码。
根据至少一个实施例的第三方面,一种装置包括用于对图片或视频中的至少一个块的图片数据进行编码的编码器,其中所述编码器被配置为对译码单元应用第一变换,决定是否第二变换是否将被应用,以及当第二变换将被应用时:发信号通知针对译码单元的第二变换的使用且对译码单元的变换单元执行第二变换,接着利用发信号通知的信息编码译码单元,其中译码单元以帧内子分区模式被译码。
根据至少一个实施例的第四方面,一种装置包括用于对图片或视频中的至少一个块的图片数据进行解码的解码器,其中所述解码器被配置为当针对译码单元发信号通知第二变换时,对变换单元执行第二逆变换以及对译码单元的变换单元执行第一逆变换,且然后解码逆变换的变换单元,其中译码单元以帧内子分区模式被译码。
根据至少一个实施例的第五方面,提出了一种包括可由处理器执行的程序代码指令的计算机程序,该计算机程序实现根据至少第一或第二方面的方法的步骤。
根据至少一个实施例的第六方面,提出了一种计算机程序产品,其存储在非暂时性计算机可读介质上并且包括可由处理器执行的程序代码指令,所述计算机程序产品实现根据至少第一方面或第二方面的方法的步骤。
附图说明
图1示出了视频编码器100的示例的框图,例如高效视频译码(HEVC)编码器。
图2示出了视频解码器200的示例的框图,例如HEVC解码器。
图3示出了在其中实现各个方面和实施例的系统的示例的框图。
图4示出了可能的帧内子分区(ISP)模式的示例。
图5示出了在ISP模式中使用的预先确定的变换对的示例。
图6A在高级别(level)示出了当在帧内子块分区模式中使用二次变换时的编码过程的示例实施例。
图6B在高级别示出了当在帧内子块分区模式中使用二次变换时的解码过程的示例实施例。
图6C示出了以帧内子块分区模式被译码并且使用LFNST作为二次变换的INTRA CU的解码过程的示例实施例。
图6D和图6E分别示出了是否应当以“或(OR)”或者“与(AND)”的方式解析LFNST索引的测试的示例实施例。
图7示出了解码过程的示例实施例,其中用于每个TU的初级逆变换基于与考虑的以ISP模式译码的CU相关联的LFNST索引被导出。
图8示出了解码过程的示例实施例,其中二次变换的选择被预先确定。
图9示出了解码过程的示例实施例,其中二次变换的选择被预先确定,并且二次变换的使用通过标志来发信号通知。
图10示出了解码过程的示例实施例,其中二次变换的使用是隐式的。
图11示出了解码过程的示例实施例,在TU级别进行二次变换的使用。
图12A和图12B示出了解码过程的示例实施例,其中二次变换的使用限于TU的子集。
图13示出了以ISP模式译码的帧内CU内的TU之间的分割比变化的示例实施例。
具体实施方式
各种实施例涉及在使用二次变换对帧内子分区模式中的译码单元的变换单元进行视频编码和解码。本申请中描述的各种方法和其他方面可以用于根据译码单元和变换单元的各种参数来发信号通知和选择将被使用的变换。
此外,尽管描述了与VVC(通用视频译码)或HEVC(高效视频译码)规范的特定草案相关的原理,但是本发明的方面不限于VVC或HEVC,并且可以应用于例如其他标准和建议(无论是预先存在的还是未来开发的)以及任何这种标准和建议(包括VVC和HEVC)的扩展。除非另外指出或在技术上排除,本申请中描述的方面可以单独或组合使用。
图1示出了视频编码器100的示例的框图,例如HEVC编码器。图1还可示出其中对HEVC标准作出改进的编码器或采用类似于HEVC的技术的编码器,例如JVET(联合视频探索团队)正在开发的用于VVC的JEM(联合探索模型)编码器。
在被编码之前,视频序列可以经过预编码处理(101)。这例如通过对输入彩色图片应用颜色变换(例如从RGB 4:4:4到YCbCr 4:2:0的转换)或者执行输入图片分量的重新映射以便得到对压缩更有弹性的信号分布(例如使用颜色分量之一的直方图均衡)来执行。元数据可以与预处理相关联并且被附加到比特流。
在HEVC中,为了编码具有一个或多个图片的视频序列,图片被分区(102)成一个或多个切片,其中每个切片可以包括一个或多个切片片段。切片片段被组织成译码单元、预测单元和变换单元。HEVC规范在“块”与“单元”之间进行区分,其中“块”寻址样本阵列中的特定区域(例如,亮度Y),且“单元”包括所有被编码的颜色分量(Y、Cb、Cr或单色)的并置块、语法元素以及与所述块相关联的预测数据(例如,运动向量)。
为了在HEVC中进行译码,图片被分区为具有可配置大小的正方形形状的译码树块(CTB),并且译码树块的连续集合被分组为切片。译码树单元(CTU)包含被编码的颜色分量的CTB。CTB是将四叉树分区成译码块(CB)的根,且译码块可分区成一个或多个预测块(PB)且形成将四叉树分区成变换块(TB)的根。对应于译码块、预测块和变换块,译码单元(CU)包括预测单元(PU)和变换单元(TU)的树结构集合,PU包括所有颜色分量的预测信息,并且TU包括每个颜色分量的残差译码语法结构。亮度分量的CB、PB和TB的大小应用于相应的CU、PU和TU。在本发明申请中,术语“块”可以用于指代例如CTU、CU、PU、TU、CB、PB和TB中的任何一个。另外,“块”也可以用于指代如H.264/AVC或其他视频译码标准中指定的宏块和分区,并且更一般地指代各种大小的数据阵列。
在编码器100的示例中,如下所述,由编码器元件对图片进行编码。以CU为单位处理要编码的图片。每一CU是使用帧内或帧间模式被编码的。当CU以帧内模式被编码时,其执行帧内预测(160)。在帧间模式中,执行运动估计(175)和补偿(170)。编码器决定(105)使用帧内模式或帧间模式中的一者来编码CU,并且通过预测模式标志来指示帧内/帧间决定。通过从原始图像块中减去(110)预测块来计算预测残差。
帧内模式中的CU是从同一切片内的重构相邻样本被预测。35个帧内预测模式的集合在HEVC中可用,包含DC、平面和33个角度预测模式。从与当前块相邻的行和列重构帧内预测参考。参考使用来自先前重构的块的可用样本,在水平和垂直方向上扩展超过两倍的块大小。当角度预测模式用于帧内预测时,可以沿着由角度预测模式指示的方向复制参考样本。
可使用两个不同选项来译码当前块的适用亮度帧内预测模式。如果适用模式包含于构造的六个最可能模式(MPM)的列表中,那么通过MPM列表中的索引发信号通知模式。否则,通过模式索引的固定长度二进制化来发信号通知模式。从顶部和左侧相邻块的帧内预测模式导出六个最可能模式(参见下表1)。
表1
对于帧间CU,可以以多种方法(例如,“合并模式”或“高级运动向量预测(AMVP)”)发信号通知运动信息(例如,运动向量和参考图片索引)。
在合并模式中,视频编码器或解码器基于已经译码的块而汇编候选者列表,且视频编码器发信号通知候选者列表中的候选者之一的索引。在解码器侧,基于发信号通知的候选者来重构运动向量(MV)和参考图片索引。
在AMVP中,视频编码器或解码器基于从已经译码的块确定的运动向量来汇编候选者列表。然后,视频编码器发信号通知候选者列表中的索引以识别运动向量预测符(MVP)且发信号通知运动向量差(MVD)。在解码器侧,运动向量(MV)被重构为MVP+MVD。适用的参考图片索引也在针对AMVP的CU语法中明确地被译码。
然后,对预测残差进行变换(125)和量化(130),包括如下所述的针对适配色度量化参数的至少一个实施例。变换一般基于可分离变换。例如,首先在水平方向上应用DCT变换,然后在垂直方向上应用DCT变换。在例如JEM等新近编解码器中,在两个方向上使用的变换可不同(例如,一个方向上的DCT,另一方向上的DST),此导致各种各样的2D变换,而在先前的编解码器中,针对给定块大小的2D变换的种类通常是有限的。
对量化的变换系数以及运动向量和其他语法元素进行熵译码(145)以输出比特流。编码器也可跳过变换,并在4×4TU的基础上直接对未变换的残差信号应用量化。编码器还可以绕过变换和量化两者,即,直接对残差进行译码而不应用变换或量化过程。在直接PCM译码中,不应用预测,并且译码单元样本被直接译码到比特流中。
编码器对编码块进行解码,以提供用于进一步预测的参考。对量化的变换系数进行去量化(140)和逆变换(150)以对预测残差进行解码。组合(155)解码的预测残差和预测块,重构图像块。环内滤波器(165)被应用于重构的图片,例如,执行去块/SAO(采样自适应偏移)滤波以减少编码伪像。将滤波图像存储在参考图片缓冲器(180)中。
图2示出了视频解码器200的示例的框图,例如HEVC解码器。在解码器200的示例中,如下所述,由解码器元件解码比特流。视频解码器200通常执行与图1中所描述的编码回合互逆的解码回合,其执行视频解码作为编码视频数据的部分。图2还可示出其中对HEVC标准作出改进的解码器或采用类似于HEVC的技术的解码器,例如JEM解码器。
具体地,解码器的输入包含视频比特流,其可由视频编码器100生成。比特流首先被熵解码(230)以获得变换系数、运动向量、图片分区信息和其他译码信息。图片分区信息指示CTU的大小,以及CTU被分割成CU且在适用时可能被分割成PU的方式。解码器因此可以根据解码的图片分区信息将图片划分(235)为CTU,并且将每个CTU划分为CU。变换系数被去量化(240),包括如下所述的针对适配色度量化参数的至少一个实施例,并且被逆变换(250)以解码预测残差。
将解码的预测残差与预测块进行组合(255),重构图像块。预测块可以从帧内预测(260)或运动补偿预测(即,帧间预测)(275)获得(270)。如上文所描述,AMVP和合并模式技术可用于导出针对运动补偿的运动向量,其可使用内插滤波器来计算参考块的子整数样本的内插值。环内滤波器(265)被应用于重构的图像。将滤波图像存储在参考图片缓冲器(280)中。
解码后的图片可以进一步经历后解码处理(285),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的转换)或执行在预编码处理(101)中执行的重新映射过程的相逆过程的逆重新映射。后解码处理可使用在预编码处理中导出且在比特流中发信号通知的元数据。
图3示出了在其中实现各个方面和实施例的系统的示例的框图。系统300可被实施为包括如下所述的各种组件的设备,并被配置成执行本申请中描述的各方面中的一者或多者。这样的设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录系统、连接的家用电器、编码器、代码转换器和服务器。系统300的元件可以单独地或组合地实施在单个集成电路、多个IC和/或分立组件中。例如,在至少一个实施例中,系统300的处理和编码器/解码器元件分布在多个IC和/或分立组件上。在各种实施例中,系统300的元件通过内部总线310通信地耦合。在各种实施例中,系统300经由例如通信总线或通过专用输入和/或输出端口通信地耦合到其他类似系统或其他电子设备。在各种实施例中,系统300被配置以实现本文档中所描述的方面中的一者或多者,例如如上所述的视频编码器100和视频解码器200且如下所述的修改。
系统300包括至少一个处理器301,其被配置为执行加载到其中的指令,以用于实现例如本文档中描述的各个方面。处理器301可以包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统300包括至少一个存储器302(例如,易失性存储器设备和/或非易失性存储器设备)。系统300包括存储设备304,其可以包括非易失性存储器和/或易失性存储器,包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备304可以包括内部存储设备、附接的存储设备和/或网络可访问的存储设备。
系统300包括编码器/解码器模块303,其例如被配置为处理数据以提供编码视频或解码视频,并且编码器/解码器模块303可以包括其自己的处理器和存储器。编码器/解码器模块303表示可以包括在设备中以执行编码和/或解码功能的(一个或多个)模块。如已知的,设备可以包括编码和解码模块中的一个或两个。另外,编码器/解码器模块303可以被实现为系统300的单独元件,或者可以作为本领域技术人员已知的硬件和软件的组合而被并入处理器301内。
要加载到处理器301或编码器/解码器303上以执行本文档中描述的各个方面的程序代码可以存储在存储设备304中,并且随后加载到存储器302上以供处理器301执行。根据各种实施例,处理器301、存储器302、存储设备304和编码器/解码器模块303中的一者或多者可以在执行本文中描述的过程的执行期间存储各种项中的一个或多个。这些存储的项可以包括但不限于输入视频、解码视频或解码视频的部分、比特流、矩阵、变量以及来自等式、公式、运算和运算逻辑的处理的中间或最终结果。
在若干实施例中,处理器301和/或编码器/解码器模块303内部的存储器用于存储指令,且提供用于在编码或解码期间需要的处理的工作存储器。然而,在其他实施例中,处理设备外部的存储器(例如,处理设备可以是处理器301或编码器/解码器模块303)被用于这些功能中的一个或多个。外部存储器可以是存储器302和/或存储设备304,例如,动态易失性存储器和/或非易失性闪存。在几个实施例中,外部非易失性闪存用于存储电视的操作系统。在至少一个实施例中,诸如RAM的快速外部动态易失性存储器被用作用于诸如MPEG-2、HEVC或VVC的视频译码和解码操作的工作存储器。
如框309所示,可以通过各种输入设备提供对系统300的元件的输入。这样的输入设备包括但不限于:(i)接收例如由广播公司通过空中传送的RF信号的RF部分;(ii)复合输入端子;(iii)USB输入端子;和/或(iv)HDMI输入端子。
在各种实施例中,框309的输入设备具有本领域已知的相关联的相应输入处理元件。例如,RF部分可以与用于以下所需的元件相关联:(i)选择期望的频率(也称为选择信号,或者将信号频带限制到频带);(ii)将所选择的信号下变频;(iii)再次频带限制到较窄的频带,以选择(例如)在某些实施例中可以称为信道的信号频带;(iv)解调下变频和频带限制的信号;(v)执行纠错;以及(vi)解复用,以选择期望的数据分组流。各种实施例的RF部分包括一个或多个元件以执行这些功能,例如,频率选择器、信号选择器、限带器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可以包括执行各种这些功能的调谐器,这些功能包括例如将接收的信号下变频到较低频率(例如,中频或近基带频率)或基带。在一个机顶盒实施例中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质传送的RF信号,并通过滤波、下变频和再次滤波到期望的频带来执行频率选择。各种实施例重新安排上述(和其他)元件的顺序、移除这些元件中的一些和/或添加执行类似或不同功能的其他元件。添加元件可以包括在现有元件之间插入元件,例如插入放大器和模数转换器。在各种实施例中,RF部分包括天线。
另外,USB和/或HDMI端子可以包括用于通过USB和/或HDMI连接将系统300连接到其他电子设备的相应接口处理器。应当理解,输入处理的各个方面,例如里德-所罗门(Reed-Solomon)纠错,可以根据需要在例如单独的输入处理IC内或处理器301内实现。类似地,USB或HDMI接口处理的各个方面可根据需要在单独的接口IC内或在处理器301内实现。将解调、纠错和解复用的流提供给各种处理元件,包括例如处理器301和编码器/解码器303,其与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。
系统300的各种元件可以被提供在集成壳体内。在集成壳体内,各种元件可以使用合适的连接布置(例如本领域已知的内部总线(包括I2C总线)、布线和印刷电路板)互连并在其间传送数据。
系统300包括通信接口305,其使得能够经由通信信道320与其他设备通信。通信接口305可以包括但不限于被配置为通过通信信道320传送和接收数据的收发信机。通信接口305可以包括但不限于调制解调器或网卡,并且通信信道320可以例如在有线和/或无线介质内实现。
在各种实施例中,使用诸如IEEE 802.11的Wi-Fi网络将数据流式传输到系统300。这些实施例的Wi-Fi信号通过适用于Wi-Fi通信的通信信道320和通信接口305接收。这些实施例的通信信道320通常连接到接入点或路由器,所述接入点或路由器提供对包括因特网的外部网络的访问以允许流式应用和其他过顶通信。其他实施例使用机顶盒向系统300提供流数据,该机顶盒通过输入块309的HDMI连接传递数据。还有一些实施例使用输入块309的RF连接向系统300提供流数据。
系统300可以向各种输出设备提供输出信号,所述输出设备包括显示器330、扬声器340和其他外围设备350。在实施例的各种示例中,其他外围设备350包括独立DVR、盘播放器、立体声系统、照明系统和基于系统300的输出提供功能的其他设备中的一者或多者。在各种实施例中,使用诸如AV.链路、CEC或其他通信协议的信令(signaling)在系统300和显示器100、扬声器340或其他外围设备350之间传输控制信号,其使得能够在有或没有用户干预的情况下实现设备到设备控制。输出设备可以经由通过相应接口306、307和308的专用连接通信地耦合到系统300。或者,输出设备可以使用通信信道320经由通信接口305连接到系统300。显示器330和扬声器340可以与电子设备(例如电视机)中的系统300的其他组件一起集成在单个单元中。在各种实施例中,显示接口306包括显示驱动器,例如定时控制器(TCon)芯片。
例如,如果输入309的RF部分是单独机顶盒的一部分,则显示器330和扬声器340可以可替换地与其他组件中的一个或多个分离。在显示器330和扬声器340是外部组件的各种实施例中,输出信号可以经由专用输出连接来提供,所述专用输出连接例如包括HDMI端口、USB端口或COMP输出。本文描述的实现方式可以在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单一形式的实现方式的上下文中讨论(例如,仅作为方法讨论),所讨论的特征的实现方式也可以以其他形式(例如,装置或程序)来实现。例如,可以以适当的硬件、软件和固件来实现装置。所述方法可以在例如诸如处理器的装置中实现,所述处理器通常指处理设备,包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)和便于终端用户之间的信息传输的其他设备。
图4示出了可能的帧内子分区(ISP)模式的示例。ISP模式用于帧内预测,并且包括将译码单元分割为2个或4个相同大小的变换单元。该分割水平或垂直地执行。如表2所示,分割取决于块的大小。基本上,4×4不能被分割。
大小为4×8或8×4的CU被分割成2个TU。其他CU被分割成4个TU。
块大小(高度×宽度) | 子分区的数量 |
4×4 | 未被划分 |
4×8及8×4 | 2 |
所有其他情况 | 4 |
表2
在使用ISP模式译码的CU内,TU被循序解码,且使用在CU级别处发信号通知的同一帧内预测模式从TU到TU进行帧内预测。最后,还根据帧内子分区大小来适配残差译码。实际上,子分区可具有大小1×N、N×1、2×N或N×2,在这些相应情况下使用大小1×16、16×1、2×8或8×2的译码组。
ISP译码模式例如可以通过两个连续的标志来发信号通知:
-intra_subpartitions_mode_flag指示给定帧内CU的ISP模式的使用。
-当不能从CU大小直接推断分割方向时,intra_subpartitions_flag指示分割为帧内子分区的定向,其中0指示水平分割且1指示垂直分割。
图5示出了在ISP模式中使用的预先确定的变换对的示例。实际上,当ISP用于给定的帧内CU时,则预先确定的变换对被用于译码和解码包含在该CU中的(2或4)TU中的每一个。根据变换块的维度,将变换对选择为沿水平或垂直方向应用的DCT2与DST7之间的组合。即,如下选择水平(trTypeHor)和垂直(trTypeVer)变换:
trTypeHor=(宽度>=4&&宽度<=16)?DST7:DCT2
trTypeVer=(高度>=4&&高度<=16)?DST7:DCT2
这种类型的选择创建了4个不同的对的集合,其是如图5所示的DCT2和DST7之间的组合。对变换单元应用的可分离变换被称为初级变换。
除了初级变换之外,在一些情况下,可以对从初级变换发出的变换系数的子集应用所谓的低频不可分离变换(LFNST,以前称为不可分离二次变换(NSST))。LFNST提高了视频编解码器的译码效率。可以定义两个LFNST变换集合:一个用于大的残差块,且一个用于小的残差块。对于每个集合,定义4组变换,其中每组包含2个变换矩阵。组的选择取决于帧内预测模式,并且在比特流中译码在下文中称为LFNST索引的变换索引。与初级变换不同,LFSNT是通过从一些大数据集残差数据的学习而获得的经训练的变换。然而,常规上,在以ISP模式译码的INTRA CU的情况下不应用LFNST二次变换。
在解码器侧,在图2的步骤240和250之间,在逆量化之后和逆初级变换之前进行逆LFNST变换。在编码器上,在图1的步骤125和130之间,在前向初级变换和量化阶段之间进行LFNST。LFNST可以采取两种可能的不可分离变换的形式:4×4LFNST和8×8LFNST。4×4LFNST被应用于小的块,即min(宽度,高度)<8的块,其中宽度和高度表示块的宽度和高度。8×8LFNST被应用于较大的块,即,min(宽度,高度)>4的块。
如下应用前向4×4LFNST。它被应用到所考虑的变换块的4×4最低频率子块上。输入16个系数被表示为16×1向量X→。LFNST变换包括以下运算:
其中T是16×16矩阵,并且F→是输出变换16×1向量。然后将F→重新组织为4×4子块,该子块按扫描顺序成为最低频率译码组。
关于较大的块,如下应用8×8LFNST。它将3个左上变换4×4子块作为输入,即前向初级变换块。因此,这对应于48个变换系数。然后以扫描顺序将LFNST应用于48个最低频率系数,组织成48×1的系数向量(X48)。因此,前向LFNST采用以下形式:
在解码器侧,将T_16×48的转置矩阵48×16应用于逆量化系数以执行逆LFNST变换。
可以分别针对4×4LFNST和8×8LFNST使用四个LFNST变换集合。这些集合基于帧内预测模式被定义。对于每个集合,可以使用2个LFNST变换矩阵(核)。通过LFNST索引语法元素发信号通知所使用的变换矩阵。
考虑到前述内容设计了下文描述的实施例。
在至少一个实施例中,针对帧内子块分区模式中的译码单元的变换单元,使用二次变换。这允许通过进一步压紧朝向低频带的变换系数的能量来增加压缩的效率,从而使得量化的变换后的残差块的熵译码更加有效。下面基于该原理描述具有一些变型的不同的实施例。
图6A在高级别示出了当在帧内子块分区模式中使用二次变换时的编码过程的示例实施例。该实施例例如由图3的处理器301执行。首先,在步骤601中,处理器301将初级变换应用于译码单元。在步骤602中,处理器检查是否应当使用二次变换。在至少一个实施例中,二次变换是LFNST(例如,如图6C中详细描述的),并且测试是LFNST的适用性的常规测试。在至少一个实施例中,根据图6D或图6E的过程执行步骤602的测试。当不应使用二次变换时,过程结束,并且译码单元可以被常规编码。当不应使用二次变换时,在步骤603中,该过程发信号通知针对译码单元使用二次变换。然后,在步骤604中,确定二次变换并将其应用于变换单元。对译码单元的所有变换单元重复步骤604。当所有变换单元都已经被处理时,在步骤605,过程结束,并且译码单元可以被常规编码。
可以通过不同的机制来进行发信号通知对二次变换的使用。在一个示例实施例中,使用专用标志。在另一实施例中,使用索引,所述索引具有从变换列表识别将被使用的变换的值及具有对应于不使用二次变换的情况的零值。
图6B在高级别示出了当在帧内子块分区模式中使用二次变换时的解码过程的示例实施例。该实施例例如由图3的处理器301执行。首先,在步骤650中,处理器检查是否发信号通知并应当使用二次变换。在至少一个实施例中,二次变换是LFNST(例如,如图6C中详细描述的),并且测试是LFNST的适用性的常规测试。在至少一个实施例中,步骤650的测试根据图6D或图6E的过程来执行。当是这种情况时,在步骤660中,确定二次变换并将其应用于译码单元的变换单元。在步骤680中,对变换单元执行初级逆变换,并且在步骤690中,该过程从步骤650开始重复,直到所有TU都被处理。然后,解码过程按照常规方式继续以完成解码。
图6C示出了以帧内子块分区模式被译码并且使用LFNST作为二次变换的INTRA CU的解码过程的示例实施例。该实施例例如由图3的处理器301执行。根据至少一个实施例,针对以帧内子块分区模式被译码的INTRA CU的二次变换是LNFST,并且对其的使用通过索引LFNST idx来发信号通知:当索引为零时,不使用LNFST,当不等于零时,则索引指示应当使用变换列表中的哪个变换。
首先,在步骤609中,对残差进行解码。在步骤610中,处理器检查是否将针对CU解析LFNST索引。该测试涉及单独测试是否将针对CU的TU解析LFNST索引。图6D中描述了该测试的“或”替代方案,且图6E中描述了“与”替代方案。关于是否将针对TU解析LFNST索引的决定的条件与常规方式使用的条件相同:
-所考虑的组件中的CU大小在宽度和高度上至少是4;
-在SPS级别上启用LFNST;
-CU中的重要系数的数量在双树情况下严格高于1,或在单树情况下严格高于2;
-在针对大小至少为4×4的变换块的除了最低频率4×4译码组之外的4×4译码组中,或者在大小等于4或8的正方形变换块中扫描位置大于7,在所考虑的CU的TU中不存在非零量化系数。
当不使用LNFST时,则在步骤615中,LFNST索引被设置为0。这意味着没有LFNST被应用于考虑的CU,且因此没有LFNST被应用于考虑的CU中包含的任何TU。
在步骤620中,解析LFNST索引。如果它是0,则随后不应用LFNST。如果它不同于0,则随后应用相应的LFNST变换。
在步骤630中,按照常规方式执行逆量化,并且在步骤640中将对TU计数的索引设置为零。在步骤650中,测试LFNST索引,并且其既作为指示未使用LFNST的标志(当等于0时),又作为指示将使用哪个变换的值。如果LFNST索引不同于0,则在解码器侧在步骤660中执行逆LFNST(二次变换)。在亮度分量与色度分量之间共享译码树的情况下,这包括所考虑的CU中包含的2或4个亮度变换块,以及CU中包含的色度变换块。然后,在步骤670中,按照常规方式确定初级变换对,并且对当前TU应用逆初级变换。在步骤690中,在结束该过程或当至少一个TU没有被处理时从步骤650重复之前,该过程验证所有TU已经被处理。
当应用于VVC时,图6C的实施例需要修改译码单元语法。该修改在表3中示出并由灰色背景标识。其包括当IntraSubPartitionSplitType等于ISP_NO_SPLIT时,去除关于IntraSubPartitionSplitType的测试以授权使用LNFST。结果,在帧内子块分区模式中使用二次变换。
表3
图6D和图6E分别示出了是否应当以“或(OR)”或者“与(AND)”的方式解析LFNST索引的测试的示例实施例。该测试例如用在图6A的步骤602、图6B的步骤650、图6C的步骤610和655中。图6D的测试以“或”方式操作,使得一旦针对CU的TU之一检测到有效条件,就解析LFNST索引。相反,图6E的测试以“与”方式操作,使得一旦针对CU的TU之一检测到无效条件,就不解析LFNST索引,意味着针对所有TU条件都应当是有效的,以便解析LFNST索引。
图7示出了解码过程的示例实施例,其中针对每个TU使用的初级逆变换基于与考虑的以ISP模式译码的CU相关联的LFNST索引被导出。在此实施例中,在ISP帧内CU中的每一TU上执行循环(loop),且测试是否使用二次变换。在该实施例中,这在步骤710中通过测试LFNST索引来进行。当LFNST索引为零时,则在针对CU进行编码时不使用二次变换。在此情况下,在步骤720中,使用例如图5的表格按照常规方式执行对初级变换的选择。然后,在步骤730中,将选择的初级变换应用于TU,且在步骤760中过程继续在TU上循环。回到步骤710,当LFNST索引不同于0时,那么结合{DCT2,DCT2}对来使用二次变换以用于初级变换。在这种情况下,根据LNFST索引识别二次变换,并且在步骤740中对TU执行逆变换。在步骤750中,对TU执行逆2D DCT2变换。当所有TU都已经被处理时,该过程结束。
图8示出了解码过程的示例实施例,其中二次变换的选择被预先确定。在该实施例中,如常规地针对LNFST所做的那样,首先验证针对LNFST的条件是否满足。当不是这种情况时,在步骤810中,LFNST索引被设置为0。否则,LFNST索引被设置为1。换句话说,在本实施例中,二次变换被预先确定。唯一的选择是列表中的第一变换对。如在先前实施例中,当使用二次变换时,将被使用的初级变换是2D DCT2对。
在此实施例的变型中,在以ISP模式译码的帧内CU的情况下,可由解码器推断另一LFNST索引值以选择另一二次变换。
图9示出了解码过程的示例实施例,其中二次变换的选择被预先确定,并且二次变换的使用通过标志来发信号通知。尽管前面的实施例使用不同于0的LNFST索引的值来指示二次变换的使用,但是该实施例使用专用标志来发信号通知使用以ISP模式译码的帧内CU的LFNST。在这种情况下,当使用LFNST时(标志设置为真),则LFNST索引被推断为固定值。在一个示例实施例中,该固定值等于1以选择第一变换对。类似于先前实施例,当使用LFNST时,将针对当前CU应用的2D初级变换被推断为DCT2_DCT2。
图10示出了解码过程的示例实施例,其中二次变换的使用是隐式的。在图7、图8和图9的先前实施例的这个变型中,LFNST的使用是隐式的,而对二次变换的选择是显式的,由LFNST索引来携带。此外,在以ISP译码的帧内CU的情况下,2D初级变换被推断为DCT2_DCT2。
在至少一个实施例中,针对帧内ISP CU使用LFNST取决于所考虑的CU的大小。例如,如果CU在宽度和高度上的大小小于给定阈值,则针对所考虑的CU,不使用LFNST。实际上,可以对CU大小施加与基于矩阵的帧内预测(MIP)情况相同的约束,以允许使用LFNST。当应用于VVC时,该实施例需要如表4所示的并且由灰色背景突出显示的译码单元语法的修改。
表4
根据变型实施例,当ISP模式对于所考虑的CU是激活的时,如果CU的大小在宽度和高度上大于或等于16,则允许LFNST。
根据变型实施例,当ISP模式对于所考虑的CU是激活的时,如果CU的大小在宽度和高度上大于或等于32,则允许LFNST。
通常,本领域技术人员将理解,针对在宽度和高度上大于或等于4的块大小而设计的LFNST可以针对CU大小很好地执行,使得TU大小在宽度和高度上至少等于4。
在至少一个实施例中,针对以ISP模式译码的帧内CU启用LFNST的条件取决于从根据所考虑CU的ISP模式分割的CU发出的亮度变换块的大小。设tbWidth和tbHeight表示亮度变换块的宽度和高度。在该提出的实施例中,如果亮度变换块大小在宽度和高度上至少为4,则LFNST通常可以被启用。当应用于VVC时,该实施例需要如表5所示的并且由灰色背景突出显示的译码单元语法的修改。
表5
图11示出了解码过程的示例实施例,其中在TU级别进行二次变换的使用。在该实施例中,在帧内ISP译码单元的情况下,针对CU中包含的每个变换单元发信号通知LFNST索引。,使用用于发信号通知使用LFNST的相同条件按照常规方式被使用,不同之处在于在TU级别上发信号通知LFNST索引,使得每个TU一个LFNST索引被发信号通知。如图11所示,在该实施例中,CU中包含的TU上的循环包括针对每个TU解析LFNST索引。
作为此实施例的结果,可在所考虑CU中所含有的TU之间使用不同的初级逆变换。这可以导致比先前实施例更高的译码效率,因为在将LFNST分配给以ISP模式译码的译码单元内的每个TU时引入了一些灵活性。因此,编码器在率失真优化方面具有更多的自由度,以找到用于ISP模式中的帧内CU的最佳译码模式。
图12A和图12B示出了解码过程的示例实施例,其中二次变换的使用限于TU的子集。根据这些实施例,除了包含在译码单元中的TU的子集之外,在帧内ISP译码单元内部的TU级别上发信号通知LFNST索引。在图12A中示出的第一变型中,针对CU的第一TU,LFNST不被允许,且常规的变换选择可用于此TU。然而,如在先前实施例中所解释的,针对CU的其他TU,LFNST被允许并且被发信号通知。在图12B中示出的第二变型中,针对CU的两个第一TU,LFNST不被允许,且常规的变换选择可用于此TU。然而,如在先前实施例中所解释的,针对CU的其他TU,LFNST被允许并且被发信号通知。
图13示出了以ISP模式译码的帧内CU内的TU之间的分割比变化的示例实施例。在本实施例中,ISP模式将帧内CU划分成3个TU而不是4个TU。然后,相对于父CU的TU大小可以是沿着所考虑的分割定向、水平或垂直方向为1/4、1/4和1/2。在该实施例中,仅第三TU使用LFNST。在图13所示的示例中,两个第一TU具有等于父CU的四分之一的大小。对这些TU使用常规的初级变换类型选择,但不使用LFNST。第三TU具有等于CU大小的二分之一的大小。针对CU的最后一个TU,DCT2用作初级变换,并且允许LFNST。如先前实施例所述,可以在CU级别或TU级别发信号通知LFNST索引。
在前面提出的实施例的变型实施例中,大的块8×8LFNST可用于将LFNST应用到TU,该TU具有等于所考虑的CU的大小的一半或四分之一的大小。在前述实施例的至少另一变型实施例中,这些8×8LFNST基函数也可应用于大小为2×N、N×2、1×N或N×1的变换块,N为非零正整数值。
在前面提出的实施例的变型实施例中,使用例如表6,改变对CU大小的约束以便增加针对较大块(通常8×8块)使用LFNST:
块大小(高度×宽度) | 子分区的数量 |
4×4 | 未被划分 |
4×8和8×4 | 2 |
8×8和8×16和16×8 | 2 |
所有其他情况 | 4 |
表6
在新的情况下,8×16和16×8个情况被隐式地分割,诸如2个结果TU具有大小8×8。
在变型实施例中,ISP的常规分割决定被修改,以在两个方向上的至少四个样本的TU上支持LNFST。换句话说,ISP条件被改变,例如禁止1×N、N×1、2×N和N×2。
在另一实施例中,与VVC草案6规范相比,修改了在以ISP模式译码的CU的情况下应用LFNST的条件。实际上,TU由一个或若干个变换块组成。在VVC草案6的情况下,在以单树配置译码的帧内CU的情况下,若干变换块包含在TU中。单树意味着对于所有亮度和色度分量,使用单个译码树将CTU分区成译码单元。因此,在此情况下,CU由亮度和2个色度译码块组成。此外,由单个TU组成的CU包括亮度和2个色度变换块。在VVC草案6中,针对此CU启用LFNST的一个条件是CU中的至少一个变换块含有残差数据,其中最后的重要系数位置,即变换块中具有最大扫描位置的非零变换系数的位置,不是残差块中的(0,0)位置。
在此所提出的实施例中,添加额外条件,其陈述如果包含于译码单元中的所有亮度变换块具有不同于系数位置0的最后的重要系数位置,那么针对以ISP模式译码的CU启用LFNST。
根据另一实施例,根据ISP针对所考虑的帧内译码单元的使用来修改LFNST索引的熵译码。在VVC草案6中,LFNST通过2个二进制元素(bin)被发信号通知。第一个bin指示LFNST索引是否为零,即它指示LFNST是否针对当前CU被使用。如果第一bin等于1,则第二bin指示LFNST索引是否等于1或2。在VVC草案6中,第一bin是基于上下文被译码的。所使用的CABAC上下文取决于是否针对所考虑的CU使用单独的树模式。根据本发明实施例,用于发信号通知LFNST索引的第一bin的上下文还取决于针对所考虑的CU,ISP模式是关闭还是开启。因此,在该实施例中,与VVC草案6相比,用于对LFNST索引的第一bin进行译码的上下文的数量加倍:使用4个上下文而不是2个上下文。
此外,根据另一变型,在帧内切片的情况下,与添加的CABAC上下文相关联的初始条件概率被设置为表示LFNST索引不同于0的非常低的概率的值。实际上,已经观察到,所提出的LFNST和ISP译码模式的组合在帧间图片中带来了压缩益处,但是该益处在帧内图片中趋于低得多。
根据另一实施例,LFNST和ISP的组合使用仅针对以单树模式译码的帧内译码单元被规范地启用。
根据另一实施例,LFNST和ISP的组合使用仅针对INTRA切片中译码的帧内译码单元被规范地启用。
根据另一实施例,无论单树或双树模式如何,LFNST与ISP的组合使用针对所有帧内译码单元被规范地启用,但此模式组合仅在单树情况下由编码器侧率失真搜索评估为候选者模式。
根据另一实施例,无论单树或双树模式如何,LFNST与ISP的组合使用针对所有帧内译码单元被规范地启用,但此模式组合仅在INTRA切片中由编码器侧率失真搜索评估为候选者模式。
各种实现方式涉及解码。如本申请中所使用的,“解码”可以包括例如对接收到的编码序列执行的过程中的全部或部分,以便产生适合于显示的最终输出。在各种实施例中,这样的过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。在各种实施例中,这样的过程还或替代地包括由本申请中描述的各种实现的解码器执行的过程,例如在图6B-图13中提出的实施例。
作为进一步的示例,在一个实施例中,“解码”仅指熵解码,在另一实施例中,“解码”仅指差分解码,并且在另一实施例中,“解码”指熵解码和差分解码的组合。短语“解码过程”是否旨在具体地指代操作的子集或一般地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且相信是本领域技术人员所充分理解的。
各种实现方式涉及编码。以与以上关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可以包括例如对输入视频序列执行的过程的全部或部分,以便产生编码的比特流。在各种实施例中,此类过程包括通常由编码器执行的一个或多个过程,例如分区、差分编码、变换、量化和熵编码。在各种实施例中,这样的过程还或替代地包括由本申请中描述的各种实现方式的编码器执行的过程,例如图6B-图13的实施例。
作为进一步的示例,在一个实施例中,“编码”仅指熵编码,在另一实施例中,“编码”仅指差分编码,而在另一实施例中,“编码”指差分编码和熵编码的组合。短语“编码过程”是否旨在具体地指代操作的子集或一般地指代更广泛的编码过程将基于具体描述的上下文而变得清楚,并且相信是本领域技术人员所充分理解的。
注意,本文使用的语法元素是描述性术语。因此,它们不排除使用其他语法元素名称。
本申请描述了多个方面,包括工具(tool)、特征、实施例、模型、方法等。这些方面中的许多方面被描述为具有特异性,并且至少为了示出个体特性,通常以可能听起来受限的方式来描述。然而,这是为了描述清楚的目的,并且不限制那些方面的应用或范围。实际上,所有不同的方面可以组合和互换以提供另外的方面。此外,这些方面也可以与在较早提交的文档中描述的方面组合和互换。本申请中描述和考虑的方面可以以许多不同的形式实现。上面的图1、图2和图3提供了一些实施例,但是可以设想其他实施例,并且对图的讨论不限制实现方式的广度。
在本申请中,术语“重构”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用,术语“索引”和“idx”可以互换使用。通常,但不是必须的,术语“重构”在编码器侧使用,而“解码”在解码器侧使用。
本文描述了各种方法,并且每种方法包括用于实现所描述的方法的一个或多个步骤或动作。除非方法的正确操作需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或使用。
在本申请中使用各种数值,例如关于块大小。具体值是出于示例目的,并且所描述的方面不限于这些具体值。
对“一个实施例”或“实施例”或“一个实现”或“实现”以及它们的其他变型的提及意味着结合实施例描述的特定特征、结构、特性等被包含在至少一个实施例中。因此,在贯穿本申请的各个地方出现的短语“在一个实施例中”或“在实施例中”或“在一个实现中”或“在实现中”以及任何其他变型的出现不一定都指同一实施例。
另外,本申请或者其权利要求可以涉及“确定”各种信息。确定信息可以包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一个或多个。
此外,本申请或者其权利要求可以涉及“访问”各种信息。访问信息可以包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一个或多个。
另外,本申请或者其权利要求可以涉及“接收”各种信息。如同“访问”一样,接收旨在是广义的术语。接收信息可以包括例如访问信息或(例如从存储器或光学介质存储)检索信息中的一个或多个。此外,在诸如存储信息、处理信息、传送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,通常以一种方式或另一种方式涉及“接收”。
应当理解,例如在“A/B”、“A和/或B”以及“A和B中的至少一个”的情况下,使用以下“/”、“和/或”以及“……中的至少一个”中的任何一个旨在涵盖仅对第一列出的选项(A)的选择、或仅对第二列出的选项(B)的选择、或对两个选项(A和B)的选择。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一个”的情况下,这样的措词旨在包括仅选择第一个列出的选项(A),或者仅选择第二个列出的选项(B),或者仅选择第三个列出的选项(C),或者仅选择第一个和第二个列出的选项(A和B),或者仅选择第一个和第三个列出的选项(A和C),或者仅选择第二个和第三个列出的选项(B和C),或者选择所有三个选项(A和B和C)。这可以扩展到所列的许多项,这对于本领域和相关领域的普通技术人员来说是清楚的。
如本领域技术人员将明白的,实现方式可以产生被格式化以携带例如可以被存储或传送的信息的各种信号。该信息可以包括例如用于执行方法的指令,或者由所描述的实现方式之一产生的数据。例如,信号可以被格式化以携带所描述的实施例的比特流。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可以包括例如编码数据流和用编码数据流调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的,信号可以通过各种不同的有线或无线链路来传送。该信号可以存储在处理器可读介质上。
Claims (34)
1.一种视频编码方法,包括:
将帧内译码块分割成至少两个变换块,
对所述译码块的所述变换块应用(601)第一变换,
响应于第二变换将被应用的决定(602):
发信号通知(603)针对译码块的第二变换的使用
对所述译码块的所述变换块执行(604)第二变换
利用发信号通知的信息编码所述译码块。
2.一种视频解码方法,包括:
响应于表示针对被分割成至少两个变换块的译码块(650)的第二变换的信息:
对所述译码块的所述变换块执行第二逆变换(660),以及
对所述译码块的所述变换块执行第一逆变换(680),
解码所逆变换的块。
3.根据权利要求1或2中任一项所述的方法,其中所述第二变换是低频不可分离变换。
4.根据权利要求1至3中任一项所述的方法,其中在第二变换将被应用的情况下,所述第一变换是2D DCT2变换。
5.根据权利要求1至4中任一项所述的方法,其中在变换列表中,所述第二变换根据索引被选择。
6.根据权利要求1至5中任一项所述的方法,其中在所述变换列表中,所述第二变换根据预先确定的索引被选择。
7.根据权利要求1至6中任一项所述的方法,其中在所述变换列表中,所述第二变换被选择为所述第一变换。
8.根据权利要求1至7中任一项所述的方法,其中当所述译码块的所述大小在宽度和高度上大于阈值时,所述第二变换将被应用。
9.根据权利要求1至7中任一项所述的方法,其中当所述译码块的所述大小在宽度或高度上大于阈值时,所述第二变换将被应用。
10.根据权利要求1至7中任一项所述的方法,其中当所述译码块的所述大小在宽度和高度上小于阈值时,所述第二变换将被应用。
11.根据权利要求1至7中任一项所述的方法,其中当所述变换块的所述大小在宽度和高度上大于阈值时,所述第二变换将被应用。
12.根据权利要求1至7中任一项所述的方法,其中当所述变换块的所述大小在宽度或高度上大于阈值时,所述第二变换将被应用。
13.根据权利要求1至7中任一项所述的方法,其中当所述变换块的所述大小在宽度和高度上小于阈值时,所述第二变换将被应用。
14.根据权利要求1至13中任一项所述的方法,其中所述第二变换在所述变换块级别被选择。
15.根据权利要求1至13中任一项所述的方法,其中所述第二变换仅针对所述译码块的变换块子集被执行。
16.根据权利要求1至13中任一项所述的方法,其中所述变换块具有不同的大小,并且其中,所述第二变换仅在所述译码块的所述最大变换块上被执行。
17.一种视频编码装置(100,300),包括用于以下的工具:
在译码块上应用(601)第一变换,
将帧内译码块分割成至少两个变换块,
在译码块上应用(601)第一变换,
响应于第二变换将被应用的决定(602):
发信号通知(603)针对译码块的第二变换的使用
对所述译码块的所述变换块执行(604)第二变换
利用发信号通知的信息编码所述译码块。
18.一种视频解码装置(200,300),包括用于以下的工具:
响应于表示针对被分割成至少两个变换块的译码块(650)的第二变换的信息:
对所述译码块的所述变换块执行第二逆变换(660),以及
对所述译码块的所述变换块执行第一逆变换(680),解码所逆变换的块。
19.根据权利要求17或18中任一项所述的装置,其中所述第二变换是低频不可分离变换。
20.根据权利要求17至19中任一项所述的装置,其中在第二变换将被应用的情况下,所述第一变换是2D DCT2变换。
21.根据权利要求17至20中任一项所述的装置,其中在变换列表中,所述第二变换根据索引被选择。
22.根据权利要求17至21中任一项所述的装置,其中在所述变换列表中,所述第二变换根据预先确定的索引被选择。
23.根据权利要求17至22中任一项所述的装置,其中在所述变换列表中,所述第二变换被选择为所述第一变换。
24.根据权利要求17至23中任一项所述的装置,其中当所述译码块的所述大小在宽度和高度上大于阈值时,所述第二变换将被应用。
25.根据权利要求17至23中任一项所述的装置,其中当所述译码块的所述大小在宽度或高度上大于阈值时,所述第二变换将被应用。
26.根据权利要求17至23中任一项所述的装置,其中当所述译码块的所述大小在宽度和高度上小于阈值时,所述第二变换将被应用。
27.根据权利要求17至23中任一项所述的装置,其中当所述变换块的所述大小在宽度和高度上大于阈值时,所述第二变换将被应用。
28.根据权利要求17至23中任一项所述的装置,其中当所述变换块的所述大小在宽度或高度上大于阈值时,所述第二变换将被应用。
29.根据权利要求17至23中任一项所述的装置,其中当所述变换块的所述大小在宽度和高度上小于阈值时,所述第二变换将被应用。
30.根据权利要求17至29中任一项所述的装置,其中所述第二变换在所述块级别被选择。
31.根据权利要求17至29中任一项所述的装置,其中所述第二变换仅针对所述译码块的变换块子集被执行。
32.根据权利要求17至29中任一项所述的装置,其中所述变换块具有不同的大小,并且其中,所述第二变换仅在所述译码块的所述最大变换块上被执行。
33.一种计算机程序,包括程序代码指令,所述程序代码指令用于在由处理器执行时实现根据权利要求1至16中的至少一项所述的方法的步骤。
34.一种非暂时性计算机可读介质,包括程序代码指令,所述程序代码指令用于在由处理器执行时实现根据权利要求1至16中的至少一项所述的方法的步骤。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19306007.6 | 2019-08-06 | ||
EP19306007 | 2019-08-06 | ||
EP19306174 | 2019-09-23 | ||
EP19306174.4 | 2019-09-23 | ||
EP19306182 | 2019-09-24 | ||
EP19306182.7 | 2019-09-24 | ||
PCT/EP2020/071151 WO2021023552A1 (en) | 2019-08-06 | 2020-07-27 | Secondary transform for video encoding and decoding |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114208178A true CN114208178A (zh) | 2022-03-18 |
Family
ID=71728748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080054509.8A Pending CN114208178A (zh) | 2019-08-06 | 2020-07-27 | 用于视频编码和解码的二次变换 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20220345744A1 (zh) |
EP (1) | EP4011073A1 (zh) |
KR (1) | KR20220036982A (zh) |
CN (1) | CN114208178A (zh) |
BR (1) | BR112022001333A2 (zh) |
CA (1) | CA3149102A1 (zh) |
TW (1) | TW202107897A (zh) |
WO (1) | WO2021023552A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11172211B2 (en) * | 2019-04-04 | 2021-11-09 | Tencent America LLC | Method and apparatus for video coding |
WO2021048077A1 (en) * | 2019-09-13 | 2021-03-18 | Interdigital Vc Holdings France, Sas | Transform size interactions with coding tools |
CN114731434B (zh) | 2019-09-21 | 2023-06-30 | Lg电子株式会社 | 基于变换的图像编码方法及其装置 |
KR20220070503A (ko) * | 2019-11-01 | 2022-05-31 | 엘지전자 주식회사 | 변환에 기반한 영상 코딩 방법 및 그 장치 |
EP4074036A4 (en) * | 2019-12-12 | 2023-12-20 | HFI Innovation Inc. | METHODS AND APPARATUS FOR RESTRICTED SECONDARY TRANSFORMATION AND ASSOCIATED SIGNALING IN IMAGE CODING |
US12095997B2 (en) * | 2020-01-10 | 2024-09-17 | Lg Electronics Inc. | Transform-based image coding method and device for same |
WO2021190593A1 (en) * | 2020-03-25 | 2021-09-30 | Beijing Bytedance Network Technology Co., Ltd. | Coded video processing using enhanced secondary transform |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180103252A1 (en) * | 2016-10-12 | 2018-04-12 | Qualcomm Incorporated | Primary transform and secondary transform in video coding |
CN108141596A (zh) * | 2015-09-29 | 2018-06-08 | 高通股份有限公司 | 用于视频译码的非可分离二次变换 |
EP3443746A1 (en) * | 2016-05-17 | 2019-02-20 | ARRIS Enterprises LLC | Template matching for jvet intra prediction |
WO2019067907A1 (en) * | 2017-09-28 | 2019-04-04 | Interdigital Vc Holdings, Inc. | APPARATUS AND METHOD FOR ENCODING IMAGE BLOCK |
US20190149823A1 (en) * | 2017-11-13 | 2019-05-16 | Electronics And Telecommunications Research Institute | Method and apparatus for quantization |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11240534B2 (en) * | 2019-04-05 | 2022-02-01 | Qualcomm Incorporated | Extended multiple transform selection for video coding |
-
2020
- 2020-07-27 BR BR112022001333A patent/BR112022001333A2/pt unknown
- 2020-07-27 CA CA3149102A patent/CA3149102A1/en active Pending
- 2020-07-27 WO PCT/EP2020/071151 patent/WO2021023552A1/en unknown
- 2020-07-27 KR KR1020227006899A patent/KR20220036982A/ko unknown
- 2020-07-27 EP EP20743168.5A patent/EP4011073A1/en active Pending
- 2020-07-27 US US17/632,957 patent/US20220345744A1/en active Pending
- 2020-07-27 CN CN202080054509.8A patent/CN114208178A/zh active Pending
- 2020-07-31 TW TW109125897A patent/TW202107897A/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108141596A (zh) * | 2015-09-29 | 2018-06-08 | 高通股份有限公司 | 用于视频译码的非可分离二次变换 |
EP3443746A1 (en) * | 2016-05-17 | 2019-02-20 | ARRIS Enterprises LLC | Template matching for jvet intra prediction |
US20180103252A1 (en) * | 2016-10-12 | 2018-04-12 | Qualcomm Incorporated | Primary transform and secondary transform in video coding |
WO2019067907A1 (en) * | 2017-09-28 | 2019-04-04 | Interdigital Vc Holdings, Inc. | APPARATUS AND METHOD FOR ENCODING IMAGE BLOCK |
US20190149823A1 (en) * | 2017-11-13 | 2019-05-16 | Electronics And Telecommunications Research Institute | Method and apparatus for quantization |
Non-Patent Citations (1)
Title |
---|
MISCHA SIEKMANN等: "CE6-2.1: Simplification of Low Frequency Non-Separable Transform (JVET-O0094-r1)", JOINT VIDEO EXPERTS TEAM (JVET) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 15TH MEETING: GOTHENBURG, SE, 3–12 JULY 2019, 12 July 2019 (2019-07-12) * |
Also Published As
Publication number | Publication date |
---|---|
BR112022001333A2 (pt) | 2022-03-22 |
TW202107897A (zh) | 2021-02-16 |
EP4011073A1 (en) | 2022-06-15 |
WO2021023552A1 (en) | 2021-02-11 |
US20220345744A1 (en) | 2022-10-27 |
CA3149102A1 (en) | 2021-02-11 |
KR20220036982A (ko) | 2022-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220345744A1 (en) | Secondary transform for video encoding and decoding | |
CN112889287B (zh) | 广义双向预测和加权预测 | |
CN112771874B (zh) | 用于画面编码和解码的方法和设备 | |
CN112740682A (zh) | 用于依赖性标量量化的标量量化器决策方案 | |
EP3664449A1 (en) | Method and device for picture encoding and decoding | |
JP7520853B2 (ja) | ビデオコード化のための残差コード化における通常のビンの柔軟な割り当て | |
EP3804309A1 (en) | Syntax elements for video encoding or decoding | |
WO2020006338A1 (en) | Method and apparatus for video encoding and decoding based on adaptive coefficient group | |
WO2020185492A1 (en) | Transform selection and signaling for video encoding or decoding | |
EP4078953A1 (en) | Subblock merge candidates in triangle merge mode | |
CN113273198A (zh) | 用于视频编码和解码的多个编码单元之间的参数分组 | |
CN112740683A (zh) | 用于在为亮度和色度使用单独的译码树时确定色度量化参数的方法及装置 | |
US20230024223A1 (en) | Intra sub partitions for video encoding and decoding combined with multiple transform selection, matrix weighted intra prediction or multi-reference-line intra prediction | |
US20220360781A1 (en) | Video encoding and decoding using block area based quantization matrices | |
EP3664450A1 (en) | Method and device for picture encoding and decoding | |
EP3595309A1 (en) | Method and apparatus for video encoding and decoding based on adaptive coefficient group | |
EP3591969A1 (en) | Syntax elements for video encoding or decoding | |
CN113170149A (zh) | 用于图片编码和解码的方法和设备 | |
EP4014490A1 (en) | Quantization matrix prediction for video encoding and decoding | |
CN117501692A (zh) | 用于视频编码和解码的模板匹配预测 | |
CN114503562A (zh) | 扩展运动信息比较 | |
WO2020072397A1 (en) | Block size based motion vector coding in affine mode | |
CN114631316A (zh) | 用于视频编解码的编解码模式信息传播 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231011 Address after: Paris France Applicant after: Interactive digital CE patent holdings Ltd. Address before: France - cesson Sevigne Applicant before: Interactive digital VC holdings France Ltd. |
|
TA01 | Transfer of patent application right |