CN115052163B - 编码器、解码器和用于变换处理的对应方法 - Google Patents

编码器、解码器和用于变换处理的对应方法 Download PDF

Info

Publication number
CN115052163B
CN115052163B CN202210562357.3A CN202210562357A CN115052163B CN 115052163 B CN115052163 B CN 115052163B CN 202210562357 A CN202210562357 A CN 202210562357A CN 115052163 B CN115052163 B CN 115052163B
Authority
CN
China
Prior art keywords
block
current
transformation
transform
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210562357.3A
Other languages
English (en)
Other versions
CN115052163A (zh
Inventor
高晗
塞米赫·艾森力克
王彪
阿南德·梅赫·科特拉
陈建乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210562357.3A priority Critical patent/CN115052163B/zh
Publication of CN115052163A publication Critical patent/CN115052163A/zh
Application granted granted Critical
Publication of CN115052163B publication Critical patent/CN115052163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了方法和设备。提供了一种由解码设备实现的译码方法,所述方法包括:当当前译码块的预测模式为帧内预测,且使用帧内子划分译码模式处理所述当前译码块时,确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值,其中,所述当前变换块对应于所述当前译码块;当所述当前变换块的宽度大于或等于所述第一阈值且所述当前变换块的宽度小于或等于所述第二阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换。

Description

编码器、解码器和用于变换处理的对应方法
本申请是分案申请,原申请的申请号是202080005189.7,原申请日是2020年02月12日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请(本发明)实施例大体上涉及图像或视频处理领域,并且更具体地涉及一种变换处理。
背景技术
视频译码(视频编码和解码)广泛用于数字视频应用,例如广播数字电视、基于互联网和移动网络的视频传输、视频聊天、视频会议等实时会话应用、DVD和蓝光光盘、视频内容采集和编辑系统以及可携式摄像机的安全应用。
即使在视频较短的情况下也需要对大量的视频数据进行描述,当数据要在带宽容量受限的通信网络中流式传输或以其它方式传送时,这样可能会造成困难。因此,视频数据通常要先压缩然后在现代电信网络中传送。由于内存资源可能有限,当在存储设备中存储视频时,视频的尺寸也可能成为问题。视频压缩设备通常在信源侧使用软件和/或硬件,以在发送或存储之前对视频数据进行译码,从而减少用来表示数字视频图像所需的数据量。然后,压缩的数据在目的地侧由用于解码视频数据的视频解压缩设备接收。在有限的网络资源以及对更高视频质量的需求不断增长的情况下,需要改进压缩和解压缩技术,这些改进的技术在几乎不影响图像质量的情况下能够提高压缩比。
发明内容
本申请实施例提供了独立权利要求所述的编码和解码方法和装置。
上述和其它目的是通过由独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、具体实施方式和附图中是显而易见的。
本发明第一方面公开了一种由解码设备实现的译码方法,所述方法包括:当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值,其中,所述当前变换块对应于所述当前译码块;当所述当前变换块的宽度大于或等于所述第一阈值且所述当前变换块的宽度小于或等于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换。
在一种可能的实现方式中,所述方法还包括:
当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平变换。
在一种可能的实现方式中,所述方法还包括:
获取所述当前译码块的语法值,其中,所述当前译码块的所述语法值用于表示所述当前译码块的所述预测模式为帧内预测。
在一种可能的实现方式中,所述当前译码块的所述语法值不用来表示所述当前译码块的具体的预测模式。
本发明第二方面公开了一种由解码设备实现的译码方法,所述方法包括:当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
在一种可能的实现方式中,所述方法还包括:当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
在一种可能的实现方式中,所述方法还包括:
获取所述当前译码块的语法值,其中,所述当前译码块的所述语法值用于表示所述当前译码块的所述预测模式为帧内预测。
在一种可能的实现方式中,所述当前译码块的所述语法值不用来表示所述当前译码块的具体的预测模式。
本发明第三方面公开了一种由解码设备实现的译码方法,包括:当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值,其中,所述当前变换块对应于所述当前译码块;当所述当前变换块的宽度大于或等于所述第一阈值且小于或等于所述第二阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换。
在一种可能的实现方式中,所述方法还包括:当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平方向变换。
本发明第四方面公开了一种由解码设备实现的译码方法,所述方法包括:当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
在一种可能的实现方式中,所述方法还包括:
当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
本发明第五方面公开了一种由解码设备实现的译码方法,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,当前变换块的宽度大于或等于第一阈值且小于或等于第二阈值,
且所述当前变换块的高度大于或等于第三阈值且小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块,
确定所述当前变换块对应的块宽高比的值是否大于第五阈值,
当所述块宽高比的值小于或等于所述第五阈值时,
变换核DST 7用于所述当前变换块的水平变换和垂直变换。
在一种可能的实现方式中,所述方法还包括:
当所述块宽高比的值大于所述第五阈值,且所述当前变换块的宽度小于所述当前变换块的高度时,
变换核DST 7用于所述当前变换块的水平变换,变换核DCT 2用于所述当前变换块的垂直变换。
在一种可能的实现方式中,所述方法还包括:
当所述块宽高比的值大于所述第五阈值,且所述当前变换块的宽度大于所述当前变换块的高度时,
变换核DCT 2用于所述当前变换块的水平变换,变换核DST 7用于所述当前变换块的垂直变换。
本发明第六方面公开了一种解码器(30),包括处理电路,用于执行上述任一方法实施例。
本发明第七方面公开了一种计算机程序产品,包括程序代码,用于执行上述任一方法实施例所述的方法。
本发明第八方面公开了一种解码器,包括:
一个或多个处理器;以及非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,在所述处理器执行所述程序时,所述程序使所述解码器执行上述任一方法实施例。
附图及以下说明中详细描述一个或多个实施例。其它特征、目的和优点在说明、附图以及权利要求中是显而易见的。
附图说明
下文结合附图对本发明实施例进行详细描述。在附图中:
图1A为用于实现本发明实施例的视频译码系统示例的框图;
图1B为用于实现本发明实施例的视频译码系统另一示例的框图;
图2为用于实现本发明实施例的视频编码器示例的框图;
图3为用于实现本发明实施例的视频解码器的示例性结构的框图;
图4为编码装置或解码装置示例的框图;
图5为编码装置或解码装置另一示例的框图;
图6为4×8和8×4块的划分示例;
图7是除4×8、8×4和4×4块之外的块的划分示例;
图8为用于实现内容分发业务的内容供应系统3100的示例结构的框图;
图9为终端设备的示例结构的框图。
在下文中,除非另外明确说明,否则相同的附图标记是指相同或至少功能上等效的特征。
具体实施方式
以下描述中,参考组成本发明一部分并以说明的方式示出本发明实施例的具体方面或可以使用本发明实施例的具体方面的附图。可以理解的是,本发明实施例可在其它方面中使用,并可包括附图中未描述的结构变化或逻辑变化。因此,以下详细描述不应以限制性的意义来理解,且本发明的范围由所附权利要求书界定。
可以理解的是,与所描述的方法有关的公开内容对于用于执行所述方法的对应设备或系统也同样适用,反之亦然。例如,如果描述一个或多个具体方法步骤,则对应的设备可以包括一个或多个单元(例如,功能单元)来执行所描述的一个或多个方法步骤(例如,一个单元执行一个或多个步骤,或多个单元各自执行多个步骤中的一个或多个步骤),即使附图中未明确描述或示出这种一个或多个单元。另一方面,例如,如果根据一个或多个单元(例如,功能单元)来描述具体装置,则对应的方法可以包括一个步骤来执行一个或多个单元的功能(例如,一个步骤执行一个或多个单元的功能,或多个步骤各自执行多个单元中的一个或多个单元的功能),即使附图中未明确描述或示出这种一个或多个单元。另外,可以理解的是,除非另外明确说明,本文中所描述的各个示例性实施例和/或方面的特征可以相互组合。
视频译码通常指对构成视频或视频序列的图像序列进行的处理。在视频译码领域中,术语“帧(frame)”与“图像(picture/image)”可以用作同义词。视频译码(或通常称为译码)包括视频编码和视频解码两部分。视频编码在源端执行,通常包括处理(例如,压缩)原始视频图像以减少表示视频图像所需的数据量(从而实现更高效存储和/或传输)。视频解码在目的地侧执行,通常包括相对于编码器作逆处理,以重建视频图像。实施例涉及的视频图像(或通常称为图像)的“译码”应理解为视频图像或相应视频序列的“编码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,CODEC)。
在无损视频译码情况下,可以重建原始视频图像,即重建的视频图像与原始视频图像具有相同的质量(假设存储或传输期间没有传输损耗或其它数据丢失)。在有损视频译码情况下,通过量化等执行进一步压缩,来减少表示视频图像的数据量,而解码器侧无法完全重建视频图像,即重建视频图像的质量比原始视频图像的质量低或差。
几个视频译码标准属于“有损混合视频编解码器”组(即,将样本域中的空间预测和时域预测与变换域中用于应用量化的2D变换译码结合)。视频序列中的每个图像通常划分为不重叠块集合,通常在块级进行译码。换句话说,编码器通常在块(视频块)级对视频进行处理(即编码),例如,通过空间(帧内)预测和/或时域(帧间)预测来生成预测块;从当前块(当前处理块/待处理块)中减去预测块,得到残差块;在变换域中变换残差块并量化残差块,以减少待发送(压缩)的数据量,而解码器侧将相对于编码器的逆处理部分应用于编码或压缩的块,以重建用于表示的当前块。另外,编码器和解码器处理步骤相同,使得编码器和解码器生成相同的预测(例如,帧内预测和帧间预测)和/或进行重建,以对后续块进行处理(即译码)。
在以下视频译码系统10的实施例中,根据图1至图3描述视频编码器20和视频解码器30。
图1A为示例译码系统10的示意性框图,例如可以利用本申请技术的视频译码系统10(或简称为译码系统10)。视频译码系统10中的视频编码器20(或简称为编码器20)和视频解码器30(或简称为解码器30)为可用于根据本申请中描述的各种示例执行各技术的设备示例。
如图1A所示,译码系统10包括源设备12,源设备12用于将经编码的图像数据21提供到目的地设备14等以对经编码的图像数据21进行解码。
源设备12包括编码器20,并且可以另外(即可选地)包括图像源16、预处理器(或预处理单元)18(例如,图像预处理器18)和通信接口或通信单元22。
图像源16可以包括或可以是任何类型的图像捕获设备,例如用于捕获真实世界图像的摄像机;和/或任何类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器;或者任何类型的用于获取和/或提供真实世界图像、计算机生成图像(例如屏幕内容、虚拟现实(virtual reality,VR)图像)和/或其任何组合(例如,增强现实(augmentedreality,AR)图像)的其它设备。图像源可以为存储任一上述图像的任何类型的存储器(memory/storage)。
为了区分预处理器18和预处理单元18执行的处理,图像或图像数据17也可以称为原始图像或原始图像数据17。
预处理器18用于接收(原始)图像数据17,并对图像数据17执行预处理,得到经预处理的图像19或经预处理的图像数据19。预处理器18执行的预处理可包括修剪(trimming)、颜色格式转换(例如从RGB转换为YCbCr)、调色或去噪等。可以理解的是,预处理单元18可以为可选组件。
视频编码器20用于接收经预处理的图像数据19并提供经编码的图像数据21(下面将根据图2等进一步详细描述)。
源设备12中的通信接口22可以用于接收经编码的图像数据21,并通过通信信道13将经编码的图像数据21(或对经编码的图像数据21进一步处理后得到的数据)发送到另一设备(例如目的地设备14)或任何其它设备,以便进行存储或直接重建。
目的地设备14包括解码器30(例如,视频解码器30),另外即可选地,可包括通信接口或通信单元28、后处理器32(或后处理单元32)和显示设备34。
目的地设备14中的通信接口28用于直接从源设备12或从存储设备等任意其它源设备接收经编码的图像数据21(或对经编码的图像数据21进一步处理后得到的数据),例如,存储设备为编码图像数据存储设备,并将经编码的图像数据21提供给解码器30。
通信接口22和通信接口28可以用于通过源设备12与目的地设备14之间的直接通信链路(例如,直接有线或无线连接)或者通过任何类型的网络(例如,有线网络、无线网络或其任何组合,或者任何类型的私网和公网或其任何类型的组合)发送或接收经编码的图像数据21或经编码的数据13。
例如,通信接口22可以用于将经编码的图像数据21封装成合适的格式(例如,报文),和/或通过任何类型的传输编码或处理方式来处理经编码的图像数据,以便通过通信链路或通信网络进行传输。
例如,与通信接口22对应的通信接口28可以用于接收传输数据,并通过任何类型的对应传输解码或处理和/或解封装方式来处理传输数据,得到经编码的图像数据21。
通信接口22和通信接口28均可配置为图1A中从源设备12指向目的地设备14的通信信道13的箭头所表示的单向通信接口,或者配置为双向通信接口,并且可以用于发送和接收消息等,以建立连接、确认并交换与通信链路和/或数据传输(例如经编码的图像数据传输)相关的任何其它信息等。
解码器30用于接收经编码的图像数据21并提供经解码的图像数据31或经解码的图像31(下面将根据图3或图5等进一步详细描述)。
目的地设备14的后处理器32用于对经解码的图像数据31(也称为重建图像数据)(例如,经解码的图像31)进行后处理,以获得经后处理的图像数据33(例如,经后处理的图像33)。后处理单元32执行的后处理可以包括例如颜色格式转换(例如,从YCbCr转换为RGB)、调色、修剪或重采样,或者用于产生供显示设备34等显示的经解码的图像数据31等任何其它处理。
目的地设备14中的显示设备34用于接收经后处理的图像数据33,以向用户或观看者等显示图像。显示设备34可以为或包括用于表示重建图像的任意类型的显示器,例如,集成或外部显示屏或显示器。例如,显示器可以包括液晶显示器(liquid crystal display,LCD)、有机发光二极管(organic light emitting diode,OLED)显示器、等离子显示器、投影仪、微LED显示器、硅基液晶(liquid crystal on silicon,LCoS)、数字光处理器(digital light processor,DLP)或任何类型的其它显示器。
尽管图1A将源设备12和目的地设备14作为单独的设备进行描述,但是设备实施例还可以包括两种设备或两种功能,即源设备12或对应功能以及目的地设备14或对应功能。在这些实施例中,可以使用相同的硬件和/或软件或使用单独的硬件和/或软件或其任何组合来实现源设备12或对应功能以及目的地设备14或对应功能。
根据描述,图1A所示的源设备12和/或目的地设备14中的不同单元或功能的存在和(准确)划分可能根据实际设备和应用而有所不同,这对技术人员来说是显而易见的。
编码器20(例如视频编码器20)或解码器30(例如视频解码器30),或编码器20和解码器30两者均可通过如图1B所示的处理电路实现,例如一个或多个微处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specificintegrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件、视频译码专用处理器或其任意组合。编码器20可以由处理电路46实现,以包含参照图2中的编码器20论述的各种模块和/或本文描述的任何其它编码器系统或子系统。解码器30可以通过处理电路46实现,以包含参照图3解码器30论述的各种模块和/或本文描述的任何其它解码器系统或子系统。所述处理电路可用于执行下文描述的各种操作。如图5所示,如果上述技术部分在软件中实现,则设备可以将软件的指令存储在合适的非瞬时性计算机可读存储介质中,并且可以使用一个或多个处理器在硬件中执行指令,以执行本发明技术。视频编码器20和视频解码器30中的其中一个可作为组合编解码器(encoder/decoder,CODEC)的一部分集成在单个设备中,如图1B所示。
源设备12和目的地设备14可以包括多种设备中的任一种,包括任何类型的手持或固定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板电脑(tablet/tabletcomputer)、摄像机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏机、视频流设备(如内容服务服务器或内容分发服务器)、广播接收器设备、广播发射器设备等,并且可以不使用或使用任何类型的操作系统。在一些情况下,可以配备源设备12和目的地设备14以用于无线通信。因此,源设备12和目的地设备14可以是无线通信设备。
在一些情况下,图1A所示的视频译码系统10仅仅是示例性的,本申请提供的技术可适用于视频译码设置(例如,视频编码或视频解码),这些设置不一定包括编码设备与解码设备之间的任何数据通信。在其它示例中,数据从本地存储器中检索,通过网络传输,等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备可以从存储器检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而只是将数据编码到存储器和/或从存储器检索数据并对数据进行解码的设备来执行。
为便于描述,本文参考由ITU-T视频译码专家组(Video Coding Experts Group,VCEG)和ISO/IEC运动图像专家组(Motion Picture Experts Group,MPEG)的视频译码联合工作组(Joint Collaboration Team on Video Coding,JCT-VC)开发的高效视频译码(High-Efficiency Video Coding,HEVC)或通用视频译码(Versatile Video Coding,VVC)(下一代视频译码标准)参考软件等描述本发明实施例。本领域普通技术人员理解本发明实施例不限于HEVC或VVC。
编码器和编码方法
图2为用于实现本申请技术的示例视频编码器20的示意性框图。在图2的示例中,视频编码器20包括输入端201(或输入接口201)、残差计算单元204、变换处理单元206、量化单元208、反量化单元210和逆变换处理单元212、重建单元214、环路滤波器单元220、解码图像缓冲区(decoded picture buffer,DPB)230、模式选择单元260、熵编码单元270和输出端272(或输出接口272)。模式选择单元260可以包括帧间预测单元244、帧内预测单元254和划分单元262。帧间预测单元244可以包括运动估计单元和运动补偿单元(未示出)。图2所示的视频编码器20也可以称为混合视频编码器或根据混合视频编解码器的视频编码器。
残差计算单元204、变换处理单元206、量化单元208和模式选择单元260可以组成编码器20的前向信号路径,而反量化单元210、逆变换处理单元212、重建单元214、缓冲区216、环路滤波器220、解码图像缓冲区(decoded picture buffer,DPB)230、帧间预测单元244和帧内预测单元254可以组成视频编码器20的后向信号路径,其中,视频编码器20的后向信号路径对应于解码器(参见图3中的视频解码器30)的信号路径。反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲区(decoded picturebuffer,DPB)230、帧间预测单元244和帧内预测单元254还组成视频编码器20的“内置解码器”。
图像和图像划分(图像和块)
编码器20可以用于通过输入端201等接收图像17(或图像数据17),例如形成视频或视频序列的图像序列中的图像。接收到的图像或图像数据也可以是经预处理的图像19(或经预处理的图像数据19)。为简单起见,以下描述使用图像17。图像17也可以称为当前图像或待编码图像(尤其是在视频译码中将当前图像与同一视频序列(即同样包括当前图像的视频序列)中的其它图像(例如先前的经编码和/或解码的图像)区分开)。
(数字)图像为或可以视为具有强度值的样本组成的二维阵列或矩阵。阵列中的样本也可以称为像素(pixel/pel)(图像元素的简称)。阵列或图像的水平方向和垂直方向(或轴线)上的样本数量限定了图像的尺寸和/或分辨率。通常采用三个颜色分量来表示颜色,即图像可以表示为或包括三个样本阵列。在RGB格式或颜色空间中,图像包括对应的红色、绿色和蓝色样本阵列。但是,在视频译码中,每个像素通常由亮度和色度格式或在颜色空间中表示,例如,YCbCr,包括Y表示的亮度分量(有时也用L表示)和Cb和Cr表示的两个色度分量。亮度(luminance,简称luma)分量Y表示亮度或灰度级强度(例如,在灰度图像中),而两个色度(chrominance,简称chroma)分量Cb和Cr表示色度或颜色信息分量。相应地,YCbCr格式的图像包括亮度样值(Y)的亮度样本阵列和色度值(Cb和Cr)的两个色度样本阵列。RGB格式的图像可以转换或变换成YCbCr格式,反之亦然,该过程也称为颜色转换或颜色变换。如果图像是单色的,则该图像可以仅包括亮度样本阵列。相应地,例如,图像可以为单色格式的亮度样本阵列或4:2:0、4:2:2和4:4:4彩色格式的亮度样本阵列和两个对应的色度样本阵列。
视频编码器20的实施例可以包括图像划分单元(图2中未示出),用于将图像17划分成多个(通常不重叠)图像块203。这些块也可以称为根块、宏块(H.264/AVC),或编码树块(coding tree block,CTB)或编码树单元(coding tree unit,CTU)(H.265/HEVC和VVC)。图像划分单元可以用于对视频序列中的所有图像使用相同的块尺寸和使用限定块尺寸的对应网格,或者在图像或图像子集或图像组之间改变块尺寸,并将每个图像划分成对应块。
在其它实施例中,视频编码器可以用于直接接收图像17中的块203,例如组成图像17的一个、几个或所有块。图像块203也可以称为当前图像块或待编码图像块。
与图像17类似,图像块203同样是或可认为是具有强度值(样值)的样本组成的二维阵列或矩阵,但是图像块203的尺寸比图像17的尺寸小。换句话说,块203可以包括一个样本阵列(例如,单色图像17情况下的亮度阵列或彩色图像情况下的亮度阵列或色度阵列)或三个样本阵列(例如,彩色图像17情况下的一个亮度阵列和两个色度阵列)或根据所采用的颜色格式的任何其它数量和/或类型的阵列。块203的水平方向和垂直方向(或轴线)上的样本数量限定了块203的尺寸。相应地,块可以为M×N(M列×N行)个样本阵列,或M×N个变换系数阵列等。
图2所示的视频编码器20用于逐块对图像17进行编码,例如,对每个块203执行编码和预测。
图2所示的视频编码器20的实施例还可以用于使用条带(也称为视频条带)对图像进行划分和/或编码,其中,可以使用一个或多个条带(通常为不重叠的)对图像进行划分或编码,并且每个条带可以包括一个或多个块(例如,CTU)。
图2所示的视频编码器20的实施例还可以用于使用分块组(也称为视频分块组)和/或分块(也称为视频分块)对图像进行划分和/或编码,其中,可以使用一个或多个分块组(通常为不重叠的)对图像进行划分或编码,每个分块组可以包括一个或多个块(例如,CTU)或一个或多个分块等,其中,每个分块可以为矩形等形状,可以包括一个或多个块(例如,CTU),例如完整或部分块。
残差计算
残差计算单元204可以用于通过如下方式根据图像块203和预测块265(后续详细介绍了预测块265)来计算残差块205(还称为残差205)以获得样本域中的残差块205:例如,逐个样本(逐个像素)从图像块203的样值中减去预测块265的样值。
变换
变换处理单元206可以用于对残差块205的样值进行离散余弦变换(discretecosine transform,DCT)或离散正弦变换(discrete sine transform,DST)等变换,得到变换域中的变换系数207。变换系数207也可以称为变换残差系数,表示变换域中的残差块205。
变换处理单元206可用于应用DCT/DST的整数近似,如对H.265/HEVC指定的变换。与正交DCT变换相比,这种整数近似通常通过某一因子按比例缩放(scale)。为了维持经过正变换和逆变换处理的残差块的范数,使用其它缩放因子作为变换过程的一部分。缩放因子通常是根据某些约束条件来选择的,例如缩放因子是用于移位运算的2的幂、变换系数的位深度、准确性与实现成本之间的权衡等。例如,通过逆变换处理单元212等为逆变换(以及在视频解码器30侧通过逆变换处理单元312等为对应的逆变换)指定具体的缩放因子;相应地,可以在编码器20侧,通过变换处理单元206等为正变换指定对应的缩放因子。
视频编码器20(相应地变换处理单元206)的实施例可以用于直接或通过熵编码单元270编码或压缩等输出变换参数(例如,一种或多种变换的类型),使得例如视频解码器30可以接收并使用变换参数进行解码。
量化
量化单元208可以用于通过应用标量量化或矢量量化等对变换系数207进行量化,以获得量化系数209。量化系数209也可以称为经量化的变换系数209或经量化的残差系数209。
量化过程可以降低与一些或全部变换系数207相关的位深度。例如,可以在量化期间将n位变换系数向下舍入到m位变换系数,其中n大于m。可以通过调整量化参数(quantization parameter,QP)修改量化程度。例如,对于标量量化,可以应用不同程度的缩放来实现较细或较粗的量化。较小量化步长对应于较细量化,而较大量化步长对应于较粗量化。可通过量化参数(quantization parameter,QP)表示合适的量化步长。例如,量化参数可以为合适的量化步长的预定义集合的索引。例如,较小的量化参数可以对应于精细量化(较小量化步长),较大的量化参数可以对应于粗糙量化(较大量化步长),反之亦然。量化可以包括除以量化步长,而反量化单元210等执行的对应解量化和/或对应反解量化可以包括乘以量化步长。根据HEVC等一些标准的实施例可以使用量化参数来确定量化步长。通常,可以根据量化参数使用包括除法的方程的定点近似来计算量化步长。可以引入其它缩放因子来进行量化和解量化,以恢复可能由于在量化步长和量化参数的等式的定点近似中使用的缩放而修改的残差块的范数。在一种示例实现方式中,可以合并逆变换和解量化的缩放。或者,可以使用自定义量化表并在码流中等将自定义量化表从编码器向解码器指示(signal)。量化是有损操作,其中,量化步长越大,损耗越大。
视频编码器20(对应地量化单元208)的实施例可以用于例如直接输出或由熵编码单元270进行编码后输出量化参数(quantization parameter,QP),使得例如视频解码器30可以接收并使用量化参数进行解码。
反量化
反量化单元210用于对量化系数进行量化单元208的反量化,得到解量化系数211,例如根据或使用与量化单元208相同的量化步长,执行与量化单元208所执行的量化方案的反量化方案。解量化系数211也可以称为解量化残差系数211,对应于变换系数207,但是由于量化造成的损耗,解量化系数211通常与变换系数不同。
逆变换
逆变换处理单元212用于执行变换处理单元206执行的变换的逆变换,例如逆离散余弦变换(discrete cosine transform,DCT)或逆离散正弦变换(discrete sinetransform,DST),得到样本域中的重建残差块213(或对应的解量化系数213)。重建残差块213也可称为变换块213。
重建
重建单元214(例如,加法器或求和器214)用于通过如下方式将变换块213(即重建残差块213)添加到预测块265以得到样本域中的重建块215:例如,逐个样本将重建残差块213的样值和预测块265的样值相加。
滤波
环路滤波器单元220(或简称“环路滤波器”220)用于对重建块215进行滤波,得到经滤波的块221,或一般用于对重建样本进行滤波,得到经滤波的样本。例如,环路滤波器单元用于平滑像素转变或提高视频质量。环路滤波器单元220可以包括一个或多个环路滤波器,例如去块效应滤波器、样本自适应偏移(sample-adaptive offset,SAO)滤波器或者一个或多个其它滤波器,例如双边滤波器、自适应环路滤波器(adaptive loop filter,ALF)、锐化或平滑滤波器、协同滤波器,或其任意组合。尽管环路滤波器单元220在图2中示为环内滤波器,但是在其它配置中,环路滤波器单元220可以实现为后环路滤波器。经滤波的块221也可称为经滤波的重建块221。
视频编码器20(相应地环路滤波器单元220)的实施例可用于直接或通过熵编码单元270编码等输出环路滤波器参数(如样本自适应偏移信息),使得例如解码器30可以接收和应用相同环路滤波器参数或相应的环路滤波器进行解码。
解码图像缓冲区
解码图像缓冲区(decoded picture buffer,DPB)230可以是存储参考图像或一般存储参考图像数据以供视频编码器20在对视频数据进行编码时使用的存储器。DPB 230可以由多种存储器设备中的任一种形成,例如动态随机存取存储器(dynamic random accessmemory,DRAM),包括同步DRAM(synchronous DRAM,SDRAM)、磁阻RAM(magnetoresistiveRAM,MRAM)、电阻RAM(resistive RAM,RRAM)或其它类型的存储器设备。解码图像缓冲区(decoded picture buffer,DPB)230可以用于存储一个或多个经滤波的块221。解码图像缓冲区230还可以用于存储同一个当前图像或不同图像(例如先前的重建图像)中的其它先前经滤波的块(例如先前经滤波的重建块221),并可以提供先前完整的重建(即解码)图像(和对应的参考块和样本)和/或部分重建的当前图像(和对应的参考块和样本),以进行帧间预测等。如果重建块215未由环路滤波器单元220进行滤波,则解码图像缓冲区(decodedpicture buffer,DPB)230还可以用于存储一个或多个未经滤波的重建块215,或一般存储未经滤波的重建样本,或未进行任何其它处理的重建块或重建样本。
模式选择(划分和预测)
模式选择单元260包括划分单元262、帧间预测单元244和帧内预测单元254,并且用于从解码图像缓冲区230或其它缓冲区(例如行缓冲区,图中未示出)接收或获取原始块203(当前图像17中的当前块203)等原始图像数据以及重建图像数据(例如同一个(当前)图像和/或一个或多个先前经解码的图像中的经滤波和/或未经滤波的重建样本或块)。重建图像数据用作帧间预测或帧内预测等预测所需的参考图像数据,以得到预测块265或预测值265。
模式选择单元260可以用于为当前块预测模式(包括不划分)确定或选择一种划分以及确定或选择一种预测模式(例如帧内预测模式或帧间预测模式),生成对应的预测块265,以对残差块205进行计算和对重建块215进行重建。
模式选择单元260的实施例可以用于选择划分和预测模式(例如从模式选择单元260支持的或可用的预测模式中选择),所述预测模式提供最佳匹配或者说最小残差(最小残差是指传输或存储中更好的压缩),或者提供最小指示(signaling)开销(最小指示开销是指传输或存储中更好的压缩),或者同时考虑或平衡以上两者。模式选择单元260可以用于根据率失真优化(rate distortion optimization,RDO)确定划分和预测模式,即选择提供最小率失真的预测模式。本文中“最佳”、“最小”、“最优”等术语不一定指总体上“最佳”、“最小”、“最优”等,也可以指满足终止或选择标准的情况,例如,某个值超过或低于阈值或其它限制,可能导致“次优选择”,但会降低复杂度和处理时间。
换句话说,划分单元262可以用于通过如下方式将块203划分成较小的块部分或子块(再次形成块):例如,通过迭代使用四叉树(quad-tree,QT)划分、二叉树(binary-tree,BT)划分或三叉树(triple-tree,TT)划分或其任意组合,并且用于例如对块部分或子块中的每一个执行预测,其中,模式选择包括选择划分块203的树结构和选择块部分或子块中的每一个所使用的预测模式。
下文将详细地描述由视频编码器20执行的划分(例如,由划分单元260执行)和预测处理(由帧间预测单元244和帧内预测单元254执行)。
划分
划分单元262可以将当前块203划分(或划分)为较小的部分,例如正方形或矩形尺寸的较小块。可以将这些较小块(也可以称为子块)进一步划分为甚至更小的部分。这也称为树划分或分层树划分。在根树级别0(层次级别0、深度0)等的根块可以递归地划分成两个或更多下一个较低树级别的块,例如树级别1(层次级别1、深度1)的节点。这些块可以又划分成两个或更多下一个较低级别的块,例如树级别2(层次级别2、深度2)等,直到划分结束(因为满足结束标准,例如达到最大树深度或最小块尺寸)。未进一步划分的块也称为树的叶块或叶节点。划分为两个部分的树称为二叉树(binary-tree,BT),划分为三个部分的树称为三叉树(ternary-tree,TT),划分为四个部分的树称为四叉树(quad-tree,QT)。
如前所述,如本文使用的术语“块”可以是图像的一部分,具体是正方形或矩形部分。例如,参照HEVC和VVC,块可以为或可以对应于译码树单元(coding tree unit,CTU)、译码单元(coding unit,CU)、预测单元(prediction unit,PU)和变换单元(transform unit,TU)和/或对应的块,例如译码树块(coding tree block,CTB)、译码块(coding block,CB)、变换块(transform block,TB)或预测块(prediction block,PB)。
例如,译码树单元(coding tree unit,CTU)可以为或可以包括具有3个样本阵列的图像中的亮度样本的一个CTB、该图像中的色度样本的两个对应CTB,或者单色图像中的或使用3个单独颜色平面和语法结构进行译码的图像中的样本的一个CTB。这些语法结构用于对样本进行译码。相应地,编码树块(coding tree block,CTB)可以为N×N个样本块,其中,N可以设为某个值,从而将分量划分为多个CTB,这就是划分。译码单元(coding unit,CU)可以为或包括具有三个样本阵列的图像的亮度样本的一个译码块、色度样本的两个对应译码块,或单色图像或使用用于对样本进行译码的三个独立颜色平面和语法结构译码的图像的样本的一个译码块。相应地,译码块(coding block,CB)可以为M×N个样本块,其中,M和N可以设为某个值,从而将CTB划分为多个译码块,这就是划分。
在实施例中,例如根据HEVC,可以通过表示为译码树的四叉树结构将译码树单元(coding tree unit,CTU)划分为多个CU。在CU级决定是否使用帧间(时域)预测或帧内(空间)预测对图像区域进行译码。每个CU可以根据PU划分类型进一步划分为一个、两个或四个PU。一个PU内应用相同的预测过程,并以PU为单位向解码器发送相关信息。在根据PU划分类型执行预测过程得到残差块之后,可以根据类似于用于CU的编码树的其它四叉树结构将CU划分成变换单元(transform unit,TU)。
在实施例中,例如根据当前开发的称为通用视频译码(versatile video coding,VVC)的最新视频译码标准,使用组合的四叉树和二叉树(quad-tree and binary tree,QTBT)划分来划分译码块。在QTBT块结构中,CU可以为正方形或矩形。例如,编码树单元(coding tree unit,CTU)首先通过四叉树结构进行划分。四叉树叶节点进一步通过二叉树或三叉(ternary/triple)树结构进行划分。划分树叶节点称为编码单元(coding unit,CU),该划分用于预测和变换处理,无需任何进一步划分。即,在QTBT译码块结构中,CU、PU和TU的块尺寸相同。同时,可以将三叉树划分等多重划分与QTBT块结构结合使用。
在一个示例中,视频编码器20中的模式选择单元260可以用于执行本文描述的划分技术的任意组合。
如上所述,视频编码器20用于从(例如预定的)预测模式集合中确定或选择最好或最优的预测模式。预测模式集合可以包括帧内预测模式和/或帧间预测模式等。
帧内预测
帧内预测模式集合可以包括35种不同的帧内预测模式,例如,如DC(或均值)模式和平面模式等非方向性模式,或如HEVC中定义的方向性模式,或者可以包括67种不同的帧内预测模式,例如,如DC(或均值)模式和平面模式等非方向性模式,或如针对VVC定义的方向性模式。
帧内预测单元254用于根据帧内预测模式集合中的帧内预测模式,使用同一个当前图像中的邻块的重建样本来生成帧内预测块265。
帧内预测单元254(或通常为模式选择单元260)还用于将帧内预测参数(或通常为表示块的选定帧内预测模式的信息)以语法元素266的形式输出到熵编码单元270,以包括到经编码的图像数据21中,使得(例如)视频解码器30可以接收并使用预测参数进行解码。
帧间预测
(可能的)帧间预测模式集合基于可用参考图像(即,例如前述存储在DPB 230中的至少部分解码的图像)和其它帧间预测参数,例如基于是否使用整个参考图像或只使用参考图像的一部分,例如当前块的区域周围的搜索窗口区域,来搜索最佳匹配参考块,和/或例如基于是否执行像素插值,例如二分之一/半像素插值和/或四分之一像素插值。
除上述预测模式外,还可以应用跳过模式和/或直接模式。
帧间预测单元244可以包括运动估计(motion estimation,ME)单元和运动补偿(motion compensation,MC)单元(两者在图2中未示出)。运动估计单元可以用于接收或获取图像块203(当前图像17中的当前图像块203)和经解码的图像231,或者至少一个或多个先前的重建块(例如一个或多个其它/不同先前的经解码的图像231中的重建块),以进行运动估计。例如,视频序列可以包括当前图像和先前经解码的图像231,或换句话说,当前图像和先前经解码的图像231可以为组成视频序列的图像序列的一部分或组成该图像序列。
例如,编码器20可用于从多个其它图像中的相同或不同图像的多个参考块中选择参考块,并将参考图像(或参考图像索引)和/或参考块的位置(x坐标、y坐标)与当前块的位置之间的偏移(空间偏移)作为帧间预测参数提供给运动估计单元。这种偏移也称为运动矢量(motion vector,MV)。
运动补偿单元用于获取(例如接收)帧间预测参数,并根据或使用帧间预测参数执行帧间预测,得到帧间预测块265。由运动补偿单元执行的运动补偿可以包括根据通过运动估计确定的运动/块矢量来提取或生成预测块,还可以包括对子像素精度执行插值。插值滤波可以根据已知像素的样本生成其它像素的样本,从而潜在地增加可以用于对图像块进行译码的候选预测块的数量。在接收到当前图像块对应的PU的运动矢量时,运动补偿单元可以在其中一个参考图像列表中定位运动矢量指向的预测块。
运动补偿单元还可以生成与块和视频条带(slice)相关的语法元素,以供视频解码器30在解码视频条带的图像块时使用。除了条带和相应语法元素或作为条带和相应语法元素的替代,还可以生成或使用分块组(tile group)和/或分块(tile)以及相应语法元素。
熵译码
熵编码单元270用于将熵编码算法或方案(例如可变长度译码(variable lengthcoding,VLC)方案、上下文自适应VLC(context adaptive VLC scheme,CAVLC)方案、算术译码方案、二值化,上下文自适应二进制算术译码(context adaptive binary arithmeticcoding,CABAC)、基于语法的上下文自适应二进制算术译码(syntax-based context-adaptive binary arithmetic coding,SBAC)、概率区间划分熵(probability intervalpartitioning entropy,PIPE)译码或其它熵编码方法或技术)等应用于或不应用于(无压缩)量化系数209、帧间预测参数、帧内预测参数、环路滤波器参数和/或其它语法元素,得到可以通过输出端272以经编码的码流21等形式输出的经编码的图像数据21,使得例如视频解码器30可以接收并使用这些参数进行解码。可以将经编码的码流21发送到视频解码器30,或者将其存储在存储器中稍后由视频解码器30发送或检索。
可以使用其它接收形式的视频编码器20对视频流进行编码。例如,基于非变换的编码器20可以在没有变换处理单元206的情况下直接量化某些块或帧的残差信号。在另一种实现方式中,编码器20可以具有组合成单个单元的量化单元208和反量化单元210。
解码器和解码方法
图3示出了用于实现本申请技术的视频解码器30的示例。视频解码器30用于接收例如由编码器20编码的经编码的图像数据21(例如经编码的码流21),得到经解码的图像331。经编码的图像数据或码流包括用于对所述经编码的图像数据进行解码的信息,例如表示经编码的视频条带(和/或分块组或分块)的图像块的数据和相关的语法元素。
在图3的示例中,解码器30包括熵解码单元304、反量化单元310、逆变换处理单元312、重建单元314(例如求和器314)、环路滤波器320、解码图像缓冲区(decoded picturebuffer,DPB)330、模式应用单元360、帧间预测单元344和帧内预测单元354。帧间预测单元344可以为或包括运动补偿单元。在一些示例中,视频解码器30可以执行大体上与参照图2的视频编码器100描述的编码回合互逆的解码回合。
如参照编码器20所述,反量化单元210、逆变换处理单元212、重建单元214、环路滤波器220、解码图像缓冲区(decoded picture buffer,DPB)230、帧间预测单元344和帧内预测单元354也称为组成视频编码器20的“内置解码器”。相应地,反量化单元310在功能上可以与反量化单元110相同,逆变换处理单元312在功能上可以与逆变换处理单元212相同,重建单元314在功能上可以与重建单元214相同,环路滤波器320在功能上可以与环路滤波器220相同,解码图像缓冲区330在功能上可以与解码图像缓冲区230相同。因此,视频编码器20的相应单元和功能的解释相应地适用于视频解码器30的相应单元和功能。
熵解码
熵解码单元304用于解析码流21(或一般为经编码的图像数据21)并对经编码的图像数据21执行熵解码等,得到量化系数309和/或经解码的译码参数(图3中未示出)等,例如帧间预测参数(例如参考图像索引和运动矢量)、帧内预测参数(例如帧内预测模式或索引)、变换参数、量化参数、环路滤波器参数和/或其它语法元素中的任一个或全部。熵解码单元304可以用于应用与参照编码器20中的熵编码单元270描述的编码方案对应的解码算法或方案。熵解码单元304还可以用于向模式应用单元360提供帧间预测参数、帧内预测参数和/或其它语法元素,以及向解码器30的其它单元提供其它参数。视频解码器30可以接收视频条带级和/或视频块级的语法元素。除了条带和相应语法元素或作为条带和相应语法元素的替代,还可以接收和/或使用分块组和/或分块以及相应语法元素。
反量化
反量化单元310可以用于从经编码的图像数据21(例如通过熵解码单元304等解析和/或解码)接收量化参数(quantization parameter,QP)(或一般为与反量化相关的信息)和量化系数,并根据这些量化参数对经解码的量化系数309进行反量化,得到解量化系数311。解量化系数311也可以称为变换系数311。反量化过程可以包括使用视频编码器20对视频条带(或分块或分块组)中的每个视频块确定的量化参数来确定量化程度,同样确定需要进行的反量化的程度。
逆变换
逆变换处理单元312可以用于接收解量化系数311(也称为变换系数311),并对解量化系数311进行变换,得到样本域中的重建残差块213。重建残差块213也可以称为变换块313。变换可以为逆变换,例如逆DCT、逆DST、逆整数变换或概念上类似的逆变换过程。逆变换处理单元312还可以用于从经编码的图像数据21(例如通过熵解码单元304等解析和/或解码)接收变换参数或对应的信息,以确定要对解量化系数311进行的变换。
重建
重建单元314(例如,加法器或求和器314)可以用于通过如下方式将重建残差块313添加到预测块365以得到样本域中的重建块315:例如,将重建残差块313中的样值和预测块365中的样值相加。
滤波
环路滤波器单元320(在译码环路中或之后)用于对重建块315进行滤波,得到经滤波的块321,例如,以平滑像素转变或以其它方式提高视频质量等。环路滤波器单元320可以包括一个或多个环路滤波器,例如去块效应滤波器、样本自适应偏移(sample-adaptiveoffset,SAO)滤波器或者一个或多个其它滤波器,例如双边滤波器、自适应环路滤波器(adaptive loop filter,ALF)、锐化或平滑滤波器、协同滤波器,或其任意组合。尽管环路滤波器单元320在图3中示为环内滤波器,但是在其它配置中,环路滤波器单元320可以实现为后环路滤波器。
解码图像缓冲区
然后,将图像的解码视频块321存储在解码图像缓冲区330中,所述解码图像缓冲区330存储作为参考图像的解码图像331,这些参考图像用于其它图像的后续运动补偿和/或用于分别输出到显示器。
解码器30用于通过输出端312等输出解码图像311,向用户显示或供用户观看。
预测
帧间预测单元344可以与帧间预测单元244(具体地运动补偿单元)相同,帧内预测单元354在功能上可以与帧内预测单元254相同,并根据从经编码的图像数据21(例如,通过熵解码单元304等解析和/或解码)接收的划分和/或预测参数或相应的信息来决定划分或划分和执行预测。模式应用单元360可以用于根据重建图像、块或相应的样本(经滤波或未经滤波)执行每个块的预测(帧内预测或帧间预测),得到预测块365。
当将视频条带译码为帧内译码(I)条带时,模式应用单元360的帧内预测单元354用于根据指示的帧内预测模式和来自当前图像的先前解码块的数据生成当前视频条带的图像块的预测块365。当将视频图像译码为帧间译码(即,B或P)条带时,模式应用单元360的帧间预测单元344(例如,运动补偿单元)用于根据运动矢量和从熵解码单元304接收的其它语法元素产生当前视频条带的视频块的预测块365。对于帧间预测,可以根据其中一个参考图像列表内的其中一个参考图像产生这些预测块。视频解码器30可以根据存储在DPB 330中的参考图像,使用默认构建技术来构建参考帧列表:列表0和列表1。除了条带(例如,视频条带)或作为条带的替代,相同或类似的过程可以应用于使用分块组(例如,视频分块组)和/或分块(例如,视频分块)的实施例或由这些实施例应用,例如可以使用I、P或B分块组和/或分块对视频进行译码。
模式应用单元360用于通过解析运动矢量或相关信息和其它语法元素,确定当前视频条带的视频块的预测信息,并使用预测信息产生用于正在解码的当前视频块的预测块。例如,模式应用单元360使用接收到的一些语法元素确定用于对视频条带的视频块进行译码的预测模式(例如,帧内预测或帧间预测)、帧间预测条带类型(例如,B条带、P条带或GPB条带)、用于条带的一个或多个参考图像列表的构建信息、用于条带的每个经帧间编码的视频块的运动矢量、用于条带的每个经帧间译码的视频块的帧间预测状态,以及其它信息,以对当前视频条带中的视频块进行解码。除了条带(例如,视频条带)或作为条带的替代,相同或类似的过程可以应用于使用分块组(例如,视频分块组)和/或分块(例如,视频分块)的实施例或由这些实施例应用,例如可以使用I、P或B分块组和/或分块对视频进行译码。
图3中所示的视频解码器30的实施例可用于使用条带(也称为视频条带)对图像进行划分和/或解码,其中,可以使用一个或多个条带(通常不重叠的)对图像进行划分或解码,并且每个条带可以包括一个或多个块(例如,CTU)。
图3所示的视频解码器30的实施例可以用于使用分块组(也称为视频分块组)和/或分块(也称为视频分块)对图像进行划分和/或解码,其中,可以使用一个或多个分块组(通常为不重叠的)对图像进行划分或解码,每个分块组可以包括一个或多个块(例如,CTU)或一个或多个分块等,其中,每个分块可以为矩形等形状,可以包括一个或多个块(例如,CTU),例如完整或部分块。
可以使用其它形式的视频解码器30对经编码的图像数据21进行解码。例如,解码器30可以在没有环路滤波器单元320的情况下产生输出视频流。例如,基于非变换的解码器30可以在没有逆变换处理单元312的情况下直接反量化某些块或帧的残差信号。在另一种实现方式中,视频解码器30可以具有组合成单个单元的反量化单元310和逆变换处理单元312。
应理解,在编码器20和解码器30中,可以对当前步骤的处理结果进一步处理,然后输出到下一步骤。例如,在插值滤波、运动矢量推导或环路滤波之后,可以对插值滤波、运动矢量推导或环路滤波的处理结果进行进一步的运算,如修正(clip)或移位(shift)运算。
需要注意的是,可以对当前块的推导运动矢量(包括但不限于仿射模式的控制点运动矢量,仿射模式、平面模式、ATMVP模式的子块运动矢量,时域运动矢量等)进行进一步运算。例如,根据运动矢量的表示位将运动矢量的值限制在预定义范围。如果运动矢量的表示位为bitDepth,则范围为–2^(bitDepth–1)至2^(bitDepth–1)–1,其中“^”表示幂次方。例如,如果bitDepth设置为16,则范围为–32768~32767;如果bitDepth设置为18,则范围为–131072~131071。例如,推导运动矢量(例如一个8×8块中的4个4×4子块的MV)限制,使得4个4×4子块MV的整数部分之间的最大差值不超过N个像素,例如不超过1个像素。这里提供了两种根据bitDepth限制运动矢量的方法。
方法1:通过平滑操作来去除溢出的最高有效位(most significant bit,MSB)
ux=(mvx+2bitDepth)%2bitDepth (1)
mvx=(ux>=2bitDepth–1)?(ux–2bitDepth):ux (2)
uy=(mvy+2bitDepth)%2bitDepth (3)
mvy=(uy>=2bitDepth–1)?(uy–2bitDepth):uy (4)
其中,mvx为一个图像块或子块的运动矢量中的水平分量,mvy为一个图像块或子块的运动矢量中的垂直分量,ux和uy中间值。
例如,如果mvx的值为–32769,则使用公式(1)和(2)之后得到的值为32767。在计算机系统中,以二的补码的形式存储十进数。–32769的二的补码为1,0111,1111,1111,1111(17位),这时丢弃MSB,那么得到的二的补码为0111,1111,1111,1111(十进数为32767),这与使用公式(1)和(2)之后得到的输出结果相同。
ux=(mvpx+mvdx+2bitDepth)%2bitDepth (5)
mvx=(ux>=2bitDepth–1)?(ux–2bitDepth):ux (6)
uy=(mvpy+mvdy+2bitDepth)%2bitDepth (7)
mvy=(uy>=2bitDepth–1)?(uy–2bitDepth):uy (8)
这些运算可以在对mvp和mvd求和的过程中执行,如公式(5)至(8)所示。
方法2:对值进行修正来去除溢出的MSB
vx=Clip3(–2bitDepth–1,2bitDepth–1–1,vx)
vx=Clip3(–2bitDepth–1,2bitDepth–1–1,vy)
其中,vx为图像块或子块的运动矢量的水平分量;vy为图像块或子块的运动矢量的垂直分量;x、y和z分别对应于MV修正过程的3个输入值,函数Clip3的定义如下:
图4为本发明实施例提供的视频译码设备400的示意图。视频译码设备400适用于实现本文描述的公开实施例。在一个实施例中,视频译码设备400可以是解码器(如图1A的视频解码器30)或编码器(如图1A的视频编码器20)。
视频译码设备400包括:用于接收数据的入端口410(或输入端口410)和接收单元(Rx)420;用于处理数据的处理器、逻辑单元或中央处理单元(central processing unit,CPU)430;用于发送数据的发送单元(Tx)440和出端口450(或输出端口450);以及用于存储数据的存储器460。视频译码设备400还可以包括与入端口410、接收单元420、发送单元440和出端口450耦合的光电(optical-to-electrical,OE)组件和电光(electrical-to-optical,EO)组件,用作光信号或电信号的出口或入口。
处理器430通过硬件和软件实现。处理器430可以实现为一个或多个CPU芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器430与入端口410、接收单元420、发送单元440、出端口450和存储器460通信。处理器430包括译码模块470。译码模块470实现上文描述的公开实施例。例如,译码模块470执行、处理、准备或提供各种译码操作。因此,包括译码模块470使得视频译码设备400功能得到了显著改进,实现了视频译码设备400不同状态的转换。或者,以存储在存储器460中并由处理器430执行的指令来实现译码模块470。
存储器460包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择执行程序时存储此类程序,并且存储在程序执行过程中读取的指令和数据。例如,存储器460可以是易失性和/或非易失性的,并且可以是只读存储器(read-onlymemory,ROM)、随机存取存储器(random access memory,RAM)、三态内容寻址存储器(ternarycontent-addressable memory,TCAM)和/或静态随机存取存储器(staticrandom-access memory,SRAM)。
图5为示例性实施例提供的装置500的简化框图,装置500可用作图1中的源设备12和目的地设备14中的任一个或两个。
装置500中的处理器502可以是中央处理单元。或者,处理器502可以是现有的或今后将开发出的能够操控或处理信息的任何其它类型的设备或多个设备。尽管可以使用如图所示的处理器502等单个处理器来实施所公开的实现方式,但使用多个处理器可以提高速度和效率。
在一种实现方式中,装置500中的存储器504可以是只读存储器(read onlymemory,ROM)设备或随机存取存储器(random access memory,RAM)设备。任何其它合适类型的存储设备都可以用作存储器504。存储器504可以包括处理器502通过总线512访问的代码和数据506。存储器504还可以包括操作系统508和应用程序510,应用程序510包括允许处理器502执行本文所述方法的至少一个程序。例如,应用程序510可以包括应用1至N,还包括执行本文所述方法的视频译码应用。
装置500还可以包括一个或多个输出设备,如显示器518。在一个示例中,显示器518可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器518可以通过总线512耦合到处理器502。
尽管装置500中的总线512在本文中描述为单个总线,但是总线512可以包括多个总线。另外,辅助存储器514可以直接与装置500中的其它组件耦合或可以通过网络访问,并且可以包括单个集成单元(如一个存储卡)或多个单元(如多个存储卡)。因此,装置500可以具有各种各样的配置。
在VVC草案4.0(JVET-M1001)中,公开了用于变换处理的变换核DST-VII(DST 7)、DCT-VIII(DCT 8)和DCT-II(DCT 2)。
除了在HEVC中使用的DCT-II外,还对帧间和帧内译码块使用多变换选择(multiple transform selection,MTS)方案进行残差译码。在MTS方案中使用多个选定变换核DCT 8或DST 7。与HEVC相比,DST-VII和DCT-VIII是新引入的变换核。表1示出了所选变换核的基函数。通常,变换核包括用于变换处理的一组系数。变换核可以通过公式化来表示,或者变换核可以通过表格或矩阵来表示,该表格或矩阵包括数学定义函数的数学舍入系数。舍入是为了简化硬件设计(例如,舍入后,较小尺寸(例如,4×4)的变换核可以直接从较大尺寸(例如,16×16)的变换核下采样)。舍入后,这些系数仍然遵循变换的数学定义。
表1-N点输入的DCT-II/VIII和DST-VII的变换基函数
在另一个示例中,这些变换核由变换矩阵表示。在这些示例中,变量nTbS表示变换块尺寸或缩放变换系数的水平样本尺寸。
DST-VII:
-如果nTbs等于4,则以下适用:
-否则,如果nTbs等于8,则以下适用:
-否则,如果nTbs等于16,则以下适用:
/>
-否则,如果nTbs等于32,则以下适用:
transMatrix[m][n]=transMatrixCol0to15[m][n],其中,m=0……15,n=0……15 (1209)
/>
transMatrix[m][n]=transMatrixCol16to31[m–16][n],其中,m=16……31,n=0……15 (1211)
/>
其中,nTbs是变换块尺寸。由于VVC仅支持最大32点DST-VII,因此最大必要矩阵为32×32。
DCT-II:
transMatrix[m][n]=transMatrixCol0to15[m][n],其中,m=0……15,n=0……63 (1200)
/>
/>
/>
transMatrix[m][n]=transMatrixCol16to31[m–16][n],其中,m=16……31,n=0……63 (1202)
/>
/>
/>
/>
transMatrix[m][n] = (n&1?–1:1)*transMatrixCol16to31[47–m][n] (1204)
其中,m=32……47,n=0……63
transMatrix[m][n] = (n&1?–1:1)*transMatrixCol0to15[63–m][n] (1205)
其中,m=48……63,n=0……63。
为了保持变换矩阵的正交性,相比于HEVC中的变换矩阵,更精确地量化这些变换矩阵。在一些示例中,为了将变换系数的中间值保持在16位范围内,在水平变换和垂直变换之后,所有系数都具有10位。
为了指示MTS方案,在SPS级分别为帧内或帧间指定单独启用标志。当在SPS级启用MTS方案时,在码流中指示CU级标志,CU级标志的值用于表示MTS是否应用于当前CU。
在一个示例中,MTS仅用于亮度样本。在一个示例中,当满足以下条件时,指示CU级标志:
当前CU的宽度和高度均小于或等于32,
且当前CU的译码块标志CBF标志的值等于1。
如果CU级标志的值等于0,则在当前CU的水平方向和当前CU的垂直方向上应用DCT2。如果CU级标志的值等于1,则指示另外两个标志以分别表示水平方向和垂直方向的变换类型。变换类型与标志值的映射关系如下表2所示。参考变换矩阵精度,使用8位主变换核。在一个示例中,变换核与HEVC中使用的变换核相同。在一个示例中,这些变换核包括4点DCT-2和DST-7、8点、16点和32点DCT-2。此外,其它变换核包括64点DCT-2、4点DCT-8、8点、16点、32点DST-7和DCT-8,使用8位主变换核。
表2-变换和指示映射表
与HEVC一样,块的残差可以用变换跳过模式译码。为了避免语法译码冗余,当CU级标志MTS_CU_flag的值不等于0时,不指示变换跳过标志。当块宽度和块高度都等于或小于4时,启用变换跳过模式。
帧内子划分(intra sub-partition,ISP)译码模式是VVC草案4.0(JVET-M1001)中采用的一种工具。当应用ISP译码模式时,根据块尺寸尺寸,将亮度帧内预测块垂直或水平地划分为2个或4个子部分,如表3所示。图6和图7示出了两种可能性的示例。每个子部分至少包括16个样本。
表3:基于块尺寸的子部分个数
块尺寸 子部分个数
4×4 不划分
4×8和8×4 2
其它情况 4
当针对当前块启用帧内子划分译码模式(无论对当前块启用或禁用MTS)时,不根据MTS索引选择变换核,而是根据当前块的帧内模式选择变换核。在一个示例中,如下表4所示,trTypeHor表示使用ISP模式的当前块的水平方向的变换核,trTypeVer表示使用ISP模式的当前块的垂直方向的变换核。
根据表4,当trTypeVer的值等于0或trTypeHor的值等于0时,对当前块选择变换核DCT2;当trTypeVer的值等于1或trTypeHor的值等于1时,对当前块选择变换核DST 7。
表4-基于predModeIntra的trTypeHor和trTypeVer的规范
/>
JVET-M0303公开了一种帧内形状自适应隐式变换核选择。
在帧内形状自适应隐式变换核选择方法中,建议对变换块的短边使用DST 7,对变换块的长边使用DCT 2。对于正方形块,如果对序列禁用MTS,则建议使用DST 7。形状自适应用于使用空间预测模式预测的帧内块(对分量间预测块禁用)。
在一个示例中,当禁用MTS时,根据以下等式执行帧内块变换核选择。trTypeHor表示使用ISP模式的当前块的水平方向的变换核,trTypeVer表示使用ISP模式的当前块的垂直方向的变换核,nTbW为变换块宽度,nTbH为变换块高度。
需要注意的是,首先使用特定译码模式对块进行译码,将块命名为译码块,译码块可以使用特定的预测方法进行预测,将原始样本与预测样本之间的差值命名为残差信号,对残差信号进行进一步变换。将变换后的块定义为变换块。正常情况下,译码块尺寸(即,译码块宽度、编码块高度)等于变换块尺寸(即,变换块宽度、变换块高度)。存在以下编码块尺寸不等于变换块尺寸的示例情况。
1.译码块尺寸为128×128,将其隐式划分为尺寸为64×64的4个变换块。
2.如果使用ISP模式对译码块进行译码,则从对应译码块划分多个变换块。
3.如果使用SBT模式对译码块进行译码,则仅变换译码块的一部分,因此变换块尺寸小于译码块尺寸。
根据等式,当trTypeVer的值等于0或trTypeHor的值等于0时,对当前块选择变换核DCT2;当trTypeVer的值等于1或trTypeHor的值等于1时,对当前块选择变换核DST 7。
trTypeHor=(nTbW>=4&&nTbW<=16&&nTbW<=nTbH)?1:0 EQ-1
trTypeVer=(nTbH>=4&&nTbH<=16&&nTbH<=nTbW)?1:0 EQ-2
在EQ-1和EQ-2中,nTbW表示当前变换单元TU的宽度,nTbH表示当前TU的高度,nSbTbW表示ISP划分得到的子TU的宽度,nSbTbH表示ISP划分得到的子TU的高度。
此处亮度样本具有尺寸限制(4和16),块可以具有亮度分量和色度分量。如果没有对视频序列进行色度子采样,则亮度样本尺寸与色度样本尺寸相等。如果视频序列经过色度子采样(例如,4:2:0视频),则色度样本尺寸等于亮度样本尺寸除以2。通常,所述阈值始终为亮度样本尺寸。
在一些实例中,ISP的隐式变换核选择是基于帧内模式以及相当复杂的表。该表还介绍了变换核选择与帧内模式之间的依赖性。另外,ISP的隐式变换核选择与帧内形状自适应方法不一致。
以下提出的方案旨在解决ISP隐式变换核选择复杂度、ISP变换核选择与帧内模式的依赖性、ISP和帧内形状自适应隐式变换核选择一致性等问题。在一些实施例中,基于DST7、DCT 8变换核的这些方案是通过高层语法(sps_mts_enabled_flag的值等于1)启用。
在一个实施例中,
方案1:
根据方案1,根据使用具有块宽度和块高度限制的ISP模式处理的帧内块,应用形状自适应隐式变换核选择。
如果使用ISP模式处理当前帧内块,则使用等式EQ-1和EQ-2来确定当前块的所选变换核。此处EQ-1和EQ-2的使用不依赖于启用或禁用MTS模式。
对于未使用ISP模式进行处理的当前帧内块,如果在序列级中启用MTS,则根据MTS索引选择变换核。否则(如果在序列级中禁用MTS),则根据EQ-1和EQ-2选择变换核。
本文提出的方案使ISP和帧内形状自适应隐式变换核选择一致。此外,本文提出的方案降低了ISP模式隐式变换核选择的复杂度,并且消除了帧内模式依赖性,而不改变最坏情况。
在一个示例中,由于DST 7的计算比DCT 2的计算更复杂,因此最坏的情况是对于水平变换核和垂直变换核,所有ISP块都使用DST 7。本文提出的方法不改变ISP隐式变换核选择的最坏情况。
在另一个实施例中,
方案2:
根据方案2,根据使用具有子块宽度和子块高度限制的ISP模式处理的帧内块,应用形状自适应隐式变换核选择,子块通过ISP划分得到。
如果使用ISP模式处理当前帧内块,则使用等式EQ-3和EQ-4来确定当前块的变换核。此处EQ-3和EQ-4的使用不依赖于启用或禁用MTS模式。在EQ-3和EQ-4中,nTbW表示当前TU的宽度,nTbH表示当前TU的高度,nSbTbW表示ISP划分得到的子TU的宽度,nSbTbH表示ISP划分得到的子TU的高度。
trTypeHor=(nTbW>=4&&nTbW<=16&&nSbTbW<=nSbTbH)?1:0EQ-3
trTypeVer=(nTbH>=4&&nTbH<=16&&nSbTbH<=nSbTbW)?1:0EQ-4
对于未使用ISP模式进行处理的当前帧内块,如果在序列级中启用MTS,则根据MTS索引选择变换核。如果在序列级中禁用MTS,则根据EQ-1和EQ-2选择变换核。
本文提出的方案使ISP和帧内形状自适应隐式变换核选择一致。此外,本文提出的方案降低了ISP模式隐式变换核选择的复杂度,并且消除了帧内模式依赖性,而不改变最坏情况。
在一个示例中,由于DST 7的计算比DCT 2的计算更复杂,因此最坏的情况是对于水平变换核和垂直变换核,所有ISP块都使用DST 7。本文提出的方法不改变ISP隐式变换核选择的最坏情况。
在另一个实施例中,
方案3:
根据方案3,提出将变换核DST 7用于帧内块,该帧内块通过使用具有尺寸限制的ISP模式来处理。
如果使用ISP模式处理当前帧内块,则使用等式EQ-5和EQ-6来确定当前块的变换核。此处EQ-5和EQ-6的使用不依赖于启用或禁用MTS模式。
trTypeHor=(nTbW>=4&&nTbW<=16)?1:0 EQ-5
trTypeVer=(nTbH>=4&&nTbH<=16)?1:0 EQ-6
换句话说,在使用ISP模式处理当前块的情况下,
在一个示例中,如果TU宽度大于或等于4个亮度样本,且TU宽度小于或等于16个样本,则DST 7用于水平方向。否则,DCT 2用于水平方向。在一个示例中,视频的图像具有亮度分量(Y)和色度分量(Cb、Cr)。如果对色度进行子采样(例如:4:2:0视频),则4个亮度样本对应2个色度样本。
在一个示例中,如果TU高度大于或等于4个亮度样本,且TU高度小于或等于16个亮度样本,则DST 7用于垂直方向。否则,DCT 2用于垂直方向。
对于未使用ISP模式进行处理的当前帧内块,如果在序列级中启用MTS,则根据MTS索引选择变换核。如果在序列级中禁用MTS,则根据EQ-1和EQ-2选择变换核。
本文提出的方案降低了ISP模式隐式变换核选择的复杂度,并且消除了帧内模式依赖性,而不改变最坏情况。
在一个示例中,由于DST 7的计算比DCT 2的计算更复杂,因此最坏的情况是对于水平变换核和垂直变换核,所有ISP块都使用DST 7。本文提出的方法不改变ISP隐式变换核选择的最坏情况。
在另一个实施例中,方案4:
根据方案4,当块的帧内预测不使用平面模式时,根据使用ISP模式处理的帧内块的TU宽度和高度应用形状自适应隐式变换核选择。如果块使用平面帧内预测模式进行预测,则水平变换核和垂直变换核都使用具有尺寸限制的DST 7。
在一个示例中,如果使用ISP模式处理当前帧内块,则当当前帧内块的帧内预测模式不是平面模式时,使用等式EQ-1和EQ-2确定当前块的变换核。EQ-1和EQ-2的使用不依赖于启用或禁用MTS模式。
在一个示例中,如果使用ISP模式处理当前帧内块,则当当前帧内块的帧内预测模式为平面模式时,使用等式EQ-5和EQ-6确定当前块的变换核。此处EQ-5和EQ-6的使用不依赖于启用或禁用MTS模式。
对于未使用ISP模式进行处理的当前帧内块,如果在序列级中启用MTS,则根据MTS索引选择变换核。如果在序列级中禁用MTS,则根据EQ-1和EQ-2选择变换核。
本文提出的方案使ISP和帧内形状自适应隐式变换核选择一致。此外,该方案降低了ISP模式隐式变换核选择的复杂度,而不改变最坏情况。
在一个示例中,由于DST 7的计算比DCT 2的计算更复杂,因此最坏的情况是对于水平变换核和垂直变换核,所有ISP块都使用DST 7。本文提出的方法不改变ISP隐式变换核选择的最坏情况。
在另一个实施例中,
方案5:
根据方案5,提出根据ISP划分方向选择变换核。
在一个示例中,如果使用ISP模式处理当前帧内块,则当当前帧内块的帧内预测模式不是平面模式时,使用等式EQ-7和EQ-8确定当前块的变换核。此处EQ-7和EQ-8的使用不依赖于启用或禁用MTS模式。
trTypeHor=(nTbW>=4&&nTbW<=16&&IntraSubPartitionsSplitType==ISP_VER_SPLIT)?1:0 EQ-7
trTypeVer=(nTbH>=4&&nTbH<=16&&IntraSubPartitionsSplitType==ISP_HOR_SPLIT)?1:0 EQ-8
IntraSubPartitionsSplitType用于表示ISP模式的类型。在一些示例中,ISP模式可以包括:划分为4个子TU、划分为2个子TU、水平、垂直或不划分类型。
ISP_VER_SPLIT用于表示垂直ISP划分模式;ISP_HOR_SPLIT表示水平ISP划分模式。
当当前帧内块使用垂直ISP划分,块宽度大于或等于4个亮度样本,块高度小于或等于16个亮度样本时,对水平变换核(用于水平方向的变换核)选择DST 7。否则,对水平变换核选择DCT 2。
在一个示例中,如果当前帧内块使用水平ISP划分,块高度大于或等于4个亮度样本,块高度小于或等于16个亮度样本,则对垂直变换核(用于垂直方向的变换核)选择DST7。否则,对垂直变换核选择DCT 2。
对于未使用ISP模式进行处理的当前帧内块,如果在序列级中启用MTS,则根据MTS索引选择变换核。如果在序列级中禁用MTS,则根据EQ-1和EQ-2选择变换核。
本文提出的方案降低了ISP模式隐式变换核选择的复杂度,并且消除了帧内模式依赖性,而不改变最坏情况。
在一个示例中,由于DST 7的计算比DCT 2的计算更复杂,因此现有技术的最坏情况是对于水平变换核和垂直变换核,所有ISP块都使用DST 7。本文提出的方法不改变ISP隐式变换核选择的最坏情况。
在另一个实施例中,
方案6:
根据方案6,当对于帧间条带和帧内条带在序列级禁用MTS时,提出仅DST 7核用于帧内块。
在一个示例中,如果对于帧间条带和帧内条带在序列级禁用MTS,则当当前帧内块的宽度大于或等于4个样本且小于或等于16个样本时,DST 7用于水平方向,否则,选择DCT2,如EQ-9所述。
例如,如果对于帧间条带和帧内条带在序列级禁用MTS,则当当前帧内块的高度大于或等于4个样本且小于或等于16个样本时,DST 7用于垂直方向,否则,选择DCT 2,如EQ-10所述。
trTypeHor=(nTbW>=4&&nTbW<=16)?1:0 EQ-9
trTypeVer=(nTbH>=4&&nTbH<=16)?1:0 EQ-10
在一个实施例中,所提出的方案6与方案3一致,其它方案6在不增加复杂度的情况下带来附加的译码增益。
在另一个实施例中,
方案7:
根据方案7,当对于帧间条带和帧内条带在序列级禁用MTS时,提出使用形状和比值自适应方法来选择用于帧内块的变换核。
在一个示例中,如果对于帧间条带和帧内条带在序列级禁用MTS,对于高度和宽度都大于或等于4个亮度样本且小于或等于16个亮度样本(例如,nTbW<=16&&nTbW>=4&&nTbH<=16&&nTbH>=4)的帧内块,
如果当前块的块宽高比的值(在EQ-11中计算)小于或等于2,则DST 7用于水平方向和垂直方向;
否则(比值大于2),短边使用变换核DST 7,长边使用变换核DCT 2。例如,如果块的宽度为16和高度为4,则短边为4,长边为16。在该示例中,变换核DST 7用于高度为4(垂直方向)的短边,变换核DCT 2用于宽度为16(水平方向)的长边。
根据EQ-11和EQ-12描述方法,根据EQ-13计算比值,其中log2()为以2为底的对数缩放,abs()为绝对值运算符。
trTypeHor=(nTbW>=4&&nTbW<=16&&(nTbW<nTbH||Ratio<=2))?1:0
EQ-11
trTypeVer=(nTbH>=4&&nTbH<=16&&(nTbH<nTbW||Ratio<=2))?1:0
EQ-12
比值=log2(abs(宽度–高度)) EQ-13。
在一个实施例中,所提出的方案6在不增加复杂度的情况下带来附加的译码增益。
在另一个实施例中,
方案8:
根据方案8,可以根据EQ-14计算方案7中的块宽高比。
比值=1<<abs(log2(宽度)–log2(高度))EQ-14。
其中“<<”为左位移位运算,log2()为以2位底的对数缩放,abs()为绝对值运算。
换句话说,如果宽度大于高度,则比值为宽度/高度,否则(宽度小于或等于高度),比值为高度/宽度。
方案9:
根据方案9,方案7或方案8可以与方案1、方案2和方案4相结合,以替代形状自适应部分,其中方案7或方案8提出了形状和比值自适应方法。
示例1.一种由解码设备或编码设备实现的译码方法,包括:
当当前块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前块时,
确定所述当前块的宽度是否大于或等于第一阈值(在一个示例中,第一阈值为4,第一阈值的单位为亮度样本),且确定所述当前块的宽度是否小于或等于第二阈值(在一个示例中,第二阈值为16,第二阈值的单位为亮度样本);
当所述当前块的宽度大于或等于所述第一阈值且小于或等于所述第二阈值时,变换核DST 7用于所述当前块的水平变换。
示例2.根据示例1所述的方法,其中,当所述当前块的宽度小于所述第一阈值时,或当所述当前块的宽度大于所述第二阈值时,
变换核DCT 2用于所述当前块的水平变换。
示例3.一种由解码设备或编码设备实现的译码方法,包括:
当当前块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前块时,
确定所述当前块的高度是否大于或等于第三阈值(在一个示例中,第三阈值为4,第三阈值的单位为亮度样本),且确定所述当前块的高度是否小于或等于第四阈值(在一个示例中,第四阈值为16,第四阈值的单位为亮度样本);
当所述当前块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,变换核DST 7用于所述当前块的垂直变换。
示例4.根据示例3所述的方法,其中,当所述当前块的高度小于所述第三阈值时,或当所述当前块的高度大于所述第四阈值时,
变换核DCT 2用于当前块的垂直变换。
示例5.一种由解码设备或编码设备实现的译码方法,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前块(例如,在序列级中,对于帧间条带和帧内条带两者MTS禁用)时,
确定所述当前块的宽度是否大于或等于第一阈值(在一个示例中,第一阈值为4,第一阈值的单位为亮度样本),且确定所述当前块的宽度是否小于或等于第二阈值(在一个示例中,第二阈值为16,第二阈值的单位为亮度样本);
当所述当前块的宽度大于或等于所述第一阈值且小于或等于所述第二阈值时,变换核DST 7用于所述当前块的水平变换。
示例6.根据示例5所述的方法,其中,当所述当前块的宽度小于所述第一阈值时,或当所述当前块的宽度大于所述第二阈值时,
变换核DCT 2用于所述当前块的水平变换。
示例7.一种由解码设备或编码设备实现的译码方法,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前块(例如,在序列级中,对于帧间条带和帧内条带两者MTS禁用)时,
确定所述当前块的高度是否大于或等于第三阈值(在一个示例中,第三阈值为4,第三阈值的单位为亮度样本),且确定所述当前块的高度是否小于或等于第四阈值(在一个示例中,第四阈值为16,第四阈值的单位为亮度样本);
当所述当前块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,变换核DST 7用于所述当前块的垂直变换。
示例8.根据示例7所述的方法,其中,当所述当前块的高度小于所述第三阈值时,或当所述当前块的高度大于所述第四阈值时,
变换核DCT 2用于当前块的垂直变换。
示例9.一种由解码设备或编码设备实现的译码方法,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前块(例如,在序列级中,对于帧间条带和帧内条带两者MTS禁用)时,所述当前块的宽度大于或等于第一阈值(在一个示例中,所述第一阈值为4,所述第一阈值的单位为亮度样本)且小于或等于第二阈值(在一个示例中,所述第二阈值为16,所述第二阈值的单位为亮度样本),
并且所述当前块的高度大于或等于第三阈值(在一个示例中,所述第三阈值为4,所述第三阈值的单位为亮度样本)且小于或等于第四阈值(在一个示例中,所述第四阈值为16,所述第四阈值的单位为亮度样本);
确定所述当前块对应的块宽高比的值是否大于第五阈值(在一个示例中,所述第五阈值为2);
当所述块宽高比的值小于或等于所述第五阈值时,
变换核DST 7用于所述当前块的水平变换和垂直变换。
示例10.根据示例9所述的方法,其中,当所述块宽高比的值大于所述第五阈值,且所述块的宽度小于所述块的高度时,
变换核DST 7用于所述当前块的水平变换,变换核DCT 2用于所述当前块的垂直变换。
示例11.根据示例9或10所述的方法,其中,当所述块宽高比的值大于所述第五阈值,且所述块的宽度大于所述块的高度时,
变换核DCT 2用于所述当前块的水平变换,变换核DST 7用于所述当前块的垂直变换。
示例12.一种编码器(20),包括处理电路,用于执行根据示例1至11中任一项所述的方法。
示例13.一种解码器(30),包括处理电路,用于执行根据示例1至11中任一项所述的方法。
示例14.一种计算机程序产品,包括程序代码,用于执行根据示例1至11中任一项所述方法。
示例15.一种解码器或编码器,包括:
一个或多个处理器;
非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,在所述处理器执行所述程序时,所述程序使所述解码器执行根据示例1至11中任一项所述的方法。
另外的,示例性的,
示例1.一种由解码设备实现的译码方法,其特征在于,包括:
当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,
确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值,其中,所述当前变换块对应于所述当前译码块;
当所述当前变换块的宽度大于或等于所述第一阈值且所述当前变换块的宽度小于或等于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换。
示例2.根据示例1所述的方法,其特征在于,所述方法还包括:
当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平变换。
示例3.根据示例1或2所述的方法,其特征在于,所述方法还包括:
获取所述当前译码块的语法值,其中,所述当前译码块的所述语法值用于表示所述当前译码块的所述预测模式为帧内预测。
示例4.根据示例3所述的方法,其特征在于,所述当前译码块的所述语法值不用来表示所述当前译码块的具体的预测模式。
示例5.一种由解码设备实现的译码方法,其特征在于,包括:
当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,
确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;
当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
示例6.根据示例5所述的方法,其特征在于,所述方法还包括:当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
示例7.根据示例5或6所述的方法,其特征在于,所述方法还包括:
获取所述当前译码块的语法值,其中,所述当前译码块的所述语法值用于表示所述当前译码块的所述预测模式为帧内预测。
示例8.根据示例7所述的方法,其特征在于,所述当前译码块的所述语法值不用来表示所述当前译码块的具体的预测模式。
示例9.一种由解码设备实现的译码方法,其特征在于,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,
确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值,其中,所述当前变换块对应于所述当前译码块;
当所述当前变换块的宽度大于或等于所述第一阈值且小于或等于所述第二阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换。
示例10.根据示例9所述的方法,其特征在于,所述方法还包括:当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平方向变换。
示例11.一种由解码设备实现的译码方法,其特征在于,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,
确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;
当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
示例12.根据示例11所述的方法,其特征在于,所述方法还包括:
当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
示例13.一种由解码设备实现的译码方法,其特征在于,包括:
当多变换选择(multiple transform selection,MTS)方案不适用于当前译码块时,当前变换块的宽度大于或等于第一阈值且小于或等于第二阈值,
且所述当前变换块的高度大于或等于第三阈值且小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块,
确定所述当前变换块对应的块宽高比的值是否大于第五阈值,
当所述块宽高比的值小于或等于所述第五阈值时,
变换核DST 7用于所述当前变换块的水平变换和垂直变换。
示例14.根据示例13所述的方法,其特征在于,所述方法还包括:
当所述块宽高比的值大于所述第五阈值,且所述当前变换块的宽度小于所述当前变换块的高度时,
变换核DST 7用于所述当前变换块的水平变换,变换核DCT 2用于所述当前变换块的垂直变换。
示例15.根据示例13或14所述的方法,其特征在于,所述方法还包括:
当所述块宽高比的值大于所述第五阈值,且所述当前变换块的宽度大于所述当前变换块的高度时,
变换核DCT 2用于所述当前变换块的水平变换,变换核DST 7用于所述当前变换块的垂直变换。
示例16.一种解码器(30),其特征在于,包括处理电路,用于执行根据示例1至15中任一项所述的方法。
示例17.一种计算机程序产品,其特征在于,包括程序代码,用于执行根据示例1至15中任一项所述的方法。
示例18.一种解码器,其特征在于,包括:
一个或多个处理器;
非瞬时性计算机可读存储介质,与所述处理器耦合并存储由所述处理器执行的程序,其中,在所述处理器执行所述程序时,所述程序使所述解码器执行根据示例1至15中任一项所述的方法。
下面对上述实施例中所示的编码方法和解码方法的应用以及使用这些应用的系统进行解释说明。
图8为示出用于实现内容分发业务的内容供应系统3100的框图。该内容供应系统3100包括捕获设备3102、终端设备3106和并且可选地包括显示器3126。捕获设备3102通过通信链路3104与终端设备3106通信。通信链路可以包括上文描述的通信信道13。通信链路3104包括但不限于Wi-Fi、以太网、有线、无线(3G/4G/5G)、USB或者其任何种类的组合等。
捕获设备3102用于生成数据,并且可以通过上文实施例中所示的编码方法对数据进行编码。或者,捕获设备3102可以将数据分发到流媒体服务器(图中未示出),服务器对数据进行编码并将经编码的数据发送到终端设备3106。捕获设备3102包括但不限于摄像机、智能手机或平板电脑、计算机或笔记本电脑、视频会议系统、PDA、车载设备或其任意组合等。例如,捕获设备3102可以包括上述源设备12。当数据包括视频时,捕获设备3102中包括的视频编码器20实际上可执行视频编码处理。当数据包括音频(即,声音)时,捕获设备3102中包括的音频编码器实际上可执行音频编码处理。对于一些实际场景,捕获设备3102通过将经编码的视频数据和经编码的音频数据一起复用来分发经编码的视频数据和经编码的音频数据。对于其它实际场景,例如在视频会议系统中,不复用经编码的音频数据和经编码的视频数据。捕获设备3102分别将经编码的音频数据和经编码的视频数据分发到终端设备3106。
在内容供应系统3100中,终端设备310接收并再生成经编码的数据。终端设备3106可以是具有数据接收和恢复能力的设备,例如智能手机或平板电脑3108、计算机或笔记本电脑3110、网络视频录像机(network video recorder,NVR)/数字视频录像机(digitalvideo recorder,DVR)3112、电视3114、机顶盒(set top box,STB)3116、视频会议系统3118、视频监控系统3120、个人数字助理(personal digital assistant,PDA)3122、车载设备3124,或能够对上述经编码的数据进行解码的以上设备中任何一个的组合等。例如,终端设备3106可以包括上文描述的目的地设备14。当经编码的数据包括视频时,包括在终端设备中的视频解码器30优先进行视频解码。当经编码的数据包括音频时,包括在终端设备中的音频解码器优先进行音频解码处理。
对于具有显示器的终端设备,例如智能手机或平板电脑3108、计算机或笔记本电脑3110、网络视频录像机(network video recorder,NVR)/数字视频录像机(digitalvideo recorder,DVR)3112、电视3114、个人数字助理(personal digital assistant,PDA)3122或车载设备3124,终端设备可以将解码数据馈送到其显示器。对于不配备显示器的终端设备,例如STB 3116、视频会议系统3118或视频监控系统3120,在其中连接外部显示器3126以接收和显示解码数据。
当该系统中的每个设备执行编码或解码时,可以使用如上述实施例中所示的图像编码设备或图像解码设备。
图9为终端设备3106的示例结构的示意图。在终端设备3106从捕获设备3102接收流后,协议处理单元3202对该流的传输协议进行分析。所述协议包括但不限于实时流协议(Real Time Streaming Protocol,RTSP)、超文本传输协议(hyper text transferprotocol,HTTP)、HTTP直播流协议(HTTP live streaming protocol,HLS)、MPEG-DASH、实时传输协议(real-time transport protocol,RTP)、实时消息传输协议(real timemessaging protocol,RTMP),或其任何种类的组合等。
协议处理单元3202对流进行处理后,生成流文件。文件输出到解复用单元3204。解复用单元3204可以将复用数据分离成经编码音频数据和经编码视频数据。如上所述,在其它实际场景中,例如在视频会议系统中,不复用经编码的音频数据和经编码的视频数据。在这种情况下,不通过解复用单元3204,将经编码的数据发送到视频解码器3206和音频解码器3208。
通过解复用处理,生成视频基本码流(elementary stream,ES)、音频ES和可选的字幕。视频解码器3206,包括如上述实施例所解释的视频解码器30,通过如上述实施例所示的解码方法对视频ES进行解码以生成视频帧,并将该数据发送到同步单元3212。音频解码器3208对音频ES进行解码以生成音频帧,并将该数据发送到同步单元3212。或者,可以在将视频帧馈送到同步单元3212之前存储在缓冲区(图9未示出)中。类似地,可以在将音频帧发送到同步单元3212之前存储在缓冲区(图9中未示出)中。
同步单元3212同步视频帧和音频帧,并将视频/音频提供给视频/音频显示器3214。例如,同步单元3212同步视频信息和音频信息的呈现。信息可以使用与经译码的音频和可视数据的呈现有关的时间戳以及与数据流本身的传送有关的时间戳在语法中进行译码。
如果流中包括字幕,则字幕解码器3210对字幕进行解码,使字幕与视频帧和音频帧同步,并将视频/音频/字幕提供给视频/音频/字幕显示器3216。
本发明并不限于上述系统,上述实施例中的图像编码设备或图像解码设备都可以包括在汽车系统等其它系统中。
数学运算符
本申请中使用的数学运算符与C编程语言中使用的数学运算符类似。但是,对整数除法和算术移位运算的结果进行了更准确的定义,并且定义了其它运算,如幂运算和实值除法。编号和计数规范通常从0开始,例如,“第一个”相当于第0个,“第二个”相当于第1个,等等。
算术运算符
算术运算符定义如下:
+ 加法运算
– 减法运算(作为双参数运算符)或者非运算(作为一元前缀运算符)
* 乘法运算,包括矩阵乘法运算
xy 取幂运算。表示x的y次幂。在上下文中,该表示可能用作上标,而非作
+ 加法运算
为次幂运算。
/ 向零方向对结果进行截断的整除操作。例如,7/4和–7/–4被截断成1,–7/4和7/–4被截断成–1。
÷ 用来表示数学等式中的除法运算,没有截断或四舍五入运算。
用来表示数学等式中的除法运算,没有截断或四舍五入运算。
用于计算f(i)的和,i取x到y之间的所有整数,包括x和y。
x%y取模运算。X除以y的余数,这里x和y都必须是整数,并且x>=0且y>0。
逻辑运算符
逻辑运算符定义如下:
x&&y x和y的布尔逻辑“与”运算
x||y x和y的布尔逻辑“或”运算
! 布尔逻辑“非”运算
x?y:z 如果x为真(TRUE)或不等于0,则返回y的值,否则,返回z的值。
关系运算符
关系运算符定义如下:
> 大于
>= 大于或等于
< 小于
<= 小于或等于
== 等于
!= 不等于
当一个关系运算符应用于一个已被赋值“na”(不适用)的语法元素或变量时,值“na”被视为该语法元素或变量的不同值。值“na”被视为不等于任何其它值。
按位运算符
按位运算符定义如下:
& 按位“与”运算。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。
| 按位“或”运算。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。
^ 按位“异或”运算。当对整数参数运算时,运算的是整数值的二的补码表示。当对二进制参数运算时,如果它包含的位比另一个参数少,则通过添加更多等于0的有效位来扩展较短的参数。
x>>y x的二的补码整数表示算术右移y个二进制位。只有y为非负整数值时才定义该函数。由于右移而移进最高有效位(most significant bit,MSB)的比特的值等于移位运算之前的x的MSB。
x<<y x的二的补码整数表示算术左移y个二进制位。只有y为非负整数值时才定义该函数。由于左移而移进最低有效位(least significant bit,LSB)的比特的值等于0。
赋值运算符
算术运算符定义如下:
= 赋值运算符
++ 增,即,x++相当于x=x+1;当在数组索引中使用时,等于增运算之前变量的值。
–– 减,即,x––等于x=x–1;当在数组索引中使用时,等于减运算之前变量的值。
+= 增加指定量,即,x+=3相当于x=x+3,x+=(–3)相当于x=x+(–3)。
–= 减少指定量,即,x–=3相当于x=x–3,x–=(–3)相当于x=x–(–3)。
范围符号以下符号用来说明值的范围:
x=y..z x取从y到z(包括y和z)的整数值,其中,x、y和z是整数,z大于y。
数学函数
数学函数定义如下:
Asin(x) 三角反正弦函数,对参数x运算,x在–1.0至1.0(包括端值)范围之间,输出值在–π÷2至π÷2(包括端值)范围之间,单位为弧度。
Atan(x) 三角反正切函数,对参数x运算,输出值在–π÷2至π÷2(包括端值)范围之间,单位为弧度。
Ceil(x) 大于或等于x的最小整数。
Clip1Y(x)=Clip3(0,(1<<BitDepthY)–1,x)
Clip1C(x)=Clip3(0,(1<<BitDepthC)–1,x)
Cos(x) 三角余弦函数,对参数x运算,单位为弧度。
Floor(x) 小于或等于x的最大整数。
Ln(x) x的自然对数(以e为底的对数,其中e是自然对数底数常数2.718 281828……)。
Log2(x) x以2为底的对数。
Log10(x) x以10为底的对数。
Round(x)=Sign(x)*Floor(Abs(x)+0.5)
Sin(x) 三角正弦函数,对参数x运算,单位为弧度。
Swap(x,y)=(y,x)
Tan(x) 三角正切函数,对参数x运算,单位为弧度。
运算优先级顺序
当没有使用括号来显式表示表达式中的优先顺序时,适应以下规则:
-高优先级的运算在低优先级的任何运算之前计算。
-相同优先级的运算从左到右依次计算。
下表从最高到最低的顺序说明运算的优先级,表中位置越高,优先级越高。
对于C编程语言中也使用的运算符,本规范中使用的优先级顺序与在C编程语言中使用的优先级顺序相同。
表:运算优先级从最高(表格顶部)到最低(表格底部)排序
逻辑运算的文本说明
在文本中,逻辑运算的语句用数学形式描述如下:
可以用以下方式描述:
……如下/……以下为准:
-如果条件0,则语句0
-否则,如果条件1,则语句1
-……
-否则(关于剩余条件的提示性说明),语句n
-文中的每个“如果……否则,如果……否则,……”语句都以“……如下”或“……以下为准”引入,后面紧跟着“如果……”。“如果……,否则,如果……,否则,……”的最后一个条件始终是“否则,……”。中间有“如果……否则,如果……否则”语句可以通过使“……如下”或“……以下为准”与结尾“否则……”匹配来识别。
在文本中,逻辑运算的语句用数学形式描述如下:
可以用以下方式描述:
……如下/……以下为准:
-如果满足以下所有条件,则语句0:
-条件0a
-条件0b
-否则,如果满足以下一个或多个条件,则语句1:
-条件1a
-条件1b
-……
-否则,语句n
在文本中,逻辑运算的语句用数学形式描述如下:
if(condition 0)
statement 0
if(condition 1)
statement 1
可以用以下方式描述:
当条件0时,语句0
当条件1时,语句1。
尽管本发明实施例主要根据视频译码进行了描述,但是需要注意的是,译码系统10、编码器20和解码器30(相应地,系统10)的实施例以及本文描述的其它实施例也可以用于静止图像处理或译码,即,对视频译码中独立于任何先前或连续图像的单个图像进行处理或译码。通常,如果图像处理译码限于单个图像17,则仅帧间预测单元244(编码器)和344(解码器)不可用。视频编码器20和视频解码器30的所有其它功能(也称为工具或技术)同样可用于静态图像处理,例如残差计算204/304、变换206、量化208、反量化210/310、(逆)变换212/312、划分262/362、帧内预测254/354和/或环路滤波220/320、熵译码270和熵解码304。
编码器20和解码器30等的实施例,以及本文描述的与编码器20和解码器30等有关的功能可以以硬件、软件、固件或其任意组合来实现。如果以软件来实现,则各种功能可作为一个或多个指令或代码存储在计算机可读介质中或通过通信介质传输,且由基于硬件的处理单元执行。计算机可读介质可以包括与有形介质(例如,数据存储介质)对应的计算机可读存储介质,或包括任何便于将计算机程序从一处传送到另一处的介质(例如,根据通信协议)的通信介质。以此方式,计算机可读介质通常可以对应(1)非瞬时性的有形计算机可读存储介质,或(2)如信号或载波等通信介质。数据存储介质可以是通过一个或多个计算机或一个或多个处理器访问的任何可用介质,以检索用于实施本发明所述技术的指令、代码和/或数据结构。计算机程序产品可以包括计算机可读介质。
作为示例而非限制,这类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储设备、闪存或可以用于存储指令或数据结构形式的所需程序代码并且可以由计算机访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴缆线、光纤缆线、双绞线、数字用户线(digital subscriber line,DSL)或红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,则同轴缆线、光纤缆线、双绞线、DSL或红外线、无线电和微波等无线技术包括在介质的定义中。但是,应理解,计算机可读存储介质和数据存储介质并不包括连接、载波、信号或其它瞬时性介质,而是涉及非瞬时性有形存储介质。本文所使用的磁盘和光盘包括压缩光盘(compact disc,CD)、激光光盘、光学光盘、数字多功能光盘(digitalversatile disc,DVD)、软盘和蓝光光盘,其中,磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包括在计算机可读介质的范围内。
可通过如一个或多个数字信号处理器(digital signal processor,DSP)、通用微处理器、专用集成电路(application specific integrated circuit,ASIC)、现场可编程逻辑阵列(field programmable logic array,FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器来执行指令。因此,本文所使用的术语“处理器”可以指上述结构中的任一种或适于实施本文所述技术的任何其它结构。另外,在一些方面中,本文描述的各种功能可以提供在用于编码和解码的专用硬件和/或软件模块内,或者并入在组合编解码器中。而且,这些技术可以在一个或多个电路或逻辑元件中完全实现。
本发明技术可以在多种设备或装置中实现,这些设备或装置包括无线手机、集成电路(integrated circuit,IC)或一组IC(例如芯片组)。本发明描述了各种组件、模块或单元,以强调用于执行所公开技术的设备的功能方面,但未必需要由不同的硬件单元实现。实际上,如上所述,各种单元可以结合合适的软件和/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元(包括如上所述的一个或多个处理器)的集合来提供。

Claims (11)

1.一种视频译码方法,其特征在于,包括:
获取当前译码块的预测模式;
当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,
确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值;确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;
当所述当前变换块的宽度大于或等于所述第一阈值且所述当前变换块的宽度小于或等于所述第二阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换;
当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平变换。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
4.一种视频译码装置,其特征在于,所述译码装置包括:
中央处理单元和变换处理单元;
所述中央处理单元用于当当前译码块的预测模式为帧内预测,且使用帧内子划分(intra sub-partition,ISP)译码模式处理所述当前译码块时,确定当前变换块的宽度是否大于或等于第一阈值,且所述当前变换块的宽度是否小于或等于第二阈值;确定当前变换块的高度是否大于或等于第三阈值,且所述当前变换块的高度是否小于或等于第四阈值,其中,所述当前变换块对应于所述当前译码块;
所述变换处理单元用于当所述当前变换块的宽度大于或等于所述第一阈值且所述当前变换块的宽度小于或等于所述第二阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于水平方向变换;
所述变换处理单元用于当所述当前变换块的高度大于或等于所述第三阈值且小于或等于所述第四阈值时,对所述当前变换块进行变换处理,其中,变换核DST 7用于垂直方向变换。
5.根据权利要求4所述的装置,其特征在于,所述变换处理单元还用于:当所述当前变换块的宽度小于所述第一阈值时,或当所述当前变换块的宽度大于所述第二阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于水平变换。
6.根据权利要求4所述的装置,其特征在于,所述变换处理单元还用于:当所述当前变换块的高度小于所述第三阈值时,或当所述当前变换块的高度大于所述第四阈值时,
对所述当前变换块进行变换处理,其中,变换核DCT 2用于垂直方向变换。
7.一种解码器,其特征在于,包括处理电路,用于执行根据权利要求1至3中任一项所述的方法。
8.一种编码器,其特征在于,包括处理电路,用于执行根据权利要求1至3中任一项所述的方法。
9.一种视频编码器,其特征在于,所述编码器包括:
处理器;
存储器,与所述处理器耦合并存储由所述处理器执行的程序,其中,在所述处理器执行所述程序时,所述程序使所述编码器执行根据权利要求1至3中任一项所述的方法。
10.一种视频解码器,其特征在于,所述解码器包括:
处理器;
存储器,与所述处理器耦合并存储由所述处理器执行的程序,其中,在所述处理器执行所述程序时,所述程序使所述解码器执行根据权利要求1至3中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储通过执行根据权利要求1至3任一项所述的方法而获得的视频比特流。
CN202210562357.3A 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法 Active CN115052163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210562357.3A CN115052163B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962813136P 2019-03-03 2019-03-03
US62/813,136 2019-03-03
US201962815293P 2019-03-07 2019-03-07
US62/815,293 2019-03-07
PCT/CN2020/074780 WO2020177509A1 (en) 2019-03-03 2020-02-12 An encoder, a decoder, and corresponding methods that are used for transform process
CN202210562357.3A CN115052163B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法
CN202080005189.7A CN112740703B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202080005189.7A Division CN112740703B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法

Publications (2)

Publication Number Publication Date
CN115052163A CN115052163A (zh) 2022-09-13
CN115052163B true CN115052163B (zh) 2024-04-09

Family

ID=72337366

Family Applications (4)

Application Number Title Priority Date Filing Date
CN202110835468.2A Active CN113727120B (zh) 2019-03-03 2020-02-12 译码方法、装置、编码器和解码器
CN202210562357.3A Active CN115052163B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法
CN202080005189.7A Active CN112740703B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法
CN202210562786.0A Pending CN115052164A (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110835468.2A Active CN113727120B (zh) 2019-03-03 2020-02-12 译码方法、装置、编码器和解码器

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202080005189.7A Active CN112740703B (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法
CN202210562786.0A Pending CN115052164A (zh) 2019-03-03 2020-02-12 编码器、解码器和用于变换处理的对应方法

Country Status (11)

Country Link
US (2) US20210144373A1 (zh)
EP (1) EP3903498A4 (zh)
JP (2) JP7106689B2 (zh)
KR (3) KR20240052873A (zh)
CN (4) CN113727120B (zh)
AU (2) AU2020233004B2 (zh)
BR (1) BR112020024331A2 (zh)
CA (1) CA3131288A1 (zh)
CL (2) CL2021002295A1 (zh)
MX (1) MX2020014019A (zh)
WO (1) WO2020177509A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110392256B (zh) 2019-03-09 2020-12-11 杭州海康威视数字技术股份有限公司 进行编码和解码的方法、编码端、解码端和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016201663A1 (en) * 2011-10-17 2016-04-07 K T Corporation Adaptive Transform Method Based on In-Screen Prediction and Apparatus Using The Method
WO2018066987A1 (ko) * 2016-10-04 2018-04-12 김기백 영상 데이터 부호화/복호화 방법 및 장치
CN108712651A (zh) * 2012-06-29 2018-10-26 韩国电子通信研究院 视频解码方法、视频编码方法和计算机可读介质
CN113196780A (zh) * 2019-01-12 2021-07-30 韦勒斯标准与技术协会公司 使用多变换核处理视频信号的方法和设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9247254B2 (en) * 2011-10-27 2016-01-26 Qualcomm Incorporated Non-square transforms in intra-prediction video coding
US9621909B2 (en) * 2012-07-02 2017-04-11 Lg Electronics Inc. Method for decoding image and apparatus using same
MX2021012481A (es) * 2016-03-16 2022-05-30 Hfi Innovation Inc Metodo y aparato de procesamiento de datos de video con tama?o restringido de bloque en codificacion de video.
US10887626B2 (en) * 2016-05-13 2021-01-05 Sharp Kabushiki Kaisha Image decoding device and image encoding device
CN117221576A (zh) * 2016-06-22 2023-12-12 Lx 半导体科技有限公司 图像编码/解码方法以及图像数据的传输方法
CN114401407A (zh) * 2016-06-24 2022-04-26 韩国电子通信研究院 用于基于变换的图像编码/解码的方法和设备
CN116708781A (zh) * 2016-07-12 2023-09-05 韩国电子通信研究院 图像编码/解码方法以及用于该方法的记录介质
US10972733B2 (en) * 2016-07-15 2021-04-06 Qualcomm Incorporated Look-up table for enhanced multiple transform
US10554974B2 (en) * 2017-01-13 2020-02-04 Mediatek Inc. Method and apparatus enabling adaptive multiple transform for chroma transport blocks using control flags
WO2018166429A1 (en) * 2017-03-16 2018-09-20 Mediatek Inc. Method and apparatus of enhanced multiple transforms and non-separable secondary transform for video coding
US10750181B2 (en) * 2017-05-11 2020-08-18 Mediatek Inc. Method and apparatus of adaptive multiple transforms for video coding
CN111095924B (zh) * 2017-12-28 2022-09-13 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
WO2019190283A1 (ko) * 2018-03-29 2019-10-03 엘지전자 주식회사 저복잡도 연산 dst7을 설계하는 방법 및 장치
KR102599446B1 (ko) * 2018-06-06 2023-11-08 엘지전자 주식회사 인트라 예측 모드에 기초하여 변환 인덱스 코딩을 수행하는 방법 및 이를 위한 장치
US20220038702A1 (en) * 2018-09-20 2022-02-03 Nokia Technologies Oy A method and an apparatus for encoding and decoding of digital image/video material
US11218694B2 (en) * 2018-09-24 2022-01-04 Qualcomm Incorporated Adaptive multiple transform coding
US10904563B2 (en) * 2019-01-02 2021-01-26 Tencent America LLC Method and apparatus for improved zero out transform
KR20210102468A (ko) * 2019-02-06 2021-08-19 엘지전자 주식회사 축소된 변환을 사용하여 비디오 신호를 처리하기 위한 방법 및 장치
US20200288130A1 (en) * 2019-03-07 2020-09-10 Qualcomm Incorporated Simplification of sub-block transforms in video coding
US11134275B2 (en) * 2019-06-04 2021-09-28 Tencent America LLC Method and apparatus for performing primary transform based on filtering of blocks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016201663A1 (en) * 2011-10-17 2016-04-07 K T Corporation Adaptive Transform Method Based on In-Screen Prediction and Apparatus Using The Method
CN108712651A (zh) * 2012-06-29 2018-10-26 韩国电子通信研究院 视频解码方法、视频编码方法和计算机可读介质
WO2018066987A1 (ko) * 2016-10-04 2018-04-12 김기백 영상 데이터 부호화/복호화 방법 및 장치
CN113196780A (zh) * 2019-01-12 2021-07-30 韦勒斯标准与技术协会公司 使用多变换核处理视频信号的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AVS2视频编码标准技术特色及应用;马思伟;罗法蕾;黄铁军;;电信科学(08);全文 *
E6-related: 2-mode MTS with shape adaptive transform selection;LAINEMA;JVET-M0304-v3;全文 *
Versatile Video Coding (Draft 4);Benjamin Bross;JVET-M1001-v5;第8.7.4节 *

Also Published As

Publication number Publication date
CA3131288A1 (en) 2020-09-10
CN115052163A (zh) 2022-09-13
JP2021531680A (ja) 2021-11-18
WO2020177509A1 (en) 2020-09-10
US20230254485A1 (en) 2023-08-10
CN115052164A (zh) 2022-09-13
BR112020024331A2 (pt) 2021-02-23
KR20210008080A (ko) 2021-01-20
EP3903498A1 (en) 2021-11-03
AU2020233004B2 (en) 2023-11-30
KR102475963B1 (ko) 2022-12-08
AU2020233004A1 (en) 2021-09-09
US20210144373A1 (en) 2021-05-13
AU2024201346A1 (en) 2024-03-21
KR102657540B1 (ko) 2024-04-12
CN113727120B (zh) 2022-09-23
MX2020014019A (es) 2021-03-25
JP7106689B2 (ja) 2022-07-26
KR20220162882A (ko) 2022-12-08
CN113727120A (zh) 2021-11-30
KR20240052873A (ko) 2024-04-23
CN112740703A (zh) 2021-04-30
CL2021002295A1 (es) 2022-04-01
JP2022136124A (ja) 2022-09-15
EP3903498A4 (en) 2022-07-06
CL2023002827A1 (es) 2024-01-26
CN112740703B (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN114650419B (zh) 进行帧内预测的编码器、解码器和对应方法
CN112913250B (zh) 编码器、解码器及对任意ctu尺寸使用ibc搜索范围优化的对应方法
CN113924780B (zh) 用于色度子块的仿射帧间预测的方法及装置
CN113748677A (zh) 编码器、解码器及对应的帧内预测方法
CN114449265B (zh) 用于帧内平滑的方法和装置
CN114026864B (zh) 用于几何分割模式的色度样本权重推导
CN115426494B (zh) 编码器,解码器和使用压缩mv存储的对应方法
CN114125468A (zh) 帧内预测方法和装置
CN117478915A (zh) 用于构建应用多假设预测的块的mpm列表的编码器、解码器及相应方法
CN114830665B (zh) 仿射运动模型限制
CN113348665B (zh) 编码器、解码器及色度帧内模式推导的对应方法
CN113170118B (zh) 视频译码中进行色度帧内预测的方法及装置
CN115052163B (zh) 编码器、解码器和用于变换处理的对应方法
CN114846789B (zh) 用于指示条带的图像分割信息的解码器及对应方法
CN113692740B (zh) 用于无除法帧内预测的方法和装置
CN114007068B (zh) 编码器、解码器及其实现的对当前块进行预测译码的方法
EP3991435A1 (en) Method and apparatus of sample adaptive offset in-loop filter with application region size constraint
CN113302929A (zh) 几何分割模式的样本距离计算
CN114900702B (zh) 降低平面模式的帧内预测的复杂度的编解码器和对应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant