CN115104301A - 用于视频编码或解码的基于神经网络的帧内预测 - Google Patents

用于视频编码或解码的基于神经网络的帧内预测 Download PDF

Info

Publication number
CN115104301A
CN115104301A CN202180014588.4A CN202180014588A CN115104301A CN 115104301 A CN115104301 A CN 115104301A CN 202180014588 A CN202180014588 A CN 202180014588A CN 115104301 A CN115104301 A CN 115104301A
Authority
CN
China
Prior art keywords
block
prediction
neural network
intra
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180014588.4A
Other languages
English (en)
Inventor
T·杜马斯
F·加尔平
P·博尔德斯
F·莱莱昂内克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Interactive Digital Vc Holding France
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Digital Vc Holding France filed Critical Interactive Digital Vc Holding France
Publication of CN115104301A publication Critical patent/CN115104301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/88Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Abstract

本发明提供了一种视频编码系统,该视频编码系统在使用神经网络的模式中对仅具有一组特定块大小的块执行帧内预测。该模式的信令被设计成在该约束下的速率失真方面是有效的。引入块的上下文的不同变换和该块的神经网络预测,以便使用一个单个神经网络来预测若干大小的块以及对应信令。基于神经网络的预测模式考虑亮度块和色度块两者。该视频编码系统包括编码器装置和解码器装置、编码、解码和信号生成方法以及携带对应于所描述的编码模式的信息的信号。

Description

用于视频编码或解码的基于神经网络的帧内预测
技术领域
本实施方案中的至少一个实施方案整体涉及用于视频编码或解码的基于神经网络的帧内预测。
背景技术
为了实现高压缩效率,图像和视频编码方案通常采用预测和变换来利用视频内容中的空间和时间冗余。一般来讲,帧内或帧间预测用于利用帧内或帧间相关,然后对在原始块与预测块之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重构视频,通过对应于熵编码、量化、变换和预测的逆过程对压缩数据进行解码。
发明内容
本实施方案中的一个或多个实施方案提供了一种视频编码系统,该视频编码系统在使用神经网络的模式中对仅具有一组特定块大小的块执行帧内预测。该模式的信令被设计成在该约束下的速率失真方面是有效的。引入块的上下文的不同变换和该块的神经网络预测,以便使用一个单个神经网络来预测若干大小的块以及对应信令。基于神经网络的预测模式考虑亮度块和色度块两者。视频编码系统包括编码器装置和解码器装置、编码、解码和信号生成方法以及携带对应于所描述的编码模式的信息的信号。
根据至少一个实施方案的第一方面,一种视频编码方法包括:基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;生成表示该基于神经网络的帧内预测模式的信令信息;以及至少对表示该至少一个块和该基于神经网络的帧内预测模式的信息进行编码。
根据至少一个实施方案的第二方面,一种视频解码方法包括:对于图片或视频中的至少一个块,至少获得块上下文和表示基于神经网络的预测模式的信息,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;以及基于该块上下文使用基于神经网络的帧内预测模式对图片或视频中的该至少一个块执行帧内预测。
根据至少一个实施方案的第三方面,一种装置包括编码器,该编码器用于对图片或视频中的至少一个块的图片数据进行编码,其中该编码器被配置为:基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;生成表示该基于神经网络的帧内预测模式的信令信息;以及至少对表示该至少一个块和该基于神经网络的帧内预测模式的信息进行编码。
根据至少一个实施方案的第四方面,一种装置包括解码器,该解码器用于对图片或视频中的至少一个块的图片数据进行解码,其中该解码器被配置为:对于图片或视频中的至少一个块,至少获得块上下文和表示基于神经网络的预测模式的信息,该块上下文包括位于该至少一个块的顶侧和左侧处的一组周围像素;以及基于该块上下文使用基于神经网络的帧内预测模式对图片或视频中的该至少一个块执行帧内预测。
根据第一实施方案、第二实施方案、第三实施方案和第四实施方案的变体,该块上下文的该组周围像素包括位于当前块的顶侧、左侧、对角线左上侧、对角线右上侧和对角线左下侧处的块的像素,并且其中该块的大小基于至少一个块的大小。
根据至少一个实施方案的第五方面,比特流包括表示根据至少第一方面的方法的基于神经网络的预测模式的信息。
根据至少一个实施方案的第六方面,呈现了一种包括能够由处理器执行的程序代码指令的计算机程序,该计算机程序实施根据至少第一方面或第二方面的方法的步骤。
根据至少一个实施方案的第七方面,呈现了一种存储在非暂态计算机可读介质上并且包括能够由处理器执行的程序代码指令的计算机程序产品,该计算机程序产品实施根据至少第一方面或第二方面的方法的步骤。
附图说明
图1示出了视频编码器100的示例的框图。
图2示出了视频解码器200的示例的框图。
图3示出了在其中实现各个方面和实施方案的系统的示例的框图。
图4示出了用于帧内预测的参考样本生成过程的示例。
图5示出了角度预测模式的示例。
图6示出了基于矩阵的帧内预测模式的示例。
图7示出了MIP模式索引与MIP矩阵索引之间的映射的示例。
图8示出了用于导出不同块形状的最可能模式列表的上方和左侧CU位置的示例。
图9示出了示出如上所介绍的亮度的帧内预测信令的决策树的示例。
图10示出了示出色度的帧内预测信令的决策树的示例。
图11示出了围绕要针对基于神经网络的帧内预测而预测的当前正方形块的上下文的示例。
图12示出了经由全连接神经网络的帧内预测的示例。
图13示出了经由卷积神经网络的帧内预测的示例。
图14示出了根据示例性实施方案的围绕要预测的W×H矩形块Y的上下文X的选择的示例。
图15示出了根据至少一个实施方案的帧内预测模式信令的示例性选择。
图16示出了根据至少一个实施方案的由编码装置实施的用于块的编码方法的示例性流程图。
图17示出了根据至少一个实施方案的由解码装置实施的用于块的解码方法的示例性流程图。
图18示出了根据实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图19示出了根据还考虑MIP模式的第一变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图20示出了根据考虑并支持MIP模式的第二变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图21示出了根据不考虑MRL的第三变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图22示出了根据将基于神经网络的帧内预测模式与ISP组合的第四变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图23示出了根据其中PLANAR模式在S0中由基于神经网络的模式替换的第五变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。
图24示出了根据第二变体实施方案的用于选择用于发信号通知预测块的色度的模式的示例性决策。
图25A示出了根据至少一个实施方案的对块的上下文进行下采样以及对神经网络预测进行内插的示例。
图25B示出了根据至少一个实施方案的用于对块的上下文进行下采样以及对神经网络预测进行内插的方法的示例。
图26示出了从当前亮度PB的大小W×H映射到γ,δ、帧内预测模式信令和用于预测的神经网络的示例。
图27A示出了对块的上下文进行转置以及对内插神经网络预测进行转置以便使用基于神经网络的帧内预测模式的示例。
图27B示出了用于对块的上下文进行转置以及对内插神经网络预测进行转置以便使用基于神经网络的帧内预测模式的方法的示例。
具体实施方式
图1示出了视频编码器100的示例的框图。视频编码器的示例包括符合HEVC标准的高效率视频编码(HEVC)编码器,或其中对HEVC标准作出改进的HEVC编码器,或采用类似于HEVC的技术的编码器,诸如由JVET(联合视频探索团队)开发用于通用视频编码(VVC)标准化的JEM(联合探索模型)编码器,或其他编码器。
在编码之前,视频序列可经历预编码处理(101)。例如通过以下方式来执行此操作:将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更具弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预处理相关联并且附接到比特流。
在HEVC中,为了对具有一个或多个图片的视频序列进行编码,将图片分割(102)成一个或多个切片,其中每个切片可包括一个或多个切片片段。将切片片段组织成编码单元、预测单元和变换单元。HEVC规格区分“块”和“单元”,其中“块”处理样本阵列中的特定区域(例如,亮度、Y),并且“单元”包括与块相关联的所有编码的颜色分量(Y、Cb、Cr或单色)、语法元素和预测数据的并置块(例如,运动向量)。
对于HEVC中的编码,将图片分割成具有可配置大小的正方形形状的编码树块(CTB),并且将连续的一组编码树块分组为切片。编码树单元(CTU)包含编码的颜色分量的CTB。CTB是分区为编码块(CB)的四叉树的根,并且编码块可被分区为一个或多个预测块(PB)并且形成分区为变换块(TB)的四叉树的根。对应于编码块、预测块和变换块,编码单元(CU)包括预测单元(PU)和树形结构集合的变换单元(TU),PU包括所有颜色分量的预测信息,并且TU包括每个颜色分量的残差编码语法结构。亮度分量的CB、PB和TB的大小适用于对应的CU、PU和TU。
在本申请中,术语“块”可用于指代例如CTU、CU、PU、TU、CB、PB和TB中的任一者。另外,“块”还可以用于指代H.264/AVC或其他视频编码标准中所指定的宏块和分区,并且更一般地指代各种大小的数据阵列。实际上,在其他编码标准中,诸如由JVET开发的编码标准中,块形状可以不同于正方形块(例如矩形块),最大块大小可以更大,并且块的布置可以不同。
在编码器100的示例中,图片由编码器元件进行编码,如下所述。以CU为单位对待编码的图片进行处理。使用帧内模式或帧间模式对每个CU进行编码。当CU在帧内模式中编码时,该CU执行帧内预测(160)。在帧间模式中,执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对CU进行编码,并且通过预测模式标志来指示帧内/帧间决定。通过从原始图像块减去(110)预测块来计算预测残差。
根据同一切片内的重构相邻样本预测处于帧内模式的CU。在HEVC中可用35个帧内预测模式的集合,包括DC、平面和33个角度预测模式。根据与当前块相邻的行和列来重构帧内预测参考。参考使用来自先前重构的块的可用样本在水平和垂直方向上扩展超过块大小的两倍。当使用角度预测模式进行帧内预测时,可沿着由角度预测模式指示的方向复制参考样本。
用于当前块的适用亮度帧内预测模式可使用两个不同的选项来编码。如果适用模式包括在三个最可能模式(MPM)的构建列表中,则该模式通过MPM列表中的索引来发信号通知。否则,该模式通过模式索引的固定长度二值化来发信号通知。三个最可能模式源自顶部和左侧相邻块的帧内预测模式。
对于帧间CU,将对应编码块进一步分割为一个或多个预测块。对PB级别执行帧间预测,并且对应PU包括关于如何执行帧间预测的信息。可以用两种方法发信号通知运动信息(例如,运动向量和参考图像索引),即“合并模式”和“高级运动向量预测(AMVP)”。
在合并模式中,视频编码器或解码器基于已经编码的块组装候选列表,并且视频编码器针对候选列表中的候选中的一个候选发信号通知索引。在解码器端,基于发信号通知的候选来重构运动向量(MV)和参考图片索引。
在AMVP中,视频编码器或解码器基于根据已经编码的块确定的运动向量来组装候选列表。然后,视频编码器发信号通知候选列表中的索引以标识运动向量预测因子(MVP)并发信号通知运动向量差(MVD)。在解码器端,运动向量(MV)被重构为MVP+MVD。适用的参考图片索引也在用于AMVP的PU语法中被显式编码。
然后对预测残差进行变换(125)和量化(130),包括用于调整下述色度量化参数的至少一个实施方案。变换通常基于可分离变换。例如,首先在水平方向上应用DCT变换,然后在垂直方向上应用DCT变换。在诸如JEM的最近的编解码器中,在两个方向上使用的变换可以不同(例如,一个方向上的DCT、另一个方向上的DST),这导致各种2D变换,而在先前的编解码器中,通常限制给定块大小的各种2D变换。
对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145),以输出比特流。编码器也可跳过变换,并基于4x4 TU对未变换的残余信号直接应用量化。编码器也可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。在直接PCM编码中,不应用预测并且将编码单元样本直接编码到比特流中。
编码器对编码块进行解码以提供用于进一步预测的参考。对经量化的变换系数进行解量化(140)和逆变换(150)以对预测残差进行解码。组合(155)经解码的预测残差和预测块,重构图像块。向重建画面应用环路滤波器(165)以执行例如解块/SAO(取样自适应偏移)滤波以减少编码伪影。经滤波的图像存储在参考图片缓冲器(180)中。
图2示出了视频解码器200的示例的框图。视频解码器的示例包括符合HEVC标准的高效率视频编码(HEVC)解码器,或其中对HEVC标准作出改进的HEVC解码器,或采用类似于HEVC的技术的解码器,诸如由JVET(联合视频探索团队)开发用于通用视频编码(VVC)标准化的JEM(联合探索模型)解码器,或其他解码器。
在解码器200的示例中,比特流由解码器元件进行解码,如下所述。视频解码器200通常执行与如图1所描述的编码通路互逆的解码通路,该解码通路执行视频解码作为编码视频数据的一部分。
具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量、图片分区信息和其他编码信息。图片分区信息指示CTU的大小以及将CTU分割成CU(在适用时可能划分成PU)的方式。因此,解码器可根据经解码的图片分区信息将图片划分(235)成CTU,并且将每个CTU划分成CU。对变换系数进行去量化(240),包括用于调整下述色度量化参数的至少一个实施方案,并进行逆变换(250)以解码预测残差。
组合(255)经解码的预测残差和预测块,重构图像块。可从帧内预测(260)或运动补偿预测(即帧间预测)(275)获得(270)预测块。如上所述,AMVP和合并模式技术可用于导出运动补偿的运动向量,该运动向量可使用内插滤波器来计算参考块的子整数样本的内插值。向重构图像应用环路滤波器(265)。经滤波的图像存储在参考图片缓冲器(280)中。
经解码的图片还可经历解码后处理(285),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码处理(101)中执行的重新映射过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。
图3示出了在其中实现各种方面和实施方案的系统的示例的框图。系统1000可体现为包括下文所描述的各种部件的设备,并且被配置为执行本申请中所描述的方面中的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器、编码器、转码器和服务器。系统1000的元件可单独地或组合地体现在单个集成电路、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统1000的处理和编码器/解码器元件分布在多个IC和/或分立元件上。在各种实施方案中,系统1000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到其他类似系统或其他电子设备。在各种实施方案中,系统1000被配置为实现本文档中所述的一个或多个方面。
系统1000包括至少一个处理器1010,该至少一个处理器被配置为执行加载到其中的指令,以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,该存储设备可以包括非易失性存储器和/或易失性存储器,包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备1040可以包括内部存储设备、附接存储设备和/或网络可访问存储设备。
系统1000包括编码器/解码器模块1030,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块1030可包括其自身的处理器和存储器。编码器/解码器模块1030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。此外,编码器/解码器模块1030可实现为系统1000的独立元件,或者可结合在处理器1010内作为本领域技术人员已知的硬件和软件的组合。
要加载到处理器1010或编码器/解码器1030上以执行本文档中所述的各个方面的程序代码可存储在存储设备1040中,并且随后被加载到存储器1020上以供处理器1010执行。根据各种实施方案,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在若干实施方案中,处理器1010和/或编码器/解码器模块1030内部的存储器用于存储指令和提供工作存储器以用于在编码或解码期间所需的处理。然而,在其他实施方案中,处理设备外部的存储器(例如,处理设备可以是处理器1010或编码器/解码器模块1030)用于这些功能中的一个或多个功能。外部存储器可以是存储器1020和/或存储设备1040,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中,诸如RAM的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器,诸如用于MPEG-2、HEVC或VVC(多功能视频编码)。
对系统1000的元件的输入可通过如框1130中所示的各种输入设备提供。此类输入设备包括但不限于:(i)接收例如由广播器通过无线电发射的RF信号的RF部分,(ii)复合输入端子,(iii)USB输入端子,和/或(iv)HDMI输入端子。
在各种实施方案中,框1130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如,RF部分可与以下所需的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频所选的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
此外,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统1000连接到其他电子设备的相应接口处理器。应当理解,输入处理(例如Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器1010内实现。类似地,USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器1010内实现。将经解调、纠错和解复用的流提供给各种处理元件,包括例如处理器1010以及编码器/解码器1030,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。
系统1000的各种元件可设置在集成外壳内。在集成外壳内,各种元件可使用合适的连接布置(例如,如本领域已知的内部总线,包括I2C总线、布线和印刷电路板)互连并且在其间传输数据。
系统1000包括能够经由通信信道1060与其他设备通信的通信接口1050。通信接口1050可包括但不限于被配置为通过通信信道1060发射和接收数据的收发器。通信接口1050可包括但不限于调制解调器或网卡,并且通信信道1060可例如在有线和/或无线介质内实现。
在各种实施方案中,使用诸如IEEE 802.11的Wi-Fi网络将数据流式传输到系统1000。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道1060和通信接口1050接收。这些实施方案的通信信道1060通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以允许流式传输应用和其他过顶通信。其它实施方案使用通过输入块1130的HDMI连接传递数据的机顶盒向系统1000提供流式数据。还有其他实施方案使用输入块1130的RF连接向系统1000提供流式数据。
系统1000可将输出信号提供到各种输出设备,包括显示器1100、扬声器1110和其他外围设备1120。在实施方案的各种示例中,其他外围设备1120包括以下中的一者或多者:独立DVR、磁盘播放器、立体声系统、照明系统和基于系统1000的输出提供功能的其他设备。在各种实施方案中,控制信号使用信令(诸如AV.Link、CEC或其他通信协议)在系统1000与显示器1100、扬声器1110或使得能够在有或没有用户干预的情况下进行设备到设备控制的其他外围设备1120之间传达。输出设备可通过相应接口1070、1080和1090经由专用连接通信地耦接到系统1000。另选地,输出设备可使用通信信道1060经由通信接口1050连接到系统1000。显示器1100和扬声器1110可与电子设备(诸如电视机)中的系统1000的其他部件集成在单个单元中。在各种实施方案中,显示接口1070包括显示驱动器,诸如例如定时控制器(T Con)芯片。
另选地,如果输入1130的RF部分是单独机顶盒的一部分,则显示器1100和扬声器1110可选地与其他部件中的一个或多个部件分开。在显示器1100和扬声器1110为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)提供。本文所述的具体实施可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。装置可在例如适当的硬件、软件和固件中实现。方法可在例如一般是指处理设备的装置(诸如,例如处理器)中实施,该装置包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
帧内预测(160,260)的过程包括收集参考样本,处理参考样本,从处理后的参考样本导出对当前块的样本的预测以及对预测样本进行后处理。帧内预测模式使用来自先前已从同一图片内解码的相邻预测块的数据。
图4示出了用于帧内预测的参考样本生成过程的示例。在此图中,在正方形当前块(W=H=N)的情况下示出了用于帧内预测的参考样本,坐标(x,y)处的像素值在图中由P(x,y)表示。2W个样本的“上方”行(402,呈浅灰色背景)由位于当前块(401,呈白色背景)上方的先前经解码像素形成,W表示块宽度。类似地,2H个样本的“左侧”列(403,也呈浅灰色背景)由位于当前块左侧的经解码像素形成,H表示块高度。拐角像素(404)也用于填充“上方”行与“左侧”列参考之间的间隙。如果当前块上方和/或其左侧的样本中的一些样本不可用(由于例如对应编码块(CB)不在同一切片中,或者当前CB处于帧边界处),则执行称为参考样本取代的方法,其中按顺时针方向从可用样本复制缺失的样本。接下来,取决于当前CU大小和预测模式,使用指定滤波器对参考样本进行滤波。
图5示出了角度预测模式的示例。例如在HEVC和JEM/JVET中使用多种模式。DC模式通过平均参考样本生成平均值,并且所有预测样本都采用此平均值。PLANAR模式对将参考样本的“上方”行从上到下垂直外推和将参考样本的“左侧”列从左到右水平外推进行线性组合。两种模式都用于预测平滑并逐渐变化的区域,并且因此通常用于平坦表面。相比之下,角度预测模式用于捕获不同的定向结构。HEVC使用33种定向预测模式,而在H.266中存在65种定向预测模式,该定向预测模式针对每个矩形块形状不同地组织。这些预测模式对应于如图5所示出的不同预测方向。
通过引入例如由JEM/JVET提出的其他帧内预测工具(诸如允许使用不同于图4中所示的相邻行和列的参考样本的一对行和列(又称为参考线)的多个参考线(MRL)、具有进一步将块拆分成子分区的子分区帧内预测(ISP)和矩阵帧内预测(MIP)),帧内预测从HEVC进一步扩展。
图6示出了基于矩阵的帧内预测模式的示例。矩阵帧内预测(MIP)仅适用于亮度块。经由MIP对W×H亮度块的预测(601)被分解为三个步骤。首先,对块上方的W个经解码参考样本(bdrytop)和该块的左侧的H个经解码参考样本(bdryleft)进行下采样(602)。然后,根据所选模式k将下采样的结果线性变换(603)成减少的预测。最后,对减少的预测进行线性内插(604),使得内插的预测具有与块相同的大小。如果W=4并且H=4,则存在32种MIP模式。
图7示出了MIP模式索引与MIP矩阵索引之间的映射的示例。该示例适用于要预测的4×4亮度块。这些模式被拆分成对,每对使用同一MIP矩阵,但是对于每对的第二模式,亮度块上方的下采样参考样本和亮度块左侧的下采样参考样本被交换。当应用对下采样参考样本的交换时,减少的预测在内插之前首先被转置。
鉴于先前的解释,在MIP中,对经解码参考样本进行下采样以及对减少的预测进行内插的过程使得能够重新使用同一组矩阵来预测不同大小的亮度块,从而限制所需MIP矩阵的数目,即,要存储在解码器或编码器的存储器中的矩阵系数的数目。当使用8个比特对每个MIP矩阵系数进行编码时,MIP矩阵系数的存储器占用量仅为5120字节。
图8示出了用于导出不同块形状的最可能模式列表的上方和左侧CU位置的示例。实际上,关于这些帧内预测模式的信令,编码器根据速率失真标准选择最佳帧内预测模式,并且其索引被传输到解码器。为了通过熵编码执行所选模式索引的信令,建立最大可能模式(MPM)的列表。例如,MPM列表可以包括6个帧内预测模式,用于发信号通知当前块的帧内预测模式。MPM列表由位于当前CU的上方和左侧的帧内编码的CU的预测模式和一些默认模式创建。上方和左侧CU位于当前块的右边缘和下边缘,如图8所示。
下面给出MPM列表的计算的示例。
Figure BDA0003797310850000121
Figure BDA0003797310850000131
offset=61
mod=64
MPM列表的初始化:
Figure BDA0003797310850000132
Figure BDA0003797310850000141
如果用于预测当前块的所选帧内预测模式对应于六个MPM模式中的一个MPM模式,则其经由具有值1的mpmFlag发信号通知。然后,使用表1中所示的可变长度编码方案发信号通知来自MPM列表的候选模式。否则,mpmFlag等于0,并且使用5个或6个比特对剩余61种模式的集合中的候选索引进行截断二进制编码。
候选索引 代码
MPM[0] 0
MPM[1] 10
MPM[2] 110
MPM[3] 1110
MPM[4] 11110
MPM[5] 11111
表1
对于使用MRL的帧内预测,使用multiRefIdx发信号通知用于预测的参考线。multiRefIdx的值可以是0、1或2(分别编码为0、10和11),分别发信号通知第一参考线、第二参考线和第三参考线。当multiRefIdx>0时,预测模式始终属于MPM列表。因此,mpmFlag没有被发信号通知。此外,PLANAR被从列表中排除。这意味着只有5个MPM可用作可能的候选。当multiRefIdx>0时,发信号通知预测模式,如表2所示。
候选索引 代码
MPM[1] 0
MPM[2] 10
MPM[3] 110
MPM[4] 1110
MPM[5] 1111
表1
对于ISP,用ispMode发信号通知用于CU的分区类型。ispMode的值可以是0、1或2(分别编码为0、10和11),分别发信号通知无分区、水平分区和垂直分区。仅当multiRefIdx等于0时才对ispMode进行编码。
首先使用mipFlag发信号通知MIP模式,值1意味着MIP模式用于预测当前亮度块,0意味着使用67种常规帧内预测模式中的一种模式。当mipFlag等于1时,multiRefIdx被推断为0,并且ispMode被推断为0。因此,当mipFlag等于1时,multiRefIdx和ispMode不写入比特流。如果mipFlag等于1,则将mipTransposedFlag写入比特流以指示当前亮度块上方的下采样参考样本和当前亮度块左侧的下采样参考样本是否被交换用于所选MIP模式。最后,接着对所选MIP模式的MIP矩阵的索引进行截断二进制编码。
为了处理用于预测当前块的帧内预测模式是67种帧内预测模式中的一种模式并且用于预测上方CU的所选模式或者用于预测左侧CU的所选模式是MIP模式的情况,每个MIP模式与67种常规帧内预测模式中的一种模式之间的映射使得能够用该MIP模式的映射模式来取代该MIP模式。在一些实施方式中,任何MIP模式都被映射到PLANAR。
图9示出了示出如上所介绍的亮度的帧内预测信令的决策树的示例。在此图中,测试不同的预测模式标记,并且通过对应信令达到最终状态。在状态S91的情况下,如表2所示发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且编码结束。在状态S92的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且编码结束。在状态S93的情况下,发信号通知对MIP模式的MIP矩阵的索引进行截断二进制编码,因此4×4块需要4个比特,4×8、8×4、8×8块需要3个比特,或者其他块大小需要2个到3个比特,并且编码结束。
在此图中,矩形指示测试,并且斜体文本表示条件,并且同时示出bin的值(粗体的bin值)和标记的值(括号内的文本)。实际上,在一些情况下,bin值0表示标记值1,并且反之亦然。相同的原理适用于本文档中的所有其他类似的图。
图10示出了示出色度的帧内预测信令的决策树的示例。在此图中,测试不同的预测模式标记,并且通过对应信令达到最终状态。对于两个色度通道,既不使用MRL、ISP,也不使用MIP。然而,使用两种特定工具:直接模式和交叉分量线性模型(CCLM)。直接模式对应于将用于预测并置亮度块的所选模式应用于当前色度块的预测。如果directFlag等于1,则选择直接模式以用于预测当前色度块。否则,directFlag等于0,并且选择列表Lc=[PLANAR,垂直,水平,DC]中的一种模式,Lc列出用于色度的不同候选帧内预测模式。如果Lc中的模式等于直接模式,则该模式由索引66的模式替换。在CCLM中,线性模型预测来自并置亮度块周围的经解码亮度参考样本的当前色度块。线性模型的参数源自经解码参考样本。存在三个CCLM模式,每个模式与参数的不同推导相关联。如果cclmFlag等于1,则选择三种CCLM模式中的一种CCLM模式。在此情况下,directFlag不写入比特流。否则,cclmFlag等于0,并且选择直接模式或Lc中的模式中的一种模式。在状态S101的情况下,发信号通知对4个非直接模式当中的非直接模式进行截断二进制编码,并且编码结束。
图11示出了围绕要针对基于神经网络的帧内预测而预测的当前正方形块的上下文的示例。用于帧内预测的神经网络从当前块(1195)周围的上下文中推断对该块的预测。该图示出了呈灰色背景的大小为W×W的当前正方形块Y(1195)和呈白色背景的上下文X。上下文X由位于当前块Y(1195)上方(1192)和该当前块左侧(1194)的经解码像素构成,并且朝向左上方(1191)、右上方(1193)和左下方(1196)扩展。由于此延伸,神经网络可以学习其输入上下文中的空间相关性与其给出的预测之间的关系。
图12示出了经由全连接神经网络的帧内预测的示例。如果神经网络是全连接的,则上下文通常被重新布置为向量,并且将所得向量馈送到神经网络中。然后,由神经网络提供的向量被重新成形为当前块的形状,从而产生预测
Figure BDA0003797310850000171
图13示出了经由卷积神经网络的帧内预测的示例。以下描述详细描述了使用卷积神经网络来预测W×W块的示例。将其分解为以下阶段。
该块的上下文被拆分成(1310)该块上方的3W×W部分,以及(1320)该块左侧的2W×W部分。
该块(1311)上方的部分被馈送到第一卷积层堆叠中,从而产生特征图堆叠1335。更精确地说,第一卷积层堆叠的第一层作用如下。块(1311)上方的部分与2D滤波器1312进行卷积,并且将偏差添加到卷积结果的每个系数。每次使用一对不同的2D滤波器和偏差来重复这两个操作的级联。将非线性函数应用于卷积结果以及偏差的添加,从而产生特征图堆叠1315。
然后,第一卷积层堆叠的第二层表现如下。特征图堆叠1315与3D滤波器进行卷积,并且将偏差添加到卷积结果的每个系数。在图13中,仅描绘了该3D滤波器中的第一2D滤波器1316和最后一个2D滤波器1317。每次使用一对不同的3D滤波器和偏差来重复这两个操作的级联。将非线性函数应用于卷积结果以及偏差的添加,从而产生新的特征图堆叠。
最后,可以将附加层加到第一卷积层堆叠(1330),每个附加层将由前一层返回的特征图堆叠作为输入。每个附加层重新使用与第二层相同的操作,但具有3D滤波器和偏差的不同集合,并且任选地具有不同的非线性函数。第一卷积层堆叠的最后一层给出特征图堆叠1335。
块(1321)的左侧的部分被馈送到第二卷积层堆叠中,从而产生特征图堆叠1345。第二卷积层堆叠的描述从第一卷积层堆叠的描述中得出,但是用1322取代1312,用1325取代1315,用1326取代1316,用1327取代1317,用1340取代1330,并且用1345取代1335。
特征图堆叠1335和堆叠1345经由全连接合并。更具体地说,1335中的索引i的特征图与1345中的索引i的特征图线性组合,并且任选地将偏差添加到所得标量。每次使用用于线性组合的不同权重和不同偏差来重复这两个操作的级联。任选地对结果应用非线性,从而产生1355中的索引i的特征图。注意,上述全连接性是逐图的。然而,它也可以是逐堆叠的。这意味着1355中的给定特征图中的给定系数由特征图堆叠1335和特征图堆叠1345中的所有系数的线性组合、偏差的任选添加和非线性函数的任选应用产生。
特征图堆叠1355被馈送到转置卷积层堆叠中,从而产生对块1385的W×W预测。更精确地说,该转置卷积层堆叠中的每个层的表现类似于第一卷积层堆叠的第二层,不同之处在于涉及3D滤波器和偏差的不同集合并且任选地涉及不同的非线性函数。对于该转置卷积层堆叠的第一层,用1355取代1315,用1356取代1316,并且用1357取代1317。对于该转置卷积层堆叠的第二层,用1375取代1315,用1376取代1316,并且用1377取代1317。术语“转置”指示标准卷积步幅变成围绕每个输入特征图的每个系数的填充。该转置卷积层堆叠的最后一层中的3D滤波器的数目必须等于W×W预测的通道的数目(即1)。
在支持多个块大小和矩形块的基于块的视频编码系统(诸如JEM/JVET)中,基于神经网络的帧内预测模式包括许多神经网络,从而导致用于神经网络参数的较大存储器占用量。实际上,当用于帧内预测的神经网络从给定正方形或矩形块周围的L形上下文推断对该块的预测时,几乎不能使用全卷积架构。这意味着神经网络架构的至少一个层必须是全连接的。因此,神经网络参数的数目与块大小相关。由于该相依性,如果基于神经网络的模式旨在预测任何大小的块,则必须由基于神经网络的模式内部的不同神经网络预测每个可能大小的块。这将需要大量存储器来存储神经网络参数。现在,为了了解基于神经网络的模式中的参数的存储器占用量,我们假设基于神经网络的模式被设计成预测视频编解码器(诸如JEM/JVET)中的W×H块,例如H≥4并且W≥4。由于存在25种不同的W×H块大小组合,因此基于神经网络的模式可能包括25个神经网络。鉴于用于帧内预测的深度神经网络可能通常具有多于一百万个参数,要存储在H.266中的神经网络参数的数目超过2500万个。
此外,在集成基于神经网络的帧内预测模式的常规视频编解码器中,基于神经网络的模式与现有模式系统性地竞争。对于待预测的当前块,在用于帧内预测的所有其它标记之前将标记写入比特流。值1指示选择基于神经网络的帧内预测模式用于预测当前块。在这种情况下,不将用于帧内预测的其它标记写入比特流。值0意味着选择常规帧内预测中的一个预测。在这种情况下,用于帧内预测的常规标记则写入比特流。当使用MIP时,这对于JEM/JVET也是有效的,因为在用于帧内预测的所有其他标记之前,也将mipFlag写入比特流。
下文描述的实施方案在设计时考虑了前述内容。
在至少一个实施方案中,一种视频编码系统在使用神经网络的模式中对仅具有一组特定块大小的块执行帧内预测。在至少一个实施方案中,该模式的信令被设计成在该约束下的速率失真方面是有效的。在至少一个实施方案中,引入块的上下文的不同变换和该块的神经网络预测,以便使用一个单个神经网络来预测若干大小的块。在至少一个实施方案中,信令还包括具有变换的该模式。在至少一个实施方案中,基于神经网络的预测模式考虑亮度块和色度块两者。
图14示出了根据示例性实施方案的围绕要预测的W×H矩形块Y的上下文X的选择的示例。扩展的上下文包括:该块的左侧的2H个经解码像素的nl个列,以及该块上方的nl+2W个经解码像素的na个行。na和nl应该被确定为在两个方面之间提供良好折衷。在第一方面,对于要预测的大块,需要该块上方和左侧的经解码像素之间的长程空间相依性来以相对高的质量预测该块。这意味着对于要预测的大块,na和nl应该较大。在第二方面,具有基于神经网络的模式的H.266的运行时间随着na和nl增长而增加。因此,下面定义的规则(1),(2),(3)是用于定义na和nl的三个变体实施方案。
na=nl=min(H,W) (1)
Figure BDA0003797310850000191
na=nl=max(H,W) (3)
这样,na和nl是确定要预测的W×H矩形块Y周围的上下文X(以下称为块上下文)的大小的参数。
在至少一个实施方案中,基于神经网络的帧内预测模式被发信号通知而没有任何上下文预变换(将在下面介绍)。在该第一信令中,主要原理是经由基于神经网络的模式仅预测某些大小的块。对于这些大小中的每个大小,一对块高度和宽度被放入集合
Figure BDA0003797310850000201
中。Q表示所有可能的块高度和宽度对的集合。然后,对于要预测的W×H块,如果基于神经网络的模式包括神经网络
Figure BDA0003797310850000202
(由θH,W参数化),则发信号通知该基于神经网络的模式,从而预测大小为W×H的块。此外,如果要预测的当前块的上下文超出图像边界,即不能执行神经网络帧内预测,则不应该发信号通知基于神经网络的模式。
图15示出了根据至少一个实施方案的帧内预测模式信令的示例性选择。实际上,鉴于上述两个考虑,对于左上像素位于当前图像中的(x,y)处的W×H亮度预测块(PB),如果(H,W)∈T并且x≥nl并且y≥na,则选中包括专用于基于神经网络的帧内预测模式的标记nnFlag的帧内预测模式信令S0。否则,应用不包括nnFlag的另一帧内预测模式信令S1。关于块位置的测试旨在确保有可能确定用以执行预测的块上下文,换句话说,块不太靠近图像的边界。在此图中,考虑规则(1)。在由点白线表示的大小为8×4的亮度PB的第一示例中,在该PB左上方的像素在帧中的坐标是x=9、y=5,并且因此可以执行基于神经网络的帧内预测,因为有足够的信息可用于确定用于预测的块上下文。在第二示例中,对于在位置x’,y’处的块(图中未描绘),不存在可用于执行基于神经网络的帧内预测的足够信息,并且因此,应将另一预测模式用于该块。
图16示出了根据至少一个实施方案的由编码装置实施的用于块的编码方法的示例性流程图。在步骤161A中,获得块的大小并将其与定义神经网络的一组授权大小进行比较。当没有针对所获得的块大小定义神经网络时,在分支“否”中,必须使用另一模式对该块进行编码,并且因此将使用另一信令。在分支“是”中,在步骤162A中获得块位置,并且针对如下文在规则1、2或3中所描述而确定的块上下文的大小(换句话说,针对na和nl的值)来测试块位置,如上文在图15的描述中所解释。当位置不正确时,在分支“不正确”中,无法使用基于神经网络的帧内预测,并且必须使用另一模式对块进行解码。如果位置是正确的,则在分支“正确”中,在步骤163中获得块上下文,并且进行基于神经网络的帧内预测,例如如上文在图13的描述中所解释。在步骤165中例如根据下面所描述的实施方案中的任一个实施方案生成定制信令。
图17示出了根据至少一个实施方案的由解码装置实施的用于块的解码方法的示例性流程图。在步骤161B中,获得块的大小并将其与定义神经网络的一组授权大小进行比较。当没有针对所获得的块大小定义神经网络时,在分支“否”中,必须使用另一模式对该块进行解码,并且因此将使用另一信令。在分支“是”中,在步骤162B中获得块位置,并且针对如下文在规则1、2或3中所描述而确定的块上下文的大小(换句话说,针对na和nl的值)来测试块位置,如上文在图15的描述中所解释。当位置不正确时,在分支“不正确”中,无法使用基于神经网络的帧内预测,并且必须使用另一模式对块进行解码。在分支“正确”中,在步骤166中,解码器获得块的帧内信令信息。在步骤167中,测试针对块的基于神经网络的帧内预测的信令。如果情况不是这样(分支“否”),则对块使用另一预测模式。在针对块的基于神经网络的帧内预测的情况下(分支“是”),在步骤168中获得块上下文,并且在步骤169中执行基于神经网络的帧内预测,例如如上文在图13的描述中所解释。
在编码器侧和解码器侧两者上执行块大小和块位置测试(步骤161A、步骤161B、步骤162A和步骤162B)。这是必需的,因为解码器需要知道决策树的结构以解释解码器读取的bin。在S0与S1之间的选择不写入比特流。
图18示出了根据实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。在此图中,测试不同的预测模式标记,并且通过对应信令达到最终状态。在此实施方案中,首先将nnFlag放置在S0中。nnFlag=1指示基于神经网络的模式预测当前亮度PB。在状态S181的情况下,如表2所示出发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且编码结束。在状态S182的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且编码结束。
图19示出了根据还考虑MIP模式的第一变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。在此实施方案中,在基于神经网络的帧内预测之后添加MIP模式。在状态S191的情况下,如表2所示发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且发信号通知编码结束。在状态S192的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且发信号通知编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且发信号通知编码结束。在状态S193的情况下,发信号通知对MIP模式的MIP矩阵的索引进行截断二进制编码,因此4×4块需要4个比特,4×8、8×4、8×8块需要3个比特,或者其他块大小需要2个到3个比特,并且发信号通知编码结束。
图20示出了根据考虑并支持MIP模式的第二变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。在此实施方案中,将nnFlag和mipFlag互换,以赋予MIP模式更多重要性。在状态S201的情况下,如表2所示发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且发信号通知编码结束。在状态S202的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且发信号通知编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且发信号通知编码结束。在状态S203的情况下,发信号通知对MIP模式的MIP矩阵的索引进行截断二进制编码,因此4×4块需要4个比特,4×8、8×4、8×8块需要3个比特,或者其他块大小需要2个到3个比特,并且发信号通知编码结束。S1=S10∪S11
图21示出了根据不考虑MRL模式的第三变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。可以通过移除multiRefIndex来移除MRL。该图示出了将此原理应用于上述第一变体,但可以应用于前述实施方案中的任一个实施方案。在状态S212的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且发信号通知编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且发信号通知编码结束。在状态S213的情况下,发信号通知对MIP模式的MIP矩阵的索引进行截断二进制编码,因此4×4块需要4个比特,4×8、8×4、8×8块需要3个比特,或者其他块大小需要2个到3个比特,并且发信号通知编码结束。
图22示出了根据将基于神经网络的帧内预测模式与ISP组合的第四变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。在状态S221的情况下,如表2所示发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且发信号通知编码结束。在状态S222的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且发信号通知编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且发信号通知编码结束。
图23示出了根据其中PLANAR模式在S0中由基于神经网络的模式替换的第五变体实施方案的表示用于当前亮度PB的帧内预测模式信令的决策树的示例。在表1中,第一MPM始终是PLANAR。因此,在此实施方案中,在S0中,第一MPM始终是基于神经网络的模式。如先前所描述,如果multiRefIdx>0,则帧内预测模式不能是PLANAR。因此,在此实施方案中,在S0中,如果multiRefIdx>0,则帧内预测模式不能是基于神经网络的模式。在此实施方案中,如果S0适用,则在左侧CU的帧内预测模式为PLANAR的情况下,其在MPM推导期间被映射到基于神经网络的模式。上方CU的帧内预测模式也是如此。在此实施方案中,如果S1适用,则在左侧CU的帧内预测模式为基于神经网络的模式的情况下,其在MPM推导期间被映射到PLANAR。上方CU的帧内预测模式也是如此。
在状态S231的情况下,如表2所示发信号通知5个MPM中的一个MPM,因此需要1个到4个比特,并且发信号通知编码结束。在状态S232的情况下,如果条件是mpmFlag=0,那么发信号通知非MPM模式,因此需要5个或6个比特,并且发信号通知编码结束,否则如果条件是mpmFlag=1,则如表1所示发信号通知6个MPM中的一个MPM,因此需要1个bin和0个到4个比特,并且发信号通知编码结束。在状态S233的情况下,发信号通知对MIP模式的MIP矩阵的索引进行截断二进制编码,因此4×4块需要4个比特,4×8、8×4、8×8块需要3个比特,或者其他块大小需要2个到3个比特,并且发信号通知编码结束。
作为另一替代方案,第五变体可以与第三变体组合。换句话说,从帧内预测模式信令中移除MRL。作为另一替代方案,从帧内预测模式信令中移除MIP。可以组合两个先前的替代方案。
如上所述,本公开的至少一个实施方案考虑将基于神经网络的帧内预测应用于亮度块和色度块两者。对色度块的基于神经网络的帧内预测遵循与亮度块相同的原理。然而,色度元素需要适当的信令。
由于基于神经网络的帧内预测模式中的神经网络通常对亮度块和其上下文的多个对进行训练,因此经由基于神经网络的模式预测当前色度PB的一种解决方案是经由直接模式(DM)。但是,经由DM使用基于神经网络的模式受到先前介绍的与块大小和位置的兼容性相关的两个约束(图16的条件161和162)并且受到亮度与色度之间的分区树的限制。为了考虑到这些约束,对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果通过基于神经网络的模式预测了与该色度PB并置的亮度PB,则DM在(H,W)∈T并且x≥nl并且y≥na的情况下变为基于神经网络的模式。否则,DM被设置为PLANAR。
在用于发信号通知预测块的色度的第一变体实施方案中,当DM不能是基于神经网络的帧内预测模式时选择默认值。在此变体中,对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果通过基于神经网络的模式预测了与该色度PB并置的亮度PB,但
Figure BDA0003797310850000241
或x<nl或y<na,则DM被设置为在图10的描述中所描述的列表Lc中的给定模式。
图24示出了根据第二变体实施方案的用于选择用于发信号通知预测块的色度的模式的示例性决策。在此实施方案中,基于神经网络的帧内预测模式被插入到在图10的描述中所描述的Lc列表中。在此变体中,对于如图15中所示的左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果(H,W)∈T并且x≥nl并且y≥na,则先前定义的Lc列表中的给定模式由基于神经网络的模式替换。例如,在图24中,给定模式是索引50的垂直模式。
用于发信号通知预测块的色度的第二变体可以与第一变体组合以用于发信号通知预测块的色度。
在至少一个实施方案中,利用上下文预变换发信号通知预测块的基于神经网络的帧内预测模式。在此实施方案中,仍然存在多对块高度和宽度的集合
Figure BDA0003797310850000251
并且对于T中的每对(H,W),基于神经网络的模式中的神经网络
Figure BDA0003797310850000252
预测大小为W×H的块。但是,现在开发了上下文预变换,使得大小不同于W×H的块可以经由
Figure BDA0003797310850000253
来预测。首先,下文描述了对上文所示的块的上下文进行一些下采样和对该块的神经网络预测进行相关联内插。然后,下文解释上下文的转置和神经网络预测。
图25A示出了根据至少一个实施方案的对块的上下文进行下采样以及对神经网络预测进行内插的示例。与对MIP中的参考样本进行下采样相比,对图14中所示的上下文X进行下采样的独特性在于以下事实:所有上下文部分必须沿给定方向以相同方式进行下采样。举例来说,如果水平地对X0进行下采样,而没有水平地对X1进行下采样,则在X0与X1之间的边界处出现不连续。这对于神经网络预测的质量是有害的。因此,显示了经由基于神经网络的模式使用对上下文进行下采样和对神经网络预测进行内插的预测方案。在此图中,假设对
Figure BDA0003797310850000254
而对
Figure BDA0003797310850000255
则δ∈N*,γ∈N*。在此情况下,对于给定W×H块,使用通过δ垂直地并且通过γ水平地对该块的上下文进行下采样以及通过δ垂直地并且通过γ水平地对神经网络预测进行内插,
Figure BDA0003797310850000256
可以用于预测。此外,
Figure BDA0003797310850000257
可以在没有任何下采样和内插的情况下预测大小为
Figure BDA0003797310850000258
的块。因此,
Figure BDA0003797310850000259
可以用于预测两个不同大小的块。图25示出了对W×H块的上下文进行下采样和对大小为
Figure BDA00037973108500002510
的神经网络预测进行内插,以便使用神经网络
Figure BDA00037973108500002511
用于预测。在这里,H=8,W=4,使用了规则(1),即na=nl=min(H,W)=4。垂直下采样因子δ等于2,并且水平下采样因子γ等于2。
图25B示出了根据至少一个实施方案的用于对块的上下文进行下采样以及对神经网络预测进行内插的方法的示例。在步骤2520中首先对上下文(2510)进行下采样。然后在步骤2550中使用经过下采样的上下文(2530)应用基于神经网络的预测,并且在步骤2570中对所得预测(2560)进行内插。
根据图25A,提出了一种具有基于神经网络的帧内预测模式的新的帧内预测模式信令,该基于神经网络的帧内预测模式结合了对亮度PB的上下文进行下采样和对该PB的神经网络预测进行内插的可能性。在此信令中,(δ,γ)∈({1,2,4,…,2ρ})2,ρ∈N。仅在min(H,W)≥4时才考虑对W×H亮度PB的上下文进行下采样和对该PB进行神经网络预测,因为上述下采样和内插对于非常小的PB没有意义。此外,δ和γ的最小值应该是有利的,因为对该PB的上下文进行下采样和对该PB的神经网络预测进行内插往往会降低神经网络预测的质量。因此,具有基于神经网络的模式的该新的帧内预测模式信令由下文中的应用于与JEM/JEVT相关的示例性实施方式的算法1确定。该算法可以概括如下:针对左上像素位于当前帧中的(x,y)处的W×H亮度PB,用基于神经网络的模式搜索δ,γ和帧内预测模式信令。如果“isSignaling0”为真,则使用帧内预测模式信令S0。否则,使用S1。注意,此算法可以应用于上文关于图18至图22所提出的实施方案中的任一个实施方案的帧内预测模式信令中的S0和S1
算法1
Figure BDA0003797310850000261
Figure BDA0003797310850000271
在算法1中,可以选择用于忽略对W×H亮度PB的上下文进行下采样和对该PB的神经网络预测进行内插的任何条件。举例来说,min(H,W)<4可以由min(H,W)<8替换。然后,算法1变为算法2。
算法2
Figure BDA0003797310850000272
Figure BDA0003797310850000281
在算法2中,在迭代地增加水平下采样因子和水平下采样因子的循环中,垂直下采样因子在水平下采样因子之前增长。另选地,可以颠倒增加的顺序。然后,将算法1变为算法3。
算法3
Figure BDA0003797310850000282
Figure BDA0003797310850000291
图26示出了从当前亮度PB的大小W×H映射到γ,δ、帧内预测模式信令和用于预测的神经网络的示例。规则(2)在
Figure BDA0003797310850000292
的情况下适用。在图18中描绘了S0和S1。T={(4,4),(8,8),(16,16),(32,32),(4,8),(8,4)}。算法1适用于ρ=1。该图示出了从亮度PB的每个大小映射到γ,δ、帧内预测模式信令和用于预测的基于神经网络的模式中的神经网络。在此图中,当帧内预测模式信令是S1时,没有写入γ,δ和神经网络,因为其为无用的。此外,假设当前亮度PB距图像边界足够远,使得该当前亮度PB的上下文从不超出边界。
在至少一个实施方案中,算法1中的信令扩展到色度PB,差异是返回的布尔值“isSignaling0”被不同地解释。实际上,对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果通过基于神经网络的模式预测了与该色度PB并置的亮度PB,则DM在“isSignaling0”为真的情况下变为基于神经网络的模式。否则,DM被设置为PLANAR。注意,上文提出的第一变体和第二变体也可以在这里适用。
在至少一个变体实施方案中,当DM不能是基于神经网络的模式时,使用另一默认值。在此实施方案中,对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果通过基于神经网络的模式预测了与该色度PB并置的亮度PB,则DM在“isSignaling0”为真的情况下变为基于神经网络的模式。否则,DM被设置为Lc列表中的给定模式。
在至少一个变体实施方案中,基于神经网络的帧内预测模式被插入到Lc列表中。在此实施方案中,对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果“isSignaling0”为真,则Lc列表中的给定模式由基于神经网络的帧内预测模式替换。
图27A示出了对块的上下文进行转置以及对内插神经网络预测进行转置以便使用基于神经网络的帧内预测模式的示例。实际上,在基于神经网络的模式中经由同一神经网络预测若干大小的块的另一方式由对给定块的上下文进行转置和对神经网络预测进行转置组成。在图27中示出了经由基于神经网络的模式使用对上下文进行转置、对所得经转置上下文进行下采样、对神经网络预测进行内插以及对所得经内插预测进行转置的预测方案。更具体地说,该图示出了对W×H块的上下文进行转置和对大小为H×W的经内插神经网络预测进行转置,以便使用神经网络
Figure BDA0003797310850000301
用于预测。在这里,H=8,W=4,使用了规则(1),即na=nl=min(H,W)=4。垂直下采样因子δ等于2,并且水平下采样因子γ等于2。假设对
Figure BDA0003797310850000302
Figure BDA0003797310850000303
Figure BDA0003797310850000304
而对
Figure BDA0003797310850000305
图27B示出了用于对块的上下文进行转置以及对内插神经网络预测进行转置以便使用基于神经网络的帧内预测模式的方法的示例。在此图中,在下采样步骤2730之前,在步骤2720中对块的上下文(2710)进行转置。然后,在步骤2740中执行神经网络帧内预测,并且在步骤2760中对所得预测(2750)进行内插,然后在步骤2770中对内插的结果进行转置。
另选地,可以在对下采样结果进行转置之前对块的上下文进行下采样。然后,可以在对经转置预测进行内插之前对神经网络预测进行转置。
上下文的转置产生经转置形状,其中样本2711、2712、2713分别被转置成样本2721、2722、2723。
当如上文用用于当前亮度PB的基于神经网络的模式所描述,上述转置过程进入到帧内预测模式信令中时,算法1变为算法4。
算法4
Figure BDA0003797310850000306
Figure BDA0003797310850000311
Figure BDA0003797310850000321
在算法4的变体实施方案中,可以选择用于忽略对W×H亮度PB的上下文进行下采样和对该PB的神经网络预测进行内插的任何条件。
在算法4中,在迭代地增加水平下采样因子和水平下采样因子的循环中,垂直下采样因子在水平下采样因子之前增长。另选地,可以颠倒增加的顺序。然后,算法4变为算法5。
算法5
Figure BDA0003797310850000322
Figure BDA0003797310850000331
Figure BDA0003797310850000341
算法5中的信令扩展到色度PB。然而,返回的布尔值“isSignaling0”被不同地解释。对于左上像素位于当前帧中的(x,y)处的给定W×H色度PB,如果通过基于神经网络的模式预测了与该色度PB并置的亮度PB,则DM在“isSignaling0”为真的情况下变为基于神经网络的模式。否则,DM被设置为PLANAR。
上文关于算法1所描述的色度信令的两个变体在这里也适用于算法5。
如图8的描述中所解释,对于当前亮度CB,MPM的列表经由熵编码实施所选帧内预测模式的信令。但是,当基于神经网络的帧内预测被集成到帧内预测模式信令中时,H.266中的MPM列表不再实施“准最优”熵编码。这在图18至图22的情况下尤其有效,即,在S0中,标记nnFlag被放置在表示用于当前亮度CB的帧内预测模式信令的决策树的开始处。实际上,在图18至图22的情况下,观察到与H.266中的PLANAR的选择频率相比,PLANAR的选择频率非常显著地下降。
为了校正此熵编码,在第一实施方案中,如果选中了包括专用于基于神经网络的帧内预测模式的标记nnFlag的帧内预测模式信令S0,参见图15的描述,则修改MPM列表,使得MPM列表中的PLANAR索引增加。否则,不包括nnFlag的另一帧内预测模式信令S1适用,并且MPM列表中的PLANAR索引为0。注意,在表1中,指示是否选择索引0的MPM以预测当前亮度CB的标记具有上下文模型。但是,在此第一实施方案中,PLANAR系统地不是索引0的MPM。因此,在此第一实施方案中,指示是否选择索引0的MPM以预测当前亮度CB的标记的上下文模型可以被移除。
在第一实施方案的至少一个变体中,如果选中了包括标记nnFlag的帧内预测模式信令S0,则进行MPM列表的推导,使得MPM列表中的PLANAR索引在未使用初始化值时为2或3,如在算法6中所示。否则,不包括nnFlag的另一帧内预测模式信令S1适用,并且MPM列表中的PLANAR索引为0,参见算法6。注意,算法6包括关于multiRefIdx的若干条件,如果multiRefIdx>0,则该条件始终将PLANAR放置为索引0的MPM。这是因为如果multiRefIdx>0,则作为索引0的MPM的PLANAR被忽略。在此情况下,仅考虑索引1到5的MPM,如表2所示。
算法6:第一实施方案的第一变体中的MPM列表的推导。NN_IDX是基于神经网络的帧内预测模式的索引,例如72。如果“isSignaling0”为真,则使用包括标记nnFlag的帧内预测模式信令S0。否则,使用S1
Figure BDA0003797310850000351
Figure BDA0003797310850000352
offset=61
mod=64
MPM列表的初始化:
Figure BDA0003797310850000353
Figure BDA0003797310850000361
Figure BDA0003797310850000371
Figure BDA0003797310850000381
在第一实施方案的另一变体中,如果选中了包括标记nnFlag的帧内预测模式信令S0,则进行MPM列表的推导,使得MPM列表中的PLANAR索引在未使用初始化值时为5,如在算法7中所示。否则,不包括nnFlag的另一帧内预测模式信令S1适用,并且MPM列表中的PLANAR索引为0,参见算法7。出于在第一实施方案的第一变体中解释的原因,算法7包括关于multiRefIdx的若干条件,如果multiRefIdx>0,则该条件始终将PLANAR放置为索引0的MPM。
算法7:第一实施方案的第二变体中的MPM列表的推导。NN_IDX是基于神经网络的帧内预测模式的索引,例如72。如果“isSignaling0”为真,则使用包括标记nnFlag的帧内预测模式信令S0。否则,使用S1
Figure BDA0003797310850000382
Figure BDA0003797310850000383
offset=61
mod=64
MPM列表的初始化:
Figure BDA0003797310850000384
Figure BDA0003797310850000391
Figure BDA0003797310850000401
Figure BDA0003797310850000411
Figure BDA0003797310850000421
在第二实施方案中,不管是选择包括专用于基于神经网络的帧内预测模式的标记nnFlag的帧内预测模式信令S0还是选择不包括nnFlag的另一帧内预测模式信令S1,都修改MPM列表,使得MPM列表中的PLANAR索引增加。
在第二实施方案的至少一个变体中,如算法6中所示进行MPM列表的推导,但是移除所有术语`||!isSignaling0`。
在第二实施方案的另一变体中,如算法7中所示进行MPM列表的推导,但是移除所有术语`||!isSignaling0`。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本说明书通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外,本申请或其权利要求书可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请或其权利要求书可涉及“访问”各种信息。访问信息可包括例如接收信息、(例如,从存储器)检索信息、存储信息、移动信息、复制信息、计算信息、预测信息或估计信息中的一者或多者。
另外,本申请或其权利要求书可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如(例如,从存储器或光学介质存储装置)访问信息或检索信息中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
对于本领域的技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。此类信号可格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流进行编码并且使用经编码的数据流调制载体。信号携带的信息可为例如模拟或数字信息。如已知的,信号可通过多种不同的有线或无线链路传输。信号可存储在处理器可读介质上。

Claims (21)

1.一种视频编码方法,所述视频编码方法包括
-基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,所述块上下文包括一组周围像素,
-生成表示所述基于神经网络的帧内预测模式的信令信息,以及
-至少对表示所述至少一个块和所述基于神经网络的帧内预测模式的信息进行编码。
2.一种视频解码方法,所述视频解码方法包括,
-对于图片或视频中的至少一个块,至少获得块上下文和表示所述基于神经网络的预测模式的信息,所述块上下文包括一组周围像素,以及
-基于所述块上下文使用基于神经网络的帧内预测模式对图片或视频中的所述至少一个块执行帧内预测。
3.根据权利要求1或2所述的方法,其中所述块上下文的所述一组周围像素包括位于当前块的顶侧、左侧、对角线左上侧、对角线右上侧和对角线左下侧处的块的像素,并且其中所述块的大小基于所述至少一个块的大小。
4.根据权利要求3所述的方法,其中所述基于神经网络的帧内预测是基于所述当前块在所述图片中的位置和所述块的所述大小来执行的。
5.根据权利要求4所述的方法,其中在执行所述帧内预测之前对所述块上下文进行下采样,并且在所述帧内预测之后对预测块进行内插。
6.根据权利要求4或5所述的方法,其中在执行所述帧内预测之前对所述块上下文进行转置,并且在所述帧内预测之后将所述预测块转回。
7.根据权利要求1至6中任一项所述的方法,其中所述基于神经网络的预测在所述至少一个块的亮度和色度两者中进行。
8.根据权利要求1至7中任一项所述的方法,其中所述信令信息被编码在比特流中,并且包括指示针对所述至少一个块选择基于神经网络的帧内预测模式的标记,所述标记基于表示布置在二叉树中用于在比特流中编码的多个帧内预测模式的一组标记,并且其中指示选择基于神经网络的帧内预测模式的所述标记位于所述树的第一层级处并且用单个比特编码。
9.根据权利要求1至8中任一项所述的方法,其中最可能模式的有序列表确定多个预测模式之间的优先级,并且其中在选择所述基于网络的帧内预测模式的条件下,与其他预测模式相比,具有系统高优先级的常规帧内预测模式的优先级降低。
10.一种装置(1000),所述装置包括用于对图片或视频中的当前块进行编码的编码器(1030),其中所述编码器被配置为:
-基于块上下文使用基于神经网络的帧内预测模式对图片或视频中的至少一个块执行帧内预测,所述块上下文包括位于所述至少一个块的顶侧和左侧处的一组周围像素,
-生成表示所述基于神经网络的帧内预测模式的信令信息,以及
-至少对表示所述至少一个块和所述基于神经网络的帧内预测模式的信息进行编码。
11.一种装置(1000),所述装置包括用于对图片或视频中的当前块的图片数据进行解码的解码器(1030),其中所述解码器被配置为:
-对于图片或视频中的至少一个块,至少获得块上下文和表示所述基于神经网络的预测模式的信息,所述块上下文包括位于所述至少一个块的顶侧和左侧处的一组周围像素,以及
-基于所述块上下文使用基于神经网络的帧内预测模式对图片或视频中的所述至少一个块执行帧内预测。
12.根据权利要求10或11所述的装置,其中所述块上下文的所述一组周围像素包括位于所述当前块的顶侧、左侧、对角线左上侧、对角线右上侧和对角线左下侧处的块的像素,并且其中所述块的大小基于所述至少一个块的大小。
13.根据权利要求12所述的装置,其中所述基于神经网络的帧内预测是基于所述当前块在所述图片中的位置和所述块的所述大小来执行的。
14.根据权利要求13所述的装置,其中在执行所述帧内预测之前对所述块上下文进行下采样,并且在所述帧内预测之后对预测块进行内插。
15.根据权利要求13或14所述的装置,其中在执行所述帧内预测之前对所述块上下文进行转置,并且在所述帧内预测之后将所述预测块转回。
16.根据权利要求10至15中任一项所述的装置,其中所述基于神经网络的预测在所述至少一个块的亮度和色度两者中进行。
17.根据权利要求10至16中任一项所述的装置,其中所述信令信息被编码在比特流中,并且包括指示针对所述至少一个块选择所述帧内预测的标记,所述标记基于表示布置在二叉树中用于在比特流中编码的多个帧内预测模式的一组标记,并且其中指示选择基于神经网络的帧内预测模式的所述标记位于所述树的第一层级处并且用单个比特编码。
18.根据权利要求10至17中任一项所述的装置,其中最可能模式的有序列表确定所述多个预测模式之间的优先级,并且其中在选择所述基于网络的帧内预测模式的条件下,与其他预测模式相比,具有系统高优先级的常规帧内预测模式的优先级降低。
19.一种比特流,所述比特流包括信息,所述信息表示根据权利要求1或3至9中任一项所述的方法中的一个方法编码的所述基于神经网络的预测模式。
20.一种计算机程序,所述计算机程序包括程序代码指令,所述程序代码指令在由处理器执行时实施根据权利要求1至9中至少一项所述的方法的步骤。
21.一种计算机程序产品,所述计算机程序产品存储在非暂态计算机可读介质上,并且包括程序代码指令,所述程序代码指令在由处理器执行时实施根据权利要求1至9中至少一项所述的方法的步骤。
CN202180014588.4A 2020-02-21 2021-01-29 用于视频编码或解码的基于神经网络的帧内预测 Pending CN115104301A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20305169.3 2020-02-21
EP20305169 2020-02-21
PCT/EP2021/052094 WO2021165018A1 (en) 2020-02-21 2021-01-29 Neural network-based intra prediction for video encoding or decoding

Publications (1)

Publication Number Publication Date
CN115104301A true CN115104301A (zh) 2022-09-23

Family

ID=69770797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180014588.4A Pending CN115104301A (zh) 2020-02-21 2021-01-29 用于视频编码或解码的基于神经网络的帧内预测

Country Status (5)

Country Link
US (1) US20230095387A1 (zh)
EP (1) EP4107945A1 (zh)
KR (1) KR20220137964A (zh)
CN (1) CN115104301A (zh)
WO (1) WO2021165018A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220094977A1 (en) * 2020-09-23 2022-03-24 Electronics And Telecommunications Research Institute Method, apparatus and storage medium for image encoding/decoding
US20230041999A1 (en) * 2021-08-09 2023-02-09 Ofinno, Llc Chroma from Luma Prediction Model Selection
US20230096567A1 (en) * 2021-09-24 2023-03-30 Apple Inc. Hybrid neural network based end-to-end image and video coding method
WO2023194395A1 (en) * 2022-04-08 2023-10-12 Interdigital Ce Patent Holdings, Sas Chroma direct mode
WO2023200214A1 (ko) * 2022-04-12 2023-10-19 현대자동차주식회사 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3310058B1 (en) * 2015-06-12 2023-02-22 Panasonic Intellectual Property Management Co., Ltd. Image coding method, image decoding method, image coding device and image decoding device
US10750169B2 (en) * 2016-10-07 2020-08-18 Mediatek Inc. Method and apparatus for intra chroma coding in image and video coding
US10630978B2 (en) * 2017-05-12 2020-04-21 Blackberry Limited Methods and devices for intra-coding in video compression
KR102454936B1 (ko) * 2017-10-13 2022-10-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 블록 단위의 화상 코딩을 위한 인트라 예측 모드 개념
KR20230057481A (ko) * 2018-03-29 2023-04-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 블록 단위의 화상 코딩을 위한 인트라 예측 모드 개념
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
WO2021139572A1 (zh) * 2020-01-08 2021-07-15 Oppo广东移动通信有限公司 编码方法、解码方法、编码器、解码器以及存储介质

Also Published As

Publication number Publication date
WO2021165018A1 (en) 2021-08-26
EP4107945A1 (en) 2022-12-28
KR20220137964A (ko) 2022-10-12
US20230095387A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
CN115104301A (zh) 用于视频编码或解码的基于神经网络的帧内预测
KR20210134034A (ko) 서브블록 기반 로컬 조명 보상을 이용한 비디오 인코딩 및 디코딩 방법 및 장치
KR20210089747A (ko) 비디오 인코딩 및 디코딩을 위한 가상 파이프라인
CN112970264A (zh) 基于相邻样本相关参数模型的译码模式的简化
CN113678438A (zh) 采用子分区的宽角度帧内预测
CN114208178A (zh) 用于视频编码和解码的二次变换
CN112385212A (zh) 用于视频编码或解码的语法元素
CN114946182A (zh) 生成边信息的深度帧内预测器
CN114631311A (zh) 将同质语法与编码工具一起使用的方法和装置
CN111937383B (zh) 视频编码和解码中的色度量化参数调整
EP3641311A1 (en) Encoding and decoding methods and apparatus
CN114930819A (zh) 三角形合并模式中的子块合并候选
CN115398922A (zh) 用于图像编码和解码的方法和设备
CN114641994A (zh) 编码和解码方法及装置
KR20220024835A (ko) 픽처 데이터를 코딩/디코딩하기 위한 방법 및 장치
CN113545047A (zh) 帧内预测模式分区
CN113261284A (zh) 使用多重变换选择进行视频编码和解码
CN114026866A (zh) 用于视频编码和解码的色度处理
CN113273198A (zh) 用于视频编码和解码的多个编码单元之间的参数分组
WO2024074048A1 (en) Encoding/decoding video picture data
CN115336267A (zh) 用于联合色度编码块的缩放过程
CN114270858A (zh) 用于视频编码和解码的量化矩阵预测
CN117616750A (zh) 基于模板的帧内模式推导
TW202416714A (zh) 基於可用參考樣本之幀內預測模式改善
CN117413520A (zh) 大面积的空间光照补偿

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230925

Address after: Paris France

Applicant after: Interactive digital CE patent holdings Ltd.

Address before: French Sesong Sevigne

Applicant before: Interactive digital VC holding France