CN114731396A - 图像块的深度帧内预测 - Google Patents

图像块的深度帧内预测 Download PDF

Info

Publication number
CN114731396A
CN114731396A CN202080077746.6A CN202080077746A CN114731396A CN 114731396 A CN114731396 A CN 114731396A CN 202080077746 A CN202080077746 A CN 202080077746A CN 114731396 A CN114731396 A CN 114731396A
Authority
CN
China
Prior art keywords
context
pixels
image block
intra
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080077746.6A
Other languages
English (en)
Inventor
T·杜马斯
F·加尔平
P·博尔德斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
Interactive Digital Vc Holdings France Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interactive Digital Vc Holdings France Ltd filed Critical Interactive Digital Vc Holdings France Ltd
Publication of CN114731396A publication Critical patent/CN114731396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了使用至少一个神经网络依据包括围绕图像块的像素的上下文对所述图像块进行帧内预测。所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来。还提供了编码/解码方法和装置、设备、非暂态计算机可读介质和计算机程序产品。

Description

图像块的深度帧内预测
技术领域
一个或多个实施方案的技术领域通常涉及视频压缩。与现有的视频压缩系统诸如HEVC(HEVC是指高效视频编码,也称为H.265和MPEG-H第2部分,其在“ITU-T H.265国际电联电信标准化部门(10/2014),H系列:视听和多媒体系统,视听服务基础设施-移动视频的编码,高效视频编码,ITU-T H.265建议书”中进行描述)相比,或者与开发中的视频压缩系统诸如VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)相比,至少一些实施方案涉及改进压缩效率。
具体地,至少一些实施方案还涉及使用神经网络依据围绕图像块的上下文来改进所述图像块的帧内预测。
发明内容
深度帧内预测因子使用至少一个神经网络依据围绕该当前图像块的上下文推断当前图像块的帧内预测。
围绕当前图像块的上下文包括位于当前图像块的因果邻域中的至少一个像素值。因果意味着可在编码侧和解码侧两者处获得相同的邻域。通常,对于在编码侧和解码侧两者处的帧内预测,因果邻域均包括重构的像素值。当其值可访问(获得)时,上下文中的像素值可用。相反,当其值不可访问时,上下文中的像素值缺失。
例如,在HEVC和VVC中,宏块(也称为编码树块(CTB))被分层分割为子块,并且不同的CTB按光栅扫描顺序进行扫描,而每个CTB中的子块按Z字形扫描顺序进行扫描。这针对上下文设定了两个约束,深度帧内预测因子依据该上下文推断当前图像块的帧内预测。首先,上下文可仅包括位于当前图像块的上方和左侧的像素。其次,取决于当前图像块在其父CTB中的位置,当前图像块的右上侧和/或其左下侧的像素可能缺失。
挑战之一在于将由深度帧内预测因子使用的上下文中的可用像素和缺失像素区分开来。
这通过本文所述的一般方面解决和处理,该一般方面涉及使用至少一个神经网络对当前图像块进行帧内预测以及用于将在上下文中的可用像素和缺失像素区分开来的信息。
根据第一方面,提供了一种方法。该方法包括使用至少一个神经网络依据包括围绕图像块的像素的上下文对所述图像块进行帧内预测。所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来。
在一个实施方案中,所述信息是掩码值,其中,该方法还包括在帧内预测之前对上下文进行预处理,其中,通过将所述掩码值分配给上下文中的缺失像素来获得经预处理的上下文。
这样,对于深度帧内预测因子,消除了在具有有意义信息的上下文的未掩码部分和具有缺失信息的上下文的掩码部分之间的任何模糊性。
在另一实施方案中,所述信息是指示缺失像素在上下文中的位置的二进制向量,并且其中,响应于该二进制向量对图像块进行帧内预测。
这样,二进制向量消除了有关缺失像素在上下文中的位置的任何模糊性。
根据另一方面,提供了第二方法。该方法包括使用至少一个神经网络依据包括围绕待编码图像块的像素的上下文确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来。以及基于所述帧内预测对图像块进行编码。
根据另一方面,提供了第三方法。该方法包括使用至少一个神经网络依据包括围绕待解码图像块的像素的上下文确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来;以及基于所述帧内预测对图像块进行解码。
根据另一方面,提供了一种装置。该装置包括一个或多个处理器,其中,该一个或多个处理器被配置为使用至少一个神经网络依据包括围绕待编码图像块的像素的上下文来确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来;以及基于所述帧内预测对图像块进行编码。
根据另一方面,提供了一种装置。该装置包括一个或多个处理器,其中,该一个或多个处理器被配置为使用至少一个神经网络依据包括围绕待解码图像块的像素的上下文来确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来;以及基于所述帧内预测对图像块进行解码。
根据至少一个实施方案的另一一般方面,提供了一种非暂态计算机可读介质,该非暂态计算机可读介质包含根据所描述的编码实施方案或变体中的任一实施方案或变体生成的数据内容。
根据至少一个实施方案的另一一般方面,提供了一种计算机程序产品,该计算机程序产品包括指令,该指令在由计算机执行时使该计算机执行所描述的编码实施方案或变体中的任一实施方案或变体。
通过将结合附图阅读的示例性实施方案的以下详细描述,一般方面的这些和其他方面、特征和优点将变得显而易见。
附图说明
在附图中,示出了若干实施方案的示例。附图示出:
图1示出图像块及其上下文的示例;
图2和图3示出根据现有技术的神经网络的架构的示例;
图4示出完整上下文和部分上下文的示例;
图5示出根据至少一个实施方案的对图像块进行帧内预测的方法的流程图;
图5a示出根据至少一个实施方案的对图像块进行帧内预测的方法的流程图;
图6示出根据至少一个实施方案的二进制向量的系数与上下文中的像素的位置之间的一对一映射的示例;
图7示出根据至少一个实施方案的二进制向量的系数与上下文中的像素的位置之间的一对一映射的另一示例;
图8和图9示出根据至少一个实施方案的神经网络的架构的示例;
图10示出在其中实现各个方面和实施方案的编码器的示例的框图;
图11示出在其中实现各个方面和实施方案的视频解码器的框图;并且
图12示出在其中实现各个方面和实施方案的系统的示例的框图。
具体实施方式
基于深度神经网络的帧内预测
使用神经网络对当前图像块Y进行帧内预测是指提供所述当前图像块与其围绕当前图像块的上下文X之间的依赖关系的模型的深度帧内预测因子。在标题为“基于上下文自适应神经网络的图像压缩预测(Context-adaptive neural network-based predictionfor image compression)”(Thierry Dumas、Aline Roumy、Christine Guillemot,arXiv:1807.06244v2,2019年8月)的文章中描述了深度帧内预测因子的示例。首先,通常利用从一组训练图像提取的块对及其上下文对基于全连接和/或卷积神经网络两者的一组神经网络架构(表示为预测神经网络集合(PNNS))进行训练。接下来,选择PNNS的神经网络中的一个神经网络,从而依据围绕当前图像块的上下文提供当前图像块的帧内预测。
在该文章中,上下文X由位于当前图像块Y上方及其左侧的像素构成,类似于在VVC中的用于帧内预测的重构的参考样本集。但是,与之不同的是,上下文X向左侧和顶部延伸,例如,如在图1中所示。由于这种延伸,深度帧内预测因子能够学习在其输入上下文X中的空间相关性与其给出的当前图像块Y的帧内预测
Figure BDA0003633318710000041
之间的关系。
(1)中描述了经由由θm参数化的全连接神经网络fW或由
Figure BDA0003633318710000042
参数化的卷积神经网络gm将上下文X转换为W×W块Y的帧内预测
Figure BDA0003633318710000043
Figure BDA0003633318710000044
其中,α是归一化值,等于针对所有训练图像计算得出的平均像素强度以使上下文X的像素值居中。下标c代表已居中。
然后,在训练阶段期间,从待预测的每个图像块及其上下文减去α。在测试阶段期间,为了对当前图像块进行帧内预测,从上下文X减去α(参见(1))并且将α加到帧内预测
Figure BDA0003633318710000045
(深度帧内预测因子的输出)中。
图2和图3示出PNNS的神经网络的架构的示例。
这两种架构的第一操作包括格式化上下文,以便于神经网络中的计算。
如图2所示,在全连接神经网络的情况下,连接上下文Xc中的所有元素,从而使得无需保持上下文的2D结构。因此,首先对上下文Xc进行向量化(展平),并且可使用快速向量矩阵算法。
例如,全连接架构fW由4个全连接层L1、L2、L3和L4组成。θW采集四个全连接层的权重和偏差。第一层L1计算上下文Xc的过完备表示以达到输出系数。选择过完备性是因为凭经验观察到,早期层中的过完备表示提高神经网络的性能。接下来的两层(L2和L3)保持系数的数量不变,而最后一层L4减少系数的数量以提供预测的图像块。
如图3所示,在卷积神经网络的情况下,快速计算2D滤波要求保持上下文Xc的2D结构。此外,同样为了快速计算,到卷积的输入的形状必须是矩形。这就是为什么上下文被分割为两个矩形X0和X1,然后,由不同的卷积处理该两个矩形。
卷积架构的第一个任务是计算表征X0中的元素之间的依赖关系的特征。X0因此被馈送到由
Figure BDA0003633318710000051
参数化的卷积层
Figure BDA0003633318710000052
的叠堆中。这会产生l∈N*个特征图的叠堆Z0。类似地,X1被馈送到由
Figure BDA0003633318710000053
参数化的卷积层
Figure BDA0003633318710000054
的另一个叠堆中。这会产生l个特征图的叠堆Z1。上下文中的所有元素可能与预测任何图像块像素相关。这意味着必须合并上下文中的与所有空间位置相关联的信息。这就是为什么卷积架构中的下一层通过使用由
Figure BDA0003633318710000055
参数化的函数
Figure BDA0003633318710000056
在空间上合并叠堆Z0和叠堆Z1来获得合并后的叠堆
Figure BDA0003633318710000057
更准确地说,对于i∈[1;l],通过参数仿射组合对Z0的第i个特征图和Z1的第i个特征图的所有系数进行合并。
卷积架构的最后一个任务是对
Figure BDA0003633318710000058
的不同特征图的信息进行合并。
Figure BDA0003633318710000059
因此被馈送到由
Figure BDA00036333187100000510
参数化的转置卷积层
Figure BDA00036333187100000511
的叠堆中。这会在进行后处理之前产生帧内预测
Figure BDA00036333187100000512
上下文中的缺失像素被馈送到神经网络中
在HEVC和VVC中,图像被分割为编码树单元(CTU)。CTU包含亮度编码树图像块(CTB)、两个色度CTB和语法元素。按光栅扫描顺序一次处理一个CTB。每个CTB可分层分割为编码图像块(CB)。按Z字形扫描顺序处理CTB中的CB。
因此,例如在HEVC中,待预测图像块的尺寸可以是64×64、32×32、16×16、8×8或4×4。这意味着需要5个神经网络,每个待预测图像块的尺寸需要一个神经网络。因此,根据本实例,深度帧内预测因子由5个神经网络组成。
在VVC中,由于分层分割更加复杂,因此待预测图像块的尺寸可以是128×128、64×64、32×32、16×16、8×8或4×4。除此之外,它也可以呈矩形,例如,尺寸为4×8。在这种情况下,解决方案是为每个图像块尺寸分配一个神经网络以构建深度帧内预测因子。
在HEVC和VVC中,考虑到以按光栅扫描顺序和Z字形扫描顺序相结合的方式对图像块进行处理,当深度帧内预测因子依据其上下文推断当前图像块的预测时,当前图像块的右上侧和其下左侧的像素可能缺失,这取决于当前图像块在其CTB中的位置。
为了解决这种情况,一种方法是设计给定尺寸的图像块的若干上下文,并且每个上下文可训练一个神经网络。更精确地说,第一上下文为完整上下文,对应于没有像素缺失的情况,而第二上下文为部分上下文,对应于缺失像素的数量最大的情况。在HEVC内部进行预测期间,如果当前图像块位于其父图像块CB的左上方,则使用第一上下文。在任何其他情况下,使用第二上下文,如图4中所示。但是,这种方法增加了将要在HEVC内部使用的模型的数量,并且因此增加了待存储在存储器中的参数。此外,在当前图像块的左下侧的像素缺失,但是在图像块的右上侧的像素可用的情况下,后者可用像素不包括在第二上下文中,这浪费了用于基于神经网络的预测的信息。
一般而言,实施方案中的至少一个实施方案涉及一种方法,该方法包括使用至少一个神经网络依据包括围绕当前图像块Y的像素的上下文X对所述当前图像块进行帧内预测。所述帧内预测还使用信息INF将上下文中的可用像素和缺失像素区分开来。
在该方法的一个实施方案中,信息INF是掩码值,如图5所示。然后,该方法还包括帧内预测的预处理(步骤510),其中通过将掩码值分配给在X中的缺失像素来获得经预处理的上下文Xp(p代表“预处理”)。然后,使用深度帧内预测因子依据经预处理的上下文Xp获得经预处理的帧内预测
Figure BDA0003633318710000071
例如,如图1至图3中所述(步骤520)。所述掩码值超出在预处理之后的上下文中的可用像素所取的值的范围。
通过将掩码值设置为]-∞,-255]∪[255,+∞[中的任何值,掩码值必然超出在对8个可用像素的位深度进行预处理之后的可用像素所取的值的范围。
由于Xp中的掩码值超出Xp中的未掩码值的范围,因此上下文的无信息掩码部分与其馈送有Xp的神经网络的信息未掩码部分之间不存在模糊性。对于Xp中的未掩码值范围内的任何其他掩码值(诸如对所有训练图像计算得出的平均像素强度),不会发生这种情况。
在图5的变体中,从所述可用像素减去上下文X中的可用像素的均值(平均值)μ。该方法还包括对经预处理的帧内预测
Figure BDA0003633318710000072
进行后处理(步骤530),其中,通过将均值μ加到经预处理的帧内预测
Figure BDA0003633318710000073
来获得当前图像块Y的帧内预测
Figure BDA0003633318710000074
之所以使用这种变体,是因为在训练阶段期间,当到达神经网络的输入数据的每个系数(此处为上下文)相比于训练数据平均接近于零时,表明神经网络参数的目标函数的最小化收敛良好,并且在训练阶段和测试阶段期间,必须对输入数据进行相同的预处理。
在数学上而言,步骤510至530可由公式(2)表示。
Figure BDA0003633318710000075
其中,函数cover_missing覆盖其输入上下文中的缺失的重构像素。
在变体中,经预处理的上下文Xp(公式(2))可适于当前图像块Y的位深度以及用于训练PNNS的训练图像的位深度。
例如,使用在8位训练图像上进行训练的PNNS来预测位深度为10的图像块,可使用缩放。因此,公式(2)由公式(3)取代:
Figure BDA0003633318710000081
在该方法的另一个实施方案中,如图5a所示,信息INF是指示上下文X中的缺失像素的位置的二进制向量B∈{0,1}K。二进制向量B与上下文X一起馈送到深度帧内预测步骤520。K表示二进制向量元素Bk的数量。因此,图像块的帧内预测响应于二进制向量。
在变体中,二进制向量B∈{0,1}K指示上下文Xc中的缺失像素的位置。二进制向量B与上下文Xc一起馈送到深度帧内预测步骤520。
在图5a的变体中,从所述可用像素减去上下文X中的可用像素的均值(平均值)μ。该方法还包括对经预处理的帧内预测
Figure BDA0003633318710000082
进行后处理(步骤530),其中,通过将均值μ加到经预处理的帧内预测
Figure BDA0003633318710000083
来获得当前图像块Y的帧内预测
Figure BDA0003633318710000084
之所以使用这种变体,是因为在训练阶段期间,当到达神经网络的输入数据的每个系数(此处为上下文)相比于训练数据平均接近于零时,表明神经网络参数的目标函数的最小化收敛良好,并且在训练阶段和测试阶段期间,必须对输入数据进行相同的预处理。
可利用二进制向量的每个系数与上下文中的缺失像素或可用像素的位置之间的任何一对一映射。
在一对一映射的一个实施方案中,每个二进制向量系数Bk是指上下文中的缺失像素或可用像素的至少一个连续行/列的位置。
例如,将表示缺失像素的至少一个连续行/列的位置的每个二进制向量系数Bk设置为1,并且将表示可用像素的行/列的位置的每个二进制向量系数Bk设置为0。
在该实施方案的变体中,如图6所示,每个二进制向量系数Bk是指缺失像素或可用像素的一个行/列的位置。
例如,待预测的当前图像块的尺寸为W×W,K=2W,前W个向量系数Bk是指当前图像块的右上侧的缺失像素或可用像素的从左到右的W列的位置,而Bk中的最后W个向量系数是指当前图像块的左下侧的缺失像素或可用像素的从上到下的W行的位置。
在该实施方案的变体中,每个二进制向量系数Bk是指缺失像素或可用像素的至少两个连续行/列的位置。
图7示出二进制向量的系数与缺失像素或可用像素的四个连续行/列的位置之间的一对一映射的示例。
例如,在HEVC和VVC中,在图像分区中,每个信道都存在最小图像块尺寸wu×wu。上下文中的缺失像素或可用像素可组合在一起,每组采集wu列。类似地,上下文中的缺失像素或可用像素的连续行可组合在一起,每组包含wu行。然后,在二进制向量中,可对
Figure BDA0003633318710000091
进行定义。
例如,待预测的当前块的尺寸为H×W,前W/wu个向量系数Bk是指当前图像块的右上侧的缺失像素或可用像素的从左到右的W/wu组列的位置,而最后H/wu个向量系数Bk是指当前图像块的左下侧的缺失像素或可用像素的从上到下的H/wu组行的位置。
图6和图7中所示的示例假设当前图像块的右上侧的缺失像素或可用像素的列的数量和当前图像块的左下侧的缺失像素或可用像素的行的数量等于W。但是,这并非是限制性的,因为本实施方案适用于当前图像块的右上侧的缺失像素或可用像素的任意数量的列和当前图像块的左下侧的缺失像素或可用像素的任意数量的行。
在变体中,在如图8中所示的全连接神经网络的情况下,可将二进制向量B馈送到其第一层L1中,因为上下文中的全部空间信息被合并到该层中。二进制向量B为神经网络提供了上下文中的哪些像素缺失以及哪些像素可用的明确指示。这样,能够学习如何在训练阶段期间忽略缺失像素。
在变体中,在如图9中所示的卷积神经网络的情况下,可将二进制向量B馈送到包含全连接性的层中,因为仅在该层中,上下文中的全部空间信息被组合。因此,合并的叠堆
Figure BDA0003633318710000092
根据另一方面,提供了一种方法,该方法包括使用至少一个神经网络依据包括围绕待编码图像块的像素的上下文确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来。以及基于所述帧内预测对图像块进行编码。
在变体中,该方法还包括发送与当前图像块的帧内预测有关的信息,例如,用于访问用于帧内预测的神经网络的信息或定义对用于帧内预测的神经网络的访问的信息。
根据另一方面,提供了一种方法,该方法包括使用至少一个神经网络依据包括围绕待解码图像块的像素的上下文确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将上下文中的可用像素和缺失像素区分开来。以及基于所述帧内预测对图像块进行解码。
在变体中,该方法还包括接收与当前图像块的帧内预测有关的信息,例如,用于访问用于帧内预测的神经网络的信息或定义对用于帧内预测的神经网络的访问的信息。
例如,在HEVC中,当深度帧内预测因子与其他帧内预测因子在系统方面竞争时,所述信息可以是在用于帧内预测的所有其他标记之前被写入比特流的标记。值1可指示选择深度帧内预测因子以用于预测当前图像块。在这种情况下,不向比特流写入用于帧内预测的其他标记。值0意味着选择另一个帧内预测因子。
本申请描述了各个方面,包括工具、特征、实施方案、模型、方法等。具体描述了这些方面中的许多方面,并且至少示出个体特性,通常以可能听起来有限的方式描述。然而,这是为了描述清楚,并不限制这些方面的应用或范围。实际上,所有不同的方面可组合和互换以提供进一步的方面。此外,这些方面也可与先前提交中描述的方面组合和互换。
本专利申请中描述和设想的方面可以许多不同的形式实现。图10、图11和图12提供了一些实施方案,但是设想了其他实施方案,并且图10、图11和图12的讨论不限制实施方式的广度。
这些方面中的至少一个方面通常涉及视频编码和解码。这些方面和其他方面可实现为方法、装置、计算机可读介质或计算机程序产品,该计算机可读介质上存储有用于根据上述方法中的任一方法来编码或解码视频数据的指令,该计算机程序产品包括指令,当由计算机执行该程序时,该指令使计算机执行上述方法中的任一方法。
在本申请中,术语“重构”和“解码”可以互换使用,术语“像素”和“样本”可以互换使用,术语“图像”、“图片”和“帧”可以互换使用。通常,但不一定,术语“重构”在编码端使用,而“解码”在解码端使用。
本文描述了各种方法,并且每种方法包括用于实现所述方法的一个或多个步骤或动作。除非正确操作方法需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或用途。
本申请中所述的各种方法和其他方面可用于修改模块,例如,图10的视频编码器100的帧内预测模块160以及如图11和图12所示的解码器200的帧内预测模块260。此外,本发明方面不限于VVC或HEVC,并且可应用于例如其他标准和推荐(无论是预先存在的还是未来开发的)以及任何此类标准和推荐的扩展(包括VVC和HEVC)。除非另外指明或技术上排除在外,否则本申请中所述的方面可单独或组合使用。
在本申请中使用各种数值,例如,帧内预测模式的数量、神经网络的参数(层、输出范围、阈值)。具体值是为了示例目的,并且所述方面不限于这些具体值。
图10示出编码器100的框图。设想了这一编码器100的变型,但是为了清楚起见,下文描述了编码器100而不描述所有预期的变型。
在编码之前,视频序列可经过预编码处理(101),例如,将颜色变换应用于输入彩色图片(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或执行输入图片分量的重新映射,以便获得对压缩更具弹性的信号分布(例如,使用颜色分量中的一个颜色分量的直方图均衡化)。元数据可与预编码处理(101)相关联并且附加到比特流。
在编码器100中,图像由编码器元件进行编码,如下所述。以例如CU为单位对待编码图像进行分区(102)和处理。例如,使用帧内模式或帧间模式对每个单元(通常为图像块)进行编码。当单元以帧内模式进行编码时,其执行帧内预测(160)。在帧间模式中,执行运动估计(175)和补偿(170)。编码器决定(105)帧内模式或帧间模式中的哪一者用于对单元进行编码,并且通过例如预测模式标记来指示帧内/帧间决策。例如,通过从原始单元减去(110)预测单元来计算预测残差。
然后对预测残差进行变换(125)和量化(130)。对经量化的变换系数以及运动向量和其他语法元素进行熵编码(145),以输出比特流。编码器可跳过变换,并对未变换的残余信号直接应用量化。编码器可绕过变换和量化两者,即,在不应用变换或量化过程的情况下直接对残差进行编码。
编码器对编码单元进行解码以提供用于进一步预测的参考。对量化的变换系数进行去量化(140)和逆变换(150)以解码预测残差。组合(155)经解码的预测残差和预测单元,重构单元。向重构单元应用环路滤波器(165)以执行例如图像解块/SAO(样本自适应偏移)滤波,以减少编码伪影。经滤波的单元存储在参考图片缓冲器(180)中。
图11示出视频解码器200的框图。设想了这一解码器200的变型,但是为了清楚起见,下文描述了解码器200而不描述所有预期的变型。
在解码器200中,比特流由解码器元件进行解码,如下所述。
视频解码器200一般执行与如图10所述的编码过程相反的解码过程。解码器200通常还执行视频解码作为对视频数据编码的一部分。
具体地,解码器的输入包括视频比特流,该视频比特流可由视频编码器100生成。首先对比特流进行熵解码(230)以获得变换系数、运动向量和其他经编码的信息。图片分区信息指示如何对图片进行分区。因此,解码器可以根据经解码的图片分区信息划分(235)图像。对变换系数进行去量化(240)和逆变换(250)以对预测残差进行解码。组合(255)经解码的预测残差和预测单元,重构单元(通常为图像块)。可从帧内预测(260)或运动补偿预测(即,帧间预测)(275)获得(270)预测单元。向重构单元应用环路滤波器(265)。经滤波的单元存储在参考图片缓冲器(280)中。
经解码的图像还可经过解码后处理(285),例如,逆颜色变换(例如,从YCbCr 4:2:0到RGB 4:4:4的变换)或执行在预编码过程(101)中执行的重新映射的逆过程的逆重新映射。解码后处理可使用在预编码处理中导出并且在比特流中发信号通知的元数据。
图12示出在其中实现各个方面和实施方案的系统的示例的框图。系统12000可体现为包括下文所述的各个部件的设备,并且被配置为执行本文档中所述的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板电脑、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统12000的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统12000的处理元件和编码器/解码器元件分布在多个IC和/或分立部件上。在各种实施方案中,系统12000经由例如通信总线或通过专用输入和/或输出端口通信地耦接到一个或多个其他系统或其他电子设备。在各种实施方案中,系统12000被配置为实现本文档中描述的一个或多个方面。
系统12000包括至少一个处理器1010,该处理器被配置为执行加载到其中的指令,以用于实现例如本文档中所述的各个方面。处理器1010可包括嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统12000包括至少一个存储器12020(例如,易失性存储器设备和/或非易失性存储器设备)。系统12000包括存储设备12040,该存储设备可包括非易失性存储器和/或易失性存储器,包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备12040可包括内部存储设备、附接存储设备(包括可拆卸和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统12000包括编码器/解码器模块12030,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块12030可包括其自身的处理器和存储器。编码器/解码器模块12030表示可被包括在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。此外,编码器/解码器模块12030可实现为系统12000的独立元件,或者可结合在处理器12010内作为本领域技术人员已知的硬件和软件的组合。
待加载到处理器12010或编码器/解码器12030上以执行本文档中所述的各个方面的程序代码可存储在存储设备12040中,并且随后被加载到存储器12020上以供处理器12010执行。根据各种实施方案,处理器12010、存储器12020、存储设备12040和编码器/解码器模块12030中的一者或多者可在本文档中所述过程的执行期间存储各个项目中的一个或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在一些实施方案中,处理器12010和/或编码器/解码器模块12030内部的存储器用于存储指令并且提供工作存储器以用于在编码或解码期间需要的处理。
然而,在其他实施方案中,处理设备(例如,处理设备可以是处理器12010或编码器/解码器模块12030)外部的存储器用于这些功能中的一个或多个功能。外部存储器可以是存储器12020和/或存储设备12040,例如动态易失性存储器和/或非易失性闪存存储器。
在若干实施方案中,外部非易失性闪存存储器用于存储例如电视机的操作系统。
在至少一个实施方案中,快速外部动态易失性存储器诸如RAM用作视频编码和解码操作的工作存储器,诸如MPEG-2(MPEG是指运动图片专家组,MPEG-2也称为ISO/IEC13818,并且13818-1也称为H.222,13818-2也称为H.262)、HEVC(HEVC是指高效视频编码,也称为H.265和MPEG-H部分2)或VVC(通用视频编码,由联合视频专家小组(JVET)开发的新标准)。
对系统12000的元件的输入可通过如模块12130中所示的各种输入设备提供。此类输入设备包括但不限于:(i)射频(RF)部分,其接收例如由广播器通过空中传输的RF信号;(ii)分量(COMP)输入端子(或一组COMP输入端子);(iii)通用串行总线(USB)输入端子;和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图12中未示出的其他示例包括复合视频。
在各种实施方案中,模块12130的输入设备具有如本领域已知的相关联的相应输入处理元件。例如,RF部分可与适于以下项的元件相关联:(i)选择所需的频率(也称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调经下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包括执行这些功能中的各种功能的调谐器,这些功能包括例如下变频接收信号至更低频率(例如,中频或近基带频率)或至基带。
在一个机顶盒实施方案中,RF部分及其相关联的输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需的频带来执行频率选择。
各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。
在各种实施方案中,RF部分包括天线。
此外,USB和/或HDMI端子可包括用于跨USB和/或HDMI连接将系统12000连接到其他电子设备的相应接口处理器。
应当理解,输入处理(例如Reed-Solomon纠错)的各个方面可根据需要例如在单独的输入处理IC内或在处理器12010内实现。
类似地,USB或HDMI接口处理的方面可根据需要在单独的接口IC内或在处理器12010内实现。
将经解调、纠错和解复用的流提供给各种处理元件,包括例如处理器12010以及编码器/解码器12030,该处理元件与存储器和存储元件结合操作以根据需要处理数据流以呈现在输出设备上。
系统12000的各种元件可设置在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置122140(例如,本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并且在这些元件之间传输数据。
系统12000包括能够经由通信信道12060与其他设备通信的通信接口12050。通信接口12050可包括但不限于被配置为通过通信信道12060传输和接收数据的收发器。通信接口12050可包括但不限于调制解调器或网卡,并且通信信道12060可例如在有线和/或无线介质内实现。
在各种实施方案中,使用诸如Wi-Fi网络(例如IEEE 802.11(IEEE是指电气和电子工程师协会))之类的无线网络将数据流式传输或以其他方式提供给系统12000。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道12060和通信接口12050接收。这些实施方案的通信信道12060通常连接到接入点或路由器,该接入点或路由器提供对包括互联网的外部网络的访问,以用于允许流式应用和其他云上通信。
其他实施方案使用机顶盒向系统12000提供流式数据,该机顶盒通过输入图像块12130的HDMI连接递送数据。还有其他实施方案使用输入模块12130的RF连接向系统12000提供流式数据。
如上所述,各种实施方案以非流式的方式提供数据。
此外,各种实施方案使用除了Wi-Fi以外的无线网络,例如蜂窝网络或蓝牙网络。
系统12000可将输出信号提供到各种输出设备,包括显示器12100、扬声器12110和其他外围设备12120。
各种实施方案的显示器12100包括例如触摸屏显示器、有机发光二极管(OLED)显示器、曲面显示器和/或可折叠显示器中的一者或多者。显示器12100可用于电视机、平板电脑、膝上型计算机、蜂窝电话(移动电话)或其他设备。显示器12100还可与其他部件集成在一起(例如,如在智能电话中),或者是单独的(例如,膝上型计算机的外部监视器)。
在实施方案的各种示例中,其他外围设备12120包括独立数字视频光盘(或数字多功能光盘,两个术语都是DVR)、盘播放器、立体声系统和/或照明系统中的一者或多者。
各种实施方案使用一个或多个外围设备12120,该一个或多个外围设备提供基于系统12000的输出的功能。例如,盘播放器执行播放系统12000的输出的功能。
在各种实施方案中,控制信号使用诸如AV.Link、消费电子产品控制(CEC)或其他通信协议的信令在系统12000与显示器12100、扬声器12110或其他外围设备12120之间传送,该其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。
输出设备可通过相应接口12070、12080和12090经由专用连接通信地耦接到系统12000。
另选地,输出设备可使用通信信道12060经由通信接口12050连接到系统12000。
显示器12100和扬声器12110可与电子设备(诸如例如电视机)中的系统12000的其他部件集成在单个单元中。
在各种实施方案中,显示接口12070包括显示驱动器,诸如例如定时控制器(TCon)芯片。
例如,如果输入12130的RF部分是单独机顶盒的一部分,则显示器12100和扬声器12110可另选地与其他部件中的一个或多个部件分开。
在显示器12100和扬声器12110为外部部件的各种实施方案中,输出信号可经由专用输出连接(包括例如HDMI端口、USB端口或COMP输出)提供。
这些实施方案可由处理器12010或由硬件或由硬件和软件的组合实现的计算机软件执行。
作为非限制性示例,这些实施方案可由一个或多个集成电路实现。
作为非限制性示例,存储器12020可以是适合于技术环境的任意类型,并且可使用任何适当的数据存储技术来实现,诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。
作为非限制性示例,处理器12010可以是适合于技术环境的任意类型,并且可涵盖微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一者或多者。
各种具体实施参与解码。如本申请中所用,“解码”可涵盖例如对所接收的编码序列执行的过程的全部或部分,以便产生适于显示的最终输出。
在各种实施方案中,此类过程包括通常由解码器执行的一个或多个过程,例如熵解码、逆量化、逆变换和差分解码。
在各种实施方案中,此类过程还包括或另选地包括由本申请中描述的各种实施方式的解码器执行的过程,例如,接收与使用神经网络对当前图像块进行的帧内预测有关的信息;使用应用于围绕当前图像块的上下文的神经网络确定当前图像块的帧内预测;以及使用所确定的帧内预测对图像块进行解码。
作为进一步的示例,在一个实施方案中,“解码”仅是指熵解码,在另一个实施方案中,“解码”仅是指差分解码,并且在又一个实施方案中,“解码”是指熵解码和差分解码的组合。短语“解码过程”是具体地指代操作的子集还是广义地指代更广泛的解码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
各种具体实施参与编码。
以与上面关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可涵盖例如对输入视频序列执行以便产生编码比特流的全部或部分过程。
在各种实施方案中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。
在各种实施方案中,此类过程还包括或另选地包括由本申请中描述的各种实施方式的编码器执行的过程,例如,使用应用于围绕当前图像块的上下文的神经网络确定当前图像块的帧内预测;基于帧内预测对当前图像块进行编码;以及发送经编码的当前图像块。
作为进一步的示例,在一个实施方案中,“编码”仅是指熵编码,在另一个实施方案中,“编码”仅是指差分编码,并且在又一个实施方案中,“编码”是指差分编码和熵编码的组合。短语“编码过程”是具体地指代操作的子集还是广义地指代更广泛的编码过程基于具体描述的上下文将是清楚的,并且据信将被本领域的技术人员很好地理解。
当附图呈现为流程图时,应当理解,其还提供了对应装置的框图。类似地,当附图呈现为框图时,应当理解,其还提供了对应的方法/过程的流程图。
各种实施方案是指速率失真优化。
具体地,在编码过程期间,通常考虑速率和失真之间的平衡或权衡,这常常考虑到计算复杂性的约束。速率失真优化通常表述为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法解决速率失真优化问题。例如,这些方法可基于对所有编码选项(包括所有考虑的模式或编码参数值)的广泛测试,并且完整评估其编码成本以及重构信号在编码和解码之后的相关失真。更快的方法还可用于降低编码复杂性,特别是对基于预测或预测残差信号而不是重构的残差信号的近似失真的计算。也可使用这两种方法的混合,诸如通过针对可能的编码选项中的仅一些编码选项使用近似失真,而针对其他编码选项使用完全失真。其他方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中任一种来执行优化,但是优化不一定是对编码成本和相关失真两者的完整评估。然而,根据至少一个实施方案,由于深度帧内预测模式是用于帧内预测的唯一可用模式,因此,去除了编码中的速率失真优化。
本文所述的具体实施和方面可在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单个形式的具体实施的上下文中讨论(例如,仅作为方法讨论),讨论的特征的具体实施也可以其他形式(例如,装置或程序)实现。
装置可在例如适当的硬件、软件和固件中实现。
方法可在例如一般是指处理设备的处理器中实现,该处理设备包括例如计算机、微处理器、集成电路或可编程逻辑设备。
处理器还包括通信设备,诸如例如计算机、手机、便携式/个人数字助理(“PDA”)以及便于最终用户之间信息通信的其他设备。
提及“一个实施方案”或“实施方案”或“一个具体实施”或“具体实施”以及它们的其他变型,意味着结合实施方案描述的特定的特征、结构、特性等包括在至少一个实施方案中。因此,短语“在一个实施方案中”或“在实施方案中”或“在一个具体实施中”或“在具体实施中”的出现以及出现在本申请通篇的各个地方的任何其他变型不一定都是指相同的实施方案。
另外,本申请可涉及“确定”各种信息。确定信息可包括例如估计信息、计算信息、预测信息或从存储器检索信息中的一者或多者。
此外,本申请可涉及“访问”各种信息。访问信息可包括例如接收信息、检索信息(例如,从存储器)、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息中的一者或多者。
另外,本申请可涉及“接收”各种信息。与“访问”一样,接收旨在为广义的术语。接收信息可包括例如访问信息或检索信息(例如,从存储器)中的一者或多者。此外,在诸如例如存储信息、处理信息、发射信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,“接收”通常以一种方式或另一种方式参与。
应当理解,例如,在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”和“至少一种”中的任一种旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或选择两个选项(A和B)。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,此类短语旨在涵盖仅选择第一列出的选项(A),或仅选择第二列出的选项(B),或仅选择第三列出的选项(C),或仅选择第一列出的选项和第二列出的选项(A和B),或仅选择第一列出的选项和第三列出的选项(A和C),或仅选择第二列出的选项和第三列出的选项(B和C),或选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的是,这可扩展到所列出的尽可能多的项目。
而且,如本文所用,词语“发信号通知”是指(除了别的以外)向对应解码器指示某物。例如,在某些实施方案中,编码器针对深度帧内预测发信号通知多个参数中的一个特定参数。
这样,在一个实施方案中,在编码器侧和解码器侧两者均使用相同的参数。因此,例如,编码器可将特定参数发射(显式信令)到解码器,使得解码器可使用相同的特定参数。相反,如果解码器已具有特定参数以及其他,则可在不发射(隐式信令)的情况下使用信令,以简单允许解码器知道和选择特定参数。通过避免发射任何实际功能,在各种实施方案中实现了位节省。应当理解,信令可以各种方式实现。例如,在各种实施方案中,使用一个或多个语法元素、标记等将信息发信号通知至对应解码器。虽然前面涉及词语“signal(发信号通知)”的动词形式,但是词语“signal(信号)”在本文也可用作名词。
对于本领域的普通技术人员将显而易见的是,具体实施可产生格式化为携带例如可存储或可传输的信息的各种信号。信息可包括例如用于执行方法的指令或由所述具体实施中的一个具体实施产生的数据。例如,可格式化信号以携带所述实施方案的比特流。可格式化此类信号例如为电磁波(例如,使用频谱的射频部分)或基带信号。格式化可包括例如对数据流编码并且用编码的数据流调制载体。信号携带的信息可以是例如模拟或数字信息。已知的是,信号可通过各种不同的有线或无线链路发射。信号可存储在处理器可读介质上。
我们描述了多个实施方案。这些实施方案的特征可在各种权利要求类别和类型中单独地或以任何组合提供。

Claims (23)

1.一种方法,所述方法包括使用至少一个神经网络依据包括围绕图像块的像素的上下文对所述图像块进行帧内预测,其中,所述帧内预测还使用信息将所述上下文中的可用像素和缺失像素区分开来。
2.根据权利要求1所述的方法,其中,所述信息是掩码值,其中,所述方法还包括在所述帧内预测之前对所述上下文进行预处理,其中,通过将所述掩码值分配给所述上下文中的所述缺失像素来获得经预处理的上下文。
3.根据权利要求2所述的方法,其中,所述经预处理的上下文适于所述图像块的位深度和训练图像的位深度,所述训练图像用于训练所述至少一个神经网络。
4.根据权利要求1所述的方法,其中,所述信息是指示所述缺失像素在所述上下文中的位置的二进制向量,并且其中,响应于所述二进制向量对所述图像块进行帧内预测。
5.根据权利要求4所述的方法,其中,每个二进制向量系数是指缺失像素或可用像素的至少一个连续行/列的所述位置。
6.根据权利要求5所述的方法,其中,每个二进制向量系数是指缺失像素或可用像素的一个行/列的所述位置。
7.根据权利要求5所述的方法,其中,每个二进制向量系数是指缺失像素或可用像素的至少两个连续行/列的所述位置。
8.根据权利要求2或4所述的方法,其中,从所述可用像素减去所述上下文中的所述可用像素的均值,并且其中,所述方法还包括在帧内预测之后进行后处理,其中,通过使用深度帧内预测因子将所述均值加到依据所述经预处理的上下文获得的帧内预测来获得所述当前图像块的帧内预测。
9.一种方法,所述方法包括:使用至少一个神经网络依据包括围绕待编码图像块的像素的上下文来确定所述图像块的帧内预测,其中,确定所述帧内预测包括使用信息将所述上下文中的所述可用像素和所述缺失像素区分开来;以及基于所述帧内预测对所述图像块进行编码。
10.根据权利要求9所述的方法,其中,所述方法还包括发送信息,所述信息用于访问用于帧内预测的神经网络或定义对用于帧内预测的神经网络的访问。
11.一种方法,所述方法包括使用至少一个神经网络依据包括围绕待解码图像块的像素的上下文来确定所述图像块的帧内预测,其中,确定所述帧内预测包括使用信息将所述上下文中的所述可用像素和所述缺失像素区分开来;以及基于所述帧内预测对所述图像块进行解码。
12.根据权利要求11所述的方法,其中,所述方法还包括接收信息,所述信息用于访问用于帧内预测的神经网络或定义对用于帧内预测的神经网络的访问。
13.一种装置,所述装置包括一个或多个处理器,其中,所述一个或多个处理器被配置为使用至少一个神经网络依据包括围绕待编码图像块的像素的上下文来确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将所述上下文中的所述可用像素和所述缺失像素区分开来;和编码器,所述编码器被配置为基于所述帧内预测对所述图像块进行编码。
14.一种装置,所述装置包括一个或多个处理器,其中,所述一个或多个处理器被配置为使用至少一个神经网络依据包括围绕待解码图像块的像素的上下文来确定所述图像块的帧内预测,其中,所述帧内预测还使用信息将所述上下文中的所述可用像素和所述缺失像素区分开来;和解码器,所述解码器被配置为基于所述帧内预测对所述图像块进行解码。
15.根据权利要求9至12中任一项所述的方法或根据权利要求13或14所述的装置,其中,所述信息是掩码值,并且其中,所述方法还包括或所述一个或多个处理器被进一步配置为在所述帧内预测之前对所述上下文进行预处理,其中,通过将所述掩码值分配给所述上下文中的所述缺失像素来获得经预处理的上下文。
16.根据权利要求15所述的方法或装置,其中,所述经预处理的上下文适于所述图像块的位深度和所述训练图像的位深度,所述训练图像用于训练所述至少一个神经网络。
17.根据权利要求9至12中任一项所述的方法或根据权利要求13或14所述的装置,其中,所述信息是指示所述缺失像素在所述上下文中的位置的二进制向量,并且其中,响应于所述二进制向量对所述图像块进行帧内预测。
18.根据权利要求17所述的方法或装置,其中,每个二进制向量系数是指缺失像素或可用像素的至少一个连续行/列的所述位置。
19.根据权利要求18所述的方法或装置,其中,每个二进制向量系数是指缺失像素或可用像素的一个行/列的所述位置。
20.根据权利要求18所述的方法或装置,其中,每个二进制向量系数是指缺失像素或可用像素的至少两个连续行/列的所述位置。
21.根据权利要求15或17所述的方法或装置,其中,从所述可用像素减去所述上下文中的所述可用像素的均值,并且其中,所述方法还包括或所述一个或多个处理器被进一步配置为在帧内预测之后进行后处理,其中,通过使用深度帧内预测因子将所述均值加到依据所述经预处理的上下文获得的帧内预测来获得所述当前图像块的帧内预测。
22.一种非暂态计算机可读介质,所述非暂态计算机可读介质包含根据权利要求9至12或15至21中任一项所述的方法生成的数据内容。
23.一种计算机程序产品,所述计算机程序产品包括指令,当所述程序由计算机执行时,所述指令使所述计算机执行根据权利要求9至12或15至21中任一项所述的方法。
CN202080077746.6A 2019-11-08 2020-10-22 图像块的深度帧内预测 Pending CN114731396A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306453 2019-11-08
EP19306453.2 2019-11-08
PCT/EP2020/079781 WO2021089339A1 (en) 2019-11-08 2020-10-22 Deep intra prediction of an image block

Publications (1)

Publication Number Publication Date
CN114731396A true CN114731396A (zh) 2022-07-08

Family

ID=68655473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080077746.6A Pending CN114731396A (zh) 2019-11-08 2020-10-22 图像块的深度帧内预测

Country Status (6)

Country Link
US (1) US20220417516A1 (zh)
EP (1) EP4055824A1 (zh)
KR (1) KR20220088939A (zh)
CN (1) CN114731396A (zh)
BR (1) BR112022008456A2 (zh)
WO (1) WO2021089339A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024052216A1 (en) * 2022-09-07 2024-03-14 Interdigital Ce Patent Holdings, Sas Encoding and decoding methods using template-based tool and corresponding apparatuses

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130294511A1 (en) * 2011-01-14 2013-11-07 Telefonaktiebolaget L M Ericsson (Publ) Methods and Devices for Intra Coding of Video
GB2498550B (en) * 2012-01-19 2016-02-24 Canon Kk Method and device for processing components of an image for encoding or decoding
US11657264B2 (en) * 2018-04-09 2023-05-23 Nokia Technologies Oy Content-specific neural network distribution
US11240492B2 (en) * 2019-01-22 2022-02-01 Apple Inc. Neural network based residual coding and prediction for predictive coding
US11558628B2 (en) * 2020-12-14 2023-01-17 Nokia Technologies Oy Caching and clearing mechanism for deep convolutional neural networks
US12003734B2 (en) * 2021-02-25 2024-06-04 Qualcomm Incorporated Machine learning based flow determination for video coding

Also Published As

Publication number Publication date
US20220417516A1 (en) 2022-12-29
BR112022008456A2 (pt) 2022-07-26
WO2021089339A1 (en) 2021-05-14
KR20220088939A (ko) 2022-06-28
EP4055824A1 (en) 2022-09-14

Similar Documents

Publication Publication Date Title
US20220159277A1 (en) Method and apparatus for video encoding and decoding with subblock based local illumination compensation
WO2022063729A1 (en) Template matching prediction for versatile video coding
US20230254507A1 (en) Deep intra predictor generating side information
CN112771874B (zh) 用于画面编码和解码的方法和设备
CN113544705A (zh) 用于图片编码和解码的方法和设备
EP3706421A1 (en) Method and apparatus for video encoding and decoding based on affine motion compensation
CN112806011A (zh) 改进的虚拟时间仿射候选
CN113545047A (zh) 帧内预测模式分区
US20220417516A1 (en) Deep intra prediction of an image block
EP3668100A1 (en) Method and device for picture encoding and decoding
EP3641311A1 (en) Encoding and decoding methods and apparatus
EP3854080A1 (en) Harmonization of intra transform coding and wide angle intra prediction
CN112335240A (zh) 使用可变权重的多参考帧内预测
CN117280684A (zh) 具有可切换内插滤波器的几何分区
JP7509773B2 (ja) 二重木を伴う現ピクチャ参照ブロックベクトル初期化
CN114930819A (zh) 三角形合并模式中的子块合并候选
CN114731397A (zh) 用于帧内预测的神经网络的迭代训练
US20240171756A1 (en) Template matching prediction for video encoding and decoding
US11539951B2 (en) Method and device for picture encoding and decoding
WO2023036639A1 (en) Chroma prediction for video encoding and decoding based on template matching
CN114930344A (zh) 数据流压缩
WO2022028855A1 (en) Combining abt with vvc sub-block-based coding tools
CN117501692A (zh) 用于视频编码和解码的模板匹配预测
WO2020072397A1 (en) Block size based motion vector coding in affine mode
CN118120228A (zh) 基于模板匹配的用于视频编码和解码的色度预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231009

Address after: Paris France

Applicant after: Interactive digital CE patent holdings Ltd.

Address before: French Sesong Sevigne

Applicant before: Interactive digital VC holdings France Ltd.