CN112204963A - 逐块图像编码的帧内预测模式概念 - Google Patents

逐块图像编码的帧内预测模式概念 Download PDF

Info

Publication number
CN112204963A
CN112204963A CN201980036297.8A CN201980036297A CN112204963A CN 112204963 A CN112204963 A CN 112204963A CN 201980036297 A CN201980036297 A CN 201980036297A CN 112204963 A CN112204963 A CN 112204963A
Authority
CN
China
Prior art keywords
intra
current block
prediction signal
block
intra prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980036297.8A
Other languages
English (en)
Inventor
乔纳森·普法夫
菲利普·赫勒
菲利普·默克尔
比约恩·施塔伦贝格尔
米沙·斯科曼
马丁·温肯
亚当·维科夫斯基
沃耶西·萨梅克
史蒂芬·卡滕斯塔德勒
海科·施瓦茨
德特勒夫·马尔佩
托马斯·威甘德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN112204963A publication Critical patent/CN112204963A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/619Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding the transform being operated outside the prediction loop

Abstract

公开了用于逐块图片编码的帧内预测模式概念。具体地,公开了一种用于从数据流(12)中逐块解码图片(10)和/或将图片(10)编码到数据流(12)中的装置(14‑1、54‑2),该装置支持至少一种帧内预测模式,根据该帧内预测模式,通过将与图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号。针对与预定大小不同的当前块(18),该装置可以被配置为:重新采样(134、166)与当前块(18)相邻的样本的第二模板(60),以与第一模板(130、170)相符,从而获得重新采样的模板(130、170);将样本的重新采样的模板(130、170)应用(138a、170a、44‑1、44‑2)到神经网络(80)上,以获得初步帧内预测信号(138、172、176);以及重新采样(140、180)初步帧内预测信号(138、172、176),以与当前块(18)相符,从而获得(140)当前块(18)的帧内预测信号(142、24‑1、24‑2)。

Description

逐块图像编码的帧内预测模式概念
技术领域
本申请涉及用于例如可在例如HEVC或HEVC的任何后续版本之类的视频编解码器中使用的逐块图片编码的改进的帧内预测模式概念。
背景技术
帧内预测模式广泛地用于图片和视频编码中。在视频编码中,帧内预测模式与诸如帧间预测模式(例如,运动补偿预测模式)之类的其他预测模式竞争。在帧内预测模式中,基于相邻样本(即,就编码器侧而言已经被编码并且就解码器侧而言已经被解码的样本)来预测当前块。相邻样本值被外推到当前块中,以便形成当前块的预测信号,其中针对当前块,预测残差在数据流中被发送。预测信号越好,预测残差就越低,并且因此,对预测残差进行编码所需的比特数就越少。
为了有效,应当考虑几个方面,以便形成用于逐块图片编码环境中的帧内预测的有效框架。例如,编解码器支持的帧内预测模式的数量越多,辅助信息(side information)速率消耗就越大,以便将选择发信号通知给解码器。另一方面,所支持的帧内预测模式的集合应该能够提供良好的预测信号,即,产生低预测残差的预测信号。
本申请寻求提供一种帧内预测模式概念,从而在使用改进的帧内预测模式概念的情况下允许逐块图片编解码器的更有效的压缩。
该目的通过本申请的独立权利要求的主题来解决。
发明内容
公开了一种用于从数据流中逐块解码图片的装置(例如,解码器),所述装置支持至少一种帧内预测模式,根据该帧内预测模式,通过将与图片的具有预定大小的块相邻的样本的第一模板应用到神经网络上,来确定当前块的帧内预测信号,其中,针对与预定大小不同的当前块,所述装置被配置为:
重新采样与当前块相邻的样本的第二模板,以与第一模板相符,从而获得重新采样的模板;
将样本的重新采样的模板应用到神经网络上,以获得初步帧内预测;以及
重新采样初步帧内预测信号,以与当前块相符,从而获得当前块的帧内预测信号。
还公开了一种用于将图片逐块编码到数据流中的装置(例如,编码器),所述装置支持至少一种帧内预测模式,根据该帧内预测模式,通过将与图片的具有预定大小的块相邻的样本的第一模板应用到神经网络上,来确定当前块的帧内预测信号,其中,针对与预定大小不同的当前块,所述装置被配置为:
重新采样与当前块相邻的样本的第二模板,以与第一模板相符,从而获得重新采样的模板;
将样本的重新采样的模板应用到神经网络上,以获得初步帧内预测;以及
重新采样初步帧内预测信号,以与当前块相符,从而获得当前块的帧内预测信号。
该装置可以被配置为通过下采样第二模板来进行重新采样,以获得第一模板。
该装置可以被配置为通过上采样初步帧内预测信号来重新采样初步帧内预测信号。
该装置可以被配置为:将初步帧内预测信号从空间域变换到变换域;以及在变换域中重新采样初步帧内预测信号。
该装置可以被配置为:通过缩放初步帧内预测信号的系数,来重新采样变换域初步帧内预测信号。
该装置可以被配置为:
通过以下步骤来重新采样变换域初步帧内预测信号:
增加帧内预测信号的维度以符合当前块的维度;以及
对初步帧内预测信号的添加的系数中的系数进行零填充,添加的系数与较高频率的区间(bin)有关。
该装置可以被配置为:组合变换域初步帧内预测信号与预测残差信号的经去量化的版本。
该装置可以被配置为:在空间域中重新采样初步帧内预测信号。
该装置可以被配置为:通过执行双线性内插来重新采样初步帧内预测信号。
该装置可以被配置为:在数据字段中编码与重新采样和/或针对不同维度使用神经网络有关的信息。
还公开了一种从数据流中逐块解码图片的装置(例如,解码器),所述装置支持至少一种帧内预测模式,根据该帧内预测模式,通过以下操作来确定图片的当前块的帧内预测信号:
将当前块的相邻样本的第一集合应用到神经网络上,以获得对当前块的变换的变换系数集合的预测。
还公开了一种将图片编码到数据流中的装置(例如,编码器),所述装置支持至少一种帧内预测模式,根据该帧内预测模式,通过以下操作来确定图片的当前块的帧内预测信号:
将当前块的相邻样本的第一集合应用到神经网络上,以获得对当前块的变换的变换系数集合的预测。
装置中的一个可以被配置为:对预测进行逆变换以获得重构信号。
装置中的一个可以被配置为:使用可变长度码从数据流中解码索引;以及使用索引执行选择。
装置中的一个可以被配置为:确定帧内预测模式集合的排名;以及然后,重新采样第二模板。
公开了一种方法,包括:
重新采样与当前块相邻的样本的第二模板,以与第一模板相符,从而获得重新采样的模板,
将样本的重新采样的模板应用到神经网络上,以获得初步帧内预测,以及
重新采样初步帧内预测信号,以与当前块相符,从而获得当前块的帧内预测信号。
公开了一种用于从数据流中逐块解码图片的方法,包括:
将当前块的相邻样本的第一集合应用到神经网络上,以获得对当前块的变换的变换系数集合的预测。
公开了一种将图片逐块编码到数据流中的方法,包括:
将当前块的相邻样本的第一集合应用到神经网络上,以获得对当前块的变换的变换系数集合的预测。
上述和/或下述方法可以使用包括至少一个上述和/或下述装置的设备。
还公开了一种包括指令的计算机可读存储介质,该指令在由计算机执行时,使计算机执行上述和/或下述方法,和/或实现上述和/或下述装置的至少一个组件。
还公开了通过上述和/或下述方法和/或通过上述和/或下述装置获得的数据流。
附图说明
就上述神经网络的设计而言,本申请提供了许多用于适当地确定其参数的示例。
本申请的有利实现是从属权利要求的主题。下面参照附图描述本申请的优选示例,在附图中:
图1示出了将用于将图片编码到数据流中的编码器示为可以在其中实现本申请的示例的一般示例的示意性框图;
图2示出了根据图1的编码器的更具体示例的框图;
图3示出了与图1的编码器相配合并且用作可以在其中实现本申请的示例的解码器的示例的解码器的示意性框图;
图4示出了与图2的编码器相配合的图3的解码器的更具体示例的框图;
图5示出了说明根据本申请的示例的编码器和解码器中的关于使用帧内预测来处理块的操作模式的示意图;
图6示出了说明根据本申请的示例的包括几种基于神经网络的帧内预测模式的解码器的示意性框图;
图7a示出了说明根据示例的编码器和解码器的操作模式的示意图,该示例支持基于神经网络的帧内预测模式以及对这些模式的基于神经网络的排序,其中连同指示要使用的帧内预测模式是否是基于神经网络的帧内预测模式集合的成员的标记(fleck)一起,在数据流内发送针对基于神经网络的帧内预测模式的有序列表的索引。不用说,可以使用可变长度编码来对索引进行编码,以便利用由确定90确定的不同频率;
图7b示出了与图7a的不同之处在于不使用标记信号化的示意图;
图7c示出了与图7b的不同之处在于不使用神经网络来控制模式排序的示意图;
图7d示出了与7a的不同在于模式信号化中的神经网络辅助用于控制熵编码/熵解码中的概率分布估计而不是用于模式排序的示意图;
图8示出了根据示例的用于设计基于神经网络的帧内预测模式集合的装置;
图9a示出了说明根据示例的编码器和解码器的操作模式的示意图,根据该示例,神经网络用于对所支持的帧内预测模式进行排序,而不考虑是否基于神经网络;
图9b示出了与图9a的不同之处在于神经网络基础用于控制用于熵解码/熵编码针对所支持的帧内预测模式的集合的索引的概率分布估计的示意图;
图10示出了根据示例的用于设计神经网络的装置,该神经网络用于帮助从针对基于块的图片编码的帧内预测模式集合中进行选择。
图11-1示出了根据示例的编码器。
图11-2示出了根据示例的解码器。
图12示出了说明根据示例的编码器和解码器的操作模式的示意图。
图13a和图13b示出了根据示例的技术的示意图。
具体实施方式
示例
在下文中,描述了各种示例,当使用帧内预测时,这些示例有助于实现更有效的压缩。一些示例通过利用基于神经网络的帧内预测模式的集合来实现压缩效率的提高。例如,可以将后者添加到启发式设计的其他帧内预测模式,或者可以仅提供后者。其他示例使用神经网络来在多个帧内预测模式之间执行选择。甚至其他示例都利用了刚刚讨论的两个类别。
为了易于对本申请的以下示例的理解,描述以呈现可能的编码器和与该编码器配合的解码器开始,可以将本申请的随后概述的示例构建于该编码器和解码器中。图1示出了用于将图片10逐块编码到数据流12中的装置。该装置使用附图标记14来指示,并且可以是静止图片编码器或视频编码器。换句话说,当编码器14被配置为将包括图片10的视频16编码到数据流12中时,图片10可以是视频16中的当前图片,或者编码器14可以专用地将图片10编码到数据流12中。
如所提到的,编码器14以逐块方式或以块为基础执行编码。为此,编码器14将图片10细分为块,编码器14以块为单位将图片10编码到数据流12中。图片10到块18的可能的细分的示例在下面更详细地阐述。通常,细分可以结束为具有恒定大小的块18,例如,以行和列排列的块的阵列,或者结束为具有不同块大小的块18,例如,通过使用分层多树细分,从图片10的整个图片区域开始或从图片10的预划分开始多树细分为树块的阵列,其中这些示例不应视为排除将图片10细分为块18的其他可能方式。
此外,编码器14是被配置为将图片10预测编码到数据流12中的预测性编码器。对于特定块18,这意味着编码器14确定块18的预测信号,并将预测残差(即,预测信号偏离块18中的实际图片内容的预测误差)编码到数据流12中。
编码器14可以支持不同的预测模式,以便导出特定块18的预测信号。在以下示例中重要的预测模式是帧内预测模式,根据帧内预测模式,从图片10的相邻的、已经被编码的样本中空间地预测块18的内部。图片10到数据流12中的编码以及因此对应的解码过程可以基于在块18之间定义的特定编码顺序20。例如,编码顺序20可以以光栅扫描顺序来遍历块18,例如,从上到下逐行遍历,其中每一行从左到右来遍历。在基于分层多树的细分的情况下,可以在每个分层级别内应用光栅扫描排序,其中可以应用深度优先遍历顺序,即,特定分层级别的块内的叶节点可以根据编码顺序20在具有相同父块的相同分层级别的块之前。取决于编码顺序20,块18的相邻的、已经被编码的样本通常可以位于块18的一侧或多侧。在本文呈现的示例的情况下,例如,块18的相邻的、已经被编码的样本位于块18的上侧和左侧。
帧内预测模式可能不是编码器14支持的仅有模式。例如,在编码器14是视频编码器的情况下,编码器14还可以支持如下帧内预测模式:根据该帧内预测模式,在时间上根据视频16的先前被编码的图片来预测块18。这样的帧内预测模式可以是运动补偿的预测模式,根据该运动补偿的预测模式,针对这样的块18发信号通知运动矢量,该运动矢量指示要从其中将块18的预测信号导出为副本的部分的相对空间偏移。附加地或替代地,其他非帧内预测模式也可以是可用的,例如在编码器14是多视图编码器的情况下的视图间预测模式,或非预测性模式,根据该非预测性模式对块18的内部照原样进行编码,即没有任何预测。
在开始将本申请的描述集中于帧内预测模式之前,参照图2描述针对可能的基于块的编码器(即,针对编码器14的可能的实现)的更具体的示例,然后呈现分别与图1和图2配合的解码器的两个对应示例。
图2示出了图1的编码器14的可能实现,即,其中编码器被配置为使用变换编码来对预测残差进行编码的示例,然而这仅是示例,并且本申请不限于这类预测残差编码。根据图2,编码器14包括减法器22,该减法器22被配置为从入站信号(即,图片10,或在块的基础上为当前块18)中减去对应的预测信号24,以便获得预测残差信号26,该预测残差信号然后由预测残差编码器28编码到数据流12中。预测残差编码器28由有损编码级28a和无损编码级28b组成。有损级28a接收预测残差信号26,并且包括量化器30,其量化预测残差信号26的样本。如上所述,本示例使用预测残差信号26的变换编码,并且因此,有损编码级28a包括连接在减法器22和量化器30之间的变换级32,以便变换这种频谱分解的预测残差26,其中量化器30的量化对呈现残差信号26的变换系数进行量化。该变换可以是DCT、DST、FFT、Hadamard变换等。然后,无损编码级28b对经变换和量化的预测残差信号34进行无损编码,该无损编码级是将经量化的预测残差信号34熵编码到数据流12中的熵编码器。编码器14还包括连接到量化器30的输出的预测残差信号重构级36,以便以在解码器处也可用的方式来从经变换和量化的预测残差信号34中重构预测残差信号,即,将量化器30的编码损失考虑在内。为此,预测残差重构级36包括执行量化器30的量化的逆处理的去量化器38,随后是执行相对于由变换器32执行的变换的逆变换(例如,频谱分解的逆处理(例如,例如对任何上述特定变换示例的逆处理))的逆变换器40。编码器14包括加法器42,其将由逆变换器40输出的重构预测残差信号与预测信号24相加,以输出重构信号,即重构样本。该输出被馈送到编码器14的预测器44中,该预测器然后基于该输出确定预测信号24。预测器44支持上面已经参照图1讨论的所有预测模式。图2还示出了在编码器14是视频编码器的情况下,编码器14还可以包括环路滤波器46,该环路滤波器46对完全重构图片进行滤波,该完全重构图片在被滤波之后针对帧间预测块形成预测器44的参考图片。
如上所述,编码器14基于块进行操作。对于随后的描述,关注的块基础是将图片10细分成如下块:针对该块,分别从预测器44或编码器14支持的帧内预测模式的集合或多个帧内预测模式中选择出帧内预测模式,并且单独地执行所选择的帧内预测模式。但是,也可以存在将图片10细分成的其他类别的块。例如,图片10是帧间编码还是帧内编码的上述判定可以以与块18不同的块的粒度或单位进行。例如,帧间/帧内模式判定可以在图片10被细分成的编码块的级别上执行,并且每个编码块被细分成预测块。已经判定对其使用帧内预测的编码块的预测块每个均被细分为帧内预测模式判定。为此,对于这些预测块中的每一个,关于应针对相应的预测块使用哪种支持的帧内预测模式进行判定。这些预测块将形成在此感兴趣的块18。与帧间预测相关联的编码块内的预测块将由预测器44不同地处理。可以通过确定运动矢量并从参考图片中由运动矢量指向的位置复制该块的预测信号,来从参考图片中对它们进行帧间预测。另一个块细分涉及细分为变换块,变换器32和逆变换器40以该变换块为单位执行变换。经变换的块可以例如是进一步细分编码块的结果。自然地,在本文阐述的示例不应被认为是限制性的,并且还存在其他示例。仅出于完整性的目的,应注意的是,细分为编码块可以例如使用多树细分,并且预测块和/或变换块也可以通过使用多树细分进一步细分编码块来获得。
在图3中示出了与图1的编码器14配合的用于逐块解码的解码器或装置。该解码器54执行与编码器14相反的操作,即,它以逐块方式从数据流12中解码图片10,并且为此目的支持多种帧内预测模式。例如,解码器54可以包括残差提供器156。上面参照图1讨论的所有其他可能性对于解码器54也是有效的。为此,解码器54可以是静止图片解码器或视频解码器,并且解码器54也支持所有的预测模式和预测可能性。编码器14与解码器54之间的差异主要在于以下事实:编码器14根据某种优化来选择或选定编码决策,例如,以使可能取决于编码速率和/或编码失真的某些成本函数最小化。这些编码选项或编码参数之一可以涉及在可用或所支持的帧内预测模式中选择要用于当前块18的帧内预测模式。然后可以由编码器14针对当前块18在数据流12内发信号通知所选择的帧内预测模式,其中解码器54使用数据流12中的针对块18的该信号化来重新进行该选择。同样,图片10到块18的细分可以在编码器14内进行优化,并且可以在数据流12内传送对应的细分信息,其中解码器54基于该细分信息来对图片10到块18的细分进行恢复。综上所述,解码器54可以是在块基础上操作的预测解码器,并且除了帧内预测模式之外,解码器54还可以支持其他预测模式,例如在例如解码器54是视频解码器的情况下的帧间预测模式。在解码时,解码器54还可以使用参照图1讨论的编码顺序20,并且由于在编码器14和解码器54处都遵守该编码顺序20,因此在编码器14和解码器54二者处,相同的相邻采样可用于当前块18。。因此,为了避免不必要的重复,只要涉及将图片10细分成块(例如,涉及预测,以及涉及对预测残差的编码),对编码器14的操作模式的描述也应适用于解码器54。差异在于以下事实:编码器14通过优化选择一些编码选项或编码参数并且在数据流12内发信号通知该编码参数或在数据流12中插入该编码参数,然后解码器54从数据流12中导出该编码参数,以重新进行预测、细分等。
图4示出了图3的解码器54(即,与图2所示的图1的编码器14的实现配合的解码器)的可能的实现。由于图4的编码器54的许多元件与图2的对应编码器中出现的元件相同,因此在图4中使用带有撇号(’)的相同附图标记来指示这些元件。具体地,加法器42’,可选的环路滤波器46’和预测器44’以与图2的编码器中相同的方式连接到预测环路中。由熵解码器56的序列导出应用到加法器42’的重构的(即,经去量化和重新变换的)预测残差信号,该熵解码器对熵编码器28b的熵编码求逆,随后是由去量化器38’和逆变换器40’组成的残差信号重构级36’,就像在编码侧的情况一样。解码器的输出是图10的重构。图片10的重构可以直接在加法器42’的输出处获得,或者替代地在环路滤波器46’的输出处获得。可以在解码器的输出处布置某个后置滤波器,以便对图片10的重构进行一些后置滤波,以提高图片质量,但是此选项未在图4中描绘。
同样,参照图4,以上参照图2提出的描述对于图4也应是有效的,除了仅编码器执行针对编码选项的优化任务和相关联的决策。然而,关于块细分、预测、去量化和重新变换的所有描述对于图4的解码器54也是有效的。
在继续对本申请的可能示例的描述之前,应参照上述示例进行一些注释。尽管上面没有明确提及,但是很明显,块18可以具有任何形状。例如,它可以是矩形或方形。此外,尽管以上对编码器14和解码器54的操作模式的描述经常提到“当前块”18,但是很明显,编码器14和解码器54对于要为其选择帧内预测模式的每个块相应地起作用。如上所述,也可能存在其他块,但是以下描述集中于图片10所细分成的那些块18,针对这些块18选择帧内预测模式。
为了总结对于要为其选择帧内预测模式的特定块18的情况,参照图5。图5示出了当前块18,即,当前要编码或解码的块。图5示出了相邻样本62(即,与块18在空间上相邻的样本62)的集合60。框18内的样本64将被预测。因此,要导出的预测信号是对块18内的每个样本64的预测。如上面已经讨论的,多个预测模式66可用于每个块18,并且如果要对块18进行帧内预测,则这多个模式66仅包括帧间预测模式。在编码器和解码器侧执行选择68,以便确定多个模式66中的要基于相邻样本集合60来预测(71)块18的预测信号的帧内预测模式中的一个。下面进一步描述的示例在可用帧内预测模式66和针对选择68的操作模式方面有所不同,例如相对于针对块18的选择68而言,是否在数据流12中设置了辅助信息。但是,对这些示例的描述从提供数学细节的具体描述开始。根据该初始示例,针对将要进行帧内预测的特定块18的选择与对应的辅助信息信号化70和数据流相关联,并且多个帧内预测模式66包括基于神经网络的帧内预测模式的集合72、以及启发式设计的其他帧内预测模式的集合74。集合74的帧内预测模式中的一个例如可以是DC预测模式,根据该DC预测模式,基于相邻样本集合60确定某一均值,并且将该均值分配给块18内的所有样本64。附加地或替代地,集合74可以包括帧间预测模式,其可以被称为角度帧间预测模式,根据该帧间预测模式,沿着特定帧内预测方向将相邻样本集合60的样本值复制到块18中,其中该帧内预测方向在这种角度帧内预测模式之间不同。图5示出了数据流12除了包括与多个帧内预测模式66中的选择68有关的可选存在的辅助信息70之外,还包括预测残差可以编码到其中的部分76,如上所述,其编码可以可选地涉及在变换域中进行量化的变换编码。
具体地,为了便于对本申请的特定示例的以下描述的理解,图6示出了编码器和解码器处的帧内预测块的一般操作模式。图6示出了块18以及执行帧内预测所基于的相邻样本集合60。应当注意,就基数(即,根据用于确定块18的预测信号的相应帧内预测模式实际使用的集合60的样本的数量)而言,该集合60可以在多个帧内预测模式66的帧内预测模式之间变化。然而,为了便于理解,这未在图6中示出。图6示出了对于集合72的每个基于神经网络的帧内预测模式,编码器和解码器具有一个神经网络800至80KB-1。将集合60应用于相应的神经网络,以便从集合72中导出对应的帧内预测模式。除此之外,图6实际上代表性地将一个框82示为基于输入(即,相邻样本的集合60)提供集合74的一或多个帧内预测模式中的一个或多个预测信号,例如,DC模式预测信号和/或角度帧内预测模式预测信号。下面的描述将示出如何可以有利地确定神经网络80i(其中,i=0…KB-1)的参数。在下文中阐述的特定示例还向编码器和解码器提供了另一个神经网络84,该神经网络专用于基于相邻样本的集合86(其可以与或可以不与集合60一致)提供针对集合72内的每个基于神经网络的帧内预测模式的概率值。因此,当神经网络84帮助以使用于模式选择的辅助信息70更有效时,提供该概率值。例如,在以下描述的示例中,假设使用可变长度码来指向帧内预测模式中的一个,并且至少就集合72而言,由神经网络84提供的概率值使得能够将辅助信息70中的可变长度码用作针对帧内预测模式的有序列表的索引,该列表根据神经网络84针对集合72内的基于神经网络的帧内预测模式输出的概率值进行排序,从而优化或降低辅助信息70的编码速率。为此,如图6所示,根据由另一神经网络84提供的概率值以及数据流12内的辅助信息70两者有效地执行模式选择68。
1.用于训练执行帧内预测的神经网络的参数的算法
Figure BDA0002805116030000121
为视频帧的一个块,即,块18。假设B具有M个像素。对于固定的颜色分量,令im是B上的视频信号的内容。我们将im视为
Figure BDA0002805116030000122
的元素。假设存在B的邻域
Figure BDA0002805116030000123
其具有L个像素,并且其上的已经重构的图像
Figure BDA0002805116030000124
是可用的,即,样本集合60和86可用,尽管它们可能会有所不同。关于帧内预测函数,我们意指函数
Figure BDA0002805116030000131
我们将F(rec)视为im的预测器。
接下来描述的是一种算法,该算法用于通过数据驱动的优化方法来设计可能在典型的混合视频编码标准中出现的几个块B的帧内预测函数,即集合72。为了实现该目标,考虑了以下主要的设计特征:
1.在进行的优化算法中,希望使用成本函数的很好的近似,其具体涉及可能期望用于发信号通知预测残差的比特的数量。
2.希望联合地训练几个帧内预测,以便能够处理不同的信号特性。
3.在训练帧内预测时,必须考虑到发信号通知要使用哪个帧内模式所需的比特的数量。
4.希望保留已经定义的帧内预测的集合,例如HEVC帧内预测,并将我们的预测训练为互补预测。
5.典型的混合视频编码标准通常支持几种块形状,可以将给定的块B划分为这些块形状。
在接下来的四节中,描述可以如何处理这些要求中的每一个。更准确地说,在1.1节中,我们将描述如何处理第一项。在1.2节中,描述了如何处理第2和3项。在第1.4节中,描述了如何考虑第4项。最后,在第1.5节中,描述了如何处理最后一项。
1.1用于训练近似视频编解码器的速率函数的损失函数的算法
通常将确定视频编解码器中使用的未知参数的数据驱动方法设置为一种优化算法,该算法试图在给定的训练示例的集合上最小化预定义的损失函数。通常,为了使数值优化算法在实践中起作用,后一种损失函数应满足一些平滑性要求。
另一方面,像HEVC这样的视频编码器在做出决策时会最佳地执行,从而最小化速率失真成本D+λ·R。此处,D是解码的视频信号的重构误差,而R是速率,即对视频信号进行编码所需的比特的数量。此外,
Figure BDA0002805116030000132
是拉格朗日参数,其取决于所选择的量化参数。
真正的函数D+λ·R通常非常复杂,并且不是由可以向数据驱动优化算法馈送的闭合表达式给出的。因此,通过分段平滑函数来近似整个函数D+λ·R或至少近似速率函数R。
更精确地,像以前一样,令B为视频帧10的一个给定块,并且令im为固定颜色分量中B上的对应视频信号。假设B具有M个像素。然后,对于预测候选
Figure BDA0002805116030000141
考虑预测残差
Figure BDA0002805116030000142
Figure BDA0002805116030000143
对于给定的量化参数和给定的变换,令R(res)为真正的视频编码器发信号通知对res的量化变换所需的速率。此外,令D(res)是由res的去量化和逆变换引起的重构误差。然后,我们希望确定分段光滑的函数H,
Figure BDA0002805116030000144
使得H(res)作为对D(res)+λ·R(res)的良好近似,并且使得
Figure BDA0002805116030000145
用作对R(res)的良好近似。
我们固定了一些
Figure BDA0002805116030000146
并固定了预定义的“架构”,即分段平滑函数
Figure BDA0002805116030000147
然后查找
Figure BDA0002805116030000148
使得将函数H和
Figure BDA0002805116030000149
建模为
Figure BDA00028051160300001410
为了确定权重Φ1和Φ1,在使用给定的混合视频编码标准的典型编码器上,收集了预测残差resj
Figure BDA00028051160300001411
的训练样本的大的集合和对应的速率失真值(D+λR)(resj),其分别仅是针对某一有限的大索引集合
Figure BDA00028051160300001412
的速率值R(resj)。然后尝试找到Φ1和Φ2,使得它们最小化或至少减小表达式
Figure BDA00028051160300001413
对于该任务,我们通常使用(随机)梯度下降方法。
1.2对固定块形状的预测的训练
在本节中,描述设置以设计给定块B18的KB个帧内预测、集合72中的帧内预测以及已经重构的样本的区域Brec60的算法。
假设给定了预测的预定义的“架构”。我们的意思是,对于某一固定的
Figure BDA00028051160300001414
给定以下函数
Figure BDA00028051160300001415
并且希望确定“权重”
Figure BDA00028051160300001416
使得帧内预测被给出为
Figure BDA00028051160300001517
其中对于
Figure BDA0002805116030000151
Figure BDA0002805116030000152
接下来的一节我们提供这方面的细节。(2)中的函数定义图6中的神经网络800至80KB-1
接下来,我们通过使用以下的取决于第二参数的函数来对我们试图设计的帧内预测的成本函数进行建模
Figure BDA0002805116030000153
同样,对于
Figure BDA0002805116030000154
利用
Figure BDA0002805116030000155
我们定义
Figure BDA0002805116030000156
同样,在第1.3节中给出了示例,其中(4)的函数表示图6的神经网络84。
我们假设给出了如下函数
Figure BDA0002805116030000157
例如,该函数定义用于辅助信息70的VLC码长度分布,即,由辅助信息70与集合72的更多候选模式相关联的码长度。
然后,利用
Figure BDA0002805116030000158
我们定义
Figure BDA0002805116030000159
目前
Figure BDA00028051160300001510
的第k个分量
Figure BDA00028051160300001511
应当对发信号通知我们训练的第k个帧内模式所需的比特的数量进行建模。
如果
Figure BDA00028051160300001512
是第2.1节中定义的函数,则对于给定的
Figure BDA00028051160300001513
Figure BDA00028051160300001514
重构图像
Figure BDA00028051160300001515
和原始图像
Figure BDA00028051160300001516
我们令
Figure BDA0002805116030000161
表示针对所有l∈{1,...,KB}具有如下属性的最小k∈{1,...,KB}
Figure BDA0002805116030000162
由于
Figure BDA0002805116030000163
对用于帧内模式的信号化的比特的实际数量进行建模,因此其梯度为0或者未定义。因此单独的
Figure BDA0002805116030000164
不足以经由基于梯度下降的算法来优化权重ΨB。因此,我们还通过使用softmax函数将函数
Figure BDA0002805116030000165
变换成概率分布来调用帧内模式的交叉熵。我们调用后一函数的定义。对于
Figure BDA0002805116030000166
令xi表示x的第i个分量。然后softmax函数
Figure BDA0002805116030000167
被定义为
Figure BDA0002805116030000168
为了梯度更新,我们将尝试最小化残差的速率与关于后一概率分布的模式kopt的交叉熵的总和。因此我们将用于块B的损失函数LossB定义如下
其中
Figure BDA0002805116030000169
给定(5)中的损失函数,我们通过数据驱动的优化来确定权重
Figure BDA00028051160300001610
因此,如果针对有限的大索引集合
Figure BDA00028051160300001618
给出B上的图像imi和对应的Brec上的重构图像reci的训练示例的集合
Figure BDA00028051160300001611
,我们应用例如基于(随机)梯度下降方法的优化算法来找到使以下表达式最小化的权重
Figure BDA00028051160300001612
Figure BDA00028051160300001613
1.3对函数
Figure BDA00028051160300001614
Figure BDA00028051160300001615
的说明
在该节中,我们更精确地定义函数
Figure BDA00028051160300001616
Figure BDA00028051160300001617
的形式。同样,回想到定义了神经网络80和84。这些函数中的每一个都包括一系列组成函数,其是:1)仿射变换Aff或2)非线性激活函数Act。
关于仿射变换
Figure BDA0002805116030000171
我们意指具有以下形式的映射
Aff(x)=L(x)+b
其中
Figure BDA0002805116030000172
是线性变换,即对于所有
Figure BDA0002805116030000173
满足
L(λ·x1+x2)=λ·L(x1)+L(x2)
并且其中
Figure BDA0002805116030000174
每个线性映射
Figure BDA0002805116030000175
完全由
Figure BDA0002805116030000176
的矩阵确定,即,唯一地对应于向量
Figure BDA0002805116030000177
因此,每个仿射函数
Figure BDA0002805116030000178
完全由m·n+n个权重确定,即由向量
Figure BDA0002805116030000179
确定。对于每个
Figure BDA00028051160300001710
我们将针对对应于Θ的唯一的仿射变换以上述方式写出AffΘ
关于非线性激活函数
Figure BDA00028051160300001711
我们意指具有以下形式的函数
(Act(x))i=ρ(xi)
在此,(Act(x))i表示Act(x)的第i个分量,并且xi表示x的第i个分量。最终,
Figure BDA00028051160300001712
可以具有如下形式
Figure BDA00028051160300001713
或具有如下形式
Figure BDA00028051160300001714
然而,这些示例不应被解释为将本申请的示例限制为这些显式示例。也可以使用其他公式,例如ρ(z)=log(1+ez)或任何其他非线性函数。例如,
Figure BDA00028051160300001715
可以替代地是分段平滑函数。
我们的函数
Figure BDA00028051160300001716
现在看上去如下。我们假设针对固定的
Figure BDA00028051160300001717
给出了
Figure BDA00028051160300001718
Figure BDA00028051160300001719
其中m1=L,nk=M,使得
T=(m1·n1+n1)+(m2·n2+n2)+…+(mk·nk+nk)。
在此,
Figure BDA00028051160300001720
Figure BDA00028051160300001721
如(1)中一样。然后,对于
Figure BDA00028051160300001722
其中
Figure BDA00028051160300001723
我们定义
Figure BDA0002805116030000181
Figure BDA0002805116030000182
因此将描述使用参数Θ来参数化的神经网络80i。这将是线性函数
Figure BDA0002805116030000183
和非线性函数ρ的序列,在本示例中,它们按顺序交替地应用,其中参数Θ包括
Figure BDA0002805116030000184
中的线性函数权重。在线性函数
Figure BDA0002805116030000185
和非线性函数ρ的序列中,线性函数
Figure BDA0002805116030000186
后跟非线性函数ρ的对将表示神经元层,例如,第j层,其中在神经网络的前馈方向上该神经元层j之前的在前节点的数量由
Figure BDA0002805116030000187
的维度m(即
Figure BDA0002805116030000188
的列数)确定,并且神经元层j本身的神经元的数量由
Figure BDA0002805116030000189
的维度n(其行数)确定。
Figure BDA00028051160300001810
的每一行都包含权重,该权重控制分别将m个在前神经元中的每一个的激活转发给与相应行相对应的神经元层j的相应神经元的信号强度。针对神经元层j中的每个神经元,ρ控制前向的在前神经元激活的线性组合到其自身的激活的非线性映射。在上面的示例中,存在k个这样的神经元层。每层的神经元的数量可能会有所不同。在不同的神经网络80j之间,即针对不同的j,神经元层的数量k可能会有所不同。请注意,非线性函数可能按照神经元层甚至按照神经元或某些其他单位而变化。
同样,我们的函数
Figure BDA00028051160300001811
如下所示。我们假设对于固定的
Figure BDA00028051160300001812
给出了
Figure BDA00028051160300001813
Figure BDA00028051160300001814
其中m1′=L,nk′=KB,使得
T=(m′1·n′1+n′1)+(m′2·n′2+n′2)+…+(m′k′·n′k′+n′k′)。
这里,
Figure BDA00028051160300001815
Figure BDA00028051160300001816
如(3)中一样。然后,对于
Figure BDA00028051160300001817
其中
Figure BDA00028051160300001818
我们定义
Figure BDA00028051160300001819
因此,
Figure BDA00028051160300001820
将描述使用参数Ψ进行参数化的神经网络84。正如上面已经针对涉及预测信号计算的神经元层所描述的那样,这将是线性函数
Figure BDA00028051160300001821
和非线性函数ρ的序列。神经网络84的神经元层的数量k′可以不同于神经网络80i的神经元层的数量k中的一个或多个。
1.4考虑现有预测的训练
我们扩展了前一节的算法,使得我们可以训练对已经存在的帧内预测进行补充的预测。
即,令
Figure BDA0002805116030000191
是已经可用的固定帧内预测函数的集合。例如,
Figure BDA0002805116030000192
可以由HEVC的DC或平面预测以及根据HEVC定义的角度预测组成;所有这些预测还可以包括对重构样本的初步平滑。而且,我们假设给出了函数
Figure BDA0002805116030000193
使得在给定原始图像im的情况下,
Figure BDA0002805116030000194
可以对应用于rec的第k个内部预测函数
Figure BDA0002805116030000195
的损失进行建模。
然后,我们根据(5)将损失函数扩展为如下损失函数
Figure BDA0002805116030000196
保持上一节结束时的表示,我们通过在训练样本的大集合上使下式最小化来确定权重
Figure BDA0002805116030000197
Figure BDA0002805116030000198
为此,我们通常首先通过优化(6)来找到权重,然后使用这些权重进行初始化以找到优化(10)的权重。
1.5对几个块形状的联合训练
在本节中,我们描述了在对我们的预测进行训练时,可以如何考虑以下内容:在典型的视频编码标准中,通常可能的是以各种方式将块分割成较小的子块,并对较小的子块执行帧内预测。
即,假设对于某一
Figure BDA0002805116030000199
给出所允许的块
Figure BDA00028051160300001910
的集合
Figure BDA00028051160300001911
以及区域的集合
Figure BDA00028051160300001912
使得每个
Figure BDA00028051160300001913
都是Bi的邻域。通常,
Figure BDA00028051160300001914
是在Bi左侧和上方的两个矩形的并集。
我们假设存在块
Figure BDA0002805116030000201
使得对于每个i∈{1,...,S},
Figure BDA0002805116030000202
Figure BDA0002805116030000203
Figure BDA0002805116030000204
的幂集合。然后,对于
Figure BDA0002805116030000205
我们假设给出集合
Figure BDA0002805116030000206
使得对于每个
Figure BDA0002805116030000207
块B可以被写为不相交的并集
Figure BDA0002805116030000208
对于给定的颜色分量,令im是Bmax上的图像,出于限制,对于每个
Figure BDA0002805116030000209
我们将其视为Bi上的图像
Figure BDA00028051160300002010
此外,假定在
Figure BDA00028051160300002011
上存在重构图像rec,由于限制,对于每个
Figure BDA00028051160300002012
我们将其视为
Figure BDA00028051160300002013
上的图像
Figure BDA00028051160300002014
保持第1.2节中的表示,对于每个
Figure BDA00028051160300002015
我们寻找
Figure BDA00028051160300002016
Figure BDA00028051160300002017
作为KB个帧内预测函数
Figure BDA00028051160300002018
的权重的集合,并寻找
Figure BDA00028051160300002019
作为模式预测函数GB的权重。我们将针对所有
Figure BDA00028051160300002020
的这些权重联合地确定如下。对于
Figure BDA00028051160300002021
和给定的权重的集合
Figure BDA00028051160300002022
Figure BDA00028051160300002023
Figure BDA00028051160300002024
此外,对于
Figure BDA00028051160300002025
我们将
Figure BDA00028051160300002026
定义为
Figure BDA00028051160300002027
如第1.4节中那样,我们假设对于每个
Figure BDA00028051160300002028
帧内预测函数的可能为空的集合
Figure BDA00028051160300002029
是可用的。令
Figure BDA00028051160300002030
然后,我们将损失函数
Figure BDA00028051160300002031
定义如下。通过包含集合,我们对集合
Figure BDA00028051160300002032
进行排序≤。令
Figure BDA00028051160300002033
Figure BDA00028051160300002034
中所有最小元素的集合。对于
Figure BDA00028051160300002035
Figure BDA00028051160300002036
其中后一函数如(9)中那样。
接下来,令
Figure BDA00028051160300002037
并假定已经针对所有
Figure BDA00028051160300002038
(其中
Figure BDA00028051160300002039
)定义了LossB ,total
然后,我们定义
Figure BDA0002805116030000211
Figure BDA0002805116030000212
最后,给出Bmax上的图像imi的训练示例的固定集合
Figure BDA0002805116030000213
我们通过最小化或至少减小以下表达式来确定
Figure BDA00028051160300002118
Figure BDA0002805116030000214
通常,我们首先针对每个
Figure BDA00028051160300002119
分别最小化(9)来初始化权重
Figure BDA0002805116030000215
ΨB
2经训练的神经网络整合到视频编解码器中
我们考虑一种混合视频编码标准,其中对于给定的颜色分量,给定块
Figure BDA0002805116030000216
上的视频信号的内容将由解码器生成。令M为B的像素的数量。此外,令
Figure BDA0002805116030000217
是B的固定邻域,使得解码器要处理Brec上的重构图像rec。令L为Brec的像素的数量。然后,我们将rec视为
Figure BDA0002805116030000218
的元素。我们假设编解码器通过对当前块B 10进行预测编码来进行操作。然后,我们要求解码器可以执行以生成B上的预测信号pred的以下步骤的版权,我们将其视为
Figure BDA0002805116030000219
的元素:
1.解码器具有固定数量
Figure BDA00028051160300002110
个函数要处理
Figure BDA00028051160300002111
即801...80(CB-1)并且
Figure BDA00028051160300002112
即84,以及权重
Figure BDA00028051160300002113
和权重
Figure BDA00028051160300002114
其中后面的权重由上一节中描述的训练算法预先确定。
2.解码器从比特流中重构作为辅助信息70的一部分的标志,并指示以下选项中的恰好一个是否为真:[label=)]
(i)要使用预测
Figure BDA00028051160300002115
中的一个,即集合72中的模式
(ii)不使用预测
Figure BDA00028051160300002116
中的任何一个,即,例如集合74中的一个。
这里,函数
Figure BDA00028051160300002117
与(2)中的一样。
3.如果步骤2中的选项2为真,则解码器将像基础混合视频编码标准中那样针对给定块10继续进行。
4.如果步骤2中的选项1为真,则解码器将根据(4)定义的函数
Figure BDA0002805116030000221
(即,84)应用于重构图像rec。令
Figure BDA0002805116030000222
定义为
Figure BDA0002805116030000223
然后,以使得解码器通过以下两个选项中的恰好一个定义数量m∈{1,...,KB}的方式来改变标准:
(i)解码器通过下式定义集合{1,...,KB}上的概率分布
Figure BDA0002805116030000224
Figure BDA0002805116030000225
并使用后一种概率分布
Figure BDA0002805116030000226
经由基础标准中使用的数据编码引擎来解析索引k∈{1,...,KB},该索引也是来自数据流12的辅助信息70的一部分,并且定义m:=k。
(ii)解码器通过令
Figure BDA0002805116030000227
来归纳地定义排列:
σ:{1,...,KB}→{1,...,KB}
,其中
Figure BDA0002805116030000228
是对于所有k∈{1,...KB}都有
Figure BDA0002805116030000229
的最小数量,并且通过令
Figure BDA00028051160300002210
其中
Figure BDA00028051160300002211
Figure BDA00028051160300002212
是使得对于所有k∈{1,...,KB}\{σ(1),...,σ(l)}都有
Figure BDA00028051160300002213
的最小数量。
然后,解码器从比特流12中重构唯一的索引i∈{1,...,KB},该索引也是数据流12的一部分,并令m:=σ(i)。
在解析后一个索引i的代码设计中,如果σ(i1)≤σ(i2)且如果由熵编码引擎使用的所有涉及的基础概率都设置为相等的概率的话,要求发信号通知索引i1∈{1,...,KB}所需的比特的数量小于或等于发信号通知索引i2∈{1,...,KB}的比特的数量。
5.如果步骤2中的选项1为真,并且如果解码器已根据前一步骤4确定了索引m,则解码器根据
Figure BDA00028051160300002214
生成71预测信号
Figure BDA00028051160300002215
即使用所选择的神经网络80m。然后,解码器使用pred作为预测信号,按照基础混合视频编码标准中那样继续进行。
将设计基于数据驱动学习方法的帧内预测函数整合到现有的混合视频编解码器中。本说明书具有两个主要部分。在第一部分中,我们描述帧内预测函数的离线训练的具体算法。在第二部分中,我们描述视频解码器可以如何使用后面的预测函数来生成给定块的预测信号。
因此,上文在第1.1至2节中已经描述的是用于从数据流12中逐块解码图片10的装置等。该装置54支持多个帧内预测模式,其至少包含帧内预测模式的集合72,根据这些帧内预测模式,通过将当前块18的相邻样本的第一集合60应用到神经网络80i上来确定图片10的当前块18的帧内预测信号。装置54被配置为针对当前块18从多个帧内预测模式66中选择(68)出一个帧内预测模式,并且使用这一个帧内预测模式(即,使用已经选择的对应的神经网络80m)来预测(71)当前块18。尽管除了集合72中的基于神经网络的帧内预测模式之外,第2节中所呈现的解码器还支持多个帧内预测模式66内的帧内预测模式74,但这仅仅是示例并且不需要是这种情况。此外,第1和2节中的以上描述可以在以下之处改变:解码器54不使用并且不包含另一神经网络84。关于上文所描述的优化,这意指第1.2节中呈现的用于找到
Figure BDA0002805116030000231
的内部质量中的第二加法器将不必是应用到任何概率值神经网络函数GB的函数MB的级联。该优化算法而是以使得选择的频率适当地遵循MB的码速率指示的方式来确定神经网络80i的合适的参数。例如,解码器54可以使用可变长度码从数据流12中解码用于块18的索引,可变长度码的码长度在MB中指示,并且解码器54将基于该索引来执行选择68。该索引将是辅助信息70的一部分。
上文在第2节中提出的描述的另一替代方案是解码器54可以替代地根据与当前块18的邻域有关的数据流的第一部分来导出基于神经网络的帧内预测模式的集合72中的排序,以便获得帧内预测模式的有序列表,其中根据数据流的与该第一部分不同的第二部分来选择帧内预测模式的有序列表中的最终要使用的帧内预测模式。“第一部分”可例如涉及与邻近当前块18的一个或多个块有关的编码参数或预测参数。“第二部分”则可以是索引,其例如指向基于神经网络的帧内预测模式集合72或是该基于神经网络的帧内预测模式集合的索引。当与上文概述的第2节一致地解读时,解码器54包含另一神经网络84,其针对帧内预测模式的集合72中的每个帧内预测模式,通过将相邻样本的集合86应用到该神经网络来确定概率值,并且对这些概率值进行排序以便确定集合72中的每个帧内预测模式的排名,由此获得帧内预测模式的有序列表。然后,将数据流12中作为辅助信息70的一部分的索引用作对有序列表的索引。在此,该索引可以使用可变长度码来编码,其中MB指示可变长度码的码长度。并且如以上在第2节中所解释的,在项4i中,根据另一个替代示例,解码器54可以针对集合72的每个基于神经网络的帧内预测模式使用由另一个神经网络84确定的刚刚提到的概率值,以便有效地执行针对集合72的索引的熵编码。具体地,作为辅助信息70的一部分并且用作针对集合72的索引的该索引的符号字母表将包括针对集合72中每个模式的符号或值,并且在根据以上描述的神经网络84的设计的情况下由神经网络84提供的概率值将提供导致有效的熵编码的概率值,因为这些概率值紧密地表示实际符号统计信息。对于该熵编码,例如可以使用算术编码,或者可以使用概率间隔划分熵(PIPE)编码。
有利地,对于集合72的任何帧内预测模式,不需要附加信息。一旦例如根据上文第1和2节中的描述有利地针对编码器和解码器对每个神经网络80i进行了参数化,每个神经网络80i导出当前块18的预测信号,而无需数据流中的任何附加指导。如上文已经指出的,除了集合72中的基于神经网络的帧内预测模式之外,其他帧内预测模式的存在是可选的。上面已经用集合74指示了它们。在这方面,应该注意的是,选择集合60(即,形成用于帧内预测71的输入的相邻样本的集合)的一种可能方式可以是使得该集合60对于集合74(即,启发式集合)的帧内预测模式是相同的,其中针对基于神经网络的帧内预测模式的集合60在集合60中包含的相邻样本的数量方面较大,并且影响帧内预测71。换句话说,与集合74的其他模式相比,集合60的基数针对基于神经网络的帧内预测模式72可能更大。例如,集合74的任何帧内预测模式的集合60可以仅包括沿着一维线的相邻样本,该一维线沿着块18的侧边延伸,例如左手侧和上侧。基于神经网络的帧内预测模式的集合60可以覆盖如下L形部分:沿着块18的刚才提到的侧边延伸,但是比针对集合74的帧内预测模式的集合60宽仅一个样本宽度。L形部分可以附加地延伸超出块18刚才提到的侧边。以这种方式,基于神经网络的帧内预测模式可以导致具有相应较低的预测残差的更好的帧内预测。
如以上在第2节中所述,在数据流12中传送的针对帧内预测块18的辅助信息70可以包括标记,该标记通常指示针对块18的所选择的帧内预测模式是集合72的成员还是集合74的成员。然而,在辅助信息70指示例如针对包括集合72和74两者在内的整体多个帧内预测模式66的索引的情况下,该标记仅是可选的。
下面,参照图7a至7d简要讨论刚才讨论的替代方案。这些图同时定义解码器和编码器两者,即,针对帧内预测块18的它们的功能。一方面,针对帧内编码块18的编码器操作模式与解码器操作模式之间的差异是以下事实:编码器执行可用的全部或至少一些帧内预测模式66,以便例如在使某种成本函数最小化的意义上在90处确定最好的一个帧内预测模式,并且编码器形成数据流12,即将数据编码到数据流12中,而解码器分别通过解码和读取从中导出数据。图7a示出了以上概述的替代方案的操作模式,根据该替代方案,针对块18的辅助信息70内的标志70a指示在步骤90中由编码器确定为针对块18的最佳模式的帧内预测模式是在集合72内(即,是否为基于神经网络的帧内预测模式),还是在集合74内(即,是否为非基于神经网络的帧内预测模式中的一个)。编码器相应地将标志70a插入到数据流12中,而解码器从数据流12中检索它。图7a假定所确定的帧内预测模式92在集合72内。然后,单独的神经网络84确定针对集合72的每个基于神经网络的帧内预测模式的概率值,并且针对集合72使用这些概率值,或更确切地,其中的基于神经网络的帧内预测模式根据其概率值来排序(例如,根据其概率值以降序),由此产生帧内预测模式的有序列表94。然后,作为辅助信息70的一部分的索引70b被编码器编码到数据流12中,并且被解码器从数据流中解码。因此,解码器能够确定集合72和74中的哪一个集合。在要使用的帧内预测模式位于集合72中的情况下,要针对块18使用的帧内预测模式位于集合72中,并执行集合72的排序96。在所确定的帧内预测模式位于集合74中的情况下,也可能在数据流12中发送索引。因此,解码器能够通过相应地控制选择68使用所确定的帧内预测模式来生成块18的预测信号。
图7b示出了替代方案,根据该替代方案,标志70a不存在于数据流12中。替代地,有序列表94将不仅包括集合72的帧内预测模式,而且还包括集合74的帧内预测模式。辅助信息70中的索引将是对该更大的有序列表的索引,并指示所确定的帧内预测模式,即确定为优化90的帧内预测模式。在神经网络84仅针对72内的基于神经网络的帧内预测模式提供概率值的情况下,集合72的帧内预测模式相对于集合74的帧内预测模式之间的排名可以通过其他方式来确定,例如,在有序列表94中自然而然地将集合72的基于神经网络的帧内预测模式排列在集合74的模式之前,或相对于彼此交替地排列它们。即,解码器能够从数据流12中导出索引,使用索引70作为对有序列表94的索引,其中使用由神经网络84输出的概率值从多个帧内预测模式66中导出有序列表94。图7c示出了另一变体。图7c示出了不使用标志70a但是标志可以被替代地使用的情况。图7c所针对的问题与编码器和解码器可能都不使用神经网络84有关。相反,排序96是通过其他方式导出的,例如针对一个或多个相邻块18在数据流12内传送的编码参数,即,数据流12中的涉及该一个或多个相邻块的部分98。
图7d示出了图7a的另一变体,即如下变体:根据该变体,使用熵编码来对索引70b进行编码,并且使用熵解码从数据流12中对索引70b进行解码,该熵编码和熵解码使用参考符号100来共同表示。如上所述,用于熵编码100的样本统计信息或概率分布由神经网络84输出的概率值控制,这使得索引70b的熵编码非常有效。
对于所有示例7a至7d,确实可以不存在集合74的模式。因此,相应的模块82可能省略,并且标志70a无论如何都是不必要的。
此外,尽管未在任何图中示出,但是很明显,即使在没有任何显式信令70的情况下,即,在不使用任何辅助信息的情况下,编码器和解码器处的模式选择68也可以彼此同步。相反,该选择可以从其他方式中导出,例如通过自然而然地采用有序列表94中的第一个,或者基于与一个或多个相邻块有关的编码参数,导出对有序列表94的索引。图8示出了用于设计要用于基于块的图片编码的集合72的帧内预测模式的集合的装置。装置108包括可参数化网络109,其继承或包括神经网络800至80KB-1以及神经网络84的可参数化版本。这里,在图8中,用于提供基于神经网络的帧内预测模式0的概率值的神经网络840至用于提供与基于神经网络的帧内预测模式KB-1相关联的概率值的神经网络84KB-1被描绘为单独单元。用于参数化神经网络84的参数111和用于参数化神经网络800至80KB-1的参数113通过更新器110被输入或应用到这些神经网络的相应的参数输入。装置108可以访问容器或多个图片测试块114以及对应的相邻样本集合116。装置108顺序地使用这些块114和相关联的相邻样本集合116的对。具体地,当前图片测试块114被应用于可参数化的神经网络109,使得神经网络80针对集合72的每个基于神经网络的帧内预测模式提供预测信号118,并且每个神经网络80为这些模式中的每个提供概率值。为此,这些神经网络使用其当前参数111和113。
在上面的描述中,rec已用于表示图片测试块114,并且
Figure BDA0002805116030000271
是针对模式B的预测残差118,并且概率值
Figure BDA0002805116030000272
是概率值120。对于每个模式0…Kb-1,存在由装置108包括的成本估计器122,其基于针对相应模式获得的预测信号118来计算针对该相应模式的成本估计。在上面的示例中,成本估计器122计算成本估计,如在第1.2节中的不等式的左手侧和右手侧所示。也就是说,在此,成本估计器122还针对每种模式使用对应的概率值120。但是,不必是上面已经讨论的那种情况。但是,无论如何,成本估计是两个附加项(add-in)的总和,其中之一是对被指示为上述不等式中的带有
Figure BDA0002805116030000273
的项的预测残差的编码成本的估计,另一个附加项估计用于指示模式的编码成本。为了计算对与预测残差有关的编码成本的估计,成本估计器122还获得当前图片测试块114的原始内容。神经网络80和84在其输入处应用了对应的相邻样本集合116。最小成本选择器126接收由成本估计器122输出的成本估计124,该最小成本选择器126确定最小化成本估计或具有与其相关联的最小成本估计的模式。在上述数学表示中,这已经是
Figure BDA0002805116030000281
更新器接收该最优模式,并且使用编码成本函数,该编码成本函数具有第一附加项和第二附加项,第一附加项根据针对最低编码估计的帧内预测模式而获得的预测信号118来形成残差速率估计,而第二附加项根据预测信号和针对最低编码成本估计(如选择器126所指示的)的帧内预测模式所获得的概率值来形成发信号通知辅助信息速率估计的模式。如上所述,这可以使用梯度距离来完成。因此,编码成本函数是可微的,并且在上面的数学表示中,公式5中给出了此函数的示例。在此,与发信号通知辅助信息速率估计的模式有关的第二附加项计算最低编码成本估计的帧内预测模式的交叉熵。
因此,更新器110寻求更新参数111和113以减少编码成本函数,然后可参数化的神经网络109使用这些更新后的参数111和113来处理多个图片测试块112中的下一个图片测试块。如上文关于第1.5节所讨论的,可存在一种机制,其控制图片测试块114和其相关联的相邻样本集合116的对主要应用于递归更新过程,对于该递归更新过程,帧内预测优选地在速率失真意义上进行而无需任何块细分,由此避免参数111及113基于图片测试块被过多优化,对于图片测试块,不论如何,以其子块为单位进行编码是更具成本效益的。
到目前为止,上述示例主要涉及编码器和解码器在其所支持的帧内预测模式66内具有基于神经网络的帧内预测模式的集合的情况。根据参照图9a和图9b讨论的示例,不必一定是这种情况。图9a试图概述根据示例的编码器和解码器的操作模式,其中以集中于与以上参照图7a提出的描述的差异的方式来提供其描述。所支持的多个个帧内预测模式66可以包括或可以不包括基于神经网络的帧内预测模式,并且可以包括或可以不包括非基于神经网络的帧内预测模式。因此,图9a中的分别由编码器和解码器包括以便针对每个所支持的模式66提供对应的预测信号的模块170不一定是神经网络。如以上已经指出的,这样的帧内预测模式可以是基于神经网络的,或者它们可以被启发式地激励,并且基于DC帧内预测模式或角度帧内预测模式或任何其他帧内预测模式来计算预测信号。因此,这些模块170可以被表示为预测信号计算器。然而,根据图9a的示例的编码器和解码器包括神经网络84。神经网络84基于相邻样本集合86计算针对所支持的帧内预测模式66的概率值,从而可以将多个帧内预测模式66转换为有序列表94。数据流12内的针对块18的索引70指向此有序列表94。因此,神经网络84有助于降低要用于帧内预测模式信号化的辅助信息速率。
图9b示出了图9a的替代方案,其中代替排序,索引70的熵解码/编码100被用于控制其概率或简单统计,即,根据针对多个模式66的每个模式的神经网络84确定的概率值,控制编码器/解码器中的熵解码/编码的熵概率分布。
图10示出了用于设计或参数化神经网络84的装置。因此,它是一种用于设计神经网络的装置108,该神经网络用于帮助在帧内预测模式的集合66中进行选择。在此,对于集合66的每种模式,存在一起形成神经网络84的对应的神经网络块,并且装置108的可参数化的神经网络109仅针对这些块是可参数化的。对于每种模式,还存在预测信号计算器170,但是根据图10,该预测信号计算器170不需要是可参数化的。因此,图10的装置108基于以下项来计算针对每种模式的成本估计:由对应的预测信号计算器170计算的预测信号118,并且可选地基于由针对该模式的对应的神经网络块确定的对应概率值。基于所得到的成本估计124,最小成本选择器126选择最小成本估计的模式,并且更新器110更新用于神经网络84的参数111。
参照对图7a至图7d以及图9a和图9b的描述,注意以下内容。图9a和图9b的示例的共同特征(也被图7a至图7d的某些示例使用)是以下事实:神经网络值的概率值用于改善或减少与辅助信息70相关联的开销的值,其中辅助信息70用于在优化过程90中向解码器发信号通知在编码器侧确定的模式。然而,如以上参照图7a至图7d的示例所指示的,应该清楚的是,可以在针对模式选择完全不在数据流12中使用辅助信息70的程度上改变图9a和图9b的示例。而是,由神经网络84针对每种模式输出的概率值可以自然而然地用于使编码器和解码器之间的模式选择同步。在那种情况下,针对模式选择,在编码器侧将没有优化决策90。而是,将以相同的方式在编码器和解码器侧确定集合66中的要使用的模式。当改变以不在数据流12中使用任何辅助信息70时,类似的陈述对于图7a至图7d的对应示例是成立的。返回至图9a和图9b的示例,然而,有趣的是,虽然解码器侧处的选择过程68取决于由神经网络输出的概率值,因为取决于概率值的排序或概率分布估计改变对辅助信息的解释,但就编码器而言,对概率值的依赖性不仅可以影响辅助信息70到数据流12中的编码(例如,使用对有序列表的索引的相应的可变长度编码,或使用概率分布估计取决于神经网络的概率值的熵编码/解码),而且还影响优化步骤90:此处,可以考虑用于发送辅助信息70的码率,并且因此可以影响确定90。
图11-1的示例
图11-1示出了编码器14-1的可能实现,即,其中编码器被配置为使用变换编码来对预测残差进行编码的示例,然而这仅是示例,并且本申请不限于这类预测残差编码。根据图11-1,编码器14-1包括空间域减法器22,该减法器22被配置为从入站信号(即,图片10,或在块的基础上为当前块18)中减去对应的预测信号24-1,以便获得空间域预测残差信号26,该空间域预测残差信号然后由预测残差编码器28编码到数据流12中。预测残差编码器28包括有损编码级28a和无损编码级28b。有损编码级28a接收预测残差信号26,并且包括量化器30,其量化预测残差信号26的样本。本示例使用预测残差信号26的变换编码,并且因此,有损编码级28a包括连接在减法器22和量化器30之间的变换级32,以便变换这种频谱分解的预测残差27,其中量化器30的量化对呈现残差信号26的变换系数进行。该变换可以是DCT、DST、FFT、Hadamard变换等。然后,无损编码级28b对经变换和变换域量化的预测残差信号34进行无损编码,该无损编码级是将经量化的预测残差信号34熵编码到数据流12中的熵编码器。
编码器14-1还包括连接到量化器30的变换域输出的变换域预测残差信号重构级36-1,以便以在解码器处也可用的方式来从经变换和量化(在变换域中)的预测残差信号34重构预测残差信号,即,将量化器30的编码损失考虑在内。为此,预测残差重构级36-1包括执行量化器30的量化的逆处理以获得预测残差信号34的经去量化的版本39-1的去量化器38-1,随后是执行相对于由变换器32执行的变换的逆变换(例如,频谱分解的逆处理(例如,对任何上述特定变换示例的逆处理))的逆变换器40-1。在逆变换器40-1的下游,有空间域输出60,它可以包括将有助于获得预测信号24-1的模板。具体地,预测器44-1可以提供变换域输出45-1,其一旦在逆变换器51-1处被逆变换,就将在空间域中提供预测信号24-1(将从入站信号10中减去预测信号24-1,以获得时域中的预测残差26)。还可能的是,在帧间模式中,环路滤波器46-1对完全重构图片60进行滤波,该图片在被滤波之后针对帧间预测块形成预测器44-1的参考图片47-1(相应地,在这些情况下,来自元件44-1和36-1的加法器57-1输入是必要的,但是如虚线53-1所指示的用于将预测信号24-1提供给减法器22的逆变换器51-1则没有必要)。
然而,与图2的编码器14不同,编码器14-1(在预测残差重构级36-1处)包括变换域加法器42-1,其位于去量化器38-1与逆变换器40-1之间。变换域加法器42-1向逆变换器40-1提供预测残差信号34的经去量化的版本39-1(由去量化器38-1提供)与由变换预测器44-1提供的变换域预测信号45-1的和43-1(在变换域中)。预测器44-1可以获得逆变换器40-1的输出作为反馈输入。
因此,从变换域中的预测信号45-1获得空间域中的预测信号24-1。同样,可以与根据以上示例的神经网络一起操作的变换域预测器44-1被输入空间域中的信号,但是在变换域中输出信号。
图11-2的示例
图11-2示出了解码器54-2(即,与编码器14-1的实现配合的解码器)的可能的实现。由于编码器54-2的许多元件与图11-1的对应编码器中出现的元件相同,因此在图11-2中使用具有”-2”的相同附图标记来指示这些元件。具体地,加法器42-2、可选的环路滤波器46-2和预测器44-2以与图11-1的编码器中相同的方式连接到预测环路中。由熵解码器56的序列导出重构的(即,经去量化和重新变换的)预测残差信号24-2(例如,60),该熵解码器对熵编码器28b的熵编码求逆,随后是由去量化器38-2和逆变换器40-2组成的残差信号重构级36-2,就像在编码侧的情况一样。解码器的输出是图10的重构。可以在解码器的输出处布置某一后置滤波器46-2,以便对图片10的重构进行一些后置滤波,以提高图片质量。同样,以上参照图11-1提出的描述对于图11-2也应是有效的,除了仅编码器执行针对编码选项的优化任务和相关联的决策。然而,关于块细分、预测、去量化和重新变换的所有描述对于图11-2的解码器54也是有效的。重构信号24-2被提供给预测器44-2,其可以与根据图5-图10的示例的神经网络一起操作。预测器44-2可以提供变换域预测值45-2。
与图4中的示例相反,但是与图11-1中的示例相似,去量化器38-2提供了(变换域中的)预测残差信号34的经去量化的版本39-2,该预测残差信号未被直接提供给逆变换器40-2。替代地,将预测残差信号34的经去量化的版本39-2输入到加法器42-2,以便与变换域预测值45-2组合。因此,获得了变换域重构信号43-2,当随后由逆变换器40-2进行逆变换时,其变为空间域中的重构信号24-2,以用于显示图像10。
图12的示例
现在参照图12。同时描述解码器和编码器两者,即,针对帧内预测块的它们的功能。一方面,针对帧内编码块18的编码器操作模式与解码器操作模式之间的差异是以下事实:编码器执行可用的全部或至少一些帧内预测模式66,以便例如在使某种成本函数最小化的意义上在90处确定最好的一个帧内预测模式,并且编码器形成数据流12,即将数据编码到其中,而解码器分别通过解码和读取从中导出数据。图12出了以上概述的替代方案的操作模式,根据该替代方案,针对块18的辅助信息70内的标志70a指示在步骤90中由编码器确定为针对块18的最佳模式的帧内预测模式是在集合72内(即,是否为基于神经网络的帧内预测模式),还是在集合74内(即,是否为非基于神经网络的帧内预测模式中的一个)。编码器相应地将标志70a插入到数据流12中,而解码器从数据流12中检索它。图12假定所确定的帧内预测模式92在集合72内。然后,单独的神经网络84确定针对集合72的每个基于神经网络的帧内预测模式的概率值,并且针对集合72使用这些概率值,或更确切地,其中的基于神经网络的帧内预测模式根据其概率值来排序(例如,根据其概率值以降序),由此产生帧内预测模式的有序列表94。然后,作为辅助信息70的一部分的索引70b被编码器编码到数据流12中,并且被解码器从数据流中解码。因此,解码器能够确定集合72和74中的哪一个集合。在要使用的帧内预测模式位于集合72中的情况下,要针对块18使用的帧内预测模式位于集合72中,并执行集合72的排序96。在所确定的帧内预测模式位于集合74中的情况下,也可能在数据流12中发送索引。因此,解码器能够通过相应地控制选择68,使用所确定的帧内预测模式来生成块18的预测信号。
从图12可以看出,(变换域中的)预测残差信号34被编码在数据流12中。去量化器38-1、38-2导出变换域经去量化的预测残差信号39-1、39-2。从预测器44-1、44-2获得变换域预测信号45-1、45-2。然后,加法器42-1将值39-1和45-1彼此相加(或加法器42-2将值39-2和45-2相加),以获得变换域重构信号43-1(或43-2)。在逆变换器40-1、40-2的下游,获得空间域预测信号24-1、24-2(例如,模板60),并且可以将其用于重构块18(例如,块18可以被显示)。
图7b至图7d的所有变体可以用于体现图11-1、图11-2和图12的示例。
讨论
定义了一种经由神经网络生成帧内预测信号的方法,并且描述了该方法如何被包括在视频或静止图像编解码器中。在这些示例中,针对在基础编解码器处可能已经可用的预定义图像变换(例如,离散余弦变换),不是在空间域中预测,而是预测器44-1、44-2可以在变换域中预测。其次,针对特定形状的块上的图像定义的每个帧内预测模式都可以针对较大的块上的图像引入帧内预测模式。
令B为具有M行和N列的像素块,在其上存在图像im。假设存在B(块18)的邻域Brec(模板60或86),在该邻域上已经重构的图像rec是可用的。然后在图5至图10的示例中,引入了由神经网络定义的新的帧内预测模式。这些帧内预测模式中的每一个都使用重构样本rec(24-1、24-2)生成预测信号pred(45-1、45-2),该pred同样是Brec上的图像。
令T为在Brec上的图像上定义的图像变换(例如,元件30输出的预测残差信号34),并且令S为T的逆变换(例如,在43-1或43-2处)。然后将预测信号pred(45-1、45-2)视为对T(im)的预测。这意味着在重构级,在计算pred(45-1、45-2)之后,必须计算图像S(pred)(24-1、24-2),以获得对图像im(10)的实际预测。
已经注意到,我们使用的变换T在自然图像上具有一些能量压缩特性。这可以通过以下方式加以利用。对于由神经网络定义的每个帧内模式,通过预定义的规则,将变换域中特定位置处的pred(45-1、45-2)的值设置为零,而与输入rec(24-1、24-2)无关。这降低了获得变换域中的预测信号pred(45-1、45-2)的计算复杂度。
(参照图5至图10,假设在基础编解码器的变换残差编码中使用变换T(在32处)和逆变换S(在40处)。为了获得B上的重构信号(24、24′),通过逆变换S(在40处)对预测残差res(34)进行逆变换,以获得S(res),并且将S(res)与基础预测信号(24)相加,以获得最终重构信号(24)。)
相反,图11和图12涉及以下过程:在通过上述神经网络帧内预测方法生成预测信号pred(45-1、45-2)的情况下,最终重构信号(24-1、24-2)通过对pred+res进行逆变换(在40-1、40-2处)来得到(其中pred是45-1或45-2;res是39-1或39-2,并且它们的和是43-1或43-2,这是最终重构信号24-1、24-2的变换域版本)。
最后指出,上述由神经网络执行的帧内预测的修改是可选的,并且彼此之间不一定相互关联。这意味着对于给定的变换T(在32处)与逆变换S(在40-1、40-2处),以及对于上述由神经网络定义的帧内预测模式中的一个,该模式是否被视为与T相对应的变换域中的预测都可以从比特流中提取或从预定义的设置中提取。
图13a和13b
参照图13a和图13b,示出了可以应用于例如基于空间域的方法(例如,图11a和图11b)和/或基于变换域的方法(例如,图1至图4)的策略。
在某些情况下,要处理适合于特定大小(例如,MxN,其中M是行数,N是列数)的块的神经网络,而要重构的图像的实际块18具有不同的大小(例如,M1xN1)。已经注意到,有可能执行允许使用适合于特定大小(例如,M×N)的神经网络的操作,而无需使用经过专门训练的神经网络。
具体地,装置14或54可以允许从数据流(例如,12)中逐块解码图片(例如,10)。装置14、54自然支持至少一种帧内预测模式,根据该帧内预测模式,通过将与具有预定大小(例如,M×N)的块(例如,136、172)相邻的样本的第一模板(例如,130、170)应用到神经网络(例如,80)上,来确定当前块(例如,136、176)的帧内预测信号。针对与预定大小(例如,M1xN1)不同的当前块(例如,18),该装置可以被配置为:
-重新采样(例如,D、134、166)与当前块(例如,18)相邻的样本的第二模板(例如,60),以与第一模板(例如,130、170)相符,从而获得重新采样的模板(例如,130、170),
-将样本的重新采样的模板(例如,130、170)应用到神经网络(例如,80)上,以获得初步帧内预测信号(例如,138),以及
-重新采样(例如,U、V、182)初步帧内预测信号(138)以与当前块(18、B1)相符,从而获得当前块的帧内预测信号。
图13a示出了空间域中的示例。空间域块18(也表示为B1)可以是M1xN1块,其图像im1将被重构(即使此时图像im1尚不可用)。注意,B1,rec(例如,集合60)具有已经重构的图像rec1,其中rec1与im1相邻(并且B1,rec与B1相邻)。块18和模板60(“第二模板”)可以形成元素132。
由于B1的维度,可能不存在要处理以用于重构B1的神经网络。然而,如果要针对具有不同维度的块(例如“第一模板”)处理神经网络,则可以实现以下过程。
变换操作(在此表示为D或134)可以例如应用于元素130。但是,已经注意到,由于仍然不知道B1,因此可以简单地将变换D(130)单独应用于B1,rec。变换130可以提供元素136,其由经变换的(重新采样的)模板130和块138形成。
例如,M1xN1块B1(18)(具有未知系数)在理论上可以变换为MxN块B(138)(具有仍未知的系数)。然而,由于块B(138)的系数未知,因此没有实际执行变换的必要。
类似地,变换D(134)将模板B1,rec(60)变换为具有不同维度的不同模板Brec(130)。模板130可以是L形的,具有竖直厚度L(即,竖直部分中的L个列)和水平厚度K(即,水平部分中的K个行),其中Brec=D(B1,rec)。可以理解,模板130可以包括:
-Brec(130)上的KxN块;
-Brec(130)左侧的MxL块;以及
-Brec(130)上的KxN块左侧以及Brec(130)左侧的MxL块上的KxL块。
在某些情况下,在M1>M并且N1>N的情况下(并且特别是在M是M1的倍数,并且N是N1的倍数的情况下),变换操作D(134)可以是下采样操作。例如,在M1=2M并且N1=2N的情况下,变换操作D可以简单地基于以象棋一样的方式隐藏一些区间(bin)(例如,通过从B1,rec60中删除对角线,以获得Brec130的值)。
此时,Brec(其中Brec=D(rec1))是MxN的重构图像。在操作138a,装置14、54现在可以使用(例如,在预测器44、44′处)为M×N块本地训练的必要的神经网络(例如,通过如图5至图10中的操作)。通过应用上面讨论的操作(138a),可以针对块B获得图像im1。(在某些示例中,操作138a不使用神经网络,而是使用本领域已知的其他技术)。
此时,块B(138)中的图像im1具有大小MxN,而要显示的图像被要求具有大小M1xN1。但是,已经注意到,可以简单地执行将块B(138)中的图像im1转换成M1xN1的变换(例如,U)140。
在134处执行的D是下采样操作的情况下,已经注意到,在140处的U可以是上采样操作。因此,除了通过神经网络在操作138a处获得的MxN块138中的系数之外,还可以通过在M1xN1块中引入系数来获得U(140)。
例如,在M1=2M并且N1=2N的情况下,可以简单地执行内插(例如双线性内插),以便近似(“猜测”)已经通过变换D丢弃的im1的系数。M1xN1图像im1因此作为元素142获得,并且可以用于将块图像显示为图像10的一部分。
值得注意的是,理论上也可以获得块144,尽管如此,块144将与模板60相同(除了由于变换D和U引起的误差之外)。因此,有利地,不需要为了获得B1,rec的新版本而变换Brec,其已经作为模板60来处理。
例如,图13a所示的操作可以在预测器44或44’处执行。因此,M1xN1图像im1(142)可以理解为预测信号24(图2)或24’(图4),其将与由逆变换器40或40’输出的预测残余信号相加以获得重构信号。
图13b示出了变换域中的示例(例如,在图11-1、图11-2的示例中)。元素162被表示为由空间域模板60(已经解码)和空间域块18(具有未知系数)形成。块18可以具有大小M1xN1,并且可以具有未知系数,例如该未知系数要在预测器44-1或44-2处确定。
可以存在这样的可能性:虽然要处理针对确定的大小MxN的神经网络,在变换域中没有神经网络可以直接利用M1xN1块一起操作。
然而,已经注意到,可以在预测器44-1、44-2处使用应用于模板60(“第二模板”)的变换D(166)以获得具有不同的维度(例如,减小的维度)的空间域模板170。模板170(“第一模板”)可以具有L形形状,例如,模板130的形状(见上文)。
此时,在操作170a中,可以根据上面的任何示例(见图5至图10)应用神经网络(例如800-80N)。因此,在操作170a结束时,可以获得块18的版本172的已知系数。
但是,要注意的是,172的维度MxN并不适合必须可视化的块18的维度M1xN1。因此,可以进行到变换域的变换(例如,在180处)。例如,可以获得M×N变换域块T(176)。为了将行和列的数量分别增加到M1和N1,可以使用称为零填充的技术,例如,通过引入值“0”来对应于与MxN变换T(176)中不存在的频率相关联的频率值。因此,可以使用零填充区域178(例如,其可以具有L形)。值得注意的是,零填充区域178包括多个区间(全零),它们被插入到块176以获得块182。这可以通过从T(从172变换)到T1(182)的变换V来获得。尽管T(176)的维度与块18的维度不符,但由于插入了零填充区域178,T1(182)的维度实际上与块18的维度相符。此外,零填充是通过插入较高频率的区间(其具有零值)而获得的,其结果类似于内插。
因此,在加法器42-1、42-2处,可以添加变换T1,其是45-1、45-2的版本。随后,可以执行逆变换T-1以获得空间域中的重构值60,以用于使图片10可视化。
编码器可以在数据流12中编码关于重新采样(以及针对大小与块18的大小不同的块的神经网络的使用)的信息,使得解码器具有其知识。
讨论
令B1(例如,18)是具有M1行和N1列的块,并假定M1≥M并且N1≥N。令B1,rec为B1的邻域(例如,与之相邻的模板60),并假定区域Brec(例如130)被视为B1,rec的子集。令im1(例如138)是B1上的图像,并令rec1(例如B1,rec上的系数)是B1,rec上已经重构的图像。以上解决方案基于预定义的下采样操作D(例如,134、166),该操作将B1,rec上的图像映射到B1上的图像。例如,如果M1=2M,N1=2N,如果Brec由B上方的K行和B左侧的L列以及B的左上侧的大小为K×L的角组成,并且如果B1,rec由B1上方的2K行和B左侧的2L列以及B1左上侧的大小为2K×2L的角组成,则D可以是应用平滑滤波器的操作,然后是在每个方向上进行因子为2的下采样操作。因此,D(rec1)可以被视为Brec上的重构图像。使用上述基于神经网络的帧内预测模式,可以从D(rec1)中形成预测信号pred(45-1),其是B上的图像。
现在我们区分两种情况:首先,我们假设在B上,基于神经网络的帧内预测可以预测到样本(空间)域,如图2、图4和图13a所示。令U(140)是固定的上采样滤波器,它将B上的图像(例如,138)映射到B1上的图像(例如,142)。例如,如果M1=2M并且N1=2N,则U可以是双线性内插运算。然后,可以形成U(pred)以获得B1上的图像(例如,45-1),我们将其视为im1(例如,10)的预测信号。
其次,我们假设,如图11-1、图11-2和图13b所示,在B上,预测信号pred(例如,45-2)将被视为相对于B上的图像变换T的变换域中的预测信号,逆变换为S。令T1是B1上的图像变换,逆变换为S1。假定给出了预定义的映射V,该映射V将图像从T的变换域映射到T1的变换域。例如,如果T是逆变换为S的M×N个块的离散余弦变换,T1是逆变换为S1的M1×N1的离散余弦变换,则可以通过零填充和缩放(参见,例如178)将B上的变换系数的块映射到B1上的变换系数的块。这意味着如果频率空间中的位置大于分别水平、竖直方向中的M或N,则将B1上的所有变换系数都设置为零,并且将B上适当缩放的变换系数复制到B1上的其余M*N个变换系数。然后,我们可以形成V(pred),以获得T1的变换域的元素,其将被视为T1(im1)的预测信号。现在可以如上所述对信号V(pred)进行进一步处理。
如上面参照图1-10所解释的,我们还描述了可以如何使用基于神经网络的操作通过生成给定块B上的几个帧内预测模式之间的条件概率分布来对这些模式进行排名,以及该排名可以如何用于发信号通知将在当前块处应用哪种帧内预测模式。对神经网络(其以与实际预测模式相同的方式生成后者的排名)的输入使用下采样操作(例如,166)针对预测模式到刚刚描述的较大块B1的扩展产生排名,并且因此可用于发信号通知要在块B1上使用哪种扩展的模式。在给定的块B1上,来自较小块B的基于神经网络的帧内预测模式是否将用于生成预测信号可以被预先定义,也可以在基础视频编解码器中作为辅助信息来发信号通知。
其他示例
一般而言,上述解码器可以是和/或包括上述编码器,反之亦然。例如,编码器14可以是或包括解码器54(反之亦然),编码器14-1可以是解码器54-2(反之亦然),等等。此外,编码器14或14-1还可以被理解为自身包含解码器,因为量化的预测残差信号34形成被解码以获得预测信号24或24-1的流。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对对应框或项或者对应装置的特征的描述。可以由(或使用)硬件设备(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些示例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
本发明的编码数据流可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的示例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些示例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。
通常,本发明的示例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他示例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明的方法的示例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一示例是包括、其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一示例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)来传送。
另一示例包括处理设备,例如,计算机或可编程逻辑器件,所述处理设备被配置为或适于执行本文所述的方法之一。
另一示例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一示例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些示例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些示例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。
上述示例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文示例的描述和解释所给出的具体细节来限制。

Claims (39)

1.一种用于从数据流(12)中逐块解码图片(10)的装置(54-2),所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过将与所述图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号,其中,针对与所述预定大小不同的当前块(18),所述装置被配置为:
重新采样(134、166)与所述当前块(18)相邻的样本的第二模板(60),以与所述第一模板(130、170)相符,从而获得重新采样的模板(130、170);
将样本的所述重新采样的模板(130、170)应用(138a、170a、44-1、44-2)到所述神经网络(80)上,以获得初步帧内预测信号(138、172、176);以及
重新采样(140、180)所述初步帧内预测信号(138、172、176),以与所述当前块(18)相符,从而获得(140)所述当前块(18)的所述帧内预测信号(142、24-1、24-2)。
2.根据权利要求1所述的装置,被配置为:通过下采样(D)所述第二模板(60)来进行重新采样(134、166),以获得所述第一模板(130、170)。
3.根据权利要求1或2所述的装置,被配置为:通过上采样(U、140)所述初步帧内预测信号(138、172)来重新采样(140)所述初步帧内预测信号(138、172、176)。
4.根据前述权利要求中任一项所述的装置,被配置为:
将所述初步帧内预测信号(138、176)从空间域变换到变换域;以及
在所述变换域中重新采样所述初步帧内预测信号(176)。
5.根据权利要求4所述的装置,被配置为:
通过缩放所述初步帧内预测信号(176)的系数,来重新采样(140)变换域初步帧内预测信号(176)。
6.根据权利要求4或5所述的装置,被配置为:
通过以下步骤来重新采样(140)变换域初步帧内预测信号(176):
增加所述帧内预测信号(176)的维度以符合(182)所述当前块(18)的维度;以及
对所述初步帧内预测信号(176)的添加的系数中的系数进行零填充,所述添加的系数与较高频率的区间有关。
7.根据权利要求4-6中任一项所述的装置,被配置为:
组合(42-1、42-2)变换域初步帧内预测信号(176)与预测残差信号(34)的经去量化的版本(39-1、39-2)。
8.根据前述权利要求中任一项所述的装置,被配置为:
在所述空间域中重新采样(140)所述初步帧内预测信号(138)。
9.根据权利要求8所述的装置,被配置为:
通过执行双线性内插来重新采样(140)所述初步帧内预测信号(138)。
10.根据前述权利要求中任一项所述的装置,还被配置为:
在数据字段中编码与重新采样和/或针对不同维度使用神经网络有关的信息。
11.根据前述权利要求中任一项所述的装置,所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过以下操作来确定所述图片的当前块(18)的帧内预测信号(24-1、24-2):
将所述当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对所述当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
12.一种用于从数据流(12)中逐块解码图片(10)的装置,所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过以下操作来确定所述图片的当前块(18)的帧内预测信号(24-1、24-2):
将所述当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对所述当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
13.根据权利要求12所述的装置,还被配置作为根据权利要求1-11中任一项所述的装置。
14.根据前述权利要求中任一项所述的装置,被配置为:
逆变换(40-1、40-2)所述预测(45-1、45-2),以获得重构信号(24-1、24-2)。
15.根据前述权利要求中任一项所述的装置,被配置为:
使用可变长度码从所述数据流(12)中解码索引(70b);以及
使用所述索引(70b)执行所述选择。
16.根据前述权利要求中任一项所述的装置,被配置为:
确定帧内预测模式集合(72)的排名;以及然后,
重新采样所述第二模板(60)。
17.一种用于将图片(10)逐块编码到数据流(12)中的装置(14-1),所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过将与所述图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号,其中,针对与预定大小不同的当前块(18),所述装置被配置为:
重新采样(134、166)与所述当前块(18)相邻的样本的第二模板(60),以与所述第一模板(130、170)相符,从而获得重新采样的模板(130、170);
将样本的所述重新采样的模板(130、170)应用(138a、170a、44-1、44-2)到所述神经网络(80)上,以获得初步帧内预测信号(138、172、176);以及
重新采样(140、180)所述初步帧内预测信号(138、172、176),以与所述当前块(18)相符,从而获得(140)所述当前块(18)的所述帧内预测信号(142、24-1、24-2)。
18.根据权利要求17所述的装置,被配置为通过下采样(D)所述第二模板(60)来进行重新采样(134、166),以获得所述第一模板(130、170)。
19.根据权利要求17或18所述的装置,被配置为通过上采样(U、140)所述初步帧内预测信号(138、172)来重新采样(140)所述初步帧内预测信号(138、172、176)。
20.根据前述权利要求中任一项所述的装置,被配置为:
将所述初步帧内预测信号(138、176)从空间域变换到变换域;以及
在所述变换域中重新采样所述初步帧内预测信号(176)。
21.根据权利要求20所述的装置,被配置为:
通过缩放所述初步帧内预测信号(176)的系数,来重新采样(140)变换域初步帧内预测信号(176)。
22.根据权利要求20或21所述的装置,被配置为:
通过以下步骤来重新采样(140)变换域初步帧内预测信号(176):
增加所述帧内预测信号(176)的维度以符合(182)所述当前块(18)的维度;以及
对所述初步帧内预测信号(176)的添加的系数中的系数进行零填充,所述添加的系数与较高频率的区间有关。
23.根据权利要求20至22中任一项所述的装置,被配置为:
组合(42-1、42-2)变换域初步帧内预测信号(176)与预测残差信号(34)的经去量化的版本(39-1、39-2)。
24.根据权利要求17至23中任一项所述的装置,被配置为:
在所述空间域中重新采样(140)所述初步帧内预测信号(138)。
25.根据权利要求24所述的装置,被配置为:
通过执行双线性内插来重新采样(140)所述初步帧内预测信号(138)。
26.根据权利要求17至23中任一项所述的装置,还被配置为:
在数据字段中编码与重新采样和/或针对不同维度使用神经网络有关的信息。
27.根据权利要求17-26中任一项所述的装置,所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过以下操作来确定所述图片的当前块(18)的帧内预测信号(24-1、24-2):
将所述当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对所述当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
28.一种用于从数据流(12)中逐块解码图片(10)和/或用于将图片(10)逐块编码到数据流(12)中的装置,所述装置支持至少一种帧内预测模式,根据所述帧内预测模式,通过以下操作来确定所述图片的当前块(18)的帧内预测信号(24-1、24-2):
将所述当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对所述当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
29.根据权利要求28所述的装置,还被配置作为根据权利要求17-28中任一项所述的装置。
30.根据权利要求17-29中任一项所述的装置,被配置为:
逆变换(40-1、40-2)所述预测(45-1、45-2),以获得重构信号(24-1、24-2)。
31.根据权利要求17-30中任一项所述的装置,被配置为:
使用可变长度码从所述数据流(12)中解码索引(70b);以及
使用所述索引(70b)执行所述选择。
32.根据权利要求17-31中任一项所述的装置,被配置为:
确定帧内预测模式集合(72)的排名;以及然后,
重新采样所述第二模板(60)。
33.一种用于从数据流(12)逐块解码图片(10)的方法,所述方法支持至少一种帧内预测模式,根据所述帧内预测模式,通过将与所述图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号,所述方法包括:
重新采样(134、166)与所述当前块(18)相邻的样本的第二模板(60),以便与第一模板(130、170)相符,以获得重新采样的模板(130、170),
将样本的所述重新采样的模板(60)应用(138a、170a、44-1、44-2)到神经网络(80)上,以获得初步帧内预测信号(138、172、176),以及
重新采样(140)所述初步帧内预测信号(138、172、176),以与所述当前块(18)相符,从而获得(140)所述当前块(18)的所述帧内预测信号(142、24-1、24-2)。
34.一种用于将图片(10)逐块编码到数据流(12)中的方法,所述方法支持至少一种帧内预测模式,根据所述帧内预测模式,通过将与所述图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号,所述方法包括:
重新采样(134、166)与所述当前块(18)相邻的样本的第二模板(60),以便与第一模板(130、170)相符,以获得重新采样的模板(130、170),
将样本的所述重新采样的模板(60)应用(138a、170a、44-1、44-2)到神经网络(80)上,以获得初步帧内预测信号(138、172、176),以及
重新采样(140)所述初步帧内预测信号(138、172、176),以与所述当前块(18)相符,从而获得(140)所述当前块(18)的所述帧内预测信号(142、24-1、24-2)。
35.一种从数据流(12)中逐块解码图片(10)的方法,包括:
将当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
36.一种用于将图片(10)逐块编码到数据流(12)中的方法,包括:
将当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
37.一种包括指令的计算机可读存储介质,所述指令在由计算机执行时,使所述计算机执行根据权利要求33-36中任一项所述的方法。
38.一种对图片(10)进行编码的并通过支持至少一种帧内预测模式的方法获得的数据流,根据所述帧内预测模式,通过将与所述图片的具有预定大小的块(136、172)相邻的样本的第一模板(130、170)应用到神经网络(80)上,来确定当前块的帧内预测信号,所述方法包括:
重新采样(134、166)与所述当前块(18)相邻的样本的第二模板(60),以便与第一模板(130、170)相符,以获得重新采样的模板(130、170),
将样本的所述重新采样的模板(60)应用(138a、170a、44-1、44-2)到神经网络(80)上,以获得初步帧内预测信号(138、172、176),以及
重新采样(140)所述初步帧内预测信号(138、172、176),以与所述当前块(18)相符,从而获得(140)所述当前块(18)的所述帧内预测信号(142、24-1、24-2)。
39.一种对图片(10)进行编码的并且通过包括以下操作的方法获得的数据流:
将当前块(18)的相邻样本的第一集合(60)应用到神经网络(80)上,以获得对当前块(18)的变换(34、39-1、39-2)的变换系数集合的预测(45-1、45-2)。
CN201980036297.8A 2018-03-29 2019-03-28 逐块图像编码的帧内预测模式概念 Pending CN112204963A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18165224 2018-03-29
EP18165224.9 2018-03-29
PCT/EP2019/057882 WO2019185808A1 (en) 2018-03-29 2019-03-28 Intra-prediction mode concept for block-wise picture coding

Publications (1)

Publication Number Publication Date
CN112204963A true CN112204963A (zh) 2021-01-08

Family

ID=61868352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980036297.8A Pending CN112204963A (zh) 2018-03-29 2019-03-28 逐块图像编码的帧内预测模式概念

Country Status (7)

Country Link
US (2) US11601672B2 (zh)
EP (1) EP3777141A1 (zh)
JP (2) JP7217288B2 (zh)
KR (2) KR20230057481A (zh)
CN (1) CN112204963A (zh)
TW (1) TWI763987B (zh)
WO (1) WO2019185808A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3562162A1 (en) * 2018-04-27 2019-10-30 InterDigital VC Holdings, Inc. Method and apparatus for video encoding and decoding based on neural network implementation of cabac
WO2020185022A1 (ko) 2019-03-12 2020-09-17 주식회사 엑스리스 영상 신호 부호화/복호화 방법 및 이를 위한 장치
WO2021069688A1 (en) * 2019-10-11 2021-04-15 Interdigital Vc Holdings France, Sas Deep intra predictor generating side information
CN115104301A (zh) * 2020-02-21 2022-09-23 交互数字Vc控股法国公司 用于视频编码或解码的基于神经网络的帧内预测
US11652994B2 (en) 2021-01-19 2023-05-16 Tencent America LLC Neural image compression with adaptive intra-prediction
US11595665B2 (en) * 2021-02-11 2023-02-28 Qualcomm Incorporated Upsampling reference pixels for intra-prediction in video coding
WO2022211657A1 (en) * 2021-04-01 2022-10-06 Huawei Technologies Co., Ltd. Configurable positions for auxiliary information input into a picture data processing neural network
WO2022216051A1 (ko) * 2021-04-08 2022-10-13 엘지전자 주식회사 영상 디코딩 방법 및 그 장치
WO2023165596A1 (en) * 2022-03-03 2023-09-07 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for visual data processing
WO2023200246A1 (ko) * 2022-04-12 2023-10-19 엘지전자 주식회사 영상 부호화/복호화 방법, 비트스트림을 전송하는 방법 및 비트스트림을 저장한 기록 매체
WO2023200237A1 (ko) * 2022-04-12 2023-10-19 엘지전자 주식회사 기하 분할된 블록에 대한 영상 부호화/복호화 방법, 비트스트림을 전송하는 방법 및 비트스트림을 저장한 기록 매체
WO2023200243A1 (ko) * 2022-04-12 2023-10-19 엘지전자 주식회사 Mvd 부호 예측에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장하는 기록 매체
WO2024058494A1 (ko) * 2022-09-13 2024-03-21 엘지전자 주식회사 예측 모델의 학습에 기반한 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101854551A (zh) * 2010-06-08 2010-10-06 浙江大学 帧内预测模式编解码方法及装置
US20110158314A1 (en) * 2009-12-30 2011-06-30 Je Chang Jeong Video Encoding Apparatus, Video Decoding Apparatus, and Video Decoding Method for Performing Intra-Prediction Based on Directionality of Neighboring Block
WO2013068564A1 (en) * 2011-11-11 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Effective wedgelet partition coding using spatial prediction
US20140105276A1 (en) * 2011-06-23 2014-04-17 JVC Kenwood Corporation Picture coding device, picture coding method, picture coding program, picture decoding device, picture decoding method, and picture decoding program
CN104378633A (zh) * 2011-10-17 2015-02-25 株式会社Kt 基于帧内预测的自适应变换方法及使用该方法的装置
CN105306932A (zh) * 2011-10-24 2016-02-03 英孚布瑞智有限私人贸易公司 用于图像解码的方法和装置
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
CN107148778A (zh) * 2014-10-31 2017-09-08 联发科技股份有限公司 用于视频编码的改进的定向帧内预测方法
WO2018021585A1 (ko) * 2016-07-26 2018-02-01 엘지전자 주식회사 영상 코딩 시스템에서 인트라 예측 방법 및 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007043651A (ja) * 2005-07-05 2007-02-15 Ntt Docomo Inc 動画像符号化装置、動画像符号化方法、動画像符号化プログラム、動画像復号装置、動画像復号方法及び動画像復号プログラム
WO2009028922A2 (en) 2007-09-02 2009-03-05 Lg Electronics Inc. A method and an apparatus for processing a video signal
KR20180030791A (ko) * 2015-07-20 2018-03-26 엘지전자 주식회사 비디오 코딩 시스템에서 인트라 예측 방법 및 장치
US10397569B2 (en) * 2016-06-03 2019-08-27 Mediatek Inc. Method and apparatus for template-based intra prediction in image and video coding
US20170374369A1 (en) * 2016-06-24 2017-12-28 Mediatek Inc. Methods and Apparatuses of Decoder Side Intra Mode Derivation
WO2018199051A1 (ja) 2017-04-25 2018-11-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、符号化方法および復号方法
EP3685585A1 (en) * 2017-09-20 2020-07-29 Vid Scale, Inc. Handling face discontinuities in 360-degree video coding
KR102454936B1 (ko) 2017-10-13 2022-10-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 블록 단위의 화상 코딩을 위한 인트라 예측 모드 개념
US11350107B2 (en) * 2017-11-16 2022-05-31 Electronics And Telecommunications Research Institute Image encoding/decoding method and device, and recording medium storing bitstream

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110158314A1 (en) * 2009-12-30 2011-06-30 Je Chang Jeong Video Encoding Apparatus, Video Decoding Apparatus, and Video Decoding Method for Performing Intra-Prediction Based on Directionality of Neighboring Block
CN101854551A (zh) * 2010-06-08 2010-10-06 浙江大学 帧内预测模式编解码方法及装置
US20140105276A1 (en) * 2011-06-23 2014-04-17 JVC Kenwood Corporation Picture coding device, picture coding method, picture coding program, picture decoding device, picture decoding method, and picture decoding program
CN104378633A (zh) * 2011-10-17 2015-02-25 株式会社Kt 基于帧内预测的自适应变换方法及使用该方法的装置
CN105306932A (zh) * 2011-10-24 2016-02-03 英孚布瑞智有限私人贸易公司 用于图像解码的方法和装置
WO2013068564A1 (en) * 2011-11-11 2013-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Effective wedgelet partition coding using spatial prediction
CN107148778A (zh) * 2014-10-31 2017-09-08 联发科技股份有限公司 用于视频编码的改进的定向帧内预测方法
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
WO2018021585A1 (ko) * 2016-07-26 2018-02-01 엘지전자 주식회사 영상 코딩 시스템에서 인트라 예측 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄辉;张雄伟;曹铁勇;: "基于区域最大概率准则的帧内预测模式编码算法", 电路与系统学报, no. 05, 15 October 2008 (2008-10-15) *

Also Published As

Publication number Publication date
JP2021519542A (ja) 2021-08-10
US20230254508A1 (en) 2023-08-10
US20210014531A1 (en) 2021-01-14
KR102524593B1 (ko) 2023-04-21
KR20230057481A (ko) 2023-04-28
TW201946455A (zh) 2019-12-01
US11601672B2 (en) 2023-03-07
JP2023052578A (ja) 2023-04-11
JP7217288B2 (ja) 2023-02-02
WO2019185808A1 (en) 2019-10-03
EP3777141A1 (en) 2021-02-17
TWI763987B (zh) 2022-05-11
KR20200128586A (ko) 2020-11-13

Similar Documents

Publication Publication Date Title
CN112204963A (zh) 逐块图像编码的帧内预测模式概念
CN111466115B (zh) 用于逐块图片编码的帧内预测模式概念
US20200068215A1 (en) Method and apparatus for encoding/decoding images using adaptive motion vector resolution
WO2008149327A2 (en) Method and apparatus for motion-compensated video signal prediction
US20210084313A1 (en) Refined block-based predictive coding and decoding of a picture
US20230353788A1 (en) Block-based predictive coding and decoding of a picture
US20240137500A1 (en) Intra-prediction mode concept for block-wise picture coding
JP7479471B2 (ja) モード-グローバル設定によるマトリックスベースのイントラ予測

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination