CN111466115A

CN111466115A - 用于逐块图片编码的帧内预测模式概念

Info

Publication number: CN111466115A
Application number: CN201880079108.0A
Authority: CN
Inventors: 乔纳森·普法夫; 菲利普·赫勒; 多米尼克·马尼里; 托马斯·威甘德; 沃耶西·萨梅克; 史蒂芬·卡滕斯塔德勒; 海科·施瓦茨; 德特勒夫·马尔佩; 米沙·斯科曼; 马丁·温肯
Original assignee: German Institute Of Fraunhofer Debt Angevant Academic Research Institute
Current assignee: German Institute Of Fraunhofer Debt Angevant Academic Research Institute
Priority date: 2017-10-13
Filing date: 2018-10-10
Publication date: 2020-07-28
Anticipated expiration: 2038-10-10
Also published as: TWI794623B; US20200244955A1; TWI702824B; CN117768643A; TW201924331A; US11363259B2; CN111466115B; TW202119818A; KR20200062322A; EP3695599A1; WO2019072921A1; JP7210568B2; KR102454936B1; JP2020537445A; US11889066B2; US20220321881A1

Abstract

根据第一方面，通过使逐块图片编解码支持帧内预测模式的集合来实现改善的压缩效率，根据该帧内预测模式的集合，通过将图片的当前块的相邻样本的集合应用于神经网络，确定当前块的帧内预测信号。本申请的第二方面在于，在使用基于神经网络的帧内预测模式之外或作为替代，通过对帧内预测模式的集合中的每个帧内预测模式使用专用于确定排名或概率值的神经网络可以使模式选择更有效，这通过将相邻样本的集合应用于该神经网络来进行，其中，排名或概率值用于从包括该帧内预测模式的集合在内的或与该帧内预测模式的集合一致的多个帧内预测模式中选择一个帧内预测模式。

Description

用于逐块图片编码的帧内预测模式概念

技术领域

本申请涉及用于逐块图片编码的改进的帧内预测模式概念，该逐块图片编码例如可用于视频编解码(例如HEVC或HEVC的任何后续)。

背景技术

帧内预测模式广泛用于图片和视频编码中。在视频编码中，帧内预测模式与诸如帧间预测模式之类的其他预测模式(诸如运动补偿的预测模式)相竞争。在帧内预测模式中，基于相邻样本来预测当前块，即，就提及编码器侧而言已被编码的样本，并且就提及解码器侧而言已被解码的样本。坦白地说，将相邻样本值外推到当前块中，以形成当前块的预测信号，并在数据流中传输针对当前块的预测残差。预测信号越好，预测残差就越低，因此对预测残差进行编码所需的比特数就越少。

为了更有效，应当考虑几个方面，以便形成用于在逐块图片编码环境中的帧内预测的有效帧。例如，编解码支持的帧内预测模式的数量越大，则为了将选择发信号通知给解码器，辅助信息率消耗就越大。另一方面，支持的帧内预测模式的集合应该能够提供良好的预测信号，即导致较低的预测残差的预测信号。

发明内容

本申请意在提供一种帧内预测模式概念，如果使用改进的帧内预测模式概念，则允许对逐块图片编解码进行更有效的压缩。

该目的通过本申请的独立权利要求的主题来实现。

根据本申请的第一方面，通过使逐块图片编解码支持帧内预测模式的集合来实现改善的压缩效率，根据该帧内预测模式的集合，通过将图片的当前块的相邻样本的集合应用于神经网络，确定针对当前块的帧内预测信号。该集合可以形成完全支持的多个帧内预测模式或者仅形成多个帧内预测模式的适当的子集。在所支持的多个帧内预测模式中，针对当前块选择一个帧内预测模式，并且使用一个帧内预测模式(即，所选择的一个帧内预测模式)来预测当前块。数据流可以被提供有用于当前块的索引，该索引指示所选择的帧内预测模式。通过为逐块图片编解码提供一个以上的基于神经网络的帧内预测模式，针对当前块可以在这些基于神经网络的帧内预测模式中进行选择，能够设计这些基于神经网络的帧内预测模式，以便针对某个块找到具有低预测误差的预测信号的可能性增加。另外，可以以这样的方式执行神经网络帧内预测模式设计：如果使用用于帧内预测模式选择的辅助信息，则辅助信息开销可以保持较低。这通过以下事实是可行的：帧内预测模式设计自由地以在帧内预测图片块之间互不相同的选择频率的方式生成基于神经网络的帧内预测模式。换句话说，使用多个基于神经网络的帧内预测模式使得能够以如下方式设计这些模式：这些模式的统计的选择频率适合于选择信号化，使得在熵编码方面，与在启发式设计的帧内预测模式的集合中进行选择相比，辅助信息开销降低。例如，可以使用可变长度码或使用熵编码来对指向所选择的帧内预测模式的索引进行编码，并且可以将基于神经网络的帧内预测模式设计为使得这些模式的选择频率或频率分布适于可变长度码，或者这些模式的频率分布适于熵码的基础样本统计，从而减小或最小化用于在帧内预测模式中进行模式选择的平均信号化开销。

本申请的第二方面在于，在使用基于神经网络的帧内预测模式之外或作为替代，通过使用专用于确定帧内预测模式的集合中的每个帧内预测模式的排名或概率值的神经网络可以使模式选择更有效，这通过将相邻样本的集合应用于该神经网络来进行，其中，排名或概率值用于从包括该帧内预测模式的集合在内的或与该帧内预测模式的集合一致的多个帧内预测模式中选择一个帧内预测模式。用于在帧内预测模式之间进行选择的辅助信息开销可以被完全省去，或者可以通过使用神经网络而变得更有效。

就涉及上述神经网络的设计而言，本申请提供了许多用于适当确定其参数的实施例。

附图说明

本申请的有利实现是从属权利要求的主题。以下关于附图描述本申请的优选实施例，在附图中：

图1示出了示意作为其中可实现本申请的实施例的一般示例的用于将图片编码为数据流的编码器的示意性框图；

图2示出了根据图1的编码器的更具体示例的框图；

图3示出了示意适合于图1的编码器且用作其中可实现本申请的实施例的解码器的示例的解码器的示意性框图；

图4示出了适合于图2的编码器的图3的解码器的更具体示例的框图；

图5示出了根据本申请的实施例的编码器和解码器中关于使用帧内预测处理块的操作模式的示意图；

图6示出了示意根据本申请的实施例的解码器的示意性框图，其包括几种基于神经网络的帧内预测模式；

图7a示出了示意根据实施例的编码器和解码器的操作模式的示意图，该编码器和该解码器支持基于神经网络的帧内预测模式以及这些模式的基于神经网络的排序，其中将基于神经网络的帧内预测模式的有序列表的索引、以及指示要使用的帧内预测模式是否是基于神经网络的帧内预测模式的集合的成员的斑点发送到数据流内；不用说，可以使用可变长度编码来对索引进行编码，以便利用确定90所确定的不同频率；

图7b示出了与图7a不同的示意图，不同在于不使用斑点信号化；

图7c示出了与图7b不同的示意图，不同在于模式排序不使用神经网络来控制；

图7d示出了与图7a不同的示意图，不同在于模式信号化中的神经网络辅助用于控制熵编码/解码中的概率分布估计，而不是用于模式排序；

图8示出了根据实施例的用于设计基于神经网络的帧内预测模式的集合的装置；

图9a示出了示意根据实施例的编码器和解码器的操作模式的示意图，根据该实施例，使用神经网络来排序支持的帧内预测模式，而不管是否基于神经网络；

图9b示出了与图9a不同的示意图，不同在于神经网络库用于控制用于熵解码/编码支持的帧内预测模式的集合的索引的概率分布估计；

图10示出了根据实施例的用于设计神经网络的装置，神经网络用于在用于基于块的图片编码的帧内预测模式的集合之中进行辅助和选择。

具体实施方式

在下文中，描述了在使用帧内预测时有助于实现更有效压缩的各种实施例。一些实施例通过使用作为基于神经网络的帧内预测模式的集合来实现压缩效率的提高。例如，可以将后者添加到启发式设计的其他帧内预测模式中，或者可以排他地提供后者。其他实施例使用神经网络以便在多个帧内预测模式中执行选择。甚至其他实施例也利用了刚讨论的两个特别方案。

为了简化对本申请的以下实施例的理解，描述以介绍适合于本申请的可行的编码器和解码器开始，本申请的随后概述的实施例可以构建在该编码器和解码器中。图1示出了用于将图片10逐块编码为数据流12的装置。该装置使用附图标记14表示，并且可以是静止图片编码器或视频编码器。换句话说，当编码器14被配置为将包括图片10的视频16编码为数据流12时，或者当编码器14可以将图片10专门地编码为数据流12时，图片10可以是视频16中的当前图片。

如所提到的，编码器14以逐块方式或以基于块的方式执行编码。为此，编码器14将图片10细分为块，以块为单位，编码器14将图片10编码为数据流12。以下更详细地阐述将图片10可行地细分为块18的示例。通常，细分可以最终得到具有以行和列布置的块的阵列的恒定大小的块18，或者最终得到具有不同块大小的块18，例如通过使用分层多树细分并使多树细分开始于图片10的整个图片区域或开始于将图片10预分区为树块的阵列，其中，这些示例不应被视为排除将图片10细分为块18的其他可能方式。

此外，编码器14是被配置为将图片10预测编码为数据流12的预测编码器。针对某个块18，这意味着编码器14确定块18的预测信号，并将预测残差(即，预测信号偏离块18中的实际图片内容的预测误差)编码到数据流12中。

编码器14可以支持不同的预测模式，以便导出特定块18的预测信号。在以下实施例中重要的预测模式是帧内预测模式，根据帧内预测模式，块18的内部根据图片10的相邻的已编码样本在空间上被预测。图片10到数据流12的编码以及相应的解码过程可以基于在块18之间定义的特定编码顺序20。例如，编码顺序20可以以光栅扫描顺序诸如从顶到底逐行且从左至右遍历每一行来遍历块18。在基于分层多树的细分的情况下，可以在每个分层水平内应用光栅扫描排序，其中，可以应用深度优先遍历顺序，即，某个分层水平的块内的叶注释可以在根据编码顺序20具有相同父块的同一分层水平的块之前。取决于编码顺序20，块18的相邻的已经编码的样本通常可以位于块18的一侧或多侧。在本文介绍的示例的情况下，例如，块18的相邻的已编码的样本位于块18的顶部和左侧。

帧内预测模式可以不是编码器14支持的唯一模式。例如，在编码器14是视频编码器的情况下，编码器14还可以支持帧内预测模式，根据帧内预测模式，根据视频16的先前编码图片来临时预测块18。这样的帧内预测模式可以是运动补偿的预测模式，根据该运动补偿的预测模式，针对这样的块18发信号通知运动矢量，运动矢量指示要从其导出块18的预测信号作为副本的部分的相对空间偏移。附加地或替代地，其他非帧内预测模式也可以是可用的，例如在编码器14是多视图编码器的情况下的视图间预测模式、或根据其照原样(即没有任何预测)对块18的内部进行编码的非预测模式。

在开始将本申请的描述集中于帧内预测模式之前，针对可行的基于块的编码器(即针对编码器14的可行的实现)的更具体的实施例，如关于图2所描述的，然后介绍两个对应的分别适合于图1和图2的解码器的实施例。

图2示出了图1的编码器14的可行的实现，即，其中编码器被配置为使用变换编码来对预测残差进行编码，但是这只是示例，并且本申请不限于这种预测残差编码。根据图2，编码器14包括减法器22，该减法器22被配置为从入站(inbound)信号即图片10中、或以块为基础从当前块18中，减去相应的预测信号24，以便获得预测残差信号26，该预测残差信号26然后由预测残差编码器28编码到数据流12中。预测残差编码器28由有损编码级28a和无损编码级28b组成。有损级28a接收预测残差信号26，并且包括量化器30，该量化器30量化预测残差信号26的样本。如上所述，本示例使用对预测残差信号26的变换编码，因此有损编码级28a包括连接在减法器22与量化器30之间的变换级32，以便利用量化器30的量化来变换这种频谱分解的预测残差26，从而在呈现残差信号26之处存在变换系数。该变换可以是DCT、DST、FFT、Hadamard变换等。然后，无损编码级28b对经变换和量化的预测残差信号34进行无损编码，该无损编码级是将量化的预测残差信号34熵编码到数据流12中的熵编码器。编码器14还包括连接到量化器30的输出的预测残差信号重建级36，以便以在解码器处也可行的方式从经变换和量化的预测残差信号34重建预测残差信号，即，将编码损失是量化器30考虑在内。为此，预测残差重建级36包括：去量化器38，其执行量化器30的量化的逆；随后是逆变换器40，其执行相对于变换器32所执行的变换的逆变换，例如频谱分解的逆，例如上述特定变换示例中任一个的逆。编码器14包括：加法器42，其将逆变换器40输出的重建的预测残差信号与预测信号24相加，以便输出重建的信号，即重建示例。该输出被馈送到编码器14的预测器44，该预测器44然后基于该输出来确定预测信号24。预测器44支持以上已经关于图1讨论的所有预测模式。图2还示出了在编码器14是视频编码器的情况下，编码器14还可以包括环路内滤波器46，对完全重建的图片进行滤波，该完全重建的图片在被滤波之后形成预测器44的相对于帧间预测块的参考图片。

如上所述，编码器14基于块进行操作。对于随后的描述，关注的块基础是将图片10细分成以下块：针对块，分别从预测器44或编码器14支持的帧内预测模式的集合或多个帧内预测模式中来选择帧内预测模式，并且所选帧内预测模式被单独执行。然而，也可以存在将图片10细分成的其他种类的块。例如，图片10是帧间编码还是帧内编码的上述判定可以以粒度或以不同于块18的块为单位来进行。例如，帧间/帧内模式判定可以在将图片10细分成的编码块的水平上执行，并且将每个编码块细分成预测块。具有已确定对其使用帧内预测的编码块的预测块各自被细分为帧内预测模式判定。为此，针对这些预测块中的每个预测模式，判定针对相应预测块应该使用哪种支持的帧内预测模式。这些预测块将形成在此感兴趣的块18。与帧间预测相关联的编码块内的预测块将被预测器44不同地对待。通过判定运动矢量并从参考图片中由运动矢量指向的位置复制该块的预测信号，可以根据参考图片对它们进行帧间预测。另一块细分涉及细分为变换块，以该变换块为单位来进行变换器32和逆变换器40的变换。变换的块可以例如是进一步细分编码块的结果。自然地，本文阐述的示例不应视为限制性的，并且也存在其他示例。仅出于完整性的目的，应注意的是，细分为编码块可以例如使用多树细分，并且预测块和/或变换块还可以通过使用多树细分来进一步细分编码块而获得。

在图3中示出了适合于图1的编码器14的用于逐块解码的解码器或装置。该解码器54执行与编码器14相反的操作，即，它以逐块方式从数据流12解码图片10，并且为此支持多个帧内预测模式。上面关于图1讨论的所有其他概率对于解码器54也是有效的。为此，解码器54可以是静止图片解码器或视频解码器，并且解码器54也支持所有的预测模式和预测概率。编码器14与解码器54之间的区别主要在于以下事实：编码器14根据一些优化建议来选取或选择编码判定，例如以便最小化可以取决于码率和/或编码失真的一些成本函数。这些编码选项或编码参数之一可以涉及在可用或支持的帧内预测模式之中选择要用于当前块18的帧内预测模式。然后，可以由编码器14针对数据流12内的当前块18发信号通知所选的帧内预测模式，其中解码器54针对块18使用数据流12中的该信号化重新进行选择。同样，将图片10细分为块18可以在编码器14内进行优化，并且对应的细分信息可以在数据流12内传送，解码器54基于细分信息来恢复图片10到块18的细分。综上所述，解码器54可以是在块基础上操作的预测解码器，并且除了帧内预测模式之外，解码器54还可以支持其他预测模式，例如在例如解码器54是视频解码器的情况下的帧间预测模式。在解码中，解码器54也可以使用关于图1讨论的编码顺序20，并且由于在编码器14和解码器54两者处都遵守该编码顺序20，因此在编码器14和解码器54两者处相同的相邻样本可用于当前块18。因此，为了避免不必要的重复，编码器14的操作模式的描述也应适用于解码器54，只要涉及将图片10细分为块，例如，只要涉及预测，以及只要涉及预测残差的编码。差异在于以下事实：编码器14通过优化来选取一些编码选项或编码参数和信号，并在数据流12内发信号通知编码参数或在数据流12中插入编码参数，然后解码器54从数据流12中导出编码参数，以重新进行预测、细分等。

图4示出了图3的解码器54的一种可行的实现，即，适合于图2所示的图1的编码器14的实现。由于图4的编码器54的许多元件与图2的相应编码器中出现的元件相同，因此在图4中使用带有撇号的相同附图标记来指示这些元件。特别地，加法器42′、可选的环路内滤波器46′和预测器44′以与图2的编码器中相同的方式连接到预测环路中。施加到加法器42′的重建的(即经去量化和重新变换的)预测残差信号是由熵解码器56的序列导出的，该熵解码器56对熵编码器28b的熵编码求逆，随后是由去量化器38′和逆变换器40′组成的残差信号重建级36′进行操作，就像在编码方面的情况一样。解码器的输出是图10的重建。图片10的重建可以直接在加法器42′的输出处获得，或者替代地在环路内滤波器46′的输出处获得。可以在解码器的输出处布置一些后置滤波器，以使图片10的重建经过一些后置滤波，以提高图片质量，但是此选项未在图4中描绘。

再次，关于图4，以上关于图2提出的描述对于图4也将是有效的，除了仅编码器执行关于编码选项的优化任务和相关联的判定之外。然而，关于块细分、预测、去量化和重新变换的所有描述对于图4的解码器54也是有效的。

在继续描述本申请的可行实施例之前，应针对以上示例进行一些说明。尽管上面没有明确提及，但是很明显，块18可以具有任何形状。例如，它可以是矩形或方形形状。此外，尽管以上对编码器14和解码器54的操作模式的描述经常提到“当前块”18，但是显然，编码器14和解码器54对于要为其选择帧内预测模式的每个块相应地起作用。如上所述，也可以存在其他块，但是以下描述集中于图片10所细分成的那些块18，针对块18将选择帧内预测模式。

为了总结针对其选择帧内预测模式的特定块18的情况，将参考图5。图5示出了当前块18，即当前要被编码或解码的块。图5示出了相邻样本62的集合60，即与块18空间相邻的样本62。块18内的样本64将被预测。因此，要导出的预测信号是针对块18内的每个样本64的预测。如上面已经讨论的，针对每个块18有多个66预测模式可用，并且如果要对块18进行帧内预测，则这多个66模式仅包括帧间预测模式。在编码器和解码器侧执行选择68，以便在多个66之中确定帧内预测模式之一，以基于相邻样本集合60来预测71块18的预测信号。以下进一步描述的实施例在可用的帧内预测模式66方面有所不同，并且关于选择68的操作模式建议例如关于块18相对于选择68在数据流12中是否设置辅助信息。然而，这些实施例的描述从提供数学细节的具体描述开始。根据该初始实施例，对将要进行帧内预测的某个块18的选择与对应的辅助信息信号化70和数据流相关联，并且多个66帧内预测模式包括基于神经网络的帧内预测模式的集合72、以及启发式设计的另一帧内预测模式的集合74。模式74的帧内预测模式之一例如可以是DC预测模式，根据DC预测模式，基于相邻样本集合60确定某个平均值，并且将该平均值分配给块18内的所有样本64。附加地或替代地，集合74可以包括帧间预测模式，其可以被称为角度帧间预测模式，根据该角度帧间预测模式，相邻样本集合60的样本值沿着特定帧内预测方向被复制到块18中，其中该帧内预测方向在这种角度帧内预测模式之间是不同的。除了可选地存在与多个66帧内预测模式之中的选择68有关的辅助信息70之外，图5还示出了数据流12包括预测残差被编码到其中的部分76，如上所述，该编码可以可选地涉及在变换域中利用量化进行变换编码。

特别地，为了简化对本申请的特定实施例的以下描述的理解，图6示出了针对编码器和解码器处的帧内预测块的一般操作模式。图6示出了块18、以及基于其执行帧内预测的相邻样本集合60。应当注意，就基数而言，该集合60可以在多个66帧内预测模式中的帧内预测模式之间变化，该基数即为根据用于确定块18的预测信号的相应帧内预测模式实际使用的集合60的样本数量。然而，为了便于理解，这未在图6中示出。图6示出了，针对集合72的每个基于神经网络的帧内预测模式，编码器和解码器具有一个神经网络80₀至80_KB-1。将集合60应用于相应的神经网络，以便导出集合72中对应的帧内预测模式。除此之外，图6相当代表性地示出了一个块82，该块82基于输入(即相邻样本的集合60)来提供集合74的一个或多个帧内预测模式的一个或多个预测信号，例如，DC模式预测信号和/或角度帧内预测模式预测信号。下面的描述将示出如何可以有利地确定神经网络80_i的参数，其中i＝0...K_B-1。在下文中阐述的特定实施例还为编码器和解码器提供另一神经网络84，该另一神经网络84专用于基于相邻样本的集合86为集合72内的每个基于神经网络的帧内预测模式提供概率值，该集合86可以与集合60一致或不一致。因此，当神经网络84有助于呈现辅助信息70以使模式选择更有效时，提供了概率值。例如，在以下描述的实施例中，假设可变长度码用于指向帧内预测模式之一，并且至少就涉及集合72而言，由神经网络84提供的概率值使得能够将辅助信息70中的可变长度码用作帧内预测模式的有序列表的索引，集合72内的基于神经网络的帧内预测模式根据神经网络84所输出的概率值进行排序，从而优化或降低辅助信息70的码率。为此，如图6所示，取决于由另一神经网络84提供的概率值以及数据流12内的辅助信息70，有效地执行模式选择68。

1.训练执行帧内预测的神经网络的参数的算法

假设

是视频帧的块，即，块18。假设B具有M个像素。针对固定的颜色分量，令im为关于B的视频信号的内容。将im视为

的元素。假设存在B的邻域

具有L个像素，并且关于其已经重建的图像

是可用的，即样本集合60和86，尽管替代地它们可以不同。帧内预测函数是指函数

将F(rec)视为im的预测器。

接下来描述的是一种算法，该算法通过数据驱动的优化方法来设计可以在典型的混合视频编码标准中出现的几个块B的帧内预测函数(即集合72)。为了实现该目标，考虑了以下主要设计特征：

1.在执行的优化算法中，希望使用成本函数的很好的近似值，特别是其涉及可以预期花费在发信号通知预测残差上的比特数。

2.希望联合地训练几个帧内预测，以便能够处理不同的信号特征。

3.当训练帧内预测时，必须考虑发信号通知要使用哪个帧内模式所需的比特数。

4.要保留已定义的帧内预测的集合，例如HEVC帧内预测，并将本预测训练为互补预测。

5.典型的混合视频编码标准通常支持几种块形状，可以将给定的块B划分为这些块形状。

在接下来的四节中，可以描述如何处理这些要求中的每一个。更准确地，在第1.1节中，将描述如何处理第一项。在第1.2节中，描述了如何处理项2至3。在第1.4节中，描述了如何考虑项4。最后，在第1.5节中，描述了如何处理最后一项。

1.1训练损失函数的算法，该函数近似视频编解码的速率函数

确定视频编解码中使用的未知参数的数据驱动方法通常被设置为一种优化算法，该优化算法试图针对给定的训练示例集合来最小化预定义的损失函数。通常，为了使数值优化算法在实践中起作用，后一损失函数应满足一些平滑度要求。

另一方面，像HEVC这样的视频编码器在它做出判定时会最小化速率失真成本D+λ·R时是最佳的。此处，D是解码后的视频信号的重建误差，并且R是速率，即对视频信号进行编码所需的比特数。此外，

是取决于所选的量化参数的拉格朗日参数。

真正的函数D+λ·R通常非常复杂，并且不能由可以使用其给出数据驱动的优化算法的闭式表达式给定。因此，通过分段平滑函数来近似整个函数D+λ·R或至少速率函数R。

更精确地，像以前一样，令B为视频帧10的给定块1，并且令im为固定颜色分量中的B上的相应视频信号。假设B具有M个像素。然后，针对预测候选

考虑预测残差

针对给定的量化参数和给定的变换，令R(res)为真实视频编码器发信号通知res的量化变换所需的速率。此外，令D(res)为res的去量化和逆变换引起的重建误差。然后，希望确定分段平滑的函数

使得H(res)用作D(res)+λ·R(res)的良好近似，并且使得

用作R(res)的良好近似。

固定了某些

并固定了预定义的“体系结构”，即分段平滑函数

然后查找

以便将函数H和

建模为

为了确定权重Φ₁和Φ₂，在使用给定混合视频编码标准的典型编码器上，分别收集了预测残差res_j(其中

)和相应的速率失真值(D+λR)(res_j)的非常大的集合的训练示例，而针对某个有限大索引集合

仅仅收集比率值R(res_j)。然后，尝试找到Φ₁和Φ₂，以使它们最小化以下表达式或至少使以下表达式较小

针对该任务，通常使用(随机)梯度下降方法。

1.2训练固定的块形状的预测

在本节中，描述了用于针对给定块B 18、集合72中的模式和已重建样本的区域B_rec60设计K_B个帧内预测的算法。

假设给定了预定义的预测的“体系架构”。意思是，针对某个固定的

给定了函数

并且希望确定“权重”

以使帧内预测被给定为

其中，针对

设置

以下节提供了有关这方面的详细信息。(2)中的函数定义了图6中的神经网络80₀-80_KB-1。

接下来，通过使用以下第二参数相关函数对尝试设计的帧内模式的信号成本进行建模。

再次，针对

通过

定义

再次，在第1.3节中给定了示例，其中(4)的函数表示图6的神经网络84。

假设给定了一函数：

例如，该函数定义了用于辅助信息70的VLC码长度分布，即，通过辅助信息70与集合72的模式关联的码长度。

然后，通过

定义

目前，

的第k分量

应对发信号通知训练的第k帧内模式所需的比特数进行建模。

如果

是第2.1节中定义的函数，则针对给定的

重建图像

和原始图像

令

表示具有以下属性的最小k∈{1，...，K_B}：

针对所有的l∈{1，...，K_B}

由于

对帧内模式的信号化的真实比特数进行建模，因此其梯度为零或未定义。因此，

不足以通过基于梯度下降的算法来优化权重Ψ_B。因此，还通过使用softmax函数将函数

变换为概率分布来调用帧内模式的交叉熵。重新回顾后一函数的定义。针对

令x_i表示x的第i分量。然后，将softmax函数

定义为

针对梯度更新，相对于后一概率分布，将尝试最小化残差率和模式k_opt的交叉熵之和。因此，将块B的损失函数Loss^B定义为

其中

给定(5)中的损失函数，通过数据驱动的优化确定权重

因此，如果针对有限的较大索引集合

给定关于B的图像im_i利关于B_rec的相应的重建图像rec_i的训练实例的集合：

则应用一种优化算法，例如，基于(随机)梯度下降法，以找到使以下表达式最小化的权重

1.3对函数

和

的说明

在本节中，更精确地定义函数

和

向形式。再次，重新回顾一些函数定义了神经网络80和84。这些函数中的每一个都由一系列函数组成，这些函数是：1)仿射变换Aff、或2)非线性激活函数Act。

通过仿射变换

指代具有以下形式的映射

Aff(x)＝L(x)+b

其中

是线性变换，即，满足

L(λ·x₁+x₂)＝λ·L(x₁)+L(x₂)

所有

并且其中

每个线性映射

完全由

中的矩阵确定，即，唯一地对应于向量

因此，每个仿射函数

完全通过m·n+n个权重确定，即通过向量

确定。针对每个

将针对以上述方式与Θ对应的唯一仿射变换写为Aff_Θ。

通过非线性激活函数

指代具有以下形式的函数

(Act(x))_i＝ρ(x_i)

此处，(Act(x))_i表示Act(x)的第i分量，并且x_i表示x的第i分量。

最后，

可以具有形式

或形式

尽管这些示例不应被解释为将本申请的实施例限制为这些明确的示例。也可以使用其他公式，例如ρ(z)＝log(1+e^z)或任何其他非线性函数。例如，

可以替代地是分段平滑函数。

现在，函数

如下所示。假设，针对固定的

给定

和

其中m₁＝L，m₁＝L，使得

T＝(m₁·n₁+n₁)+(m₂·n₂+n₂)+…+(m_k·n_k+n_k)

这里，

和

与(1)中的相同。然后，针对

定义

因此，

将描述使用参数Θ进行参数化的神经网络80i。它将是线性函数

和非线性函数ρ的序列，在本示例中，它们在序列中交替地应用，其中参数Θ包括

和的线性函数权重。在线性函数

和非线性函数ρ的序列中，成对的线性函数

和随后的非线性函数ρ将代表神经元层，例如第j层，其中在神经网络的前馈方向上在此神经元层j之前的在前节点的数量由

的维度(dimension)m(即，

的列数)确定，神经元层j本身的神经元数量由

的维度n(即其行数)确定。

的每一行都包含权重，该权重控制：将分别激活m个在前神经元中的每一个的信号强度多么强地转发到与相应行对应的神经元层j的相应神经元。ρ针对神经元层j的每个神经元，控制将被转发的在前神经元激活的其线性组合非线性地映射到其自身的激活。在上面的示例中，存在k个这样的神经元层。每层神经元的数量可以不同。在不同的神经网络80_j中，即针对不同的j，神经元层的数量k可以不同。请注意，非线性函数可以随神经元层甚至神经元或以某些其他单位而变化。

同样，函数

如下所示。假设，针对固定的

给定

和

其中m_1′＝L，n_k′＝K_B，使得

T＝(m′₁·n′₁+n′₁)+(m′₂·n′₂+n′₂)+…+(m′_k′·n′_k′+n′_k′)

这里，

和

与(3)中的相同。然后，针对

定义

因此，

将描述使用参数Ψ所参数化的神经网络84。正如上面已经关于预测信号计算的神经元层所描述的那样，它将是线性函数

和非线性函数ρ的序列。神经网络84的神经元层k′的数量可以不同于神经网络80i的神经元层k的数量。

1.4考虑现有预测的训练

扩展了上一节的算法，以便可以训练对已经存在的帧内预测进行补充的预测。

即，令

是已经可用的固定帧内预测函数的集合。例如，

可以由HEVC的DC预测或平面预测、以及根据HEVC所定义的角度预测组成；所有这些预测还可以包括对重建样本的初步平滑。此外，假设给定了一函数

使得在给定原始图像im的情况下，

对应用于rec的第k帧内预测函数

的损失进行建模。

然后，将损失函数从(5)扩展到损失函数

保持前一节末尾的符号，通过对训练示例的大集合最小化以下方程式来确定权重

为此，通常首先通过优化(6)找到权重，然后使用这些权重进行初始化以找到优化(10)的权重。

1.5对几种块形状的预测进行联合训练

在本节中，描述了在预测的训练中，如何考虑到在典型的视频编码标准中，通常有可能以各种方式将一块分割成较小的子块，并对较小的子块执行帧内预测。

即，假设针对某些

给定允许的块

的集合

以及区域的集合

使得每个

都是B_i的邻域。通常，

是在B_i左方和上方两个矩形的并集。

假定存在块

使得针对每个i∈{1，...，S}，

假设

是

的幂集合。然后，针对

假设给出集合：

使得针对每个

块B可以写为不相交的并集：

针对给定的颜色分量，令im是关于B_max的图像，出于限制，针对每个

将该图像视为关于B_i的图像

此外，假设存在关于

的重建图像rec，出于限制，针对每个

将该重建图像视为关于

的图像

遵循第1.2节的说明，针对每个

将

作为K_B个帧内预测函数

的权重集合，并将

作为模式预测函数G^B的权重。如下联合地确定所有

的权重。针对

和给定的权重集合

(其中

)，表达

此外，针对

将

定义为

如第1.4节所述，假设针对每个

帧内预测函数的可能空的集合

是可用的。令

然后，如下定义损失函数

通过包含集合，可以对集合

进行排序≤。令

是

中所有最小元素的集合。针对

表达

其中后一函数如(9)中一样。

接下来，令

并假定已经针对所有

(其中

)定义了Loss^B ^，total。

然后，定义

最后，给定关于B_max的图像im_i的训练示例的固定集合

通过最小化以下表达式或至少使以下表达式较小来确定

通常，通过首先单独针对每个

最小化(9)来初始化权重

Ψ^B。

2将经过训练的神经网络集成到视频编解码中

考虑一种混合视频编码标准，其中针对给定的颜色分量，关于给定块

的视频信号的内容将由解码器生成。令M为B的像素数。此外，令

为B的固定邻域，使得解码器可以支配使用关于B_rec的重建图像rec。令L为B_rec的像素数。然后，将rec视为

的元素。假设编解码通过对当前块B 10进行预测编码来运行。然后，要求保护以下步骤的版权：解码器可以执行以下步骤以生成关于B的预测信号pred，将其视为

的元素：

1.解码器支配固定数量

函数

即80₁...80_(CB-1)，以及

即84，以及权重

和权重

其中后一权重由前一节中描述的训练算法预先确定。

2.解码器从比特流中重建一标志，该标志是辅助信息70的一部分，并准确地指示以下选项之一是否为真：[标签＝)]

(i)将使用预测

之一，即集合72中的模式

(ii)将不使用预测

中任一个，例如，74中的一个。

这里，函数

如(2)中的一样。

3.如果步骤2中的选项2为真，则解码器将按照基础混合视频编码标准来针对给定的块10继续进行。

4.如果步骤2中的选项一为真，则解码器将函数

(即根据(4)定义的84)应用于重建的图像rec。令

定义为

然后，标准被更改使得解码器准确地通过以下两个选项之一准确地定义数量m∈{1，...，K_B}：

(i)解码器通过下式对集合{1，...，K_B}定义概率分布

并且使用后一概率分布

从数据流12中经由基础标准中使用的熵编码引擎来解析索引k∈{1，...，K_B}，其也是辅助信息70的一部分并定义了m：＝k。

(ii)解码器通过诱导式地表达

(其中

是针对k∈{1，...K_B}在

情况下的最小数)并通过表达

(其中

是最小数使得针对所有k∈{1，...，K_B}\{σ(1)，...，σ(l)}具有

)，定义一排列：

σ：{1，...，K_B}→{1，...，K_B}

然后，解码器根据比特流12重建唯一索引i∈{1，...，K_B}，该索引也是数据流12的一部分并表达m：＝σ(i)。

在解析后一索引i的码设计中，要求的是，如果σ(i₁)≤σ(i₂)，并且如果熵编码引擎所使用的所有涉及的基础概率都被设置为相等概率，则发信号通知索引i₁∈{1，...，K_B}所需的比特数小于或等于用于发信号通知i₂∈{1，...，K_B}的比特数。

5.如果步骤2中的选项一为真，并且如果解码器已根据先前的步骤4确定了索引m，则解码器生成71预测信号

作为

即，使用所选择的神经网络80_m。然后，解码器按照基础混合视频编码标准进行处理，使用pred作为预测信号。

将其设计基于数据驱动学习方法的帧内预测函数集成到现有的混合视频编解码中。描述有两个主要部分。在第一部分中，描述了用于帧内预测函数的离线训练的具体算法。在第二部分中，描述了视频解码器可以如何使用后一预测函数来生成给定块的预测信号。

因此，以上在1.1至2节中已经描述的是(尤其是)一种用于从数据流12中逐块解码图片10的装置。装置54支持多个帧内预测模式，所述帧内预测模式至少包括帧内预测模式的集合72，根据帧内预测模式的集合72，通过将当前块18的相邻样本的第一集合60应用于神经网络80_i来确定图片10的当前块18的帧内预测信号。装置54被配置为从多个66帧内预测模式中针对当前块18选择68一个帧内预测模式，并且使用一个帧内预测模式，即使用已被选择的对应的神经网络80_m来预测71当前块18。尽管除集合72中的基于神经网络的帧内预测模式之外，在第2节中介绍的解码器还支持多个66帧内预测模式中的帧内预测模式74，但这仅是示例而不必如此。此外，第1节和第2节中的描述可以变化，变化在于解码器54不使用并且也不包括其他神经网络84。关于上述优化，这意味着第1.2节中介绍的用于发现

的内部质量中的第二加法器不必是应用于任何概率值神经网络函数G^B上的函数M^B的级联。而是确定神经网络80_i的合适参数的优化算法以使选择频率适当地遵循M^B的码率指示。例如，解码器54可以使用可变长度码从数据流12中解码针对块18的索引，该可变长度码的码长度在M^B中被指示，并且解码器54将基于该索引来执行选择68。该索引将是辅助信息70的一部分。

以上在第2节中提出的描述的另一替代方案是，解码器54可以取决于与当前块18的邻域相关的数据流的第一部分，替代地得出在基于神经网络的帧内预测模式的集合72之中的排名，以便获得帧内预测模式的有序列表，其中取决于数据流的除第一部分之外的第二部分来从帧内预测模式的有序列表中选择最终要使用的帧内预测模式。“第一部分”可以例如涉及与邻近当前块18的一个或多个块有关的编码参数或预测参数。然后，“第二部分”可以是例如指向基于神经网络的帧内预测模式集合72的索引或作为基于神经网络的帧内预测模式集合72的索引。当被解释为与以上概述的第2节对准时，解码器54包括另一神经网络84，该另一神经网络84针对帧内预测模式的集合72中的每个帧内预测模式，通过将相邻样本的集合86应用于其上并将这些概率值排序来确定概率值，以便确定集合72的每个帧内预测模式的排名，从而获得帧内预测模式的有序列表。然后，将数据流12中作为辅助信息70的一部分的索引用作有序列表的索引。在此，可以使用可变长度码对该索引进行编码，其中M^B指示码长度。并且如以上在第2节中所说明的，根据另一替代实施例，针对集合72的每个基于神经网络的帧内预测模式，解码器54可以使用由另一神经网络84确定的刚提到的概率值，以便有效地熵编码集合72的索引。特别地，该索引的符号字母是辅助信息70的一部分并用作集合72的索引，该符号字母将包括针对集合72中每个模式的符号或值，并且在神经网络84根据以上描述进行设计的情况下，神经网络84提供的概率值将提供将导致有效熵编码的概率值，因为这些概率值紧密地表示实际符号统计。针对该熵编码，例如，可以使用算术编码、或概率间隔划分熵(PIPE)编码。

有利地，针对集合72的任何帧内预测模式，不需要附加信息。一旦有利地针对根据例如第1节和第2节中的以上描述的编码器和解码器被参数化，每个神经网络80_i可以得出当前块18的预测信号，而无需在数据流中进行任何其他指导。如上面已经指出的，除了集合72中的基于神经网络的帧内预测模式之外，可选的是还存在其他帧内预测模式。以上已经通过集合74指示了该其他帧内预测模式。在这方面，应当注意，可以选择选择集合60的一种可能方式(即，形成帧内预测71的输入的相邻样本的集合)使得该集合60对于集合74的帧内预测模式(即启发式模式)是相同的，其中，针对基于神经网络的帧内预测模式，集合60就集合60中包括的相邻样本的数量而言是更大的，并且影响帧内预测71。换句话说，与集合74的其他模式相比，集合60的基数对于基于神经网络的帧内预测模式72可以是更大的。例如，集合74的任何帧内预测模式的集合60可以仅包括沿着一维线的相邻样本，所述一维线沿着块18的侧边延伸，例如左手侧边和上方侧边。基于神经网络的帧内预测模式的集合60可以覆盖L形部分，该L形部分沿着块18的刚提到的侧边延伸，但是比针对集合74的帧内预测模式的集合60正好宽一个样本宽。以这种方式，基于神经网络的帧内预测模式可以导致具有相应较低的预测残差的更好的帧内预测。

如以上在第2节中所述，在数据流12中传送到帧内预测的块18的辅助信息70可以包括斑点，该斑点通常指示针对块18选择的帧内预测模式是集合72的成员还是集合74的成员。然而，该斑点仅是可选的，其中辅助信息70指示例如包括集合72和74两者在内的整体多个66帧内预测模式的索引。

以下参照图7a至图7d简要讨论刚讨论的替代方案。该图同时定义解码器和编码器，即就解码器和编码器相对于帧内预测块18的功能而言。一方面，相对于帧内编码块18，编码器操作模式与解码器操作模式之间的差异是以下事实：编码器执行可用的全部或至少一些帧内预测模式66，使得例如在某种成本函数最小化的意义上在90处确定最好的一个帧内预测模式；以及编码器形成数据流12，即将数据编码到数据流中，而解码器分别通过解码和读取从中导出数据。图7a示出了以上概述的替代方案的操作模式，根据该替代方案，针对块18的辅助信息70内的标志70a指示：在步骤90中编码器确定为针对块18的最佳模式的帧内预测模式处于集合72内，即，作为基于神经网络的帧内预测模式，还是处于集合74内，即，作为非基于神经网络的帧内预测模式之一。编码器相应地将标志70a插入到数据流12中，而解码器从数据流12中检索标志70a。图7a假设确定的帧内预测模式92处于集合72内。然后，单独的神经网络84针对集合72的每个基于神经网络的帧内预测模式来确定概率值，并使用这些概率值集合72，或者更确切地说，其中的基于神经网络的帧内预测模式根据其概率值例如以其概率值的降序而被排序，从而得到帧内预测模式的有序列表94。然后，作为辅助信息70的一部分的索引70b被编码器编码成数据流12，并且被解码器从数据流12中解码。因此，解码器能够确定集合72和74中的哪一个集合。在要使用的帧内预测模式位于集合72中的情况下，要用于块18的帧内预测模式位于集合72中，并将执行集合72的排序96。在确定的帧内预测模式位于集合74中的情况下，也可以在数据流12中发送索引。因此，解码器能够通过相应地控制选择68，使用所确定的帧内预测模式来生成针对块18的预测信号。

图7b示出了替代方案，根据该替代方案，标志70a不存在于数据流12中。而是，有序列表94将不仅包括集合72的帧内预测模式，而且包括集合74的帧内预测模式。辅助信息70中的索引将是此更大有序列表的索引，并指示确定的帧内预测模式，即确定为优化90的帧内预测模式。在神经网络84仅针对72内的基于神经网络的帧内预测模式提供概率值的情况下，集合72的帧内预测模式相对于集合74的帧内预测模式之间的排名可以通过其他方式确定，诸如，不可避免地在有序列表94中将集合72的基于神经网络的帧内预测模式布置在集合74的模式之前，或相对于彼此交替地布置它们。也就是说，解码器能够：从数据流12中导出索引，使用索引70作为有序列表94的索引，其中使用神经网络84输出的概率值从多个帧内预测模式66中导出有序列表94。图7c示出了另一变体。图7c示出了不使用标志70a的情况，但是可以替代地使用标志。图7c所针对的问题与编码器和解码器都不使用神经网络84的概率有关。相反，排序96是通过其他方式导出的，例如，相对于一个或多个相邻块18在数据流12(即数据流12中属于该一个或多个相邻块的部分98)内传送的编码参数。

图7d示出了图7a的另一变体，即根据该变体，使用熵编码来对索引70b进行编码，并使用熵解码从数据流12中对索引70b进行解码，这共同地使用附图标记100来表示。如上所述，用于熵编码100的样本统计或概率分布由神经网络84输出的概率值来控制，这使得索引70b的熵编码非常有效。

针对所有实施例7a至7d，确实可以不存在集合74的模式。因此，相应的模块82可能会丢失，并且标志70a无论如何都是不必要的。

此外，尽管未在任何图中示出，但是很清楚，即使在没有任何显式信令70的情况下，即在不使用任何辅助信息的情况下，编码器和解码器处的模式选择68也可以彼此同步。相反，该选择可以从其他方式中导出，例如通过不可避免地采用有序列表94中的第一个，或者通过基于与一个或多个相邻块有关的编码参数导出有序列表94的索引。图8示出了用于设计要用于基于块的图片编码的集合72的帧内预测模式的集合的装置。装置108包括可参数化网络109，其继承或包括神经网络80₀至80_KB-1以及神经网络84的可参数化版本。此处，在图8中，作为单独单元进行描绘，即，用于提供针对基于神经网络的帧内预测模式0的概率值的神经网络84₀至用于提供与基于神经网络的帧内预测模式K_B-1相关的概率值的神经网络84_KB-1。用于参数化神经网络84的参数111和用于参数化神经网络80₀至80_KB-1的参数通过更新器110而被输入或应用于这些神经网络的相应参数输入。装置108可以访问容器或多个图片测试块114以及相应的相邻样本集合116。成对的这些块114及其相关联的相邻样本集合116由装置108顺序使用。特别地，当前图片测试块114被应用于可参数化的神经网络109，使得神经网络80为每个基于神经网络的帧内预测模式的集合72提供预测信号118，并且每个神经网络80为这些模式中的每个模式提供概率值。为此，这些神经网络使用其当前参数111和113。

在上面的描述中，rec已用于表示图片测试块114，并且

是模式B的预测残差118，并且概率值是概率值120的

针对每个模式0...K_b-1，存在由装置108包括的成本估计器122，该成本估计器122基于针对相应模式获得的预测信号118来计算针对相应模式的成本估计。在上面的示例中，成本估计器122计算了成本估计，如第1.2节中不等式的左手侧和右手侧所示。也就是说，在这里，成本估计器122还针对每种模式使用了相应的概率值120。然而，这不必像上面已经讨论的情况那样。然而，成本估计在任何情况下都是两个加数之和，该两个加数中之一是对预测残差的编码成本的估计，该预测残差表示为以上不等式中的项

而另一个加数估计用于指示模式的编码成本。为了计算与预测残差有关的编码成本的估计，成本估计器122还获得当前图片测试块114的原始内容。神经网络80和84在其输入处应用相应的相邻样本集合116。最小成本选择器126接收由成本估计器122输出的成本估计124，这确定了最小化或具有与其相关联的最小成本估计的模式。在上面的数学符号中，这是

更新器接收该最优模式，并使用编码成本函数，该编码成本函数具有第一加数和第二加数，该第一加数取决于针对具有最低编码估计的帧内预测模式所获得的预测信号118来形成残差率估计，该第二加数取决于针对选择器126所指示的具有最低编码成本估计的帧内预测模式所获得的概率值和预测信号来形成模式信令辅助信息率估计。如上所述，这可以使用梯度距离来完成。因此，编码成本函数是可微的，并且在上面的数学表示中，等式5中给出了该函数的示例。在此，与模式信令辅助信息率估计有关的第二加数计算了具有最低编码成本估计的帧内预测模式的交叉熵。

因此，更新器110意在更新参数111和113以减小编码成本函数，然后可参数化神经网络109使用这些更新的参数111和113以处理多个112中的下一图片测试块。如以上关于第1.5节所讨论的，可以存在一种机制，该机制控制为：在速率失真的意义上，主要将那些成对的图片测试块114及其相关的相邻样本集合116应用于帧内预测所针对的递归更新处理，优选地在不进行任何块细分的情况下进行，从而避免基于图片测试块而对参数111和113进行过多优化，因为无论如何，针对图片测试块以图片测试块的子块为单位进行编码更节省成本。

到目前为止，上述实施例主要涉及编码器和解码器在其支持的帧内预测模式66内具有基于神经网络的帧内预测模式的集合的情况。根据关于图9a和图9b讨论的实施例，不必一定是这种情况。图9a意在概述根据实施例的编码器和解码器的操作模式，其中，以集中于与以上关于图7a提出的描述的差异的方式来提供其描述。支持的多个66帧内预测模式可以包括或可以不包括基于神经网络的帧内预测模式，并且可以包括或可以不包括非基于神经网络的帧内预测模式。因此，图9a中的模块170分别由编码器和解码器包括，以便为每个支持的模式66提供对应的预测信号，因此模块170不一定是神经网络。如上面已经指出的，这样的帧内预测模式可以是基于神经网络的，或者帧内预测模式可以被启发式地激励并且基于DC帧内预测模式或角度帧内预测模式或任何其他模式来计算预测信号。因此，这些模块170可以表示为预测信号计算机。然而，根据图9a的实施例的编码器和解码器包括神经网络84。神经网络84基于相邻样本集合86来计算支持的帧内预测模式66的概率值，使得可以将多个66帧内预测模式66转换到有序列表94中。数据流12中针对块18的索引70指向该有序列表94。因此，神经网络84有助于降低要用于帧内预测模式信号化的辅助信息率。

图9b示出了图9a的替代方案，其中代替排序，索引70的熵解码/熵编码100被用于根据针对多个66中的每个模式而为神经网络84确定的概率值，控制其概率或简单统计，即，控制编码器/解码器中的熵解码/熵编码的熵概率分布。

图10示出了用于设计或参数化神经网络84的装置。因此，它是一种用于设计神经网络的装置108，神经网络用于辅助在帧内预测模式的集合66中进行选择。在此，针对集合66中的每种模式，存在一起形成神经网络84的对应的神经网络块，并且装置108的可参数化神经网络109仅相对于这些块是可参数化的。针对每种模式，还存在预测信号计算机170，然而根据图10，该预测信号计算机170不需要是可参数化的。因此，图10的装置108基于由相应的预测信号计算机170所计算的预测信号118并可选地基于由针对此模式的相应的神经网络块所确定的相应概率值来计算每种模式的成本估计。基于所得到的成本估计124，最小成本选择器126选择最小成本估计的模式，并且更新器110更新神经84的参数111。

以下关于图7a至图7d以及图9a和图9b的描述进行说明。也被图7a至图7d的一些实施例所使用的图9a和图9b的实施例的共同特征是以下事实：神经网络值的概率值是为了改善或减小与辅助信息70相关的开销，辅助信息70用于向解码器发信号通知在编码器侧在优化过程90中确定的模式。然而，如以上关于图7a至图7d的实施例所指示的，应该清楚的是，图9a和图9b的实施例可以在以下方面变为不同：即在数据流12中针对模式选择完全不花费辅助信息70。而是，由神经网络84针对每种模式所输出的概率值可以用于不可避免地使编码器和解码器之间的模式选择同步。在那种情况下，关于模式选择，在编码器侧将没有优化判定90。而是，将以相同的方式在编码器侧和解码器侧确定集合66之中要使用的模式。针对图7a至图7d的相应实施例，当变化以在数据流12中不使用任何辅助信息70时，类似的陈述是正确的。回到图9a和图9b的实施例，然而，有趣的是，尽管在解码器侧的选择处理68取决于神经网络所输出的概率值，因为取决于概率值的排序或概率分布估计改变了辅助信息的解释，就编码器而言，对概率值的依赖性不仅可以影响将辅助信息70编码到数据流12中，该编码例如使用有序列表的索引的相应的可变长度编码，或者使用熵编码/熵解码，其中概率分布估计取决于神经网络的概率值，对概率值的依赖性还可以影响优化步骤90：在此，可以考虑用于发送辅助信息70的码率，并且因此可以影响决策90。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。

本发明的编码数据流可以存储在数字存储介质上，或者可以在诸如无线传输介质或有线传输介质(例如，互联网)等的传输介质上传输。

根据某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文中描述的方法中的一种。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如计算机或可编程逻辑器件，该处理装置被配置为或适于执行本文中描述的方法中的一种。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文中描述的方法中的一种。

根据本发明的另一实施例包括被配置为向接收机(例如，以电方式或以光学方式)传送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任何硬件装置来执行。

本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。

本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。

本文描述的方法可以使用硬件装置、或者便用计算机、或者使用硬件装置和计算机的组合来执行。

本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。

上述实施例针对本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来进行限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来进行限制。

Claims

1.一种用于从数据流(12)中逐块解码图片(10)的装置，所述装置支持至少包括帧内预测模式的集合(72)在内的多个(66)帧内预测模式，根据所述帧内预测模式的集合，通过将所述图片的当前块(18)的相邻样本的第一集合(60)应用于神经网络(80)来确定所述当前块(18)的帧内预测信号，所述装置被配置为：

针对所述当前块(18)选择(68)所述多个(66)帧内预测模式中的一个帧内预测模式，并且

使用所述一个帧内预测模式来预测(71)所述当前块(18)。

2.根据权利要求1所述的装置，被配置为：

使用可变长度码，从所述数据流(12)中解码索引(70b)，并且

使用所述索引(70b)来执行所述选择。

3.根据权利要求1或2所述的装置，被配置为：

取决于与所述当前块(18)的邻域有关的所述数据流(12)的第一部分(97)，确定所述帧内预测模式的集合(72)的排名，以便获得帧内预测模式的有序列表，并且

基于除所述第一部分之外的所述数据流(12)的第二部分(98)，从所述帧内预测模式的有序列表中选择所述一个帧内预测模式。

4.根据权利要求1或2所述的装置，被配置为：

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，通过将相邻样本的第二集合(86)应用于另一神经网络来确定排名，以获得帧内预测模式的有序列表，

从所述数据流(12)中将索引(70b)解码到所述有序列表中，并且

使用所述索引(70b)和所述有序列表来执行所述选择。

5.根据权利要求4所述的装置，被配置为：使用可变长度码从所述数据流(12)中将所述索引(70b)解码到所述有序列表中。

6.根据权利要求1或2所述的装置，被配置为：

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，通过将相邻样本的第二集合(86)应用于另一神经网络，确定概率值(120)，

使用所述概率值(120)，从所述数据流(12)中熵解码所述帧内预测模式的集合(72)的索引(70b)，并且

使用所述索引(70b)来执行所述选择。

7.根据权利要求3至6中任一项所述的装置，其中，所述相邻样本的第一集合(60)与所述相邻样本的第二集合(86)重合。

8.根据前述权利要求中任一项所述的装置，其中，所述帧内预测模式的集合(72)中的每个帧内预测模式排他地根据所述当前块(18)的相邻样本的第一集合(60)，唯一地确定所述当前块(18)的帧内预测信号。

9.根据前述权利要求中任一项所述的装置，其中，所述多个帧内预测模式还包括包含DC模式或方向模式中的一个或多个在内的帧内预测模式的另一集合，根据所述DC模式，所述当前块(18)被填充有DC值，根据所述方向模式，通过将从所述当前块(18)的相邻样本的第三集合中导出的所述当前块(18)旁边的空间样本值分布沿预定方向投影到所述当前块(18)中来确定所述帧内预测信号。

10.根据前述权利要求中任一项所述的装置，其中，所述多个帧内预测模式还包括帧内预测模式的另一集合，根据所述帧内预测模式的另一集合，使用线性函数从所述当前块(18)的相邻样本的第三集合中确定所述当前块(18)的帧内预测信号，其中，所述相邻样本的第一集合(60)的基数高于所述相邻样本的第三集合的基数。

11.根据权利要求10或11所述的装置，被配置为：在从所述多个帧内预测模式中选择所述一个帧内预测模式时，响应于所述数据流(12)中的一个标志，以便从所述帧内预测模式的集合或所述帧内预测模式的另一集合中选择所述一个帧内预测模式。

12.一种用于将图片(10)逐块编码到数据流(12)中的装置，所述装置支持至少包括帧内预测模式的集合(72)在内的多个(66)帧内预测模式，根据所述帧内预测模式的集合，通过将所述图片(10)的当前块(18)的相邻样本的第一集合(60)应用于神经网络(80)来确定所述当前块(18)的帧内预测信号，所述装置被配置为：

针对所述当前块(18)选择(90)所述多个帧内预测模式中的一个帧内预测模式，并且

使用所述一个帧内预测模式来预测所述当前块(18)。

13.根据权利要求12所述的装置，被配置为：

使用可变长度码来将索引(70b)编码到所述数据流(12)中，所述索引(70b)指示所述选择。

14.根据权利要求12或13所述的装置，被配置为：

从帧内预测模式的有序列表中选择所述一个帧内预测模式，并且

除了所述第一部分(97)之外，还形成所述数据流(12)的第二部分(98)，以便指示从所述帧内预测模式的有序列表中的选择。

15.根据权利要求12或14所述的装置，被配置为：

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，通过将相邻样本的第二集合(86)应用于另一神经网络来确定排名，以获得帧内预测模式的有序列表，并且

将所述有序列表的索引(70b)编码到所述数据流(12)中，

其中，所述索引(70b)从所述有序列表中选择所述一个帧内预测模式。

16.根据权利要求15所述的装置，被配置为：使用可变长度码从所述数据流(12)中将所述索引解码到所述有序列表中。

17.根据权利要求12或13所述的装置，被配置为：

使用所述概率值(120)来将所述帧内预测模式的集合(72)的索引(70b)熵编码到所述数据流(12)中，所述索引(70b)指向所述一个帧内预测模式。

18.根据权利要求14至17中任一项所述的装置，其中，所述相邻样本的第一集合(60)与所述相邻样本的第二集合(86)重合。

19.根据权利要求12至18中任一项所述的装置，其中，所述帧内预测模式的集合(72)中的每个帧内预测模式排他地根据所述当前块(18)的相邻样本的第一集合(60)，唯一地确定所述当前块(18)的帧内预测信号。

20.根据权利要求12至19中任一项所述的装置，其中，所述多个帧内预测模式还包括包含DC模式或方向模式中的一个或多个在内的帧内预测模式的另一集合，根据所述DC模式，所述当前块(18)被填充有DC值，根据所述方向模式，通过将从所述当前块(18)的相邻样本的第三集合中导出的所述当前块(18)旁边的空间样本值分布沿预定方向投影到所述当前块(18)中来确定所述帧内预测信号。

21.根据权利要求12至20中任一项所述的装置，其中，所述多个帧内预测模式还包括帧内预测模式的另一集合，根据所述帧内预测模式的另一集合，使用线性函数从所述当前块(18)的相邻样本的第三集合中确定所述当前块(18)的帧内预测信号，其中，所述相邻样本的第一集合(60)的基数高于所述相邻样本的第三集合的基数。

22.根据权利要求19或20所述的装置，被配置为：向所述数据流(12)提供一个标志，所述一个标志指示所述一个帧内预测模式是所述帧内预测模式的集合(72)的成员还是所述帧内预测模式的另一集合的成员。

23.一种用于针对基于块的图片编码设计帧内预测模式的集合(72)的装置，所述装置被配置为：

将与第一图片测试块(114)相邻的相邻样本(116)的第一集合(60)应用于第一神经网络(80)，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得针对所述第一测试块的预测信号(118)，并且将与所述第一图片测试块相邻的相邻样本的第二集合(86)应用于第二神经网络(84)，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得指示相应帧内预测模式的概率的概率值(120)；

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，使用针对相应帧内预测模式所获得的预测信号(118)，来确定(122)与预测误差编码和模式信号化相关的编码成本的成本估计(124)；

更新(110)所述第一神经网络(80)的第一参数(113)和所述第二神经网络(84)的第二参数(111)，以便减小具有第一加数和第二加数的编码成本函数，所述第一加数取决于针对具有最低编码成本估计的帧内预测模式所获得的预测信号(118)而形成残差率估计，所述第二加数取决于针对具有最低编码成本估计的所述帧内预测模式所获得的概率值(120)和预测信号(118)而形成模式信令辅助信息率估计；

将与第二图片测试块相邻的相邻样本应用于具有更新的第一参数(113)的第一神经网络(80)和具有更新的第二参数(111)的第二神经网络(84)。

24.根据权利要求23所述的装置，其中，

所述第一神经网络(80)和所述第二神经网络(84)是

线性函数和非线性函数的序列，其中，所述第一参数(113)和所述第二参数(111)包括线性函数的权重。

形成一系列神经元层的线性函数和非线性函数的序列，或

神经元层的序列，其中，所述第一参数(113)和所述第二参数(111)包括控制互连神经元之间的信号强度转发的权重。

25.根据权利要求23或24所述的装置，被配置为：

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，使用针对相应帧内预测模式所获得的所述概率值(120)和所述预测信号(118)，来确定与预测误差编码和模式信号化相关的编码成本的成本估计。

26.根据权利要求23至25中任一项所述的装置，被配置为：

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，将与预测误差编码和模式信号化相关的编码成本的成本估计确定为第一加数与第二加数之和，所述第一加数将针对相应帧内预测模式所获得的预测信号(118)和所述第一图片测试块的原始未失真版本映射到预测误差编码估计上，所述第二加数将针对相应帧内预测模式所获得的概率值(120)映射到模式信号化率估计上。

27.根据权利要求23至26中任一项所述的装置，其中，

所述编码成本函数的第二加数根据针对所有帧内预测模式所获得的概率值(120)，取决于针对具有最低编码成本估计的所述帧内预测模式所获得的预测信号(118)而形成所述模式信令辅助信息率估计作为，针对所有帧内预测模式所获得的概率值(120)指示具有最低编码成本估计的所述帧内预测模式的交叉熵。

28.根据权利要求23至27中任一项所述的装置，其中，

所述编码成本函数的第一加数根据针对相应帧内预测模式所获得的预测信号(118)和所述第一图片测试块的原始未失真版本，取决于针对具有最低编码成本估计的所述帧内预测模式所获得的预测信号(118)而形成所述残差率估计。

29.根据权利要求23至28中任一项所述的装置，被配置为：

使用所述第一参数(113)和所述第二参数(111)顺序地重复针对多个图片测试块的施加、确定和更新，所述第一参数(113)和所述第二参数(111)针对一个图片测试块被更新以用于所述多个图片测试块中的下一图片测试块的施加。

30.根据权利要求23至29中任一项所述的装置，被配置为：

将所述多个图片测试块细分为能够更有效地编码的未细分的第一集合、以及能够更有效地编码的细分为子块的第二集合，并使用所述第一参数(113)和所述第二参数(111)顺序地重复针对所述第一集合的图片测试块的施加、确定和更新，所述第一参数(113)和所述第二参数(111)针对一个图片测试块被更新以用于所述第一集合的下一图片测试块的施加。

31.根据权利要求23至30中任一项所述的装置，被配置为：

使用梯度下降来执行所述更新。

32.根据权利要求23至31中任一项所述的装置，其中，所述相邻样本的第一集合(60)与所述相邻样本的第二集合(86)重合。

33.一种用于从数据流(12)中逐块解码图片(10)的装置，所述装置支持多个帧内预测模式，所述装置被配置为：

针对所述多个(66)帧内预测模式中的帧内预测模式的至少一集合(72)中的每个帧内预测模式，通过将与当前块(18)相邻的相邻样本的第一集合(68)应用于神经网络(80)来确定排名或概率值(120)，

使用所述排名或所述概率值(120)，针对所述当前块(18)在所述多个帧内预测模式中选择一个帧内预测模式，并且

使用所述一个帧内预测模式来预测所述当前块(18)。

34.根据权利要求33所述的装置，被配置为：

根据所述排名对所述帧内预测模式的集合(72)进行排序以获得帧内预测模式的有序列表，

使用可变长度码，从所述数据流(12)中解码索引(70b)，并且

使用所述索引(70b)和所述有序列表来执行所述选择。

35.根据权利要求33或34所述的装置，被配置为：

使用所述索引(70b)来执行所述选择。

36.根据权利要求33至35中任一项所述的装置，其中，所述帧内预测模式的集合(72)中的每个帧内预测模式排他地根据所述当前块(18)的相邻样本的第二集合(86)，唯一地确定所述当前块(18)的帧内预测信号。

37.根据权利要求33至36中任一项所述的装置，其中，所述多个帧内预测模式包括DC模式或方向模式中的一个或多个，根据所述DC模式，所述当前块(18)被填充有DC值，根据所述方向模式，通过将从所述当前块(18)的相邻样本的第三集合中导出的所述当前块(18)旁边的空间样本值分布沿预定方向投影到所述当前块(18)中来确定所述帧内预测信号。

38.根据权利要求33至37中任一项所述的装置，其中，一集合相邻采样的基数在所述多个帧内预测中不同，根据所述多个帧内预测模式基于所述基数来预测所述当前块(18)。

39.一种用于将图片(10)逐块地编码到数据流(12)中的装置，所述装置支持多个帧内预测模式，所述装置被配置为：

针对所述多个帧内预测模式中的帧内预测模式的至少一集合(72)中的每个帧内预测模式，通过将与当前块(18)相邻的相邻样本的第一集合(68)应用于神经网络(80)来确定排名或概率值(120)，

使用所述排名或所述概率值(120)，针对所述当前块(18)从所述多个帧内预测模式中选择(90)一个帧内预测模式，

使用所述一个帧内预测模式来预测所述当前块(18)。

40.根据权利要求39所述的装置，被配置为：

使用可变长度码，将索引(70b)编码到所述数据流(12)中，

其中，所述索引(70b)对所述有序列表中的所述一个帧内预测模式进行索引。

41.根据权利要求39或40所述的装置，被配置为：

使用所述概率值(120)，将所述帧内预测模式的集合(72)的索引(70b)熵编码到所述数据流(12)中，

其中，所述索引(70b)对所述帧内预测模式的集合(72)中的所述一个帧内预测模式进行索引。

42.根据权利要求39至41中任一项所述的装置，其中，所述多个(66)帧内预测模式中的每个帧内预测模式排他地根据所述当前块(18)的相邻样本的第二集合(86)，唯一地确定所述当前块(18)的帧内预测信号。

43.根据权利要求39至42中任一项所述的装置，其中，所述多个(66)帧内预测模式包括DC模式或方向模式中的一个或多个，根据所述DC模式，所述当前块(18)被填充有DC值，根据所述方向模式，通过将从所述当前块(18)的相邻样本的第三集合中导出的所述当前块(18)旁边的空间样本值分布沿预定方向投影到所述当前块(18)中来确定所述帧内预测信号。

44.根据权利要求39至43中任一项所述的装置，其中，相邻采样的集合的基数在所述多个(66)帧内预测中不同，根据所述多个(66)帧内预测模式基于所述基数来预测所述当前块(18)。

45.一种用于设计神经网络(84)的装置，所述装置用于针对基于块的图片编码辅助在帧内预测模式的集合(72)中进行选择，所述装置被配置为：

使用所述帧内预测模式的集合(72)中的每个帧内预测模式，根据与第一图片测试块相邻的相邻样本的第一集合(68)来预测(170)所述第一图片测试块，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得针对所述第一测试块的预测信号(118)，并且将所述相邻样本的第一集合(68)应用于所述神经网络(84)，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得指示相应帧内预测模式的概率的概率值(120)；

针对所述帧内预测模式的集合(72)中的每个帧内预测模式，使用针对相应帧内预测模式所获得的预测信号(118)，来确定与预测误差编码和模式信号化相关的编码成本的成本估计；

更新所述神经网络(84)的参数，以便减小具有第一加数和第二加数的编码成本函数，所述第一加数取决于针对具有最低编码成本估计的帧内预测模式所获得的预测信号(118)而形成残差率估计，所述第二加数取决于针对具有最低编码成本估计的所述帧内预测模式所获得的概率值(120)和预测信号(118)而形成模式信令辅助信息率估计；

在所述参数已更新的情况下，重新进行针对第二预测文本块及其相邻样本的集合的预测和施加。

46.根据权利要求45所述的装置，其中，

所述神经网络是

线性函数和非线性函数的序列，其中，所述参数包括线性函数权重，

线性函数和非线性函数的序列，形成神经元层的序列，或

神经元层的序列，其中，所述参数包括控制在互连神经元之间的信号强度转发的权重。

47.根据权利要求45或46所述的装置，被配置为：

48.根据权利要求45至47中任一项所述的装置，被配置为：

49.根据权利要求45至48中任一项所述的装置，其中，

所述编码成本函数的第二加数根据针对所有帧内预测模式所获得的概率值(120)，取决于针对具有最低编码成本估计的帧内预测模式所获得的预测信号(118)而形成所述模式信令辅助信息率估计，针对所有帧内预测模式所获得的概率值(120)指示具有最低编码成本估计的所述帧内预测模式的交叉熵。

50.根据权利要求45至49中任一项所述的装置，其中，

51.根据权利要求45至50中任一项所述的装置，被配置为：

使用所述参数顺序地重复针对多个图片测试块的预测、施加、确定和更新，所述参数针对一个图片测试块被更新以用于所述多个图片测试块中的下一图片测试块的施加。

52.根据权利要求45至51中任一项所述的装置，被配置为：

使用梯度下降来执行更新。

53.一种用于从数据流(12)中逐块解码图片(10)的方法，其中，支持至少包括帧内预测模式的集合(72)在内的多个(66)帧内预测模式，根据所述帧内预测模式的集合，通过将所述图片的当前块(18)的相邻样本的第一集合(60)应用于神经网络(80)来确定所述当前块(18)的帧内预测信号，所述方法包括：

使用所述一个帧内预测模式来预测(71)所述当前块(18)。

54.一种用于将图片(10)逐块解码到数据流(12)中的方法，其中，支持至少包括帧内预测模式的集合(72)在内的多个帧内预测模式，根据所述帧内预测模式的集合，通过将当前块(18)的相邻样本的第一集合(60)应用于神经网络(80)来确定所述图片(10)的当前块(18)的帧内预测信号，所述方法包括：

使用所述一个帧内预测模式来预测所述当前块(18)。

55.一种用于针对基于块的图片编码设计帧内预测模式的集合(72)的方法，包括：

将与第一图片测试块(114)相邻的相邻样本(116)的第一集合(60)应用于第一神经网络(80)，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得针对所述第一测试块的预测信号(118)，并且将与第一图片测试块相邻的相邻样本的第二集合(86)应用于第二神经网络(84)，以便针对所述帧内预测模式的集合(72)中的每个帧内预测模式获得指示相应帧内预测模式的概率的概率值(120)；

56.一种用于从数据流(12)中逐块解码图片(10)的方法，其中，支持多个帧内预测模式，所述方法包括：

使用所述一个帧内预测模式来预测所述当前块(18)。

57.一种用于将图片(10)逐块编码到数据流(12)中的方法，其中，支持多个帧内预测模式，所述方法包括：

使用所述一个帧内预测模式来预测所述当前块(18)。

58.一种用于设计神经网络(84)的方法，所述方法用于针对基于块的图片编码辅助在帧内预测模式的集合(72)中进行选择，所述方法包括：

59.一种具有程序代码的计算机程序，所述程序代码用于当在计算机上运行时执行根据权利要求53至58中任一项所述的方法。

60.使用根据权利要求54或57的方法所生成的数据流。