CN109716767A

CN109716767A - 使用基于变换的残差编码的预测图像编码

Info

Publication number: CN109716767A
Application number: CN201780056744.7A
Authority: CN
Inventors: 圣地亚哥·德鲁西安埃尔南德斯; 德特勒夫·马尔佩; 克劳斯-罗伯特·穆勒; 海科·施瓦茨; 托马斯·威甘德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-07-14
Filing date: 2017-07-13
Publication date: 2019-05-03
Anticipated expiration: 2037-07-13
Also published as: JP6833009B2; EP3485637A1; JP2019525589A; KR102357329B1; US20190149845A1; KR102531124B1; KR20230066148A; CN109716767B; WO2018011345A1; KR20190033541A; KR20220017528A

Abstract

通过允许编解码器在用于基于变换的残差编码的一组变换合之间进行切换来增强使用基于变换的残差编码的预测图像编解码器的编码效率。结果是，即使当使用从编码器到解码器的显式信令以便在从编码器到解码器的所述一组变换之外用信号通知要被使用的实际变换时，也可能会导致编码效率的提高。可替换地，所述一组变换之间的切换可以在根本没有显式信令的情况下、或者使用显式信令和某种类型的变换预测的组合而被执行。

Description

使用基于变换的残差编码的预测图像编码

技术领域

本发明涉及使用基于变换的残差编码(例如混合视频编码)的预测图像编码。

背景技术

到目前为止，已知许多压缩技术和标准。例如，许多静止图像编解码器使用特定的谱变换以便对要被编码的样本进行去相关。在视频编解码器中，经常使用谱变换以便对表示预测残差的残差样本进行去相关，而预测残差又可以已经使用帧内编码(即，空间地)或帧间编码例如通过时间预测来获得。

例如，在基于块的混合视频编码器标准(例如，H.264/高级视频编码(AVC)和H.265/高效视频编码(HEVC))中，视频序列中的图像被分成块，然后每个块在空间上或时间上被预测。此时，残差信号作为块的原始样本与其预测之间的差被导出[1]。然后，采用变换、量化和熵编码方法来进一步减少残差的冗余。

具体地，在HEVC的情况下，通过对4×4帧内预测块执行2D可分离离散正弦变换(DST)类型VII(DST-VII)并对所有其他块执行2D可分离离散余弦变换(DCT)类型II(DCT-II)，来实施变换阶段[1]。此外，跳过变换步骤并在空间域中直接量化残差样本的方法也可在编码器处获得，尽管此模式仅限于44块[1]。

使用DCT-II作为图像和视频编码应用中的主要变换的原因在于利用一阶静态马尔可夫过程来对残差信号进行建模。当相关因子非常高时，Karhunen-Loève变换(KLT)是这种过程的最佳变换，并且DCT-II基矢量非常接近KLT的DCT-II基矢量[2]。此外，与KLT不同，DCT-II具有信号独立变换的优势，该信号独立变换可以以可分离的方式使用快速算法在2维(行和列)中实施[2]。

然而，正如[3]和[4]中指出的那样，KLT通常并不一定是在额定失真意义上的最佳变换。该事实质疑其适用性，并且通过扩展，DCT-II作为主要变换的适用性，特别是在帧内预测残差的情况下[5]。

给定某个块，在HEVC中通过对相邻块的解码边界样本按照一定的模式(即33个角度模式和一个DC模式和平面模式)进行外推来在HEVC中执行帧内预测。为了改进帧内编码过程，在本文中，我们开发了一种方法，该方法允许编码器在每个变换单元(TU)的速率-失真环中测试来自给定集合的不同变换。然后将最小化速率-失真成本的变换被信号通知给解码器。新变换是可分离的，并且所述新变换通过在TB的行上首先施加第一1D变换，然后在其列上施加另一个1D变换被构造而成。可用的一维变换是DCT-II族和DST-VII族中称为离散三角变换(DTT)和恒等变换(IT)的成员，其等同于先前提到的HEVC的变换跳过模式。

在文献中已经提出了各种提议来改进HEVC编码器的变换编码性能。这些提议表明，通过将离散变换的不同组合施加到帧内预测的残差块，可以实现比特率降低。

由于HEVC共支持35种帧内预测模式(IPM)，因此已经提出了不同的模式相关方向变换(MDDT)算法。在MDDT中，用于映射残差的变换的选择取决于IPM。例如，在[6]中，作者推导出一种根据IPM选择DCT-II和DST-VII的组合作为行和列变换的方案。值得注意的是，该作者们的工作导致DSTVII被引入作为在HEVC中4×4帧内预测块的核心变换。

另一方面，参考文献[7]提出了另一种MDDT方法，其中对于每个IPM来说使用一个速率-失真优化变换(RDOT)。这意味着使用被设计成最小化速率-失真标准的算法离线训练每个变换的系数。

然而，如[5]所示，来自相同IPM的残差可能具有非常不同的统计信息，因此每个IPM的单个变换不足以最大化高度变化的信号的能量压缩。因此，[5]和[8]完成的工作实现了可用于所有IPM的数据驱动的RDOT的集合。因此，编码器必须测试所有可用的变换并选择产生最低速率-失真成本的变换。然后，必须利用随后的开销比特将该决定发送给解码器。

最后，[9]和[10]的作者结合了这两种方法并开发一种算法，所述算法为每个IPM提供了不同组的多种变换。在[9]中进行的研究再次集中在数据驱动的RDOT的使用上，而[10]的工作实现了采用不同组的DTT的系统。

有利的是当前具有一种进一步增加应用基于变换的残差编码的这种预测图像编码技术的编码效率的概念。

发明内容

因此，本发明的目的是提供一种使用基于变换的残差编码/解码以预测的方式编码/解码图像的构思，所述基于变换的残差编码/解码分别导致更高的编码效率或压缩效率。

该目的通过所附独立权利要求的主题实现。

本发明基于以下发现：通过允许编解码器在用于基于变换的残差编码的一组变换之间切换，可以增强使用基于变换的残差编码的预测图像编解码器的编码效率。事实证明，即使在使用从编码器到解码器的显式信令以便在从编码器到解码器的所述一组变换之外用信号通知要被使用的实际变换时，也可能会导致编码效率的提高。可替换地，可以在根本没有显式信令的情况下，或者使用显式信令和某种类型的切换预测的组合来执行所述一组变换之间的切换。

根据本申请的实施例，所述一组变换之间的切换以段为单位来执行，其中图像被细分成所述段。尽管通过以段为单位执行切换可以增加例如与从编码器到解码器的切换的可选显式信号相关联的开销，但是通过利用图像的不同部分往往在基于变换的残差编码/解码中针对不同变换示出更好的去相关性的事实的优点可以进一步提高编码效率。

根据一个实施例，用于基于变换的残差编码的变换之间的切换被限制为帧内编码段(即，使用帧内编码模式被编码的段或块)，而对于帧间编码段(即，使用帧间编码被编码的段)，例如使用时间预测、视图间预测和/或层间预测被编码，一个变换被静态地或稳定地施加于基于变换的残差编码/解码，或者不同的一组变换之间的切换用于后面的帧间编码段。这样做可以进一步提高编码效率作为可选的显式信令，以便控制所述一组变换之间的切换，通过这种措施，将对于基于变换的残差编码/解码及其相关的信令开销限制为对于预测残差信号往往具有比与帧间编码段相比更多的能量的段，以使得：在假设任何可选的信令开销分别在帧内编码段和帧间编码段之间是相等的情况下，与帧间编码段相比，对于帧内编码段来说，通过在所述一组变换之间的切换获得的编码增益可能会更高。

根据一个实施例，显式信令用于在基于变换的残差编码/解码中的变换之间的切换。变换类信号可以允许对于施加了变换之间的切换的每个段以独立于段的编码模式的方式可选择所述一组变换中的每个变换。换句话说，包含在用于所述段的数据流中的变换类信号可以是主观的，即，从变换类信号可以采用的值域的映射的图像与所述一组变换一致，而与相应段的编码模式(例如，在帧内编码段的情况下的帧内编码模式)无关。例如，帧内编码模式可以包括定向模式，根据该定向模式，通过将相应的帧内编码段的邻域在空间上外推成相应的帧内编码段中以便获得其预测来预测帧内编码段，其中经受基于变换的残差编码/解码的预测残差信号相对于该预测形成预测残差。已经发现，通过经由为预测残差信号的最佳去相关选择最佳变换的可行性增加编码效率来过渡补偿额外开销，其中所述额外开销伴随变换类信号的主观性质。

根据一个实施例，使用基于上下文的熵编码/解码来对变换类信号进行编码，该基于上下文的熵编码/解码使用基于相应的帧内编码段的帧内编码模式的上下文。通过这种措施，可以实现显式信号的主观性质，然而同时一方面利用对所述一组变换中的最佳变换的任何统计相关性，而另一方面利用为相应的帧内编码段选择的帧内编码模式。

根据另一实施例，变换类信号可以包括前缀部分和后缀部分。前缀部分使得能够通过空间和/或时间预测来选择变换。如果空间和/或时间预测被用信号通知由前缀部分使用，则变换类信号不包括(即，没有)后缀部分。如果空间和/或时间预测被通知没有被使用，则变换类信号的后缀部分用信号通知所述一组变换中、或者所述变换中除了预测的变换之外的变换中、或者在所有变换中的哪一个变换将被使用，以避免后缀部分到所述一组变换的映射对空间和/或时间预测的相关性。有利地，划分为前缀部分和后缀部分可以额外地增加变换类信号的效率。

根据一个实施例，所述一组变换包括一组水平变换中的一个水平变换和一组竖直变换中的一个竖直变换的不同对。所述一组水平和竖直变换可以由相同的变换时间组成。也就是说，所述一组变换可以包括一组一维变换中的被水平施加的第一一维变换和所述一组一维变换中的被竖直施加的第二一维变换的串联。因此，在基于变换的残差编码/解码中的变换之间的切换使得能够进行变换的方向特定的自适应，以便分别沿着竖直方向和水平方向具体地调整去相关特性。事实证明，由所述一组变换中的变换的数量增加所产生的额外开销可以通过发现编码效率增加被更多地补偿，其中所述编码效率增加由获取预测残差信号的样本的最佳去相关的能力产生。

附图说明

本发明的有利方面是从属权利要求的主题。下面参照附图对本申请的优选实施例进行描述，在附图中：

图1示出了根据本发明的一个实施例的用于以预测的方式对图像进行编码的设备的框图；

图2示出了根据本发明的一个实施例的用于以预测的方式对图像进行解码的设备的框图，其中所述设备与图1的设备适应；

图3是示出了阐明预测残差信号、预测信号和重构信号之间的关系以便分别阐明为编码模式选择、变换选择和变换性能设置细分的可能性的一个示例的示意图；

图4示出了阐明在变换切换中使用显式信令的一个示例的示意图；

图5示出了阐明包括前缀和后缀的变换切换的显式信号的一个示例的示意图；

图6示出了阐明包括前缀和后缀的变换切换的显式信号的一个示例的示意图，其中从可能的二值化到变换的映射是双射的；

图7示出了灰度图，该灰度图示出了在使用变换集{x，y}的示例性情况下所有可能的变换对的4×4基函数，其中x和y分别是施加到x和y的变换，并且x，y∈{DCT-II，DST-N，DCT-IV，IT}；以及

图8a-d示出了用于1D信号的一个示例的各种DTT的对称扩展的图。该基本序列由虚线以连续对称的扩展的方式被表示。此外，(a)、(b)和(c)中的基本信号具有4个样本的长度，而(d)和(e)中的长度仅为3个样本，这是因为对称扩展需要一个样本为0[11]。

具体实施方式

图1示出了用于使用基于变换的残差编码将图像12预测编码成数据流14的设备。所述设备或编码器使用附图标记10表示。图2示出了相应的解码器20，即设备20，所述设备20被配置成也使用基于变换的残差解码从数据流14预测解码图像12’，其中撇号已经用于表示由解码器20重构的图像12’与由设备10原始编码的图像12在由预测残差信号的量化引起的编码损失上存在偏差。

编码器10被配置成对预测残差信号进行空间至谱变换，并将由此获得的预测残差信号编码成数据流14。如稍后所述，在对预测残差信号进行空间至谱变换时，编码器支持一组变换之间的切换。同样地，解码器20被配置成对来自数据流14的预测残差信号进行解码，并对由此获得的预测残差信号进行谱至空间变换。与编码器10一样，在对预测残差信号进行谱至空间变换时，解码器20支持一组变换之间的切换。

在内部，编码器10可以包括预测残差信号形成器22，该预测残差信号形成器22生成预测残差信号24，以便测量预测信号26与原始信号(即图像12)的偏差。预测残差信号形成器22例如可以是从原始信号(即图像12)减去预测信号的减法器。编码器10则还包括变换器28，该变换器28对预测残差信号24进行空间到谱变换，以获得谱域预测残差信号24’，该谱域预测残差信号24’然后由量化器32进行量化，该量化器32也包括在编码器10中。如此量化的预测残差信号24”被编码成比特流14。为此，编码器10可以可选地包括熵编码器34，该熵编码器34将被变换并量化的预测残差信号熵编码为数据流14。预测残差26由编码器10的预测阶段36基于编码成数据流14和从数据流14解码的预测残差信号24”生成。为此，预测阶段36可以在内部(如图1所示)包括去量化器38，该去量化器38对预测残差信号24”进行去量化，以便获得谱域预测残差信号24”’，接着由逆变换器40对预测残差信号24”’进行逆变换(即谱至空间变换)，以获得预测残差信号24””，其中所述谱域预测残差信号24”’对应于除了量化损失之外的信号24’，所述预测残差信号24””对应于除了量化损失之外的原始预测残差信号24。然后，预测阶段36的组合器42将预测信号26和预测残差信号24””(例如通过相加)重新组合，以便获得重构信号46，即原始信号12的重构。重构信号46可以对应于信号12’。然后，预测阶段36的预测模块44然后通过使用例如空间和/或时间预测基于信号46生成预测信号26。

同样地，解码器20可以在内部包括对应于预测阶段36并且以对应于预测阶段36的方式互连的部件。具体地，解码器20的熵解码器50可以对来自数据流的量化谱域预测残差信号24”进行熵解码，因此以与以上关于预测阶段36的模块所述的方式互连并协作的去量化器52、逆变换器54、组合器56和预测模块58基于预测残差信号24”恢复重构信号，以如图2所示使得组合器56的输出产生重构信号，即图像12’。

虽然上面没有具体描述，但是很显然，编码器10可以根据一些优化方案(例如，以优化某些速率和失真相关的标准的方式)设置一些编码参数(例如，包括预测模式、运动参数等)。例如，编码器10和解码器20以及相应的模块44、48可以分别支持不同的预测模式(例如，帧内编码模式和帧间编码模式)。编码器和解码器在这些预测模式之间切换的间隔时间可以分别对应于图像12和12’成为编码段或编码块的细分。以这些编码段为单位，例如，图像可以被细分为被帧内编码的段和被帧间编码的段。例如，基于相应段的空间的、已经编码/解码的邻域来预测帧内编码段。针对相应的帧内编码段可以存在并且选择多个帧内编码模式，所述帧内编码模式例如包括定向帧内编码模式，根据该定向帧内编码模式，通过沿专用于相应的定向帧内编码模式的特定方向外推邻域的样本值来将相应段填充到相应的帧内编码段。帧内编码模式可以或者例如还包括一个或更多个其他模式，例如ADC编码模式和/或平面帧内编码模式，根据该ADC编码模式，对相应的帧内编码段的预测将DC值分配给相应的帧内编码段内的所有样本，根据该平面帧内编码模式，相应段的预测被近似或确定为由相应的帧内编码段的样本位置上的二维线性函数描述的样本值的空间分布。与此相比，例如可以在时间上预测帧间编码段。对于帧间编码段，运动矢量可以在数据流内被用信号通知，运动矢量指示图像12所属的视频的先前编码的图像的部分的空间位移，在该位移处对先前编码/解码的图像进行采样，以获得相应帧间编码段的预测信号。这意味着，除了数据流14所包括的残差信号编码(例如，表示量化的谱域预测残差信号24”的熵编码变换系数水平)之外，数据流14可能已经在其中对用于将编码模式分配给各个段的编码模式参数、用于一些段的预测参数(例如用于帧间编码段的运动参数)以及可选的其他参数(例如控制和用信号通知图像12和12’分别成为段的细分的参数)进行编码。解码器20使用这些参数以与编码器相同的方式细分图像，以将相同的预测模式分配给段，并执行相同的预测以产生相同的预测信号。

图3示出了一方面重构信号(即重构的图像12’)、与另一方面在数据流中被用信号通知的预测残差信号24””和预测信号26的组合之间的关系。如上所述，该组合可以是相加。预测信号26在图3中被示出为图像区域被细分成帧内编码段和帧间编码段，所述帧内编码段使用阴影示例性地表示，所述帧间编码段示例性地表示为非阴影。细分可以是任何细分，例如将图像区域有规律地分成块或段的行和列，或者将图像12按多树细分为不同尺寸的叶状段，例如四叉树细分段等，其中，在图3中示出了所述细分的混合，其中图像区域首先被细分为树根块的行和列，该树根块的行和列然后根据递归的多树细分进一步被细分。再者，数据流14可以具有在其中被编码以用于帧内编码段80的帧内编码模式，其中所述帧内编码段80将多个支持的帧内编码模式中的一个帧内编码模式分配给相应的帧内编码段。对于帧间编码段82，数据流14可以具有在其中被编码的一个或更多个运动参数。一般而言，帧间编码段82不限于被时间编码。可替换地，帧间编码段82可以是从当前图像12本身之外的先前被编码的部分预测的任何段，所述被编码的部分例如是图像12所属的视频的先前被编码的图像，或者另一视图的图像，或者在编码器和解码器分别是可扩展编码器和解码器的情况下分层次地下层。图3中的预测残差信号24””也被示为图像区域成为段84的细分。这些段可以被称为变换段，以便将该变换段与编码段80和82区分开。实际上，图3示出了编码器10和解码器20可以分别使用图像12和图像12’成为段的两个不同的细分，即一个分别被细分为编码段80和82，而另一个被细分为段84。两种细分可以是相同的，即每个编码段80和82都可以同时形成变换段84，但是图3示出了例如细分成变换段84形成细分成编码段80/82的扩展以使得段80和82的两段之间的任何边界覆盖两段84之间的边界，或者可选地说，每个段80/82或者与变换段84中的一个重合或者与一组变换段84重合。然而，也可以彼此独立地确定或选择细分，以使得变换段84可以替代地跨越段80/82之间的段边界。就细分为变换段84而言，类似的陈述因此也一样，这是因为这些陈述提出关于成为段80/82的细分，即段84可以是将图像区域被有规律地细分成为成行和成列排列的块或段的结果、图像区域的递归多树细分的结果、或其组合或任何其他类型的细分。顺便说一句，注意，段80、82和84不限于方形、矩形或任何其他形状。

图3示出了预测信号26和预测残差信号24””的组合直接生成重构信号12’。然而，应该注意，根据替代实施例，可以将多于一个的预测信号26与预测残差信号24””组合以生成图像12’。

在图3中，变换段84应具有以下意义。变换器28和逆变换器54以这些变换段84为单位执行其变换。例如，许多编解码器对所有变换块84使用某种DST或DCT。一些编解码器允许跳过该变换，以便对于变换段84中的一些来说，预测残差信号直接在空间域中被编码。然而，根据下面描述的实施例，编码器10和解码器20配置成使得该编码器10和该解码器20支持多种变换。例如，由编码器10和解码器20支持的变换可以包括：

-DCT-II(或DCT-III)，其中DCT代表离散余弦变换；

-DST-IV，其中DST代表离散正弦变换；

-DCT-IV；

-恒等交换(IT)

当然，虽然变换器28将支持这些变换的所有正向变换版本，但是解码器20或逆变换器54将支持所述变换的相应的反向或逆向版本：

-逆DCT-II(或逆DCT-III)；

-逆DST-IV；

-逆DCT-IV；

-恒等交换(IT)

此外，下面提供变换可以由编码器10和解码器20支持的更具体的实施例。在任何情况下，所支持的一组变换包括两个谱至空间或空间至谱的变换，而包含恒等变换或恒等交换是任选的。

各种变换之间的切换使得变换的去相关属性能够适应实际需要。根据下面更详细阐述的实施例，以变换段84本身为单位进行切换。然而，应该注意的是，根据不太复杂的实施例，编码器10和解码器20也可以以其他单位(例如，以完整图像为单位、以图像的切片为单位)在各种支持的变换之间切换，该图像的切片进而可以表示由一个或更多个段84等组成的子集。也就是说，下面关于可用变换之间切换的可能实现的细节可以被修改，这是因为这些细节被应用于与变换段不同的段，其中所选择的变换最终以变换段为单位被分别应用于变换器28和逆变换器52处。

因此，在下面进一步描述的实施例的情况下，编码器10和解码器20被配置成以段84为单位在一组可用变换中的可用变换之间切换。根据某一段84是否是帧内编码段80的一部分(即，其预测信号由帧内预测确定)，或者某一段84是否是帧间编码段82的一部分或覆盖帧间编码段82(即，其预测信号使用帧间编码模式被确定)，所述某一段应该被分类成为帧内编码段和帧间编码段。在图3中，使用虚线86来环绕帧内编码段84，该虚线86指示帧内编码段80的周向位置。在下文中，使用附图标记84a来指示帧内编码段84，而使用附图标记84b来指示帧间编码段。对于帧内编码段和帧间编码段84中的每一个来说，在图3中具体地示出了一个代表。

下面更详细地阐述的细节涉及编码器10和解码器20如何可以分别为段84中的每一个段选择相同的变换(即正向变换和相应的逆变换)的可能示例。在下面进一步描述的实施例中，为此目的使用显式信号，但是应该注意，可替换地，也可以使用纯固有的信号。在后一种情况下，例如，对于每个段84，编码器10和解码器20都可以通过包含在数据流14中的信息来预测或导出每个段84的一组可用变换中的所选的变换，然而该信息实际上是用于其他用途。例如，对于某个段84选择的变换可以由编码器10和解码器20通过基于对相邻段84的选择在空间上预测要选择的变换来确定。另外或可替换地，可以考虑当前段84的编码模式和/或相邻段的编码模式，以便从一组可用变换中选择相应段的变换。另一个注意事项涉及这样的事实：以下实施例仅关于帧内编码段84a限制各种变换之间的切换，而仅一个谱至空间变换及其对应的空间到谱变换可用于帧间编码段84b，无论是否有机会完全跳过关于帧间编码段84b的变换。也就是说，虽然下面描述的实施例涉及变换切换限制为帧内编码段84a的特定实施例，但是这些实施例可以在一定程度上被修改，使这种变换切换也应用于帧间编码段。

图4示出了编码器10和解码器20以段84a为单位在用于基于变换的残差编码/解码的可用变换之间同步切换的方式。图4在附图标记90处示出了由编码器10支持的变换92的集合。图4示出了存在N个变换T_i，其中i＝1......N。在下文描述的实施例中，N是16。然而，如上所述，其他示例可以应用。在图4的另一侧示出了相应的变换96的集合94，解码器20支持用于段84a的在该变换96之间的切换。也就是说，变换是变换T₁的逆变换，并且通常，变换是变换Ti的逆变换，其中，i＝1......N。在下文中，集合90和94彼此没有具体地区分，同时知道集合94的变换96仅仅是集合90的变换92的逆变换。

图4示出了编码器10针对某一段84a选择变换2中的一个变换。该选择由弯曲的双箭头98表示。选择98可以由编码器10使用如上面已经说明的一些优化标准来执行。图4的实施例示出了编码器10被设计成使得对于每一段84a来说，可以选择98整个集合90，即集合90中的每个变换92。更进一步，图4试图示出根据本发明的一个实施例，无论在帧内编码模式104的可用集合102中对相应段84a的编码模式的选择100如何，都应该能够为段84a中的每一个分别选择集合90中的任何/每个变换92，其中所述帧内编码模式104由编码器10和解码器20支持。帧内编码模式104在图4中用CM1、CM2、......CMM表示。帧内编码模式的数量M例如可以大于7或甚至大于15。如上所述，帧内编码模式104可以包括定向模式，并且可选地，包括一个或更多个非定向模式，例如DC模式和/或平面模式。由于决定98允许选择集合90中的N个变换92中的任何一个而不管选择100，所以编码器10能够向段84a分配帧内编码模式104和变换92的N×M个组合中的任何组合。然而，应该强调的是，可以不管帧内编码模式104中的选择100如何而为段84a选择变换92中的任一个的事实并不意味着选择98和100将彼此独立地由编码器10执行。相反，编码器10将执行选择98和100，以使得将帧内编码模式104和变换92的最佳组合被分配给段84a或者被用信号通知给段84a以进行选择。

通过包含在数据流14中用于相应段84a的变换类信号106从编码器10针对段84a用信号通知该选择。图4示出了除了变换类信号106之外，数据流14还包括用于段84a的帧内编码模式信号108的情况。图4还示出了在解码器20处针对片段84a执行的变换96的选择。在变换器96中由解码器110执行的选择在图4中使用双箭头110示出。根据变换类信号106执行选择。为此，解码器20主观地将变换类信号106可以假设的值域映射到变换96的集合94上。也就是说，集合94中的每个变换96都通过映射变换类信号106可以假设的相应值而与所述变换类信号106相关联。当然，编码器10使用相同的映射来设置信号106。以类似的方式，解码器20使用例如帧内编码模式信号108来选择112集合102内将用于段84a的帧内编码模式104。在该实施例的情况下，根据哪一个编码器10能够为段84a选择每个变换92，不管在编码模式104中的选择100如何，从变换类信号106假设的值映射到集合94的变换96的主观性也适用，而不管基于帧内编码模式信号108而选择112的帧内编码模式如何。然而，应当注意，后一种情况不一定意味着根据变换类信号106由解码器20施加的映射以选择110用于段84a的变换96将独立于帧内编码模式信号108。相反，如下面更详细地解释的那样，编码器10和解码器20可能会考虑针对段84a执行的编码模式选择112，以更有效地在数据流14内发送变换类信号106。例如，为段84a选择的帧内编码模式可以用于在对变换类信号106进行上下文中自适应地熵编码来设置上下文和/或可以使用可变长度代码来发送变换类信号，同时改变该可变长度代码的代码的映射，即，一方面变换类信号106可以假定的值，另一方面取决于段84的帧内编码模式的集合94中的变换96。

相对于图5和6描述了后者。使用由前缀130和条件编码后缀132组成的可变长度代码对变换类信号可选进行编码的实施例。在图5中使用大写字母A到O来区分变换类信号106的值。也就是说，在图5的情况下，值的数量示例性地为17。变换的数量N示例性地为16。根据图5的实施例，信号106中的采用第一状态(例如1)的前缀130表示使用空间和/或时间预测或基于在数据流14中的用于相应段的被用信号通知的特征来选择要用于变换类信号106所属的段84a的变换。例如，在前缀130采用第一状态的情况下，可以基于为相邻段选择的变换来确定所选择的变换92/96，另外或可替换地，采用第一状态的前缀130与所选择的变换相关联，或者表示所选择的变换将基于在数据流14中的用于段84a的被用信号通知的特征来决定，其中所述变换类信号106属于该段84a，例如帧内编码模式信号108。换句话说，基于刚刚概述的空间和/或时间预测和/或具有在图5中使用弯曲箭头134表示的该变量关联的特性，对应于采用第一状态1的前缀130的值A与变换92/96中的一个变换变量相关联。在前缀130采用第一状态的情况下，变换类信号106不包括任何后缀132。变换类信号106中的所有其他值B到O对应于包括前缀130和后缀132的变换类信号106，且前缀采用其他(第二)状态(例如零)。在图5所示的示例中，后缀对应于固定长度的二值化，并且对应于由前缀130和后缀132组成的信号106的值的数量等于N，且每个值都对应于变换92/96中的不同变换。也就是说，除了值A之外的其余值B到O被双射地映射到集合90/94中的变换92/96上。该双射映射136例如通过变量关联134固定或独立于与值A相关联的变换。

图6示出了图5的变形例，根据该变形例，变换类信号106可以采用的值的数量正好是N而不是N+1，这与图5中的情况一样，且值B到N被以双射的方式映射到“剩余变换”，即，集合90/94中减去与变换类信号106的值A变量关联的一个变换的所有变换。根据图6，变换类信号106的涉及前缀130加后缀132的这些值的关联或映射136取决于与变换类信号106的仅前缀值变量关联134的变换。

在下文中，用于实现上述实施例的实施方式在下面阐述。如到目前为止所描述的，上述实施例涉及压缩视频比特流的编码/解码，其中各种变换用于对预测残差进行变换或逆变换。根据所述实施例描述的各种变换的使用可以限于帧内编码段或帧内预测段，或者也可以扩展到其他段。如果限于帧内编码段，则上述实施例可以包括其他段，所述其他段稳定地使用用于基于变换的残差解码/编码的一个特定变换，或者根据可以自由选择的规则和相关性使用变换的不同集合。在任何情况下，根据本申请的实施例所选择的变换用于在逆量化之后对相应段进行逆变换，并且在量化之前选择用于基于变换的残差编码的对应变换。

就变换92/96的集合90/94而言，注意以下内容。尽管未在上面具体列出，但是该集合可以包括至少两个彼此不同的变换，且另外还包括或排除恒等变换。所述至少两个变换可以是DCT和DST中的任何一个。优选地，变换92和94对应于一维变换的串联，一个一维变换被水平地施加，另一个一维变换被竖直地施加。在下面描述的实施例中，集合90/94包括多个变换，在所述变换中，一个变换涉及竖直地施加一维变换同时水平地保持在空间中，并且在所述变换中，第二变换涉及水平地施加同一个一维变换，同时保持在空间域中。一般而言，下面描述的特定实施例使用变换的集合，集合90/94，所述集合90/94由一个水平变换和一个竖直变换的不同对组成。特别地，该变换的集合由一维变换的集合中的被水平地施加的第一一维变换和一维变换的同一个集合中的被竖直地施加的第二一维变换的串联组成。一维变换的集合由恒等变换或恒等交换和三个离散余弦/正弦变换组成。然而，离散余弦/正弦变换的数量也可以是任何其他数量，例如一个、两个或甚至多于三个。

如上所述，在编码器处可用的变换可以是下列变换：

○DCT-II(或DCT-III)

○DST-IV

○DCT-IV

○恒等交换(IT)。

显然，在解码器处可用的逆变换则是相应的逆变换。

换句话说，上面表示的集合90和94将由恒等变换、DCT-II、DCT-IV和DST-IV或恒等变换、DCT-III、DCT-IV和DST-IV组成。

根据一个实施例，集合90/94包括施加于行和列(即，竖直地施加和水平地施加)的上述四个变换的任何可能的组合。因此，根据该实施例，可能组合的总数，即变换92/96的数量N是16。当然，变化是可行的，但是模拟显示这些包括16个变换的集合中的任一个的使用导致改进的编码效率。

除了上面提出的描述之外，应注意，对于所有尺寸的段84或仅对于预定尺寸的集合的段，N个变换92/96之间的切换可以由编码器10和解码器20支持。如果对所有尺寸进行切换，则可以独立于包括信号的段尺寸进行切换。如果仅针对预定尺寸的集合进行切换，那么例如，对于在例如由相应段继承的样本的数量中测量的预定尺寸之后的段84，可以分别在编码器和解码器处使用默认变换，且不可避免地允许或不允许绕过任何变换而替代地保留在空间域中。

作为图5和图6的实施例的又一个变形例，要注意的是，变换类信号106可以替代地仅由固定长度的语法元素组成，即仅后缀132将表示变换类信号，且变换类信号106因此使用固定长度的代码被用信号通知。语法元素可以表示为变换类。在集合90和94中使用16个变换的具体示例的情况下，变换类信号或语法元素变换类可以包括固定数量的二进制位，即四个二进制位。

变换类语法元素的四个二进制位(即在使用前缀130的情况下的后缀132的二进制位，或者在离开前缀130的情况下变换类信号的固定数量的二进制位)可以使用上下文自适应二进制位算术编码(即CABAC)进行编码。也可以使用任何其他上下文自适应的熵编码方案。根据为语法元素变换类所属的相应段84选择的帧内模式104选择上下文，并且用于计算该段84的预测残差信号。这样的上下文相关性可以允许更好地适应变换类的统计。

作为第一示例(示例1)，例如，解码器20可以使用值i_c从比特流14读取4个二进制位，其中值i_c是当前帧内模式(即为段84选择的帧内编码模式，4个二进制位从该段84读取，针对所述段84读取4个二进制位，所述4个二进制位形成变换类信号)。换句话说，解码器可以使用值i_c来索引上下文以用于对变换类信号106的每个二进制位b₀...b₃进行熵解码。下表示出了所得到的上下文选择。

二进制位	上下文值
		b<sub>0</sub>	i<sub>c</sub>
b<sub>1</sub>	i<sub>c</sub>
		b<sub>2</sub>	i<sub>c</sub>
b<sub>3</sub>	i<sub>c</sub>

根据另一示例(示例2)，如果当前帧内模式是i_c，则解码器可以从比特流读取2个二进制位以解码行变换，并且读取2个其他的二进制位以解码列变换，其中用于每一类的第一个二进制位的上下文是i_c，以及用于每一类的第二个二进制位的上下文取决于第一个二进制位的上下文。

二进制位	上下文值
		b<sub>0</sub>	i<sub>c</sub>
b<sub>1</sub>	b<sub>0</sub>
		b<sub>2</sub>	i<sub>c</sub>
b<sub>3</sub>	b<sub>2</sub>

“变换类”的值与二进制位之间的映射可以按照以下进行：

第一个示例(示例1)：

变换类	(行，列)	b<sub>3</sub>	b<sub>2</sub>	b<sub>1</sub>	b<sub>0</sub>
						1	(DCT-II，DCT-II)	0	0	0	0
2	(DCT-II，DCT-IV)	0	0	0	1
						3	(DCT-II，IT)	0	0	1	0
4	(DCT-II，DST-IV)	0	0	1	1
						5	(DCT-IV，DCT-II)	0	1	0	0
6	(DCT-IV，DCT-IV)	0	1	0	1
						7	(DCT-IV，IT)	0	1	1	0
8	(DCT-IV，DST-IV)	0	1	1	1
						9	(IT，DCT-II)	1	0	0	0
10	(IT，DCT-IV)	1	0	0	1
						11	(IT，IT)	1	0	1	0
12	(IT，DST-IV)	1	0	1	1
						13	(DST-IV，DCT-II)	1	1	0	0
14	(DST-IV，DCT-IV)	1	1	0	1
						15	(DST-IV，IT)	1	1	1	0
16	(DST-IV，DST-IV)	1	1	1	1

第二个示例(示例2)：

变换类	(行，列)	b<sub>3</sub>	b<sub>2</sub>	b<sub>1</sub>	b<sub>0</sub>
						1	(DCT-II，DCT-II)	0	0	0	0
4	(DCT-II，DST-IV)	0	0	0	1
						13	(DST-IV，DCT-II)	0	0	1	0
16	(DST-IV，DST-IV)	0	0	1	1
						2	(DCT-II，DCT-IV)	0	1	0	0
14	(DST-IV，DCT-IV)	0	1	0	1
						5	(DCT-IV，DCT-II)	0	1	1	0
8	(DCT-IV，DST-IV)	0	1	1	1
						3	(DCT-II，IT)	1	0	0	0
15	(DST-IV，IT)	1	0	0	1
						9	(IT，DCT-II)	1	0	1	0
12	(IT，DST-IV)	1	0	1	1
						6	(DCT-IV，DCT-IV)	1	1	0	0
7	(DCT-IV，IT)	1	1	0	1
						10	(IT，DCT-IV)	1	1	1	0
11	(IT，IT)	1	1	1	1

通过使用相邻TB及其自身的预测类型、帧内模式、编码块标记(CBF)、块尺寸和“变换类”的值，可以提高当前段(TU)的“变换类”的编码效率。例如，让i_l和i_c分别为左TB和当前TB的帧内模式以及t_l和t_c是为所述TB中的每一个选择的变换。然后，如果i_l＝i_c并且t_l＝t_c，那么仅需要一个二进制位来用信号通知必须在解码器处使用的逆变换，即前缀130的二进制位。

可以使用上述实施例和构思通过允许编码器从用于每个TU(变换单元)或TB(变换块)的给定集合选择最合适的变换(即，实现最低速率-失真成本的变换)来改善视频编解码器(例如，HEVC)的帧内编码性能。仅亮度块、TB或段可以进行这里描述的变换切换构思。可以不考虑色度TB，假定色度TB通常将其能量集中在低频分量中，并且因此不需要补充DCT-II，即，可以仅对色度块应用单个变换，且通过使用IT变换允许或不允许留在空间域中。变换的实施以与HEVC的核心变换类似的可分离的方式实施。可分离性是在变换编码的上下文中是有利的特性，这是因为所述可分离性允许使用快速的一维算法，该算法减少了计算二维变换的所需操作的数量。此外，可分离性将块的竖直和水平方向分开，因此允许在每个维度上使用不同的1D变换，这有助于更好地适应内容。为此，在根据本发明的实施例的示例性实施方式中，存在4个可用于行的变换和4个可用于列的变换。由于允许这些变换中的任一些的任意组合，这意味着共有16种不同的可能的变换。可以使新的变换可用于任何TB尺寸(例如，在HEVC的示例性情况下，4×4、8×8、16×16和32×32)。

下面提供关于上述引入的可用变换的集合的某一种集合的论述。

变换池包含下列选项：

_DCT-II

_DST-IV

_DCT-IV

_IT

我们可以看到，所述变换中的三个是DTT，而另一个是IT(DCT-II，DST-IV)、(DCT-IV，DCT-IV)或(IT，DCTII)是可能的变换对的示例。图7显示了所有可能的变换对的完整列表以及它们的基础函数的表示。

不同的标准被考虑以选择这些变换。首先，DCT-II是显而易见的选择，因为DCT-II多年来一直是图像和视频编码应用中的默认变换，并且如果残差统计适应一阶马尔可夫过程模型的话，则效果非常好。

另一方面，如上所述，[6]的发现导致DSTVII作为用于不同类型残差块的适当变换被考虑和引入，这就是为什么它可能是对变换池有用的候选者。然而，替代地，我们决定采用DSTIV来为此目的。为了理解这背后的逻辑，我们必须考虑到DTT形成与离散傅里叶变换(DFT)密切相关的一员，如[11]中所述。实际上，DTT中的每一个都代表了广义DFT(GDFT)的特殊情况，其中每个DTT之间的差异在于在对信号应用DFT之前对信号执行的周期性对称扩展的类型[11]。例如，在众所周知的DCTII的情况下，通过使用信号的半样本甚至对称复制品填充信号的两端来执行扩展，如图8(a)的1D示例中那样。同样的示例是分别在图8(b)和图8(d)中的用于DST-VII和DST-IV。从这两种情况都可以看出，对称扩展是奇数，并且甚至分别在左侧和右侧。不同之处在于左端使用的对称轴线的位置。对于DST-IV，它位于两个样本的中间，但在DST-VII的情况下，它恰好位于一个样本上。该特征和左侧奇数对称的组合迫使一个样本为0。然而，对称扩展实际上仍然是相同的，并且因此两个变换非常相似且渐近等价，其中DST-IV具有像DCTII一样偶数DTT。因此，文献中有许多相关的算法以类似于现有的用于DCT-II的算法[2]的快速方式实施此。

在变换池中包括DCT-II和DST-IV后，我们决定也选择DCT-IV。如图8(c)所示，DCT-IV的对称扩展与DST-IV对称变换正好相反。这一事实导致了两种变换之间非常有趣的关系[2]：

其中，和分别是N点DST-IV和DCT-IV矩阵，J_N是反对角矩阵，其中反对角线上有阵列(IT的反射)，以及D_N是对角矩阵，其中DN＝diag((-1)k)，其中，k＝0；1；.....；N-1[2]。因此，使用DCT-IV具有一些优点：首先，与DST-IV相比，其基础功能显示出相反的行为，如图7(f)和图7(p)所示，该行为对于有效地模拟DST-IV不适合变换的其他类型的残差是有用的。此外，由(1)表达的关系仅涉及DST-IV上某些元素的重新排序和符号变化。因此，在变换池中包含DCTIV不需要另外的存储要求。最后，DCT-IV也是一种偶数DTT，因此DCT-IV可以与已经讨论过的其他两个变换一样的快速方式被实施。

IT代表根本不对信号进行变换的选项。因此，变换对(IT，IT)实际上等效于HEVC的变换跳过模式[1](然而，在量化之前仍然缩放残差样本)。然而，根据一个实施例，对4×4块没有限制，并且IT可以与池中的任何其他变换组合。因此，可以仅变换信号的一个维度(仅行或仅列)，这对于改善某些残差的能量压缩可能是非常有用的。在[12]中提出了类似的方法，以用于结合DCTII进行帧间预测残差。为了避免在编码器处的不必要冗余，因此可以针对帧内预测块禁用HEVC的变换跳过模式，并且因此可以不向这种类型的TB的解码器发送变换跳过标志。尽管在本文的多核变换框架的背景下被呈现为1D变换，但是IT的实施不需要实际执行矩阵乘法是不容置疑的。与在标准HEVC变换跳过模式中一样，简单地跳过变换阶段。然而，仍然在量化之前缩放残差样本。

在编码器处，用于每个亮度TB的变换的选择过程发生在速率-失真环内。下面总结了执行此操作所需的步骤：

1)设Ti和Tj分别是可能的行和列变换，且i，j＝(1，2，3，4)。

2)然后，对于每个变换对pij＝(Ti，Tj)：

a)变换和量化亮度TB。

b)熵编码量化的变换系数和用信号通知变换形式所需的开销比特。

c)获得变换对pij的速率-失真成本J_ij。

3)最后，选择最佳的变换对p*ij＝(Ti，Tj)作为使J_ij最小化的变换对。

无论IPM如何，对每个帧内预测亮度TB执行相同的过程。使用以下公式计算算法中使用的速率-失真成本J。

J＝D+λR， (2)

其中，D是作为原始块和重构块之间的平方差之和而获得的失真，R是将量化系数和编码参数发送到解码器所需的比特数，以及λ是调节失真和速率之间的权衡的常数[13]。

变换信号解决了编码器所采用的变换对判定将被通信给解码器的问题。由于共有16种可能的组合，因此4个二进制位被编码。可以使用针对每个TB的上下文自适应二进制位算术编码(CABAC)[1]。上下文可以取决于用于计算当前TB的残余信号的IPM，因为这允许更好地适应内容的统计。

关于复杂性，上面已经注意到，编码器可以应用完整搜索策略来找到最佳变换对。尽管这种过程确保了速率-失真成本的最小化的事实，但是还意味着算法复杂性的非常显著的增加，假设对于每个亮度TB计算变换、量化和熵编码操作16次。然而，在解码器方面，算法复杂性没有显著增加。其仅需要解析变换选择，并且与编码器不同，对每个亮度TB仅执行一次变换。此外，在接收到等于0的编码块标志(CBF)的情况下，根本不需要变换操作，因为这意味着所有残差系数都是0。

上述概念已在HEVC测试模型(HM)参考软件(版本16.6)中被实施。只有亮度TB受到这种修改的影响。如[14]中所述，变换缩放操作已经被以与HEVC中的DCT-II相同的方式执行。已经使用高效(HE)10位配置文件和全内(AT)配置进行了若干测试，如通用测试条件[15]所示出的那样。

表I：使用AI-HE10配置用于所有序列的比特节省

表I示出了测试结果。每个类别都表示不同类型的分辨率，除了F类的情况之外，其中具有不同分辨率的屏幕内容序列被分组。屏幕内容视频显示计算机生成的图形、文本或动画(单独或与摄像机捕获的场景组合)。我们可以看到，该工具的平均性能是3％的比特率降低。此外，除了F类，所有类别都表现出类似的行为，其中F类的序列实现最佳结果。考虑到我们通过在变换池中实施IT来扩展变换跳过模式的功能，这并不是一个令人惊讶的事实。

上面我们讨论了DST-IV和DST-VII之间的差异和相似之处。为了获得两种变换之间的性能比较，我们已重复了将DST-IV替换为作为可用的1D变换中的一个变换的DST-VII的测试。平均的比特节省结果几乎相同(DST-IV为-3.04％，DST-VII为-3.07％)，这是因为DST-IV在复杂性和存储方面的优势，所以这建议在我们的系统中使用DST-IV作为DST-VII的代替。

最后，峰值信噪比(PSNR)与速率曲线作为用于序列篮球训练的示例呈现。可以观察到，增益更集中在最高速率点附近。这可能是由于在这种情况下编码器能够花费更多比特来用信号通知每个亮度TB的变换，并且因此存在对内容的更高适应性。

综上所述，上述实施例已经解决了用于变换编码目的的DCT-II的次优性。根据实施例已经提出使用DTT系列和IM中的更多变换。

尽管已经在设备的上下文中描述了一些方面，但是显然这些方面也表示对应方法的描述，其中块或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面还表示对应设备的对应块或项目或特征的描述。一些方法步骤或所有方法步骤可以由(或使用)硬件设备执行，所述硬件设备例如是微处理器、可编程计算机或电子电路。在一些实施例中，多个最重要方法步骤中的一个或多个可以由这样的设备执行。

发明的编码视频或图像信号可以存储在数字存储介质上，或者可以在诸如无线传输介质或有线传输介质的传输介质(诸如因特网)上传输。

根据某些实施方式要求，本发明的实施例可以在硬件或软件中被实施。可以使用数字存储介质来执行该实施，所述数字存储介质例如是软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存，所述数字存储介质上存储有电子可读控制信号，该数字存储介质与可编程计算机系统协作(或能够协作)，从而执行相应的方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作，从而执行这里所述的方法中的一个方法。

通常，本发明的实施例可以被实施为具有程序代码的计算机程序产品，该程序代码可操作以用于在计算机程序产品在计算机上运行时执行这些方法中的一个方法。程序代码例如可以存储在机器可读载体上。

其他实施例包括用于执行存储在机器可读载体上的这里所述方法中的一个方法的计算机程序。

换句话说，本发明方法的实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，该程序代码执行这里所述方法中的一个方法。

因此，本发明方法的另一实施例是数据载体(或数字存储介质、或计算机可读介质)，该数据载体包括记录在其上的用于执行这里所述方法中的一个方法的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非过渡的。

因此，本发明方法的另一实施例是表示用于执行这里所述方法中的一个方法的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置成经由数据通信连接(例如，经由因特网)传输。

另一实施例包括诸如计算机的处理装置、或可编程逻辑装置，所述处理装置或可编程逻辑装置被配置成或适于执行这里所述方法中的一个方法。

另一实施例包括计算机，该计算机上安装有用于执行这里所述方法中的一个方法的计算机程序。

根据本发明的另一实施例包括一种设备或系统，该设备或系统被配置成将用于执行这里所述方法中的一个方法的计算机程序传输(例如，以电子或光学方式)到接收器。接收器例如可以是计算机、移动装置、存储装置等。该设备或系统例如可以包括用于将计算机程序传输到接收器的文件服务器。

在一些实施例中，可编程逻辑装置(例如现场可编程门阵列)可以用于执行这里所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作，以便执行这里所述方法中的一个方法。通常，该方法优选地由任何硬件设备执行。

这里描述的设备可以使用硬件设备、或使用计算机，或使用硬件设备和计算机的组合来实施。

这里描述的设备或这里描述的设备的任何部件可以至少部分地在硬件和/或软件中被实施。

这里描述的方法可以使用硬件设备、或使用计算机、或使用硬件设备和计算机的组合被执行。

这里描述的方法或这里描述的设备的任何部件可以至少部分地由硬件和/或软件执行。

上述实施例仅用于说明本发明的原理。应理解，这里所述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此，其意图仅由即将提出的专利权利要求的范围进行限制，而不通过这里的实施例的描述和解释所呈现的具体细节进行限制。

参考文献

[1]G.Sullivan，J.Ohm，W.-J.Han，T.Wiegand，“Overview of the HighEfficiency Video Coding(HEVC)Standard，”Circuits and Systems for VideoTechnology，IEEE Transactions on，第22卷，第12期，第1649-1668页，2012年12月

[2]V.Britanak，P.C.Yip，K.Rao，Discrete Cosine and Sine Transforms：General Properties，Fast Algorithms and Integer Approximations.Oxford：Academic，2007年

[3]M.Effros，H.Feng，K.Zeger，“Suboptimality of the Karhunen-Lo`evetransform for transform coding，”in Data Compression Conference，2003.Proceedings.DCC 2003，2003年3月，第293-302页

[4]V.K.Goyal，“Theoretical Foundations of Transform Coding，”IEEESignal Processing Magazine，第18卷第5期，第9-21页，2001年9月

[5]F.Zou，O.C.Au，C.Pang，J.Dai，X.Zhang，L.Fang，“Rate-DistortionOptimized Transforms Based on the Lloyd-Type Algorithm for Intra B1ockCoding，”IEEE J0urnal of Selected Topics in Signal Processing，第7卷，第6期，第1072-1083页，2013年12月

[6]A.Saxena，F.C.Fernandes，“DCT/DST-Based Transform Coding for IntraPrediction in Image/Video Coding，”IEEE Transactions on Image Processing，第22卷，第10期，第3974-3981页，2013年10月

[7]A.Arrufat，P.Philippe，O.D′eforges，“Non-separable mode dependenttransforms for intra coding in HEVC，”in Visual Communications and ImageProcessing Conference，2014IEEE，2014年12月，第61-64页

[8]“Rate-distortion optimised transform competition for intra codingin hevc，”in Visual Communications and Image Processing Conference，2014IEEE，2014年12月，第73-76页

[9]“Mode-dependent transform competitionfor HEVC，”in Image Processing(ICIP)，2015IEEE International Conference，2015年9月，第1598-1602页

[10]J.Chen，Y.Chen，M.Karczewicz，X.Li，H.Liu，L.Zhang，X.Zhao，“Codingtools investigation for next generation video coding based on HEVC，”inProc.SPIE，Applications of Digital Image Processing XXXVIII，第9599卷，2015，第95991B-95 991B-9页[在线]，网址：http：//dx.doi.org/10.1117/12.2193681

[11]S.A.Martucci，“Symmetric convolution and the discrete sine andcosine transforms，”IEEE Transactions on Signal Processing，第42卷，第5期，第1038-1051页，1994年5月

[12]A.Gabriellini，M.Naccari，M.Mrak，D.Flynn，G.V.Wallendael，“Adaptivetransform skipping for improved coding of motion compensated residuals，”Signal Processing：Image Communication，第28卷，第3期，第197-208页，2013.[在线]网址：http：//www.sciencedirect.com/science/article/pii/S0923596512002093[13]H.Schwarz，T.Schierl，D.Marpe，“Block Structures and Parallelism Features inHEVC，”in High Efficiency Video Coding(HEVC)，ser.Integrated Circuits andSystems，V.Sze，M.Budagavi，and G.J.Sullivan，Eds.Springer InternationalPublishing，2014年，第49-90页

[14]M.Budagavi，A.Fuldseth，G.V.Sze，M.Sadafale，“CoreTransform Design in the High Efficiency Video Coding(HEVC)Standard，”SelectedTopics in Signal Processing，IEEE Journal第7卷，第6期，第1029-1041页，2013年12月

[14]F.Bossen，“Common Test Conditions and Software ReferenceConfigurations，”document JCTVC-L1100of JCT-VC，日内瓦，瑞士，2013年1月

[15]F.Bossen，“Common Test Conditions and Software ReferenceConfigurations，”document JCTVC-L1100of JCT-VC，日内瓦，瑞士，2013年1月

Claims

1.一种用于对来自数据流的图像以预测的方式进行解码的设备，其中所述设备被配置成对来自所述数据流的所述图像的预测残差信号进行解码，并且通过在对所述预测残差信号进行谱至空间变换时支持一组变换之间的切换来使所述预测残差信号经受谱至空间变换。

2.根据权利要求1所述的设备，其中，所述设备支持所述一组变换之间以段为单位的切换，其中所述图像被细分成所述段。

3.根据权利要求2所述的设备，其中，所述设备被配置成：在对所述预测残差信号进行谱至空间变换时，针对帧内编码段支持所述一组变换之间的切换并且针对帧间编码段至少使用一个变换或者使用不同的一组变换之间的切换。

4.根据权利要求2或3所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，根据包含在所述数据流中的用于相应段的变换类，为一组所述段中的每一个段选择所述一组变换中的一个变换，同时针对所述一组段的中每一个段，使用将所述变换类信号能够采用的值域以满射的方式映射到所述一组变换上，以使得对于所述一组段中的每一个段，以独立于所述段的编码模式的方式能够选择所述一组变换中的每一个变换。

5.根据权利要求2至4中的任一项所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，基于从所述数据流导出的用于相应段的邻域的特征为一组所述段中的每一个段进行选择。

6.根据权利要求2至5中的任一项所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，根据包含在所述数据流中的用于所述相应的帧内编码段的变换类信号为所述帧内编码段中的每一个帧内编码段选择所述一组变换中的一个变换，并使用基于上下文的熵解码从所述数据流导出所述变换类信号，其中所述基于上下文的熵解码使用基于相应的所述帧内编码段的帧内编码模式的上下文。

7.根据权利要求2至6中的任一项所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，根据包含在所述数据流中的用于所述相应段的变换类信号，通过根据变换类信号的前缀部分，在没有所述变换类信号的后缀部分的情况下继续解析所述数据流的情况下，通过空间和/或时间预测或基于在所述数据流中的用于相应段的被用信号通知的特征选择所述变换，或者通过从所述数据流导出所述变换类信号的所述后缀部分并基于所述后缀部分选择所述变换，来为一组所述段中的每一个段选择所述一组变换中的一个变换。

8.根据权利要求7所述的设备，其中，所述设备被配置成：以独立于所述空间和/或时间预测和特征的方式，将所述变换类信号的所述后缀部分能够采用的值域分别映射到所述一组变换上。

9.根据前述权利要求中的任一项所述的设备，其中，所述一组变换包括第一谱至空间变换、和不同于所述第一谱至空间变换的第二谱至空间变换。

10.根据前述权利要求中的任一项所述的设备，其中，所述一组变换包括谱至空间变换，所述谱至空间变换是被水平地施加的第一一维谱至空间变换和被竖直地施加的第二一维谱至空间变换的串联，其中所述第一一维谱至空间变换和所述第二一维谱至空间变换彼此不同。

11.根据前述权利要求中的任一项所述的设备，其中，所述一组变换包括：

第一谱至空间变换，所述第一谱至空间变换是被水平地施加同时竖直地保留在空间域中的一维谱至空间变换；和

第一谱至空间变换，所述第一谱至空间变换是被竖直地施加同时水平地保留在空间域中的一维谱至空间变换。

12.根据前述权利要求中的任一项所述的设备，其中，所述一组变换由一组水平变换中的一个水平变换和一组竖直变换中的一个竖直变换的不同对组成。

13.根据前述权利要求中的任一项所述的设备，其中，所述一组变换由一组一维谱至空间变换中的被水平地施加的第一一维谱至空间变换和所述一组一维谱至空间变换中的被竖直地施加的第二一维谱至空间变换的串联组成。

14.根据权利要求13所述的设备，其中，所述一组一维谱至空间变换由恒等变换和一个或更多个离散余弦/正弦变换构成。

15.根据权利要求14所述的设备，其中，所述一组一维谱至空间变换由恒等变换、DCT-II、DCT-IV和DST-IV构成，或者由恒等变换、DCT-III、DCT-IV和DST-IV构成。

16.根据权利要求14或15所述的设备，其中，所述设备被配置成：根据所述数据流中的变换类信号来执行在所述一组变换之间的切换，其中所述变换类信号包括偶数个二进制位，以及所述设备被配置成：使用所述偶数个二进制位的前半部分来索引所述一组一维谱至空间变换中的被水平地施加的第一一维谱至空间变换，并且使用所述偶数个二进制位的后半部分来索引所述一组一维谱至空间变换中的被竖直地施加的第二一维谱至空间变换。

17.根据权利要求16所述的设备，其中，所述偶数个二进制位的前半部分与所述一组一维谱至空间变换之间的关联、以及所述偶数个二进制位的后半部分与所述一组一维谱至空间变换之间的关联是彼此相等的。

18.根据权利要求15所述的设备，其中，所述设备被配置成：根据所述数据流中的变换类信号来执行在所述一组变换之间的所述切换，其中所述变换类信号包括偶数个二进制位，并且所述设备被配置成：通过使用所述偶数个二进制位的前半部分中的第一个二进制位和所述偶数个二进制位的后半部分中的第一个二进制位一方面区分{恒等变换，DST-IV}而另一方面区分{DCT-II/III，DCT-IV}，并且使用所述偶数个二进制位的前半部分中的第二个二进制位和所述偶数个二进制的后半部分中的第二个二进制位一方面区分{恒等变换，DCT-II/III}而另一方面区分{DCT-IV，DST-IV}，来使用所述偶数个二进制位的前半部分来索引所述一组一维谱至空间变换中被水平地施加的第一一维谱至空间变换，并使用所述偶数个二进制位的后半部分来索引所述一组一维谱至空间变换中的被竖直地施加的第二一维谱至空间变换。

19.根据权利要求18所述的设备，其中，所述设备被配置成：分别根据所述前半部分和所述后半部分中的所述第二个二进制位，选择用于对所述前半部分和所述后半部分中的所述第一个二进制位进行上下文自适应地熵解码的上下文。

20.根据权利要求18或19所述的设备，其中，所述设备被配置成：根据对于所述变换类信号被包含在所述数据流中的段的帧内编码模式，选择用于对所述前半部分和所述后半部分中的所述第二个二进制位进行上下文自适应地熵解码的上下文。

21.一种用于以预测的方式对图像进行编码的设备，其中，所述设备被配置成：通过在对所述图像的预测残差信号进行空间至谱变换时支持一组变换之间的切换来使所述预测残差信号经受空间至谱变换，并且将所述预测残差信号编码到所述数据流中。

22.根据权利要求21所述的设备，其中，所述设备支持所述一组变换之间以段为单位的切换，其中所述图像被细分成所述段。

23.根据权利要求22所述的设备，其中，所述设备被配置成：当在对所述预测残差信号进行空间至谱变换时，针对帧内编码段支持在所述一组变换之间的切换并且针对帧间编码段稳定地使用一个变换或者使用不同的一组变换之间的切换。

24.根据权利要求22或23所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，通过所述数据流中用于相应段的变换类信号，针对一组所述段中的每一个段，用信号通知所述一组变换中的一个变换，同时使用针对所述一组段的中每一个段，将所述变换类信号能够采用的值域以满射的方式映射到所述一组变换上，以使得对于所述一组段中的每一个段，都能够以独立于所述相应段的编码模式的方式用信号通知所述一组变换中的每一个变换。

25.根据权利要求24所述的设备，其中，所述设备被配置成还基于在所述数据流中被用信号通知的用于所述相应段的邻域的特征来执行信号通知。

26.根据权利要求22至25中的任一项所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，通过所述数据流中用于相应段的变换类信号为所述帧内编码段中的每一个帧内编码段用信号通知所述一组变换中的一个变换，并使用基于上下文的熵编码将所述变换类信号编码到所述数据流中，所述基于上下文的熵解码使用基于相应的所述帧内编码段的帧内编码模式的上下文。

27.根据权利要求22至26中的任一项所述的设备，其中，所述设备被配置成：当在所述一组变换之间进行切换时，经由在所述数据流中的用于所述相应段的变换类信号，通过经由所述变换类信号的前缀部分，在用于所述相应段的转换类别信号控制保持没有后缀部分的情况下，用信号通知所述变换在空间和/或时间上被预测，或者用信号通知用于所述相应段的变换类信号的后缀部分被包含在所述数据流中并基于所述后缀部分选择所述变换，针对所述一组段中的每一个段，用信号通知所述一组变换中的一个变换。

28.根据权利要求27所述的设备，其中，所述设备被配置成以独立于所述空间和/或时间预测和特征的方式使用所述变换类信号的所述后缀部分能够采用的值域到所述一组变换上的映射来设定所述后缀部分。

29.根据权利要求21至29中的任一项所述的设备，其中，所述变换的集合包括第一空间至谱变换和不同于所述第一空间至谱变换的第二空间至谱变换。

30.根据权利要求21至29中的任一项所述的设备，其中，所述一组变换包括空间至谱变换，所述空间至谱变换是被水平地施加的第一一维空间至谱变换和被竖直地施加的第二一维空间至谱变换的串联，其中所述第一一维空间至谱变换和所述第二一维空间至谱变换彼此不同。

31.根据权利要求21至30中的任一项所述的设备，其中，所述一组变换包括：

第一空间至谱变换，所述第一空间至谱变换是被水平地施加且同时竖直地保留在空间域中的一维空间至谱变换；和

第一空间至谱变换，所述第一空间至谱变换是被竖直地施加且同时水平地保留在空间域中的一维空间至谱变换。

32.根据权利要求21至31中的任一项所述的设备，其中，所述一组变换由一组水平变换中的一个水平变换和一组竖直变换中的一个竖直变换的不同对组成。

33.根据权利要求21至32中的任一项所述的设备，其中，所述一组变换由一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换和所述一组一维空间至谱变换中的被竖直地施加的第二一维谱至空间变换的串联组成。

34.根据权利要求33所述的设备，其中，所述一组一维空间至谱变换由恒等变换和一个或更多个离散余弦/正弦变换构成。

35.根据权利要求34所述的设备，其中，所述一组一维空间至谱变换由恒等变换、DCT-II、DCT-IV和DST-IV构成，或者由恒等变换、DCT-III、DCT-IV和DST-IV构成。

36.根据权利要求34或35所述的设备，其中，所述设备被配置成：通过所述数据流中的变换类信号来用信号通知所述一组变换之间的切换，其中所述变换类信号包括偶数个二进制位，并且所述设备配置成：使用所述偶数个二进制位的前半部分来索引所述一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换，并且使用所述偶数个二进制位的后半部分来索引所述一组一维空间至谱变换中的被竖直地施加的第二一维空间至谱变换。

37.根据权利要求36所述的设备，其中，所述偶数个二进制位的前半部分和所述一组一维空间至谱变换之间的关联、以及所述偶数个二进制位的后半部分与所述一组一维空间至谱变换之间的关联是彼此相等的。

38.根据权利要求35所述的设备，其中，所述设备被配置成：通过所述数据流中的变换类信号来用信号通知所述一组变换之间的所述切换，其中所述变换类信号包括偶数个二进制位，并且所述设备被配置成：通过使用所述偶数个二进制位的前半部分中的第一个二进制位和所述偶数个二进制位的后半部分中的第一个二进制位一方面区分{恒等变换，DST-IV}而另一方面区分{DCT-II/III，DCT-IV}，并且使用所述偶数个二进制位的前半部分中的第二个二进制位和所述偶数个二进制的后半部分中的第二个二进制位一方面区分{恒等变换，DCT-II/III}而另一方面区分{DCT-IV，DST-IV}，来使用所述偶数个二进制的前半部分来索引所述一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换，并使用所述偶数个二进制的后半部分来索引所述一组一维空间至谱变换中的被竖直地施加的第二一维空间至谱变换。

39.根据权利要求38所述的设备，其中，所述设备被配置成：分别根据所述前半部分和所述后半部分中的所述第二个二进制位，选择用于对所述前半部分和所述后半部分中的所述第一个二进制位进行上下文自适应地熵解码的上下文。

40.根据权利要求38或39所述的设备，其中，所述设备被配置成：根据对于所述变换类信号被包含在所述数据流中的段的帧内编码模式，选择用于对所述前半部分和所述后半部分中的所述第二个二进制进行上下文自适应地熵解码的上下文。

41.一种数据流，所述数据流具有通过使用预测残差信号的预测编码和空间至谱变换编码被编码到所述数据流中的图像，其中构成所述预测残差信号的所述空间至谱变换编码的基础的变换在一组变换之间进行切换。

42.根据权利要求41所述的数据流，其中，在所述一组变换的之间的切换以段为单位发生，其中所述图像被细分成所述段。

43.根据权利要求42所述的数据流，其中，在所述一组变换的之间的切换施加于帧内编码段并且至少进行一个变换，或者针对帧间编码段，使用在所述预测残差信号的空间至谱变换编码中使用的不同的一组变换之间的切换。

44.根据权利要求42或43所述的数据流，其中，所述数据流包括：用于一组所述段中的每一个段的变换类信号，所述变换类信号针对所述一组段中的每一个段，以独立于相应段的编码模式的方式，使用将所述变换类信号能够采用的值域到所述一组变换的满射映射，来用信号通知所述一组变换中用于所述相应段的一个变换。

45.根据权利要求44所述的数据流，其中，所述用信号通知还基于在所述数据流中被用信号通知的用于所述相应段的邻域的特征。

46.根据权利要求42至45中的任一项所述的数据流，其中，所述数据流包括用于帧内编码段中的每一个帧内编码段的变换类信号，所述变换类信号用信号通知所述一组变换中的用于所述相应段的一个变换，其中所述变换类信号使用基于上下文的熵解码被编码到所述数据流中，所述基于上下文的熵解码使用基于相应的所述帧内编码段的帧内编码模式的上下文。

47.根据权利要求42至46中的任一项所述的数据流，其中，所述数据流包括用于所述一组段中的每一个段的变换类信号，所述变换类信号用信号通知所述一组变换中的用于所述相应段的一个变换，其中

所述变换类信号的前缀部分用信号通知：所述变换在用于所述相应段的所述变换类信号保持没有后缀情况下在空间和/或时间上被预测，或者

所述变换类信号的前缀部分用信号通知：用于所述相应段的变换类信号的后缀部分被包含在所述数据流中并所述变换基于所述后缀部分被选择。

48.根据权利要求47的数据流，其中，所述后缀部分使用所述变换类信号的所述后缀部分能够采用的值域到所述一组变换上的映射被设定，其中所述映射独立于所述空间和/或时间预测。

49.根据权利要求41至49中的任一项所述的数据流，其中，所述一组变换包括：

第一空间至谱变换和不同于所述第一空间至谱变换的第二空间至谱变换。

50.根据权利要求41至49中的任一项所述的数据流，其中，所述一组变换包括空间至谱变换，所述空间至谱变换是被水平地施加的第一一维空间至谱变换和被竖直地施加的第二一维空间至谱变换的串联，其中，所述第一一维空间至谱变换和所述第二一维空间至谱变换彼此不同。

51.根据权利要求41至50中的任一项所述的数据流，其中，所述一组变换包括：

52.根据权利要求41至51中的任一项所述的数据流，其中，所述一组变换由一组水平变换中的一个水平变换和一组竖直变换中的一个竖直变换的不同对组成。

53.根据权利要求41至52中的任一项所述的数据流，其中，所述一组变换由一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换和所述一组一维空间至谱变换中的被竖直地施加的第二一维谱至空间变换的串联组成。

54.根据权利要求53所述的数据流，其中，所述一组一维空间至谱变换由恒等变换和一个或更多个离散余弦/正弦变换构成。

55.根据权利要求54所述的数据流，其中，所述一组一维空间至谱变换由恒等变换、DCT-II、DCT-IV和DST-IV构成，或者由恒等变换、DCT-III、DCT-IV和DST-IV构成。

56.根据权利要求54或55所述的数据流，其中，所述数据流包括变换类信号，所述变换类信号用信号通知所述一组变换之间的切换，其中所述变换类信号包括偶数个二进制位，其中所述偶数个二进制位的前半部分索引一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换，并且所述偶数个二进制位的后半部分索引所述一组一维空间至谱变换中的被竖直地施加的第二一维空间至谱变换。

57.根据权利要求56所述的数据流，其中，所述偶数个二进制位的前半部分和所述一组一维空间至谱变换之间的关联、以及所述偶数个二进制位的后半部分与所述一组一维空间至谱变换之间的关联是彼此相等的。

58.根据权利要求55所述的数据流，其中，所述数据流包括变换类信号，所述变换类信号用信号通知所述一组变换之间的切换，其中所述变换类信号包括偶数个二进制位，并且所述偶数个二进制位的前半部分索引所述一组一维空间至谱变换中的被水平地施加的第一一维空间至谱变换，并且所述偶数个二进制位的后半部分索引所述一组一维空间至谱变换中的被竖直地施加的第二一维空间至谱变换，其中所述偶数个二进制位的前半部分中的第一个二进制位和所述偶数个二进制位的后半部分中的第一个二进制位一方面区分{恒等变换，DST-IV}而另一方面区分{DCT-II/III，DCT-IV}，并且所述偶数个二进制位的前半部分中的第二个二进制和所述偶数个二进制位的后半部分中的第二个二进制一方面区分{恒等变换，DCT-II/III}而另一方面区分{DCT-IV，DST-IV}。

59.根据权利要求58所述的数据流，其中，所述前半部分和所述后半部分的所述第一个二进制位被上下文自适应地熵解码到所述数据流中所使用的上下文基于所述前半部分和所述后半部分的所述第二个二进制位来设定。

60.根据权利要求58或59所述的数据流，其中，所述前半部分和所述后半部分的所述第二个二进制被上下文自适应地熵解码到所述数据流中所使用的上下文基于对于所述变换类信号被包含在所述数据流中的段的帧内编码模式来设定。

61.一种用于对来自数据流的图像以预测的方式进行解码的方法，其中所述方法包括：对来自所述数据流的所述图像的预测残差信号进行解码，并且通过在对所述预测残差信号进行谱至空间变换时支持一组变换之间的切换来使所述预测残差信号经受谱至空间变换。

62.一种用于将图像以预测的方式编码到数据流中的方法，其中，所述方法包括：通过在对所述图像的预测残差信号进行空间至谱变换时支持一组变换之间的切换来使所述预测残差信号经受空间至谱变换，并且将所述预测残差信号编码到所述数据流中。

63.一种计算机程序，具有用于当在计算机上运行时执行根据权利要求61或62所述的方法的程序代码。