CN110476426A

CN110476426A - 多重转换预测

Info

Publication number: CN110476426A
Application number: CN201880020658.5A
Authority: CN
Inventors: 徐志玮; 江嫚书
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2019-11-19
Also published as: TW201842779A; US20180288439A1; TWI681671B; WO2018177300A1

Abstract

本发明提供了一种有效的多重转换的发送方法，以进一步提供编解码性能。不是使用以预设且固定的方式分配给不同转换的码字，而是不同转换模式被动态地映射到不同的码字。默认程序被使用以将码字分配给不同转换模式。成本被计算以用于每个候选转换模式，且具有最小成本的转换模式被选择为预测转换模式，所选择的预测转换模式被分配最短码字。

Description

多重转换预测

交叉申请

本发明主张在2017年03月31日提出申请的申请号为62/479,351的美国临时专利申请以及在2017年03月31日提出申请的申请号为62/480,253的美国临时专利申请的优先权。上述列出的申请的内容以引用方式并入本文中。

技术领域

本发明一般涉及视频处理。具体地，本发明涉及发送转换操作的选择。

背景技术

除非此处另有说明，本部分所描述的方法相对于下面列出的权利要求而言不是现有技术，并且透过本部分的引入不被承认是现有技术。

高效视频编解码(High-Efficiency Video Coding，HEVC)是由关于视频编解码的联合探索团队开发的新国际视频编解码标准。HEVC以混合基于块的运动补偿的类DCT转换编解码架构为基础。压缩的基础单元，称为编码单元(coding unit，CU)，为2Nx2N正方形块，每个编码单元可以被递归地分割成四个更小的编码单元，直到预定义最小尺寸被达到。每个编码单元包含一个或多个预测单元(prediction unit，PU)。预测之后，一个编码单元被进一步分割成转换单元(transform unit，TU)以用于转换和量化。

像很多其他先前标准，HEVC采用离散余弦转换类型II(Discrete CosineTransform type II，DCT-II)作为其核心转换，因为其具有较强的“能量压缩”特性。大部分的信号信息趋于被集中在DCT-II的少量低频分量中，其基于马尔可夫(Markov)处理的某些限制近似于用于信号的卡洛南-洛伊变换(Karhunen-Loève Transform，KLT)(其在去相关意义上是最优的)。信号f[n]的N点DCT-II被定义为：

对于帧内预测残差，存在除了可以用作核心转换的DCT-II之外的转换。在JCTVC-B024、JCTVC-C108和JCTVC-E125中，离散正弦转换(Discrete Sine Transform，DST)被引入以可选地与DCT一起使用，以用于倾斜帧内模式(oblique intra modes)。对于帧间预测残差，DCT-II是当前HEVC中使用的唯一转换。然而，DCT-II不是所有情况下的最优转换。在JCTVC-G281中，离散正弦转换类型VII(Discrete Sine Transform type VII，DST-VII)和离散余弦转换类型IV(Discrete Cine Transform type IV，DST-IV)被提出以在一些情况下替代DCT-II。同样地，在JVET-D1001中，适应性多重转换方案用于帧内编解码(intracoded)块和帧间编解码(inter coded)块的残差编解码。在HEVC中，除了当前转换之外，其采用自DCT/DST族选择的多个转换。新引入的转换矩阵是DST-VII、DCT-VIII、DST-I和DCT-V。表1概述了N点输入的每个转换的转换基础函数。

表1：N点输入的转换基础函数

除了DCT转换作为转换单元的核心转换之外，二次转换用于进一步压缩系数的能量并提高编解码效率。例如，在JVET-D1001中，基于Hypercube-Givens转换(Hypercube-Givens Transform，HyGT)的不可分离转换用作二次转换，其称为不可分离二次转换(non-separable secondary transform，NSST)。这个正交转换的基础元素是Givens旋转，其由正交矩阵G(m,n,θ)来定义，具有由如下定义所示的元素：

HyGT透过组合超立方体排列中的Givens旋转的集合来实作。

发明内容

以下发明内容仅是说明性的，不打算以任何方式加以限制。也就是说，以下发明内容被提供以介绍此处所描述的新且非显而易见的技术的概念、重点、好处和优势。选择而不是所有的实施方式在下面的详细说明中进行进一步描述。因此，以下发明内容不用于确定所要求主题的本质特征，也不用于确定所要求主题的范围。

一些实施例提供了在编码或解码视频图像中的像素块时发送转换的选择的方法。编码器或解码器接收透过使用从多个候选转换模式中选择的目标转换模式编码的多个转换系数。编码器或解码器计算每个候选转换模式的成本，并识别最低成本候选转换模式作为预测转换模式。编码器或解码器根据多个候选转换模式的顺序，将不同长度的多个码字分配给多个候选转换模式。预测转换模式被分配最短码字。编码器或解码器识别匹配目标转换模式的候选转换模式，并将相应码字分配给识别的候选转换模式。

在一些实施例中，多个候选转换模式中的每个转换模式是不可分离二次转换模式。在一些实施例中，多个候选转换模式中的每个转换模式是核心转换。在一些实施例中，像素块由特定帧内编解码模式编解码成转换系数集。多个候选转换模式是被映射到特定帧内编解码模式的多个候选转换模式。在一些实施例中，多个候选转换模式的顺序是基于多个候选转换模式的多个已计算成本的。在一些实施例中，多个候选转换模式的顺序是基于预设表格的，其中预设表格基于与预测转换模式的多个关系来指定顺序。与每个候选转换模式相关的成本可以是透过适应性地缩放或选择像素块的多个转换系数来计算的。与每个候选转换模式相关的成本也可以是透过适应性地缩放或选择像素块的多个已重构残差来计算的。与每个候选转换模式相关的成本可以是透过计算差值来确定，该差值为块的多个像素与多个空间相邻块中的多个像素之间的差来确定的，其中块的多个像素是自块的残差与块的多个已预测像素而被重构的。在一些实施例中，与每个候选转换模式相关的多个转换系数是在重构相应候选转换模式的残差时适应性地缩放或选择的。与每个候选转换模式相关的像素块的已重构残差是在重构相应候选转换模式的多个像素时适应性地缩放或选择的。正在重构的块的像素集包括相邻于多个空间相邻块的多个像素且不包括块的所有像素。与每个候选转换模式相关的成本是透过测量块的已重构残差的能量来确定的。

附图说明

下列图式用以提供本发明的进一步理解，并被纳入且构成本发明的一部分。这些图式说明了本发明的实施方式，并与说明书一起用以解释本发明的原理。为了清楚地说明本发明的概念，这些图式无需按照比例绘制，例如，与实际实施方式中的尺寸相比，一些组件可以不按照比例被示出。

图1显示了68种帧内预测模式与35个不可分离二次转换集之间的相应关系。

图2示出了示例的不可分离二次转换集及由截断一元(truncate unary)编解码所生成的其相应码字。

图3示出了基于与转换集的不同不可分离二次转换模式相关的成本的不可分离二次转换集的示例码字分配。

图4示出了基于每个候选转换模式的当前块的已重构像素与相邻块的已重构像素之间的相关性的转换单元的成本计算。

图5示出了基于测量每个候选转换模式的已重构残差的能量的转换单元的成本计算。

图6标出了使用动态码字分配以发送从多个候选转换中选择一个转换的示例视频编码器。

图7示出了实作用于发送从多个转换中进行选择的动态码字分配的编码器的部分结构。

图8概念性示出了成本分析及由转换预测模块执行的码字分配操作。

图9概念性示出了透过使用动态码字分配发送从多个候选转换中选择一个转换的流程。

图10标出了使用动态码字分配以接收从多个候选转换中选择一个转换的示例视频解码器。

图11示出了实作用于接收核心转换的选择和二次转换的选择的动态码字分配的解码器的部分结构。

图12概念性示出了成本分析及由转换码字解码模块执行的码字分配操作。

图13概念性示出了使用动态码字分配以接收从多个候选转换中选择一个转换的流程。

图14概念性示出了实作本发明的一些实施例的电子系统。

具体实施方式

在下面详细的说明书中，为了透彻理解相关教示内容，透过举例的方式进行说明大量具体的细节。基于本文所描述的教示内容的任何改变、推导和/或拓展均在本发明的保护范围内。在一些例子中，为了避免不必要地混淆本发明的教示内容的方面，在相对较高的级别而无细节上描述已知的方法、程序、组件和/或关于此处所公开的一个或者多个示例性实施方式的电路。

随着越来越多转换正在被引入且用于编解码，多重转换的发送变得更加复杂，其可能需要更高的比特率。然而，具有更高压缩效率的多重转换发送方案可以提高整体编解码性能。

本发明一些实施例提供了有效的多重转换的发送方法以进一步提高编解码性能。不使用以预设且固定的方式分配给不同转换的码字，本方法将不同转换模式动态地映射到不同码字(转换模式可以是特定转换，或者根本不是转换)。在一些实施例中，本方案使用默认程序以将码字分配给不同转换模式。在本程序中，成本被计算以用于每个候选转换模式，并且具有最小成本的转换模式被选择为预测转换模式，并且所选择的预测转换模式被分配最短码字。

在一些实施例中，多个候选转换模式中的每个转换模式是核心转换，其可以是DCT或DST的类型。在一些实施例中，多个候选转换模式中的每个转换模式是不可分离二次转换模式。

在JEM-4.0(JVET的参考软件)中，存在35×3个不可分离二次转换以均用于4x4转换单元尺寸和8x8转换单元尺寸，其中35是由帧内预测模式所指定的转换集的数量，3是可用于每个帧内预测模式的候选二次转换的数量。不可分离二次转换基于HyGT。这个正交转换的基础元素是Givens旋转。每个帧内预测模式的三种候选转换可以被视为帧内预测模式的不可分离二次转换的不同的旋转角度(即θ)。

图1显示了68种帧内预测模式与35个不可分离二次转换集之间的相应关系。因此，例如，由帧内模式48帧内编解码的像素块将使用不可分离二次转换集(NSST集)20以用于二次转换。尽管图1中未示出，但是此像素块可以使用二次转换的不可分离二次转换集20的3种可能的转换中的任何一个或不使用这3种可能的转换。像素块可以是编码单元、转换单元、宏块或被编码为单元的任何像素矩形矩阵。

图2示出了示例的不可分离二次转换集200及其基于截断一元(truncate unary)编解码的相应码字。本示例的不可分离二次转换集可以是35个不可分离二次转换集中的任何一个。转换集200可以具有四种模式，其对应于在集200中选择一个转换或不选择转换。每个模式与指示哪种二次转换被使用的索引相关，以使得四种模式被索引为‘0’到‘3’。不可分离二次转换模式(NSST模式)‘0’对应于没有不可分离二次转换。不可分离二次转换模式‘1’对应于集200的第一不可分离二次转换。不可分离二次转换模式‘2’对应于集200的第二不可分离二次转换。不可分离二次转换模式‘3’对应于集200的第三不可分离二次转换。每个不可分离二次转换模式也被映射到码字。在本示例中，不可分离二次转换模式基于截断一元编解码来分配码字。具体地，不可分离二次转换模式‘0’被映射到最短码字‘0’，而不可分离二次转换模式‘1’、不可分离二次转换模式‘2’和不可分离二次转换模式‘3’分别被映射到较长的码字‘10’、码字‘110’、码字‘111’。

图3示出了不可分离二次转换集的示例码字分配，其基于与转换集的不同不可分离二次转换模式相关的成本。在本示例中，不可分离二次转换模式‘3’具有最低成本，从而其被分配最短码字“0”。因此不可分离二次转换码字‘3’也被选择为预测的二次转换。不可分离二次转换模式‘0’具有次最低成本，从而其被分配次最短码字“10”。不可分离二次转换模式‘1’和不可分离二次转换模式‘2’具有两个最高成本，从而其分别被分配两个最长的码字“110”和码字“111”。总之，不同的不可分离二次转换模式以由其各自的成本所确定的顺序被分配不同长度的码字。

图2和图3示出了根据成本透过排列不同二次转换模式而将不同长度的码字分配给不同的二次转换。在一些实施例中，不同长度的码字可以被分配给其他类型的候选转换模式。具体地，在一些实施例中，不同长度的码字透过根据成本排列不同核心转换模式而被分配给不同的核心转换模式。例如，在一些实施例中，对于每个帧内编解码块，不同的可能核心转换(例如，DCT-II、DCT-V、DCT-VIII、DST-I和DST-VII)的成本被计算，且具有最低成本的核心转换被选择为预测的核心转换，并被分配最短码字。

在一些实施例中，基于已计算成本而分配码字的方案仅应用于候选转换模式的子集。换言之，候选转换模式中的一个或多个被分配固定码字，而无论成本如何，而剩余的候选转换模式基于与这些转换模式相关的成本而被动态分配码字。

通常，一个顺序被创建以用于这个集中间的转换，并且码字根据此顺序来进行分配。此外，更短的码字被分配给位于此顺序的前面附近的转换，而更长的码字被分配给位于此顺序的末端附近的转换。

存在将码字分配给不同可能转换的若干方法。在一些实施例中，预设表格被使用以指定与所选择的预测的转换相关的顺序。例如，如果预测转换是基于特定旋转角度的二次转换，则基于近旋转角度的二次转换被定位在此顺序的前面附近，而基于远旋转角度的二次转换被定位到此顺序的末端。在一些实施例中，基于结合图3所描述的成本，此顺序被创建，其中最低成本转换被选择为预测的转换，并被分配最短码字。

在预测转换模式被确定且所有其他转换模式也被映射到顺序或排序列表中之后，透过比较目标转换与预测的转换，编码器可以发送目标转换。目标转换是由编码器或编解码流程选择以编码用于传送或存储的像素块。如果目标转换恰好是预测的转换，则预测的转换的码字(通常是最短码字)可以用于发送。如果不是这种情况，则编码器还可以搜索排序列表以定位目标转换在此顺序中的位置及相应码字。下面将结合图6-图8描述使用动态码字以发送转换选择的示例编码器。

在解码器处，相同的成本计算被执行以用于转换集中的不同转换，基于相同的成本计算，相同的预测转换被识别出，并且相同的排序列表被创建。如果解码器接收预测的转换的码字，则解码器将了解到目标转换是预测的转换。如果不是这种情况，则解码器可以在排序列表中查找码字，以识别出目标转换。如果预测是成功的(例如，预测的转换的击中率较高，使得最短码字被非常频繁地使用)，则转换选择的发送可以使用更少比特进行编解码，而无需预测顺序。下面将结合图10-图12描述接收动态码字以选择转换的示例解码器。

不同的方法可以被使用以计算多重转换的成本。当特定转换被应用时，特定转换的成本是自当前块的已重构像素或已重构残差计算的。当前块的量化转换系数(或转换单元系数)(由核心转换和/或二次转换所产生的)被去量化，随后被逆转换(由逆二次转换和/或核心转换)，以生成已重构残差。(残差指的是由帧内或帧间预测所生成的块的源像素值与块的已预测像素值之间的像素值差；以及已重构残差是自转换系数重构的残差。)透过将块的已重构残差与由帧内或帧间预测生成的预测子或已预测像素相加，当前块的已重构像素可以被重构。(当前块的已重构像素称为一些实施例的特定核心转换或二次转换的一个假设重构)。

在一些实施例中，边界匹配方法被使用，以计算成本。假设已重构像素高度相关于重构相邻像素，则特定转换模式的成本可以透过测量边界相似度而被计算。

图4示出了基于当前块的已重构像素与相邻块的已重构像素(块的每个像素值由p标记)之间的相关性的转换单元400的成本计算。对于转换单元400，一个假设重构被生成以用于一个特定(核心或二次)转换。在一些实施例中，与假设重构相关的成本被计算为：

该成本基于沿着转换单元的顶端边界和左侧边界(具有先前重构块的边界)的像素而被计算。在本边界匹配流程中，仅边缘像素被重构。在一些实施例中，当用于不同核心转换的成本计算重构像素时，逆二次转换可以被省略以便降低复杂度。在一些实施例中，当多个已重构残差时，多个转换系数可以被适应性地缩放或选择。在一些实施例中，当重构块的多个像素时，多个已重构的残差可被适应性地缩放或选择。在一些实施例中，边界像素的不同数量或边界的不同形状(例如，仅顶端、仅上方、仅左侧或者其他延伸)被使用以计算成本。在一些实施例中，不同的成本函数可以被使用以测量边界相似度。例如，在一些实施例中，边界匹配成本函数可以把用于成本的计算的二次转换的相应的帧内预测模式的方向考虑在内。

在一些实施例中，成本不是基于已重构像素执行边界匹配，而是基于已重构残差的特征而被计算，例如，透过测量已重构残差的能量。图5示出了基于测量已重构残差的能量的转换单元500的成本计算(位于像素位置处的每个残差被标记为r。)。特定转换的成本被计算为透过使用此转换重构的选择的残差集的绝对值之和。

在不同的实施例中，残差的不同集(或不同形状)可以被使用以生成成本。具体地，成本1被计算为顶端行和左侧的残差的绝对值之和：

具体地，成本2被计算为残差的中心区域的绝对值之和：

具体地，成本3被计算为残差的右下角区域的绝对值之和：

示例视频编码器

图6标出了使用动态码字分配以发送从多个候选转换中选择一个转换的示例视频编码器600。如图所示，视频编码器600从视频源605接收输入视频信号并将该信号编码成比特流695。视频编码器600具有用于编码视频信号605的若干组件或模块，包括转换模块610、量化模块611、逆量化模块614、逆转换模块615、帧内图像估计模块620、帧内图像预测模块625、运动补偿模块630、运动估计模块635、环路滤波器645、已重构图像缓存器650、运动向量缓存器(MV缓存器)665、运动向量预测模块(MV预测)675以及熵编码器690。

在一些实施例中，模块610-模块690是由计算设备或电子装置的一个或多个处理单元(例如，处理器)执行的软件指令的模块。在一些实施例中，模块610-模块690是由电子装置的一个或多个集成电路(integrated circuit，IC)实作的硬件电路的模块。虽然模块610-模块690被示出为分离的模块，但是一些模块可以被组合成单个模块。

视频源605提供原始视频信号，其呈现没有压缩的每个视频信息框的像素数据。减法器608计算视频源605的原始视频像素数据与来自于运动补偿630或者帧内图像预测625的预测像素数据613之间的差。转换610将此差(或残差像素数据)转换为转换系数(例如，透过执行离散余弦转换)。量化器611将转换系数量化为已量化数据(或已量化系数)，其由熵编码器690编码到比特流695中。

逆量化模块614去量化已量化数据(或已量化系数)612，以获得转换系数，逆转换模块615对转换系数执行逆转换以产生已重构残差619。已重构残差619与预测像素数据613进行相加，以产生已重构像素数据617。在一些实施例中，已重构像素数据617被暂时存储在线缓存器(未示出)中以用于帧内图像预测和空间运动向量预测。已重构像素由环路滤波器645进行滤波并被存储在已重构图像缓存器650中。在一些实施例中，已重构图像缓存器650是视频编码器600的外部存储。在一些实施例中，已重构图像缓存器650是视频编码器600的内部存储。

帧内图像估计模块620基于已重构像素数据617执行帧内预测，以产生帧内预测数据。帧内预测数据被提供给熵编码器690以被编码到比特流695中。帧内预测数据还由帧内图像预测模块625使用，以产生预测像素数据613。

运动估计模块635透过产生对存储在已重构图像缓存器650中的先前已解码信息框的像素数据的运动向量，执行帧间预测。这些运动向量被提供给运动补偿模块630以产生预测像素数据。视频编码器600使用运动向量预测产生预测的运动向量，并且用于运动补偿的运动向量与预测的运动向量之间的差被编码为残差运动数据并被存储在比特流695中，而不是将完整实际运动向量编码到比特流中。

基于生成用于编码先前视频信息框的参考运动向量(motion vector，MV)，即，用于执行运动补偿的运动补偿运动向量，运动向量预测模块675生成已预测运动向量(已预测MV)。运动向量预测模块675从来自于运动向量缓存器665的先前视频信息框中检索出参考运动向量。视频编码器600将生成以用于当前视频信息框的运动向量存储在运动向量缓存器665中作为用于生成预测的运动向量的参考运动向量(参考MV)。

运动向量预测模块675使用参考运动向量创建预测的运动向量。预测的运动向量可以由空间运动向量预测或时间运动向量预测计算。预测的运动向量可以由空间运动向量预测子或时间运动向量预测计算。当前信息框(残差运动数据)的预测的运动向量与运动补偿运动向量(motion compensation MV，MC MV)之间的差由熵编码器690编码进比特流695中。

熵编码器690透过使用诸如上下文适应性二进制算术编码(Context-basedAdaptive Binary Arithmetic Coding，CABAC)或霍夫曼编码(Huffman encoding)的熵编码技术将各种参数和数据编码到比特流695中。熵编码器690将诸如已量化转换数据和残差运动数据的参数编码到比特流中。

环路滤波器645对已重构像素数据617进行滤波操作或平滑操作以减少编码的失真，特别是在像素块的边界处。在一些实施例中，所执行的滤波操作包括采样自适应偏移(Sample Adaptive Offset，SAO)。在一些实施例中，滤波操作包括自适应环路滤波器(Adaptive Loop Filter，ALF)。

图7示出了实作用于发送从多个转换中进行选择的动态码字分配的编码器600的部分。具体地，编码器600实作用于发送核心转换或二次转换的选择的动态码字。

在一个实施例中，转换模块610对残差信号609执行核心转换和不可分离二次转换，并且逆转换模块615执行相应的逆核心转换和逆二次转换。编码器600选择用于转换模块610和逆转换模块615的核心转换(目标核心模式)和二次转换(目标不可分离二次转换模式，NSST)。在另一实施例中，转换模块610仅对残差信号609执行核心转换，并且逆转换模块615仅执行相应的逆核心转换。编码器600选择核心转换(目标核心模式)以用于转换模块610和逆转换模块615。

为了最小化用于发送当前块的转换的选择的比特数量，编码器600包括转换预测模块700，其执行以由转换模块610和逆转换模块615所使用的核心转换和/或二次转换为目标的预测。(因此，用于编码的核心转换和二次转换称为目标转换)。

在一些实施例中，当前编解码像素块时，编码器600执行不可分离二次转换或核心转换的转换模式预测。例如，当当前块由帧内预测编解码时，编码器600可以执行用于发送不可分离二次转换模式选择但不用于发送核心模式选择的转换预测。当当前块由帧间预测编解码时，编码器600可以执行用于发送核心模式选择但不用于发送不可分离二次转换模式选择的转换预测。编码器可以执行用于不可分离二次转换但不用于核心转换的转换预测，以用于帧内片段的帧内块。编码器可以执行用于核心但不用于不可分离二次转换的转换预测，以用于帧间片段的帧间块。

当转换预测被执行以用于发送核心转换时，转换预测模块700执行候选核心转换(例如，DST-VII、DCT-VIII、DST-I和DCT-V)中的每个的成本分析。基于成本分析，转换预测模块700将码字分配给候选核心转换中的每个。基于目标核心转换的标识和分配给候选核心转换的码字，转换预测模块700(在转换模式编码705处)识别分配给匹配候选核心转换的码字710。这个码字710被提供给熵编码器690，以在比特流695中发送目标核心转换。

同样地，当转换预测被执行以用于发送不可分离二次转换时，转换预测模块700执行候选二次(即不可分离二次转换)转换模式(位于不同HyGT旋转角度的不可分离二次转换或者根本没有不可分离二次转换)中的每个的成本分析。基于成本分析，转换预测模块700将码字分配给候选二次转换中的每个。基于目标二次转换的标识和分配给候选二次转换的码字，转换预测模块700识别(在转换模式编码705处)分配给匹配候选二次转换的码字710。这个码字710被提供给熵编码器690，以在比特流695中发送目标二次转换。

在一些实施例中，编码器执行不可分离二次转换与核心转换一起的转换模式预测。换句话说，转换预测模块700生成每个可能的不可分离二次转换与核心转换的组合的码字。每个可能的不可分离二次转换与核心转换的组合的成本被计算，且最短码字(即，‘0’)将被分配给最低成本的不可分离二次转换与核心转换的组合。每个不可分离二次转换与核心转换的组合可以被认为是一个候选转换模式，并且转换预测模块700计算成本，并分配码字以用于NxM种候选转换模式，其中N是可能的不可分离二次转换模式的数量，M是可能的核心转换模式的数量。

图8概念性示出了成本分析及由转换预测模块700执行的码字分配操作。这些操作在图7和图8中一起被示出，其由转换预测模块700中的转换成本分析模块800执行。

如图所示，转换成本分析模块800接收当前块的逆量化模块614的输出，其包括去量化转换系数636。基于候选转换模式中的每个(分别用于模式0-模式3的逆转换810-逆转换813)，转换成本分析模块800对去量化转换系数636执行逆量化。转换成本分析模块800还可以执行其他所需的逆转换820(例如，在逆二次转换中的每个之后的逆核心转换)。每个逆候选转换模式的结果被作为这个候选转换模式的已重构残差(模式0-模式3的已重构残差830-已重构残差833)。随后，转换成本分析模块800计算候选转换模式中每个的成本(分别为模式0-模式3的成本840-成本843)。基于候选转换模式的已重构残差和/或自重构图像缓存器650检索的像素值(例如，相邻块的已重构像素的)，这些成本被计算。上面结合图4和图5描述了候选转换模式的成本的计算。

基于候选转换模式的已计算成本的结果，转换成本分析模块800执行码字分配，并产生每个候选转换模式的码字映射，即890-893。这些映射将码字分配给每个候选转换模式。具有最低已计算成本的候选转换模式被选择或识别为预测转换模式，并被分配最短码字(例如，图3中的不可分离二次转换模式3)，其在预测的转换匹配目标转换时降低比特率。如前面所述，码字的分配基于不同候选转换模式的顺序，这个顺序可以基于已计算成本或基于与诸如HyGT的旋转角度的所选择的预测的转换相关的预设表格。

图9概念性示出了透过使用动态码字分配发送从多个候选转换中选择一个转换的流程900。在一些实施例中，透过执行存储在计算机可读介质中的指令，实作视频编码器600的计算设备的一个或多个处理单元(例如，处理器)执行流程900。在一些实施例中，实作编码器600的电子装置执行流程900。在一些实施例中，视频编码器600在对视频图像的当前像素块进行编码时，执行流程900。编码器可以在发送核心转换或二次转换(例如，不可分离二次转换)模式时执行流程900。

流程900始于编码器600接收(在步骤910中)转换系数，其(在编码器600处)由用于编码像素块的目标转换模式进行编码。目标转换模式是自多个候选转换模式选择的。

编码器600(在步骤920中)计算每个候选转换模式的成本。在一些实施例中，成本透过测量每个候选转换的已重构残差的能量而被计算。在一些实施例中，成本透过匹配相邻块的像素与每个候选转换的已重构像素而被计算。编码器600(在步骤930中)也识别最低成本候选转换模式作为预测转换模式。

编码器600(在步骤940中)根据多个候选转换模式的顺序，将不同长度的码字分配给多个候选转换。此顺序可以是基于候选转换模式的已计算成本。预测转换模式被分配最短码字。

编码器600(在步骤950中)识别出匹配目标转换模式的候选转换模式。编码器600(在步骤960中)将分配给所识别的匹配候选转换模式的码字编码到比特流中。随后，流程900结束。

示例视频解码器

图10标出了使用动态码字分配以接收从多个候选转换中选择一个转换的示例视频解码器1000。如图所示，视频解码器1000是图像解码或视频解码电路，其接收比特流1095并将比特流的内容解码为视频信息框的像素数据以用于输出。视频解码器1000具有用于解码比特流1095的若干组件或模块，包括逆量化模块1005，逆转换模块1015，帧内图像预测模块1025，运动补偿模块1035，环路滤波器1045，已解码图像缓存器1050，运动向量缓存器1065，运动向量预测(MV预测)模块1075和比特流解析器1090。

在一些实施例中，模块1010-模块1090是由计算设备的一个或多个处理单元(例如，处理器)执行的软件指令的模块。在一些实施例中，模块1010-1090是由电子设备的一个或多个集成电路实作的硬件电路的模块。虽然模块1010-1090被表示为分离的模块，但是一些模块可以被组合成单个模块。

解析器1090(或熵解码器)接收比特流1095，并且根据由视频编码或图像编码标准定义的语法执行原始解析。所解析的语法元素包括各种头元素，旗标以及已量化数据(或已量化系数)1012。解析器1090透过使用诸如上下文适应性二进制算术编码或霍夫曼编码的熵编码技术来解析出各种语法元素。

逆量化模块1005对已量化数据(或已量化系数)1012进行去量化以获得转换系数，并且逆转换模块1015对转换系数1016执行逆转换以产生已重构残差信号1019。已重构残差信号1019与来自于帧内预测模块1025或运动补偿模块1035的预测像素数据1013进行相加，以产生已解码像素数据1017。已解码像素数据由环路滤波器1045滤波并被存储在已解码图像缓存器1050中。在一些实施例中，已解码图像缓存器1050是视频解码器1000的外部存储。在一些实施例中，已解码图像缓存器1050是视频解码器1000的内部存储器。

帧内图像预测模块1025从比特流1095接收帧内预测资料，并且根据其产生来自于存储在已解码画面缓存器1050中的已解码像素数据1017的预测像素资料1013。在一些实施例中，已解码像素数据1017也被存储在用于帧内图像预测和空间运动向量预测的线缓存器(未示出)中。

在一些实施例中，已解码图像缓存器1050的内容被用于显示。显示设备1055直接检索(retrieve)出已解码图像缓存器1050的内容以进行显示，或将已解码图像缓存器的内容检索到显示缓存器。在一些实施例中，显示设备透过像素传输从已解码图像缓存器1050接收像素值。

根据运动补偿运动向量，自存储在已解码图像缓存器1050中的已解码像素数据1017，运动补偿模块1035产生预测像素数据1013。这些运动补偿运动向量透过将自比特流1095接收的残差运动数据与自运动向量预测模块1075接收的预测的运动向量进行相加而被解码。

基于生成以用于先前视频信息框的参考运动向量，例如，用于执行运动补偿的运动补偿运动向量，运动向量预测模块1075产生预测的运动向量。运动向量预测模块1075从运动向量缓存器(MV缓存器)1065中检索先前视频信息框的参考运动向量。视频解码器1000将生成为用于当前视频信息框的运动补偿运动向量存储在运动向量缓存器1065中作为用于产生预测的运动向量的参考运动向量。

环路滤波器1045对已解码像素数据1017执行滤波操作或平滑操作，以减少编解码伪影，特别是在像素块的分界线处。在一些实施例中，所执行的滤波操作包括采样适应性偏移。在一些实施例中，滤波操作包括适应性环路滤波器。

图11示出了实作接收核心转换的选择和二次转换的选择的动态码字分配的解码器1000的部分。

熵解码器1090解析比特流1095，并仅获得核心转换模式的码字，或者用于编码当前像素块的核心转换的码字和二次转换(即不可分离二次转换)模式的码字(即目标转换)。转换码字解码模块1100解码已解析码字，以识别目标核心转换和/或二次转换。随后，逆转换模块1015根据所识别的核心转换模式和/或二次转换模式，执行逆转换操作。

为了正确解码目标核心转换模式和/或二次转换模式的已解析码字，解码器1000执行不同候选转换的成本分析，并产生核心转换模式和/或二次转换模式的码字映射，即1290-1293。这些映射将码字分配给每个候选转换模式。在一些实施例中，基于当前块是帧内编解码还是帧间编解码，或者当前块是位于帧内片段还是帧间片段中，转换码字解码模块1100将基于已解析码字使用码字映射1290-码字映射1293来查找匹配核心转换或二次转换。在一些实施例中，每个候选转换可以对应于核心转换与二次转换的组合，并且转换码字解码模块1100相应地将已解析码字映射到核心转换与二次转换的匹配组合。匹配的核心转换与二次转换的标识被提供给逆转换模块1015。

图12概念性示出了成本分析及执行以用于转换码字解码模块1100的码字分配操作。这些操作在图11和图12中一起被示出，其由解码器1000中的转换成本分析模块1200执行。

如图所示，转换成本分析模块1200接收当前块的逆量化模块1014的输出，其包括已去量化的转换系数1016。基于候选转换模式中每个(模式0-模式3分别的逆转换1210-逆转换1213)，转换成本分析模块1200对转换系数1016执行逆转换。转换成本分析模块1200还可以执行其他所需的逆转换1220(例如，在逆二次转换中的每个之后的逆核心转换)。每个逆候选转换模式的结果被作为这个候选转换模式的已重构残差(分别为模式0-模式3的已重构残差1230-已重构残差1233)。随后，转换成本分析模块1200计算候选转换模式中每个的成本(分别为模式0-模式3的成本1240-成本1243)。基于候选转换模式的已重构残差和/或从已解码图像缓存器1050检索的像素值(例如，用于相邻块的已解码像素)，这些成本被计算。上面结合图4和图5描述了候选转换模式的成本的计算。

基于候选转换模式的已计算成本的结果，转换成本分析模块1200执行码字分配，其将码字分配给每个候选转换模式(模式0-模式3各自的已分配的码字1290-码字1293)。具有最低已计算成本的候选转换模式对应于预测的转换模式，并被分配最短码字。码字的分配基于不同候选转换模式的顺序，这个顺序以已计算成本或基于与诸如HyGT的旋转角度的所选择的预测的转换相关的预设表格为基础。

图13概念性示出了使用动态码字分配以接收从多个候选转换中选择一转换的流程1300。在一些实施例中，透过执行存储在计算机可读介质中的指令，实作解码器1000的计算设备的一个或多个处理单元(例如，处理器)执行流程1300。在一些实施例中，实作解码器1000的电子装置执行流程1300。在一些实施例中，解码器1000在对视频图像中的当前像素块进行解码时，执行流程1300。解码器可以在解析比特流1095，并解码核心转换或二次转换(例如，不可分离二次转换)模式的选择时，执行流程1300。

流程1300始于解码器1000(在步骤1310中)接收转换系数，转换系数由用于编码像素块的目标转换模式(在编码器处)进行编码。目标转换模式是多个候选转换模式中的一个。

解码器1000(在步骤1320中)计算每个候选转换模式的成本。在一些实施例中，成本透过测量每个候选转换(逆变换的输出)的已重构残差的能量而被计算。在一些实施例中，每一个成本是透过将相邻块的像素与经由所有候选转换中的一个候选转换而得的重构像素(预测像素和一个候选转换而得的重建残差之和)进行匹配而被计算。解码器1000(在步骤1330中)也识别最低成本候选转换模式作为预测转换模式。

解码器1000(在步骤1340中)根据多个候选转换模式的顺序，将不同长度的码字分配给多个候选转换。此顺序可以是基于候选转换模式的已计算成本。具有最低成本的候选转换模式被分配最短码字。

解码器1000(在步骤1350中)自比特流解析出码字。解码器1000(在步骤1360中)匹配已解析码字与分配给候选转换模式的码字，以识别目标转换。随后，解码器1000(在步骤1370中)透过使用所识别的候选转换模式，解码当前像素块，即基于所识别的目标转换模式执行逆转换。随后，流程1300结束。

示例电子系统

很多上述的特征和应用可以被实施为软件处理，其被指定为记录在计算机可读存储介质(computer readable storage medium)(也称为计算机可读介质)上的指令集。当这些指令由一个或者多个计算单元或者处理单元(例如，一个或者多个处理器、处理器核或者其他处理单元)来执行时，则这些指令使得该处理单元执行这些指令所表示的动作。计算机可读介质的示例包括但不限于CD-ROM、闪存驱动器(flash drive)、随机存取存储器(random access memory，RAM)芯片、硬盘、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)，电可擦除可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)等。该计算机可读介质不包括透过无线或有线连接的载波和电信号。

在本说明书中，术语“软件”意味着包括只读存储器中的固件或者存储在磁存储设备中的应用程序，该应用程序可以被读入到存储器中以用于处理器进行处理。同时，在一些实施例中，多个软件发明可以作为更大程序的子部分来实作，而保留不同的软件发明。在一些实施例中，多个软件发明可以作为独立的程序来实作。最后，一起实作此处所描述的软件发明的独立的程序的任何结合是在本发明的范围内。在一些实施例中，当被安装以在一个或者多个电子系统上进行操作时，软件程序定义了一个或者多个特定的机器实作方式，该机器实作方式执行和实施该软件程序的操作。

图14概念性示出了实作本发明一些实施例的电子系统1400。电子系统1400可以是计算机(例如，台式计算机、个人计算机、平板计算机等)、电话、PDA或者其他种类的电子设备。这个电子系统包括各种类型的计算机可读媒体和用于各种其他类型的计算机可读媒体的接口。电子系统1400包括总线1405、处理单元1410、图像处理单元(graphics-processingunit，GPU)1415、系统存储器1420、网络1425、只读存储器(read-only memory，ROM)1430、永久存储元件1435、输入设备1440和输出设备1445。

总线1405集体表示与大量的电子系统1400通信连接的内部设备的所有系统总线、外设总线和芯片组总线。例如，总线1405透过图像处理单元1415、只读存储器1430、系统存储器1420和永久存储元件1435，与处理单元1410通信连接。

对于这些各种存储单元，处理单元1410检索执行的指令和处理的数据，以为了执行本发明的处理。在不同实施例中，该处理单元可以是单个处理器或者多核处理器。某些指令被传输至图像处理单元1415并被其执行。该图像处理单元1415可以卸除各种计算或补充由处理单元1410提供的图像处理。

只读存储器1430存储处理单元1410或者电子系统的其他模块所需要的静态数据和指令。另一方面，永久存储元件1435是一种读写存储存储器(read-and-write memory)。这个元件是一种非易失性(non-volatile)存储单元，其即使在电子系统1400关闭时也存储指令和数据。本发明的一些实施例使用大容量存储设备(例如磁盘或光盘及其相应的磁盘驱动器)作为永久存储元件1435。

其他实施例使用卸除式存储元件(如软盘、闪存设备等，以及其相应的磁盘驱动器)作为该永久存储元件。与永久存储元件1435一样，系统存储器1420是一种读写存储设备。但是，与存储元件1435不一样的是，系统存储器1420是一种易失性(volatile)读写存储，例如随机读取存储器。系统存储器1420存储一些处理器在运行时需要的指令和数据。在一些实施例中，根据本发明的处理被存储在系统存储器1420、永久存储元件1435和/或只读存储器1430中。例如，各种存储单元包括用于根据一些实施例的处理多媒体剪辑的指令。对于这些各种存储单元，处理单元1410检索执行的指令和处理的数据，以为了执行某些实施例的处理。

总线1405也连接到输入设备1440和输出设备1445。该输入设备1440使得用户沟通信息并选择指令到该电子系统上。该输入设备1440包括字母数字元键盘和指点设备(也被称为“游标控制设备”)，摄像机(如网络摄像机(webcam))，用于接收语音命令的麦克风或类似的设备等。输出设备1445显示由电子系统生成的图像或以其他方式输出的数据。输出设备1445包括打印机和显示设备，例如阴极射线管(cathode ray tube，CRT)或液晶显示器(liquid crystal display，LCD)，以及扬声器或类似的音讯输出设备。一些实施例包括诸如同时用作输入设备和输出设备的触摸屏等设备。

最后，如图14所示，总线1405也透过网络适配器(未示出)将电子系统1400耦接到网络1425。在这个方式中，计算机可以是计算机网络(例如，局域网(local area network，LAN)、广域网(wide area network，WAN)或者内部网络)或者网络的网络(例如互联网)的部分。电子系统1400的任一或者所有组件可以与本发明结合使用。

一些实施例包括电子组件，例如，微处理器、存储单元和存储器，其将计算机程序指令存储到机器可读介质或者计算机可读介质(可选地被称为计算机可读存储介质、机器可读介质或者机器可读存储介质)。计算机可读介质的一些实例包括RAM、ROM、只读光盘(read-only compact disc，CD-ROM)，可录制光盘(recordable compact disc，CD-R)、可擦写光盘(rewritable compact disc，CD-RW)、只读数字通用光盘(read-only digitalversatile disc)(例如，DVD-ROM，双层DVD-ROM)、各种可记录/可擦写DVD(例如DVD RAM、DVD-RW、DVD+RW等)、闪存(如SD卡、迷你SD卡，微SD卡等)、磁性和/或固态硬盘、只读和可刻录盘、超高密度光盘和其他任何光学介质或磁介质，以及软盘。计算机可读介质可以存储由至少一个处理单元执行的计算机程序，并且包括用于执行各种操作的指令集。计算机程序或计算机代码的示例包括机器代码，例如编译程序产生的机器代码，以及包含由计算机、电子组件或微处理器使用注释器(interpreter)而执行的高级代码的文件。

当以上讨论主要是指执行软件的微处理器或多核处理器时，很多上述的功能和应用程序由一个或多个集成电路执行，如特定应用的集成电路(application specificintegrated circuit，ASIC)或现场可编程门阵列(field programmable gate array，FPGA)。在一些实施例中，这种集成电路执行存储在该电路本身上的指令。此外，一些实施例执行存储在可编程逻辑器件(programmable logic device，PLD)，ROM或RAM设备中的软件。

如本发明的说明书和任一权利要求中所使用，术语“计算机”、“服务器”、“处理器”和“存储器”均指电子设备或其他技术设备。这些术语不包括人或群体。出于本说明书的目的，术语显示或显示设备指在电子设备上进行显示。如本发明的说明书和任一权利要求中所使用，术语“计算机可读介质”、“计算机可读媒体”和“机器可读介质”完全局限于有形的、物理的物体，其以计算机可读的形式存储信息。这些术语不包括任何无线信号、有线下载信号和其他任何短暂信号。

在结合许多具体细节的情况下描述了本发明时，本领域技术人员将认识到，本发明可以以其他具体形式而被实施，而不脱离本发明的精神。此外，大量的图(包括图9和图13)概念性示出了处理过程。这些处理的具体操作可以不以所示以及所描述的具体顺序来被执行。这些具体操作可不在一个连续的操作系列中被执行，并且不同的具体操作可以在不同的实施例中被执行。另外，该处理透过使用几个子处理而被实施，或者作为更大宏处理的部分。因此，本领域技术人员将能理解的是，本发明不受前述说明性细节的限制，而是由权利要求加以界定。

附加说明

本文所描述的主题有时表示不同的组件，其包含在或者连接到其他不同的组件。可以理解的是，所描述的结构仅是示例，实际上可以由许多其他结构来实施，以实现相同的功能。从概念上讲，任何实现相同功能的组件的排列实际上是“相关联的”，以便实现所需的功能。因此，不论结构或中间部件，为实施特定的功能而组合的任何两个组件被视为“相互关联”，以实现所需的功能。同样，任何两个相关联的组件被看作是相互“可操作连接”或“可操作耦接”，以实现特定功能。能相互关联的任何两个组件也被视为相互“可操作地耦合”以实现特定功能。可操作连接的具体例子包括但不限于物理可配对和/或物理上相互作用的组件，和/或无线可交互和/或无线上相互作用的组件，和/或逻辑上相互作用和/或逻辑上可交互的组件。

此外，关于基本上任何复数和/或单数术语的使用，本领域技术人员可以根据上下文和/或应用从多个转换为单数和/或从单数到多个。为清楚起见，本文明确规定了不同的单数/复数排列。

此外，本领域的通常知识者可以理解，通常，本发明所使用的术语特别是权利要求中的，如权利要求的主题，通常用作“开放”术语，例如，“包括”应解释为“包括但不限于”，“有”应理解为“至少有”，“包括”应解释为“包括但不限于”等。本领域的通常知识者可以进一步理解，若计划介绍特定数量的权利要求内容，将在权利要求内明确表示，并且，在没有这类内容时将不显示。例如，为帮助理解，下面权利要求可能包含短语“至少一个”和“一个或多个”，以介绍权利要求内容。然而，这些短语的使用不应理解为暗示使用不定冠词“一”或“一个”介绍权利要求内容，而限制了任何特定的权利要求。甚至当相同的权利要求包括介绍性短语“一个或多个”或“至少有一个”，不定冠词，例如“一”或“一个”，则应被解释为表示至少一个或者更多，对于用于介绍权利要求的明确描述的使用而言，同样成立。此外，即使明确引用特定数量的介绍性内容，本领域技术人员可以认识到，这样的内容应被解释为表示所引用的数量，例如，没有其他修改的“两个引用”，意味着至少两个引用，或两个或两个以上的引用。此外，在使用类似于“A、B和C中的至少一个”的表述的情况下，通常如此表述是为了本领域技术人员可以理解该表述，例如，“系统包括A、B和C中的至少一个”将包括但不限于单独具有A的系统，单独具有B的系统，单独具有C的系统，具有A和B的系统，具有A和C的系统，具有B和C的系统，和/或具有A、B和C的系统，等。本领域技术人员进一步可理解，无论在说明书中、权利要求中或者附图中，由两个或两个以上的替代术语所表现的任何分隔的单词和/或短语应理解为，包括这些术语中的一个，其中一个，或者这两个术语的可能性。例如，“A或B”应理解为，“A”，或者“B”，或者“A和B”的可能性。

从前述可知，出于说明目的，此处已描述了各种实施方案，并且在不偏离本发明的范围和精神的情况下，可以进行各种变形。因此，此处所公开的各种实施方式不用于限制权利要求表示真实的范围和精神。

Claims

1.一种视频编解码方法，包括：

接收像素块的多个转换系数，该多个转换系数通过使用从多个候选转换模式中选择的目标转换模式来编码；

计算每个候选转换模式的成本，并识别最低成本候选转换模式作为预测转换模式；

根据该多个候选转换模式的顺序，将不同长度的多个码字分配给该多个候选转换模式，其中该预测转换模式被分配最短码字；

识别匹配该目标转换模式的候选转换模式，并将相应码字分配给识别的候选转换模式；以及

通过使用该识别的转换模式，编解码该像素块以用于传输或显示。

2.根据权利要求1所述的视频编解码方法，其特征在于，该多个候选转换模式中的每个转换模式是不可分离二次转换模式。

3.根据权利要求2所述的视频编解码方法，其特征在于，该像素块由特定帧内编解码模式编解码成转换系数集，其中该多个候选转换模式是被映射到该多个特定帧内编解码模式的多个候选转换模式。

4.根据权利要求1所述的视频编解码方法，其特征在于，该多个候选转换模式中的每个转换模式是核心转换。

5.根据权利要求1所述的视频编解码方法，其特征在于，该多个候选转换模式的顺序以该多个候选转换模式的多个已计算成本为基础。

6.根据权利要求1所述的视频编解码方法，其特征在于，该多个候选转换模式的顺序是基于预设表格的，其中该预设表格基于与该预测转换模式的多个关系来指定该顺序。

7.根据权利要求1所述的视频编解码方法，其特征在于，与每个候选转换模式相关的成本是透过适应性地缩放或选择该像素块的多个转换系数而被计算。

8.根据权利要求1所述的视频编解码方法，其特征在于，与每个候选转换模式相关的成本是透过适应性地缩放或选择该像素块的多个已重构残差而被计算。

9.根据权利要求1所述的视频编解码方法，其特征在于，与每个候选转换模式相关的成本是透过计算差值来确定，该差值为块的多个重构像素和多个空间相邻块中的多个重构像素之间的差值，其中该块的多个重构像素是由相应候选转换模式而得的多个残差和多个已预测像素所重构，而多个空间相邻块中的多个重构像素是由相邻块的多个残差和相邻块的多个已预测像素所重构。

10.根据权利要求9所述的视频编解码方法，其特征在于，在重构该相应候选转换模式的该多个残差时，与每个候选转换模式相关的多个转换系数适应性地被缩放或选择。

11.根据权利要求9所述的视频编解码方法，其特征在于，在重构该相应候选转换模式的该多个像素时，与每个候选转换模式相关的该像素块的该多个已重构残差适应性地被缩放或选择。

12.根据权利要求9所述的视频编解码方法，其特征在于，正在重构的该块的像素集包括该多个空间相邻块边界处的多个像素且不包括该块的所有像素。

13.根据权利要求1所述的视频编解码方法，其特征在于，与每个候选转换模式相关的成本是透过测量该块的该多个已重构残差的能量而被确定。

14.一种电子装置，包括：

视频编码器电路，用于：

接收多个转换系数，该多个转换系数通过使用从多个候选转换模式中选择的目标转换模式来编码；

识别匹配该目标转换模式的候选转换模式；

将分配给识别匹配的候选转换模式的码字编码到比特流中；以及

存储或传输编码的该比特流。

15.一种电子装置，包括：

视频解码器电路，用于：

从比特流中解析码字，并将解析的该码字与分配给多个候选转换模式的多个码字进行匹配，以识别该目标转换模式；

透过使用识别的目标转换模式，解码像素块；以及

输出解码的该像素块。