CN112771865A

CN112771865A - 使用参数化模型对量化矩阵进行编解码

Info

Publication number: CN112771865A
Application number: CN201980052630.4A
Authority: CN
Inventors: P.德拉格兰奇; Y.陈; E.弗朗索瓦
Original assignee: Interactive Digital Vc Holding France
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2018-08-23
Filing date: 2019-08-08
Publication date: 2021-05-07
Also published as: WO2020041003A1; US11812021B2; US20220094932A1; US20230007257A1; US11457214B2; EP3841749A1

Abstract

量化矩阵可以被用于调整不同频率下的变换系数的量化。在一个实施例中，单个固定参数模型，诸如多项式，被用于表示量化矩阵。通过仅指定n个第一多项式系数即可实现位成本和复杂度的调制，其余系数隐式设置为零或其它默认值。单个固定多项式的一种形式是以(x,y)的完全展开的多项式，其中x、y指示量化矩阵中给定系数的坐标，其项按指数递增来排序。由于较高的指数是最后的项，因此减少多项式系数的数量减少多项式的次数，从而降低其复杂度。多项式系数可以在x和y中对称，因此减少了需要在比特流中发信号通知的多项式系数的数量。

Description

使用参数化模型对量化矩阵进行编解码

技术领域

本实施例一般而言涉及用于视频编码或解码的方法和装置，并且更具体而言，涉及用于在视频编码或解码中对量化矩阵进行编解码(coding)的方法和装置。

背景技术

为了实现高压缩效率，图像和视频编解码方案通常采用预测和变换以充分利用视频内容中的空间和时间冗余性。一般而言，使用帧内或帧间预测来利用帧内或帧间相关性，然后对原始块与预测的块之间的差异(常常表示为预测误差或预测残差)进行变换、量化和熵编解码。为了重构视频，通过与熵编解码、量化、变换和预测对应的逆过程来解码压缩数据。

发明内容

根据实施例，给出了一种用于视频解码的方法，包括：访问基于参数序列的参数化模型；确定与所述参数序列的子集对应的多个参数；将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；基于所述量化矩阵对图像的块的变换系数进行去量化；以及响应于所述去量化的变换系数而重构所述图像的所述块。

根据另一个实施例，给出了一种用于视频编码的方法，包括：访问基于参数序列的参数化模型；确定与述参数序列的子集对应的多个参数；将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；基于所述量化矩阵对图像的块的变换系数进行量化；以及对量化的变换系数进行熵编码。

根据另一个实施例，给出了一种用于视频解码的装置，包括：用于访问基于参数序列的参数化模型的部件；用于确定与所述参数序列的子集对应的多个参数的部件；用于将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联以表示量化矩阵的部件；用于基于所述量化矩阵对图像的块的变换系数进行去量化的部件；以及响应于所述去量化的变换系数来重构所述图像的所述块的部件。

根据另一个实施例，给出了一种用于视频编码的装置，包括：用于访问基于参数序列的参数化模型的部件；用于确定与所述参数序列的子集对应的多个参数的部件；用于将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联以表示量化矩阵的部件；用于基于所述量化矩阵对图像的块的变换系数进行量化的部件；以及用于对量化的变换系数进行熵编码的部件。

根据另一个实施例，给出了一种用于视频解码的装置，包括一个或多个处理器，其中所述一个或多个处理器被配置为：访问基于参数序列的参数化模型；确定与所述参数序列的子集对应的多个参数；将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；基于所述量化矩阵对图像的块的变换系数进行去量化；以及响应于所述去量化的变换系数而重构所述图像的所述块。该装置还可以包括耦合到所述一个或多个处理器的一个或多个存储器。

根据另一个实施例，给出了一种用于视频编码的装置，包括一个或多个处理器，其中所述一个或多个处理器被配置为：访问基于参数序列的参数化模型；确定与述参数序列的子集对应的多个参数；将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；基于所述量化矩阵对图像的块的变换系数进行量化；以及对量化的变换系数进行熵编码。该装置还可以包括耦合到所述一个或多个处理器的一个或多个存储器。

根据另一个实施例，将信号格式化为包括：指示多个参数中的参数的数量的值；所述多个参数，其中所述多个参数中的每个参数与参数序列的子集的对应参数相关联，以表示量化矩阵，其中参数化模型基于所述参数序列；以及基于所述量化矩阵量化的图像的块的变换系数。

附图说明

图1图示了视频编码器的实施例的框图。

图2图示了视频解码器的实施例的框图。

图3是图示2D可分离变换的图示示例。

图4图示了HEVC中定义的默认帧内和帧间8x8量化矩阵(QM)。

图5图示了用于确定HEVC中的QM的过程。

图6图示了HEVC中的直立对角线扫描和默认的帧内8x8 QM。

图7图示了JEM(联合探索模型)中使用的不同变换。

图8图示了在标准和编码器中发现的示例矩阵。

图9图示了两个复杂形状的矩阵。

图10图示了针对尺寸8、16和32的AVC类型(左)和HVS(右)矩阵。

图11A图示了针对8x8尺寸的示例矩阵层，并且图11B图示了4个区域。

图12图示了[JCTVC-H0460]二次模型对尺寸8x8的对称(左)或不对称(右)测试帧内矩阵的拟合性能。

图13图示了使用近似的量化矩阵的示例。

图14图示了16x16的AV1量化矩阵。

图15图示了量化矩阵编解码性能。

图16图示了根据实施例的用于对量化矩阵进行解码的系统。

图17图示了根据实施例的用于对量化矩阵进行解码的方法。

图18图示了根据实施例的用于归一化矩阵坐标的方法。

图19图示了系数的动态范围。

图20图示了系数准确度对拟合质量的影响。

图21图示了系数界限对拟合质量的影响。

图22图示了根据实施例的具有整数计算的量化矩阵生成器。

图23图示了根据实施例的用于用整数计算生成量化矩阵的方法。

图24图示了具有10参数拟合的默认HEVC帧内矩阵。

图25图示了剪切(clipping)对拟合误差的影响。

图26图示了具有6参数拟合的默认HEVC帧内矩阵。

图27图示了根据实施例的用于在编码器中生成QM的方法。

图28图示了根据实施例的用于在解码器中生成QM的方法。

图29图示了可以在其中实现本实施例的各方面的系统的框图。

具体实施方式

图1图示了示例性视频编码器100，诸如高效视频编码(HEVC)编码器。图1还可以图示其中对HEVC标准进行了改进的编码器或采用类似于HEVC的技术的编码器，诸如由JVET(联合视频探索小组)正在开发的VVC(通用视频编码)编码器。

在本申请中，术语“重构”和“解码”可以互换使用，术语“编码”或“编解码”可以互换使用，并且术语“图像”、“图片”和“帧”可以互换使用。通常但并非必需，术语“重构”在编码器侧使用，而“解码”在解码器侧使用。

在被编码之前，视频序列可以经过预编码处理(101)，例如，对输入的彩色图片应用颜色变换(例如，从RGB 4：4：4到YCbCr 4：2：0的转换)，或对输入图片分量执行重新映射，以便获得对压缩更具弹性的信号分布(例如使用颜色分量之一的直方图均衡化)。元数据可以与预处理相关联，并附加到比特流。

在HEVC中，为了用一个或多个图片对视频序列进行编码，将图片分割(102)成一个或多个条带，其中每个条带可以包括一个或多个条带片段。条带片段被组织成编解码单元、预测单元和变换单元。HEVC规范区分“块”与“单元”，其中“块”寻址样点阵列中的特定区域(例如，亮度、Y)，而“单元”包括所有编码的颜色分量(Y、Cb、Cr或单色)的并置块、语法元素和与块关联的预测数据(例如，运动向量)。

为了进行编解码，将图片分割成具有可配置尺寸的方形的编解码树块(CTB)，并将编解码树块的连续集合分组为条带。编解码树单元(CTU)包含已编码的颜色分量的CTB。CTB是分割成编解码块(CB)的四叉树的根，并且编解码块可以被分割成一个或多个预测块(PB)并形成分割成变换块(TB)的四叉树的根。与编解码块、预测块和变换块对应，编解码单元(CU)包括预测单元(PU)和树状结构的变换单元(TU)集，PU包括用于所有颜色分量的预测信息，并且TU包括用于每个颜色分量的残留编解码语法结构。亮度分量的CB、PB和TB的尺寸适用于对应的CU、PU和TU。在本申请中，术语“块”可以被用于指例如CTU、CU、PU、TU、CB、PB和TB中的任何一个。此外，“块”还可以被用于指H.264/AVC或其它视频编解码标准中指定的宏块和分割，并且更一般地指各种尺寸的数据阵列。

在示例性编码器100中，如下所述，由编码器元件对图片进行编码。以CU为单位对要编码的图片进行处理。使用或者帧内或者帧间模式对每个CU进行编码。当CU以帧内模式进行编码时，它执行帧内预测(160)。在帧间模式下，执行运动估计(175)和补偿(170)。编码器决定(105)使用帧内模式或帧间模式中的哪一种对CU进行编码，并且通过预测模式标志来指示帧内/帧间决定。通过从原始图像块中减去(110)预测的块来计算预测残差。

然后对预测残差进行变换(125)和量化(130)。对量化的变换系数以及运动向量和其它语法元素进行熵编解码(145)以输出比特流。编码器还可以跳过变换并以4x4 TU为基础将量化直接应用于未变换的残差信号。编码器还可以绕过变换和量化两者，即，残差被直接编解码而无需应用变换或量化过程。在直接PCM编解码中，不应用任何预测，并且将编解码单元样点直接编解码到比特流中。

编码器对编码的块进行解码，以便为进一步预测提供参考。对量化的变换系数进行去量化(140)并进行逆变换(150)以解码预测残差。组合(155)解码的预测残差和预测的块，来重构图像块。环路滤波器(165)被应用于重构的图片，例如以执行去方块/SAO(样点自适应偏移)滤波以减少编码伪像。滤波后的图像被存储在参考图片缓冲器(180)中。

图2图示了示例性视频解码器200(诸如HEVC解码器)的框图。在示例性解码器200中，如下所述，由解码器元件对比特流进行解码。视频解码器200一般执行与如图1中所示的编码遍历对应的解码遍历，该解码遍历执行视频解码作为编码视频数据的一部分。图2还可以图示其中对HEVC标准进行改进的解码器或采用类似于HEVC的技术的解码器(诸如VVC解码器)。

特别地，解码器的输入包括可以由视频编码器100生成的视频比特流。首先对比特流进行熵解码(230)以获得变换系数、运动向量、图片分割信息和其它编解码信息。图片分割信息指示CTU的尺寸以及将CTU拆分为CU(并且在适用时可能拆分为PU)的方式。因此，解码器可以根据解码的图片分割信息将图片划分(235)为CTU，并将每个CTU划分为CU。对变换系数进行去量化(240)和逆变换(250)以对预测残差进行解码。

组合(255)解码的预测残差和预测的块，来重构图像块。可以从帧内预测(260)或运动补偿预测(即，帧间预测)(275)获得(270)预测的块。环路滤波器(265)被应用于重构的图像。滤波后的图像被存储在参考图片缓冲器(280)中。解码的图片还可以经历解码后处理(285)，例如，逆颜色变换(例如，从YCbCr 4:2:0到RGB 4:4:4的转换)或执行在预编码处理(101)中执行的重映射过程的逆的逆重映射。解码后处理可以使用在预编码处理中导出并在比特流中用信号通知的元数据。

如上所述，对预测残差进行变换和量化。考虑输入到2D MxN前向变换的MxN(M列xN行)残差块([U]_MXN)，通常通过分别对每列应用N点变换(即，垂直变换)并且对每行进行M点变换(即，水平变换)来实现2D变换，如图3中所示。在数学上，前向变换可以表示为：

[C]_MxN＝[A]^T _NxN x[U]_MxN x[B]_MxM

其中[A]_NxN是垂直应用的N点变换矩阵，[B]_MxM是水平应用的M点变换矩阵，并且“T”(上标)是矩阵转置运算符。因此，可分离的变换在于将水平和垂直变换相继应用于2D残差块的每一行和每一列。

在HEVC中，二维变换使用相同的可分离变换进行水平和垂直滤波两者。换句话说，矩阵B与矩阵A相同：

[C]_MxN＝[A]^T _NxN x[U]_MxN x[A]_MxM

注意的是，在HEVC中，仅支持平方变换，这意味着N＝M。

然后对结果所得的MxN变换系数([C]_MXN)进行量化，以获得经量化的变换系数([CQ]_MXN)。在HEVC中，统一重构量化(URQ)被用于量化，这在概念上等效于除以量化步长尺寸(Qstep)。更一般而言，对于视频编码，应当注意的是，例如，可以通过进一步考虑量化舍入偏移或使用非均匀量化来使用其它量化方法。

为了量化变换系数，在HEVC中，编码器可以针对每个变换块尺寸并分别针对帧内和帧间预测指定定制的量化(缩放)矩阵(QM)，以供解码器在逆量化缩放中使用。量化矩阵通常被设计为向与对人类感知更敏感的频率对应的系数提供更高的准确度。目标是通常通过考虑人类视觉系统对信号的不同空间频率的特性来适应变换系数的量化，以提高编解码视频的感知质量。例如，低频不如高频量化。

一般而言，使用量化矩阵不会提高通过均方误差(或等效地，PSNR)测量的客观逼真度，但通常会提高主观逼真度。标准中指定了量化缩放矩阵的默认值，并且编码器还可以通过在序列或图片级别发送那些值的表示来选择使用定制的值。

更具体而言，根据在量化矩阵中提供的缩放值来量化变换系数。在将变换应用于残差值之后，将根据特定分量和块尺寸的帧内和帧间QM中存在的整数缩放值分别对变换块中的亮度和色度变换系数进行量化：变换尺寸4x4、8x8、16x16中的每一个有6个矩阵并且32x32有2个矩阵(4:4:4采样模式下的色度重用用于16x16的矩阵)，总共形成20个矩阵。为了减少存储器存储需求，矩阵定义被限制到8x8分辨率：分别通过2x2和4x4样点重复来获得用于16x16和32x32变换尺寸的完整矩阵。

HEVC规范定义了HEVC中基于人类视觉模型的默认帧内和帧间QM。如果未使用使用标志指示的默认矩阵，那么可以使用在比特流中显式发信号通知的自组织(hoc)矩阵。

QM中的元素将不同的量化缩放应用于变换块中不同频率下的变换系数。因此，这些QM拥有控制量化步长尺寸的能力，并因此具有根据变换系数的频率调整量化的能力。变换块包含DC和AC变换系数，其中DC变换系数是最低频率分量，并且AC系数与从低、中到高的频率分量对应。因为低频变换系数通常对于视频信号重构更为重要，所以HEVC中的默认QM将较粗略的量化应用于中高频AC变换系数。

编码器侧的量化不是规范性的并且可以以不同的方式进行。但是，对于HEVC编码器，它通常重现或近似以下公式：

CQ[x][y]＝sign(C[x][y])*(abs(C[x][y])*invScale[QP％6]/QM[x][y]+quantOffset)>>quantShift

其中

-CQ是量化系数的块，

-C是变换系数的块，

-QM是量化矩阵，

-invScale[k]＝{26214，23302，20560，18396，16384，14564}，其中k＝0，…，5，

-QP是量化参数，

-quantShift是参数，其取决于在编码器处应用的前向变换所涉及的缩放、取决于变换块尺寸、取决于信号位深度并且取决于QP。

ο在HEVC参考编码器中，quantShift＝14+QP+TransformShift，其中TransformShift与前向变换所涉及的缩放有关，

-quantOffset是取决于参数quantShift的参数，例如，quantOffset＝1<<(quantShift 1)，

-(x,y)是系数的位置，

-Abs(r)是r的绝对值，

-如果r<0，那么-sign(r)＝-1，否则为1，

-“*”是标量乘法，“/”是整数除法，其结果被截断为零，并且“％”是模数运算符。

在解码器侧，可以基于以下公式在符合HEVC规范的去量化中应用QM：

C’[x][y]＝(CQ[x][y]*QM[x][y]*

levScale[QP％6]<<(QP/6))+(1<<(bdShift-1)))>>bdShift

其中

-CQ是量化系数的块，

-C’是去量化系数的块，

-QM是量化矩阵，

-levScale[k]＝{40，45，51，57，64，72}，其中k＝0，…，5，

-QP是量化参数，

-bdShift对于HEVC常规简档被定义如下：bdShift＝Max(20-bitDepth，0)，bitDepth是所考虑分量(例如，Y、Cb或Cr)的样点的位深度，

-(x,y)是系数的位置。

在HEVC中仅为8x8变换块定义了默认QM，以便减少存储器存储需求。HEVC中定义的默认帧内和帧间8x8 QM如下所示，并在图4中进行了说明(注意的是，它们都是对称的)。通过对8x8 QM进行上采样获得较大块的QM。为了创建16x16 QM，将8x8 QM中的每个条目复制到2x2区域中。为了创建32x32 QM，将8x8 QM中的每个条目复制到4x4区域中。对于4x4变换块，默认的QM是扁平的(所有分量都等于16)。默认QM仅取决于帧内/帧间模式，但对于Y、Cb和Cr分量是相同的。复制规则也可以应用于矩形块(例如，JEM中的矩形块)。

帧内默认QM基于人类视觉系统，如M.Haque等人的专利申请(美国专利申请号13/597,131，公开号US2013/0188691，“Quantization matrix design for HEVC standard(HEVC标准的量化矩阵设计)”，以下称为[US20130188691])或在信号处理：图像通信(Signal Processing:Image Communication)第16卷，第5期，第501-506页，2001年1月上Long-Wen Chang等人的标题为“Designing JPEG quantum tables based on humanvisual system(基于人类视觉系统的JPEG量子表设计)”的文章(以下称为“Chang”)中所解释的，并且可以按照以下过程中的解释进行推导。首先，将与位置(x,y)处的系数对应的每度视角的径向频率f以周期为单位定义为：

其中，

和N是块宽度或高度(u＝0，…，N-1，v＝0，…，N-1，通常N＝8)，Δ、K和s是常数参数(以得到HEVC 8x8 QM，Δ应当被设置为0.00025，K设置为0.00893588，s设置为0.7)。

然后，将调制变换函数H(f)定义为

其中f_max＝8(每度周期数)。QM值被计算为Round(16/H(f))，其中Round(x)给出最接近x的整数值。

帧间默认QM可以使用以下过程从帧内默认QM导出：

1.QMinter(0,0)＝QMintra(0,0)

2.对于n＝1…N-1

-QMinter(0,n)＝QMinter(0,n-1)+int(S1*(QMintra(0,n)-QMintra(0,n-1))+0.5)，

-其中S1＝0.714285714

3.QMinter(0,N-1)＝QMintra(0,N-1)

4.对于m＝1…N-1

-QMinter(m,N-1)＝QMinter(m-1,N-1)+int(S3*(QMintra(m,N-1)-QMintra(m-1,N-1))+0.5)，

-其中S3＝0.733333333，其中int(r)是r的最接近的整数值，

5.对于m＝1…N-1，对于n＝0…N-2

-QMinter(m,n)＝QMinter(m-1,n+1)

使用缩放列表在比特流中用信号通知量化矩阵的系数。每个块尺寸有一个缩放列表，由参数sizeId加索引，并且每个模式由参数matrixId加索引，都如下指定：

·sizeId＝0块4x4，1块8x8，2块16x16，3块32x32

·matrixId＝0帧内Y，1帧内U，2帧内V，3帧内Y，4帧内U，

5帧内V

对于32x32块，只能将matrixId设置为0或3。

HEVC规范中用于发信号通知缩放列表的语法如下再现。

对于两个参数sizeId和matrixId的每个可能值，应用图5中所示的过程500以或者从默认QM或者从示例性HEVC解码器的显式解码的值确定实际QM。在步骤510处，解码器检查语法元素scaling_list_pred_mode_flag[sizeId][matrixId]是否等于0。如果不是，那么在步骤550处，解码器从变量ScalingList[sizeId][matrixId][i]，i＝0，…，coefNum-1解码缩放列表值，并按照直立对角线扫描次序构建QM，如图6的左侧所示。如果scaling_list_pred_mode_flag[sizeId][matrixId]等于0，那么在步骤520处，解码器检查语法元素scaling_list_pred_matrix_id_delta[sizeId][matrixId]是否等于0。如果不是，那么基于scaling_list_pred_matrix_id_delta[sizeId][matrixId]修改(530)matrixId。在步骤540处，获得由sizeId和matrixId识别的默认缩放列表值中的缩放列表值，并构建QM，其中图6的右侧示出了用于8x8帧内的默认矩阵。

如上所述，先前的视频编解码器(诸如符合HEVC的视频编解码器)基于使用相同垂直和水平变换的2D可分离变换。因此，导出的QM是一般对称的2D QM，适用于这些2D变换。

但是，在当前的JEM中，定义了五个不同的水平/垂直变换，这些变换从表1中所示并在图7中针对4x4尺寸进行了说明的五个变换中导出。对于从4x4到64x64的尺寸，标志在CU级别使用，以控制变换的组合。当CU标志等于0时，将DCT-II应用于水平和垂直变换。当CU标志等于1时，发信号通知两个附加语法元素，以识别要使用的水平和垂直变换。注意的是，还可以考虑其它水平/垂直变换，诸如身份变换(其与在一个方向上跳过该变换对应)。

表1.用于JEM中的N点输入的DCT-II/V/VIII和DST-I/VII的变换基本函数。

对于帧内情况，可能的变换集取决于帧内模式。三个集合定义如下：

·集合0：DST-VII、DCT-VIII

·集合1：DST-VII、DST-I

·集合2：DST-VII、DCT-V

对于每个帧内模式和每个变换方向(水平/垂直)，启用这三个集合之一。对于帧间情况，仅启用DST-VII和DCT-VIII，并且将相同的变换应用于水平和垂直变换。

如上所述，在许多编解码器中，使用量化矩阵。例如，图8示出了在标准和编码器中找到的六个示例矩阵。从左到右、从上到下，矩阵来自JPEG、MPEG2-帧内(intra)、H264-帧内(intra)、HEVC-帧内(intra)、实际的DTT H.264编码器和卫星HEVC广播流。但是，由于许多编码器不使用编解码器规范中指定的默认矩阵，因此需要对其进行显式编解码。对这样的量化矩阵进行编解码的成本可能变得很大。

更具体而言，可能会出现以下问题中的一个或多个：

ο可以存在许多量化矩阵：矩阵可以取决于变换块的水平/垂直尺寸、水平/垂直变换类型以及包含变换块的编解码单元的编解码模式；如果考虑使用具有所有矩形变体、帧内/帧间和Y/U/V的4、8、16、32、64尺寸变换，那么可能的组合的数量可能会变得非常大，这将得出150个矩阵(与用于H.264的8个矩阵和用于HEVC的20个矩阵相比)。

ο最近的编解码器倾向于使用更大尺寸的变换，这进而要求传输更大尺寸的量化矩阵，这意味着更大数量的系数。

ο如上面所指示的，出于心理视觉改善或其它原因，可以选择与规范中找到的默认矩阵不匹配的替代矩阵。

ο量化矩阵可以是不对称的，例如以适应隔行扫描的内容或变形的内容。

ο可以要求改变每个图片的量化矩阵，以便更好地调整量化参数(例如，模拟大于51的QP，这是AVC和HEVC中指定的当前最大值，或者模拟分数QP)。

ο位速率调节可以要求牺牲一些频率；当缓冲区快要满时，它通常以“紧急模式”出现；在这种情况下，花费很多位对量化矩阵进行编解码是不利的。

ο可以要求取决于用于预测块的时间帧的时间距离来不同地调整变换系数(残差统计强烈依赖于这个时间距离)，从而要求频繁改变量化矩阵。

ο如果要求完整矩阵的传输，那么即使进行简单的改变也是昂贵的。

ο在当前的编解码器(例如，H.264和HEVC)中，由于DPCM编解码，量化矩阵的编解码成本与其复杂性在某种程度上相关，但是这可能会进一步推高。类似地，如果使用预测，那么与预测器相比，编解码成本应当与改变的复杂性相关。

此处解决的另一方面是，在当前的编解码器中，量化矩阵在去量化过程中被用作乘法器，与无矩阵相比，这增加了复杂性：它需要两次乘法而不是一次乘法，并且增加了中间结果的动态范围。而且，作为默认HEVC矩阵基础的HVS模型遵循指数趋势，这难以与低复杂度模型和少量参数匹配。

在HEVC的开发期间，在JCT-VC中已经研究了一些问题。例如，变换尺寸和类型的增加引起了有关量化矩阵编解码效率的讨论和建议：

·问题的证据已在由K.Sato、H.Sakurai发表的标题为“HEVC中量化矩阵压缩的必要性(Necessity of Quantization Matrices Compression in HEVC)”的文章中提供，JCTVC-E056，JCT-VC第五次会议：瑞士日内瓦，2011年3月16日至23日(以下称为[JCTVC-E056])。

·M.Zhou、V.Sze发表的标题为“HEVC量化矩阵的紧凑表示(Compactrepresentation of quantization matrices for HEVC)”的文章，JCTVC-D024，JCT-VC第四次会议：韩国大邱，2011年1月20-28日(以下称为[JCTVC-D024])提出了一种涉及对称性、子采样和线性插值的编解码方法。

·J.Tanaka、Y.Morigami和T.Suzuki发表的标题为“HEVC的量化矩阵(Quantization Matrix for HEVC)”的文章，JCTVC-E073，JCT-VC第五次会议：瑞士日内瓦，2011年3月16日至23日(以下称为“JCTVC-E073”])提出了一种编解码方法，该方法具有根据线性模型进行的可选预测、根据其它矩阵、对称性和不均匀残差量化的进行的预测。

·G.Korodi和D.He的标题为“QuYK：量化矩阵的通用无损压缩方法(QuYK:AUniversal,Lossless Compression Method for Quantization Matrices)”的文章，JCTVC-E435，JCT-VC第五次会议：日内瓦，2011年3月16日至23日(以下称为“JCTVC-[E435])提出了两种方法，一种具有高级熵编解码，另一种具有对称性、对角仿射或二次预测以及残差的零树编解码。

·E.Maani、M.Haque、A.Tabatabai的标题为“默认量化矩阵的参数化(Parameterization of Default Quantization Matrices)”的文章，JCTVC-G352，JCT-VC第七次会议：瑞士日内瓦，2011年11月21日至30日(以下称为[JCTVC-G352])提出了一种二次模型。

·Y.Wang、J.Zheng、X.Zheng，Yun He发表的标题为“分层量化矩阵压缩(Layeredquantization matrices compression)”的文章，JCTVC-G530，JCT-VC第七次会议：日内瓦，2011年11月21日至30日(以下称为[JCTVC-G530]提出了一种具有分层迭代细化的编解码方法。

·R.Joshi、J.S.Rojals、M.Karczewicz发表的标题为“量化矩阵的压缩和信令(Compression and signaling of quantizer matrices)”的文章，JCTVC-G578，JCT-VC第七次会议：瑞士日内瓦，2011年11月21日至30日(以下称为[JCTVC-[G578])在对称规则的基础上提出了一种具有改进的差分编解码的光栅扫描编解码模式(代替对角线)。

·M.Haque、E.Maani、A.Tabatabai发表的标题为“缩放列表矩阵参数和参数编码的高级语法(High-level Syntaxes for the Scaling List Matrices Parameters andParametric coding)”的文章，JCTVC-H0460，JCT-VC第八次会议：美国加利福尼亚州圣何塞，2012年2月1日至10日(以下称为[JCTVC-H0460])提出了一种使用3个参数化模型(二次或HVS)的预测。

·S.Jeong、Hendry、B.Jeon、J.Kim发表的标题为“基于HVS的广义量化矩阵(HVS-based Generalized Quantization Matrices)”的文章，JCTVC-I0518，JCT-VC第9次会议：瑞士日内瓦，2012年4月27日至5月7日(以下称为[JCTVC-I0518]提出了一种具有单个参数的基于HVS的模型。

·R.Joshi、J.S.Rojals、M.Karczewicz发表的标题为“量化矩阵条目作为QP偏移(Quantization matrix entries as QP offsets)”的文章，JCTVC-I0284，JCT-VC第9次会议：瑞士日内瓦，2012年4月27日至5月7日(以下称为[JCTVC-[I0284])建议使用量化矩阵作为QP偏移。

[JCTVC-E056]中已经示出了量化矩阵编解码成本增加的证据。这鼓励对量化矩阵进行更高效编解码的技术的发展。J.Tanaka、Y.Morigami和T.Suzuki的标题为“HEVC量化矩阵编解码的增强(Enhancement of quantization matrix coding for HEVC)”的文章，JCT-VC第6次会议：意大利都灵，2011年7月14日至22日(以下称为[JCTVC-F475])提供了复杂形状的矩阵(如图9所示)，以测试各种建议的编解码效率。图9中提供的量化矩阵都是16x16的，其中左边的是对称的，右边的是不对称的。它们并不是有意义的，而是为压力测试而设计的：难以编码，但不是太多。

[JCTVC-D024]涉及x/y和中心点对称性，以及子采样的表示和线性插值重构。注意的是，x/y对称性是指矩阵对称性，即，M(x,y)＝M(y,x)。x/y对称性在[JCTVC-D024]中被称为“135度对称性”。中心点对称性在[JCTVC-D024]中是指“45度对称性”，并且在数学上，M(x,y)+M(N-1-y,N-1-x)＝C，其中N是(平方)矩阵的尺寸，C为常数，并且x，y＝0，1，2，...N-1。[JCTVC-D024]也提出了对仅正DPCM编解码的限制，但此后被撤回。

中心点对称性通常不相关，并且x/y对称性并不总是正确的。[JCTVC-D024]方法的一个益处来自于子采样的表示，其导致位成本降低大约2.5x并且误差小。但是，由于上采样不是完全规则的，因此增加了规范的复杂性。

[JCTVC-E073]提供了几种编解码模式。首先，一种模式涉及水平、垂直和对角轴的仿射预测，以及其余的线性插值；但是该模式在第二版([JCTVC-F475])中被放弃了。其余涉及从其它矩阵进行的预测(具有固定的树和更高阶树)、不均匀的残差量化(用于量化矩阵的量化矩阵)、x/y对称性以及各种扫描和编解码选项(光栅DPCM、锯齿形DPCM或锯齿形RLE)，以及VLC熵编解码。它建议在第一版中将量化矩阵解释为QP偏移。

在[JCTVC-E073]方法中，位成本的主要降低来自量化，量化会产生适度的误差。但是，有很多选项，并且对于此目的而言规范似乎太复杂了。3轴仿射模型后面跟着线性插值是有趣的，但可能并不比具有相同数量参数的单级多项式模型好。直到[JCTVC-I0284](见下文)，才进一步讨论作为QP偏移的解释。

[JCTVC-E435]提出了两种方法：第一种方法是具有字符串替换和算术编解码的高级熵编解码；第二种方法具有三种模式：非对称模式，其中使用具有自己的参数集的二次模型来预测每个直立对角线；x/y对称性模式，用仿射模型代替二次模型；以及x/y+中心点对称性模式，其中仅对角线的一半被编解码。用于每个对角线的参数作为索引被传输到有限的系数集，以及偏移。使用零树对残差进行编解码。

对于[JCTVC-E435]，第一种方法是新的熵编解码方法，对于此目的而言似乎太复杂了。在第二种方法中，用粗粒度低次多项式对每个对角线进行建模是有趣的，但与全局参数化模型相比可能太复杂了：对角线在现实生活中显然是相关的。测试矩阵(与[JCTVC-D024]相同)有点过于简单并且偏向于半对角锯齿形扫描效率；尚不清楚压缩性能是来自每对角仿射模型还是零树编解码。

[JCTVC-G352]和[US20130188691]提出了用于默认矩阵的二次多项式模型。矩阵系数近似为

QM(x,y)＝(a(x²+y²)+bxy+c(x+y)+d)/2^q

其中x和y是系数的位置(对于NxN矩阵，从0到N-1)，(a,b,c,d)是模型的参数(如表2所示)，而q是通常为10的位精度。据说(a,b,c,d)的简单缩放将为其它矩阵尺寸提供直接的扩展：对于2Nx2N矩阵，它们分别被(4,4,2,1)除。

表2.对于AVC类型和HVS默认矩阵的建议参数

这个模型为类似AVC的矩阵提供了良好的拟合(因为它们几乎与平面匹配，因此容易)，但对于HVS却不是这样，并且仅限于凸形。而且，参数的动态范围随x或y指数变化很大，尤其是对于大尺寸的情况；这将导致一些较低位精度q的准确度问题。图10图示了针对尺寸8、16和32的AVC类型(左)和HVS(右)矩阵，其中黑色网格示出了模型并且灰色表面示出了拟合目标。

在[JCTVC-G352]中，引用了Zhang等人的著作，其中编码器在内部使用二次模型来优化量化矩阵，假定以传统方式传输优化的矩阵(例如，参见H.Zhang等人的专利申请，“为图像/视频编码的量化矩阵建模的方法和装置(Method and apparatus for modelingquantization matrices for image/video encoding)”，美国专利号US 8,326,068，以下称为[US8326068])。

[JCTVC-G530]和Y.Wang、J.Zheng、Yun He的标题为“分层量化矩阵表示和压缩(Layered quantization matrices representation and compression)”的文章，JCTVC-H0314，JCT-VC第八次会议：美国加利福尼亚州圣何塞，2012年2月1日至10日(以下称为[JCTVC-H314])提出了一种新方法。该方法遵循分层方法，其中为矩阵中的每个位置指派层索引(这个指派矩阵特定于每个矩阵尺寸)。图11A示出了针对8x8尺寸的示例矩阵层。首先，对根级位置的系数进行解码，然后使用线性插值预测下一层的系数并用残差进行校正；该过程继续进行到下一层，依此类推。可以对[JCTVC-E073]中定义的4个区域以不同的比例量化残差(参见图11B)并且残差可以被传输到有限数量的层(例如，仅前2个层)，其余层为零。存在x/y对称模式，其中只有一半残差被传输。取决于层，使用DPCM或RLE对残差进行编解码。除了像刚才描述的那样进行明确编解码外，还可以从同一图片的其它矩阵中复制矩阵(使用固定的树、从较大的尺寸到最小的尺寸、使用常规子采样)，或者从先前图片的同一矩阵对矩阵进行差分编解码。

这种方法以有趣的分层方法而胜过一些其它方法，但对于此目的而言通常太复杂。具体而言，使用间隔不均匀的锚点的线性插值是复杂的，其比率可以是1/3或3/7之类的数字。

[JCTVC-G578]在对称性规则和子采样的基础上提出了一种简单的编解码方法：以光栅次序扫描系数，每个系数以上方邻居和左侧邻居的最大值进行预测，并用残差进行校正。接下来，将校正后的系数用于预测。由于矩阵系数通常会增加，因此以有利于正值的有符号到无符号的映射、使用哥伦布指数(exp-golomb，EG)对残差编解码。残差传输可以限于矩阵的子块(例如，左上角)，其余的块可以被推断为0。第二版本，如R.Joshi、JS Rojals、M.Karczewicz的标题为“基于修改后的预测并映射到无符号值的量化矩阵的编解码(Coding of quantization matrices based on modified prediction and mapping tounsigned values)”的文章，JCTVC-H0451，JCT-VC第八次会议：美国加利福尼亚州圣何塞，2012年2月1日至10日(以下称为[JCTVC-H0451])中所述，添加了具有可变次数的golomb-rice编解码。

这种方法在非对称情况下具有良好的性能(大约减少40％的位)，并且复杂度非常低。但是，这可能会受到测试矩阵的影响，该测试矩阵准单调增加，因此非常适合max(左侧，上方)预测，并且由于明显的不对称性而优于对角线。注意的是，由于矩阵值的增加，40％中的15来自有符号到无符号映射的偏移。对于对称情况，增益要低得多，并且对于较小尺寸的情况，其增益总体要比对大尺寸的情况低。

[JCTVC-H0460]提出了一种基于参数化模型的编解码方法。首先，从三个可能的模型当中选择参数化模型：

表3.[JCTVC-H0460]中提出的参数化模型

然后，可选地，可以用常规方法(例如，锯齿形扫描和对称性规则)传输残差。给出了用EG5编解码并归一化为32的参数以及残差的测试结果。大于8x8的矩阵尺寸是使用8x8表示然后上采样生成的。

多个参数化模型和其它选项(如残差编解码方法)使该方法变得复杂。而且，HVS模型在计算上要求高。带有残差的结果没有显示出比传统方法更好的性能，但是有人认为，如果不需要残差(即，认为模型足以满足此目的)，那么表示非常紧凑。但是该模型可能还不够，因为它仅限于2次多项式，并且HVS版本没有提供更多的自由度。在图12中，使用SSE优化和正约束，示出了[JCTVC-H0460]二次模型对尺寸为8x8的对称(左)或不对称(右)测试帧内矩阵的拟合性能，其中灰色表面表示目标并且黑色网格表示模型。结果为38位和56位(锚在334和380中)。

[JCTVC-I0518]提出了一种通用的HVS模型，以传输带有单个α参数的缩放矩阵：

H与[Chang]或等式(2)中的相同。还提出了一种简化的计算方法，使用1/H的近似值作为2的幂。使用近似值的示例在图13中示出。

只有一个参数，这个模型非常紧凑，并且指数可能使其非常适合帧内到帧间转换和时间距离自适应。但是，底层公式相当复杂且计算量很大。简化的计算技术引入了可能无法接受的粗略近似(例如，下三角半部分完全扁平)。而且，将量化矩阵限制为仅具有一个自由度的此类矩阵可能太严重了。

[JCTVC-I0284]建议使用量化矩阵作为QP偏移(已在[JCTVC-E073]中提出)，解释说这使QP调整在两个方向上都更加均匀，并且还简化了去量化过程并可能在一些实施方式中节省存储器。它要求通过在去量化过程中提高levScale表的分辨率来局部增加QP粒度。矩阵将以偏移二进制(0-119，中点为64)进行编解码。

在标准化过程期间，JCT-VC小组非常不愿意增加矩阵编解码的复杂性，并且存储器存储被视为编解码成本的关键。因此，选择具有重复性的矩阵子采样是因为它既达到了两个目标，又没有附加的复杂性，并且对质量的影响很小，此外，与AVC相比，设计基本上保持不变。由于增加的复杂性和不清楚的收益，拒绝了进行非均匀子采样的各种尝试。使用对称性还增加复杂性，因此认为不值得付出努力。

对于更大的矩阵尺寸，样点重复性优于线性插值，因为去量化过程可以使用缩减尺寸的表示，而无需任何即时计算。值得注意的是，在JCT-VC会议H期间进行的主观测试表明，矩阵系数中的小误差没有视觉影响，如T.Suzuki K.Sato、X.Zhang、R.Joshi、J.Zheng、M.Zhou的标题为“量化矩阵主观观察报告(Report on Quantization MatricesSubjective Viewing)”有关量化矩阵主观观察的分组报告中所述，JCTVC-H0730，JCT-VC第八次会议：美国加利福尼亚州圣何塞，2012年2月1日至10日(以下称为[JCTVC-H0730])。

由于小误差似乎可接受，并且量化矩阵数据通常平滑，因此参数化模型将是好的选择。实际上，用于比较不同JCT-VC提议的数据压缩方法可能会产生误导，因为它并不关注量化矩阵设计的实际需求。自由度的构思可以是更好的匹配。而且，在下一个标准中量化矩阵的数量的预期增加推动了更紧凑的表示。

新兴的AV1视频编解码标准也使用量化矩阵。当前，它利用16个可能的矩阵集的集合，这些矩阵集在编码器和解码器中都进行了硬编解码(hard-coded)。一个矩阵集包括针对每个块尺寸、亮度和色度的矩阵。像在HEVC中一样，每个矩阵系数被用作经变换的块的匹配系数的量化步骤的乘法因子。

可以通过编码器在图片级别或64x64块级别并且对于每个颜色分量分别用信号通知指定要使用16个集合中的哪个集合的索引。这个索引被AV1称为“QM级别”。图14示出16x16 AV1量化矩阵，顶部行的亮度和色度索引为0，且底部行的亮度索引为4和8。

根据硬编解码的表，增加级别导致矩阵越来越扁平。用于索引15的矩阵完全扁平(归一化值＝32)。实际上，在那种情况下，解码器将索引15解释为“旁路”，并在去量化过程中跳过矩阵。

在此，依靠硬编解码矩阵完全避免了传输许多矩阵的问题。通过在16种可能性之间进行选择来提供灵活性，但这是非常有限的：可以将其与[JCTVC-H0460]的HVS模型中的c因子或[JCTVC-I0518]的alpha指数进行比较。但是，与HEVC相比，通过在块级别选择矩阵的能力提高了灵活性。

另一方面，硬编解码的矩阵在只读存储器、代码和规范中占用大量空间。特别地，当前在6767行代码中有107008个8位值用于解码器矩阵，并且对于编码器一样多。

本申请提出了使用简单的固定多项式模型的量化矩阵的紧凑表示，其单项式通过增加的复杂度来排序，并且参数数量可变，从而为了更好的准确度而交易更多的位减少了对更多或更少的参数进行编解码。在下文中，与其它已知的著作相比，提供了所提出的技术的一些优点。

所提出的技术可以被用作直接矩阵编解码，或者作为预测的残差，并且或者用于默认矩阵或者用于定制(传输的)矩阵。在一个实施例中，可以添加使用另一种编解码方法的残差以进一步调整QM系数。

如上所述，我们预计在未来的视频标准中量化矩阵的位成本将承受巨大压力。在各种实施例中，参数化模型被用于提供非常紧凑的表示，但是以牺牲一些自由度为代价。

由于量化矩阵通常非常平滑，因此不要求完全控制每个矩阵系数：从JCT-VC会议H的主观观察结果可以清楚地看出，有损与无损QM传输技术之间无法检测到差异，并且最终决定以8x8分辨率表示大型矩阵。因此，对量化矩阵进行编码的解决方案可以以“足够”的自由度定义全局形状。

在一个实施例中，提出了一种多项式模型，因为在可能的参数表面模型中，多项式可能为最低的复杂度提供最高的灵活性。

注意的是，即使提出的表示与块尺寸无关，也可以与最大限制为8x8的扩展兼容，并且像HEVC中那样对于更大的尺寸重复。图15图示了量化矩阵编解码性能，其中针对一些8x8矩阵将此处提出的模型的最简单变体(使用3、4、6、8、10、11、13、15、17、19或21个参数)与由[JCTVC-G530]提出的分层方法(针对HEVC提出的最佳“有损”方法)进行比较，以AVC/HEVC编解码方法为参考(可从其它矩阵获得可比较的结果)。所提出的模型一般在低位速率侧扩展并胜过[JCTVC-G530]。

图16图示了根据实施例的用于对量化矩阵进行解码的系统1600。参数解码器1610从输入比特流获得当前量化矩阵的模型参数，例如多项式系数{Pi}。然后，量化矩阵生成器1620基于矩阵尺寸和模型参数来生成当前量化矩阵。

图17图示了根据实施例的用于对量化矩阵进行解码的方法1700。方法1700开始于步骤1705。解码器1710从输入比特流获得用于当前量化矩阵的模型参数，例如多项式系数{Pi}。然后，解码器基于矩阵尺寸和模型参数生成1720当前量化矩阵。方法1700在步骤1799处结束。方法1700可以在系统1600中实现。在下文中，将进一步详细描述量化矩阵的建模。

在一个实施例中，本技术使用单个固定多项式来表示量化矩阵，以保持最小复杂度。通过仅指定n个第一多项式系数(也称为“多项式参数”)，就可以实现位成本和复杂度的调制，其余的系数则隐式地设置为零(或任何相关的中性值)。

单个固定多项式的一种形式是以(x,y)的完全展开的多项式，其中x、y指示量化矩阵中给定系数的坐标，具有通过增加的指数来排序的单项式(也称为“项”)，如等式(3)中所示，以表达作为多项式参数P_i的函数导出量化矩阵系数M(x,y)的方式。

其中P_i是多项式系数，并且

是项，并且px_i和py_i是单项式m_i的x和y的指数。

这个形式提供了高灵活性，具有合理的复杂度，由指定的多项式系数的数量控制。由于较高的指数是最后的指数，因此减少系数的多项式数量实际上减少了多项式的次数，从而降低了其复杂度。注意的是，项(即，m_i(x,y))中变量(即，x或y)的指数被称为那个变量在那个项中的次数；项的次数是该项中变量的次数的总和，并且多项式的次数是任何一个具有非零系数的项的最大次数。

更具体而言，

在此单项式通过以下排序：

规则1.增加项的次数；

规则2.增加最大(x或y)指数；以及

规则3.增加y指数。

在等式中(4)，多项式系数的不同子集定义不同次数的M(x,y)。例如，第1行(“P₀”)定义了0次多项式(即常数)，第1行和第2行(“P₀+P₁x+P₂y”)定义了1次多项式，第1-3行(P₀+P₁x+P₂y+P₃xy+P₄x²+P₅y²)定义了2次多项式(如JCTVC-H0460)，等等。每行添加下一次的项。注意的是，次数0、1、2、3、4、5的系数最大数量分别为1、3、6、10、15和21。

这个系列可以继续进行，但是我们建议停止在4次(即，15个参数，P₀-P₁₄)，因为越高的次数需要越来越多的参数，并且中间计算的复杂性和动态范围也不断增加。

注意的是，多项式可以采用不同的形式。例如，可以忽略规则2，或者可以修改规则3以遵循增加x指数。虽然可以使用不同形式的M(x,y)，但是编码器和解码器都应当了解单项式m_i(x,y)的有序序列，i＝0，1，2…。随后，当发送或接收多项式参数时，第i个多项式系数P_i与第i个单项式m_i(x,y)对应，因此可以通过将多项式系数和相同索引的单项式相关联(即，将P_i和m_i(x,y)配对)来构造多项式，如M(x,y)＝∑_iP_i·m_i(x,y)。

在此，通过使用多项式参数的明确定义的传输(或存储)次序，可以通过用于表示量化矩阵的多项式参数的数量轻松地控制量化矩阵的复杂性。在一个示例中，多项式参数的数量作为语法的一部分在比特流中显式或隐式传输。

可以使用默认多项式系数，或者可以在比特流中传输多项式系数。在一个示例中，可以指定有限数量的多项式参数，并且可以将其余参数推断为零。传输较少的参数通常需要较少的位，并且形状更简单，易于计算，而参数越多则意味着越多的位，并且形状越复杂，难以计算。

对于次数4，多项式参数的数量可以从0到15，如果需要被传输，可以用4位进行编解码。0可以被解释为默认矩阵(或默认参数)。

在一个实施例中，可以添加对称性标志，例如sym，以便为x和y对称的单项式指定相同的系数，从而形成对称多项式，减少参数数量(例如，对于次数4，用9代替15)。表4中示出了针对次数4的映射。

表4.对称多项式参数的映射

x和y的归一化

在一个实施例中，我们提出将x和y变量归一化至以下，这在[JCTVC-G352]或[JCTVC-H0460]等先前的著作中未完成：

1-均衡各种多项式系数之间的动态范围。在表2中，取自先前的著作，系数a和d具有非常不同的范围，如果增加多项式次数和/或矩阵尺寸，那么会导致严重的问题。通过归一化，解决了这个问题，并且可以以固定数量的位来传输多项式系数。对于结果矩阵的相同准确度，与未经x和y归一化的参数的哥伦布指数编解码相比，这个方法更简单，并且在我们的测试中被证明更高效。

2-对于不同的矩阵尺寸(包括矩形尺寸)使用相同的多项式系数。利用这种方法，对半尺寸矩阵使用相同的多项式正好等同于取全尺寸矩阵的每个其它系数；这适用于x方向、y方向或两者。

让我们定义归一化值N，因此

其中x’、y’为间隔[0..size_x/y-1]中的整数(即，矩阵的列和行的索引)，其中size_x和size_y是矩阵的水平和垂直尺寸。

图18图示了根据实施例的用于归一化矩阵坐标的方法1800。方法1800可以在量化矩阵生成1620中实现，或者可以用于执行步骤1720。

具体而言，对于矩阵坐标x′，基于量化矩阵的水平尺寸和归一化值N，可以执行x归一化(1810)：

类似地，对于矩阵坐标y′，基于量化矩阵的垂直尺寸和归一化值N，可以执行y归一化(1830)：

然后，归一化的矩阵坐标x和y可以被用于建模(1820)例如在等式(4)中使用的量化矩阵以生成M(x,y)。

N的明显选择是1，因为这会使每个单项式都在[0..1)范围内，因此每个系数的变化(准确度)的最大影响是相同的。在尝试定义所需的有效位的数量时，这是重要的考虑因素。但是，与给定形状匹配的多项式系数的动态范围变化很多，这取决于多项式系数的数量并且取决于每个系数的等级(P_i中的索引i)。0次和1次多项式系数倾向于小于其它系数，并且多项式系数数量越多，所有这些多项式系数的动态范围就越大。

例如，已经在基于H.264、HEVC和其它测试8x8矩阵的测试集上通过最小化重构矩阵与测试矩阵之间的均方误差，执行了无约束最小二乘拟合。在图19中，左图示出了针对具有6、10、15、21个多项式系数的几次实验的每个系数的最大绝对值；右图示出了针对不同数量的系数(3至21)在所有多项式系数当中的最大绝对值。

从理论上讲，可以使用哥伦布指数编解码以无限范围传输多项式系数。但是，将大量多项式系数用于矩阵计算将是不现实的，必须对其进行充分指定，因此是位受限的。这意味着要定义多项式系数的范围及其准确度。

由于量化矩阵通常被定义为8位数字，因此定义具有相似位深度的多项式系数是有意义的。如果多项式系数的数量被限制为15个(即，4次)，那么可以将其约束到[-512...511]范围(即，10位带符号)，并且丢弃2个LSB(最低有效位)将使它们是8位带符号的。这将使矩阵(0,0)值的准确度降低4倍，但因为每个系数以不同级别影响不同地方的矩阵，所以总体准确度可以令人满意。

归一化值N＝1并非唯一可能的选择，并且其它值也会对系数范围和准确度产生其它折衷：对于N>1，较高索引系数的准确度具有较大的影响，如图20上所示。系数边界(即，动态范围)对各种N的拟合质量的影响在图21上示出，建议对于N＝1、

2为512、256和128。

推荐的N为2，因为它产生稳定的低系数范围，并且对整体准确度有良好的折衷，并且对于(0,0)矩阵位置保持完整准确度，这是有价值的。

高效计算

由于size_x和size_y通常是2的幂，并且如果N也是二的幂(我们推荐N＝2)，那么等式(5)中的除法将简化为位移(bit shift)。令sx＝log2(size_x)-log2(N)且sy＝log2(size_y)-log2(N)，那么等式(5)可以写成：

在等式(3)中报告，其变为：

现在，如果定义smax＝max(sx.px+sy.py)，那么我们可以写

通过

由于smax≥0且smax-sx.px_i-sy.py_i≥0，乘以

简化为左移，而最终除以2^smax可以用右移实现，优选地用舍入来实现：

其中s_i＝smax-(sx.px_i+sy.py_i)且rnd＝1＜＜(smax-1)。

这种方法通过整数计算保持了良好的准确度。图22图示了根据实施例的具有整数计算的量化矩阵生成器2200。生成器2200可以被用作模块1620。

根据矩阵尺寸(size_x、size_y)和归一化值N，sx＝log2(size_x)-log2(N)且sy＝log2(size_y)-log2(N)，并且可以导出(2220)归一化数据：s_i＝smax-(sx.px_i+sy.py_i)。可以将舍入和移位(shifting)值导出(2230)为：smax＝max(sx.px+sy.py)和rnd＝1＜＜(smax-1)。

根据量化矩阵坐标x′和y′，可以导出(2210)第i个单项式：

将第i个单项式与第i个多项式参数P_i配对，形成(2240)P_im′_i(x′,y′)。然后应用(2250)左移：P_im′_i(x′,y′)＜＜s_i，并将移位的结果求和(2260)：∑_iP_im′_i(x′,y′)＜＜s_i，通过相加来舍入(rnd)(2270)，并通过右移(2280)smax以形成量化矩阵中的元素：M(x′,y′)＝((∑_iP_im′_i(x′,y′)＜＜s_i)+rnd)＞＞smax。

图23图示了根据实施例的用于通过整数计算来生成量化矩阵的方法2300。生成器2300可以如模块1620中那样使用，或者可以在步骤1720中执行。

方法2300开始于步骤2305。根据矩阵尺寸(size_x、size_y)和归一化值N，sx＝log2(size_x)-log2(N)且sy＝log2(size_y)-log2(N)，并且可以将舍入和移位值导出(2310)为：smax＝max(sx.px+sy.py)和rnd＝1＜＜(smax-1)。

然后，解码器将变量i初始化(2320)为0，并且M(x′,y′)＝rnd。在步骤2330处，可以导出归一化数据：s_i＝smax-(sx.px_i+sy.py_i)。根据量化矩阵坐标x′和y′，可以将第i个单项式导出(2340)为：

将第i个单项式与第i个多项式参数P_i配对(2350)，形成P_im′_i(x′,y′)，并在左移(2350)之后添加到M(x,y)：M(x′,y′)+＝P_im′_i(x′,y′)＜＜s_i。在步骤2360处，变量i递增1。在步骤2370处，解码器检查是否已经处理了最后一个多项式。如果不是，那么控制返回到步骤2330。否则，在步骤2380处，将M(x′,y′)右移smax以形成量化矩阵中的元素：M(x′,y′)＞＞＝smax。方法2300在步骤2399处结束。

大多数变量可以预先计算，因为rnd和smax仅取决于矩阵尺寸，s_i取决于矩阵尺寸和单项式索引。表5示出了示例：

表5.s_i、rnd、smax的示例计算

对于8x8矩阵且N＝2：sx＝2，sy＝2，smax＝8，rnd＝128

可以指出的是，m′_i不取决于于矩阵尺寸，因此它们可以全部一次计算，而子部分则用于较小的尺寸。只需很少的乘法就可能实现高效的增量实施方式。

可替代地，可以在计算矩阵之前对p_i应用s_i移位，从而使后者为一系列乘-累加运算，由rnd初始化，然后右移，这是很常见的操作。

中间计算位深度的分析

对于上面的示例(8x8矩阵，其中N＝2)，具有8位带符号的P_i，表6示出了m′_i、P_im′_i和P_im′_i＜＜s_i的位深度。

表6

但是，在右移smax＝8位之后，我们预期针对矩阵值的mbd(矩阵位深度)＝8位(无符号)的结果。在设计时必须约束P_i，使结果为正且在界限内(0-255)。此外，在移位之后(mbd＝8位)或之前(mbd+smax＝16位)之前(高位的)截断是等效的。而且，此外，如果将结果截断到相同的位深度，那么截断操作数没有什么区别，并且两个带符号值的补码表示使其既适用于有符号数又适用于无符号数。

这意味着P_im′_i＜＜s_i的累加器可以限制到(mbd+smax)＝16位。但是，乘数不能减小(但是其结果可以被截断为工作位深度)。在8x8的示例中，它们必须具有12位和8位输入以及16位结果；对于256x256矩阵，它们应当具有32位和8位输入以及36位结果。

可以调整最终的右移，以在P_i的范围和准确度上提供某种灵活性。然后将等式(10)修改如下：

这旨在与正值一起使用，以提高参数的准确度。如果使用负值来增加动态范围，那么应当注意的是，这将对中间计算位深度产生影响(例如，-1将加1位累加器位深度)。

舍入值rnd应当作相应调整：rnd＝1＜＜(smax-s_base-1)。

可以在多项式表示之上添加较低的剪切(clipping)，如等式(12)中所示(这也在等式(10)或(11)之上适用)。因为它们常常在下端具有扁平区域，所以这可以改善对常规量化矩阵的拟合。

如图24和图25中所示(这在没有对称性标记也没有定制移位的情况下进行了测试)，这对拟合质量具有重大影响，尤其是对于少量的参数。特别地，图24中的左图示出了使用10个参数的默认HEVC帧内矩阵的拟合，没有剪切，而右图示出具有剪切。图25中的图示出了剪切对默认HEVC帧内8x8矩阵(左)、JCTVC-F475 8x8非对称测试矩阵(中)、H.264矩阵(右)的拟合误差的影响。

应当注意的是，由于剪切，关于多项式结果范围的讨论在下侧不再适用：多项式现在在零以下是无界的，因为剪切将对其进行校正。或者应当约束多项式系数以在矩阵范围内给出结果，或者应当在宽松约束下增加结果位深度以适应更大的范围。推荐的选项是增加1位，以允许负多项式(对于8位矩阵系数，最大为-256)；剪切将使结果为正并丢弃符号位。

下面再现了当前HEVC语法(参见HEVC标准版本3，2015年4月)：

基于提出的模型，语法的这部分可以例如替换为：

scaling_poly_nb_param＝0意味着“默认参数”。在那种情况下，跳过以下语法元素。否则，它定义语法中存在的scaling_poly_param的数量。请注意，它可以来自预定义值的列表。也可以使用查找表来指示参数的数量，例如，在编码器和解码器处都可以知道表nb_param[i][sym]，并且在比特流中发信号通知表的索引i。在一个示例中，参数的数量被限制为1、3、4、6、8、10、11、13和15。

scaling_poly_symmetric，如果为1，那么指示对于x/y对称多项式系数应当重复scaling_poly_param。如果不期望这个特征，那么可以将这个标志移除。如果被移除，那么应当在下面将其推断为0。

scaling_poly_shift从预定义值的集合中选择s_base。例如，s_base＝scaleing_poly_shift offset，其中偏移(offset)是根据归一化选择的。对于N＝2，我们推荐0至3范围，即，使用s_base＝scale_poly_shift。

scaling_poly_clip从一系列预定义值中定义较低的剪切值。它可以取少于表中所示的位数，例如，它可以使用2或3而不是4位。例如，这可以是[1,4,8,16]。请注意，较低的剪切值通常不大于16(像HEVC中那样用作量化缩放因子的8位矩阵系数的中性值)。

scaling_poly_param被用于表示用于所选择的矩阵的多项式系数(scaling_poly_coef，它与等式(3)、(11)、(12)等中的P_i匹配)。

语法元素的尺寸、次序和格式可以改变，并且其中一些可以取决于scaling_poly_nb_param。例如，如果scaleding_poly_nb_param为0或1，那么scaling_poly_symmetric就没有用，并且scaling_poly_shift的位数可以随参数的数量而增加，等等。此外，语法可以变化，并且多项式系数可以以间接方式导出。

在HEVC中，缩放列表以SPS(序列参数集)或PPS(图像参数集)来发信号通知。应当注意的是，本实施例不限于在SPS或PPS中传输量化矩阵信息。例如，可以在专用于传输矩阵的参数集中传输量化矩阵信息。在另一个示例中，量化矩阵信息可以在块级别被传输，可能参数的数量是可变的。

以下算法可以在需要时用于即时复制对称元素：

利用这种方法，无需保存对称标志，因为所有系数都是即时导出的。注意的是，当scaling_poly_symmetric为零时，这是简单的副本(copy)。

注意的是，未指定的参数应当无效：或者将scale_poly_coef初始化为零，或者应当保存n以便矩阵计算可以提前终止。

这种算法可以以表格形式编写如下：

残差

如[JCTVC-H0460]中所述，可以添加残差以进一步改善对给定矩阵形状的拟合。为了优化编解码成本，残差的数量应当可变，其扫描次序遵循低频至高频系数的次序，诸如右上对角线(如HEVC中)或锯齿形(如AVC中)，因为低频系数常常被认为更关键。未编解码的残差被推断为0。

在多项式定义之后，可以立即使用以下语法对此进行编解码：

在另一个实施例中，由于复杂性和存储器考虑，可能不推荐使用残差。

矩阵为QP偏移

与[JCTVC-I0284]中一样，量化矩阵可以被用作QP偏移(表示为“QP偏移模式(QP-offset mode)”或“对数刻度模式(log scale mode)”，因为QP表示对数刻度中的量化器刻度而不是缩放因子(表示为“线性刻度模式”)，因为它带来若干优点：

-通过移除乘法的更简单的去量化，这进而减小了计算动态范围。这为提高levScale的准确度留出了空间，可以允许将levScale用作某种非正方形变换归一化的

因子(使用附加的QP偏移)，并完全移除除levScale以外的乘法。

-通过移除量化矩阵系数的除法(通常实现为与量化矩阵的逆的乘法，具有准确度折衷、存储器影响以及甚至对动态范围的压力大于去量化的压力)来类似地简化量化，仅留下乘以levScale的逆。

-它使得统一所有量化调整的表示是有意义的

-中性值(扁平矩阵)为零

-对数刻度自然为低频系数提供了更好的准确度，这更关键

-HEVC默认矩阵公式使用指数；对数刻度表示应当更易于与多项式拟合。一般而言，拟合有望在对数刻度中更好，从而进一步减少对残差或大量参数或甚至剪切的需求。

-乘幂(exponentiation)将变成乘法，这实现起来容易得多

-对数刻度表示是带符号的(例如，从-128到+127)，可能不需要与剪切相关的动态范围扩展

-平滑矩阵定义所需的增加的QP粒度还提供了更好的速率控制

缺点是需要更精细的QP粒度，这至少会影响：

-levScale定义，

-条带头部的增量-QP位成本：将仅增加两位

-编解码单元的增量-QP位成本。如过去已经提出的(例如，[JCTVC-C135]，D.Hoang，“量化参数的灵活缩放(Flexible scaling of quantization parameter)”，JCTVC-C135，JCT-VC第3次会议：广州，中国，2010年10月7-15日)，可以通过引入增量-QP刻度(在PPS或条带头部中)来缓解这种情况，这实际上可以减少增量-QP编解码成本。

-去方块滤波器使用的阈值表

-在各个地方使用的拉格朗日乘数

请注意，如果仅针对量化矩阵增加QP粒度，那么影响可以被限制到levScale，如[JCTVC-I0284]中所述。

我们进一步推荐采用1/16步长的QP刻度(如[JCTVC-A114]中，J.Jung等人，“法国电信，NTT，NTT DOCOMO，Panasonic和Technicolor，对视频编解码技术提案的描述(Description of video coding technology proposal by France Telecom,NTT,NTTDOCOMO,Panasonic和Technicolor)”，JCTVC-A114，JCT-VC第一次会议：德累斯顿(Dresden)，德国，2010年4月15-23日)，而不是[JCTVC-I0284]中的1/6或1/12。通过移除除以6的除法和取模6的运算，这进一步简化了量化/去量化操作，这些被位掩码和移位代替(硬件中没有实际的操作)。这也简化了QP偏移的实现。

然后，由于准确度提高，QP一般使用另外两个位。可以定义适当的转换公式，以将QP值(我们称为QP₆)转换成新标准(QP₁₆)。量化矩阵位深度可以减小到7位带符号：-64至+63范围与线性刻度矩阵定义的1/16至16范围匹配，中性值周围分辨率提高30％。这进而将多项式参数的位深度减小到7位，从而降低了编解码成本，并如上面所讨论的减小了矩阵计算动态范围。

语法将改变为以下(scaling_poly_param减小为7位)：

图26图示了具有6个参数的默认HEVC帧内矩阵的拟合结果。无需对称性、移位或剪切即可执行测试。左图示出了将量化矩阵用于线性缩放的结果(用于对量化矩阵进行编码的51位)，并且右图示出了将量化矩阵用于QP偏移的结果(用于对量化矩阵进行编码的46位)。总体而言，在各种测试中，即使在线性域中进行评估，拟合一般也在QP偏移模式下看起来更好。

默认参数

与默认HEVC 8x8帧内矩阵匹配的示例参数可以在下面找到：

线性刻度模式：

clip＝16，Sbase＝0，sym＝1

5参数(8位)P_i＝[-53,94,-121,-29,36]

7参数(8位)P_i＝[6,8,18,0,-17,1,21]

QP偏移模式：

Clip＝0，Sbase＝0，sym＝1

4参数(7位)P_i＝[-2,-2,10,4]

5参数(7位)P_i＝[-27,32,-26,-7,8]

6参数(7位)P_i＝[-8,2,-3,11,3,-4]

7参数(7位)P_i＝[1,-17,38,21,-16,-5,9]

8参数(7位)P_i＝[-3,-1,6,3,4,1,6,-5]

9参数(7位)P_i＝[0,-8,10,14,3,-7,6,-5,2]

用HEVC语法对默认HEVC帧内8x8矩阵进行编解码将需要265位(1位用于对scaling_list_pred_mode_flag进行编解码，264位用于对scaling_list_delta_coef值进行编解码)。

对于线性刻度模式和QP偏移模式，建议的参数的编解码位成本和平均拟合绝对误差分析如下：

-4位用于scaling_poly_nb_param，

-1位用于scale_poly_symmetric，

-2位用于scale_poly_shift，

-4位用于scale_poly_clip，以及

-每个参数8或7位。

为了启用误差比较，在线性域中计算QP偏移模式的误差，即，首先将QP偏移转换回刻度因子。LF误差是低频半部分(x+y<8)的平均绝对误差。从表7可以看出，对于线性刻度模式使用51位，并且对于QP偏移模式使用46位，用于表示量化矩阵的误差小。因此，与HEVC标准所使用的265位相比，所提出的方法在对量化矩阵进行编码时实现了良好的位节省，而没有大的准确度损失。此外，也如表7中所示，可以通过使用更多的多项式参数来轻松缩放该方法，以提高表示量化矩阵的准确度。

表7

多项式系数可以通过对现有8x8矩阵进行最小二乘拟合来获得，并限制系数范围和结果矩阵值。如果相关，那么可以手动设置较低的剪切。

在一些实施例中，多项式可以采用除上述形式以外的其它形式，或者是若干子多项式的组合：

-x和y可以用u和v代替，其中u＝(x+y)且v＝(x-y)，或者甚至u＝(ax+by)且v＝(bx-ay)，其中a+b＝1，并且可能a已传输。对于扁平对角矩阵，v中的所有系数将为零，而对于对称矩阵(相对于u轴)，所有具有v的奇次幂的系数将为零。但是，这些益处可能难以利用，并且可能需要附加参数(a)。

-两个可分离的多项式可以组合以生成矩阵，例如M(x,y)＝P₁(x)·P₂(y)或M(x,y)＝P₁(x)+P₂(y)，其中x和y可能被上面定义的u和v代替，并且P₁和P₂分别为每一个定义了不同数量的参数。

如上所述的各种方法可以被用于修改例如分别如图1和图2中所示的编码器100和解码器200的量化模块和去量化模块(130、140、240)。而且，本实施例不限于VVC或HEVC，并且可以应用于其它标准、推荐及其扩展。

本文描述了各种方法，并且每种方法包括用于实现所描述的方法的一个或多个步骤或动作。除非方法的正确操作需要步骤或动作的特定次序，否则可以修改或组合特定步骤和/或动作的次序和/或使用。除非另外指出或在技术上被排除，否则本申请中描述的各方面可以单独或组合使用。在本申请中使用各种数值，例如，用于整数实施方式的位移中使用的参数以及示例多项式参数。特定值是出于示例目的，并且所描述的各方面不限于这些特定值。

图27图示了根据实施例的对视频数据进行编码的方法(2700)。在步骤2710处，编码器访问基于参数序列的参数化模型。在步骤2720处，编码器确定多个参数以对量化矩阵建模。在步骤2730处，编码器将多个参数中的每个参数与参数序列的子集的对应参数相关联，以表示量化矩阵。在步骤2740处，编码器基于量化矩阵来量化图像的块的变换系数。在步骤2750处，编码器例如使用熵编码器对量化的变换系数进行编码。

图28图示了根据实施例的对视频数据进行解码的方法(2800)。在步骤2810处，解码器访问基于参数序列的参数化模型。在步骤2820处，解码器确定多个参数以对量化矩阵建模。在步骤2830处，解码器将多个参数中的每个参数与参数序列的子集的对应参数相关联，以表示量化矩阵。在步骤2840处，解码器基于量化矩阵去量化图像的块的变换系数。在步骤2850处，解码器响应于去量化的变换系数而重构图像的块。

图29图示了在其中实现各种方面和实施例的系统的示例的框图。系统2900可以被实施为包括以下描述的各种组件的设备，并且被配置为执行本申请中描述的一个或多个方面。此类设备的示例包括但不限于各种电子设备，诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收器、个人视频记录系统、连网的家用电器，以及服务器。系统2900的元件可以单独或组合地实施在单个集成电路、多个IC和/或分立组件中。例如，在至少一个实施例中，系统2900的处理和编码器/解码器元件分布在多个IC和/或分立组件上。在各种实施例中，系统2900经由例如通信总线或通过专用输入和/或输出端口通信耦合到其它系统或其它电子设备。在各种实施例中，系统2900被配置为实现本申请中描述的一个或多个方面。

系统2900包括至少一个处理器2910，该至少一个处理器2910被配置为执行其中加载在其中的指令，以实现例如本申请中描述的各个方面。处理器2910可以包括嵌入式存储器、输入输出接口和本领域已知的各种其它电路系统。系统2900包括至少一个存储器2920(例如，易失性存储器设备，和/或非易失性存储器设备)。系统2900包括存储设备2940，其可以包括非易失性存储器和/或易失性存储器，包括但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例，存储设备2940可以包括内部存储设备、附接的存储设备和/或网络可访问的存储设备。

系统2900包括编码器/解码器模块2930，该编码器/解码器模块2930被配置为例如处理数据以提供编码的视频或解码的视频，并且编码器/解码器模块2930可以包括其自己的处理器和存储器。编码器/解码器模块2930表示可以被包括在设备中以执行编码和/或解码功能的(一个或多个)模块。如已知的，设备可以包括编码和解码模块之一或两者。此外，编码器/解码器模块2930可以被实现为系统2900的单独元件，或者可以作为硬件和软件的组合结合在处理器2910内，如本领域技术人员已知的。

可以将要加载到处理器2910或编码器/解码器2930上以执行本申请中描述的各个方面的程序代码存储在存储设备2940中，随后加载到存储器2920上以供处理器2910执行。根据各种实施例，在执行本申请中描述的处理期间，处理器2910、存储器2920、存储设备2940和编码器/解码器模块2930中的一个或多个可以存储各种项目中的一项或多项。这样存储的项目可以包括但不限于输入视频、解码的视频或解码的视频的一部分、比特流、矩阵、变量以及对等式、公式、运算和运算逻辑的中间或最终结果。

在几个实施例中，处理器2910和/或编码器/解码器模块2930内部的存储器被用于存储指令并为编码或解码期间所需的处理提供工作存储器。但是，在其它实施例中，处理设备外部的存储器(例如，处理设备可以是或者处理器2910或者编码器/解码器模块2930)被用于这些功能中的一个或多个。外部存储器可以是存储器2920和/或存储设备2940，例如，动态易失性存储器和/或非易失性闪存。在几个实施例中，外部非易失性闪存被用于存储电视的操作系统。在至少一个实施例中，快速外部动态易失性存储器(诸如RAM)被用作用于视频编码和解码操作的工作存储器，诸如用于MPEG-2、HEVC或VVC(通用视频编解码)。

如方框2905中所示，可以通过各种输入设备来提供对系统2900的元件的输入。此类输入设备包括但不限于(i)接收例如由广播公司通过空中传输的RF信号的RF部分、(ii)复合输入端子、(iii)USB输入端子，和/或(iv)HDMI输入端子。

在各种实施例中，方框2905的输入设备具有相关联的相应输入处理元件，如本领域中已知的。例如，RF部分可以与适用于以下的元素相关联：(i)选择期望的频率(也称为选择信号，或将信号频带限制在一个频带内)，(ii)下转换所选择的信号，(iii)再次频带限制到更窄的频带以选择(例如)在一些实施例中可以被称为信道的信号频带，(iv)解调下转换和限制频带的信号，(v)执行纠错，以及(vi)解复用以选择期望的数据分组流。各种实施例的RF部分包括执行这些功能的一个或多个元件，例如，频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下转换器、解调器、纠错器和解复用器。RF部分可以包括执行这些功能中的各种功能的调谐器，包括例如将接收到的信号下转换为更低频率(例如，中频或近基带频率)或基带。在一个机顶盒实施例中，RF部分及其相关联的输入处理元件接收在有线(例如，电缆)介质上传输的RF信号，并通过滤波、下转换和再次滤波到期望的频带来执行频率选择。各种实施例重新布置上述(和其它)元件的顺序、移除这些元件中的一些，和/或添加执行相似或不同功能的其它元件。添加元件可以包括在现有元件之间插入元件，例如，插入放大器和模数转换器。在各种实施例中，RF部分包括天线。

此外，USB和/或HDMI端子可以包括相应的接口处理器，用于跨USB和/或HDMI连接将系统2900连接到其它电子设备。应该理解的是，输入处理的各个方面(例如，里德-所罗门(Reed-Solomon)纠错)可以根据需要例如在单独的输入处理IC内或在处理器2910内实现。类似地，USB或HDMI接口处理的各方面可以根据需要在单独的接口IC内或在处理器2910内实现。解调、纠错和解复用的流被提供给各种处理元件，包括例如处理器2910，以及与存储器和存储元件结合操作的编码器/解码器2930，以根据需要处理数据流以在输出设备上呈现。

可以在集成的壳体内提供系统2900的各种元件。在集成的壳体内，可以使用合适的连接布置2915(例如，本领域已知的内部总线，包括I2C总线、布线和印刷电路板)互连各种元件并在它们之间传输数据。

系统2900包括通信接口2950，其使得能够经由通信信道2990与其它设备通信。通信接口2950可以包括但不限于被配置为通过通信信道2990传输和接收数据的收发器。通信接口2950可以包括但不限于调制解调器或网卡，并且通信信道2990可以例如在有线和/或无线介质内实现。

在各种实施例中，使用诸如IEEE 802.11之类的Wi-Fi网络将数据流传输到系统2900。这些实施例的Wi-Fi信号在适于Wi-Fi通信的通信信道2990和通信接口2950上被接收。这些实施例的通信信道2990通常连接到接入点或路由器，该接入点或路由器提供对包括互联网的外部网络的访问，以允许流式传输应用和其它空中通信。其它实施例使用机顶盒向系统2900提供流式传输的数据，该机顶盒通过输入块2905的HDMI连接来递送数据。还有其它实施例使用输入块2905的RF连接将流式传输的数据提供给系统2900。

系统2900可以向包括显示器2965、扬声器2975和其它外围设备2985的各种输出设备提供输出信号。在实施例的各种示例中，其它外围设备2985包括独立DVR、盘播放器、立体声系统、照明系统以及基于系统2900的输出提供功能的其它设备中的一个或多个。在各种实施例中，控制信号在有或没有用户干预的情况下使用诸如AV.Link、CEC或启用设备到设备控制的其它通信协议的信令在系统2900与显示器2965、扬声器2975或其它外围设备2985之间传送。输出设备可以经由通过相应接口2960、2970和2980的专用连接通信耦合到系统2900。可替代地，输出设备可以经由通信接口2950使用通信信道2990连接到系统2900。在电子设备(例如，电视)中，显示器2965和扬声器2975可以与系统2900的其它组件集成在单个单元中。在各种实施例中，显示接口2960包括显示驱动器，例如，定时控制器(T Con)芯片。

例如，如果输入2905的RF部分是单独的机顶盒的一部分，那么显示器2965和扬声器2975可以可替代地与其它组件中的一个或多个分开。在显示器2965和扬声器2975是外部组件的各种实施例中，可以经由包括例如HDMI端口、USB端口或COMP输出的专用输出连接来提供输出信号。

根据另一个实施例给出了一种用于视频解码的装置，包括一个或多个处理器，其中所述一个或多个处理器被配置为：访问基于参数序列的参数化模型；确定与所述参数序列的子集对应的多个参数；将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；基于所述量化矩阵对图像的块的变换系数进行去量化；以及响应于所述去量化的变换系数而重构所述图像的所述块。该装置还可以包括耦合到所述一个或多个处理器的一个或多个存储器。

根据一个实施例，对值进行编码或解码以指示所述多个参数中的参数的数量。通常，随着参数数量的增加，量化矩阵变得更加复杂。

根据一个实施例，参数化模型与多项式(x,y)对应，其中x和y指示矩阵坐标，所述参数序列与多项式系数的有序序列对应，所述多项式由多项式系数的所述有序序列和项的有序序列定义。

根据一个实施例，多项式系数的所述有序序列在x和y上对称。

根据一个实施例，从比特流中解码多项式系数的集合，其中响应于所述解码后的多项式系数的集合来确定多项式系数的所述有序序列。

根据一个实施例，对指示所述多项式的次数的值进行编码或解码，其中从指示所述次数的所述值获得指示参数数量的所述值。在一个示例中，所述多项式的次数被设置为4。

根据一个实施例，在多项式系数的所述有序序列与项的所述有序序列之间存在一一对应关系。

根据一个实施例，所述多项式被表示为

根据一个实施例，除了参数的所述子集之外，参数的所述序列中的一个或多个参数被设置为相应的默认值。在一个示例中，默认值被设置为0。

根据一个实施例，所述多项式是完全展开的多项式。

根据一个实施例，项的所述有序序列通过增加项的次数来排序。

根据一个实施例，项的所述有序序列进一步通过增加的x和y指数的最大值来排序。

根据一个实施例，项的所述有序序列进一步通过增加x或y指数来排序。

根据一个实施例，所述多个参数中的第k个参数与项的所述有序序列的第k项相关联。

根据一个实施例，所述矩阵坐标被归一化。可以按

执行归一化，其中x′和y′是量化矩阵的列和行的索引，size_x是矩阵的水平尺寸，size_y是矩阵的垂直尺寸，并且N是归一化值。在一个示例中，N被设置为2。

根据一个实施例，所述量化矩阵用于量化步长缩放或用于量化器参数偏移。

根据一个实施例，矩阵系数是通过整数过程来计算，该整数过程包括通过丢弃最高有效位(包括符号位)来将左移多项式项限制到n位，然后使用也限于n位输出的加法器将它们相加(仍然通过丢弃MSB)，并将结果右移smax-sbase值以获得矩阵系数，n等于矩阵系数位深度(mbd)加上(smax-sbase)的最大允许值。

根据一个实施例，当矩阵系数被进一步剪切到最小值时，剪切之前的位深度可以增加一以保持符号位，并且在那种情况下，所述n增加一。

根据一个实施例，所述多项式(x,y)与以x表示的一个多项式和以y表示的一个多项式对应。

根据一个实施例，变量x和y被u和v代替，其中u＝(x+y)且v＝(x-y)。

根据一个实施例，变量x和y被u和v代替，其中u＝(ax+by)且v＝(bx-ay)，并且a+b＝1。

根据一个实施例，两个可分离的多项式被组合以生成量化矩阵，例如M(x,y)＝P₁(x)·P₂(y)或M(x,y)＝P₁(x)+P₂(y)。

实施例提供一种包括指令的计算机程序，当所述指令由一个或多个处理器执行时，使一个或多个处理器执行根据上述任何实施例的编码方法或解码方法。给出的实施例中的一个或多个还提供了其上存储有用于根据上述方法对视频数据进行编码或解码的指令的计算机可读存储介质。一个或多个实施例还提供了其上存储有根据上述方法生成的比特流的计算机可读存储介质。一个或多个实施例还提供了用于发送或接收根据上述方法生成的比特流的方法和装置。

各种实施方式涉及解码。如本申请中所使用的，“解码”可以涵盖例如对接收到的编码的序列执行以便产生适于显示的最终输出的处理的全部或部分。在各种实施例中，此类处理包括通常由解码器执行的处理中的一个或多个，例如，熵解码、逆量化、逆变换和差分解码。基于特定描述的上下文，短语“解码处理”是旨在专门指操作的子集还是广义地指更广泛的解码处理将是显而易见的，并且相信本领域技术人员会很好地理解。

各种实施方式涉及编码。以与上面关于“解码”的讨论类似的方式，如在本申请中使用的，“编码”可以涵盖例如对输入视频序列执行以便产生编码的比特流的处理的全部或部分。

本文描述的实施方式和方面可以例如以方法或处理、装置、软件程序、数据流或信号来实现。即使仅在单一形式的实施方式的上下文中进行讨论(例如，仅作为方法讨论)，所讨论的特征的实施方式也可以以其它形式(例如，装置或程序)来实现。装置可以例如以适当的硬件、软件和固件来实现。方法可以在例如装置、例如处理器中实现，处理器一般是指处理设备，包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备，例如计算机、移动电话、便携式/个人数字助理(“PDA”)和有助于最终用户之间信息通信的其它设备。

对“一个实施例”或“实施例”或“一个实施方式”或“实施方式”以及它们的其它变体的引用是指结合该实施例描述的特定特征、结构、特性等包括在至少一个实施例中。因此，短语“在一个实施例中”或“在实施例中”或“在一个实施方式中”或“在实施方式中”以及任何其它变体在本申请中各处的出现不一定全部指相同的实施例。

此外，本申请可以提到“确定”各种信息。确定信息可以包括例如以下一项或多项：估计信息、计算信息、预测信息或从存储器中检索信息。

另外，本申请可以提到“访问”各种信息。访问信息可以包括例如以下一项或多项：接收信息、(例如，从存储器中)检索信息、存储信息、移动信息、复制信息、计算信息、确定信息、预测信息或估计信息。

此外，本申请可以提到“接收”各种信息。与“访问”一样，接收是广义的术语。接收信息可以包括以下一个或多个：例如，访问信息或检索信息(例如，从存储器)。另外，以一种或另一种方式，在例如以下操作期间：存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息，通常涉及“接收”。

应该认识到的是，例如在“A/B”、“A和/或B”和“A和B中的至少一个”的情况下使用以下“/”、“和/或”和“…中的至少一个”中的任何一个旨在涵盖仅选择第一个列出的选项(A)，或者仅选择第二个列出的选项(B)，或者选择两个选项(A和B)。作为另外的示例，在“A、B和/或C”和“A、B和C中的至少一个”的情况下，这种措词旨在涵盖仅选择第一个列出的选项(A)，或仅选择第二个列出的选项(B)，或仅选择第三个列出的选项(C)，或仅选择第一个和第二个列出的选项(A和B)，或仅选择第一个和第三个列出选项(A和C)，或仅选择第二个和第三个列出的选项(B和C)，或者选择所有三个选项(A和B和C)。如对于本领域和相关领域的普通技术人员显而易见的那样，这可以针对所列的多个项目扩展。

如对于本领域普通技术人员将显而易见的，实施方式可以产生各种信号，这些信号被格式化为携带例如可以被存储或传输的信息。信息可以包括例如用于执行方法的指令或由所描述的实施方式之一产生的数据。例如，信号可以被格式化为携带所描述的实施例的比特流。可以将这种信号格式化为例如电磁波(例如，使用频谱的射频部分)或基带信号。格式化可以包括例如对数据流进行编码并且用编码的数据流来调制载波。信号携带的信息可以是例如模拟或数字信息。如已知的，信号可以通过各种不同的有线或无线链路传输。信号可以存储在处理器可读介质上。

Claims

1.一种视频解码的方法，包括：

访问基于参数序列的参数化模型；

确定与所述参数序列的子集对应的多个参数；

将所述多个参数中的每个参数与所述参数序列的所述子集的对应参数相关联，以表示量化矩阵；

基于所述量化矩阵对图像的块的变换系数进行去量化；以及

响应于所述去量化的变换系数而重构所述图像的所述块。

2.一种视频编码的方法，包括：

访问基于参数序列的参数化模型；

确定与述参数序列的子集对应的多个参数；

基于所述量化矩阵对图像的块的变换系数进行量化；以及

对量化的变换系数进行熵编码。

3.一种用于视频解码的装置，包括：

一个或多个处理器，其中所述一个或多个处理器被配置为：

访问基于参数序列的参数化模型；

确定与所述参数序列的子集对应的多个参数；

基于所述量化矩阵对图像的块的变换系数进行去量化；以及

响应于所述去量化的变换系数而重构所述图像的所述块。

4.一种用于视频编码的装置，包括：

一个或多个处理器，其中所述一个或多个处理器被配置为：

访问基于参数序列的参数化模型；

确定与述参数序列的子集对应的多个参数；

基于所述量化矩阵对图像的块的变换系数进行量化；以及

对量化的变换系数进行熵编码。

5.如权利要求1所述的方法，或者如权利要求3所述的装置，其中获得值以指示所述多个参数中的参数的数量。

6.如权利要求2所述的方法，或者如权利要求4所述的装置，其中对值进行编码以指示所述多个参数中的参数的数量。

7.如权利要求1、2、5和6中的任一项所述的方法，或者如权利要求3-6中的任一项所述的装置，其中所述参数化模型与多项式(x,y)对应，其中x和y指示矩阵坐标，所述参数序列与多项式系数的有序序列对应，所述多项式由多项式系数的所述有序序列和项的有序序列定义。

8.如权利要求7所述的方法，或者如权利要求7所述的装置，其中多项式系数的所述有序序列在x和y上对称。

9.如权利要求8所述的方法，还包括，或者如权利要求8所述的装置，其中所述一个或多个处理器还被配置为执行：

从比特流中解码多项式系数的集合，其中响应于所述解码后的多项式系数的集合来确定多项式系数的所述有序序列。

10.如权利要求1、2和5-9中的任一项所述的方法，或者如权利要求3-9中的任一项所述的装置，其中，除了参数的所述子集之外，参数的所述序列中的一个或多个参数被设置为相应的默认值。

11.如权利要求7-10中的任一项所述的方法，或者如权利要求7-10中的任一项所述的装置，其中项的所述有序序列通过增加项的次数来排序。

12.如权利要求7-11中的任一项所述的方法，或者如权利要求7-11中的任一项所述的装置，其中项的所述有序序列进一步通过增加的x和y指数的最大值来排序。

13.如权利要求7-12中的任一项所述的方法，或者如权利要求7-12中的任一项所述的装置，其中项的所述有序序列进一步通过增加x或y指数来排序。

14.如权利要求7-13中的任一项所述的方法，或者如权利要求7-13中的任一项所述的装置，其中所述矩阵坐标被归一化。

15.如权利要求1、2和5-11中的任一项所述的方法，或者如权利要求3-11中的任一项所述的装置，其中所述量化矩阵用于量化步长缩放或用于量化器参数偏移。