CN101489134A

CN101489134A - 用于视频帧内编码的klt矩阵训练方法

Info

Publication number: CN101489134A
Application number: CN 200910060558
Authority: CN
Inventors: 余胜生; 高毅; 陈加忠; 郭红星; 孙伟平; 陈小平; 黎单
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2009-07-22
Anticipated expiration: 2029-01-16
Also published as: CN101489134B

Abstract

本发明提供一种用于视频帧内编码的KLT矩阵训练方法，属于信号处理中的视频编码领域。本发明首先提取每种帧内预测模式下的残差信号的频谱，然后，将残差样本进行分组并采用传统的方法训练得到候选KLT矩阵，对每个候选KLT矩阵采用低频子带优先的置换策略进行优化并计算优化后的变换性能，选择具有最佳变换性能的优化KLT矩阵作为该预测模式下残差信号的变换矩阵。本发明避免了在编码时实时训练KLT矩阵的巨大计算量，减少了用于表示训练矩阵的额外比特开销，训练得到的矩阵具有良好的变换性能。

Description

用于视频帧内编码的KLT矩阵训练方法

技术领域

本发明涉及信号处理中的视频编码技术领域，特别是针对帧内预测的残差信号训练出具有良好变换性能的KLT矩阵。

背景技术

H.264/AVC是ITU-T的视频编码专家和ISO/IEC的运动图像专家组联合提出的最新视频编码标准。同以往编码标准(如H.261，H.263，MPEG-1，MPEG-2，MPEG-4等)一样，H.264/AVC也采用混合编码框架，在进行编码时，首先将视频图像划分成多个宏块，然后以宏块为单位进行预测、变换以及熵编码。

预测包括帧内预测和帧间预测。帧内预测可以消除视频序列空间上的相关性，而帧间预测可以消除视频序列时间上的相关性。预测完毕，残差数据仍然存在空间冗余，必须进行变换以消除数据中的相关性，使得量化后的系数易于进行熵编码，从而提高压缩效率。

H.264/AVC的帧内预测技术是基于空间域的，即根据相邻宏块的像素的重构值来预测当前宏块。H.264/AVC分别定义了两种亮度预测块尺寸(4×4和16×16)和一种色度尺寸(8×8)。其中，对于4×4的预测块共定义了9种预测模式，而对于16×16的亮度块和8×8的色度块则只定义了5种预测模式。4×4的预测块尺寸适合于具有丰富纹理特征的区域，而16×16的预测块尺寸适合光滑的区域。对预测后的残差系数进行4×4的整数DCT变换，变换矩阵定义如下：

H = [\begin{matrix} 1 & 1 & 1 & 1 \\ 2 & 1 & - 1 & - 2 \\ 1 & - 1 & - 1 & 1 \\ 1 & - 2 & 2 & - 1 \end{matrix}] .

对变换系数进行量化，并将Zig-zag扫描后的系数进行熵编码。最优的预测块尺寸和预测模式的选择是根据率失真优化公式进行选择。

DCT的变换性能接近于最优变换，并且变换性能不依赖于信号，因此在视频和图像编码标准中得到广泛应用。不过，由于不同的帧内预测模式的残差信号具有不同的能量分布特征，采用变换矩阵固定的DCT难以获得理想的变换性能。

KLT(Karhunen-Loève transform)是均方差意义下的最优变换。另外，由于KLT的变换矩阵是通过对样本进行训练获得，因此，具有变换矩阵灵活的特点。不过，KLT的变换性能依赖于数据本身。已有研究表明，对于同一类输入信号，最差KLT矩阵和最优KLT矩阵的变换性能差距可以达到3dB以上。因此，现有的数据压缩应用中，编码端都是实时训练KLT矩阵并将其传输到解码端(通过把KLT矩阵写入压缩的数据流或者是独立传输KLT矩阵)。不过，KLT矩阵的训练过程计算复杂度很高，而且需要额外的信息量表示训练出的KLT矩阵，因此，实时训练KLT矩阵的方法难以适合于视频编码这类应用。

发明内容

本发明的目的在于提供一种用于视频帧内编码的KLT矩阵训练方法，避免了实时训练KLT矩阵的巨大计算量，减少了用于表示KLT矩阵的额外比特开销，训练得到的矩阵具有良好的变换性能。

基于视频帧内编码的KLT矩阵训练方法，分别在各种帧内预测模式下，按照如下方法进行矩阵训练：

(1)提取帧内预测模式P的残差样本频谱；

(2)对残差样本集进行分组，对分组得到的每一个样本组采用传统KLT矩阵训练方法得到一个M×M维的候选KLT矩阵；

(3)按照如下方法优化各候选KLT矩阵：

(3.1)将所述残差样本频谱均分为M个子频带，分别计算残差样本在各频带内的能量，并按照能量从大到小对子带排序；

(3.2)将候选KLT矩阵A的全部列向量构成列向量集，令j＝1；

(3.3)分别计算列向量集中各列向量在第j个子频带内的能量与残差样本在第j个子频带内的能量乘积，搜索乘积最大者对应的列向量V，将其作为优化后的KLT矩阵的第j个列向量；

(3.4)将列向量V从列向量集中排除，j＝j+1；

(3.5)若j>M，则结束，否则转入步骤(3.3)；

(4)计算优化后的候选KLT矩阵的变换性能，并选择具有最佳变换性能的KLT矩阵作为结果输出；

变换性能计算方法具体为：

g (Y) = Σ_{i = 1}^{M} w_{i} \times g_{Y} (i),

其中g(Y)为候选KLT矩阵Y的变换性能，w_i为第i个子频带的加权系数，g_Y(i)是变换系数分布在第i个子频带上的能量占全部子带能量之和的比例，变换系数分布在第i个子频带上的能量等于第i个列向量在第i个子频带内的能量与残差样本在第i个子频带内的能量乘积。

所述步骤(1)具体为：建立预测模式P的残差样本集，从残差样本集中任意选择1000个以上的残差样本，对每个残差样本进行光栅扫描得到长度为M的残差向量，将这些残差向量进行首尾串联，对串联后得到的残差线向量进行傅立叶变换得到预测模式P的残差样本频谱。

所述加权系数w_i满足：

Σ_{i = 1}^{M} w_{i} = 1,0 < w_{1} < w_{2} \cdot \cdot \cdot < w_{M} .

本发明的技术效果体现在：本发明对候选KLT矩阵采用低频子带优先的置换策略进行优化，在保证矩阵良好变换性能的同时，大大降低了训练复杂度。以将更多的能量集中到低频系数为目标，定义KLT矩阵的变换性能函数，用于选出最佳候选KLT矩阵。该方法充分考虑了KLT的特点以及帧内预测残差的能量分布特征。实验结果显示，训练得到的KLT矩阵具有较为稳定的变换性能，在相同的码率下，峰值信噪比相对于DCT提高0.25dB以上。

附图说明

图1为4×4帧内预测中水平预测模式的残差信号频谱曲线；

图2为线向量构造示意图；

图3为本发明KLT矩阵训练流程图。

具体实施方式

本发明是针对H.264/AVC的帧内预测残差信号训练出变换性能稳定并且优于DCT的KLT矩阵，以避免实时训练的巨大计算量以及用于表示KLT矩阵的额外比特开销。

本发明提出的基于最优频谱匹配的帧内预测残差信号的KLT矩阵训练方法流程如附图3所示，结合附图及实施例详细说明如下：

1.频谱提取(Frequency Spectrum Extraction)

不同预测模式的残差信号具有不同的能量分布特征，而同一帧内预测模式下的残差系数能量分布较为一致，因此，必须对每种预测模式的残差信号分别进行训练。

在训练过程中，利用有限个残差样本的能量分布特征来近似代替该模式下残差信号的能量分布特征，具体如下：

(1.1)建立残差样本集：将宏块的残差信号加入到该宏块的最佳预测模式对应的残差样本集中。为了保证所提取频谱特征的稳定性，残差样本集由不同内容的标准测试序列在不同编码环境下的残差信号组成。

(1.2)提取残差样本频谱特征：首先从残差样本集中任意选取n(n>1000)个残差样本，对每个残差样本进行光栅扫描得到一个长度为M的残差向量。对这些残差向量进行首尾串联，形成一个长度为n×M的新向量(线向量)，如图2所示，图中V₁，V₂，...，V_n表示为n个残差样本。对该线向量进行傅立叶变换即可得到残差样本的频谱。

图1是4×4帧内预测中水平预测模式的残差信号频谱曲线。

2.分组训练(Grouping Training)

在残差样本集中，为了提高训练得到的KLT矩阵的变换性能，必须对残差样本进行分组训练。对每一分组的样本采用传统的KLT矩阵训练方法可以得到一个候选KLT矩阵。为了进一步提高最终选择的KLT矩阵的性能，本发明中定义K(K>1)个不同的分组大小，对于第i个分组大小可以训练得到a_i个KLT矩阵，因此，总共可以训练出个候选KLT矩阵。其中，每一分组包含的残差样本数量不得小于10，K必须足够大，而且a_i的分布应当较为分散。

3.最优匹配(Best Match)

为了选择具有最佳变换性能的KLT矩阵，必须定义关于变换性能的函数。对信号进行变换的是为了使得的能量集中到少数几个变换系数上以利于熵编码。根据KLT的定义，M×M维的KLT矩阵可以看作M带滤波器组，即变换系数能量分布在M个子频带(简称子带)上，因此，M×M维的KLT矩阵X的变换性能函数g(X)可以定义如下：

g (X) = Σ_{i = 1}^{M} w_{i} \times g_{X} (i)

其中，g_x(i)和w_i分别表示变换系数分布在第i个子带上的能量占全部子带能量的比例以及第i个子带的加权系数。g(X)越大，表明变换性能越好。为了将更多的能量集中到较低的子带，必须给低频子带赋予较大的加权系数，即i越小，w_i越大。

将提取的残差样本频谱均分为M个子带，由于时域的卷积运算对应于频域的乘积运算，因此，变换系数在第i个子带上分布的能量等于第i个子带(即

\frac{(i - 1)}{M} π ~ \frac{i}{M} π

区间)上的残差样本能量与KLT矩阵的第i个列向量在该频带上能量的乘积。在计算时，频带上的能量都采用该频带内的平均能量来代替，一方面，可以极大减少计算量，另外，可以尽量减少由于训练样本数量有限而导致的残差样本频谱不够理想给训练过程带来的影响。

对于给定的样本残差能量分布特征，由于分布在较低频带上的能量可能较少，因此，对于候选KLT矩阵，采用该矩阵的原始列向量排列顺序，其变换性能可能较差。由于对KLT矩阵进行置换得到矩阵仍然是正交矩阵，所以可以对KLT矩阵进行置换操作。对于M×M的KLT矩阵的矩阵，总共有M！种置换方式。例如，当M＝16时，置换方式有2,004,189,184种。因此，如果考虑全部的置换方式，矩阵的训练过程将会非常耗时。为了提高KLT矩阵的变换性能，本发明中采用低频子带优先的列向量置换策略来优化候选KLT矩阵，具体如以下步骤：

(a)将残差样本频谱均分为M个子带，计算残差样本在每个子带上分布的能量，按照能量从大到小的顺序排列子带。

(b)将候选KLT矩阵的所有列向量构成候选列向量集，令j＝1。

(c)分别计算列向量集中各列向量在第j个子带内的能量与残差样本在第j个子带内的能量乘积，搜索乘积最大者对应的列向量V，将其作为候选KLT矩阵的第j个列向量；

(d)将列向量V从列向量集中排除，j＝j+1；

(e)若j>M，则结束，否则转入步骤(c)；

对于M×M的KLT矩阵，采用低频子带优先的列向量置换策略，总共有

Σ_{i = 1}^{M} i = \frac{M \times (M + 1)}{2}

种置换方式。由此可见，采用低频子带优先的置换策略后，训练的复杂度大为减小。特别是，该策略考虑了低频子带对于变换的重要意义，因此，仍然能够保证置换后的矩阵具有良好的变换性能。

置换完毕，根据(2)式计算优化后的候选KLT矩阵的变换性能，并选择具有最佳变换性能的优化后的KLT矩阵作为该预测模式下残差信号的变换矩阵；

本实施例是针对H.264中的9种4×4帧内预测模式训练出9个16×16(即M＝16)的KLT矩阵，这些KLT矩阵以表的形式同时存放在编码器和解码器中。采用KLT之后，根据量化参数(Quantization parameter)得到对应的量化步长(Quantization step)对变换系数直接进行量化和反量化。测试平台为JM10.1，选择了具有代表性的分辨率包括QCIF(176×144)和CIF(352×288)，具有不同的颜色、纹理特征的国际标准序列作为测试序列。本实施例的参数设置如下：

1.编码结构：全I帧

2.熵编码模式：CABAC

3.率失真优化：使用

4.Hardmard变换：使用

5.8×8变换：不使用

本实施例表明相对于DCT，采用KLT之后，在相同的码率下，平均峰值信噪比提高0.25dB以上。特别地，训练出的KLT矩阵对于不同的视频序列具有稳定的变换性能，因此，所提出的基于最优频谱匹配的KLT矩阵训练方法是十分有效的。另外，由于该方法主要利用空域帧内预测残差系数具有能量分布一致的特点，所以可适用于任意块尺寸的帧内预测以及其它采用空域帧内预测技术的视频编码标准中(如中国的AVS标准)。

Claims

1.基于视频帧内编码的KLT矩阵训练方法，其特征在于，分别在各种帧内预测模式下，按照如下方法进行矩阵训练：

(1)提取帧内预测模式P的残差样本频谱；

(3)按照如下方法优化各候选KLT矩阵：

(3.1)将所述残差样本频谱均分为M个子频带，分别计算残差样本在各子频带内的能量，并按照能量从大到小对子频带排序；

(3.2)将候选KLT矩阵A的全部列向量构成列向量集，令j＝1；

(3.4)将列向量V从列向量集中排除，j＝j+1；

(3.5)若j>M，则结束，否则转入步骤(3.3)；

变换性能计算方法具体为：

g (Y) = Σ_{i = 1}^{M} w_{i} \times g_{Y} (i)

，其中_g(Y)为优化后的候选KLT矩阵Y的变换性能，w_i为第i个子频带的加权系数，g_Y(i)是变换系数分布在第i个子频带上的能量占全部子带能量之和的比例，变换系数分布在第i个子频带上的能量等于第i个列向量在第i个子频带内的能量与残差样本在第i个子频带内的能量乘积。

2、根据权利要求1所述的基于视频帧内编码的KLT矩阵训练方法，其特征在于，所述步骤(1)具体为：建立预测模式P的残差样本集，从残差样本集中任意选择1000个以上的残差样本，对每个残差样本进行光栅扫描得到长度为M的残差向量，将这些残差向量进行首尾串联，对串联后得到的残差线向量进行傅立叶变换得到预测模式P的残差样本频谱。

3、根据权利要求1所述的基于视频帧内编码的KLT矩阵训练方法，其特征在于，所述加权系数w_i满足：

Σ_{i = 1}^{M} w_{i} = 1,0 < w_{1} < w_{2} \cdot \cdot \cdot < w_{M} .