CN103035249A

CN103035249A - 一种基于时频平面上下文的音频算术编码方法

Info

Publication number: CN103035249A
Application number: CN2012104569188A
Authority: CN
Inventors: 王晶; 纪璇; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2013-04-10
Anticipated expiration: 2032-11-14
Also published as: CN103035249B

Abstract

本发明涉及一种基于时频平面上下文的音频算术编码方法，其中音频编码参数的概率可自适应，属于音频编码领域。其技术特点是首先对每帧音频信号使用离散余弦变换MDCT和矢量量化，然后对量化后的MDCT系数进行上下文分配和概率建模。此过程对量化MDCT系数首先使用频域上下文，即统计待编码量化MDCT系数的一阶条件频数，在使用频域上下文统计完每个量化MDCT系数的一阶条件频数后，对本帧量化MDCT系数利用本帧之前两帧相关性判断是否使用时域上下文，将最终的一阶条件频数送入算术编码器进行编码。本发明方法能够在保持良好音频编码质量的同时，降低音频信号的平均编码速率，从而提高音频编码器的编码效率。

Description

一种基于时频平面上下文的音频算术编码方法

技术领域

本发明涉及一种基于时频平面上下文的音频算术编码方法，其中音频编码参数概率可自适应，是一种适合于音频信号经过离散余弦变换（MDCT，Modified Discrete Cosine Transform）和量化处理后的算术编码方法，属于音频编码技术领域。

背景技术

数字音频信号在传输过程中需要很大的带宽，在存储过程中需要大量的存储空间。随着熵编码的发展，如霍夫曼编码和算术编码，大量降低了带宽需求，并且不引入信息损失。熵编码方式去除了信源的冗余信息。同有损的数据压缩方式相比，矢量量化方法是去除主观上人们不可听的冗余信息。多数编码器使用有损压缩方式来进行量化和编码音频参数。如果在此基础上结合无损的熵编码，则可以获得更好的压缩效率。

随着现在多媒体通讯的发展，高质量全频带低速率语音和音频编码日益重要。除了通过参数变换编码的有损压缩，大部分编码器引入了无损的编码算法来进一步压缩比特，如MPEG-AAC，MPEG USAC和ITU-T G.719。ITU-T G.719是一种低复杂度全频带（20Hz-10kHz）高质量语音和音频编码，编码比特率在32kbps到128kbps。同大部分音频编码器一样，G.719使用离散余弦变换（MDCT）来实现时频变换。在变换至MDCT域中，信号的静态冗余信息被识别并去除。在使用矢量量化去除主观上不可听的冗余信息进行压缩后，如何实现进一步的压缩就取决于能否有效地对量化MDCT系数进行熵编码。在G.719中，霍夫曼编码对量化MDCT系数和增益继续进行编码。

虽然霍夫曼编码去除了量化MDCT系数的一些冗余信息，但是它具有一定的局限性。在霍夫曼编码中量化MDCT系数的分布是根据训练数据的统计特性提前定义的，缺乏自适应机制。而且霍夫曼编码的码字所需的比特数必须是整数，无法用小数表示。因此引入自适应算术编码到音频编解码器中，如MPEG USAC。自适应模型能够测量信源符号统计特性并在编码和解码过程中不断更新，并且相邻符号上下文的概念被引入自适应算术编码中来进一步提高压缩效率。我国公开号为CN102474274A的发明专利“算术编码和解码的方法”，描述了一种自适应算术编码所涉及的码元概率的更新方法。

上下文最先是有图像和视频编码引入的，例如我国公开号为CN1874509的发明专利“基于上下文的自适应二进制算术编码的方法和系统”，提出了一种针对图像像素块上下文的二进制算术编码方法。视频编码中以H.264中的基于上下文自适应二进制算术编码（CABAC）为例，CABAC是ITU-T/ISO/IEC的视频编码标准，在提高视频编码的编码效率反面起到了很大的作用。通过将算术编码、临近符号、二进制比特流、子宏块的上下文模型相结合，编码器具有高度自适应功能并去除了大量的冗余信息。CABAC的编码过程有三步：二进制化，上下文模型选择，自适应二进制算术编码。在自适应二进制算术编解码中包含概率估计和二进制算术编码器。

在CABAC中，对待编码符号选择合适的上下文模型，由该模型来分配相应的概率。在编码阶段，二进制算术编码器根据待编码符号的概率生成代表该符号的码字。概率模型决定了编码效率，好的模型能在很大程度上挖掘符号间的相关性。同时该模型还能在编码过程中动态更新。

最近，基于位平面的上下文引入音频领域，比如USAC（联合语音音频编码）。其无噪编码方案是基于动态自适应上下文和算术编码器相结合。无噪编码需要量化频谱值和上下文累积概率表，上下文累积概率表来自于已编码的相邻二元矢量频谱系数。编码过程主要考虑符号，最高2比特和剩余比特。上下文自适应只用于最高2比特，符号和剩余比特都均匀分布的概率模型。

CABAC设计主要是基于关键元素的二进制化，对二进制化以后的比特流来选择上下文模型，然后进行二进制算术编码。二进制化通过非二进制元素和比特序列的映射完成，生成为二进制流。同时算术编码作为一种无损数据压缩方式在音频领域也起着关键的作用。USAC使用了量化MDCT系数位平面之间的相关性。自适应上下文算术编码在音频编码中的应用还不广泛，尤其是用在量化后的音频参数这一方面还没有得到充分利用，并且没有从时域和频域上下文联合的角度考虑如何提高音频参数的算术编码效率。

在我们的研究中，发明了一种基于时频平面上下文（包括时域和频域）的音频算术编码技术。有利于提高量化MDCT系数的编码效率。这种方法对于利用时频之间的相关性来提高待编码的量化MDCT系数的概率非常有用。

发明内容

本发明的目的是为了进一步提高多速率音频编码器的编码效率，压缩编码带宽，利用基于时频平面上下文的音频算术编码方法降低编码比特数，通过设计合适的上下文充分挖掘相邻元素的相关性从而达到整体的平均编码速率的降低。

本发明方法在统计音频编码参数概率时使用频数（编码过程中音频编码参数出现的次数）表示，音频编码参数的概率可以通过每个音频编码参数的频数除以所有音频编码参数的累积频数后得到。为了实现上述目的，本发明首先对每帧音频信号使用离散余弦变换和矢量量化得到量化MDCT系数，对量化MDCT系数使用频域上下文，即统计每个量化MDCT系数的一阶条件频数，在使用频域上下文统计完每个量化MDCT系数的一阶条件频数后，对本帧量化MDCT系数是否使用时域上下文进行判断，利用本帧之前两帧相关性判断本帧是否使用时域上下文，如果使用时域上下文则对量化MDCT系数的一阶条件频数分布进行重新分配，如果不使用时域上下文则不对量化MDCT系数的一阶条件频数分布进行重新调整。将最终的一阶条件频数送入算数编码器进行编码。本发明采用的技术方案步骤如下：

对于待处理的每帧音频信号：

（1）使用离散余弦变换MDCT和矢量量化，得到量化MDCT系数；

（2）对步骤（1）中量化MDCT系数使用频域上下文，统计每个量化MDCT系数的一阶条件频数f(x_i|s)，一阶条件频数是指在前一个量化MDCT系数的条件下统计当前量化MDCT系数的频数；

（3）判断步骤（1）中本帧量化MDCT系数是否使用频域上下文，利用本帧之前两帧相关性进行判断，前两帧之间的相关系数记为correlation，当correlation≤0.5时,在当前相邻的两帧使用时域上下文，当correlation＞0.5时，当前相邻的两帧不使用时域上下文，其中相关系数correlation的表达式为：

correlation = \frac{Σ_{i = 1}^{m} [\frac{| D_{i}^{(t - 1)} - D_{i}^{(t - 2)} |}{2^{m} / 4}]}{m},

其中m-1表示量化MDCT系数的最大值，表示倒数第二帧量化MDCT系数,

表示当前帧量化MDCT系数；

（4）在步骤（3）的判断中，如果使用时域上下文则对步骤（2）中量化MDCT系数的一阶条件频数分布进行重新分配，此分配过程的表达式为：

f^{'} (x_{i} | s) = \{\begin{matrix} f (x_{i} | s) + λ; i = B - δ + 1, . . ., B, . . ., B + δ \\ f (x_{i} | s); other \end{matrix}

λ = Σ_{i = 0}^{m - 1} f (x_{i} | s),

其中m-1表示量化MDCT系数的最大值，x_i∈0~m-1，x_i表示频域中当前待编码的量化MDCT系数，s表示频域中在x_i之前一个已编码完成的量化MDCT系数，B表示时域中前一帧对应位置处量化MDCT系数，2δ＝m/2，λ是所有量化MDCT系数的累积频数，f(x_i|s)是量化MDCT系数的原始一阶条件频数，f′(x_i|s)是最终的一阶条件频数分布，使用f′(x_i|s)驱动算术编码器；

（5）在步骤（3）的判断中，如果不使用时域上下文则对步骤（2）中量化MDCT系数一阶条件频数分布不进行重新调整；

（6）把步骤（4）或步骤（5）得到的量化MDCT系数的一阶条件频数送入算数编码器进行编码。

有益效果

采用本发明所述的一种基于时频平面上下文的音频算术编码方法，能够利用基于时频平面的上下文自适应算术编码的方法降低编码比特数，通过设计合适的上下文充分挖掘相邻元素的相关性从而达到整体的平均编码速率的降低，综合利用时域和频域上的相关性来提高待编码的MDCT系数的概率。本发明的方法能够进一步提高音频编码器的编码效率，节省音频传输带宽，尤其是适合用于变速率的音频编码器。

附图说明

图1本发明中基于时频平面上下文的音频算术编码方法流程图。

图2本发明中时频平面上下文的示意图。

具体实施例：

本发明实例基于G.719低复杂度全频带音频编码器进行改进，输入48kHz采样的单声道音频信号，16bit线性PCM编码，编码速率由高到低有7种：32kbps，48kbps，64kbps，80kbps，112kbps，128kbps。每帧20ms，960个PCM样点。

选择32kbps编码速率，对于每帧音频信号，使用基于时频平面上下文的音频算术编码过程如下：

（1）对每帧音频信号使用离散余弦变换（MDCT，Modified Discrete Cosine Transform）和快速晶格矢量量化得到量化MDCT系数；

（2）对量化MDCT系数使用频域上下文，即统计每个量化MDCT系数的一阶条件频数f(x_i|s)，其中x_i∈0~m-1，i＝960，m-1表示量化MDCT系数的最大值，以m＝32为例，该帧最大的量化MDCT系数值为31，x_i表示频域中当前待编码的量化MDCT系数，s表示频域中在x_i之前一个已编码完成的量化MDCT系数；

（3）在使用频域上下文统计完每个量化MDCT系数的一阶条件频数后，对本帧量化MDCT系数是否使用时域上下文进行判断，利用前一帧s1和倒数第二帧s2之前的相关性进行判定，correlation表示s1和s2的相关系数，使用如下公式进行计算：

correlation = \frac{Σ_{i = 1}^{m} [\frac{| D_{i}^{(t - 1)} - D_{i}^{(t - 2)} |}{2^{m} / 4}]}{m}

其中表示前一帧s1量化MDCT系数,

表示倒数第二帧s2量化MDCT系数。当correlation≤0.5时,在当前相邻的两帧使用时域上下文。当correlation＞0.5时，当前相邻的两帧不使用时域上下文；

（4）当使用时域上下文时，时域上下文使用方法如下：对于量化MDCT系数最大值为m-1＝31的自适应算数编码器，以时域中前一帧对应位置处已编码完的量化MDCT系数B为中心；一共2δ＝m/2个量化MDCT系数分布在B的附近，其中δ＝8，在这2δ个量化MDCT系数的一阶条件频数f(x_i|s)上增加λ来增大量化MDCT系数的一阶条件频数，从而重新安排模型的分布。λ是所有量化MDCT系数的累积频数，它可以动态的改变一阶条件频数分布。计算公式如下：

λ = Σ_{i = 0}^{m - 1} f (x_{i} | s)

f^{'} (x_{i} | s) = \{\begin{matrix} f (x_{i} | s) + λ; i = B - δ + 1, . . ., B, . . ., B + δ \\ f (x_{i} | s); other \end{matrix},

f(x_i|s)是量化MDCT系数的原始一阶条件频数，f′(x_i|s)是最终的一阶条件频数分布，使用f′(x_i|s)驱动算术编码器；

（5）当不使用时域上下文时，直接使用未做分配的一阶条件频数驱动算术编码器，从而达到根据时频分析效果选择不同的上下文模式。

对于G.719中的每个输入的音频，进行上述过程的上下文模式选择，并完成整个输入音频信号的编码，从而形成每帧编码速率和编码模式可变的效果。

本实施例选用39条单声道48kHz采样的音频信号进行实验，经过统计分析得到编码平均速率为29.7021kbps；用PEAQ客观评估算法衡量输出音频信号质量，使用基于时频平面上下文的音频算术编码方法的得分和使用G.719原始编码方法的得分相同，得到的音频质量相同。

实验结果显示相比速率32kbps，本实施例中采用基于时频平面上下文的音频算术编码方法得到的变速率音频编码压缩效率提高约7%，同理，经过实验统计，对于多速率集合中的各个编码速率，用本发明提出的自适应算术编码方法得到的变速率音频编码的压缩效率提高约7%～10%。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时频平面上下文的音频算术编码方法，其中音频编码参数的概率可自适应，在统计音频编码参数概率时使用频数（编码过程中音频编码参数出现的次数）表示，音频编码参数的概率可以通过每个音频编码参数的频数除以所有音频编码参数的累积频数后得到，其特征在于通过如下步骤实现的：

对于待处理的每帧音频信号：

（1）对每帧音频信号使用离散余弦变换MDCT和矢量量化，得到量化MDCT系数；

（3）判断步骤（1）中本帧量化MDCT系数是否使用时域上下文，利用本帧之前两帧相关性进行判断，前两帧之间的相关系数记为correlation，当correlation≤0.5时,在当前相邻的两帧使用时域上下文，当correlation＞0.5时，当前相邻的两帧不使用时域上下文；

（4）在步骤（3）的判断中，如果使用时域上下文则对步骤（2）中量化MDCT系数的一阶条件频数分布进行重新分配；

（5）在步骤（3）的判断中，如果不使用时域上下文则对步骤（2）中量化MDCT系数一阶条件频数分布不进行重新分配；

2.如权利要求1所述的其中求取相邻两帧之间的相关系数方法，其特征在于步骤（3）中计算相关系数的表达式为：

correlation = \frac{Σ_{i = 1}^{m} [\frac{| D_{i}^{(t - 1)} - D_{i}^{(t - 2)} |}{2^{m} / 4}]}{m},

其中m-1表示量化MDCT系数的最大值，

表示前一帧量化MDCT系数,

表示倒数第二帧的量化MDCT系数。

3.如权利要求1所述的其中如果使用时域上下文则重新分配量化MDCT系数的一阶条件频数分布，其特征在于步骤（4）中的重新分配过程的表达式为：

f^{'} (x_{i} | s) = \{\begin{matrix} f (x_{i} | s) + λ; i = B - δ + 1, . . ., B, . . ., B + δ \\ f (x_{i} | s); other \end{matrix}

λ = Σ_{i = 0}^{m - 1} f (x_{i} | s),

其中m-1表示量化后MDCT系数的最大值，x_i∈0~m-1，x_i表示频域中当前待编码的量化后的MDCT系数，s表示频域中在x_i之前一个已编码完成的量化后的MDCT系数，B表示时域中前一帧对应位置处量化MDCT系数，2δ＝m/2，λ是所有量化MDCT系数的累积频数，f(x_i|s)是量化MDCT系数的原始一阶条件频数，f′(x_i|s)是最终的一阶条件频数分布，使用f′(x_i|s)驱动算术编码器。