CN102074243B

CN102074243B - 一种基于比特平面的感知音频分级编码系统及方法

Info

Publication number: CN102074243B
Application number: CN201010608697A
Authority: CN
Inventors: 胡瑞敏; 杨玉红; 高丽; 杨裕才; 曾琦; 陈先念; 王国英
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2010-12-28
Filing date: 2010-12-28
Publication date: 2012-09-05
Anticipated expiration: 2030-12-28
Also published as: CN102074243A

Abstract

本发明涉及音频编码技术领域，尤其涉及一种基于比特平面的感知音频分级编码系统及方法。本发明针对中低码率条件下码率限制的需求，设计了一种三层的分级编码方法，第一层为核心编码层，第二层为第一增强层，第三层为第二增强层，其中分级编码增强层包括残差提取模块、子带划分模块、基于比特平面感知测度计算模块、比特分配模块、矢量量化模块。本发明根据平均比特平面作为子带的优先级的可分级码率分配策略，相比能量作为感知重要度具有更明显的指导意义。

Description

一种基于比特平面的感知音频分级编码系统及方法

技术领域

本发明涉及音频编码技术领域，尤其涉及一种基于比特平面的感知音频分级编码系统及方法。

背景技术

在实际网络应用中，不同的客户终端具有不同的带宽限制和需求，如在安防监控系统中，由于采用不同的监控终端与网络系统提供不同的服务质量，异构的安防监控网络导致网络带宽波动频繁，因此采取固定的码率模式无法为客户不同的需求提供最优的码流。目前的接入方法包括电话线调制解调器、线缆调制解调器、综合业务数字网、各种类型的数字用户和光缆等，不同的接口用户具有不同的码率，如果只按低码率压缩，所有用户都只能接收到低质量的实时音频，这对具有高带宽的用户很浪费。如果按高码率压缩，尽管音频的质量有了很大的提高，但低带宽的用户无法接收实时音频信息。

可分级编码技术是解决这一问题的有效手段，它将码流划分为一个核心层及多个增强层，其中核心层保证信号的最低重建质量，增强层则通过提高信噪比或者扩展频带的方式渐次改善重建质量。接收到的增强层数越多，解码音质越高。分级编码只需要提供一个唯一的码流，不需要为不同网络和客户端提供不同的码流，网络设备和客户端可以通过直接截短码流的方式实现码率的平滑切换，适应不同网络的带宽波动，满足不同客户端的应用需求。传统的可分级编码通常针对人耳感知特性，依据子带信号能量或信掩比等特征作为码率分配策略的依据，边信息码率耗费大。本方法主要是依据最大比特平面作为人耳的感知重要性测度准则指导增强层的编码，在码率有限的情况下，以最大比特平面作为测度准则可以减少边信息码率，从而为谱系数的量化带来更大的增益，因此在中低码率条件下能提高了分级音频编码的主观听觉效果。

发明内容

针对上述存在的技术问题，本发明的目的是提供一种基于比特平面的感知音频分级编码系统及方法，提高分级音频编码的主观听觉效果。

为达到上述目的，本发明采用如下的技术方案：

一种基于比特平面的感知音频分级编码系统：

预处理模块：对输入信号进行预处理，其输入为音频原始信号，输出为预处理后的信号，预处理后的信号做两路输出：一路输出给核心编码器模块；一路输出给分级编码增强层中的残差提取模块；

核心编码器模块：本模块输入为预处理后的信号，采用通用的核心编码方法对预处理后的信号进行编码，编码后作两路输出：其中一路作为码流的一部分输出给解码端；一路解码后得到解码重构信号输出给残差提取模块；

残差提取模块：预处理后的信号和解码重构后的信号作为本模块的输入，得到残差信号，输出给子带划分模块；

子带划分模块：残差提取模块得到的残差信号作为本模块的输入，首先对残差信号进行感知加权域的滤波处理，然后经过时频变换，变换后的频域信号再进行子带的划分，得到频域子带残差信号，一路输出给基于比特平面的感知信息计算模块；另一路输出给矢量量化模块；

基于比特平面的感知信息计算模块：频域子带残差信号作为本模块的输入，计算每个子带基于比特平面的感知测度，然后对感知测度值按照从大到小的顺序进行排列和熵编码，作为增强层码流的一部分；另一路将排序好的子带编号和感知测度输出给比特分配模块；所述基于比特平面的感知信息计算模块通过计算每个子带的绝对平均值，对子带绝对平均值求取其最大比特平面，以最大比特平面为依据计算感知测度；计算公式如下：

其中ip(k)为第k个子带的感知测度，s_k为第k个子带感知加权值，

为第k个子带平均值的最大比特平面数；

比特分配模块：排序好的子带编号和子带感知测度作为本模块的输入，按照排序结果和感知测度对每个子带进行比特数的分配，将分配的比特数输出给矢量量化模块；

矢量量化模块：分配的比特数作为本模块的输入，根据子带分配的比特数进行矢量量化，作为增强层码流的一部分输出给解码端。

一种基于比特平面的感知音频分级编码方法：

①输入音频信号首先通过预处理，输入信号可以是单声道或多声道信号，所述预处理包括高通滤波、分帧处理，得到预处理后的音频信号s(n)；

②由①所得的信号作为核心编码的输入，核心编码器进行编码后一路作为码流输出到解码端，一路作解码得到重构信号

③由①得到音频信号s(n)，由②得到重构信号

作

运算从而得到残差信号e(n)，对e(n)进行时频变换子带的划分，划分成N个子带，其中N≥1；

④根据③所得进行子带的划分的结果，计算子带绝对幅度平均值的最大比特平面和计算感知重测度并对感知测度值进行按照从大到小的顺序进行排列；

⑤依据④中的排序结果对子带绝对幅度平均值的最大比特平面进行熵编码；

⑥按照④中的排序结果指导矢量量化；

⑦判断用于编码的比特数是否用尽，是则结束编码，否则返回⑥继续量化。

所述步骤④进一步包括以下步骤：

子带信号绝对值求和步骤：对每一个子带当中的谱系数先求其绝对值，然后求得子带谱系数的绝对平均值；

平均值的最大比特平面数计算步骤：将所有子带的绝对平均值表现在比特平面上，求得每个子带绝对幅度平均值的最大比特平面数；

感知测度计算步骤：对每个子带的感知测度按照如下公式进行计算：

为第k个子带平均值的最大比特平面数；

感知测度排序步骤：对所有子带的感知测度信息按照从大到小的顺序进行排序。

本发明具有以下优点和积极效果：

本发明根据平均比特平面作为子带的优先级的可分级码率分配策略，相比能量作为感知测度具有更明显的指导意义。

附图说明

图1是本发明提供的基于比特平面的感知音频分级编码系统的框架示意图。

图2是本发明提供的基于比特平面的感知音频分级编码方法的子带划分示意图。

图3是本发明中基于比特平面的感知测度计算的流程图。

图4是本发明提供的基于比特平面的感知音频分级编码方法在实际应用中的框图。

1000-音频原始信号，1001-预处理后信号，1002-解码后重构信号，1003-残差信号，1004-频域子带残差信号，1005-子带感知测度，1006-分配的比特数；

2000-音频原始信号，2001-预处理后信号，2002-解码后重构信号，2003-残差信号，2004-频域子带残差信号，2005-子带感知测度，2006-分配的比特数。

具体实施方式

本发明针对中低码率条件下码率限制的需求，设计了一种三层的分级编码方法，第一层为核心编码层，第二层为第一增强层，第三层为第二增强层，其中分级编码增强层包括残差提取模块、子带划分模块、基于比特平面感知测度计算模块、比特分配模块、矢量量化模块，下面详细对本发明提供的基于比特平面的感知音频分级编码系统详细描述，该系统包括：

预处理模块：对输入信号进行预处理，其输入为音频原始信号，输出为预处理后的信号，预处理后的信号做两路输出：一路输出给核心编码器模块；一路输出给分级编码增强层(如图2虚线框所示)中的残差提取模块；

核心编码器模块：本模块输入为预处理后的信号，采用一般的通用核心编码方法对预处理后的信号进行编码，编码后作两路输出：其中一路作为码流的一部分输出给解码端；一路解码后得到解码重构信号输出给残差提取模块；

子带划分模块：残差提取模块得到的残差信号作为本模块的输入，首先对残差信号进行感知加权域的滤波处理，然后经过时频变换，变换后的频域信号再进行子带的划分，得到频域子带残差信号，一路输出感知测度计算模块；另一路输出给矢量量化模块。

基于比特平面的感知信息计算模块：频域子带残差信号作为本模块的输入，计算每个子带基于比特平面的感知测度，然后对感知测度值按照从大到小的顺序进行排列和熵编码，作为增强层码流的一部分；另一路将排序好的子带编号和感知测度输出给比特分配模块。

比特分配模块：排序好的子带编号和子带感知测度作为本模块的输入，按照排序结果和感知测度对每个子带进行比特数的分配，将分配的比特数输出给矢量量化模块。

本发明提供的基于比特平面的感知音频分级编码方法具体步骤包括：

步骤1：对输入信号1000进行预处理，而预处理具体包括高通滤波、感知加权等过程，输出信号为预处理后信号s(n)1001；将输入信号1000送入高通滤波器，滤除直流噪声；将高通滤波后的信号送入感知加权滤波器。

步骤2：对经过预处理过后的信号1001进行核心编码器编码，核心编码器一路作为码流输出到解码端；一路进行解码得到重构信号

步骤3：对步骤1的输出结果s(n)1001与步骤2的输出结果

作差得到残差信号(1003)

对e(n)进行频谱子带划分，将频域信号划分为n个子带；

步骤4：计算n个子带中每个子带的感知测度，并根据感知测度大小从大到小进行排序，提取感知测度最大的子带；图2提供了一个子带排序的示意图，具体实施方式包括以下子步骤：

(1)计算子带信号绝对值求和

对于每一个子带，先求子带当中每个谱系数的绝对值，然后求得子带谱系数的绝对平均值。

(2)计算平均值的最大比特平面数

将子带的绝对平均值转换为二进制数，从最高有效位到最低有效位，得到子带绝对平均值的最大比特平面数。

(3)子带感知测度计算；

本方法感知测度的计算方法是依据子带的平均比特平面数的计算结果，利用如下公式计算感知测度信息：

其中ip(k)为第k个子带的感知测度信息，s_k为第k个子带感知加权值，

为第k个子带平均值的最大比特平面数。

(4)感知测度排序

对所有子带的感知测度信息按照从大到小的顺序进行排序。

步骤5：对上述子带的绝对平均值的最大比特平面进行差分的Huffman编码。

步骤6：根据步骤4获得的感知测度最大的子带，首先对该子带进行量化编码，当量化完后提取感知测度次高的子带，对其进行量化编码，接下来依次类推。

步骤7：判断用于编码的比特数是否用尽，如果用尽则结束编码，如果未用尽则返回步骤5继续量化。

下面进一步以具体实例结合附图4对本发明作进一步说明：

步骤101：对输入信号(2000)进行预处理，而预处理具体包括高通滤波、感知加权和时频变换三个过程，输出信号为s(n)(2001)；将输入信号(2000)送入高通滤波器，滤除50HZ以下的低频信号；将高通滤波后的信号送入感知加权滤波器W_LB(z)，同时γ′₁，γ′₂以及γ′₃(0＜γ′₁，γ′₂，γ′₃＜1)三个系数也相应调整以缓和量化噪声谱：

W_{LB} (z) = \frac{\hat{A} (z / {γ_{1}}^{'})}{\hat{A} (z / {γ_{2}}^{'})} (1 + Σ_{i = 1}^{2} a_{i} {γ_{3}}^{' i} z^{- i})

其中γ′₁，γ′₂，γ′₃为调整参量，a_i为线性预测分析系数，i为线性预测的阶数，

步骤102：对经过预处理过后的信号(2001)进行核心编码器编码，核心编码器以TVC/ACELP混合编码的方式编码，一路作为码流输出到解码端，一路进行解码得到重构信号

步骤103：对步骤101的输出结果s(n)(2001)与步骤102的输出结果作差得到残差信号e(n)

对e(n)(2003)进行MDCT变换，对MDCT变换后的频域信号进行频谱子带划分，此处假设将整个频谱均匀划分为16个子带。图2为均匀划分为8个子带的示意图，横轴表示子带频域划分范围，纵轴表示频域能量幅值，其中低频核心层编码是本发明的基础，不在本发明考虑范围内。根据残差计算出来的子带在图中分别用数字“1”到“8”标示，其中子带1、子带2、子带3和子带4是低频音频子带，子带5、子带6、子带7和子带8是高频音频子带，16个子带的划分与8个子带划分同理。

步骤104：计算16个子带的每个子带的感知测度，并根据感知测度大小从大到小顺序将子带进行排序，提取感知测度最大的子带，具体实施方式为：

(1)定义X_i为子带中的谱系数绝对值，即X_i＝|Y_i|，用如下公式求得绝对平均值：

{sub}_{k} = \frac{Σ_{i = (k - 1) * 16}^{k * 16} X_{i}}{16} k = 1,2 . . . . . . 16

(2)定义L_k为第k个子带的平均比特平面，X_i为子带的频谱系数，用如下公式计算每个子带感知测度：

L_k＝log₂sub_k k＝1，2......16

(3)定义ip(k)为第k个子带的感知测度，s_k为第k个子带的感知加权值，用如下公式计算感知测度：

其中

为取整符号，

为小于的最大整数，这里取s_k＝2，即

(4)根据上式计算所得的每个子带的感知测度，对各子带统一进行感知测度的大小的排序，提取感知测度最大的子带，送入步骤105进行量化/编码。

步骤105：将子带的平均比特平面数进行差分Huffman编码传入解码端。

步骤106：根据步骤104获得的感知测度最大的子带，对该子带进行球型矢量量化编码，量化完这个子带后，提取感知测度第二大的子带进行量化，依次类推。

步骤107：判断用于编码的比特数是否用尽，如果用尽则结束编码，否则返回步骤104继续量化。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。