CN1318904A

CN1318904A - 一种实用的基于小波变换的声音编解码器

Info

Publication number: CN1318904A
Application number: CN01109619A
Authority: CN
Inventors: 陈笑天; 潘兴德; 顾春来
Original assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd
Current assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2001-10-24

Abstract

本发明涉及现代信息处理领域中一个快速发展的分枝——声音压缩编解码器。本发明其特征在于编码器为将音频取样数据存入缓冲池,通过多个小波滤波器组卷积,进行临界采样,确定尺度因子;同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比;尺度因子进行编码,由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数,进行比特信息编码。本发明的一个重大的技术创新在于用小波技术取代传统的滤波器组,结合人耳的听觉特性,实现高增益、高质量的音频编码。

Description

一种实用的基于小波变换的声音编解码器

本发明涉及现代信息处理领域中一个快速发展的分枝——声音压缩编解码器。

目前广泛采用的宽带音频压缩，主要采用MPEG-1或2、杜比AC-3等标准，用于CD、MD、MPC、VCD、DVD、HDTV和电影配音等。

MPEG音频压缩标准为许多音频数据定义了多种声音处理方法，都采用了子带划分并利用人类听觉心理声学模型压缩的方法。

MPEG音频的基本处理方法为：子带分解将输入的音频信号分解成多个频带，然后进行比例因子处理和量化，每一个子带的量化步长选择由频域分析函数完成对采样值进行编码(层次1和2为定长，层次3为Huffman(赫夫曼)可变长编码)，并用附加信息进行格式化以便于传输。解码器解包并对系数和附加信息进行解码和逆量化，将样本映射回重构值；

在每个子带上都用合适的比例因子将其放大，并应用子带分解去覆盖一个时域信号。数字音频信号源，不管是单声道还是立体声，采样频率对于MPEG-1为32、44.1或48kHz，或对于MPEG-2为16、22.05、24、44.1或48kHz。源数据都要进行子带分解，比例因子处理并量化后进行编码。解码器首先逆编码，逆量化，逆缩放和子带组合重构源信号。

在子带分解方面，对于层1和层2,MPEG采用32个等带宽正交镜像滤波器组(QMF)进行子带滤波；对于层3,MPEG采用QMF后紧跟MDCT的方法使频率分辨率提高到一个更好的层次。通过该滤波器可以有效地分离出最多576个子频带。子带分解都严格采样，每个子带的采样率乘以子带数应为总的采样率。MPEG标准在进行比例因子处理、量化、编码和多通道压缩以后形成一个音频信号完整的压缩系统。

在现有音视频信号的压缩处理方法中，都采用了子带分解来进行压缩编码。例如在MPEG中，利用32个等带宽的多相滤波器组(multiple phase filterbands)对信号进行处理，得到32个等宽子带上的信号样本，进而通过心理声学模型对各个子带样本进行压缩。

等带宽多相滤波器组的优势是各子带滤波器的阶数相同，计算中不存在延迟问题，且滤波器具有较好的抗混叠性质。但是利用等带宽的滤波器组的不可避免的缺陷在于：不能充分的利用人耳的听觉特性实现冗余信息的最大限度的去除，即实现更高压缩比下的无失真编码。对人类听觉特点的大量实验研究表明，人类的听觉系统可以按频率分布划分出一个非等带宽的频带组合，在各个频带范围内人耳对声音的敏感程度有明显的不同，把这些频带范围称为临界子带(critical subband)。

本发明目的是针对MPEG宽带音频压缩处理方法的改进。利用小波和小波包变换的时频局域化和多分辨率分析性质，本发明基于小波包方法构造了基于人类听觉特征的非等宽子带滤波器以取代现有方法中的等带宽子带滤波器。在得到更为贴近临界子带的子带划分后，可以更好地利用心理声学模型进行压缩，为在保证重构音质透明的情况下进一步提高压缩比提供了可能。

本发明的目的实现方法：编码器为将音频取样数据存入缓冲池，通过多个小波滤波器组卷积，进行临界采样，确定尺度因子；同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比；尺度因子进行编码，由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数，进行比特信息编码；解码器为解码信息进行解包，对子带信息无失真解码，恢复高频耦合子带系数，各组子带系数存入缓冲池进行采样，经小波重构滤波器组卷积重构，重复子带采样和小波重构滤波器组卷积，还原音频数据。

采用本专利发明的声音编解码器，对宽带音频信号的音乐进行处理时，在同样采用心理声学模型1的情况下，其无失真压缩率(主观意义上)比通常MPEG要有明显提高。

对MP1中采用心理声学模型1的情况下，其无失真压缩率约为4倍；而对采用小波变换+心理声学模型1，其无失真压缩率约为8倍。

图1为临界频带的典型划分图。

图2为临界频带带宽示意图。

图3为本发明中小波包子带分解的示意图。

图4为本发明小波分解子带与MPEG均匀子带的对比示意图。

图5为本发明针对双声道立体声小波编码器流程框图。

图6为本发明针对双声道立体声小波解码器流程框图。

数字音频压缩编码技术能够以比较低的速率获得高质量的编码效果，其基本原理在于：1)设法消除音频信号的冗余度；2)充分利用人耳听觉特性。

本发明所提出的“基于小波的音频编解码器”就是在此基础之上提出并完成的。

本发明的一个重大的技术创新在于用小波技术取代传统的滤波器组，结合人耳的听觉特性，实现高增益、高质量的音频编码，并有效解决了小波技术应用于音频压缩编解码中的几项核心问题。为了体现小波技术在音频压缩编码中的优势，首先要明确人耳的听觉特性在提高数字音频压缩质量的至关重要的作用。

正常人可以听到频率范围在20Hz～20kHz，强度范围为-5dB～130dB的声音，并具有判别响度、音调和音色的本领。人耳的听觉特性涉及了有关心理声学和生理声学等方面的问题。

人耳听觉特性在宽带音频编码中的应用主要体现在以下几个方面：听觉的强度和频率范围特性；掩蔽效应及人耳的高频定位特性。前者是在编码中将听阈曲线以下的声音信号滤掉，以减少记录传输的信息量，节约编码的比特数。利用掩蔽效应原理，低于掩蔽门限的弱信号可不做编码，以提高比特利用率；并将量化噪声控制在掩蔽门限以下，从而节省了量化的比特数，消除声音的听觉无关度。根据人耳的高频定位特性，在多通道立体声编码中可以对高频成分特殊处理，大量减少高频信息冗余，提高压缩效率。本发明中采用了联合立体声技术和交叉会话技术以减少多通道中的高频听觉冗余。

在本发明中，利用听觉的前向掩蔽效应，在保证较高的编码增益下，有效的抑制因时域分辨率不足而造成的“预回声”现象。在变换编码中，时域帧长(即时域窗长度)的选择受两个互相矛盾的因素制约：帧长越大，则编码增益越高；而过大的帧长将会使时域分辨率降低，而产生严重的“预回声”。因此，选择一个合适的帧长，使编码增益和“预回声”的抑制都达到一个最佳的平衡点，是很重要的。实验证明，当帧长缩短到2ms～5ms时，由于前向掩蔽效应，“预回声”会被其后面的冲击响应所掩蔽。例如，在48kHz采样时，窗长为256时，其时域分辨率为2.7ms，由于前掩蔽效应，人耳察觉不到“预回声”。

在本发明中，利用掩蔽效应，确定量化级别，控制量化噪声使之低于或尽可能接近人耳的掩蔽门限，实现无失真音频编码以及在低码率下提高音频编码的主观质量。在心理声学中，一个纯音可以被以它为中心，且具有一定带宽的连续噪声所掩蔽，若在这一频带内噪声功率等于该纯音的功率，此时该纯音处于刚好能被听到的临界状态，即称这一频带为临界带宽(单位为Bark)。临界频带的一个典型划分如图1所示。临界频带是编码中子带划分的心理学依据。人耳对音频信号的分析以临界频带为基础，类似一个非等带宽滤波器组，在不同的子带中差异很大，子带编码就是利用了这一性质而设计出来。因此，临界频带是编码中子带划分的心理声学依据。在子带编码中，子带的划分应尽量与人耳临界频带的宽度接近，以便更好的适应人耳的听觉特性。

在传统的子带编码中，这一要求并没有能够得到很好的满足。原因在于，能够接近人耳的听觉特性的非等带宽滤波器组设计涉及一些技术方面的困难。例如，MPEG用32个等带宽的子带滤波器组来划分人耳听觉的频率带宽，如图2所示。在这种子带的划分中，在低频部分一个子带包含多个临界频带，而在高频部分，一个临界频带有被分成多个子带，子带的利用效率很低，不可能很好的逼近人耳的听觉特性(在低频部分尤其如此)。但其优点在于，等带宽多相滤波器组的优势是各子带滤波器的阶数相同，计算中不存在延迟问题，且滤波器具有较好的抗混叠性质。利用这种滤波器组进行音频压缩编码，技术实现上比较简单，但人耳的听觉特性的利用率是有限的，很难实现高压缩比的无失真编码。基于小波的音频压缩技术，就是为了从根本上解决传统音频压缩编码中的上述瓶颈问题而提出的。小波分析是本世纪五十年代以来发展很快的一项技术，具有信号时频局部化分析和多尺度分析的能力，极大的推动了数字信号处理技术的发展。在有限个子带分解中，基于小波的子带分解可以更好的接近人耳的临界频带，即更好的利用人耳的心理听觉特性。本发明中的一个小波包子带分解实例如图3所示。

本编码器与解码器采用的分解树及合成树如图3所示，它的子带分布范围与MPEG2比较如下(以48kHz为例)，请与图1“MPEG子带滤波器组频带划分与临界频带带宽的比较”，可以发现本发明分解的子带比32个均匀子带更适合人的心理声学模型，本发明实现的小波分解可以实现低频多子带，高频宽子带。

本发明编码实施例：

(1)移入128点新样本于缓冲池，同时从缓冲池中移出128点最旧的样本(此缓冲池长度为1250个点)；

(2)将该缓冲池中的序列分别与16个小波分析滤波器(分析滤波器的获得见本专利第六部分)卷积，并进行临界再采样，获16个分解序列对应16个频带，由于子带的非均匀性，各子带的再采样率是不一样的，具体如下：子带1～4抽样各为1个样本，子带5～6各为2个样本，子带7～13各为8个样本，子带14～15各为16个样本，子带16为32个样本；

(3)以3^*128点为一个群，这样各子带中的样本数为原来的三倍，即子带1～4中各有3个样本，子带5～6各有6个样本，子带7～13各有24个样本，子带14～15各有48个样本，子带16有96个样本；分别找出各子带的尺度因子(方法同MP2)，将各子带归一化；

(4)同时该3^*128点的频谱信息，代入心理声学模型(1或2)，求得各子带的量化位数(细节见本专利第五部分)；

(5)根据(4)获得的量化位数量化各子带中的样本，量化方法如下：

设：每子带的量化位数为a，该子带的样本数为Num，则各样本的量化后结果为b：

b=a＞＞(16-Num)

(6)无失真编码(采用霍夫曼编码)；

(7)打包，编码输出。

本发明解码实施例：

(1)输入编码序列，以与编码过程相反的顺序解包及霍夫曼解，还原为16个子带上的样本，推入16个缓冲池；

(2)将各子带上的样本反量化，同时除于尺度因子；

(3)相应于编码过程(2)中的再采样，将各子带上的样本间插零值，具体个数为：子带1～4中2个样本间插入127个零，子带5～6中2个样本间插入63个零，子带7～13中2个样本间插入15个零，子带14～15中2个样本间插入7个零，子带16中2个样本间插入3个零；

(4)将16个缓冲池中的序列与合成滤波器组分别卷积各得128个数据，将16个128点对应相加的一128点序列，该序列即为输出值；

(5)输出该序列。

根据子带的特点，为减少计算量和存储空间，解码过程有快速方法，该方法可以极大地降低计算量，并极大地降低了存储空间。该快速方法有另外的专利给出。

Claims

1、一种实用的基于小波变换的声音编解码器，其特征在于编码器为将音频取样数据存入缓冲池，通过多个小波滤波器组卷积，进行临界采样，确定尺度因子；同时音频取样数据经富里叶变换和尺度因子确定信号掩蔽比；尺度因子进行编码，由信号掩蔽比和目标码率调整后的目标码率与尺度因子编码确定量化子带系数，进行比特信息编码；解码器为解码信息进行解包，对子带信息无失真解码，恢复高频耦合子带系数，各组子带系数存入缓冲池进行采样，经小波重构滤波器组卷积重构，重复子带采样和小波重构滤波器组卷积，还原音频数据。