CN1632862A

CN1632862A - 一种低比特变速率语言编码器

Info

Publication number: CN1632862A
Application number: CNA2004101032203A
Authority: CN
Inventors: 董恩清
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2004-12-31
Filing date: 2004-12-31
Publication date: 2005-06-29
Anticipated expiration: 2024-12-31
Also published as: CN1275223C

Abstract

本发明公开了一种适合于要求低比特变速率语音编码的通信系统中的语音编码器。它将SVM方法应用于VAD语音激活检测中，提高了语音编码器对语音检测的正确识别率；采用GSM的语音模式分类方法，将原来的四种语音模式合并为三种语音模式，使最终只采用两个比特表示整个语音模式。它还充分利用局部余弦变换具有较高的编码增益的特点，采用LCT和SVM－VAD进行低比特变速率语音编码，提供了一个实用的、性能优良的低比特变速率语音编码器。

Description

一种低比特变速率语音编码器

技术领域

本发明涉及一种语音编码器，特别涉及一种适合于要求低比特变速率语音编码的通信系统中的语音编码器。

背景技术

可变速率(Variable Bit Rate，VBR)编码技术是近年来发展起来的，其核心思想是对语音的跃变、平稳、无声段采用不同的速率进行编码，以便VBR编码平均速率将比同等语音质量的FBR编码低得多。

真正能更好地发挥VBR技术优势的应用领域是对语音编码速率无严格速率限制、而又要求有速率“弹性”的场合，如CDMA、VoIP、ATM等。目前，无线通信系统和IP技术正在迅猛发展，即将在全球通信系统中占据越来越重要的地位。为此，国际电联ITU-T SG16正在制定新的可变速率编码标准，以适应将来的分组语音通信网(如VoIP)、IMT-2000语音编码及高质量低比特率语音压缩应用。在这些应用中，用户可以在语音质量和编码速率(信道容量)之间折衷考虑，实现具有“软”控制的能力。

变比特率的一个众所周知的例子是QCELP，其是由CTIA制定的称为IS-95的一个变比特率语音编码器。到目前为止，基于CELP的变比特率语音编码方法的研究相对较多。

在语音激活检测中，采用众所周知的VAD方法的例子包括在IS-95标准中的QCELP语音编码器、IS-127标准中的EVRC、GSM标准中采用DTX模式和由ITU-T提出的G.729附件B(G.729B)的VAD方法。

在过去的几年里，已经呈现出对支持向量机(Support Vector Machines，SVM)浓厚的兴趣。经验表明，SVM在如手写体识别、面孔识别、文本分类等大量应用中普遍具有较好的性能。但是，该方法在语音激活检测中的应用很少报导。

低比特率语音编码在过去20年已成为一个主要研究主题，结果导致已经将比特率从16kb/s到2.4kb/s范围的很多语音编码算法标准化。目前语音编码器研究重点在4kb/s及更低的高质量语音编码，并且最近的研究显示在频域进行语音编码比已存在的基于CELP编码器具有更好质量的潜力。谱编码器的特点是试图重构语音振幅谱而不是精确地恢复语音波形。尽管以上基于CELP及参数编码的编码器广泛应用于低比特率语音编码，它们大多受假设的模型精度的限制，还有它们主要依赖于正确的参数估计，往往这些要求很难得到保证。所以，这些编码方法的鲁棒性在特殊环境下是很差的，导致编码后的语音质量有一定的局限性。

由Coifman和Meyer(1991)及Auscher等(1992)先后构造的局部余弦基是由平滑、紧支撑钟函数与余弦函数乘积构成的。这些局部化的余弦函数仍保留着正交性，并且具有较小的Heisenberg乘积。近些年来，局部余弦变换理论得到广泛深入的研究，该方法在语音信号处理方面的研究相对较少，特别是应用在语音编码中更少。但在Malvar H.S.于1990年发表的文章中证明了在语音编码中LCT方法的编码增益优于DCT编码，并且十分接近KL变换编码。特别是与DCT编码方法相比，明显减少了帧之间的“喀嚓”声。

鉴于低比特变速率语音编码方法在目前实际应用中的强烈需求，以及以前其它一些建立在模型基础上的编码方法由于受到假设的模型精度和估计的参数精度的限制往往影响编码效果及编码器的应用范围。

发明内容

本发明的目的是利用局部余弦变换具有较高的编码增益的特点，提供一个实用的、性能优良的低比特变速率语音编码器。

为达到上述目的，本发明采用的技术方案是：一种低比特变速率语音编码器，它基于局部余弦变换，所述的语音编码器将输入的原始语音信号经过高通滤波器预处理后，输入到语音激活检测器检测判别激活语音与非激活语，再分别经LCT变换器处理，完成语音编码，其中：

所述的语音激活检测器采用SVM-VAD语音激活检测模块，其工作流程如下：

①对输入的语音数据进行参数提取，得到当前帧的线谱频率(Line SpectralFrequencies)、全带能量、低带能量、过零率四个分类特征参数；

②初始化处理：根据背景噪声的改变随时计算更新在只有背景噪声时上述四个特征参数；

③差分处理：将上述当前帧的四个特征参数分别减去初始化时表示当前状态只有背景噪声的情况下相应的这四个特征参数，生成语音激活检测分类需要的相应的四个差分特征参数；

④采用SVM算法进行语音激活性检测，训练支持向量机采用的是序列最小最优化(Sequential Minimal Optimization，SMO)方法，最终将语音划分成激活和非激活两种语音类型；

⑤采用四步平滑和校正算法进行VAD判别平滑处理；

⑥在每一帧进行VAD处理后，输出非激活或激活语音帧信号，如果估计该帧的背景噪声能量大于背景噪声能量门限的，则需要重新在进行修正平均背景噪声参数处理；

所述的LCT变换器处理，其方法是：

①对经SVM-VAD语音激活检测模块检测为非激活语音帧，按无声/背景噪声语音模式的分维矢量维数进行分维处理，然后将该分维矢量分别按照无声/背景噪声语音模式的相应分维矢量的码书进行分维矢量量化，得到与该语音模式相对应的两个比特位长度都是7位的分维矢量量化结果，同时对该模式语音帧的增益进行标量量化，将按照表示语音模式的2个比特位、表示增益的8个比特位、表示第一分维矢量和第二分维矢量的都为7比特位的顺序，组成3个字节输出，表示该帧语音编码结束；

②对经SVM-VAD模块检测为激活语音帧，按清音(模式0)、清浊音(模式1)、中强浊音(模式2)的方法分成三种语音模式，按照相应的三种语音模式的分维矢量维数进行分维处理，然后将相应的四个分维矢量分别按照对应的语音模式的相应分维矢量的码书进行分维矢量量化，得到与该语音模式相对应的四个不同长度比特位分别表示对应的分维矢量的量化结果；同时对该语音帧的增益进行标量量化，将按照表示语音模式的两个比特位、表示增益的8个比特位及按照从表示该语音模式的第一分维矢量的比特位至第四分维矢量的比特位的顺序将这些比特位组成整数个字节输出，表示该帧语音编码结束。

所述的无声/背景噪声语音模式的第一分维矢量维数、第二分维矢量维数均为40；所述的清音、清浊音和中强浊音语音模式的第一分维矢量维数、第二分维矢量维数和第三分维矢量维数均为40，而第四分维矢量维数均为20。

所述的无声/背景噪声语音模式第一、第二分维矢量比特分配均为7比特，第三、第四分维矢量比特分配均为0比特，增益模式为8、2比特；所述的清音语音模式第一、第二分维矢量比特分配均为7比特，第三、第四分维矢量比特分配均为8比特，增益模式为8、2比特；所述的清浊音语音模式第一、第二分维矢量比特分配均为11比特，第三、第四分维矢量比特分配均为8比特，增益模式为8、2比特；所述的中强浊音语音模式第一、第二分维矢量比特分配均为8比特，第三、第四分维矢量比特分配均为8和6比特，增益模式为8、2比特。

本发明由于充分利用了SVM方法的特点，将SVM应用于VAD检测中，提高了语音编码器对语音检测的正确识别率；采用GSM的语音模式分类方法，并将原来的四种语音模式合并为三种语音模式，使最终只采用两个比特表示整个语音模式。

附图说明

图1是本发明实施例提供的SVM-VAD语音激活模块工作运行流程图

图2是本发明实施例提供的VBR-LCT语音编码器的框架结构示意图

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例：

1、激活语音模式划分

在GSM系统中语音模式选择的准则如下：

Mode＝0，P_v＜1.7(清音)。

Mode＝1，P_v≥1.7，P_m＜3.5对于所有的m，(轻浊音)。

Mode＝2，3.5≤P_m＜7.0，对于所有的m，(中浊音)。

Mode＝3，P_m＞7.0，对于所有的m，(强浊音)。

其中m＝1，2，3，4表示某一帧中的子帧，其中P_m表示第m子帧开环LTP预测增益(dB)，P_v表示整个帧开环LPT预测增益(dB)。

强浊音和中浊音具有较强的周期性和较高的语音能量，根据语音生成模型，这两种语音模式的共振峰很强，很好地表示它们有利于产生较清晰的浊音。对于频率域编码，强浊音和中浊音之间的谱成分差别不大，所以，在本发明的实施例中，采用把强浊音模式和中浊音模式合并为一个称为中强浊音模式的方法。合并为一个中强浊音模式的另一原因是由于VAD检测到的无声帧类型加上上面三种语音模式，可以只利用2个比特表示编码模式之间的转换。因此，本实施例对于激活语音只有三种模式，即模式0、模式1、模式2，分别代表清音模式、轻浊音模式和中强浊音模式。

2、分维矢量量化方法

粗略地讲，成年人语音信号前四个共振峰分别位于500Hz、1500Hz、2500Hz和3500Hz。这实际上将语音信号划分成四个重要区域，在编码时要求对这四个区域的谱区别对待。所以，本发明实施例在设计编码器时将局部余弦变换的系数采取分维量化的方法。对于每一维矢量分别采用1980年由Linde、Buzo和Gray三人提出的矢量量化方法(LGB算法)进行码书训练。当利用LGB算法生成码书后，为了提高编解码时码书的搜索速度采用树形码书搜索方法。

在本发明实施例采用的分维量化中，对于激活语音帧的各个模式的局部余弦变换系数数目划分从低频到高频分别为40、40、40、20。而对于无声或背景噪声帧只取前两个低频段的系数，分别为40。把这四个矢量分别称为第一维矢量、第二维矢量、第三维矢量和第四维矢量。由于对采样率为8kHz的语音信号，只保留3500Hz以下的谱成分就足以较好地恢复出满意质量的语音信号。为了降低计算复杂度，激活语音模式帧的第四维矢量只用20个系数，而无声或背景噪声帧却不利用高半频段的系数，表1是各种模式语音帧的分维矢量维数。在解码器中的反变换合成语音信号时，将激活语音帧的剩余最高频成分的20个系数和无声(背景噪声)的高半频中的80个系数填充为0。

3、比特位分配

根据各类激活语音帧和无声(背景噪声)帧的特点采取不同比特率分配策略，表2是本发明实施例提供的VBR-LCT编码器的比特分配表。

中强浊音模式语音具有较强的周期性，且语音能量多集中在中低频带内，所以需要给中低频带分配较多的比特。将此类语音模式分配中等比特位数就能较好地得到表示。

对于轻浊音的模式语音，因为它在某种程度上是浊音和清音以一定比例的混合，它的周期性没有中强浊音模式语音的强，但其中却包含着语音中的跃变部分。其中的突变帧虽然在语音中所占的比例较少，但它却包含了大量的信息，所以能否有效地表示它将直接影响语音质量。为此，本实施例对这种模式的语音帧采用分配较高的比特位数的策略。

清音模式语音可以说是完全由清音组成的，所以应该认为清音的局部余弦变换谱是平坦的。在比特分配中各个频带上基本分配相同的比特，但为了增强高频部分的清音特性只给高半频上的两个频段各增加一个比特。

为了得到自然度较好的语音，在本实施例中，没有采用将无声或背景噪声帧的语音全部充0处理。如果进行这样的处理将会导致有声帧和无声帧之间的能量产生突变，形成不舒适现象。为此，对无声或噪声帧也分配一定的比特位来对其进行表示。对于强背景噪声或在特殊的环境下，如果出现将有声误判为无声，那么利用这个有限的比特位也能在某些程度上表示有声语音的信息，这是基于局部余弦变换编码方法所特有的优势。

各个模式的语音帧编码器的增益是通过采用将输入信号谱能量与编码时搜索的码矢量的谱能量和之比计算得来的。增益的量化采用8比特标量量化方法。对各种模式的语音帧分配的总的比特数都是整数个字节，所以对于各个模式语音帧的编码，传输中出现帧内部的比特位误差不会引起后续语音帧的解码，具有一定的抗误码和纠错能力。

4、SVM-VAD方法

VAD的作用是在有声和无声之间进行区分，这是一个众所周知的分类问题。对于任何分类问题，不得不选择用于分类的参数，以及不得不设计一个判别函数。我们选取的是VAD应用中通常习惯采用的一组描述信号能量和谱成分的参数。参数的选择是受每个参数对分类结果的贡献、其鲁棒性和其计算复杂度支配的。这里选择的参数为当前帧参数与背景噪声滑动平均参数差得到的四个差分测量参数，即谱失真、全带能量差、低带能量差、过零率差。

VAD算法和非激活语音编码器都是以数字化语音帧形式操作的。为了兼容性，对所有方法使用相等的帧长。如图1为对于每一帧的VAD算法的一般运行流程图。使用SVM方法进行VAD判别的结果是局部的，也就是其没有考虑语音和噪声的短时平稳特性。需要使用前面相邻帧，采用四步平滑和校正算法。如果噪声电平突然改变，在一个长时期内使用最小能量估计，设计一个特殊重置算法防止算法锁定在有声模式。

图2为本发明实施例提供的VBR-LCT语音编码器的框架结构示意图。图2中预处理模块是为了减少低频噪声和直流分量的高通滤波处理。语音编码器输入语音信号是采样率为8kHz 16比特PCM格式的语音信号。本实施例中采用的是wav格式的语音数据，所以电平幅值是归一化了的。

对信号进行变换分析通常采用短时处理的方法。短时信号段的长度选取对分析结果影响较大。语音信号变换编码方法同样涉及到分析窗长度选择的问题。我们知道语音信号总体来讲是弱非平稳的信号，但它在短时间内可以近似地认为是平稳的，如20ms的间隔。所以，为了提高压缩比，在编码中尽可能选择长窗来降低比特率，但与此同时也会增加编解码器的延迟。所以，在帧长选取上，根据语音信号的特点，要求对编码器的延迟和比特率进行折衷处理。本发明实施例所提供的低比特变速率编码器，要求帧长度不能小于20ms，再者，20ms帧长是绝大多数编码器所采用的，属于中低延迟的编码策略。在帧长为20ms内的语音段，语音信号可以近似地被认为是平稳的，有利于语音信号的正交表示，所以在本实施例中帧长选用20ms，即160个采样点。

编码器的评价：

1、客观评价

表3所列数据为本实施例提供的VBR-LCT语音编码器与G.729B、GSMHalf-Rate、FS1016和FS1015编码标准进行对比的结果。该结果也说明了客观评价方法在语音编码器性能评价的可靠性。G.729B、GSM Half-Rate和FS1016都属于中低比特率的编码标准，它们编码的语音质量远远超过FS1015、VBR-LCT方法，但从这两个指标看，相比较而言VBR-LCT方法具有相当大的优势。与相近比特率的FS1015编码器进行比较，从几个类型语音数据的SNR和PSNR表明本实施例提供的VBR-LCT编码方法明显比FS1015标准的SNR和PSNR最多高出近5dB。

从语音编码器的实质分析，本发明采用的VBR-LCT编码方法是在变换域内进行的，其实质是波形编码的范畴。所以利用SNR和PSNR两个评价指标来进行客观评价，对其是有利的，客观指标对编码器进行评价可以作为一个参考。

2、主观评价

语音编码器产生的语音最终的接受对象是人的耳朵，所以编码后的语音质量好坏主要是接受人的听觉感知评价。这里我们采用非正式语音听力测试进行语音质量的评价。

在对双向对话的语音进行编码，本发明本实施例提供的VBR-LCT的编码器平均比特率接近1.6kb/s。对于无噪声清晰语音，VBR-LCT编码器得到的重构语音也同样具有轻微的模糊，所以听不到象LPC-10e重构的语音洪亮。没有G.729B、GSM Half-Rate和FS1016编码标准产生的语音清晰度高，但是它的理解性和自然度是好的，且明显比相近比特率的LPC-10e方法要好。VBR-LCT编码方法对环境噪声具有较强的鲁棒性，它的编码失真随着信号的改变不敏感，甚至于对G.729B、GSM Half-Rate、FS1016和LPC-10e方法无效的信号仍然很稳定。当使用背景音乐或其它非语音信号时，VBR-LCT编码方法比LPC-10e方法明显好。这些完全是由于VBR-LCT编码方法属于在变换域内的波形编码，所以它不依赖于如基音等语音特征参数。

表1

分维矢量

语音模式

第一维矢量第二维矢量第三维矢量第四维矢量

无声/背景噪声 40 40 0 0

Mode 0(清音) 40 40 40 20

Mode 1(轻浊音) 40 40 40 20

Mode 2(中强浊音) 40 40 40 20

表2

分维矢量

增模

语音模式比特/

第一维第二维第三维第四维

帧

益式

矢量矢量矢量矢量

无声/背景噪声 7 7 0 0 8 2 24

Mode 0(清音) 7 7 8 8 8 2 40

Mode 1(轻浊音) 11 11 8 8 8 2 48

Mode 2(中强浊音) 8 8 8 6 8 2 40

表3

比特率

编码器类型 SNR(dB) PSNR(dB)

(kb/s)

G.729 Annex B -0.95 15.08 8

GSM Half-Rate 1.24 14.81 5.6

FS1016 0.71 16.74 4.8

FS1015(LPC-10e) -3.59 12.47 2.4

VBR-LCT -0.96 15.08 1.6

Claims

1.一种低比特变速率语音编码器，将输入的原始语音信号经过高通滤波器预处理后，输入到语音激活检测器检测判别激活语音与非激活语，再分别经局部余弦变换器处理，完成语音编码，其特征在于：

所述的语音激活检测器采用支持向量机—语音激活检测模块，其工作流程如下：

①对输入的语音数据进行参数提取，得到当前帧的线谱频率、全带能量、低带能量、过零率四个分类特征参数；

④采用支持向量机算法进行语音激活性检测，训练支持向量机采用的是序列最小最优化方法，最终将语音划分成激活和非激活两种语音类型；

⑤采用四步平滑和校正算法进行语音激活检测判别平滑处理；

⑥在每一帧进行语音激活检测处理后，输出非激活或激活语音帧信号，如果对估计该帧的背景噪声能量大于背景噪声能量门限的，则需要重新再进行修正平均背景噪声参数处理；

所述的局部余弦变换器处理，其方法是：

①对经支持向量机—语音激活检测模块检测为非激活语音帧，按无声/背景噪声语音模式的分维矢量维数进行分维处理，然后将该分维矢量分别按照无声/背景噪声语音模式的相应分维矢量的码书进行分维矢量量化，得到与该语音模式相对应的两个比特位长度都是7位的分维矢量量化结果，同时对该模式语音帧的增益进行标量量化，将按照表示语音模式的2个比特位、表示增益的8个比特位、表示第一分维矢量和第二分维矢量的都为7比特位的顺序，组成3个字节输出，表示该帧语音编码结束；

②对经支持向量机—语音激活检测模块检测为激活语音帧，按清音、清浊音、中强浊音的方法分成三种语音模式，按照相应的三种语音模式的分维矢量维数进行分维处理，然后将相应的四个分维矢量分别按照对应的语音模式的相应分维矢量的码书进行分维矢量量化，得到与该语音模式相对应的四个不同长度比特位分别表示对应的分维矢量的量化结果；同时对该语音帧的增益进行标量量化，将按照表示语音模式的两个比特位、表示增益的8个比特位及按照从表示该语音模式的第一分维矢量的比特位至第四分维矢量的比特位的顺序将这些比特位组成整数个字节输出，表示该帧语音编码结束。

2.根据权利要求1所述的低比特变速率语音编码器，其特征在于：所述的无声/背景噪声语音模式的第一分维矢量维数、第二分维矢量维数均为40，第三、第四分维矢量维数均为0；所述的清音、清浊音和中强浊音语音模式的第一分维矢量维数、第二分维矢量维数和第三分维矢量维数均为40，第四分维矢量维数均为20。

3.根据权利要求1所述的低比特变速率语音编码器，其特征在于：所述的无声/背景噪声语音模式第一、第二分维矢量比特分配均为7比特，第三、第四分维矢量比特分配均为0比特，增益模式为8、2比特；所述的清音语音模式第一、第二分维矢量比特分配均为7比特，第三、第四分维矢量比特分配均为8比特，增益模式为8、2比特；所述的清浊音语音模式第一、第二分维矢量比特分配均为11比特，第三、第四分维矢量比特分配均为8比特，增益模式为8、2比特；所述的中强浊音语音模式第一、第二分维矢量比特分配均为8比特，第三、第四分维矢量比特分配均为8和6比特，增益模式为8、2比特。