CN103854655B

CN103854655B - 一种低码率语音编码器以及解码器

Info

Publication number: CN103854655B
Application number: CN201310732544.2A
Authority: CN
Inventors: 江文斌; 郭栗; 曹鸣; 曹一鸣; 刘佩林
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2016-10-19
Anticipated expiration: 2033-12-26
Also published as: CN103854655A

Abstract

本发明涉及一种低码率语音编码器包括语音信号预处理模块，梅尔倒谱系数提取模块以及参数量化模块。本发明还涉及一种低码率语音解码器包括：参数反量化模块，幅度谱重建模块，最小相位信号重建模块，GMM特征提取及参数训练系统，清浊音估计模块，基音估计模块，Rosenberg脉冲产生模块，语音信号重建模块以及叠接相加模块。本发明采用基于人耳听觉模型的梅尔倒谱系数作为编解码参数，使得编解码器可以有效去除非人耳听觉范围内的冗余信息。本发明提出在编码器无需计算清浊音和基音信息，只需在解码器基于梅尔倒谱系数通过估计算法得到，不仅有能降低编码器的算法复杂度，还进一步有效减小所要量化传输的参数。

Description

一种低码率语音编码器以及解码器

技术领域

本发明涉及一种语音编码器以及解码器，尤其涉及一种基于梅尔倒谱系数的低码率语音编码器以及解码器。

背景技术

低码率语音编解码器主要是指码率低于4.8kbps、采用参数编码的语音编码器，其广泛应用于信道带宽受限的卫星通信和军用保密通信。上世纪八十年代，美国国防部制定了首个2.4kbps的低码率语音通信编码标准FS-1015LPC-10e。该编码器基于语音信号的产生模型，采用清浊音二元激励一个自适应滤波器（即LPC滤波器）产生语音信号。1991年，又制定了4.8kbps的FS-1016标准CELP(Code Excited Linear Prediction)。该编码器采用码本作为激励源并通过LPC滤波器合成抗噪性能更好、可懂度更高的语音信号。1997年，由美国德州仪器公司推出的MELP(Mixed Excitation Linear Prediction)语音编码器代替了FS-1015标准的LPC-10e声码器成为2.4kbps低码率语音通信新标准。该编码器奖激励信号分为清音、浊音和抖动音三种状态，吸收多带激励编码的优点将信号分成5个子频带分别进行清浊音判决，改进基音提取算法，清浊音分类的最小二乘估计-幅度谱逼近语音重建方法。经典的最小二乘估计-幅度谱逼近信号估计方法能在信号相位谱未知的情况下通过迭代的方法根据幅度谱估计出信号的时域波形。但该方法的最大缺点是将信号初始化为随机噪声信号，这导致估计得到的信号不稳定。

语音编解码器中最为关键的部分是语音重建/合成算法，在传统的低码率语音编码器中，一般采用语音的线性预测模型，如LPC-10e、CELP、MELP等,此种方法将非人耳听觉范围内的冗余信息一同进行处理，浪费了资源。传统的低码率语音编码器一般需要计算清浊音和基音信息并发送到解码器，编码器的算法复杂，量化传输的参数量也更多，解码器的重建算法对清浊音帧采用不同的方法进行语音合成。

近年来，语音识别系统广泛应用于手持终端设备。梅尔倒谱为一种基于人耳听觉特性的倒谱，梅尔倒谱系数MFCC,（Mel Frequency Cepstrum Coefficient)，作为语音识别的主要特征参数。有研究者根据语音信号倒谱与基音频率之间的相关性，提出采用混合高斯模型(Gaussian Mixture Model,GMM)和隐马可夫模型(Hidden Markov Model,HMM)对基音周期和清浊音判决信息进行估计预测，然后采用DSR的语音重建算法恢复出语音信号，因而，研究出一种基于梅尔倒谱系数的低码率语音编码器以及解码器，减少对冗长不必要语音信息的编码与解码是十分紧要的。

发明内容

本发明的目的在于提供一种低码率的语音编码器以及解码器，采用基于人耳听觉模型的梅尔倒谱系数作为编解码参数，使得编解码器可以有效去除非人耳听觉范围内的冗余信息。

为了实现上述目的，本发明提供了一种低码率的语音编码器，包括：

语音信号预处理模块，接收原始语音信号，进行加窗分帧和滤除低频的干扰信号；

梅尔倒谱系数提取模块，对预处理后的语音信号处理，输出梅尔倒谱系数MFCC；以及参数量化模块，对MFCC进行量化。

较佳地，所述梅尔倒谱系数提取模块依次包括：

预增强处理模块，为一阶有限激励响应高通滤波器，输入预处理后的语音信号；快速傅里叶变换模块，计算预增强处理后的语音信号的幅度谱；

梅尔滤波模块，在梅尔倒谱域计算幅度谱在梅尔三角窗内的加权求和值；

非线性变换模块，将所述梅尔滤波模块输出端信号的幅度谱变换到对数域；以及

离散余弦变换模块，输入所述非线性变换模块的输出信号，并进行离散傅里叶变化得到MFCC。

较佳地，对MFCC的第一个参数采用非均匀标量量化，其余参数采用矢量量化。

较佳地，2400bps或1200bps码率的语音信号帧间重叠为25%，600bps或300bps码率的语音信号帧间重叠为0%

较佳地，所述低码率语音编码器支持2400bps、1200bps、600bps和300bps四种码率，在300bps码率时，采用2帧组成超级帧进行2帧联合矢量量化。

为了实现上述目的，本发明提供了一种低码率的语音解码器，包括：

参数反量化模块，将量化后的MFCC进行反量化，得到量化前的MFCC；

幅度谱重建模块，通过MFCC恢复得到语音信号的幅度谱；

最小相位信号重建模块，根据语音信号的幅度谱得出最小相位信号；

GMM特征提取及参数训练系统，通过对一训练语音信号进行处理，输出基音估计的GMM参数以及清浊音估计的GMM参数；

清浊音估计模块，与所述幅度谱重建模块输出端相连，对重建后的幅度谱采用所述清浊音估计的GMM参数求概率进行估计，与阈值比较进行清浊音判决；

基音估计模块，与所述清浊音估计模块输出端相连，对估计为浊音帧的幅度谱采用所述基音估计的GMM参数进行基音估计；

Rosenberg脉冲产生模块，与所述基音估计模块输出端相连，根据估计出的基音产生Rosenberg脉冲用于模拟语音信号产生声门脉冲；

语音信号重建模块，与所述Rosenberg脉冲产生模块以及所述最小相位信号重建模块的输出端相连，对清音帧和浊音帧分别进行重建；以及

叠接相加模块，与所述语音信重建模块的输出端相连，将重建后的清音帧和浊音帧进行帧间叠加，得到完整的语音信号。

较佳地，所述低码率语音解码器支持2400bps、1200bps、600bps和300bps四种码率。

较佳地，幅度谱重建模块包括：

离散余弦反变换模块，将MFCC变化为语音信号的对数域；

非线性反变换模块，将语音信号的对数域变换为梅尔滤波后的幅度域；

去梅尔窗模块，将梅尔滤波后的幅度域恢复得到原语音信号的幅度谱。

较佳地，语音信号重建模块中还包括：

清音重建模块，将清音帧的最小相位信号给定为初始值，进行最小二乘估计-幅度谱逼近算法的计算；

浊音重建模块，将浊音帧的去除Rosenberg脉冲激励后的最小激励信号给定为初始值，进行最小二乘估计-幅度谱逼近算法的计算。

较佳地，所述GMM特征提取及参数训练系统中包括：

梅尔倒谱系数提取模块，接收所述训练语音信号，得到其梅尔倒谱系数MFCC；幅度谱重建模块，连接所述梅尔倒谱系数提取模块的输出端，通过MFCC恢复得到语音信号的幅度谱；

傅里叶变换模块，将所述训练语音信号进行傅里叶变换；

基音提取模块，与所述傅里叶变换模块输出端连接，对压缩滤波后的语音信号进行基音提取；

基音估计特征向量提取模块，连接所述幅度谱重建模块以及所述基音提取模块的输出端，提取出基音估计的特征向量；

基音混合高斯模型GMM参数训练模块，连接所述基音估计特征向量提取模块的输出端，根据基音估计特征向量对基音帧进行训练，得到基音GMM参数；

清浊音估计特征向量提取模块，连接所述傅里叶变换模块输出端，在压缩滤波后的语音信号中提取出清浊音估计的特征向量：

清浊音GMM参数训练模块，连接所述清浊音估计特征向量提取模块输出端，根据清浊音估计特征向量对清浊音帧进行训练，得到清浊音GMM参数。

本发明由于采用以上技术方案，使之与现有技术相比，具有以下的优点和积极效果：

1)本发明采用梅尔倒谱系数作为参数，梅尔倒谱系数是在基于人耳听觉模型的梅尔倒谱域计算而得，这使得编解码器可以有效去除非人耳听觉范围内的冗余信息。

2)本发明的解码器采用基于梅尔倒谱的清浊音和基音估计。本发明提出在编码器无需计算清浊音和基音信息，只需在解码器基于梅尔倒谱系数通过估计算法得到，不仅有能降低编码器的算法复杂度，还进一步有效减小所要量化传输的参数。

3)本发明根据语音信号的产生模型，对清音和浊音进行分类重建。清音帧初始化为最小相位信号，浊音帧初始化为混合相位信号。

4)采用统一的框架提供多种编解码速率。本发明提出了基于梅尔倒谱系数的低码率语音编解码统一框架，实现了多种速率的编解码方案。这使得在实际应用中可以根据实际需求灵活选择不同的速率。

附图说明

图1为梅尔三角窗示意图；

图2为本发明实施例中N₁=30%和N₂=10%的Rosenberg脉冲波形图；

图3为本发明一种低码率的语音编码器的结构示意图；

图4为本发明一种低码率的语音解码器的结构示意图；

图5为本发明幅度谱重建模块的结构示意图；

图6为本发明GMM特征提取及参数训练系统的结构示意图。

具体实施方式

下面参照附图和具体实施例来进一步说明本发明。

参见出本发明实施例的附图，下文将更详细地描述本发明。然而，本发明可以以许多不同形式实现，并且不应解释为受在此提出之实施例的限制。相反，提出这些实施例是为了达成充分及完整公开，并且使本技术领域的技术人员完全了解本发明的范围。

以下为本发明涉及一种低码率语音编码器的较佳实施例，如图3所示为其结构示意图，包括语音信号预处理模块101、梅尔倒谱系数提取模块102和参数量化模块108。

采样率为8kHz、16bit量化的原始语音信号首先经过语音信号预处理模块101，采用汉明窗进行分帧，采用高通滤波器滤除100Hz以下的直流、工频信号以及其他干扰信号，预处理的语音信号作为梅尔倒谱系数提取模块102的输入。

梅尔倒谱参数提取模块102包括预增强处理模块103、快速傅里叶变换模块104、梅尔滤波模块105、非线性变换模块106以及离散余弦变换模块107。快速预增强处理模块104为一阶有限激励响应高通滤波器，傅里叶变换模块104计算预增强处理后的语音信号的幅度谱；梅尔滤波模块105在梅尔倒谱域计算幅度谱在三角窗内的加权求和值，将梅尔滤波模块105输出端信号的幅度谱变换到对数域；离散余弦变换模块107输入非线性变换模块的输出信号，计算得到MFCC。

梅尔倒谱系数的计算过程，其首先采用快速预增强处理模块103中一阶有限激励响应高通滤波器对信号进行预增强处理，如公式（1）所示：

s′(n)=s(n)-0.9s(n-1) （1）

然后通过快速傅里叶变换模块104进行傅里叶变换变换得到语音信号的短时频谱，再将幅度谱在梅尔倒谱域进行滤波处理。从频域f到倒谱域m的转换如公式（2）所示：

m = 2595 \log_{10} (1 + \frac{f}{700}) - - - (2)

在梅尔倒谱域计算幅度谱在三角窗内的加权求和值,梅尔滤波模块105采用梅尔倒谱滤波器为一系列重叠的三角窗,如图1所示，滤波过程是在将信号的幅度谱在三角窗内作为权值求和。

最后通过非线性变换模块106以及离散余弦变换模块107对滤波后的幅度谱进行对数变换和离散傅里叶变换，从而得到梅尔倒谱系数MFCC。从信号的幅度谱到梅尔倒谱系数MFCC的计算过程可以用公式（3）表述：

式中W_m表示加三角窗加权求和过程，log、DCT分别表示对数变换和离散余弦变换。

参数量化模块对上面得到的梅尔倒谱系数MFCC进行量化，对四种不同的码率分别采取不同的量化方案。对梅尔倒谱系数的第一个参数采用非均匀标量量化，其余参数采用矢量量化。本发明提出的低码率语音编码器支持在2400bps、1200bps、600bps和300bps四种码率上工作，2400bps或1200bps码率的语音信号帧间重叠为25%，600bps或300bps码率的语音信号帧间重叠为0%。且在300bps码率时，采用2帧组成超级帧进行2帧联合矢量量化。

参数量化压缩模块108针对不同码率采用不同量化方案。本发明的低码率语音编码器能工作在2400bps、1200bps、600bps和300bps四种码率。如表1所示为不同码率的比特率分配方案，70个梅尔倒谱参数用C1～C70表示。由于C1为帧幅度值，其方差最大，因而所有量化方案中C1采用非均匀标量量化。不同的速率采用不同帧间重叠：2400bps和1200bps的帧间重叠为25%，通过帧间线性插值后，帧间重叠为81.25%；600bps和300bps为0%，插值后为87.5%。此外，在300bps的方案中，采用2帧组成超级帧进行2帧联合矢量量化。

表1比特率分配方案：

上述编码器进行编码后的信号输送给下述低码率语音解码器中进行解码，低频率语音解码器包括：参数反量化模块201、幅度谱重建模块202、最小相位信号重建模块203、清浊音估计模块204、基音估计模块205、Rosenberg脉冲产生模块206、语音信号重建模块207以及叠接相加模块208，如图4。

参数反量化模块201，将量化后的MFCC进行反量化，得到量化前的MFCC，梅尔倒谱的反量化过程为编码器中的量化过程的逆过程，针对不同的编码速率采用不同的方案进行反量化，本发明提出的低码率语音解码器也支持在2400bps、1200bps、600bps和300bps四种码率上工作，具体不同方案见上文中编码器中的介绍，反量化过程为查表过程。

幅度谱重建模块202，将反量化的MFCC恢复得到语音信号的幅度谱，其过程为公式（3）的逆向计算，从梅尔倒谱系数计算语音信号的幅度谱|S(ω)|。其中主要包括离散余弦反变换模块211，将反量化的MFCC变化为语音信号的对数域；非线性反变换模块212，语音信号的对数域变换为梅尔滤波后的幅度域；去梅尔窗模块213，及采用矩阵的加号广义逆的求梅尔滤波器的近似逆变换将梅尔滤波后的幅度域恢复得到原语音信号的幅度谱。重建后的幅度谱通过插值的方法减小分帧加窗的影响。插值后的幅度谱输入最小相位信号重建模块203以及清浊音估计模块204，一方面用于最小相位信号的重建，另一方面用于估计清浊音和基音。

最小相位信号重建模块203中首先求重建幅度谱的实倒谱，然后根据最小相位信号实倒谱与复倒谱的关系得到复倒谱。实倒谱c(n)与复倒谱的关系如公式（4）所示：

\hat{s} (n) = \{\begin{matrix} 0, & n < 0 \\ c (n), & n = 0 \\ 2 c (n), & n > 0 \end{matrix} - - - (4)

最后根据复倒谱得到最小相位信号，如公式（5）所示：

清浊音估计模块204中，清浊音估计根据重建后的幅度谱采用训练好的GMM计算概率值，根据阈值的比较进行清浊音判决。清浊音计算的概率值计算如公式（6）所示：

P(v)=(1+exp(p_u-p_v))^-1 （6）

式中，p_u和p_v分别表示清音和浊音GMM模型的后验概率。如果P(v)>ε，ε为阈值，设置为0.5，则该帧判决为浊音，否者为清音。判决为浊音的语音帧，根据幅度谱用训练好的GMM参数传送给基因估计模块205进行基音估计。

基因估计方法：采用GMM模型的后验概率进行估计，具体为：通过特征向量Φ_i的部分特征Ω_i在GMM模型中寻找概率最大的高斯分量k，然后通过该高斯分量均值的u和方差Σ估计出基音，计算公式为：

{\hat{f}}_{i} = u_{k}^{f} + Σ_{k}^{fΩ} {(Σ_{k}^{ΩΩ})}^{- 1} {(Ω_{i} - u_{k}^{Ω})}^{T} - - - (7)

基因估计模块205估计得到的基音传送至Rosenberg脉冲产生模块206，用于产生Rosenberg脉冲，该脉冲用于模拟语音信号产生的声门脉冲。Rosenberg脉冲的计算公式如式（8）所示：

g_{R} [n] = \{\begin{matrix} 0.5 (1 - \cos (πn / N_{1})), & 0 \leq n \leq N_{1} \\ \cos (π (n - N_{1}) / ({2 N}_{2})), & N_{1} \leq n \leq N_{1} + N_{2} \\ 0, & otherwise \end{matrix} - - - (8)

式中，N₁和N₂为声门开启和关闭的时间参数，如图2所示为N₁=30%和N₂=10%的Rosenberg脉冲波形图，图中基音周期为100采样点。

语音信号重建模块207，根据语音信号的幅度谱通过最小二乘估计-幅度谱逼近算法得到最小相位信号；其中还包括：清音重建模块271以及浊音重建模块272。根据语音信号的产生模型，清音和浊音帧分别采用不同的方法进行重建。清音重建模块271，将清音帧的最小相位信号给定为初始值，进行最小二乘估计-幅度谱逼近算法的计算；浊音重建模块272，将浊音帧的去除Rosenberg脉冲激励后的最小激励信号给定为初始值，进行最小二乘估计-幅度谱逼近算法的计算。

由于从梅尔倒谱重建的幅度谱没有相位谱信息，因此语音信号重建模块207均基于最小二乘估计-幅度谱逼近算法（LSE-ISTFTM），即通过迭代的方法使得估计出语音信号幅度谱与给定的幅度谱误差最小。清音可以近似为最小相位信号，因而将最小二乘估计-幅度谱逼近算法的初始值给定为最小相位信号。浊音帧用同样的重建算法，其初始信号采用混合相位信号。混合相位采用Rosenberg 脉冲相位和浊音帧重建最小相位信号的相位。浊音不能近似为最小相位信号，但去除Rosenberg脉冲激励后同样可以近似为最小相位信号。清音帧信号的迭代估计重建算法如算法1所示，浊音帧信号的迭代估计重建如算法2所示。清音帧和浊音帧分别重建后，通过叠接相加的方法得到最终的语音信号。

算法1:清音扩展的LSE-ISTFTM算法

输入：信号幅度谱|S|

输出：最小方差估计信号

初始化:（最小相位信号）,i=0,e=0

while停止条件false do

i←i+1

计算傅里叶变换

e &LeftArrow; Σ {(| S | - | {\tilde{S}}_{i} |)}^{2}

更新幅度谱误差

更新估计的幅度谱

更新估计的信号

end while

返回

\tilde{s} &LeftArrow; {\tilde{s}}_{i}

算法2:浊音扩展的LSE-ISTFTM算法

输入：信号幅度谱|S|,合成相位,

输出：最小方差估计（LSE）信号,

初始化:i=0,e=0,

while停止条件false do

i←i+1

{计算傅里叶变换}

e &LeftArrow; Σ {(| S | - | {\tilde{S}}_{i} |)}^{2}

{更新幅度谱误差}

{更新估计的幅度谱}

{更新估计的信号}

end while

返回

\tilde{s} &LeftArrow; {\tilde{s}}_{i}

语音信重建模块207的输出端与叠接相加模块208相连，将重建后的清音帧和浊音帧进行帧间叠加，得到完整的语音信号。

GMM特征提取及参数训练系统3，通过对一训练语音信号进行处理，输出基音估计的GMM参数以及清浊音估计的GMM参数，分别传送给清浊音估计模块204以及基音估计模块205；GMM模型（用λ=(π,μ,Σ)表示）的训练过程即为模型参数的训练过程，首先使用Linde-Buzo-Gray(LBG)算法得到初始值，然后采用expectation-maximization(EM)算法训练GMM模型的三个参数：权重π，均值μ，方差Σ。

GMM特征提取及参数训练系统如图6中所示，包括：

梅尔倒谱系数提取模块301，接收训练语音信号，得到其梅尔倒谱系数MFCC，与编码器中语音信号预处理模块101以及梅尔倒谱系数提取模块102的功能一致；

幅度谱重建模块302，连接梅尔倒谱系数提取模块301的输出端，通过MFCC恢复得到语音信号的幅度谱，解码器中幅度谱重建模块202功能一致；

傅里叶变换模块305，将训练语音信号进行傅里叶变换；

基音提取模块306，与傅里叶变化模块305输出端连接，对压缩滤波后的语音信号进行基音提取，即在语音信号倒谱域上检测峰值，峰值的横坐标即为要提取的基音；

基音估计特征向量提取模块303：连接幅度谱重建模块302以及基音提取模块306的输出端，提取出基音估计的特征向量；基音估计特征向量：由倒谱和基音频率组成，基音估计GMM的特征向量Φ(33维)：

Φ=[Ω,f]

其中，Ω为倒谱域的60～400HZ范围内的32维向量，f为基音。

基音GMM参数训练模块304，连接基音估计特征向量提取模块303的输出端，根据基音估计特征向量对基音帧进行训练，得到基音GMM参数；

清浊音估计特征向量提取模块307，连接傅里叶变化模块305的输出端，在压缩滤波后的语音信号中提取出清浊音估计的特征向量：清浊音估计特征向量ψ(2维)：ψ=[s,χ]

其中，s表示帧能量，χ=Σ_pitch/s，Σ_pitch表示候选的三个基音之和，即为峰值最大的三个基音之和。

清浊音GMM参数训练模块308，连接清浊音估计特征向量提取模块307输出端，根据清浊音估计特征向量对清浊音帧进行训练，得到清浊音GMM参数。

上述公开的仅为本发明的具体实施例，该实施例只为更清楚的说明本发明所用，而并非对本发明的限定，任何本领域的技术人员能思之的变化，都应落在保护范围内。

Claims

1.一种低码率语音解码器，其特征在于，包括：

幅度谱重建模块，通过MFCC恢复得到语音信号的幅度谱；

2.如权利要求1所述的一种低码率语音解码器，其特征在于，所述低码率语音解码器支持2400bps、1200bps、600bps和300bps四种码率。

3.如权利要求1所述的一种低码率语音解码器，其特征在于，幅度谱重建模块包括：

离散余弦反变换模块，将MFCC变化为语音信号的对数域；

4.如权利要求1所述的一种低码率语音解码器，其特征在于，语音信号重建模块中还包括：

5.如权利要求1所述的一种低码率语音解码器，其特征在于，所述GMM特征提取及参数训练系统中包括：

梅尔倒谱系数提取模块，接收所述训练语音信号，得到其梅尔倒谱系数MFCC；

幅度谱重建模块，连接所述梅尔倒谱系数提取模块的输出端，通过MFCC恢复得到语音信号的幅度谱；

傅里叶变换模块，将所述训练语音信号进行傅里叶变换；