CN108922514A

CN108922514A - 一种基于低频对数谱的鲁棒特征提取方法

Info

Publication number: CN108922514A
Application number: CN201811091401.7A
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2018-11-30
Anticipated expiration: 2038-09-19
Also published as: CN108922514B

Abstract

本发明公开一种基于低频对数谱的鲁棒特征提取方法，用语音信号的对数谱轮廓提取其特征参数。首先，对语音信号的幅度谱进行对数变换，得到对数谱；然后，将对数谱看作时域信号，用数字滤波器对其进行低通滤波，得到低频对数谱；最后，对语音信号的低频对数谱进行指数变换，Mel滤波，对数变换和离散余弦变换，并进行时域差分，得到语音信号的特征参数。本发明可以提高语音信号特征参数的环境鲁棒性，减小说话人的改变对语音识别系统的影响，具有计算量较小、易于实时实现的优点。

Description

一种基于低频对数谱的鲁棒特征提取方法

技术领域

本发明属于语音识别技术领域，具体涉及到对语音信号的对数谱进行低频滤波，减小环境失配对语音识别系统影响的鲁棒特征提取方法。

背景技术

语音识别系统每个语音单元的声学模型一般用安静环境下若干人的训练语音训练而成，如果训练语音能覆盖实际说话人的发音特性，那么语音识别系统可以取得很高的识别率。然而，不同地区说话人的发音方式有较大的差别，且发音方式的种类太多，难以在声学模型的训练过程中考虑所有发音方式。而且，如果在训练过程中使用过多差别大的训练语音，也会导致系统识别率的下降。因此，说话人的改变是导致语音识别系统在实际环境中识别性能下降的重要因素。

目前，语音识别系统一般以美尔频率倒谱系数(MFCC：Mel Frequency CepstralCoefficients)为语音的特征参数。MFCC具有高维分量包含的有效信息少，各维分量之间的相关性小的优点。但是，由于语音变异性的影响，在实际环境中提取的MFCC的特性与训练语音可能存在较大的差异，这会导致系统性能的下降，甚至不可用。

发明内容

发明目的：针对现有技术中存在的问题，为了减小说话人的改变对语音识别系统的影响，在特征提取时，应尽量减少说话人的个性特征，增强语音特征参数的鲁棒性，本发明提供一种基于低频对数谱的鲁棒特征提取方法。

技术方案：一种基于低频对数谱的鲁棒特征提取方法，首先对输入语音的幅度谱进行对数变换，得到对数谱；然后，将对数谱看作时域信号，用数字滤波器对其进行低通滤波，得到低频对数谱；最后，对语音信号的低频对数谱进行指数变换，Mel滤波，对数变换和离散余弦变换(DCT:Discrete Cosine Transform)，并进行时域差分，得到语音信号的特征参数。

本发明的具体步骤如下：

(1)对输入语音加窗，分帧，将输入语音分解为若干帧信号；

(2)对每一帧输入语音进行快速傅里叶变换(FFT：Fast Fourier Transform)运算，得到每帧信号的幅度谱；

(3)对每帧信号的幅度谱进行对数变换，得到语音信号的对数谱；

(4)将对数谱看作时域信号，用数字滤波器对其进行低通滤波，得到低频对数谱；

(5)对每帧信号的低频对数谱进行指数变换，得到语音信号的低频幅度谱；

(6)对每帧信号的低频幅度谱进行Mel滤波，得到语音信号的低频Mel谱；

(7)对每帧信号的低频Mel谱进行对数变换，得到语音信号的低频Mel对数谱；

(8)对每帧信号的低频Mel对数谱进行DCT变换，得到语音信号的静态特征参数；

(9)对DCT后的静态倒谱特征作一阶差分和二阶差分，得到动态倒谱参数，静态参数和动态参数共同组成语音的39维倒谱特征向量。

本发明采用上述技术方案，具有以下有益效果：

本发明可以提高语音信号特征参数的环境鲁棒性，减小说话人的改变对语音识别系统的影响，具有计算量较小、易于实时实现的优点。

附图说明

图1为本发明实施例的基于低频对数谱的鲁棒特征提取方法的总体框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于低频对数谱的鲁棒特征提取方法主要包括预处理、FFT、对数变换、低通滤波、指数变换、Mel滤波、DCT和时域差分部分。

1、预处理

在语音预处理阶段，对输入语音进行加窗，分帧，得到帧信号x。语音信号的采样频率为8000Hz，窗函数采用海明窗，帧长为256，帧移为128。

2、FFT

对预处理后的每一帧信号x，进行快速傅里叶变换(FFT)，求x的幅度谱X：

其中，N为帧长，即N＝256，j是虚数单位，k为离散频谱的自变量(基频的倍数)。

3、对数谱滤波

对数谱滤波包括对数变换、低通滤波和指数变换三个部分。

首先，对幅度谱X进行对数变换：

g＝ln(X) (2)

其中，g表示语音信号的对数谱。

然后，将对数谱g看作时域信号，用一个低通滤波器对其进行低通滤波，保留其低频部分，滤除高频部分，得到低频对数谱低通滤波器的截止频率用实验方法测得。

最后，对低频对数谱进行指数变换：

其中，表示语音信号的低频幅度谱。

4、低频幅度谱特征提取

首先，对低频幅度谱进行Mel滤波：

其中，W_m(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子；M为滤波器的个数；为第m个滤波器的输出。

然后，对低频Mel谱进行对数变换：

其中，表示语音信号的低频Mel对数谱。

然后，对低频Mel对数谱进行离散余弦变换(DCT)：

其中，L是倒谱特征向量c的维数，这里取13。

最后，对静态参数c进行一阶和二阶时域差分：

其中，T和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数。

将c_t，Δc_t和ΔΔc_t拼接，即可得到第t帧语音的39维倒谱特征向量。

Claims

1.一种基于低频对数谱的鲁棒特征提取方法，其特征在于，首先对输入语音的幅度谱进行对数变换，得到对数谱；然后，将对数谱看作时域信号，用数字滤波器对其进行低通滤波，得到低频对数谱；最后，对语音信号的低频对数谱进行指数变换，Mel滤波，对数变换和离散余弦变换，并进行时域差分，得到语音信号的特征参数。

2.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法，其特征在于，对输入语音加窗，分帧，将输入语音分解为若干帧信号；对每一帧输入语音进行快速傅里叶变换运算，得到每帧信号的幅度谱；对每帧信号的幅度谱进行对数变换，得到语音信号的对数谱。

3.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法，其特征在于，将对数谱看作时域信号，用数字滤波器对其进行低通滤波，得到低频对数谱；对每帧信号的低频对数谱进行指数变换，得到语音信号的低频幅度谱；对每帧信号的低频幅度谱进行Mel滤波，得到语音信号的低频Mel谱；对每帧信号的低频Mel谱进行对数变换，得到语音信号的低频Mel对数谱；对每帧信号的低频Mel对数谱进行DCT变换，得到语音信号的静态特征参数；对DCT后的静态倒谱特征作一阶差分和二阶差分，得到动态倒谱参数，静态参数和动态参数共同组成语音的39维倒谱特征向量。

4.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法，其特征在于，对预处理后的每一帧信号x，进行快速傅里叶变换，求x的幅度谱X：

其中，N为帧长；

对数谱滤波包括对数变换、低通滤波和指数变换三个部分；

首先，对幅度谱X进行对数变换：

g＝ln(X) (2)

其中，g表示语音信号的对数谱；

然后，将对数谱g看作时域信号，用一个低通滤波器对其进行低通滤波，保留其低频部分，滤除高频部分，得到低频对数谱低通滤波器的截止频率用实验方法测得；

最后，对低频对数谱进行指数变换：

其中，表示语音信号的低频幅度谱。

5.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法，其特征在于，首先，对低频幅度谱进行Mel滤波：

其中，W_m(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子；M为滤波器的个数；为第m个滤波器的输出；

然后，对低频Mel谱进行对数变换：

其中，表示语音信号的低频Mel对数谱；

然后，对低频Mel对数谱进行离散余弦变换：

其中，L是倒谱特征向量c的维数；

最后，对静态参数c进行一阶和二阶时域差分：

其中，T和Γ为常数，分别表示一阶差分和二阶差分时，当前帧前后参与差分运算的帧数；