CN102290047B

CN102290047B - 基于稀疏分解与重构的鲁棒语音特征提取方法

Info

Publication number: CN102290047B
Application number: CN 201110283908
Authority: CN
Inventors: 韩纪庆; 何勇军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin University of technology high tech Development Corporation
Priority date: 2011-09-22
Filing date: 2011-09-22
Publication date: 2012-12-12
Anticipated expiration: 2031-09-22
Also published as: CN102290047A

Abstract

基于稀疏分解与重构的鲁棒语音特征提取方法，涉及稀疏分解与重构的语音特征提取方法，解决了1、原子字典的选取：具有较高的时间复杂度，而且难以满足信号投影后稀疏；2、信号的稀疏分解：考虑语音信号和噪声信号的时间相关性的较少；3、信号的重构：忽略了原子的先验概率以及各个原子相互转换的概率的问题，它包括具体步骤如下：步骤一、预处理；步骤二、作离散傅立叶变换，并求功率谱；步骤三、原子字典训练，保存；步骤四、稀疏分解；步骤五、语音谱重构；步骤六、加梅尔三角滤波器并取对数；步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接，形成鲁棒特征。用于多媒体信息处理领域。

Description

基于稀疏分解与重构的鲁棒语音特征提取方法

技术领域

本发明涉及稀疏分解与重构的语音特征提取方法。

背景技术

让机器能像人一样感知和理解语音一直是人类的梦想，语音识别为这一梦想带来了希望。经过几十年发展，语音识别技术取得了巨大成就，从最初的孤立词识别到如今的大词表连续语音识别(Large Vocabulary Continue Speech Recognition，LVCSR)，语音识别技术已经迈出实验室并逐步走向应用。在理想环境下，目前的小词表以及中等词表识别系统的识别率能达到99％以上，LVCSR系统识别率也能超过95％，但在噪声情况下，识别率将急剧下降。数十年来，研究者们尝试用各种方法来增强语音识别系统的鲁棒性，虽取得了一定进展，但目前的语音识别系统仍然难以适应复杂的应用环境。

噪声在现实应用中广泛存在，这些种噪声可能是加性的，可能是卷积性的，也可能是两者的混合。一般认为，外部环境噪声呈加性，信道影响呈卷积性。特别地，当训练环境没有噪声而测试环境存在噪声，或者训练环境和测试环境存在不同的噪声，将会引起环境失配。环境失配必然导致语音特征参数的分布存在偏差进而影响系统性能。

为了增强语音识别系统的环境鲁棒性，研究者们提出了大量的方法。这些方法大致可分为两类，即特征增强和模型补偿。特征增强试图从畸变语音中提取鲁棒特征。这类方法或先对信号去噪然后提取特征，例如谱减，维纳滤波，卡尔曼滤波，子空间法等，或直接补偿特征，例如倒谱均值方差规正(Cepstral Mean Normalization，CMN)，特征弯折，短时高斯化，相关谱滤波(RelAtive SpecTrAl，RASTA)，非线性滤波等。模型补偿则试图修改声学模型来适应环境，典型的有并行混合模型(Parallel Model Combination，PMC)，泰勒级数展开(Vector Taylor Series，VTS)以及各种自适应方法如最大似然线性回归(MaximumLikelihood Linear Regression，MLLR)，最大后验概率(Maxi-mum A-Posteriori，MAP)等。

虽然研究者们提出了各种方法试图解决语音识别系统的噪声鲁棒性问题，但其效果仍然无法满足现实应用需求。一方面，应用环境复杂多变，存在着各种难以预测的时变噪声；另一方面，目前的方法普遍基于噪声的平稳性假设，且需要对噪声建模以实现噪声谱的估计。这决定了目前的方法在噪声平稳时能取得较好的效果，在复杂的时变噪声情况下无法取得理想的效果。

近年来，随着稀疏分解与重构理论的成熟，信号的稀疏表示在信号处理各个领域展示出了巨大的潜力。信号满足稀疏性是指信号被分解在某个原子字典上时，仅有少量原子的系数不为零。现实中的大量信号，诸如图像，语音等都满足稀疏性或近似稀疏。另一方面，从人的认知角度上看，大量研究表明，人的感知神经系统总是从海量的神经元中，同时激活极少一部分以实现对外部刺激的编码。也就是说，人在感知外部刺激获取信息时，也遵从稀疏性原则。信号的稀疏表示在信号压缩、分析、去噪等各个方面均表现出了巨大的潜力。

信号的稀疏分解与重构存在的问题：

1、原子字典的选取：目前的各种方法大多需要反复迭代，具有较高的时间复杂度，而且难以满足信号投影后稀疏；

2、信号的稀疏分解：目前的稀疏分解方法满足的准则有稀疏性和重构误差最小准则，考虑语音信号和噪声信号的时间相关性的较少；

3、信号的重构：目前的方法大多数等概率地考虑原子的贡献，忽略了原子的先验概率以及各个原子相互转换的概率。

发明内容

本发明的目的是为了解决现有1、原子字典的选取：具有较高的时间复杂度，而且难以满足信号投影后稀疏；2、信号的稀疏分解：考虑语音信号和噪声信号的时间相关性的较少；3、信号的重构：忽略了原子的先验概率以及各个原子相互转换的概率的问题，提供一种基于稀疏分解与重构的鲁棒语音特征提取方法。

基于稀疏分解与重构的鲁棒语音特征提取方法，它包括具体步骤如下：

步骤一、预处理，将读入的语音进行分帧、加窗，使语音从时间序列转变为帧序列；

步骤二、作离散傅立叶变换，并求功率谱：

X_{a} (k) = {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2}, 0 \leq k \leq N;

式中x(n)为加窗后的语音帧，N表示傅立叶变换的点数；判断是否进行原子字典训练，否，执行步骤四；

步骤三、原子字典训练，保存；利用算法I，从大量语音中选取样本作为字典原子；

步骤四、稀疏分解；

步骤五、语音谱重构；

步骤六、加梅尔三角滤波器并取对数；定义一个有M个滤波器的滤波器组即滤波器的个数和临界带的个数相近，采用的滤波器为三角滤波器，中心频率为f(m)，m＝0，2，...，M-1，滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的；三角滤波器的频率响应定义为：

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) ork > f (m + 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & f (m - 1) < k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))} & f (m) \leq k \leq f (m + 1) \end{matrix}

对功率谱加梅尔滤波器组：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{a} (k) |}^{2} H_{m} (k)), 0 \leq m < M;

步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数：

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (nπ (m - 0.5) / M), 0 \leq n \leq M,

计算一阶差分和二阶差分，与梅尔倒谱稀疏拼接，形成鲁棒特征。

本发明与目前主流方法性能对比表：

方法	集A	集B	集C	平均
					无补偿	60.43	55.85	69.01	60.31
CMN	68.65	73.71	69.69	70.88
					AFE	89.27	87.92	88.53	88.58
本专利	93.22	94.02	94.52	92.92

测试集合为Aurora-2，任务为语音识别，所列内容为词识别率(％)；其中CMN为倒谱均值规正，AFE为欧洲分布式语音识别前端特征提取标准。

附图说明

图1本发明的流程的示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式包括具体步骤如下：

步骤二、作离散傅立叶变换，并求功率谱：

X_{a} (k) = {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2}, 0 \leq k \leq N; - - - (5)

步骤四、稀疏分解；

步骤五、语音谱重构；

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) ork > f (m + 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & f (m - 1) < k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))} & f (m) \leq k \leq f (m + 1) \end{matrix} - - - (6)

对功率谱加梅尔滤波器组：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{a} (k) |}^{2} H_{m} (k)), 0 \leq m < M - - - (7);

步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数：

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (nπ (m - 0.5) / M), 0 \leq n \leq M

(8)，计算一阶差分和二阶差分，与梅尔倒谱稀疏拼接，形成鲁棒特征。

具体实施方式二：实施方式一中的步骤一的具体过程是：

本发明的输入是语音的离散时间信号，首先要对语音进行预处理，包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断，即帧；接下来，对每帧语音加窗；目前广泛采用的窗函数有汉明窗和汉宁窗，本发明采用汉明窗：

其中n为时间序号，L为窗长。其它步骤与实施方式一相同。

具体实施方式三：实施方式一中的步骤三的具体过程是：在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子；对于噪声原子，考虑动态更新，以追踪时变噪声的影响，提出算法I：

算法I

其中Φ为原子字典，d(f_t，Φ)＝min{d_i|d_i＝||f_t-φ_i||₂}；其中φ_i为目前的Φ中的第i个原子，||·||₂为2-范数算子；算法首先对原子字典置空，定义d(f_t，φ)＝0，φ表示空集；然后从第一帧语音开始，按照距离最小准则逐个加入原子，对于剩余语音帧中与原子字典内原子很相近的语音帧作抛弃处理，否者，加入原子字典；该算法能保证所选取的原子重构出的信号误差最小。在噪声情况下，同样也为各种噪声训练原子字典；并将语音原子字典和噪声原子字典拼在一起，组成一个大的冗余原子字典。其它步骤与实施方式一相同。

具体实施方式四：实施方式一中的步骤四的具体过程是：对混噪语音帧的稀疏分解，就是要寻找混噪语音在冗余字典上的稀疏表示。直观上，语音分量被表示在语音原子上，噪声分量被表示在噪声原子上；在重构时，将所有噪声分量上的系数置为0，仅保留语音声量上的非零系数。接下来我们将推导这一原理。

假定有语音原子

和噪声原子组成原子字典Φ＝[Φ^s Φ^v]。混噪语音y＝s+v，其中s为清晰语音，v为噪声；混噪语音在冗余字典上的分解为x，即有

y = Φx = [\begin{matrix} Φ^{s} & Φ^{v} \end{matrix}] [\begin{matrix} x^{s} \\ x^{v} \end{matrix}] = Φ^{s} x^{s} + Φ^{v} x^{v} - - - (1)

其中x^s为混噪语音在清晰语音原子上系数向量，x^v为y在噪声原子上的系数向量；清晰语音通过如下方式重构：

\hat{s} = Φ^{s} x^{s} - - - (2)

在稀疏分解方面，我们充分考虑语音的时域相关性，即相邻帧语音差别较小的特点，提出如下稀疏分解准则：

\min_{X} {| Y - ΦX | |}_{2}^{2} + rank (S) + rank (V) + {| | Φ_{s} x_{i}^{s} - Φ_{s} x_{i - 1}^{s} | |}_{2}^{2} + {| | Φ_{n} x_{i}^{v} - Φ_{n} x_{i - 1}^{v} | |}_{2}^{2} - - - (3)

其中Y＝[y₁，y₂，...，y_T]为混噪语音帧序列，为各帧语音在语音字典上的稀疏表示，

为各帧混噪语音中噪声在噪声字典上的稀疏表示，

X = [x_{1}, x_{2}, . . ., x_{T}] = [\begin{matrix} S \\ V \end{matrix}],

rank(.)为求秩算子；上式第1项保证重构误差要尽可能小，第2、3两项保证分解满足稀疏准则，第3、4两项保证分解满足时域连续性；上式可以通过常用的优化方法求解，典型的有梯度下降算法。

当语音字典中有足够多的样例能在一定误差范围表示信号，噪声字典也有足够多样例表达混噪语音中的噪声。我们将问题稍作简化，即要在语音字典中找到一个原子

在噪声字典中也找到一个原子用于重构混噪语音信号，使得

最小，其中

我们采用贪心算法：对于待分解语音帧y，按照如下算法进行分解：

算法II

算法中bigvalue被设置为一个较大的值作为门限，算法中的“＜”定义为向量之间的比较，即左边向量的元素全部大于右边向量对应的元素，含有该符号的行可以丢弃存在频谱分量上的值大于y对应分量值的那些原子，减少运算量。矩阵error用于存储重构误差。find_min_index(error)函数用于寻找error中值最小的元素的下标。该方法效率高，去噪能力强，而且不受信噪比的影响，应用中取得了良好效果。其它步骤与实施方式一相同。

具体实施方式五：实施方式一中的步骤五的具体过程是：对于步骤三训练的原子字典，统计各个原子被使用到的次数，累加起来除以语音帧总数作为对应原子的先验概率；对原子之间的转移概率也做相同的统计，建立原子转移矩阵；重构时利用贝叶斯公式，在满足最大后验概率的准则下重构清晰语音帧的频谱。其它步骤与实施方式一相同。

传统的重构方法采用式子(2)重构清晰语音，即假定语音原子字典中的每个原子具有相同的先验概率以及任意两个原子之间的转换概率相等。这种假定忽略了语音本身的不均衡性和时间依赖性。比如，一个词的后面紧接着要发生的词是具有一定概率、可以统计的；语音中词的出现频率也不尽相同，也可以统计并作为先验概率，辅助语音重构。在帧的层次道理也一样。

具体实施方式六：本实施方式采用具体实施方式一的技术方案，结合具体的环境进行实验，说明本发明的效果：

步骤一、预处理：

该发明的输入是语音的离散时间信号，首先要对语音进行预处理，包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断，即帧。每帧长度通常为30ms左右，帧移为10ms。接下来，对每帧语音加窗。目前广泛采用的窗函数有汉明窗和汉宁窗，而本方法采用汉明窗：

其中n为时间序号，L为窗长。

步骤二：作离散傅立叶变换并求功率谱：

X_{a} (k) = {| | Σ_{n = 0}^{N - 1} x (n) e^{- j 2 kπ / N} | |}^{2}, 0 \leq k \leq N - - - (5)

式中x(n)为加窗后的语音帧，N表示傅立叶变换的点数。判断是否原子字典训练，否，执行步骤四。

步骤三、字典训练：

利用算法I，从大量语音中选取样本作为字典原子。字典训练结束后，得到的原子字典保存起来，供稀疏分解和语音谱重构使用。

步骤四、稀疏分解：

对于稀疏分解，如果运算资源充足，应用的实时性要求不太高，则用梯度下降算法优化式(3)获得语音的稀疏分解。反之，则使用算法II进行稀疏分解。

步骤五、语音谱重构：

在训练原子字典后，将所有训练帧分解在语音原子字典上，然后统计各个原子被使用到的次数，累加起来除以语音帧总数作为对应原子的先验概率。对原子之间的转移概率也做相同的统计，建立原子转移矩阵。重构时利用贝叶斯公式，在满足最大后验概率的准则下重构清晰语音帧的频谱。充分考虑原子的先验概率和语音帧之间的时间依赖性，达到重构的目的。

步骤六、加梅尔三角滤波器并取对数：

我们定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m)，m＝0，2，...，M-1，本发明取M＝28。滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的。三角滤波器的频率响应定义为：

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) ork > f (m + 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & f (m - 1) < k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))} & f (m) \leq k \leq f (m + 1) \end{matrix} - - - (6)

对功率谱加梅尔滤波器组：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{a} (k) |}^{2} H_{m} (k)), 0 \leq m < M - - - (7)

步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数：

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (nπ (m - 0.5) / M), 0 \leq n \leq M - - - (8)

计算一阶差分和二阶差分，与梅尔倒谱稀疏拼接在一起，形成鲁棒特征。

Claims

1.基于稀疏分解与重构的鲁棒语音特征提取方法，其特征是它包括具体步骤如下：

步骤二、作离散傅立叶变换，并求功率谱：

步骤四、稀疏分解；

步骤五、语音谱重构；

步骤六、加梅尔三角滤波器并取对数；定义一个有M个滤波器的滤波器组即滤波器的个数和临界带的个数相近，采用的滤波器为三角滤波器，中心频率为f(m)，m=0,2,…,M-1，滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的；三角滤波器的频率响应定义为：

H_{m} (k) = \{\begin{matrix} 0 & k < f (m - 1) ork > f (m + 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & f (m - 1) < k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))} & f (m) \leq k \leq f (m + 1) \end{matrix}

对功率谱加梅尔滤波器组：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X_{a} (k) |}^{2} H_{m} (k)), 0 \leq m < M;

步骤七、经离散余弦变换得到梅尔倒谱系数：

c (n) = Σ_{m = 0}^{M - 1} S (m) \cos (nπ (m - 0.5) / M), 0 \leq n \leq M,

计算一阶差分和二阶差分，与梅尔倒谱稀疏拼接，形成鲁棒特征；

步骤三的具体过程是：在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子；对于噪声原子，考虑动态更新，以追踪时变噪声的影响，提出算法I：

其中：f₁，f₂,……f_T,以功率谱体现；Φ为原子字典，即：具有代表性样本集合，d(f_t,Φ)=min{d_i|d_i=‖f_t-φ_i‖₂}；其中φ_i为目前的Φ中的第i个原子，‖·‖₂为2-范数算子；算法首先对原子字典置空，定义d(f_t,φ)＝0，φ表示空集；从第一帧语音开始，按照距离最小准则逐个加入原子，对于剩余语音帧中与原子字典内原子很相近的语音帧作抛弃处理，否者，加入原子字典；该算法能保证所选取的原子重构出的信号误差最小；在噪声情况下，同样也为各种噪声训练原子字典；并将语音原子字典和噪声原子字典拼在一起，组成一个大的冗余原子字典。

2.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤一的输入的是语音的离散时间信号，预处理时，采用汉明窗：

w (n) = \{\begin{matrix} 0.54 - 0.46 \cos (2 πn / (L - 1)) & 0 \leq n \leq L - 1 \\ 0 \end{matrix}

其中n为时间序号，L为窗长。

3.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤四的具体过程是：对混噪语音帧的稀疏分解，就是混噪语音在冗余字典上的稀疏表示；语音分量被表示在语音原子上，噪声分量被表示在噪声原子上；在重构时，将所有噪声分量上的系数置为0，仅保留语音声量上的非零系数；推导这一原理：

假定有语音原子

和噪声原子

组成原子字典Φ=[Φ^sΦ^v]；混噪语音y=s+v，其中s为清晰语音，v为噪声；混噪语音在冗余字典上的分解为x，即有：

y = Φx = [\begin{matrix} Φ^{s} & Φ^{v} \end{matrix}] [\begin{matrix} x^{s} \\ x^{v} \end{matrix}] = Φ^{s} x^{s} + Φ^{v} x^{v}

其中x^s为混噪语音在清晰语音原子上系数向量，x^v为y在噪声原子上的系数向量；清晰语音

通过如下方式重构：

\hat{s} = Φ^{s} x^{s}

在稀疏分解方面，考虑语音的时域相关性，即相邻帧语音差别较小的特点，提出如下稀疏分解准则：

\min_{X} {| | Y - ΦX | |}_{2}^{2} + rank (S) + rank (V) + {| | Φ_{s} x_{i}^{s} - Φ_{s} x_{i - 1}^{s} | |}_{2}^{2} + {| | Φ_{n} x_{i}^{v} - Φ_{n} x_{i - 1}^{v} | |}_{2}^{2}

其中Y=[y₁,y₂,…,y_T]为混噪语音帧序列，

为各帧语音在语音字典上的稀疏表示，

为各帧混噪语音中噪声在噪声字典上的稀疏表示，

X = [x_{1}, x_{2}, . . ., x_{T}] = [\begin{matrix} S \\ V \end{matrix}],

rank(.)为求秩算子；在语音字典中找到一个原子在噪声字典中也找到一个原子

用于重构混噪语音信号，使得

最小，其中

采用贪心算法：对于待分解语音帧y，按照如下算法进行分解：

算法中bigvalue被设置为一个较大的值作为门限，算法中的“<”定义为向量之间的比较，即左边向量的元素全部大于右边向量对应的元素，含有该符号的行可以丢弃存在频谱分量上的值大于y对应分量值的那些原子，减少运算量；矩阵error用于存储重构误差，find_min_index(error)函数用于寻找error中值最小的元素的下标。

4.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法，其特征在于步骤五的具体过程是：对于步骤三训练的原子字典，统计各个原子被使用到的次数，累加起来除以语音帧总数作为对应原子的先验概率；对原子之间的转移概率也做相同的统计，建立原子转移矩阵；重构时利用贝叶斯公式，在满足最大后验概率的准则下重构清晰语音帧的频谱。