CN105679321A

CN105679321A - 语音识别方法、装置及终端

Info

Publication number: CN105679321A
Application number: CN201610063803.0A
Authority: CN
Inventors: 黎小松; 傅文治; 胡绩强; 汪平炜
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Shenzhen Yingmu Technology Co ltd
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2016-06-15
Anticipated expiration: 2036-01-29
Also published as: CN105679321B

Abstract

本发明公开了一种语音识别方法、装置及终端，用以提高现有语音识别方式的抗噪性能。所述方法包括：获取一帧语音信号，从所述语音信号中提取d维MFCC参数；对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

Description

语音识别方法、装置及终端

技术领域

本发明涉及电子领域，特别是涉及一种语音识别方法、装置及终端。

背景技术

语音特征提取在语音识别过程中是非常关键的步骤，目前语音识别算法主要是在信号空间对噪声信号进行预处理(比如滤波)，以得到更为纯净的语音信号，但是语音识别在嘈杂环境下识别率仍不理想；因此如何能准确有效地提取出反映语音特征的特征参数是个重要的研究课题；特征参数的鲁棒性和精确性直接影响到语音识别的准确率；同时，特征提取对语音识别系统的实时性也有着很大的影响。

目前，特征参数提取方法主要有基音、共振峰、线性预测编码(LinearPredictiveCoding，LPC)、线性预测倒谱系数(LPCC)和梅尔倒谱系数(Mel-FrequencyCepstralCoefficients，MFCC)等。LPC和LPCC没有考虑到人耳的听觉特性，没有采用非线性的频率变换，不能精确地描述说话人的特征。MFCC参数模拟了人耳对语音不同频谱的感知能力，考虑了人耳的听觉特性，MFCC特征性能较好，计算复杂度低，具有良好的识别性能和鲁棒性；但传统的MFCC特征参数频谱能量泄露严重和描述语音信号的共振峰特性不够，因此传统的基于MFCC特征参数进行语音识别过程冗余性较高，导致低信噪比的语音识别系统鲁棒性较差和识别率下降明显。

发明内容

本发明的目的在于提供一种语音识别方法、装置及终端，用以提高现有语音识别方式的抗噪性能。

根据本发明的一个方面，本发明提供一种语音识别方法，其特征在于，包括：

获取一帧语音信号，从所述语音信号中提取d维MFCC参数；

对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；

根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；

基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：

对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值；

根据d个所述特征补偿值，对d维所述迭代倒谱MFCC参数进行特征补偿；

基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：

对经过特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理；

基于降维处理后的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

其中，C(n)为第n维MFCC参数；C′(n)为第n维倒谱MFCC参数；d为一帧语音信号提取的MFCC参数的维数。

进一步，采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子，C₀′(n+1)为迭代初值。

根据本发明的另一个方面，本发明提供一种语音识别装置，其特征在于，包括：

参数提取模块，用于获取一帧语音信号，从所述语音信号中提取d维MFCC参数；

倒谱模块，用于对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；

迭代模块，用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；

识别模块，用于基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，所述识别模块包括特征补偿单元和识别单元，

所述特征补偿单元，用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值；

所述识别单元，用于基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，所述识别模块还包括降维单元，用于对经过特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理；

所述识别单元，具体用于基于降维处理后的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

进一步，所述倒谱模块采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

其中，C(n)为第n维MFCC参数；C′(n)为第n维倒谱MFCC参数或者为特征补偿的第n维倒谱MFCC参数；d为一帧语音信号提取的MFCC参数的维数。

进一步，所述迭代模块采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子，C₀′(n+1)为迭代初值。

根据本发明的再一个方面，本发明提供一种终端，所述终端包括本发明所述的语音识别装置。

本发明有益效果如下：本发明提高在特征空间进行语音识别的抗噪性能，具体说，通过对传统的MFCC参数通过倒谱计算后进行迭代，获取MFCC参数特征的动态变化轨迹以提高抗噪性能，并在提高抗噪性能的同时也不影响语音识别的实时性能。

附图说明

图1是本发明实施例中一种语音识别方法的流程图；

图2是本发明实施例中扭曲因子与识别率的关系示意图；

图3是本发明实施例中一种语音识别装置的结构示意图。

具体实施方式

为了提高现有语音识别方式的抗噪性能，本发明提供了一种语音识别方法、装置及终端，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

实施例一

本发明实施例提供一种语音识别方法，包括：

S101，获取一帧语音信号，从所述语音信号中提取d维MFCC参数；d的取值范围为正整数，一般情况下d＝24；

S102，对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；

S103，根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；

S104，基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

本发明实施例实现了在特征空间来增强语音识别的抗噪性能，通过对传统的MFCC参数通过倒谱计算后进行迭代，获取MFCC参数特征的动态变化轨迹以提高抗噪性能，并在提高抗噪性能的同时也不影响语音识别的实时性能。

以下详细说明本发明实施例。

一、S101的具体实现：

MFCC以人耳听觉特性为基础：不同的人对不同频率的声音体现出的听觉灵敏度并不相同，但一般情况下，人耳在感知声音的这个过程中，高音较难掩盖低音，但低音则容易掩盖高音。在高频区域的声音掩蔽的临界带宽比低频区域的声音掩蔽的临界带宽大。当频率大小差不多的两个音调于同一时间发出时，由于高音被低音所掩盖，人耳通常只能够听得到低频的那一个音调。所以在语音的识别过程中可以通过滤波器对语音信号进行处理，将各频段划分成不同的语音信号特征。人耳对不同频率的语音响应灵敏度呈对数关系，MFCC参数就是基于这种Mel频率下的特征提取，所以需要对实际的线性频率进行Mel系数频率转换，转换公式如下：

M (f) = 2595 \log_{10} (1 + \frac{f}{700})

由于人耳只能区分具有一定带宽的频率分量，所以MFCC特征提取模仿人类的听觉设计了Mel频率三角带通滤波器来提取特征，每个带通滤波器提取一个参数，一共24个滤波器，所以一帧语音提取24个特征参数。每个滤波器的中间频率可以由如下公式表示：

f (m) = (\frac{N}{F_{s}}) F [M (f_{l}) + m \frac{M (f_{h}) - M (f_{l})}{M + 1}]

F (b) = 700 (e^{\frac{b}{1125}} - 1)

式中：

f_h、f_l分别为滤波器的最高和最低频率，取f_l＝0，f_h＝F(s)，F(s)为最高语音频率；M——滤波器个数M＝24。

每个带通滤波器频率响应函数定义如下：

MFCC特征提取步骤包括：

②256个采样点数为一帧，假设一段语音的帧数为n，则有n*256个数据点。

②对每一帧的语音信号做FFT变换(FastFourierTransformation，快速傅氏变换)，每一帧语音有256个复数形式的数据点。

③对这些复数求功率谱，即将所有复数的实部平方和虚部平方求和得到离散功率谱，一帧语音同样有256个功率谱，但是功率谱两边对称实际上只有129个数据。

④对功率谱进行Mel滤波器计算，滤波器由24*129的矩阵表示，将它们进行叉乘运算得到24*1的运算结果。

⑤对这24个结果取对数log运算得到对数频谱S(m)。

⑥对S(m)进行离散余弦变换最终得到24个(维)MFCC参数。

\begin{matrix} C (n) = Σ_{m = 1}^{M - 1} S (m) c o s (\frac{π n (m + 0.5)}{M}) & 1 \leq n \leq M \end{matrix}

MFCC特征参数考虑到人耳听觉特性，模仿人耳听觉功能进行特征参数提取，但低频部分滤波器密集，高频部分滤波器稀疏，所以在高频部分相邻频带之间的频谱能量相互泄露严重，不利于反映高频语音信号的共振特性的问题，即对语音信号的高频部分共振特性描述不够，从而影响该特征参数的抗噪性能。

二、S102的具体实现：

声音经过声带振动和共振腔滤波后，声音的一部分会得到强化，另一部分出现衰减，造成声音频谱分布不均匀，就像山峰一样，称这种山峰为共振峰。共振峰很好地反应了语音信号的共振特性，是语音信号的频谱中能量相对集中的区域，是音色和音质的重要参数。因此，通过对语音信号的共振峰的提取可以改善特征参数的共振特性。

倒谱可以通过两种方式求取：一种是通过对参数的Z变换的对数模函数进行反Z变换类似LPC求倒谱的方式可以得到倒谱，这种倒谱有利于表示语音信号的共振峰，增强了语音信号的元音描述能力，却使得语音信号的辅音描述能力变差。另外一种是通过离散余弦变换对参数进行加权求取的倒谱，这种倒谱有利于增强参数的抗噪能力和低频语音信号敏感度。其中，Z变换(z-transformation)可将时域信号变换为在复频域的表达式。

本发明实施例通过类似LPC求倒谱的方式，对MFCC参数的Z变换的对数模函数进行反Z变换，这种倒谱方式有利于表示语音信号的共振峰，增强了语音信号的元音描述能力。

本发明实施例优选采用下述公式进行倒谱计算：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

三、S103的具体实现：

在S102中的倒谱计算方式虽然增强了语音信号的元音描述能力，却使得语音信号的辅音描述能力变差；因此本发明实施例S103采用迭代处理方式获取向量的动态变化轨迹来增强特征对辅音的描述；也就是说在对MFCC参数通过倒谱计算后，进行迭代获取特征的动态变化轨迹来减弱倒谱对辅音信号的影响。

其中迭代处理方式可以参照现有的迭代处理方式，也可采用如下优选方式：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子；0.2≤α≤1；C₀′(n+1)为迭代初值，也就是说C₀′(n+1)＝C′(n+1)。本发明实施例中i取值优选与d相同，例如取24。

在本发明实施例中，α值的大小影响识别率，如图2所示，图中横坐标表示α的值，纵坐标代表了识别率百分比。可以看出，当α小于0.2时，识别率87％左右，但随着α值的增加，识别率明显提高；在α＝0.3时已经能够达到92％左右；而当α＝0.451时，识别率达到94.86％左右；在α＝0.75时，识别率达到90％左右。

在本步骤的具体实现过程中，还可以通过对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值；

基于d维特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

也就是说，通过对24个迭代倒谱MFCC参数进行前向一阶差分或二阶差分，得到迭代倒谱MFCC参数的上下波动的特征补偿值，通过特征补偿值对迭代倒谱MFCC参数进行特征补偿；该方式很好地对语音信号的波动特征进行了补偿，进一步解决了频谱泄漏带来的共振特性缺失的问题。

其中，一阶差分、二阶差分的具体实现属于现有技术，在此不再赘述。

为了减少特征参数的冗余信息，本发明实施例优选采用主成分分析舍弃那些表征能力弱和那些增加了语音识别后起反作用的特征分量，选取表征语音特征最有效的部分。这样既为语音识别后续过程减少了计算量，又减少了数据的存储量，同时还对语音特征参数进行了最优化，提高了语音的识别率和识别效率。主成分分析(PrincipalComponentAnalysis，PCA)属于常规技术，就是在原始数据中舍去一些不重要的数据，并且寻找和保留最有效、最重要的数据。

也就是说，对d维特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理，

基于降维的特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。具体说：

主成分分析的步骤如下：

①算输入向量的自相关矩阵R_XX的特征值和特征向量；

②特征向量归一化，将特征值从大到小重新排序；

③将原始输入向量投影到前m个特征值对应的特征向量构成的子空间，得到其中第一个分量具有的方差最大，其次依次减少。

通过主成分分析，能够对语音特征参数模型复杂的数据结构进行分析，保留语音序列中有价值的特征值，筛选贡献较小或者没有贡献的特征值，得到维度降低、数量级大大减小但是语音识别特征信息不减少的特征向量。

S104的具体实现属于常规技术，不再赘述。

实施例二

本发明提供一种语音识别装置，为实施例一的装置实施例，包括：

参数提取模块30，用于获取一帧语音信号，从所述语音信号中提取d维MFCC参数；

倒谱模块32，用于对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；

迭代模块34，用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理，获得d维迭代倒谱MFCC参数；

识别模块36，用于基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

作为本发明实施例的一种优选实施方式，其中，所述识别模块36包括特征补偿单元和识别单元，

所述识别单元，用于基于d维特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

作为本发明实施例的又一种优选实施方式，所述识别模块36还包括降维单元，用于对d维特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理，

所述识别单元，具体用于基于降维的特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别。

其中，所述倒谱模块32采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 0}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

所述迭代模块34采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子，C₀′(n+1)为迭代初值。

实施例三

本发明实施例提供一种终端，所述终端包括实施例二所述的语音识别装置。本发明实施例中的终端具体指代具有语音识别功能的终端，包括手机、平板电脑、PDA(个人数字助理)、笔记本电脑等等。

本发明实施例在具体实现过程中，参阅实施例一和二，具有实施例一和二的技术效果，在此不再赘述。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种语音识别方法，其特征在于，包括：

获取一帧语音信号，从所述语音信号中提取d维MFCC参数；

对d维所述MFCC参数进行倒谱计算，获得d维倒谱MFCC参数；

基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别。

2.如权利要求1所述的方法，其特征在于，基于d维所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：

3.如权利要求2所述的方法，其特征在于，基于经过特征补偿的所述迭代倒谱MFCC参数，对所述语音信号进行识别的步骤，具体包括：

4.如权利要求1-3任意一项所述的方法，其特征在于，采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 1}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 1}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

5.如权利要求1-3任意一项所述的方法，其特征在于，采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子，C₀′(n+1)为迭代初值。

6.一种语音识别装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述识别模块包括特征补偿单元和识别单元，

8.如权利要求7所述的装置，其特征在于，所述识别模块还包括降维单元，用于对经过特征补偿的所述迭代倒谱MFCC参数，采用主成分分析方式进行降维处理；

9.如权利要求6-8任意一项所述的装置，其特征在于，所述倒谱模块采用下述公式进行倒谱计算，获得d维所述倒谱MFCC参数：

C^{'} (n) = \{\begin{matrix} C (n) & n = 0 \\ C (n) + Σ_{k = 1}^{n - 1} {kC}^{'} (n) C (n) / n & 0 < n \leq d \\ Σ_{k = 1}^{n - 1} {kC}^{'} (n) C (n) / n & n > d \end{matrix};

10.如权利要求6-8任意一项所述的装置，其特征在于，所述迭代模块采用下述公式进行迭代处理，获得d维所述迭代倒谱MFCC参数：

C_{i} (n) = \{\begin{matrix} (1 - α^{2}) {C_{0}}^{'} (n + 1) + {αC}_{1}^{'} (n + 1) & i = 1 \\ {C_{i - 1}}^{'} (n + 1) + α ({C_{i}}^{'} (n + 1) - {C_{i - 1}}^{'} (n)) & i > 1 \end{matrix};

其中，i为迭代次数，α为扭曲因子，C₀′(n+1)为迭代初值。

11.一种终端，其特征在于，所述终端包括如权利要求6-10任意一项的语音识别装置。