CN104900229A

CN104900229A - 一种语音信号混合特征参数的提取方法

Info

Publication number: CN104900229A
Application number: CN201510274148.9A
Authority: CN
Inventors: 景新幸
Original assignee: Institute of Information Technology of GUET
Current assignee: Institute of Information Technology of GUET
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-09-09

Abstract

本发明提供了一种基于Fisher准则与k-means聚类的语音信号混合特征提取方法，包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程，其特征在所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程；所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分提取过程；所述特征混合过程包括对LPCC参数和MFCC参数以及差分参数利用Fisher准则和k-means混合过程。本发明能够在不增加计算量的情况下提高识别率，而且提高系统鲁棒性和稳健性。

Description

一种语音信号混合特征参数的提取方法

技术领域

本发明涉及语音信号处理领域，具体为一种语音信号混合特征参数的提取方法

背景技术

语音信号是一种十分复杂的非平稳信号，它包含着丰富的个人和语音本身的特征信息，其特征参数的提取对语音识别效果至关重要。特征参数提取是指对不同的语音段寻找其内在特征参数，通常特征参数大致可以分为三类：第一类是时域参数，例如短时平均能量，共振峰，短时平均幅度，短时平均过零率，短时自相关函数，高阶统计量以及基音周期等；第二类是频域参数，例如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、梅尔倒谱系数(MFCC)、线谱对(LSP)、口音敏感参数(ASCC)、感觉加权的线性预测(PLP)特征、动态差分参数、以及基于Gammatone滤波器组的听觉特征(GFCC)等；第三类是基于小波变换或经验模态分解(EMD)的系数。目前，特征参数提取都是将单一的参数提出，例如提取LPCC，MFCC，GFCC等，这些参数要么是基于发声机理的，如LPCC，要么是基于听觉特性的，如MFCC，二者并没有进行混合提取更加全面、完整、高效的混合特征参数。而根据现在语音识别系统对实时性和鲁棒性要求，单一特征参数已经不足以表征整个说话人或者语音本身的信息，导致识别率下降，运行时间加长，其他特征参数提取也存在以上问题，不能很好的提高识别率。

发明内容

本发明旨在解决现有技术中存在的识别率低鲁棒性差的问题。

本发明正是分析发声机理和听觉特性的基础上，关于LPCC与MFCC以及二者差分参数的混合特征参数提取方法，具体为一种语音信号混合特征参数的提取方法。

为了解决语音特征参数单一，表征能力不足，鲁棒性差等问题，本发明提出一种语音信号混合特征参数的提取方法，本方法是将根据发声机理的LPCC特征和根据听觉特性的MFCC特征混合后提取，能够在不增加计算量的情况下提高识别率，而且提高系统鲁棒性和稳健性。

一种语音信号混合特征参数的提取方法，包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程，其中所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程；所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分数提取过程；所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分数进行聚类的过程。

本方法中将LPCC参数和MFCC参数进行差分参数提取的过程及采用Fisher准则进行线性判别过程从而实现将据发声机理的LPCC特征和根据听觉特性的MFCC特征混合后提取，所提取的混合特征参数更加全面完整，更加容易识别，能够更加真实的表征整语音本身的信息，利用k-means聚类降低帧数，能够实现在不增加计算量的情况下提高识别率，且提高系统鲁棒性和稳健性。

进一步的，所述加窗处理过程即是得到加窗后语音s_w(n)的过程，其中s_w(n)＝x(n)·w(n)，式中0≤n≤(N-1)，式中w(n)为加窗函数，且满足函数式

进一步的，所述LPCC参数提取过程包括求取线性预测LPC过程、计算LPCC过程，其中求取线性预测LPC过程是按照声道全极点模型进行求取，式中G表示模型的增益常数，p表示预测LPC的阶数，a_k表示线性预测系数(k＝1,2,…,p)；

计算LPCC时，首先语音信号x(n)的倒谱是对它进行Z变换，然后取对数后，再进行反Z变换，具体变换是首先按照式

\begin{matrix} \hat{x} (z) = \log (| X (z) | \cdot c^{- j \arg X (Z)}) \\ = \log | X (z) | - j \arg X (z) \end{matrix},

把X(z)的相位信息jargX(z)忽略不计，从而得到能得到语音信号x(n)的倒谱：c(n)＝Z^-1(log|X(z)|)，再通过LPC系数a_n得到LPCC参数，具体按照递推公式

\begin{matrix} c_{LP} (0) = α_{1} \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) + α_{n} & (1 \leq n \leq p) \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) & (n > p) \end{matrix}\}

可以得到LPCC参数。

LPCC参数是通过声道模型来建立的一种特征参数，能够反映声道的响应，而且PLCC参数能很好地将语音信号的共振特性表征出来。LPCC参数的是根据语音样本点与前后的样本点有很大的相关性，因此就可以利用过去的样本点值来预测现在的或者未来的一个样本点，也就是说语音信号的抽样值完全可以通过过去的一些语音采样点的进行组合来逼近而得到，当预测的语音信号和实际抽样语音信号间的误差值达到最小值(在某个逼近准则下)时，那么这时对应的唯一一组预测系数就作为语音信号的特征参数。

进一步的，所述MFCC参数提取过程包括如下步骤

S41：把经过预处理后的语音信号进行FFT变换得到其频谱X[k]，变换公式为：

X [k] = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 πnk}{N}}, 0 \leq k \leq N - 1;

S42：求频谱的平方得到短时能量谱S(k)，具体计算公式为

S (k) = {| X (k) |}^{2} = {| Σ_{n = 0}^{N - 1} x (n) e^{- j \frac{2 πnk}{N}} |}^{2}, 0 \leq k \leq N - 1;

S43：用Mel滤波器把幅度谱转化为Mel频率谱，具体计算公式为

S44：对所述Mel频率谱进行对数变换，变换公式为

X^{'} (m) = \ln (Σ_{k = o}^{N - 1} {| x (k) |}^{2} . H (k, m));

S45：将对数变换后的Mel频率谱进行离散余弦变换(DCT)即得到MFCC，变换公式为

mfcc (r) = Σ_{m = 1}^{M} X (m) \cos (\frac{π}{M} (n + 0.5) r), r = 1,2, . . ., M .

进一步的，所述对LPCC参数和MFCC参数进行差分参数d_k提取的过程包括一阶差分参数提取和二阶差分参数提取，其中差分参数d_k提取满足公式：

d_{k} = \{\begin{matrix} c_{k + 1} - c_{k} \\ c_{k} - c_{k + 1} \\ \frac{Σ_{ϵ = 1}^{t} ϵ (c_{k + ϵ} - c_{k - ϵ})}{2 Σ_{ϵ = 1}^{t} ϵ^{2}} \end{matrix},

式中d_k表示第k个一阶差分参数，t为一阶导数时间差，通常取1或2，c_k表示第k个倒谱系数，其中取k＝2，d为差分参数，c为四个语音参数，用d_k公式将迭代两次，即可得到MFCC的二阶差分参数。

进一步的，所述Fisher准则为利用评价函数对特征参数进行选择，假设n维特征X在一条直线上投影，则寻找一条投影直线，使得类间距离最大，具体为：首先对于两个类w₀和w₁，假设各类的特征是二维分布，将它们在直线Y₁和Y₂上投影，特征向量X的线性组合y表示为y＝Y^TX，属于w_i的特征向量X的平均值u_i表示为其中n_i表示属于w_i类特征向量X的个数，那么特征向量X的线性组合y的平均值m_i则表示为特征向量X的线性组合y的类内方差σ_i ²表示为然后用Fisher评价函数来描述区分度，具体计算采用公式F_Fisher＝σ_between/σ_within，式中F_Fisher称为特征参量的Fisher比，σ_within是特征参量对应各个类的类内散度(方差)之和，σ_between是特征参量的类间散度，其中

σ_{within} = Σ_{i = 1}^{c} [\frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} {(c_{k}^{(j)} - m_{k}^{(j)})}^{2}], σ_{between} = Σ_{i = 1}^{c} {(m_{k}^{(j)} - m_{k})}^{2},

其式中m_k表示c_k对所有样本的均值。

进一步的，所述采用K-means算法对LPCC参数和MFCC参数进行混合的过程具体为首先假设X包含k个聚类子集X₁,X₂,…,X_k，各个聚类子集中的样本数分别为n₁,n₂,…,n_k，各个聚类子集的聚类中心分别为m₁,m₂,…,m_k，误差平方和准则函数为则K-means算法按以下步骤：

S71：为每一个聚类确定一个初始聚类中心，这样就有k个初试聚类中心；

S72：将样本几种的样本按照最小距离原则分配到最邻近聚类；

S73：使用每一个聚类中的样本均值作为新的聚类中心；

S74：重复步骤S72和S73，直到聚类中心不再变化并得到k个聚类。

进一步，所述的语音信号混合特征参数的提取方法采用交叠分段法来分帧，其中语音帧长为30ms，帧移为10ms。

通过本发明中提出的语音信号混合特征提取方法，采取先是用Fisher准则选择LPCC和MFCC以及二者差分参数中的有效成分，然后利用k-means聚类降低帧数，能够实现在不增加计算量的情况下提高识别率，且提高系统鲁棒性和稳健性。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中语音信号混合特征提取方法流程示意图；

图2为本发明中“对子女恩情似海”测试语音图；

图3为本发明中LPCC与一阶差分LPCC参数效果图；

图4为本发明中Mel频率f_mel与实际频率f的对应图；

图5为本发明中MFCC提取流程示意图；

图6为本发明中Mel滤波器组频率效果图；

图7为本发明中MFCC与一阶差分MFCC参数效果图

图8为本发明中二类聚类情况示意图。

图9为本发明中LPCC和MFCC参数Fisher比效果图；

图10为本发明中k-means聚类结果图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1-10对本发明实施例的语音信号混合特征的参数提取方法做进一步的描述。

如图1所示，一种语音信号混合特征的参数提取方法，包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程，其中所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程；所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分数提取过程；所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分数进行聚类的过程。

如图2所示测试语音的信号x(n)，由于语音信号易受声门激励和口鼻辐射的影响，在800Hz以上的频率成份会出现6dB/倍频程的衰减，因此需要通过预加重的方法来提升高频部分能量，借机弥补高频损失，本实施例采用一阶高通滤波器1-0.9375Z^-1来实现预加重；语音信号本身是一种实时的、随时间和周边环境不断变化的非平稳信号，但人在发音时发声器官的运动具有一定的惯性，可以认为短时间内发声器官的状态是不变的，即语音信号具有短时平稳特征，因此大部分语音信号处理都是在基于短时平稳特性基础上对语音信号进行分帧，每帧的长度相同且在10ms至30ms之间，另外为了保证特征信息不丢失，本实施例在MATLAB实验中选取语音帧长为256点，帧移为128点。

关于加窗处理，一般采用有限长度的窗函数来截取语音信号形成分帧，窗函数w(n)将需要处理的区域之外的样本点全部置零即可获得当前语音帧，设帧长为N，对已获得的一帧信号进行加窗处理，即用确定的窗函数w(n)来乘以语音信号x(n)，如公式(1)得到加窗后的语音s_w(n)，

s_w(n)＝x(n)·w(n)，0≤n≤(N-1) (1)

其中窗函数(汉明窗)的满足函数公式(2)，

端点检测是指用信号处理技术把需要的语音信号从静音和噪声中区分出来，准确的找出有效语音信号的起点和终点，从而只存储和处理有效语音信号。本实施例采用基于短时能量和短时过零率相结合的双门限检测方法，双门限端点检测是由短时能量检测和短时平均过零率检测组成的两级检测，根据检测过程可知，在检测前要对短时能量和短时过零率分别设置高低两个门限，即：E_High、E_Low和Z_High、Z_Low，通常每一句完整的语音都包括：静音段、过度段、语音段、结束段，对多次实验结果分析后，本实施例所用的E_High、E_Low、Z_High、Z_Low的取值分别调整为如式(3)所示：

E_High＝max([min(amp)*10,mean(amp)*0.2,max(amp)*0.1])；

Z_High＝max([round(max(zcr)*0.1,5)])； (3)。

E_Low＝min([min(amp)*10,mean(amp)*0.2,mean(amp)*0.1])；

Z_Low＝max([round(mean(zcr)*0.1),3])；

LPCC能够很好的反映发声机理，它是根据语音前后样本点的相关性，通过过去的样本点值来预测现在或者未来的样本点的参数，也就是说语音信号的抽样值完全可以通过过去的一些语音采样点值进行逼近而得到。当预测的语音信号和实际抽样语音信号间的误差值达到最小值(在某个逼近准则下)时，那么这时对应的唯一一组预测系数就作为语音信号的特征参数。LPCC参数提取包括求取线性预测LPC过程、计算LPCC过程，详细过程如下：

求取线性预测LPC时，按照声道全极点模型表示如公式(4)：

H (z) = \frac{G}{1 - Σ_{k = 1}^{p} a_{k} z^{- k}} = \frac{G}{A (z)} - - - (4)

式中G表示模型的增益常数，p表示预测LPC的阶数，a_k表示线性预测系数(k＝1,2,…,p)，求取a_k的方法有很多，可以使用协方差法和自相关法等方法；

计算计算LPCC时，首先语音信号x(n)的倒谱是对它进行Z变换，然后取对数后，再进行反Z变换，由式(5)表示

\begin{matrix} \hat{x} (z) = \log (| X (z) | \cdot c^{- j \arg X (Z)}) \\ = \log | X (z) | - j \arg X (z) \end{matrix} - - - (5)

把X(z)的相位信息忽略不计，即忽略掉上式后面的一项，从而能得到如公式(6)所示的语音信号x(n)的倒谱：

c(n)＝Z^-1(log|X(z)|) (6)

通过LPC系数a_n便可以得到LPCC参数，具体按照递推公式(7)就可以得到LPCC参数：

\begin{matrix} c_{LP} (0) = α_{1} \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) + α_{n} & (1 \leq n \leq p) \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) & (n > p) \end{matrix}\} - - - (7) .

MFCC参数充分模拟了人耳的听觉特性，实验表明，在相同噪声的环境下，MFCC特征参数比LPCC特征参数具有更强的鲁棒性，且在提升语音识别系统的识别率方面比LPCC参数更有优势。在Mel滤波器组中，梅尓频率以及线性频率的存在着对应关系，如图4所示，其对应关系的表达式如公式(8)

f_{mel} = \{\begin{matrix} f_{Hz}, & f_{Hz} \leq 1000 Hz \\ 2595 \lg (1 + \frac{f_{Hz}}{700}), & f_{Hz} > 1000 Hz \end{matrix} - - - (8)

梅尔频率倒谱系数是语音能量在Mel刻度上的表示。

MFCC参数提取过程如图5所示，具体包括如下步骤

S41：把经过预处理后的语音信号进行FFT变换得到其频谱X[k]，具体变换按照公式(9)

X [k] = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 πnk}{N}}, 0 \leq k \leq N - 1 - - - (9)

S42：求频谱的平方得到短时能量谱S(k)，具体计算按照公式(10)；

S (k) = {| X (k) |}^{2} = {| Σ_{n = 0}^{N - 1} x (n) e^{- j \frac{2 πnk}{N}} |}^{2}, 0 \leq k \leq N - 1 - - - (10)

S43：用Mel滤波器把幅度谱转化为Mel频率谱，具体转化如公式(11)转化结果如图6所示；

S44：对所述Mel频率谱进行对数变换，具体变换如公式(12)；

X^{'} (m) = \ln (Σ_{k = o}^{N - 1} {| x (k) |}^{2} . H (k, m)) - - - (12)

S45：将对数变换后的Mel频率谱进行离散余弦变换(DCT)即得到MFCC，具体变换如公式(13)

mfcc (r) = Σ_{m = 1}^{M} X (m) \cos (\frac{π}{M} (n + 0.5) r), r = 1,2, . . ., M - - - (13) .

通过以上计算步骤得到的MFCC参数特征为静态参数，它可以很好的反映语音的静态特性，但是并没有充分利用语音的动态特征，因此可以在变换域特征参数中加入MFCC的一阶差分参数，更好的描述语音信号的时变特性。

关于差分参数提取过程，通常LPCC和MFCC参数仅仅反映了语音信号参数的静态特性，由于人耳对语音静态特性感知不灵敏，为了解决困难，因而通过增加动态特性差分参数d_k来提高感知灵敏度。分别对所求出的LPCC参数和MFCC参数做以下运算，可求得一阶差分参数和二阶差分参数，差分参数d_k的计算公式采用公式(14)：

d_{k} = \{\begin{matrix} c_{k + 1} - c_{k} \\ c_{k} - c_{k + 1} \\ \frac{Σ_{ϵ = 1}^{t} ϵ (c_{k + ϵ} - c_{k - ϵ})}{2 Σ_{ϵ = 1}^{t} ϵ^{2}} \end{matrix} - - - (14)

式中d_k表示第k个一阶差分参数，t为一阶导数时间差，通常取1或2，c_k表示第k个倒谱系数，其中取k＝2，d为差分参数，c为四个语音参数，用公式(14)迭代两次，就可得到LPCC参数或者MFCC参数的二阶差分参数，LPCC与一阶差分LPCC参数效果如图3所示，MFCC与一阶差分MFCC参数效果如图7所示。

关于所述Fisher准则，是Fisher线性判别过程，在模式识别中，可以利用评价函数对特征参数进行选择，假设n维特征X在一条直线上投影，应寻找一条投影直线，使得类间距离最大，如图8所示，对于两个类w₀和w₁，假设各类的特征是二维分布，如图8中A、B部分，将它们在直线Y₁和Y₂上投影，特征向量X的线性组合y用式(15)表示为：

y＝Y^TX (15)

当||Y||＝1时，则y就是X在Y方向直线上的投影，图8中，A是X属于w₀的分布，B是X属于w₁的分布；C表示Y₁ ^TX，X属于w₁的分布；D表示Y₁ ^TX，X属于w₀的分布；E表示Y₂ ^TX，X属于w₀的分布；F表示Y₂ ^TX，X属于w₁的分布，那么属于w_i的特征向量X的平均值u_i用式(16)表示，其中n_i表示属于w_i类X的个数：

u_{i} = \frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} X - - - (16)

根据式(16)可以得到特征向量X的线性组合y的平均值m_i和特征向量X的线性组合y的类内方差σ_i ²，具体的m_i满足式(17)，类内方差σ_i ²满足式(18)

m_{i} = \frac{1}{n_{i}} \underset{X &Element; w_{i}}{Σ} Y^{T} X = Y^{T} u_{i} - - - (17)

{σ_{i}}^{2} = \frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} {(y - m_{i})}^{2} - - - (18)

为了使w₀与w₁能进行有效的识别，需要两类的特征区分度很大，因此需要用Fisher评价函数J(Y)来描述区分度，J(Y)满足式(19)

J (Y) = \frac{{| m_{0} - m_{1} |}^{2}}{{σ_{0}}^{2} + {σ_{1}}^{2}} - - - (19)

从式(19)可知，J(Y)取得最大值，可得最佳两类分离效果，具体的计算公式如下则满足式(20)

F_Fisher＝σ_between/σ_within (20)

在式(20)中F_Fisher被称为特征参量的Fisher比，Fisher比越大类别区分度越好，σ_within是特征参量对应各个类的类内散度(方差)之和，满足式(21)

σ_{within} = Σ_{i = 1}^{c} [\frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} {(c_{k}^{(j)} - m_{k}^{(j)})}^{2}] - - - (21)

在共有c个类w_i，表示c_k在第i类上的均值，当1≤i≤c时且各个类的样本数为n_i，可得第k个参量类内散度σ_within，特征参量的类间散度是σ_between满足式(22)

σ_{between} = Σ_{i = 1}^{c} {(m_{k}^{(j)} - m_{k})}^{2} - - - (22)

其中m_k表示c_k对所有样本的均值。LPCC和MFCC参数Fisher比效果如图9所示。

关于采用K-means算法对LPCC参数和MFCC参数进行混合，k-means算法也被称为k-平均算法，是一种得到最广泛使用的聚类算法，它是将各个聚类子集内的所有数据样本均值作为该聚类的代表点，算法的主要思想是用迭代方法将数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优即误差平方和准则函数达到最优，从而使生成的每一个聚类(又成簇)内紧凑，类间独立。K-means聚类算法使用误差平方和准则来评价聚类性能，给定数据集X，其中仅包含描述属性，不包含类别属性，假设X包含k个聚类子集X₁,X₂,…,X_k，各个聚类子集中的样本数分别为n₁,n₂,…,n_k，各个聚类子集的聚类中心分别为m₁,m₂,…,m_k，误差平方和准则函数如式(23)

E = Σ_{i = 1}^{k} \underset{p &Element; X_{i}}{Σ} {| | p - m_{i} | |}^{2} - - - (23)

那么K-means算法按以下步骤：

S73：使用每一个聚类中的样本均值作为新的聚类中心；

k-means聚类结果如图10所示。

根据本发明的一个具体实施例，所述语音信号混合特征参数的提取方法包括采用交叠分段法来分帧，其中语音帧长为30ms，帧移为10ms。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的MFCC、MFCC参数、MFCC特征参数可以是同一意思的不同表达，LPCC、LPCC参数、LPCC特征参数也可以是同一意思的不同表达，在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的创造性精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信号混合特征参数的提取方法，包括对语音信号x(n)预处理过程、特征提取过程、特征混合过程，其特征在于

所述语音信号x(n)预处理过程包括对语音信号x(n)进行预加重、分帧、加窗和端点检测处理过程；

所述语音信号x(n)特征提取过程包括LPCC参数提取过程和MFCC参数提取过程以及LPCC差分参数和MFCC差分参数提取过程；

所述特征混合过程包括采用Fisher准则和K-means算法对LPCC参数和MFCC参数以及LPCC差分参数和MFCC差分参数进行混合的过程。

2.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于所述加窗处理过程即是得到加窗后语音s_w(n)的过程，其中s_w(n)＝x(n)·w(n)，式中0≤n≤(N-1),式中w(n)为加窗函数，且满足函数式

3.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于所述LPCC参数提取过程包括求取线性预测LPC过程、计算LPCC过程，其中

求取线性预测LPC过程是按照声道全极点模型进行求取，式中G表示模型的增益常数，p表示预测LPC的阶数，a_k表示线性预测系数(k＝1,2,...,p)；

\begin{matrix} \hat{x} (z) = \log (| X (z) | \cdot c^{- j \arg X (z)}) \\ = \log | X (z) | - j \arg X (z) \end{matrix},

\begin{matrix} c_{LP} (0) = α_{1} \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) + α_{n} & (1 \leq n \leq p) \\ c_{LP} (n) = Σ_{k = 1}^{n - 1} \frac{k}{n} α_{n - k} c_{LP} (k) & (n > p) \end{matrix}\}

可以得到LPCC参数。

4.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于所述MFCC参数提取过程包括如下步骤

S41：把经过预处理后的语音信号进行FFT变换得到其频谱X[k]：，变换公式为

X [k] = Σ_{n = 0}^{N - 1} x [n] e^{- j \frac{2 πnk}{N}}, 0 \leq k \leq N - 1;

S42：求频谱的平方得到短时能量谱S(k)，具体计算公式为

S (k) = {| X (k) |}^{2} = {| Σ_{n = 0}^{N - 1} x (n) e^{- j \frac{2 πnk}{N}} |}^{2}, 0 \leq k \leq N - 1;

S43：用Mel滤波器把幅度谱转化为Mel频率谱，具体计算公式为

S44：对所述Mel频率谱进行对数变换，变换公式为

X^{'} (m) = \ln (Σ_{k = o}^{N - 1} {| x (k) |}^{2} \cdot H (k, m));

mfcc (r) = Σ_{m = 1}^{M} X (m) \cos (\frac{π}{M} (n + 0.5) r), r = 1,2, . . ., M .

5.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于对LPCC参数和MFCC参数进行差分参数d_k提取的过程包括一阶差分参数提取和二阶差分参数提取，其中差分参数d_k提取满足公式：

d_{k} = \{\begin{matrix} c_{k + 1} - c_{k} \\ c_{k} - c_{k + 1} \\ \frac{Σ_{ϵ = 1}^{t} ϵ (c_{k + ϵ} - c_{k - ϵ})}{2 Σ_{ϵ = 1}^{t} ϵ^{2}} \end{matrix},

6.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于所述Fisher准则为利用评价函数对特征参数进行选择，假设n维特征X在一条直线上投影，则寻找一条投影直线，使得类间距离最大，具体为：

首先对于两个类w₀和w₁，假设各类的特征是二维分布，将它们在直线Y₁和Y₂上投影，特征向量X的线性组合y表示为y＝Y^TX，属于w_i的特征向量X的平均值u_i表示为其中n_i表示属于w_i类特征向量X的个数，那么特征向量X的线性组合y的平均值m_i则表示为特征向量X的线性组合y的类内方差σ_i ²表示为

{σ_{i}}^{2} = \frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} {(y - m_{i})}^{2};

然后用Fisher评价函数来描述区分度，具体计算采用公式F_Fisher＝σ_between/σ_within，式中F_Fisher称为特征参量的Fisher比，σ_within是特征参量对应各个类的类内散度(方差)之和，σ_between是特征参量的类间散度，其中

σ_{within} = Σ_{i = 1}^{c} [\frac{1}{n_{i}} \underset{X &Element; W_{i}}{Σ} {(c_{k}^{(j)} - m_{k}^{(j)})}^{2}], σ_{between} = Σ_{i = 1}^{c} {(m_{k}^{(j)} - m_{k})}^{2},

其式中m_k表示c_k对所有样本的均值。

7.根据权利要求1所述的语音信号混合特征参数的提取方法，其特征在于所述采用K-means算法对LPCC参数和MFCC参数进行混合的过程具体为

首先假设X包含k个聚类子集X₁,X₂,…,X_k，各个聚类子集中的样本数分别为n₁,n₂,…,n_k，各个聚类子集的聚类中心分别为m₁,m₂,…,m_k，误差平方和准则函数为则K-means算法按以下步骤：

S71:为每一个聚类确定一个初始聚类中心，这样就有k个初试聚类中心；

S72:将样本几种的样本按照最小距离原则分配到最邻近聚类；

S73使用每一个聚类中的样本均值作为新的聚类中心；

S74:重复步骤S72和S73，直到聚类中心不再变化并得到k个聚类。

8.根据权利要求1至7任一所述的语音信号混合特征参数的提取方法，其特征在于采用交叠分段法来分帧，其中语音帧长为30ms，帧移为10ms。