CN105206270A

CN105206270A - 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Info

Publication number: CN105206270A
Application number: CN201510514595.7A
Authority: CN
Inventors: 宋青松; 田正鑫; 安毅生; 赵祥模
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2015-08-20
Filing date: 2015-08-20
Publication date: 2015-12-30
Anticipated expiration: 2035-08-20
Also published as: CN105206270B

Abstract

本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法，首先，采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合，初步抽取孤立数字的语音动态特征；然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理，并统一新得到的特征的维数；进而，采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理；最后，采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合，大大改善了模型的特征表征与分类能力，提高了孤立数字语音识别正确率，为实现孤立数字语音高准确率识别提供了一种高效的解决方案。

Description

一种组合PCA和RBM的孤立数字语音识别分类系统及方法

技术领域

本发明属于语音识别领域，具体涉及一种组合PCA和RBM的孤立数字语音识别分类系统及方法。

背景技术

数字语音识别有着广阔的研究和应用价值，常见方法有很多，比如动态时间规整(DTW)、主成分分析(PCA)、人工神经网络(ANN)方法等。DTW基于动态规划的思想，解决了发音长短不一的模板匹配问题，但是，DTW存在运算量大、识别性能依赖端点检测等不足。PCA可以实现数据的降维，并且能够统一数据维数，但本质上是一种基于最优正交变换的线性降维方法，无法保留原始数据中的非线性特征，对于非线性问题难得到较好的结果。ANN方法特别是Hinton等提出的受限波尔兹曼机(RBM)及其快速学习算法，在模式识别与分类问题中表现出良好的非线性特征降维与特征表征能力，但通常需要适当的特征参数提取等预处理手段配合使用。每种方法有各自的长处，单一种类的方法很难发挥综合优势。

发明内容

本发明的目的在于提供一种组合PCA和RBM的孤立数字语音识别分类系统及方法，以克服上述现有技术存在的缺陷，本发明能够对数字语音信号进行有效降维和特征表征，显著改善了分类识别正确率，为高精度孤立数字语音识别提供了一种高效的解决方案。

为达到上述目的，本发明采用如下技术方案：

一种组合PCA和RBM的孤立数字语音识别分类系统，包括：孤立数字语音输入模块，用于对孤立数字的语音信号进行采样或读取；MFCC与一阶差分MFCC特征提取模块，用于提取语音信号的梅尔频率倒谱系数MFCC与一阶差分MFCC；PCA线性降维模块，用于将MFCC特征参数通过主成分分析PCA进行线性降维，并且使降维后得到的特征维数得到统一；RBM非线性降维模块，采用受限波尔兹曼机RBM对PCA线性降维后得到的特征进行非线性特征降维表征；Softmax分类识别模块，用于对RBM非线性降维模块输出的结果进行分类识别。

进一步地，MFCC与一阶差分MFCC特征提取模块包括：预加重与分帧加窗模块，用于将原始语音信号S₀通过预加重、分帧、加窗处理得到成帧的语音信号S_f；端点检测模块，用于从成帧的语音信号S_f中截取实际有效的语音信号S_e；FFT模块，对每一帧有效地的语音信号S_e进行离散FFT变换得到该帧的频谱，进而对该频谱取模的平方求得该帧的离散功率谱S(n)；梅尔频率滤波器组模块，将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器H_m(n)的MEL滤波器组得到MEL频谱；Log对数能量模块，将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出；DCT求倒谱模块，将对数能量谱经过离散余弦变换到倒谱域即得到MEL频率倒谱系数D_m，m＝0,1…M-1，舍去代表直流成份的D₀，取D₁,D₂…D_g作为MFCC特征参数值，其中M取24，g取12。

一种组合PCA和RBM的孤立数字语音识别分类方法，包括以下步骤：

步骤1：输入孤立数字语音信号；

步骤2：提取孤立数字语音信号的梅尔频率倒谱系数MFCC，然后计算一阶差分倒谱系数，并与梅尔频率倒谱系数MFCC进行组合得到MFCC组合特征参数；

步骤3：采用PCA对MFCC组合参数特征进行线性降维，并且使降维后得到的特征维数得到统一；

步骤4：采用RBM对线性降维后得到的特征进行非线性降维处理；

步骤5：采用Softmax分类器实现孤立数字语音的识别分类。

进一步地，步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取，或以指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。

进一步地，步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC的具体过程为：

步骤2.1：将原始孤立数字语音信号S₀通过预加重、分帧、加窗处理得到成帧的语音信号S_f，其中，预加重处理使用的传递函数为式中，S₀为原始语音信号，u为预加重系数，取0.9375，H(S₀)为预加重后的语音信号；

步骤2.2：采用基于短时能量和短时过零率的端点检测方法，从成帧的语音信号S_f中截取得到实际有效的语音信号帧S_e；

步骤2.3：对每一实际有效的语音信号帧S_e进行离散FFT变换得到其频谱，再对该频谱取模的平方求得离散功率谱S(n)；

步骤2.4：将离散功率谱S(n)通过M个具有三角滤波特性的带通滤波器H_m(n)的MEL滤波器组得到MEL频谱，即计算S(n)和H_m(n)在各离散频率点上的乘积之和，得到M个MEL频谱参数P_m，m＝0,1…M-1；

步骤2.5：将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出，即计算P_m的自然对数，得到对数能量谱L_m，m＝0,1…M-1；

步骤2.6：将对数能量谱L_m经过离散余弦变换到倒谱域即可得到MEL频率倒谱系数D_m，m＝0,1…M-1，舍去代表直流成份的D₀，取D₁,D₂…D_g作为MFCC特征参数值，其中M取24，g取12。

进一步地，步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分MFCC参数，并与MFCC进行组合得到24维的MFCC组合特征参数，其中包括12维MFCC参数和12维MFCC一阶差分参数。

进一步地，步骤3中采用PCA对MFCC组合参数特征进行线性降维，并且使降维后得到的特征维数得到统一的方法为：对语音信号求MFCC特征参数，每一帧得到24维的MFCC组合特征参数，最后该语音信号得到一个N*24的特征参数矩阵，N为语音信号的帧数，将特征参数矩阵进行转置，再与特征参数矩阵相乘，得到24*24的方阵，求其特征值，取前两个最大特征值所对应的特征向量作为该语音信号的特征参数，得到一个48维的特征向量。

进一步地，步骤4中采用RBM对线性降维后得到的特征进行非线性降维处理的方法为：

步骤4.1：构建RBM，RBM由显层、隐层两层构成，层内无连接，层间双向连接，RBM显层神经元个数为48，对应非线性特征向量维数48，隐层神经元个数为10，对应0～9十个数字语音分类，层间连接权重初始化为正态分布，均值为零，标准差0.01的随机数，显层和隐层的偏置均初始化为0；

步骤4.2：训练RBM，训练用样本批量处理，RBM的训练使用对比散度算法，采用高斯-伯努利RBM定义能量函数：

E (v, h; θ) = \frac{1}{2} Σ_{i = 1}^{S} {(v_{i} - b_{i})}^{2} - Σ_{i = 1}^{S} Σ_{j = 1}^{T} v_{i} w_{i j} h_{j} - Σ_{j = 1}^{T} h_{j} a_{j}

式中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，a_i是显层节点i的偏置，b_j是隐层节点j的偏置，w_ij是显层节点i和隐层节点j之间的连接权值，v是显层神经元，S为显层神经元个数，h是隐层神经元，T为隐层神经元个数；

RBM模型的联合概率分布为：

P (v, h; θ) = \frac{\exp (- E (v, h; θ))}{Z}

其中，为配分函数，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元，h是隐层神经元；

RBM模型关于显层神经元节点的边缘概率分布为：

P (v; θ) = \frac{\underset{h}{Σ} \exp (- E (v, h; θ))}{Z}

其中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元，h是隐层神经元；

RBM的模型参数使用最大似然准则通过无监督训练得到，训练的目标函数为：

θ^{*} = \arg \max_{θ} l o g P (v; θ)

其中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元；

对目标函数求偏导，可以得到权值的更新公式为：

Δw_ij＝E_data(v_ih_j)-E_model(v_ih_j)

式中，E_data(v_ih_j)是训练集数据的显层和隐层状态的期望值，E_model(v_ih_j)是对所有可能的(v,h)建立模型的期望值；Δw_ij为权值的改变量；

各参数的更新准则为：

Δw_ij＝mΔw_ij+ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝mΔb_i+ε(<v_i>_data-<v_i>_recon)

Δa_j＝mΔa_j+ε(<h_j>_data-<h_j>_recon)

其中，m是动量参数，在训练迭代前5次，m取0.9，大于第5次，取0.5，ε是学习率，取0.001，<.>_recon表示一步重构后模型定义的分布；

使用重构误差对RBM进行评估，重构误差就是以训练数据作为初始状态，根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异；

步骤4.3：训练完毕后保存RBM的权值和偏置值，训练后的RBM实现线性降维后得到的特征的非线性降维输出。

进一步地，步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为：

步骤5.1：构建Softmax分类器，对于给定的输入x，用假设函数h_δ(x)针对每一个类别s估算出概率值p(y＝s|x)，s∈{0,1,2,……,9}，假设函数h_δ(x)输出一个t维的向量表示这t个估计的概率值，t＝10，假设函数h_δ(x)如下：

h_{δ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}); δ \\ p (y^{(i)} = 2 | x^{(i)}); δ \\ \cdot \\ \cdot \\ \cdot \\ p (y^{(i)} = s | x^{(i)}); δ \end{matrix}] = \frac{1}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}} [\begin{matrix} e^{δ_{1}^{T} x^{(i)}} \\ e^{δ_{2}^{T} x^{(i)}} \\ \cdot \\ \cdot \\ \cdot \\ e^{δ_{s}^{T} x^{(i)}} \end{matrix}]

其中，δ₁,δ₂,...,δ_t是Softmax分类器的全部参数，

δ = [\begin{matrix} δ_{1}^{T} \\ δ_{2}^{T} \\ \cdot \\ \cdot \\ \cdot \\ δ_{s}^{T} \end{matrix}],

x⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出，Softmax分类器将x分为类别s的概率为：

p (y^{(i)} = s | x^{(i)}; δ) = \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}

其中，x⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出；

步骤5.2：Softmax分类器接收RBM的输出作为其输入，输出数字语音信号的分类编号0～9；对于RBM输出的特征x⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝s|x⁽ⁱ⁾；δ)最大的类别s作为该特征对应的类别。

进一步地，RBM预训练完成后，微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重，具体方法为：

1)RBM训练完成后，使用共轭梯度法对网络模型进行微调，在微调开始的前五次，只对Softmax分类器的权值进行调整，从第六次开始对RBM内部的、以及RBM和Softmax之间的连接权重进行调整，微调使用的代价函数为：

J (θ) = - [Σ_{i = 1}^{m} Σ_{j = 1}^{t} 1 {y^{(i)} = s} l o g \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}]

其中，1{y⁽ⁱ⁾＝s}为指示性函数，当括号中的值为真时，该函数结果为1，否则为0，m为语音信号样本数量；

共轭梯度法利用负梯度方向，即

其中，目标函数f(x)是Rⁿ上的连续可微函数；为f(x)在点x_k处的梯度；d^(k)为搜索方向；参数β_k的确定使得d^(k)与d^(k-1)互相共轭；

共轭梯度法的计算步骤如下：

第一步：取任意初始点x⁽⁰⁾∈Rⁿ，令k＝0，精度ε＞0；

第二步：若则x＝x^(k)，方法终止，否则进入第三步；

第三步：由线性搜索确定步长α_k，并令x^(k+1)＝x^(k)+α_kd^(k)；

第四步：由d^(k-1)，其中

β_{k} = β_{k}^{P R P},

令k＝k+1，进入第二步；

2)微调结束后得到RBM模型最终的参数，将RBM的输出作为Softmax分类层的输入，通过Softmax分类器得到最后的识别结果。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供一种组合PCA和RBM的孤立数字语音识别分类方法，具有MFCC特征提取、PCA线性降维、RBM非线性特征表征等方法的综合优势。通过MFCC与一阶差分MFCC特征组合，改善方法的噪声鲁棒性和对语音动态特性的敏感度；通过PCA线性降维，既对求得的MFCC组合参数数据进行压缩，降低语音样本的数据量，又统一了每个语音样本新特征的向量维数；通过RBM非线性特征表征，改善了后端Softmax分类器的分类精度。为高精度识别分类孤立数字语音提供了一种高效的解决方案。

附图说明

图1是本发明的流程示意图；

图2是本发明的受限波尔兹曼机(RBM)结构示意图；

图3是本发明的梅尔频率倒谱系数(MFCC)计算过程示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

参见图1至图3，一种组合PCA和RBM的孤立数字语音识别分类系统，包括孤立数字语音输入模块、MFCC与一阶差分MFCC特征提取模块、PCA线性降维模块、RBM非线性降维模块、Softmax分类识别模块；

孤立数字语音输入模块对孤立数字的语音信号进行采样或读取：采样频率12.5kHz，每个样本进行16bit量化。采样结果以文件的形式保存，供后续的MFCC与一阶差分MFCC特征提取模块使用；

MFCC与一阶差分MFCC特征提取模块提取语音信号的梅尔频率倒谱系数(MFCC)与一阶差分MFCC：首先，对输入的语音样本组合成帧，帧数记为N。然后，每帧提取MFCC和一阶差分MFCC，得到N组24维的组合特征参数，包括N组12维MFCC参数和N组12维MFCC—阶差分参数；

PCA线性降维模块将MFCC特征参数通过主成分分析(PCA)进行线性降维，并且降维后得到的特征的维数得到统一：首先，输入MFCC与一阶差分MFCC特征提取模块生成的N*24的特征参数(N为帧数)；然后，使用PCA对N*24的特征参数进行降维并且统一维度：将特征参数矩阵进行转置，再与原矩阵相乘，得到24*24的方阵；再进一步求24*24的方阵的特征值，取前两个最大特征值所对应的特征向量作为该语音信号的新的特征参数，得到48维的线性降维新特征向量；

RBM非线性降维模块采用受限波尔兹曼机(RBM)对PCA线性降维后得到的48维的特征，进一步进行非线性特征降维表征：首先生成RBM，RBM由显层、隐层两层构成，层内无连接，层间双向连接，如附图2。RBM显层神经元个数为48，对应非线性特征维数48。隐层神经元个数为10，对应0～9十个数字语音分类。层间连接权重初始化为正态分布，均值为零，标准差0.01的随机数，显层和隐含层的偏置均初始化为0；然后训练RBM，训练用样本批量处理，RBM的训练使用对比散度算法，训练完毕后保存RBM的权值和偏置值，训练后的RBM实现语音特征的非线性降维输出；

Softmax分类识别模块对RBM非线性降维模块输出的结果进行分类识别：Softmax分类器接收RBM的输出作为其输入，输出数字语音信号的分类编号0～9，构建Softmax分类器，对于给定的输入x，用假设函数h_δ(x)针对每一个类别s估算出概率值p(y＝s|x)，s∈{0,1,2,……,9}，假设函数h_δ(x)输出一个t维的向量表示这t个估计的概率值，t＝10，假设函数h_δ(x)如下：

h_{δ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}); δ \\ p (y^{(i)} = 2 | x^{(i)}); δ \\ \cdot \\ \cdot \\ \cdot \\ p (y^{(i)} = s | x^{(i)}); δ \end{matrix}] = \frac{1}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}} [\begin{matrix} e^{δ_{1}^{T} x^{(i)}} \\ e^{δ_{2}^{T} x^{(i)}} \\ \cdot \\ \cdot \\ \cdot \\ e^{δ_{s}^{T} x^{(i)}} \end{matrix}]

其中，δ₁,δ₂,...,δ_t是Softmax分类器的全部参数，

δ = [\begin{matrix} δ_{1}^{T} \\ δ_{2}^{T} \\ \cdot \\ \cdot \\ \cdot \\ δ_{s}^{T} \end{matrix}],

p (y^{(i)} = s | x^{(i)}; δ) = \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}

对于RBM输出的特征x⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝s|x⁽ⁱ⁾；δ)最大的类别s作为该特征对应的类别。

1)、首先，输入孤立数字的语音信号。可以读取硬盘上保存的孤立数字语音信号，也可以指定的采样频率和采样精度在线采集待识别的孤立数字语音信号。

2)提取孤立数字语音信号的梅尔频率倒谱系数(MFCC)。MFCC特征参数提取及计算过程如附图3所示，依次通过预加重与分帧加窗、端点检测、快速傅立叶变换(FFT)、梅尔频率滤波器组、Log对数能量、DCT求倒谱等6个子功能模块。

2.1、预加重与分帧加窗模块。原始语音信号S₀依次通过预加重、分帧、加窗处理得到成帧的语音信号S_f。其中预加重处理使用的传递函数为

H (S_{0}) = 1 - {uS}_{0}^{- 1} - - - (1 - 1)

2.2、端点检测模块。采用基于短时能量和短时过零率的端点检测方法，从成帧的语音信号S_f中截取得到实际有效的语音信号帧S_e。

2.3、FFT模块。对每一实际有效的语音信号帧S_e进行离散FFT变换得到其频谱，再对该频谱取模的平方求得离散功率谱S(n)。

2.4、梅尔频率滤波器组模块。将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器H_m(n)的MEL滤波器组得到MEL频谱，即计算S(n)和H_m(n)在各离散频率点上的乘积之和，得到M个参数P_m，m＝0,1,……M-1。

2.5、Log对数能量模块。将得到的MEL频谱取对数能量得到能量谱，再经滤波器输出，即计算P_m的自然对数，得到L_m，m＝0,1,……M-1。

2.6、DCT求倒谱模块。将对数能量谱L_m经过离散余弦变换到倒谱域即可得到D_m，m＝0,1,……M-1，舍去代表直流成份的D₀，取D₁，D₂，……，D_g作为MFCC特征参数值，其中M取24，g取12。

标准MFCC参数只反映语音参数的静态特性，MFCC的差分参数反映的是动态特性，而人耳对语音的动态特性更加敏感，本发明在MFCC的基础上再计算一阶差分倒谱系数反映语音动态的变化，然后与原有MFCC参数进行组合，得到24维的组合特征参数，包括12维MFCC参数和12维MFCC—阶差分参数。

3)、采用PCA对MFCC组合特征进行线性降维并且统一新特征的维数。提取MFCC后得到N*24的特征参数(N为帧数)，此时的特征参数有两点明显的不足：一是每个语音样本提取出来的参数数据，长短不一；二是样本参数数据量较大，有压缩的空间。因此，可以对求得的参数数据进行压缩，降低单个样本的数据量，统一每个样本的数据维度。所以使用PCA对其进行降维并且统一维度。使用的方法是对语音信号求MFCC特征参数，每一帧得到24维的MFCC组合特征参数，最后该语音信号得到一个N*24的特征参数矩阵，N为语音信号的帧数，将特征参数矩阵进行转置，再与特征参数矩阵相乘，得到24*24的方阵，求其特征值，取前两个最大特征值所对应的特征向量作为该语音信号的特征参数，得到一个48维的新特征向量。

4)构建RBM，对48维特征进一步进行非线性降维处理。PCA线性降维得到的48维特征输入RBM，RBM对其进行非线性降维，结果输出到Softmax分类器中。具体地，

4.1、首先生成RBM。RBM由显层、隐层两层构成，层内无连接，层间双向连接，如附图2。RBM显层神经元个数为48，对应非线性特征维数48。隐层神经元个数为10，对应0～9十个数字语音分类。层间连接权重初始化为正态分布，均值为零，标准差0.01的随机数，显层和隐含层的偏置均初始化为0。

4.2、然后训练RBM。训练用样本批量处理，RBM的训练使用对比散度算法。使用高斯-伯努利RBM定义能量函数

E (v, h; θ) = \frac{1}{2} Σ_{i = 1}^{S} {(v_{i} - b_{i})}^{2} - Σ_{i = 1}^{S} Σ_{j = 1}^{T} v_{i} w_{i j} h_{j} - Σ_{j = 1}^{T} h_{j} a_{j} - - - (1 - 2)

式中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，a_i是显层节点i的偏置，b_j是隐层节点j的偏置，w_ij是显层节点i和隐层节点j之间的连接权值，v是显层神经元，S为显层神经元个数，h是隐层神经元，T为隐层神经元个数。当参数确定，可以得到它的联合概率分布：

P (v, h; θ) = \frac{\exp (- E (v, h; θ))}{Z} - - - (1 - 3)

其中称为配分函数，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元，h是隐层神经元。模型关于显层神经元节点的边缘概率分布为

P (v; θ) = \frac{\underset{h}{Σ} \exp (- E (v, h; θ))}{Z} - - - (1 - 4)

RBM的模型参数使用最大似然准则通过无监督训练得到，训练的目标函数为

θ^{*} = \arg \max_{θ} l o g P (v; θ) - - - (1 - 5)

其中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元；

对目标函数求偏导，可以得到权值的更新公式为

Δw_ij＝E_data(v_ih_j)-E_model(v_ih_j)(1-6)

式中E_data(v_ih_j)是训练集数据的显层和隐层状态的期望值，E_model(v_ih_j)是对所有可能的(v,h)建立模型的期望值，Δw_ij为权值的改变量。E_model(v_ih_j)直接计算很困难，实际通过对比散度(ContrastiveDivergence)的算法进行近似计算。

训练开始时显层单元的状态被设置成一个训练样本，仅需要通过K步吉布斯采样获得“重构”的可见单元状态<v_i>_recon，K通常为1。再用<v_i>_recon更新隐层单元状态，得到<h_j>_recon。为克服学习率ε大收敛速度快，但过大可能引起算法不稳定，ε小避免不稳定，但收敛速度慢的矛盾，在更新参数时加入动量项，使参数修改的方向不完全由当前样本下的似然函数梯度方向决定，而是采用上一次参数值修改方向与本次梯度方向的组合。

因此，各参数的更新准则为：

Δw_ij＝mΔw_ij+ε(<v_ih_j>_data-<v_ih_j>_recon)(1-7)

Δb_i＝mΔb_i+ε(<v_i>_data-<v_i>_recon)(1-8)

Δa_j＝mΔa_j+ε(<h_j>_data-<h_j>_recon)(1-9)

使用重构误差对RBM进行评估，重构误差就是以训练数据作为初始状态，根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异。

4.3、训练完毕后保存RBM的权值和偏置值，训练后的RBM实现语音特征的非线性降维输出。

5)、构建Softmax分类器，实现孤立数字语音的识别分类。

5.1、Softmax分类器接收RBM的输出作为其输入，输出数字语音信号的分类编号0～9。

5.2、构建Softmax分类器。对于给定的输入x，用假设函数h_δ(x)针对每一个类别s估算出概率值p(y＝s|x)，s∈{0,1,2,……,9}，假设函数h_δ(x)输出一个t维的向量表示这t个估计的概率值，t＝10，假设函数h_δ(x)如下：

h_{δ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}); δ \\ p (y^{(i)} = 2 | x^{(i)}); δ \\ \cdot \\ \cdot \\ \cdot \\ p (y^{(i)} = s | x^{(i)}); δ \end{matrix}] = \frac{1}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}} [\begin{matrix} e^{δ_{1}^{T} x^{(i)}} \\ e^{δ_{2}^{T} x^{(i)}} \\ \cdot \\ \cdot \\ \cdot \\ e^{δ_{s}^{T} x^{(i)}} \end{matrix}] - - - (1 - 10)

其中，δ₁,δ₂,...,δ_t是Softmax分类器的全部参数，

δ = [\begin{matrix} δ_{1}^{T} \\ δ_{2}^{T} \\ \cdot \\ \cdot \\ \cdot \\ δ_{s}^{T} \end{matrix}],

x⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出，Softmax分类器将x分为类别s的概率为

p (y^{(i)} = s | x^{(i)}; δ) = \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}} - - - (1 - 11)

6)、微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重。

6.1、RBM预训练完成后，使用共轭梯度算法对网络模型进行微调。在微调开始的前五次，只对Softmax分类器的权值进行调整，从第六次开始对RBM内部的、以及RBM和Softmax之间的连接权重进行调整。

微调使用的代价函数为：

J (θ) = - [Σ_{i = 1}^{m} Σ_{j = 1}^{t} 1 {y^{(i)} = s} l o g \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}] - - - (1 - 12)

共轭梯度法利用负梯度方向，即

其中，目标函数f(x)是Rⁿ上的连续可微函数；为f(x)在点x_k处的梯度；d^(k)为搜索方向；参数β_k的确定使得d^(k)与d^(k-1)互相共轭。

共轭梯度法的计算步骤如下：

第一步：取任意初始点x⁽⁰⁾∈Rⁿ，令k＝0，精度ε＞0。

第二步：若则x＝x^(k)，算法终止，否则转第三步。

第三步：由线性搜索确定步长α_k，并令x^(k+1)＝x^(k)+α_kd^(k)。

第四步：由式(1-13)确定d^(k+1)，其中令k＝k+1，转第二步。

6.2、微调结束后得到模型最终的参数，并通过计算得到RBM的输出，将RBM的输出作为Softmax分类层的输入，通过Softmax分类器得到最后的识别结果。

下面结合实施例对本发明做进一步详细说明：

一种组合PCA和RBM的孤立数字语音识别分类方法，如图1所示，包括以下步骤:

1)、首先，孤立数字语音输入。孤立数字语音输入模块读取TI-digits数字语音数据集。数字语音信号的采样频率为12.5kHz，16bit量化。选择3000个样本作为训练集，十个数字各300个样本，选择另外的1000个样本作为测试集，每个数字各100个。

2)、MFCC与一阶差分MFCC特征提取。MFCC与一阶差分MFCC特征提取模块实现MFCC与一阶差分MFCC语音特征提取。预加重使用的传递函数的参数u取0.9375，帧长和帧移分别取256和80，窗函数使用汉明窗。滤波器一组24个，即M取值24。K取12。

3)、PCA线性降维。首先，输入MFCC与一阶差分MFCC特征提取模块生成的N*24的特征参数(N为帧数)。然后，使用PCA对N*24的特征参数进行降维并且统一维度：将特征参数矩阵进行转置，再与原矩阵相乘，得到24*24的方阵。进一步，求24*24的方阵的特征值，取前两个最大特征值所对应的特征向量作为该语音信号的新的特征参数，得到48维的线性降维新特征向量。

4)、RBM线性降维。首先，生成RBM。RBM显层神经元个数为48，对应非线性特征维数48。隐层神经元个数为10，对应0～9十个数字语音分类。RBM层内无连接，层间双向连接。RBM连接权重初始化为正态分布N(0,0.01)的随机数，显层和隐含层的偏置均初始化为0。将TI-digits数字语音数据集训练数据集分成小批量(mini-batch)进行学习，每个批量为50个，学习算法使用对比散度算法。学习率为0.001，最大训练次数为50次，权值代价为0.2，动量项在前五轮是0.5，后面增加至0.9。最后，训练完毕后保存RBM的权值和偏置值，训练后的RBM实现语音特征的非线性降维输出。

5)、Softmax分类识别。首先，构建Softmax分类器。对于给定的输入x，用假设函数h_δ(x)针对每一个类别s估算出概率值p(y＝s|x)，s∈{0,1,2,……,9}，即RBM输出的特征x⁽ⁱ⁾，选择概率p(y⁽ⁱ⁾＝s|x⁽ⁱ⁾；δ)最大的类别s作为该特征对应的类别。

然后，训练调整RBM与Softmax之间的连接权重、以及Softmax分类器参数取值。采用共轭梯度算法，线性搜索步长为3，设置5次调整，完成权值和偏置、以及分类器参数训练。

6)、微调整RBM非线性降维、Softmax分类识别两个模块内部的、以及两个模块之间的连接权重。代价函数定义为J(θ)，代价函数的求解采用共轭梯度法，训练误差小于预先设定的精度则微调整结束，保存RBM、Softmax各自的参数取值、以及RBM与Softmax之间的连接权重值，作为模型参数的最终取值。

7)、测试评价方法的性能。将TI-digits数字语音数据集测试数据集通过孤立数字语音输入模块读入，依次经过MFCC与一阶差分MFCC特征提取、PCA线性降维、RBM线性降维、以及Softmax分类识别等功能模块，得到模型输出的数字语音识别分类结果，采用正确识别率评价方法性能。

实施效果

采用TI-digits数字语音数据库和实验室真人发音分别测试，结果表明，0～9十个数字语音整体上正确识别率达到95.1％，个体识别正确率最差89％，最高为100％正确识别。由于采用MFCC、PCA和RBM组合方法，综合了各方法典型优势，方法能够对数字语音信号进行有效降维和特征表征，显著改善了分类识别正确率，为高精度孤立数字语音识别提供了一种高效的解决方案。

Claims

1.一种组合PCA和RBM的孤立数字语音识别分类系统，其特征在于，包括：孤立数字语音输入模块，用于对孤立数字的语音信号进行采样或读取；MFCC与一阶差分MFCC特征提取模块，用于提取语音信号的梅尔频率倒谱系数MFCC与一阶差分MFCC；PCA线性降维模块，用于将MFCC特征参数通过主成分分析PCA进行线性降维，并且使降维后得到的特征维数得到统一；RBM非线性降维模块，采用受限波尔兹曼机RBM对PCA线性降维后得到的特征进行非线性特征降维表征；Softmax分类识别模块，用于对RBM非线性降维模块输出的结果进行分类识别。

2.根据权利要求1所述的一种组合PCA和RBM的孤立数字语音识别分类系统，其特征在于，MFCC与一阶差分MFCC特征提取模块包括：预加重与分帧加窗模块，用于将原始语音信号S₀通过预加重、分帧、加窗处理得到成帧的语音信号S_f；端点检测模块，用于从成帧的语音信号S_f中截取实际有效的语音信号S_e；FFT模块，对每一帧有效地的语音信号S_e进行离散FFT变换得到该帧的频谱，进而对该频谱取模的平方求得该帧的离散功率谱S(n)；梅尔频率滤波器组模块，将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器H_m(n)的MEL滤波器组得到MEL频谱；Log对数能量模块，将得到的MEL频谱取对数能量得到对数能量谱，再经MEL滤波器组输出；DCT求倒谱模块，将对数能量谱经过离散余弦变换到倒谱域即得到MEL频率倒谱系数D_m，m＝0,1…M-1，舍去代表直流成份的D₀，取D₁,D₂…D_g作为MFCC特征参数值，其中M取24，g取12。

3.一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，包括以下步骤：

步骤1：输入孤立数字语音信号；

步骤5：采用Softmax分类器实现孤立数字语音的识别分类。

4.根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取，或以指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。

5.根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC的具体过程为：

6.根据权利要求5所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分MFCC参数，并与MFCC进行组合得到24维的MFCC组合特征参数，其中包括12维MFCC参数和12维MFCC一阶差分参数。

7.根据权利要求3所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤3中采用PCA对MFCC组合参数特征进行线性降维，并且使降维后得到的特征维数得到统一的方法为：对语音信号求MFCC特征参数，每一帧得到24维的MFCC组合特征参数，最后该语音信号得到一个N*24的特征参数矩阵，N为语音信号的帧数，将特征参数矩阵进行转置，再与特征参数矩阵相乘，得到24*24的方阵，求其特征值，取前两个最大特征值所对应的特征向量作为该语音信号的特征参数，得到一个48维的特征向量。

8.根据权利要求7所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤4中采用RBM对线性降维后得到的特征进行非线性降维处理的方法为：

E (v, h; θ) = \frac{1}{2} Σ_{i = 1}^{S} {(v_{i} - b_{i})}^{2} - Σ_{i = 1}^{S} Σ_{j = 1}^{T} v_{i} w_{i j} h_{j} - Σ_{j = 1}^{T} h_{j} a_{j}

RBM模型的联合概率分布为：

P (v, h; θ) = \frac{\exp (- E (v, h; θ))}{Z}

RBM模型关于显层神经元节点的边缘概率分布为：

P (v; θ) = \frac{\underset{h}{Σ} \exp (- E (v, h; θ))}{Z}

θ^{*} = \arg \max_{θ} l o g P (v; θ)

其中，θ＝{a_i,b_j,w_ij}是RBM的模型参数，v是显层神经元；

对目标函数求偏导，可以得到权值的更新公式为：

Δw_ij＝E_data(v_ih_j)-E_model(v_ih_j)

各参数的更新准则为：

Δw_ij＝mΔw_ij+ε(<v_ih_j>_data-<v_ih_j>_recon)

Δb_i＝mΔb_i+ε(<v_i>_data-<v_i>_recon)

Δa_j＝mΔa_j+ε(<h_j>_data-<h_j>_recon)

9.根据权利要求8所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为：

h_{δ} (x^{(i)}) = [\begin{matrix} p (y^{(i)} = 1 | x^{(i)}); δ \\ p (y^{(i)} = 2 | x^{(i)}); δ \\ \cdot \\ \cdot \\ \cdot \\ p (y^{(i)} = s | x^{(i)}); δ \end{matrix}] = \frac{1}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}} [\begin{matrix} e^{δ_{1}^{T} x^{(i)}} \\ e^{δ_{2}^{T} x^{(i)}} \\ \cdot \\ \cdot \\ \cdot \\ e^{δ_{s}^{T} x^{(i)}} \end{matrix}]

其中，δ₁,δ₂,...,δ_t是Softmax分类器的全部参数，

δ = [\begin{matrix} δ_{1}^{T} \\ δ_{2}^{T} \\ \cdot \\ \cdot \\ \cdot \\ δ_{s}^{T} \end{matrix}],

p (y^{(i)} = s | x^{(i)}; δ) = \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}

其中，x⁽ⁱ⁾为输入，y⁽ⁱ⁾为输出；

10.根据权利要求9所述的一种组合PCA和RBM的孤立数字语音识别分类方法，其特征在于，RBM预训练完成后，微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重，具体方法为：

J (θ) = - [Σ_{i = 1}^{m} Σ_{j = 1}^{t} 1 {y^{(i)} = s} l o g \frac{e^{δ_{s}^{T} x^{(i)}}}{Σ_{l = 1}^{t} e^{δ_{l}^{T} x^{(i)}}}]

共轭梯度法利用负梯度方向，即

共轭梯度法的计算步骤如下：

第一步：取任意初始点x⁽⁰⁾∈Rⁿ，令k＝0，精度ε>0；

第二步：若则x＝x^(k)，方法终止，否则进入第三步；

第四步：由d^(k+1)，其中令k＝k+1，进入第二步；