CN105206270B - 一种组合pca和rbm的孤立数字语音识别分类系统及方法 - Google Patents

一种组合pca和rbm的孤立数字语音识别分类系统及方法 Download PDF

Info

Publication number
CN105206270B
CN105206270B CN201510514595.7A CN201510514595A CN105206270B CN 105206270 B CN105206270 B CN 105206270B CN 201510514595 A CN201510514595 A CN 201510514595A CN 105206270 B CN105206270 B CN 105206270B
Authority
CN
China
Prior art keywords
rbm
mfcc
parameter
voice signal
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510514595.7A
Other languages
English (en)
Other versions
CN105206270A (zh
Inventor
宋青松
田正鑫
安毅生
赵祥模
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN201510514595.7A priority Critical patent/CN105206270B/zh
Publication of CN105206270A publication Critical patent/CN105206270A/zh
Application granted granted Critical
Publication of CN105206270B publication Critical patent/CN105206270B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种组合PCA和RBM的孤立数字语音识别分类系统及方法,首先,采用梅尔频率倒谱系数(MFCC)与一阶差分MFCC相组合,初步抽取孤立数字的语音动态特征;然后采用主成分分析(PCA)对MFCC组合特征作线性降维处理,并统一新得到的特征的维数;进而,采用受限波尔兹曼机(RBM)对所得新特征作非线性降维处理;最后,采用Softmax分类器对非线性降维后的数字语音特征完成识别分类。本发明采用PCA线性降维、统一特征的维数与RBM非线性降维相结合,大大改善了模型的特征表征与分类能力,提高了孤立数字语音识别正确率,为实现孤立数字语音高准确率识别提供了一种高效的解决方案。

Description

一种组合PCA和RBM的孤立数字语音识别分类系统及方法
技术领域
本发明属于语音识别领域,具体涉及一种组合PCA和RBM的孤立数字语音识别分类系统及方法。
背景技术
数字语音识别有着广阔的研究和应用价值,常见方法有很多,比如动态时间规整(DTW)、主成分分析(PCA)、人工神经网络(ANN)方法等。DTW基于动态规划的思想,解决了发音长短不一的模板匹配问题,但是,DTW存在运算量大、识别性能依赖端点检测等不足。PCA可以实现数据的降维,并且能够统一数据维数,但本质上是一种基于最优正交变换的线性降维方法,无法保留原始数据中的非线性特征,对于非线性问题难得到较好的结果。ANN方法特别是Hinton等提出的受限波尔兹曼机(RBM)及其快速学习算法,在模式识别与分类问题中表现出良好的非线性特征降维与特征表征能力,但通常需要适当的特征参数提取等预处理手段配合使用。每种方法有各自的长处,单一种类的方法很难发挥综合优势。
发明内容
本发明的目的在于提供一种组合PCA和RBM的孤立数字语音识别分类系统及方法,以克服上述现有技术存在的缺陷,本发明能够对数字语音信号进行有效降维和特征表征,显著改善了分类识别正确率,为高精度孤立数字语音识别提供了一种高效的解决方案。
为达到上述目的,本发明采用如下技术方案:
一种组合PCA和RBM的孤立数字语音识别分类系统,包括:孤立数字语音输入模块,用于对孤立数字的语音信号进行采样或读取;MFCC与一阶差分MFCC特征提取模块,用于提取语音信号的梅尔频率倒谱系数MFCC与一阶差分MFCC;PCA线性降维模块,用于将MFCC特征参数通过主成分分析PCA进行线性降维,并且使降维后得到的特征维数得到统一;RBM非线性降维模块,采用受限波尔兹曼机RBM对PCA线性降维后得到的特征进行非线性特征降维表征;Softmax分类识别模块,用于对RBM非线性降维模块输出的结果进行分类识别。
进一步地,MFCC与一阶差分MFCC特征提取模块包括:预加重与分帧加窗模块,用于将原始语音信号S0通过预加重、分帧、加窗处理得到成帧的语音信号Sf;端点检测模块,用于从成帧的语音信号Sf中截取实际有效的语音信号Se;FFT模块,对每一帧有效地的语音信号Se进行离散FFT变换得到该帧的频谱,进而对该频谱取模的平方求得该帧的离散功率谱S(n);梅尔频率滤波器组模块,将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱;Log对数能量模块,将得到的MEL频谱取对数能量得到对数能量谱,再经MEL滤波器组输出;DCT求倒谱模块,将对数能量谱经过离散余弦变换到倒谱域即得到MEL频率倒谱系数Dm,m=0,1...M-1,舍去代表直流成份的D0,取D1,D2…Dg作为MFCC特征参数值,其中M取24,g取12。
一种组合PCA和RBM的孤立数字语音识别分类方法,包括以下步骤:
步骤1:输入孤立数字语音信号;
步骤2:提取孤立数字语音信号的梅尔频率倒谱系数MFCC,然后计算一阶差分倒谱系数,并与梅尔频率倒谱系数MFCC进行组合得到MFCC组合特征参数;
步骤3:采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一;
步骤4:采用RBM对线性降维后得到的特征进行非线性降维处理;
步骤5:采用Softmax分类器实现孤立数字语音的识别分类。
进一步地,步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取,或以指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。
进一步地,步骤2中提取孤立数字语音信号的梅尔频率倒谱系数MFCC的具体过程为:
步骤2.1:将原始孤立数字语音信号S0通过预加重、分帧、加窗处理得到成帧的语音信号Sf,其中,预加重处理使用的传递函数为式中,S0为原始语音信号,u为预加重系数,取0.9375,H(S0)为预加重后的语音信号;
步骤2.2:采用基于短时能量和短时过零率的端点检测方法,从成帧的语音信号Sf中截取得到实际有效的语音信号帧Se
步骤2.3:对每一实际有效的语音信号帧Se进行离散FFT变换得到其频谱,再对该频谱取模的平方求得离散功率谱S(n);
步骤2.4:将离散功率谱S(n)通过M个具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个MEL频谱参数Pm,m=0,1…M-1;
步骤2.5:将得到的MEL频谱取对数能量得到对数能量谱,再经MEL滤波器组输出,即计算Pm的自然对数,得到对数能量谱Lm,m=0,1…M-1;
步骤2.6:将对数能量谱Lm经过离散余弦变换到倒谱域即可得到MEL频率倒谱系数Dm,m=0,1…M-1,舍去代表直流成份的D0,取D1,D2…Dg作为MFCC特征参数值,其中M取24,g取12。
进一步地,步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分MFCC参数,并与MFCC进行组合得到24维的MFCC组合特征参数,其中包括12维MFCC参数和12维MFCC一阶差分参数。
进一步地,步骤3中采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一的方法为:对语音信号求MFCC特征参数,每一帧得到24维的MFCC组合特征参数,最后该语音信号得到一个N*24的特征参数矩阵,N为语音信号的帧数,将特征参数矩阵进行转置,再与特征参数矩阵相乘,得到24*24的方阵,求其特征值,取前两个最大特征值所对应的特征向量作为该语音信号的特征参数,得到一个48维的特征向量。
进一步地,步骤4中采用RBM对线性降维后得到的特征进行非线性降维处理的方法为:
步骤4.1:构建RBM,RBM由显层、隐层两层构成,层内无连接,层间双向连接,RBM显层神经元个数为48,对应非线性特征向量维数48,隐层神经元个数为10,对应0~9十个数字语音分类,层间连接权重初始化为正态分布,均值为零,标准差0.01的随机数,显层和隐层的偏置均初始化为0;
步骤4.2:训练RBM,训练用样本批量处理,RBM的训练使用对比散度算法,采用高斯-伯努利RBM定义能量函数:
式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数;
RBM模型的联合概率分布为:
其中,为配分函数,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;
RBM模型关于显层神经元节点的边缘概率分布为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;
RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函数为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;
对目标函数求偏导,可以得到权值的更新公式为:
Δwij=Edata(vihj)-Emodel(vihj)
式中,Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是对所有可能的(v,h)建立模型的期望值;Δwij为权值的改变量;
各参数的更新准则为:
Δwij=mΔwij+ε(<vihj>data-<vihj>recon)
Δbi=mΔbi+ε(<vi>data-<vi>recon)
Δaj=mΔaj+ε(<hj>data-<hj>recon)
其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;
使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异;
步骤4.3:训练完毕后保存RBM的权值和偏置值,训练后的RBM实现线性降维后得到的特征的非线性降维输出。
进一步地,步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为:
步骤5.1:构建Softmax分类器,对于给定的输入x,用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,······,9},假设函数hδ(x)输出一个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:
其中,δ12,...,δt是Softmax分类器的全部参数,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为:
其中,x(i)为输入,y(i)为输出;
步骤5.2:Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类编号0~9;对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对应的类别。
进一步地,RBM预训练完成后,微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重,具体方法为:
1)RBM训练完成后,使用共轭梯度法对网络模型进行微调,在微调开始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对RBM内部的、以及RBM和Softmax之间的连接权重进行调整,微调使用的代价函数为:
其中,1{y(i)=s}为指示性函数,当括号中的值为真时,该函数结果为1,否则为0,m为语音信号样本数量;
共轭梯度法利用负梯度方向,即
其中,目标函数f(x)是Rn上的连续可微函数;为f(x)在点x(k)处的梯度;d(k)为搜索方向;参数βk的确定使得d(k)与d(k-1)互相共轭;
共轭梯度法的计算步骤如下:
第一步:取任意初始点x(0)∈Rn,令k=0,精度ε>0;
第二步:若则x=x(k),方法终止,否则进入第三步;
第三步:由线性搜索确定步长αk,并令x(k+1)=x(k)kd(k)
第四步:由d(k+1),其中令k=k+1,进入第二步;
2)微调结束后得到RBM模型最终的参数,将RBM的输出作为Softmax分类层的输入,通过Softmax分类器得到最后的识别结果。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供一种组合PCA和RBM的孤立数字语音识别分类方法,具有MFCC特征提取、PCA线性降维、RBM非线性特征表征等方法的综合优势。通过MFCC与一阶差分MFCC特征组合,改善方法的噪声鲁棒性和对语音动态特性的敏感度;通过PCA线性降维,既对求得的MFCC组合参数数据进行压缩,降低语音样本的数据量,又统一了每个语音样本新特征的向量维数;通过RBM非线性特征表征,改善了后端Softmax分类器的分类精度。为高精度识别分类孤立数字语音提供了一种高效的解决方案。
附图说明
图1是本发明的流程示意图;
图2是本发明的受限波尔兹曼机(RBM)结构示意图;
图3是本发明的梅尔频率倒谱系数(MFCC)计算过程示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述:
参见图1至图3,一种组合PCA和RBM的孤立数字语音识别分类系统,包括孤立数字语音输入模块、MFCC与一阶差分MFCC特征提取模块、PCA线性降维模块、RBM非线性降维模块、Softmax分类识别模块;
孤立数字语音输入模块对孤立数字的语音信号进行采样或读取:采样频率12.5kHz,每个样本进行16bit量化。采样结果以文件的形式保存,供后续的MFCC与一阶差分MFCC特征提取模块使用;
MFCC与一阶差分MFCC特征提取模块提取语音信号的梅尔频率倒谱系数(MFCC)与一阶差分MFCC:首先,对输入的语音样本组合成帧,帧数记为N。然后,每帧提取MFCC和一阶差分MFCC,得到N组24维的组合特征参数,包括N组12维MFCC参数和N组12维MFCC—阶差分参数;
PCA线性降维模块将MFCC特征参数通过主成分分析(PCA)进行线性降维,并且降维后得到的特征的维数得到统一:首先,输入MFCC与一阶差分MFCC特征提取模块生成的N*24的特征参数(N为帧数);然后,使用PCA对N*24的特征参数进行降维并且统一维度:将特征参数矩阵进行转置,再与原矩阵相乘,得到24*24的方阵;再进一步求24*24的方阵的特征值,取前两个最大特征值所对应的特征向量作为该语音信号的新的特征参数,得到48维的线性降维新特征向量;
RBM非线性降维模块采用受限波尔兹曼机(RBM)对PCA线性降维后得到的48维的特征,进一步进行非线性特征降维表征:首先生成RBM,RBM由显层、隐层两层构成,层内无连接,层间双向连接,如附图2。RBM显层神经元个数为48,对应非线性特征维数48。隐层神经元个数为10,对应0~9十个数字语音分类。层间连接权重初始化为正态分布,均值为零,标准差0.01的随机数,显层和隐含层的偏置均初始化为0;然后训练RBM,训练用样本批量处理,RBM的训练使用对比散度算法,训练完毕后保存RBM的权值和偏置值,训练后的RBM实现语音特征的非线性降维输出;
Softmax分类识别模块对RBM非线性降维模块输出的结果进行分类识别:Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类编号0~9,构建Softmax分类器,对于给定的输入x,用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,······,9},假设函数hδ(x)输出一个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:
其中,δ12,...,δt是Softmax分类器的全部参数,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为:
对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对应的类别。
一种组合PCA和RBM的孤立数字语音识别分类方法,包括以下步骤:
1)、首先,输入孤立数字的语音信号。可以读取硬盘上保存的孤立数字语音信号,也可以指定的采样频率和采样精度在线采集待识别的孤立数字语音信号。
2)提取孤立数字语音信号的梅尔频率倒谱系数(MFCC)。MFCC特征参数提取及计算过程如附图3所示,依次通过预加重与分帧加窗、端点检测、快速傅立叶变换(FFT)、梅尔频率滤波器组、Log对数能量、DCT求倒谱等6个子功能模块。
2.1、预加重与分帧加窗模块。原始语音信号S0依次通过预加重、分帧、加窗处理得到成帧的语音信号Sf。其中预加重处理使用的传递函数为
2.2、端点检测模块。采用基于短时能量和短时过零率的端点检测方法,从成帧的语音信号Sf中截取得到实际有效的语音信号帧Se
2.3、FFT模块。对每一实际有效的语音信号帧Se进行离散FFT变换得到其频谱,再对该频谱取模的平方求得离散功率谱S(n)。
2.4、梅尔频率滤波器组模块。将FFT模块输出的功率谱S(n)通过M个具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm,m=0,1,……M-1。
2.5、Log对数能量模块。将得到的MEL频谱取对数能量得到能量谱,再经滤波器输出,即计算Pm的自然对数,得到Lm,m=0,1,……M-1。
2.6、DCT求倒谱模块。将对数能量谱Lm经过离散余弦变换到倒谱域即可得到Dm,m=0,1,……M-1,舍去代表直流成份的D0,取D1,D2,……,Dg作为MFCC特征参数值,其中M取24,g取12。
标准MFCC参数只反映语音参数的静态特性,MFCC的差分参数反映的是动态特性,而人耳对语音的动态特性更加敏感,本发明在MFCC的基础上再计算一阶差分倒谱系数反映语音动态的变化,然后与原有MFCC参数进行组合,得到24维的组合特征参数,包括12维MFCC参数和12维MFCC—阶差分参数。
3)、采用PCA对MFCC组合特征进行线性降维并且统一新特征的维数。提取MFCC后得到N*24的特征参数(N为帧数),此时的特征参数有两点明显的不足:一是每个语音样本提取出来的参数数据,长短不一;二是样本参数数据量较大,有压缩的空间。因此,可以对求得的参数数据进行压缩,降低单个样本的数据量,统一每个样本的数据维度。所以使用PCA对其进行降维并且统一维度。使用的方法是对语音信号求MFCC特征参数,每一帧得到24维的MFCC组合特征参数,最后该语音信号得到一个N*24的特征参数矩阵,N为语音信号的帧数,将特征参数矩阵进行转置,再与特征参数矩阵相乘,得到24*24的方阵,求其特征值,取前两个最大特征值所对应的特征向量作为该语音信号的特征参数,得到一个48维的新特征向量。
4)构建RBM,对48维特征进一步进行非线性降维处理。PCA线性降维得到的48维特征输入RBM,RBM对其进行非线性降维,结果输出到Softmax分类器中。具体地,
4.1、首先生成RBM。RBM由显层、隐层两层构成,层内无连接,层间双向连接,如附图2。RBM显层神经元个数为48,对应非线性特征维数48。隐层神经元个数为10,对应0~9十个数字语音分类。层间连接权重初始化为正态分布,均值为零,标准差0.01的随机数,显层和隐含层的偏置均初始化为0。
4.2、然后训练RBM。训练用样本批量处理,RBM的训练使用对比散度算法。使用高斯-伯努利RBM定义能量函数
式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数。当参数确定,可以得到它的联合概率分布:
其中称为配分函数,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元。模型关于显层神经元节点的边缘概率分布为
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;
RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函数为
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;
对目标函数求偏导,可以得到权值的更新公式为
Δwij=Edata(vihj)-Emodel(vihj) (1-6)
式中Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是对所有可能的(v,h)建立模型的期望值,Δwij为权值的改变量。Emodel(vihj)直接计算很困难,实际通过对比散度(Contrastive Divergence)的算法进行近似计算。
训练开始时显层单元的状态被设置成一个训练样本,仅需要通过K步吉布斯采样获得“重构”的可见单元状态<vi>recon,K通常为1。再用<vi>recon更新隐层单元状态,得到<hj>recon。为克服学习率ε大收敛速度快,但过大可能引起算法不稳定,ε小避免不稳定,但收敛速度慢的矛盾,在更新参数时加入动量项,使参数修改的方向不完全由当前样本下的似然函数梯度方向决定,而是采用上一次参数值修改方向与本次梯度方向的组合。
因此,各参数的更新准则为:
Δwij=mΔwij+ε(<vihj>data-<vihj>recon) (1-7)
Δbi=mΔbi+ε(<vi>data-<vi>recon) (1-8)
Δaj=mΔaj+ε(<hj>data-<hj>recon) (1-9)
其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;
使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异。
4.3、训练完毕后保存RBM的权值和偏置值,训练后的RBM实现语音特征的非线性降维输出。
5)、构建Softmax分类器,实现孤立数字语音的识别分类。
5.1、Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类编号0~9。
5.2、构建Softmax分类器。对于给定的输入x,用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,······,9},假设函数hδ(x)输出一个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:
其中,δ12,...,δt是Softmax分类器的全部参数,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为
对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对应的类别。
6)、微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重。
6.1、RBM预训练完成后,使用共轭梯度算法对网络模型进行微调。在微调开始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对RBM内部的、以及RBM和Softmax之间的连接权重进行调整。
微调使用的代价函数为:
其中,1{y(i)=s}为指示性函数,当括号中的值为真时,该函数结果为1,否则为0,m为语音信号样本数量;
共轭梯度法利用负梯度方向,即
其中,目标函数f(x)是Rn上的连续可微函数;为f(x)在点x(k)处的梯度;d(k)为搜索方向;参数βk的确定使得d(k)与d(k-1)互相共轭。
共轭梯度法的计算步骤如下:
第一步:取任意初始点x(0)∈Rn,令k=0,精度ε>0。
第二步:若则x=x(k),算法终止,否则转第三步。
第三步:由线性搜索确定步长αk,并令x(k+1)=x(k)kd(k)
第四步:由式(1-13)确定d(k+1),其中令k=k+1,转第二步。
6.2、微调结束后得到模型最终的参数,并通过计算得到RBM的输出,将RBM的输出作为Softmax分类层的输入,通过Softmax分类器得到最后的识别结果。
下面结合实施例对本发明做进一步详细说明:
一种组合PCA和RBM的孤立数字语音识别分类方法,如图1所示,包括以下步骤:
1)、首先,孤立数字语音输入。孤立数字语音输入模块读取TI-digits数字语音数据集。数字语音信号的采样频率为12.5kHz,16bit量化。选择3000个样本作为训练集,十个数字各300个样本,选择另外的1000个样本作为测试集,每个数字各100个。
2)、MFCC与一阶差分MFCC特征提取。MFCC与一阶差分MFCC特征提取模块实现MFCC与一阶差分MFCC语音特征提取。预加重使用的传递函数的参数u取0.9375,帧长和帧移分别取256和80,窗函数使用汉明窗。滤波器一组24个,即M取值24。K取12。
3)、PCA线性降维。首先,输入MFCC与一阶差分MFCC特征提取模块生成的N*24的特征参数(N为帧数)。然后,使用PCA对N*24的特征参数进行降维并且统一维度:将特征参数矩阵进行转置,再与原矩阵相乘,得到24*24的方阵。进一步,求24*24的方阵的特征值,取前两个最大特征值所对应的特征向量作为该语音信号的新的特征参数,得到48维的线性降维新特征向量。
4)、RBM线性降维。首先,生成RBM。RBM显层神经元个数为48,对应非线性特征维数48。隐层神经元个数为10,对应0~9十个数字语音分类。RBM层内无连接,层间双向连接。RBM连接权重初始化为正态分布N(0,0.01)的随机数,显层和隐含层的偏置均初始化为0。将TI-digits数字语音数据集训练数据集分成小批量(mini-batch)进行学习,每个批量为50个,学习算法使用对比散度算法。学习率为0.001,最大训练次数为50次,权值代价为0.2,动量项在前五轮是0.5,后面增加至0.9。最后,训练完毕后保存RBM的权值和偏置值,训练后的RBM实现语音特征的非线性降维输出。
5)、Softmax分类识别。首先,构建Softmax分类器。对于给定的输入x,用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,······,9},即RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对应的类别。
然后,训练调整RBM与Softmax之间的连接权重、以及Softmax分类器参数取值。采用共轭梯度算法,线性搜索步长为3,设置5次调整,完成权值和偏置、以及分类器参数训练。
6)、微调整RBM非线性降维、Softmax分类识别两个模块内部的、以及两个模块之间的连接权重。代价函数定义为J(θ),代价函数的求解采用共轭梯度法,训练误差小于预先设定的精度则微调整结束,保存RBM、Softmax各自的参数取值、以及RBM与Softmax之间的连接权重值,作为模型参数的最终取值。
7)、测试评价方法的性能。将TI-digits数字语音数据集测试数据集通过孤立数字语音输入模块读入,依次经过MFCC与一阶差分MFCC特征提取、PCA线性降维、RBM线性降维、以及Softmax分类识别等功能模块,得到模型输出的数字语音识别分类结果,采用正确识别率评价方法性能。
实施效果
采用TI-digits数字语音数据库和实验室真人发音分别测试,结果表明,0~9十个数字语音整体上正确识别率达到95.1%,个体识别正确率最差89%,最高为100%正确识别。由于采用MFCC、PCA和RBM组合方法,综合了各方法典型优势,方法能够对数字语音信号进行有效降维和特征表征,显著改善了分类识别正确率,为高精度孤立数字语音识别提供了一种高效的解决方案。

Claims (5)

1.一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,包括以下步骤:
步骤1:输入孤立数字语音信号;
步骤2:提取孤立数字语音信号的MEL频率倒谱系数MFCC,然后计算一阶差分倒谱系数,并与MEL频率倒谱系数MFCC进行组合得到MFCC组合特征参数;
其中提取孤立数字语音信号的MEL频率倒谱系数MFCC的具体过程为:
步骤2.1:将原始孤立数字语音信号S0通过预加重、分帧、加窗处理得到成帧的语音信号Sf,其中,预加重处理使用的传递函数为式中,S0为原始语音信号,u为预加重系数,取0.9375,H(S0)为预加重后的语音信号;
步骤2.2:采用基于短时能量和短时过零率的端点检测方法,从成帧的语音信号Sf中截取得到实际有效的语音信号帧Se
步骤2.3:对每一实际有效的语音信号帧Se进行离散FFT变换得到其频谱,再对该频谱取模的平方求得离散功率谱S(n);
步骤2.4:将离散功率谱S(n)通过M个具有三角滤波特性的带通滤波器Hm(n)的MEL滤波器组得到MEL频谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个MEL频谱参数Pm,m=0,1…M-1;
步骤2.5:将得到的MEL频谱取对数能量得到对数能量谱,再经MEL滤波器组输出,即计算Pm的自然对数,得到对数能量谱Lm,m=0,1…M-1;
步骤2.6:将对数能量谱Lm经过离散余弦变换到倒谱域即可得到MEL频率倒谱系数Dm,m=0,1…M-1,舍去代表直流成份的D0,取D1,D2…Dg作为MFCC特征参数值,其中M取24,g取12;
步骤3:采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一;
采用PCA对MFCC组合参数特征进行线性降维,并且使降维后得到的特征维数得到统一的方法为:对语音信号求MFCC特征参数,每一帧得到24维的MFCC组合特征参数,最后该语音信号得到一个N*24的特征参数矩阵,N为语音信号的帧数,将特征参数矩阵进行转置,再与特征参数矩阵相乘,得到24*24的方阵,求其特征值,取前两个最大特征值所对应的特征向量作为该语音信号的特征参数,得到一个48维的特征向量;
步骤4:采用RBM对线性降维后得到的特征进行非线性降维处理;
采用RBM对线性降维后得到的特征进行非线性降维处理的方法为:
步骤4.1:构建RBM,RBM由显层、隐层两层构成,层内无连接,层间双向连接,RBM显层神经元个数为48,对应非线性特征向量维数48,隐层神经元个数为10,对应0~9十个数字语音分类,层间连接权重初始化为正态分布,均值为零,标准差0.01的随机数,显层和隐层的偏置均初始化为0;
步骤4.2:训练RBM,训练用样本批量处理,RBM的训练使用对比散度算法,采用高斯-伯努利RBM定义能量函数:
式中,θ={ai,bj,wij}是RBM的模型参数,ai是显层节点i的偏置,bj是隐层节点j的偏置,wij是显层节点i和隐层节点j之间的连接权值,v是显层神经元,S为显层神经元个数,h是隐层神经元,T为隐层神经元个数;
RBM模型的联合概率分布为:
其中,为配分函数,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;
RBM模型关于显层神经元节点的边缘概率分布为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元,h是隐层神经元;
RBM的模型参数使用最大似然准则通过无监督训练得到,训练的目标函数为:
其中,θ={ai,bj,wij}是RBM的模型参数,v是显层神经元;
对目标函数求偏导,可以得到权值的更新公式为:
Δwij=Edata(vihj)-Emodel(vihj)
式中,Edata(vihj)是训练集数据的显层和隐层状态的期望值,Emodel(vihj)是对所有可能的(v,h)建立模型的期望值;Δwij为权值的改变量;
各参数的更新准则为:
Δwij=mΔwij+ε(<vihj>data-<vihj>recon)
Δbi=mΔbi+ε(<vi>data-<vi>recon)
Δaj=mΔaj+ε(<hj>data-<hj>recon)
其中,m是动量参数,在训练迭代前5次,m取0.9,大于第5次,取0.5,ε是学习率,取0.001,<.>recon表示一步重构后模型定义的分布;
使用重构误差对RBM进行评估,重构误差就是以训练数据作为初始状态,根据RBM的分布进行一次吉布斯采样所获得的样本与原数据的差异;
步骤4.3:训练完毕后保存RBM的权值和偏置值,训练后的RBM实现线性降维后得到的特征的非线性降维输出;
步骤5:采用Softmax分类器实现孤立数字语音的识别分类。
2.根据权利要求1所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,步骤1中所述的孤立数字语音信号从硬盘上保存的孤立数字语音信号中读取,或以指定的采样频率和采样精度从在线待识别的孤立数字语音信号中采集。
3.根据权利要求1所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,步骤2中根据MFCC特征参数值计算一阶差分倒谱系数得到一阶差分MFCC参数,并与MFCC进行组合得到24维的MFCC组合特征参数,其中包括12维MFCC参数和12维MFCC一阶差分参数。
4.根据权利要求1所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,步骤5中采用Softmax分类器实现孤立数字语音的识别分类的方法为:
步骤5.1:构建Softmax分类器,对于给定的输入x,用假设函数hδ(x)针对每一个类别s估算出概率值p(y=s|x),s∈{0,1,2,······,9},假设函数hδ(x)输出一个t维的向量表示这t个估计的概率值,t=10,假设函数hδ(x)如下:
其中,δ12,...,δt是Softmax分类器的全部参数,x(i)为输入,y(i)为输出,Softmax分类器将x分为类别s的概率为:
其中,x(i)为输入,y(i)为输出;
步骤5.2:Softmax分类器接收RBM的输出作为其输入,输出数字语音信号的分类编号0~9;对于RBM输出的特征x(i),选择概率p(y(i)=s|x(i);δ)最大的类别s作为该特征对应的类别。
5.根据权利要求4所述的一种组合PCA和RBM的孤立数字语音识别分类方法,其特征在于,RBM预训练完成后,微调整RBM的连接权重及偏置、以及RBM与Softmax之间的连接权重,具体方法为:
1)RBM训练完成后,使用共轭梯度法对网络模型进行微调,在微调开始的前五次,只对Softmax分类器的权值进行调整,从第六次开始对RBM内部的、以及RBM和Softmax之间的连接权重进行调整,微调使用的代价函数为:
其中,1{y(i)=s}为指示性函数,当括号中的值为真时,该函数结果为1,否则为0,m为语音信号样本数量;
共轭梯度法利用负梯度方向,即
其中,目标函数f(x)是Rn上的连续可微函数;为f(x)在点x(k)处的梯度;d(k)为搜索方向;参数βk的确定使得d(k)与d(k-1)互相共轭;
共轭梯度法的计算步骤如下:
第一步:取任意初始点x(0)∈Rn,令k=0,精度ε>0;
第二步:若则x=x(k),方法终止,否则进入第三步;
第三步:由线性搜索确定步长αk,并令x(k+1)=x(k)kd(k)
第四步:由确定d(k+1),其中令k=k+1,进入第二步;
2)微调结束后得到RBM模型最终的参数,将RBM的输出作为Softmax分类层的输入,通过Softmax分类器得到最后的识别结果。
CN201510514595.7A 2015-08-20 2015-08-20 一种组合pca和rbm的孤立数字语音识别分类系统及方法 Expired - Fee Related CN105206270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510514595.7A CN105206270B (zh) 2015-08-20 2015-08-20 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510514595.7A CN105206270B (zh) 2015-08-20 2015-08-20 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Publications (2)

Publication Number Publication Date
CN105206270A CN105206270A (zh) 2015-12-30
CN105206270B true CN105206270B (zh) 2019-04-02

Family

ID=54953899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510514595.7A Expired - Fee Related CN105206270B (zh) 2015-08-20 2015-08-20 一种组合pca和rbm的孤立数字语音识别分类系统及方法

Country Status (1)

Country Link
CN (1) CN105206270B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895087B (zh) * 2016-03-24 2020-02-07 海信集团有限公司 一种语音识别方法及装置
CN106653001B (zh) * 2016-11-17 2020-03-27 沈晓明 婴儿哭声的辩识方法及其系统
CN106997476B (zh) * 2017-03-01 2020-04-28 西安交通大学 多源无标签数据学习建模的传动系统性能退化评估方法
CN107229914B (zh) * 2017-05-26 2020-07-03 北京工业大学 一种基于深度q学习策略的手写数字识别方法
CN108461091A (zh) * 2018-03-14 2018-08-28 南京邮电大学 面向家居环境的智能哭声检测方法
CN108630209B (zh) * 2018-04-24 2021-05-25 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法
CN108766419B (zh) * 2018-05-04 2020-10-27 华南理工大学 一种基于深度学习的非常态语音区别方法
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN109308484A (zh) * 2018-08-01 2019-02-05 清华大学 航空发动机多类故障最小风险诊断方法及装置
CN111354373B (zh) * 2018-12-21 2023-05-12 中国科学院声学研究所 一种基于神经网络中间层特征滤波的音频信号分类方法
CN110060697A (zh) * 2019-04-14 2019-07-26 湖南检信智能科技有限公司 一种情感特征提取方法
US11200448B2 (en) * 2019-05-15 2021-12-14 RELX Inc. Systems and methods for generating a low-dimensional space representing similarities between patents
CN110231165B (zh) * 2019-05-31 2020-03-31 西安交通大学 一种基于期望差异约束置信网络的机械设备故障诊断方法
CN110211566A (zh) * 2019-06-08 2019-09-06 安徽中医药大学 一种基于压缩感知的肝豆状核变性言语障碍的分类方法
CN111225235B (zh) * 2020-01-16 2020-12-04 北京合众美华教育投资有限公司 一种网络教学视频的播放方法
CN111785303B (zh) * 2020-06-30 2024-04-16 合肥讯飞数码科技有限公司 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN112908303A (zh) * 2021-01-28 2021-06-04 广东优碧胜科技有限公司 音频信号的处理方法、装置以及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100492399C (zh) * 2007-03-15 2009-05-27 上海交通大学 利用降维方法进行人脸姿态估计的方法
US9721561B2 (en) * 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
CN104757992A (zh) * 2015-03-16 2015-07-08 广东工业大学 一种基于深度置信网络的心音诊断系统及其诊断方法

Also Published As

Publication number Publication date
CN105206270A (zh) 2015-12-30

Similar Documents

Publication Publication Date Title
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
Maurya et al. Speaker recognition for Hindi speech signal using MFCC-GMM approach
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN102968990B (zh) 说话人识别方法和系统
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Zhang et al. Noise robust speaker recognition based on adaptive frame weighting in GMM for i-vector extraction
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
Jadhav et al. A Speaker recognition system using Gaussian mixture model, EM algorithm and K-means clustering
Bagul et al. Text independent speaker recognition system using GMM
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
Chee et al. Automatic detection of prolongations and repetitions using LPCC
Kumar et al. Speaker recognition using GMM
Fasounaki et al. CNN-based Text-independent automatic speaker identification using short utterances
Mahesha et al. LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
Goh et al. Robust computer voice recognition using improved MFCC algorithm
Singh et al. Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition
Slívová et al. Isolated word automatic speech recognition system
Chauhan et al. A review of automatic speaker recognition system
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
Devika et al. A fuzzy-GMM classifier for multilingual speaker identification
Hossan et al. Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization
Li et al. Audio similarity detection algorithm based on Siamese LSTM network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190402

Termination date: 20210820