CN101188107B - 一种基于小波包分解及混合高斯模型估计的语音识别方法 - Google Patents
一种基于小波包分解及混合高斯模型估计的语音识别方法 Download PDFInfo
- Publication number
- CN101188107B CN101188107B CN2007100612402A CN200710061240A CN101188107B CN 101188107 B CN101188107 B CN 101188107B CN 2007100612402 A CN2007100612402 A CN 2007100612402A CN 200710061240 A CN200710061240 A CN 200710061240A CN 101188107 B CN101188107 B CN 101188107B
- Authority
- CN
- China
- Prior art keywords
- frequency range
- sample
- class
- subclass
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
一种基于小波包分解及混合高斯模型估计的语音识别方法。包括:对已知语音训练样本进行预处理,得到标准化特征向量;对特征向量进行小波包分解,得到在各个频段上的分解值;按照类别、频段将训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;在各个频段上构造高斯模型集;计算频段之间的前向转移概率矩阵和后向转移概率矩阵;导入所有训练样本的高斯模型集,计算测试样本的分布概率及其估计值,判断测试样本的类别。本发明给出了任意类别样本准确的系列二维空间簇(各个频段)能量的分布图,所有的训练和识别运算都是在二维空间上进行,无论是用加噪的还是未加噪语音样本训练,识别效果均好于经典HMM方法。
Description
【技术领域】:本发明涉及语音识别技术领域,特别是指一种基于小波包分解及混合高斯模型的语音识别方法。
【背景技术】:一个典型的语音识别系统通常包括如下过程:信号预处理、特征参数提取、建立模式库、模式匹配、后处理等。其中特征参数提取和建模是语音识别的两个关键性问题。当前最常用的两种特征参数是线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)和Melp频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),而最主要的识别方法是隐马尔可夫模型(Hidden Markov Model,HMM)。
LPCC是指将线性预测系数经倒谱变换后得到的参数。它从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC[1-8]。这种模型能用极少的参数表现语音的波形和频谱特性,达到很好的降维效果,同时具有很高的计算率,因此有着广泛的应用。LPC模型是基于发音模型建立的,是纯数学模型,并没有充分利用人耳的听觉特性。事实上,人耳的听觉特性是一个特殊的非线性系统,对不同频率信号的灵敏度响应不同,基本上是一个对数关系。MFCC参数充分模拟了人的听觉特性,而且没有任何前提假设,因此具有识别性能高和抗噪能力强等特点。MFCC参数将线性频标转换为Mel频标,强调语音的低频信息,从而突出了对识别有利的信息。这是因为语音信息大多数集中在低频部分,高频部分易受噪声的影响。但是LPCC参数是基于线性频标的,因此没有这一特性。MFCC参数提取过程中需要FFT变换,可以获得语音信号的频域信息,有利于语音的端点检测等。但相较于LPCC,MFCC的提取复杂,并且花费时间较长。
LPCC和MFCC的特点都是用极少的参数表现语音的波形和频谱特性。特征参数提取实质上是一个使高维样本数据到低维特征空间的降维过程。但是对于大量的,高耦合的样本進行分类识别,目前在理论上或者试验上,我们还不能够充分的说明上述特征提取过程的充分性。
20世纪70年代,语音识别的主要方法是以动态规划为基础的动态时间规整(Dynamic TimeWarping)[9],解决了语音的特征提取和不等长匹配问题,对小词汇量、特定人的语音识别十分有效。造入70年代后期,人们寻找了各种新的声学建模方法。具有重要意义的是矢量量化技术(VectorQuantization,VQ)[10],它具有很好的数据压缩能力和比较理想的聚类功能。HMM的有关理论基础是Baum等人[11-13]于1970年前后建立起来的,随后由CMU的Baker和IBM的Jelinek等人[14-19] 将其应用在语音识别中。20世纪80年代由于Bell实验室Rabiner等人的工作[20-23],使其逐渐成为语音识别领域的主流技术。
HMM之所以能够成功应用于语音识别,是因为它是一个双随机过程,其中一个是Markov链, 它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。HMM通过这两个相互关联的随机过程共同描述语音信号的统计特性,满足语音信号中时变的特性,使得HMM具有比其它方法更优越的识别性能。但是经典HMM模型存在一些缺陷:
1.初始模型的选取。经典HMM采用Baum-Welsh训练算法,该算法是EM算法[24]的一个特例,受初始值影响较大,容易陷入局部最优。
2.时空复杂度很高,导致训练和识别的效率低,难以直接应用。
3.经典HMM是一个齐次模型,状态转移时不考虑状态驻留时间长度,使得经典HMM不能合适地表征语音信号的时域结构。
针对这些缺陷,自上个世纪90年代至今人们建立了多种HMM的派生模型[15-39]和针对训练的优化算法[40-52],但仍不能从根本上解决上述问题。
小波变换是20世纪80年代逐渐发展起来的一门数学分析方法,一出现就受到数学界和工程界的广泛重视。它最早由法国数学家Morlet提出[53],1988年Mallat将计算机视觉领域内的多尺度分析的思想引入到小波分析中,提出多分辩分析(或逼近)概念[54],用多分辨分析来定义小波,给出了著名的Mallat算法,并将这一理论用于图像分析和完全重构[55],开创了小波理论在信号处理中的应用。
小波分析克服了短时傅立叶变换在单分辨率上的缺陷,具有多分辨率分析的特点,在时域和频域都有表征信号局部信息的能力,时间窗和频率窗都可以根据信号的具体形态动态调整,在一般情况下,在低频部分(信号较平稳)可以采用较低的时间分辨率,而提高频率的分辨率,在高频情况下(频率变化不大)可以用较低的频率分辨率来换取精确的时间定位。因为这些特点,小波分析可以探测正常信号中的瞬态,并展示其频率成分,被称为数学显微镜,广泛应用于各个时频分析领域。
但是从小波分析的算法可以看出,小波分解只对低频部分進行進一步分解,使频率的分辨率变得越来越高,而高频部分则不予考虑。语音信号频带较宽,若用小波对其進行分解势必会丢失一些重要的信息。
由Coifman和Wickerhauser提出的小波包理论[56-57]能够为信号提供一种更为精细的分析方法,它将频带進行多层次划分,对小波没有细分的高频部分進行進一步分解,并能根据被分析信号的特征,自适应地选择相应频带,使之与信号频谱相匹配,進一步提高了时-频分辨率,以二级分解为例,小波和小波包的区别如图1所示。因此小波包分解是一种更广泛应用的小波分解方法,广泛应用于各种信号处理、编码、消噪等领域。
【发明内容】:本发明的目的在于克服现有技术存在的上述不足,提供一种基于小波包分解及混合高斯模型估计的语音识别方法,该方法用小波包将已知训练样本分解到各个频段,利用高斯 模型的构造性方法,描述了各类别样本在各个频段上的能量分布情况,通过比较测试样本与训练模型在各频段上的能量分布的差异来判断测试样本的类别。
本发明提供的基于小波包分解及混合高斯模型估计的语音识别方法的具体步骤如下:
第1、对已知语音训练样本数据進行预处理,得到标准化的M维特征向量;
第2、对上步得到的训练样本的特征向量進行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log2(M)-1,频段个数为Sf=M/2;
第3、按照类别、频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;
第4、为每类训练样本在各个频段构造高斯模型集;
第5、按照类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵;
第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率;
第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。
其中,
第1步对已知语音训练样本数据進行预处理的方法是:
第1.1、对每一个已知训练样本语音数据(xi)1×N首先進行快速傅立叶变换;
第1.2、提取训练样本的1到M维特征向量y=(y1,y2,…,yM)∈RM,其中M为维数,按照内积空间RM中的距离‖y‖=<y,y>1/2,其中(·,·)表示内积空间的内积,把向量y标准化,即 其中‖y‖定义为: 表示向量的长度,RM中其它的内积定义也是适用的,而且所有的标准化之后的训练样本数据 按照类别分别构成训练样本集Ωi_RM,i=1,...,L,这里L为样本类别数,所有标准化之后的训练样本构成集合
其中维数M取2048,1024、512、256、128、或64中任一数。
第2步中所述的各个频段上的分解值的获得方法是:在降维后的数据空间中,对训练样本的特征向量 ,進行n级小波包分解,其中n=log2(M)-1,得到在所有Sf=M/2个频段的二维向 量集合 i=1,…,L,k==1,…,L,k=1,…,Sf,其中L为样本类别数。
第3步中所述的每个子类的均值向量和协方差矩阵的计算方法是:
第3.1、将第i类样本第k个频段的二维向量集Sk i,动态聚类成Tk i个子类 使得 这里L为样本类别数,Sf 为每类样本的频段数,Tk i为第i类样本在第k频段的子类个数;
第3.2、对属于第i类第k个频段第j子类Sk,j i的所有二维向量 的均值向量μ=(μ1,μ2)和协方差矩阵C:
ρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2,
式中,|Sk,j i|为集合Sk,j i元素的个数,i=1,…,L,k=1,…,Sf,
第4步中所述的高斯模型集由属于每个子类的样本单独构造的高斯模型函数组成,对于第i类第k频段第j子类样本来说,其构造的高斯模型函数为:
式中μ=(μ1,μ2)为子类的均值向量、C为子类的协方差矩阵,i=1,…,L,k=1,…,Sf,
由此训练样本的高斯模型集可表示为
第5步中所述的训练样本频段之间前向转移概率矩阵是通过依次计算某个频段向其下一个频段转移的概率矩阵而得到,其具体步骤如下:
计算第i类样本由第k频段到第k+1频段的转移概率矩阵Pf(k,k+1) i,k=1,…,Sf,
当k=Sf时,则计算第k频段到第1频段的转移概率Pf(k,1) i;
其中所述的计算第i类样本由第k频段到第k+1频段的转移概率矩阵Pf(k,k+1) i,k=1,…,Sf的方法是,对于第i类训练样本,如果它在第k频段上的值属于此频段的第j子类并且在第k+1频段上的值属于此频段的第t子类,则令aj,t=aj,t+1,由此得到第i类样本由第k频段到第k+1频段转移概率矩阵 Tk i为第i类样本在第k频段的子类个数。
第5步中所述的训练样本频段之间后向转移概率矩阵是通过依次计算某个频段向其前一个频段转移的概率矩阵而得到,其具体步骤如下:
计算第i类样本由第k频段到第k-1频段的转移概率矩阵Pb(k,k-1) i,k=1,…,Sf,
若k=1,则计算第k频段到第Sf频段的转移概率Pb(k,Sf) i;
其中所述的计算第i类样本由第k频段到第k-1频段的转移概率矩阵Pb(k,k-1) i,k=1,…,Sf方法是,对于第i类训练样本,如果它在第k频段上的值属于此频段的第j子类并且在第k-1频段上的值属于此频段的第t子类,则令bj,t=bj,t+1,由此得到第i类样本由第k频段到第k+1频段转移概率矩阵 Tk i为第i类样本在第k频段的子类个数。
第6步中所述的待测试样本的分布概率是指待测试样本在各类样本各个频段上的所有高斯模型函数的值,具体计算步骤如下:
将经过预处理后的待测试样本,用小波包分解得到其在各个频段的小波系数zk,k=1,…Sf;
根据第i类样本的高斯模型集Gk,j i,带入zk计算其所有子类的高斯模型函数值Gk,j i(zk),得到测试样本在第k频段的分布概率
按照上述步骤计算所有待测试样本在所有频段的分布概率。
第7步中所述的计算待测试样本的分布概率的估计值,判断待测试样本的类别的方法是:导入训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵,按照类别计算待测试样本在各个频段的分布概率估计值与准确值的误差和,将误差和最小的类别作为识别结果;
其中所述待测试样本在各个频段的分布概率估计值与准确值的误差和的计算方法为:
式中pe(k-1) ipf(k-1,k) i指根据前向转移概率矩阵计算得到的待测试样本在第i类第k频段的分布概率的估计值,pe(k+1) ipb(k+1,k) i指根据后向转移概率矩阵计算得到的待测试样本在第i类第k频段的分布概率的估计值,pe(k+1) i为待测试样本在第i类第k+1频段的分布概率的准确值,当k=1时 并且当k=Sf时
本发明的优点和积极效果:
1本发明给出了任意类别样本准确的系列二维空间簇(各个频段)能量的分布图。由于对样本進行了快速傅立叶变换和特征向量标准化,再用小波包将其准确的分解到系列二维空间簇(各个频段)的各个过程,都是可逆过程,因此信息的类别不产生歧义,避免了传统方法特征提取信息不够充分的缺陷。然后我们绘出了每一类别在各个频段的能量的分布图,而且不同类别样本的分布情况是有显著差异的。
2给出了利用训练样本动态聚类后的参数直接构造出高斯模型和转移概率矩阵的训练方法,直接构造局部最优模型,从而得到了全局模型。不需要像经典HMM那样先给模型初始化,然后進行多次重估模型参数才能达到最佳,避免了经典HMM方法训练结果受初始值影响较大、容易陷入局部最优解的问题。而且所有的运算都是在二维空间上進行,很大程度上降低了时空复杂度。识别效果较经典HMM有所提高。
3本发明利用的小波包能够将频段进行多层次划分,对高频部分进行进一步分解,能够提取所有频段的信息,不丢失频率信息。因含噪语音的噪声只影响部分频段,对全局识别结果的影响幅度较小,对噪声的鲁棒性较好,避免了经典HMM对噪声鲁棒性较差的问题。
【附图说明】:
图1是小波与小波包二级分解示意图,a)小波分解图,b)小波包分解图。
图2是词“下”的原始语音数据和经快速傅立叶变换处理的新数据的对比图;a)整体对比图,b)局部对比图;其中1)为原始数据,2)为新数据,3)为误差值。
图3是语音信号数据与单位化的特征向量,a)语音数据,b)特征向量。
图4是部分冗余的语音样本。
图5是“后”和“左”的语音样本在二维空间中各个频段能量的分布图,深色为“后”、浅色为“左” 的分布图。
图6是六类词各50个训练样本在第105频段上构造的第1子类的高斯模型;图中1表示词“前”,2表示词“后”,3表示词“左”,4表示词“右”,5表示词“上”、6表示词“下”。
图7是训练过程的流程图。
图8是判断测试样本类别的流程图。
[具体实施方式]:
实施例1:
本发明提供的基于小波包分解及混合高斯模型估计的语音识别方法的具体过程如下:
第一、对语音训练样本数据進行预处理,包括两部分:
对每个语音训练样本数据(xi)i×N首先進行快速傅立叶变换,然后提取的1到M维数据y=(y1,y2,…,yM)∈RM,这里取M=2048,从而达到训练样本数据(xi)1×N降维目的,并且训练样本的特征向量数据经过逆快速傅立叶变换得到的新数据,在听觉上还是可以分辨出训练样本数据所属的类别。如图2a)中,波形a为“下”的原始语音数据x,波形b为特征向量y经过逆快速傅立叶变换得到的新数据,波形c是原始语音数据与新数据的误差值。图2b)反映的是局部误差。由这两幅图可以看出原始数据与新数据的差别很小。
将提取的训练样本的特征向量y=(y1,y2,…,yM)∈RM,按照内积空间RM中的距离‖y‖,把向量y标准化,即 以第6类词(“下”)的第1个训练样本为例,图3a)给出它的原始语音数据x的波形图,b)给出了它经单位化后的特征向量 的波形图。在单位化过程中,可以选择的距离公式有:
欧式距离:
将所有标准化之后的特征向量 按照类别分别构成训练样本集Ωi_RM,i=1,...,L,这里L=6,所有标准化之后的训练样本构成集合 这个预处理过程,消除了训练样本中的冗余数据,如图4中,三种波形属于同一个语音样本,差别只在于能量大小不同。
第二、对训练样本的特征向量進行小波包分解,在降维后的数据空间中,对训练样本的特征向量 ,進行n级小波包分解,其中,n=10,如第一步中提到的第6类第1个样本在第1频段的小 波包分解系数为z=(0.0063032,-0.0024796):得到训练样本在所有Sf=1024个频段上的二维向量集合 i=1,…,L,k=1,…,Sf,其中L=6。根据这些分解值我们可以观察各类样本在所有频段的能量分布情况,如图5给出了“后”和“左”的各50个语音样本在二维空间中各个频段能量的分布图,二者存在明显差别。
第三、按照类别、频段将训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵:
令全部经小波包分解后的二维向量集合为 首先划分第i类样本集合
将第i类样本第k频段上的数据集Sk i,动态聚类成Tk i个子类,如第6类样本在第1频段的动态聚类数目 其中 使得 这里L=6为样本类别数,Sf=1024为每类样本的频段数,Tk i为第i类样本在第k频段的子类个数;
计算每个子类的均值向量和协方差矩阵。对于第i类第k个频段第j子类Sk,j i中的所有二维向量 的均值向量μ=(μ1,μ2)和协方差矩阵C:
ρ1,2=ρ2,1=Cov(z1,z2)/σ1σ2
式中,|Sk,j i|为集合Sk,j i元素的个数,i=1,…,L,k=1,…,Sf,
如第6类第1频段第1子类的均值向量μ=(0.014099,0.00064203),协方差矩阵
第四、为每类训练样本在各个频段上构造高斯模型集:
首先构造第i类二维向量集合Si_S_RM的高斯模型集。
1)令k=1;
2)令i=1;
3)根据第k频段第j子类Sk,j i的所有二维向量 的均值向量μ=(μ1,μ2)和协方差矩阵C,构造第k频段第j子类的高斯模型函数:
4)j=j+1,当 时返回3)继续,否则继续计算5);
5)k=k+1,当k≤Sf时返回2)继续,否则终止计算。
按照上述步骤,得到第i类样本的高斯模型集
如图6中给出了六类词(“前”、“后”、“左”、“右”、“上”、“下”)的各50个训练样本在第105频段上构造的第1子类的高斯模型。
按照上面算法,同理可以得到每类的高斯模型集。
由此训练样本的高斯模型集可表示为
第五、计算每类训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵,以第i类训练样本为例,方法为:
1)令k=1;
2)对于第i类每个训练样本,如果它在第k频段上的值属于此频段的第j个子类并且在第k+1频段上的值属于此频段的第t个子类,则令aj,t=aj,t+1,由此得到第i类样本由第k频段到第k+1频段转移概率矩阵
3)令k=k+1,当k≠Sf时,返回2)继续,否则继续计算步骤4);
4)计算k频段到第1个频段的转移概率Pf(k,1) i,终止。
如第6类第1频段到第2频段的前向转移概率矩阵Pf(1,2) 1为:
按照上面的算法计算每类频段间的前向转移概率矩阵。
每一类训练样本频段之间的后向转移概率矩阵的计算方法,以第i类训练样本为例,其具体步骤如下:
1)令k=Sf;
2)对于第i类每一个训练样本,如果它在第k频段上的值属于此频段的第j子类并且在第k-1频段上的值属于此频段的第t子类,则令bj,t=bj,t+1,由此得到第i类样本由第k频段到第k+1频段转移概率矩阵 Tk i为第i类样本在第k频段的子类个数。
3)令k=k-1,当k≠1时,返回2)继续,否则继续计算步骤4);
4)计算1频段到第Sf频段的转移概率Pb(k,Sf) i,终止。
按照上面的算法计算每类频段间的后向转移概率矩阵。
如第6类第2频段到第1频段的后向转移概率矩阵Pb(2,1) 1为:
第六、导入所有训练样本的高斯模型集,计算待测试样本在各类各频段的分布概率,以第i类 样本为例,具体步骤如下:
将经过预处理后的待测试样本,用小波包分解得到其在各个频段的小波包系数zk,k=1,…Sf;
根据第i类样本的高斯模型集,带入zk计算其所有子类的高斯模型函数值Gk,j i(zk),得到测试样本在第k频段的分布概率
第七、计算待测试样本的分布概率的估计值,判断待测试样本的类别是指导入训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵,按照类别计算待测试样本在各个频段的分布概率估计值与准确值的误差和,将误差和最小的类别作为识别结果。步骤如下:
根据第i类样本的前向转移概率矩阵Pf i和后向转移概率矩阵Pb i,计算待测试样本在第i类所有各个频段的分布概率估计值与准确值的误差和:
式中pe(k-1) ipf(k-1,k) i指根据前向转移概率矩阵计算得到的待测试样本在第i类第k频段的分布概率的估计值,pe(k+1) ipb(k+1,k) i指根据后向转移概率矩阵计算得到的待测试样本在第i类第k频段的分布概率的估计值,pe(k+1) i为待测试样本在第i类第k+1频段的分布概率的准确值,当k=1时 并且当k=Sf时
按照上述步骤计算待测试样本在各类的误差和,选出误差和最小的类别作为识别结果。以第1个测试样本(实际为第1类)为例,在6类样本模型下的误差和为:δ=(0.1187,0.16561,0.121,0.12423,0.16775,0.17292)。
本发明提出的一种基于小波包分解及混合高斯模型估计的语音识别方法,训练和识别过程分别如图7和图8所示,,实施的实验结果如下:
我们使用的语音库由表示方向的六类词组成(即L=6),包括:“前’、“后”、“左”、“右”、“上”、“下”。共22个人参与录制,分别来自黑龙江、河南、山东、湖北、陕西、新疆、江苏、福建等。每人每词发10遍音,麦克风单声道输入,采样率为8kHZ,量化精度为16bit,其录制语音环境可视为干净语音。其中每类随机选取50个作为训练样本、30个作为测试样本,在PC机上進行了实验,得到结果如表1:
表1 高斯模型法实验结果
类别 | 前 | 后 | 左 | 右 | 上 | 下 |
训练样本 测试样本 识别错误样本 数 正确识别率 (%) | 50 30 1 96.7 | 50 30 0 100 | 50 30 0 100 | 50 30 1 96.7 | 50 30 0 100 | 50 30 0 100 |
对比经典HMM,HMM的特征采用24维mfcc系数,采用4状态,自左向右、带自环、无跳转的HMM拓扑结构,每状态3个高斯混合模型,实验结果如表2:
表2 高斯模型法和经典HMM对比实验结果
类别 | 训练样 本 | 测试样 本 | 识别错误样本 数 | 拒绝识别 数 | 正确识别率 (%) | 运行时间(s) |
高斯模型法离散HMM连续HMM | 300 300 300 | 180 180 180 | 1 17 7 | 1 5 2 | 98.89 87.78 95.00 | 3221.601 2408.641 4866.360 |
对待测试语音进行加噪处理,所加噪声为高斯白噪声,信噪比分别取为10dB,6dB,2dB,1dB。与经典HMM对比,实验结果如表3:
表3 加噪语音的对比实验结果
由表1、表2可以看出,在训练样本不充分的情况下,按照基于小波包分解及混合高斯模型的方法可以准确地描述出每一类别在各个频段的能量的分布情况,无论是在识别率还是运行时间上均优于经典HMM。由表3可以看出,对于含噪语音的识别效果,基于小波包分解及混合高斯模型的方法的正确率明显高于经典HMM,该方法对噪声的鲁棒性较好。
附参考文献
[1]WillskyA S.Digital Signal Processing and Control and Estimation[M]Theory.The MIT Press,1979.
[2]RabinerL R,SchaferR W.Digital Processing of Speech Signals.Prentic-Hal[M],Inc,USA,1978.
[3]J D Markel,A H Gray.Linear Preditive of Speech[M].Springer-Verlag New York,Inc.Secaucus,NJ,USA,1982.
[4]B.S.Atal and S.L.Hanauer,“Speech analysis and.synthesis by linear prediction ofthe speech wave,”J.Acoust.Soc.Amer.,vol.50,pp.637-655,Aug.1971.
[5]Markel,J.D.Formant trajectory estimation from a linear least-squares inverse filterSanta Barbara,CA:Speech Communications Research Laboratory.1971.180p.
[6]Itakurs F,Saho S.Digital filtering techniques for speech analysis and synthesis.Proceedings of the 7thInternational Congress on Acoustics.Budapest:Akademici Kiadb,1971.Vol.3.p.261-4.
[7]Kay S M,M.spls S L.Speclrum analysis-a modern perspective.Proc.WSE69:1380-419,1981.
[8]D T Pham and A Le Breton Levinson Durbin-type algorithms for continuous-time autoregressivemodels and applications.Math.Control,Signals and Systems,1991,vol 4,pp 69-79.
[9]Fumitada Itakura.Minimum prediction residual principle applied to speech recognition[J].IEEE Transon Acoustics,Speech and Signal Processing.1975,ASSP-23(1):67-72
[10]Makhoul J,Roucos S,Gish H.Vector quantization in speech coding[J].ProcIEEE,1985.73(11):1551-1588
[11]Leonard E Baum,Ted Petrie.Statistical Inference for Probabilistic Functions of Finite State MarkovChains.The Annals of Mathematical Statistics,Vol.37,No.6(Dec.,1966),pp.1554-1563
[12]Leonard E Baum,T Petrie,G Soules,N Weiss.A Maximization Technique Occurring in the StatisticalAnalysis of Probabilistic Functions of Markov Chains[J].Ann.Math.Statist.1970,41:162-171.
[13]Leonard E Baum.An inequality and associated maximization technique in statistical estimation forprobabilistic functions of Markov processes[J].Inequalities,1972,3(1):1-8.
[14]Baker J K.The DRAGON System——An overview.IEEE Trans.ASSP,1975,23(1):24-29.
[15]F.Jelinek.A Fast Sequential Decoding Algorithm Using A Stack[J].IBM J.Res.Develop,1969,Vol.13,pp.675-685.
[16]L.R.Bahl and F.Jelinek.Decoding for Channels with Insertions,Deletions,and Substitutions withApplications to Speech Recognition[J].IEEE Trans.on I T 1975,21(2):404-411.
[17]F.Jelinek,L.R.Bahl,and R.L.Mercer.Design of A Linguistic Statistical Decoder for TheRecognition of Continuous Speech[J].IEEE Trans on IT,1975,21(2):250-256.
[18]F.Jelinek.Continuous Speech Recognition by Statistical Methods[J].Proc.IEEE,1976,64(4),532-536.
[19]L.R.Bahl,F.Jelinek,and R.L.Mercer.A Maximum Likelihood Approach to Continuous SpeechRecognition[J].IEEE Trans.PAMI,1983,5(1):179-190.
[20] Rabiner L R,Levinson S,Sondi M M.On the application of vector quantization and hidden markovmodels to speaker-independent,isolated word recognition[J].Bell Syst Tech J,1983,62(4):1075-1105
[21]Rabiner L R,Wilpon J G,Soong F K.High.Performance connected digit recognition using hiddenMarkov models[J].IEEE Trans on Acoustics,Speech and Signal Processing,1989,37(8):1214-1225
[22] Rabiner L R.A Tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition[J].Proc IEEE 1989,77(2):257-285
[23]Rabiner L,Juang B H.Fundamentals of speech recognition[M].Englewood:Prentice Hall,1993.362~364.
[24] A.P.Dempster,N.M.Laird and D.B.Rubin,“Maximum likelihood from incomplete data via the EMalgorithm”,Journal of the Royal Statistical Society (B),vol.39,pp.1-38,1977.
[25] J L Gauvain and C.-H.Lee,“Maximum a posteriori estimation for multivariate Gaussian mixtureobservation of Markov chains”,IEEE Transactions on Speech and Audio Processing,vol.2,no.4,pp.291-298,April 1994.
[26]P.C.Chang and B.-H.Juang,“Discriminative training of dynamic programming based speechrecognizers”,IEEE Trans.Speech and Audio Processing,vol.1,no.2,pp.135-143,April 1993.
[27] Scott Axelrod,Vaibhava Goel,Ramesh Gopinath,Peder Olsen,Karthik Visweswariah. DiscriminativeEstimation of Subspace Constrained Gaussian Mixture Models for Speech Recognition. in Proc.IEEE Int.Audio Speech and Language Processing,Vol 15,pp:172-189,Jan,2007.
[28]R.P.Lippmann,“An intorduction to computing with neural nets”,IEEE ASSP Mag.,pp.4-22,April1987.
[29]E.McDermott and S.Katagiri,“Shift-invariant multi-category phoneme recognition using kohonen’sLVQ2,”in Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),1989,pp.81-84.
[30] B.-H.Juang,W.Hou and C.-H.Lee,“Minimum classification error rate Methods for SpeechRecognition”,IEEE Trans.Speech and Audio Processing,vo1.5,no.3,pp.257-265,May 1997.
[31]R.Schlüter,W.Macherey,B.Müller and H.Ney,“A combined maximum mutual information andmaximum likelihood approach for mixture density splitting”,in Proc.EUROSPEECH,vol.4,1999,pp.1715-1718.
[32] Bahl L,Brown P,De Souza P,Mercer,R.Maximum mutual information estimation of hidden Markovmodel parameters for speech recognition[J].in Proc.IEEE Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.11,April 1986,pp.49-52.
[33] Ephraim Y,Dembo A,Rabiner L R.A Maximum Discrimination Information Approach for HiddenMarkov Modeling[J].Proc.ICASSP’87,1987:25-28.
[34]Ephraim Y,Rabiner L R.On the Relations between Modeling Approaches for information Source.[J].Proc.ICASSP’88,1988:24-27
[35]A.Nadas,“Adecision theoretic formulation of a training problem in speech recognition and acomparison of training by unconditional versus conditional maximum likelihood,”IEEE Transactions onAcoustics,Speech,and Signal Processing,vol.31,no.4,pp.814-817,1983.
[36]L.Bahl,P.Brown,P.de Souza,and R.Mercer,“Estimating hidden Markov model parameters so as tomaximize speech recognition accuracy,”IEEE Transactions on Speech and Audio Processing,vol.1,no.1,pp.77-83,1993.
[37]V.Goel,S.Axelrod,R.Gopinath,P.Olsen,and K.Visweswariah,“Discriminative estimation ofsubspace precision and mean (SPAM)models,”in Proc.Eurospeech,2003.
[38]Q.Li,B.-H.Juang,“A new algorithm for fast discriminative training”,in Proc.Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.1,2002,pp.97-100.
[39]Q.Li,B.-H.Juang,“Fast discriminative training for sequential observations with application tospeaker identification”,in Proc.Int.Conf.Acoustics,Speech,Signal Processing(ICASSP),vol.2,2003,pp.397-400.
[40]Levinson S E,Rabiner L,Sondhi M M.An introduction to the application of the theory of probabilisticfunctions of a Markov process to automatic speech recognition[J].Bel Syst Tech J,1983,62(4):1035~1074.
[41]Juang B H.Maximum Likelihood Estimation for Mixture Multivariate Stochastic Observations ofMarkov Chains[J].AT&T Tech.J.1985,64(6):1235-1249.
[42]Huang X D.Phoneme Classification Using Semi-Continuous Hidden Markov Models.IEEE Trans.Signal Processing,1992,40(5):1062-1067.
[43]Huang,X.D.,Jack,M.A.,(1989)“Semi-continuous hidden Markov models for speech.signals,”Computer Speech and Language,3:239-251,1989.
[44]Bellegarda J R,Nahamoo D.Tied mixture continuous parameter modeling for speech recognition[J].IEEE Trans Acoust,Speech,Signal Processing,1990,38(12):2033~2206.
[45]Poritz A B.Linear predictive hidden Markov models and the speech signal.Proc.ICASSP’82,1982:1291-1294.
[46] B.H.Juang and L.R.Rabiner,“Mixture Autoregressive Hidden Markov Models for Speech Signal”,IEEE Trans.ASSP,vol.33,pp.140~1412,Dec.1985.
[47]P Kenny,et al.A linear predictive HMM for vector-valued observation with application to speech-recognition[J].IEEETraps,1990,ASSP-38(2):220-225.
[48]Hu Zhiping,Imai Satoshi.Modeling improvement of the continuous hidden Markov model for speechrecognition.In:IEEE Signal Processing Soviety,eds.Proc.Int.Conf.Acoustics,Speech,and SignalProcessing.San Francisco,Californa:The San Francisco Marriott,1992.373~376.
[49]Ramesh P,Wilpon J G Modeling state durations in hidden Markov models for automatic speechrecognition.In:IEEE Signal Processing Society,eds.Proc.Int.Conf.Acoustics,Speech,and SignalProcessing.San Francisco,California:The San Francisco Marriott,1992.381~984.
[50]Rabiner L R,Wilpon J G,Soong F K.High performance connected digit recognition using hiddenMarkov models.IEEE Trans.On Acoustics,Speech and Signal Processing,1989,37(8):1214~1225
[51]Kriouile A,Mari J F,Haton J P.Some improvements in speech recognition Algoriths based onHMM.In:IEEE Signal Processing Society,eds.Pro.Int.Conf.Acoustics,Speech,and SingnalProcessing.Albuquerque,New Mexico:Albuquerque Convention Center,1990.545~548.
[52]M Ostendorf,et al.From HMM’s to segment models:a unified view of stachastic modehng for speechrecognition[J].IEEE Trans,1996,SAP4(5):360 378.
[53]A.Grossmann and J.Morlet.Decomposition of Hardy functions into square integrable wavelets ofconstant shape.SIAM J.Math.Anal,1984,(15):723-736.
[54]S.G.Mallat,″A theory for multiresolution signal decomposition:the wavelet representa-tion,″IEEETrans.on Pattem Analysis and Machine Intelligence,Vol.11,No.7,pp.674-693,1989
[55]S.G.Mallat,Multifrequency channel decompositions[J].IEEE Tran.on ASSP,1989;37(12):2091-2110.
[56]Coifman R R,Wickerhauser M V.Entropy-based algorithms for best basis selection.IEEE Trans.OnInformation Theory,1992.38(2):713-718
[57]M V Wickerhauser.Acoustic signal compression with wavelet packets[A].In C.K.Chui:Wavelets:atutorial in theory and applications[C].Academic Press,1992.679-700.
Claims (10)
1.一种基于小波包分解及混合高斯模型估计的语音识别方法,其特征在于该方法的具体步骤如下:
第1、对已知语音训练样本数据进行预处理,得到标准化的M维特征向量;
第2、对上步得到的训练样本的特征向量进行n级小波包分解,得到训练样本在各个频段上的分解值;其中n=log2(M)-1,频段个数为Sf=M/2;
第3、按照已知语音训练样本的每个类别中的每一个频段将上步得到的训练样本的小波包分解值动态聚类成子类,计算每个子类的均值向量和协方差矩阵;
第4、为每类训练样本在各个频段构造高斯模型集;
第5、按照已知语音训练样本的类别计算训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵;
第6、导入所有训练样本的高斯模型集,计算待测试样本的分布概率;
第7、计算待测试样本的分布概率的估计值,判断待测试样本的类别。
3.如权利要求2所述的语音识别方法,其特征在于,其中维数M取2048,1024、512、256、128、或64中任一数。
7.如权利要求1所述的语音识别方法,其特征在于,第5步中所述的训练样本频段之间前向转移概率矩阵是通过依次计算某个频段向其下一个频段转移的概率矩阵而得到,其具体步骤如下:
8.如权利要求1所述的语音识别方法,其特征在于,第5步中所述的训练样本频段之间后向转移概率矩阵是通过依次计算某个频段向其前一个频段转移的概率矩阵而得到,其具体步骤如下:
计算第i类样本由第k频段到第k-1频段的转移概率矩阵k=1,…,Sf,
若k=1,则计算第k频段到第Sf频段的转移概率
10.如权利要求1所述的语音识别方法,其特征在于,第7步中所述的计算待测试样本的分布概率的估计值,判断待测试样本的类别的方法是:导入训练样本频段之间的前向转移概率矩阵和后向转移概率矩阵,按照类别计算待测试样本在各个频段的分布概率估计值与准确值的误差和,将误差和最小的类别作为识别结果;
其中所述待测试样本在各个频段的分布概率估计值与准确值的误差和的计算方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100612402A CN101188107B (zh) | 2007-09-28 | 2007-09-28 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100612402A CN101188107B (zh) | 2007-09-28 | 2007-09-28 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101188107A CN101188107A (zh) | 2008-05-28 |
CN101188107B true CN101188107B (zh) | 2011-09-07 |
Family
ID=39480461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100612402A Expired - Fee Related CN101188107B (zh) | 2007-09-28 | 2007-09-28 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101188107B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664010B (zh) * | 2012-05-04 | 2014-04-16 | 山东大学 | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 |
CN102708871A (zh) * | 2012-05-08 | 2012-10-03 | 哈尔滨工程大学 | 基于条件高斯混合模型的线谱对参数降维量化方法 |
CN103824557B (zh) * | 2014-02-19 | 2016-06-15 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
US9721569B2 (en) * | 2015-05-27 | 2017-08-01 | Intel Corporation | Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams |
CN105099759A (zh) * | 2015-06-23 | 2015-11-25 | 上海华为技术有限公司 | 一种检测方法及装置 |
CN105718877B (zh) * | 2016-01-19 | 2019-02-05 | 昆明理工大学 | 一种基于动态时间规整及小波特征的信号重合度匹配方法 |
CN107025369B (zh) | 2016-08-03 | 2020-03-10 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
CN106531174A (zh) * | 2016-11-27 | 2017-03-22 | 福州大学 | 基于小波包分解和声谱图特征的动物声音识别方法 |
CN108172214A (zh) * | 2017-12-27 | 2018-06-15 | 安徽建筑大学 | 一种基于Mel域的小波语音识别特征参数提取方法 |
CN110049270B (zh) * | 2019-03-12 | 2023-05-30 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN112466056B (zh) * | 2020-12-01 | 2022-04-05 | 上海旷日网络科技有限公司 | 一种基于语音识别的自助柜取件系统及方法 |
CN114446326B (zh) * | 2022-01-27 | 2023-07-04 | 四川大学华西医院 | 基于时频分辨率的吞咽障碍患者识别方法及设备 |
CN115376485B (zh) * | 2022-08-19 | 2024-04-30 | 广东技术师范大学 | 一种基于小波包分解特征参数的语音转换方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1538382A (zh) * | 2003-03-13 | 2004-10-20 | 用于子空间编码高斯模型的训练的方法 |
-
2007
- 2007-09-28 CN CN2007100612402A patent/CN101188107B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1538382A (zh) * | 2003-03-13 | 2004-10-20 | 用于子空间编码高斯模型的训练的方法 |
Non-Patent Citations (6)
Title |
---|
O. Farooq et al,.Robust features for speech recognition based on admissible wavelet packets.《Electronics Letters》.2001,第37卷(第25期),1554-1556. * |
Yu Hao et al.A new feature in speech recognition based on wavelet transform.《Proceedings of International Conference on Signal Processing 2000》.2000,第3卷1526 - 1529. |
Yu Hao et al.A new feature in speech recognition based on wavelet transform.《Proceedings of International Conference on Signal Processing 2000》.2000,第3卷1526- 1529. * |
徐爽.小波分析理论在说话人识别中的应用研究.《小波分析理论在说话人识别中的应用研究》.2004,全文. * |
武妍等.基于KL-小波包分析的文本无关的说话人识别.《计算机工程与应用》.2005,(第4期),26-28. * |
范海宁等.基于小波包分解的声信号特征提取方法.《现代电子技术》.2005,(第195期),20,21,28. * |
Also Published As
Publication number | Publication date |
---|---|
CN101188107A (zh) | 2008-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101188107B (zh) | 一种基于小波包分解及混合高斯模型估计的语音识别方法 | |
Srinivasan et al. | Binary and ratio time-frequency masks for robust speech recognition | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN103489454B (zh) | 基于波形形态特征聚类的语音端点检测方法 | |
Srinivasan et al. | Transforming binary uncertainties for robust speech recognition | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN102789779A (zh) | 一种语音识别系统及其识别方法 | |
Su et al. | Convolutional neural network for robust pitch determination | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN100562926C (zh) | 追踪语音信号中的共振峰的方法 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
López-Espejo et al. | A deep neural network approach for missing-data mask estimation on dual-microphone smartphones: application to noise-robust speech recognition | |
Medhi et al. | Isolated assamese speech recognition using artificial neural network | |
Agrawal et al. | Deep variational filter learning models for speech recognition | |
Nichie et al. | Voice recognition using artificial neural networks and Gaussian mixture models | |
Morales et al. | Adding noise to improve noise robustness in speech recognition. | |
Gowda et al. | Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ | |
Zhao et al. | A novel robust MFCC extraction method using sample-ISOMAP for speech recognition | |
Hussein et al. | Arabic speaker recognition using HMM | |
Nasersharif et al. | An Information-Theoretic Discussion of Convolutional Bottleneck Features for Robust Speech Recognition. | |
Joshi et al. | Enhanced denoising auto-encoder for robust speech recognition in unseen noise conditions | |
Verma et al. | Text independent speaker identification using wavelet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110907 Termination date: 20120928 |