CN1201287C - 语音识别的隐马尔可夫模型边缘化解码数据重建方法 - Google Patents
语音识别的隐马尔可夫模型边缘化解码数据重建方法 Download PDFInfo
- Publication number
- CN1201287C CN1201287C CNB03147473XA CN03147473A CN1201287C CN 1201287 C CN1201287 C CN 1201287C CN B03147473X A CNB03147473X A CN B03147473XA CN 03147473 A CN03147473 A CN 03147473A CN 1201287 C CN1201287 C CN 1201287C
- Authority
- CN
- China
- Prior art keywords
- state
- vector
- probability
- expression
- disappearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明方法涉及到计算机技术应用技术。本发明利用隐马尔可夫模型(HMM)转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计(MAP)准则重建出“缺失矢量”。本发明算法较好的描述了相邻美子带特征之间的统计信息,并利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列,因此能够较好的重建出受噪声破坏的美子带特征,提高了语音识别系统的噪声鲁棒性能。
Description
技术领域
本发明方法涉及到计算机技术应用技术,特别是语音识别技术中根据未受噪声掩蔽的语音特征,利用边缘化Viterbi解码过程估计受噪声破坏的语音特征的技术。
背景技术
噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一,深入研究基于数据重建的语音识别鲁棒性技术,具有重要的理论意义和广泛应用价值。
当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知,使其变得不易察觉,这种现象称为掩蔽效应[吴宗济、林茂灿,1989]。根据人耳掩蔽效应,人们提出了数据重建方法。数据重建方法认为噪声和语音在时间-频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信噪比较低的区域标记为“缺失矢量”,而局部信噪比较高的区域标记为“可靠矢量”,然后重建“缺失矢量”,得到完整矢量后进行语音识别。
20世纪90年代后期以来,根据“可靠矢量”重建“缺失矢量”的技术受到很多研究人员的关注。传统的数据重建方法假设语音的特征矢量可以用N个高斯模型的码书进行单码字量化,并根据高斯模型集的参数分布,重建“缺失矢量”。国内外相关的工作很多,典型技术可以总结如下:
基于聚类的数据重建(Cluster-Based Reconstruction)算法(或者基于高斯模型集的数据重建算法)假设所有语音特征都来自N个高斯模型构成的高斯模型集。缺失分量估计后,基于高斯模型集的数据重建算法首先根据“可靠矢量”估计语音特征在高斯模型集中所属高斯模型,然后根据模型概率分布和“可靠矢量”,按照最大后验概率准则(MAP),估计出“缺失矢量”。
基于混合高斯模型(Gaussian Mixuture Model,GMM)的数据重建算法利用GMM模型来描述语音特征矢量。利用噪声数据统计模型对GMM模型进行补偿,基于统计方法进行缺失分量估计,并以GMM模型均值作为“缺失矢量”的估计。
语音特征的时域动态特性在语音识别中具有重要作用,而基于高斯模型集和GMM模型的数据重建算法对每个语音特征独立地进行数据重建,没有考虑语音特征矢量在时域上的动态特性,具有一定的局限性。
发明内容
利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计准则重建出“缺失矢量”。
【数学模型】
隐马尔可夫模型假设一个离散时域有限状态自动机,在每一离散时刻t,自动机所处的状态用xt表示,有xt∈{Q1~QL},其中,{Q1~QL}表示所有可能出现的状态。
假设自动机开始时刻t=1,则在以后每一个时刻t>1,自动机所处的状态以概率方式取决于初始状态概率矢量a和状态转移概率矩阵A。a是一个L维矢量,a=[a1,...,aL],其中,ai表示在开始时刻,自动机处于状态Qi的概率,表示为:
ai=P(x1=Qi)(1≤i≤L) (1)
状态转移概率矩阵A是一个(L*L)维方阵,它的每一个元素用Aij来表示,其意义是:在相邻两个时刻,系统状态从Qi转移到Qj的概率,表示为:
Aij=P(xt=Qj/xt-1=Qi)(t>1,1≤i,j≤L) (2)
显然有:
因此,对于任何t>1时刻,自动机所处状态xt只取决于系统在前一时刻所处的状态xt-1。从时刻1到时刻T,状态序列[x1,x2,...xT]构成了一条一阶马尔可夫链。
在任意时刻,当系统处于状态Qi时,观测到美子带特征S的概率表示为:
bi(S)=PQi(S)=P(S/x=Qi)(1≤i≤L) (4)
L个状态的概率分布构成一个L维矢量B,表示为:
B=[b1(S),...,bi(S),...bL(S)] (5)
中心极限定理说明,如果一个随机变量是由大量相互独立的随机因素的综合影响所形成,而且每个因素在总的影响中所起的作用都很微小的情况下,随机变量的分布往往近似的服从高斯分布(正态分布)。因此,高斯模型是最常用的概率分布模型,得到了广泛的应用。假设在每个状态,纯净语音特征矢量的分布符合高斯分布:
其中,μj,θj是第j个状态的高斯模型的均值矢量和协方差矩阵(1≤j≤L),n是语音特征矢量维数,L是隐马尔可夫模型的状态数。
【算法描述】
为估计最优状态序列[x1,x2,…,xT],定义:
其意义是:寻找一条从时刻1到时刻t的最优状态序列,使系统在t时刻的状态为Qi,并且该状态序列产生“可靠矢量”序列[S1 o,S2 o,...,St o]的概率最大,φt(i)是这种情况下的最大概率。已知φt(i)的情况下,很容易求解φt+1(j):
此外,假设ψt+1(j)表示从时刻1到时刻t+1最优状态序列[x1,x2,...,xt,xt+1=Qj]中,t时刻所处的状态xt的编号。表示为:
基于边缘化解码过程的数据重建(VITDI)算法按如下步骤进行:
1)初始化
其中,δ1(i)表示系统时刻1处于状态i的概率;ψ1(i)表示系统上一时刻状态,取值为0即系统处于初始状态;ai表示初始状态为状态i的概率,bi(s1 o)表示系统处于状态i的情况下,观测到“可靠矢量”s1 o的概率,即bi(s1)对s1 o的边缘化概率:
其中,PQi(S1 o)是系统处于状态i,高斯模型i产生“可靠矢量”s1 o的概率,PQi(S1)和PQi(S1 oSm)表示系统处于状态i,高斯模型i产生特征矢量S1的概率;
2)递推
其中,δt(i)表示系统时刻t处于状态i的最大概率;ψt(i)表示系统t-1刻状态,取值为j,即系统上一状态处于状态j;Aij表示系统从状态i转移到状态j的概率,bj(st o)表示系统处于状态j的情况下,观测到“可靠矢量”st o的概率,即bj(st)对st o的边缘化概率:
其中,PQi(St o)是系统处于状态i,高斯模型i产生“可靠矢量”st o的概率,PQi(St)和PQi(St oSm)表示系统处于状态i,高斯模型i产生特征矢量St的概率;
3)终止
4)回溯,获取最优状态序列
5)
其中,qt *表示系统t-1刻状态,取值为j,即系统t-1时刻处于状态j;
6)最大后验概率估计(MAP)重建“缺失矢量”
在时刻t,St所属状态xt确定后,基于最大概率准则(MAP)重建“缺失矢量”的实质是估计“缺失矢量”St m,使状态xt产生语音特征矢量(S=[St oSt m])的概率bx1(St oSt m)最大:
假设在每个状态下,特征矢量分布为单高斯分布,即:
其中,n是语音特征矢量维数,μi,θi是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵(1≤i≤L)。
根据状态分布为单高斯分布假设,求解[C.W.Therrien,1992][B.Raj,2000]式(4-46),得到:
其中,xt表示系统在时刻t系统所处的状态;μxto表示状态xt下,“可靠矢量”的均值矢量;μxtm表示状态xt下,“缺失矢量”的均值矢量;θxtoo表示状态xt下,“可靠矢量”的协方差矩阵;θxtmo表示状态xt下,“可靠矢量”和“缺失矢量”间的协方差矩阵。
最后,得到重建后的完整矢量:
语音特征矢量隐马尔可夫模型的状态转移概率的分布很不均匀:某些状态间的转移概率较大;某些状态发生转移的概率较小。很多状态之间的转移概率很小,甚至为0。为了解决这个问题,可以调整状态转移矩阵,不允许出现转移概率为0的情况:当转移概率为0时,用一个很小的概率来代替。同时,为了解决由于精度不够导致计算过程中出现的下溢问题,在递推过程中使用对数概率取代普通概率。
本发明能显著提高语音识别系统对噪声的鲁棒性能。
附图说明
图1含噪语音的缺失分量估计;
图2含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果。
具体实施方式
人耳对声音的感知具有明显的非线性特性,在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能,考虑到听觉系统的临界带效应,通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析,在语音识别技术中得到了广泛的应用。下面,将以语音美(Mel)子带特征矢量的数据重建为例来说明基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法。
经过缺失分量估计,语音特征S分为两个矢量:“缺失矢量”Sm和“可靠矢量”So,图1给出了对含噪语音(高斯白噪声、Babble噪声,SNR=15dB)的缺失分量估计结果。
含噪语音的缺失分量估计,缺失分量估计结果图中空白部分表示该部分语音受到噪声的严重破坏,属于“缺失矢量”,保留下来的是未受噪声严重破坏的“可靠矢量”。(A)列是对受Babble噪声破坏的语音进行理想缺失分量估计的结果,(B)列是对受高斯白噪声破坏的语音进行理想缺失分量估计的结果(图中的汉语语音是:“谈到汽车定点(tan2 dao4 qi4che1 ding4 dian3)”)
从图1可以看出,噪声破坏了纯净语音特征矢量的形态和分布,由于噪声特性和强度的不同,不同的噪声对语音特征的破坏作用也不同。
缺失分量估计完成后,根据“可靠矢量”和高斯模型集分布,按基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法重建出完整特征矢量,如图2所示,含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果,(A)列是对受Babble噪声破坏的语音进行数据重建的结果,(B)列是对受高斯白噪声破坏的语音进行数据重建的结果(图中的汉语语音是:“谈到汽车定点(tan2 dao4 qi4che1 ding4 dian3)”)
从图2可以看出,基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法利用HMM模型描述了相邻美子带特征之间的统计信息,利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列,能够较好的重建出受噪声破坏的美子带特征。重建后的美子带特征较好的重现了原始纯净语音段美子带特征的形态和分布,因此能够提高语音识别系统的噪声鲁棒性能。
Claims (3)
1、一种语音识别的基于隐马尔可夫模型边缘化解码的数据重建方法,其特征在于,利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化解码过程的数据重建算法,根据边缘化解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计准则重建出“缺失矢量”;其中,基于边缘化解码过程的数据重建算法,按如下步骤进行:
第一步,初始化:
(1≤i≤L)
ψ1(i)=0
其中,δ1(i)表示系统时刻1处于状态i的概率;ψ1(i)表示系统上一时刻状态,取值为0即系统处于初始状态;ai表示初始状态为状态i的概率,bi(s1 o)表示系统处于状态i的情况下,观测到“可靠矢量”s1 o的概率,即bi(s1)对s1 o的边缘化概率:
其中,PQi(S1 o)是系统处于状态i,高斯模型i产生“可靠矢量”s1 o的概率,PQi(S1)和PQi(S1 oSm)表示系统处于状态i,高斯模型i产生特征矢量S1的概率;
第二步,递推:
其中,δt(i)表示系统时刻t处于状态i的最大概率;ψt(i)表示系统t-1刻状态,取值为j,即系统上一状态处于状态j;Aij表示系统从状态i转移到状态j的概率,bj(st o)表示系统处于状态j的情况下,观测到“可靠矢量”st o的概率,即bj(st)对st o的边缘化概率:
其中,PQi(St o)是系统处于状态i,高斯模型i产生“可靠矢量”st o的概率,PQi(St)和PQi(St oSm)表示系统处于状态i,高斯模型i产生特征矢量St的概率;
第三步,终止:
第四步,回溯,获取最优状态序列:
其中,qt *表示系统t-1刻状态,取值为j,即系统t-1时刻处于状态j;
第五步,最大后验概率估计重建“缺失矢量”:
在时刻t,St所属状态xt确定后,基于最大概率准则重建“缺失矢量”的实质是估计“缺失矢量”St m,使状态xt产生语音特征矢量S=[St oSt m]的概率bxt(St oSt m)最大:
在每个状态下,特征矢量分布为单高斯分布,即:
其中,n是语音特征矢量维数,μi,θi是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵1≤i≤L;
根据状态分布为单高斯分布假设,求解,得到:
其中,xt表示系统在时刻t系统所处的状态;μxto表示状态xt下,“可靠矢量”的均值矢量;μxtm表示状态xt下,“缺失矢量”的均值矢量;θxtoo表示状态xt下,“可靠矢量”的协方差矩阵;θxtmo表示状态xt下,“可靠矢量”和“缺失矢量”间的协方差矩阵;
第六步,得到重建后的完整矢量:
算法步骤中所列
其中,ψt+1(j)表示从时刻1到时刻t+1最优状态序列中,t时刻所处的状态xt的编号。
2、如权利要求1所述的数据重建方法,其特征在于,所述语音特征矢量隐马尔可夫模型的状态分布用符合单高斯分布进行描述。
3、如权利要求1所述的数据重建方法,其特征在于,调整状态转移矩阵,不允许出现转移概率为0的情况:当转移概率为0时,用一个很小的概率来代替;同时,为了解决由于精度不够导致计算过程中出现的下溢问题,在递推过程中使用对数概率取代普通概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB03147473XA CN1201287C (zh) | 2003-07-14 | 2003-07-14 | 语音识别的隐马尔可夫模型边缘化解码数据重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB03147473XA CN1201287C (zh) | 2003-07-14 | 2003-07-14 | 语音识别的隐马尔可夫模型边缘化解码数据重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1475987A CN1475987A (zh) | 2004-02-18 |
CN1201287C true CN1201287C (zh) | 2005-05-11 |
Family
ID=34156154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB03147473XA Expired - Fee Related CN1201287C (zh) | 2003-07-14 | 2003-07-14 | 语音识别的隐马尔可夫模型边缘化解码数据重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1201287C (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989843A (zh) * | 2015-01-28 | 2016-10-05 | 中兴通讯股份有限公司 | 一种实现缺失特征重建的方法和装置 |
CN108399415B (zh) * | 2018-01-16 | 2020-03-27 | 电子科技大学 | 一种基于设备所处生命周期阶段的自适应数据采集方法 |
CN109376892B (zh) * | 2018-06-12 | 2021-11-02 | 电子科技大学 | 一种基于设备所处生命周期阶段的设备状态预测方法 |
CN110990236A (zh) * | 2019-10-08 | 2020-04-10 | 山东科技大学 | 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法 |
-
2003
- 2003-07-14 CN CNB03147473XA patent/CN1201287C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1475987A (zh) | 2004-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1175398C (zh) | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 | |
CN1185622C (zh) | 语音识别的健壮特征提取方法和装置 | |
CN1650349A (zh) | 用于抗噪声语音识别的在线参数直方图正态化 | |
CN1591570A (zh) | 用于紧凑声学建模的泡分裂法 | |
CN101930746B (zh) | 一种mp3压缩域音频自适应降噪方法 | |
CN1866355A (zh) | 声音编码装置和声音解码装置 | |
CN1877697A (zh) | 一种基于分布式结构的说话人确认方法 | |
CN1201287C (zh) | 语音识别的隐马尔可夫模型边缘化解码数据重建方法 | |
CN1534596A (zh) | 使用残差模型用于共振峰追踪的方法和装置 | |
CN116486826A (zh) | 一种基于融合网络的语音增强方法 | |
Dendani et al. | Self-Supervised Speech Enhancement for Arabic Speech Recognition in Real-World Environments. | |
Xu et al. | Robust speech recognition based on noise and SNR classification-a multiple-model framework. | |
CN1212608C (zh) | 一种采用后置滤波器的多通道语音增强方法 | |
US6678656B2 (en) | Noise reduced speech recognition parameters | |
Górriz et al. | An effective cluster-based model for robust speech detection and speech recognition in noisy environments | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
US20060274860A1 (en) | Wireless communications apparatus | |
CN1628337A (zh) | 语音识别方法及其装置 | |
CN101308656A (zh) | 音频暂态信号的编解码方法 | |
CN1302454C (zh) | 语音识别的概率加权平均缺失特征数据重建方法 | |
CN1212603C (zh) | 非线性谱减缺失分量估计方法 | |
Chen et al. | Robust voice activity detection algorithm based on the perceptual wavelet packet transform | |
CN1275223C (zh) | 一种低比特变速率语言编码器 | |
Asad et al. | Noise Suppression Using Gated Recurrent Units and Nearest Neighbor Filtering | |
CN1221939C (zh) | 语音识别系统中的说话人自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |