CN1475987A - 语音识别的隐马尔可夫模型边缘化解码数据重建方法 - Google Patents

语音识别的隐马尔可夫模型边缘化解码数据重建方法 Download PDF

Info

Publication number
CN1475987A
CN1475987A CNA03147473XA CN03147473A CN1475987A CN 1475987 A CN1475987 A CN 1475987A CN A03147473X A CNA03147473X A CN A03147473XA CN 03147473 A CN03147473 A CN 03147473A CN 1475987 A CN1475987 A CN 1475987A
Authority
CN
China
Prior art keywords
vector
state
probability
disappearance
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA03147473XA
Other languages
English (en)
Other versions
CN1201287C (zh
Inventor
杜利民
罗宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CNB03147473XA priority Critical patent/CN1201287C/zh
Publication of CN1475987A publication Critical patent/CN1475987A/zh
Application granted granted Critical
Publication of CN1201287C publication Critical patent/CN1201287C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明方法涉及到计算机技术应用技术。本发明利用隐马尔可夫模型(HMM)转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计(MAP)准则重建出“缺失矢量”。本发明算法较好的描述了相邻美子带特征之间的统计信息,并利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列,因此能够较好的重建出受噪声破坏的美子带特征,提高了语音识别系统的噪声鲁棒性能。

Description

语音识别的隐马尔可夫模型边缘化解码数据重建方法
技术领域
本发明方法涉及到计算机技术应用技术,特别是语音识别技术中根据未受噪声掩蔽的语音特征,利用边缘化Viterbi解码过程估计受噪声破坏的语音特征的技术。
背景技术
噪声鲁棒性问题是语音识别技术目前面临的主要挑战之一,深入研究基于数据重建的语音识别鲁棒性技术,具有重要的理论意义和广泛应用价值。
当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知,使其变得不易察觉,这种现象称为掩蔽效应。根据人耳掩蔽效应,人们提出了数据重建方法。数据重建方法认为噪声和语音在时间-频率域上不同区域具有不同局部信噪比,并进行缺失分量估计,即把局部信噪比较低的区域标记为“缺失矢量”,而局部信噪比较高的区域标记为“可靠矢量”,然后重建“缺失矢量”,得到完整矢量后进行语音识别。
20世纪90年代后期以来,根据“可靠矢量”重建“缺失矢量”的技术受到很多研究人员的关注。传统的数据重建方法假设语音的特征矢量可以用N个高斯模型的码书进行单码字量化,并根据高斯模型集的参数分布,重建“缺失矢量”。国内外相关的工作很多,典型技术可以总结如下:
基于聚类的数据重建(Cluster-Based Reconstruction)算法(或者基于高斯模型集的数据重建算法)假设所有语音特征都来自N个高斯模型构成的高斯模型集。缺失分量估计后,基于高斯模型集的数据重建算法首先根据“可靠矢量”估计语音特征在高斯模型集中所属高斯模型,然后根据模型概率分布和“可靠矢量”,按照最大后验概率准则(MAP),估计出“缺失矢量”。
基于混合高斯模型(Gaussian Mixuture Model,GMM)的数据重建算法利用GMM模型来描述语音特征矢量。利用噪声数据统计模型对GMM模型进行补偿,基于统计方法进行缺失分量估计,并以GMM模型均值作为“缺失矢量”的估计。
语音特征的时域动态特性在语音识别中具有重要作用,而基于高斯模型集和GMM模型的数据重建算法对每个语音特征独立地进行数据重建,没有考虑语音特征矢量在时域上的动态特性,具有一定的局限性。
发明内容
利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,基于边缘化Viterbi解码过程的数据重建(VITDI)算法根据边缘化Viterbi解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计准则重建出“缺失矢量”。【数学模型】
隐马尔可夫模型假设一个离散时域有限状态自动机,在每一离散时刻t,自动机所处的状态用xt表示,有xt∈{Q1~QL},其中,{Q1~QL}表示所有可能出现的状态。
假设自动机开始时刻t=1,则在以后每一个时刻t>1,自动机所处的状态以概率方式取决于初始状态概率矢量a和状态转移概率矩阵A。a是一个L维矢量,a=[a1,...,aL],其中,ai表示在开始时刻,自动机处于状态Qi的概率,表示为:
                 ai=P(x1=Qi)(1≤i≤L)(1)
状态转移概率矩阵A是一个(L*L)维方阵,它的每一个元素用Aij来表示,其意义是:在相邻两个时刻,系统状态从Qi转移到Qj的概率,表示为:
            Aij=P(xt=Qj/xt-1=Qi)(T>1,1≤i,j≤L)(2)显然有: Σ j = 1 L A ij = 1 , ∀ i ( 1 ≤ i , j ≤ L ) . . . . . . . ( 3 )
因此,对于任何t>1时刻,自动机所处状态xt只取决于系统在前一时刻所处的状态xt-1。从时刻1到时刻T,状态序列[x1,x2,...xT]构成了一条一阶马尔可夫链。
在任意时刻,当系统处于状态Qi时,观测到美子带特征S的概率表示为: b i ( S ) = P Q i ( S ) = P ( S / x = Q i ) ( 1 ≤ i ≤ L ) . . . . . . ( 4 ) L个状态的概率分布构成一个L维矢量B,表示为:
                    B=[b1(S),...,bi(S),...bL(S)](5)
中心极限定理说明,如果一个随机变量是由大量相互独立的随机因素的综合影响所形成,而且每个因素在总的影响中所起的作用都很微小的情况下,随机变量的分布往往近似的服从高斯分布(正态分布)。因此,高斯模型是最常用的概率分布模型,得到了广泛的应用。假设在每个状态,纯净语音特征矢量的分布符合高斯分布: P M j ( S ) = exp { - 1 2 ( s - μ j ) t θ j - 1 ( s - μ j ) } ( 2 π ) n 2 | θ j | 1 2 . . . . . . . . ( 6 )
其中,μj,θj是第j个状态的高斯模型的均值矢量和协方差矩阵(1jL),n是语音特征矢量维数,L是隐马尔可夫模型的状态数。【算法描述】
为估计最优状态序列[x1,x2,...,xT],定义:
Figure A0314747300082
其意义是:寻找一条从时刻1到时刻t的最优状态序列,使系统在t时刻的状态为Qi,并且该状态序列产生“可靠矢量”序列[S1 o,S2 o,...,St o]的概率最大,φt(i)是这种情况下的最大概率。已知φt(i)的情况下,很容易求解φt+1(j):
Figure A0314747300084
此外,假设Ψt+1(j)表示从时刻1到时刻t+1最优状态序列[x1,x2,...,xt,xt+1=Qj]中,t时刻所处的状态xt的编号。表示为:
Figure A0314747300086
基于边缘化解码过程的数据重建(VITDI)算法按如下步骤进行:1)初始化 δ 1 ( i ) = a i b i ( s 1 o )                                     (1≤i≤L)(4-53)Ψ1(i)=0
其中,ai表示初始状态为状态i的概率,bi(s1 o)表示系统处于状态i的情况下,观测到“可靠矢量”s1 o的概率,即bi(s1)对s1 o的边缘化概率: b i ( s 1 o ) = P Q i ( S 1 o ) = ∫ P Q i ( S 1 ) dS m = ∫ P Q i ( S 1 o S m ) dS m . . . . . ( 4 - 54 )
2)递推
Figure A0314747300093
Figure A0314747300094
其中,Aij表示系统从状态i转移到状态j的概率,bj(st o)表示系统处于状态j的情况下,观测到“可靠矢量”st o的概率,即bj(st)对st o的边缘化概率: b j ( s t o ) = P Q j ( S t o ) = ∫ P Q j ( S t ) dS m = ∫ P Q i ( S t o S m ) dS m . . . . . ( 4 - 56 )
3)终止
Figure A0314747300096
4)回溯,获取最优状态序列 q t * = ψ i + 1 ( q t + 1 * ) ( t = T - 1 , … , 1 ) . . . . . . . . ( 4 - 58 )
5)MAP重建“缺失矢量”
在时刻t,St所属状态xt确定后,基于最大概率准则(MAP)重建“缺失矢量”的实质是估计“缺失矢量”St m,使状态xt产生语音特征矢量(S=[St oSt m])的概率
Figure A0314747300099
最大: S ^ t m = arg max S m ( b x t ( S t o S t m ) ) . . . . . . ( 4 - 59 ) 假设在每个状态下,特征矢量分布为单高斯分布,即: b i ( S ) = P Q i ( S ) = exp { - 1 2 ( S - μ i ) t θ t - 1 ( S - μ i ) } ( 2 π ) 2 + + | θ i | 2 + . . . . . ( 4 - 60 ) 其中,n是语音特征矢量维数,μi,θi是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵(1iL)。
根据状态分布为单高斯分布假设,求解式(4-46),得到: S ^ t m = μ x t m + θ x t mo θ x t oo - 1 ( S o - μ x t o ) . . . . . . . . ( 4 - 61 )
其中,xt表示系统在时刻t系统所处的状态; 表示状态xt下,“可靠矢量”的均值矢量; 表示状态xt下,“缺失矢量”的均值矢量;
Figure A0314747300104
表示状态xt下,“可靠矢量”的协方差矩阵;
Figure A0314747300105
表示状态xt下,“可靠矢量”和“缺失矢量”间的协方差矩阵。
最后,得到重建后的完整矢量: S ^ t = [ S t o S ^ t m ] .
语音特征矢量隐马尔可夫模型的状态转移概率的分布很不均匀:某些状态间的转移概率较大;某些状态发生转移的概率较小。很多状态之间的转移概率很小,甚至为0。为了解决这个问题,可以调整状态转移矩阵,不允许出现转移概率为0的情况:当转移概率为0时,用一个很小的概率来代替。同时,为了解决由于精度不够导致计算过程中出现的下溢问题,在递推过程中使用对数概率取代普通概率。
本发明能显著提高语音识别系统对噪声的鲁棒性能。
附图说明
图1含噪语音的缺失分量估计;
图2含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果。
具体实施方式
人耳对声音的感知具有明显的非线性特性,在语音特征中融入一些反映人耳听觉特性的因素能够显著提高语音识别系统的性能,考虑到听觉系统的临界带效应,通常选用在美频率域上均匀分布的三角滤波器组对语音特征矢量进行子带特征分析,在语音识别技术中得到了广泛的应用。下面,将以语音美(Mel)子带特征矢量的数据重建为例来说明基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法。
经过缺失分量估计,语音特征S分为两个矢量:“缺失矢量”Sm和“可靠矢量”So,图1给出了对含噪语音(高斯白噪声、Babble噪声,SNR=15dB)的缺失分量估计结果。
含噪语音的缺失分量估计,缺失分量估计结果图中空白部分表示该部分语音受到噪声的严重破坏,属于“缺失矢量”,保留下来的是未受噪声严重破坏的“可靠矢量”。(A)列是对受Babble噪声破坏的语音进行理想缺失分量估计的结果,(B)列是对受高斯白噪声破坏的语音进行理想缺失分量估计的结果(图中的汉语语音是:“谈到汽车定点(tan2 dao4 qi4 chel ding4 dian3)”)
从图1可以看出,噪声破坏了纯净语音特征矢量的形态和分布,由于噪声特性和强度的不同,不同的噪声对语音特征的破坏作用也不同。
缺失分量估计完成后,根据“可靠矢量”和高斯模型集分布,按基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法重建出完整特征矢量,如图2所示,含噪语音经过理想缺失分量估计、基于隐马尔可夫模型边缘化Viterbi解码过程的数据重建实验结果,(A)列是对受Babble噪声破坏的语音进行数据重建的结果,(B)列是对受高斯白噪声破坏的语音进行数据重建的结果(图中的汉语语音是:“谈到汽车定点(tan2 dao4 qi4 chel ding4 dian3)”)从图2可以看出,基于隐马尔可夫模型边缘化Viterbi解码的数据重建算法利用HMM模型描述了相邻美子带特征之间的统计信息,利用边缘化Viterbi解码过程估计产生语音特征矢量的全局最优状态序列,能够较好的重建出受噪声破坏的美子带特征。重建后的美子带特征较好的重现了原始纯净语音段美子带特征的形态和分布,因此能够提高语音识别系统的噪声鲁棒性能。

Claims (5)

1、一种语音识别的基于隐马尔可夫模型边缘化解码的数据重建方法,其特征在于,利用隐马尔可夫模型转移概率矩阵来描述语音特征矢量在时域上的动态特性,利用全协方差矩阵来描述语音美子带特征矢量各分量之间的相关特性,根据边缘化解码过程估计产生语音特征矢量的最优状态序列,并基于最大后验概率估计准则重建出“缺失矢量”。
2、如权利要求1所述的数据重建方法,其特征在于,所述语音特征矢量隐马尔可夫模型的状态分布可以用单高斯分布进行描述。
3、如权利要求1所述的数据重建方法,其特征在于,基于边缘化解码过程的数据重建算法,按如下步骤进行:
第一步,初始化: δ 1 ( i ) = a i b i ( s 1 o )                                        (1≤i≤L)Ψ1(i)=0
其中,ai表示初始状态为状态i的概率,bi(s1 o)表示系统处于状态i的情况下,观测到“可靠矢量”s1 o的概率,即bi(s1)对s1 o的边缘化概率: b i ( s 1 o ) = P Q i ( S 1 o ) = ∫ P Q i ( S 1 ) ds m = ∫ P Q i ( S 1 o S m ) dS m 第二步,递推:(2≤t≤T,1≤j≤L)
Figure A0314747300024
(2≤t≤T,1≤j≤L)
其中,Aij表示系统从状态i转移到状态j的概率,bj(st o)表示系统处于状态j的情况下,观测到“可靠矢量”st o的概率,即bj(st)对st o的边缘化概率: b j ( s t o ) = P Q j ( S t o ) = ∫ P Q j ( S t ) dS m = ∫ P Q i ( S t o S m ) dS m 第三步,终止:
Figure A0314747300031
Figure A0314747300032
第四步,回溯,获取最优状态序列: q t * = ψ t + 1 ( q t + 1 * ) ( t = T - 1 , … , 1 )
第五步,MAP重建“缺失矢量”:
在时刻t,St所属状态xt确定后,基于最大概率准则(MAP)重建“缺失矢量”的实质是估计“缺失矢量”St m,使状态xt产生语音特征矢量(S=[St oSt m])的概率 最大: S ^ t m = arg max S m ( b x t ( S t o S t m ) )
在每个状态下,特征矢量分布为单高斯分布,即: b i ( S ) = P Q i ( S ) = exp { - 1 2 ( S - μ i ) t θ i - 1 ( S - μ i ) } ( 2 π ) n 2 | θ i | 1 2
其中,n是语音特征矢量维数,μi,θi是隐马尔可夫模型中第i个状态的均值矢量和协方差矩阵(1iL)。
根据状态分布为单高斯分布假设,求解,得到: S ^ t m = μ x t m + θ x t mo θ x t oo - 1 ( S o - μ x t o ) . . . . ( 4 - 61 )
其中,xt表示系统在时刻t系统所处的状态; 表示状态xt下,“可靠矢量”的均值矢量;
Figure A0314747300039
表示状态xt下,“缺失矢量”的均值矢量;
Figure A03147473000310
表示状态xt下,“可靠矢量”的协方差矩阵;
Figure A03147473000311
表示状态xt下,“可靠矢量”和“缺失矢量”间的协方差矩阵。
第六步,得到重建后的完整矢量: S ^ t = [ S t o S ^ t m ] .
4、如权利要求3所述的数据重建方法,其特征在于,算法步骤中所列
Figure A03147473000313
其中,Ψt+1(j)表示从时刻1到时刻t+1最优状态序列中,t时刻所处的状态xt的编号。
5、如权利要求1所述的数据重建方法,其特征在于,可以调整状态转移矩阵,不允许出现转移概率为0的情况:当转移概率为0时,用一个很小的概率来代替;同时,为了解决由于精度不够导致计算过程中出现的下溢问题,在递推过程中使用对数概率取代普通概率。
CNB03147473XA 2003-07-14 2003-07-14 语音识别的隐马尔可夫模型边缘化解码数据重建方法 Expired - Fee Related CN1201287C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB03147473XA CN1201287C (zh) 2003-07-14 2003-07-14 语音识别的隐马尔可夫模型边缘化解码数据重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB03147473XA CN1201287C (zh) 2003-07-14 2003-07-14 语音识别的隐马尔可夫模型边缘化解码数据重建方法

Publications (2)

Publication Number Publication Date
CN1475987A true CN1475987A (zh) 2004-02-18
CN1201287C CN1201287C (zh) 2005-05-11

Family

ID=34156154

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB03147473XA Expired - Fee Related CN1201287C (zh) 2003-07-14 2003-07-14 语音识别的隐马尔可夫模型边缘化解码数据重建方法

Country Status (1)

Country Link
CN (1) CN1201287C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016119501A1 (zh) * 2015-01-28 2016-08-04 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN108399415A (zh) * 2018-01-16 2018-08-14 电子科技大学 一种基于设备所处生命周期阶段的自适应数据采集方法
CN109376892A (zh) * 2018-06-12 2019-02-22 电子科技大学 一种基于设备所处生命周期阶段的设备状态预测方法
CN110990236A (zh) * 2019-10-08 2020-04-10 山东科技大学 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016119501A1 (zh) * 2015-01-28 2016-08-04 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN108399415A (zh) * 2018-01-16 2018-08-14 电子科技大学 一种基于设备所处生命周期阶段的自适应数据采集方法
CN108399415B (zh) * 2018-01-16 2020-03-27 电子科技大学 一种基于设备所处生命周期阶段的自适应数据采集方法
CN109376892A (zh) * 2018-06-12 2019-02-22 电子科技大学 一种基于设备所处生命周期阶段的设备状态预测方法
CN110990236A (zh) * 2019-10-08 2020-04-10 山东科技大学 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法

Also Published As

Publication number Publication date
CN1201287C (zh) 2005-05-11

Similar Documents

Publication Publication Date Title
CN101188107B (zh) 一种基于小波包分解及混合高斯模型估计的语音识别方法
CN101980336A (zh) 一种基于隐马尔可夫模型的汽车声音识别方法
CN101647061A (zh) 用于语音增强的噪声方差估计器
Hsu et al. Higher order cepstral moment normalization (HOCMN) for robust speech recognition
Borgström et al. HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
US6678656B2 (en) Noise reduced speech recognition parameters
CN1475987A (zh) 语音识别的隐马尔可夫模型边缘化解码数据重建方法
Farooq et al. Wavelet-based denoising for robust feature extraction for speech recognition
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Ayat et al. Wavelet based speech enhancement using a new thresholding algorithm
US7516069B2 (en) Middle-end solution to robust speech recognition
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
CN1302454C (zh) 语音识别的概率加权平均缺失特征数据重建方法
CN1212603C (zh) 非线性谱减缺失分量估计方法
Chen et al. Robust voice activity detection algorithm based on the perceptual wavelet packet transform
Chou et al. Automatic birdsong recognition with MFCC based syllable feature extraction
CN111583951A (zh) 一种基于深度特征损失的语音降噪方法及系统
Liu et al. Speech enhancement based on the integration of fully convolutional network, temporal lowpass filtering and spectrogram masking
Vanajakshi et al. Modified Wiener filter based speech restoration with autocorrelation of isolated Kannada word speech recognition
Górriz et al. Voice activity detection using higher order statistics
Wan et al. Joint uncertainty decoding (JUD) with histogram-based quantization (HQ) for robust and/or distributed speech recognition
Pwint et al. A new speech/non-speech classification method using minimal Walsh basis functions
Chen et al. Voice activity detection in car environment using support vector machine and wavelet transform
Ravuri On the use of spectro-temporal features in noise-additive speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee