CN1112269A - 基于汉语发音特点的hmm语音识别技术 - Google Patents

基于汉语发音特点的hmm语音识别技术 Download PDF

Info

Publication number
CN1112269A
CN1112269A CN 94105340 CN94105340A CN1112269A CN 1112269 A CN1112269 A CN 1112269A CN 94105340 CN94105340 CN 94105340 CN 94105340 A CN94105340 A CN 94105340A CN 1112269 A CN1112269 A CN 1112269A
Authority
CN
China
Prior art keywords
speech
state
model
word
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 94105340
Other languages
English (en)
Inventor
肖熙
王作英
战普明
姜进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaofan Electronic Sci & Tech Co Ltd Beijing
Original Assignee
Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaofan Electronic Sci & Tech Co Ltd Beijing filed Critical Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority to CN 94105340 priority Critical patent/CN1112269A/zh
Publication of CN1112269A publication Critical patent/CN1112269A/zh
Pending legal-status Critical Current

Links

Abstract

本发明基于汉语发音特点的HMM语音识别技 术,属于语音信号处理和识别技术领域。本发明将基 于段长的隐含马尔可夫模型方法具体应用于计算机 汉语语音识别,从而使计算机既能对特定人或非特定 人汉语语音特点进行识别,又可识别孤立汉字、词组 以及连续语音,而且在计算机语音识别系统中进行足 够的语音训练后,达到语音识别的高识别率,高稳定 性。

Description

本发明基于汉语发音特点的HMM语音识别技术属于语音信号处理和识别技术领域。
目前利用计算机汉语语音识别技术,在语音识别实用化、产品化方面做的比较好是四达公司的STAR-863语音识别系统,它属于特定人孤立字全字表语音识别系统,采用DTW(动态时间变形法),特别适合于特定人的语音识别系统,而且识别精确度比较高,但由DTW方法所限,其模型的延续性特征的积累能力不强,因此很难推广应用到非特定人的语音系统。
本发明的目的:解决语音特征的提取问题,即解决由于汉语语音的不平衡性和多变性使得语音信号处理困难的问题,使语音识别系统既可应于特定人语音识别系统,又可应用于非特定人语音识别系统,既能识别孤立字音,又能识别词组和连续语音,并避免前述技术之不足,以达到语音识别系统广泛应用的目的。
本发明基于汉语发音特点的HMM语音识别技术的基本技特征:把HMM模型加以改进并按汉语发音特征进行模型训练来完成汉语语音特征的提取和识别。HMM模型是由一个状态概率π,状态转移A和状态相关联的概率分布阵B组成的三元组(π,A,B)。设状态数N,则:
π=(π1,π2,…,πN),A={aijNXN,B={b1,b2…bN
经典HMM中(π,A)是一个齐次Markov过程,其中aii是一个与时间无关的常数,从而状态i的驻留长度τ是指数分布:
这与语音的物理事实不符。事实上语音识别之所以成为可能就在于语音基本单位(如音素)对应的特征具有聚类性。在物理上HMM的状态必与某个语音单位相对应。本发明从状态驻留长度的概率分布函数出发,导出了一个基长段长分布的非齐次HMM模型,称为DDBHMM(Duration Distribution Based Markov Model)。
语音Markov模型的驻留长度相对稳定,而且不同字对应状态具有不同的驻留长度这一点,说明状态驻留长度信息对语音识别是非常重要。状态驻留长度的概率分布Pi(i=1,…,N)和状态转移概率aij(i,j=1,2,…,N)是一一对应的。因此,更合理的确定Markov模型的状态驻留长度分布函数{Pi(τ)}从而导出转移阵{aijNXN。已知{Pi(τ)}则:
aii(k)=Pi(τ≥K/τ≥K-1)
= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))
= (Pi(τ≥K))/(Pi(τ≥K-1))
设每状态相互独立:
aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
aij(k)表示K时刻由i转j的概率,aii(k)表示K时刻驻留原始状态i的概率,一般aii与驻留时间有关,从而aij必与K有关。
任何字或词的模型都是一组参数M={π,A,B},为对识别器进行训练,必须为每一个字词建立一个模型库。对每一个字词确定状态转移阵A,状态概率π及特征参数B,识别时系统给出一个观测序列0,那个字词模型产生这一观测序列的概率最大,就把未知字词判为这个字或词,识别结果定义为:
Figure 941053407_IMG4
其中语音的观测序列0=(01,…,0T),Kj(j)=1,2,…,N对应于最优分割的状态驻留长度。
模型训练的训练方法采用迭代法:先对A.B和π都假设一初始值,然后用待识别语音的观测序列以一定的方法对这些估值提纯;对提纯的值要接着进一步提纯,这个过程一直进行下去,直到没有改进余地为止,得到库存模型。
选取训练方法训练集中的部分能充分表达汉语发音特点的字或词,通过Viterbi算法做状态分割:
Figure 941053407_IMG5
以此为初始值序列,对其它的字进行分割。提纯过程同样也采用Viterbi算法,在分割状态时,根据每个字或词的发音特点,使用相应的初始矢量序列的组合作为初始值,对该字或词进行分割,分割后的结果再按该字或词的发音特点,将各状态分解到相应的初始值序列,并与初始值序列中相应的矢量进行聚类,产生新的初始值。将这种算法应用于所有可能的库存模型。
上述发明的模型和算法已在用于特定人的语音识别系统-知音文书处理系统上实现。
本发明的优点:
与DTM相比,本发明真实地反映了作为语音编码的语音信号的随机性和状态的隐含性,因而更能反映语音信号的产生过程及其内在规律。具有如下优点:
1.它作为一种概率参数模型,在识别时无须进行距离计算,用Viterbi识别算法速度很快,易于在现有技术条件下,以低廉的价格实现。
2.改进的模型具有比较大的适应性,当训练足够广,足够大时,易于实现与特定人无关的识别系统。
3.易于由孤立字系统向连续语音识别过渡。
4.DDBHMM是根据语音基本单位对应的特征具有聚类性这一物理事实导出的非齐次HMM,识别效果较优,且稳定性好。

Claims (7)

1、本发明基于汉语发音特点的HMM语音识别技术,其基本特征在于:用基于段长的DDBHMM模型进行模型训练来完成汉语语音特征的提取和识别。
2、根据权利要求1所述,基于汉语发音特点的HMM语音识别技术的特征在于:因为状态驻留长度的概率分布Pi(i=1,…,N)和状态转移概率aij(i,j=1,2,…,N)是一一对应的,因此更合理的确定Markov模型的状态驻留长度分布函数{Pi(τ)}从而导出转移阵{aijNXNO已知{Pi(τ)}则:
aii(k)=Pi(τ≥K/τ≥K-1)
= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))
= (Pi(τ≥K))/(Pi(τ≥K-1))
设每状态相互独立:
aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
aij(k)表示K时刻由i转j的概率,aii(k)表示K时刻驻留原始状态i的概率,一般aii与驻留时间有关,从而aij必与K有关。
3、根据权利要求1所述,基于汉语发音特点的HMM语音识别技术的特征在:任何字或词的模型都是一组参数M={π,A,B},为对识别器进行训练,必须为每一个字词建立一个模型库。
4、根据权利要求1或3所述,基于汉语发音特点的HMM语音识别技术的特征在于:对每一个字词确定状态转移阵A,状态概率π及特征参数B。识别时系统给出一个观测序列0,那个字词模型产生这一观测序列的概率最大,就把未知字词判为这个字或词,识别结果定义为:
Figure 941053407_IMG1
其中语音的观测序列0=(01…,0T),Kj(j=1,2,…,N)对应于最优分割的状态驻留长度。
5、根据权利要求1或3所述,基于汉语发音特点的HMM语音识别技术的特征在于:模型训练的训练方法采用迭代法,即先对A.B和π都假设一初始值,然后用待识别语音的观测序列以一定的方法对这些估值提纯;对提纯的值要接着进一步提纯,这个过程一直进行下去,直到没有改进余地为止,得到库存模型。
6、根据权利要求1或4所述,基于汉语发音特点的HMM语音识别技术的特征在于:选取训练方法训练集中的部分能充分表达汉语发音特点的字或词,通过Viterbi算法做状态分割:
Figure 941053407_IMG2
以此为初始值序列,对其它的字进行分割。
7、根据权利要求1或4所述,基于汉语发音特点的HMM语音识别技术的特征在于:提纯过程也采用Viterbi算法,在分割状态时,根据每个字或词的发音特点,使用相应的初始矢量序列的组合作为初始值,对该字或词进行分割,分割后的结果再按该字或词的发音特点,将各状态分解到相应的初始值序列,并与初始值序列中相应的矢量进行聚类,产生新的初始值,这种算法应用于所有可能的库存模型。
CN 94105340 1994-05-20 1994-05-20 基于汉语发音特点的hmm语音识别技术 Pending CN1112269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 94105340 CN1112269A (zh) 1994-05-20 1994-05-20 基于汉语发音特点的hmm语音识别技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 94105340 CN1112269A (zh) 1994-05-20 1994-05-20 基于汉语发音特点的hmm语音识别技术

Publications (1)

Publication Number Publication Date
CN1112269A true CN1112269A (zh) 1995-11-22

Family

ID=5032020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 94105340 Pending CN1112269A (zh) 1994-05-20 1994-05-20 基于汉语发音特点的hmm语音识别技术

Country Status (1)

Country Link
CN (1) CN1112269A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029616A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
WO2002029617A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (lvcsr) system
CN100359507C (zh) * 2002-06-28 2008-01-02 三星电子株式会社 用于执行观察概率计算的装置和方法
CN100397387C (zh) * 2002-11-28 2008-06-25 新加坡科技研究局 数字声音数据的摘要制作方法和设备
CN104126165A (zh) * 2011-12-19 2014-10-29 斯班逊有限公司 算术逻辑单元架构

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029616A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method, apparatus, and system for bottom-up tone integration to chinese continuous speech recognition system
WO2002029617A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (lvcsr) system
US7181391B1 (en) 2000-09-30 2007-02-20 Intel Corporation Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
CN100359507C (zh) * 2002-06-28 2008-01-02 三星电子株式会社 用于执行观察概率计算的装置和方法
CN100397387C (zh) * 2002-11-28 2008-06-25 新加坡科技研究局 数字声音数据的摘要制作方法和设备
CN104126165A (zh) * 2011-12-19 2014-10-29 斯班逊有限公司 算术逻辑单元架构

Similar Documents

Publication Publication Date Title
Sak et al. Fast and accurate recurrent neural network acoustic models for speech recognition
Halberstadt et al. Heterogeneous acoustic measurements for phonetic classification 1.
Lee et al. Allophone clustering for continuous speech recognition
CN1156819C (zh) 由文本生成个性化语音的方法
CN110737764B (zh) 一种个性化对话内容生成方法
Zweig et al. Speech recognition with dynamic Bayesian networks
CN108492820A (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
EP0535146A4 (zh)
JP2005043666A (ja) 音声認識装置
Paliwal Use of temporal correlation between successive frames in a hidden Markov model based speech recognizer
CN103578481B (zh) 一种跨语言的语音情感识别方法
CA2122575A1 (en) Speaker Independent Isolated Word Recognition System Using Neural Networks
EP0689193A1 (en) Speech recognition using dynamic features
CN1112269A (zh) 基于汉语发音特点的hmm语音识别技术
Lee et al. Gaussian mixture selection using context-independent HMM
Fritsch et al. Adaptively growing hierarchical mixtures of experts
Chandra et al. An overview of speech recognition and speech synthesis algorithms
Wolfertstetter et al. Structured Markov models for speech recognition
Zen et al. Decision tree-based simultaneous clustering of phonetic contexts, dimensions, and state positions for acoustic modeling.
CN112183086A (zh) 基于意群标注的英语发音连读标记模型
Gutkin et al. Structural representation of speech for phonetic classification
Ben-Harush et al. Weighted segmental k-means initialization for SOM-based speaker clustering.
Harte et al. A novel model for phoneme recognition using phonetically derived features
KR100284405B1 (ko) 은닉 마르코브 모델 핵심어 검출에 적합한 계산량 감축 방법
Gillick et al. Rapid Match Training for Large Vocabularies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Chaofan Electronic Sci & Tech Co., Ltd., Beijing

Document name: Deemed as a notice of withdrawal