CN101819772B - 一种基于语音分段的孤立词识别方法 - Google Patents
一种基于语音分段的孤立词识别方法 Download PDFInfo
- Publication number
- CN101819772B CN101819772B CN2010101105182A CN201010110518A CN101819772B CN 101819772 B CN101819772 B CN 101819772B CN 2010101105182 A CN2010101105182 A CN 2010101105182A CN 201010110518 A CN201010110518 A CN 201010110518A CN 101819772 B CN101819772 B CN 101819772B
- Authority
- CN
- China
- Prior art keywords
- syllable
- isolated word
- voice
- know
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法。其优点是:识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配,因此该方法可以提高识别性能;每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词,因此该方法可以提高识别响应时间。
Description
技术领域
本发明涉及自动语音识别技术领域,具体的说是一种基于语音分段的孤立词识别方法。
背景技术
目前所用到的非特定人孤立词语音识别方法都是基于隐马尔可夫模型(Hidden Markov Model,HMM),在语音识别过程中,将待识语音的所有特征参数与词表内所有孤立词的HMM作匹配处理,计算出最大的概率值作识别结果。
传统的非特定人孤立词语音识别方法是顺序的计算出待识语音特征参数停留在每个孤立词中最后一个音节或半音节(即最后一个状态)的输出概率,将概率最大的孤立词作为识别结果。这种一次性计算出待识语音对该孤立词的总概率的方法,不可避免错误的识别出来一些与待识语音总体特征相似的孤立词。
发明内容
本发明的目的是研制一种能有效地解决现有孤立词语音识别方法中的缺陷、语音识别性能高、识别响应时间短的基于语音分段的孤立词识别方法。
本发明一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节的平均概率,并依次拒识掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率其计算方法与计算公式与①式类似:
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节的相对最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。
本发明一种基于语音分段的孤立词识别方法的优点是:识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配,因此该方法可以提高识别性能;每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词,因此该方法可以提高识别响应时间。
附图说明
图1为基于语音分段的孤立词识别方法的流程图。
具体实施方式
根据图1所示,一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节的平均概率,并依次拒识掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率其计算方法与计算公式与①式类似:
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节的相对最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。
Claims (1)
1.一种基于语音分段的孤立词识别方法,其特征在于:其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录Δn1帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节末尾状态的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节末尾状态的平均概率,并依次拒识 掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率 其计算方法与计算公式与①式类似:
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节末尾状态的最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节末尾状态的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节末尾状态的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101105182A CN101819772B (zh) | 2010-02-09 | 2010-02-09 | 一种基于语音分段的孤立词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101105182A CN101819772B (zh) | 2010-02-09 | 2010-02-09 | 一种基于语音分段的孤立词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101819772A CN101819772A (zh) | 2010-09-01 |
CN101819772B true CN101819772B (zh) | 2012-03-28 |
Family
ID=42654846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101105182A Expired - Fee Related CN101819772B (zh) | 2010-02-09 | 2010-02-09 | 一种基于语音分段的孤立词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101819772B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103337241B (zh) * | 2013-06-09 | 2015-06-24 | 北京云知声信息技术有限公司 | 一种语音识别方法和装置 |
CN104900232A (zh) * | 2015-04-20 | 2015-09-09 | 东南大学 | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 |
CN110610695B (zh) * | 2018-05-28 | 2022-05-17 | 宁波方太厨具有限公司 | 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机 |
CN111048068B (zh) * | 2018-10-11 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 语音唤醒方法、装置、系统及电子设备 |
CN111160024B (zh) * | 2019-12-30 | 2023-08-15 | 广州广电运通信息科技有限公司 | 基于统计的中文分词方法、系统、装置和存储介质 |
CN112435655B (zh) * | 2020-10-16 | 2023-11-07 | 北京紫光青藤微系统有限公司 | 一种孤立词语音识别的数据采集及模型训练方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1279806A (zh) * | 1997-09-19 | 2001-01-10 | 微软公司 | 用于识别连续和分立语音的语音识别系统 |
EP0829850B1 (de) * | 1996-09-17 | 2001-12-12 | Siemens Aktiengesellschaft | Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten |
CN1741131A (zh) * | 2004-08-27 | 2006-03-01 | 中国科学院自动化研究所 | 一种非特定人孤立词语音识别方法及装置 |
-
2010
- 2010-02-09 CN CN2010101105182A patent/CN101819772B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0829850B1 (de) * | 1996-09-17 | 2001-12-12 | Siemens Aktiengesellschaft | Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten |
CN1279806A (zh) * | 1997-09-19 | 2001-01-10 | 微软公司 | 用于识别连续和分立语音的语音识别系统 |
CN1741131A (zh) * | 2004-08-27 | 2006-03-01 | 中国科学院自动化研究所 | 一种非特定人孤立词语音识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
G.Vysotsky.Speaker-independent isolated word recognition using a one-pass analysis.《IEEE International Conference on Acoustics, Speech, and Signal Processing》.1984,368-371. * |
廖广锐等.基于CHMM孤立词识别系统的快速实现.《信息化纵横》.2009,(第13期),73-75,78. * |
Also Published As
Publication number | Publication date |
---|---|
CN101819772A (zh) | 2010-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101819772B (zh) | 一种基于语音分段的孤立词识别方法 | |
CN108986791B (zh) | 针对民航陆空通话领域的中英文语种语音识别方法及系统 | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
CN107221318B (zh) | 英语口语发音评分方法和系统 | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
CN105632499B (zh) | 用于优化语音识别结果的方法和装置 | |
US9330667B2 (en) | Method and system for endpoint automatic detection of audio record | |
CN101118745B (zh) | 语音识别系统中的置信度快速求取方法 | |
US20120239401A1 (en) | Voice recognition system and voice recognition method | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
KR20090123396A (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 | |
CN1141696C (zh) | 基于语音识别专用芯片的非特定人语音识别、语音提示方法 | |
CN101887725A (zh) | 一种基于音素混淆网络的音素后验概率计算方法 | |
EP1471501A3 (en) | Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
US11972751B2 (en) | Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice | |
EP1225567A3 (en) | Method and apparatus for speech recognition | |
US9378729B1 (en) | Maximum likelihood channel normalization | |
Mporas et al. | A hybrid architecture for automatic segmentation of speech waveforms | |
Koriyama et al. | Conversational spontaneous speech synthesis using average voice model. | |
CN110265018B (zh) | 一种连续发出的重复命令词识别方法 | |
KR101578766B1 (ko) | 음성 인식용 탐색 공간 생성 장치 및 방법 | |
Valenti et al. | On the Influence of Text Content on Pass-Phrase Strength for Short-Duration Text-Dependent Automatic Speaker Authentication. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120328 Termination date: 20200209 |
|
CF01 | Termination of patent right due to non-payment of annual fee |