CN101819772B - 一种基于语音分段的孤立词识别方法 - Google Patents

一种基于语音分段的孤立词识别方法 Download PDF

Info

Publication number
CN101819772B
CN101819772B CN2010101105182A CN201010110518A CN101819772B CN 101819772 B CN101819772 B CN 101819772B CN 2010101105182 A CN2010101105182 A CN 2010101105182A CN 201010110518 A CN201010110518 A CN 201010110518A CN 101819772 B CN101819772 B CN 101819772B
Authority
CN
China
Prior art keywords
syllable
isolated word
voice
know
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101105182A
Other languages
English (en)
Other versions
CN101819772A (zh
Inventor
廖广锐
刘萍
汤磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
No709 Inst China Ship Heavy Industry Group Co Ltd
709th Research Institute of CSIC
Original Assignee
No709 Inst China Ship Heavy Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by No709 Inst China Ship Heavy Industry Group Co Ltd filed Critical No709 Inst China Ship Heavy Industry Group Co Ltd
Priority to CN2010101105182A priority Critical patent/CN101819772B/zh
Publication of CN101819772A publication Critical patent/CN101819772A/zh
Application granted granted Critical
Publication of CN101819772B publication Critical patent/CN101819772B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法。其优点是:识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配,因此该方法可以提高识别性能;每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词,因此该方法可以提高识别响应时间。

Description

一种基于语音分段的孤立词识别方法
技术领域
本发明涉及自动语音识别技术领域,具体的说是一种基于语音分段的孤立词识别方法。
背景技术
目前所用到的非特定人孤立词语音识别方法都是基于隐马尔可夫模型(Hidden Markov Model,HMM),在语音识别过程中,将待识语音的所有特征参数与词表内所有孤立词的HMM作匹配处理,计算出最大的概率值作识别结果。
传统的非特定人孤立词语音识别方法是顺序的计算出待识语音特征参数停留在每个孤立词中最后一个音节或半音节(即最后一个状态)的输出概率,将概率最大的孤立词作为识别结果。这种一次性计算出待识语音对该孤立词的总概率的方法,不可避免错误的识别出来一些与待识语音总体特征相似的孤立词。
发明内容
本发明的目的是研制一种能有效地解决现有孤立词语音识别方法中的缺陷、语音识别性能高、识别响应时间短的基于语音分段的孤立词识别方法。
本发明一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
P 1 ‾ = ( Σ i = 1 Δn 1 ( P 1 i / ( n 1 + i ) ) ) / Δn 1
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节的平均概率,并依次拒识掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率
Figure GSB00000689790200022
其计算方法与计算公式与①式类似:
P 2 ‾ = ( Σ j = 1 Δn 2 ( P 2 j / ( n 2 + j ) ) ) / Δn 2
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节的相对最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。
本发明一种基于语音分段的孤立词识别方法的优点是:识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配,因此该方法可以提高识别性能;每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词,因此该方法可以提高识别响应时间。
附图说明
图1为基于语音分段的孤立词识别方法的流程图。
具体实施方式
根据图1所示,一种基于语音分段的孤立词识别方法,其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
P 1 ‾ = ( Σ i = 1 Δn 1 ( P 1 i / ( n 1 + i ) ) ) / Δn 1
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节的平均概率,并依次拒识掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率
Figure GSB00000689790200042
其计算方法与计算公式与①式类似:
P 2 ‾ = ( Σ j = 1 Δn 2 ( P 2 j / ( n 2 + j ) ) ) / Δn 2
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节的相对最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。

Claims (1)

1.一种基于语音分段的孤立词识别方法,其特征在于:其语音训练所得的连续HMM模型是以音节或半音节作为基元,将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型,识别时采用Viterbi算法;
其具体步骤如下:
(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元;
(2)记录Δn1帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率,拒识其概率值小于指定阈值的孤立词,选出那些概率值比较大的孤立词作为下一次的匹配对象;具体的说,根据待识语音的特征参数,计算出第n1帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值P11,并且该最大概率值既大于待识语音停留在前一状态的最大概率值也大于待识语音停留在后一状态的最大概率值,P11为计算完对数的概率值,再判断后面的连续Δn1-1帧停留在第一个孤立词的第一个音节或半音节末尾状态是否也是最大概率及其概率值P1i,其中1<i<Δn1+1,其平均概率值按如下公式①计算:
Figure FSB00000703417900011
P1i代表从第n1帧起第i帧数据停留在第一个孤立词的第一个音节或半音节末尾状态的最大概率;
(3)依次类推,计算待识语音其它的帧停留在词表内未拒识的每个孤立词第二、第三……倒数第二个音节或半音节末尾状态的平均概率,并依次拒识 掉部分概率值比较小的孤立词;具体的说,计算待识语音第n2帧并连续Δn2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率 
Figure FSB00000703417900021
其计算方法与计算公式与①式类似:
Figure FSB00000703417900022
P2j代表从第n2帧起第j帧数据停留在第一个孤立词第二个音节或半音节末尾状态的最大概率;
同理,计算出待识语音停留在其它孤立词的第二个音节或半音节末尾状态的平均概率,再拒识掉部分平均概率值小于某一指定阈值的孤立词;
(4)计算待识语音最后几帧停留在词表内未拒识的每个孤立词的最后一个音节或半音节末尾状态的平均概率,并将最大平均概率值所代表的孤立词作为识别结果输出。 
CN2010101105182A 2010-02-09 2010-02-09 一种基于语音分段的孤立词识别方法 Expired - Fee Related CN101819772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101105182A CN101819772B (zh) 2010-02-09 2010-02-09 一种基于语音分段的孤立词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101105182A CN101819772B (zh) 2010-02-09 2010-02-09 一种基于语音分段的孤立词识别方法

Publications (2)

Publication Number Publication Date
CN101819772A CN101819772A (zh) 2010-09-01
CN101819772B true CN101819772B (zh) 2012-03-28

Family

ID=42654846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101105182A Expired - Fee Related CN101819772B (zh) 2010-02-09 2010-02-09 一种基于语音分段的孤立词识别方法

Country Status (1)

Country Link
CN (1) CN101819772B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103337241B (zh) * 2013-06-09 2015-06-24 北京云知声信息技术有限公司 一种语音识别方法和装置
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN111048068B (zh) * 2018-10-11 2023-04-18 阿里巴巴集团控股有限公司 语音唤醒方法、装置、系统及电子设备
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN112435655B (zh) * 2020-10-16 2023-11-07 北京紫光青藤微系统有限公司 一种孤立词语音识别的数据采集及模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1279806A (zh) * 1997-09-19 2001-01-10 微软公司 用于识别连续和分立语音的语音识别系统
EP0829850B1 (de) * 1996-09-17 2001-12-12 Siemens Aktiengesellschaft Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0829850B1 (de) * 1996-09-17 2001-12-12 Siemens Aktiengesellschaft Verfahren zur Zurückweisung unbekannter Wörter bei der Spracherkennung von Einzelworten
CN1279806A (zh) * 1997-09-19 2001-01-10 微软公司 用于识别连续和分立语音的语音识别系统
CN1741131A (zh) * 2004-08-27 2006-03-01 中国科学院自动化研究所 一种非特定人孤立词语音识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G.Vysotsky.Speaker-independent isolated word recognition using a one-pass analysis.《IEEE International Conference on Acoustics, Speech, and Signal Processing》.1984,368-371. *
廖广锐等.基于CHMM孤立词识别系统的快速实现.《信息化纵横》.2009,(第13期),73-75,78. *

Also Published As

Publication number Publication date
CN101819772A (zh) 2010-09-01

Similar Documents

Publication Publication Date Title
CN101819772B (zh) 一种基于语音分段的孤立词识别方法
CN108986791B (zh) 针对民航陆空通话领域的中英文语种语音识别方法及系统
CN106463113B (zh) 在语音辨识中预测发音
CN107221318B (zh) 英语口语发音评分方法和系统
US9070367B1 (en) Local speech recognition of frequent utterances
CN105632499B (zh) 用于优化语音识别结果的方法和装置
US9330667B2 (en) Method and system for endpoint automatic detection of audio record
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
US20120239401A1 (en) Voice recognition system and voice recognition method
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
CN106548775B (zh) 一种语音识别方法和系统
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
KR20090123396A (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
CN1141696C (zh) 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
EP1471501A3 (en) Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
US11972751B2 (en) Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice
EP1225567A3 (en) Method and apparatus for speech recognition
US9378729B1 (en) Maximum likelihood channel normalization
Mporas et al. A hybrid architecture for automatic segmentation of speech waveforms
Koriyama et al. Conversational spontaneous speech synthesis using average voice model.
CN110265018B (zh) 一种连续发出的重复命令词识别方法
KR101578766B1 (ko) 음성 인식용 탐색 공간 생성 장치 및 방법
Valenti et al. On the Influence of Text Content on Pass-Phrase Strength for Short-Duration Text-Dependent Automatic Speaker Authentication.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120328

Termination date: 20200209

CF01 Termination of patent right due to non-payment of annual fee