CN113096650A - 一种基于先验概率的声学解码方法 - Google Patents
一种基于先验概率的声学解码方法 Download PDFInfo
- Publication number
- CN113096650A CN113096650A CN202110233078.8A CN202110233078A CN113096650A CN 113096650 A CN113096650 A CN 113096650A CN 202110233078 A CN202110233078 A CN 202110233078A CN 113096650 A CN113096650 A CN 113096650A
- Authority
- CN
- China
- Prior art keywords
- syllable
- probability
- model
- acoustic
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于先验概率的声学解码方法,包括如下步骤:统计训练语音文本音节序列中每个音节向其他音节转移的概率;用每个音节的全部训练语音进行模型训练,得到该音节的HMM;读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于先验概率的声学解码方法。
背景技术
在基于统计的语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden MarkovModel)描述每个语音单元(音节)特征向量的分布。在识别阶段,用每个音节的HMM计算当前语音特征向量的概率,并将输出概率最大的HMM对应的音节作为识别结果。
在实验室安静环境中,基于统计的语音识别系统可以取得很高的识别率。但是,语音的高频能量较小,容易受到环境噪声的干扰。因此,用实验室环境中得到的纯净语音声学模型对实际环境中提取的含噪语音特征向量进行声学解码时,有可能出现前几个似然值比较接近的情况,这时将最大似然值对应的音节作为识别结果,很有可能导致误判。实际上,语音识别系统的各音节之间不是独立的,它们存在着某种转移关系,从而导致声学解码的精度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于先验概率的声学解码方法,解决了声学解码精度不高的问题。
技术方案:本发明提出一种基于先验概率的声学解码方法,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
进一步的,包括:
所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。
进一步的,包括:
所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
进一步的,包括:
所述隐马尔可夫模型第i个状态的概率密度函数表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
进一步的,包括:
所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
有益效果:本发明与现有技术相比,其显著优点是:本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于先验概率的声学解码方法,在该算法中,统计训练语音文本中每个音节向其他音节转移的概率,得到音节上下文模型;在声学解码时,用上一个语音的音节转移到每个音节的概率对每个HMM的输出概率进行加权,并将加权概率最大的HMM对应的音节作为当前语音声学解码的结果。
如图1所示为基于先验概率的声学解码方法的总体框架,主要包括音节合并、音节训练、特征提取、模型训练和声学解码模块,
该方法包括训练阶段和测试阶段,训练阶段首先采集训练语音文本,测试阶段采集测试语音文本,
具体的,(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
首先将汉语的所有音节编号,例如,音节wa编号为W1,然后将训练语音文本中的所有字都用其音节编号代替,得到若干个音节序列,每个音节序列对应训练语音文本的一句话。
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
所有音节转移的先验概率构成音节上下文模型,如下表所示:
音节1 | 音节2 | 音节3 | 音节j | 音节N | |||
音节1 | P<sub>11</sub> | P<sub>12</sub> | P<sub>13</sub> | … | P<sub>1j</sub> | … | P<sub>1N</sub> |
音节2 | P<sub>21</sub> | P<sub>22</sub> | P<sub>23</sub> | … | P<sub>2j</sub> | … | P<sub>2N</sub> |
音节3 | P<sub>31</sub> | P<sub>32</sub> | P<sub>33</sub> | … | P<sub>3j</sub> | … | P<sub>3N</sub> |
… | … | … | … | … | … | … | … |
音节i | P<sub>i1</sub> | P<sub>i1</sub> | P<sub>i3</sub> | … | P<sub>ij</sub> | … | P<sub>iN</sub> |
… | … | … | … | … | … | … | … |
音节N | P<sub>N1</sub> | P<sub>N2</sub> | P<sub>N3</sub> | … | P<sub>Nj</sub> | … | P<sub>NN</sub> |
其中,Pij表中音节i向音节j转移的概率,1≤i≤N,1≤j≤N。
(3)对训练语音文本和测试语音文本进行预处理,包括加窗、分帧和快速傅里叶变换,提取训练语音和测试语音的美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficient),作为语音的特征向量。
(4)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
本发明用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为语音识别系统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
(5)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(6)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
在声学解码中,首先用每个音节的HMM对当前测试语音的特征向量计算输出概率,并对输出概率取对数,得到每个HMM的似然值Lj,j=0,1,2…N-1,其中,N是HMM的数量,即音节的数量。
然后,将似然值从大到小排序,存储前Q个似然值,本实施例中存储前10个似然值,存储的似然值用于判断下一个语音是否需要概率加权。
然后,对当前语音进行声学解码时,读取上一个语音的HMM输出似然值,如果其最大值远大于其他9个值,则用音节转移的先验概率对HMM的输出概率进行加权,远大于是指最大值对应的概率值超过0.9,似然值是概率值的对数。
即不进行先验概率加权,直接用HMM的输出似然值进行声学解码。这是因为此时上一个语音的解码结果不太可靠,如果用它进行概率加权,会带来较大的误差。
Claims (5)
1.一种基于先验概率的声学解码方法,其特征在于,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
3.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
5.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233078.8A CN113096650B (zh) | 2021-03-03 | 2021-03-03 | 一种基于先验概率的声学解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233078.8A CN113096650B (zh) | 2021-03-03 | 2021-03-03 | 一种基于先验概率的声学解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096650A true CN113096650A (zh) | 2021-07-09 |
CN113096650B CN113096650B (zh) | 2023-12-08 |
Family
ID=76666442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110233078.8A Active CN113096650B (zh) | 2021-03-03 | 2021-03-03 | 一种基于先验概率的声学解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096650B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
EP2048655A1 (en) * | 2007-10-08 | 2009-04-15 | Harman Becker Automotive Systems GmbH | Context sensitive multi-stage speech recognition |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN103531196A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
CN110265003A (zh) * | 2019-07-03 | 2019-09-20 | 四川大学 | 一种识别广播信号中语音关键字的方法 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
CN112233659A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于双层声学模型的快速语音识别方法 |
-
2021
- 2021-03-03 CN CN202110233078.8A patent/CN113096650B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5473728A (en) * | 1993-02-24 | 1995-12-05 | The United States Of America As Represented By The Secretary Of The Navy | Training of homoscedastic hidden Markov models for automatic speech recognition |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
EP2048655A1 (en) * | 2007-10-08 | 2009-04-15 | Harman Becker Automotive Systems GmbH | Context sensitive multi-stage speech recognition |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN103531196A (zh) * | 2013-10-15 | 2014-01-22 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
CN110265003A (zh) * | 2019-07-03 | 2019-09-20 | 四川大学 | 一种识别广播信号中语音关键字的方法 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
CN112233657A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于低频音节识别的语音增强方法 |
CN112233659A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于双层声学模型的快速语音识别方法 |
Non-Patent Citations (4)
Title |
---|
WANG L ET, AL.: "《Hybrid HMM-NN for Speech recognitionand prior class probabilities》", 《9TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》, pages 2391 - 2395 * |
WOOIL KIM ET, AL.: "《An advanced feature compensation method employing acoustic model with phonetically constrained structure》", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》, pages 7083 - 7086 * |
吕勇, 吴镇扬: "《基于隐马尔可夫模型与并行模型组合的特征补偿算法》", 《东南大学学报(自然科学版)》, vol. 39, no. 05, pages 889 - 893 * |
李娜, 葛万成: "《语音关键词识别系统的模型训练及性能评价》", 《信息通信》, no. 03, pages 8 - 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN113096650B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
Lengerich et al. | An end-to-end architecture for keyword spotting and voice activity detection | |
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
US9037463B2 (en) | Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition | |
Karita et al. | Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition | |
US8762148B2 (en) | Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program | |
Kannadaguli et al. | A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
Kannadaguli et al. | Phoneme modeling for speech recognition in Kannada using Hidden Markov Model | |
JP3027544B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
CN113096650B (zh) | 一种基于先验概率的声学解码方法 | |
Kannadaguli et al. | A comparison of Bayesian multivariate modeling and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in kannada | |
KR100612843B1 (ko) | 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3039399B2 (ja) | 非母国語音声認識装置 | |
Patil et al. | Automatic speech recognition models: A characteristic and performance review | |
Aşlyan | Syllable Based Speech Recognition | |
Wang et al. | Improved end-to-end speech recognition using adaptive per-dimensional learning rate methods | |
Nazreen et al. | A joint enhancement-decoding formulation for noise robust phoneme recognition | |
Shafran et al. | Task-specific minimum Bayes-risk decoding using learned edit distance. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |