CN113096650B - 一种基于先验概率的声学解码方法 - Google Patents

一种基于先验概率的声学解码方法 Download PDF

Info

Publication number
CN113096650B
CN113096650B CN202110233078.8A CN202110233078A CN113096650B CN 113096650 B CN113096650 B CN 113096650B CN 202110233078 A CN202110233078 A CN 202110233078A CN 113096650 B CN113096650 B CN 113096650B
Authority
CN
China
Prior art keywords
syllable
probability
acoustic
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110233078.8A
Other languages
English (en)
Other versions
CN113096650A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110233078.8A priority Critical patent/CN113096650B/zh
Publication of CN113096650A publication Critical patent/CN113096650A/zh
Application granted granted Critical
Publication of CN113096650B publication Critical patent/CN113096650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于先验概率的声学解码方法,包括如下步骤:统计训练语音文本音节序列中每个音节向其他音节转移的概率;用每个音节的全部训练语音进行模型训练,得到该音节的HMM;读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。

Description

一种基于先验概率的声学解码方法
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于先验概率的声学解码方法。
背景技术
在基于统计的语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden MarkovModel)描述每个语音单元(音节)特征向量的分布。在识别阶段,用每个音节的HMM计算当前语音特征向量的概率,并将输出概率最大的HMM对应的音节作为识别结果。
在实验室安静环境中,基于统计的语音识别系统可以取得很高的识别率。但是,语音的高频能量较小,容易受到环境噪声的干扰。因此,用实验室环境中得到的纯净语音声学模型对实际环境中提取的含噪语音特征向量进行声学解码时,有可能出现前几个似然值比较接近的情况,这时将最大似然值对应的音节作为识别结果,很有可能导致误判。实际上,语音识别系统的各音节之间不是独立的,它们存在着某种转移关系,从而导致声学解码的精度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于先验概率的声学解码方法,解决了声学解码精度不高的问题。
技术方案:本发明提出一种基于先验概率的声学解码方法,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
进一步的,包括:
所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。
进一步的,包括:
所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔频率倒谱系数作为训练语音的特征向量。
进一步的,包括:
所述隐马尔可夫模型第i个状态的概率密度函数表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
进一步的,包括:
所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
其中,Pij是上一个语音的识别结果;是加权后的输出概率似然值;
否则,若上一个语音的HMM的输出概率最大值与其他Q-1个值中的前几个较大值比较接近,则令即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
(54)比较得到的所有的大小,用最大/>值对应的音节作为声学解码的识别结果。
有益效果:本发明与现有技术相比,其显著优点是:本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于先验概率的声学解码方法,在该算法中,统计训练语音文本中每个音节向其他音节转移的概率,得到音节上下文模型;在声学解码时,用上一个语音的音节转移到每个音节的概率对每个HMM的输出概率进行加权,并将加权概率最大的HMM对应的音节作为当前语音声学解码的结果。
如图1所示为基于先验概率的声学解码方法的总体框架,主要包括音节合并、音节训练、特征提取、模型训练和声学解码模块。
该方法包括训练阶段和测试阶段,训练阶段首先采集训练语音文本,测试阶段采集测试语音文本。
具体的,(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
首先将汉语的所有音节编号,例如,音节wa编号为W1,然后将训练语音文本中的所有字都用其音节编号代替,得到若干个音节序列,每个音节序列对应训练语音文本的一句话。
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
所有音节转移的先验概率构成音节上下文模型,如下表所示:
音节1 音节2 音节3 音节j 音节N
音节1 P11 P12 P13 P1j P1N
音节2 P21 P22 P23 P2j P2N
音节3 P31 P32 P33 P3j P3N
音节i Pi1 Pi1 Pi3 Pij PiN
音节N PN1 PN2 PN3 PNj PNN
其中,Pij表中音节i向音节j转移的概率,1≤i≤N,1≤j≤N。
(3)对训练语音文本和测试语音文本进行预处理,包括加窗、分帧和快速傅里叶变换,提取训练语音和测试语音的美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficient),作为语音的特征向量。
(4)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
本发明用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为语音识别系统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
(5)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值。
(6)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
在声学解码中,首先用每个音节的HMM对当前测试语音的特征向量计算输出概率,并对输出概率取对数,得到每个HMM的似然值Lj,j=0,1,2…N-1,其中,N是HMM的数量,即音节的数量。
然后,将似然值从大到小排序,存储前Q个似然值,本实施例中存储前10个似然值,存储的似然值用于判断下一个语音是否需要概率加权。
然后,对当前语音进行声学解码时,读取上一个语音的HMM输出似然值,如果其最大值远大于其他9个值,则用音节转移的先验概率对HMM的输出概率进行加权,远大于是指最大值对应的概率值超过0.9,似然值是概率值的对数。
其中,Pij是上一个语音的识别结果(音节序号);是加权后的输出概率似然值。如果上一个语音的HMM的输出概率最大值与其他9个值中的前几个较大值比较接近,则令:
即不进行先验概率加权,直接用HMM的输出似然值进行声学解码。这是因为此时上一个语音的解码结果不太可靠,如果用它进行概率加权,会带来较大的误差。
最后,比较的大小,用最大/>值对应的音节作为声学解码的识别结果。

Claims (5)

1.一种基于先验概率的声学解码方法,其特征在于,包括如下步骤:
步骤(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
步骤(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
步骤(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
步骤(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
步骤(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;其中,远大于是指最大值对应的概率值超过0.9;
否则,若上一个语音的声学模型输出概率的最大值与后面的几个值接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
2.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为所有音节转移的先验概率构成所述音节上下文模型。
3.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔频率倒谱系数作为训练语音的特征向量。
4.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述隐马尔可夫模型第i个状态的概率密度函数表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
5.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
其中,Pij是上一个语音的识别结果;是加权后的输出概率似然值;远大于是指最大值对应的概率值超过0.9;
否则,若上一个语音的隐马尔可夫模型的输出概率最大值与其他Q-1个值中的前几个较大值接近,则令即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
(54)比较得到的所有的大小,用最大/>值对应的音节作为声学解码的识别结果。
CN202110233078.8A 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法 Active CN113096650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233078.8A CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233078.8A CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Publications (2)

Publication Number Publication Date
CN113096650A CN113096650A (zh) 2021-07-09
CN113096650B true CN113096650B (zh) 2023-12-08

Family

ID=76666442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233078.8A Active CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Country Status (1)

Country Link
CN (1) CN113096650B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
EP2048655A1 (en) * 2007-10-08 2009-04-15 Harman Becker Automotive Systems GmbH Context sensitive multi-stage speech recognition
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN110265003A (zh) * 2019-07-03 2019-09-20 四川大学 一种识别广播信号中语音关键字的方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112233657A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于低频音节识别的语音增强方法
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
EP2048655A1 (en) * 2007-10-08 2009-04-15 Harman Becker Automotive Systems GmbH Context sensitive multi-stage speech recognition
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN110265003A (zh) * 2019-07-03 2019-09-20 四川大学 一种识别广播信号中语音关键字的方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112233657A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于低频音节识别的语音增强方法
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于隐马尔可夫模型与并行模型组合的特征补偿算法》;吕勇, 吴镇扬;《东南大学学报(自然科学版)》;第39卷(第05期);889-893 *
《语音关键词识别系统的模型训练及性能评价》;李娜, 葛万成;《信息通信》(第03期);8-10 *
Wang L et,al..《Hybrid HMM-NN for Speech recognitionand prior class probabilities》.《9th International Conference on Neural Information Processing》.2002,2391-2395. *
Wooil Kim et,al..《An advanced feature compensation method employing acoustic model with phonetically constrained structure》.《2013 IEEE International Conference on Acoustics, Speech and Signal Processing》.2013,7083-7086. *

Also Published As

Publication number Publication date
CN113096650A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Manohar et al. Semi-supervised training of acoustic models using lattice-free MMI
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
CN109410914B (zh) 一种赣方言语音和方言点识别方法
Carlin et al. Rapid evaluation of speech representations for spoken term discovery
CN101030369B (zh) 基于子词隐含马尔可夫模型的嵌入式语音识别方法
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN112397054B (zh) 一种电力调度语音识别方法
US8706487B2 (en) Audio recognition apparatus and speech recognition method using acoustic models and language models
Itoh et al. N-best entropy based data selection for acoustic modeling
CN111179917A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
Novotney12 et al. Analysis of low-resource acoustic model self-training
CN113096650B (zh) 一种基于先验概率的声学解码方法
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
JP3027544B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Jiang et al. A dynamic in-search data selection method with its applications to acoustic modeling and utterance verification
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
Nadungodage et al. Efficient use of training data for sinhala speech recognition using active learning
Nazreen et al. A joint enhancement-decoding formulation for noise robust phoneme recognition
JPH10254477A (ja) 音素境界検出装置及び音声認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant