CN113096650A - 一种基于先验概率的声学解码方法 - Google Patents

一种基于先验概率的声学解码方法 Download PDF

Info

Publication number
CN113096650A
CN113096650A CN202110233078.8A CN202110233078A CN113096650A CN 113096650 A CN113096650 A CN 113096650A CN 202110233078 A CN202110233078 A CN 202110233078A CN 113096650 A CN113096650 A CN 113096650A
Authority
CN
China
Prior art keywords
syllable
probability
model
acoustic
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110233078.8A
Other languages
English (en)
Other versions
CN113096650B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110233078.8A priority Critical patent/CN113096650B/zh
Publication of CN113096650A publication Critical patent/CN113096650A/zh
Application granted granted Critical
Publication of CN113096650B publication Critical patent/CN113096650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于先验概率的声学解码方法,包括如下步骤:统计训练语音文本音节序列中每个音节向其他音节转移的概率;用每个音节的全部训练语音进行模型训练,得到该音节的HMM;读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。

Description

一种基于先验概率的声学解码方法
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于先验概率的声学解码方法。
背景技术
在基于统计的语音识别系统中,一般用隐马尔可夫模型(HMM:Hidden MarkovModel)描述每个语音单元(音节)特征向量的分布。在识别阶段,用每个音节的HMM计算当前语音特征向量的概率,并将输出概率最大的HMM对应的音节作为识别结果。
在实验室安静环境中,基于统计的语音识别系统可以取得很高的识别率。但是,语音的高频能量较小,容易受到环境噪声的干扰。因此,用实验室环境中得到的纯净语音声学模型对实际环境中提取的含噪语音特征向量进行声学解码时,有可能出现前几个似然值比较接近的情况,这时将最大似然值对应的音节作为识别结果,很有可能导致误判。实际上,语音识别系统的各音节之间不是独立的,它们存在着某种转移关系,从而导致声学解码的精度不高。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于先验概率的声学解码方法,解决了声学解码精度不高的问题。
技术方案:本发明提出一种基于先验概率的声学解码方法,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
进一步的,包括:
所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
Figure BDA0002959421510000021
所有音节转移的先验概率构成所述音节上下文模型。
进一步的,包括:
所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
进一步的,包括:
所述隐马尔可夫模型第i个状态的概率密度函数表示为:
Figure BDA0002959421510000022
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
进一步的,包括:
所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
Figure BDA0002959421510000031
其中,Pij是上一个语音的识别结果;
Figure BDA0002959421510000032
是加权后的输出概率似然值;
否则,若上一个语音的HMM的输出概率最大值与其他Q-1个值中的前几个较大值比较接近,则令
Figure BDA0002959421510000033
即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
(54)比较得到的所有
Figure BDA0002959421510000034
的大小,用最大
Figure BDA0002959421510000035
值对应的音节作为声学解码的识别结果。
有益效果:本发明与现有技术相比,其显著优点是:本发明在声学解码时,除了每个HMM的输出概率,还考虑上一个音节对当前语音的影响,将其作为当前语音的先验概率,可以提高声学解码的精度。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于先验概率的声学解码方法,在该算法中,统计训练语音文本中每个音节向其他音节转移的概率,得到音节上下文模型;在声学解码时,用上一个语音的音节转移到每个音节的概率对每个HMM的输出概率进行加权,并将加权概率最大的HMM对应的音节作为当前语音声学解码的结果。
如图1所示为基于先验概率的声学解码方法的总体框架,主要包括音节合并、音节训练、特征提取、模型训练和声学解码模块,
该方法包括训练阶段和测试阶段,训练阶段首先采集训练语音文本,测试阶段采集测试语音文本,
具体的,(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
首先将汉语的所有音节编号,例如,音节wa编号为W1,然后将训练语音文本中的所有字都用其音节编号代替,得到若干个音节序列,每个音节序列对应训练语音文本的一句话。
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
Figure BDA0002959421510000041
所有音节转移的先验概率构成音节上下文模型,如下表所示:
音节1 音节2 音节3 音节j 音节N
音节1 P<sub>11</sub> P<sub>12</sub> P<sub>13</sub> P<sub>1j</sub> P<sub>1N</sub>
音节2 P<sub>21</sub> P<sub>22</sub> P<sub>23</sub> P<sub>2j</sub> P<sub>2N</sub>
音节3 P<sub>31</sub> P<sub>32</sub> P<sub>33</sub> P<sub>3j</sub> P<sub>3N</sub>
音节i P<sub>i1</sub> P<sub>i1</sub> P<sub>i3</sub> P<sub>ij</sub> P<sub>iN</sub>
音节N P<sub>N1</sub> P<sub>N2</sub> P<sub>N3</sub> P<sub>Nj</sub> P<sub>NN</sub>
其中,Pij表中音节i向音节j转移的概率,1≤i≤N,1≤j≤N。
(3)对训练语音文本和测试语音文本进行预处理,包括加窗、分帧和快速傅里叶变换,提取训练语音和测试语音的美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficient),作为语音的特征向量。
(4)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
本发明用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为语音识别系统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:
Figure BDA0002959421510000051
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
(5)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(6)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
在声学解码中,首先用每个音节的HMM对当前测试语音的特征向量计算输出概率,并对输出概率取对数,得到每个HMM的似然值Lj,j=0,1,2…N-1,其中,N是HMM的数量,即音节的数量。
然后,将似然值从大到小排序,存储前Q个似然值,本实施例中存储前10个似然值,存储的似然值用于判断下一个语音是否需要概率加权。
然后,对当前语音进行声学解码时,读取上一个语音的HMM输出似然值,如果其最大值远大于其他9个值,则用音节转移的先验概率对HMM的输出概率进行加权,远大于是指最大值对应的概率值超过0.9,似然值是概率值的对数。
Figure BDA0002959421510000052
其中,i是上一个语音的识别结果(音节序号);
Figure BDA0002959421510000053
是加权后的输出概率似然值。如果上一个语音的HMM的输出概率最大值与其他9个值中的前几个较大值比较接近,则令:
Figure BDA0002959421510000054
即不进行先验概率加权,直接用HMM的输出似然值进行声学解码。这是因为此时上一个语音的解码结果不太可靠,如果用它进行概率加权,会带来较大的误差。
最后,比较
Figure BDA0002959421510000061
的大小,用最大
Figure BDA0002959421510000062
值对应的音节作为声学解码的识别结果。

Claims (5)

1.一种基于先验概率的声学解码方法,其特征在于,包括如下步骤:
(1)在训练阶段,将训练语音文本中的所有字都用音节代替,得到音节序列;
(2)统计训练语音文本音节序列中每个音节向其他音节转移的概率,得到音节上下文模型;
(3)用每个音节的全部训练语音进行模型训练,得到该音节的隐马尔可夫模型,所有音节的隐马尔可夫模型组成语音识别系统的声学模型;
(4)在识别阶段,用所述每个声学模型对当前语音特征向量计算输出概率,并将输出概率从大到小排序,存储前若干个概率值;
(5)读取上一个语音的声学模型输出概率值,若最大值远大于其他值,则用上一个语音的音节转移到每个音节的先验概率对声学模型的输出概率进行加权,并将加权概率最大的声学模型对应的音节作为当前语音声学解码的结果;否则,
若上一个语音的声学模型输出概率的最大值与后面的几个值比较接近,则不用音节转移的先验概率进行加权,直接用输出概率最大的声学模型对应的音节作为当前语音声学解码的结果。
2.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(2)中,具体包括统计训练语音文本音节序列中每个音节向其他音节转移的先验概率,设音节A在训练语音中出现N次,其中,设音节W1在训练语音中出现N次,其中,有M次下一个音节是音节W2,则音节W1向音节W2转移的先验概率为
Figure FDA0002959421500000011
所有音节转移的先验概率构成所述音节上下文模型。
3.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(3)用每个音节的全部训练语音进行模型训练之前先对训练语音进行预处理,包括加窗、分帧和快速傅里叶变换,然后提取训练语音和测试语音的美尔频率倒谱系数,将所述美尔顿率倒谱系数作为训练语音的特征向量。
4.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述隐马尔可夫模型第i个状态的概率密度函数表示为:
Figure FDA0002959421500000012
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,M表示每个状态的高斯混合数,D表示特征向量的维数。
5.如权利要求1所述的基于先验概率的声学解码方法,其特征在于,所述步骤(5)具体包括:
(51)用每个音节的隐马尔可夫模型对当前测试语音的特征向量计算输出概率,并对所述输出概率取对数,得到每个隐马尔可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音节的数量;
(52)将似然值从大到小排序,存储前Q个音节的似然值,其中,Q≥2,对当前语音进行声学解码时,读取上一个语音的隐马尔可夫模型的输出似然值;
(53)如果其最大值远大于其他Q-1个值,则用音节转移的先验概率对隐马尔可夫模型的输出概率进行加权:
Figure FDA0002959421500000021
其中,Pij是上一个语音的识别结果;
Figure FDA0002959421500000022
是加权后的输出概率似然值;
否则,若上一个语音的隐马尔可夫模型的输出概率最大值与其他Q-1个值中的前几个较大值比较接近,则令
Figure FDA0002959421500000023
即不进行先验概率加权,直接用HMM的输出似然值进行声学解码;
(54)比较得到的所有
Figure FDA0002959421500000024
的大小,用最大
Figure FDA0002959421500000025
值对应的音节作为声学解码的识别结果。
CN202110233078.8A 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法 Active CN113096650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233078.8A CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233078.8A CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Publications (2)

Publication Number Publication Date
CN113096650A true CN113096650A (zh) 2021-07-09
CN113096650B CN113096650B (zh) 2023-12-08

Family

ID=76666442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233078.8A Active CN113096650B (zh) 2021-03-03 2021-03-03 一种基于先验概率的声学解码方法

Country Status (1)

Country Link
CN (1) CN113096650B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
EP2048655A1 (en) * 2007-10-08 2009-04-15 Harman Becker Automotive Systems GmbH Context sensitive multi-stage speech recognition
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN110265003A (zh) * 2019-07-03 2019-09-20 四川大学 一种识别广播信号中语音关键字的方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112233657A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于低频音节识别的语音增强方法
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5473728A (en) * 1993-02-24 1995-12-05 The United States Of America As Represented By The Secretary Of The Navy Training of homoscedastic hidden Markov models for automatic speech recognition
US5680510A (en) * 1995-01-26 1997-10-21 Apple Computer, Inc. System and method for generating and using context dependent sub-syllable models to recognize a tonal language
EP2048655A1 (en) * 2007-10-08 2009-04-15 Harman Becker Automotive Systems GmbH Context sensitive multi-stage speech recognition
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法
CN103531196A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN110265003A (zh) * 2019-07-03 2019-09-20 四川大学 一种识别广播信号中语音关键字的方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN112233657A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于低频音节识别的语音增强方法
CN112233659A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于双层声学模型的快速语音识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG L ET, AL.: "《Hybrid HMM-NN for Speech recognitionand prior class probabilities》", 《9TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》, pages 2391 - 2395 *
WOOIL KIM ET, AL.: "《An advanced feature compensation method employing acoustic model with phonetically constrained structure》", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》, pages 7083 - 7086 *
吕勇, 吴镇扬: "《基于隐马尔可夫模型与并行模型组合的特征补偿算法》", 《东南大学学报(自然科学版)》, vol. 39, no. 05, pages 889 - 893 *
李娜, 葛万成: "《语音关键词识别系统的模型训练及性能评价》", 《信息通信》, no. 03, pages 8 - 10 *

Also Published As

Publication number Publication date
CN113096650B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
CN104681036B (zh) 一种语言音频的检测系统及方法
Lengerich et al. An end-to-end architecture for keyword spotting and voice activity detection
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
US9037463B2 (en) Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
Karita et al. Sequence training of encoder-decoder model using policy gradient for end-to-end speech recognition
US8762148B2 (en) Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
JP3027544B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
CN113096650B (zh) 一种基于先验概率的声学解码方法
Kannadaguli et al. A comparison of Bayesian multivariate modeling and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in kannada
KR100612843B1 (ko) 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
JP2938865B1 (ja) 音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
Patil et al. Automatic speech recognition models: A characteristic and performance review
Aşlyan Syllable Based Speech Recognition
Wang et al. Improved end-to-end speech recognition using adaptive per-dimensional learning rate methods
Nazreen et al. A joint enhancement-decoding formulation for noise robust phoneme recognition
Shafran et al. Task-specific minimum Bayes-risk decoding using learned edit distance.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant