CN105609100B - 声学模型训练构造方法、及声学模型和语音识别系统 - Google Patents

声学模型训练构造方法、及声学模型和语音识别系统 Download PDF

Info

Publication number
CN105609100B
CN105609100B CN201410602463.5A CN201410602463A CN105609100B CN 105609100 B CN105609100 B CN 105609100B CN 201410602463 A CN201410602463 A CN 201410602463A CN 105609100 B CN105609100 B CN 105609100B
Authority
CN
China
Prior art keywords
class
statistic
state
acoustic model
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410602463.5A
Other languages
English (en)
Other versions
CN105609100A (zh
Inventor
张晴晴
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201410602463.5A priority Critical patent/CN105609100B/zh
Publication of CN105609100A publication Critical patent/CN105609100A/zh
Application granted granted Critical
Publication of CN105609100B publication Critical patent/CN105609100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供一种声学模型的训练构造方法和基于训练方法的隐马尔科夫声学模型和语音识别系统,所述训练方法为:(1)基于训练数据和预先给定的状态聚类,计算得到每类的帧数统计量和类内散度矩阵。(2)对于模型中表示非语音的状态类,当其对应的帧数统计量远大于状态类的平均统计量时,对其进行统计量抑制平滑。(3)对于模型中表示语音的状态类,当其对应的帧数统计量远小于状态类的平均统计量时,对其进行统计量抑制平滑。(4)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵。(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的稳定声学模型。本发明最终提高声学模型的识别性能。

Description

声学模型训练构造方法、及声学模型和语音识别系统
技术领域
本发明属于语音识别领域,具体地说,涉及一种异方差线性判别分析的平滑方法,可用于语种识别中高维特征矢量的快速降维和去相关处理。
背景技术
在大词汇连续语音识别中,异方差线性判别分析(HLDA,Heteroscedastic LinearDiscriminant Analysis)通过去除特征间的相关性提升了模型的识别性能,从而被广泛应用于声学建模中(N.Kumar.Investigation of silicon auditory models andgeneralization of linear Discriminant analysis for improved speechrecognition.PhD thesis,Johns Hopkins University,Baltimore,Maryland,1997.)。其算法的核心是将语音按照状态分成不同的类,通过寻找到最合适的特征映射方向将原始特征降维,使降维后的特征最利于不同状态类之间的区分。相比传统的线性判别式分析(Linear Discriminant Analysis),异方差线性判别分析容许各个状态类之间拥有各自独立的协方差矩阵,其更符合语音分布的实际情况。异方差线性判别分析是一种数据驱动的算法,计算所需要的高斯核的均值和协方差矩阵等模型参数都从训练数据中估计出来,其最终得到的降维矩阵与训练数据的分布情况直接相关(陈思宝,胡郁,王仁华.一种结构受限的异方差线性判别分析,《中文信息学报》,2008,第22卷(第4期))。然而,在实际应用中发现,一方面用于语音识别时描述静音的状态类通常所占据的统计量很大,远远超过描述语音的单个状态类,这使得基于统计量进行计算的异方差线性判别分析,过分偏向静音,在一定程度上抑制了对语音部分的区分性;另一方面,由于训练数据有限,某些语音的状态分布相对稀疏,相应的训练数据并不能反映其真实统计分布情况,由此导致计算异方差线性判别分析时的统计信息也相应受到影响。
发明内容
本发明的目的在于,为克服已有异方差线性判别分析的不足,提出一种对语音状态类区分更为合理的异方差线性判别分析方法,即本发明提供声学模型训练构造方法、及声学模型和语音识别系统。
为了实现上述目的,本发明提供一种声学模型的训练构造方法,所述方法包含:
步骤101)基于训练数据和预先给定的状态类,计算得到每类均值和类内散度矩阵;其中,状态类包含非语音状态类和语音状态类;
步骤102)
当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时,对非语音状态统计量进行抑制平滑;其中,所述的非语音状态类包含:句间静音状态、词间停顿状态或噪声状态;或
当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时,对语音状态类的统计量进行抑制平滑;
步骤103)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵;
步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的声学模型。
可选的,上述步骤101)进一步包含:
步骤101-1)模型训练状态类别数为N类,训练数据为{xi},g(i)→{1...N}表示与训练数据xi相关的类,Nj为类别j的帧数统计量,则任意类别j的均值可由下式计算得到:
其中,g(i)=j表示训练数据中所有和类别j相关的观察帧;
步骤101-2)基于每类的帧数统计量Nj和每类的类别均值类内散度矩阵可由下式计算得到:
另外,还可得到全局的散度矩阵:
可选的,上述步骤102)进一步包含:
步骤102-1)基于所有状态类的统计量和总状态数N,采用如下公式计算得到状态类的平均统计量
其中,Nj为训练数据中属于状态j的帧数统计量,且j的取值范围为:1≤j≤N;
步骤102-2)将每个状态类的帧数统计量Nj与平均统计量进行比较:
如果则对帧数统计量Nj进行抑制平滑,进而得到新的统计量Nj_new
如果则对帧数统计量Nj进行抑制平滑,进而得到新的统计量Nj_new
如果Nj在数量级上保持一致,则:
Nj_new=Nj
其中,当帧数统计量Nj在数量级上有超过10倍以上的差异时认为:factorA和factorB为抑制因子。
进一步可选的,抑制因子factorA的取值范围为:factorA=(10~10e3);抑制因子factorB的取值范围为:factorB=(10~10e3)。
上述声学模型为基于高斯混合隐马尔科夫的声学模型。
此外,基于上述训练方构造方法还可以得到隐马尔科夫声学模型及基于声学模型的语音识别系统。
与现有技术相比,本发明优点:异方差线性判别分析的平滑算法仅针对状态类的统计量进行修改,对异方差线性判别分析的核心算法不做改动,实施起来简单,且由于对统计量过多的类和过少的类进行了抑制平滑,提高异方差线性判别分析的鲁棒性,进而提高了经异方差线性判别分析降维后的声学模型的识别性能。
附图说明
图1:异方差线性判别分析平滑方法流程示意图。
图2:隐马尔科夫声学模型拓扑结构示意图。
具体实施方式
下面对本发明作进一步地描述。
本发明提供的方法在传统异方差线性判别分析的基础上,通过对静音的状态类统计量以及稀疏语音的状态类统计量进行平滑,控制相应部分对异方差线性判别分析的影响,从而获得更稳定的区分能力,最终提高通过异方差线性判别分析降维后的声学模型的识别性能。具体描述如下:
(1)如图1所示,基于训练数据和预先给定的状态聚类,计算得到每类的帧数统计量和类内散度矩阵。
(2)对于模型中表示非语音的状态类(包含句间静音状态、词间停顿状态、噪声状态等),当其对应的帧数统计量远大于状态类的平均统计量时,对其进行统计量抑制平滑。
(3)对于模型中表示语音的状态类,当其对应的帧数统计量远小于状态类的平均统计量时,对其进行统计量抑制平滑。
(4)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵。
(5)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的稳定声学模型。
实施例1,构造声学模型
如图1所示,声学模型的状态数记为N。基于所有的训练数据,统计出各个状态的帧数统计量和散度矩阵,其中帧数统计量记为occ(n):
occ(n)=训练数据中属于状态n的帧数总量
基于所有状态的统计量和总状态数N,可以计算得到状态类的平均统计量
将每个状态的帧数统计量occ(n)与平均统计量做比较:
如果则对occ(n)进行抑制平滑,得到新的统计量occ(n)_new:
如果则对occ(n)进行抑制平滑,得到新的统计量occ(n)_new:
如果occ(n)与在数量级上保持一致,则:
occ(n)_new=occ(n)
在我们的实验中,当occ(n)与在数量级上有超过10倍以上的差异,则可认为
其中,观察所对应的那些状态,发现由且仅由非语音的状态类构成。这里的非语音状态类包含有句间静音状态、词间停顿状态、噪声状态等。之所以这些非语音状态类会占据大量的统计量,主要是由于在实际语音对话中,真正说话人发出声音的时长占据总时长的70%-80%,其余的部分都是非语音部分。由于语音部分的建模对识别性能至关重要,所以往往都需要将语音按发音相似度分成比较细的状态类,模型则是对每个状态类进行建模,于是每个语音状态类的帧数统计量不适宜太多。而针对非语音部分,并不需要对其进行细节建模,只要能和语音部分区分开即可,所以往往非语音状态类的帧数统计量都比较多。如果不对这些统计量进行抑制平滑,会使得基于统计量进行计算的异方差线性判别分析,过分偏向静音,在一定程度上抑制了对语音部分的区分性。
另一方面,观察所对应的那些状态,这些状态是由一些帧数统计量比较少的语音状态类构成。这些状态类由于对应语音数据比较少,训练相对不充分,相应所得到的表征量(如散度矩阵)缺乏稳定的统计意义,泛化能力不好,这导致计算异方差线性判别分析时的统计信息也相应受到影响。
通过实验我们发现,抑制因子factorA和factorB的具体数值对最终识别的性能影响并不敏感。通常选择factorA=(10~10e3)factorB=(10~10e3)的取值范围就可得到比较稳定的性能提升。
基于各个状态的散度矩阵和平滑后得到的帧统计量occ(n)_new,利用传统异方差线性判别分析的计算公式(N.Kumar.Investigation of silicon auditory models andgeneralization of linear Discriminant analysis for improved speechrecognition.PhD thesis,Johns Hopkins University,Baltimore,Maryland,1997.)即可得到平滑后的异方差线性判别分析变换矩阵。
将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的稳定声学模型。
总之,采用上述训练方法结合现有技术可以得到一种隐马尔科夫声学模型,为了将协同发音现象融入建模中,所述的声学模型为上下文相关的隐马尔科夫模型HMM。其典型的模型拓扑结构如图2所示。参数估计使用的方法为Baum-Welch算法,属于最大似然准则下的EM算法(L.R.Rabiner,“A tutorial on Hidden Markov Models and selectedapplications in speech recognition”,in Proceedings of the IEEE,vol.77,pp.257–287,1989)。训练得到的模型参数通常包含各个状态的均值、方差和状态间的跳转概率等。训练过程中加入本发明算法后的声学模型,相比不加入本发明算法的声学模型,模型的拓扑结构并未发生改变,但由于舍弃了一些冗余信息量,降低了模型的维度,其模型的规模更小。同时模型的参数进行了优化,区分性更强,更有利于对语音的识别。
此外,基于实施例1的声学模型也可以进行语音识别的系统的构建,且构建涉及的相关算法属于现有技术在此不做赘述。
实验结果验证:
本发明实验训练数据采用标准中文训练集:国家863高科技计划提供的标准普通话朗读数据集,共100位女性说话人和100位男性说话人,含约80小时的语音,测试数据采用863高科技计划2005年语音识别评测发布的开发集,共有431句语音。
对传统异方差线性判别分析变换和本发明提出的异方差线性判别分析平滑变换进行对比测试。将所有测试语音进行带语言模型的语音识别,保证测试过程中除采用的异方差线性判别分析变换矩阵不同外,其他的解码参数和模型训练方式皆保持一致。采用汉字的识别错误率作为系统的评价指标,错误率越低,表明系统性能越好。
实验中,采用GMM-HMM(高斯混合隐马尔科夫模型)作为声学模型,特征采用13维梅尔倒谱感知线性预测系数(MFPLP)以及其一阶和二阶差分系数,共39维特征,通过异方差线性判别分析变换矩阵最终降维到28维。
实验表明:采用传统异方差线性判别分析,汉字识别错误率为36.0%;采用对非语音状态进行平滑后的异方差线性判别分析,汉字识别错误率为35.2%;采用对非语音状态以及稀疏语音状态进行平滑后的异方差线性判别分析,汉字识别错误率为35.0%。可见,本发明提出的异方差线性判别分析的平滑方法用于语音识别可使其性能有稳定性提高。
综上所述在语音识别声学建模中,异方差线性判别分析(HLDA,HeteroscedasticLinear Discriminant Analysis)通过去除特征间的相关性提升了模型的识别性能,从而被广泛使用。其算法的核心是将语音按照状态分成不同的类,通过寻找到最合适的特征映射方向将原始特征降维,使降维后的特征最利于不同状态类之间的区分。在实际应用中发现,通常用于描述静音的状态类所占据的统计量很大,远远超过描述语音的单个状态类,这使得基于统计量进行计算的异方差线性判别分析,过分偏向静音,在一定程度上抑制了对语音部分的区分性;同时,由于训练数据有限,某些描述语音的状态相对稀疏,其统计分布情况不稳定,由此导致计算异方差线性判别分析时的统计信息也不稳定。本发明的目的在于克服已有异方差线性判别分析的不足,提出一种对语音状态类区分更为合理的异方差线性判别分析方法。该方法在传统异方差线性判别分析的基础上,通过对静音的状态类统计量以及稀疏语音的状态类统计量进行平滑,控制相应部分对异方差线性判别分析的影响,从而获得更稳定的对语音部分的区分能力,最终提高通过异方差线性判别分析降维后的声学模型的识别性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种声学模型的训练构造方法,所述方法包含:
步骤101)基于训练数据和预先给定的状态类,计算得到每类均值和类内散度矩阵;其中,状态类包含非语音状态类和语音状态类;
步骤102)
当非语音状态类的帧数统计量超过所有状态类的平均统计量10倍或者以上时,对非语音状态统计量进行抑制平滑;其中,所述的非语音状态类包含:句间静音状态、词间停顿状态或噪声状态;或
当语音状态类的帧数的统计量低于所有状态类的平均统计量10倍或者以上时,对语音状态类的统计量进行抑制平滑;
步骤103)基于类内散度矩阵和平滑后的类统计量,计算异方差线性判别分析矩阵;
步骤104)将计算得到的异方差线性判别分析矩阵用于语音特征和模型的降维,并重新迭代得到降维后的声学模型。
2.根据权利要求1所述的声学模型的训练构造方法,其特征在于,所述步骤101)进一步包含:
步骤101-1)模型训练状态类别数为N类,训练数据为{xi},g(i)→{1...N}表示与训练数据xi相关的类,Nj为类别j的帧数统计量,则任意类别j的均值由下式计算得到:
其中,g(i)=j表示训练数据中所有和类别j相关的观察帧;
步骤101-2)基于每类的帧数统计量Nj和每类的类别均值类内散度矩阵由下式计算得到:
另外,还得到全局的散度矩阵:
3.根据权利要求1所述的声学模型的训练构造方法,其特征在于,所述步骤102)进一步包含:
步骤102-1)基于所有状态类的统计量和总状态数N,采用如下公式计算得到状态类的平均统计量
其中,Nj为训练数据中属于状态j的帧数统计量,且j的取值范围为:1≤j≤N;
步骤102-2)将每个状态类的帧数统计量Nj与平均统计量进行比较:
如果则对帧数统计量Nj进行抑制平滑,进而得到新的统计量Nj_new
如果则对帧数统计量Nj进行抑制平滑,进而得到新的统计量Nj_new
如果Nj在数量级上保持一致,则:
Nj_new=Nj
其中,当帧数统计量Nj在数量级上有超过10倍以上的差异时认为:factorA和factorB为抑制因子。
4.根据权利要求3所述的声学模型的训练构造方法,其特征在于,
抑制因子factorA的取值范围为:factorA=(10~10e3);
抑制因子factorB的取值范围为:factorB=(10~10e3)。
5.根据权利要求1所述的声学模型的训练构造方法,其特征在于,所述声学模型为基于高斯混合隐马尔科夫的声学模型。
6.一种基于权利要求1-5任意一条权利要求记载的训练方法的隐马尔科夫声学模型。
7.一种语音识别系统,该语音识别系统基于权利要求6记载的隐马尔科夫声学模型。
CN201410602463.5A 2014-10-31 2014-10-31 声学模型训练构造方法、及声学模型和语音识别系统 Active CN105609100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410602463.5A CN105609100B (zh) 2014-10-31 2014-10-31 声学模型训练构造方法、及声学模型和语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410602463.5A CN105609100B (zh) 2014-10-31 2014-10-31 声学模型训练构造方法、及声学模型和语音识别系统

Publications (2)

Publication Number Publication Date
CN105609100A CN105609100A (zh) 2016-05-25
CN105609100B true CN105609100B (zh) 2019-08-20

Family

ID=55988986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602463.5A Active CN105609100B (zh) 2014-10-31 2014-10-31 声学模型训练构造方法、及声学模型和语音识别系统

Country Status (1)

Country Link
CN (1) CN105609100B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831446B (zh) * 2018-05-24 2019-10-18 百度在线网络技术(北京)有限公司 用于生成样本的方法和装置
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148178A (ja) * 1998-11-17 2000-05-26 Matsushita Electric Ind Co Ltd 複合的な文法ネットワークを用いる音声認識システム
US20020062212A1 (en) * 2000-08-31 2002-05-23 Hironaga Nakatsuka Model adaptation apparatus, model adaptation method, storage medium, and pattern recognition apparatus
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
CN1482595A (zh) * 2001-12-20 2004-03-17 松下电器产业株式会社 生成声音模型的方法、装置和生成声音模型的计算机程序
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
CN101673356A (zh) * 2008-09-09 2010-03-17 财团法人工业技术研究院 产生具有多样化对话行为的对话管理机制的方法及系统
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
CN102339605A (zh) * 2010-07-22 2012-02-01 盛乐信息技术(上海)有限公司 基于先验清浊知识的基频提取方法及系统
CN103544953A (zh) * 2013-10-24 2014-01-29 哈尔滨师范大学 一种基于背景噪声最小统计量特征的声音环境识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5155811B2 (ja) * 2008-10-15 2013-03-06 日本電信電話株式会社 音響モデル作成方法、その装置、プログラム、その記録媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148178A (ja) * 1998-11-17 2000-05-26 Matsushita Electric Ind Co Ltd 複合的な文法ネットワークを用いる音声認識システム
US20020062212A1 (en) * 2000-08-31 2002-05-23 Hironaga Nakatsuka Model adaptation apparatus, model adaptation method, storage medium, and pattern recognition apparatus
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
CN1482595A (zh) * 2001-12-20 2004-03-17 松下电器产业株式会社 生成声音模型的方法、装置和生成声音模型的计算机程序
JP2009300716A (ja) * 2008-06-13 2009-12-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムとその記録媒体
CN101673356A (zh) * 2008-09-09 2010-03-17 财团法人工业技术研究院 产生具有多样化对话行为的对话管理机制的方法及系统
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
CN102339605A (zh) * 2010-07-22 2012-02-01 盛乐信息技术(上海)有限公司 基于先验清浊知识的基频提取方法及系统
CN103544953A (zh) * 2013-10-24 2014-01-29 哈尔滨师范大学 一种基于背景噪声最小统计量特征的声音环境识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A tutorial on hidden markov models and selected applications in speech recognition";Lr Rabiner;《Procedings of the IEEE》;19891231;第77卷(第2期);全文 *
"Investigation of Silicon-Auditory Models and Generalization of Linear Discriminant Analysis for Improved Speech Recognition";Nagendra Kumar;《PHD thesis Johns Hopkins University》;19971231;全文 *
"一种结构受限的异方差线性判别分析";陈思宝;《中文信息学报》;20080731;第22卷(第4期);全文 *
"语言声学的最新应用";颜永红;《声学学报》;20100331;第35卷(第2期);全文 *

Also Published As

Publication number Publication date
CN105609100A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN103971685B (zh) 语音命令识别方法和系统
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
CN101118745A (zh) 语音识别系统中的置信度快速求取方法
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN109887489A (zh) 基于生成对抗网络的深度特征的语音去混响方法
Ng et al. Prosodic attribute model for spoken language identification
Li et al. Oriental language recognition (OLR) 2020: Summary and analysis
CN105609100B (zh) 声学模型训练构造方法、及声学模型和语音识别系统
Tsao et al. An acoustic segment model approach to incorporating temporal information into speaker modeling for text-independent speaker recognition
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
Yang et al. Static and dynamic spectral features: Their noise robustness and optimal weights for ASR
CN102237082B (zh) 语音识别系统的自适应方法
Ogata et al. Acoustic model training based on linear transformation and MAP modification for HSMM-based speech synthesis.
Shekofteh et al. Confidence measure improvement using useful predictor features and support vector machines
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
CN114171009A (zh) 用于目标设备的语音识别方法、装置、设备及存储介质
Matsuda et al. ATR parallel decoding based speech recognition system robust to noise and speaking styles
Narayanan et al. Coupling binary masking and robust ASR
Masumura et al. Context-aware neural voice activity detection using auxiliary networks for phoneme recognition, speech enhancement and acoustic scene classification
Bharti et al. SVM based Voice Activity Detection by fusing a new acoustic feature PLMS with some existing acoustic features of speech
Yin et al. Discriminatively trained joint speaker and environment representations for adaptation of deep neural network acoustic models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant