CN105355199A - 一种基于gmm噪声估计的模型组合语音识别方法 - Google Patents
一种基于gmm噪声估计的模型组合语音识别方法 Download PDFInfo
- Publication number
- CN105355199A CN105355199A CN201510686426.1A CN201510686426A CN105355199A CN 105355199 A CN105355199 A CN 105355199A CN 201510686426 A CN201510686426 A CN 201510686426A CN 105355199 A CN105355199 A CN 105355199A
- Authority
- CN
- China
- Prior art keywords
- noise
- exp
- sigma
- gmm
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
Abstract
本发明公开一种基于GMM噪声估计的模型组合语音识别方法,用一个含有较少高斯单元的GMM从含噪测试语音中实时估计噪声参数,并监控噪声的变化。噪声参数估计按时间间隔进行,每个时间间隔更新一次噪声参数,静音段也当作含噪语音处理。估得的噪声参数除了用于模型组合,还存储在内部存储器中,用于下一个时间间隔的噪声变化判断。在噪声监控中,首先从存储器中读取上一个时间间隔的噪声参数,然后与纯净语音GMM组合,得到含噪语音GMM,并对当前时间间隔的含噪测试语音进行概率计算,将输出的平均对数似然值与噪声参数估计子模块输出的平均对数似然值进行比较,若似然差大于阈值,则认为噪声发生了变化,否则就认为噪声不变。
Description
技术领域
本发明涉及一种基于GMM噪声估计的模型组合语音识别方法,具体是用测试环境下提取的噪声参数调整语音识别系统声学模型的参数,使其与实际环境下提取的含噪语音特征参数相匹配,提高系统噪声鲁棒性的模型组合方法;属于语音识别技术领域。
背景技术
自动语音识别技术可以为电子设备提供方便的输入接口,已广泛应用于移动电话、平板电脑、导航仪等移动设备。但是在实际应用中,环境噪声等语音变异性是不可避免地,这通常会导致语音识别系统的性能急剧下降,因此有必要采取措施提高语音识别系统的环境鲁棒性。鲁棒语音识别算法通常可以划分为两大类,即前端特征域方法和后端模型域方法。
特征域方法的目的是提高声学特征的噪声鲁棒性,或者对测试环境下提取的含噪特征进行补偿,使其特性尽量与纯净训练语音接近。特征域方法的优点是与系统后端的具体识别器无关,且计算量较小,因而可以用于各种实时系统。后端模型域方法对预先训练的声学模型的参数进行调整,使之与当前测试环境相匹配,用参数调整后的声学模型对测试语音直接识别,无需对提取的特征参数进行额外处理。模型域方法主要包括模型自适应和模型组合,前者通过实际环境下的少量测试语音调整声学模型的参数,可以用于处理任意语音变异性;后者对纯净语音声学模型和单高斯噪声模型进行模型组合,生成用于声学解码的含噪语音声学模型,只能用于处理由环境噪声引起的语音变异性。
与特征域方法相比,模型自适应可以取得更高的补偿精度,但会导致巨大的计算量。这是因为大词汇量语音识别系统的基本语音单元很多,通常会达到数百个,而每个基本语音单元对应一个声学模型,在模型自适应中每个声学模型都要参与自适应参数估计运算,其计算量难以被实时系统所接受。传统模型组合的噪声参数来自于语音间隙期的噪声估计,但是在非平稳环境下的一段连续语音中,可能不存在足够的语音间隙期,噪声估计无法进行,模型参数就不能及时更新,因而其应用范围受到限制。
发明内容
发明目的:针对现有技术中存在的问题,为了兼顾计算复杂度和补偿精度,就需要将特征补偿和模型自适应结合起来,在不降低识别率的前提下尽量减小算法的计算量,提高语音识别系统的实际应用能力。本发明提供一种基于高斯混合模型(GMM:GaussianMixtureModel)噪声估计的模型组合语音识别方法。该算法用一个含有较少高斯单元的GMM从含噪测试语音中实时估计噪声的参数,并监控噪声的变化。估得的噪声参数被用于与纯净语音声学模型进行模型组合,得到含噪语音声学模型,然后直接对测试语音进行声学解码,得到识别结果。
技术方案:一种基于GMM噪声估计的模型组合语音识别方法,主要包括训练阶段和测试阶段两个部分,下面具体说明其内容。
(1)GMM训练:在训练阶段,用所有基本语音单元的训练语音训练生成一个统一的GMM,该GMM含有较少的高斯单元,可以近似表示语音倒谱特征的分布。
(2)HMM训练:在训练阶段,用每个基本语音单元的训练语音训练生成该基本语音单元的隐马尔可夫模型(HMM:HiddenMarkovModel),所有基本语音单元的HMM共同组成语音识别系统的声学模型。
(3)噪声估计:在测试阶段,用GMM从含噪测试语音中实时提取噪声的均值和方差,并根据平均对数似然值判断噪声是否发声变化。为了保证最大似然估计的准确性,噪声信息通常每100帧更新一次,噪声估计的同时判断噪声的变化情况。噪声估计按时间间隔(100帧)进行,不需要进行语音活动检测,对静音段也当作含噪语音处理。
(4)模型组合:对某个时间间隔,如果噪声发声变化,则对纯净语音声学模型和单高斯噪声模型进行模型组合,生成与当前测试环境相匹配的含噪语音声学模型,该模型不仅用于声学解码,而且其参数被保存在内存中;如果噪声没有变化,则该时间间隔不必进行模型组合,可以直接用存储在内存中的上一个时间间隔的含噪语音声学模型作为当前测试语音声学模型。根据噪声变化情况决定是否进行模型组合,有助于节省电能,延长移动设备的电池使用时间。
(5)声学解码:用模型组合得到的含噪语音声学模型直接对含噪测试语音进行声学解码,得到识别结果。
模型组合中涉及DCT计算的部分,用快速DCT算法实现,以减少模型组合的计算量。根据噪声的变化标识决定是否进行模型组合运算,有助于多数应用环境下节省移动设备的电能,延长电池使用时间。该方法结合了GMM噪声估计计算量小和模型补偿精度高的优点,在不降低识别性能的前提下,显著降低了系统的计算复杂度,提高了系统的实际应用能力。
附图说明
图1为基于GMM噪声估计的模型组合语音识别系统总体框架图;
图2为噪声估计模块的具体结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于高斯混合模型噪声估计的模型组合语音识别方法,其总体框架如图1所示。本发明的核心内容是噪声估计模块,其具体结构如图2所示。下面详细说明噪声估计模块和模型组合模块的具体实施方案。
1、噪声估计
本发明只考虑加性背景噪声,不处理信道卷积噪声。根据美尔频率特征参数(MFCC:Melfrequencycepstralcoefficient)提取过程可知,含噪语音倒谱特征y与纯净语音倒谱特征x的关系可以表示为:
y=Clog(exp(C-1x)+exp(C-1n))(1)其中,n是加性噪声的倒谱特征,C和C-1分别表示离散余弦变换矩阵及其逆矩阵。将式(1)在定点(μx,μn0)处用一阶矢量泰勒级数(VTS:VectorTaylorSeries)展开,可以得到如下的线性近似式:
y=(I-U)(x-μx)+U(n-μn0)+Clog(exp(C-1μx)+exp(C-1μn0))(2)
其中,μx和μn0分别是x的均值和n的初始均值,I是单位矩阵,U的表达式如下:
式(3)中diag()表示以括号中向量的元素为对角元素生成对角矩阵。
对式(2)分别取均值和方差,即可得到含噪语音y的均值μy和方差Σy:
μy=Uμn-Uμn0+Clog(exp(C-1μx)+exp(C-1μn0))(4)
Σy=(I-U)Σx(I-U)T+UΣnUT(5)
其中,μn和Σn分别是噪声n的均值和方差,也就是待估计的噪声参数。
假设GMM有M个高斯单元,其输出概率表达式为:
其中,xt是第t帧纯净语音倒谱特征向量;cm、μx,m、Σx,m分别是GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D是特征向量的维数。为了从含噪语音中估计μn和Σn,构建如下辅助函数:
其中,γm(t)=P(kt=m|yt,λ)是在给定含噪语音yt和GMM先验参数λ条件下,第t帧含噪语音yt属于GMM第m个高斯单元的后验概率;是待估计的GMM参数集。
对GMM的第m个高斯单元,式(4)和(5)可以分别表示为:
μy,m=Umμn-Umμn0+Clog(exp(C-1μx,m)+exp(C-1μn0))(8)
σy,m=(Vm·*Vm)σx,m+(Um·*Um)σn(9)
式(9)中,Vm=I-Um;σy,m、σx,m、σn是分别用Σy,m、Σx,m、Σn的对角元素生成的方差向量;操作符·*表示矩阵的点乘,即两个相同维数的矩阵的对应元素相乘。
将式(8)和(9)分别代入辅助函数式(7),并分别令辅助函数关于μn和σn的导数等于0,即可得到μn和σn的估计公式:
式(11)中,
为了能从含噪语音中实时估计噪声参数,GMM通常只包含较少的高斯单元。假设语音识别系统有400个基本语音单元,每个语音单元的HMM有6个状态,每个状态包括4个高斯单元,这样整个声学模型就有9600个高斯单元。而本发明用于噪声估计的GMM取40个高斯单元即可,这样在不考虑HMM前向后向算法计算量的前提下,GMM噪声估计的计算量只有直接用声学模型进行噪声估计计算量的为了保证最大似然估计的准确性,在GMM噪声估计中,每100帧作为一个时间间隔,每个时间间隔估计一次噪声。估得的噪声参数不仅输出给模型组合模块,而且存储在内部存储器中,用于下一个时间间隔的噪声变化判断。
噪声估计模块的另一个重要作用是监控噪声的变化。虽然用GMM进行噪声估计可以使噪声估计的计算量大大减小,但是由于声学模型包含的高斯单元非常多,对声学模型每个高斯单元进行模型组合的计算量仍然很大。另一方面,语音识别系统所处的应用环境大部分是近似平稳的,或者噪声是缓慢变化的,噪声快速变化的应用环境只占很小的比例。因此,模型组合没有必要每个时间间隔都进行,只有在检测到噪声发生变化时,才对含噪语音声学模型的参数进行调整,否则就直接用上一个时间间隔的含噪语音声学模型对当前测试语音进行识别。这样设计的好处在于可以节省电能,延长移动设备的电池使用时间。
噪声的均值和方差都是多维向量,因此通过直接比较两个时间间隔的噪声参数来判断噪声是否改变是非常困难的。本发明采用两个含噪语音GMM每帧的平均似然差监控噪声的变化。如图2所示,GMM模型组合模块首先从存储器中读出上一个时间间隔的噪声参数,并与纯净语音GMM组合,得到含噪语音GMM。然后用含噪语音GMM对当前时间间隔的测试语音进行概率计算,得到每帧特征向量的平均概率对数值,即平均似然值。最后将该平均似然值与噪声参数估计模块输出的平均似然值进行比较,如果平均似然差小于等于阈值,则认为噪声没有发生变化;如果大于阈值,则认为噪声发生了变化。平均似然差的阈值一般设置在0.5~1之间,针对不同的系统需要通过实验数据进行适当调整。
2、模型组合
通常可以认为含噪语音声学模型与纯净语音声学模型具有高斯对应关系,只需要将纯净语音声学模型每个高斯单元的均值和方差调整到与含噪测试环境相匹配,就可以得到含噪语音声学模型。
模型组合模块收到当前时间间隔的噪声参数后,首先查看噪声变化标识,如果噪声没有改变,则直接采用上一个时间间隔的含噪语音声学模型作为当前时间间隔的声学模型,输出到声学解码模块。如果噪声发生了变化,则根据以下公式更新声学模型的参数:
μy,kij=Clog(exp(C-1μx,kij)+exp(C-1μn))(12)
σy,kij=((I-Ukij)·*(I-Ukij))σx,kij+(Ukij·*Ukij)σn(13)其中,μx,kij和σx,kij分别是第k个纯净语音HMM的第i个状态的第j个高斯单元的均值向量和方差向量(协方差矩阵的对角元素);μy,kij和σy,kij分别是含噪语音HMM的均值向量和方差向量,Ukij由下式决定:
设μx,kij为D维向量,则式(12)和(13)的乘法次数都与D2成正比,而式(14)的乘法次数与D3成正比,因此直接用矩阵乘法实现式(14)会导致巨大的计算量。式(14)可以改写为:
式(15)方括号中对角矩阵与C-1相乘的乘法次数为D2,C与方括号中矩阵的乘法可以通过D次快速离散余弦变换实现,其乘法次数约为D2log2D次,如果D=32,则模型组合的计算量减小为原矩阵乘法的
Claims (3)
1.一种基于GMM噪声估计的模型组合语音识别方法,其特征在于,主要包括如下内容:
(1)GMM训练:在训练阶段,用所有基本语音单元的训练语音训练生成一个统一的GMM,该GMM近似表示语音倒谱特征的分布;
(2)HMM训练:在训练阶段,用每个基本语音单元的训练语音训练生成该基本语音单元的隐马尔可夫模型,所有基本语音单元的HMM共同组成语音识别系统的声学模型;
(3)噪声估计:在测试阶段,用GMM从含噪测试语音中实时提取噪声的均值和方差,并根据平均对数似然值判断噪声是否发声变化;噪声信息按照时间间隔更新,噪声估计的同时判断噪声的变化情况;噪声估计按时间间隔进行,不需要进行语音活动检测,对静音段也当作含噪语音处理;
(4)模型组合:对某个时间间隔,如果噪声发声变化,则对纯净语音声学模型和单高斯噪声模型进行模型组合,生成与当前测试环境相匹配的含噪语音声学模型,该模型不仅用于声学解码,而且其参数被保存在内存中;如果噪声没有变化,则该时间间隔不必进行模型组合,可以直接用存储在内存中的上一个时间间隔的含噪语音声学模型作为当前测试语音声学模型;
(5)声学解码:用模型组合得到的含噪语音声学模型直接对含噪测试语音进行声学解码,得到识别结果。
2.如权利要求1所述的基于GMM噪声估计的模型组合语音识别方法,其特征在于,
根据美尔频率特征参数提取过程可知,含噪语音倒谱特征y与纯净语音倒谱特征x的关系可以表示为:
y=Clog(exp(C-1x)+exp(C-1n))(1)
其中,n是加性噪声的倒谱特征,C和C-1分别表示离散余弦变换矩阵及其逆矩阵。将式(1)在定点(μx,μn0)处用一阶矢量泰勒级数展开,可以得到如下的线性近似式:
y=(I-U)(x-μx)+U(n-μn0)+Clog(exp(C-1μx)+exp(C-1μn0))(2)
其中,μx和μn0分别是x的均值和n的初始均值,I是单位矩阵,U的表达式如下:
式(3)中diag()表示以括号中向量的元素为对角元素生成对角矩阵;
对式(2)分别取均值和方差,即可得到含噪语音y的均值μy和方差Σy:
μy=Uμn-Uμn0+Clog(exp(C-1μx)+exp(C-1μn0))(4)
Σy=(I-U)Σx(I-U)T+UΣnUT(5)
其中,μn和Σn分别是噪声n的均值和方差,也就是待估计的噪声参数;
假设GMM有M个高斯单元,其输出概率表达式为:
其中,xt是第t帧纯净语音倒谱特征向量;cm、μx,m、Σx,m分别是GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D是特征向量的维数。为了从含噪语音中估计μn和Σn,构建如下辅助函数:
其中,γm(t)=P(kt=m|yt,λ)是在给定含噪语音yt和GMM先验参数λ条件下,第t帧含噪语音yt属于GMM第m个高斯单元的后验概率;是待估计的GMM参数集;
对GMM的第m个高斯单元,式(4)和(5)可以分别表示为:
μy,m=Umμn-Umμn0+Clog(exp(C-1μx,m)+exp(C-1μn0))(8)
σy,m=(Vm·*Vm)σx,m+(Um·*Um)σn(9)
式(9)中,Vm=I-Um;σy,m、σx,m、σn是分别用Σy,m、Σx,m、Σn的对角元素生成的方差向量;操作符·*表示矩阵的点乘,即两个相同维数的矩阵的对应元素相乘。
将式(8)和(9)分别代入辅助函数式(7),并分别令辅助函数关于μn和σn的导数等于0,即可得到μn和σn的估计公式:
式(11)中,
3.如权利要求2所述的基于GMM噪声估计的模型组合语音识别方法,其特征在于,模型组合模块收到当前时间间隔的噪声参数后,首先查看噪声变化标识,如果噪声没有改变,则直接采用上一个时间间隔的含噪语音声学模型作为当前时间间隔的声学模型,输出到声学解码模块。如果噪声发生了变化,则根据以下公式更新声学模型的参数:
μy,kij=Clog(exp(C-1μx,kij)+exp(C-1μn))(12)
σy,kij=((I-Ukij)·*(I-Ukij))σx,kij+(Ukij·*Ukij)σn(13)
其中,μx,kij和σx,kij分别是第k个纯净语音HMM的第i个状态的第j个高斯单元的均值向量和方差向量(协方差矩阵的对角元素);μy,kij和σy,kij分别是含噪语音HMM的均值向量和方差向量,Ukij由下式决定:
设μx,kij为D维向量,则式(12)和(13)的乘法次数都与D2成正比,而式(14)的乘法次数与D3成正比,因此直接用矩阵乘法实现式(14)会导致巨大的计算量;式(14)可以改写为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510686426.1A CN105355199B (zh) | 2015-10-20 | 2015-10-20 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510686426.1A CN105355199B (zh) | 2015-10-20 | 2015-10-20 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105355199A true CN105355199A (zh) | 2016-02-24 |
CN105355199B CN105355199B (zh) | 2019-03-12 |
Family
ID=55331162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510686426.1A Expired - Fee Related CN105355199B (zh) | 2015-10-20 | 2015-10-20 | 一种基于gmm噪声估计的模型组合语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105355199B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106384588A (zh) * | 2016-09-08 | 2017-02-08 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN107945795A (zh) * | 2017-11-13 | 2018-04-20 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108257606A (zh) * | 2018-01-15 | 2018-07-06 | 江南大学 | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN110648680A (zh) * | 2019-09-23 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN110648680B (zh) * | 2019-09-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
US6021383A (en) * | 1996-10-07 | 2000-02-01 | Yeda Research & Development Co., Ltd. | Method and apparatus for clustering data |
CN1251193A (zh) * | 1997-03-25 | 2000-04-19 | 英国国防部 | 语音分析系统 |
US6122607A (en) * | 1996-04-10 | 2000-09-19 | Telefonaktiebolaget Lm Ericsson | Method and arrangement for reconstruction of a received speech signal |
CN1285945A (zh) * | 1998-01-07 | 2001-02-28 | 艾利森公司 | 一种用于对声音编码、同时抑制声学背景噪声的系统和方法 |
CN1343968A (zh) * | 2000-09-18 | 2002-04-10 | 日本先锋公司 | 语音识别系统 |
CN1445752A (zh) * | 2002-03-15 | 2003-10-01 | 松下电器产业株式会社 | 用于特征域中信道与加性噪声联合补偿的方法与装置 |
CN1726532A (zh) * | 2002-12-20 | 2006-01-25 | 国际商业机器公司 | 基于传感器的语音识别器选择、自适应和组合 |
CN102800322A (zh) * | 2011-05-27 | 2012-11-28 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
CN104900232A (zh) * | 2015-04-20 | 2015-09-09 | 东南大学 | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 |
-
2015
- 2015-10-20 CN CN201510686426.1A patent/CN105355199B/zh not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122607A (en) * | 1996-04-10 | 2000-09-19 | Telefonaktiebolaget Lm Ericsson | Method and arrangement for reconstruction of a received speech signal |
US6021383A (en) * | 1996-10-07 | 2000-02-01 | Yeda Research & Development Co., Ltd. | Method and apparatus for clustering data |
CN1251193A (zh) * | 1997-03-25 | 2000-04-19 | 英国国防部 | 语音分析系统 |
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
CN1285945A (zh) * | 1998-01-07 | 2001-02-28 | 艾利森公司 | 一种用于对声音编码、同时抑制声学背景噪声的系统和方法 |
CN1343968A (zh) * | 2000-09-18 | 2002-04-10 | 日本先锋公司 | 语音识别系统 |
CN1445752A (zh) * | 2002-03-15 | 2003-10-01 | 松下电器产业株式会社 | 用于特征域中信道与加性噪声联合补偿的方法与装置 |
CN1726532A (zh) * | 2002-12-20 | 2006-01-25 | 国际商业机器公司 | 基于传感器的语音识别器选择、自适应和组合 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN102800322A (zh) * | 2011-05-27 | 2012-11-28 | 中国科学院声学研究所 | 一种噪声功率谱估计与语音活动性检测方法 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
CN104900232A (zh) * | 2015-04-20 | 2015-09-09 | 东南大学 | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 |
Non-Patent Citations (5)
Title |
---|
LIN ZHOU: "" Model Adaptation Algorithm Based on Central Subband Regression for Robust Speech Recognition"", 《2014 7TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 * |
YONG LV: ""Robust speech recognition using improved vector Taylor series algorithm for embedded systems"", 《IEEE TRANSACTIONS ON CONSUMER ELECTRONICS》 * |
吕勇: ""基于适量泰勒级数的鲁棒语音识别"", 《天津大学学报》 * |
吕勇: ""鲁棒语音识别中的特征补偿与模型自适应算法研究"", 《万方学位论文》 * |
胡郁: ""语音识别中基于模型补偿的噪声鲁棒性问题研究"", 《中国博士学位论文全文数据库》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106384588B (zh) * | 2016-09-08 | 2019-09-10 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
CN106384588A (zh) * | 2016-09-08 | 2017-02-08 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
CN107731230A (zh) * | 2017-11-10 | 2018-02-23 | 北京联华博创科技有限公司 | 一种庭审笔录系统及方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN107945795A (zh) * | 2017-11-13 | 2018-04-20 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
CN107945795B (zh) * | 2017-11-13 | 2021-06-25 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
CN108053835B (zh) * | 2017-11-13 | 2021-07-09 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108257606A (zh) * | 2018-01-15 | 2018-07-06 | 江南大学 | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 |
CN110648680A (zh) * | 2019-09-23 | 2020-01-03 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN110648680B (zh) * | 2019-09-23 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法、装置、电子设备及可读存储介质 |
CN113362814A (zh) * | 2021-08-09 | 2021-09-07 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
CN113362814B (zh) * | 2021-08-09 | 2021-11-09 | 中国科学院自动化研究所 | 一种融合组合模型信息的语音鉴别模型压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105355199B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105355199A (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
US10089989B2 (en) | Method and apparatus for a low power voice trigger device | |
CN103000174B (zh) | 语音识别系统中基于快速噪声估计的特征补偿方法 | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
Lei et al. | A noise robust i-vector extractor using vector taylor series for speaker recognition | |
Prasad et al. | Improved cepstral mean and variance normalization using Bayesian framework | |
US8417522B2 (en) | Speech recognition method | |
CN104464728A (zh) | 基于gmm噪声估计的语音增强方法 | |
CN104392718A (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
Frey et al. | Algonquin-learning dynamic noise models from noisy speech for robust speech recognition | |
CN106373559B (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN104732972A (zh) | 一种基于分组统计的hmm声纹识别签到方法及系统 | |
González et al. | MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition | |
US20030187637A1 (en) | Automatic feature compensation based on decomposition of speech and noise | |
Veisi et al. | The integration of principal component analysis and cepstral mean subtraction in parallel model combination for robust speech recognition | |
CN104392719A (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
Du et al. | Cepstral shape normalization (CSN) for robust speech recognition | |
Xu et al. | Vector taylor series based joint uncertainty decoding. | |
Li et al. | Unscented transform with online distortion estimation for HMM adaptation | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
Wang et al. | Improving reverberant VTS for hands-free robust speech recognition | |
Panda | A fast approach to psychoacoustic model compensation for robust speaker recognition in additive noise. | |
CN107818780B (zh) | 一种基于非线性特征补偿的鲁棒语音识别方法 | |
CN102256201A (zh) | 用于助听器的自动环境识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190312 Termination date: 20211020 |
|
CF01 | Termination of patent right due to non-payment of annual fee |