CN102945670B - 一种用于语音识别系统的多环境特征补偿方法 - Google Patents
一种用于语音识别系统的多环境特征补偿方法 Download PDFInfo
- Publication number
- CN102945670B CN102945670B CN201210488431.8A CN201210488431A CN102945670B CN 102945670 B CN102945670 B CN 102945670B CN 201210488431 A CN201210488431 A CN 201210488431A CN 102945670 B CN102945670 B CN 102945670B
- Authority
- CN
- China
- Prior art keywords
- environment
- gmm
- propaedeutics
- speech
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明公开一种用于语音识别系统的多环境特征补偿方法,在训练阶段,首先进行多环境语音采集,得到多个基本训练环境的训练语音;然后用每个基本训练环境的训练语音,训练生成该基本训练环境的语音模型;在识别阶段,首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型,然后对选取的语音模型进行参数变换,使之与当前测试环境匹配,最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。本发明可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能,提高系统的鲁棒性。
Description
技术领域
本发明涉及一种用于语音识别系统的多环境特征补偿方法,具体涉及到用预先训练的多个环境的语音模型对实际环境下提取的含噪语音特征向量进行补偿,减小环境失配,提高语音识别系统鲁棒性的多环境特征补偿方法;属于语音识别技术领域。
背景技术
语音识别技术已经在通信、消费电子、自助服务、智能家居等多个领域得到了广泛应用。然而在实际应用中,由于背景噪声、信道失真、语音自身变异性等因素的存在,测试环境与训练环境无法匹配,往往导致语音识别系统的性能急剧恶化。
传统的前端特征补偿和后端模型自适应技术都是基于纯净语音模型的,即将训练环境中得到的纯净语音模型变换到实际测试环境,用于估计纯净语音特征向量(特征补偿)或直接对含噪测试语音进行识别(模型自适应)。但是,在低信噪比等与纯净语音环境差异较大的测试环境中,通过变换纯净语音模型得到的含噪语音模型不能很好地描述含噪语音的分布,其识别性能与直接用含噪测试语音训练的理想系统有较大差距。
多环境技术可以较好地解决环境严重失配的问题,在训练阶段用多个基本训练环境预测实际测试环境,选取与测试环境最匹配的基本训练环境用于模型变换。现有的多环境技术都是在系统的后端进行,即多环境模型自适应,在训练阶段用多个基本训练环境的数据训练得到每个基本训练环境的声学模型;在测试阶段,选取与实际测试环境最接近的基本训练环境声学模型用于模型自适应,得到当前测试环境的声学模型,然后直接对含噪测试语音进行识别。
多环境模型自适应的优点在于无需估计纯净语音特征,补偿精确度高。但是在大词汇量连续语音识别系统中,由于语音识别的基本单元较多,系统的声学模型较多,因此模型自适应的计算量很大,难以跟踪环境的实时变化。
发明内容
发明目的:针对现有技术存在的问题与不足,本发明提供一种用于语音识别系统的多环境特征补偿方法。与后端模型自适应相比,前端特征补偿技术具有计算量小、实现灵活、与后端识别器无关的优点,因而其应用范围比后端模型自适应更为广泛,尤其适合大词汇量连续语音识别系统。
技术方案:一种用于语音识别系统的多环境特征补偿方法,在训练阶段,首先进行多环境语音采集,得到多个基本训练环境的训练语音;然后用每个基本训练环境的训练语音,训练生成该基本训练环境的语音模型;在识别阶段,首先为当前测试语音选择与测试环境最接近的基本训练环境的语音模型,然后对选取的语音模型进行参数变换,使之与当前测试环境匹配,最后用变换后的语音模型从含噪测试语音中估计纯净语音特征向量。
训练阶段的具体步骤包括:
(1)在实际应用环境中采集各种噪声;为了解决低信噪比等环境严重失配的问题,在训练阶段用多个基本训练环境预测实际测试环境,用多个基本训练环境语音模型取代单一纯净训练语音模型;
(2)根据噪声类型和强度对采集的噪声进行聚类,将噪声归类到若干个基本训练环境中;
(3)用每个基本训练环境的噪声与训练语音混合,得到该基本训练环境的含噪训练语音;
(4)对每个基本训练环境的训练语音进行模型训练,得到该基本训练环境的语音模型,用高斯混合模型(GMM:Gaussian Mixture Model)对每个基本训练环境进行建语音模型,得到该基本训练环境GMM每个高斯单元的混合系数cm、含噪均值向量μy,m和含噪协方差矩阵Σy,m,全部基本训练环境的GMM组成多环境语音模型;
测试阶段的具体步骤包括:
(5)从多环境模型中选择与当前测试环境最接近的基本训练环境,该基本训练环境的GMM即为最优GMM;
(6)用最大似然线性回归(MLLR:Maximum Likelihood Linear Regression)对选取的最优GMM进行模型参数变换,使其与当前测试环境更加匹配;最优GMM的均值变换和方差变换用最大似然线性回归实现,均值和方差变换参数直接从含噪测试语音中估计,无需知道噪声的先验知识;
(7)用参数变换后的最优GMM计算含噪测试语音的后验概率,根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量。
在训练阶段,用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后,还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μx,m,μx,m用于估计纯净语音特征向量。
在测试阶段的模型选择中,用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率,认为输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM。
在测试阶段的纯净语音估计中,以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数,用纯净语音高斯均值μx,m的加权平均作为纯净语音特征向量的估计值。
有益效果:与现有技术相比,本发明提供的用于语音识别系统的多环境特征补偿方法,可以显著提高低信噪比等恶劣应用环境中语音识别系统的性能,提高系统的鲁棒性。
附图说明
图1为本发明实施例的原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,用于语音识别系统的多环境特征补偿方法,主要包括训练阶段和测试阶段。训练阶段主要完成环境噪声采集、噪声聚类、噪声混合和多环境模型训练工作;测试阶段主要完成语音模型选择、模型参数变换和纯净语音估计工作。下面逐一详细说明附图中各模块的具体实施方案。
1、噪声聚类:
对实际应用环境中采集的噪声按噪声类型和噪声强度进行聚类,将实际应用环境划分为若干个基本训练环境。
2、噪声混合:
用每个基本训练环境的噪声与纯净训练语音混合,得到该基本训练环境的含噪训练语音。全部基本训练环境的含噪训练语音组成多环境训练语音库。
3、多环境模型训练:
首先对每个基本训练环境的含噪训练语音进行模型训练,得到该基本训练环境的GMM:
其中,yt表示第t帧含噪训练语音倒谱特征向量;cm,μy,m和Σy,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵。然后在纯净训练语音中,用以下公式估计该GMM每个高斯单元对应的纯净语音均值:
其中,表示给定GMM的先验参数λ时,第t帧纯净语音特征向量xt属于第m个高斯单元的后验概率。GMM的每个高斯单元有四个参数{cm,μy,m,Σy,m,μx,m},含噪语音参数μy,m和Σy,m用于模型参数变换和计算后验概率,纯净语音参数μx,m用于纯净语音估计。
全部基本训练环境的GMM组成多环境语音模型。
4、模型选择:
用多环境语音模型中的每个基本训练环境的GMM对当前测试语音计算输出概率,输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM。
5、模型参数变换:
对选取的最优GMM进行参数变换,使其与当前测试环境更加匹配。GMM的均值变换用以下MLLR公式实现:
μz,m=Aμy,m+b
(3)
其中,μz,m表示变换后的均值向量。变换矩阵A通常取对角矩阵,因此采用以下单变量线性回归:
其中,a表示根据A的对角元素生成的列向量,Uy,m表示以μy,m为对角元素生成的对角矩阵,Dy,m=[Uy,m,I],I表示单位矩阵。
变换参数用以下公式估计:
其中,表示给定GMM的先验参数λ时,第t帧测试环境特征向量zt属于第m个高斯单元的后验概率。
GMM的方差变换用以下MLLR公式实现:
其中,为待估计的方差变换矩阵,By,m由下式决定:
By,m(By,m)T=(∑y,m)-1.
(7)
方差变换矩阵用下式估计:
假设GMM的混合密度cm保持不变,则参数变换后的高斯单元参数为其中cm、μz,m和Σz,m用于计算当前含噪测试语音的后验概率,μx,m用于纯净语音估计。
6、纯净语音估计:
首先用参数变换后的GMM计算含噪测试语音zt属于GMM第m个高斯单元的后验概率
然后用纯净语音高斯均值μx,m的加权平均作为纯净语音特征向量的估计值:
纯净语音特征向量的一阶动态系数和二阶动态系数可以通过对估得的静态系数作时域差分得到:
其中,N和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数。
Claims (1)
1.一种用于语音识别系统的多环境特征补偿方法,其特征在于:包括训练阶段步骤和测试阶段步骤;
训练阶段的具体步骤包括:
(1)在实际应用环境中采集各种噪声;在训练阶段用多个基本训练环境预测实际测试环境,用多个基本训练环境语音模型取代单一纯净训练语音模型;
(2)根据噪声类型和强度对采集的噪声进行聚类,将噪声归类到若干个基本训练环境中;
(3)用每个基本训练环境的噪声与训练语音混合,得到该基本训练环境的含噪训练语音;
(4)对每个基本训练环境的含噪训练语音进行模型训练,得到该基本训练环境的语音模型,用高斯混合模型对每个基本训练环境进行建语音模型,得到该基本训练环境GMM每个高斯单元的混合系数cm、含噪均值向量μy,m和含噪协方差矩阵Σy,m,全部基本训练环境的GMM组成多环境语音模型;
测试阶段的具体步骤包括:
(5)从多环境模型中选择与当前测试环境最接近的基本训练环境,该基本训练环境的GMM即为最优GMM;
(6)用最大似然线性回归对选取的最优GMM进行模型参数变换;最优GMM的均值变换和方差变换用最大似然线性回归实现,均值和方差变换参数直接从含噪测试语音中估计;
(7)用参数变换后的最优GMM计算含噪测试语音的后验概率,根据GMM每个高斯单元对应的纯净语音均值向量和含噪测试语音属于GMM各个高斯单元的后验概率估计纯净语音特征向量;
在训练阶段,用每个基本训练环境的含噪训练语音训练得到该基本训练环境的GMM后,还需要用最大似然方法从纯净训练语音中提取该GMM每个高斯单元对应的纯净语音均值向量μx,m,μx,m用于估计纯净语音特征向量;
在测试阶段的模型选择中,用多环境语音模型中的每个基本训练环境GMM对当前测试语音计算输出概率,认为输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM;
在测试阶段的纯净语音估计中,以含噪测试语音属于当前GMM各个高斯单元的后验概率为加权系数,用纯净语音高斯均值μx,m的加权平均作为纯净语音特征向量的估计值;
对每个基本训练环境的含噪训练语音进行模型训练,得到该基本训练环境的GMM:
其中,yt表示第t帧含噪训练语音倒谱特征向量;cm,μy,m和Σy,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;然后在纯净训练语音中,用以下公式估计该GMM每个高斯单元对应的纯净语音均值:
其中,表示给定GMM的先验参数λ时,第t帧纯净语音特征向量xt属于第m个高斯单元的后验概率;GMM的每个高斯单元有四个参数{cm,μy,m,Σy,m,μx,m},含噪语音参数μy,m和Σy,m用于模型参数变换和计算后验概率,纯净语音参数μx,m用于纯净语音估计;全部基本训练环境的GMM组成多环境语音模型;
用多环境语音模型中的每个基本训练环境的GMM对当前测试语音计算输出概率,输出概率最高的基本训练环境与当前测试环境最接近,该基本训练环境的GMM即为最优GMM;
对选取的最优GMM进行参数变换,使其与当前测试环境更加匹配;GMM的均值变换用以下MLLR公式实现:
μz,m=Aμy,m+b
(3)
其中,μz,m表示变换后的均值向量;变换矩阵A通常取对角矩阵,因此采用以下单变量线性回归:
其中,a表示根据A的对角元素生成的列向量,Uy,m表示以μy,m为对角元素生成的对角矩阵,Dy,m=[Uy,m,I],I表示单位矩阵;
变换参数用以下公式估计:
其中,表示给定GMM的先验参数λ时,第t帧测试环境特征向量zt属于第m个高斯单元的后验概率;
GMM的方差变换用以下MLLR公式实现:
其中,为待估计的方差变换矩阵,By,m由下式决定:
By,m(By,m)T=(Σy,m)-1.
(7)
方差变换矩阵用下式估计:
假设GMM的混合密度cm保持不变,则参数变换后的高斯单元参数为其中cm、μz,m和Σz,m用于计算当前含噪测试语音的后验概率,μx,m用于纯净语音估计;
用参数变换后的GMM计算含噪测试语音zt属于GMM第m个高斯单元的后验概率
用纯净语音高斯均值μx,m的加权平均作为纯净语音特征向量的估计值:
纯净语音特征向量的一阶动态系数和二阶动态系数可以通过对估得的静态系数作时域差分得到:
其中,Ν和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210488431.8A CN102945670B (zh) | 2012-11-26 | 2012-11-26 | 一种用于语音识别系统的多环境特征补偿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210488431.8A CN102945670B (zh) | 2012-11-26 | 2012-11-26 | 一种用于语音识别系统的多环境特征补偿方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102945670A CN102945670A (zh) | 2013-02-27 |
CN102945670B true CN102945670B (zh) | 2015-06-03 |
Family
ID=47728608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210488431.8A Expired - Fee Related CN102945670B (zh) | 2012-11-26 | 2012-11-26 | 一种用于语音识别系统的多环境特征补偿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102945670B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392718B (zh) * | 2014-11-26 | 2017-11-24 | 河海大学 | 一种基于声学模型阵列的鲁棒语音识别方法 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN104409080B (zh) * | 2014-12-15 | 2018-09-18 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
US9437193B2 (en) * | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
CN104952450B (zh) * | 2015-05-15 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 远场识别的处理方法和装置 |
CN105355199B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于gmm噪声估计的模型组合语音识别方法 |
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN106384588B (zh) * | 2016-09-08 | 2019-09-10 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及系统 |
CN110197670B (zh) * | 2019-06-04 | 2022-06-07 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
CN110415685A (zh) * | 2019-08-20 | 2019-11-05 | 河海大学 | 一种语音识别方法 |
CN111627426B (zh) * | 2020-04-30 | 2023-11-17 | 锐迪科微电子科技(上海)有限公司 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1397929A (zh) * | 2002-07-12 | 2003-02-19 | 清华大学 | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 |
CN1595497A (zh) * | 2003-09-12 | 2005-03-16 | 古井贞熙 | 语音模型的噪声适应系统及方法,语音识别的噪声适应程序 |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5089651B2 (ja) * | 2009-06-10 | 2012-12-05 | 日本電信電話株式会社 | 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体 |
-
2012
- 2012-11-26 CN CN201210488431.8A patent/CN102945670B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1397929A (zh) * | 2002-07-12 | 2003-02-19 | 清华大学 | 抗噪声语音识别用语音增强-特征加权-对数谱相加方法 |
CN1595497A (zh) * | 2003-09-12 | 2005-03-16 | 古井贞熙 | 语音模型的噪声适应系统及方法,语音识别的噪声适应程序 |
CN101710490A (zh) * | 2009-11-20 | 2010-05-19 | 安徽科大讯飞信息科技股份有限公司 | 语音评测的噪声补偿方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于隐马尔可夫模型与并行模型组合的特征补偿算法;吕勇等;《东南大学学报(自然科学版)》;20090930;第39卷(第05期);889-893 * |
Also Published As
Publication number | Publication date |
---|---|
CN102945670A (zh) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102945670B (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
CN104392718B (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
CN103000174B (zh) | 语音识别系统中基于快速噪声估计的特征补偿方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN101833951B (zh) | 用于说话人识别的多背景模型建立方法 | |
CN111783558A (zh) | 一种卫星导航干扰信号类型智能识别方法及系统 | |
CN110148420A (zh) | 一种适用于噪声环境下的语音识别方法 | |
CN101685638B (zh) | 一种语音信号增强方法及装置 | |
CN103679199B (zh) | 基于入侵性杂草算法的有噪独立分量分析方法 | |
CN105393305A (zh) | 用于处理声音信号的方法 | |
CN104485108A (zh) | 一种基于多说话人模型的噪声与说话人联合补偿方法 | |
CN111986695B (zh) | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 | |
CN109407046A (zh) | 一种基于变分贝叶斯推断的嵌套阵列波达方向角估计方法 | |
CN102426837B (zh) | 农业现场数据采集的移动设备语音识别的鲁棒性方法 | |
CN102129860A (zh) | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 | |
CN105355199A (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
CN102915735B (zh) | 一种基于压缩感知的含噪语音信号重构方法及装置 | |
CN105355198A (zh) | 一种基于多重自适应的模型补偿语音识别方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN102930863B (zh) | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 | |
CN102760435A (zh) | 一种语音信号频域盲解卷积方法 | |
CN112086100A (zh) | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 | |
CN104392719B (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
Nesta et al. | Enhanced multidimensional spatial functions for unambiguous localization of multiple sparse acoustic sources | |
CN101645701B (zh) | 一种基于滤波器组的时延估计方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150603 Termination date: 20211126 |