CN104485108A - 一种基于多说话人模型的噪声与说话人联合补偿方法 - Google Patents
一种基于多说话人模型的噪声与说话人联合补偿方法 Download PDFInfo
- Publication number
- CN104485108A CN104485108A CN201410706129.4A CN201410706129A CN104485108A CN 104485108 A CN104485108 A CN 104485108A CN 201410706129 A CN201410706129 A CN 201410706129A CN 104485108 A CN104485108 A CN 104485108A
- Authority
- CN
- China
- Prior art keywords
- speaker
- noise
- model
- gmm
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种基于多说话人模型的噪声与说话人联合补偿方法,用多类说话人的声学模型预测目标说话人的语音特性,根据各类高斯混合模型(GMM)的识别结果选取与目标说话人最匹配的声学模型,并对其参数进行噪声补偿和说话人自适应,得到测试环境声学模型。本发明可以提高环境噪声、说话人的改变等多种环境失配因素存在时模型自适应的准确性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到用多类说话人语音训练生成多说话人模型,在测试环境下根据自适应语音选取与目标说话人最匹配的声学模型,并对其参数进行噪声补偿和说话人自适应,得到测试环境声学模型的模型自适应方法。
背景技术
语音识别系统的声学模型通常在实验室安静环境下用大量训练语音训练而成。在测试环境下,如果声学模型能够覆盖目标说话人的语音特性,则语音识别系统可以取得很高的识别率。然而在实际应用中,说话人的改变和环境噪声的影响总是不可避免的,因而需要根据测试环境下的语音及噪声特性,对声学模型的参数进行调整,使之与测试环境特征向量相匹配,提高语音识别系统的识别率。
在噪声鲁棒语音识别中,由噪声引起的非线性环境变换关系是确定的,因此可以根据非语音段提取的噪声参数,对声学模型的参数进行变换,一般可以取得很好的噪声补偿效果。在说话人自适应中,由说话人的改变引起的环境变换关系是未知的,难以用确定的函数关系进行描述,因而通常假设测试环境均值向量与训练环境均值向量之间存在线性变换关系,从测试环境下的少量自适应语音中估计线性变换参数,对声学模型的均值向量进行补偿。一般来说,说话人自适应算法也可以对其他语音变异性导致的环境失配进行补偿,比如用于噪声补偿。但由于线性假设与噪声引起的实际非线性环境变换关系相差甚远,因此难以取得很好的补偿效果。
一般来说,在实际应用中,环境噪声和说话人的变化是同时存在的,因而需要对噪声和说话人进行联合补偿,以减小环境失配的影响。而且,测试环境下用于调整模型参数的自适应数据是有限的,如果目标说话人的语音特性与预先训练的声学模型相差较大,则通过说话人自适应得到的声学模型也难以与测试语音相匹配。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多说话人模型的噪声与说话人联合补偿方法;在训练阶段,首先根据说话人的语音特性,将训练语音划分为若干类,然后对每一类训练语音进行模型训练,得到一个GMM(Gaussian Mixture Model)模型和一组HMM(Hidden Markov Model)模型,多类训练语音的GMM模型和HMM模型组成多说话人模型;在测试阶段,通过噪声补偿后的GMM模型对目标说话人的语音特性进行识别,得到说话人信息,最后从多组声学模型中选取与目标说话人语音特性最接近的声学模型,并对其进行噪声补偿和说话人自适应,得到测试环境声学模型。
技术方案:一种基于多说话人模型的噪声与说话人联合补偿方法,包括训练阶段和测试阶段两部分,其中:
训练阶段的具体步骤包括:
(1)根据训练语音中各说话人的语音特性,对说话人进行聚类,根据聚类结果,划分训练语音,得到若干类说话人的训练语音;
(2)对每类说话人的训练语音进行GMM训练,得到该类说话人的GMM模型;
(3)对每类说话人的训练语音进行HMM训练,得到该类说话人每个语音单元的HMM模型(声学模型),每类说话人语音的模型包括一个GMM模型和一组声学模型,GMM模型用于识别说话人,HMM模型用于语音识别;
测试阶段的具体步骤包括:
(4)从目标说话人的训练语音的非语音段提取噪声的参数,包括均值向量和协方差矩阵;
(5)根据估得的噪声参数,对每个GMM的均值和方差进行变换,使之与测试环境相匹配;
(6)用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别,判断其与哪类说话人的语音特性最接近,记录类序号,作为说话人选择的结果;
(7)根据类序号,从多说话人模型中选取与目标说话人语音特性最接近的一组HMM模型,并根据噪声参数对其每个高斯单元的均值和方差进行变换,完成噪声补偿过程;
(8)根据目标说话人的自适应语音对选取的HMM模型组的参数进行说话人自适应,进一步调整其参数,使之与测试语音相匹配,得到测试环境声学模型。
在目标说话人类别的选择中,用与语音单元无关的每类说话人GMM取代各个语音单元的HMM进行识别,无需对所有类声学模型的HMM进行噪声补偿,可以显著减小计算量,提高说话人选取速度。
本发明采用上述技术方案,具有以下有益效果:在本发明的声学模型参数补偿中,分别通过多说话人模型预测,噪声补偿和目标说话人自适应三个模块对声学模型每个HMM的参数进行调整,使之与含噪测试语音更好地匹配,因而可以显著提高环境噪声、说话人的改变等多种环境失配因素共同存在时模型自适应的准确性,增强语音识别系统对实际环境的鲁棒性。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于多说话人模型的噪声与说话人联合补偿方法,包括训练阶段和测试阶段两个部分。训练部分包括说话人聚类、多说话人GMM训练和多说话人HMM训练;测试部分包括GMM噪声补偿、说话人选择、HMM噪声补偿、HMM自适应;
1、说话人聚类:
根据语音库中各说话人的语音特性,对说话人进行聚类,用K均值算法将其划分为K类,得到K类说话人的训练语音。
2、多说话人模型训练:
对每类说话人的训练语音分别进行GMM训练和HMM训练,得到一个GMM和一组HMM。GMM代表该类说话人的语音特性,用于对目标说话人的特性进行识别;每个HMM代表一个语音单元的语音分布,用于声学解码。
3、GMM噪声补偿:
根据非语音段提取的噪声均值μn和方差Σn,对每个GMM的均值μx和方差Σx进行变换:
Σy=(I-U)Σx(I-U)T+UΣnUT (2)
其中,μy和Σy分别表示测试环境下GMM的含噪语音均值和方差,I表示单位矩阵,和U为:
其中,C表示离散余弦变换矩阵,diag()表示以括号中的向量元素为对角元素,生成对角矩阵。
4、说话人选择:
对每类说话人的GMM进行噪声补偿后,即可对目标说话人的语音特性进行识别,将目标说话人的自适应语音输入每类GMM,计算概率,概率最大的GMM即为与目标说话人语音特性最接近的GMM,目标说话人即属于该类说话人。
5、HMM噪声补偿:
首先根据GMM识别得到的说话人信息,从多说话人声学模型中选取与目标说话人语音特性最接近的声学模型;然后根据式(1)和式(2),对该声学模型中每个HMM的每个高斯单元的均值和方差进行噪声补偿,得到噪声补偿后的声学模型。
6、HMM自适应:
一般目标说话人的语音特性与选取的声学模型总是存在一定的差异,因而需要对HMM的参数进一步进行说话人自适应,以便与测试语音更好的匹配。HMM的说话人自适应在对数谱域的每个Mel通道采用二阶多项式回归逼近实际环境变换关系:
μk,im,z=C[Uk,im,y]2a2+CUk,im,ya1+Ca0 (5)
Uk,im,y=diag(C-1μk,im,y) (6)
其中,μk,im,y表示第k个HMM的第i个状态、第m个高斯单元经过噪声补偿后的均值向量,μk,im,z表示经过说话人自适应后的测试环境均值向量,a2、a1和a0分别为多项式回归的二阶、一阶和常数系数。由于测试环境下可用的自适应数据通常较少,因此只变换各个HMM的均值向量。
为了从自适应数据中估计回归系数a2、a1和a0,构建如下辅助函数:
其中,γk,im(t),表示在给定观测序列O={o1,…,ot,…,oT}和HMM的先验参数集λ的条件下,第t帧特征向量ot属于第k个HMM第i个状态的第m个高斯单元的后验概率,K、I、M、T分别表示HMM的数目、每个HMM的状态数、每个状态的高斯数和自适应语音帧数。
将式(5)表示为矩阵形式:
其中,
Dk,im,y=[C,CUk,im,y,C(Uk,im,y)2] (9)
将式(8)代入式(7),并令关于的偏导数为0,则可以得到:
得到回归系数a2、a1和a0后,即可根据式(5)对每个HMM经过噪声补偿的均值向量进行变换,得到与自适应语音匹配的均值向量,并且假设声学模型的其他参数不受目标说话人的影响,即可得到测试环境声学模型。得到测试环境声学模型后,即可对目标说话人的含噪测试语音进行声学解码和语言解码,得到识别结果。
Claims (2)
1.一种基于多说话人模型的噪声与说话人联合补偿方法,其特征在于,包括如下步骤:
(1)根据训练语音中各说话人的语音特性,对说话人进行聚类,划分训练语音,得到若干类说话人的训练语音;
(2)对每类说话人的训练语音分别进行GMM训练和HMM训练,得到一个GMM模型和一组HMM模型;
(3)根据非语音段估得的噪声参数,对每个GMM的均值和方差进行噪声补偿,使之与含噪测试环境相匹配;
(4)用噪声补偿后的GMM对测试环境下目标说话人的自适应语音进行识别,判断其与哪类说话人的语音特性最接近,记录类序号,作为说话人选择的结果;
(5)根据GMM识别得到的说话人类序号,从多说话人声学模型中选取与目标说话人语音特性最接近的一组HMM模型,并根据噪声参数对其每个高斯单元的均值和方差进行变换,得到噪声补偿后的声学模型;
(6)根据目标说话人的自适应语音对选取的声学模型的每个HMM的参数进行说话人自适应,进一步调整其参数,使之与测试语音相匹配,得到测试环境声学模型。
2.根据权利要求1所述的基于多说话人模型的噪声与说话人联合补偿方法,其特征在于:在目标说话人自适应中,通过对数谱域的二阶多项式回归逼近训练环境均值向量和测试环境均值向量之间的实际环境变换关系,回归参数通过最大期望算法从测试环境下的自适应语音中估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706129.4A CN104485108A (zh) | 2014-11-26 | 2014-11-26 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410706129.4A CN104485108A (zh) | 2014-11-26 | 2014-11-26 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104485108A true CN104485108A (zh) | 2015-04-01 |
Family
ID=52759648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410706129.4A Pending CN104485108A (zh) | 2014-11-26 | 2014-11-26 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104485108A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105590628A (zh) * | 2015-12-22 | 2016-05-18 | 上海应用技术学院 | 基于自适应调整的高斯混合模型的人声识别方法 |
CN106205623A (zh) * | 2016-06-17 | 2016-12-07 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN108986794A (zh) * | 2018-09-19 | 2018-12-11 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN112233659A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于双层声学模型的快速语音识别方法 |
CN113077784A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 一种角色识别智能语音设备 |
WO2022127485A1 (en) * | 2020-12-18 | 2022-06-23 | International Business Machines Corporation | Speaker-specific voice amplification |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
CN102237086A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 用于语音识别设备的补偿装置和方法 |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
WO2013072791A1 (en) * | 2011-11-16 | 2013-05-23 | International Business Machines Corporation | Joint factor analysis scoring for speech processing systems |
CN103310789A (zh) * | 2013-05-08 | 2013-09-18 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
-
2014
- 2014-11-26 CN CN201410706129.4A patent/CN104485108A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1229971A (zh) * | 1997-12-30 | 1999-09-29 | Lg情报通信株式会社 | 语音识别方法 |
US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
CN102237086A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 用于语音识别设备的补偿装置和方法 |
CN102270450A (zh) * | 2010-06-07 | 2011-12-07 | 株式会社曙飞电子 | 多模型自适应和语音识别装置及其方法 |
CN102201236A (zh) * | 2011-04-06 | 2011-09-28 | 中国人民解放军理工大学 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
WO2013072791A1 (en) * | 2011-11-16 | 2013-05-23 | International Business Machines Corporation | Joint factor analysis scoring for speech processing systems |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103000174A (zh) * | 2012-11-26 | 2013-03-27 | 河海大学 | 语音识别系统中基于快速噪声估计的特征补偿方法 |
CN103310789A (zh) * | 2013-05-08 | 2013-09-18 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
Non-Patent Citations (8)
Title |
---|
YONG LÜ ET AL.: "《Model Adaptation Based on Improved Variance Estimation for Robust Speech Recognition》", 《WIRELESS COMMUNICATIONS & SIGNAL PROCESSING(WCSP),2012 INTERNATIONAL CONFERENCE ON》 * |
吕勇等: "《基于最大似然多项式回归的鲁棒语音识别》", 《声学学报》 * |
吕勇等: "《基于最大似然子带线性回归的鲁棒语音识别》", 《信号处理》 * |
吕勇等: "《基于矢量泰勒级数的模型自适应算法》", 《电子与信息学报》 * |
吕勇等: "《基于矢量泰勒级数的鲁棒语音识别》", 《天津大学学报》 * |
吕勇等: "《基于隐马尔可夫模型与并行模型组合的特征补偿算法》", 《东南大学学报(自然科学版)》 * |
胡郁: "《语音识别中基于模型补偿的噪声鲁棒性问题研究》", 《中国博士学位论文全文数据库 信息科技辑》 * |
蒋晔等: "《短语音说话人辨认的研究》", 《电子学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105355198A (zh) * | 2015-10-20 | 2016-02-24 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105590628A (zh) * | 2015-12-22 | 2016-05-18 | 上海应用技术学院 | 基于自适应调整的高斯混合模型的人声识别方法 |
CN106205623A (zh) * | 2016-06-17 | 2016-12-07 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
CN107910008B (zh) * | 2017-11-13 | 2021-06-11 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN108053835A (zh) * | 2017-11-13 | 2018-05-18 | 河海大学 | 一种基于通道泰勒级数的噪声估计方法 |
CN107910008A (zh) * | 2017-11-13 | 2018-04-13 | 河海大学 | 一种用于个人设备的基于多声学模型的语音识别方法 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
CN108986794A (zh) * | 2018-09-19 | 2018-12-11 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN108986794B (zh) * | 2018-09-19 | 2023-02-28 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN112233659A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于双层声学模型的快速语音识别方法 |
WO2022127485A1 (en) * | 2020-12-18 | 2022-06-23 | International Business Machines Corporation | Speaker-specific voice amplification |
GB2617044A (en) * | 2020-12-18 | 2023-09-27 | Ibm | Speaker-specific voice amplification |
CN113077784A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 一种角色识别智能语音设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104485108A (zh) | 一种基于多说话人模型的噪声与说话人联合补偿方法 | |
Hasan et al. | Duration mismatch compensation for i-vector based speaker recognition systems | |
CN105261357B (zh) | 基于统计模型的语音端点检测方法及装置 | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
KR102017244B1 (ko) | 자연어 인식 성능 개선 방법 및 장치 | |
CN104392718B (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
CN108877784B (zh) | 一种基于口音识别的鲁棒语音识别方法 | |
CN104900235A (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition | |
Kim et al. | Feature compensation in the cepstral domain employing model combination | |
Song et al. | Non-parallel training for voice conversion based on adaptation method | |
Sarkar et al. | Stochastic feature compensation methods for speaker verification in noisy environments | |
Liu et al. | Using bidirectional associative memories for joint spectral envelope modeling in voice conversion | |
CN104392719A (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
CN108694950B (zh) | 一种基于深度混合模型的说话人确认方法 | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition | |
Xiao et al. | Lasso environment model combination for robust speech recognition | |
Soni et al. | Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
Hariharan et al. | An integrated study of speaker normalisation and HMM adaptation for noise robust speaker-independent speech recognition | |
Vogt et al. | Bayes factor scoring of GMMs for speaker verification | |
Wang et al. | Boosting DNN-based speech enhancement via explicit transformations | |
Chen et al. | A preliminary study on GMM weight transformation for Emotional Speaker Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150401 |
|
RJ01 | Rejection of invention patent application after publication |