CN105390134B - 一种基于子带vts的模型自适应方法 - Google Patents

一种基于子带vts的模型自适应方法 Download PDF

Info

Publication number
CN105390134B
CN105390134B CN201510686218.1A CN201510686218A CN105390134B CN 105390134 B CN105390134 B CN 105390134B CN 201510686218 A CN201510686218 A CN 201510686218A CN 105390134 B CN105390134 B CN 105390134B
Authority
CN
China
Prior art keywords
sub
band
noise
hmm
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510686218.1A
Other languages
English (en)
Other versions
CN105390134A (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510686218.1A priority Critical patent/CN105390134B/zh
Publication of CN105390134A publication Critical patent/CN105390134A/zh
Application granted granted Critical
Publication of CN105390134B publication Critical patent/CN105390134B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于子带VTS的模型自适应方法,考虑了Mel滤波器组相邻通道之间的相关性,将全部Mel通道划分为若干个子带,假设每个子带内的全部Mel通道的环境变换关系共享同一个噪声参数,从而增加最大似然参数估计可用的数据量。该方法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应。

Description

一种基于子带VTS的模型自适应方法
技术领域
本发明涉及到在对数谱域用子带矢量泰勒级数逼近每个子带上的环境变换关系,从含噪语音中估计子带噪声参数,根据估得的噪声参数对每个子带上的声学模型均值分量进行子带变换,得到含噪语音声学模型的模型自适应方法,属于语音识别技术领域。
背景技术
语音识别系统在实际应用中通常会受到噪声、口音等语音变异性的影响,这往往导致其识别性能急剧下降,因此必须对系统的前端特征参数或后端声学模型进行补偿,使它们互相匹配,提高语音识别系统在实际环境中的识别性能。
模型自适应是一种重要的鲁棒语音识别技术,它根据测试环境下的少量自适应数据调整声学模型的参数,使之与测试环境下的特征参数相匹配。模型自适应可分为直接自适应和间接自适应两类。直接自适应又称为贝叶斯方法,它根据最大后验准则直接估计声学模型的参数。由于每个基本语音单元的声学模型用各自的自适应数据分别更新参数,因此直接自适应需要大量自适应数据,这在实际应用中很难满足。间接自适应也称为基于变换的模型自适应,它将全部声学模型的所有高斯单元分为若干类,然后假定每一类中所有高斯单元的参数符合同一个变换,用每一类的所有自适应数据估计该类的变换参数。在间接自适应中,由于考虑了不同模型、不同高斯之间的空间相关性,用多个状态的数据估计同一组变换参数,间接增加了参数估计的数据量,因此只需要较少的自适应数据即可取得较好的效果,也不需要每个语音单元都有各自的自适应数据。
在噪声快速变化的非平稳环境中,可用于参数估计的自适应数据很少,此时基于变换的模型自适应同样存在数据稀疏问题,即因为观测样本不足导致最大似然估计的结果不准确。为了跟踪非平稳环境,就需要用很少的数据进行模型自适应,因此研究少量数据时的快速模型自适应具有非常重要的意义。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于子带矢量泰勒级数(VTS:Vector Taylor Series)的模型自适应方法,该方法考虑了Mel滤波器组相邻通道之间的相关性,将全部Mel通道划分为若干个子带,假设每个子带内的全部Mel通道的环境变换关系共享同一个噪声参数,从而增加最大似然参数估计可用的数据量。该方法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应。
技术方案:一种基于子带VTS的模型自适应方法,主要包括子带划分、子带回归、参数估计、子带变换和参数合并等模块,系统以隐马尔可夫模型(HMM:Hidden Markov Model)为声学模型,下面具体说明其内容。
(1)根据自适应数据的数量,将Mel滤波器组的全部通道划分为若干个子带;
(2)将纯净语音HMM每个高斯单元的均值向量从倒谱域变换回对数谱域,得到HMM的对数谱域均值向量;
(3)根据子带划分方案,将HMM的每个对数谱域均值向量分解到每个子带上,得到每个子带的对数谱域均值分量;
(4)设每个子带上全部Mel通道的环境变换关系泰勒级数展开式共享同一个噪声参数,即对数谱域噪声均值;
(5)利用每个子带上的噪声参数,构造待估计的子带回归式,应用于HMM每个对数谱域均值向量在该Mel子带上的分量;
(6)将待估计的子带回归式代入最大期望算法的辅助函数,并令辅助函数关于子带噪声参数的导数等于0,从含噪测试语音中估计出每个子带的噪声参数;
(7)利用估得的子带噪声参数,对纯净语音HMM各子带的均值分量进行子带变换,得到含噪语音HMM的均值向量;
(8)假设噪声只影响HMM每个高斯单元的均值向量,含噪语音HMM与纯净语音HMM的其他参数都相同,将估得的含噪语音均值向量与纯净语音HMM的其他参数合并为新的模型参数集,即可得到与测试环境匹配的含噪语音声学模型。
Mel滤波器组的子带数目由自适应数据的数量动态决定,自适应数据越少,子带数目就越少,子带内包含的Mel通道就越多,子带参数估计共享的数据量就越多;自适应数据越多,子带数目就越多,直至与Mel通道数相同,恢复为传统的VTS模型自适应。
有益效果:本发明利用Mel滤波器组相邻通道之间的相关性,使相邻通道的环境变换关系共享同一个噪声参数,以增加最大似然参数估计的数据量。在自适应过程中,首先将纯净语音隐马尔可夫模型每个高斯单元的均值向量从倒谱域变换回对数谱域,再根据自适应数据量将每个对数谱域均值向量划分为若干个子带分量,且假设每个子带上的全部Mel通道的噪声均值都相同,构建VTS环境变换关系式。各子带的噪声参数通过最大期望算法从含噪测试语音中估计,然后根据估得的子带噪声参数对纯净语音HMM各子带的均值分量进行子带变换,得到含噪语音均值向量。最后将含噪语音均值向量与纯净语音HMM的其他参数合并,得到与测试环境匹配的含噪语音声学模型。本发明可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应。
附图说明
图1为基于子带VTS的模型自适应语音识别系统的总体框架图,其中纯净HMM在训练阶段通过纯净语音训练而成,图中的子带划分、子带回归、参数估计、子带变换和参数合并模块都工作在测试阶段。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的基于子带VTS的模型自适应方法主要包括子带划分、子带回归、参数估计、子带变换和参数合并模块。下面逐一详细说明附图中各模块的具体实施方案。
1、子带划分
根据自适应数据的数量,将Mel滤波器组的全部通道划分为若干个子带;
在子带划分中,首先将预先训练的纯净语音声学模型每个高斯单元的均值向量μ变换回对数谱域,得到对数谱域均值向量u:
u=C-1μ (1)
其中,C-1表示离散余弦变换矩阵的逆矩阵。
然后将D维对数谱域均值向量u=[u1,u2,…,uD]T划分为K个子带:
为了便于描述,u可以写为K个D维子带均值分量之和的形式:
其中,
2、子带回归
假设在每个子带上,所有Mel通道的噪声均值相同,则测试环境含噪语音均值分量与训练环境纯净语音均值分量uk之间的变换关系符合如下VTS展开式:
其中,un,k和un0,k分别表示第k个子带上的噪声均值及其初值;ek为第k个子带上的单位向量,该子带Mel通道对应元素的值为1,其他子带Mel通道对应元素的值为0;对角矩阵Uk的表达式为:
其中,diag()表示以括号中向量的元素为对角元素生成对角矩阵。
将所有子带上的含噪语音均值分量相加,即可得到对数谱域含噪语音均值向量
在式(6)两边取离散余弦变换,即可得到倒谱域含噪语音均值向量
其中,C表示离散余弦变换矩阵。
3、参数估计
在式(7)的子带回归表达式中,子带参数un,k从含噪测试语音中估计。假设语音识别系统以隐马尔可夫模型(HMM)为声学模型,纯净HMM第i个状态的概率密度函数为:
其中,xt为第t帧倒谱特征向量;cim、μim、Σim分别是HMM第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵。根据式(7),含噪HMM第i个状态的第m个高斯单元的含噪语音倒谱均值可以表示为:
其中,Uk,im由下式决定:
为了便于参数估计,将K个噪声参数表示为K维列向量形式:un=[un,1,un,2,…,un,K]T,则式(9)可以改写为:
其中,Dim=C[U1,ime1,U2,ime2,…,UK,imeK]。
子带参数un通过最大期望算法(EM:Expectation Maximization)从含噪测试语音中估计,EM算法的辅助函数为:
其中,γim(t)=P(θt=i,kt=m|Y,λ)是在给定含噪语音序列Y={y1,…,yt,…,yT}和HMM先验参数λ条件下,第t帧含噪语音yt属于HMM第i个状态的第m个高斯单元的后验概率;是待估计的HMM参数。
将式(11)代入式(12),并令关于un的导数等于0,则可得到:
根据式(13),噪声参数un的估计公式为:
4、子带变换
得到噪声参数un,即可根据下式对纯净语音HMM的每个均值向量μim进行子带变换,得到含噪语音HMM的均值向量
其中,uk,im通过对μim进行逆离散余弦变换和子带划分得到。
5、参数合并
假设噪声只影响HMM每个高斯单元的均值向量,含噪语音HMM与纯净语音HMM的其他参数都相同。将通过式(14)得到的含噪语音均值向量与纯净语音HMM的其他参数合并为新的参数集即可得到与测试环境匹配的含噪语音声学模型。最后,用参数合并得到的含噪语音声学模型对含噪测试语音进行声学解码,即可得到识别结果。

Claims (7)

1.一种基于子带VTS的模型自适应方法,其特征在于:利用Mel滤波器组相邻通道之间的相关性,将全部Mel通道划分为若干个子带,假设每个子带内的全部Mel通道的VTS环境变换关系共享同一个噪声参数,从而增加最大似然估计可用的数据量,较好地克服数据稀疏问题,通过快速模型自适应得到与测试环境相匹配的含噪语音声学模型,主要包括子带划分、子带回归、参数估计、子带变换和参数合并部分;
子带划分:
(1)根据自适应数据的数量,将Mel滤波器组的全部通道划分为若干个子带;
(2)将纯净语音HMM每个高斯单元的均值向量从倒谱域变换回对数谱域,得到HMM的对数谱域均值向量;
(3)根据子带划分方案,将HMM的每个对数谱域均值向量分解到每个子带上,得到每个子带的对数谱域均值分量;
子带回归:
(4)设每个子带上全部Mel通道的环境变换关系泰勒级数展开式共享同一个噪声参数,即对数谱域噪声均值;
参数估计:
(5)利用每个子带上的噪声参数,构造待估计的子带回归式,应用于HMM每个对数谱域均值向量在该Mel子带上的分量;
(6)将待估计的子带回归式代入最大期望算法的辅助函数,并令辅助函数关于子带噪声参数的导数等于0,从含噪测试语音中估计出每个子带的噪声参数;
子带变换:
(7)利用估得的子带噪声参数,对纯净语音HMM各子带的均值分量进行子带变换,得到含噪语音HMM的均值向量;
参数合并:
(8)假设噪声只影响HMM每个高斯单元的均值向量,含噪语音HMM与纯净语音HMM的其他参数都相同,将估得的含噪语音均值向量与纯净语音HMM的其他参数合并为新的模型参数集,即可得到与测试环境匹配的含噪语音声学模型。
2.如权利要求1所述的基于子带VTS的模型自适应方法,其特征在于,Mel滤波器组的子带数目由自适应数据的数量动态决定,自适应数据越少,子带数目就越少,子带内包含的Mel通道就越多,子带参数估计共享的数据量就越多;自适应数据越多,子带数目就越多,直至与Mel通道数相同,恢复为传统的VTS模型自适应。
3.如权利要求1所述的基于子带VTS的模型自适应方法,其特征在于,在子带划分中,首先将预先训练的纯净语音声学模型每个高斯单元的均值向量μ变换回对数谱域,得到对数谱域均值向量u:
u=C-1μ (1)
其中,C-1表示离散余弦变换矩阵的逆矩阵,
然后将D维对数谱域均值向量u=[u1,u2,…,uD]T划分为K个子带:
为了便于描述,u可以写为K个D维子带均值分量之和的形式:
其中,
4.如权利要求1所述的基于子带VTS的模型自适应方法,其特征在于,假设在每个子带上,所有Mel通道的噪声均值相同,则测试环境含噪语音均值分量与训练环境纯净语音均值分量uk之间的变换关系符合如下VTS展开式:
其中,un,k和un0,k分别表示第k个子带上的噪声均值及其初值;ek为第k个子带上的单位向量,该子带Mel通道对应元素的值为1,其他子带Mel通道对应元素的值为0;对角矩阵Uk的表达式为:
其中,diag()表示以括号中向量的元素为对角元素生成对角矩阵,
将所有子带上的含噪语音均值分量相加,即可得到对数谱域含噪语音均值向量
在式(6)两边取离散余弦变换,即可得到倒谱域含噪语音均值向量
其中,C表示离散余弦变换矩阵。
5.如权利要求1所述的基于子带VTS的模型自适应方法,其特征在于,在式(7)的子带回归表达式中,子带参数un,k从含噪测试语音中估计,假设语音识别系统以隐马尔可夫模型(HMM)为声学模型,纯净HMM第i个状态的概率密度函数为:
其中,xt为第t帧倒谱特征向量;cim、μim、Σim分别是HMM第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,根据式(7),含噪HMM第i个状态的第m个高斯单元的含噪语音倒谱均值可以表示为:
其中,Uk,im由下式决定:
为了便于参数估计,将K个噪声参数表示为K维列向量形式:un=[un,1,un,2,…,un,K]T,则式(9)可以改写为:
其中,Dim=C[U1,ime1,U2,ime2,…,UK,imeK],
子带参数un通过最大期望算法(EM:Expectation Maximization)从含噪测试语音中估计,EM算法的辅助函数为:
其中,γim(t)=P(θt=i,kt=m|Y,λ)是在给定含噪语音序列Y={y1,…,yt,…,yT}和HMM先验参数λ条件下,第t帧含噪语音yt属于HMM第i个状态的第m个高斯单元的后验概率;是待估计的HMM参数;
将式(11)代入式(12),并令关于un的导数等于0,则可得到:
根据式(13),噪声参数un的估计公式为:
6.如权利要求1所述的基于子带VTS的模型自适应方法,其特征在于,子带变换中,得到噪声参数un,即可根据下式对纯净语音HMM的每个均值向量μim进行子带变换,得到含噪语音HMM的均值向量
其中,uk,im通过对μim进行逆离散余弦变换和子带划分得到。
7.如权利要求4所述的基于子带VTS的模型自适应方法,其特征在于,假设噪声只影响HMM每个高斯单元的均值向量,含噪语音HMM与纯净语音HMM的其他参数都相同;将通过式(14)得到的含噪语音均值向量与纯净语音HMM的其他参数合并为新的参数集即可得到与测试环境匹配的含噪语音声学模型;最后,用参数合并得到的含噪语音声学模型对含噪测试语音进行声学解码,即可得到识别结果。
CN201510686218.1A 2015-10-20 2015-10-20 一种基于子带vts的模型自适应方法 Expired - Fee Related CN105390134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510686218.1A CN105390134B (zh) 2015-10-20 2015-10-20 一种基于子带vts的模型自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510686218.1A CN105390134B (zh) 2015-10-20 2015-10-20 一种基于子带vts的模型自适应方法

Publications (2)

Publication Number Publication Date
CN105390134A CN105390134A (zh) 2016-03-09
CN105390134B true CN105390134B (zh) 2019-01-11

Family

ID=55422354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510686218.1A Expired - Fee Related CN105390134B (zh) 2015-10-20 2015-10-20 一种基于子带vts的模型自适应方法

Country Status (1)

Country Link
CN (1) CN105390134B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945795B (zh) * 2017-11-13 2021-06-25 河海大学 一种基于高斯分类的快速模型自适应方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104392719A (zh) * 2014-11-26 2015-03-04 河海大学 一种用于语音识别系统的中心子带模型自适应方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
CN102982801A (zh) * 2012-11-12 2013-03-20 中国科学院自动化研究所 一种用于鲁棒语音识别的语音特征提取方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104392719A (zh) * 2014-11-26 2015-03-04 河海大学 一种用于语音识别系统的中心子带模型自适应方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Cepstral-Domain HMM-Based speech enhancement using Vector taylor series and parallel model combination";Hadi Veisi Et Al;《 The 11th International Conference on Information Sciences,signal Processing and their applications》;20121231;全文
"Vector Taylor Series Based HMM Adaptation for Generalized Cepstrum in Noisy Environment";Soonho Baek ET AL;《IEEE》;20131231;全文
"一种基于鲁棒特征的模型补偿噪声语音识别方法";张军;《数据采集与处理》;20030930;第18卷(第3期);全文
"基于最大似然子带线性回归的鲁棒语音识别";吕勇;《信号处理》;20100131;第26卷(第1期);全文
"基于矢量泰勒级数的鲁棒语音识别";吕勇;《天津大学学报》;20110331;第44卷(第3期);全文
"鲁棒语音识别中的特征补偿与模型自适应算法研究";吕勇;《万方学位论文数据库》;20101231;第58,79-83页

Also Published As

Publication number Publication date
CN105390134A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
Prasad et al. Improved cepstral mean and variance normalization using Bayesian framework
Weninger et al. Feature enhancement by deep LSTM networks for ASR in reverberant multisource environments
CN102945670B (zh) 一种用于语音识别系统的多环境特征补偿方法
van Dalen et al. Extended VTS for noise-robust speech recognition
CN104392718A (zh) 一种基于声学模型阵列的鲁棒语音识别方法
Gales Model-based approaches to handling uncertainty
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105355199A (zh) 一种基于gmm噪声估计的模型组合语音识别方法
CN106356058B (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
Baby et al. Exemplar-based speech enhancement for deep neural network based automatic speech recognition
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
Joshi et al. Modified mean and variance normalization: transforming to utterance-specific estimates
Yao et al. Noise adaptive speech recognition based on sequential noise parameter estimation
CN105390134B (zh) 一种基于子带vts的模型自适应方法
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
Hoffmann et al. Using information theoretic distance measures for solving the permutation problem of blind source separation of speech signals
Sim et al. A trajectory-based parallel model combination with a unified static and dynamic parameter compensation for noisy speech recognition
Bayestehtashk et al. Robust speech recognition using multivariate copula models
Chen et al. Robust speech recognition using spatial–temporal feature distribution characteristics
Miao et al. Learning discriminative basis coefficients for eigenspace MLLR unsupervised adaptation
Xiao et al. Feature compensation using linear combination of speaker and environment dependent correction vectors
Sasou et al. HMM-based noise-robust feature compensation
Das et al. Vector taylor series expansion with auditory masking for noise robust speech recognition
Van Hamme Handling time-derivative features in a missing data framework for robust automatic speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190111

Termination date: 20211020