CN104392719B - 一种用于语音识别系统的中心子带模型自适应方法 - Google Patents
一种用于语音识别系统的中心子带模型自适应方法 Download PDFInfo
- Publication number
- CN104392719B CN104392719B CN201410695733.1A CN201410695733A CN104392719B CN 104392719 B CN104392719 B CN 104392719B CN 201410695733 A CN201410695733 A CN 201410695733A CN 104392719 B CN104392719 B CN 104392719B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mover
- mtd
- msup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
Abstract
本发明公开一种用于语音识别系统的中心子带模型自适应方法,通过Mel滤波器组的每个通道与其相邻的通道共享自适应数据,进一步增加参数估计的数据量,解决数据稀疏问题;同时,每个Mel通道保留各自的环境变换关系,以每个Mel通道为中心通道,与其前后各若干个Mel通道共享自适应数据,估计变换参数,估得的变换参数仅用于当前中心Mel通道。在参数估计中,将Mel滤波器组全部通道的环境变换关系划分为N m 类,每一类的变换参数通过对Mel滤波器组通道的一次子带划分及其子带自适应得到。本发明可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的鲁棒性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到用测试环境下的少量自适应语音调整训练环境下得到的声学模型的参数,使之与实际环境相匹配,提高语音识别系统鲁棒性的模型自适应方法。
背景技术
由于环境噪声、说话人的改变等因素的存在,实际环境与训练环境往往存在较大的差异,这会导致语音识别系统的性能急剧下降。鲁棒语音识别的目的就是减小环境失配的影响,提高语音识别系统在实际应用中的识别性能。
一般来说,鲁棒语音识别算法可以划分为两类:前端特征域方法和后端模型域方法。在前端特征补偿中,对测试环境下提取的特征参数进行补偿,使之与预先训练的声学模型相匹配。在后端,对预先训练的声学模型的参数进行调整,使之与当前环境下的特征参数相匹配,这类方法称为模型自适应。相对于前端特征补偿,模型自适应能同时减小语音变异性和环境噪声的影响,因而可以得到更好的补偿效果。
为了解决数据稀疏问题,最大似然线性回归(MLLR:Maximum Likelihood LinearRegression)算法假设环境失配只影响声学模型每个高斯单元的均值向量,因而只需要将训练环境声学模型的每个均值向量变换到测试环境,即可得到与当前环境匹配的测试环境均值向量。在MLLR算法中,属于多个高斯单元的自适应数据被用于估计同一组变换参数,因而可以提高数据稀疏时参数估计的准确性。
在子带算法中,Mel滤波器组的全部通道被划分为几个子带,假设同一个子带内的所有通道共享同一个环境变换函数,因此可以进一步增加参数估计的数据量,提高模型自适应的精度。然而,这种子带假设也会给模型变换带来不利影响,因为不同通道的环境变换关系实际上是不同的。尤其当一个子带包含较多Mel通道时,第一个和最后一个通道的频域距离较远,因而它们的环境变换关系可能存在较大的差异,假设它们符合同一个环境变换函数,有可能导致不准确的参数估计和模型变换。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供了一种用于语音识别系统的中心子带模型自适应方法,在该方法中,假设Mel滤波器组的每个通道与其相邻的通道共享自适应数据,以增加参数估计的数据量;同时,估得的变换参数仅用于当前中心通道,不用于其他通道,每个通道有各自的环境变换关系。在中心子带自适应模块中,利用测试环境下的少量自适应语音对训练环境下生成的声学模型进行参数变换,得到测试环境声学模型,然后直接对测试语音进行声学解码,得到识别结果。
技术方案:一种用于语音识别系统的中心子带模型自适应方法,包括:
(1)IDCT:对训练环境声学模型每个高斯单元的倒谱均值进行逆离散余弦变换(IDCT:Inverse Discrete Cosine Transform),得到训练环境对数谱域均值向量。
(2)Mel通道分类:将Mel滤波器组全部通道上的环境变换参数划分为Nm类,每一类包括若干个通道上的变换参数。
(3)子带参数估计:对每一类参数,通过对Mel滤波器组全部通道的一次子带划分及其子带自适应估得。Nm类参数估计可以通过并行计算,提高计算速度。
(4)对数谱域模型变换:经过Nm次子带自适应,得到变换参数后,即可对训练环境对数谱域均值向量进行变换,得到测试环境对数谱域均值向量。
(5)DCT:对测试环境对数谱域均值向量进行离散余弦变换(DCT:Discrete CosineTransform),得到测试环境倒谱均值向量,从而得到测试环境声学模型。
有益效果:与现有技术相比,本发明通过Mel滤波器组的每个通道与其相邻的通道共享自适应数据,增加参数估计的数据量;同时,估得的变换参数仅用于当前中心通道,不用于其相邻通道。每个通道都与各自的相邻通道共享自适应数据,得到各自的环境变换参数。本发明可以提高非平稳环境下自适应数据稀疏时语音识别系统的性能,提高系统的鲁棒性。
附图说明
图1为声学识别过程框架图;
图2为本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,中心子带自适应模块是本发明方法的核心模块,如图2所示,本发明的中心子带自适应方法主要包括倒谱均值向量的逆离散余弦变换(IDCT)、对数谱均值分量的Mel通道分类、子带变换参数估计、对数谱域模型变换和对数谱均值向量的离散余弦变换(DCT)。下面详细说明中心子带自适应方法的具体实施方案。
1、中心子带变换
本发明用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为语音识别系统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,D表示特征向量的维数,即Mel滤波器组的通道数目。通常可以认为环境的改变主要影响声学模型的均值,对其他参数的影响较小,因此只要调整训练环境声学模型的均值向量,即可得到测试环境声学模型。
在倒谱域,测试环境均值向量与训练环境均值向量μim的实际变换关系非常复杂,难以用一个简单的函数去逼近。为了构建与μim的简单变换关系,首先通过逆离散余弦变换(IDCT)将μim变换回对数谱域:
uim=C-1μim (2)
其中,C-1表示离散余弦变换的逆矩阵,uim是训练环境的对数谱域均值向量。
然后,假设在Mel滤波器组的每个Mel通道上,通过线性变换得到测试环境的对数谱域均值向量
其中和uim(k)分别表示向量和uim在第k个Mel通道上的元素,a(k)和b(k)为第k个Mel通道上的线性变换系数。
为了提高数据稀疏情况下模型参数估计的准确性,以当前Mel通道为中心通道,Nm个通道共享同一个线性变换(Nm为奇数),即当前第k个通道与其前和后个通道共享线性变换系数a(k)和b(k)。但是,当a(k)和b(k)从自适应数据中估得后,它们仅仅用于第k个通道的参数变换,不会用于其他Nm-1个通道。以每个Mel通道为中心通道,与其临近的Nm个通道共享数据,即可得到每个通道的变换参数。实际上,Mel滤波器组每个通道的参数没有必要逐个估计,将Mel滤波器组的D个通道划分为个子带后,不同子带中相同序号通道的参数可以在一次子带自适应中完成,这里的ceil(x)表示取不小于x的最小正整数。为此,构建如下子带滤波器ek:
其中ek(l)表示ek的第l个元素,D表示Mel滤波器组的通道数目。因此,第k个通道的环境变换可以表示为:
其中Uim表示以向量uim的元素为对角元素生成的对角矩阵;表示测试环境对数谱域均值向量的第k个分量,它的维数与uim相同。除第k个子带外,的其他元素都是0。
2、子带自适应及参数估计
在子带自适应中,a(k)和b(k)被划分为Nm类,第p类包括以下参数:
在第p类参数ap、bp的估计中,Mel滤波器组的全部D个通道被划分为Jp个子带,其中心通道分别为通道p,Nm+p,2Nm+p,…。因此,训练环境对数谱域均值向量uim可以分解为:
其中,ej表示第j个子带的单位向量。在ej中,这个子带上的对应元素为1,其他元素为0。因此,测试环境均值分量与训练环境均值分量Uimej的关系可以表示为:
其中,和分别表示第j个子带的线性变换系数。将所有测试环境均值分量相加,即可得到测试环境的对数谱域均值向量
对上式两边取DCT变换,即可得到测试环境的倒谱均值向量
将上式的表示为矩阵形式:
其中,
在式(13)中,子带变换系数和通过期望最大算法从测试环境下的少量自适应语音中估计,期望最大算法的辅助函数构造如下:
其中,γim(t)=P(θt=i,kt=m|O,λ),表示给定观测向量序列O={o1,…,ot,…,oT}和先验参数集λ的条件下,第t帧向量属于第i个状态的第m个高斯单元的后验概率。
将式(11)的代入辅助函数并令对向量的导数为0,即可得到:
得到子带回归系数和后,第p类中心子带变换参数ap和bp可以通过下式计算:
其中,ap(k)和bp(k)分别为ap和bp的第k个元素;Dp表示ap和bp的向量维数;Jp是子带数目。由式(16)和(17)可知,如果Jp=Dp+1且则和的最后一个子带分量无效;如果Jp=Dp+1且则和的第一个子带分量无效。
3、对数谱域模型变换及DCT
通过对Mel滤波器组的Nm次不同划分及其子带自适应,即可根据式(6)得到中心子带变换的全部变换参数a(k)和b(k),k=1,2,3,…,D。
得到子带变换参数a(k)和b(k)后,即可用式(3)对声学模型的每个训练环境对数谱域均值向量进行变换,得到测试环境对数谱域均值向量最后对进行DCT变换,得到测试环境倒谱均值向量。
Claims (1)
1.一种用于语音识别系统的中心子带模型自适应方法,其特征在于,具体包括:
(1)、中心子带变换
用连续密度隐马尔可夫模型HMM作为语音识别系统每个语音单元的声学模型,HMM的第i个状态的概率密度函数可以表示为:
<mrow>
<msub>
<mi>b</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<msub>
<mi>c</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msup>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mi>&pi;</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>-</mo>
<mi>D</mi>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<mo>|</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msup>
<mo>|</mo>
<mrow>
<mo>-</mo>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
<mi>exp</mi>
<mo>&lsqb;</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ot表示第t帧MFCC特征向量,cim、μim和Σim分别表示第i个状态的第m个高斯单元的混合系数、均值向量和协方差矩阵,D表示特征向量的维数,即Mel滤波器组的通道数目;
为了构建与μim的简单变换关系,首先通过逆离散余弦变换将μim变换回对数谱域:
uim=C-1μim (2)
其中,C-1表示离散余弦变换的逆矩阵,uim是训练环境的对数谱域均值向量;
然后,假设在Mel滤波器组的每个Mel通道上,通过线性变换得到测试环境的对数谱域均值向量
<mrow>
<msub>
<mover>
<mi>u</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中和uim(k)分别表示向量和uim在第k个Mel通道上的元素,a(k)和b(k)为第k个Mel通道上的线性变换系数;
以当前Mel通道为中心通道,Nm个通道共享同一个线性变换,即当前第k个通道与其前和后个通道共享线性变换系数a(k)和b(k);但是,当a(k)和b(k)从自适应数据中估得后,它们仅仅用于第k个通道的参数变换,不会用于其他Nm-1个通道;以每个Mel通道为中心通道,与其临近的Nm个通道共享数据,即可得到每个通道的变换参数;实际上,Mel滤波器组每个通道的参数没有必要逐个估计,将Mel滤波器组的D个通道划分为个子带后,不同子带中相同序号通道的参数可以在一次子带自适应中完成,这里的ceil(x)表示取不小于x的最小正整数;为此,构建如下子带滤波器ek:
<mrow>
<msub>
<mi>e</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>-</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
<mo>,</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mi>l</mi>
<mo>&le;</mo>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>+</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
<mo>,</mo>
<mi>D</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
其中ek(l)表示ek的第l个元素,D表示Mel滤波器组的通道数目;因此,第k个通道的环境变换可以表示为:
<mrow>
<msub>
<mover>
<mi>u</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>m</mi>
<mo>,</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>a</mi>
<mi>k</mi>
</msub>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mi>k</mi>
</msub>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>k</mi>
</msub>
<msub>
<mi>e</mi>
<mi>k</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
其中Uim表示以向量uim的元素为对角元素生成的对角矩阵;表示测试环境对数谱域均值向量的第k个分量,它的维数与uim相同;除第k个子带外,的其他元素都是0;
(2)、子带自适应及参数估计
在子带自适应中,a(k)和b(k)被划分为Nm类,第p类包括以下参数:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>a</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>a</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mo>...</mo>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>b</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>b</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mn>2</mn>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mo>...</mo>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>,</mo>
<mi>p</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
在第p类参数ap、bp的估计中,Mel滤波器组的全部D个通道被划分为Jp个子带,其中心通道分别为通道p,Nm+p,2Nm+p,...;因此,训练环境对数谱域均值向量uim可以分解为:
<mrow>
<msub>
<mi>u</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mn>2</mn>
</msub>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ej表示第j个子带的单位向量;在ej中,这个子带上的对应元素为1,其他元素为0;因此,测试环境均值分量与训练环境均值分量Uimej的关系可以表示为:
<mrow>
<msub>
<mover>
<mi>u</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,和分别表示第j个子带的线性变换系数;将所有测试环境均值分量相加,即可得到测试环境的对数谱域均值向量
<mrow>
<msub>
<mover>
<mi>u</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</munderover>
<msub>
<mover>
<mi>u</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
<msub>
<mi>U</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
对上式两边取DCT变换,即可得到测试环境的倒谱均值向量
<mrow>
<msub>
<mover>
<mi>&mu;</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</munderover>
<mo>&lsqb;</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>CU</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msub>
<mi>Ce</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
将上式的表示为矩阵形式:
<mrow>
<msub>
<mover>
<mi>&mu;</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mover>
<mi>w</mi>
<mo>^</mo>
</mover>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>11</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,
<mrow>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>&lsqb;</mo>
<msub>
<mi>Ce</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>Ce</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>Ce</mi>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>CU</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>CU</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>CU</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<msub>
<mi>e</mi>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
</msub>
<mo>&rsqb;</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>12</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mover>
<mi>w</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
<mo>,</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>13</mn>
<mo>)</mo>
</mrow>
</mrow>
在式(13)中,子带变换系数和通过期望最大算法从测试环境下的少量自适应语音中估计,期望最大算法的辅助函数构造如下:
<mrow>
<mi>Q</mi>
<mrow>
<mo>(</mo>
<mover>
<mi>&lambda;</mi>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
<mi>&lambda;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msub>
<mi>&gamma;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>&mu;</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<msub>
<mover>
<mi>&mu;</mi>
<mo>&OverBar;</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>14</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,γim(t)=P(θt=i,kt=m|O,λ),表示给定观测向量序列O={o1,…,ot,…,oT}和先验参数集λ的条件下,第t帧向量属于第i个状态的第m个高斯单元的后验概率;
将式(11)的代入辅助函数并令对向量的导数为0,即可得到:
<mrow>
<mover>
<mi>w</mi>
<mo>^</mo>
</mover>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>,</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msub>
<mi>&gamma;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>T</mi>
</munderover>
<msub>
<mi>&gamma;</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mi>m</mi>
</mrow>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msub>
<mi>o</mi>
<mi>t</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>15</mn>
<mo>)</mo>
</mrow>
</mrow>
得到子带回归系数和后,第p类中心子带变换参数ap和bp可以通过下式计算:
<mrow>
<msub>
<mi>a</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>p</mi>
<mo>&le;</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>a</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>p</mi>
<mo>></mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mn>3</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>16</mn>
<mo>)</mo>
</mrow>
</mrow>
2
<mrow>
<msub>
<mi>b</mi>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>p</mi>
<mo>&le;</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>b</mi>
<mo>^</mo>
</mover>
<mi>p</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>J</mi>
<mi>p</mi>
</msub>
<mo>=</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>,</mo>
<mi>p</mi>
<mo>></mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>m</mi>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mn>2</mn>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mn>3</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>D</mi>
<mi>p</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>17</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,ap(k)和bp(k)分别为ap和bp的第k个元素;Dp表示ap和bp的向量维数;Jp是子带数目;由式(16)和(17)可知,如果Jp=Dp+1且则和的最后一个子带分量无效;如果Jp=Dp+1且则和的第一个子带分量无效;
(3)、对数谱域模型变换及DCT
通过对Mel滤波器组的Nm次不同划分及其子带自适应,即可根据式(6)得到中心子带变换的全部变换参数a(k)和b(k),k=1,2,3,…,D;
得到子带变换参数a(k)和b(k)后,即可用式(3)对声学模型的每个训练环境对数谱域均值向量进行变换,得到测试环境对数谱域均值向量最后对进行DCT变换,得到测试环境倒谱均值向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410695733.1A CN104392719B (zh) | 2014-11-26 | 2014-11-26 | 一种用于语音识别系统的中心子带模型自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410695733.1A CN104392719B (zh) | 2014-11-26 | 2014-11-26 | 一种用于语音识别系统的中心子带模型自适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104392719A CN104392719A (zh) | 2015-03-04 |
CN104392719B true CN104392719B (zh) | 2017-09-19 |
Family
ID=52610612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410695733.1A Active CN104392719B (zh) | 2014-11-26 | 2014-11-26 | 一种用于语音识别系统的中心子带模型自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104392719B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355198B (zh) * | 2015-10-20 | 2019-03-12 | 河海大学 | 一种基于多重自适应的模型补偿语音识别方法 |
CN105390134B (zh) * | 2015-10-20 | 2019-01-11 | 河海大学 | 一种基于子带vts的模型自适应方法 |
CN106782520B (zh) * | 2017-03-14 | 2019-11-26 | 华中师范大学 | 一种复杂环境下语音特征映射方法 |
CN107945795B (zh) * | 2017-11-13 | 2021-06-25 | 河海大学 | 一种基于高斯分类的快速模型自适应方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101223574A (zh) * | 2005-12-08 | 2008-07-16 | 韩国电子通信研究院 | 使用话带信号的语音识别装置和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9087513B2 (en) * | 2012-03-09 | 2015-07-21 | International Business Machines Corporation | Noise reduction method, program product, and apparatus |
-
2014
- 2014-11-26 CN CN201410695733.1A patent/CN104392719B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101223574A (zh) * | 2005-12-08 | 2008-07-16 | 韩国电子通信研究院 | 使用话带信号的语音识别装置和方法 |
Non-Patent Citations (4)
Title |
---|
Maximum likelihood subband polynomial regression for robust speech recognition;Yong Lv etc;《Applied Acoustics》;20121228(第74期);第640-646页 * |
噪声环境下的语音识别算法研究;吕钊;《中国博士学位论文全文数据库》;20120315(第03期);第1-152页 * |
基于最大似然子带线性回归的鲁棒语音识别;吕勇 等;《信号处理》;20100131;第26卷(第1期);第74-79页 * |
抗噪声语音识别新技术研究;宁更新;《中国博士学位论文全文数据库》;20061115(第11期);第1-113页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104392719A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104392718B (zh) | 一种基于声学模型阵列的鲁棒语音识别方法 | |
Venkataramani et al. | End-to-end source separation with adaptive front-ends | |
CN101833951B (zh) | 用于说话人识别的多背景模型建立方法 | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN103474066B (zh) | 基于多频带信号重构的生态声音识别方法 | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
CN110867181A (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN104392719B (zh) | 一种用于语音识别系统的中心子带模型自适应方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN105632512A (zh) | 一种基于统计模型的双传感器语音增强方法与装置 | |
CN104485108A (zh) | 一种基于多说话人模型的噪声与说话人联合补偿方法 | |
Seo et al. | A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN104485103A (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN105355199A (zh) | 一种基于gmm噪声估计的模型组合语音识别方法 | |
CN106356058A (zh) | 一种基于多频带特征补偿的鲁棒语音识别方法 | |
Sainath et al. | Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction. | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
CN107527611A (zh) | Mfcc语音识别方法、存储介质、电子设备及系统 | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
Astudillo et al. | Accounting for the residual uncertainty of multi-layer perceptron based features | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition | |
Razani et al. | A reduced complexity MFCC-based deep neural network approach for speech enhancement | |
CN105390134B (zh) | 一种基于子带vts的模型自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |