CN104795063A - 一种基于声学空间非线性流形结构的声学模型构建方法 - Google Patents

一种基于声学空间非线性流形结构的声学模型构建方法 Download PDF

Info

Publication number
CN104795063A
CN104795063A CN201510124249.8A CN201510124249A CN104795063A CN 104795063 A CN104795063 A CN 104795063A CN 201510124249 A CN201510124249 A CN 201510124249A CN 104795063 A CN104795063 A CN 104795063A
Authority
CN
China
Prior art keywords
acoustic
model
state
manifold structure
regional area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510124249.8A
Other languages
English (en)
Inventor
张文林
屈丹
李�真
闫红刚
牛铜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201510124249.8A priority Critical patent/CN104795063A/zh
Publication of CN104795063A publication Critical patent/CN104795063A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在该非线性低维流形结构上,估计其观测概率模型;每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定;通过迭代过程,分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明所构建的声学模型的非线性假设条件更为合理,具有直观的物理意义,且声学模型中大量的参数是状态无关的,特别适用于训练数据量较少时的连续语音识别声学建模。

Description

一种基于声学空间非线性流形结构的声学模型构建方法
技术领域
本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法,属于连续语音识别技术领域。
背景技术
在连续语音识别中,为了反映同一音素在不同上下文环境中发音的不同,通常采用上下文相关音素建模方法,即对每一个音素的不同音位变体,分别用一个隐马尔可夫模型(Hidden Markov Model,HMM)进行建模,其中每一个隐含状态的观测概率分布用高斯混合模型(Gaussian Mixture Model,GMM)或神经网络进行逼近。这种上下文相关模型的参数数量庞大,即使采用状态绑定等方法来减少状态个数,典型的连续语音识别系统参数数量仍然在百万级以上。为了训练得到一个性能良好的识别系统,需要大量的训练数据,而实际中训练数据往往是十分有限的。因此,为了减少模型对训练数据量的要求,需要进一步降低模型的复杂度,提高参数估计的稳健性。
针对传统的“隐马尔可夫模型(Hidden Markov Model,HMM)-高斯混合模型(Gaussian Mixture Model,GMM)”声学模型,目前常用的解决方案有:结构化协方差矩阵/精度矩阵建模方法,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的)基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone)建模方法,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到更为精确的参数估计;子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM)将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混合模型(Gaussian Mixture Model,GMM)相比,SGMM声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别。
前述几种方法可以归结为一大类基于基展开(Basis Expand)的声学建模方法。近年来,基于压缩感知与稀疏表达的方法受到众多学者的青睐,已被成功应用于语音去噪、稳健性语音识别、声学模型正则化等方面。2012年,Saon等将压缩感知技术直接应用于连续语音识别声学建模中,将表示方法与马尔可夫链相结合,提出了一种贝叶斯感知隐马尔可夫模型(Bayesian Sensing HMMs,BSHMMs),取得了不错的效果。BS-HMMs的有效性可以归结为其在声学特征层次上应用压缩感知技术来建立状态模型,并利用最大后验估计得到了稳健的模型参数。然而,与SGMM声学模型不同,其各状态模型之间的参数估计是相互独立的,需要训练多个状态相关字典,因此对训练数据量的要求仍较高。2013年,Zhang等提出稀疏精度矩阵建模方法,即对协方差矩阵的逆矩阵直接施加稀疏约束,从而间接减少模型参数数量。
上述基展开方法本质上都是寻找模型参数的线性子空间,事实上,众多研究表明语音信号存在一个低维的非线性流形结构,因此现有方法采用线性子空间来对模型参数的相关性进行建模是不精确的,只是一种近似方法。
发明内容
本发明的目的是提供一种基于声学空间非线性流形结构的声学模型构建方法,以解决目前采用线性子空间来对模型参数的相关性进行建模所导致模型不精确的问题。
本发明为解决上述技术问题而提供一种基于声学空间非线性流形结构的声学模型构建方法,该构建方法包括以下步骤:
1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM);
2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA),作为其低维非线性流形结构的近似模型;
3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的观测概率模型,即构成了基于MFA的上下文相关状态模型;
4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要构建的声学模型。
所述步骤1)中背景模型UBM的生成过程如下:
A.利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线系统;
B.对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的损失值;
C.将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混元数达到设定值。
所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分析模型近似得到。
所述步骤2)中第i个局部区域的潜在维数Di的确定过程如下:
A)将UBM中的各协方差矩阵中的特征值按照从大到小排序为λi1i2,…,λiD,其中D为特征矢量维数;
B)计算各个特征值的累积贡献率其中ηid为第i个局部区域第d个特征值的累积贡献率;
C)选择特征值累积贡献率超过某个设定门限的最小特征值序号作为第i个局部区域的潜在维数Di
所述步骤3)中上下文相关的每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。
所述步骤4)中第j个上下文状态的观测概率模型为:
其中,表示均值矢量为μ、协方差矩阵为Σ的多元正态分布,ot表示t时刻的观测特征矢量,μi、Mi和Σi分别表示第i个局部区域的中心矢量、局部坐标系矩阵和数据分布的协方差矩阵,yji是状态j在第i个局部区域内的均值对应的局部区域坐标矢量,wji表示状态j的观测数据落入第i个局部区域的概率。
所述步骤5)中是采用期望最大化算法EM进行重估,包括计算统计量、重估权重参数、重估计局部坐标矢量和重估状态无关参数四个过程。
对于第j个状态和第i个局部区域,所述零阶、一阶和二阶统计量的计算公式分别如下:
γji=Σtγji(t)
sji=Σtγji(t)ot
S ji = Σ t γ ji ( t ) o t o t T
其中,γji(t)表示给定观测序列O及模型参数Λ(k)的条件下t时刻处于状态j的第i个高斯混元的后验概率,可通过Baum-Welch前后向算法计算得到。
第k次迭代,状态j的第i个高斯混元的权重参数wji的重估公式为:
w ji ( k + 1 ) = γ ji Σ i ′ γ ji ′
即为权重矢量的更新值,其中a为预先选定的正整数(1≤α≤I),||·||0表示矢量的零范数,即矢量的非零元素个数;
否则,将的各分量从大到小排序为w′j1,w′j2,…,w′jI,计算对应累积贡献率寻找取门限τj=w′jp;对每一个权重分量执行下面的“收缩”与“归一化”操作:
权重收缩: w ji ( k + 1 ) ← [ w ji ( k + 1 ) - τ j ] +
权重归一化: w ji ( k + 1 ) ← w ji ( k + 1 ) Σ i ′ w ji ′ ( k + 1 )
其中, [ w ji ( k + 1 ) - τ j ] + = max { w ji ( k + 1 ) - τ j , 0 } , 最终得到更新的权重矢量 w j ( k + 1 ) = w j 1 ( k + 1 ) w j 2 ( k + 1 ) . . . w jI ( k + 1 ) .
本发明的有益效果是:本发明从声学特征空间的非线性流形结构特点出发,将整个特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型;同时将上下文相关状态的观测矢量限定在该非线性低维流形结构上,推导得到其观测概率模型,最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。本发明所构建的声学模型的非线性假设条件更为合理,具有直观的物理意义,可以得到更为紧凑和稳健的声学模型,且声学模型中大量的参数(即非线性流形数学模型的参数)是状态无关的,而状态相关参数较少,因此特别适用于训练数据量较少时的连续语音识别声学建模。
附图说明
图1是本发明的流程图;
图2是初始UBM训练流程图;
图3是混合因子分析模型训练流程图;
图4是MFA声学模型的重估流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
本发明从声学特征空间的非线性流形结构特点出发,将整个特征空间划分为多个局部区域,对每个局部区域用一个低维的因子分析模型进行近似,从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形结构上,可推导得到其观测概率模型。最终,每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定,本发明给出了局部区域潜在维数的确定准则及各模型参数的迭代估计算法实现流程。相比于传统的GMM声学模型,新的声学模型的非线性假设条件更为合理,具有直观的物理意义,可以得到更为紧凑和稳健的声学模型。在本发明训练所得到的声学模型中,大量的参数(即非线性流形数学模型的参数)是状态无关的,而状态相关参数较少,因此特别适用于训练数据量较少时的连续语音识别声学建模。
如图1所示,本发明采用含有I个高斯混元的高斯混合模型(GMM)作为声学特征空间的统一背景模型(UBM);对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间I个局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的低维非线性流形结构作为混合因子分析模型(MFA);将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上;使用与低维非线性流形结构中声学特征空间相同的局部区域划分与局部坐标系,构造上下文相关状态的观测概率分布,即构成了基于MFA的上下文相关状态模型;对基于MFA的上下文相关状态模型的参数进行重新估计,重新估计后得到模型即为所要构建的声学模型。上述过程的具体实施步骤如下:
1.训练声学特征空间的统一背景模型(UBM)
设基线系统中高斯混元总数为M,对高斯混元按某种顺序从1到M进行编号,设第m个高斯混元的均值为协方差矩阵为对训练数据进行强制对齐,并计算每个高斯混元m对应的零阶统计量γm=Σtγm(t)。
则第m个高斯混元所对应训练数据的似然度可以计算为
LLK m = - γ m 2 [ D + D log ( 2 π ) + log | Σ ~ m | ] - - - ( 1 )
其中,D表示特征的维数。
设将第m′和第m″个高斯混元聚类后合并产生新的高斯混元m″′,其对应的零阶、一阶与二阶统计量分别计算为γm″′=γm′m″,sm″′=sm′+sm″、Sm″′=Sm′+Sm″,则新高斯混元的权重、均值矢量和协方差矩阵可以分别计算为:
w ~ m ′ ′ ′ = γ m ′ ′ ′ Σ m γ m - - - ( 2 )
μ ~ m ′ ′ ′ = s m ′ ′ ′ γ m ′ ′ ′ - - - ( 3 )
Σ ~ m ′ ′ ′ = S m ′ ′ ′ - γ m ′ ′ ′ μ ~ m ′ ′ ′ μ ~ m ′ ′ ′ T γ m ′ ′ ′ - - - ( 4 )
根据式(1),合并后训练数据对数似然度的损失值可以计算为:
ΔLLK m ′ m ′ ′ → m ′ ′ ′ = LLK m ′ ′ ′ - LLK m ′ - LLK m ′ ′ = γ m ′ log | Σ ~ m ′ | / 2 + γ m ′ ′ log | Σ ~ m ′ ′ | / 2 - γ m ′ ′ ′ log | Σ ~ m ′ ′ ′ | / 2 - - - ( 5 )
通过M-I步聚类过程得到含有I个高斯混元的GMM,在每一步聚类过程中,对当前的高斯混元进行两两合并,通过式(5)计算合并前后的似然得分的损失值,将损失值最小的两个高斯混元合并为一个新的高斯混元,并将合并前的两个高斯混元删除,新高斯混元的权重、均值矢量与协方差矩阵分别通过式(2)、(3)和(4)计算得到。设上述聚类过程后完成后,得到含有I个高斯混元的GMM参数为上述训练流程如图2所示。
2.初始化声学特征空间的混合因子分析(MFA)背景模型
假设将声学特征空间的非线性流形划分为I个局部区域,观测数据x落入其中的概率分别为w1,w2,…,wI,对每个局部区域分别用一个因子分析模型来近似,则得到混合因子分析模型,其数学表达式为:
其中,μi、Mi和Σi分别为第i个因子分析模型的均值、因子负载矩阵和重建误差矩阵,yi为观测数据x在其中对应的坐标矢量。式(7)中,每个局部因子分析模型所对应的线性子空间维数可能是不同的,令第i个因子分析模型的线性子空间维数为Di,则Mi是一个D×Di维的矩阵,局部坐标yi是一个Di的矢量。
在初始化阶段,对UBM中的各协方差矩阵进行特征值分析,将特征值从大到小排序为λi1i2,…,λiD,对应特征矢量为定义第d个特征值的累积贡献率(Cumulative Contribution Rate,CCR)ηid
η id = Σ d ′ = 1 d λ id ′ Σ d ′ ′ = 1 D λ id ′ ′ , - - - ( 8 )
ηid反映了前d个特征值占总的特征值之和的比率。
对于混合因子分析模型的第i个局部区域,选择其潜在维数Di为:
D i = min d { d : η id ≥ 0.9 } - - - ( 9 )
即选择特征值累积贡献率超过90%的、最小的特征值序号作为第i个局部区域的潜在维数。第i个局部区域对应因子分析模型的其余参数分别初始化为:
w i = w ~ i - - - ( 10 )
μ i = μ ~ i - - - ( 11 )
M i = λ i 1 - σ i e ~ i 1 λ i 2 - σ i e ~ i 2 . . . λ iD i - σ i e ~ iD i - - - ( 12 )
Σi=σiI   (13)
其中,σi的计算公式为:
σ i = 1 D - D i Σ d = D i + 1 D λ id - - - ( 14 )
3.重估声学特征空间的混合因子分析(MFA)背景模型
在得到混合因子分析(MFA)模型的初始参数后,可以对模型参数在所有的训练数据上采用EM算法进行无监督的训练。对特征矢量ot,将其在流形上对应的局部区域序号i及局部坐标yi视为两组隐藏变量,设第k次迭代后模型参数为令γi(t)为给定参数Λ(k),特征矢量ot属于第i个局部区域的后验概率,其计算表达式为:
MFA中各参数的更新公式为:
w i ( k + 1 ) = Σ t γ i ( t ) Σ t Σ i ′ γ i ′ ( t ) - - - ( 16 )
M i ( k + 1 ) μ i ( k + 1 ) = M ~ i ( k + 1 ) = [ Σ t γ i ( t ) o t E ( y ~ i | o t ) T ] [ Σ t γ i ( t ) E ( y ~ i y ~ i T | o t ) ] - 1 - - - ( 17 )
Σ i ( k + 1 ) = 1 Σ t Σ i ′ γ i ′ ( t ) { Σ t γ i ( t ) o t o t T - M ~ i ( k + 1 ) [ Σ t γ i ( t ) E ( y ~ i | o t ) o t T ] } - - - ( 18 )
其中,后验均值和矩阵可以计算为:
E ( y ~ i | o t ) = E ( y i | o t ) 1 - - - ( 19 )
E ( y ~ i y ~ i T | o t ) = E ( y i y i T | o t ) E ( y i | o t ) E ( y i T | o t ) 1 - - - ( 20 )
其中,
E ( y i | o t ) = ( I + ( M i ( k ) ) T ( Σ i ( k ) ) - 1 M i ( k ) ) - 1 ( M i ( k ) ) T ( Σ i ( k ) ) - 1 ( o t - μ i ( k ) ) - - - ( 21 )
E ( y i y i T | o t ) = ( I + ( M i ( k ) ) T ( Σ i ( k ) ) - 1 M i ( k ) ) - 1 + E ( y i | o t ) E ( y i | o t ) T - - - ( 22 )
图3给出了声学空间的混合因子分析模型背景模型的训练流程图,其中K为总的迭代次数。
4.初始化上下文相关状态声学模型
假设状态j的观测矢量在第i个局部区域内服从高斯分布,其在第i个局部区域内均值的局部坐标为yji。则在给定各局部区域坐标的条件下,状态j的观测概率模型为:
注意,这里对应混合因子分析模型中各局部区域的中心、局部坐标系。yji是状态j在第i个局部区域内的均值对应的坐标矢量,根据混合因子分析模型的假设,它服从标准正态分布,即:
由于每个声学建模单元有其独特的发音方式,其平稳段对应的观测特征矢量必然分布于流形上的一个或多个局部区域,不可能覆盖完整的流形结构,这也就意味着权重矢量wj=[wj1 wj2 … wjI]必然是稀疏的,其大部分的分量为0。
因此,可以对权重矢量wj显式地引入稀疏约束,假设最大允许的不为零的权重分量个数为α,则有:
||wj||0≤α   (25)
其中,||wj||0表示矢量wj的l0范数,其值等于矢量wj中不为零的分量个数。
式(23)~(25)即构成了基于MFA的上下文相关状态模型。对于状态j,需要估计的参数为权重矢量wj及其中非零分量对应局部区域内的坐标矢量{yji,i∈Ij},其中指标集Ij={i:wji>0}。
在初始化阶段,我们将状态无关参数初始化为MFA模型中的对应参数,对上下文相关状态j,将权重矢量的所有分量均初始化为均初始化为其先验均值0。
5.重估上下文相关状态声学模型参数
在得到初始的MFA声学模型,采用EM算法对其参数进行重新估计,其估计流程如图4所示。
其中,每一步迭代过程包含①~④步,分别完成计算统计量、重估权重参数、重估计局部坐标矢量、重估状态无关参数四个过程。各过程的估计算法分别如下:
第①步,计算零阶、一阶和二阶统计量。
各阶统计量的计算公式如下:
γji=Σtγji(t)   (26)
sji=Σtγji(t)ot   (27)
S ji = Σ t γ ji ( t ) o t o t T - - - ( 28 )
其中,γji(t)表示给定观测序列O及模型参数Λ(k)的条件下t时刻处于状态j的第i个高斯混元的后验概率,可以通过Baum-Welch前后向算法计算得到。
第②步,重估权重参数。
令权矢量为wj=[wj1 wj2 … wjI]T,在仅仅考虑概率分布约束条件下,利用Langrange乘子法可得到其各分量的重估公式为:
w ji ( k + 1 ) = γ ji Σ i ′ γ ji ′ - - - ( 29 )
即为权重矢量的更新值;否则,将的各分量从大到小排序为w′j1,w′j2,…,w′jI,计算对应累积贡献率(Cumulative ContributionRate,CCR)寻找取门限τj=w′jp。对每一个权重分量执行下面的“收缩”与“归一化”操作:
权重收缩: w ji ( k + 1 ) ← [ w ji ( k + 1 ) - τ j ] + - - - ( 30 )
权重归一化: w ji ( k + 1 ) ← w ji ( k + 1 ) Σ i ′ w ji ′ ( k + 1 ) - - - ( 31 )
其中, [ w ji ( k + 1 ) - τ j ] + = max { w ji ( k + 1 ) - τ j , 0 } .
最终得到更新的权重矢量 w j ( k + 1 ) = w j 1 ( k + 1 ) w j 2 ( k + 1 ) . . . w jI ( k + 1 ) .
第③步,重估计局部坐标矢量。
局部坐标矢量yji的更新公式为:
y ji ( k + 1 ) = H ji - 1 g ji - - - ( 32 )
其中
g ji = M i T Σ i - 1 ( s ji - γ ji μ i ) - - - ( 33 )
Hji=γji(Mi TΣi -1Mi+I)   (34)
第④步,重估状态无关参数。
均值矢量μi、局部基矩阵Mi、协方差矩阵Σi的更新公式分别为
μ i ( k + 1 ) = s ~ i γ i - - - ( 35 )
M i ( k + 1 ) = Y i Q i - 1 - - - ( 36 )
Σ i ( k + 1 ) = S ~ i γ i - - - ( 37 )
其中
γ i = Σ j γ ji - - - ( 38 )
s ~ i = Σ j ( s ji - γ ji M i y ji ) - - - ( 39 )
Y i = Σ t Σ j γ ji ( t ) ( o t - μ i ) y ji T - - - ( 40 )
Q i = Σ t Σ j γ ji ( t ) y ji y ji T - - - ( 41 )
S ~ i = Σ j ( S ji - s ji μ ji T - s ji T μ ji + γ ji μ ji μ ji T ) - - - ( 42 )
重估后得到的上下文相关状态声学模型即为本发明所要构建声学模型。

Claims (9)

1.一种基于声学空间非线性流形结构的声学模型构建方法,其特征在于,该构建方法包括以下步骤:
1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM);
2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA),作为其低维非线性流形结构的近似模型;
3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的观测概率模型,即构成了基于MFA的上下文相关状态模型;
4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要构建的声学模型。
2.根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤1)中背景模型UBM的生成过程如下:
A.利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线系统;
B.对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的损失值;
C.将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混元数达到设定值。
3.根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分析模型近似得到。
4.根据权利要求2所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤2)中第i个局部区域的潜在维数Di的确定过程如下:
A)将UBM中的各协方差矩阵中的特征值按照从大到小排序为λi1i2,…,λiD,其中D为特征矢量维数;
B)计算各个特征值的累积贡献率其中ηid为第i个局部区域第d个特征值的累积贡献率;
C)选择特征值累积贡献率超过某个设定门限的最小特征值序号作为第i个局部区域的潜在维数Di
5.根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤3)中上下文相关的每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定。
6.根据权利要求5所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤4)中第j个上下文状态的观测概率模型为:
其中,表示均值矢量为μ、协方差矩阵为Σ的多元正态分布,ot表示t时刻的观测特征矢量,μi、Mi和Σi分别表示第i个局部区域的中心矢量、局部坐标系矩阵和数据分布的协方差矩阵,yji是状态j在第i个局部区域内的均值对应的局部区域坐标矢量,wji表示状态j的观测数据落入第i个局部区域的概率。
7.根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,所述步骤5)中是采用期望最大化算法EM进行重估,包括计算统计量、重估权重参数、重估计局部坐标矢量和重估状态无关参数四个过程。
8.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,对于第j个状态和第i个局部区域,所述零阶、一阶和二阶统计量的计算公式分别如下:
γji=Σtγji(t)
sji=Σtγji(t)ot
S ji = Σ t γ ji ( t ) o t o t T
其中,γji(t)表示给定观测序列O及模型参数Λ(k)的条件下t时刻处于状态j的第i个高斯混元的后验概率,可通过Baum-Welch前后向算法计算得到。
9.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法,其特征在于,第k次迭代,状态j的第i个高斯混元的权重参数wji的重估公式为:
w ji ( k + 1 ) = γ ji Σ i ′ γ ji ′
即为权重矢量的更新值,其中α为预先选定的正整数(1≤α≤I),||·||0表示矢量的零范数,即矢量的非零元素个数;
否则,将的各分量从大到小排序为w′j1,w′j2,…,w′jI,计算对应累积贡献率寻找取门限τj=w′jp;对每一个权重分量执行下面的“收缩”与“归一化”操作:
权重收缩: w ji ( k + 1 ) ← [ w ji ( k + 1 ) - τ j ] +
权重归一化: w ji ( k + 1 ) ← w ji ( k + 1 ) Σ i ′ w ji ′ ( k + 1 )
其中,最终得到更新的权重矢量 w j ( k + 1 ) = w j 1 ( k + 1 ) w j 2 ( k + 1 ) . . . w jI ( k + 1 ) .
CN201510124249.8A 2015-03-20 2015-03-20 一种基于声学空间非线性流形结构的声学模型构建方法 Pending CN104795063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510124249.8A CN104795063A (zh) 2015-03-20 2015-03-20 一种基于声学空间非线性流形结构的声学模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510124249.8A CN104795063A (zh) 2015-03-20 2015-03-20 一种基于声学空间非线性流形结构的声学模型构建方法

Publications (1)

Publication Number Publication Date
CN104795063A true CN104795063A (zh) 2015-07-22

Family

ID=53559822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510124249.8A Pending CN104795063A (zh) 2015-03-20 2015-03-20 一种基于声学空间非线性流形结构的声学模型构建方法

Country Status (1)

Country Link
CN (1) CN104795063A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN109359608A (zh) * 2018-10-25 2019-02-19 电子科技大学 一种基于深度学习模型的人脸识别方法
CN109545201A (zh) * 2018-12-15 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于深层混合因子分析的声学模型的构建方法
CN110046374A (zh) * 2019-01-28 2019-07-23 中国船舶重工集团公司第七一五研究所 一种基于高斯型声束的声场计算方法
CN111832427A (zh) * 2020-06-22 2020-10-27 华中科技大学 基于欧氏对齐和Procrustes分析的EEG分类的迁移学习方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799277A (en) * 1994-10-25 1998-08-25 Victor Company Of Japan, Ltd. Acoustic model generating method for speech recognition
JP2011180596A (ja) * 2010-03-02 2011-09-15 Toshiba Corp 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799277A (en) * 1994-10-25 1998-08-25 Victor Company Of Japan, Ltd. Acoustic model generating method for speech recognition
JP2011180596A (ja) * 2010-03-02 2011-09-15 Toshiba Corp 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张文林: "基于子空间的声学模型及自适应技术研究", 《中国博士学位论文全文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109192199A (zh) * 2018-06-30 2019-01-11 中国人民解放军战略支援部队信息工程大学 一种结合瓶颈特征声学模型的数据处理方法
CN109359608A (zh) * 2018-10-25 2019-02-19 电子科技大学 一种基于深度学习模型的人脸识别方法
CN109359608B (zh) * 2018-10-25 2021-10-19 电子科技大学 一种基于深度学习模型的人脸识别方法
CN109545201A (zh) * 2018-12-15 2019-03-29 中国人民解放军战略支援部队信息工程大学 基于深层混合因子分析的声学模型的构建方法
CN109545201B (zh) * 2018-12-15 2023-06-06 中国人民解放军战略支援部队信息工程大学 基于深层混合因子分析的声学模型的构建方法
CN110046374A (zh) * 2019-01-28 2019-07-23 中国船舶重工集团公司第七一五研究所 一种基于高斯型声束的声场计算方法
CN111832427A (zh) * 2020-06-22 2020-10-27 华中科技大学 基于欧氏对齐和Procrustes分析的EEG分类的迁移学习方法和系统
CN111832427B (zh) * 2020-06-22 2022-02-18 华中科技大学 基于欧氏对齐和Procrustes分析的EEG分类的迁移学习方法和系统

Similar Documents

Publication Publication Date Title
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN104795063A (zh) 一种基于声学空间非线性流形结构的声学模型构建方法
CN106355151B (zh) 一种基于深度置信网络的三维sar图像目标识别方法
CN101334893B (zh) 基于模糊神经网络的融合图像质量综合评价方法
CN102185735B (zh) 一种网络安全态势预测方法
CN106683122A (zh) 一种基于高斯混合模型和变分贝叶斯的粒子滤波方法
CN110220725B (zh) 一种基于深度学习与bp集成的地铁车轮健康状态预测方法
CN104778337A (zh) 一种基于函数型主成分分析与贝叶斯更新的锂电池剩余寿命预测方法
CN103942457A (zh) 基于关联向量机回归的水质参数时间序列预测方法
CN110942194A (zh) 一种基于tcn的风电预测误差区间评估方法
CN105719023A (zh) 一种基于混合高斯分布的风电功率实时预测误差分析方法
CN104459668A (zh) 基于深度学习网络的雷达目标识别方法
CN107462882A (zh) 一种适用于闪烁噪声的多机动目标跟踪方法及系统
CN103678869A (zh) 一种飞行参数缺失数据的预测估计方法
CN106778838A (zh) 一种预测空气质量的方法
CN101710422B (zh) 基于全局流形原型聚类算法与分水岭算法的图像分割方法
CN105354860A (zh) 基于箱粒子滤波的扩展目标CBMeMBer跟踪方法
CN105895089A (zh) 一种语音识别方法及装置
CN112418476A (zh) 一种超短期电力负荷预测方法
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
Badyalina et al. Streamflow estimation at ungauged basin using modified group method of data handling
Popkov et al. A randomized algorithm for restoring missing data in the time series of lake areas using information on climatic parameters
CN112396118A (zh) 一种基于gm-hmm的驾驶员加速意图建模方法
Choi et al. Information-maximizing adaptive design of experiments for wind tunnel testing
CN112307536A (zh) 一种大坝渗流参数反演方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150722

RJ01 Rejection of invention patent application after publication