CN101814159B - 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 - Google Patents

基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 Download PDF

Info

Publication number
CN101814159B
CN101814159B CN2009100244325A CN200910024432A CN101814159B CN 101814159 B CN101814159 B CN 101814159B CN 2009100244325 A CN2009100244325 A CN 2009100244325A CN 200910024432 A CN200910024432 A CN 200910024432A CN 101814159 B CN101814159 B CN 101814159B
Authority
CN
China
Prior art keywords
aann
model
gmm
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100244325A
Other languages
English (en)
Other versions
CN101814159A (zh
Inventor
包永强
余华
陈存宝
赵力
魏昕
奚吉
王青云
梁瑞宇
王浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN2009100244325A priority Critical patent/CN101814159B/zh
Publication of CN101814159A publication Critical patent/CN101814159A/zh
Application granted granted Critical
Publication of CN101814159B publication Critical patent/CN101814159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,利用本方法可以提高说话人确认系统的性能。本发明充分考虑了AANN和GMM各自的优点,把AANN嵌入到GMM-UBM,并且提出了一种两阶段的学习方法,交替更新GMM和AANN的参数,并以极大似然概率作为训练GMM和AANN的共同目标,这样使AANN能够学习特征向量间的差异,把特征向量集映射能增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果。实验表明,采用本发明的说话人确认方法可以有效地降低系统的错误识别率。

Description

基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
技术领域
本发明涉及一种说话人确认方法,特别涉及一种基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。 
背景技术
在门禁、信用卡交易和法庭证据等方面,自动说话人确认,特别是与文本无关的说话人确认起着越来越重要的作用,它的目标是确认待测说话人是否是所称的那个人。 
在说话人确认方法上,基于高斯混合背景模型(GMM-UBM)方法越来越受到重视,由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前主流的识别方法。基于高斯混合模型超向量的支持向量机(SVM)和因子分析方法则代表GMM-UBM方法的最新成果,它们利用GMM-UBM模型训练获取均值超向量,利用投影或因子分析方法对均值超向量进行处理,再利用SVM或其它方法进行确认。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力,只要有足够多的项,足够多的训练数据,GMM就能够逼近任何分布模型。但是,GMM只能逼近数据分布,对底层数据分布的改变无能为力,它不能对数据作任何变换,或者说不能改变数据的分布;另外,在选择GMM模型时,通常取各个高斯分布的方差矩阵为对角矩阵,这个假设也不是很合理,这样要求高斯混合项足够多;还有由于训练和确认时信道可能不匹配会导致确认率降低。 
自联想神经网络(AANN)在说话人识别方面也占有重要的位置,多层感知器(MLP)、射线基(RadialBasis)网络、时延网络(TDNN)等已经成功应用于说话人识别,并且取得很好的识别效果。神经网络对特征向量进行变换,通过学习,使变换得到的特征向量以某种方式逼近目标向量,逼近的准则通常是最小均方误差(MMSE)准则。可以预见的是,如果将神经网络技术和高斯混合背景模型相结合起来,将会大大提高系统的识别率,但是目前还没有出现此类方法。 
发明内容
本发明的目的就在于解决现有技术的缺陷,提出了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。本发明的技术方案是: 
基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于包括以下步骤: 
在训练时,利用自联想神经网络(AANN)对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给高斯混合模型(GMM),进行GMM模型训练; 
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模 型的过程交替进行;训练通用背景模型的GMM时采用期望最大(EM)方法,训练目标说话人模型的GMM时用最大后验概率(MAP)方法,训练AANN时采用带惯性的反向传播(BP)向后反演法; 
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的通用背景模型训练过程如下: 
(1)确定GMM模型和AANN网络结构; 
(2)设定收敛条件和最大迭代次数; 
(3)随机确定AANN网络和GMM模型参数; 
(4)把背景特征向量输入AANN网络,得到所有的残差向量; 
(5)固定AANN网络参数,利用如下各式修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到): 
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t )
权系数: p i ‾ = 1 N Σ t = 1 N p ( i | x t , λ )
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ )
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ )
xt是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;pi,i=1,2,...,M是混合权值,满足  Σ i = 1 M p i = 1 , pi>0。每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如下: 
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) }
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合。 
λi={pi,ui,∑i},i=1,2,...,M 
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数; 
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。 
在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的说话人模型训练过程如下: 
(1)给定收敛条件和最大迭代次数; 
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数 
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量; 
(4)固定AANN网络参数,修正GMM模型各个高斯分布的权系数,均值向量和方差,修正公式如下: 
ω ^ i = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ ^ 2
通常,αi w,αi m,αi v取值相同,有 α i w = α i m = α i v = N p i ‾ / ( N p i ‾ + r ) , 其中,r=16。 
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数; 
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。 
本发明的优点和效果在于: 
1.充分利用了AANN和GMM各自的优点,使AANN能够学习特征向量间的差异,把特征向量集映射到增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果,并且起到了抑制语义特征,增强说话人特征的效果,使得整个说话人确认系统错误率大大降低。 
2.由于采用了GMM-UBM模型,训练目标说话人模型时不必从头开始,而是通过调整背景模型的参数得到目标说话人的模型,可以有效减少训练工作量;并且由于背景模型可以说反映了目标范围内说话人语音特征的方方面面,这样利用背景模型来调整得到目标说话人模型时,他/她的训练数据没有的特征也会在模型中反映出来;此外,有利于快速得分计算。 
本发明的其他优点和效果将在下面继续描述。 
附图说明
图1——背景和说话人训练模型。 
图2——五层自联想神经网络模型。 
图3——两种方法的系统EER对比。 
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。 
图1是嵌入AANN网络的说话人确认的训练模型。在训练时,AANN对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给GMM,进行GMM模型训练。由于AANN网络学习的准则是极大似然概率,这样通过学习,残差分布就会朝着增强似然概率的方向进行。 
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。 
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行。训练通用背景模型的GMM时采用EM方法,训练目标说话人模型的GMM时用MAP方法,训练AANN时我们利用带惯性的BP向后反演法。 
1.基于EM方法的通用背景模型训练过程: 
(1)确定GMM模型和AANN网络结构; 
(2)设定收敛条件和最大迭代次数; 
(3)随机确定AANN网络和GMM模型参数; 
(4)把背景特征向量输入AANN网络,得到所有的残差向量; 
(5)固定AANN网络参数,利用式(式1),(式2),(式3)和(式4)修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到),具体修正公式如下: 
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t ) (式1) 
权系数: p i ‾ = 1 N Σ t = 1 N p ( i | x t , λ ) (式2) 
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ ) (式3) 
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ ) (式4) 
这里x是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;Pi,i=1,2,...,M是混合权值,满足 Pi>0。每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如(式5): 
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) } (式5) 
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合。 
λi={pi,ui,∑i},i=1,2,...,M                                                (式6) 
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数; 
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。 
2.基于MAP方法的目标说话人模型训练过程 
(1)给定收敛条件和最大迭代次数; 
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数; 
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量; 
(4)固定AANN网络参数,利用(式2),(式3),(式4)修正GMM模型各个高斯分布的权系数,均值向量和方差(可由均方值和均值得到);此外要注意的是,不是直接用这些统计量代替相应旧的统计量,而是用(式7),(式8)和(式9)代替( 
Figure DEST_PATH_GSB00000898971000021
和 
Figure DEST_PATH_GSB00000898971000022
分别表示更新后的权系数,均值和方差)。 
ω ^ i = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ (式7) 
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i (式8) 
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ ^ 2 (式9) 
通常, 
Figure DEST_PATH_GSB00000898971000026
取值相同,有 α i w = α i m = α i v = N p i ‾ / ( N p i ‾ + r ) , 其中,r=16。 
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数,AANN网络参数修正的计算过程见下一部分; 
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。 
3.修正AANN神经网络参数的计算过程 
图2为五层AANN网络模型(包括输入层)。它是一种多层感知器网络,它的神经元组成是2L:4N:L:4N:2L,其中L表示线性,N表示非线性。其中,第三层是压缩层,以便消除数据的冗余。该模型可以用来克服GMM的弱点。 
由于本发明采用两步迭代的方法求模型的参数,因此在迭代神经网络参数时固定GMM的权系数,均值向量和方差阵。我们要求极大化如下函数的神经网络参数: 
L ( X ) = arg max ω ij Π t = 1 N p ( ( x t - o t ) | λ ) (式10) 
p(x|λ)见(式1)(为了表示方便,以下的xt中省去了下标t),ot为神经网络输出。 
由于神经网络迭代时一般求极小值,而且和式比乘积更方便,所以我们对上式取对数后再取负,得到: 
G ( X ) = arg min ω ij ( - Σ t = 1 N ln p ( ( x t - o t ) | λ ) ) (式11) 
带惯性的BP方法能够加速迭收敛过程,并能更好的处理局部极小值问题,带惯性的BP方法的公式如下: 
ω ij k ( m + 1 ) = γ ω ij k ( m ) - ( 1 - γ ) α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m ) (式12) 
这里α为迭代步长,F(x)=-ln p((x-o)|λ),γ为惯性系数,m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号。令: 
y i k = Σ j ω ij k o j k - 1 (式13) 
o i k = f ( y i k ) (式14) 
oi k为k层i个神经元输入样本x时的输出,yi k为k层i个神经元输入样本x时的输入,f(yi k)为激活函数。 
Figure G2009100244325D00065
的计算公式如下: 
∂ F ( x ) ∂ ω ij k = ∂ F ( x ) ∂ y i k ∂ y i k ∂ ω ij k (式15) 
由(式13)知, ∂ y i k ∂ ω ij k = o j k - 1 (式16) 
求输出层 
Figure G2009100244325D00068
∂ F ( x ) ∂ y i k = - 1 p ( ( x - o ) | λ ) ∂ p ( ( x - o ) | λ ) ∂ o i k ∂ o i k y i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) ∂ ( Σ n = 1 M p n c n e - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) ) / ∂ o i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) Σ n = 1 M p n c n ( a n ( x - o - u n ) σ n , i 2 ( x i - o i - u n , i ) ) (式17) 
其中: 
a n ( x - o - u n ) = e - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) (式18) 
c n = 1 ( 2 π ) D / 2 | Σ n | 1 / 2 (式19) 
求隐含层 
Figure G2009100244325D00071
∂ F ( x ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ y j k + 1 ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ ( Σ n ω jn k + 1 o n k n ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ o i k ∂ y i k ω ji k + 1
= f ′ ( y i k ) Σ j ∂ F ( x ) ∂ y i k + 1 ω ji k + 1 (式20) 
由于向后反演,所以在计算 
Figure G2009100244325D00074
时 已知,代入(式20)即可求出 
Figure G2009100244325D00076
为了验证本发明提出的说话人确认的优势,将本发明提出的方法和普通的基于GMM-UBM的确认方法进行比较。 
实施例: 
本实施例采用N1ST 2006年的测试的1conv4w-1conv4w作为实验,在其中选取80个目标说话人,每个人选取大约5分钟语音作为训练语音,其余语音作为测试语音。去除无效的测试外,总计有22000次测试。选择NIST2004年中的400个人的语音来训练GMM-UBM,其中男性210人,女性190人,每人大约8分钟。 
本实施例中采用38维的MFCC作为识别参数,对于MFCC参数提取,我们使用了基于能量和过零率的方法进行静音检测,去噪过程中我们用了谱减法,再通过f(Z)=1-0.97Z-1的滤波器进行预加重,进行长度20ms,窗移10ms的分帧后,进行汉明加窗。先抽取0-18维MFCCs,总计为19维,特征参数通过CMS和RASTA进行倒谱域滤波去除信道卷积噪声,再通过一阶差分总计构成38维,最后特征通过短时高斯化以提高识别率。 
我们在GMM-UBM中嵌入2L:4N:L:4N:2L的AANN,非线性激活函数采用S函数,训练时神经网络的惯性系数γ=0.8。采用等错误率(EER)参数来衡量说话人确认的效果,对两种方法进行评价,其结果如图3所示。 
从EER对比结果可以看出,基于AANN和GMM-UBM结合的说话人确认效果比普通的GMM-UBM方法有了较大程度地提高。 

Claims (1)

1.基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于包括以下步骤:
在训练时,利用自联想神经网络(AANN)对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM),进行GMM模型训练;
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行;
其中,训练通用背景模型的GMM时采用期望最大(EM)方法,其训练过程为:
(1-1)确定GMM模型和AANN网络结构;
(1-2)设定收敛条件和最大迭代次数;
(1-3)随机确定AANN网络和GMM模型参数;
(1-4)把背景特征向量输入AANN网络,得到所有的残差向量;
(1-5)固定AANN网络参数,利用如下各式修正GMM模型各个高斯分布的权系数,均值和方差,其中方差可由均方值和均值得到:
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t )
权系数:
Figure FSB00001045013600012
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ )
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ )
xt是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;pi,i=1,2,..,M是混合权值,满足
Figure FSB00001045013600015
pi>0;每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如下:
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) }
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合;
λi={pi,ui,∑i},i=1,2,...,M
(1-6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(1-7)判断是否满足训练停止条件,是,停止训练,否,转(1-4);
训练目标说话人模型的GMM时用最大后验概率(MAP)方法,其训练过程为:
(2-1)给定收敛条件和最大迭代次数;
(2-2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数
(2-3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(2-4)固定AANN网络参数,修正GMM模型各个高斯分布的权系数,均值向量和方差,修正公式如
ω i ^ = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ ^ 2
通常,
Figure FSB00001045013600024
取值相同,有 α i w = α i m = α i v = N p i ‾ / ( N p i ‾ + r ) , 其中,r=16;
(2-5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(2-6)判断是否满足训练停止条件,是,停止训练,否,转(2-3);
训练AANN时采用带惯性的反向传播(BP)向后反演法;
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。
CN2009100244325A 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 Expired - Fee Related CN101814159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100244325A CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100244325A CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Publications (2)

Publication Number Publication Date
CN101814159A CN101814159A (zh) 2010-08-25
CN101814159B true CN101814159B (zh) 2013-07-24

Family

ID=42621408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100244325A Expired - Fee Related CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Country Status (1)

Country Link
CN (1) CN101814159B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012075641A1 (en) * 2010-12-10 2012-06-14 Panasonic Corporation Device and method for pass-phrase modeling for speaker verification, and verification system
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN109326278B (zh) * 2017-07-31 2022-06-07 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN110085255B (zh) * 2019-03-27 2021-05-28 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
CN111625603A (zh) * 2020-05-28 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置
CN112532547B (zh) * 2020-11-21 2022-03-01 北京邮电大学 一种智能反射面通信系统中信道估计和信道鉴别方法
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN113822357B (zh) * 2021-09-18 2024-01-05 广东工业大学 一种分类模型的训练方法、分类方法及相关装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于分类特征空间高斯混合模型和神经网络融合的说话人识别;黄伟 等;《电子与信息学报》;20041031;第26卷(第10期);1607-1612 *
秋政权,江太辉.GMM/ANN混合说话人辨认模型.《计算机工程与应用》.2004,(第17期),106-108. *
黄伟 等.基于分类特征空间高斯混合模型和神经网络融合的说话人识别.《电子与信息学报》.2004,第26卷(第10期),1607-1612.

Also Published As

Publication number Publication date
CN101814159A (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
CN101814159B (zh) 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
Snyder et al. X-vectors: Robust dnn embeddings for speaker recognition
Kwon et al. The ins and outs of speaker recognition: lessons from VoxSRC 2020
Sarangi et al. Optimization of data-driven filterbank for automatic speaker verification
US9190053B2 (en) System and method for applying a convolutional neural network to speech recognition
CN102693724A (zh) 一种基于神经网络的高斯混合模型的噪声分类方法
CN102034472A (zh) 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
JPH11507443A (ja) 話者確認システム
US11854554B2 (en) Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments
Tüske et al. Deep hierarchical bottleneck MRASTA features for LVCSR
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition
Nidadavolu et al. Unsupervised feature enhancement for speaker verification
Thienpondt et al. Cross-lingual speaker verification with domain-balanced hard prototype mining and language-dependent score normalization
Adiban et al. Sut system description for anti-spoofing 2017 challenge
Rouvier et al. Review of different robust x-vector extractors for speaker verification
Fasounaki et al. CNN-based Text-independent automatic speaker identification using short utterances
Gusev et al. STC-Innovation Speaker Recognition Systems for Far-Field Speaker Verification Challenge 2020.
Tsao et al. An acoustic segment model approach to incorporating temporal information into speaker modeling for text-independent speaker recognition
Kudashev et al. A Speaker Recognition System for the SITW Challenge.
Zhang et al. Non-parallel sequence-to-sequence voice conversion for arbitrary speakers
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Do et al. A new speaker identification algorithm for gaming scenarios
You et al. Ustcspeech system for voices from a distance challenge 2019
Wolf et al. Towards microphone selection based on room impulse response energy-related measures
Makishima et al. Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NANJING INSTITUTE OF TECHNOLOGY

Free format text: FORMER OWNER: YU HUA

Effective date: 20130613

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor after: Chen Cunbao

Inventor after: Zhao Li

Inventor after: Wei Cuan

Inventor after: Xi Ji

Inventor after: Wang Qingyun

Inventor after: Liang Ruiyu

Inventor after: Wang Hao

Inventor before: Yu Hua

Inventor before: Dai Hongxia

Inventor before: Chen Cunbao

Inventor before: Zhao Li

Inventor before: Wei Cuan

Inventor before: Xi Ji

Inventor before: Wang Qingyun

Inventor before: Liang Ruiyu

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210096 NANJING, JIANGSU PROVINCE TO: 211167 NANJING, JIANGSU PROVINCE

Free format text: CORRECT: INVENTOR; FROM: YU HUA DAI HONGXIA CHEN CUNBAO ZHAO LI WEI XIN XI JI WANG QINGYUN LIANG RUIYU TO: BAO YONGQIANG YU HUA CHEN CUNBAO ZHAO LI WEI XIN XI JI WANG QINGYUN LIANG RUIYU WANG HAO

TA01 Transfer of patent application right

Effective date of registration: 20130613

Address after: Park Avenue in Jiangning District of Nanjing City, 211167 Hong Jing Jiangsu province Nanjing Institute of Technology No. 1

Applicant after: Nanjing Institute of Technology

Address before: 210096 Nanjing College of Information Technology, Jiangsu, Nanjing

Applicant before: Yu Hua

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130724

Termination date: 20140224