CN101814159A - 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 - Google Patents

基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 Download PDF

Info

Publication number
CN101814159A
CN101814159A CN200910024432A CN200910024432A CN101814159A CN 101814159 A CN101814159 A CN 101814159A CN 200910024432 A CN200910024432 A CN 200910024432A CN 200910024432 A CN200910024432 A CN 200910024432A CN 101814159 A CN101814159 A CN 101814159A
Authority
CN
China
Prior art keywords
aann
model
gmm
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910024432A
Other languages
English (en)
Other versions
CN101814159B (zh
Inventor
余华
戴红霞
陈存宝
赵力
魏昕
奚吉
王青云
梁瑞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
余华
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 余华 filed Critical 余华
Priority to CN2009100244325A priority Critical patent/CN101814159B/zh
Publication of CN101814159A publication Critical patent/CN101814159A/zh
Application granted granted Critical
Publication of CN101814159B publication Critical patent/CN101814159B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,利用本方法可以提高说话人确认系统的性能。本发明充分考虑了AANN和GMM各自的优点,把AANN嵌入到GMM-UBM,并且提出了一种两阶段的学习方法,交替更新GMM和AANN的参数,并以极大似然概率作为训练GMM和AANN的共同目标,这样使AANN能够学习特征向量间的差异,把特征向量集映射能增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果。实验表明,采用本发明的说话人确认方法可以有效地降低系统的错误识别率。

Description

基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
技术领域
本发明涉及一种说话人确认方法,特别涉及一种基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。
背景技术
在门禁、信用卡交易和法庭证据等方面,自动说话人确认,特别是与文本无关的说话人确认起着越来越重要的作用,它的目标是确认待测说话人是否是所称的那个人。
在说话人确认方法上,基于高斯混合背景模型(GMM-UBM)方法越来越受到重视,由于它具有识别率高,训练简单,训练数据量要求不大等优点,已经成为目前主流的识别方法。基于高斯混合模型超向量的支持向量机(SVM)和因子分析方法则代表GMM-UBM方法的最新成果,它们利用GMM-UBM模型训练获取均值超向量,利用投影或因子分析方法对均值超向量进行处理,再利用SVM或其它方法进行确认。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力,只要有足够多的项,足够多的训练数据,GMM就能够逼近任何分布模型。但是,GMM只能逼近数据分布,对底层数据分布的改变无能为力,它不能对数据作任何变换,或者说不能改变数据的分布;另外,在选择GMM模型时,通常取各个高斯分布的方差矩阵为对角矩阵,这个假设也不是很合理,这样要求高斯混合项足够多;还有由于训练和确认时信道可能不匹配会导致确认率降低。
自联想神经网络(AANN)在说话人识别方面也占有重要的位置,多层感知器(MLP)、射线基(RadialBasis)网络、时延网络(TDNN)等已经成功应用于说话人识别,并且取得很好的识别效果。神经网络对特征向量进行变换,通过学习,使变换得到的特征向量以某种方式逼近目标向量,逼近的准则通常是最小均方误差(MMSE)准则。可以预见的是,如果将神经网络技术和高斯混合背景模型相结合起来,将会大大提高系统的识别率,但是目前还没有出现此类方法。
发明内容
本发明的目的就在于解决现有技术的缺陷,提出了基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法。本发明的技术方案是:
基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于包括以下步骤:
在训练时,利用自联想神经网络(AANN)对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给高斯混合模型(GMM),进行GMM模型训练;
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行;训练通用背景模型的GMM时采用期望最大(EM)方法,训练目标说话人模型的GMM时用最大后验概率(MAP)方法,训练AANN时采用带惯性的反向传播(BP)向后反演法;
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的通用背景模型训练过程如下:
(1)确定GMM模型和AANN网络结构;
(2)设定收敛条件和最大迭代次数;
(3)随机确定AANN网络和GMM模型参数;
(4)把背景特征向量输入AANN网络,得到所有的残差向量;
(5)固定AANN网络参数,利用如下各式修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到):
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t )
权系数: p i ‾ = 1 N Σ t = 1 N p ( i | x t , λ )
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ )
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ )
xt是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;pi,i=1,2,...,M是混合权值,满足
Figure B2009100244325D0000025
pi>0。每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如下:
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) }
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合。
λi={pi,ui,∑i},i=1,2,...,M
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。
在所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法中,所述的说话人模型训练过程如下:
(1)给定收敛条件和最大迭代次数;
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(4)固定AANN网络参数,修正GMM模型各个高斯分布的权系数,均值向量和方差,修正公式如下:
ω ^ i = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ 2
通常,
Figure B2009100244325D0000034
取值相同,有
Figure B2009100244325D0000035
其中,r=16。
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。
本发明的优点和效果在于:
1.充分利用了AANN和GMM各自的优点,使AANN能够学习特征向量间的差异,把特征向量集映射到增大似然概率的子空间,并且由于神经网络的学习特性可以进一步消除信道的不匹配效果,并且起到了抑制语义特征,增强说话人特征的效果,使得整个说话人确认系统错误率大大降低。
2.由于采用了GMM-UBM模型,训练目标说话人模型时不必从头开始,而是通过调整背景模型的参数得到目标说话人的模型,可以有效减少训练工作量;并且由于背景模型可以说反映了目标范围内说话人语音特征的方方面面,这样利用背景模型来调整得到目标说话人模型时,他/她的训练数据没有的特征也会在模型中反映出来;此外,有利于快速得分计算。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——背景和说话人训练模型。
图2——五层自联想神经网络模型。
图3——两种方法的系统EER对比。
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
图1是嵌入AANN网络的说话人确认的训练模型。在训练时,AANN对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给GMM,进行GMM模型训练。由于AANN网络学习的准则是极大似然概率,这样通过学习,残差分布就会朝着增强似然概率的方向进行。
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行。训练通用背景模型的GMMM时采用EM方法,训练目标说话人模型的GMM时用MAP方法,训练AANN时我们利用带惯性的BP向后反演法。
1.通用背景模型训练过程:
(1)确定GMM模型和AANN网络结构;
(2)设定收敛条件和最大迭代次数;
(3)随机确定AANN网络和GMM模型参数;
(4)把背景特征向量输入AANN网络,得到所有的残差向量;
(5)固定AANN网络参数,利用式(式1),(式2),(式3)和(式4)修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到),具体修正公式如下:
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t ) (式1)
权系数: P i ‾ = 1 N Σ t = 1 N p ( i | x t , λ ) (式2)
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ ) (式3)
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ ) (式4)
这里x是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;pi,i=1,2,...,M是混合权值,满足
Figure B2009100244325D0000045
pi>0。每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如(式5):
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) } (式5)
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合。
λi={pi,ui,∑i},i=1,2,...,M    (式6)
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。
2.目标说话人模型训练过程
(1)给定收敛条件和最大迭代次数;
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数;
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(4)固定AANN网络参数,利用(式2),(式3),(式4)修正GMM模型各个高斯分布的权系数,均值向量和方差(可由均方值和均值得到);此外要注意的是,不是直接用这些统计量代替相应旧的统计量,而是用(式7),(式8)和(式9)代替(
Figure B2009100244325D0000051
Figure B2009100244325D0000052
分别表示更新后的权系数,均值和方差)。
ω ^ i = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ (式7)
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i (式8)
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ 2 (式9)
通常,
Figure B2009100244325D0000056
取值相同,有
Figure B2009100244325D0000057
其中,r=16。
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数,AANN网络参数修正的计算过程见下一部分;
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。
3.修正AANN神经网络参数的计算过程
图2为五层AANN网络模型(包括输入层)。它是一种多层感知器网络,它的神经元组成是2L:4N:L:4N:2L,其中L表示线性,N表示非线性。其中,第三层是压缩层,以便消除数据的冗余。该模型可以用来克服GMM的弱点。
由于本发明采用两步迭代的方法求模型的参数,因此在迭代神经网络参数时固定GMM的权系数,均值向量和方差阵。我们要求极大化如下函数的神经网络参数:
L ( X ) = arg max ω ij Π t = 1 N p ( ( x t - o t ) | λ ) (式10)
p(x|λ)见(式1)(为了表示方便,以下的xt中省去了下标t),ot为神经网络输出。
由于神经网络迭代时一般求极小值,而且和式比乘积更方便,所以我们对上式取对数后再取负,得到:
G ( X ) = arg min ω ij ( - Σ t = 1 N ln p ( ( x t - o t ) | λ ) ) (式11)
带惯性的BP方法能够加速迭收敛过程,并能更好的处理局部极小值问题,带惯性的BP方法的公式如下:
ω ij k ( m + 1 ) = γ ω ij k ( m ) - ( 1 - γ ) α ∂ F ( x ) ∂ ω ij k | ω ij k = ω ij k ( m ) (式12)
这里α为迭代步长,F(x)=-lnp((x-o)|λ),γ为惯性系数,m为迭代次数,该值可根据实际情况选取,k为神经网络的层序号。令:
y i k = Σ j ω ij k o j k - 1 (式13)
o i k = f ( y i k ) (式14)
Figure B2009100244325D0000065
为k层i个神经元输入样本x时的输出,
Figure B2009100244325D0000066
为k层i个神经元输入样本x时的输入,
Figure B2009100244325D0000067
为激活函数。
Figure B2009100244325D0000068
的计算公式如下:
∂ F ( x ) ∂ ω ij k = ∂ F ( x ) ∂ y i k ∂ y i k ∂ ω ij k (式15)
由(式13)知, ∂ y i k ∂ ω ij k = o j k - 1 (式16)
求输出层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = - 1 p ( ( x - o ) | λ ) ∂ p ( ( x - o ) | λ ) ∂ o i k ∂ o i k y i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) ∂ ( Σ n = 1 M p n c n e - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) ) / ∂ o i k
= - f ′ ( y i k ) p ( ( x - o ) | λ ) Σ n = 1 M p n c n ( a n ( x - o - u n ) σ n , i 2 ( x i - o i - u n , i ) ) (式17)
其中:
a n ( x - o - u n ) = e - 1 2 ( x - o - u n ) T Σ n - 1 ( x - o - u n ) (式18)
c n = 1 ( 2 π ) D / 2 | Σ n | 1 / 2 (式19)
求隐含层 ∂ F ( x ) ∂ y i k :
∂ F ( x ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ y j k + 1 ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ ( Σ n ω jn k + 1 o n k ) ∂ y i k = Σ j ∂ F ( x ) ∂ y j k + 1 ∂ o i k ∂ y i k ω ji k + 1
= f ′ ( y i k ) Σ j ∂ F ( x ) ∂ y i k + 1 ω ji k + 1 (式20)
由于向后反演,所以在计算
Figure B2009100244325D0000074
Figure B2009100244325D0000075
已知,代入(式20)即可求出
Figure B2009100244325D0000076
为了验证本发明提出的说话人确认的优势,将本发明提出的方法和普通的基于GMM-UBM的确认方法进行比较。
实施例:
本实施例采用NIST 2006年的测试的1conv4w-1conv4w作为实验,在其中选取80个目标说话人,每个人选取大约5分钟语音作为训练语音,其余语音作为测试语音。去除无效的测试外,总计有22000次测试。选择NIST2004年中的400个人的语音来训练GMM-UBM,其中男性210人,女性190人,每人大约8分钟。
本实施例中采用38维的MFCC作为识别参数,对于MFCC参数提取,我们使用了基于能量和过零率的方法进行静音检测,去噪过程中我们用了谱减法,再通过f(Z)=1-0.97Z-1的滤波器进行预加重,进行长度20ms,窗移10ms的分帧后,进行汉明加窗。先抽取0-18维MFCCs,总计为19维,特征参数通过CMS和RASTA进行倒谱域滤波去除信道卷积噪声,再通过一阶差分总计构成38维,最后特征通过短时高斯化以提高识别率。
我们在GMM-UBM中嵌入2L:4N:L:4N:2L的AANN,非线性激活函数采用S函数,训练时神经网络的惯性系数γ=0.8。采用等错误率(EER)参数来衡量说话人确认的效果,对两种方法进行评价,其结果如图3所示。
从EER对比结果可以看出,基于AANN和GMM-UBM结合的说话人确认效果比普通的GMM-UBM方法有了较大程度地提高。

Claims (3)

1.基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于包括以下步骤:
在训练时,利用自联想神经网络(AANN)对特征向量进行变换,并且学习特征向量集的结构,然后把学习结果以残差特征向量(即输入向量与AANN网络的输出之差)的形式提供给高斯混合模型(GMM),进行GMM模型训练;
通过一个两阶段方法来训练这个通用背景模型和说话人模型,训练AANN网络的过程和训练GMM模型的过程交替进行;训练通用背景模型的GMM时采用期望最大(EM)方法,训练目标说话人模型的GMM时用最大后验概率(MAP)方法,训练AANN时采用带惯性的反向传播(BP)向后反演法;
在进行说话人确认时,由于AANN网络已经学习了目标说话人特征空间的结构,所以输入特征向量,AANN网络会把特征向量作适当的变换,然后提供给GMM模型,而会起到增强目标特征的似然概率,降低非目标特征的似然概率。
2.根据权利要求1所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于,所述的通用背景模型训练过程如下:
(1)确定GMM模型和AANN网络结构;
(2)设定收敛条件和最大迭代次数;
(3)随机确定AANN网络和GMM模型参数;
(4)把背景特征向量输入AANN网络,得到所有的残差向量;
(5)固定AANN网络参数,利用如下各式修正GMM模型各个高斯分布的权系数,均值和方差(可由均方值和均值得到):
类别后验概率: p ( i | x t , λ ) = p i b i ( x t ) Σ k = 1 M p k b k ( x t )
权系数: p i ‾ = 1 N Σ t = 1 N p ( i | x t , λ )
均值: u i ‾ = Σ t = 1 N p ( i | x t , λ ) x t Σ t = 1 N p ( i | x t , λ )
均方值: E i ( x 2 ) = Σ t = 1 N p ( i | x t , λ ) x t 2 Σ t = 1 N p ( i | x t , λ )
xt是一个N维的随机向量;bi(x),i=1,2,...,M是成员密度;pi,i=1,2,...,M是混合权值,满足pi>0;每个成员密度是一个均值矢量为Ui、协方差矩阵为∑i的高斯函数,形式如下:
b i ( x t ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x t - u i ) ′ Σ i - 1 ( x t - u i ) }
λ为完整的高斯混合密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数λi的集合;
λi={pi,ui,∑i},i=1,2,...,M
(6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(7)判断是否满足训练停止条件,是,停止训练,否,转(4)。
3.根据权利要求1所述的基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法,其特征在于,所述的说话人模型训练过程如下:
(1)给定收敛条件和最大迭代次数;
(2)通用背景模型的AANN网络和GMM模型参数作为模型初始参数
(3)把目标说话人特征向量输入AANN网络,得到所有的残差向量;
(4)固定AANN网络参数,修正GMM模型各个高斯分布的权系数,均值向量和方差,修正公式如下:
ω ^ i = [ α i ω p i ‾ + ( 1 - α i ω ) ω i ] γ
μ ^ i = α i m u i ‾ + ( 1 - α i m ) μ i
σ ^ i 2 = α i v E i ( x 2 ) + ( 1 - α i v ) ( σ i 2 + μ i 2 ) - μ 2
通常,取值相同,有
Figure F2009100244325C0000026
其中,r=16;
(5)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的BP向后反演方法修正AANN网络参数;
(6)判断是否满足训练停止条件,是,停止训练,否,转(3)。
CN2009100244325A 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法 Expired - Fee Related CN101814159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100244325A CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100244325A CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Publications (2)

Publication Number Publication Date
CN101814159A true CN101814159A (zh) 2010-08-25
CN101814159B CN101814159B (zh) 2013-07-24

Family

ID=42621408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100244325A Expired - Fee Related CN101814159B (zh) 2009-02-24 2009-02-24 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法

Country Status (1)

Country Link
CN (1) CN101814159B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN103221996A (zh) * 2010-12-10 2013-07-24 松下电器产业株式会社 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN109326278A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN110085255A (zh) * 2019-03-27 2019-08-02 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
CN112532547A (zh) * 2020-11-21 2021-03-19 北京邮电大学 一种智能反射面通信系统中信道估计和信道鉴别方法
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
WO2021238274A1 (zh) * 2020-05-28 2021-12-02 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置
CN113822357A (zh) * 2021-09-18 2021-12-21 广东工业大学 一种分类模型的训练方法、分类方法及相关装置
CN114708117A (zh) * 2022-03-21 2022-07-05 广东电网有限责任公司 融合先验知识的用电安全检查评级方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
秋政权,江太辉: "GMM/ANN混合说话人辨认模型", 《计算机工程与应用》 *
黄伟 等: "基于分类特征空间高斯混合模型和神经网络融合的说话人识别", 《电子与信息学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221996A (zh) * 2010-12-10 2013-07-24 松下电器产业株式会社 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
CN103221996B (zh) * 2010-12-10 2015-09-30 松下电器(美国)知识产权公司 用于验证说话人的口令建模的设备和方法、以及说话人验证系统
US9257121B2 (en) 2010-12-10 2016-02-09 Panasonic Intellectual Property Corporation Of America Device and method for pass-phrase modeling for speaker verification, and verification system
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN102737633A (zh) * 2012-06-21 2012-10-17 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN109326278B (zh) * 2017-07-31 2022-06-07 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN109326278A (zh) * 2017-07-31 2019-02-12 科大讯飞股份有限公司 一种声学模型构建方法及装置、电子设备
CN110085255A (zh) * 2019-03-27 2019-08-02 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
CN110085255B (zh) * 2019-03-27 2021-05-28 河海大学常州校区 语音转换基于深度内核学习高斯过程回归建模方法
WO2021238274A1 (zh) * 2020-05-28 2021-12-02 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置
CN112532547B (zh) * 2020-11-21 2022-03-01 北京邮电大学 一种智能反射面通信系统中信道估计和信道鉴别方法
CN112532547A (zh) * 2020-11-21 2021-03-19 北京邮电大学 一种智能反射面通信系统中信道估计和信道鉴别方法
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN113822357A (zh) * 2021-09-18 2021-12-21 广东工业大学 一种分类模型的训练方法、分类方法及相关装置
CN113822357B (zh) * 2021-09-18 2024-01-05 广东工业大学 一种分类模型的训练方法、分类方法及相关装置
CN114708117A (zh) * 2022-03-21 2022-07-05 广东电网有限责任公司 融合先验知识的用电安全检查评级方法、装置及设备

Also Published As

Publication number Publication date
CN101814159B (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
CN101814159B (zh) 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
Sarangi et al. Optimization of data-driven filterbank for automatic speaker verification
CN102693724A (zh) 一种基于神经网络的高斯混合模型的噪声分类方法
CN102034472A (zh) 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
JPH11507443A (ja) 話者確認システム
TWI475558B (zh) 詞語驗證的方法及裝置
Tüske et al. Deep hierarchical bottleneck MRASTA features for LVCSR
Mallidi et al. Uncertainty estimation of DNN classifiers
Revathi et al. Speaker independent continuous speech and isolated digit recognition using VQ and HMM
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition.
Adiban et al. Sut system description for anti-spoofing 2017 challenge
Fasounaki et al. CNN-based Text-independent automatic speaker identification using short utterances
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
Rouvier et al. Review of different robust x-vector extractors for speaker verification
Tsao et al. An acoustic segment model approach to incorporating temporal information into speaker modeling for text-independent speaker recognition
BenZeghiba et al. User-customized password speaker verification using multiple reference and background models
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Zhang et al. Non-parallel sequence-to-sequence voice conversion for arbitrary speakers
Dey et al. Content normalization for text-dependent speaker verification
Do et al. A new speaker identification algorithm for gaming scenarios
Yee et al. Malay language text-independent speaker verification using NN-MLP classifier with MFCC
You et al. Ustcspeech system for voices from a distance challenge 2019
Nathwani et al. Consistent DNN uncertainty training and decoding for robust ASR
Makishima et al. Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NANJING INSTITUTE OF TECHNOLOGY

Free format text: FORMER OWNER: YU HUA

Effective date: 20130613

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Bao Yongqiang

Inventor after: Yu Hua

Inventor after: Chen Cunbao

Inventor after: Zhao Li

Inventor after: Wei Xin

Inventor after: Xi Ji

Inventor after: Wang Qingyun

Inventor after: Liang Ruiyu

Inventor after: Wang Hao

Inventor before: Yu Hua

Inventor before: Dai Hongxia

Inventor before: Chen Cunbao

Inventor before: Zhao Li

Inventor before: Wei Xin

Inventor before: Xi Ji

Inventor before: Wang Qingyun

Inventor before: Liang Ruiyu

COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210096 NANJING, JIANGSU PROVINCE TO: 211167 NANJING, JIANGSU PROVINCE

Free format text: CORRECT: INVENTOR; FROM: YU HUA DAI HONGXIA CHEN CUNBAO ZHAO LI WEI XIN XI JI WANG QINGYUN LIANG RUIYU TO: BAO YONGQIANG YU HUA CHEN CUNBAO ZHAO LI WEI XIN XI JI WANG QINGYUN LIANG RUIYU WANG HAO

TA01 Transfer of patent application right

Effective date of registration: 20130613

Address after: Park Avenue in Jiangning District of Nanjing City, 211167 Hong Jing Jiangsu province Nanjing Institute of Technology No. 1

Applicant after: NANJING INSTITUTE OF TECHNOLOGY

Address before: Nanjing Vocational College of Information Technology

Applicant before: Yu Hua

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130724

Termination date: 20140224