CN102201236A - 一种高斯混合模型和量子神经网络联合的说话人识别方法 - Google Patents

一种高斯混合模型和量子神经网络联合的说话人识别方法 Download PDF

Info

Publication number
CN102201236A
CN102201236A CN2011100849452A CN201110084945A CN102201236A CN 102201236 A CN102201236 A CN 102201236A CN 2011100849452 A CN2011100849452 A CN 2011100849452A CN 201110084945 A CN201110084945 A CN 201110084945A CN 102201236 A CN102201236 A CN 102201236A
Authority
CN
China
Prior art keywords
vector
sigma
quantum
input
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100849452A
Other languages
English (en)
Other versions
CN102201236B (zh
Inventor
王金明
张雄伟
徐志军
王耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN2011100849452A priority Critical patent/CN102201236B/zh
Publication of CN102201236A publication Critical patent/CN102201236A/zh
Application granted granted Critical
Publication of CN102201236B publication Critical patent/CN102201236B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种高斯混合模型和量子神经网络联合的说话人识别方法。包括:在训练阶段,对输入的训练语音信号分帧并提取特征参数,生成特征参数向量;之后,使用K均值方法和EM算法取得特征参数向量的高斯混合模型参数,最后使用所有训练语音信号的高斯混合模型参数训练量子神经网络。在识别阶段,得到被识别人语音的高斯混合模型参数,之后将此模型参数输入之前已训练好的神经网络,得到识别结果;本发明适用于样本数据少,样本数据不均衡情况下的说话人识别;同时利用量子神经网络本身所具有的能对存在交叉数据和模糊边界的说话人语音数据进行有效判决的能力,提高系统正确识别率。

Description

一种高斯混合模型和量子神经网络联合的说话人识别方法
技术领域
本发明涉及一种说话人识别方法,特别是一种高斯混合模型和量子神经网络联合的说话人识别方法。
背景技术
目前,说话人识别系统所采用的方法主要包括以下几种:
1、基于矢量量化(Vector Quantization,VQ)的说话人识别方法。该方法在训练阶段首先从训练语音中提取特征向量,然后使用此特征向量通过聚类生成说话人模板;识别时,首先对待识别的语音提取特征向量,然后依次计算此特征向量和系统中已有模板的距离,并选取距离最小的模板对应的说话人作为本次识别的结果。每个模板只描述了该说话人语音特征向量在向量空间中的统计分布情况,在训练和测试语音较短的情况下,该方法的识别率会较低。
2、基于高斯混合模型(Gaussion Mixture Models,GMM)的说话人识别方法。该方法在训练阶段,通过期望最大化(Expectation Maximization,EM)算法,使用多个高斯分布的概率密度函数的组合逼近每个注册人语音信号特征向量在概率空间的分布;识别时,通过求解被识别语音特征向量相对于已知模型的最大后验概率来确定被识别信号所对应的说话人。为了得到准确的最大后验概率,要求模型必须能充分刻画向量信号在概率空间的分布,这就要求训练样本要足够多、模型阶数足够大、训练时间足够长,不适用于样本少、样本数据不均衡情况下的说话人识别。
3、基于人工神经网络(Artificial Neural Network,ANN)的说话人识别方法。该方法在训练阶段,通过一定的训练算法使网络能够学习语音特征向量在空间的分布特征,从注册信号的向量空间映射至注册信号对应的说话人;识别时,将被识别的语音特征向量输入已训练好的网络,得到识别结果。由于信号在向量空间中的分布存在着一定的随机性,使得学习后的神经网络对输入特征向量空间的划分存在着一定的误差,从而影响了识别的正确率。
因此,需要一种新的技术方案以解决上述问题。
发明内容
针对上述现有技术所存在的问题和不足,本发明的目的是提供一种克服高斯混合模型需要较长训练和识别数据的缺点以及提高识别率的高斯混合模型和量子神经网络联合的的说话人识别方法。
为实现上述目的,本发明高斯混合模型和量子神经网络联合的说话人识别方法可采用如下技术方案:
一种高斯混合模型和量子神经网络联合的说话人识别方法,该方法包括以下步骤:
(1)参数处理流程,该流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
(2)训练流程:合成用于训练神经网络的目标向量并对量子神经网络进行训练;
(3)识别流程:对待识别语音信号按步骤(1)进行参数处理并输入训练好的量子神经网络进行识别。
本发明高斯混合模型和量子神经网络联合的说话人识别方法与现有技术相比具有以下优点:
1、高斯混合模型在训练和识别过程中均需要较多的数据样本,从而降低了其实用性。本方法采用高斯混合模型和量子神经网络联合的识别方法,结合了概率统计模型和判决模型的优点,能在较小数据样本条件下进行识别,克服了高斯混合模型需要较长训练和识别数据的缺点,更适用于样本数据少,样本数据不均衡(即某一类数据特别少)情况下的说话人识别,尤其是面向移动通信和互联网语音的说话人识别。
2、传统的人工神经网络方法,直接将特征向量空间映射到说话人目标向量空间,不能剔除离散度大的向量对分类的影响,因而降低了识别率;本方法首先使用高斯混合模型对语音信号特征向量的分布情况进行概率统计,并将统计所得参数经量子神经网络映射至目标向量空间,使分类的准确性得到提高;同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性,能对存在交叉数据和模糊边界的说话人语音数据进行有效判决,因而能有效提高识别系统的识别率。
附图说明
图1为本发明高斯混合模型和量子神经网络联合的说话人识别方法的流程图。
图2为本发明高斯混合模型和量子神经网络联合的说话人识别方法中采用的量子神经网络的结构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供了一种高斯混合模型和量子神经网络联合的说话人识别方法,用以对说话人身份进行自动辨识,本方法所设计系统功能的实现分为训练和识别两个阶段。训练阶段,首先逐个对训练语音信号进行参数处理,并将结果存入数据库,之后从数据库取出所有数据对量子神经网络进行训练;识别阶段,首先对识别语音信号进行参数处理,之后将处理结果输入训练好的量子神经网络,则网络的输出经过一定处理后便能得到识别结果。
请结合图1所示,该高斯混合模型和量子神经网络联合的说话人识别方法包括以下步骤:
(1)参数处理流程,参数处理流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵X,该第一矩阵X为D×B的矩阵,其中D为帧长,B为帧数;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
其中:
使用K均值算法对提取到的特征向量进行聚类包括以下步骤:
(a)从第一矩阵X中随机选取M列作为初始的聚类中心;
(b)对第一矩阵X中的所有列,按最小距离准则划分到相应的类别;
(c)重新计算聚类中心;
(d)如果满足结束条件则执行(e),否则跳到(b)继续执行;
(e)分别计算
Figure BDA0000053973650000031
U、E,其中
Figure BDA0000053973650000032
是M维向量,
Figure BDA0000053973650000033
U为每个聚类的中心,E为聚类的方差,U和E均为D×M(D为帧长;M为聚类个数)的矩阵;U和E的第i列向量分别记为
Figure BDA0000053973650000035
其中Count(i)是属于第i类的特征向量个数,i为大于0的自然数。
使用EM算法对提取到的特征向量进行聚类包括以下步骤:
(a)根据EM算法,按以下表达式对高斯混合模型参数
Figure BDA0000053973650000036
U、E进行更新:
p i = 1 B Σ t = 1 B p ( i | x r t , λ ) ,
u r i = Σ t = 1 B p ( i | x r t , λ ) g x r t Σ t = 1 B p ( i | x r t , λ ) ,
e r i = Σ t = 1 B p ( i | x r t , λ ) g ( x r t ) 2 Σ t = 1 B p ( i | x r t , λ ) - ( u r i ) 2 ,
其中:λ表示模型参数,
Figure BDA0000053973650000044
p ( i | x r t , λ ) = p i gb i ( x r t ) Σ k = 1 M w k gb k ( x r t ) ,
b i ( x r ) = 1 ( 2 π ) D / 2 | e i | 1 / 2 exp { - 1 2 ( x r - u ur i ) T e i - 1 ( x r - u ur i ) } ;
(b)如果不满足EM迭代结束条件,则跳到(a)继续执行,否则EM迭代结束。
将高斯混合模型的参数合成为量子神经网络的输入矢量包括以下步骤:
Figure BDA0000053973650000047
U、E合成M个神经网络的输入向量,其中合成的第k个输入向量记为
Figure BDA0000053973650000048
R=2×D+1,其中,
Figure BDA0000053973650000049
Figure BDA00000539736500000410
(2)合成用于训练神经网络的目标向量并对量子神经网络进行训练;
其中:
合成用于训练神经网络的目标向量包括以下步骤:
针对信号n,合成的目标向量记为
Figure BDA00000539736500000412
满足:
t j = 0 j ≠ n 1 j = n , 1 ≤ j ≤ N
对量子神经网络训练包括以下步骤:
(a)将所有的训练输入向量逐次输入量子神经网络,量子神经网络结构采用三层前向神经网络,其结构如图2所示,其中输入层的节点数目为R,
Figure BDA0000053973650000051
表示第k个输入向量;输出层为N个节点,隐层为H个节点, 分别为输出层和隐层在输入向量为
Figure BDA0000053973650000054
时的响应,神经网络的相邻层节点全互连,同层节点之间不相连。其中,隐层的传递函数为:
f r k = 1 S Σ r = 1 S sgm ( αg ( W T a r k - θ r ) )
Figure BDA0000053973650000056
WT为输入权值矩阵,S为量子间隔数目,θr为量子间隔;
将所有的训练输入向量逐次输入量子神经网络,并得到对应的网络输出向量;
(b)计算(a)步所得网络输出向量和目标向量的误差,并计算所有误差的平方和。依据后向传播算法,沿误差曲面的梯度下降方向调整网络的输入、输出参数矩阵;
(c)计算隐层神经元的平均类条件方差;采用后向传播算法,沿类条件方差曲面的梯度下降方向调整量子神经间隔。具体地,对于类别Cn(属于第n个说话人的输入向量和目标向量均记为属于类别Cn),第i个隐层量子神经元输出的类条件方差为:
&sigma; n , i 2 = &Sigma; a r k : a r k &Element; C n ( < f C n , i > - f k , i ) 2
其中 < f C n , i > = 1 | C n | &Sigma; a r k : a r k &Element; C n f k , i , |Cn|=Count(n);
平均类条件方差为: G = 1 2 &Sigma; i = 1 H &Sigma; n = 1 N &sigma; n , i 2 ;
使用式为:
V&theta; i r ( k + 1 ) = - &eta; ( k ) g ( 1 - Qmc ) g &PartialD; G &PartialD; &theta; i r + Qmcg V&theta; i r ( k )
= &eta; ( k ) g ( 1 - Qmc ) g &alpha; S &Sigma; n = 1 N &Sigma; a r k : a r k &Element; C n ( < f C n , i > - f k , i ) * ( < V C n , i r > - V k , i r )
+ Qmcg V&theta; i r ( k )
对隐层的量子间隔进行更新,其中,
< V C n , i r > = 1 | C n | &Sigma; a r k : a r k &Element; C n V k , i r , V k , i r = f k , i r * ( 1 - f k , i r ) 
Figure BDA0000053973650000065
分别为第k步和第k+1时量子间隔的更新;η(k)为第k步的学习速率,η(k+1)的更新如下式所示:
&eta; ( k + 1 ) = &eta; inc g&eta; ( k ) G ( k + 1 ) < G ( k ) &eta; dec g&eta; ( k ) G ( k + 1 ) > G ( k )
Qmc为动量因子,满足0<Qmc<1;
(d)满足训练结束条件则结束,否则执行(a)。
(3)对待识别语音信号按步骤(1)进行参数处理得到参数向量,将参数向量输入网络进行识别的方法包括以下步骤:
(a)将所有参数向量输入网络,并得到输出向量,记第k个参数向量
Figure BDA0000053973650000067
对应的输出向量为
Figure BDA0000053973650000068
(b)对所有输出向量按式
o k , i = 1 i = Index ( max ( o k , j ) j = 1,2 . . . , P ) 0 i = others , i = 1,2 , . . . , P
进行二值化处理,其中,Index(ok,i)=i;
(c)令
Figure BDA00000539736500000611
即为识别结果。
本发明高斯混合模型和量子神经网络联合的说话人识别方法具有以下优点:
1、高斯混合模型在训练和识别过程中均需要较多的数据样本,从而降低了其实用性。本方法采用高斯混合模型和量子神经网络联合的识别方法,结合了概率统计模型和判决模型的优点,能在较小数据样本条件下进行识别,克服了高斯混合模型需要较长训练和识别数据的缺点,更适用于样本数据少,样本数据不均衡(即某一类数据特别少)情况下的说话人识别,尤其是面向移动通信和互联网语音的说话人识别。
2、传统的人工神经网络方法,直接将特征向量空间映射到说话人目标向量空间,在映射时,不能剔除部分离散度大的特征向量对分类的影响,影响了识别率;本方法首先使用高斯混合模型对语音信号的分布情况进行概率统计,并将统计所得模型参数经量子神经网络映射到信号目标向量空间,使分类的准确性得到提高;同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性,能对存在交叉数据和模糊边界的说话人语音数据进行有效判决,因此可有效提高系统的正确识别率。

Claims (7)

1.一种高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于,该方法包括以下步骤:
(1)参数处理流程,该流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
(2)训练流程:合成用于训练神经网络的目标向量并对量子神经网络进行训练;
(3)识别流程:对待识别语音信号按步骤(1)进行参数处理并输入训练好的量子神经网络进行识别。
2.根据权利要求1所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(1)中的使用K均值算法对每帧语音的特征向量进行聚类包括以下步骤:
(a)输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵X,该第一矩阵X为D×B的矩阵,其中D为帧长,B为帧数,X中的第t列即是从第t帧语音信号中提取的特征向量,记为
Figure FDA0000053973640000011
从第一矩阵X中随机选取M列作为初始的聚类中心;
(b)对第一矩阵X中的所有列,按最小距离准则划分到相应的类别;
(c)重新计算聚类中心;
(d)如果满足结束条件则执行(e),否则跳到(b)继续执行;
(e)分别计算
Figure FDA0000053973640000012
U、E,其中是M维向量,
Figure FDA0000053973640000014
U为每个聚类的中心,E为聚类的方差,U和E均为D×M(D为帧长;M为聚类个数)的矩阵;U和E的第i列向量分别记为
Figure FDA0000053973640000015
Figure FDA0000053973640000016
其中Count(i)是属于第i类的特征向量个数,i为大于0的自然数。
3.根据权利要求2所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(1)中对聚类结果进行EM迭代包括以下步骤:
(a)根据EM算法,按以下表达式对高斯混合模型参数
Figure FDA0000053973640000017
U、E进行更新:
p i = 1 B &Sigma; t = 1 B p ( i | x r t , &lambda; ) ,
u r i = &Sigma; t = 1 B p ( i | x r t , &lambda; ) g x r t &Sigma; t = 1 B p ( i | x r t , &lambda; ) ,
e r i = &Sigma; t = 1 B p ( i | x r t , &lambda; ) g ( x r t ) 2 &Sigma; t = 1 B p ( i | x r t , &lambda; ) - ( u r i ) 2 ,
其中:λ表示模型参数, &lambda; = { p i , u r i , e r i } , i = 1 , . . . , M ,
p ( i | x r t , &lambda; ) = p i gb i ( x r t ) &Sigma; k = 1 M w k gb k ( x r t ) ,
b i ( x r ) = 1 ( 2 &pi; ) D / 2 | e i | 1 / 2 exp { - 1 2 ( x r - u ur i ) T e i - 1 ( x r - u ur i ) } ;
(b)如果不满足EM迭代结束条件,则跳到(a)继续执行,否则EM迭代结束。
4.根据权利要求3所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(1)将高斯混合模型的参数合成为量子神经网络的输入矢量包括以下步骤:
Figure FDA0000053973640000027
U、E合成M个神经网络的输入向量,其中合成的第k个输入向量记为
Figure FDA0000053973640000028
R=2×D+1,其中,
Figure FDA0000053973640000029
Figure FDA00000539736400000210
5.根据权利要求4所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(2)中合成用于训练神经网络的目标向量包括以下步骤:
针对信号n,则合成的目标向量记为
Figure FDA00000539736400000211
Figure FDA00000539736400000212
满足:
t j = 0 j &NotEqual; n 1 j = n , 1 &le; j &le; N .
6.根据权利要求5所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(2)中对量子神经网络的训练包括以下步骤:
(a)将所有的训练输入向量逐次输入量子神经网络,量子神经网络结构采用三层前向神经网络,其中输入层的节点数目为R,
Figure FDA0000053973640000032
表示第k个输入向量;输出层为N个节点,隐层为H个节点,
Figure FDA0000053973640000034
分别为输出层和隐层在输入向量为
Figure FDA0000053973640000035
时的响应,神经网络的相邻层节点全互连,同层节点之间不相连;其中,隐层的传递函数为:
f r k = 1 S &Sigma; r = 1 S sgm ( &alpha;g ( W T a r k - &theta; r ) )
Figure FDA0000053973640000037
WT为输入权值矩阵,S为量子间隔数目,θr为量子间隔;
将所有的训练输入向量逐次输入量子神经网络,并得到对应的网络输出向量;
(b)计算(a)步所得网络输出向量和目标向量的误差,并计算所有误差的平方和,依据后向传播算法,沿误差曲面的梯度下降方向调整网络的输入、输出参数矩阵;
(c)计算隐层神经元的平均类条件方差;采用后向传播算法,沿类条件方差曲面的梯度下降方向调整网络的量子神经间隔,具体地,对于类别Cn(属于第n个说话人的输入向量和目标向量均记为属于类别Cn),第i个隐层量子神经元输出的类条件方差为:
&sigma; n , i 2 = &Sigma; a r k : a r k &Element; C n ( < f C n , i > - f k , i ) 2
其中 < f C n , i > = 1 | C n | &Sigma; a r k : a r k &Element; C n f k , i , | C n | = Count ( n ) ;
平均类条件方差为: G = 1 2 &Sigma; i = 1 H &Sigma; n = 1 N &sigma; n , i 2 ;
使用式为:
V&theta; i r ( k + 1 ) = - &eta; ( k ) g ( 1 - Qmc ) g &PartialD; G &PartialD; &theta; i r + Qmcg V&theta; i r ( k )
= &eta; ( k ) g ( 1 - Qmc ) g &alpha; S &Sigma; n = 1 N &Sigma; a r k : a r k &Element; C n ( < f C n , i > - f k , i ) * ( < V C n , i r > - V k , i r )
+ Qmcg V&theta; i r ( k )
对隐层的量子间隔进行更新,其中,
< V C n , i r > = 1 | C n | &Sigma; a r k : a r k &Element; C n V k , i r , V k , i r = f k , i r * ( 1 - f k , i r )
Figure FDA0000053973640000045
分别为第k步和第k+1时量子间隔的更新;η(k)为第k步的学习速率,η(k+1)的更新如下式所示:
&eta; ( k + 1 ) = &eta; inc g&eta; ( k ) G ( k + 1 ) < G ( k ) &eta; dec g&eta; ( k ) G ( k + 1 ) > G ( k )
Qmc为动量因子,满足0<Qmc<1;
(d)满足训练结束条件则结束,否则执行(a)。
7.根据权利要求6所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(3)中对待识别语音信号按步骤(1)进行参数处理得到参数向量后进行识别的方法包括以下步骤:
(a)将所有参数向量输入网络,并得到输出向量,记第k个参数向量
Figure FDA0000053973640000047
对应的输出向量为
(b)对所有输出向量按式:
o k , i = 1 i = Index ( max ( o k , j ) j = 1,2 . . . , P ) 0 i = others , i = 1,2 , . . . , P
进行二值化处理,其中,Index(ok,i)=i;
(c)令
Figure FDA00000539736400000410
即为识别结果。
CN2011100849452A 2011-04-06 2011-04-06 一种高斯混合模型和量子神经网络联合的说话人识别方法 Expired - Fee Related CN102201236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100849452A CN102201236B (zh) 2011-04-06 2011-04-06 一种高斯混合模型和量子神经网络联合的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100849452A CN102201236B (zh) 2011-04-06 2011-04-06 一种高斯混合模型和量子神经网络联合的说话人识别方法

Publications (2)

Publication Number Publication Date
CN102201236A true CN102201236A (zh) 2011-09-28
CN102201236B CN102201236B (zh) 2012-12-19

Family

ID=44661862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100849452A Expired - Fee Related CN102201236B (zh) 2011-04-06 2011-04-06 一种高斯混合模型和量子神经网络联合的说话人识别方法

Country Status (1)

Country Link
CN (1) CN102201236B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789594A (zh) * 2012-06-28 2012-11-21 南京邮电大学 一种基于diva神经网络模型的语音生成方法
CN102880906A (zh) * 2012-07-10 2013-01-16 南京邮电大学 一种基于diva神经网络模型的汉语元音发音方法
CN103310272A (zh) * 2013-07-02 2013-09-18 南京邮电大学 基于声道动作知识库改进的diva神经网络模型发音方法
CN103310273A (zh) * 2013-06-26 2013-09-18 南京邮电大学 基于diva模型的带声调的汉语元音发音方法
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN106228976A (zh) * 2016-07-22 2016-12-14 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
CN106955112A (zh) * 2017-03-17 2017-07-18 泉州装备制造研究所 基于量子小波神经网络模型的脑电波情绪认知方法
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
CN107180246A (zh) * 2017-04-17 2017-09-19 南京邮电大学 一种基于混合模型的iptv用户报障数据合成方法
CN107210038A (zh) * 2015-02-11 2017-09-26 邦及欧路夫森有限公司 多媒体系统中的说话者识别
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN108417224A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN109147798A (zh) * 2018-07-27 2019-01-04 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质
WO2019136811A1 (zh) * 2018-01-09 2019-07-18 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN111445905A (zh) * 2018-05-24 2020-07-24 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN112529115A (zh) * 2021-02-05 2021-03-19 支付宝(杭州)信息技术有限公司 一种对象聚类方法和系统
CN113569910A (zh) * 2021-06-25 2021-10-29 石化盈科信息技术有限责任公司 账户类型识别方法、装置、计算机设备及存储介质
CN114496227A (zh) * 2022-01-26 2022-05-13 电子科技大学 基于量子神经网络的病情发展预测系统及平台
CN115641852A (zh) * 2022-10-18 2023-01-24 中国电信股份有限公司 声纹识别方法、装置、电子设备和计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《IEEE Transactions on Speech and Audio Processing》 20030930 Bing Xiang et al Efficient text-independent speaker verification with structural Gaussian mixture models and neural network 第447-456页 1-7 第11卷, 第5期 *
《模式识别与人工智能》 20031231 黄伟等 基于分类高斯混合模型和神经网络融合的与文本无关的说话人识别 423-428 1-7 第16卷, 第4期 *
《电子与信息学报》 20041031 黄伟等 基于分类特征空间高斯混合模型和神经网络融合的说话人识别 第1607-1612页 1-3 第26卷, 第10期 *
《计算机工程与应用》 20041231 邱政权等 GMM/ANN混合说话人辨认模型 第106-108页 1-3 , 第17期 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789594B (zh) * 2012-06-28 2014-08-13 南京邮电大学 一种基于diva神经网络模型的语音生成方法
CN102789594A (zh) * 2012-06-28 2012-11-21 南京邮电大学 一种基于diva神经网络模型的语音生成方法
CN102880906A (zh) * 2012-07-10 2013-01-16 南京邮电大学 一种基于diva神经网络模型的汉语元音发音方法
CN102880906B (zh) * 2012-07-10 2015-01-28 南京邮电大学 一种基于diva神经网络模型的汉语元音发音方法
CN103310273A (zh) * 2013-06-26 2013-09-18 南京邮电大学 基于diva模型的带声调的汉语元音发音方法
CN103310272A (zh) * 2013-07-02 2013-09-18 南京邮电大学 基于声道动作知识库改进的diva神经网络模型发音方法
CN103310272B (zh) * 2013-07-02 2016-06-08 南京邮电大学 基于声道动作知识库改进的diva神经网络模型发音方法
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105469784B (zh) * 2014-09-10 2019-01-08 中国科学院声学研究所 一种基于概率线性鉴别分析模型的说话人聚类方法及系统
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN107210038A (zh) * 2015-02-11 2017-09-26 邦及欧路夫森有限公司 多媒体系统中的说话者识别
CN107580722A (zh) * 2015-05-27 2018-01-12 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN107580722B (zh) * 2015-05-27 2022-01-14 英特尔公司 具有对应于各个数据流的直接存储器存取引擎的高斯混合模型加速器
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106228976A (zh) * 2016-07-22 2016-12-14 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
CN106955112A (zh) * 2017-03-17 2017-07-18 泉州装备制造研究所 基于量子小波神经网络模型的脑电波情绪认知方法
CN107146624A (zh) * 2017-04-01 2017-09-08 清华大学 一种说话人确认方法及装置
WO2018176894A1 (zh) * 2017-04-01 2018-10-04 清华大学 一种说话人确认方法及装置
CN107180246A (zh) * 2017-04-17 2017-09-19 南京邮电大学 一种基于混合模型的iptv用户报障数据合成方法
WO2019136811A1 (zh) * 2018-01-09 2019-07-18 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108417224B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
CN108417224A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 双向神经网络模型的训练和识别方法及系统
CN111445905A (zh) * 2018-05-24 2020-07-24 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN111445905B (zh) * 2018-05-24 2023-08-08 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN109147798A (zh) * 2018-07-27 2019-01-04 北京三快在线科技有限公司 语音识别方法、装置、电子设备及可读存储介质
WO2020020375A1 (zh) * 2018-07-27 2020-01-30 北京三快在线科技有限公司 语音处理方法、装置、电子设备及可读存储介质
CN112529115A (zh) * 2021-02-05 2021-03-19 支付宝(杭州)信息技术有限公司 一种对象聚类方法和系统
CN113569910A (zh) * 2021-06-25 2021-10-29 石化盈科信息技术有限责任公司 账户类型识别方法、装置、计算机设备及存储介质
CN114496227A (zh) * 2022-01-26 2022-05-13 电子科技大学 基于量子神经网络的病情发展预测系统及平台
CN114496227B (zh) * 2022-01-26 2023-04-28 电子科技大学 基于量子神经网络的病情发展预测系统及平台
CN115641852A (zh) * 2022-10-18 2023-01-24 中国电信股份有限公司 声纹识别方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN102201236B (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102201236B (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
Tao et al. An object detection system based on YOLO in traffic scene
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN103605972B (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN102779510B (zh) 基于特征空间自适应投影的语音情感识别方法
CN109903774A (zh) 一种基于角度间隔损失函数的声纹识别方法
CN106446895A (zh) 一种基于深度卷积神经网络的车牌识别方法
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN107085704A (zh) 基于elm自编码算法的快速人脸表情识别方法
CN108734114A (zh) 一种结合面部和声纹的宠物识别方法
CN104915643A (zh) 一种基于深度学习的行人再标识方法
CN103440495A (zh) 一种复合绝缘子憎水等级自动识别方法
CN110084610A (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN106503661B (zh) 基于烟花深度信念网络的人脸性别识别方法
CN109559736A (zh) 一种基于对抗网络的电影演员自动配音方法
CN110459225A (zh) 一种基于cnn融合特征的说话人辨认系统
CN103035239B (zh) 一种基于局部学习的说话人识别方法
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN106022363A (zh) 一种适用于自然场景下的中文文字识别方法
CN104091181A (zh) 基于深度受限玻尔兹曼机的害虫图像自动识别方法及系统
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN104463194A (zh) 一种人车分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121219

Termination date: 20130406