CN105261367A - 一种说话人识别方法 - Google Patents

一种说话人识别方法 Download PDF

Info

Publication number
CN105261367A
CN105261367A CN201410334124.3A CN201410334124A CN105261367A CN 105261367 A CN105261367 A CN 105261367A CN 201410334124 A CN201410334124 A CN 201410334124A CN 105261367 A CN105261367 A CN 105261367A
Authority
CN
China
Prior art keywords
sigma
overbar
model
speaker
changed factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410334124.3A
Other languages
English (en)
Other versions
CN105261367B (zh
Inventor
周若华
许云飞
颜永红
杨琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201410334124.3A priority Critical patent/CN105261367B/zh
Publication of CN105261367A publication Critical patent/CN105261367A/zh
Application granted granted Critical
Publication of CN105261367B publication Critical patent/CN105261367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种说话人识别方法,该方法首先生成说话人识别模型,把背景语音和目标说话人语音作为训练数据,训练出第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型,局部线性鉴别分析模型;利用第一高斯混合-通用背景模型,总变化空间,第二高斯混合-通用背景模型计算出待识别语音的总变化因子和总变化因子的后验概率,输入局部线性鉴别分析模型进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。本方法增加了说话人间的鉴别性,可提高说话人识别性能;同时该方法可以对总变化因子进行降维,提升了识别速度,具有很高的实用性。

Description

一种说话人识别方法
技术领域
本发明涉及语音数据中说话人信息的识别方法,更具体地说,本发明涉及一种基于局部线性鉴别分析的说话人识别方法。
背景技术
随着现代社会信息的全球化,说话人识别已经成为语音识别技术研究热点之一。说话人识别技术是身份验证技术---生物特征识别技术的一种,与其他身份验证技术相比,说话人识别更加方便、自然,且具有比较低的用户侵犯性。说话人识别任务根据实际应用的类型不同,可以分为说话人辨认和说话人确认。其中,说话人辨认在全部目标说话人的范围内进行,其性能与目标人数目有关,随着人数的增加性能逐步下降。与此同时,在实际应用中往往需要处理大量的语音数据,速度成为需要考虑的因素之一。如何利用有限的训练数据,训练具有说话人鉴别性的模型,并快速准确地识别出语音中说话人信息的说话人识别技术成为一个研究重点。
文献[1](D.A.Reynolds,T.F.Quatieri,R.B.Dunn.Speakerverificationusingadaptedgaussianmixturemodels.DigitalSignalProcessing,2000,10(1–3):19-41.)指出,对于各语种各信道下语音数据的声学谱特征,通过采用高斯混合-通用模型进行建模,然后针对每一句语音计算在其上面的后验统计量,通过自适应得到一个说话人相关的高斯混合-通用模型,该模型可以有效识别语音数据中的说话人信息。基于高斯混合-通用模型可以计算出语音数据的总变化因子。
目前,总变化因子技术已广泛的应用于说话人识别技术中。然而,由于信道,背景,语言,感情,年龄,健康等因素的影响,总变化因子的分布常常表现出多模态特性,甚至可能出现异常值。文献[2](N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,P.Ouellet.Front-endfactoranalysisforspeakerverification.IEEETransactionsonAudio,SpeechandLanguageProcessing,2011,19(4):788-798.)提出:对总变化因子使用类内协方差规整技术和线性鉴别分析降维技术可以有效的补偿信道损失并加入鉴别性信息。但线性鉴别分析技术对总变化因子的信道损失补偿是有限的,无法有效地处理上述问题。
文献[3](Kim,Tae-KyunandKittler,Josef.Locallylineardiscriminantanalysisformultimodallydistributedclassesforfacerecognitionwithasinglemodelimage.IEEETransactionsonPatternAnalysisandMachineintelligence,2005,27(3):318-327.)提出了局部线性鉴别分析技术(线性鉴别分析技术是高斯数目为1时的特例),这个技术已成功有效地应用在人脸识别上。在传统的说话人识别系统中,由于语音数据的维度很高,导致计算量加大,内存的需求急剧上升,导致局部线性鉴别分析技术无法应用到说话人识别中。
由于总变化因子技术的出现,一段语音可以用低维的特征矢量表示(通常在400-600维),这为局部线性鉴别分析技术应用在说话人识别上提供了帮助。
发明内容
本发明的目的在于克服现有说话人识别方法中总变化因子存在整体分布上表现为多模态;且受信道、语言等影响可能出现异常值的缺陷,从而提供一种可以有效提升说话人识别系统的识别性能和速度的方法。
为了实现上述目的,本发明提供一种基于局部线性鉴别分析的说话人识别方法。首先生成说话人识别模型,说话人识别模型生成方法包括如下步骤:
步骤1-1),采集一定数量的目标说话人语音数据和大量背景语音数据,提取语音声学谱特征;
步骤1-2),利用一部分背景语音的声学谱特征训练第一高斯混合-通用背景模型;
步骤1-3),在第一高斯混合-通用背景模型上计算出背景语音和目标说话人语音的声学谱特征所对应的后验统计量;
步骤1-4),利用背景语音的后验统计量训练得到一个总变化因子空间,在该空间上将背景语音和目标说话人语音的后验统计量映射为一个总变化因子;
步骤1-5),在总变化因子空间训练得到第二高斯混合-通用背景模型,然后计算出目标说话人语音的总变化因子在各个高斯分量上的后验概率;
若某条语音数据对应的总变化因子为x,假设其维数为d,那么用于计算其似然函数的高斯混合-通用背景模型定义为公式:
p ( x | λ ) = Σ i = 1 M w i p i ( x ) - - - ( 1 )
该密度函数由M个单高斯密度函数pi(x)加权得到,每一个高斯分量由d维的均值μi和d×d维的协方差Σi构成,如公式:
p i ( x ) = 1 ( 2 π ) d / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i ) } - - - ( 2 )
其中混合权重wi满足λ为模型参数的集合λ={wiii|i=1,…,M},该模型通过期望最大化(EM)迭代训练得到。
对于一个总变化因子x,其后验概率计算如下公式:
Pr ( i | x ) = w i p i ( x ) Σ j = 1 M w j p j ( x ) - - - ( 3 )
步骤1-6),利用步骤1-4)得到的总变化因子以及步骤1-5)得到的对应的后验概率,训练一个局部线性转换矩阵,由此生成局部线性鉴别分析模型;
假设有总变化因子数据集合X={x1,x2,...,xn}分别属于C个目标说话人{X1,X2,...,XC},定义如下局部线性变换:
y i = Σ M Pr ( k | x i ) U k T ( x i - μ k ) - - - ( 4 )
其中,μk表示第k个聚类中心的均值:
μ k = ( Σ i = 1 n Pr ( k | x i ) x i ) / ( Σ i = 1 n Pr ( k | x i ) ) - - - ( 5 )
局部线性转换矩阵Uk=[uk1,uk2,…ukl](其中l<d)满足目标函数取最大值。其中,分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵。所有总变化因子的全局均值为:
m ‾ = 1 n Σ i = 1 n y i = 1 n Σ i = 1 n Σ k = 1 M Pr ( k | x i ) U k T ( x i - μ k ) - - - ( 6 )
第c个说话人包含nc个总变化因子,nc是第c个目标说话人的语句个数,其均值定义为:
m c ‾ = 1 n c Σ x ∈ X c y = Σ k = 1 M U k T m ck - - - ( 7 )
m ck = 1 n c Σ x ∈ X c Pr ( k | x ) ( x - μ k ) - - - ( 8 )
根据公式(6)、(7)和(8),类间协方差矩阵表示如:
B ‾ = Σ c = 1 C n c ( m c ‾ - m ‾ ) ( m c ‾ - m ‾ ) T = Σ k = 1 M U k T B k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j ) T - - - ( 9 )
其中,
B k = Σ c = 1 C n c m ck m ck T - - - ( 10 )
B ij = Σ c = 1 C n c m ci m cj T - - - ( 11 )
类内协方差矩阵表示如:
W ‾ = Σ c = 1 C n c ( y - m c ‾ ) ( y - m c ‾ ) T = Σ k = 1 M U k T W k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j ) T - - - ( 12 )
其中,
W k = Σ c = 1 C Σ x ∈ X c ( Pr ( k | x ) ( x - μ k ) - m ck ) ( Pr ( k | x ) ( x - μ k ) - m ck ) T - - - ( 13 )
W ij = Σ c = 1 C Σ x ∈ X c ( Pr ( i | x ) ( x - μ i ) - m ci ) ( Pr ( k | x ) ( x - μ j ) - m cj ) T - - - ( 14 )
学习算法流程如下:
随机初始化M个矩阵U1,…,UM
令p为索引,依次从1到l学习ukp,k=1,…,M
①计算目标函数对各个变量ukp的梯度:
∂ J ∂ u kp = ( 2 B ‾ - 1 B k - 2 W ‾ - 1 W k ) u kp + Σ i = 1 , i ≠ k M ( 2 B ‾ - 1 B ki - 2 W ‾ - 1 W ki ) u kp
②更新映射矩阵,η表征学习的速率
Δ u kp ← η ∂ J ∂ u kp
③正交化
u kp ← u kp - Σ i = 1 p - 1 ( u kp t u ki ) u ki
④归一化
ukp←ukp/‖ukp
重复步骤①~④,至算法收敛到一个稳定点,令p:=p+1返回步骤①执行。
步骤1-7),生成说话人识别模型,包括:第一高斯混合-通用背景模型、总变化因子空间、第二高斯混合-通用背景模型,局部线性鉴别分析模型。
本发明提供的一种说话人识别方法,该方法基于上述技术方案生成的说话人识别模型,包括如下步骤:
步骤2-1),提取待识别语音的声学谱特征;
步骤2-2),在步骤1-2)训练得到的高斯混合-通用背景模型上计算出待识别语音声学谱特征的后验统计量,
步骤2-3),在步骤1-4)训练得到的总变化因子空间上将后验统计量映射为一个总变化因子;
步骤2-4),在步骤1-5)训练得到的高斯混合-通用背景模型上计算出总变化因子在各个高斯分量上的后验概率,
步骤2-5),在步骤1-6)得到的局部线性鉴别分析模型上将待识别语音的总变化因子进行变换,得到维数更低的矢量,输入后端识别器输出识别结果。
本发明的优点在于:
1、该方法优于基于传统的线性鉴别分析的说话人识别方法;
2、在仅依靠少量训练数据前提下,提高说话人识别系统的识别性能;
3、提高说话人识别系统的识别速度;
附图说明
图1是一种说话人识别模型生成方法的流程框图;
图2是一种说话人识别方法的实施流程框图。
具体实施方式
现结合附图对本发明做进一步详细描述:
参考图1,一种说话人识别模型生成方法的流程包括:
步骤1-1),采集一定数量的背景语音数据和目标说话人语音数据作为训练语音数据,从所述训练语音数据中提取声学谱特征;该步骤包括:
对所述步骤1-1)的训练语音数据做前端处理,所述训练语音数据前端处理包括对训练数据切除静音、音乐等无效语音,保留有效语音;然后从经过前端处理的训练语音数据中提取通用的美尔倒谱特征(MFCC),并对该特征进行动态扩展得到二阶差分倒谱特征,由此训练语音数据的每一帧包括60维特征向量,这些特征向量就是训练语音数据的声学谱特征。
步骤1-2),利用一部分背景语音的声学谱特征训练第一高斯混合-通用背景模型。
训练高斯混合-通用背景模型时可采用最大似然估计,目标函数L为所有背景数据对数似然之和。高斯混合-通用背景模型的协方差为对角协方差,高斯数为256:
L = Σ f ln ( F f | λ )
Ff表示第f帧特征,λ表示模型参数。
步骤1-3),在第一高斯混合-通用背景模型上计算出背景语音和目标说话人语音的声学谱特征所对应的后验统计量:
N i ‾ = Σ f Pr ( i | F f )
F i ‾ = 1 N i ‾ Σ f Pr ( i | F f ) F f
其中为零阶统计量,为一阶统计量。
步骤1-4),利用背景语音的后验统计量训练得到一个总变化空间T,在该空间上将背景语音和目标说话人语音的后验统计量映射为一个总变化因子x:
x = ( I + T T Σ - 1 N ‾ T ) - 1 T T Σ - 1 F ‾
其中,为M个拼接而成的超向量;Σ为对角块矩阵,由协方差矩阵Σi组成,Σi为高斯混合-通用背景模型的对角协方差矩阵;为对角块矩阵,其对角元素由构成;x的维数为400。
步骤1-5),在总变化因子空间训练得到第二高斯混合-通用背景模型,然后计算出目标说话人语音的总变化因子在各个高斯分量上的后验概率。其中训练得到的高斯混合-通用背景模型的高斯混合数为4,采用对角协方差矩阵,每个高斯共享同一个协方差矩阵。
若某条语音数据对应的总变化因子为x,计算其似然函数的高斯混合-通用背景模型定义为公式:
p ( x | λ ) = Σ i = 1 M w i p i ( x )
该密度函数由4个单高斯密度函数pi(x)加权得到,每一个高斯分量由400维的均值μi和400×400维的协方差Σ构成,如公式:
p ( x ) = 1 ( 2 π ) d / 2 | Σ | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ - 1 ( x - μ i ) }
其中混合权重wi满足λ为模型参数的集合λ={wii|i=1,…,M,Σ},该模型通过期望最大化(EM)迭代训练得到。
对于一个总变化因子x,其后验概率计算如下公式:
Pr ( i | x ) = w i p i ( x ) Σ j = 1 M w j p j ( x ) .
步骤1-6),利用第四步得到的总变化因子以及第五步得到的对应的后验概率,训练出一个局部线性转换矩阵,由此生成局部线性鉴别分析模型;
假设有总变化因子数据集合X={x1,x2,...,xn}分别属于C个目标说话人{X1,X2,...,XC},定义如下局部线性变换:
y i = Σ k = 1 M Pr ( k | x i ) U k T ( x i - μ k )
其中,μk表示第k个聚类中心的均值:
μ k = ( Σ i = 1 n Pr ( k | x i ) x i ) / ( Σ i = 1 n Pr ( k | x i ) )
局部线性转换矩阵Uk=[uk1,uk2,…ukl](其中l=300)满足目标函数取最大值。其中,分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵。所有总变化因子的全局均值为:
m ‾ = 1 n Σ i = 1 n y i = 1 n Σ i = 1 n Σ k = 1 M Pr ( k | x i ) U k T ( x i - μ k )
第c个说话人包含nc个总变化因子,nc是第c个目标说话人的语句个数,其均值定义为:
m c ‾ = 1 n c Σ x ∈ X c y = Σ k = 1 M U k T m ck
m ck = 1 n c Σ x ∈ X c Pr ( k | x ) ( x - μ k )
类间协方差矩阵表示如:
B ‾ = Σ c = 1 C n c ( m c ‾ - m ‾ ) ( m c ‾ - m ‾ ) T = Σ k = 1 M U k T B k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j ) T
其中,
B k = Σ c = 1 C n c m ck m ck T
B ij = Σ c = 1 C n c m ci m cj T
类内协方差矩阵表示如:
W ‾ = Σ c = 1 C n c ( y - m c ‾ ) ( y - m c ‾ ) T = Σ k = 1 M U k T W k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j ) T
其中,
W k = Σ c = 1 C Σ x ∈ X c ( Pr ( k | x ) ( x - μ k ) - m ck ) ( Pr ( k | x ) ( x - μ k ) - m ck ) T
W ij = Σ c = 1 C Σ x ∈ X c ( Pr ( i | x ) ( x - μ i ) - m ci ) ( Pr ( k | x ) ( x - μ j ) - m cj ) T
学习算法流程如下:
随机初始化M个矩阵U1,…,UM
令p为索引,依次从1到l学习ukp,k=1,…,M
①计算目标函数对各个变量ukp的梯度:
∂ J ∂ u kp = ( 2 B ‾ - 1 B k - 2 W ‾ - 1 W k ) u kp + Σ i = 1 , i ≠ k M ( 2 B ‾ - 1 B ki - 2 W ‾ - 1 W ki ) u kp
②更新映射矩阵,η表征学习的速率
Δ u kp ← η ∂ J ∂ u kp
③正交化
u kp ← u kp - Σ i = 1 p - 1 ( u kp t u ki ) u ki
④归一化
ukp←ukp/‖ukp
重复步骤①~④,至算法收敛到一个稳定点,令p:=p+1返回步骤①执行。
每个局部线性鉴别分析转换矩阵的维数为400×300,经过转换后,总变化因子的维数降到300。
步骤1-7),生成说话人识别模型,包括:第一高斯混合-通用背景模型、总变化因子空间、第二高斯混合-通用背景模型,局部线性鉴别分析模型。
参考图2,一种说话人识别方法的流程包括:
步骤2-1),提取待识别语音声学谱特征;
步骤2-2),在步骤1-2)得到的高斯混合-通用背景模型上计算出待识别语音语音的声学谱特征所对应的后验统计量;
步骤2-3),在步骤1-4)得到的总变化空间上将待识别语音的后验统计量映射为一个总变化因子;
步骤2-4),在步骤1-5)得到的高斯混合-通用背景模型上计算出待识别语音的总变化因子在各个高斯分量上的后验概率;
步骤2-5),在步骤1-6)得到的局部线性鉴别分析模型上将待识别语音的总变化因子进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。
表1为两个待识别语音集A、B在使用传统总变化因子技术方法和本发明技术方法得到的识别结果对比表。
表1
在用局部线性鉴别分析对总变化因子建模时,总变化因子由400维降到300维,计算量减少44%。
在本发明提供的一种说话人识别方法中,用高斯混合-通用背景模型对总变化因子进行建模,这个过程可以看成是对总变化因子的一种模糊聚类;混合数目越多,对应在每个类别的总变化因子子空间中,线性数据结构越加明显。通过增大类间协方差同时减小类内协方差,在变换后的空间中,有效地加入了说话人间的鉴别性,从而提升说话人识别的识别性能。
相比传统的鉴别性说话人模型训练方法,本发明的说话人识别方法需要更少的训练数据。我们在美国国家标准与技术局说话人评测任务中的测试集下进行了大量测试,结果显示:当训练数据不多时,该方法在识别性能方面优于传统的线性鉴别训练方法;当训练数据充足时,该方法在识别性能方面比传统的线性鉴别训练方法更有优势;与其它说话人识别方法相比,本发明提供的说话人识别方法在识别性能有5%-10%的提升,在识别速度上也有较为明显的提升。

Claims (4)

1.一种说话人识别模型生成方法,包括如下步骤:
步骤1-1),采集一定数量的目标说话人语音数据和大量背景语音数据,提取语音声学谱特征;
步骤1-2),利用一部分背景语音的声学谱特征训练第一高斯混合-通用背景模型;
步骤1-3),在第一高斯混合-通用背景模型上计算出背景语音和目标说话人语音的声学谱特征所对应的后验统计量;
步骤1-4),利用背景语音的后验统计量训练得到一个总变化因子空间,在该空间上将背景语音和目标说话人语音的后验统计量映射为一个总变化因子;
步骤1-5),在总变化因子空间训练得到第二高斯混合-通用背景模型,然后计算出目标说话人语音的总变化因子在各个高斯分量上的后验概率;
步骤1-6),利用步骤1-4)得到的总变化因子以及步骤1-5)得到的总变化因子对应的后验概率,训练出一个局部线性转换矩阵,由此生成局部线性鉴别分析模型;
步骤1-7),生成说话人识别模型,包括:第一高斯混合-通用背景模型、总变化因子空间、第二高斯混合-通用背景模型,局部线性鉴别分析模型。
2.按权利要求1所述的说话人识别模型生成方法,其特征在于,
所述步骤1-5)的计算过程为:若某条语音数据对应的总变化因子为x,假设其维数为d,那么用于计算其似然函数的高斯混合-通用背景模型定义为公式:
p ( x | λ ) = Σ i = 1 M w i p i ( x )
该密度函数由M个单高斯密度函数pi(x)加权得到,每一个高斯分量由d维的均值μi和d×d维的协方差Σi构成,如公式:
p i ( x ) = 1 ( 2 π ) d / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i ) }
其中混合权重wi满足λ为模型参数的集合λ={wiii|i=1,…,M},该模型通过期望最大化迭代训练得到;
对于一个总变化因子x,其后验概率计算如下公式:
Pr ( i | x ) = w i p i ( x ) Σ j = 1 M w j p j ( x ) .
3.按权利要求1所述的说话人识别模型生成方法,其特征在于,
所述步骤1-6)中的计算过程为:假设有总变化因数据集合X={x1,x2,...,xn}分别属于C个目标说话人{X1,X2,...,XC},定义如下局部线性变换:
y i = Σ k = 1 M Pr ( k | x i ) U k T ( x i - μ k )
其中,μk表示第k个聚类中心的均值:
μ k = ( Σ i = 1 n Pr ( k | x i ) x i ) / ( Σ i = 1 n Pr ( k | x i ) )
局部线性转换矩阵Uk=[uk1,uk2,…ukl](其中l<d)满足目标函数取最大值;其中,分别表示在局部线性变换空间中的类间协方差和类内协方差矩阵,所有总变化因子的全局均值为:
m ‾ = 1 n Σ i = 1 n y i = 1 n Σ i = 1 n Σ k = 1 M Pr ( k | x i ) U k T ( x i - μ k )
第c个说话人包含nc个总变化因子,nc是第c个目标说话人的语句个数,其均值定义为:
m c ‾ = 1 n c Σ x ∈ X c y = Σ k = 1 M U k T m ck
m ck = 1 n c Σ x ∈ X c Pr ( k | x ) ( x - μ k )
类间协方差矩阵表示如:
B ‾ = Σ c = 1 C n c ( m c ‾ - m ‾ ) ( m c ‾ - m ‾ ) T = Σ k = 1 M U k T B k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T B ij U j ) T
其中,
B k = Σ c = 1 C n c m ck m ck T
B ij = Σ c = 1 C n c m ci m cj T
类内协方差矩阵表示如:
W ‾ = Σ c = 1 C n c ( y - m c ‾ ) ( y - m c ‾ ) T = Σ k = 1 M U k T W k U k + Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j + ( Σ i = 1 M - 1 Σ j = i + 1 M U i T W ij U j ) T
其中,
W k = Σ c = 1 C Σ x ∈ X c ( Pr ( k | x ) ( x - μ k ) - m ck ) ( Pr ( k | x ) ( x - μ k ) - m ck ) T
W ij = Σ c = 1 C Σ x ∈ X c ( Pr ( i | x ) ( x - μ i ) - m ci ) ( Pr ( k | x ) ( x - μ j ) - m cj ) T
学习算法流程如下:
随机初始化M个矩阵U1,…,UM
令p为索引,依次从1到l学习ukp,k=1,…,M
①计算目标函数对各个变量ukp的梯度:
∂ J ∂ u kp = ( 2 B ‾ - 1 B k - 2 W ‾ - 1 W k ) u kp + Σ i = 1 , i ≠ k M ( 2 B ‾ - 1 B ki - 2 W ‾ - 1 W ki ) u kp
②更新映射矩阵,η表征学习的速率
Δ u kp ← η ∂ J ∂ u kp
③正交化
u kp ← u kp - Σ i = 1 p - 1 ( u kp t u ki ) u ki
④归一化
ukp←ukp/‖ukp
重复步骤①~④,至算法收敛到一个稳定点,令p:=p+1返回步骤①执行。
4.一种说话人识别方法,该方法基于权利要求1-3之一所述的说话人识别模型生成方法所得到的说话人识别模型实现,该方法包括如下步骤:
步骤2-1),提取待识别语音的声学谱特征;
步骤2-2),在所述说话人识别模型中的第一高斯混合-通用背景模型上计算出待识别语音声学谱特征的后验统计量;
步骤2-3),在所述说话人识别模型中的总变化因子空间上将后验统计量映射为一个总变化因子;
步骤2-4),在所述说话人识别模型中的第二高斯混合-通用背景模型上计算出总变化因子在各个高斯分量上的后验概率;
步骤2-5),在所述说话人识别模型中的局部线性鉴别分析模型上将待识别语音的总变化因子进行转换,得到维数更低的矢量,输入后端识别器输出识别结果。
CN201410334124.3A 2014-07-14 2014-07-14 一种说话人识别方法 Active CN105261367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410334124.3A CN105261367B (zh) 2014-07-14 2014-07-14 一种说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410334124.3A CN105261367B (zh) 2014-07-14 2014-07-14 一种说话人识别方法

Publications (2)

Publication Number Publication Date
CN105261367A true CN105261367A (zh) 2016-01-20
CN105261367B CN105261367B (zh) 2019-03-15

Family

ID=55101026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410334124.3A Active CN105261367B (zh) 2014-07-14 2014-07-14 一种说话人识别方法

Country Status (1)

Country Link
CN (1) CN105261367B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128466A (zh) * 2016-07-15 2016-11-16 腾讯科技(深圳)有限公司 身份向量处理方法和装置
CN106169295A (zh) * 2016-07-15 2016-11-30 腾讯科技(深圳)有限公司 身份向量生成方法和装置
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
WO2018223727A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 识别声纹的方法、装置、设备及介质
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、系统及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN102968990A (zh) * 2012-11-15 2013-03-13 江苏嘉利德电子科技有限公司 说话人识别方法和系统
CN103077720A (zh) * 2012-12-19 2013-05-01 中国科学院声学研究所 一种说话人识别方法及系统
CN103226951A (zh) * 2013-04-19 2013-07-31 清华大学 基于模型顺序自适应技术的说话人确认系统创建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN102968990A (zh) * 2012-11-15 2013-03-13 江苏嘉利德电子科技有限公司 说话人识别方法和系统
CN103077720A (zh) * 2012-12-19 2013-05-01 中国科学院声学研究所 一种说话人识别方法及系统
CN103226951A (zh) * 2013-04-19 2013-07-31 清华大学 基于模型顺序自适应技术的说话人确认系统创建方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN106169295A (zh) * 2016-07-15 2016-11-30 腾讯科技(深圳)有限公司 身份向量生成方法和装置
CN106128466A (zh) * 2016-07-15 2016-11-16 腾讯科技(深圳)有限公司 身份向量处理方法和装置
US10909989B2 (en) 2016-07-15 2021-02-02 Tencent Technology (Shenzhen) Company Limited Identity vector generation method, computer device, and computer-readable storage medium
US10650830B2 (en) 2016-07-15 2020-05-12 Tencent Technology (Shenzhen) Company Limited Identity vector processing method and computer device
CN106169295B (zh) * 2016-07-15 2019-03-01 腾讯科技(深圳)有限公司 身份向量生成方法和装置
CN106128466B (zh) * 2016-07-15 2019-07-05 腾讯科技(深圳)有限公司 身份向量处理方法和装置
CN106971713B (zh) * 2017-01-18 2020-01-07 北京华控智加科技有限公司 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
WO2018223727A1 (zh) * 2017-06-09 2018-12-13 平安科技(深圳)有限公司 识别声纹的方法、装置、设备及介质
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN110148417A (zh) * 2019-05-24 2019-08-20 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN110148417B (zh) * 2019-05-24 2021-03-23 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN105261367B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN105261367A (zh) 一种说话人识别方法
CN104167208B (zh) 一种说话人识别方法和装置
Lanjewar et al. Implementation and comparison of speech emotion recognition system using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (K-NN) techniques
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN107610707A (zh) 一种声纹识别方法及装置
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN103794207A (zh) 一种双模语音身份识别方法
Jiang et al. An Effective Deep Embedding Learning Architecture for Speaker Verification.
CN103474072B (zh) 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN103035239A (zh) 一种基于局部学习的说话人识别方法
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN103219008A (zh) 基于基状态矢量加权的短语音说话人识别方法
CN103325372A (zh) 基于改进声调核模型的汉语语音声调识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant