CN105469784A - 概率线性鉴别分析模型生成方法和说话人聚类方法及系统 - Google Patents

概率线性鉴别分析模型生成方法和说话人聚类方法及系统 Download PDF

Info

Publication number
CN105469784A
CN105469784A CN201410459009.9A CN201410459009A CN105469784A CN 105469784 A CN105469784 A CN 105469784A CN 201410459009 A CN201410459009 A CN 201410459009A CN 105469784 A CN105469784 A CN 105469784A
Authority
CN
China
Prior art keywords
statement
speaker
class
discriminant analysis
linear discriminant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410459009.9A
Other languages
English (en)
Other versions
CN105469784B (zh
Inventor
杨琳
索宏彬
周若华
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201410459009.9A priority Critical patent/CN105469784B/zh
Publication of CN105469784A publication Critical patent/CN105469784A/zh
Application granted granted Critical
Publication of CN105469784B publication Critical patent/CN105469784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统,包括:采集一定数量的语音数据作为训练语句,生成概率线性鉴别分析(PLDA)模型;对待聚类说话人语句进行预处理;提取预处理后的待聚类说话人语句的MFCC特征;基于MFCC特征计算所有待聚类说话人语句的总变化量因子;基于生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;最后通过聚类算法获取最终的类别数目和每个类包含的语句。本方法采用基于总变化量因子PLDA距离使距离测度更加准确;而且本方法基于密度值选择初始类,从而达到稳定的聚类效果。

Description

概率线性鉴别分析模型生成方法和说话人聚类方法及系统
技术领域
本发明涉及的技术领域包括语音识别、说话人识别、说话人聚类和语音信号处理,具体地说,本发明涉及概率线性鉴别分析模型生成方法和说话人聚类方法及系统。
背景技术
说话人聚类是通过分析多个语音样本,将属于同一说话人的语音样本归为一类,可用于多人对话语音的说话人识别。说话人聚类不同于说话人识别,是一种无监督学习过程。说话人聚类方法通常包括特征提取、距离计算、层次化凝聚聚类算法等过程。
特征提取过程通常提取语音样本中表征说话人信息的声学特征,包括梅尔频率倒谱系数(Mel-FrequencyCepstrumCoefficient,MFCC)、线性预测倒谱系数(LinearPredictionCepstrumCoefficient,LPCC)、感知线性预测系数(PerceptualLinearPrediction,PLP)、线谱对系数(LinearSpectrumPairs,LSP)等。
距离计算方法包括贝叶斯信息准则(BayesianInformationCriteria,BIC)、KL距离(Kullback-LeiberDistance,KLD)、广义似然比距离(GeneralizedLikelihoodRatio,GLR)、交叉熵似然比距离(CrossLikelihoodRatio,CLR)等。其过程为:首先对每段语音样本建立高斯模型,计算高斯模型间的距离测度,将距离最近的语音样本进行合并形成新的高斯模型,再计算新的高斯模型间的距离测度,再将距离最近的语音样本进行合并形成新的高斯模型,这个过程一直迭代直至满足停止条件。在现有的距离计算方法中,通常采用最大后验估计准则(MaximumaPosterior,MAP)对说话人语音样本建立单高斯或混合高斯模型;在说话人聚类的应用场景中,通过MAP得到的模型受数据量的限制不能准确描述语音样本的分布情况,由此不能很好地表征某类说话人语音的统计特性,从而得到的模型间的距离测度也不够准确。
传统的说话人聚类算法通常采用层次化凝聚聚类算法,类初始值选择不合适会严重影响聚类效果,而且类别数目难以确定。
近年来总变化因子分析的方法在说话人识别领域取得了很好的效果,已成为现在说话人识别系统的主流算法。而概率线性鉴别分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)正是对低维的总变化量因子进行建模,在消除信道影响的基础上,更好的学习说话人类内和类间信息,从而能够更准确地表示两个总变化量因子之间的相似度。目前还未有把基于总变化因子的PLDA模型应用于说话人识别领域的方法。
发明内容
本发明的目的在于克服现有说话人聚类方法中存在的语音样本相似度测量不准确问题和初始类难以确定的问题,从而提供一种提高语音样本相似度测量准确性和确定合适的初始类的说话人聚类方法。
为了实现上述目的,本发明提供了概率线性鉴别分析模型生成方法和说话人聚类方法;其中概率线性鉴别分析模型生成方法包括如下步骤:
步骤101),采集一定数量的语音数据作为训练语句,并进行预处理;
步骤102),提取预处理后的训练语句的梅尔频率倒谱系数特征;
步骤103),基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子;
步骤104),基于所有训练语句的总变化量因子生成概率线性鉴别分析模型;所述概率线性鉴别分析模型包括:说话人矩阵和概率线性鉴别分析模型的残差方差矩阵。
本发明提供的说话人聚类方法,该方法基于上述技术方案生成的概率线性鉴别分析模型,该方法包括如下步骤:
步骤201),对待聚类说话人语句进行预处理;所述待聚类说话人语句的个数为S;
步骤202),提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征;
步骤203),基于预处理后的待聚类说话人语句的梅尔频率倒谱系数特征计算所有待聚类说话人语句的总变化量因子;
步骤204),基于所述的概率线性鉴别分析模型计算两两待聚类说话人语句的总变化量因子的概率线性鉴别分析距离;
步骤205),基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句;
步骤206),通过聚类算法获取最终的类别数目和每个类包含的语句。
上述技术方案中,在步骤205)中,所述基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句包括:
选择与第p(p=1…S)个语句总变化量因子的PLDA距离最小的K个语句,所选择的K个语句集合记为Bp,所述K可以通过经验和统计规律优选获得;计算K个PLDA距离的均值为:
d p = 1 K Σ q ∈ B p d PLDA ( w p , w q )
其中,wp为第p个语句的总变化量因子,wq为为第q个语句的总变化量因子;dp为第p个语句的的密度值;对应的K+1个语句的总变化量因子的均值为:
w ‾ p = 1 K + 1 ( w p + Σ q ∈ B q w q )
为上述K+1个语句的类中心;dp越小表明以为类中心时类的密集程度越高;
对S个密度值dp(p=1…S)按照从小到大进行排序,然后按顺序选择M个dp对应的类中心所述M可以通过经验和统计规律优选获得;对其中的第m(m=1…M)个类中心,从所有训练语句中选择与其PLDA距离最小的gm个语句划分为同一类,类表示为所包含的语句集合:Bm={gm个语句},gm取随机值,满足对应的类中心为类中包含的训练语句的总变化量因子的均值,计算方法为:
w ‾ m = 1 g m Σ q ∈ B m w q
所述初始类别数目为M,所述每个类包含的语句为集合Bm,其中m=1,…M;
初始类中心为其中m=1,…M。
上述技术方案中,在步骤206)中,所述聚类算法为K均值层次聚类算法或层次化凝聚聚类算法。
此外,本发明还提供了说话人聚类系统,所述的系统包含:
前端处理模块,用于对待聚类说话人语句进行预处理;
特征提取模块,用于提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征;
总变化量因子计算模块,用于计算所有待聚类说话人语句的总变化量因子;
概率线性鉴别分析建模模块:用于采集一定数量的语音数据作为训练语句,并进行预处理;提取预处理后的训练语句的梅尔频率倒谱系数特征;基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子;基于所有训练语句的总变化量因子生成概率线性鉴别分析模型;
概率线性鉴别分析距离计算模块,用于基于概率线性鉴别分析模型两两计算待聚类说话人语句的总变化量因子的概率线性鉴别分析距离;
初始类选择模块,用于基于PLDA距离确定的密度值选择初始类,所述初始类包括初始类别数目和每个类包含的语句;
聚类模块,用于通过聚类算法获取最终的类别数目和每个类包含的语句。
本发明相对于现有说话人聚类方法具有以下优点:
1、本发明采用的说话人聚类方法将高维超矢量映射到低维空间,然后对低维矢量进行总变化因子分析建模,这能够更好地描述说话人类内和类间信息,使距离测度更准确。
2、本发明采用的说话人聚类方法依据密度值选择初始类别数目和每个类包含的语句,然后经过迭代不断合并和更新类,从而达到稳定的聚类效果,并可获得最终的类别数目。
附图说明
图1是本发明的PLDA模型生成方法流程图;
图2是本发明的说话人聚类方法流程图;
图3是本发明的说话人聚类系统连接图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
参照图1,PLDA模型生成方法的流程包括:
步骤101),采集一定数量的语音数据作为训练语句,并进行预处理;
所述训练语句的个数为其中I为说话人的个数,ni为第i个说话人所说的语句数。
所述预处理包括:基于时频分析的方法对训练语句进行分段,再采用高斯混合模型(GMM)判断每一段是否属于无效语音,所述无效语音例如为:彩铃、振铃、传真音、或静音,依据判断结果删除训练语句的无效语音,保留训练语句的有效语音;
步骤102),提取预处理后的训练语句的MFCC特征;
所述MFCC特征包括18维的基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征,所述特征补偿包括高阶差分、倒谱均值减、倒谱方差规整、相关频谱(RelativeSpectral,Rasta)滤波,所述MFCC特征的维数为36维。
步骤103),基于预处理后的训练语句的MFCC特征计算每个训练语句的总变化量因子;具体计算方法如下:
假设第i(i=1…I)个说话人的第j(j=1…ni)个语句有L帧{y1,y2...,yL},其MFCC特征的维数为F,其中F=36;第i个说话人的第j个语句的Baum-Welch统计量的计算方法为:
N c = Σ t = 1 L P ( c | y t , Ω )
F c = Σ t = 1 L P ( c | y t , Ω ) · y t
其中,c为高斯索引,c=1,2,...,C,C为高斯数,取1024;Ω为全局背景模型(UBM)的方差;
基于UBM的均值中心化的一阶Baum-Welch统计量为:
F ~ c = Σ t = 1 L p ( c | y t , Ω ) ( y t - m c )
其中,mc为UBM第c个高斯分量的均值;
第i个说话人的第j个语句总变化量因子的计算公式为:
w ij = ( I + T t Σ 1 - 1 N ( u ) T ) - 1 T t Σ 1 - 1 F ~ ( u )
其中,N(u)为CF×CF维对角块矩阵,CF=C×F,相应的对角块为NcI;为CF×1超向量,由拼接而成;矩阵T表示总变化空间,Σ1为UBM模型的对角协方差阵,T和Σ1由EM算法训练得到。
步骤104),基于所有训练语句的总变化量因子生成PLDA模型;
所有训练语句的总变化量因子的均值为:
u = 1 N Σ i = 1 I Σ j = 1 n i w ij - - - ( 1 )
说话人矩阵为:
V = ( Σ i = 1 I Σ j = 1 n i ( w ij - u ) E [ z i t ] ) ( Σ i = 1 I E [ z i z i t ] ) - 1 - - - ( 2 )
PLDA模型的残差方差矩阵为:
Σ 2 = 1 N Σ i = 1 I Σ j = 1 n i [ ( w ij - u ) ( w ij - u ) t - VE [ z i ] ( w ij - u ) t ] - - - ( 3 )
其中,zi~N(0,I)为第i个说话人的隐含因子,E[zi]和是zi的后验分布的一阶期望和二阶期望,计算方法如下:
E [ z i ] = ( n i V t Σ 2 - 1 V + I ) - 1 Σ j = 1 n i V t Σ 2 - 1 ( w ij - u ) - - - ( 4 )
E [ z i z i t ] = ( n i V t Σ 2 - 1 V + I ) - 1 + E [ z i ] E [ z i ] t - - - ( 5 )
对PLDA模型参数V,Σ2的估计采用EM算法,计算过程为:
首先给定PLDA模型参数的初值V,Σ2,利用上述公式(4)、(5)计算一阶期望E[zi]和二阶期望再利用上述公式(2)和(3)更新参数V,Σ2,如此迭代一直到参数V,Σ2收敛到稳定值,一般迭代次数为5~10次。
所述PLDA模型包括:说话人矩阵V和PLDA模型的残差方差矩阵Σ2
参考图2,说话人聚类方法的流程包括:
步骤201),对待聚类说话人语句进行预处理;
所述待聚类说话人语句的个数为S。
步骤202),提取预处理后的待聚类说话人语句的MFCC特征;
步骤203),基于预处理后的待聚类说话人语句的MFCC特征计算所有待聚类说话人语句的总变化量因子;
步骤204),基于步骤104)生成的PLDA模型计算两两待聚类说话人语句的总变化量因子的PLDA距离;
基于步骤104)生成的PLDA模型中的参数V和Σ2,计算PLDA模型的几个辅助参数Σac、Σtot、Q、P:
Σac=VVt
Σtot=VVt2
Q = Σ tot - 1 - ( Σ tot Σ tot - 1 Σ ac - 1 ) - 1
P = Σ tot - 1 Σ ac ( Σ tot - Σ ac Σ tot - 1 Σ ac ) - 1
两个总变化量因子wp(p=1…S)和wq(q=1…S,q≠p)的PLDA距离计算方法如下:
d PLDA ( w p , w q ) = P ( w p , w q | θ same ) P ( w p , w q | θ diff ) ≡ w p t Qw p + w q t Qw q + 2 w p t Pw q - - - ( 6 )
其中,θsame表示两个语句由同一说话人产生的假设,θdiff表示两个语句由不同说话人产生的假设。
步骤205),基于PLDA距离确定的密度值选择初始的类别数目和每个类包含的语句;具体方法如下:
选择与第p(p=1…S)个语句总变化量因子的PLDA距离最小的K个语句,所选择的K个语句集合记为Bp,所述K可以通过经验和统计规律优选获得;计算K个PLDA距离的均值为:
d p = 1 K Σ q ∈ B p d PLDA ( w p , w q )
dp为第p个语句的的密度值,对应的K+1个语句的总变化量因子的均值为:
w ‾ p = 1 K + 1 ( w p + Σ q ∈ B p w q )
为上述K+1个语句的类中心;dp越小表明以为类中心时类的密集程度越高;
对S个密度值dp(p=1…S)按照从小到大进行排序,然后按顺序选择M个dp对应的类中心所述M可以通过经验和统计规律优选获得;对其中的第m(m=1…M)个类中心,从所有训练语句中选择与其PLDA距离最小的gm个语句划分为同一类,类表示为所包含的语句集合:Bm={gm个语句},gm取随机值,满足对应的类中心为类中包含的训练语句的总变化量因子的均值,计算方法为:
w ‾ m = 1 g m Σ q ∈ B m w q
所述初始类别数目为M,所述每个类包含的语句为集合Bm,其中m=1,…M;初始类中心为其中m=1,…M。
步骤206),通过聚类算法获取最终的类别数目和每个类包含的语句;
所述聚类算法为K均值(KMean)层次聚类算法或层次化凝聚聚类算法;
在本实施例中,通过KMean层次聚类算法获取最终的类别数目和每个类包含的语句,具体步骤如下:
步骤206-1),首先根据公式(6)计算第p(p=1…S)个语句总变化量因子与每个初始类中心(类别数目为M)的PLDA距离,将第p(p=1…S)个语句归为与这M个距离的最小值对应的类中心所属的类;假设每个类表示为语句集为Bm={lm个语句},其中m=1,…M;重新计算每个类的类中心:
w ‾ m = 1 l m Σ q ∈ B m w q , m = 1 , · · · M
令r=M。
步骤206-2),依次计算r个类中心的两两PLDA距离,并判断PLDA距离是否小于第一阈值;如果判断结果是肯定的,转入206-3);否则,转入206-4);
所述第一阈值可以通过经验和统计规律优选获得。
步骤206-3),合并类并计算合并后的类的类中心;转入步骤206-2);
所述合并类为将类中心的PLDA距离小于第一阈值的两个类合并为一个类,此时类别数目为r-1;
计算合并后类的类中心的方法为:
假如要合并的两个类为Bp,Bq,其中p<q,用合并后的类个语句}替换类Bp并删除类Bq,其它类和类中心保持不变;所述合并后类的类中心为:
w ‾ p = 1 l p + l p ( Σ p ∈ B p w p + Σ q ∈ B q w q )
令r=r-1;
步骤206-4),获取最终的类别数目和每个类包含的语句;
所述最终的类别数目为r;确定每个类包含的语句的方法为:
计算第p(p=1…S)个语句总变化量因子与每个类中心(类别数目为r)的PLDA距离,将第p(p=1…S)个语句归为与这r个距离的最小值对应的类中心所属的类;每个类对应的语句集为Bm={lm个语句},其中m=1,…r。
在其它实施例中,可以通过层次化凝聚聚类算法获取最终的类别数目和每个类包含的语句,具体的处理方法属于公知常识,在此不做赘述。
参考图3,说话人聚类系统包括:
前端处理模块,用于对待聚类说话人语句进行预处理;
特征提取模块,用于提取预处理后的待聚类说话人语句的MFCC特征;
总变化量因子计算模块,用于计算所有待聚类说话人语句的总变化量因子;
PLDA建模模块:用于采集一定数量的语音数据作为训练语句,并进行预处理;提取预处理后的训练语句的MFCC特征;基于预处理后的训练语句的MFCC特征计算每个训练语句的总变化量因子;基于所有训练语句的总变化量因子生成PLDA模型;
PLDA距离计算模块,用于基于PLDA模型两两计算待聚类说话人语句的总变化量因子的PLDA距离;
初始类选择模块,用于基于PLDA距离确定的密度值选择初始类,所述初始类包括初始类别数目和每个类包含的语句;
聚类模块,用于通过聚类算法获取最终的类别数目和每个类包含的语句。
需要指出的是,以上仅为本发明较佳实施例,并非用来限制本发明的实施范围,具有专业知识基础的技术人员,可以由以上实施实例实现本发明,因此凡是根据本发明的精神和原则之内所作的任何变化、修改与改进,都被本发明的专利范围所覆盖。即,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (5)

1.概率线性鉴别分析模型生成方法,包括如下步骤:
步骤101),采集一定数量的语音数据作为训练语句,并进行预处理;
步骤102),提取预处理后的训练语句的梅尔频率倒谱系数特征;
步骤103),基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子;
步骤104),基于所有训练语句的总变化量因子生成概率线性鉴别分析模型;所述概率线性鉴别分析模型包括:说话人矩阵和概率线性鉴别分析模型的残差方差矩阵。
2.说话人聚类方法,该方法基于权利要求1所述的概率线性鉴别分析模型生成方法得到的概率线性鉴别分析模型,该方法包括如下步骤:
步骤201),对待聚类说话人语句进行预处理;所述待聚类说话人语句的个数为S;
步骤202),提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征;
步骤203),基于预处理后的待聚类说话人语句的梅尔频率倒谱系数特征计算所有待聚类说话人语句的总变化量因子;
步骤204),基于所述的概率线性鉴别分析模型计算两两待聚类说话人语句的总变化量因子的概率线性鉴别分析距离;
步骤205),基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句;
步骤206),通过聚类算法获取最终的类别数目和每个类包含的语句。
3.根据权利要求2所述的说话人聚类方法,其特征在于,在步骤205)中,所述基于概率线性鉴别分析距离确定的密度值选择初始的类别数目和每个类包含的语句包括:
选择与第p(p=1…S)个语句总变化量因子的PLDA距离最小的K个语句,所选择的K个语句集合记为Bp,所述K可以通过经验和统计规律优选获得;计算K个PLDA距离的均值为:
d p = 1 K Σ q ∈ B p d PLDA ( w p , w q )
其中,wp为第p个语句的总变化量因子,wq为为第q个语句的总变化量因子;dp为第p个语句的的密度值;对应的K+1个语句的总变化量因子的均值为:
w ‾ p = 1 K + 1 ( w p + Σ q ∈ B q w q )
为上述K+1个语句的类中心;dp越小表明以为类中心时类的密集程度越高;
对S个密度值dp(p=1…S)按照从小到大进行排序,然后按顺序选择M个dp对应的类中心所述M可以通过经验和统计规律优选获得;对其中的第m(m=1…M)个类中心,从所有训练语句中选择与其PLDA距离最小的gm个语句划分为同一类,类表示为所包含的语句集合:Bm={gm个语句},gm取随机值,满足对应的类中心为类中包含的训练语句的总变化量因子的均值,计算方法为:
w ‾ m = 1 g m Σ q ∈ B m w q
所述初始类别数目为M,所述每个类包含的语句为集合Bm,其中m=1,…M;初始类中心为其中m=1,…M。
4.根据权利要求2所述的说话人聚类方法,其特征在于,在步骤206)中,所述聚类算法为K均值层次聚类算法或层次化凝聚聚类算法。
5.说话人聚类系统,其特征在于,所述的系统包含:
前端处理模块,用于对待聚类说话人语句进行预处理;
特征提取模块,用于提取预处理后的待聚类说话人语句的梅尔频率倒谱系数特征;
总变化量因子计算模块,用于计算所有待聚类说话人语句的总变化量因子;
概率线性鉴别分析建模模块:用于采集一定数量的语音数据作为训练语句,并进行预处理;提取预处理后的训练语句的梅尔频率倒谱系数特征;基于预处理后的训练语句的梅尔频率倒谱系数特征计算每个训练语句的总变化量因子;基于所有训练语句的总变化量因子生成概率线性鉴别分析模型;
概率线性鉴别分析距离计算模块,用于基于概率线性鉴别分析模型两两计算待聚类说话人语句的总变化量因子的概率线性鉴别分析距离;
初始类选择模块,用于基于PLDA距离确定的密度值选择初始类,所述初始类包括初始类别数目和每个类包含的语句;
聚类模块,用于通过聚类算法获取最终的类别数目和每个类包含的语句。
CN201410459009.9A 2014-09-10 2014-09-10 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 Active CN105469784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410459009.9A CN105469784B (zh) 2014-09-10 2014-09-10 一种基于概率线性鉴别分析模型的说话人聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410459009.9A CN105469784B (zh) 2014-09-10 2014-09-10 一种基于概率线性鉴别分析模型的说话人聚类方法及系统

Publications (2)

Publication Number Publication Date
CN105469784A true CN105469784A (zh) 2016-04-06
CN105469784B CN105469784B (zh) 2019-01-08

Family

ID=55607414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410459009.9A Active CN105469784B (zh) 2014-09-10 2014-09-10 一种基于概率线性鉴别分析模型的说话人聚类方法及系统

Country Status (1)

Country Link
CN (1) CN105469784B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297807A (zh) * 2016-08-05 2017-01-04 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN109859742A (zh) * 2019-01-08 2019-06-07 国家计算机网络与信息安全管理中心 一种说话人分段聚类方法及装置
CN111028847A (zh) * 2019-12-17 2020-04-17 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN111402898A (zh) * 2020-03-17 2020-07-10 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN112750440A (zh) * 2020-12-30 2021-05-04 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN113269464A (zh) * 2021-06-10 2021-08-17 中国科学院地理科学与资源研究所 一种生态恢复评估方法和生态恢复评估装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452704A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法
US20140059054A1 (en) * 2011-05-11 2014-02-27 Zhiyuan Liu Parallel generation of topics from documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452704A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
CN102201236A (zh) * 2011-04-06 2011-09-28 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
US20140059054A1 (en) * 2011-05-11 2014-02-27 Zhiyuan Liu Parallel generation of topics from documents
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN103035239A (zh) * 2012-12-17 2013-04-10 清华大学 一种基于局部学习的说话人识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEKSANDR SIZOV ET AL.: "Unifying Probabilistic Linear Discriminant Analysis Variants in Biometric Authentication", 《STRUCTURAL,SYNTACTIC,AND STATISTICAL PATTERN RECOGNITION》 *
JAN PRAZAK ET AL.: "Speaker diarization using PLDA-based speaker clustering", 《 PROCEEDINGS OF THE 6TH IEEE INTERNATIONAL CONFERENCE ON INTELLIGENT DATA ACQUISITION AND ADVANCED COMPUTING SYSTEMS》 *
MITCHELL MCLAREN ET AL.: "Source Normalization for Language-Independent Speaker Recognition using i-vectors", 《ODYSSEY 2012 THE SPEAKERS AND LANGUAGE RECOGNITION WORKSHOP》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297807A (zh) * 2016-08-05 2017-01-04 腾讯科技(深圳)有限公司 训练声纹识别系统的方法和装置
US10854207B2 (en) 2016-08-05 2020-12-01 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training voiceprint recognition system
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108694949A (zh) * 2018-03-27 2018-10-23 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN108694949B (zh) * 2018-03-27 2021-06-22 佛山市顺德区中山大学研究院 基于重排序超向量和残差网络的说话人识别方法及其装置
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN109859742A (zh) * 2019-01-08 2019-06-07 国家计算机网络与信息安全管理中心 一种说话人分段聚类方法及装置
CN109859742B (zh) * 2019-01-08 2021-04-09 国家计算机网络与信息安全管理中心 一种说话人分段聚类方法及装置
CN111028847A (zh) * 2019-12-17 2020-04-17 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN111028847B (zh) * 2019-12-17 2022-09-09 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN111402898A (zh) * 2020-03-17 2020-07-10 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111402898B (zh) * 2020-03-17 2023-07-25 北京远鉴信息技术有限公司 音频信号处理方法、装置、设备及存储介质
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111599346B (zh) * 2020-05-19 2024-02-20 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN112750440A (zh) * 2020-12-30 2021-05-04 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN112750440B (zh) * 2020-12-30 2023-12-29 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN113269464A (zh) * 2021-06-10 2021-08-17 中国科学院地理科学与资源研究所 一种生态恢复评估方法和生态恢复评估装置
CN113269464B (zh) * 2021-06-10 2024-04-23 中国科学院地理科学与资源研究所 一种生态恢复评估方法和生态恢复评估装置

Also Published As

Publication number Publication date
CN105469784B (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN105469784A (zh) 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN104036774B (zh) 藏语方言识别方法及系统
Morrison A comparison of procedures for the calculation of forensic likelihood ratios from acoustic–phonetic data: Multivariate kernel density (MVKD) versus Gaussian mixture model–universal background model (GMM–UBM)
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN101702314B (zh) 基于语种对的鉴别式语种识别模型建立方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN101751921A (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN104217721B (zh) 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN102789779A (zh) 一种语音识别系统及其识别方法
CN108520752A (zh) 一种声纹识别方法和装置
CN107093422A (zh) 一种语音识别方法和语音识别系统
Kumar et al. Significance of GMM-UBM based modelling for Indian language identification
Vydana et al. Improved emotion recognition using GMM-UBMs
Shahin et al. Emirati-accented speaker identification in each of neutral and shouted talking environments
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及系统
Paul et al. Automated speech recognition of isolated words using neural networks
CN114360553B (zh) 一种提升声纹安全性的方法
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
CN104240699A (zh) 一种简单有效的短语语音识别方法
Iqbal et al. Voice Recognition using HMM with MFCC for Secure ATM
KR100551953B1 (ko) 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant