CN102486922B - 说话人识别方法、装置和系统 - Google Patents

说话人识别方法、装置和系统 Download PDF

Info

Publication number
CN102486922B
CN102486922B CN201010572201.0A CN201010572201A CN102486922B CN 102486922 B CN102486922 B CN 102486922B CN 201010572201 A CN201010572201 A CN 201010572201A CN 102486922 B CN102486922 B CN 102486922B
Authority
CN
China
Prior art keywords
frame
speaker
hybrid models
gauss hybrid
maximum likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010572201.0A
Other languages
English (en)
Other versions
CN102486922A (zh
Inventor
王磊
鲁耀杰
史达飞
尹悦燕
郑继川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201010572201.0A priority Critical patent/CN102486922B/zh
Publication of CN102486922A publication Critical patent/CN102486922A/zh
Application granted granted Critical
Publication of CN102486922B publication Critical patent/CN102486922B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请提供一种使用帧选择和自适应高斯混合模型选择的说话人识别方法,包括步骤:a.从输入语音文件中抽取语音帧的声学特征;b.利用抽取的声学特征通过使用语音检测技术过滤掉不包含人类语音的帧;c.对于步骤b得到的帧,进行帧选择以利用说话人语音帧的声学特征,选择对不同说话人区分度高的帧,并过滤掉区分度低的帧;d.利用步骤c中保留的帧的声学特征,选择对不同说话人区分度高的高斯混合模型,并过滤掉区分度低的高斯混合模型;e.计算步骤c中保留的帧与步骤d保留的每个说话人的高斯混合模型的最大似然得分,并根据每个说话人的高斯混合模型最大似然得分来产生说话人识别结果。由于进行了帧选择和模型选择,减少了说话人识别的计算量。

Description

说话人识别方法、装置和系统
技术领域
本发明涉及一种说话人识别方法、装置和系统,更具体地说,涉及进行说话人识别、说话人鉴别、说话人验证、和说话人分割的使用帧选择和自适应高斯混合模型选择的说话人识别方法、装置和系统。
背景技术
在说话人识别系统中,一个已知的例子US7496510 B2描述了如何对多人的语音对话信息进行分割和索引。也就是说,它描述了一种从语音信息中抽取说话人信息的方法。该申请公开的说话人索引和本申请比较相似。但是说话人索引技术只是把输入语音划分成语音和非语音,并且它是把所有的语音帧全部作为识别模块的输入。它没有进行帧选择,和去除混淆帧的步骤。
另一个已知的例子US7574359 B2描述了怎么从训练集中选择语音资料来训练说话人模型。也就是说它是动态地自适应地选择合适的训练数据。它和本申请有些相似,但是它关注的是训练数据。它使用了选择训练数据的方法去训练模型,并且使用了混合权重来表示训练数据在模型中的贡献。它并没有关注识别过程,特别是本申请中所使用的在高斯混合模型说话人识别过程中选择高斯混合模型的过程。
发明内容
本发明的另外方面和优点部分将在后面的描述中阐述,还有部分可从描述中明显地看出,或者可以在本发明的实践中得到。
说话人识别系统是在给定语料中找到当前正在说话的说话人。所以第一步就是选择合适的测试数据。
在当前的说话人识别系统中大多把数据的测试数据分为:语音和非语音,然后使用语音部分进行说话人识别。但是即便选择了语音进行识别,他们也忽略了语音对于不同测试语音帧的区分度特性是不同的。因为语音是一个连续信号,发音器官需要一段时间从一个音节变到另外的音节。所以对于一些语音帧,特别是出于发音变化区域的帧,是不稳定的,并且对于最终的识别结果会起到混淆的作用。
第二个需要解决的问题是:在说话人识别计算模型得分的时候,并不是所有的高斯混合模型放到最终的结果里面都是合适的。因为一个高斯混合模型是一种声音的集合,对于一个给定的帧,它只会同几个高斯混合相似。所以其他的混合在计算的时候也就不需要了。
但是根据对现有技术的调查,在说话人识别领域没有任何针对上述问题的解决方案。但是这两个问题在很大程度上对说话人识别结果有着很大的影响,是不能忽略的。如果这两个问题得以解决,那么说话人识别的精度肯定会有所提高的。
本申请包含了解决上述问题的方法——通过选择测试语音帧和高斯混合模型来增加基于GMM-UBM(Gaussian mixture model-Universal backgroundmodels,高斯混合模型-全局背景模型)的说话人系统的识别的速度和精度。
本申请的基本思想在于以下几个方面:
●在计算说话人得分前去掉区分度小的帧;
●具有较低似然得分的高斯混合不应参与最终的判定;以及
●将未选择高斯混合的权重重新分配到那些保留的高斯混合中。
本申请公开了一种使用帧选择和自适应高斯混合模型选择的说话人识别方法,包括步骤:a.从输入语音文件中抽取语音帧的声学特征;b.利用抽取的声学特征通过使用语音检测技术过滤掉不包含人类语音的帧;c.对于步骤b得到的帧,进行帧选择以利用说话人语音帧的声学特征,选择对不同说话人区分度高的帧,并过滤掉区分度低的帧;d.利用步骤c中保留的帧的声学特征,选择对不同说话人区分度高的高斯混合模型,并过滤掉区分度低的高斯混合模型;e.计算步骤c中保留的帧与步骤d保留的每个说话人的高斯混合模型的最大似然得分,并根据每个说话人的高斯混合模型最大似然得分来产生说话人识别结果,步骤c包括步骤:对于步骤b得到的帧中的每个帧,计算每个高斯混合和每个帧的最大似然得分以及统一背景模型和每个帧的最大似然得分;根据所述最大似然得分,针对每个帧计算每个高斯混合模型和统一背景模型的似然熵;以及当步骤b得到的帧中的某一个的似然熵大于似然熵阈值时,丢弃该帧。
本申请还公开了一种使用帧选择和自适应高斯混合模型选择的说话人识别装置,包括:帧选择单元,利用说话人语音帧的声学特征,选择对不同说话人区分度高的帧,并过滤掉区分度低的帧;高斯混合模型选择单元,利用来自帧选择单元的帧的声学特征,选择对不同说话人区分度高的高斯混合模型,并过滤掉区分度低的高斯混合模型;和说话人识别单元,计算帧选择单元保留的帧与高斯混合模型选择单元保留的每个说话人的高斯混合模型的最大似然得分,并根据每个说话人的高斯混合模型最大似然得分来产生说话人识别结果,其中,所述帧选择单元包括:计算单元,对于每个帧,计算每个高斯混合和每个帧的最大似然得分以及统一背景模型和每个帧的最大似然得分;并根据所述最大似然得分,针对每个帧计算每个高斯混合模型和统一背景模型的似然熵;以及选择单元,当从计算单元得到的帧的似然熵大于似然熵阈值时,丢弃该帧。
本申请还公开了一种说话人识别系统,包括:输入设备,用于接收说话人语音测试帧;内存储器,包含:特征抽取模块,从说话人语音测试帧和训练数据集中抽取声学特征;模型训练模块,使用抽取的训练数据集的声学特征进行模型训练得到说话人模型;和说话人识别模块,用于使用抽取的语音测试帧的声学特征得到说话人识别结果,包含如上所述的说话人识别装置;外存储器,包含:说话人语音帧,存储由输入设备接收的说话人语音测试帧;说话人训练数据库,存储说话人训练数据集;和说话人模型数据库,存储训练好的说话人模型;处理器,执行内存储器中的各个模块的运算;以及输出设备,输出说话人识别结果。
本申请还公开了一种说话人识别系统,包括:数据存储系统,用于存储说话人语音测试帧、说话人训练数据集和训练好的说话人模型数据库;特征抽取系统,用于从语音测试帧和训练数据集抽取声学特征,并对所述声学特征进行归一化;以及训练和识别系统,包含:训练模块,用于使用抽取的训练数据的声学特征进行模型训练得到说话人模型;和识别模块,用于使用抽取的语音测试帧的声学特征得到说话人识别结果,包含包含如上所述的说话人识别装置,其中所有系统之间的数据是通过网络设备传输。
本申请中的在基于GMM-UBM的说话人识别系统中,使用并实现了帧和自适应高斯混合模型的选择方法不仅在说话人识别前去掉了非语音帧,而且通过聚类的方法去掉了区分度小的语音帧。这样在说话人识别过程中我们就能够比没有进行帧选择的方法得到更精确的结果。
另外由于进行了高斯混合模型选择,本申请也能够比没有进行高斯混合选择的系统得到更精确的结果。
最后,由于进行了帧选择和模型选择,这样就可以减少说话人识别的计算量,从而提高了说话人识别的速度。
附图说明
通过结合附图对本发明的优选实施例进行详细描述,本发明的上述和其他目的、特性和优点将会变得更加清楚,其中相同的标号指定相同结构的单元,并且在其中:
图1示意性地示出了根据本发明实施例的说话人识别系统功能框图;
图2示意性地示出了根据本发明实施例的说话人模型训练流程图;
图3示意性地示出了根据本发明实施例的在线识别过程流程图;
图4示出了根据本发明实施例的集中式部署;以及
图5示出了根据本发明实施例的分布式部署。
具体实施方式
下面将参照示出本发明实施例的附图充分描述本发明。然而,本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。在附图中,为了清楚起见放大了组件。
图1示意性地示出了根据本发明实施例的说话人识别系统功能框图。
图1示出了根据本发明实施例的系统框图。说话人识别系统被分为2个主要的模块:训练模块10和识别模块11。
在训练模块中,首先我们选择大量的说话人语料去训练UBM(全局背景模型)模型。然后我们再选择特定的说话人和已经训练好的UBM模型来训练说话人模型。然后把训练好的说话人模型存入数据库备用。
识别模块是实时进行的,首先接受测试说话人语音;然后计算该语音的每帧同数据库中每个说话人模型的相似程度;最后我们根据相似程度得分对结果进行排序。
训练模块10包括以下组件:
a)UBM模型的训练数据101:UBM模型是和特定说话人无关的高斯混合模型,他代表了所有说话人的共性。要训练UBM模型,需要很大量的说话人语料,这样我们才能训练出说话人的共性模型。
b)UBM模型训练单元13:使用说话人模型训练数据我们使用最大似然估法就可以训练说话人的UBM模型了。
c)说话人I~N的训练数据1021~102N:这些数据是用来训练特定说话人模型的。使用这些训练数据并且通过UBM模型适应,我们就可以得到特定说话人的训练模型了。
d)说话人模型训练单元104:使用UBM模型105和说话人训练数据1021~102N,通过说话人和UBM模型的适应法,能够得到特定说话人模型1061~106N。
e)说话人模型数据库107:训练好以后的说话人模型,将它存储到数据库中供以后使用。
训练模块10的具体步骤将在下文中结合图2进一步描述。
识别模块11包括以下组件:
a)帧选择单元111:帧选择单元111用于在计算得分之前,从说话人测试语音数据中选出语音帧中对不同说话人区分度高的帧,去掉区分度低的帧。
b)高斯混合模型选择单元112:高斯混合模型选择单元112用于选择出对于不同说话人区分度高的高斯混合模型,去掉区分度低的模型。
c)说话人识别单元113:用于通过计算说话人帧与说话人模型之间的最大似然度得分,然后进行排序,进而得到说话人识别结果。
识别模块11的具体步骤将在下文中结合图3进一步描述。
图2示意性地示出了根据本发明实施例的说话人模型训练流程图。
如图2所示,其展示了说话人模型的训练流程。
步骤201:读取一个说话人语音文件。从训练数据集中读取一个语音文件,如果没有新文件则结束,否则执行步骤202;
步骤202:特征抽取。从说话人语音文件中抽取声学特征,这个过程把数字语音信号转化成了一个高维向量,这个向量描述了说话人的特征。例如,我们可以选取MFCC(Mel Frequency Cepstral Coefficients,梅尔到频谱系数)作为声学特征的一种。但本领域技术人员应该理解,也可选取其他语音特征。
步骤203:模型训练。得到语音特征以后,接下来使用语音特征进行模型训练。这里我们选取使用语音特征训练GMM模型。目前大多数说话人识别系统都是采用了GMM(高斯混合模型)特征进行说话人识别和分类的。一个GMM模型包含了一组不同分布的高斯模型,这些高斯模型用来描述语音向量的分布特征。对于一个高斯混合模型,从说话人语音抽取出的特征矢量xn对应的似然率可以用M个高斯分量来表示:
p ( x n | N ( x n , μ i , Σ i ) ) = Σ i = 1 M w i 2 π | Σ i | exp { - ( x n - μ i ) T Σ i - 1 ( x n - μ i ) 2 } - - - ( 1 )
这里M是高斯混合模型的个数,其他分布参数,如参数wi、ui、和∑i分别代表了第ith高斯模型的权重、均值和协方差矩阵,i是从1到M的自然数。
在高斯混合模型中,GMM模型的主要问题为训练问题,亦即参数估计问题数估计,使得GMM模型和训练数据之间达到最佳的匹配程度。GMM的参数估计方法有多种方法,其中应用最广泛的是基于最大似然准则(MaximumLikelihood Estimation,MLE)的方法。最大似然估计的主要思想就是要找到使得GMM模型对于训练语料的似然度最大的模型参数λ。给定一组特征向量,我们可以通过最大似然估计的方法对上述参数进行训练。
图3示意性地示出了根据本发明实施例的在线识别过程流程图。
如图3所示,其展示了说话人在线识别的流程图。
步骤301:预处理。预处理过程读取说话人测试语音数据并且抽取声学特征供后继步骤使用;
步骤302:帧选择。给定一个语音帧,我们计算该帧在每个UBM混合上面的最大似然得分和似然熵(这里我们也可以选择其他能够表示该帧区分度的参数)。根据预设阈值来决定本帧是应该丢掉还是保留,该预设阈值是经验训练值,可根据实际情况,由用户确定;
步骤303:高斯混合模型选择。对于每个高斯混合模型,计算累积最大似然得分。对累计最大似然得分进行排序。根据预设的阈值来决定是否选取该高斯混合模型。没有被选择的模型的权重,按照比例分配给被选中的似然模型。
步骤304:说话人识别。计算每个说话人模型与说话人测试数据的似然度,然后选择得分最高的一个作为最终结果。
下面,将详细描述图3中步骤的具体实现。
在预处理步骤301中,从输入语音文件(即,说话人测试语音数据)中抽取帧的声学特征,其中,该声学特征可以是抽取频谱特征的方法,或者是其他一些可以抽取声学特征的方法,例如MFCC(梅尔频标倒谱参数,Mel-frequency cepstrum coefficient)、LPC(线性预测系数,linear predictioncoefficient)、LPCC(线性预测倒谱系数,linear prediction cepstrum coefficient)等。
接着,利用声学特征通过使用语音检测技术过滤掉不包含人类语音的帧;其中所提到的语音检测技术可以使用SVM(支持向量机),或者其他可以区别语音与非语音的分类方法。
帧选择步骤302过滤掉对不同说话人识别度贡献小的帧,根据如下方法判定说话人测试帧的区分度:
对于经过步骤301处理后输出的语音中的一个帧,计算每个高斯混合和该帧的最大似然得分以及UBM(统一背景模型)和该帧的最大似然得分。
根据上述计算的最大似然得分,通过公式2计算每个高斯混合模型以及UBM的似然熵H(X):
H ( X ) = - Σ i = 1 n p ( x i ) log b p ( x i ) - - - ( 2 )
其中:n为说话人和UBM中所有高斯混合的总数;b为预设常数,例如可以将b设置为2。
上述似然熵越大,则帧的区分度越小;相反,如果上述似然熵越小,则帧具有更多的区分度信息。
如果最大似然熵大于一个预设的阈值,则考虑该帧具有较少的区分度,并且该帧将不用于计算最终的分数,即丢弃该帧。上述的预设的似然熵阈值为经验训练值,取值在[0,1]范围内,该阈值例如可以设置为0.5。
上面的步骤302中采用了似然熵来判断帧的区分度,本领域技术人员应该理解,也可以使用其他能够对说话人区别度的大小进行区分的其他属性。
在步骤303,对于执行完步骤302的帧选择之后保留下来的帧,判定高斯混合模型的数量,并确定哪个混合模型将被保留用于产生说话人识别结果。
首先,计算每个说话人的高斯混合模型和该帧的最大似然得分与UBM(统一背景模型)模型和该帧的最大似然得分之差;UBM(统一背景模型)是一个高斯混合模型,它是由许多说话人的GMM高斯混合模型进行训练而得到的表示了许多说话人的共同特性的背景模型。
接着,对于每个高斯混合模型,计算累计最大似然得分(即,每个帧和该高斯混合模型的最大似然得分的相加和),并对每个高斯混合模型的累计最大似然得分进行排序。
使用一个预设的累积和阈值决定保留哪些高斯混合模型,即,保留累积最大似然得分大于预设的累积和阈值的高斯混合模型。该预设的累积和阈值是经验训练值,用户可以根据实际情况进行选取。
上面的步骤303中采用了高斯混合模型的累积最大似然得分来判断帧的区分度,本领域技术人员应该理解,也可以使用其他能够对说话人区别度的大小进行区分的其他属性。
对于没有选中的高斯混合模型,将它们的权重根据最大似然得分排序重新分配给选中的高斯混合模型。高斯混合模型排序的位置越靠前,则重新分配的权重越大:
假设最终选中了X个高斯混合模型,则第n个高斯混合模型重新分配的权重如公式3所示。其中,Rank是高斯混合模型最大似然得分的排名,Rank为自然数。对于最大似然得分最大的高斯混合模型,其Rank为1;其次为2;以此类推;对于最大似然得分最小的高斯混合模型,其Rank为X。
在步骤304中,利用重新分配的权重值,计算步骤302中保留的帧与步骤303保留的每个说话人的高斯混合模型的最大似然得分,即,使用选中的帧与相应的选中的说话人的高斯混合模型以及重新分配的权重值来计算的最大似然得分。
根据每个说话人的高斯混合得分来产生说话人识别结果,即高斯混合模型的最大似然得分最高的作为说话人最终的识别结果。
2)系统部署图
本申请中的说话人一共有两种部署方式:一种是集中部署如图4所示,另一种是分布式部署如图5所示。
图4示出了根据本发明实施例的集中式部署。
在集中部署的场景下,特征抽取模块4041、模型训练模块4042和说话人识别模块4043都是部署在一台独立的电脑上面的。而数据文件包括说话人测试语音数据4051、说话人训练数据4052和说话人模型数据库4053也是存储在这台电脑的。输入设备402接收说话人测试语音数据。输出设备403把说话人识别结果列表展示给客户。处理器401执行内存中的算法。所有模块和设备靠系统总线进行通信。
图5示出了根据本发明实施例的分布式部署。
在分布式部署的情况,存在3种类型的系统:
●数据存储系统。它的任务是存储说话人待测试语音和训练好的说话人模型数据库,通过这个系统来向其他系统提供数据。
●特征抽取系统。它的任务是从语音数据中抽取声学特征,然后把这些特征通过网络设备递给训练和识别系统。
●训练和识别系统。它的任务是通过抽取的语音特征训练说话人模型和在线识别说话人,因为这些任务是独立的,所以不同的系统之间可以平行工作。训练和测试系统可以从特征抽取系统中得到抽取好的语音特征。这些特征数据是通过网络设备传输的。
所有的系统之间是通过网络设备进行通信的。
本申请中在基于GMM-UBM的说话人识别系统中,使用并实现了帧和自适应高斯混合模型的选择方法不仅在说话人识别前去掉了非语音帧,而且通过聚类的方法去掉了区分度小的语音帧。这样在说话人识别过程中本申请能够比没有进行帧选择的方法得到更精确的结果。
另外由于进行了高斯混合模型选择,本申请也能够比没有进行高斯混合选择的系统得到更精确的结果。
最后,由于进行了帧选择和模型选择,这样就可以减少说话人识别的计算量,从而提高了说话人识别的速度。
这里参照支持根据本发明实施例的方法、装置(系统)和计算机程序产品的方框图和流程图描述本发明示例性实施例。应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图的方框组合可以通过计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得通过计算机或其他可编程数据处理装置的处理器执行的指令创建实现流程图和/或方框图方框中指定功能/动作的手段。
这些计算机程序指令也可以存储在计算机可读存储器中,可以引导计算机或其他可编程数据处理装置以特定方式运行,使得存储在计算机可读存储器中的指令产生包括实现流程图和/或方框图方框中指定功能/动作的指令手段的制造物品。
计算机程序指令还可以加载到计算机或其他可编程数据处理装置上,导致在计算机或其他可编程装置上执行一系列操作步骤来产生计算机实现的处理,使得计算机或其他可编程装置上执行的指令提供实现流程图和/或方框图方框中指定功能/动作的步骤。每个方框可以表示代码模块、片断或部分,其包括一个或多个用来实现指定逻辑功能的可执行指令。还应当注意,在其他实现中,方框中标出的功能可能不按图中标出的顺序发生。例如,根据所涉及的功能,连续示出的两个方框可能实际上基本上并发地执行,或者方框有时可能以相反的顺序执行。
虽然结合目前被认为是最实际和最优的实施例描述了本发明,但本领域技术人员应当理解本发明不限于所公开的实施例,相反,本发明旨在覆盖所附权利要求的精神和范畴之内包括的各种各样的修改和等价结构。

Claims (14)

1.一种使用帧选择和自适应高斯混合模型选择的说话人识别方法,包括步骤:
a.从输入语音文件中抽取语音帧的声学特征;
b.利用抽取的声学特征通过使用语音检测技术过滤掉不包含人类语音的帧;
c.对于步骤b得到的帧,进行帧选择以利用说话人语音帧的声举特征,选择对不同说话人区分度高的帧,并过滤掉区分度低的帧;
d.利用步骤c中保留的帧的声学特征,选择对不同说话人区分度高的高斯混合模型,并过滤掉区分度低的高斯混合模型;
e.计算步骤c中保留的帧与步骤d保留的每个说话人的高斯混合模型的最大似然得分,并根据每个说话人的高斯混合模型最大似然得分来产生说话人识别结果,
步骤c包括步骤:
对于步骤b得到的帧中的每个帧,计算每个高斯混合和每个帧的最大似然得分以及统一背景模型和每个帧的最大似然得分;
根据所述最大似然得分,针对每个帧计算每个高斯混合模型和统一背景模型的似然熵;以及
当步骤b得到的帧中的某一个的似然熵大于似然熵阈值时,丢弃该帧。
2.如权利要求1所述的方法,其中,似然熵阈值设置为0.5。
3.如权利要求1所述的方法,其中,步骤d包括步骤:
对于每个说话人的高斯混合模型,计算每个高斯混合模型根据步骤c保留的帧的最大似然得分与统一背景模型根据步骤c保留的帧的最大似然得分之差;
计算针对每个高斯混合模型的累积最大似然得分;
对每个高斯混合模型的累积最大似然得分进行排序;以及
保留累积最大似然得分大于累积和阈值的高斯混合模型。
4.如权利要求3所述的方法,其中,步骤d进一步包括步骤:
采用如下公式将没有选中的高斯混合模型的权重根据选中的高斯混合模型的最大似然得分排序重新分配给选中的高斯混合模型,
其中,X代表步骤d最终选中的高斯混合模型数量,Rank是高斯混合模型最大似然得分的排名,Rank为自然数,对于最大似然得分最大的高斯混合模型,其Rank值为1;其次为2;最大似然得分最小的高斯混合模型,其Rank值为X。
5.如权利要求1所述的方法,其中,步骤e包括:根据重新分配的权重,计算步骤c中保留的帧与步骤d保留的每个说话人的高斯混合模型的最大似然得分,并将高斯混合模型的最大似然得分最高的说话人作为最终的识别结果。
6.如权利要求1-5中任一权利要求所述的方法,其中,步骤a中所提到的声学特征可以是抽取频谱特征的方法、梅尔频标倒谱参数的方法、线性预测系数的方法、或线性预测倒谱系数的方法。
7.如权利要求1-5中任一权利要求所述的方法,其中,步骤b中所提到的语音检测技术可以使用支持向量机SVM技术。
8.一种使用帧选择和自适应高斯混合模型选择的说话人识别装置,包括:
帧选择单元,利用说话人语音帧的声学特征,选择对不同说话人区分度高的帧,并过滤掉区分度低的帧;
高斯混合模型选择单元,利用来自帧选择单元的帧的声学特征,选择对不同说话人区分度高的高斯混合模型,并过滤掉区分度低的高斯混合模型;知
说话人识别单元,计算帧选择单元保留的帧与高斯混合模型选择单元保留的每个说话人的高斯混合模型的最大似然得分,并根据每个说话人的高斯混合模型最大似然得分来产生说话人识别结果,
其中,所述帧选择单元包括:
计算单元,对于每个帧,计算每个高斯混合和每个帧的最大似然得分以及统一背景模型和每个帧的最大似然得分;并根据所述最大似然得分,针对每个帧计算每个高斯混合模型和统一背景模型的似然熵;以及
选择单元,当从计算单元得到的帧的似然熵大于似然熵阈值时,丢弃该帧。
9.如权利要求8所述的装置,其中,似然熵阈值设置为0.5。
10.如权利要求8所述的装置,其中,所述高斯混合模型选择单元包括:
计算单元,对于每个说话人的高斯混合模型,计算每个高斯混合根据所述帧选择单元保留的帧的最大似然得分与统一背景模型根据所述帧选择单元保留的帧的最大似然得分之差;并计算针对每个高斯混合模型的累积最大似然得分;和
选择单元,对每个高斯混合模型的累积最大似然得分进行排序;并保留累积最大似然得分大于累积和阈值的高斯混合模型。
11.如权利要求10所述的装置,其中,所述高斯混合模型选择单元进一步包括:
权重重新分配单元,采用如下公式将没有选中的高斯混合模型的权重根据选中的高斯混合模型的最大似然得分排序重新分配给选中的高斯混合模型,
其中,X代表步骤d最终选中的高斯混合模型数量,Rank是高斯混合模型最大似然得分的排名,Rank为自然数,对于最大似然得分最大的高斯混合模型,其Rank值为1;其次为2;最大似然得分最小的高斯混合模型,其Rank值为X。
12.如权利要求8所述的装置,其中,所述说话人识别单元包括:
重新计算单元,根据重新分配的权重,计算所述帧选择单元保留的帧与所述高斯混合模型选择单元保留的每个说话人的高斯混合模型的最大似然得分,并将高斯混合模型的最大似然得分最高的说话人作为最终的识别结果。
13.一种说话人识别系统,包括:
输入设备,用于接收说话人语音测试帧;
内存储器,包含:
特征抽取模块,从说话人语音测试帧和训练数据集中抽取声学特征;
模型训练模块,使用抽取的训练数据集的声学特征进行模型训练得到说话人模型;和
说话人识别模块,用于使用抽取的语音测试帧的声学特征得到说话人识别结果,包含如权利要求8-12所述的装置;
外存储器,包含:
说话人语音帧,存储由输入设备接收的说话人语音测试帧;
说话人训练数据库,存储说话人训练数据集;和
说话人模型数据库,存储训练好的说话人模型;
处理器,执行内存储器中的各个模块的运算;以及
输出设备,输出说话人识别结果。
14.一种说话人识别系统,包括:
数据存储系统,用于存储说话人语音测试帧、说话人训练数据集和训练好的说话人模型数据库;
特征抽取系统,用于从语音测试帧和训练数据集抽取声学特征,并对所述声学特征进行归一化;以及
训练和识别系统,包含:
训练模块,用于使用抽取的训练数据的声学特征进行模型训练得到说话人模型;和
识别模块,用于使用抽取的语音测试帧的声学特征得到说话人识别结果,包含如权利要求8-12所述的装置,
其中所有系统之间的数据是通过网络设备传输。
CN201010572201.0A 2010-12-03 2010-12-03 说话人识别方法、装置和系统 Expired - Fee Related CN102486922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010572201.0A CN102486922B (zh) 2010-12-03 2010-12-03 说话人识别方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010572201.0A CN102486922B (zh) 2010-12-03 2010-12-03 说话人识别方法、装置和系统

Publications (2)

Publication Number Publication Date
CN102486922A CN102486922A (zh) 2012-06-06
CN102486922B true CN102486922B (zh) 2014-12-03

Family

ID=46152405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010572201.0A Expired - Fee Related CN102486922B (zh) 2010-12-03 2010-12-03 说话人识别方法、装置和系统

Country Status (1)

Country Link
CN (1) CN102486922B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019097217A1 (en) * 2017-11-14 2019-05-23 Cirrus Logic International Semiconductor Limited Audio processing

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810192B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 语音识别方法及其系统
KR102423302B1 (ko) * 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
CN105895089A (zh) * 2015-12-30 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN105976819A (zh) * 2016-03-23 2016-09-28 广州势必可赢网络科技有限公司 基于Rnorm得分归一化的说话人确认方法
CN109313902A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
CN107358947A (zh) * 2017-06-23 2017-11-17 武汉大学 说话人重识别方法及系统
CN107545898B (zh) * 2017-08-07 2020-07-14 清华大学 一种区分说话人语音的处理方法及装置
CN108091321B (zh) * 2017-11-06 2021-07-16 芋头科技(杭州)有限公司 一种语音合成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534597A (zh) * 2003-04-01 2004-10-06 利用具有转换状态空间模型的变化推理的语音识别方法
CN101178897A (zh) * 2007-12-05 2008-05-14 浙江大学 利用基频包络剔除情感语音的说话人识别方法
EP2048656A1 (en) * 2007-10-10 2009-04-15 Harman/Becker Automotive Systems GmbH Speaker recognition
CN101447182A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 一种快速可在线应用的声道长度归整方法
CN101562012A (zh) * 2008-04-16 2009-10-21 创而新(中国)科技有限公司 语音分级测定方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1534597A (zh) * 2003-04-01 2004-10-06 利用具有转换状态空间模型的变化推理的语音识别方法
EP2048656A1 (en) * 2007-10-10 2009-04-15 Harman/Becker Automotive Systems GmbH Speaker recognition
CN101447182A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 一种快速可在线应用的声道长度归整方法
CN101178897A (zh) * 2007-12-05 2008-05-14 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101562012A (zh) * 2008-04-16 2009-10-21 创而新(中国)科技有限公司 语音分级测定方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019097217A1 (en) * 2017-11-14 2019-05-23 Cirrus Logic International Semiconductor Limited Audio processing

Also Published As

Publication number Publication date
CN102486922A (zh) 2012-06-06

Similar Documents

Publication Publication Date Title
CN102486922B (zh) 说话人识别方法、装置和系统
CN105261357B (zh) 基于统计模型的语音端点检测方法及装置
Thiolliere et al. A hybrid dynamic time warping-deep neural network architecture for unsupervised acoustic modeling.
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN111243602B (zh) 基于性别、国籍和情感信息的声纹识别方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN106649644B (zh) 一种歌词文件生成方法及装置
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN104765996B (zh) 声纹密码认证方法及系统
CN101923855A (zh) 文本无关的声纹识别系统
CN109584884A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
CN106548775A (zh) 一种语音识别方法和系统
CN107358947A (zh) 说话人重识别方法及系统
CN113284513A (zh) 基于音素时长特征的虚假语音检测方法及装置
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
Velichko et al. Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework.
JP5626221B2 (ja) 音響画像区間分類装置および方法
CN1253851C (zh) 基于事先知识的说话者检验及说话者识别系统和方法
JP5083951B2 (ja) 音声処理装置およびプログラム
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Schuller et al. Incremental acoustic valence recognition: an inter-corpus perspective on features, matching, and performance in a gating paradigm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141203

Termination date: 20171203