CN101552004B - 一种集内说话者的识别方法 - Google Patents

一种集内说话者的识别方法 Download PDF

Info

Publication number
CN101552004B
CN101552004B CN2009100720196A CN200910072019A CN101552004B CN 101552004 B CN101552004 B CN 101552004B CN 2009100720196 A CN2009100720196 A CN 2009100720196A CN 200910072019 A CN200910072019 A CN 200910072019A CN 101552004 B CN101552004 B CN 101552004B
Authority
CN
China
Prior art keywords
speaker
characteristic information
mark
collection
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100720196A
Other languages
English (en)
Other versions
CN101552004A (zh
Inventor
韩纪庆
张光成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2009100720196A priority Critical patent/CN101552004B/zh
Publication of CN101552004A publication Critical patent/CN101552004A/zh
Application granted granted Critical
Publication of CN101552004B publication Critical patent/CN101552004B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种集内说话者的识别方法,涉及语音识别技术领域。它解决了现有文本无关说话人识别技术中,误识较多的问题。本发明首先对提取的特征信息采用集内外辨识模块进行判断,将判定为集外说话人的特征信息放弃,只对判定为集内的特征信息进行具体说话人的判断,减少了说话人识别系统的工作量,提高了判断速度。本发明还对判定为某一说话人的特征信息,采用该说话人的冒认者模型作进一步验证判断,最终获得所述特征信息所对应的说话人信息。提高了特征信息识别的准确率。本发明的方法适用于语音识别技术领域。

Description

一种集内说话者的识别方法
技术领域
本发明涉及语音识别技术,具体涉及一种说话人识别技术和说话人拒识方法。具体是一种在文本无关说话人识别过程中减少说话人误识并提高识别速度的方法。
背景技术
说话人识别是利用包含在说话人语音波形中特有的个体信息,根据说话人所发的语音,自动识别说话人身份的过程。说话人识别按照对说话内容的要求不同可以分为文本无关,文本有关和文本提示三种。文本无关是用户在系统注册时不要求特定的语言和内容,而且验证和注册时也不需要相同内容的语音,文本相关则要求验证语料与注册时提供的语料内容相一致,文本提示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和灵活性更加受人们重视,应用也更为广泛,目前的无本无关说话人识别系统主要是利用说话人的训练语音训练得到一个描述其语音特征分布的高斯混合模型,用输入语音在各个话者模型上的得分来判别说话人。但是真实的环境中存在大量集外说话人,目前主要是通过比较输入语音在说话人模型上的最高得分是否大于阈值的方式来判断输入语音是来自集内还是集外,这种方法对集内外语音的区分能力不够,会产生大量的误识。误识的多少严重影响说话人识别系统的实用性,因此需要研究减少说话人误识的方法,也就是集外话者的拒识方法。
发明内容
为了克服现有的文本无关说话人识别技术中,误识较多的问题,本发明提供一种集内说话者的识别方法。
本发明的一种集内说话者的识别方法的过程为:
步骤A:对语音信号进行特征提取,获得特征信息,然后同时执行步骤B和步骤C;
步骤B:采用集外易误识模型对步骤A获得的特征信息进行打分,获得分数q,然后执行步骤D;
步骤C:采用集内模型对步骤A获得的特征信息进行打分,获得分数p,然后执行步骤D;
步骤D:判断步骤C获得的分数p是否大于步骤B获得的分数q,如果判断结果为是,则执行步骤E;否则,放弃该特征信息,结束此次识别过程;
步骤E:将特征信息发送给集内说话人识别系统,获得所述特征信息所对应的说话人。
所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得,该模型是高斯混合模型,它描述了集内说话人总的语音特征分布。
所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训练获得,该模型是高斯混合模型,它描述了容易被误识为集内的语音特征分布。
本发明首先采用集内模型和集外易误识模型分别对特征信息进行打分,对于判定为集外语音信息的特征信息直接放弃识别,只对判定为集内语音信息的特征信息进行说话人的识别,减少了语音识别系统的工作量,提高了语音识别速度。
本发明在步骤E中获得所述特征信息所对应的说话人的方法为:
步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、S2……Sn,然后执行步骤E22;
步骤E22、选出步骤E21获得的分数S1、S2……Sn分数中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E23;
步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值η,如果判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过程;
步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得分数R;然后执行步骤E25;
步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束此次识别过程;
步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过程;
所述n为大于2的整数,i为大于0且小于等于n的整数。
所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信息的误识数据集进行训练获得,它描述冒认第i个说话人的语音特征信息的模型。
即,在采用每个说话人的语音模型判定为对应说话人之后,再对特征信息采用对应说话人的冒认者模型进行验证,提高了系统的判定准确率。
所述冒认者模型是根据由基准识别系统收集该系统容易误识为集内每一个说话人的数据集,并对所述数据集进行训练获得描述该类型特征的冒认者模型。该模型是高斯混合模型,它描述了容易被误识为某一说话人的语音特征分布。
所述误识数据,是指一个语音信息被判定为某一个说话人,但所述语音信息并不是该说话人的情况。
本发明通过收集说话人识别系统的误识数据集,并对所述数据集进行学习获得容易被误识的集内说话人的语音信息特征的概率分布模型,通过对判定为对应说话人的特征信息进行进一步验证,大大减少了误识的可能性,提高了系统识别的准确性。
本发明的方法采用逐步细化的、减少说话人误识的方法,该方法不仅大大减少了说话人误识,而且极大的提高了识别速度。
附图说明
图1是现有集内说话人识别系统的工作流程图;图2是本发明的集内说话人识别方法的流程图;图3是具体实施方式二所述的步骤E中获得所述特征信息所对应的说话人的方法的流程图;图4是具体实施方式三所述的步骤E中获得所述特征信息所对应的说话人的方法的流程图。
具体实施方式
本实施方式所述的一种集内说话者的识别方法的过程为:
步骤A:对语音信号进行特征提取,获得特征信息,然后同时执行步骤B和步骤C;
步骤B:采用集外易误识模型对步骤A获得的特征信息进行打分,获得分数q,然后执行步骤D;
步骤C:采用集内模型对步骤A获得的特征信息进行打分,获得分数p,然后执行步骤D;
步骤D:判断步骤C获得的分数p是否大于步骤B获得的分数q,如果判断结果为是,则执行步骤E;否则,放弃该特征信息,结束此次识别过程;
步骤E:将特征信息发送给集内说话人识别系统,获得所述特征信息所对应的说话人。
所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得,该模型是高斯混合模型,它描述了集内说话人总的语音特征分布。
所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训练获得,该模型是高斯混合模型,它描述了容易被误识为集内的语音特征分布。
步骤E中获得所述特征信息所对应的说话人的方法。可以采用现有的文本无关说话人识别方法。
本实施方式所述的,采用某一个模型对特征信息进行打分,是指将所述特征信息带入所述模型,进而获得相应的概率值,再根据所述概率值获得一个分数值。所述分数值一般与所述概率值成正比。
本实施方式所述的高斯混合模型(GMM,Gaussian Mixture Model),是一种概率统计模型,理论上高斯混合模型可以用无限多个高斯分布的线性加权来拟合一个任意形式的分布。而对于某个说话人的语音特征信息,一般认为其满足一个特定的分布,所以本领域采用高斯混合模型来描述说话人的语音特征信息的分布,也就是说每个说话人的语音特征信息对应一个高斯混合模型,对于一个语音特征矢量,可以计算出其在该说话人对应的高斯混合模型上的概率,进而判定是否是该说话人的语音信息
所述高斯分布函数为:
N ( x , μ , Σ ) = 1 ( 2 π ) d / 2 | Σ | 1 / 2 exp { - 1 2 ( x - μ ) T Σ - 1 ( x - μ ) } ,
其中X为特征矢量,μ是高斯分布的均值向量,∑是协方差矩阵,d是特征维数。当高斯分布的均值向量μ和协方差矩阵∑固定后,高斯分布函数也就固定,可以根据某一个特征矢量x计算获得概率值。
所述高斯混合模型,是K个高斯分布函数的线性加权,特征矢量xi在该模型上对应的概率为::
p ( x t | λ ) = Σ k = 1 K w k N ( x t , μ k , Σ k ) ,
其中,wk是第k个高斯分布的权值。
本实施方式中所述的通过对数据训练获得模型,是指根据一组数据,计算得到高斯混合模型中各个高斯分量的均值和协方差矩阵,以及各个分量的权值,使其能够最好的描述这些训练数据,进而获得一个高斯混合模型。一般通过EM算法(期望最大化算法)来实现。
本实施方式中所述的特征信息,是指语音特征信息,可以采用目前常用的Mel倒谱系数MFCC来表示。所述特征信息的计算,是首先用FFT将时域信号转化成频域信号,然后对所述频域信号的对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,并取前N个系数作为特征信息。经常用到的MFCC有12维,13维(加入F0能量),39维(13维MFCC加上其一阶差分和二阶差分)。
本实施方式所述的方法,是首先对提取的特征信息进行判断,只有当所述特征信息被判定为集内的语音信息时,才交给说话人识别系统进行识别。这样,减少了说话人识别系统的判断数据量,提高了语音识别速度。
具体实施方式二:本实施方式所述的一种集内说话者的识别方法,是对步骤E中获得所述特征信息所对应的说话人的方法的进一步说明,它的具体过程为:
步骤E11:分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、S2……Sn,然后执行步骤E12;
步骤E12:选出步骤E11获得分数S1、S2……Sn分数中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E13;
步骤E13:判断步骤E12获得的最高分Si是否大于设定阈值η,如果判断结果为是,则执行步骤E14,否则,放弃该特征信息,结束此次识别过程;
步骤E14:认定特征信息是第i个说话人的语音信息,结束此次识别过程;
所述n为大于2的整数,i为大于0且小于等于n的整数。
所述集内每个说话人对应一个语音模型,所述语音模型是通过该说话人的训练语料作为训练数据训练获得,该模型是高斯混合模型,它描述了该说话人的语音特征分布。
具体实施方式三:本实施方式所述的一种集内说话者的识别方法中,提供了另一种步骤E的实现方法,它的具体过程为:
步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、S2……Sn,然后执行步骤E22;
步骤E22、选出步骤E21获得的分数S1、S2……Sn中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E23;
步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值η,如果判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过程;
步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得分数R;然后执行步骤E25;
步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束此次识别过程。
步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过程;
所述n为大于2的整数,i为大于0且小于等于n的整数。
所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信息的误识数据集进行训练获得,它描述冒认第i个说话人的语音特征信息的模型。
所述冒认者模型,是通过对被误识为对应说话人的特征信息数据集进行训练获得,它描述冒认该说话人的语音特征信息的高斯混合模型。它描述了容易被误识为某一个说话人的语音特征分布。
本实施方式中所述的集内所有说话人的误识数据集,是用基准说话人识别系统采集大量集外的语音信息进行说话人识别,然后将系统判定为集内某话者的语音收集起来形成一个集内所有说话人的误识数据集。所述误识数据集是集外易误识模型和冒认者模型的训练数据。
本实施方式所述的集内说话者的识别方法中的集内说话人识别系统,是在具体实施方式二所述的集内说话人识别系统的基础上,增加了对判定结果采用冒认者模型进行了进一步的验证的过程,即:采用该说话人的冒认者模型对所述特征信息进行进一步判定,提高了系统的判定准确率。
本实施方式通过收集说话人识别系统的误识数据集,并对所述数据集进行学习获得容易被误识的集内说话人的语音信息特征的概率分布模型,通过多层次识别,即先通过粗略判定是集内或集外数据,放弃一部分被识别的特征信息,对于判定为集内的特征信息,现根据每个说话人的模型判定对应说话人,然后再通过对应说话人的冒认者模型验证是否是对应说话人。本实施方式通过对一个特征信息的三次判断最终获得判定结果,有效地减少了误识的可能性,提高了系统识别准确率。

Claims (5)

1.一种集内说话者的识别方法,其特征在于它的识别过程为:
步骤A:对语音信号进行特征提取,获得特征信息,然后同时执行步骤B和步骤C;
步骤B:采用集外易误识模型对步骤A获得的特征信息进行打分,获得分数q,然后执行步骤D;
步骤C:采用集内模型对步骤A获得的特征信息进行打分,获得分数p,然后执行步骤D;
步骤D:判断步骤C获得的分数p是否大于步骤B获得的分数q,如果判断结果为是,则执行步骤E;否则,放弃该特征信息,结束此次识别过程;
步骤E:将特征信息发送给集内说话人识别系统,获得所述特征信息所对应的说话人;
所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得,该集内模型是高斯混合模型,它描述了集内说话人总的语音特征分布;
所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训练获得,该集外易误识模型是高斯混合模型,它描述了容易被误识为集内的语音特征分布。
2.根据权利要求1所述的一种集内说话者的识别方法,其特征在于,步骤E中获得所述特征信息所对应的说话人的方法为:
步骤E11:分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、S2……Sn,然后执行步骤E12;
步骤E12:选出步骤E11获得的分数S1、S2……Sn中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E13;
步骤E13:判断步骤E12获得的最高分Si是否大于设定阈值η,如果判断结果为是,则执行步骤E14,否则,放弃该特征信息,结束此次识别过程;
步骤E14:认定特征信息是第i个说话人的语音信息,结束此次识别过程;
所述n为大于2的整数,i为大于0且小于等于n的整数。
3.根据权利要求2所述的一种集内说话者的识别方法,其特征在于,所述集内每个说话人对应一个语音模型,所述语音模型是通过该说话人的训练语料作为训练数据训练获得,该语音模型是高斯混合模型,它描述了该说话人的语音特征分布。
4.根据权利要求1所述的一种集内说话者的识别方法,其特征在于,步骤E中获得所述特征信息所对应的说话人的方法为:
步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分,分别获得分数S1、S2……Sn,然后执行步骤E22;
步骤E22、选出步骤E21获得的分数S1、S2……Sn中的最高分Si,所述最高分Si对应第i个说话人,然后执行步骤E23;
步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值η,如果判断结果为是,则执行步骤E24,否则,放弃该特征信息,结束此次识别过程;
步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分,获得分数R;然后执行步骤E25;
步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分数R,如果判断结果为是,则执行步骤E26,否则,放弃该特征信息,结束此次识别过程。
步骤E26、认定特征信息是第i个说话人的语音信息,结束此次识别过程;
所述n为大于2的整数,i为大于0且小于等于n的整数。
5.根据权利要求4所述的一种集内说话者的识别方法,其特征在于,所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信息的误识数据集进行训练获得,它描述了冒认第i个说话人的语音特征信息的模型。
CN2009100720196A 2009-05-13 2009-05-13 一种集内说话者的识别方法 Expired - Fee Related CN101552004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100720196A CN101552004B (zh) 2009-05-13 2009-05-13 一种集内说话者的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100720196A CN101552004B (zh) 2009-05-13 2009-05-13 一种集内说话者的识别方法

Publications (2)

Publication Number Publication Date
CN101552004A CN101552004A (zh) 2009-10-07
CN101552004B true CN101552004B (zh) 2011-04-06

Family

ID=41156208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100720196A Expired - Fee Related CN101552004B (zh) 2009-05-13 2009-05-13 一种集内说话者的识别方法

Country Status (1)

Country Link
CN (1) CN101552004B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426428B (zh) * 2012-05-18 2016-05-25 华硕电脑股份有限公司 语音识别方法及系统
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN108711436B (zh) * 2018-05-17 2020-06-09 哈尔滨工业大学 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法

Also Published As

Publication number Publication date
CN101552004A (zh) 2009-10-07

Similar Documents

Publication Publication Date Title
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN103544963B (zh) 一种基于核半监督判别分析的语音情感识别方法
CN104903954B (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN104143326B (zh) 一种语音命令识别方法和装置
CN103810996B (zh) 待测试语音的处理方法、装置及系统
CN108538293B (zh) 语音唤醒方法、装置及智能设备
CN101552004B (zh) 一种集内说话者的识别方法
CN105261367B (zh) 一种说话人识别方法
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN101710490A (zh) 语音评测的噪声补偿方法及装置
CN101447188B (zh) 数字声纹鉴定系统及确认和辨认方法
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
CN105374352A (zh) 一种语音激活方法及系统
CN101976564A (zh) 昆虫声音识别方法
US20170004848A1 (en) Method for determining alcohol consumption, and recording medium and terminal for carrying out same
CN109323754A (zh) 一种列车车轮多边形故障诊断检测方法
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN110234279B (zh) 表征睡眠呼吸障碍的方法
CN105989842A (zh) 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110406

CF01 Termination of patent right due to non-payment of annual fee