CN102237089B - 一种减少文本无关说话人识别系统误识率的方法 - Google Patents

一种减少文本无关说话人识别系统误识率的方法 Download PDF

Info

Publication number
CN102237089B
CN102237089B CN201110233341XA CN201110233341A CN102237089B CN 102237089 B CN102237089 B CN 102237089B CN 201110233341X A CN201110233341X A CN 201110233341XA CN 201110233341 A CN201110233341 A CN 201110233341A CN 102237089 B CN102237089 B CN 102237089B
Authority
CN
China
Prior art keywords
group
threshold value
speaker
voice
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110233341XA
Other languages
English (en)
Other versions
CN102237089A (zh
Inventor
韩纪庆
王秋雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of technology high tech Development Corporation
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201110233341XA priority Critical patent/CN102237089B/zh
Publication of CN102237089A publication Critical patent/CN102237089A/zh
Application granted granted Critical
Publication of CN102237089B publication Critical patent/CN102237089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种减少文本无关说话人识别系统误识率的方法,它涉及一种减少说话人识别系统误识率的方法。本发明解决了现有的文本无关说话人识别系统在开集测试中误识率增大的问题。本方法:利用基准说话人识别系统得到闭集中已知说话人的识别阈值,将闭集中说话人分成男女两组,再将每组用阈值分段的形式把男女两组都再分为多个小组,再找到每个小组的中心分布;在基准说话人识别系统的前端加入粗筛选模块,判定测试语音的性别之后,将待测语音与同性别的小组的中心分布比较,得到待测语音的概率阈值;再用该概率阈值的语音帧进行识别。本方法的识别正确率比原系统提高2%~3%,本方法可用于文本无关说话人识别系统。

Description

一种减少文本无关说话人识别系统误识率的方法
技术领域
本发明涉及一种减少说话人识别系统误识率的方法。
背景技术
说话人识别是利用包含在说话人语音波形中特有的个体信息来自动识别说话人身份的过程。说话人识别按照对说话内容的要求不同可以分为文本无关,文本有关和文本提示三种。文本无关是指用户在系统注册时不要求特定的语言和内容,而且验证和注册时也不需要相同内容的语音;文本相关则要求验证语料与注册时提供的语料内容相一致;文本提示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和灵活性更加受到人们的重视,应用也更为广泛。目前的文本无关说话人识别系统主要是利用说话人的训练语音训练得到一个描述其语音特征分布的混合高斯模型,用测试语音在各个说话人模型上的得分来判定说话人的身份。随着开集的识别中,集外用户规模的增大,误识率从原来的2.9%也相继增大到5.5%,而误识的多少严重影响说话人识别系统的实用性,因此需要研究减少说话人误识率的方法。
发明内容
本发明是要解决现有的文本无关说话人识别系统在开集测试中,随着集外用户增多,误识率增大的问题,而提供一种减少文本无关说话人识别系统误识率的方法。
本发明的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行:
步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;
步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;
步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;
步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;
步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;
步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。
现有的说话人识别系统对所有的测试语音,都直接在提取特征矢量并计算在每个说话人模型上打分后直接通过固定阈值来进行识别结果接受或者拒绝的判定,而本发明是将闭集中的男生和女生分成两组,对每组按阈值进行分段,每段为一个小组,对小组进行计算,找到代表小组的高斯混合模型,得到小组的中心分布,对待测试语声音,先判定男女声,然后对待测试语音与各小组的中心分布的似然得分计算,求得概率阈值后再进行识别,这样降低了集外语音规模增大时带来的高误识率,本发明的新系统在集外语音规模增大时,识别效果确实高于原系统,统计得出在虚警率为5%时,新系统的识别率比原系统提高了2%~3%,本发明在原有的说话人系统上进行改进,与原说话人识别系统很好的结合,并且有效的降低了系统在开集情况下的误识率。
本发明的一种减少说话人识别系统误识率的方法可用于文本无关说话人识别系统。
附图说明
图1是具体实施方式一中步骤五的概率阈值计算的框图;图2是具体实施方式五的测试的虚警率与正确率关系曲线图,其中a为原系统的正确率与虚警率的关系;b为具体实施方式五的方法的正确率与虚警率的关系。
具体实施方式
具体实施方式一:本实施方式的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行:
步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;
步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;
步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;
步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;
步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;
步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。
本实施方式中步骤一中高斯混合模型与正确识别时的阈值的计算方法为现有技术。
本实施方式将闭集中的男生和女生分成两组,对每组按阈值进行分段,每段为一个小组,对小组进行计算,找到代表小组的高斯混合模型,得到小组的中心分布,对待测试语声音,先判定男女声,然后对待测试语音与各小组的中心分布的似然得分计算,求得概率阈值后再进行识别,这样降低了集外语音规模增大时带来的高误识率,本实施方式的新系统在集外语音规模增大时,识别效果确实高于原系统,统计得出在虚警率为5%时,新系统的识别率比原系统提高了2%~3%,本实施方式的方法在原有的说话人系统上进行改进,与原说话人识别系统很好的结合,并且有效的降低了系统在开集情况下的误识率。
具体实施方式二:本实施方式与具体实施方式一不同的是步骤三中高斯混合模型的计算按以下步骤进行:
a、小组中包含的说话人为R个,小组中第i个说话人的高斯分布为N(μi,∑i),其中μi表示第i个说话人的高斯分布的均值矢量,∑i表示第i个说话人的高斯分布的对角协方差矩阵,其中i=1,2,......,R,用μi(k)表示μi的第k维分量,用σ2 i(k)表示∑i的第k个对角元,wi为高斯分布的权重,
b、按
Figure GDA0000153996710000031
计算小组中在所有高斯分布上的权重之和wc
c、按
Figure GDA0000153996710000032
计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量:
d、按计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元;
e、确定该小组的高斯混合模型为N(μc,∑c),得到该小组的中心分布。
其它与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是步骤四中小组的阈值的计算方法如下:
小组中有L个高斯模型,每个高斯模型正确识别时的阈值分别为λ1,λ2,...,λL,则该小组混合高斯模型的阈值λ为:
λ = λ 1 + λ 2 + . . . + λ L L
或者λ为:
λ = 1 1 λ 1 + 1 λ 2 + . . . + 1 λ L .
其它与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是步骤五中待测语音的概率阈值λx计算方法如下:与待测语音性别相同的组中的小组数为N,各小组的混合高斯模型的阈值为λ1,λ2,...,λN,待测语音的特征矢量序列与N个小组中心分布的似然得分分别为C1,C2,...,CN,按
Figure GDA0000153996710000043
计算该待测语音的概率阈值λx。其它与具体实施方式一至三之一相同。
具体实施方式五:本实施方式的一种减少文本无关说话人识别系统误识率的方法按以下步骤进行:
一、利用基准说话人识别系统男女各为500人的闭集中的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;
二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,再通过阈值分段的形式将男性组分为20个小组,将女组分为18个小组,其中每段的最大阈值与最小阈值的差为2;
三、将步骤二得到的每个小组中包含的说话人用一个符合高斯分布的模型来代替,男性组得到20个高斯混合模型,女性组得到18个高斯混合模型;
其中小组高斯混合模型的计算按以下步骤进行:
a、小组中包含的说话人为R个,小组中第i个说话人的高斯分布为N(μi,∑i),其中μi表示第i个说话人的高斯分布的均值矢量,∑i表示第i个说话人的高斯分布的对角协方差矩阵,其中i=1,2,......,R,用μi(k)表示μi的第k维分量,用σ2 i(k)表示∑i的第k个对角元,wi为高斯分布的权重,
b、按
Figure GDA0000153996710000051
计算小组中在所有高斯分布上的权重之和wc
c、按
Figure GDA0000153996710000052
计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量:
d、按
Figure GDA0000153996710000053
计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元;
e、确定该小组的高斯混合模型为N(μc,∑c),得到该小组的中心分布;
四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的调和平均数作为该小组的阈值;计算小组的阈值方法如下:
第n小组中包含的高斯混合模型为L个,每个高斯混合模型正确识别时的阈值分别为λ1,λ2,...,λL,则
Figure GDA0000153996710000054
计算该小组的阈值λn
五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的组相比较,进行概率阈值λx的计算;概率阈值λx的计算方法如下:
与待测语音性别相同的组中的小组数为N,各小组的混合高斯模型的阈值为λ1,λ2,...,λN,先计算待测语音的特征矢量序列与步骤三中的女N个小组中心分布的似然得分分别为C1,C2,...,CN,按
Figure GDA0000153996710000055
计算该待测语音的概率阈值λx
六、用步骤五得到的概率阈值λx更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。
本实施方式的步骤五的概率阈值计算的框图如图1所示。
本实施方式的测试数据为NIST2003的部分数据,集内为男女各500人,集外为男女各300人。测试的虚警率与正确率关系曲线如图2所示,其中a为原系统的正确率与虚警率的关系;b为本实施方式的方法的正确率与虚警率的关系。从图2可以看出本实施方式的方法在集外语音规模增大时,识别效果确实高于原系统,统计得出在虚警率为5%时,新系统的识别率比原系统提高了2.5%。

Claims (4)

1.一种减少文本无关说话人识别系统误识率的方法,其特征在于减少文本无关说话人识别系统误识率的方法按以下步骤进行:
步骤一、利用基准说话人识别系统闭集的训练数据得到每个已知的说话人的特征矢量的高斯混合模型及其正确识别时的阈值;
步骤二、将闭集中的说话人按男性和女性分为两组,将每组的正确识别时的阈值按大小排列后,将阈值分段,每段做为一个小组;
步骤三、将步骤二得到的每个小组中包含的说话人用一个高斯混合模型来代替,得到男性组的每个小组的中心分布和女性组的每个小组的中心分布;
步骤四、将步骤二得到的每个小组中每个说话人的正确识别时阈值的加权求和作为该小组的阈值;
步骤五、在基准说话人识别系统的前端加入待测语音的特征矢量序列的辨识模块,判定出待测语音为男性或者女性声音后,将待测语音与同性别的小组的中心分布比较求出似然得分,再进行概率阈值的计算;
步骤六、用步骤五得到的概率阈值更新待测语音的阈值,得到新的语音帧,进入识别系统进行识别。
2.根据权利要求1所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤三中高斯混合模型的计算按以下步骤进行:
步骤a、小组中包含的说话人为R个,小组中第i个说话人的高斯分布为N(μi,∑i),其中μi表示第i个说话人的高斯分布的均值矢量,∑i表示第i个说话人的高斯分布的对角协方差矩阵,其中i=1,2,......,R,用μi(k)表示μi的第k维分量,用σ2 i(k)表示∑i的第k个对角元,wi为高斯分布的权重,
步骤b、按计算小组中在所有高斯分布上的权重之和wc
步骤c、按
Figure FDA0000153996700000012
计算小组的混合高斯模型的中心分布的均值矢量μc的第k维分量:
步骤d、按
Figure FDA0000153996700000013
(k)计算小组的混合高斯模型的中心分布的对角协方差矩阵∑C的第k个对角元;
步骤e、确定该小组的高斯混合模型为N(μc,∑c),得到该小组的中心分布。
3.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤四中小组的阈值的计算方法如下:小组中有L个高斯模型,每个高斯模型正确识别时的阈值分别为λ1,λ2,...,λL,则该小组混合高斯模型的阈值λ为:
λ = λ 1 + λ 2 + . . . + λ L L
或者λ为:
λ = 1 1 λ 1 + 1 λ 2 + . . . + 1 λ L .
4.根据权利要求1或2所述的一种减少文本无关说话人识别系统误识率的方法,其特征在于步骤五中待测语音的概率阈值λx计算方法如下:与待测语音性别相同的组中的小组数为N,各小组的混合高斯模型的阈值为λ1,λ2,...,λN,待测语音的特征矢量序列与N个小组中心分布的似然得分分别为C1,C2,...,CN,按
Figure FDA0000153996700000023
计算该待测语音的概率阈值λx
CN201110233341XA 2011-08-15 2011-08-15 一种减少文本无关说话人识别系统误识率的方法 Active CN102237089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110233341XA CN102237089B (zh) 2011-08-15 2011-08-15 一种减少文本无关说话人识别系统误识率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110233341XA CN102237089B (zh) 2011-08-15 2011-08-15 一种减少文本无关说话人识别系统误识率的方法

Publications (2)

Publication Number Publication Date
CN102237089A CN102237089A (zh) 2011-11-09
CN102237089B true CN102237089B (zh) 2012-11-14

Family

ID=44887676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110233341XA Active CN102237089B (zh) 2011-08-15 2011-08-15 一种减少文本无关说话人识别系统误识率的方法

Country Status (1)

Country Link
CN (1) CN102237089B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
CN108091321B (zh) * 2017-11-06 2021-07-16 芋头科技(杭州)有限公司 一种语音合成方法
CN110188338B (zh) * 2018-02-23 2023-02-21 富士通株式会社 文本相关的说话人确认方法和设备
CN113327617B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN113327618B (zh) * 2021-05-17 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质
CN115035463B (zh) * 2022-08-09 2023-01-17 阿里巴巴(中国)有限公司 行为识别方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543641A (zh) * 2001-06-19 2004-11-03 �������ֿ� 说话者识别系统
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029785A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
CN101770774B (zh) * 2009-12-31 2011-12-07 吉林大学 基于嵌入式的开集说话人识别方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543641A (zh) * 2001-06-19 2004-11-03 �������ֿ� 说话者识别系统
CN1787076A (zh) * 2005-12-13 2006-06-14 浙江大学 基于混合支持向量机的说话人识别方法
EP2028647A1 (de) * 2007-08-24 2009-02-25 Deutsche Telekom AG Verfahren und Vorrichtung zur Sprecherklassifizierung
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム

Also Published As

Publication number Publication date
CN102237089A (zh) 2011-11-09

Similar Documents

Publication Publication Date Title
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN102237089B (zh) 一种减少文本无关说话人识别系统误识率的方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN105261367B (zh) 一种说话人识别方法
CN103440863B (zh) 一种基于流形的语音情感识别方法
CN104240706B (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN106098068A (zh) 一种声纹识别方法和装置
CN105280181B (zh) 一种语种识别模型的训练方法及语种识别方法
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN105654944B (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
CN110222841A (zh) 基于间距损失函数的神经网络训练方法和装置
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN101923855A (zh) 文本无关的声纹识别系统
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN102968990A (zh) 说话人识别方法和系统
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN110246507A (zh) 一种语音的识别方法和装置
CN103578480B (zh) 负面情绪检测中的基于上下文修正的语音情感识别方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200330

Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin

Patentee after: Harbin University of technology high tech Development Corporation

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY