CN111883142B - 基于对数似然值归一化的说话人确认方法 - Google Patents
基于对数似然值归一化的说话人确认方法 Download PDFInfo
- Publication number
- CN111883142B CN111883142B CN202010749440.2A CN202010749440A CN111883142B CN 111883142 B CN111883142 B CN 111883142B CN 202010749440 A CN202010749440 A CN 202010749440A CN 111883142 B CN111883142 B CN 111883142B
- Authority
- CN
- China
- Prior art keywords
- score
- test
- speaker
- test voice
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012790 confirmation Methods 0.000 title claims description 10
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 238000012795 verification Methods 0.000 abstract description 11
- 238000012549 training Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
技术领域
本发明涉及说话人识别技术领域,具体涉及一种基于对数似然值归一化的说话人确认方法。
背景技术
说话人确认是判断测试语音是否属于某个预先声明的说话人,即需要将测试识别对(由测试语音和其声明的说话人身份构成)作出“True”或“False”的二类判决。但是“True”和“False”两类识别对的得分会出现严重的交叉和混叠;在这种情况下使用统一的门限对每一个识别对作“True”或“False”的判决,会严重影响说话人确认系统的性能。因此,需要在识别对原始得分的基础上进行得分规整。
目前最常用也是最典型的得分规整方法有零规整(Zero normalization,Znorm)、测试规整(Test normalization,Tnorm)以及两者的结合算法ZTnorm等,它们通过估计“False”识别对的得分分布,对测试识别对的得分进行规整,将“False”识别对的得分规整为均值为0、方差为1的分布,从而消除不同说话人模型间的差异或不同测试语音之间的差异,有效减小两类识别对得分汇集后的混叠部分,从而提高说话人确认的系统性能。一般来说,得分规整不受限于系统所使用的说话人模型建立方法,无论是简单基础的高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM),还是目前比较主流的联合因子分析(Joint Factor Analysis,JFA)、总变化因子分析(TotalVariability Factor Analysis)技术等,原始测试得分均需要进行得分规整,而现有的得分规整方法也都适用于基于以上不同说话人模型的确认系统。
现有的得分规整方法中,大多数都是通过规整“False”识别对得分分布的方式,以减小两类识别对得分汇集后的重叠部分,却没有有效扩大同一说话人模型或同一测试语音对应的两类识别对得分之间的差距;并且,在这些得分规整方法中,都需要预先收集和选取大量的非目标说话人语音数据来估计“False”识别对得分的均值和方差,而非目标说话人语音数据选取的好坏会影响最终得分规整的效果。
发明内容
针对现有得分规整方法的以上不足,本发明提出一种对数似然值归一化得分规整算法(Log-likelihood Normalization,LLN),通过扩大同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善;与Znorm、Tnorm和ZTnorm等方法相结合,可同时从不同角度解决两类识别对得分汇集后的混叠问题,从而进一步提高系统识别性能。
具体技术方案为:
基于对数似然值归一化的说话人确认方法,包括以下步骤:
假设是某测试语音在所有L个说话人模型上的得分。设St为测试语音与其目标说话人模型的得分,即该测试语音对应的“True”识别对得分;其余L-1个得分Sn(n≠t)为测试语音与非目标说话人模型的得分,即该测试语音对应的“False”识别对得分。通常情况下,测试语音在目标说话人模型上的得分会高于其在非目标说话人模型上的得分,即St>Sn(n≠t)。用下面对数似然值归一化公式来规整每个得分:
(1)如果i=t,则Si较大,规整量Ni因不包含St,故数值较小;
(2)如果i≠t,则Si较小,规整量Ni因包含St,故数值较大。
公式(3)中每个得分Si作为e的指数是考虑目标说话人模型得分的独特性(较大且数目少),充分扩大其得分的影响,求和是利用非目标说话人模型得分的共同特点(较小且数目多),减少单个得分的影响,取对数可避免非目标说话人模型得分的规整量差距过大。
经过(3)式规整,测试语音对目标说话人模型和非目标说话人模型得分差距会进一步拉大,即可以使识别对中“True”识别对和“False”识别对的得分具有更好的区分性,从而更容易设定门限区分“True”识别对和“False”识别对,提升了系统确认性能。
本发明的方法相对于Znorm、Tnorm和ZTnorm的优势在于扩大了同一测试语音在目标说话人模型与非目标说话人模型上的得分差距,使同一测试语音对应的两类识别对得分混叠现象得到有效改善;并且可以直接对测试得分进行规整,不需要引入先验知识,因此不需要预留训练数据。
附图说明
图1为实施例说话人确认系统;
图2为实施例测试语音在不同说话人模型上得分;
图3(a)LLN规整前识别对得分分布曲线;
图3(b)LLN规整后识别对得分分布曲线。
具体实施方式
结合实施例说明本发明的具体技术方案。
本实施例采用的说话人确认系统如图1所示,主要分为三部分:提取特征、建立模型和打分判决。
本实施例采用的说话人确认系统的评价指标:
在说话人确认系统中,每一次测试,就是将一组识别对进行“True”和“False”判决的过程。当本是“False”的识别对判决为“True”(非目标说话人被接受)时,称之为“虚警”(False Alarm);当本是“True”的识别对判决为“False”(目标说话人被拒绝)时,称之为“漏检”(Miss),这两种错判出现的概率分别称为虚警率和漏检率。
(1)等错率(Equal Error Rate,EER)
实际应用中,应同时降低虚警率和漏检率,然而这两种错误概率相互约束,随着判决门限设定的不同,两者呈相反趋势变化,只有当虚警率和漏检率大致相等的时候,系统的性能被认为达到了最大发挥,此时的错误率称为等错率(EER)。
(2)最小检测代价(Minimum Value of Detection Cost Function,minDCF)
不同的应用场景对虚警率和漏检率要求不一样,系统门限的设定会按需调整,为了对不同情况下系统性能进行更加贴切地描述,引入了检测代价函数(Detection CostFunction,DCF)的概念,其数学表达式为:
式中CM和CFA分别是漏检率PM|T和虚警率PFA|NT对应的代价,PT是测试中应该判决为“True”的识别对出现的概率,(1-PT)是应该判决为“False”的识别对出现的概率。检测代价函数是描述识别错误发生后损失大小的一个函数,可以很好地表示系统的性能。设定门限可以得到该门限对应的DCF值,遍历判决门限,获得最小检测代价(minDCF),这是目前美国国家标准技术研究院说话人识别评测(NIST SRE)中最重要的指标。
对比例
采用现有技术的零规整(Znorm)和测试规整(Tnorm):
Znorm方法是用大量非目标说话人语音对目标说话人模型打分,计算出对应于目标说话人模型λ的辅助参数均值μλ和方差σλ,用来规整得分分布的差异,其得分规整公式如下:
Tnorm是用测试语音对大量非目标说话人模型计算得分,得到对应于测试语音的辅助参数,同样是均值和方差,用来减少测试语音环境不同对得分分布的影响,最终得分公式同(2)。
对于说话人确认系统,Znorm参数计算在模型训练阶段完成,Tnorm参数计算在测试阶段完成。ZTnorm是在得分域将训练模型和测试语音的信息结合起来,即将Znorm和Tnorm相结合的得分规整方法。上述三种得分规整方法的不足之处是没有有效扩大同一说话人模型或同一测试语音对应的两类识别对得分之间的差距;并且必须引入先验知识,需要将训练数据中的一小部分预留出来作为开发集,用来估计得分规整时需要的参数,而开发集选取的好坏会影响最终得分规整的效果。
实施例
采用本发明的对数似然值归一化(Log-likelihood Normalization,LLN):
假设是某测试语音在所有L个说话人模型上的得分。设St为测试语音与其目标说话人模型的得分,即该测试语音对应的“True”识别对得分;其余L-1个得分Sn(n≠t)为测试语音与非目标说话人模型的得分,即该测试语音对应的“False”识别对得分。通常情况下,测试语音在目标说话人模型上的得分会高于其在非目标说话人模型上的得分,即St>Sn(n≠t)。用下面对数似然值归一化公式来规整每个得分:
实验验证:
本发明实验在NIST SRE 2008核心测试集(short2-short3)的电话训练、电话测试(tel-tel)情况下开展。实验主要针对女声测试集,该测试情况下共23385个测试对,涉及1674个测试语音和1140个目标说话人模型,在LLN得分规整阶段,每个识别对得分都是基于测试语音数据与全部1140个说话人模型的匹配得分经公式(3)得到。
本实验中所使用的特征为36维的梅尔频率倒谱系数(Mel Frequency CepstralCoefficents,MFCC)特征,其每帧特征由18维的基本倒谱系数及其一次差分(delta)构成。首先用音素解码器来对语音数据进行语音活动性检测(Voice Activity Detection,VAD),以去除数据中的静音部分,然后根据25ms的窗长和10ms的窗移提取36维的MFCC特征。由于得分规整方法具有普适性,不受限于系统所使用的说话人建模方法,且目前主流的说话人建模技术大多基于GMM-UBM模型,因此,本实验的说话人建模方法选用简单基础的GMM-UBM。使用NIST SRE 2004 1side的目标说话人训练数据训练与性别相关的UBM,UBM高斯数为1023。并利用本征信道(Eigenchannel)技术在模型域做了信道补偿,训练Eigenchannel信道空间的数据,选择的是NIST SRE 2004、2005以及2006的电话语音数据,包含755个说话人的数据,共9855个语音文件。另外,从NIST SRE2006的数据中挑选了340条数据用于Tnorm得分规整和340条数据用于Znorm得分规整,基本上保证这两个小数据集每个说话人只有一条语音数据。
表1比较了Znorm、Tnorm、ZTnorm和LLN不同得分规整方法的实验结果。从表1可以看出,LLN在不需要开发集的条件下,具有良好的规整性能,相比无得分规整的情况,EER相对提升9.7%,minDCF相对提升4.57%,本身的规整性能可以和Znorm、Tnorm相当。
表1 NIST SRE 2008测试集上Znorm、Tnorm和LLN性能比较
表2是在Znorm、Tnorm和ZTnorm基础上做LLN规整的实验结果。结合表1和表2中的实验结果可以看出,LLN可以大幅度提升原有说话人确认系统的性能。在Znorm基础上做LLN和不做LLN相比,系统的EER和minDCF分别有20.45%和24.44%的性能提升;在Tnorm基础上做LLN和不做LLN相比,系统的EER和minDCF分别有5.59%和9.98%的性能提升;在ZTnorm基础上做LLN和不做LLN相比,系统的EER和minDCF分别有11.7%和18.69%的性能提升。
表2 NIST SRE 2008测试集上做LLN的性能
图2对比了LLN规整前后某测试语音在15个说话人模型上的得分变化。其中,spk13为该测试语音的目标说话人,其余为非目标说话人。从图中可以看出经LLN规整后,测试语音对目标说话人模型和非目标说话人模型得分差距会进一步拉大。如果门限保持不变,相比LLN规整前,系统的虚警率会明显降低。
随机选取500个“True”识别对和500个“False”识别对,比较LLN规整前后的得分分布,如图3(a)和图3(b)所示。从图中可以看出经LLN规整后,“False”识别对的得分分布明显向左偏移,而“True”识别对的得分分布变化不明显,“True”识别对和“False”识别对的得分差距拉大,区分性增强,有效降低了虚警率,因此用统一的门限进行判决时会更有优势。LLN虽然不会改变同一测试语音在每个目标说话人上得分的排序,但可以有效降低EER和minDCF。
结果表明,本发明提出基于对数似然值归一化(LLN)的得分规整方法,对测试得分进行了有效的规整,与已有的Znorm、Tnorm和ZTnorm得分规整方法能够很好互补,使说话人确认系统的性能进一步提高。在下一步工作中,将在其它说话人确认系统上验证LLN得分规整方法的有效性。
Claims (1)
1.一种基于对数似然值归一化的说话人确认方法,该方法应用于说话人确认系统,所述说话人确认系统包括提取特征、建立说话人模型、计算相似度得分、得分规整、预设门限,识别判决,其特征在于,所述的得分规整方法包括以下步骤:
设St为测试语音与其目标说话人模型的得分,即该测试语音对应的“True”识别对得分;其余L-1个得分Sn,n≠t,为测试语音与非目标说话人模型的得分,即该测试语音对应的“False”识别对得分;
用下面对数似然值归一化公式来规整每个得分:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749440.2A CN111883142B (zh) | 2020-07-30 | 2020-07-30 | 基于对数似然值归一化的说话人确认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010749440.2A CN111883142B (zh) | 2020-07-30 | 2020-07-30 | 基于对数似然值归一化的说话人确认方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883142A CN111883142A (zh) | 2020-11-03 |
CN111883142B true CN111883142B (zh) | 2022-05-31 |
Family
ID=73204290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010749440.2A Expired - Fee Related CN111883142B (zh) | 2020-07-30 | 2020-07-30 | 基于对数似然值归一化的说话人确认方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883142B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
KR100883650B1 (ko) * | 2002-04-17 | 2009-02-18 | 삼성전자주식회사 | 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치 |
CN105976819A (zh) * | 2016-03-23 | 2016-09-28 | 广州势必可赢网络科技有限公司 | 基于Rnorm得分归一化的说话人确认方法 |
CN110110790B (zh) * | 2019-05-08 | 2021-07-06 | 中国科学技术大学 | 采用无监督聚类得分规整的说话人确认方法 |
-
2020
- 2020-07-30 CN CN202010749440.2A patent/CN111883142B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN111883142A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McLaren et al. | Source-normalised-and-weighted LDA for robust speaker recognition using i-vectors | |
WO2019134247A1 (zh) | 基于声纹识别模型的声纹注册方法、终端装置及存储介质 | |
WO2019200744A1 (zh) | 自更新的反欺诈方法、装置、计算机设备和存储介质 | |
CN111524527A (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN106991312B (zh) | 基于声纹识别的互联网反欺诈认证方法 | |
EP1023718B1 (en) | Pattern recognition using multiple reference models | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
Dey et al. | Exploiting sequence information for text-dependent speaker verification | |
Al-Kaltakchi et al. | Speaker verification using cosine distance scoring with i-vector approach | |
McCree et al. | Extended Variability Modeling and Unsupervised Adaptation for PLDA Speaker Recognition. | |
CN111883142B (zh) | 基于对数似然值归一化的说话人确认方法 | |
CN113270112A (zh) | 一种电子伪装语音自动判别与还原方法及系统 | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
CN110782877A (zh) | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 | |
Mills et al. | Replay attack detection based on voice and non-voice sections for speaker verification | |
CN106373576B (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
Solewicz et al. | Two-wire nuisance attribute projection | |
CN113192493B (zh) | 一种结合GMM Token配比与聚类的核心训练语音选择方法 | |
Zheng et al. | A noise-robust self-adaptive multitarget speaker detection system | |
Estevez et al. | Study on the fairness of speaker verification systems on underrepresented accents in english | |
Seck et al. | The irisa/elisa speaker detection and tracking systems for the nist'99 evaluation campaign | |
Hussain et al. | Speaker verification using Gaussian mixture model (GMM) | |
Yan et al. | A Group Based Decision-making Mechanism for Speaker Verification | |
CN113178205B (zh) | 语音分离方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220531 |