CN113327617B - 声纹判别方法、装置、计算机设备和存储介质 - Google Patents

声纹判别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113327617B
CN113327617B CN202110535800.3A CN202110535800A CN113327617B CN 113327617 B CN113327617 B CN 113327617B CN 202110535800 A CN202110535800 A CN 202110535800A CN 113327617 B CN113327617 B CN 113327617B
Authority
CN
China
Prior art keywords
voice
correlation coefficient
library
comparison
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110535800.3A
Other languages
English (en)
Other versions
CN113327617A (zh
Inventor
梁萌
付中华
王海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xunfei Super Brain Information Technology Co ltd
Original Assignee
Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xunfei Super Brain Information Technology Co ltd filed Critical Xi'an Xunfei Super Brain Information Technology Co ltd
Priority to CN202110535800.3A priority Critical patent/CN113327617B/zh
Publication of CN113327617A publication Critical patent/CN113327617A/zh
Application granted granted Critical
Publication of CN113327617B publication Critical patent/CN113327617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种声纹判别方法、装置、计算机设备和存储介质。方法包括:获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。

Description

声纹判别方法、装置、计算机设备和存储介质
技术领域
本申请涉及声音识别技术领域,特别是涉及一种声纹判别方法、装置、计算机设备和存储介质。
背景技术
随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于辅助鉴定人员进行同源的判别认定。
在上述过程中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高检材数据鉴定结果准确性的声纹处理方法、装置、计算机设备和存储介质。
一种声纹处理方法,该方法包括:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
在其中一个实施例中,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配,包括;
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在其中一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在其中一个实施例中,基于检材语音库及样本语音库,获取预设阈值,包括:
确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
根据每一对比对的相关系数,获取每一对比对的对数似然比;
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
在其中一个实施例中,根据每一对比对的相关系数,获取每一对比对的对数似然比之前,还包括:
对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
在其中一个实施例中,根据每一对比对的相关系数,获取每一对比对的对数似然比,包括:
将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
在其中一个实施例中,预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
一种声纹判别装置,该装置包括:
第一获取模块,用于获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
处理模块,用于基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
第二获取模块,用于基于检材语音库及样本语音库,获取预设阈值;
判别模块,用于基于预设阈值,对目标相关系数进行判别。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
上述声纹判别方法、装置、计算机设备和存储介质,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
附图说明
图1为一个实施例中声纹判别方法的流程示意图;
图2为另一个实施例中声纹判别方法的流程示意图;
图3为一个实施例中获取预设阈值过程的流程示意图;
图4为一个实施例中同源时余弦相似度的分布示意图;
图5为一个实施例中异源时余弦相似度的分布示意图;
图6为一个实施例中同源时对数似然比的分布示意图;
图7为一个实施例中异源时对数似然比的分布示意图;
图8为一个实施例中同源分布曲线与异源分布曲线的示意图;
图9为一个实施例中在质量参数不同取值下的同源分布曲线与异源分布曲线的示意图;
图10为一个实施例中声纹判别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
目前,指纹、虹膜、DNA及笔迹等都可以作为鉴别个体身份的有效凭据。相对于这些传统的个体生物特征而言,声纹特征是一个新兴的研究领域。近年来,随着相关技术的深入研究和发展,声纹识别尤其是基于声纹辅助对说话人身份进行识别的技术越来越受到相关研究人员的重视。
对于上述传统的个体生物特征,通过DNA、指纹、声纹或笔迹等进行特征同一性认定上都出现过错误。出现这些问题的原因主要是对样本之间的辨证关系认识不足,也即在对特征相似的可信度进行评估时,缺乏科学有效的方法。随着声纹识别领域的数据积累及研究发展,基于声纹特征对说话人身份进行识别的准确性越来越高。
在基于声纹特征对说话人身份进行识别时,主要是采用声纹对比的方式。声纹对比可以给出两个声纹是否同源的判断结果。例如,对于案发现场或案发过程中所获得的语音样本,也即检材数据,可从中提取足够稳定的语言特征或者与说话人个体相关的语音特征,而对于嫌疑对象的语音样本,也即样本数据,也可以作相同处理,进而利用这些语音特征加以识别或确认。
目前,在国内绝大多数的法庭说话人识别案件中,都希望能给定“是同一人”或“不是同一人”这样明确的结论。但是,由于受各种主客观条件的限制,如录音的环境、语音证据提取、录音保存条件及方法、检验鉴定的时间间隔、检验设备以及检验方法等局限,实犯对象样本和嫌疑对象样本之间或多或少都会存在一定程度的差异,从而决定了像上述那样给出明确的结论且结论要达到100%确认几乎是不可能的。因此,用于语音特征的识别或确认的客观比对判别方法是非常迫切的。
基于上述需求,目前提供了几种方案。第一种方案是靠人工进行相关的听觉分析及声学分析。具体地,主要是由专业的语音鉴定专家去开展,利用他们的专业知识进行比较声音特征,从而判断二者是否是同一人或者多大可能性是同一人。其中,可以用于比较的声音特征可以为音质音色、音高、共振峰及基频等等。
第二种方案是基于统计概率的证据评估方法,该方法最开始在DNA证据上应用,目前逐渐应用于声纹鉴定,该方法在国内外均获得了广泛的认同。基于统计概率的证据评估方法主要是基于似然比,也即将似然比框架引入法庭的语音证据鉴定领域,可以评估语音证据对鉴定结论支持力度的大小。基于似然比的证据评估方法是逻辑上和法律上都正确的法庭证据评估方法,也是向法庭提供证据强度评估的科学方法。
具体地,似然比可以表示第一概率与第二概率的比值,该比值可以量化证据对鉴定结论支持的力度。其中,第一概率指的是在一个给定的假设条件下,观测到证据(也即观测到实犯对象的语音样本与嫌疑对象的语音样本之间存在声学差异,或者说观测到实犯对象的语音样本与嫌疑对象的语音样本不同源)的概率。第二概率指的是在完全相反的假设条件下,观测到证据的概率。
观测到检材数据(即待比对的语音数据,也即实犯对象的语音样本)与样本数据(也即嫌疑对象的语音样本)是否同源的概率,主要是考虑两个方面:一方面是检材数据与样本数据之间的相似性,另一方面是样本数据在背景人群中的典型性。如果仅仅发现样本数据与作为证据的检测数据非常相似,而样本数据是背景人群中的典型特征,也即大部分人之间都很相似,那么就不足以给出样本数据与作为证据的检测数据大概率同源的结论。贝叶斯理论明确指明,相似性和典型性对证据评估来说都是必不可少的。由此,上述似然比的值实际上是样本数据的相似性和典型性相互作用的结果。
其中,似然比框架可参考如下公式(1):
在公式(1)中,Hso表示检材数据与样本数据同源假设。Hdo表示检材数据与样本数据不同源假设,也即异源假设。E表示证据,也即检材数据。其中,等式右边第一项为在同源假设和异源假设情况下观测到证据的概率比,即似然比。似然比反映了检材数据和样本数据为同源的概率是为异源的概率的倍数。显然,似然比越大,检材数据和样本数据同源的概率就越大。反之,异源的概率越大。当似然比为1时,则表示检材数据作为证据没有证明力度。
上述公式(1)中,等式左边为后验概率比,等式右边第二项为先验概率比。其中,先验概率比指的是事先给出的两种假设的概率比,后验概率比指的是结合似然比和先验概率比共同计算的结果。在似然比框架中,法庭科学家提供当前的语音证据,也即检材数据,支持哪一个假设,并且给出量化的支持力度。然后,与案件的其他先验知识相结合,得到帮助法官判断的后验概率比。因此,公式(1) 中等式右边第二项的先验概率比和等式左边第一项的后验概率比都是由法庭负责给出,而等式右边第一项的似然比由专家给出。其中,似然比并不能给出绝对的支持假设或拒绝假设这样的二元判断,而是量化当前证据对鉴定结果的支持强度,最终的判定结果仍由法庭裁决。因此,可以认为专家给出的似然比对法庭的判定结果起到了一定的辅助作用。上述似然比方法是迄今为止最科学和客观的法庭证据评估方法,也是语音证据评价的国际新范式。
由上述内容可知,需要获取检材数据与样本数据为同源假设或异源假设的概率。基于该需求,需要使用声纹识别技术以进行声纹比对,从而判断同源或异源可能性的大小。在相关技术中,人工比对是最传统的鉴别方法,但该方法可能会过于关注于特征间的相似性,主观性更强。尤其是经验不足的鉴定人员,没有见过大量的对比案例,无法判断特征的典型性(差异性),这样往往会使鉴定结果存在较大的偏差。
而随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于鉴定人员进行同源的判别认定。
在上述深度学习方法中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
针对上述相关技术中存在的问题,本发明实施例提供了一种声纹判别方法,该方法可以应用于终端中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。
结合上述说明,在一个实施例中,参见图1,提供了一种声纹判别方法。以该方法应用于终端,且执行主体为终端为例进行说明,该方法包括如下步骤:
101、获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
102、基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
103、基于检材语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
在上述步骤101中,检材数据与样本数据为待判别是否同源的两个语音数据。以实犯对象的语音数据与嫌疑对象的语音数据是否同源的这个应用场景为例,检材数据为案发现场或案发过程中所获得的语音样本,而样本数据为嫌疑对象的语音样本。相关系数主要是用来表示检材数据与样本数据之间的差异大小,相关系数可以为不同的数据类型,并可以由不同的算法计算得到,本发明实施例对此不作具体限定。例如,相关系数可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、对数似然相似度、欧氏距离或曼哈顿距离等,本发明实施例对此不作具体限定。
另外,在执行步骤101之前,也即在获取目标相关系数之前,可以先分别提取检材数据与样本数据对应的声纹特征。其中,声纹特征可以为某一类型的特征向量,如i-vector、d-vector或x-vector等,本发明实施例对此不作具体限定。在提取声纹特征时之前,可以预先训练用于提取声纹特征的神经网络模型,再通过神经网络模型来提取。当然,实际实施过程中,也可以采用其它提取声纹特征的方式,本发明实施例对此不作具体限定。需要说明的是,为了获取目标相关系数,可以采用相同的某一特征提取方式,来提取分别提取检材数据与样本数据对应的声纹特征。
在上述步骤102中,检材语音库主要是由不同说话人身份的语音样本所组成的,样本语音库也是由不同说话人身份的语音样本所组成的,且检材语音库与样本语音库中说话人身份是明确的。相应地,检材语音库与样本语音库中的语音样本就可以组成一组组的语音样本对比对,这些对比对中说话人身份也是明确的。比如,一组语音样本对比对中其中一个语音样本是来自检材语音库的,另外一个语音样本可以是来自样本语音库的,这两个语音样本可以对应同一说话人身份,也即是由同一个人说的两句话录制形成的两个语音样本,也可以对应两个说话人身份,也即是由不同的两个人各自说的一句话录制形成的两个语音样本。
由于检材语音库与样本语音库中的语音样本可以组成一组组的语音样本对比对,而这些语音样本对比对其说话人身份是确定的,从而基于上述两点,就可以拟合出一个检材数据与样本数据之间相关系数的预设阈值。在上述步骤103 中,若目标相关系数大于预设阈值,则可以认为检材数据与样本数据是同源的,也即两者是来源于同一个说话人身份。若目标相关系数不大于预设阈值,则可以认为检材数据与样本数据是异源的,也即两者是来源于不同的说话人身份。当然,实际实施过程中,关于预设阈值的判断也可以反过来,本发明实施例对此不作具体限定。
需要说明的是,为了避免环境或者信道等因素所带来的干扰,样本语音库与检材语音库中的语音样本均可以具备较高的语音质量。另外,实际实施过程中,可以先准备样本语音库,再从样本语音库中选取一定数量条语音样本,再由这些选取的语音样本组成检材语音库。例如,可以先获取由N(N>1)个不同的说话人所生成的语音样本,由这些语音样本可以组成样本语音库。再从样本语音库中就每一说话人均分出k(k≥1)条语音样本,由这些分出的语音样本组成检材语音库。实际实施过程中,在从样本语音库中分出语音样本时,每一说话人分出的语音样本条数可以相同,可以不同,本发明实施例对此不作具体限定。另外,检材语音库中所有语音样本对应的说话人身份与样本语音库中所有语音样本对应的的说话人身份,可以完全相同,也可以不完全相同,本发明实施例对此也不作具体限定。
由于由两个相同的语音样本组成的语音样本对比对,其不存在差异性,从而这样的语音样本对比对用于拟合预设阈值是无意义的。因此,实际实施过程中,若检材语音库是由样本语音库分出的语音样本所组成的,则还可以将从样本语音库中分出的语音样本,从样本语音库中剔除掉,以保证样本语音库与检材语音库中不存在重复的语音样本。
本发明实施例提供的方法,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,参见图2,提供了一种声纹判别方法,包括以下步骤:
201、获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
202、获取检材数据的质量参数组;
203、根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配;
204、基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
上述步骤201及步骤204的具体过程,可参考上述实施例的内容,此处不再赘述。质量参数主要用于评估语音样本的语音质量,质量参数可以包括噪声长度或噪声类型等,本发明实施例对此不作具体限定。例如,由于语音样本的噪声长度若比较长,则说明语音样本中噪声多,语音质量可能会比较差,从而噪声长度可以作为质量参数。在执行步骤202之前,可以先确定需要使用哪几项,也即哪几种类型的质量参数用于评价语音质量,再在步骤202中获取这些质量参数,并组成质量参数组。
在上述步骤203中,对于任一项的质量参数,本发明不对根据检材数据的该项质量参数的取值,对检材语音库中的语音样本进行调整的方式作具体限定,包括但不限于:基于检材数据的该项质量参数的取值确定该项质量参数的取值区间;对检材语音库中语音样本的该项质量参数的取值进行调整,以使得检材语音库中语音样本的该项质量参数的取值处于该项质量参数的取值区间内。当然,实际实施过程中,在对检材语音库中语音样本的质量参数的取值进行调整时,对于某一项质量参数,也可以使检材语音库中语音样本的该项质量参数的取值与检材数据的该项质量参数的取值保持一致,本发明实施例对此不作具体限定。
以质量参数的类型为噪声长度为例,可以先确定检材数据的噪声长度的取值,基于该取值可以确定一个噪声长度的取值区间。例如,检材数据的噪声长度的取值为2秒,则检材数据的噪声长度的取值区间可以为1.8秒至2.2秒。而对于检材语音库中的语音样本,若某一语音样本的噪声长度为4秒,则可以缩短该语音样本的噪声长度,以使得其噪声长度处于上述噪声长度的取值区间内。
本发明实施例提供的方法,通过取检材数据的质量参数组,根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
为了便于理解,现以质量参数组包括四项质量参数为例,对上述实施例中步骤202的过程进行说明。在获取检材数据的上述四项质量参数之前,可以采用预设方式,确定出检材数据中的有效语音片段以及非语言片段。其中,预设方式可以为语音活动检测的方式,本发明实施例对此不作具体限定。具体地,检材数据其实质为一条音频,可以先对该音频x(n)进行时频分析,得到时频分布结果 X(l,ω)。其中,x(n)为时域音频,l为帧序号,ω为频点序号。上述时频分析的过程可参考如下公式(2):
X(l,ω)=STFT(x(n));(2)
然后,通过对X(l,ω)进行语音活动检测,确定哪些帧lv存在语音,也即有效语音片段,哪些帧ln作为噪声段,也即非语言片段,具体可参考如下公式(3) 及(4):
lv=VAD(X(l,ω));(3)
ln=not VAD(X(l,ω));(4)
通过上述过程,在获取到检材数据中的有效语音片段以及非语言片段之后,可以根据检材数据中的有效语音片段以及非语言片段,确定质量参数。例如,信噪比的计算过程可参考如下公式(5):
在上述公式(5)中,表示某一有效语音片段的有效信号输出功率, X(ln,ω)表示某一非语言片段的噪声信号输出功率。
而剩下的三项质量参数,也即语音有效时长、噪声类型及信道频率响应,该三项质量参数获取过程可如下:检材数据的语音有效时长可以由检材数据中的有效语音片段的时长累加所确定,检材数据的噪声类型可以由检材数据中非语言片段的噪声类型所确定。其中,噪声类型可以为汽车行驶声或为施工声等等。另外,检材数据的信道频率响应可参考如下公式(6)计算:
其中,信道响应频率指的是信道脉冲响应的傅里叶变换。信道脉冲响应是指在发送端发送一个脉冲信号,在接收端产生的响应。由于多径时延扩展和多普勒平移的原因,不同接收端会有这不同的信道脉冲响应,同一个位置相干时间之外,信道脉冲响应相关性也会比较小。那么在不同位置的接收端会因为多径的原因会有着不同的信道脉冲响应。
本发明实施例提供的方法,通过基于检材数据在信噪比、语音有效时长、噪声类型及信道频率响应中的至少一项质量参数,将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值。由于预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,本发明实施例不对基于检材语音库及样本语音库,获取预设阈值,包括但不限于如下方法。参见图3,该方法包括:
301、确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
302、根据每一对比对的相关系数,获取每一对比对的对数似然比;
303、根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
304、根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
为了便于说明获取预设阈值的过程,以样本特征库与检材特征库中不存在相同的语音样本、样本特征库与检材数据库中存在相同的说话人身份、样本特征库存在m条声纹特征、检材特征库存在n条声纹特征且相关系数的类型为余弦相似度为例。
对于样本特征库m条声纹特征中某一条声纹特征,该条声纹特征与检材特征库中n条声纹特征可以组成n组对比对,从而样本特征库m条声纹特征与检材特征库中n条声纹特征可以组成m*n组对比对。由于样本特征库与检材数据库中存在相同的说话人身份,从而该m*n组对比对中既存在同源对比对,也存在异源对比对。另外,由于每条声纹特征对应的说话人身份已知,从而m*n组对比对中哪些对比对是同源对比对,哪些对比对是异源对比对,也是可以获知的。
需要说明的是,这些对比对是由样本特征库及检材语音库中语音样本对应的声纹特征构成的,而后续是需要计算两个声纹特征之间的相关系数的。因此,可以采用相同的某一特征提取方式,来分别提取样本特征库及检材语音库中语音样本对应的声纹特征。另外,该特征提取方式可以与步骤101中,分别提取检材数据与样本数据对应的声纹特征时所采用的特征提取方式一致,也可以不一致,只需后续得到的相关系数的类型一致即可,本发明实施例对此不作具体限定。
通过上述步骤301,可以确定同源对比对及异源对比对。在执行上述步骤302 之前,可以计算每一同源对比对的相关系数及每一异源对比对的相关系数。以相关系数为余弦相似度为例,计算余弦相似度的过程可参考如下公式(7):
在上述公式(7)中,a与b均表示声纹特征的特征向量,cosθ表示余弦相似度。通过该公式,可以计算得到所有对比对的余弦相似度。需要说明的是,对于某一组对比对,无论是同源对比对还是异源对比对,用来表示该组对比对中两个声纹特征的特征向量,其类型在实际实施过程中可以有很多种。例如,该组对比对中两个声纹特征的特征向量可以用A1及A2来表示,或者用B1及B2来表示,还可以用C1及C2来表示。其中,A、B、C均为不同类型的特征向量。在获取该组对比对的相关系数时,可以使用某一类型的特征向量,如类型A的特征向量,从而基于A1及A2来计算该组对比对的相关系数。实际实施过程中,可以采用x-vector特征向量,本发明实施例对此不作具体限定。
需要说明的是,按照理想的状况,同源对比对对应的余弦相似度和异源对比对对应的余弦相似度应当有所区别,也即两者取值区间应当不会重叠,以便于进行同源或异源的判断。但这只是理想的状况,实际实施过程中,以相关系数为余弦相似度为例,上述所有同源对比对的余弦相似度其分布可参考图4,上述所有异源对比对的余弦相似度其分布可参考图5。
在图4及图5中,横坐标表示余弦相似度的取值,纵坐标表示每一种余弦相似度的取值所出现的频次。由图4及图5可以看出,同源对比对所对应的余弦相似度其取值分布和异源对比对所对应的余弦相似度其取值分布,均比较宽,且是存在重合部分的,若检材数据与样本数据之间的相关系数落入了重合部分的取值区间中,则检材数据与样本数据之间究竟是同源还是异源,基于余弦相似度就很难判别。
需要说明的是,余弦相似度之所以会呈现图4及图5这样的分布,是因为余弦相似度是绝对度量,其值会因为检材数据的质量参数取值的不同,而发生较大变化,从而才会呈现图4及图5中那样较宽的分布,而这是不能达到精准确定预设阈值的目的的。为了解决这个问题,才需要执行上述步骤302,将相关系数转化为对数似然比。其中,余弦相似度的取值区间为-1至1,而对数似然比的取值区间为负无穷至正无穷,取值区间的范围更加广泛。不同于余弦相似度,对数似然比是个相对度量,对数似然比为0则表示无法判断同源还是异源。
将相关系数转化为对数似然比,相关系数与对数似然比之间取值分布的区别,具体可参考图6及图7。在图6及图7中,横坐标表示对数似然比的取值,纵坐标表示每一种对数似然比的取值所出现的频次。由图6及图7可以看出,同源对比对所对应的对数似然比其取值分布和异源对比对所对应的对数似然比其取值分布,均比较窄,且重合部分也比较少。由此可见,将对数似然比作为判断依据,会更加精准。
对于上述步骤303,以相关系数为余弦相似度为例,同源分布曲线与异源分布曲线可参考图8。图8中横坐标表示余弦相似度,纵坐标表示对数似然比。由上述过程可知,根据每一对比对的相关系数,是可以获取到每一同源对比对的对数似然比的,也即两者存在映射关系。基于两者的映射关系,两者结合可以作为二维平面的一个点。
其中,同源对比对对应的点可以形成同源分布曲线,而异源对比对对应的点可以形成异源分布曲线。在图8中,从左至右先处于高位的曲线为异源分布曲线,而另一条曲线即为同源分布曲线。由于横坐标代表余弦相似度,当余弦相似度取值较低时,表示两个声纹特征差异比较大,从而在图8中余弦相似度取值较低的区间内,异源分布曲线是处于高位的,也即余弦相似度的取值落入至这个区间内时,两个声纹特征为异源的可能性比较大。
对于上述步骤304,由图8可以明显看出,两条曲线在交点的左右两侧,高低位刚好相反,也即可以认为余弦相似度落入至交点左侧的取值区间内时,表示两个声纹特征为异源,余弦相似度落入至交点右侧的取值区间内时,表示两个声纹特征为同源。其中,两条曲线的交点表示同源与异源的概率相等,图8中交点对应的余弦相似度即为预设阈值,取值大致为0.7。
由上述实施例可知,本发明实施例在获取预设阈值时,是需要将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐的。以其中一项质量参数语音有效时长的变化为例,语音有效时长可以为10秒、20秒、30秒及40秒等。基于不同语音有效时长的检材语音库所获取的预设阈值可以参考图9。由图9可知,不同语音有效时长下,同源分布曲线与异源分布曲线各自的形状不同,且两者交点的所处位置也是不同的。而交点所处位置对应的余弦相似度即为预设阈值,也即不同语音有效时长下所获取的预设阈值也是不同的,其它类型的质量参数发生变化时同样会产生类似图9中的效果。由此,也可以证明质量参数是会对预设阈值的取值造成影响的。
本发明实施例提供的方法,通过确定同源对比对及异源对比对,根据每一同源对比对的相关系数,获取每一同源对比对的对数似然比,根据每一异源对比对的相关系数,获取每一异源对比对的对数似然比。根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
应该理解的是,虽然图1及图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1及图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
结合上述实施例的内容,在一个实施例中,在根据每一对比对的相关系数,获取每一对比对的对数似然比之前,还可以获取每一对比对的相关系数,本发明实施例不对获取每一对比对的相关系数的方式作具体限定,包括但不限于:
对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
对于某一组对比对,上述过程主要是说明可以采用多种类型特征向量来表示该组对比对,每种类型的特征向量均可以计算出一个相关系数,从而再对所有类型的特征向量对应计算得到的相关系数取相关系数综合值,将该相关系数综合值作为该组对比对的相关系数。同理,上述步骤101中,在获取目标相关系数时,也可以采用相同的取综合值的方式,本发明实施例对此不作具体限定。其中,取综合值的方式可以为取平均值,或者加权求和等,本发明实施例对此不作具体限定。
需要说明的是,采用这种方式需要在基于每种类型的特征向量计算相关系数时,计算得到的相关系数的类型需要是一致的,以使得相同类型的相关系数才可以取综合值。例如,结合上述示例中的内容,A1及A2可以计算得到相关系数a,而B1及B2可以计算得到相关系数b,而C1及C2可以计算得到相关系数c。其中,a、b及c均为相同类型的相关系数。对a、b及c的和值取平均值,该平均值即可作为该组对比对的相关系数。
本发明实施例提供的方法,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
结合上述实施例的内容,在一个实施例中,本发明实施例不对根据每一对比对的相关系数,获取每一对比对的对数似然比的方式作具体限定,包括但不限于:将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
在上述过程中,在建立第一度量转化模型及第二度量转化模型时,可以采用相同的预设算法建模,并采用EM(Expectation-Maximum,期望最大化)算法进行拟合。其中,EM算法是一种解决存在隐含变量优化问题的有效方法,是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E 步),另一个为极大步(M步),从而这样的算法被称为EM算法。EM算法的主要思想是首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前己经观测到的数据,重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。本发明实施例提供的方法,主要是通过建模加上EM算法,对似然比进行估计。
本发明实施例提供的方法,对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
本发明实施例提供的方法,对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,如图10所示,提供了一种声纹判别装置,包括:第一获取模块1001、处理模块1002、第二获取模块1003及判别模块1004,其中:
第一获取模块1001,用于获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
处理模块1002,用于基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
第二获取模块1003,用于基于检材语音库及样本语音库,获取预设阈值;
判别模块1004,用于基于预设阈值,对目标相关系数进行判别。
在一个实施例中,处理模块1002,用于获取检材数据的质量参数组;根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,第二获取模块1003,包括:
第一确定单元,用于确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
第一获取单元,用于根据每一对比对的相关系数,获取每一对比对的对数似然比;
第二确定单元,用于根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
第三确定单元,用于根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
在一个实施例中,第二获取模块1003,还包括:
第二获取单元,用于对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
第三获取单元,用于根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
在一个实施例中,第一获取单元,用于将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
在一个实施例中,预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
本发明实施例提供的装置,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
关于声纹判别装置的具体限定可以参见上文中对于声纹判别方法的限定,在此不再赘述。上述声纹判别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹判别方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,处理器在执行计算机程序时,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
根据每一对比对的相关系数,获取每一对比对的对数似然比;
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
在一个实施例中,处理器在执行计算机程序时,预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
基于检材语音库及样本语音库,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,计算机程序被处理器执行时,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
根据每一对比对的相关系数,获取每一对比对的对数似然比;
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
在一个实施例中,计算机程序被处理器执行时,预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种声纹判别方法,其特征在于,所述方法包括:
获取目标相关系数,所述目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配;
确定对比对,所述对比对包括同源对比对及异源对比对,所述同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述异源对比对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,所述检材特征库是由所述检材语音库中语音样本对应的声纹特征所构成的;
对于任一对比对,获取所述任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由所述任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将所述相关系数综合值作为所述任一对比对的相关系数;
根据每一对比对的相关系数,获取每一对比对的对数似然比;
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,所述同源分布曲线与所述异源分布曲线的横坐标表示相关系数,所述同源分布曲线与所述异源分布曲线的纵坐标表示对数似然比;
根据所述同源分布曲线与所述异源分布曲线之间的交点,确定预设阈值,并基于所述预设阈值,对所述目标相关系数进行判别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配,包括:
获取所述检材数据的质量参数组;
根据所述质量参数组中每项质量参数的取值及类型,对所述检材语音库中的语音样本进行调整,以使得所述检材语音库中每一语音样本的每项质量参数的取值与所述质量参数组中每项质量参数的取值相匹配。
3.根据权利要求2所述的方法,其特征在于,所述质量参数组中包括以下四项质量参数中的至少任意一项,所述以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
4.根据权利要求1所述的方法,其特征在于,所述根据每一对比对的相关系数,获取每一对比对的对数似然比,包括:
将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,所述第一度量转化模型与所述第二度量转化模型是基于相同的预设算法所建立的。
5.根据权利要求4所述的方法,其特征在于,所述预设算法为混合高斯算法、逻辑线性回归算法或非参数化算法。
6.一种声纹判别装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标相关系数,所述目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
处理模块,用于基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配;
第二获取模块,用于确定对比对,所述对比对包括同源对比对及异源对比对,所述同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述异源对比对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,所述检材特征库是由所述检材语音库中语音样本对应的声纹特征所构成的;根据每一对比对的相关系数,获取每一对比对的对数似然比;根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,所述同源分布曲线与所述异源分布曲线的横坐标表示相关系数,所述同源分布曲线与所述异源分布曲线的纵坐标表示对数似然比;根据所述同源分布曲线与所述异源分布曲线之间的交点,确定预设阈值;
判别模块,用于基于所述预设阈值,对所述相关系数进行判别;
第二获取模块,还包括:
第二获取单元,用于对于任一对比对,获取所述任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由所述任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
第三获取单元,用于根据每一特征向量组对应的相关系数,获取相关系数综合值,并将所述相关系数综合值作为所述任一对比对的相关系数。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202110535800.3A 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质 Active CN113327617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110535800.3A CN113327617B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110535800.3A CN113327617B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113327617A CN113327617A (zh) 2021-08-31
CN113327617B true CN113327617B (zh) 2024-04-19

Family

ID=77415694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110535800.3A Active CN113327617B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113327617B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593581B (zh) * 2021-07-12 2024-04-19 西安讯飞超脑信息科技有限公司 声纹判别方法、装置、计算机设备和存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
JP2008233725A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108735222A (zh) * 2018-05-03 2018-11-02 广州国音科技有限公司 一种基于声纹识别的声纹鉴定方法及系统
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109313903A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110797032A (zh) * 2020-01-06 2020-02-14 深圳中创华安科技有限公司 一种声纹数据库建立方法及声纹识别方法
CN111199729A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法及装置
KR20200100332A (ko) * 2019-02-18 2020-08-26 주식회사 케이티 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN111656440A (zh) * 2018-01-23 2020-09-11 思睿逻辑国际半导体有限公司 说话人辨识
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112735437A (zh) * 2020-12-15 2021-04-30 厦门快商通科技股份有限公司 一种声纹比对方法及系统及装置及存储机构

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US9940934B2 (en) * 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
JP2008233725A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN109313903A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN111656440A (zh) * 2018-01-23 2020-09-11 思睿逻辑国际半导体有限公司 说话人辨识
CN108735222A (zh) * 2018-05-03 2018-11-02 广州国音科技有限公司 一种基于声纹识别的声纹鉴定方法及系统
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN111199729A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法及装置
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
KR20200100332A (ko) * 2019-02-18 2020-08-26 주식회사 케이티 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110797032A (zh) * 2020-01-06 2020-02-14 深圳中创华安科技有限公司 一种声纹数据库建立方法及声纹识别方法
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112735437A (zh) * 2020-12-15 2021-04-30 厦门快商通科技股份有限公司 一种声纹比对方法及系统及装置及存储机构

Also Published As

Publication number Publication date
CN113327617A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
Morrison A comparison of procedures for the calculation of forensic likelihood ratios from acoustic–phonetic data: Multivariate kernel density (MVKD) versus Gaussian mixture model–universal background model (GMM–UBM)
CN109065027B (zh) 语音区分模型训练方法、装置、计算机设备及存储介质
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN109065022B (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
Morrison Vowel inherent spectral change in forensic voice comparison
CN113327617B (zh) 声纹判别方法、装置、计算机设备和存储介质
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN113327618B (zh) 声纹判别方法、装置、计算机设备和存储介质
CN115204238A (zh) 用于可穿戴设备上的ppg信号身份识别方法及可穿戴设备
Sholokhov et al. Voice biometrics security: Extrapolating false alarm rate via hierarchical Bayesian modeling of speaker verification scores
CN113593581B (zh) 声纹判别方法、装置、计算机设备和存储介质
CN113421546A (zh) 基于跨被试多模态的语音合成方法及相关设备
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Chen et al. Minimum divergence estimation of speaker prior in multi-session PLDA scoring
CN111681671B (zh) 异常音识别方法、装置及计算机存储介质
Nair et al. Comparison between Mel-frequency and complex cepstral coefficients for forensic voice comparison using a likelihood ratio framework
CN107993666A (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
Juneja Two-level noise robust and block featured PNN model for speaker recognition in real environment
Eglitis et al. Influence of Test Protocols on Biometric Recognition Performance Estimation
Pop et al. On forensic speaker recognition case pre-assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant