CN113327618B - 声纹判别方法、装置、计算机设备和存储介质 - Google Patents

声纹判别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113327618B
CN113327618B CN202110536905.0A CN202110536905A CN113327618B CN 113327618 B CN113327618 B CN 113327618B CN 202110536905 A CN202110536905 A CN 202110536905A CN 113327618 B CN113327618 B CN 113327618B
Authority
CN
China
Prior art keywords
voice
sample
comparison
correlation coefficient
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110536905.0A
Other languages
English (en)
Other versions
CN113327618A (zh
Inventor
梁萌
付中华
王海坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xunfei Super Brain Information Technology Co ltd
Original Assignee
Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xunfei Super Brain Information Technology Co ltd filed Critical Xi'an Xunfei Super Brain Information Technology Co ltd
Priority to CN202110536905.0A priority Critical patent/CN113327618B/zh
Publication of CN113327618A publication Critical patent/CN113327618A/zh
Application granted granted Critical
Publication of CN113327618B publication Critical patent/CN113327618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Abstract

本申请涉及一种声纹判别方法、装置、计算机设备和存储介质。方法包括:获取目标相关系数;基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比;根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。

Description

声纹判别方法、装置、计算机设备和存储介质
技术领域
本申请涉及声音识别技术领域,特别是涉及一种声纹判别方法、装置、计算机设备和存储介质。
背景技术
随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于鉴定人员进行同源的判别认定。
在上述过程中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高检材数据鉴定结果准确性的声纹处理方法、装置、计算机设备和存储介质。
一种声纹处理方法,该方法包括:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
在其中一个实施例中,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配,包括;
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在其中一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在其中一个实施例中,将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比之前,还包括:
将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对初始模型中参数的更新,并得到预设模型。
在其中一个实施例中,初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,将样本对比对输入至初始模型中,输出样本对比对的对数似然比,包括:
将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;
将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
在其中一个实施例中,将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比之前,还包括:
对于任一对比对,获取任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为任一对比对的相关系数。
在其中一个实施例中,根据每一对比对的对数似然比,获取预设阈值,包括:
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
一种声纹判别装置,该装置包括:
第一获取模块,用于获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
预设处理模块,用于基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
第一输出模块,用于将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
第二获取模块,用于根据每一对比对的对数似然比,获取预设阈值;
判别模块,用于基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
上述声纹判别方法、装置、计算机设备和存储介质,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比。根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
附图说明
图1为一个实施例中声纹判别方法的流程示意图;
图2为另一个实施例中声纹判别方法的流程示意图;
图3为又一个实施例中声纹判别方法的流程示意图;
图4为一个实施例中预设模型的结构示意图;
图5为再一个实施例中声纹判别方法的流程示意图;
图6为一个实施例中同源时余弦相似度的分布示意图;
图7为一个实施例中异源时余弦相似度的分布示意图;
图8为一个实施例中同源时对数似然比的分布示意图;
图9为一个实施例中异源时对数似然比的分布示意图;
图10为一个实施例中同源分布曲线与异源分布曲线的示意图;
图11为一个实施例中在质量参数不同取值下的同源分布曲线与异源分布曲线的示意图;
图12为一个实施例中声纹判别装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
目前,指纹、虹膜、DNA及笔迹等都可以作为鉴别个体身份的有效凭据。相对于这些传统的个体生物特征而言,声纹特征是一个新兴的研究领域。近年来,随着相关技术的深入研究和发展,声纹识别尤其是基于声纹辅助对说话人身份进行识别的技术越来越受到相关研究人员的重视。
对于上述传统的个体生物特征,通过DNA、指纹、声纹或笔迹等进行特征同一性认定上都出现过错误。出现这些问题的原因主要是对样本之间的辨证关系认识不足,也即在对特征相似的可信度进行评估时,缺乏科学有效的方法。随着声纹识别领域的数据积累及研究发展,基于声纹特征对说话人身份进行识别的准确性越来越高。
在基于声纹特征对说话人身份进行识别时,主要是采用声纹对比的方式。声纹对比可以给出两个声纹是否同源的判断结果。例如,对于案发现场或案发过程中所获得的语音样本,也即检材数据,可从中提取足够稳定的语言特征或者与说话人个体相关的语音特征,而对于嫌疑对象的语音样本,也即样本数据,也可以作相同处理,进而利用这些语音特征加以识别或确认。
目前,在国内绝大多数的法庭说话人识别案件中,都希望能给定“是同一人”或“不是同一人”这样明确的结论。但是,由于受各种主客观条件的限制,如录音的环境、语音证据提取、录音保存条件及方法、检验鉴定的时间间隔、检验设备以及检验方法等局限,实犯对象样本和嫌疑对象样本之间或多或少都会存在一定程度的差异,从而决定了像上述那样给出明确的结论且结论要达到100%确认几乎是不可能的。因此,用于语音特征的识别或确认的客观比对判别方法是非常迫切的。
基于上述需求,目前提供了几种方案。第一种方案是靠人工进行相关的听觉分析及声学分析。具体地,主要是由专业的语音鉴定专家去开展,利用他们的专业知识进行比较声音特征,从而判断二者是否是同一人或者多大可能性是同一人。其中,可以用于比较的声音特征可以为音质音色、音高、共振峰及基频等等。
第二种方案是基于统计概率的证据评估方法,该方法最开始在 DNA证据上应用,目前逐渐应用于声纹鉴定,该方法在国内外均获得了广泛的认同。基于统计概率的证据评估方法主要是基于似然比,也即将似然比框架引入法庭的语音证据鉴定领域,可以评估语音证据对鉴定结论支持力度的大小。基于似然比的证据评估方法是逻辑上和法律上都正确的法庭证据评估方法,也是向法庭提供证据强度评估的科学方法。
具体地,似然比可以表示第一概率与第二概率的比值,该比值可以量化证据对鉴定结论支持的力度。其中,第一概率指的是在一个给定的假设条件下,观测到证据(也即观测到实犯对象的语音样本与嫌疑对象的语音样本之间存在声学差异,或者说观测到实犯对象的语音样本与嫌疑对象的语音样本不同源)的概率。第二概率指的是在完全相反的假设条件下,观测到证据的概率。
观测到检材数据(也即实犯对象的语音样本)与样本数据(也即嫌疑对象的语音样本)是否同源的概率,主要是考虑两个方面:一方面是检材数据与样本数据之间的相似性,另一方面是样本数据在背景人群中的典型性。如果仅仅发现样本数据与作为证据的检测数据非常相似,而样本数据是背景人群中的典型特征,也即大部分人之间都很相似,那么就不足以给出样本数据与作为证据的检测数据大概率同源的结论。贝叶斯理论明确指明,相似性和典型性对证据评估来说都是必不可少的。由此,上述似然比的值实际上是样本数据的相似性和典型性相互作用的结果。
其中,似然比框架可参考如下公式(1):
在公式(1)中,Hso表示检材数据与样本数据同源假设。Hdo表示检材数据与样本数据不同源假设,也即异源假设。E表示证据,也即检材数据。其中,等式右边第一项为在同源假设和异源假设情况下观测到证据的概率比,即似然比。似然比反映了检材数据和样本数据为同源的概率是为异源的概率的倍数。显然,似然比越大,检材数据和样本数据同源的概率就越大。反之,异源的概率越大。当似然比为 1时,则表示检材数据作为证据没有证明力度。
上述公式(1)中,等式左边为后验概率比,等式右边第二项为先验概率比。其中,先验概率比指的是事先给出的两种假设的概率比,后验概率比指的是结合似然比和先验概率比共同计算的结果。在似然比框架中,法庭科学家提供当前的语音证据,也即检材数据,支持哪一个假设,并且给出量化的支持力度。然后,与案件的其他先验知识相结合,得到帮助法官判断的后验概率比。因此,公式(1)中等式右边第二项的先验概率比和等式左边第一项的后验概率比都是由法庭负责给出,而等式右边第一项的似然比由专家给出。其中,似然比并不能给出绝对的支持假设或拒绝假设这样的二元判断,而是量化当前证据对鉴定结果的支持强度,最终的判定结果仍由法庭裁决。因此,可以认为专家给出的似然比对法庭的判定结果起到了一定的辅助作用。上述似然比方法是迄今为止最科学和客观的法庭证据评估方法,也是语音证据评价的国际新范式。
由上述内容可知,需要获取检材数据与样本数据为同源假设或异源假设的概率。基于该需求,需要使用声纹识别技术以进行声纹比对,从而判断同源或异源可能性的大小。在相关技术中,人工比对是最传统的鉴别方法,但该方法可能会过于关注于特征间的相似性,主观性更强。尤其是经验不足的鉴定人员,没有见过大量的对比案例,无法判断特征的典型性(差异性),这样往往会使鉴定结果存在较大的偏差。
而随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于鉴定人员进行同源的判别认定。
在上述深度学习方法中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
针对上述相关技术中存在的问题,本发明实施例提供了一种声纹判别方法,该方法可以应用于终端中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。
结合上述说明,在一个实施例中,参见图1,提供了一种声纹判别方法。以该方法应用于终端,且执行主体为终端为例进行说明,该方法包括如下步骤:
101、获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
102、基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
103、将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
104、根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
在上述步骤101中,检材数据与样本数据为待判别是否同源的两个语音数据。以实犯对象的语音数据与嫌疑对象的语音数据是否同源的这个应用场景为例,检材数据为案发现场或案发过程中所获得的语音样本,而样本数据为嫌疑对象的语音样本。相关系数主要是用来表示检材数据与样本数据之间的差异大小,相关系数可以为不同的数据类型,并可以由不同的算法计算得到,本发明实施例对此不作具体限定。例如,相关系数可以为余弦相似度、皮尔森相关系数、Jaccard 相似系数、Tanimoto系数、对数似然相似度、欧氏距离或曼哈顿距离等,本发明实施例对此不作具体限定。
另外,在执行步骤101之前,也即在获取目标相关系数之前,可以先分别提取检材数据与样本数据对应的声纹特征。其中,声纹特征可以为某一类型的特征向量,如i-vector、d-vector或x-vector等,本发明实施例对此不作具体限定。在提取声纹特征时之前,可以预先训练用于提取声纹特征的神经网络模型,再通过神经网络模型来提取。当然,实际实施过程中,也可以采用其它提取声纹特征的方式,本发明实施例对此不作具体限定。需要说明的是,为了获取目标相关系数,可以采用相同的某一特征提取方式,来提取分别提取检材数据与样本数据对应的声纹特征。
在上述步骤102中,检材语音库主要是由不同说话人身份的语音样本所组成的,样本语音库也是由不同说话人身份的语音样本所组成的,且检材语音库与样本语音库中说话人身份是明确的。相应地,检材语音库与样本语音库中的语音样本就可以组成一组组的语音样本对比对,这些对比对中说话人身份也是明确的。比如,一组语音样本对比对中其中一个语音样本是来自检材语音库的,另外一个语音样本可以是来自样本语音库的,这两个语音样本可以对应同一说话人身份,也即是由同一个人说的两句话录制形成的两个语音样本,也可以对应两个说话人身份,也即是由不同的两个人各自说的一句话录制形成的两个语音样本。
需要说明的是,为了避免环境或者信道等因素所带来的干扰,样本语音库与检材语音库中的语音样本均可以具备较高的语音质量。另外,实际实施过程中,可以先准备样本语音库,再从样本语音库中选取一定数量条语音样本,再由这些选取的语音样本组成检材语音库。例如,可以先获取由N(N>1)个不同的说话人所生成的语音样本,由这些语音样本可以组成样本语音库。再从样本语音库中就每一说话人均分出k(K≥1)条语音样本,由这些分出的语音样本组成检材语音库。实际实施过程中,在从样本语音库中分出语音样本时,每一说话人分出的语音样本条数可以相同,可以不同,本发明实施例对此不作具体限定。另外,检材语音库中所有语音样本对应的说话人身份与样本语音库中所有语音样本对应的的说话人身份,可以完全相同,也可以不完全相同,本发明实施例对此也不作具体限定。
由于由两个相同的语音样本组成的语音样本对比对,其不存在差异性,从而这样的语音样本对比对用于拟合预设阈值是无意义的。因此,实际实施过程中,若检材语音库是由样本语音库分出的语音样本所组成的,则还可以将从样本语音库中分出的语音样本,从样本语音库中剔除掉,以保证样本语音库与检材语音库中不存在重复的语音样本。
在对检材语音库中的语音样本作预设处理之后,可以执行上述步骤103。其中,每一对比对实则为两条声纹特征,同时该两条声纹特征是否属于同一说话人身份是已知的。在步骤103中,对比对的相关系数其计算方式,可以参考上述目标相关系数的计算方式。需要说明的是,实际实施过程中,由于预设阈值是基于对比对的相关系所确定的,而对目标相关系数进行判别需要用到预设阈值,为了保证判别依据与判别对象的同一性,从而目标相关系数及对比对的相关系数的计算过程可以相同。
另外,预设模型的类型可以神经网络模型或支持向量机等学习模型,本发明实施例对此不作具体限定。样本对比对主要是用于训练得到预设模型的,每一样本对比对也是由两条声纹特征所构成的。需要说明的是,实际实施过程中,可以直接将步骤103中的对比对作为步骤103中用于训练得到预设模型的样本对比对,也可以单独设置不同于上述对比对的样本对比对,本发明实施例对此不作具体限定。样本对比对的标注结果主要是通过人工对样本对比对中的两条声纹特征是否对应于同一说话人身份进行标注所确定的。在获知输入及输出的前提下,可以通过监督式的训练方式得到预设模型。
由于检材语音库与样本语音库中的语音样本可以组成一组组的语音样本对比对,并可以获取这些语音样本对比对的对数似然比,而这些语音样本对比对其说话人身份是确定的,从而基于上述每一对比对的对数似然比以及每一对比对所对应的说话人身份,就可以拟合出一个检材数据与样本数据之间相关系数的预设阈值。相应地,本发明实施例不对根据每一对比对的对数似然比,获取预设阈值的方式作具体限定,包括但不限于:对每一对比对的对数似然比取平均值;拟合每一对比对的对数似然比与相关系数之间线性关系;根据线性关系及平均值,确定预设阈值。
在确定预设阈值后,在上述步骤103中,若目标相关系数大于预设阈值,则可以认为检材数据与样本数据是同源的,也即两者是来源于同一个说话人身份。若目标相关系数不大于预设阈值,则可以认为检材数据与样本数据是异源的,也即两者是来源于不同的说话人身份。当然,实际实施过程中,关于预设阈值的判断也可以反过来,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比。根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,参见图2,提供了一种声纹判别方法,包括以下步骤:
201、获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
202、获取检材数据的质量参数组;
203、根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配;
204、将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
205、根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。
上述步骤201、步骤204及步骤205的具体过程,可参考上述实施例的内容,此处不再赘述。质量参数主要用于评估语音样本的语音质量,质量参数可以包括噪声长度或噪声类型等,本发明实施例对此不作具体限定。例如,由于语音样本的噪声长度若比较长,则说明语音样本中噪声多,语音质量可能会比较差,从而噪声长度可以作为质量参数。在执行步骤202之前,可以先确定需要使用哪几项,也即哪几种类型的质量参数用于评价语音质量,再在步骤202中获取这些质量参数,并组成质量参数组。
在上述步骤203中,对于任一项的质量参数,本发明不对根据检材数据的该项质量参数的取值,对检材语音库中的语音样本进行调整的方式作具体限定,包括但不限于:基于检材数据的该项质量参数的取值确定该项质量参数的取值区间;对检材语音库中语音样本的该项质量参数的取值进行调整,以使得检材语音库中语音样本的该项质量参数的取值处于该项质量参数的取值区间内。当然,实际实施过程中,在对检材语音库中语音样本的质量参数的取值进行调整时,对于某一项质量参数,也可以使检材语音库中语音样本的该项质量参数的取值与检材数据的该项质量参数的取值保持一致,本发明实施例对此不作具体限定。
以质量参数的类型为噪声长度为例,可以先确定检材数据的噪声长度的取值,基于该取值可以确定一个噪声长度的取值区间。例如,检材数据的噪声长度的取值为2秒,则检材数据的噪声长度的取值区间可以为1.8秒至2.2秒。而对于检材语音库中的语音样本,若某一语音样本的噪声长度为4秒,则可以缩短该语音样本的噪声长度,以使得其噪声长度处于上述噪声长度的取值区间内。
本发明实施例提供的方法,通过取检材数据的质量参数组,根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
为了便于理解,现以质量参数组包括四项质量参数为例,对上述实施例中步骤202的过程进行说明。在获取检材数据的上述四项质量参数之前,可以采用预设方式,确定出检材数据中的有效语音片段以及非语言片段。其中,预设方式可以为语音活动检测的方式,本发明实施例对此不作具体限定。具体地,检材数据其实质为一条音频,可以先对该音频x(n)进行时频分析,得到时频分布结果X(l,ω)。其中, x(n)为时域音频,l为帧序号,ω为频点序号。上述时频分析的过程可参考如下公式(2):
X(l,ω)=STFT(x(n)); (2)
然后,通过对X(l,ω)进行语音活动检测,确定哪些帧lv存在语音,也即有效语音片段,哪些帧ln作为噪声段,也即非语言片段,具体可参考如下公式(3)及(4):
lv=VAD(X(l,ω)); (3)
ln=not VAD(X(l,ω)); (4)
通过上述过程,在获取到检材数据中的有效语音片段以及非语言片段之后,可以根据检材数据中的有效语音片段以及非语言片段,确定质量参数。例如,信噪比的计算过程可参考如下公式(5):
在上述公式(5)中,X(lv,ω)表示某一有效语音片段的有效信号输出功率,X(ln,ω)表示某一非语言片段的噪声信号输出功率。
而剩下的三项质量参数,也即语音有效时长、噪声类型及信道频率响应,该三项质量参数获取过程可如下:检材数据的语音有效时长可以由检材数据中的有效语音片段的时长累加所确定,检材数据的噪声类型可以由检材数据中非语言片段的噪声类型所确定。其中,噪声类型可以为汽车行驶声或为施工声等等。另外,检材数据的信道频率响应可参考如下公式(6)计算:
其中,信道响应频率指的是信道脉冲响应的傅里叶变换。信道脉冲响应是指在发送端发送一个脉冲信号,在接收端产生的响应。由于多径时延扩展和多普勒平移的原因,不同接收端会有这不同的信道脉冲响应,同一个位置相干时间之外,信道脉冲响应相关性也会比较小。那么在不同位置的接收端会因为多径的原因会有着不同的信道脉冲响应。
本发明实施例提供的方法,通过基于检材数据在信噪比、语音有效时长、噪声类型及信道频率响应中的至少一项质量参数,将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值。由于预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,在将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比之前,还可以训练得到预设模型。本发明实施例不对训练得到预设模型的方式作具体限定,包括但不限于:将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对初始模型中参数的更新,并得到预设模型。
在上述过程中,初始模型与预设模型均可以在输入两条声纹特征后,输出该两条声纹特征的对数似然比。对于某一样本对比对,关于获取该样本对比对的损失函数值的方式,本发明实施例对此不作具体限定,包括但不限于:根据该样本对比对中两条声纹特征的同源概率及异源概率,获取该样本对比对的损失函数值。其中,同源概率及异源概率可以由将样本对比对输入至初始模型后,由初始模型的中间输出变量所确定。由上述实施例可知,对数似然比实际上是根据同源概率及异源概率计算得到的。相应地,初始模型在输出对数似然比的过程中,可以先根据样本对比对的相关系数,确定样本对比对的同源概率及异源概率,再根据两者计算得到对数似然比。
在根据该样本对比对中两条声纹特征的同源概率及异源概率,获取该样本对比对的损失函数值时,可以将异源概率与同源概率进行加权求和,将加权求和结果作为损失函数值。也可以是两者乘以各自的代价系数,将两个乘积进行求和,将求和结果作为损失函数值,本发明实施例对此不作具体限定。为了便于理解,本发明实施例给出其中一种获取损失函数值的过程,具体为:将同源标签与样本对比对的同源概率相乘,得到第一乘积;将异源标签与样本对比对的异源概率相乘,得到第二乘积;将第一乘积与第二乘积进行相加,对相加结果取负数,以作为损失函数值。具体地,该过程可以通过如下公式(7) 计算:
CEloss=-(y0*logp0+y1*logp1); (7)
在上述公式(7)中,CEloss表示损失函数值,p0表示同源概率, p1表示异源概率,y0表示同源标签,y1表示异源标签。
另外,预设条件可以为获取的损失函数值逐渐收敛或者连续n次获取的损失函数值不再降低等,本发明实施例对此不作具体限定。在确定获取的损失函数值满足预设条件后,对初始模型中参数更新的过程即完成,并可以得到预设模型。需要说明的是,上述每次输入的样本对比对是可以不同的,也即每输入一个不同的样本对比对,就可以根据后续获取的损失函数值,对初始模型中的参数更新一次,重复输入不同的样本对比对,直至获取的损失函数值满足预设条件为止。
本发明实施例提供的方法,对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,初始模型包括双隐层及激活函数层及对数似然比计算层;相应地,本发明实施例不对将样本对比对输入至初始模型中,输出样本对比对的对数似然比的方式作具体限定。参见图3,包括但不限于:
301、将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
302、将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;
303、将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
以预设模型的类型为深度神经网络模型为例,双隐层指的是预设模型中包含两个隐层,如DNN1与DNN2。当然,实际实施过程中也可以设计3个乃至更多的隐层,本发明实施例对此不作具体限定。需要说明的是,上述步骤301中,可以并非是输入样本对比对的相关系数,而是输入样本对比对中两条声纹特征对应的两个特征向量,由预设模型实现将该两个特征向量转化为对应的相关系数。具体地,实际实施过程中可以将两个特征向量按照时域或者频域的方式进行拼接,从而将拼接后得到的特征向量输入至预设模型,由预设模型先根据拼接得到的特征向量获取对应的相关系数,再由预设模型中的双隐层对相关系数进行处理,以得到样本对比对中两条声纹特征的同源概率及异源概率。
在上述步骤302中,归一化过程主要是使得同源概率与异源概率的和为1。该过程可以通过激活函数sofmax实现。至于步骤303中的对数似然比计算层,该层可以先计算同源概率与异源概率的比值,即为似然比,再将该比值取对数值,即可得到对数似然比。其中,预设模型的结构可以参考图4。在图4中,feature1与feature2分别代表样本对比对中两条声纹特征各自对应的特征向量,将两者放在一起即代表两者拼接后所得到的特征向量。DNN1与DNN2代表双隐层, softmax代表激活函数层,H0与H1分别表示同源概率及异源概率, CE-loss表示损失函数。
本发明实施例提供的方法,对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,在根据每一对比对的相关系数,获取每一对比对的对数似然比之前,还可以获取每一对比对的相关系数,本发明实施例不对获取每一对比对的相关系数的方式作具体限定,包括但不限于:
对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
对于某一组对比对,上述过程主要是说明可以采用多种类型特征向量来表示该组对比对,每种类型的特征向量均可以计算出一个相关系数,从而再对所有类型的特征向量对应计算得到的相关系数取相关系数综合值,将该相关系数综合值作为该组对比对的相关系数。同理,上述步骤101中,在获取目标相关系数时,也可以采用相同的取综合值的方式,本发明实施例对此不作具体限定。其中,取综合值的方式可以为取平均值,或者加权求和等,本发明实施例对此不作具体限定。
需要说明的是,采用这种方式需要在基于每种类型的特征向量计算相关系数时,计算得到的相关系数的类型需要是一致的,以使得相同类型的相关系数才可以取综合值。例如,结合上述示例中的内容, A1及A2可以计算得到相关系数a,而B1及B2可以计算得到相关系数b,而C1及C2可以计算得到相关系数c。其中,a、b及c均为相同类型的相关系数。对a、b及c的和值取平均值,该平均值即可作为该组对比对的相关系数。
本发明实施例提供的方法,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
结合上述实施例的内容,在一个实施例中,参见图5,本发明实施例不对根据每一对比对的对数似然比,获取预设阈值的方式作具体限定,包括但不限于:
501、根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
502、根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
为了便于说明获取预设阈值的过程,以样本特征库与检材特征库中不存在相同的语音样本、样本特征库与检材数据库中存在相同的说话人身份、样本特征库存在m条声纹特征、检材特征库存在n条声纹特征且相关系数的类型为余弦相似度为例。
对于样本特征库m条声纹特征中某一条声纹特征,该条声纹特征与检材特征库中n条声纹特征可以组成n组对比对,从而样本特征库m条声纹特征与检材特征库中n条声纹特征可以组成m*n组对比对。由于样本特征库与检材数据库中存在相同的说话人身份,从而该m*n组对比对中既存在同源对比对,也存在异源对比对。另外,由于每条声纹特征对应的说话人身份已知,从而m*n组对比对中哪些对比对是同源对比对,哪些对比对是异源对比对,也是可以获知的。
需要说明的是,这些对比对是由样本特征库及检材语音库中语音样本对应的声纹特征构成的,而后续是需要计算两个声纹特征之间的相关系数的。因此,可以采用相同的某一特征提取方式,来分别提取样本特征库及检材语音库中语音样本对应的声纹特征。另外,该特征提取方式可以与步骤101中,分别提取检材数据与样本数据对应的声纹特征时所采用的特征提取方式一致,也可以不一致,只需后续得到的相关系数的类型一致即可,本发明实施例对此不作具体限定。
由上述过程可知,对比对可以分为同源对比对及异源对比对。在执行上述步骤501之前,可以计算每一同源对比对的相关系数及每一异源对比对的相关系数。以相关系数为余弦相似度为例,计算余弦相似度的过程可参考如下公式(8):
在上述公式(8)中,a与b均表示声纹特征的特征向量,cosθ表示余弦相似度。通过该公式,可以计算得到所有对比对的余弦相似度。需要说明的是,对于某一组对比对,无论是同源对比对还是异源对比对,用来表示该组对比对中两个声纹特征的特征向量,其类型在实际实施过程中可以有很多种。例如,该组对比对中两个声纹特征的特征向量可以用A1及A2来表示,或者用B1及B2来表示,还可以用 C1及C2来表示。其中,A、B、C均为不同类型的特征向量。在获取该组对比对的相关系数时,可以使用某一类型的特征向量,如类型 A的特征向量,从而基于A1及A2来计算该组对比对的相关系数。实际实施过程中,可以采用x-vector特征向量,本发明实施例对此不作具体限定。
需要说明的是,按照理想的状况,同源对比对对应的余弦相似度和异源对比对对应的余弦相似度应当有所区别,也即两者取值区间应当不会重叠,以便于进行同源或异源的判断。但这只是理想的状况,实际实施过程中,以相关系数为余弦相似度为例,上述所有同源对比对的余弦相似度其分布可参考图6,上述所有异源对比对的余弦相似度其分布可参考图7。
在图6及图7中,横坐标表示余弦相似度的取值,纵坐标表示每一种余弦相似度的取值所出现的频次。由图6及图7可以看出,同源对比对所对应的余弦相似度其取值分布和异源对比对所对应的余弦相似度其取值分布,均比较宽,且是存在重合部分的,若检材数据与样本数据之间的相关系数落入了重合部分的取值区间中,则检材数据与样本数据之间究竟是同源还是异源,基于余弦相似度就很难判别。
需要说明的是,余弦相似度之所以会呈现图6及图7这样的分布,是因为余弦相似度是绝对度量,其值会因为检材数据的质量参数取值的不同,而发生较大变化,从而才会呈现图6及图7中那样较宽的分布,而这是不能达到精准确定预设阈值的目的的。为了解决这个问题,才需要将相关系数转化为对数似然比。其中,余弦相似度的取值区间为-1至1,而对数似然比的取值区间为负无穷至正无穷,取值区间的范围更加广泛。不同于余弦相似度,对数似然比是个相对度量,对数似然比为0则表示无法判断同源还是异源。
将相关系数转化为对数似然比,相关系数与对数似然比之间取值分布的区别,具体可参考图8及图9。在图8及图9中,横坐标表示对数似然比的取值,纵坐标表示每一种对数似然比的取值所出现的频次。由图8及图9可以看出,同源对比对所对应的对数似然比其取值分布和异源对比对所对应的对数似然比其取值分布,均比较窄,且重合部分也比较少。由此可见,将对数似然比作为判断依据,会更加精准。
对于上述步骤501,以相关系数为余弦相似度为例,同源分布曲线与异源分布曲线可参考图10。图10中横坐标表示余弦相似度,纵坐标表示对数似然比。由上述过程可知,根据每一对比对的相关系数,是可以获取到每一同源对比对的对数似然比的,也即两者存在映射关系。基于两者的映射关系,两者结合可以作为二维平面的一个点。
其中,同源对比对对应的点可以形成同源分布曲线,而异源对比对对应的点可以形成异源分布曲线。在图10中,从左至右先处于高位的曲线为异源分布曲线,而另一条曲线即为同源分布曲线。由于横坐标代表余弦相似度,当余弦相似度取值较低时,表示两个声纹特征差异比较大,从而在图10中余弦相似度取值较低的区间内,异源分布曲线是处于高位的,也即余弦相似度的取值落入至这个区间内时,两个声纹特征为异源的可能性比较大。
对于上述步骤502,由图10可以明显看出,两条曲线在交点的左右两侧,高低位刚好相反,也即可以认为余弦相似度落入至交点左侧的取值区间内时,表示两个声纹特征为异源,余弦相似度落入至交点右侧的取值区间内时,表示两个声纹特征为同源。其中,两条曲线的交点表示同源与异源的概率相等,图10中交点对应的余弦相似度即为预设阈值,取值大致为0.7。
由上述实施例可知,本发明实施例在获取预设阈值时,是需要将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐的。以其中一项质量参数语音有效时长的变化为例,语音有效时长可以为10秒、20秒、30秒及40秒等。基于不同语音有效时长的检材语音库所获取的预设阈值可以参考图11。由图11可知,不同语音有效时长下,同源分布曲线与异源分布曲线各自的形状不同,且两者交点的所处位置也是不同的。而交点所处位置对应的余弦相似度即为预设阈值,也即不同语音有效时长下所获取的预设阈值也是不同的,其它类型的质量参数发生变化时同样会产生类似图11中的效果。由此,也可以证明质量参数是会对预设阈值的取值造成影响的。
本发明实施例提供的方法,通过根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比。根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
应该理解的是,虽然图1、图2、图3及图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2、图3及图5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,如图12所示,提供了一种声纹判别装置,包括:第一获取模块1201、预设处理模块1202、第一输出模块1203、第二获取模块1204及判别模块1205,其中:
第一获取模块1201,用于获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
预设处理模块1202,用于基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
第一输出模块1203,用于将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
第二获取模块1204,用于根据每一对比对的对数似然比,获取预设阈值;
判别模块1205,用于基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
在一个实施例中,预设处理模块1202,用于获取检材数据的质量参数组;根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,该装置还包括:
第二输出模块,用于将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比;
第三获取模块,用于根据样本对比对的判别结果,获取样本对比对的损失函数值;
更新模块,用于当获取的损失函数值不满足预设条件时,则对初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对初始模型中参数的更新,并得到预设模型。
在一个实施例中,初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,第二输出模块,用于将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
在一个实施例中,该装置还包括:
第四获取模块,用于对于任一对比对,获取该对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由该对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
第五获取模块,用于根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为该对比对的相关系数。
在一个实施例中,第二获取模块1204,用于根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
本发明实施例提供的装置,通过获取目标相关系数,基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配。将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比。根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别。对于待判别是否同源的检材数据与样本数据,由于可以将检材语音库中语音样本的语音质量与检材数据的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,进而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
关于声纹判别装置的具体限定可以参见上文中对于声纹判别方法的限定,在此不再赘述。上述声纹判别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹判别方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,处理器在执行计算机程序时,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对初始模型中参数的更新,并得到预设模型。
在一个实施例中,初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,处理器执行计算机程序时还实现以下步骤:
将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;
将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对于任一对比对,获取任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为任一对比对的相关系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于检材数据,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与检材数据的语音质量相匹配;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所有对比对包括同源对比对及异源对比对;
根据每一对比对的对数似然比,获取预设阈值,并基于预设阈值,对目标相关系数进行判别;
其中,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源特征对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取检材数据的质量参数组;
根据质量参数组中每项质量参数的取值及类型,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与质量参数组中每项质量参数的取值相匹配。
在一个实施例中,计算机程序被处理器执行时,质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对初始模型中参数的更新,并得到预设模型。
在一个实施例中,初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,计算机程序被处理器执行时还实现以下步骤:
将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;
将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对于任一对比对,获取任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为任一对比对的相关系数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,异源分布曲线与异源分布曲线的横坐标表示对数似然比;
根据同源分布曲线与异源分布曲线之间的交点,确定预设阈值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种声纹判别方法,其特征在于,所述方法包括:
获取目标相关系数,所述目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配;
对于任一对比对,获取所述任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由所述任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
根据每一特征向量组对应的相关系数,获取相关系数综合值,并将所述相关系数综合值作为所述任一对比对的相关系数;
将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,所述预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所述标注结果是通过人工对样本对比对中的两条声纹特征是否对应于同一说话人身份进行标注所确定的,所有对比对包括同源对比对及异源对比对;
根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,所述同源分布曲线与所述异源分布曲线的横坐标表示相关系数,所述同源分布曲线与所述异源分布曲线的纵坐标表示对数似然比;
根据所述同源分布曲线与所述异源分布曲线之间的交点,确定预设阈值,并基于所述预设阈值,对所述目标相关系数进行判别;
其中,所述同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述异源对比对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,所述检材特征库是由所述检材语音库中语音样本对应的声纹特征所构成的。
2.根据权利要求1所述的方法,其特征在于,所述基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配,包括:
获取所述检材数据的质量参数组;
根据所述质量参数组中每项质量参数的取值及类型,对所述检材语音库中的语音样本进行调整,以使得所述检材语音库中每一语音样本的每项质量参数的取值与所述质量参数组中每项质量参数的取值相匹配。
3.根据权利要求2所述的方法,其特征在于,所述质量参数组中包括以下四项质量参数中的至少任意一项,所述以下四项质量参数分别为信噪比、语音有效时长、噪声类型及信道频率响应。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比之前,还包括:
将样本对比对的相关系数输入至初始模型中,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对所述初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足所述预设条件为止,则确定完成对所述初始模型中参数的更新,并得到所述预设模型;所述判别结果用于表征样本对比对中的两条声纹特征为同源或者异源的概率。
5.根据权利要求4所述的方法,其特征在于,所述初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,所述将样本对比对输入至初始模型中,输出样本对比对的对数似然比,包括:
将样本对比对的相关系数输入至所述双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
将所述同源概率及所述异源概率输入至所述激活函数层,以对所述同源概率及所述异源概率进行归一化;
将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
6.一种声纹判别装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标相关系数,所述目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的;
预设处理模块,用于基于所述检材数据,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述检材数据的语音质量相匹配;
第四获取模块,用于对于任一对比对,获取所述任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由所述任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
第五获取模块,用于根据每一特征向量组对应的相关系数,获取相关系数综合值,并将所述相关系数综合值作为所述任一对比对的相关系数;
第一输出模块,用于将每一对比对的相关系数输入至预设模型,输出每一对比对的对数似然比,所述预设模型是基于样本对比对及样本对比对的标注结果所训练得到的,所述标注结果是通过人工对样本对比对中的两条声纹特征是否对应于同一说话人身份进行标注所确定的,所有对比对包括同源对比对及异源对比对;
第二获取模块,用于根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,所述同源分布曲线与所述异源分布曲线的横坐标表示相关系数,所述同源分布曲线与所述异源分布曲线的纵坐标表示对数似然比;根据所述同源分布曲线与所述异源分布曲线之间的交点,确定预设阈值;
判别模块,用于基于所述预设阈值,对所述目标相关系数进行判别;
其中,所述同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述异源对比对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,所述样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,所述检材特征库是由所述检材语音库中语音样本对应的声纹特征所构成的。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202110536905.0A 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质 Active CN113327618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536905.0A CN113327618B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536905.0A CN113327618B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113327618A CN113327618A (zh) 2021-08-31
CN113327618B true CN113327618B (zh) 2024-04-19

Family

ID=77415790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536905.0A Active CN113327618B (zh) 2021-05-17 2021-05-17 声纹判别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113327618B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
JP2008233725A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108735222A (zh) * 2018-05-03 2018-11-02 广州国音科技有限公司 一种基于声纹识别的声纹鉴定方法及系统
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109313903A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110797032A (zh) * 2020-01-06 2020-02-14 深圳中创华安科技有限公司 一种声纹数据库建立方法及声纹识别方法
CN111199729A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法及装置
KR20200100332A (ko) * 2019-02-18 2020-08-26 주식회사 케이티 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램
CN111656440A (zh) * 2018-01-23 2020-09-11 思睿逻辑国际半导体有限公司 说话人辨识
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112735437A (zh) * 2020-12-15 2021-04-30 厦门快商通科技股份有限公司 一种声纹比对方法及系统及装置及存储机构

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
ES2605779T3 (es) * 2012-09-28 2017-03-16 Agnitio S.L. Reconocimiento de orador
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US9940934B2 (en) * 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
JP2008233725A (ja) * 2007-03-23 2008-10-02 Pioneer Electronic Corp 楽曲種類判別装置、楽曲種類判別方法、および楽曲種類判別プログラム
CN102237089A (zh) * 2011-08-15 2011-11-09 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
CN109313903A (zh) * 2016-06-06 2019-02-05 思睿逻辑国际半导体有限公司 语音用户接口
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN111656440A (zh) * 2018-01-23 2020-09-11 思睿逻辑国际半导体有限公司 说话人辨识
CN108735222A (zh) * 2018-05-03 2018-11-02 广州国音科技有限公司 一种基于声纹识别的声纹鉴定方法及系统
CN110289003A (zh) * 2018-10-10 2019-09-27 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN111199729A (zh) * 2018-11-19 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法及装置
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
KR20200100332A (ko) * 2019-02-18 2020-08-26 주식회사 케이티 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램
CN110289014A (zh) * 2019-05-21 2019-09-27 华为技术有限公司 一种语音质量检测方法及电子设备
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110797032A (zh) * 2020-01-06 2020-02-14 深圳中创华安科技有限公司 一种声纹数据库建立方法及声纹识别方法
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN112259106A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 声纹识别方法、装置、存储介质及计算机设备
CN112735437A (zh) * 2020-12-15 2021-04-30 厦门快商通科技股份有限公司 一种声纹比对方法及系统及装置及存储机构

Also Published As

Publication number Publication date
CN113327618A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Jelil et al. Spoof Detection Using Source, Instantaneous Frequency and Cepstral Features.
Gomez-Alanis et al. A gated recurrent convolutional neural network for robust spoofing detection
US9536547B2 (en) Speaker change detection device and speaker change detection method
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
CN112053695A (zh) 声纹识别方法、装置、电子设备及存储介质
CN110378228A (zh) 面审视频数据处理方法、装置、计算机设备和存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN110364168B (zh) 一种基于环境感知的声纹识别方法及系统
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
Morrison Vowel inherent spectral change in forensic voice comparison
Stefanus et al. GMM based automatic speaker verification system development for forensics in Bahasa Indonesia
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN113327617B (zh) 声纹判别方法、装置、计算机设备和存储介质
CN113593581B (zh) 声纹判别方法、装置、计算机设备和存储介质
CN113327618B (zh) 声纹判别方法、装置、计算机设备和存储介质
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
Dang et al. Factor Analysis Based Speaker Normalisation for Continuous Emotion Prediction.
VijayKumar Optimized speaker change detection approach for speaker segmentation towards speaker diarization based on deep learning
Xu et al. Voiceprint recognition of Parkinson patients based on deep learning
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
CN111681671A (zh) 异常音识别方法、装置及计算机存储介质
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Alwahed et al. ARABIC SPEECH RECOGNITION BASED ON KNN, J48, AND LVQ
Pop et al. On forensic speaker recognition case pre-assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant