CN113593581B - 声纹判别方法、装置、计算机设备和存储介质 - Google Patents
声纹判别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113593581B CN113593581B CN202110784210.4A CN202110784210A CN113593581B CN 113593581 B CN113593581 B CN 113593581B CN 202110784210 A CN202110784210 A CN 202110784210A CN 113593581 B CN113593581 B CN 113593581B
- Authority
- CN
- China
- Prior art keywords
- voice
- quality
- sample
- value
- preset threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012850 discrimination method Methods 0.000 title abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 275
- 239000000463 material Substances 0.000 claims abstract description 186
- 238000000034 method Methods 0.000 claims abstract description 143
- 238000001514 detection method Methods 0.000 claims abstract description 136
- 230000008569 process Effects 0.000 claims abstract description 82
- 238000004590 computer program Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 abstract description 27
- 239000013598 vector Substances 0.000 description 44
- 230000006870 function Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 13
- 238000007689 inspection Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及一种声纹判别方法、装置、计算机设备和存储介质。方法包括:获取检材数据的第一质量参数组,并获取目标相关系数;基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
Description
技术领域
本申请涉及声音识别技术领域,特别是涉及一种声纹判别方法、装置、计算机设备和存储介质。
背景技术
随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于鉴定人员进行同源的判别认定。
在上述过程中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高检材数据鉴定结果准确性的声纹处理方法、装置、计算机设备和存储介质。
一种声纹处理方法,该方法包括:
获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
基于所述目标预设阈值,对所述目标相关系数进行判别。
在其中一个实施例中,对于t项质量参数中的s项质量参数,s项质量参数中每项质量参数的不同取值构成不同取值组;第一预设模型中包括q个子模型,q是由s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,s不小于1且小于t;
对于q个子模型中的任一子模型D及用于训练D的所有语音训练样本,所有语音训练样本中每一语音训练样本的第二质量参数组均是由与第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所有语音训练样本中的任意两个语音训练样本,将任意两个语音训练样本分别作为F与G,F的第二质量参数组中s项质量参数的取值与G的第二质量参数组中s项质量参数的取值均相同。
在其中一个实施例中,还包括:
确定所述所有语音训练样本中每一语音训练样本对应的预设阈值;
将每一语音训练样本的第二质量参数组中除所述s项质量参数之外其它质量参数的取值作为所述D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与所述D对应的子初始模型的输出,对所述D对应的子初始模型进行训练,得到所述D。
在其中一个实施例中,所述基于每一语音训练样本对应的预设阈值与所述D对应的子初始模型的输出,对所述D对应的子初始模型进行训练,包括:
基于所述每一语音训练样本对应的预设阈值,确定所述每一语音训练样本对应的阈值类别,所述每一阈值类别与所述预设阈值的取值区间进行划分后得到的子区间相对应;
将所述阈值类别作为对应语音训练样本的期望输出,对所述D对应的子初始模型进行训练。
在其中一个实施例中,所述确定所述所有语音训练样本中每一语音训练样本对应的预设阈值,包括:
对于所述所有语音训练样本中的任一语音训练样本E,基于所述E,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述E的语音质量相匹配;
基于所述检材语音库及样本语音库,获取所述E对应的预设阈值。
在其中一个实施例中,所述基于所述E,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述E的语音质量相匹配,包括;
根据所述E的第二质量参数组中每项质量参数的类型及取值,对所述检材语音库中的语音样本进行调整,以使得所述检材语音库中每一语音样本的每项质量参数的取值与所述E的第二质量参数组中每项质量参数的取值相匹配。
在其中一个实施例中,第一质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
一种声纹判别装置,该装置包括:
获取模块,用于获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
第一确定模块,用于基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
判别模块,用于基于目标预设阈值,对目标相关系数进行判别。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
基于所述目标预设阈值,对所述目标相关系数进行判别。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
基于所述目标预设阈值,对所述目标相关系数进行判别。
上述声纹判别方法、装置、计算机设备和存储介质,通过获取检材数据的第一质量参数组,并获取目标相关系数。基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值。基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
附图说明
图1为一个实施例中声纹判别方法的流程示意图;
图2为一个实施例中子模型的结构示意图;
图3为一个实施例中训练子模型的流程示意图;
图4为另一个实施例中子模型的结构示意图;
图5为一个实施例中获取语音训练样本的预设阈值的流程示意图;
图6为另一个实施例中获取语音训练样本的预设阈值的流程示意图;
图7为一个实施例中同源时余弦相似度的分布示意图;
图8为一个实施例中异源时余弦相似度的分布示意图;
图9为一个实施例中同源时对数似然比的分布示意图;
图10为一个实施例中异源时对数似然比的分布示意图;
图11为一个实施例中同源分布曲线与异源分布曲线的示意图;
图12为一个实施例中在质量参数不同取值下的同源分布曲线与异源分布曲线的示意图;
图13为一个实施例中获取对比对的相关系数的流程示意图;
图14为一个实施例中输出样本对比对的对数似然比的流程示意图;
图15为一个实施例中第二预设模型的结构示意图;
图16为一个实施例中噪声功率谱对应的噪声信号频率与噪声信号功率之间的曲线示意图;
图17为一个实施例中信道频率响应对应的信号频率与信号功率之间的曲线示意图;
图18为一个实施例中声纹判别装置的结构框图;
图19为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
目前,指纹、虹膜、DNA及笔迹等都可以作为鉴别个体身份的有效凭据。相对于这些传统的个体生物特征而言,声纹特征是一个新兴的研究领域。近年来,随着相关技术的深入研究和发展,声纹识别尤其是基于声纹辅助对说话人身份进行识别的技术越来越受到相关研究人员的重视。
对于上述传统的个体生物特征,通过DNA、指纹、声纹或笔迹等进行特征同一性认定上都出现过错误。出现这些问题的原因主要是对样本之间的辨证关系认识不足,也即在对特征相似的可信度进行评估时,缺乏科学有效的方法。随着声纹识别领域的数据积累及研究发展,基于声纹特征对说话人身份进行识别的准确性越来越高。
在基于声纹特征对说话人身份进行识别时,主要是采用声纹对比的方式。声纹对比可以给出两个声纹是否同源的判断结果。例如,对于案发现场或案发过程中所获得的语音样本,也即检材数据,可从中提取足够稳定的语言特征或者与说话人个体相关的语音特征,而对于嫌疑对象的语音样本,也即样本数据,也可以作相同处理,进而利用这些语音特征加以识别或确认。
目前,在国内绝大多数的法庭说话人识别案件中,都希望能给定“是同一人”或“不是同一人”这样明确的结论。但是,由于受各种主客观条件的限制,如录音的环境、语音证据提取、录音保存条件及方法、检验鉴定的时间间隔、检验设备以及检验方法等局限,实犯对象样本和嫌疑对象样本之间或多或少都会存在一定程度的差异,从而决定了像上述那样给出明确的结论且结论要达到100%确认几乎是不可能的。因此,用于语音特征的识别或确认的客观比对判别方法是非常迫切的。
基于上述需求,目前提供了几种方案。第一种方案是靠人工进行相关的听觉分析及声学分析。具体地,主要是由专业的语音鉴定专家去开展,利用他们的专业知识进行比较声音特征,从而判断二者是否是同一人或者多大可能性是同一人。其中,可以用于比较的声音特征可以为音质音色、音高、共振峰及基频等等。
第二种方案是基于统计概率的证据评估方法,该方法最开始在DNA证据上应用,目前逐渐应用于声纹鉴定,该方法在国内外均获得了广泛的认同。基于统计概率的证据评估方法主要是基于似然比,也即将似然比框架引入法庭的语音证据鉴定领域,可以评估语音证据对鉴定结论支持力度的大小。基于似然比的证据评估方法是逻辑上和法律上都正确的法庭证据评估方法,也是向法庭提供证据强度评估的科学方法。
具体地,似然比可以表示第一概率与第二概率的比值,该比值可以量化证据对鉴定结论支持的力度。其中,第一概率指的是在一个给定的假设条件下,观测到证据(也即观测到实犯对象的语音样本与嫌疑对象的语音样本之间存在声学差异,或者说观测到实犯对象的语音样本与嫌疑对象的语音样本不同源)的概率。第二概率指的是在完全相反的假设条件下,观测到证据的概率。
观测到检材数据(也即实犯对象的语音样本)与样本数据(也即嫌疑对象的语音样本)是否同源的概率,主要是考虑两个方面:一方面是检材数据与样本数据之间的相似性,另一方面是样本数据在背景人群中的典型性。如果仅仅发现样本数据与作为证据的检材数据非常相似,而样本数据是背景人群中的典型特征,也即大部分人之间都很相似,那么就不足以给出样本数据与作为证据的检材数据大概率同源的结论。贝叶斯理论明确指明,相似性和典型性对证据评估来说都是必不可少的。由此,上述似然比的值实际上是样本数据的相似性和典型性相互作用的结果。
其中,似然比框架可参考如下公式(1):
在公式(1)中,Hso表示检材数据与样本数据同源假设。Hdo表示检材数据与样本数据不同源假设,也即异源假设。E表示证据,也即检材数据。其中,等式右边第一项为在同源假设和异源假设情况下观测到证据的概率比,即似然比。似然比反映了检材数据和样本数据为同源的概率是为异源的概率的倍数。显然,似然比越大,检材数据和样本数据同源的概率就越大。反之,异源的概率越大。当似然比为1时,则表示检材数据作为证据没有证明力度。
上述公式(1)中,等式左边为后验概率比,等式右边第二项为先验概率比。其中,先验概率比指的是事先给出的两种假设的概率比,后验概率比指的是结合似然比和先验概率比共同计算的结果。在似然比框架中,法庭科学家提供当前的语音证据,也即检材数据,支持哪一个假设,并且给出量化的支持力度。然后,与案件的其他先验知识相结合,得到帮助法官判断的后验概率比。因此,公式(1)中等式右边第二项的先验概率比和等式左边第一项的后验概率比都是由法庭负责给出,而等式右边第一项的似然比由专家给出。其中,似然比并不能给出绝对的支持假设或拒绝假设这样的二元判断,而是量化当前证据对鉴定结果的支持强度,最终的判定结果仍由法庭裁决。因此,可以认为专家给出的似然比对法庭的判定结果起到了一定的辅助作用。上述似然比方法是迄今为止最科学和客观的法庭证据评估方法,也是语音证据评价的国际新范式。
由上述内容可知,需要获取检材数据与样本数据为同源假设或异源假设的概率。基于该需求,需要使用声纹识别技术以进行声纹比对,从而判断同源或异源可能性的大小。在相关技术中,人工比对是最传统的鉴别方法,但该方法可能会过于关注于特征间的相似性,主观性更强。尤其是经验不足的鉴定人员,没有见过大量的对比案例,无法判断特征的典型性(差异性),这样往往会使鉴定结果存在较大的偏差。
而随着声纹识别技术的迅速发展,现在声纹比对是主要是基于深度学习方法。具体地,鉴定人员会将需要比对的检材数据输入深度学习系统,系统会将此检材数据和系统中收集的众多样本数据进行逐一比对,系统会对每一对数据进行相关分析,并给出相似度指标(通常是声纹特征向量的距离评价)的分值。该分值越大,表明两者同源可能性越大;反之,异源可能性越大。在实际的深度学习系统中,一般会设定一个阈值(一般是经验值),用于鉴定人员进行同源的判别认定。
在上述深度学习方法中,阈值的设定是十分关键的。在相关技术中,通常是将固定的经验值作为阈值。由于每次在收集作为证据的检材数据时,外部环境和信道均可能会不同,从而一直使用固定阈值与相似度指标的分值进行比较,会可能会因为阈值设置过小而发生误判,或者因阈值设置过大而发生误判的情形,进而严重影响鉴定结果的准确性。
针对上述相关技术中存在的问题,本发明实施例提供了一种声纹判别方法,该方法可以应用于终端中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。需要说明的是,本申请各实施例中提及的“多个”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”。
结合上述说明,在一个实施例中,参见图1,提供了一种声纹判别方法。以该方法应用于终端,且执行主体为终端为例进行说明,该方法包括如下步骤:
101、获取检材数据的第一质量参数组,并获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的,第一质量参数组包括t项质量参数;
102、基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;
103、基于目标预设阈值,对目标相关系数进行判别。
在上述步骤101中,检材数据与样本数据为待判别是否同源的两个语音数据。以实犯对象的语音数据与嫌疑对象的语音数据是否同源的这个应用场景为例,检材数据为案发现场或案发过程中所获得的语音样本,而样本数据为嫌疑对象的语音样本。相关系数主要是用来表示检材数据与样本数据之间的差异大小,相关系数可以为不同的数据类型,并可以由不同的算法计算得到,本发明实施例对此不作具体限定。例如,相关系数可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、对数似然相似度、欧氏距离或曼哈顿距离等,本发明实施例对此不作具体限定。
质量参数主要用于评估语音样本的语音质量,质量参数可以包括噪声长度或信号强度等,本发明实施例对此不作具体限定。例如,由于语音样本的噪声长度若比较长,则说明语音样本中噪声多,语音质量可能会比较差,从而噪声长度可以作为质量参数。在执行步骤101之前,可以先确定需要使用哪几项,也即哪几种类型的质量参数用于评价语音质量,再在步骤101中获取检材数据的这些质量参数,并组成第一质量参数组。其中,t为正整数。
另外,在执行步骤101之前,也即在获取目标相关系数之前,可以先分别提取检材数据与样本数据对应的声纹特征。其中,声纹特征可以为某一类型的特征向量,如i-vector、d-vector或x-vector等,本发明实施例对此不作具体限定。在提取声纹特征时之前,可以预先训练用于提取声纹特征的神经网络模型,再通过神经网络模型来提取。当然,实际实施过程中,也可以采用其它提取声纹特征的方式,本发明实施例对此不作具体限定。需要说明的是,为了获取目标相关系数,可以采用相同的某一特征提取方式,来提取分别提取检材数据与样本数据对应的声纹特征。
在上述步骤102中,本发明实施例不对基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值的方式作具体限定,包括但不限于:将第一质量参数组输入至第一预设模型,根据输出结果确定目标预设阈值,第一预设模型是基于语音训练样本进行训练后得到的,且存在语音训练样本的语音质量与检材数据的语音质量相匹配。
以无论是语音训练样本、检材数据还是样本数据,都可以通过相同的标准,也即通过类型相同的t项质量参数来评估语音质量为例。由此,第一质量参数组中质量参数的总项数可以为t,语音训练样本的语音质量也可以通过上述t项质量参数进行评估,语音训练样本的t项质量参数可以通过第二质量参数组进行表示。在将第一质量参数组输入至第一预设模型时,输入的可以是每项质量参数在第一质量参数组中的取值,输出结果可以为阈值,也可以为阈值区间。相应地,在步骤102中,在根据输出结果确定目标预设阈值时,若第一预设模型的输出结果本身就是阈值,即可将输出的阈值直接作为目标预设阈值。若第一预设模型的输出结果是阈值区间,则可以在输出的阈值区间中选择一个阈值作为目标预设阈值。
而由上述内容可知,质量参数主要用于评估语音样本的语音质量。由此,在步骤102中语音训练样本的语音质量与检材数据的语音质量相匹配,可以指的是语音训练样本的质量参数与检材数据的质量参数中存在至少一个类型的质量参数,语音训练样本与检材数据就该类型的质量参数的各自取值是相同的。由此,语音训练样本在符合上述描述的条件的前提下,才可以认定语音训练样本的语音质量与检材数据的语音质量相匹配。而在用于训练得到第一预设模型的所有语音训练样本中,是存在符合上述描述条件的语音训练样本的。
在上述步骤103中,若目标相关系数大于目标预设阈值,则可以认为检材数据与样本数据是同源的,也即两者是来源于同一个说话人身份。若目标相关系数不大于预设阈值,则可以认为检材数据与样本数据是异源的,也即两者是来源于不同的说话人身份。当然,实际实施过程中,关于预设阈值的判断也可以反过来,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过获取检材数据的第一质量参数组,并获取目标相关系数。基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值。基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,对于t项质量参数中的s项质量参数,s项质量参数中每项质量参数的不同取值构成不同取值组;第一预设模型中包括q个子模型,q是由s项质量参数对应取值组的总数所确定的,例如,每一取值组均对应一个子模型,s不小于1且小于t;
对于q个子模型中的任一子模型D及用于训练子模型D的所有语音训练样本,所有语音训练样本中每一语音训练样本的第二质量参数组均是由与第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所有语音训练样本中的任意两个语音训练样本,将任意两个语音训练样本分别作为F与G,F的第二质量参数组中s项质量参数的取值与G的第二质量参数组中s项质量参数的取值均相同。
结合上述实施例的内容,在一个实施例中,F的第二质量参数组中所剩下(t-s)项质量参数的取值与G的第二质量参数组中所剩下(t-s)项质量参数的取值均相同或者至少有一项不相同。
在上述过程中,t指的是第一质量参数组中覆盖了多少种类型的质量参数。比如,若第一质量参数组覆盖了4种类型的质量参数,则t为4。而第一质量参数组实际上是由该t项质量参数中每项质量参数的取值所构成的,且不存在同一质量参数出现不同取值的情形。而s表示t种类型的质量参数中若干个类型的质量参数,s即为“若干个”对应的具体数量,且s的取值是小于t的。也即,s实则表示t种类型的质量参数中局部类型的质量参数。
至于t种类型的质量参数中哪几种类型质量参数是作为该s项质量参数,也即s项质量参数中的类型及s本身的数量该如何界定,则可以根据实际需求进行选择。结合上述过程中所提到的,需要由s项质量参数中每项质量参数的不同取值以构成不同取值组。由此,该s项质量参数可以是便于后续进行取值穷举的质量参数。相应地,该s项质量参数可以均为标量,以便于穷举。
当然,实际实施过程中,除了按照便于取值穷举的角度来选择该s项质量参数之外,还可以按照质量参数对语音质量的影响程度来选择该s项质量参数,比如可以选择对语音质量影响较小的s项质量参数。之所以选择对语音质量影响较小的s项质量参数,是由于剩下(t-s)项质量参数对语音质量影响相对较大,从而以该s项质量参数作为第一预设模型中子模型的划分基础,而将该(t-s)项质量参数作为第一预设模型的训练基础,可以使得训练得到的第一预设模型与语音质量之间关联程度更紧密,而且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述关于s项参数的说明,现对上述步骤102中“语音训练样本的语音质量与检材数据的语音质量相匹配”的含义进行解释说明:若某一语言训练样本的s项参数的取值与检材数据的s项参数的取值相同,则可以确定该语言训练样本与该检材数据的质量相匹配。需要说明的是,这里所提到的s项参数的取值相同,不仅指的是该语言训练样本与该检材数据各自有s项参数,且该语言训练样本的s项参数所包含的参数类型与该检材数据的s项参数所包含的参数类型也是相同的。
当然,实际实施过程中除了上述将语言训练样本的s项参数的取值与检材数据的s项参数的取值相同,定义为语音训练样本的语音质量与检材数据的语音质量相匹配之外,还可以采样如下定义:若某一语言训练样本的s项参数中每项参数的取值与检材数据的s项参数中每项参数的取值之间的差值,均在预设范围内,则可以确定该语言训练样本与该检材数据的质量相匹配。需要说明的是,这里所提到的s项参数,不光指的是该语言训练样本与该检材数据各自有s项参数,且该语言训练样本的s项参数所包含的参数类型与该检材数据的s项参数所包含的参数类型也是相同的。另外,在计算差值时,也是该语言训练样本与该检材数据各自同类型参数的取值进行计算。
为了便于理解,现以t为4且s为2为例,也即第一质量参数组中包括4项质量参数,且这4项质量参数中有2项质量参数会与后续确定子模型数量的过程相关联。进一步地,该2项质量参数中每项质量参数的不同取值可以构成不同的取值组。以该2项质量参数分别为h和j为例,若h的不同取值可以是h1、h2、h3及h4,而j的不同取值可以是j1、j2及j3。由此,h和j这2项质量参数的不同取值,可以构成不同取值组,一共可以构成3*4=12组。相应地,预设模型中子模型的数量q也为12,也即每一取值组对应一个子模型。
例如,以s为2为例,且该2项质量参数可以是信噪比及语音有效时长为例。根据该2项质量参数各自的取值范围,按照各自的间隔及各自的初始值,可以得到该2项质量参数各自不同的取值。比如,可以选取10s、20s、30s和40s作为语音有效时长的取值,可以选取0dB、10dB和20dB作为信噪比的取值。由此,可以构成12组不同的取值组。
对于该12个子模型中的任一子模型D及用于训练D的所有语音训练样本,可以预先获取这些语音训练样本中每一语音训练样本的第二质量参数组。其中,第一质量参数组是由上述4项质量参数所确定的,而每一第二质量参数组也是由该4项质量参数所确定的。需要说明的是,这里之所以不说明第一质量参数组包括上述4项质量参数,而是说明第一质量参数组是由上述4项质量参数所确定的,是因为第一质量参数组并不包括质量参数本身对应的变量,而是包括质量参数对应的具体数值。由此,这里才说明第一质量参数组是由上述4项质量参数所确定的,第二质量参数组同理。
对于用于训练D的所有语音训练样本中任意两个语音训练样本F与G,由上述过程可知,F的第二质量参数组中质量参数h的取值与G的第二质量参数组中质量参数h的取值是相同的。而且,F的第二质量参数组中质量参数j的取值与G的第二质量参数组中质量参数j的取值也是相同的。而F的第二质量参数组中除去h和j之外的另外2项质量参数中每项质量参数的取值,比如k,与G的第二质量参数组中质量参数k的取值可以是不同的。
实际上,在用于训练D的所有语音训练样本中,每一语音训练样本的第二质量参数组中h的取值都是相同的,每一语音训练样本的第二质量参数组中j的取值都也是相同的,而其它项质量参数的取值则可以不同。由此,对h的相同取值与对j的相同取值就构成了一组取值组,上述语音训练样本即为该组取值组对应的语音训练样本。由上述语音训练样本可以训练得到该组取值组对应的子模型,而这个训练得到的子模型为第一预设模型的一部分,每一取值组均所对应的语音训练样本均可以用于训练得到其对应的子模型。
需要说明的是,由于第一质量参数组中每项质量参数的取值是随机的,为了能够保证存在与该第一质量参数组相关联的子模型,鉴于每项质量参数的取值是可以被穷举出来的,从而实际实施过程中,可以对于上述2项质量参数中每项质量参数,可以预先将每项质量参数所有可能的取值均列举出来,并基于2项质量参数中每项质量参数的不同取值,确定s项质量参数的多组不同取值。
由此,无论获取到怎样的检材数据,获取到的检材数据的第一质量参数组中,该2项质量参数中每项质量参数的取值所构成的取值组,均会落入到预先通过穷举的方式所确定所有取值组中。而所有取值组中每一取值组均存在对应的预先训练所得到的子模型,从而无论获取到怎样的检材数据,第一预设模型中均会存在子模型与获取到的检材数据相对应。还需要说明的是,由上述说明可知,s是小于t的,也就是t项质量参数中存在一些质量参数没有参与上述取值过程,通常是这些质量参数不便于后续的取值穷举过程,如这些质量参数均为向量,而s项质量参数可以均为标量,以便于穷举。
比如,在穷举的前提下,以h的不同取值分别为h1、h2、h3及h4,而j的不同取值分别为j1、j2及j3为例,由此所构成的12组取值组。无论后续获取到怎样的检材数据,该检材数据的第一质量参数组中h的取值和j的取值所构成的取值组,会落入到该12组取值组中,该12组取值组中每一取值组对应一个预先训练的子模型。后续无论获取到怎样的检材数据,获取到的检材数据的第一质量参数组中h和j的取值所构成的取值组,均会落入到该12组取值组中。由此,后续无论获取到怎样的检材数据,第一预设模型中均会存在子模型与获取到的检材数据相对应。
还需要说明的是,该2项质量参数的每一取值组所对应的每一子模型,均可以视为子网络。以每一子网络的类型为深度神经网络模型为例,每一子网络的结构可以参考图2。在图2中,每一子网络包括3个隐层,也即DNN1、DNN2及DNN3。当然,实际实施过程中也可以设计3个乃至更多的隐层,本发明实施例对此不作具体限定。以训练过程为例,图2中的输入特征Input可以指的是将第一质量参数组中每项质量参数的取值对应的特征向量进行拼接后所得到的特征向量,输出特征Output可以是阈值,也可以是阈值区间。
本发明实施例提供的方法,通过穷举的方式,预先确定s项质量参数中每项质量参数每种可能的取值所构成的取值组,再获取这些取值组对应的语音训练样本,最后训练得到每一取值组对应的子模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。另外,由于每一子模型均与该s项质量参数的某一取值组相对应,从而在训练得到每一子模型时,只需输入除该s项质量参数之外其它质量参数的取值即可。另外,实际使用子模型时,也只需要输入剩下(t-s)项质量参数的取值。因此,减少了训练与使用子模型时输入的数据量,从而减少了训练时的计算量,并可以减少使用时的计算量。
结合上述实施例的内容,在一个实施例中,参见图3,还包括:
301、确定所有语音训练样本中每一语音训练样本对应的预设阈值;
302、将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练,得到D。
该过程主要是训练第一预设模型中每一子模型的过程,上述过程主要是以子模型D为例,在上述步骤301中,“所有语音训练样本”指的是用于训练子模型D的所有语音训练样本。另外,可以根据经验值,确定所有语音训练样本中每一语音训练样本对应的预设阈值。
在上述步骤302中,由上述实施例的内容可知,第一预设模型的输出结果可以为阈值,也可以为阈值区间。基于此,在训练得到子模型D时,可以将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入。
需要说明的是,之所以步骤302中未将第二质量参数组中所有质量参数的取值作为输入,是由于子模型D实际上是与s项质量参数的某一取值组相对应的。具体地,在用于训练D的所有语音训练样本中,即使是不同语音训练样本的第二质量参数组,但第二质量参数组中该s项目质量参数对应的取值均是相同的,只是除该s项质量参数之外其它质量参数的取值不同。由此,既然子模型D实际上是与该s项质量参数的某一取值组相对应的,在对D对应的子初始模型进行训练时,只需要将除该s项质量参数之外其它质量参数的取值作为训练时的输入。需要说明的是,第一预设模型中除D之外的子模型,也可以按照上述过程进行训练,以得到第一预设模型中的所有子模型。
而D对应的子初始模型的输出内容的类型,可以基于每一语音训练样本对应的预设阈值所确定。其中,可以根据第一预设模型输出结果的类型,确定训练D对应的子初始模型时输出内容的类型。具体地,若第一预设模型输出结果的类型为阈值,则可以直接将每一语音训练样本对应的预设阈值作为D对应的子初始模型的期望输出。若第一预设模型输出结果的类型为阈值区间,则可以确定每一语音训练样本对应的预设阈值所落入的取值区间,从而将该取值区间作为D对应的子初始模型的期望输出。
其中,可以预先对取值区间进行划分。例如,若预设阈值的取值区间为[0,100],则可以将该取值区间划分得到10个子区间,也即[0,10],[10,20],[20,30]……[90,100]。基于上述划分得到的子区间,可以确定每一语音训练样本对应的预设阈值所落入的取值区间。需要说明的是,取值区间划分越细致,则后续在将第一质量参数组输入至第一预设模型后,输出得到的关于目标预设阈值的输出结果也就更精准。
通过上述过程可以训练得到第一预设模型中每一子模型,相应地,实际实施过程中,在将第一质量参数组输入至第一预设模型后,第一预设模型可以将第一质量参数组中除该s项质量参数之外其它质量参数的取值,输入至第一预设模型中的每一子模型中。
由上述实施例可知,每一子模型在训练过程中是将每一语音训练样本对应的阈值类别作为输出的。由此,在将第一质量参数组输入至第一预设模型后,第一预设模型可以先根据第一质量参数组中该s项质量参数的取值确定该由第一预设模型中哪一子模型对第一质量参数组进行处理。在确定由哪个子模型对第一质量参数组进行处理后,再基于第一质量参数组中除该s项质量参数之外其它质量参数的取值以及该子模型,确定目标预设阈值。具体地,可将第一质量参数组中除该s项质量参数之外其它质量参数的取值输入至该子模型,根据输出结果确定目标预设阈值。
本发明实施例提供的方法,通过确定所有语音训练样本中每一语音训练样本对应的预设阈值,将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练,得到D。由于每一子模型均与该s项质量参数的某一取值组相对应,从而在训练得到每一子模型时,只需输入除该s项质量参数之外其它质量参数的取值即可。因此,减少了输入时的数据量,从而减少了训练时的计算量。
结合上述实施例的内容,在一个实施例中,本发明实施例不对基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练的方式作具体限定,包括但不限于:基于每一语音训练样本对应的预设阈值,确定每一语音训练样本对应的阈值类别,每一阈值类别与预设阈值的取值区间进行划分后得到的子区间相对应;将阈值类别作为对应语音训练样本的期望输出,对D对应的子初始模型进行训练。
由上述实施例的内容可知,在训练子模型D时,可以基于每一语音训练样本对应的预设阈值,确定将每一语音训练样本的第二质量参数组中除所述s项质量参数之外其它质量参数的取值作为所述D对应的子初始模型的输入后,D对应的子初始模型的期望输出。而“D对应的子初始模型的输出”可以指的是将每一语音训练样本的第二质量参数组中除所述s项质量参数之外其它质量参数的取值作为所述D对应的子初始模型的输入后,D对应的子初始模型的实际输出。其中,期望输出与实际输出的内容类型一致。根据第一预设模型输出结果的类型,确定训练D对应的子初始模型时输出内容的类型。
其中,若第一预设模型输出结果的类型为阈值区间,则可以进一步将阈值区间转换为阈值类别。在上述实施例中,可以预先对取值区间进行划分。例如,若预设阈值的取值区间为[0,100],则可以将该取值区间划分得到10个子区间,也即[0,10],[10,20],[20,30]……[90,100]。
进一步地,在本发明实施例中,可将[0,10]对应的阈值类别作为第一类,将[10,20]对应的阈值类别作为第二类,后面的依此类推。在确定每一语音训练样本对应的预设阈值,可以进一步确定每一语音训练样本对应的阈值类别。例如,若确定某一语音训练样本对应的预设阈值为12,则可以确定该预设阈值对应的阈值类别为第二类。由上述实施例的内容可知,第一预设模型的输出结果可以为阈值,也可以为阈值区间。而在本发明实施例中,子初始模型的期望输出的内容类型为阈值类别,并以此为基础对子初始模型进行训练的。
由上述实施例可知,在将第一质量参数组输入至第一预设模型后,第一预设模型可以先根据第一质量参数组中该s项质量参数的取值确定该由第一预设模型中哪一子模型对第一质量参数组进行处理。在确定由哪个子模型对第一质量参数组进行处理后,再基于第一质量参数组中除该s项质量参数之外其它质量参数的取值以及该子模型,确定目标预设阈值。
“将阈值类别作为子初始模型的期望输出”中之所以代称为“期望输出”,而不是“输出”,是由于实际实施过程中,将第一质量参数组中除s项质量参数之外其它质量参数的取值,输入至该子模型,不是直接输出目标预设阈值,而是输出第一质量参数组对应的目标预设阈值落入至每一取值区间的概率,从而代称为“期望输出”。而由上述实施例的内容可知,阈值类别实际上是与对预设阈值的取值区间进行划分后所得到的子区间相对应的。因此,上述“输出第一质量参数组对应的目标预设阈值落入至每一取值区间的概率”,实际上等同于输出目标预设阈值落入至不同子区间的概率。假如子区间划分了100个,而落入每一子区间的概率分别为H0,H1,...,H99,而且H0+H1+...+H99=1。相应地,在上述步骤102中,由于第一预设模型可以输出目标预设阈值落入至不同子区间的概率,从而可以确定最大概率对应的子区间,以表示在该子区间内选取预设阈值以作为目标预设阈值,可能会更精准。由此,在根据输出结果确定目标预设阈值时,可以从最大概率对应的子区间中选取一个预设阈值以作为目标预设阈值。此时,第一预设模型的输出结果相当于为一个阈值区间,而非直接输出阈值。
另外,为了对第一预设模型中每一子模型进行训练,可以为每一子模型设计损失函数。由于每个子模型的作用是为了确定目标预设阈值可能落入到哪一子区间,从而可以认为是一个分类任务。而分类任务最常用的损失函数为交叉熵损失函数(CE-loss),CE-loss的公式可参考如下公式(2):
CEloss=-(y0*log p0+y1*log p1+...+y99*log p99); (2)
在上述公式(2)中,yi表示语音训练样本对应的标签,语音训练样本对应的预设阈值本身属于哪一种阈值类别(也即处于哪一子区间),则那种阈值类别对应的标签取值为1,而除此之外的其它阈值类别对应的标签取值为0。pi种表示语音训练样本预测为第i种阈值类别的概率。
基于上述说明,第一预设模型中每一子模型的结构可如图4所示。在图4中,DNN1~DNN3表示子模型的三个隐层。在t为4而s为2的前提下,feature1和feature2分别为除该s项质量参数之外其它质量参数的取值,取值的形式可以为特征向量,CE-loss指导子模型参数的更新。每一子模型训练完毕,即可得到一个可以直接使用的第一预设模型。该第一预设模型可以输入检材数据的第一质量参数组,输出可以为目标预设阈值对应的阈值类别,也即目标预设阈值可能落入的子区间。
本发明实施例提供的方法,通过基于每一语音训练样本对应的预设阈值,确定每一语音训练样本对应的阈值类别,将阈值类别作为对应语音训练样本的期望输出,对D对应的子初始模型进行训练。由于每一子模型均与该s项质量参数的某一取值组相对应,从而在训练得到每一子模型时,只需输入除该s项质量参数之外其它质量参数的取值即可。因此,减少了输入时的数据量,从而减少了训练时的计算量。
结合上述实施例的内容,在一个实施例中,参见图5,本发明实施例不对确定所有语音训练样本中每一语音训练样本对应的预设阈值的方式作具体限定,包括但不限于:
501、对于所有语音训练样本中的任一语音训练样本E,基于E,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与E的语音质量相匹配;
502、基于检材语音库及样本语音库,获取E对应的预设阈值。
在上述步骤501中,检材语音库主要是由不同说话人身份的语音样本所组成的,样本语音库也是由不同说话人身份的语音样本所组成的,且检材语音库与样本语音库中说话人身份是明确的。相应地,检材语音库与样本语音库中的语音样本就可以组成一组组的语音样本对比对,这些对比对中说话人身份也是明确的。比如,一组语音样本对比对中其中一个语音样本是来自检材语音库的,另外一个语音样本可以是来自样本语音库的,这两个语音样本可以对应同一说话人身份,也即是由同一个人说的两句话录制形成的两个语音样本,也可以对应两个说话人身份,也即是由不同的两个人各自说的一句话录制形成的两个语音样本。
由于检材语音库与样本语音库中的语音样本可以组成一组组的语音样本对比对,而这些语音样本对比对其说话人身份是确定的,从而基于上述两点,就可以拟合出一个语音训练样本与样本数据之间相关系数的预设阈值。需要说明的是,为了避免环境或者信道等因素所带来的干扰,样本语音库与检材语音库中的语音样本均可以具备较高的语音质量。另外,实际实施过程中,可以先准备样本语音库,再从样本语音库中选取一定数量条语音样本,再由这些选取的语音样本组成检材语音库。
例如,可以先获取由r(r>1)个不同的说话人所生成的语音样本,由这些语音样本可以组成样本语音库。再从样本语音库中就每一说话人均分出k(k≥1)条语音样本,由这些分出的语音样本组成检材语音库。实际实施过程中,在从样本语音库中分出语音样本时,每一说话人分出的语音样本条数可以相同,可以不同,本发明实施例对此不作具体限定。另外,检材语音库中所有语音样本对应的说话人身份与样本语音库中所有语音样本对应的的说话人身份,可以完全相同,也可以不完全相同,本发明实施例对此也不作具体限定。
由于由两个相同的语音样本组成的语音样本对比对,其不存在差异性,从而这样的语音样本对比对用于拟合预设阈值是无意义的。因此,实际实施过程中,若检材语音库是由样本语音库分出的语音样本所组成的,则还可以将从样本语音库中分出的语音样本,从样本语音库中剔除掉,以保证样本语音库与检材语音库中不存在重复的语音样本。
在上述步骤502中,可以通过将检材语音库中的语音样本与样本语音库中的语音样本进行拟合,即可得到语音训练样本E与样本数据之间相关系数的预设阈值。通过上述过程,用于训练子模型D的所有语音训练样本中除去E之外的其它语音训练样本,也可以通过上述方式获取对应的预设阈值。由此,用于训练每一子模型的每一语音训练样本,均可以获取对应的预设阈值。
需要说明的是,在上述步骤501中,“以使得语音质量与E的语音质量相匹配”,可以指的是检材语音库中语音样本的质量参数与语音训练样本E的质量参数中存在至少一个类型的质量参数,检材语音库中语音样本与语音训练样本E就该类型的质量参数的各自取值是相同的。由此,检材语音库中语音样本在符合上述描述的条件的前提下,才可以认定检材语音库中语音样本的语音质量与语音训练样本E的语音质量相匹配。关于“相匹配”的进一步释义或者举例,可参考上述实施例的内容,此处不再赘述。
本发明实施例提供的方法,由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,本发明实施例不对基于E,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与E的语音质量相匹配的方式作具体限定,包括但不限于:根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与E的第二质量参数组中每项质量参数的取值相匹配。
在上述过程中,第二质量参数组中质量参数的定义可参考上述实施例的内容,此处不再赘述。对于任一项的质量参数,本发明不对根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整的方式作具体限定,包括但不限于:基于E的该项质量参数的取值确定该项质量参数的取值区间;对检材语音库中语音样本的该项质量参数的取值进行调整,以使得检材语音库中语音样本的该项质量参数的取值处于该项质量参数的取值区间内。当然,实际实施过程中,在对检材语音库中语音样本的质量参数的取值进行调整时,对于某一项质量参数,也可以使检材语音库中语音样本的该项质量参数的取值与E的该项质量参数的取值保持一致,本发明实施例对此不作具体限定。
以质量参数的类型为噪声长度为例,可以先确定E的噪声长度的取值,基于该取值可以确定一个噪声长度的取值区间。例如,E的噪声长度的取值为2秒,则E的噪声长度的取值区间可以为1.8秒至2.2秒。而对于检材语音库中的语音样本,若某一语音样本的噪声长度为4秒,则可以缩短该语音样本的噪声长度,以使得其噪声长度处于上述噪声长度的取值区间内。通过上述过程,用于训练子模型D的所有语音训练样本中除去E之外的其它语音训练样本,在获取对应的预设阈值时,也可以通过上述方式对检材语音库中的语音样本进行调整。用于训练其它子模型的语音训练样本,在获取对应的预设阈值时,也可以通过上述方式对检材语音库中的语音样本进行调整。
本发明实施例提供的方法,通过根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与E的第二质量参数组中每项质量参数的取值相匹配。由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,参见图6,本发明实施例不对基于检材语音库及样本语音库,获取E对应的预设阈值的方式作具体限定,包括但不限于:
601、确定对比对,对比对包括同源对比对及异源对比对,同源对比对是基于相同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,异源对比对是基于不同说话人身份分别在样本特征库及检材特征库选取一条声纹特征所构成的,样本特征库是由样本语音库中语音样本对应的声纹特征所构成的,检材特征库是由检材语音库中语音样本对应的声纹特征所构成的;
602、根据每一对比对的相关系数,获取每一对比对的对数似然比;
603、根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,同源分布曲线与异源分布曲线的横坐标表示相关系数,同源分布曲线与异源分布曲线的纵坐标表示对数似然比;
604、根据同源分布曲线与异源分布曲线之间的交点,确定E对应的预设阈值。
为了便于说明获取预设阈值的过程,以样本特征库与检材特征库中不存在相同的语音样本、样本特征库与检材数据库中存在相同的说话人身份、样本特征库存在m条声纹特征、检材特征库存在n条声纹特征且相关系数的类型为余弦相似度为例。
对于样本特征库m条声纹特征中某一条声纹特征,该条声纹特征与检材特征库中n条声纹特征可以组成n组对比对,从而样本特征库m条声纹特征与检材特征库中n条声纹特征可以组成m*n组对比对。由于样本特征库与检材数据库中存在相同的说话人身份,从而该m*n组对比对中既存在同源对比对,也存在异源对比对。另外,由于每条声纹特征对应的说话人身份已知,从而m*n组对比对中哪些对比对是同源对比对,哪些对比对是异源对比对,也是可以获知的。
需要说明的是,这些对比对是由样本特征库及检材语音库中语音样本对应的声纹特征构成的,而后续是需要计算两个声纹特征之间的相关系数的。因此,可以采用相同的某一特征提取方式,来分别提取样本特征库及检材语音库中语音样本对应的声纹特征。另外,该特征提取方式可以与步骤101中,分别提取检材数据与样本数据对应的声纹特征时所采用的特征提取方式一致,也可以不一致,只需后续得到的相关系数的类型一致即可,本发明实施例对此不作具体限定。
通过上述步骤601,可以确定同源对比对及异源对比对。在执行上述步骤602之前,可以计算每一同源对比对的相关系数及每一异源对比对的相关系数。以相关系数为余弦相似度为例,计算余弦相似度的过程可参考如下公式(3):
/>
在上述公式(3)中,a与b均表示声纹特征的特征向量,cosθ表示余弦相似度。通过该公式,可以计算得到所有对比对的余弦相似度。需要说明的是,对于某一组对比对,无论是同源对比对还是异源对比对,用来表示该组对比对中两个声纹特征的特征向量,其类型在实际实施过程中可以有很多种。例如,该组对比对中两个声纹特征的特征向量可以用A1及A2来表示,或者用B1及B2来表示,还可以用C1及C2来表示。其中,A、B、C均为不同类型的特征向量。在获取该组对比对的相关系数时,可以使用某一类型的特征向量,如类型A的特征向量,从而基于A1及A2来计算该组对比对的相关系数。实际实施过程中,可以采用x-vector特征向量,本发明实施例对此不作具体限定。
需要说明的是,按照理想的状况,同源对比对对应的余弦相似度和异源对比对对应的余弦相似度应当有所区别,也即两者取值区间应当不会重叠,以便于进行同源或异源的判断。但这只是理想的状况,实际实施过程中,以相关系数为余弦相似度为例,上述所有同源对比对的余弦相似度其分布可参考图7,上述所有异源对比对的余弦相似度其分布可参考图8。
在图7及图8中,横坐标表示余弦相似度的取值,纵坐标表示每一种余弦相似度的取值所出现的频次。由图7及图8可以看出,同源对比对所对应的余弦相似度其取值分布和异源对比对所对应的余弦相似度其取值分布,均比较宽,且是存在重合部分的,若检材数据与样本数据之间的相关系数落入了重合部分的取值区间中,则检材数据与样本数据之间究竟是同源还是异源,基于余弦相似度就很难判别。
需要说明的是,余弦相似度之所以会呈现图7及图8这样的分布,是因为余弦相似度是绝对度量,其值会因为检材数据的质量参数取值的不同,而发生较大变化,从而才会呈现图7及图8中那样较宽的分布,而这是不能达到精准确定E对应的预设阈值的目的。为了解决这个问题,才需要执行上述步骤402,将相关系数转化为对数似然比。其中,余弦相似度的取值区间为-1至1,而对数似然比的取值区间为负无穷至正无穷,取值区间的范围更加广泛。不同于余弦相似度,对数似然比是个相对度量,对数似然比为0则表示无法判断同源还是异源。
将相关系数转化为对数似然比,相关系数与对数似然比之间取值分布的区别,具体可参考图9及图10。在图9及图10中,横坐标表示对数似然比的取值,纵坐标表示每一种对数似然比的取值所出现的频次。由图9及图10可以看出,同源对比对所对应的对数似然比其取值分布和异源对比对所对应的对数似然比其取值分布,均比较窄,且重合部分也比较少。由此可见,将对数似然比作为判断依据,会更加精准。
对于上述步骤603,以相关系数为余弦相似度为例,同源分布曲线与异源分布曲线可参考图11。图11中横坐标表示余弦相似度,纵坐标表示对数似然比。由上述过程可知,根据每一对比对的相关系数,是可以获取到每一同源对比对的对数似然比的,也即两者存在映射关系。基于两者的映射关系,两者结合可以作为二维平面的一个点。
其中,同源对比对对应的点可以形成同源分布曲线,而异源对比对对应的点可以形成异源分布曲线。在图11中,从左至右先处于高位的曲线为异源分布曲线,而另一条曲线即为同源分布曲线。由于横坐标代表余弦相似度,当余弦相似度取值较低时,表示两个声纹特征差异比较大,从而在图11中余弦相似度取值较低的区间内,异源分布曲线是处于高位的,也即余弦相似度的取值落入至这个区间内时,两个声纹特征为异源的可能性比较大。
对于上述步骤604,由图11可以明显看出,两条曲线在交点的左右两侧,高低位刚好相反,也即可以认为余弦相似度落入至交点左侧的取值区间内时,表示两个声纹特征为异源,余弦相似度落入至交点右侧的取值区间内时,表示两个声纹特征为同源。其中,两条曲线的交点表示同源与异源的概率相等,图11中交点对应的余弦相似度即为预设阈值,取值大致为0.7。
由上述实施例可知,本发明实施例在获取预设阈值时,是需要将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐的。以其中一项质量参数语音有效时长的变化为例,语音有效时长可以为10秒、20秒、30秒及40秒等。基于不同语音有效时长的检材语音库所获取的预设阈值可以参考图10。
由图12可知,不同语音有效时长下,同源分布曲线与异源分布曲线各自的形状不同,且两者交点的所处位置也是不同的。而交点所处位置对应的余弦相似度即为预设阈值,也即不同语音有效时长下所获取的预设阈值也是不同的,其它类型的质量参数发生变化时同样会产生类似图12中的效果。由此,也可以证明质量参数是会对预设阈值的取值造成影响的。通过上述过程,可以确定用于训练子模型D的每一语音训练样本对应的预设阈值。由此,可以进一步地确定用于训练每一子模型的每一语音训练样本对应的预设阈值。
本发明实施例提供的方法,通过确定同源对比对及异源对比对,根据每一同源对比对的相关系数,获取每一同源对比对的对数似然比,根据每一异源对比对的相关系数,获取每一异源对比对的对数似然比。根据每一同源对比对的对数似然比及相关系数,确定同源分布曲线,根据每一异源对比对的对数似然比及相关系数,确定异源分布曲线,根据同源分布曲线与异源分布曲线之间的交点,确定E对应的预设阈值。
由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,参见图13,在根据每一对比对的相关系数,获取每一对比对的对数似然比之前,还包括:
1301、对于任一对比对,获取任一对比对的多个特征向量组中每一特征向量组对应的相关系数;其中,每一特征向量组均是由任一对比对中两条声纹特征各自对应的特征向量所构成的,每一特征向量组中两个特征向量的类型相同,不同特征向量组所对应的特征向量类型均不同;
1302、根据每一特征向量组对应的相关系数,获取相关系数综合值,并将相关系数综合值作为任一对比对的相关系数。
对于某一对比对,上述过程主要是说明可以采用多种类型特征向量来表示该对比对,每种类型的特征向量均可以计算出一个相关系数,从而再对所有类型的特征向量对应计算得到的相关系数取相关系数综合值,将该相关系数综合值作为该组对比对的相关系数。同理,上述步骤101中,在获取目标相关系数时,也可以采用相同的取综合值的方式,本发明实施例对此不作具体限定。其中,取综合值的方式可以为取平均值,或者加权求和等,本发明实施例对此不作具体限定。
需要说明的是,采用这种方式需要在基于每种类型的特征向量计算相关系数时,计算得到的相关系数的类型需要是一致的,以使得相同类型的相关系数才可以取综合值。例如,结合上述示例中的内容,A1及A2可以计算得到相关系数a,而B1及B2可以计算得到相关系数b,而C1及C2可以计算得到相关系数c。其中,a、b及c均为相同类型的相关系数。对a、b及c的和值取平均值,该平均值即可作为该组对比对的相关系数。
本发明实施例提供的方法,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
结合上述实施例的内容,在一个实施例中,本发明实施例不对根据每一对比对的相关系数,获取每一对比对的对数似然比的方式作具体限定,包括但不限于如下两种方式:
第一种方式:将每一同源对比对的相关系数输入至第一度量转化模型,输出每一同源对比对的对数似然比,将每一异源对比对的相关系数输入至第二度量转化模型,输出每一异源对比对的对数似然比,第一度量转化模型与第二度量转化模型是基于相同的预设算法所建立的。
第二种方式:将每一对比对的相关系数输入至第二预设模型,输出每一对比对的对数似然比,第二预设模型是基于样本对比对及样本对比对的标注结果所训练得到的。
对于上述第一种方式,在建立第一度量转化模型及第二度量转化模型时,可以采用相同的预设算法建模,并可以采用EM(Expectation-Maximum,期望最大化)算法进行拟合。其中,EM算法是一种解决存在隐含变量优化问题的有效方法,是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),从而这样的算法被称为EM算法。
EM算法的主要思想是首先根据己经给出的观测数据,估计出模型参数的值。然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前己经观测到的数据,重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。本发明实施例提供的方法,主要是通过建模加上EM算法,对似然比进行估计。在一个实施例中,预设算法可以为为混合高斯算法、逻辑线性回归算法或非参数化算法。
对于上述第二种方式,每一对比对的相关系数所采用的计算方式,可以参考上述目标相关系数的计算方式。需要说明的是,实际实施过程中,由于语音训练样本的预设阈值是基于对比对的相关系数所确定的,对目标相关系数进行判别需要用到目标预设阈值,而目标预设阈值又是基于语音训练样本的预设阈值所确定的,为了保证判别依据与判别对象的同一性,从而目标相关系数及对比对的相关系数的计算过程可以相同。
另外,第二预设模型的类型可以神经网络模型或支持向量机等学习模型,本发明实施例对此不作具体限定。样本对比对主要是用于训练得到第二预设模型的,每一样本对比对也是由两条声纹特征所构成的。需要说明的是,实际实施过程中,可以直接将上述第二种方式中的对比对作为上述第二种方式中用于训练得到第二预设模型的样本对比对,也可以单独设置不同于上述对比对的样本对比对,本发明实施例对此不作具体限定。样本对比对的标注结果主要是通过人工对样本对比对中的两条声纹特征是否对应于同一说话人身份进行标注所确定的。在获知输入及输出的前提下,可以通过监督式的训练方式得到第二预设模型。
本发明实施例提供的方法,由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,在将每一对比对的相关系数输入至第二预设模型,输出每一对比对的对数似然比之前,还包括:将样本对比对的相关系数输入至第二初始模型,输出样本对比对的对数似然比,根据样本对比对的判别结果,获取样本对比对的损失函数值,若获取的损失函数值不满足预设条件,则对第二初始模型中的参数进行更新,重复上述输入样本对比对、获取损失函数值及更新参数的过程,直至获取的损失函数值满足预设条件为止,则确定完成对第二初始模型中参数的更新,并得到第二预设模型。
在上述过程中,第二初始模型与第二预设模型均可以在输入两条声纹特征后,输出该两条声纹特征的对数似然比。对于某一样本对比对,关于获取该样本对比对的损失函数值的方式,本发明实施例对此不作具体限定,包括但不限于:根据该样本对比对中两条声纹特征的同源概率及异源概率,获取该样本对比对的损失函数值。其中,同源概率及异源概率可以由将样本对比对输入至初始模型后,由初始模型的中间输出变量所确定。由上述实施例可知,对数似然比实际上是根据同源概率及异源概率计算得到的。相应地,第二初始模型在输出对数似然比的过程中,可以先根据样本对比对的相关系数,确定样本对比对的同源概率及异源概率,再根据两者计算得到对数似然比。
在根据该样本对比对中两条声纹特征的同源概率及异源概率,获取该样本对比对的损失函数值时,可以将异源概率与同源概率进行加权求和,将加权求和结果作为损失函数值。也可以是两者乘以各自的代价系数,将两个乘积进行求和,将求和结果作为损失函数值,本发明实施例对此不作具体限定。为了便于理解,本发明实施例给出其中一种获取损失函数值的过程,具体为:
将同源标签与样本对比对的同源概率相乘,得到第一乘积;将异源标签与样本对比对的异源概率相乘,得到第二乘积;将第一乘积与第二乘积进行相加,对相加结果取负数,以作为损失函数值。具体地,该过程可以通过如下公式(4)计算:
CEloss=-(y0*logp0+y1*logp1); (4)
在上述公式(4)中,CEloss表示损失函数值,p0表示同源概率,p1表示异源概率,y0表示同源标签,y1表示异源标签。
另外,预设条件可以为获取的损失函数值逐渐收敛或者连续n次获取的损失函数值不再降低等,本发明实施例对此不作具体限定。在确定获取的损失函数值满足预设条件后,对第二初始模型中参数更新的过程即完成,并可以得到第二预设模型。需要说明的是,上述每次输入的样本对比对是可以不同的,也即每输入一个不同的样本对比对,就可以根据后续获取的损失函数值,对第二初始模型中的参数更新一次,重复输入不同的样本对比对,直至获取的损失函数值满足预设条件为止。
本发明实施例提供的方法,由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,第二初始模型包括双隐层、激活函数层及对数似然比计算层;相应地,本发明实施例不对将样本对比对输入至第二初始模型,输出样本对比对的对数似然比的方式作具体限定,参见图14,包括但不限于:
1401、将样本对比对的相关系数输入至双隐层,输出样本对比对中两条声纹特征的同源概率及异源概率;
1402、将同源概率及异源概率输入至激活函数层,以对同源概率及异源概率进行归一化;
1403、将归一化后的同源概率及异源概率输入至对数似然比计算层,输出样本对比对的对数似然比。
以第二预设模型的类型为深度神经网络模型为例,双隐层指的是第二预设模型中包含两个隐层,如DNN1与DNN2。当然,实际实施过程中也可以设计3个乃至更多的隐层,本发明实施例对此不作具体限定。需要说明的是,上述步骤1401中,可以并非是输入样本对比对的相关系数,而是输入样本对比对中两条声纹特征对应的两个特征向量,由预设模型实现将该两个特征向量转化为对应的相关系数。具体地,实际实施过程中可以将两个特征向量按照时域或者频域的方式进行拼接,从而将拼接后得到的特征向量输入至第二预设模型,由第二预设模型先根据拼接得到的特征向量获取对应的相关系数,再由第二预设模型中的双隐层对相关系数进行处理,以得到样本对比对中两条声纹特征的同源概率及异源概率。
在上述步骤1402中,归一化过程主要是使得同源概率与异源概率的和为1。该过程可以通过激活函数sofmax实现。至于步骤1403中的对数似然比计算层,该层可以先计算同源概率与异源概率的比值,即为似然比,再将该比值取对数值,即可得到对数似然比。其中,第二预设模型的结构可以参考图15。在图15中,feature1与feature2分别代表样本对比对中两条声纹特征各自对应的特征向量,将两者放在一起即代表两者拼接后所得到的特征向量。DNN1与DNN2代表双隐层,softmax代表激活函数层,H0与H1分别表示同源概率及异源概率,CE-loss表示损失函数。
本发明实施例提供的方法,由于可以将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
结合上述实施例的内容,在一个实施例中,第一质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
为了便于理解,现以第一质量参数组包括四项质量参数为例,对上述实施例中获取检材数据的第一质量参数组的过程进行说明。在获取检材数据的上述四项质量参数之前,可以采用预设方式,确定出检材数据中的有效语音片段以及非语言片段。其中,预设方式可以为语音活动检测的方式,本发明实施例对此不作具体限定。具体地,检材数据其实质为一条音频,可以先对该音频x(n)进行时频分析,得到时频分布结果X(l,ω)。其中,x(n)为时域音频,l为帧序号,ω为频点序号。上述时频分析的过程可参考如下公式(5):
X(l,ω)=STFT(x(n)); (5)
然后,通过对X(l,ω)进行语音活动检测,确定哪些帧lv存在语音,也即有效语音片段,哪些帧ln作为噪声段,也即非语言片段,具体可参考如下公式(6)及(7):
lv=VAD(X(l,ω)); (6)
ln=not VAD(X(l,ω)); (7)
通过上述过程,在获取到检材数据中的有效语音片段以及非语言片段之后,可以根据检材数据中的有效语音片段以及非语言片段,确定质量参数。例如,信噪比的计算过程可参考如下公式(8):
在上述公式(8)中,X(lv,ω)表示某一有效语音片段的有效信号输出功率,X(ln,ω)表示某一非语言片段的噪声信号输出功率。
而剩下的三项质量参数,也即语音有效时长、噪声功率谱及信道频率响应,该三项质量参数获取过程可如下:检材数据的语音有效时长可以由检材数据中的有效语音片段的时长累加所确定。检材数据的噪声功率谱可以由检材数据中非语言片段的噪声信号所确定,具体可以通过对噪声信号进行分帧、加窗和傅里叶变换等操作得到,具体可参考如下公式(9):
在上述公式(9)中,V表示噪声信号的总帧数,其它参数可以参考上述公式中的定义。需要说明的是,噪声功率谱某种程度可以体现噪声类型,噪声类型可以为汽车行驶声或为施工声等。其中,某一检材数据的噪声功率谱对应的噪声信号频率与噪声信号功率的曲线图可如图16所示。
另外,检材数据的信道频率响应可参考如下公式(10)计算:
/>
其中,信道响应频率指的是信道脉冲响应的傅里叶变换。信道脉冲响应是指在发送端发送一个脉冲信号,在接收端产生的响应。由于多径时延扩展和多普勒平移的原因,不同接收端会有这不同的信道脉冲响应,同一个位置相干时间之外,信道脉冲响应相关性也会比较小。那么在不同位置的接收端会因为多径的原因会有着不同的信道脉冲响应。其中,某一检材数据的信道频率响应对应的信号频率与信号功率的曲线图可如图17所示。
需要说明的是,以第一质量参数组中包括信噪比、语音有效时长、噪声功率谱及信道频率响应这四项质量参数各自的取值为例,则第二质量参数组中也包括这四项质量参数各自的取值。在该四项质量参数中,信噪比及语音有效时长均为标量,而噪声功率谱及信道频率响应均为矢量。结合该四项质量参数,上述实施例中所提到的s项质量参数,s取值可以为2,也即该s项质量参数分别为上述两个标量,分别为信噪比及语音有效时长。
其中,在对语音有效时长进行穷举取值时,可以选取10s、20s、30s和40s作为语音有效时长的取值,本发明实施例对此不作具体限定。需要说明的是,经实验证明,如果有效长度超过40s,对后续预设阈值的计算过程影响极小,且对于声纹特征提取网络而言,如果语音有效时长过长,可能会使得网络学习到更多除了声纹特征之外的共性,不利于声纹鉴定结果的准确性。由此,为了保证声纹鉴定结果的准确性,语音有效时长在进行穷举取值时,可以在小于40s的范围内取值。另外,上次间隔10s的取值方式仅仅是示例,实际实施过程中间隔粒度也可以更小,这里仅为了便于说明。
在信噪比进行穷举取值时,可以选取0dB、10dB和20dB。需要说明的是,经过前期实验证明,信噪比越低,则目标预设阈值越小且波动范围较大。而当信噪比超过25dB后,目标预设阈值的变动范围会变小。由此,为了避免目标预设阈值受到信噪比影响而局限在某一较小范围内,信噪比在进行穷举取值时,可以在小于25dB的范围内取值。同理,信噪比取值时的间隔粒度也可以更小,这里仅为了说明问题,间隔为10dB。
本发明实施例提供的方法,通过基于语音训练样本在信噪比、语音有效时长、噪声功率谱及信道频率响应中的至少一项质量参数,将检材语音库中语音样本的语音质量与语音训练样本的语音质量进行拉齐,并由检材语音库与样本语音库拟合出预设阈值,从而使得预设阈值可以与语音训练样本的语音质量相关联,进而后续可基于与语音质量相关联的语音训练样本得到第一预设模型。由于后续无论获取到怎样的检材数据,在语音质量的层面,第一预设模型中均存在与该监测数据在相关联的子模型,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得目标预设阈值与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
应该理解的是,虽然图1、图3、图5、图6、图13及图14的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图3、图5、图6、图13及图14中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,如图18所示,提供了一种声纹判别装置,包括:获取模块1801、确定模块1802及判别模块1803,其中:
获取模块1801,用于获取检材数据的第一质量参数组,并获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的,第一质量参数组包括t项质量参数;
第一确定模块1802,用于基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;
判别模块1803,用于基于目标预设阈值,对目标相关系数进行判别。
在一个实施例中,对于t项质量参数中的s项质量参数,s项质量参数中每项质量参数的不同取值构成不同取值组;第一预设模型中包括q个子模型,q是由s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,s不小于1且小于t;
对于q个子模型中的任一子模型D及用于训练子模型D的所有语音训练样本,所有语音训练样本中每一语音训练样本的第二质量参数组均是由与第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所有语音训练样本中的任意两个语音训练样本,将任意两个语音训练样本分别作为F与G,F的第二质量参数组中s项质量参数的取值与G的第二质量参数组中s项质量参数的取值均相同。另外,F的第二质量参数组中所剩下(t-s)项质量参数的取值与G的第二质量参数组中所剩下(t-s)项质量参数的取值均不相同。
在一个实施例中,该装置还包括:
第二确定模块,用于确定所有语音训练样本中每一语音训练样本对应的预设阈值;
训练模块,用于将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练,得到D;
在一个实施例中,训练模块,用于基于每一语音训练样本对应的预设阈值,确定每一语音训练样本对应的阈值类别,每一阈值类别与预设阈值的取值区间进行划分后得到的子区间相对应;将阈值类别作为对应语音训练样本的期望输出,对D对应的子初始模型进行训练。
在一个实施例中,第二确定模块,包括:
处理单元,用于对于所有语音训练样本中的任一语音训练样本E,基于E,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与E的语音质量相匹配;
获取单元,用于基于检材语音库及样本语音库,获取E对应的预设阈值。
在一个实施例中,处理单元,用于根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与E的第二质量参数组中每项质量参数的取值相匹配。
在一个实施例中,第一质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
本发明实施例提供的装置,通过获取检材数据的第一质量参数组,并获取目标相关系数。基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值。基于目标预设阈值,对目标相关系数进行判别。由于存在语音训练样本的语音质量与检材数据的语音质量相匹配,从而使得基于语音训练样本训练得到的第一预设模型,可以与检材数据的语音质量相关联,且这种关联可以反映至输出的目标预设阈值上。由此,可以使得预设阈值可以与检材数据的语音质量相关联,并可随着检材数据其语音质量的变化而相应变化,不再是固定值,从而可以大大减少声纹同源判别时的主观性,并提高声纹同源判定时的准确度。
另外,由于将基于多种特征向量所计算得到的综合值作为相关系数,可以使得到的相关系数更加精准,从而后续在使用基于相关系数所获取的预设阈值判别同源或者异源时,判别结果也能更加精准。
关于声纹判别装置的具体限定可以参见上文中对于声纹判别方法的限定,在此不再赘述。上述声纹判别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹判别方法。
本领域技术人员可以理解,图19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取检材数据的第一质量参数组,并获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的,第一质量参数组包括t项质量参数;
基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;
基于目标预设阈值,对目标相关系数进行判别。
在一个实施例中,处理器在执行计算机程序时,对于t项质量参数中的s项质量参数,s项质量参数中每项质量参数的不同取值构成不同取值组;第一预设模型中包括q个子模型,q是由s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,s不小于1且小于t;
对于q个子模型中的任一子模型D及用于训练D的所有语音训练样本,所有语音训练样本中每一语音训练样本的第二质量参数组均是由与第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所有语音训练样本中的任意两个语音训练样本,将任意两个语音训练样本分别作为F与G,F的第二质量参数组中s项质量参数的取值与G的第二质量参数组中s项质量参数的取值均相同。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定所有语音训练样本中每一语音训练样本对应的预设阈值;将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练,得到D。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于每一语音训练样本对应的预设阈值,确定每一语音训练样本对应的阈值类别,每一阈值类别与预设阈值的取值区间进行划分后得到的子区间相对应;将阈值类别作为对应语音训练样本的期望输出,对D对应的子初始模型进行训练。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对于所有语音训练样本中的任一语音训练样本E,基于E,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与E的语音质量相匹配;基于检材语音库及样本语音库,获取E对应的预设阈值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与E的第二质量参数组中每项质量参数的取值相匹配。
在一个实施例中,处理器在执行计算机程序时,第一质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取检材数据的第一质量参数组,并获取目标相关系数,目标相关系数是由检材数据的声纹特征与样本数据的声纹特征所确定的,第一质量参数组包括t项质量参数;
基于第一预设模型与检材数据的第一质量参数组,确定目标预设阈值;
基于目标预设阈值,对目标相关系数进行判别。
在一个实施例中,计算机程序被处理器执行时,对于t项质量参数中的s项质量参数,s项质量参数中每项质量参数的不同取值构成不同取值组;第一预设模型中包括q个子模型,q是由s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,s不小于1且小于t;
对于q个子模型中的任一子模型D及用于训练D的所有语音训练样本,所有语音训练样本中每一语音训练样本的第二质量参数组均是由与第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所有语音训练样本中的任意两个语音训练样本,将任意两个语音训练样本分别作为F与G,F的第二质量参数组中s项质量参数的取值与G的第二质量参数组中s项质量参数的取值均相同。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定所有语音训练样本中每一语音训练样本对应的预设阈值;将每一语音训练样本的第二质量参数组中除s项质量参数之外其它质量参数的取值作为D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与D对应的子初始模型的输出,对D对应的子初始模型进行训练,得到D。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于每一语音训练样本对应的预设阈值,确定每一语音训练样本对应的阈值类别,每一阈值类别与预设阈值的取值区间进行划分后得到的子区间相对应;将阈值类别作为对应语音训练样本的期望输出,对D对应的子初始模型进行训练。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对于所有语音训练样本中的任一语音训练样本E,基于E,对检材语音库中的语音样本作预设处理,以使得检材语音库中语音样本的语音质量与E的语音质量相匹配;基于检材语音库及样本语音库,获取E对应的预设阈值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据E的第二质量参数组中每项质量参数的类型及取值,对检材语音库中的语音样本进行调整,以使得检材语音库中每一语音样本的每项质量参数的取值与E的第二质量参数组中每项质量参数的取值相匹配。
在一个实施例中,计算机程序被处理器执行时,第一质量参数组中包括以下四项质量参数中的至少任意一项,以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种声纹判别方法,其特征在于,所述方法包括:
获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
基于所述目标预设阈值,对所述目标相关系数进行判别;
其中,对于所述t项质量参数中的s项质量参数,所述s项质量参数中每项质量参数的不同取值构成不同取值组;所述第一预设模型中包括q个子模型,所述q是由所述s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,所述s不小于1且小于所述t;
对于所述q个子模型中的任一子模型D及用于训练所述子模型D的所有语音训练样本,所述所有语音训练样本中每一语音训练样本的第二质量参数组均是由与所述第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所述所有语音训练样本中的任意两个语音训练样本,将所述任意两个语音训练样本分别作为F与G,所述F的第二质量参数组中所述s项质量参数的取值与所述G的第二质量参数组中所述s项质量参数的取值均相同。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定所述所有语音训练样本中每一语音训练样本对应的预设阈值;
将每一语音训练样本的第二质量参数组中除所述s项质量参数之外其它质量参数的取值作为所述D对应的子初始模型的输入,基于每一语音训练样本对应的预设阈值与所述D对应的子初始模型的输出,对所述D对应的子初始模型进行训练,得到所述D。
3.根据权利要求2所述的方法,其特征在于,所述基于每一语音训练样本对应的预设阈值与所述D对应的子初始模型的输出,对所述D对应的子初始模型进行训练,包括:
基于所述每一语音训练样本对应的预设阈值,确定所述每一语音训练样本对应的阈值类别,所述每一阈值类别与所述预设阈值的取值区间进行划分后得到的子区间相对应;
将所述阈值类别作为对应语音训练样本的期望输出,对所述D对应的子初始模型进行训练。
4.根据权利要求2所述的方法,其特征在于,所述确定所述所有语音训练样本中每一语音训练样本对应的预设阈值,包括:
对于所述所有语音训练样本中的任一语音训练样本E,基于所述E,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述E的语音质量相匹配;
基于所述检材语音库及样本语音库,获取所述E对应的预设阈值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述E,对检材语音库中的语音样本作预设处理,以使得所述检材语音库中语音样本的语音质量与所述E的语音质量相匹配,包括;
根据所述E的第二质量参数组中每项质量参数的类型及取值,对所述检材语音库中的语音样本进行调整,以使得所述检材语音库中每一语音样本的每项质量参数的取值与所述E的第二质量参数组中每项质量参数的取值相匹配。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一质量参数组中包括以下四项质量参数中的至少任意一项,所述以下四项质量参数分别为信噪比、语音有效时长、噪声功率谱及信道频率响应。
7.一种声纹判别装置,其特征在于,所述装置包括:
获取模块,用于获取检材数据的第一质量参数组,并获取目标相关系数,所述目标相关系数是由所述检材数据的声纹特征与样本数据的声纹特征所确定的,所述第一质量参数组包括t项质量参数;
第一确定模块,用于基于第一预设模型与所述检材数据的第一质量参数组,确定目标预设阈值;
判别模块,用于基于所述目标预设阈值,对所述目标相关系数进行判别;
其中,对于所述t项质量参数中的s项质量参数,所述s项质量参数中每项质量参数的不同取值构成不同取值组;所述第一预设模型中包括q个子模型,所述q是由所述s项质量参数对应取值组的总数所确定的,每一取值组均对应一个子模型,所述s不小于1且小于所述t;
对于所述q个子模型中的任一子模型D及用于训练所述子模型D的所有语音训练样本,所述所有语音训练样本中每一语音训练样本的第二质量参数组均是由与所述第一质量参数组中类型及总项数均相同的质量参数所确定的;对于所述所有语音训练样本中的任意两个语音训练样本,将所述任意两个语音训练样本分别作为F与G,所述F的第二质量参数组中所述s项质量参数的取值与所述G的第二质量参数组中所述s项质量参数的取值均相同。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110784210.4A CN113593581B (zh) | 2021-07-12 | 2021-07-12 | 声纹判别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110784210.4A CN113593581B (zh) | 2021-07-12 | 2021-07-12 | 声纹判别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593581A CN113593581A (zh) | 2021-11-02 |
CN113593581B true CN113593581B (zh) | 2024-04-19 |
Family
ID=78246813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110784210.4A Active CN113593581B (zh) | 2021-07-12 | 2021-07-12 | 声纹判别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593581B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597839B (zh) * | 2023-07-17 | 2023-09-19 | 山东唐和智能科技有限公司 | 一种智能语音交互系统及方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100073160A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 음성인식 시스템의 발화검증 방법 및 장치 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN102254551A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 声纹认证装置 |
CN102263643A (zh) * | 2011-08-22 | 2011-11-30 | 盛乐信息技术(上海)有限公司 | 基于声纹识别的数据通信系统及方法 |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN107977557A (zh) * | 2017-11-30 | 2018-05-01 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的电子合同签署服务认证协议及服务器 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108766439A (zh) * | 2018-04-27 | 2018-11-06 | 广州国音科技有限公司 | 一种基于声纹识别的监控方法及装置 |
CN109994118A (zh) * | 2019-04-04 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音密码验证方法、装置、存储介质及计算机设备 |
CN110335611A (zh) * | 2019-07-15 | 2019-10-15 | 易诚高科(大连)科技有限公司 | 一种基于质量维度的声纹识别算法评估方法 |
CN110459204A (zh) * | 2018-05-02 | 2019-11-15 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN111462761A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
CN111785283A (zh) * | 2020-05-18 | 2020-10-16 | 北京三快在线科技有限公司 | 一种声纹识别模型训练方法、装置、电子设备及存储介质 |
CN112908339A (zh) * | 2021-03-18 | 2021-06-04 | 龙马智芯(珠海横琴)科技有限公司 | 一种会议环节定位方法、装置、定位设备及可读存储介质 |
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-07-12 CN CN202110784210.4A patent/CN113593581B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100073160A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 음성인식 시스템의 발화검증 방법 및 장치 |
CN102254551A (zh) * | 2010-05-20 | 2011-11-23 | 盛乐信息技术(上海)有限公司 | 声纹认证装置 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN102263643A (zh) * | 2011-08-22 | 2011-11-30 | 盛乐信息技术(上海)有限公司 | 基于声纹识别的数据通信系统及方法 |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN107977557A (zh) * | 2017-11-30 | 2018-05-01 | 广州势必可赢网络科技有限公司 | 一种基于声纹识别的电子合同签署服务认证协议及服务器 |
CN108766439A (zh) * | 2018-04-27 | 2018-11-06 | 广州国音科技有限公司 | 一种基于声纹识别的监控方法及装置 |
CN110459204A (zh) * | 2018-05-02 | 2019-11-15 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN109994118A (zh) * | 2019-04-04 | 2019-07-09 | 平安科技(深圳)有限公司 | 语音密码验证方法、装置、存储介质及计算机设备 |
CN110335611A (zh) * | 2019-07-15 | 2019-10-15 | 易诚高科(大连)科技有限公司 | 一种基于质量维度的声纹识别算法评估方法 |
CN111462761A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 声纹数据生成方法、装置、计算机装置及存储介质 |
CN111785283A (zh) * | 2020-05-18 | 2020-10-16 | 北京三快在线科技有限公司 | 一种声纹识别模型训练方法、装置、电子设备及存储介质 |
CN112908339A (zh) * | 2021-03-18 | 2021-06-04 | 龙马智芯(珠海横琴)科技有限公司 | 一种会议环节定位方法、装置、定位设备及可读存储介质 |
CN113327617A (zh) * | 2021-05-17 | 2021-08-31 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113593581A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308912B (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
CN109360572B (zh) | 通话分离方法、装置、计算机设备及存储介质 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2019237519A1 (zh) | 通用向量训练方法、语音聚类方法、装置、设备及介质 | |
CN109065022B (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN101751921A (zh) | 一种在训练数据量极少条件下的实时语音转换方法 | |
Liu et al. | A Spearman correlation coefficient ranking for matching-score fusion on speaker recognition | |
Kaleem et al. | Pathological speech signal analysis and classification using empirical mode decomposition | |
CN113593581B (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
Poddar et al. | Quality measures for speaker verification with short utterances | |
JP4717872B2 (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
Yousefi et al. | Assessing speaker engagement in 2-person debates: Overlap detection in United States Presidential debates. | |
Lee et al. | The estimating optimal number of Gaussian mixtures based on incremental k-means for speaker identification | |
CN116741148A (zh) | 一种基于数字孪生的语音识别系统 | |
CN113327617B (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
Sholokhov et al. | Voice biometrics security: Extrapolating false alarm rate via hierarchical Bayesian modeling of speaker verification scores | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
CN114582325A (zh) | 音频检测方法、装置、计算机设备、存储介质 | |
Zhang et al. | Feature selection for fast speech emotion recognition | |
CN113327618B (zh) | 声纹判别方法、装置、计算机设备和存储介质 | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
CN112786058B (zh) | 声纹模型训练方法、装置、设备以及存储介质 | |
Nair et al. | Comparison between mel-frequency and complex cepstral coefficients for forensic voice comparison using a likelihood ratio framework | |
Wang et al. | Forensic automatic speaker recognition based on likelihood ratio using acoustic-phonetic features measured automatically | |
Juneja | Two-level noise robust and block featured PNN model for speaker recognition in real environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |