CN111108551A - 一种声纹鉴定方法和相关装置 - Google Patents

一种声纹鉴定方法和相关装置 Download PDF

Info

Publication number
CN111108551A
CN111108551A CN201980003350.4A CN201980003350A CN111108551A CN 111108551 A CN111108551 A CN 111108551A CN 201980003350 A CN201980003350 A CN 201980003350A CN 111108551 A CN111108551 A CN 111108551A
Authority
CN
China
Prior art keywords
target phoneme
voice
frequency deviation
deviation
formant frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980003350.4A
Other languages
English (en)
Other versions
CN111108551B (zh
Inventor
郑琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Publication of CN111108551A publication Critical patent/CN111108551A/zh
Application granted granted Critical
Publication of CN111108551B publication Critical patent/CN111108551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请公开了一种声纹鉴定方法和相关装置,通过计算样本语音中的目标音素与检材语音中的目标音素的共振峰频率偏差,得到4个偏差值,当偏差值不满足预置共振峰频率偏差标准时,计算偏差值与共振峰频率偏差标准中与该偏差值对应的共振峰频率偏差上限值的差值,判断差值是否在预置范围内,若是,调整样本语音中的目标音素的音频时间范围,直至满足条件,从而输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,否则输出不同说话人的声纹鉴定结果,从而解决了现有的声纹鉴定方法中说话人因为情绪波动等原因使得计算得到的偏差值与预置范围存在微小的偏差,进而使得原本为同一说话人被错鉴定为不同说话人的技术问题。

Description

一种声纹鉴定方法和相关装置
技术领域
本申请涉及声纹鉴定技术领域,尤其涉及一种声纹鉴定方法和相关装置。
背景技术
声纹鉴定是指通过未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论的过程。现有的声纹鉴定方法中一般是通过对检材和样本中相同的音素作比对,通过计算相同音素的共振峰频率偏差,得到偏差值,若计算得到的偏差值在预置范围内,则认为样本语音中的该音素与检材样本中的该音素为同一说话人,反之,为不同说话人,但是,存在某种情况,当说话人因为情绪波动等原因,使得计算得到的偏差值与预置范围存在微小的偏差,进而使得原本为同一说话人被错鉴定为不同说话人。
发明内容
本申请提供了一种声纹鉴定方法和相关装置,用于解决现有的声纹鉴定方法中当说话人因为情绪波动等原因使得计算得到的偏差值与预置范围存在微小的偏差,进而使得原本为同一说话人被错鉴定为不同说话人的技术问题。
有鉴于此,本申请第一方面提供了一种声纹鉴定方法,包括:
获取样本语音;
提取所述样本语音中的目标音素的4个共振峰;
计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值;
当所述偏差值满足所述预置共振峰频率偏差标准时,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果;
当所述偏差值不满足预置共振峰频率偏差标准时,计算不满足所述预置共振峰频率偏差标准的所述偏差值与所述预置共振峰频率偏差标准中的与所述偏差值对应的共振峰频率偏差上限值的差值;
判断所述差值是否在预置范围内,若是,则调整所述样本语音中的所述目标音素的音频时间范围,并返回所述计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值的步骤,直至所述偏差值满足所述预置共振峰频率偏差标准,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果,否则,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于不同说话人的声纹鉴定结果。
优选地,所述计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值,之前还包括:
获取检材语音;
提取所述检材语音中的所述目标音素的4个共振峰。
优选地,所述预置共振峰频率偏差标准包括:
当所述样本语音中的所述目标音素与所述检材语音中的所述目标音素的共振峰频率偏差满足:第一共振峰频率偏差小于12%、第二共振峰频率偏差小于9%,第三共振峰频率偏差小于5%-6%和第四共振峰频率偏差小于5%-6%,判断所述样本语音中的所述目标音素与所述检材语音中的所述目标音素为同一说话人。
优选地,所述提取所述样本语音中的所述目标音素的4个共振峰,包括:
基于线性预测编码技术提取所述样本语音中的所述目标音素的4个共振峰。
本申请第二方面提供了一种声纹鉴定装置,包括:
第一获取模块,用于获取样本语音;
第一提取模块,用于提取所述样本语音中的目标音素的4个共振峰;
第一计算模块,用于计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值;
输出模块,用于当所述偏差值满足所述预置共振峰频率偏差标准时,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果;
第二计算模块,用于当所述偏差值不满足预置共振峰频率偏差标准时,计算不满足所述预置共振峰频率偏差标准的所述偏差值与所述预置共振峰频率偏差标准中的与所述偏差值对应的共振峰频率偏差上限值的差值;
判断模块,用于判断所述差值是否在预置范围内,若是,则调整所述样本语音中的所述目标音素的音频时间范围,并触发所述第一计算模块,直至所述偏差值满足所述预置共振峰频率偏差标准,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果,否则,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于不同说话人的声纹鉴定结果。
优选地,还包括:
第二获取模块,用于获取检材语音;
第二提取模块,用于提取所述检材语音中的所述目标音素的4个共振峰。
优选地,所述第一提取模块具体用于:
基于线性预测编码技术提取所述样本语音中的所述目标音素的4个共振峰。
本申请第三方面提供了一种声纹鉴定设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的声纹鉴定方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一种所述的声纹鉴定方法。
本申请第五方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行第一方面任一种所述的声纹鉴定方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种声纹鉴定方法,包括:获取样本语音;提取样本语音中的目标音素的4个共振峰;计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值;当偏差值满足预置共振峰频率偏差标准时,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果;当偏差值不满足预置共振峰频率偏差标准时,计算不满足预置共振峰频率偏差标准的偏差值与预置共振峰频率偏差标准中的与偏差值对应的共振峰频率偏差上限值的差值;判断差值是否在预置范围内,若是,则调整样本语音中的目标音素的音频时间范围,并返回计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值的步骤,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,否则,输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
本申请中的声纹鉴定方法,通过计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到偏差值,当偏差值不满足预置共振峰频率偏差标准时,计算偏差值与共振峰频率偏差标准中与该偏差值对应的共振峰频率偏差上限值的差值,判断差值是否在预置范围内,若是,说明偏差值与预置共振峰频率偏差标准值存在微小的偏差,调整样本语音中的目标音素的音频时间范围,使得样本语音的目标音素与检材语音的目标音素的共振峰频率偏差满足预置共振峰频率偏差标准,从而输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,若差值不在预置范围内,说明偏差值与预置共振峰频率偏差标准值偏差较大,则输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果,从而解决了现有的声纹鉴定方法中说话人因为情绪波动等原因使得计算得到的偏差值与预置范围存在微小的偏差,进而使得原本为同一说话人被错鉴定为不同说话人的技术问题。
附图说明
图1为本申请提供的一种声纹鉴定方法的一个实施例的流程示意图;
图2为本申请提供的一种声纹鉴定方法的另一个实施例的流程示意图;
图3为本申请提供的一种声纹鉴定装置的一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种声纹鉴定方法的一个实施例,包括:
步骤101、获取样本语音。
需要说明的是,可以通过语音录制设备获得样本语音。
步骤102、提取样本语音中的目标音素的4个共振峰。
需要说明的是,样本语音中可能存在多个不同的音素,通常每个音素具有4个共振峰,提取样本语音中的音素的共振峰时,若某音素没有4个共振峰,则该音素不能作为目标音素。
步骤103、计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值。
需要说明的是,检材语音中的目标音素同样具有4个共振峰,计算得到的偏差值包括4个共振峰频率偏差值。
步骤104、当偏差值满足预置共振峰频率偏差标准时,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果。
步骤105、当偏差值不满足预置共振峰频率偏差标准时,计算不满足预置共振峰频率偏差标准的偏差值与预置共振峰频率偏差标准中的与偏差值对应的共振峰频率偏差上限值的差值。
步骤106、判断差值是否在预置范围内,若是,则调整样本语音中的目标音素的音频时间范围,并返回步骤103,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,否则,输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
需要说明的是,当偏差值不满足预置共振峰频率偏差标准时,说明偏差值与预置共振峰频率偏差标准值存在偏差,通过计算偏差值与预置共振峰频率偏差标准中的与该偏差值对应的共振峰频率偏差上限值的差值,通过差值量化偏差值与预置共振峰频率偏差标准值之间存在的偏差,以便于直观地了解偏差值与预置共振峰频率偏差标准值之间的偏差程度。
判断差值是否在预置范围内,若是,说明偏差值与预置共振峰频率偏差标准值之间的偏差程度较小,可能是说话人因为情绪波动或其他原因所导致的该偏差,通过适当调整样本语音中的目标音素的音频时间范围,缩小这种偏差,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果;若差值不在预置范围内,说明偏差值与预置共振峰频率偏差标准值之间的偏差程度较大,则输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
本申请实施例中的声纹鉴定方法,通过计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到偏差值,当偏差值不满足预置共振峰频率偏差标准时,计算偏差值与共振峰频率偏差标准中的共振峰频率偏差值的上限值的差值,判断差值是否在预置范围内,若是,说明偏差值与预置共振峰频率偏差标准值存在微小的偏差,调整样本语音中的目标音素的音频时间范围,使得样本语音的目标音素与检材语音的目标音素的共振峰频率偏差满足预置共振峰频率偏差标准,从而输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,若差值不在预置范围内,说明偏差值与预置共振峰频率偏差标准值偏差较大,则输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果,从而解决了现有的声纹鉴定方法中说话人因为情绪波动等原因使得计算得到的偏差值与预置范围存在微小的偏差,进而使得原本为同一说话人被错鉴定为不同说话人的技术问题。
为了便于理解,请参阅图2,本申请提供的一种声纹鉴定方法的另一个实施例,包括:
步骤201、获取检材语音。
需要说明的是,可以在声纹鉴定数据库中获取检材语音。
步骤202、提取检材语音中的目标音素的4个共振峰。
需要说明的是,检材语音中可能存在多个不同的音素,通常每个音素具有4个共振峰,提取检材语音中的音素的共振峰时,若某音素没有4个共振峰,则该音素不能作为目标音素。其中,可以通过线性预测编码技术提取共振峰。
步骤203、获取样本语音。
需要说明的是,步骤203和步骤201可以同时进行,也可以先后进行。
步骤204、提取样本语音中的目标音素的4个共振峰。
需要说明的是,可以通过线性预测编码技术提取共振峰,其中,样本语音中的目标音素与检测语音中的目标音素为相同的音素。
步骤205、计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值。
需要说明的是,检材语音中的目标音素同样具有4个共振峰,计算得到的偏差值包括4个共振峰频率偏差值,共振峰频率偏差的计算属于现有技术,在此不对共振峰频率偏差的具体计算过程进行赘述。
步骤206、当偏差值满足预置共振峰频率偏差标准时,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果。
需要说明的是,预置共振峰频率偏差标准包括:当样本语音中的目标音素与检材语音中的目标音素的共振峰频率偏差满足:第一共振峰频率偏差小于12%、第二共振峰频率偏差小于9%,第三共振峰频率偏差小于5%-6%和第四共振峰频率偏差小于5%-6%,判断样本语音中的目标音素与检材语音中的目标音素为同一说话人。
第一共振峰频率偏差值小于12%、第二共振峰频率偏差值小于9%、第三共振峰频率偏差值小于5%-6%和第四共振峰频率偏差值小于5%-6%时,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的鉴定结果;例如,假设计算得到检材语音的目标音素与样本语音的目标音素的4个共振峰频率偏差分别为F1:8%,F2:7%,F3:5%,F4:4%,由于F1、F2、F3和F4都符合预置共振峰频率偏差标准,因此,输出检材语音的目标音素与样本语音的目标音素属于同一说话人。
步骤207、当偏差值不满足预置共振峰频率偏差标准时,计算不满足预置共振峰频率偏差标准的偏差值与预置共振峰频率偏差标准中的与偏差值对应的共振峰频率偏差上限值的差值。
需要说明的是,当任一偏差值不满足预置共振峰频率偏差标准时,计算该偏差值与预置共振峰频率偏差标准中与该偏差值对应的共振峰频率偏差上限值的差值,通过计算偏差值与共振峰频率偏差标准中与该偏差值对应的共振峰频率偏差上限值的差值,通过差值量化偏差值与预置共振峰频率偏差标准值之间存在的偏差,以便于直观地了解偏差值与预置共振峰频率偏差标准值之间的偏差程度。例如,计算得到的4个偏差值分别为F1:11%,F2:8%,F3:5%,F4:7%,通过将这4个偏差值与预置共振峰频率偏差标准比较可知,该4个偏差值中的第4个共振峰频率偏差不满足预置共振峰频率偏差标准,即F4:7%>6%,因此,需要计算偏差值F4与预置共振峰频率偏差标准中第四共振峰频率偏差上限值(6%)的差值,该差值为7%-6%=1%,偏差程度较小。
步骤208、判断差值是否在预置范围内,若是,则调整样本语音中的目标音素的音频时间范围,并返回步骤205,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,否则,输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
需要说明的是,判断差值是否在预置范围内,若是,说明偏差值与预置共振峰频率偏差标准值之间的偏差程度较小,可能是说话人因为情绪波动或其他原因所导致的该偏差,通过适当调整样本语音中的目标音素的音频时间范围,缩小这种偏差,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,例如,沿用上述例子,假设预置范围为0%-2%,计算得到的差值为1%,该差值在预置范围内,说明偏差值与预置共振峰频率偏差标准值之间的偏差程度较小,此时,适当调整样本语音中的目标音素的音频时间范围,音频时间范围的调整可以根据具体情况来定,可以是在样本语音的音频时间轴上缩小2ms,返回步骤205,重新计算样本语音中的目标音素与检材语音中的目标音素的共振峰频率偏差,得到4个偏差值,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果。
若差值不在预置范围内,说明偏差值与预置共振峰频率偏差标准值之间的偏差程度较大,则输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果,例如,假设预置范围为0%-2%,计算得到的4个偏差值分别为F1:11%,F2:8%,F3:5%,F4:10%,通过将这4个偏差值与预置共振峰频率偏差标准比较可知,该4个偏差值中的第4个共振峰频率偏差不满足预置共振峰频率偏差标准,即F4:10%>6%,因此,需要计算偏差值F4与预置共振峰频率偏差标准中第四共振峰频率偏差上限值(6%)的差值,该差值为10%-6%=4%,该差值不在预置范围内,与预置共振峰频率偏差标准的偏差程度较大,输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
为了便于理解,请参阅图3,本申请提供的一种声纹鉴定装置的一个实施例,包括:
第一获取模块301,用于获取样本语音。
第一提取模块302,用于提取样本语音中的目标音素的4个共振峰。
第一计算模块303,用于计算样本语音中的目标音素的每个共振峰与检材语音中的目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值。
输出模块304,用于当偏差值满足预置共振峰频率偏差标准时,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果。
第二计算模块305,用于当偏差值不满足预置共振峰频率偏差标准时,计算不满足预置共振峰频率偏差标准的偏差值与预置共振峰频率偏差标准中的与偏差值对应的共振峰频率偏差上限值的差值。
判断模块306,用于判断差值是否在预置范围内,若是,则调整样本语音中的目标音素的音频时间范围,并触发第一计算模块303,直至偏差值满足预置共振峰频率偏差标准,输出样本语音中的目标音素与检材语音中的目标音素属于同一说话人的声纹鉴定结果,否则,输出样本语音中的目标音素与检材语音中的目标音素属于不同说话人的声纹鉴定结果。
进一步地,还包括:
第二获取模块307,用于获取检材语音。
第二提取模块308,用于提取检材语音中的目标音素的4个共振峰。
进一步地,第一提取模块303具体用于:
基于线性预测编码技术提取样本语音中的目标音素的4个共振峰。
本申请提供了一种声纹鉴定设备的一个实施例,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述声纹鉴定方法实施例中的声纹鉴定方法。
本申请提供了一种计算机可读存储介质的一个实施例,计算机可读存储介质用于存储程序代码,程序代码用于执行前述声纹鉴定方法实施例中的声纹鉴定方法
本申请还提供了一种包括指令的计算机程序产品的一个实施例,当其在计算机上运行时,使得计算机执行前述声纹鉴定方法实施例中的声纹鉴定方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种声纹鉴定方法,其特征在于,包括:
获取样本语音;
提取所述样本语音中的目标音素的4个共振峰;
计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值;
当所述偏差值满足所述预置共振峰频率偏差标准时,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果;
当所述偏差值不满足预置共振峰频率偏差标准时,计算不满足所述预置共振峰频率偏差标准的所述偏差值与所述预置共振峰频率偏差标准中的与所述偏差值对应的共振峰频率偏差上限值的差值;
判断所述差值是否在预置范围内,若是,则调整所述样本语音中的所述目标音素的音频时间范围,并返回所述计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值的步骤,直至所述偏差值满足所述预置共振峰频率偏差标准,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果,否则,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于不同说话人的声纹鉴定结果。
2.根据权利要求1所述的声纹鉴定方法,其特征在于,所述计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值,之前还包括:
获取检材语音;
提取所述检材语音中的所述目标音素的4个共振峰。
3.根据权利要求1所述的声纹鉴定方法,其特征在于,所述预置共振峰频率偏差标准包括:
当所述样本语音中的所述目标音素与所述检材语音中的所述目标音素的共振峰频率偏差满足:第一共振峰频率偏差小于12%、第二共振峰频率偏差小于9%,第三共振峰频率偏差小于5%-6%和第四共振峰频率偏差小于5%-6%,判断所述样本语音中的所述目标音素与所述检材语音中的所述目标音素为同一说话人。
4.根据权利要求1所述的声纹鉴定方法,其特征在于,所述提取所述样本语音中的所述目标音素的4个共振峰,包括:
基于线性预测编码技术提取所述样本语音中的所述目标音素的4个共振峰。
5.一种声纹鉴定装置,其特征在于,包括:
第一获取模块,用于获取样本语音;
第一提取模块,用于提取所述样本语音中的目标音素的4个共振峰;
第一计算模块,用于计算所述样本语音中的所述目标音素的每个共振峰与检材语音中的所述目标音素的每个共振峰的共振峰频率偏差,得到4个偏差值;
输出模块,用于当所述偏差值满足所述预置共振峰频率偏差标准时,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果;
第二计算模块,用于当所述偏差值不满足预置共振峰频率偏差标准时,计算不满足所述预置共振峰频率偏差标准的所述偏差值与所述预置共振峰频率偏差标准中的与所述偏差值对应的共振峰频率偏差上限值的差值;
判断模块,用于判断所述差值是否在预置范围内,若是,则调整所述样本语音中的所述目标音素的音频时间范围,并触发所述第一计算模块,直至所述偏差值满足所述预置共振峰频率偏差标准,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于同一说话人的声纹鉴定结果,否则,输出所述样本语音中的所述目标音素与所述检材语音中的所述目标音素属于不同说话人的声纹鉴定结果。
6.根据权利要求5所述的声纹鉴定装置,其特征在于,还包括:
第二获取模块,用于获取检材语音;
第二提取模块,用于提取所述检材语音中的所述目标音素的4个共振峰。
7.根据权利要求5所述的声纹鉴定装置,其特征在于,所述第一提取模块具体用于:
基于线性预测编码技术提取所述样本语音中的所述目标音素的4个共振峰。
8.一种声纹鉴定设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的声纹鉴定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的声纹鉴定方法。
10.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-4任一项所述的声纹鉴定方法。
CN201980003350.4A 2019-12-24 2019-12-24 一种声纹鉴定方法和相关装置 Active CN111108551B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/127977 WO2021127998A1 (zh) 2019-12-24 2019-12-24 一种声纹鉴定方法和相关装置

Publications (2)

Publication Number Publication Date
CN111108551A true CN111108551A (zh) 2020-05-05
CN111108551B CN111108551B (zh) 2023-05-26

Family

ID=70427468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003350.4A Active CN111108551B (zh) 2019-12-24 2019-12-24 一种声纹鉴定方法和相关装置

Country Status (2)

Country Link
CN (1) CN111108551B (zh)
WO (1) WO2021127998A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627421A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN113409796A (zh) * 2021-05-11 2021-09-17 武汉大晟极科技有限公司 一种基于长时共振峰测量的语音同一性验证方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566189B (zh) * 2022-04-28 2022-10-04 之江实验室 基于三维深度特征融合的语音情感识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979466A (zh) * 2019-03-21 2019-07-05 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
CN110164454A (zh) * 2019-05-24 2019-08-23 广州国音智能科技有限公司 一种基于共振峰偏差的音频同一性判别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1242377C (zh) * 2003-03-16 2006-02-15 广东省深圳市人民检察院 广州话声纹鉴定方法
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
CN103714826B (zh) * 2013-12-18 2016-08-17 讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979466A (zh) * 2019-03-21 2019-07-05 广州国音智能科技有限公司 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质
CN110164454A (zh) * 2019-05-24 2019-08-23 广州国音智能科技有限公司 一种基于共振峰偏差的音频同一性判别方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627421A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111627421B (zh) * 2020-05-13 2023-08-11 广州国音智能科技有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN113409796A (zh) * 2021-05-11 2021-09-17 武汉大晟极科技有限公司 一种基于长时共振峰测量的语音同一性验证方法

Also Published As

Publication number Publication date
WO2021127998A1 (zh) 2021-07-01
CN111108551B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US9536547B2 (en) Speaker change detection device and speaker change detection method
US10490194B2 (en) Speech processing apparatus, speech processing method and computer-readable medium
US9251789B2 (en) Speech-recognition system, storage medium, and method of speech recognition
US20160071520A1 (en) Speaker indexing device and speaker indexing method
EP2482277B1 (en) Method for identifying a speaker using formant equalization
EP3091534B1 (en) Method and apparatus for processing speech signal according to frequency domain energy
CN111108551A (zh) 一种声纹鉴定方法和相关装置
US10573300B2 (en) Method and apparatus for automatic speech recognition
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN111108552A (zh) 一种声纹同一性鉴定方法和相关装置
KR101863097B1 (ko) 키워드 인식 장치 및 방법
CN110164454B (zh) 一种基于共振峰偏差的音频同一性判别方法及装置
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
CN110634490B (zh) 一种声纹鉴定方法、装置和设备
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
JP2015516597A (ja) ピッチ周期の正確性を検出するための方法および装置
JP2020067566A (ja) 情報処理方法、情報処理装置、及び、プログラム
CN111863033A (zh) 音频质量识别模型的训练方法、装置、服务器和存储介质
CN111785294A (zh) 音频检测方法及装置、终端、存储介质
Mayer et al. Improved phase reconstruction in single-channel speech separation.
Lu et al. Pruning redundant synthesis units based on static and delta unit appearance frequency.
Gao et al. Open-set speaker identification in broadcast news
US20220108699A1 (en) Speech recognition device, search device, speech recognition method, search method, and program
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant