CN111599365B - 一种用于声纹识别系统中的自适应阈值生成系统和方法 - Google Patents

一种用于声纹识别系统中的自适应阈值生成系统和方法 Download PDF

Info

Publication number
CN111599365B
CN111599365B CN202010271020.8A CN202010271020A CN111599365B CN 111599365 B CN111599365 B CN 111599365B CN 202010271020 A CN202010271020 A CN 202010271020A CN 111599365 B CN111599365 B CN 111599365B
Authority
CN
China
Prior art keywords
voice
voiceprint
registered
scoring
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010271020.8A
Other languages
English (en)
Other versions
CN111599365A (zh
Inventor
周雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010271020.8A priority Critical patent/CN111599365B/zh
Publication of CN111599365A publication Critical patent/CN111599365A/zh
Application granted granted Critical
Publication of CN111599365B publication Critical patent/CN111599365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提出了一种用于声纹识别系统中的自适应阈值生成系统和方法,属于声纹识别技术领域。所述系统包括注册声纹模型获取模块、新阈值生成模块、自适应阈值生成模块、测试声纹打分模块和声纹判定模块;所述方法包括分别注册声纹模型获取模块、新阈值生成模块、测试声纹打分模块和声纹判定模块对应的步骤。

Description

一种用于声纹识别系统中的自适应阈值生成系统和方法
技术领域
本发明提出了一种用于声纹识别系统中的自适应阈值生成系统和方法,属于声纹识别技术领域。
背景技术
声纹识别技术在识别过程中,通过测试语音同模型打分,得分高于经验阈值则判定为同一人,否则判断为不同人经验阈值获取一般是通过训练和开发集实验获取。首先语音极易受环境影响,稳定性较差;其次训练和开发集涵盖场景和提供的信息有限,所以在实际应用场景中,经验阈值可能跟实际阈值偏差很大,从而造成识别率急速下降。
发明内容
本发明提供了一种用于声纹识别系统中的自适应阈值生成系统和方法,用以解决现有声纹识别系统中采用的经验阈值跟实际阈值偏差很大,从而造成识别率急速下降的问题,所采取的技术方案如下:
一种用于声纹识别系统中的自适应阈值生成系统,所述系统包括:
注册声纹模型获取模块,用于获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
新阈值生成模块,根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
自适应阈值生成模块,用于将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
测试声纹打分模块,用于在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
声纹判定模块,用于根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
进一步地,所述注册声纹模型获取模块包括:
注册语音获取模块,用于在模型声纹注册过程中获取注册语音;
注册声纹库生成模块,用于提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
注册语音库生成模块,用于继续缓冲注册语音,生成注册语音库。
进一步地,所述新阈值生成模块包括:
语音增强模块,用于通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
正向打分模块,用于对同一个人的注册语音进行一一打分,生成正向打分;
反向打分模块,用于对不同人的注册语音进行一一打分,生成反向打分;
阈值设定模块,用于在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值。
进一步地,所述正向打分模块包括:
同一模型语音判断模块,用于判断注册语音是否为同一模型语音,如果为同一模型语音,则判定所述语音来自同一个人;
同一模型语音组形成模块,用于将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;
同一模型语音打分模块,用于对同一模型注册语音的深度特征进行随机打分,生成正向打分。
进一步地,所述反向打分模块包括
不同模型语音判断模块,用于判断注册语音是否为不同模型语音,如果为不同模型语音,则判定所述语音来自不同人;
不同模型语音组形成模块,用于将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
不同模型语音打分模块,用于对不同模型注册语音的深度特征进行随机打分,生成反向打分。
一种用于声纹识别系统中的自适应阈值生成方法,所述方法包括:
获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
进一步地,所述获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库包括:
在模型声纹注册过程中获取注册语音;
提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
继续缓冲注册语音,生成注册语音库。
进一步地,所述根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新的过程包括:
通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
对同一个人的注册语音进行一一打分,生成正向打分;
对不同人的注册语音进行一一打分,生成反向打分;
在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值。
进一步地,所述生成正向打分的过程包括:
判断注册语音是否为同一模型语音,如果为同一模型语音,则判定所述语音来自同一个人;
将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;
对同一模型注册语音的深度特征进行随机打分,生成正向打分。
进一步地,所述生成反向打分的过程包括
不同时刻注册的语音来自不同说话人,即属于不同模型;
将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
对不同模型注册语音的深度特征进行随机打分,生成反向打分。
本发明有益效果:
本发明提出的一种用于声纹识别系统中的自适应阈值生成系统和方法,自适应阈值生成充分考虑到实际环境变化以及注册说话人之间区分性不同;另外通过语音增强的形式,去模拟更多的场景,充分利用注册语音的信息,提升系统的区分度的鲁棒性;此外还将经验阈值加权合并进来,防止过大错误的自适应引起系统崩溃。以上策略能更有效的在识别过程中将测试语音和注册语音区分开,提高了实际应用的识别率,增强系统的稳定性。
附图说明
图1为发明所述系统的结构示意图;
图2为本发明所述方法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种用于声纹识别系统中的自适应阈值生成系统和方法,用以解决现有声纹识别系统中采用的经验阈值跟实际阈值偏差很大,从而造成识别率急速下降的问题。
一种用于声纹识别系统中的自适应阈值生成系统,如图1所示,所述系统包括:
注册声纹模型获取模块,用于获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
新阈值生成模块,根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
自适应阈值生成模块,用于将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
测试声纹打分模块,用于在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
声纹判定模块,用于根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
上述方案的工作原理为:首先,利用注册声纹模型获取模块获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;然后通过新阈值生成模块,根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;通过自适应阈值生成模块将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;并利用测试声纹打分模块在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;最后,声纹判定模块,根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
运行过程为:
第1步,模型声纹注册过程中,获取注册语音,并做缓存
第2步,对注册语音进行加噪加混响等语音增强的方法生成多条语音,通过深度学习模型提取深度特征,清空语音缓存,保留注册语音及增强语音的深度特征
第3步,因为同一个模型注册语音来自同一个说话人,对同一模型深度特征随机打分,生成一组正向打分;
第4步,同理不同模型语音来自不同说话人,不同模型的深度特征随机交叉打分,生成一组反向打分;
第5步,根据正向打分和反向打分,求虚警概率和漏警概率相等时所对应的阈值为自适应阈值;
第6步,为防止注册信息错误引起阈值变差,将经验阈值和自适应阈值加权平均,生成新的稳定的自适应阈值;
第7步,在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
第8步,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
上述方案的技术效果为:自适应阈值生成充分考虑到实际环境变化以及注册说话人之间区分性不同;另外通过语音增强的形式,去模拟更多的场景,充分利用注册语音的信息,提升系统的区分度的鲁棒性;此外还将经验阈值加权合并进来,防止过大错误的自适应引起系统崩溃。以上策略能更有效的在识别过程中将测试语音和注册语音区分开,提高了实际应用的识别率,增强系统的稳定性。
本发明的一个实施例,所述注册声纹模型获取模块包括:
注册语音获取模块,用于在模型声纹注册过程中获取注册语音;
注册声纹库生成模块,用于提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
注册语音库生成模块,用于继续缓冲注册语音,生成注册语音库。
上述方案的工作原理为:利用注册语音获取模块在模型声纹注册过程中获取注册语音;并通过注册声纹库生成模块提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;然后通过注册语音库生成模块继续缓冲注册语音,生成注册语音库。
上述方案的技术效果:提高声纹信息和注册语音提取的准确性。
本发明的一个实施例,所述新阈值生成模块包括:
语音增强模块,用于通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
正向打分模块,用于对同一个人的注册语音进行一一打分,生成正向打分;
反向打分模块,用于对不同人的注册语音进行一一打分,生成反向打分;
阈值设定模块,用于在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值。
上述方案的工作原理为:通过语音增强模块利用语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;然后,利用正向打分模块对同一个人的注册语音进行一一打分,生成正向打分;利用反向打分模块对不同人的注册语音进行一一打分,生成反向打分;最后,通过阈值设定模块在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值。
上述方案的技术效果:通过加噪和加混响的方法进行语音增强处理,通过语音增强处理的方式能够有效模拟更多的场景,并且充分利用注册语音的信息,将语音增强处理和注册语音的信息结合运用能够大幅度提升系统的区分度的鲁棒性。同时,有效提高同一个人语音和不同人语音的判断准确度,使获得的正向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。通过结合虚警概率和漏警概率相等时的分数作为新阈值,能够有效避免虚警漏警其他时刻的不准确阈值对新阈值生成的影响,同时能够提高新阈值的可靠性,进而提高后续自适应阈值与实际阈值的一致性。并通过每次有注册语音加入,都重新生成一次阈值的手段保证阈值与注册语音变化的同步性,提高后期自适应阈值生成的准确性。
本发明的一个实施例,所述正向打分模块包括:
同一模型语音组形成模块,用于将同一时刻注册获得的同一模型语音筛选出来,形成同一模型注册语音组;
同一模型语音打分模块,用于对同一模型注册语音的深度特征进行随机打分,生成正向打分。
上述方案的工作原理:利用同一时刻注册的语音判定为同一模型语音,如果为同一模型语音,则判定所述语音来自同一个人;然后,通过同一模型语音组形成模块将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;最后,利用同一模型语音打分模块对同一模型注册语音的深度特征进行随机打分,生成正向打分。
上述方案的技术效果:有效提高同一个人语音的判断准确度,使获得的正向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。
本发明的一个实施例,所述反向打分模块包括:
不同模型语音判断模块,用于判断注册语音是否为不同模型语音,如果为不同模型语音,则判定所述语音来自不同人;
不同模型语音组形成模块,用于将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
不同模型语音打分模块,用于对不同模型注册语音的深度特征进行随机打分,生成反向打分。
上述方案的工作原理:通过不同模型语音判断模块判断注册语音是否为不同模型语音,如果为不同模型语音,则判定所述语音来自不同人;然后,利用不同模型语音组形成模块将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;最后,通过不同模型语音打分模块对不同模型注册语音的深度特征进行随机打分,生成一组反向集得分。
上述方案的技术效果:有效提高同不同人语音的判断准确度,使获得的反向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。
一种用于声纹识别系统中的自适应阈值生成方法,如图2所示,所述方法包括:
获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败。
上述方案的技术效果为:自适应阈值生成充分考虑到实际环境变化以及注册说话人之间区分性不同;另外通过语音增强的形式,去模拟更多的场景,充分利用注册语音的信息,提升系统的区分度的鲁棒性;此外还将经验阈值加权合并进来,防止过大错误的自适应引起系统崩溃。以上策略能更有效的在识别过程中将测试语音和注册语音区分开,提高了实际应用的识别率,增强系统的稳定性。
本发明的一个实施例,所述获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库包括:
在模型声纹注册过程中获取注册语音;
提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
继续缓冲注册语音,生成注册语音库。
上述方案的技术效果:提高声纹信息和注册语音提取的准确性。
本发明的一个实施例,所述根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新的过程包括:
通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
对同一个人的注册语音进行一一打分,生成正向打分;
对不同人的注册语音进行一一打分,生成反向打分;
在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值。
上述方案的技术效果:通过加噪和加混响的方法进行语音增强处理,通过语音增强处理的方式能够有效模拟更多的场景,并且充分利用注册语音的信息,将语音增强处理和注册语音的信息结合运用能够大幅度提升系统的区分度的鲁棒性。同时,有效提高同一个人语音和不同人语音的判断准确度,使获得的正向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。通过结合虚警概率和漏警概率相等时的分数作为新阈值,能够有效避免虚警漏警其他时刻的不准确阈值对新阈值生成的影响,同时能够提高新阈值的可靠性,进而提高后续自适应阈值与实际阈值的一致性。并通过每次有注册语音加入,都重新生成一次阈值的手段保证阈值与注册语音变化的同步性,提高后期自适应阈值生成的准确性。
本发明的一个实施例,所述生成正向打分的过程包括:
判断注册语音是否为同一模型语音,如果为同一模型语音,则判定所述语音来自同一个人;
将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;
对同一模型注册语音的深度特征进行随机打分,生成正向打分。
上述方案的技术效果:有效提高同一个人语音的判断准确度,使获得的正向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。
本发明的一个实施例,所述生成反向打分的过程包括
判断注册语音是否为不同模型语音,如果为不同模型语音,则判定所述语音来自不同人;
将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
对不同模型注册语音的深度特征进行随机打分,生成反向打分。
上述方案的技术效果:有效提高同不同人语音的判断准确度,使获得的反向集得分更具参考性,进而提高后期获取的自适应阈值与实际阈值的一致性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种用于声纹识别系统中的自适应阈值生成系统,其特征在于,所述系统包括:
注册声纹模型获取模块,用于获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
新阈值生成模块,根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时所对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
自适应阈值生成模块,用于将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
测试声纹打分模块,用于在模型声纹测试过程中,获取注册语音,通过声纹模型,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹特征一一比对,选取分数最高者的得分;
声纹判定模块,用于根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败;
其中,所述新阈值生成模块包括:
语音增强模块,用于通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
正向打分模块,用于对同一个人的注册语音进行一一打分,生成正向打分;
反向打分模块,用于对不同人的注册语音进行一一打分,生成反向打分;
阈值设定模块,用于在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时所对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值;
所述正向打分模块包括:
同一模型语音判断模块,设定同一次注册的所有语音来自同一个说话人,判定同一模型;
同一模型语音组形成模块,用于将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;
同一模型语音打分模块,用于对同一模型注册语音的特征进行随机打分,生成正向打分;
所述反向打分模块包括
不同模型语音判断模块,不同时刻注册的语音设定为来自不同说话人,属于不同模型;
不同模型语音组形成模块,用于将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
不同模型语音打分模块,用于对不同模型注册语音的特征进行随机打分,生成反向打分。
2.根据权利要求1所述系统,其特征在于,所述注册声纹模型获取模块包括:
注册语音获取模块,用于在模型声纹注册过程中获取注册语音;
注册声纹库生成模块,用于提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
注册语音库生成模块,用于继续缓冲注册语音,生成注册语音库。
3.一种用于声纹识别系统中的自适应阈值生成方法,其特征在于,所述方法包括:
获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库;
根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新;
将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值;
在模型声纹测试过程中,获取测试语音,提取声纹特征,将测试声纹特征同注册声纹库中注册声纹模型一一比对打分,选取分数最高者的得分;
根据自适应阈值生成模块生成的阈值,判断测试声纹打分模块获得的得分与阈值之间的关系,得分大于阈值则判定跟声纹库中为同一个人,声纹认证成功;否则判断为不同人,声纹认证失败;
其中,所述根据注册声纹库语音,通过语音增强的方式加噪加混响,生成正向打分和反向打分,并选取分数使得虚警概率和漏警概率相等时对应的值,作为最新的阈值,并根据每次加入的注册语音进行阈值更新的过程包括:
通过语音增强方式对注册声纹库中的语音进行加噪加混响,丰富注册语音库;
对同一个人的注册语音进行一一打分,生成正向打分;
对不同人的注册语音进行一一打分,生成反向打分;
在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值,作为最新的阈值;并且每次有注册语音加入,都重新生成一次阈值;
所述生成正向打分的过程包括:
判断注册语音是否为同一模型语音,如果为同一模型语音,则判定所述语音来自同一个人;
将同一模型语音判断模块判断获得的同一模型语音筛选出来,形成同一模型注册语音组;
对同一模型注册语音的深度特征进行随机打分,生成正向打分;
所述生成反向打分的过程包括
判断注册语音是否为不同模型语音,如果为不同模型语音,则判定所述语音来自不同人;
将不同模型语音判断模块判断获得的不同模型语音筛选出来,形成不同模型注册语音组;
对不同模型注册语音的深度特征进行随机打分,生成反向打分。
4.根据权利要求3所述方法,其特征在于,所述获取模型声纹注册过程中的注册语音,并根据注册的声纹模型的声纹特征生成注册声纹库,并利用注册语音的缓冲形成注册语音库包括:
在模型声纹注册过程中获取注册语音;
提取注册的声纹模型的声纹特征,获得注册声纹的特征信息并对注册声纹的特征信息进行缓存,生成注册声纹库;
继续缓冲注册语音,生成注册语音库。
CN202010271020.8A 2020-04-08 2020-04-08 一种用于声纹识别系统中的自适应阈值生成系统和方法 Active CN111599365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010271020.8A CN111599365B (zh) 2020-04-08 2020-04-08 一种用于声纹识别系统中的自适应阈值生成系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010271020.8A CN111599365B (zh) 2020-04-08 2020-04-08 一种用于声纹识别系统中的自适应阈值生成系统和方法

Publications (2)

Publication Number Publication Date
CN111599365A CN111599365A (zh) 2020-08-28
CN111599365B true CN111599365B (zh) 2023-05-05

Family

ID=72187444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010271020.8A Active CN111599365B (zh) 2020-04-08 2020-04-08 一种用于声纹识别系统中的自适应阈值生成系统和方法

Country Status (1)

Country Link
CN (1) CN111599365B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126183A2 (en) * 2005-05-27 2006-11-30 Nice Systems Ltd. Method and apparatus for fraud detection
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
JP2016053599A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定基準更新方法およびプログラム
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
CN108766446A (zh) * 2018-04-18 2018-11-06 上海问之信息科技有限公司 声纹识别方法、装置、存储介质及音箱
WO2019136911A1 (zh) * 2018-01-12 2019-07-18 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243499A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006126183A2 (en) * 2005-05-27 2006-11-30 Nice Systems Ltd. Method and apparatus for fraud detection
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
JP2016053599A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋データの判定基準更新方法およびプログラム
CN106251874A (zh) * 2016-07-27 2016-12-21 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
WO2019136911A1 (zh) * 2018-01-12 2019-07-18 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108766446A (zh) * 2018-04-18 2018-11-06 上海问之信息科技有限公司 声纹识别方法、装置、存储介质及音箱

Also Published As

Publication number Publication date
CN111599365A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110491391B (zh) 一种基于深度神经网络的欺骗语音检测方法
CN109769099B (zh) 通话人物异常的检测方法和装置
US20190130918A1 (en) Voiceprint authentication method based on deep learning and terminal
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN106611604B (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN111444873B (zh) 视频中人物真伪的检测方法、装置、电子设备及存储介质
CN109256135A (zh) 一种端到端说话人确认方法、装置及存储介质
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN110349588A (zh) 一种基于词嵌入的lstm网络声纹识别方法
CN109599125A (zh) 一种重叠音检测方法及相关装置
CN110797032A (zh) 一种声纹数据库建立方法及声纹识别方法
CN110102051A (zh) 游戏外挂的检测方法及装置
US11081115B2 (en) Speaker recognition
CN106531195A (zh) 一种对话冲突检测方法及装置
CN111599365B (zh) 一种用于声纹识别系统中的自适应阈值生成系统和方法
Sharma et al. Using active speaker faces for diarization in tv shows
CN111833842A (zh) 合成音模板发现方法、装置以及设备
CN110007341B (zh) 一种基于IfnoGAN和SSD模型的微地震有效信号的识别方法及系统
CN108694950B (zh) 一种基于深度混合模型的说话人确认方法
CN110858484A (zh) 一种基于声纹识别技术的语音识别方法
CN110706712A (zh) 家居环境下的录音重放检测方法
CN111639718B (zh) 分类器应用方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant