CN111599365B

CN111599365B - 一种用于声纹识别系统中的自适应阈值生成系统和方法

Info

Publication number: CN111599365B
Application number: CN202010271020.8A
Authority: CN
Inventors: 周雷
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-05-05
Anticipated expiration: 2040-04-08
Also published as: CN111599365A

Abstract

本发明提出了一种用于声纹识别系统中的自适应阈值生成系统和方法，属于声纹识别技术领域。所述系统包括注册声纹模型获取模块、新阈值生成模块、自适应阈值生成模块、测试声纹打分模块和声纹判定模块；所述方法包括分别注册声纹模型获取模块、新阈值生成模块、测试声纹打分模块和声纹判定模块对应的步骤。

Description

一种用于声纹识别系统中的自适应阈值生成系统和方法

技术领域

本发明提出了一种用于声纹识别系统中的自适应阈值生成系统和方法，属于声纹识别技术领域。

背景技术

声纹识别技术在识别过程中，通过测试语音同模型打分，得分高于经验阈值则判定为同一人，否则判断为不同人经验阈值获取一般是通过训练和开发集实验获取。首先语音极易受环境影响，稳定性较差；其次训练和开发集涵盖场景和提供的信息有限，所以在实际应用场景中，经验阈值可能跟实际阈值偏差很大，从而造成识别率急速下降。

发明内容

本发明提供了一种用于声纹识别系统中的自适应阈值生成系统和方法，用以解决现有声纹识别系统中采用的经验阈值跟实际阈值偏差很大，从而造成识别率急速下降的问题，所采取的技术方案如下：

一种用于声纹识别系统中的自适应阈值生成系统，所述系统包括：

注册声纹模型获取模块，用于获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库；

新阈值生成模块，根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新；

自适应阈值生成模块，用于将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值；

测试声纹打分模块，用于在模型声纹测试过程中，获取注册语音，通过声纹模型，提取声纹特征，将测试声纹特征同注册声纹库中注册声纹特征一一比对，选取分数最高者的得分；

声纹判定模块，用于根据自适应阈值生成模块生成的阈值，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败。

进一步地，所述注册声纹模型获取模块包括：

注册语音获取模块，用于在模型声纹注册过程中获取注册语音；

注册声纹库生成模块，用于提取注册的声纹模型的声纹特征，获得注册声纹的特征信息并对注册声纹的特征信息进行缓存，生成注册声纹库；

注册语音库生成模块，用于继续缓冲注册语音，生成注册语音库。

进一步地，所述新阈值生成模块包括：

语音增强模块，用于通过语音增强方式对注册声纹库中的语音进行加噪加混响，丰富注册语音库；

正向打分模块，用于对同一个人的注册语音进行一一打分，生成正向打分；

反向打分模块，用于对不同人的注册语音进行一一打分，生成反向打分；

阈值设定模块，用于在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值，作为最新的阈值；并且每次有注册语音加入，都重新生成一次阈值。

进一步地，所述正向打分模块包括：

同一模型语音判断模块，用于判断注册语音是否为同一模型语音，如果为同一模型语音，则判定所述语音来自同一个人；

同一模型语音组形成模块，用于将同一模型语音判断模块判断获得的同一模型语音筛选出来，形成同一模型注册语音组；

同一模型语音打分模块，用于对同一模型注册语音的深度特征进行随机打分，生成正向打分。

进一步地，所述反向打分模块包括

不同模型语音判断模块，用于判断注册语音是否为不同模型语音，如果为不同模型语音，则判定所述语音来自不同人；

不同模型语音组形成模块，用于将不同模型语音判断模块判断获得的不同模型语音筛选出来，形成不同模型注册语音组；

不同模型语音打分模块，用于对不同模型注册语音的深度特征进行随机打分，生成反向打分。

一种用于声纹识别系统中的自适应阈值生成方法，所述方法包括：

获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库；

根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新；

将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值；

在模型声纹测试过程中，获取注册语音，通过声纹模型，提取声纹特征，将测试声纹特征同注册声纹库中注册声纹特征一一比对，选取分数最高者的得分；

根据自适应阈值生成模块生成的阈值，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败。

进一步地，所述获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库包括：

在模型声纹注册过程中获取注册语音；

提取注册的声纹模型的声纹特征，获得注册声纹的特征信息并对注册声纹的特征信息进行缓存，生成注册声纹库；

继续缓冲注册语音，生成注册语音库。

进一步地，所述根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新的过程包括：

通过语音增强方式对注册声纹库中的语音进行加噪加混响，丰富注册语音库；

对同一个人的注册语音进行一一打分，生成正向打分；

对不同人的注册语音进行一一打分，生成反向打分；

在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值，作为最新的阈值；并且每次有注册语音加入，都重新生成一次阈值。

进一步地，所述生成正向打分的过程包括：

判断注册语音是否为同一模型语音，如果为同一模型语音，则判定所述语音来自同一个人；

将同一模型语音判断模块判断获得的同一模型语音筛选出来，形成同一模型注册语音组；

对同一模型注册语音的深度特征进行随机打分，生成正向打分。

进一步地，所述生成反向打分的过程包括

不同时刻注册的语音来自不同说话人，即属于不同模型；

将不同模型语音判断模块判断获得的不同模型语音筛选出来，形成不同模型注册语音组；

对不同模型注册语音的深度特征进行随机打分，生成反向打分。

本发明有益效果：

本发明提出的一种用于声纹识别系统中的自适应阈值生成系统和方法，自适应阈值生成充分考虑到实际环境变化以及注册说话人之间区分性不同；另外通过语音增强的形式，去模拟更多的场景，充分利用注册语音的信息，提升系统的区分度的鲁棒性；此外还将经验阈值加权合并进来，防止过大错误的自适应引起系统崩溃。以上策略能更有效的在识别过程中将测试语音和注册语音区分开，提高了实际应用的识别率，增强系统的稳定性。

附图说明

图1为发明所述系统的结构示意图；

图2为本发明所述方法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种用于声纹识别系统中的自适应阈值生成系统和方法，用以解决现有声纹识别系统中采用的经验阈值跟实际阈值偏差很大，从而造成识别率急速下降的问题。

一种用于声纹识别系统中的自适应阈值生成系统，如图1所示，所述系统包括：

上述方案的工作原理为：首先，利用注册声纹模型获取模块获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库；然后通过新阈值生成模块，根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新；通过自适应阈值生成模块将声纹识别系统中原有的阈值和所述最新的阈值进行加权平均生成稳定的自适应阈值；并利用测试声纹打分模块在模型声纹测试过程中，获取注册语音，通过声纹模型，提取声纹特征，将测试声纹特征同注册声纹库中注册声纹特征一一比对，选取分数最高者的得分；最后，声纹判定模块，根据自适应阈值生成模块生成的阈值，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败。

运行过程为：

第1步，模型声纹注册过程中，获取注册语音，并做缓存

第2步，对注册语音进行加噪加混响等语音增强的方法生成多条语音，通过深度学习模型提取深度特征，清空语音缓存，保留注册语音及增强语音的深度特征

第3步，因为同一个模型注册语音来自同一个说话人，对同一模型深度特征随机打分，生成一组正向打分；

第4步，同理不同模型语音来自不同说话人，不同模型的深度特征随机交叉打分，生成一组反向打分；

第5步，根据正向打分和反向打分，求虚警概率和漏警概率相等时所对应的阈值为自适应阈值；

第6步，为防止注册信息错误引起阈值变差，将经验阈值和自适应阈值加权平均，生成新的稳定的自适应阈值；

第7步，在模型声纹测试过程中，获取注册语音，通过声纹模型，提取声纹特征，将测试声纹特征同注册声纹库中注册声纹特征一一比对，选取分数最高者的得分；

第8步，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败。

上述方案的技术效果为：自适应阈值生成充分考虑到实际环境变化以及注册说话人之间区分性不同；另外通过语音增强的形式，去模拟更多的场景，充分利用注册语音的信息，提升系统的区分度的鲁棒性；此外还将经验阈值加权合并进来，防止过大错误的自适应引起系统崩溃。以上策略能更有效的在识别过程中将测试语音和注册语音区分开，提高了实际应用的识别率，增强系统的稳定性。

本发明的一个实施例，所述注册声纹模型获取模块包括：

上述方案的工作原理为：利用注册语音获取模块在模型声纹注册过程中获取注册语音；并通过注册声纹库生成模块提取注册的声纹模型的声纹特征，获得注册声纹的特征信息并对注册声纹的特征信息进行缓存，生成注册声纹库；然后通过注册语音库生成模块继续缓冲注册语音，生成注册语音库。

上述方案的技术效果：提高声纹信息和注册语音提取的准确性。

本发明的一个实施例，所述新阈值生成模块包括：

上述方案的工作原理为：通过语音增强模块利用语音增强方式对注册声纹库中的语音进行加噪加混响，丰富注册语音库；然后，利用正向打分模块对同一个人的注册语音进行一一打分，生成正向打分；利用反向打分模块对不同人的注册语音进行一一打分，生成反向打分；最后，通过阈值设定模块在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值，作为最新的阈值；并且每次有注册语音加入，都重新生成一次阈值。

上述方案的技术效果：通过加噪和加混响的方法进行语音增强处理，通过语音增强处理的方式能够有效模拟更多的场景，并且充分利用注册语音的信息，将语音增强处理和注册语音的信息结合运用能够大幅度提升系统的区分度的鲁棒性。同时，有效提高同一个人语音和不同人语音的判断准确度，使获得的正向集得分更具参考性，进而提高后期获取的自适应阈值与实际阈值的一致性。通过结合虚警概率和漏警概率相等时的分数作为新阈值，能够有效避免虚警漏警其他时刻的不准确阈值对新阈值生成的影响，同时能够提高新阈值的可靠性，进而提高后续自适应阈值与实际阈值的一致性。并通过每次有注册语音加入，都重新生成一次阈值的手段保证阈值与注册语音变化的同步性，提高后期自适应阈值生成的准确性。

本发明的一个实施例，所述正向打分模块包括：

同一模型语音组形成模块，用于将同一时刻注册获得的同一模型语音筛选出来，形成同一模型注册语音组；

上述方案的工作原理：利用同一时刻注册的语音判定为同一模型语音，如果为同一模型语音，则判定所述语音来自同一个人；然后，通过同一模型语音组形成模块将同一模型语音判断模块判断获得的同一模型语音筛选出来，形成同一模型注册语音组；最后，利用同一模型语音打分模块对同一模型注册语音的深度特征进行随机打分，生成正向打分。

上述方案的技术效果：有效提高同一个人语音的判断准确度，使获得的正向集得分更具参考性，进而提高后期获取的自适应阈值与实际阈值的一致性。

本发明的一个实施例，所述反向打分模块包括：

上述方案的工作原理：通过不同模型语音判断模块判断注册语音是否为不同模型语音，如果为不同模型语音，则判定所述语音来自不同人；然后，利用不同模型语音组形成模块将不同模型语音判断模块判断获得的不同模型语音筛选出来，形成不同模型注册语音组；最后，通过不同模型语音打分模块对不同模型注册语音的深度特征进行随机打分，生成一组反向集得分。

上述方案的技术效果：有效提高同不同人语音的判断准确度，使获得的反向集得分更具参考性，进而提高后期获取的自适应阈值与实际阈值的一致性。

一种用于声纹识别系统中的自适应阈值生成方法，如图2所示，所述方法包括：

本发明的一个实施例，所述获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库包括：

在模型声纹注册过程中获取注册语音；

继续缓冲注册语音，生成注册语音库。

本发明的一个实施例，所述根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新的过程包括：

对同一个人的注册语音进行一一打分，生成正向打分；

对不同人的注册语音进行一一打分，生成反向打分；

本发明的一个实施例，所述生成正向打分的过程包括：

本发明的一个实施例，所述生成反向打分的过程包括

判断注册语音是否为不同模型语音，如果为不同模型语音，则判定所述语音来自不同人；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于声纹识别系统中的自适应阈值生成系统，其特征在于，所述系统包括：

新阈值生成模块，根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时所对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新；

声纹判定模块，用于根据自适应阈值生成模块生成的阈值，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败；

其中，所述新阈值生成模块包括：

阈值设定模块，用于在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时所对应的分数值，作为最新的阈值；并且每次有注册语音加入，都重新生成一次阈值；

所述正向打分模块包括：

同一模型语音判断模块，设定同一次注册的所有语音来自同一个说话人，判定同一模型；

同一模型语音打分模块，用于对同一模型注册语音的特征进行随机打分，生成正向打分；

所述反向打分模块包括

不同模型语音判断模块，不同时刻注册的语音设定为来自不同说话人，属于不同模型；

不同模型语音打分模块，用于对不同模型注册语音的特征进行随机打分，生成反向打分。

2.根据权利要求1所述系统，其特征在于，所述注册声纹模型获取模块包括：

3.一种用于声纹识别系统中的自适应阈值生成方法，其特征在于，所述方法包括：

在模型声纹测试过程中，获取测试语音，提取声纹特征，将测试声纹特征同注册声纹库中注册声纹模型一一比对打分，选取分数最高者的得分；

根据自适应阈值生成模块生成的阈值，判断测试声纹打分模块获得的得分与阈值之间的关系，得分大于阈值则判定跟声纹库中为同一个人，声纹认证成功；否则判断为不同人，声纹认证失败；

其中，所述根据注册声纹库语音，通过语音增强的方式加噪加混响，生成正向打分和反向打分，并选取分数使得虚警概率和漏警概率相等时对应的值，作为最新的阈值，并根据每次加入的注册语音进行阈值更新的过程包括：

对同一个人的注册语音进行一一打分，生成正向打分；

对不同人的注册语音进行一一打分，生成反向打分；

在正向打分和反向打分中选取分数使得出现虚警概率和漏警概率相等时对应的分数值，作为最新的阈值；并且每次有注册语音加入，都重新生成一次阈值；

所述生成正向打分的过程包括：

对同一模型注册语音的深度特征进行随机打分，生成正向打分；

所述生成反向打分的过程包括

4.根据权利要求3所述方法，其特征在于，所述获取模型声纹注册过程中的注册语音，并根据注册的声纹模型的声纹特征生成注册声纹库，并利用注册语音的缓冲形成注册语音库包括：

在模型声纹注册过程中获取注册语音；

继续缓冲注册语音，生成注册语音库。