CN115954007B

CN115954007B - 一种声纹检测方法、装置、电子设备及存储介质

Info

Publication number: CN115954007B
Application number: CN202310239113.6A
Authority: CN
Inventors: 郑榕; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-05-23
Anticipated expiration: 2043-03-14
Also published as: CN115954007A

Abstract

本申请提供了一种声纹检测方法、装置、电子设备及存储介质，包括：获取用户的待检测语音，并提取出待检测语音的待检测声纹特征；将待检测声纹特征与预设声纹模型库中的用户的标准声纹特征进行相似度计算，输出相似度值；其中，任一用户的标准声纹特征是通过对用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；若相似度值大于预设相似度阈值，则用户的待检测声纹特征与标准声纹特征为同一人。通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

Description

一种声纹检测方法、装置、电子设备及存储介质

技术领域

本申请涉及声纹检测技术领域，尤其是涉及一种声纹检测方法、装置、电子设备及存储介质。

背景技术

声纹识别是根据语音波形中反映说话人生理和行为特征的语音参数进行话者身份识别的生物特征识别技术。由于每个人的发音器官的形态、构造各有差别，每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性，例如音质、音长、音强、音高，这些物理量人各不同，因而语音在声纹图谱上呈现不同的声纹特征，根据这些声纹特征参数，可以区分语声，而且可以认定同一人的语声。

无论是基于传统机器学习或者深度学习的声纹识别，第一步都需要建立声纹库。近年来声纹建库和识别取得了不小进展，但也面临着不少实际场景中的挑战，典型的包括跨信道的声纹建库识别、跨语种方言的声纹建库识别、短语音的声纹建库识别、低信噪比强噪声的声纹建库识别、声纹欺骗攻击等其他问题。声纹建库质量的好坏严重影响声纹识别应用的效果，因此在复杂多样的实际语音环境中，如何提升声纹建模的质量成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种声纹检测方法、装置、电子设备及存储介质，通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

本申请实施例提供了一种声纹检测方法，所述声纹检测方法包括：

获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征；

将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值；其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；

若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。

在一种可能的实施方式中，通过以下步骤确定出任一所述用户的所述标准声纹特征：

将所述用户的多条样本音频输入至音频属性分类模型，剔除多条所述样本音频中的非语音音频类型对应的样本音频，输出多条样本语音；

对多条所述样本语音进行聚类分析，滤除不同类别的样本语音，确定出目标类别下的多条参考样本语音，并基于每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音；

对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，并对所述高相似度语音以及方差数值小的所述中相似度语音进行语音真伪检测，确定出标准声纹特征。

在一种可能的实施方式中，所述音频属性分类模型包括第一音频分类网络以及第二音频分类网络，所述将所述用户的多条所述样本音频输入至音频属性分类模型，剔除多条所述样本音频中的非语音音频类型对应的样本音频，输出多条样本语音，包括：

将多条所述样本音频输入至第一音频分类网络，对多条所述样本音频进行音频类别打分，确定出每条所述样本音频对应的音频类别标签；其中，所述第一音频分类网络为基于深度学习网络对根节点进行训练的网络，所述根节点为多种音频类别；

将音频类别标签对应的多条所述样本音频输入至第二音频分类网络，对所述样本音频所在的音频类别下的子音频类型进行打分，确定出每条所述样本音频对应的子音频类型标签；所述第二音频分类网络为基于深度学习网络对叶节点进行训练的网络，所述叶节点包括多种音频类别下的多种子音频类型；

将非语音类型标签对应的样本音频进行剔除，输出语音类型对应的多条样本语音。

在一种可能的实施方式中，所述对多条所述样本语音进行聚类分析，滤除不同类别的样本语音，确定出同一类别下的多条参考样本语音，包括：

对多条所述样本语音进行傅里叶变换，对变换后的多条所述样本语音进行声纹嵌入向量提取；

确定出多条所述样本语音的任意两个所述声纹嵌入向量之间的向量相似度值，将多个所述向量相似度值构成第一邻接矩阵；

基于最大待聚类的声纹嵌入向量数目计算出所述第一邻接矩阵中前最大待聚类的声纹嵌入向量数目个声纹嵌入向量以及声纹嵌入向量的特征值，并构建出第二邻接矩阵；

对所述第二邻接矩阵进行迭代旋转特征向量处理，根据每个所述声纹嵌入向量的类别标签，确定出每个所述声纹嵌入向量的归属类别，并确定出同一类别下的多条参考样本语音。

在一种可能的实施方式中，所述对所述第二邻接矩阵进行迭代旋转特征向量处理，根据每个所述声纹嵌入向量的类别标签，确定出每个所述声纹嵌入向量的归属类别，确定出同一类别下的多条参考样本语音，包括：

对所述第二邻接矩阵进行迭代旋转特征向量处理，确定出第三邻接矩阵；

基于所述声纹嵌入向量的总数量、所述声纹嵌入向量对应的类别数量、以及所述第三邻接矩阵，确定出代价函数；

检测旋转后的所述代价函数的梯度变化值是否小于预设梯度变化值，若是，则确定出同一类别下的多条参考样本语音。

在一种可能的实施方式中，所述基于每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音，包括：

确定出每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值；其中，所述类平均声纹嵌入向量为多条所述参考样本语音的声纹嵌入向量的平均值；

若所述余弦距离值大于第一余弦距离预设值，则所述余弦距离值对应的所述参考样本语音为高相似度语音；

若所述余弦距离值在所述第一余弦距离预设值以及第二余弦距离预设值之间，则所述余弦距离值对应的所述参考样本语音为中相似度语音；其中，所述第一余弦距离预设值大于所述第二余弦距离预设值；

若所述余弦距离值小于所述第二余弦距离预设值，则所述余弦距离值对应的所述参考样本语音为低相似度语音。

在一种可能的实施方式中，所述对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，包括：

对每条所述中相似度语音进行片段切分，确定出每条所述中相似度语音对应的多个语音片段；

针对每条所述中相似度语音，确定出该中相似度语音对应的每个所述语音片段与所述高相似度语音的语音相似度值，并确定出多个所述语音相似度值的方差数值；

检测所述中相似度语音的方差数值是否大于预设方差数值，若是，则将该相似度语音进行过滤，输出所述高相似度语音以及方差数值小的所述中相似度语音。

本申请实施例还提供了一种声纹检测装置，所述声纹检测装置包括：

获取模块，用于获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征；

相似度计算模块，用于将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值；其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；

检测模块，用于若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的声纹检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的声纹检测方法的步骤。

本申请实施例提供的一种声纹检测方法、装置、电子设备及存储介质，所述声纹检测方法包括：获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征；将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值；其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种声纹检测方法的流程图；

图2为本申请实施例所提供的声纹模型库的处理流程图示意图；

图3为本申请实施例所提供的一种声纹检测装置的结构示意图之一；

图4为本申请实施例所提供的一种声纹检测装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对声纹进行检测”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要对声纹进行检测的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供了一种声纹检测方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于声纹检测技术领域。

经研究发现，无论是基于传统机器学习或者深度学习的声纹识别，第一步都需要建立声纹库。近年来声纹建库和识别取得了不小进展，但也面临着不少实际场景中的挑战，典型的包括跨信道的声纹建库识别、跨语种方言的声纹建库识别、短语音的声纹建库识别、低信噪比强噪声的声纹建库识别、声纹欺骗攻击等其他问题。声纹建库质量的好坏严重影响声纹识别应用的效果，因此在复杂多样的实际语音环境中，如何提升声纹建模的质量成为了不容小觑的技术问题。

基于此，本申请实施例提供了一种声纹检测方法，通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

请参阅图1，图1为本申请实施例所提供的一种声纹检测方法的流程图。如图1中所示，本申请实施例提供的声纹检测方法，包括：

S101：获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征。

该步骤中，获取用户的待检测语音，并提取出待检测语音的待检测声纹特征。

这里，任何需要判断是否为同一人的语音均可作为待检测语音，此部分不限定待检测语音的来源。

S102：将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值。

该步骤中，将待检测声纹特征与预设声纹模型库中的用户的标准声纹特征进行相似度计算，输出相似度值。

其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的。

步骤A：将所述用户的多条样本音频输入至音频属性分类模型，剔除多条所述样本音频中的非语音音频类型对应的样本音频，输出多条样本语音。

这里，将用户的多条样本音频输入到音频属性分类模型，剔除多条样本音频中的非语音音频类型对应的样本音频，输出多条样本语音。

这里，将多条样本音频输入至音频属性分类模型的目的是去除非人声的样本音频（音乐、物体声、自然声等）。

这里，音频属性分类模型为神经网络模型。

（1）：将多条所述样本音频输入至第一音频分类网络，对多条所述样本音频进行音频类别打分，确定出每条所述样本音频对应的音频类别标签；其中，所述第一音频分类网络为基于深度学习网络对根节点进行训练的网络，所述根节点为多种音频类别。

这里，将多条样本音频输入到第一音频分类网络，对多条样本音频进行音频类别打分，确定出每条样本音频对应的音频类别标签。

其中，根节点为多种音频类别，音频类别包括语音类别、音乐类别、动物声类别、自然声类别、物体声类别以及其他音。

（2）：将音频类别标签对应的多条所述样本音频输入至第二音频分类网络，对所述样本音频所在的音频类别下的子音频类型进行打分，确定出每条所述样本音频对应的子音频类型标签；所述第二音频分类网络为基于深度学习网络对叶节点进行训练的网络，所述叶节点包括多种音频类别下的多种子音频类型。

这里，将音频类别标签对应的多条样本音频输入至第二音频分类网络，对样本音频所在的音频类别下的子音频类型进行打分，确定出每条样本音频对应的子音频类型标签。

这里，子音频类型标签为音乐类别下的古典音乐类型、流行音乐类型等。

其中，在第一音频分类网络中根据叶结点与根节点的映射关系，从第一音频分类网络中得到每个根节点的分数，记为R1,R2,...,R6，R1+R2+...+R6=1，这里R表示root。在每个根节点中选出其所属叶节点中音频类别打分最大值及其类型标号，分数记为L1,L2,...,L6，且分数归一化之后使得L1+L2+...+L6=1，这里L表示leaf（叶节点）。由于实际应用中只需要得到6种类型的分类标签即可，最终6个类别的分数为：

其中，

表示第i个音频类别的最终分数，i=1,2,...,6。由此得到样本音频的打标签结果，过滤掉非语音类别的音频。；

（3）：将非语音类型标签对应的样本音频进行剔除，输出语音类型对应的多条样本语音。

这里，将非语音类型标签对应的样本音频进行剔除，输出语音类型对应的多条样本语音。

其中，音频属性分类模型通过构造两级音频属性树的方式来实现多音频类型和少样本训练的问题。基于VGGSound开源音频数据库，采用VGG11（深度学习网络）模型进行训练，这里的11表示有11个参数层，即8层卷积层和3层全连接层。VGGSound数据库包含309个音频类别，但类别数量非常不均衡。考虑到实际场景中，主要需要滤除的无人声音频类型包括音乐、物体声、环境音、纯噪音等，并不关注区分音频子类型或者音频属性树的叶节点。处理流程如下：构造音频属性树：按照两级构建属性树。6个根节点（root node）分别是语音、动物声、自然声、音乐声、物体声、其他音。将309个具体音频类别作为叶子节点（leaf node）归属到六个根节点。基于迭代训练评估，用于剔除混淆音频类别：实验中发现有不少类别分类准确率低于50%，一方面是训练数据太少，另一方面是音频数据标签是弱标签，即只对整段标注，而有的整段音频包含了不止一种类型。采用VGG11网络框架，用VGGSound训练集训练309个类别的音频打标分类器，用VGGSound测试集评估准确率，每次剔除准确率排序最低的10%子类别，即经过第一次“训练-评估-剔除”操作之后，309个叶节点降为278个叶节点。迭代训练的停止条件为：音频平均分类准确率不低于80%或者总类别数不低于100类（并保证6个根节点均不为空）。

这里，通过构建两级音频属性树的方式，解决多音频类型分类和少样本训练应用问题。

步骤B：对多条所述样本语音进行聚类分析，滤除不同类别的样本语音，确定出目标类别下的多条参考样本语音，并基于每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音。

这里，对多条样本语音进行聚类分析，滤除不同类别的样本语音，确定出目标类别下的多条参考样本语音，并根据每条参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音。

其中，对多条样本语音进行聚类分析的目的是确定出目标类别下的多条参考语音，其中，目标类别为需要确定的目标人。

a：对多条所述样本语音进行傅里叶变换，对变换后的多条所述样本语音进行声纹嵌入向量提取。

这里，对多条样本语音进行傅里叶变换，对变换后的多条样本语音进行声纹嵌入向量提取。

其中，对所有的样本语音进行分帧加窗后，对每一帧做快速傅里叶变换，对变换后的多条样本语音进行声纹嵌入向量提取。

b：确定出多条所述样本语音的任意两个所述声纹嵌入向量之间的向量相似度值，将多个所述向量相似度值构成第一邻接矩阵。

这里，确定出多条样本语音的任意两个声纹嵌入向量之间的向量相似度值，将多个向量相似度值构成第一邻接矩阵。

这里，通过以下公式计算声纹嵌入向量的两两之间的Tanimoto系数，用于表示向量之间的相似度值：

其中，

、/>

分别表示第i条样本语音和第j条样本语音的声纹嵌入向量，嵌入向量维度为D，d=1,2,...,D。

其中，根据多个向量相似度值构建出第一邻接矩阵A，

为A的第i行第j列元素，即/>

，根据声纹嵌入向量之间相互连接的对称性和自身不能聚类，设置/>

，且/>

。

c：基于最大待聚类的声纹嵌入向量数目计算出所述邻接矩阵中前最大待聚类的声纹嵌入向量数目个声纹嵌入向量以及声纹嵌入向量的特征值，并构建出第二邻接矩阵。

这里，根据最大待聚类的声纹嵌入向量数目计算出第一邻接矩阵中前最大待聚类的声纹嵌入向量数目个声纹嵌入向量以及声纹嵌入向量的特征值，并构建出第二邻接矩阵。

其中，设置聚类的最大类数

，/>

的上限可设置为待聚类样本语音的声纹嵌入向量的数量，为了进一步降低聚类耗时，也可根据实际需要降低类数上限值，记算第一邻接矩阵/>

的前/>

个特征值及其对应的特征向量。由/>

个特征向量构造新的第二邻接矩阵/>

。

d：对所述第二邻接矩阵进行迭代旋转特征向量处理，根据每个所述声纹嵌入向量的类别标签，确定出每个所述声纹嵌入向量的归属类别，并确定出同一类别下的多条参考样本语音。

这里，对第二邻接矩阵进行迭代旋转特征向量处理，根据每个声纹嵌入向量的类别标签，确定出每个声纹嵌入向量的归属类别，并确定出同一类别下的多条参考样本语音。

（一）：对所述第二邻接矩阵进行迭代旋转特征向量处理，确定出第三邻接矩阵。

这里，对第二邻接矩阵进行迭代旋转特征向量处理，确定出第三邻接矩阵。

其中，最小类数逐步增加到预先设置的

的过程中，通过迭代旋转第二邻接矩阵/>

的结构来获取最大的稀疏表示，即第三邻接矩阵W。

（二）：基于所述声纹嵌入向量的总数量、所述声纹嵌入向量对应的类别数量、以及所述第三邻接矩阵，确定出代价函数。

这里，根据声纹嵌入向量的总数量、声纹嵌入向量对应的类别数量、以及第三邻接矩阵，确定出代价函数。

这里，代价函数L的定义如下：

其中，N表示声纹嵌入向量的总数量，C表示在迭代预测最佳类数过程中的当前类别数量。

表示第三邻接矩阵/>

中第n个声纹嵌入向量第c个类别的值，即n行c列的元素值，这里n=1,2,...,N。/>

，表示第三邻接矩阵/>

的第c列向量中元素的最大值。

（三）：检测旋转后的所述代价函数的梯度变化值是否小于预设梯度变化值，若是，则确定出同一类别下的多条参考样本语音。

这里，检测旋转后的代价函数的梯度变化值是否小于预设梯度变化值，若是，则确定出同一类别下的多条参考样本语音。

其中，如果两次旋转操作的代价函数的梯度变化小于预设值，本发明中设置为0.001，则迭代停止，并得到自动预测估计的类数最优值

。自动估计获取类数的方法，可以避免通常谱聚类中需事先指定类数的要求，适用于类数无法提前确定，需要根据实际场景中语音数据自动估计类别数的场合，这里类别数用于表示语音中包含的人数。由此，根据每条待聚类语音的类别标签，得到每条语音的归属类别，获取包含语音条数最多的那一类输出。

其中，采用Tanimoto系数表示向量之间的相似度，修改谱聚类流程，应用代价函数在一定类数范围内去自动预测类数和归属，实现对主要声纹说话人的筛选。

I：确定出每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值；其中，所述类平均声纹嵌入向量为多条所述参考样本语音的声纹嵌入向量的平均值。

这里，确定出每条参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值；其中，所类平均声纹嵌入向量为多条参考样本语音的声纹嵌入向量的平均值。

II：若所述余弦距离值大于第一余弦距离预设值，则所述余弦距离值对应的所述参考样本语音为高相似度语音。

这里，若余弦距离值大于第一余弦距离预设值，则余弦距离值对应的参考样本语音对应的声纹嵌入向量与类平均声纹嵌入向量之间的相似度高，则将该余弦距离值对应的参考样本语音量确定为高相似度语音。

III：若所述余弦距离值在所述第一余弦距离预设值以及第二余弦距离预设值之间，则所述余弦距离值对应的所述参考样本语音为中相似度语音；其中，所述第一余弦距离预设值大于所述第二余弦距离预设值。

这里，若余弦距离值在第一余弦距离预设值以及第二余弦距离预设值之间，则余弦距离值对应的参考样本语音为中相似度语音。

IV：若所述余弦距离值小于所述第二余弦距离预设值，则所述余弦距离值对应的所述参考样本语音为低相似度语音。

这里，若余弦距离值小于第二余弦距离预设值，则余弦距离值对应的参考样本语音为低相似度语音。

其中，实现三档相似度语音划分，并对中间档相似度语音进一步进行单条片段内方差分析模块，解决当前应用出现的单条内部含两人及以上欺骗攻击注册行为。采用端到端的多类型声纹鉴伪，过滤声纹注册阶段的伪造生成语音，保障声纹注册建模的质量，除了区分语音合成、声音转换、录音重放、语音拼接，根据当前较新的攻击形式，这里录音重放还进一步包括真实语音重放、合成语音重放、转换语音重放和拼接语音重放。

在具体实施例中，计算单条参考样本语音嵌入向量与类平均嵌入向量之间的余弦距离。根据设置的阈值分为三种情况：高相似度语音、中相似度语音、低相似度语音。这里高相似度语音可以认为是确定来自于目标说话人，予以保留。低相似度语音可以确定不是来自目标说话人，予以剔除。而中相似度语音在实际场景中可能包含两种情况：一种是确实来自目标说话人，但可能受到信道或者噪声影响了相似度；另一种可能包含目标人但涉及两个及以上说话人，因此降低了相似度。前一种情况需要保留，用于增加声纹注册的丰富度和覆盖性，后一种情况则属于攻击欺骗注册行为，需要过滤。

步骤C：对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，并对所述高相似度语音以及方差数值小的所述中相似度语音进行语音真伪检测，确定出标准声纹特征。

这里，对中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的中相似度语音，并对高相似度语音以及方差数值小的所述中相似度语音进行语音真伪检测，确定出标准声纹特征。

i：对每条所述中相似度语音进行片段切分，确定出每条所述中相似度语音对应的多个语音片段。

这里，对每条中相似度语音进行片段切分，确定出每条中相似度语音对应的多个语音片段。

ii：针对每条所述中相似度语音，确定出该中相似度语音对应的每个所述语音片段与所述高相似度语音的语音相似度值，并确定出多个所述语音相似度值的方差数值。

这里，对每条中相似度语音，确定出该中相似度语音对应的每个语音片段与高相似度语音的语音相似度值，并确定出多个语音相似度值的方差数值。

iii：检测所述中相似度语音的方差数值是否大于预设方差数值，若是，则将该相似度语音进行过滤，输出所述高相似度语音以及方差数值小的所述中相似度语音。

这里，检测中相似度语音的方差数值是否大于预设方差数值，若是，则将该相似度语音进行过滤，输出高相似度语音以及方差数值小的中相似度语音。

这里，对中相似度语音，采用活动语音检测（Voice Activity Detection，VAD）对整条语音进行片段切分，得到多个语音小片段（segment）并计算嵌入向量x-vector，计算每个小片段嵌入向量与高相似度语音的整条声纹嵌入向量的相似度，从而计算所有相似度的方差分布。如果方差数值大于预先设置的变化阈值，表明该段语音可能包含两个及以上说话人，疑似存在攻击欺骗的可能，为了保证声纹注册模型的质量，滤除方差数值大的语音。

这里，基于音频身份认证的实际场景中，声纹识别和活体检测缺一不可。针对当前多种类型语音攻防对抗问题，采用语音真伪判断模块，过滤声纹注册阶段的伪造生成语音，保障声纹注册建模的质量。与通常的二分类语音鉴伪不同，本发明采用端到端的多类型声纹鉴伪，即训练阶段输入真人和多种类型的假体语音分别对应不同的伪造语音生成方式，具体包括语音合成、声音转换、录音重放、语音拼接，根据当前较新的攻击形式，这里录音重放还进一步包括真实语音重放、合成语音重放、转换语音重放和拼接语音重放。具体采用RawNet的端到端网络进行真伪判断模型的训练，即原始信息卷积神经网络架构，可输出语音嵌入表征，其第一个卷积层直接应用于原始语音波形，所有滤波器参数自动学习。在较高层中提取帧级表示的残差块，残差块使用跳转连接，使训练更深的分类器能够利用更多区分信息。

这里，通过多条语音同人判断（聚类分析）、单条语音清洗（滤除低相似度语音）、单条片段内方差分析和语音真伪判断，解决含噪声纹标签数据的声纹注册问题，防御伪造语音欺骗问题，提升声纹模型库的质量。

请参阅图2，图2为本申请实施例所提供的声纹模型库的处理流程图示意图。如图2所示，批量样本音频数据获取，根据ID信息对多条样本音频数据进行汇聚，将多条样本音频输入到音频属性分类模型之中，去除非语音样本语音，输出多条样本语音，对多条样本语音进行聚类分析，滤除不同类别的样本语音，确定出同类别下的多条参考样本语音，对每条参考语音进行嵌入向量分析，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音，去除低相似度语音，利用高相似度语音对中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，对高相似度语音以及方差数值小的中相似度语音进行语音真伪检测，确定出自然真实语音对应的标准声纹特征，根据ID信息完成对标准声纹特征进行注册，根据多个用户的标准声纹特征组建成声纹模型库。

本方案是先通过音频属性分类模型去除无效音频（音乐、物体声、自然声等）；其次，通过多条语音同人判断处理，基于聚类分析滤除不同“类别”语音，这里“类别”表征了不同人；再次，通过类内单条语音清洗，滤除低相似度语音；然后，通过方差分析，滤除方差数值大的语音；接着，将前述高相似度语音和中相似度中方差数值小的语音送入语音真伪判断模型，滤除伪造生成语音（合成、转换、重放等语音）；最后，将真实同人语音输入声纹注册模块，创建声纹模型库。

S103：若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。

该步骤中，若相似度值大于预设相似度阈值，则用户的待检测声纹特征与标准声纹特征为同一人，若相似度值小于预设相似度阈值，则用户的待检测声纹特征与标准声纹特征为非同一人。

本申请实施例提供的一种声纹检测方法，其特征在于，所述声纹检测方法包括：获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征；将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值；其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

请参阅图3、图4，图3为本申请实施例所提供的一种声纹检测装置的结构示意图之一；图4为本申请实施例所提供的一种声纹检测装置的结构示意图之二。如图3中所示，所述声纹检测装置300包括：

进一步的，如图4所示，声纹检测装置还包括标准声纹特征确定模块340，标准声纹特征确定模块340通过以下步骤确定出任一所述用户的所述标准声纹特征：

进一步的，标准声纹特征确定模块340在用于所述音频属性分类模型包括第一音频分类网络以及第二音频分类网络，所述将所述用户的多条所述样本音频输入至音频属性分类模型，剔除多条所述样本音频中的非语音音频类型对应的样本音频，输出多条样本语音时，标准声纹特征确定模块340具体用于：

进一步的，标准声纹特征确定模块340在用于所述对多条所述样本语音进行聚类分析，滤除不同类别的样本语音，确定出同一类别下的多条参考样本语音时，标准声纹特征确定模块340具体用于：

进一步的，标准声纹特征确定模块340在用于所述对所述第二邻接矩阵进行迭代旋转特征向量处理，根据每个所述声纹嵌入向量的类别标签，确定出每个所述声纹嵌入向量的归属类别，确定出同一类别下的多条参考样本语音时，标准声纹特征确定模块340具体用于：

进一步的，标准声纹特征确定模块340在用于所述基于每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音时，标准声纹特征确定模块340具体用于：

进一步的，标准声纹特征确定模块340在用于所述对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音时，标准声纹特征确定模块340具体用于：

本申请实施例提供的一种声纹检测装置，其特征在于，所述声纹检测装置包括：获取模块，用于获取用户的待检测语音，并提取出所述待检测语音的待检测声纹特征；相似度计算模块，用于将所述待检测声纹特征与预设声纹模型库中的所述用户的标准声纹特征进行相似度计算，输出相似度值；其中，所述声纹模型库包含多个用户的标准声纹特征；其中，任一所述用户的所述标准声纹特征是通过对所述用户的多条样本音频进行去除无效样本音频、聚类分析处理、低相似度样本语音滤除处理以及语音真伪检测处理得到的；检测模块，用于若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人。通过对非人声、非目标说话人语音、多人混淆语音、单条多人语音、伪造生成语音进行信息自动滤除，提高了声纹模型库的质量，进而提高了声纹检测的准确性。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1所示方法实施例中的声纹检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的声纹检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声纹检测方法，其特征在于，所述声纹检测方法包括：

若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人；

通过以下步骤确定出任一所述用户的所述标准声纹特征：

对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，并对所述高相似度语音以及方差数值小的所述中相似度语音进行语音真伪检测，确定出标准声纹特征；

所述对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音，包括：

2.根据权利要求1所述的声纹检测方法，其特征在于，所述音频属性分类模型包括第一音频分类网络以及第二音频分类网络，所述将所述用户的多条所述样本音频输入至音频属性分类模型，剔除多条所述样本音频中的非语音音频类型对应的样本音频，输出多条样本语音，包括：

3.根据权利要求1所述的声纹检测方法，其特征在于，所述对多条所述样本语音进行聚类分析，滤除不同类别的样本语音，确定出同一类别下的多条参考样本语音，包括：

4.根据权利要求3所述的声纹检测方法，其特征在于，所述对所述第二邻接矩阵进行迭代旋转特征向量处理，根据每个所述声纹嵌入向量的类别标签，确定出每个所述声纹嵌入向量的归属类别，确定出同一类别下的多条参考样本语音，包括：

5.根据权利要求1所述的声纹检测方法，其特征在于，所述基于每条所述参考样本语音的声纹嵌入向量与类平均声纹嵌入向量之间的余弦距离值，确定出多条参考样本语音中的高相似度语音、中相似度语音以及低相似度语音，包括：

6.一种声纹检测装置，其特征在于，所述声纹检测装置包括：

检测模块，用于若所述相似度值大于预设相似度阈值，则所述用户的待检测声纹特征与所述标准声纹特征为同一人；

标准声纹特征确定模块通过以下步骤确定出任一所述用户的所述标准声纹特征：

标准声纹特征确定模块在用于所述对所述中相似度语音中进行方差分析，滤除方差数值大的中相似度语音，确定出方差数值小的所述中相似度语音时，标准声纹特征确定模块具体用于：

7.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至5任一所述的声纹检测方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一所述的声纹检测方法的步骤。