CN112382300A

CN112382300A - 声纹鉴定方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN112382300A
Application number: CN202011481348.9A
Authority: CN
Inventors: 曹岩岗
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-02-19

Abstract

本申请提供一种声纹鉴定方法、模型训练方法、装置、设备及存储介质，涉及声纹鉴定技术领域。该方法包括：获取待鉴定语音数据；将待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征，其中，待输入特征包括：多个预设维度的特征；根据待输入特征以及预设声纹鉴定模型，识别获取语音数据库中是否存在与待鉴定语音数据匹配的目标语音。若存在，则确定待鉴定语音数据通过鉴定。相对于现有技术，避免了根据单一特征维度确定目标语音，或根据主观性确定声纹鉴定结果的方式，导致准确性不够高的问题。

Description

声纹鉴定方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及声纹鉴定技术领域，具体而言，涉及一种声纹鉴定方法、模型训练方法、装置、设备及存储介质。

背景技术

声纹与DNA、指纹等特征一样，是每个人所具有的特征，可以用来鉴别身份，在刑侦、支付、安全、密码等领域有着巨大的潜力。

现有技术中的声纹鉴定，一般首先提取语音的特征，然后通过对比检材语音特征和样本语音特征的相似性，做出同一性判断。现在的声纹鉴定技术主要的理论依据是源-滤波模型(Source-Filter Model)，其中共振峰反映的仅是声道特性，即软腭、舌头、口腔和鼻腔等器官组成的声学通道，共振峰所在频率就是声道的共振频率，除了声道特性，声源特性—基频也进行了考虑，基频反映了在气流的冲击下声带的震动频率。目前声纹鉴定的普遍路线是提取样本和检材语音中的相同音素，然后通过检验音素共振峰和基频的相关属性来进行同一性判定。

但是这种判定方式由于从音素中提取的特征维度比较单一，主观性太强，从而可能导致识别结果不准确的问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种声纹鉴定方法、模型训练方法、装置、设备及存储介质，以解决现有技术中根据单一特征维度确定目标语音，或根据主观性确定声纹鉴定结果的方式，导致准确性不够高的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种声纹鉴定方法，所述方法包括：

获取待鉴定语音数据；

将所述待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征，其中，所述待输入特征包括：多个预设维度的特征；

根据所述待输入特征以及预设声纹鉴定模型，识别获取所述语音数据库中是否存在与所述待鉴定语音数据匹配的目标语音，其中，所述预设声纹鉴定模型根据样本数据集训练获取，所述样本数据集包括：标注有匹配标识的样本语音，以及各所述样本语音的多个预设维度的特征；

若存在，则确定所述待鉴定语音数据通过鉴定。

可选地，所述样本数据包括：正样本数据和负样本数据；

所述正样本数据包括：同一主体发出的相同样本语音、以及各所述样本语音的预设维度的特征；

所述负样本数据包括：不同主体发出的相同样本语音、以及各所述样本语音的预设维度的特征。

可选地，所述将所述待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征之前，还包括：

从所述待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段；

从所述片段中提取相同的待鉴定音素；

所述将所述待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征，包括：

对所述待鉴定音素进行特征提取，获取待输入特征。

可选地，所述预设声纹鉴定模型包括：支持向量机的分类决策函数；

所述根据所述待输入特征以及预设声纹鉴定模型，识别获取所述语音数据库中与所述待鉴定语音数据匹配的目标语音，包括：

将所述待输入特征输入所述支持向量机的分类决策函数，获取输出结果；

其中，在所述输出结果为1时，表示所述待鉴定语音数据与所述目标语音匹配成功，即待鉴定语音通过鉴定；在所述输出结果为-1时，则表示所述待鉴定语音数据未匹配到一致的语音，即待鉴定语音鉴定未通过鉴定。

可选地，多个预设维度的特征包括下述一项或多项：音频、共振峰信息、梅尔倒谱系数、伽马通倒谱系数、感知线性预测；

其中，所述共振峰信息包括下述一项或多项：共振峰所在的频率，-3dB带宽和强度。

第二方面，本申请另一实施例提供了一种声纹鉴定模型的训练方法，包括：

获取样本数据集，所述样本数据集包括：标注有匹配标识的样本语音，以及各所述样本语音的多个预设维度的特征；

根据所述样本数据集、以及预设函数训练获取所述声纹鉴定模型。

可选地，所述样本数据包括：正样本数据和负样本数据；

所述获取样本数据集，包括：

获取同一主体发出的相同样本语音，并标记所述主体作为匹配标识；

获取所述同一主体发出的相同样本语音的多个所述预设维度的特征，作为所述正样本数据；以及，

获取不同主体发出的相同样本语音，并标记所述主体作为匹配标识；

获取所述不同主体发出的相同样本语音的多个所述预设维度的特征，作为所述负样本数据。

可选地，所述获取所述同一主体发出的不同样本语音的多个所述预设维度的特征，包括：

提取所述同一主体发出的相同样本语音的音素，并进行配对，获取音素对；

提取各所述音素对的多个所述预设维度的特征；

所述获取所述不同主体发出的相同样本语音的多个所述预设维度的特征，包括：

提取所述不同主体发出的相同样本语音的音素，并进行配对，获取音素对；

提取各所述音素对的多个所述预设维度的特征。

可选地，所述预设函数为支持向量机的分类决策函数；

所述根据所述样本数据集、以及预设函数训练获取所述声纹鉴定模型，包括：

将所述样本数据集带入支持向量机，计算支持向量机的解向量，以及分类决策函数，获取所述声纹鉴定模型。

可选地，多个预设维度的特征包括下述一项或多项：基频、共振峰信息、梅尔倒谱系数、伽马通倒谱系数、感知线性预测；

第三方面，本申请一实施例提供了一种声纹鉴定装置，所述装置包括：获取模块、识别模块和确定模块，其中：

所述获取模块，用于获取待鉴定语音数据；将所述待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征，其中，所述待输入特征包括：多个预设维度的特征；

所述识别模块，用于根据所述待输入特征以及预设声纹鉴定模型，识别获取所述语音数据库中是否存在与所述待鉴定语音数据匹配的目标语音，其中，所述预设声纹鉴定模型根据样本数据集训练获取，所述样本数据集包括：标注有匹配标识的样本语音，以及各所述样本语音的多个预设维度的特征；

确定模块，用于若存在，则确定所述待鉴定语音数据通过鉴定。

可选地，所述装置还包括：提取模块，用于从所述待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段；从所述片段中提取相同的待鉴定音素；

所述获取模块，具体用于对所述待鉴定音素进行特征提取，获取待输入特征。

可选地，所述获取模块，具体用于将所述待输入特征输入所述支持向量机的分类决策函数，获取输出结果；其中，在所述输出结果为1时，表示所述待鉴定语音数据与所述目标语音匹配成功，即待鉴定语音通过鉴定；在所述输出结果为-1时，则表示所述待鉴定语音数据未匹配到一致的语音，即待鉴定语音鉴定未通过鉴定。

第四方面，本申请另一实施例提供了一种声纹鉴定模型的训练装置，所述装置包括：获取模块，用于获取样本数据集，所述样本数据集包括：标注有匹配标识的样本语音，以及各所述样本语音的多个预设维度的特征；根据所述样本数据集、以及预设函数训练获取所述声纹鉴定模型。

可选地，所述样本数据包括：正样本数据和负样本数据；所述获取模块，具体用于获取同一主体发出的相同样本语音，并标记所述主体作为匹配标识；获取所述同一主体发出的相同样本语音的多个所述预设维度的特征，作为所述正样本数据；以及，获取不同主体发出的相同样本语音，并标记所述主体作为匹配标识；获取所述不同主体发出的相同样本语音的多个所述预设维度的特征，作为所述负样本数据。

可选地，所述装置还包括：提取模块，其中：

所述获取模块，具体用于提取所述同一主体发出的相同样本语音的音素，并进行配对，获取音素对；

所述提取模块，用于提取各所述音素对的多个所述预设维度的特征；

所述获取模块，具体用于提取所述不同主体发出的相同样本语音的音素，并进行配对，获取音素对；

所述提取模块，具体用于提取各所述音素对的多个所述预设维度的特征。

可选地，所述预设函数为支持向量机的分类决策函数；所述获取模块，具体用于将所述样本数据集带入支持向量机，计算支持向量机的解向量，以及分类决策函数，获取所述声纹鉴定模型。

第五方面，本申请另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面或第二方面任一所述方法的步骤。

第六方面，本申请另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面或第二方面任一所述方法的步骤。

本申请的有益效果是：采用本申请提供的声纹鉴定方法，通过将识别语音数据和语音数据库中的待匹配语音数据进行特征提取，获取多个预设维度的特征作为待输入特征；根据待输入特征和预设声纹鉴定模型，识别并获取语音数据库中与待鉴定语音匹配的目标语音，由于本申请的实施例中，待输入特征包括多个预设维度的特征，因此相对于根据单一特征维度确定目标语音的方式，本申请根据多个预设维度确定的目标语音的准确度更高，从而提高了声纹鉴定的准确性，避免根据主观性确定声纹鉴定结果的方式，导致准确性不够高的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的声纹鉴定方法的流程示意图；

图2为本申请另一实施例提供的声纹鉴定方法的流程示意图；

图3为本申请另一实施例提供的声纹鉴定模型的训练方法的流程示意图；

图4为本申请一实施例提供的声纹鉴定模型的训练方法的流程示意图；

图5为本申请另一实施例提供的声纹鉴定模型的训练方法的流程示意图；

图6为本申请另一实施例提供的声纹鉴定方法的流程示意图；

图7为本申请一实施例提供的声纹鉴定装置的结构示意图；

图8为本申请另一实施例提供的声纹鉴定装置的结构示意图；

图9为本申请一实施例提供的声纹鉴定模型的训练装置的结构示意图；

图10为本申请另一实施例提供的声纹鉴定模型的训练装置的结构示意图；

图11为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

本申请提供的方法可以应用于各种需要通过语音数据的识别来进行鉴别身份的场景中，例如可以应用于刑侦场景、支付场景、安全验证场景或密码场景等，以应用于安全验证场景为例，用户可以在登陆应用程序时，通过本申请提供的声纹鉴定方法确定当前登陆应用程序的用户是否为具有登陆权限的用户，其中，只有当前登陆应用程序的用户的语音数据，与具有登陆权限的用户的语音数据匹配成功时，才可成功登陆；或是用户语音开锁时，通过本申请提供的声纹鉴定方法，确定当前登陆应用程序的用户是否为具有开锁权限的用户，其中，开锁权限的用户可以包括一个用户或多个用户，应当理解上述实施例仅为示例性说明，具体本申请的应用范围和应用方式可以根据用户需要灵活调整，不以上述实施例给出的为限。

如下结合多个具体的应用示例，对本申请实施例所提供的一种声纹鉴定方法进行解释说明。该方法的执行主体可以是终端设备，例如手机、电脑、穿戴设备等，也可以是服务器，在此不作限制。图1为本申请一实施例提供的一种声纹鉴定方法的流程示意图，如图1所示，该方法包括：

S101：获取待鉴定语音数据。

示例地，在一些可能的实施例中，待鉴定语音数据例如可以为用户通过终端设备输入的，其中，终端设备例如可以为手机、具有录音功能的摄像头，可穿戴设备等任意具有声纹鉴定功能的智能终端设备。例如在支付场景下，该待鉴定语音数据可以是用户通过手机输入的，在刑侦场景下，该待鉴定语音数据可以是采用电脑获取待分析视频后，从视频中分离出来，并通过电脑上传的，具体待鉴定语音数据的获取方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

S102：将待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征。

其中，待输入特征包括：多个预设维度的特征。

S103：根据待输入特征以及预设声纹鉴定模型，识别获取语音数据库中是否存在与待鉴定语音数据匹配的目标语音。

其中，预设声纹鉴定模型根据样本数据集训练获取，样本数据集包括：标注有匹配标识的样本语音，以及各样本语音的多个预设维度的特征。

语音数据库包括预先录入的语音数据，可以根据不同应用场景录入不同语音，例如需要识别的用户、需要验证的工作人员等，在此不作限制。

示例地，在本申请的一个实施例中，样本数据中可以包括大量不同信道、年龄、地域、性别等带有说话人标记的语音数据，样本数据包括的特性越多，模型的泛化能力越强，应当理解样本数据中包括的特征内容并不以上述实施例给出的为限，可以根据用户需要灵活扩展。

其中，样本数据中可以包括：正样本数据和负样本数据；其中，正样本数据包括：同一主体发出的不同样本语音、以及各样本语音的预设维度的特征；负样本数据包括：不同主体发出的相同样本语音、以及各样本语音的预设维度的特征。需要说明的是，这里的主体只涉及人。

若存在，则执行S104。

S104：确定待鉴定语音数据通过鉴定。

其中，若语音数据库中存在与待鉴定语音数据匹配的目标语音，则说明目标语音与待鉴定语音为属于同一说话人，即表示待鉴定语音数据通过鉴定。

采用本申请提供的声纹鉴定方法，通过将识别语音数据和语音数据库中的待匹配语音数据进行特征提取，获取多个预设维度的特征作为待输入特征；根据待输入特征和预设声纹鉴定模型，识别并获取语音数据库中与待鉴定语音匹配的目标语音，由于本申请的实施例中，待输入特征包括多个预设维度的特征，因此相对于根据单一特征维度确定目标语音的方式，本申请根据多个预设维度确定的目标语音的准确度更高，从而提高了声纹鉴定的准确性，避免根据主观性确定声纹鉴定结果的方式，导致准确性不够高的问题。

可选地，在上述实施例的基础上，本申请实施例还可提供一种声纹鉴定方法，如下结合附图对上述方法的实现过程进行示例说明。图2为本申请另一实施例提供的一种声纹鉴定方法的流程示意图，如图2所示，S102之前，该方法还可包括：

S105：从待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段。

可选地，提取包含相同关键词的片段之前，还需要对待鉴定语音进行预处理，从而提高待鉴定语音的语音质量，在本申请的一个实施例中，预处理例如可以包括：

首先去除待鉴定语音的混响，在本申请的一个实施例中，例如可以使用加权递推最小二乘自适应滤波器(Weighted Recursive Least Square，WRLS)进行去混响，去除房间冲激响应(Room Impulse Response，RIR)对待鉴定语音的影响。随后对待鉴定语音进行降噪处理，从而保证待鉴定语音数据的纯净，防止语音失真。

在本申请的一个实施例中，例如可以采用维纳滤波(Wiener Filtering)的方式对去除混响后的待鉴定语音进行降噪处理，最后根据预设公式：

去除待鉴定语音的直流分量，至此完成对待处理语音的预处理。由于语音是一些离散的样点序列(也可以理解为数组)，上述公式中的m为语音中各样点的编号，N为语音中包括的所有样点的数量；即先求出所有语音中所有样点的平均值，再对语音中的各样点逐个减去平均值，从而实现去除待鉴定语音的直流分量。

其中，在本申请的一个实施例中，由于语音数据库中的待匹配语音数据均为经过预处理的，因此可以直接使用，应当理解在语音数据库中的待匹配语音数据也为未经过预处理的语音时，需要在提取相同关键词的片段之前，也对其进行预处理操作，具体预处理操作包括的内容和预处理方式可以根据用户需要灵活调整，并不以上述实施例给出的为限。

示例地，在本申请的一个实施例中，提取相同关键词采用的方法例如可以为通过关键词查找技术(Keyword Spotting，KWS)从待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段。

S106：从片段中提取相同的待鉴定音素。

示例地，在本申请的一个实施例中，从待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段后，还需要对上述关键词的片段进行标记，随后分别从待鉴定语音数据的标记片段和待匹配语音数据的标记片段中，提取相同的待鉴定音素。

对应的，S102包括：

S107：对待鉴定音素进行特征提取，获取待输入特征。

示例地，在本申请的一个实施例中，多个预设维度的特征包括下述一项或多项：基频、共振峰信息、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、伽马通倒谱系数(Gammatone Frequency Cepstral Coefficients，GFCC)、感知线性预测(Perceptual Linear Predictive，PLP)；其中，共振峰信息可以包括下述一项或多项：共振峰所在的频率，-3dB带宽和强度。

其中，由于MFCC、GFCC和PLP是三个基于人耳听觉建模的听觉感知特征，将上述听觉感知特征融入声纹鉴定的声纹鉴定技术中，并结合经典的源-滤波模型，进一步增加了声纹鉴定的鲁棒性。并且本申请还进一步扩展了共振峰的特征，避免了主观性，进一步增强了特征的多样性，从而提高了后续声纹鉴定的准确性。

举例说明共振峰信息的确定方式：在本申请的一个实施例中，例如可以通过使用锯齿波激励基音估计(Sawtooth Waveform Inspired Pitch Estimator，SWIPE)算法计算待鉴定语音数据和待匹配语音数据的基频：

上述公式中的t为时刻，argmax是选择使右边分式值最大化的参数作为等号左边的输出结果，ERBs是等效矩形带宽尺度，其中：

其中，f是Hertz尺度下的频率，f’是等效矩形带宽尺度下的频率，f_max表示计算中使用的最大频率，在本申请的一个实施例中，该频率例如可以为奈奎斯特(Nyquist)频率，取值例如可以为5000Hz，该取值一般可以满足大多数情况。

其中，t是时间，f是Hertz尺度下的频率，f’是等效矩形带宽尺度下的频率，j是虚数单位，K⁺(·)表示K(·)的正数部分，即

K⁺(·)＝max[0,K(·)]

f是Hertz尺度下的频率，ERBs(·)将频率尺度从Hertz转到ERBs，

η(·)将频率尺度从ERBs转到Hertz，

随后对声道进行建模，计算待鉴定语音数据和待匹配语音数据自回归模型的系数。在本申请的一个实施例中，计算过程中不考虑鼻音和摩擦音，语音的声道传递函数简化为全极点模型(Auto-regressive model，AR模型，也称自回归模型)，用于根据过去的p个样点值预测现在或未来的样点值：

其中，p阶自回归模型的系统函数的形式如下：

式中的a_i即为待求的系数。

随后根据求出的系数a_i，计算待鉴定语音数据和待匹配语音数据音素的四个共振峰所在的频率，-3dB带宽和强度，共振峰所在频率表征声道的共振频率，-3db带宽指共振峰能量下降一半所在的频带范围，强度指共振峰频率的能量峰值大小。

梅尔倒谱系数是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。示例地，在本申请的一个实施例中，MFCC频率的提取步骤如下：

对原始语音信号进行预加重、分帧、加窗，窗函数采用窗长为N的Hamming窗：

其中，原始语音信号包括待鉴定语音数据和待匹配语音数据，随后对预处理后的信号进行快速傅立叶变换(Fast Fourier Transformation，FFT)，得到短时频谱，公式如下：

将短时频谱通过梅尔滤波器组进行频率转换并求对数，公式如下：

其中

H_m(k)表示一组三角带通滤波器的频率响应。

将上述计算得到的H_m(k)的值进行离散余弦变换(Discrete CosineTransformation，DCT)即可得到MFCC，公式如下：

Gammatone滤波器组模拟了人耳听觉特性，其中心频率的分布以及每个子带的滤波特性都与人耳基底膜的尖锐滤波特性对应，伽马通倒谱系数(GFCC)的时域如下：

其中n为滤波器阶数，一般取4，

为相位，b为衰减速度，f_c为不同滤波器的中心频率，他们之间的关系为：

不同编号滤波器的f_c可以通过下式计算：

其中f_S为采样率，sf见下式，其中cf为频率下限：

示例地，在本申请的一个实施例中，求GFCC的过程在时域中进行，步骤如下：对原始语音信号进行预加重，其中预加重公式如下：

其中，原始语音信号包括待鉴定语音数据和待匹配语音数据，随后对预加重的信号进行分帧，帧长为L，帧移为K，在时域上将每帧信号通过Gammatone滤波器组，得到第n帧中以f_c为中心频率的第m个滤波器的Gammatone谱，用

示，对窗t∈(nL，nL+K)内的Gammatone谱求平均可得耳蜗谱：

其中γ是频率依赖因子，如果对所有滤波器通道的耳蜗谱进行聚合，可以得到：

将得到耳蜗谱

进行对数变换和离散余弦变换去除相关性

对得到的特征g(n；u)在所有滤波器通道上进行聚合，可以得到GFCC：

g(n)＝[g(n；0),...,g(n；M-1)]^T

感知线性预测使用了三个来自心理声学的概念来模拟人类的听觉，分别是：临界频带谱分辨率、等响度曲线和强度-响度功率定律。并配合自回归全极点模型，可以从语音中提取出有效的听觉谱，示例地，在本申请的一个实施例中，其处理流程如下：

对语音加窗，使用汉明(Hamming)窗，并做FFT得到短时功率谱P(ω)(Hamming窗和FFT前文已经介绍，不再赘述):

p(ω)＝X_R(ω)²+X_I(ω)²

将短时功率谱进行频率转换，由Hz转换成Bark频率刻度，因为临界频带是用Bark频率描述的

其中ω是弧度，单位为(rad/s)；随后通过对Bark频率的临界频带函数和短时功率谱进行离散卷积得到临界频带功率谱，临界频带主要描述了人耳听觉的掩蔽效应：

其中临界频带函数Ψ(Ω)为：

对临界频带功率谱进行等响度预加重：

Γ[Ω(ω)]＝E(ω)Θ[Ω(ω)]

等响度曲线描述了人耳对不同频率声音的响度感知，不同频带斜率变化较大，因此使用分段函数进行模拟，在频率为5000Hz以下时，可用下述公式近似：

在频率为5000Hz以上时，可用下述公式近似：

进行强度-响度功率定律，对幅度进行立方根压缩来模拟听觉中对响度感知的非线性关系，并且减少了频谱幅度的震荡，可以使得全极点模型使用较低的阶数：

对上述得到的频谱Φ(Ω)进行逆傅立叶变换，利用Yule-Walker方程求解自回归模型得到自回归系数作为PLP特征。

可选地，在上述实施例的基础上，本申请实施例还可提供一种声纹鉴定方法，如下结合附图对上述方法中获取目标语音的实现过程进行示例说明。图3为本申请另一实施例提供的一种声纹鉴定方法的流程示意图，预设声纹鉴定模型包括：支持向量机的分类决策函数；如图3所示，S103可包括：

S108：将待输入特征输入支持向量机的分类决策函数，获取输出结果。

其中，在输出结果为1的情况下，则表示待鉴定语音数据与目标语音匹配成功，即待鉴定语音通过鉴定，随后执行S104；在输出结果为-1的情况下，则表示待鉴定语音数据未匹配到一致的语音，即待鉴定语音鉴定未通过鉴定。

其中，本申请将支持向量机引入至声纹鉴定的声纹鉴定中，从而降低了声纹鉴定的主观性，提高了声纹鉴定的准确性。

采用本申请提供的声纹鉴定方法，通过将识别语音数据和语音数据库中的待匹配语音数据进行特征提取，获取多个预设维度的特征作为待输入特征；根据待输入特征和预设声纹鉴定模型，识别并获取语音数据库中与待鉴定语音匹配的目标语音，其中预设声纹鉴定模型包括支持向量机的分类决策函数，将支持向量机这种方法引入至声纹鉴定技术中，降低了声纹鉴定的主观性，并且由于本申请的实施例中，待输入特征包括音频、共振峰信息、梅尔倒谱系数、GFCC、感知线性预测等多个预设维度的特征，将经典频域特征和听觉感知特征相结合，进一步增加了声纹鉴定的鲁棒性，因此相对于根据单一特征维度确定目标语音的方式，本申请根据多个预设维度确定的目标语音的准确度更高，从而提高了声纹鉴定的准确性。

可选地，在上述实施例的基础上，本申请实施例还可提供一种声纹鉴定模型的训练方法，如下结合附图对该方法的实现过程进行示例说明。图4为本申请另一实施例提供的一种声纹鉴定模型的训练方法的流程示意图，如图4所示，该方法可包括：

S201：获取样本数据集。

其中，样本数据集中包括：标注有匹配标识的样本语音，例如可以包括：不同信道、年龄、地域、性别等的语音样本数据。以及各样本语音的多个预设维度的特征。样本数据集中的各样本语音包括的不同特性越多，模型的泛化能力越强。

S202：根据样本数据集、以及预设函数训练获取声纹鉴定模型。

上述方法带来的有益效果与上述图1-图3带来的有益效果相同，本申请在此不再赘述。

可选地，在上述实施例的基础上，本申请实施例还可提供一种声纹鉴定模型的训练方法，如下结合附图对上述方法中获取样本数据集的实现过程进行示例说明。图5为本申请另一实施例提供的一种声纹鉴定模型的训练方法的流程示意图，样本数据包括：正样本数据和负样本数据；如图5所示，S201可包括：

S203：获取同一主体发出的相同样本语音，并标记主体作为匹配标识。

S204：获取同一主体发出的相同样本语音的多个预设维度的特征，作为正样本数据。

示例地，例如可以提取同一主体发出的相同样本语音的音素，并进行配对，获取音素对；提取各音素对的多个预设维度的特征。

S205：获取不同主体发出的相同样本语音，并标记主体作为匹配标识。

S206：获取不同主体发出的相同样本语音的多个预设维度的特征，作为负样本数据。

示例地，例如可以提取不同主体发出的相同样本语音的音素，并进行配对，获取音素对；提取各音素对的多个预设维度的特征。

多个预设维度的特征包括下述一项或多项：基频、共振峰信息、梅尔倒谱系数、伽马通倒谱系数、感知线性预测；其中，共振峰信息包括下述一项或多项：共振峰所在的频率，-3dB带宽和强度。

可选地，在上述实施例的基础上，本申请实施例还可提供一种声纹鉴定模型的训练方法，如下结合附图对上述方法中获取声纹鉴定模型的实现过程进行示例说明。图6为本申请另一实施例提供的一种声纹鉴定模型的训练方法的流程示意图，预设函数为支持向量机的分类决策函数；如图6所示，S202可包括：

S207：将样本数据集带入支持向量机，计算支持向量机的解向量，以及分类决策函数，获取声纹鉴定模型。

示例地，在本申请的一个实施例中，支持向量机(Support Vector Machine，SVM)的训练过程如下：

提取大量带有说话人标记的语音素材，包含不同信道、年龄、地域、性别等。为了提升模型的泛化能力，训练集尽可能包含不同的特性。从语音素材里提取相同的元音音素，对同一音素按照说话人进行归类。同一说话人语音中会多次出现同一音素，不同信道的同一音素也视为同一音素以提升跨信道能力。

从对同一说话人的同一音素组成的样本空间中随机挑选音素配对并提取基频、共振峰、MFCC、GFCC、PLP特征，将所有特征拼接成多维向量x_i，以此作为正样本，y_i标记为+1，表示输入的音素对是同一说话人，通过了同一性判定。从两个不同说话人的同一音素中各随机挑选一个组成音素对并提取特征组成向量x_i，组成负样本，y_i标记为-1，表示输入的音素对是不同说话人，未通过同一性判定。

将正样本和负样本带入非线性支持向量机的解，计算支持向量机的解向量a^*和b^*，并计算分类决策函数。

分类决策函数的具体计算流程如下：

此时求解一个非线性最优化问题：

其中，T为样本合集，(x,y)中的x为音素对，取值是n维实数向量，y为音素对的标记，取值为-1或1，用于表示当前样本对为正样本或是负样本，其中，y取值为1时，表示当前音素对为正样本，y取值为-1时，表示当前音素对为负样本；K(x，x_i)是核函数，是一种用低维特征空间计算代替高维空间中内积的简便算法，也引入了非线性，通常使用高斯核函数。C是惩罚参数，求解以上凸优化问题可以得到超平面的解向量a^*和b^*，结合解向量可以得到非线性支持向量机的分类决策函数：

下述结合附图对本申请所提供的声纹鉴定装置进行解释说明，该声纹鉴定装置可执行上述图1-图3任一声纹鉴定方法，其具体实现以及有益效果参照上述，如下不再赘述。

图7为本申请一实施例提供的声纹鉴定装置的结构示意图，如图7所示，该装置包括：获取模块301、识别模块302和确定模块303，其中：

获取模块301，用于获取待鉴定语音数据；将待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征，其中，待输入特征包括：多个预设维度的特征；

识别模块302，用于根据待输入特征以及预设声纹鉴定模型，识别获取语音数据库中是否存在与待鉴定语音数据匹配的目标语音，其中，预设声纹鉴定模型根据样本数据集训练获取，样本数据集包括：标注有匹配标识的样本语音，以及各样本语音的多个预设维度的特征；

确定模块303，用于若存在，则确定待鉴定语音数据通过鉴定。

图8为本申请另一实施例提供的声纹鉴定装置的结构示意图，如图8所示，该装置还包括：提取模块304，用于从待鉴定语音数据和语音数据库中的待匹配语音数据中提取包含相同关键词的片段；从片段中提取相同的待鉴定音素；

获取模块301，具体用于对待鉴定音素进行特征提取，获取待输入特征。

可选地，获取模块301，具体用于将待输入特征输入支持向量机的分类决策函数，获取输出结果；其中，在所述输出结果为1时，表示所述待鉴定语音数据与所述目标语音匹配成功，即待鉴定语音通过鉴定；在所述输出结果为-1时，则表示所述待鉴定语音数据未匹配到一致的语音，即待鉴定语音鉴定未通过鉴定。

下述结合附图对本申请所提供的声纹鉴定模型训练装置进行解释说明，该声纹鉴定装置可执行上述图4-图6任一声纹鉴定模型的训练方法，其具体实现以及有益效果参照上述，如下不再赘述。

图9为本申请一实施例提供的声纹鉴定模型训练装置的结构示意图，如图9所示，该装置包括：获取模块401，用于获取样本数据集，样本数据集包括：标注有匹配标识的样本语音，以及各样本语音的多个预设维度的特征；根据样本数据集、以及预设函数训练获取声纹鉴定模型。

可选地，样本数据包括：正样本数据和负样本数据；获取模块401，具体用于获取同一主体发出的相同样本语音，并标记主体作为匹配标识；获取同一主体发出的相同样本语音的多个预设维度的特征，作为正样本数据；以及，获取不同主体发出的相同样本语音，并标记主体作为匹配标识；获取不同主体发出的相同样本语音的多个预设维度的特征，作为负样本数据。

图10为本申请一实施例提供的声纹鉴定模型训练装置的结构示意图，如图10所示，该装置还包括：提取模块402，其中：

获取模块401，具体用于提取同一主体发出的相同样本语音的音素，并进行配对，获取音素对。

提取模块402，用于提取各音素对的多个预设维度的特征。

获取模块401，具体用于提取不同主体发出的相同样本语音的音素，并进行配对，获取音素对。

提取模块402，具体用于提取各音素对的多个预设维度的特征。

可选地，预设函数为支持向量机的分类决策函数；获取模块401，具体用于将样本数据集带入支持向量机，计算支持向量机的解向量，以及分类决策函数，获取声纹鉴定模型。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图11为本申请一实施例提供的电子设备的结构示意图，该电子设备可以集成于终端设备或者终端设备的芯片。

该电子设备包括：处理器501、存储介质502和总线503。

处理器501用于存储程序，处理器501调用存储介质502存储的程序，以执行上述图1-图6对应的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如存储介质，该存储介质上存储有计算机程序，包括程序，该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种声纹鉴定方法，其特征在于，所述方法包括：

获取待鉴定语音数据；

若存在，则确定所述待鉴定语音数据通过鉴定。

2.根据权利要求1所述的声纹鉴定方法，其特征在于，所述样本数据包括：正样本数据和负样本数据；

3.根据权利要求1所述的声纹鉴定方法，其特征在于，所述将所述待鉴定语音数据和语音数据库中的待匹配语音数据，分别进行特征提取，获取待输入特征之前，还包括：

从所述片段中提取相同的待鉴定音素；

对所述待鉴定音素进行特征提取，获取待输入特征。

4.根据权利要求1所述的声纹鉴定方法，其特征在于，所述预设声纹鉴定模型包括：支持向量机的分类决策函数；

5.根据权利要求1-4任一项所述的声纹鉴定方法，其特征在于，多个预设维度的特征包括下述一项或多项：基频、共振峰信息、梅尔倒谱系数、伽马通倒谱系数、感知线性预测；

6.一种声纹鉴定模型的训练方法，其特征在于，包括：

7.根据权利要求6所述的声纹鉴定模型的训练方法，其特征在于，所述样本数据包括：正样本数据和负样本数据；

所述获取样本数据集，包括：

8.根据权利要求7所述的声纹鉴定模型的训练方法，其特征在于，所述获取所述同一主体发出的不同样本语音的多个所述预设维度的特征，包括：

提取各所述音素对的多个所述预设维度的特征；

提取各所述音素对的多个所述预设维度的特征。

9.根据权利要求6所述的声纹鉴定模型的训练方法，其特征在于，所述预设函数为支持向量机的分类决策函数；

10.根据权利要求6-9任一项所述的声纹鉴定模型的训练方法，其特征在于，多个预设维度的特征包括下述一项或多项：基频、共振峰信息、梅尔倒谱系数、伽马通倒谱系数、感知线性预测；

11.一种声纹鉴定装置，其特征在于，所述装置包括：获取模块、识别模块和确定模块，其中：

12.一种声纹鉴定模型的训练装置，其特征在于，所述装置包括：获取模块，用于获取样本数据集，所述样本数据集包括：标注有匹配标识的样本语音，以及各所述样本语音的多个预设维度的特征；根据所述样本数据集、以及预设函数训练获取所述声纹鉴定模型。