CN112802481A

CN112802481A - 声纹验证方法、声纹识别模型训练方法、装置及设备

Info

Publication number: CN112802481A
Application number: CN202110364831.7A
Authority: CN
Inventors: 周鹏; 邓菁; 吴富章
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-05-14

Abstract

本申请提供一种声纹验证方法、声纹识别模型训练方法、装置及设备，属于声纹识别技术领域。该方法包括：获取待验证语音；将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；根据比对结果，得到待验证语音的验证结果。本申请可以实现基于微小型控制芯片进行声纹验证的过程。

Description

声纹验证方法、声纹识别模型训练方法、装置及设备

技术领域

本申请涉及音频识别处理技术领域，具体而言，涉及一种声纹验证方法、声纹识别模型训练方法、装置及设备。

背景技术

在进行身份验证的场景中，通常需要对不同人的人声进行验证，根据声纹识别的结果来判定验证是否成功。

目前采用的方法主要是借助于时延神经网络、卷积神经网络、循环神经网络等复杂度较高的结构。基于大量复杂神经网络层的组合而实现的声纹识别方法，主要是应用在计算机等设备上进行处理，然而对于微小型的控制芯片而言，由于体积大小的限制，导致现有方法中采用复杂度高的神经网络的声纹识别模型不能正常移植到芯片上，且会产生数值压缩损失等情况，这就导致了现有方法不适用于基于微小型控制芯片进行声纹验证的过程。

发明内容

本申请的目的在于提供一种声纹验证方法、声纹识别模型训练方法、装置及设备，可以实现基于微小型控制芯片进行声纹验证的过程。

本申请的实施例是这样实现的：

本申请实施例的一方面，提供一种声纹验证方法，包括：

获取待验证语音；

将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；

对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；

根据比对结果，得到待验证语音的验证结果。

可选地，将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量之前，还包括：

从训练得到的声纹识别模型中删除各随机失活层以及逻辑回归分类层，得到声纹特征表示模型；

其中，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，包括：

对待验证语音进行滑窗处理，得到多个语音段，各语音段的长度相同；

分别提取各语音段的梅尔频率倒谱系数特征；

将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，并将特征矩阵输入声纹特征表示模型，得到预设数量的声纹特征向量；

对预设数量的声纹特征向量依次进行归一化以及计算平均值处理，得到待验证语音对应的声纹特征向量。

可选地，对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果，包括：

确定待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量的余弦分值；

根据余弦分值确定比对结果。

可选地，对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果之前，还包括：

获取多个注册语音；

分别使用声纹特征表示模型得到各注册语音对应的声纹特征向量；

对各注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到已注册语音对应的声纹特征向量。

本申请实施例的另一方面，提供一种声纹识别模型训练方法，包括：

基于第一语音样本集对初始模型进行训练，得到预训练模型，第一语音样本集为文本无关样本集；

基于第二语音样本集对预训练模型进行训练，得到声纹识别模型，其中，第二语音样本集为文本相关样本集，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，基于第一语音样本集对初始模型进行训练，得到预训练模型，包括：

对第一语音样本进行数据增强处理；

将数据增强后的第一语音样本切割为预设长度的语音数组；

提取每个语音数组的梅尔倒谱系数特征信息；

对多个梅尔倒谱系数特征信息进行拼接处理，得到第一特征样本；

使用第一特征样本训练初始模型，得到预训练模型。

本申请实施例的另一方面，提供一种声纹验证装置，包括：获取模块、输入模块、比对模块、结果模块；

获取模块，用于获取待验证语音；

输入模块，用于将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；

比对模块，用于对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；

结果模块，用于根据比对结果，得到待验证语音的验证结果。

可选地，获取模块，还用于从训练得到的声纹识别模型中删除各随机失活层以及逻辑回归分类层，得到声纹特征表示模型；其中，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，输入模块，具体用于对待验证语音进行滑窗处理，得到多个语音段，各语音段的长度相同；分别提取各语音段的梅尔频率倒谱系数特征；将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，并将特征矩阵输入声纹特征表示模型，得到预设数量的声纹特征向量；对预设数量的声纹特征向量依次进行归一化以及计算平均值处理，得到待验证语音对应的声纹特征向量。

可选地，比对模块，具体用于确定待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量的余弦分值；根据余弦分值确定比对结果。

可选地，获取模块，还用于获取多个注册语音；分别使用声纹特征表示模型得到各注册语音对应的声纹特征向量；对各注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到已注册语音对应的声纹特征向量。

本申请实施例的另一方面，提供一种声纹识别模型训练装置，包括：第一训练模块、第二训练模块；

第一训练模块，用于基于第一语音样本集对初始模型进行训练，得到预训练模型，第一语音样本集为文本无关样本集；

第二训练模块，用于基于第二语音样本对预训练模型进行训练，得到声纹识别模型，其中，第二语音样本集为文本相关样本集，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，第一训练模块，具体用于对第一语音样本进行数据增强处理；将数据增强后的第一语音样本切割为预设长度的语音数组；提取每个语音数组的梅尔倒谱系数特征信息；对多个梅尔倒谱系数特征信息进行拼接处理，得到第一特征样本；使用第一特征样本训练初始模型，得到预训练模型。

本申请实施例的另一方面，提供一种计算机设备，包括：第一存储器、第一处理器，第一存储器中存储有可在第一处理器上运行的计算机程序，第一处理器执行计算机程序时，实现上述声纹验证方法的步骤。

本申请实施例的另一方面，提供一种计算机设备，包括：第二存储器、第二处理器，第二存储器中存储有可在第二处理器上运行的计算机程序，第二处理器执行计算机程序时，实现上述声纹识别模型训练方法的步骤。

本申请实施例的另一方面，提供一种存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述声纹验证方法或者声纹识别模型训练方法的步骤。

本申请实施例的有益效果包括：

本申请实施例提供的声纹验证方法、声纹识别模型训练方法、装置及设备中，可以获取待验证语音；将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量；对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；根据比对结果，得到待验证语音的验证结果。其中，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成，以全连接层为该神经网络的主体，舍弃了现有技术中的时延神经网络、卷积神经网络、循环神经网络等较为复杂的网络结构，以使该声纹特征表示模型的网络结构、计算复杂度、模型大小适配于微小型控制芯片进行声纹验证。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的声纹验证方法的流程示意图一；

图2为本申请实施例提供的声纹识别模型的结构示意图；

图3为本申请实施例提供的声纹验证方法的流程示意图二；

图4为本申请实施例提供的声纹验证方法的流程示意图三；

图5为本申请实施例提供的声纹验证方法的流程示意图四；

图6为本申请实施例提供的声纹验证方法的流程示意图五；

图7为本申请实施例提供的声纹识别模型训练方法的流程示意图一；

图8为本申请实施例提供的声纹识别模型训练方法的流程示意图二；

图9为本申请实施例提供的声纹验证装置的结构示意图；

图10为本申请实施例提供的声纹识别模型训练装置的结构示意图；

图11为本申请实施例提供的计算机设备的结构示意图；

图12为本申请实施例提供的另一计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

随着深度学习的发展，说话人识别技术的研究取得重大突破。当前语音识别技术主要应用于C/S（Client/Server，客户机/服务器）模式或B/S（Browser/Server，浏览器/服务器）模式的互联网产品，却不适用于离线嵌入式产品。从实际产品部署的角度来看，主要有3种形态：（1）基于云端服务部署，这类产品的优点是可以在云端使用较大的神经网络模型，识别性能较高，但缺点也十分明显，包括需要联网环境才能使用，响应慢，以及存在数据泄露隐患等。（2）基于本地服务部署，如本地服务器或主机，这类产品仍旧使用较大模型，最大的缺陷是对设备的性能要求较高，部署成本高，且不够便携。（3）基于离线嵌入式部署，这类产品不需要联网，可充分保障用户数据安全，由于采用小模型，也就具备了部署成本低、耗电低等诸多优点，但使用小模型也给识别的性能带来了巨大的挑战。本申请实施例中提供的声纹验证方法即为基于上述第三类部署方式实现的。

下面来解释本申请实施例中提供的声纹验证方法的具体实施过程。

图1为本申请实施例提供的声纹验证方法的流程示意图一，请参照图1，该声纹验证方法，包括：

S110：获取待验证语音。

可选地，待验证语音可以是用户输入的语音，具体可以是用户说话的录音经过静音抑制处理后得到的语音文件，其中，静音抑制处理可以是从用户输入的语音的声音信号流里识别并消除长时间的静音片段的过程。

S120：将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量。

其中，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成。

可选地，获取待验证语音后，可以将该待验证语音输入至预先训练好的声纹特征表示模型，其中，该声纹特征表示模型可以是基于全连接层作为基础结构分别与批量归一化层以及修正线性单元层连接所构成的神经网络模型，具体神经网络模型的结构如下：

声纹特征表示模型由多个非线性处理层组以及全连接层结构框架所构成，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，用以提取待验证语音对应的声纹特征向量，其中，待验证语音对应的声纹特征向量可以是用于表征待识别语音的识别结果的向量。

S130：对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果。

可选地，确定待验证语音对应的声纹特征向量之后，可以将该待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量进行向量比对，根据比对结果，确定该待验证语音与已注册语音是否为同一用户发出的语音。

其中，已注册语音对应的声纹特征向量可以通过将已注册语音输入至声纹特征表示模型后处理得到。已注册语音可以是在输入待验证语音之前，采集用户语音后得到的。

比对结果可以是待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量的相似度的大小。

S140：根据比对结果，得到待验证语音的验证结果。

可选地，若比对结果所代表的相似度大于或者等于预设阈值，则可以判定待验证语音与已注册语音为同一用户发出的语音；相应地，若比对结果所代表的相似度小于预设阈值，则可以判定待验证语音与已注册语音为不同用户发出的语音。

本申请实施例提供的声纹验证方法中，可以获取待验证语音；将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量；对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；根据比对结果，得到待验证语音的验证结果。其中，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成，以全连接层为该神经网络的主体，舍弃了现有技术中的时延神经网络（TDNN，time delay neural network）、卷积神经网络（CNN，ConvolutionalNeural Networks）、循环神经网络（RNN，Recurrent Neural Network）等较为复杂的网络结构，以使该声纹特征表示模型的网络结构、计算复杂度、模型大小适配于微小型控制芯片进行声纹验证。

从训练得到的声纹识别模型中删除各随机失活层以及逻辑回归分类层，得到声纹特征表示模型。

其中，声纹识别模型可以是训练得到的模型，声纹特征表示模型可以是删除了声纹识别模型中的各随机失活层、部分全连接层以及逻辑回归分类层得到的模型，下面来解释本申请实施例中提供的声纹识别模型的具体结构：

图2为本申请实施例提供的声纹识别模型的结构示意图，请参照图2，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

其中，第二语音样本可以是在对声纹识别模型的训练过程中使用的样本，具体可以是用户输入的语音文件，是一种文本相关样本。

可选地，图2中以六个非线性处理层组为例，六个非线性处理层组依次相互连接，最后一个非线性处理层组依次与第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层连接。

删除各随机失活层以及逻辑回归分类层后，非线性处理层组不变，第一失活处理层组变更为了新的非线性处理层组，第二失活处理层组变为了新的全连接层，全连接层不变，逻辑回归分类层被删除。得到的声纹特征表示模型，其中，声纹特征表示模型的非线性处理层组即为声纹识别模型中的六个非线性处理层组以及第一失活处理层组删除了随机失活层之后的新的非线性处理层组，声纹特征表示模型中的全连接层结构即为第二失活处理层组删除了随机失活层之后的新的全连接层以及全连接层。

其中，在模型训练的过程中，通过随机失活层以及逻辑回归分类层可以使得声纹识别模型具有减少过拟合的能力，也即是说，训练完成的声纹识别模型具有减少过拟合的能力。删除各随机失活层以及逻辑回归分类层后，得到的声纹特征表示模型也具有减少过拟合的能力。

下面来具体解释本申请实施例中提供的声纹验证方法的另一具体实施过程。

图3为本申请实施例提供的声纹验证方法的流程示意图二，请参照图3，将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，包括：

S310：对待验证语音进行滑窗处理，得到多个语音段。

其中，各语音段的长度相同。

可选地，滑窗处理可以是设置预设窗长的窗口，将该窗口在待验证语音的音轨上滑动，每次滑动预设窗移得到一个语音段，每个语音段的长度即为窗长。

例如：可以设置窗长为99帧，窗移为9帧，通过该窗口可以截取待验证语音音轨上的99帧语音段，然后向右或者向左（根据窗口起始的位置来决定）依次移动9帧，每移动9帧，截取当前窗口内99帧的语音段。

其中，若是待验证语音的音轨长度不足，则可以复制该待验证语音，将复制的待验证语音与原始待验证语音合并为新的待验证语音进行语音段提取。

S320：分别提取各语音段的梅尔频率倒谱系数特征。

可选地，得到多个语音段后，可以提取这些语音段的梅尔频率倒谱系数特征（MFCC，Mel-scale Frequency Cepstral Coefficients），梅尔频率是基于人耳听觉特性提出来的，它与赫兹频率成非线性对应关系。梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的赫兹频谱特征。主要用于语音数据特征提取和降低运算维度。

S330：将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，并将特征矩阵输入声纹特征表示模型，得到预设数量的声纹特征向量。

可选地，可以将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，例如，该预设大小可以是n×m，其中，n为梅尔频率倒谱系数特征的数量，m为每个梅尔频率倒谱系数特征的长度。例如，当每个语音段时长为99帧时，对每一帧语音提取13维的梅尔频率倒谱系数，可以得到长度为99×13，也即是1287维的梅尔倒谱系数特征。依次将n个特征长度为m的梅尔频率倒谱系数特征输入至声纹特征表示模型，可以得到等量的声纹特征向量，每个声纹特征向量长度可以根据声纹特征表示模型来决定，以图2提供的声纹识别模型对应的声纹特征表示模型为例，输入长度为1287的梅尔频率倒谱系数特征可以得到长度为256的声纹特征向量。预设数量也即是前述梅尔频率倒谱系数特征的数量n，n的大小由S310中提取的语音段的数量决定。

S340：对预设数量的声纹特征向量依次进行归一化以及计算平均值处理，得到待验证语音对应的声纹特征向量。

可选地，确定预设数量的声纹特征向量之后，可以对这些声纹特征向量进行归一化处理以及计算平均值的处理，得到一个待验证语音对应的声纹特征向量。

示例地，以n=5为例，可以对5个声纹特征向量进行归一化以及平均值计算处理，的得到这5个声纹特征向量的平均声纹特征向量，该平均声纹特征向量即为待验证语音对应的声纹特征向量。

图4为本申请实施例提供的声纹验证方法的流程示意图三，请参照图4，对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果，包括：

S410：确定待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量的余弦分值。

可选地，确定待验证语音对应的声纹特征向量之后，可以确定待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量夹角的余弦分值。具体可以是将待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量进行叠加运算，确定两个声纹特征向量的夹角，进而确定该夹角对应的余弦分值。例如：将待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量分别归一化后，可以求其内积，也即是两个向量的余弦值，求得的余弦值的范围为-1到1之间。

S420：根据余弦分值确定比对结果。

可选地，可以根据余弦分值确定比对结果，具体可以是通过余弦分值确定声纹相似度分数，其中声纹相似度分数用以表征待验证语音与已注册语音之间的相似度。可选地，余弦分值的范围可以是-1到1之间，可以将余弦分值的范围映射到0-100之间，即可以得到声纹相似度分数，相应地，上述S140确定待验证语音的验证结果时，可以将声纹相似度分数与预设的相似度阈值相比较，该相似度阈值可以是根据大量数据所统计得到的，例如可以是69.8571。将满足相似度阈值的声纹相似度分数作为比对结果。具体地，当声纹相似度分数大于等于相似度阈值时，则判定声纹验证通过；当声纹相似度分数小于相似度阈值时，则判定声纹验证失败。

下面来解释本申请实施例中提供的获取已注册语音对应的声纹特征向量的具体实施过程。

图5为本申请实施例提供的声纹验证方法的流程示意图四，请参照图5，对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果之前，还包括：

S510：获取多个注册语音。

可选地，注册语音和待验证语音相似，均可以是用户输入的语音，具体可以是用户说话的录音经过静音抑制处理后得到的语音文件，为了保证注册语音的准确性，获取的注册语音可以是多个，例如：5个。

S520：分别使用声纹特征表示模型得到各注册语音对应的声纹特征向量。

可选地，获取到多个注册语音后，可以将这些注册语音分别输入到声纹特征表示模型中进行处理，得到每个注册语音对应的声纹特征向量，该过程可以与前述S310-S340中获取待验证语音对应的声纹特征向量的过程相类似，在此不加赘述。

S530：对各注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到已注册语音对应的声纹特征向量。

可选地，获取得到多个注册语音对应的声纹特征向量可以采用与S340相类似的方法，对这些注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到已注册语音对应的声纹特征向量。

下面通过具体的实施例来解释上述对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理的具体实施过程。

图6为本申请实施例提供的声纹验证方法的流程示意图五，请参照图6，该方法包括：

S210：对注册语音进行特征提取。

S220：对注册语音的声纹特征向量进行归一均值处理。

S230：对待验证语音进行特征提取。

S240：计算余弦分值。

S250：根据余弦分值确定声纹相似度分数。

S260：将满足预设相似度阈值的声纹相似度分数作为比对结果。

其中，S210-S220即为上述S520-S530的实施过程，S230即为上述S310-S340的实施过程，S240-S260即为上述S410-S420的实施过程，在此不做赘述。

下面来解释本申请实施例中提供的声纹识别模型训练方法的具体实施过程。

图7为本申请实施例提供的声纹识别模型训练方法的流程示意图一，请参照图7，该声纹识别模型训练方法包括：

S610：基于第一语音样本集对初始模型进行训练，得到预训练模型。

其中，第一语音样本集为文本无关样本集。

可选地，第一语音样本集中包括多个第一语音样本，可以将这些第一语音样本输入到初始模型中进行训练得到预训练模型，其中，初始模型、预训练模型的结构可以与前述声纹识别模型相同。

可选地，文本无关样本集指的是用户在获取此类样本时，样本的具体内容不受任何限制。

S620：基于第二语音样本对预训练模型进行训练，得到声纹识别模型。

其中，第二语音样本集为文本相关样本集，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，第二语音样本可以是用户录音输入的，具体可以是采用双麦克风录音板录制而成，录音格式为16kHz、16bit、双通道、wav格式。录音环境为办公室环境，带有一定噪声。

可选地，用户可以在两个不同时间批次的语音采集，用于增加说话人识别的时间跨度信息。其中，每批次包含2个不同的采集点位，分别为（30cm，60cm）和（100cm，50cm），用于增加说话人识别的远近场信息。每个位置需要录制1条长语音，包含10个命令词，如“开门大吉”、“芝麻开门”等，每个命令词可以录制多遍。

可选地，录制的用户可以包括不同年龄、性别的人，用以增加第二语音样本的多样性。

可选地，第二语音样本集中包括多个第二语音样本，第二语音样本可以是对用户录音输入进行标注后的样本，具体标注过程如下：

首先，使用静音抑制处理切分出用户录音输入中的每个命令词，然后使用已有的语音转写引擎，来获取每个命令词的标注信息，同时还可修正静音抑制处理中切分错误问题，通过上述处理步骤可以得到第二语音样本。

可选地，第二语音样本集为文本相关样本集，文本相关样本集指的是用户在获取此类样本时，样本的具体内容需按照指定的文本内容进行录制或者筛选。

可选地，可以将第二语音样本集中的多个第二语音样本分别输入到预训练模型中进行训练，将预训练模型训练至收敛，进而得到了声纹识别模型。

本申请实施例中的提供的声纹识别模型训练方法中，基于第一语音样本集对初始模型进行训练，得到预训练模型；基于第二语音样本对预训练模型进行训练，得到声纹识别模型。依次基于第一语音样本集和第二语音样本集进行训练，采用了迁移学习技术，弥补了第二语音样本集数量不足带来的影响，可以大幅提升预训练模型的性能。其中，通过迁移学习技术可以利用大量的文本无关声纹识别数据集，来获得更好的声纹特征表示能力。经过微调后的文本相关模型，能继承这一表征能力，并在文本相关数据集上进一步学习，以达到更好的识别性能和泛化能力。

下面来解释本申请实施例中提供的声纹识别模型训练方法的另一具体实施过程。

图8为本申请实施例提供的声纹识别模型训练方法的流程示意图二，请参照图8，基于第一语音样本集对初始模型进行训练，得到预训练模型，包括：

S710：对第一语音样本进行数据增强处理。

可选地，数据增强处理可以是在第一语音样本的基础上，增加不同比例的干扰音效，例如：噪声、混响等，其中，噪声的种类可以包括人声、交通工具声、音乐等。

S720：将数据增强后的第一语音样本切割为预设长度的语音数组。

可选地，可以将S710中数据增强处理后的第一语音样本进行静音抑制处理，该静音抑制处理与前述S110中静音抑制处理相类似，在此不加赘述。静音抑制处理后，可以将第一语音样本切割为预设长度的语音数组，例如：可以设置帧长为25ms，帧移为10ms，对于有效时长大于99帧的第一语音样本，随机截取99帧；对于有效时长不足99帧的第一语音样本，重复拼接至99帧。也即是说，对于任意长度的第一语音样本，均切割为长度是99帧(对应实际时长0.99s)的语音数组。

S730：提取每个语音数组的梅尔倒谱系数特征信息。

可选地，可以逐帧提取每个语音数组的梅尔倒谱系数特征信息，以前述长度是99帧的语音数组为例，对于每个语音数组，可以得到99个梅尔倒谱系数特征信息。

S740：对多个梅尔倒谱系数特征信息进行拼接处理，得到第一特征样本。

可选地，获取多个梅尔倒谱系数特征信息之后，可以将这些梅尔倒谱系数特征信息进行拼接处理，对于每个语音数组而言，可以得到一个预设长度的一维向量，将该一维向量进行均值化处理后，可以得到第一特征样本。其中，预设长度可以是1287。

S750：使用第一特征样本训练初始模型，得到预训练模型。

可选地，确定第一特征样本后，可以基于多个第一特征样本构建第一特征样本集，将第一特征样本集中的多个第一特征样本分别输入到样本训练的初始模型中，训练至初始模型收敛，得到预训练模型。

可选地，确定预训练模型后，可以对第二语音样本进行数据增强处理，将数据增强后的第二语音样本切割为预设长度的语音数组，提取每个语音数组的梅尔倒谱系数特征信息，对多个梅尔倒谱系数特征信息进行拼接处理，得到第二特征样本，进而使用第二特征样本训练预训练模型，得到前述声纹识别模型。

其中，第二特征样本与第一特征样本相类似，也可以基于多个第二特征样本构建第二特征样本集，继而将预训练模型训练至收敛，得到声纹识别模型。

下述对用以执行的本申请所提供的声纹验证方法以及声纹识别模型训练方法对应的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图9为本申请实施例提供的声纹验证装置的结构示意图，请参照图9，声纹验证装置包括：获取模块100、输入模块200、比对模块300、结果模块400；

获取模块100，用于获取待验证语音；

输入模块200，用于将待验证语音输入预先训练得到的声纹特征表示模型，得到待验证语音对应的声纹特征向量，声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；

比对模块300，用于对待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；

结果模块400，用于根据比对结果，得到待验证语音的验证结果。

可选地，获取模块100，还用于从训练得到的声纹识别模型中删除各随机失活层以及逻辑回归分类层，得到声纹特征表示模型；其中，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，输入模块200，具体用于对待验证语音进行滑窗处理，得到多个语音段，各语音段的长度相同；分别提取各语音段的梅尔频率倒谱系数特征；将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，并将特征矩阵输入声纹特征表示模型，得到预设数量的声纹特征向量；对预设数量的声纹特征向量依次进行归一化以及计算平均值处理，得到待验证语音对应的声纹特征向量。

可选地，比对模块300，具体用于确定待验证语音对应的声纹特征向量与已注册语音对应的声纹特征向量的余弦分值；根据余弦分值确定比对结果。

可选地，获取模块100，还用于获取多个注册语音；分别使用声纹特征表示模型得到各注册语音对应的声纹特征向量；对各注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到已注册语音对应的声纹特征向量。

图10为本申请实施例提供的声纹识别模型训练装置的结构示意图，请参照图10，声纹识别模型训练装置包括：第一训练模块500、第二训练模块600；

第一训练模块500，用于基于第一语音样本集对初始模型进行训练，得到预训练模型，第一语音样本集为文本无关样本集；

第二训练模块600，用于基于第二语音样本集对预训练模型进行训练，得到声纹识别模型，其中，第二语音样本集为文本相关样本集，声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，随机失活层为删除预设数量的神经元的层，非线性处理层组用于对提取第二语音样本的非线性变化特征，第一失活处理层组和第二失活处理层组用于缓解过拟合，逻辑回归分类层用于对第二语音样本进行分类处理。

可选地，第一训练模块500，具体用于对第一语音样本进行数据增强处理；将数据增强后的第一语音样本切割为预设长度的语音数组；提取每个语音数组的梅尔倒谱系数特征信息；对多个梅尔倒谱系数特征信息进行拼接处理，得到第一特征样本；使用第一特征样本训练初始模型，得到预训练模型。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit，简称ASIC），或，一个或多个微处理器（digital singnal processor，简称DSP），或，一个或者多个现场可编程门阵列（Field Programmable Gate Array，简称FPGA）等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器（CentralProcessing Unit，简称CPU）或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统（system-on-a-chip，简称SOC）的形式实现。

图11为本申请实施例提供的计算机设备的结构示意图，请参照图11，计算机设备包括：第一存储器710、第一处理器720，第一存储器710中存储有可在第一处理器720上运行的计算机程序，第一处理器720执行计算机程序时，实现上述声纹验证方法的步骤。

图12为本申请实施例提供的另一计算机设备的结构示意图，请参照图12，计算机设备包括：第二存储器810、第二处理器820，第二存储器810中存储有可在第二处理器820上运行的计算机程序，第二处理器820执行计算机程序时，实现上述声纹识别模型训练方法的步骤。

本申请实施例的另一方面，还提供一种存储介质，存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述声纹验证方法或者声纹特征表示模型训练方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（英文：processor）执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文：Read-Only Memory，简称：ROM）、随机存取存储器（英文：Random Access Memory，简称：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声纹验证方法，其特征在于，包括：

获取待验证语音；

将所述待验证语音输入预先训练得到的声纹特征表示模型，得到所述待验证语音对应的声纹特征向量，所述声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；

对所述待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；

根据所述比对结果，得到所述待验证语音的验证结果。

2.如权利要求1所述的方法，其特征在于，所述将所述待验证语音输入预先训练得到的声纹特征表示模型，得到所述待验证语音对应的声纹特征向量之前，还包括：

从训练得到的声纹识别模型中删除各随机失活层以及逻辑回归分类层，得到所述声纹特征表示模型；

其中，所述声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个所述非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，所述第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，所述第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，所述随机失活层为删除预设数量的神经元的层，所述非线性处理层组用于对提取第二语音样本的非线性变化特征，所述第一失活处理层组和所述第二失活处理层组用于缓解过拟合，所述逻辑回归分类层用于对所述第二语音样本进行分类处理。

3.如权利要求1或2所述的方法，其特征在于，所述将所述待验证语音输入预先训练得到的声纹特征表示模型，得到所述待验证语音对应的声纹特征向量，包括：

对所述待验证语音进行滑窗处理，得到多个语音段，各语音段的长度相同；

分别提取各语音段的梅尔频率倒谱系数特征；

将各语音段的梅尔频率倒谱系数特征组合为预设大小的特征矩阵，并将所述特征矩阵输入所述声纹特征表示模型，得到预设数量的声纹特征向量；

对所述预设数量的声纹特征向量依次进行归一化以及计算平均值处理，得到所述待验证语音对应的声纹特征向量。

4.如权利要求1或2所述的方法，其特征在于，所述对所述待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果，包括：

确定所述待验证语音对应的声纹特征向量与所述已注册语音对应的声纹特征向量的余弦分值；

根据所述余弦分值确定所述比对结果。

5.如权利要求1或2所述的方法，其特征在于，所述对所述待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果之前，还包括：

获取多个注册语音；

分别使用所述声纹特征表示模型得到各注册语音对应的声纹特征向量；

对各注册语音对应的声纹特征向量依次进行归一化以及计算平均值处理，得到所述已注册语音对应的声纹特征向量。

6.一种声纹识别模型训练方法，其特征在于，包括：

基于第一语音样本集对初始模型进行训练，得到预训练模型，所述第一语音样本集为文本无关样本集；

基于第二语音样本集对所述预训练模型进行训练，得到声纹识别模型，其中，所述第二语音样本集为文本相关样本集，所述声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个所述非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，所述第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，所述第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，所述随机失活层为删除预设数量的神经元的层，所述非线性处理层组用于对提取第二语音样本的非线性变化特征，所述第一失活处理层组和所述第二失活处理层组用于缓解过拟合，所述逻辑回归分类层用于对所述第二语音样本进行分类处理。

7.如权利要求6所述的方法，其特征在于，所述基于第一语音样本集对初始模型进行训练，得到预训练模型，包括：

对所述第一语音样本进行数据增强处理；

将所述数据增强后的第一语音样本切割为预设长度的语音数组；

提取每个所述语音数组的梅尔倒谱系数特征信息；

对多个所述梅尔倒谱系数特征信息进行拼接处理，得到第一特征样本；

使用所述第一特征样本训练所述初始模型，得到所述预训练模型。

8.一种声纹验证装置，其特征在于，包括：获取模块、输入模块、比对模块、结果模块；

所述获取模块，用于获取待验证语音；

所述输入模块，用于将所述待验证语音输入预先训练得到的声纹特征表示模型，得到所述待验证语音对应的声纹特征向量，所述声纹特征表示模型由全连接层、批量归一化层以及修正线性单元层构成；

所述比对模块，用于对所述待验证语音对应的声纹特征向量以及已注册语音对应的声纹特征向量进行比对处理，得到比对结果；

所述结果模块，用于根据所述比对结果，得到所述待验证语音的验证结果。

9.一种声纹识别模型训练装置，其特征在于，包括：第一训练模块、第二训练模块；

所述第一训练模块，用于基于第一语音样本集对初始模型进行训练，得到预训练模型，所述第一语音样本集为文本无关样本集；

所述第二训练模块，用于基于第二语音样本集对所述预训练模型进行训练，得到声纹识别模型，其中，所述第二语音样本集为文本相关样本集，所述声纹识别模型包括：多个非线性处理层组、第一失活处理层组、第二失活处理层组、全连接层以及逻辑回归分类层，每个所述非线性处理层组分别由依次连接的全连接层、批量归一化层以及修正线性单元层构成，所述第一失活处理层组由依次连接的全连接层、批量归一化层、修正线性单元层以及随机失活层构成，所述第二失活处理层组由依次连接的全连接层以及随机失活层构成，其中，所述随机失活层为删除预设数量的神经元的层，所述非线性处理层组用于对提取所述第二语音样本的非线性变化特征，所述第一失活处理层组和所述第二失活处理层组用于缓解过拟合，所述逻辑回归分类层用于对所述第二语音样本进行分类处理。

10.一种计算机设备，其特征在于，包括：第一存储器、第一处理器，所述第一存储器中存储有可在所述第一处理器上运行的计算机程序，所述第一处理器执行所述计算机程序时，实现上述权利要求1至5任一项所述的方法的步骤。

11.一种计算机设备，其特征在于，包括：第二存储器、第二处理器，所述第二存储器中存储有可在所述第二处理器上运行的计算机程序，所述第二处理器执行所述计算机程序时，实现上述权利要求6至7任一项所述的方法的步骤。

12.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至7中任一项所述方法的步骤。