CN112420056A

CN112420056A - 基于变分自编码器的说话人身份鉴别方法、系统及无人机

Info

Publication number: CN112420056A
Application number: CN202011217078.0A
Authority: CN
Inventors: 乐易欢
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-26

Abstract

本发明公开了一种基于变分自编码器和声纹特征的说话人身份的鉴别方法，包括：向变分自编码器中输入目标说话人的语音声纹特征，输出得到损失值，训练变分自编码器，得到目标说话人的声纹变分自编码器；向该声纹变分自编码器输入待鉴别的语音声纹特征，输出得到损失值；获取该损失值并与预设的鉴别条件比较，若符合预设的鉴别条件，则判断为目标说话人。在训练过程中，不需要对训练数据进行标记，能够降低训练数据处理的工作量，从而减少设备的资源消耗，并可对说话人身份进行鉴别。提供一种鉴别系统，包括：音采集模块、目标人语音声纹模型模块、鉴别模块。具有设备的资源消耗少，在实现说话人身份鉴别的功能的同时，可以部署于前端边缘设备上。

Description

基于变分自编码器的说话人身份鉴别方法、系统及无人机

技术领域

本发明涉及说话人鉴别技术领域。更具体地说，本发明涉及一种基于变分自编码器的说话人身份鉴别方法、系统及无人机。

背景技术

随着语音识别技术的成熟，各类语音识别应用已经逐步走进了我们的生活，出现了越来越多的能够与人类对话的智能设备和智能玩具。比如，目前已经出现了进行语音控制的无人机，能够通过语音实现对无人机的操控。但现有的无人机无法实现对于说话人的区分，因而将能够响应来自任何人的命令，在控制过程中特别容易受到各种无关语音的干扰。

专利201810246497.3公开了一种说话人认证方法，该方法将说话人的语音信息输入3D卷积神经网络架构，通过3D卷积神经网络架构创建并存储说话人的语音模型。当接收到测试语音时，将测试语音信息与存储的说话人语音模型进行比对，计算测试语音与说话人语音模型的相似度，当相似度大于预设值时，则说话人认证成功，当相似度小于预设值时，则说话人认证失败。该专利采用了3D卷积神经网络架构，但由于该网络架构复杂度高，导致计算资源系统要求高，不利于其在边缘设备进行部署和实时处理，上述语音识别方法需要计算性能庞大的硬件和软件设备作支撑，应用严重受到限制，无法在无人机等小型边缘设备中部属应用。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于变分自编码器和声纹特征的说话人身份的鉴别方法，在训练过程中，不需要对训练数据进行标记，能够降低训练数据处理的工作量，从而减少设备的资源消耗，并可对说话人身份进行鉴别。

提供一种基于变分自编码器和声纹特征的说话人身份的鉴别系统，设备的资源消耗少，在实现说话人身份鉴别的功能的同时，可以部署于前端边缘设备上。

为了实现根据本发明的这些目的和其它优点，提供了一种基于变分自编码器和声纹特征的说话人身份的鉴别方法，包括：

向变分自编码器中输入目标说话人的语音声纹特征，输出得到目标说话人的声纹特征的损失值，以目标损失值为基准训练变分自编码器，当输出得到的目标说话人的声纹特征的损失值满足预设的目标损失值时，则得到目标说话人的声纹变分自编码器；

向目标说话人的声纹变分自编码器输入说话人身份待鉴别的语音声纹特征，输出得到说话人身份待鉴别的声纹特征的损失值；

获取说话人身份待鉴别的声纹特征的损失值，并且与预设的鉴别条件比较，若符合预设的鉴别条件，则判断该语音声纹特征对应的说话人身份是目标说话人。

优选的是，语音声纹特征包括但不限于感知线性预测、梅尔倒谱系数和功率正则化倒谱系数的任一项或多项的组合。

优选的是，语音声纹特征的获取方法为：采用获取说话人的语音信息，依次对语音信息进行去噪处理，剔除空白语音信息，得到有效的语音信息，然后对有效的语音信息中提取语音声纹特征。

优选的是，还包括对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段均提取语音声纹特征，将每段语音片段的语音声纹特征输入至目标说话人的声纹变分自编码器，得到多段语音片段的语音声纹特征的损失值；

鉴别条件为：当各段语音片段的语音声纹特征的最小的损失值小于预设的损失值阈值，或者多段语音片段的语音声纹特征的损失值落在预设的区间范围内的占比大于预设的概率阈值时，则判断为符合鉴别条件，即待测说话人身份鉴别是目标说话人。

优选的是，采用变分自编码器的重建损失和KL散度的和计算声纹特征的损失值。

提供一种基于变分自编码器和声纹特征的说话人身份的鉴别系统，包括：

语音采集模块，其用于提取目标说话人的语音声纹特征和说话人身份待鉴别的声纹特征；

目标人语音声纹模型模块，其用于创建和存储目标说话人的声纹变分自编码器，以及用于将语音声纹特征输入至声纹变分自编码器，输出得到对应的声纹特征的损失值；

鉴别模块，其用于获取目标人语音声纹模型模块输出的声纹特征的损失值，并且与预设的鉴别条件比较，若符合预设的鉴别条件，则判断该语音声纹特征对应的说话人身份是目标说话人。

优选的是，所述语音采集模块还用于获取说话人的语音信息，依次对语音信息进行去噪处理，并且剔除空白语音信息，得到有效的语音信息，从有效的语音信息中提取语音声纹特征。

优选的是，所述语音采集模块还用于对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段提取语音声纹特征。

提供一种具有基于变分自编码器和声纹特征的说话人身份的鉴别系统的无人机，语音采集模块、目标人语音声纹模型模块、鉴别模块均设置于所述无人机上。

提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述任一项所述的指令。

本发明至少包括以下有益效果：

第一、采用了变分自编码器构建声纹鉴别器，在训练过程中，将不再需要对训练数据进行标记，能够最大限度的降低对于训练数据处理的工作量。仅需要采集说话人自身的语音信息，无须采集目标人以外的语音信息，即可以进行声纹鉴别模型的训练，进而可以实现对目标人的鉴别。能够最大限度的简化训练数据的采集，并简化鉴别模型的训练。

第二、本发明中的说话人声纹鉴别器采用了基于全连接的变分自编码器，不但能够对应复杂的语音信号的鉴别，同时，还能够尽可能简化了变分自编码器的结构，降低了对计算资源的需求，更加有利于在边缘设备进行部署。同时，本发明采用固定窗口对输入语音进行随机采样，通过复合条件对变分自编码器的输出进行判断，以此取代单一的阈值。与单一阈值法相比，本发明中的方法将具有更广泛的适用性和实用性。

第三、语音数据的预处理将包括语音文件的分割、语音文件去噪、空白语音文件剔除等。语音数据的分割是将初始的目标人语音文件分割成为固定长度的小的语音文件。语音文件去噪是去除语音文件中的背景噪声，以便避免背景噪声对特征提取的干扰。空白语音文件的剔除，则是将分割后产生的空白语音文件剔除出数据集。

第四、能够通过语音实现对无人机的操控。但现有的无人机无法实现对于说话人的区分，因而将能够响应来自任何人的命令，在控制过程中特别容易受到各种无关语音的干扰。而本发明的无人机将能够实现对说话人语音的鉴别，实现对无关人员的语音的屏蔽，避免无关语音对无人机操控的影响。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明的其中一种技术方案的声纹特征鉴别过程示意图；

图2为本发明其中一种技术方案的所述声纹鉴别器中的变分自编码器模型；

图3为本发明其中一种技术方案的所述鉴别系统的框架图；

图4为本发明其中一种技术方案的所述无人机的鉴别过程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1～4所示，本发明提供一种基于变分自编码器和声纹特征的说话人身份的鉴别方法，包括：

在上述技术方案中，整个说话人声纹特征的鉴别过程包括输入语音特征采样，“输入-生成”数据差值计算和结果判断三个环节。可以通过采集目标说话人的语音文件，从语音文件中提取目标说话人的语音声纹特征，语音声纹特征语音声纹特征包括但不限于感知线性预测、梅尔倒谱系数和功率正则化倒谱系数的任一项或多项的组合。然后将目标说话人的语音声纹特征输入至变分自编码器中，训练变分自编码器，得到储存有目标说话人的语音声纹特征模型的变分自编码器，即目标说话人的声纹变分自编码器。变分自编码器是一种无监督式学习深度生成模型。在变分自编码器中，构建了基于深度神经网络的推断网络和生成网络。其中，推断网络用于原始数据的变分推断，生成隐变量的变分概率分布；生成网络则根据生成的隐变量变分概率分布，还原生成原始数据的近似概率分布。

当需要鉴别接收待鉴别身份的语音文件后，也需要提取语音文件的声纹特征，待鉴别身份的语音文件的声纹特征提取的方法可以采用以下方法实现：在输入语音采样环节，考虑到数据生成模型的输入特征的最好为固定值，在本发明中采用了固定的窗口在输入语音文件中进行随机开始位置采样。为保证对输入音频的全面覆盖，须进行N次的采样，通常N≥3次。每次采样均提取一组声纹特征，得到多组声纹特征。然后将多组声纹特征输入到已训练好的目标说话人的声纹变分自编码器中，输出得到说话人身份待鉴别的多组声纹特征的损失值。可以采用变分自编码器的重建损失和KL散度的和计算声纹特征的损失值。

其中，声纹特征的提取将不仅仅局限于特征提取本身，还将涵盖特征提取的各项环节，包括特征降维、规范化等。提取的特征将包括但不限于如下特征组合：FBank/MFCC(梅尔频率倒谱系数)等短时频谱特征及其上述特征的一阶差分和二阶差分的组合。获取特征后，还需要对特征进行规范化处理。

在另一种技术方案中，语音声纹特征包括但不限于感知线性预测、梅尔倒谱系数和功率正则化倒谱系数的任一项或多项的组合。感知线性预测特征非常注重对人耳听觉的模拟，包括巴克刻度、临界频带、等响度曲线和幂函数等，能够实现对人耳听觉感知的建模。梅尔倒谱系数则是语音领域最常用的特征，无论是语音识别还是声纹处理都有广泛的应用。功率正则化倒谱系数则对加性噪声和混响环境下的语音处理具有独特的优势。结合上述三类特征各自的优势，在不同的场景选择不同的特征组合，以便取得更好的处理效果。

在另一种技术方案中，语音声纹特征的获取方法为：采用获取说话人的语音信息，依次对语音信息进行去噪处理，剔除空白语音信息，得到有效的语音信息，然后对有效的语音信息中提取语音声纹特征。为提高语音的声纹特征提取的精准性，还对语音数据进行预处理，预处理将包括语音文件去噪、空白语音窗口剔除等。语音文件去噪是去除语音文件中的背景噪声，以便避免背景噪声对特征提取的干扰。空白语音窗口的剔除，则是用于避免后续可能的误判和干扰。

在另一种技术方案中，还包括对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段均提取语音声纹特征，将每段语音片段的语音声纹特征输入至目标说话人的声纹变分自编码器，得到多段语音片段的语音声纹特征的损失值；

本发明采用固定窗口对输入语音进行随机采样，通过复合条件对声纹变分自编码器的输出进行判断，以此取代单一的阈值。与单一阈值法相比，本发明中的方法将具有更广泛的适用性和实用性。

在结果判断环节，本发明采用多种条件的组合取代单一的阈值，对多组“输入-生成”数据差值进行判断。采用的条件包括但不限于多组“输入-生成”数据差值小于数据差值阈值(阈值1)的个数是否大于规定数量阈值(阈值2)。对于大于规定数量阈值的情况，判断为目标说话人。反之，则判断为非目标说话人。

在另一种技术方案中，采用变分自编码器的重建损失和KL散度的和计算声纹特征的损失值。为确保声纹鉴别器中的变分自编码器的泛化能力，本发明采用重建损失和KL散度(Kullback-Leibler divergence)之和计算上述变分自编码器的损失值，并以此为基础训练和优化变分自编码器，公式如下式所示。

上式的左半部分为重建损失，其中x为输入的声纹特征向量，x^′为变分自编码器的输出向量。上式的右半部分为KL散度，其中N(0，I)和

分别为符合均值为0、方差为单位矩阵I的正态分布和符合均值为μ_z，方差为

的正态分布。

在上述技术方案中，整个说话人身份的鉴别系统包含声纹鉴别器生成(语音采集模块、目标人语音声纹模型模块)和说话人鉴别(语音采集模块、鉴别模块)两个部分。

1、声纹鉴别器生成部分：

声纹鉴别器生成的基础是目标人的语音数据集。该语音数据集将不限于特定的内容，但采集时目标人应当采集按照正常说话习惯进行录音，并尽量接近应用的场景。同时，确保一定的时长，通常情况下时长越多，生成的鉴别器的准确率越高。

语音数据的预处理将包括语音文件的分割、语音文件去噪、空白语音文件剔除等。语音数据的分割是将初始的目标人语音文件分割成为固定长度的小的语音文件。语音文件去噪是去除语音文件中的背景噪声，以便避免背景噪声对特征提取的干扰。空白语音文件的剔除，则是将分割后产生的空白语音文件剔除出数据集。

声纹数据集特征的提取将不仅仅局限于特征提取本身，还将涵盖特征提取的各项环节，包括特征降维、规范化等。提取的特征将包括但不限于如下特征组合：FBank/MFCC(梅尔频率倒谱系数)等短时频谱特征及其上述特征的一阶差分和二阶差分的组合。获取特征后，还需要对特征进行规范化处理。系统将以此为基础，生成目标人声纹的特征向量集。

以上述声纹特征向量集为基础，借助本发明提出的声纹鉴别器，对目标人的声纹特征进行推断和生成，通过训练生成最优的声纹鉴别器。

考虑到声纹鉴别器中的声纹变分自编码器的构建通常会消耗较多的计算资源，声纹鉴别器的生成模块通常可以部署于服务端或云端，但由于其计算资源消耗也不是太多，也可以部属在边缘设备自身上。

如果条件许可，在声纹鉴别过程中获取的语音文件可以上传至声纹鉴别器生成模块用以更新声纹鉴别器中的声纹变分自编码器。

2、说话人鉴别部分

说话人鉴别部分的输入为需要鉴别的语音数据，该语音数据同样不限制内容，采用鉴别器生成部分相同的特征及其预处理方法，获得规范化的输入特征。

采用预先生成的声纹鉴别器对输入声纹特征处理后输出，设置鉴别条件，以辨识是否为目标人的语音。该部分通常资源消耗较小，因而通常情况下可以部署至计算能力有限的前端边缘设备，从而降低部署和应用的成本。

在另一种技术方案中，所述语音采集模块还用于获取说话人的语音信息，依次对语音信息进行去噪处理，并且剔除空白语音信息，得到有效的语音信息，从有效的语音信息中提取语音声纹特征。为提高语音的声纹特征提取的精准性，还对语音数据进行预处理，预处理将包括语音文件去噪、空白语音窗口剔除等。语音文件去噪是去除语音文件中的背景噪声，以便避免背景噪声对特征提取的干扰。空白语音窗口的剔除，则是用于避免后续可能的误判和干扰。

在另一种技术方案中，所述语音采集模块还用于对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段提取语音声纹特征。

具有基于变分自编码器和声纹特征的说话人身份的鉴别系统的无人机，语音采集模块、目标人语音声纹模型模块、鉴别模块均设置于所述无人机上。

随着语音识别技术的成熟，各类语音识别应用已经逐步走进了我们的生活，出现了越来越多的能够与人类对话的智能设备和智能玩具。但相对而言，通过语音辨识一个人的身份的应用在生活中还不是太常见。

目前已经出现了进行语音控制的无人机，能够通过语音实现对无人机的操控。但现有的无人机无法实现对于说话人的区分，因而将能够响应来自任何人的命令，在控制过程中特别容易受到各种无关语音的干扰。

借助本发明的方法，无人机将能够实现对说话人语音的鉴别，实现对无关人员的语音的屏蔽，避免无关语音对无人机操控的影响。具体实现过程中，可以将语音采集模块、目标人语音声纹模型模块、鉴别模块均设置于所述无人机上，进而实现对无人机的控制。

其中，VAE(Variational auto-encoder)模型为目标说话人的声纹变分自编码器，FCLayer代表变分自编码器中的全连接层，μ_z代表隐变量z的均值，σ_z代表隐变量z的方差，z代表隐变量空间。.

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于变分自编码器和声纹特征的说话人身份的鉴别方法，其特征在于，包括：

2.如权利要求1所述的基于变分自编码器和声纹特征的说话人身份的鉴别方法，其特征在于，语音声纹特征包括但不限于感知线性预测、梅尔倒谱系数和功率正则化倒谱系数的任一项或多项的组合。

3.如权利要求1所述的基于变分自编码器和声纹特征的说话人身份的鉴别方法，其特征在于，语音声纹特征的获取方法为：采用获取说话人的语音信息，依次对语音信息进行去噪处理，剔除空白语音信息，得到有效的语音信息，然后对有效的语音信息中提取语音声纹特征。

4.如权利要求1所述的基于变分自编码器和声纹特征的说话人身份的鉴别方法，其特征在于，还包括对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段均提取语音声纹特征，将每段语音片段的语音声纹特征输入至目标说话人的声纹变分自编码器，得到多段语音片段的语音声纹特征的损失值；

5.如权利要求1所述的基于变分自编码器和声纹特征的说话人身份的鉴别方法，其特征在于，采用变分自编码器的重建损失和KL散度的和计算声纹特征的损失值。

6.基于变分自编码器和声纹特征的说话人身份的鉴别系统，其特征在于，包括：

7.如权利要求6所述的基于变分自编码器和声纹特征的说话人身份的鉴别系统，其特征在于，所述语音采集模块还用于获取说话人的语音信息，依次对语音信息进行去噪处理，并且剔除空白语音信息，得到有效的语音信息，从有效的语音信息中提取语音声纹特征。

8.如权利要求7所述的基于声纹特征的语音鉴别系统，其特征在于，所述语音采集模块还用于对说话人身份待鉴别的声纹特征对应的语音信息进行随机采样，具体方法为：对该段语音信息采用多个随机起始位置采集固定长度的语音片段，得到多段语音片段，然后对每段语音片段提取语音声纹特征。

9.具有基于变分自编码器和声纹特征的说话人身份的鉴别系统的无人机，其特征在于，语音采集模块、目标人语音声纹模型模块、鉴别模块均设置于所述无人机上。

10.电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行权利要求1～5任一项所述的指令。