CN108766445A

CN108766445A - 声纹识别方法及系统

Info

Publication number: CN108766445A
Application number: CN201810539335.9A
Authority: CN
Inventors: 俞凯; 黄子砾; 王帅
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-06

Abstract

本发明实施例提供一种声纹识别方法。该方法包括：通过VAD语音活动检测提取训练语料集中有声帧的特征；基于A‑softmax损失函数扩大有声帧的特征的类间角边界，限制有声帧的特征的类内角度，以训练神经网络模型；根据训练后的神经网络模型确定待注册目标的深度声纹特征，将待注册目标以及深度声纹特征在声纹数据库中注册；根据训练后的神经网络模型确定待识别目标的深度声纹特征；通过声纹数据库中各深度声纹特征与待识别目标的深度声纹特征的相似度，进行识别。本发明实施例还提供一种声纹识别系统。本发明实施例的声纹识别方法使用A‑softmax损失函数限制了类内角度，使得不同类对应的嵌入向量之间有明显的角度边界，提高了区分性，使得识别准确率更高。

Description

声纹识别方法及系统

技术领域

本发明涉及声纹识别领域，尤其涉及一种声纹识别方法及系统。

背景技术

声纹识别是指通过说话者提供的语音段识别或验证其身份。根据口头内容的词汇约束，它可以分为两类，依赖于文本的词汇约束和不依赖于文本的词汇约束。

针对于声纹识别，通常使用基于i-vector的声纹识别的识别方法，或者端到端声纹识别方法。其中，i-vector PLDA(Probabilistic Linear Discriminant Analysis，概率线性判别分析)是声纹识别领域较为先进的算法。在i-vector框架下，通过UBM(UniformBackground Model，通用背景模型)得到的超向量M被建模为M＝m+Tw。其中，m是说话人、会话无关的超向量，T是捕捉说话人、会话变化的低秩矩阵，i-vector是w的后验平均。提取i-vector后，通常利用PLDA来补偿信道的影响。端到端声纹识别系统直接利用神经网络学习说话人的嵌入表示，使原有的声纹识别流程大大简化。现有的端到端声纹识别系统主要基于传统的损失函数例如交叉熵损失函数(Cross Entropy Loss)和三元组损失函数(Triplet Loss)。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

I-vector本身的性质决定了它需要较多的帧数来保证其准确性，所以i-vector在短时数据上表现不佳。基于交叉熵损失函数的端到端系统声纹识别方法没有对类内的差异进行限制，其训练得到的说话人表示向量的区分性不够。由于说话人确认是一个开集问题(open set problem)(也就是说一般训练集和测试集的说话人是没有交集的)，说话人表示向量的区分性不够是非常致命的。基于三元组损失函数的端到端系统训练时间很长是由于训练样本在组织三元组时被大大扩充，而且基于三元组损失函数的神经网络达到完全收敛速度比较慢。

发明内容

为了至少解决现有技术中i-vector在短时数据上表现不佳，端到端声纹识别方法训练得到的说话人表示向量的区分性不够，三元组损失函数的神经网络达到完全收敛速度比较慢的问题，申请人意外的发现，使用图像领域比较流行的A-softmax方法，扩大说话人声音的类间角边界以及限制其类内角度。可以使得同一说话人表示之间的角度小，使得不同类对应的嵌入向量之间有明显的角度边界，使得其在短时数据中也可以使用，并且得到的说话人嵌入表示区分性更高。

第一方面，本发明实施例提供一种声纹识别方法，包括：

通过VAD语音活动检测提取训练语料集中有声帧的特征；

基于A-softmax损失函数扩大所述有声帧的特征的类间角边界，限制所述有声帧的特征的类内角度，以训练神经网络模型；

根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征，将所述待注册目标以及所述待注册目标的深度声纹特征在声纹数据库中注册；

根据训练后的神经网络模型提取待识别目标的语音数据的特征维度向量，确定所述待识别目标的深度声纹特征；

通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度，确定所述待识别目标是否为已注册目标。

第二方面，本发明实施例提供一种声纹识别系统，包括：

特征提取程序模块，用于通过VAD语音活动检测提取训练语料集中有声帧的特征；

类间角边界扩大程序模块，用于基于A-softmax损失函数扩大所述有声帧的特征的类间角边界，限制所述有声帧的特征的类内角度，以训练神经网络模型；

注册程序模块，用于根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征，将所述待注册目标以及所述待注册目标的深度声纹特征在声纹数据库中注册；

声纹特征确定程序模块，用于根据训练后的神经网络模型提取待识别目标的语音数据的特征维度向量，确定所述待识别目标的深度声纹特征；

识别程序模块，用于通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度，确定所述待识别目标是否为已注册目标。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的声纹识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的声纹识别方法的步骤。

本发明实施例的有益效果在于：通过使用A-softmax损失函数限制了类内角度，使得不同类对应的嵌入向量之间有明显的角度边界，提高了区分性，使得语音识别的准确率更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种声纹识别方法的流程图；

图2是本发明一实施例提供的一种声纹识别方法的A-softmax损失示意图；

图3是本发明一实施例提供的一种声纹识别方法的不同说话者嵌入的错误率比较的列表数据图；

图4是本发明一实施例提供的一种声纹识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种声纹识别方法的流程图，包括如下步骤：

S11：通过VAD语音活动检测提取训练语料集中有声帧的特征；

S12：基于A-softmax损失函数扩大所述有声帧的特征的类间角边界，限制所述有声帧的特征的类内角度，以训练神经网络模型；

S13：根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征，将所述待注册目标以及所述待注册目标的深度声纹特征在声纹数据库中注册；

S14：根据训练后的神经网络模型提取待识别目标的语音数据的特征维度向量，确定所述待识别目标的深度声纹特征；

S15：通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度，确定所述待识别目标是否为已注册目标。

在本实施方式中，A-softmax首先在人脸识别任务中提出，该任务与说话人识别任务共享许多属性。A-softmax损失修改softmax损失函数以学习有角度地区分的嵌入，并且增加可控参数m，以对学习到的嵌入的讲话者内变化构成约束。

对于步骤S11，根据训练语料集的情况对训练数据进行预处理，包括对训练语料集中的长句子进行切分，例如将超过5秒的训练语句切成3-5秒的语音短片段。

还包括利用基于能量或神经网络的VAD(Voice Activity Detection，语音活动检测)，来检测有声帧，将静音帧筛除，筛选有声帧，并将筛选出的有声帧的特征进行提取。

对于步骤S12，基于A-softmax损失函数扩大所述有声帧的特征的类间角边界，以及限制所述有声帧的特征的类内角度。

交叉熵损失函数的定义式为：

上述公式中，xi表示第i个样本的嵌入表示，yi表示第i个样本对应的类标签，N是总体的样本数目，W是最后一个全连接层的参数，b是偏移量。A-softmax损失函数(又称为角度softmax损失函数)的定义式为：

上述公式中，xi表示第i个样本的嵌入表示，yi表示第i个样本对应的类标签。N是总体的样本数目，\theta_{j,i}表示样本i与类别j之间的夹角。M是一个控制类内角度大小的变量，通常取大于等于2的正整数。A-softmax损失函数对样本被正确分类提出了更高的要求，也就使得了同一说话人表示之间的角度较小。在经过A-softmax损失函数训练后，训练神经网络模型，在训练中，可以采用卷积神经网络结构，利用在交叉验证集上的准确率挑选性能较优的模型。

对于步骤S13，根据在步骤S12训练后的神经网络模型来提取待注册目标的语音数据的特征维度向量，当目标用户在注册时，说出一段和/或几段语句，基于所述目标用户说出的这一段和/或几段语句来分析所述目标的特征维度向量，从而确定所述目标的深度声纹特征，从而在确定所述目标的深度声纹特征后，将所述目标以及所述目标的深度声纹特征在声纹数据库中进行注册。

对于步骤S14，当搭载所述声纹识别方法的电子设备使用时，需要验证目标的身份，从而，接收待识别目标的语句，根据在步骤S12训练后的神经网络模型提取待识别目标的语音数据的特征维度向量，从而确定所述待识别目标的深度声纹特征。

对于步骤S15，通过在步骤S13中不断注册声纹的声纹数据库中的各深度声纹特征与所述步骤S14中确定的待识别目标的深度声纹特征的相似度，确定所述待识别目标是否为已注册目标。

通过该实施方法可以看出，A-softmax损失函数和交叉熵损失函数类似，其本身训练样本的时间复杂度还是O(N)，训练时间较低，A-softmax损失函数显式地限制了类内角度，使得不同类对应的嵌入向量之间有明显的角度边界。提高了区分性，使得语音识别的准确率更高。

作为一种实施方式，在本实施例中，所述根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征包括：

当所述待注册目标至少有两条语音数据时，通过对各语音数据的特征维度向量取平均，以确定所述待识别目标的深度声纹特征。

在本实施方式中，当待注册目标用户至少输入了至少两条语音数据时，经过训练后的神经网络可以提取出至少两条语音数据的特征维度向量，如果直接将其特征维度向量来确定目标的深度声纹特征可能会导致相似的特征维度向量大量出现，占用空间。

同时，若在识别的时候将每一条特征维度向量确定的深度声纹特征一一进行比较，这样也会浪费大量时间。从而对各语音数据的特征维度向量取平均，将平均后的特征维度向量来确定待识别目标用户的深度声纹特征。

通过该实施方法可以看出，通过对至少两条语音数据的特征维度向量取平均来确定待识别目标的深度声纹特征，减轻了存储空间，同时提高了识别速度。

作为一种实施方式，在本实施例中，所述通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度包括：

分别确定所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的余弦距离；

根据所述余弦距离确定所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度。

在本实施方式中，较为常用的相似度确定方法就是将进行对比的两个向量，计算这两个向量的余弦值，从而确定相似度情况。

通过该实施方法可以看出，通过这种方法确定相似度情况，可以准确快速的确定各深度声纹特征与所述待识别目标的深度声纹特征的相似度。

作为一种实施方式，在本实施例中，所述待注册目标的语音数据与所述待识别目标的语音数据的文本内容无关。

在本实施方式中，在注册阶段目标用户所输入的语音，与识别时待识别目标用户输入的语音无关，上述注册识别中，提取的是目标用户的声纹特征，而不是固定某句话的语音，所以，在识别的时候，待识别用户可以说任何的语句。

通过该实施方法可以看出，待注册目标的语音数据与待识别目标的语音数据的文本内容无关，提高了识别的使用效果，不需要待识别用户输入特定的语句，使识别更加灵活自由，提高了识别体验。

下面对所述方案进行整体说明：A-softmax的思想来自于：

softmax监督的嵌入在角空间具有良好的分离特性。如果进一步限制softmax分类损失函数：

对其进行进一步限制，将||W_j||＝1且b_j＝0，softmax函数变为修改的softmax损失函数：

其中，θ_j,i是W_j和xi之间的角度。这个公式表明样本属于一个类j的概率只取决于他们之间的角度θ_j,i。训练过程旨在最小化样本与相应类别之间的角度并扩大与其他类别的角度。

与softmax和修改的softmax损耗不同，它们只是将角度空间中的样本分开，而A-softmax损耗旨在扩大类之间的角边界。传统softmax函数将样本i分类到相应的类yi中，如果并修改softmax损失需要 A-softmax损失使得将样本分类到相应的类更加严格。

它需要其中m是一个整数，并且m≥2。通过直接将这个想法表达为修改后的softmax损失，推导出：

其中如果用单调函数替代，则可以消除该约束：

和k∈[0，m-1]，m≥1是一个整数，用于控制角边界的代销。(当m＝1时，A-softmax损耗称为修改的softmax损耗)。因此，A-softmax损耗被表达为：

为了保证神经网络的收敛性，引入了softmax：

单调函数ψ(θ_yi,i)实际上定义为ψ(θ_yi,i)＝k是一个动态参数。即控制两个损失的权重，一开始设定为1500，然后逐渐减少到5。如图2所示，A-softmax损耗大大增加了深度特征的角边缘。

如上图所示，一方面A-softmax扩大了不懂类别嵌入之间的角边界，另一方面，来自同一个扬声器的嵌入迫使它们接近它们相应的W向量。尽管距离测量有所不同，但这种效果与softmax与中心损失的结合非常相似。基于A-softmax的说话人验证系统的体系结构与softmax的体系结构类似，但训练标准不同。

为了进行验证，评估所提出的方法在由NIST SRE语料库生成的短期数据集上的表现。这种与短文本无关的任务对说话者验证来说更具有挑战性。在基于能量的VAD移除静音帧之后，话语被切成3-5秒的短片段。最终的训练集包含4000个扬声器，每个扬声器有40个短语。注册组和测试组从NIST SRE 2010中按照类似的程序选择。有300个模型(150名男性和150名女性)在注册组中，每个模型注册5个话语。该测试集由来自注册组中300个模型的4500个话语组成。实验列表中有392660个实验，每个模型平均15个阳型样本和1294个阴性样本。不存在跨性别实验。

基准系统是基于Kaldi SRE10V1配方的标准i矢量系统。其具有30ms帧长的20维MFCC(Mel-frequency Cepstrum Coefficients，梅尔频率倒谱系数)被提取为前段特征，然后将其扩展到具有增量和加速度的60维。UBM是一个2048分量全协方差GMM(GaussianMixed Model，高斯混合模型)，提取的i向量的维数是400。PLDA是一个得分后端。

基于A-softmax的softmax，triplet损失，基于A-softmax的系统采用VGG型CNN架构的神经网络架构，具有4个卷积层，2个最大池层和一个完全连接层以产生帧嵌入。帧级特征被平均为经由时间池层的话语嵌入。所有实验中的嵌入维度都设置为400。

对于基于softmax的系统，将其初始学习率设置为0.01，并根据验证集的精确度进行调整。对于基于A-softmax的系统，为了使训练更容易和更稳定，我们使用预训练的softmax模型初始化参数。将36维Fbank特征提取为所有三个系统的前端特征，并且在每一侧扩展8个帧以形成每帧的17*36时频特征映射。

基于A-softmax的嵌入在上述的数据集上进行评估，并与其它说话者嵌入进行比较，如图3所示，基于softmax的嵌入实现了与i-vector PLDA框架相媲美的性能，该框架展现了话语级训练的有效性。通过仔细的三元组设计和“艰难的实验选择”技巧，基于欧几里得边际的三元组损失策略由于i向量基线。A-softmax损耗可以获得最好的结果，它比i-vector PLDA和传统的softmax分别高出26.0％和25.3％。

直观上，超参数m控制角边界的大小。较大的m对深度嵌入的分布给出了更严格的约束并且实施了更大的类之间的灰色边缘。然而，更大的m也会使神经网络难以收敛。在实验中，与传统的softmax相比，改进的softmax损失(m＝1)具有非常有限的性能增益，而当m≥2时可以实现超过20％的相对改进。当m＝3是获得最佳结果，优于i-vector PLDA框架。

在本实施例中，研究了角softmax(A-softmax)在说话人验证系统中的应用。受传统softmax学习的角度分布启发，A-softmax扩大了类间的角边界，并将角度距离方面的嵌入限制在其对应的中心附近。研究了两种基于A-softmax损失框架。所提出的方法在SRE语料生成的短时文本独立说话者验证数据集上进行评估。A-softmax在两个框架中均实现了显著的性能提升。

如图4所示为本发明一实施例提供的一种声纹识别系统的结构示意图，本实施例的技术方案可适用于对设备的声纹识别方法，该系统可执行上述任意实施例所述的声纹识别方法，并配置在终端中。

本实施例提供的一种声纹识别系统包括：特征提取程序模块11，类间角边界扩大程序模块12，注册程序模块13，声纹特征确定程序模块14和识别程序模块15。

其中，特征提取程序模块11用于通过VAD语音活动检测提取训练语料集中有声帧的特征；类间角边界扩大程序模块12用于基于A-softmax损失函数扩大所述有声帧的特征的类间角边界，限制所述有声帧的特征的类内角度，以训练神经网络模型；注册程序模块13用于根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征，将所述待注册目标以及所述待注册目标的深度声纹特征在声纹数据库中注册；声纹特征确定程序模块14用于根据训练后的神经网络模型提取待识别目标的语音数据的特征维度向量，确定所述待识别目标的深度声纹特征；识别程序模块15用于通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度，确定所述待识别目标是否为已注册目标。

进一步地，所述注册程序模块用于：

进一步地，所述识别程序模块用于：

进一步地，所述待注册目标的语音数据与所述待识别目标的语音数据的文本内容无关。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的声纹识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

通过VAD语音活动检测提取训练语料集中有声帧的特征；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的声纹识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的声纹识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音交互功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹识别方法，包括：

通过VAD语音活动检测提取训练语料集中有声帧的特征；

2.根据权利要求1所述的方法，其中，所述根据训练后的神经网络模型提取待注册目标的语音数据的特征维度向量，确定所述待注册目标的深度声纹特征包括：

3.根据权利要求1所述的方法，其中，所述通过所述声纹数据库中各深度声纹特征与所述待识别目标的深度声纹特征的相似度包括：

4.根据权利要求1所述的方法，其中，所述待注册目标的语音数据与所述待识别目标的语音数据的文本内容无关。

5.一种声纹识别系统，包括：

6.根据权利要求5所述的系统，其中，所述注册程序模块用于：

7.根据权利要求5所述的系统，其中，所述识别程序模块用于：

8.根据权利要求5所述的系统，其中，所述待注册目标的语音数据与所述待识别目标的语音数据的文本内容无关。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。