CN110222841A

CN110222841A - 基于间距损失函数的神经网络训练方法和装置

Info

Publication number: CN110222841A
Application number: CN201910521431.5A
Authority: CN
Inventors: 俞凯; 钱彦旻; 项煦; 王帅; 黄厚军
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-10

Abstract

本发明公开基于间距损失函数的神经网络训练方法和装置，其中，一种基于间距损失函数的神经网络训练方法，包括：对待训练音频进行预处理并输入至神经网络中，待训练音频具有预设的说话人类别的真实分布；输出待训练音频的说话人类别概率分布；使用归一化处理后的Softmax间距损失函数计算说话人类别的概率分布与真实分布的差距；使用小批量随机梯度下降方法更新神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；当达到预设标准时，训练完成并固定神经网络的参数。本申请实施例通过使用一个归一化处理后的鼓励“区分性”的损失函数，可以使得识别性能更好。

Description

基于间距损失函数的神经网络训练方法和装置

技术领域

本发明属于神经网络训练技术领域，尤其涉及基于间距损失函数的神经网络训练方法和装置。

背景技术

相关技术中，用于身份验证的说话人识别装置，如智能音箱或者手机上使用的个人助理的通过声音鉴别使用者的功能。产品如华为音箱、谷歌助理、苹果Siri等。

目前的神经网络说话人识别系统，一般可以分为传统的基于i-vector的系统和基于神经网络的系统。此处只对基于神经网络的系统进行讨论。该系统会首先使用给定的数据(已知的说话人列表及每个说话人对应的音频文件)训练一个神经网络说话人分类器。

训练的过程为，给出一条音频，经过预处理后输入给神经网络，神经网络输出说话人类别(如果训练数据中有100个说话人，则有100个类别)的概率分布(如0.01,0.01,0.01,...，所有100个概率的和为1.0)。而说话人类别的真实分布为单点分布(因为该音频只对应一个说话人，例如，该条音频对应第三个说话人类别，则真实分布为0.0,0.0,1.0,0.0,...，即第三个说话人类别概率为1.0，其他类别概率为0.0)。这两个分布的差距由损失函数进行计算。绝大多数情况下，其损失函数为softmax层输出的概率分布和正确标注分布的交叉熵(CE，cross entropy)。

训练的过程使用小批量(mini-batch)随机梯度下降(SGD，Stochastic gradientdescent)方法，更新神经网络的参数，并逐渐减小所有训练样本的这两个分布的差距。当达到某个设定的标准后，训练完成，神经网络的参数固定下来。此时，一条预处理之后的音频输入到神经网络，会计算出说话人类别的概率分布，取概率最大的类别为神经网络对这条音频对应的的说话人的预测值。(如概率最大的是第99类，那么神经网络预测这条音频属于第99个说话人)。

训练完成后，神经网络的分类层不再需要，只需要提取出神经网络中间某层的输出。不同音频之间的相似性，使用它们对应的神经网络中间层输出进行比对或者后处理。对于一段音频，首先将其预处理为语音特征，再将语音特征作为神经网络的输入，神经网络中间层的输出作为提取出的高层信息，用到后续的说话人分类或者鉴别中。

发明人在实现本申请的过程中发现，现有的方案至少存在以下缺陷：

已有的训练方法，大多数都没有考虑到使用一个鼓励“区分性”的损失函数，如果用于比对的说话人没有出现在训练数据中，那么提取出的高层信息容易受到环境噪音、录制设备多样性的影响，进而影响到识别性能。

发明内容

本发明实施例提供一种基于间距损失函数的神经网络训练方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种基于间距损失函数的神经网络训练方法，包括：对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；输出所述待训练音频的说话人类别概率分布；使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；当达到预设标准时，训练完成并固定所述神经网络的参数。

第二方面，本发明实施例提供一种基于间距损失函数的神经网络训练装置，包括：输入模块，配置为对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；输出模块，配置为输出所述待训练音频的说话人类别概率分布；归一化处理模块，配置为使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；参数更新模块，配置为使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；达标固定模块，配置为当达到预设标准时，训练完成并固定所述神经网络的参数。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的基于间距损失函数的神经网络训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的基于间距损失函数的神经网络训练方法的步骤。

本申请的方法和装置提供了三种不同的不仅做分类也显式地对类间间距进行了约束的基于间距的损失函数，被引入到深度说话人嵌入的学习中。可以证明的是，间距是获得更具有区分性的说话人嵌入的关键。本申请中提出的基于间距损失函数的神经网络说话人识别系统的训练方法，将类别“区分性”引入了损失函数，从而直接将“区分性”约束作为训练约束，从而更好地提高后续的识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于间距损失函数的神经网络训练方法的流程图；

图2为本发明一实施例提供的一种基于间距损失函数的神经网络训练装置的框图；

图3是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的基于间距损失函数的神经网络训练方法一实施例的流程图，本实施例的基于间距损失函数的神经网络训练方法可以适用于具备神经网络语言模型的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的需要对神经网络进行训练的智能终端等。

如图1所示，在步骤101中，对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；

在步骤102中，输出所述待训练音频的说话人类别概率分布；

在步骤103中，使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；

在步骤104中，使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；

在步骤105中，当达到预设标准时，训练完成并固定所述神经网络的参数。

在本实施例中，对于步骤101，基于间距损失函数的神经网络训练装置首先对待训练音频进行预处理然后输入至待训练的神经网络中，其中，该待训练音频的具有预设的说话人类别的真实分布，即对于训练装置而言，真实说话人所在的类别是已知的，而对于神经网络而言则是未知的。之后，对于步骤102，基于间距损失函数的神经网络训练装置获取待训练的神经网络输出的该待训练音频的说话人类别的概率分布。之后，对于步骤103，使用归一化处理后的Softmax间距损失函数计算说话人类别的概率分布与真实分布的差距。然后，对于步骤104，通过使用小批量随机梯度下降方法更新神经网络的参数以使得概率分布越来越接近真实分布，从而预设的准确性更高。最后，对于步骤105，当达到预设的标准之后，则训练完成，可以固定神经网络的参数从而获得了一个训练好的神经网络。

本实施例的方法通过使用归一化处理后的Softmax间距损失函数这种鼓励“区分性”的损失函数，从而直接将“区分性”约束作为训练约束，从而更好地提高后续的识别性能。

在一些可选的实施例中，所述归一化处理后的Softmax间距损失函数为A-Softmax损失函数，计算公式如下：

其中和m≥1是控制角度间隔大小的整数，N是批量大小，c是类的数量，表示样本到投影层的第i个输入，yi是相应的标签索引。指的是d维的实数空间，这里x属于Rd意思就是x是一个d维的实数向量。其中,

在一些可选的实施例中，所述归一化处理后的Softmax间距损失函数为AM-Softmax损失函数，计算公式如下：

其中和s是一个比例因子，用于确保在训练期间梯度不会太小，

在一些可选的实施例中，所述归一化处理后的Softmax间距损失函数为AAM-Softmax损失函数，计算公式如下：

其中，

在一些可选的实施例中，所述对待训练音频进行预处理包括：为所述待训练音频增加不同类型的噪声以增加待训练音频的数量。

在一些可选的实施例中，所述对待训练音频进行预处理还包括：采用基于能量的语音活性检测器对待训练音频进行处理以滤除非语音帧。

在一些可选的实施例中，所述预设标准为分类的准确率不再上升。

下面通过对发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，现有技术中存在的缺陷主要是由于以下原因导致的：

若用于训练神经网络说话人分类器的损失函数为softmax层输出的概率分布和正确标注分布的交叉熵(CE)，则该损失函数只考虑分类是否错误，而不能鼓励各个类的“区分性”，即：1.同一类别的样本之间的距离是否足够小，2.不同类别之间的样本之间的距离是否足够大。这种“区分性”对于说话人识别至关重要，因为音频中除了代表说话人身份的语音信息外，还会携带信道(手机录音，话筒录音)相关信息或者噪音等，如果“区分性”足够好，那么这些影响识别性能的无用的因素可以被抑制，识别系统的性能会有显著提升。

本领域技术人员为了解决现有技术中存在的缺陷，可能会采用以下方案：通常会使用概率线性判别分析(PLDA，probabilistic linear discriminant analysis)，这种方法是对高层信息的后处理。本行业的从业人员，未能考虑到损失函数的重要性，或者未能尝试或者采取合适的损失函数，进而考虑到本方案。

本申请的方案提出的基于间距损失函数的神经网络说话人识别系统的训练方法，将类别“区分性”引入了损失函数，从而直接将“区分性”约束作为训练约束。

本申请的方案如下：

具体来说，在训练神经网络说话人分类器的过程中，对于输入音频特征，神经网络输出的概率分布会针对音频对应的正确说话人类别添加一个“间距”约束。相似技术中，对于给定音频，神经网络会输出概率分布(如0.01,0.02,0.03,0.04,0.05,...)，真实说话人为第三个类别(分布为0.0,0.0,1.0,0.0,...)，损失函数会计算两个分布之间的差距，并用SGD更新神经网络的参数。

本申请的方案则对于输出概率分布中真实说话人的类别概率使用了一个显式间距进行约束，，即降低输出概率分布中真实说话人类别的概率(减去m,m>0)，并将所有概率重新规一化(乘以一个数值z，使所有概率和仍然为1.0)，

(0.01*z,0.02*z,(0.03-m)*z,0.04*z,0.05*z,…)

损失函数会计算这个处理后的输出分布和真实分布之间的差距，并用SGD更新神经网络的参数。

以下通过介绍发明人实现本申请的过程和所进行的实验及相关的实验数据，以使本领域技术人员更好地理解本申请的方案。

从深度神经网络提取的说话人嵌入能取得超过传统方法如i-vector的性能。大多数情况下，神经网络说话人分类器使用带softmax的交叉熵损失函数训练。然而，这种损失函数没有显式地提倡类间可分性和类内紧致性。从而对于说话人任务来说，这种嵌入不是最优的。在本申请的实施例中，三种不同的不仅做分类也显式地对类间间距进行了约束的基于间距的损失函数，被引入到深度说话人嵌入的学习中。可以证明的是，间距是获得更具有区分性的说话人嵌入的关键。实验在两个公开的文本无关数据集：VoxCeleb1和Speakerin The Wild(SITW)上展开。本申请实施例提出的方法可以取得最先进的性能，与带Softmax的交叉熵损失函数训练的基线相比，有25～30％的等错误率下降。在VoxCeleb1和SITW上，取得的等错误率分别为2.238％和2.761％。

引言

说话人识别是识别或确认给定其语音段的人的身份的过程。传统的说话人识别系统包含两个阶段：第一阶段称为登记阶段，其中登记的说话人的声音被转换为参考说话人模型，而第二阶段是测试阶段，其中识别决定是基于登记的。模型和输入测试语音。如果要求两个阶段中使用的语音内容相同，则说话人识别任务是文本相关的，否则，它是文本无关的。

在当前的说话人识别系统中，使用低维固定长度矢量或说话人嵌入已成为主要的说话人建模方法。多年来，结合概率线性判别分析(PLDA)，i-vector一直是用于文本无关说话人识别的最先进系统。最近，随着深度神经网络的发展以及将深度神经网络融入语音识别的巨大成功的启发，说话人识别界的研究人员也研究了DNN在说话人建模中的应用。此外，还证明了可以通过训练DNN说话人分类器并从中提取嵌入来直接构建高性能说话人识别系统。由说话人判别DNN产生的话语级DNN说话人嵌入，称为x-vector，在一系列说话人识别任务中表现出比i-vector更好的性能。

然而，用于训练说话人辨别的DNN的最广泛使用的损失函数是具有Softmax的交叉熵损失(由Softmax损失表示)，其没有明确地鼓励类间可分离性和类内紧凑性。在说话人识别中，至关重要的是，来自相同身份聚类的嵌入和不同身份的聚类是完全分开的。结果，由DNN产生的嵌入不够普遍，并且当在看不见的说话人上进行评估时观察到性能下降。虽然完全端到端的系统可以直接进行判别嵌入式学习，但是需要复杂的数据准备，如半难的示例挖掘，同时,训练这类系统需要更长的训练时间，因此本文不讨论。

在这项工作中，为了鼓励有辨别的嵌入式学习，研究了在类之间施加固定间隔的三个损失：角度Softmax损失(用A-Softmax损失表示)，加性间隔Softmax损失(用AM-Softmax损失表示)和角度加性间隔损失(用AAM-Softmax损失表示)。发现间隔在学习判别嵌入中起着至关重要的作用，并导致显著的性能提升。实验是在两个公开可用的文本无关任务VoxCeleb1和The Wild in the Wild(SITW)中进行的。与使用Softmax损失的强基线相比，所提出的系统可以实现25％～30％的EER降低，在VoxCeleb1测试集的EER分别为2.238％，SITW核心测试集的EER分别为2.761％。

DNN说话人嵌入系统

本工作中使用的DNN说话人系统基于中描述的x-vector系统，并且大多数系统共享Kaldi样例中使用的相同配置。所有系统都是使用Kaldi或PyTorch构建的。

DNN架构有五个时间延迟层来处理帧级输入，然后是统计池化层，它计算输入序列的均值和标准差，将帧级输入聚合成段级表示。以下两个全连接层在段级输入上操作，并且不添加时间上下文。然后，投影层将输入映射到具有维度N的输出，维度N是训练集中的说话人总数。整流线性单元(ReLU)用作非线性变换，批量归一化(BN)应用于除投影层之外的所有层。

使用随机梯度下降优化整个神经网络。说话人嵌入将从训练到收敛的DNN的片段级层中提取。然而，Softmax损失对深层说话人嵌入学习的有效性受到质疑，这表明一种损失函数明确地模拟了分类间隔是有希望的。

训练说话人不受惩罚的DNN的损失

为了研究在对不同类别进行分类时增加间隔的有效性，首先介绍Softmax损失和三个新的损失函数(A-Softmax，AM-Softmax和AAM-Softmax)。

Softmax损失

作为用于训练说话人辨别DNN的常用分类损失，Softmax损失可以表示为：

其中N是批量大小，c是类的数量。表示样本到投影层的第i个输入，yi是相应的标签索引。和是投影层中的权重矩阵和偏置。指的是d维的实数空间，这里x属于Rd意思就是x是一个d维的实数向量。指的是dxc维的实数空间，这里W属于指的是W是一个d行c列的实数矩阵。Rc同理。Wx是矩阵乘以向量，结果为一个c维向量，b也是一个c维向量

由于Softmax损失仅对分类错误进行惩罚，因此它没有明确地强制类内样本的相似性和类间样本的多样性。这导致说话人识别系统没有更好地优化，这可以在以下实验中显示。

A-Softmax损失

在Softmax损失的定义中，如果仅考虑权重矩阵W的列的方向并且丢弃偏置项，则可以将修改的Softmax损失重写为

其中θj，i是列向量Wj和xi之间的角度。

受此形式的启发，乘法角度间隔可以包含在修改的Softmax损失中，然后得到的A-Softmax损失可以定义为

其中和m≥1是控制角度间隔大小的整数，

为

为了消除的限制，函数可以重新定义为分段单调递减函数其中k∈[0,m-1]并且

AM-Softmax损失

尽管A-Softmax损失可以在类之间施加间隔，但分段函数不直观且不易使用SGD优化。从间隔的定义上来说，可以通过设计函数：

来施加间隔。

如果间隔是加性的，φ(θyi，i)的定义是：

此外，在A-Softmax损失的定义中，只有权重矩阵的列被归一化，并且对输入向量的长度没有限制，这可能对学习嵌入之间的距离有害，因为两点之间的距离来说，如果它们都接近原点，则他们之间的距离很小,甚至比大多数同类的点的距离要小。

因此，输入xi也被归一化，并且附加间隔softmax损失被定义为

其中和s是一个比例因子，用于确保在训练期间梯度不会太小。

AAM-Softmax损失

在AM-Softmax损失中，xi在投影层之前被归一化为单位矢量，这意味着xi是超球面中的点。然后弧连接xi和xj可以给出它们之间距离的自然定义：弧的长度。因为弧的长度与单位矢量xi和xj之间的角度精确对应，所以这种对应更自然和直观

φ(θyi，i)是

这导致了附加角度间隔损失的定义：

其中，

实验

实验在VoxCeleb1和SITW测试集上进行，将在之后详细介绍。

基本实验设置

数据准备

为了增加训练数据的数量和多样性，增加相同类型的数据被应用于添加噪声，音乐和混响。

这些特征是30维Mel频率倒谱系数(MFCC)，帧移10ms，窗宽25ms。然后在最多3秒的滑动窗口上应用平均归一化。为了滤除非语音帧，采用基于能量的语音活动检测器(VAD)。

架构

表1中说明了在这项工作中使用的说话人判别DNN的架构，它类似于Kaldi的VoxCeleb1或SITW的样例(v2)中使用的架构。投影层输出的宽度根据训练集中不同数量的说话人而变化。训练之后，在给定输入特征的情况下，从segment6的仿射层中提取512维说话人嵌入。

表1：说话人判别DNN的体系结构

训练

系统在2～4秒范围内训练，这些段是通过随机切割原始音频获得的。所有DNN的训练都是通过PyTorch完成的。使用带有动量的随机梯度下降(SGD)用于优化DNN。为了缩短训练时间，在8个GeForce GTX 1080Ti GPU使用同步SGD训练，每个GPU的批量大小为64。8个GPU上的每个模型的参数都使用相同的随机种子进行初始化。在每个训练步骤中，累积所有GPU上的梯度，然后通过环形allreduce算法将其发送回每个GPU以减少通信开销。

为了使训练在开始时更稳定，学习率设置为0，然后在前65,536批次(每个GPU 8,192批次)逐渐增加到1e-4。

所有系统都在训练数据上过了三遍，学习率为1e-4，动量为0.7，权重衰减为1e-5，最大梯度模长为1e3。

评分

在PLDA模型的各种变体中，在Kaldi中实现的标准版本被用作所有系统的评分后端。首先，使用线性判别分析(LDA)将嵌入集中并投影到128维表示，然后通过PLDA对表示进行长度归一化和建模。

VoxCeleb1的系统评估

培训数据

说话人辨别DNN模型在所有VoxCeleb2[23]和VoxCeleb1的训练部分上进行训练，这些训练部分以16kHz采样。这使得7,325名发言者共有1,277,503段音频。

使用数据增强的方式生成的音频中,随机采样了100000条，并与原始训练数据相结合。结果，最终的训练数据包括去除静音后的2,128,429个话语。

评估

在VoxCeleb1的测试集上评估了四种具有不同损失的系统。对于损失函数定义中的两个超参数，在所有系统中，比例s固定为32，而对于每个系统，利用两个值测试间隔m，并且仅呈现具有更好性能的一个。将p-target为0.01或0.001的等错误率(EER)和最小检测成本函数(minDCF)用作性能度量。

表3列出了配备不同类型损失函数的四个系统的结果。前两行分别报告了由Kaldi和Pytorch训练的两个基线系统的数量。两个系统都给出了类似的结果，这证实了用PyTorch训练的实现的正确性。

接下来的三行分别通过将标准Softmax损失替换为A-Softmax损失，AMSoftmax损失和AAM-Softmax损失来报告所提出系统的结果。与基线系统相比，三个提出的系统可以大幅度超越它。特别是对于AAM-Softmax系统，其实现了2.238％的EER，或相当于基线数量的EER减少30％。据我们所知，这是VoxCeleb1测试集上发布的最佳结果。所有这些结果证实了在嵌入学习中加入间隔的重要性。

仅使用VoxCeleb2开发集

本节介绍仅在VoxCeleb2开发集上训练的系统的性能，与其他最先进的系统相比，使用这个集合来训练系统可以公平地比较性能。训练数据由5,994个说话人组成，与VoxCeleb1数据集完全不相交，并且不使用数据增强。在这些设置下，使用两个额外的测试集进行评估：扩展的VoxCeleb1-E使用整个VoxCeleb1(训练集和测试集)和具有挑战性的VoxCeleb1-H，测试对来自具有相同性别和国籍的身份。

表2比较了已有的系统和本文提出的系统的性能：VoxCeleb1，VoxCeleb1E和VoxCeleb1-H。在所有三个测试集中，本文提出的系统相对于已有的最优系统可以实现EER减少16％，12％和6％

表3：VoxCeleb1测试集下的系统比较。所有系统都在VoxCeleb1训练集和整个VoxCeleb2训练集上进行数据增强训练。

SITW的系统评估

培训数据

说话人辨别DNN模型在VoxCeleb2的开发集加上VoxCeleb1的全部数据进行训练。VoxCeleb2的测试部分未使用，因为它与SITW测试集有公共的说话人。此外，VoxCeleb1中有60个说话人与SITW核心测试集重叠，这批数据被移除。上述处理后的训练集合含有7,185名说话人和1,236,567条音频。本实验使用了和VoxCeleb1实验中相同方式的数据增强。保留1,000,000个增强音频的随机子集并与原始训练数据组合。最终的训练数据包括移除沉默后的2,090,306个话语。

评估

如表4所示，提出的系统显著优于基线，EER的降低分别为20％，17％和25％。

表4：SITW测试集下系统的比较。所有系统都在整个VoxCeleb1集和VoxCeleb2开发集上使用了增强后的数据进行训练。VoxCeleb1中与测试集合重叠的60个说话人数据将被移除。

当分别使用A-Softmax损失，AM-Softmax损失和AAM-Softmax损失时。由于来自SITW的注册和测试集的话语长度从6到240秒不等，需要额外的后处理进行补偿，结果可能不能完全反映使用所提出的损失函数的收益。

结论

良好的说话人嵌入预计具有较大的说话人间差异，同时同一说话人的音频差异小，使用带间隔的损失函数进行训练能保证这一点。大多数当前的深度说话人嵌入框架利用Softmax损失作为优化标准，这被证明不如更先进的基于间隔的分类损失函数。在本文中，三个基于间隔的损失函数，即A-Softmax，AM-Softmax和AAM-Softmax被引入到基于x-vector的说话人嵌入学习框架中。所提出的系统在两个测试集上进行评估：VoxCeleb1和SITW，结果表明所提出的方法明显优于基线。

与使用softmax的交叉熵损失的强基线相比，最优系统在两个任务上实现25％～30％的等错误率(EER)降低，在VoxCeleb1测试集上获得2.238％EER，在SITW核心测试中获得2.761％EER,这是目前已发表的最优性能。

请参考图2，其示出了本发明一实施例提供的基于间距损失函数的神经网络训练装置的框图。

如图2所示，基于间距损失函数的神经网络训练装置200，包括输入模块210、输出模块220、归一化处理模块230、参数更新模块240和达标固定模块250。

其中，输入模块210，配置为对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；输出模块220，配置为输出所述待训练音频的说话人类别概率分布；归一化处理模块230，配置为使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；参数更新模块240，配置为使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；以及达标固定模块250，配置为当达到预设标准时，训练完成并固定所述神经网络的参数。

应当理解，图2中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图2中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如苏模板生成模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于间距损失函数的神经网络训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；

输出所述待训练音频的说话人类别概率分布；

使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；

使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；

当达到预设标准时，训练完成并固定所述神经网络的参数。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于间距损失函数的神经网络训练装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至基于间距损失函数的神经网络训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项基于间距损失函数的神经网络训练方法。

图3是本发明实施例提供的电子设备的结构示意图，如图3所示，该设备包括：一个或多个处理器310以及存储器320，图3中以一个处理器310为例。基于间距损失函数的神经网络训练方法的设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例基于间距损失函数的神经网络训练方法。输入装置330可接收输入的数字或字符信息，以及产生与基于间距损失函数的神经网络训练装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于基于间距损失函数的神经网络训练装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

输出所述待训练音频的说话人类别概率分布；

当达到预设标准时，训练完成并固定所述神经网络的参数。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于间距损失函数的神经网络训练方法，包括：

输出所述待训练音频的说话人类别概率分布；

当达到预设标准时，训练完成并固定所述神经网络的参数。

2.根据权利要求1所述的方法，其中，所述归一化处理后的Softmax间距损失函数为A-Softmax损失函数，计算公式如下：

其中,和m≥1是控制角度间隔大小的整数，N是批量大小，c是类的数量，表示样本到投影层的第i个输入，yi是相应的类别标签索引，其中,

3.根据权利要求1所述的方法，其中，所述归一化处理后的Softmax间距损失函数为AM-Softmax损失函数，计算公式如下：

4.根据权利要求1所述的方法，其中，所述归一化处理后的Softmax间距损失函数为AAM-Softmax损失函数，计算公式如下：

其中，

5.根据权利要求1-4中任一项所述的方法，其中，所述对待训练音频进行预处理包括：

为所述待训练音频增加不同类型的噪声以增加待训练音频的数量。

6.根据权利要求5所述的方法，其中，所述对待训练音频进行预处理还包括：

采用基于能量的语音活动检测器对待训练音频进行处理以滤除非语音帧。

7.根据权利要求1所述的方法，其中，所述预设标准为分类的准确率不再上升。

8.一种基于间距损失函数的神经网络训练装置，包括：

输入模块，配置为对待训练音频进行预处理并输入至神经网络中，所述待训练音频具有预设的说话人类别的真实分布；

输出模块，配置为输出所述待训练音频的说话人类别概率分布；

归一化处理模块，配置为使用归一化处理后的Softmax间距损失函数计算所述说话人类别的概率分布与真实分布的差距；

参数更新模块，配置为使用小批量随机梯度下降方法更新所述神经网络的参数以逐渐减小所有待训练音频的概率分布与真实分布的差距；

达标固定模块，配置为当达到预设标准时，训练完成并固定所述神经网络的参数。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。