CN115346534A

CN115346534A - 声纹识别模型训练方法、声纹识别方法及相关设备

Info

Publication number: CN115346534A
Application number: CN202110527175.8A
Authority: CN
Inventors: 孟庆林; 吴海英; 蒋宁; 王洪斌; 陈燕丽
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-11-15

Abstract

本申请提供一种声纹识别模型训练方法、声纹识别方法及相关设备，方法包括：将有标注的第一样本数据输入至待训练模型包括的编码网络，进行第N次迭代训练；通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至解码网络，进行第N+1次迭代训练；将第二样本数据输入至前馈网络，进行第N+1次迭代训练；在第一向量和第二向量的均方误差小于第一阈值的情况下，得到声纹识别模型；第一向量是进行第N+1次迭代训练后的解码网络输出的，第二向量是进行第N+1次迭代训练后的前馈网络输出的，声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。这样可以降低模型训练的难度。

Description

声纹识别模型训练方法、声纹识别方法及相关设备

技术领域

本申请涉及声纹识别技术领域，尤其涉及到一种声纹识别模型训练方法、声纹识别方法及相关设备。

背景技术

声纹识别作为可信的声纹特征认证技术，在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。但是语音很容易受到各种噪声环境、情绪、身体状况等外部环境和自身因素的影响，因此，提高声纹识别准确率，有着极为重要的现实意义。当前训练得到的声纹识别模型对于样本数据的数量以及质量的要求较高，从而导致声纹识别模型的训练难度较大。

发明内容

本申请实施例提供一种声纹识别模型训练方法、声纹识别方法及相关设备，以解决声纹识别模型的训练难度较大的问题。

第一方面，本申请实施例提供了一种声纹识别模型训练方法，包括：

将有标注的第一样本数据输入至待训练模型包括的编码网络，进行第N次迭代训练；其中，所述N为正整数，所述待训练模型还包括解码网络和前馈网络，所述编码网络通过所述解码网络与所述前馈网络连接；

通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络，进行第N+1次迭代训练；以及，将所述第二样本数据输入至所述前馈网络，进行第N+1次迭代训练；

在第一向量和第二向量的均方误差小于第一阈值的情况下，得到声纹识别模型；其中，所述第一向量是进行第N+1次迭代训练后的解码网络输出的，所述第二向量是进行第N+1次迭代训练后的前馈网络输出的，所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。

可以看出，本申请实施例中，可以同时使用有标注的第一样本数据和无标注的第二样本数据训练得到声纹识别模型，降低了对样本数据的数量以及质量的要求，从而降低了声纹识别模型训练的难度；另外，在声纹识别模型的训练过程中，先采用有标注的第一样本数据对编码网络进行第N次迭代训练，然后将第二样本数据通过第N次迭代训练后的编码网络传输至解码网络，同时，将第二样本数据输入至前馈网络中，从而使得在采用第二样本数据对解码网络和前馈网络进行训练时，经过第一样本数据训练过的编码网络可以对解码网络和前馈网络的训练过程起到监督引导作用，使得第二样本数据有了非常明显的学习方向，从而进一步降低了声纹识别模型训练的难度。

第二方面，本申请实施例还提供了一种声纹识别方法，包括：

获取待识别用户的第一声纹数据；

将所述第一声纹数据输入至声纹识别模型包括的编码网络，输出所述第一声纹数据对应的第一特征向量；

将所述第一特征向量与预先存储的第二特征向量输入至目标分类器，输出似然分布数值；其中，所述目标分类器与所述声纹识别模型包括的编码网络连接，所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的；

在所述似然分布数值大于第二阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

可以看出，在本申请实施例中，以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

第三方面，本申请实施例提供了一种声纹识别模型训练装置，包括：

第一输入模块，用于将有标注的第一样本数据输入至待训练模型包括的编码网络，进行第N次迭代训练；其中，所述N为正整数，所述待训练模型还包括解码网络和前馈网络，所述编码网络通过所述解码网络与所述前馈网络连接；

第二输入模块，用于通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络，进行第N+1次迭代训练；以及，将所述第二样本数据输入至所述前馈网络，进行第N+1次迭代训练；

第一得到模块，用于在第一向量和第二向量的均方误差小于第一阈值的情况下，得到声纹识别模型；其中，所述第一向量是进行第N+1次迭代训练后的解码网络输出的，所述第二向量是进行第N+1次迭代训练后的前馈网络输出的，所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。

第四方面，本申请实施例还提供一种声纹识别装置，包括：

第一获取模块，用于获取待识别用户的第一声纹数据；

第三输入模块，用于将所述第一声纹数据输入至声纹识别模型包括的编码网络，输出所述第一声纹数据对应的第一特征向量；

第四输入模块，用于将所述第一特征向量与预先存储的第二特征向量输入至目标分类器，输出似然分布数值；其中，所述目标分类器与所述声纹识别模型包括的编码网络连接，所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的；

第一确定模块，用于在所述似然分布数值大于第二阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

第五方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述声纹识别模型训练方法中的步骤，或者，所述处理器执行所述计算机程序时实现上述声纹识别方法中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述声纹识别模型训练方法中的步骤，或者，所述计算机程序被处理器执行时实现上述声纹识别方法中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种声纹识别模型训练方法的流程图；

图2是本申请实施例提供的一种待训练模型的结构示意图；

图3是本申请实施例提供的一种声纹识别方法的流程图；

图4是本申请实施例提供的一种声纹识别模型训练方法和声纹识别方法的流程图；

图5是本申请实施例提供的一种声纹识别模型训练装置的结构示意图；

图6是本申请实施例提供的一种声纹识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的一种声纹识别模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101、将有标注的第一样本数据输入至待训练模型包括的编码网络，进行第N次迭代训练；其中，所述N为正整数，所述待训练模型还包括解码网络和前馈网络，所述编码网络通过所述解码网络与所述前馈网络连接。

其中，待训练模型包括编码网络、解码网络和前馈网络，而编码网络和解码网络也可以组合形成自编码网络，也就是说：自编码网络中包括编码网络和解码网络两个部分。参见图2，图2可以用于表示待训练模型的结构示意图，图2中包括编码网络20、解码网络21和前馈网络23。

需要说明的是，上述编码网络也可以被称作为编码器，上述解码网络也可以被称作为解码器。

其中，第一样本数据和第二样本数据均可以为音频数据，从而方便训练得到声纹识别模型。另外，第一样本数据可以为公开数据集中的数据，可以从服务器中下载该公开数据集，以得到第一样本数据，公开数据集中的数据的标注都是通过认证准确度比较高的。需要说明的是，第一样本数据中的标注也可以被称作为标注信息。

作为一种可选的实施方式，所述方法还包括：

从样本池中获取第一初始数据和第二初始数据，所述第一初始数据有标注，所述第二初始数据无标注；

对所述第一初始数据进行数据扩增处理，得到所述第一样本数据；以及对所述第二初始数据进行数据扩增处理，得到所述第二样本数据。

其中，数据扩增处理得到第一样本数据和第二样本数据的具体方式在此不做限定，例如：可以将进行数据扩增处理之后的第一初始数据确定为第一样本数据，可以将进行数据扩增处理之后的第二初始数据确定为第二样本数据。

另外，还例如：将所述第一初始数据和进行数据扩增处理后的第一初始数据确定为所述第一样本数据，且将所述第二初始数据和进行数据扩增处理的第二初始数据确定为所述第二样本数据。

这样，由于第一初始数据和第二初始数据的数量较小，可以对第一初始数据和第二初始数据进行数据扩增处理从而得到第一样本数据和第二样本数据，通过上述数据扩增处理增加了样本数据的数量，从而方便后续对声纹识别模型的训练。

需要说明的是，第一初始数据和进行数据扩增处理后的第一初始数据之间可以存在区别，例如：第一初始数据为甲用户的语音数据，且第一初始数据中并不包含噪音，而进行数据扩增处理后的第一初始数据为甲用户的语音数据，但是进行数据扩增处理后的第一初始数据同时还包括噪音。同理，第二初始数据和进行数据扩增处理的第二初始数据也可以存在区别。这样，增加了样本数据的多样性。

另外，数据扩增处理的具体方式在此不做限定，例如：作为一种可选的实施方式，所述数据扩增处理包括以下处理方式中的至少一种：增加噪声、调高语速和增加数据扰动。这样，可以使得数据扩增处理的方式更加多样化和灵活化。当然，数据扩增处理还可以包括：调低语速和减少数据扰动等方式。

另外，作为一种可选的实施方式，所述第一初始数据进行数据扩增处理，得到所述第一样本数据；以及对所述第二初始数据进行数据扩增处理，得到所述第二样本数据，包括：

对所述第一初始数据和数据扩增处理后的第一初始数据进行特征提取，得到第三特征向量；以及，对所述第二初始数据和数据扩增处理后的第二初始数据进行特征提取，得到第四特征向量；

对所述第三特征向量进行谱增强，将谱增强后的第三特征向量确定为所述第一样本数据；以及将所述第四特征向量确定为所述第二样本数据。

这样，可以对第三特征向量进行谱增强，并将进行谱增强之后的第三特征向量确定为第一样本数据，从而增强了第一样本数据的泛化性能，减少了第一样本数据在训练过程中的过拟合等现象的出现；另外，由于第二样本数据为无标注的样本数据，若使用谱增强会增加在训练过程中的不确定性，导致待训练模型无法收敛的现象的出现，因此可以将第四特征向量确定为第二样本数据，从而可以提高待训练模型的训练速率。

需要说明的是，谱增强是声纹识别领域的一种算法，对特征(即样本数据)按照一定比例进行随机置0，减少样本数据在训练过程中的过拟合。

其中，作为一种可选的实施方式，所述第三特征向量和所述第四特征向量均为80维滤波器组特征。而80维滤波器组特征也可以被称作为80Fbank特征或者80维Fbank特征，这样，80Fbank特征可以有效的对语音的时域和频域信息进行映射，从而使得对语音(也可以理解为声纹数据或者样本数据)的可覆盖性更高。当然，也可以减小滤波器组特征的维数，具体在此不做限定。

另外，Fbank特征也可以被称作为log梅尔谱特征，是一种在语音情绪识别，语音识别，声纹识别，语音合成中广泛使用的特征。

需要说明的是，通过样本数据获取得到Fbank特征可以参见以下表述：先对音频信号(即样本数据可以为音频信号)预加重、分帧和加窗，随后对每帧信号进行短时傅立叶变换STFT，得到短时幅度谱，最后短时幅度谱通过Mel滤波器组得到Fbank特征。

步骤102、通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络，进行第N+1次迭代训练；以及，将所述第二样本数据输入至所述前馈网络，进行第N+1次迭代训练。

需要说明的是，第二样本数据可以同时输入解码网络和前馈网络中，当然，第二样本数据也可以先后输入解码网络和前馈网络中，也就是说：第二样本数据输入解码网络和前馈网络的时刻不是同一时刻，但是两个时刻较为靠近。具体方式在此不做限定。

其中，无标注的第二样本数据也可以为音频数据，需要说明的是，第二样本数据的数量可以远多于第一样本数据，这样，使得对第一样本数据的需求较低，从而使得对声纹识别模型进行训练时，进一步降低了对样本数据的数量以及质量的要求，从而降低了声纹识别模型训练的难度。

另外，由于本申请实施例中在训练声纹识别模型的过程中，同时运用到了有标注的第一样本数据和无标注的第二样本数据，这样的训练学习模式可以被称作为半监督学习(Semi-Supervised Learning，SSL)模式，而采用半监督学习模式时，会减少人员来从事工作，同时，又能使得训练得到的声纹识别模型的输出结果的准确度较高。

其中，将第二样本数据分别输入至解码网络和前馈网络，从而可以训练解码网络和前馈网络；另外，先采用有标注的第一样本数据对编码网络进行第N次迭代训练，然后将第二样本数据通过第N次迭代训练后的编码网络传输至解码网络，同时，将第二样本数据输入至前馈网络中，从而使得在采用第二样本数据对解码网络和前馈网络进行训练时，经过第一样本数据训练过的编码网络可以对解码网络和前馈网络的训练过程起到监督引导作用，使得第二样本数据有了非常明显的学习方向，从而提高解码网络和前馈网络的训练速率和训练的准确度。

步骤103、在第一向量和第二向量的均方误差小于第一阈值的情况下，得到声纹识别模型；其中，所述第一向量是进行第N+1次迭代训练后的解码网络输出的，所述第二向量是进行第N+1次迭代训练后的前馈网络输出的，所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。

上述也可以理解为：进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络组合形成的模型可以被称作为声纹识别模型。

需要说明的是，第一样本数据和第二样本数据可以均为训练集中的数据，而样本池中还可以存在测试集，测试集可以用于对声纹识别模型进行测试，将测试集数据输入至声纹识别模型中，输出结果与实际结果的差值小于预设差值的情况下，则确定声纹识别模型为可用模型。

另外，可以将从样本池中获取的数据按照一定比例划分为训练集中的数据和测试集中的数据，上述比例的具体取值在此不做限定，例如：上述比例可以为98:2。当然，训练集和测试集中的用户没有重复交叠，例如甲用户的语音数据只能存在训练集或者测试集中，而不能同时存在于训练集和测试集中。这样，可以使得采用测试集对声纹识别模型进行测试时，测试结果的准确度更高。

需要说明的是，本申请实施例中的待训练模型包括的编码网络、解码网络和前馈网络的具体结构不做限定，例如：编码网络、解码网络和前馈网络可以分别包括有多个卷积层，且编码网络、解码网络和前馈网络的卷积层可以一一对应。

例如，编码网络与前馈网络的结构一样，更利于无标注数据训练网络的损失收敛。

又例如：作为一种可选的实施方式，所述解码网络包括M个第一卷积层，所述前馈网络包括M个第二卷积层，所述M个第一卷积层和所述M个第二卷积层一一对应连接，所述M为正整数；

所述M个第一卷积层输出M个第一向量，所述M个第二卷积层输出M个第二向量；所述第一向量和第二向量的均方误差小于第一阈值，包括：M个均方误差的和小于所述第一阈值，所述M个均方误差是根据所述M个第一向量和所述M个第二向量进行均方误差计算得到的。

这样，在M个均方误差的和小于预设阈值的情况下，才确定声纹识别模型，从而可以使得声纹识别模型的输出结果的准确度更高。

其中，每个第一卷积层均可以对应有一个第二卷积层，例如：解码网络包括第一卷积层A、第一卷积层B和第一卷积层C，而前馈网络可以包括第二卷积层A、第二卷积层B和第三卷积层C，第一卷积层A和第二卷积层A可以相互连接，第一卷积层B和第二卷积层B可以相互连接，第一卷积层C和第二卷积层C可以相互连接，因此，第一卷积层A和第二卷积层A对应，第一卷积层B和第二卷积层B对应，第一卷积层C和第二卷积层C对应，

这样，每个第一卷积层和对应的第二卷积层均可以输出一个均方误差，从而得到多个均方误差，在多个均方误差的和小于预设阈值的情况下，才确定声纹识别模型，从而可以使得声纹识别模型的输出结果的准确度更高。

其中，第一卷积层可以被称作为反卷积，第二卷积层可以被称作为卷积，而相应的，编码网络也可以存在与第一卷积层一一对应的第三卷积层，需要说明的是，第一卷积层、第二卷积层和第三卷积层均可以采用3x3的结构。

例如：参见图2，图2中包括编码网络20、解码网络21和前馈网络23，以及与编码网络20连接的分类器24，其中，编码网络20可以包括多层第三卷积层203，解码网络21可以包括多层第一卷积层201，前馈网络23可以包括多层第二卷积层202。图2中的箭头可以用于表示数据在编码网络20、解码网络21和前馈网络23之间的传输方向。

另外，参见图2，图2中A处表示第一样本数据(即有标注的数据)和第二样本数据(即无标注的数据)的输入方向，C处表示第二样本数据(即无标注的数据)的输入方向，而B和D则分别表示编码网络20和前馈网络23的输出结果的输出方向。

另外，当包括多个第一卷积层和第二卷积层时，均方误差的和的计算公式可以参见以下表述：

其中，MSE表示均方误差，而x和x_i其中一个可以表示第一向量，另一个可以表示第二向量，而i可以用于表示第一卷积层或者第二卷积层的编号，n表示第一卷积层或者第二卷积层的总层数。

本申请实施例中，通过步骤101至103，可以同时使用有标注的第一样本数据和无标注的第二样本数据训练得到声纹识别模型，降低了对样本数据的数量以及质量的要求，从而降低了声纹识别模型训练的难度；同时，在声纹识别模型的训练过程中，第一样本数据给第二样本数据提供了非常明显的学习方向，有效的利用了第二样本数据，从而进一步降低了声纹识别模型训练的难度。

本申请实施例还提供一种声纹识别方法，该方法可以应用于上述实施例中训练得到的声纹识别模型，参见图3，包括以下步骤：

步骤301、获取待识别用户的第一声纹数据。

步骤302、将所述第一声纹数据输入至声纹识别模型包括的编码网络，输出所述第一声纹数据对应的第一特征向量。

步骤303、将所述第一特征向量与预先存储的第二特征向量输入至目标分类器，输出似然分布数值；其中，所述目标分类器与所述声纹识别模型包括的编码网络连接，所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的。

步骤304、在所述似然分布数值大于第二阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

需要说明的是，第一特征向量和第二特征向量可以均为x-vector特征，而x-vector特征是深度神经网络所提取出的神经网络特征。

其中，第二特征向量可以理解为预先采集的目标用户的第二声纹数据对应的特征向量，可以存储在数据库对应的服务器上。

其中，目标分类器的种类在此不做限定，例如：目标分类器可以为plda分类器，即plda分类器中可以运行有plda算法，这样，plda分类器输出的似然分布数值的准确度较高，从而使得待识别用户与目标用户是否为相同用户的判断结果的准确度也更高。

其中，上述似然分布数值也可以理解为相似度，即似然分布数值越大，则待识别用户和目标用户为相同用户的可能性越高。

本申请实施方式中，可以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

需要说明的是，目标分类器可以为预先训练得到，而分类器的训练过程可以参见以下表述：

作为一种可选的实施方式，所述目标分类器的训练方法有：

获取所述声纹识别模型包括的编码网络输出的目标特征向量，所述目标特征向量与所述第一样本数据对应；

将所述目标特征向量输入至待训练的分类器中，进行第N次迭代训练，并输出第N次迭代训练后的似然分布数值；其中，第N次迭代训练后的似然分布数值、第N次迭代训练的目标参数和所述目标特征向量一一对应；

在第N次迭代训练的目标参数的数学期望值收敛的情况下，将进行第N次迭代训练后的分类器确定为所述目标分类器。

其中，可以采用对第一样本数据进行特征提取得到的目标特征向量对待训练的分类器进行训练。

这样，由于采用相同的第一样本数据训练得到声纹识别模型和目标分类器，可以使得目标分类器与声纹识别模型的相关性较强，从而使得目标分类器输出的似然分布数值可以准确的反应待识别用户和目标用户是否为相同用户，提高了判断结果的准确度。

例如：以一个举例来说明目标分类器的训练过程，从获取到用户的声纹数据(可以为用户上传至服务器上的声纹数据，也可以为样本池中的声纹数据)，并提取到声纹数据的特征向量(如x-vector特征向量)，将x-vector特征向量输入到分类器(如plda分类器)中，并采用EM算法来进行全概率后验估计，后验估计的作用就是根据概率使用EM算法进行概率估计计算，获得分类器每轮训练的较佳参数，通过多轮迭代训练，直到分类器寻找到最佳特征参数，此时最佳特征参数对应的分类器即可以确定为最终可用的分类器(即目标分类器)。

而EM算法的训练思想就是通过极大似然估计，根据己经给出的观测数据，估计出每轮训练时模型参数的值；然后再依据上一轮模型估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至模型收敛，迭代结束。也就是说：每一次迭代训练时，输入的目标特征向量、该次迭代训练后输出的似然分布数值以及该次迭代训练后的目标参数是一一对应的，当目标参数的数学期望收敛的情况下，则可以将进行该次迭代训练后的分类器确定为目标分类器。

作为一种可选的实施方式，所述将所述第一特征向量与预先存储的第二特征向量输入至目标分类器，输出似然分布数值之前，所述方法还包括：

获取所述目标用户的第二声纹数据；

将所述第二声纹数据输入至所述声纹识别模型包括的编码网络，提取得到所述第二特征向量；

保存所述第二特征向量。

其中，目标用户的第二声纹数据可以为通过传感器采集得到的声纹数据，例如：可以通过麦克风采集得到。当然，第二声纹数据也可以为采集得到的多人会话场景中的声纹数据，可以对多人会话场景包括的所有声纹数据进行声道分离，从而得到上述第二声纹数据。

需要说明的是，为了保证数据的全面性，可以提取每一个用户的声纹数据对应的特征向量，并将特征向量保存在服务器上，以使得在使用过程中再次接收到某一个用户的声纹数据，通过与预先存储的声纹数据的特征向量进行比对，从而快速的确定上述某一个用户的身份。

本申请实施方式中，由于可以保存目标用户的第二特征向量，从而使得后续在识别待识别用户的声纹数据时，只需要获取到第二特征向量，从而提高了目标用户的第二特征向量的获取速度。

下面以一个具体实施例来举例说明本申请。

参见图4，包括以下步骤：

步骤401、将有准确标注的500人30小时声纹有标注数据(即带有标注的第一样本数据)通过加噪声，加快语速，增加数据扰动等方式进行数据扩增(即数据扩增方式)，将4000小时无标注数据(即不带有标注的第二样本数据)以相同方式进行数据扩增。

步骤402、分别对训练集中每段语音文件(即第一样本数据和第二样本数据)提取80维Fbank特征，并使用谱增强，存入特征文件。

其中，第一样本数据和第二样本数据可以均为训练集中的样本数据，同时，还可以存在测试集数据，用于对后续训练得到的声纹识别模型进行测试。

需要说明的是，可以对第一初始数据对应的第三特征向量和第二初始数据对应的第四特征向量分别进行谱增强，也可以只对第一初始数据对应的第三特征向量进行谱增强。本实施方式中是同时对第三特征向量和第四特征向量进行谱增强。

其中，步骤401和步骤402可以被称作为声纹特征提取阶段。

步骤403、针对于有标注数据(即第一样本数据)，分批次读取待训练特征文件，形成data-label(数据标签)的特征数据组合(注：每次读取128个文件，形成一个特征数据组合)。只送入自编码网络的编码网络，进行前向传播，并反向回传训练。(可以理解为进行反向回传训练之后的编码网络可以作为下一次训练的初始网络，训练是一个迭代的过程，参数连续。)

步骤404、针对于无标注数据(即第二样本数据)，分批次直接读取训练特征文件，送入自编码网络中的编码网络，流经编码网络与解码网络(依次经过自编码网络的编码网络与解码网络)；同时还将无标注数据送入前馈网络；

通过上述无标注数据训练解码网络与前馈网络；将解码网络与前馈网络两个网络每个隐含层(即第一卷积层与对应的第二卷积层)之间的输出向量计算均方误差，在训练过程中最小化此均方误差(注：均方误差最小化时表示训练完成)。

其中，步骤403中的标注数据对无标注数据对解码网络与前馈网络的训练起到了监督训练的作用，在有标注数据的监督下，最小化无监督数据的均方误差，至损失收敛，保存模型。

其中，步骤403和步骤404可以被称作为声纹确认半监督网络(即声纹识别模型)训练阶段。

步骤405、当某用户在进行声纹辨认前，首先使用户声音录制一条注册语音，进行用户声纹注册，经过上述所训练收敛的自编码网络的编码网络部分，提取x-vector特征(即第二声纹数据对应的第二特征向量，该特征为领域通识，是深度神经网络所提取出的神经网络特征)，存入注册库内。

其中，步骤405可以被称作为声纹确认注册阶段。

步骤406、获取客服与用户的对话录音，声道分离，分离出客服与用户声道。

步骤407、对客户声道(即第一声纹数据)录音提取80维Fbank特征，将所得特征送入收敛的自编码网络的编码网络，得到待辨认语音x-vector特征向量(即第一特征向量)，然后将第一特征向量和预先存储的第二特征向量输入至plda分类器中，得到似然分布数值，根据似然分布数值判断第一特征向量对应的待识别用户与第二特征向量对应的目标用户是否是同一个用户。

其中，步骤406和步骤407可以被称作为声纹确认阶段或者声纹识别阶段。

这样，通过步骤401至407，即可以完整体现声纹识别模型的训练过程以及声纹识别模型对声纹数据的识别过程。

参见图5，图5是本申请实施例提供的声纹识别模型训练装置的结构示意图，如图5所示，声纹识别模型训练装置500，包括：

第一输入模块501，用于将有标注的第一样本数据输入至待训练模型包括的编码网络，进行第N次迭代训练；其中，所述N为正整数，所述待训练模型还包括解码网络和前馈网络，所述编码网络通过所述解码网络与所述前馈网络连接；

第二输入模块502，用于通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至所述解码网络，进行第N+1次迭代训练；以及，将所述第二样本数据输入至所述前馈网络，进行第N+1次迭代训练；

第一得到模块503，用于在第一向量和第二向量的均方误差小于第一阈值的情况下，得到声纹识别模型；其中，所述第一向量是进行第N+1次迭代训练后的解码网络输出的，所述第二向量是进行第N+1次迭代训练后的前馈网络输出的，所述声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。可选地，所述解码网络包括M个第一卷积层，所述前馈网络包括M个第二卷积层，所述M个第一卷积层和所述M个第二卷积层一一对应连接，所述M为正整数；

可选地，声纹识别模型训练装置500，还包括：

第二获取模块，用于从样本池中获取第一初始数据和第二初始数据，所述第一初始数据有标注，所述第二初始数据无标注；

扩增处理模块，用于对所述第一初始数据进行数据扩增处理，得到所述第一样本数据；以及对所述第二初始数据进行数据扩增处理，得到所述第二样本数据。

可选地，所述扩增处理模块，包括：

特征提取子模块，用于对所述第一初始数据和数据扩增处理后的第一初始数据进行特征提取，得到第三特征向量；以及，对所述第二初始数据和数据扩增处理后的第二初始数据进行特征提取，得到第四特征向量；

谱增强子模块，用于对所述第三特征向量进行谱增强，将谱增强后的第三特征向量确定为所述第一样本数据；以及将所述第四特征向量确定为所述第二样本数据。

可选地，所述第三特征向量和所述第四特征向量均为80维滤波器组特征。

本申请实施例提供的声纹识别模型训练装置能够实现图1的方法实施例中声纹识别模型训练装置实现的各个过程，为避免重复，这里不再赘述。本申请实施例可以同时使用有标注的第一样本数据和无标注的第二样本数据训练得到声纹识别模型，降低了对样本数据的数量以及质量的要求，从而降低了声纹识别模型训练的难度。

参见图6，图6为本申请实施例提供的一种声纹识别装置的结构图，如图6所示，声纹识别装置600包括：

第一获取模块601，用于获取待识别用户的第一声纹数据；

第三输入模块602，用于将所述第一声纹数据输入至声纹识别模型包括的编码网络，输出所述第一声纹数据对应的第一特征向量；

第四输入模块603，用于将所述第一特征向量与预先存储的第二特征向量输入至目标分类器，输出似然分布数值；其中，所述目标分类器与所述声纹识别模型包括的编码网络连接，所述第二特征向量是将目标用户的第二声纹数据输入至所述声纹识别模型包括的编码网络输出的；

第一确定模块604，用于在所述似然分布数值大于第二阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

可选地，声纹识别装置600还包括：

第三获取模块，用于获取所述声纹识别模型包括的编码网络输出的目标特征向量，所述目标特征向量与所述第一样本数据对应；

第五输入模块，用于将所述目标特征向量输入至待训练的分类器中，进行第N次迭代训练，并输出第N次迭代训练后的似然分布数值；其中，第N次迭代训练后的似然分布数值、第N次迭代训练的目标参数和所述目标特征向量一一对应；

第二确定模块，用于在第N次迭代训练的目标参数的数学期望值收敛的情况下，将进行第N次迭代训练后的分类器确定为所述目标分类器。

本申请实施例提供的声纹识别装置能够实现图3的方法实施例中声纹识别装置实现的各个过程，为避免重复，这里不再赘述。本申请实施例中，可以通过声纹识别模型以及与声纹识别模型连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

图7为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，当电子设备用于执行声纹识别模型训练方法中的步骤时，处理器710，用于执行以下操作：

可选地，所述解码网络包括M个第一卷积层，所述前馈网络包括M个第二卷积层，所述M个第一卷积层和所述M个第二卷积层一一对应连接，所述M为正整数；

可选地，处理器710，还用于：

可选地，处理器710执行的所述对所述第一初始数据进行数据扩增处理，得到所述第一样本数据；以及对所述第二初始数据进行数据扩增处理，得到所述第二样本数据，包括：

其中，当电子设备用于执行声纹识别方法中的步骤时，处理器710，用于执行以下操作：

获取待识别用户的第一声纹数据；

可选地，处理器710，还用于：

应理解的是，本申请实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法的各个过程，且能达到相同的技术效果，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种声纹识别模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解码网络包括M个第一卷积层，所述前馈网络包括M个第二卷积层，所述M个第一卷积层和所述M个第二卷积层一一对应连接，所述M为正整数；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述第一初始数据进行数据扩增处理，得到所述第一样本数据；以及对所述第二初始数据进行数据扩增处理，得到所述第二样本数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述第三特征向量和所述第四特征向量均为80维滤波器组特征。

6.一种声纹识别方法，其特征在于，包括：

获取待识别用户的第一声纹数据；

7.根据权利要求6所述的方法，其特征在于，所述目标分类器的训练方法有：

获取所述声纹识别模型包括的编码网络输出的目标特征向量，所述目标特征向量与第一样本数据对应；

8.一种声纹识别模型训练装置，其特征在于，包括：

9.一种声纹识别装置，其特征在于，包括：

第一获取模块，用于获取待识别用户的第一声纹数据；

10.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的声纹识别模型训练方法中的步骤，或者，所述处理器执行所述计算机程序时实现如权利要求6或7所述的声纹识别方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的声纹识别模型训练方法中的步骤，或者，所述计算机程序被处理器执行时实现如权利要求6或7所述的声纹识别方法中的步骤。