CN113870862A

CN113870862A - 声纹识别模型训练方法、声纹识别方法及相关设备

Info

Publication number: CN113870862A
Application number: CN202111142575.3A
Authority: CN
Inventors: 孟庆林; 蒋宁; 吴海英; 王洪斌; 刘敏; 陈燕丽
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-31

Abstract

本申请提供一种声纹识别模型训练方法、声纹识别方法及相关设备，声纹识别模型训练方法，包括：将第一声纹数据分别输入至所述教师网络和所述学生网络中，进行第N次迭代训练；所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量；在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络。这样，提高了声纹识别模型的准确度。

Description

声纹识别模型训练方法、声纹识别方法及相关设备

技术领域

本申请涉及声纹识别技术领域，尤其涉及到一种声纹识别模型训练方法、声纹识别方法及相关设备。

背景技术

声纹识别作为可信的声纹特征认证技术，在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。但是语音很容易受到各种噪声环境、情绪、身体状况等外部环境和自身因素的影响，因此，提高声纹识别准确率，有着极为重要的现实意义。当前在声纹识别模型的训练过程中，当声纹数据的时长较短时，容易导致训练得到的声纹识别模型的准确度较低。

发明内容

本申请实施例提供一种声纹识别模型训练方法、声纹识别方法及相关设备，以解决训练得到的声纹识别模型的准确度较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种声纹识别模型训练方法，所述方法包括：

将第一声纹数据分别输入至待训练模型包括的教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；

计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量；

在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络。

可以看出，本申请实施例中，采用第二声纹数据训练教师网络收敛，即使得教师网络对于第二声纹数据的识别准确度较高，在教师网络收敛的情况下，然后将第一声纹数据同时输入至教师网络和学生网络中，以使得学生网络学习教师网络的对第一声纹数据识别的方式，即在学生网络对第一声纹数据识别的训练过程，教师网络由于已经收敛，因此教师网络可以教授学生模型按照教师网络识别第二声纹数据的方式，识别第一声纹数据，提高学生模型对第一声纹数据识别的准确度，从而提高学生网络的训练效率和识别准确度，进而提高了学生网络对第一声纹数据的识别的准确度。

另外，在采用第一声纹数据训练学生网络的同时，还可以采用第一声纹数据训练教师网络，以进一步训练教师网络对第一声纹数据识别的能力，进而提高教师网络对第一声纹数据识别的准确度。

第二方面，本申请实施例提供了一种声纹识别方法，应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，所述方法包括：

获取待识别用户的第一声纹数据；

将所述第一声纹数据输入至所述学生网络，输出所述第一声纹数据对应的第一特征向量；

将所述第一特征向量与预先存储的第二特征向量输入至所述目标分类器，输出似然分布数值；其中，所述第二特征向量是将目标用户的第二声纹数据输入至所述学生网络输出的；

在所述似然分布数值大于预设阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

可以看出，本申请实施例中，由于学生网络对第一声纹数据识别的训练过程，教师网络由于已经收敛，因此教师网络可以教授学生模型按照教师网络识别第二声纹数据的方式，识别第一声纹数据，提高学生模型对第一声纹数据识别的准确度，从而使得最终训练得到的声纹识别模型对时长较短的声纹数据的识别效果较好，因此，在对时长较短的声纹数据(即第一声纹数据)的识别过程中，可以通过声纹识别模型中的学生网络以及与学生网络连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

第三方面，本申请实施例还提供一种声纹识别模型训练装置，包括：

第一训练模块，用于将第一声纹数据分别输入至待训练模型包括的教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；

计算模块，用于计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量；

第一确定模块，用于在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络。

第四方面，本申请实施例还提供一种声纹识别装置，应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，所述声纹识别装置，包括：

获取模块，用于获取待识别用户的第一声纹数据；

第一输出模块，用于将所述第一声纹数据输入至所述学生网络，输出所述第一声纹数据对应的第一特征向量；

第二输出模块，用于将所述第一特征向量与预先存储的第二特征向量输入至所述目标分类器，输出似然分布数值；其中，所述第二特征向量是将目标用户的第二声纹数据输入至所述学生网络输出的；

第二确定模块，用于在所述似然分布数值大于预设阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

第五方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述声纹识别模型训练方法或者声纹识别方法中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述声纹识别模型训练方法或者声纹识别方法中的步骤。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种声纹识别模型训练方法的流程图；

图2是本申请实施例提供的另一种声纹识别模型训练方法的流程图；

图3是本申请实施例提供的一种待训练模型的结构示意图；

图4是本申请实施例提供的一种声纹识别方法的流程图；

图5是本申请实施例提供的一种声纹识别模型训练装置的结构示意图；

图6是本申请实施例提供的一种声纹识别装置的结构示意图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于在很多应用场景下，声纹数据的时长相对较短，但又需要进行准确的声纹识别，因此缺乏一种对时长较短的声纹数据的识别准确度较高的声纹识别模型，而现有技术中采用较短的时长的声纹数据训练得到的声纹识别模型的准确度均较低。

为了解决上述问题，本申请实施例考虑先利用长时声纹数据(即第二声纹数据)预训练教师网络，这样就使得教师网络能够保持长时声纹数据的模型效果，然后教师网络输入短时数据(即第一声纹数据)，并在短时数据的训练过程中进行微调，同时学生网络中也会输入短时数据进行训练，即在学生网络对第一声纹数据识别的训练过程，教师网络由于已经收敛，因此教师网络可以教授学生模型按照教师网络识别第二声纹数据的方式，识别第一声纹数据，提高学生模型对第一声纹数据识别的准确度，以及收敛的速率，即提高学生模型的训练速率。

另外，对教师模型输出的第一特征向量和学生网络输出的第二特征向量求均值，以得到第一均值向量，并可以根据第一均值向量判断是否满足第一预设条件，当满足第一预设条件时，可以确定得到声纹识别模型，当第一均值向量不满足第一预设条件时，可以根据第一均值向量调整学生网络的训练参数，最终达到学生网络收敛，以得到声纹识别模型。这样，最终训练得到的学生模型就综合了长时数据上训练模型的参数，以及短时数据的微调，使得模型在短时数据上表现变好，而又不过度损伤在长时数据上的准确效果，因此，提高了声纹识别模型对声纹数据的识别准确度。具体可以参见以下具体实施例。

参见图1，图1是本申请实施例提供的声纹识别模型训练方法的流程图，如图1所示，包括以下步骤：

步骤101、将第一声纹数据同时输入至待训练模型包括的教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长。

其中，第一声纹数据输入至教师网络和学生网络中的时刻可以相同，也可以不相同，例如：第一声纹数据可以在同一时刻分别输入至教师网络和学生网络中，当然，第一声纹数据也可以在第一时刻输入至教师网络中，且在第二时刻输入至学生网络中，而第一时刻和第二时刻可以为不同时刻，且第一时刻和第二时刻之间存在的时差较小，即可以认定第一时刻和第二时刻为较接近的时刻。

其中，每一份第一声纹数据的内容均可以是相同的内容，而输入至教师网络和学生网络中的第一声纹数据的份数可以相同，也可以不相同。例如：可以分别将一份第一声纹数据输入至教师网络和学生网络中；另外，还可以将一份第一声纹数据输入至教师网络中，将三份第一声纹数据输入至学生网络中。

其中，第一声纹数据和第二声纹数据也可以被称作为语音声纹特征向量或者声纹特征向量，而第一声纹数据和第二声纹数据的获取方式在此不做限定，例如：第一声纹数据和第二声纹数据可以从样本池中直接获取得到，即第一声纹数据和第二声纹数据为样本池中预先存在的声纹数据；另外，第一声纹数据和第二声纹数据也可以对音频进行提取得到。

另外，还可以对样本池中的样本数据进行数据扩增，数据扩增包括加噪声，加快语速，增加数据扰动等方式中的至少一种。

另外，上述数据扩增之后的样本数据可以分为训练集和测试集，而上述第一声纹数据和第二声纹数据可以为训练集中的数据，其中，训练集和测试集的比例在此不做限定，例如：可以为8:2。

需要说明的是，训练集中的数据可以分为两个数据集，一个数据集中用于存储第一声纹数据，即时长较短的声纹数据，另一个数据集中可以用于存储第二声纹数据，即时长较长的声纹数据。

其中，教师网络和学生网络的具体结构可以参见图3，教师网络和学生网络的区别点在于：两者包括的网络层的数量不同，例如：教师网络可以包括34层网络层，而学生网络可以包括18层网络层，上述网络层可以指的是resnet-fpn网络层。

参见图3，图3可以用于表示教师网络和学生网络的具体结构，其中，输入层用于输入向量特征，输出层用于输出向量特征，conv&bn为融合层，可以用于降低向量特征的维度(例如将二维向量降为一维向量)，而ResNetBlock用于表示不同的卷积层，其中，ResNetBlock包括的c3、c4、c5和p6可以分别用于表示对应的ResNetBlock卷积层抽取的特征，而ResNetBlock使得网络层的层数变深且可训练，还使得网络参数大幅减少，提升了网络性能的同时有效提升了网络效率，Fc-TDNN用于表示时延神经网络，在ResNetBlock后面接Fc-TDNN，可以使得模型可以更好的抓取音频时序信息。而P7、P6、P5、P4和P3用于表示抽取的特征，其中，输出层上可以同时输出上述P7、P6、P5、P4和P3等特征，而Temp2用于结合P5得到P4，Temp3用于结合P4得到P3。

需要说明的是，如图3所示，教师网络和学生网络的区别在于ResNetBlock的层数不同。另外，图3所示的结构可以被称作为特征金字塔(FPN)结构，由于底层特征(即基层特征如图3中的P4)中有较强的外形信息，高层特征(如P3，由于P3基于P4得到，因此，P4相对于P3即为底层特征，P3相对于P4即为高层特征)有较强的语义信息，将多种信息叠加形成特征金字塔，可有效提升对各种信息的表征能力。将其应用在声纹识别领域，可有效提升模型对声纹信息的多尺度映射能力。

作为一种可选的实施方式，所述教师网络和所述学生网络均为ResNet-FPN网络模型，且所述学生网络的网络层数量小于所述教师网络的网络层数量。这样，可以使得教师网络和学生网络的训练效果较好，同时，学生网络的网络层数量小于教师网络的网络层数量，即减少了学生网络的网络层数量，减少了学生网络的参数量，便于学生网络训练收敛，同时，由于第一声纹数据还可以被称作为短时声纹数据，则可以减少短时声纹数据对学生网络训练的影响。

其中，第二声纹数据的时长大于第一声纹数据的时长，则第二声纹数据可以被称作为长时声纹数据或者长时语音数据，而第一声纹数据可以被称作为短时声纹数据或者短时语音数据。

作为一种可选的实施方式，所述第一声纹数据的时长小于或等于第一时长，所述第二声纹数据的时长大于所述第一时长。其中，第一时长例如可以是3秒、4秒、或是其他值。这样，可以便于对第一声纹数据和第二声纹数据进行区分，以提高声纹数据的筛选速率。

另外，第一声纹数据和第二声纹数据的内容可以具有相关性，例如：第一声纹数据和第二声纹数据可以均属于同一个说话人的声纹数据，或者，第一声纹数据和第二声纹数据可以属于同一场景下的声纹数据。而第一声纹数据和第二声纹数据的区别点可以仅仅在于时长的不同。

需要说明的是，教师网络采用第二声纹数据进行训练的过程可以参见以下表述，也就是说教师网络根据第二声纹数据训练收敛的实现方式可以包括以下方式：

将所述第二声纹数据输入至所述教师网络中，进行第M次迭代训练，所述M为小于所述N的正整数；

在所述教师网络输出的第三特征向量满足第二预设条件的情况下，确定进行第M次迭代训练之后的教师网络收敛。

其中，第二声纹数据可以经过特征提取，从而得到第三特征向量，且第二声纹数据提取得到第三特征向量的过程可以被称作为x-vector特征提取，也就是说：第三特征向量也可以被称作为x-vector特征。

本实施方式中，采用第二声纹数据训练教师网络收敛，这样，可以使得教师网络对于长时声纹数据(长时声纹数据与第二声纹数据类似，时长均较长)的分类预测的准确度较高，即对长时声纹数据的识别中的准确度较高。

其中，第二声纹数据包括的特征在此不做限定，作为一种可选的实施方式，所述第二声纹数据包括语音特征、一阶差分特征和音色信息特征中的至少一种。这样，使得第二声纹数据包括的特征的种类较多，从而使得在训练教师网络时，使得教师网络对于特征的识别能力更强。

需要说明的是，当第二声纹数据包括语音特征、一阶差分特征和音色信息特征时，语音特征、一阶差分特征和音色信息特征可以组合形成三通道特征图，并将三通道特征图存储在数据库或者样本池中，使得对上述语音特征、一阶差分特征和音色信息特征的保存较为方便。

另外，在教师网络的训练过程中，教师网络可以先获取到上述三通道特征图，然后基于上述三通道特征图提取得到第三特征向量，从而使得第三特征向量的提取较为便捷。

其中，第二预设条件的具体内容在此不做限定，作为一种可选的实施方式，所述第二预设条件包括：特征向量对应的输出值与本次训练时输入至教师网络中的实际值之间的差值小于第二预设值。也就是说：当第三特征向量的输出值与所述第二声纹数据的实际值之间的差值小于第二预设值时，第三特征向量满足第二预设条件。

其中，第二预设条件的具体表述可以参见后文中第一预设条件的表述，本实施方式中的第三特征向量的输出值可以参见后文中第一均值向量的输出值的相关表述，第二声纹数据的实际值可以参见第一声纹数据的实际值的相关表述。

其中，第三特征向量的输出值可以在分类器中进行转化得到，即可以将第三特征向量输入至分类器中，分类器中输出上述输出值，而分类器可以嵌设于教师网络中，也可以与教师网络连接。

本实施方式中，第三特征向量对应的输出值与第二声纹数据的实际值之间的差值小于第二预设值时，可以认为教师网络对于第二声纹数据的分类预测概率贴近于实际分类值，教师网络是可用的，即可以判断第M次迭代训练之后的教师网络收敛，进而可以使得训练得到的教师网络对于长时声纹数据(长时声纹数据与第二声纹数据类似，时长均较长)的分类预测的准确度较高，即对长时声纹数据的识别中的准确度较高。

作为另一种可选的实施方式，所述第二预设条件包括：特征向量对应的输出值小于预设数值，也就是说：当第三特征向量对应的输出值小于预设数值，可以确定第三特征向量满足第二预设条件。即可以认为第三特征向量的输出值满足第二预设条件，即教师网络已经收敛。

步骤102、计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量。

其中，输入学生网络的第一声纹数据的数量在此不做限定，例如：输入学生网络的第一声纹数据的数量可以为1份、2份或者多份。

作为一种可选的实施方式，输入至所述学生网络中的第一声纹数据的数量为L份，所述L为大于1的正整数；

所述计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量，包括：

获取所述学生网络输出的L个第二特征向量，其中，所述第二特征向量与输入至所述学生网络中的第一声纹数据一一对应；

计算L个第二特征向量的第二均值向量；

获取所述教师网络输出的第一特征向量，并计算所述第一特征向量和所述第二均值向量的均值向量，以得到所述第一均值向量，其中，所述第一特征向量与输入至所述教师网络中的第一声纹数据对应。

本实施方式中，可以在学生网络中同时输入多份第一声纹数据，这样，同时输入多份第一声纹数据可以提高学生网络的训练效率，同时，在学生网络中同时输入多份第一声纹数据，使得学生网络输出多个第二特征向量，并基于多个第二特征向量计算得到第二均值向量，然后计算第二均值向量与第一特征向量的均值向量，以得到第一均值向量，这样，与依次输入多份第一声纹数据，使得学生网络进行多次训练的方式相比，本实施方式在减少训练次数的同时，保证了学生网络的训练强度较好，从而可以提高第一均值向量的准确度。

例如：参见图2，图2可以用于表示本申请实施例的各个流程，如图2所示，教师网络中输入了第一声纹数据，并输出了第一特征向量，而学生网络中同时输入了三份第一声纹数据，即第一声纹数据1、第一声纹数据2和第一声纹数据3，同时，经过学生网络后，可以输出第二特征向量1、第二特征向量2和第二特征向量3，而第一声纹数据1与第二特征向量1对应，第一声纹数据2与第二特征向量2对应，第一声纹数据3与第二特征向量3对应，然后可以计算第二特征向量1、第二特征向量2和第二特征向量3的第二均值向量，然后计算第二均值向量和第一特征向量的第一均值向量，并将第一均值向量输入至输出层(该输出层可以用于与分类器连接，具体可以参见上述关于分类器的相关表述)。

另外，如图2所示，教师网络中输出第一特征向量的同时，还可以为第一特征向量贴上软标签，用于区分和标记第一特征向量。

步骤103、在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络。

其中，第一预设条件的具体内容在此不做限定，作为一种可选的实施方式，所述第一预设条件包括：均值向量对应的输出值与本次训练时输入至待训练模型中的声纹数据的实际值之间的差值小于第一预设值，也就是说：当第一均值向量对应的输出值与所述第一声纹数据的实际值之间的差值小于第一预设值时，确定第一均值向量对应的输出值满足第一预设条件。

其中，第一均值向量对应的输出值可以为一个具体数值，输出值与第一均值向量为一一对应关系，而上述输出值可以由分类器转化得到，具体步骤可以是：将第一均值向量输入至分类器中，输出第一均值向量对应的输出值，而上述输出值可以理解为：待训练模型和分类器对于第一均值向量的分类预测概率。

需要说明的是，上述分类器可以嵌设于声纹识别模型(例如：嵌设于学生网络中)中，即分类器为声纹识别模型的一部分，当然，上述分类器也可以与声纹识别模型(如学生网络)连接，即可以作为与声纹识别模型连接的下一级网络层结构。

需要说明的是，当分类器嵌设于声纹识别模型中时，教师网络和学生网络中均可以嵌设有一个分类器，当分类器与声纹识别模型中时，分类器可以分别与教师网络和学生网络连接，或者，教师网络和学生网络可以分别连接有一个分类器。

而根据实际可知，第一声纹数据还可以对应有实际的分类值，而该实际的分类值也可以被称作为实际值，因而根据第一声纹数据的实际值可以求得第一均值向量的实际值(例如：可以为第一声纹数据的实际值)，而第一声纹数据的实际值可以存在于标识信息中，而标识信息可以为第一声纹数据的标识信息。

本实施方式中，第一均值向量对应的输出值与第一声纹数据的实际值之间的差值小于第一预设值时，可以认为待训练模型对于第一声纹数据的分类预测概率贴近于实际分类值，待训练模型是可用的，即可以判断待训练模型收敛，从而可以将进行第N次迭代训练后的待训练模型确定为声纹识别模型，进而可以使得训练得到的声纹识别模型的准确度较高。

另外，可以在后续的使用过程中使用上述声纹识别模型来对目标声纹数据进行分类，并判断目标声纹数据的说话人与数据库中预存的说话人是否为相同用户。

作为另一种可选的实施方式，所述第一预设条件包括：均值向量对应的输出值小于预设数值，也就是说：当第一均值向量对应的输出值小于预设数值时，确定第一均值向量对应的输出值满足第一预设条件，即学生网络已经收敛。

本实施例中，通过步骤101至104，采用第二声纹数据训练教师网络收敛，即使得教师网络对于第二声纹数据的识别准确度较高，同时在教师网络收敛的情况下，然后将第一声纹数据同时输入至教师网络和学生网络中，以使得学生网络学习教师网络的对第一声纹数据识别的方式，从而提高学生网络的训练效率和识别准确度，进而提高了学生网络对第一声纹数据的识别的准确度以及拟合能力。

也就是说，使用第二声纹数据预先训练教师网络，使得教师网络能够保持长时数据的模型效果，在教师网络已经收敛的情况下，然后采用第一声纹数据同时训练教师网络和学生网络，而学生网络可以学习教师网络的参数，即教师网络可以指导学生网络进行训练，从而提高学生网络的训练效率，同时，教师网络也可以在短时数据(即第一声纹数据)下进行微调。

另外，由于计算了教师网络输出的第一特征向量和学生网络输出的第二特征向量的第一均值向量，并基于第一均值向量判断待训练模型是否收敛，这样，使得最终训练得到的声纹识别模型可以综合了长时数据(即第二声纹数据)上训练模型的参数，以及短时数据的微调，使得模型在短时数据上表现变好，而又不过度损伤在长时数据上的准确效果。

需要说明的是，教师网络在采用第一声纹数据进行训练时，可以使用小学习率，同时，学生网络在采用第一声纹数据进行训练时，可以使用大学习率，由于教师网络已经经过了大量第二声纹数据的预训练，参数已经趋于收敛，而在采用第一声纹数据训练的过程中，由于短时数据(即第一声纹数据)的数据量比较少，如果给予教师网络这个大网络一个大学习率，则在训练过程中教师网络会很容易出现过拟合短时数据的现象，从而使得教师网络的学习效果较差，进而使得学生网络的学习效果更差。而教师网络采用小学习率则使得教师网络的网络参数变化较小，而学生网络采用大学习率学习短时的数据分布，并可以学习教师网络的预训练参数，从而可以提高学生网络的训练效率。

参见图4，图4是本申请实施例提供的声纹识别方法的流程图，该方法应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，如图4所示，包括以下步骤：

步骤401、获取待识别用户的第一声纹数据。

步骤402、将所述第一声纹数据输入至所述学生网络，输出所述第一声纹数据对应的第一特征向量。

步骤403、将所述第一特征向量与预先存储的第二特征向量输入至所述目标分类器，输出似然分布数值；其中，所述第二特征向量是将目标用户的第二声纹数据输入至所述学生网络输出的。

步骤404、在所述似然分布数值大于预设阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

需要说明的是，第一特征向量和第二特征向量可以均为x-vector特征，而x-vector特征是深度神经网络所提取出的神经网络特征。

其中，第二特征向量可以理解为预先采集的目标用户的第二声纹数据对应的特征向量，可以存储在数据库对应的服务器上。

其中，目标分类器的种类在此不做限定，例如：目标分类器可以为plda分类器，即plda分类器中可以运行有plda算法，这样，plda分类器输出的似然分布数值的准确度较高，从而使得待识别用户与目标用户是否为相同用户的判断结果的准确度也更高。

其中，上述似然分布数值也可以理解为相似度，即似然分布数值越大，则待识别用户和目标用户为相同用户的可能性越高。

本申请实施例中，可以通过声纹识别模型中的学生网络以及与学生网络连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

参见图5，图5是本申请实施例提供的声纹识别模型训练装置的结构图，能实现上述实施例中声纹识别模型训练方法的细节，并达到相同的效果。声纹识别模型训练装置应用于待训练模型，所述待训练模型包括教师网络和学生网络，如图5所示，声纹识别模型训练装置500包括：

第一训练模块501，用于将第一声纹数据分别输入至待训练模型包括教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；

计算模块502，用于计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量；

第一确定模块503，用于在所述第一均值向量对应的输出值满足第一预设条件的情况下，将进行第N次迭代训练后的待训练模型确定为声纹识别模型，所述声纹识别模型包括进行第N次迭代训练后的教师网络和学生网络。

可选地，所述第一预设条件包括：均值向量对应的输出值与本次训练时输入至待训练模型中的声纹数据的实际值之间的差值小于第一预设值。

可选地，所述教师网络根据第二声纹数据训练收敛的实现方式有：

第二训练模块，用于将所述第二声纹数据输入至所述教师网络中，进行第M次迭代训练，所述M为小于所述N的正整数；

第三确定模块，用于在所述教师网络输出的第三特征向量满足第二预设条件的情况下，确定进行第M次迭代训练之后的教师网络收敛。

可选地，所述第二预设条件包括：特征向量对应的输出值与本次训练时输入至教师网络中的实际值之间的差值小于第二预设值。

可选地，所述第二声纹数据包括语音特征、一阶差分特征和音色信息特征中的至少一种。

可选地，输入至所述学生网络中的第一声纹数据的数量为L份，所述L为大于1的正整数；

计算模块502，包括：

获取子模块，用于获取所述学生网络输出的L个第二特征向量，其中，所述第二特征向量与输入至所述学生网络中的第一声纹数据一一对应；

第一计算子模块，用于计算L个第二特征向量的第二均值向量；

第二计算子模块，用于获取所述教师网络输出的第一特征向量，并计算所述第一特征向量和所述第二均值向量的均值向量，以得到所述第一均值向量，其中，所述第一特征向量与输入至所述教师网络中的第一声纹数据对应。

可选地，所述教师网络和所述学生网络均为ResNet-FPN网络模型，且所述学生网络的网络层数量小于所述教师网络的网络层数量。

本申请实施例提供的声纹识别模型训练装置能够实现图1的方法实施例中声纹识别模型训练装置实现的各个过程，为避免重复，这里不再赘述。

这样，采用第二声纹数据训练教师网络收敛，即使得教师网络对于第二声纹数据的识别准确度较高，同时在教师网络收敛的情况下，然后将第一声纹数据同时输入至教师网络和学生网络中，以使得学生网络学习教师网络的对第一声纹数据识别的方式，从而提高学生网络的训练效率和识别准确度，进而提高了学生网络对第一声纹数据的识别的准确度。

参见图6，图6为本申请实施例提供的一种声纹识别装置的结构示意图，声纹识别装置应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，如图6所示，所述声纹识别装置600，包括：

获取模块601，用于获取待识别用户的第一声纹数据；

第一输出模块602，用于将所述第一声纹数据输入至所述学生网络，输出所述第一声纹数据对应的第一特征向量；

第二输出模块603，用于将所述第一特征向量与预先存储的第二特征向量输入至所述目标分类器，输出似然分布数值；其中，所述第二特征向量是将目标用户的第二声纹数据输入至所述学生网络输出的；

第二确定模块604，用于在所述似然分布数值大于预设阈值的情况下，确定所述待识别用户和所述目标用户为相同用户。

本申请实施例提供的声纹识别装置能够实现图4的方法实施例中声纹识别装置实现的各个过程，为避免重复，这里不再赘述。

这样，可以通过声纹识别模型中的学生网络以及与学生网络连接的目标分类器来判断待识别用户与目标用户是否为相同用户，从而提高了对待识别用户的声纹数据的识别结果的准确度，减小了因不能准确识别待识别用户的声纹数据所造成的损失。

图7为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解，图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本申请实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，当电子设备用于执行声纹识别模型训练方法中的步骤时，处理器710，用于执行以下操作：

将第一声纹数据同时输入至待训练模型包括的教师网络和学生网络中，进行第N次迭代训练；其中，所述N为正整数，所述教师网络已根据第二声纹数据训练收敛，且所述第二声纹数据的时长大于所述第一声纹数据的时长；

处理器710执行的所述计算所述教师网络输出的第一特征向量和所述学生网络输出的第二特征向量的第一均值向量，包括：

计算L个第二特征向量的第二均值向量；

其中，当电子设备用于执行声纹识别方法中的步骤时，处理器710，用于执行以下操作：

获取待识别用户的第一声纹数据；

应理解的是，本申请实施例中，射频单元701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器710处理；另外，将上行的数据发送给基站。通常，射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。

输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。

电子设备700还包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度，接近传感器可在电子设备700移动到耳边时，关闭显示面板7061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。

用户输入单元707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器710，接收处理器710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071，用户输入单元707还可以包括其他输入设备7072。具体地，其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板7071可覆盖在显示面板7061上，当触控面板7071检测到在其上或附近的触摸操作后，传送给处理器710以确定触摸事件的类型，随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中，触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元708为外部装置与电子设备700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器709内的软件程序和/或模块，以及调用存储在存储器709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元；优选的，处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

电子设备700还可以包括给各个部件供电的电源711(比如电池)，优选的，电源711可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备700包括一些未示出的功能模块，在此不再赘述。

优选的，本申请实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法的各个过程，且能达到相同的技术效果，这里不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器710执行时实现上述声纹识别模型训练方法或者上述声纹识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种声纹识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一预设条件包括：均值向量对应的输出值与本次训练时输入至待训练模型中的声纹数据的实际值之间的差值小于第一预设值。

3.根据权利要求1所述的方法，其特征在于，所述教师网络根据第二声纹数据训练收敛的实现方式有：

4.根据权利要求3所述的方法，其特征在于，所述第二预设条件包括：特征向量对应的输出值与本次训练时输入至教师网络中的实际值之间的差值小于第二预设值。

5.根据权利要求3所述的方法，其特征在于，所述第二声纹数据包括语音特征、一阶差分特征和音色信息特征中的至少一种。

6.根据权利要求1所述的方法，其特征在于，输入至所述学生网络中的第一声纹数据的数量为L份，所述L为大于1的正整数；

计算L个第二特征向量的第二均值向量；

7.根据权利要求1所述的方法，其特征在于，所述教师网络和所述学生网络均为ResNet-FPN网络模型，且所述学生网络的网络层数量小于所述教师网络的网络层数量。

8.一种声纹识别方法，其特征在于，应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，所述方法包括：

获取待识别用户的第一声纹数据；

9.一种声纹识别模型训练装置，其特征在于，包括：

10.一种声纹识别装置，其特征在于，应用于声纹识别模型包括的学生网络，所述学生网络与目标分类器连接，所述声纹识别装置，包括：

获取模块，用于获取待识别用户的第一声纹数据；

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的声纹识别模型训练方法中的步骤，或者，所述处理器执行所述计算机程序时实现如权利要求8所述的声纹识别方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的声纹识别模型训练方法中的步骤，或者，所述计算机程序被处理器执行时实现如权利要求8所述的声纹识别方法中的步骤。