CN116189687B

CN116189687B - 一种声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN116189687B
Application number: CN202310465483.1A
Authority: CN
Inventors: 邓菁; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-21
Anticipated expiration: 2043-04-27
Also published as: CN116189687A

Abstract

本申请提供了一种声纹识别方法、装置、电子设备及存储介质，包括：将待识别语音输入至声纹检测模型的深度降噪网络层之中，对待识别语音进行短时傅里叶特征提取，并对短时傅里叶特征依次经过特征编码和特征解码处理后，输出待识别语音的降噪后的短时傅里叶特征；将降噪后的短时傅里叶特征输入至声纹识别网络层之中，输出待识别语音的声纹特征；基于声纹特征与目标用户的预设声纹特征，确定出声纹特征与预设声纹特征是否为同一个体。通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失，使得语音降噪的同时，保留足够多的声纹信息，提高了声纹识别的准确性。

Description

一种声纹识别方法、装置、电子设备及存储介质

技术领域

本申请涉及声纹检测技术领域，尤其是涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术

声纹是用声学仪器显示出的携带信息的声波频谱。人的发声器官个体差异性很大，而每个人的声学特征具有相对稳定性。声纹识别，又称说话人识别，通过从说话人的语音中提取出声纹特征，来建立模型以识别说话人的身份。声纹相较虹膜、指纹、人脸等其他生物特征，具有非接触、易采集、特征稳定、不易盗取和模仿等特点。因此，声纹识别的应用领域十分广泛，在刑侦鉴定、金融安全、智能家居等领域的需求颇多。

在训练数据中采用语音增强的方式，是目前声纹识别系统普遍采用的方式，在使用语音降噪的方式下，虽然含噪语音通过处理后，在听感上有一定提升，但是降噪算法训练的衡量指标，都是以语音质量为标准的，并没有考虑声纹信息的质量，因此往往经过语音降噪后，声纹识别系统的性能反而下降了。所以，如何提高声纹识别的准确性成为了不容小觑的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种声纹识别方法、装置、电子设备及存储介质，通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到声纹检测模型，使得语音降噪的同时，保留足够多的声纹信息，以满足后端声纹识别系统的要求，提高了声纹识别的准确性。

本申请实施例提供了一种声纹识别方法，所述声纹识别方法包括：

将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；

将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；

基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。

在一种可能的实施方式中，通过以下步骤确定出所述声纹检测模型：

获取目标样本语音以及对所述目标样本语音进行数据增强确定出来的含噪目标样本语音；

将所述含噪目标样本语音输入至深度降噪网络层之中，输出降噪目标样本语音，基于所述降噪目标样本语音和所述目标样本语音确定出所述降噪目标样本语音与所述目标样本语音之间的信噪比损失值；

基于所述降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值，基于所述目标样本语音以及所述降噪目标样本语音的短时傅里叶特征确定出均方误差损失值；

基于所述均方误差损失值以及所述交叉熵损失值对多个所述声纹识别网络层的网络参数进行更新，基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出所述声纹检测模型；其中，多个所述声纹识别网络层包括第一声纹识别网络层和第二声纹识别网络层。

在一种可能的实施方式中，所述基于所述降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值，包括：

将所述降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，对所述降噪目标样本语音的短时傅里叶特征的声纹特征进行提取，输出所述降噪目标样本语音的声纹特征；

基于归一化指数函数对所述降噪目标样本语音的声纹特征进行归一化处理，输出所述降噪目标样本语音的标签信息；

确定出所述降噪目标样本语音的标签信息与所述降噪目标样本语音的真实标签之间的交叉熵损失值。

在一种可能的实施方式中，所述基于所述目标样本语音以及所述降噪目标样本语音的短时傅里叶特征确定出均方误差损失值，包括：

将所述目标样本语音的短时傅里叶特征输入至所述第二声纹识别网络层之中，输出所述目标样本语音的声纹特征；

将所述降噪目标样本语音的短时傅里叶特征输入至所述第一声纹识别网络层之中，输出所述降噪目标样本语音的声纹特征；

基于均方差损失函数确定出所述目标样本语音的声纹特征与所述降噪目标样本语音的声纹特征之间的均方误差损失值。

在一种可能的实施方式中，所述基于所述均方误差损失值以及所述交叉熵损失值对多个所述声纹识别网络层的网络参数进行更新，基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出所述声纹检测模型，包括：

将所述均方误差损失值以及所述交叉熵损失值相加，确定出目标损失值；

基于所述目标损失值更新所述第一声纹识别网络层以及所述第二声纹识别网络层的网络参数，确定出更新后的所述第一声纹识别网络层以及更新后的所述第二声纹识别网络层；

基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出更新后的所述深度降噪网络层；

对所述更新后的所述第一声纹识别网络层、更新后的所述第二声纹识别网络层以及更新后的所述深度降噪网络层进行迭代训练，直至满足预设迭代次数时停止对所述神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层的训练，确定出所述声纹检测模型。

在一种可能的实施方式中，通过以下步骤确定出所述降噪目标样本语音的短时傅里叶特征：

将所述含噪目标样本语音输入至所述深度降噪网络层之中的短时傅里叶特征提取模块，输出所述含噪目标样本语音的短时傅里叶特征；

将所述含噪目标样本语音的短时傅里叶特征输入至所述深度降噪网络层之中的编码器模块，对所述含噪目标样本语音的短时傅里叶特征进行编码处理，输出编码后的所述含噪目标样本语音的短时傅里叶特征；

将所述编码后的所述含噪目标样本语音的短时傅里叶特征输入至深度降噪网络层之中的解码器模块，对所述编码后的所述含噪目标样本语音的短时傅里叶特征进行解码处理，确定出所述降噪目标样本语音的短时傅里叶特征。

在一种可能的实施方式中，所述基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体，包括：

确定出所述声纹特征与所述预设声纹特征之间的余弦距离值；

检测所述余弦距离值是否大于预设余弦距离值；

若是，则所述声纹特征与所述预设声纹特征为同一个体；

若否，则所述声纹特征与所述预设声纹特征不为同一个体。

本申请实施例还提供了一种声纹识别装置，所述声纹识别装置包括：

降噪模块，用于将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；

声纹提取模块，用于将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；

判断模块，用于基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的声纹识别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的声纹识别方法的步骤。

本申请实施例提供的一种声纹识别方法、装置、电子设备及存储介质，所述声纹识别方法包括：将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到声纹检测模型，使得语音降噪的同时，保留足够多的声纹信息，以满足后端声纹识别系统的要求，提高了声纹识别的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种声纹识别方法的流程图；

图2为本申请实施例所提供的声纹检测模型训练的示意图；

图3为本申请实施例所提供的一种声纹识别装置的结构示意图之一；

图4为本申请实施例所提供的一种声纹识别装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“声纹识别”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行声纹识别的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供的一种声纹识别方法、装置、电子设备及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于声纹检测技术领域。

经研究发现，在训练数据中采用语音增强的方式，是目前声纹识别系统普遍采用的方式，在使用语音降噪的方式下，虽然含噪语音通过处理后，在听感上有一定提升，但是降噪算法训练的衡量指标，都是以语音质量为标准的，并没有考虑声纹信息的质量，因此往往经过语音降噪后，声纹识别系统的性能反而下降了。所以，如何提高声纹识别的准确性成为了不容小觑的技术问题。

基于此，本申请实施例提供了一种声纹识别方法，通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到声纹检测模型，使得语音降噪的同时，保留足够多的声纹信息，以满足后端声纹识别系统的要求，提高了声纹识别的准确性。

请参阅图1，图1为本申请实施例所提供的一种声纹识别方法的流程图。如图1中所示，本申请实施例提供的声纹识别方法，包括：

S101：将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征。

该步骤中，将待识别语音输入到声纹检测模型的深度降噪网络层之中，对待识别语音进行短时傅里叶特征提取，然后对短时傅里叶特征依次经过特征编码和特征解码处理后，深度降噪网络层输出待识别语音的降噪后的所述短时傅里叶特征。

这里，声纹检测模型为神经网络模型，深度降噪网络层为DCCRN，（Deep ComplexConvolution Recurrent Network），声纹识别网络层为ECAPA-TDNN,(Emphasized ChannelAttention, Propagation and Aggregation in TDNN）。

这里，深度降噪网络层之中存有编码器模块和解码器模块，可以对短时傅里叶特征进行特征编码和特征解码处理。

S102：将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征。

该步骤中，将降噪后的短时傅里叶特征输入至声纹检测模型的声纹识别网络层之中，在声纹识别网络之中对降噪后的短时傅里叶特征的声纹信息进行提取，输出待识别语音的声纹特征。

其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的。

A：获取目标样本语音以及对所述目标样本语音进行数据增强确定出来的含噪目标样本语音。

这里，获取目标样本语音和对目标样本语音进行数据增强确定出来的含噪目标样本语音。

其中，在训练数据准备阶段，采用数据增强的方式，将目标样本语音y（干净样本语音）变为y'（含噪目标样本语音），这里数据增强的方式有加噪（环境噪声、背景人声）、加混响等其他方式。

B：将所述含噪目标样本语音输入至深度降噪网络层之中，输出降噪目标样本语音，基于所述降噪目标样本语音和所述目标样本语音确定出所述降噪目标样本语音与所述目标样本语音之间的信噪比损失值。

这里，将含噪目标样本语音输入至深度降噪网络层之中，对含噪目标样本语音进行降噪处理，输出降噪目标样本语音，利用信噪比算是函数确定出降噪目标样本语音与目标样本语音之间的信噪比损失值。

这里，通过以下公式计算出目标样本语音与目标样本语音之间的信噪比损失值：

其中，为降噪目标样本语音，s为含噪目标样本语音，Starget为目标样本语音，是元素内积运算，/>是L2Norm(欧几里德距离)范式。该loss函数描述了深度降噪网络层输出信号与原始信号的失真度，SISNR为降噪目标样本语音与目标样本语音之间的信噪比损失值，信噪比损失值是用来评估深度降噪网络层的预测值与真实值不一致的程度，衡量深度降噪网络层预测的好坏，也是神经网络中优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程，损失函数越小，说明深度降噪网络层的预测值就越接近真实值，深度降噪网络层的训练效果也就越好。

C：基于所述降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值，基于所述目标样本语音以及所述降噪目标样本语音的短时傅里叶特征确定出均方误差损失值。

这里，根据降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值，根据目标样本语音以及降噪目标样本语音的短时傅里叶特征确定出均方误差损失值。

其中，交叉熵损失值为降噪目标样本语音的标签信息与降噪目标样本语音的真实标签之间的交叉熵损失值。

其中，均方误差损失值为目标样本语音的声纹特征与降噪目标样本语音的声纹特征之间的均方误差损失值。

a：将所述降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，对所述降噪目标样本语音的短时傅里叶特征的声纹特征进行提取，输出所述降噪目标样本语音的声纹特征。

这里，将降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，对降噪目标样本语音的短时傅里叶特征的声纹特征进行提取，输出降噪目标样本语音的声纹特征。

其中，在本方案中对深度降噪网络层的输出做一些修改，增加一路输出，即降噪目标样本语音的短时傅里叶特征作为第一声纹识别网络层网络的输入，输入维度是[B,T,D]，这里B是batch-size，T是特征序列的长度，D是特征的维度，第一声纹识别网络层输出的降噪目标样本语音的声纹特征的特征维度为[B,D]，B是batch-size，D是说话人向量维度。

b：基于归一化指数函数对所述降噪目标样本语音的声纹特征进行归一化处理，输出所述降噪目标样本语音的标签信息。

这里，根据归一化指数函数对降噪目标样本语音的声纹特征进行归一化处理，输出降噪目标样本语音的标签信息。

c：确定出所述降噪目标样本语音的标签信息与所述降噪目标样本语音的真实标签之间的交叉熵损失值。

这里，确定出降噪目标样本语音的标签信息与降噪目标样本语音的真实标签之间的交叉熵损失值。

（1）：将所述目标样本语音的短时傅里叶特征输入至所述第二声纹识别网络层之中，输出所述目标样本语音的声纹特征。

这里，将目标样本语音的短时傅里叶特征输入至第二声纹识别网络层之中，对目标样本语音的短时傅里叶特征进行声纹提取，输出目标样本语音的声纹特征。

（2）：将所述降噪目标样本语音的短时傅里叶特征输入至所述第一声纹识别网络层之中，输出所述降噪目标样本语音的声纹特征。

这里，将降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，输出降噪目标样本语音的声纹特征。

（3）：基于均方差损失函数确定出所述目标样本语音的声纹特征与所述降噪目标样本语音的声纹特征之间的均方误差损失值。

这里，根据均方差损失函数确定出目标样本语音的声纹特征与降噪目标样本语音的声纹特征之间的均方误差损失值。

这里，对目标样本语音提取STFT特征序列，得到目标样本语音的短时傅里叶特征，将目标样本语音的短时傅里叶特征输入至第二声纹识别网络层之中，将降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，对第一声纹识别网络层和第二声纹识别网络的输出，计算均方损失函数（MSE LOSS，Mean Square Error Loss）。这里MSE LOSS用于描述降噪后语音提取的说话人特征与原始语音提取的说话人特征间的差异。其中，第一声纹识别网络层和第二声纹识别网络层是复制的，第二声纹识别网络层共享第一声纹识别网络层的所有网络参数。

I：将所述均方误差损失值以及所述交叉熵损失值相加，确定出目标损失值；基于所述目标损失值更新所述第一声纹识别网络层以及所述第二声纹识别网络层的网络参数，确定出更新后的所述第一声纹识别网络层以及更新后的所述第二声纹识别网络层。

这里，将均方误差损失值以及交叉熵损失值相加，确定出目标损失值；根据目标损失值更新第一声纹识别网络层以及第二声纹识别网络层的网络参数，确定出更新后的第一声纹识别网络层以及更新后的第二声纹识别网络层。

II：基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出更新后的所述深度降噪网络层。

这里，根据信噪比损失值对深度降噪网络层的网络参数更新，确定出更新后的深度降噪网络层。

III：对所述更新后的所述第一声纹识别网络层、更新后的所述第二声纹识别网络层以及更新后的所述深度降噪网络层进行迭代训练，直至满足预设迭代次数时停止对所述神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层的训练，确定出所述声纹检测模型。

这里，对更新后的第一声纹识别网络层、更新后的第二声纹识别网络层以及更新后的深度降噪网络层进行迭代训练，直至满足预设迭代次数时停止神经网络模型之中的深度降噪网络层以及多个声纹识别网络层的训练，生成声纹检测模型。

i：将所述含噪目标样本语音输入至所述深度降噪网络层之中的短时傅里叶特征提取模块，输出所述含噪目标样本语音的短时傅里叶特征。

这里，将含噪目标样本语音输入至深度降噪网络层之中的短时傅里叶特征提取模块，输出含噪目标样本语音的短时傅里叶特征。

ii：将所述含噪目标样本语音的短时傅里叶特征输入至所述深度降噪网络层之中的编码器模块，对所述含噪目标样本语音的短时傅里叶特征进行编码处理，输出编码后的所述含噪目标样本语音的短时傅里叶特征。

这里，将含噪目标样本语音的短时傅里叶特征输入至深度降噪网络层之中的编码器模块，对含噪目标样本语音的短时傅里叶特征进行编码处理，输出编码后的含噪目标样本语音的短时傅里叶特征。

iii：将所述编码后的所述含噪目标样本语音的短时傅里叶特征输入至深度降噪网络层之中的解码器模块，对所述编码后的所述含噪目标样本语音的短时傅里叶特征进行解码处理，确定出所述降噪目标样本语音的短时傅里叶特征。

这里，将编码后的含噪目标样本语音的短时傅里叶特征输入至深度降噪网络层之中的解码器模块，对编码后的所述含噪目标样本语音的短时傅里叶特征进行解码处理，确定出降噪目标样本语音的短时傅里叶特征。

S103：基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。

该步骤中，根据声纹特征与目标用户的预设声纹特征，确定出声纹特征与预设声纹特征是否为同一个体。

确定出所述声纹特征与所述预设声纹特征之间的余弦距离值；检测所述余弦距离值是否大于预设余弦距离值；若是，则所述声纹特征与所述预设声纹特征为同一个体；若否，则所述声纹特征与所述预设声纹特征不为同一个体。

这里，计算出声纹特征与预设声纹特征之间的余弦距离值，检测余弦距离值是否大于预设余弦距离值；若是，则声纹特征与预设声纹特征为同一个体；若否，则声纹特征与预设声纹特征不为同一个体。

进一步的，请参阅图2，图2为本申请实施例所提供的声纹检测模型训练的示意图，如图2所示，含噪目标样本语音输入至深度降噪网络层之中，输出降噪目标样本语音，降噪目标样本语音与目标样本语音计算出信噪比损失值，将降噪目标样本语音的短时傅里叶特征输入至第一声纹识别网络层之中，输出降噪目标样本语音的声纹特征，根据归一化指数函数对降噪目标样本语音的声纹特征进行归一化处理，输出降噪目标样本语音的标签信息，确定出降噪目标样本语音的标签信息与降噪目标样本语音的真实标签之间的交叉熵损失值。将目标样本语音的短时傅里叶特征输入至第二声纹识别网络层之中，输出目标样本语音的声纹特征，根据均方差损失函数确定出目标样本语音的声纹特征与降噪目标样本语音的声纹特征之间的均方误差损失值。

本方案的测试数据集，含有100个说话人，录音场景包括安静和户外两种；录音距离包括0.5m，1.0m，1.5m；环境噪声包括：音乐、人声和车噪；每个说话人每种条件下录制20条语音，每条语音长度约为4-8个字。每个说话人使用安静场景下，0.5m的5条语音，作为建模语音，其余语音作为测试语音。采用的比对系统有：（1）采用数据增强方式训练的EcapaTDNN模型，记为系统A；（2）先使用DCCRN进行降噪，然后将使用EcapaTDNN模型进行声纹识别，记为系统B；（3）使用本方案的系统，记为系统C。测试评价指标为等错误率（EER），结果如下：A系统的等错误率为17.69%，B系统的等错误率为24.35%，C系统的等错误率为10.23%。

本申请实施例提供的一种声纹识别方法，所述声纹识别方法包括：将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到声纹检测模型，使得语音降噪的同时，保留足够多的声纹信息，以满足后端声纹识别系统的要求，提高了声纹识别的准确性。

请参阅图3、图4，图3为本申请实施例所提供的一种声纹识别装置的结构示意图之一；图4为本申请实施例所提供的一种声纹识别装置的结构示意图之二。如图3中所示，所述声纹识别装置300包括：

降噪模块310，用于将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；

声纹提取模块320，用于将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；

判断模块330，用于基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。

进一步的，如图4所示，声纹识别装置300还包括训练模块340，训练模块340，通过以下步骤确定出所述声纹检测模型：

进一步的，训练模块340在用于所述基于所述降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值时，训练模块340具体用于：

进一步的，训练模块340在用于所述基于所述目标样本语音以及所述降噪目标样本语音的短时傅里叶特征确定出均方误差损失值时，训练模块340具体用于：

进一步的，训练模块340在用于所述基于所述均方误差损失值以及所述交叉熵损失值对多个所述声纹识别网络层的网络参数进行更新，基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出所述声纹检测模型时，训练模块340具体用于：

进一步的，训练模块340通过以下步骤确定出所述降噪目标样本语音的短时傅里叶特征：

进一步的，判断模块330在用于所述基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体时，判断模块330具体用于：

检测所述余弦距离值是否大于预设余弦距离值；

若是，则所述声纹特征与所述预设声纹特征为同一个体；

若否，则所述声纹特征与所述预设声纹特征不为同一个体。

本申请实施例提供的一种声纹识别装置，所述声纹识别装置包括：降噪模块，用于将待识别语音输入至预先训练好的声纹检测模型的深度降噪网络层之中，对所述待识别语音进行短时傅里叶特征提取，并对所述短时傅里叶特征依次经过特征编码和特征解码处理后，输出所述待识别语音的降噪后的所述短时傅里叶特征；声纹提取模块，用于将降噪后的所述短时傅里叶特征输入至所述声纹检测模型的声纹识别网络层之中，输出所述待识别语音的声纹特征；其中，所述声纹检测模型是通过对神经网络模型之中的所述深度降噪网络层以及多个所述声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到的；判断模块，用于基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体。通过对神经网络模型之中的深度降噪网络层以及多个声纹识别网络层联合训练，并在目标样本语音降噪的过程中加入声纹特征的目标损失值得到声纹检测模型，使得语音降噪的同时，保留足够多的声纹信息，以满足后端声纹识别系统的要求，提高了声纹识别的准确性。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1所示方法实施例中的声纹识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的声纹识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种声纹识别方法，其特征在于，所述声纹识别方法包括：

基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体；

通过以下步骤确定出所述声纹检测模型：

2.根据权利要求1所述的声纹识别方法，其特征在于，所述基于所述降噪目标样本语音的短时傅里叶特征确定出交叉熵损失值，包括：

3.根据权利要求1所述的声纹识别方法，其特征在于，所述基于所述目标样本语音以及所述降噪目标样本语音的短时傅里叶特征确定出均方误差损失值，包括：

4.根据权利要求1所述的声纹识别方法，其特征在于，所述基于所述均方误差损失值以及所述交叉熵损失值对多个所述声纹识别网络层的网络参数进行更新，基于所述信噪比损失值对所述深度降噪网络层的网络参数更新，确定出所述声纹检测模型，包括：

5.根据权利要求1所述的声纹识别方法，其特征在于，通过以下步骤确定出所述降噪目标样本语音的短时傅里叶特征：

6.根据权利要求1所述的声纹识别方法，其特征在于，所述基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体，包括：

检测所述余弦距离值是否大于预设余弦距离值；

若是，则所述声纹特征与所述预设声纹特征为同一个体；

若否，则所述声纹特征与所述预设声纹特征不为同一个体。

7.一种声纹识别装置，其特征在于，所述声纹识别装置包括：

判断模块，用于基于所述声纹特征与目标用户的预设声纹特征，确定出所述声纹特征与所述预设声纹特征是否为同一个体；

声纹识别装置还包括训练模块，训练模块通过以下步骤确定出所述声纹检测模型：

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的声纹识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的声纹识别方法的步骤。