CN113793615B

CN113793615B - 说话人识别方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN113793615B
Application number: CN202111082894.XA
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-02-27
Anticipated expiration: 2041-09-15
Also published as: CN113793615A

Abstract

本公开提供了说话人识别方法、模型训练方法、装置、设备及存储介质，涉及信息处理技术领域，尤其涉及信息识别技术领域。上述说话人识别方法的具体实现方案为：获得待识别人所发出语音的第一语音特征；对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；根据所述第一说话人特征与所述第二说话人特征，获取所述待识别人与所述已知说话人之间的相似度；基于所述相似度，识别所述待识别人。应用本公开实施例提供的方案进行说话人识别时，提高了说话人识别的准确度。

Description

说话人识别方法、模型训练方法、装置、设备及存储介质

技术领域

本公开涉及信息处理技术领域，尤其涉及信息识别技术领域，进一步涉及说话人识别方法、模型训练方法、装置、设备及存储介质。

背景技术

人通过发音器官发出语音，向外界传递想要表达的各种信息。由于不同人的舌头、牙齿、口腔、声带、肺、鼻腔等发音器官的尺寸以及形态存在差异，因此，不同的人发出的语音也各不相同。鉴于上述情况，可以基于语音进行说话人识别，从而确定说话人。

发明内容

本公开提供了一种说话人识别方法、模型训练方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种说话人识别方法，包括：

获得待识别人所发出语音的第一语音特征；

对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

根据所述第一说话人特征与所述第二说话人特征，获取所述待识别人与已知说话人之间的相似度；

基于所述相似度，识别所述待识别人。

根据本公开的另一方面，提供了一种模型训练方法，包括：

获得第一样本已知说话人所发出语音的第一样本语音特征和第二样本已知说话人所发出语音的第二样本语音特征；

将所述第一样本语音特征和所述第二样本语音特征输入预设的神经网络模型，得到所述第一样本已知说话人和所述第二样本已知说话人之间的样本相似度，其中，所述样本相似度为根据所述第一样本说话人特征与第二样本说话人特征计算得到的相似度，所述第一样本说话人特征为对所述第一样本语音特征进行特征提取得到的说话人特征，所述第二样本说话人特征为对所述第二样本语音特征进行特征提取得到的说话人特征，说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

根据所述第一样本已知说话人与所述第二样本已知说话人之间的实际相似度及所述样本相似度，计算所述神经网络模型的第一损失值；

根据所述第一损失值调整所述神经网络模型的模型参数。

根据本公开的另一方面，提供了一种说话人识别装置，包括：

第一特征获得模块，用于获得待识别人所发出语音的第一语音特征；

特征提取模块，用于对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，所述说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

相似度获取模块，用于根据所述第一说话人特征与所述第二说话人特征，获取所述待识别人与已知说话人之间的相似度；

识别人识别模块，用于基于所述相似度，识别所述待识别人。

根据本公开的另一方面，提供了一种模型训练装置，包括：

第二特征获得模块，用于获得第一样本已知说话人所发出语音的第一样本语音特征和第二样本已知说话人所发出语音的第二样本语音特征；

相似度获得模块，用于将所述第一样本语音特征和所述第二样本语音特征输入预设的神经网络模型，得到所述第一样本已知说话人和所述第二样本已知说话人之间的样本相似度，其中，所述样本相似度为根据所述第一样本说话人特征与第二样本说话人特征计算得到的相似度，所述第一样本说话人特征为对所述第一样本语音特征进行特征提取得到的说话人特征，所述第二样本说话人特征为对所述第二样本语音特征进行特征提取得到的说话人特征，说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

第一损失值计算模块，用于根据所述第一样本已知说话人与所述第二样本已知说话人之间的实际相似度及所述样本相似度，计算所述神经网络模型的第一损失值；

参数调整模块，用于根据所述第一损失值调整所述神经网络模型的模型参数。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述说话人识别或模型训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行说话人识别或模型训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现说话人识别或模型训练方法。

由以上可见，应用本公开实施例提供的方案进行说话人识别时，通过对待识别人所发出语音的第一语音特征进行特征提取，获得了待识别人的第一说话人特征，由于说话人特征中不仅包括表征说话人发音器官的生理结构的结构特征，而且包括说话人声音的描述特征，所以，第一说话人特征能够表征待识别人。另外，本公开实施例提供的方案中，还获得了已知说话人的第二说话人特征，这一特征能够表征已知说话人，因此，通过对比第一说话人特征和第二说话人特征，能够对比出待识别人与已知说话人之间的相似度，进而能够准确识别出待识别人。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的第一种说话人识别方法的流程示意图；

图2为本公开实施例提供的第二种说话人识别方法的流程示意图；

图3为本公开实施例提供的第三种说话人识别方法的流程示意图；

图4a为本公开实施例提供的第四种说话人识别方法的流程示意图；

图4b为本公开实施例提供的一种说话人特征提取模型的结构示意图；

图5a为本公开实施例提供的第五种说话人识别方法的流程示意图；

图5b为本公开实施例提供的第一种说话人识别模型的结构示意图；

图6为本公开实施例提供的第六种说话人识别方法的流程示意图；

图7a为本公开实施例提供的一种说话人识别方法的流程框图；

图7b为本公开实施例提供的第二种说话人识别模型的结构示意图；

图8为本公开实施例提供的一种模型训练方法的流程示意图；

图9为本公开实施例提供的第一种样本相似度计算方法的流程示意图；

图10为本公开实施例提供的第二种样本相似度计算方法的流程示意图；

图11为本公开实施例提供的一种样本说话人特征提取方法的流程示意图；

图12为本公开实施例提供的一种第一样本说话人特征提取方法的流程示意图；

图13为本公开实施例提供的第一种说话人识别装置的结构示意图；

图14为本公开实施例提供的第二种说话人识别装置的结构示意图；

图15为本公开实施例提供的第三种说话人识别装置的结构示意图；

图16为本公开实施例提供的第四种说话人识别装置的结构示意图；

图17为本公开实施例提供的第五种说话人识别装置的结构示意图；

图18为本公开实施例提供的一种模型训练装置的结构示意图；

图19为本公开实施例提供的第一种样本相似度获得模块的结构示意图；

图20为本公开实施例提供的第二种样本相似度获得模块的结构示意图；

图21为本公开实施例提供的第一样本特征提取模块的结构示意图；

图22是用来实现本公开实施例的说话人识别方法或模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了实现说话人识别，本公开实施例提供了一种说话人识别方法、模型训练方法、装置、设备及存储介质。

本公开的一个实施例中，提供了一种说话人识别方法，该方法包括：

获得待识别人所发出语音的第一语音特征；

对第一语音特征进行特征提取，得到待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

根据第一说话人特征与第二说话人特征，获取待识别人与已知说话人之间的相似度；

基于相似度，识别待识别人。

可见，本公开实施例提供的方案中，通过对待识别人所发出语音的第一语音特征进行特征提取，获得了待识别人的第一说话人特征，由于说话人特征中不仅包括表征说话人发音器官的生理结构的结构特征，而且包括说话人声音的描述特征，所以，第一说话人特征能够表征待识别人。另外，本公开实施例提供的方案中，还获得了已知说话人的第二说话人特征，这一特征能够表征已知说话人，因此，通过对比第一说话人特征和第二说话人特征，能够对比出待识别人与已知说话人之间的相似度，进而能够准确识别出待识别人。

另外，结构特征从说话人发音器官的生理结构角度反映了说话人的特征，描述特征从说话人声音的角度反映了说话人的特征，这样使得包括结构特征和描述特征的说话人特征能够更加全面、完整的表征说话人。在此基础上基于上述说话人特征获取待识别人与已知说话人之间的相似度的准确性更高，从而进一步提高了识别说话人的识别准确度。

首先，对本公开实施例的执行主体进行说明。

本公开实施例的执行主体为具有说话人识别功能的电子设备。上述电子设备可以为移动手机、电脑、车载智能设备、智能机器人等。

其次，对本公开实施例的应用场景进行说明。

本公开实施例的应用场景为对说话人进行识别的应用场景。具体的，在说话人发出语音后，基于说话人所发出语音进行说话人识别。

例如：说话人在触发电子设备开启工作时，说话人可以向电子设备发出语音，电子设备基于说话人发出的语音进行说话人识别，以确定是否开启工作。

以下对本公开实施例提供的说话人识别方法进行具体说明。

参见图1，图1为本公开实施例提供的第一种说话人识别方法的流程示意图，上述方法包括以下步骤S101-S104。

步骤S101：获得待识别人所发出语音的第一语音特征。

上述语音是指：由待识别人的发音器官发出的声音。

上述第一语音特征可以是反映上述待识别人所发出语音的音高、音强、音长、音色等信息的语音特征。

具体的，上述第一语音特征可以是MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)特征、PLP(Perceptual Linear Predictive，感知线性预测)特征、Fbank(FilterBank，滤波器组)特征、FFT(Fast Fourier Transform，快速傅里叶变换)特征等。鉴于此，可以采用语音特征提取算法，对待识别人所发出语音进行特征提取得到第一语音特征。其中，上述语音特征提取算法包括：MFCC特征提取算法、DWT(Discrete Wavelet Transformation，离散小波变化)、PLP(Perceptual LinearPredictive，感知线性预测)等。

一种实施方式中，在对待识别人所发出的语音进行特征提取之前，还可以先对待识别人所发出的语音进行预处理。上述预处理可以包括去除噪声、去除静音、分帧等处理。

若对待识别人所发出的语音进行分帧处理，可以得到多个语音帧，这种情况下，对上述语音进行特征提取时，可以对每一语音帧进行特征提取，将各语音帧的语音特征作为第一语音特征。

例如：可以采用MFCC特征提取算法，对每一语音帧进行特征提取，得到每一语音帧的80维的MFCC特征，将各语音帧的80维的MFCC特征作为第一语音特征。

步骤S102：对第一语音特征进行特征提取，得到待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征。

上述已知说话人是指：已确定身份的说话人。具体的，上述已知说话人包括已注册人，已注册人是指已经进行注册的人，例如：用户可以在其所使用的客户端上进行注册，该用户是已知说话人，注册之后可以确定用户的身份，所以该用户为已知说话人。

上述说话人特征中包括结构特征和描述特征，以下对结构特征和描述特征进行具体说明。

1.结构特征：表征说话人发音器官的生理结构的结构特征

说话人发音器官是指说话人参与发音活动的器官。发音器官包括唇、齿、舌、声带、喉头、肺、膈肌、胸廓、软腭、硬腭、口腔、咽腔、鼻腔、胸腔等。

上述生理结构可以通过发音器官的尺寸、形态等信息描述。

由于每个人发音器官的生理结构是不同的，所以，上述结构特征可以反映说话人的特征，这样可以认为上述结构特征从说话人发音器官的生理结构角度反映了说话人的特征，在说话人识别过程中，可以将上述结构特征称为基础的说话人特征。

2.描述特征：说话人声音的描述特征。

由于每个人的性别、性格、生活环境、说话时情绪等存在差异，所以每个人的声音也不完全相同。因此，说话人声音的描述特征也可以反映说话人的特征，这样可以认为上述描述特征是从说话人的声音角度反映说话人的特征，在说话人识别过程中，上述描述特征可以辅助上述结构特征进行说话人识别，因此，可以将上述描述特征称为辅助特征。

鉴于上述情况，上述描述特征可以是反映说话人语言习惯、口音、情绪等信息的特征。

在获得第一说话人特征时，一种实施方式中，可以采用说话人特征提取算法，对第一语音特征进行特征提取，得到长度为第一维度的结构特征和长度为第二维度的描述特征，作为第一说话人特征。

上述说话人特征提取算法可以为：主分量分析、独立分量分析、加权F比等算法。

例如：可以采用主分量分析算法，对第一语音特征进行特征提取，得到200维度的结构特征和56维度的描述特征，作为第一说话人特征。

确定第一说话人特征的其他实施方式可以参见图4a对应的实施例，在此不进行详述。

在获得第二说话人特征时，一种实施方式中，可以将本地存储的已知说话人的说话人特征确定为第二说话人特征。

具体的，已知说话人在进行注册时，电子设备可以获得已知说话人所发出的语音，电子设备对已知说话人所发出语音的语音特征进行特征提取，得到已知说话人的说话人特征，并存储在本地。基于此，在进行说话人识别时，可以将已存储的已知说话人的说话人特征确定为第二说话人特征。

获得第二说话人特征的其他实施方式可以参见后续实施例，在此不进行详述。

步骤S103：根据第一说话人特征与第二说话人特征，获取待识别人与已知说话人之间的相似度。

由于第一说话人特征用于表征待识别人的特征，第二说话人特征用于表征已知说话人的特征，所以，根据上述第一说话人特征与第二说话人特征，可以较为准确地获取待识别人与已知说话人之间的相似度。

一种实施方式中，可以计算第一说话人特征与第二说话人特征之间的相似度，将计算得到的相似度直接确定为待识别人与已知说话人之间的相似度。

具体的，可以计算第一说话人特征与第二说话人特征之间的距离，按照预设的第一距离相似度转换算法，将计算得到的距离转换为相似度，作为第一说话人特征与第二说话人特征之间的相似度。上述距离可以为余弦距离、欧式距离等。

上述第一距离相似度转换算法为：表示说话人特征间距离与说话人特征间相似度之间对应关系的算法。在确定说话人特征间距离后，可以通过上述第一距离相似度转换算法将上述距离转换为说话人特征间相似度。

上述第一距离相似度转换算法可以为：基于说话人特征间距离与说话人特征间相似度之间的对应关系确定得到的转换算法。

另一种实施方式中，可以计算第一说话人特征与第二说话人特征之间的相似度，基于预设的相似度误差对计算得到的相似度进行调整，将调整后的相似度作为待识别人与已知说话人之间的相似度。

具体的，可以将计算得到的相似度与相似度误差之间的差值作为调整后的相似度；还可以将计算得到的相似度与相似度误差之间的和值作为调整后的相似度。

获取待识别人与已知说话人之间相似度的其他实施方式可以参见图2对应的实施例，在此不进行详述。

步骤S104：基于相似度，识别待识别人。

由于相似度表征待识别人与已知说话人之间的相似程度，相似度越高，表示待识别人为已知说话人的可能性越高；相似度越低，表示待识别人为已知说话人的可能性越低。因此，可以基于相似度，识别待识别人。

一种实施方式中，当相似度大于预设相似度阈值时，可以确定待识别人为已知说话人，当相似度不大于预设相似度阈值时，可以确定待识别人不为已知说话人。

上述预设相似度阈值可以为95％、90％等。例如：预设相似度阈值为95％，若获取得到的待识别人与已知说话人之间的相似度为80％，由于80％<95％，可以确定待识别人不为已知说话人；若获取得到的待识别人与已知说话人之间的相似度为98％，由于98％>95％，可以确定待识别人为已知说话人。

由于上述已知说话人为众多已经进行注册的人中的一个，所以，在确定待识别人不为已知说话人的情况下，还可以获得其他已知说话人的说话人特征，根据第一说话人特征与上述其他已知说话人的说话人特征，获取待识别人与其他已知说话人之间的相似度，基于相似度，识别待识别人。

另外，结构特征从说话人发音器官的生理结构角度反映了说话人的特征，描述特征从说话人声音的角度反映了说话人的特征，这样使得包括结构特征和描述特征的说话人特征能够更加全面、完整的表征说话人。在此基础上，基于上述说话人特征获取待识别人与已知说话人之间的相似度的准确性更高，从而进一步提高了识别说话人的识别准确度。

除了在上述步骤S103中已说明的获取相似度的实施方式之外，其他获取相似度的实施方式还可以参见图2对应的实施例。

图2为本公开实施例提供的第二种说话人识别方法的流程示意图，在上述图1所示实施例的基础上，上述步骤S103，可以按照以下步骤S1031-S1033实现。

步骤S1031：计算第一说话人特征中包括的结构特征与第二说话人特征中包括的结构特征之间的第一特征相似度。

为方便描述，以下将第一说话人特征中包括的结构特征称为第一结构特征，将第二说话人特征中包括的结构特征称为第二结构特征。

一种实施方式中，可以计算上述第一结构特征与第二结构特征之间的距离，基于计算得到的距离确定上述第一特征相似度。

上述距离可以为余弦距离、欧式距离等。

具体的，可以按照预设的第二距离相似度转换算法，将计算得到的距离转换为相似度，作为第一特征相似度。

上述第二距离相似度转换算法为：表示结构特征间距离与结构特征间相似度之间对应关系的算法。在确定结构特征间距离后，可以通过上述第二距离相似度转换算法将上述结构特征间距离转换为结构特征间相似度。

上述第二距离相似度转换算法可以为：基于结构特征间距离与结构特征间相似度之间的对应关系确定得到的转换算法。

另一种实施方式中，在计算上述第一结构特征与第二结构特征之间的距离之后，还可以采用预设的距离误差对计算得到的距离进行调整，基于调整后的距离确定第一特征相似度。

具体的，可以将计算得到的距离与距离误差之间的差值作为调整后的距离；还可以将计算得到的距离与距离误差之间的和值作为调整后的距离。

步骤S1032：计算第一说话人特征与第二说话人特征之间的第二特征相似度。

一种实施方式中，可以计算上述第一说话人特征与第二说话人特征之间的距离，基于计算得到的距离确定上述第二特征相似度。

上述距离可以为余弦距离、欧式距离等。

具体的，可以按照上述步骤S103中提及的第一距离相似度转换算法，将计算得到的距离转换为相似度，作为第二特征相似度。

另一种实施方式中，可以对上述第一说话人特征和第二说话人特征分别进行卷积处理；对卷积处理后的说话人特征进行特征过滤，将特征值小于预设特征值的特征过滤掉，得到第一过滤后特征和第二过滤后特征；计算第一过滤后特征与第二过滤后特征之间的距离，基于计算得到的距离确定第二特征相似度。

具体的，上述实施方式可以由相似度计算模型实现，上述相似度计算模型包括卷积层(Conv)、受限的线性激活单元层(ReLU)、以及相似度计算层。

其中，卷积层用于对输入的说话人特征进行卷积处理，输出卷积处理后的说话人特征，并将输出的说话人特征输入至受限的线性激活单元层。

受限的线性激活单元层用于对输入的说话人特征进行特征过滤，将特征值小于预设特征值的特征过滤掉，以防止网络过拟合，缓解梯度消失，输出过滤后特征，将过滤后特征输入至相似度计算层。

相似度计算层用于对输入的特征进行相似度计算，并输出计算得到的相似度。

在实际应用上述上述相似度计算模型得到上述第二特征相似度时，首先将第一说话人特征和第二说话人特征输入至卷积层，卷积层输出卷积处理后的第一说话人特征和第二说话人特征，并将上述卷积处理后的两种说话人特征输入至受限的线性激活单元层；受限的线性激活单元层接收卷积层输入卷积处理后的第一说话人和第二说话人特征，输出对两种说话人特征进行过滤处理后的第一过滤后特征和第二过滤后特征，并将输出的两种过滤后特征输入至相似度计算层；相似度计算层接收线性激活层输入的第一过滤后特征和第二过滤后特征，输出对两种过滤后特征进行相似度计算后得到的相似度结果，从而得到第二特征相似度。

步骤S1033：根据第一特征相似度和第二特征相似度，获取待识别人与已知说话人之间的相似度。

一种实施方式中，可以按照第一特征相似度的第一权重和第二特征相似度的第二权重，对第一特征相似度和第二特征相似度进行加权求和，将计算得到的值确定为待识别人与已知说话人之间的相似度。

上述第一权重、第二权重可以是预先设定的权重。

例如：预先设定第一权重为0.6、第二权重为0.4，计算得到的第一特征相似度为60％，第二特征相似度为40％，对第一特征相似度和第二特征相似度进行加权求和可以得到：0.8*60％+0.6*40％＝72％，将72％确定为待识别人与已知说话人之间的相似度。

获取待识别人与已知说话人之间相似度的其他实施方式可以参见图3对应的实施例，在此不进行详述。

由以上可见，一方面，由于第一特征相似度为第一结构特征与第二结构特征之间的相似度，结构特征是从说话人发音器官的生理结构的角度反映说话人的特征，因此，上述第一特征相似度是从说话人发音器官的生理结构的角度反映待识别人与已知说话人之间的相似度。

另一方面，由于第二特征相似度为第一说话人特征与第二说话人特征之间的相似度，又由于说话人特征中包括结构特征和描述特征，结构特征和描述特征是从不同角度反映说话人的特征，所以，说话人特征能够反映说话人的整体、全面特征。因此，第二特征相似度是从说话人的整体特征角度反映待识别人与已知说话人之间的相似度。

综上分析可知，根据第一特征相似度和第二特征相似度获取待识别人与已知说话人之间的相似度时，是结合说话人发音器官的生理角度以及说话人的整体特征角度这两种不同角度进行相似度获取，使得获取得到的相似度的准确性高。

除了在上述步骤S1033中已说明的获取相似度的实施方式之外，其他获取相似度的实施方式可以参见图3对应的实施例。图3为本公开实施例提供的第三种说话人识别方法的流程示意图。在上述图2所示实施例的基础上，上述步骤S1033，可以按照以下步骤S10331-S10332实现。

步骤S10331：基于第一特征相似度对第二特征相似度进行调整，得到第三特征相似度。

上述第一特征相似度是基于结构特征计算得到的特征相似度，上述结构特征用于表征说话人发音器官的生理结构的特征，由于说话人发音器官的生理结构在相对长的时间内保持稳定不变，所以，上述表征说话人发音器官的生理结构的结构特征的稳定度高。因此，基于结构特征计算得到的第一特征相似度的稳定度高。

上述第二特征相似度是基于说话人特征计算得到的特征相似度，上述说话人特征中包括结构特征和描述特征。描述特征反映说话人语言习惯、口音、情绪等信息的特征，由于说话人所处环境、身体状态等各种外界因素的干扰，使得说话人情绪、口音、语言习惯发生不同程度的变化，例如：说话人工作时，说话人情绪相对积极、饱满，说话人口音、语言习惯相对正式，说话人回到家后，说话人情绪相对放松、慵懒，说话人口音、语言习惯相对日常口语化。所以，描述特征的稳定度并不高。

综合上述两段分析可知，由于第一特征相似度的稳定度高，采用第一特征相似度对第二特征相似度进行调整，能够增强第二特征相似度的稳定度，从而使得调整后得到的第三特征相似度的稳定度高。

在对第二特征相似度进行调整时，可以以调整后的特征相似度之间的差异小于调整之前特征相似度之间的差异为调整目标，对第二特征相似度进行调整。

一种实施方式中，当第一特征相似度大于第二特征相似度时，可以计算预设的相似度调整值与第二特征相似度之和，将计算得到的和值确定为第三特征相似度。

另一种实施方式中，当第一特征相似度小于第二特征相似度时，可以计算第二特征相似度与预设的相似度调整值之差，将计算得到的差值确定为第三特征相似度。

步骤S10332：根据第一特征相似度和第三特征相似度，获取待识别人与已知说话人之间的相似度。

一种实施方式中，可以按照第一特征相似度的第一权重和第三特征相似度的第三权重，对第一特征相似度和第三特征相似度进行加权求和，将计算得到的值确定为待识别人与已知说话人之间的相似度。

上述第三权重可以是预先设定的权重。

例如：预先设定的第一权重为0.8、第三权重为0.2，第一特征相似度为80％，第三特征相似度为85％，对第一特征相似度和第三特征相似度进行加权求和可以得到：0.8*80％+0.2*85％＝81％，将81％确定为待识别人与已知说话人之间的相似度。

由以上可见，由于第一特征相似度的稳定度高，采用第一特征相似度对第二特征相似度进行调整，能够增强第二特征相似度的稳定度，从而使得调整后得到的第三特征相似度的稳定度高，因此，基于第三特征相似度与第一特征相似度，获取待识别人与已知说话人之间的相似度，提高了获取得到的相似度的准确度。

除了在上述步骤S102中已说明的第一说话人特征获得的实施方式之外，其他获得第一说话人特征的实施方式可以参见图4a。图4a为本公开实施例提供的第四种说话人识别方法的流程示意图，在上述图1所示实施例的基础上，上述步骤S102中对第一语音特征进行特征提取，得到待识别人的说话人特征，可以按照以下步骤S1021-S1023实现。

步骤S1021：以第一语音特征为待分析信号进行信号分析，得到待识别人的声音属性信息。

上述声音属性可以包括声音语速、声音音量、基音频率、信噪比等属性。

一种实施方式中，可以采用Bi-GRU(Bi-Gated Recurrent Unit，双向门控循环单元层)算法对上述待分析信号进行分析，得到分析结果，将上述分析结果确定为待识别人的声音属性信息。

步骤S1022：基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征待识别人发音器官的生理结构的结构特征和声音的描述特征。

上述注意力机制可以是基于预设的Attention(注意力)算法实现的。一种实施方式中，可以采用上述Attention算法对所得到的声音属性信息进行信息挖掘，得到表征待识别人发音器官的生理结构的结构特征和声音的描述特征。

步骤S1023：基于各结构特征和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到待识别人的说话人特征。

各特征的重要程度可以是预先设定的。例如：可以预先设定结构特征的重要度、描述特征的重要度等。

由于不同特征的重要程度是不同的，对于相对重要的特征，可以提高这类特征的特征值；对于相对不重要的特征，可以降低这类特征的特征值。

一种实施方式中，可以基于各特征的重要程度，对所获得的各特征的特征值进行池化处理，实现调整各特征值。

由以上可见，首先以第一语音特征为待分析信号进行信号分析，所得到的待识别人的声音属性信息为信号层级的浅层信息；在进一步地对上述声音属性信息进行信息挖掘时，能够挖掘得到隐藏在浅层信息下的深层信息，所以，所获得的结构特征和描述特征为深层信息，最后再对深层信息进行调整。按照这种由浅层到深层的特征提取顺序，使得最后提取的特征精简、且反映说话人的特征的准确度较高。

本公开的一个实施例中，上述步骤S1021-S1023均可以通过说话人特征提取模型实现。以下结合图4b，对上述说话人特征提取模型以及基于说话人提取模型提取第一说话人特征的过程进行说明。

图4b为本公开实施例提供的一种说话人特征提取模型的结构示意图。上述模型中包括双向门控循环单元层、自注意力层以及统计池化层。

其中，上述双向门控循环单元层，用于以输入的语音特征为待分析信号进行信号分析，得到声音属性信息，并将声音属性信息输入至自注意力层。

自注意力层，用于对输入的声音属性信息进行信息挖掘，得到表征发音器官的生理结构的结构特征和声音的描述特征，并将得到的结构特征和描述特征输入至统计池化层。

统计池化层，用于对输入的各特征的特征值进行统计，采用池化方法对各个特征值进行池化处理，得到并输出调整后的各特征值。

在实际应用过程中，可以将第一语音特征输入至说话人特征提取模型的双向门控循环单元层，双向门控循环单元层输出声音属性信息，并将输出的声音属性信息输入至自注意力层；

自注意力层在接收到双向门控循环单元层输入的声音属性信息后，输出对声音属性信息进行信息挖掘后得到的特征，作为表征待识别人发音器官的生理结构的结构特征和声音的描述特征，并将输出的特征输入至统计池化层；

统计池化层在接收到自注意力层输入的特征后，输出对各特征进行池化处理后得到的特征，得到待识别人的说话人特征。

上述步骤S102中获得已知说话人的第二语音特征的具体实现方式，除了在步骤S102中提及的获得第二语音特征的方式之外，还可以参见图5a对应的实施例。图5a为本公开实施例提供的第五种说话人识别方法的流程示意图，在上述图1所示实施例的基础上，上述方法还包括步骤S105。

步骤S105：获得已知说话人所发出语音的第二语音特征。

上述第二语音特征可以是MFCC特征、PLP特征、Fbank特征、FFT特征等。鉴于此，可以是采用语音特征提取算法，对已知说话人所发出语音进行特征提取得到第二语音特征。其中，上述语音特征提取算法包括：MFCC特征提取算法、DWT、PLP等。

一种实施方式中，在对已知说话人所发出的语音进行特征提取之前，还可以先对待识别人所发出的语音进行预处理。上述预处理可以包括去除噪声、去除静音、分帧等处理。

在提取得到第二语音特征之后，还可以采用上述步骤S1021-S1023相同的方式对第二语音特征进行特征提取，得到第二说话人特征。

具体特征提取方式为：以第二语音特征为待分析信号进行信号分析，得到已知说话人的声音属性信息；基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征已知说话人发音器官的生理结构的结构特征和声音的描述特征；基于各结构特征和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到已知说话人的第二说话人特征。

当然，上述特征提取方式也可以采用图4b所示的说话人特征提取模型实现。具体的，将上述第二语音特征输入至图4b所示的说话人特征提取模型中，得到说话人特征提取模型输出的已知说话人的说话人特征。

在上述步骤S105的基础上，上述步骤S102、S103、S104均可以通过预先训练的说话人识别模型中不同功能层实现。

上述说话人识别模型为：对待识别人和已知说话人的语音特征进行特征提取得到说话人特征、并基于所得说话人特征之间的相似度进行说话人识别的神经网络模型。

本公开的一个实施例中，上述说话人识别模型包括说话人特征提取层、相似度计算层以及说话人识别层。在此基础上，上述步骤S102可以按照步骤S200实现，上述步骤S103可以按照步骤S201实现，上述S104可以按照以下步骤S202实现。

步骤S200：将第一语音特征和第二语音特征输入预先训练的说话人识别模型中说话人特征提取层，得到待识别人的说话人特征，作为第一说话人特征，并得到已知说话人的说话人特征，作为第二说话人特征。

上述说话人特征提取层为：对输入的语音特征进行特征提取，得到说话人特征的功能层。

步骤S201：将第一说话人特征与第二说话人特征输入说话人识别模型中相似度计算层，得到待识别人与已知说话人之间的相似度。

上述相似度计算层为：对输入的两个说话人特征进行相似度计算，得到待识别人与已知说话人之间的相似度的功能层。

步骤S202：将相似度输入说话人识别模型中说话人识别层，得到待识别人的识别结果。

上述说话人识别层为：对输入的相似度进行说话人识别，得到说话人识别结果的功能层。

由于说话人识别模型是采用大量的样本已知说话人语音特征进行训练得到的模型，说话人识别模型中说话人特征提取层学习到了基于语音特征进行说话人特征提取的规律，相似度计算层学习到了基于说话人特征计算说话人之间相似度的规律，并且说话人识别层基于相似度进行说话人识别的规律，所以，将第一语音特征和第二语音特征输入至说话人识别模型中，通过说话人识别模型中各个功能层的处理，输出的识别结果的准确度较高。

以下结合图5b，对上述说话人识别模型以及利用说话人识别模型进行说话人识别的过程进行说明。图5b为本公开实施例提供的第一种说话人识别模型的结构示意图。

上述说话人识别模型包括说话人特征提取层、相似度计算层以及说话人识别层。

其中，说话人特征提取层，用于对输入的语音特征进行特征提取，得到说话人特征，并将说话人特征输入至相似度计算层；

相似度计算层，用于对输入的说话人特征进行相似度计算，并将计算得到的相似度输入至说话人识别层；

说话人识别层，用于对输入的相似度进行说话人识别，输出识别结果。

在上述步骤S101中，若同一待识别人所发出语音包括至少两段语音，那么所获得的第一语音特征包括至少两个语音特征，提取得到第一说话人特征也包括至少两个说话人特征，为了避免说话人特征的数量过多对识别结果造成影响，可以对同一待识别人的多个说话人特征进行整合。具体实现方式参见图6对应的实施例。

图6为本公开实施例提供的第六种说话人识别方法的流程示意图，在上述待识别人所发出语音包括至少两段语音的情况下，上述步骤S102，还可以按照以下步骤S1024-S1025实现。

步骤S1024：针对待识别人发出的每一段语音，对该段语音的第一语音特征进行特征提取，得到待识别人的说话人特征。

步骤S1025：对所得到的说话人特征进行统计分析，将统计分析得到的特征确定为第一说话人特征。

上述所得到的说话人特征为同一待识别人的说话人特征。

上述统计分析可以包括计算平均值、中值等。

例如：待识别人SP的说话人特征包括：S₁、S₂、S₃、S₄，计算上述各说话人特征的平均特征值，得到将/>作为第一说话人特征。/>

由于对所得到的同一待识别人的多个说话人特征进行统计分析，使得多个说话人特征整合为一个说话人特征，将统计分析得到的说话人特征确定为第一说话人特征，从而避免了说话人特征数量过多造成识别结果准确度低的问题。

以下结合具体实施例，对本公开实施例提供的说话人识别方法进行具体说明。参见图7a，图7a为本公开实施例提供的一种说话人识别方法的流程框图。

在上述图7a中按照箭头指向顺序对各个步骤进行说明。

第一步，获得待识别人所发出语音的第一语音特征，并获得已知说话人所发出语音的第二语音特征。

上述待识别人所发出语音包括至少两段语音。

第二步，对第一语音特征进行特征提取，得到待识别人的说话人特征，作为第一说话人特征，对第二语音特征进行特征提取，得到已知说话人的说话人特征，作为第二说话人特征。

上述说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征。

其中，在进行特征提取时，首先以语音特征为待分析信号进行信号分析，得到说话人的声音属性信息，其次，基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征说话人发音器官的生理结构的结构特征和声音的描述特征；最后，基于各结构特征和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到说话人特征。

第三步，计算各段语音对应的第一说话人特征的平均值，得到第一说话人平均特征。

第四步，计算第一说话人平均特征中包括的结构特征与第二说话人特征中包括的结构特征之间的余弦距离，基于计算得到的距离确定上述两个结构特征之间的第一特征相似度。

第五步，计算第一说话人平均特征与第二说话人特征之间的相似度。

具体的，首先，将第一说话人平均特征与第二说话人特征分别进行卷积处理；

其次，将卷积处理后的说话人特征进行特征过滤，将特征值小于预设特征值的特征过滤掉；

然后，计算过滤后的第一说话人平均特征与第二说话人特征之间的距离；

最后，基于第一特征相似度对第二特征相似度进行调整，得到第三特征相似度。

第六步，根据第一特征相似度和第三特征相似度，获取待识别人与已知说话人之间的相似度。

第七步，根据获取得到的相似度，识别待识别人。

上述各个步骤均可以通过说话人识别模型实现，参见图7b，图7b为本公开实施例提供的第二种说话人识别模型的结构示意图。

上述说话人识别模型包括说话人特征提取子模型、说话人识别子模型。

其中，说话人特征提取子模型包括双向门控循环单元层、自注意力层以及统计池化层。

上述说话人特征子模型用于对输入的语音特征进行特征提取，输出待识别人的第一说话人特征和已知说话人的第二说话人特征。

在输出第一说话人特征后，对多段语音对应的第一说话人特征求平均值，将计算得到的第一说话人平均特征与第二说话人特征输入至相似度确定子模型。

说话人识别子模型中包括余弦相似度计算网络、特征相似度计算网络以及说话人识别网络。上述特征相似度计算网络又称为决策网络。

余弦相似度计算网络，用于计算第一说话人平均特征中包括的结构特征和第二说话人特征中包括的结构特征的余弦距离，基于计算得到的余弦距离确定上述两个结构特征间的第一特征相似度，并将输出的第一特征相似度输入决策网络以及说话人识别网络。

决策网络中包括卷积层、受限的线性激活单元层以及相似度计算层。

其中，卷积层用于对输入的说话人特征进行卷积处理，输出卷积处理后的特征，并将输出的特征输入至受限的线性激活单元层。

受限的线性激活单元层用于对输入的特征进行过滤，将特征值小于预设特征值的特征过滤掉，以防止网络过拟合，缓解梯度消失，并输出过滤后特征，将过滤后特征输入至相似度计算层。

相似度计算层用于对输入的特征进行相似度计算，得到第二特征相似度，并基于第一特征相似度对第二特征相似度进行调整，得到并输出第三特征相似度，将第三特征相似度输入至说话人识别网络。

说话人识别网络，用于接收第一特征相似度和第三特征相似度，并对第一特征相似度和第三特征相似度进行加权求和、线性变换得到最终相似度，作为待识别人与已知说话人之间的相似度，基于上述相似度，识别待识别人，并输出识别结果。

以下对本公开实施例提供的模型训练方法进行说明。

参见图8，图8为本公开实施例提供的一种模型训练方法的流程示意图，上述方法包括以下步骤S801-S804。

步骤S801：获得第一样本已知说话人所发出语音的第一样本语音特征和第二样本已知说话人所发出语音的第二样本语音特征。

上述第一样本已知说话人与第二样本已知说话人可以是相同的，也可以是不同的。

若第一样本已知说话人与第二样本已知说话人是相同的，第一样本语音特征和第二样本语音特征互为正样本，基于互为正样本的训练样本对神经网络模型进行训练时，神经网络模型可以学习到对互为正样本的训练样本进行比对、进而基于比对结果识别说话人的规律；

若第一样本已知说话人与第二样本已知说话人是不同的，第一样本语音特征和第二样本语音特征互为负样本，基于互为负样本的训练样本对神经网络模型进行训练时，神经网络模型可以学习到对互为负样本的训练样本进行比、进而基于比对结果识别说话人的规律。

综合上述两段分析，神经网络模型既可以学习到基于互为正样本的训练样本进行说话人识别的规律，还可以学习到基于互为负样本的训练样本进行说话人识别的规律，使得训练得到的神经网络模型进行说话人识别时识别准确度较高。

在获得上述语音特征时，一种实施方式中，本地存储已知说话人所发出语音的语音特征，针对每一已知说话人，将该注册人中一部分语音特征确定为第一样本语音特征，将剩余语音特征确定为第二样本语音特征，在每次训练时，从第一样本语音特征中随机抽取样本语音特征，并从第二样本语音特征中随机抽取样本语音特征，作为当前训练所使用的第一样本语音特征和第二样本语音特征。

例如：已存储的各段语音特征为：10000*10＝100000条语音特征，其中，10000表示10000个已知说话人，10表示每人10段语音，从上述各语音特征中随机抽取16个已知说话人、每个已知说话人的8条语音特征作为当前训练使用的语音特征，将其中一个已知说话人的4条语音特征作为当前训练使用的第一样本语音特征，可以将上述已知说话人的剩余4条语音特征作为当前训练使用的第二样本语音特征，也可以将其他已知说话人的语音特征作为当前训练使用的第二样本语音特征。

上述本地存储的语音特征是预先对已知说话人所发出语音进行特征提取得到的。

在进行特征提取时，可以首先对已知说话人所发出语音进行预处理，上述预处理可以包括去除噪声、去除静音、分帧等处理。对预处理后的语音进行特征提取，得到语音特征。基于预设的排列顺序存储各语音特征。上述预设的排列顺序可以为：与各语音在本地存储的排列顺序不同的顺序。

步骤S802：将第一样本语音特征和第二样本语音特征输入预设的神经网络模型，得到第一样本已知说话人和第二样本已知说话人之间的样本相似度。

上述样本相似度为：根据第一样本说话人特征与第二样本说话人特征计算得到的相似度。上述第一样本说话人特征为：对第一样本语音特征进行特征提取得到的说话人特征。上述第二样本说话人特征为：对第二样本语音特征进行特征提取得到的说话人特征。

上述说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征。

关于上述说话人特征的描述可以参见步骤S102中相关概念的描述，在此不进行赘述。

在将第一样本语音特征和第二样本语音特征输入至神经网络模型后，神经网络模型输出第一样本已知说话人与第二样本已知说话人之间的样本相似度。

在这一过程中，神经网络模型首先对第一样本语音特征进行特征提取，得到第一样本说话人特征，并对第二样本语音特征进行特征提取，得到第二样本说话人特征；然后根据第一样本说话人特征和第二样本说话人特征，确定第一样本已知说话人与第二样本已知说话人之间的样本相似度。

上述两个步骤可以通过神经网络模型中不同子模型实现。具体的，上述神经网络模型中可以包括说话人特征提取子模型、说话人识别子模型。其中，说话人特征提取子模型用于对已知说话人的语音特征进行特征提取，说话人识别子模型用于计算说话人特征之间的相似度。

在开始训练上述神经网络模型之前，可以预先对上述神经网络模型进行初始化。

步骤S803：根据第一样本已知说话人与第二样本已知说话人之间的实际相似度及样本相似度，计算神经网络模型的第一损失值。

本公开的一个实施例中，可以采用互熵损失算法，根据实际相似度和样本相似度，计算上述第一损失值。

步骤S804：根据第一损失值调整神经网络模型的模型参数。

在未满足预设的训练结束条件时，返回执行步骤S801，直至满足训练结束条件，将训练得到的神经网络模型作为说话人识别模型。

上述预设的训练结束条件可以为：达到预设的训练次数、神经网络模型收敛等。

在调整模型参数时，可以采用梯度下降准则反向传递第一损失值，基于第一损失值调整神经网络模型中各网络层的模型参数。

由以上可见，应用本公开实施例提供的方案进行模型训练时，将第一样本语音特征和第二样本语音特征输入预设的神经网络模型，得到第一样本已知说话人与第二样本已知说话人之间的样本相似度，并根据样本相似度和实际相似度，计算神经网络模型的损失值，基于损失值调整神经网络模型的参数，使得神经网络模型能够学习到根据两个语音特征确定说话人之间的相似度的特点，从而掌握说话人识别的规律，使得训练得到的神经网络模型在进行说话人识别时能够较为准确的识别说话人。

另外，说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征，在对神经网络模型训练过程中，神经网络模型能够学习到根据语音特征提取包括结构特征和描述特征的说话人特征的规律，在应用训练得到的神经网络模型进行说话人识别时，能够提取得到较为准确的说话人特征，进而根据说话人特征，更为准确地识别说话人。

最后，由于在训练神经网络模型时，神经网络模型根据样本说话人特征计算样本已知说话人之间的相似度，而应用训练得到的神经网络模型时，上述神经网络模型也需要根据待识别人的说话人特征与已知说话人的说话人特征获取待识别人与已知说话人之间的相似度。也就是，训练过程和应用过程是一致的，由于神经网络模型学习到了基于说话人特征进行相似度匹配的特点，所以，在实际应用过程中，神经网络模型能够很好地基于说话人特征进行相似度匹配，从而得到准确的识别结果。

从上述步骤S801-S804可以看到，将样本语音特征输入至神经网络模型，得到样本已知说话人之间的样本相似度，基于样本相似度与实际相似度，计算神经网络模型的损失值，基于损失值调整模型参数，直至满足预设训练结束条件，基于这一训练过程得到的神经网络模型的网络架构称为端到端网络架构。

上述样本相似度的计算方式还可以参见图9对应的实施例。图9为本公开实施例提供的第一种样本相似度计算方法的流程示意图，在上述实施例的基础上，上述方法包括以下步骤S901-S903。

步骤S901：计算第一样本说话人特征中包括的结构特征与第二样本说话人特征中包括的结构特征之间的第一样本特征相似度。

以下为方便描述，将第一样本说话人特征中包括的结构特征称为第一结构特征，将第二样本说话人特征中包括的结构特征称为第二结构特征。

一种实施方式中，可以由神经网络模型中第一相似度计算层实现，在将第一结构特征和第二结构特征输入至相似度计算层后，第一相似度计算层计算上述第一结构特征与第二结构特征之间的距离，基于计算得到的距离确定上述第一样本特征相似度。

步骤S902：计算第一样本说话人特征与第二样本说话人特征之间的第二样本特征相似度。

一种实施方式中，可以由神经网络模型中第二相似度计算层实现，在将第一结构特征和第二结构特征输入至第二相似度计算层后，第二相似度计算层可以计算上述第一样本说话人特征与第二样本说话人特征之间的距离，基于计算得到的距离确定上述第二样本特征相似度。

另一种实施方式中，还可以由神经网络模型中的相似度计算子模型实现，上述相似度计算子模型包括卷积层(Conv)、受限的线性激活单元层(ReLU)、以及第三相似度计算层。各层的功能可以参见步骤S1032中的说明，在此不进行赘述。

实际应用过程中，第一样本说话人特征和第二样本说话人特征输入至卷积层，卷积层输出卷积处理后的样本说话人特征，并将上述特征输入至受限的线性激活单元层；上述线性激活单元层在接收到卷积层输入的特征后，对输入的特征进行过滤，将特征值小于预设特征值的特征过滤掉，输出过滤后的特征，并将过滤后的特征输入至第三相似度计算层；第三相似度计算层在接收到线性激活单元层后，对输入的特征进行相似度计算，并输出计算得到的相似度，作为第二样本特征相似度。

步骤S903：根据第一样本特征相似度和第二样本特征相似度，获取第一样本已知说话人与第二样本已知说话人之间的样本相似度。

一种实施方式中，可以由神经网络模型中第四相似度计算层实现，在将第一样本特征相似度和第二样本特征相似度输入至第四相似度计算层后，第四相似度计算层按照第一样本特征相似度的第一权重和第二样本特征相似度的第二权重，对第一样本特征相似度和样本第二特征相似度进行加权求和，将计算得到的值确定为第一样本已知说话人与第二样本已知说话人之间的样本相似度。

上述第一权重、第二权重可以是预先设定的权重。

其他实施方式可以参见图10对应的实施例，在此不进行详述。

由以上可见，一方面，由于第一样本特征相似度为第一结构特征与第二结构特征之间的相似度，结构特征是从说话人发音器官的生理结构的角度反映说话人的特征，因此，上述第一样本特征相似度是从说话人发音器官的生理结构的角度反映第一已知说话人与第二已知说话人之间的相似度。

另一方面，由于第二样本特征相似度为第一样本说话人特征与第二样本说话人特征之间的相似度，又由于说话人特征中包括结构特征和描述特征，结构特征和描述特征是从不同角度反映已知说话人的特征，所以，说话人特征能够反映已知说话人的整体、全面特征。因此，第二样本特征相似度是从已知说话人的整体特征角度反映第一已知说话人与第二已知说话人之间的相似度。

综上分析可知，根据第一样本特征相似度和第二样本特征相似度获取样本已知说话人之间的相似度时，是结合说话人发音器官的生理角度以及说话人的整体特征角度这两种不同角度进行相似度获取，使得获取得到的相似度的准确性高。

上述样本相似度的计算方式还可以参见图10所示的实施例。图10为本公开实施例提供的第二种样本相似度计算方法的流程示意图，上述步骤S903，包括以下步骤S9031-S9032。

步骤S9031：基于第一样本特征相似度对第二样本特征相似度进行调整，得到第三样本特征相似度。

一种实施方式中，可以由神经网络模型中第五相似度计算层实现，在将第一样本特征相似度和第二样本特征相似度输入至第五相似度计算层后，第五相似度计算层以调整后的样本特征相似度间的差异小于调整前的样本特征相似度间的差异为目标，对第二样本特征相似度进行调整。

具体的，若第一样本特征相似度大于第二样本特征相似度，可以计算预设的相似度调整值与第二样本特征相似度之和，将计算得到的和值确定为第三样本特征相似度。

若第一样本特征相似度小于第二样本特征相似度，可以计算第二样本特征相似度与预设的相似度调整值之差，将计算得到的差值确定为第三样本特征相似度。

步骤S9032：根据第一样本特征相似度和第三样本特征相似度，获取第一样本已知说话人与第二样本已知说话人之间的样本相似度。

一种实施方式中，可以由神经网络模型中第六相似度计算层实现，在将第一样本特征相似度和第三样本特征相似度输入至第六相似度计算层后，第六相似度计算层可以按照第一样本特征相似度的第一权重和第三样本特征相似度的第三权重，对第一样本特征相似度和第三样本特征相似度进行加权求和，将计算得到的值确定为第一样本已知说话人与第二样本已知说话人之间的样本相似度。

上述第一权重、第三权重可以是预先设定的。

由于第一样本特征相似度的稳定度高，采用第一样本特征相似度对第二样本特征相似度进行调整，能够增强第二样本特征相似度的稳定度，从而使得调整后得到的第三特征相似度的稳定度高，因此，基于第三样本特征相似度与第一样本特征相似度，获取第一已知说话人与第二已知说话人之间的相似度时，提高了获取得到的相似度的准确度。

在上述实施例的基础上，在上述步骤S903之后，还可以根据第三样本特征相似度与实际相似度，计算神经网络模型的第二损失值。

一种实施方式中，可以采用铰链损失算法，根据第三样本特征相似度与实际相似度，计算神经网络模型的第二损失值。

上述步骤S804中根据第一损失值调整神经网络模型的模型参数时，可以根据第一损失值和第二损失值调整神经网络模型的模型参数。

一种实施方式中，可以对第一损失值和第二损失值进行加权求和，基于计算得到的损失值调整模型参数。

这样，第一损失值是根据样本已知说话人之间的样本相似度与实际相似度计算得到的，第一损失值可以准确反映样本相似度与实际相似度之间的差异；第二损失值是根据第三样本特征相似度与实际相似度计算得到的损失值，上述第三样本特征相似度是调整后的第二样本特征相似度，使得计算得到的第二损失值准确度更高。因此，通过第一损失值、第二损失值能够更加准确调整神经网络模型的参数，从而使得训练得到的神经网络模型的说话人识别功能较好。

上述样本说话人特征可以按照图11对应的实施例计算得到的，图11为本公开实施例提供的一种样本说话人特征提取方法的流程示意图，上述方法包括以下步骤S1101-S1103。

步骤S1101：以样本语音特征为待分析信号进行信号分析，得到已知说话人的声音属性信息。

上述声音属性可以包括声音语速、音量、基音频率、信噪比等属性。

步骤S1102：基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征已知说话人发音器官的生理结构的结构特征和声音的描述特征。

步骤S1103：基于生理结构和描述特征的重要程度，对所获得的生理结构和描述特征的特征值进行调整，得到已知说话人的样本说话人特征。

各生理结构和描述特征的重要程度可以是预先设定的。例如：可以预先设定结构特征的重要度、描述特征的重要度等。

由以上可见，首先以样本语音特征为待分析信号进行信号分析，所得到的已知说话人的声音属性信息为信号层级的浅层信息；在进一步地对上述声音属性信息进行进行信息挖掘时，能够挖掘得到隐藏在浅层信息下的深层信息，所以，所获得的结构特征和描述特征为深层信息，最后再对深层次信息进行调整。按照这种由浅层到深层次的特征提取顺序，使得最后提取的样本特征较为精简、且反映已知说话人的特征的准确度较高。

上述各个步骤均是通过神经网络模型中说话人特征提取子模型的各层网络层实现的。上述说话人特征提取子模型中包括双向门控循环单元(Bi-GRU)层、自注意力(Self-Attention)层以及统计池化层(Staristics Pooling)。各层结构以及功能可以参见图4b对应的实施例，在此不进行赘述。

在训练过程中，将第一样本语音特征、第二样本语音特征输入至说话人特征提取子模型的双向门控循环单元层，得到双向门控循环单元层输出的声音属性信息，作为已知说话人的声音属性信息，双向门控循环单元层将输出的声音属性信息输入至自注意力层；

自注意力层在接收到双向门控循环单元层输入的声音属性信息后，输出对声音属性信息进行信息挖掘后得到的特征，作为表征已知说话人发音器官的生理结构的结构特征和声音的描述特征，并将输出的样本特征输入至统计池化层；

统计池化层在接收到自注意力层输入的样本特征后，输出对各样本特征进行池化处理后得到的特征，从而得到已知说话人的样本说话人特征。

在第一样本已知说话人所发出语音包括至少两段语音的情况下，上述第一样本说话人特征提取的过程还可以参见图12对应的实施例，图12为本公开实施例提供的一种第一样本说话人特征提取方法的流程示意图，上述方法包括以下步骤S1201-S1202。

步骤S1201：针对第一样本已知说话人所发出的每一段语音，对该段语音的第一样本语音特征进行特征提取，得到第一样本已知说话人的样本说话人特征。

步骤S1202：对所得到的样本说话人特征进行统计分析，将统计分析得到的特征确定为第一样本已知说话人的第一样本说话人特征。

上述所得到的样本说话人特征为同一已知说话人的说话人特征。

上述统计分析包括计算平均值、中值等。

由于对所得到的同一已知说话人的多个第一样本说话人特征进行统计分析，使得多个第一样本说话人特征整合为一个样本说话人特征，将统计分析得到的样本说话人特征确定为第一已知说话人的第一样本说话人特征，从而避免了第一样本说话人特征数量过多造成识别结果准确度低的问题。

当第二已知说话人所发出语音也为多段语音时，也可以采用上述相同的方式获得第二样本语音特征。

与上述说话人识别方法相对应的，本公开实施例还提供了一种说话人识别装置。

参见图13，图13为本公开实施例提供的第一种说话人识别装置的结构示意图，上述装置包括以下模块1301-1304。

第一特征获得模块1301，用于获得待识别人所发出语音的第一语音特征；

特征提取模块1302，用于对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，所述说话人特征中包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

相似度获取模块1303，用于根据所述第一说话人特征与所述第二说话人特征，获取所述待识别人与所述已知说话人之间的相似度；

识别人识别模块1304，用于基于所述相似度，识别所述待识别人。

参见图14，图14为本公开实施例提供的第二种说话人识别装置的结构示意图，上述相似度获取模块1303，包括以下模块13031-13033。

第一相似度计算子模块13031，用于计算所述第一说话人特征中包括的结构特征与所述第二说话人特征中包括的结构特征之间的第一特征相似度；

第二相似度计算子模块13032，用于计算所述第一说话人特征与所述第二说话人特征之间的第二特征相似度；

第一相似度获取子模块13033，用于根据所述第一特征相似度和所述第二特征相似度，获取所述待识别人与已知说话人之间的相似度。

参见图15，图15为本公开实施例提供的第三种说话人识别装置的结构示意图，上述相似度获取子模块13033，包括以下单元130331-130332。

第一相似度调整单元130331，用于基于所述第一特征相似度对所述第二特征相似度进行调整，得到第三特征相似度；

第一相似度获取单元130332，用于根据所述第一特征相似度和所述第三特征相似度，获取所述待识别人与已知说话人之间的相似度。

由以上可见，由于第一特征相似度的稳定度高，采用第一特征相似度对第二特征相似度进行调整，能够增强第二特征相似度的稳定度，从而使得调整后得到的第三特征相似度的稳定度高，因此，基于第三特征相似度与第一特征相似度，获取待识别人与已知说话人之间的相似度时，提高了获取得到的相似度的准确度。

参见图16，图16为本公开实施例提供的第四种说话人识别装置的结构示意图，上述特征提取模块1302，包括以下子模块13021-13023。

第一信号分析子模块13021，用于以所述第一语音特征为待分析信号进行信号分析，得到所述待识别人的声音属性信息；

第一信息挖掘子模块13022，用于基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征所述待识别人发音器官的生理结构的结构特征和声音的描述特征；

第一特征调整子模块13023，用于基于各结构特征和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到所述待识别人的第一说话人特征。

参见图17，图17为本公开实施例提供的第五种说话人识别装置的结构示意图，在所述待识别人所发出语音包括至少两段语音的情况下，上述特征提取模块1302，包括以下子模块13024-13025。

第一特征提取子模块13024，用于针对所述待识别人发出的每一段语音，对该段语音的第一语音特征进行特征提取，得到所述待识别人的说话人特征；

第一特征分析子模块13025，用于对所得到的说话人特征进行统计分析，将统计分析得到的特征确定为第一说话人特征。

由于对多个说话人特征进行统计分析，使得多个说话人特征整合为一个说话人特征，将统计分析得到的说话人特征确定为第一说话人特征，从而避免了说话人特征数量过多造成识别结果准确度低的问题。

本公开的一个实施例中，上述装置还包括：

特征获得模块，用于获得已知说话人所发出语音的第二语音特征；

所述特征提取模块1302，具体用于将所述第一语音特征和所述第二语音特征输入预先训练的说话人识别模型中说话人特征提取层，得到待识别人的说话人特征，作为第一说话人特征，并得到已知说话人的说话人特征，作为第二说话人特征；

所述相似度获取模块1303，具体用于将所述第一说话人特征与所述第二说话人特征输入所述说话人识别模型中相似度计算层，得到所述待识别人与已知说话人之间的相似度；

所述识别人识别模块1304，具体用于将所述相似度输入所述说话人识别模型中说话人识别层，得到待识别人的识别结果。

与上述模型训练方法相对应，本公开实施例还提供了一种模型训练装置。

参见图18，图18为本公开实施例提供的一种模型训练装置的结构示意图，上述装置包括以下模块1801-1804。

第二特征获得模块1801，用于获得第一样本已知说话人所发出语音的第一样本语音特征和第二样本已知说话人所发出语音的第二样本语音特征；

相似度获得模块1802，用于将所述第一样本语音特征和所述第二样本语音特征输入预设的神经网络模型，得到所述第一样本已知说话人和所述第二样本已知说话人之间的样本相似度，其中，所述样本相似度为根据所述第一样本说话人特征与第二样本说话人特征计算得到的相似度，所述第一样本说话人特征为对所述第一样本语音特征进行特征提取得到的说话人特征，所述第二样本说话人特征为对所述第二样本语音特征进行特征提取得到的说话人特征，说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

第一损失值计算模块1803，用于根据所述第一样本已知说话人与所述第二样本已知说话人之间的实际相似度及所述样本相似度，计算所述神经网络模型的第一损失值；

参数调整模块1804，用于根据所述第一损失值调整所述神经网络模型的模型参数。

参见图19，图19为本公开实施例提供的第一种样本相似度获得模块的结构示意图，上述相似度获得模块1802包括以下模块子模块1901-1903。

第三相似度计算子模块1901，用于计算所述第一样本说话人特征中包括的结构特征与所述第二样本说话人特征中包括的结构特征之间的第一样本特征相似度；

第四相似度计算子模块1902，用于计算所述第一样本说话人特征与所述第二样本说话人特征之间的第二样本特征相似度；

第二相似度获取子模块1903，用于根据所述第一样本特征相似度和所述第二样本特征相似度，获取所述第一样本已知说话人与第二样本已知说话人之间的样本相似度。

参见图20，图20为本公开实施例提供的第二种样本相似度获得模块的结构示意图，上述第二相似度获取子模块1903，包括以下单元19031-19032：

第二相似度调整单元19031，用于基于所述第一样本特征相似度对所述第二样本特征相似度进行调整，得到第三样本特征相似度；

第二相似度获取单元19032，用于根据所述第一样本特征相似度和第三样本特征相似度，获取所述第一样本已知说话人与所述第二样本已知说话人之间的样本相似度。

由于第一样本特征相似度的稳定度高，采用第一样本特征相似度对第二样本特征相似度进行调整，能够增强第二样本特征相似度的稳定度，从而使得调整后得到的第三特征相似度的稳定度高，因此，基于第三样本特征相似度与第一样本特征相似度，提高了获取得到的相似度的准确度。

本公开的一个实施例中，上述装置还包括：第二损失值计算模块，

所述第二损失值计算模块，用于在所述第一损失值计算模块1803之后，根据所述第三样本特征相似度与所述实际相似度，计算所述神经网络模型的第二损失值；

所述参数调整模块1804，具体用于根据所述第一损失值和第二损失值调整所述神经网络模型的模型参数。

参见图21，图21为本公开实施例提供的第一样本特征提取模块的结构示意图，上述模块包括以下子模块2101-2103。

第二信号分析子模块2101，用于以样本语音特征为待分析信号进行信号分析，得到已知说话人的声音属性信息；

第二信息挖掘子模块2102，用于基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征已知说话人发音器官的生理结构的结构特征和声音的描述特征；

第二特征调整子模块2103，用于基于各生理结构和描述特征的重要程度，对所获得的各生理结构和描述特征的特征值进行调整，得到已知说话人的样本说话人特征。

本公开的一个实施例中，在所述第一样本已知说话人所发出语音包括至少两段语音的情况下，所述装置还包括，第二样本特征提取模块，所述第二样本特征提取模块，包括：

第二特征提取子模块，用于针对所述第一样本已知说话人所发出的每一段语音，对该段语音的第一样本语音特征进行特征提取，得到所述第一样本已知说话人的样本说话人特征；

第二特征分析子模块，用于对所得到的样本说话人特征进行统计分析，将统计分析得到的特征确定为所述第一样本已知说话人的第一样本说话人特征。

由于对多个第一样本说话人特征进行统计分析，使得多个第一样本说话人特征整合为一个样本说话人特征，将统计分析得到的样本说话人特征确定为第一已知说话人的第一样本说话人特征，从而避免了第一样本说话人特征数量过多造成识别结果准确度低的问题。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行说话人识别或模型训练方法。

本公开实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现说话人识别或模型训练方法。

图22示出了可以用来实施本公开的实施例的示例电子设备2200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图22所示，设备2200包括计算单元2201，其可以根据存储在只读存储器(ROM)2202中的计算机程序或者从存储单元2208加载到随机访问存储器(RAM)2203中的计算机程序，来执行各种适当的动作和处理。在RAM 2203中，还可存储设备2200操作所需的各种程序和数据。计算单元2201、ROM 2202以及RAM 2203通过总线2204彼此相连。输入/输出(I/O)接口2205也连接至总线2204。

设备2200中的多个部件连接至I/O接口2205，包括：输入单元2206，例如键盘、鼠标等；输出单元2207，例如各种类型的显示器、扬声器等；存储单元2208，例如磁盘、光盘等；以及通信单元2209，例如网卡、调制解调器、无线通信收发机等。通信单元2209允许设备2200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元2201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2201执行上文所描述的各个方法和处理，例如说话人识别或模型训练方法。例如，在一些实施例中，说话人识别或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元2208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 2202和/或通信单元2209而被载入和/或安装到设备2200上。当计算机程序加载到RAM 2203并由计算单元2201执行时，可以执行上文描述的说话人识别或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元2201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行说话人识别或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种说话人识别方法，包括：

获得待识别人所发出语音的第一语音特征；

对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，其中，所述说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

基于所述相似度，识别所述待识别人；

所述根据所述第一说话人特征与所述第二说话人特征，获取所述待识别人与已知说话人之间的相似度，包括：

计算所述第一说话人特征中包括的结构特征与所述第二说话人特征中包括的结构特征之间的第一特征相似度；

计算所述第一说话人特征与所述第二说话人特征之间的第二特征相似度；

根据所述第一特征相似度和所述第二特征相似度，获取所述待识别人与已知说话人之间的相似度；

所述根据所述第一特征相似度和所述第二特征相似度，获取所述待识别人与已知说话人之间的相似度，包括：

基于所述第一特征相似度对所述第二特征相似度进行调整，得到第三特征相似度；

根据所述第一特征相似度和所述第三特征相似度，获取所述待识别人与已知说话人之间的相似度；

所述基于所述第一特征相似度对所述第二特征相似度进行调整，得到第三特征相似度，包括：

调整所述第二特征相似度，得到第三特征相似度，使调整后的第二特征相似度与所述第一特征相似度之间的差异小于调整前的第二特征相似度与所述第一特征相似度之间的差异。

2.根据权利要求1所述的方法，其中，所述对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，包括：

以所述第一语音特征为待分析信号进行信号分析，得到所述待识别人的声音属性信息；

基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征所述待识别人发音器官的生理结构的结构特征和声音的描述特征；

基于各结构特征和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到所述待识别人的说话人特征。

3.根据权利要求1所述的方法，其中，在所述待识别人所发出语音包括至少两段语音的情况下，

所述对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，包括：

针对所述待识别人发出的每一段语音，对该段语音的第一语音特征进行特征提取，得到所述待识别人的说话人特征；

对所得到的说话人特征进行统计分析，将统计分析得到的特征确定为第一说话人特征。

4.根据权利要求1所述的方法，其中，所述方法还包括：

获得已知说话人所发出语音的第二语音特征；

所述对所述第一语音特征进行特征提取，得到所述待识别人的说话人特征，作为第一说话人特征，并获得已知说话人的说话人特征，作为第二说话人特征，包括：

将所述第一语音特征和所述第二语音特征输入预先训练的说话人识别模型中说话人特征提取层，得到待识别人的说话人特征，作为第一说话人特征，并得到已知说话人的说话人特征，作为第二说话人特征；

将所述第一说话人特征与所述第二说话人特征输入所述说话人识别模型中相似度计算层，得到所述待识别人与已知说话人之间的相似度；

所述基于所述相似度，识别所述待识别人，包括：

将所述相似度输入所述说话人识别模型中说话人识别层，得到待识别人的识别结果。

5.一种模型训练方法，包括：

将所述第一样本语音特征和所述第二样本语音特征输入预设的神经网络模型，得到所述第一样本已知说话人和所述第二样本已知说话人之间的样本相似度，其中，所述样本相似度为根据第一样本说话人特征与第二样本说话人特征计算得到的相似度，所述第一样本说话人特征为对所述第一样本语音特征进行特征提取得到的说话人特征，所述第二样本说话人特征为对所述第二样本语音特征进行特征提取得到的说话人特征，说话人特征包括：表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

根据所述第一损失值调整所述神经网络模型的模型参数；

所述样本相似度为按照以下方式得到的相似度：

计算所述第一样本说话人特征中包括的结构特征与所述第二样本说话人特征中包括的结构特征之间的第一样本特征相似度；

计算所述第一样本说话人特征与所述第二样本说话人特征之间的第二样本特征相似度；

根据所述第一样本特征相似度和所述第二样本特征相似度，获取所述第一样本已知说话人与所述第二样本已知说话人之间的样本相似度；

所述根据所述第一样本特征相似度和所述第二样本特征相似度，获取所述第一样本已知说话人与第二样本已知说话人之间的样本相似度，包括：

基于所述第一样本特征相似度对所述第二样本特征相似度进行调整，得到第三样本特征相似度；

根据所述第一样本特征相似度和所述第三样本特征相似度，获取所述第一样本已知说话人与所述第二样本已知说话人之间的样本相似度；

所述基于所述第一样本特征相似度对所述第二样本特征相似度进行调整，得到第三样本特征相似度，包括：

调整所述第二样本特征相似度，得到第三样本特征相似度，使调整后的第二样本特征相似度与所述第一样本特征相似度之间的差异小于调整前的第二样本特征相似度与所述第一样本特征相似度之间的差异。

6.根据权利要求5所述的方法，在所述根据第一样本已知说话人与所述第二样本已知说话人之间的实际相似度及所述样本相似度，计算所述神经网络模型的第一损失值之后，还包括：

根据所述第三样本特征相似度与所述实际相似度，计算所述神经网络模型的第二损失值；

所述根据所述第一损失值调整所述神经网络模型的模型参数，包括：

根据所述第一损失值和所述第二损失值调整所述神经网络模型的模型参数。

7.根据权利要求5-6中任一项所述的方法，其中，每一样本说话人特征为按照以下方式对每一样本语音特征进行特征提取得到的特征：

以样本语音特征为待分析信号进行信号分析，得到已知说话人的声音属性信息；

基于注意力机制，对所得到的声音属性信息进行信息挖掘，获得表征已知说话人发音器官的生理结构的结构特征和声音的描述特征；

基于各生理结构和描述特征的重要程度，对所获得的各结构特征和描述特征的特征值进行调整，得到已知说话人的样本说话人特征。

8.根据权利要求5-6中任一项所述的方法，其中，在所述第一样本已知说话人所发出语音包括至少两段语音的情况下，所述第一样本说话人特征为按照以下方式得到的特征：

针对所述第一样本已知说话人所发出的每一段语音，对该段语音的第一样本语音特征进行特征提取，得到所述第一样本已知说话人的样本说话人特征；

对所得到的样本说话人特征进行统计分析，将统计分析得到的特征确定为所述第一样本已知说话人的第一样本说话人特征。

9.一种说话人识别装置，包括：

识别人识别模块，用于基于所述相似度，识别所述待识别人；

所述相似度获取模块，包括：

第一相似度计算子模块，用于计算所述第一说话人特征中包括的结构特征与所述第二说话人特征中包括的结构特征之间的第一特征相似度；

第二相似度计算子模块，用于计算所述第一说话人特征与所述第二说话人特征之间的第二特征相似度；

第一相似度获取子模块，用于根据所述第一特征相似度和所述第二特征相似度，获取所述待识别人与已知说话人之间的相似度；

所述第一相似度获取子模块，包括：

第一相似度调整单元，用于基于所述第一特征相似度对所述第二特征相似度进行调整，得到第三特征相似度；

第一相似度获取单元，用于根据所述第一特征相似度和所述第三特征相似度，获取所述待识别人与已知说话人之间的相似度；

所述第一相似度调整单元，具体用于：

10.一种模型训练装置，包括：

相似度获得模块，用于将所述第一样本语音特征和所述第二样本语音特征输入预设的神经网络模型，得到所述第一样本已知说话人和第二样本已知说话人之间的样本相似度，其中，所述样本相似度为：根据第一样本说话人特征与第二样本说话人特征计算得到的相似度，所述第一样本说话人特征为对所述第一样本语音特征进行特征提取得到的说话人特征，所述第二样本说话人特征为对所述第二样本语音特征进行特征提取得到的说话人特征，说话人特征包括表征说话人发音器官的生理结构的结构特征和说话人声音的描述特征；

第一损失值计算模块，用于根据第一样本已知说话人与第二样本已知说话人之间的实际相似度及所述样本相似度，计算所述神经网络模型的第一损失值；

参数调整模块，用于根据所述第一损失值调整所述神经网络模型的模型参数；

所述相似度获得模块，包括：

第三相似度计算子模块，用于计算所述第一样本说话人特征中包括的结构特征与所述第二样本说话人特征中包括的结构特征之间的第一样本特征相似度；

第四相似度计算子模块，用于计算所述第一样本说话人特征与所述第二样本说话人特征之间的第二样本特征相似度；

第二相似度获取子模块，用于根据所述第一样本特征相似度和所述第二样本特征相似度，获取所述第一样本已知说话人与第二样本已知说话人之间的样本相似度；

所述第二相似度获取子模块，包括：

第二相似度调整单元，用于基于所述第一样本特征相似度对所述第二样本特征相似度进行调整，得到第三样本特征相似度；

第二相似度获取单元，用于根据所述第一样本特征相似度和第三样本特征相似度，获取所述第一样本已知说话人与所述第二样本已知说话人之间的样本相似度；

所述第二相似度调整单元，具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4或5-8中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-4或5-8中任一项所述的方法。