CN111508505A

CN111508505A - 一种说话人识别方法、装置、设备及存储介质

Info

Publication number: CN111508505A
Application number: CN202010349219.8A
Authority: CN
Inventors: 钟奥; 王建社; 冯祥; 余巍; 董德武; 张建忠; 程彪
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-07
Anticipated expiration: 2040-04-28
Also published as: CN111508505B

Abstract

本申请提供了一种说话人识别方法、装置、设备及存储介质，其中，方法包括：以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，其中，混合高斯模型采用多个说话人的多条语音数据训练得到，混合高斯模型能够对语音数据中说话人个性特征的分布进行描述；根据目标说话人特征，识别待识别语音对应的说话人。本申请提供的说话人识别方法能够准确地识别出待识别语音对应的说话人。

Description

一种说话人识别方法、装置、设备及存储介质

技术领域

本申请涉及说话人识别技术领域，尤其涉及一种说话人识别方法、装置、设备及存储介质。

背景技术

由于不同人的生理特征(比如，声道、喉头等)与发音习惯不同(比如说话韵律、腔调等)，导致了不同人的发音都是不同的，也就是说，每个人的发音有其独特性。有鉴于此，可利用用户的语音数据进行身份识别。

为了实现用语音数据进行身份识别，出现了说话人识别技术，所谓说话人识别，指的是从语音数据中提取出代表个人身份的特征，从而利用该特征识别语音数据对应的说话人。目前的说话人识别方案有两种，一种为与文本有关的说话人识别方案，另一种为与文本无关的说话人识别方案，前者要求说话人提供指定语义内容的语音，可以用在用户比较配合的场合(例如公司声纹密码门禁系统)，后者则不关心语音数据中具体的语义内容。

相比于与文本有关的说话人识别方案，与文本无关的说话人识别方案的应用更为灵活和广泛。目前，与文本无关的说话人识别方案多为基于X-vector模型的说话人识别方案，该方案的主要思路是，用大量带说话人标签的训练样本训练X-vector模型，然后利用训练得到的X-vector模型进行说话人识别。然而，大量训练样本通常存在着一些不利因素(比如信道、环境噪声等)，这些不利因素的存在导致训练得到的模型偏离预期，即，训练得到的说话人特征提取模型的鲁棒性不强，从而导致在基于训练得到的X-vector模型进行说话人识别时，识别准确率不高。

发明内容

有鉴于此，本申请提供了一种说话人识别方法、装置、设备及存储介质，用以提高说话人识别准确率，其技术方案如下：

一种说话人识别方法，包括：

获取待识别语音；

以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，其中，所述混合高斯模型采用多个说话人的多条语音数据训练得到，所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述；

根据所述目标说话人特征，识别所述待识别语音对应的说话人。

可选的，所述以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，包括：

利用预先建立的说话人特征提取模型，从所述待识别语音中提取目标说话人特征；

其中，所述说话人特征提取模型利用所述多个说话人的多条语音数据以及所述混合高斯模型构建，每条语音数据对应有真实说话人标签。

可选的，所述说话人特征提取模型的构建过程包括：

分别对所述多个说话人的多条语音数据提取声学特征，以得到所述多个说话人分别对应的声学特征；

利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的说话人特征，作为所述多个说话人分别对应的真实说话人特征；

利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型。

可选的，利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的真实说话人特征，包括：

利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的高阶统计量，作为所述多个说话人分别对应的真实说话人特征；

其中，所述高阶统计量包括以下统计量中的一种或多种：均值、标准差、峰度、斜度。

可选的，所述利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的高阶统计量，包括：

根据所述多个说话人分别对应的声学特征，以及，每个说话人对应的声学特征的分布属于所述混合高斯模型中高斯函数的概率，确定所述多个说话人分别对应的高阶统计量。

可选的，所述利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型，包括：

由所述多个说话人分别对应的声学特征组成训练样本集，其中，所述训练样本集中的一个训练样本为一个说话人对应的声学特征，所述训练样本集中的每个训练样本对应有真实说话人特征和真实说话人标签，一训练样本对应的真实说话人特征为该训练样本对应的说话人所对应的真实说话人特征，一样本对应的真实说话人标签为该训练样本对应的说话人的语音数据所对应的真实说话人标签；

以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用所述训练样本集中的训练样本，训练说话人特征提取模型，以得到构建的说话人特征提取模型。

可选的，所述以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用所述训练样本集中的训练样本，训练说话人特征提取模型，包括：

对于所述训练样本集中的每个训练样本：

将该训练样本输入说话人特征提取模型，得到说话人特征提取模型预测的说话人特征，预测的说话人特征作为该训练样本对应的预测说话人特征；

根据该训练样本对应的预测说话人特征预测说话人标签，预测的说话人标签作为该训练样本对应的预测说话人标签；

以得到所述训练样本集中每个训练样本对应的预测说话人特征和预测说话人标签；

根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签，更新说话人特征提取模型的参数。

可选的，所述根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签，更新说话人特征提取模型的参数，包括：

根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失；

根据所述训练样本集中每个训练样本对应的真实说话人标签和预测说话人标签，确定说话人特征提取模型的第二预测损失；

根据所述第一预测损失和所述第二预测损失，确定说话人特征提取模型的目标预测损失；

根据所述目标预测损失，更新说话人特征提取模型的参数。

可选的，所述根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失，包括：

对于所述训练样本集中的每个训练样本，对该训练样本对应的预测说话人特征进行降维处理，以使降维后的预测说话人特征与该训练样本对应的真实说话人特征的维度相同；以得到所述训练样本集中每个训练样本对应的降维后说话人特征；

根据所述训练样本集中每个训练样本对应的真实说话人特征和降维后说话人特征，确定说话人特征提取模型的第一预测损失。

可选的，所述根据所述第一预测损失和所述第二预测损失，确定说话人特征提取模型的目标预测损失，包括：

根据所述第一预测损失和其对应的权重，以及所述第二预测损失和其对应的权重，确定说话人特征提取模型的目标预测损失；

其中，所述第二预测损失对应的权重根据所述第一预测损失对应的权重确定，所述第一预测损失对应的权重为预设权重，或者，根据说话人特征提取模型当前的实际召回率和预期召回率确定。

一种说话人识别装置，包括：待识别语音获取模块、说话人特征获取模块和说话人识别模块；

所述待识别语音获取模块，用于获取待识别语音；

所述说话人特征获取模块，用于以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，其中，所述混合高斯模型采用多个说话人的多条语音数据训练得到，所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述；

所述说话人识别模块，用于根据所述目标说话人特征，识别所述待识别语音对应的说话人。

可选的，所述说话人特征获取模块，具体用于利用预先建立的说话人特征提取模型，从所述待识别语音中提取目标说话人特征；

可选的，所述说话人识别装置还包括：声学特征提取模块、真实说话人特征确定模块和说话人特征提取模型构建模块；

所述声学特征提取模块，用于分别对所述多个说话人的多条语音数据提取声学特征，以得到所述多个说话人分别对应的声学特征；

所述真实说话人特征确定模块，用于利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的说话人特征，作为所述多个说话人分别对应的真实说话人特征；

所述说话人特征提取模型构建模块，用于利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型。

可选的，所述真实说话人特征确定模块，具体用于利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的高阶统计量，作为所述多个说话人分别对应的真实说话人特征；

一种说话人识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的说话人识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的说话人识别方法的各个步骤

经由上述方案可知，本申请提供的说话人识别方法、装置、设备及存储介质，首先以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，然后根据目标说话人特征，识别待识别语音对应的说话人。由于采用多个说话人的多条语音数据训练得到的混合高斯模型能够对语音数据中说话人个性特征的分布进行精确描述，因此，由混合高斯模型针对待识别语音确定的说话人特征能够较好地区分说话人，相应的，以混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取的目标说话人特征也能较好地区分说话人，也就是说，目标说话人特征能够较好地表征说话人，从而使得根据目标说话人特征能够准确地识别出待识别语音对应的说话人。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的说话人识别方法的流程示意图；

图2为本申请实施例提供的构建说话人特征提取模型的流程示意图；

图3为本申请实施例提供的时延神经网络TDNN对声学特征进行处理的示意图；

图4为本申请实施例提供说话人特征提取模型的拓扑结构示意图；

图5为本申请实施例提供的说话人识别装置的结构示意图；

图6为本申请实施例提供的说话人识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，基于X-vector模型的说话人识别方案进行说话人识别的过程大致为：利用X-vector模型从待识别语音中提取说话人特征，然后根据提取的说话人特征进行说话人识别。其中，X-vector模型采用大量标注有真实说话人标签的训练语音训练得到。

发明人在实现本案的过程中发现：在训练数据充足的前提下，基于X-vector模型的说话人识别方案相比于传统的基于i-vector的说话人识别方案具有更高的识别率，但是，基于X-vector模型的说话人识别方案具有的缺点也显而易见，由于训练数据的数据量很大，因此，很容易导致X-vector模型的整体效果向着训练数据中的不利因素发生偏移，从而导致最终训练得到的模型的性能与预期完全不同，进而导致识别阶段的识别效果不佳。

之所以发生上述情况，是因为X-vector模型是以说话人表征向量(即说话人特征)的交叉熵去对多个说话人进行分类，用预先标注的说话人标签减少熵值。由于训练数据的数据量需要足够大，在训练数据的数据量较大时，就会把训练语音中不可避免的不利因素(比如信道不匹配，发音习惯等)凸显出来，在模型学习中，这些不利因素一旦形成一定的规模，就会对模型的整体效果带来负面影响。

鉴于基于X-vector模型的说话人识别方案存在的问题，本案发明人进行了深入研究，最终提供了一种效果较好的说话人识别方法，该方法具有较高的识别准确率。本申请提供的说话人识别方法可应用于具有数据处理能力的终端(比如PC、笔记本、智能手机、车载终端等)，终端可接收待识别语音，并按本申请提供的说话人识别方法对待识别语音进行说话人识别，也可应用于服务器(可以为单个服务器、也可为多个服务器，还可以为服务器集群)，服务器可通过网络与终端连接，当终端接收到待识别语音时，可将待识别语音通过网络发送至服务器，服务器接收到待识别语音后，按本申请提供的说话人识别方法对待识别语音进行说话人识别，并将识别结果反馈给终端。接下来通过下述实施例对本申请提供的说话人识别方法进行介绍。

第一实施例

请参阅图1，示出了本实施例提供的说话人识别方法的流程示意图，该方法可以包括：

步骤S101：获取待识别语音。

其中，待识别语音为需要进行说话人识别的语音。

步骤S102：以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取目标说话人特征。

其中，混合高斯模型采用多个说话人的多条语音数据训练得到，混合高斯模型能够对语音数据中说话人个性特征的分布进行准确描述。需要说明的是，每个说话人的语音数据可以为一条，也可以为多条。

由于混合高斯模型能够对语音数据中说话人个性特征的分布进行准确描述，因此，由混合高斯模型针对待识别语音确定的说话人特征能够较好的表征说话人，即能够很好地将待识别语音对应的说话人与其他说话人区分开，相应的，以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取目标说话人特征也能较好的表征说话人。

步骤S103：根据目标说话人特征，识别待识别语音对应的说话人。

由于目标说话人特征为能够较好的将待识别语音对应的说话人与其他说话人区分开的说话人特征，因此，根据目标说话人特征进行说话人识别，能够获得较准确的识别结果。

在一种应用场景中，需要验证待识别语音对应的说话人是否为注册语音对应的说话人，即验证待识别语音对应的说话人与注册语音对应的说话人是否为同一说话人，基于此，步骤S102中识别待识别语音对应的说话人即为，识别待识别语音对应的说话人是否为注册语音对应的说话人，基于此，步骤S102的实现过程可以包括：

从注册语音获取说话人特征，根据目标说话人特征和从注册语音获取的说话人特征，确定待识别语音对应的说话人是否为注册语音对应的说话人。

可选的，根据目标说话人特征和从注册语音获取的说话人特征，确定待识别语音对应的说话人是否为注册语音对应的说话人的过程可以包括：计算目标说话人特征与从注册语音获取的说话人特征的相似度，若两个说话人特征的相似度大于预设的相似度阈值，则确定待识别语音对应的说话人为注册语音对应的说话人。可选的，两个说话人特征的相似度可通过两个说话人特征之间的余弦距离表征。

本实施例提供的说话人识别方法，首先以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取目标说话人特征，然后根据目标说话人特征识别待识别语音对应的说话人。由于采用多个说话人的多条语音数据训练得到的混合高斯模型能够对语音数据中说话人个性特征的分布进行精确描述，因此，由混合高斯模型针对待识别语音确定的说话人特征能够较好地区分说话人，相应的，以混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中获取的目标说话人特征也能较好地区分说话人，也就是说，目标说话人特征能够较好地表征说话人，从而使得根据目标说话人特征能够准确地识别出待识别语音对应的说话人。

第二实施例

本实施例对上述实施例中的“步骤S102：以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取目标说话人特征”进行介绍。

以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取目标说话人特征的过程可以包括：利用预先建立的说话人特征提取模型，从待识别语音中提取目标说话人特征。

其中，说话人特征提取模型利用多个说话人的多条语音数据以及混合高斯模型构建，每条语音数据对应有真实说话人标签。

接下来对构建说话人特征提取模型的过程进行介绍。

请参阅图2，示出了构建说话人特征提取模型的流程示意图，可以包括：

步骤S201：分别对多个说话人的多条语音数据提取声学特征，以得到多个说话人分别对应的声学特征。

具体的，对于多个说话人中的每个说话人，针对该说话人的语音数据提取声学特征，以得到该说话人对应的声学特征，从而得到每个说话人对应的声学特征。需要说明的是，对于任一说话人，若该说话人的语音数据为一条，则将从该条语音数据中提取的声学特征作为该说话人对应的声学特征，若该说话人的语音数据为多条，则分别从这多条语音数据中提取声学特征，将从多条语音数据中提取的声学特征拼接，拼接后的声学特征作为该说话人对应的声学特征。

可选的，声学特征可以但不限定为梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)。

步骤S202：利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的说话人特征，作为多个说话人分别对应的真实说话人特征。

具体的，利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的真实说话人特征的过程可以包括：利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的高阶统计量，作为多个说话人分别对应的真实说话人特征。具体的，可根据多个说话人分别对应的声学特征，以及，每个说话人对应的声学特征的分布属于混合高斯模型中高斯函数的概率，确定多个说话人分别对应的高阶统计量。

其中，高阶统计量包括以下统计量中的一种或多种：均值、标准差、峰度、斜度。优选的，高阶统计量同时包括均值、标准差、峰度和斜度这四个统计量。

需要说明的是，一说话人对应的均值用于表征该说话人对应的声学特征的均值，一说话人对应的标准差用于表征该说话人对应的声学特征的离散程度，一说话人对应的峰度用于表征该说话人对应的声学特征的概率密度分布在平均值处峰值的高低，一说话人对应的斜度用于表征该说话人对应的声学特征分布的偏斜方向和程度。

步骤S203：利用多个说话人分别对应的声学特征、多个说话人分别对应的真实说话人特征以及多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型。

具体的，利用多个说话人分别对应的声学特征、多个说话人分别对应的真实说话人特征以及多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型的过程可以包括：

步骤S2031、由多个说话人分别对应的声学特征组成训练样本集。

其中，训练样本集中的一个训练样本为一个说话人对应的声学特征，训练样本集中的每个训练样本对应有真实说话人特征和真实说话人标签，一训练样本对应的真实说话人特征为该训练样本对应的说话人所对应的真实说话人特征，一训练样本对应的真实说话人标签为该训练样本对应的说话人的语音数据所对应的真实说话人标签。

步骤S2032、以训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用训练样本集中的训练样本，训练说话人特征提取模型，以得到构建的说话人特征提取模型。

第三实施例

本实施例对上述实施例中的“步骤S202：利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的说话人特征，作为多个说话人分别对应的真实说话人特征”进行介绍。

前述实施例提到，混合高斯模型采用多个说话人的语音数据训练得到，具体的，混合高斯模型采用从多个说话人的语音数据中提取的声学特征训练得到。本实施例先对采用从多个说话人的语音数据中提取的声学特征构建混合高斯模型的过程进行介绍。

采用从多个说话人的语音数据中提取的声学特征构建混合高斯模型的过程可以包括：

步骤a1、设置初始参数。

具体的，需要设置最大迭代次数L以及每次迭代改进的阈值δ，即，在迭代过程中，若达到了最大迭代次数L和δ中的一个即停止迭代，另外，还需设置迭代次数初值m＝1，畸变初始值D(0)＝∞，需要说明的，畸变值为子集中所有点到子集中心的距离。

步骤a2、根据下式(1)的最近邻准则将从多个说话人的语音数据中提取的声学特征分到M个子集中。

其中，

为第l个子集

的类中心，

为第e个子集

的类中心，x为一声学特征，

表示x到类中心

的距离，

表示x到类中心

的距离。

步骤a3、采用下式(2)和(3)针对步骤a2得到的M个子集计算总的畸变D^(m)和畸变相对的改变值δ^(m)。

步骤a4、判断当前的迭代次数是否达到L，或者δ^(m)是否达到设置的δ。

若两个条件均不满足，则进行下一次迭代，对M个子集所包含的声学特征进行调整，然后再执行步骤a3和a4，直至两个条件中的一个满足；若两个条件中有一个满足，则对当前获得的M个子集分别按下式(4)～(6)计算均值

权重

和标准差

其中，

为第j个子集

对应的均值，其为子集

的类中心，

为第j个子集

对应的权重,N_j为属于第j个子集

的数据(即声学特征)的数量，T为M个子集中所包含数据的总数量，

为第j个子集

对应的标准差。

可选的，采用上述方式训练完混合高斯模型后，还可采用EM迭代算法去进一步优化混合高斯模型。

构建出的混合高斯模型可以通过如下的λ表征：

其中，w为混合高斯模型的权重，Y为混合高斯模型的均值，σ为混合高斯模型的标准差。

上述实施例提到，可利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的高阶统计量，将多个说话人分别对应的高阶统计量作为多个说话人分别对应的真实说话人特征，而高阶统计量优选为包括均值、标准差、峰度和斜度这四个统计量，接下来对利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的均值、标准差、峰度和斜度的过程进行介绍。

利用混合高斯模型和多个说话人分别对应的声学特征，确定多个说话人分别对应的均值、标准差、峰度和斜度的过程可以包括：根据多个说话人分别对应的声学特征，以及多个说话人分别对应的声学特征的分布属于混合高斯模型中高斯函数的概率，确定多个说话人分别对应的均值和标准差；根据多个说话人分别对应的均值和标准差，确定多个说话人分别对应的斜度和峰度。

更为具体的，假设有T个说话人，T个说话人分别对应的声学特征为x₁、x₂、...、x_T，则第i个说话人对应的均值E(x_i)、标准差E(x_i ²)、斜度S_i和峰度K_i分别为：

其中，

表示第i个说话人的声学特征x_i的分布属于混合高斯模型中第

个高斯函数的概率，需要说明的是，在训练说话人特征提取模型时，T个说话人分别对应的声学特征逐个输入说话人特征提取模型进行说话人特征提取，上式中的T'为截至当前，已输入至说话人特征提取模型进行说话人特征提取的声学特征的数量，T'的最大取值为T，上式中的x_t为x₁、x₂、...、x_T的均值。需要说明的是，上式中的n可根据下式确定：

经由上述过程，可获得第i个说话人对应的高阶统计量Z_i，从而可获得T个说话人分别对应的高阶统计量：

Z_i＝[E(x_i)，E_i(x_i ²)，S_i，K_i] (13)

第四实施例

本实施例对上述实施例中的“步骤S2032、以训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用训练样本集中的训练样本，训练说话人特征提取模型”的过程进行介绍。

以训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用训练样本集中的训练样本，训练说话人特征提取模型的过程可以包括：

步骤b1、对于训练样本集中的每个训练样本：将该训练样本输入说话人特征提取模型，得到说话人特征提取模型预测的说话人特征，预测的说话人特征作为该训练样本对应的预测说话人特征，根据该训练样本对应的预测说话人特征预测说话人标签，预测的说话人标签作为该训练样本对应的预测说话人标签。

需要说明的是，训练样本集中的训练样本逐个输入说话人特征提取模型进行说话人特征预测，在每获得一个说话人特征后，进一步根据获得的说话人特征预测说话人标签。

通过b1步骤可得到训练样本集中每个训练样本对应的预测说话人特征和预测说话人标签。

本实施例中的说话人特征提取模型的拓扑结构如图3所示，可以包括：多个时延神经网络TDNN(比如5个TDNN，如图3中的l1～l5)，还包括统计量池化层和一个全连接层(如图3中的l6)。为了对说话人特征提取模型进行训练，本申请在说话人特征提取模型的全连接层l6后还增加一个全连接层l7和Softmax层。需要说明的是，全连接层l7和Softmax层是为了模型训练而增设的，在模型训练完成后，需要将全连接层l7和Softmax层移除。

其中，时延神经网络TDNN就是在传统深度学习神经网络基础上增加了延时效果。当训练样本(即一个说话人对应的声学特征)输入TDNN后，如图4所示，TDNN对所有帧滑窗切分成若干段，每个段分别输入到全隐含层，得到单帧输出，TDNN的参数较少，训练速度较快，通过共享权值方便学习，且有能力表达声学特征在时间上的关系。

通过图3示出的说话人特征提取模型对一训练样本提取说话人特征的过程为：训练样本x_i(第i个说话人对应的声学特征^x _i)输入说话人特征提取模型后，首先经l1～l5的TDNN，最后一个TDNN输出帧级别的说话人特征，帧级别的说话人特征接着输入统计量池化层，统计量池化层对帧级别的说话人特征进行计算，输出均值与方差，从而从帧级别的特征过渡到句子级别的特征，然后将均值与方差拼接在一起得到向量X_i，接着将向量X_i输入全连接层l6，全连接层l6根据Y_i＝w*X_i+bias(w是全连接层l6的权重，bias是偏置)进行运算，输出向量Y_i，向量Y_i即为说话人特征提取模型针对输入的训练样本x_i预测的说话人特征(即训练样本对应的预测说话人特征)。

为了对模型进行训练，在获得说话人特征Y_i后，还需要将说话人特征Y_i输入全连接层l7，全连接层l7对说话人特征Y_i进行降维处理，以使降维后的说话人特征H_i与高阶统计量Z_i的维度相同，便于后续预测损失的计算，另外还需要根据降维后的说话人特征H_i预测说话人，从而得到预测的说话人标签。

另外，假设每个说话人为一个类别，每个说话人有t条语音数据，这样，每个说话人的t条语音数据分别对应的声学特征可以构成一个子集，本实施例可根据多个子集合内的均值与不同子集间的均值，确定全连接层l7的权重系数，具体的，可根据E(x_i)/(E(x_i)-E(x_i-1))确定全连接层l7的权重系数，其中，E(x_i)为第i个说话人对应的均值，E(x_i-1)为第i-1个说话人对应的均值，E(x_i)-E(x_i-1)为相邻不同说话人间的均值差。由于E(x_i)和E(x_i-1)可直接从确定出的高阶统计量中获得，因此，能够节省很大的计算量，提高模型的训练速度，同时，还能增强不同说话人间的区分度，并尽可能的将相似的说话人特征分配到一起。

步骤b2、根据训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、真实说话人标签和预测说话人标签，更新说话人特征提取模型的参数。

具体的，根据训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、真实说话人标签和预测说话人标签，更新说话人特征提取模型的参数的过程可以包括：

步骤b21a、根据训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失。

可选的，本实施例可采用均方误差MSE度量真实说话人特征与预测说话人特征之间的误差，即第一预测损失通过MSE表征，训练目标是使MSE值最小，具体的，MSE的计算公式如下所示：

其中，T为训练样本集中的总样本数，也为说话人的总数量，H_i为第i个训练样本(第i个说话人对应的声学特征)对应的预测说话人特征，Z_i为第i个训练样本对应的真实说话人特征(即高阶统计量)。

由上式可以看出，MSE计算的是预测值与真实值之间差的平方的均值，经过平方处理，会使得与真实值偏离较多的预测值会比偏离较少的预测值受到更为严重的惩罚。

步骤b21b、根据训练样本集中每个训练样本对应的真实说话人标签和预测说话人标签，确定说话人特征提取模型的第二预测损失。

本实施例除了从说话人特征层面计算预测损失外，还从说话人标签层面计算预测损失，可选的，说话人标签层面的预测损失可以为交叉熵损失，具体的，可通过下式计算：

其中，N为多个说话人的语音数据的总数量，T为说话人的总数量，d_ki为指示变量，d_ki的取值为0或1，若第k条语音数据对应的预测说话人标签与真实说话人标签一致，则d_ki为1，否则，d_ki为0，

表示在当前帧下，第k条语音数据属于第i个说话人的概率，q为第k条语音数据的总帧数。

步骤b22、根据说话人特征提取模型的第一预测损失和第二预测损失，确定说话人特征提取模型的目标预测损失。

在一种可能的实现方式中，可直接将说话人特征提取模型的第一预测损失与第二预测损失求和，求和后的预测损失作为说话人特征提取模型的目标预测损失。

在另一种较为优选的实现方式中，可分别为第一预测损失和第二预测损失赋予权重，从而将第一预测损失和第二预测损失加权求和，加权求和后的预测损失作为说话人特征提取模型的目标预测损失，即：

LOSS＝αMSE+(1-α)CE (16)

其中，α为第一预测损失对应的权重，1-α为第二预测损失对应的权重。

由于第二预测损失对应的权重根据第一预测损失对应的权重确定，因此，只需要确定第一预测损失对应的权重即可。确定第一预测损失对应的权重的方式有多种：

在一种可能的实现方式中，可根据经验预设第一预测损失对应的权重为固定值，比如，可设定第一预测损失对应的权重为0.5，那么，第二预测损失对应的权重为0.5。

在另一种可能的实现方式中，可根据说话人特征提取模型当前的实际召回率以及预期召回率，确定第一预测损失对应的权重。假设有T个说话人，每个说话人有t条语音数据，num_召回为能够召回的语音数据的数量(所谓的召回，指的是根据说话人特征提取模型提取的说话人特征能够正确识别出说话人)，则说话人特征提取模型的实际召回率recall_实际＝num_召回/(t*T)，第一预测损失对应的权重α为实际召回率recall_实际与预期召回率recall_预期的比值，即α＝recall_实际/recall_预期。

需要说明的是，说话人特征提取模型的实际召回率低表明其没有取得最优解，此时，可减小α，使CE占比变大，侧重于调模型，有利于模型找到最优解。当训练数量很大时，训练语音的信道信息和噪声信息会导致模型训练发生偏移，可以通过调节α，找到模型的最优解。

步骤b23、根据说话人特征提取模型的目标预测损失，更新说话人特征提取模型的参数。

按上述方式对说话人特征提取模型进行训练，训练结束后得到的模型即为构建出的说话人特征提取模型。

经由上述构建说话人特征提取模型的过程可知，说话人特征提取模型在训练的过程中，除了以真实说话人标签为依据外，还结合了真实说话人特征，即通过混合高斯模型确定的高阶统计量，由于混合高斯模型能够对说话人声学特征的音素分布进行精确描述，因此，通过混合高斯模型确定的高阶统计量能够较好得区分说话人，在训练说话人特征提取模型时，以高阶统计量为依据，能够对模型训练过程中发生的偏移进行校正，从而大大降低训练数据中不利因素对于模型整体效果的影响，进而使训练得到的说话人特征提取模型比较稳定，即通过本实施例能够构建出具有较强鲁棒性的说话人特征提取模型，利用该说话人特征提取模型进行说话人识别能够获得准确的识别结果。

第五实施例

本实施例提供了一种说话人识别装置，下面对本实施例提供的说话人识别装置进行描述，下文描述的说话人识别装置与上文描述的说话人识别方法可相互对应参照。

请参阅图5，示出了本实施例提供的说话人识别装置的结构示意图，该说话人识别装置可以包括：待识别语音获取模块501、说话人特征获取模块502和说话人识别模块503。

待识别语音获取模块501，用于获取待识别语音。

说话人特征获取模块502，用于以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征。

其中，所述混合高斯模型采用多个说话人的多条语音数据训练得到，所述混合高斯模型能够对语音数据中说话人个性特征的分布进行描述。

说话人识别模块503，用于根据所述目标说话人特征，识别所述待识别语音对应的说话人。

可选的，本实施例提供的说话人识别装置还包括：声学特征提取模块、真实说话人特征确定模块和说话人特征提取模型构建模块；

可选的，所述真实说话人特征确定模块，具体用于利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的高阶统计量，作为所述多个说话人分别对应的真实说话人特征。

可选的，所述真实说话人特征确定模块，具体用于根据所述多个说话人分别对应的声学特征，以及，每个说话人对应的声学特征的分布属于所述混合高斯模型中高斯函数的概率，确定所述多个说话人分别对应的高阶统计量。

可选的，说话人特征提取模型构建模块包括：训练样本集构建模块和说话人特征提取模型训练模块。

训练样本集构建模块，用于由所述多个说话人分别对应的声学特征组成训练样本集，其中，所述训练样本集中的一个训练样本为一个说话人对应的声学特征，所述训练样本集中的每个训练样本对应有真实说话人特征和真实说话人标签，一训练样本对应的真实说话人特征为该训练样本对应的说话人所对应的真实说话人特征，一样本对应的真实说话人标签为该训练样本对应的说话人的语音数据所对应的真实说话人标签；

说话人特征提取模型训练模块，用于以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用所述训练样本集中的训练样本，训练说话人特征提取模型，以得到构建的说话人特征提取模型。

可选的，说话人特征提取模型训练模块包括：预测子模块和参数更新子模块。

预测模块，用于对于所述训练样本集中的每个训练样本：将该训练样本输入说话人特征提取模型，得到说话人特征提取模型预测的说话人特征，预测的说话人特征作为该训练样本对应的预测说话人特征；根据该训练样本对应的预测说话人特征预测说话人标签，预测的说话人标签作为该训练样本对应的预测说话人标签；以得到所述训练样本集中每个训练样本对应的预测说话人特征和预测说话人标签；

参数更新模块，用于根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签，更新说话人特征提取模型的参数。

可选的，参数更新模块包括：预测损失确定子模块和参数更新子模块。

预测损失确定子模块，用于根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失；根据所述训练样本集中每个训练样本对应的真实说话人标签和预测说话人标签，确定说话人特征提取模型的第二预测损失；根据所述第一预测损失和所述第二预测损失，确定说话人特征提取模型的目标预测损失；

参数更新子模块，用于根据所述目标预测损失，更新说话人特征提取模型的参数。

可选的，预测损失确定子模块在根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失时，具体用于对于所述训练样本集中的每个训练样本，对该训练样本对应的预测说话人特征进行降维处理，以使降维后的预测说话人特征与该训练样本对应的真实说话人特征的维度相同；以得到所述训练样本集中每个训练样本对应的降维后说话人特征；根据所述训练样本集中每个训练样本对应的真实说话人特征和降维后说话人特征，确定说话人特征提取模型的第一预测损失。

可选的，预测损失确定子模块在根据所述第一预测损失和所述第二预测损失，确定说话人特征提取模型的目标预测损失时，具体用于根据所述第一预测损失和其对应的权重，以及所述第二预测损失和其对应的权重，确定说话人特征提取模型的目标预测损失；

本实施例提供的说话人识别装置，首先以趋于由混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，然后根据目标说话人特征识别待识别语音对应的说话人。由于采用多个说话人的多条语音数据训练得到的混合高斯模型能够对语音数据中说话人个性特征的分布进行精确描述，因此，由混合高斯模型针对待识别语音确定的说话人特征能够较好地区分说话人，相应的，以混合高斯模型针对待识别语音确定的说话人特征为获取方向，从待识别语音中提取的目标说话人特征也能较好地区分说话人，也就是说，目标说话人特征能够较好地表征说话人，从而使得根据目标说话人特征能够准确地识别出待识别语音对应的说话人。

第六实施例

本实施例提供了一种说话人识别设备，请参阅图6，示出了该说话人识别设备的结构示意图，该说话人识别设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待识别语音；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待识别语音；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人识别方法，其特征在于，包括：

获取待识别语音；

2.根据权利要求1所述的说话人识别方法，其特征在于，所述以趋于由混合高斯模型针对所述待识别语音确定的说话人特征为获取方向，从待识别语音中获取目标说话人特征，包括：

3.根据权利要求2所述的说话人识别方法，其特征在于，所述说话人特征提取模型的构建过程包括：

4.根据权利要求3所述的说话人识别方法，其特征在于，利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的真实说话人特征，包括：

5.根据权利要求4所述的说话人识别方法，其特征在于，所述利用所述混合高斯模型和所述多个说话人分别对应的声学特征，确定所述多个说话人分别对应的高阶统计量，包括：

6.根据权利要求3所述的说话人识别方法，其特征在于，所述利用所述多个说话人分别对应的声学特征、所述多个说话人分别对应的真实说话人特征以及所述多个说话人的多条语音数据的真实说话人标签，构建说话人特征提取模型，包括：

7.根据权利要求6所述的说话人识别方法，其特征在于，所述以所述训练样本集中每个训练样本对应的真实说话人特征和真实说话人标签为依据，利用所述训练样本集中的训练样本，训练说话人特征提取模型，包括：

对于所述训练样本集中的每个训练样本：

8.根据权利要求7所述的说话人识别方法，其特征在于，所述根据所述训练样本集中每个训练样本对应的预测说话人特征、真实说话人特征、预测说话人标签以及真实说话人标签，更新说话人特征提取模型的参数，包括：

根据所述目标预测损失，更新说话人特征提取模型的参数。

9.根据权利要求8所述的说话人识别方法，其特征在于，所述根据所述训练样本集中每个训练样本对应的真实说话人特征和预测说话人特征，确定说话人特征提取模型的第一预测损失，包括：

10.根据权利要求8所述的说话人识别方法，其特征在于，所述根据所述第一预测损失和所述第二预测损失，确定说话人特征提取模型的目标预测损失，包括：

11.一种说话人识别装置，其特征在于，包括：待识别语音获取模块、说话人特征获取模块和说话人识别模块；

所述待识别语音获取模块，用于获取待识别语音；

12.根据权利要求11所述的说话人识别装置，其特征在于，所述说话人特征获取模块，具体用于利用预先建立的说话人特征提取模型，从所述待识别语音中提取目标说话人特征；

13.一种说话人识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的说话人识别方法的各个步骤。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的说话人识别方法的各个步骤。