CN111599346A

CN111599346A - 一种说话人聚类方法、装置、设备及存储介质

Info

Publication number: CN111599346A
Application number: CN202010424995.XA
Authority: CN
Inventors: 褚繁; 李晋; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-08-28
Anticipated expiration: 2040-05-19
Also published as: CN111599346B

Abstract

本申请提供了一种说话人聚类方法、装置、设备及存储介质，方法包括：获取语音数据集；对于语音数据集中的每条语音数据，以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，得到由获取的说话人特征组成的说话人特征集；根据说话人特征集对语音数据集进行聚类。其中，在根据说话人特征集对语音数据集进行聚类时，可采用不需要预先设定类别数的聚类算法对说话人特征集中的说话人特征进行粗聚类，在粗聚类基础上，进一步根据类内距离和类间距离进行细聚类，从而根据细聚类结果获得语音数据集中语音数据的聚类结果。通过本申请提供的说话人聚类方法能够获得比较准确的聚类结果。

Description

一种说话人聚类方法、装置、设备及存储介质

技术领域

本申请涉及数据聚类技术领域，尤其涉及一种说话人聚类方法、装置、设备及存储介质。

背景技术

在某些应用场景中，需要将语音数据集中的语音数据按说话人区分开来，即，将同一说话人的语音数据聚为一类。

比如，在应用语音识别的场景中，出现了多个说话人，多个说话人的语音内容共同出现在了一整段语音中，这就需要将整段语音按说话人切分为多个语音段，进而将同一说话人的语音段聚在一起。

然而，如何对语音数据集中的语音数据进行准确聚类是当前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种说话人聚类方法、装置、设备及存储介质，用以准确地将语音数据集中属于同一说话人的语音数据聚为一类，其技术方案如下：

一种说话人聚类方法，包括：

获取待聚类的语音数据集；

对于所述语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集；

根据所述说话人特征集中的说话人特征，对所述语音数据集中的语音数据进行聚类。

可选的，所述以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，包括：

利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征；

其中，所述说话人特征提取模型采用标注有真实说话人标签的语音样本训练得到，所述说话人特征提取模型的训练目标为，使根据所述语音样本获取的说话人特征确定的说话人标签，趋于所述语音样本对应的真实说话人标签，以及，通过正交分解使所述语音样本中的说话人信息与信道信息分离。

可选的，所述利用预先建立的说话人特征提取模型，从该语音数据获取说话人特征，包括：

利用所述说话人特征提取模型，从该语音数据中获取帧级别说话人特征，并根据所述帧级别说话人特征确定一阶统计量和二阶统计量；

利用所述说话人特征提取模型，从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量，并根据所述第一向量和所述第二向量确定说话人特征；其中，所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成，所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成，所述第一向量与所述第二向量正交。

可选的，所述根据所述第一向量和所述第二向量确定说话人特征，包括：

分别从所述第一向量和所述第二向量中提取说话人信息，以得到包含说话人信息的第三向量和包含说话人信息的第四向量；

根据所述第一向量和所述第二向量确定所述第三向量和所述第四向量分别对应的权重；

按所述第三向量和所述第四向量分别对应的权重，对所述第三向量和所述第四向量加权求和，得到加权求和后的向量；

根据所述加权求和后的向量确定说话人特征。

可选的，建立所述说话人特征提取模型的过程包括：

对于所述语音样本集中的每个语音样本：

利用说话人特征提取模型，从该语音样本中获取帧级别说话人特征，并根据所述帧级别说话人特征确定一阶统计量和二阶统计量；

利用说话人特征提取模型，从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量，并根据所述第一向量和所述第二向量确定说话人特征；其中，所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成，所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成；

根据确定的说话人特征确定说话人标签，作为该语音样本对应的预测说话人标签；

根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数。

可选的，所述根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数，包括：

对于所述语音样本集中的每个语音样本，根据该语音样本对应的预测说话人标签和真实说话人标签，确定该语音样本对应的说话人预测损失；

将所述语音样本集中各语音样本分别对应的说话人预测损失求和，求和得到的损失作为说话人特征提取模型的说话人预测损失；

对于所述语音样本集中的每个语音样本，确定该语音样本对应的第一向量与第二向量的余弦距离，作为该语音样本对应的正交损失；

将所述语音样本集中各语音样本分别对应的正交损失求和，求和得到的损失作为说话人特征提取模型的正交损失；

根据所述说话人特征提取模型的说话人预测损失和所述说话人特征提取模型的正交损失，更新说话人特征提取模型的参数。

可选的，所述根据所述说话人特征集中的说话人特征，对所述语音数据集中的语音数据进行聚类，包括：

对所述说话人特征集中的说话人特征进行聚类，以将同一说话人的说话人特征聚为一类，得到所述说话人特征集中说话人特征的聚类结果；

根据所述说话人特征集中说话人特征的聚类结果，获得所述语音数据集中语音数据的聚类结果。

可选的，所述对所述说话人特征集中的说话人特征进行聚类，包括：

采用预设的聚类算法对所述说话人特征集中的说话人特征进行粗聚类，获得粗聚类结果，其中，所述聚类算法为不需要预先设定类别数的聚类算法；

在所述粗聚类结果的基础上，根据类内距离和类间距离对所述说话人特征集中的说话人特征进行细聚类，得到细聚类结果，作为所述说话人特征集中说话人特征的聚类结果，其中，所述类内距离为同一类内的说话人特征与该类的类中心的距离，所述类间距离为两个不同类之间的距离。

可选的，所述在所述粗聚类结果的基础上，根据类内距离和类间距离对所述说话人特征集中的说话人特征进行细聚类，包括：

对于所述粗聚类结果中的每个类中的每个说话人特征，根据该说话人特征与其所在类的类中心的距离，确定该说话人特征是否属于其所在的类，若是，则将该说话人特征保留至其所在的类，若否，则将该说话人特征从其所在的类中移出，并将该说话人特征划分至一个新的类中；

对于获得的所有类，根据类间距离进行类合并。

可选的，所述聚类算法根据所述多个说话人特征中两两说话人特征之间的欧式距离进行聚类，所述类内距离和所述类间距离为余弦距离。

一种说话人聚类装置，包括：语音数据获取模块、说话人特征获取模块和说话人聚类模块；

所述语音数据获取模块，用于获取待聚类的语音数据集；

所述说话人特征获取模块，用于对于所述语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集；

所述说话人聚类模块，用于根据所述说话人特征集中的说话人特征，对所述语音数据集中的语音数据进行聚类。

可选的，所述说话人特征获取模块，具体用于利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征；

可选的，所述说话人聚类模块包括：说话人特征聚类模块和聚类结果获取模块；

所述说话人特征聚类模块，用于对所述说话人特征集中的说话人特征进行聚类，以将同一说话人的说话人特征聚为一类，得到所述说话人特征集中说话人特征的聚类结果；

所述聚类结果获取模块，用于根据所述说话人特征集中说话人特征的聚类结果，获得所述语音数据集中语音数据的聚类结果。

可选的，所述说话人特征聚类模块包括：粗聚类子模块和细聚类子模块；

所述粗聚类子模块，用于采用预设的聚类算法对所述说话人特征集中的说话人特征进行粗聚类，获得粗聚类结果，其中，所述聚类算法为不需要预先设定类别数的聚类算法；

所述细聚类子模块，用于在所述粗聚类结果的基础上，根据类内距离和类间距离对所述说话人特征集中的说话人特征进行细聚类，得到细聚类结果，作为所述说话人特征集中说话人特征的聚类结果，其中，所述类内距离为同一类内的说话人特征与该类的类中心的距离，所述类间距离为两个不同类之间的距离。

一种说话人聚类设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的说话人聚类方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述任一项所述的说话人聚类方法的各个步骤。

经由上述方案可知，本申请提供的说话人聚类方法，在获得待聚类的语音数据集后，对于语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集，然后根据说话人特征集中的说话人特征，对语音数据集中的语音数据进行聚类。可以理解是，将语音数据中的说话人信息与信道信息分离，可以提取到包含高纯度说话人信息的说话人特征，而以该说话人特征为获取方向，获取到的说话人特征同样包含较高纯度的说话人信息，也就是说，以趋于通过将语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从语音数据中获取的说话人特征能够较好地表征该语音数据对应的说话人(或者说能够较好地同其他说话人区分开来)，根据这样的说话人特征对语音数据聚类，很容易将不同说话人的语音数据区分开来，而不易把不同说话人的语音数据聚在一起，因此，能够获得比较准确的聚类结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的说话人聚类方法的流程示意图；

图2为本申请实施例提供的建立说话人特征提取模型的流程示意图；

图3为本申请实施例提供的说话人特征提取模型的一拓扑结构示意图；

图4为本申请实施例提供的利用预先建立的说话人特征提取模型，从语音数据获取说话人特征的流程示意图；

图5为本申请实施例提供的对说话人特征集中的说话人特征进行聚类的流程示意；

图6为本申请实施例提供的说话人聚类装置的结构示意图；

图7为本申请实施例提供的说话人聚类设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

说话人聚类是说话人识别的衍生技术，进行说话人聚类的大致思路为：从待聚类的语音数据中提取说话人特征(也可称为声纹模型向量)，根据说话人特征对语音数据进行聚类。由于语音数据的聚类结果根据说话人特征确定，因此，说话人特征是影响聚类效果的重要因素，即，若要获得较准确的聚类结果，首先需要获得能够较好地表征说话人的说话人特征。

目前，从语音数据中提取说话人特征的方案主要为基于全变量系统(TotalVariability)的说话人特征提取方案，该方案的大致过程为：利用大量的语料，训练得到覆盖各种环境和信道的全变量空间，利用此空间，将一段语音映射成维度固定统一的声纹模型向量(Ivector)，即说话人特征。

然而，在语音时长较短的情况下，由于统计量计算不充分，导致采用上述方案获得的说话人特征不够稳定，也就是说，在某些情况下，采用上述方案获得的说话人并不能很好的表征说话人。可以理解的是，若获得的说话人特征不能很好的表征说话人，会导致根据该说话人特征难以将其对应的说话人与其他说话人区分开，进而导致聚类结果不准确。

为了能够获得准确的聚类结果，本案发明人进行了深入研究，最终提出了一种效果较好的说话人聚类方法，该说话人聚类方法的大致思路为：首先从待聚类的语音数据中提取能够较好表征说话人(或者说区分性较好)的说话人特征，然后采用合适的聚类算法(聚类算法也是影响聚类效果的重要因素)对说话人特征进行聚类，最后根据说话人特征的聚类结果获得待聚类的语音数据的聚类结果。本申请提供的说话人聚类方法可应用于具有数据处理能力的终端(比如，PC、智能手机、PAD、笔记本等)，还可应用于服务器(可以为单个服务器，也可以为多个服务器，还可以为服务器集群)，接下来通过下述实施例对本申请提供的说话人聚类方法进行介绍。

第一实施例

请参阅图1，示出了本实施例提供的说话人聚类方法的流程示意图，该方法可以包括：

步骤S101：获取待聚类的语音数据集。

其中，待聚类的语音数据集中包括至少一个说话人的至少一条语音数据，通常情况下，包括多个说话人的多条语音数据。

步骤S102：对于语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集。

需要说明的是，将语音数据中的说话人信息与信道信息分离，可以获取到更多的说话人信息，即，通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为包含高纯度说话人信息的说话人特征，而以该说话人特征为获取方向，获取到的说话人特征同样包含较高纯度的说话人信息，即该说话人特征能够很好地表征说话人。

在一种可能的实现方式中，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征的实现过程可以包括：利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征。

其中，说话人特征提取模型采用标注有真实说话人标签的语音样本训练得到，说话人特征提取模型的训练目标为，使根据语音样本获取的说话人特征确定的说话人标签，趋于语音样本对应的真实说话人标签，以及，通过正交分解使语音样本中的说话人信息与信道信息分离。

步骤S103：根据说话人特征集中的说话人特征，对语音数据集中的语音数据进行聚类。

具体的，根据说话人特征集中的说话人特征，对语音数据集中的语音数据进行聚类的过程包括：首先对说话人特征集中的说话人特征进行聚类，以将同一说话人的说话人特征聚为一类，得到说话人特征集中说话人特征的聚类结果；然后根据说话人特征集中说话人特征的聚类结果，获得语音数据集中语音数据的聚类结果。

其中，在获得说话人特征集中说话人特征的聚类结果后，可将该聚类结果中的每个类中的每个说话人特征替换为语音数据集中对应的语音数据，从而得到语音数据集中语音数据的聚类结果。

本实施例提供的说话人聚类方法，在获得待聚类的语音数据集后，对于语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集，然后根据说话人特征集中的说话人特征，对语音数据集中的语音数据进行聚类。可以理解是，根据正交分解将语音数据中的说话人信息与信道信息分离，可以提取到包含高纯度说话人信息的说话人特征，而以该说话人特征为获取方向，获取到的说话人特征同样包含较高纯度的说话人信息，也就是说，以趋于根据正交分解将语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从语音数据中获取的说话人特征能够较好地表征该语音数据对应的说话人(或者说能够较好地同其他说话人区分开来)，根据这样的说话人特征对语音数据聚类，很容易将不同说话人的语音数据区分开来，而不易把不同说话人的语音数据聚在一起，因此，能够获得比较准确的聚类结果。

第二实施例

上述实施例提到，对于待聚类的语音数据集中的每条语音数据，可利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征。本实施例对建立说话人特征提取模型的具体过程进行介绍。

请参阅图2，示出了建立说话人特征提取模型的流程示意图，可以包括：

步骤S201：对于语音样本集中的每个语音样本按如下步骤S2011～步骤S2013预测说话人标签，以得到语音样本集中每个语音样本对应的预测说话人标签。

步骤S2011、利用说话人特征提取模型，从该语音样本中获取帧级别说话人特征，并根据获取的帧级别说话人特征确定一阶统计量和二阶统计量。

其中，一阶统计量可以为均值向量，二阶统计量可以为标准差向量。

步骤S2012、利用说话人特征提取模型，从一阶统计量和二阶统计量中获取第一向量和第二向量，并根据第一向量和第二向量确定说话人特征。

其中，第一向量由一阶统计量中的一部分和二阶统计量中的一部分拼接而成，第二向量由一阶统计量中的另一部分和二阶统计量中的另一部分拼接而成。

可选，可将一阶统计量平均切分为两部分，同样的，将二阶统计量也平均切分为两部分，将一阶统计量的前半部分和二阶统计量的前半部分拼接成第一向量，将一阶统计量的后半部分和二阶统计量的后半部分拼接成第二向量。

其中，根据第一向量和第二向量确定说话人特征的过程包括：分别从第一向量和第二向量中提取说话人信息，以得到包含说话人信息的第三向量和包含说话人信息的第四向量；根据第一向量和第二向量确定第三向量和第四向量分别对应的权重；按第三向量和第四向量分别对应的权重，对第三向量和第四向量加权求和，得到加权求和后的向量；根据加权求和后的向量确定说话人特征。

请参阅图3，示出了说话人特征提取模型的一拓扑结构示意图，该说话人特征提取模型可以包括多个时延神经网络(如图3中的TDNN1～TDNN5)、统计量池化层、分离模块、正交化模块和线性层，采用图3示出的说话人特征提取模型针对一语音样本x获取说话人特征的过程包括：

获取从语音样本x提取的声学特征，将声学特征输入说话人特征提取模型，声学特征首先经TDNN1～TDNN5，最后一个TDNN输出帧级别的说话人特征，帧级别的说话人特征接着输入统计量池化层，统计量池化层对帧级别的说话人特征进行计算，输出一阶统计量(即均值向量)与二阶统计量(即标准差向量)，然后，将一阶统计量与二阶统计量输入分离模块，分离模块将一阶统计量平均切分为两部分，同样的，将二阶统计量也平均切分为两部分，然后将一阶统计量的前半部分和二阶统计量的前半部分拼接成第一向量v₁，将一阶统计量的后半部分和二阶统计量的后半部分拼接成第二向量v₂，接着，将第一向量v₁和第二向量v₂输入正交化模块，如图3所示，正交化模块包括两个分支，一个分支(Linear11-Linear12)用来提取说话人信息，另一个分支(Linear21-Softmax)用来生成权重，即，将第一向量v₁和第二向量v₂输入Linear11-Linear12，可获得包含说话人信息的第三向量v′₁和包含说话人信息的第四向量v′₂，同时，第一向量v₁和第二向量v₂输入Linear21-Softmax，可得到第三向量v′₁和第四向量v′₂分别对应的权重w₁和w₂，然后按w₁和w₂对v′₁和v′₂加权求和，即：

v′＝v′₁*w₁+v′₂*w₂ (1)

加权求和后的向量v′输入线性层，便可得到线性层输出的说话人特征。

步骤S2013、根据确定的说话人特征确定说话人标签，作为该语音样本对应的预测说话人标签。

为了对说话人特征提取模型进行训练，在获得说话人特征后，还需要将说话人特征输入分类层(即softmax层)进行分类，以得到预测的说话人标签。需要说明的是，分类层是为了模型训练而设置的，在训练完模型后，需要将分类层移除。

通过上述步骤S2011～步骤S2013可获得语音样本集中每个语音样本对应的预测说话人标签。

步骤S202：根据语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数。

具体的，根据语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数的过程可以包括：

步骤S2021a、对于语音样本集中的每个语音样本，根据该语音样本对应的预测说话人标签和真实说话人标签，确定该语音样本对应的说话人预测损失，以得到语音样本集中每个语音样本对应的说话人预测损失。

步骤S2022a、将语音样本集中各语音样本分别对应的说话人预测损失求和，求和得到的损失作为说话人特征提取模型的说话人预测损失。

具体的，说话人特征提取模型的说话人预测损失可通过下式确定：

其中，N为语音样本集中语音样本的总数量，K为类别数(即说话人的数量)，d_nk为指示变量，d_nk的取值为0或1，若第n条语音样本对应的预测说话人标签与真实说话人标签一致，则d_nk为1，否则，d_nk为0，

表示第n条语音数据属于第k个说话人的概率，T为第n条语音数据的总帧数。

步骤S2021b、对于语音样本集中的每个语音样本，确定该语音样本对应的第一向量与第二向量的余弦距离，作为该语音样本对应的正交损失，以得到语音样本集中每个语音样本对应的正交损失。

需要说明的是，该语音样本对应的第一向量与第二向量的余弦距离能够反映语音样本对应的第一向量与第二向量的正交化程度。

步骤S2022b、将语音样本集中各语音样本分别对应的正交损失求和，求和得到的损失作为说话人特征提取模型的正交损失。

具体的，说话人特征提取模型的正交损失可通过下式确定：

其中，N为语音样本集中语音样本的总数量，v₁ ⁿ为第n条语音样本对应的第一向量，

为第n条语音样本对应的第二向量，

为第n条语音样本对应的第一向量与第二向量的余弦距离的绝对值。

需要说明的是，本申请基于正交损失使第一向量v₁与第二向量v₂正交，使其分别投影到说话人空间与信道空间，达到将信道信息剥离，从而提纯说话人信息的作用。

步骤S2023、根据说话人特征提取模型的说话人预测损失和说话人特征提取模型的正交损失，更新说话人特征提取模型的参数。

在一种可能的实现方式中，可直接将说话人特征提取模型的说话人预测损失和说话人特征提取模型的正交损失求和，根据求和得到的损失，更新说话人特征提取模型的参数；在另一种可能的实现方式中，可按预先分别为说话人特征提取模型的说话人预测损失和正交损失设置的权重，对说话人特征提取模型的说话人预测损失和正交损失加权求和，根据加权求和后的损失更新说话人特征提取模型的参数。

由于说话人特征提取模型基于说话人损失和正交损失训练得到，因此，其能够从语音数据中提取到包含高纯度说话人信息的说话人特征。

第三实施例

在上述第二实施例的基础上，本实施例以一条语音数据s为例，对从语音数据s中获取说话人特征的实现过程进行介绍。

请参阅图4，示出了利用预先建立的说话人特征提取模型，从语音数据s中获取说话人特征的流程示意图，可以包括：

步骤S401：利用说话人特征提取模型，从语音数据s中获取帧级别说话人特征，并根据帧级别说话人特征确定一阶统计量和二阶统计量。

步骤S402：利用说话人特征提取模型，从一阶统计量和二阶统计量中获取第一向量和第二向量，并根据第一向量和第二向量确定说话人特征。

其中，第一向量由一阶统计量中的一部分和二阶统计量中的一部分拼接而成，第二向量由一阶统计量中的另一部分和二阶统计量中的另一部分拼接而成，第一向量与第二向量正交。

在对说话人特征模型进行训练时，若第一向量由一阶统计量中的前半部分和二阶统计量中的前半部分拼接而成，第二向量由一阶统计量中的后半部分和二阶统计量中的后半部分拼接而成，则步骤S402中的第一向量和第二向量采用同样的方式获得。

需要说明的是，本实施例中第一向量与第二向量正交指的是，第一向量与第二向量的余弦距离的绝对值为0或趋于0，趋于0指的是与0的差值小于预设值。

步骤S402中“根据第一向量和第二向量确定说话人特征”的实现过程与上述实施例的步骤S2012中“根据第一向量和第二向量确定说话人特征”的实现过程相同，即，分别从第一向量和第二向量中提取说话人信息，以得到包含说话人信息的第三向量和包含说话人信息的第四向量，根据第一向量和第二向量确定第三向量和第四向量分别对应的权重；按第三向量和第四向量分别对应的权重，对第三向量和第四向量加权求和，得到加权求和后的向量；根据加权求和后的向量确定说话人特征。

通过对待聚类的语音数据集中的每条语音数据执行上述步骤S401～S402，便可得到语音数据集中每条语音数据对应的说话人特征，进而可获得由语音数据集中各条语音数据分别对应的说话人特征组成的说话人特征集。

第四实施例

上述实施例提到，在获得说话人特征集后，可对说话人特征集中的说话人特征进行聚类，然后再根据说话人特征集中说话人特征的聚类结果，获得语音数据集中语音数据的聚类结果，本实施例主要介绍对说话人特征集中的说话人特征进行聚类的过程。

请参阅图5，示出了对说话人特征集中的说话人特征进行聚类的流程示意，可以包括：

步骤S501：采用预设的聚类算法对说话人特征集中的说话人特征进行粗聚类，获得粗聚类结果。

可选的，本实施例中的聚类算法可以但不限定为K-means聚类算法、层次聚类算法、AP聚类算法中的任一种。

K-means是一种迭代求解的聚类分析算法，它主要的优点是十分的高效，由于只需要计算数据点与聚类中心的距离，计算复杂度较低，但是该聚类算法的缺点也十分明显，其十分依赖于初始给定的聚类数目，若设定聚类数与实际类别数差异较大，效果会明显下降，同时，随机初始化聚类中心可能会生成不同的聚类效果，所以它缺乏重复性和连续性。

层次聚类算法简称HC聚类算法，其主要有自顶向下和自底向上两种方式，其中，自底向上的方式又称为凝聚层次聚类算法，而自顶向下的方式又称为分裂层次聚类算法，该聚类算法会形成一个树形结构，并在这一过程中形成聚类，且凝聚或者分裂的层次聚类算法得到的聚类结果实际上是相同的，层次聚类算法的优点在于无需事先指定类的数目，并且对于距离的度量不敏感，这种方法最好的应用在于恢复出数据的层次化结构，但其在数据集较大时，聚类结果的说话人纯度会大幅下降，并且算法本身计算复杂度较高。

AP(Affinity Propagation)聚类算法是根据数据点之间的相似度来进行聚类，它把所有的数据点都看成潜在意义上的聚类中心，有别于K-means聚类，该算法将每个数据点视为一个网络节点，将全部样本看作网络的节点，然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是吸引度(responsibility)和归属度(availability)。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的聚类中心，同时将其余的数据点分配到相应的聚类中。

考虑到AP聚类算法是一种无需预先指定类别数的聚类算法，并且其适合高维和多类数据的聚类，本实施例优选为采用AP聚类算法对说话人特征集中的说话人特征进行粗聚类。需要说明是，本实施例并不限定仅优选AP聚类算法对说话人特征集中的说话人特征进行粗聚类，其他不需要预先指定类别数、且适合高维和多类数据聚类的聚类算法同样可以作为本申请的优选聚类算法。

步骤S502：在粗聚类结果的基础上，根据类内距离和类间距离对说话人特征集中的说话人特征进行细聚类，得到细聚类结果，作为说话人特征集中说话人特征的聚类结果。

其中，类内距离为同一类内的说话人特征与该类的类中心的距离，类间距离为两个不同类之间的距离。

在一种可能的实现方式中，类内距离和类间距离可以采用欧式距离，在另一种可能的实现方式中，类内距离和类间距离可以采用余弦距离。需要说明的是，假设S501中的聚类算法(比如AP聚类算法)是根据说话人特征之间的欧式距离进行聚类，那么，本步骤中的类内距离和类间距离优选为采用余弦距离，本步骤之所有选用与步骤S501不同的余弦距离，是为了弥补采用欧式距离进行进行聚类所带来的不足，从而提升聚类效果。

第五实施例

本实施例对上述实施例中的“步骤S501：采用预设的聚类算法对说话人特征集中的说话人特征进行粗聚类，获得粗聚类结果”的过程进行介绍。

由于预设的聚类算法优选为AP聚类算法，本实施例以AP聚类算法为例，介绍对说话人特征集中的说话人特征进行粗聚类的具体实现过程。

采用AP聚类算法对说话人特征集中的说话人特征进行粗聚类的过程可以包括：

步骤S5011、针对说话人特征集中的两两说话人特征计算相似度，以获得相似度矩阵S。

假设说话人特征集中包括10个说话人特征，则通过步骤S5011可得到10*10的相似度矩阵S，相似度矩阵S中的元素S(i，j)(i不等于j)，表示说话人特征i与说话人特征j之间的相似度，也表示说话人特征j作为说话人特征i的聚类中心的合适程度，S(i，j)通常为两个说话人特征之间的欧式距离的负值。需要说明的是，相似度矩阵S中的元素S(k，k)表示说话人特征k作为说话人特征k的聚类中心的合适程度，即说话人特征k成为聚类中心的合适程度，S(k，k)通常取整个矩阵的最小值或者中位数，通常取中位数。

步骤S5012、初始化吸引度矩阵和归属度矩阵。

将吸引度矩阵和归属度矩阵均初始化为零矩阵，即吸引度矩阵和归属度矩阵中元素的初始值为0。

步骤S5013、根据如下的吸引度公式更新吸引度矩阵：

其中，r(i,k)表示说话人特征k对于说话人特征i的吸引度，即说话人特征k作为说话人特征i的聚类中心的程度。上式表示，在i不等于k时，在所有其它说话人特征j中找到最大的a_t(i,j)+r_t(i,j)，即max_j≠k{a_t(i,j)+r_t(i,j)}，再用S(i,k)减去max_j≠k{a_t(i,j)+r_t(i,j)}，即得到说话人特征k对于说话人特征i的吸引度r(i,k)，在i等于k时，在所有其它说话人特征j中找到最大的S(i,j)，即max_j≠k{S(i,j)}，再用S(i,k)减去max_j≠k{S(i,j)}，即得到说话人特征k对于说话人特征i的吸引度。

步骤S5014、根据如下的归属度公式更新归属度矩阵：

其中，a(i,k)表示说话人特征i对于说话人特征k的归属度，即说话人特征i选择说话人特征k作为其聚类中心的适合程度。如果说话人特征k作为其它说话人特征j的聚类中心的合适程度很大，那么说话人特征k作为说话人特征i的聚类中心的合适程度也可能很大，基于此可先计算说话人特征k对其它说话人特征的吸引度r_t+1(j,k)，上述中的∑_j≠i， _kmax{r_t+1(j，k)，0}表示说话人特征k对其它节点的吸引度，上式中，i＝k时，∑_j≠kmax{r_t+1(j，k)，0}反映了k作为聚类中心的能力。

步骤S5015、根据衰减系数λ对吸引度公式和归属度阵公式进行衰减。

r_t+1(i，k)＝λ*r_t(i，k)+(1-λ)*r_t+1(i，k)

a_t+1(i，k)＝λ*a_t(i，k)+(1-λ)*a_t+1(i，k) (6)

重复上述步骤S5013～S5015，直至吸引度矩阵和归属度矩阵稳定，或者达到最大迭代次数。最终取a+r最大的k作为聚类中心。

第六实施例

本实施例对上述实施例中的“步骤S502：在粗聚类结果的基础上，根据类内距离和类间距离对说话人特征集中的说话人特征进行细聚类，得到细聚类结果，作为说话人特征集中说话人特征的聚类结果”进行介绍。

具体的，在粗聚类结果的基础上，根据类内距离和类间距离对说话人特征集中的说话人特征进行细聚类的过程可以包括：

步骤S5021、对于粗聚类结果中的每个类中的每个说话人特征，根据该说话人特征与其所在类的类中心的距离，确定该说话人特征是否属于其所在的类，若是，则将该说话人特征保留至其所在的类，若否，则将该说话人特征从其所在的类中移出，并将该说话人特征划分至一个新的类中。

其中，一个类的类中心通过对该类中的所有说话人特征求平均得到。

假设该说话人特征与其所在类的类中心的距离采用余弦距离，则根据该说话人特征与其所在类的类中心的距离，确定该说话人特征是否属于其所在的类的过程包括：若该说话人特征与其所在类的类中心的距离小于或等于预设的第一距离阈值，则确定该说话人特征不属于其所在的类，反之，若该说话人特征与其所在类的类中心的距离大于预设的第一距离阈值，则确定该说话人特征属于其所在的类。

步骤S5022、对于获得的所有类，根据类间距离进行类合并。

其中，两个类间的距离为两个类的类中心之间的距离。

假设两个类的类中心之间的距离采用余弦距离，则根据类间距离进行类合并的过程包括：将余弦距离大于或等于预设的第二距离阈值的两个类合并为一个类。示例性的，经过S5021可获得四个类，分别为类1、类2、类3和类4，假设类1与类2之间的余弦距离大于预设的第二距离阈值，类3与类4之间的余弦距离大于预设的第二距离阈值，则将类1与类2合并为一类，将类3与类4合并为一类，最终获得两个类。

需要说明的是，若想获得更加精准的聚类效果，可调节上述的第一距离阈值和第二距离阈值，在当前聚类结果的基础上，再次根据类内距离和类间距离进行细聚类，这个过程可多次执行，直至获得满意的聚类结果。

第七实施例

本实施例还提供了一种说话人聚类装置，下面对实施例提供的说话人聚类装置进行描述，下文描述的说话人聚类装置与上文描述的说话人聚类方法可相互对应参照。

请参阅图6，示出了本申请实施例提供的说话人聚类装置的结构示意图，可以包括：语音数据获取模块601、说话人特征获取模块602和说话人聚类模块603。

语音数据获取模块601，用于获取待聚类的语音数据集。

说话人特征获取模块602，用于对于所述语音数据集中的每条语音数据，以趋于通过正交分解将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集。

说话人聚类模块603，用于根据所述说话人特征集中的说话人特征，对所述语音数据集中的语音数据进行聚类。

可选的，说话人特征获取模块602，具体用于利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征。

可选的，说话人特征获取模块602在利用预先建立的说话人特征提取模型，从该语音数据获取说话人特征时，具体用于利用所述说话人特征提取模型，从该语音数据中获取帧级别说话人特征，并根据所述帧级别说话人特征确定一阶统计量和二阶统计量；利用所述说话人特征提取模型，从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量，并根据所述第一向量和所述第二向量确定说话人特征；其中，所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成，所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成，所述第一向量与所述第二向量正交。

可选的，说话人特征获取模块602在根据所述第一向量和所述第二向量确定说话人特征时，具体用于分别从所述第一向量和所述第二向量中提取说话人信息，以得到包含说话人信息的第三向量和包含说话人信息的第四向量；根据所述第一向量和所述第二向量确定所述第三向量和所述第四向量分别对应的权重；按所述第三向量和所述第四向量分别对应的权重，对所述第三向量和所述第四向量加权求和，得到加权求和后的向量；根据所述加权求和后的向量确定说话人特征。

可选的，本实施例提供的说话人聚类装置还包括：模型构建模块。

模型构建模块，具体用于对于所述语音样本集中的每个语音样本：

利用说话人特征提取模型，从该语音样本中获取帧级别说话人特征，并根据帧级别说话人特征确定一阶统计量和二阶统计量；利用说话人特征提取模型，从所述一阶统计量和所述二阶统计量中获取第一向量和第二向量，并根据所述第一向量和所述第二向量确定说话人特征；其中，所述第一向量由所述一阶统计量中的一部分和所述二阶统计量中的一部分拼接而成，所述第二向量由所述一阶统计量中的另一部分和所述二阶统计量中的另一部分拼接而成；根据确定的说话人特征确定说话人标签，作为该语音样本对应的预测说话人标签；根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数。

可选的，模型构建模块在根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数时，具体用于对于所述语音样本集中的每个语音样本，根据该语音样本对应的预测说话人标签和真实说话人标签，确定该语音样本对应的说话人预测损失；将所述语音样本集中各语音样本分别对应的说话人预测损失求和，求和得到的损失作为说话人特征提取模型的说话人预测损失；对于所述语音样本集中的每个语音样本，确定该语音样本对应的第一向量与第二向量的余弦距离，作为该语音样本对应的正交损失；将所述语音样本集中各语音样本分别对应的正交损失求和，求和得到的损失作为说话人特征提取模型的正交损失；根据所述说话人特征提取模型的说话人预测损失和所述说话人特征提取模型的正交损失，更新说话人特征提取模型的参数。

可选的，说话人聚类模块603包括：说话人特征聚类模块和聚类结果获取模块。

可选的，说话人特征聚类模块包括：粗聚类子模块和细聚类子模块。

所述粗聚类子模块，用于采用预设的聚类算法对所述说话人特征集中的说话人特征进行粗聚类，获得粗聚类结果，其中，所述聚类算法为不需要预先设定类别数的聚类算法。

可选的，所述细聚类子模块，具体用于对于所述粗聚类结果中的每个类中的每个说话人特征，根据该说话人特征与其所在类的类中心的距离，确定该说话人特征是否属于其所在的类，若是，则将该说话人特征保留至其所在的类，若否，则将该说话人特征从其所在的类中移出，并将该说话人特征划分至一个新的类中；对于获得的所有类，根据类间距离进行类合并。

本实施例提供的说话人聚类装置，在获得待聚类的语音数据集后，对于语音数据集中的每条语音数据，以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集，然后根据说话人特征集中的说话人特征，对语音数据集中的语音数据进行聚类。可以理解是，通过将语音数据中的说话人信息与信道信息分离，可以提取到包含高纯度说话人信息的说话人特征，而以该说话人特征为获取方向，获取到的说话人特征同样包含较高纯度的说话人信息，也就是说，以趋于通过将语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从语音数据中获取的说话人特征能够较好地表征该语音数据对应的说话人(或者说能够较好地同其他说话人区分开来)，根据这样的说话人特征对语音数据聚类，很容易将不同说话人的语音数据区分开来，而不易把不同说话人的语音数据聚在一起，因此，能够获得比较准确的聚类结果。

第八实施例

本申请实施例还提供了一种说话人聚类设备，请参阅图7，示出了该说话人聚类设备的结构示意图，该说话人聚类设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待聚类的语音数据集；

对于所述语音数据集中的每条语音数据，以趋于通过该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，以得到由获取的说话人特征组成的说话人特征集；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第九实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待聚类的语音数据集；

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人聚类方法，其特征在于，包括：

获取待聚类的语音数据集；

2.根据权利要求1所述的说话人聚类方法，其特征在于，所述以趋于通过将该语音数据中的说话人信息与信道信息分离得到的说话人特征为获取方向，从该语音数据中获取说话人特征，包括：

3.根据权利要求2所述的说话人聚类方法，其特征在于，所述利用预先建立的说话人特征提取模型，从该语音数据获取说话人特征，包括：

4.根据权利要求3所述的说话人聚类方法，其特征在于，所述根据所述第一向量和所述第二向量确定说话人特征，包括：

根据所述加权求和后的向量确定说话人特征。

5.根据权利要求2所述的说话人聚类方法，其特征在于，建立所述说话人特征提取模型的过程包括：

对于所述语音样本集中的每个语音样本：

6.根据权利要求5所述的说话人聚类方法，其特征在于，所述根据所述语音样本集中每个语音样本对应的预测说话人标签和真实说话人标签，以及每个语音样本对应的第一向量与第二向量的正交化程度，更新说话人特征提取模型的参数，包括：

7.根据权利要求1所述的说话人聚类方法，其特征在于，所述根据所述说话人特征集中的说话人特征，对所述语音数据集中的语音数据进行聚类，包括：

8.根据权利要求7所述的说话人聚类方法，其特征在于，所述对所述说话人特征集中的说话人特征进行聚类，包括：

9.根据权利要求8所述的说话人聚类方法，其特征在于，所述在所述粗聚类结果的基础上，根据类内距离和类间距离对所述说话人特征集中的说话人特征进行细聚类，包括：

对于获得的所有类，根据类间距离进行类合并。

10.根据权利要求8所述的说话人聚类方法，其特征在于，所述聚类算法根据所述多个说话人特征中两两说话人特征之间的欧式距离进行聚类，所述类内距离和所述类间距离为余弦距离。

11.一种说话人聚类装置，其特征在于，包括：语音数据获取模块、说话人特征获取模块和说话人聚类模块；

所述语音数据获取模块，用于获取待聚类的语音数据集；

12.根据权利要求11所述的说话人聚类装置，其特征在于，所述说话人特征获取模块，具体用于利用预先建立的说话人特征提取模型，从该语音数据中获取说话人特征；

13.根据权利要求11所述的说话人聚类装置，其特征在于，所述说话人聚类模块包括：说话人特征聚类模块和聚类结果获取模块；

14.根据权利要求13所述的说话人聚类装置，其特征在于，所述说话人特征聚类模块包括：粗聚类子模块和细聚类子模块；

15.一种说话人聚类设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～10中任一项所述的说话人聚类方法的各个步骤。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～10中任一项所述的说话人聚类方法的各个步骤。