CN112562693B

CN112562693B - 一种基于聚类的说话人确定方法、确定装置及电子设备

Info

Publication number: CN112562693B
Application number: CN202110202542.7A
Authority: CN
Inventors: 郑榕; 郑尧曦
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-05-28
Anticipated expiration: 2041-02-24
Also published as: CN112562693A

Abstract

本申请提供了一种基于聚类的说话人确定方法、确定装置及电子设备，包括：获取待识别声音信息，确定待识别声音信息对应的多个声音识别片段；根据多个声音识别片段对应的全部待识别声纹信号，确定待识别声音信息对应的第一聚类结果与说话人数量；根据全部待识别声纹信号与说话人数量，确定待识别声音信息对应的第二聚类结果；根据第一聚类结果与第二聚类结果，确定第一聚类结果与第二聚类结果对应的目标分类结果；根据目标分类结果确定每个声音识别片段对应的说话人，基于此方法，通过两次聚类处理并根据两次聚类对应的互补结果，确定与音频文件中的声音片段对应的说话人，有较高的识别结果准确性。

Description

一种基于聚类的说话人确定方法、确定装置及电子设备

技术领域

本申请涉及声音识别技术领域，尤其是涉及一种基于聚类的说话人确定方法、确定装置及电子设备。

背景技术

在现有的说话人确定方法中，一般采用无监督机器学习数据方法，在多个无标签的语音数据中，对其按照不同的特征进行分类处理，之后为完成分类的语音数据匹配对应的说话人。在该方法中，利用到的常用分类方法具体可包括：基于质心的划分法、中心划分法、层次法、基于密度法、基于网格的方法以及基于模型的方法等，但是上述的多种分类方法在实际使用过程中，分类效果较差，进而易导致说话人的确认结果准确度低。

发明内容

有鉴于此，本申请的目的在于提供一种基于聚类的说话人确定方法、确定装置及电子设备，将待识别的声音信息拆分为若干个待识别的声音片段并提取相应的声纹信号，首先对全部声纹信号进行初次聚类处理，自动获得声音信息对应的第一聚类结果以及说话人的数量，进一步的以初次聚类处理得到的第一聚类结果以及初次聚类处理自动确定的说话人数量，对全部声纹信号进行第二次聚类处理，最后以两次聚类结果的互补作为最终分类结果，并确定每个类别对应的说话人，进而确定每个声音识别片段对应的说话人，对各声音片段的分类效果较好，且说话人的确认结果准确性较高。

本申请实施例提供了一种基于聚类的说话人确定方法，所述确定方法包括：

获取待识别声音信息，确定所述待识别声音信息对应的多个声音识别片段；

根据所述多个声音识别片段对应的全部待识别声纹信号，确定所述待识别声音信息对应的第一聚类结果与说话人数量；

根据全部所述待识别声纹信号与所述说话人数量，确定所述待识别声音信息对应的第二聚类结果；

根据所述第一聚类结果与第二聚类结果，确定所述第一聚类结果与第二聚类结果对应的目标分类结果；

根据所述目标分类结果确定每个所述声音识别片段对应的说话人。

进一步的，根据以下方法确定所述待识别声音信息对应的第一聚类结果与说话人数量：

针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的声谱图特征；

将所述声谱图特征输入至训练好的声纹网络模型中，确定所述待识别声纹信号对应的第一声纹嵌入向量；

根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量。

进一步的，根据以下方法确定所述说话人数量：

确定多个待识别声纹信号中每两个待识别声纹信号分别对应的第一声纹嵌入向量之间的欧式距离；

将确定出的每一个欧式距离进行尺度变换，确定每两个第一声纹嵌入向量对应的相似度；

根据确定出的每一个相似度，确定所述第一声纹嵌入向量对应的邻接矩阵，并根据所述邻接矩阵及预设聚类类数，确定旋转特征矩阵；

根据所述旋转特征矩阵确定代价函数，并在所述预设聚类类数的范围内迭代处理所述代价函数，直至相邻两次迭代过程中的代价函数对应的梯度变化小于预设梯度变化阈值；

确定停止迭代时所述代价函数对应的聚类类数为所述说话人数量。

进一步的，根据以下方法确定所述待识别声音信息对应的第二聚类结果：

针对每一个所述待聚类声纹信号，确定该待识别声纹信号对应的梅尔频率倒谱系数特征；

将所述梅尔频率倒谱系数特征输入至训练好的概率统计模型中，确定该待识别声纹信号对应的统计量；

对所述梅尔频率倒谱系数特征进行总体方差矩阵变换，确定第二声纹嵌入向量；

根据全部所述统计量及第二声纹嵌入向量，确定所述第二聚类结果。

进一步的，确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集与多个差异聚类子集；

针对每一个所述相同聚类子集，确定所述相同聚类子集对应的相同聚类簇；

针对每一个所述差异聚类子集，确定该差异聚类子集与每一个所述相同聚类簇之间的距离；

将所述差异聚类子集重新归类于距离最小的所述相同聚类簇，生成所述第一聚类结果与第二聚类结果对应的目标分类结果。

进一步的，所述确定所述第一聚类结果与第二聚类结果对应的目标分类结果，还包括：

确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集；

根据所述多个相同聚类子集，调整所述邻接矩阵对应的多个所述第一声纹嵌入向量之间邻接边的相似度；

根据所述相似度，确定所述第一声纹嵌入向量对应的调整邻接矩阵；

确定所述调整邻接矩阵对应的谱聚类结果，将所述谱聚类结果确定为所述第一聚类结果与第二聚类结果对应的目标分类结果。

本申请实施例还提供了一种基于聚类的说话人确定装置，所述装置包括：

获取模块，用于获取待识别声音信息，确定所述待识别声音信息对应的多个声音识别片段；

第一聚类模块，用于根据所述多个声音识别片段对应的全部待识别声纹信号，确定所述待识别声音信息对应的第一聚类结果与说话人数量；

第二聚类模块，用于根据全部所述待识别声纹信号与所述说话人数量，确定所述待识别声音信息对应的第二聚类结果；

第一确定模块，用于根据所述第一聚类结果与第二聚类结果，确定所述第一聚类结果与第二聚类结果对应的目标分类结果；

第二确定模块，用于根据所述目标分类结果确定每个所述声音识别片段对应的说话人。

进一步的，所述第一聚类模块包括：

第三确定单元，用于针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的声谱图特征；

第四确定单元，用于将所述声谱图特征输入至训练好的声纹网络模型中，确定所述待识别声纹信号对应的第一声纹嵌入向量；

第五确定单元，用于根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述基于聚类的说话人确定方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述基于聚类的说话人确定方法的步骤。

本申请提供的一种基于聚类的说话人确定方法、确定装置及电子设备，将待识别的声音信息拆分为若干个待识别的声音片段并提取相应的声纹信号，首先对全部声纹信号进行初次聚类处理，自动获得声音信息对应的第一聚类结果以及说话人的数量，进一步的以初次聚类处理得到的第一聚类结果以及初次聚类处理自动确定的说话人数量，对全部声纹信号进行第二次聚类处理，最后以两次聚类结果的互补作为最终分类结果，并确定每个类别对应的说话人，进而确定每个声音识别片段对应的说话人，对各声音片段的分类效果较好，且说话人的确认结果准确度较高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于聚类的说话人确定方法的流程图；

图2示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图；

图3示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图；

图4示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图；

图5示出了从不同聚类结果中提取相同聚类子集的方法示意图；

图6示出了提取相同聚类子集之后对差异聚类子集类别归属调整的示意图；

图7示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图；

图8示出了本申请实施例所提供的一种基于聚类的说话人确定装置的结构示意图；

图9示出了本申请实施例所提供的另一种基于聚类的说话人确定装置的结构示意图；

图10示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于声音识别技术领域。

经研究发现，在现有的说话人确定方法中，一般采用无监督机器学习数据方法，在多个无标签的语音数据中，对其按照不同的特征进行分类处理，之后为完成分类的语音数据匹配对应的说话人，但分类效果较差，进而易导致说话人的确认结果准确性低。

基于此，本申请实施例提供了一种基于聚类的说话人确定方法，以提升说话人确定结果的准确性。

请参阅图1，图1示出了本申请实施例所提供的一种基于聚类的说话人确定方法的流程图。如图1中所示，本申请实施例提供的基于聚类的说话人确定方法，包括：

S101、获取待识别声音信息，确定所述待识别声音信息对应的多个声音识别片段。

该步骤中，首先获取待识别的声音信息，并对该声音信息进行拆分，生成待识别声音信息对应的多个声音片段。

这里，待识别的声音信息为一个整体音频文件，音频来源于多个互相独立的用户，每一个独立用户提供有多个声音片段，对待识别的声音信息，也就是整体音频文件进行拆分，将其拆分为多个最小识别单元，即所述声音识别片段。

其中，所述声音识别片段为无标签的音频片段。

这样，由于待识别声音信息不便于进行操作处理，将其拆分为最小识别单元，便于后续的分类操作。

S102、根据所述多个声音识别片段对应的全部待识别声纹信号，确定所述待识别声音信息对应的第一聚类结果与说话人数量。

该步骤中，在获取到的多个声音识别片段中，确定每个声音识别片段对应的待识别声纹信号，并对全部待识别声纹信号进行谱聚类处理，得到声音识别片段对应的第一聚类结果以及说话人数量。

这里，由于声音识别片段为音频文件，属于声信号，为了使其可以通过计算机等电子设备进行处理，因此需要将其转换为计算机等电子设备可以处理的电信号。待识别声纹信号为：利用电声学仪器转换的携带有待识别声音信息对应的言语特征信息的声波频谱。

其中，第一聚类结果为：对多个声音识别片段进行聚类处理，得到的聚类结果，在一种可能的实施方式中，进行聚类处理的方法，可选的，为谱聚类方法。说话人数量为：第一聚类结果对应的分类类数，在一种可能的实施方式中，该分类类数通过谱聚类方法自动得到。

这样，对待识别声音信息对应的多个声音识别片段进行第一次聚类处理，使其初步进行划分，得到第一次聚类结果以及说话人数量，所述说话人数量，也就是第一聚类结果对应的分类类数，为自动获得，无需在进行聚类处理前预设，提升说话人确认过程的便捷度及精确度。

S103、根据全部所述待识别声纹信号与所述说话人数量，确定所述待识别声音信息对应的第二聚类结果。

该步骤中，利用步骤S102中确定的说话人数量，也就是第一聚类结果对应的分类类数，对待识别声音信息中声音识别片段进行第二次聚类处理，以确定待识别声音信息对应的第二聚类结果。

这里，将上述步骤S102确定的说话人数量，指定为第二次聚类处理过程中的聚类类数，第二次聚类处理过程在固定的聚类类数下进行。第二聚类结果为：对多个声音识别片段进行第二次聚类处理，得到的聚类结果。

其中，在一种可能的实施方式中，可选的，第二次聚类处理利用变分贝叶斯聚类算法完成，并指定前述步骤S102中确定的说话人数量为变分贝叶斯聚类算法对应的目标类别数。

这样，对待识别声音信息对应的多个声音识别片段进行第二次聚类处理，使其再次进行划分，得到第二聚类结果，至此，对于待识别声音信息存在两种分类结果，一种为初次聚类得到的分类结果，另一种为第二次聚类得到的分类结果。

S104、根据所述第一聚类结果与第二聚类结果，确定所述第一聚类结果与第二聚类结果对应的目标分类结果。

该步骤中，对第一聚类结果与第二聚类结果进行关联映射分析处理，将第一聚类结果与第二聚类结果的互补分类结果确定为目标分类结果。

这里，经过两次聚类处理后得出的两个分类结果，若两种分类结果相同则说明此种分类方法分类效果较好，可保留当前分类方法；若两种聚类结果不同，则需要结合两种分类方法，使第一聚类结果与第二聚类结果优势互补，进而确定最终的目标分类结果。

其中，所述目标分类结果中，每一个类别中包含的多个声音识别片段均是由同一说话人提供。

这样，为了防止采用单一的聚类算法进行一次聚类处理后得到的分类结果不准确，通过两种不同的聚类算法，将得到的两种不同分类结果进行互补，以提升分类效果及分类准确度。

S105、根据所述目标分类结果确定每个所述声音识别片段对应的说话人。

该步骤中，多个声音识别片段在经过两次聚类处理后，已经归类至若干类别中，即每一个类别中的声音识别片段均由一位说话人提供，为目标分类结果中每一个类别分配相应的说话人，以确定每一个声音识别片段对应的说话人。

本申请实施例提供的一种基于聚类的说话人确定方法，将待识别的声音信息拆分为若干个待识别的声音片段并提取相应的声纹信号，首先对全部声纹信号进行初次聚类处理，自动获得声音信息对应的第一聚类结果以及说话人的数量，进一步的以初次聚类处理得到的第一聚类结果以及初次聚类处理自动确定的说话人数量，对全部声纹信号进行第二次聚类处理，最后以两次聚类结果的互补作为最终分类结果，并确定每个类别对应的说话人，进而确定每个声音识别片段对应的说话人，对各声音片段的分类效果较好，且说话人的确认结果准确性较高。

请参阅图2，图2示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图。如图2中所示，本申请实施例提供的基于聚类的说话人确定方法，包括：

S201、针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的声谱图特征。

该步骤中，对于每一个待识别声纹信号，确定该待识别声纹信号对应的短时傅里叶变换（Short-time Fourier Transform，STFT）声谱图特征。

这里，确定所述声谱图特征的方法包括：对待识别声纹信号进行分帧加窗后，得到与每个所述待识别声纹信号对应的多个语音帧，针对每个所述语音帧，进行快速傅里叶变换（Fast Fourier Transform，FFT）处理得到所述声谱图特征。

其中，傅里叶变换的作用为：将时域信号转为频域信号，并把每一帧语音帧进行FFT后的频域信号也就是频谱图，在时间上进行堆叠得到声谱图。

S202、将所述声谱图特征输入至训练好的声纹网络模型中，确定所述待识别声纹信号对应的第一声纹嵌入向量。

该步骤中，通过声纹识别中已经训练好的声纹网络模型，将步骤S201中确定的声谱图特征通过前向计算，提取出与声谱图特征对应的第一声嵌入向量。

这里，作为一种可能的实施方式，利用深度残差网络对STFT声谱图进行处理，计算每一个所述待识别声纹信号对应的第一声纹嵌入向量。

其中，可选的，所述第一声纹嵌入向量为：采用时延神经网络及对滤波器能量提取的x-vector向量。

S203、根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量。

该步骤中，确定各个待识别声纹信号对应的第一声纹嵌入向量，利用谱聚类法，对所有的声纹嵌入向量的集合，进行类数动态估计并获取谱聚类的聚类结果与说话人数量。

这里，说话人数量，也就是第一聚类结果的类数，通过类数动态估计自动确定最优结果，可以避免现有的谱聚类中需事先指定类数的，如：k均值聚类算法的要求，适用于类数无法事先确定，需要根据实际数据自动估计类数的场合。

作为一种可能的实施方式，根据以下方法确定所述说话人数量：

（1）确定多个待识别声纹信号中每两个待识别声纹信号分别对应的第一声纹嵌入向量之间的欧式距离。

该步骤中，基于第一声纹嵌入向量，采用K近邻方法计算每个声纹嵌入向量的K近邻，之后计算所述第一声纹嵌入向量中两两之间的欧氏距离，优选的，K的取值范围为：[2，7]。

其中，通过以下公式确定所述每两个待识别声纹信号分别对应的第一声纹嵌入向量之间的欧式距离：

其中，

表示第i条语音的第一声纹嵌入向量，

表示

的第m维。

（2）将确定出的每一个欧式距离进行尺度变换，确定每两个第一声纹嵌入向量对应的相似度。

这里，基于以下公式确定所述第一声纹嵌入向量对应的相似度：

其中，

表示

向量的第K个近邻的欧氏距离，

表示

向量第K个近邻的欧氏距离。可选的，

和

为尺度化因子或正则项。

（3）根据确定出的每一个相似度，确定所述第一声纹嵌入向量对应的邻接矩阵，并根据所述邻接矩阵及预设聚类类数，确定旋转特征矩阵。

该步骤中，根据上述确定出的每一个所述第一声纹嵌入向量对应的相似度，确定所述第一声纹嵌入向量对应的邻接矩阵A，并根据所述邻接矩阵A及预设聚类类数，确定旋转特征矩阵。

这里，通过以下方法确定邻接矩阵A：

即邻接矩阵A第i行，第j列元素。所述预设聚类类数为聚类类数的最大值，其数值不超过声纹聚类应用场景的人数上限，具体数值可以根据实际需要进行设置，在此不做具体限制。

其中，旋转特征矩阵F由数量为预设聚类类数的特征向量构造而成，所述数量为预设聚类类数的特征向量为：邻接矩阵A的前预设聚类类数个特征值对应的特征向量。

（4）根据所述旋转特征矩阵确定代价函数，并在所述预设聚类类数的范围内迭代处理所述代价函数，直至相邻两次迭代过程中的代价函数对应的梯度变化小于预设梯度变化阈值。

该步骤中，定义代价函数J：从最低聚类类数逐步增加到预设聚类类数，也就是聚类类数最大值，通过迭代旋转特征矩阵F的结构来获取最大的稀疏表示。也就是说，对代价函数J采用梯度下降的方式求取聚类类数的最优值，直至两次相邻的旋转操作中，代价函数J的梯度变化小于预设的迭代停止阈值，则迭代停止，并得到自动估计簇的数目的最佳值，也就是对于多个声音识别片段来说最优的分类类数。

其中，在具体实施中，迭代停止阈值可根据实际需要进行设置，在此不做具体限制，可选的取值为0.001。

（5）确定停止迭代时所述代价函数对应的聚类类数为所述说话人数量。

该步骤中，在停止迭代时，代价函数对应的聚类类数为最优分类类数，因此对应的，将停止迭代时所述代价函数对应的聚类类数作为所述说话人的数量。

请参阅图3，图3示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图。如图3中所示，本申请实施例提供的基于聚类的说话人确定方法，包括：

S301、针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的梅尔频率倒谱系数特征。

该步骤中，对所有的所述待聚类声纹信号，分别提取梅尔频率倒谱系数（Mel-Frequency CepstrumCoefficient，MFCC）特征。

这里，对多个声音识别片段进行分帧加窗后，得到多个语音帧，对每一各所述语音帧做快速傅里叶变换，并计算相应的能量谱。经过梅尔滤波器组系数加权之后取对数操作，并经过离散余弦变换得到每一帧的MFCC特征。

S302、将所述梅尔频率倒谱系数特征输入至训练好的概率统计模型中，确定该待识别声纹信号对应的统计量。

该步骤中，基于训练好的概率统计模型，计算每个所述待识别声纹信号对应的统计量。

这里，利用高斯混合模型或者是深度神经网络音素对齐的高斯混合模型，计算每条语音所有MFCC特征的零阶、一阶以及二阶统计量。

在一种可能的实施方式中，给定一段MFCC特征序列为：O=[O₁，O₂，…，O_t，…，O_T]，则其对应的零阶、一阶以及二阶统计量通过以下公式确定：

其中，i表示高斯混合模型的第i个高斯分布，

表示零阶统计量，

表示一阶统计量，

表示二阶统计量，

为第t帧特征在第i个高斯分布的高斯后验值。

S303、对所述梅尔频率倒谱系数特征进行总体方差矩阵变换，确定第二声纹嵌入向量。

该步骤中，通过总体方差矩阵变换，提取梅尔频率倒谱系数特征对应的第二声纹嵌入向量。

其中，可选的所述第二声纹特征向量为：i-vector向量。

S304、根据全部所述统计量及第二声纹嵌入向量，确定所述第二聚类结果。

该步骤中，根据待识别声纹信号对应的零阶、一阶以及二阶统计量以及i-vector向量，对待识别声纹信号进行变分贝叶斯聚类处理，得到第二聚类结果。

这里，第二聚类结果为：对多个待识别声纹信号进行变分贝叶斯聚类处理，得到的聚类结果。

其中，在进行变分贝叶斯聚类处理过程中需要的聚类类别数为进行第一次聚类处理后得到的说话人数量，也就是对于多个声音识别片段来说最优的分类类数。

可选的，所述根据全部所述统计量及第二声纹嵌入向量，确定所述第二聚类结果，包括：

（1）对每条待识别声纹信号，绑定后验概率，使其以一定的概率属于在说话人数量中的某个簇。

该步骤中，定义

为第n条待识别声纹信号属于第c个簇或类别的后验概率。通过变分贝叶斯聚类与i-vector向量结合，在迭代聚类过程中每条待识别声纹信号以一定的后验概率，即软决策的方式，归属于簇c的模型，并通过期望最大化算法不断优化后验概率。

（2）在迭代收敛后，取在进行第一次聚类处理后得到的说话人数量，也就是对于多个声音识别片段来说最优的分类类数中后验概率的最大值，得到每条待识别声纹信号的归属类别。

其中，每条待识别声纹信号的簇标签为

。

请参阅图4，图4示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图。如图4中所示，本申请实施例提供的基于聚类的说话人确定方法，包括：

S401、确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集与多个差异聚类子集。

该步骤中，提取所述第一聚类结果与第二聚类结果之间的公共连接作为相同聚类子集，也就是有效聚类子集，并将剩余的差异聚类子集，也就是无效聚类子集重新进行类别归属。

其中，基于以下方法提取有效聚类子集：

如图5所示，图5示出了从不同聚类结果中提取相同聚类子集的方法示意图，C1_n，n=1，2，...，N为第一聚类结果，C2_m，m=1，2，...，N为第二聚类结果。在一种可能的实施方式中，假定有12条待识别声纹信号，第一聚类结果聚成了4个簇。由于第二聚类结果的类别数直接源自第一聚类结果的谱聚类自动估计值，因此第二聚类结果也聚成了4个簇。12条待识别声纹信号分别找到两个聚类分支之间的自身连接关系，寻找C1_n和C2_m之间的连接次数最大值，图5所示，C1_1与C2_1之间的连接为2，C1_2与C2_2之间的连接为3，C1_n与C2_m之间的连接为2，C1_N与C2_N之间的连接为2，以上称为有效聚类子集。因此，第3条、第7条以及第10条为无效聚类子集。如果连接次数相同，则取有效连接纯度最高的类，即第一聚类结果和第二聚类结果的两簇（类）之间的相同聚类子集占两簇（类）总待识别声纹信号比例最高连接，作为有效连接。

S402、针对每一个所述相同聚类子集，确定所述相同聚类子集对应的相同聚类簇。

该步骤中，确定相同聚类子集对应的相同聚类簇，如图6所示，图6示出了提取相同聚类子集之后对差异聚类子集类别归属调整的示意图。与图5中相比，在12条待识别声纹信号中，相同聚类子集第1条与第2条；第4条、第5条及第6条；第8条与第9条；第11条与第12条，分别构成了相同聚类簇：C3_n，n=1，2，...，N。

S403、针对每一个所述差异聚类子集，确定该差异聚类子集与每一个所述相同聚类簇之间的距离。

该步骤中，基于每个差异聚类子集的声纹嵌入向量，在步骤402中新的相同聚类簇上调整每个差异聚类子集的聚类归属，即计算声纹嵌入向量之间的余弦距离或者是概率线性区分分析距离。

S404、将所述差异聚类子集重新归类于距离最小的所述相同聚类簇，生成所述第一聚类结果与第二聚类结果对应的目标分类结果。

该步骤中，将步骤S403中计算得到的每个差异聚类子集的声纹嵌入向量与新的相同聚类簇之间的距离最近者，确定为该差异聚类子集在调整后的类归属。

请参阅图7，图7示出了本申请实施例提供的另一种基于聚类的说话人确定方法的流程图。如图7中所示，本申请实施例提供的基于聚类的说话人确定方法，包括：

S701、确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集。

该步骤的实现方式与步骤S401中的实现方法相同，在此不再赘述。

S702、根据所述多个相同聚类子集，调整所述邻接矩阵对应的多个所述第一声纹嵌入向量之间邻接边的相似度。

该步骤中，对于谱聚类中的邻接矩阵A，根据相同聚类子集关系调整待识别声纹信号的声纹嵌入向量之间邻接边的相似度。

S703、根据所述相似度，确定所述第一声纹嵌入向量对应的调整邻接矩阵。

该步骤中，假定

为邻接矩阵A的第i行第j列元素，表示待识别声纹信号i和待识别声纹信号j之间的相似度。如果第i条待识别声纹信号的第一声纹嵌入向量和第j条待识别声纹信号的第一声纹嵌入向量属于同一相同聚类子集，则增大

的相似度数值，否则减小

的相似度数值，由此生成新的邻接矩阵A’。

其中，邻接矩阵A’即为所述第一声纹嵌入向量对应的调整邻接矩阵。

S704、确定所述调整邻接矩阵对应的谱聚类结果，将所述谱聚类结果确定为所述第一聚类结果与第二聚类结果对应的目标分类结果。

这样，确定出的目标分类结果可在一定程度上保留第一聚类结果与第二聚类结果之间互补的分类信息，优化了聚类处理过程使之有效性得到提升。

请参阅图8、图9，图8示出了本申请实施例所提供的一种基于聚类的说话人确定装置的结构示意图，图9示出了本申请实施例所提供的另一种基于聚类的说话人确定装置的结构示意图。如图8中所示，所述确定装置800包括：

获取模块810，用于获取待识别声音信息，确定所述待识别声音信息对应的多个声音识别片段。

第一聚类模块820，用于根据所述多个声音识别片段对应的全部待识别声纹信号，确定所述待识别声音信息对应的第一聚类结果与说话人数量。

第二聚类模块830，用于根据全部所述待识别声纹信号与所述说话人数量，确定所述待识别声音信息对应的第二聚类结果。

第一确定模块840，用于根据所述第一聚类结果与第二聚类结果，确定所述第一聚类结果与第二聚类结果对应的目标分类结果。

第二确定模块850，用于根据所述目标分类结果确定每个所述声音识别片段对应的说话人。

进一步的，如图9所示，所述第一聚类模块820包括：

第三确定单元860，用于针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的声谱图特征。

第四确定单元870，用于将所述声谱图特征输入至训练好的声纹网络模型中，确定所述待识别声纹信号对应的第一声纹嵌入向量。

第五确定单元880，用于根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量。

进一步的，所述第五确定单元880还用于：

根据以下方法确定所述说话人数量：

进一步的，所述第二聚类模块830还用于：

根据以下方法确定所述待识别声纹信号对应的第二聚类结果：

针对每一个所述待识别声纹信号，确定该待识别声纹信号对应的梅尔频率倒谱系数特征；

进一步的，所述第一确定模块840还用于：

确定所述第一聚类结果与第二聚类结果对应的多个相同聚类子集与多个差异聚类子集；

进一步的，所述第一确定模块840还用于：

本申请实施例提供的一种基于聚类的说话人确定装置，将待识别的声音信息拆分为若干个待识别的声音片段并提取相应的声纹信号，首先对全部声纹信号进行初次聚类处理，自动获得声音信息对应的第一聚类结果以及说话人的数量，进一步的以初次聚类处理得到的第一聚类结果以及初次聚类处理自动确定的说话人数量，对全部声纹信号进行第二次聚类处理，最后以两次聚类结果的互补作为最终分类结果，并确定每个类别对应的说话人，进而确定每个声音识别片段对应的说话人，对各声音片段的分类效果较好，且说话人的确认结果准确性较高。

请参阅图10，图10示出了本申请实施例所提供的一种电子设备的结构示意图。如图10中所示，所述电子设备1000包括处理器1010、存储器1020和总线1030。

所述存储器1020存储有所述处理器1010可执行的机器可读指令，当电子设备1000运行时，所述处理器1010与所述存储器1020之间通过总线1030通信，所述机器可读指令被所述处理器1010执行时，可以执行如上述图1至及图7所示方法实施例中基于聚类的说话人确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图7所示方法实施例中基于聚类的说话人确定方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于聚类的说话人确定方法，其特征在于，所述确定方法包括：

根据所述目标分类结果确定每个所述声音识别片段对应的说话人；

其中，根据以下方法确定所述待识别声音信息对应的第一聚类结果与说话人数量：

根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量；

根据以下方法确定所述说话人数量：

2.根据权利要求1所述的确定方法，其特征在于，根据以下方法确定所述待识别声音信息对应的第二聚类结果：

3.根据权利要求1所述的确定方法，其特征在于，所述确定所述第一聚类结果与第二聚类结果对应的目标分类结果，包括：

4.根据权利要求1所述的确定方法，其特征在于，所述确定所述第一聚类结果与第二聚类结果对应的目标分类结果，还包括：

5.一种基于聚类的说话人确定装置，其特征在于，所述确定装置包括：

第二确定模块，用于根据所述目标分类结果确定每个所述声音识别片段对应的说话人；

所述第一聚类模块包括：

第五确定单元，用于根据各个待识别声纹信号对应的第一声纹嵌入向量，确定所述第一聚类结果与说话人数量；

所述第五确定单元还用于：

根据以下方法确定所述说话人数量：

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一所述的基于聚类的说话人确定方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4中任一所述基于聚类的说话人确定方法的步骤。