CN111063341B

CN111063341B - 复杂环境中多人语音的分割聚类方法及系统

Info

Publication number: CN111063341B
Application number: CN201911414495.1A
Authority: CN
Inventors: 黄厚军; 项煦; 钱彦旻
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-05-06
Anticipated expiration: 2039-12-31
Also published as: CN111063341A

Abstract

本发明公开一种复杂环境中多人语音的分割聚类方法及系统，方法包括：根据多人说话音频获取多段连续的多人说话语音片段音频。根据声学特征对多人说话语音片段音频归一化获取归一化音频。获取多段待处理音频。提取多段待处理音频的声纹信息特征。对所有待处理音频段之间通过设定打分准则获取打分数。根据所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。根据多个人的类别标签对多人说话音频分割聚类。使用冗余聚类方法可以提升目标说话人的聚类的中心更加分散，区分度更强。对于复杂环境下，目标说话人不清晰的语音片段，也有更好的判别能力，从而降低复杂环境下分割聚类任务中的说话人分类的分类错误。

Description

复杂环境中多人语音的分割聚类方法及系统

技术领域

本发明属于语音处理技术领域，尤其涉及复杂环境中多人语音识别方法及系统。

背景技术

相关技术中，说话人分割聚类方案没有对复杂环境下分割聚类任务做特定的优化。应对复杂环境的方法通常是通过语音检测(Voice Activity detection)模块对特定的语音片段作过滤，以期过滤后的语音片为纯净的人声片段，以保证后期的聚类准确率。

现有的说话人分割聚类系统，靠语音检测过滤应对复杂场景的分割聚类任务有一下缺点。首先语音检测(VAD)很难在有背景音为人声情况下，准确识别目标说话人发声的起始点。这样就容易将背景人声也标记为目标说话人，参与后期的聚类中。其次，在复杂环境中，会有多个说话人同时讲话的情况，此时同一个时间片段中有多个说话人，如果有较多这样含有多个说话人的片段参与后期的聚类中，会影响聚类的准确度。

发明人在实现本申请的过程中发现：首先，现有的语音检测(VAD)技术还不能很好的应对背景音是非目标说话人的情况。其次，缺少对特殊语音片段(含有人声背景音，同一段语音中含有多个说话人)的建模，不对特殊的语音片段进行处理，会使聚类的准确度降低。

业内同行通常只能想到以下的这样一些做法是：通过提升语音检测(VAD)模块的性能来过滤音频段中非目标人声的片段。这种方法虽然可以使音频中非目标人声的部分得到清洗，但是过滤的性能完全取决于过滤器的阀值。不同环境下阀值不同，选择一个合适的阀值仔细需要调整，对过滤器的要求高。

或是，提高音频段特征表征的能力，即使用更有效的表征模型对音频片段提取特征，用于后期的聚类。目前基于深度神经网路的特征提取器的表征能力最强，但是通常对训练的数据要求较高。但是也不能直接有效解决同一个音频片段中有多个说话人的情况。

由此可知，目前市面上还未见到可以在针对复杂环境下说话人分割聚类任务优化的技术解决方案。

发明内容

本发明实施例提供一种复杂环境中多人语音的分割聚类方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种复杂环境中多人语音的分割聚类方法，包括：

步骤S101，根据多人说话音频获取多段连续的多人说话语音片段音频。多人说话音频中或多人说话音频片段音频中具有多个人的语音音频。

步骤S102，从人声语音片段音频中提取声学特征。根据声学特征对多人说话语音片段音频归一化获取归一化音频。

步骤S103，根据设定分割片段时长分割归一化音频，获取多段待处理音频。

步骤S104，提取多段待处理音频的声纹信息特征。

步骤S105，根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取。所有待处理音频段之间的相似度分数。

步骤S106，根据所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

步骤S107，根据多个人的类别标签对多人说话音频分割聚类。

基于步骤S101中根据多人说话音频获取多段连续的多人说话语音片段音频的步骤包括：

对多人说话音频通过语音检测模块处理，将多人说话中的静音时段的音频去除，获取多段连续的多人说话语音片段音频。

基于步骤S103中的设定分割片段时长为1.5s～2.0s。多段待处理音频的段间留有0.75s的重叠音频区间。

基于步骤S104中提取多段待处理音频的声纹信息特征的步骤包括：通过传统统计学习算法或深度学习算法提取多段待处理音频的声纹信息特征。

基于步骤S105中设定打分准则包括：cosine距离或者plda模型打分。

基于步骤S106中多阶段冗余聚类算法包括：

步骤S1061，获取目标说话人数。

步骤S1062，根根目标说话人数及设定冗余类数设定当前聚类数。

步骤S1063，根据所有待处理音频段之间的相似度分数，通过具有当前聚类数的聚类算法获取当前聚类信息。

步骤S1064，根据目标说话人数从当前聚类信息中获取主类的标签。

步骤S1065，对冗余类数所对应中冗余类的每个元素计算其与主类的中心距离。从中获取与主类中心距离最近的主类的类别标签作为此元素的类别标签。

第二方面，本发明实施例提供一种复杂环境中多人语音的分割聚类系统，包括：

多人说话语音片段音频获取单元，其配置为根据多人说话音频获取多段连续的多人说话语音片段音频。多人说话音频中或多人说话音频片段音频中具有多个人的语音音频。

归一化音频获取单元，其配置为从人声语音片段音频中提取声学特征。根据声学特征对多人说话语音片段音频归一化获取归一化音频。

多段待处理音频获取单元，其配置为根据设定分割片段时长分割归一化音频，获取多段待处理音频。

声纹信息特征获取单元，其配置为提取多段待处理音频的声纹信息特征。

打分获取单元，其配置为根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取所有待处理音频段之间的相似度分数。

多阶段聚类获取单元，其配置为根据所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

分割聚类单元，其配置为根据多个人的类别标签对多人说话音频分割聚类。

基于多人说话语音片段音频获取单元还配置为：对多人说话音频通过语音检测模块处理，将多人说话中的静音时段的音频去除，获取多段连续的多人说话语音片段音频。多段待处理音频获取单元中设定分割片段时长为1.5s～2.0s。多段待处理音频的段间留有0.75s的重叠音频区间。

基于声纹信息特征获取单元还配置为：通过传统统计学习算法或深度学习算法提取多段待处理音频的声纹信息特征。打分获取单元中设定打分准则包括：cosine距离或者plda模型打分。

基于多阶段聚类获取单元还配置为：获取目标说话人数。根根目标说话人数及设定冗余类数设定当前聚类数。根据所有待处理音频段之间的相似度分数，通过具有当前聚类数的聚类算法获取当前聚类信息。根据目标说话人数从当前聚类信息中获取主类的标签。对冗余类数所对应中冗余类的每个元素计算其与主类的中心距离。从中获取与主类中心距离最近的主类的类别标签作为此元素的类别标签。

第二方面，本发明实施例提供一种语音信号处理装置，包括：

分离模块，配置为获取并分离出与原始输入语音信号对应的多个源信号；

区分模块，配置为对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号；

信噪比计算模块，配置为基于所述第一语音信号中置信度最大的信号，所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号，计算所述置信度最大的信号和所述能量最大的信号信噪比；

概率计算模块，配置为基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率；

方向计算模块，配置为基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的方法的步骤。

本申请通过使用冗余聚类方法可以提升目标说话人的聚类的中心更加分散，区分度更强。对于复杂环境下，目标说话人不清晰的语音片段，也有更好的判别能力，从而降低复杂环境下分割聚类任务中的说话人分类的分类错误。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种复杂环境中多人语音的分割聚类方法的流程图；

图2为本发明一实施例提供的一种复杂环境中多人语音的分割聚类方法所实现系统的的数据流程图；

图3为本发明一实施例提供的一种复杂环境中多人语音的分割聚类系统的系统结构图；

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术相比有什么不同，能实现什么有益效果。

请参考图1，为本发明一种复杂环境中多人语音的分割聚类方法的流程图。如图1所示，本发明一种复杂环境中多人语音的分割聚类方法包括：

步骤S101，获取多人说话语音片段音频。

本步骤中，根据多人说话音频获取多段连续的多人说话语音片段音频。多人说话音频中或多人说话音频片段音频中具有多个人的语音音频。

步骤S102，获取归一化音频。

本步骤中，从人声语音片段音频中提取声学特征。根据声学特征对多人说话语音片段音频归一化获取归一化音频。

步骤S103，获取多段待处理音频。

本步骤中，根据设定分割片段时长分割归一化音频，获取多段待处理音频。

步骤S104，提取声纹信息特征。

本步骤中，提取多段待处理音频的声纹信息特征。

步骤S105，获取相似度分数。

本步骤中，根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取，所有待处理音频段之间的相似度分数。

步骤S106，获取多个人的类别标签。

本步骤中，根据所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

步骤S107，音频分割聚类。

本步骤中，根据多个人的类别标签对多人说话音频分割聚类。

在一些可选的实施例中，步骤S101中根据多人说话音频获取多段连续的多人说话语音片段音频的步骤包括：

在一些可选的实施例中，步骤S103中的设定分割片段时长为1.5s～2.0s。多段待处理音频的段间留有0.75s的重叠音频区间。

在一些可选的实施例中，步骤S104中提取多段待处理音频的声纹信息特征的步骤包括：通过传统统计学习算法或深度学习算法提取多段待处理音频的声纹信息特征。

在一些可选的实施例中，步骤S105中设定打分准则包括：cosine距离或者plda模型打分。

在一些可选的实施例中，步骤S106中多阶段冗余聚类算法包括：

步骤S1061，获取目标说话人数。

该技术方案主要是研发出一套在复杂环境下说话人分割聚类系统的技术方案。采用一种多阶段的冗余聚类算法来解决这一缺陷。多阶段冗余聚类算法的具体方法是，使用多于目标聚类的类别个数(N)的聚类个数(M)来运行聚类。目的是用冗余的类别建模非纯净的目标说话人信息。在完成冗余聚类后，在所得的类别中选择N个(即目标说话人个数)包含元素最多的类作为主类(即目标说话人类)，其他冗余的M-N个类中的元素根据其与主类类中心的距离来进行分类。这种冗余聚类的方法可以减少复杂环境中的目标说话人的语音信息对目标说话人聚类中心影响，使得目标说话人聚类中心更加分散，更加具有区分度。同时也使后期的冗余类中的元素的重新分类更容易找到其更加准确的类别标签。

整个系统的数据流程图如图2，

第一步，语音检测(VAD)模块，一段包含多说话人的语音文件经过语音检测(VAD)模块处理，整段语音中的静音部分被去掉，得到若干段只包含人声的语音片段；

第二步，声学特征提取和归一化模块，对第一步中的语音片段提取声学特征，如Filter-Bank。之后对所得特征做段级别的归一化；

第三步，再分段(subsegment)模块，经过再分段模块，第二步中的人声语音段再均匀切分成更小的语音片段(通常每段时长为1.5s，段与段之间有0.75s的重叠)；

第四步，声纹信息特征提取模块，在第三步所得的语音片段中使用传统统计学习或深度学习的方法来提取声纹信息，例如：i-vector或x-vector；

第五步，打分模块，根据所得的声纹信息对第四步所得的语音片段的声纹特征两两打分，计算每两个音频段相似度。打分的准则可以使用cosine距离或者plda模型打分；

第六步，根据所得相似度的分数使用多阶段冗余聚类算法得到每个说话人的类别。

多阶段冗余聚类算法的具体步骤如下：

1.此聚类法为已知类别个数的聚类方法；

2.使用冗余的类别个数聚类，通常冗余的类数为1～2个。例如：音频中目标说话人的个数为2，通常使用3～4个类别运行聚类算法。聚类算法可以是任何常用的基本聚类算法，如k-means，hierarchical clustering；

3.选择主类，假如目标说话人数为N，冗余的说话人类别个数为2.则在第1步所得的N+2个类别中选择N个包含元素最多的类作为主类；

4.对冗余类中的每个元素计算它与主类中心的距离，选择与它距离最近的主类的类别标签作为此元素的类别标签。

使用冗余聚类方法可以提升目标说话人的聚类的中心更加分散，区分度更强。对于复杂环境下，目标说话人不清晰的语音片段，也有更好的判别能力，从而降低复杂环境下分割聚类任务中的说话人分类的分类错误。

请参考图3，其示出了本发明一实施例提供的一种复杂环境中多人语音的分割聚类系统，包括：

多人说话语音片段音频获取单元101，其配置为根据多人说话音频获取多段连续的多人说话语音片段音频。多人说话音频中或多人说话音频片段音频中具有多个人的语音音频。

归一化音频获取单元102，其配置为从人声语音片段音频中提取声学特征。根据声学特征对多人说话语音片段音频归一化获取归一化音频。

多段待处理音频获取单元103，其配置为根据设定分割片段时长分割归一化音频，获取多段待处理音频。

声纹信息特征获取单元104，其配置为提取多段待处理音频的声纹信息特征。

打分获取单元105，其配置为根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取所有待处理音频段之间的相似度分数。

多阶段聚类获取单元106，其配置为根据相邻段待处理音频的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

分割聚类单元107，其配置为根据多个人的类别标签对多人说话音频分割聚类。

在一些可选的实施例中，多人说话语音片段音频获取单元还配置为：对多人说话音频通过语音检测模块处理，将多人说话中的静音时段的音频去除，获取多段连续的多人说话语音片段音频。多段待处理音频获取单元中设定分割片段时长为1.5s～2.0s。多段待处理音频的段间留有0.75s的重叠音频区间。

在一些可选的实施例中，声纹信息特征获取单元还配置为：通过传统统计学习算法或深度学习算法提取多段待处理音频的声纹信息特征。打分获取单元中设定打分准则包括：cosine距离或者plda模型打分。

在一些可选的实施例中，多阶段聚类获取单元还配置为：获取目标说话人数。根根目标说话人数及设定冗余类数设定当前聚类数。根据所有待处理音频段之间的相似度分数，通过具有当前聚类数的聚类算法获取当前聚类信息。根据目标说话人数从当前聚类信息中获取主类的标签。对冗余类数所对应中冗余类的每个元素计算其与主类的中心距离。从中获取与主类中心距离最近的主类的类别标签作为此元素的类别标签。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如分离模块可以描述为获取并分离出与原始输入语音信号对应的多个源信号的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分离模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音信号处理和使用方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

根据多人说话音频获取多段连续的多人说话语音片段音频。多人说话音频中或多人说话音频片段音频中具有多个人的语音音频。

从人声语音片段音频中提取声学特征。根据声学特征对多人说话语音片段音频归一化获取归一化音频。

根据设定分割片段时长分割归一化音频，获取多段待处理音频。

提取多段待处理音频的声纹信息特征。

根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取所有待处理音频段之间的相似度分数。

根据相邻段待处理音频的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

根据多个人的类别标签对多人说话音频分割聚类。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的复杂环境中多人语音的分割聚类方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的复杂环境中多人语音的分割聚类方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项复杂环境中多人语音的分割聚类方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。复杂环境中多人语音的分割聚类方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例复杂环境中多人语音的分割聚类方法。输入装置430可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备可以应用于智能语音对话平台中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

提取多段待处理音频的声纹信息特征。

根据多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数。根据打分数获取。相邻段待处理音频的相似度分数。

根据所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取多个人的类别标签。

根据多个人的类别标签对多人说话音频分割聚类。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种复杂环境中多人语音的分割聚类方法，包括：

步骤S101，根据多人说话音频获取多段连续的多人说话语音片段音频；所述多人说话音频中或多人说话音频片段音频中具有多个人的语音音频；

步骤S102，从所述多人说话语音片段音频中提取声学特征；根据所述声学特征对所述多人说话语音片段音频归一化获取归一化音频；

步骤S103，根据设定分割片段时长分割所述归一化音频，获取多段待处理音频；

步骤S104，提取所述多段待处理音频的声纹信息特征；

步骤S105，根据所述多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数；根据所述打分数获取所有待处理音频段之间的相似度分数；

步骤S106，根据所述所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取所述多个人的类别标签；

步骤S107，根据所述多个人的类别标签对所述多人说话音频分割聚类；

其中，所述步骤S106中所述多阶段冗余聚类算法包括：

步骤S1061，获取目标说话人数；

步骤S1062，根据所述目标说话人数及设定冗余类数设定当前聚类数；

步骤S1063，根据所述所有待处理音频段之间的相似度分数，通过具有所述当前聚类数的聚类算法获取当前聚类信息；

步骤S1064，根据目标说话人数从所述当前聚类信息中获取主类的标签；

步骤S1065，对冗余类数所对应中冗余类的每个元素计算其与主类的中心距离；从中获取与所述主类中心距离最近的主类的类别标签作为此元素的类别标签。

2.根据权利要求1所述的分割聚类方法，其中，步骤S101中所述根据多人说话音频获取多段连续的多人说话语音片段音频的步骤包括：

对多人说话音频通过语音检测模块处理，将所述多人说话中的静音时段的音频去除，获取多段连续的多人说话语音片段音频。

3.根据权利要求2所述的分割聚类方法，其中，所述步骤S103中的设定分割片段时长为1.5s～2.0s；所述多段待处理音频的段间留有0.75s的重叠音频区间。

4.根据权利要求2或3所述的分割聚类方法，其中，所述步骤S104中提取所述多段待处理音频的声纹信息特征的步骤包括：

通过传统统计学习算法或深度学习算法提取所述多段待处理音频的声纹信息特征。

5.根据权利要求1所述的分割聚类方法，其中，所述步骤S105中所述设定打分准则包括：cosine距离或者plda模型打分。

6.一种复杂环境中多人语音的分割聚类系统，包括：

多人说话语音片段音频获取单元，其配置为根据多人说话音频获取多段连续的多人说话语音片段音频；所述多人说话音频中或多人说话音频片段音频中具有多个人的语音音频；

归一化音频获取单元，其配置为从所述多人说话语音片段音频中提取声学特征；根据所述声学特征对所述多人说话语音片段音频归一化获取归一化音频；

多段待处理音频获取单元，其配置为根据设定分割片段时长分割所述归一化音频，获取多段待处理音频；

声纹信息特征获取单元，其配置为提取所述多段待处理音频的声纹信息特征；

打分获取单元，其配置为根据所述多段待处理音频的声纹信息特征，对所有待处理音频段之间通过设定打分准则获取打分数；根据所述打分数获取所有待处理音频段之间的相似度分数；

多阶段聚类获取单元，其配置为根据所述所有待处理音频段之间的相似度分数，通过多阶段冗余聚类算法获取所述多个人的类别标签；

分割聚类单元，其配置为根据所述多个人的类别标签对所述多人说话音频分割聚类；

其中，所述多阶段聚类获取单元还配置为：

获取目标说话人数；

根据所述目标说话人数及设定冗余类数设定当前聚类数；

根据所述所有待处理音频段之间的相似度分数，通过具有所述当前聚类数的聚类算法获取当前聚类信息；

根据目标说话人数从所述当前聚类信息中获取主类的标签；

对冗余类数所对应中冗余类的每个元素计算其与主类的中心距离；从中获取与所述主类中心距离最近的主类的类别标签作为此元素的类别标签。

7.根据权利要求6所述的分割聚类系统，其中，多人说话语音片段音频获取单元还配置为：

对多人说话音频通过语音检测模块处理，将所述多人说话中的静音时段的音频去除，获取多段连续的多人说话语音片段音频；

所述多段待处理音频获取单元中设定分割片段时长为1.5s～2.0s；所述多段待处理音频的段间留有0.75s的重叠音频区间。

8.根据权利要求7所述的分割聚类系统，其中，所述声纹信息特征获取单元还配置为：

通过传统统计学习算法或深度学习算法提取所述多段待处理音频的声纹信息特征；

所述打分获取单元中所述设定打分准则包括：cosine距离或者plda模型打分。