CN117912483A

CN117912483A - 话者分离方法、装置、电子设备及可读存储介质

Info

Publication number: CN117912483A
Application number: CN202311785639.0A
Authority: CN
Inventors: 郑晓明; 李健; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-04-19

Abstract

本申请公开了一种话者分离方法、装置、电子设备及可读存储介质，方法包括：获取语音数据包括的多个语音片段，对多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇，在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。本方法提高了数据处理效率。

Description

话者分离方法、装置、电子设备及可读存储介质

技术领域

本申请属于语音数据处理技术领域，具体涉及一种话者分离方法、装置、电子设备及可读存储介质。

背景技术

通过拾音装置获取多个说话人交谈的语音数据后，可以从语音数据中划分出不同说话人的语音片段，进而确定和语音片段对应的说话人。

在相关技术中，获取多个语音片段后，获取性能最接近的两个语音片段，把这两个语音片段划分到一起，通过这种处理方法，实现语音数据中多个语音片段的划分。

但是，通过现有技术的方法，需要进行多次处理，才可以完成对多个语音片段的划分，并且每次处理时，需要分析的数据量比较大。这会导致数据处理效率低。

发明内容

本申请旨在提供一种话者分离方法、装置、电子设备及可读存储介质，至少解决在先技术中，划分语音片段的效率低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种话者分离方法，包括：

获取语音数据包括的多个语音片段；

对所述多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇；

在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个所述第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。。

第二方面，本申请实施例还提供了一种话者分离装置，包括：

第一获取模块，用于获取语音数据包括的多个语音片段；

第二获取模块，用于对所述多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇；

第一确定模块，用于在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个所述第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。

第三方面，本申请实施例还提供了一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例还提供了一种可读存储介质，其特征在于，当所述可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的方法。

综上，获取语音数据包括的多个语音片段，对多个语音片段依次执行多次聚类，在每次聚类中，获取上一次聚类操作得到的多个语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。在本实施例中，根据和当前聚类操作对应的第一阈值，可以快速对上一次聚类操作得到多个第一聚类簇进行聚类，得到包括语音片段的第二聚类簇。本实施例在一次聚类操作中，可以对较多的语音片段进行聚类簇的重新划分，相关技术中，每次划分语音片段时，将最接近的语音片段划分为一类的方法，在需要聚类的语音片段比较多的情况下，每次聚类重新划分类别的语音片段比较少，因此，在下一次聚类时，需要再次聚类的数据量比较多，这会导致数据处理效率低。本实施例根据与当前聚类操作对应的第一阈值，可以一次性将多个满足预设聚类要求的语音片段划分为一类，相对于相关技术中每次聚类操作时，将最接近的语音片段划分为一类的方法，本实施例减少了计算量，另外，本实施例可以通过较少次数的聚类操作，得到满足预设聚类要求的目标聚类簇，提高了对语音数据中同一个说话分的语音片段划分为同一个目标聚类簇的效率，解决了相关技术中，划分语音片段效率低的问题。

附图说明

图1是本申请实施例提供的一种话者分离方法的步骤流程图；

图2是本申请实施例提供的另一种话者分离方法的步骤流程图；

图3是本申请实施例提供的又一种话者分离方法的示意图；

图4是本申请实施例提供的另一种话者分离方法的步骤流程图；

图5是本申请实施例提供的一种语音数据中语音片段的聚类过程示意图；

图6是本申请实施例提供的一种话者分离结果示意图；

图7是本申请实施例提供的一种话者分离装置的结构框图；

图8是本申请实施例提供的一种电子设备的框图；

图9是本申请实施例提供的另一种电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

首先，本申请中出现的部分名词或术语适用于如下解释：

语音活性检测(Voice activity detection，VAD)技术，用于识别语音数据中的非语音片段。

下面结合附图和具体实施例，对本申请的话者分离方法、装置、电子设备及可读存储介质进行详细说明。

图1是本申请实施例提供的一种话者分离方法的步骤流程图，参照图1所示，该方法可以包括：

步骤101，获取语音数据包括的多个语音片段。

示例地，语音数据可以包括至少一个说话人的语音数据，也可以包括多个说话人的语音数据。示例地，可以通过录音笔等具有拾音功能的电子设备，采集得到语音数据。

示例地，可以对语音数据进行分割，得到语音数据包括的多个语音片段。比如，可以按照预设的时间间隔分割语音数据，得到语音数据包括的多个语音片段。

步骤102，对多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。

示例地，分别获取每两个第一聚类簇之间的第一相似度，根据第一相似度和第一阈值，得到包括语音片段的第二聚类簇。

每个第一聚类簇具有对应的语音特征，根据各第一聚类簇的语音特征，分别计算每两个第一聚类簇之间的第一相似度。进一步的，语音特征的格式为特征向量，针对每两个第一聚类簇，计算特征向量之间的距离，将该距离确定为两个第一聚类簇之间的第一相似度。

比如，第一聚类簇包括第一聚类簇A、第一聚类簇B和第一聚类簇C，分别根据各第一聚类簇的语音特征，计算得到第一聚类簇A和第一聚类簇B之间的第一相似度S_AB，第一聚类簇A和第一聚类簇C之间的第一相似度S_AC，第一聚类簇B和第一聚类簇C之间的第一相似度S_BC，比对第一相似度S_AB和第一阈值、第一相似度S_AC和第一阈值，以及第一相似度S_BC和第一阈值，根据比对结果，确定第二聚类簇。

比如，第一相似度S_AB大于或等于第一阈值，则将第一聚类簇A和第一聚类簇B划分至同一个第二聚类簇中，第一相似度S_AC小于第一阈值，第一相似度S_BC小于第一阈值，则第一聚类簇C单独构成一个第二聚类簇。由此得到两个个第二聚类簇，分别为：包括第一聚类簇A和第一聚类簇B的第二聚类簇，包括第一聚类簇C的第二聚类簇。

在下一次聚类操作中，计算包括第一聚类簇A和第一聚类簇B的第二聚类簇的特征向量，基于该特征向量和包括第一聚类簇C的第二聚类簇的特征向量，计算得到第三相似度。即，在将多个第一聚类簇进行合并，得到第二聚类簇后，需要计算其他各第二聚类簇和该新的第二聚类簇之间的第三相似度，以根据第三相似度进行聚类簇的重新划分。

其中，针对不同次序的聚类操作，聚类过程中使用的阈值可以相同，也可以不同。示例地，当前聚类操作使用的第一阈值，小于上一次聚类操作过程中使用的第二阈值。

示例地，根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇，包括：将第一相似度大于或等于第一阈值的第一聚类簇，划分至同一个第二聚类簇中。

针对每两个第一聚类簇，计算两个第一聚类簇之间的第一相似度，并根据第一相似度和第一阈值，进行聚类簇的重新划分，得到包括语音片段的多个第二聚类簇。其中，第二聚类簇可能包括一个语音片段，也可能包括多个语音片段。进一步的，在某个第一聚类簇只包括一个语音片段，且该第一聚类簇与其他各第一聚类簇之间的第一相似度，均小于第一阈值的情况下，在针对该第一聚类簇进行重新聚类操作时，该第一聚类簇构成一个第二聚类簇，该第二聚类簇中只包括一个语音片段。

进一步的，在获取上一次聚类操作得到的包括语音片段的第一聚类簇后，将第一聚类簇作为待聚类对象，对第一聚类簇进行聚类操作，得到包括语音片段的第二聚类簇。其中，第一聚类簇中可能包括一个语音片段，也可能包括多个语音片段。在将第一聚类簇作为待聚类对象进行聚类操作时，对每两个第一聚类簇进行第一相似度的计算，根据计算出的第一相似度，以及和当前聚类操作对应的第一阈值，对第一聚类簇进行类别划分，得到包括语音片段的第二聚类簇。

进一步的，在同一个第一聚类簇，与多个第一聚类簇之间的第一相似度，均大于或等于第一阈值的情况下，从其中选择出最大的第一相似度，将最大的第一相似度所对应的两个第一聚类簇划分至同一个第二聚类簇中。即，如果在当前的聚类操作的过程中，两个待聚类的第一聚类簇存在交叠的情况下，根据计算出的第一相似度，选择出一个聚类结果作为与当前聚类操作对应的最终结果。

比如，第一聚类簇包括第一聚类簇A、第一聚类簇B、第一聚类簇C和第一聚类簇D。其中，第一聚类簇A与第一聚类簇B之间的第一相似度S_AB大于或等于第一阈值，第一聚类簇A与第一聚类簇C之间的第一相似度S_AC也大于或等于第一阈值，且S_AB＞S_AC，则将第一聚类簇A和第一聚类簇B划分至同一个第二聚类簇中。

示例地，提取语音片段的语音特征，根据语音片段的语音特征，对多个语音片段依次执行多次聚类操作。进一步的，在每次聚类操作中，获取上一次聚类操作得到的第一聚类簇，根据第一聚类簇包括的多个语音片段，得到第一聚类簇的第一语音特征，根据第一语音特征得到第一聚类簇之间的第一相似度，根据第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。

进一步的，语音特征可以是反映说话人说话内容的数据向量。

具体的，在对多个语音片段进行第一次聚类操作时，获取语音片段之间的相似度，根据相似度以及预设的阈值，将多个语音片段划分为多个聚类簇。在对多个语音片段进行第二次聚类操作时，将第一聚类操作当做当前聚类操作的上一次聚类操作，将第一次聚类操作得到的多个聚类簇当做上一次聚类操作得到的第一聚类簇，对第一聚类簇进行聚类，得到第一聚类簇之间的第一相似度，根据第一相似度，以及和第二次聚类操作对应的第一阈值，将第一聚类簇划分为多个新的聚类簇，新的聚类簇即为和第二次聚类操作对应的第二聚类簇。在对多个语音片段进行第三次聚类操作时，将第二次聚类操作当做当前聚类操作的上一次聚类操作，将第二次聚类操作得到的多个聚类簇当做上一次聚类操作得到的第一聚类簇，对第一聚类簇进行聚类，得到新的第二聚类簇。

循环执行将获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇的处理过程，直至新得到的第二聚类簇满足预设聚类要求。

步骤103，在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个第二聚类簇确定为目标聚类簇。

具体的，每个目标聚类簇中的语音片段对应同一个说话人。

具体的，话者分离是指将语音片段中不同说话人的语音片段拆分开，以得到反映每个说话人说话内容的语音片段。本步骤中的目标聚类簇中的语音片段对应同一个说话人，在目标聚类簇有多个的情况下，每个目标聚类簇对应同一个说话人，目标聚类簇中包括的所有语音片段，是反映与该目标聚类簇对应的说话人说话内容的语音片段。

具体的，目标聚类簇是满足预设聚类要求的聚类簇。

示例地，预设聚类要求可以为以下任意一种：目标聚类簇的个数等于第二预设阈值，目标聚类簇之间的第三相似度足够大。

综上，获取语音数据包括的多个语音片段，对多个语音片段依次执行多次聚类，在每次聚类中，获取上一次聚类操作得到的多个语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。相关技术中，每次划分语音片段时，将最接近的语音片段划分为一类的方法，在需要聚类的语音片段比较多的情况下，每次聚类重新划分出类别的语音片段比较少，因此，在下一次聚类时，需要再次聚类的数据量比较多，这会导致数据处理效率低，比如，在语音数据包括数个小时的语音内容时，需要聚类的语音片段的个数N可能大于一万，按照相关技术的方法，计算出的相似度的个数为N²级的，这个数据量特别大，聚类需要的时间长，聚类效率低，无法满足使用要求。在本实施例中，根据和当前聚类操作对应的第一阈值，可以快速对上一次聚类操作得到多个第一聚类簇进行聚类，得到包括语音片段的第二聚类簇，根据与当前聚类操作对应的第一阈值，可以一次性将多个满足预设聚类要求的语音片段划分为一类，相对于相关技术中每次聚类操作时，将最接近的语音片段划分为一类的方法，本实施例减少了计算量，另外，本实施例可以对较多的语音片段进行聚类簇的重新划分，可以通过较少次数的聚类操作，得到满足预设聚类要求的目标聚类簇，提高了对语音数据中同一个说话分的语音片段划分为同一个目标聚类簇的效率，解决了相关技术中，划分语音片段效率低的问题。

图2是本申请提供的一种话者分离方法的步骤流程图。参照图2，方法可以包括如下步骤：

步骤201，获取语音数据。

示例地，可以通过拾音设备，或者具有拾音模块的电子设备采集语音数据。

步骤202，对语音数据进行预处理，得到处理后的语音数据。

示例地，获取语音数据中的非语音片段，并从语音数据中删除非语音片段，得到处理后的语音数据。其中，非语音片段可以是噪声片段，也可以是说话人没有说话时的静音片段。

示例地，非语音片段是没有人说话的静音片段。可以通过VAD技术，识别出语音数据中的非语音片段。

步骤203，按照预设时间间隔，切割处理后的语音数据，得到多个语音片段。

示例地，可以根据用户需求设定预设时间间隔，例如，在用户对话者分离结果的准确度要求比较高的情况下，可以将预设时间间隔设置的小一些，在用户对话者分离结果的准确度要求比较低的情况下，可以将预设时间间隔设置的大一些。

步骤204，对多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。

本步骤的方法，在前述步骤102中已作说明，此处不再赘述。

步骤205，在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。

本步骤的方法，在前述步骤103中已做说明，此处不再赘述。

综上，获取语音数据，对语音数据进行预处理，得到处理后的语音数据，按照预设时间间隔，切割处理后的语音数据，可以快速得到多个语音片段。对多个语音片段依次执行多次聚类，在每次聚类中，根据和当前聚类操作对应的第一阈值，可以快速对上一次聚类操作得到多个第一聚类簇进行聚类，得到包括语音片段的第二聚类簇。本实施例在一次聚类操作中，可以对较多的语音片段进行聚类簇的重新划分，可以通过较少次数的聚类操作，得到满足预设聚类要求的目标聚类簇，提高了对语音数据中同一个说话分的语音片段划分为同一个目标聚类簇的效率，解决了相关技术中，聚类效率低的问题，另外，本实施例方法提高了划分语音片段效率。

在一个实施例中，在步骤204中的根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，还包括：

步骤206，获取上一次聚类操作使用的第二阈值。

示例地，在上一次聚类操作为首次聚类操作的情况下，上一次聚类操作使用的第二阈值为预设阈值。

示例地，在上一次聚类操作不是首次聚类操作的情况下，上一次聚类操作使用的第二阈值，是上上次聚类操作使用的第二阈值。

步骤207，对第二阈值和预设阈值间隔进行减法运算，得到第一阈值。

示例地，预设阈值间隔大于零。

在本实施例中，获取上一次聚类操作使用的第二阈值，对第二阈值和预设阈值进行减法运算，得到第一阈值。由此，每次聚类操作所使用的第一阈值，随着聚类操作次数的增加而减小。由此，在依次执行多次聚类操作时，不用每一次都对最大相似度的语音片段进行合并，可以减少确定同类语音片段的计算量。聚类操作使用的阈值依次减小，相当于分段设置聚类操作所用的阈值，进一步提高了数据处理效率。另外，阈值是按照预设阈值间隔逐渐减小，而随着聚类操作次数的增加，不同聚类簇之间的相似度也在逐渐减小，因此，虽然减小了聚类操作中使用的阈值，但聚类结果的准确度不受影响。即，基于本实施例的方法，可以在确保聚类结果准确度的基础上，提高了聚类效率。

在一个实施例中，在步骤204中的根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，还可以包括如下步骤：

步骤208，根据第一聚类簇包括的语音片段，获取第一聚类簇的第一语音特征。

示例地，获取第一聚类簇中所有语音片段的语音特征的平均值，将该平均值，确定第一聚类簇的第一语音特征。

步骤209，根据第一语音特征，获取在多个第一聚类簇中，每两个第一聚类簇之间的第一相似度。

示例地，第一语音特征，是第一聚类簇的语音片段的向量表示。针对每两个第一聚类簇，可以计算两个第一聚类簇的第一语音特征之间的余弦相似度，将余弦相似度作为两个第一聚类簇之间的第一相似度。

在一个实施例中，第一聚类簇包括的语音片段有多个。对应的，步骤208可以包括如下子步骤：

子步骤2081，获取第一聚类簇中，每个语音片段的第二语音特征。

示例地，可以通过特征向量提取模块，提取得到每个语音片段的第二语音特征。示例地，特征向量提取模块可以包括声纹模型，或者其他用于提取语音数据中，反映说话人说话内容的语音特征提取模型，基于语音特征提取模型，提取得到第一聚类簇中，每个语音片段的第二语音特征。

示例地，提取得到的第二语音特征可以有多种特征表示形式，例如，可以是d-vector、i-vector，或者x-vector。其中，d-vector是一种基于深度学习的语音特征表示方式，用于将语音信号转换为一个固定长度的向量。i-vector是一种基于高斯混合模型的语音特征表示方式，用于将语音信号转换为一个低维的向量。x-vector也是一种基于深度学习的语音特征表示方式，用于将语音信号转换为一个固定长度的向量。

子步骤2082，对多个第二语音特征求平均，得到第一聚类簇的第一语音特征。

具体的，获取第一聚类簇包括的多个语音片段的第二语音特征的平均值，将平均值作为该第一聚类簇的第一语音特征。

在一个实施例中，在当前聚类操作为第一次操作的情况下，可以将语音数据包括的每个语音片段，视为一个聚类簇，然后对作为聚类簇的语音片段进行聚类。

步骤204中的当前聚类操作可以包括如下子步骤：

子步骤2041，获取每个语音片段的第三语音特征。

示例地，可以通过声纹模型，或者其他能够提取语音片段中，能够反应说话人说话内容的第三语音特征。

子步骤2042，获取在多个语音片段中，每两个语音片段的第三语音特征的第二相似度。

示例地，第三语音特征是向量表示的特征，针对两个语音片段，计算两个语音特征的余弦相似度，将余弦相似度作为这两个语音片段的第三语音特征的第二相似度。

子步骤2043，将第二相似度大于或等于第一阈值的两个语音片段，划分到同一个第二聚类簇中，得到多个第二聚类簇。

在本实施例中，获取在多个语音片段中，每两个语音片段的第三语音特征的第二相似度，将第二相似度大于或等于第一阈值的两个语音片段，划分到同一个第二聚类簇中，得到多个第二聚类簇。相当于将相似度高的语音片段合并到一个聚类簇中，得到多个第二聚类簇。

在一个实施例中，在步骤205之前，还可以包括如下步骤：

步骤210，根据第二聚类簇包括的语音片段，获取第二聚类簇的第四语音特征。

示例地，针对每个第二聚类簇，获取其中所有语音片段的特征向量，并对这些特征向量求平均，将计算得到的平均值，作为第二聚类簇的第四语音特征。

步骤211，根据第四语音特征，获取在多个第二聚类簇中，每两个第二聚类簇之间的第三相似度。

示例地，第四语音特征为数据向量，针对每两个第二聚类簇，计算这两个第二聚类簇的第四语音特征之间的余弦相似度，将计算得到的余弦相似度，作为这两个聚类簇之间的第三相似度。

步骤212，在所有第三相似度大于或等于预设阈值的情况下，确定第二聚类簇满足预设聚类要求。

示例地，可以根据用户需求设定预设阈值，例如，在对话者分离精确度要求比较高的情况下，可以将预设阈值设置的大一些，在对话者分离精确度要求比较低的情况下，可以将预设阈值设置的小一些。

在本实施例中，在所有第三相似度大于或等于预设阈值的情况下，确定第二聚类簇满足预设聚类要求，由此，可以得到符合用户要求的话者分离结果。

在一个实施例中，在步骤205之前，还包括：

步骤213，获取第二聚类簇的个数。

示例地，在聚类操作得到多个第二聚类簇后，统计得到第二聚类簇的个数。

步骤214，在第二聚类簇的个数等于预设个数的情况下，确定第二聚类簇满足预设聚类要求。

示例地，预设个数等于语音数据中说话人的个数。

在第二聚类簇的个数等于预设个数的情况下，确定第二聚类簇满足预设聚类要求，由此，可以将语音片段划分至预设个数的第二聚类簇中，得到个数满足用户需求的话者分离结果。

图3是本申请实施例提供的一种话者分离方法，参照图3，在获取语音数据后，对语音数据进行语音分割，然后对分割得到的语音片段进行特征向量提取，再根据提取的特征向量对多个语音片段进行聚类，得到多个话者分离的拆分结果。

下面结合图4，对本申请实施例的方法，进行进一步的示例性说明。如图4所示，方法可以包括如下步骤：

步骤S1，获取语音数据。

示例地，通过设置有拾音模块的电子设备获取语音数据。

步骤S2，去除语音数据中的非语音片段，得到处理后的语音数据。

示例地，非语音片段，可以包括说话人没有讲话的时候，电子设备收录的静音片段。非语音片段，还可以包括语音数据中的噪声片段。

步骤S3，按照预设时间间隔，分割处理后的语音数据，得到多个语音片段。

示例地，可以根据用户需求设定预设时间间隔。根据预设时间间隔，将处理后的语音数据分割为多个语音片段后，

步骤S4，针对每个语音片段，从语音片段中提取出说话人的特征向量，将提取得到的特征向量作为语音片段的语音特征。

其中，说话人的特征向量，相当于前述实施例中语音片段的第三语音特征。在语音数据处理领域中，常用数组向量的形式表示对应语音数据的语音特征，比如，在语音识别的应用场景中，提取语音数据中的特征向量，将特征向量作为相关模型中的嵌入(embedding)向量，对其进行对应的处理。

示例地，提取出的语音特征的形式可以是：d-vector、i-vector或者x-vector。

步骤S5，计算每两个语音特征的余弦相似度，将余弦相似度大于或等于阈值的两个语音特征对应的语音片段，划分为同一个聚类簇，得到多个聚类簇。

需要说明的是，步骤S5是对多个语音片段进行第一次聚类，本步骤中的语音特征，相当于前述实施例中的第三语音特征。本步骤得到的余弦相似度，相当于前述实施例中，当前聚类操作为第一次聚类操作时，根据多个语音片段的第三语音特征得到的第二相似度。本步骤中划分得到的多个聚类簇，相当于前述实施例中，当前聚类操作为第一聚类操作时，聚类得到的多个第二聚类簇。

示例地，计算两个语音特征之间的余弦相似度，将计算出的余弦相似度作为两个语音特征的相似度，这个相似度可以反映两个语音特征之间的距离。

使用余弦相似度和两个向量之间的夹角相关，两个语音片段的第三语音特征为向量表示的特征，两个第三语音特征的长度可能不同，计算两个第三语音特征之间的余弦相似度，可以避免第三语音特征的长度不同而导致的相似度计算结果偏差大的问题，提高了获取的相似度的准确度。

具体的，余弦相似度的取值范围为[-1,1]，两个语音特征之间的相似度和余弦相似度正相关，两个语音特征之间的相似度越大，其对应的余弦相似度的值越大。比如，两个完全相同的语音特征之间的余弦相似度为1。

通过步骤S4和步骤S5，将语音片段

步骤S6，判断聚类簇是否满足预设聚类要求，是则进入步骤S9，否则进入步骤S7。

步骤S7，减小阈值，得到新的阈值。

示例地，按照一定的预设阈值间隔减小阈值，得到新的阈值。

步骤S8，根据新的阈值对聚类簇进行聚类操作，得到新的聚类簇，然后返回步骤S6。

步骤S9，将聚类簇作为目标聚类簇，每个目标聚类簇具有对应的一个说话人。

在一个实施例中，对多个语音片段进行聚类，得到目标聚类簇的结果示意图如图5所示，如图5所示，语音数据分割为8个语音片段(图中的圆形标记部分)，第一次聚类后，得到四个聚类簇，每个聚类簇包括两个语音片段，第二次聚类后，得到两个聚类簇，本实施例中设定的聚类簇的预设个数为2，因此，图5中得到的两个聚类簇，即为满足预设聚类要求的目标聚类簇，其中，每个聚类簇包括4个语音片段，每个聚类簇中的4个语音片段，对应与同一个说话人。

比如，在一个实施例中，有四个语音片段A、B、C、D，分别获取这四个语音片段的第三特征向量，然后根据第三特征向量，计算出语音片段之间的相似度，具体为：S_AC＝0.2，S_AB＝0.8，S_AD＝0.6，S_BC＝0.5，S_BD＝0.4，S_CD＝0.7。其中，S_AB、S_AC、S_AD、S_BC、S_BD、S_CD分别为语音片段A和语音片段B之间的相似度、语音片段A和语音片段C之间的相似度、语音片段A和语音片段D之间的相似度、语音片段B和语音片段C之间的相似度、语音片段B和语音片段D之间的相似度、语音片段C和语音片段D之间的相似度。

在本实施例中，需要聚类的个数是2，则基于相关技术中的方法，先确定最大相似度的两个语音片段，这两个语音片段是A和B，将A和B归位一类，标记为E。其中，E为包括语音片段A和语音片段B的聚类簇。

然后更新待聚类的对象，得到新的对象之间的相似度为：S_EC＝0.35，S_ED＝0.5，S_CD＝0.7。其中，S_EC为聚类簇E和语音片段C之间的相似度、S_ED为聚类簇E和语音片段D之间的相似度。从新的对象中确定出相似度最大的两个语音片段，这两个语音片段是D和C，将D和C合并为一类标记为F。此时已达到聚类个数为2的要求，则聚类结束。

根据本实施例的方法，可以设定初始的阈值为0.9，预设阈值间隔是0.3。则在第一次聚类时，所有语音片段之间的相似度均不大于或等于0.9，因此不做处理，在第2次聚类时，阈值减小至0.6，因此将大于该阈值的划分至同一个聚类簇，其中，S_AB＝0.8，S_AD＝0.6，两个聚类簇均包括聚类簇A，则选出相似度较大的一个作为聚类结果，由此，可以将A和B划分至同一个聚类簇中。S_CD＝0.7也同样大于阈值，则将C和D划分至同一个聚类簇中。此时，一步中完成了A和B、C和D的聚类，达到了聚类个数为2的要求，则聚类结束，最终获取的目标聚类簇分别为：包括A和B的聚类簇，以及包括C和D的聚类簇。

该实施例只是对相关技术中话者分离方法，和本实施例的话者分离方法的示例性说明，在实际应用中，需要进行聚类操作，得到话者分离结果的语音片段远多于本实施例中的语音片段个数，比如，需要进行聚类操作的语音片段的个数的数量级可以为百、千、万。

基于本实施例的方法，聚类操作时处理的数据量少，因此，相对于相关技术的方法，本实施例提高了聚类操作的效率，每个聚类簇对应一个说话人，因此，本实施例的方法，具有根据语音数据进行话者分离时，处理效率高的优点。

图6是本申请实施例体提供的一种话者分离结果示意图，参照图6，在对语音数据分割得到的多个语音片段进行聚类后，得到的每个聚类簇中的语音片段对应于同一个说话人。可以按照时间顺序拼接各语音片段，拼接后的语音片段如图6中的频谱部分，各语音片段对应有说话人，比如，参照图6，语音片段对应的说话人是说话人1或者说话人2。

图7是本申请实施例提供的一种话者分离装置的结构示意图，如图7所示，该话者分离装置70包括：

第一获取模块701，用于获取语音数据包括的多个语音片段；

第二获取模块702，用于对所述多个语音片段依次执行多次聚类操作，在每次聚类操作中，获取上一次聚类操作得到的包括语音片段的第一聚类簇，根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇；

第一确定模块703，用于在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个所述第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。

可选地，第二获取模块702可以包括：

第一获取子模块，用于在根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，获取上一次聚类操作使用的第二阈值；

第二获取子模块，用于对第二阈值和预设阈值间隔进行减法运算，得到第一阈值。

可选地，第二获取模块702还可以包括：

第三获取子模块，用于在根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，根据第一聚类簇包括的语音片段，获取第一聚类簇的第一语音特征；

第四获取子模块，用于根据第一语音特征，获取在多个第一聚类簇中，每两个第一聚类簇之间的第一相似度。

可选地，第一聚类簇包括的语音片段有多个；可选地，第二获取模块502还可以包括：

第五获取子模块，用于获取第一聚类簇中，每个语音片段的第二语音特征；

第六获取子模块，用于对多个第二语音特征求平均，得到第一聚类簇的第一语音特征。

可选地，第二获取模块702还可以包括：

提取子模块，用于在当前聚类操作为第一次聚类操作的情况下，提取每个语音片段的第三语音特征；

第七获取子模块，用于获取在多个语音片段中，每两个语音片段的第三语音特征的第二相似度；

第一划分子模块，用于将第二相似度大于或等于第一阈值的两个语音片段，划分到同一个第二聚类簇中，得到多个第二聚类簇。

可选地，第一确定模块703包括：

第八获取子模块，用于在将多个第二聚类簇确定为目标聚类簇之前，根据第二聚类簇包括的语音片段，获取第二聚类簇的第四语音特征；

第九获取子模块，用于根据第四语音特征，获取在多个第二聚类簇中，每两个第二聚类簇之间的第三相似度；

确定子模块，用于在所有第三相似度均大于或等于预设阈值的情况下，确定第二聚类簇满足预设聚类要求。

可选地，第一确定模块703还可以包括：

第十获取子模块，用于获取第二聚类簇的个数；

第一确定子模块，用于在第二聚类簇的个数等于预设个数的情况下，确定第二聚类簇满足预设聚类要求。

可选地，第一获取模块701可以包括：

第十一获取子模块，用于获取语音数据；

第十二获取子模块，用于对语音数据进行预处理，得到处理后的语音数据；

第十三获取子模块，用于按照预设时间间隔，切割处理后的语音数据，得到多个语音片段。

综上，获取语音数据包括的多个语音片段，对多个语音片段依次执行多次聚类，在每次聚类中，获取上一次聚类操作得到的多个语音片段的第一聚类簇，根据第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇。在本实施例中，根据和当前聚类操作对应的第一阈值，可以快速对上一次聚类操作得到多个第一聚类簇进行聚类，得到包括语音片段的第二聚类簇。本实施例在一次聚类操作中，可以对较多的语音片段进行聚类簇的重新划分，相关技术中，每次划分语音片段时，将最接近的语音片段划分为一类的方法，在需要聚类的语音片段比较多的情况下，每次聚类重新划分类别的语音片段比较少，因此，在下一次聚类时，需要再次聚类的数据量比较多，这会导致数据处理效率低，本实施例可以通过较少次数的聚类操作，得到满足预设聚类要求的目标聚类簇，提高了对语音数据中同一个说话分的语音片段划分为同一个目标聚类簇的效率，解决了相关技术中，划分语音片段效率低的问题。

图8是本申请实施例提供的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804用于存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810用于输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816用于便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或7G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本申请实施例提供的一种话者分离方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器720执行以完成上述方法。例如，非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图9是根据一示例性实施例示出的一种电子设备900的框图。例如，电子设备900可以被提供为一服务器。参照图9，电子设备900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行本申请实施例提供的一种话者分离方法。

电子设备900还可以包括一个电源组件926被配置为执行电子设备900的电源管理，一个有线或无线网络接口950被配置为将电子设备900连接到网络，和一个输入输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本申请实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现的一种话者分离方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种话者分离方法，其特征在于，包括：

获取语音数据包括的多个语音片段；

在确定当前聚类操作得到的第二聚类簇满足预设聚类要求的情况下，将多个所述第二聚类簇确定为目标聚类簇，每个目标聚类簇中的语音片段对应同一个说话人。

2.根据权利要求1所述的方法，其特征在于，在根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，还包括：

获取上一次聚类操作使用的第二阈值；

对所述第二阈值和预设阈值间隔进行减法运算，得到所述第一阈值。

3.根据权利要求1所述的方法，其特征在于，在根据所述第一聚类簇之间的第一相似度，以及和当前聚类操作对应的第一阈值，得到包括语音片段的第二聚类簇之前，包括：

根据所述第一聚类簇包括的语音片段，获取所述第一聚类簇的第一语音特征；

根据所述第一语音特征，获取在多个所述第一聚类簇中，每两个所述第一聚类簇之间的第一相似度。

4.根据权利要求3所述的方法，其特征在于，所述第一聚类簇包括的语音片段有多个；所述根据所述第一聚类簇包括的语音片段，获取所述第一聚类簇的第一语音特征，包括：

获取所述第一聚类簇中，每个语音片段的第二语音特征；

对多个所述第二语音特征求平均，得到所述第一聚类簇的所述第一语音特征。

5.根据权利要求1所述的方法，其特征在于，在将多个所述第二聚类簇确定为目标聚类簇之前，还包括：

根据所述第二聚类簇包括的语音片段，获取所述第二聚类簇的第四语音特征；

根据所述第四语音特征，获取在多个所述第二聚类簇中，每两个第二聚类簇之间的第三相似度；

在所有第三相似度均大于或等于预设阈值的情况下，确定所述第二聚类簇满足所述预设聚类要求。

6.根据权利要求1所述的方法，其特征在于，在将多个所述第二聚类簇确定为目标聚类簇之前，还包括：

获取所述第二聚类簇的个数；

在所述第二聚类簇的个数等于预设个数的情况下，确定所述第二聚类簇满足所述预设聚类要求。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取语音数据包括的多个语音片段，包括：

获取语音数据；

对所述语音数据进行预处理，得到处理后的语音数据；

按照预设时间间隔，切割所述处理后的语音数据，得到多个语音片段。

8.一种话者分离装置，其特征在于，包括：

第一获取模块，用于获取语音数据包括的多个语音片段；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

10.一种可读存储介质，其特征在于，当所述可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1至7中任一项所述的方法。