CN114218428A

CN114218428A - 音频数据聚类方法、装置、设备及存储介质

Info

Publication number: CN114218428A
Application number: CN202111594903.3A
Authority: CN
Inventors: 郑斯奇; 索宏彬
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-22

Abstract

本申请实施例提供了一种音频数据聚类方法、装置、设备及存储介质。音频数据聚类方法包括：获取待处理的多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示，对各音频片段进行聚类。本申请实施例，提升了音频数据聚类的准确度。

Description

音频数据聚类方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种音频数据聚类方法、装置、设备及存储介质。

背景技术

音频数据聚类是一种应用较广的聚类方法，例如：针对音视频会议中的音频数据，可以采用音频数据聚类的方式，从中分辨出不同说话人的说话时长并标注，也即：将属于同一说话人的音频片段聚集到一起。

目前，通常采用传统的聚类方法，如谱聚类、AHC层次聚类或者K-means等进行音频数据聚类。但是，上述传统方法，聚类效果具有较大局限，聚类准确度较低。例如：容易将同一种类的音频数据识别成多种不同类别，或者，将不同种类的音频数据错误地聚为一类。

发明内容

有鉴于此，本申请实施例提供一种音频数据聚类方法、装置、设备及存储介质，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种音频数据聚类方法，包括：

获取待处理的多个音频片段；

对各音频片段进行特征提取，得到对应的声纹特征；

将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；

基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

根据本申请实施例的第二方面，提供了另一种音频数据聚类方法，包括：

接收针对会议音频数据的说话人聚类指令；

根据所述说话人聚类指令，对所述会议音频数据进行数据分割，得到多个音频片段；

对各音频片段进行特征提取，得到对应的声纹特征；

根据本申请实施例的第三方面，提供了一种音频数据聚类装置，包括：

音频片段获取模块，用于获取待处理的多个音频片段；

第一声纹特征得到模块，用于对各音频片段进行特征提取，得到对应的声纹特征；

第一特征向量表示得到模块，用于将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；

第一聚类模块，用于基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

根据本申请实施例的第四方面，提供了另一种音频数据聚类装置，包括：

指令接收模块，用于接收针对会议音频数据的说话人聚类指令；

音频片段得到模块，用于根据所述说话人聚类指令，对所述会议音频数据进行数据分割，得到多个音频片段；

第二声纹特征得到模块，用于对各音频片段进行特征提取，得到对应的声纹特征；

第二特征向量表示得到模块，用于将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；

第二聚类模块，用于基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的音频数据聚类方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的音频数据聚类方法。

根据本申请实施例提供的音频数据聚类方法，基于各音频片段的声纹特征，通过图神经网络得到了各音频片段的新的特征向量表示，再基于各音频片段的特征向量表示进行聚类。由于图神经网络在得到各节点(音频片段)的新的低维度特征向量表示时，不仅保留了各节点本身的特征信息，还保留了各节点之间的关联关系。也就是说，图神经网络在得到特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系，因此，与将各节点彼此孤立作为核心假设的其他特征提取方法相比，图神经网络得到的特征向量表示则更加准确全面，进而，基于上述特征向量表示进行聚类，聚类结果的准确度也会更高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本申请实施例一的一种音频数据聚类方法的步骤流程图；

图2为图1所示实施例中的一种场景示例的示意图；

图3为根据本申请实施例二的一种音频数据聚类方法的步骤流程图；

图4为根据本申请实施例三的一种音频数据聚类方法的步骤流程图；

图5为根据本申请实施例四的一种音频数据聚类装置的结构框图；

图6为根据本申请实施例五的一种音频数据聚类装置的结构框图；

图7为根据本申请实施例六的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一、

参照图1，图1为根据本申请实施例一的一种音频数据聚类方法的步骤流程图。具体地，本实施例提供的音频数据聚类方法包括以下步骤：

步骤102，获取待处理的多个音频片段。

本申请实施例中的音频片段即为待聚类处理的音频片段，此处，对于音频片段的具体内容不做限定。例如：在多人通话场景中，音频片段可以为对完整的通话数据进行分割之后得到的音频片段；在音频会议场景中，音频片段可以为对完整的会议音频数据进行分割之后得到的会议音频片段，其中，一个会议音频片段对应一个参会人员；或者，在视频会议场景中，可以先对会议视频数据进行音频数据提取，得到会议音频数据，再对得到的会议音频数据进行分割之后得到会议音频片段。

步骤104，对各音频片段进行特征提取，得到对应的声纹特征。

在获取到音频片段之后，可以分别针对每个音频片段先进行特征提取，以得到每个音频片段本身所对应的声纹特征。

本申请实施例中，对于声纹特征的具体类别不做限定，例如，可以为如下类别中的一种或者多种：能量特征、时域特征、频域特征(如应用较为广泛的梅尔频率倒谱系数、线性预测倒谱系数等)、乐理特征以及感知特征等等。

本步骤中，可以采用传统算法进行声纹特征的提取，也可以借助机器学习进行声纹特征提取。以神经网络为例，可以先构建训练样本库，以对初始的神经网络进行训练，之后，即可通过将各音频片段输入训练完成的神经网络，得到对应的声纹特征。

另外，本申请实施例中，对于得到声纹特征时所采用的具体特征提取方法不作限定，例如：可以

步骤106，将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示。

图神经网络主要用于通过保留图中各节点的网络拓扑关系以及各节点自身的特征信息，从而得到图中各节点的新的低维向量表示。图神经网络训练，主要是通过学习各节点自身特征与相邻节点特征之间的关联关系，训练得到较为合适的图神经网络。

也就是说，图神经网络得到新的特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系。而步骤104中得到的声纹特征，则是分别针对每个音频片段自身进行提取得到的，并未考虑到各音频片段之间的关联关系。因此，本步骤中，借助训练完成的图神经网络，基于步骤104得到的声纹特征，可以使得到的各音频片段的特征向量表示更加准确全面。

步骤108，基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

具体地，可以基于各音频片段的特征向量表示之间的相似度，进行聚类分析，从而将各音频片段分成不同的类别。

参见图2，图2为本申请实施例一对应的场景示意图，以下，将参考图2所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

获取到4段音频片段，分别为：音频片段1、音频片段2、音频片段3以及音频片段4；对音频片段1进行特征提取得到声纹特征1、对音频片段2进行特征提取得到声纹特征2、对音频片段3进行特征提取得到声纹特征3、对音频片段4进行特征提取得到声纹特征4；将声纹特征1、声纹特征2、声纹特征3以及声纹特征4同时输入至预先训练完成的图神经网络，从而分别得到：音频片段1对应的特征向量表示1、音频片段2对应的特征向量表示2、音频片段3对应的特征向量表示3、音频片段4对应的特征向量表示4；基于各特征向量表示之间的相似度，进行聚类操作，从而得到聚类结果：音频片段1与音频片段2为同一类(同一说话人)，音频片段3与音频片段4为同一类(同一说话人)。

本申请实施例中，基于各音频片段的声纹特征，通过图神经网络得到了各音频片段的新的特征向量表示，再基于各音频片段的特征向量表示进行聚类。由于图神经网络在得到各节点(音频片段)的新的低维度特征向量表示时，不仅保留了各节点本身的特征信息，还保留了各节点之间的关联关系。也就是说，图神经网络在得到的特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系，因此，与将各节点彼此孤立作为核心假设的其他特征提取方法相比，图神经网络得到的特征向量表示则更加准确全面，进而，基于上述特征向量表示进行聚类，聚类结果的准确度也会更高。

本实施例的音频数据聚类方法可以由任意适当的具有音频数据聚类能力的电子设备执行，包括但不限于：移动终端(如手机、PAD等)和PC机等。

在一种可行方式中，上述过程也可通过圣经网络模型实现，即：通过音频聚类模型实现，该音频聚类模型可以包括：声纹提取网络、图神经网络以及聚类模块。在使用上述音频聚类模型时，本申请实施例的方案可以实现为：通过音频聚类模型的声纹提取网络，获取待处理的多个音频片段分别对应的声纹特征；通过音频聚类模型的图神经网络，基于各音频片段分别对应的声纹特征，得到各音频片段的特征向量表示；通过音频聚类模型的聚类模块，基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

实施例二、

参照图3，图3为根据本申请实施例二的一种音频数据聚类方法的步骤流程图。具体地，本实施例提供的音频数据聚类方法包括以下步骤：

步骤302，获取会议音频数据。

具体地，在音频会议场景中，可以直接获取会议对应的会议音频数据；在视频会议场景中，可以对会议对应的会议视频数据进行音频数据提取，从而得到会议音频数据。

步骤304，对会议音频数据进行数据分割，得到多个音频片段。

其中，一个音频片段对应一个参会对象。

一个会议中，说话人(也即发言人员、参会对象)通常为多个，也就是说，步骤302中获取到的会议音频数据中包含有不同说话人的音频数据，因此，本步骤中，可以对获取到的整个会议音频数据进行数据分割，从而使得到的每个音频片段对应一个参会对象。

步骤306，将各音频片段分别输入声纹提取网络，得到各音频片段对应的声纹特征。

本申请实施例中，对于进行声纹特征提取时所采用的具体的声纹提取网络的结构以及参数不做限定，实际应用中，可以根据计算设备的计算能力以及精度要求等进行选择和训练。

另外，对于声纹特征的具体类别也不做限定，例如，可以为如下类别中的一种或者多种：能量特征、时域特征、频域特征(如应用较为广泛的梅尔频率倒谱系数、线性预测倒谱系数等)、乐理特征以及感知特征等等。

步骤308，将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示。

也就是说，图神经网络得到新的特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系，而步骤104中得到的声纹特征，则是分别针对每个音频片段自身进行提取得到的，并未考虑到各音频片段之间的关联关系。因此，本步骤中，借助训练完成的图神经网络，基于步骤104得到的声纹特征，可以使得到的各音频片段的特征向量表示更加准确全面。

进一步地，本步骤中的图神经网络的训练过程可以包括：

获取初始图神经网络；

获取训练样本图；训练样本图是基于各样本音频片段对应的声纹特征，以及各样本音频片段之间的类别关系构建的；

基于训练样本图，对初始图神经网络进行训练，得到训练完成的图神经网络。

本申请实施例中，对于图神经网络的结构不做限定。

训练样本图可以是基于各样本音频片段对应的声纹特征，以及各样本音频片段之间的类别关系构建的，具体构建过程可以包括：

获取各样本音频片段对应的声纹特征，得到节点集合；

基于各样本音频片段之间的类别关系，确定边集合；其中，当两个样本音频片段之间属于同一类别时，确定该两个样本音频片段对应的节点之间存在连接边；

基于节点集合和边集合，构建训练样本图。

在通过上述方式构建好训练样本图之后，可以基于上述训练样本图，对初始的图神经网络进行训练，使得存在连接边的样本音频片段，其对应的由模型输出的特征向量表示越相似。

步骤310，基于各音频片段的特征向量之间的相似度对各音频片段进行聚类，得到聚类结果。

本申请实施例中，基于会议音频数据中各音频片段的声纹特征，通过图神经网络得到了各音频片段的新的特征向量表示，再基于各音频片段的特征向量表示进行聚类。由于图神经网络在得到各节点(音频片段)的新的低维度特征向量表示时，不仅保留了各节点本身的特征信息，还保留了各节点之间的关联关系。也就是说，图神经网络在得到的特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系，因此，与将各节点彼此孤立作为核心假设的其他特征提取方法相比，图神经网络得到的特征向量表示则更加准确全面，进而，基于上述特征向量表示进行聚类，聚类结果的准确度也会更高。

实施例三、

参照图4，图4为根据本申请实施例三的一种音频数据聚类方法的步骤流程图。该实施例的应用场景可以是：针对会议产生的会议音频数据进行说话人聚类，将属于同一说话人的音频片段聚类到一起。

具体地，本实施例提供的音频数据聚类方法包括以下步骤：

步骤402，接收针对会议音频数据的说话人聚类指令。

步骤404，根据说话人聚类指令，对会议音频数据进行数据分割，得到多个音频片段。

其中，每个音频片段可以对应一个说话人。

步骤406，对各音频片段进行特征提取，得到对应的声纹特征。

步骤408，将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示。

步骤410，基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

具体地，本步骤中，可以基于各特征向量表示之间的相似度，进行聚类操作，从而将属于同一说话人的音频片段聚为一类。

本申请实施例的音频数据聚类方法中，步骤404-步骤410的实现均可参照前述实施例一或实施例二中的相应部分的描述，在此亦不再赘述。

本申请实施例中，在接收到针对会议音频数据的说话人聚类指令后，则将会议音频数据分割不同的音频片段，并得到各音频片段的声纹特征；基于各音频片段的声纹特征，通过图神经网络得到了各音频片段的新的特征向量表示，再基于各音频片段的特征向量表示进行聚类，以得到聚类结果。由于图神经网络在得到各音频片段的新的低维度特征向量表示时，不仅保留了各音频片段本身的特征信息，还保留了各音频片段之间的关联关系。也就是说，图神经网络在得到的特征向量表示时，同时考虑了各音频片段本身的声纹特征信息和各音频片段间的关联关系，因此，得到的特征向量表示则更加准确全面，进而，基于上述特征向量表示进行说话人聚类，聚类结果的准确度也会更高。

实施例四、

参见图5，图5为根据本申请实施例四的一种音频数据聚类装置的结构框图。本申请实施例提供的音频数据聚类装置包括：

音频片段获取模块502，用于获取待处理的多个音频片段；

第一声纹特征得到模块504，用于对各音频片段进行特征提取，得到对应的声纹特征；

第一特征向量表示得到模块506，用于将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；

第一聚类模块508，用于基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

可选地，在其中一些实施例中，音频片段获取模块502具体用于：

获取会议音频数据；

对会议音频数据进行数据分割，得到多个音频片段；其中，一个音频片段对应一个参会对象。

可选地，在其中一些实施例中，第一声纹特征得到模块504具体用于：

将各音频片段分别输入声纹提取网络，得到各音频片段对应的声纹特征。

可选地，在其中一些实施例中，音频数据聚类装置还包括：

图神经网络训练模块，用于：

获取初始图神经网络；

可选地，在其中一些实施例中，音频数据聚类装置还用于：

获取各样本音频片段对应的声纹特征，得到节点集合；

基于节点集合和边集合，构建训练样本图。

可选地，在其中一些实施例中，第一聚类模块508具体用于：

基于各音频片段的特征向量之间的相似度对各音频片段进行聚类，得到聚类结果。

本申请实施例的音频数据聚类装置用于实现前述方法实施例一或实施例二中相应的音频数据聚类方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本申请实施例的音频数据聚类装置中的各个模块的功能实现均可参照前述方法实施例一或实施例二中的相应部分的描述，在此亦不再赘述。

实施例五、

参见图6，图6为根据本申请实施例四的一种音频数据聚类装置的结构框图。本申请实施例提供的音频数据聚类装置包括：

指令接收模块602，用于接收针对会议音频数据的说话人聚类指令；

音频片段得到模块604，用于根据说话人聚类指令，对会议音频数据进行数据分割，得到多个音频片段；

第二声纹特征得到模块606，用于对各音频片段进行特征提取，得到对应的声纹特征；

第二特征向量表示得到模块608，用于将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；

第二聚类模块610，用于基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

本申请实施例的音频数据聚类装置用于实现前述方法实施例三中相应的音频数据聚类方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本申请实施例的音频数据聚类装置中的各个模块的功能实现均可参照前述方法实施例三中的相应部分的描述，在此亦不再赘述。

实施例六、

参照图7，示出了根据本申请实施例四的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：

处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行程序710，具体可以执行上述音频数据聚类方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是CPU，或者是特定集成电路ASIC(Application SpecificIntegrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器706可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：获取待处理的多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。或者，接收针对会议音频数据的说话人聚类指令；根据说话人聚类指令，对会议音频数据进行数据分割，得到多个音频片段；对各音频片段进行特征提取，得到对应的声纹特征；将各音频片段对应的声纹特征输入图神经网络，得到各音频片段的特征向量表示；基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

程序710中各步骤的具体实现可以参见上述音频数据聚类方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，基于各音频片段的声纹特征，通过图神经网络得到了各音频片段的新的特征向量表示，再基于各音频片段的特征向量表示进行聚类。由于图神经网络在得到各节点(音频片段)的新的低维度特征向量表示时，不仅保留了各节点本身的特征信息，还保留了各节点之间的关联关系。也就是说，图神经网络在得到的特征向量表示时，同时考虑了各节点本身的特征信息和各节点间的关联关系，因此，与将各节点彼此孤立作为核心假设的其他特征提取方法相比，图神经网络得到的特征向量表示则更加准确全面，进而，基于上述特征向量表示进行聚类，聚类结果的准确度也会更高。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一音频数据聚类方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的音频数据聚类方法。此外，当通用计算机访问用于实现在此示出的音频数据聚类方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的音频数据聚类方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种音频数据聚类方法，包括：

获取待处理的多个音频片段；

对各音频片段进行特征提取，得到对应的声纹特征；

2.根据权利要求1所述的方法，其中，所述获取待处理的多个音频片段，包括：

获取会议音频数据；

对所述会议音频数据进行数据分割，得到多个音频片段；其中，一个音频片段对应一个参会对象。

3.根据权利要求1所述的方法，其中，所述对各音频片段进行特征提取，得到对应的声纹特征，包括：

4.根据权利要求1所述的方法，其中，所述图神经网络的训练过程包括：

获取初始图神经网络；

获取训练样本图；所述训练样本图是基于各样本音频片段对应的声纹特征，以及各样本音频片段之间的类别关系构建的；

基于所述训练样本图，对所述初始图神经网络进行训练，得到训练完成的图神经网络。

5.根据权利要求4所述的方法，其中，所述训练样本图的构建过程包括：

获取各样本音频片段对应的声纹特征，得到节点集合；

基于所述节点集合和所述边集合，构建训练样本图。

6.根据权利要求1所述的方法，其中，所述基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果，包括：

7.一种音频数据聚类方法，包括：

接收针对会议音频数据的说话人聚类指令；

对各音频片段进行特征提取，得到对应的声纹特征；

8.一种音频数据聚类方法，包括：

通过音频聚类模型的声纹提取网络，获取待处理的多个音频片段分别对应的声纹特征；

通过音频聚类模型的图神经网络，基于各音频片段分别对应的声纹特征，得到各音频片段的特征向量表示；

通过所述音频聚类模型的聚类模块，基于各音频片段的特征向量表示对各音频片段进行聚类，得到聚类结果。

9.一种音频数据聚类装置，包括：

音频片段获取模块，用于获取待处理的多个音频片段；

10.一种音频数据聚类装置，包括：

11.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的音频数据聚类方法对应的操作。

12.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7中任一所述的音频数据聚类方法。

13.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-7中任一所述的音频数据聚类方法对应的操作。