CN109637547B

CN109637547B - 音频数据标注方法、装置、电子设备及存储介质

Info

Publication number: CN109637547B
Application number: CN201910084937.4A
Authority: CN
Inventors: 乔登科
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-11-03
Anticipated expiration: 2039-01-29
Also published as: CN109637547A

Abstract

本发明涉及语音技术领域，公开了一种音频数据标注方法、装置、电子设备及存储介质，所述方法包括：获取音频数据；提取音频数据的声纹特征；根据声纹特征对音频数据进行聚类，将音频数据划分为至少一个簇；给同一个簇中的音频数据标注上同一用户标识。本发明实施例提供的技术方案，使得整个标注过程无需人工介入，实现了自动化标注音频数据，避免了人工标注错误率较高的问题，提高了音频数据标注的准确性，无需投入大量的人力，且能够24小时不间断的进行标注，提高了标注效率、降低成本。

Description

音频数据标注方法、装置、电子设备及存储介质

技术领域

本发明涉及语音技术领域，尤其涉及一种音频数据标注方法、装置、电子设备及存储介质。

背景技术

声纹深度学习模型的训练需要用到大量标注有用户标识的音频数据。目前，对音频数据进行标注的方法主要有两种，一是通过录音设备录制指定人员的音频数据，二是由人工对采集的音频数据进行标注。

第一种方法需要雇用专门的人员录制音频数据，成本高效率低，而且无法获取到足够多不同用户的音频数据，难以满足模型训练的需要。

第二种方法同样需要雇用大量人员对音频数据进行标注，成本高效率低，而且由于每个人对声音的分辨能力不同，因此人工标注的方式无法保证标注的准确性。

因此，现有的音频数据标注方法准确性低、成本高、效率低。

发明内容

本发明实施例提供一种音频数据标注方法、装置、电子设备及存储介质，以解决现有技术中音频数据标注方法准确性低、成本高、效率低的问题。

第一方面，本发明一实施例提供了一种音频数据标注方法，包括：

获取音频数据；

提取音频数据的声纹特征；

根据声纹特征对音频数据进行聚类，将音频数据划分为至少一个簇；

给同一个簇中的音频数据标注上同一用户标识。

第二方面，本发明一实施例提供了一种音频数据标注装置，包括：

数据获取模块，用于获取音频数据；

声纹特征提供模块，用于提取音频数据的声纹特征；

聚类模块，用于根据声纹特征对音频数据进行聚类，将音频数据划分为至少一个簇；

标注模块，用于给同一个簇中的音频数据标注上同一用户标识。

第三方面，本发明一实施例提供了一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，收发机用于在处理器的控制下接收和发送数据，处理器执行计算机程序时实现上述任一种方法的步骤。

第四方面，本发明一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

本发明实施例提供的技术方案，使得整个标注过程无需人工介入，实现了自动化标注音频数据，避免了人工标注错误率较高的问题，提高了音频数据标注的准确性，无需投入大量的人力，且能够24小时不间断的进行标注，提高了标注效率、降低成本。此外，音频数据可通过用户使用的音频设备在线采集得到，实现了24小时不间断地采集音频数据，并扩大音频数据的采集范围，因此，可采集到大量不同用户在不同时间段的音频数据，实现训练数据的多样化，使得基于这些音频数据训练得到的声纹深度学习模型的识别度更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的音频数据标注方法的应用场景示意图；

图2为本发明一实施例提供的音频数据标注方法的流程示意图；

图3为本发明一实施例提供的对音频数据进行聚类的流程示意图；

图4为本发明一实施例提供的音频数据标注装置的结构示意图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，现有的对音频数据进行标注的方法主要有两种，一是通过录音设备录制指定人员的音频数据，二是由人工对采集的音频数据进行标注。第一种方法需要雇用专门的人员录制音频数据，成本高效率低，而且无法获取到足够多不同用户的音频数据，难以满足模型训练的需要。第二种方法同样需要雇用大量人员对音频数据进行标注，成本高效率低，而且由于每个人对声音的分辨能力不同，因此人工标注的方式无法保证标注的准确性。因此，现有的音频数据标注方法准确性低、成本高、效率低。

为此，本发明的发明人考虑到，通过用户使用的音频设备采集用户说话时生成的音频数据，提取音频数据的声纹特征，然后基于声纹特征对音频数据进行聚类，将具有相同或相似声纹特征的音频数据聚到一个簇中，能够聚为一簇的音频数据即认为是同一用户生成的音频数据，给同一簇中的所有音频数据标注上同一用户标识，这样就完成了对音频数据的标注。整个标注过程无需人工介入，实现了自动化标注音频数据，且具有标注准确性高、效率高、成本低廉的优势。此外，为了降低参与聚类的数据规模，可以根据音频设备的设备标识对音频数据进行划分，将同一音频设备采集的音频数据划分到同一集合内，分别对各个集合内的音频数据进行聚类，由于单个音频设备采集到的用户数量有限，因此，在各个集合内分别进行聚类可大大降低聚类规模，提高处理效率和聚类的准确性。进一步地，还可以根据音频数据的一些特征信息，对同一音频设备采集的音频数据进行初筛，将明显不属于同一用户的音频数据划分到不同的集合中，进一步降低参与聚类的数据规模。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

首先参考图1，其为本发明实施例提供的音频数据标注方法的一种应用场景示意图。在用户10使用音频设备11的过程中，音频设备11采集用户的音频数据，并将音频数据发送给服务器12，服务器12提取音频数据的声纹特征，根据声纹特征对音频数据进行聚类，将具有相同或相似声纹特征的音频数据聚为一簇，给同一个簇中的音频数据标注上同一用户标识，利用标注有用户标识的音频数据对声纹深度学习模型进行训练。

这种应用场景下，音频设备11和服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。音频设备11可以是独立的语音采集设备，音频设备11也可以是便携设备(例如：手机、平板、笔记本电脑等)或者具有语音交互功能的设备(如智能机器人、智能音箱)中内置的语音采集设备(如麦克风)。服务器12可以为任何能够提供数据处理、存储功能的服务器设备。

下面结合图1所示的应用场景，对本发明实施例提供的技术方案进行说明。

参考图2，本发明实施例提供一种音频数据标注方法，包括以下步骤：

S201、获取音频数据。

具体实施时，可通过用户使用的音频设备在线采集用户说话时产生的音频数据，这样可扩大音频数据的采集范围，可采集到大量不同用户在不同时间段的音频数据，实现训练数据的多样化，使得基于这些音频数据训练得到的声纹深度学习模型的识别度更加准确。

S202、提取音频数据的声纹特征。

本实施例中，可通过多种现有技术手段提取音频数据的声纹特征，例如，可通过GMM(混合高斯模型，Gaussian Mixture Model)/I-vector提取音频数据的声纹特征，具体提取方法为现有技术，不再赘述。

S203、根据声纹特征对音频数据进行聚类，将音频数据划分为至少一个簇。

具体实施时，聚类的方法可以是：K-MEANS算法、层次聚类算法、基于密度的聚类算法或基于网格的聚类算法等。根据声纹特征对音频数据进行聚类，即是将具有相同或相似声纹特征的音频数据聚到一个簇中，能够聚为一簇的音频数据即认为是同一用户生成的音频数据。

S204、给同一个簇中的音频数据标注上同一用户标识。

本实施例中，用户标识可以是一个编号，即为聚类得到的每一簇分配一个唯一的编号。在使用音频数据对声纹深度学习模型进行训练时，通过每个音频数据上标注的编号区分不同用户的音频数据。

本实施例提供的音频数据标注方法，提取音频数据的声纹特征，然后基于声纹特征对音频数据进行聚类，将具有相同或相似声纹特征的音频数据聚到一个簇中，能够聚为一簇的音频数据即认为是同一用户生成的音频数据，给同一簇中的所有音频数据标注上同一用户标识，这样就完成了对音频数据的标注。与现有标注音频数据的方法相比，本实施例的方法，使得整个标注过程无需人工介入，实现了自动化标注音频数据，避免了人工标注错误率较高的问题，提高了音频数据标注的准确性，无需投入大量的人力，且能够24小时不间断的进行标注，提高了标注效率、降低成本。此外，音频数据可通过用户使用的音频设备在线采集得到，实现了24小时不间断地采集音频数据，并扩大音频数据的采集范围，因此，可采集到大量不同用户在不同时间段的音频数据，实现训练数据的多样化，使得基于这些音频数据训练得到的声纹深度学习模型的识别度更加准确。

进一步地，为了降低参与聚类的数据规模，在对音频数据进行聚类之前，先根据音频设备的设备标识对音频数据进行划分，将同一音频设备采集的音频数据划分到同一集合内。然后，分别对各个集合内的音频数据进行聚类，由于单个音频设备采集到的用户数量有限，因此，在各个集合内分别进行聚类可大大降低聚类规模，提高处理效率和聚类的准确性。为此，在步骤S203之前，本实施例的方法还包括以下步骤：将同一音频设备采集的音频数据划分到同一集合中。

具体实施时，每条音频数据均带有该音频数据来源的音频设备的设备标识，在聚类之前，根据设备标识将同一音频设备采集的音频数据划分到同一集合中。或者，获取音频设备采集的音频数据时，即根据设备标识将同一音频设备采集的音频数据存储都到同一集合中。

相应地，S203具体包括：针对同一集合中的音频数据，根据声纹特征对同一集合中的音频数据进行聚类，将同一集合中的音频数据划分为至少一个簇。即，分别对各个集合内的音频数据进行聚类，每个集合都被划分为至少一个簇，每一个簇对应一个用户。

进一步地，还可以根据音频数据的一些特征信息，对同一音频设备采集的音频数据进行初筛，将明显不属于同一用户的音频数据划分到不同的集合中，进一步降低参与聚类的数据规模。用来进行初筛的特征信息应当为容易识别到的且识别准确度较高的特征信息，例如音频数据的性别信息。

为此，在步骤S203之前，本实施例的方法还包括以下步骤：通过预先训练好的性别分类模型确定音频数据对应的性别信息。

本实施例中，性别分类模型可通过逻辑回归(logistic regressive)的方式训练得到。逻辑回归中的自变量为音频数据对应的特征向量，该特征向量可以是声纹特征，因变量为性别“男”和“女”，然后通过逻辑回归分析确定特征向量与性别的线性关系，即得到性别分类模型。训练好的性别分类模型可以根据音频数据对应的特征向量预测这段音频数据对应的性别信息是“男”还是“女”。

相应地，将同一音频设备采集的音频数据划分到同一集合中具体包括：将同一音频设备采集的性别信息相同的音频数据划分到同一集合中。即，在基于音频设备的设备标识划分音频数据的基础上，根据性别信息再将同一音频设备采集的音频数据划分为两个集合。假设采集了10个音频设备的音频数据的话，则最多可以得到20个集合。

进一步地，在步骤S202之前，本实施例的方法还包括以下步骤：通过预先训练好的性别分类模型确定音频数据对应的性别信息。

相应地，步骤S202具体包括：根据音频数据对应的性别信息，选择与性别信息对应的声纹特征提取模型提取音频数据的声纹特征。

本实施例中，由于男声和女声的差异性，可针对男声和女生分别训练一个声纹特征提取模型，即男声对应的声纹特征提取模型专门用于提取男性音频数据的声纹特征，女声对应的声纹特征提取模型专门用于提取女性音频数据的声纹特征，以提高提取声纹特征的准确性，有助于提高后续聚类的准确度。

进一步地，本实施例可采用层次聚类算法对音频数据进行聚类。如图3所示，具体的聚类过程包括以下步骤：

S301、将每个音频数据作为一个聚类节点，将音频数据的声纹特征作为聚类节点的声纹特征。

S302、根据声纹特征对聚类节点进行预设次数次第一聚类操作。

步骤S302具体包括以下步骤：计算任意两个聚类节点的声纹特征的相似度；针对任一聚类节点，根据相似度找到与任一聚类节点最相似的聚类节点，若任一聚类节点与最相似的聚类节点的相似度高于第一聚类阈值，则将任一聚类节点与最相似的聚类节点合并为一个新的聚类节点，并删除任一聚类节点与最相似的聚类节点，将新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征。

本实施例中，预设次数可根据实际需要确定，在此不作限定。

具体实施时，可通过PLDA(Probabilistic Linear Discriminant Analysis)算法来计算两个声纹特征的相似度。

PLDA是一种信道补偿算法，号称概率形式的LDA算法。PLDA同样通常是基于I-vector特征的，因为I-vector特征即包含说话人信息又包含信道信息，而我们只关心说话人信息，所以才需要信道补偿，I-vector特征为声纹特征的一种。PLDA算法的信道补偿能力比LDA更好，已经成为目前最好的信道补偿算法。利用PLDA算法计算两个声纹特征的相似度时，可通过以下公式计算：

如果两条音频数据η₁和η₂来自同一空间的假设为H_S，这两条音频数据来自不同的空间的假设为H_D，那么通过计算对数似然比，就能衡量两条语音的相似程度，得分SCORE越高，则两条语音属于同一说话人的可能性越大。

本实施例中，第一聚类操作中的第一聚类阈值可根据实际实验结果进行设定，在此不作限定。具体实施时，为了提升聚类效果，每次执行第一聚类操作时的第一聚类阈值可以是相同的，也可以是不同的。例如，进行第一次第一聚类操作时使用的第一聚类阈值可选择一个较高的第一阈值，如果两个聚类节点的声纹特征的相似度大于该第一阈值，则表示这两个聚类节点中的声纹特征属于同一用户，这样可以提高第一次聚合的音频数据属于同一用户的概率，这样得到的新的聚类节点的声纹特征更加稳定，可提高后续聚类时的准确度；后续进行第一聚类操作时使用的第一聚类阈值可选择一个较低的第二阈值(第一阈值高于第二阈值)，如果两个聚类节点的声纹特征的相似度大于该第二阈值，则表示这两个聚类节点中的声纹特征属于同一用户。

假设，预设次数为10次，待聚类的集合内有10个音频数据，则聚类前，一个音频数据对应一个聚类节点，一共有10个聚类节点，将每个音频数据的声纹特征作为其对应聚类节点的声纹特征。首先，进行第一次第一聚类操作：计算该集合中任意两个聚类节点的声纹特征的相似度，即总共得到45对聚类节点的相似度；针对该集合中任一聚类节点，根据相似度找到与该聚类节点最相似的聚类节点，若该聚类节点与最相似的聚类节点的相似度高于第一阈值，则将该聚类节点与最相似的聚类节点合并为一个新的聚类节点，并删除该聚类节点以及与该聚类节点最相似的聚类节点，若该聚类节点与最相似的聚类节点的相似度低于或等于第一阈值，则不进行合并；这样处理完该集合内所有的聚类节点后，将合并得到的新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征。然后，进行第二次第一聚类操作：计算该集合中任意两个聚类节点的声纹特征的相似度，此时集合中的聚类节点为完成第一次第一聚类操作后得到的聚类节点；针对该集合中任一聚类节点，根据相似度找到与该聚类节点最相似的聚类节点，若该聚类节点与最相似的聚类节点的相似度高于第二阈值，则将该聚类节点与最相似的聚类节点合并为一个新的聚类节点，并删除该聚类节点以及与该聚类节点最相似的聚类节点，若该聚类节点与最相似的聚类节点的相似度低于或等于第二阈值，则不进行合并；这样处理完该集合内所有的聚类节点后，将合并得到的新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征。以与进行第二次第一聚类操作时同样的方式进行第一聚类操作，一直到第十次第一聚类操作。随着执行第一聚类操作的次数的增加，聚类节点中包含的音频数据越来越多，聚类节点的声纹特征也越来越稳定。

S303、在完成预设次数次聚类操作后，重复进行第二聚类操作，直至聚类得到的任意两个聚类节点间的相似度不高于第二聚类阈值。

本实施例中，第二聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，将相似度高于第二聚类阈值的两个聚类节点合并为一个新的聚类节点，将新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征。

本实施例中，第二聚类操作中的第二聚类阈值可根据实际实验结果进行设定，在此不作限定。具体实施时，第二聚类操作中的第二聚类阈值一般应小于第一阈值，第二聚类操作中的第二聚类阈值可以是第一聚类操作中选择的第二阈值。

通过步骤S303，尽可能地将相似的聚类节点合并，即将声纹特征相似的音频数据合并到一个聚类节点中。

S304、将同一聚类节点中的所有音频数据划分为一个簇。

根据声纹特征对音频数据进行聚类，即是将具有相同或相似声纹特征的音频数据聚到一个簇中，因此，能够聚为一簇的音频数据即认为是同一用户生成的音频数据。

进一步地，在步骤S304之后，本实施例的方法还包括以下步骤：删除包含的音频数据的数量少于预设数量的簇。

假设一个用户的音频数据太少的话，这样的样本对模型训练没有作用，还可能干扰模型的训练结果。因此，可以将音频数据较少的簇删除。

当然，实际应用中，一般使用同一音频设备的用户数量有限，因此，同一音频设备采集的音频数据聚类得到的簇的数量不会太多。由于聚类算法的缺陷，可能会导致用户的个别音频数据被单独分为一个簇，因此，为了充分利用采集的音频数据，对于被删除的簇中的音频数据，可以尽可能地将这些音频数据添加到其他簇中。具体实施时，计算待删除簇中的各音频数据的声纹特征与各已确定簇对应的平均声纹特征的相似度，待删除簇为包含的音频数据的数量少于预设数量的簇，已确定簇为包含的音频数据的数量不少于预设数量的簇，已确定簇对应的平均声纹特征为已确定簇中包含的所有音频数据的声纹特征的平均值；将相似度高于第二聚类阈值的音频数据添加到与该音频数据最相似的已确定簇中，并删除待删除簇。其中，第二聚类阈值可以是第一聚类操作中选择的第二阈值。如果待删除簇中的音频数据与各个已确定簇的平均声纹特征的相似度均不高于第二聚类阈值，则放弃该音频数据，不将音频数据添加到已确定簇中。本实施例中，删除待删除簇是指，删除待删除簇以及待删除簇中的所有音频数据。

如图4所示，基于与上述音频数据标注方法相同的发明构思，本发明实施例还提供了一种音频数据标注装置40，包括：数据获取模块401、声纹特征提供模块402、聚类模块403和标注模块404。

数据获取模块401，用于获取音频数据。

声纹特征提供模块402，用于提取音频数据的声纹特征。

聚类模块403，用于根据声纹特征对音频数据进行聚类，将音频数据划分为至少一个簇。

标注模块404，用于给同一个簇中的音频数据标注上同一用户标识。

进一步地，本实施例的音频数据标注装置40还包括数据划分模块，用于：在对音频数据进行聚类之前，将同一音频设备采集的音频数据划分到同一集合中。

相应地，聚类模块403具体用于：针对同一集合中的音频数据，根据声纹特征对同一集合中的音频数据进行聚类，将同一集合中的音频数据划分为至少一个簇。

进一步地，本实施例的音频数据标注装置40还包括性别识别模块，用于：在根据声纹特征对音频数据进行聚类之前，通过预先训练好的性别分类模型确定音频数据对应的性别信息。

相应地，数据划分模块具体用于：将同一音频设备采集的性别信息相同的音频数据划分到同一集合中。

相应地，声纹特征提供模块具体用于：根据音频数据对应的性别信息，选择与性别信息对应的声纹特征提取模型提取音频数据的声纹特征。

进一步地，聚类模块具体用于：

将每个音频数据作为一个聚类节点，将音频数据的声纹特征作为聚类节点的声纹特征；

根据声纹特征对聚类节点进行预设次数次第一聚类操作；第一聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，针对任一聚类节点，根据相似度找到与任一聚类节点最相似的聚类节点，若任一聚类节点与最相似的聚类节点的相似度高于第一聚类阈值，则将任一聚类节点与最相似的聚类节点合并为一个新的聚类节点，并删除任一聚类节点与最相似的聚类节点，将新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征；

在完成预设次数次第一聚类操作后，重复进行第二聚类操作，直至聚类得到的任意两个聚类节点间的相似度不高于第二聚类阈值；第二聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，将相似度高于第二聚类阈值的两个聚类节点合并为一个新的聚类节点，将新的聚类节点包含的所有音频数据的声纹特征的平均值作为新的聚类节点的声纹特征；

将同一聚类节点中的所有音频数据划分为一个簇。

进一步地，本实施例的音频数据标注装置40还包括簇删除模块，用于：删除包含的音频数据的数量少于预设数量的簇。

进一步地，本实施例的音频数据标注装置40还包括数据添加模块，用于：计算待删除簇中的各音频数据的声纹特征与各已确定簇对应的平均声纹特征的相似度，待删除簇为包含的音频数据的数量少于预设数量的簇，已确定簇为包含的音频数据的数量不少于预设数量的簇，已确定簇对应的平均声纹特征为已确定簇中包含的所有音频数据的声纹特征的平均值；将相似度高于第二聚类阈值的音频数据添加到与该音频数据最相似的已确定簇中，并删除待删除簇。

进一步地，进行第一次第一聚类操作时使用的第一聚类阈值高于后续进行第一聚类操作时使用的第一聚类阈值。

本发明实施例提的音频数据标注装置与上述音频数据标注方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述音频数据标注方法相同的发明构思，本发明实施例还提供了一种电子设备，该电子设备具体可以但不限于为具有数据处理能力的桌面计算机、便携式计算机、服务器等设备。如图5所示，该电子设备50可以包括处理器501、存储器502和收发机503。收发机503用于在处理器501的控制下接收和发送数据。

存储器502可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储音频数据标注方法的程序。

处理器501可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令，按照获得的程序指令实现上述任一实施例中的音频数据标注方法。

本发明实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述音频数据标注方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本发明实施例的方法，不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本发明实施例的保护范围之内。

Claims

1.一种音频数据标注方法，其特征在于，包括：

获取音频数据；

提取所述音频数据的声纹特征；

根据所述声纹特征对所述音频数据进行聚类，将所述音频数据划分为至少一个簇；

给同一个簇中的音频数据标注上同一用户标识，标注的音频数据用于训练声纹深度学习模型；

所述方法，还包括：

通过预先训练好的性别分类模型确定所述音频数据对应的性别信息；

将同一音频设备采集的性别信息相同的音频数据划分到同一集合中；

根据所述声纹特征对所述音频数据进行聚类，将所述音频数据划分为至少一个簇，具体包括：针对同一集合中的音频数据，根据所述声纹特征对所述同一集合中的音频数据进行聚类，将所述同一集合中的音频数据划分为至少一个簇。

2.根据权利要求1所述的方法，其特征在于，所述提取所述音频数据的声纹特征，包括：

根据所述音频数据对应的性别信息，选择与所述性别信息对应的声纹特征提取模型提取所述音频数据的声纹特征。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述声纹特征对所述音频数据进行聚类，包括：

将每个音频数据作为一个聚类节点，将所述音频数据的声纹特征作为所述聚类节点的声纹特征；

根据所述声纹特征对所述聚类节点进行预设次数次第一聚类操作；所述第一聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，针对任一聚类节点，根据所述相似度找到与所述任一聚类节点最相似的聚类节点，若所述任一聚类节点与所述最相似的聚类节点的相似度高于第一聚类阈值，则将所述任一聚类节点与所述最相似的聚类节点合并为一个新的聚类节点，并删除所述任一聚类节点与所述最相似的聚类节点，将所述新的聚类节点包含的所有音频数据的声纹特征的平均值作为所述新的聚类节点的声纹特征；

在完成预设次数次第一聚类操作后，重复进行第二聚类操作，直至聚类得到的任意两个聚类节点间的相似度不高于第二聚类阈值；所述第二聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，将相似度高于所述第二聚类阈值的两个聚类节点合并为一个新的聚类节点，将所述新的聚类节点包含的所有音频数据的声纹特征的平均值作为所述新的聚类节点的声纹特征；

将同一聚类节点中的所有音频数据划分为一个簇。

4.根据权利要求3所述的方法，其特征在于，还包括：

删除包含的音频数据的数量少于预设数量的簇。

5.根据权利要求3所述的方法，其特征在于，还包括：

计算待删除簇中的各音频数据的声纹特征与各已确定簇对应的平均声纹特征的相似度，所述待删除簇为包含的音频数据的数量少于预设数量的簇，所述已确定簇为包含的音频数据的数量不少于预设数量的簇，所述已确定簇对应的平均声纹特征为所述已确定簇中包含的所有音频数据的声纹特征的平均值；

将相似度高于所述第二聚类阈值的音频数据添加到与该音频数据最相似的已确定簇中，并删除所述待删除簇。

6.根据权利要求3所述的方法，其特征在于，进行第一次第一聚类操作时使用的第一聚类阈值高于后续进行第一聚类操作时使用的第一聚类阈值。

7.一种音频数据标注装置，其特征在于，包括：

数据获取模块，用于获取音频数据；

声纹特征提供模块，用于提取所述音频数据的声纹特征；

性别识别模块，用于通过预先训练好的性别分类模型确定所述音频数据对应的性别信息；

数据划分模块，用于将同一音频设备采集的性别信息相同的音频数据划分到同一集合中；

聚类模块，用于根据所述声纹特征对所述音频数据进行聚类，将所述音频数据划分为至少一个簇；

所述聚类模块，具体用于：针对同一集合中的音频数据，根据所述声纹特征对所述同一集合中的音频数据进行聚类，将所述同一集合中的音频数据划分为至少一个簇；

标注模块，用于给同一个簇中的音频数据标注上同一用户标识，标注的音频数据用于训练声纹深度学习模型。

8.根据权利要求7所述的装置，其特征在于，所述声纹特征提供模块具体用于：根据所述音频数据对应的性别信息，选择与所述性别信息对应的声纹特征提取模型提取所述音频数据的声纹特征。

9.根据权利要求7或8所述的装置，其特征在于，所述聚类模块具体用于：

在完成预设次数次聚类操作后，重复进行第二聚类操作，直至聚类得到的任意两个聚类节点间的相似度不高于第二聚类阈值；所述第二聚类操作包括：计算任意两个聚类节点的声纹特征的相似度，将相似度高于所述第二聚类阈值的两个聚类节点合并为一个新的聚类节点，将所述新的聚类节点包含的所有音频数据的声纹特征的平均值作为所述新的聚类节点的声纹特征；

将同一聚类节点中的所有音频数据划分为一个簇。

10.根据权利要求9所述的装置，其特征在于，还包括簇删除模块，用于：删除包含的音频数据的数量少于预设数量的簇。

11.根据权利要求9所述的装置，其特征在于，还包括数据添加模块，用于：计算待删除簇中的各音频数据的声纹特征与各已确定簇对应的平均声纹特征的相似度，所述待删除簇为包含的音频数据的数量少于预设数量的簇，所述已确定簇为包含的音频数据的数量不少于预设数量的簇，所述已确定簇对应的平均声纹特征为所述已确定簇中包含的所有音频数据的声纹特征的平均值；将相似度高于所述第二聚类阈值的音频数据添加到与该音频数据最相似的已确定簇中，并删除所述待删除簇。

12.根据权利要求9所述的装置，其特征在于，进行第一次第一聚类操作时使用的第一聚类阈值高于后续进行第一聚类操作时使用的第一聚类阈值。

13.一种电子设备，包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述收发机用于在所述处理器的控制下接收和发送数据，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。