CN116129909A

CN116129909A - 一种基于聚类的声纹数据自动采集方法

Info

Publication number: CN116129909A
Application number: CN202211579797.6A
Authority: CN
Inventors: 夏立; 周枫; 朱和军; 董文君
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-05-16

Abstract

本发明属于声纹数据采集技术领域，提供了一种基于聚类的声纹数据自动采集方法，包括以下步骤：收集数据、音频解码、语音活性检测、音频质量检测、提取声纹特征、声纹聚类和处理缓存数据，首先通过收集大量的含有声音的原始音频数据，构建原始音频数据库，并通过音频解码模块对音频数据进行解码，确保音频数据符合后续的程序检测条件，并根据数据来源及标签情况进行声纹聚类；本发明通过一整套完备的声纹数据自动采集方案，可以从海量数据中筛选声纹数据，并融合了语音活性检测、声纹识别、声纹聚类算法等关键技术解决了无标签数据声纹样本采集的问题。

Description

一种基于聚类的声纹数据自动采集方法

技术领域

本发明属于声纹数据采集技术领域，更具体地说是一种基于聚类的声纹数据自动采集方法。

背景技术

声纹即是用电声学仪器显示的携带言语信息的声波频谱，实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不变，因此基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。

目前基于深度学习的声纹识别算法，声纹识别框架主要分为三个阶段：训练阶段、注册阶段和验证阶段，其中在训练阶段，需要海量的有标签数据作为模型训练基础，传统模式中这些标签数据的获取方式主要为人工打标和录音两种方式，虽然上述方式能够解决数据获取的问题，但是仍存在以下问题：

1、人工打标成本过高，并且耗时较久，在复杂场景下容易出错，存在一定的数据泄露风险；

2、录音存在用时较久，并且适应的场景单一，且人员召集和组织起来较为困难，仅能处理小批量的数据，难以达到训练阶段所需的海量数据量。

因此，亟需一种基于聚类的声纹数据能够自动高效，且能够处理大批量含标签音频数据的采集方法。

发明内容

为了解决上述技术问题，本发明提供一种基于聚类的声纹数据自动采集方法，通过使用语音活性检测、声纹识别、声纹聚类算法等关键技术，结合音频质量检测等工具进行质量把控，获取数据准确率与可靠性较好，以解决传统模式下通过人工打标或录音等方式存在数据易泄漏以及处理时间长等问题。

本发明具体的技术方案如下：

一种基于聚类的声纹数据自动采集方法，包括以下步骤：

S1：收集数据，首先通过收集大量的含有声音的原始音频数据，构建原始音频数据库，音频数据包括电影、电视、电台、录音等；

S2：音频解码，通过音频解码模块将S1数据库中的每一条音频数据进行解码，确保音频数据符合后续的程序检测条件；

S3：语音活性检测，通过语音活性检测模块对音频数据进行分割；

S4：音频质量检测，通过音频质量检测模块对每一条音频数据进行处理，筛选出质量完好的音频数据，以确保后续的声纹识别正确度更高，保留下来的音频数据按照来源进行分类存储；

S5：提取声纹特征，通过声纹识别模块提取S4中音频数据的声纹特征；

S6：声纹聚类，根据数据来源及标签情况处理S5中的声纹特征；

S7：处理缓存数据，对S6中处理后的数据进行声纹聚类，以进一步筛选有效音频数据到声纹数据库中，其中声纹数据库可以是实体硬盘，也可以存储云盘，根据实际使用，可进行灵活调整。

作为本发明的进一步方案，步骤S2中，音频解码模块将数据处理至16k采样、16bit、单通道wav格式数据。

作为本发明的进一步方案，步骤S3中，语音活性检测模块将S2中的解码音频数据进行切分，且切分后单条音频最长时长不超过60秒。

作为本发明的进一步方案，语音活性检测模块将音频数据中的音频帧分为语音和非语音两个类别。

作为本发明的进一步方案，步骤S4中，音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除，其中能量E计算公式为：

作为本发明的进一步方案，步骤S6中，音频数据标签分为有标签和无标签。

作为本发明的进一步方案，步骤S6中，有标签的音频数据，将其标签作为聚档I D，通过声纹聚类模块找到该I D的音频数据后存入声纹数据库。

作为本发明的进一步方案，步骤S6中，无标签的音频数据，从已有的声纹数据库中获取聚档I D，并进行全量特征检索，根据检索到的结果进行相似度阀值过滤、匹配，若满足条件(即相似度大于0.5)，将检索到的特征对应的聚档I D赋给待聚档的特征；若不满足条件，分配新的聚档I D，并且将待聚档特征及其聚档I D，更新至缓存数据库。

作为本发明的进一步方案，所述音频数据全量特征检索前，根据从已有的声纹数据库中获取的聚档I D，计算每一个I D的特征向量

其中

为该I D下所有特征的均值，计算公式如下：

计算得到每个I D的特征向量，更新至缓存数据库中，即每个I D仅一条特征，以此作为基础底库进行声纹检索。

作为本发明的进一步方案，步骤S7中，对S6中处理的且含有聚档I D的数据进行声纹聚类，进一步筛选后将音频数据存入声纹数据库中。

与现有技术相比，本发明具有如下有益效果：

1、本发明通过提出了一整套完备的声纹数据自动采集方案，可以从海量数据中筛选声纹数据，并融合了语音活性检测、声纹识别、声纹聚类算法等关键技术解决了无标签数据声纹样本采集的问题，与其他可能存在的声纹数据自动采集方案不同，本发明的处理对象可为音视频，数据来源广较易形成一定规模。

附图说明

图1是本发明方法步骤流程图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

本实施例中，如图1所示，一种基于聚类的声纹数据自动采集方法，通过使用语音活性检测、声纹识别、声纹聚类算法等关键技术，结合音频质量检测等工具进行质量把控，与其他声纹数据采集的方式不同，本发明的处理对象可为音视频数据，包含常见的电影、电视、短视频、电台、语音其他开源数据集等文件，如数据带有说话人标签可快速处理，没有标签也可进行处理，适用范围更加广泛，并且本发明人力资源需求较少，数据采集效率高，能够进行可持续收集，具体主要包括以下步骤：

第一步：收集数据

首先通过收集大量的含有声音的原始音频数据，数据包括电影、电视、电台、录音等含有人声的数据，构建原始音频数据库；本发明以100个采访视频，及100个会议记录视频为例，每一条视频时长在5mi n左右，其中100个采访视频含有标签，100个会议记录视频没有标签。

第二步：音频解码

通过音频解码模块对第一步中的200个音频数据进行解码，进而获得总计200条，每条16k采样、16bit、单通道的wav格式数据，其中音频解码模块为市场上常规的音频解码软件。

第三步：语音活性检测

通过语音活性检测模块对第二步中解码的200个音频数据进行分割，分割后单条音频最长时长不超过60秒，本发明以分割后的每条音频30秒左右为例，200个音频数据共可获得2000条分割后的音频数据；

其中语音活性检测模块通过计算短时能量和短时过零率来判断静音段，通过语音活性检测模块对音频数据分割后，使得每段音频中只有一个说话人，其中每段的音频时长不宜过长，不建议超过60秒，因为若片段太长，可能包含说话人转换点，在后续的声纹检测中在转换点处的预测结果容易出现错位；其中也不建议片段过短，不建议时长低于1秒，因为若时长较短，会导致说话人声纹信息不足，导致识别准确率下降。

第四步：音频质量检测

通过音频质量检测模块对每一条音频数据进行处理，筛选出质量完好的音频数据，以确保后续的声纹识别正确度更高，保留下来的音频数据按照来源进行分类存储；

通过音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除，其中能量E计算公式为：

其中X为音频采样值，N为音频采样点数，本发明以能量E以30作为标准，通过上述公式计算音频数据的能量值E后，将能量E低于30的音频判定为能量较低，进而直接舍弃。

进一步的，音频质量检测模块对音频的信噪比SNR计算，进而对音频数据进行进一步筛选，，信噪比SNR计算公式为：SNR＝10log(Ps/Pn)；

其中Ps为信号有效功率，Pn为噪音有效功率，本发明以SNR以20作为标准，通过上述公式计算音频数据的SNR后，将SNR低于20的音频判定为质量较低，进而直接将这部分的音频数据进行舍弃；

经过音频质量检测模块检测完成后，筛选下来的有标签和无标签数据，假设筛选后的数据各存有900条，按照数据的来源以及标签进行分类存储。

第五步：提取声纹特征

针对第四步中筛选出的数据，通过声纹识别模块提取音频中的声纹特征，此处以传统的x-vector为例，其主体网络TDNN结构如下表，训练l oss选用AAM-softmax，利用声纹公开数据集，即可训练满足基本要求的声纹识别模型，其中提取的特征为X＝[x1,x2,...,xn]，其中本发明中的n取256，256为声纹特征向量的维度，常见的维度有192，256，512等，一般与数据库配套；

第六步：声纹聚类

根据音频数据的来源以及标签情况，分类处理第五步中获取的声纹特征，其中根据标签情况，分为有标签好无标签两种处理情况，具体如下：

6.1、有标签数据，此处为900条采访视频数据，在此含标签的数据中，声纹聚类算法以KNN(k-近邻算法)分类算法为基础，通过聚类获取其主要分类的音频段，即作为该明星的声纹数据，聚档I D在数据库中以I D00001为例，在数据库中更新其音频文件，并且表单中的两条音频均为star_1.wav音频切分而来。数据库表单如下：

6.2、无标签数据，此处为会议记录音频，在此不含标签的数据中，首先从声纹数据库中获取已有的聚档I D，并计算每个I D的特征向量

其中

为该I D下所有特征的均值，计算公式如下：

通过计算得到每个ID的特征向量，更新至缓存数据库中，即每个ID仅一条特征，以此作为基础底库进行声纹检索，即900条会议记录音频的特征分别与每个I D的特征向量计算余弦相似度，当检索top1相似度与大于阈值(0.5)时，将检索到的特征对应的聚档ID赋给待聚档的特征，若库中已有ID均不大于阈值，则分配新的聚档I D；

本发明例假设有两条数据meet i ng_1_001和meet i ng_2_001，其中meet i ng_1_001中说话人I D假设为I D00002且在声纹库中，meet i ng_2_001中说话人I D假设为ID01000不在已有声纹库中，meet i ng_1_001与已有聚档I D计算特征相似度结果为[0.32,0.78,…,0.21],其top1相似度为0.78对应库中说话人I D00002，在缓存数据库中将meet ing_1_001存至I D00002下。

meet i ng_2_001与已有聚档ID计算特征相似度结果为[0.12,0.38,…,0.39],其top1相似度为0.39,未超过设定阈值，在缓存数据库中添加新的聚档I D01000，并将meet ing_2_001存至ID01000下其声纹特征作为该ID的特征向量。缓存数据库表单如下：

需要说明的是：缓存数据库为一个临时的数据存储硬盘或存储云盘，一般音频数据在缓存数据库中的缓存时间为7-15天。

第七步：处理缓存数据

针对第六步处理完成的音频数据，对缓存数据库中还没有处理的音频数据进行进一步处理，对缓存数据库中已有I D进行步骤6.1中的有标签声纹聚类，进一步筛选有效数据后存入声纹数据库。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。

Claims

1.一种基于聚类的声纹数据自动采集方法，其特征在于，包括以下步骤：

S1：收集数据，首先通过收集大量的含有声音的原始音频数据，构建原始音频数据库；

S7：处理缓存数据，对S6中处理后的数据进行声纹聚类，以进一步筛选有效音频数据到声纹数据库中。

2.如权利要求1所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S2中，音频解码模块将数据处理至16k采样、16bit、单通道wav格式数据。

3.如权利要求1所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S3中，语音活性检测模块将S2中的解码音频数据进行切分，且切分后单条音频最长时长不超过60秒。

4.如权利要求3所述基于聚类的声纹数据自动采集方法，其特征在于：语音活性检测模块将音频数据中的音频帧分为语音和非语音两个类别。

5.如权利要求1所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S4中，音频质量检测模块将音频时长小于1秒、音频能量E过低、信噪比过低等音频数据去除，其中能量E计算公式为：

6.如权利要求1所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S6中，音频数据标签分为有标签和无标签。

7.如权利要求6所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S6中，有标签的音频数据，将其标签作为聚档ID，通过声纹聚类模块找到该ID的音频数据后存入声纹数据库。

8.如权利要求6所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S6中，无标签的音频数据，从已有的声纹数据库中获取聚档ID，并进行全量特征检索，根据检索到的结果进行相似度阀值过滤、匹配。

9.如权利要求6所述基于聚类的声纹数据自动采集方法，其特征在于：所述全量特征检索前，根据从已有的声纹数据库中获取的聚档ID，计算每一个ID的特征向量X，其中X为该ID下所有特征的均值，计算公式如下：

计算得到每个ID的特征向量，更新至缓存数据库中，即每个ID仅一条特征，以此作为基础底库进行声纹检索。

10.如权利要求8所述基于聚类的声纹数据自动采集方法，其特征在于：步骤S7中，对S6中处理的且含有聚档ID的数据进行声纹聚类，进一步筛选后将音频数据存入声纹数据库中。