CN111063360B

CN111063360B - 一种声纹库的生成方法和装置

Info

Publication number: CN111063360B
Application number: CN202010071212.4A
Authority: CN
Inventors: 张晴晴; 杨金富; 罗磊; 刘天宇; 鲁旻; 马光谦; 汪洋
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2022-08-19
Anticipated expiration: 2040-01-21
Also published as: CN111063360A

Abstract

本发明公开一种声纹库的生成方法和装置，该方法包括以下步骤：获取目标说话人的音频数据库，从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；提取所述标准音频段的第一声纹特征；提取所述音频数据库中的候选音频段的第二声纹特征；计算所述第一声纹特征与所述第二声纹特征之间的相似度；计算所述候选音频段的离散系数；根据所述相似度和所述离散系数，计算所述候选音频段的置信度；在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。本发明依靠机器学习的方法自动生成声纹库，能够减少人为失误，提高数据精度，并降低成本。

Description

一种声纹库的生成方法和装置

技术领域

本发明涉及音频技术领域，特别涉及一种声纹库的生成方法和装置。

背景技术

声纹识别，又称说话人识别，是一种从语音信号中提取说话人相关特征，并对该特征进行分析以判断说话人身份的技术。声纹识别广泛应用于安全监控、智能设备唤醒与交互等领域，并从传统的GMM-UBM模型发展到近年来的ivector特征以及最新的深度学习方法，取得了大幅进步。

然而，在真实、自然的环境下，声纹识别依然面临巨大的挑战，原因在于：背景中的噪音、音乐和其他人声的叠加，以及录音设备和信道等因素，影响到音频信号的质量；且说话人的声音特性受到情绪、年龄、身体状况等因素的影响而有所差异。最新的深度学习技术可在大数据量的条件下发挥巨大优势，但如何获取大量的、覆盖上述问题的数据一直是亟待解决的问题。

发明内容

本发明提供了一种声纹库的生成方法和装置，以解决现有技术无法大量获取声纹数据的缺陷。

本发明提供了一种声纹库的生成方法，包括以下步骤：

获取目标说话人的音频数据库，从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；

提取所述标准音频段的第一声纹特征；

提取所述音频数据库中的候选音频段的第二声纹特征；

计算所述第一声纹特征与所述第二声纹特征之间的相似度；

计算所述候选音频段的离散系数；

根据所述相似度和所述离散系数，计算所述候选音频段的置信度；

在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。

可选地，所述提取所述音频数据库中的候选音频段的第二声纹特征之前，还包括：

对所述音频数据库中除所述标准音频段之外的其他音频进行分割，得到多个候选音频段。

可选地，所述获取目标说话人的音频数据库，具体包括：

使用预设信息和所述目标说话人的人名作为搜索条件，爬取网络视频；

从所述网络视频中提取所述目标说话人的音频数据库。

可选地，所述预设信息为“访谈”和/或“采访”字样。

可选地，所述计算所述候选音频段的离散系数，包括：

使用预设时长以及预设移动步长的时间窗，将所述候选音频段分割成多个音频片段；

提取每个所述音频片段的声纹特征，根据多个所述音频片段的声纹特征，计算所述候选音频段的离散系数。

本发明还提供了一种声纹库的生成装置，包括：

获取模块，用于获取目标说话人的音频数据库；

标注模块，用于从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；

第一提取模块，用于提取所述标准音频段的第一声纹特征；

第二提取模块，用于提取所述音频数据库中的候选音频段的第二声纹特征；

第一计算模块，用于计算所述第一声纹特征与所述第二声纹特征之间的相似度；

第二计算模块，用于计算所述候选音频段的离散系数；

第三计算模块，用于根据所述相似度和所述离散系数，计算所述候选音频段的置信度；

保存模块，用于在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。

可选地，所述的装置，还包括：

分割模块，用于对所述音频数据库中除所述标准音频段之外的其他音频进行分割，得到多个候选音频段。

可选地，所述获取模块，具体用于使用预设信息和所述目标说话人的人名作为搜索条件，爬取网络视频；从所述网络视频中提取所述目标说话人的音频数据库。

可选地，所述预设信息为“访谈”和/或“采访”字样。

可选地，所述第二计算模块，具体用于使用预设时长以及预设移动步长的时间窗，将所述候选音频段分割成多个音频片段；提取每个所述音频片段的声纹特征，根据多个所述音频片段的声纹特征，计算所述候选音频段的离散系数。

本发明根据声纹特征之间的相似度以及候选音频段的离散系数，将符合条件的候选音频段保存到声纹库，从而实现依靠机器学习的方法自动生成声纹库，能够减少人为失误，提高数据精度，并降低成本。

附图说明

图1为本发明实施例中的一种声纹库的生成方法流程图；

图2为本发明实施例中的另一种声纹库的生成方法流程图；

图3为本发明实施例中的一种“精度-召回曲线”的示意图；

图4为本发明实施例中的一种声纹库的生成装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种声纹库的生成方法，如图1所示，包括以下步骤：：

步骤101，获取目标说话人的音频数据库，从音频数据库中标注出一个或多个标准音频段，将标准音频段保存到声纹库。

具体地，可以使用预设信息和目标说话人的人名作为搜索条件，爬取网络视频，并从网络视频中提取目标说话人的音频数据库。

步骤102，提取标准音频段的第一声纹特征。

步骤103，提取音频数据库中的候选音频段的第二声纹特征。

步骤104，计算第一声纹特征与第二声纹特征之间的相似度。

步骤105，计算候选音频段的离散系数。

具体地，可以使用预设时长以及预设移动步长的时间窗，将候选音频段分割成多个音频片段；提取每个音频片段的声纹特征，根据多个音频片段的声纹特征，计算候选音频段的离散系数。

步骤106，根据相似度和离散系数，计算候选音频段的置信度。

步骤107，在置信度大于或等于预设阈值的情况下，将候选音频段保存到声纹库。

本发明实施例根据声纹特征之间的相似度以及候选音频段的离散系数，将符合条件的候选音频段保存到声纹库，从而实现依靠机器学习的方法自动生成声纹库，能够减少人为失误，提高数据精度，并降低成本。

本发明实施例提供了另一种声纹库的生成方法，如图2所示，包括以下步骤：

步骤201，使用预设信息和目标说话人的人名作为搜索条件，爬取网络视频。

其中，预设信息为“访谈”和/或“采访”字样。由于与目标说话人相关的新闻报道往往不包含与目标说话人相关的视频数据，通过将“访谈”和/或“采访”字样作为搜索条件，能够避免爬取到新闻报道等视频。

本实施例中，在爬取网络视频之前，需要准备目标说话人列表。由于需要保证针对每个说话人爬取到足够多的网络视频，因此，可以选取公众人物作为目标说话人。例如，目标说话人列表中包括中、日、韩各界名人，共5000人。相应地，在准备目标说话人列表后，根据各个目标说话人的人名以及“访谈”和/或“采访”字样，爬取网络视频。

步骤202，从网络视频中提取目标说话人的音频数据库。

具体地，可以从每个目标说话人的网络视频中提取足够长的音频数据，作为各个目标说话人的音频数据库，从而实现按照人名分类存放音频数据。

步骤203，从音频数据库中标注出一个或多个标准音频段，将标准音频段保存到声纹库。

具体地，可以对音频数据库中的音频数据进行语音端点检测，得到有效语音段，并以该音频数据库对应的网络视频的画面作为辅助，从有效语音段中人工标注出一个或多个标准音频段。

其中，标准音频段可以是时长为30秒的干净音频，即，在标准音频段中只有目标说话人的声音，且噪音等环境条件在合理范围内。由于人工标注有视频画面作为辅助，能够确保标注的正确性。

步骤204，提取标准音频段的第一声纹特征。

具体地，可以将标准音频段输入到说话人分类模型中，将该模型的倒数第二层的输出作为标准音频段的第一声纹特征，即，目标说话人的身份标识。其中，说话人分类模型是一个训练好的深度神经网络，第一声纹特征为x-vector特征。

需要说明的是，本实施例以x-vector特征作为声纹特征为例进行说明，在本发明的其他实施例中，还可以将i-vector特征或d-vector特征作为声纹特征。

步骤205，对音频数据库中除标准音频段之外的其他音频进行分割，得到多个候选音频段。

具体地，可以对音频数据库中除标准音频段之外的其他音频进行语音活动检测，即过滤掉噪音和音乐，并将人声切割成小片段，仅保留3秒-15秒的片段，从而得到多个候选音频段。由于候选音频段中通常会包含其他人的声音，或目标说话人与其他人的声音叠加，因此需进一步筛选。

需要说明的是，在分割得到多个候选音频段后，可以针对每个候选音频段，执行以下步骤。

步骤206，提取候选音频段的第二声纹特征。

具体地，可以将候选音频段输入到说话人分类模型中，将该模型的倒数第二层的输出作为标准音频段的第二声纹特征。其中，说话人分类模型是一个训练好的深度神经网络，第二声纹特征为x-vector特征。

步骤207，计算第一声纹特征与第二声纹特征之间的相似度。

具体地，可以对第一声纹特征与第二声纹特征分别计算余弦相似度、概率线性判别，以及计算皮尔森相关系数，将计算结果分别记为：s1、s2和s3。

步骤208，计算候选音频段的离散系数。

本实施例中，预设时长为1.5秒，预设移动步长为0.5秒，即，时间窗的窗长为1.5秒，窗移为0.5秒。通过计算多个音频片段的声纹特征的标准差与均值的比值，得到候选音频段的离散系数，即s0。

步骤209，根据相似度和离散系数，计算候选音频段的置信度。

具体地，可以结合上述得分(s0,s1,s2,s3)，通过逻辑回归得到置信度S，该置信度S用于衡量第一声纹特征与第二声纹特征之间的多维度相似度。

步骤210，判断候选音频段的置信度是否小于预设阈值，如果是，则执行步骤211；否则，执行步骤212。

本实施例中，为保证不需人工参与筛查候选音频段，以完全自动的方式提取出目标说话人的音频，故选取能够使得筛选精度达到100％的预设阈值t，即图3所示的“精度(precision)-召回(recall)曲线”中的示意点，使得错误接受概率为零。因此，采用本方案生成的声纹库的正确率可接近100％。

步骤211，丢弃候选音频段。

步骤212，将候选音频段保存到声纹库。

本发明实施例采用机器自动筛选为主、人工标注为辅的方法，从爬取到的网络视频中提取出目标说话人的音频数据，由于网络视频的来源广、种类多、时间跨度长，使得获取到的声纹库中的目标说话人的音频特性、情绪状态和表达方式都是丰富多样的，甚至能得到一个人在不同年龄的音频数据，从而覆盖丰富多样的声学条件，在声纹识别领域极具价值。此外，在获取大量的高质量音频数据的情况下，尽可能地依靠机器学习的方法自动获取、筛选出所需数据，并在机器大规模筛选中，通过综合置信度的评定以及高精度阈值的选取设定，能够减少人为失误，提高数据精度，并降低成本。

基于上述方法实施例，本发明实施例还提供了一种声纹库的生成装置，如图4所示，包括：

获取模块401，用于获取目标说话人的音频数据库；

具体地，获取模块401，具体用于使用预设信息和所述目标说话人的人名作为搜索条件，爬取网络视频；从所述网络视频中提取所述目标说话人的音频数据库。

其中，预设信息可以为“访谈”和/或“采访”字样。

标注模块402，用于从所述音频数据库中标注出一个或多个标准音频段，将所述标准音频段保存到声纹库；

第一提取模块403，用于提取所述标准音频段的第一声纹特征；

第二提取模块404，用于提取所述音频数据库中的候选音频段的第二声纹特征；

第一计算模块405，用于计算所述第一声纹特征与所述第二声纹特征之间的相似度；

第二计算模块406，用于计算所述候选音频段的离散系数；

具体地，第二计算模块406，具体用于使用预设时长以及预设移动步长的时间窗，将所述候选音频段分割成多个音频片段；提取每个所述音频片段的声纹特征，根据多个所述音频片段的声纹特征，计算所述候选音频段的离散系数。

第三计算模块407，用于根据所述相似度和所述离散系数，计算所述候选音频段的置信度；

保存模块408，用于在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库。

进一步的，上述装置，还包括：

结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种声纹库的生成方法，其特征在于，包括以下步骤：

提取所述标准音频段的第一声纹特征；

提取所述音频数据库中的候选音频段的第二声纹特征；

计算所述第一声纹特征与所述第二声纹特征之间的相似度；

计算所述候选音频段的离散系数；

在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库；

所述计算所述第一声纹特征与所述第二声纹特征之间的相似度，包括：

对所述第一声纹特征与所述第二声纹特征分别计算余弦相似度、概率线性判别，以及计算皮尔森相关系数；

所述根据所述相似度和所述离散系数，计算所述候选音频段的置信度，包括：

结合所述余弦相似度、所述概率线性判别、所述皮尔森相关系数，以及所述离散系数，通过逻辑回归得到所述候选音频段的置信度，所述置信度用于衡量所述第一声纹特征与所述第二声纹特征之间的多维度相似度。

2.如权利要求1所述的方法，其特征在于，所述提取所述音频数据库中的候选音频段的第二声纹特征之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述获取目标说话人的音频数据库，具体包括：

从所述网络视频中提取所述目标说话人的音频数据库。

4.如权利要求3所述的方法，其特征在于，所述预设信息为“访谈”和/或“采访”字样。

5.如权利要求1所述的方法，其特征在于，所述计算所述候选音频段的离散系数，包括：

6.一种声纹库的生成装置，其特征在于，包括：

获取模块，用于获取目标说话人的音频数据库；

第一提取模块，用于提取所述标准音频段的第一声纹特征；

第二计算模块，用于计算所述候选音频段的离散系数；

保存模块，用于在所述置信度大于或等于预设阈值的情况下，将所述候选音频段保存到所述声纹库；

所述第一计算模块，具体用于对所述第一声纹特征与所述第二声纹特征分别计算余弦相似度、概率线性判别，以及计算皮尔森相关系数；

所述第三计算模块，具体用于结合所述余弦相似度、所述概率线性判别、所述皮尔森相关系数，以及所述离散系数，通过逻辑回归得到所述候选音频段的置信度，所述置信度用于衡量所述第一声纹特征与所述第二声纹特征之间的多维度相似度。

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求6所述的装置，其特征在于，

所述获取模块，具体用于使用预设信息和所述目标说话人的人名作为搜索条件，爬取网络视频；从所述网络视频中提取所述目标说话人的音频数据库。

9.如权利要求8所述的装置，其特征在于，所述预设信息为“访谈”和/或“采访”字样。

10.如权利要求6所述的装置，其特征在于，

所述第二计算模块，具体用于使用预设时长以及预设移动步长的时间窗，将所述候选音频段分割成多个音频片段；提取每个所述音频片段的声纹特征，根据多个所述音频片段的声纹特征，计算所述候选音频段的离散系数。