CN111414511B

CN111414511B - 自动声纹建模入库方法、装置以及设备

Info

Publication number: CN111414511B
Application number: CN202010219084.3A
Authority: CN
Inventors: 方磊; 宣璇; 夏翔; 方昕
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-08-22
Anticipated expiration: 2040-03-25
Also published as: CN111414511A

Abstract

本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于，面向说话人声纹建模的需求，提供出一套针对海量语料的数据切割思路，从而实现海量语料的主题化、层次化，进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路，基于多维信息对海量数据进行初始的过滤、区分，然后采用多阶段叠加的共识聚类思想，对精简后的语料数据进行阶段性递进的归类提纯操作，最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注，且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

Description

自动声纹建模入库方法、装置以及设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种自动声纹建模入库方法、装置以及设备。

背景技术

通过已知的目标语料数据进行声纹建模是说话人识别技术中非常重要的一个环节。通常来说，需要根据目标说话人的语料以及声纹识别算法进行该目标说话人的声纹建模，并将该目标说话人的声纹信息存入声纹库中，该过程即是声纹建模入库。其中，用于声纹建模的语料其数量与质量对于后续识别性能影响较大，提供足够数量与合格质量的建模语料显得尤为重要。

因此，在声纹建模入库过程中需要预先准备说话人的干净语料。然而，相对于语种识别、连续语音识别等识别方向，在语料中标注说话人(即归类语料)则更为困难。目前，即便在了解说话人及背景相关知识等语料信息的情况下，进行较少量语料标注时仍会存在一定的错误率，更何况当面对不熟悉说话人、未知背景、无场景限定的大语料海量数据集(本发明将此简称为无主题大语料库)时，要归类出不同的说话人并实现相应的声纹建模入库操作，其难度可想而知，这也是推广、应用说话人识别技术的关键障碍之一。

发明内容

鉴于上述，本发明旨在提供一种自动声纹建模入库方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，通过这些方面能够针对无主题大语料库，有效且可靠地获取高纯度语料并实现相应的声纹建模入库操作。

本发明采用的技术方案如下：

第一方面，本发明提供了一种自动声纹建模入库方法，包括：

基于多维信息对无主题大语料库的数据进行初始精简，得到待处理语料；

将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对，确定非现有的待处理语料；

对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料；

利用所述目标语料进行声纹建模并补入声纹库。

在其中一种可能的实现方式中，所述基于多维信息对无主题大语料库的数据进行初始精简包括：

按预设的有效时长从无主题大语料库中排除无效语料；

将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。

在其中一种可能的实现方式中，所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括：

基于谱聚类策略，对所述非现有的待处理语料进行第一阶段聚类；

基于预设的提纯策略，对第一阶段聚类结果进行第二阶段聚类。

在其中一种可能的实现方式中，所述第一阶段聚类包括：

表征所述非现有的待处理语料的声纹信息向量；

根据两两声纹信息向量之间的余弦距离，构建对称的相似度矩阵；

利用语料数据的分布特性，对所述相似度矩阵进行裁剪，得到稀疏的邻接矩阵；

基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。

在其中一种可能的实现方式中，所述提纯策略包括自底向上的凝聚型层次聚类。

在其中一种可能的实现方式中，所述方法还包括：

经声纹比对后，利用与现有声纹相似的所述待处理语料，优化现有的声纹建模。

第二方面，本发明提供了一种自动声纹建模入库装置，包括：

语料精简模块，用于基于多维信息对无主题大语料库的数据进行初始精简，得到待处理语料；

比对筛选模块，用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对，确定非现有的待处理语料；

共识聚类模块，用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料；

建模入库模块，用于利用所述目标语料进行声纹建模并补入声纹库。

在其中一种可能的实现方式中，所述语料精简模块包括：

无效语料排除单元，用于按预设的有效时长从无主题大语料库中排除无效语料；

有效语料初分单元，用于将无主题大语料库中剩余的语料按语种和/或性别进行初始分类。

在其中一种可能的实现方式中，所述共识聚类模块包括：

第一阶段聚类单元，用于基于谱聚类策略，对所述非现有的待处理语料进行第一阶段聚类；

第二阶段聚类单元，用于基于预设的提纯策略，对第一阶段聚类结果进行第二阶段聚类。

在其中一种可能的实现方式中，所述第一阶段聚类单元包括：

声纹表达组件，用于表征所述非现有的待处理语料的声纹信息向量；

相似度矩阵构建组件，用于根据两两声纹信息向量之间的余弦距离，构建对称的相似度矩阵；

邻接矩阵构建组件，用于利用语料数据的分布特性，对所述相似度矩阵进行裁剪，得到稀疏的邻接矩阵；

聚类操作组件，用于基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。

在其中一种可能的实现方式中，所述第二阶段聚类单元包括提纯组件；

所述提纯组件具体用于利用自底向上的凝聚型层次聚类策略，对第一阶段聚类结果进行第二阶段聚类。

在其中一种可能的实现方式中，所述装置还包括：

现有声纹模型更新模块，用于利用所述比对筛选模块处理后得到的与现有声纹相似的所述待处理语料，优化现有的声纹建模。

第三方面，本发明提供了一种自动声纹建模入库设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的一种可能的设计中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于，面向说话人声纹建模的需求，提供出一套针对海量语料的数据切割思路，从而实现海量语料的主题化、层次化，进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路，基于多维信息对海量数据进行初始的过滤、区分，然后采用多阶段叠加的共识聚类思想，对精简后的语料数据进行阶段性递进的归类提纯操作，最终获得可用来进行声纹建模的类簇化、层次化、主题化的语料。本发明无需投入大量人工成本进行标注，且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率迭代下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的自动声纹建模入库方法的实施例的流程图；

图2为本发明提供的谱聚类算法局部环节的实施例的流程图

图3为本发明提供的自动声纹建模入库装置的实施例的方框图；

图4为本发明提供的自动声纹建模入库设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明技术方案进行说明之前，首先对目前本领域常见的语料处理方式进行介绍。当前说话人声纹建模语料处理，主要依靠(1)人工辨识手动收集、标注，以及(2)在已有主题信息的条件下通过无源盲聚类的方式得到建模所需要的语料。

(1)人工标标注方式：其核心是基于标注人员对于目标说话人的熟悉程度，由人工根据说话内容、音色差异对语料进行辨识归类、提纯。此方式针对较为熟悉的目标说话人而言，所收集来的用于声纹建模的语料纯度相对较高。但是对于并不熟悉的语音，人工的辨识能力和准确度会迅速下降，尤其再加上对信息内容、背景知识等并不掌握的海量语料数据的辩识，人工方式几乎难以完成建模语料的收集工作，更无法实现基于可靠语料的声纹建模入库任务。同时，由于人工标注专业性和处理经验有相当高的要求，所以面对海量语料时，难以提供匹配的充足人力投入到语料数据处理工作，因而也进一步阻碍了说话人识别的推广应用。

(2)自动声纹无源盲聚类技术：此方式适用于同一主题信息的且小数据量语料的收集处理，例如对同一手机号码下(或ID信息等)相关联的通话数据进行自动声纹聚类，其前提是该手机号码与目标说话人是一一对应关系，才能对该号码与不同人通话的有限数据进行自动聚类，聚类成簇后将多个类别簇中语音数据最多的一类确定为目标说话人语料。具体地，假设说话人S与主题绑定，有N个通话，主题描述的是S与N个人的通联语音数据，无源盲聚类的过程如下：首先，对该主题下的所有关联的2N条语音(其中N条可以是说话人S的声音数据，剩下的N条则为其他人的声音数据)进行声纹建模，得到2N个声纹模型。然后，进行两两声纹对撞获取到所有数据的声纹相似度。最后，依据设定的相似度阈值进行数据合并，得到合并后的数据类，那么聚类后数据最多的类簇即为说话人S的语料。

但该方式在处理海量语料时，无法满足需求，分析其原因至少有二：

其一、这种盲聚类方式强烈依赖主题信息并限于小语料场景。当面对无主题的海量数据时，因为存在音色相似性、噪声、信道、时长等诸多干扰因素，严重影响聚类后的数据纯度，进而导致聚类后的语料几乎无法应用。例如主题缺失或者主题的映射关系异常(如本人的手机借给他人使用)，若直接对海量数据进行无源盲聚类，其处理后的语料纯度完全无法达到建模要求。

其二、无源盲聚类技术其核心在于声纹相似度的准确性与鲁棒性。经发现，当面对海量数据声纹相似比对场景时，声纹对撞后存在大约15％的错误率，即使在宁缺毋滥的原则下，尝试不断提升相似度的阈值，也依然会存在5％的错误率，那么随着持续的声纹模型更新，这5％的错误会往下传递，导致建模的语料纯度越来越低，以至于完全不可用。本发明经测试、分析认为，导致相似度计算错误率存在的客观因素至少包括：A、语料数据中无法避免不同说话人的音色相似，再加上噪声等因素的干扰，引起准确性急速下降。B、信道干扰，由于声纹属于弱信息，与信道信息卷积在一起，即便通过信道补偿方式能够起到一定作用，但改善效果有限，无法根除信道的干扰。C、时长的干扰，基于统计学习的声纹比对技术，声纹信息依附于文本信息中，自由文本的短时长声纹比对，因为时长过短导致统计信息不足，比对性能不尽人意。

鉴于上述种种因素的客观存在，无法依靠现有的人工或自动方式从正面突破无主题海量语料的处理，据此，本发明提出针对上述的无主题背景信息的海量数据(这里是指诸如没有号码、ID等任何主题相关信息的大语料)，利用已有的多维度信息并采用共识聚类的思想，通过分阶段的聚类方式，将无主题的聚类场景转化成基于数据学习驱动的主题场景聚类(实现主题化分割的本质就是将数据分成多个小类别，这个小类别即可能是某个主题)，所以本案的目的就是要将无主题的大语料，通过层层筛选过滤、分块聚类，转化成具有主题的小语料数据，接着再进行聚类提纯以此获得高纯度的建模语料，从而能够有效解决在声纹建模入库过程中对大量无主题背景信息的说话人语料自动收集问题。

针对前述核心构思，本发明提供了至少一种自动声纹建模入库方法的实施例，如图1所示，可以包括如下步骤：

步骤S1、基于多维信息对无主题大语料库的数据进行初始精简，得到待处理语料。

在实际操作中，包含大量无主题信息的语料数据的应用领域涉及广泛，诸如卫星通信、网络上的未知ID语音、公共安全事务、军事侦察等等，因而各个领域随着采集到的数据量持续增长，均可实时地持续地构建及更新各自的无主题大语料库，对此本发明不作限定。本步骤的设计初衷是基于无主题大语料库的随机性，即其中包含着各种维度的庞大规模的语料数据，因此可以结合多角度已知的、已掌握的信息对无主题大语料库的数据规模进行压缩，其实质即是可以通过过滤、粗分等方式为后续声纹比对、语料聚类等操作提供精简后的处理对象，换言之，是为海量数据提供初始的缩减、规整措施。

这里所述多维信息，可以依据声纹建模任务的特定需求，选择但不限于以下多种信息，时长、性别、语种等，这些信息属于便于掌握的已知信息，并且获取和使用这些信息的方式也属于较为成熟的技术，此处不作赘述，但这里需先指出三点，其一、其中所述时长，通常是基于领域差异、海量语料的质量、处理目标对象等多种因素设定不同的时长标准，因为时长决定了语料所能提供的声纹信息的全面性、丰富性，也即是决定了声纹建模、识别等操作的准确度和可靠度，因而可依据需求定义有效时长阈值，意味着任一语料文件的有效部分的持续时间应当不小于该有效时长才能作为待后续处理的数据，而较短持续时间的语料数据或有效部分时间小于有效时长阈值的数据，则在本实施例中被视为无效数据(有效时长以下的语音较难获得稳定的声纹模型)。其二、其中所述语种，在本发明中并非唯一指向，其实质可以包括不同的语系信息、语言信息、方言信息等，仅是为了便于说明和表述，本实施例以“语种”指代。其三、在不同的实施方式中，对于多维信息的选取和组合方式可以有多种可行方案，具体由实际需求决定，例如但不限于先按预设的有效时长从无主题大语料库中排除无效语料，再将无主题大语料库中剩余的语料按语种和/或性别进行初始分类；或者也可以先进行语种和/或性别的初始区分，然后对某一语种和/或性别下的语料数据再进行基于有效时长的过滤。以前一方式的某一种多维信息的组合举例如下：

假设无主题大语料库D＝{x₁,x₂,x_i,...,x_n}，其中x_i为某个未知说话人的语音，先对无主题大语料库D中的所有语音文件分别计算有效时长，若有效时长小于20秒则可以直接丢弃(20秒为示意性举例，并非限定)，剩余数据量为n_d；接着将20秒及以上的语音再分成男声、女声两类，男声、女声的数据量分别n_dm,n_df。本领域技术人员可以理解的是，本步骤的目的是减小后续处理的数据规模，由此得到的有效时长的男声、女声粗分类语料，在后续处理时的操作原理实质是一致的。

步骤S2、将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对，确定非现有的待处理语料。

本步骤的设计初衷同样是针对无主题大语料库的随机性，因为海量的语料数据中难以避免存在之前经过声纹建模已然明确的说话人语料，因此在进行后续聚类处理前，从所述待处理语料中需要进一步明确哪些是已知说话人的语音数据，哪些是还需要进一步聚类分析的目标，因而可将前述步骤精简后的语料数据与声纹库中现有声纹模型先行进行比对，筛选出非现有的待处理语料以便进行后续处理。

具体来说，可以以当前主流的声纹识别算法，例如但不限于基于深度学习的x-vector等，对精简后的各语音文件进行声纹信息表征，然后分别与当前现有的声纹库中的声纹模型所表征的声纹数据进行相似度比对，经由预先依据实际需求设定的相似度阈值，区分出属于非现有的待处理语料以及接近或等同现有的待处理语料。

由上述可知，本步骤的主要作用是进一步缩减用于后续聚类的语料规模。而据此还可以引申出另一个作用，如前文提及的各领域的无主题大语料库可以是持续更新、扩增的，因而即便比对出接近或等同现有的语料数据，但当前时刻下的语料数据也极有可能包含现有已知说话人的新的语料，而说话人的发音特点又是极有可能随着时间推移发生变化，例如随着年龄增长说话人的声音会出现按一定规律的演变。在经过上述分析后，本发明在一些实施例中提供了另一思路下的声纹建模入库方式，即经过本步骤声纹比对后，利用与现有声纹模型所表征声纹信息相似的所述待处理语料，优化现有的声纹建模。具体可以是将接近或等同的声纹所对应的语料数据存入已有的目标说话人语料库，再由目标说话人语料库更新对应目标说话人的声纹识别模型，使得针对已知目标说话人的声纹识别可以结合当前补入的语料，以此更新声纹表示效果、适应说话人发声的动态变化。

步骤S3、对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料。

本步骤的设计初衷是有机结合多种聚类算法的各自优势，通过多阶段叠加的共识聚类方法，将原本无主题的语料聚类场景转化为主题相关的聚类场景，从而能够极大地提高聚类后的数据纯度，进而有利于声纹无监督建模技术的推广应用。

关于共识聚类的思想可以说明的是，共识聚类同样是从不同维度进行综合划分类别，比如基于某维度的聚类方式将A、B、C聚为一类，而基于另一种维度的聚类方式将A、C、D聚成一类，那么对此两种聚类方式而言，共识聚类的结果则是A、C为一类，以此可以保证聚类效果，但是本实施例与上述现有的共识聚类思想不同，一般而言共识别聚类中各聚类算法是同步执行的，相互之间相对独立，最终完成各自分类结果的汇总，但本发明则是提出分阶段叠加实现，也即是递进式地执行各聚类算法，后一种聚类的对象是在前一种聚类输出的基础之上，由此实现各种聚类算法输出结果的叠加效应。

从实现手段的可能性而言，本实施例可以不限定参与共识聚类的具体聚类算类型、数量以及叠加顺序，如前文精简步骤所述，本领域技术人员可以依据实际所需进行聚类算法的选取、组合和调整。但经由分析发现，本发明所要处理的语料数据是说话人的通话语音、对话语音等，并且基于领域和场景的约束，大语料库中的语料数据分布形态具有一定规律，即便大语料库中的数据是随机采集的，但实际上也会因说话人语音数据的特性呈现出一个个小类簇的类簇化状态，也就是说所述无主题大语料库的组成是服从高斯分布的。在此分析基础上，本发明在一些较佳的实施方式中采用了包含谱聚类的多阶段叠加共识聚类构思，正是因为分析出无主题大语料库所隐含的类簇化特性，进而发现基于切图理论的谱聚类算法更为适合本发明聚焦的技术任务上，因此在本发明提出的阶段性递进的共识聚类思路下，能够更佳地解决语料聚类问题，并可期待获得全局最优解。

当然，可以理解的是，包含谱聚类的多阶段叠加共识聚类方案在实际操作中同样不限于聚类算法的总数(即聚类阶段数)，但是从聚类效果和运算成本的平衡性考虑，可以优选设计双阶段共识聚类方式，例如在至少一种实施例中，本发明提供了如下方案供实施参考：

基于谱聚类策略，对前述经由声纹对比确定出的非现有的待处理语料进行第一阶段聚类，之后基于预设的提纯策略，对第一阶段聚类结果进行第二阶段聚类。

该优选方案的核心思路在于，第一阶段采用谱聚类，即通过切图的方法将非现有的待处理预料初步分出若干个小类，但因为无主题大语料库自身的特性，分出的各小类中也可能还包含有其他说话人的语音或者噪声等，因此再采用其他预设的聚类算法对若干个小类进行二次聚类，即执行进一步的提纯操作，由此过程便可以得到高纯度的说话人的建模语料，具体可以是基于同一类簇下基本为同一说话人的语音的前提假设，以最终提纯后的类别中所含语音数最多的一类作为目标说话人的建模语料。

对于上述方案，首先对于提纯策略而言，在实际操作中可以并不限定必须采用某种聚类算法，无论采取何种聚类提纯方式，其作用均是在第一阶段谱聚类后进行的，即目的是将谱聚类获得的若干个小类再凝聚、再精炼为没有掺杂干扰因素的高纯类别。因此，实施时有诸多算法可以适用，例如但不限于K均值等。经由测试与分析，本发明在某些较佳方案中采用了相对更为适合本发明任务需求的层次聚类算法，尤其需指出，所述层次聚类通常有两种框架，本发明为了实现二次提纯的收敛效果，针对性地选择了自底向上的凝聚型层次聚类框架作为所述提纯策略，而具体关于层次聚类的实现方式本身，则可以借鉴现已成熟的相关技术，此处不对此进行赘述。

而需要重点说明的是上述方案中提及的谱聚类方式，本发明不仅结合了对无主题大语料库蕨类任务进行分析后，将谱聚类引入了多阶段叠加的共识聚类思想，并且为了提升任务适配性以及对海量数据的运算效率，在一些更佳的实施方式中，本发明提出对基于高斯核的欧氏距离矩阵+阈值约束的现有谱聚类算法进行朝向本发明所需方向的优化改进。即，针对本发明聚类场景的特点在谱聚类算法中引入余弦距离作为相似度权重构建对称的相似度矩阵，并由此获得剔除无效权重的邻接矩阵，从而替代高斯核的欧式距离相似阵+阈值的谱聚类思路，具体可参考图2所示，前述第一阶段聚类可以包括如下步骤：

步骤S31、表征所述非现有的待处理语料的声纹信息向量；

步骤S32、根据两两声纹信息向量之间的余弦距离，构建对称的相似度矩阵；

步骤S33、利用语料数据的分布特性，对所述相似度矩阵进行裁剪，得到稀疏的邻接矩阵；

步骤S34、基于所述邻接矩阵将所述非现有的待处理语料划分为若干个类簇。

对此，可以结合前文提及的示例接续进行介绍，假设经由前问步骤S2获得非现有的有效男声待处理语料n_dmi，针对说话人相似度特性，首先可基于深度的x-vector建模，分别以512维的x-vector向量表示n_dmi个待处理语料的声纹特征，然后计算两两向量之间的余弦距离s_ij＝cos in(x_i,x_j)(x_i,x_j为两个x-vector向量)，由此便可以得到一个n_dmi*n_dmi维的对称矩阵S，每个元素s_ij则视为连接的权重值。相比欧氏距离，余弦距离具有明显的值域范围，并可形成对称结构，方便后续提出的邻接矩阵的稀疏化。

接着，可以对获取的相似度矩阵S进行连接裁剪，目的是剔除无效的连接。这里基于前文提及无主题大语料库的高斯分布特性，具体可以利用公式：

直接将相似度矩阵S中小于0的连接权重值置为0，并丢弃其中无效的连接，得到具有稀疏对称结构的邻接矩阵W，由此实现的说话人类聚效果则更为精准，与此同时也能够在整体上提升计算速度。

关于后续的步骤S34则可以利用现已成熟的聚类机制予以实现，例如基于上述邻接矩阵W逐个计算每一个语料数据x_i相对其他语料的连接权重，并经过数学转换后进行类簇划分。下文中将对此过程做示意性简要介绍。

1)利用公式：

计算度矩阵D。

D是一个对角阵，代表与xi有连接关系的权重之和。

2)计算出拉普拉斯矩阵L＝D-W，再对矩阵L进行特征分解，并对特征值进行升序排列，得到前k个特征值对应的特征向量(k可根据实际情况确定)，并将其组合成矩阵：

3)采用k-mean聚类方法，对V中的每一行的k维样本，共n_dmi个样本进行k-mean聚类，得到m个簇划分C＝(c₁,c₂,...,c_m)。m可以根据经验设置，它的物理意义是一共m个说话人，每个类簇代表一个说话人或者音色相近的一类说话人。

本领域技术人员可以理解的是，其一、上述对步骤S34的三个分布拆解仅是示意，此过程并非本发明侧重点，在实际操作中还可以采用其他方式基于前述相似度矩阵S、邻接矩阵W完成第一阶段的聚类。其二、上述分步3)中提及了K均值算法，但与前文对第二阶段的提纯操作进行介绍时提及的K均值算法并非等同，换言之如果分步3)采用了K均值算法，且第二阶段也是通过K均值算法进行二次提纯，其实质是指K均值在两个递进阶段均有参与，只是任务目标不同。

接着步骤S34的分布3)，如前文所述，再对m个类簇划分C采用层次聚类的提纯策略获得更为凝练的若干目标类别，也即是经由上述完整过程已将无主题大语料库中的海量数据处理为高纯度的若干类目标语料。

最后回到图1示例，执行步骤S4、利用所述目标语料进行声纹建模并补入声纹库。此过程本身可借鉴现有成熟方案的处理方式，此处不作赘述。

综上所述，本发明的构思在于，面向说话人声纹建模的需求，提供出一套针对海量语料的数据切割思路，从而实现海量语料的主题化、层次化，进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路，基于多维信息对海量数据进行初始的过滤、区分，然后采用多阶段叠加的共识聚类思想，对精简后的语料数据进行阶段性递进的归类提纯操作，最终获得可用来进行声纹建模的类簇化、层次化、主题化的目标语料。本发明无需投入大量人工成本进行标注，且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率迭代下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

进一步地，在某些实施例中不仅借由上述方式有效补充了声纹库，而且还可以对现有声纹库进行针对已知说话人的声纹建模更新，因而本发明使得最终获得声纹库相较之前，产生明显的声纹数据改善效果。

相应于上述各实施例及优选方案，本发明还提供了一种自动声纹建模入库装置的实施例，如图3所示，具体可以包括如下部件：

语料精简模块1，用于基于多维信息对无主题大语料库的数据进行初始精简，得到待处理语料；

比对筛选模块2，用于将所述待处理语料的声纹信息与声纹库中现有声纹模型进行比对，确定非现有的待处理语料；

共识聚类模块3，用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料；

建模入库模块4，用于利用所述目标语料进行声纹建模并补入声纹库。

在其中一种可能的实现方式中，所述语料精简模块包括：

在其中一种可能的实现方式中，所述共识聚类模块包括：

在其中一种可能的实现方式中，所述装置还包括：

应理解以上图3所示的自动声纹建模入库装置的各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种自动声纹建模入库设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

图4为本发明自动声纹建模入库设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为PC、服务器、智能终端(手机、平板、手表、眼镜等)、智能电视、音响、音箱、机顶盒、遥控器、智慧屏、柜员机、机器人、无人机、ICV、智能(汽)车及车载设备等。本实施例对自动声纹建模入库设备的具体形式不作限定。

具体如图4所示，自动声纹建模入库设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得自动声纹建模入库设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述自动声纹建模入库设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图4所示的自动声纹建模入库设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图4所示的自动声纹建模入库设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的自动声纹建模入库方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种自动声纹建模入库方法，其特征在于，包括：

对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料，其中多阶段叠加的共识聚类处理是指阶段性递进的归类提纯操作，包括：在第一阶段谱聚类后，将获得的若干个小类再凝聚精炼为没有掺杂干扰因素的高纯类别；

利用所述目标语料进行声纹建模并补入声纹库。

2.根据权利要求1所述的自动声纹建模入库方法，其特征在于，所述基于多维信息对无主题大语料库的数据进行初始精简包括：

按预设的有效时长从无主题大语料库中排除无效语料；

3.根据权利要求1所述的自动声纹建模入库方法，其特征在于，所述对所述非现有的待处理语料进行多阶段叠加的共识聚类处理包括：

4.根据权利要求3所述的自动声纹建模入库方法，其特征在于，所述第一阶段聚类包括：

表征所述非现有的待处理语料的声纹信息向量；

5.根据权利要求3所述的自动声纹建模入库方法，其特征在于，所述提纯策略包括自底向上的凝聚型层次聚类。

6.根据权利要求1～5任一项所述的自动声纹建模入库方法，其特征在于，所述方法还包括：

7.一种自动声纹建模入库装置，其特征在于，包括：

共识聚类模块，用于对所述非现有的待处理语料进行多阶段叠加的共识聚类处理，得到若干目标语料，其中多阶段叠加的共识聚类处理是指阶段性递进的归类提纯操作，包括：在第一阶段谱聚类后，将获得的若干个小类再凝聚精炼为没有掺杂干扰因素的高纯类别；

8.根据权利要求7所述的自动声纹建模入库装置，其特征在于，所述语料精简模块包括：

9.根据权利要求7所述的自动声纹建模入库装置，其特征在于，所述共识聚类模块包括：

10.根据权利要求9所述的自动声纹建模入库装置，其特征在于，所述第一阶段聚类单元包括：

11.根据权利要求9所述的自动声纹建模入库装置，其特征在于，所述第二阶段聚类单元包括提纯组件；

12.根据权利要求7～11任一项所述的自动声纹建模入库装置，其特征在于，所述装置还包括：

13.一种自动声纹建模入库设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～6任一项所述的自动声纹建模入库方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1～6任一项所述的自动声纹建模入库方法。