CN110889009A

CN110889009A - 一种声纹聚类方法、装置、处理设备以及计算机存储介质

Info

Publication number: CN110889009A
Application number: CN201910991655.2A
Authority: CN
Inventors: 冯晨; 王健宗; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-03-17
Anticipated expiration: 2039-10-18
Also published as: CN110889009B; WO2021072893A1

Abstract

本申请涉及人工智能领域，提供了一种声纹聚类方法、装置、处理设备以及计算机存储介质，用于提高声纹聚类处理的处理效率。方法包括：处理设备获取初始声纹信息的i‑vector特征信息；处理设备通过余弦计算算法，计算i‑vector特征信息中不同向量之间的余弦距离；处理设备将i‑vector特征信息中余弦距离小于距离阈值的不同向量识别为相似向量；处理设备根据相似向量以及预设的分块数量，对i‑vector特征信息进行分块处理，得到多个i‑vector子特征信息；处理设备在分别对多个i‑vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，分别将每个i‑vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，再将两两合并之后的多个i‑vector子特征信息合并得到声纹聚类信息。

Description

一种声纹聚类方法、装置、处理设备以及计算机存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种声纹聚类方法、装置、处理设备以及计算机存储介质。

背景技术

在语音识别技术的应用中，涉及到了声纹识别。声纹，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征。

在具有多个说话人的语音识别场景中，则需要通过声纹聚类，将属于同一个人说话的语音片段不断进行合并归类，达到将这些语音片段分人整理的目的。

在现有的声纹聚类处理技术中，可采用凝聚型层次聚类处理，对声纹进行聚类，然而，现有的凝聚型层次聚类处理，耗费的聚类时长较长，不利于声纹聚类处理的应用。

发明内容

本申请提供了一种声纹聚类方法、装置、处理设备以及计算机存储介质，用于缩短声纹聚类的处理时长，提高声纹聚类处理的处理效率。

本申请在第一方面，提供了声纹聚类方法，方法包括：

处理设备获取初始声纹信息的i-vector特征信息，i-vector特征信息包括说话人信息以及信道信息；

处理设备通过余弦计算算法，计算i-vector特征信息中不同向量之间的余弦距离；

处理设备将i-vector特征信息中余弦距离小于距离阈值的不同向量识别为相似向量；

处理设备根据相似向量以及预设的分块数量，对i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

处理设备在分别对多个i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个i-vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，在将两两合并之后的多个i-vector子特征信息合并得到声纹聚类信息。

结合本申请第一方面，在本申请第一方面第一种可能的实现方式中，计算每个i-vector子特征信息中不同信息簇之间的簇间距离包括：

处理设备通过概率线性判别分析(Probabilistic Linear DiscriminantAnalysis，PLDA)模型对每个i-vector子特征信息进行信道补偿；

处理设备根据对数似然比计算公式，计算每个信道补偿后的i-vector子特征信息中不同信息簇之间的簇间距离，对数似然比计算公式为：

其中，S用于指示两个信息簇之间的相似度，η₁以及η₂分别用于指示不同的信息簇对应的i-vector特征向量，η₁以及η₂来自同一空间的假设为H_s，来自不同的空间的假设为H_d，ρ(η₁,η₂|H_s)用于指示η₁以及η₂来自同一空间的似然函数，ρ(η₁|H_d)以及ρ(η₂|H_d)分别用于指示η₁以及η₂来自不同空间的似然函数。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第二种可能的实现方式中，方法还包括：

若两个信息簇分别包括一个i-vector特征向量，则处理设备将两个i-vector特征向量之间的对数似然比作为两个信息簇之间的簇间距离；或者，

若两个信息簇中第一信息簇包括至少两个i-vector特征向量，则处理设备将第一信息簇中至少两个i-vector特征向量与第二信息簇中i-vector特征向量之间的对数似然比的均值作为两个信息簇之间的簇间距离。

结合本申请第一方面第一种可能的实现方式，在本申请第一方面第三种可能的实现方式中，方法还包括：

处理设备识别声纹聚类信息中聚类得到的每一个类别；

处理设备识别分别进入每一个类别的第一个信息簇；

处理设备根据对数似然比计算公式，对多个第一个信息簇进行相似度计算；

若存在相似度小于阈值的两个类别，则将两个类别的信息簇进行合并，完成声纹聚类信息的微调处理。

结合本申请第一方面，在本申请第一方面第四种可能的实现方式中，处理设备获取初始声纹信息的i-vector特征信息包括：

处理设备调取本次声纹聚类任务所指向的初始声纹信息；

处理设备从初始声纹信息中提取梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，MFCC)特征信息；

处理设备在混合高斯模型-通用背景模型(Gaussian Mixture Model-UniversalBackground Model，GMM-UBM)模型的基础上，对MFCC特征信息进行联合因子分析处理，提取得到i-vector特征信息。

结合本申请第一方面，在本申请第一方面第五种可能的实现方式中，处理设备根据相似向量以及预设的分块数量，对i-vector特征信息进行分块处理，得到多个i-vector子特征信息之前，方法还包括：

处理设备预设不同的分块数量；

处理设备基于不同的分块数量，分别对测试用初始测试声纹信息进行不同的无预设类别的凝聚层次聚类处理，得到不同的声纹聚类信息；

处理设备根据不同的声纹聚类信息的性能指标，将性能指标最高的声纹聚类信息对应的分块数量设为预设的分块数量。

结合本申请第一方面，在本申请第一方面第六种可能的实现方式中，预设的分块数量为3个。

本申请在第二方面，提供了声纹聚类装置，装置包括：

获取单元，用于获取初始声纹信息的i-vector特征信息，i-vector特征信息包括说话人信息以及信道信息；

计算单元，用于通过余弦计算算法，计算i-vector特征信息中不同向量之间的余弦距离；

识别单元，用于将i-vector特征信息中余弦距离小于距离阈值的不同向量识别为相似向量；

分块单元，用于根据相似向量以及预设的分块数量，对i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

合并单元，用于在分别对多个i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个i-vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，再将两两合并之后的多个i-vector子特征信息合并得到声纹聚类信息。

结合本申请第二方面，在本申请第二方面第一种可能的实现方式中，合并单元，具体用于：

通过PLDA模型对每个i-vector子特征信息进行信道补偿；

根据对数似然比计算公式，计算每个信道补偿后的i-vector子特征信息中不同信息簇之间的簇间距离，对数似然比计算公式为：

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第二种可能的实现方式中，合并单元，具体用于：

若两个信息簇分别包括一个i-vector特征向量，则将两个i-vector特征向量之间的对数似然比作为两个信息簇之间的簇间距离；或者，

若两个信息簇中第一信息簇包括至少两个i-vector特征向量，则将第一信息簇中至少两个i-vector特征向量与第二信息簇中i-vector特征向量之间的对数似然比的均值作为两个信息簇之间的簇间距离。

结合本申请第二方面第一种可能的实现方式，在本申请第二方面第三种可能的实现方式中，装置还包括微调单元，用于：

识别声纹聚类信息中聚类得到的每一个类别；

识别分别进入每一个类别的第一个信息簇；

根据对数似然比计算公式，对多个第一个信息簇进行相似度计算；

结合本申请第二方面，在本申请第二方面第四种可能的实现方式中，获取单元，具体用于：

调取本次声纹聚类任务所指向的初始声纹信息；

从初始声纹信息中提取MFCC特征信息；

在GMM-UBM模型的基础上，对MFCC特征信息进行联合因子分析处理，提取得到i-vector特征信息。

结合本申请第二方面，在本申请第二方面第五种可能的实现方式中，装置还包括预设单元，用于：

预设不同的分块数量；

基于不同的分块数量，分别对测试用初始测试声纹信息进行不同的无预设类别的凝聚层次聚类处理，得到不同的声纹聚类信息；

根据不同的声纹聚类信息的性能指标，将性能指标最高的声纹聚类信息对应的分块数量设为预设的分块数量。

结合本申请第二方面，在本申请第二方面第六种可能的实现方式中，预设的分块数量为3个。

本申请在第三方面，提供了处理设备，处理设备包括处理器以及存储器，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如本申请第一方面所述的方法。

本申请在第四方面，提供了计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如本申请第一方面所述的方法。

从上述可看出，本申请可实现如下的有益效果:

在声纹聚类处理的过程中，先计算i-vector特征信息中不同向量的余弦距离，并以此识别i-vector特征信息中的相似向量，从而，在进行本申请所提出的分块处理的处理过程中，可结合前面识别出的相似向量，分块得到多个的i-vector子特征信息，进而在最后的凝聚层聚类处理的过程中，先将每个i-vector子特征信息中的不同信息簇进行两两合并，如此不同块的i-vector特征信息的处理相互独立，避免了不同块的信息簇之间涉及的计算工作量，后再将不同块的i-vector子特征信息直接合并即可得到声纹聚类信息，从而缩短声纹聚类的处理时长，提高声纹聚类的处理效率。

附图说明

图1为本申请声纹聚类方法的一种流程示意图；

图2为本申请声纹聚类方法的又一种流程示意图；

图3为本申请声纹聚类方法的又一种流程示意图；

图4为本申请声纹聚类方法的又一种流程示意图；

图5为本申请声纹聚类方法的又一种流程示意图；

图6为本申请声纹聚类装置的一种结构示意图；

图7为本申请处理设备的一种结构示意图。

具体实施方式

首先，在介绍本申请提供的声纹聚类方法之前，先介绍下述内容涉及的处理设备。

在本申请中，处理设备可以为服务器设备、主机设备或者UE等具有数据处理能力的设备，处理设备可以为单个设备，或者也可以为设备句群，具体在此不做限定。处理设备在处理声纹聚类任务时，通过应用本申请提供的声纹聚类方法，从而可缩短声纹聚类的处理时长，提高声纹聚类处理的处理效率。

其中，UE具体可以为台式电脑、笔记本电脑、电脑一体机、平板电脑、智能手机等终端设备，UE具有人机交互能力，用户可通过在UE上的人机操作，触发声纹聚类任务，并使其应用本申请提供的声纹聚类方法。

下面，开始介绍本申请声纹聚类方法的具体内容。

参阅图1示出的本申请声纹聚类方法的一种流程示意图，在本申请中，声纹聚类方法具体可包括如下步骤：

步骤S101，处理设备获取初始声纹信息的i-vector特征信息；

其中，i-vector特征信息包括说话人信息以及信道信息。

可以理解，处理设备可通过用户侧的任务请求的触发，或者声纹信息的接收、更新等触发条件，触发声纹聚类任务。

该声纹聚类任务，可直接携带初始声纹信息的i-vector特征信息；或者，也可携带初始声纹信息的i-vector特征信息的标识，处理设备可通过该标识，去获取初始声纹信息的i-vector特征信息。

步骤S102，处理设备通过余弦计算算法，计算i-vector特征信息中不同向量之间的余弦距离；

在初始声纹信息的i-vector特征信息中，包括了多个的向量，在得到i-vector特征信息后，处理设备可通过预设的余弦距离计算公式，计算这些i-vector特征信息中不同向量之间的余弦距离。

在实际应用中，余弦距离计算公式，具体的，可以为：

a、b分别用于指示i-vector特征信息中两个不同的向量。

步骤S103，处理设备将i-vector特征信息中余弦距离小于距离阈值的不同向量识别为相似向量；

在通过上述步骤S102计算不同向量之间的余弦距离的同时，处理设备还可根据预设的距离阈值进行相似向量的判断，若两个向量之间的余弦距离小于距离阈值，则处理设备可将这两个向量判断为i-vector特征信息中的相似向量。

步骤S104，处理设备根据相似向量以及预设的分块数量，对i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

在结合上述步骤S102以及步骤S103，根据余弦距离将i-vector特征信息中的多个向量进行相似向量的判断处理后，处理设备即可结合预设的分块数量，将i-vector特征信息中识别得到的多对相似向量进行两两聚类，完成预设的分块数量的分块处理，得到与预设的分块数量等同数量的i-vector子特征信息。

步骤S105，处理设备在分别对多个i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个i-vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，在将两两合并之后的多个i-vector子特征信息合并得到声纹聚类信息。

在得到多个i-vector子特征信息后，处理设备即可通过簇间距离的计算，在不同块的i-vector子特征信息中，分别进行不同信息簇的两两合并，在这过程中，由于不同块的信息簇相互独立，因此无需计算不同块的信息簇之间的簇间距离及其与预设簇间距离之间的对比，这就可以大大减少聚类处理所需的计算资源，减少计算量，而后直接诶将不同块的i-vector子特征信息直接合并即可得到所需的声纹聚类信息，实现缩短声纹聚类时长，提高声纹聚类的处理效率。

从以上内容可看出，本申请提供的声纹聚类方法，在声纹聚类处理的过程中，先计算i-vector特征信息中不同向量的余弦距离，并以此识别i-vector特征信息中的相似向量，从而，在进行本申请所提出的分块处理的处理过程中，可结合前面识别出的相似向量，分块得到多个的i-vector子特征信息，进而在最后的凝聚层聚类处理的过程中，先将每个i-vector子特征信息中的不同信息簇进行两两合并，如此不同块的i-vector特征信息的处理相互独立，避免了不同块的信息簇之间涉及的计算工作量，后再将不同块的i-vector子特征信息直接合并即可得到声纹聚类信息，从而缩短声纹聚类的处理时长，提高声纹聚类的处理效率。

在一种实施例中，参阅图2示出的本申请声纹聚类方法的又一种流程示意图，在上述图1对应实施例步骤S105中，簇间距离的计算处理可包括如下步骤：

步骤S201，处理设备通过PLDA模型对每个i-vector子特征信息进行信道补偿；

可以理解，在计算簇间距离时，处理设备可先通过PLDA模型对上述的每个i-vector子特征信息进行信道补偿。

步骤S202，处理设备根据对数似然比计算公式，计算每个信道补偿后的i-vector子特征信息中不同信息簇之间的簇间距离。

其中，对数似然比计算公式为：

S用于指示两个信息簇之间的相似度，η₁以及η₂分别用于指示不同的信息簇对应的i-vector特征向量，η₁以及η₂来自同一空间的假设为H_s，来自不同的空间的假设为H_d，ρ(η₁,η₂|H_s)用于指示η₁以及η₂来自同一空间的似然函数，ρ(η₁|H_d)以及ρ(η₂|H_d)分别用于指示η₁以及η₂来自不同空间的似然函数。

在进行信道补偿后，处理设备即可通过上述提供的对数似然比计算公式，计算i-vector子特征信息中不同信息簇之间的簇间距离。

基于上述图2示出的实施例，在又一种实施例中，在簇间距离的具体计算过程中，信息簇中还可能包括一个或者多个的i-vector特征信息。因此，

若两个信息簇分别包括一个i-vector特征向量，则处理设备将两个i-vector特征向量之间的对数似然比作为两个信息簇之间的簇间距离；

或者，

在通过上述图1对应实施例步骤S105得到声纹聚类信息后，本申请还提供了优化处理，具体的，参阅图3示出的本申请声纹聚类方法的又一种流程示意图，本申请声纹聚类方法，还可包括如下步骤：

步骤S301，处理设备识别声纹聚类信息中聚类得到的每一个类别；

可以理解，在对多个i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，会得到多个聚类的类别，而在进行后续的微调优化时，处理设备可识别这些得到的每一个类别。

步骤S302，处理设备识别分别进入每一个类别的第一个信息簇；

对应的，每个类别通过对应着多个的信息簇，处理设备则识别进入每一个类别的第一个信息簇，作为微调优化的基础。

步骤S303，处理设备根据对数似然比计算公式，对多个第一个信息簇进行相似度计算；

接着，处理设备在通过上述提及的对数似然比计算公式，对识别到的多个第一个信息簇进行相似度计算，得到两两第一个信息簇之间的相似度。

步骤S304，若存在相似度小于阈值的两个类别，则将两个类别的信息簇进行合并，完成声纹聚类信息的微调处理。

在得到两两第一个信息簇之间的相似度时，处理设备还可将其与预设的相似度阈值进行比对，若相似度小于预设的相似度阈值，则处理设备可可将此时两个第一信息簇对应的两个类别进行合并，即将这两个类别的所有信息簇进行合并，以此完成声纹聚类信息的微调优化。

在该设置下，可避免上述图1对应实施例步骤S104的分块处理过程中，误将同一个说话人的语音放入了不同块所存在的一定误差，继续完成相似语音的合并，实现声纹聚类信息的微调优化，提高声纹聚类信息的准确性。

在又一种实施例中，继续参阅图4示出的本申请声纹聚类方法的又一种流程示意图，在图1对应实施例步骤S101中，初始声纹信息的i-vector特征信息，除了可以为本次声纹聚类任务现成的信息，或者，也可由处理设备进行提取得到，具体的，可包括如下步骤实现：

步骤S401，处理设备调取本次声纹聚类任务所指向的初始声纹信息；

在实时进行i-vector特征信息的提取时，处理设备先调取本次声纹聚类任务所指向的初始声纹信息。

具体的，处理设备可从本次声纹聚类任务直接携带的任务信息中读取出本次声纹聚类任务的初始声纹信息；或者，处理设备也可通过本次声纹聚类信息所携带的标识，去存储有本次声纹聚类任务的初始声纹信息的存储地址调取该信息；或者，处理设备也可根据本次声纹聚类任务，实时接收声纹采集装置所采集到的初始声纹信息，具体在此不做限定。

步骤S402，处理设备从初始声纹信息中提取MFCC特征信息；

接着，处理设备再从初始声纹信息中，提取MFCC特征信息，该MFCC特征信息，该39维的特征信息具体可包括MFCC的一阶差分和二阶差分。

步骤S403，处理设备在GMM-UBM模型的基础上，对MFCC特征信息进行联合因子分析处理，提取得到i-vector特征信息。

然后，处理设备继续结合GMM-UBM模型，对MFCC特征信息进行联合因子分析处理，即可提取到本申请所需的i-vector特征信息。

在又一种实施例中，上述图1对应实施例步骤S104提及的分块数量，该分块数量，可由工作人员根据在先的分块处理以及聚类处理的处理经验，预先配置。

具体的，预设的分块数量可为3个，不仅可兼顾分块处理的处理工作量以及聚类的工作处理量，且还可保持较高的聚类效果。

或者，在又一种实施例中，在不同的声纹聚类任务中，还可由处理设备配置最优聚类效果的分块数量。具体的，参阅图5示出的本申请声纹聚类方法的又一种流程示意图，本申请声纹聚类方法，在图1对应实施例步骤S104之前，还可包括如下步骤：

步骤S501，处理设备预设不同的分块数量；

可以理解，处理设备可预先设置多个不同的分块数量，以进行后续的测试。

步骤S502，处理设备基于不同的分块数量，分别对测试用初始测试声纹信息进行不同的无预设类别的凝聚层次聚类处理，得到不同的声纹聚类信息；

在预设多个不同的分块数量后，处理设备即可进行该不同分块数量对应的不同聚类处理，得到不同的声纹聚类信息。

步骤S503，处理设备根据不同的声纹聚类信息的性能指标，将性能指标最高的声纹聚类信息对应的分块数量设为预设的分块数量。

在得到多个分块数量对应的不同声纹聚类信息后，处理设备即可测试这些不同声纹聚类信息的性能，并将性能指标最高的声纹聚类信息对应的最优聚类效果的分块数量确定为最终确定的分块数量，以使得处理设备可在不同分快数量之间得到最优声纹聚类效果的声纹聚类信息。

以上是本申请声纹聚类方法的介绍，下面介绍本申请的声纹聚类装置。

参阅图6示出的本申请声纹聚类装置的一种结构示意图，本申请提供的声纹聚类装置，具体的，可包括如下结构：

获取单元601，用于获取初始声纹信息的i-vector特征信息；

其中，i-vector特征信息包括说话人信息以及信道信息。

计算单元602，用于通过余弦计算算法，计算i-vector特征信息中不同向量之间的余弦距离；

识别单元603，用于将i-vector特征信息中余弦距离小于距离阈值的不同向量识别为相似向量；

分块单元604，用于根据相似向量以及预设的分块数量，对i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

合并单元605，用于在分别对多个i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个i-vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，再将两两合并之后的多个i-vector子特征信息合并得到声纹聚类信息。

在一种实施例中，合并单元605，具体用于：

通过PLDA模型对每个i-vector子特征信息进行信道补偿；

在又一种实施例中，合并单元605，具体用于：

在又一种实施例中，装置还包括微调单元606，用于：

识别声纹聚类信息中聚类得到的每一个类别；

识别分别进入每一个类别的第一个信息簇；

在又一种实施例中，获取单元601，具体用于：

调取本次声纹聚类任务所指向的初始声纹信息；

从初始声纹信息中提取MFCC特征信息；

在又一种实施例中，装置还包括预设单元607，用于：

预设不同的分块数量；

在又一种实施例中，预设的分块数量为3个。

上面是从模块化功能实体的角度介绍了本申请中的声纹聚类装置，以下则从硬件角度介绍本申请的处理设备，参阅图7示出的本申请处理设备的一种结构示意图，处理设备包括：处理器701、存储器702，存储器702用于存储程序代码，处理器701用于调用存储器702中存储的程序代码来执行如图1至图5任意实施例中声纹聚类方法；或者，处理器701调用存储器702中存储的程序代码来执行上述图6对应实施例中各单元的功能。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是处理设备的控制中心，利用各种接口和线路连接整个处理设备的各个部分。

存储器702可用于存储计算机程序和/或模块，处理器701通过运行或执行存储在存储器702内的计算机程序和/或模块，以及调用存储在存储器702内的数据，实现处理设备的各种功能。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据处理设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

存储器702可以集成在处理器701中，也可以与处理器701分开设置。

处理设备还可包括输入输出单元，处理器701、存储器702以及输入输出单元可通过总线连接。

输入输出单元也可以用输入单元和输出单元代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为输入输出单元。该输入输出单元可以为收发器。

本申请还提供一种计算机存储介质，其上存储有计算机程序，当其在计算机上运行时，使得计算机执行如图1至图5任意实施例中的声纹聚类方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发申请各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的声纹聚类装置、处理设备及其单元的具体工作过程，可以参考图1至图5任意实施例中声纹聚类方法的说明，具体在此不再赘述。

综上所述，本申请提供的声纹聚类方法、装置、处理设备以及计算机存储介质，在声纹聚类处理的过程中，先计算i-vector特征信息中不同向量的余弦距离，并以此识别i-vector特征信息中的相似向量，从而，在进行本申请所提出的分块处理的处理过程中，可结合前面识别出的相似向量，分块得到多个的i-vector子特征信息，进而在最后的凝聚层聚类处理的过程中，先将每个i-vector子特征信息中的不同信息簇进行两两合并，如此不同块的i-vector特征信息的处理相互独立，避免了不同块的信息簇之间涉及的计算工作量，，后再将不同块的i-vector子特征信息直接合并即可得到声纹聚类信息，从而缩短声纹聚类的处理时长，提高声纹聚类的处理效率。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本申请的保护之内。

Claims

1.一种声纹聚类方法，其特征在于，所述方法包括：

处理设备获取初始声纹信息的i-vector特征信息，所述i-vector特征信息包括说话人信息以及信道信息；

所述处理设备通过余弦计算算法，计算所述i-vector特征信息中不同向量之间的余弦距离；

所述处理设备将所述i-vector特征信息中所述余弦距离小于距离阈值的不同向量识别为相似向量；

所述处理设备根据所述相似向量以及预设的分块数量，对所述i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

所述处理设备在分别对多个所述i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个所述i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个所述i-vector子特征信息中所述簇间距离小于预设簇间距离的不同信息簇进行两两合并，再将所述两两合并之后的所述多个i-vector子特征信息合并得到声纹聚类信息。

2.根据权利要求1所述的方法，其特征在于，所述计算每个所述i-vector子特征信息中不同信息簇之间的簇间距离包括：

所述处理设备通过概率线性判别分析PLDA模型对每个i-vector子特征信息进行信道补偿；

所述处理设备根据对数似然比计算公式，计算每个所述信道补偿后的所述i-vector子特征信息中不同信息簇之间的簇间距离，所述对数似然比计算公式为：

其中，所述S用于指示所述两个信息簇之间的相似度，所述η₁以及所述η₂分别用于指示不同的信息簇对应的i-vector特征向量，所述η₁以及所述η₂来自同一空间的假设为H_s，来自不同的空间的假设为H_d，所述ρ(η₁,η₂|H_s)用于指示所述η₁以及所述η₂来自同一空间的似然函数，所述ρ(η₁|H_d)以及ρ(η₂|H_d)分别用于指示所述η₁以及所述η₂来自不同空间的似然函数。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若所述两个信息簇分别包括一个i-vector特征向量，则所述处理设备将两个i-vector特征向量之间的对数似然比作为所述两个信息簇之间的簇间距离；或者，

若所述两个信息簇中第一信息簇包括至少两个i-vector特征向量，则所述处理设备将所述第一信息簇中所述至少两个i-vector特征向量与第二信息簇中i-vector特征向量之间的对数似然比的均值作为所述两个信息簇之间的簇间距离。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述处理设备识别所述声纹聚类信息中聚类得到的每一个类别；

所述处理设备识别分别进入所述每一个类别的第一个信息簇；

所述处理设备根据所述对数似然比计算公式，对多个所述第一个信息簇进行相似度计算；

若存在相似度小于阈值的两个类别，则将所述两个类别的信息簇进行合并，完成所述声纹聚类信息的微调处理。

5.根据权利要求1所述的方法，其特征在于，所述处理设备获取初始声纹信息的i-vector特征信息包括：

所述处理设备调取本次声纹聚类任务所指向的所述初始声纹信息；

所述处理设备从所述初始声纹信息中提取梅尔倒谱系数MFCC特征信息；

所述处理设备在混合高斯模型-通用背景模型GMM-UBM模型的基础上，对所述MFCC特征信息进行联合因子分析处理，提取得到所述i-vector特征信息。

6.根据权利要求1所述的方法，其特征在于，所述处理设备根据所述相似向量以及预设的分块数量，对所述i-vector特征信息进行分块处理，得到多个i-vector子特征信息之前，所述方法还包括：

所述处理设备预设不同的分块数量；

所述处理设备基于所述不同的分块数量，分别对测试用初始测试声纹信息进行不同的无预设类别的凝聚层次聚类处理，得到不同的声纹聚类信息；

所述处理设备根据所述不同的声纹聚类信息的性能指标，将性能指标最高的声纹聚类信息对应的分块数量设为所述预设的分块数量。

7.根据权利要求1所述的方法，其特征在于，所述预设的分块数量为3个。

8.一种声纹聚类装置，其特征在于，所述装置包括：

获取单元，用于获取初始声纹信息的i-vector特征信息，所述i-vector特征信息包括说话人信息以及信道信息；

计算单元，用于通过余弦计算算法，计算所述i-vector特征信息中不同向量之间的余弦距离；

识别单元，用于将所述i-vector特征信息中所述余弦距离小于距离阈值的不同向量识别为相似向量；

分块单元，用于根据所述相似向量以及预设的分块数量，对所述i-vector特征信息进行分块处理，得到多个i-vector子特征信息；

合并单元，用于在分别对多个所述i-vector子特征信息进行无预设类别的凝聚层次聚类处理的过程中，计算每个所述i-vector子特征信息中不同信息簇之间的簇间距离，并分别将每个所述i-vector子特征信息中簇间距离小于预设簇间距离的不同信息簇进行两两合并，再将所述两两合并之后的所述多个i-vector子特征信息合并得到声纹聚类信息。

9.一种处理设备，其特征在于，所述处理设备包括处理器以及存储器，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1至7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。