CN109859742A

CN109859742A - 一种说话人分段聚类方法及装置

Info

Publication number: CN109859742A
Application number: CN201910015449.8A
Authority: CN
Inventors: 袁庆升; 包秀国; 汪立东; 张鸿; 杜翠兰; 王文超; 颜永红; 陈志高
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-06-07
Anticipated expiration: 2039-01-08
Also published as: CN109859742B

Abstract

本发明提供一种说话人分段聚类方法及装置，以解决相关技术中处理短时说话人语音时，性能下降导致说话人聚类效果较差的问题。该方法包括：将待聚类语音划分为多个子语音段；通过权重联合概率线性判别分析WT‑PLDA模型对基于划分得到的各子语音段的I‑vector提取出各子语音段的特征信息W‑vector，所述WT‑PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；通过概率线性判别分析PLDA根据划分后多个子语音段的所述W‑vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。本发明提高了说话人的聚类效果。

Description

一种说话人分段聚类方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种说话人分段聚类方法及装置。

背景技术

总变化因子分析技术不区分说话人和信道信息，而是将GMM(高斯混合模型)均值超向量中的说话人变化空间和信道变化空间合并为总变化空间来进行建模。给定一个GMM均值超向量M，总变化因子分析中假设它能被分解如下：

M＝m+Tw；

其中，m表示UBM的均值超向量，T表示总变化空间矩阵，w是低维的总变化因子向量。w服从标准高斯分布，即：f(w)＝N(w|0,I)。总变化因子分析中不区分说话人变化和信道变化性，总变化因子向量同时包含GMM均值超向量中的说话人信息和信道信息。

PLDA(Probabilistic Linear Discriminant Analysis，概率线性判别分析)被引入到说话人识别领域之前，最先是按照人脸识别中PLDA的形式来对I-vector分解成如下形式：

w_ij＝μ+Vy_i+Ux_ij+ε_ij；

其中，w_ij表示第i个说话人的第j个I-vector；μ表示所有I-vector的均值向量；V表示本征音空间矩阵，或称之为说话人空间矩阵；U表示本征信道空间矩阵，或称之为信道空间矩阵；y_i表示说话人因子；x_ij表示信道因子；ε_ij表示残差或噪声因子。y_i、x_ij和ε_ij的先验分布按照不同类型的PLDA模型有所不同。在高斯PLDA模型它们都服从高斯分布，在重尾PLDA模型他们服从学生分布。实际上I-vector本身的分布并不能很好地符合高斯分布，因而高斯PLDA模型最初性能要远差于重尾PLDA，但是在提出了I-vector长度规整技术，对I-vector进行长度规整可以使它更加服从高斯分布，长度规整后的I-vector再采用高斯PLDA进行建模的性能可以达到重尾PLDA的效果，而且高斯PLDA的模型复杂度和实际应用时的计算复杂度远远小于重尾PLDA，因此后来的PLDA系统基本都采用长度规整后的I-vector接高斯PLDA模型。

基于上述相关技术，处理短时说话人语音时，由于性能下降导致说话人聚类效果较差。

发明内容

本发明的主要目的在于提供一种说话人分段聚类方法及装置，以解决相关技术中处理短时说话人语音时，性能下降导致说话人聚类效果较差的问题。

根据本发明的一个方面，提供了一种说话人分段聚类方法，包括：将待聚类语音划分为多个子语音段；通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

可选地，所述通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类，包括：通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；将打分结果中分数最高的两个目标子语音段合并为一个语音段；提取合并后的语音段的所述W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤，直至所述多个子语音段被聚类为两类。

可选地，所述方法还包括：在将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

其中，ω_ij表示第i个说话人的第j个I-vector，c_m代表第m个语音成分的权重，c_m≥0，m＝1,2，…，M，且其中M为PLDA的个数，μ_m表示所述均值向量，V_m表示所述说话人子空间的投影矩阵，y_i表示所述说话人因子的隐藏变量，ε_ij表示残差因子。

可选地，所述方法还包括：将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

其中，ω_ij表示第i个说话人的第j个I-vector，c_m代表第m个语音成分的权重，c_m≥0，m＝1,2，…，M，且其中，M为PLDA的个数，μ_m表示所述均值向量，V_m表示所述说话人子空间的投影矩阵，y_i表示所述说话人因子的隐藏变量，为残差因子，的协方差矩阵添加了I-vector相关的后验分布，该后验分布服从N(0，∑+L^-1)，L^-1为I-vector提取过程中产生的协方差矩阵，L^-1＝(1+N_cT^t∑^-1T)^-1。

可选地，所述方法还包括：在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前，对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。

根据本发明的第二个方面，提供了一种说话人分段聚类装置，包括：划分模块，用于将待聚类语音划分为多个子语音段；提取模块，用于通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；聚类模块，用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

可选地，所述聚类模块，包括：打分单元，用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；合并单元，用于将打分结果中分数最高的两个目标子语音段合并为一个语音段；循环聚类单元，用于提取合并后的语音段的W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤，直至所述多个子语音段被聚类为两类。

可选地，所述装置还包括：第一建立模块，用于在将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

可选地，所述装置还包括：第二建立模块，用于将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

可选地，所述装置还包括：处理模块，用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前，对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。

本发明实施例的说话人分段聚类方法，使用WT-PLDA模型提取各子语音段的W-vector，再通过PLDA根据各对子语音段的W-vector对这些子语音段进行聚类，提高了说话人分段聚类的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的一种说话人分段聚类方法的流程图；

图2是根据一示例性实施例示出的一种说话人分段聚类方法的流程图；

图3是根据一示例性实施例示出的一种说话人分段聚类装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的一种说话人分段聚类方法的流程图，如图1所示，该方法包括如下步骤：

步骤101：将待聚类语音划分为多个子语音段，例如，可将待聚类的语音段划分为1-2s的子语音段。

步骤102：通过WT-PLDA(Weighted Tied Probabilistic Linear DiscriminantAnalysis，权重联合概率线性判别分析)模型对基于划分得到的各子语音段的I-vector(也称语音的总变化因子)提取出各子语音段的特征信息W-vector(语音的特征信息)，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量(即W-vector)以及残差因子；

在步骤102之前，可根据语料训练出与说话人无关的UBM模型，可基于该UBM模型提取高斯超向量和总变化因子，从而根据提取出的这些信息可训练WT-PLDA模型，该WT-PLDA模型的训练过程将在后文进行详细说明。其中，在WT-PLDA模型中，可包括多个语音成分，每个语音成分都具有不同的权重。

步骤103：通过PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

在一种可实现方式中，通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类的步骤可由图2中所示多个步骤来实现，如图2所示，该步骤可包括，步骤201：通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；步骤202：将打分结果中分数最高的两个目标子语音段合并为一个语音段；步骤203：提取合并后的语音段的W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤(即返回执行步骤202)以及该步骤之后的步骤(即步骤203)，直至所述多个子语音段被聚类为两类。例如，在通过PLDA对各相邻的两个子语音段打分后，选择得分最高的两个子语音段合并得到一段新的语音段，重新提取合并得到的语音段的W-vector，同剩下的子语音段落继续两两打分，循环迭代，直到这些子语音段被聚为两类为止。

在一种可实现方式中，WT-PLDA假设每一个语音成分均遵循标准正态分布，用足够多的语音成分可以比单个高斯PLDA更准确地对I-vector进行建模。相比于GMM模型，WT-PLDA的训练数据量较少，因为一段语音序列被一个I-vector限制。因此，WT-PLDA假设残差因子和标准的PLDA一样服从标准高斯分布但是被所有语音成分共享。基于此，说话人分段聚类方法还可包括：将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

其中，ω_ij表示第i个说话人的第j个I-vector，c_m代表第m个语音成分的权重，c_m≥0，m＝1,2，…，M，且其中M为PLDA的个数，μ_m表示所述均值向量，V_m表示所述说话人子空间的投影矩阵，y_i表示所述说话人因子的隐藏变量(也即W-vector)，ε_ij表示残差因子。

对于每一个成分，μ_m是均值向量，V_m是表示说话人子空间的投影矩阵，y_i是表示说话人因子的隐藏变量，服从标准高斯分布，被所有成分共享。ω_ij的后验分布可以写成如下形式：

其中，参数估计可以用EM(Expectation Maximization Algorithm，期望最大化算法)算法完成。

在一种可实现方式中，WT-PLDA建模时添加了协方差信息，基于此，说话人分段聚类方法还可包括：

在将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

其中，ω_ij表示第i个说话人的第j个I-vector，c_m代表第m个语音成分的权重，c_m≥0，m＝1,2，…，M，且其中，M为PLDA的个数，μ_m表示所述均值向量，V_m表示所述说话人子空间的投影矩阵，y_i表示所述说话人因子的隐藏变量，为残差因子，的协方差矩阵添加了I-vector相关的后验分布，该后验分布服从N(0，∑+L^-1)，L^-1是I-vector提取过程中产生的协方差矩阵，L^-1＝(1+N_cT^t∑^-1T)^-1，其中，N表示计算I-vector时使用的GMM模型的0阶统计量。T是I-vector计算过程的投影矩阵，Σ是GMM模型的方差矩阵，t代表矩阵的转置。在该可实现方式中，通过WT-PLDA模型，对I-vector进行建模，利用I-vector的不确定因子进行信息补偿，可提高短时语音说话人特征因子的确定性。同时，将不确定因子作为补偿信息加入建模过程，通过提取出的新的特征信息(即W-vector)与原始的I-vector大小相同，从而节省了存储空间。补偿后的特征因子采用原始的高斯PLDA模型进行打分，简化了全后验概率判别分析技术的打分过程，提高了技术的鲁棒性。

在一种可实现方式中，上述通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的W-vector之前，对所述各子语音段的I-vector进行长度规整和/或PCA(Principal Components Analysis，主成分分析降维)处理。

图3是根据一示例性实施例示出的一种说话人分段聚类装置的框图，如图3所示，该装置30包括如下组成部分：

划分模块31，用于将待聚类语音划分为多个子语音段；

提取模块32，用于通过WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；

聚类模块33，用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

在一种可实现方式中，所述聚类模块可包括：打分单元，用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；合并单元，用于将打分结果中分数最高的两个目标子语音段合并为一个语音段；循环聚类单元，用于提取合并后的语音段的W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤，直至所述多个子语音段被聚类为两类。

在一种可实现方式中，所述说话人分段聚类装置还可包括：第一建立模块，用于在将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

在一种可实现方式中，所述说话人分段聚类装置还可包括：所述装置还包括：

第二建立模块，用于将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

在一种可实现方式中，所述说话人分段聚类装置还可包括：处理模块，用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前，对所述各子语音段的I-vector进行长度规整和/或PCA处理。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种说话人分段聚类方法，其特征在于，包括：

将待聚类语音划分为多个子语音段；

通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；

通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

2.根据权利要求1所述的方法，其特征在于，所述通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类，包括：

通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；

将打分结果中分数最高的两个目标子语音段合并为一个语音段；

提取合并后的语音段的所述W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤，直至所述多个子语音段被聚类为两类。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前，对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。

6.一种说话人分段聚类装置，其特征在于，包括：

划分模块，用于将待聚类语音划分为多个子语音段；

提取模块，用于通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector，所述WT-PLDA模型的模型参数至少包括：均值向量、说话人子空间的投影矩阵、说话人因子的隐藏变量以及残差因子；

聚类模块，用于通过概率线性判别分析PLDA根据划分后多个子语音段的所述W-vector对该多个子语音段循环进行多次聚类，直至所述多个子语音段被聚类为两类。

7.根据权利要求6所述的装置，其特征在于，所述聚类模块，包括：

打分单元，用于通过PLDA根据划分后各相邻的子语音段的W-vector对各相邻的两个子语音段进行打分，得到各对子语音段的打分结果；

合并单元，用于将打分结果中分数最高的两个目标子语音段合并为一个语音段；

循环聚类单元，用于提取合并后的语音段的W-vector，根据该W-vector以及所述多个子语音段中除了所述两个目标子语音段之外的其他子语音段的W-vector进行打分，得到打分结果中分数最高的另外两个目标子语音段后，返回执行将该两个目标子语音段合并为一个语音段的步骤以及该步骤之后的步骤，直至所述多个子语音段被聚类为两类。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第一建立模块，用于在将待聚类语音划分为多个子语音段之前，通过下式建立WT-PLDA模型：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：

处理模块，用于在通过权重联合概率线性判别分析WT-PLDA模型对基于划分得到的各子语音段的I-vector提取出各子语音段的特征信息W-vector之前，对所述各子语音段的I-vector进行长度规整和/或主成分分析降维PCA处理。