CN107452403B

CN107452403B - 一种说话人标记方法

Info

Publication number: CN107452403B
Application number: CN201710817534.7A
Authority: CN
Inventors: 陈仙红; 何亮; 徐灿; 刘加
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2020-07-07
Anticipated expiration: 2037-09-12
Also published as: CN107452403A

Abstract

本发明提出一种说话人标记方法，属于声纹识别、模式识别与机器学习技术领域。本方法包括三个阶段：在第一阶段，通过i‑vector概率线性鉴别分析凝聚层次聚类方法将待测语音数据分为长度相等的片段，然后将片段聚为与说话人总数相等的类；在第二阶段，利用第一阶段的聚类结果，得到片段属于说话人的先验概率；在第三阶段，通过基于软判决的变分贝叶斯隐马尔科夫方法进行迭代，当系统收敛时，计算片段所属的说话人，说话人标记结束。本发明结合了两种说话人标记方法的优点，可有效地提高说话人标记的准确率。

Description

一种说话人标记方法

技术领域

本发明属于声纹识别、模式识别与机器学习技术领域，特别地涉及一种基于Ivec-PLDA-AHC和VB-HMM的说话人标记方法。

背景技术

说话人标记就是对一段多人说话的语音进行处理，把同一个说话人的语音片段聚到一起，也就是标记谁在什么时候说话。说话人标记的意义在于，应用到电话会议、国际会议中时，可以作为会议记录的资料被保存，同时对说话人的准确识别也自然会有助于后续的语音处理与语义识别。另外，在监控领域，说话人标记可以对被监控对象的声音语言进行记录，应用至公安领域或是军事领域，对保卫治安乃至国家安全都有所贡献。

现有的说话人标记常用的方法是I vector概率线性鉴别分析凝聚层次聚类方法(ivector-probabilistic linear discriminant analysis-agglomerativehierarchical clustering(Ivec-PLDA-AHC))。该方法将语音分割成均匀的，长度相等的短片段。由于片段足够短，可认为每个片段只含一个说话人。Ivec-PLDA-AHC方法首先将每个片段当成一类，为每个片段提取一个i-vector(说话人识别中常用的特征向量)，利用PLDA打分计算i-vector两两之间的距离，然后将距离最近的两个类聚到一起，形成新的类。重复这一过程直到类别数等于说话人个数，说话人标记结束。

Ivec-PLDA-AHC说话人标记方法的缺点是没有考虑片段与片段之间的时序信息，最终标记结果可能会出现短时间内说话人频繁跳变的现象。除此之外，该方法迭代过程将距离最近的两个类强制聚到一起，属于硬判决，迭代过程出现的错误不能在后续进行更改，而且可能导致一步错步步错。

为了解决这个问题，学者们引入了基于软判决的变分贝叶斯隐马尔科夫(variational Bayes hidden Markov model(VB-HMM))方法。VB-HMM方法将片段是否属于说话人用一个概率表示，而不是像Ivec-PLDA-AHC方法用绝对的是或不是。VB-HMM方法首先随机初始化每个片段属于说话人的概率和HMM模型，然后迭代更新说话人因子，发射概率，片段属于说话人的概率，转移概率，直到收敛输出结果。但是这个系统对初始化很敏感，特别是当待测语音中某个说话人占主导地位，而其余说话人说的语音很少时，VB-HMM方法很容易将待测语音均匀地分配到每个说话人，导致标记结果很差。

发明内容

本发明的目的是为克服传统VB-HMM说话人标记方法对系统初始化敏感的问题，提出了一种说话人标记方法。本发明结合了Ivec-PLDA-AHC和VB-HMM说话人标记方法的优点，通过Ivec-PLDA-AHC说话人标记方法，为VB-HMM方法提供一个稳健的初始值，可有效地提高说话人标记的准确率。

本发明提出的一种说话人标记方法，其特征在于，分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段，该方法包括以下步骤：

1)i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段；具体步骤如下：

1-1)获取一条待测语音数据X，待测语音数据中总共的说话人个数S已知，S≥2；

1-2)对待测语音数据X提取维数F＝40的感知线性预测特征，并进行活动语音检测，将待测语音数据中的静音段删除；

1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的片段记为x₁，…x_m…，x_M；其中M代表片段总数；每个片段x_m包含N帧，x_mt表示片段x_m的第t帧的特征，t＝1…N；

1-4)对于每个片段x_m，提取该片段相应的i-vector记为ω′_m，表达式如下：

μ_m＝μ_ubm+Tω′_m

其中，μ_m是根据x_m计算得到的均值超向量，μ_ubm为通用背景模型的均值超向量，通用背景模型的高斯总个数为C＝512，说话人因子维数为D＝300，T为CF×D＝512*40×300维的总体变化子空间矩阵；

1-5)利用概率线性鉴别分析对步骤1-4)得到的任意两个i-vector进行打分，得到所有片段i-vector两两之间的距离；具体步骤如下：

1-5-1)每个片段的i-vectorω′_m表达式如下：

ω′_m＝μ+Φp_m+ε_m

其中μ是所有片段i-vector的均值，

Φ是维度为300×150的说话人子空间，p_m是服从标准正态分布的隐变量，

是噪声；

1-5-2)通过计算对数似然比，求得任意两个i-vectorω′_i和ω′_j之间的相似度：

其中θ_tar表示ω′_i和ω′_j来自同一个说话人，θ_non表示ω′_i和ω′_j来自不同的说话人；

1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′_i，ω′_j)，计算ω′_i和ω′_j之间的距离为：

1-6)对所有片段i-vector两两之间的距离进行凝聚层次聚类；具体步骤如下：

1-6-1)将每个片段的i-vector当作一个独立的类，共得到M个类；

1-6-2)将所有距离dij中最小值对应的两个片段的i-vector的类聚在一起，合并成一个新类；

1-6-3)计算步骤1-6-2)得到的新类中所有i-vector的均值，用该均值表示新类的i-vector，然后重复步骤1-5-2)和1-5-3)，分别计算该新类的i-vector到其他每个类的的i-vector的距离；

1-6-4)判断类的个数是否等于说话人个数S：如果不相等，则重新返回步骤1-6-2)；如果相等，则凝聚层次聚类结束，最后聚成S个类代表S个说话人，每个类代表一个说话人，将S个类随机编号为1,2,..s,..S，如果片段x_m属于类s，那么x_m就属于说话人s，即x_m∈s；

2)先验概率初始化阶段；分为硬先验计算和软先验计算两种方法，具体如下：

2-1)硬先验计算；

根据步骤1)的结果，如果x_m∈s，则赋予片段m属于说话人s的先验概率q_ms的概率值为q，0.5＜q＜1，即：

其中I(·)为指示函数；

2-2)软先验计算；

根据步骤1)聚类得到的S个类，计算每个说话人s的中心点，表达式如下：

如果片段x_m∈s，则片段x_m距离中心点的距离为：

d_ms＝||ω′_m-center_s||₂

将片段x_m属于说话人s的先验概率q_ms定义为：

其中

k＞0；

而片段x_m属于说话人其他说话人的先验概率为：

3)基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段；具体步骤如下：

3-1)隐马尔科夫模型初始化；

隐马尔科夫模型中，每个状态代表一个说话人，状态数等于说话人的总个数S；转移概率为a_ij，初始值为

表示从说话人i转移到说话人j的概率；发射概率P(x_m|y_s)，初始值为

表示给定一个说话人因子y_s，片段x_m产生的概率；隐马尔科夫模型的初始概率，即初始时刻位于每个状态的概率

3-2)更新说话人因子y_s；具体步骤如下：

3-2-1)提取每个片段x_m的Baum-Welch统计量，表达式如下：

其中

分别表示片段x_m对应第c个高斯的零阶、一阶、二阶统计量；μ_ubm，c，c＝1，…，512，是通用背景模型均值超向量μ_ubm中对应第c个高斯的子向量；γ_ml(c)是x_mt属于第c个高斯的后验概率，diag表示对角化；

3-2-2)提取每个说话人的Baum-Welch统计量；

令

为对角块是

的CF×CF矩阵；

为由

连接而成的CF×1超向量；

为对角块是

的CF×CF矩阵；

说话人s的Baum-Welch统计量表达式为：

3-2-3)计算说话人因子y_s的均值ω_s和方差

为：

其中，∑是维数为CF×CF的协方差矩阵，对角块为{∑₁，…，∑_C]，∑_c为通用背景模型第c个高斯的协方差矩阵；

3-3)更新发射概率P(x_m|y_s)：

lnP(x_m|y_s)＝G_m+H_ms

其中，

3-4)根据隐马尔科夫模型的参数包括：转移概率a_ij，发射概率P(x_m|y_s)和初始概率π，利用前后项算法计算更新q_ms；

3-5)更新转移概率a_ij；

定义说话人s转移到自身的概率为一个常数const，0.8＜const＜1，则：

a_ii＝const

其中，

表示说话人s总共的说话片段数；

3-6)判断迭代是否收敛；

如果是第一次迭代，则直接判断不收敛，重新返回步骤3-2)进行下一次迭代；如果不是第一次迭代，则将本次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值ω_s记为

将上一次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值ω_s记为

计算两次迭代中说话人因子均值的相对改变量，表达式如下：

如果相对改变量大于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛，重新进行步骤3-2)至3-6)进行下一次迭代；如果相对改变量小于等于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛，迭代完成，片段x_m所属的说话人通过计算arg max_s q_ms给出，说话人标记结束。

本发明的特点及有益效果在于：

本发明提出了一种说话人标记方法，基于Ivec-PLDA-AHC和VB-HMM两种方法，相比于传统的Ivec-PLDA-AHC方法，本发明中采用概率的方法进行片段到说话人的归类，属于软判决而不是硬判决，避免了因为前期分类错误而导致后面错误放大的可能。与传统VB-HMM说话人标记方法相比，利用Ivec-PLDA-AHC说话人标记结果，为VB-HMM方法提供一个稳健的初始值。本发明的方法，解决了VB-HMM说话人标记方法对初值敏感的问题，可提高系统的稳健性，提高说话人标记的准确率。

附图说明

图1是本发明方法的整体流程图。

图2是本发明方法的HMM模型示意图。

图3是本发明实施例中的HMM模型示意图。

图4是本发明中说话人因子更新流程图。

具体实施方式

本发明提出的一种说话人标记方法，下面结合附图和具体实施例进一步详细说明。

本发明提出的一种说话人标记方法，分为Ivec-PLDA-AHC说话人标记阶段，先验概率初始化阶段和VB-HMM说话人标记阶段三个阶段。本实施例所用待测(待标记)语音数据的说话人个数S＝2。本方法整体流程如图1所示，该方法包括以下步骤：

1)Ivec-PLDA-AHC说话人标记阶段；具体步骤如下：

1-1)获取一条待测语音数据X，待测语音数据中总共的说话人个数S已知(S≥2)。待测语音数据需要有多人对话，可以是电话语音、会议语音、广播新闻语音，数据来源可以自己录制，也可以直接从NIST RT 09中选择一条(待测语音数据的长短无特殊要求。本实施例中，采用自己用手机录制的多人会议语音，总共的说话人S＝2。

1-2)对待测语音数据X提取维数F＝40的感知线性预测(Perceptual linearpredictive，PLP)特征，并进行活动语音检测，将待测语音数据中的静音段删除。

1-3)将去除静音段后的待测语音数据X均匀分割成长度固定为1s的短片段x₁，…，x_m…，x_M。其中M是片段总数。每个片段x_m由(x_m1，…，x_mt，…，x_mN)组成，其中N表示每个片段的总帧数，x_mt表示片段x_m的第t帧的40×1维的特征。

μ_m＝μ_ubm+T′_m

其中μ_m是根据x_m计算得到的均值超向量，μ_ubm为通用背景模型(UBM)(UBM模型是高斯混合模型(GMM)，通过大量不同说话人的语音，用GMM模型的训练方法得到，是说话人识别领域中常用的模型)的均值超向量，UBM的高斯总个数为C＝512，说话人因子维数为D＝300，T为CF×D＝512*40×300维的总体变化子空间矩阵。F＝40是PLP特征的维数。

1-5)用PLDA对步骤1-4)得到的任意两个i-vector进行打分，得到所有片段i-vector两两之间的距离；具体步骤如下：

1-5-1)每个片段的i-vectorω′_m，可以由简化的PLDA模型产生，表达式如下：

ω′_m＝μ+Φ_pm+ε_m

其中μ是所有片段i-vector的均值，

是噪声(ε_m表示噪声的模型，∑′_ε的下标ε表示这个方差是ε_m的)。

其中θ_lar表示ω′_i和ω′_j来自同一个说话人，θ_non表示ω′_i和ω′_j来自不同的说话人；

1-6)对所有片段i-vector两两之间的距离进行AHC聚类；具体步骤如下：

1-6-1)将每个片段的i-vector当作一个独立的类，共得到M个类；

1-6-2)将所有距离d_ij中最小值对应的两个片段的i-vector的类聚在一起，合并成一个新类。

1-6-4)判断类的个数是否等于说话人个数S：如果不相等，则重新返回步骤1-6-2)；如果相等，则AHC聚类结束。

第1阶段Ivec-PLDA-AHC是一个独立的说话人标记系统，该阶段最终的结果就是将所有片段聚成S个类。最后聚成S个类就代表S个说话人，每个类代表一个说话人，把这S个类随机编号为1,2,..s,..S。如果片段x_m属于类s，那么x_m就属于说话人s，即x_m∈s。我们利用这个结果给VB-HMM系统需要用到的q_ms设置初值，也就是第2阶段的先验。

2)先验概率初始化阶段；

本发明中，我们提出两种先验计算方法，硬先验和软先验。

2-1)硬先验计算：根据步骤1)的结果，如果片段x_m被归类为说话人s，即x_m∈s，我们就赋予q_ms(片段m属于说话人s的先验概率)一个较大的概率值q(0.5＜q＜1，本实施例中q＝0.7)，即:

其中I(·)为指示函数，q为概率值，S为待测语音数据中总共的说话人个数

2-2)软先验计算：根据Ivec-PLDA-AHC聚类得到的S(本实施例中S＝2)个类(每个类代表一个说话人)，计算每个说话人s的中心点，表达式如下：

其中x_m∈s表示片段x_m被归类为说话人s，I(·)为指示函数。

如果片段x_m被Ivec-PLDA-AHC归类为说话人s，则片段x_m距离中心点的距离为：

d_ms＝||ω′_m-center_s||₂

将片段x_m属于说话人s的先验q_ms定义为：

其中

k＞0(本实施例中k取值为10)。而片段x_m属于说话人其他说话人的先验概率为：

3)VB-HMM说话人标记阶段；具体步骤如下：

3-1)HMM模型初始化；

本发明的隐马尔科夫模型(HMM)示意图如图2所示。图2中，每个状态代表一个说话人，状态数等于说话人的总个数S；转移概率为a_ij，初始值为

(本实施例为

)，表示从说话人i转移到说话人j的概率；发射概率P(x_m|y_s)，初始值为

(本实施例为

)，表示给定一个说话人因子y_s，片段x_m产生的概率。说话人与说话人之间的连线表示线前端的说话人可以以一定的概率(即转移概率)转移到线末端(带箭头)的说话人。说话人与片段之间的连线表示该说话人可以以一定的概率(即发射概率)产生该片段。HMM模型的初始概率(初始时刻位于每个状态的概率)

本实施例中，总说话人个数S＝2，因而本实施例的HMM模型如图3。本实施例的HMM模型初始概率为：

3-2)更新说话人因子y_s；流程如图4所示，具体步骤如下：

3-2-1)提取每个片段x_m的Baum-Welch统计量，表达式如下：

其中

分别表示片段x_m对应第c个高斯的零阶、一阶、二阶统计量；μ_ubm，c(c＝1，…，512)是UBM模型均值超向量μ_ubm中对应第c个高斯的子向量；γ_ml(c)是x_mt属于第c个高斯的后验概率，diag表示对角化。

3-2-2)提取每个说话人的Baum-Welch统计量；

令

为对角块是

的CF×CF矩阵；

为由

连接而成的CF×1超向量；

为对角块是

的CF×CF矩阵。将每个片段属于每个说话人的概率q_ms考虑在内，说话人s的Baum-Welch统计量可计算为：

3-2-3)计算说话人因子y_s的均值ω_s和方差

为：

其中∑是维数为CF×CF的协方差矩阵，对角块为{∑₁，…，∑_C}，∑_c为UBM模型第c个高斯的协方差矩阵。

3-3)更新发射概率P(x_m|y_s)：

lnP(x_m|y_s)＝G_m+H_ms

其中，

3-4)根据HMM的参数包括：转移概率a_ij，发射概率P(x_m|y_s)和初始概率π，利用前后项算法计算更新q_ms；

3-5)更新转移概率a_ij。由于每个片段都很短，说话人s转移到自身的概率会比转移到别人的概率大，定义说话人s转移到自身的概率为一个常数const(0.8＜const＜1)，所以：

a_ii＝const

其中，

表示说话人s总共的说话片段数。

本实施例中，说话人个数S＝2，取const＝0.998，所以转移概率为：

a₁₁＝a₂₂＝const＝0.998

3-6)判断是否收敛。如果是第一次迭代，则直接判断不收敛，重新返回步骤3-2)至3-6)进行下一次迭代。如果不是第一次迭代，则将本次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值ω_s记为

如果相对改变量大于设定阈值(阈值的取值范围为5％至10％，本实施例中采用

7％)，则判断VB-HMM系统不收敛，重新进行步骤3-2)至3-6)进行下一次迭代；如果相对改变量小于等于设定阈值，则判断VB-HMM系统收敛，迭代完成，片段x_m所属的说话人通过计算arg max_s q_ms给出，说话人标记结束。

第3阶段的VB-HMM说话人标记方法就是个迭代的过程，见图1的第3阶段。判断是否收敛，如果不收敛则进行下一次迭代，每次迭代全过程即进行步骤3-2)至3-6)。

本发明所述方法，本领域普通技术人员可以理解为，上述说话人识别的方法可以通过程序来完成的，所述的程序可以存储于一种计算机可读存储介质中。

以上所述的仅为本发明的一个具体实施例而已，显然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种说话人标记方法，其特征在于，分为i-vector概率线性鉴别分析凝聚层次聚类说话人标记阶段、先验概率初始化阶段和基于软判决的变分贝叶斯隐马尔科夫说话人标记阶段三个阶段，该方法包括以下步骤：

1-4)对于每个片段x_m，提取该片段相应的i-vector记为w′_m，表达式如下：

μ_m＝μ_ubm+Tω′_m

1-5-1)每个片段的i-vectorw′_m表达式如下：

w′_m＝μ+Φp_m+ε_m

其中μ是所有片段i-vector的均值，

是噪声；

1-5-2)通过计算对数似然比，求得任意两个i-vectorw′_i和w′_j之间的相似度：

其中θ_tar表示w′_i和w′_j来自同一个说话人，θ_non表示w′_i和w′_j来自不同的说话人；

1-5-3)通过步骤1-5-2)得到的对数似然比R(ω′_i，ω′_j)，计算w′_i和w′_j之间的距离为：

1-6-1)将每个片段的i-vector当作一个独立的类，共得到M个类；

1-6-2)将所有距离d_ij中最小值对应的两个片段的i-vector的类聚在一起，合并成一个新类；

2-1)硬先验计算；

其中I(·)为指示函数；

2-2)软先验计算；

如果片段x_m∈s，则片段x_m距离中心点的距离为：

d_ms＝||w′_m-center_s||₂

将片段x_m属于说话人s的先验概率q_ms定义为：

其中

而片段x_m属于说话人其他说话人的先验概率为：

3-1)隐马尔科夫模型初始化；

3-2)更新说话人因子y_s；具体步骤如下：

3-2-1)提取每个片段x_m的Baum-Welch统计量，表达式如下：

其中

分别表示片段x_m对应第c个高斯的零阶、一阶、二阶统计量；μ_ubm，c，c＝1，…，512，是通用背景模型均值超向量μ_ubm中对应第c个高斯的子向量；

γ_mt(c)是x_mt属于第c个高斯的后验概率，diag表示对角化；

3-2-2)提取每个说话人的Baum-Welch统计量；

令

为对角块是

的CF×CF矩阵；

为由

连接而成的CF×1超向量；

为对角块是

的CF×CF矩阵；

说话人s的Baum-Welch统计量表达式为：

3-2-3)计算说话人因子y_s的均值w_s和方差

为：

其中，∑是维数为CF×CF的协方差矩阵，对角块为{∑₁，…，∑_C}，∑_c为通用背景模型第c个高斯的协方差矩阵；

3-3)更新发射概率P(x_m|y_s)：

lnP(x_m|y_s)＝G_m+H_ms

其中，

3-5)更新转移概率a_ij；

a_ii＝const

其中，

表示说话人s总共的说话片段数；

3-6)判断迭代是否收敛；

如果是第一次迭代，则直接判断不收敛，重新返回步骤3-2)进行下一次迭代；如果不是第一次迭代，则将本次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值w_s记为

将上一次迭代中，由步骤3-2-3)得到的说话人因子y_s的均值w_s记为

如果相对改变量大于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统不收敛，重新进行步骤3-2)至3-6)进行下一次迭代；如果相对改变量小于等于设定阈值，则判断基于软判决的变分贝叶斯隐马尔科夫系统收敛，迭代完成，片段x_m所属的说话人通过计算arg max_sq_ms给出，说话人标记结束。