CN114970695A

CN114970695A - 一种基于非参贝叶斯模型的说话人分割聚类方法

Info

Publication number: CN114970695A
Application number: CN202210524824.3A
Authority: CN
Inventors: 张晓雷; 龚亦骏
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2022-01-06
Filing date: 2022-05-13
Publication date: 2022-08-30
Anticipated expiration: 2042-05-13
Also published as: CN114970695B

Abstract

本发明公开了一种基于非参贝叶斯模型的说话人分割聚类方法，该方法对狄利克雷过程混合模型进行方差渐近，从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法DP‑means。本发明包括如下步骤：1)先进行声学特征提取及语音活动性检测，以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x‑vector；2)由于这类基于狄利克雷过程的聚类方法对初始化较为敏感，使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x‑vector较多的类后，计算这些类的均值，并将其作为DP‑means的初始化类中心。随后用DP‑means进行聚类得到最终结果。本发明在多个数据集上的结果表明，能够将聚类效率大幅提高，同时具备了优越的性能和效率。

Description

一种基于非参贝叶斯模型的说话人分割聚类方法

技术领域

本发明属于语音识别技术领域，具体涉及一种说话人分割聚类方法。

背景技术

近年来，互联网的发展使得人们的交互方式发生了巨大的变化，更多的会议、采访、面试等活动在线上展开，由此产生了大量的多人语音对话数据。说话人分割聚类(Speaker diarization)系统在一段语音中标记不同说话人的身份信息，解决了“谁在什么时间说话”的问题。通过说话人分割聚类，不但可以对语音数据进行高效地检索和管理，还有助于增强其语义信息的可懂性。但想要找到高效且可靠的说话人分割聚类系统仍然具有一定的挑战性。

在过去的研究中已经证明，相比于端到端的系统，传统的模块化说话人分割聚类可以取得更好的性能。而在模块化的方法中，聚类模块是最重要的模块之一。将传统的K-means、凝聚层次聚类(Hierarchical Agglomerative Clustering，AHC)和谱聚类(Spectral clustering，SC)等聚类方法用于说话人分割聚类可以获得简单高效的系统，但无法达到较高的准确性。

最近提出的基于贝叶斯隐马尔科夫(Hidden Markov Model，HMM)概率模型的聚类在说话人分割聚类中表现优异。它假设输入序列是由特定于说话人的分布生成的，通过遍历HMM来提取依赖上下文序列信息的说话人特征表示。该方法虽然性能有所提高，但比广泛使用的传统聚类算法复杂得多，不适用于一些现实生活场景。

发明内容

为了克服现有技术的不足，本发明提供了一种基于非参贝叶斯模型的说话人分割聚类方法，该方法对狄利克雷过程混合模型(Dirichlet process mixture models，DPMM)进行方差渐近，从而获得了一个在聚类过程中可以根据数据不断产生新类的简单硬聚类方法，称为DP-means。以x-vectors为特征，提出的说话人分割聚类方法包括如下步骤：1)先进行声学特征提取及语音活动性检测(Voice activity detection，VAD)，以过滤掉非语音片段。之后将纯语音分段并将分段后的语音片段送入特征提取器得到x-vectors；2)由于这类基于狄利克雷过程的聚类方法对初始化较为敏感，首先使用AHC或SC等方法进行初始聚类。筛选出初始聚类结果中包含x-vectors较多的类后，计算这些类的均值，并将其作为DP-means的初始化类中心。随后用DP-means进行聚类得到最终结果。在CALLHOME数据集上的结果表明，基于DP-means的说话人分割聚类系统实现了低于AHC基线31.6％的Diarizationerror(DER)；在AMI数据集上的结果表明，基于DP-means的说话人分割聚类系统实现了低于AHC基线27.2％的DER。同时，与较为复杂的基于贝叶斯概率模型的方法相比，基于DP-means的说话人分割聚类系统在CALLHOME和AMI数据集上分别将效率提高了73％和41％。同时具备了优越的性能和效率。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：说话人特征提取；

步骤1-1：帧级别声学特征提取并分段：

对原始语音进行分帧操作，对每一帧进行短时傅里叶变换STFT，得到横坐标为时间纵坐标为频率的二维时频谱；

对每一帧的二维时频谱使用梅尔滤波器组获取FBank，梅尔频率和普通频率的转换关系如下：

m＝2595log₁₀(1+f/700) (1)

f＝700(10^m/2596-1) (2)其中m和f分别为梅尔频率和普通频率；

梅尔滤波器组的频率响应为：

其中p为时频谱中的频率，

设置段长和步长对逐帧获取的FBank进行分段处理；

步骤1-2：说话人特征提取：

将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors；ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层；得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维，最终得到N×128维的x-vector序列；N是语音段数量；

步骤2：对说话人特征进行聚类；

步骤2-1：AHC初始聚类并进行类筛选；

用余弦相似度计算步骤1-2得到的x-vector的相似度矩阵，然后再采用AHC对x-vector进行聚类；

通过AHC获得的聚类结果中x-vector各类所包含的x-vector数量不同，设置阈值筛选出包含的x-vector数量大于阈值的类，计算每一个大于阈值的类的x-vector的均值作为下一步DP-means的初始类中心，共有k个；

步骤2-2：DP-means聚类：

计算每个x-vector与DP-means的每个类中心的相似度：

sim_ic＝cos(x_i，μ_c)，for c＝1，...，k and i＝1，...，N (4)

其中μ_c为第c个类的中心、x_i为第i个x-vector；k为类中心的数量，即为当前说话人的数量；

对于第i个x-vector，c从1取到k：

如果max_csim_ic＜λ，则新建一个类，令：

k加1，z_i＝k (5)

μ_k＝x_i (6)

其中max_csim_ic为第i个x-vector与所有k个类中心的相似度中的最大值，z_i为第i个x-vector所对应的类别标签，λ为DP-means的超参数，μ_k为第k个类的中心；

如果max_csim_ic＞λ，将第i个x-vector归入相似度最大值对应的类中，令：

z_i＝argmax_csim_ic (7)

其中，argmax_csim_ic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签；

遍历每个x-vector，完成后更新每个类的均值作为新的类中心；

步骤2-3：重复步骤2-2，直到目标函数

收敛；其中x为x-vectors，

表示每个类中x-vector的集合；

目标函数收敛后，DP-means的分类结果即为最终的说话人分割聚类结果。

优选地，所述对原始语音进行分帧操作时使用的帧长为25ms，帧移为10ms。

优选地，所述梅尔滤波器组数量为64。

优选地，所述设置段长和步长对逐帧获取的FBank进行分段处理时段长为1.44s，步长为0.24s。

优选地，所述λ在CALLHOME上设置为0.275，在AMI头戴麦克风数据设置为0.15，在AMI远场麦克风数据设置为0.05。

本发明的有益效果如下：

1.本发明提出了一种基于非参贝叶斯模型的说话人分割聚类系统。该系统对DPMM进行方差渐近，从而获得了简便的DP-means聚类系统。与基于贝叶斯概率模型的系统相比提升了说话人分割聚类系统的效率。

2.本发明使用AHC作为初始化聚类，为DP-means提供可靠的初始类中心。不但极大提高了说话人分割聚类系统的准确性，还加快了系统收敛速度。

附图说明

图1为本发明的系统架构图。

图2为本发明基于DP-means的说话人分割聚类系统算法流程图。

图3为本发明实施例中超参数对DER结果的影响，其中(a)p＝0，(b)λ＝0.275，(c)p＝130，(d)λ＝0.05。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

基于贝叶斯概率模型的聚类在说话人分割聚类领域取得了优异的性能，但它比广泛使用的高效聚类算法复杂得多，这对于一些现实生活场景来说并不适用。为了同时获得高性能与高效率的说话人分割聚类系统，本发明提出了狄利克雷过程混合模型的协方差渐近变体，称DP-means聚类，用于说话人分割聚类。

一种基于非参贝叶斯模型的说话人分割聚类方法，包括如下步骤：

步骤1：说话人特征提取；

步骤1-1：帧级别声学特征提取并分段：

对原始语音进行分帧操作，这么做是为了避免信号的频率轮廓会随着时间的推移而丢失，在这里可以认为每一帧之内的信号是短时不变的。随后对每一帧进行短时傅里叶变换(Short-time Fourier Transform，STFT)，最终在得到的能量谱上应用Mel滤波器组提取梅尔频谱(log mel-filter bank，FBank)声学特征。详细计算过程如下：

分帧时使用的帧长为25ms，帧移为10ms。STFT可视为对每一帧进行FFT，FFT的点数根据音频信号的采样率决定。采样率为8KHz时进行200点的FFT，16KHz时点数为400。通过STFT得到横坐标为时间纵坐标为频率的二维时频谱。为了使时频谱更加符合人耳对频率的敏感特性，逐帧使用梅尔滤波器组来获取FBank,在此方法中设置梅尔滤波器组数量为64。梅尔频率和普通频率的转换关系如下：

m＝2595log₁₀(1+f/700) (1)

f＝700(10^m/2596-1) (2)

其中m和f分别为梅尔频率和普通频率。梅尔滤波器组的频率响应为：

其中p为时频谱中的频率，

逐帧获取FBank后进行分段处理，设置段长为1.44s，步长为0.24s的窗口对语音进行截取。

步骤1-2：说话人特征提取：

将分段后的FBank输入基于ResNet101的网络提取N×256维的x-vectors；ResNet101网络包含一个2D卷积层、标准ResNet块、一个统计池化层和一个线性变换层；其中在统计池化层之前网络进行的是帧级别的学习。统计池化层用于在时间维度聚合整个语音段的信息，其输出的向量包含了整段语音的信息。得到N×256维的x-vector序列后进一步使用线性判别分析将x-vector向量进行降维，最终得到N×128维的x-vector序列；N是语音段数量；

步骤2：对说话人特征进行聚类；

步骤2-1：AHC初始聚类并进行类筛选；

首先将x-vectors送入AHC进行初始化聚类，AHC是一种自下而上的聚类方法，我们用余弦相似度计算的x-vectors的相似度矩阵，并将相似度矩阵输入到AHC系统中。起初AHC将每个x-vector视为一个单独的类，然后两个最近的类将合并为一个新的类。AHC设置一个阈值来停止该合并过程，当聚类之间的相似度低于阈值结束迭代。

通过AHC获得的聚类结果中各类所包含的x-vectors数量各有不同，设置一个阈值来筛选包含x-vectors数量较多的类。计算这些类的均值作为下一步DP-means的初始化类中心。

步骤2-2：DP-means聚类：

DP-means通过期望最大化(Expectation-Maximization，EM)算法进行优化。首先，它将上一步得到的类的均值作为初始类中心。然后通过计算每个点与每个类中心之间的余弦相似度，将每个x-vector分配到最近的类中去。如果最小距离大于DP-means的参数λ，则创建一个新的类。根据上一步的结果更新每个类的均值作为新的类中心。使用余弦相似度将x-vectors分配到类中时，相似度值越大，两个最近的邻居越接近重复这个算法直到目标函数收敛。具体如下：

计算每个x-vector与DP-means的每个类中心的相似度：

sim_ic＝cos(x_i，μ_c)for c＝1，...，k and i＝1，...，N (4)

对于第i个x-vector，c从1取到k：

如果max_csim_ic＜λ，则新建一个类，令：

k加1，z_i＝k (5)

μ_k＝x_i (6)

z_i＝argmax_csim_ic (7)

步骤2-3：重复步骤2-2，直到目标函数

收敛；其中x为x-vectors，

表示每个类中x-vector的集合；

具体实施例：

(1)数据准备

16kHz数据的x-vector特征提取器使用来自VoxCeleb1(来自1211个说话人的323小时语音)、VoxCeleb2(2290小时，5994个说话人)和CN-CELEB(264小时，973个发言者)的数据进行训练。来自Kaldi工具包的基于能量的VAD用于移除静音帧。在少于2个录音中出现的说话人将被丢弃。此外，还会删除少于4秒语音。这样，大约有4％的语音数据被丢弃。数据增强的执行方式与SRE16 Kaldi方法中的相同。通过这种方式，获得了四个额外的数据，其中包含人为添加的噪声、音乐或混响。训练8kHz采样率x-vector特征提取器使用与16kHz情况相同的数据集。此外，还使用了以下数据集：Mixer集合(NIST SRE 2004-2010，3805小时，4254名说话人)、Switchboard(1170小时，2591名说话人)和DeepMine(688小时，1858名说话人)。使用的任何数据都被降采样到8kHz。并使用与16kHz相同的数据选择和数据增强。

使用CALLHOME和AMI作为评估数据集。CALLHOME由单通道电话录音组成，每个录音包含2到7个说话人。数据集包含阿拉伯语、英语、德语、日语、普通话和西班牙语。它由500个录音组成。录音的平均时间约为两分钟。由于录音中文本文件的格式错误，在实验中只使用了499个录音。AMI语料库长约100小时。它由171个会议录音组成，每个录音包含4到5个说话人，持续约30分钟。将AMI的开发集和测试集合并起来，作为此实验中的测试集。AMI是数据集是同时使用头戴式麦克风和远场麦克风阵列录制的。在实验中，同时测试了来自头戴式麦克风的数据和远场麦克风阵列中随机抽取的一个通道的数据。

(2)x-vector特征提取

令帧长为25ms，帧移为10ms对语音进行分帧操作。由于CALLHOME和AMI的采样率分别为8kHz和16kHz，所以STFT就可视为对CALLHOME数据逐帧进行200点的FFT，对AMI中数据逐帧进行400点的FFT。通过STFT后，分别得到T×200T×400的时频谱。给得到的时频谱加上滤波器数为64的梅尔滤波器组得到了T×64维的FBank，其中T为帧数。随后对FBank进行分段处理，设置段长为1.44s，步长为0.24s的窗口FBank进行分段。

将分好的段送入x-vector特征提取器，得到N×256维的x-vector序列，其中N是语音段数量。再通过线性判别分析对x-vectors进行降维，最终得到N×128维的x-vector序列。

(3)初始化聚类并进行类筛选

AHC和SC被用作DP-means的初始聚类。所有聚类算法的x-vectors之间的相似度度量都使用的是余弦相似度：

其中a和b是两个向量。AHC的超参数在CALLHOME上设置为-0.12，对于AMI设置为-0.06。CALLHOME和AMI的类筛选阈值分别设置为16和190。

(4)DP-means聚类

由上一步获取类中心后，DP-means首先计算每个x-vector与每个类中心的相似度：

sim_ic＝cos(x_i，μ_c)，for c＝1，...，k and i＝1，...，N

其中μ_c为第c个说话人的类中心、x_i为第i个x-vector、k为类中心的数量，即为当前说话人的数量。

如果max_csim_ic＜λ则令：

k＝k+1，z_i＝k

μ_k＝x_i

其中z_i为第i个x-vector所对应的类别标签，λ为DP-means的超参数，在CALLHOME上设置为0.275，对于AMI头戴麦克风数据设置为0.15，对于AMI远场麦克风数据设置为0.05。

如果max_csim_ic＞λ则令：

z_i＝argmax_csim_ic

由此对所有x-vectors进行分配后对分配好的各类计算均值，作为下一轮分配的类中心。重复操作直到目标函数

收敛。详细的实施步骤如图2所示。

(5)实验结果

表1 CALLHOME和AMI上的DER(％)和计算时间(以秒为单位)的比较

表2 CALLHOME上不同初始化方法的DP-means的DER(％)

Global mean	RS30	RS50	AHC initialization
				23.41	10.70	10.42	5.79

表1列出了CALLHOME和AMI的比较结果。从表中可以看到，DP-means产生的DER低于AHC和SC。尽管所提出的方法在DER方面的表现不如基于贝叶斯概率模型的VBx方法，但比VBx高效得多。在CALLHOME、AMI头戴式麦克风和AMI远场麦克风数据集上，DP-means与VBx系统相比时间相对减少了73％、28％和41％。与AHC基线系统相比，DP-means在CALLHOME和AMI数据集上的DER相对减少了31.6％和27.2％。

为了研究DP-means的不同初始化方法对性能的影响，表2将提出的初始化聚类并进行类筛选的方法与以下两种初始化方法进行了比较。第一个称为全局均值，使用单个类中心初始化DP-means，该类中心是所有x-vectors的均值。第二个称为随机选择(Randomselection，RS)，从x-vectors序列中选择N个x-vectors作为DP-means的初始类中心。在本实验中，分别将N设置为30和50，分别表示为RS30和RS50。为了选择最佳初始类中心，多次运行DP-means，并选择使最小目标值的初始类中心。

由表2可以看出，没有进行初始聚类的DP-means很容易陷入局部最优。随机初始化在全局均值初始化的基础上DER有所下降。然而，它仍然不如基于初始聚类的初始化方法有效。

此外，从图3(a)和图3(c)，可以看到，对于不同值的λ，CALLHOME上的DER在7.15到7.31之间浮动，AMI上的DER在11.08到12.47间浮动。图3(b)和图3(d)表明，对于不同的取值类筛选的参数p，在CALLHOME上DER的变化范围在5.79到6.72之间，在AMI上在10.5到11.03之间。结果表明，所提出的方法对超参数并不敏感。

Claims

1.一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，包括如下步骤：

步骤1：说话人特征提取；

步骤1-1：帧级别声学特征提取并分段：

m＝2595log₁₀(1+f/700) (1)

f＝700(10^m/2596-1) (2)

其中m和f分别为梅尔频率和普通频率；

梅尔滤波器组的频率响应为：

其中p为时频谱中的频率，

设置段长和步长对逐帧获取的FBank进行分段处理；

步骤1-2：说话人特征提取：

步骤2：对说话人特征进行聚类；

步骤2-1：AHC初始聚类并进行类筛选；

步骤2-2：DP-means聚类：

计算每个x-vector与DP-means的每个类中心的相似度：

sim_ic＝cos(x_i，μ_c)，forr c＝1，...，k and i＝1，...，N (4)

对于第i个x-vector，c从1取到k：

如果max_csim_ic＜λ，则新建一个类，令：

k加1，z_i＝k (5)

μ_k＝x_i (6)

z_i＝argmax_csim_ic (7)其中，argmax_csim_ic表示第i个x-vector与所有k个类中心的相似度中的最大值对应的类别标签；

步骤2-3：重复步骤2-2，直到目标函数

收敛；其中x为x-vectors，l_c表示每个类中x-vector的集合；

2.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，所述对原始语音进行分帧操作时使用的帧长为25ms，帧移为10ms。

3.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，所述梅尔滤波器组数量为64。

4.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，所述设置段长和步长对逐帧获取的FBank进行分段处理时段长为1.44s，步长为0.24s。

5.根据权利要求1所述的一种基于非参贝叶斯模型的说话人分割聚类方法，其特征在于，所述λ在CALLHOME上设置为0.275，在AMI头戴麦克风数据设置为0.15，在AMI远场麦克风数据设置为0.05。