CN101452704B

CN101452704B - 一种基于信息传递的说话人聚类方法

Info

Publication number: CN101452704B
Application number: CN2007101783634A
Authority: CN
Inventors: 颜永红; 吕萍; 张翔
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2007-11-29
Filing date: 2007-11-29
Publication date: 2011-05-11
Anticipated expiration: 2027-11-29
Also published as: CN101452704A

Abstract

本发明提供一种基于信息传递的说话人聚类方法，包括如下步骤：1)计算两两数据段之间的相似度s(i，k)，其中k≠i；2)设定各数据段作为聚类中心的优先度s(k，k)，其中k表示第k个数据段，将所有的a值a(i，k)初始化为零；3)根据两两数据段之间的a值和各数据段优先度，计算两两数据段之间的r值r(i，k)；然后根据两两数据段之间的r值，再计算两两数据段之间的a值；4)将r值和a值合并，以该合并值决策聚类中心；5)重复执行步骤3)、4)，直到找到稳定的聚类中心，结束聚类，统计聚类数目本发明初始时认为每一个数据段都是潜在的聚类中心，具有较强的鲁棒性。同时本发明只需要一次性计算每两段之间的距离，具有更快的运行速度。

Description

一种基于信息传递的说话人聚类方法

技术领域

本发明属于语音识别技术领域，具体地说，本发明涉及一种说话人聚类方法。

背景技术

说话人聚类是近年来语音信号处理领域的一个研究热点，被广泛应用于语音识别和说话人识别等领域。这项技术通常与说话人分段一起应用，也就是通常所说的说话人分段聚类。说话人聚类就是将分段后的语音数据进行分类，将不同说话人的语音数据分配到不同的类里。

说话人聚类至今已有许多方法，可以分为两类：有监督算法和无监督算法。有监督聚类一般是指已知对话中说话人的个数，按照说话人的个数进行聚类；无监督说话人聚类一般是指对话中说话人的个数未知，聚类过程找到一个最优的聚类数目以及其相应的聚类结果。目前，说话人聚类领域最为广泛应用的是基于层次聚类框架的算法，层次聚类初始化计算所有语音段两两之间的距离，寻找距离最近的两段合并成一段，并更新计算其他语音段与该新语音段之间的距离，重复此过程直到得到所需要的聚类数目或者满足某一全局准则。但是，这种算法鲁棒性还有待提高。同时，此算法需要反复的计算各类与新类之间的距离(相似度)，这增加了算法的运行时间。因此，现有的很多方法，都是基于此方法上的改进，目的是增强算法的鲁棒性和速度。

发明内容

本发明的目的是克服现有技术的不足，针对语音信号的特点，通过不断迭代计算各数据段之间的r值和a值，将这两个值作为两段之间的两种交互信息，形成信息传递，从而提出一种鲁棒且快速有效的新的无监督和有监督说话人聚类方法。

为实现上述发明目的，本发明提供的基于信息传递的说话人聚类方法(可参考图1)包括初始化过程和寻找聚类中心过程；

其中初始化过程包括如下步骤：

1)计算两两语音数据段(以下简称数据段)之间的相似度s(i，k)，其中k≠i；

2)设定各数据段作为聚类中心的优先度s(k，k)，其中k表示第k个数据段，将所有的有效值a(i，k)初始化为零，下文中将有效值(availability)简称为a值；

寻找聚类中心过程包括如下子步骤：

3)根据两两数据段之间的a值和各数据段的优先度，计算两两数据段之间的责任值r(i，k)，下文中将责任值(responsibility)简称为r值；根据各数据段的r值，计算两两数据段之间的a值；

4)合并r值和a值，以该合并值决策聚类中心；

5)重复执行步骤3)、4)，直到找到稳定的聚类中心，结束聚类，统计聚类数目；

以上各步骤中，i、k分别表示第i和第k个数据段。

上述技术方案中，所述步骤1)中，所述相似度由两两数据段的距离得出，所述距离可以是欧式距离、马氏距离、KL距离或GLR距离。

上述技术方案中，所述步骤2)中，所述各数据段作为聚类中心的优先度s(k，k)均设定为所有相似度的中值。

上述技术方案中，所述步骤3)中，计算两两数据段之间的责任值r(i，k)的方法如下：

r (i, k) = s (i, k) - \max_{j &Element; [1 : N], j &NotEqual; k} [s (i, j) + a (i, j)]

上式中r(i，k)表示第i个数据段与第k个数据段的r值，N表示语音段的数目。

上述技术方案中，所述步骤3)中，计算两两数据段之间a值的方法如下：

当k＝i时

a (i, k) = \underset{i^{'} &Element; [1 : N], i^{'} &NotEqual; k}{Σ} \max (0, r (i^{'}, k))

当k≠i时

a (i, k) = \min [0, r (k, k) + \underset{i^{'} &Element; [1 : N], i^{'} &NotElement; {i, k}}{Σ} \max (0, r (i^{'}, k))]

上式中a(i，k)表示第i个数据段与第k个数据段的a值。

上述技术方案中，所述初始化过程还包括：设定聚类过程中的最大迭代次数(MaxitNum)以及收敛迭代次数(iteration)；

上述技术方案中，所述步骤5)中，所述稳定的聚类中心的判断方法如下：当迭代次数达到最大迭代次数时，认为此时的聚类中心是稳定的聚类中心。

上述技术方案中，所述步骤5)中，所述稳定的聚类中心的判断方法如下：当聚类中心的决策结果持续一定数目的迭代次数不变时，认为此时的聚类中心是稳定的聚类中心。

上述技术方案中，所述步骤5)中，所述稳定的聚类中心的判断方法如下：当聚类中心的决策结果持续一定数目的迭代次数不变时，或者当迭代次数达到最大迭代次数时，认为此时的聚类中心是稳定的聚类中心。

上述技术方案中，所述寻找聚类中心过程在步骤5)完成后，还包括如下步骤：

6)比较步骤5)中统计的聚类数目和预先设定的已知说话人聚类数目，当二者不相等时，修改各数据段的优先度，并将各数据段的a值重新置零；其中，每个数据段的优先度的修改根据以下公式来进行：

s_n+1(k，k)＝s_n(k，k)-Step×(C_n-C_exp)

式中s_n(k，k)是第n次聚类时第k个数据段的优先度，C_n是第n次聚类时得到的聚类数目，C_exp是预先设定的已知说话人聚类数目(即期望得到的聚类数目)，step是自适应因子。

本发明具有如下技术效果：与现有技术相比，本发明采用了一种与传统的层次聚类等方法截然不同的方法。该方法初始时认为每一个数据段都是潜在的聚类中心，即认为每个数据段作为最终的聚类中心的概率是一样的，这样可以从一定程度上避免一些不好的聚类决策，所以这个方法具有较强的鲁棒性。同时这个方法在运行过程中只需要一次性计算好每两段之间的距离，在寻找聚类中心的过程中不需要再额外计算距离，层次聚类不但要计算每两段之间的距离，还需要不断更新计算新段与其它段之间的距离。而对聚类方法影响最大的便是距离的计算，因此该方法比层次聚类具有更快的运行速度。本发明也可以用来做无监督聚类。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1是本发明的聚类算法框图；

图2是本发明一种实施例无监督说话人聚类详细流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

实施例1

本发明提供的基于信息传递的有监督说话人聚类方法包括如下步骤：

步骤101，读取说话人分段后得到的分段信息。

步骤102，确定语音段的数目N，设定聚类过程中的最大迭代次数(MaxitNum)，判断收敛时的收敛迭代次数(iteration)。在本实施例中，最大迭代次数设为500，收敛迭代次数设为50。

步骤103，从输入语音信号中提取特征矢量序列，本实施例中采用14维的LSP特征。

步骤104，计算两两语音段之间的相似度。将距离加负号后作为输入的相似度(这是本领域技术人员的常用作法)。在实际应用中，将第i个数据段与第k个数据段的相似度用s(i，k)表示，其中k≠i。常用的距离有欧式距离，马氏距离，KL距离，以及GLR距离等。实用过程中可根据不同情况选择距离度量。

在本实施例中采用GLR距离来最为两两语音段之间的距离。具体计算公式如下：

s(i，k)＝-d_GLR(x_i，x_k)，i≠k

上式中s(i，k)即是所需要的相似度，表示了两段之间的相似程度。d_GLR(x_i，x_k)是第i段与第k段之间的GLR距离。x_i，x_k分别是第i段与第k段的特征向量，它们可以用两个高斯模型来表征：N(μ_xi，∑_xi)，N(μ_xk，∑_xk)。GLR距离的具体计算公式如下：

d_{GLR} (x_{i}, x_{k}) = \log (\frac{L (x_{i}; μ_{x_{i}}, Σ_{x_{i}}) \cdot L (x_{k}; μ_{x_{k}}, Σ_{x_{k}})}{L (y; μ_{y}, Σ_{y})})

其中，L(*)是似然函数，y表示特征向量x_i和x_k的结合，y用混合高斯N(μ_y，∑_y)来表征。

步骤105，选取优先度，将所有语音段作为聚类中心的优先度都设定为所有相似度的中值。本发明中，每个数据段被选做聚类中心的几率是相等的，故所有语音段的优先度(preference)都设为同一个值，即所有相似度的中值。这些优先度的大小关系到最终的聚类类别的数目，通过更改此值，可以得到不同的聚类数目。本发明就是通过这一条件来得到期望的聚类类别数目。优先度在公式中用s(k，k)来表示。所有的优先度s(k，k)都通过以下公式来计算：

s(k，k)＝median_{i＝1：N，j＝1：n，i≠j}[s(i，k)]

其中median符号表示中值。

步骤106，将所有的有效值(a值)初始化为零；用a(i，k)来表示第i个数据段与第k个数据段的a值。这个a值反映了除第k个数据段以外的其他所有数据段相比，第i个数据段选择第k个数据段作为它的聚类中心的合适程度。

步骤107，根据以下公式计算r值：

r (i, k) = s (i, k) - \max_{j &Element; [1 : N,] j &NotEqual; k} [s (i, j) + a (i, j)]

上式中r(i，k)表示第i个数据段与第k个数据段的r值。这个r值反映了第k个数据段与其他第i个数据段的潜在的聚类中心相比，第k个数据段作为第i个数据段的聚类中心的适合程度。

根据以下公式计算a值：

当k＝i时

a (i, k) = \underset{i^{'} &Element; [1 : N], i^{'} &NotEqual; k}{Σ} \max (0, r (i^{'}, k))

当k≠i时

a (i, k) = \min [0, r (k, k) + \underset{i^{'} &Element; [1 : N], i^{'} &NotElement; {i, k}}{Σ} \max (0, r (i^{'}, k))]

步骤108，计算所有r(i，k)+a(i，k)的值，对每一个i寻找相应的使r(i，k)+a(i，k)最大的k。对第i个数据段来说，使r(i，k)+a(i，k)的值最大的那个数据段k＝i时，说明第i个数据段是聚类中心，如果k≠i，说明第k个数据段是第i个数据段的聚类中心。

步骤109，重复执行步骤107、步骤108，按照一定准则找到稳定的聚类中心后，结束一次聚类，统计聚类数目。所述准则为当聚类中心的决策结果持续一定数目的迭代次数保持不变时(如持续50次迭代中，决策结果保持不变)，或者迭代次数达到最大迭代次数时，认为此时的聚类决策稳定可靠，从而停止该次聚类。

步骤110，若步骤109中得到的聚类数目不是指定的数目，则修改每个语音段的优先度，这个优先度影响到每次迭代聚类得到的类数目。重复步骤106)、107)、108)、109)，直到得到的聚类数目与指定的聚类数目相同，则此时输出聚类结果。在此步骤中每个语音段的优先度的修改根据以下公式：

s_n+1(k，k)＝s_n(k，k)-step×(C_n-C_exp)

上式中s_n(k，k)是第n次聚类时每个数据段的优先度，C_n是第n次聚类时得到的聚类数目，C_exp是期望得到的聚类数目，step是自适应因子，可以根据实验或经验来设定。

通过以上步骤就可以完成有监督说话人聚类。

实施例2

如图2所示，本发明提供的基于信息传递的无监督说话人聚类方法包括如下步骤(本实施例中的诉述大部分步骤与实施例1相同，故对这些步骤不再作详细讲解)：

步骤101，读取说话人分段后得到的分段信息。

步骤102，确定语音段的数目，设定聚类过程中的最大迭代次数，判断收敛时的迭代次数，以及衰减因子。

步骤103，从输入语音信号中提取特征矢量序列。

步骤104，计算两两语音段之间的相似度。

步骤105，选取优先度。

步骤106，将所有的a值初始化为零；

步骤107，根据公式计算r值和a值：

步骤108，计算所有r(i，k)+a(i，k)的值，寻找聚类中心。

步骤109，重复执行步骤108，按照准则找到稳定的聚类中心后，停止聚类。

由上可见该无监督说话人聚类可以作为有监督说话人聚类的一部分来看待。有监督说话人聚类就是不断重复执行无监督说话人聚类过程，对每个语音段寻找合适的优先度，从而得到期望的聚类数目，实现有监督聚类。

最后，最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于信息传递的说话人聚类方法，包括初始化过程和寻找聚类中心过程；

其中初始化过程包括如下步骤：

1)计算两两数据段之间的相似度s(i，k)，其中k≠i；

2)设定各数据段作为聚类中心的优先度s(k，k)，其中k表示第k个数据段，将所有的有效值a(i，k)初始化为零；

寻找聚类中心过程包括如下子步骤：

3)根据两两数据段之间的有效值和各数据段优先度，计算两两数据段之间的责任值r(i，k)；然后根据两两数据段之间的责任值，再计算两两数据段之间的有效值；

4)将相应的责任值和有效值合并得出合并值r(i，k)+a(i，k)，以该合并值决策聚类中心；

以上各步骤中，i、k分别表示第i和第k个数据段；

所述步骤2)中，所述各数据段作为聚类中心的优先度s(k，k)均设定为所有相似度的中值；

所述步骤3)中，计算两两数据段之间的责任值r(i，k)的方法如下：

上式中r(i，k)表示第i个数据段与第k个数据段的r值，N表示数据段的个数；

所述步骤3)中，计算两两数据段之间的有效值的方法如下：

当k＝i时

当k≠i时

上式中a(i，k)表示第i个数据段与第k个数据段的a值，N表示数据段的个数；

所述步骤4)中，计算所有r(i，k)+a(i，k)的值，对每一个i寻找相应的使r(i，k)+a(i，k)最大的k；对第i个数据段来说，使r(i，k)+a(i，k)的值最大的那个数据段k＝i时，说明第i个数据段是聚类中心，如果k≠i，说明第k个数据段是第i个数据段的聚类中心。

2.根据权利要求1所述的基于信息传递的说话人聚类方法，其特征在于，所述步骤1)中，所述相似度由两两数据段的距离得出，所述距离可以是欧式距离、马氏距离、KL距离或GLR距离。

3.根据权利要求1所述的基于信息传递的说话人聚类方法，其特征在于，所述初始化过程还包括：设定聚类过程中的最大迭代次数以及收敛迭代次数。

4.根据权利要求3所述的基于信息传递的说话人聚类方法，其特征在于，所述步骤5)中，所述稳定的聚类中心的判断方法如下：当迭代次数达到最大迭代次数时，认为此时的聚类中心是稳定的聚类中心。

5.根据权利要求3所述的基于信息传递的说话人聚类方法，其特征在于，所述步骤5)中，所述稳定的聚类中心的判断方法如下：当聚类中心的决策结果持续一定数目的迭代次数保持不变时，认为此时的聚类中心是稳定的聚类中心，所述一定数目是所设定的收敛迭代次数。

6.根据权利要求1所述的基于信息传递的说话人聚类方法，其特征在于，所述寻找聚类中心过程在步骤5)完成后，还包括如下步骤：

6)比较步骤5)中统计的聚类数目和预先设定的已知说话人聚类数目，当二者不相等时，修改各数据段的优先度，并将各数据段的有效值重新置零；其中，每个数据段的优先度的修改根据以下公式来进行：

s_n+1(k，k)＝s_n(k，k)-step×(C_n-C_exp)

式中s_n(k，k)是第n次聚类时第k个数据段的优先度，C_n是第n次聚类时得到的聚类数目，C_exp是预先设定的已知说话人聚类数目，step是自适应因子。