CN109065028A

CN109065028A - 说话人聚类方法、装置、计算机设备及存储介质

Info

Publication number: CN109065028A
Application number: CN201810592867.9A
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2018-12-21
Anticipated expiration: 2038-06-11
Also published as: WO2019237517A1; CN109065028B

Abstract

本发明公开了一种说话人聚类方法、装置、计算机设备及存储介质，其中，该说话人聚类方法包括：将至少两个待聚类语音按语音时长降序排列；依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量；若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量；将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到对应的聚类类簇中。本发明通过判定待聚类语音的语音特征相似度不大于预设阈值时，自动生成与待聚类语音对应的当前通用语音向量，提高分类的准确性。

Description

说话人聚类方法、装置、计算机设备及存储介质

技术领域

本发明涉及声纹识别领域，尤其涉及一种说话人聚类方法、装置、计算机设备及存储介质。

背景技术

说话人聚类方法是直接根据说话人的某种特性，比如说话人的性别、年龄、口音等，将训练集中的说话人根据其语音特性分成若干个子集，每一个子集内的说话人都具有相似度高的某种语音特性，然后专门为每个子集训练声学模型，最终形成存储若干类簇的声学模型库。在测试说话人的待聚类语音时，将声学模型库中的所有已存声学模型依次与待聚类语音进行相似度判断，以确认该待聚类语音属于哪个类簇。

现有说话人聚类方法只能基于已知声学模型库对待聚类语音进行分类，对待聚类语音的聚类范围有所限制，可能产生分类不准确的现象。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高说话人聚类准确性的说话人聚类方法、装置、计算机设备及存储介质。

一种说话人聚类方法，包括：

将至少两个待聚类语音按语音时长降序排列；

依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量；

若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量；

将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

一种说话人聚类装置，包括：

语音降序排列模块，用于将至少两个待聚类语音按语音时长降序排列；

获取通用向量模块，用于依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量；

训练当前向量模块，用于若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量；

存储当前向量模块，用于将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述说话人聚类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述说话人聚类方法的步骤。

上述说话人聚类方法、装置、计算机设备及存储介质，通过将至少两个待聚类语音按语音时长降序排列，当待聚类语音在目标通用语音向量中针对分类进行的类簇识别的语音特征相似度不大于预设阈值时，生成与待聚类语音对应的当前通用语音向量，提高对待聚类语音进行分类的准确性；将当前通用语音向量存储在预设声学模型库中，扩大预设声学模型库的可识别聚类类簇的范围，提高预设声学模型库的灵活性和可扩展性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中说话人聚类方法的一应用环境示意图；

图2是本发明一实施例中说话人聚类方法的一流程图；

图3是本发明一实施例中说话人聚类方法的另一流程图；

图4是本发明一实施例中说话人聚类方法的另一流程图；

图5是本发明一实施例中说话人聚类方法的另一流程图；

图6是本发明一实施例中说话人聚类方法的另一流程图；

图7是本发明一实施例中说话人聚类装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的说话人聚类方法方法，可应用在如图1的应用环境中，其中，用于采集待聚类语音的计算机设备通过网络与识别服务器进行通信。其中，计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。识别服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种说话人聚类方法，以该方法应用在图1中的识别服务器为例进行说明，包括如下步骤：

S10.将至少两个待聚类语音按语音时长降序排列。

其中，待聚类语音是用于按类簇特征进行判定，待划分到对应类簇的说话人语音。

每个待聚类语音因语速、录制内容等因素造成语音时长不一定相同，从几分钟到几秒不等。可以理解地，待聚类语音的时长越长，可提取的语音特征越明显越准确。因此，步骤S10中，识别服务器将待聚类语音按语音时长降序排列以形成队列，识别服务器按队列顺序来依次判定待识别语音所属的类簇，可提高分类准确性。

S20.依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量。

其中，预设声学模型库中存储有根据现有所有类簇的类簇特征分别建立的原始通用语音向量。比如，预设声学模型库中可以保存按说话人年龄特征来进行划分并保存的原始通用语音向量，以出生到10岁为第一聚类类簇，以11岁至20岁为第二聚类类簇，以21岁至30岁为第三聚类类簇，此类类推。

原始通用语音向量是表示同一类簇说话人的特征向量。

目标通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的一原始通用语音向量。

步骤S20中，识别服务器依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行识别对比，可匹配到与相似度最高的一目标通用语音向量，利于进一步判定待聚类语音是否与该目标通用语音向量属于同一类簇，有助于提高对待聚类语音进行聚类的准确性。

S30.若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，获取与待聚类语音对应的当前通用语音向量。

其中，语音特征相似度是待聚类语音和目标通用语音向量进行对比后得到的相似度比值。

预设阈值是根据实际经验设定的阈值，该阈值可以用于限定待聚类语音和目标通用语音向量属于同一类簇时，其语音特征相似度的最小值。应用于本实施例，可将预设阈值设定为0.75，即当待聚类语音在目标通用语音向量中的语音特征相似度不大于0.75时，执行采用待聚类语音进行模型训练，获取与待聚类语音对应的当前通用语音向量的步骤。

当前通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的目标通用语音向量，但该待聚类语音在目标通用语音向量是的语音特征相似度不大于预设阈值，而根据待聚类语音自身具有的类簇属性而建立的新的当前向量。比如，以年龄进行划分的预设声学模型库中仅存有出生到10岁的第一聚类类簇、从11岁到20岁的第二聚类类簇，从21岁到30岁的第三聚类类簇。而待聚类语音的说话人为35岁，当待聚类语音在该预设声学模型库中未匹配到与自身语音特征相似度大于预设阈值的类簇向量，可根据说话人的年龄所处的划分段，建立以31岁到40岁的第四聚类类簇，作为对应的当前通用语音向量。

步骤S30中，当待聚类语音在预设声学模型库中未匹配到与自身语音特征相似的目标通用语音向量时，识别服务器可根据待聚类语音自身具有的类簇属性而为待聚类语音建立的新的当前通用语音向量，增添了预设声学模型库的灵活性，和对待聚类语音进行划分的分类准确性。

S40.将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

其中，当前通用语音向量即步骤S30得到的语音向量，预设声学模型库即步骤S20得到的包括多个聚类类簇的数据库，待聚类语音就是步骤S10输入识别服务器的语音数据。

步骤S40中，识别服务器可将待聚类语音新生成的当前通用语音向量存储到预设声学模型库中，扩大预设声学模型库的可识别聚类类簇的范围，提高预设声学模型库的灵活性和可扩展性，同时提高对待聚类语音进行分类的准确性。

本发明实施例提供的说话人聚类方法，通过将至少两个待聚类语音按语音时长降序排列，当待聚类语音在目标通用语音向量中针对分类进行的类簇识别的语音特征相似度不大于预设阈值时，生成与待聚类语音对应的当前通用语音向量，提高对待聚类语音进行分类的准确性。将当前通用语音向量存储在预设声学模型库中，扩大预设声学模型库的可识别聚类类簇的范围，提高预设声学模型库的灵活性和可扩展性。

在一实施例中，在步骤S20之后，即在获取与待聚类语音对应的目标通用语音向量的步骤之后，说话人聚类方法还包括：

S50.若待聚类语音在目标通用语音向量中的语音特征相似度大于预设阈值，则将待聚类语音归类到目标通用语音向量对应的聚类类簇中。

其中，待聚类语音是用于按类簇特征进行判定，待划分到对应类簇的说话人语音。目标通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的一目标通用语音向量。语音特征相似度是待聚类语音和目标通用语音向量进行对比后得到的语音特征相似度。

预设阈值是根据实际经验设定的阈值，该阈值可以用于限定待聚类语音和目标通用语音向量属于同一类簇时，其语音特征相似度的最小值。应用于本实施例，可将预设阈值设定为0.75，即当待聚类语音在目标通用语音向量中的语音特征相似度大于0.75时，执行将待聚类语音归类到目标通用语音向量对应的聚类类簇中。

步骤S50中，当待聚类语音在预设声学模型库中匹配到与自身语音特征相似的目标通用语音向量，且待聚类语音相对目标通用语音向量的语音特征相似度大于预设阈值，识别服务器可自动将待聚类语音归类到目标通用语音向量对应的聚类类簇中，提高语音识别的聚类速度。

在一实施例中，如图3所示，在步骤S20中，即依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量，具体包括如下步骤：

S21.依序将每一待聚类语音按预设规则划分成第一语音段和第二语音段。

其中，预设规则是用以设定将待聚类语音划分为第一语音段和第二语音段的时长的规则。

第一语音段是用以和预设声学模型库中每一原始通用语音向量进行语音自适应的语音段，第二语音段是用来与第一语音段进行自适应后生成的自适应语音特征进行对比的语音段。

可以理解地，用于进行自适应的第一语音段的时长越长，则自适应后生成的自适应语音特征准确性越高。因此，该预设规则遵循的原则是第一语音段的时长百分比大于第二语音段的时长百分比。应用于本实施例，可将用于自适应的第一语音段的时长百分比设定为75％；第二语音段的时长百分比设定为25％，用来进行聚类类簇的语音特征相似度打分。

步骤S21将待聚类语音段划分为用以进行语音自适应的第一语音段和用以进行打分的第二语音段，利于后续基于上述待聚类语音的两个语音段进行聚类类簇判定的准确性。

S22.分别对第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征。

其中，本实施例中提到的语音特征是代表本类簇区别于其它类簇的语音特征。一般采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC特征)作为语音特征。检测发现人耳像一个滤波器组，只关注某些特定的频率分量(人的听觉对频率是非线性的)，也就是说人耳接收声音频率的信号是有限的。然而这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，他们分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。梅尔刻度滤波器组在低频部分的分辨率高，跟人耳的听觉特性是相符的，因此将采用梅尔频率倒谱系数作为语音特征，可以很好地体现聚类类簇的语音特征。

由上述对于语音特征的定义可知，第一语音特征是待聚类语音用于自适应部分的第一语音段对应的MFCC特征，第二语音特征是用于打分的第二语音段对应的MFCC特征。

本实施例中，获取第一语音特征的实现过程包括：对第一语音段进行预处理，获取预处理语音数据；预处理语音数据就是预加重语音数据，预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加，语音信号在传输过程中受损很大，为了使接收端能得到比较好的信号波形，就需要对受损的语音信号进行补偿。预加重技术的思想就是在传输线的发送端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减，使得接收端能够得到较好的语音信号波形。预加重对噪声并没有影响，因此能够有效提高输出信噪比。

对预处理语音数据作快速傅里叶变换，获取第一语音段的频谱，并根据频谱获取第一语音段的功率谱；采用梅尔刻度滤波器组处理第一语音段的功率谱，获取第一语音段的梅尔功率谱；在梅尔功率谱上进行倒谱分析，获取第一语音段的梅尔频率倒谱系数，也即获得第一语音段的MFCC特征。

对梅尔功率谱进行倒谱分析，根据倒谱的结果，分析并获取第一语音段的MFCC特征。通过该倒谱分析，可以将原本特征维度过高，难以直接使用的训练语音数据的梅尔功率谱中包含的特征，通过在梅尔功率谱上进行倒谱分析，转换成易于使用的特征(用来进行训练或识别的MFCC特征特征向量)。该MFCC特征能够作为第一语音特征对不同语音进行区分的系数，该第一语音特征可以反映语音之间的区别，可以用来识别和区分训练语音数据。

由于获取第二语音特征的实现过程与获取第一语音特征的过程相同，不再赘述。

步骤S22中，分别对第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征，能够准确地体现待聚类语音的特征，并将两者分别用于自适应和打分，可提高对待聚类语音进行聚类类簇的准确性。

S23.将第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应，获取每一原始通用语音向量对应的自适应语音特征。

其中，预设声学模型库中存储有根据现有所有类簇的类簇特征分别建立的原始通用语音向量。

语音自适应是在已经训练好的原始通用语音向量的基础上，用第一语音特征对原始通用语音向量进行调整，以提高原始通用语音模型的建模精度，从而使语音识别率接近于对第一语音特征经过充分训练的水平。目前广泛使用的语音自适应算法是基于MAP(Maximum a Posteriori，最大后验概率方法)方法进行参数重估。该方法利用原始通用语音向量参数的先验概率，以原始通用语音向量参数的后验概率最大为准则，重新估计原始通用语音向量的参数，从而提高自适应效果。可以理解地，自适应语音特征就是重新估计原始通用语音向量的参数后形成的新的第一语音特征对应的语音向量。MAP重估方法的实现过程如下：

设O＝{O₁,O₂...,O_r}是第一语音特征的概率密度函数为p(O)的一系列观察值，λ_estimate是定义分布的原始通用语音向量的参数集合，p(λ|O)是原始通用语音向量参数的后验分布。重估问题也即是给定训练数据序列O，重新估计λ_estimate的过程。这个过程采用下述公式(1)实现：

应用贝叶斯准则可得：

式中p(λ)是原始通用语音向量参数的先验分布，其中，λ是符合先验分布p(λ)的随机变量。

将(2)式代入(1)式可得到：

步骤S23可获取获取每一原始通用语音向量对应的自适应语音特征，利于进一步基于该特征进行聚类类簇的判定技术基础。

S24.对自适应语音特征和第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度。

其中，识别相似度是两个向量之间的相似程度，可通过计算两个向量的余弦空间距离从而得到余弦值，因此是数值是从-1到1之间的。其中-1表示两个向量方向相反，1表示两个向量指向相同；0表示两个向量是独立的。在-1和1之间表示两个向量之间的相似性或相异性，可以理解地，相似度越接近1表示两个向量越接近。

步骤S24中，识别服务器可获取并记录每一原始通用语音向量对应的识别相似度，可基于该识别相似度判定出最接近的待聚类语音所在的聚类类簇。

S25.选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量。

其中，目标通用语音向量是待聚类语音在预设声学模型库中匹配到与自身语音特征相似度最高的一原始通用语音向量。

可以理解地，两个向量的识别相似度最高说明两个向量最接近。步骤S26中通过选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量，可暂时判定出待聚类语音在预设声学模型库中最有可能属于的已有的聚类类簇。

步骤S21至S25中，将待聚类语音划分为第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征，能够准确地体现待聚类语音的特征，并将两者分别用于自适应和打分，可提高对待聚类语音进行聚类类簇的准确性；通过选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量，可暂时判定出待聚类语音在预设声学模型库中最有可能属于的已有的聚类类簇。

在一实施例中，如图4所示，在步骤S24中，即对自适应语音特征和第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度，具体包括如下步骤：

S241.分别获取自适应语音特征和第二语音特征对应的识别i-vector向量和第二i-vector向量。

其中，自适应语音特征就是重新估计原始通用语音向量的参数后形成的新的第一语音特征。第二语音特征是用于打分的待聚类语音对应的第二语音段的语音特征。

识别i-vector向量和第二i-vector向量是通过将识别i-vector向量和第二i-vector向量分别降维映射到一个低维的总变量空间后得到的两个固定长度的矢量表征。

具体地，获取I-Vector向量的过程，也称身份因子方法，它不尝试去强制分开说话人空间和信道空间，而是直接设置一个全局变化空间，它包含了语音数据中所有可能的信息。然后通过因子分析的方法，得到全局变化空间的载荷因子，这个就叫做I-Vector向量。

步骤S241，通过分别获取自适应语音特征和第二语音特征对应的识别i-vector向量和第二i-vector向量，可基于这两个矢量表征来进一步获取识别i-vector向量和第二i-vector向量的空间距离。

S242.采用余弦相似度算法获取识别i-vector向量和第二i-vector向量的识别相似度。

具体地，获取识别i-vector向量和第二i-vector向量的识别相似度可由以下公式获得的余弦值进行判定：

其中，A_i和B_i分别代表向量A和向量B的各个分量。由上式可知，相似度范围从-1到1，其中-1表示两个向量方向相反，1表示两个向量指向相同；0表示两个向量是独立的。在-1和1之间表示两个向量之间的相似性或相异性，可以理解地，相似度越接近1表示两个向量越接近。

步骤S241至S242，识别服务器可采用余弦相似度算法获取识别i-vector向量和第二i-vector向量的识别相似度，简单快捷。

在一实施例中，如图5所示，在步骤S30中，即采用待聚类语音进行模型训练，获取与待聚类语音对应的当前通用语音向量，具体包括如下步骤：

S31.提取待聚类语音的测试语音特征。

测试语音特征是待聚类语音代表的聚类类簇区别于其它类簇的语音特征，具体是指对待聚类语音进行特征提取后获取的语音特征，应用于本实施例，可采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC特征)作为测试语音特征。

步骤S31中，识别服务器通过提取待聚类语音的测试语音特征，为建立当前通用语音向量准备技术支持。

S32.采用简化模型算法简化处理测试语音特征，获取简化语音特征。

其中，简化模型算法是指高斯模糊(Gaussian Blur，高斯平滑)处理算法，用于降低语音文件的声音噪声和细节层次。简化语音特征是经简化模型算法简化后去除声音噪声，得到的较为纯净的语音特征。

步骤S32中采用简化模型算法简化处理测试语音特征具体可先获取测试语音特征的二维正态分布，再模糊二维正态分布的所有音素，以获取更纯净的简化语音特征，该简化语音特征可以在很大程度上体现测试语音特征的特性，有助于提高后续训练当前通用语音向量的效率。

S33.采用最大期望算法迭代简化语音特征，获取总体变化子空间。

其中，最大期望算法(Expectation Maximization Algorithm，最大期望算法，以下简称EM算法)是一种迭代算法，在统计学中被用于寻找依赖于不可观察的隐性变量的概率模型中参数的最大似然估计。

总体变化子空间(Total Variability Space，以下简称T空间)，是直接设置一个全局变化的映射矩阵，用以包含语音数据中说话人所有可能的信息，在T空间内不分开说话人空间和信道空间。T空间能把高维充分统计量(超矢量)映射到可以作为低维说话人表征的i-vector(identity-vector,身份认证向量)，起到降维作用。T空间的训练过程包括：根据预设UBM模型，利用向量分析和EM(Expectation Maximization Algorithm，最大期望)算法，从其中收敛计算出T空间。

采用EM算法迭代简化语音特征，获取T空间的实现过程如下：

预先设置样本集x＝(x⁽¹⁾,x⁽²⁾,...x^(m))包含m个独立样本，每个样本x_i对应的类别z_i是未知的，需要顾及联合分布概率模型p(x,z|θ)和条件分布概率模型p(z|x,θ)的参数θ,即需要找到合适的θ和z让L(θ)最大，其中，最大迭代次数J：

1)随机初始化简化语音特征的模型参数θ，初值为θ⁰。

2)for j from 1 to J开始EM算法迭代：

a)E步：计算联合分布的条件概率期望，根据参数θ初始值或上一次迭代所得参数值来计算出隐性变量的后验概率(即隐性变量的期望)Q_i(z⁽ⁱ⁾)，作为隐性变量的现估计值：

Q_i(z⁽ⁱ⁾)＝P(z⁽ⁱ⁾|x⁽ⁱ⁾，θ^j))

b)M步：极大化L(θ,θ^j),得到θ^j+1(将似然函数最大化以获得新的参数值)：

c)如果θ^j+1已收敛，则算法结束。否则继续回到步骤a)进行E步迭代。

3)输出：T空间的模型参数θ。

步骤33获取的总体变化子空间不区分说话人空间和信道空间，将声道空间的信息和信道空间的信息收敛于一个空间，以降低计算复杂度，便于进一步基于总体变化子空间，以获取简化的当前通用语音向量。

S34.将简化语音特征投影到总体变化子空间，以获取类簇标识对应的当前通用语音向量。

其中，简化语音特征就是由步骤S32获取的经简化模型算法处理后获取的语音特征。

当前通用语音向量是将简化语音特征投影到低维的总体变化子空间，获取的一个固定长度的矢量表征，用以表示属于同一类簇的多个说话人形成的语音向量。

步骤S31至S34中，识别服务器采用简化模型算法简化处理测试语音特征，获取简化语音特征后，再将简化语音特征投影到总体变化子空间后，可得更为纯净和简单的当前通用语音向量，以便后续基于当前通用语音向量对说话人的语音数据进行语音聚类，以降低进行语音聚类的复杂性，同时加快语音聚类的效率。

在一实施例中，如图6所示，在步骤S32中，即采用简化模型算法简化处理测试语音特征，获取简化语音特征，具体包括如下步骤：

S321.采用高斯滤波器处理测试语音特征，获取对应的二维正态分布。

其中，高斯滤波器可对输入的测试语音特征进行线性平滑滤波，适用于消除高斯噪声，广泛应用于减噪过程。高斯滤波器处理测试语音特征的过程具体为对测试语音特征进行加权平均的过程，以测试语音特征中的音素为例，每一个音素的值，都由其本身和邻域内的其他音素值经过加权平均后得到。

二维正态分布(又名二维高斯分布)，是满足如下密度函数特点：关于μ对称，在μ处达到最大值，在正(负)无穷远处取值为0，在μ±σ处有拐点；二维正态分布的形状是中间高两边低，图像是一条位于x轴上方的钟形曲线。

具体地，高斯滤波器对测试语音特征进行处理的具体操作是：用一个3*3掩模扫描训练语音数据中的每一个音素，用掩模确定的邻域内音素的加权平均值去替代模板中心音素的值后形成有关训练语音数据的二维正态分布,其中，每一个音素的加权平均值的计算过程包括：

(1)求各音素的权值总和。(2)逐个扫描测试语音特征中的音素，根据音素中各位置的权值求其邻域的加权平均值，并将求得的加权平均值赋给当前位置对应的音素。(3)循环步骤(2)，直到处理完测试语音特征的全部音素。

经步骤S321，可去除测试语音特征中的噪音，输出为线性平滑的声音滤波，以获取纯净的声音滤波进行进一步处理。

S322.采用简化模型算法简化二维正态分布，获取简化语音特征。

应用于本实施例，简化模型算法可采用高斯模糊算法来简化二维正态分布。

具体地，高斯模糊算法简化二维正态分布的实现过程包括：每一个音素都取周边音素的平均值，"中间点"取"周围点"的平均值。在数值上，这是一种"平滑化"。在图形上，就相当于产生"模糊"效果，"中间点"失去细节。显然，计算平均值时，取值范围越大，"模糊效果"越强烈。

步骤S322中，识别服务器通过简化模型算法可获取测试语音特征对应的二维正态分布的简化语音特征，可进一步降低测试语音特征的语音细节，简化语音特征。

步骤S321至S322，识别服务器可依次将测试语音特征进行除噪和降低细节，以得到纯净简单的简化语音特征，利于提高语音聚类的识别效率。

本发明实施例提供的说话人聚类方法，通过将至少两个待聚类语音按语音时长降序排列，当待聚类语音在目标通用语音向量中针对分类进行的类簇识别的语音特征相似度不大于预设阈值时，生成与待聚类语音对应的当前通用语音向量，提高对待聚类语音进行分类的准确性；将当前通用语音向量存储在预设声学模型库中，扩大预设声学模型库的可识别聚类类簇的范围，提高预设声学模型库的灵活性和可扩展性。

优选地，识别服务器将待聚类语音段划分为用以进行语音自适应的第一语音段和用以进行打分的第二语音段，分别对第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征，能够准确地体现待聚类语音的特征，并将两者分别用于自适应和打分，可提高对待聚类语音进行聚类类簇的准确性。识别服务器通过选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量，可暂时判定出待聚类语音在预设声学模型库中最有可能属于的已有的聚类类簇。识别服务器采用余弦相似度算法获取识别i-vector向量和第二i-vector向量的识别相似度，简单快捷。识别服务器采用简化模型算法简化处理测试语音特征，获取简化语音特征后，再将简化语音特征投影到总体变化子空间后，可得更为纯净和简单的当前通用语音向量，以便后续基于当前通用语音向量对说话人的语音数据进行语音聚类，以降低进行语音聚类的复杂性，同时加快语音聚类的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种说话人聚类装置，该说话人聚类装置与上述实施例中说话人聚类方法一一对应。如图7所示，该说话人聚类装置包括语音降序排列模块10、获取通用向量模块20、训练当前向量模块30和存储当前向量模块40，各功能模块详细说明如下：

语音降序排列模块10，用于将至少两个待聚类语音按语音时长降序排列。

获取通用向量模块20，用于依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量。

训练当前向量模块30，用于若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量。

存储当前向量模块40，用于将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

优选地，该说话人聚类装置还包括归类聚类类簇单元21。

归类聚类类簇单元50，用于若所述待聚类语音在所述目标通用语音向量中的语音特征相似度大于预设阈值，则将所述待聚类语音归类到所述目标通用语音向量对应的聚类类簇中。

优选地，获取通用向量模块20包括划分语音段单元21、获取语音特征单元22、获取识别特征单元23、获取识别相似度单元24和选取语音模型单元25

划分语音段单元21，用于依序将每一所述待聚类语音按预设规则划分成第一语音段和第二语音段。

获取语音特征单元22，用于分别对所述第一语音段和所述第二语音段进行特征提取，获取第一语音特征和第二语音特征。

获取识别特征单元23，用于将所述第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应，获取每一原始通用语音向量对应的自适应语音特征。

获取识别相似度单元24，用于对所述自适应语音特征和所述第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度。

选取语音模型单元25，用于选取识别相似度最高的原始通用语音向量作为与所述待聚类语音对应的目标通用语音向量。

优选地，获取识别相似度单元24包括获取识别向量子单元241和获取识别相似度子单元242。

获取识别向量子单元241，用于分别获取所述自适应语音特征和所述第二语音特征对应的识别i-vector向量和第二i-vector向量。

获取识别相似度子单元242，用于采用余弦相似度算法获取所述识别i-vector向量和所述第二i-vector向量的识别相似度。

优选地，训练当前向量模块30包括提取测试特征单元31、获取简化特征单元32、获取变化子空间单元33和获取通用向量单元34。

提取测试特征单元31，用于提取待聚类语音的测试语音特征。

获取简化特征单元32，用于采用简化模型算法简化处理测试语音特征，获取简化语音特征。

获取变化子空间单元33，用于采用最大期望算法迭代简化语音特征，获取总体变化子空间。

获取通用向量单元34，用于将简化语音特征投影到总体变化子空间，以获取类簇标识对应的当前通用语音向量。

优选地，该获取当前语音模型单元33包括获取正态分布子单元321和获取简化特征子单元322。

获取正态分布子单元321，用于采用高斯滤波器处理测试语音特征，获取对应的二维正态分布。

获取简化特征子单元322，用于采用简化模型算法简化二维正态分布，获取简化语音特征。

关于说话人聚类装置的具体限定可以参见上文中对于说话人聚类方法的限定，在此不再赘述。上述说话人聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与说话人聚类方法相关的语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种说话人聚类方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：将至少两个待聚类语音按语音时长降序排列；依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量；若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量；将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

在一实施例中，在获取与待聚类语音对应的目标通用语音向量的步骤之后，处理器执行计算机程序时还实现以下步骤：若待聚类语音在目标通用语音向量中的语音特征相似度大于预设阈值，则将待聚类语音归类到目标通用语音向量对应的聚类类簇中。

在一实施例中，处理器执行计算机程序时实现以下步骤：依序将每一待聚类语音按预设规则划分成第一语音段和第二语音段；分别对第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征；将第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应，获取每一原始通用语音向量对应的自适应语音特征；对自适应语音特征和第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度；选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量。

在一实施例中，处理器执行计算机程序时实现以下步骤：分别获取自适应语音特征和第二语音特征对应的识别i-vector向量和第二i-vector向量；采用余弦相似度算法获取识别i-vector向量和第二i-vector向量的识别相似度。

在一实施例中，处理器执行计算机程序时实现以下步骤：提取所述待聚类语音的测试语音特征；采用简化模型算法简化处理所述测试语音特征，获取简化语音特征；采用最大期望算法迭代所述简化语音特征，获取总体变化子空间；将所述简化语音特征投影到所述总体变化子空间，以获取所述类簇标识对应的所述当前通用语音向量。

在一实施例中，处理器执行计算机程序时实现以下步骤：采用高斯滤波器处理所述测试语音特征，获取对应的二维正态分布；采用简化模型算法简化所述二维正态分布，获取简化语音特征。

在一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：将至少两个待聚类语音按语音时长降序排列；依序将每一待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与待聚类语音对应的目标通用语音向量；若待聚类语音在目标通用语音向量中的语音特征相似度不大于预设阈值，则采用待聚类语音进行模型训练，与待聚类语音对应的当前通用语音向量；将当前通用语音向量存储在预设声学模型库中，并将待聚类语音归类到当前通用语音向量对应的聚类类簇中。

在一实施例中，在获取与待聚类语音对应的目标通用语音向量的步骤之后，计算机程序被处理器执行时还实现以下步骤：若待聚类语音在目标通用语音向量中的语音特征相似度大于预设阈值，则将待聚类语音归类到目标通用语音向量对应的聚类类簇中。

在一实施例中，计算机程序被处理器执行时实现以下步骤：依序将每一待聚类语音按预设规则划分成第一语音段和第二语音段；分别对第一语音段和第二语音段进行特征提取，获取第一语音特征和第二语音特征；将第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应，获取每一原始通用语音向量对应的自适应语音特征；对自适应语音特征和第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度；选取识别相似度最高的原始通用语音向量作为与待聚类语音对应的目标通用语音向量。

在一实施例中，计算机程序被处理器执行时实现以下步骤：分别获取自适应语音特征和第二语音特征对应的识别i-vector向量和第二i-vector向量；采用余弦相似度算法获取识别i-vector向量和第二i-vector向量的识别相似度。

在一实施例中，计算机程序被处理器执行时实现以下步骤：提取所述待聚类语音的测试语音特征；采用简化模型算法简化处理所述测试语音特征，获取简化语音特征；采用最大期望算法迭代所述简化语音特征，获取总体变化子空间；将所述简化语音特征投影到所述总体变化子空间，以获取所述类簇标识对应的所述当前通用语音向量。

在一实施例中，计算机程序被处理器执行时实现以下步骤：采用高斯滤波器处理所述测试语音特征，获取对应的二维正态分布；采用简化模型算法简化所述二维正态分布，获取简化语音特征。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种说话人聚类方法，其特征在于，包括：

将至少两个待聚类语音按语音时长降序排列；

依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与所述待聚类语音对应的目标通用语音向量；

若所述待聚类语音在所述目标通用语音向量中的语音特征相似度不大于预设阈值，则采用所述待聚类语音进行模型训练，获取与所述待聚类语音对应的当前通用语音向量；

将所述当前通用语音向量存储在所述预设声学模型库中，并将所述待聚类语音归类到所述当前通用语音向量对应的聚类类簇中。

2.如权利要求1所述的说话人聚类方法，其特征在于，在获取与所述待聚类语音对应的目标通用语音向量的步骤之后，所述说话人聚类方法还包括：

若所述待聚类语音在所述目标通用语音向量中的语音特征相似度大于预设阈值，则将所述待聚类语音归类到所述目标通用语音向量对应的聚类类簇中。

3.如权利要求1所述的说话人聚类方法，其特征在于，所述依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与所述待聚类语音对应的目标通用语音向量，包括：

依序将每一所述待聚类语音按预设规则划分成第一语音段和第二语音段；

分别对所述第一语音段和所述第二语音段进行特征提取，获取第一语音特征和第二语音特征；

将所述第一语音特征输入到预设声学模型库中每一原始通用语音向量进行语音自适应，获取每一原始通用语音向量对应的自适应语音特征；

对所述自适应语音特征和所述第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度；

选取识别相似度最高的原始通用语音向量作为与所述待聚类语音对应的目标通用语音向量。

4.如权利要求3所述的说话人聚类方法，其特征在于，所述对所述自适应语音特征和所述第二语音特征进行相似度计算，获取每一原始通用语音向量对应的识别相似度，包括：

分别获取所述自适应语音特征和所述第二语音特征对应的识别i-vector向量和第二i-vector向量；

采用余弦相似度算法获取所述识别i-vector向量和所述第二i-vector向量的识别相似度。

5.如权利要求1所述的说话人聚类方法，其特征在于，所述采用所述待聚类语音进行模型训练，获取与所述待聚类语音对应的当前通用语音向量，包括：

提取所述待聚类语音的测试语音特征；

采用简化模型算法简化处理所述测试语音特征，获取简化语音特征；

采用最大期望算法迭代所述简化语音特征，获取总体变化子空间；

将所述简化语音特征投影到所述总体变化子空间，以获取所述类簇标识对应的所述当前通用语音向量。

6.如权利要求5所述的说话人聚类方法，其特征在于，所述采用简化模型算法简化处理所述测试语音特征，获取简化语音特征，包括：

采用高斯滤波器处理所述测试语音特征，获取对应的二维正态分布；

采用简化模型算法简化所述二维正态分布，获取简化语音特征。

7.一种说话人聚类装置，其特征在于，包括：

获取通用向量模块，用于依序将每一所述待聚类语音与预设声学模型库中每一原始通用语音向量进行语音识别，获取与所述待聚类语音对应的目标通用语音向量；

训练当前向量模块，用于若所述待聚类语音在所述目标通用语音向量中的语音特征相似度不大于预设阈值，则采用所述待聚类语音进行模型训练，与所述待聚类语音对应的当前通用语音向量；

存储当前向量模块，用于将所述当前通用语音向量存储在所述预设声学模型库中，并将所述待聚类语音归类到所述当前通用语音向量对应的聚类类簇中。

8.如权利要求7所述的说话人聚类装置，其特征在于，所述说话人聚类装置还包括：

归类聚类类簇模块，用于若所述待聚类语音在所述目标通用语音向量中的语音特征相似度大于预设阈值，则将所述待聚类语音归类到所述目标通用语音向量对应的聚类类簇中。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述说话人聚类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述说话人聚类方法的步骤。