CN105161093B

CN105161093B - 一种判断说话人数目的方法及系统

Info

Publication number: CN105161093B
Application number: CN201510677237.8A
Authority: CN
Inventors: 何山; 殷兵; 潘青华; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2015-10-14
Filing date: 2015-10-14
Publication date: 2019-07-09
Anticipated expiration: 2035-10-14
Also published as: CN105161093A

Abstract

本发明公开了一种判断说话人数目的方法及系统，包括：接收语音信号；提取所述语音信号的语音信号特征；根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；将所述分割信号段聚类成指定个数的语音信号类；根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；计算过程结束后，根据计算结果确定说话人数目。本发明由于对语音信号进行重分割，可以消除现有技术中对语音信号进行分割时的步长限制的影响，并通过计算比较不同语音信号类之间的相似度，提高后续说话人数目判断的准确度。

Description

一种判断说话人数目的方法及系统

技术领域

本发明涉及语音信号处理领域，具体涉及一种判断说话人数目的方法及系统。

背景技术

随着语音信号处理技术的不断发展，语音信号处理的对象由原来仅包括单说话人场景，逐步开始包括双说话人场景，例如电话记录；甚至多说话人场景，例如会议记录；此外，目前的语音信号处理的数据由原来的时长为几秒，几十秒的短时音频逐步扩展到几十分钟，甚至几小时的长时音频。对于双说话人场景或多说话人场景，尤其是长时音频，语音记录的识别效果跟说话人分离的效果密切相关，而准确的判断说话人数目，能够帮助分析语音记录的场景，优化说话人分离的效果，从而制定相应的策略提升识别的效果，例如，针对某个说话人的自适应识别策略。

现有的说话人数目判断多是基于说话人变化点检测，对语音信号进行分割，以达到对说话人进行分割，再对分割后的各段语音信号基于贝叶斯信息准则进行聚类，最终确定说话人数目。现有技术中判断说话人数目结果的准确性完全依赖于说话人分割和聚类的准确性，而说话人分割受到步长的影响，步长多是根据经验确定，所以难免出现设定的步长不合适的情况，从而影响说话人分割的准确性及后续聚类的准确性；此外，在聚类时贝叶斯距离受语音时长的影响，主要表现为一般情况下语音时长越长其贝叶斯距离越大，因而在对不同时长的语音进行说话人聚类时，难以用统一的阈值进行聚类停止条件的判断，使得说话人数目判断存在较大误差，最终影响语音识别效果。

发明内容

本发明实施例提供一种判断说话人数目的方法及系统，解决对于双说话人场景或多说话人场景，尤其是长时音频，通过现有技术判断的说话人数目不准确的问题，以提高判断说话人数目的准确度。

为此，本发明实施例提供如下技术方案：

一种判断说话人数目的方法，包括：

接收语音信号；

提取所述语音信号的语音信号特征；

根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；

将所述分割信号段聚类成指定个数的语音信号类；

根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；

计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；

计算过程结束后，根据计算结果确定说话人数目。

优选地，所述根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割包括：

(1)利用所述语音信号的语音信号特征训练一个总的高斯混合模型；

(2)利用各语音信号类中各分割信号段的语音信号特征在该总的高斯混合模型上进行最大后验概率自适应，得到各类的高斯混合模型；

(3)利用各类的高斯混合模型对所述语音信号进行重分割，并确定重分割后语音信号类中各分割信号段；

重复上述步骤(2)至步骤(3)直至完成设定的重复次数。

优选地，所述计算过程包括：

利用总体变化因子模型提取当前各语音信号类的说话人因子向量；

根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度；

如果得到的最大相似度大于设定的第一阈值，则将最大相似度对应的两个语音信号类进行合并；然后重复计算过程；

否则，计算过程结束。

优选地，所述计算过程包括：

利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量；

根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度；

如果得到的最大相似度大于设定的第二阈值，则将最大相似度对应的两个语音信号类进行合并；然后重复计算过程；

否则，计算过程结束。

优选地，所述计算过程包括：

利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分；

如果得到的最大PLDA得分大于设定的第三阈值，则将最大PLDA得分对应的两个语音信号类进行合并；然后重复计算过程；

否则，计算过程结束。

优选地，所述根据计算结果确定说话人数目包括：

将当前语音信号类的数目作为说话人数目。

一种判断说话人数目的系统，包括：

接收模块，用于接收语音信号；

特征提取模块，用于提取所述语音信号的语音信号特征；

分割模块，用于根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；

聚类模块，用于将所述分割信号段聚类成指定个数的语音信号类；

重分割模块，用于根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；

相似度获取模块，用于根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；

数目获取模块，用于根据不同语音信号类之间的相似度的比较结果确定说话人数目。

优选地，所述重分割模块包括：

第一模型训练单元，用于利用所述语音信号的语音信号特征训练一个总的高斯混合模型；

第二模型训练单元，用于利用各语音信号类中各分割信号段的语音信号特征在该总的高斯混合模型上进行最大后验概率自适应，得到各类的高斯混合模型；

重分割单元，用于利用各类的高斯混合模型对所述语音信号进行重分割，并确定重分割后语音信号类中各分割信号段；

第一判断单元，用于判断重复重分割的次数是否达到设定的重复次数，如果未达到，则触发所述第二模型训练单元和所述重分割单元继续重复执行各自的操作过程。

优选地，所述相似度获取模块包括：

说话人因子向量提取单元，用于利用总体变化因子模型提取当前各语音信号类的说话人因子向量；

第一计算单元，用于根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度；

第一合并单元，用于在所述第一计算单元计算得到的最大相似度大于设定的第一阈值时，将最大相似度对应的两个语音信号类进行合并，然后触发所述第一计算单元继续重复计算过程。

优选地，所述相似度获取模块包括：

说话人因子分析单元，用于利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量；

第二计算单元，用于根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度；

第二合并单元，用于在所述第二计算单元得到的最大相似度大于设定的第二阈值时，将最大相似度对应的两个语音信号类进行合并，然后触发所述第二计算单元继续重复计算过程。

优选地，所述相似度获取模块包括：

第三计算单元，用于利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分；

第三合并单元，用于在所述第三计算单元得到的最大PLDA得分大于设定的第三阈值时，将最大PLDA得分对应的两个语音信号类进行合并，然后触发所述第三计算单元继续重复计算过程。

优选地，所述数目获取模块具体用于将当前语音信号类的数目作为说话人数目。

本发明实施例提供的判断说话人数目的方法及系统，通过提取接收的语音信号的语音信号特征，然后通过现有技术，根据语音信号特征对语音信号进行分割，并将分割后得到的分割信号段聚类成指定个数的语音信号类，接着根据各分割信号段的语音特征对所述语音信号进行重分割，根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度，根据所述相似度计算结果获取说话人数目。由于对语音信号进行重分割，可以消除现有技术中对语音信号进行分割时的步长限制的影响，提高说话人分割的准确性，从而提高后续说话人数目判断的准确性，以提升语音识别效果。

进一步地，由于根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度，避免了现有技术进行聚类时贝叶斯距离受语音时长的影响，从而提高后续说话人数目判断的准确性，以提升语音识别效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是现有技术中说话人数目判断方法的一种流程图；

图2是根据本发明实施例提供的判断说话人数目的方法的流程图；

图3是根据本发明实施例一提供的比较不同语音信号类之间的相似度的方法的流程图；

图4是根据本发明实施例二提供的比较不同语音信号类之间的相似度的方法的流程图；

图5是根据本发明实施例三提供的比较不同语音信号类之间的相似度的方法的流程图；

图6是根据本发明实施例提供的判断说话人数目的系统的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施例方式对本发明作进一步的详细说明。以下实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

为了更好地理解本发明，下面首先对现有技术中说话人数目判断方法进行简单说明。现有的说话人数目判断方法主要包括分割和聚类两个阶段：分割阶段根据输入的语音信号寻找不同说话人的变换点位置，然后把语音信号分割成若干单独说话人的语音信号段，而聚类阶段就是把这些分割后得到的同类说话人的语音信号段聚类到一起，最终获得的语音信号段的个数即为说话人数目。现有技术中说话人数目判断方法的流程图如图1所示，首先接收语音记录的数字信号，并对数字信号进行预处理，其中，所述预处理主要是对数字信号进行端点检测，在信号中找到有效语音段，去除非语音段；然后提取预处理后语音信号特征，其中，所述语音信号特征，可以是感知线性预测系数(Perceptual LinearPredictive，PLP)，它是受人的听觉系统研究成果推动而导出的声学特征，通过对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调，当然也可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、线性预测系数(linearprediction Coefficient，LPC)等语音特征；接着，基于语音段特征，将语音段进行分割，具体的，按照贝叶斯信息准则，对语音段进行说话人变化点检测，根据语音段的说话人的变化点，将语音段分割成多个语音子段；最终，将分割后的语音子段进行聚类，得到最终说话人数目，具体的，基于分割后的语音子段的特征，按照贝叶斯信息准则进行聚类处理，按照最后设定的聚类门限，最后的聚类得到的类别数目即说话人数目。

本发明提供的判断说话人数目的方法及系统，通过现有技术将接收的语音信号进行分割后，将其聚类成指定个数的语音信号类，然后对语音信号类的语音信号特征进行重分割，计算重分割后语音信号特征相应说话人的相似度来获取说话人数目，由于采用了对步长依赖性小的方法对语音信号进行了重分割，能有效解决现有技术中采用根据经验确定的步长对语音信号进行说话人分割时，导致说话人分割不准确的问题，提高了说话人分割的准确度；进一步地，由于根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度，避免了现有技术进行聚类时贝叶斯距离受语音时长的影响，从而提高后续说话人数目判断的准确性，进而提升语音识别的应用效果。

为了更好的理解本发明的技术方案和技术效果，以下将结合流程图和具体的实施例进行详细的描述。

实施例一

如图2所示，是本发明实施例提供的判断说话人数目的方法的流程图，包括以下步骤：

步骤S01，接收语音信号。

在本实施例中，通过麦克风等设备接收语音信号。语音信号可以是说话人实时的发音，也可以是通过录音设备等保存的语音信号，当然，还可以是通讯设备，例如移动电话、远程电话会议系统等手段传播的语音信号。

在实际应用中，需要对接收的语音信号进行端点检测，所述端点检测指从包含语音的一段信号中确定出语音的开始点和终止点，有效的端点检测不仅能使处理时间减到最小，而且能去除无声段的噪声干扰。在本实施例中，通过端点检测技术在信号中找到有效语音信号段，去除语音信号中的无声段以及强噪声干扰段。

步骤S02，提取所述语音信号的语音信号特征。

语音是由人类发音器官发出的且具有一定意义的声音。声音中包含有一定的意义是语音同其它声音的本质区别。因此提取语音信号中所包含的意义，其中，语音信号特征的提取是语音信号研究的重要对象。

在本实施例中，所述语音信号特征，可以是PLP特征，当然也可以是MFCC、LPC等语音特征。

步骤S03，根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段。

具体的，按照贝叶斯信息准则，对语音信号段进行说话人变化点检测，实现语音信号段分割，其中变化点的选取需要考虑效率问题，因此是有选取范围的，例如某个5s的语音段，在步长为1s的情况下，可能的变化点只有语音的1s，2s，3s，4s的位置。该步长设定的是否合理，会影响说话人分割效果，当设定的步长不合适时，会造成说话人分割及后续聚类的不准确，从而使得说话人数目判断出现误差。

步骤S04，将所述分割信号段聚类成指定个数的语音信号类。

在本实施例中，基于分割后的分割信号段的语音信号特征，按照贝叶斯准则进行聚类，调整聚类门限参数，使得最后聚类成指定个数的语音信号类。

需要说明的是，此步骤将分割得到的分割信号段聚类成指定个数的语音信号类，其中，设定所述指定个数时，需要视具体情况而定。例如，某电话会议场景中，预先知道可能的参加人数，则该指定个数可以设定为略大于参加人数的值，有助于提高后续判断说话人数目的准确度，通常，此处设定的指定个数越接近实际说话人数目，越有助于提高最终判断说话人数目的准确度。如果没有预知的一些信息，那么可以根据聚类后每类时长达到一个预先设定的阈值就可以停止聚类。在一个具体实施例中，预先知道该语音信息的场景为约4人的会议场景。首先，基于分割后的分割信号段的语音信号特征，按照贝叶斯准则进行聚类，调整聚类门限参数，使得最后聚类成6类语音信号类。

步骤S05，对语音信号类进行重分割，获取重分割后语音信号类的语音信号特征。

由于步骤S03中设定步长不一定合适，当设定的步长不合适时会影响说话人分割效果。本实施中对语音信号类的语音信号特征进行重分割，首先通过语音信号特征进行高斯混合模型GMM训练，然后利用该GMM对所有语音信号进行基于Viterbi解码的重分割可以有效降低设定的步长对说话人分割的影响，从而提高说话人分割的效果。具体的，可以包括以下步骤：

(2)利用各语音信号类中各分割信号段的语音信号特征在该总的高斯混合模型上进行最大后验概率(Maximum A Posteriori，MAP)自适应，得到各类的高斯混合模型；

(3)利用各类的高斯混合模型对所述语音信号进行重分割，并确定重分割后语音信号类中各分割信号段。

进一步的，为了更好地消除设定步长不合适时对说话人分割效果的影响，可以重复上述步骤(2)至步骤(3)，直至完成设定的重复次数，确定重分割后语音信号类中各分割信号段。所述重复次数可以为根据经验和/或实际情况而预先设定的重复次数；此外，还可以是通过判断前后两次重分割是否收敛来判断是否还需要重复重分割步骤，直至前后两次重分割收敛为止，其中，所述收敛的判断可以通过计算前后两次分割结果的差异性是否小于一定阈值。

在一个具体实施例中，1.利用整条语音信号的语音信号特征训练一个总的高斯混合模型GMM；2.利用步骤S04聚类得到的6类语音信号类各自的语音信号特征在该总的GMM上进行MAP自适应，得到6类语音信号类各自的GMM；3.利用6类各自的GMM对整条语音信号进行基于Viterbi解码的重分割，并确定重分割后6类语音信号类中各分割信号段；4.将重分割后6类语音信号类各自的语音信号特征在所述总的GMM上进行MAP自适应，得到6类语音信号类各自的GMM；重复上述步骤3至4直至完成设定的2～4次重复次数。

在本实施例中由于进行了多次重分割步骤，可以消除步骤S03中说话人分割的步长限制带来的消极影响，同时能减少某些分割信号段的聚类错误带来的消极影响，并为后续说话人数目判断提供优化的重分割后语音信号类的语音信号特征。

步骤S06，计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度。

在本实施例中，可以通过计算重分割后语音信号类的语音信号特征的相似度，来判断各语音信号类相应的说话人的相似度。

其中，所述计算过程包括：利用总体变化因子模型提取当前各语音信号类的说话人因子向量；根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度；如果得到的最大相似度大于设定的第一阈值，则将最大相似度对应的两个语音信号类进行合并；然后重复计算过程；否则，计算过程结束。参考图3所示。在本实施例中，通过判断语音信号类的说话人因子的相似度来判断语音信号类的相似度，具体地，通过总体变化因子(Total Variability，TV)模型提取说话人因子向量。

在一个具体实施例中，根据每个语音信号类的语音信号特征以及通用背景模型和总体变化因子TV模型获取说话人因子向量，具体可以包括：

首先，通过大量离线数据训练获取用于提取说话人因子向量的通用背景模型和TV模型参数；其中，通用背景模型为通过EM算法训练得到的混合高斯模型；TV模型参数包括通用背景模型的均值超矢量m和因子载荷矩阵T，通用背景模型的均值超矢量m的获取方法：直接根据离线数据训练好的通用背景模型的各高斯均值做拼接，因子载荷矩阵T通过EM算法训练得到。

然后，提取说话人因子向量I。第一步，提取语音信号类的均值超矢量M，语音信号类均值超矢量M获取方法为：首先，利用离线数据训练好的通用背景模型，使用最大后验概率MAP的自适应方法来得到每段语音的混合高斯模型，从而将对应的混合高斯模型各高斯均值拼接起来得到均值超矢量M；第二步，利用训练好的TV模型和语音信号类的均值超矢量M，提取该语音信号类的说话人因子向量I,称为Ivector，简单来说，Ivector是一个N维的向量，能够表征语音数据的说话人信息和信道信息，在说话人识别领域广泛使用。说话人因子向量I的表达式如式(1)所示：

M＝m+TI (1)

其中，M为从当前语音提取的均值超矢量，m为通用背景模型的均值，T为因子载荷矩阵。

基于EM算法训练TV模型得到T，再根据式(1)估算出说话人因子向量I₁,I₂,I₃，...。例如，S05步骤对语音信号进行重分割后，获得6个新的语音信号类，则这6类语音信号类的说话人因子向量分别为I₁,I₂,I₃,I₄,I₅,I₆。

接着，计算各语音信号类相应说话人因子向量之间的相似度。具体的，可以根据各说话人因子向量之间的距离来判断说话人因子向量之间的相似度，例如，KLD距离，欧式距离，cos相关度距离等，本实施例采用cos相关度距离进行说明。

计算各语音信号类的说话人因子向量两两之间的cos相关度距离C₁₂,C₁₃,C₂₃,...，其中，cos相关度距离越大，则代表这两个语音信号类的语音信号特征最相似。具体数学公式如式(2)所示：

然后，选取cos相关度距离最大的两类语音信号类，比较这两类语音信号类之间的cos相关度距离是否大于所述第一阈值，如果判断结果为是，则代表这两类语音信号类的相似度大，也即这两类语音信号类相应的说话人为同一人，将这两类语音信号类进行合并，并提取合并后语音信号类的说话人因子向量，重复上述判断最大cos相关度距离是否大于第一阈值、对cos相关度距离大于第一阈值相应的两类语音信号类进行合并、提取合并后语音信号类I的过程，直至最大的cos相关度距离小于设定的第一阈值。

步骤S07，计算过程结束后，根据计算结果确定说话人数目。

在本实施例中，通过步骤S06将被判断为相似度大的语音信号类进行合并，使得最终得到的任意两个语音信号类的说话人因子之间的cos相关度距离不大于设定的第一阈值，即任意两个语音信号类的相似度都较小，也即任意两个语音信号类相应的说话人都不是同一人。因此，将当前语音信号类的数目作为说话人数目。

本发明实施例提供的判断说话人数目的方法，通过提取接收的语音信号的语音信号特征，然后根据语音信号特征对语音信号进行分割，并将分割后得到的分割信号段聚类成指定个数的语音信号类，接着，为了提高说话人分割的准确性，根据各分割信号段的语音特征对所述语音信号进行重分割，并根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度，根据所述相似度计算结果获取说话人数目。由于对语音信号进行重分割，可以消除现有技术中对语音信号进行分割时的步长限制的影响，提高说话人分割的准确性；此外，根据语音信号类的说话人因子向量计算比较语音信号类之间的相似度，提高了后续说话人数目判断的准确性，最终提升语音识别效果。

实施例二

一种判断说话人数目的方法，如实施例一所述，所不同的是，在本实施例中，为了消除信道干扰对判断语音信号类之间相似度的影响，采用了概率线性鉴别分析(Probabilistic linear discriminant analysis，PLDA)技术以去除信道的干扰信息，从而提升判断语音信号类之间相似度的准确性。

步骤S11至步骤S15同实施例一，在此不再详述。

步骤S16，计算过程：根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度。

在本实施例中，采用了PLDA技术以去除信道的干扰信息。具体的，通过PLDA技术去除各语音信号类的说话人因子向量中表征信道信息的部分。

所述计算过程包括：

利用总体变化因子模型提取当前各语音信号类的说话人因子向量；利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量；根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度；如果得到的最大相似度大于设定的第二阈值，则将最大相似度对应的两个语音信号类进行合并；然后重复计算过程；否则，计算过程结束。参考图4所示。

在一个具体实施例中，首先，提取各语音信号类的说话人因子向量，提取过程同实施例一，在此不再详述。

接着，通过PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量，具体过程如下所述：

设定待比较的两个语音信号类的说话人因子向量分别为I_a,I_b，为了消除说话人因子向量中信道信息的干扰，突出说话人信息的影响，对Ivector进一步进行PLDA技术分析，如式(3)所示：

I＝μ+Vy+ε (3)

其中，μ表示所有说话人的Ivector的均值，V为说话人因子向量载荷矩阵，y为PLDA说话人因子向量，ε为残渣项(说话人识别研究中常用方法)。采用EM算法进行PLDA模型训练，得到V和ε，进而估算出消除信道信息干扰后的PLDA说话人因子向量y。

然后，计算这两个语音信号类消除信道信息干扰后的PLDA说话人因子向量y之间的cos相关度距离。

接着，选取cos相关度距离最大的两类语音信号类，比较这两类语音信号类之间的cos相关度距离是否大于所述第二阈值，如果判断结果为是，则将这两类语音信号类进行合并，并提取合并后语音信号类的消除信道信息干扰的PLDA说话人因子向量y，重复上述判断最大cos相关度距离是否大于第二阈值、对cos相关度距离大于第二阈值相应的两类语音信号类进行合并、提取合并后语音信号类的消除信道信息干扰的PLDA说话人因子向量y的过程，直至最大的cos相关度距离小于设定的第二阈值。

步骤S17，计算过程结束后，根据计算结果确定说话人数目。

在本实施例中，同实施例一S07步骤，不再详述。

本发明实施例提供的判断说话人数目的方法，通过提取接收的语音信号的语音信号特征，然后根据语音信号特征对语音信号进行分割，并将分割后得到的分割信号段聚类成指定个数的语音信号类，接着，根据各分割信号段的语音特征对所述语音信号进行重分割，并根据重分割后语音信号类中各分割信号段的语音信号特征提取消除信道干扰后的PLDA说话人因子向量，并通过该PLDA说话人因子向量计算重分割后各语音信号类的相似度，根据所述相似度计算结果获取说话人数目。由于通过PLDA技术消除了说话人因子中的信道干扰，提高了判断各语音信号类之间相似度的准确度，以提升后续说话人数目判断的准确性，最终提升语音识别效果。

实施例三

一种判断说话人数目的方法，如实施例二所述，所不同的是，在本实施例中，为了进一步提升判断各语音信号类之间相似度的准确性，本实施例采用了概率线性鉴别分析(Probabilistic linear discriminant analysis，PLDA)技术计算各语音信号类之间的PLDA得分，通过PLDA得分判断各语音信号类之间的相似度，从而提升判断语音信号类之间相似度的准确性。其中，PLDA得分的值越大，其相应的2类语音信号类的语音信号特征被判决成1类的可能性越高。

步骤S11至步骤S15同实施例二，在此不再详述。

在本实施例中，所述计算过程包括：

利用总体变化因子模型提取当前各语音信号类的说话人因子向量；利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分；如果得到的最大PLDA得分大于设定的第三阈值，则将最大PLDA得分对应的两个语音信号类进行合并；然后重复计算过程；否则，计算过程结束，参考图5所示。

在一个具体实施例中，首先，提取各语音信号类的说话人因子向量；然后，根据说话人因子向量以及利用大量离线数据训练的PLDA模型的矩阵常量(该矩阵常量包括μ,V,ε)，计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分，通过该PLDA得分判断各语音信号类之间的相似度，例如：根据实施例二中得到的两个语音信号类的说话人因子向量I_a,I_b计算PLDA得分P_ab。其中，P_ab的值越大，这两个语音信号类的相似度就越大，也即这两类语音信号类相应的说话人被判断为同一人的可能性就越高。P_ab的计算公式如式(4)所示：

P_ab＝(I_a-μ)^TΓ(I_a-μ)+(I_b-μ)^TΓ(I_b-μ)+

(4)

2(I_a-μ)^T∧(I_b-μ)

其中， TOT＝V·V^T+ε，AC＝V·V^T，μ,V,ε都是PLDA技术分析过程中获取的PLDA模型的矩阵常量，如实施例二所述，在此不再详述。接着，判断得分最高的P_ab是否大于所述第三阈值P_threshold，其中，若P_ab>P_threshold，表示这两个语音信号类的语音信号特征更像是同一语音信号类的语音信号特征，而不像两个语音信号类的语音信号特征，P_ab为根据实验开发集合上参数调节的结果，P_threshold取值20时可以获得最佳判断准确度。如果判断结果为是，则将这两类语音信号类进行合并，并提取合并后语音信号类的说话人因子向量I，重复上述判断最大P_ab是否大于P_threshold、对P_ab大于P_threshold相应的两类语音信号类进行合并、提取合并后语音信号类的说话人因子向量的过程，直至任意两个语音信号类相应P_ab小于设定的P_threshold。

步骤S17，计算过程结束后，根据计算结果确定说话人数目。

在本实施例中，同实施例二S07步骤，不再详述。

本发明实施例提供的判断说话人数目的方法，通过提取接收的语音信号的语音信号特征，然后根据语音信号特征对语音信号进行分割，并将分割后得到的分割信号段聚类成指定个数的语音信号类，接着，根据各分割信号段的语音特征对所述语音信号进行重分割，并根据重分割后语音信号类的语音信号特征提取说话人因子向量，并通过该说话人因子向量以及利用大量离线数据训练的PLDA模型的矩阵常量，计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分P_ab，将最大P_ab相应的两个语音信号类进行合并，重复上述提取各语音信号类的说话人因子向量、计算各语音信号类P_ab以及将最大P_ab相应的两个语音信号类进行合并的过程，直至最大P_ab小于设定的第三阈值，并将最终语音信号类数目作为说话人数目。由于通过PLDA技术计算各语音信号类的P_ab，根据该P_ab判定各语音信号类之间的相似度，提高了判断各语音信号类之间相似度的准确度，以提升后续说话人数目判断的准确性，最终提升语音识别效果。

相应的，本发明还提供了一种判断说话人数目的系统，如图6所示：

接收模块301，用于接收语音信号；

特征提取模块302，用于提取所述语音信号的语音信号特征；

分割模块303，用于根据所述语音信号的语音信号特征对所述语音信号进行分割，得到分割信号段；

聚类模块304，用于将所述分割信号段聚类成指定个数的语音信号类；

重分割模块305，用于根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；

相似度获取模块306，用于根据重分割后语音信号类中各分割信号段的语音信号特征计算并比较不同语音信号类之间的相似度；

数目获取模块307，用于根据不同语音信号类之间的相似度的比较结果确定说话人数目。

其中，所述重分割模块305包括：

该重分割模块305通过对所述语音信号进行重分割，能有效消除现有技术中对语音信号进行分割时的步长限制的影响，提高说话人分割的准确性。

在实际应用中，所述相似度获取模块306包括：

本发明提供的系统通过重分割模块305对语音信号进行重分割，以及相似度获取模块306计算重分割后各语音信号类之间的相似度，避免了现有技术进行聚类时贝叶斯距离受语音时长的影响，从而提高后续说话人数目判断的准确性。

为了进一步提高相似度获取模块306判断的各语音信号类之间相似度的准确度，所述相似度获取模块306可以包括：

其中，所述去噪单元，利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量，消除了信道信息对判断语音信息类相似度的影响，有助于提升判断各语音信号类之间相似度的准确度。

此外，为了进一步提高本发明提供的系统判断各语音信号类之间相似度的准确度，所述相似度获取模块306包括：

其中，所述相似度获取模块306采用Ivector因子分析技术及PLDA分析技术消除信道信息的干扰并判断两个语音信号类之间的相似度，具体参考判断说话人数目的方法中实施例三相关部分，在此不再详述。

当然，该系统还可以进一步包括存储模块(未图示)，用于保存语音信号、语音信号特征、通用背景模型、TV模型、PLDA模型及相应模型参数等信息。这样，以方便对待识别语音信息进行计算机自动处理，并存储判断说话人数目结果相关信息等。

本发明实施例提供的判断说话人数目的系统，通过特征提取模块302提取语音信号的语音信号特征，并通过分割模块303对语音信号段进行分割，再通过聚类模块304将分割结果聚类成指定个数的语音信号类，然后通过重分割模块305对语音信号类进行重分割，以消除分割模块在进行说话人分割时受步长限制带来的消极影响，以便于提供说话人分割的准确度，接着通过相似度获取模块306判断各重分割后语音信号类之间的相似度，有效提升了该系统判断说话人数目的准确度，最终能提高语音识别效果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种判断说话人数目的方法，其特征在于，包括：

接收语音信号；

提取所述语音信号的语音信号特征；

将所述分割信号段聚类成指定个数的语音信号类；

根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；重分割过程包括：根据所述语音信号类中各分割信号段的语音信号特征，获得各语音信号类的说话人识别模型，利用各类的说话人识别模型对所述语音信号进行重分割；

计算过程结束后，根据计算结果确定说话人数目。

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割具体包括：

重复上述步骤(2)至步骤(3)直至完成设定的重复次数。

3.根据权利要求1所述的方法，其特征在于，所述计算过程包括：

否则，计算过程结束。

4.根据权利要求1所述的方法，其特征在于，所述计算过程包括：

否则，计算过程结束。

5.根据权利要求1所述的方法，其特征在于，所述计算过程包括：

否则，计算过程结束。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据计算结果确定说话人数目包括：

将当前语音信号类的数目作为说话人数目。

7.一种判断说话人数目的系统，其特征在于，包括：

接收模块，用于接收语音信号；

特征提取模块，用于提取所述语音信号的语音信号特征；

重分割模块，用于根据所述语音信号类中各分割信号段的语音信号特征对所述语音信号进行重分割；重分割过程包括：根据所述语音信号类中各分割信号段的语音信号特征，获得各语音信号类的说话人识别模型，利用各类的说话人识别模型对所述语音信号进行重分割；

8.根据权利要求7所述的系统，其特征在于，所述重分割模块具体包括：

9.根据权利要求7所述的系统，其特征在于，所述相似度获取模块包括：

10.根据权利要求7所述的系统，其特征在于，所述相似度获取模块包括：

11.根据权利要求7所述的系统，其特征在于，所述相似度获取模块包括：

12.根据权利要求7至11任一项所述的系统，其特征在于，所述数目获取模块具体用于将当前语音信号类的数目作为说话人数目。