CN101552004B

CN101552004B - 一种集内说话者的识别方法

Info

Publication number: CN101552004B
Application number: CN2009100720196A
Authority: CN
Inventors: 韩纪庆; 张光成
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2011-04-06
Anticipated expiration: 2029-05-13
Also published as: CN101552004A

Abstract

一种集内说话者的识别方法，涉及语音识别技术领域。它解决了现有文本无关说话人识别技术中，误识较多的问题。本发明首先对提取的特征信息采用集内外辨识模块进行判断，将判定为集外说话人的特征信息放弃，只对判定为集内的特征信息进行具体说话人的判断，减少了说话人识别系统的工作量，提高了判断速度。本发明还对判定为某一说话人的特征信息，采用该说话人的冒认者模型作进一步验证判断，最终获得所述特征信息所对应的说话人信息。提高了特征信息识别的准确率。本发明的方法适用于语音识别技术领域。

Description

一种集内说话者的识别方法

技术领域

本发明涉及语音识别技术，具体涉及一种说话人识别技术和说话人拒识方法。具体是一种在文本无关说话人识别过程中减少说话人误识并提高识别速度的方法。

背景技术

说话人识别是利用包含在说话人语音波形中特有的个体信息，根据说话人所发的语音，自动识别说话人身份的过程。说话人识别按照对说话内容的要求不同可以分为文本无关，文本有关和文本提示三种。文本无关是用户在系统注册时不要求特定的语言和内容，而且验证和注册时也不需要相同内容的语音，文本相关则要求验证语料与注册时提供的语料内容相一致，文本提示中用户按照系统指定的内容进行。文本无关的说话人识别由于其安全性和灵活性更加受人们重视，应用也更为广泛，目前的无本无关说话人识别系统主要是利用说话人的训练语音训练得到一个描述其语音特征分布的高斯混合模型，用输入语音在各个话者模型上的得分来判别说话人。但是真实的环境中存在大量集外说话人，目前主要是通过比较输入语音在说话人模型上的最高得分是否大于阈值的方式来判断输入语音是来自集内还是集外，这种方法对集内外语音的区分能力不够，会产生大量的误识。误识的多少严重影响说话人识别系统的实用性，因此需要研究减少说话人误识的方法，也就是集外话者的拒识方法。

发明内容

为了克服现有的文本无关说话人识别技术中，误识较多的问题，本发明提供一种集内说话者的识别方法。

本发明的一种集内说话者的识别方法的过程为：

步骤A：对语音信号进行特征提取，获得特征信息，然后同时执行步骤B和步骤C；

步骤B：采用集外易误识模型对步骤A获得的特征信息进行打分，获得分数q，然后执行步骤D；

步骤C：采用集内模型对步骤A获得的特征信息进行打分，获得分数p，然后执行步骤D；

步骤D：判断步骤C获得的分数p是否大于步骤B获得的分数q，如果判断结果为是，则执行步骤E；否则，放弃该特征信息，结束此次识别过程；

步骤E：将特征信息发送给集内说话人识别系统，获得所述特征信息所对应的说话人。

所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得，该模型是高斯混合模型，它描述了集内说话人总的语音特征分布。

所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训练获得，该模型是高斯混合模型，它描述了容易被误识为集内的语音特征分布。

本发明首先采用集内模型和集外易误识模型分别对特征信息进行打分，对于判定为集外语音信息的特征信息直接放弃识别，只对判定为集内语音信息的特征信息进行说话人的识别，减少了语音识别系统的工作量，提高了语音识别速度。

本发明在步骤E中获得所述特征信息所对应的说话人的方法为：

步骤E21、分别采用集内每个说话人的语音模型对特征信息进行打分，分别获得分数S1、S2……Sn，然后执行步骤E22；

步骤E22、选出步骤E21获得的分数S1、S2……Sn分数中的最高分Si，所述最高分Si对应第i个说话人，然后执行步骤E23；

步骤E23、判断步骤E22获得的最高分Si是否大于设定阈值η，如果判断结果为是，则执行步骤E24，否则，放弃该特征信息，结束此次识别过程；

步骤E24、采用第i个说话人的冒认者模型对特征信息进行打分，获得分数R；然后执行步骤E25；

步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分数R，如果判断结果为是，则执行步骤E26，否则，放弃该特征信息，结束此次识别过程；

步骤E26、认定特征信息是第i个说话人的语音信息，结束此次识别过程；

所述n为大于2的整数，i为大于0且小于等于n的整数。

所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信息的误识数据集进行训练获得，它描述冒认第i个说话人的语音特征信息的模型。

即，在采用每个说话人的语音模型判定为对应说话人之后，再对特征信息采用对应说话人的冒认者模型进行验证，提高了系统的判定准确率。

所述冒认者模型是根据由基准识别系统收集该系统容易误识为集内每一个说话人的数据集，并对所述数据集进行训练获得描述该类型特征的冒认者模型。该模型是高斯混合模型，它描述了容易被误识为某一说话人的语音特征分布。

所述误识数据，是指一个语音信息被判定为某一个说话人，但所述语音信息并不是该说话人的情况。

本发明通过收集说话人识别系统的误识数据集，并对所述数据集进行学习获得容易被误识的集内说话人的语音信息特征的概率分布模型，通过对判定为对应说话人的特征信息进行进一步验证，大大减少了误识的可能性，提高了系统识别的准确性。

本发明的方法采用逐步细化的、减少说话人误识的方法，该方法不仅大大减少了说话人误识，而且极大的提高了识别速度。

附图说明

图1是现有集内说话人识别系统的工作流程图；图2是本发明的集内说话人识别方法的流程图；图3是具体实施方式二所述的步骤E中获得所述特征信息所对应的说话人的方法的流程图；图4是具体实施方式三所述的步骤E中获得所述特征信息所对应的说话人的方法的流程图。

具体实施方式

本实施方式所述的一种集内说话者的识别方法的过程为：

步骤E中获得所述特征信息所对应的说话人的方法。可以采用现有的文本无关说话人识别方法。

本实施方式所述的，采用某一个模型对特征信息进行打分，是指将所述特征信息带入所述模型，进而获得相应的概率值，再根据所述概率值获得一个分数值。所述分数值一般与所述概率值成正比。

本实施方式所述的高斯混合模型(GMM，Gaussian Mixture Model)，是一种概率统计模型，理论上高斯混合模型可以用无限多个高斯分布的线性加权来拟合一个任意形式的分布。而对于某个说话人的语音特征信息，一般认为其满足一个特定的分布，所以本领域采用高斯混合模型来描述说话人的语音特征信息的分布，也就是说每个说话人的语音特征信息对应一个高斯混合模型，对于一个语音特征矢量，可以计算出其在该说话人对应的高斯混合模型上的概率，进而判定是否是该说话人的语音信息

所述高斯分布函数为：

N (x, μ, Σ) = \frac{1}{{(2 π)}^{d / 2} {| Σ |}^{1 / 2}} \exp {- \frac{1}{2} {(x - μ)}^{T} Σ^{- 1} (x - μ)},

其中X为特征矢量，μ是高斯分布的均值向量，∑是协方差矩阵，d是特征维数。当高斯分布的均值向量μ和协方差矩阵∑固定后，高斯分布函数也就固定，可以根据某一个特征矢量x计算获得概率值。

所述高斯混合模型，是K个高斯分布函数的线性加权，特征矢量x_i在该模型上对应的概率为：：

p (x_{t} | λ) = Σ_{k = 1}^{K} w_{k} N (x_{t}, μ_{k}, Σ_{k}),

其中，w_k是第k个高斯分布的权值。

本实施方式中所述的通过对数据训练获得模型，是指根据一组数据，计算得到高斯混合模型中各个高斯分量的均值和协方差矩阵，以及各个分量的权值，使其能够最好的描述这些训练数据，进而获得一个高斯混合模型。一般通过EM算法(期望最大化算法)来实现。

本实施方式中所述的特征信息，是指语音特征信息，可以采用目前常用的Mel倒谱系数MFCC来表示。所述特征信息的计算，是首先用FFT将时域信号转化成频域信号，然后对所述频域信号的对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，并取前N个系数作为特征信息。经常用到的MFCC有12维，13维(加入F0能量)，39维(13维MFCC加上其一阶差分和二阶差分)。

本实施方式所述的方法，是首先对提取的特征信息进行判断，只有当所述特征信息被判定为集内的语音信息时，才交给说话人识别系统进行识别。这样，减少了说话人识别系统的判断数据量，提高了语音识别速度。

具体实施方式二：本实施方式所述的一种集内说话者的识别方法，是对步骤E中获得所述特征信息所对应的说话人的方法的进一步说明，它的具体过程为：

步骤E11：分别采用集内每个说话人的语音模型对特征信息进行打分，分别获得分数S1、S2……Sn，然后执行步骤E12；

步骤E12：选出步骤E11获得分数S1、S2……Sn分数中的最高分Si，所述最高分Si对应第i个说话人，然后执行步骤E13；

步骤E13：判断步骤E12获得的最高分Si是否大于设定阈值η，如果判断结果为是，则执行步骤E14，否则，放弃该特征信息，结束此次识别过程；

步骤E14：认定特征信息是第i个说话人的语音信息，结束此次识别过程；

所述n为大于2的整数，i为大于0且小于等于n的整数。

所述集内每个说话人对应一个语音模型，所述语音模型是通过该说话人的训练语料作为训练数据训练获得，该模型是高斯混合模型，它描述了该说话人的语音特征分布。

具体实施方式三：本实施方式所述的一种集内说话者的识别方法中，提供了另一种步骤E的实现方法，它的具体过程为：

步骤E22、选出步骤E21获得的分数S1、S2……Sn中的最高分Si，所述最高分Si对应第i个说话人，然后执行步骤E23；

步骤E25、判断步骤E22获得的最高分Si是否大于步骤E24获得的分数R，如果判断结果为是，则执行步骤E26，否则，放弃该特征信息，结束此次识别过程。

所述n为大于2的整数，i为大于0且小于等于n的整数。

所述冒认者模型，是通过对被误识为对应说话人的特征信息数据集进行训练获得，它描述冒认该说话人的语音特征信息的高斯混合模型。它描述了容易被误识为某一个说话人的语音特征分布。

本实施方式中所述的集内所有说话人的误识数据集，是用基准说话人识别系统采集大量集外的语音信息进行说话人识别，然后将系统判定为集内某话者的语音收集起来形成一个集内所有说话人的误识数据集。所述误识数据集是集外易误识模型和冒认者模型的训练数据。

本实施方式所述的集内说话者的识别方法中的集内说话人识别系统，是在具体实施方式二所述的集内说话人识别系统的基础上，增加了对判定结果采用冒认者模型进行了进一步的验证的过程，即：采用该说话人的冒认者模型对所述特征信息进行进一步判定，提高了系统的判定准确率。

本实施方式通过收集说话人识别系统的误识数据集，并对所述数据集进行学习获得容易被误识的集内说话人的语音信息特征的概率分布模型，通过多层次识别，即先通过粗略判定是集内或集外数据，放弃一部分被识别的特征信息，对于判定为集内的特征信息，现根据每个说话人的模型判定对应说话人，然后再通过对应说话人的冒认者模型验证是否是对应说话人。本实施方式通过对一个特征信息的三次判断最终获得判定结果，有效地减少了误识的可能性，提高了系统识别准确率。

Claims

1.一种集内说话者的识别方法，其特征在于它的识别过程为：

步骤E：将特征信息发送给集内说话人识别系统，获得所述特征信息所对应的说话人；

所述集内模型是通过将集内全部说话人的训练语料作为训练数据训练获得，该集内模型是高斯混合模型，它描述了集内说话人总的语音特征分布；

所述集外易误识模型是通过将集内所有说话人的误识数据集作为训练数据训练获得，该集外易误识模型是高斯混合模型，它描述了容易被误识为集内的语音特征分布。

2.根据权利要求1所述的一种集内说话者的识别方法，其特征在于，步骤E中获得所述特征信息所对应的说话人的方法为：

步骤E12：选出步骤E11获得的分数S1、S2……Sn中的最高分Si，所述最高分Si对应第i个说话人，然后执行步骤E13；

所述n为大于2的整数，i为大于0且小于等于n的整数。

3.根据权利要求2所述的一种集内说话者的识别方法，其特征在于，所述集内每个说话人对应一个语音模型，所述语音模型是通过该说话人的训练语料作为训练数据训练获得，该语音模型是高斯混合模型，它描述了该说话人的语音特征分布。

4.根据权利要求1所述的一种集内说话者的识别方法，其特征在于，步骤E中获得所述特征信息所对应的说话人的方法为：

所述n为大于2的整数，i为大于0且小于等于n的整数。

5.根据权利要求4所述的一种集内说话者的识别方法，其特征在于，所述第i个说话人的冒认者模型是指通过对被误识为第i个说话人的特征信息的误识数据集进行训练获得，它描述了冒认第i个说话人的语音特征信息的模型。