CN109961794A

CN109961794A - 一种基于模型聚类的分层说话人识别方法

Info

Publication number: CN109961794A
Application number: CN201910031907.7A
Authority: CN
Inventors: 邓清勇; 欧阳艳; 阳柳; 林琦; 邓霜意; 徐雁冰; 刘昊霖
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-07-02
Anticipated expiration: 2039-01-14
Also published as: CN109961794B

Abstract

本发明提出一种基于模型聚类的分层说话人识别方法。在训练阶段首先构建一个语音训练集，对输入的语音数据样本进行预处理，预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测，然后基于不同性别的基因频率累计分布函数，将语音训练集划分为男性子集和女性子集。采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法，为子集中的每个语音数据样本建立一个高斯混合模型，然后采用聚类算法分别将两个子集中的模型进行基于地区口音的聚类。识别阶段首先判别所属的性别子集，再根据似然度最大原则判断所属的类别，最后与类别中所有模型进行匹配，识别说话人身份。本发明实现了一种分层的说话人识别方法，能够满足某些环境下对识别系统实时性的要求。

Description

一种基于模型聚类的分层说话人识别方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于模型聚类的分层说话人识别方法。

背景技术

生物特征识别技术是利用人的固有生理特征来进行身份认证的一项技术，例如常见的指纹识别、人脸识别等。语音识别作为生物特征识别技术的一种，以语音作为识别特征，不仅具有非接触性、自然性等优点，而且识别设备成本低。语音识别技术还可以进行远程认证，例如语音通过网络或者电话进行传输识别认证。

说话人识别是分析语音中包含的说话人信息来识别说话人身份的技术。因其便捷安全的优点，在各种安全领域得到快速发展，例如声纹密码、司法鉴定和军事监控等领域。传统的说话人识别技术以研究识别系统的正确率以及鲁棒性为重点，但随着说话人识别系统中注册人数的增加，我们需要考虑如何提高说话人识别系统的效率，尤其是在某些特定环境下对说话人身份的实时识别。传统识别方法需要将待识别语音信号与样本库中所有模型进行一一匹配，随着样本库的模型增多，匹配时耗费的时间变长，从而导致系统的识别速率慢，实时性难以得到保证。因此，亟需在复杂环境下实现一种有效的说话人实时识别方法。基于此，设计了一种基于模型聚类的分层说话人识别方法。

发明内容

本发明为解决上述问题，提出了一种基于模型聚类的分层说话人识别方法。具体步骤如下：

步骤一、在训练阶段构建一个语音训练集，对输入的语音数据样本进行预处理后提取特征参数，将语音数据样本进行基于性别分类，得到男性样本子集和女性样本子集。

1、收集多个说话人的语音数据样本，对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测。

2、根据不同性别的基音频率累积密度函数，选取基音累积密度函数不同性别概率相差最大的频率点f_T作为阈值频率。对预处理后的每个语音数据样本，计算频率为f_T处的累积密度函数值，与阈值进行比较，高于则划分为男性子集，低于则划分为女性子集。

1)利用正态窗函数对语音信号基音频率的概率密度进行估计，然后再对概率密度函数积分，得到不同性别的基音频率累积密度函数。男性的基音累积分布函数P_m(f)和女性的基音累积分布函数P_f(f)有较大的差异。

2)选取不同性别基音累积密度函数概率相差最大的频率点f_T,将该频率所对应的P_m(f_T)与P_f(f_T)取平均值，结果设为阈值P_T，

3)对预处理后的每个语音数据样本，计算频率为f_T处的累积密度函数值，再与阈值进行比较，高于则划分为男性子集，低于则划分为女性子集。

步骤二、提取每个子集中的语音数据样本的特征参数，为每个语音数据样本建立一个高斯混合模型(GMM)，采用聚类算法将语音训练集中的模型进行基于地区口音的聚类。

1、提取梅尔频率倒谱系数(MFCC)：对样本集中的语音信号进行预处理后，首先对每一帧语音信号X(n)进行快速傅里叶变换，然后取模的平方得到能量谱，再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数，得到一组系数，将系数做离散余弦变换(DCT)，最终获得梅尔频率倒谱系数的参数。

2、提取共振峰频率特征：采用基于线性预测(LPC)的共振峰频率求取方法，利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理，然后求取每帧的LPC系数和功率谱曲线，接着进行求根得到共振峰频率，若满足设定的条件则输出，并提取每帧语音信号前三个共振峰的特征参数。

3、将两个特征参数梅尔频率倒谱系数和共振峰频率进行特征融合，串联组成融合特征，作为混合高斯模型的输入，得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型，它将所描述的事物分成N个高斯子分布，并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数，采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为：

λ＝{μ_i,∑_i,ω_i},i＝1,2…M

4、采用聚类算法对每个子集中的高斯混合模型(GMM)进行基于地区口音的聚类。

1)首先确定聚类数目K,提取每个语音数据样本的特征参数，构成n×m的矩阵，采用奇异值分解方法，求得奇异值，取前r个大的奇异值σ，其中r远远小于n和m的值，比较每个样本的奇异值，如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别，最后产生的类别数目即为初始化聚类数目K。

2)在上述K个分类中为每个类别随机选取一个GMM模型，初始化为类中心和类代表，{C₁,C₂,…,C_k}。

3)计算所有模型到类代表的距离，根据距离最小原则，将每个样本模型分配到不同类别中。

4)计算类中心并重新选取类代表，将聚类后每个聚类中样本模型的均值作为新的聚类中心，选取聚类后与聚类中心最近的模型为类代表。

5)计算每个类别中聚类前后两次类中心相对距离改变的差值为δ，设定停止的阈值为ε,0<ε<1。如果δ<ε或者每类成员不再改变时保存聚类结果，否则重复步骤(3)和(4)。最后得到K个类别，每个聚类的类代表分别为{K₁,K₂,…,K_k}。

步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配，识别说话人身份，识别结束。

1)收集待识别说话人的语音信号。

2)对待识别语音信号进行预处理，计算频率为f_T处的基音频率累积密度函数值，与阈值P_T进行比较，确定待识别语音信号所属的子集。

3)提取语音信号的特征参数并建立GMM模型，方法与训练阶段建立语音数据样本的模型相同。

4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度，根据似然度最大原则确定待识别语音信号所属的类别，然后计算与所选择类别中所有的GMM模型的似然度，根据似然度最大原则进行模型匹配。

5)识别说话人的身份，识别结束。

综上所述，本发明的优点如下：

本发明在训练阶段对语音训练集中的GMM模型首先进行基于性别的分类，在性别分类的基础上进行基于地区口音的模型聚类，识别时将待识别语音信号与语音训练集中的模型进行匹配，先确定待识别语音信号所属的性别子集，然后选择对应子集中似然度最大的类别，只需要计算与该类别中的所有模型的似然度，即可进行说话人识别。采用该方法使得识别时不需要与语音训练集中的所有模型一一进行匹配，实现了一种分层的说话人识别方法，能够提高系统识别速率，满足某些环境下对识别系统实时性的要求。

附图说明

图1是本发明的流程图；

图2是本发明的聚类算法流程图；

具体实施方式

本发明设计了一种基于模型聚类的分层说话人识别方法，结合图1，本发明技术方案的具体步骤如下：

1)采样和量化：利用A/D模块将声音的模拟信号转换为数字信号，信号的采样频率通常在8KHz～16KHz之间。根据奈奎斯特采样定律，采样频率必须在信号最高频率的两倍以上。

2)预加重：传输函数为：H(z)＝1-μz^-1其中μ是滤波器系数，通常设为0.97。预加重的目的是为了减少声门脉冲的影响，补偿高频分量的损失，提升高频分量。

3)分帧和加窗：将语音信号按照10ms～30ms的间隔进行分段，每一段称为一帧。然后采用汉明窗加窗。其窗函数为:

将每一帧语音信号乘以汉明窗，分帧加窗处理后得到第i帧语音信号为X_i(n)，

X_i(n)＝w(n)X(i+n),0≤n≤N-1，i＝0,1T,2T…

其中N为帧长，T为帧移长度。

4)端点检测：采用双门限检测法，利用短时能量和短时平均过零率，分别设定高低两个门限，只有当信号幅值同时超过两个信号的门限，才认为是信号开端。端点检测可以检测语音信号的起始点和结束点，找出信号中有效语音片段。

1、提取梅尔频率倒谱系数(MFCC)：对样本集中的语音信号进行预处理后，首先对每一帧语音信号X(n)进行快速傅里叶变换，然后取模的平方得到能量谱，再通过梅尔频率滤波器将能量转换为梅尔频谱。求得梅尔频谱的对数，得到一组系数，将系数做离散余弦变换(DCT)，最终获得梅尔频率倒谱系数参数。

2、提取共振峰频率特征：采用基于线性预测(LPC)的共振峰求取方法，利用求根法计算每帧的共振峰值。首先对输入的语音信号进行预处理，然后求取每帧的LPC系数和功率谱曲线，接着进行求根得到共振峰频率，若满足设定的条件则输出。选择提取每帧语音信号前三个共振峰的特征参数。

3、将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合，串联组成融合特征，作为混合高斯模型的输入，得到每个语音数据样本的高斯混合模型。高斯混合模型(GMM)是一种状态数为1的连续分布隐马尔科夫模型，它将所描述的事物分成N个高斯子分布，并将它们加权求和得到混合度为N的高斯模型的概率密度函数。该模型训练的本质是根据输入的语音信号的特征参数，采用最大似然估计来确定模型的参数。假设得到的每个GMM模型由均值向量、协方差矩阵、混合权重三个参数表示为：

λ＝{μ_i,∑_i,ω_i},i＝1,2…M

4、采用聚类算法对每个子集中的GMM模型进行基于地区口音的聚类。

1)首先确定聚类数目K,提取每个说话人语音信号的特征参数，构成n×m的矩阵，采用奇异值分解方法，求得奇异值，取前r个大的奇异值σ，其中r远远小于n和m的值，比较每个样本的奇异值，如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别，最后产生的类别数目即为初始化聚类数目K。

步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行匹配，先进行性别判别，再进行类别判别，最后与所选类别中的模型进行匹配，确认说话人身份，识别结束。

1)收集待识别说话人的语音信号。

5)识别说话人的身份，识别结束。

Claims

1.一种基于模型聚类的分层说话人识别方法，其特征在于训练阶段构建一个语音训练集，对语音数据样本模型进行基于性别的分类，在性别分类的基础上进行基于地区口音的模型聚类，实现了一种分层的说话人识别方法，至少还包括以下步骤：

步骤一、在训练阶段构建一个语音训练集，对输入的语音数据样本进行预处理后提取特征参数，将语音数据样本进行基于性别的分类，得到男性样本子集和女性样本子集；

1)收集多个说话人的语音数据样本，对每个语音数据样本进行预处理。预处理过程包括采样和量化、预加重、分帧、加窗以及端点检测；

2)根据不同性别的基音频率累积密度函数，选取基音累积密度函数不同性别概率相差最大的频率点f_T作为阈值频率。对预处理后的每个语音数据样本，计算频率为f_T处的累积密度函数值，与阈值进行比较，高于则划分为男性子集，低于则划分为女性子集；

步骤二、提取每个子集中的语音数据样本的特征参数，为每个语音数据样本建立一个高斯混合模型(GMM)，采用聚类算法将语音训练集中的模型进行基于地区口音的聚类；

1)提取梅尔频率倒谱系数；

2)提取共振峰频率特征；

3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合，串联组成融合特征，作为混合高斯模型的输入，得到每个语音数据样本的GMM模型；

4)采用聚类算法对每个子集中的GMM模型进行基于地区口音的聚类；

步骤三、识别阶段将输入的待识别的语音数据样本与训练阶段构建的语音训练集中的模型进行基于分层的匹配，识别说话人身份，识别结束；

1)收集待识别说话人的语音信号；

2)对待识别语音信号进行预处理，计算频率为f_T处的基音频率累积密度函数值，与阈值P_T进行比较，确定待识别语音信号所属的子集；

3)提取语音信号的特征参数并建立GMM模型，方法与步骤二中建立语音数据样本的模型相同；

4)计算待识别语音信号的GMM模型到相应性别子集中各类类代表的似然度，根据似然度最大原则确定待识别语音信号所属的类别，然后计算与所选择类别中所有的GMM模型的似然度，根据似然度最大原则进行模型匹配；

5)识别说话人的身份，识别结束。

2.根据权利要求1所述的基于模型聚类的分层说话人识别方法，其特征在于训练阶段采用基于融合梅尔频率倒谱系数和共振峰频率特征参数的方法，分别对男性子集和女性子集中的每个语音数据样本都建立一个GMM模型，至少还包括以下步骤：

1)提取梅尔频率倒谱系数；

2)提取共振峰频率特征；

3)将两个特征参数梅尔频率倒谱系数和共振峰频率特征进行特征融合，串联组成融合特征，作为混合高斯模型的输入，得到每个语音数据样本的GMM模型。

3.根据权利要求1所述的基于模型聚类的分层说话人识别方法，其特征在于将GMM模型进行模型聚类时，首先通过奇异值分解方法确定聚类数目，至少还包括以下步骤：

步骤一、首先确定聚类初始数目K,提取每个说话人语音信号的特征参数，构成n×m的矩阵，采用奇异值分解方法，求得奇异值，取前r个大的奇异值σ，比较每个样本的奇异值，如果样本间奇异值的差值的绝对值小于一个设定的阈值则归为一个类别，最后产生的类别数目即为初始化聚类初始数目K；

步骤二、采用聚类算法将子集中的说话人模型进行分类，得到K个类别，每个聚类的类代表分别为{K₁,K₂…K_k}。