CN103871413A

CN103871413A - 基于svm和hmm混合模型的男女说话声音分类方法

Info

Publication number: CN103871413A
Application number: CN201210541542.0A
Authority: CN
Inventors: 王雷
Original assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Current assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18

Abstract

本发明公开了基于SVM和HMM混合模型的男女说话声音分类方法，属于语音音频处理领域。该方法使用SVM和HMM混合模型对男女说话声音进行分类，具体步骤如下：输入不同性别说话人语音信号，提取说话人语音信号中的基因频率，获取不同基因频率的MFCC特征，利用机器学习的SVM和HMM算法训练出男女不同基因频率的混合分类模型，最终达到区分说话人性别的目的。利用本方法，用户可以方便地得到某一段语音音频中的说话人性别，帮助用户获取语音音频的性别特征，从而为进一步的语音音频处理提供帮助。

Description

基于SVM和HMM混合模型的男女说话声音分类方法

技术领域

本方法属于语音音频处理技术领域，具体涉及一种基于SVM和HMM混合模型的男女说话声音分类方法。

背景技术

近年来，机器识别人的性别成为了一项研究热点，采用的方法很多，比如人脸、语音等。基于人脸的性别识别有一个缺陷：当光照条件不充分的时候，该方法的识别率会明显降低。

而语音是人类最自然、有效的交流方法。语音性别识别涉及的领域广泛主要包括：信号处理、人工智能、模式识别、声学、语言学、电子技术、通讯理论、神经生理学和神经心理学等众多学科。如何让机器识别人的性别，从而做出更加智能的反应，成为下一代计算机研究的目标。

目前已有的语音性别识别方法很多，比较突出的有：基于隐马尔科夫模型(HMM)的性别识别方法和基于支持向量机(SVM)的性别识别方法。HMM和SVM侧重点不同，HMM处理连续信号更优，但类别区分能力较弱；SVM更适合分类，但具有只适合少量样本和训练时间长等缺点。

发明内容

本发明克服了现有技术的不足，提供一种基于SVM和HMM混合模型的男女说话声音分类方法，使用机器通过学习以达到区分说话人性别的目的。

考虑到现有技术的上述问题，根据本发明的一个方面，为解决上述的技术问题，本发明采用以下技术方案：

一种基于SVM和HMM混合模型的男女说话声音分类方法，包括：

训练阶段，所述训练阶段通过收集基因频率样本，提取样本特征参数，并将样本特征参数输入SVM训练，通过所述SVM训练得到有男女之分的特征矢量，并将该特征矢量以概率序列的方式输出，再将所述概率序列作为HMM的训练数据，通过HMM的训练得到至少得到两个HMM的参数；

识别阶段，所述识别阶段是指将待测语音文件输入到SVM的分类器中，以得到一个特征序列，将得到的特征序列分别输入至少得到两个HMM参数中算出概率，把最大概率值对应的模型作为识别结果。

为了更好地实现本发明，进一步的技术方案是：

根据本发明的一个实施例，所述样本特征参数包括MFCC。

根据本发明的一个实施例，，对所述MFCC进行了二次特征提取获得它的加权特征和/或一阶/多阶微分特征。

根据本发明的一个实施例，还包括平均基因频率。

根据本发明的一个实施例，所述二次特征提取获得它的加权特征所使用到的加权系数采用如下升半正弦函数公式：

r_{i} = 0.5 + 0.5 \times \sin (\frac{π \times i}{p})

其中i=0，1，至P-1，P为特征阶数，r_i为获得的加权系数。

根据本发明的一个实施例，所述二次特征提取获得它的一阶微分特征的方法是：

特征向量的一阶微分如下；

Featrue_d(j)_i=Featrue(j)_i-Featrue(j-1)_i

其中i=0，1，…P；J=1，2…，N，P为特征阶数，N为特征向量个数；Feature是原始的特征向量，Featured为原始特征向量的一阶微分；

在一阶微分基础之上，再进行一次微分，就可以得到特征向量的二阶微分；用公式表示为；

Featrue_d_d(j)_i=Featrue_d(j)_i-Featrue_d(j-1)_i

其中i=0，1，…P.J=1，2…，N，P为特征阶数，N为特征向量个数。

根据本发明的一个实施例，构造1个SVM分类器，把男性的训练样本标记为+1，女性的训练样本标记为-1，然后考虑到SVM的输出是距离符号+1或者-1，+1表示属于一类，-1表示属于另一类。

根据本发明的一个实施例，通过sigmoid函数把SVM的输出转换为概率序列。

根据本发明的一个实施例，用HMM中的Baum-Welch算法估计参数，以完成了HMM1的训练并相应得到HMM1的参数，按照得到HMM1参数的方法，以此类推得到HMM2的参数。

本发明还可以是：

根据本发明的一个实施例，将所述识别阶段的特征序列分别输入到HMM1和HMM2当中，利用HMM模型中的Viterbi计算出概率。

与现有技术相比，本发明的有益效果之一是：

本发明的技术方案中，通过输入不同性别说话人语音信号，提取说话人语音信号中的基因频率，获取不同基因频率的MFCC特征，利用机器学习的SVM和HMM算法训练出男女不同基因频率的混合分类模型，最终达到区分说话人性别的目的。利用本方法，用户可以方便地得到某一段语音音频中的说话人性别，帮助用户获取语音音频的性别特征，从而为进一步的语音音频处理提供帮助。

附图说明

为了更清楚的说明本申请文件实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅是对本申请文件中一些实施例的参考，对于本领域技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图得到其它的附图。

图1示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统整体框架示意图；

图2示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统训练流程示意图；

图3示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统识别流程示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

图1示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统整体框架示意图；参考图1所示一种基于SVM和HMM混合模型的男女说话声音分类方法的一个实施例，包括训练阶段和识别阶段。

图2示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统训练流程示意图；如图2所示：

1)训练阶段

第一步，收集相应的基因频率样本，提取样本特征作为后面训练SVM和HMM混合模型的输入。通过仿真分析得到，MFCC参数比LPCC更优，因此丢弃LPCC，并对MFCC进行了二次特征提取获得它的加权特征和一阶微分特征，除了上述特征外还加入了平均基因频率。比如，我们有40个人的共计1000个语音文件的样本。我们选取其中20人（男女各10个）共计600个语音文件作为训练样本，提取出这600个语音文件中的基因频率的MFCC特征。剩下的20人共计400个语音文件，我们留下来作为测试样本。特征参数为加权特征+一阶微分特征+平均基因频率。MFCC参数的维数是12，加权特征和一阶微分特征的维数为24，加上平均基因频率，特征参数总的维数为25。

第二步，是SVM的训练。语音样本经过特征提取后，将MFCC特征进行组合形成特征矢量，性别只有男女之分，因此只需要构造1个SVM分类器，把男性的训练样本标记为+1，女性的训练样本标记为-1。然后考虑到SVM的输出是距离符号（+1或者-1），+1表示属于一类。-1表示属于另一类。而HMM模型中的Viterbi算法需要一个概率密度，因此必须把SVM的输出转化成后验概率，本发明可通过sigmoid函数把SVM的输出转换为后验概率，即概率序列。

第三步，是HMM的训练。在训练HMM时，需要注意的是SVM的输出只有两种情况:一是属于该类别，二是不属于该类别，把这个作为HMM的训练数据毫无意义，因此必须将SVM的输出转换为概率，在训练HMM时，将语音文件样本通过SVM1得到一个概率序列，并把这个概率作为HMM1的训练数据，并用HMM中的Baum-Welch算法估计参数，这样便完成了HMM1的训练，用类似的办法可以得到HMM2的参数。

图3示出了根据本发明一个实施例的基于SVM和HMM混合模型的男女说话声音分类方法的系统识别流程示意图。如图2所示：

2)识别阶段

第一步，提取待识别的语音样本的MFCC特征。对于每个待测语音文件，我们把它输入到SVM1分类器中，得到一个特征序列。

第二步，计算出概率。对于上一步得到的特征序列，我们把它输入到HMM1和HMM2当中，利用HMM模型中的Viterbi计算出概率。

第三步，输出识别结果。比较上一步得到的概率值，把最大概率值对应的模型作为识别结果。

以上实施例描述的一种二次特征提取得到加权特征和一阶微分特征的方法，具体方法如下：

（1）特征参数融合后，根据每种特征参数对识别率影响不同，因此不同的特征参数之间的融合，应该选择合适的加权系数，有时即使是同一种特征参数，总有一部分特征向量对识别率的贡献很大，而有些特征向量贡献并不大，因此即使同一个特征向量也可以采用合适的加权系数。加权系数采用升半正弦函数，公式如下:

r_{i} = 0.5 + 0.5 \times \sin (\frac{π \times i}{p}), I = 0,1, . . . P - 1

，P为特征阶数；

（2）特征微分用于分析一段语音信号特征向量的变化率，主要包括特征一阶微分，二阶微分。一阶微分用来获取特征向量的变化速率，二阶微分用来获取特征向量变化的加速度。特征向量的变化描述了人的韵律的变化情况，主要包括:声调、语调、重音、节奏。声调主要表现在音调的高低，语调是指声调的变化情况，重音描述了发音由发音气流的强弱，节奏是指各音节的长短快慢。特征向量的一阶微分如下:

Featrue_d(j)_i=Featrue(j)_i-Featrue(j-1)_i

其中i=0，1，…P.J=1，2…，N，P为特征阶数，N为特征向量个数。Feature是原始的特征向量，Featured为原始特征向量的一阶微分。在一阶微分基础之上，再进行一次微分，就可以得到特征向量的二阶微分。用公式表示为:

Featrue_d_d(j)_i=Featrue_d(j)_i-Featrue_d(j-1)_i

（3）特征组合是指将表征语音不同的特征参数按照一定的加权比组合起来，组成一个新的特征向量。不同的特征向量体现了不同的语音特征，例如基因频率是语音激励源的一个重要特征，它的变化模式称为声调，而MFCC是基因人的听觉模型，它是从人的听觉出发，因此语音的特征可以通过不同的特征向量来描述，所以从多个特征向量来实现语音性别识别及其情感识别有利于提高识别率。

（4）特征筛选是指从得到的新的组合特征向量中，选择最能表征语音的特征参数，丢弃一些对识别影响很小的特征参数，特征筛选分为两种，一种是特征向量筛选，另一种是特征分量筛选。特征向量筛选是指从组合特征向量中筛选部分特征向量，丢弃其他特征向量。特征分量筛选是指从组合特征向量中选择部分特征向量，使用主元分析法或独立元分析确定被选定的特征分量。

完成了基因频率样本的收集和特征的提取，我们再来考虑分类器的选取。SVM分类器主要的构造方法有：一对一方法、一对多方法、SVM决策树方法。为了和HMM的模型相对应，本发明选择了一对多的方法。另一个需要考虑的问题是SVM的输出是距离符号（+1或者-1），+1表示属于一类。-1表示属于另一类。而HMM模型中的Viterbi算法需要一个概率密度，因此必须把SVM的输出转化成后验概率，一个方法就是通过sigmoid函数把SVM的输出转换为后验概率。公式如下：

p (j | x) = \frac{1}{1 + Aexp (- y_{i} + B)}

式中j代表第j类，x表示特征向量，y_i代表第j类的SVM输出结果。正如普拉特所说参数A和B可以根据算法估算，需要注意的是，假设事先类概率是相等的，从这一估计概率公式产生的问题是，通过训练数据将会产生严重的误差，为了避免这个问题，必须使用交叉验证来估计sigmoid中的参数。数据集的大小根据用来分类的训练数据的大小来确定。

选择好分类器之后，本发明采用下面的训练方法。由于混合模型是由SVM模型和HMM模型组成，因此训练也分为两部分，首先是SVM的训练，其次是HMM的训练。在训练SVM时，采用一对多方法，假设有k个类别，那么就需要训练k个SVM分类器。在训练某一类别时，把属于该类的语音样本作为一类，把其他类别的语音样本作为另外一类，并把改类标记为+1，其他类记为-1。相应的，训练HMM模型的步骤如下：首先将所有属于该类别的语音样本输入到先前训练出来的K个分类器中，分别计算每个样本在这K个分类器的结果，每个样本在这K个分类器中就可以得到K个值，我们把这K个值组成一个向量，对于所有的语音样本，就可以形成一个向量序列，这个序列就是HMM的训练数据，再根据HMM中的Baum-Welch算法就可以估计HMM模型中的参数。本发明中语音性别识别，是简单的二分类问题，只需要构造一个分类器。同样，HMM模型也采用两个模型，一个模型用来训练男性，另一个用来训练女性。

在采用SVM和HMM混合模型训练完成后，混合模型的识别相对简单，首先将待识别的语音样本输入到训练出来的SVM分类器中，把得到一个向量序列后输入到训练出来的HMM模型，这样就得到一组概率值，比较这些概率值，哪个概率值最大，待识别的样本就属于该类别的HMM模型。

综上所述，基因频率是语音信号中重要特征参数之一，它描述了语音激励源的一个重要特征，男女声音的基因频率存在很大差异。本发明提出了一种利用基于基因频率的分类方法，同时为了利用HMM和SVM的优点，采用HMM和SVM混合的模型对基因频率MFCC特征进行训练，从而达到较好的识别男女说话声音的效果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，包括：

2.根据权利要求1所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，所述样本特征参数包括MFCC。

3.根据权利要求2所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，对所述MFCC进行了二次特征提取获得它的加权特征和/或一阶/多阶微分特征。

4.根据权利要求3所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，还包括平均基因频率。

5.根据权利要求4所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，所述二次特征提取获得它的加权特征所使用到的加权系数采用如下升半正弦函数公式获得：

r_{i} = 0.5 + 0.5 \times \sin (\frac{π \times i}{p})

其中i=0，1，至P-1，P为特征阶数，r_i为获得的加权系数。

6.根据权利要求4所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，所述二次特征提取获得它的一阶微分特征的方法是：

特征向量的一阶微分如下；

Featrue_d(j)_i=Featrue(j)_i-Featrue(j-1)_i

Featrue_d(j)_i=Featrue_d(j)_i-Featrue_d(j-1)_i

7.根据权利要求2-6任意一项所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，构造1个SVM分类器，把男性的训练样本标记为+1，女性的训练样本标记为-1，然后考虑到SVM的输出是距离符号+1或者-1，+1表示属于一类，-1表示属于另一类。

8.根据权利要求7所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，通过sigmoid函数把SVM的输出转换为概率序列。

9.根据权利要求8所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，用HMM中的Baum-Welch算法估计参数，以完成了HMM1的训练并相应得到HMM1的参数，按照得到HMM1参数的方法，以此类推得到HMM2的参数。

10.根据权利要求9所述的基于SVM和HMM混合模型的男女说话声音分类方法，其特征在于，将所述识别阶段的特征序列分别输入到HMM1和HMM2中，利用HMM模型中的Viterbi计算出概率。