CN103778913A

CN103778913A - 一种病理嗓音的识别方法

Info

Publication number: CN103778913A
Application number: CN201410027836.0A
Authority: CN
Inventors: 张晓俊; 曹毅; 陶智; 黄程韦; 吴迪; 肖仲喆
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-01-22
Filing date: 2014-01-22
Publication date: 2014-05-07

Abstract

本发明公开了一种病理嗓音的识别方法，包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块，所述特征参数输入模块和特征优化模块对病理嗓音特征库进行采样和优化淘选，所述病理嗓音识别模块根据特征参数计算匹配度Match，所述匹配判断模块用以统计识别结果，所述内容呈现模块用以输出。本发明通过EM算法，消掉隐变量，通过特征优化组合参数，经过分类器，再运用基于期望值最大化的高斯混合模型（GMM-EM）对优化后的嗓音特征进行有效识别，明显提高正确识别率。

Description

一种病理嗓音的识别方法

技术领域

本发明属于声音识别领域，具体的涉及一种病理嗓音的识别方法。

背景技术

对嗓音状况的调查表明，目前我国至少有1亿人患有各种嗓音疾病，原因涉及到生理和工作环境等许多方面。如何保留和提高喉发音功能及其检测方法成为了众多信号处理及统计模式识别领域研究者共同关注的焦点。随着计算机技术及统计模式识别的迅猛发展,建立在模型统计基础上的病理嗓音自动检测也迅速成为了研究热点,经过几十年的发展,形成了众多的研究方法。

在特征优化方面，本发明运用连接F属性的评估的属性选择的优化算法，再用两种分类器，对数据进行进一步优化分类，探讨各种病理嗓音的特征。接下来用基于期望值最大化的高斯混合模型，对优化后的嗓音特征进行有效识别。一般的利用传统的高斯混合模型识别的流程如图1所示，分为训练部分和识别部分。建模首先要提取嗓音信号的特征，特征提取之后特征优化，然后训练得到模型。识别部分首先进行特征提取，再进行特征优化，此时需要与训练好的模型进行匹配得到匹配得分，再和设定的阈值比较，最后得到判别结果。但是传统的基于极大似然估计的高斯混合模型必须要求数据处理中不含隐变量，而实际实验中嗓音特征无法避免的会存在隐变量，这就给基于极大似然估计的高斯混合模型识别语音带来了困难。

发明内容

本发明的目的是克服目前病理嗓音系统存在的上述缺点，通过EM算法，消掉隐变量，通过特征优化组合参数，经过分类器，再运用高斯混合模型，明显提高正确识别率。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种病理嗓音的识别方法，包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块，所述病理嗓音识别模块包括基于期望值最大化的高斯混合模型（GMM-EM）建立单元、模型训练单元和语音识别单元，

其中所述模型（GMM-EM）建立单元和模型训练单元包括以下步骤：

步骤2.1）确定高斯混合模型代表公式，如下：

Figure 2014100278360100002DEST_PATH_IMAGE001

其中

，

，

Figure 2014100278360100002DEST_PATH_IMAGE005

分别表示第i个高斯分量的权重、均值向量和方差矩阵，

表示m维的特征向量，K是高斯模型的分量数目；

步骤2.2）E步计算得到初始化参数，计算公式如下：

Figure 2014100278360100002DEST_PATH_IMAGE007

j=1,..,K, t=1,…,n；

步骤2.3）M步计算更新参数，计算公式如下：

Figure 2014100278360100002DEST_PATH_IMAGE009

；

步骤2.4）针对各类病理嗓音种类，提取各种特征参数；

步骤2.5）对每类嗓音每种特征参数进行GMM训练，得到训练的GMM矩阵；

步骤2.6）运用连接F属性的评估的属性选择的算法对数据进行组合优化，提取出若干个参数；

步骤2.7）运用两种分类器，对数据进行进一步特征优化；

步骤2.8）将步骤2.7）中提取的特征参数输入训练好的GMM，求其似然度；

步骤2.9）根据步骤2.8）算出的似然度，计算各类病理嗓音的匹配概率；

步骤2.10）对步骤2.9）求出的各特征参数匹配概率加权求和得总匹配度Match；

步骤2.11）将步骤2.9）求得的总匹配度Match和阈值进行比较，如果大于阈值，将进行各特征的贡献率计算，如果小于阈值，将进行计数及送入结束判断；

步骤2.12）对步骤2.11）中的总匹配度Match小于阈值且不满足结束条件的嗓音信号送回进行新一轮的训练，如果满足结束条件，则训练结束；

所述语音识别单元包括以下步骤：

步骤2.13）输入识别嗓音信号进行特征提取；

步骤2.14）运用连接F属性的评估的属性选择的算法对数据进行组合优化，提取出若干参数；

步骤2.15）运用两种分类器，对数据进行进一步特征优化；

步骤2.16）加载步骤2.12）中训练好的识别模型；

步骤2.17）将步骤2.14）中提取的特征与加载好的识别模型进行匹配；

步骤2.18）若匹配，则识别结束，若不匹配则载入下一个训练好的模型，并转入步骤2.13）。

进一步的，所述特征参数输入模块包括数据库单元和选择单元，并且所述特征参数输入模块和特征优化模块包括以下步骤：

步骤1.1）对病理嗓音特征库进行特征空间采样，生成特征子集；

步骤1.2）用连接F属性评估的属性选择算法评价特征子集，并得到其优劣程度的得分Match；

步骤1.3）将特征子集优劣程度得分与连接F属性评估的属性选择算法中设定的阈值相比较，若Match大于阈值则转入下一步，否则转入步骤1.1）；

步骤1.4）验证特征选择的结果。

本发明的有益效果是:

1、采用了多种嗓音特征进行组合特征优化，充分利用了各嗓音特征的优点；

2、多次训练，针对那些不易被识别的嗓音信号，进行再训练；

3、训练中阈值、结束的条件和识别中的条件可以灵活设定；

4、可以自行设定病理嗓音的种类，并进行精确细分；

5、可以对包含隐变量的嗓音特征进行有效识别；

6、操作简单灵活，实用性强。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1 传统的高斯混合模型识别的流程图；

图2 本发明各模块框图；

图3 为模型（GMM-EM）建立单元、模型训练单元流程图；

图4为语音识别单元流程图。

下面将参考附图并结合实施例，来详细说明本发明。

参照图2所示，一种病理嗓音的识别方法，包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块，其中，所述特征参数输入模块包括数据库单元和选择单元，所述病理嗓音识别模块包括模型（GMM-EM）建立单元、模型训练单元和语音识别单元。

参照图3所示，模型（GMM-EM）建立单元、模型训练单元实例，其过程为：

第一步：从提供的数据库中选出两组数据，分别为正常嗓音50个与声带麻痹50个、正常嗓音50个与声带小结、水肿、息肉50个；

第二步：用连接F属性的评估的属性选择的算法实现多种参数组合，提取出二十到三十个参数；

第三步：运用两种分类器，并对数据进行进一步优化识别；

第四步：将第三步中提取的特征参数输入训练好的GMM，求其似然度；

第五步：根据第四步算出的似然度，计算各类病理嗓音的匹配概率；

第六步：对第五步求出的各特征参数匹配概率加权求和得总匹配度Match；

第七步：将求得的总匹配度Match和阈值进行比较，如果大于阈值，则将进行各特征的贡献率计算，如果小于阈值，则将进行计数及送入结束判断；

第八步：对第六步中的总匹配度Match小于阈值且不满足结束条件的嗓音信号送回进行新一轮的训练，如果满足结束条件，则训练结束。

参照图4所示，语音识别单元实例，其过程为：

第九步：提取正常嗓音50个与声带麻痹50个、正常嗓音50个与声带小结、水肿、息肉50个特征参数；

第十步：连接F属性的评估的属性选择的算法实现多种参数组合，提取出二十到三十个参数；

第十一步：运用两种分类器，并对数据进行进一步优化识别；

第十二步：加载第八步中训练好的识别模型；

第十三步：将第十步中提取的特征与加载好的识别模型进行匹配，计算匹配率Match；

第十四步：若匹配率Match>阈值，则为病理嗓音，否则为正常嗓音；

第十五步：识别结束。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种病理嗓音的识别方法，包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块，其特征在于，所述病理嗓音识别模块包括基于期望值最大化的高斯混合模型（GMM-EM）建立单元、模型训练单元和语音识别单元，