CN103778913A - 一种病理嗓音的识别方法 - Google Patents

一种病理嗓音的识别方法 Download PDF

Info

Publication number
CN103778913A
CN103778913A CN201410027836.0A CN201410027836A CN103778913A CN 103778913 A CN103778913 A CN 103778913A CN 201410027836 A CN201410027836 A CN 201410027836A CN 103778913 A CN103778913 A CN 103778913A
Authority
CN
China
Prior art keywords
voice
characteristic
module
pathology
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410027836.0A
Other languages
English (en)
Inventor
张晓俊
曹毅
陶智
黄程韦
吴迪
肖仲喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410027836.0A priority Critical patent/CN103778913A/zh
Publication of CN103778913A publication Critical patent/CN103778913A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种病理嗓音的识别方法,包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块,所述特征参数输入模块和特征优化模块对病理嗓音特征库进行采样和优化淘选,所述病理嗓音识别模块根据特征参数计算匹配度Match,所述匹配判断模块用以统计识别结果,所述内容呈现模块用以输出。本发明通过EM算法,消掉隐变量,通过特征优化组合参数,经过分类器,再运用基于期望值最大化的高斯混合模型(GMM-EM)对优化后的嗓音特征进行有效识别,明显提高正确识别率。

Description

一种病理嗓音的识别方法
技术领域
本发明属于声音识别领域,具体的涉及一种病理嗓音的识别方法。
背景技术
对嗓音状况的调查表明,目前我国至少有1亿人患有各种嗓音疾病,原因涉及到生理和工作环境等许多方面。如何保留和提高喉发音功能及其检测方法成为了众多信号处理及统计模式识别领域研究者共同关注的焦点。随着计算机技术及统计模式识别的迅猛发展,建立在模型统计基础上的病理嗓音自动检测也迅速成为了研究热点,经过几十年的发展,形成了众多的研究方法。
在特征优化方面,本发明运用连接F属性的评估的属性选择的优化算法,再用两种分类器,对数据进行进一步优化分类,探讨各种病理嗓音的特征。接下来用基于期望值最大化的高斯混合模型,对优化后的嗓音特征进行有效识别。一般的利用传统的高斯混合模型识别的流程如图1所示,分为训练部分和识别部分。建模首先要提取嗓音信号的特征,特征提取之后特征优化,然后训练得到模型。识别部分首先进行特征提取,再进行特征优化,此时需要与训练好的模型进行匹配得到匹配得分,再和设定的阈值比较,最后得到判别结果。但是传统的基于极大似然估计的高斯混合模型必须要求数据处理中不含隐变量,而实际实验中嗓音特征无法避免的会存在隐变量,这就给基于极大似然估计的高斯混合模型识别语音带来了困难。
发明内容
本发明的目的是克服目前病理嗓音系统存在的上述缺点,通过EM算法,消掉隐变量,通过特征优化组合参数,经过分类器,再运用高斯混合模型,明显提高正确识别率。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种病理嗓音的识别方法,包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块,所述病理嗓音识别模块包括基于期望值最大化的高斯混合模型(GMM-EM)建立单元、模型训练单元和语音识别单元,
    其中所述模型(GMM-EM)建立单元和模型训练单元包括以下步骤:
    步骤2.1)确定高斯混合模型代表公式,如下:
Figure 2014100278360100002DEST_PATH_IMAGE001
Figure 682858DEST_PATH_IMAGE002
其中
Figure 2014100278360100002DEST_PATH_IMAGE003
Figure 516822DEST_PATH_IMAGE004
Figure 2014100278360100002DEST_PATH_IMAGE005
分别表示第i个高斯分量的权重、均值向量和方差矩阵,
Figure 280510DEST_PATH_IMAGE006
表示m维的特征向量,K是高斯模型的分量数目;
    步骤2.2)E步计算得到初始化参数,计算公式如下:
             
Figure 2014100278360100002DEST_PATH_IMAGE007
 j=1,..,K, t=1,…,n;
    步骤2.3)M步计算更新参数,计算公式如下:
    
Figure 163015DEST_PATH_IMAGE008
      
    
Figure 2014100278360100002DEST_PATH_IMAGE009
    
    
    步骤2.4)针对各类病理嗓音种类,提取各种特征参数;
步骤2.5)对每类嗓音每种特征参数进行GMM训练,得到训练的GMM矩阵;
步骤2.6)运用连接F属性的评估的属性选择的算法对数据进行组合优化,提取出若干个参数;
步骤2.7)运用两种分类器,对数据进行进一步特征优化;
步骤2.8)将步骤2.7)中提取的特征参数输入训练好的GMM,求其似然度;
步骤2.9)根据步骤2.8)算出的似然度,计算各类病理嗓音的匹配概率;
步骤2.10)对步骤2.9)求出的各特征参数匹配概率加权求和得总匹配度Match;
步骤2.11)将步骤2.9)求得的总匹配度Match和阈值进行比较,如果大于阈值,将进行各特征的贡献率计算,如果小于阈值,将进行计数及送入结束判断;
步骤2.12)对步骤2.11)中的总匹配度Match小于阈值且不满足结束条件的嗓音信号送回进行新一轮的训练,如果满足结束条件,则训练结束;
所述语音识别单元包括以下步骤:
步骤2.13)输入识别嗓音信号进行特征提取;
步骤2.14)运用连接F属性的评估的属性选择的算法对数据进行组合优化,提取出若干参数;
步骤2.15)运用两种分类器,对数据进行进一步特征优化;
步骤2.16)加载步骤2.12)中训练好的识别模型;
步骤2.17)将步骤2.14)中提取的特征与加载好的识别模型进行匹配;
步骤2.18)若匹配,则识别结束,若不匹配则载入下一个训练好的模型,并转入步骤2.13)。
进一步的,所述特征参数输入模块包括数据库单元和选择单元,并且所述特征参数输入模块和特征优化模块包括以下步骤:
步骤1.1)对病理嗓音特征库进行特征空间采样,生成特征子集;
步骤1.2)用连接F属性评估的属性选择算法评价特征子集,并得到其优劣程度的得分Match;
步骤1.3)将特征子集优劣程度得分与连接F属性评估的属性选择算法中设定的阈值相比较,若Match大于阈值则转入下一步,否则转入步骤1.1);
步骤1.4)验证特征选择的结果。
本发明的有益效果是:
1、采用了多种嗓音特征进行组合特征优化,充分利用了各嗓音特征的优点;
2、多次训练,针对那些不易被识别的嗓音信号,进行再训练;
3、训练中阈值、结束的条件和识别中的条件可以灵活设定;
4、可以自行设定病理嗓音的种类,并进行精确细分;
5、可以对包含隐变量的嗓音特征进行有效识别;
6、操作简单灵活,实用性强。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1 传统的高斯混合模型识别的流程图;
图2 本发明各模块框图;
图3 为模型(GMM-EM)建立单元、模型训练单元流程图;
图4为语音识别单元流程图。
下面将参考附图并结合实施例,来详细说明本发明。
参照图2所示,一种病理嗓音的识别方法,包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块,其中,所述特征参数输入模块包括数据库单元和选择单元,所述病理嗓音识别模块包括模型(GMM-EM)建立单元、模型训练单元和语音识别单元。
参照图3所示,模型(GMM-EM)建立单元、模型训练单元实例,其过程为:
第一步:从提供的数据库中选出两组数据,分别为正常嗓音50个与声带麻痹50个、正常嗓音50个与声带小结、水肿、息肉50个;
第二步:用连接F属性的评估的属性选择的算法实现多种参数组合,提取出二十到三十个参数;
第三步:运用两种分类器,并对数据进行进一步优化识别;
第四步:将第三步中提取的特征参数输入训练好的GMM,求其似然度;
第五步:根据第四步算出的似然度,计算各类病理嗓音的匹配概率;
第六步:对第五步求出的各特征参数匹配概率加权求和得总匹配度Match;
第七步:将求得的总匹配度Match和阈值进行比较,如果大于阈值,则将进行各特征的贡献率计算,如果小于阈值,则将进行计数及送入结束判断;
第八步:对第六步中的总匹配度Match小于阈值且不满足结束条件的嗓音信号送回进行新一轮的训练,如果满足结束条件,则训练结束。
参照图4所示,语音识别单元实例,其过程为:
第九步:提取正常嗓音50个与声带麻痹50个、正常嗓音50个与声带小结、水肿、息肉50个特征参数;
第十步:连接F属性的评估的属性选择的算法实现多种参数组合,提取出二十到三十个参数;
第十一步:运用两种分类器,并对数据进行进一步优化识别;
第十二步:加载第八步中训练好的识别模型;
第十三步:将第十步中提取的特征与加载好的识别模型进行匹配,计算匹配率Match;
第十四步:若匹配率Match>阈值,则为病理嗓音,否则为正常嗓音;
第十五步:识别结束。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种病理嗓音的识别方法,包括特征参数输入模块、特征优化模块、病理嗓音识别模块、匹配判断模块和内容呈现模块,其特征在于,所述病理嗓音识别模块包括基于期望值最大化的高斯混合模型(GMM-EM)建立单元、模型训练单元和语音识别单元,
    其中所述模型(GMM-EM)建立单元和模型训练单元包括以下步骤:
    步骤2.1)确定高斯混合模型代表公式,如下:
Figure 807136DEST_PATH_IMAGE002
其中
Figure 919766DEST_PATH_IMAGE004
Figure 734138DEST_PATH_IMAGE005
分别表示第i个高斯分量的权重、均值向量和方差矩阵,表示m维的特征向量,K是高斯模型的分量数目;
    步骤2.2)E步计算得到初始化参数,计算公式如下:
             
Figure 761317DEST_PATH_IMAGE007
 j=1,..,K, t=1,…,n;
    步骤2.3)M步计算更新参数,计算公式如下:
    
Figure 960217DEST_PATH_IMAGE008
      
        
    
Figure 622460DEST_PATH_IMAGE010
    步骤2.4)针对各类病理嗓音种类,提取各种特征参数;
步骤2.5)对每类嗓音每种特征参数进行GMM训练,得到训练的GMM矩阵;
步骤2.6)运用连接F属性的评估的属性选择的算法对数据进行组合优化,提取出若干个参数;
步骤2.7)运用两种分类器,对数据进行进一步特征优化;
步骤2.8)将步骤2.7)中提取的特征参数输入训练好的GMM,求其似然度;
步骤2.9)根据步骤2.8)算出的似然度,计算各类病理嗓音的匹配概率;
步骤2.10)对步骤2.9)求出的各特征参数匹配概率加权求和得总匹配度Match;
步骤2.11)将步骤2.9)求得的总匹配度Match和阈值进行比较,如果大于阈值,将进行各特征的贡献率计算,如果小于阈值,将进行计数及送入结束判断;
步骤2.12)对步骤2.11)中的总匹配度Match小于阈值且不满足结束条件的嗓音信号送回进行新一轮的训练,如果满足结束条件,则训练结束;
所述语音识别单元包括以下步骤:
步骤2.13)输入识别嗓音信号进行特征提取;
步骤2.14)运用连接F属性的评估的属性选择的算法对数据进行组合优化,提取出若干参数;
步骤2.15)运用两种分类器,对数据进行进一步特征优化;
步骤2.16)加载步骤2.12)中训练好的识别模型;
步骤2.17)将步骤2.14)中提取的特征与加载好的识别模型进行匹配;
步骤2.18)若匹配,则识别结束,若不匹配则载入下一个训练好的模型,并转入步骤2.13)。
2.根据权利要求1所述的病理嗓音的识别方法,其特征在于,所述特征参数输入模块包括数据库单元和选择单元,并且所述特征参数输入模块和特征优化模块包括以下步骤:
  步骤1.1)对病理嗓音特征库进行特征空间采样,生成特征子集;
  步骤1.2)用连接F属性评估的属性选择算法评价特征子集,并得到其优劣程度的得分Match;
  步骤1.3)将特征子集优劣程度得分与连接F属性评估的属性选择算法中设定的阈值相比较,若Match大于阈值则转入下一步,否则转入步骤1.1);
  步骤1.4)验证特征选择的结果。
CN201410027836.0A 2014-01-22 2014-01-22 一种病理嗓音的识别方法 Pending CN103778913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410027836.0A CN103778913A (zh) 2014-01-22 2014-01-22 一种病理嗓音的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410027836.0A CN103778913A (zh) 2014-01-22 2014-01-22 一种病理嗓音的识别方法

Publications (1)

Publication Number Publication Date
CN103778913A true CN103778913A (zh) 2014-05-07

Family

ID=50571082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410027836.0A Pending CN103778913A (zh) 2014-01-22 2014-01-22 一种病理嗓音的识别方法

Country Status (1)

Country Link
CN (1) CN103778913A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106073706A (zh) * 2016-06-01 2016-11-09 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN108133713A (zh) * 2017-11-27 2018-06-08 苏州大学 一种在声门闭相下估计声道面积的方法
CN109119094A (zh) * 2018-07-25 2019-01-01 苏州大学 一种利用声带建模反演的嗓音分类方法
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN110021435A (zh) * 2017-09-07 2019-07-16 医疗财团法人徐元智先生医药基金会亚东纪念医院 嗓音侦测分类系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875877A (zh) * 2006-05-15 2006-12-13 西安交通大学 一种获得声门下压力值及计算发声效率的方法
CN101452698A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种自动嗓音谐噪比分析方法
CN102646415A (zh) * 2012-04-10 2012-08-22 苏州大学 一种语音识别中的特征参数提取方法
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875877A (zh) * 2006-05-15 2006-12-13 西安交通大学 一种获得声门下压力值及计算发声效率的方法
CN101452698A (zh) * 2007-11-29 2009-06-10 中国科学院声学研究所 一种自动嗓音谐噪比分析方法
CN102646415A (zh) * 2012-04-10 2012-08-22 苏州大学 一种语音识别中的特征参数提取方法
CN103258545A (zh) * 2012-12-20 2013-08-21 苏州大学 一种病理嗓音细分方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297768A (zh) * 2015-05-11 2017-01-04 苏州大学 一种语音识别方法
CN106297768B (zh) * 2015-05-11 2020-01-17 苏州大学 一种语音识别方法
CN106073706A (zh) * 2016-06-01 2016-11-09 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN106073706B (zh) * 2016-06-01 2019-08-20 中国科学院软件研究所 一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
CN107784363A (zh) * 2016-08-31 2018-03-09 华为技术有限公司 数据处理方法、装置及系统
CN107784363B (zh) * 2016-08-31 2021-02-09 华为技术有限公司 数据处理方法、装置及系统
CN110021435A (zh) * 2017-09-07 2019-07-16 医疗财团法人徐元智先生医药基金会亚东纪念医院 嗓音侦测分类系统
CN108133713A (zh) * 2017-11-27 2018-06-08 苏州大学 一种在声门闭相下估计声道面积的方法
CN108133713B (zh) * 2017-11-27 2020-10-02 苏州大学 一种在声门闭相下估计声道面积的方法
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN109119094A (zh) * 2018-07-25 2019-01-01 苏州大学 一种利用声带建模反演的嗓音分类方法

Similar Documents

Publication Publication Date Title
CN103778913A (zh) 一种病理嗓音的识别方法
CN109816092B (zh) 深度神经网络训练方法、装置、电子设备及存储介质
Gao et al. Discriminative multiple canonical correlation analysis for information fusion
WO2020083073A1 (zh) 非机动车图像多标签分类方法、系统、设备及存储介质
CN104992191B (zh) 基于深度学习的特征和最大置信路径的图像分类方法
CN103854016B (zh) 基于方向性共同发生特征的人体行为分类识别方法及系统
CN102034107B (zh) 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN106875007A (zh) 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
Zhao et al. Semantic parts based top-down pyramid for action recognition
CN109919055B (zh) 一种基于AdaBoost-KNN的动态人脸情感识别方法
CN109064389B (zh) 一种手绘线条画生成现实感图像的深度学习方法
CN103226713A (zh) 一种多视角行为识别方法
CN109815920A (zh) 基于卷积神经网络和对抗卷积神经网络的手势识别方法
CN107944398A (zh) 基于深度特征联合表示图像集人脸识别方法、装置和介质
Zhang et al. Group sparse-based mid-level representation for action recognition
CN104156690A (zh) 一种基于图像空间金字塔特征包的手势识别方法
CN104715266A (zh) 基于src-dp与lda相结合的图像特征提取方法
CN108573241A (zh) 一种基于融合特征的视频行为识别方法
Zhu et al. A novel simple visual tracking algorithm based on hashing and deep learning
Chen et al. K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video
CN104008095A (zh) 一种基于语义特征提取与匹配的物体识别方法
Qu et al. In-air handwritten Chinese character recognition using multi-stage classifier based on adaptive discriminative locality alignment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140507