CN111210845B - 一种基于改进自相关特征的病理语音检测装置 - Google Patents

一种基于改进自相关特征的病理语音检测装置 Download PDF

Info

Publication number
CN111210845B
CN111210845B CN201911332887.3A CN201911332887A CN111210845B CN 111210845 B CN111210845 B CN 111210845B CN 201911332887 A CN201911332887 A CN 201911332887A CN 111210845 B CN111210845 B CN 111210845B
Authority
CN
China
Prior art keywords
function
voice
autocorrelation
improved
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911332887.3A
Other languages
English (en)
Other versions
CN111210845A (zh
Inventor
薛珮芸
王颇
白静
冯晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201911332887.3A priority Critical patent/CN111210845B/zh
Publication of CN111210845A publication Critical patent/CN111210845A/zh
Application granted granted Critical
Publication of CN111210845B publication Critical patent/CN111210845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及病理语音检测技术领域。一种基于改进自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行处理然后通过显示屏和音箱输出分类结果和分类准确率。相比于传统的梅尔倒谱系数、韵律、共振峰等特征,本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析,并且可以表示出不同频段的语音特性,比传统特征具有更好的检测效果。

Description

一种基于改进自相关特征的病理语音检测装置
技术领域
本发明涉及病理语音检测技术领域。
背景技术
随着生活节奏的加快,人们社会活动的增多,语音障碍疾病越来越常见。通过调查显示,有超过百分之三十的人出现过嘶哑等发音障碍问题。尤其在需要经常用嗓的职业,比如教师、律师、拍卖师等,他们职业迫使他们说话声音比其他人大的多,过度用嗓导致他们的声音出现嘶哑。患有语音障碍的人在日常生活的语音交流中存在很多困难,给他们生活工作学习均带来了很多不便。因而语音障碍问题越来越受到人们的重视,已经成为了全球性健康问题。
语音信号处理技术提供了一种非入侵性的方法,通过提取语音的特征,然后结合模式识别方法自动完成对语音障碍的评估,该方法能够在临床中辅助医生检测问诊者是否出现声带病变,有助于医生进一步对患者进行诊治。从语音的产生原理来看,嗓音的产生主要通过声带的振动,如果声带出现病变就会影响自身振动的频率、振幅,出现异常发音。传统的病理语音检测技术通过提取嗓音信号的美尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)、线性预测倒谱系数、基频、共振峰、频率微扰及振幅微扰等声学特征,结合高斯混合模型、支持向量机、随机森林等机器学习的方法可以对嗓音客观地进行评价。然而这些病理语音检测方法提取的声学特征将语音作为线性信号进行分析,忽略了语音的非线性特性;并且嗓音信号的产生过程复杂,不同的嗓音疾病可能存在于不同的频段,在整段语音信号上进行时频分析的方法存在局限性。
发明内容
解决的问题:如何提供一种能够提高病理语音检测准确率的病理语音检测装置。
本发明所采用的技术方案:一种基于改进自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率
步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;
步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;
步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征;
步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;
步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;
步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
步骤一中,加窗、分帧的具体过程如下:
1.1对输入数据s(n)采用汉明窗w(n)进行加窗。
Figure BDA0002327376990000011
n表示语音信号的采样点序列,N表示帧长。
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)。
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
步骤二中,经验模态分解的具体步骤如下:
经验模态分解(Empirical mode decomposition,EMD)是一种能够自适应的信号分解方法,能很好地处理非线性、非平稳信号,它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function,IMF),每个固有模态函数分量都有较强的自适应性,并且能够准确反映语音信号的局部特征以及非平稳性。
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示。
Figure BDA0002327376990000021
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数;
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=F′b(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点。
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t)。
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
Figure BDA0002327376990000022
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
2.4使用语音信号xi(t)减去第一个分量c1(t),得到新的语音信号
Figure BDA0002327376990000023
重复上述步骤,分别得到第2,…,3,l个固有模态函数分量c2(t),c3(t)...cl(t)
Figure BDA0002327376990000024
步骤3中,改进自相关特征提取过程如下:
自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变的语音波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异。因此
3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Figure BDA0002327376990000031
Ri(m)表示第i帧的自相关函数,xi(t)表示固有模态函数分量的第i帧语音信号,m表示延时量,t为帧同步的时间序号,N表示帧长。
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征。
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
自相关函数平均值
Figure BDA0002327376990000032
I表示总帧数,i表示第i帧,m表示延时量。
步骤4中,改进梅尔倒谱系数的提取过程如下:
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换。
Figure BDA0002327376990000033
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数。
4.2对得到的频谱取模的平方得到能量谱El(z)。
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数。
4.3进行能量谱频率合成。
Figure BDA0002327376990000034
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点。
4.4通过梅尔滤波器组,输出S'(z)。
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点。
4.5取反离散余弦变换,得到改进的梅尔倒谱系数。
Figure BDA0002327376990000035
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
步骤5中,改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征,最终的融合特征的特征集合表示为:
Figure BDA0002327376990000036
Figure BDA0002327376990000037
表示第1个固有模态函数分量的自相关特征向量,
Figure BDA0002327376990000038
表示第2个固有模态函数分量的自相关特征向量,
Figure BDA0002327376990000041
表示第l个固有模态分量的自相关特征向量,l取8,
Figure BDA0002327376990000042
表示第1阶改进梅尔倒谱系数的统计参数构成的向量,
Figure BDA0002327376990000043
表示第2阶改进梅尔倒谱系数的统计参数构成的向量,
Figure BDA0002327376990000044
表示第L阶改进梅尔倒谱系数的统计参数构成的向量,L取12,Fu表示融合特征。
本发明提出一种基于改进自相关特征的病理语音检测装置,具有如下增益效果:
1、相比于传统的梅尔倒谱系数、韵律、共振峰等特征,本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析,并且可以表示出不同频段的语音特性,比传统特征具有更好的检测效果。
2、对分解后的信号提取自相关特征和梅尔倒谱系数,并构成融合特征,实验结果表明融合特征对单一语音特征具有较好的优化作用,进一步提高了检测效果。
附图
图1一种基于自相关特征的病理语音检测装置的结构示意图;
图2改进自相关特征提取流程图;
图3正常语音的自相关函数;
图4声带息肉语音的自相关函数;
图5声带麻痹语音的自相关函数;
图6声带囊肿语音的自相关函数。
具体实施方式:
以下结合实施实例和附图,对本发明方案进一步说明。
如图1所示,一种基于自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率,
在实施实例中,采用萨尔州大学语音研究所负责录制的SVD(Saarbrucken VoiceDatab ase,SVD)病理语音数据库,实验语料为单元音a。研究表明,单元音a比其他的音具有更高的识别率,国内外研究大都使用a进行实验。经过筛选后,正常语音样本266个,病理语音样本259个,其中包括声带麻痹样本208个,声带息肉样本45个,声带囊肿样本6个。
计算机内程序处理如下
步骤1:对输入的语音数据进行加窗、分帧。
1.11.1对输入数据s(n)采用汉明窗w(n)进行加窗。
Figure BDA0002327376990000045
n表示语音信号的采样点序列,N表示帧长。
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)。
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
步骤2:按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数。
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示。
Figure BDA0002327376990000051
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数。
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=F′b(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点。
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t)。
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
Figure BDA0002327376990000052
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
2.4使用语音信号xi(t)减去第一个分量c1(t),得到新的语音信号
Figure BDA0002327376990000053
重复上述步骤,分别得到第2,…,3,l个固有模态函数分量c2(t),c3(t)...cl(t)
Figure BDA0002327376990000054
步骤3:计算每一阶固有模态函数的自相关函数,提取改进自相关特征。提取改进自相关特征的示意图如图2所示。
自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变语音的波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异。四种语音的自相关函数如图3、图4、图5、图6所示。
3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Figure BDA0002327376990000055
Ri(m)表示第i帧的自相关函数,xi(t)表示固有模态函数分量的第i帧语音信号,m表示延时量,t为帧同步的时间序号,N表示帧长。
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征。
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
自相关函数平均值
Figure BDA0002327376990000061
I表示总帧数,i表示第i帧,m表示延时量。
步骤4:将步骤2中每一个固有模态函数分量进行离散傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进梅尔倒谱系数。
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换。
Figure BDA0002327376990000062
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数。
4.2对得到的频谱取模的平方得到能量谱El(z)。
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数。
4.3进行能量谱频率合成。
Figure BDA0002327376990000063
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点。
4.4通过梅尔滤波器组,输出S'(z)。
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点。
4.5取反离散余弦变换,得到改进的梅尔倒谱系数。
Figure BDA0002327376990000064
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
步骤5、对步骤3提取的改进自相关特征和步骤4得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征,最终的融合特征特征集合表示为:
Figure BDA0002327376990000065
Figure BDA0002327376990000066
表示第1个固有模态函数分量的自相关特征向量,
Figure BDA0002327376990000067
表示第2个固有模态函数分量的自相关特征向量,
Figure BDA0002327376990000068
表示第l个固有模态分量的自相关特征向量,l取8。
Figure BDA0002327376990000069
表示第1阶改进梅尔倒谱系数的统计参数构成的向量,
Figure BDA00023273769900000610
表示第2阶改进梅尔倒谱系数的统计参数构成的向量,
Figure BDA00023273769900000611
表示第L阶改进梅尔倒谱系数的统计参数构成的向量,L取12。Fu表示融合特征。
步骤6、使用步骤5中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
表1病理语音检测结果
特征 改进梅尔倒谱系数 改进自相关特征 融合特征
识别率/% 87.7 89.24 92.55
对于病理语音的检测,即对正常语音和病理语音进行分类。实验通过matlab完成特征提取和分类。Adaboost参数设置为:弱分类器的个数n_estimators为200,学习率learning_rate为0.7。最终的识别结果如表1所示。改进自相关特征与改进梅尔倒谱系数融合后达到最佳识别效果,病理语音检测准确率为92.55%。

Claims (5)

1.一种基于改进自相关特征的病理语音检测装置,其特征在于:包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率
步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;
步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;
步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征,具体步骤如下:
自相关函数用于衡量信号自身时间波形的相似性,利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变的语音波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异,因此3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Figure FDA0003626527540000011
Ri(m)表示第i帧的固有模态函数分量自相关函数,xi(t)表示第i帧语音信号的固有模态函数分量,m表示延时量,t为帧同步的时间序号,N表示帧长;
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征;
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
自相关函数平均值
Figure FDA0003626527540000012
I表示总帧数,i表示第i帧,m表示延时量;
步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;
步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;
步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤一到步骤五处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
2.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤一中,加窗、分帧的具体过程如下:
1.1对输入数据s(n)采用汉明窗w(n)进行加窗;
Figure FDA0003626527540000013
n表示语音信号的采样点序列,N表示帧长;
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
3.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤二中,经验模态分解的具体步骤如下:
经验模态分解Empirical mode decomposition,EMD是一种能够自适应的信号分解方法,能很好地处理非线性、非平稳信号,它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function,IMF),每个固有模态函数分量都有较强的自适应性,并且能够准确反映语音信号的局部特征以及非平稳性;
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示:
Figure FDA0003626527540000021
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数;
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=Fb′(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点;
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t);
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
Figure FDA0003626527540000022
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
2.4用语音信号xi(t)减去第一个分量c1(t),得到语音信号
Figure FDA0003626527540000023
Figure FDA0003626527540000024
2.5将
Figure FDA0003626527540000025
作为新的语音信号赋值给xi(t),重复执行步骤2.1-2.4,过程中分别得到第2,3,…,l个固有模态函数分量c2(t),c3(t)...cl(t),l为最后一个固有模态函数分量数。
4.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤四中,改进梅尔倒谱系数的提取过程如下:
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换;
Figure FDA0003626527540000031
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数;
4.2对得到的频谱取模的平方得到能量谱El(z)
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数;
4.3进行能量谱频率合成
Figure FDA0003626527540000032
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点;
4.4通过梅尔滤波器组,输出S'(z)
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点;
4.5取反离散余弦变换,得到改进的梅尔倒谱系数;
Figure FDA0003626527540000033
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
5.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤五中,改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征,最终的融合特征的特征集合表示为:
Figure FDA0003626527540000034
Figure FDA0003626527540000035
表示第1个固有模态函数分量的自相关特征向量,
Figure FDA0003626527540000036
表示第2个固有模态函数分量的自相关特征向量,
Figure FDA0003626527540000037
表示第l个固有模态分量的自相关特征向量,l取8,
Figure FDA0003626527540000038
表示第1阶改进梅尔倒谱系数的统计参数构成的向量,
Figure FDA0003626527540000039
表示第2阶改进梅尔倒谱系数的统计参数构成的向量,
Figure FDA00036265275400000310
表示第L阶改进梅尔倒谱系数的统计参数构成的向量,L取12,Fu表示融合特征。
CN201911332887.3A 2019-12-20 2019-12-20 一种基于改进自相关特征的病理语音检测装置 Active CN111210845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911332887.3A CN111210845B (zh) 2019-12-20 2019-12-20 一种基于改进自相关特征的病理语音检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911332887.3A CN111210845B (zh) 2019-12-20 2019-12-20 一种基于改进自相关特征的病理语音检测装置

Publications (2)

Publication Number Publication Date
CN111210845A CN111210845A (zh) 2020-05-29
CN111210845B true CN111210845B (zh) 2022-06-21

Family

ID=70789269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911332887.3A Active CN111210845B (zh) 2019-12-20 2019-12-20 一种基于改进自相关特征的病理语音检测装置

Country Status (1)

Country Link
CN (1) CN111210845B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863951B (zh) * 2022-07-11 2022-09-23 中国科学院合肥物质科学研究院 一种基于模态分解的构音障碍快速检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104198183A (zh) * 2014-09-17 2014-12-10 重庆大学 风电机组传动链振动噪声抑制及其早期故障特征提取方法
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN108470156A (zh) * 2018-03-06 2018-08-31 南京邮电大学 一种心音信号分类识别方法
CN108903914A (zh) * 2018-06-01 2018-11-30 四川长虹电器股份有限公司 一种基于emd分解的mfcc的心音类型识别方法
CN109145727A (zh) * 2018-07-11 2019-01-04 上海电力学院 一种基于vmd参数优化的轴承故障特征提取方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783200B (zh) * 2017-11-21 2019-06-07 吉林大学 一种联合emd与tfpf算法的全波磁共振信号随机噪声消减方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104198183A (zh) * 2014-09-17 2014-12-10 重庆大学 风电机组传动链振动噪声抑制及其早期故障特征提取方法
CN106941005A (zh) * 2017-02-24 2017-07-11 华南理工大学 一种基于语音声学特征的声带异常检测方法
CN108470156A (zh) * 2018-03-06 2018-08-31 南京邮电大学 一种心音信号分类识别方法
CN108903914A (zh) * 2018-06-01 2018-11-30 四川长虹电器股份有限公司 一种基于emd分解的mfcc的心音类型识别方法
CN109145727A (zh) * 2018-07-11 2019-01-04 上海电力学院 一种基于vmd参数优化的轴承故障特征提取方法
CN109887510A (zh) * 2019-03-25 2019-06-14 南京工业大学 一种基于经验模态分解与mfcc的声纹识别方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Pathological voice analysis and classification based on empirical mode decomposition";Schlotthauer G;《International conference on development of multimodal interfaces:active listening & synchrony spring-verlag》;20091231;全文 *
"基于EMD和增强功率谱分析的滚动轴承故障诊断方法";杨望灿;《现代制造工程》;20131231(第12期);全文 *
"基于EMD的改进MFCC 的语音情感识别";屠彬彬;《计算机工程与应用》;20121231;第48卷(第18期);全文 *
"基于多特征组合的普通话塞音识别";冯沛;《现代电子技术》;20140415;第42卷(第8期);全文 *
"基于改进的MFCC的鸟鸣声识别方法研究";程龙;《中国传媒大学学报自然科学版》;20170630;第24卷(第3期);全文 *

Also Published As

Publication number Publication date
CN111210845A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN104732977B (zh) 一种在线口语发音质量评价方法和系统
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Ramamohan et al. Sinusoidal model-based analysis and classification of stressed speech
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
US8566092B2 (en) Method and apparatus for extracting prosodic feature of speech signal
CN107274888B (zh) 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN104050965A (zh) 具有情感识别功能的英语语音发音质量评价系统及方法
CN103871426A (zh) 对比用户音频与原唱音频相似度的方法及其系统
Mittal et al. Analysis of production characteristics of laughter
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN103366759A (zh) 语音数据的测评方法和装置
CN103366735B (zh) 语音数据的映射方法和装置
CN111554256B (zh) 一种基于强弱标准的钢琴视奏能力评价系统
Deshmukh et al. Speech based emotion recognition using machine learning
Bandela et al. Emotion recognition of stressed speech using teager energy and linear prediction features
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Deekshitha et al. Broad phoneme classification using signal based features
CN111210845B (zh) 一种基于改进自相关特征的病理语音检测装置
Gowda et al. Analysis of breathy, modal and pressed phonation based on low frequency spectral density.
CN202758611U (zh) 语音数据的测评装置
Yusnita et al. Analysis of accent-sensitive words in multi-resolution mel-frequency cepstral coefficients for classification of accents in Malaysian English
Hillenbrand et al. Perception of sinewave vowels
Francis et al. A scale invariant technique for detection of voice disorders using Modified Mellin Transform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant