CN111210845B - 一种基于改进自相关特征的病理语音检测装置 - Google Patents
一种基于改进自相关特征的病理语音检测装置 Download PDFInfo
- Publication number
- CN111210845B CN111210845B CN201911332887.3A CN201911332887A CN111210845B CN 111210845 B CN111210845 B CN 111210845B CN 201911332887 A CN201911332887 A CN 201911332887A CN 111210845 B CN111210845 B CN 111210845B
- Authority
- CN
- China
- Prior art keywords
- function
- voice
- autocorrelation
- improved
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001575 pathological effect Effects 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 230000006870 function Effects 0.000 claims description 104
- 238000005311 autocorrelation function Methods 0.000 claims description 34
- 230000004927 fusion Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 16
- 210000001260 vocal cord Anatomy 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 230000003902 lesion Effects 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 230000037361 pathway Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000002156 mixing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 230000036285 pathological change Effects 0.000 description 4
- 231100000915 pathological change Toxicity 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000005248 Vocal Cord Paralysis Diseases 0.000 description 2
- 206010051515 Vocal cord cyst Diseases 0.000 description 2
- 206010047675 Vocal cord polyp Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000014515 polyp of vocal cord Diseases 0.000 description 2
- 208000011293 voice disease Diseases 0.000 description 2
- 206010013887 Dysarthria Diseases 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005182 global health Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 235000019129 pluma Nutrition 0.000 description 1
- 244000276444 pluma Species 0.000 description 1
- 235000019070 pluma del Caribe Nutrition 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及病理语音检测技术领域。一种基于改进自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行处理然后通过显示屏和音箱输出分类结果和分类准确率。相比于传统的梅尔倒谱系数、韵律、共振峰等特征,本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析,并且可以表示出不同频段的语音特性,比传统特征具有更好的检测效果。
Description
技术领域
本发明涉及病理语音检测技术领域。
背景技术
随着生活节奏的加快,人们社会活动的增多,语音障碍疾病越来越常见。通过调查显示,有超过百分之三十的人出现过嘶哑等发音障碍问题。尤其在需要经常用嗓的职业,比如教师、律师、拍卖师等,他们职业迫使他们说话声音比其他人大的多,过度用嗓导致他们的声音出现嘶哑。患有语音障碍的人在日常生活的语音交流中存在很多困难,给他们生活工作学习均带来了很多不便。因而语音障碍问题越来越受到人们的重视,已经成为了全球性健康问题。
语音信号处理技术提供了一种非入侵性的方法,通过提取语音的特征,然后结合模式识别方法自动完成对语音障碍的评估,该方法能够在临床中辅助医生检测问诊者是否出现声带病变,有助于医生进一步对患者进行诊治。从语音的产生原理来看,嗓音的产生主要通过声带的振动,如果声带出现病变就会影响自身振动的频率、振幅,出现异常发音。传统的病理语音检测技术通过提取嗓音信号的美尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)、线性预测倒谱系数、基频、共振峰、频率微扰及振幅微扰等声学特征,结合高斯混合模型、支持向量机、随机森林等机器学习的方法可以对嗓音客观地进行评价。然而这些病理语音检测方法提取的声学特征将语音作为线性信号进行分析,忽略了语音的非线性特性;并且嗓音信号的产生过程复杂,不同的嗓音疾病可能存在于不同的频段,在整段语音信号上进行时频分析的方法存在局限性。
发明内容
解决的问题:如何提供一种能够提高病理语音检测准确率的病理语音检测装置。
本发明所采用的技术方案:一种基于改进自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率
步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;
步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;
步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征;
步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;
步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;
步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
步骤一中,加窗、分帧的具体过程如下:
1.1对输入数据s(n)采用汉明窗w(n)进行加窗。
n表示语音信号的采样点序列,N表示帧长。
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)。
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
步骤二中,经验模态分解的具体步骤如下:
经验模态分解(Empirical mode decomposition,EMD)是一种能够自适应的信号分解方法,能很好地处理非线性、非平稳信号,它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function,IMF),每个固有模态函数分量都有较强的自适应性,并且能够准确反映语音信号的局部特征以及非平稳性。
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示。
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数;
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=F′b(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点。
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t)。
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
步骤3中,改进自相关特征提取过程如下:
自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变的语音波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异。因此
3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Ri(m)表示第i帧的自相关函数,xi(t)表示固有模态函数分量的第i帧语音信号,m表示延时量,t为帧同步的时间序号,N表示帧长。
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征。
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
I表示总帧数,i表示第i帧,m表示延时量。
步骤4中,改进梅尔倒谱系数的提取过程如下:
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换。
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数。
4.2对得到的频谱取模的平方得到能量谱El(z)。
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数。
4.3进行能量谱频率合成。
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点。
4.4通过梅尔滤波器组,输出S'(z)。
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点。
4.5取反离散余弦变换,得到改进的梅尔倒谱系数。
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
步骤5中,改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征,最终的融合特征的特征集合表示为:
表示第1个固有模态函数分量的自相关特征向量,表示第2个固有模态函数分量的自相关特征向量,表示第l个固有模态分量的自相关特征向量,l取8,表示第1阶改进梅尔倒谱系数的统计参数构成的向量,表示第2阶改进梅尔倒谱系数的统计参数构成的向量,表示第L阶改进梅尔倒谱系数的统计参数构成的向量,L取12,Fu表示融合特征。
本发明提出一种基于改进自相关特征的病理语音检测装置,具有如下增益效果:
1、相比于传统的梅尔倒谱系数、韵律、共振峰等特征,本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析,并且可以表示出不同频段的语音特性,比传统特征具有更好的检测效果。
2、对分解后的信号提取自相关特征和梅尔倒谱系数,并构成融合特征,实验结果表明融合特征对单一语音特征具有较好的优化作用,进一步提高了检测效果。
附图
图1一种基于自相关特征的病理语音检测装置的结构示意图;
图2改进自相关特征提取流程图;
图3正常语音的自相关函数;
图4声带息肉语音的自相关函数;
图5声带麻痹语音的自相关函数;
图6声带囊肿语音的自相关函数。
具体实施方式:
以下结合实施实例和附图,对本发明方案进一步说明。
如图1所示,一种基于自相关特征的病理语音检测装置,包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率,
在实施实例中,采用萨尔州大学语音研究所负责录制的SVD(Saarbrucken VoiceDatab ase,SVD)病理语音数据库,实验语料为单元音a。研究表明,单元音a比其他的音具有更高的识别率,国内外研究大都使用a进行实验。经过筛选后,正常语音样本266个,病理语音样本259个,其中包括声带麻痹样本208个,声带息肉样本45个,声带囊肿样本6个。
计算机内程序处理如下
步骤1:对输入的语音数据进行加窗、分帧。
1.11.1对输入数据s(n)采用汉明窗w(n)进行加窗。
n表示语音信号的采样点序列,N表示帧长。
1.2让语音信号s(n)乘以窗函数w(n),形成加窗语音信号x(n)。
x(n)=s(n)*w(n)
1.3对加窗后的语音信号x(n)进行分帧处理,则语音信号x(n)表示为xi(t),其中i为帧序号,t为帧同步的时间序号,帧长N为256,帧移为128。
步骤2:按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数。
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示。
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数。
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=F′b(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点。
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t)。
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
步骤3:计算每一阶固有模态函数的自相关函数,提取改进自相关特征。提取改进自相关特征的示意图如图2所示。
自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变语音的波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异。四种语音的自相关函数如图3、图4、图5、图6所示。
3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Ri(m)表示第i帧的自相关函数,xi(t)表示固有模态函数分量的第i帧语音信号,m表示延时量,t为帧同步的时间序号,N表示帧长。
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征。
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
I表示总帧数,i表示第i帧,m表示延时量。
步骤4:将步骤2中每一个固有模态函数分量进行离散傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进梅尔倒谱系数。
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换。
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数。
4.2对得到的频谱取模的平方得到能量谱El(z)。
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数。
4.3进行能量谱频率合成。
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点。
4.4通过梅尔滤波器组,输出S'(z)。
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点。
4.5取反离散余弦变换,得到改进的梅尔倒谱系数。
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
步骤5、对步骤3提取的改进自相关特征和步骤4得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征,最终的融合特征特征集合表示为:
表示第1个固有模态函数分量的自相关特征向量,表示第2个固有模态函数分量的自相关特征向量,表示第l个固有模态分量的自相关特征向量,l取8。表示第1阶改进梅尔倒谱系数的统计参数构成的向量,表示第2阶改进梅尔倒谱系数的统计参数构成的向量,表示第L阶改进梅尔倒谱系数的统计参数构成的向量,L取12。Fu表示融合特征。
步骤6、使用步骤5中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
表1病理语音检测结果
特征 | 改进梅尔倒谱系数 | 改进自相关特征 | 融合特征 |
识别率/% | 87.7 | 89.24 | 92.55 |
对于病理语音的检测,即对正常语音和病理语音进行分类。实验通过matlab完成特征提取和分类。Adaboost参数设置为:弱分类器的个数n_estimators为200,学习率learning_rate为0.7。最终的识别结果如表1所示。改进自相关特征与改进梅尔倒谱系数融合后达到最佳识别效果,病理语音检测准确率为92.55%。
Claims (5)
1.一种基于改进自相关特征的病理语音检测装置,其特征在于:包括话筒、计算机、显示屏和音箱,通过话筒收集语音作为输入数据,输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率
步骤一、对输入的语音信号进行预处理,即进行加窗、分帧;
步骤二、按顺序对每一帧语音信号进行经验模态分解,得到一组固有模态函数;
步骤三、计算每一个固有模态函数分量的自相关函数,提取语音的改进的自相关特征,具体步骤如下:
自相关函数用于衡量信号自身时间波形的相似性,利用自相关函数提供的信息可以估计出声带的不规则特性,研究发现,声带病变的语音波动周期少,周期内的波动幅度较大,并且声带病变的类型不一样,所在的病变部位不同,并且不同频率范围的特性存在差异,因此3.1计算步骤二中每一个固有模态函数分量的自相关函数:
Ri(m)表示第i帧的固有模态函数分量自相关函数,xi(t)表示第i帧语音信号的固有模态函数分量,m表示延时量,t为帧同步的时间序号,N表示帧长;
3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征;
自相关函数的最大值max{Ri(m)}
自相关函数的最小值min{Ri(m)}
自相关函数的最大值和最小值差值max{Ri(m)}-min{Ri(m)}
I表示总帧数,i表示第i帧,m表示延时量;
步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成,然后通过梅尔滤波器组得到改进的梅尔倒谱系数;
步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征,然后提取所有训练集语音样本的融合特征构成特征矩阵,对每一个语音样本的特征最前面加标签,正常语音样本融合特征的标签为train_normal,病理语音样本融合特征的标签为train_pathology;
步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型,然后将话筒收集语音同样按上述步骤一到步骤五处理测试样本集,给得到的测试样本集特征矩阵加标签,正常语音样本标签为test_noraml,病理语音样本标签为test_pathology,将加标签后的测试集与训练完的Adaboost模型进行匹配,得到最终的分类结果和分类准确率,通过显示屏和音箱输出分类结果和分类准确率。
3.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤二中,经验模态分解的具体步骤如下:
经验模态分解Empirical mode decomposition,EMD是一种能够自适应的信号分解方法,能很好地处理非线性、非平稳信号,它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function,IMF),每个固有模态函数分量都有较强的自适应性,并且能够准确反映语音信号的局部特征以及非平稳性;
2.1对每帧语音信号xi(t)求出所有极大值点和极小值点,用三次样条函数拟合所有极大值点形成上包络线e+(t),拟合所有极小值点形成下包络线e-(t),如下所示:
F(a)表示三次样条函数,F1(a)表示拟合第一个极值点a1和第二个极值点a2的分段函数,F2(a)表示拟合第二个极值点a2和第三个极值点a3的分段函数,Fc-1(a)表示拟合第c-1个极值点ac-1和第c个极值点ac的分段函数,a表示函数参数;
其中,样条相互连接,Fb-1(a)=Fb(a),b=1,2,…,c-1;
两次连续求导,F′b-1(a)=Fb′(a)以及F″b-1(a)=Fb″(a),b=1,2,…,c-1;
Fb(a)表示三次样条函数的任意一个分段函数,Fb-1(a)表示Fb(a)的前一个分段函数;Fb′(a)表示三次样条函数任意一个分段函数的一阶导数,Fb-1′(a)表示Fb(a)前一个分段函数的一阶导数;Fb″(a)表示三次样条函数任意一个分段函数二阶导数,F″b-1(a)表示Fb″(a)前一个分段函数的二阶导数,c表示极值点个数,b表示第b个极值点;
2.2求出上包络线和下包络线的均值m1(t)
m1(t)=(e+(t)+e-(t))/2;
2.3计算每帧语音信号xi(t)与m1(t)的差值h1(t);
h1(t)=xi(t)-m1(t)
如果h1(t)满足固有模态函数的定义,则它就是此语音信号的第一个固有模态函数分量,否则就以h1(t)为待处理信号,重复步骤2.1和步骤2.2,再判断h1,1(t)=xi(t)-m1,1(t)是否满足固有模态函数的定义,如不满足,重复k次,直到h1,k(t)=x(t)-m1,k(t)满足固有模态函数的筛选停止原则:
SD表示标准偏差系数,取0.2到0.3之间,记c1=h1,k,t为帧同步的时间序号,T指语音序列的长度;
4.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置,其特征在于:步骤四中,改进梅尔倒谱系数的提取过程如下:
4.1对每一个固有模态函数分量cl(t)进行快速傅里叶变换;
cl(t)表示第l个固有模态函数分量,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,Z表示固有模态函数分量的采样点总数,e表示一个数,j是复数,l表示固有模态函数分量总个数;
4.2对得到的频谱取模的平方得到能量谱El(z)
El(z)=|Cl(z)|2
El(z)表示能量谱,Cl(z)表示快速傅里叶变换后的固有模态分量,z表示固有模态函数分量的第z个采样点,l表示固有模态函数分量总个数;
4.3进行能量谱频率合成
S(z)表示能量谱合成的结果,El(z)表示能量谱,l表示固有模态函数分量的总个数,z表示固有模态函数分量的第z个采样点;
4.4通过梅尔滤波器组,输出S'(z)
S'(z)=ln(S(z)Hm(z)),0≤m≤M
S'(z)表示梅尔滤波器的输出,Hm(z)表示梅尔滤波器组,m表示第m阶滤波器,M表示滤波器阶数,取24,z表示固有模态函数分量的第z个采样点;
4.5取反离散余弦变换,得到改进的梅尔倒谱系数;
C(ω)表示梅尔倒谱系数,S'(z)表示梅尔滤波器的输出,L表示梅尔倒谱系数的阶数,取12,m表示第m阶滤波器,M表示滤波器阶数,取24,ω表示第ω阶特征,z表示固有模态函数分量的第z个采样点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332887.3A CN111210845B (zh) | 2019-12-20 | 2019-12-20 | 一种基于改进自相关特征的病理语音检测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911332887.3A CN111210845B (zh) | 2019-12-20 | 2019-12-20 | 一种基于改进自相关特征的病理语音检测装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111210845A CN111210845A (zh) | 2020-05-29 |
CN111210845B true CN111210845B (zh) | 2022-06-21 |
Family
ID=70789269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911332887.3A Active CN111210845B (zh) | 2019-12-20 | 2019-12-20 | 一种基于改进自相关特征的病理语音检测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210845B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863951B (zh) * | 2022-07-11 | 2022-09-23 | 中国科学院合肥物质科学研究院 | 一种基于模态分解的构音障碍快速检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104198183A (zh) * | 2014-09-17 | 2014-12-10 | 重庆大学 | 风电机组传动链振动噪声抑制及其早期故障特征提取方法 |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
CN108470156A (zh) * | 2018-03-06 | 2018-08-31 | 南京邮电大学 | 一种心音信号分类识别方法 |
CN108903914A (zh) * | 2018-06-01 | 2018-11-30 | 四川长虹电器股份有限公司 | 一种基于emd分解的mfcc的心音类型识别方法 |
CN109145727A (zh) * | 2018-07-11 | 2019-01-04 | 上海电力学院 | 一种基于vmd参数优化的轴承故障特征提取方法 |
CN109887510A (zh) * | 2019-03-25 | 2019-06-14 | 南京工业大学 | 一种基于经验模态分解与mfcc的声纹识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783200B (zh) * | 2017-11-21 | 2019-06-07 | 吉林大学 | 一种联合emd与tfpf算法的全波磁共振信号随机噪声消减方法 |
-
2019
- 2019-12-20 CN CN201911332887.3A patent/CN111210845B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104198183A (zh) * | 2014-09-17 | 2014-12-10 | 重庆大学 | 风电机组传动链振动噪声抑制及其早期故障特征提取方法 |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
CN108470156A (zh) * | 2018-03-06 | 2018-08-31 | 南京邮电大学 | 一种心音信号分类识别方法 |
CN108903914A (zh) * | 2018-06-01 | 2018-11-30 | 四川长虹电器股份有限公司 | 一种基于emd分解的mfcc的心音类型识别方法 |
CN109145727A (zh) * | 2018-07-11 | 2019-01-04 | 上海电力学院 | 一种基于vmd参数优化的轴承故障特征提取方法 |
CN109887510A (zh) * | 2019-03-25 | 2019-06-14 | 南京工业大学 | 一种基于经验模态分解与mfcc的声纹识别方法及装置 |
Non-Patent Citations (5)
Title |
---|
"Pathological voice analysis and classification based on empirical mode decomposition";Schlotthauer G;《International conference on development of multimodal interfaces:active listening & synchrony spring-verlag》;20091231;全文 * |
"基于EMD和增强功率谱分析的滚动轴承故障诊断方法";杨望灿;《现代制造工程》;20131231(第12期);全文 * |
"基于EMD的改进MFCC 的语音情感识别";屠彬彬;《计算机工程与应用》;20121231;第48卷(第18期);全文 * |
"基于多特征组合的普通话塞音识别";冯沛;《现代电子技术》;20140415;第42卷(第8期);全文 * |
"基于改进的MFCC的鸟鸣声识别方法研究";程龙;《中国传媒大学学报自然科学版》;20170630;第24卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111210845A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104732977B (zh) | 一种在线口语发音质量评价方法和系统 | |
CN104200804B (zh) | 一种面向人机交互的多类信息耦合的情感识别方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Ramamohan et al. | Sinusoidal model-based analysis and classification of stressed speech | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
US8566092B2 (en) | Method and apparatus for extracting prosodic feature of speech signal | |
CN107274888B (zh) | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN103871426A (zh) | 对比用户音频与原唱音频相似度的方法及其系统 | |
Mittal et al. | Analysis of production characteristics of laughter | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
CN103366759A (zh) | 语音数据的测评方法和装置 | |
CN103366735B (zh) | 语音数据的映射方法和装置 | |
CN111554256B (zh) | 一种基于强弱标准的钢琴视奏能力评价系统 | |
Deshmukh et al. | Speech based emotion recognition using machine learning | |
Bandela et al. | Emotion recognition of stressed speech using teager energy and linear prediction features | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Deekshitha et al. | Broad phoneme classification using signal based features | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
Gowda et al. | Analysis of breathy, modal and pressed phonation based on low frequency spectral density. | |
CN202758611U (zh) | 语音数据的测评装置 | |
Yusnita et al. | Analysis of accent-sensitive words in multi-resolution mel-frequency cepstral coefficients for classification of accents in Malaysian English | |
Hillenbrand et al. | Perception of sinewave vowels | |
Francis et al. | A scale invariant technique for detection of voice disorders using Modified Mellin Transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |