CN110942784A - 基于支持向量机的鼾声分类系统 - Google Patents
基于支持向量机的鼾声分类系统 Download PDFInfo
- Publication number
- CN110942784A CN110942784A CN201911160127.9A CN201911160127A CN110942784A CN 110942784 A CN110942784 A CN 110942784A CN 201911160127 A CN201911160127 A CN 201911160127A CN 110942784 A CN110942784 A CN 110942784A
- Authority
- CN
- China
- Prior art keywords
- snore
- module
- support vector
- vector machine
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010041235 Snoring Diseases 0.000 title claims abstract description 100
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 22
- 208000001797 obstructive sleep apnea Diseases 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 14
- 238000009432 framing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 238000003745 diagnosis Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 14
- 238000003066 decision tree Methods 0.000 description 8
- 230000037433 frameshift Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 101100533306 Mus musculus Setx gene Proteins 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010067775 Upper airway obstruction Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 201000002859 sleep apnea Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
- A61B5/4818—Sleep apnoea
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Heart & Thoracic Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Veterinary Medicine (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于支持向量机的鼾声分类识别系统,包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。该系统能为OSAHS患者的诊断提供帮助。
Description
技术领域
本发明属于基于机器学习的分类识别领域,涉及机器学习中支持向量机这一模型的运用。
背景技术
阻塞性睡眠呼吸暂停低通气综合症是睡眠呼吸疾病中最主要、发病率最高的一种疾病,打鼾是OSAHS患者中通常都会伴有的特征,患者在睡眠过程中由于上气道阻塞,容易导致窒息甚至是猝死的后果。多导睡眠图监测(PSG)是长期以来用于检查、监测和诊断睡眠呼吸紊乱疾病的一项现有技术手段,但是,这种设备存在着数量稀少、操作繁琐、耗费时间的缺点,而潜在的OSAHS患病的数量相对庞大,导致众多的潜在患者得不到及时的确诊和治疗。
因此,进行对鼾声的声学特性进行研究是必要的,试图利用鼾声分析技术探寻一种便携、低廉、能广泛用于OSAHS患者诊断的监测系统。鼾声信号包含和携带了人呼吸通道的结构特征和构造信息,本发明通过对多个正常鼾声和OSAHS患者的鼾声样本进行分析和研究,发现与正常鼾声相比,OSAHS患者的呼吸通道发生了结构性的变化,因此鼾声信号可以反应出这是正常鼾声还是OSAHS患者的鼾声,对鼾声信号的检测分析结果能够作为OSAHS患病的判断标准,本发明以MFCC参数作为支持向量机的特征参数,其中MFCC又名Mel频率倒谱系数,它是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。本发明通过把一部分正常鼾声和OSAHS患者的鼾声的MFCC参数作为训练特征输入到支持向量机中,训练好模型后,再通过测试数据进行模型评估,进行模型调整最终形成较好的模型。
发明内容
本发明的目的是现有技术的不足,提出一种基于支持向量机的鼾声分类系统,可以为OSAHS患者提供数据支持。
本发明解决上述技术问题的技术方案如下:
基于支持向量机的鼾声分类系统,所述方法包括:
本发明系统包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。其中录音模块把获取的鼾声信号传入到声音预处理模块,然后预处理模块将信号传入到MFCC特征计算模块,MFCC特征计算模块又将信号传入到SVM学习模块,最后进入模型调优模块进行模型调优。
所诉的录音模块通过录音设备获取测试者整晚的鼾声,然后传入到声音预处理模块。
所述的声音预处理模块通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号,然后传入MFCC特征计算模块。
所述的MFCC特征计算模块通过对预处理过后的信号进行MFCC特征的提取,然后将数据传入到SVM学习模块。
所述的SVM学习模块通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别,然后将数据导入到模型调优模块。
所述的模型调优模块通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
本发明提出一种基于支持向量机的鼾声分类系统,通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。
目前的端点检测算法在较高的信噪比下均能给出较高的检测率,但是在低信噪比下却不够理想。传统的能量和过零率特征在低信噪比下已不再稳健,因此本发明利用基于谱熵的端点检测算法,它是从语音信号的频域来进行计算,然后从频谱分布概率来进行语音端点的检测,此方法在较低的信噪比下也能够显著地提高端点检测的准确率,具体包括:
先对鼾声数据进行预加重和加窗分帧,帧长为20ms,帧移为10ms,重叠率50%;
然后通过快速傅立叶变换得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。之后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为:
i=1,…,N
式中,S(fi)是fi的能量,Pi是相应的概率密度,N是FFT中频率成分的所有点数。由于语音信号的绝大部分能量集中200Hz~3500Hz之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200Hz~3500Hz之外的频率分量置为0,即:
s(fi)=0,fi<200Hz或fi>3500Hz
相应的每一帧的谱熵定义如下:
通过熵函数就可以计算每帧语音信号的谱熵,并跟阈值比较,就可以检测出语音的起止点。
所述对鼾声信号进行其他预处理,具体包括:
从语音信号的频谱图中可以看出,频率越高的地方,语音信号的成分越小,也就是说语音信号的高频处的频谱比低频处的频谱难求,为此要在语音信号的预处理中进行预加重处理,它的目的是提升高频部分,使语音信号变得平坦这样就能在低频到高频的整个频带中用同样的信噪比来求频谱。
预加重通常使用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶有限冲激相应(FIR)滤波器:
H(z)=1-μz-1
式中μ的取值范围是[0.4-1.0]。
在进行过预加重处理的信号还要进行加窗和分帧处理。加窗和分帧是实现语音短时分析的手段。
通过加窗处理可以把语音信号分为许多个短时的语音段,每个短时的语音段都被称为一帧。帧和帧之间既可以连续,也可以交叠,但是一般都采用有交叠的分帧方法,这样做的目的是为了使帧与帧之间平滑过渡,保持语音信号的连续性,前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取为0-0.5之间。
分帧是用可以移动的窗口进行加权的方法来实现的,窗口的长度是有限长的,设窗函数为w(n),用窗函数乘以语音信号s(n),从而形成加窗的语音信号:
sw(n)=s(n)*w(n)
在语音信号数字处理中最常用的窗函数是矩形窗和汉明窗等,它们的表达式如下:
矩形窗:
汉明窗:
窗函数的选取对于语音信号的短时参数的影响非常大。为此应该选择合适的窗函数,使语音信号的短时参数能更贴切地反映出语音信号的特征变化。
汉明窗的主瓣宽度为矩形窗的主瓣宽度为由此可知汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时它的带外衰减也比矩形窗大。虽然矩形窗的谱平滑性能比较好,但是却损失了高频分量,从而造成了波形细节的部分丢失,所以从这一方面来看汉明窗比矩形窗更为适合应用于语音信号的加窗分帧。
所述进行鼾声信号的特征提取,具体特征信息包括:
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个。
第一,人的主观感知频域的划定并不是线性的,根据Stevens和Volkman的工作,有下面的公式:
式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。
第二,临界带。频率带相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。
在语音的频率范围内设置若干带通滤波器Hm(k),0≤m<M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为
0≤m≤M F(m)可以用下面的方法加以定义:
MFCC特征提取分为五步:
(1)预处理:预加重、分帧、加窗。
(2)快速傅里叶变换
对每一帧信号进行FFT变换,从时域数据转变为频域数据:
X(i,k)=FFT[xi(m)]
(3)计算谱线能量
对每一帧FFT后的数据计算谱线的能量:
E(i,k)=|X(i,k)|2
(4)计算通过Mel滤波器的能量
在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频域响应Hm(k)相乘并相加:
0≤m<M
(5)计算DCT倒谱
k=0,1,…,N-1
式中,参数N是序列x(n)的长度;C(k)是正交因子,可表示为
把Mel滤波器的能量取对数后计算DCT:
式中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器(共有M个);i是指第i帧;n是DCT后的谱线,mfcc(i,n)就是所求MFCC特征。
所述根据正常鼾声与OSAHS患者鼾声的特征信息,使用SVM对这两种鼾声进行分类识别,包括:
训练数据得到SVM模型和SVM分类器,具体包括:
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声,具体包括:
从鼾声信号中提取特征信息,通过分类器计算后得到一个数值,如果该数值大于0.5,则认为该信号为正常鼾声;如果该数值小于0.5,则认为是OSAHS患者鼾声。
所述使用模型调优模块进行参数调优,具体方法包括:
网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法,以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,需要调整它的参数。在决策树算法中,通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如{'max_depth':[1,2,3,4,5]},尽可能包含最优最大深度。但是只用一次的结果不能说明某组的参数组合比另外的参数组合好,所以这里引入K折交叉验证,它将其中K-1份作为训练数据,剩下的一份作为验证数据输入到模型中,一共进行K次,将最后K次使用事先选择好的评分方式的评分求平均返回,然后找出最大的一个评分对用的参数组合即最优参数组合,这样能使训练出来的模型有很好的泛化能力。
附图说明
图1为本发明的基于支持向量机的鼾声分类系统模块图。
具体实施方式
下面结合附图对本发明专利做进一步分析。
如图1所示,本发明的基于支持向量机的鼾声分类系统包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。其中录音模块把获取的鼾声信号传入到声音预处理模块,然后预处理模块将信号传入到MFCC特征计算模块,MFCC特征计算模块又将信号传入到SVM学习模块,最后进入模型调优模块进行模型调优。
所诉的录音模块通过录音设备获取测试者整晚的鼾声,然后传入到声音预处理模块。
所述的声音预处理模块通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号,然后传入MFCC特征计算模块。
所述的MFCC特征计算模块通过对预处理过后的信号进行MFCC特征的提取,然后将数据传入到SVM学习模块。
所述的SVM学习模块通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别,然后将数据导入到模型调优模块。
所述的模型调优模块通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
本发明提出一种基于支持向量机的鼾声分类系统,通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。
目前的端点检测算法在较高的信噪比下均能给出较高的检测率,但是在低信噪比下却不够理想。传统的能量和过零率特征在低信噪比下已不再稳健,因此本发明利用基于谱熵的端点检测算法,它是从语音信号的频域来进行计算,然后从频谱分布概率来进行语音端点的检测,此方法在较低的信噪比下也能够显著地提高端点检测的准确率,具体包括:
先对鼾声数据进行预加重和加窗分帧,帧长为20ms,帧移为10ms,重叠率50%;
然后通过快速傅立叶变换得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。之后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为:
i=1,…,N
式中,S(fi)是fi的能量,Pi是相应的概率密度,N是FFT中频率成分的所有点数。由于语音信号的绝大部分能量集中200Hz~3500Hz之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200Hz~3500Hz之外的频率分量置为0,即:
s(fi)=0,fi<200Hz或fi>3500Hz
相应的每一帧的谱熵定义如下:
通过熵函数就可以计算每帧语音信号的谱熵,并跟阈值比较,就可以检测出语音的起止点。
所述对鼾声信号进行其他预处理,具体包括:
从语音信号的频谱图中可以看出,频率越高的地方,语音信号的成分越小,也就是说语音信号的高频处的频谱比低频处的频谱难求,为此要在语音信号的预处理中进行预加重处理,它的目的是提升高频部分,使语音信号变得平坦这样就能在低频到高频的整个频带中用同样的信噪比来求频谱。
预加重通常使用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶有限冲激相应(FIR)滤波器:
H(z)=1-μz-1
式中μ的取值范围是[0.4-1.0]。
在进行过预加重处理的信号还要进行加窗和分帧处理。加窗和分帧是实现语音短时分析的手段。
通过加窗处理可以把语音信号分为许多个短时的语音段,每个短时的语音段都被称为一帧。帧和帧之间既可以连续,也可以交叠,但是一般都采用有交叠的分帧方法,这样做的目的是为了使帧与帧之间平滑过渡,保持语音信号的连续性,前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取为0-0.5之间。分帧是用可以移动的窗口进行加权的方法来实现的,窗口的长度是有限长的,设窗函数为w(n),用窗函数乘以语音信号s(n),从而形成加窗的语音信号:
sw(n)=s(n)*w(n)
在语音信号数字处理中最常用的窗函数是矩形窗和汉明窗等,它们的表达式如下:
矩形窗:
汉明窗:
窗函数的选取对于语音信号的短时参数的影响非常大。为此应该选择合适的窗函数,使语音信号的短时参数能更贴切地反映出语音信号的特征变化。
汉明窗的主瓣宽度为8π/N,矩形窗的主瓣宽度为4π/N,由此可知汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时它的带外衰减也比矩形窗大。虽然矩形窗的谱平滑性能比较好,但是却损失了高频分量,从而造成了波形细节的部分丢失,所以从这一方面来看汉明窗比矩形窗更为适合应用于语音信号的加窗分帧。
所述进行鼾声信号的特征提取,具体特征信息包括:
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个。
第一,人的主观感知频域的划定并不是线性的,根据Stevens和Volkman的工作,有下面的公式:
式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。第二,临界带。频率带相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。
在语音的频率范围内设置若干带通滤波器Hm(k),0≤m<M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为
0≤m≤M F(m)可以用下面的方法加以定义:
MFCC特征提取分为五步:
(1)预处理:预加重、分帧、加窗。
(2)快速傅里叶变换
对每一帧信号进行FFT变换,从时域数据转变为频域数据:
X(i,k)=FFT[xi(m)]
(3)计算谱线能量
对每一帧FFT后的数据计算谱线的能量:
E(i,k)=|X(i,k)|2
(4)计算通过Mel滤波器的能量
在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频域响应Hm(k)相乘并相加:
0≤m<M
(5)计算DCT倒谱
k=0,1,…,N-1
式中,参数N是序列x(n)的长度;C(k)是正交因子,可表示为
把Mel滤波器的能量取对数后计算DCT:
式中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器(共有M个);i是指第i帧;n是DCT后的谱线,mfcc(i,n)就是所求MFCC特征。
所述根据正常鼾声与OSAHS患者鼾声的特征信息,使用SVM对这两种鼾声进行分类识别,包括:
训练数据得到SVM模型和SVM分类器,具体包括:
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声,具体包括:
从鼾声信号中提取特征信息,通过分类器计算后得到一个数值,如果该数值大于0.5,则认为该信号为正常鼾声;如果该数值小于0.5,则认为是OSAHS患者鼾声。
所述使用模型调优模块进行参数调优,具体方法包括:
网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法,以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如{'max_depth':[1,2,3,4,5]},我们会尽可能包含最优最大深度。但是只用一次的结果不能说明某组的参数组合比另外的参数组合好,所以这里引入K折交叉验证,它将其中K-1份作为训练数据,剩下的一份作为验证数据输入到模型中,一共进行K次,将最后K次使用事先选择好的评分方式的评分求平均返回,然后找出最大的一个评分对用的参数组合即最优参数组合,这样能使训练出来的模型有很好的泛化能力。
Claims (5)
1.基于支持向量机的鼾声分类系统,其特征在于,包括如下模块:
录音模块,通过录音设备获取测试者整晚的鼾声;
声音预处理模块,通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号;
MFCC特征计算模块,通过对预处理过后的鼾声信号进行MFCC特征的提取;
SVM学习模块,通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别;
模型调优模块,通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
2.根据权利要求1所述的基于支持向量机的鼾声分类系统,其特征在于,
所述声音预处理模块使用端点检测确定鼾声段和无声段从而提取出每个鼾声信号,具体如下:
使用低信噪比下基于谱熵的端点检测算法确定鼾声段和无声段;
所述无声段是两个鼾声段之间的声音片段。
3.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
所述提取的特征包括:梅尔频率倒谱系数等特征信息。
4.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
使用SVM对正常鼾声与OSAHS患者鼾声进行分类识别,具体包括:
训练特征数据得到SVM模型和SVM分类器;
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声。
5.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
所述模型调优模块使用模型调优模块进行参数调优,包括:网格搜索和交叉验证相结合的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911160127.9A CN110942784A (zh) | 2019-11-21 | 2019-11-21 | 基于支持向量机的鼾声分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911160127.9A CN110942784A (zh) | 2019-11-21 | 2019-11-21 | 基于支持向量机的鼾声分类系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110942784A true CN110942784A (zh) | 2020-03-31 |
Family
ID=69908152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911160127.9A Pending CN110942784A (zh) | 2019-11-21 | 2019-11-21 | 基于支持向量机的鼾声分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942784A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613210A (zh) * | 2020-07-06 | 2020-09-01 | 杭州电子科技大学 | 一种各类呼吸暂停综合征的分类检测系统 |
CN111916104A (zh) * | 2020-07-20 | 2020-11-10 | 湖北美和易思教育科技有限公司 | 一种人工智能物联网宿舍管理系统及方法 |
CN111920390A (zh) * | 2020-09-15 | 2020-11-13 | 成都启英泰伦科技有限公司 | 一种基于嵌入式终端的鼾声检测方法 |
CN111938650A (zh) * | 2020-07-03 | 2020-11-17 | 上海诺斯清生物科技有限公司 | 监测睡眠时呼吸暂停的方法及装置 |
CN112420074A (zh) * | 2020-11-18 | 2021-02-26 | 麦格纳(太仓)汽车科技有限公司 | 一种汽车后视镜电机异响声音的诊断方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102138795A (zh) * | 2011-02-21 | 2011-08-03 | 上海大学 | 根据鼾声声学特征确定阻塞性睡眠呼吸暂停与低通气综合症严重程度的方法 |
CN102579010A (zh) * | 2012-03-01 | 2012-07-18 | 上海大学 | 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法 |
CN107358965A (zh) * | 2017-06-09 | 2017-11-17 | 华南理工大学 | 一种睡眠鼾声分类检测方法及系统 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109350014A (zh) * | 2018-12-10 | 2019-02-19 | 苏州小蓝医疗科技有限公司 | 一种鼾声识别方法与系统 |
-
2019
- 2019-11-21 CN CN201911160127.9A patent/CN110942784A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102138795A (zh) * | 2011-02-21 | 2011-08-03 | 上海大学 | 根据鼾声声学特征确定阻塞性睡眠呼吸暂停与低通气综合症严重程度的方法 |
CN102579010A (zh) * | 2012-03-01 | 2012-07-18 | 上海大学 | 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法 |
CN107358965A (zh) * | 2017-06-09 | 2017-11-17 | 华南理工大学 | 一种睡眠鼾声分类检测方法及系统 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109350014A (zh) * | 2018-12-10 | 2019-02-19 | 苏州小蓝医疗科技有限公司 | 一种鼾声识别方法与系统 |
Non-Patent Citations (5)
Title |
---|
唐云飞: "基于声学特性的鼾声分类研究", 《中国优秀硕士学位论文全文数据库 医药科技卫生辑》 * |
唐云飞: "基于声学特性的鼾声分类研究", 《中国优秀硕士学位论文全文数据库 医药科技卫生辑》, 31 January 2019 (2019-01-31), pages 3 - 4 * |
宋知用: "《MATLAB语音信号分析与合成 第2版》", 31 January 2018, pages: 155 - 157 * |
遗忘: "阻塞性睡眠呼吸暂停低通气综合征患者的鼾声分析与识别研究-王粲", 《道客巴巴HTTPS://WWW.DOC88.COM/P-3196470054830.HTML?R=1》 * |
遗忘: "阻塞性睡眠呼吸暂停低通气综合征患者的鼾声分析与识别研究-王粲", 《道客巴巴HTTPS://WWW.DOC88.COM/P-3196470054830.HTML?R=1》, 18 September 2018 (2018-09-18), pages 5 - 6 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111938650A (zh) * | 2020-07-03 | 2020-11-17 | 上海诺斯清生物科技有限公司 | 监测睡眠时呼吸暂停的方法及装置 |
CN111938650B (zh) * | 2020-07-03 | 2024-06-11 | 上海诺斯清生物科技有限公司 | 监测睡眠时呼吸暂停的方法及装置 |
CN111613210A (zh) * | 2020-07-06 | 2020-09-01 | 杭州电子科技大学 | 一种各类呼吸暂停综合征的分类检测系统 |
CN111916104A (zh) * | 2020-07-20 | 2020-11-10 | 湖北美和易思教育科技有限公司 | 一种人工智能物联网宿舍管理系统及方法 |
CN111916104B (zh) * | 2020-07-20 | 2022-09-13 | 武汉美和易思数字科技有限公司 | 一种人工智能物联网宿舍管理系统及方法 |
CN111920390A (zh) * | 2020-09-15 | 2020-11-13 | 成都启英泰伦科技有限公司 | 一种基于嵌入式终端的鼾声检测方法 |
CN112420074A (zh) * | 2020-11-18 | 2021-02-26 | 麦格纳(太仓)汽车科技有限公司 | 一种汽车后视镜电机异响声音的诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108896878B (zh) | 一种基于超声波的局部放电检测方法 | |
CN110942784A (zh) | 基于支持向量机的鼾声分类系统 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN110570880B (zh) | 一种鼾声信号识别方法 | |
Sharma et al. | Empirical mode decomposition for adaptive AM-FM analysis of speech: A review | |
Vijayalakshmi et al. | Acoustic analysis and detection of hypernasality using a group delay function | |
CN111640439A (zh) | 一种基于深度学习的呼吸音分类方法 | |
CN108447495A (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110600053A (zh) | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 | |
CN102054480A (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN106264839A (zh) | 智能止鼾枕 | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测系统 | |
Murugappan et al. | DWT and MFCC based human emotional speech classification using LDA | |
CN104992707A (zh) | 一种腭裂语音喉塞音自动识别算法及装置 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
CN112820319A (zh) | 一种人类鼾声识别方法及其装置 | |
CN114613389A (zh) | 一种基于改进mfcc的非语音类音频特征提取方法 | |
Zabidi et al. | Mel-frequency cepstrum coefficient analysis of infant cry with hypothyroidism | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
CN111613210A (zh) | 一种各类呼吸暂停综合征的分类检测系统 | |
CN109300486B (zh) | 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法 | |
Fonseca et al. | Discrete wavelet transform and support vector machine applied to pathological voice signals identification | |
Rizal et al. | Lung sounds classification using spectrogram's first order statistics features | |
CN112863517B (zh) | 基于感知谱收敛率的语音识别方法 | |
Luo et al. | Design of embedded real-time system for snoring and OSA detection based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |