CN110942784A - 基于支持向量机的鼾声分类系统 - Google Patents

基于支持向量机的鼾声分类系统 Download PDF

Info

Publication number
CN110942784A
CN110942784A CN201911160127.9A CN201911160127A CN110942784A CN 110942784 A CN110942784 A CN 110942784A CN 201911160127 A CN201911160127 A CN 201911160127A CN 110942784 A CN110942784 A CN 110942784A
Authority
CN
China
Prior art keywords
snore
module
support vector
vector machine
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911160127.9A
Other languages
English (en)
Inventor
沈侃文
李文钧
岳克强
沈钰瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201911160127.9A priority Critical patent/CN110942784A/zh
Publication of CN110942784A publication Critical patent/CN110942784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4806Sleep evaluation
    • A61B5/4818Sleep apnoea
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Heart & Thoracic Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Veterinary Medicine (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于支持向量机的鼾声分类识别系统,包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。该系统能为OSAHS患者的诊断提供帮助。

Description

基于支持向量机的鼾声分类系统
技术领域
本发明属于基于机器学习的分类识别领域,涉及机器学习中支持向量机这一模型的运用。
背景技术
阻塞性睡眠呼吸暂停低通气综合症是睡眠呼吸疾病中最主要、发病率最高的一种疾病,打鼾是OSAHS患者中通常都会伴有的特征,患者在睡眠过程中由于上气道阻塞,容易导致窒息甚至是猝死的后果。多导睡眠图监测(PSG)是长期以来用于检查、监测和诊断睡眠呼吸紊乱疾病的一项现有技术手段,但是,这种设备存在着数量稀少、操作繁琐、耗费时间的缺点,而潜在的OSAHS患病的数量相对庞大,导致众多的潜在患者得不到及时的确诊和治疗。
因此,进行对鼾声的声学特性进行研究是必要的,试图利用鼾声分析技术探寻一种便携、低廉、能广泛用于OSAHS患者诊断的监测系统。鼾声信号包含和携带了人呼吸通道的结构特征和构造信息,本发明通过对多个正常鼾声和OSAHS患者的鼾声样本进行分析和研究,发现与正常鼾声相比,OSAHS患者的呼吸通道发生了结构性的变化,因此鼾声信号可以反应出这是正常鼾声还是OSAHS患者的鼾声,对鼾声信号的检测分析结果能够作为OSAHS患病的判断标准,本发明以MFCC参数作为支持向量机的特征参数,其中MFCC又名Mel频率倒谱系数,它是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。本发明通过把一部分正常鼾声和OSAHS患者的鼾声的MFCC参数作为训练特征输入到支持向量机中,训练好模型后,再通过测试数据进行模型评估,进行模型调整最终形成较好的模型。
发明内容
本发明的目的是现有技术的不足,提出一种基于支持向量机的鼾声分类系统,可以为OSAHS患者提供数据支持。
本发明解决上述技术问题的技术方案如下:
基于支持向量机的鼾声分类系统,所述方法包括:
本发明系统包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。其中录音模块把获取的鼾声信号传入到声音预处理模块,然后预处理模块将信号传入到MFCC特征计算模块,MFCC特征计算模块又将信号传入到SVM学习模块,最后进入模型调优模块进行模型调优。
所诉的录音模块通过录音设备获取测试者整晚的鼾声,然后传入到声音预处理模块。
所述的声音预处理模块通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号,然后传入MFCC特征计算模块。
所述的MFCC特征计算模块通过对预处理过后的信号进行MFCC特征的提取,然后将数据传入到SVM学习模块。
所述的SVM学习模块通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别,然后将数据导入到模型调优模块。
所述的模型调优模块通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
本发明提出一种基于支持向量机的鼾声分类系统,通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。
目前的端点检测算法在较高的信噪比下均能给出较高的检测率,但是在低信噪比下却不够理想。传统的能量和过零率特征在低信噪比下已不再稳健,因此本发明利用基于谱熵的端点检测算法,它是从语音信号的频域来进行计算,然后从频谱分布概率来进行语音端点的检测,此方法在较低的信噪比下也能够显著地提高端点检测的准确率,具体包括:
先对鼾声数据进行预加重和加窗分帧,帧长为20ms,帧移为10ms,重叠率50%;
然后通过快速傅立叶变换得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。之后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为:
Figure BDA0002283070810000021
i=1,…,N
式中,S(fi)是fi的能量,Pi是相应的概率密度,N是FFT中频率成分的所有点数。由于语音信号的绝大部分能量集中200Hz~3500Hz之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200Hz~3500Hz之外的频率分量置为0,即:
s(fi)=0,fi<200Hz或fi>3500Hz
相应的每一帧的谱熵定义如下:
Figure BDA0002283070810000031
通过熵函数就可以计算每帧语音信号的谱熵,并跟阈值比较,就可以检测出语音的起止点。
所述对鼾声信号进行其他预处理,具体包括:
从语音信号的频谱图中可以看出,频率越高的地方,语音信号的成分越小,也就是说语音信号的高频处的频谱比低频处的频谱难求,为此要在语音信号的预处理中进行预加重处理,它的目的是提升高频部分,使语音信号变得平坦这样就能在低频到高频的整个频带中用同样的信噪比来求频谱。
预加重通常使用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶有限冲激相应(FIR)滤波器:
H(z)=1-μz-1
式中μ的取值范围是[0.4-1.0]。
在进行过预加重处理的信号还要进行加窗和分帧处理。加窗和分帧是实现语音短时分析的手段。
通过加窗处理可以把语音信号分为许多个短时的语音段,每个短时的语音段都被称为一帧。帧和帧之间既可以连续,也可以交叠,但是一般都采用有交叠的分帧方法,这样做的目的是为了使帧与帧之间平滑过渡,保持语音信号的连续性,前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取为0-0.5之间。
分帧是用可以移动的窗口进行加权的方法来实现的,窗口的长度是有限长的,设窗函数为w(n),用窗函数乘以语音信号s(n),从而形成加窗的语音信号:
sw(n)=s(n)*w(n)
在语音信号数字处理中最常用的窗函数是矩形窗和汉明窗等,它们的表达式如下:
矩形窗:
Figure BDA0002283070810000041
汉明窗:
Figure BDA0002283070810000042
窗函数的选取对于语音信号的短时参数的影响非常大。为此应该选择合适的窗函数,使语音信号的短时参数能更贴切地反映出语音信号的特征变化。
汉明窗的主瓣宽度为
Figure BDA0002283070810000043
矩形窗的主瓣宽度为
Figure BDA0002283070810000044
由此可知汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时它的带外衰减也比矩形窗大。虽然矩形窗的谱平滑性能比较好,但是却损失了高频分量,从而造成了波形细节的部分丢失,所以从这一方面来看汉明窗比矩形窗更为适合应用于语音信号的加窗分帧。
所述进行鼾声信号的特征提取,具体特征信息包括:
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个。
第一,人的主观感知频域的划定并不是线性的,根据Stevens和Volkman的工作,有下面的公式:
Figure BDA0002283070810000045
式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。
第二,临界带。频率带相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。
在语音的频率范围内设置若干带通滤波器Hm(k),0≤m<M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为
Figure BDA0002283070810000051
0≤m≤M F(m)可以用下面的方法加以定义:
Figure BDA0002283070810000052
式中,fl为滤波器频率范围的最低频率;fh为滤波器频率范围的最高频率;N为DFT(或FFT)时的长度;fs为采样频率;Fmel的逆函数
Figure BDA0002283070810000053
Figure BDA0002283070810000054
MFCC特征提取分为五步:
(1)预处理:预加重、分帧、加窗。
(2)快速傅里叶变换
对每一帧信号进行FFT变换,从时域数据转变为频域数据:
X(i,k)=FFT[xi(m)]
(3)计算谱线能量
对每一帧FFT后的数据计算谱线的能量:
E(i,k)=|X(i,k)|2
(4)计算通过Mel滤波器的能量
在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频域响应Hm(k)相乘并相加:
Figure BDA0002283070810000055
0≤m<M
(5)计算DCT倒谱
Figure BDA0002283070810000056
式中,
Figure BDA0002283070810000061
FT和FT-1表示傅里叶变换和傅里叶逆变换。
Figure BDA0002283070810000062
k=0,1,…,N-1
式中,参数N是序列x(n)的长度;C(k)是正交因子,可表示为
Figure BDA0002283070810000063
把Mel滤波器的能量取对数后计算DCT:
Figure BDA0002283070810000064
式中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器(共有M个);i是指第i帧;n是DCT后的谱线,mfcc(i,n)就是所求MFCC特征。
所述根据正常鼾声与OSAHS患者鼾声的特征信息,使用SVM对这两种鼾声进行分类识别,包括:
训练数据得到SVM模型和SVM分类器,具体包括:
确定训练样本集
Figure BDA0002283070810000065
X表示由所述特征信息组成的特征向量,y表示正常鼾声与OSAHS患者鼾声的类型标签,分别取值为+1(正样本)和-1(负样本),n表示训练样本数;
在引入松弛变量和核函数的情况下,在超平面集
Figure BDA0002283070810000066
中寻找最佳分离超平面
Figure BDA0002283070810000067
使得训练样本集可容忍的情况下上正负样本间隔最大,得到SVM模型和分类器;
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声,具体包括:
从鼾声信号中提取特征信息,通过分类器计算后得到一个数值,如果该数值大于0.5,则认为该信号为正常鼾声;如果该数值小于0.5,则认为是OSAHS患者鼾声。
所述使用模型调优模块进行参数调优,具体方法包括:
网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法,以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,需要调整它的参数。在决策树算法中,通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如{'max_depth':[1,2,3,4,5]},尽可能包含最优最大深度。但是只用一次的结果不能说明某组的参数组合比另外的参数组合好,所以这里引入K折交叉验证,它将其中K-1份作为训练数据,剩下的一份作为验证数据输入到模型中,一共进行K次,将最后K次使用事先选择好的评分方式的评分求平均返回,然后找出最大的一个评分对用的参数组合即最优参数组合,这样能使训练出来的模型有很好的泛化能力。
附图说明
图1为本发明的基于支持向量机的鼾声分类系统模块图。
具体实施方式
下面结合附图对本发明专利做进一步分析。
如图1所示,本发明的基于支持向量机的鼾声分类系统包括录音模块、声音预处理模块、MFCC特征计算模块、SVM学习模块、模型调优模块。其中录音模块把获取的鼾声信号传入到声音预处理模块,然后预处理模块将信号传入到MFCC特征计算模块,MFCC特征计算模块又将信号传入到SVM学习模块,最后进入模型调优模块进行模型调优。
所诉的录音模块通过录音设备获取测试者整晚的鼾声,然后传入到声音预处理模块。
所述的声音预处理模块通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号,然后传入MFCC特征计算模块。
所述的MFCC特征计算模块通过对预处理过后的信号进行MFCC特征的提取,然后将数据传入到SVM学习模块。
所述的SVM学习模块通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别,然后将数据导入到模型调优模块。
所述的模型调优模块通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
本发明提出一种基于支持向量机的鼾声分类系统,通过录音设备采集鼾声样本,再对鼾声信号进行预处理,然后导入到MFCC特征计算模块计算出特征数据,再将数据传入SVM模型中进行学习,最后进行参数的调优来得到最优的模型。
目前的端点检测算法在较高的信噪比下均能给出较高的检测率,但是在低信噪比下却不够理想。传统的能量和过零率特征在低信噪比下已不再稳健,因此本发明利用基于谱熵的端点检测算法,它是从语音信号的频域来进行计算,然后从频谱分布概率来进行语音端点的检测,此方法在较低的信噪比下也能够显著地提高端点检测的准确率,具体包括:
先对鼾声数据进行预加重和加窗分帧,帧长为20ms,帧移为10ms,重叠率50%;
然后通过快速傅立叶变换得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。之后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为:
Figure BDA0002283070810000081
i=1,…,N
式中,S(fi)是fi的能量,Pi是相应的概率密度,N是FFT中频率成分的所有点数。由于语音信号的绝大部分能量集中200Hz~3500Hz之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200Hz~3500Hz之外的频率分量置为0,即:
s(fi)=0,fi<200Hz或fi>3500Hz
相应的每一帧的谱熵定义如下:
Figure BDA0002283070810000082
通过熵函数就可以计算每帧语音信号的谱熵,并跟阈值比较,就可以检测出语音的起止点。
所述对鼾声信号进行其他预处理,具体包括:
从语音信号的频谱图中可以看出,频率越高的地方,语音信号的成分越小,也就是说语音信号的高频处的频谱比低频处的频谱难求,为此要在语音信号的预处理中进行预加重处理,它的目的是提升高频部分,使语音信号变得平坦这样就能在低频到高频的整个频带中用同样的信噪比来求频谱。
预加重通常使用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶有限冲激相应(FIR)滤波器:
H(z)=1-μz-1
式中μ的取值范围是[0.4-1.0]。
在进行过预加重处理的信号还要进行加窗和分帧处理。加窗和分帧是实现语音短时分析的手段。
通过加窗处理可以把语音信号分为许多个短时的语音段,每个短时的语音段都被称为一帧。帧和帧之间既可以连续,也可以交叠,但是一般都采用有交叠的分帧方法,这样做的目的是为了使帧与帧之间平滑过渡,保持语音信号的连续性,前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取为0-0.5之间。分帧是用可以移动的窗口进行加权的方法来实现的,窗口的长度是有限长的,设窗函数为w(n),用窗函数乘以语音信号s(n),从而形成加窗的语音信号:
sw(n)=s(n)*w(n)
在语音信号数字处理中最常用的窗函数是矩形窗和汉明窗等,它们的表达式如下:
矩形窗:
Figure BDA0002283070810000091
汉明窗:
Figure BDA0002283070810000092
窗函数的选取对于语音信号的短时参数的影响非常大。为此应该选择合适的窗函数,使语音信号的短时参数能更贴切地反映出语音信号的特征变化。
汉明窗的主瓣宽度为8π/N,矩形窗的主瓣宽度为4π/N,由此可知汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时它的带外衰减也比矩形窗大。虽然矩形窗的谱平滑性能比较好,但是却损失了高频分量,从而造成了波形细节的部分丢失,所以从这一方面来看汉明窗比矩形窗更为适合应用于语音信号的加窗分帧。
所述进行鼾声信号的特征提取,具体特征信息包括:
Mel频率倒谱系数的分析是基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个。
第一,人的主观感知频域的划定并不是线性的,根据Stevens和Volkman的工作,有下面的公式:
Figure BDA0002283070810000101
式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。第二,临界带。频率带相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。
在语音的频率范围内设置若干带通滤波器Hm(k),0≤m<M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为
Figure BDA0002283070810000102
0≤m≤M F(m)可以用下面的方法加以定义:
Figure BDA0002283070810000103
式中,fl为滤波器频率范围的最低频率;fh为滤波器频率范围的最高频率;N为DFT(或FFT)时的长度;fs为采样频率;Fmel的逆函数
Figure BDA0002283070810000104
Figure BDA0002283070810000105
MFCC特征提取分为五步:
(1)预处理:预加重、分帧、加窗。
(2)快速傅里叶变换
对每一帧信号进行FFT变换,从时域数据转变为频域数据:
X(i,k)=FFT[xi(m)]
(3)计算谱线能量
对每一帧FFT后的数据计算谱线的能量:
E(i,k)=|X(i,k)|2
(4)计算通过Mel滤波器的能量
在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频域响应Hm(k)相乘并相加:
Figure BDA0002283070810000111
0≤m<M
(5)计算DCT倒谱
Figure BDA0002283070810000112
式中,
Figure BDA0002283070810000113
FT和FT-1表示傅里叶变换和傅里叶逆变换。
Figure BDA0002283070810000114
k=0,1,…,N-1
式中,参数N是序列x(n)的长度;C(k)是正交因子,可表示为
Figure BDA0002283070810000115
把Mel滤波器的能量取对数后计算DCT:
Figure BDA0002283070810000116
式中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器(共有M个);i是指第i帧;n是DCT后的谱线,mfcc(i,n)就是所求MFCC特征。
所述根据正常鼾声与OSAHS患者鼾声的特征信息,使用SVM对这两种鼾声进行分类识别,包括:
训练数据得到SVM模型和SVM分类器,具体包括:
确定训练样本集
Figure BDA0002283070810000121
X表示由所述特征信息组成的特征向量,y表示正常鼾声与OSAHS患者鼾声的类型标签,分别取值为+1(正样本)和-1(负样本),n表示训练样本数;
在引入松弛变量和核函数的情况下,在超平面集
Figure BDA0002283070810000122
中寻找最佳分离超平面
Figure BDA0002283070810000123
使得训练样本集可容忍的情况下上正负样本间隔最大,得到SVM模型和分类器;
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声,具体包括:
从鼾声信号中提取特征信息,通过分类器计算后得到一个数值,如果该数值大于0.5,则认为该信号为正常鼾声;如果该数值小于0.5,则认为是OSAHS患者鼾声。
所述使用模型调优模块进行参数调优,具体方法包括:
网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法,以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如{'max_depth':[1,2,3,4,5]},我们会尽可能包含最优最大深度。但是只用一次的结果不能说明某组的参数组合比另外的参数组合好,所以这里引入K折交叉验证,它将其中K-1份作为训练数据,剩下的一份作为验证数据输入到模型中,一共进行K次,将最后K次使用事先选择好的评分方式的评分求平均返回,然后找出最大的一个评分对用的参数组合即最优参数组合,这样能使训练出来的模型有很好的泛化能力。

Claims (5)

1.基于支持向量机的鼾声分类系统,其特征在于,包括如下模块:
录音模块,通过录音设备获取测试者整晚的鼾声;
声音预处理模块,通过对鼾声信号进行端点检测、预加重和分帧加窗处理,对鼾声信号进行预处理从而提取出每个鼾声信号;
MFCC特征计算模块,通过对预处理过后的鼾声信号进行MFCC特征的提取;
SVM学习模块,通过特征数据和鼾声样本,利用支持向量机进行正常鼾声和OSAHS患者鼾声的识别;
模型调优模块,通过网格搜索和交叉验证相结合的方法进行模型参数的调优,最终得到表现最好的模型。
2.根据权利要求1所述的基于支持向量机的鼾声分类系统,其特征在于,
所述声音预处理模块使用端点检测确定鼾声段和无声段从而提取出每个鼾声信号,具体如下:
使用低信噪比下基于谱熵的端点检测算法确定鼾声段和无声段;
所述无声段是两个鼾声段之间的声音片段。
3.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
所述提取的特征包括:梅尔频率倒谱系数等特征信息。
4.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
使用SVM对正常鼾声与OSAHS患者鼾声进行分类识别,具体包括:
训练特征数据得到SVM模型和SVM分类器;
根据训练好的SVM分类器,判断正常鼾声和OSAHS患者鼾声。
5.根据权利要求1所述的基于支持向量机的鼾声分类,其特征在于,
所述模型调优模块使用模型调优模块进行参数调优,包括:网格搜索和交叉验证相结合的方法。
CN201911160127.9A 2019-11-21 2019-11-21 基于支持向量机的鼾声分类系统 Pending CN110942784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911160127.9A CN110942784A (zh) 2019-11-21 2019-11-21 基于支持向量机的鼾声分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911160127.9A CN110942784A (zh) 2019-11-21 2019-11-21 基于支持向量机的鼾声分类系统

Publications (1)

Publication Number Publication Date
CN110942784A true CN110942784A (zh) 2020-03-31

Family

ID=69908152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911160127.9A Pending CN110942784A (zh) 2019-11-21 2019-11-21 基于支持向量机的鼾声分类系统

Country Status (1)

Country Link
CN (1) CN110942784A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613210A (zh) * 2020-07-06 2020-09-01 杭州电子科技大学 一种各类呼吸暂停综合征的分类检测系统
CN111916104A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN111920390A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于嵌入式终端的鼾声检测方法
CN111938650A (zh) * 2020-07-03 2020-11-17 上海诺斯清生物科技有限公司 监测睡眠时呼吸暂停的方法及装置
CN112420074A (zh) * 2020-11-18 2021-02-26 麦格纳(太仓)汽车科技有限公司 一种汽车后视镜电机异响声音的诊断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138795A (zh) * 2011-02-21 2011-08-03 上海大学 根据鼾声声学特征确定阻塞性睡眠呼吸暂停与低通气综合症严重程度的方法
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN107358965A (zh) * 2017-06-09 2017-11-17 华南理工大学 一种睡眠鼾声分类检测方法及系统
CN108670200A (zh) * 2018-05-30 2018-10-19 华南理工大学 一种基于深度学习的睡眠鼾声分类检测方法及系统
CN109350014A (zh) * 2018-12-10 2019-02-19 苏州小蓝医疗科技有限公司 一种鼾声识别方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138795A (zh) * 2011-02-21 2011-08-03 上海大学 根据鼾声声学特征确定阻塞性睡眠呼吸暂停与低通气综合症严重程度的方法
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN107358965A (zh) * 2017-06-09 2017-11-17 华南理工大学 一种睡眠鼾声分类检测方法及系统
CN108670200A (zh) * 2018-05-30 2018-10-19 华南理工大学 一种基于深度学习的睡眠鼾声分类检测方法及系统
CN109350014A (zh) * 2018-12-10 2019-02-19 苏州小蓝医疗科技有限公司 一种鼾声识别方法与系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
唐云飞: "基于声学特性的鼾声分类研究", 《中国优秀硕士学位论文全文数据库 医药科技卫生辑》 *
唐云飞: "基于声学特性的鼾声分类研究", 《中国优秀硕士学位论文全文数据库 医药科技卫生辑》, 31 January 2019 (2019-01-31), pages 3 - 4 *
宋知用: "《MATLAB语音信号分析与合成 第2版》", 31 January 2018, pages: 155 - 157 *
遗忘: "阻塞性睡眠呼吸暂停低通气综合征患者的鼾声分析与识别研究-王粲", 《道客巴巴HTTPS://WWW.DOC88.COM/P-3196470054830.HTML?R=1》 *
遗忘: "阻塞性睡眠呼吸暂停低通气综合征患者的鼾声分析与识别研究-王粲", 《道客巴巴HTTPS://WWW.DOC88.COM/P-3196470054830.HTML?R=1》, 18 September 2018 (2018-09-18), pages 5 - 6 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111938650A (zh) * 2020-07-03 2020-11-17 上海诺斯清生物科技有限公司 监测睡眠时呼吸暂停的方法及装置
CN111938650B (zh) * 2020-07-03 2024-06-11 上海诺斯清生物科技有限公司 监测睡眠时呼吸暂停的方法及装置
CN111613210A (zh) * 2020-07-06 2020-09-01 杭州电子科技大学 一种各类呼吸暂停综合征的分类检测系统
CN111916104A (zh) * 2020-07-20 2020-11-10 湖北美和易思教育科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN111916104B (zh) * 2020-07-20 2022-09-13 武汉美和易思数字科技有限公司 一种人工智能物联网宿舍管理系统及方法
CN111920390A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于嵌入式终端的鼾声检测方法
CN112420074A (zh) * 2020-11-18 2021-02-26 麦格纳(太仓)汽车科技有限公司 一种汽车后视镜电机异响声音的诊断方法

Similar Documents

Publication Publication Date Title
CN108896878B (zh) 一种基于超声波的局部放电检测方法
CN110942784A (zh) 基于支持向量机的鼾声分类系统
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
CN110570880B (zh) 一种鼾声信号识别方法
Sharma et al. Empirical mode decomposition for adaptive AM-FM analysis of speech: A review
Vijayalakshmi et al. Acoustic analysis and detection of hypernasality using a group delay function
CN111640439A (zh) 一种基于深度学习的呼吸音分类方法
CN108447495A (zh) 一种基于综合特征集的深度学习语音增强方法
CN110600053A (zh) 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
CN102054480A (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN106264839A (zh) 智能止鼾枕
CN105448291A (zh) 基于语音的帕金森症检测方法及检测系统
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
CN104992707A (zh) 一种腭裂语音喉塞音自动识别算法及装置
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
CN112820319A (zh) 一种人类鼾声识别方法及其装置
CN114613389A (zh) 一种基于改进mfcc的非语音类音频特征提取方法
Zabidi et al. Mel-frequency cepstrum coefficient analysis of infant cry with hypothyroidism
CN113974607B (zh) 一种基于脉冲神经网络的睡眠鼾声检测系统
CN111613210A (zh) 一种各类呼吸暂停综合征的分类检测系统
CN109300486B (zh) 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法
Fonseca et al. Discrete wavelet transform and support vector machine applied to pathological voice signals identification
Rizal et al. Lung sounds classification using spectrogram's first order statistics features
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
Luo et al. Design of embedded real-time system for snoring and OSA detection based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331