CN111789577B - 基于cqt和stft深度语谱特征鼾声分类方法及系统 - Google Patents
基于cqt和stft深度语谱特征鼾声分类方法及系统 Download PDFInfo
- Publication number
- CN111789577B CN111789577B CN202010680300.4A CN202010680300A CN111789577B CN 111789577 B CN111789577 B CN 111789577B CN 202010680300 A CN202010680300 A CN 202010680300A CN 111789577 B CN111789577 B CN 111789577B
- Authority
- CN
- China
- Prior art keywords
- snore
- cqt
- spectrogram
- stft
- recall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010041235 Snoring Diseases 0.000 title claims abstract description 82
- 238000001228 spectrum Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000012706 support-vector machine Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 210000001584 soft palate Anatomy 0.000 claims description 11
- 230000000903 blocking effect Effects 0.000 claims description 8
- 210000002409 epiglottis Anatomy 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 208000008784 apnea Diseases 0.000 description 5
- 206010021079 Hypopnoea Diseases 0.000 description 4
- 208000001797 obstructive sleep apnea Diseases 0.000 description 4
- 238000001839 endoscopy Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 208000019116 sleep disease Diseases 0.000 description 2
- 208000020685 sleep-wake disease Diseases 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000000884 Airway Obstruction Diseases 0.000 description 1
- 208000007590 Disorders of Excessive Somnolence Diseases 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 206010067775 Upper airway obstruction Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000003193 general anesthetic agent Substances 0.000 description 1
- 210000001169 hypoglossal nerve Anatomy 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 210000002741 palatine tonsil Anatomy 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 210000005181 root of the tongue Anatomy 0.000 description 1
- 210000004872 soft tissue Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011272 standard treatment Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000007483 tonsillectomy Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
- A61B5/4818—Sleep apnoea
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/7257—Details of waveform analysis characterised by using transforms using Fourier transforms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Veterinary Medicine (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Surgery (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Fuzzy Systems (AREA)
- Epidemiology (AREA)
- Image Analysis (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及医疗器械、鼾声分类,为实现鼾声自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。本发明主要应用于鼾声分类医疗器械的设计制造场合。
Description
技术领域
本发明涉及医疗器械、鼾声分类,具体讲,涉及基于CQT和STFT深度语谱特征鼾声分类方法及系统。
背景技术
打鼾是睡眠过程中呼吸削弱的征兆,20%的人都会打鼾,其中15%的打鼾者患有阻塞性睡眠呼吸暂停(Obstructive Sleep Apnea,OSA)综合症,死亡率高达40%,我国大约有3750万人的健康受到该病症威胁。OSA是一种常见的睡眠障碍,其特点是在睡眠时反复的呼吸暂停和打鼾(即“打呼噜”),临床上称之为“鼾症”。阻塞性睡眠呼吸暂停症的发病机制已经进行了25年的调查,其本质上是由于睡眠时上气道狭窄或者软组织松弛塌陷,造成上气道的部分阻塞或完全阻塞;从而引起睡眠时的低通气和呼吸暂停,并伴随打鼾以及频繁的血氧饱和度下降,患者在睡眠时容易因此产生窒息感甚至突然惊醒,从而导致日间困倦及其它严重不良后果。根据美国睡眠障碍协会的定义,呼吸暂停的定义为在呼吸时气流完全停止持续时间大于等于10秒,低通气的定义为呼吸气流明显减少50%并伴有4%及以上的血红蛋白饱和度降低。OSA严重程度通常使用呼吸暂停-低通气指数(apnea-hypopneaIndex,AHI)来衡量,它表示平均一个小时睡眠中,呼吸暂停以及低通气的次数。美国睡眠研究学会给出了阻塞性睡眠呼吸暂停的四个级别,AHI指数大于等于30为重度患者,AHI指数大于等于15而小于30的是中度患者,AHI指数大于等于5而小于15的是轻度患者,AHI指数小于5的为正常。
OSA的标准治疗方案是持续气道正压通气(continuous positive airwaypressure,CPAP),虽然这种方法效果很好,但是需要患者长期坚持。而打鼾和OSA的手术方法包括扁桃体摘除术、悬雍垂-腭-咽成形术(UPPP)、软腭支架、舌骨悬吊术以及舌下神经刺激器等。而研究证明,针对软腭的治疗(如软腭支架)对于由软腭导致打鼾或OSA的患者更为成功,而治疗由舌根或口咽侧壁产生鼾声的患者时的效果较差。相反,对于由舌根导致打鼾或OSA的患者,舌骨悬吊术的治疗效果更好。成功治疗的关键是定位阻塞和振动的位置,这也是INTERSPEECH 2017计算副语言学挑战鼾声子挑战(INTERSPEECH 2017 ComputationalParalinguistics Challenge Snoring Sub-Challenge)的主题。该挑战根据Kezirian等人在2011年引入的VOTE分类策略,将得到鼾声音频按照阻塞与振动位置的不同分为以下四类:软腭(Velum,V);口咽侧壁(Oropharyngeal lateral walls,O);舌(Tongue,T);会厌(Epiglottis,E)。要求参与者从鼾声音频样本中识别这四种不同阻塞与振动的来源。
用于评估上气道阻塞和振动位置的诊断方法是药物诱导睡眠内窥镜检查(DrugInduced Sleep Endoscopy,DISE)。该方法于20世纪80年代后期研发,Croft和Pringle在1991年首次介绍了该方法。该方法通过使用麻醉药物诱导患者入睡,通过纤维鼻咽喉镜观察患者打鼾时上气道组织结构振动和塌陷等情况。该方法被越来越多的睡眠障碍医生所使用,并且被认为是识别振动和阻塞位置最为有效的工具。然而,它也存在着许多的缺陷。首先,它需要专家进行安全管理和监测镇静状态;其次,它非常耗时,通常一次检查需要20分钟;此外,它不能在患者自然睡眠期间进行,侵入式的内窥镜会导致患者难以入睡或从睡眠中苏醒。耗时且费力,而目前基于鼾声信号的鼾声阻塞和振动位置的研究尚处于起步阶段,准确度有待提高。
Agrawal等人发现基于软腭的打鼾和基于舌头的打鼾在峰值频率上存在显著差异,前者的中值在137Hz,而后者位于1243Hz。同时,他们还发现基于扁桃体(口咽侧壁的一部分)的鼾声峰值频率为170Hz,基于会厌的鼾声峰值频率为490Hz。同时,Qian等人通过融合不同的声学特征进行鼾声(SnS)分类,发现语谱特征表现最好。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类方法,实现鼾声自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
具体步骤如下:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于常数Q变换CQT的语谱图和基于短时傅里叶变换STFT的语谱图,常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
深度语谱特征提取:将绘制的语谱图作为预训练的深度卷积神经网络AlexNet的输入,提取第二全连接层的输出作为特征向量。
详细步骤如下:
步骤一:将Munich-Passau鼾声语料库MPSSC(Munich-Passau Snore SoundCorpus)作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR(Unweighted AverageRecall)作为评估指标,UAR定义如下:
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。
步骤一详细步骤如下:
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样,使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射,为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片;
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
其中,k=1,2,…,K是频率bin指数,是ak(n)的共轭复数,Nk为可变窗函数,符号/>表示向下取整,ak(n)为复数时频原子,定义如下:
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移,比例因子C由下式给出:
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数,由此推导出下式:
基于CQT和STFT深度语谱特征鼾声分类系统,包括:常数Q变换与短时傅里叶变换模块、度卷积神经网络、支持向量机模块,常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入,深度卷积神经网络模块的输出作为特征向量,使用支持向量机模块训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
本发明的特点及有益效果是:
本发明使用基于常数Q变换和基于短时傅里叶变换的深度语谱特征实现了一种鼾声分类方法。通过融合基于CQT的深度语谱特征和STFT的深度语谱特征,弥补了鼾声音频在传统短时傅里叶变换下低频时频率分辨率不足的问题。实现了仅通过鼾声音频,达到对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别。
附图说明:
图1为鼾声深度语谱特征提取和分类系统图。
图2为基于短时傅里叶变换语谱图和基于常数Q变换语谱图。
图中,a基于短时傅里叶变换语谱图;b基于常数Q变换语谱图
具体实施方式
本发明涉及人工智能领域,尤其涉及一种用于识别鼾声在上气道中的阻塞与振动位置的训练方法及系统。
本发明基于常数Q变换(constant Q transform,CQT)和短时傅里叶变换(short-time Fourier transform,STFT)的深度语谱特征的鼾声分类算法和系统。
实现本发明目的的技术解决方案为:一种基于常数Q变换和短时傅里叶变换的鼾声深度语谱特征提取和分类系统。通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机(SVM)训练分类模型。
该系统主要由两部分组成:用于提取语谱图中深度语谱特征的预训练的卷积神经网络(CNN)和用于对提取的特征向量进行分类的支持向量机(SVM)分类器。系统主要包含如下步骤:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。传统的短时傅里叶变换的窗长确定,其时频分辨率就已确定,不随频率和时间的变化而变化。而常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
在低频时,带宽较小,从而具有较高的频率分辨率。而在高频时,带宽较大,从而具有较高的时间分辨率。
由于基于软腭和口咽侧壁的鼾声的峰值频率分别为137Hz和170Hz,传统的短时傅里叶变换的频率分辨率不足以检测到这种微小的差距,当然可以采用更大的窗长来提高频率分辨率,但是这样影响了整体的时间分辨率。而常数Q变化在低频下可以有效地捕获这些差异,而高频时仍然具有不错的时间分辨率。
深度语谱特征提取:将绘制的语谱图作为预训练的AlexNet的输入,提取第二全连接层(fc7)的输出作为特征向量。
分类模型训练:将提取的深度语谱特征输入支持向量机分类器以训练分类模型。
下面结合附图来描述本发明实施的基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类算法。该方法包含以下步骤:
步骤一:为了本发明的效果,将Munich-Passau鼾声语料库(MPSSC,Munich-PassauSnore Sound Corpus)作为本发明实例中所使用的数据集。将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。
具体地,由于样本分布不均,如表1所示,
表1 Munich-Passau鼾声语料库各类别下对应的鼾声音频数量
Train | Devel | Test | Sum | |
V | 168 | 161 | 155 | 484 |
O | 76 | 75 | 65 | 216 |
T | 8 | 15 | 16 | 39 |
E | 30 | 32 | 27 | 89 |
Sum | 282 | 283 | 263 | 828 |
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样。使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行了常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射。为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片。
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
其中,k=1,2,…,K是频率bin指数。是ak(n)的共轭复数,Nk为可变窗函数。符号/>表示向下取整。ak(n)为复数时频原子,定义如下:
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移。比例因子C由下式给出:
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数。由此可推导出下式:
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重。将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层(fc7)的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量。生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元。AlexNet是第一个被运用到ImageNet任务的深度卷积神经网络,它的权重由ImageNet数据库中的120万张图片训练得到。AlexNet网络结构如表2所示。
表2 AlexNet模型结构
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型。使用支持向量机是因为它对于样本量较少的数据集具有不错的鲁棒性。同样由于样本分布不均匀,采用不加权平均召回率(UAR,UnweightedAverage Recall)作为评估指标。UAR定义如下:
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,通过预训练卷积神经网络提取鼾声音频信号的特征向量,使用支持向量机训练分类模型,再利用训练好的模型实现对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别,其中通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量;详细步骤如下:
步骤一:将Munich-Passau鼾声语料库MPSSC作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR作为评估指标,UAR定义如下:
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率Recall,UAR表示这四类阻塞与振动位置对应的召回率的均值。
2.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,具体步骤如下:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于常数Q变换CQT的语谱图和基于短时傅里叶变换STFT的语谱图,常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
深度语谱特征提取:将绘制的语谱图作为预训练的深度卷积神经网络AlexNet的输入,提取第二全连接层的输出作为特征向量。
3.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,步骤一详细步骤如下:
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样,使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射,为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片;
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
其中,k=1,2,…,K是频率bin指数,是ak(n)的共轭复数,Nk为可变窗函数,符号/>表示向下取整,ak(n)为复数时频原子,定义如下:
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移,比例因子C由下式给出:
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数,由此推导出下式:
4.一种基于CQT和STFT深度语谱特征鼾声分类系统,其特征是,包括:常数Q变换与短时傅里叶变换模块、深度卷积神经网络、支持向量机模块,常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入,深度卷积神经网络模块的输出作为特征向量,使用支持向量机模块训练分类模型,最后利用训练好的分类模型实现鼾声自动识别;其中:
步骤一:将Munich-Passau鼾声语料库MPSSC作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR作为评估指标,UAR定义如下:
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率Recall,UAR表示这四类阻塞与振动位置对应的召回率的均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680300.4A CN111789577B (zh) | 2020-07-15 | 2020-07-15 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010680300.4A CN111789577B (zh) | 2020-07-15 | 2020-07-15 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111789577A CN111789577A (zh) | 2020-10-20 |
CN111789577B true CN111789577B (zh) | 2023-09-19 |
Family
ID=72807196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010680300.4A Active CN111789577B (zh) | 2020-07-15 | 2020-07-15 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111789577B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN115273908B (zh) * | 2022-08-05 | 2023-05-12 | 东北农业大学 | 一种基于分类器融合的生猪咳嗽声音识别方法 |
CN116665701A (zh) * | 2023-06-06 | 2023-08-29 | 中国农业大学 | 一种鱼群摄食强度分类方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN109645957A (zh) * | 2018-12-21 | 2019-04-19 | 南京理工大学 | 一种鼾声来源分类方法 |
CN111312293A (zh) * | 2020-02-17 | 2020-06-19 | 杭州电子科技大学 | 一种基于深度学习对呼吸暂停症患者的识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2931662C (en) * | 2015-11-03 | 2023-09-26 | University Health Network | Acoustic upper airway assessment system and method, and sleep apnea assessment system and method relying thereon |
-
2020
- 2020-07-15 CN CN202010680300.4A patent/CN111789577B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109036382A (zh) * | 2018-08-15 | 2018-12-18 | 武汉大学 | 一种基于kl散度的音频特征提取方法 |
CN109645957A (zh) * | 2018-12-21 | 2019-04-19 | 南京理工大学 | 一种鼾声来源分类方法 |
CN111312293A (zh) * | 2020-02-17 | 2020-06-19 | 杭州电子科技大学 | 一种基于深度学习对呼吸暂停症患者的识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
Automatic snoring sounds detection from sleep sounds based on deep learning;Yanmei Jiang 等;《Physical and Engineering Sciences in Medicine》;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111789577A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111789577B (zh) | 基于cqt和stft深度语谱特征鼾声分类方法及系统 | |
Mendonca et al. | A review of obstructive sleep apnea detection approaches | |
Ng et al. | Could formant frequencies of snore signals be an alternative means for the diagnosis of obstructive sleep apnea? | |
Yadollahi et al. | Automatic breath and snore sounds classification from tracheal and ambient sounds recordings | |
CN102172328B (zh) | 从呼吸信号中检测和区别呼吸模式的方法 | |
Dalmasso et al. | Snoring: analysis, measurement, clinical implications and applications | |
JP5525476B2 (ja) | 呼吸事象検出システムおよび方法 | |
JP2022507834A (ja) | 呼吸障害の検出のための方法および装置 | |
US20080082018A1 (en) | Systems and methods for respiratory event detection | |
Shin et al. | Unconstrained snoring detection using a smartphone during ordinary sleep | |
WO2010066008A1 (en) | Multi-parametric analysis of snore sounds for the community screening of sleep apnea with non-gaussianity index | |
Kriboy et al. | Detection of Obstructive sleep apnea in awake subjects by exploiting body posture effects on the speech signal | |
Kim et al. | Prediction of obstructive sleep apnea based on respiratory sounds recorded between sleep onset and sleep offset | |
Dafna et al. | OSA severity assessment based on sleep breathing analysis using ambient microphone | |
Koo et al. | Comparison of snoring sounds between natural and drug-induced sleep recorded using a smartphone | |
Huang et al. | Prediction of the obstruction sites in the upper airway in sleep-disordered breathing based on snoring sound parameters: a systematic review | |
Sun et al. | Amplitude spectrum trend-based feature for excitation location classification from snore sounds | |
Ghaemmaghami et al. | Normal probability testing of snore signals for diagnosis of obstructive sleep apnea | |
Azarbarzin et al. | Intra-subject variability of snoring sounds in relation to body position, sleep stage, and blood oxygen level | |
Prucnal et al. | Analysis of features extracted from EEG epochs by discrete wavelet decomposition and Hilbert transform for sleep apnea detection | |
Sun et al. | Automatic classification of excitation location of snoring sounds | |
Zhao et al. | A snoring detector for OSAHS based on patient's individual personality | |
CN103735267A (zh) | 一种基于鼾声筛查osahs的装置 | |
Sebastian et al. | A preliminary study of the automatic classification of the site of airway collapse in OSA patients using snoring signals | |
Wang et al. | A classification method related to respiratory disorder events based on acoustical analysis of snoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |