CN111789577A - 基于cqt和stft深度语谱特征鼾声分类方法及系统 - Google Patents

基于cqt和stft深度语谱特征鼾声分类方法及系统 Download PDF

Info

Publication number
CN111789577A
CN111789577A CN202010680300.4A CN202010680300A CN111789577A CN 111789577 A CN111789577 A CN 111789577A CN 202010680300 A CN202010680300 A CN 202010680300A CN 111789577 A CN111789577 A CN 111789577A
Authority
CN
China
Prior art keywords
snore
transformation
cqt
stft
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010680300.4A
Other languages
English (en)
Other versions
CN111789577B (zh
Inventor
魏潇
魏建国
赵来平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010680300.4A priority Critical patent/CN111789577B/zh
Publication of CN111789577A publication Critical patent/CN111789577A/zh
Application granted granted Critical
Publication of CN111789577B publication Critical patent/CN111789577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4806Sleep evaluation
    • A61B5/4818Sleep apnoea
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7253Details of waveform analysis characterised by using transforms
    • A61B5/7257Details of waveform analysis characterised by using transforms using Fourier transforms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Veterinary Medicine (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Surgery (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Fuzzy Systems (AREA)
  • Epidemiology (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及医疗器械、鼾声分类,为实现鼾声自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。本发明主要应用于鼾声分类医疗器械的设计制造场合。

Description

基于CQT和STFT深度语谱特征鼾声分类方法及系统
技术领域
本发明涉及医疗器械、鼾声分类,具体讲,涉及基于CQT和STFT深度语谱特征鼾声分类方法及系统。
背景技术
打鼾是睡眠过程中呼吸削弱的征兆,20%的人都会打鼾,其中15%的打鼾者患有阻塞性睡眠呼吸暂停(Obstructive Sleep Apnea,OSA)综合症,死亡率高达40%,我国大约有3750万人的健康受到该病症威胁。OSA是一种常见的睡眠障碍,其特点是在睡眠时反复的呼吸暂停和打鼾(即“打呼噜”),临床上称之为“鼾症”。阻塞性睡眠呼吸暂停症的发病机制已经进行了25年的调查,其本质上是由于睡眠时上气道狭窄或者软组织松弛塌陷,造成上气道的部分阻塞或完全阻塞;从而引起睡眠时的低通气和呼吸暂停,并伴随打鼾以及频繁的血氧饱和度下降,患者在睡眠时容易因此产生窒息感甚至突然惊醒,从而导致日间困倦及其它严重不良后果。根据美国睡眠障碍协会的定义,呼吸暂停的定义为在呼吸时气流完全停止持续时间大于等于10秒,低通气的定义为呼吸气流明显减少50%并伴有4%及以上的血红蛋白饱和度降低。OSA严重程度通常使用呼吸暂停-低通气指数(apnea-hypopneaIndex,AHI)来衡量,它表示平均一个小时睡眠中,呼吸暂停以及低通气的次数。美国睡眠研究学会给出了阻塞性睡眠呼吸暂停的四个级别,AHI指数大于等于30为重度患者,AHI指数大于等于15而小于30的是中度患者,AHI指数大于等于5而小于15的是轻度患者,AHI指数小于5的为正常。
OSA的标准治疗方案是持续气道正压通气(continuous positive airwaypressure,CPAP),虽然这种方法效果很好,但是需要患者长期坚持。而打鼾和OSA的手术方法包括扁桃体摘除术、悬雍垂-腭-咽成形术(UPPP)、软腭支架、舌骨悬吊术以及舌下神经刺激器等。而研究证明,针对软腭的治疗(如软腭支架)对于由软腭导致打鼾或OSA的患者更为成功,而治疗由舌根或口咽侧壁产生鼾声的患者时的效果较差。相反,对于由舌根导致打鼾或OSA的患者,舌骨悬吊术的治疗效果更好。成功治疗的关键是定位阻塞和振动的位置,这也是INTERSPEECH 2017计算副语言学挑战鼾声子挑战(INTERSPEECH 2017 ComputationalParalinguistics Challenge Snoring Sub-Challenge)的主题。该挑战根据Kezirian等人在2011年引入的VOTE分类策略,将得到鼾声音频按照阻塞与振动位置的不同分为以下四类:软腭(Velum,V);口咽侧壁(Oropharyngeal lateral walls,O);舌(Tongue,T);会厌(Epiglottis,E)。要求参与者从鼾声音频样本中识别这四种不同阻塞与振动的来源。
用于评估上气道阻塞和振动位置的诊断方法是药物诱导睡眠内窥镜检查(DrugInduced Sleep Endoscopy,DISE)。该方法于20世纪80年代后期研发,Croft和Pringle在1991年首次介绍了该方法。该方法通过使用麻醉药物诱导患者入睡,通过纤维鼻咽喉镜观察患者打鼾时上气道组织结构振动和塌陷等情况。该方法被越来越多的睡眠障碍医生所使用,并且被认为是识别振动和阻塞位置最为有效的工具。然而,它也存在着许多的缺陷。首先,它需要专家进行安全管理和监测镇静状态;其次,它非常耗时,通常一次检查需要20分钟;此外,它不能在患者自然睡眠期间进行,侵入式的内窥镜会导致患者难以入睡或从睡眠中苏醒。耗时且费力,而目前基于鼾声信号的鼾声阻塞和振动位置的研究尚处于起步阶段,准确度有待提高。
Agrawal等人发现基于软腭的打鼾和基于舌头的打鼾在峰值频率上存在显著差异,前者的中值在137Hz,而后者位于1243Hz。同时,他们还发现基于扁桃体(口咽侧壁的一部分)的鼾声峰值频率为170Hz,基于会厌的鼾声峰值频率为490Hz。同时,Qian等人通过融合不同的声学特征进行鼾声(SnS)分类,发现语谱特征表现最好。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类方法,实现鼾声自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
具体步骤如下:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于常数Q变换CQT的语谱图和基于短时傅里叶变换STFT的语谱图,常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
Figure BDA0002585574130000021
深度语谱特征提取:将绘制的语谱图作为预训练的深度卷积神经网络AlexNet的输入,提取第二全连接层的输出作为特征向量。
详细步骤如下:
步骤一:将Munich-Passau鼾声语料库MPSSC(Munich-Passau Snore SoundCorpus)作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR(Unweighted AverageRecall)作为评估指标,UAR定义如下:
Figure BDA0002585574130000022
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。
步骤一详细步骤如下:
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样,使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射,为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片;
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
Figure BDA0002585574130000031
其中,k=1,2,…,K是频率bin指数,
Figure BDA0002585574130000032
是ak(n)的共轭复数,Nk为可变窗函数,符号
Figure BDA0002585574130000037
表示向下取整,ak(n)为复数时频原子,定义如下:
Figure BDA0002585574130000033
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移,比例因子C由下式给出:
Figure BDA0002585574130000034
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
Figure BDA0002585574130000035
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数,由此推导出下式:
Figure BDA0002585574130000036
基于CQT和STFT深度语谱特征鼾声分类系统,包括:常数Q变换与短时傅里叶变换模块、度卷积神经网络、支持向量机模块,常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入,深度卷积神经网络模块的输出作为特征向量,使用支持向量机模块训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
本发明的特点及有益效果是:
本发明使用基于常数Q变换和基于短时傅里叶变换的深度语谱特征实现了一种鼾声分类方法。通过融合基于CQT的深度语谱特征和STFT的深度语谱特征,弥补了鼾声音频在传统短时傅里叶变换下低频时频率分辨率不足的问题。实现了仅通过鼾声音频,达到对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别。
附图说明:
图1为鼾声深度语谱特征提取和分类系统图。
图2为基于短时傅里叶变换语谱图和基于常数Q变换语谱图。
图中,a基于短时傅里叶变换语谱图;b基于常数Q变换语谱图
具体实施方式
本发明涉及人工智能领域,尤其涉及一种用于识别鼾声在上气道中的阻塞与振动位置的训练方法及系统。
本发明基于常数Q变换(constant Q transform,CQT)和短时傅里叶变换(short-time Fourier transform,STFT)的深度语谱特征的鼾声分类算法和系统。
实现本发明目的的技术解决方案为:一种基于常数Q变换和短时傅里叶变换的鼾声深度语谱特征提取和分类系统。通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机(SVM)训练分类模型。
该系统主要由两部分组成:用于提取语谱图中深度语谱特征的预训练的卷积神经网络(CNN)和用于对提取的特征向量进行分类的支持向量机(SVM)分类器。系统主要包含如下步骤:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。传统的短时傅里叶变换的窗长确定,其时频分辨率就已确定,不随频率和时间的变化而变化。而常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
Figure BDA0002585574130000041
在低频时,带宽较小,从而具有较高的频率分辨率。而在高频时,带宽较大,从而具有较高的时间分辨率。
由于基于软腭和口咽侧壁的鼾声的峰值频率分别为137Hz和170Hz,传统的短时傅里叶变换的频率分辨率不足以检测到这种微小的差距,当然可以采用更大的窗长来提高频率分辨率,但是这样影响了整体的时间分辨率。而常数Q变化在低频下可以有效地捕获这些差异,而高频时仍然具有不错的时间分辨率。
深度语谱特征提取:将绘制的语谱图作为预训练的AlexNet的输入,提取第二全连接层(fc7)的输出作为特征向量。
分类模型训练:将提取的深度语谱特征输入支持向量机分类器以训练分类模型。
下面结合附图来描述本发明实施的基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类算法。该方法包含以下步骤:
步骤一:为了本发明的效果,将Munich-Passau鼾声语料库(MPSSC,Munich-PassauSnore Sound Corpus)作为本发明实例中所使用的数据集。将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。
具体地,由于样本分布不均,如表1所示,
表1 Munich-Passau鼾声语料库各类别下对应的鼾声音频数量
Train Devel Test Sum
V 168 161 155 484
O 76 75 65 216
T 8 15 16 39
E 30 32 27 89
Sum 282 283 263 828
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样。使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行了常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射。为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片。
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
Figure BDA0002585574130000051
其中,k=1,2,…,K是频率bin指数。
Figure BDA0002585574130000052
是ak(n)的共轭复数,Nk为可变窗函数。符号
Figure BDA0002585574130000053
表示向下取整。ak(n)为复数时频原子,定义如下:
Figure BDA0002585574130000054
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移。比例因子C由下式给出:
Figure BDA0002585574130000055
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
Figure BDA0002585574130000056
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数。由此可推导出下式:
Figure BDA0002585574130000057
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重。将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层(fc7)的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量。生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元。AlexNet是第一个被运用到ImageNet任务的深度卷积神经网络,它的权重由ImageNet数据库中的120万张图片训练得到。AlexNet网络结构如表2所示。
表2 AlexNet模型结构
Figure BDA0002585574130000061
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型。使用支持向量机是因为它对于样本量较少的数据集具有不错的鲁棒性。同样由于样本分布不均匀,采用不加权平均召回率(UAR,UnweightedAverage Recall)作为评估指标。UAR定义如下:
Figure BDA0002585574130000062
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,通过预训练卷积神经网络提取鼾声音频信号的特征向量,使用支持向量机训练分类模型,再利用训练好的模型实现对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别。为此,本发明采取的技术方案是,基于CQT和STFT深度语谱特征鼾声分类方法,通过对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络的输入,提取其输出作为特征向量,使用支持向量机SVM训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
2.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,具体步骤如下:
语谱图生成:对鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成了基于常数Q变换CQT的语谱图和基于短时傅里叶变换STFT的语谱图,常数Q变换定义中心频率fk和带宽δf的比值为常数Q:
Figure FDA0002585574120000011
深度语谱特征提取:将绘制的语谱图作为预训练的深度卷积神经网络AlexNet的输入,提取第二全连接层的输出作为特征向量。
3.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,详细步骤如下:
步骤一:将Munich-Passau鼾声语料库MPSSC(Munich-Passau Snore Sound Corpus)作为鼾声音频数据集,将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换,对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图;
步骤二:使用CAFFE获得了预训练的AlexNet的模型和权重,将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet,提取第二全连接层的输出,得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量,生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元;
步骤三:将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合,使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器,按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型,采用不加权平均召回率UAR(Unweighted AverageRecall)作为评估指标,UAR定义如下:
Figure FDA0002585574120000012
其中,VRecall、ORecall、TRecall和ERecall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。
4.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法,其特征是,步骤一详细步骤如下:
按照给定的上采样因子,成比例的复制O、T、E三类样本,对数据进行上采样,使用Matlib的CQT_toolbox_2013工具箱,设置参数B=96,对鼾声音频样本进行常数Q变换;使用窗长16ms,窗移8ms的汉宁窗进行短时傅里叶变换,对变换后的时频数据使用viridis映射,为了满足CNN的输入,这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片;
离散时域信号x(n)的常数Q变换XCQ(k,n)定义如下:
Figure FDA0002585574120000021
其中,k=1,2,…,K是频率bin指数,
Figure FDA0002585574120000022
是ak(n)的共轭复数,Nk为可变窗函数,符号
Figure FDA0002585574120000023
表示向下取整,ak(n)为复数时频原子,定义如下:
Figure FDA0002585574120000024
其中,fk为第k个bin的中心频率,fs为采样率,w(t)为窗函数,Φk为相位偏移,比例因子C由下式给出:
Figure FDA0002585574120000025
由于bin间距与十二平均律相对应,中心频率fk遵循下式:
Figure FDA0002585574120000026
其中f1为最低频率的bin的中心频率,B为每个八度中bin的个数,由此推导出下式:
Figure FDA0002585574120000027
5.一种基于CQT和STFT深度语谱特征鼾声分类系统,其特征是,包括:常数Q变换与短时傅里叶变换模块、度卷积神经网络、支持向量机模块,常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换,将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入,深度卷积神经网络模块的输出作为特征向量,使用支持向量机模块训练分类模型,最后利用训练好的分类模型实现鼾声自动识别。
CN202010680300.4A 2020-07-15 2020-07-15 基于cqt和stft深度语谱特征鼾声分类方法及系统 Active CN111789577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680300.4A CN111789577B (zh) 2020-07-15 2020-07-15 基于cqt和stft深度语谱特征鼾声分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680300.4A CN111789577B (zh) 2020-07-15 2020-07-15 基于cqt和stft深度语谱特征鼾声分类方法及系统

Publications (2)

Publication Number Publication Date
CN111789577A true CN111789577A (zh) 2020-10-20
CN111789577B CN111789577B (zh) 2023-09-19

Family

ID=72807196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680300.4A Active CN111789577B (zh) 2020-07-15 2020-07-15 基于cqt和stft深度语谱特征鼾声分类方法及系统

Country Status (1)

Country Link
CN (1) CN111789577B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN114566189A (zh) * 2022-04-28 2022-05-31 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN115273908A (zh) * 2022-08-05 2022-11-01 东北农业大学 一种基于分类器融合的生猪咳嗽声音识别方法
CN116665701A (zh) * 2023-06-06 2023-08-29 中国农业大学 一种鱼群摄食强度分类方法、系统及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170119303A1 (en) * 2015-11-03 2017-05-04 University Health Network Acoustic upper airway assessment system and method, and sleep apnea assessment system and method relying thereon
CN108670200A (zh) * 2018-05-30 2018-10-19 华南理工大学 一种基于深度学习的睡眠鼾声分类检测方法及系统
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN109645957A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种鼾声来源分类方法
CN111312293A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于深度学习对呼吸暂停症患者的识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170119303A1 (en) * 2015-11-03 2017-05-04 University Health Network Acoustic upper airway assessment system and method, and sleep apnea assessment system and method relying thereon
CN108670200A (zh) * 2018-05-30 2018-10-19 华南理工大学 一种基于深度学习的睡眠鼾声分类检测方法及系统
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN109645957A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种鼾声来源分类方法
CN111312293A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于深度学习对呼吸暂停症患者的识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANMEI JIANG 等: "Automatic snoring sounds detection from sleep sounds based on deep learning", 《PHYSICAL AND ENGINEERING SCIENCES IN MEDICINE》, pages 1 - 11 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统
CN114566189A (zh) * 2022-04-28 2022-05-31 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN115273908A (zh) * 2022-08-05 2022-11-01 东北农业大学 一种基于分类器融合的生猪咳嗽声音识别方法
CN116665701A (zh) * 2023-06-06 2023-08-29 中国农业大学 一种鱼群摄食强度分类方法、系统及设备

Also Published As

Publication number Publication date
CN111789577B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111789577B (zh) 基于cqt和stft深度语谱特征鼾声分类方法及系统
Pevernagie et al. The acoustics of snoring
Dalmasso et al. Snoring: analysis, measurement, clinical implications and applications
Sataloff The human voice
Janott et al. Snoring classified: the Munich-Passau snore sound corpus
Yadollahi et al. Automatic breath and snore sounds classification from tracheal and ambient sounds recordings
Qian et al. Wavelet features for classification of vote snore sounds
Shin et al. Unconstrained snoring detection using a smartphone during ordinary sleep
WO2010066008A1 (en) Multi-parametric analysis of snore sounds for the community screening of sleep apnea with non-gaussianity index
Kriboy et al. Detection of Obstructive sleep apnea in awake subjects by exploiting body posture effects on the speech signal
Koo et al. Comparison of snoring sounds between natural and drug-induced sleep recorded using a smartphone
van der Weijden et al. The effect of playing a wind instrument or singing on risk of sleep apnea: a systematic review and meta-analysis
Dudik et al. Characteristics of dry chin-tuck swallowing vibrations and sounds
Sun et al. Amplitude spectrum trend-based feature for excitation location classification from snore sounds
Huang et al. Prediction of the obstruction sites in the upper airway in sleep-disordered breathing based on snoring sound parameters: a systematic review
Qian et al. Teaching machines on snoring: A benchmark on computer audition for snore sound excitation localisation
Azarbarzin et al. Intra-subject variability of snoring sounds in relation to body position, sleep stage, and blood oxygen level
Ghaemmaghami et al. Normal probability testing of snore signals for diagnosis of obstructive sleep apnea
Zhao et al. A snoring detector for OSAHS based on patient's individual personality
Hong et al. Changes in oral vowel sounds and hyoid bone movement after thyroidectomy
Rembold et al. Children with obstructive sleep-disordered breathing generate high-frequency inspiratory sounds during sleep
Karnell et al. Variations in velar position over time: A nasal videoendoscopic study a nasal videoendoscopic study
Wang et al. Tidal Volume Level Estimation Using Respiratory Sounds
Mikami et al. Automatic classification of oral/nasal snoring sounds based on the acoustic properties
Jayachitra et al. Treatment of sleep apnea using CPAP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant