CN111789577B

CN111789577B - 基于cqt和stft深度语谱特征鼾声分类方法及系统

Info

Publication number: CN111789577B
Application number: CN202010680300.4A
Authority: CN
Inventors: 魏潇; 魏建国; 赵来平
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2023-09-19
Anticipated expiration: 2040-07-15
Also published as: CN111789577A

Abstract

本发明涉及医疗器械、鼾声分类，为实现鼾声自动识别。为此，本发明采取的技术方案是，基于CQT和STFT深度语谱特征鼾声分类方法，通过对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络的输入，提取其输出作为特征向量，使用支持向量机SVM训练分类模型，最后利用训练好的分类模型实现鼾声自动识别。本发明主要应用于鼾声分类医疗器械的设计制造场合。

Description

基于CQT和STFT深度语谱特征鼾声分类方法及系统

技术领域

本发明涉及医疗器械、鼾声分类，具体讲,涉及基于CQT和STFT深度语谱特征鼾声分类方法及系统。

背景技术

打鼾是睡眠过程中呼吸削弱的征兆，20％的人都会打鼾，其中15％的打鼾者患有阻塞性睡眠呼吸暂停(Obstructive Sleep Apnea,OSA)综合症，死亡率高达40％，我国大约有3750万人的健康受到该病症威胁。OSA是一种常见的睡眠障碍，其特点是在睡眠时反复的呼吸暂停和打鼾(即“打呼噜”)，临床上称之为“鼾症”。阻塞性睡眠呼吸暂停症的发病机制已经进行了25年的调查，其本质上是由于睡眠时上气道狭窄或者软组织松弛塌陷，造成上气道的部分阻塞或完全阻塞；从而引起睡眠时的低通气和呼吸暂停，并伴随打鼾以及频繁的血氧饱和度下降，患者在睡眠时容易因此产生窒息感甚至突然惊醒，从而导致日间困倦及其它严重不良后果。根据美国睡眠障碍协会的定义，呼吸暂停的定义为在呼吸时气流完全停止持续时间大于等于10秒，低通气的定义为呼吸气流明显减少50％并伴有4％及以上的血红蛋白饱和度降低。OSA严重程度通常使用呼吸暂停-低通气指数(apnea-hypopneaIndex,AHI)来衡量，它表示平均一个小时睡眠中，呼吸暂停以及低通气的次数。美国睡眠研究学会给出了阻塞性睡眠呼吸暂停的四个级别，AHI指数大于等于30为重度患者，AHI指数大于等于15而小于30的是中度患者，AHI指数大于等于5而小于15的是轻度患者，AHI指数小于5的为正常。

OSA的标准治疗方案是持续气道正压通气(continuous positive airwaypressure,CPAP)，虽然这种方法效果很好，但是需要患者长期坚持。而打鼾和OSA的手术方法包括扁桃体摘除术、悬雍垂-腭-咽成形术(UPPP)、软腭支架、舌骨悬吊术以及舌下神经刺激器等。而研究证明，针对软腭的治疗(如软腭支架)对于由软腭导致打鼾或OSA的患者更为成功，而治疗由舌根或口咽侧壁产生鼾声的患者时的效果较差。相反，对于由舌根导致打鼾或OSA的患者，舌骨悬吊术的治疗效果更好。成功治疗的关键是定位阻塞和振动的位置，这也是INTERSPEECH 2017计算副语言学挑战鼾声子挑战(INTERSPEECH 2017 ComputationalParalinguistics Challenge Snoring Sub-Challenge)的主题。该挑战根据Kezirian等人在2011年引入的VOTE分类策略，将得到鼾声音频按照阻塞与振动位置的不同分为以下四类：软腭(Velum,V)；口咽侧壁(Oropharyngeal lateral walls,O)；舌(Tongue,T)；会厌(Epiglottis,E)。要求参与者从鼾声音频样本中识别这四种不同阻塞与振动的来源。

用于评估上气道阻塞和振动位置的诊断方法是药物诱导睡眠内窥镜检查(DrugInduced Sleep Endoscopy，DISE)。该方法于20世纪80年代后期研发，Croft和Pringle在1991年首次介绍了该方法。该方法通过使用麻醉药物诱导患者入睡，通过纤维鼻咽喉镜观察患者打鼾时上气道组织结构振动和塌陷等情况。该方法被越来越多的睡眠障碍医生所使用，并且被认为是识别振动和阻塞位置最为有效的工具。然而，它也存在着许多的缺陷。首先，它需要专家进行安全管理和监测镇静状态；其次，它非常耗时，通常一次检查需要20分钟；此外，它不能在患者自然睡眠期间进行，侵入式的内窥镜会导致患者难以入睡或从睡眠中苏醒。耗时且费力，而目前基于鼾声信号的鼾声阻塞和振动位置的研究尚处于起步阶段，准确度有待提高。

Agrawal等人发现基于软腭的打鼾和基于舌头的打鼾在峰值频率上存在显著差异，前者的中值在137Hz，而后者位于1243Hz。同时，他们还发现基于扁桃体(口咽侧壁的一部分)的鼾声峰值频率为170Hz，基于会厌的鼾声峰值频率为490Hz。同时，Qian等人通过融合不同的声学特征进行鼾声(SnS)分类，发现语谱特征表现最好。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类方法，实现鼾声自动识别。为此，本发明采取的技术方案是，基于CQT和STFT深度语谱特征鼾声分类方法，通过对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络的输入，提取其输出作为特征向量，使用支持向量机SVM训练分类模型，最后利用训练好的分类模型实现鼾声自动识别。

具体步骤如下：

语谱图生成：对鼾声音频样本分别进行常数Q变换和短时傅里叶变换，对变换后的时频数据生成了基于常数Q变换CQT的语谱图和基于短时傅里叶变换STFT的语谱图，常数Q变换定义中心频率f_k和带宽δf的比值为常数Q：

深度语谱特征提取：将绘制的语谱图作为预训练的深度卷积神经网络AlexNet的输入，提取第二全连接层的输出作为特征向量。

详细步骤如下：

步骤一：将Munich-Passau鼾声语料库MPSSC(Munich-Passau Snore SoundCorpus)作为鼾声音频数据集，将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换，对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图；

步骤二：使用CAFFE获得了预训练的AlexNet的模型和权重，将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet，提取第二全连接层的输出，得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量，生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元；

步骤三：将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合，使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器，按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型，采用不加权平均召回率UAR(Unweighted AverageRecall)作为评估指标，UAR定义如下：

其中，V_Recall、O_Recall、T_Recall和E_Recall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率(Recall)。UAR表示这四类阻塞与振动位置对应的召回率的均值。

步骤一详细步骤如下：

按照给定的上采样因子，成比例的复制O、T、E三类样本，对数据进行上采样，使用Matlib的CQT_toolbox_2013工具箱，设置参数B＝96，对鼾声音频样本进行常数Q变换；使用窗长16ms，窗移8ms的汉宁窗进行短时傅里叶变换，对变换后的时频数据使用viridis映射，为了满足CNN的输入，这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片；

离散时域信号x(n)的常数Q变换X^CQ(k,n)定义如下：

其中，k＝1,2,…,K是频率bin指数，是a_k(n)的共轭复数，N_k为可变窗函数，符号/>表示向下取整，a_k(n)为复数时频原子，定义如下：

其中，f_k为第k个bin的中心频率，f_s为采样率，w(t)为窗函数，Φ_k为相位偏移，比例因子C由下式给出：

由于bin间距与十二平均律相对应，中心频率f_k遵循下式：

其中f₁为最低频率的bin的中心频率，B为每个八度中bin的个数，由此推导出下式：

基于CQT和STFT深度语谱特征鼾声分类系统，包括：常数Q变换与短时傅里叶变换模块、度卷积神经网络、支持向量机模块，常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入，深度卷积神经网络模块的输出作为特征向量，使用支持向量机模块训练分类模型，最后利用训练好的分类模型实现鼾声自动识别。

本发明的特点及有益效果是：

本发明使用基于常数Q变换和基于短时傅里叶变换的深度语谱特征实现了一种鼾声分类方法。通过融合基于CQT的深度语谱特征和STFT的深度语谱特征，弥补了鼾声音频在传统短时傅里叶变换下低频时频率分辨率不足的问题。实现了仅通过鼾声音频，达到对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别。

附图说明：

图1为鼾声深度语谱特征提取和分类系统图。

图2为基于短时傅里叶变换语谱图和基于常数Q变换语谱图。

图中，a基于短时傅里叶变换语谱图；b基于常数Q变换语谱图

具体实施方式

本发明涉及人工智能领域，尤其涉及一种用于识别鼾声在上气道中的阻塞与振动位置的训练方法及系统。

本发明基于常数Q变换(constant Q transform,CQT)和短时傅里叶变换(short-time Fourier transform，STFT)的深度语谱特征的鼾声分类算法和系统。

实现本发明目的的技术解决方案为：一种基于常数Q变换和短时傅里叶变换的鼾声深度语谱特征提取和分类系统。通过对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络的输入，提取其输出作为特征向量，使用支持向量机(SVM)训练分类模型。

该系统主要由两部分组成：用于提取语谱图中深度语谱特征的预训练的卷积神经网络(CNN)和用于对提取的特征向量进行分类的支持向量机(SVM)分类器。系统主要包含如下步骤：

语谱图生成：对鼾声音频样本分别进行常数Q变换和短时傅里叶变换，对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。传统的短时傅里叶变换的窗长确定，其时频分辨率就已确定，不随频率和时间的变化而变化。而常数Q变换定义中心频率f_k和带宽δ_f的比值为常数Q：

在低频时，带宽较小，从而具有较高的频率分辨率。而在高频时，带宽较大，从而具有较高的时间分辨率。

由于基于软腭和口咽侧壁的鼾声的峰值频率分别为137Hz和170Hz，传统的短时傅里叶变换的频率分辨率不足以检测到这种微小的差距，当然可以采用更大的窗长来提高频率分辨率，但是这样影响了整体的时间分辨率。而常数Q变化在低频下可以有效地捕获这些差异，而高频时仍然具有不错的时间分辨率。

深度语谱特征提取：将绘制的语谱图作为预训练的AlexNet的输入，提取第二全连接层(fc7)的输出作为特征向量。

分类模型训练：将提取的深度语谱特征输入支持向量机分类器以训练分类模型。

下面结合附图来描述本发明实施的基于常数Q变换和短时傅里叶变换的深度语谱特征的鼾声分类算法。该方法包含以下步骤：

步骤一：为了本发明的效果，将Munich-Passau鼾声语料库(MPSSC,Munich-PassauSnore Sound Corpus)作为本发明实例中所使用的数据集。将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换，对变换后的时频数据生成了基于CQT的语谱图和基于STFT的语谱图。

具体地，由于样本分布不均，如表1所示，

表1 Munich-Passau鼾声语料库各类别下对应的鼾声音频数量

	Train	Devel	Test	Sum
					V	168	161	155	484
O	76	75	65	216
					T	8	15	16	39
E	30	32	27	89
					Sum	282	283	263	828

按照给定的上采样因子，成比例的复制O、T、E三类样本，对数据进行上采样。使用Matlib的CQT_toolbox_2013工具箱，设置参数B＝96，对鼾声音频样本进行了常数Q变换；使用窗长16ms，窗移8ms的汉宁窗进行短时傅里叶变换，对变换后的时频数据使用viridis映射。为了满足CNN的输入，这些语谱图被缩放和裁剪成没有坐标轴和边距的像素为227×227的方形图片。

离散时域信号x(n)的常数Q变换X^CQ(k,n)定义如下：

其中，k＝1,2,…,K是频率bin指数。是a_k(n)的共轭复数，N_k为可变窗函数。符号/>表示向下取整。a_k(n)为复数时频原子，定义如下：

其中，f_k为第k个bin的中心频率，f_s为采样率，w(t)为窗函数，Φ_k为相位偏移。比例因子C由下式给出：

由于bin间距与十二平均律相对应，中心频率f_k遵循下式：

其中f₁为最低频率的bin的中心频率，B为每个八度中bin的个数。由此可推导出下式：

步骤二：使用CAFFE获得了预训练的AlexNet的模型和权重。将绘制的基于CQT的语谱图和基于STFT的语谱图分别输入预训练的AlexNet，提取第二全连接层(fc7)的输出，得到基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量。生成的特征向量均包含4096个属性——分别对应AlexNet第二全连接层的每个神经元。AlexNet是第一个被运用到ImageNet任务的深度卷积神经网络，它的权重由ImageNet数据库中的120万张图片训练得到。AlexNet网络结构如表2所示。

表2 AlexNet模型结构

步骤三：将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合，使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器，按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型。使用支持向量机是因为它对于样本量较少的数据集具有不错的鲁棒性。同样由于样本分布不均匀，采用不加权平均召回率(UAR,UnweightedAverage Recall)作为评估指标。UAR定义如下：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CQT和STFT深度语谱特征鼾声分类方法，其特征是，通过预训练卷积神经网络提取鼾声音频信号的特征向量，使用支持向量机训练分类模型，再利用训练好的模型实现对患者打鼾时上气道振动和阻塞位置的非侵入式的自动识别，其中通过对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络的输入，提取其输出作为特征向量；详细步骤如下：

步骤一：将Munich-Passau鼾声语料库MPSSC作为鼾声音频数据集，将MPSSC中的鼾声音频样本分别进行常数Q变换和短时傅里叶变换，对变换后的时频数据生成基于CQT的语谱图和基于STFT的语谱图；

步骤三：将基于CQT的深度语谱特征向量和基于STFT的深度语谱特征向量进行融合，使用LIBLINEAR库的对偶的L2正则化L2损失的支持向量分类器，按照MPSSC给定的VOTE四类阻塞与振动位置训练得到分类模型，采用不加权平均召回率UAR作为评估指标，UAR定义如下：

其中，V_Recall、O_Recall、T_Recall和E_Recall分别代表软腭V、口咽侧壁O、舌根T和会厌E的召回率Recall，UAR表示这四类阻塞与振动位置对应的召回率的均值。

2.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法，其特征是，具体步骤如下：

3.如权利要求1所述的基于CQT和STFT深度语谱特征鼾声分类方法，其特征是，步骤一详细步骤如下：

离散时域信号x(n)的常数Q变换X^CQ(k,n)定义如下：

由于bin间距与十二平均律相对应，中心频率f_k遵循下式：

4.一种基于CQT和STFT深度语谱特征鼾声分类系统，其特征是，包括：常数Q变换与短时傅里叶变换模块、深度卷积神经网络、支持向量机模块，常数Q变换与短时傅里叶变换模块对鼾声音频信号进行常数Q变换与短时傅里叶变换，将变换后生成的语谱图作为预训练深度卷积神经网络模块的输入，深度卷积神经网络模块的输出作为特征向量，使用支持向量机模块训练分类模型，最后利用训练好的分类模型实现鼾声自动识别；其中：