CN113974607B - 一种基于脉冲神经网络的睡眠鼾声检测系统 - Google Patents
一种基于脉冲神经网络的睡眠鼾声检测系统 Download PDFInfo
- Publication number
- CN113974607B CN113974607B CN202111359937.4A CN202111359937A CN113974607B CN 113974607 B CN113974607 B CN 113974607B CN 202111359937 A CN202111359937 A CN 202111359937A CN 113974607 B CN113974607 B CN 113974607B
- Authority
- CN
- China
- Prior art keywords
- pulse
- signal
- unit
- sound
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010041235 Snoring Diseases 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 230000005236 sound signal Effects 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 15
- 230000004913 activation Effects 0.000 claims abstract description 14
- 230000001537 neural effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 33
- 238000009432 framing Methods 0.000 claims description 19
- 210000005036 nerve Anatomy 0.000 claims description 13
- 238000000926 separation method Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 2
- 230000000541 pulsatile effect Effects 0.000 claims 3
- 238000012549 training Methods 0.000 abstract description 5
- 230000015654 memory Effects 0.000 abstract description 2
- 208000001797 obstructive sleep apnea Diseases 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 206010042434 Sudden death Diseases 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002570 electrooculography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 201000002859 sleep apnea Diseases 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Detecting, measuring or recording devices for evaluating the respiratory organs
- A61B5/0826—Detecting or evaluating apnoea events
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
- A61B5/4818—Sleep apnoea
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7203—Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/725—Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/7257—Details of waveform analysis characterised by using transforms using Fourier transforms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Pulmonology (AREA)
- Fuzzy Systems (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
Abstract
本发明公开了一种基于脉冲神经网络的睡眠鼾声检测系统,先将从声音信号中提取的梅尔频率倒谱系数MFCC,特征参数经过阈值编码映射成脉冲序列作为网络输入,将传统长短期记忆网络LSTM单元中的sigmod激活和tanh激活替换成阈值激活函数,使改进后的LSTM脉冲神经单元能用于脉冲序列计算,网络在更新参数时使用高斯函数近似替代阈值激活函数,以便采用反向传播算法进行参数更新,完成网络模型的训练,实现鼾声和非鼾声的识别检测。该方法相比于传统神经网络分类检测计算量更少、更节能,可以更好地应用到集成电路和移动设备中。
Description
技术领域
本发明涉及神经网络和音频检测技术领域,尤其是涉及一种基于脉冲神经网络的睡眠鼾声检测系统。
背景技术
阻塞性睡眠呼吸暂停低通气综合征(OSAHS)作为最常见的睡眠呼吸疾病之一,严重影响着人类的睡眠质量及健康状况,世界上约有5%的人患有OSAHS,如果得不到及时治疗,OSAHS将会诱发高血压、冠心病、糖尿病、心力衰竭,甚至猝死等症状。目前临床上诊断OSAHS的“金标准”是睡眠多导监测(PSG),其是通过记录患者一夜睡眠期间的若干生理信号(如脑电信号、心电信号、肌电信号、眼电信号、血氧饱和度和鼾声等),然后通过睡眠技师人工分析得到关于OSAHS的报告。这一过程需要耗费大量的医护人力和医疗设备资源,导致很多OSAHS患者不能得到及时治疗。鼾声作为OSAHS早期特征,也是最典型的症状之一,有研究表明,鼾声中包含着OSAHS的信息,因此,近年来有大量的基于鼾声的OSAHS研究。在进行鼾声信号分析之前,完成对鼾声信号高效准确地识别检测能更好地推动鼾声分析领域的发展。
近年随着深度神经网络的快速发展,现在普遍用来进行鼾声信号分析的方法是循环神经网络(Recurrent Neural Network,RNN)。对于声音这类有时序性的数据而言,传统RNN网络及变体结构,如长短期记忆(Long Short Term Memory,LSTM)网络能得到很好的学习和训练效果,但是传统神经网络中大量线性神经细胞模型以及复杂的网络结构,导致计算量十分巨大,不能很好地应用到集成电路和移动设备上。
发明内容
为解决现有技术的不足,通过端点检测技术提取整晚睡眠音频的有声段信号,对有声段进行特征提取,使用脉冲神经网络对有声段信号进行鼾声与非鼾声分类,实现对打鼾事件的自动检测和识别的目的,本发明采用如下的技术方案:
一种基于脉冲神经网络的睡眠鼾声检测系统,包括:有声信号分离模块、有声信号标注及分类模块、特征提取模块、神经网络模型;
所述有声信号分离模块,用麦克风阵列来拾取被测者整晚的睡眠声音信号,分离出有声段信号和静音段信号;
所述有声信号标注及分类模块,对有声段信号进行数据标注及分类,包括分出鼾声和非鼾声两类,其中非鼾声包括睡眠时的呼吸声、说话声、被子摩擦声等睡眠期间除打鼾外的其他声音,并对其标注;
所述特征提取模块,对标注及分类后的有声信号,提取MFCC(Mel-scaleFrequency Cepstral Coefficients,MFCC)作为声音识别的特征参数;
所述神经网络模型为脉冲神经网络模型,包括脉冲编码单元和脉冲神经单元,脉冲编码单元对MFCC进行脉冲编码,得到脉冲序列;脉冲神经单元包括输入门、遗忘门、输入信号调制单元和输出门,用于学习训练脉冲序列,其中输入门、遗忘门、输出门采用第一阈值激活函数,输入信号调制单元采用第二阈值激活函数,分别获取一组脉冲序列与上一时刻的隐藏状态,遗忘门的输出与上一时刻的单元状态计算哈达玛积,将输入门的输出和输入信号调整单元的输出计算哈达玛积,将两个哈达玛积结果相加作为当前时刻的单元状态,同时,将相加的结果与输出门的输出再次计算哈达玛积,作为当前时刻的隐藏状态;训练后的模型用于对待检测的睡眠有声段信号进行鼾声检测。
进一步地,神经网络模型为脉冲神经网络模型,包括脉冲编码单元、脉冲神经单元、归一化层;
所述脉冲编码单元,通过阈值θ对MFCC进行阈值脉冲编码,映射成脉冲序列,θ为动态阈值,满足高斯分布;
所述脉冲神经单元,用于计算脉冲序列,其门和状态的特征为:
ft=σ1(wf,hht-1+wf,xxt+bf,h+bf,x)
it=σ1(wi,hht-1+wi,xxt+bi,h+bi,x)
gt=σ2(wg,hht-1+wg,xxt+bg,h+bg,x)
ct=ft⊙ct-1+it⊙gt
ot=σ1(wo,hht-1+wo,xxt+bo,h+bo,x)
ht=ot⊙ct
其中,ft表示遗忘门,σ1(·)、σ2(·)表示第一、第二阈值激活函数,当超过阈值θ1和θ2时,将累计输入映射成一个脉冲传递下去,ht-1表示t-1时刻的隐藏状态,xt表示一组输入序列,wf,h、bf,h表示遗忘门隐藏状态的权重系数,wf,x、bf,x表示遗忘门输入序列的权重系数,it表示输入门,wi,h、bi,h表示输入门隐藏状态的权重系数,wi,x、bi,x表示输入门输入序列的权重系数,gt表示对输入信号的调制,wg,h、bg,h表示输入信号调制隐藏状态的权重系数,wg,xxt、bg,x表示输入信号调制输入序列的权重系数,ct表示t时刻的单元状态,⊙表示矩阵计算哈达玛积,ct-1表示t-1时刻的单元状态,ot表示输出门,wo,h、bo,h表示输出门隐藏状态的权重系数,wo,x、bo,x表示输出门输入序列的权重系数,ht表示t时刻的隐藏状态;
在对脉冲神经单元进行参数更新时,用高斯函数近似替代激活函数σ1(·)和σ2(·),以便可以采用反向传播算法进行参数更新;
所述归一化层,与最后一个脉冲神经单元连接,进行分类输出,并保存训练好的模型。
进一步地,脉冲神经单元是LSTM脉冲神经单元。
进一步地,有声信号分离模块,设计多窗谱减算法,用于对分帧加窗后的信号进行降噪处理,具体为对睡眠声音信号同一数据序列,使用多个正交窗分别求直接谱,然后对多个直接谱取平均值获取噪声谱,这样获得的噪声谱值和检测结果会更加准确,用原始带噪信号的频谱减去噪声频谱获得降噪后的睡眠声音信号频谱,降噪后,使用短时过零率和短时能量相结合的双门限法,进行端点检测,完成有声段和静音段分离。
进一步地,有声信号分离模块,包括预加重单元,对睡眠声音信号进行预加重处理,从而提升高频分量的分辨率,传输函数z域表达式为:
H(z)=1-az-1
其中,a为预加重系数,值在0~1之间。
进一步地,预加重单元为一阶高通FIR滤波器。
进一步地,有声信号分离模块,包括分帧加窗单元,对睡眠声音信号进行分帧处理,从而保证每帧信号足够短来达到平稳状态,再将每一帧信号乘以汉明窗函数,从而减少频域中的信号特征泄露,分帧加窗公式为:
其中,Q表示分帧加窗后的声音信号,T[·]为分帧函数,x(m)为第m帧声音信号,h(·)为汉明窗函数,n表示汉明窗长度,w表示每一帧信号的移动长度;
进一步地,分帧信号的长度为20ms,帧移10ms,50%的重叠率。
进一步地,特征提取模块,将时域音频信号进行傅里叶变换转换为频域信号,并计算所有对应频率的功率谱;
频域信号通过梅尔标度三角形滤波器组,平滑频谱上的特征,每个滤波器组输出的对数能量s(l)为:
其中l表示滤波器的数量,L表示滤波器总个数,k表示频域信号傅里叶变换采样点数量,N表示傅里叶变换总采样点数,Xa(k)表示通过快速傅里叶变换得到的声音信号频谱功率,H(k)表示三角滤波器得到的能量谱的频率响应;
再对每个滤波器组输出的对数能量s(l),作离散余弦变换得到MFCC系数。
进一步地,有声信号标注及分类模块,将有声段信号分为鼾声和非鼾声,其中非鼾声包括睡眠时的呼吸声、说话声、被子摩擦声等睡眠期间除打鼾外的其他声音,并对其标注。
本发明的优势和有益效果在于:
本发明使用LSTM脉冲神经网络对睡眠声音数据进行分类,可以保证脉冲神经网络对声音这类时间序列识别的准确性,提高预测结果的准确度。由于脉冲神经网络的计算是基于脉冲序列,时间上的稀疏性使得脉冲神经网络相比于传统神经网络计算量更少更节能,可以更好地应用到集成电路和移动设备中。
附图说明
图1为本发明的系统结构图。
图2为本发明中LSTM脉冲神经单元内部结构图。
图3为本发明的方法流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1、2所示,一种基于脉冲神经网络的睡眠鼾声检测系统,包括有声信号分离模块、有声信号标注及分类模块、特征提取模块、脉冲神经网络模型,脉冲神经单元包括输入门、遗忘门、输入信号调制单元和输出门。
如图3所示,系统运行过程,包括如下步骤:
S1,拾取被测者整晚的睡眠声音信号,对所述睡眠声音信号进行预加重、分帧加窗和端点检测处理,分离有声段和静音段;
S2,对S1中获取的有声段信号进行数据标注及分类;
S3,对S2中音频数据提取MFCC作为声音识别的特征参数;
S4,建立脉冲神经网络模型,将S3中的MFCC映射成脉冲序列,并采用反向传播算法进行参数更新,保存训练好的模型;
S5,将待检测的睡眠有声段数据输入到保存好的网络模型中进行鼾声检测。
步骤S1中可用麦克风阵列来拾取被测者整晚的睡眠声音信号,对采集的睡眠声音信号进行预加重、分帧加窗和端点检测处理包括如下步骤:
S11,对拾取的整晚睡眠声音信号预加重用于提升高频分量的分辨率,实现方式为一阶高通FIR滤波器,其传输函数为:
H(z)=1-az-1
其中a为预加重系数,值在0~1之间;
S12,对预加重后的声音信号进行分帧用于保证每帧信号足够短来达到平稳状态,分帧信号的长度为20ms,帧移10ms,50%的重叠率,再将每一帧信号乘以汉明窗函数,用于减少频域中的信号特征泄露,分帧公式为:
汉明窗函数为:
其中,T[·]为分帧函数,x(m)为第m帧声音信号,h(·)为汉明窗函数,w为帧移长度;
S13,设计多窗谱减算法用于对分帧加窗后的信号进行降噪处理,具体为对声音信号同一数据序列使用多个正交窗分别求直接谱,然后对多个直接谱取平均值获取噪声谱,这样获得的噪声谱值和检测结果会更加准确,用原始带噪信号的频谱减去噪声频谱获得降噪后的声音信号频谱。降噪后使用短时过零率和短时能量相结合的双门限法进行端点检测完成有声段和静音段分离。
步骤S2中对获取的有声段信号进行数据标注及分类用于整理脉冲神经网络训练所需的训练集和测试集,数据集分为鼾声和非鼾声两类,其中非鼾声包括睡眠时的呼吸声、说话声、被子摩擦声等睡眠期间除打鼾外的其他声音。
步骤S3中提取音频数据MFCC作为声音识别特征参数,包括如下步骤:
S31,将平稳的时域音频信号进行傅里叶变换转换为频域信号,并计算所有对应频率的功率谱;
S32,将S31中的频域信号通过梅尔标度三角形滤波器组来平滑频谱上的特征,每个滤波器组输出的对数能量s(m)为:
其中l表示滤波器的数量,L表示滤波器总个数,k表示频域信号傅里叶变换采样点数量,N表示傅里叶变换总采样点数,Xa(k)表示通过快速傅里叶变换得到的语音信号频谱功率,H(k)表示三角滤波器得到的能量谱的频率响应;
S33,对每个滤波器组输出的对数能量s(l)作离散余弦变换得到MFCC系数C(p):
其中,p和P表示MFCC系数的阶数。
步骤S4建立脉冲神经网络模型包括输入脉冲编码、脉冲单元设计、网络参数更新和分类输出,具体包括如下步骤:
S41,设计阈值θ对MFCC进行阈值脉冲编码映射成脉冲序列,θ为动态阈值,满足高斯分布;
S42,设计LSTM脉冲神经单元用于计算脉冲序列,内部结构如图2所示,其门和状态的特征为:
ft=σ1(wf,hht-1+wf,xxt+bf,h+bf,x)
it=σ1(wi,hht-1+wi,xxt+bi,h+bi,x)
gt=σ2(wg,hht-1+wg,xxt+bg,h+bg,x)
ct=ft⊙ct-1+it⊙gt
ot=σ1(wo,hht-1+wo,xxt+bo,j+bo,x)
ht=ot⊙ct
其中xt表示一组输入序列,ft表示遗忘门,it表示输入门,ot表示输出门,gt表示对输入信号的调制,ct为t时刻的单元状态,ht为t时刻的隐藏状态,w,b为权重系数。⊙表示矩阵计算哈达玛积,σ1(·)和σ2(·)为激活函数,当超过阈值θ1和θ2时,将累计输入映射成一个脉冲传递下去;
S43,对LSTM脉冲神经元进行参数更新时,用高斯函数近似替代激活函数σ1(·)和σ2(·),从而使用反向传播算法进行参数更新;
S44,在最后一个LSTM脉冲神经单元的输出后跟一个softmax层进行鼾声、非鼾声分类输出,并保存训练好的模型。
步骤S5将未经训练的测试集数据输入到保存好的网络模型中进行鼾声和非鼾声两分类识别,完成鼾声检测。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (9)
1.一种基于脉冲神经网络的睡眠鼾声检测系统,包括:有声信号分离模块、有声信号标注及分类模块、特征提取模块、神经网络模型,其特征在于:
所述有声信号分离模块,拾取被测者整晚的睡眠声音信号,分离出有声段信号;
所述有声信号标注及分类模块,对有声段信号进行数据标注及分类,包括分出鼾声和非鼾声数据;
所述特征提取模块,对标注及分类后的有声信号进行特征提取,主要提取声音信号的梅尔频率倒谱系数MFCC;
所述神经网络模型为脉冲神经网络模型,包括脉冲编码单元、脉冲神经单元和归一化层,脉冲编码单元对MFCC进行脉冲编码,得到脉冲序列;脉冲神经单元包括输入门、遗忘门、输入信号调制单元和输出门,用于脉冲序列计算,其中输入门、遗忘门、输出门采用第一阈值激活函数,输入信号调制单元采用第二阈值激活函数,分别获取一组脉冲序列与上一时刻的隐藏状态,遗忘门的输出与上一时刻的单元状态计算哈达玛积,将输入门的输出和输入信号调整单元的输出计算哈达玛积,将两个哈达玛积结果相加作为当前时刻的单元状态,同时,将相加的结果与输出门的输出再次计算哈达玛积,作为当前时刻的隐藏状态;训练后的模型用于对待检测的睡眠有声段信号进行鼾声检测;
所述脉冲编码单元,通过阈值θ对MFCC进行阈值脉冲编码,映射成脉冲序列,θ为动态阈值,满足高斯分布;
所述脉冲神经单元,用于学习脉冲序列,其门和状态的特征为:
ft=σ1(wf,hht-1+wt,xxt+bf,h+bf,x)
it=σ1(wi,hht-1+wi,xxt+bi,h+bi,x)
gt=σ2(wg,hht-1+wg,xxt+bg,h+bg,x)
ct=ft⊙ct-1+it⊙gt
ot=σ1(wo,hht-1+wo,xxt+bo,h+bo,x)
ht=ot⊙ct
其中,ft表示遗忘门,σ1(·)、σ2(·)表示第一、第二阈值激活函数,当超过阈值θ1和θ2时,将累计输入映射成一个脉冲传递下去,ht-1表示t-1时刻的隐藏状态,xt表示一组输入序列,wf,h、bf,h表示遗忘门隐藏状态的权重系数,wf,x、bf,x表示遗忘门输入序列的权重系数,it表示输入门,wi,h、bi,h表示输入门隐藏状态的权重系数,wi,x、bi,x表示输入门输入序列的权重系数,gt表示对输入信号的调制,wg,h、bg,h表示输入信号调制隐藏状态的权重系数,wg,xxt、bg,x表示输入信号调制输入序列的权重系数,ct表示t时刻的单元状态,⊙表示矩阵计算哈达玛积,ct-1表示t-1时刻的单元状态,ot表示输出门,wo,h、bo,h表示输出门隐藏状态的权重系数,wo,x、bo,x表示输出门输入序列的权重系数,ht表示t时刻的隐藏状态;
在对脉冲神经单元进行参数更新时,用高斯函数近似替代激活函数σ1(·)和σ2(·),采用反向传播算法对网络参数进行更新;
所述归一化层,与最后一个脉冲神经单元连接,进行分类输出,并保存训练好的模型。
2.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述脉冲神经单元是LSTM脉冲神经单元。
3.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述有声信号分离模块,对睡眠声音信号同一数据序列,使用多个正交窗分别求直接谱,然后对多个直接谱取平均值获取噪声谱,用原始带噪信号的频谱减去噪声频谱获得降噪后的睡眠声音信号频谱,降噪后,使用短时过零率和短时能量相结合的双门限法,进行端点检测,完成有声段和静音段分离。
4.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述有声信号分离模块,包括预加重单元,对睡眠声音信号进行预加重处理,传输函数z域表达式为:
H(z)=1-az-1
其中,a为预加重系数。
5.根据权利要求4所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述预加重单元为一阶高通FIR滤波器。
6.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述有声信号分离模块,包括分帧加窗单元,对睡眠声音信号进行分帧加窗处理,分帧加窗公式为:
其中,Q表示分帧加窗后的声音信号,T[·]为分帧函数,x(m)为第m帧声音信号,h(·)为汉明窗函数,n表示汉明窗长度,w表示每一帧信号的移动长度。
7.根据权利要求6所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于分帧信号的长度为20ms,帧移10ms,50%的重叠率。
8.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述特征提取模块,将时域音频信号进行傅里叶变换转换为频域信号,并计算对应频率的功率谱;频域信号通过梅尔标度三角形滤波器组,平滑频谱上的特征,每个滤波器组输出的对数能量s(l)为:
其中l表示滤波器的数量,L表示滤波器总个数,k表示频域信号傅里叶变换采样点数量,N表示傅里叶变换总采样点数,Xa(k)表示通过快速傅里叶变换得到的声音信号频谱功率,H(k)表示三角滤波器得到的能量谱的频率响应;再对每个滤波器组输出的对数能量s(l)作离散余弦变换得到MFCC。
9.根据权利要求1所述的一种基于脉冲神经网络的睡眠鼾声检测系统,其特征在于所述有声信号标注及分类模块,将有声段信号分为鼾声和非鼾声,其中非鼾声包括睡眠时的呼吸声、说话声、被子摩擦声,并对其标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111359937.4A CN113974607B (zh) | 2021-11-17 | 2021-11-17 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111359937.4A CN113974607B (zh) | 2021-11-17 | 2021-11-17 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113974607A CN113974607A (zh) | 2022-01-28 |
CN113974607B true CN113974607B (zh) | 2024-04-26 |
Family
ID=79748988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111359937.4A Active CN113974607B (zh) | 2021-11-17 | 2021-11-17 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113974607B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115429293B (zh) * | 2022-11-04 | 2023-04-07 | 之江实验室 | 一种基于脉冲神经网络的睡眠类型分类方法和装置 |
CN116746887B (zh) * | 2023-08-18 | 2023-12-01 | 智慧眼科技股份有限公司 | 一种基于音频的睡眠分期的方法、系统、终端及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622303A (zh) * | 2016-07-13 | 2018-01-23 | 三星电子株式会社 | 用于神经网络的方法和执行该方法的设备 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN108717570A (zh) * | 2018-05-23 | 2018-10-30 | 电子科技大学 | 一种脉冲神经网络参数量化方法 |
CN109350014A (zh) * | 2018-12-10 | 2019-02-19 | 苏州小蓝医疗科技有限公司 | 一种鼾声识别方法与系统 |
CN109616104A (zh) * | 2019-01-31 | 2019-04-12 | 天津大学 | 基于关键点编码和多脉冲学习的环境声音识别方法 |
CN110796231A (zh) * | 2019-09-09 | 2020-02-14 | 珠海格力电器股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN111938649A (zh) * | 2019-05-16 | 2020-11-17 | 医疗财团法人徐元智先生医药基金会亚东纪念医院 | 利用神经网络从鼾声来预测睡眠呼吸中止的方法 |
CN113257282A (zh) * | 2021-07-15 | 2021-08-13 | 成都时识科技有限公司 | 语音情感识别方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2642041C (en) * | 2005-12-23 | 2014-07-15 | Le Tan Thanh Tai | Spatio-temporal pattern recognition using a spiking neural network and processing thereof on a portable and/or distributed computer |
-
2021
- 2021-11-17 CN CN202111359937.4A patent/CN113974607B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622303A (zh) * | 2016-07-13 | 2018-01-23 | 三星电子株式会社 | 用于神经网络的方法和执行该方法的设备 |
CN108717570A (zh) * | 2018-05-23 | 2018-10-30 | 电子科技大学 | 一种脉冲神经网络参数量化方法 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109350014A (zh) * | 2018-12-10 | 2019-02-19 | 苏州小蓝医疗科技有限公司 | 一种鼾声识别方法与系统 |
CN109616104A (zh) * | 2019-01-31 | 2019-04-12 | 天津大学 | 基于关键点编码和多脉冲学习的环境声音识别方法 |
CN111938649A (zh) * | 2019-05-16 | 2020-11-17 | 医疗财团法人徐元智先生医药基金会亚东纪念医院 | 利用神经网络从鼾声来预测睡眠呼吸中止的方法 |
CN110796231A (zh) * | 2019-09-09 | 2020-02-14 | 珠海格力电器股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN113257282A (zh) * | 2021-07-15 | 2021-08-13 | 成都时识科技有限公司 | 语音情感识别方法、装置、电子设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
Long Short-Term Memory Spiking Networks and Their Applications;Ali Lotfi Rezaabad 等;ICONS 2020;20200709;全文 * |
融合LSTM结构的脉冲神经网络模型研究与应用;王清华 等;计算机应用研究;20210531;第38卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113974607A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108670200B (zh) | 一种基于深度学习的睡眠鼾声分类检测方法及系统 | |
CN107910020B (zh) | 鼾声检测方法、装置、设备及存储介质 | |
Shama et al. | Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
CN109044396B (zh) | 一种基于双向长短时记忆神经网络的智能心音识别方法 | |
AU2013274940B2 (en) | Cepstral separation difference | |
CN110600053A (zh) | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 | |
CN104473660B (zh) | 一种基于子带能量包络自相关特征的异常心音识别方法 | |
CN111685774B (zh) | 基于概率集成回归模型的osahs诊断方法 | |
Cheng et al. | Automated sleep apnea detection in snoring signal using long short-term memory neural networks | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
Holi | Automatic detection of neurological disordered voices using mel cepstral coefficients and neural networks | |
CN110942784A (zh) | 基于支持向量机的鼾声分类系统 | |
Abeyratne et al. | Mixed-phase modeling in snore sound analysis | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Mustafa et al. | Detection of heartbeat sounds arrhythmia using automatic spectral methods and cardiac auscultatory | |
Shafik et al. | A wavelet based approach for speaker identification from degraded speech | |
Dubey et al. | Pitch-Adaptive Front-end Feature for Hypernasality Detection. | |
Luo et al. | Design of embedded real-time system for snoring and OSA detection based on machine learning | |
Porieva et al. | Investigation of lung sounds features for detection of bronchitis and COPD using machine learning methods | |
Sengupta et al. | Optimization of cepstral features for robust lung sound classification | |
Lili et al. | Research on Recognition of CHD Heart Sound Using MFCC and LPCC | |
Godino-Llorente et al. | Discriminative methods for the detection of voice disorders | |
AU2021229663C1 (en) | Diagnosis of medical conditions using voice recordings and auscultation | |
Jam et al. | Identification of hearing disorder by multi-band entropy cepstrum extraction from infant's cry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |