CN109350014A - 一种鼾声识别方法与系统 - Google Patents
一种鼾声识别方法与系统 Download PDFInfo
- Publication number
- CN109350014A CN109350014A CN201811501274.3A CN201811501274A CN109350014A CN 109350014 A CN109350014 A CN 109350014A CN 201811501274 A CN201811501274 A CN 201811501274A CN 109350014 A CN109350014 A CN 109350014A
- Authority
- CN
- China
- Prior art keywords
- sound
- snoring
- section
- audio signal
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010041235 Snoring Diseases 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000005236 sound signal Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000004069 differentiation Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 7
- 230000005855 radiation Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 6
- 239000010410 layer Substances 0.000 description 68
- 230000004913 activation Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000007958 sleep Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 208000001797 obstructive sleep apnea Diseases 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 208000008784 apnea Diseases 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 210000002345 respiratory system Anatomy 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
- A61B5/4818—Sleep apnoea
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种鼾声识别方法与系统,包括以下几个部分:获得鼾声的音频信号数据;对获取的音频信号数据进行预处理,获取鼾声信号段;建立卷积神经网络模型,使用训练样本训练网络;将待诊断的鼾声音频数据输入到训练好的网络,输入得到鼾声识别结果。本发明通过对获取的音频信号预处理得到鼾声音频信号,使用卷积神经网络识别鼾声,提高了鼾声检测的准确率。
Description
技术领域
本发明涉及辅助医疗技术领域,具体地是涉及一种鼾声识别方法与系统。
背景技术
阻塞性睡眠呼吸暂停低通气综合征(OSAHS)是较为严重的睡眠呼吸障碍,病症主要表现为患者在睡觉过程中呼吸道软腭多次内陷,反复阻塞气道,导致呼吸受阻,临床表现为晚上睡觉时打鼾并伴随呼吸暂停或呼吸气流流量小。呼吸暂停是指患者在睡觉时呼吸气流消失超过10秒的情况,低通气是指患者在睡觉时呼吸气流强度低于基本值的50%,同时血氧浓度下降到低于正常水平96%的情况。
对于OSAHS的检测,传统的方法是通过多导睡眠监测装置对病人进行6至7小时的睡眠监督和测量,可记录并分析EEG(脑电图)、ECG(心电图)、EOG(眼电图)、EMG(肌电图),鼾声、血氧饱和度、呼吸频率、体位等多个睡眠时的体征参数,该方法准确可靠,但是由于需要在患者身上安置超过15个导联,影响到了患者的正常睡眠状态,并且价格不菲,而且通过多导睡眠图(PSG)获取的信息必须利用人工辨别出现的问题,非常不便,人们正在寻找经济有效且可靠的辅助诊断方法。
鉴于鼾声的产生与呼吸道的生理结构关系紧密,鼾声极有可能能够反映出患者呼吸道发生病变的一些情况,并且有研究表明普通打鼾者发出的鼾声同OSAHS患者之间的鼾声存在一定的差异。AHI指数(暂停低通气指数)是判定OSAHS患者患病程度的最直观的标准,如果不对鼾声进行分类将很难从鼾声获取病人的AHI指数,因此对患病鼾声进行分类研究有其必要性,且通过将病患的整晚鼾声进行分类识别将有助于OSAHS患者病情的诊断和监控。
目前,鼾声识别主要分为鼾声段检测和识别两部分。对鼾声段检测,大部分采用的是信号门限,容易出现误判。鼾声识别部分,使用比较常规的分类模型,当有与鼾声频率相近的声音干扰时,会误检测为鼾声,导致最终的模型精度准确率较低。
因此,本发明的发明人亟需构思一种新技术以改善其问题。
发明内容
为解决上述技术问题,本发明提供了一种鼾声识别方法与系统。
本发明的技术方案是:
一种鼾声识别方法,包括如下步骤:
S1:获得鼾声的音频信号数据;
S2:对获取的音频信号数据进行预处理,获取鼾声信号段;
S3:建立卷积神经网络模型,使用训练样本训练网络;
S4:将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
优选地,所述步骤S2具体包括:
S21:对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
S22:通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
S23:将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
S24:将有声段与静音段分离。
优选地,所述步骤S24中使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
优选地,所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1。
优选地,所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
一种鼾声识别系统,包括:
声音获取模块,用于获得鼾声的音频信号数据;
预处理模块,用于对获取的音频信号数据进行预处理,获取鼾声信号段;
模型建立模块,用于建立卷积神经网络模型,使用训练样本训练网络;
识别模块,用于将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
优选地,所述预处理模块具体包括:
降噪预处理单元,用于对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
预加重单元,用于通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
分帧处理单元,用于将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
信号分离单元,用于将有声段与静音段分离。
优选地,所述信号分离单元使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
优选地,所述预加重单元使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1。
优选地,所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
采用上述技术方案,本发明至少包括如下有益效果:
本发明所述的鼾声识别方法与系统,通过过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法来检测出鼾声段,并通过卷积神经网络进行鼾声自动识别。为鼾声的准确检测提供了更为有效的方法,能够对鼾声进行分类,能够自动识别出类别,进而辅助呼吸疾病的诊断。
附图说明
图1为本发明所述的鼾声识别方法的流程图;
图2为本发明所述的卷积神经网络的架构图;
图3为本发明所述的鼾声识别系统的结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,为符合本实施例的一种鼾声识别方法,包括如下步骤:
S1:获得鼾声的音频信号数据;
S2:对获取的音频信号数据进行预处理,获取鼾声信号段;
S3:建立卷积神经网络模型,使用训练样本训练网络;
S4:将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
优选地,所述步骤S2具体包括:
S21:对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
S22:通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
S23:将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
S24:将有声段与静音段分离。
优选地,所述步骤S24中使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
优选地,所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1,其中b的值接近于1,一般取0.94。
优选地,所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
下面具体阐述本实施例。
本实施例中,所述步骤S1中采用麦克风对人在睡眠过程中的声音进行采集,设定采样率为8000Hz,精度16bit。
所述步骤S21中使用LMS自适应滤波降噪,其步骤如下:
输入信号序列xi(n),期望输出信号d(n),定义误差信号为:
其中ωi为权系数。
(1)设定滤波器W(k)初值:
W(0)=0,收敛因子
(2).计算滤波器实际输出的估计值:
y(k)=WT(k)X(k)
(3).计算估算误差:
e(k)=d(k)-y(k)
(4)更新k+1时刻滤波器系数:
W(k+1)=W(k)+μe(k)X(k)
(5)k变为k+1,重复步骤(2)-(4)。
所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1,其中b的值接近于1,一般取0.94。
所述步骤S23中是对音频数据进行分帧处理。因为99%的鼾声持续时间分布在0.5s到1.8s之间,98.5%的鼾声间隔时间分布在1.4s-4s,在这期间,鼾声的时频参数基本保持不变。所以在分帧时选取较长的窗长,选取帧长为128ms,帧移为64ms,能够完整的获取鼾声段。
所述步骤S24中使用的是过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法,具体地:
1.自适应阈值法主要是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
2.计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
3.使用时自适应阈值话语权高于双门限法。
现有技术中一般对有声信号段分割时使用信号门限,容易出现误判。而本实施例使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法,从而可以做到精确定位鼾声音频段,而后使用卷积神经网络可以提高识别鼾声的精度。
如图2所示,所述步骤S3建立卷积神经网络模型,使用训练样本训练网络,具体包括如下步骤:
1.建立卷积神经网络:
第一层为卷积层,使用预处理后的鼾声段信号数据作为输入数据,卷积核尺寸为11,卷积核个数为96,步长为4,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第二层为卷积层,使用第一层网络输出作为本层输入,卷积核尺寸为5,卷积核个数为256,步长为1,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第三层为卷积层,使用第二层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为384,步长为1;
第四层为卷积层,使用第三层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为384,步长为1;
第五层为卷积层,使用第四层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为256,步长为1,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第六层为全连接层,使用第五层网络输出作为输入,通过ReLU激活函数以及dropout运算输出4096个本层的输出结果值;
第七层为全连接层,第六层输出的4096个数据与第七层的4096个神经元进行全连接,然后经由ReLU和Dropout进行处理后生成4096个数据;
第八层为全连接层,第七层输入的4096个数据与第八层的1000个神经元进行全连接,经过训练后输出被训练的数值。
第九层为输出层,输出维数与鼾声识别种类个数一致,使用softmax激活函数。
2.使用训练样本训练和优化网络
将训练样本拆分成一个个批次(batch)逐层训练网络,使用批标准化加快收敛速度,跳出局部最优,得到最优网络模型的连接权值和偏置参数。
使用ReLU作为卷积神经网络的激活函数,其效果在较深的网络超过了Sigmoid函数,成功解决了Sigmoid函数在网络较深时的梯度弥散问题;使用了5层卷积层,能够得到更深入的特征,有利于提高分类精度;使用最大池化,避免平均池化的模糊化效果。并且本实施例使用的softmax激活函数,相比于单层感知机(只能进行二分类)更适合用于多分类。
所述步骤S4将采集到的数据经过预处理得到鼾声信号数据,带入到权训练好的网络模型中,得到预测结果。
本实施例通过过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法来检测出鼾声段,并通过卷积神经网络进行鼾声自动识别。为鼾声的准确检测提供了更为有效的方法,能够对鼾声进行分类,能够自动识别出类别,进而辅助呼吸疾病的诊断。
实施例2
如图3所示,为符合本实施例的一种鼾声识别系统,包括:
声音获取模块,用于获得鼾声的音频信号数据;
预处理模块,用于对获取的音频信号数据进行预处理,获取鼾声信号段;
模型建立模块,用于建立卷积神经网络模型,使用训练样本训练网络;
识别模块,用于将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
优选地,所述预处理模块具体包括:
降噪预处理单元,用于对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
预加重单元,用于通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
分帧处理单元,用于将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
信号分离单元,用于将有声段与静音段分离。
优选地,所述信号分离单元使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
优选地,所述预加重单元使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1,其中b的值接近于1,一般取0.94。
优选地,所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
下面具体阐述本实施例。
本实施例中,所述声音获取模块采用麦克风对人在睡眠过程中的声音进行采集,设定采样率为8000Hz,精度16bit。
所述降噪预处理单元中使用LMS自适应滤波降噪,其步骤如下:
输入信号序列xi(n),期望输出信号d(n),定义误差信号为:
其中ωi为权系数。
(1)设定滤波器W(k)初值:
W(0)=0,收敛因子
(2).计算滤波器实际输出的估计值:
y(k)=WT(k)X(k)
(3).计算估算误差:
e(k)=d(k)-y(k)
(4)更新k+1时刻滤波器系数:
W(k+1)=W(k)+μe(k)X(k)
(5)k变为k+1,重复步骤(2)-(4)。
所述预加重单元中使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1,其中b的值接近于1,一般取0.94。
因为99%的鼾声持续时间分布在0.5s到1.8s之间,98.5%的鼾声间隔时间分布在1.4s-4s,在这期间,鼾声的时频参数基本保持不变。所以所述分帧处理单在分帧时选取较长的窗长,选取帧长为128ms,帧移为64ms,能够完整的获取鼾声段。
所述信号分离单元中使用的是过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法,具体地:
1.自适应阈值法主要是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
2.计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
3.使用时自适应阈值话语权高于双门限法。
现有技术中一般对有声信号段分割时使用信号门限,容易出现误判。而本实施例使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法,从而可以做到精确定位鼾声音频段,而后使用卷积神经网络可以提高识别鼾声的精度。
如图2所示,所述模型建立模块建立卷积神经网络模型,使用训练样本训练网络,具体包括如下步骤:
1.建立卷积神经网络:
第一层为卷积层,使用预处理后的鼾声段信号数据作为输入数据,卷积核尺寸为11,卷积核个数为96,步长为4,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第二层为卷积层,使用第一层网络输出作为本层输入,卷积核尺寸为5,卷积核个数为256,步长为1,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第三层为卷积层,使用第二层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为384,步长为1;
第四层为卷积层,使用第三层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为384,步长为1;
第五层为卷积层,使用第四层网络输出作为本层输入,卷积核尺寸为3,卷积核个数为256,步长为1,使用ReLU激活函数,随后加入最大池化层,池化尺寸3,步长2;
第六层为全连接层,使用第五层网络输出作为输入,通过ReLU激活函数以及dropout运算输出4096个本层的输出结果值;
第七层为全连接层,第六层输出的4096个数据与第七层的4096个神经元进行全连接,然后经由ReLU和Dropout进行处理后生成4096个数据;
第八层为全连接层,第七层输入的4096个数据与第八层的1000个神经元进行全连接,经过训练后输出被训练的数值。
第九层为输出层,输出维数与鼾声识别种类个数一致,使用softmax激活函数。
2.使用训练样本训练和优化网络
将训练样本拆分成一个个批次(batch)逐层训练网络,使用批标准化加快收敛速度,跳出局部最优,得到最优网络模型的连接权值和偏置参数。
使用ReLU作为卷积神经网络的激活函数,其效果在较深的网络超过了Sigmoid函数,成功解决了Sigmoid函数在网络较深时的梯度弥散问题;使用了5层卷积层,能够得到更深入的特征,有利于提高分类精度;使用最大池化,避免平均池化的模糊化效果。并且本实施例使用的softmax激活函数,相比于单层感知机(只能进行二分类)更适合用于多分类。
所述识别模块将采集到的数据经过预处理得到鼾声信号数据,带入到权训练好的网络模型中,得到预测结果。
本实施例通过过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法来检测出鼾声段,并通过卷积神经网络进行鼾声自动识别。为鼾声的准确检测提供了更为有效的方法,能够对鼾声进行分类,能够自动识别出类别,进而辅助呼吸疾病的诊断。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种鼾声识别方法,其特征在于,包括如下步骤:
S1:获得鼾声的音频信号数据;
S2:对获取的音频信号数据进行预处理,获取鼾声信号段;
S3:建立卷积神经网络模型,使用训练样本训练网络;
S4:将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
2.如权利要求1所述的鼾声识别方法,其特征在于,所述步骤S2具体包括:
S21:对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
S22:通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
S23:将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
S24:将有声段与静音段分离。
3.如权利要求2所述的鼾声识别方法,其特征在于:所述步骤S24中使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
4.如权利要求2或3所述的鼾声识别方法,其特征在于:所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1。
5.如权利要求3所述的鼾声识别方法,其特征在于:所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
6.一种鼾声识别系统,其特征在于,包括:
声音获取模块,用于获得鼾声的音频信号数据;
预处理模块,用于对获取的音频信号数据进行预处理,获取鼾声信号段;
模型建立模块,用于建立卷积神经网络模型,使用训练样本训练网络;
识别模块,用于将待诊断的鼾声音频信号数据输入到训练好的网络,得到鼾声识别结果。
7.如权利要求6所述的鼾声识别系统,其特征在于,所述预处理模块具体包括:
降噪预处理单元,用于对音频信号数据进行降噪预处理,滤除因为声音采集环境不同导致的不同程度的背景噪声;
预加重单元,用于通过预加重补充高频部分,减少口鼻辐射和声门脉冲带来的影响,提高信号频谱平坦度,降低低频干扰;
分帧处理单元,用于将信号分成多个相对较短的片段,以保证短时间内信号是平稳的;
信号分离单元,用于将有声段与静音段分离。
8.如权利要求,7所述的鼾声识别系统,其特征在于:所述信号分离单元使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。
9.如权利要求7或8所述的鼾声识别系统,其特征在于:所述预加重单元使用一阶FIR高通滤波器对数据进行预加重,其传输函数为:H(Z)=1-bZ-1。
10.如权利要求8所述的鼾声识别系统,其特征在于:所述自适应阈值法是把整段声音分为每N个离散点一组,取出每组中的最大幅值形成一个新的离散序列,再对这个序列中每N个离散点求和得到一个新的数组,将这个数组平滑滤波后,对其做柱状图区间统计,点最多的幅值区间就视为这段声音的噪声幅值,也是有声与无声的区分门限;
计算整段声音的短时能量和过零率,同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限;
使用时自适应阈值法话语权高于双门限法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811501274.3A CN109350014A (zh) | 2018-12-10 | 2018-12-10 | 一种鼾声识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811501274.3A CN109350014A (zh) | 2018-12-10 | 2018-12-10 | 一种鼾声识别方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109350014A true CN109350014A (zh) | 2019-02-19 |
Family
ID=65331964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811501274.3A Pending CN109350014A (zh) | 2018-12-10 | 2018-12-10 | 一种鼾声识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109350014A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815945A (zh) * | 2019-04-01 | 2019-05-28 | 上海徒数科技有限公司 | 一种基于图像识别的呼吸道检查结果判读系统和方法 |
CN110151138A (zh) * | 2019-05-29 | 2019-08-23 | 中山大学 | 基于卷积神经网络的睡眠呼吸暂停片段检测方法、设备 |
CN110338797A (zh) * | 2019-08-12 | 2019-10-18 | 苏州小蓝医疗科技有限公司 | 一种基于鼾声和血氧的中频止鼾仪数据处理方法 |
CN110824006A (zh) * | 2019-11-08 | 2020-02-21 | 南通大学 | 一种基于智能声信息识别的焊后焊缝冲击质量判别方法 |
CN110942784A (zh) * | 2019-11-21 | 2020-03-31 | 杭州电子科技大学 | 基于支持向量机的鼾声分类系统 |
CN111489824A (zh) * | 2020-04-09 | 2020-08-04 | 杭州电子科技大学 | 基于物联网的osahs预测系统 |
CN111685735A (zh) * | 2020-06-08 | 2020-09-22 | 清华大学 | 基于鼾声信号的睡眠呼吸暂停监测方法及装置 |
CN111933181A (zh) * | 2020-07-10 | 2020-11-13 | 北京理工大学 | 基于复数阶导数处理的鼾声特征提取、检测方法及其装置 |
CN113974607A (zh) * | 2021-11-17 | 2022-01-28 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102429662A (zh) * | 2011-11-10 | 2012-05-02 | 大连理工大学 | 家庭环境中睡眠呼吸暂停综合征的筛查系统 |
CN107358965A (zh) * | 2017-06-09 | 2017-11-17 | 华南理工大学 | 一种睡眠鼾声分类检测方法及系统 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
-
2018
- 2018-12-10 CN CN201811501274.3A patent/CN109350014A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102429662A (zh) * | 2011-11-10 | 2012-05-02 | 大连理工大学 | 家庭环境中睡眠呼吸暂停综合征的筛查系统 |
CN107358965A (zh) * | 2017-06-09 | 2017-11-17 | 华南理工大学 | 一种睡眠鼾声分类检测方法及系统 |
CN108670200A (zh) * | 2018-05-30 | 2018-10-19 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815945B (zh) * | 2019-04-01 | 2024-04-30 | 上海徒数科技有限公司 | 一种基于图像识别的呼吸道检查结果判读系统和方法 |
CN109815945A (zh) * | 2019-04-01 | 2019-05-28 | 上海徒数科技有限公司 | 一种基于图像识别的呼吸道检查结果判读系统和方法 |
CN110151138B (zh) * | 2019-05-29 | 2021-08-24 | 中山大学 | 基于卷积神经网络的睡眠呼吸暂停片段检测方法、设备 |
CN110151138A (zh) * | 2019-05-29 | 2019-08-23 | 中山大学 | 基于卷积神经网络的睡眠呼吸暂停片段检测方法、设备 |
CN110338797A (zh) * | 2019-08-12 | 2019-10-18 | 苏州小蓝医疗科技有限公司 | 一种基于鼾声和血氧的中频止鼾仪数据处理方法 |
CN110824006B (zh) * | 2019-11-08 | 2021-12-28 | 南通大学 | 一种基于智能声信息识别的焊后焊缝冲击质量判别方法 |
CN110824006A (zh) * | 2019-11-08 | 2020-02-21 | 南通大学 | 一种基于智能声信息识别的焊后焊缝冲击质量判别方法 |
CN110942784A (zh) * | 2019-11-21 | 2020-03-31 | 杭州电子科技大学 | 基于支持向量机的鼾声分类系统 |
CN111489824A (zh) * | 2020-04-09 | 2020-08-04 | 杭州电子科技大学 | 基于物联网的osahs预测系统 |
CN111685735A (zh) * | 2020-06-08 | 2020-09-22 | 清华大学 | 基于鼾声信号的睡眠呼吸暂停监测方法及装置 |
CN111933181A (zh) * | 2020-07-10 | 2020-11-13 | 北京理工大学 | 基于复数阶导数处理的鼾声特征提取、检测方法及其装置 |
CN111933181B (zh) * | 2020-07-10 | 2022-05-17 | 北京理工大学 | 基于复数阶导数处理的鼾声特征提取、检测方法及其装置 |
CN113974607A (zh) * | 2021-11-17 | 2022-01-28 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
CN113974607B (zh) * | 2021-11-17 | 2024-04-26 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109350014A (zh) | 一种鼾声识别方法与系统 | |
CN108670200B (zh) | 一种基于深度学习的睡眠鼾声分类检测方法及系统 | |
CN103687540B (zh) | 使用记录的呼吸音振幅谱图和音高升降曲线诊断osa/csa | |
US7640055B2 (en) | Self-adaptive system for the analysis of biomedical signals of a patient | |
US7559903B2 (en) | Breathing sound analysis for detection of sleep apnea/popnea events | |
CN104757975B (zh) | 使用血氧饱和度信号辨别潮式呼吸模式 | |
CN110151138B (zh) | 基于卷积神经网络的睡眠呼吸暂停片段检测方法、设备 | |
CN108388912A (zh) | 基于多传感器特征优化算法的睡眠分期方法 | |
CN110236491B (zh) | 一种睡眠分期监控方法 | |
WO2021114761A1 (zh) | 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质 | |
CN109805954B (zh) | 一种电子听诊器的摩擦音干扰自动消除方法 | |
US20200365271A1 (en) | Method for predicting sleep apnea from neural networks | |
CN113633260B (zh) | 多导睡眠监测方法、监测仪、计算机设备及可读存储介质 | |
CA2799094A1 (en) | System and methods of acoustical screening for obstructive sleep apnea during wakefulness | |
Sankar et al. | Effective enhancement of classification of respiratory states using feed forward back propagation neural networks | |
Doheny et al. | Estimation of respiratory rate and exhale duration using audio signals recorded by smartphone microphones | |
CA2585824A1 (en) | Breathing sound analysis for detection of sleep apnea/hypopnea events | |
CN113974607A (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
CN111281349B (zh) | 睡眠呼吸障碍监测方法及系统 | |
Aydoğan et al. | Automatic diagnosis of obstructive sleep apnea/hypopnea events using respiratory signals | |
Tiwari et al. | Deep lung auscultation using acoustic biomarkers for abnormal respiratory sound event detection | |
Montazeri Ghahjaverestan et al. | Automatic respiratory phase identification using tracheal sounds and movements during sleep | |
Pandey et al. | Nocturnal sleep sounds classification with artificial neural network for sleep monitoring | |
Guul et al. | Portable prescreening system for sleep apnea | |
Reddy | An Efficient Method to Detect Sleep Apnea |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190219 |