CN106821337B - 一种有监督的鼾声来源识别方法 - Google Patents
一种有监督的鼾声来源识别方法 Download PDFInfo
- Publication number
- CN106821337B CN106821337B CN201710240722.8A CN201710240722A CN106821337B CN 106821337 B CN106821337 B CN 106821337B CN 201710240722 A CN201710240722 A CN 201710240722A CN 106821337 B CN106821337 B CN 106821337B
- Authority
- CN
- China
- Prior art keywords
- layer
- snore
- representing
- pooling
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010041235 Snoring Diseases 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 37
- 238000010586 diagram Methods 0.000 claims description 22
- 239000002356 single layer Substances 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 201000002859 sleep apnea Diseases 0.000 description 7
- 208000001797 obstructive sleep apnea Diseases 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000001584 soft palate Anatomy 0.000 description 2
- 206010003658 Atrial Fibrillation Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 208000007590 Disorders of Excessive Somnolence Diseases 0.000 description 1
- 206010021143 Hypoxia Diseases 0.000 description 1
- 206010041349 Somnolence Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 206010067775 Upper airway obstruction Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 208000018875 hypoxemia Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 208000023504 respiratory system disease Diseases 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 208000020685 sleep-wake disease Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4806—Sleep evaluation
- A61B5/4818—Sleep apnoea
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Surgery (AREA)
- Veterinary Medicine (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Fuzzy Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种有监督的鼾声来源识别方法。该方法包括数据的预处理、训练和识别,具体步骤为:首先,对鼾声实测数据进行Mel频率变换,得到数据样本;其次,设置卷积神经网络的结构、卷积层输出特征图数量和卷积核大小、池化尺寸、权矢量更新学习率、批训练样本数目、训练迭代次数;再次,将训练集的鼾声时频谱图作为卷积神经网络输入,根据设置好的网络结构进行网络初始化,经过前向过程、方向误差传播、更新权值和偏置,直到达到指定的迭代次数,完成训练过程;最后,将测试集送入训练好的网络模型,得到识别结果。本发明可以有效地识别出鼾声来源,识别结果准确,性能优良。
Description
技术领域
本发明属于非语音识别技术领域,特别是一种有监督的鼾声来源识别方法。
背景技术
阻塞性睡眠呼吸暂停/低通气综合征是一种睡眠呼吸疾病,与上气道阻塞、气道结构性狭窄以及上气道肌张力降低密切相关。在美国仅阻塞性睡眠呼吸暂停综合征就有约1500万成年患者,并且该病常见于高血压和其他心血管疾病(包括冠心病、中风和心房颤动)患者。全球范围内阻塞性睡眠呼吸暂停/低通气综合征的发病率较高,男性发病率大于女性(成年男性患病率为3%~7%,成年女性为2%~5%)。阻塞性睡眠呼吸暂停/低通气综合征常伴有打鼾、睡眠结构紊乱、频繁发生血氧饱和度下降、白天嗜睡等病征,可以是高血压、冠心病的独立危险因素。目前主要利用多导睡眠图诊断鼾症,但是其价格昂贵,并且对病人来说也是一种侵入式的不适。由于声学研究具有非接触式、非侵入式、低成本的优点,引起了越来越多的关注和研究。
早期的声学研究包括连续声压级测量和时频域波形的观察。最近,出现了在机器学习方法上的探索。针对鼾声检测,Tan L N等人提出了一种相关滤波器多层感知神经网络,采用频域上的相关滤波器充当第一层隐层,其他隐层则是常规的多层感知机,相较于常规的多层神经网络在测试集82%的平均检测率,该方法取得了96%的平均检测率。但是,多层神经网络结构复杂,需要训练的参数过多,学习特征效率较低。
发明内容
本发明的目的在于提供一种训练参数少、学习特征效率高的有监督的鼾声来源识别方法。
实现本发明目的的技术解决方案为:一种有监督的鼾声来源识别方法,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图;
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别。
本发明与现有技术相比,其显著优点为:(1)仅依赖于输入数据样本和误差反向传播算法,使得前几层网络调整为适用于识别的网络模型;(2)局部感知和权值共享、卷积层与池化层交替出现,使得其具有更少的权值参数;(3)识别结果准确,性能优良。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是Mel频率计算总体流程图。
图2是实测数据的时域、频域图,其中(a)为实测数据的时域图,(b)为实测数据的频域图。
图3是鼾声数据的样本示意图。
图4是面向鼾声识别的卷积神经网络训练整体流程图。
图5是卷积神经网络的结构框图。
图6是二维卷积操作示意图。
图7是池化示意图。
具体实施方式
本发明提供一种以Mel频率为特征,基于卷积神经网络的鼾声来源识别方法,其主要内容包括:
(一)将基于Mel频率变换的时频谱图输入到卷积神经网络,进行训练;
(二)将测试样本送入已经训练好的网络模型,进行识别。
结合图1,本发明有监督的鼾声来源识别方法,其特征在于,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图,具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧、预加重、加窗处理,所述短时分帧的帧长32ms,帧移16ms;
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号;
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理;
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出公式如下:
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数;
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本。
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别,具体如下:
步骤3-1、设置网络结构、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数;
步骤3-2、进行网络初始化,包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;以一个均值为0,标准差为的正态分布初始化深度神经网络的权重,其中Nl为与权重连接的输出节点个数,偏置初始化为0;
步骤3-3、对不同来源的鼾声样本进行统计,将鼾声样本分为训练集和测试集;训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布;依据每批数据的预测误差进行一次权值更新;
卷积操作之后,经过激活函数处理引入非线性,来逼近任意函数,激活函数采用sigmoid函数,公式如下:
f′(x)=f(x)·[1-f(x)]
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合,采用平均池化,公式如下:
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机,卷积神经网络输出层的预测y=[y1,y2,...,ym]表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数;
步骤3-5、反向传播更新网络参数:采用批量梯度下降法来求取卷积神经网络参数,对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数J(W,b;x,y)表示为:
梯度下降算法中每一次迭代都按照如下公式进行:
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置;
误差传播的公式和偏导数计算公式如下:
实施例1
本实施例有监督的鼾声来源识别方法,步骤如下:
步骤1、经过人耳听觉判断和图2所示的时频谱图观察确认之后,对实测数据进行标记,其中,图2(a)为实测数据的时域图,图2(b)为实测数据的频域图。将纯鼾声片段的起始、终止位置统计在EXCEL表格中。
步骤2、以EXCEL表格中记录的鼾声起始点为标准,分帧进行Mel频率变换,并对频谱幅值做归一化处理,形成一个数据样本,如图3所示。
结合图1,对鼾声信号进行分帧、以及Mel频率变换处理具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧(帧长32ms,帧移16ms)、预加重、加窗等处理。
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号。
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理。公式如下:
X(k)=|Y(k)|2
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出公式如下:
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数。
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本。
步骤3、将获得的数据样本,分为训练集和测试集。分别送入卷积神经网络进行训练和识别。结合图4,具体步骤如下:
步骤3-1、设置网络结构(卷积层和池化层的数目以及连接方式)、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数(即训练次数);
步骤3-2、进行网络初始化,主要包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;
对于卷积神经网络,需要考虑输入特征图的数量和局部感知域(即卷积核)的尺寸大小。设fan_in为卷积层输入的的所有连接数,fan_out为一个输入特征图对应的所有卷积核权值的总数,对应卷积核初始化为一个标准差为sqrt(6/(fan_in+fan_out))的正态分布随机量。
步骤3-3、对不同来源的鼾声样本进行统计,为了避免由训练样本分布不均引起的预测误差,每一类鼾声来源数据的训练样本数量均设置为TR,余下的样本不参与训练,作为测试样本TE。将每个样本的标签设为t=[t1,t2,...,t4,tn]T,其中,n表示鼾声来源数据的总类别,tk=1表示此样本属于第k类,标签的其他元素均为0。训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布。依据每批数据的预测误差进行一次权值更新。迭代次数是指全部数据训练的次数;
步骤3-4、将样本送入卷积神经网络,经过多次卷积-池化操作最后由全连接层输出预测值。这一过程称为前向过程。卷积层的每一个输出特征图都是上一层多个特征图卷积操作的结合。结合图5,第二层卷积层与上一层池化层的每一个特征图都有相互连接,即如果池化层的输出特征图数量为Nin,卷积层的输出特征图数量为Nout,则连接这两层的卷积核共有Nin·Nout个。用表示第l层的第j幅输出特征图,Mj表示第(l-1)层与连接的特征图数量,“*”表示卷积操作,表示连接的卷积核,表示特征图的偏置,f`(·)表示激活函数,则第l层卷积层的输出可表示为:
图像的卷积操作与时域信号处理常见的卷积操作略有区别,它实际上是一种对应位置元素乘加的操作。结合图6,进行说明:左图为输入特征图,中间为卷积核,右图为卷积结果。
卷积操作之后,经过激活函数处理,其作用是引入非线性,来逼近任意函数。最常见的激活函数是sigmoid函数,公式如下:
f′(x)=f(x)·[1-f(x)]
sigmoid函数具有两个优点:①输出范围有限,在0到1之间,所以数据在传递过程中不容易发散;并且可以用于输出层;②求导容易,误差反向传播算法中涉及到激活函数求导。而缺点是:饱和时梯度太小。
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,主要目的是混淆特征的具体位置。池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合。常见的池化方式有平均池化、最大池化两种,其公式如下:
其中,M为池化尺寸,表示l层i,j位置的值,表示l-1层ik,jk位置的值。
本发明采用平均池化,结合图7说明,左图为输入特征图,右图为池化结果。
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机。将上一层的特征图原始结合在一起作为一个特征向量fv传入单层感知机,经过逻辑回归函数(sigmoid函数)输出预测类别的结果。特别说明,本文的单层感知机采用逻辑回归。用fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,则卷积神经网络输出层的预测y=[y1,y2,...,ym]可表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数。
步骤3-5、反向传播更新网络参数。采用批量梯度下降法来求取卷积神经网络参数。对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数可表示为:
梯度下降算法中每一次迭代都按照如下公式进行:
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置。
梯度更新算法的关键步骤是计算偏导数。反向传播算法是偏导数的有效计算方法。误差传播的公式和偏导数计算公式如下:
步骤4、测试集包含4类鼾声来源数据,单纯打鼾类有876个样本,软腭为主类有588个样本,侧壁为主类有360个样本,软腭侧壁共振类有388个样本。将测试集送入已经训练好的网络模型中,进行识别。通过单层感知机输出识别结果,识别结果见表1。根据表中数据可以得出识别率为82%。
表1
综上所述,本发明的方法以麦克风阵列鼾声采集系统获取的实测数据为基础,采用卷积神经网络进行识别分类,对鼾声片段的时频谱图进行自主训练和识别。通过本发明的方法可以得到较好的识别效果,因此可以用于针对药物诱导睡眠下鼾声数据来源的识别。
Claims (1)
1.一种有监督的鼾声来源识别方法,其特征在于,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图,具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧、预加重、加窗处理,所述短时分帧的帧长32ms,帧移16ms;
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号;
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理;
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出m(l)公式如下:
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数;
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本;
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别,具体如下:
步骤3-1、设置网络结构、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数;
步骤3-2、进行网络初始化,包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;以一个均值为0,标准差为的正态分布初始化深度神经网络的权重,其中Nl为与权重连接的输出节点个数,偏置初始化为0;
步骤3-3、对不同来源的鼾声样本进行统计,将鼾声样本分为训练集和测试集;训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布;依据每批数据的预测误差进行一次权值更新;
步骤3-4、将样本送入卷积神经网络,经过多次卷积-池化操作最后由全连接层输出预测值,这一过程称为前向过程;第l层卷积层的输出表示为:
卷积操作之后,经过激活函数处理引入非线性,来逼近任意函数,激活函数采用sigmoid函数,公式如下:
f′(x)=f(x)·[1-f(x)]
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合,采用平均池化,公式如下:
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机,卷积神经网络输出层的预测y=[y1,y2,...,ym]表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数;
步骤3-5、反向传播更新网络参数:采用批量梯度下降法来求取卷积神经网络参数,对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数J(W,b;x,y)表示为:
梯度下降算法中每一次迭代都按照如下公式进行:
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置;
误差传播的公式和偏导数计算公式如下:
δ(l)=((W(l+1))Tδ(l+1))·f′(z(l)),z=x*W+b
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710240722.8A CN106821337B (zh) | 2017-04-13 | 2017-04-13 | 一种有监督的鼾声来源识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710240722.8A CN106821337B (zh) | 2017-04-13 | 2017-04-13 | 一种有监督的鼾声来源识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106821337A CN106821337A (zh) | 2017-06-13 |
CN106821337B true CN106821337B (zh) | 2020-01-03 |
Family
ID=59147010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710240722.8A Active CN106821337B (zh) | 2017-04-13 | 2017-04-13 | 一种有监督的鼾声来源识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106821337B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393526B (zh) * | 2017-07-19 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN108157219A (zh) * | 2017-12-22 | 2018-06-15 | 深圳市航天华拓科技有限公司 | 一种基于卷积神经网络的宠物止吠装置与方法 |
CN108209870A (zh) * | 2017-12-25 | 2018-06-29 | 河海大学常州校区 | 基于卷积神经网络的长程脑电图自动癫痫检测方法 |
WO2019127088A1 (zh) * | 2017-12-27 | 2019-07-04 | 深圳和而泰数据资源与云技术有限公司 | 一种鼾声识别方法及止鼾装置 |
CN108269566B (zh) * | 2018-01-17 | 2020-08-25 | 南京理工大学 | 一种基于多尺度子带能量集特征的膛口波识别方法 |
CN108670200B (zh) * | 2018-05-30 | 2021-06-08 | 华南理工大学 | 一种基于深度学习的睡眠鼾声分类检测方法及系统 |
CN109192226A (zh) * | 2018-06-26 | 2019-01-11 | 深圳大学 | 一种信号处理方法及装置 |
CN110415835B (zh) * | 2018-09-26 | 2021-04-23 | 中车工业研究院有限公司 | 一种机械设备的剩余寿命预测方法及装置 |
CN109645989B (zh) * | 2018-12-10 | 2021-01-08 | 燕山大学 | 一种麻醉深度估计系统 |
CN109645957B (zh) * | 2018-12-21 | 2021-06-08 | 南京理工大学 | 一种鼾声来源分类方法 |
CN109739112B (zh) * | 2018-12-29 | 2022-03-04 | 张卫校 | 一种摇摆物体控制方法与摇摆物体 |
CN109767784B (zh) * | 2019-01-31 | 2020-02-07 | 龙马智芯(珠海横琴)科技有限公司 | 鼾声识别的方法及装置、存储介质和处理器 |
CN109979441A (zh) * | 2019-04-03 | 2019-07-05 | 中国计量大学 | 一种基于深度学习的鸟类识别方法 |
CN111044285A (zh) * | 2019-11-22 | 2020-04-21 | 军事科学院系统工程研究院军用标准研究中心 | 一种复杂情况下机械设备故障诊断方法 |
CN111312293A (zh) * | 2020-02-17 | 2020-06-19 | 杭州电子科技大学 | 一种基于深度学习对呼吸暂停症患者的识别方法及系统 |
CN111613210A (zh) * | 2020-07-06 | 2020-09-01 | 杭州电子科技大学 | 一种各类呼吸暂停综合征的分类检测系统 |
CN113514544A (zh) * | 2020-12-29 | 2021-10-19 | 大连理工大学 | 一种基于声音特征的移动机器人路面材质识别方法 |
CN112766119A (zh) * | 2021-01-11 | 2021-05-07 | 厦门兆慧网络科技有限公司 | 一种基于多维度人脸分析精准识别陌生人构建社区安防的方法 |
CN113421574B (zh) * | 2021-06-18 | 2024-05-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法、音频识别方法及相关设备 |
CN113749622A (zh) * | 2021-09-30 | 2021-12-07 | 杭州电子科技大学 | 基于图卷积神经网络的低通气和呼吸暂停自动识别系统 |
CN114176563B (zh) * | 2021-12-13 | 2023-11-21 | 中南大学湘雅医院 | 贴附式的无线呼吸监测装置、计算机设备与存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063265A (ko) * | 2000-06-10 | 2000-11-06 | 김성석 | 신경회로망을 이용한 음향식별에 기반한 코골이 음향식별방법 |
CN105792732A (zh) * | 2013-11-22 | 2016-07-20 | 皇家飞利浦有限公司 | 呼吸暂停安全控制 |
-
2017
- 2017-04-13 CN CN201710240722.8A patent/CN106821337B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063265A (ko) * | 2000-06-10 | 2000-11-06 | 김성석 | 신경회로망을 이용한 음향식별에 기반한 코골이 음향식별방법 |
CN105792732A (zh) * | 2013-11-22 | 2016-07-20 | 皇家飞利浦有限公司 | 呼吸暂停安全控制 |
Non-Patent Citations (7)
Title |
---|
Automatic detection, segmentation and classification of snore related signals from overnight audio recording;K.Qian et.al;《IET Signal Processing》;20131231;全文 * |
Classification of Non-Speech Human Sounds;Wen Hung Liao;《IEEE International Conference on Systems》;20161231;摘要,第814页 * |
Classifying Heart Sound Recordings using Deep Convolutional Neural Networks and Mel-Frequency Cepstral Coefficients;Jonathan Rubin,et.al;《Computing in Cardiology》;20161231(第43期);全文 * |
Sleep snoring detection using multi-layer neural networks;Tan L N et.al;《Bio_Medical Materials and Engineering》;20151231(第26期);摘要,第1752页 * |
传声器阵列自适应鼾声增强处理;王佳珺等;《电声技术》;20161231(第40期);全文 * |
单纯鼾症患者鼾声来源特点的初步研究;徐辉杰等;《临床耳鼻咽喉头颈外科杂志》;20151231;第29卷(第11期);全文 * |
基于神经网络的家用型睡眠呼吸暂停综合症监测系统;孟泽民,林生生;《计算机系统应用》;20141231;第23卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106821337A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106821337B (zh) | 一种有监督的鼾声来源识别方法 | |
Acharya et al. | Deep neural network for respiratory sound classification in wearable devices enabled by patient specific model tuning | |
Ma et al. | Lungbrn: A smart digital stethoscope for detecting respiratory disease using bi-resnet deep learning algorithm | |
Messner et al. | Multi-channel lung sound classification with convolutional recurrent neural networks | |
Rubin et al. | Classifying heart sound recordings using deep convolutional neural networks and mel-frequency cepstral coefficients | |
JP2023164839A (ja) | 呼吸器疾患を診断するために疾患シグネチャを使用して咳音を分析するための方法 | |
CN109285551B (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
CN107910020A (zh) | 鼾声检测方法、装置、设备及存储介质 | |
Tiwari et al. | Phonocardiogram signal based multi-class cardiac diagnostic decision support system | |
CN110755108A (zh) | 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质 | |
Milani et al. | Abnormal heart sound classification using phonocardiography signals | |
Cheng et al. | Automated sleep apnea detection in snoring signal using long short-term memory neural networks | |
CN112472048A (zh) | 用于心血管疾病患者脉象识别的神经网络结构 | |
Yang et al. | Detection and classification of damaged wheat kernels based on progressive neural architecture search | |
Turan et al. | Detection of food intake events from throat microphone recordings using convolutional neural networks | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
Neto et al. | Convolution-vision transformer for automatic lung sound classification | |
CN116687410B (zh) | 一种慢性病患者的述情障碍评估方法和系统 | |
Nehary et al. | A deep convolutional neural network classification of heart sounds using fractional fourier transform | |
Huang et al. | Classification of cough sounds using spectrogram methods and a parallel-stream one-dimensional deep convolutional neural network | |
Do et al. | Classification of respiratory conditions using auscultation sound | |
Fakhry et al. | Comparison of window shapes and lengths in short-time feature extraction for classification of heart sound signals | |
Satyasai et al. | A gammatonegram based abnormality detection in PCG signals using CNN | |
Patel et al. | Different Transfer Learning Approaches for Recognition of Lung Sounds | |
Neili et al. | Gammatonegram based pulmonary pathologies classification using convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |