CN106821337B - 一种有监督的鼾声来源识别方法 - Google Patents

一种有监督的鼾声来源识别方法 Download PDF

Info

Publication number
CN106821337B
CN106821337B CN201710240722.8A CN201710240722A CN106821337B CN 106821337 B CN106821337 B CN 106821337B CN 201710240722 A CN201710240722 A CN 201710240722A CN 106821337 B CN106821337 B CN 106821337B
Authority
CN
China
Prior art keywords
layer
snore
representing
pooling
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710240722.8A
Other languages
English (en)
Other versions
CN106821337A (zh
Inventor
贺冲
李阳
许志勇
田巳睿
赵兆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201710240722.8A priority Critical patent/CN106821337B/zh
Publication of CN106821337A publication Critical patent/CN106821337A/zh
Application granted granted Critical
Publication of CN106821337B publication Critical patent/CN106821337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4806Sleep evaluation
    • A61B5/4818Sleep apnoea
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Fuzzy Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种有监督的鼾声来源识别方法。该方法包括数据的预处理、训练和识别,具体步骤为:首先,对鼾声实测数据进行Mel频率变换,得到数据样本;其次,设置卷积神经网络的结构、卷积层输出特征图数量和卷积核大小、池化尺寸、权矢量更新学习率、批训练样本数目、训练迭代次数;再次,将训练集的鼾声时频谱图作为卷积神经网络输入,根据设置好的网络结构进行网络初始化,经过前向过程、方向误差传播、更新权值和偏置,直到达到指定的迭代次数,完成训练过程;最后,将测试集送入训练好的网络模型,得到识别结果。本发明可以有效地识别出鼾声来源,识别结果准确,性能优良。

Description

一种有监督的鼾声来源识别方法
技术领域
本发明属于非语音识别技术领域,特别是一种有监督的鼾声来源识别方法。
背景技术
阻塞性睡眠呼吸暂停/低通气综合征是一种睡眠呼吸疾病,与上气道阻塞、气道结构性狭窄以及上气道肌张力降低密切相关。在美国仅阻塞性睡眠呼吸暂停综合征就有约1500万成年患者,并且该病常见于高血压和其他心血管疾病(包括冠心病、中风和心房颤动)患者。全球范围内阻塞性睡眠呼吸暂停/低通气综合征的发病率较高,男性发病率大于女性(成年男性患病率为3%~7%,成年女性为2%~5%)。阻塞性睡眠呼吸暂停/低通气综合征常伴有打鼾、睡眠结构紊乱、频繁发生血氧饱和度下降、白天嗜睡等病征,可以是高血压、冠心病的独立危险因素。目前主要利用多导睡眠图诊断鼾症,但是其价格昂贵,并且对病人来说也是一种侵入式的不适。由于声学研究具有非接触式、非侵入式、低成本的优点,引起了越来越多的关注和研究。
早期的声学研究包括连续声压级测量和时频域波形的观察。最近,出现了在机器学习方法上的探索。针对鼾声检测,Tan L N等人提出了一种相关滤波器多层感知神经网络,采用频域上的相关滤波器充当第一层隐层,其他隐层则是常规的多层感知机,相较于常规的多层神经网络在测试集82%的平均检测率,该方法取得了96%的平均检测率。但是,多层神经网络结构复杂,需要训练的参数过多,学习特征效率较低。
发明内容
本发明的目的在于提供一种训练参数少、学习特征效率高的有监督的鼾声来源识别方法。
实现本发明目的的技术解决方案为:一种有监督的鼾声来源识别方法,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图;
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别。
本发明与现有技术相比,其显著优点为:(1)仅依赖于输入数据样本和误差反向传播算法,使得前几层网络调整为适用于识别的网络模型;(2)局部感知和权值共享、卷积层与池化层交替出现,使得其具有更少的权值参数;(3)识别结果准确,性能优良。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是Mel频率计算总体流程图。
图2是实测数据的时域、频域图,其中(a)为实测数据的时域图,(b)为实测数据的频域图。
图3是鼾声数据的样本示意图。
图4是面向鼾声识别的卷积神经网络训练整体流程图。
图5是卷积神经网络的结构框图。
图6是二维卷积操作示意图。
图7是池化示意图。
具体实施方式
本发明提供一种以Mel频率为特征,基于卷积神经网络的鼾声来源识别方法,其主要内容包括:
(一)将基于Mel频率变换的时频谱图输入到卷积神经网络,进行训练;
(二)将测试样本送入已经训练好的网络模型,进行识别。
结合图1,本发明有监督的鼾声来源识别方法,其特征在于,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图,具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧、预加重、加窗处理,所述短时分帧的帧长32ms,帧移16ms;
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
Figure BDA0001269317600000021
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号;
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理;
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出公式如下:
Figure BDA0001269317600000032
Figure BDA0001269317600000033
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数;
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本。
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别,具体如下:
步骤3-1、设置网络结构、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数;
步骤3-2、进行网络初始化,包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;以一个均值为0,标准差为
Figure BDA0001269317600000034
的正态分布初始化深度神经网络的权重,其中Nl为与权重连接的输出节点个数,偏置初始化为0;
步骤3-3、对不同来源的鼾声样本进行统计,将鼾声样本分为训练集和测试集;训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布;依据每批数据的预测误差进行一次权值更新;
步骤3-4、将样本送入卷积神经网络,经过多次卷积-池化操作最后由全连接层输出预测值,这一过程称为前向过程;第l层卷积层的输出
Figure BDA0001269317600000035
表示为:
Figure BDA0001269317600000036
其中,表示第l层的第j幅输出特征图,Mj表示第(l-1)层与
Figure BDA0001269317600000042
连接的特征图数量,*表示卷积操作,
Figure BDA0001269317600000043
表示连接
Figure BDA0001269317600000044
的卷积核,
Figure BDA0001269317600000045
表示特征图
Figure BDA0001269317600000046
的偏置,f(·)表示激活函数;
卷积操作之后,经过激活函数处理引入非线性,来逼近任意函数,激活函数采用sigmoid函数,公式如下:
Figure BDA0001269317600000047
f′(x)=f(x)·[1-f(x)]
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合,采用平均池化,公式如下:
Figure BDA0001269317600000048
其中,M为池化尺寸,
Figure BDA0001269317600000049
表示l层i,j位置的值,
Figure BDA00012693176000000410
表示l-1层ik,jk位置的值;
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机,卷积神经网络输出层的预测y=[y1,y2,...,ym]表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数;
步骤3-5、反向传播更新网络参数:采用批量梯度下降法来求取卷积神经网络参数,对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数J(W,b;x,y)表示为:
Figure BDA00012693176000000411
梯度下降算法中每一次迭代都按照如下公式进行:
Figure BDA00012693176000000412
Figure BDA0001269317600000051
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置;
误差传播的公式和偏导数计算公式如下:
Figure BDA0001269317600000052
其中,δ(l)表示第l层的传播误差,
Figure BDA0001269317600000053
表示l+1层第i个节点的传播误差,f为sigmoid函数,W表示权矢量,b表示偏置,J为方差代价函数,ai l表示第l层第i个节点输出。
实施例1
本实施例有监督的鼾声来源识别方法,步骤如下:
步骤1、经过人耳听觉判断和图2所示的时频谱图观察确认之后,对实测数据进行标记,其中,图2(a)为实测数据的时域图,图2(b)为实测数据的频域图。将纯鼾声片段的起始、终止位置统计在EXCEL表格中。
步骤2、以EXCEL表格中记录的鼾声起始点为标准,分帧进行Mel频率变换,并对频谱幅值做归一化处理,形成一个数据样本,如图3所示。
结合图1,对鼾声信号进行分帧、以及Mel频率变换处理具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧(帧长32ms,帧移16ms)、预加重、加窗等处理。
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号。
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理。公式如下:
X(k)=|Y(k)|2
Figure BDA0001269317600000061
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出公式如下:
Figure BDA0001269317600000062
Figure BDA0001269317600000063
Figure BDA0001269317600000064
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数。
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本。
步骤3、将获得的数据样本,分为训练集和测试集。分别送入卷积神经网络进行训练和识别。结合图4,具体步骤如下:
步骤3-1、设置网络结构(卷积层和池化层的数目以及连接方式)、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数(即训练次数);
步骤3-2、进行网络初始化,主要包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;
以一个均值为0,标准差为
Figure BDA0001269317600000065
的正态分布初始化深度神经网络的权重,其中Nl为与权重连接的输出节点个数,偏置初始化为0。
对于卷积神经网络,需要考虑输入特征图的数量和局部感知域(即卷积核)的尺寸大小。设fan_in为卷积层输入的的所有连接数,fan_out为一个输入特征图对应的所有卷积核权值的总数,对应卷积核初始化为一个标准差为sqrt(6/(fan_in+fan_out))的正态分布随机量。
步骤3-3、对不同来源的鼾声样本进行统计,为了避免由训练样本分布不均引起的预测误差,每一类鼾声来源数据的训练样本数量均设置为TR,余下的样本不参与训练,作为测试样本TE。将每个样本的标签设为t=[t1,t2,...,t4,tn]T,其中,n表示鼾声来源数据的总类别,tk=1表示此样本属于第k类,标签的其他元素均为0。训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布。依据每批数据的预测误差进行一次权值更新。迭代次数是指全部数据训练的次数;
步骤3-4、将样本送入卷积神经网络,经过多次卷积-池化操作最后由全连接层输出预测值。这一过程称为前向过程。卷积层的每一个输出特征图都是上一层多个特征图卷积操作的结合。结合图5,第二层卷积层与上一层池化层的每一个特征图都有相互连接,即如果池化层的输出特征图数量为Nin,卷积层的输出特征图数量为Nout,则连接这两层的卷积核共有Nin·Nout个。用
Figure BDA0001269317600000071
表示第l层的第j幅输出特征图,Mj表示第(l-1)层与
Figure BDA0001269317600000072
连接的特征图数量,“*”表示卷积操作,
Figure BDA0001269317600000073
表示连接
Figure BDA0001269317600000074
的卷积核,
Figure BDA0001269317600000075
表示特征图
Figure BDA0001269317600000076
的偏置,f`(·)表示激活函数,则第l层卷积层的输出
Figure BDA0001269317600000077
可表示为:
Figure BDA0001269317600000078
图像的卷积操作与时域信号处理常见的卷积操作略有区别,它实际上是一种对应位置元素乘加的操作。结合图6,进行说明:左图为输入特征图,中间为卷积核,右图为卷积结果。
卷积操作之后,经过激活函数处理,其作用是引入非线性,来逼近任意函数。最常见的激活函数是sigmoid函数,公式如下:
Figure BDA0001269317600000079
f′(x)=f(x)·[1-f(x)]
sigmoid函数具有两个优点:①输出范围有限,在0到1之间,所以数据在传递过程中不容易发散;并且可以用于输出层;②求导容易,误差反向传播算法中涉及到激活函数求导。而缺点是:饱和时梯度太小。
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,主要目的是混淆特征的具体位置。池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合。常见的池化方式有平均池化、最大池化两种,其公式如下:
Figure BDA0001269317600000081
Figure BDA0001269317600000082
其中,M为池化尺寸,表示l层i,j位置的值,表示l-1层ik,jk位置的值。
本发明采用平均池化,结合图7说明,左图为输入特征图,右图为池化结果。
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机。将上一层的特征图原始结合在一起作为一个特征向量fv传入单层感知机,经过逻辑回归函数(sigmoid函数)输出预测类别的结果。特别说明,本文的单层感知机采用逻辑回归。用fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,则卷积神经网络输出层的预测y=[y1,y2,...,ym]可表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数。
步骤3-5、反向传播更新网络参数。采用批量梯度下降法来求取卷积神经网络参数。对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数可表示为:
Figure BDA0001269317600000085
梯度下降算法中每一次迭代都按照如下公式进行:
Figure BDA0001269317600000086
Figure BDA0001269317600000087
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置。
梯度更新算法的关键步骤是计算偏导数。反向传播算法是偏导数的有效计算方法。误差传播的公式和偏导数计算公式如下:
Figure BDA0001269317600000091
其中,δ(l)表示第l层的传播误差,
Figure BDA0001269317600000092
表示l+1层第i个节点的传播误差,f为sigmoid函数,W表示权矢量,b表示偏置,J为方差代价函数,
Figure BDA0001269317600000093
表示第l层第i个节点输出。
步骤4、测试集包含4类鼾声来源数据,单纯打鼾类有876个样本,软腭为主类有588个样本,侧壁为主类有360个样本,软腭侧壁共振类有388个样本。将测试集送入已经训练好的网络模型中,进行识别。通过单层感知机输出识别结果,识别结果见表1。根据表中数据可以得出识别率为82%。
表1
综上所述,本发明的方法以麦克风阵列鼾声采集系统获取的实测数据为基础,采用卷积神经网络进行识别分类,对鼾声片段的时频谱图进行自主训练和识别。通过本发明的方法可以得到较好的识别效果,因此可以用于针对药物诱导睡眠下鼾声数据来源的识别。

Claims (1)

1.一种有监督的鼾声来源识别方法,其特征在于,步骤如下:
步骤1、利用麦克风阵列鼾声采集系统获取实测数据,并对实测数据进行鼾声片段的标记;
步骤2、对步骤1中得到的实测数据进行特征提取,得到基于Mel频率变换的时频谱图,具体如下:
步骤2-1、以记录的鼾声起始点为标准,统一选取此后时长为1秒的数据,进行短时分帧、预加重、加窗处理,所述短时分帧的帧长32ms,帧移16ms;
步骤2-2、对每一帧进行N点快速傅里叶变换变换,求频谱,公式如下:
Figure FDA0002234880210000011
其中,j为虚数单位,0≤k≤N-1,y[n]是输入的鼾声音频信号;
步骤2-3、求得频谱之后,对频谱取模求平方得到幅度谱,对幅值做最大值归一化处理;
步骤2-4、对幅度谱加Mel滤波器组,Mel频率与实际频率的具体关系和Mel频率输出m(l)公式如下:
Figure FDA0002234880210000013
其中,f为实际频率,l=1,2,…,L,L是Mel滤波器组的阶数,o(l)是第l阶Mel滤波器的起始点频率,c(l)是第l阶Mel滤波器的中间点频率,h(l)是第l阶Mel滤波器的终点频率,Wl(k)是第l阶Mel滤波器的函数;
步骤2-5、对所有的滤波器输出做对数运算,得到一个数据样本;
步骤3、将步骤2中提取的特征作为卷积神经网络的输入,进行训练和识别,具体如下:
步骤3-1、设置网络结构、卷积层的输出特征图数量和卷积核大小、池化尺寸、权矢量更新的学习率、批训练样本的数目、迭代次数;
步骤3-2、进行网络初始化,包括初始化卷积层的卷积核权重和偏置,尾部单层感知机的权矢量和偏置;以一个均值为0,标准差为
Figure FDA0002234880210000021
的正态分布初始化深度神经网络的权重,其中Nl为与权重连接的输出节点个数,偏置初始化为0;
步骤3-3、对不同来源的鼾声样本进行统计,将鼾声样本分为训练集和测试集;训练时,采取批处理的方式,每批训练样本中各类别也为均匀分布;依据每批数据的预测误差进行一次权值更新;
步骤3-4、将样本送入卷积神经网络,经过多次卷积-池化操作最后由全连接层输出预测值,这一过程称为前向过程;第l层卷积层的输出表示为:
Figure FDA0002234880210000023
其中,
Figure FDA0002234880210000024
表示第l层的第j幅输出特征图,Mj表示第(l-1)层与连接的特征图数量,*表示卷积操作,表示连接
Figure FDA0002234880210000027
Figure FDA0002234880210000028
的卷积核,
Figure FDA0002234880210000029
表示特征图
Figure FDA00022348802100000210
的偏置,f(·)表示激活函数;
卷积操作之后,经过激活函数处理引入非线性,来逼近任意函数,激活函数采用sigmoid函数,公式如下:
Figure FDA00022348802100000211
f′(x)=f(x)·[1-f(x)]
经过sigmoid函数后进行池化操作,池化层对上一层特征图的相邻小区域进行聚合统计,池化操作时方块不重叠,且池化层中每幅输出特征图都只是上一层的单个输入特征图的池化结果而不涉及多个特征图的结合,采用平均池化,公式如下:
Figure FDA00022348802100000212
其中,M为池化尺寸,
Figure FDA00022348802100000213
表示l层i,j位置的值,
Figure FDA00022348802100000214
表示l-1层ik,jk位置的值;
经过卷积-池化-卷积-池化操作之后,采用全连接的单层感知机,卷积神经网络输出层的预测y=[y1,y2,...,ym]表示为:
y=f(fv·fw+fb)
其中,fv表示特征向量,fw表示单层感知机的权向量矩阵,fb表示单层感知机的偏置,f表示sigmoid函数;
步骤3-5、反向传播更新网络参数:采用批量梯度下降法来求取卷积神经网络参数,对于m类多分类问题,将输入样本记为{(x1,y1),(x2,y2),…,(xM,yM)},批处理时二分之一方差代价函数J(W,b;x,y)表示为:
Figure FDA0002234880210000031
梯度下降算法中每一次迭代都按照如下公式进行:
Figure FDA0002234880210000032
Figure FDA0002234880210000033
其中M表示批处理的样本数目,opj表示网络中第j个神经元的预测输出,ypj表示第j个神经元的标签,α是学习速率,W表示权矢量,b表示偏置;
误差传播的公式和偏导数计算公式如下:
δ(l)=((W(l+1))Tδ(l+1))·f′(z(l)),z=x*W+b
其中,δ(l)表示第l层的传播误差,
Figure FDA0002234880210000036
表示l+1层第i个节点的传播误差,f为sigmoid函数,W表示权矢量,b表示偏置,J为方差代价函数,表示第l层第i个节点输出。
CN201710240722.8A 2017-04-13 2017-04-13 一种有监督的鼾声来源识别方法 Active CN106821337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710240722.8A CN106821337B (zh) 2017-04-13 2017-04-13 一种有监督的鼾声来源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710240722.8A CN106821337B (zh) 2017-04-13 2017-04-13 一种有监督的鼾声来源识别方法

Publications (2)

Publication Number Publication Date
CN106821337A CN106821337A (zh) 2017-06-13
CN106821337B true CN106821337B (zh) 2020-01-03

Family

ID=59147010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710240722.8A Active CN106821337B (zh) 2017-04-13 2017-04-13 一种有监督的鼾声来源识别方法

Country Status (1)

Country Link
CN (1) CN106821337B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393526B (zh) * 2017-07-19 2024-01-02 腾讯科技(深圳)有限公司 语音静音检测方法、装置、计算机设备和存储介质
CN108157219A (zh) * 2017-12-22 2018-06-15 深圳市航天华拓科技有限公司 一种基于卷积神经网络的宠物止吠装置与方法
CN108209870A (zh) * 2017-12-25 2018-06-29 河海大学常州校区 基于卷积神经网络的长程脑电图自动癫痫检测方法
WO2019127088A1 (zh) * 2017-12-27 2019-07-04 深圳和而泰数据资源与云技术有限公司 一种鼾声识别方法及止鼾装置
CN108269566B (zh) * 2018-01-17 2020-08-25 南京理工大学 一种基于多尺度子带能量集特征的膛口波识别方法
CN108670200B (zh) * 2018-05-30 2021-06-08 华南理工大学 一种基于深度学习的睡眠鼾声分类检测方法及系统
CN109192226A (zh) * 2018-06-26 2019-01-11 深圳大学 一种信号处理方法及装置
CN110415835B (zh) * 2018-09-26 2021-04-23 中车工业研究院有限公司 一种机械设备的剩余寿命预测方法及装置
CN109645989B (zh) * 2018-12-10 2021-01-08 燕山大学 一种麻醉深度估计系统
CN109645957B (zh) * 2018-12-21 2021-06-08 南京理工大学 一种鼾声来源分类方法
CN109739112B (zh) * 2018-12-29 2022-03-04 张卫校 一种摇摆物体控制方法与摇摆物体
CN109767784B (zh) * 2019-01-31 2020-02-07 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质和处理器
CN109979441A (zh) * 2019-04-03 2019-07-05 中国计量大学 一种基于深度学习的鸟类识别方法
CN111044285A (zh) * 2019-11-22 2020-04-21 军事科学院系统工程研究院军用标准研究中心 一种复杂情况下机械设备故障诊断方法
CN111312293A (zh) * 2020-02-17 2020-06-19 杭州电子科技大学 一种基于深度学习对呼吸暂停症患者的识别方法及系统
CN111613210A (zh) * 2020-07-06 2020-09-01 杭州电子科技大学 一种各类呼吸暂停综合征的分类检测系统
CN113514544A (zh) * 2020-12-29 2021-10-19 大连理工大学 一种基于声音特征的移动机器人路面材质识别方法
CN112766119A (zh) * 2021-01-11 2021-05-07 厦门兆慧网络科技有限公司 一种基于多维度人脸分析精准识别陌生人构建社区安防的方法
CN113421574B (zh) * 2021-06-18 2024-05-24 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法、音频识别方法及相关设备
CN113749622A (zh) * 2021-09-30 2021-12-07 杭州电子科技大学 基于图卷积神经网络的低通气和呼吸暂停自动识别系统
CN114176563B (zh) * 2021-12-13 2023-11-21 中南大学湘雅医院 贴附式的无线呼吸监测装置、计算机设备与存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063265A (ko) * 2000-06-10 2000-11-06 김성석 신경회로망을 이용한 음향식별에 기반한 코골이 음향식별방법
CN105792732A (zh) * 2013-11-22 2016-07-20 皇家飞利浦有限公司 呼吸暂停安全控制

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063265A (ko) * 2000-06-10 2000-11-06 김성석 신경회로망을 이용한 음향식별에 기반한 코골이 음향식별방법
CN105792732A (zh) * 2013-11-22 2016-07-20 皇家飞利浦有限公司 呼吸暂停安全控制

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Automatic detection, segmentation and classification of snore related signals from overnight audio recording;K.Qian et.al;《IET Signal Processing》;20131231;全文 *
Classification of Non-Speech Human Sounds;Wen Hung Liao;《IEEE International Conference on Systems》;20161231;摘要,第814页 *
Classifying Heart Sound Recordings using Deep Convolutional Neural Networks and Mel-Frequency Cepstral Coefficients;Jonathan Rubin,et.al;《Computing in Cardiology》;20161231(第43期);全文 *
Sleep snoring detection using multi-layer neural networks;Tan L N et.al;《Bio_Medical Materials and Engineering》;20151231(第26期);摘要,第1752页 *
传声器阵列自适应鼾声增强处理;王佳珺等;《电声技术》;20161231(第40期);全文 *
单纯鼾症患者鼾声来源特点的初步研究;徐辉杰等;《临床耳鼻咽喉头颈外科杂志》;20151231;第29卷(第11期);全文 *
基于神经网络的家用型睡眠呼吸暂停综合症监测系统;孟泽民,林生生;《计算机系统应用》;20141231;第23卷(第3期);全文 *

Also Published As

Publication number Publication date
CN106821337A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106821337B (zh) 一种有监督的鼾声来源识别方法
Acharya et al. Deep neural network for respiratory sound classification in wearable devices enabled by patient specific model tuning
Ma et al. Lungbrn: A smart digital stethoscope for detecting respiratory disease using bi-resnet deep learning algorithm
Messner et al. Multi-channel lung sound classification with convolutional recurrent neural networks
Rubin et al. Classifying heart sound recordings using deep convolutional neural networks and mel-frequency cepstral coefficients
JP2023164839A (ja) 呼吸器疾患を診断するために疾患シグネチャを使用して咳音を分析するための方法
CN109285551B (zh) 基于wmfcc和dnn的帕金森患者声纹识别方法
CN107910020A (zh) 鼾声检测方法、装置、设备及存储介质
Tiwari et al. Phonocardiogram signal based multi-class cardiac diagnostic decision support system
CN110755108A (zh) 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质
Milani et al. Abnormal heart sound classification using phonocardiography signals
Cheng et al. Automated sleep apnea detection in snoring signal using long short-term memory neural networks
CN112472048A (zh) 用于心血管疾病患者脉象识别的神经网络结构
Yang et al. Detection and classification of damaged wheat kernels based on progressive neural architecture search
Turan et al. Detection of food intake events from throat microphone recordings using convolutional neural networks
CN113674767A (zh) 一种基于多模态融合的抑郁状态识别方法
Neto et al. Convolution-vision transformer for automatic lung sound classification
CN116687410B (zh) 一种慢性病患者的述情障碍评估方法和系统
Nehary et al. A deep convolutional neural network classification of heart sounds using fractional fourier transform
Huang et al. Classification of cough sounds using spectrogram methods and a parallel-stream one-dimensional deep convolutional neural network
Do et al. Classification of respiratory conditions using auscultation sound
Fakhry et al. Comparison of window shapes and lengths in short-time feature extraction for classification of heart sound signals
Satyasai et al. A gammatonegram based abnormality detection in PCG signals using CNN
Patel et al. Different Transfer Learning Approaches for Recognition of Lung Sounds
Neili et al. Gammatonegram based pulmonary pathologies classification using convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant