CN111938650A

CN111938650A - 监测睡眠时呼吸暂停的方法及装置

Info

Publication number: CN111938650A
Application number: CN202010631934.0A
Authority: CN
Inventors: 周霆; 李庆; 阮宏洋; 郭祖琎
Original assignee: Shanghai Nasalcleaner Bio Technology Co ltd
Current assignee: Shanghai Nasalcleaner Bio Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-11-17

Abstract

本申请公开了一种监测睡眠时呼吸暂停的方法及装置。该方法包括：构建卷积神经网络；训练卷积神经网络，得到第一神经网络；采集待识别的音频数据；利用第一神经网络对待识别的音频数据进行处理，得到打鼾声音段和非打鼾声音段；从打鼾声音段中提取出非打鼾片段；初始化第一神经网络并进行重新训练，得到第二神经网络；利用第二神经网络处理所述非打鼾片段，得到呼吸暂停数据。本申请的方法通过卷积神经网络识别打鼾声音段，从打鼾声音段中提取出时间较短的非打鼾片段，然后再次通过卷积神经网络处理非打鼾片段得到呼吸暂停数据，可以避免遗漏时间较短的非打鼾片段，避免遗漏打鼾声音段中的呼吸暂停数据，提高了呼吸暂停数据的检测准确率。

Description

监测睡眠时呼吸暂停的方法及装置

技术领域

本申请涉及医疗监测技术领域，具体涉及一种监测睡眠时呼吸暂停的方法及装置。

背景技术

社会的发展、生活水平的提高，尤其是饮食方面的极大改善，导致了现代人的肥胖比例过高，肥胖的人容易患上睡眠暂停综合症，此类疾病表现为睡眠打鼾、白天嗜睡、打鼾期间呼吸暂停等。若不治疗，时间久了会引起许多并发症，例如高血压、冠心病、心率失常、脑血管病以及智力降低等。

目前判断是否患有呼吸暂停综合症有几种主流的方法，一是需要患者在医院的睡眠监测室连续监测一晚上，也就是监测7小时的睡眠情况，通过监测结果就可以诊断患者有没有阻塞性睡眠呼吸暂停综合征；二是带上专业的医疗面罩来进行监测，其主要监测的夜间睡眠的呼吸气流；三是用血氧仪监测夜间睡眠时的血氧变化。以上几种方法都需要患者在睡觉时带上专业的仪器，导致监测缺乏便利性。

申请号201910471804.2的专利申请中，该方法采用多个麦克风组成一个阵列，多角度采集声音信息；根据采集到的多角度声音提取出目标人物的声音；计算出目标声音的功率谱(每一帧能量)；得到呼吸暂停的能量阈值，根据阈值进行判断。该方法可以通过设定能量阈值来确定是否是呼吸暂停，但是声音采集设备需要多个麦克风，且采用单一的功率谱密度特征来计算呼吸暂停阈值，效率低。由于多麦克风阵列需要按照一定规律摆放，不能随意摆放，不可移动；单一的标准导致精度和可靠性不高；由于呼吸暂停只存在于鼾声时间段中，因此对正常呼吸时间段进行计算是没有必要的，大大降低了计算的效率。

申请号201280029233.3的专利申请中，在佩戴呼吸面罩里面安装麦克风，采集呼吸的声音；根据声音的振幅图标记出疑似呼吸暂停片段，标记方法为振幅上升段和下降段之间的片段；设置了多个呼吸暂停阈值来判断是否发生呼吸暂停，多个呼吸不足阈值来判断是否发生呼吸暂停，通过声音振幅来确定大致的呼吸暂停时间段。但是在实际应用中，佩戴呼吸面罩会引起睡眠不适，且不方便携带；仅根据声音的振幅来判断是否发生呼吸暂停是不准确的，使用单一特征来判断太过片面；其阈值的设定缺乏合理性，由于不同人的正常呼吸和呼吸暂停的振幅阈值是不同的，因此判断结果不准确。

发明内容

本申请的目的是提供一种监测睡眠时呼吸暂停的方法及装置。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种监测睡眠时呼吸暂停的方法，包括：

构建卷积神经网络；

训练所述卷积神经网络，得到第一训练完成的卷积神经网络；

采集待识别的音频数据；

利用所述第一训练完成的卷积神经网络对所述待识别的音频数据进行处理，得到打鼾声音段和非打鼾声音段；

从所述打鼾声音段中提取出非打鼾片段；

初始化所述第一训练完成的卷积神经网络并进行重新训练，得到第二训练完成的卷积神经网络；

利用所述第二训练完成的卷积神经网络处理所述非打鼾片段，得到呼吸暂停数据。

进一步地，在所述利用所述第一训练完成的卷积神经网络对所述待识别的音频数据进行处理之前，所述方法还包括：

将所述待识别的音频数据转化成离散时间序列，并对所述离散时间序列进行重采样；

对重采样后的离散时间序列进行去除噪音数据的处理。

进一步地，所述对重采样后的离散时间序列进行去除噪音数据的处理，包括：

利用统计模型去除各种非人声的背景声音；

利用多通道卡尔曼滤波法去除经过反射和散射后多次被采集到的声音；

使用盲源分离技术去除目标人物之外的人的声音。

进一步地，所述从所述打鼾声音段中提取出非打鼾片段，包括：运用高斯混合模型从所述打鼾声音段中提取出非打鼾片段。

进一步地，所述运用高斯混合模型从所述打鼾声音段中提取出非打鼾片段，包括：

从所述音频数据中获取各音频帧的梅尔频域向量；

利用k均值聚类算法将所述梅尔频域向量进行二聚类，迭代后得到两个质心；

将所述两个质心分别作为高斯混合模型中高斯成分的初始均值点，利用最大期望算法，对混合权重及各成分均值方差进行迭代更新，得到更新后的高斯混合模型；

使用所述更新后的高斯混合模型对各帧梅尔频域向量进行预测；

将各帧以之前预设的帧移为长度扩充后，得到整个声音序列完整的标签序号；

依据所述标签序号，分离得到所述打鼾声音段中的非打鼾片段。

进一步地，所述方法还包括：分析所述呼吸暂停数据，确定呼吸暂停持续时间、次数以及所述呼吸暂停持续时间、次数所对应的风险等级。

根据本申请实施例的另一个方面，提供一种监测睡眠时呼吸暂停的装置，包括：

构建模块，用于构建卷积神经网络；

训练模块，用于训练所述卷积神经网络，得到第一训练完成的卷积神经网络；

采集模块，用于采集待识别的音频数据；

处理模块，用于利用所述第一训练完成的卷积神经网络对所述待识别的音频数据进行处理，得到打鼾声音段和非打鼾声音段；

提取模块，用于从所述打鼾声音段中提取出非打鼾片段；

所述训练模块还用于初始化所述第一训练完成的卷积神经网络并进行重新训练，得到第二训练完成的卷积神经网络；

所述处理模块还用于利用所述第二训练完成的卷积神经网络处理所述非打鼾片段，得到呼吸暂停数据。

进一步地，所述装置还包括分析模块，所述分析模块用于分析所述呼吸暂停数据，确定呼吸暂停持续时间、次数以及所述呼吸暂停持续时间、次数所对应的风险等级。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的监测睡眠时呼吸暂停的方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的监测睡眠时呼吸暂停的方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的监测睡眠时呼吸暂停的方法，通过卷积神经网络识别打鼾声音段，从打鼾声音段中提取出时间较短的非打鼾片段，然后再次通过卷积神经网络对非打鼾片段进行处理得到呼吸暂停数据，可以避免遗漏时间较短的非打鼾片段，避免遗漏打鼾声音段中的呼吸暂停数据，大大提高了呼吸暂停数据的检测准确率。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请的一个实施例的监测睡眠时呼吸暂停的方法流程图；

图2示出了本申请的一个实施例的监测睡眠时呼吸暂停的装置的结构框图；

图3示出了一次卷积计算的流程示意图；

图4示出了利用卷积神经网络得到打鼾概率与非打鼾概率的过程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，本申请的一个实施例提供了一种监测睡眠时呼吸暂停的方法。

S10、构建卷积神经网络。

在某些实施方式中，构建的卷积神经网络包括卷积层、非线性激活层、池化层、正则化层、dropout层、输出层(输出层包括Flatten层和Softmax层)等多个层。

卷积神经网络的工作流程包括：卷积层对数据进行卷积填充并用多种卷积核进行卷积，之后将多种卷积核卷积结果进行合并，将合并结果输入非线性激活层中，通过非线性激活函数进行非线性变化，然后通过池化层进行池化，池化层采用的是平均池化(average-pooling)或最大池化(max-pooling)，提高了训练的效率。最后为了降低过拟合情况，通过正则化层和dropout层进行正则化和dropout(dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃)。输出层输出各音频帧属于各类别的概率，这里就是打鼾还是非打鼾的概率，若打鼾的概率明显高于非打鼾的概率，则定义这些音频帧属于打鼾音频帧。

S20、训练该卷积神经网络，得到第一训练完成的卷积神经网络。

利用训练样本集训练该卷积神经网络。

训练样本集可以采用已有的训练样本集，也可以采集音频数据，将音频数据进行人工标注后作为训练样本集。训练样本集为包含打鼾声音频和正常呼吸音频的数据集。

S30、采集待识别的音频数据。

具体地，利用录音设备采集用户睡眠时的呼吸声音频数据，得到该呼吸声的音频数据。录音设备包括多个麦克风组成的一个阵列，用来从多角度采集声音信息，还包括音频信息存储介质，用于存储音频信息。

S60、利用该第一训练完成的卷积神经网络对该待识别的音频数据进行处理，得到打鼾声音段。

采用第一训练完成的卷积神经网络，通过不同的卷积操作将音频数据进行分类，得到打鼾声音段，同时，时间较长的非打鼾声音段也会被区分出来。

利用卷积神经网络进行语音识别时，普遍采用的声学模型包括语音的Fbank、MFCC以及PLP特征，Fbank特征表示Mel滤波器组得到的梅尔矩阵，MFCC表示是在Mel标度频率域提取出来的倒谱参数，PLP表示感知线性预测系数，是模拟听觉的心理声学系数。目前还没有将深度学习声学模型应用在鼾声和非鼾声识别任务上的现有技术，利用卷积神经网络对不同的特征进行训练，找出适合区分打鼾与否的最佳特征，填补了该方面的空白。采用的特征分别是振幅、分贝、Fbank、MFCC、PLP，卷积神经网络的输入大小为m*n，其中m表示各个特征的声学频域特征维数，n表示神经网络一次输入的帧数，帧与帧之间有一定程度的重叠，以免数据的缺失。

通过步骤S60能够将打鼾声音段和时间较长的非打鼾声音段区分开来。但是打鼾声音段中可能会夹杂有时间很短的非打鼾片段，步骤S60可能会遗漏这些时间较短的非打鼾片段。这些时间较短的非打鼾片段会掺杂在打鼾声音段中，无法通过步骤S60将时间较短的非打鼾片段从打鼾声音段中完全提取出来。因此，需要通过步骤S70继续提取。

S70、从该打鼾声音段中提取出非打鼾片段。

由于打鼾声音段中夹杂的非打鼾片段时间较短，所以步骤S60中往往难以完全提取出来，因此通过步骤S70再进行一次提取，将时间较短的非打鼾片段提取出来。

在某些实施方式中，运用高斯混合模型从该打鼾声音段中提取出非打鼾片段，具体地，该步骤包括：

S701、从该打鼾声音段中获取各音频帧的梅尔频域向量；

S702、利用k均值聚类算法将该梅尔频域向量进行二聚类，迭代后得到两个质心；

S703、将该两个质心分别作为该高斯混合模型中高斯成分的初始均值点，利用最大期望算法，对混合权重及各成分均值方差进行迭代更新，得到更新后的高斯混合模型；

S704、使用该更新后的高斯混合模型对各帧梅尔频域向量进行预测；

S705、将各帧以之前预设的帧移为长度扩充后，得到整个声音序列完整的标签序号；

S706、依据该标签序号，分离得到该打鼾声音段中的非打鼾片段。

S80、初始化该第一训练完成的卷积神经网络并进行重新训练，得到第二训练完成的卷积神经网络。

初始化该第一训练完成的卷积神经网络之后，利用另外一种训练样本集重新训练初始化之后的卷积神经网络。此处的另外一种训练样本集为包含呼吸暂停数据的训练样本集。训练样本集可以采用已有的训练样本集，也可以将重新采集的数据进行人工标注后作为训练样本集。

S90、利用该第二训练完成的卷积神经网络处理该非打鼾片段，得到呼吸暂停数据。呼吸暂停数据是反映睡眠时呼吸暂停状况的一种数据。

在某些实施方式中，在步骤S60之前，该方法还包括：

S40、将该待识别的音频数据转化成离散时间序列，并对该离散时间序列进行重采样。

将离散时间序列进行重采样，即降采样，降低了数据量级，从而便于处理，大大提高了音频数据的处理效率，节省了处理时间。

S50、对重采样后的离散时间序列进行去除噪音数据的处理。

在某些实施方式中，步骤S50包括：

S501、利用统计模型去除各种非人声的背景声音；

S502、利用多通道卡尔曼滤波法去除经过反射和散射后多次被采集到的声音；

S503、使用盲源分离技术去除目标人物之外的人的声音。

在某些实施方式中，该方法还包括：S100、分析该呼吸暂停数据，确定呼吸暂停持续时间、次数以及该呼吸暂停持续时间、次数所对应的风险等级。呼吸暂停持续时间、次数以及该呼吸暂停持续时间、次数所对应的风险等级能够反映睡眠时呼吸暂停状况。

本实施例提供的监测睡眠时呼吸暂停的方法，通过卷积神经网络识别打鼾声音段，从打鼾声音段中提取出时间较短的非打鼾片段，然后再次通过卷积神经网络对非打鼾片段进行处理得到呼吸暂停数据，可以避免遗漏时间较短的非打鼾片段，避免遗漏打鼾声音段中的呼吸暂停数据，大大提高了呼吸暂停数据的检测准确率。

如图2所示，本申请的另一个实施例还提供了一种监测睡眠时呼吸暂停的装置，包括：

构建模块，用于构建卷积神经网络；

训练模块，用于训练该卷积神经网络，得到第一训练完成的卷积神经网络；

采集模块，用于采集待识别的音频数据；

处理模块，用于利用该第一训练完成的卷积神经网络对该待识别的音频数据进行处理，得到打鼾声音段和非打鼾声音段；

提取模块，用于从该打鼾声音段中提取出非打鼾片段；

该训练模块还用于初始化该第一训练完成的卷积神经网络并进行重新训练，得到第二训练完成的卷积神经网络；

该处理模块还用于利用该第二训练完成的卷积神经网络处理该非打鼾片段，得到呼吸暂停数据。

在某些实施方式中，该装置还包括分析模块，该分析模块用于分析该呼吸暂停数据，确定呼吸暂停持续时间以及该呼吸暂停持续时间所对应的风险等级。

本申请的另一个实施例还提供了一种电子设备，包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该处理器执行该程序，以实现上述的监测睡眠时呼吸暂停的方法。

本申请的另一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的监测睡眠时呼吸暂停的方法。

本申请的另一个实施例提供了一种监测睡眠时呼吸暂停的方法，包括：

S1.利用录音设备采集用户睡眠时的呼吸声音频数据，得到该呼吸声的音频数据。

录音设备包括多个麦克风组成的一个阵列，用来从多角度采集用户睡眠时的呼吸声音音频数据，还包括音频数据存储介质，用于存储音频数据。音频数据例如可以是一段音频。

S2.将音频数据转化成以其原始采样频率采样的离散时间序列，并对该离散时间序列进行重采样以降低数据量级。

对离散时间序列进行重采样的目的是降低数据量级，具体操作是将固定的时间内采集到的数据重新进行抽取，每隔k个值抽取，这样数据量从原始的F降低到F/k。

例如，假如1s种机器的采样率为10000，表示这1s中机器采集了10000个数据点，而进行重采样的过程是将10000个点变成1000个点，具体操作就是每1ms采样一个点，因此1s收集了1000个点，达到了降低数据量级的目的。

S3.采用去噪音算法处理重采样后的离散时间序列，以去除非目标物体的声音、过滤掉多类噪音数据。

步骤S3包括：

1)利用统计模型去除各种非人声的背景声音。

由于噪声和目标声音是互不相关的，两者独立存在，因此噪声和目标声音分布规律是不同的，可以根据其统计学意义上分布不同，将两者分离出来，统计模型有很多，隐马尔可夫、时间序列、高斯混合、贝叶斯等。

2)利用多通道卡尔曼滤波法去除经过反射和散射多次被录音设备采集到的声音。

3)利用盲源分离技术去除目标人物之外的人的声音。

S4.采用机器学习中的卷积神经网络，利用训练好的卷积神经网络，通过不同的卷积操作将过滤掉噪音后的音频数据进行分类，得到打鼾声音段和非打鼾声音段。

具体地，卷积神经网络分别训练是否打鼾的振幅、分贝、能量、梅尔频谱、倒谱、谐波等特征，之后将各个卷积分类器进行融合，形成一个强分类器，该操作可以提高卷积神经网络模型的准确率和鲁棒性。

利用卷积神经网络进行语音识别时，普遍采用的声学模型包括语音的Fbank、MFCC以及PLP特征，Fbank特征表示Mel滤波器组得到的梅尔矩阵，MFCC表示是在Mel标度频率域提取出来的倒谱参数，PLP表示感知线性预测系数，是模拟听觉的心理声学系数。目前还没有将深度学习声学模型应用在鼾声和非鼾声识别任务上的现有技术，本实施例利用卷积神经网络对不同的特征进行训练，找出适合区分打鼾与否的最佳特征，填补了该方面的空白。本实施例采用的特征分别是振幅、分贝、Fbank、MFCC、PLP，卷积神经网络的输入大小为m*n，其中m表示各个特征的声学频域特征维数，n表示神经网络一次输入的音频帧帧数，帧与帧之间有一定程度的重叠，以免数据的缺失。

卷积神经网络包括卷积层、非线性激活层、池化层、正则化层、dropout层和输出层等。卷积神经网络的工作具体流程如下：对数据进行卷积填充并用多种卷积核进行卷积，之后将多种卷积核卷积结果进行合并，将合并结果输入到非线性激活函数中，进行非线性变化，然后进行池化，池化层采用的是平均池化(average-pooling)或最大池化(max-pooling)，提高了训练的效率。最后为了降低过拟合情况，进行正则化和dropout(dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃)。

输出层由Flatten层(压平层)和Softmax层组成，能够输出该n帧所属各个类别的概率，这里就是打鼾还是非打鼾的概率，若打鼾的概率明显高于非打鼾的概率，则定义这n帧为打鼾。如图4所示为利用卷积神经网络得到打鼾概率与非打鼾概率的过程示意图。

S5.运用高斯混合模型提取出打鼾声音段中的非打鼾片段。打鼾声音段包括打鼾片段和非打鼾片段。

S5-1.从清洗后的音频数据中获取各音频帧的梅尔频域向量。

S5-2.利用k-means方法(k均值聚类算法)将得到的梅尔频域向量，基于高维空间的欧氏距离，进行二聚类，迭代后得到两个质心。

S5-3.将前述步骤得到的两个质心分别作为高斯混合模型中高斯成分的初始均值点，随后利用最大期望算法，混合权重及各成分均值方差进行迭代更新，得到更新后的高斯混合模型。

S5-4.使用更新后的高斯混合模型对各帧梅尔频域向量进行预测。

S5-5.将各帧以之前预设的帧移为长度的np.repeat扩充后，得到整个声音序列完整的标签序号。

S5-6.依据标签，分离得到鼾声片段间的非鼾声片段。

S6.采用机器学习中的卷积神经网络算法，采用已训练好的具有多个卷积核的卷积神经网络对步骤S5提取出的非鼾声片段数据进行分类，分析得到呼吸暂停数据和其它数据。

具体地，根据步骤S5得到的鼾声间隔时间计算其中呼吸暂停的时间以及次数，由于鼾声间隔时间同时存在正常呼吸与呼吸暂停，因此再次运用卷积神经网络进行分类，重新训练步骤S4中神经网络，从而提取出呼吸暂停的时间和次数。

通过训练卷积神经网络得到了最佳的特征(振幅、分贝、能量、梅尔频谱、倒谱、谐波等特征)，将这些特征应用在正常呼吸和呼吸暂停的分类上，从而可以检测鼾声片段间的非打鼾片段是否存在呼吸暂停。

卷积神经网络的具体计算过程和步骤S4相同，具体参数是根据标定的正常呼吸和呼吸暂停数据训练得到，分别输出该片段的n帧属于正常呼吸和呼吸暂停的概率。

kernal＝[k₁，k₂，k₃…k_n]

S_m＝[a₁，a₂，a₃…a_m]m＞n

其中n表示卷积核的长度，k_n表示卷积核中具体的值，m表示音频某特征数据的长度，a_m表示卷积核中具体的值，Sm代表卷积核中具体的值构成的序列，F代表卷积计算的结果，F_j代表经过j次卷积计算后的结果，j表示卷积的次数，值为m/n的整除部分。一次卷积计算的流程示意图如图3所示。

S7.采用数据分析方法对呼吸暂停数据进行分析，得到呼吸暂停持续的时间和对应的风险等级。

根据步骤S6可以计算出具体属于呼吸暂停的帧数，之后根据帧数和时间的关系来计算对应的具体呼吸暂停时间以及呼吸暂停次数，然后根据各风险级别所对应的呼吸暂停时间以及呼吸暂停次数区间得出呼吸暂停的风险等级。

例如，假若计算出第100帧到第150帧、第200帧到第250帧存在呼吸暂停，一帧的时间假设为1秒，帧与帧之间的重叠为50％，则时间计算结果分别是第50s到第75s为呼吸暂停，第100s到第125s为呼吸暂停。诊断结果为在50s到125s期间共呼吸暂停了两次，持续时间均为25s。根据等级划分区间，可以判定为重度呼吸暂停。

本实施例中将采集到的音频数据进行降采样，降低了数据量级，从而便于处理，节省了处理时间；对音频数据采用去噪音算法过滤多类噪音数据；之后利用鼾声音频和正常呼吸音频的数据集对卷积神经网络进行训练，直至卷积神经网络提取鼾声音频的成功率达到预设阈值为止，训练结束，得到训练好的卷积神经网络；运用统计学知识将整个打鼾声音段中非打鼾片段分离出来；再次运用神经网络对非打鼾片段进行分类，分成正常呼吸和呼吸暂停片段。本实施例将有可能发生呼吸暂停的打鼾声音段提取出来之后再对打鼾声音段进行呼吸暂停检测，提高了计算效率；采用了卷积神经网络对音频的各个特征进行训练，避免了使用单一特征造成的误差问题。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种监测睡眠时呼吸暂停的方法，其特征在于，包括：

构建卷积神经网络；

采集待识别的音频数据；

从所述打鼾声音段中提取出非打鼾片段；

2.根据权利要求1所述的方法，其特征在于，在所述利用所述第一训练完成的卷积神经网络对所述待识别的音频数据进行处理之前，所述方法还包括：

对重采样后的离散时间序列进行去除噪音数据的处理。

3.根据权利要求2所述的方法，其特征在于，所述对重采样后的离散时间序列进行去除噪音数据的处理，包括：

利用统计模型去除各种非人声的背景声音；

使用盲源分离技术去除目标人物之外的人的声音。

4.根据权利要求1所述的方法，其特征在于，所述从所述打鼾声音段中提取出非打鼾片段，包括：运用高斯混合模型从所述打鼾声音段中提取出非打鼾片段。

5.根据权利要求4所述的方法，其特征在于，所述运用高斯混合模型从所述打鼾声音段中提取出非打鼾片段，包括：

从所述打鼾声音段中获取各音频帧的梅尔频域向量；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：分析所述呼吸暂停数据，确定呼吸暂停持续时间、次数以及所述呼吸暂停持续时间、次数所对应的风险等级。

7.一种监测睡眠时呼吸暂停的装置，其特征在于，包括：

构建模块，用于构建卷积神经网络；

采集模块，用于采集待识别的音频数据；

提取模块，用于从所述打鼾声音段中提取出非打鼾片段；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括分析模块，所述分析模块用于分析所述呼吸暂停数据，确定呼吸暂停持续时间、次数以及所述呼吸暂停持续时间、次数所对应的风险等级。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6中任一所述的监测睡眠时呼吸暂停的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-6中任一所述的监测睡眠时呼吸暂停的方法。