CN109350014A

CN109350014A - 一种鼾声识别方法与系统

Info

Publication number: CN109350014A
Application number: CN201811501274.3A
Authority: CN
Inventors: 万海亚; 张跃春; 曾瑜
Original assignee: Suzhou Xiaola Medical Technology Co Ltd
Current assignee: Suzhou Xiaola Medical Technology Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-02-19

Abstract

本发明公开了一种鼾声识别方法与系统，包括以下几个部分：获得鼾声的音频信号数据；对获取的音频信号数据进行预处理，获取鼾声信号段；建立卷积神经网络模型，使用训练样本训练网络；将待诊断的鼾声音频数据输入到训练好的网络，输入得到鼾声识别结果。本发明通过对获取的音频信号预处理得到鼾声音频信号，使用卷积神经网络识别鼾声，提高了鼾声检测的准确率。

Description

一种鼾声识别方法与系统

技术领域

本发明涉及辅助医疗技术领域，具体地是涉及一种鼾声识别方法与系统。

背景技术

阻塞性睡眠呼吸暂停低通气综合征(OSAHS)是较为严重的睡眠呼吸障碍,病症主要表现为患者在睡觉过程中呼吸道软腭多次内陷,反复阻塞气道,导致呼吸受阻,临床表现为晚上睡觉时打鼾并伴随呼吸暂停或呼吸气流流量小。呼吸暂停是指患者在睡觉时呼吸气流消失超过10秒的情况，低通气是指患者在睡觉时呼吸气流强度低于基本值的50％，同时血氧浓度下降到低于正常水平96％的情况。

对于OSAHS的检测，传统的方法是通过多导睡眠监测装置对病人进行6至7小时的睡眠监督和测量，可记录并分析EEG(脑电图)、ECG(心电图)、EOG(眼电图)、EMG(肌电图)，鼾声、血氧饱和度、呼吸频率、体位等多个睡眠时的体征参数，该方法准确可靠，但是由于需要在患者身上安置超过15个导联，影响到了患者的正常睡眠状态，并且价格不菲，而且通过多导睡眠图(PSG)获取的信息必须利用人工辨别出现的问题，非常不便，人们正在寻找经济有效且可靠的辅助诊断方法。

鉴于鼾声的产生与呼吸道的生理结构关系紧密，鼾声极有可能能够反映出患者呼吸道发生病变的一些情况，并且有研究表明普通打鼾者发出的鼾声同OSAHS患者之间的鼾声存在一定的差异。AHI指数(暂停低通气指数)是判定OSAHS患者患病程度的最直观的标准，如果不对鼾声进行分类将很难从鼾声获取病人的AHI指数，因此对患病鼾声进行分类研究有其必要性，且通过将病患的整晚鼾声进行分类识别将有助于OSAHS患者病情的诊断和监控。

目前，鼾声识别主要分为鼾声段检测和识别两部分。对鼾声段检测，大部分采用的是信号门限，容易出现误判。鼾声识别部分，使用比较常规的分类模型，当有与鼾声频率相近的声音干扰时，会误检测为鼾声，导致最终的模型精度准确率较低。

因此，本发明的发明人亟需构思一种新技术以改善其问题。

发明内容

为解决上述技术问题，本发明提供了一种鼾声识别方法与系统。

本发明的技术方案是：

一种鼾声识别方法，包括如下步骤：

S1：获得鼾声的音频信号数据；

S2：对获取的音频信号数据进行预处理，获取鼾声信号段；

S3：建立卷积神经网络模型，使用训练样本训练网络；

S4：将待诊断的鼾声音频信号数据输入到训练好的网络，得到鼾声识别结果。

优选地，所述步骤S2具体包括：

S21：对音频信号数据进行降噪预处理，滤除因为声音采集环境不同导致的不同程度的背景噪声；

S22：通过预加重补充高频部分，减少口鼻辐射和声门脉冲带来的影响，提高信号频谱平坦度，降低低频干扰；

S23：将信号分成多个相对较短的片段，以保证短时间内信号是平稳的；

S24：将有声段与静音段分离。

优选地，所述步骤S24中使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。

优选地，所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1。

优选地，所述自适应阈值法是把整段声音分为每N个离散点一组，取出每组中的最大幅值形成一个新的离散序列，再对这个序列中每N个离散点求和得到一个新的数组，将这个数组平滑滤波后，对其做柱状图区间统计，点最多的幅值区间就视为这段声音的噪声幅值，也是有声与无声的区分门限；

计算整段声音的短时能量和过零率，同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限；

使用时自适应阈值法话语权高于双门限法。

一种鼾声识别系统，包括：

声音获取模块，用于获得鼾声的音频信号数据；

预处理模块，用于对获取的音频信号数据进行预处理，获取鼾声信号段；

模型建立模块，用于建立卷积神经网络模型，使用训练样本训练网络；

识别模块，用于将待诊断的鼾声音频信号数据输入到训练好的网络，得到鼾声识别结果。

优选地，所述预处理模块具体包括：

降噪预处理单元，用于对音频信号数据进行降噪预处理，滤除因为声音采集环境不同导致的不同程度的背景噪声；

预加重单元，用于通过预加重补充高频部分，减少口鼻辐射和声门脉冲带来的影响，提高信号频谱平坦度，降低低频干扰；

分帧处理单元，用于将信号分成多个相对较短的片段，以保证短时间内信号是平稳的；

信号分离单元，用于将有声段与静音段分离。

优选地，所述信号分离单元使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。

优选地，所述预加重单元使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1。

使用时自适应阈值法话语权高于双门限法。

采用上述技术方案，本发明至少包括如下有益效果：

本发明所述的鼾声识别方法与系统，通过过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法来检测出鼾声段，并通过卷积神经网络进行鼾声自动识别。为鼾声的准确检测提供了更为有效的方法，能够对鼾声进行分类，能够自动识别出类别，进而辅助呼吸疾病的诊断。

附图说明

图1为本发明所述的鼾声识别方法的流程图；

图2为本发明所述的卷积神经网络的架构图；

图3为本发明所述的鼾声识别系统的结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，为符合本实施例的一种鼾声识别方法，包括如下步骤：

S1：获得鼾声的音频信号数据；

S2：对获取的音频信号数据进行预处理，获取鼾声信号段；

S3：建立卷积神经网络模型，使用训练样本训练网络；

优选地，所述步骤S2具体包括：

S24：将有声段与静音段分离。

优选地，所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1，其中b的值接近于1，一般取0.94。

使用时自适应阈值法话语权高于双门限法。

下面具体阐述本实施例。

本实施例中，所述步骤S1中采用麦克风对人在睡眠过程中的声音进行采集，设定采样率为8000Hz，精度16bit。

所述步骤S21中使用LMS自适应滤波降噪，其步骤如下：

输入信号序列x_i(n)，期望输出信号d(n)，定义误差信号为：

其中ω_i为权系数。

(1)设定滤波器W(k)初值：

W(0)＝0，收敛因子

(2).计算滤波器实际输出的估计值：

y(k)＝W^T(k)X(k)

(3).计算估算误差：

e(k)＝d(k)-y(k)

(4)更新k+1时刻滤波器系数：

W(k+1)＝W(k)+μe(k)X(k)

(5)k变为k+1，重复步骤(2)-(4)。

所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1，其中b的值接近于1，一般取0.94。

所述步骤S23中是对音频数据进行分帧处理。因为99％的鼾声持续时间分布在0.5s到1.8s之间，98.5％的鼾声间隔时间分布在1.4s-4s，在这期间，鼾声的时频参数基本保持不变。所以在分帧时选取较长的窗长，选取帧长为128ms，帧移为64ms，能够完整的获取鼾声段。

所述步骤S24中使用的是过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法，具体地：

1.自适应阈值法主要是把整段声音分为每N个离散点一组，取出每组中的最大幅值形成一个新的离散序列，再对这个序列中每N个离散点求和得到一个新的数组，将这个数组平滑滤波后，对其做柱状图区间统计，点最多的幅值区间就视为这段声音的噪声幅值，也是有声与无声的区分门限；

2.计算整段声音的短时能量和过零率，同样利用柱状图区间统计点最多的幅值区间获取短时能量和过零率的门限；

3.使用时自适应阈值话语权高于双门限法。

现有技术中一般对有声信号段分割时使用信号门限，容易出现误判。而本实施例使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法，从而可以做到精确定位鼾声音频段，而后使用卷积神经网络可以提高识别鼾声的精度。

如图2所示，所述步骤S3建立卷积神经网络模型，使用训练样本训练网络，具体包括如下步骤：

1.建立卷积神经网络：

第一层为卷积层，使用预处理后的鼾声段信号数据作为输入数据，卷积核尺寸为11，卷积核个数为96，步长为4，使用ReLU激活函数，随后加入最大池化层，池化尺寸3，步长2；

第二层为卷积层，使用第一层网络输出作为本层输入，卷积核尺寸为5，卷积核个数为256，步长为1，使用ReLU激活函数，随后加入最大池化层，池化尺寸3，步长2；

第三层为卷积层，使用第二层网络输出作为本层输入，卷积核尺寸为3，卷积核个数为384，步长为1；

第四层为卷积层，使用第三层网络输出作为本层输入，卷积核尺寸为3，卷积核个数为384，步长为1；

第五层为卷积层，使用第四层网络输出作为本层输入，卷积核尺寸为3，卷积核个数为256，步长为1，使用ReLU激活函数，随后加入最大池化层，池化尺寸3，步长2；

第六层为全连接层，使用第五层网络输出作为输入，通过ReLU激活函数以及dropout运算输出4096个本层的输出结果值；

第七层为全连接层，第六层输出的4096个数据与第七层的4096个神经元进行全连接，然后经由ReLU和Dropout进行处理后生成4096个数据；

第八层为全连接层，第七层输入的4096个数据与第八层的1000个神经元进行全连接，经过训练后输出被训练的数值。

第九层为输出层，输出维数与鼾声识别种类个数一致，使用softmax激活函数。

2.使用训练样本训练和优化网络

将训练样本拆分成一个个批次(batch)逐层训练网络，使用批标准化加快收敛速度，跳出局部最优，得到最优网络模型的连接权值和偏置参数。

使用ReLU作为卷积神经网络的激活函数，其效果在较深的网络超过了Sigmoid函数，成功解决了Sigmoid函数在网络较深时的梯度弥散问题；使用了5层卷积层，能够得到更深入的特征，有利于提高分类精度；使用最大池化，避免平均池化的模糊化效果。并且本实施例使用的softmax激活函数，相比于单层感知机(只能进行二分类)更适合用于多分类。

所述步骤S4将采集到的数据经过预处理得到鼾声信号数据，带入到权训练好的网络模型中，得到预测结果。

本实施例通过过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法来检测出鼾声段，并通过卷积神经网络进行鼾声自动识别。为鼾声的准确检测提供了更为有效的方法，能够对鼾声进行分类，能够自动识别出类别，进而辅助呼吸疾病的诊断。

实施例2

如图3所示，为符合本实施例的一种鼾声识别系统，包括：

声音获取模块，用于获得鼾声的音频信号数据；

优选地，所述预处理模块具体包括：

信号分离单元，用于将有声段与静音段分离。

优选地，所述预加重单元使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1，其中b的值接近于1，一般取0.94。

使用时自适应阈值法话语权高于双门限法。

下面具体阐述本实施例。

本实施例中，所述声音获取模块采用麦克风对人在睡眠过程中的声音进行采集，设定采样率为8000Hz，精度16bit。

所述降噪预处理单元中使用LMS自适应滤波降噪，其步骤如下：

输入信号序列x_i(n)，期望输出信号d(n)，定义误差信号为：

其中ω_i为权系数。

(1)设定滤波器W(k)初值：

W(0)＝0，收敛因子

(2).计算滤波器实际输出的估计值：

y(k)＝W^T(k)X(k)

(3).计算估算误差：

e(k)＝d(k)-y(k)

(4)更新k+1时刻滤波器系数：

W(k+1)＝W(k)+μe(k)X(k)

(5)k变为k+1，重复步骤(2)-(4)。

所述预加重单元中使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1，其中b的值接近于1，一般取0.94。

因为99％的鼾声持续时间分布在0.5s到1.8s之间，98.5％的鼾声间隔时间分布在1.4s-4s，在这期间，鼾声的时频参数基本保持不变。所以所述分帧处理单在分帧时选取较长的窗长，选取帧长为128ms，帧移为64ms，能够完整的获取鼾声段。

所述信号分离单元中使用的是过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法，具体地：

3.使用时自适应阈值话语权高于双门限法。

如图2所示，所述模型建立模块建立卷积神经网络模型，使用训练样本训练网络，具体包括如下步骤：

1.建立卷积神经网络：

2.使用训练样本训练和优化网络

所述识别模块将采集到的数据经过预处理得到鼾声信号数据，带入到权训练好的网络模型中，得到预测结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种鼾声识别方法，其特征在于，包括如下步骤：

S1：获得鼾声的音频信号数据；

S2：对获取的音频信号数据进行预处理，获取鼾声信号段；

S3：建立卷积神经网络模型，使用训练样本训练网络；

2.如权利要求1所述的鼾声识别方法，其特征在于，所述步骤S2具体包括：

S24：将有声段与静音段分离。

3.如权利要求2所述的鼾声识别方法，其特征在于：所述步骤S24中使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。

4.如权利要求2或3所述的鼾声识别方法，其特征在于：所述步骤S22中使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1。

5.如权利要求3所述的鼾声识别方法，其特征在于：所述自适应阈值法是把整段声音分为每N个离散点一组，取出每组中的最大幅值形成一个新的离散序列，再对这个序列中每N个离散点求和得到一个新的数组，将这个数组平滑滤波后，对其做柱状图区间统计，点最多的幅值区间就视为这段声音的噪声幅值，也是有声与无声的区分门限；

使用时自适应阈值法话语权高于双门限法。

6.一种鼾声识别系统，其特征在于，包括：

声音获取模块，用于获得鼾声的音频信号数据；

7.如权利要求6所述的鼾声识别系统，其特征在于，所述预处理模块具体包括：

信号分离单元，用于将有声段与静音段分离。

8.如权利要求,7所述的鼾声识别系统，其特征在于：所述信号分离单元使用过零率和短时能量相结合的双门限法与自适应阈值法相结合的方法将有声段与静音段分离。

9.如权利要求7或8所述的鼾声识别系统，其特征在于：所述预加重单元使用一阶FIR高通滤波器对数据进行预加重，其传输函数为：H(Z)＝1-bZ^-1。

10.如权利要求8所述的鼾声识别系统，其特征在于：所述自适应阈值法是把整段声音分为每N个离散点一组，取出每组中的最大幅值形成一个新的离散序列，再对这个序列中每N个离散点求和得到一个新的数组，将这个数组平滑滤波后，对其做柱状图区间统计，点最多的幅值区间就视为这段声音的噪声幅值，也是有声与无声的区分门限；

使用时自适应阈值法话语权高于双门限法。