CN112687290B

CN112687290B - 一种经过压缩的咳嗽自动检测方法及嵌入式设备

Info

Publication number: CN112687290B
Application number: CN202011617737.XA
Authority: CN
Inventors: 李由; 尤鸣宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-09-20
Anticipated expiration: 2040-12-30
Also published as: CN112687290A

Abstract

本发明涉及一种经过压缩的咳嗽自动检测方法及嵌入式设备，咳嗽自动检测方法包括：获取待检测音频；提取待检测音频的音频帧级特征；根据提取的音频特征搭建同构咳嗽检测子模型；对同构咳嗽检测子模型进行压缩并集成后蒸馏为精炼模型；使用咳嗽检测精炼模型在嵌入式设备上实时进行咳嗽自动检测。嵌入式设备包括至少一个处理器以及至少一个与处理器进行通信连接的存储器，存储器存储有可被处理器执行的指令，指令可被至少一个处理器执行，可被执行的指令包括上述咳嗽自动检测方法。与现有技术相比，本发明具有能够被部署到嵌入式设备、准确性高等优点。

Description

一种经过压缩的咳嗽自动检测方法及嵌入式设备

技术领域

本发明涉及咳嗽自动检测技术领域，尤其是涉及一种经过压缩的咳嗽自动检测方法及嵌入式设备。

背景技术

咳嗽是人体的重要保护机制，也是多种呼吸系统疾病的常见主诉症状之一，咳嗽的严重程度可以做为显示病人病情的指标，有助于指导医生对病人病因与病程的判断。目前主流的咳嗽检测办法是基于由医学研究者以及护理学学者提出的自我管理计划的医患联动监测控制病情的诊治方法，该方法因受患者的主观意识影响极大，为诊断过程造成了极大的困难。

基于上述问题，咳嗽声的监测和正确记录对咳嗽病症的诊治是至关重要的。为了正确、有效地记录可能发生的咳嗽声、且尽量不给受测者的生活活动造成干扰，利用便携式设备进行咳嗽检测无疑是最具可行性的方案。

目前，针对咳嗽检测方法的研究不断进行，如中国专利CN109431507A中公开了一种基于深度学习的咳嗽疾病识别方法，包括：对咳嗽音频进行预处理得到若干咳嗽音频帧序列；从若干咳嗽音频帧序列中提取得到所述咳嗽音频的声音特征；通过咳嗽疾病识别模型对所述咳嗽音频的声音特征进行分类预测，得到所述咳嗽音频对应的咳嗽疾病标签；根据所述咳嗽疾病标签输出所述咳嗽音频对应的咳嗽疾病识别结果。该专利虽然实现了对咳嗽的识别，但是并未考虑到上述算在运行在嵌入式设备上时的难易程度。若想要在嵌入式设备中实现较为精准、具有实际应用价值的咳嗽声检测与识别功能，需要以相对复杂的算法和深度神经网络模型作为支撑，受到伦理隐私的限制，咳嗽检测器大多数情况下只能运行在离线模式而不能依靠于大型的云端服务器，这无疑提高了对硬件计算能力的要求，从而相应地增加了开发成本。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种实现在可控成本的嵌入式设备中使用深度模型进行精确的咳嗽声检测的经过压缩的咳嗽自动检测方法及嵌入式设备。

本发明的目的可以通过以下技术方案来实现：

一种经过压缩的咳嗽自动检测方法，所述的咳嗽自动检测方法包括：

步骤1：获取待检测音频；

步骤2：提取待检测音频的音频帧级特征；

步骤3：根据步骤2提取的音频特征搭建同构咳嗽检测子模型；

步骤4：对同构咳嗽检测子模型进行压缩并集成后蒸馏为精炼模型；

步骤5：使用咳嗽检测精炼模型在嵌入式设备上实时进行咳嗽自动检测。

优选地，所述的音频帧级特征包括MFCC音频特征、PLP音频特征和Mel bank音频特征。

更加优选地，所述的音频帧级特征的提取方法为：

统一音频采样率后分别提取三中音频帧级特征，分别为：

MFCC音频特征的提取方法：首先对声音信号预加重、分帧和加汉明窗处理；对每一帧进行512个点的快速傅里叶变换，得到能量谱；将能量谱通过一组Mel尺度的三角形滤波器组，得到每个滤波器组的对数能量输出；将对数能量进行离散余弦变换，求得13阶的MFCC；在MFCC基础上加入一阶差分系数和二阶差分系数组合为组合特征，并将其确定为最终的MFCC音频特征；

PLP音频特征的提取方法：首先对声音信号加窗和快速傅里叶变换，得到短时功率谱；然后将功率谱映射到Bark尺度，获得PLP音频特征；

Mel bank音频特征的提取方法：首先对声音信号预加重、分帧和加汉明窗处理；对每一帧进行512个点的快速傅里叶变换，得到能量谱；将能量谱通过一组Mel尺度的三角形滤波器组，得到每个滤波器组的输出。

更加优选地，所述的步骤3具体为：

将三种音频帧级特征分别作为三个子网络模型的输入；每个子网络模型均采用5层BLSTM双向长短时记忆网络结构，每层设置隐节点数100个，最后通过全连接层获得(0,1)范围的咳嗽帧概率值。

更加优选地，所述的步骤4具体为：

步骤4-1：通过低秩分解的方法初步压缩三个子网络模型的参数；

步骤4-2：使用压缩前的模型训练集分别训练三个子网络模型；

步骤4-3：以三个子网络模型的预测结果平均值做为集成模型输出；

步骤4-4：对集成模型进行知识蒸馏，获得压缩后的精炼模型。

更加优选地，所述的步骤4-1具体为：

对于第l层网络的原始权重矩阵W^l，利用奇异值分解法寻找与其矩阵范数尽量相近的低秩矩阵

其中

可被表示为

其中，

W^l和

应满足

对于BLSTM中的权重矩阵W_xc、W_xi、W_xf、W_xo，即记忆单元、输入门、遗忘门和输出门中的权重矩阵，同样可以利用低秩分解法进行分解[W_xc,W_xi,W_xf,W_xo]＝USV^T＝[U_xc,U_xi,U_xf,U_xo]SV^T；

方法为向每个子网络模型中的LSTM相邻两层中添加线性无偏置的低秩降维层，低秩降维层的添加位置为上层BLSTM单元的输出之后，即下层BLSTM单元的输入之前；设M、N、R分别为上层输出结点数、下层输入结点数和低秩降维层的结点数，则分解前的模型参数为4M×N个，分解后的参数为4M×R+R×N＝R×(4M+N)个；

低秩分解层秩，即节点数满足：

更加优选地，所述的步骤4-4具体为：

以训练好的三个子网络模型做为教师模型，设置一个两层低秩BLSTM网络做为学生模型，以MFCC音频特征做为学生模型的输入，通过知识蒸馏的方法，利用教师模型指导学生模型训练，使学生模型得到与教师模型性能相当的结果；

所述的教师模型指导学生模型训练的方法为：

通过集成模型计算每个输入样本的预测结果，即是否为咳嗽的概率做为软目标，与该样本的真实结果共同构成联合损失函数：

其中，y_true为样本的真实标签，p_s和p_t分别为学生和教师模型的预测输出，T为温度变量，λ是常数。

优选地，所述的步骤5具体为：

步骤5-1：在嵌入式设备上加载精炼模型的参数；

步骤5-2：输入待检测音频，获得每一个分帧的预测结构；

步骤5-3：针对连续帧的检测结果，生成咳嗽检测事件。

更加优选地，所述的咳嗽检测事件的生成方法为：

筛选连续检测结果中与左右两帧分类结果均不同的孤立结果，将其结果反转；

将连续结果连接为以事件为单位的检测结果，记录其对应起始时间、终止时间。

一种嵌入式设备，包括至少一个处理器以及至少一个与处理器进行通信连接的存储器；

所述的存储器存储有可被处理器执行的指令；所述的指令可被至少一个处理器执行；所述的可被执行的指令包括上述咳嗽自动检测方法。

与现有技术相比，本发明具有以下有益效果：

一、能够被部署到嵌入式设备中：本发明中的咳嗽自动检测方法通过混合低秩分解与知识蒸馏的方法对集成深度网络模型实现压缩，在保证检测精度的前提下，使得高精度模型的体积大大减小，并能够被部署到嵌入式设备中，实现在可控成本的嵌入式设备中使用深度模型进行精确的咳嗽声检测。

二、准确性高：本发明中的咳嗽自动检测方法采用集成深度网络模型实现高精度的咳嗽检测，综合3种不同的声学特征，即MFCC、PLP和Mel bank三种特征，可实现优于基于单一特征模型的检测效果，保证了压缩后的精炼模型的检测准确性。

附图说明

图1为本发明中的咳嗽自动检测方法的流程示意图；

图2为本发明实施例中深度网络模型的结构示意图；

图3为本发明中通过低秩分解法进行模型压缩时的示意图；

图4为本发明中通过知识蒸馏法进行模型压缩时的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

针对现有技术中存在的问题，本发明中提出了一种用于嵌入式设备的咳嗽检测集成模型的压缩方法，通过这个方法，可以实现利用高精度的深度集成模型对声音信号中的咳嗽声进行预测定位，同时其经过压缩后的体积可以完美嵌入到便携式设备中。此方法通过开发出基于声音信号的集成高精度咳嗽检测算法深度模型，采用低秩分解和知识蒸馏的方法对深度模型进行压缩，实现了在低成本便携式设备中嵌入高精度咳嗽检测模型的方法，利用该设备完成端到端的自动咳嗽检测日志生成，从而降低了自动咳嗽检测设备的开发成本。

实施例1

本实施例中以树莓派3B+为例，该设备安装Ubuntu Mate 16.04系统的ARM版本，搭载1.4GHz 64位4核ARM Cortex-A53 CPU。

一种经过压缩的咳嗽自动检测方法，其流程如图1所示，包括：

步骤1：获取待检测音频，并对其进行预处理；

预处理咳嗽数据库中的音频数据；将音频序列切分为10s的长度，并划分为训练集和验证集；

步骤2：提取待检测音频的音频帧级特征；

音频帧级特征包括MFCC音频特征、PLP音频特征和Mel bank音频特征；

使用内置语音处理工具库Kaldi对保存的音频文件分为25ms的片段，且为了保证相邻两帧的连续性，每两帧时间设置了10ms的重叠部分，对于每一帧，分别提取MFCC特征、PLP特征、Mel bank特征，并进行保存；

音频帧级特征的提取方法为：

统一音频采样率后分别提取三中音频帧级特征，分别为：

步骤3：根据步骤2提取的音频特征搭建同构咳嗽检测子模型，具体为：

将三种音频帧级特征分别作为三个子网络模型的输入；每个子网络模型均采用5层BLSTM双向长短时记忆网络结构，每层设置隐节点数100个，获得3个复杂检测模型，最后通过全连接层获得(0,1)范围的咳嗽帧概率值；

上述3个检测模型的结果通过平均可得集成检测模型；

其中

可被表示为

其中，

W^l和

应满足

低秩分解层秩，即节点数满足：

设置R＝10，在相邻BLSTM的两层之间设置好低秩降维层后，可以有效减少每个BLSTM单元中的4组共4*100*100个参数到4*100*10+10*100。

步骤4-4：对集成模型进行知识蒸馏，获得压缩后的精炼模型；

所述的教师模型指导学生模型训练的方法为：

其中，y_true为样本的真实标签，p_s和p_t分别为学生和教师模型的预测输出，T为温度变量，设置为4，λ是常数，设置为0.5；

本实施例通过低秩分解初步压缩模型参数量；向复杂检测模型中的每一层添加低秩降维层，设置每一层的秩为10，加载训练集对3个模型分别训练，以输出和真实标签间的交叉熵做为损失函数，同时通过验证集测试网络经过每一个epoch迭代后的损失，直到10个epoch的损失均不再下降时，保存当前模型为目标模型，通过此方法压缩3个模型参数分别至原模型参数量的50％，通过将3个模型额结果平均做为集成模型的输出结果；

步骤5：使用咳嗽检测精炼模型在嵌入式设备上实时进行咳嗽自动检测；

步骤5-1：在嵌入式设备上加载精炼模型的参数；

步骤5-2：输入待检测音频，获得每一个分帧的预测结构；

步骤5-3：针对连续帧的检测结果，生成咳嗽检测事件。

咳嗽检测事件的生成方法为：

本步骤对步骤4得到的集成模型知识蒸馏；以集成模型做为教师模型，搭建2层低秩BLSTM网络做为知识蒸馏的学生模型，再训练集上，以单一MFCC特征作为输入，教师模型的输出结果为软标签，指导学生模型的学习，训练方法同步骤4，最终压缩模型参数量为集成检测模型的6％。

图2为本发明中可采用的一种深度模型网络结构图，对上述方法中选取的3种声学特征，即MFCC、PLP和Mel bank依次计算，分别将3种特征归一化特征后，输入到网络层中。网络层由深度双向循环长短时记忆网络(BLSTM)组成，每层设置隐藏层结点数100个，每次的输出通过tanh激活函数输入到下一层中。由于双向的特性，每一层的输出为200维，最后通过一层全连接加sigmoid激活函数拟合到一维的标签空间中，范围(0,1)。设置评估标准为敏感度、特异度以及二者的调和平均值F1，计算方法以事件为单位，敏感度SENS＝TP/(TP+FN)，特异度SPEC＝TN/(TN+FP)，对比基于相同的训练数据，1-7层的BLSTM网络的检测效果。当层数设置为5时，可达到最佳F1，单个网络参数量304479。

图3为本实施例中通过低秩分解法模型压缩的方法图，针对图2中的5层BLSTM网络，向其中所有层之间添加低秩降维层的方法实现低秩压缩。在输入x_t和网络单元的结点之间加入降维层，降维层的结点数设置为10，通过降维层，底层的隐结点输出通过线性映射被压缩到更少的结点中。设W_xc、W_xi、W_xf、W_xo中各有M×N个参数，网络中的原始模型参数个数为304479，经过低秩分解后，模型参数被压缩至130797，压缩比为0.423。

图4为本实施例中通过知识蒸馏法模型压缩的方法图，经过低秩分解后的集成模型做为教师模型，蒸馏后的模型做为学生模型，具体流程为：

(1)对于同一个训练集、每一批训练样本同时计算教师模型和学生模型的网络输出p_s和p_t；

(2)p_s作为软标签，分别计算p_t与软标签p_s、真实标签y_true之间的交叉熵损失，分别记作BCE(y_true,p_s)和BCE(p_s,p_t)；

(3)设置温度T＝4，λ＝0.5计算联合损失：

然后根据损失值更新网络权重。

实施例2

一种嵌入式设备，包括至少一个处理器以及至少一个与处理器进行通信连接的存储器，在存储器内存储有可被处理器执行的指令，这些可被至少一个处理器执行，可被执行的指令包括实施例1中的任一项方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。