CN112863667B

CN112863667B - 一种基于深度学习的肺部声音诊断装置

Info

Publication number: CN112863667B
Application number: CN202110088348.0A
Authority: CN
Inventors: 陈石; 李文钧; 岳克强; 王超; 李宇航; 张汝林; 沈皓哲
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2023-10-24
Anticipated expiration: 2041-01-22
Also published as: CN112863667A

Abstract

本发明公开了一种基于深度学习的肺部声音诊断装置，包括依次连接的采集设备、图像标注工具、数据预处理模块、二次数据增强模块和深度学习分类模型；采集设备，分别采集肺部健康状况正常和异常的肺部听诊数据；图像标注工具，对所采集到的每段音频进行划分和标注；数据预处理模块和二次数据增强模块，对所采集到的音频信号样本进行预处理，并做数据增强，得到不同肺部听诊信号样本的音频初级特征，归类并标记为正常样本和异常样本，用于后续进一步的深度学习特征提取；深度学习分类模型，根据初级特征向量进行训练，得到一系列高层特征，采用RF分类器进行分类，通过输入的高层特征，得到多分类RF模型。

Description

一种基于深度学习的肺部声音诊断装置

技术领域

本发明涉及智慧医疗技术领域，尤其是涉及基于深度学习模型的音频信号分类装置。

背景技术

肺是人体的呼吸器官，是人体与外界进行气体交换的主要场所。而在气体交换的过程中，肺会产生不同的声音，比如低调干啰音、大水泡音、中水泡音和小水泡音等。这些声音间接地反映了肺部以及呼吸道的健康问题：低调干啰音对应异常气管或主气管异常，大水泡音对应支气管扩张、肺水肿及肺结核或肺脓肿空洞，中水泡音对应支气管炎或支气管肺炎，小水泡音对应细支气管炎、早期肺淤血。在传统医疗领域，医生需要借助听诊器听取这些音频并依靠自己的经验来判断病人的情况，这种人工的方式效率较低且过度依赖医生的个人经验，准确率并不稳定；而近年来出现的一些基于深度学习的方法也仅仅使用了一些较为基础的网络模型，不能很好提取特征，效果不佳。因此有必要设计一种使用改进的神经网络和分类器结合的深度学习方法，对听诊信号进行准确度较高的分类，使有患病风险的人可以在没有医生的情况下适时评估自己的健康状况，起到早期诊断和预警的作用。

发明内容

为解决现有技术的不足，实现降低对医生个人经验的依赖，提高诊断效率和准确率的目的，本发明采用如下的技术方案：

一种基于深度学习的肺部声音诊断装置，包括依次连接的采集设备、图像标注工具、数据预处理模块、二次数据增强模块和深度学习分类模型；

采集设备，分别采集肺部健康状况正常和异常的肺部听诊数据；

图像标注工具，对所采集到的每段音频进行划分和标注；

数据预处理模块和二次数据增强模块，对所采集到的音频信号样本进行预处理，并做数据增强，得到不同肺部听诊信号样本的音频初级特征，归类并标记为正常样本和异常样本，用于后续进一步的深度学习特征提取；

深度学习分类模型，根据输入的正常听诊信号和异常听诊信号的初级特征向量，进行训练，得到一系列高层特征，采用RF分类器代替代替softmax分类层进行分类，通过输入的高层特征，得到多分类RF模型，RF分类器可以有效运行大数据集，因为原始音频信号经过数据增强后扩充为较大的数据集，可以有效处理高维特征且不需要降维，因为经过提取的高层特征具有较高维度，可以评估各个特征对于分类的重要性，对特征的利用更加灵活，而RF分类器对多维数据的处理能力远强于原来的softmax分类层，此外，RF分类器可以进一步避免过拟合现象，提高分类精度。

进一步的，所述数据预处理模块，先进行长音频数据分段，再对每段做分帧、加窗以及短时傅里叶变换，X(n)是一个长序列，W(n)是长度为N的窗函数，用W(n)给X(n)加窗，得到N点序列Y(n)，即Y(n)＝X(n)W(n)，而频域上则有：

其中，j表示虚轴单位，w表示角频率，θ表示偏移相位，窗函数是一种在给定区域外值都为零的函数，通过窗函数对原信号加窗能使信号在全局更加连续，让每帧信号的幅度在两端趋近于零，使变换结果的分辨率得到提升，此外，为了降低分帧导致的误差，也常采取1/2左右时长的帧移，使前后两帧在首尾处有交叉重叠，经过分帧加窗，原始的音频信号被截断，单帧的平稳性得到保证，但也不可避免地引起了频谱畸变能量泄漏的问题，为了降低频谱泄露的影响，可以釆用不同的窗函数降低频谱泄漏，在一次傅里叶变换过程中，采用一个固定的窗函数，使该窗函数两侧旁瓣的高度接近零，使能量大部分集中在主瓣，这样就不会和原始信号的频谱产生较大的差异。

进一步的，所述窗函数采用汉宁窗，和其他窗函数相比，它的主瓣宽度增加，高度降低，并且旁瓣较小，能够有效降低高频干扰和能量泄漏，窗函数如下：

W(n)＝0.5[1-cos(2πn/(M+1))]；1≤n≤M

音频文件本质上是时域数字信号，主要包含时域信息，当对一个离散时域信号进行离散傅里叶变换时，就可以得到它的频域信息，然而此时又丢失了它的时域信息，为了同时获取信号的时域和频域特征，采用短时傅里叶变换对原始音频进行分析，将窗函数加在一段连续非平稳的信号上，并随着时间移动窗口，使原信号变成一个个短时平稳信号，然后再对这些短时平稳信号作傅里叶变换，短时傅里叶变换的公式如下：

其中，s(t)为原信号，γ(t)为窗函数，τ表示不同于t的变量。对于离散的数字信号，其短时傅里叶变换公式如下：

其中，m表示第m个离散信号，n表示第n个离散信号，k表示离散信号个数，L表示离散信号长度。

进一步的，所述二次数据增强模块，对原始音频数据集进行第一次数据增强，增强包括音频旋转、音量变化、音频加噪；

音频旋转：将音频文件中后一段数据截取拼接到开头，得到一组新的数据序列；

音量变化：将音频信号的音量按原始音频的倍数变换，得到新数据；

音频加噪：往音频中加入随机噪声数据，得到新数据；

对第一次增强后的音频数据进行频谱分析，包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算，得到音频文件对应的语谱图，将音频数据转化为语谱图数据后，进行第二次数据增强，采用随机均值替换法产生新的语谱图数据，实现数据增强；

随机选取行列：通过随机方式选取每个语谱图中部分行与部分列；

均值替换：计算每个语谱图中二维数据的平均值，用均值替换掉随机选取的行列数据，得到新的语谱图数据；

数据保存：对每个语谱图重复多次随机选取行列和均值替换的操作，得到多组新的语谱图数据，加入到原数据集中，完成第二次数据增强。

进一步的，所述初级特征的提取，对信号进行FFT变换：

其中，x_i(m)表示第m个信号，X(i,k)表示信号的频谱，则信号的短时幅度谱表示为|X(i,k)|，能量密度函数表示为P(i,k)＝|X(i,k)|²，对其进行伪彩色映射，得到的二维图像，即谱图，同时反映时域和频域信息，再通过FFT和窗移得到正常音频和异常音频的谱图，

谱图的窗长和窗移参数的确定由最终分类效果决定，通过控制输入谱图尺寸不变，训练集和测试集的比例也相同，分别把几组不同的FFT和窗移参数随机组合得到的谱图输入深度学习分类模型，最终确定的FFT和窗移参数组合即为分类准确率最高的那组的参数。

由海森堡不确定准则可知，变换的时间分辨率和频率分辨率受到限制，无法同时达到最佳，频率分辨率随着窗口的变长而提高，时间分辨率则相反，因为时域频域相互制约，所以在测试前无法确定怎么设置窗函数长度等变量，需要根据测试结果来调整，因此需要由分类结果的优劣反回去决定用于生成特征谱图的参数。

进一步的，所述深度学习分类模型采用Inception_Resnet网络提取高层特征，该深度学习分类模型是一种轻量化网络，在保持一定准确度的同时可以大幅减少运算量，适合于本发明的应用场景。

进一步的，数据在输入Inception_Resnet网络前先进行多次卷积和池化操作，可以避免瓶颈效应，引入残差结构，防止梯度下降问题，设定dropout值，随机删除部分隐层单元，在输入层不变的情况下更新网络权值，依次迭代。

进一步的，所述深度学习分类模型在编译过程中，采用Adam优化器代替RMSprop优化器，计算梯度移动的指数均值，并通过两个参数α₁和α₂控制衰减率，具体更新算法如下：

p_t＝α₁p_t-1+(1-α₁)g_t

g_t＝Δ_θJ(θ_t-1)

其中，g_t为t时间步的梯度，p_t为梯度的一阶矩估计，q_t为梯度的二阶矩估计，α₁、α₂分别为一阶动量衰减系数和二阶动量衰减系数，控制p_t和q_t的衰减速率，Δ_θ表示网络参数变化量，J表示动量，θ_t表示t时刻网络参数，p₀、q₀初始化为0，会导致p_t和q_t偏向于0，即出现偏差，尤其是在训练初期阶段，所以，需要对p_t和q_t进行偏差修正，以降低偏差对训练初期的影响，偏差修正方法为：

和/>分别表示对一阶矩和二阶矩进行偏差修正后的估计值，进而得到网络参数更新优化的过程如下：

β表示步长即学习率，ε是用于数值稳定的小常数。

进一步的，采用树停止生长的规则改进RF分类器，决策树是一个树结构，其每个非叶节点表示一个特征属性上的评估，即提取到的各类特征，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别，即各个特征对结果的正负影响，使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果，但是如果过度提取特征，即本发明的最大树高H_max过大或每个节点中数据点数量N(D_kl)过少，就会出现过拟合现象，为了防止这种过拟合，需要根据RF网络所输出分类结果的准确率来调整最大树高H_max和数据点数量N(D_kl)，以获得尽可能高的准确率，当树增长到H＝H_max时就停止生长，如果节点内部的数据点足够少，也会停止生长，设N(D_kl)为节点D_kl中的数据点的数量，当树增长到N(D_kl)≤N_min时停止，其中N_min是节点中预定的最小数据点数量。

进一步的，采用特征重要性判定改进RF分类器，由于卷积神经网络所提取的高层特征有很多，并且每个特征对分类的贡献和影响程度都不同，因此为了提高分类准确性，需要强化那些有用特征的作用，弱化那些无用特征的作用，为避免过拟合，需要进行特征重要性判定，删除特征重要性较弱的非叶子节点的左右子节点，用被抽到的样本组成的分类树去测试未被抽选的袋外样本，根据每次抽选的分类结果去判定各特征的重要性；

在决策树中，每个节点t分裂是由节点杂质ΔR(t)的减少决定的，节点杂质ΔR(t)为基尼系数，节点t中有子数据集包含来自c类，Gini(t)的定义为：

其中是j类int的相对频率，c是c类总数，如果tint是负偏，Gini(t)最小化，int表示节点，tint表示增益，节点t分裂出两个子节点t1和t2，其表示为N₁(t)和N₂(t)，分割数据的基尼指数定义为：

Ginit为基尼指数，N(t)为节点总数，特征提供最小Gini_spilit来选择分割节点，在单一决策树T_k中特征重要评分X_j为：

t表示节点，对所有树K进行计算得到特征重要评分的定义为：

K表示所有树的节点总数，k表示求和表达式中各个节点。

本发明的优势和有益效果在于：

本发明的采集设备易于收集数据且对人体无害，由人工智能代替传统人工进行音频处理和分析，无需专业医生就可以得到自己肺部、呼吸道的健康状况；选择了合适的数据预处理和二次数据增强模块，并且通过相同数据在不同增强参数的情况下的分类准确率选择效果最优的一组参数，更有针对性地使得有限的数据得到良好的扩充，利于后续训练且提升了模型的泛化能力；设计了性能较好的分类网络，用改进的分类器代替原网络最后的分类层，对几种不同肺部音频的分类准确率提升较大，对疾病早期诊断有很大的帮助，增强了本发明装置的实用性。

附图说明

图1是本发明的模块结构示意图。

图2是本发明中使用labelme软件对音频信号进行标注时的具体操作展示图。

图3是本发明中数据预处理模块的工作流程图。

图4是本发明中体现二次数据增强效果的准确率对比图。

图5是本发明中改进的深度学习分类模型的结构示意图。

图6是本发明中Inception_resnet1结构示意图。

图7是本发明中Inception_resnet2结构示意图。

图8是本发明中Inception_resnet3结构示意图。

图9是本发明中卷积和池化的模块结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1、图2所示，一种基于深度学习的肺部声音诊断装置，包括：采集设备、图像标注工具、数据预处理模块、二次数据增强模块、深度学习分类模型。

采集设备，分别采集一定数量肺部健康状况良好个体的肺部听诊音频，以及采集较多数量存在不同肺部异常的个体的听诊数据；

图像标注工具，采用labelme软件对所采集到的每段音频进行划分和标注；

数据预处理模块和二次数据增强模块，对所采集到的音频信号样本进行预处理，并做数据增强，得到不同肺部听诊信号样本的音频初级特征，归类并标记为正常样本和几类不同的异常样本，用于后续进一步的深度学习特征提取；

改进的深度学习分类模型，根据输入的正常听诊信号和异常听诊信号的初级特征向量，进行训练，得到一系列高层特征；

深度学习分类模型采用RF分类器，通过输入的高层特征，训练出一个多分类RF模型。

通过采集设备采集待诊断者的肺部听诊音频信号，经数据预处理模块和二次数据增强模块进行预处理和数据增强，将待诊断者的肺部听诊音频特征输入训练好的改进的深度学习分类模型与RF分类器组成的整体网络，得到最终分类结果，反映待诊断者的具体肺部问题。

采集设备，包括听诊传感器、放大器、A/D采集卡、存储卡，音频采集时，采集大量肺部的听诊音频信号，需要使用听诊传感器完成第一步采集，还需要放大器对所采集的音频做一定的放大处理，再用A/D采集卡转换为数字信号，并且需要储存卡保存经过处理的音频。

对于需要采集的数据本身，则要求其包含正常音、低调干啰音、大水泡音、中水泡音和小水泡音五个大类，再按各自特征对数据用labelme软件对音频进行标注，并分别从时域和频域对信号进行分析处理。

如图3所示，数据预处理模块，先进行长音频数据分段，再对每段做分帧、加窗以及短时傅里叶变换。假设X(n)是一个长序列，W(n)是长度为N的窗函数，用W(n)给X(n)加窗，得到N点序列Y(n)，即Y(n)＝X(n)W(n)，而频域上则有：

其中，j表示虚轴单位，w表示角频率，θ表示偏移相位，窗函数是一种在给定区域外值都为零的函数，通过窗函数对原信号加窗能使信号在全局更加连续，让每帧信号的幅度在两端趋近于零，使变换结果的分辨率得到提升。此外，为了降低分帧导致的误差，也常采取1/2左右时长的帧移，使前后两帧在首尾处有一定的交叉重叠。经过分帧加窗，原始的音频信号被截断，单帧的平稳性得到保证，但也不可避免地引起了频谱畸变能量泄漏的问题。为了降低频谱泄露的影响，可以釆用不同的窗函数。在一次傅里叶变换过程中，通常采用一个固定的窗函数，如果该窗函数两侧旁瓣的高度接近零，就能让能量大部分集中在主瓣，这样就不会和原始信号的频谱产生较大的差异。常用的窗函数有矩形窗、三角窗、汉宁窗、海明窗、高斯窗等。

矩形窗属于时间变量的零次幂窗，它的主瓣相对集中，旁瓣较高，并且伴随着负旁瓣，在变换过程中可能会产生高频干扰。窗函数如下：

其中，R(n)表示矩形窗函数，M表示窗函数长度。

汉宁窗和其他窗函数相比，它的主瓣宽度增加，高度降低，并且旁瓣较小，能够有效降低高频干扰和能量泄漏。窗函数如下：

W(n)＝0.5[1-cos(2πn/(M+1))]；1≤n≤M

音频文件本质上是时域数字信号，主要包含时域信息。当对一个离散时域信号进行离散傅里叶变换时，就可以得到它的频域信息，然而此时又丢失了它的时域信息。为了同时获取信号的时域和频域特征，通常采用短时傅里叶变换对原始音频进行分析。短时傅里叶变换是信号时频分析方法的一种，它将窗函数加在一段连续非平稳的信号上，并随着时间移动窗口，使原信号其变成一个个短时平稳信号，然后再对这些短时平稳信号作傅里叶变换。由海森堡不确定准则可知，变换的时间分辨率和频率分辨率受到限制，无法同时达到最佳。频率分辨率随着窗口的变长而提高，时间分辨率则相反。因为时域频域相互制约，所以在测试前无法确定怎么设置窗函数长度等变量，需要根据测试结果来调整。短时傅里叶变换的公式如下：

如图4所示，二次数据增强模块，在数据预处理之后即可进行第一次数据增强。这里采用一般的音频增强方法，即对原始音频数据集使用旋转、调音、加噪3种方法产生更多新的数据，完成后音频数据量为原来的6倍(例如，原数据量为x，音频旋转后数据量为2x，对2x做音量变化后1倍音量、1.5倍音量、0.6倍音量的数据量均为2x，一共数据量6x，音频加噪不额外增加数据量，只是对这6x数据随机加入噪声，最终扩为原始数据的6倍)。具体操作如下：

音频旋转：将音频文件中后20％数据截取拼接到开头，得到一组新的数据序列；

音量变化：将音频信号的音量分别变换为原始音频的1.5倍和0.6倍，得到两组新数据；

音频加噪：往音频中加入随机噪声数据，得到新数据。

对第一次增强后的音频数据进行频谱分析，包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算，得到音频文件对应的语谱图。在此过程中，帧长设为25ms，帧移设为10ms，梅尔谱带的个数设为76。经过转化，采样率为44100Hz的5s时长音频会得到498×76大小的语谱图，4s时长音频会得到398×76大小的语谱图。将音频数据转化为语谱图数据后，进行第二次数据增强。本文使用随机均值替换法产生新的语谱图数据，实现数据增强，完成后数据量为第一次数据增强后的4倍。具体操作步骤如下：

随机选取行列：通过随机方式选取每个语谱图中30％的行与30％的列；

均值替换：计算每个语谱图中二维数据的平均值，用均值替换掉随机选取的行列数据，可得到新的语谱图数据；

数据保存：对每个语谱图重复3次步骤1和2的操作，得到3组新的语谱图数据，加入到原数据集中，即完成第二次数据增强。

对完成数据增强的谱图进行特征提取的操作如下：

信号的FFT变换为：

其中，x_i(m)表示第m个信号，X(i,k)表示信号的频谱，则信号的短时幅度谱可表示为|X(i,k)|，能量密度函数表示为P(i,k)＝|X(i,k)|²，对其进行伪彩色映射，得到的二维图像，即为谱图，同时反映时域和频域信息。再通过一定点FFT和一定比例的窗移得到正常音频和异常音频的谱图。

谱图的窗长和窗移参数的确定由最终分类效果决定。具体方法是控制输入谱图尺寸不变(224*224)，训练集和测试集的比例也相同(4:1)，分别把几组不同的参数组合(256、512、1024点FFT与1/2、1/4窗移随机组合)得到的谱图输入改进的深度学习分类模型，最终确定的参数组合即为分类准确率最高的那组的参数，经试验为256点FFT、1/4窗移下的谱图。

得到经过数据增强的谱图后，需要提取其高层的特征。用于提取高层特征的神经网络选用改进的Inception_Resnet网络(该网络只负责提取高层特征而不直接用作分类)，如图5-图8所示，具体的措施主要是去掉softmax分类层用RF分类器代替、修改层结构、优化算法、调整批处理数据量和学习率更新机制，并且由分类结果的优劣反回去决定用于生成谱图的参数。该网络模型是以残差结构和其一代为基础的一种轻量化网络，在保持一定准确度的同时可以大幅减少运算量，适合于本发明的应用场景。

该网络在输入Inception结构前先进行多次卷积和池化操作，如图9所示，可以避免瓶颈效应。引入残差结构思想可以防止梯度下降问题，将dropout值设为0.4，可随机删除一些隐层单元，在输入层不变情况下更新网络权值，依次迭代。

改进的深度学习分类模型在编译过程中，对优化算法的改进措施是用Adam算法代替RMSprop优化器，该算法计算了梯度移动的指数均值，并通过两个参数α₁和α₂控制衰减率。具体更新算法如下：

p_t＝α₁p_t-1+(1-α₁)g_t

g_t＝Δ_θJ(θ_t-1)

其中，g_t为t时间步的梯度，p_t为梯度的一阶矩估计，q_t为梯度的二阶矩估计，α₁、α₂分别为一阶动量衰减系数和二阶动量衰减系数，控制p_t和q_t的衰减速率，Δ_θ表示网络参数变化量，J表示动量，θ_t表示t时刻网络参数。p₀、q₀初始化为0，会导致p_t和q_t偏向于0，即出现偏差，尤其是在训练初期阶段。所以，需要对p_t和q_t进行偏差修正，以降低偏差对训练初期的影响。

偏差修正方法为：

式中和/>分别表示对一阶矩和二阶矩进行偏差修正后的估计值。进而可得网络参数更新优化的过程如下：

β表示步长即学习率，ε是用于数值稳定的小常数。本研究使用Adam优化器的参数设置为α1＝0.8、α₂＝0.8、ε＝10^-8。

提取到谱图的高层特征后，本模型去掉原模型中用于分类的softmax层，将倒数第二层经过全局平均池化后的输出和标签传入改进的RF分类网络。做这种替换的依据是RF分类器可以有效运行大数据集(原始音频信号经过数据增强后扩充为较大的数据集)，可以有效处理高维特征且不需要降维(经过第一步网络所提取的高层特征具有较高维度)，可以评估各个特征对于分类的重要性(对特征的利用更加灵活)而RF分类网络对多维数据的处理能力远强于原来的softmax层。此外，RF分类器可以进一步避免过拟合现象，提高分类精度。

本发明的神经网络先保留原网络模型的softmax层进行训练，固定好大部分参数，再把softmax层替换为RF分类器，用RF分类器对之前几层网络提取到的高层特征做更有效的筛选。

对RF分类网络的改进主要是树停止生长的规则和特征重要性判定的方法。

决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的评估，即本发明中softmax层之前卷积神经网络提取到的各类特征，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别，即本发明中各个特征对结果的正负影响。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。但是如果过度提取特征，即本发明的最大树高H_max过大或每个节点中数据点数量N(D_kl)过少，就会出现过拟合现象，相当于普通神经网络中卷积层过多和训练轮次过多。为了防止这种过拟合，需要根据RF网络所输出分类结果的准确率来调整最大树高H_max和数据点数量N(D_kl)，这两个参数决定了树的高度，因此类似于对树结构进行停止生长的判定，以获得尽可能高的准确率。

生长停止与否由以下二者共同决定：最大树高H_max和节点内部数据点，可以更好防止过拟合。当树增长到H＝H_max时就停止生长，它被设置为方法的超参数或调优参数。此外，如果节点内部的数据点足够少，也会停止生长。设N(D_kl)为节点D_kl中的数据点的数量，则当树增长到N(D_kl)≤N_min时停止，其中N_min是节点中预定的最小数据点数量，也将它定为另一个调优参数。

特征重要性判定是因为卷积神经网络所提取的高层特征有很多，并且每个特征对分类的贡献和影响程度都不同，因此为了提高分类准确性，需要强化那些有用特征的作用，弱化那些无用特征的作用。本发明中采用的判定方法是用被抽到的样本组成的分类树去测试未被抽选的袋外样本，根据每次抽选的分类结果去判定各特征的重要性。

在RF分类过程中，为避免过拟合需要删除特征重要性较弱的非叶子节点的左右子节点，因此需要先进行特征重要性判定。本改进分类算法可以在树生长过程中得到一种特征重要性测度。在决策树中每个节点t分裂是由节点杂质ΔR(t)的减少决定的。节点杂质ΔR(t)为基尼系数。如果节点t中有子数据集包含来自c类，gini(t)的定义为：

其中是j类int的相对频率，c是c类总数。如果tint是负偏，Gini(t)最小化，int表示节点，tint表示增益。节点t分裂出两个子节点t1和t2，其表示为N₁(t)和N₂(t)。分割数据的基尼指数定义为：

Ginit为基尼指数，N(t)为节点总数。

特征提供最小Gini_spilit来选择分割节点。在单一决策树T_k中特征重要评分X_j为：

t表示节点。

对所有树K进行计算的定义为：

K表示所有树的节点总数，k表示求和表达式中各个节点。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于深度学习的肺部声音诊断装置，包括采集设备和深度学习分类模型，其特征在于还包括图像标注工具、数据预处理模块和二次数据增强模块，所述图像标注工具分别与采集设备和数据预处理模块连接，所述二次数据增强模块分别与数据预处理模块和深度学习分类模型连接；

所述采集设备，分别采集肺部健康状况正常和异常的肺部听诊数据；

所述图像标注工具，对所采集到的每段音频进行划分和标注；

所述数据预处理模块和二次数据增强模块，对所采集到的音频信号样本进行预处理，并做数据增强，得到不同肺部听诊信号样本的音频初级特征，归类并标记为正常样本和异常样本，用于后续进一步的深度学习特征提取；

二次数据增强模块，对原始音频数据集进行第一次数据增强，增强包括音频旋转、音量变化、音频加噪；

音频加噪：往音频中加入随机噪声数据，得到新数据；

数据保存：对每个语谱图重复多次随机选取行列和均值替换的操作，得到多组新的语谱图数据，加入到原数据集中，完成第二次数据增强；

所述深度学习分类模型，根据输入的正常听诊信号和异常听诊信号的初级特征向量，进行训练，得到一系列高层特征，高层特征采用Inception_Resnet网络提取，采用RF分类器代替softmax分类层进行分类，通过输入的高层特征，得到多分类RF模型；

深度学习分类模型在编译过程中，采用Adam优化器代替RMSprop优化器，计算梯度移动的指数均值，并通过两个参数α₁和α₂控制衰减率，具体更新算法如下：

p_t＝α₁p_t-1+(1-α₁)g_t

g_t＝Δ_θJ(θ_t-1)

其中，g_t为t时间步的梯度，p_t为梯度的一阶矩估计，q_t为梯度的二阶矩估计，α₁、α₂分别为一阶动量衰减系数和二阶动量衰减系数，控制p_t和q_t的衰减速率，Δ_θ表示网络参数变化量，J表示动量，θ_t-1表示t-1时刻网络参数，对p_t和q_t进行偏差修正，偏差修正方法为：

β表示步长即学习率，ε是用于数值稳定的小常数。

2.如权利要求1所述的一种基于深度学习的肺部声音诊断装置，其特征在于所述数据预处理模块，先进行长音频数据分段，再对每段做分帧、加窗以及短时傅里叶变换，X(n)是一个长序列，W(n)是长度为N的窗函数，用W(n)给X(n)加窗，得到N点序列Y(n)，即Y(n)＝X(n)W(n)，而频域上则有：

其中，j表示虚轴单位，w表示角频率，θ表示偏移相位，采用帧移，使前后两帧在首尾处有交叉重叠釆用不同的窗函数降低频谱泄漏，在一次傅里叶变换过程中，采用一个固定的窗函数，使该窗函数两侧旁瓣的高度接近零，使能量大部分集中在主瓣。

3.如权利要求2所述的一种基于深度学习的肺部声音诊断装置，其特征在于所述窗函数采用汉宁窗，窗函数如下：

W(n)＝0.5[1-cos(2πn/(M+1))]；1≤n≤M

采用短时傅里叶变换对原始音频进行分析，将窗函数加在一段连续非平稳的信号上，并随着时间移动窗口，使原信号变成一个个短时平稳信号，然后再对这些短时平稳信号作傅里叶变换，短时傅里叶变换的公式如下：

其中，s(t)为原信号，γ(t)为窗函数，τ表示不同于t的变量，对于离散的数字信号，其短时傅里叶变换公式如下：

4.如权利要求1所述的一种基于深度学习的肺部声音诊断装置，其特征在于所述初级特征的提取，对信号进行FFT变换：

其中，x_i(m)表示第m个信号，X(i,k)表示信号的频谱，则信号的短时幅度谱表示为|X(i,k)|，能量密度函数表示为P(i,k)＝|X(i,k)|²，对其进行伪彩色映射，得到的二维图像，即谱图，同时反映时域和频域信息，再通过FFT和窗移得到正常音频和异常音频的谱图，谱图的窗长和窗移参数的确定由最终分类效果决定，通过控制输入谱图尺寸不变，训练集和测试集的比例也相同，分别把几组不同的FFT和窗移参数随机组合得到的谱图输入深度学习分类模型，最终确定的FFT和窗移参数组合即为分类准确率最高的那组的参数。

5.如权利要求1所述的一种基于深度学习的肺部声音诊断装置，其特征在于数据在输入Inception_Resnet网络前先进行多次卷积和池化操作，引入残差结构，设定dropout值，随机删除部分隐层单元，在输入层不变的情况下更新网络权值，依次迭代。

6.如权利要求1所述的一种基于深度学习的肺部声音诊断装置，其特征在于采用树停止生长的规则改进RF分类器，决策树是一个树结构，其每个非叶节点表示一个特征属性上的评估，即提取到的各类特征，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别，即各个特征对结果的正负影响，使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果，根据RF网络所输出分类结果的准确率来调整最大树高H_max和数据点数量N(D_kl)，当树增长到H＝H_max时就停止生长，N(D_kl)为节点D_kl中的数据点的数量，当树增长到N(D_kl)≤N_min时停止，其中N_min是节点中预定的最小数据点数量。

7.如权利要求1所述的一种基于深度学习的肺部声音诊断装置，其特征在于采用特征重要性判定改进RF分类器，进行特征重要性判定，删除特征重要性较弱的非叶子节点的左右子节点，用被抽到的样本组成的分类树去测试未被抽选的袋外样本，根据每次抽选的分类结果去判定各特征的重要性；

Gini为基尼指数，N(t)为节点总数，特征提供最小Gini_spilit来选择分割节点，在单一决策树T_k中特征重要评分X_j为：

K表示所有树的节点总数，k表示求和表达式中各个节点。