CN110970042B

CN110970042B - 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质

Info

Publication number: CN110970042B
Application number: CN201911280663.2A
Authority: CN
Inventors: 蔡盛盛; 胡南; 刘仁雨; 徐兴国
Original assignee: Suzhou Meinuoai Medical Technology Co ltd
Current assignee: Suzhou Meinuoai Medical Technology Co ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-04-18
Anticipated expiration: 2039-12-13
Also published as: WO2021114761A1; CN110970042A

Abstract

本发明涉及计算机听觉、人工智能技术领域，尤其为一种电子听诊器的肺部啰音人工智能实时分类方法，包括：通过电子听诊器实时采集肺音信号，并对肺部啰音自动分类，采集的数据滑动提取每2秒为一个数据块通过带通滤波器与归一化，利用对数梅尔滤波器组变换，计算出三个通道的数据矩阵，并输入一个预先搭建并训练好的卷积神经网络，该卷积神经网络的输出为四种肺音状况的概率值，系统联合多个数据块的结果给出最终的四种肺音状况的概率值。本发明，可以有效的提高啰音检测与分类结果的鲁棒性。本发明还公开了一种电子听诊器的肺部啰音人工智能实时分类系统、装置及计算机可读存储介质，与上述方法具有相同的有益效果。

Description

一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质

技术领域

本发明涉及计算机听觉、人工智能技术领域，具体为一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质。

背景技术

由于环境污染，空气质量恶化的影响，哮喘、肺炎、支气管炎等各种呼吸疾病的发病率正在逐年提高，每年有近100万5岁以下儿童死于急性下呼吸道感染，死亡人数超过艾滋病毒、疟疾和结核病溃疡的总和。由于呼吸系统的病变已成为严重威胁人类健康的疾病之一，对呼吸疾病准确的诊断和有效的治疗是保障患者尽早康复的有效方式。

目前医院用来检查和鉴定呼吸疾病的方法有：(1)胸部X线：这种方法可以记录肺部的大体病变,如肺部炎症、肿块、结核等。(2)肺CT：这种方法有助于对胸部X线发现的问题作出定性诊断，如肿块的类别、位置等。(3)支气管镜检查：这种方法用来确诊大多数肺部及气道疾病。但这些方法不仅价格昂贵而且相对会对人体造成影响，并且由于地域的限制，有些人可能无法接触到这些诊断的方法。

听诊是对呼吸疾病最早期也是最直接的检查手段之一。医护人员主要通过听诊器听取患者的呼吸音是否含有啰音——主要包括湿啰音和喘鸣音，图1展示了含有不同附加啰音的呼吸音，其中(a)包含湿啰音，(b)包含喘鸣音，(c)同时包含湿啰音和喘鸣音，(d)是正常的呼吸音。然而这种方法一直受制于听诊环境、医技水平等因素。

现有技术中，如公开号CN106022258A公开的数字听诊器与滤除心音提取肺音的方法，采用离散熵值先筛选出部分有效帧，然后对筛选的有效帧提取其平均幅值作为阈值，通过此阈值得到包含心音的肺音帧，再进行小波变换并使用阈值滤除相关的小波系数从而得到相对纯净的肺音帧。对肺音帧进行MFCC特征参数矩阵提取，并将此特征参数矩阵送入传统的后向传播(BP)网络进行类别判断。此方法需要通过两次阈值判断，相关的有用信息会在阈值判断中丢失，从而降低了MFCC特征参数矩阵的有效性。

如CN107704885A公开的在智能平台上实现心音与肺音分类的方法，首先对收到的数据进行5点重采样，采样频率为2205Hz，得到重采样信号之后进行滤波处理，设置带通最大衰减为3db，阻带最小衰减为18db。接着利用dmey小波进行小波去噪，得到去噪信号之后利用自相关系数进行分段。然后对每个分段提取MFCC特征参数矩阵并将特征参数矩阵输入支持向量机(SVM)分类器进行分类处理。但SVM分类器在处理如MFCC特征参数矩阵等高维的数据时并不是非常的高效，并且此方法也没有给出一种可以实时分类的方法。

如B.Mohammed发表的论文“Pattern recognition methods applied torespiratory sounds classification into normal and wheeze classes”结合MFCC特征与高斯混合模型(GMM)对正常肺音与含喘鸣音的肺音进行分类；P.Mayorga发表的论文“Acoustics based assessment of respiratory diseases using GMM classification”也同样使用GMM来对肺音的啰音进行分类；S.Alsmadi等人发表的论文“Design of a DSP-based instrument for real-time classification of pulmonary sounds”使用K-最近邻(K-NN)和最小距离准则来对肺音整体是否异常做出判断。

以上论文提出的方法可以针对某一种啰音或者数据的整体情况进行分类，但是不能对湿啰音、喘鸣音、两者都含有和两者都没有的多种情况进行全面的判断。

再如公开号CN107818366A公开的一种基于卷积神经网络的肺音分类方法、系统及用途，首先对肺音信号进行带通滤波，接着通过短时傅里叶变换将肺音时序信号转为二维的频谱图，最后将此频谱图作为输入的特征来对此肺音信号进行分类。此专利只是对卷积神经网络的简单应用，需要输入固定长度大小的信号后得到简单的正常/不正常肺音的二值结论。该方法无法满足实时性，容易受到短时间内干扰的影响引起误判，且分类结果过于简单。

目前针对肺部啰音信号进行分类的现有技术主要集中于传统的机器学习与模式识别，也有少数涉及深度学习里面比较简单的技术应用，总的来说这些现有技术存在以下几个缺点：

(1)上述方法的输入都需要是固定长度才可以提取得到固定长度的特征参数，然而在实际的应用场景中得到的是不定长的肺音信号，且实时的信号采集与诊断非常重要；

(2)啰音里面也有很多种类，不同的啰音种类对应着有不同的病症，因此，能够识别不同种类的啰音至关重要，但上述方法没有给出对于不同啰音种类的多分类方案；

(3)每个病人肺部病变的情况不同，导致即便是同一种啰音也可能在不同时刻呈现不一样的肺音，现有技术对啰音检测与分类结果的鲁棒性还很差。

随着近年来物联网(IoT)技术与人工智能(AI)技术的蓬勃发展，基于人工智能的方法来对肺部啰音进行实时分类成为可能。因此，实现一种电子听诊器的肺部啰音实时分类方法就成为迫切需要。

发明内容

本发明的目的在于提供一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种电子听诊器的肺部啰音人工智能实时分类方法，包括：

步骤1.从电子听诊器启动肺音采集开始，实时读取采集通道中的数据到某缓存空间，当数据累积到2秒时长时，启动肺部啰音自动分类程序；

步骤2.对该2秒时长的数据块降采样到f_s＝8kHz，通过1个带通滤波器，并作归一化；对数据块预处理，若该数据块为第i个数据块，记该预处理后的数据块为向量x_i；

步骤3.计算数据向量x_i的对数梅尔滤波器组变换，表示为矩阵F_i；

步骤4.利用对数梅尔滤波器组变换结果矩阵F_i，计算出三个通道的数据矩阵△_i,0、△_i,1和△_i,2；

步骤5.将这三个通道的数据矩阵△_i,0、△_i,1和△_i,2各自归一化，输入一个预先搭建并训练好的卷积神经网络，该卷积神经网络的输出为四个概率值：该数据块中只存在湿啰音的概率p_i,c、该数据块中只存在喘鸣音的概率p_i,w、该数据块同时存在湿啰音与喘鸣音的概率p_i,cw、该数据块既不存在湿啰音与喘鸣音的概率p_i,Null，保存这四个概率值p_i＝[p_i,c,p_i,w,p_i,cw,p_i,Null]^T。

步骤6.当缓存空间中保存的数据时长达到3.9秒时，剔除前1.9秒数据，将剩下的2秒数据作为第i+1个数据块，回到步骤2；当缓存空间中保存的数据时长未达到3.9秒肺音采集就结束时，进入步骤7；

步骤7.若最终未保存任何数据块的概率值，输出为“无法判断是否存在啰音”；若最终共保存了N个数据块上的概率值p₁,p₂,...,p_N，利用这些概率值，输出“肺音中只存在湿啰音”、“肺音中只存在喘鸣音”、“肺音中同时存在湿啰音与喘鸣音”与“肺音中无啰音”四种状态中的一种，并给出该状态的概率值。

优选的，步骤2中所用的滤波器为Butterworth带通滤波器，通带为100Hz～1000Hz。

优选的，步骤3中计算数据向量x_i的对数梅尔滤波器组变换矩阵F_i包括：

首先，计算x_i的短时傅里叶变换谱：将x_i分为M＝31段，每段包含N_FFT＝1024个采样点，段间交迭50％；令第m段数据表示为x_i,m(n),n＝0,1,...,N_FFT-1，则该段的快速傅里叶变换计算为

其中h(n)为汉明窗；

然后，|Y_i,m(k)|²经由一个梅尔滤波器组滤波；该梅尔滤波器组包含Q＝29个梅尔频率域范围f_Mel(f)＝2959×log₁₀(1+f/700),f～[0,f_s/2]上均匀间距且50％交迭的三角形滤波器Ψ_q,q＝1,2,...,Q；梅尔滤波器组滤波后的结果为

最后，计算x_i的对数梅尔滤波器组变换矩阵F_i，其第q行m列的元素由下式给出：F_i[q,m]＝log[y_i,m(q)]。

优选的，步骤4中计算出三个通道的数据矩阵包括：

首先，第一个通道上的29×29维数据矩阵△_i,0＝F[:,1:M-2]；

然后，第二个通道上的29×29维数据矩阵△_i,1＝F[:,2:M-1]-F[:,1:M-2]；

最后，第三个通道上的29×29维数据矩阵△_i,2＝(F[:,3:M]-F[:,2:M-1])-△_i,1。

优选的，步骤5中的卷积神经网络由一个大样本有标注的数据集训练得到，该网络的具体结构如图3所示；该卷积神经网络共有4个卷积层，其卷积核大小分别为5×5、3×3、3×3和3×3；卷积层使用ReLU作为激活函数；池化层使用最大池化；输出层通过softmax输出4个概率p_i,c、p_i,w、p_i,cw和p_i,Null；在训练该卷积神经网络过程中，标准差为0.1的截断正态分布用于参数初始权重，同时使用了Adam优化、Dropout学习以及L₂正则化。

优选的，步骤7中最终可能输出的四种状态所对应的概率值分别为：

“肺音中只存在湿啰音”的概率

“肺音中只存在喘鸣音”的概率

“肺音中无啰音”的概率

“肺音中同时存在湿啰音与喘鸣音”的概率p_cw＝1-p_c-p_w-p_Null。

最终输出的是这四种状态中概率最大的那一种状态以及其对应的概率。

为解决上述技术问题，本发明还提供一种电子听诊器的肺部啰音人工智能实时分类系统，包括：

电子听诊器，对肺音采集，为采集得到的数据分配一个缓存空间并持续进入缓存，当数据累积到2秒时长时，启动肺部啰音自动分类程序；

带通滤波器，对采集的数据进行滤波，并作归一化；

对数梅尔滤波器组，对数据向量变换结果矩阵，计算出三个通道的数据矩阵；

卷积神经网络，用于三个通道的数据矩阵输入，输出并保存四个概率值；

其中：电子听诊器、带通滤波器、对数梅尔滤波器组以及卷积神经网络顺次连接。

优选的，所述带通滤波器采用Butterworth带通滤波器，通带为100Hz～1000Hz，卷积神经网络共有4个卷积层，其卷积核大小分别为5×5、3×3、3×3和3×3；卷积层使用ReLU作为激活函数；池化层使用最大池化；输出层通过softmax输出。

为解决上述技术问题，本发明还提供一种电子听诊器的肺部啰音人工智能实时分类装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述的电子听诊器的肺部啰音人工智能实时分类方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的电子听诊器的肺部啰音人工智能实时分类方法的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明随时间滑动选取数据块输入特定的卷积神经网络进行分类，并最终联合所有的数据块的分类结果得到最终总的啰音分类结果，不需要预设输入数据的长度，可实现啰音实时自动分类，且利用多时间段联合啰音分类可提高分类结果的鲁棒性；

(2)本发明提取三通道的对数梅尔滤波器组变换特征作为卷积神经网络的输入；

(3)本发明明确给出了一种具体且有效的卷积神经网络结构用于肺部啰音分类，其中利用卷积层来发现输入数据更深层的特征，并在卷积层之后加入池化层来提高网络的容错能力；

(4)本发明在训练卷积神经网络过程中加入了标准差为0.1的截断正态分布用于参数权重初始化，同时使用Adam优化、Dropout学习以及L2正则化来防止过拟合，提高了本方法的鲁棒性；

(5)本发明可实现湿啰音、喘鸣音、两者都包含和两者都不包含这四种情况的多分类。

附图说明

图1为现有技术中含有不同附加啰音的呼吸音示意图；

图2为本发明所提出电子听诊器的肺部啰音人工智能实时分类方法的流程图；

图3为本发明单个数据块做四分类所用的卷积神经网络结构图；

图4为本发明预处理与提取的特征图：其中(a)为原始采集的信号波形示例图；(b)为对其中某段2秒数据块预处理之后的信号波形示例图；

图5为本发明电子听诊器的肺部啰音人工智能实时分类系统结构示意图；

图6为本发明电子听诊器的肺部啰音人工智能实时分类装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1～6，本发明提供一种技术方案：

通过电子听诊器实时采集肺音信号，为采集得到的数据分配一个缓存空间并持续进入缓存。当数据累积到2秒时长时，启动肺部啰音自动分类程序(数据波形示例如图4(a)所示)。

对该2秒时长的数据块降采样到f_s＝8kHz，通过1个通带为100Hz～1000Hz的Butterworth带通滤波器进行滤波，并作归一化。图4(b)所展示的是其中一段预处理之后的2秒数据块，若该数据块为第i个数据块，记该预处理后的数据块为向量x_i，并计算此数据向量x_i的对数梅尔滤波器组变换，表示为矩阵F_i，具体过程为：(1)首先，计算x_i的短时傅里叶变换谱：将x_i分为M＝31段，每段包含N_FFT＝1024个采样点，段间交迭50％；令第m段数据表示为x_i,m(n),n＝0,1,...,N_FFT-1，则该段的快速傅里叶变换计算为

其中h(n)为汉明窗；(2)然后，|Y_i,m(k)|²经由一个梅尔滤波器组滤波，该梅尔滤波器组包含Q＝29个梅尔频率域范围f_Mel(f)＝2959×log₁₀(1+f/700),f～[0,f_s/2]上均匀间距且50％交迭的三角形滤波器Ψ_q,q＝1,2,...,Q，梅尔滤波器组滤波后的结果为

(3)最后，计算x_i的对数梅尔滤波器组变换矩阵F_i，其第q行m列的元素由下式给出：F_i[q,m]＝log[y_i,m(q)]。在得到对数梅尔滤波器组变换结果矩阵F_i之后，通过

计算出三个通道的数据矩阵△_i,0、△_i,1和△_i,2。将这三个通道的数据矩阵△_i,0、△_i,1和△_i,2各自归一化，输入一个预先搭建并训练好的卷积神经网络(如图3所展示)，该卷积神经网络的输出为四个概率值：该数据块中只存在湿啰音的概率p_i,c、该数据块中只存在喘鸣音的概率p_i,w、该数据块同时存在湿啰音与喘鸣音的概率p_i,cw、该数据块既不存在湿啰音与喘鸣音的概率p_i,Null，保存这四个概率值p_i＝[p_i,c,p_i,w,p_i,cw,p_i,Null]^T。

当缓存空间中保存的数据时长达到3.9秒时，剔除前1.9秒数据，将剩下的2秒数据作为第i+1个数据块，并重复上述的过程。当缓存空间中保存的数据时长未达到3.9秒肺音采集就结束时，则进行判断：若最终未保存任何数据块的概率值，输出为“无法判断是否存在啰音”；若最终共保存了N个数据块上的概率值p₁,p₂,...,p_N，计算“肺音中只存在湿啰音”的概率

“肺音中只存在喘鸣音”的概率

“肺音中同时存在湿啰音与喘鸣音”的概率p_cw＝1-p_c-p_w-p_Null和“肺音中无啰音”的概率

比较这四个概率的大小，概率最大的状态即为识别出的状态，输出“肺音中只存在湿啰音”、“肺音中只存在喘鸣音”、“肺音中同时存在湿啰音与喘鸣音”与“肺音中无啰音”四种状态中的一种，并给出该状态的概率值。

利用生物医学与健康信息国际会议提供的920段肺音数据(涵盖了本发明涉及的四种肺音情况，每段数据长度非定长，持续时间在10秒～90秒)与申请人团队在国内几家医院儿科采集的508段肺音数据(同样涵盖了本发明涉及的四种肺音情况，每段数据长度在30秒以上)，共1428段数据作为肺音数据库，进行神经网络的训练和分类效果的验证。将其中1071段数据作为训练集，将其按本发明的数据块滑动选取方式切分出共14524个数据块，按前述方法提取其各自的三通道对数梅尔滤波器组变换特征并打上标记，进行卷积神经网络的训练。该网络的具体结构如图3所示；该卷积神经网络共有4个卷积层，其卷积核大小分别为5×5、3×3、3×3和3×3；卷积层使用ReLU作为激活函数；池化层使用最大池化；输出层通过softmax输出4个概率p_i,c、p_i,w、p_i,cw和p_i,Null；在训练该卷积神经网络过程中，标准差为0.1的截断正态分布用于参数初始权重，同时使用了Adam优化、Dropout学习以及L₂正则化。最后，利用余下的357段肺音数据作为测试集，得到最终测试集肺音数据段的啰音分类准确率为95.80％。

本发明提出的一种电子听诊器的肺部啰音人工智能实时分类方法，主要解决的技术问题包括：

(1)如何在实际肺音采集总时长不确定的条件下给出一种统一的啰音实时分类方法；(2)由于不同的啰音与不同的病症有关，因此如何实现啰音的多分类；(3)如何提高啰音检测与分类结果的鲁棒性。

本发明，通过上述方法，(1)可以在实际肺音采集总时长不确定的条件下给出一种统一的啰音实时分类方法；(2)本发明可以实现湿啰音、喘鸣音、两者都包含和两者都不包含这四种情况的多分类；(3)本发明可以有效的提高啰音检测与分类结果的鲁棒性。

具体来说：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，包括：

步骤5.将这三个通道的数据矩阵△_i,0、△_i,1和△_i,2各自归一化，输入一个预先搭建并训练好的卷积神经网络，该卷积神经网络的输出为四个概率值：该数据块中只存在湿啰音的概率p_i,c、该数据块中只存在喘鸣音的概率p_i,w、该数据块同时存在湿啰音与喘鸣音的概率p_i,cw、该数据块既不存在湿啰音与喘鸣音的概率p_i,Null，保存这四个概率值p_i＝[p_i,c,p_i,w,p_i,cw,p_i,Null]^T；

2.根据权利要求1所述的一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，步骤2中所用的滤波器为Butterworth带通滤波器，通带为100Hz～1000Hz。

3.根据权利要求1所述的一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，

步骤3中计算数据向量x_i的对数梅尔滤波器组变换矩阵F_i包括：

其中h(n)为汉明窗；

4.根据权利要求1所述的一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，

步骤4中计算出三个通道的数据矩阵包括：

首先，第一个通道上的29×29维数据矩阵△_i,0＝F[:,1:M-2]；

最后，第三个通道上的29×29维数据矩阵△_i,2＝(F[:,3:M]-F[:,2:M-1])-△_i,1，M为x_i分为的段数。

5.根据权利要求1所述的一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，

步骤5中的卷积神经网络由一个大样本有标注的数据集训练得到，该卷积神经网络共有4个卷积层，其卷积核大小分别为5×5、3×3、3×3和3×3；卷积层使用ReLU作为激活函数；池化层使用最大池化；输出层通过softmax输出4个概率p_i,c、p_i,w、p_i,cw和p_i,Null；在训练该卷积神经网络过程中，标准差为0.1的截断正态分布用于参数初始权重，同时使用了Adam优化、Dropout学习以及L₂正则化。

6.根据权利要求1所述的一种电子听诊器的肺部啰音人工智能实时分类方法，其特征在于，

步骤7中最终可能输出的四种状态所对应的概率值分别为：

“肺音中只存在湿啰音”的概率

“肺音中只存在喘鸣音”的概率

“肺音中无啰音”的概率

7.一种电子听诊器的肺部啰音人工智能实时分类系统，其特征在于，包括：

带通滤波器，对采集的数据进行滤波，并作归一化；

将这三个通道的数据矩阵各自归一化，输入一个预先搭建并训练好的卷积神经网络，该卷积神经网络的输出为四个概率值：该数据块中只存在湿啰音的概率p_i,c、该数据块中只存在喘鸣音的概率p_i,w、该数据块同时存在湿啰音与喘鸣音的概率p_i,cw、该数据块既不存在湿啰音与喘鸣音的概率p_i,Null，保存这四个概率值p_i＝[p_i,c,p_i,w,p_i,cw,p_i,Null]^T；

当缓存空间中保存的数据时长达到3.9秒时，剔除前1.9秒数据，将剩下的2秒数据作为第i+1个数据块，回到步骤2；当缓存空间中保存的数据时长未达到3.9秒肺音采集就结束时，进入下一步骤；

若最终未保存任何数据块的概率值，输出为“无法判断是否存在啰音”；若最终共保存了N个数据块上的概率值p₁,p₂,...,p_N，利用这些概率值，输出“肺音中只存在湿啰音”、“肺音中只存在喘鸣音”、“肺音中同时存在湿啰音与喘鸣音”与“肺音中无啰音”四种状态中的一种，并给出该状态的概率值；

8.根据权利要求7所述的一种电子听诊器的肺部啰音人工智能实时分类系统，其特征在于，所述带通滤波器采用Butterworth带通滤波器，通带为100Hz～1000Hz，卷积神经网络共有4个卷积层，其卷积核大小分别为5×5、3×3、3×3和3×3；卷积层使用ReLU作为激活函数；池化层使用最大池化；输出层通过softmax输出。

9.一种电子听诊器的肺部啰音人工智能实时分类装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1～6任一项所述的电子听诊器的肺部啰音人工智能实时分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～6任一项所述的电子听诊器的肺部啰音人工智能实时分类方法的步骤。