CN112863667B - 一种基于深度学习的肺部声音诊断装置 - Google Patents

一种基于深度学习的肺部声音诊断装置 Download PDF

Info

Publication number
CN112863667B
CN112863667B CN202110088348.0A CN202110088348A CN112863667B CN 112863667 B CN112863667 B CN 112863667B CN 202110088348 A CN202110088348 A CN 202110088348A CN 112863667 B CN112863667 B CN 112863667B
Authority
CN
China
Prior art keywords
data
audio
deep learning
signal
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110088348.0A
Other languages
English (en)
Other versions
CN112863667A (zh
Inventor
陈石
李文钧
岳克强
王超
李宇航
张汝林
沈皓哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110088348.0A priority Critical patent/CN112863667B/zh
Publication of CN112863667A publication Critical patent/CN112863667A/zh
Application granted granted Critical
Publication of CN112863667B publication Critical patent/CN112863667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/003Detecting lung or respiration noise
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/02Stethoscopes
    • A61B7/04Electric stethoscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pulmonology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于深度学习的肺部声音诊断装置,包括依次连接的采集设备、图像标注工具、数据预处理模块、二次数据增强模块和深度学习分类模型;采集设备,分别采集肺部健康状况正常和异常的肺部听诊数据;图像标注工具,对所采集到的每段音频进行划分和标注;数据预处理模块和二次数据增强模块,对所采集到的音频信号样本进行预处理,并做数据增强,得到不同肺部听诊信号样本的音频初级特征,归类并标记为正常样本和异常样本,用于后续进一步的深度学习特征提取;深度学习分类模型,根据初级特征向量进行训练,得到一系列高层特征,采用RF分类器进行分类,通过输入的高层特征,得到多分类RF模型。

Description

一种基于深度学习的肺部声音诊断装置
技术领域
本发明涉及智慧医疗技术领域,尤其是涉及基于深度学习模型的音频信号分类装置。
背景技术
肺是人体的呼吸器官,是人体与外界进行气体交换的主要场所。而在气体交换的过程中,肺会产生不同的声音,比如低调干啰音、大水泡音、中水泡音和小水泡音等。这些声音间接地反映了肺部以及呼吸道的健康问题:低调干啰音对应异常气管或主气管异常,大水泡音对应支气管扩张、肺水肿及肺结核或肺脓肿空洞,中水泡音对应支气管炎或支气管肺炎,小水泡音对应细支气管炎、早期肺淤血。在传统医疗领域,医生需要借助听诊器听取这些音频并依靠自己的经验来判断病人的情况,这种人工的方式效率较低且过度依赖医生的个人经验,准确率并不稳定;而近年来出现的一些基于深度学习的方法也仅仅使用了一些较为基础的网络模型,不能很好提取特征,效果不佳。因此有必要设计一种使用改进的神经网络和分类器结合的深度学习方法,对听诊信号进行准确度较高的分类,使有患病风险的人可以在没有医生的情况下适时评估自己的健康状况,起到早期诊断和预警的作用。
发明内容
为解决现有技术的不足,实现降低对医生个人经验的依赖,提高诊断效率和准确率的目的,本发明采用如下的技术方案:
一种基于深度学习的肺部声音诊断装置,包括依次连接的采集设备、图像标注工具、数据预处理模块、二次数据增强模块和深度学习分类模型;
采集设备,分别采集肺部健康状况正常和异常的肺部听诊数据;
图像标注工具,对所采集到的每段音频进行划分和标注;
数据预处理模块和二次数据增强模块,对所采集到的音频信号样本进行预处理,并做数据增强,得到不同肺部听诊信号样本的音频初级特征,归类并标记为正常样本和异常样本,用于后续进一步的深度学习特征提取;
深度学习分类模型,根据输入的正常听诊信号和异常听诊信号的初级特征向量,进行训练,得到一系列高层特征,采用RF分类器代替代替softmax分类层进行分类,通过输入的高层特征,得到多分类RF模型,RF分类器可以有效运行大数据集,因为原始音频信号经过数据增强后扩充为较大的数据集,可以有效处理高维特征且不需要降维,因为经过提取的高层特征具有较高维度,可以评估各个特征对于分类的重要性,对特征的利用更加灵活,而RF分类器对多维数据的处理能力远强于原来的softmax分类层,此外,RF分类器可以进一步避免过拟合现象,提高分类精度。
进一步的,所述数据预处理模块,先进行长音频数据分段,再对每段做分帧、加窗以及短时傅里叶变换,X(n)是一个长序列,W(n)是长度为N的窗函数,用W(n)给X(n)加窗,得到N点序列Y(n),即Y(n)=X(n)W(n),而频域上则有:
其中,j表示虚轴单位,w表示角频率,θ表示偏移相位,窗函数是一种在给定区域外值都为零的函数,通过窗函数对原信号加窗能使信号在全局更加连续,让每帧信号的幅度在两端趋近于零,使变换结果的分辨率得到提升,此外,为了降低分帧导致的误差,也常采取1/2左右时长的帧移,使前后两帧在首尾处有交叉重叠,经过分帧加窗,原始的音频信号被截断,单帧的平稳性得到保证,但也不可避免地引起了频谱畸变能量泄漏的问题,为了降低频谱泄露的影响,可以釆用不同的窗函数降低频谱泄漏,在一次傅里叶变换过程中,采用一个固定的窗函数,使该窗函数两侧旁瓣的高度接近零,使能量大部分集中在主瓣,这样就不会和原始信号的频谱产生较大的差异。
进一步的,所述窗函数采用汉宁窗,和其他窗函数相比,它的主瓣宽度增加,高度降低,并且旁瓣较小,能够有效降低高频干扰和能量泄漏,窗函数如下:
W(n)=0.5[1-cos(2πn/(M+1))];1≤n≤M
音频文件本质上是时域数字信号,主要包含时域信息,当对一个离散时域信号进行离散傅里叶变换时,就可以得到它的频域信息,然而此时又丢失了它的时域信息,为了同时获取信号的时域和频域特征,采用短时傅里叶变换对原始音频进行分析,将窗函数加在一段连续非平稳的信号上,并随着时间移动窗口,使原信号变成一个个短时平稳信号,然后再对这些短时平稳信号作傅里叶变换,短时傅里叶变换的公式如下:
其中,s(t)为原信号,γ(t)为窗函数,τ表示不同于t的变量。对于离散的数字信号,其短时傅里叶变换公式如下:
其中,m表示第m个离散信号,n表示第n个离散信号,k表示离散信号个数,L表示离散信号长度。
进一步的,所述二次数据增强模块,对原始音频数据集进行第一次数据增强,增强包括音频旋转、音量变化、音频加噪;
音频旋转:将音频文件中后一段数据截取拼接到开头,得到一组新的数据序列;
音量变化:将音频信号的音量按原始音频的倍数变换,得到新数据;
音频加噪:往音频中加入随机噪声数据,得到新数据;
对第一次增强后的音频数据进行频谱分析,包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算,得到音频文件对应的语谱图,将音频数据转化为语谱图数据后,进行第二次数据增强,采用随机均值替换法产生新的语谱图数据,实现数据增强;
随机选取行列:通过随机方式选取每个语谱图中部分行与部分列;
均值替换:计算每个语谱图中二维数据的平均值,用均值替换掉随机选取的行列数据,得到新的语谱图数据;
数据保存:对每个语谱图重复多次随机选取行列和均值替换的操作,得到多组新的语谱图数据,加入到原数据集中,完成第二次数据增强。
进一步的,所述初级特征的提取,对信号进行FFT变换:
其中,xi(m)表示第m个信号,X(i,k)表示信号的频谱,则信号的短时幅度谱表示为|X(i,k)|,能量密度函数表示为P(i,k)=|X(i,k)|2,对其进行伪彩色映射,得到的二维图像,即谱图,同时反映时域和频域信息,再通过FFT和窗移得到正常音频和异常音频的谱图,
谱图的窗长和窗移参数的确定由最终分类效果决定,通过控制输入谱图尺寸不变,训练集和测试集的比例也相同,分别把几组不同的FFT和窗移参数随机组合得到的谱图输入深度学习分类模型,最终确定的FFT和窗移参数组合即为分类准确率最高的那组的参数。
由海森堡不确定准则可知,变换的时间分辨率和频率分辨率受到限制,无法同时达到最佳,频率分辨率随着窗口的变长而提高,时间分辨率则相反,因为时域频域相互制约,所以在测试前无法确定怎么设置窗函数长度等变量,需要根据测试结果来调整,因此需要由分类结果的优劣反回去决定用于生成特征谱图的参数。
进一步的,所述深度学习分类模型采用Inception_Resnet网络提取高层特征,该深度学习分类模型是一种轻量化网络,在保持一定准确度的同时可以大幅减少运算量,适合于本发明的应用场景。
进一步的,数据在输入Inception_Resnet网络前先进行多次卷积和池化操作,可以避免瓶颈效应,引入残差结构,防止梯度下降问题,设定dropout值,随机删除部分隐层单元,在输入层不变的情况下更新网络权值,依次迭代。
进一步的,所述深度学习分类模型在编译过程中,采用Adam优化器代替RMSprop优化器,计算梯度移动的指数均值,并通过两个参数α1和α2控制衰减率,具体更新算法如下:
pt=α1pt-1+(1-α1)gt
gt=ΔθJ(θt-1)
其中,gt为t时间步的梯度,pt为梯度的一阶矩估计,qt为梯度的二阶矩估计,α1、α2分别为一阶动量衰减系数和二阶动量衰减系数,控制pt和qt的衰减速率,Δθ表示网络参数变化量,J表示动量,θt表示t时刻网络参数,p0、q0初始化为0,会导致pt和qt偏向于0,即出现偏差,尤其是在训练初期阶段,所以,需要对pt和qt进行偏差修正,以降低偏差对训练初期的影响,偏差修正方法为:
和/>分别表示对一阶矩和二阶矩进行偏差修正后的估计值,进而得到网络参数更新优化的过程如下:
β表示步长即学习率,ε是用于数值稳定的小常数。
进一步的,采用树停止生长的规则改进RF分类器,决策树是一个树结构,其每个非叶节点表示一个特征属性上的评估,即提取到的各类特征,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别,即各个特征对结果的正负影响,使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果,但是如果过度提取特征,即本发明的最大树高Hmax过大或每个节点中数据点数量N(Dkl)过少,就会出现过拟合现象,为了防止这种过拟合,需要根据RF网络所输出分类结果的准确率来调整最大树高Hmax和数据点数量N(Dkl),以获得尽可能高的准确率,当树增长到H=Hmax时就停止生长,如果节点内部的数据点足够少,也会停止生长,设N(Dkl)为节点Dkl中的数据点的数量,当树增长到N(Dkl)≤Nmin时停止,其中Nmin是节点中预定的最小数据点数量。
进一步的,采用特征重要性判定改进RF分类器,由于卷积神经网络所提取的高层特征有很多,并且每个特征对分类的贡献和影响程度都不同,因此为了提高分类准确性,需要强化那些有用特征的作用,弱化那些无用特征的作用,为避免过拟合,需要进行特征重要性判定,删除特征重要性较弱的非叶子节点的左右子节点,用被抽到的样本组成的分类树去测试未被抽选的袋外样本,根据每次抽选的分类结果去判定各特征的重要性;
在决策树中,每个节点t分裂是由节点杂质ΔR(t)的减少决定的,节点杂质ΔR(t)为基尼系数,节点t中有子数据集包含来自c类,Gini(t)的定义为:
其中是j类int的相对频率,c是c类总数,如果tint是负偏,Gini(t)最小化,int表示节点,tint表示增益,节点t分裂出两个子节点t1和t2,其表示为N1(t)和N2(t),分割数据的基尼指数定义为:
Ginit为基尼指数,N(t)为节点总数,特征提供最小Ginispilit来选择分割节点,在单一决策树Tk中特征重要评分Xj为:
t表示节点,对所有树K进行计算得到特征重要评分的定义为:
K表示所有树的节点总数,k表示求和表达式中各个节点。
本发明的优势和有益效果在于:
本发明的采集设备易于收集数据且对人体无害,由人工智能代替传统人工进行音频处理和分析,无需专业医生就可以得到自己肺部、呼吸道的健康状况;选择了合适的数据预处理和二次数据增强模块,并且通过相同数据在不同增强参数的情况下的分类准确率选择效果最优的一组参数,更有针对性地使得有限的数据得到良好的扩充,利于后续训练且提升了模型的泛化能力;设计了性能较好的分类网络,用改进的分类器代替原网络最后的分类层,对几种不同肺部音频的分类准确率提升较大,对疾病早期诊断有很大的帮助,增强了本发明装置的实用性。
附图说明
图1是本发明的模块结构示意图。
图2是本发明中使用labelme软件对音频信号进行标注时的具体操作展示图。
图3是本发明中数据预处理模块的工作流程图。
图4是本发明中体现二次数据增强效果的准确率对比图。
图5是本发明中改进的深度学习分类模型的结构示意图。
图6是本发明中Inception_resnet1结构示意图。
图7是本发明中Inception_resnet2结构示意图。
图8是本发明中Inception_resnet3结构示意图。
图9是本发明中卷积和池化的模块结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1、图2所示,一种基于深度学习的肺部声音诊断装置,包括:采集设备、图像标注工具、数据预处理模块、二次数据增强模块、深度学习分类模型。
采集设备,分别采集一定数量肺部健康状况良好个体的肺部听诊音频,以及采集较多数量存在不同肺部异常的个体的听诊数据;
图像标注工具,采用labelme软件对所采集到的每段音频进行划分和标注;
数据预处理模块和二次数据增强模块,对所采集到的音频信号样本进行预处理,并做数据增强,得到不同肺部听诊信号样本的音频初级特征,归类并标记为正常样本和几类不同的异常样本,用于后续进一步的深度学习特征提取;
改进的深度学习分类模型,根据输入的正常听诊信号和异常听诊信号的初级特征向量,进行训练,得到一系列高层特征;
深度学习分类模型采用RF分类器,通过输入的高层特征,训练出一个多分类RF模型。
通过采集设备采集待诊断者的肺部听诊音频信号,经数据预处理模块和二次数据增强模块进行预处理和数据增强,将待诊断者的肺部听诊音频特征输入训练好的改进的深度学习分类模型与RF分类器组成的整体网络,得到最终分类结果,反映待诊断者的具体肺部问题。
采集设备,包括听诊传感器、放大器、A/D采集卡、存储卡,音频采集时,采集大量肺部的听诊音频信号,需要使用听诊传感器完成第一步采集,还需要放大器对所采集的音频做一定的放大处理,再用A/D采集卡转换为数字信号,并且需要储存卡保存经过处理的音频。
对于需要采集的数据本身,则要求其包含正常音、低调干啰音、大水泡音、中水泡音和小水泡音五个大类,再按各自特征对数据用labelme软件对音频进行标注,并分别从时域和频域对信号进行分析处理。
如图3所示,数据预处理模块,先进行长音频数据分段,再对每段做分帧、加窗以及短时傅里叶变换。假设X(n)是一个长序列,W(n)是长度为N的窗函数,用W(n)给X(n)加窗,得到N点序列Y(n),即Y(n)=X(n)W(n),而频域上则有:
其中,j表示虚轴单位,w表示角频率,θ表示偏移相位,窗函数是一种在给定区域外值都为零的函数,通过窗函数对原信号加窗能使信号在全局更加连续,让每帧信号的幅度在两端趋近于零,使变换结果的分辨率得到提升。此外,为了降低分帧导致的误差,也常采取1/2左右时长的帧移,使前后两帧在首尾处有一定的交叉重叠。经过分帧加窗,原始的音频信号被截断,单帧的平稳性得到保证,但也不可避免地引起了频谱畸变能量泄漏的问题。为了降低频谱泄露的影响,可以釆用不同的窗函数。在一次傅里叶变换过程中,通常采用一个固定的窗函数,如果该窗函数两侧旁瓣的高度接近零,就能让能量大部分集中在主瓣,这样就不会和原始信号的频谱产生较大的差异。常用的窗函数有矩形窗、三角窗、汉宁窗、海明窗、高斯窗等。
矩形窗属于时间变量的零次幂窗,它的主瓣相对集中,旁瓣较高,并且伴随着负旁瓣,在变换过程中可能会产生高频干扰。窗函数如下:
其中,R(n)表示矩形窗函数,M表示窗函数长度。
汉宁窗和其他窗函数相比,它的主瓣宽度增加,高度降低,并且旁瓣较小,能够有效降低高频干扰和能量泄漏。窗函数如下:
W(n)=0.5[1-cos(2πn/(M+1))];1≤n≤M
音频文件本质上是时域数字信号,主要包含时域信息。当对一个离散时域信号进行离散傅里叶变换时,就可以得到它的频域信息,然而此时又丢失了它的时域信息。为了同时获取信号的时域和频域特征,通常采用短时傅里叶变换对原始音频进行分析。短时傅里叶变换是信号时频分析方法的一种,它将窗函数加在一段连续非平稳的信号上,并随着时间移动窗口,使原信号其变成一个个短时平稳信号,然后再对这些短时平稳信号作傅里叶变换。由海森堡不确定准则可知,变换的时间分辨率和频率分辨率受到限制,无法同时达到最佳。频率分辨率随着窗口的变长而提高,时间分辨率则相反。因为时域频域相互制约,所以在测试前无法确定怎么设置窗函数长度等变量,需要根据测试结果来调整。短时傅里叶变换的公式如下:
其中,s(t)为原信号,γ(t)为窗函数,τ表示不同于t的变量。对于离散的数字信号,其短时傅里叶变换公式如下:
其中,m表示第m个离散信号,n表示第n个离散信号,k表示离散信号个数,L表示离散信号长度。
如图4所示,二次数据增强模块,在数据预处理之后即可进行第一次数据增强。这里采用一般的音频增强方法,即对原始音频数据集使用旋转、调音、加噪3种方法产生更多新的数据,完成后音频数据量为原来的6倍(例如,原数据量为x,音频旋转后数据量为2x,对2x做音量变化后1倍音量、1.5倍音量、0.6倍音量的数据量均为2x,一共数据量6x,音频加噪不额外增加数据量,只是对这6x数据随机加入噪声,最终扩为原始数据的6倍)。具体操作如下:
音频旋转:将音频文件中后20%数据截取拼接到开头,得到一组新的数据序列;
音量变化:将音频信号的音量分别变换为原始音频的1.5倍和0.6倍,得到两组新数据;
音频加噪:往音频中加入随机噪声数据,得到新数据。
对第一次增强后的音频数据进行频谱分析,包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算,得到音频文件对应的语谱图。在此过程中,帧长设为25ms,帧移设为10ms,梅尔谱带的个数设为76。经过转化,采样率为44100Hz的5s时长音频会得到498×76大小的语谱图,4s时长音频会得到398×76大小的语谱图。将音频数据转化为语谱图数据后,进行第二次数据增强。本文使用随机均值替换法产生新的语谱图数据,实现数据增强,完成后数据量为第一次数据增强后的4倍。具体操作步骤如下:
随机选取行列:通过随机方式选取每个语谱图中30%的行与30%的列;
均值替换:计算每个语谱图中二维数据的平均值,用均值替换掉随机选取的行列数据,可得到新的语谱图数据;
数据保存:对每个语谱图重复3次步骤1和2的操作,得到3组新的语谱图数据,加入到原数据集中,即完成第二次数据增强。
对完成数据增强的谱图进行特征提取的操作如下:
信号的FFT变换为:
其中,xi(m)表示第m个信号,X(i,k)表示信号的频谱,则信号的短时幅度谱可表示为|X(i,k)|,能量密度函数表示为P(i,k)=|X(i,k)|2,对其进行伪彩色映射,得到的二维图像,即为谱图,同时反映时域和频域信息。再通过一定点FFT和一定比例的窗移得到正常音频和异常音频的谱图。
谱图的窗长和窗移参数的确定由最终分类效果决定。具体方法是控制输入谱图尺寸不变(224*224),训练集和测试集的比例也相同(4:1),分别把几组不同的参数组合(256、512、1024点FFT与1/2、1/4窗移随机组合)得到的谱图输入改进的深度学习分类模型,最终确定的参数组合即为分类准确率最高的那组的参数,经试验为256点FFT、1/4窗移下的谱图。
得到经过数据增强的谱图后,需要提取其高层的特征。用于提取高层特征的神经网络选用改进的Inception_Resnet网络(该网络只负责提取高层特征而不直接用作分类),如图5-图8所示,具体的措施主要是去掉softmax分类层用RF分类器代替、修改层结构、优化算法、调整批处理数据量和学习率更新机制,并且由分类结果的优劣反回去决定用于生成谱图的参数。该网络模型是以残差结构和其一代为基础的一种轻量化网络,在保持一定准确度的同时可以大幅减少运算量,适合于本发明的应用场景。
该网络在输入Inception结构前先进行多次卷积和池化操作,如图9所示,可以避免瓶颈效应。引入残差结构思想可以防止梯度下降问题,将dropout值设为0.4,可随机删除一些隐层单元,在输入层不变情况下更新网络权值,依次迭代。
改进的深度学习分类模型在编译过程中,对优化算法的改进措施是用Adam算法代替RMSprop优化器,该算法计算了梯度移动的指数均值,并通过两个参数α1和α2控制衰减率。具体更新算法如下:
pt=α1pt-1+(1-α1)gt
gt=ΔθJ(θt-1)
其中,gt为t时间步的梯度,pt为梯度的一阶矩估计,qt为梯度的二阶矩估计,α1、α2分别为一阶动量衰减系数和二阶动量衰减系数,控制pt和qt的衰减速率,Δθ表示网络参数变化量,J表示动量,θt表示t时刻网络参数。p0、q0初始化为0,会导致pt和qt偏向于0,即出现偏差,尤其是在训练初期阶段。所以,需要对pt和qt进行偏差修正,以降低偏差对训练初期的影响。
偏差修正方法为:
式中和/>分别表示对一阶矩和二阶矩进行偏差修正后的估计值。进而可得网络参数更新优化的过程如下:
β表示步长即学习率,ε是用于数值稳定的小常数。本研究使用Adam优化器的参数设置为α1=0.8、α2=0.8、ε=10-8
提取到谱图的高层特征后,本模型去掉原模型中用于分类的softmax层,将倒数第二层经过全局平均池化后的输出和标签传入改进的RF分类网络。做这种替换的依据是RF分类器可以有效运行大数据集(原始音频信号经过数据增强后扩充为较大的数据集),可以有效处理高维特征且不需要降维(经过第一步网络所提取的高层特征具有较高维度),可以评估各个特征对于分类的重要性(对特征的利用更加灵活)而RF分类网络对多维数据的处理能力远强于原来的softmax层。此外,RF分类器可以进一步避免过拟合现象,提高分类精度。
本发明的神经网络先保留原网络模型的softmax层进行训练,固定好大部分参数,再把softmax层替换为RF分类器,用RF分类器对之前几层网络提取到的高层特征做更有效的筛选。
对RF分类网络的改进主要是树停止生长的规则和特征重要性判定的方法。
决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的评估,即本发明中softmax层之前卷积神经网络提取到的各类特征,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别,即本发明中各个特征对结果的正负影响。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。但是如果过度提取特征,即本发明的最大树高Hmax过大或每个节点中数据点数量N(Dkl)过少,就会出现过拟合现象,相当于普通神经网络中卷积层过多和训练轮次过多。为了防止这种过拟合,需要根据RF网络所输出分类结果的准确率来调整最大树高Hmax和数据点数量N(Dkl),这两个参数决定了树的高度,因此类似于对树结构进行停止生长的判定,以获得尽可能高的准确率。
生长停止与否由以下二者共同决定:最大树高Hmax和节点内部数据点,可以更好防止过拟合。当树增长到H=Hmax时就停止生长,它被设置为方法的超参数或调优参数。此外,如果节点内部的数据点足够少,也会停止生长。设N(Dkl)为节点Dkl中的数据点的数量,则当树增长到N(Dkl)≤Nmin时停止,其中Nmin是节点中预定的最小数据点数量,也将它定为另一个调优参数。
特征重要性判定是因为卷积神经网络所提取的高层特征有很多,并且每个特征对分类的贡献和影响程度都不同,因此为了提高分类准确性,需要强化那些有用特征的作用,弱化那些无用特征的作用。本发明中采用的判定方法是用被抽到的样本组成的分类树去测试未被抽选的袋外样本,根据每次抽选的分类结果去判定各特征的重要性。
在RF分类过程中,为避免过拟合需要删除特征重要性较弱的非叶子节点的左右子节点,因此需要先进行特征重要性判定。本改进分类算法可以在树生长过程中得到一种特征重要性测度。在决策树中每个节点t分裂是由节点杂质ΔR(t)的减少决定的。节点杂质ΔR(t)为基尼系数。如果节点t中有子数据集包含来自c类,gini(t)的定义为:
其中是j类int的相对频率,c是c类总数。如果tint是负偏,Gini(t)最小化,int表示节点,tint表示增益。节点t分裂出两个子节点t1和t2,其表示为N1(t)和N2(t)。分割数据的基尼指数定义为:
Ginit为基尼指数,N(t)为节点总数。
特征提供最小Ginispilit来选择分割节点。在单一决策树Tk中特征重要评分Xj为:
t表示节点。
对所有树K进行计算的定义为:
K表示所有树的节点总数,k表示求和表达式中各个节点。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (7)

1.一种基于深度学习的肺部声音诊断装置,包括采集设备和深度学习分类模型,其特征在于还包括图像标注工具、数据预处理模块和二次数据增强模块,所述图像标注工具分别与采集设备和数据预处理模块连接,所述二次数据增强模块分别与数据预处理模块和深度学习分类模型连接;
所述采集设备,分别采集肺部健康状况正常和异常的肺部听诊数据;
所述图像标注工具,对所采集到的每段音频进行划分和标注;
所述数据预处理模块和二次数据增强模块,对所采集到的音频信号样本进行预处理,并做数据增强,得到不同肺部听诊信号样本的音频初级特征,归类并标记为正常样本和异常样本,用于后续进一步的深度学习特征提取;
二次数据增强模块,对原始音频数据集进行第一次数据增强,增强包括音频旋转、音量变化、音频加噪;
音频旋转:将音频文件中后一段数据截取拼接到开头,得到一组新的数据序列;
音量变化:将音频信号的音量按原始音频的倍数变换,得到新数据;
音频加噪:往音频中加入随机噪声数据,得到新数据;
对第一次增强后的音频数据进行频谱分析,包括分帧、加窗、傅里叶变换、梅尔滤波、取对数运算,得到音频文件对应的语谱图,将音频数据转化为语谱图数据后,进行第二次数据增强,采用随机均值替换法产生新的语谱图数据,实现数据增强;
随机选取行列:通过随机方式选取每个语谱图中部分行与部分列;
均值替换:计算每个语谱图中二维数据的平均值,用均值替换掉随机选取的行列数据,得到新的语谱图数据;
数据保存:对每个语谱图重复多次随机选取行列和均值替换的操作,得到多组新的语谱图数据,加入到原数据集中,完成第二次数据增强;
所述深度学习分类模型,根据输入的正常听诊信号和异常听诊信号的初级特征向量,进行训练,得到一系列高层特征,高层特征采用Inception_Resnet网络提取,采用RF分类器代替softmax分类层进行分类,通过输入的高层特征,得到多分类RF模型;
深度学习分类模型在编译过程中,采用Adam优化器代替RMSprop优化器,计算梯度移动的指数均值,并通过两个参数α1和α2控制衰减率,具体更新算法如下:
pt=α1pt-1+(1-α1)gt
gt=ΔθJ(θt-1)
其中,gt为t时间步的梯度,pt为梯度的一阶矩估计,qt为梯度的二阶矩估计,α1、α2分别为一阶动量衰减系数和二阶动量衰减系数,控制pt和qt的衰减速率,Δθ表示网络参数变化量,J表示动量,θt-1表示t-1时刻网络参数,对pt和qt进行偏差修正,偏差修正方法为:
和/>分别表示对一阶矩和二阶矩进行偏差修正后的估计值,进而得到网络参数更新优化的过程如下:
β表示步长即学习率,ε是用于数值稳定的小常数。
2.如权利要求1所述的一种基于深度学习的肺部声音诊断装置,其特征在于所述数据预处理模块,先进行长音频数据分段,再对每段做分帧、加窗以及短时傅里叶变换,X(n)是一个长序列,W(n)是长度为N的窗函数,用W(n)给X(n)加窗,得到N点序列Y(n),即Y(n)=X(n)W(n),而频域上则有:
其中,j表示虚轴单位,w表示角频率,θ表示偏移相位,采用帧移,使前后两帧在首尾处有交叉重叠釆用不同的窗函数降低频谱泄漏,在一次傅里叶变换过程中,采用一个固定的窗函数,使该窗函数两侧旁瓣的高度接近零,使能量大部分集中在主瓣。
3.如权利要求2所述的一种基于深度学习的肺部声音诊断装置,其特征在于所述窗函数采用汉宁窗,窗函数如下:
W(n)=0.5[1-cos(2πn/(M+1))];1≤n≤M
采用短时傅里叶变换对原始音频进行分析,将窗函数加在一段连续非平稳的信号上,并随着时间移动窗口,使原信号变成一个个短时平稳信号,然后再对这些短时平稳信号作傅里叶变换,短时傅里叶变换的公式如下:
其中,s(t)为原信号,γ(t)为窗函数,τ表示不同于t的变量,对于离散的数字信号,其短时傅里叶变换公式如下:
其中,m表示第m个离散信号,n表示第n个离散信号,k表示离散信号个数,L表示离散信号长度。
4.如权利要求1所述的一种基于深度学习的肺部声音诊断装置,其特征在于所述初级特征的提取,对信号进行FFT变换:
其中,xi(m)表示第m个信号,X(i,k)表示信号的频谱,则信号的短时幅度谱表示为|X(i,k)|,能量密度函数表示为P(i,k)=|X(i,k)|2,对其进行伪彩色映射,得到的二维图像,即谱图,同时反映时域和频域信息,再通过FFT和窗移得到正常音频和异常音频的谱图,谱图的窗长和窗移参数的确定由最终分类效果决定,通过控制输入谱图尺寸不变,训练集和测试集的比例也相同,分别把几组不同的FFT和窗移参数随机组合得到的谱图输入深度学习分类模型,最终确定的FFT和窗移参数组合即为分类准确率最高的那组的参数。
5.如权利要求1所述的一种基于深度学习的肺部声音诊断装置,其特征在于数据在输入Inception_Resnet网络前先进行多次卷积和池化操作,引入残差结构,设定dropout值,随机删除部分隐层单元,在输入层不变的情况下更新网络权值,依次迭代。
6.如权利要求1所述的一种基于深度学习的肺部声音诊断装置,其特征在于采用树停止生长的规则改进RF分类器,决策树是一个树结构,其每个非叶节点表示一个特征属性上的评估,即提取到的各类特征,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别,即各个特征对结果的正负影响,使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果,根据RF网络所输出分类结果的准确率来调整最大树高Hmax和数据点数量N(Dkl),当树增长到H=Hmax时就停止生长,N(Dkl)为节点Dkl中的数据点的数量,当树增长到N(Dkl)≤Nmin时停止,其中Nmin是节点中预定的最小数据点数量。
7.如权利要求1所述的一种基于深度学习的肺部声音诊断装置,其特征在于采用特征重要性判定改进RF分类器,进行特征重要性判定,删除特征重要性较弱的非叶子节点的左右子节点,用被抽到的样本组成的分类树去测试未被抽选的袋外样本,根据每次抽选的分类结果去判定各特征的重要性;
在决策树中,每个节点t分裂是由节点杂质ΔR(t)的减少决定的,节点杂质ΔR(t)为基尼系数,节点t中有子数据集包含来自c类,Gini(t)的定义为:
其中是j类int的相对频率,c是c类总数,如果tint是负偏,Gini(t)最小化,int表示节点,tint表示增益,节点t分裂出两个子节点t1和t2,其表示为N1(t)和N2(t),分割数据的基尼指数定义为:
Gini为基尼指数,N(t)为节点总数,特征提供最小Ginispilit来选择分割节点,在单一决策树Tk中特征重要评分Xj为:
t表示节点,对所有树K进行计算得到特征重要评分的定义为:
K表示所有树的节点总数,k表示求和表达式中各个节点。
CN202110088348.0A 2021-01-22 2021-01-22 一种基于深度学习的肺部声音诊断装置 Active CN112863667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110088348.0A CN112863667B (zh) 2021-01-22 2021-01-22 一种基于深度学习的肺部声音诊断装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110088348.0A CN112863667B (zh) 2021-01-22 2021-01-22 一种基于深度学习的肺部声音诊断装置

Publications (2)

Publication Number Publication Date
CN112863667A CN112863667A (zh) 2021-05-28
CN112863667B true CN112863667B (zh) 2023-10-24

Family

ID=76007972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110088348.0A Active CN112863667B (zh) 2021-01-22 2021-01-22 一种基于深度学习的肺部声音诊断装置

Country Status (1)

Country Link
CN (1) CN112863667B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327626B (zh) * 2021-06-23 2023-09-08 深圳市北科瑞声科技股份有限公司 语音降噪方法、装置、设备及存储介质
CN115064247B (zh) * 2022-08-09 2022-11-11 苏州朗开医疗技术有限公司 一种基于图像特征分析的图像分层采集方法及系统
CN116776130A (zh) * 2023-08-23 2023-09-19 成都新欣神风电子科技有限公司 一种用于异常电路信号的检测方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104819846A (zh) * 2015-04-10 2015-08-05 北京航空航天大学 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法
CN107292286A (zh) * 2017-07-14 2017-10-24 中国科学院苏州生物医学工程技术研究所 基于机器学习的呼吸音鉴别方法及系统
CN109493874A (zh) * 2018-11-23 2019-03-19 东北农业大学 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN110532424A (zh) * 2019-09-26 2019-12-03 西南科技大学 一种基于深度学习和云平台的肺音特征分类系统及方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN111110269A (zh) * 2020-01-07 2020-05-08 湖南大学 一种基于混合深度学习模型的婴幼儿肺炎快速智能诊断方法
CN111259921A (zh) * 2019-12-19 2020-06-09 杭州安脉盛智能技术有限公司 一种基于改进小波包和深度学习的变压器声音异常检测方法
CN111640439A (zh) * 2020-05-15 2020-09-08 南开大学 一种基于深度学习的呼吸音分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104819846A (zh) * 2015-04-10 2015-08-05 北京航空航天大学 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法
CN107292286A (zh) * 2017-07-14 2017-10-24 中国科学院苏州生物医学工程技术研究所 基于机器学习的呼吸音鉴别方法及系统
CN109493874A (zh) * 2018-11-23 2019-03-19 东北农业大学 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN110532424A (zh) * 2019-09-26 2019-12-03 西南科技大学 一种基于深度学习和云平台的肺音特征分类系统及方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN111259921A (zh) * 2019-12-19 2020-06-09 杭州安脉盛智能技术有限公司 一种基于改进小波包和深度学习的变压器声音异常检测方法
CN111110269A (zh) * 2020-01-07 2020-05-08 湖南大学 一种基于混合深度学习模型的婴幼儿肺炎快速智能诊断方法
CN111640439A (zh) * 2020-05-15 2020-09-08 南开大学 一种基于深度学习的呼吸音分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度神经网络的肺炎图像识别模型;何新宇;张晓龙;;计算机应用(第06期);全文 *

Also Published As

Publication number Publication date
CN112863667A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112863667B (zh) 一种基于深度学习的肺部声音诊断装置
CN108827605B (zh) 一种基于改进稀疏滤波的机械故障特征自动提取方法
CN107811649B (zh) 一种基于深度卷积神经网络的心音多分类方法
CN109493874A (zh) 一种基于卷积神经网络的生猪咳嗽声音识别方法
CN110755108A (zh) 一种基于智能听诊器的心脏声音分类方法、系统、装置及可读存储介质
CN112418013A (zh) 一种小样本下基于元学习的复杂工况轴承故障诊断方法
KR101072452B1 (ko) 심장질환 진단장치 및 방법
CN111067507B (zh) 基于生成对抗网络和策略梯度的心电信号去噪方法
CN111368627A (zh) Cnn结合改进频率小波切片变换的心音分类方法及系统
CN114469124B (zh) 一种运动过程中异常心电信号的识别方法
CN113436726B (zh) 一种基于多任务分类的肺部病理音自动化分析方法
CN112820279A (zh) 基于语音上下文动态特征的帕金森病检测方法
CN113674767A (zh) 一种基于多模态融合的抑郁状态识别方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
Yildirim Diagnosis of Heart Diseases Using Heart Sound Signals with the Developed Interpolation, CNN, and Relief Based Model.
Kharamat et al. Durian ripeness classification from the knocking sounds using convolutional neural network
CN111938691B (zh) 一种基础心音识别方法及设备
CN113440107A (zh) 基于语音信号分析的阿尔茨海默症状诊断设备
Touahria et al. Discrete Wavelet based Features for PCG Signal Classification using Hidden Markov Models.
CN113229842B (zh) 一种基于复数深度神经网络的心肺音自动分离方法
Tiwari et al. Deep lung auscultation using acoustic biomarkers for abnormal respiratory sound event detection
Neili et al. Gammatonegram based pulmonary pathologies classification using convolutional neural networks
CN115905827A (zh) 一种基于神经网络的汽轮机故障诊断方法及装置
Cai et al. The best input feature when using convolutional neural network for cough recognition
Tuzun et al. Comparison of parametric and non-parametric representations of speech for recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant