CN111933185A - 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 - Google Patents
基于知识蒸馏的肺音分类方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN111933185A CN111933185A CN202011070732.XA CN202011070732A CN111933185A CN 111933185 A CN111933185 A CN 111933185A CN 202011070732 A CN202011070732 A CN 202011070732A CN 111933185 A CN111933185 A CN 111933185A
- Authority
- CN
- China
- Prior art keywords
- lung sound
- audio
- classification
- trained
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037656 Respiratory Sounds Diseases 0.000 title claims abstract description 243
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004821 distillation Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002555 auscultation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,所述方法包括:获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并经转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
Description
技术领域
本发明涉及音频分类技术领域,尤其涉及一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质。
背景技术
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,旨在解决现有技术中用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性,并且对肺音的分析不够准确,影响分类的准确性。
为了解决上述技术问题,本发明所采用的技术方案如下:
第一方面,本发明提供一种基于知识蒸馏的肺音分类方法,其中,所述方法包括:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集,包括:
采集所述肺音音频,并对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频;
对所述增强后的肺音音频进行切片,得到多个音频片段;
分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。
在一种实现方式中,所述音频数据增强处理包括:时间变换处理、音高变换处理和μ律压缩处理。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集之后,包括:
对每一个所述音频片段进行零均值归一化处理。
在一种实现方式中,所述基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,包括:
获取所述肺音数据集中的预测标签;
基于所述预测标签与真实标签,对多个教师模型进行训练,得到所述已训练多个的教师模型,所述真实标签为肺音类别。
在一种实现方式中,所述基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,包括:
获取所述多分类软标签;
基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签;
利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在一种实现方式中,所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。
第二方面,本发明还提供一种基于知识蒸馏的肺音分析系统,其中,所述系统包括:
音频特征获取单元,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
教师模型训练单元,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
软标签拟合单元,用于根据所述已训练的教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
学生模型训练单元,用于基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
第三方面,本发明还提供一种智能终端,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行上述方案中任意一项所述的方法。
第四方面,本发明还提供一种非临时性计算机可读存储介质,其中,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方案中任意一项所述的方法
有益效果:与现有技术相比,本发明提供了一种基于知识蒸馏的肺音分类方法,首先获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
附图说明
图1为本发明实施例提供的基于知识蒸馏的肺音分类方法的实施例流程图。
图2是本发明实施例提供的基于知识蒸馏的肺音分类系统的原理框图。
图3是本发明实施例提供的智能终端的功能原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中也有提出一种使用小波变换分析肺部声音信号以及使用人工神经网络(ANN)进行分类的方法,但是这种方法需要人工标记肺音的周期。异常肺音本身是一种非周期信号,其可能不会在整个记录中出现。此外,目前还开发出一种自动肺音分析仪,该工具在不需要额外的流量信号或标记呼吸周期的情况下,就能识别肺部声音特征, 但是这种方法主要是区分正常肺音和异常肺音,用作肺音的细类区分,仍存在一定的局限性。听诊时可能出现的各种各样的不确定音和噪声使肺音检测不够准确。目前,研究人员提出了基于隐马尔科夫模型提出“异常呼吸置信度”检测的两步分类方法,但是该工作也只是关注单一类型的肺音。可见,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
为解决现有技术中的问题,本实施例提供一种基于知识蒸馏的肺音分类方法,本实施例中的知识蒸馏,是可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。具体实施是,是先训练一个教师网络,然后使用这个教师网络的输出和数据的真实标签去训练学生网络。知识蒸馏可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中。因此,本实施例可基于知识蒸馏的原理,利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。具体如图1中所示。所述基于知识蒸馏的肺音分类方法具体包括如下步骤:
步骤S100、获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
本实施例中的肺音音频可来自各大医院所采集到的音频数据,这样就可以利用多
方数据来进行分析,以便准确地对肺音音频进行分类。在本实施例中,当获取到所述肺音音
频后,对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频。具体地,本实施例
使用三种数据增强方式来数据增强方法:时间变换、音高变换和律压缩。时间变换旨在通
过改变参数因子而影响音频的采样速率。而音高变换就是以半音为单位,对音频的音调进
行调整。律压缩是一种动态范围压缩算法,对于输入的信号,,计算律压缩可以表述为以下公式:
接着,本实施例从所述增强后的肺音音频中获取梅尔频谱特征,提取梅尔频谱特征的作用在于把音频信号中具有辨识性的成分提取出来,然后去除肺音音频的干扰因素,以提高识别的准确性。具体实施时,本实施例中提取梅尔频谱特征的流程主要是包括四个步骤。具体为:首先是先对肺音音频进行预加重、分帧和加窗(加强语音信号性能(信噪比,处理精度等)的一些预处理)。然后,对每一个短时分析窗,通过FFT(Fast FourierTransformation,快速傅氏变换)得到对应的频谱(即获得分布在时间轴上不同时间窗内的频谱)。接着将将上面的频谱通过Mel(梅尔)滤波器组得到Mel频谱(通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱)。当然,本实施例中对于梅尔频谱特征的提取可以基于一个开源的python工具包librosa来实现。
在一种实现方式中,本实施例可以对所述增强后的肺音音频进行切片,得到多个
音频片段。然后分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据
集。具体地,由于原始采集的肺音音频是一段较长的时序序列,在3至10秒之间会有较为明
显的变化,因此本实施例中可以按照预先设定好的时间窗口,将增强处理后的肺音音频分
割为固定时长的音频片段,然后再对各个音频片段进行梅尔频谱特征,并构成所述数据集,
通过所述肺音数据集进行模型的训练。在一种实现方式中,本实施例在得到所述肺音数据
集后还对每一个所述音频片段进行零均值归一化处理,能够加快模型的优化过程,本实施
例使用的零均值归一化的方法是音频和图像处理任务中比较常用的归一化方法。对于音频
片段, 零均值归一化就是减去其均值之后,再除以的标准差,如以下公式所示:
步骤S200、获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
在本实施例中,本实施例首先获取神经网络模型,所述神经网络模型包括多个教
师模型与学生模型,然后获取所述肺音数据集中的预测标签。接着基于所述预测标签与真
实标签,对所述教师模型进行训练,得到已训练的多个教师模型,所述真实标签为肺音类
别。在本实施例中,每一个已训练的教师模型为二分类模型,假设共用M种肺音类别,则就需
要对应训练M个教师模型,以使得每一个已训练的教师模型可以分别对应两种肺音类别的
分类。本实施例中的肺音数据集为,数据对应的预测标签定义为。本实施例
中,所述教师模型是一个6层的CNN(Convolutional Neural Networks,卷积神经网络)模
型,第1层是有24个滤波器的卷积层,卷积核大小为(5, 5),步幅为(4, 2)。第2层同样是卷
积层,包含48个滤波器,卷积核大小、步幅与第1层相同。第3层是一个最大池化层,其pool
size为(2, 2)。第4层卷积层的滤波器数量和卷积核大小与第2层相同。第5层全连接层有64
个隐藏单元,最后一层为输出层。
在训练多个教师模型的过程中,每个教师模型分别对应一种肺音类别,拟合来自
不同医院采集到的的肺音音频数据,训练目标为最小化教师模型的预测标签和真实标签之
间的交叉熵损失,对于教师模型,其损失函数如下公式所示:
步骤S300、根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
对于每一个训练好的教师模型而言,其已经学习了某一种肺音类别的数据特征。
先由教师模型计算学生模型待学习的数据集的软标签,然后让学生模型拟合这些软标
签,可以将教师模型的知识传授给学生模型,即实现知识蒸馏。在本实施例中,对于数据集中的一个数据点,通过教师模型计算其软标签时,如以下公式所示:
由于每一个教师模型都是一个二分类的模型,其logits层的输出只有2个类
别,而对于另外的M-1个类别,本实施例采用取0值的方式,以此将多个二分类模型的软标签
转换为一个多分类的软标签,从而与学生模型的类别维度统一,是与
相对应的类别标签。的计算如以下公式所示:
其中,,对于任意一个,如果,定
义0为正常类别,那么函数的返回值为集合中任意一个元素,且满
足每个元素被选中的概率相等;否则,函数直接返回。这样通过训练后的所述
学生模型就可以对肺音音频进行分类,从而得到肺音音频对应的类别。
步骤S400、基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本实施例中获取所述多分类软标签;基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的教师模型的软标签;利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在本实施例中,学生模型对于待学习的数据集对应的标签定义为。所述学
生模型是在教师模型的基础上进行简化的一个模型。该学生模型共有6层,第1层是有6个滤
波器的卷积层,卷积核大小为(5, 5),步幅为(4, 2)。第2层同样是卷积层,包含18个滤波
器,卷积核大小、步幅与第1层相同。第3层是一个最大池化层,其pool size为(2, 2)。第4卷
积层有24个滤波器,卷积核大小与第2层相同。第5层全连接层有32个隐藏单元,然后连接输
出层。
除此之外,本实施例的学生模型的学习目标和教师模型也不同,学生模型一方面
需要使得预测尽量接近真实标签,另外一方面需要使得自身的软标签接近教师模型的软标签。与真实标签相比,软标签具有
有更为丰富的信息,其包含样本中类与类之间的关联,这些关联由复杂的教师模型学习得
到。学生模型由于自身结构比较简单,对样本的学习能力比教师模型弱,但如果在训练过程
中,让学生模型拟合教师模型学习到的关联信息,能够对自身的学习起到辅助作用。
但是,由于教师模型也是存在一定的出错概率,与单纯的向教师模型学习相比,添加真实标签就可以减少学生模型学习错误知识的可能性,学生模型的损失如以下公式所示:
在相同实验条件下,现有技术中的模型准确率为98%,参数量为0.28M,预测8000条数据的时耗为3.12秒,而本实施例中的学生模型准确率为95%,参数量为0.06M,预测同样的数据时耗为2.48秒。本方案的模型虽然在准确率上比现有技术中的模型低0.03,但是参数量比其减少了79%,完成相同任务比其节省了20%时间。可见,本发明可以通过多个教师模型的知识蒸馏,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
基于上述实施例,本发明还提供一种基于知识蒸馏的肺音分析系统,如图2中所示,所述系统包括:音频特征获取单元10、教师模型训练单元20、软标签拟合单元30以及学生模型训练单元40。
具体地,所述音频特征获取单元10,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
所述教师模型训练单元20,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
所述软标签拟合单元30,用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
所述学生模型训练单元40,用于基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图3所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的智能终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识蒸馏的肺音分析方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,所述方法包括:获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的多个学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于知识蒸馏的肺音分类方法,其特征在于,所述方法包括:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
2.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集,包括:
采集所述肺音音频,并对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频;
对所述增强后的肺音音频进行切片,得到多个音频片段;
分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。
3.根据权利要求2所述的基于知识蒸馏的肺音分类方法,其特征在于,所述音频数据增强处理包括:时间变换处理、音高变换处理和μ律压缩处理。
4.根据权利要求2所述的基于知识蒸馏的肺音分类方法,其特征在于,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集之后,包括:
对每一个所述音频片段进行零均值归一化处理。
5.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,包括:
获取所述肺音数据集中的预测标签,所述预测标签为所述肺音数据集中的梅尔频谱特征与预测音频类别的对应关系;
基于所述预测标签与真实标签,对多个教师模型进行训练,得到所述已训练的多个教师模型,所述真实标签为肺音类别。
6.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,包括:
获取所述多分类软标签;
基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签;
利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
7.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。
8.一种基于知识蒸馏的肺音分析系统,其特征在于,所述系统包括:
音频特征获取单元,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
教师模型训练单元,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
软标签拟合单元,用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
学生模型训练单元,用于基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-7中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011070732.XA CN111933185A (zh) | 2020-10-09 | 2020-10-09 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
PCT/CN2020/130136 WO2022073285A1 (zh) | 2020-10-09 | 2020-11-19 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011070732.XA CN111933185A (zh) | 2020-10-09 | 2020-10-09 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111933185A true CN111933185A (zh) | 2020-11-13 |
Family
ID=73334332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011070732.XA Pending CN111933185A (zh) | 2020-10-09 | 2020-10-09 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111933185A (zh) |
WO (1) | WO2022073285A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687290A (zh) * | 2020-12-30 | 2021-04-20 | 同济大学 | 一种经过压缩的咳嗽自动检测方法及嵌入式设备 |
WO2022073285A1 (zh) * | 2020-10-09 | 2022-04-14 | 深圳大学 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
WO2023245381A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 识别音频数据类别的方法、装置及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064155A (zh) * | 2022-06-09 | 2022-09-16 | 福州大学 | 一种基于知识蒸馏的端到端语音识别增量学习方法及系统 |
CN116110022B (zh) * | 2022-12-10 | 2023-09-05 | 河南工业大学 | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 |
CN116825130B (zh) * | 2023-08-24 | 2023-11-21 | 硕橙(厦门)科技有限公司 | 一种深度学习模型蒸馏方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110098591A1 (en) * | 2008-05-29 | 2011-04-28 | Technion Research And Development Foundation Ltd. | Carbon nanotube structures in sensor apparatuses for analyzing biomarkers in breath samples |
CN106022258A (zh) * | 2016-05-18 | 2016-10-12 | 成都济森科技有限公司 | 数字听诊器与滤除心音提取肺音的方法 |
CN107818366A (zh) * | 2017-10-25 | 2018-03-20 | 成都力创昆仑网络科技有限公司 | 一种基于卷积神经网络的肺音分类方法、系统及用途 |
CN110705624A (zh) * | 2019-09-26 | 2020-01-17 | 广东工业大学 | 一种基于多信噪比模型的心肺音分离方法及系统 |
CN110970042A (zh) * | 2019-12-13 | 2020-04-07 | 苏州美糯爱医疗科技有限公司 | 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933185A (zh) * | 2020-10-09 | 2020-11-13 | 深圳大学 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
-
2020
- 2020-10-09 CN CN202011070732.XA patent/CN111933185A/zh active Pending
- 2020-11-19 WO PCT/CN2020/130136 patent/WO2022073285A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110098591A1 (en) * | 2008-05-29 | 2011-04-28 | Technion Research And Development Foundation Ltd. | Carbon nanotube structures in sensor apparatuses for analyzing biomarkers in breath samples |
CN106022258A (zh) * | 2016-05-18 | 2016-10-12 | 成都济森科技有限公司 | 数字听诊器与滤除心音提取肺音的方法 |
CN107818366A (zh) * | 2017-10-25 | 2018-03-20 | 成都力创昆仑网络科技有限公司 | 一种基于卷积神经网络的肺音分类方法、系统及用途 |
CN110705624A (zh) * | 2019-09-26 | 2020-01-17 | 广东工业大学 | 一种基于多信噪比模型的心肺音分离方法及系统 |
CN110970042A (zh) * | 2019-12-13 | 2020-04-07 | 苏州美糯爱医疗科技有限公司 | 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
李坚强等: "基于集成知识蒸馏的肺病分析", 《控制理论与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022073285A1 (zh) * | 2020-10-09 | 2022-04-14 | 深圳大学 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
CN112687290A (zh) * | 2020-12-30 | 2021-04-20 | 同济大学 | 一种经过压缩的咳嗽自动检测方法及嵌入式设备 |
CN112687290B (zh) * | 2020-12-30 | 2022-09-20 | 同济大学 | 一种经过压缩的咳嗽自动检测方法及嵌入式设备 |
WO2023245381A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 识别音频数据类别的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022073285A1 (zh) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933185A (zh) | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 | |
CN108877775B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
CN109243491B (zh) | 在频谱上对语音进行情绪识别的方法、系统及存储介质 | |
Priyadarshani et al. | Automated birdsong recognition in complex acoustic environments: a review | |
CN109065027B (zh) | 语音区分模型训练方法、装置、计算机设备及存储介质 | |
US8015132B2 (en) | System and method for object detection and classification with multiple threshold adaptive boosting | |
CN109087670B (zh) | 情绪分析方法、系统、服务器及存储介质 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN109119095B (zh) | 疲劳等级识别方法、装置、计算机设备及存储介质 | |
WO2019232848A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111326139A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
CN116741148A (zh) | 一种基于数字孪生的语音识别系统 | |
Revathi et al. | Robust respiratory disease classification using breathing sounds (RRDCBS) multiple features and models | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN113409825A (zh) | 健康智能检测方法、装置、电子设备及可读存储介质 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
Chaves et al. | Katydids acoustic classification on verification approach based on MFCC and HMM | |
Rituerto-González et al. | End-to-end recurrent denoising autoencoder embeddings for speaker identification | |
CN111061909B (zh) | 一种伴奏分类方法和装置 | |
CN115064175A (zh) | 一种说话人识别方法 | |
CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201113 |
|
RJ01 | Rejection of invention patent application after publication |