CN111933185A - 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 - Google Patents

基于知识蒸馏的肺音分类方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN111933185A
CN111933185A CN202011070732.XA CN202011070732A CN111933185A CN 111933185 A CN111933185 A CN 111933185A CN 202011070732 A CN202011070732 A CN 202011070732A CN 111933185 A CN111933185 A CN 111933185A
Authority
CN
China
Prior art keywords
lung sound
audio
classification
trained
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011070732.XA
Other languages
English (en)
Inventor
李坚强
陈杰
明仲
梁中明
王成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011070732.XA priority Critical patent/CN111933185A/zh
Publication of CN111933185A publication Critical patent/CN111933185A/zh
Priority to PCT/CN2020/130136 priority patent/WO2022073285A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,所述方法包括:获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并经转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。

Description

基于知识蒸馏的肺音分类方法、系统、终端及存储介质
技术领域
本发明涉及音频分类技术领域,尤其涉及一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质。
背景技术
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,旨在解决现有技术中用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性,并且对肺音的分析不够准确,影响分类的准确性。
为了解决上述技术问题,本发明所采用的技术方案如下:
第一方面,本发明提供一种基于知识蒸馏的肺音分类方法,其中,所述方法包括:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集,包括:
采集所述肺音音频,并对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频;
对所述增强后的肺音音频进行切片,得到多个音频片段;
分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。
在一种实现方式中,所述音频数据增强处理包括:时间变换处理、音高变换处理和μ律压缩处理。
在一种实现方式中,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集之后,包括:
对每一个所述音频片段进行零均值归一化处理。
在一种实现方式中,所述基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,包括:
获取所述肺音数据集中的预测标签;
基于所述预测标签与真实标签,对多个教师模型进行训练,得到所述已训练多个的教师模型,所述真实标签为肺音类别。
在一种实现方式中,所述基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,包括:
获取所述多分类软标签;
基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签;
利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在一种实现方式中,所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。
第二方面,本发明还提供一种基于知识蒸馏的肺音分析系统,其中,所述系统包括:
音频特征获取单元,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
教师模型训练单元,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
软标签拟合单元,用于根据所述已训练的教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
学生模型训练单元,用于基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
第三方面,本发明还提供一种智能终端,其中,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行上述方案中任意一项所述的方法。
第四方面,本发明还提供一种非临时性计算机可读存储介质,其中,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方案中任意一项所述的方法
有益效果:与现有技术相比,本发明提供了一种基于知识蒸馏的肺音分类方法,首先获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
附图说明
图1为本发明实施例提供的基于知识蒸馏的肺音分类方法的实施例流程图。
图2是本发明实施例提供的基于知识蒸馏的肺音分类系统的原理框图。
图3是本发明实施例提供的智能终端的功能原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
传统对于肺音的分析是利用传统的听诊器采用人工听诊的方式来实现,这可能由于经验不足和人耳对肺音的低频段敏感性低等因素,导致判断结果不够准确。与主观听诊相比,对肺音的计算机分析能够进行可重复的肺音量化近年来,已有很多学者专注于研究肺音分析和检测中的机器学习技术。机器学习技术应用于肺音分析上,使得肺音识别的准确率得到了提升。
由于肺部声音信号不稳定,现有技术中也有提出一种使用小波变换分析肺部声音信号以及使用人工神经网络(ANN)进行分类的方法,但是这种方法需要人工标记肺音的周期。异常肺音本身是一种非周期信号,其可能不会在整个记录中出现。此外,目前还开发出一种自动肺音分析仪,该工具在不需要额外的流量信号或标记呼吸周期的情况下,就能识别肺部声音特征, 但是这种方法主要是区分正常肺音和异常肺音,用作肺音的细类区分,仍存在一定的局限性。听诊时可能出现的各种各样的不确定音和噪声使肺音检测不够准确。目前,研究人员提出了基于隐马尔科夫模型提出“异常呼吸置信度”检测的两步分类方法,但是该工作也只是关注单一类型的肺音。可见,现有技术中使用神经网络来对肺音进行分类时,基本都只能实现单一类型的分类,用作肺音的细类区分,仍存在一定的局限性。并且,由于听取肺音是可能出现各种各样不确定音和噪音,使得对肺音的分析不够准确,影响分类的准确性。
为解决现有技术中的问题,本实施例提供一种基于知识蒸馏的肺音分类方法,本实施例中的知识蒸馏,是可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。具体实施是,是先训练一个教师网络,然后使用这个教师网络的输出和数据的真实标签去训练学生网络。知识蒸馏可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中。因此,本实施例可基于知识蒸馏的原理,利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。具体如图1中所示。所述基于知识蒸馏的肺音分类方法具体包括如下步骤:
步骤S100、获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
本实施例中的肺音音频可来自各大医院所采集到的音频数据,这样就可以利用多 方数据来进行分析,以便准确地对肺音音频进行分类。在本实施例中,当获取到所述肺音音 频后,对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频。具体地,本实施例 使用三种数据增强方式来数据增强方法:时间变换、音高变换和
Figure 837830DEST_PATH_IMAGE001
律压缩。时间变换旨在通 过改变参数因子而影响音频的采样速率。而音高变换就是以半音为单位,对音频的音调进 行调整。
Figure 917781DEST_PATH_IMAGE002
律压缩是一种动态范围压缩算法,对于输入的信号
Figure 536981DEST_PATH_IMAGE003
Figure 335173DEST_PATH_IMAGE004
,计算
Figure 65232DEST_PATH_IMAGE001
律压缩可以表述为以下公式:
Figure 501155DEST_PATH_IMAGE005
其中,
Figure 556835DEST_PATH_IMAGE006
表示符号函数,
Figure 842323DEST_PATH_IMAGE007
表示取信号
Figure 110493DEST_PATH_IMAGE003
的绝对值,
Figure 165037DEST_PATH_IMAGE001
为压缩参 数,一般取值为2的幂减1。通过这三种数据增强方法来对数据进行增强,使得采集的肺音音 频可以明显的增强,使得整个数据集中的样本数据量增加。
接着,本实施例从所述增强后的肺音音频中获取梅尔频谱特征,提取梅尔频谱特征的作用在于把音频信号中具有辨识性的成分提取出来,然后去除肺音音频的干扰因素,以提高识别的准确性。具体实施时,本实施例中提取梅尔频谱特征的流程主要是包括四个步骤。具体为:首先是先对肺音音频进行预加重、分帧和加窗(加强语音信号性能(信噪比,处理精度等)的一些预处理)。然后,对每一个短时分析窗,通过FFT(Fast FourierTransformation,快速傅氏变换)得到对应的频谱(即获得分布在时间轴上不同时间窗内的频谱)。接着将将上面的频谱通过Mel(梅尔)滤波器组得到Mel频谱(通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱)。当然,本实施例中对于梅尔频谱特征的提取可以基于一个开源的python工具包librosa来实现。
在一种实现方式中,本实施例可以对所述增强后的肺音音频进行切片,得到多个 音频片段。然后分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据 集。具体地,由于原始采集的肺音音频是一段较长的时序序列,在3至10秒之间会有较为明 显的变化,因此本实施例中可以按照预先设定好的时间窗口,将增强处理后的肺音音频分 割为固定时长的音频片段,然后再对各个音频片段进行梅尔频谱特征,并构成所述数据集, 通过所述肺音数据集进行模型的训练。在一种实现方式中,本实施例在得到所述肺音数据 集后还对每一个所述音频片段进行零均值归一化处理,能够加快模型的优化过程,本实施 例使用的零均值归一化的方法是音频和图像处理任务中比较常用的归一化方法。对于音频 片段
Figure 126040DEST_PATH_IMAGE003
, 零均值归一化就是减去其均值
Figure 898824DEST_PATH_IMAGE008
之后,再除以
Figure 472150DEST_PATH_IMAGE003
的标准差
Figure 646779DEST_PATH_IMAGE009
,如以下公式所示:
Figure 513104DEST_PATH_IMAGE010
步骤S200、获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
在本实施例中,本实施例首先获取神经网络模型,所述神经网络模型包括多个教 师模型与学生模型,然后获取所述肺音数据集中的预测标签。接着基于所述预测标签与真 实标签,对所述教师模型进行训练,得到已训练的多个教师模型,所述真实标签为肺音类 别。在本实施例中,每一个已训练的教师模型为二分类模型,假设共用M种肺音类别,则就需 要对应训练M个教师模型,以使得每一个已训练的教师模型可以分别对应两种肺音类别的 分类。本实施例中的肺音数据集为
Figure 773184DEST_PATH_IMAGE011
Figure 383157DEST_PATH_IMAGE011
数据对应的预测标签定义为
Figure 412293DEST_PATH_IMAGE012
。本实施例 中,所述教师模型是一个6层的CNN(Convolutional Neural Networks,卷积神经网络)模 型,第1层是有24个滤波器的卷积层,卷积核大小为(5, 5),步幅为(4, 2)。第2层同样是卷 积层,包含48个滤波器,卷积核大小、步幅与第1层相同。第3层是一个最大池化层,其pool size为(2, 2)。第4层卷积层的滤波器数量和卷积核大小与第2层相同。第5层全连接层有64 个隐藏单元,最后一层为输出层。
在训练多个教师模型的过程中,每个教师模型分别对应一种肺音类别,拟合来自 不同医院采集到的的肺音音频数据,训练目标为最小化教师模型的预测标签和真实标签之 间的交叉熵损失,对于教师模型
Figure 449519DEST_PATH_IMAGE013
,其损失函数如下公式所示:
Figure 196895DEST_PATH_IMAGE014
这里
Figure 112024DEST_PATH_IMAGE015
表示
Figure 261245DEST_PATH_IMAGE016
中元素数量,
Figure 734952DEST_PATH_IMAGE017
表示
Figure 704045DEST_PATH_IMAGE016
中的一个数据点,
Figure 655821DEST_PATH_IMAGE018
是 与
Figure 659549DEST_PATH_IMAGE019
相对应的类别标签,
Figure 38577DEST_PATH_IMAGE020
表示教师模型
Figure 996431DEST_PATH_IMAGE013
的预测函数。
步骤S300、根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
对于每一个训练好的教师模型而言,其已经学习了某一种肺音类别的数据特征。 先由教师模型计算学生模型待学习的数据集
Figure 751898DEST_PATH_IMAGE021
的软标签,然后让学生模型拟合这些软标 签,可以将教师模型的知识传授给学生模型,即实现知识蒸馏。在本实施例中,对于数据集
Figure 610132DEST_PATH_IMAGE021
中的一个数据点
Figure 425642DEST_PATH_IMAGE022
,通过教师模型
Figure 369327DEST_PATH_IMAGE023
计算其软标签时,如以下公式所示:
Figure 662905DEST_PATH_IMAGE024
这里的
Figure 375646DEST_PATH_IMAGE025
表示教师模型
Figure 362057DEST_PATH_IMAGE013
对应音频类别
Figure 294503DEST_PATH_IMAGE026
时logits层的输出,
Figure 391772DEST_PATH_IMAGE027
为 温控超参数,
Figure 959019DEST_PATH_IMAGE027
取值越大,软标签的分布越平滑。
由于每一个教师模型
Figure 116331DEST_PATH_IMAGE028
都是一个二分类的模型,其logits层的输出只有2个类 别,而对于另外的M-1个类别,本实施例采用取0值的方式,以此将多个二分类模型的软标签 转换为一个多分类的软标签
Figure 34609DEST_PATH_IMAGE029
,从而与学生模型的类别维度统一,
Figure 669989DEST_PATH_IMAGE030
是与
Figure 622902DEST_PATH_IMAGE031
相对应的类别标签。
Figure 951115DEST_PATH_IMAGE029
的计算如以下公式所示:
Figure 592574DEST_PATH_IMAGE032
其中,
Figure 297225DEST_PATH_IMAGE033
,对于任意一个
Figure 839065DEST_PATH_IMAGE034
,如果
Figure 338179DEST_PATH_IMAGE035
,定 义0为正常类别,那么函数
Figure 965470DEST_PATH_IMAGE036
的返回值为集合
Figure 942653DEST_PATH_IMAGE037
中任意一个元素,且满 足每个元素被选中的概率相等;否则,函数
Figure 870158DEST_PATH_IMAGE038
直接返回
Figure 53357DEST_PATH_IMAGE039
。这样通过训练后的所述 学生模型就可以对肺音音频进行分类,从而得到肺音音频对应的类别。
步骤S400、基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本实施例中获取所述多分类软标签;基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的教师模型的软标签;利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
在本实施例中,学生模型对于待学习的数据集
Figure 167944DEST_PATH_IMAGE021
对应的标签定义为
Figure 948818DEST_PATH_IMAGE040
。所述学 生模型是在教师模型的基础上进行简化的一个模型。该学生模型共有6层,第1层是有6个滤 波器的卷积层,卷积核大小为(5, 5),步幅为(4, 2)。第2层同样是卷积层,包含18个滤波 器,卷积核大小、步幅与第1层相同。第3层是一个最大池化层,其pool size为(2, 2)。第4卷 积层有24个滤波器,卷积核大小与第2层相同。第5层全连接层有32个隐藏单元,然后连接输 出层。
在本实施例中,学生模型的软标签计算与教师模型类似,区别在于学生模型需要 考虑
Figure 465250DEST_PATH_IMAGE041
个类别,如以下公式所示:
Figure 306167DEST_PATH_IMAGE042
这里的
Figure 908049DEST_PATH_IMAGE043
表示学生模型对应类别
Figure 758194DEST_PATH_IMAGE044
时logits层的输出,0表示 正常的类别。
除此之外,本实施例的学生模型的学习目标和教师模型也不同,学生模型一方面 需要使得预测
Figure 129132DEST_PATH_IMAGE045
尽量接近真实标签
Figure 642415DEST_PATH_IMAGE039
,另外一方面需要使得自身的软标签
Figure 466015DEST_PATH_IMAGE046
接近教师模型的软标签
Figure 854271DEST_PATH_IMAGE047
。与真实标签相比,软标签
Figure 79716DEST_PATH_IMAGE048
具有 有更为丰富的信息,其包含样本中类与类之间的关联,这些关联由复杂的教师模型学习得 到。学生模型由于自身结构比较简单,对样本的学习能力比教师模型弱,但如果在训练过程 中,让学生模型拟合教师模型学习到的关联信息,能够对自身的学习起到辅助作用。
但是,由于教师模型也是存在一定的出错概率,与单纯的向教师模型学习相比,添加真实标签就可以减少学生模型学习错误知识的可能性,学生模型的损失如以下公式所示:
Figure 262436DEST_PATH_IMAGE049
这里的
Figure 838910DEST_PATH_IMAGE050
表示
Figure 765278DEST_PATH_IMAGE051
中元素数量,
Figure 845230DEST_PATH_IMAGE052
表示S的预测函数。
Figure 965895DEST_PATH_IMAGE053
是一个常 数,用于学生模型选择侧重真实标签,还是侧重软标签。
在相同实验条件下,现有技术中的模型准确率为98%,参数量为0.28M,预测8000条数据的时耗为3.12秒,而本实施例中的学生模型准确率为95%,参数量为0.06M,预测同样的数据时耗为2.48秒。本方案的模型虽然在准确率上比现有技术中的模型低0.03,但是参数量比其减少了79%,完成相同任务比其节省了20%时间。可见,本发明可以通过多个教师模型的知识蒸馏,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
基于上述实施例,本发明还提供一种基于知识蒸馏的肺音分析系统,如图2中所示,所述系统包括:音频特征获取单元10、教师模型训练单元20、软标签拟合单元30以及学生模型训练单元40。
具体地,所述音频特征获取单元10,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集。
所述教师模型训练单元20,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类。
所述软标签拟合单元30,用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签。
所述学生模型训练单元40,用于基于所述多分类软标签和肺音数据集训练学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图3所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的智能终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识蒸馏的肺音分析方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种基于知识蒸馏的肺音分类方法、系统、终端及存储介质,所述方法包括:获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型;根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的多个学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类。本发明可以基于知识蒸馏,通过利用多个教师模型的知识,指导学生模型学习,从而充分利用多方肺音音频,并准确对所述肺音音频进行分类。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于知识蒸馏的肺音分类方法,其特征在于,所述方法包括:
获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述已训练的学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
2.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集,包括:
采集所述肺音音频,并对所述肺音音频进行音频数据增强处理,得到增强后的肺音音频;
对所述增强后的肺音音频进行切片,得到多个音频片段;
分别从每一个所述音频片段中提取所述梅尔频谱特征,得到所述肺音数据集。
3.根据权利要求2所述的基于知识蒸馏的肺音分类方法,其特征在于,所述音频数据增强处理包括:时间变换处理、音高变换处理和μ律压缩处理。
4.根据权利要求2所述的基于知识蒸馏的肺音分类方法,其特征在于,所述获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集之后,包括:
对每一个所述音频片段进行零均值归一化处理。
5.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,包括:
获取所述肺音数据集中的预测标签,所述预测标签为所述肺音数据集中的梅尔频谱特征与预测音频类别的对应关系;
基于所述预测标签与真实标签,对多个教师模型进行训练,得到所述已训练的多个教师模型,所述真实标签为肺音类别。
6.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,包括:
获取所述多分类软标签;
基于所述多分类软标签与肺音数据集,对所述学生模型进行训练,得到所述已训练的学生模型,所述已训练的学生模型的软标签接近所述已训练的多个教师模型的软标签;
利用所述已训练的学生模型对所述肺音音频进行分类,得到所述肺音音频的类别。
7.根据权利要求1所述的基于知识蒸馏的肺音分类方法,其特征在于,所述教师模型与所述学生模型均为一个6层的卷积神经网络模型。
8.一种基于知识蒸馏的肺音分析系统,其特征在于,所述系统包括:
音频特征获取单元,用于获取肺音音频,并基于所述肺音音频提取所述肺音音频的梅尔频谱特征,得到肺音数据集;
教师模型训练单元,用于获取神经网络模型,所述神经网络模型包括多个教师模型与学生模型,基于所述肺音数据集对多个教师模型进行训练,得到已训练的多个教师模型,所述已训练的多个教师模型为二分类模型,用于对所述肺音音频进行分类,且每一个已训练的教师模型对应两种肺音类别的分类;
软标签拟合单元,用于根据所述已训练的多个教师模型分别计算所述肺音数据集的软标签,并将其转换后,得到多分类软标签;
学生模型训练单元,用于基于所述多分类软标签和肺音数据集训练所述学生模型,得到已训练的学生模型,并利用所述已训练的学生模型对所述肺音音频进行分类,所述学生模型为多分类模型,所述已训练的学生模型对应于多种肺音类别的分类。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-7中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任意一项所述的方法。
CN202011070732.XA 2020-10-09 2020-10-09 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 Pending CN111933185A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011070732.XA CN111933185A (zh) 2020-10-09 2020-10-09 基于知识蒸馏的肺音分类方法、系统、终端及存储介质
PCT/CN2020/130136 WO2022073285A1 (zh) 2020-10-09 2020-11-19 基于知识蒸馏的肺音分类方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011070732.XA CN111933185A (zh) 2020-10-09 2020-10-09 基于知识蒸馏的肺音分类方法、系统、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111933185A true CN111933185A (zh) 2020-11-13

Family

ID=73334332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011070732.XA Pending CN111933185A (zh) 2020-10-09 2020-10-09 基于知识蒸馏的肺音分类方法、系统、终端及存储介质

Country Status (2)

Country Link
CN (1) CN111933185A (zh)
WO (1) WO2022073285A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687290A (zh) * 2020-12-30 2021-04-20 同济大学 一种经过压缩的咳嗽自动检测方法及嵌入式设备
WO2022073285A1 (zh) * 2020-10-09 2022-04-14 深圳大学 基于知识蒸馏的肺音分类方法、系统、终端及存储介质
WO2023245381A1 (zh) * 2022-06-20 2023-12-28 北京小米移动软件有限公司 识别音频数据类别的方法、装置及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064155A (zh) * 2022-06-09 2022-09-16 福州大学 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN116110022B (zh) * 2022-12-10 2023-09-05 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN116825130B (zh) * 2023-08-24 2023-11-21 硕橙(厦门)科技有限公司 一种深度学习模型蒸馏方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110098591A1 (en) * 2008-05-29 2011-04-28 Technion Research And Development Foundation Ltd. Carbon nanotube structures in sensor apparatuses for analyzing biomarkers in breath samples
CN106022258A (zh) * 2016-05-18 2016-10-12 成都济森科技有限公司 数字听诊器与滤除心音提取肺音的方法
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
CN110705624A (zh) * 2019-09-26 2020-01-17 广东工业大学 一种基于多信噪比模型的心肺音分离方法及系统
CN110970042A (zh) * 2019-12-13 2020-04-07 苏州美糯爱医疗科技有限公司 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933185A (zh) * 2020-10-09 2020-11-13 深圳大学 基于知识蒸馏的肺音分类方法、系统、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110098591A1 (en) * 2008-05-29 2011-04-28 Technion Research And Development Foundation Ltd. Carbon nanotube structures in sensor apparatuses for analyzing biomarkers in breath samples
CN106022258A (zh) * 2016-05-18 2016-10-12 成都济森科技有限公司 数字听诊器与滤除心音提取肺音的方法
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
CN110705624A (zh) * 2019-09-26 2020-01-17 广东工业大学 一种基于多信噪比模型的心肺音分离方法及系统
CN110970042A (zh) * 2019-12-13 2020-04-07 苏州美糯爱医疗科技有限公司 一种电子听诊器的肺部啰音人工智能实时分类方法、系统、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李坚强等: "基于集成知识蒸馏的肺病分析", 《控制理论与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022073285A1 (zh) * 2020-10-09 2022-04-14 深圳大学 基于知识蒸馏的肺音分类方法、系统、终端及存储介质
CN112687290A (zh) * 2020-12-30 2021-04-20 同济大学 一种经过压缩的咳嗽自动检测方法及嵌入式设备
CN112687290B (zh) * 2020-12-30 2022-09-20 同济大学 一种经过压缩的咳嗽自动检测方法及嵌入式设备
WO2023245381A1 (zh) * 2022-06-20 2023-12-28 北京小米移动软件有限公司 识别音频数据类别的方法、装置及存储介质

Also Published As

Publication number Publication date
WO2022073285A1 (zh) 2022-04-14

Similar Documents

Publication Publication Date Title
CN111933185A (zh) 基于知识蒸馏的肺音分类方法、系统、终端及存储介质
CN108877775B (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN109243491B (zh) 在频谱上对语音进行情绪识别的方法、系统及存储介质
Priyadarshani et al. Automated birdsong recognition in complex acoustic environments: a review
CN109065027B (zh) 语音区分模型训练方法、装置、计算机设备及存储介质
US8015132B2 (en) System and method for object detection and classification with multiple threshold adaptive boosting
CN109087670B (zh) 情绪分析方法、系统、服务器及存储介质
CN108962231B (zh) 一种语音分类方法、装置、服务器及存储介质
CN109119095B (zh) 疲劳等级识别方法、装置、计算机设备及存储介质
WO2019232848A1 (zh) 语音区分方法、装置、计算机设备及存储介质
CN111326139A (zh) 一种语种识别方法、装置、设备及存储介质
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
CN116741148A (zh) 一种基于数字孪生的语音识别系统
Revathi et al. Robust respiratory disease classification using breathing sounds (RRDCBS) multiple features and models
CN112466284B (zh) 一种口罩语音鉴别方法
CN113409825A (zh) 健康智能检测方法、装置、电子设备及可读存储介质
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
CN116741159A (zh) 音频分类及模型的训练方法、装置、电子设备和存储介质
Chaves et al. Katydids acoustic classification on verification approach based on MFCC and HMM
Rituerto-González et al. End-to-end recurrent denoising autoencoder embeddings for speaker identification
CN111061909B (zh) 一种伴奏分类方法和装置
CN115064175A (zh) 一种说话人识别方法
CN112908344A (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
Camarena-Ibarrola et al. Speaker identification using entropygrams and convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113

RJ01 Rejection of invention patent application after publication