CN112037929A - 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 - Google Patents
基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 Download PDFInfo
- Publication number
- CN112037929A CN112037929A CN202010928695.5A CN202010928695A CN112037929A CN 112037929 A CN112037929 A CN 112037929A CN 202010928695 A CN202010928695 A CN 202010928695A CN 112037929 A CN112037929 A CN 112037929A
- Authority
- CN
- China
- Prior art keywords
- data set
- new coronary
- coronary pneumonia
- data
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010035664 Pneumonia Diseases 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000010801 machine learning Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 206010011224 Cough Diseases 0.000 claims description 46
- 208000037656 Respiratory Sounds Diseases 0.000 claims description 37
- 230000036760 body temperature Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 9
- 206010037660 Pyrexia Diseases 0.000 claims description 7
- 206010037833 rales Diseases 0.000 claims description 6
- 208000023504 respiratory system disease Diseases 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 241000288140 Gruiformes Species 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 24
- 230000008569 process Effects 0.000 abstract description 10
- 150000007523 nucleic acids Chemical class 0.000 abstract description 9
- 102000039446 nucleic acids Human genes 0.000 abstract description 9
- 108020004707 nucleic acids Proteins 0.000 abstract description 9
- 230000002265 prevention Effects 0.000 abstract description 4
- 239000002699 waste material Substances 0.000 abstract description 2
- 210000002569 neuron Anatomy 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 208000030247 mild fever Diseases 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Detecting, measuring or recording devices for evaluating the respiratory organs
- A61B5/0823—Detecting or evaluating cough events
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B7/00—Instruments for auscultation
- A61B7/003—Detecting lung or respiration noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Pulmonology (AREA)
- Molecular Biology (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
Abstract
本发明公开了基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。能够通过多种单项数据的采集,进而实现对对象的分类。并且由于先利用分类器进行单项数据的分类,再利用神经网络对单项数据的分类结果进行进一步分类,使得模型训练时长更短,且对硬件性能要求更低。本发明利用这种分类方法,还能够实现对于新冠肺炎的在线预警,能够快速确定需要进行核酸检测的对象,既保证了疑似患者得到检测,又避免了检测资源的浪费,在新冠肺炎的防治过程中能够起到积极的作用。
Description
技术领域
本发明属于结合多模态的机器学习领域,具体涉及基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。
背景技术
在抗疫过程中,由于核酸检测时间较长且检测资源有限。因此,为了节省检测资源,提高检测的准确率,需要先确定哪些应当进行核酸检测。现有的方法通常是根据对象是否发烧来判断是否需要核酸检测,这种判断方法考虑因素过少且判断结果准确性差,导致大量需要检测的疑似患者未能得到检测,且大量其他疾病患者占用了宝贵的检测资源。
在抗疫过程中,由于核酸检测时间较长且检测资源有限。因此,为了节省检测资源,提高检测的准确率,需要先确定哪些应当进行核酸检测。现有的方法通常是根据对象是否发烧来判断是否需要核酸检测,这种判断方法考虑因素过少且判断结果准确性差,导致大量需要检测的疑似患者未能得到检测,且大量其他疾病患者占用了宝贵的检测资源。
因此,如何根据采集到的对象信息,判断出对象是应当接受核酸检测,对其进行及时且精准的预警,成为了本领域技术人员急需解决的问题。
发明内容
为了解决上述技术问题,本发明采用了如下的技术方案:
基于多模态机器学习的分类方法,包括:
S101、获取待分类数据样本,待分类数据样本包括多种单项数据;
S102、提取每种单项数据的特征得到待分类数据样本特征;
S103、将待分类数据样本特征输入多模态机器学习的分类模型,输出分类结果,所述多模态机器学习的分类模型包括多个分类器及单隐层神经网络,每个分类器的输入为一种单项数据的特征,单隐层神经网络的输入为所有分类器的输出,单隐层神经网络的输出为分类结果。
优选地,所述多模态机器学习的分类模型的训练方法如下:
S201、获取综合数据集及所述综合数据集对应的多个单项数据集,综合数据集包括所述多种单项数据及与所述多种单项数据对应的综合标记,每个单项数据集包括一种单项数据及对应的单项标记;
S202、提取每个单项数据集的特征;
S203、基于每个单项数据集的特征及对应的单项标记完成每个分类器的训练;
S204、使用误差逆传播算法及综合数据集完成单隐层神经网络的训练。
基于多模态机器学习的在线新冠肺炎预警模型训练方法,包括:
S301、获取新冠肺炎综合数据集及所述新冠肺炎综合数据集对应的多个新冠肺炎单项数据集,新冠肺炎综合数据集包括所述多种新冠肺炎单项数据及与所述多种新冠肺炎单项数据对应的新冠肺炎综合标记,每个新冠肺炎单项数据集包括一种新冠肺炎单项数据及对应的新冠肺炎单项标记;
S302、提取每个新冠肺炎单项数据集的特征;
S303、基于每个新冠肺炎单项数据集的特征及对应的新冠肺炎单项标记完成每个分类器的训练;
S304、使用误差逆传播算法及新冠肺炎综合数据集完成单隐层神经网络的训练。
优选地,所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。
优选地,疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频,疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽;肺音数据集包括多段肺音音频,肺音数据集的标记包括正常、干啰音及湿啰音;心音数据集包括多段心音音频,心音数据集的标记包括正常和不正常;体温数据集包括多个体温数据,体温数据集的标记包括发烧、发热、轻度发热及正常;所述提取每个新冠肺炎单项数据集的特征包括:
对于疑似咳嗽音数据集中包含咳嗽音的音频,使用短时平均能量的方法提取出感兴趣的固定时长的咳嗽音片段,对片段计算梅尔倒频系数,得到咳嗽音的特征向量;
对于肺音音频,使用小波分解将肺音音频波形分解为9组波形,对每一组提取频率特征,作为肺音音频的特征向量;
对于心音音频,使用短时平均能量的方法提取出第一心音与第二心音,再对第一心音与第二心音进行小波分解,提取频率特征,得到心音音频的特征向量;
对体温数据,将体温数值作为特征向量。
优选地,新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据,以及采集对象是否满足预警条件的标记,采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者,新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。
基于多模态机器学习的在线新冠肺炎预警方法,包括:
S701、采集待识别数据样本,待识别数据样本包括多种单项数据;
S702、提取每种单项数据的特征得到待识别数据样本特征;
S703、将待识别数据样本特征输入训练后的基于多模态机器学习的在线新冠肺炎预警模型;
S704、当待识别数据样本满足预警条件时,进行预警。
综上所述,本发明公开了基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。能够通过多种单项数据的采集,进而实现对对象的分类。并且由于先利用分类器进行单项数据的分类,再利用神经网络对单项数据的分类结果进行进一步分类,使得模型训练时长更短,且对硬件性能要求更低。本发明利用这种分类方法,还能够实现对于新冠肺炎的在线预警,能够快速确定需要进行核酸检测的对象,既保证了疑似患者得到检测,又避免了检测资源的浪费,在新冠肺炎的防治过程中能够起到积极的作用。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明公开的基于多模态机器学习的分类方法的一种具体实施方式的流程图;
图2为本发明公开的基于多模态机器学习的在线新冠肺炎预警模型训练方法的流程图
图3为本发明公开的基于多模态机器学习的在线新冠肺炎预警模型训练方法的一种具体实施方式的流程图;
图4为本发明中基于多模态机器学习的在线新冠肺炎预警模型的运行流程图;
图5为本发明实施例中的咳嗽音预处理与特征提取示意图;
图6为本发明实施例中的肺音预处理与特征提取示意图;
图7为本发明实施例中的心音预处理与特征提取示意图;
图8为本发明实施例中的体温决策树示意图;
图9为本发明实施例中的单隐层神经网络与多模型融合示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了基于多模态机器学习的分类方法,包括:
S101、获取待分类数据样本,待分类数据样本包括多种单项数据;
S102、提取每种单项数据的特征得到待分类数据样本特征;
S103、将待分类数据样本特征输入多模态机器学习的分类模型,输出分类结果,所述多模态机器学习的分类模型(如图9所示)包括多个分类器及单隐层神经网络,每个分类器的输入为一种单项数据的特征,单隐层神经网络的输入为所有分类器的输出,单隐层神经网络的输出为分类结果。
现有技术中,一个要同时处理多种音频数据的神经网络,往往包含很多的隐层,规模比较大,训练与预测都需要比较高的计算性能,需要的计算设备昂贵且笨重。而SVM、决策树、单隐层神经等所需的计算性能比较低,更适合在嵌入式设备使用。
此外,在本发明中,单项数据的来源包括新冠肺炎疑似患者、新冠肺炎确诊患者、多种呼吸道疾病患者、未患病对象。因为新冠肺炎综合数据集的收集难度较大,但是新冠肺炎的咳嗽、肺部啰音等单项症状是与其它呼吸道疾病很相似的,故先训练单项的分类器,可以使用来自多种呼吸道疾病患者的单项数据,而不必全部采用来自新冠肺炎患者的数据集,这样使得单项分类器的有更多样本用于训练,提升准确度。单项分类器只专注于某一项症状的识别,而不必关心受检者是否为新冠肺炎患者。
在本发明中,可使用C++语言与Dlib机器学习库搭建机器学习环境。具体的,使用得C++ 语言为较新的C++11标准以及GNU编译器套件。另外使用Dlib 19.20作为实现机器学习算法的依赖库。
Dlib是一个用现代C++编写的工具库,包含了丰富的机器学习算法与工具,使开发者便于使用C++解决实际问题,广泛应用于行业和学术界,例如机器人、嵌入式设备、移动电话与大型高性能计算机等。Dlib具有以下优点:
跨平台:库代码符合ISO C++标准,不需要任何第三方库支持,仅依赖操作系统提供的 API,支持win32、Linux、Max OS X、Solaris、HPUX、BSDs和POSIX系统,因此可应用至安装了对应LOT操作系统嵌入式设备上。
效率高:目前很多机器学习平台使用python编写或提供python接口,而Dlib库使用C++ 语言编写,经编译后可以提供极为高效的运行效率。
文档质量高:与许多开源项目不同,Dlib项目为每个类和功能提供完整而准确的文档,并提供许多示例程序。
功能全:除了大量的机器学习算法之外,Dlib库还提供了很多有用的数值算法、图像处理算法等,以及可移植的、简单的网络API、图形界面API、线程API等。
多模态机器学习(Multimodal Machine Learning,MMML),是一种通过机器学习实现处理与理解多来源、多模态的信息的方法。在信息技术飞速发展的今天,数据往往是多源异构的,多模态数据逐渐成为数据资源的主要形式。相对于传统机器学习方法,多模态机器学习更能适应多元异构的数据形式,理解更多类型的数据,在应用中提供更好的性能。
具体实施时,所述多模态机器学习的分类模型的训练方法如下:
S201、获取综合数据集及所述综合数据集对应的多个单项数据集,综合数据集包括所述多种单项数据及与所述多种单项数据对应的综合标记,每个单项数据集包括一种单项数据及对应的单项标记;
S202、提取每个单项数据集的特征;
S203、基于每个单项数据集的特征及对应的单项标记完成每个分类器的训练;
S204、使用误差逆传播算法及综合数据集完成单隐层神经网络的训练。
在本发明中,单隐层神经网络的输入层的神经元个数与单项数据的种类个数相同,单隐层神经网络包含1层隐含层,隐含层的神经元数目为超参数,可进行人为调整;输出层包含 1个神经元;
使用误差逆传播算法进行单隐层神经网络的训练的时候,分类器的参数保持不变。
如图2所示,本发明还公开了基于多模态机器学习的在线新冠肺炎预警模型训练方法,包括:
S301、获取新冠肺炎综合数据集及所述新冠肺炎综合数据集对应的多个新冠肺炎单项数据集,新冠肺炎综合数据集包括所述多种新冠肺炎单项数据及与所述多种新冠肺炎单项数据对应的新冠肺炎综合标记,每个新冠肺炎单项数据集包括一种新冠肺炎单项数据及对应的新冠肺炎单项标记;
S302、提取每个新冠肺炎单项数据集的特征;
S303、基于每个新冠肺炎单项数据集的特征及对应的新冠肺炎单项标记完成每个分类器的训练;
S304、使用误差逆传播算法及新冠肺炎综合数据集完成单隐层神经网络的训练。
具体实施时,所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。
具体实施时,疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频,疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽;肺音数据集包括多段肺音音频,肺音数据集的标记包括正常、干啰音及湿啰音;心音数据集包括多段心音音频,心音数据集的标记包括正常和不正常;体温数据集包括多个体温数据,体温数据集的标记包括发烧、发热、轻度发热及正常(分别对应图8中的,1、0.5、-0.5及-1);所述提取每个新冠肺炎单项数据集的特征包括:
如图5所示,对于疑似咳嗽音数据集中包含咳嗽音的音频,使用短时平均能量的方法提取出感兴趣的固定时长的咳嗽音片段,对片段计算梅尔倒频系数,得到咳嗽音的特征向量;
首先,对于一段从环境中录取的音频,取得其中感兴趣的音频段,即准确定位咳嗽音所在时间点。根据经验,咳嗽音的响度往往很大,在音频波形图表现出振幅度很大的特点。故在时长为t的环境音频中,定位出一段时长为1s的咳嗽音,可以视为一个最值问题:
公式(1)的意义,即为寻找一个时间点t0,使得式中积分值最大,且t0被约束在0与t-1 之间,其中f(t)即为音频的波形函数。在使用计算机处理此问题时,可进行离散化处理。首先可对音频信号以固定时间间隔10ms进行分帧,为每一帧计算短时平均能量,之后求出短时平均能量之和最大的连续100帧,这100帧即为所需感兴趣的咳嗽音片段。
由于咳嗽音的频率特征与人的语音的频率特征较为相近,故使用语音识别领域广泛使用的梅尔倒频系数(Mel Frequency Cepstrum Coefficient,MFCC)来对咳嗽音进行特征提取。设置音频被划分为M帧,计算N阶MFCC参数,则可以得到M×N维的特征向量。
如图6所示,对于肺音音频,使用小波分解将肺音音频波形分解为9组波形,对每一组提取频率特征,作为肺音音频的特征向量;
对肺音音频进行处理与特征提取。小波分解基于小波变换,通过缩放母小波的宽度来获得信号的频率特征。使用小波分解对肺音进行特征提取已经在一些研究中被应用,其关键在于选取合适的小波及分解层数。本实施例选取duabechies小波的6阶作为母小波,设置分解层数为8,经过8层小波分解后,可获得9组信号波形,对每一组信号计算高频部分的频率,用1个数值表示,则最终可获得9维的肺音特征向量。
如图7所示,对于心音音频,使用短时平均能量的方法提取出第一心音与第二心音,再对第一心音与第二心音进行小波分解,提取频率特征,得到心音音频的特征向量;
对心音音频进行处理与特征处理。心音音频中的第一心音(S1)与第二心音(S2)为感兴趣点,也为需要提取出的片段。因为S1音段与S2音段的音频波形的振幅较大,故可采用基于短时平均能量的感兴趣片段提取方法,以提取出单独的S1段音频与S2段音频。对S1音段与S2音段分别进行小波分解,均选取duabechies小波的6阶作为母小波,进行8层分解,S1与S2分别得到9组信号波形,进而提取频率特征并拼接为一个18维特征向量,作为心音信号的特征向量。
在心音音频的提取过程中,经过一定降噪处理后,进行分帧并计算短时平均能量,以识别并提取出第一心音(S1)与第二心音(S2)的音频波形,进行小波分解并提取频率特征,最终得到心音信号的特征向量。
如图8所示,对体温数据,将体温数值作为特征向量。
本发明中,使用支持向量机作为疑似咳嗽音数据集、肺音数据集及心音数据集的分类器,使用决策树作为体温数据的分类器。
支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的线性分类器,其基本模型是定义在特征空间上的间隔最大的线性分类器。对于线性不可分的数据样本,使用核方法将数据的原始特征空间映射到一个更高维的特征空间,使样本在高维空间中线性可分,因此,使用核方法可以使SVM成为非线性分类器。目前,SVM在音频分类问题上已经得到了广泛的应用。
决策树是一种易于理解的机器学习方法,它与人类面临决策问题时进行的决策过程十分相似,决策树基于树结构进行多次决策,最终得出结论。体温这种具有典型分段特征的数据,十分适合使用决策树处理。
本发明中对任一一种单项数据集的支持向量机的训练方法如下:
将数据集随机划分为训练集与测试集,训练集占原数据集的2/3,测试集占原数据集的 1/3;
对数据集进行特征向量的提取构成训练样本集(Xi,Yi),i=1,2,3,…,p与测试样本集 (Xj,Yj),j=1,2,3,…,q,其中X表示样本的特征向量,Y表示样本的分类标识,p为训练样本数,q为测试样本数;
一个SVM可以完成二分类任务,对于需要多分类的数据集,使用多个SVM嵌套实现多分类效果。如肺音数据集含有正常、干啰音、湿啰音三种分类,则可以使用第一个SVM分类器将样本分为正常与非正常,再使用第二个SVM分类器将非正常划分为干啰音与湿啰音两类。构造SVM需要选择核函数、参数Gamma以及惩罚因子C,这些参数可根据经验选择,并进行多次训练选择表现最好的一组参数;
使用训练样本集对SVM进行训练。SVM训练的过程本质上为最优化问题,即最大化分隔平面与两侧样本的最近距离;
使用测试样本集对已训练的SVM进行测试,使用识别率对SVM的分类效果进行评价,其中识别率的定义为:
进行调参,多次进行训练与测试,得到表现最好的一组参数及其对应的训练好的SVM,保存留作之后步骤使用。
具体实施时,新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据,以及采集对象是否满足预警条件的标记,采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者,新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。
本发明中对于单隐层神经网络对分类器进行融合的方法如下:
所用神经网络的输入层为四个神经元,分别接收x1,x2,x3,x4作为输入,将(x1,x2,x3,x4) 记为向量X。本实施例中,神经网络选用的激活函数为tanh函数,其定义为:
tanh函数的值域在(-1,1)上,因此,对于样本数据集合,符合预警条件标记为1,不符合预警条件标记为-1;
所用神经网络的隐层选用16个神经元,其中第i个神经元的输出yi可表示为:
yi=tanh(X·Wi) (4)
(4)式中,X为输入向量,Wi为第i个神经元的输入权重向量,为一组可学习的参数。
所用神经网络的输出层仅有一个神经元,其输出z可以表示为:
其中yi和wi分别为第i个隐层神经元的输出值和其与输出层神经元连接的权重,wi为可学习的参数。z为输出层神经元的唯一输出,也是由输入样本得到的数值形式的预警判断结果。
本发明中对于单隐层神经网络的训练方式如下:
在神经网络训练过程中,不对四个单独分类器进行训练,即将三个SVM分类器与一个决策树分类器的所有参数进行冻结。对神经网络的训练使用误差逆传播算法,即BP(error Back Propagation)算法。设置学习率为η,使用均方误差作为损失函数,详细的训练过程为:
在(0,1)范围内随机初始化网络中的连接权重或参数;
使用梯度下降方法,以目标的负梯度方向对可学习参数进行调整。遍历输入的训练样本集,对于每一个样本(Xi,yi),计算当前样本的预测输出按照从后向前、从输出层到隐含层的顺序对网络中的参数进行更新。对于一个权重ω,其更新策略为:
若网络的准确度达到预设条件,或训练轮数达到预设轮数,则结束训练。
对四个单独分类器与神经网络组成的整个机器学习模型进行测试,测试指标为(2)式所描述的识别率。若模型的识别率未能达到预期的识别率,则考虑对模型进行调参、对数据集进行数据增强、收集更多的数据集等方式来提高模型的识别率。
如图3所示,本发明还公开了基于多模态机器学习的在线新冠肺炎预警方法,包括:
S701、采集待识别数据样本,待识别数据样本包括多种单项数据;
S702、提取每种单项数据的特征得到待识别数据样本特征;
S703、将待识别数据样本特征输入训练后的基于多模态机器学习的在线新冠肺炎预警模型;
S704、当待识别数据样本满足预警条件时,进行预警。
基于多模态机器学习的在线新冠肺炎预警模型的运行流程如图4所示。
本发明中,可对神经网络的输出进行可视化处理。由于神经网络的输出为一个数值,为了让使用者能轻松地得到检测结果,故需要对数值进行可视化处理。神经网络的输出范围在 -1与1之间,检测结果与神经网络的输出x为以下关系:
程序也需要告诉使用者判断结果的可信度,以便做出相应处理。检测结果可信度与神经网络的输出x为以下关系:
可信度=|x|×100% (8)
为了实现本发明公开的方法,可以将方法以软件的方式在计算机中运行。具体的,计算机设备可为基于ARM处理器与Android系统的便携式计算机,所使用的用于采集受检者咳嗽音、肺音、心音与体温的传感器为经过定制的集成式传感器,拥有多组音频采集器与红外线测温计,经USB端口连接至便携式计算机。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
Claims (7)
1.基于多模态机器学习的分类方法,其特征在于,包括:
S101、获取待分类数据样本,待分类数据样本包括多种单项数据;
S102、提取每种单项数据的特征得到待分类数据样本特征;
S103、将待分类数据样本特征输入多模态机器学习的分类模型,输出分类结果,所述多模态机器学习的分类模型包括多个分类器及单隐层神经网络,每个分类器的输入为一种单项数据的特征,单隐层神经网络的输入为所有分类器的输出,单隐层神经网络的输出为分类结果。
2.如权利要求1所述的基于多模态机器学习的分类方法,其特征在于,所述多模态机器学习的分类模型的训练方法如下:
S201、获取综合数据集及所述综合数据集对应的多个单项数据集,综合数据集包括所述多种单项数据及与所述多种单项数据对应的综合标记,每个单项数据集包括一种单项数据及对应的单项标记;
S202、提取每个单项数据集的特征;
S203、基于每个单项数据集的特征及对应的单项标记完成每个分类器的训练;
S204、使用误差逆传播算法及综合数据集完成单隐层神经网络的训练。
3.基于多模态机器学习的在线新冠肺炎预警模型训练方法,其特征在于,所述基于多模态机器学习的在线新冠肺炎预警模型包括多个分类器及单隐层神经网络,每个分类器的输入为一种单项数据的特征,单隐层神经网络的输入为所有分类器的输出,单隐层神经网络的输出为分类结果,包括:
S301、获取新冠肺炎综合数据集及所述新冠肺炎综合数据集对应的多个新冠肺炎单项数据集,新冠肺炎综合数据集包括所述多种新冠肺炎单项数据及与所述多种新冠肺炎单项数据对应的新冠肺炎综合标记,每个新冠肺炎单项数据集包括一种新冠肺炎单项数据及对应的新冠肺炎单项标记;
S302、提取每个新冠肺炎单项数据集的特征;
S303、基于每个新冠肺炎单项数据集的特征及对应的新冠肺炎单项标记完成每个分类器的训练;
S304、使用误差逆传播算法及新冠肺炎综合数据集完成单隐层神经网络的训练。
4.如权利要求3所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法,其特征在于,所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。
5.如权利要求4所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法,其特征在于,疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频,疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽;肺音数据集包括多段肺音音频,肺音数据集的标记包括正常、干啰音及湿啰音;心音数据集包括多段心音音频,心音数据集的标记包括正常和不正常;体温数据集包括多个体温数据,体温数据集的标记包括发烧、发热、轻度发热及正常;所述提取每个新冠肺炎单项数据集的特征包括:
对于疑似咳嗽音数据集中包含咳嗽音的音频,使用短时平均能量的方法提取出感兴趣的固定时长的咳嗽音片段,对片段计算梅尔倒频系数,得到咳嗽音的特征向量;
对于肺音音频,使用小波分解将肺音音频波形分解为9组波形,对每一组提取频率特征,作为肺音音频的特征向量;
对于心音音频,使用短时平均能量的方法提取出第一心音与第二心音,再对第一心音与第二心音进行小波分解,提取频率特征,得到心音音频的特征向量;
对体温数据,将体温数值作为特征向量。
6.如权利要求5所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法,其特征在于,新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据,以及采集对象是否满足预警条件的标记,采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者,新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。
7.基于多模态机器学习的在线新冠肺炎预警方法,其特征在于,包括:
S701、采集待识别数据样本,待识别数据样本包括多种单项数据;
S702、提取每种单项数据的特征得到待识别数据样本特征;
S703、将待识别数据样本特征输入权利要求3至6任一项所述的训练后的基于多模态机器学习的在线新冠肺炎预警模型;
S704、当待识别数据样本满足预警条件时,进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928695.5A CN112037929A (zh) | 2020-09-07 | 2020-09-07 | 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928695.5A CN112037929A (zh) | 2020-09-07 | 2020-09-07 | 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112037929A true CN112037929A (zh) | 2020-12-04 |
Family
ID=73584925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010928695.5A Pending CN112037929A (zh) | 2020-09-07 | 2020-09-07 | 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037929A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668556A (zh) * | 2021-01-21 | 2021-04-16 | 广州联智信息科技有限公司 | 一种呼吸音识别方法及系统 |
CN113081025A (zh) * | 2021-03-10 | 2021-07-09 | 华中科技大学 | 一种基于肺音的新冠肺炎智能诊断系统和装置 |
CN113488183A (zh) * | 2021-06-30 | 2021-10-08 | 南京云上数融技术有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN117059283A (zh) * | 2023-08-15 | 2023-11-14 | 宁波市鄞州区疾病预防控制中心 | 一种基于肺结核预警的语音数据库分类和处理系统 |
CN118366472A (zh) * | 2024-04-26 | 2024-07-19 | 东莞野松电子工业有限公司 | 一种音频多模态分类方法、系统及计算机设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678278A (zh) * | 2016-02-01 | 2016-06-15 | 国家电网公司 | 一种基于单隐层神经网络的场景识别方法 |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
US20190236450A1 (en) * | 2017-12-22 | 2019-08-01 | Snap Inc. | Multimodal machine learning selector |
CN110363239A (zh) * | 2019-07-04 | 2019-10-22 | 中国人民解放军国防科技大学 | 一种面向多模态数据的小样本机器学习方法、系统和介质 |
CN110490095A (zh) * | 2019-07-31 | 2019-11-22 | 中国人民解放军战略支援部队信息工程大学 | 一种基于神经网络的多模态特征融合调制识别方法和系统 |
CN111553400A (zh) * | 2020-04-22 | 2020-08-18 | 明阳智慧能源集团股份公司 | 一种风力发电机组振动故障的精准诊断方法 |
CN111564223A (zh) * | 2020-07-20 | 2020-08-21 | 医渡云(北京)技术有限公司 | 传染病生存概率的预测方法、预测模型的训练方法及装置 |
WO2022141201A1 (zh) * | 2020-12-30 | 2022-07-07 | 深圳高性能医疗器械国家研究院有限公司 | 一种基于dce-mri的乳腺癌分级方法 |
-
2020
- 2020-09-07 CN CN202010928695.5A patent/CN112037929A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678278A (zh) * | 2016-02-01 | 2016-06-15 | 国家电网公司 | 一种基于单隐层神经网络的场景识别方法 |
US20190236450A1 (en) * | 2017-12-22 | 2019-08-01 | Snap Inc. | Multimodal machine learning selector |
CN109858509A (zh) * | 2018-11-05 | 2019-06-07 | 杭州电子科技大学 | 基于多层随机神经网络单分类器异常检测方法 |
CN110363239A (zh) * | 2019-07-04 | 2019-10-22 | 中国人民解放军国防科技大学 | 一种面向多模态数据的小样本机器学习方法、系统和介质 |
CN110490095A (zh) * | 2019-07-31 | 2019-11-22 | 中国人民解放军战略支援部队信息工程大学 | 一种基于神经网络的多模态特征融合调制识别方法和系统 |
CN111553400A (zh) * | 2020-04-22 | 2020-08-18 | 明阳智慧能源集团股份公司 | 一种风力发电机组振动故障的精准诊断方法 |
CN111564223A (zh) * | 2020-07-20 | 2020-08-21 | 医渡云(北京)技术有限公司 | 传染病生存概率的预测方法、预测模型的训练方法及装置 |
WO2022141201A1 (zh) * | 2020-12-30 | 2022-07-07 | 深圳高性能医疗器械国家研究院有限公司 | 一种基于dce-mri的乳腺癌分级方法 |
Non-Patent Citations (2)
Title |
---|
BENNY T.-H. TSANG,等: "Deep Neural Network Classifier for Variable Stars with Novelty Detection Capability", 《 THE ASTROPHYSICAL JOURNAL LETTERS.》, vol. 877, no. 2, 1 June 2019 (2019-06-01), pages 1 - 7 * |
鉏家欢,等: "融合图像和指标的阿尔茨海默病多分类诊断模型", 《智能计算机与应用》, vol. 9, no. 4, 31 July 2019 (2019-07-31), pages 6 - 12 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668556A (zh) * | 2021-01-21 | 2021-04-16 | 广州联智信息科技有限公司 | 一种呼吸音识别方法及系统 |
CN112668556B (zh) * | 2021-01-21 | 2024-06-07 | 广东白云学院 | 一种呼吸音识别方法及系统 |
CN113081025A (zh) * | 2021-03-10 | 2021-07-09 | 华中科技大学 | 一种基于肺音的新冠肺炎智能诊断系统和装置 |
CN113488183A (zh) * | 2021-06-30 | 2021-10-08 | 南京云上数融技术有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN113488183B (zh) * | 2021-06-30 | 2023-10-31 | 吾征智能技术(北京)有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN117059283A (zh) * | 2023-08-15 | 2023-11-14 | 宁波市鄞州区疾病预防控制中心 | 一种基于肺结核预警的语音数据库分类和处理系统 |
CN118366472A (zh) * | 2024-04-26 | 2024-07-19 | 东莞野松电子工业有限公司 | 一种音频多模态分类方法、系统及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037929A (zh) | 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 | |
Mouawad et al. | Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model | |
Batool et al. | Telemonitoring of daily activity using accelerometer and gyroscope in smart home environments | |
Xu et al. | A novel ensemble of random forest for assisting diagnosis of Parkinson's disease on small handwritten dynamics dataset | |
Lester et al. | A hybrid discriminative/generative approach for modeling human activities | |
CN113259331B (zh) | 一种基于增量学习的未知异常流量在线检测方法及系统 | |
Nayak et al. | Hyper-parameter tuned light gradient boosting machine using memetic firefly algorithm for hand gesture recognition | |
Benalcázar et al. | Real-time hand gesture recognition based on artificial feed-forward neural networks and EMG | |
WO2009090584A2 (en) | Method and system for activity recognition and its application in fall detection | |
KR20220113242A (ko) | 온-디바이스 활동 인식 | |
Pham et al. | Multimodal detection of Parkinson disease based on vocal and improved spiral test | |
Turan et al. | Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture. | |
Soltanian et al. | Covid-19 recognition from cough sounds using lightweight separable-quadratic convolutional network | |
CN112668607A (zh) | 一种用于目标物体触觉属性识别的多标签学习方法 | |
Khan et al. | A novel intelligent model for COVID-19 detection using cough auscultations and Hjorth descriptors | |
Saha et al. | A novel approach to american sign language recognition using madaline neural network | |
Indrasiri et al. | Image Encoded Time Series Classification of Small Datasets: An Innovative Architecture Using Deep Learning Ensembles | |
CN117437916A (zh) | 巡检机器人导航系统及方法 | |
Heryadi et al. | A syntactical modeling and classification for performance evaluation of bali traditional dance | |
US11276285B2 (en) | Artificial intelligence based motion detection | |
Wu et al. | Using deep learning and smartphone for automatic detection of fall and daily activities | |
Iqbal et al. | Coronavirus Disease Predictor: An RNA-Seq based pipeline for dimension reduction and prediction of COVID-19 | |
Shangguan et al. | EmoShapelets: Capturing local dynamics of audio-visual affective speech | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 | |
Nicolini et al. | A Hierarchical Approach for Multilingual Speech Emotion Recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |