CN112037929A

CN112037929A - 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法

Info

Publication number: CN112037929A
Application number: CN202010928695.5A
Authority: CN
Inventors: 冯永; 王彬; 黄旺辉
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-04
Anticipated expiration: 2040-09-07
Also published as: CN112037929B

Abstract

本发明公开了基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。能够通过多种单项数据的采集，进而实现对对象的分类。并且由于先利用分类器进行单项数据的分类，再利用神经网络对单项数据的分类结果进行进一步分类，使得模型训练时长更短，且对硬件性能要求更低。本发明利用这种分类方法，还能够实现对于新冠肺炎的在线预警，能够快速确定需要进行核酸检测的对象，既保证了疑似患者得到检测，又避免了检测资源的浪费，在新冠肺炎的防治过程中能够起到积极的作用。

Description

基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法

技术领域

本发明属于结合多模态的机器学习领域，具体涉及基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。

背景技术

在抗疫过程中，由于核酸检测时间较长且检测资源有限。因此，为了节省检测资源，提高检测的准确率，需要先确定哪些应当进行核酸检测。现有的方法通常是根据对象是否发烧来判断是否需要核酸检测，这种判断方法考虑因素过少且判断结果准确性差，导致大量需要检测的疑似患者未能得到检测，且大量其他疾病患者占用了宝贵的检测资源。

因此，如何根据采集到的对象信息，判断出对象是应当接受核酸检测，对其进行及时且精准的预警，成为了本领域技术人员急需解决的问题。

发明内容

为了解决上述技术问题，本发明采用了如下的技术方案：

基于多模态机器学习的分类方法，包括：

S101、获取待分类数据样本，待分类数据样本包括多种单项数据；

S102、提取每种单项数据的特征得到待分类数据样本特征；

S103、将待分类数据样本特征输入多模态机器学习的分类模型，输出分类结果，所述多模态机器学习的分类模型包括多个分类器及单隐层神经网络，每个分类器的输入为一种单项数据的特征，单隐层神经网络的输入为所有分类器的输出，单隐层神经网络的输出为分类结果。

优选地，所述多模态机器学习的分类模型的训练方法如下：

S201、获取综合数据集及所述综合数据集对应的多个单项数据集，综合数据集包括所述多种单项数据及与所述多种单项数据对应的综合标记，每个单项数据集包括一种单项数据及对应的单项标记；

S202、提取每个单项数据集的特征；

S203、基于每个单项数据集的特征及对应的单项标记完成每个分类器的训练；

S204、使用误差逆传播算法及综合数据集完成单隐层神经网络的训练。

基于多模态机器学习的在线新冠肺炎预警模型训练方法，包括：

S301、获取新冠肺炎综合数据集及所述新冠肺炎综合数据集对应的多个新冠肺炎单项数据集，新冠肺炎综合数据集包括所述多种新冠肺炎单项数据及与所述多种新冠肺炎单项数据对应的新冠肺炎综合标记，每个新冠肺炎单项数据集包括一种新冠肺炎单项数据及对应的新冠肺炎单项标记；

S302、提取每个新冠肺炎单项数据集的特征；

S303、基于每个新冠肺炎单项数据集的特征及对应的新冠肺炎单项标记完成每个分类器的训练；

S304、使用误差逆传播算法及新冠肺炎综合数据集完成单隐层神经网络的训练。

优选地，所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。

优选地，疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频，疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽；肺音数据集包括多段肺音音频，肺音数据集的标记包括正常、干啰音及湿啰音；心音数据集包括多段心音音频，心音数据集的标记包括正常和不正常；体温数据集包括多个体温数据，体温数据集的标记包括发烧、发热、轻度发热及正常；所述提取每个新冠肺炎单项数据集的特征包括：

对于疑似咳嗽音数据集中包含咳嗽音的音频，使用短时平均能量的方法提取出感兴趣的固定时长的咳嗽音片段，对片段计算梅尔倒频系数，得到咳嗽音的特征向量；

对于肺音音频，使用小波分解将肺音音频波形分解为9组波形，对每一组提取频率特征，作为肺音音频的特征向量；

对于心音音频，使用短时平均能量的方法提取出第一心音与第二心音，再对第一心音与第二心音进行小波分解，提取频率特征，得到心音音频的特征向量；

对体温数据，将体温数值作为特征向量。

优选地，新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据，以及采集对象是否满足预警条件的标记，采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者，新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。

基于多模态机器学习的在线新冠肺炎预警方法，包括：

S701、采集待识别数据样本，待识别数据样本包括多种单项数据；

S702、提取每种单项数据的特征得到待识别数据样本特征；

S703、将待识别数据样本特征输入训练后的基于多模态机器学习的在线新冠肺炎预警模型；

S704、当待识别数据样本满足预警条件时，进行预警。

综上所述，本发明公开了基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法。能够通过多种单项数据的采集，进而实现对对象的分类。并且由于先利用分类器进行单项数据的分类，再利用神经网络对单项数据的分类结果进行进一步分类，使得模型训练时长更短，且对硬件性能要求更低。本发明利用这种分类方法，还能够实现对于新冠肺炎的在线预警，能够快速确定需要进行核酸检测的对象，既保证了疑似患者得到检测，又避免了检测资源的浪费，在新冠肺炎的防治过程中能够起到积极的作用。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明公开的基于多模态机器学习的分类方法的一种具体实施方式的流程图；

图2为本发明公开的基于多模态机器学习的在线新冠肺炎预警模型训练方法的流程图

图3为本发明公开的基于多模态机器学习的在线新冠肺炎预警模型训练方法的一种具体实施方式的流程图；

图4为本发明中基于多模态机器学习的在线新冠肺炎预警模型的运行流程图；

图5为本发明实施例中的咳嗽音预处理与特征提取示意图；

图6为本发明实施例中的肺音预处理与特征提取示意图；

图7为本发明实施例中的心音预处理与特征提取示意图；

图8为本发明实施例中的体温决策树示意图；

图9为本发明实施例中的单隐层神经网络与多模型融合示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

如图1所示，本发明公开了基于多模态机器学习的分类方法，包括：

S102、提取每种单项数据的特征得到待分类数据样本特征；

S103、将待分类数据样本特征输入多模态机器学习的分类模型，输出分类结果，所述多模态机器学习的分类模型(如图9所示)包括多个分类器及单隐层神经网络，每个分类器的输入为一种单项数据的特征，单隐层神经网络的输入为所有分类器的输出，单隐层神经网络的输出为分类结果。

现有技术中，一个要同时处理多种音频数据的神经网络，往往包含很多的隐层，规模比较大，训练与预测都需要比较高的计算性能，需要的计算设备昂贵且笨重。而SVM、决策树、单隐层神经等所需的计算性能比较低，更适合在嵌入式设备使用。

此外，在本发明中，单项数据的来源包括新冠肺炎疑似患者、新冠肺炎确诊患者、多种呼吸道疾病患者、未患病对象。因为新冠肺炎综合数据集的收集难度较大，但是新冠肺炎的咳嗽、肺部啰音等单项症状是与其它呼吸道疾病很相似的，故先训练单项的分类器，可以使用来自多种呼吸道疾病患者的单项数据，而不必全部采用来自新冠肺炎患者的数据集，这样使得单项分类器的有更多样本用于训练，提升准确度。单项分类器只专注于某一项症状的识别，而不必关心受检者是否为新冠肺炎患者。

在本发明中，可使用C++语言与Dlib机器学习库搭建机器学习环境。具体的，使用得C++ 语言为较新的C++11标准以及GNU编译器套件。另外使用Dlib 19.20作为实现机器学习算法的依赖库。

Dlib是一个用现代C++编写的工具库，包含了丰富的机器学习算法与工具，使开发者便于使用C++解决实际问题，广泛应用于行业和学术界，例如机器人、嵌入式设备、移动电话与大型高性能计算机等。Dlib具有以下优点：

跨平台：库代码符合ISO C++标准，不需要任何第三方库支持，仅依赖操作系统提供的 API，支持win32、Linux、Max OS X、Solaris、HPUX、BSDs和POSIX系统，因此可应用至安装了对应LOT操作系统嵌入式设备上。

效率高：目前很多机器学习平台使用python编写或提供python接口，而Dlib库使用C++ 语言编写，经编译后可以提供极为高效的运行效率。

文档质量高：与许多开源项目不同，Dlib项目为每个类和功能提供完整而准确的文档，并提供许多示例程序。

功能全：除了大量的机器学习算法之外，Dlib库还提供了很多有用的数值算法、图像处理算法等，以及可移植的、简单的网络API、图形界面API、线程API等。

多模态机器学习(Multimodal Machine Learning，MMML)，是一种通过机器学习实现处理与理解多来源、多模态的信息的方法。在信息技术飞速发展的今天，数据往往是多源异构的，多模态数据逐渐成为数据资源的主要形式。相对于传统机器学习方法，多模态机器学习更能适应多元异构的数据形式，理解更多类型的数据，在应用中提供更好的性能。

具体实施时，所述多模态机器学习的分类模型的训练方法如下：

S202、提取每个单项数据集的特征；

在本发明中，单隐层神经网络的输入层的神经元个数与单项数据的种类个数相同，单隐层神经网络包含1层隐含层，隐含层的神经元数目为超参数，可进行人为调整；输出层包含 1个神经元；

使用误差逆传播算法进行单隐层神经网络的训练的时候，分类器的参数保持不变。

如图2所示，本发明还公开了基于多模态机器学习的在线新冠肺炎预警模型训练方法，包括：

S302、提取每个新冠肺炎单项数据集的特征；

具体实施时，所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。

具体实施时，疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频，疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽；肺音数据集包括多段肺音音频，肺音数据集的标记包括正常、干啰音及湿啰音；心音数据集包括多段心音音频，心音数据集的标记包括正常和不正常；体温数据集包括多个体温数据，体温数据集的标记包括发烧、发热、轻度发热及正常(分别对应图8中的，1、0.5、-0.5及-1)；所述提取每个新冠肺炎单项数据集的特征包括：

如图5所示，对于疑似咳嗽音数据集中包含咳嗽音的音频，使用短时平均能量的方法提取出感兴趣的固定时长的咳嗽音片段，对片段计算梅尔倒频系数，得到咳嗽音的特征向量；

首先，对于一段从环境中录取的音频，取得其中感兴趣的音频段，即准确定位咳嗽音所在时间点。根据经验，咳嗽音的响度往往很大，在音频波形图表现出振幅度很大的特点。故在时长为t的环境音频中，定位出一段时长为1s的咳嗽音，可以视为一个最值问题：

公式(1)的意义，即为寻找一个时间点t₀，使得式中积分值最大，且t₀被约束在0与t-1 之间，其中f(t)即为音频的波形函数。在使用计算机处理此问题时，可进行离散化处理。首先可对音频信号以固定时间间隔10ms进行分帧，为每一帧计算短时平均能量，之后求出短时平均能量之和最大的连续100帧，这100帧即为所需感兴趣的咳嗽音片段。

由于咳嗽音的频率特征与人的语音的频率特征较为相近，故使用语音识别领域广泛使用的梅尔倒频系数(Mel Frequency Cepstrum Coefficient,MFCC)来对咳嗽音进行特征提取。设置音频被划分为M帧，计算N阶MFCC参数，则可以得到M×N维的特征向量。

如图6所示，对于肺音音频，使用小波分解将肺音音频波形分解为9组波形，对每一组提取频率特征，作为肺音音频的特征向量；

对肺音音频进行处理与特征提取。小波分解基于小波变换，通过缩放母小波的宽度来获得信号的频率特征。使用小波分解对肺音进行特征提取已经在一些研究中被应用，其关键在于选取合适的小波及分解层数。本实施例选取duabechies小波的6阶作为母小波，设置分解层数为8，经过8层小波分解后，可获得9组信号波形，对每一组信号计算高频部分的频率，用1个数值表示，则最终可获得9维的肺音特征向量。

如图7所示，对于心音音频，使用短时平均能量的方法提取出第一心音与第二心音，再对第一心音与第二心音进行小波分解，提取频率特征，得到心音音频的特征向量；

对心音音频进行处理与特征处理。心音音频中的第一心音(S1)与第二心音(S2)为感兴趣点，也为需要提取出的片段。因为S1音段与S2音段的音频波形的振幅较大，故可采用基于短时平均能量的感兴趣片段提取方法，以提取出单独的S1段音频与S2段音频。对S1音段与S2音段分别进行小波分解，均选取duabechies小波的6阶作为母小波，进行8层分解，S1与S2分别得到9组信号波形，进而提取频率特征并拼接为一个18维特征向量，作为心音信号的特征向量。

在心音音频的提取过程中，经过一定降噪处理后，进行分帧并计算短时平均能量，以识别并提取出第一心音(S1)与第二心音(S2)的音频波形，进行小波分解并提取频率特征，最终得到心音信号的特征向量。

如图8所示，对体温数据，将体温数值作为特征向量。

本发明中，使用支持向量机作为疑似咳嗽音数据集、肺音数据集及心音数据集的分类器，使用决策树作为体温数据的分类器。

支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的线性分类器，其基本模型是定义在特征空间上的间隔最大的线性分类器。对于线性不可分的数据样本，使用核方法将数据的原始特征空间映射到一个更高维的特征空间，使样本在高维空间中线性可分，因此，使用核方法可以使SVM成为非线性分类器。目前，SVM在音频分类问题上已经得到了广泛的应用。

决策树是一种易于理解的机器学习方法，它与人类面临决策问题时进行的决策过程十分相似，决策树基于树结构进行多次决策，最终得出结论。体温这种具有典型分段特征的数据，十分适合使用决策树处理。

本发明中对任一一种单项数据集的支持向量机的训练方法如下：

将数据集随机划分为训练集与测试集，训练集占原数据集的2/3，测试集占原数据集的 1/3；

对数据集进行特征向量的提取构成训练样本集(X_i,Y_i),i＝1,2,3,…,p与测试样本集 (X_j,Y_j),j＝1,2,3,…,q,其中X表示样本的特征向量，Y表示样本的分类标识，p为训练样本数，q为测试样本数；

一个SVM可以完成二分类任务，对于需要多分类的数据集，使用多个SVM嵌套实现多分类效果。如肺音数据集含有正常、干啰音、湿啰音三种分类，则可以使用第一个SVM分类器将样本分为正常与非正常，再使用第二个SVM分类器将非正常划分为干啰音与湿啰音两类。构造SVM需要选择核函数、参数Gamma以及惩罚因子C，这些参数可根据经验选择，并进行多次训练选择表现最好的一组参数；

使用训练样本集对SVM进行训练。SVM训练的过程本质上为最优化问题，即最大化分隔平面与两侧样本的最近距离；

使用测试样本集对已训练的SVM进行测试，使用识别率对SVM的分类效果进行评价，其中识别率的定义为：

进行调参，多次进行训练与测试，得到表现最好的一组参数及其对应的训练好的SVM，保存留作之后步骤使用。

具体实施时，新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据，以及采集对象是否满足预警条件的标记，采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者，新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。

本发明中对于单隐层神经网络对分类器进行融合的方法如下：

所用神经网络的输入层为四个神经元，分别接收x₁,x₂,x₃,x₄作为输入，将(x₁,x₂,x₃,x₄) 记为向量X。本实施例中，神经网络选用的激活函数为tanh函数，其定义为：

tanh函数的值域在(-1,1)上，因此，对于样本数据集合，符合预警条件标记为1，不符合预警条件标记为-1；

所用神经网络的隐层选用16个神经元，其中第i个神经元的输出y_i可表示为：

y_i＝tanh(X·W_i) (4)

(4)式中，X为输入向量，W_i为第i个神经元的输入权重向量，为一组可学习的参数。

所用神经网络的输出层仅有一个神经元，其输出z可以表示为：

其中y_i和w_i分别为第i个隐层神经元的输出值和其与输出层神经元连接的权重，w_i为可学习的参数。z为输出层神经元的唯一输出，也是由输入样本得到的数值形式的预警判断结果。

本发明中对于单隐层神经网络的训练方式如下：

在神经网络训练过程中，不对四个单独分类器进行训练，即将三个SVM分类器与一个决策树分类器的所有参数进行冻结。对神经网络的训练使用误差逆传播算法，即BP(error Back Propagation)算法。设置学习率为η，使用均方误差作为损失函数，详细的训练过程为：

在(0,1)范围内随机初始化网络中的连接权重或参数；

使用梯度下降方法，以目标的负梯度方向对可学习参数进行调整。遍历输入的训练样本集，对于每一个样本(X_i，y_i)，计算当前样本的预测输出

按照从后向前、从输出层到隐含层的顺序对网络中的参数进行更新。对于一个权重ω，其更新策略为：

若网络的准确度达到预设条件，或训练轮数达到预设轮数，则结束训练。

对四个单独分类器与神经网络组成的整个机器学习模型进行测试，测试指标为(2)式所描述的识别率。若模型的识别率未能达到预期的识别率，则考虑对模型进行调参、对数据集进行数据增强、收集更多的数据集等方式来提高模型的识别率。

如图3所示，本发明还公开了基于多模态机器学习的在线新冠肺炎预警方法，包括：

S702、提取每种单项数据的特征得到待识别数据样本特征；

S704、当待识别数据样本满足预警条件时，进行预警。

基于多模态机器学习的在线新冠肺炎预警模型的运行流程如图4所示。

本发明中，可对神经网络的输出进行可视化处理。由于神经网络的输出为一个数值，为了让使用者能轻松地得到检测结果，故需要对数值进行可视化处理。神经网络的输出范围在 -1与1之间，检测结果与神经网络的输出x为以下关系：

程序也需要告诉使用者判断结果的可信度，以便做出相应处理。检测结果可信度与神经网络的输出x为以下关系：

可信度＝|x|×100％ (8)

为了实现本发明公开的方法，可以将方法以软件的方式在计算机中运行。具体的，计算机设备可为基于ARM处理器与Android系统的便携式计算机，所使用的用于采集受检者咳嗽音、肺音、心音与体温的传感器为经过定制的集成式传感器，拥有多组音频采集器与红外线测温计，经USB端口连接至便携式计算机。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims

1.基于多模态机器学习的分类方法，其特征在于，包括：

S102、提取每种单项数据的特征得到待分类数据样本特征；

2.如权利要求1所述的基于多模态机器学习的分类方法，其特征在于，所述多模态机器学习的分类模型的训练方法如下：

S202、提取每个单项数据集的特征；

3.基于多模态机器学习的在线新冠肺炎预警模型训练方法，其特征在于，所述基于多模态机器学习的在线新冠肺炎预警模型包括多个分类器及单隐层神经网络，每个分类器的输入为一种单项数据的特征，单隐层神经网络的输入为所有分类器的输出，单隐层神经网络的输出为分类结果，包括：

S302、提取每个新冠肺炎单项数据集的特征；

4.如权利要求3所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法，其特征在于，所述多种新冠肺炎单项数据集包括疑似咳嗽音数据集、肺音数据集、心音数据集及体温数据集。

5.如权利要求4所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法，其特征在于，疑似咳嗽音数据集包括多段包含咳嗽音的音频和不包含咳嗽音的音频，疑似咳嗽音数据集中的标记包括咳嗽和不咳嗽；肺音数据集包括多段肺音音频，肺音数据集的标记包括正常、干啰音及湿啰音；心音数据集包括多段心音音频，心音数据集的标记包括正常和不正常；体温数据集包括多个体温数据，体温数据集的标记包括发烧、发热、轻度发热及正常；所述提取每个新冠肺炎单项数据集的特征包括：

对体温数据，将体温数值作为特征向量。

6.如权利要求5所述的基于多模态机器学习的在线新冠肺炎预警模型训练方法，其特征在于，新冠肺炎综合数据集包括多位采集对象的疑似咳嗽音片段、肺音片段、心音片段与体温数据，以及采集对象是否满足预警条件的标记，采集对象包括新冠肺炎患者、疑似感染但未感染者、其它呼吸道疾病患者与健康者，新冠肺炎患者与疑似感染但未感染者标记为满足预警条件。

7.基于多模态机器学习的在线新冠肺炎预警方法，其特征在于，包括：

S702、提取每种单项数据的特征得到待识别数据样本特征；

S703、将待识别数据样本特征输入权利要求3至6任一项所述的训练后的基于多模态机器学习的在线新冠肺炎预警模型；

S704、当待识别数据样本满足预警条件时，进行预警。