CN111524599A

CN111524599A - 一种基于机器学习的新冠肺炎数据处理方法及预测系统

Info

Publication number: CN111524599A
Application number: CN202010332419.2A
Authority: CN
Inventors: 樊俊青; 曹元奎; 李婕; 陈云亮; 刘传礼; 杨红丽; 芮法娟; 张思敏; 李建新
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11

Abstract

本发明属于医学疾病预测技术领域，公开了一种基于机器学习的新冠肺炎数据处理方法及预测系统，对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；采用得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据，按一定比例分成训练数据和测试数据，并利在训练数据上进行训练；利用测试数据对训练后的方法进行测试，最终得到新冠肺炎症状数据处理方法，并与其他机器学习预测方法进行比较。本发明提供的新冠肺炎数据处理方法可以筛选出与新冠肺炎病情相关性较大的属性，具有较好的准确性和有效性。

Description

一种基于机器学习的新冠肺炎数据处理方法及预测系统

技术领域

本发明属于医学疾病预测技术领域，尤其涉及一种基于机器学习的新冠肺炎数据处理方法及预测系统。

背景技术

以计算机技术为依托，采用机器学习方法对新型冠状病毒肺炎病例数据进行预测分析，可以帮助医护人员快速准确地分辨病例的轻重症，发挥计算机技术战“疫”价值。朴素贝叶斯(Naive Bayes)分类器发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时所需估计的参数很少，对缺失数据不太敏感，也比较简单。理论上，朴素贝叶斯方法与其他分类方法相比具有最小的误差率。朴素贝叶斯方法的健壮性比较好，对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时，朴素贝叶斯分类方法会有较好的效果。

通过上述分析，现有技术存在的问题及缺陷为：(1)现有技术，结合计算机对新冠肺炎轻重症数据进行预测准确性差。目前新冠肺炎病例数据样本不多，病情复杂，人们对其认识不够充分，经验不足，现有技术大多依赖已有经验，因此难以对其进行准确的预测。

(2)现有技术，结合计算机对新冠肺炎轻重症数据进行预测方法较少。新冠肺炎爆发至今的时间不长，因此结合计算机对新冠肺炎轻重症数据进行预测的方法还没有被大量地发布或提出。

解决以上问题及缺陷的难度为：中等。机器学习是一种多层描述的表征学习，通过组合简单、非线性模块来实现。机器学习已经进行了许多与疾病相关的研究。机器学习技术可以从数据中寻找规律，建立关系，对数据的依赖较大，对经验的依赖较小，因此很好地避免了现有技术存在的问题。

解决以上问题及缺陷的意义为：在目前对新冠肺炎认识不足以及预测方法不多的情况下，本实施例的方法可以根据患者体检的病理特征，快速准确地帮助医护人员分辨病例的轻重症，以对患者采取对应的治疗措施。

发明内容

针对现有技术存在的问题，本发明提供了一种基于机器学习的新冠肺炎数据处理方法及预测系统。

本发明是这样实现的，一种新冠肺炎症状轻重预测系统，包括：

病例数据特征获取模块，用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

数据训练模块，对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据，按比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练；

新冠肺炎症状预测数据获取模块，对数据训练模块训练后数据进行测试，得到新冠肺炎症状预测数据，并与其他机器学习预测方法进行比较。

进一步，所述病例数据特征获取模块包括：

填充缺失值模块，用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充；

特征选择模块，用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数，并取相关性大于0.2的属性作为训练数据的属性。

进一步，所述数据训练模块包括：

类别条件概率估计模块，通过计算各类别下每个特征属性的条件概率估计，得到每个类别下每个特征属性的条件概率估计；

特征属性条件概率估计模块，用于计算各类别下每个特征属性的条件概率估计；

类别条件概率计算模块，用于计算每个类别；

预测类别模块，用于概率值最大的类别即为预测样本的预测类别。

进一步，所述新冠肺炎症状预测数据获取模块包括：

测试模块，利用训练后的Naive Bayes预测方法在测试数据上进行测试，并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标；

预测结果比较模块，用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据，与Naive Bayes方法的预测结果进行比较。

本发明的另一目的在于提供一种新冠肺炎症状数据处理方法，以下步骤：

步骤一，对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

步骤二，采用步骤一得到的特征数据以及原始病例数据中的症状情况数据组成样本数据，按一定比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练；

步骤三，利用测试数据对训练后的Naive Bayes预测方法进行测试，并与其他机器学习预测方法进行比较。

进一步，所述步骤一中，新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据；

所述填充缺失值的方法为：

对缺失值使用该属性的平均值作为填充数据进行填充；

所述Pearson相关系数的计算公式为：

所述特征选择的方法为：

计算每一属性与原始病例数据中的症状情况数据的Pearson系数，并取相关性大于0.2的属性作为训练数据的属性。

进一步，所述步骤二中，所述Naive Bayes方法的具体过程为：

(1)通过计算各类别下每个特征属性的条件概率估计，得到每个类别下每个特征属性的条件概率估计：

P(a₁|y₁),…,P(a_m|y₁)；P(a₁|y₂),…,P(a_k|y₂)；

其中，x＝{a₁,a₂,…,a_k}代表要分类的类别，每个a_i代表一个x的特征，标签类别集为C＝{y₁,y₂}；

(2)计算各类别下每个特征属性的条件概率估计：

(3)计算每个类别的P(y_i|x)：

(4)概率值最大的类别即为预测样本的预测类别(y)：

采用Gaussian Naive Bayes方法，该方法假定数据的特征服从高斯分布：

其中，参数σ_y和μ_y服从最大似然估计。

进一步，所述步骤三中，利用训练后的Naive Bayes预测方法在测试数据上进行测试，并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标，并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据，包括KNN、XGB、MLP、DecisionTree，与Naive Bayes方法的预测结果进行比较。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述的新冠肺炎症状数据处理方法，包括：

步骤1，对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

步骤2，采用步骤1得到的特征数据以及原始病例数据中的症状情况数据组成样本数据，按一定比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练；

步骤3，利用测试数据对训练后的Naive Bayes预测方法进行测试，并与其他机器学习预测方法进行比较。

本发明的另一目的在于提供一种执行所述新冠肺炎症状数据处理方法的计算机，包括：病例数据特征获取模块，用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；

新冠肺炎症状预测数据获取模块，对数据训练模块训练后数据进行测试，并与其他机器学习预测方法进行比较。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的新冠肺炎症状数据处理方法，将医学判定为轻型和普通型症状的病例视为轻症，将重型和危重型症状的病例视为重症，通过计算每一属性与原始病例数据中的轻重症情况数据的Pearson系数，可以筛选出与新冠肺炎病情相关性较大的属性，采用Naive Bayes预测方法对这些数据进行预测，可以得到较好的准确性和有效性。

表1部分实验数据示意表

结合实验或试验数据和现有技术对比得到的效果和优点：在目前对新冠肺炎认识不足以及预测方法不多的情况下，本实施例的方法可以根据患者体检的病理特征，快速准确地帮助医护人员分辨病例的轻重症，以对患者采取对应的治疗措施。

附图说明

图1是本发明实施例提供的基于机器学习的新冠肺炎数据处理方法流程图。

图2是本发明实施例提供的Naive Bayes方法原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术，结合计算机对新冠肺炎轻重症数据进行预测准确性差。

针对现有技术存在的问题，本发明提供了一种基于机器学习的新冠肺炎数据处理方法及症状预测系统，下面结合附图对本发明作详细的描述。

本发明提供一种新冠肺炎症状轻重预测系统，包括：

病例数据特征获取模块，用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征。

数据训练模块，对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据，按比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练。

所述病例数据特征获取模块包括：

填充缺失值模块，用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充。

所述数据训练模块包括：

类别条件概率估计模块，通过计算各类别下每个特征属性的条件概率估计，得到每个类别下每个特征属性的条件概率估计。

特征属性条件概率估计模块，用于计算各类别下每个特征属性的条件概率估计。

类别条件概率计算模块，用于计算每个类别。

所述新冠肺炎症状预测数据获取模块包括：

如图1所示，本发明实施例提供的新冠肺炎症状数据处理方法包括以下步骤：

S101，对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征。

S102，采用S101得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据，按一定比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练。

S103，利用测试数据对训练后的Naive Bayes预测方法进行测试，最终得到新冠肺炎症状数据处理方法，并与其他机器学习预测方法进行比较，以说明其准确性和有效性。

下面结合实施例对本发明作进一步描述。

实施例

本发明实施例提供的新冠肺炎症状数据处理方法，包括以下步骤：

S1，对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征。

本发明实施例中填充缺失值的具体方法为：对缺失值使用该属性的平均值作为填充数据进行填充，以此来获得更多可用的实验数据。

Pearson相关系数是衡量线性关联性的程度，皮尔逊相关也称为积差相关(或积矩相关)，是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。它用来衡量定距变量间的线性关系。其计算公式为：

医学上，许多症状和检查数据与疾病的轻重程度都有相互联系。本发明实施例通过计算Pearson系数来评估每个属性与新冠肺炎轻重症程度之间的相关性。相关系数的绝对值越大则相关程度越大。选取相关系数绝对值大于0.2的属性作为训练数据所使用的属性。各个属性与新冠肺炎轻重症程度之间的Pearson系数见表2。

表2各个属性与新冠肺炎轻重症程度之间的Pearson系数

S2，采用步骤S1得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据，按一定比例分成训练数据和测试数据，并利用Naive Bayes方法在训练数据上进行训练。

样本数据的具体情况为：共有99例样本，轻症与重症的比例为72:27，训练数据与测试数据的比例为8:2。

如图2所示，Naive Bayes方法的具体过程为：

P(a₁|y₁),…,P(a_m|y₁)；P(a₁|y₂),…,P(a_k|y₂)；

其中，x＝{a₁,a₂,…,a_k}代表要分类的类别，每个a_i代表一个x的特征，标签类别集为C＝{y₁,y₂}。

(2)计算各类别下每个特征属性的条件概率估计：

(3)计算每个类别的P(y_i|x)：

(4)概率值最大的类别即为预测样本的预测类别(y)：

本发明实施例采用Gaussian Naive Bayes方法，该方法假定数据的特征服从高斯分布：

其中，参数σ_y和μ_y服从最大似然估计。

S3，利用测试数据对训练后的Naive Bayes预测方法进行测试，最终得到新冠肺炎症状数据处理方法，并与其他机器学习预测方法进行比较，以说明其准确性和有效性。具体方法如下：

利用训练后的Naive Bayes预测方法在测试数据上进行测试，并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标，并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据，包括KNN、XGB、MLP、DecisionTree等，与NaiveBayes方法的预测结果进行比较，以说明NaiveBayes方法在预测新冠肺炎病例上的准确性和有效性优于其他预测方法。每种分类方法的各项结果都在相同的数据集下进行了5次测试并取平均值。采用Gaussian Naive Bayes、KNN、XGB、MLP、DecisionTree方法分类的结果见表3。

表3采用Gaussian Naive Bayes、KNN、XGB、MLP、DecisionTree方法分类

的结果

从表格数据可以看出，本发明实施例所采用的Gaussian Naive Bayes方法拥有相比于其他方法更高的精确率，达到了0.91；在准确率、标准差和方差上也优于其他方法，仅略微逊色于XGB方法；该方法在TPR、TNR、FNR、FPR等评价指标上同样有着良好的表现，其中TPR远高于其他方法的值，达到了0.906，FNR也远低于其他方法的值，仅为0.094。综合来看，实验结果说明了本发明实施例所采用的Gaussian Naive Bayes方法在预测新冠肺炎病例上有着较好的准确性和有效性。

在本发明中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本发明中上述实施例及实施例中的特征可以相互结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种新冠肺炎症状轻重预测系统，其特征在于，所述新冠肺炎症状轻重预测系统包括：

2.如权利要求1所述的新冠肺炎症状轻重预测系统，其特征在于，所述病例数据特征获取模块包括：

3.如权利要求1所述的新冠肺炎症状轻重预测系统，其特征在于，所述数据训练模块包括：

类别条件概率计算模块，用于计算每个类别；

4.如权利要求1所述的新冠肺炎症状轻重预测系统，其特征在于，所述新冠肺炎症状预测数据获取模块包括：

5.一种基于机器学习的新冠肺炎数据处理方法，其特征在于，所述基于机器学习的新冠肺炎数据处理方法包括以下步骤：

6.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法，其特征在于，所述步骤一中，新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据；

所述填充缺失值的方法为：

对缺失值使用该属性的平均值作为填充数据进行填充；

所述Pearson相关系数的计算公式为：

所述特征选择的方法为：

7.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法，其特征在于，所述步骤二中，所述Naive Bayes方法的具体过程为：

P(a₁|y₁),…,P(a_m|y₁)；P(a₁|y₂),…,P(a_k|y₂)；

(2)计算各类别下每个特征属性的条件概率估计：

(3)计算每个类别的P(y_i|x)：

(4)概率值最大的类别即为预测样本的预测类别(y)：

其中，参数σ_y和μ_y服从最大似然估计。

8.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法，其特征在于，所述步骤三中，利用训练后的Naive Bayes预测方法在测试数据上进行测试，并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标，并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据，包括KNN、XGB、MLP、DecisionTree，与Naive Bayes方法的预测结果进行比较。

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求5-8任意一项所述的基于机器学习的新冠肺炎数据处理方法，包括：

10.一种执行权利要求5-8任意一项所述基于机器学习的新冠肺炎数据处理方法的计算机，包括：病例数据特征获取模块，用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充，并采用Pearson相关系数对病例数据集进行特征选择，得到提取后的病例数据特征；