CN111524599A - 一种基于机器学习的新冠肺炎数据处理方法及预测系统 - Google Patents

一种基于机器学习的新冠肺炎数据处理方法及预测系统 Download PDF

Info

Publication number
CN111524599A
CN111524599A CN202010332419.2A CN202010332419A CN111524599A CN 111524599 A CN111524599 A CN 111524599A CN 202010332419 A CN202010332419 A CN 202010332419A CN 111524599 A CN111524599 A CN 111524599A
Authority
CN
China
Prior art keywords
data
prediction
training
coronary pneumonia
new coronary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010332419.2A
Other languages
English (en)
Inventor
樊俊青
曹元奎
李婕
陈云亮
刘传礼
杨红丽
芮法娟
张思敏
李建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202010332419.2A priority Critical patent/CN111524599A/zh
Publication of CN111524599A publication Critical patent/CN111524599A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于医学疾病预测技术领域,公开了一种基于机器学习的新冠肺炎数据处理方法及预测系统,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;采用得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利在训练数据上进行训练;利用测试数据对训练后的方法进行测试,最终得到新冠肺炎症状数据处理方法,并与其他机器学习预测方法进行比较。本发明提供的新冠肺炎数据处理方法可以筛选出与新冠肺炎病情相关性较大的属性,具有较好的准确性和有效性。

Description

一种基于机器学习的新冠肺炎数据处理方法及预测系统
技术领域
本发明属于医学疾病预测技术领域,尤其涉及一种基于机器学习的新冠肺炎数据处理方法及预测系统。
背景技术
以计算机技术为依托,采用机器学习方法对新型冠状病毒肺炎病例数据进行预测分析,可以帮助医护人员快速准确地分辨病例的轻重症,发挥计算机技术战“疫”价值。朴素贝叶斯(Naive Bayes)分类器发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时所需估计的参数很少,对缺失数据不太敏感,也比较简单。理论上,朴素贝叶斯方法与其他分类方法相比具有最小的误差率。朴素贝叶斯方法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类方法会有较好的效果。
通过上述分析,现有技术存在的问题及缺陷为:(1)现有技术,结合计算机对新冠肺炎轻重症数据进行预测准确性差。目前新冠肺炎病例数据样本不多,病情复杂,人们对其认识不够充分,经验不足,现有技术大多依赖已有经验,因此难以对其进行准确的预测。
(2)现有技术,结合计算机对新冠肺炎轻重症数据进行预测方法较少。新冠肺炎爆发至今的时间不长,因此结合计算机对新冠肺炎轻重症数据进行预测的方法还没有被大量地发布或提出。
解决以上问题及缺陷的难度为:中等。机器学习是一种多层描述的表征学习,通过组合简单、非线性模块来实现。机器学习已经进行了许多与疾病相关的研究。机器学习技术可以从数据中寻找规律,建立关系,对数据的依赖较大,对经验的依赖较小,因此很好地避免了现有技术存在的问题。
解决以上问题及缺陷的意义为:在目前对新冠肺炎认识不足以及预测方法不多的情况下,本实施例的方法可以根据患者体检的病理特征,快速准确地帮助医护人员分辨病例的轻重症,以对患者采取对应的治疗措施。
发明内容
针对现有技术存在的问题,本发明提供了一种基于机器学习的新冠肺炎数据处理方法及预测系统。
本发明是这样实现的,一种新冠肺炎症状轻重预测系统,包括:
病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。
进一步,所述病例数据特征获取模块包括:
填充缺失值模块,用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充;
特征选择模块,用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
进一步,所述数据训练模块包括:
类别条件概率估计模块,通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计;
特征属性条件概率估计模块,用于计算各类别下每个特征属性的条件概率估计;
类别条件概率计算模块,用于计算每个类别;
预测类别模块,用于概率值最大的类别即为预测样本的预测类别。
进一步,所述新冠肺炎症状预测数据获取模块包括:
测试模块,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标;
预测结果比较模块,用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据,与Naive Bayes方法的预测结果进行比较。
本发明的另一目的在于提供一种新冠肺炎症状数据处理方法,以下步骤:
步骤一,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用步骤一得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
步骤三,利用测试数据对训练后的Naive Bayes预测方法进行测试,并与其他机器学习预测方法进行比较。
进一步,所述步骤一中,新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据;
所述填充缺失值的方法为:
对缺失值使用该属性的平均值作为填充数据进行填充;
所述Pearson相关系数的计算公式为:
Figure BDA0002465438680000031
所述特征选择的方法为:
计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
进一步,所述步骤二中,所述Naive Bayes方法的具体过程为:
(1)通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计:
Figure BDA0002465438680000041
P(a1|y1),…,P(am|y1);P(a1|y2),…,P(ak|y2);
其中,x={a1,a2,…,ak}代表要分类的类别,每个ai代表一个x的特征,标签类别集为C={y1,y2};
(2)计算各类别下每个特征属性的条件概率估计:
Figure BDA0002465438680000042
(3)计算每个类别的P(yi|x):
Figure BDA0002465438680000043
(4)概率值最大的类别即为预测样本的预测类别(y):
Figure BDA0002465438680000044
采用Gaussian Naive Bayes方法,该方法假定数据的特征服从高斯分布:
Figure BDA0002465438680000045
其中,参数σy和μy服从最大似然估计。
进一步,所述步骤三中,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标,并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据,包括KNN、XGB、MLP、DecisionTree,与Naive Bayes方法的预测结果进行比较。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述的新冠肺炎症状数据处理方法,包括:
步骤1,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤2,采用步骤1得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
步骤3,利用测试数据对训练后的Naive Bayes预测方法进行测试,并与其他机器学习预测方法进行比较。
本发明的另一目的在于提供一种执行所述新冠肺炎症状数据处理方法的计算机,包括:病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,并与其他机器学习预测方法进行比较。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的新冠肺炎症状数据处理方法,将医学判定为轻型和普通型症状的病例视为轻症,将重型和危重型症状的病例视为重症,通过计算每一属性与原始病例数据中的轻重症情况数据的Pearson系数,可以筛选出与新冠肺炎病情相关性较大的属性,采用Naive Bayes预测方法对这些数据进行预测,可以得到较好的准确性和有效性。
表1部分实验数据示意表
Figure BDA0002465438680000051
Figure BDA0002465438680000061
结合实验或试验数据和现有技术对比得到的效果和优点:在目前对新冠肺炎认识不足以及预测方法不多的情况下,本实施例的方法可以根据患者体检的病理特征,快速准确地帮助医护人员分辨病例的轻重症,以对患者采取对应的治疗措施。
附图说明
图1是本发明实施例提供的基于机器学习的新冠肺炎数据处理方法流程图。
图2是本发明实施例提供的Naive Bayes方法原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术,结合计算机对新冠肺炎轻重症数据进行预测准确性差。
针对现有技术存在的问题,本发明提供了一种基于机器学习的新冠肺炎数据处理方法及症状预测系统,下面结合附图对本发明作详细的描述。
本发明提供一种新冠肺炎症状轻重预测系统,包括:
病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征。
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练。
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。
所述病例数据特征获取模块包括:
填充缺失值模块,用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充。
特征选择模块,用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
所述数据训练模块包括:
类别条件概率估计模块,通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计。
特征属性条件概率估计模块,用于计算各类别下每个特征属性的条件概率估计。
类别条件概率计算模块,用于计算每个类别。
预测类别模块,用于概率值最大的类别即为预测样本的预测类别。
所述新冠肺炎症状预测数据获取模块包括:
测试模块,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标;
预测结果比较模块,用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据,与Naive Bayes方法的预测结果进行比较。
如图1所示,本发明实施例提供的新冠肺炎症状数据处理方法包括以下步骤:
S101,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征。
S102,采用S101得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练。
S103,利用测试数据对训练后的Naive Bayes预测方法进行测试,最终得到新冠肺炎症状数据处理方法,并与其他机器学习预测方法进行比较,以说明其准确性和有效性。
下面结合实施例对本发明作进一步描述。
实施例
本发明实施例提供的新冠肺炎症状数据处理方法,包括以下步骤:
S1,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征。
本发明实施例中填充缺失值的具体方法为:对缺失值使用该属性的平均值作为填充数据进行填充,以此来获得更多可用的实验数据。
Pearson相关系数是衡量线性关联性的程度,皮尔逊相关也称为积差相关(或积矩相关),是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。它用来衡量定距变量间的线性关系。其计算公式为:
Figure BDA0002465438680000081
医学上,许多症状和检查数据与疾病的轻重程度都有相互联系。本发明实施例通过计算Pearson系数来评估每个属性与新冠肺炎轻重症程度之间的相关性。相关系数的绝对值越大则相关程度越大。选取相关系数绝对值大于0.2的属性作为训练数据所使用的属性。各个属性与新冠肺炎轻重症程度之间的Pearson系数见表2。
表2各个属性与新冠肺炎轻重症程度之间的Pearson系数
Figure BDA0002465438680000091
Figure BDA0002465438680000101
S2,采用步骤S1得到的特征数据以及原始病例数据中的轻重症情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练。
样本数据的具体情况为:共有99例样本,轻症与重症的比例为72:27,训练数据与测试数据的比例为8:2。
如图2所示,Naive Bayes方法的具体过程为:
(1)通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计:
Figure BDA0002465438680000102
P(a1|y1),…,P(am|y1);P(a1|y2),…,P(ak|y2);
其中,x={a1,a2,…,ak}代表要分类的类别,每个ai代表一个x的特征,标签类别集为C={y1,y2}。
(2)计算各类别下每个特征属性的条件概率估计:
Figure BDA0002465438680000103
(3)计算每个类别的P(yi|x):
Figure BDA0002465438680000111
(4)概率值最大的类别即为预测样本的预测类别(y):
Figure BDA0002465438680000112
本发明实施例采用Gaussian Naive Bayes方法,该方法假定数据的特征服从高斯分布:
Figure BDA0002465438680000113
其中,参数σy和μy服从最大似然估计。
S3,利用测试数据对训练后的Naive Bayes预测方法进行测试,最终得到新冠肺炎症状数据处理方法,并与其他机器学习预测方法进行比较,以说明其准确性和有效性。具体方法如下:
利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标,并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据,包括KNN、XGB、MLP、DecisionTree等,与NaiveBayes方法的预测结果进行比较,以说明NaiveBayes方法在预测新冠肺炎病例上的准确性和有效性优于其他预测方法。每种分类方法的各项结果都在相同的数据集下进行了5次测试并取平均值。采用Gaussian Naive Bayes、KNN、XGB、MLP、DecisionTree方法分类的结果见表3。
表3采用Gaussian Naive Bayes、KNN、XGB、MLP、DecisionTree方法分类
的结果
Figure BDA0002465438680000114
Figure BDA0002465438680000121
从表格数据可以看出,本发明实施例所采用的Gaussian Naive Bayes方法拥有相比于其他方法更高的精确率,达到了0.91;在准确率、标准差和方差上也优于其他方法,仅略微逊色于XGB方法;该方法在TPR、TNR、FNR、FPR等评价指标上同样有着良好的表现,其中TPR远高于其他方法的值,达到了0.906,FNR也远低于其他方法的值,仅为0.094。综合来看,实验结果说明了本发明实施例所采用的Gaussian Naive Bayes方法在预测新冠肺炎病例上有着较好的准确性和有效性。
在本发明中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本申请请求保护的范围。
在不冲突的情况下,本发明中上述实施例及实施例中的特征可以相互结合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状轻重预测系统包括:
病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,得到新冠肺炎症状预测数据,并与其他机器学习预测方法进行比较。
2.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述病例数据特征获取模块包括:
填充缺失值模块,用于对新冠肺炎的医学病例数据集中的部分缺失值使用气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据的平均值作为填充数据进行填充;
特征选择模块,用于计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
3.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述数据训练模块包括:
类别条件概率估计模块,通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计;
特征属性条件概率估计模块,用于计算各类别下每个特征属性的条件概率估计;
类别条件概率计算模块,用于计算每个类别;
预测类别模块,用于概率值最大的类别即为预测样本的预测类别。
4.如权利要求1所述的新冠肺炎症状轻重预测系统,其特征在于,所述新冠肺炎症状预测数据获取模块包括:
测试模块,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为评价指标;
预测结果比较模块,用于对KNN、XGB、MLP、DecisionTree机器学习预测方法得到的训练数据,与Naive Bayes方法的预测结果进行比较。
5.一种基于机器学习的新冠肺炎数据处理方法,其特征在于,所述基于机器学习的新冠肺炎数据处理方法包括以下步骤:
步骤一,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤二,采用步骤一得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
步骤三,利用测试数据对训练后的Naive Bayes预测方法进行测试,并与其他机器学习预测方法进行比较。
6.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法,其特征在于,所述步骤一中,新冠肺炎的医学病例数据集的属性特征包括气促、咳嗽、腹泻的表现症状数据以及血常规、肝功生化、凝血、血气的医学检测数据;
所述填充缺失值的方法为:
对缺失值使用该属性的平均值作为填充数据进行填充;
所述Pearson相关系数的计算公式为:
Figure FDA0002465438670000021
所述特征选择的方法为:
计算每一属性与原始病例数据中的症状情况数据的Pearson系数,并取相关性大于0.2的属性作为训练数据的属性。
7.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法,其特征在于,所述步骤二中,所述Naive Bayes方法的具体过程为:
(1)通过计算各类别下每个特征属性的条件概率估计,得到每个类别下每个特征属性的条件概率估计:
Figure FDA0002465438670000031
P(a1|y1),…,P(am|y1);P(a1|y2),…,P(ak|y2);
其中,x={a1,a2,…,ak}代表要分类的类别,每个ai代表一个x的特征,标签类别集为C={y1,y2};
(2)计算各类别下每个特征属性的条件概率估计:
Figure FDA0002465438670000032
(3)计算每个类别的P(yi|x):
Figure FDA0002465438670000033
(4)概率值最大的类别即为预测样本的预测类别(y):
Figure FDA0002465438670000034
采用Gaussian Naive Bayes方法,该方法假定数据的特征服从高斯分布:
Figure FDA0002465438670000035
其中,参数σy和μy服从最大似然估计。
8.如权利要求5所述的基于机器学习的新冠肺炎数据处理方法,其特征在于,所述步骤三中,利用训练后的Naive Bayes预测方法在测试数据上进行测试,并计算其精确率、TPR、TNR、FNR、FPR、准确率、标准差和方差作为其评价指标,并以同样的方式训练并计算由其他机器学习预测方法得到的这些数据,包括KNN、XGB、MLP、DecisionTree,与Naive Bayes方法的预测结果进行比较。
9.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求5-8任意一项所述的基于机器学习的新冠肺炎数据处理方法,包括:
步骤1,对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
步骤2,采用步骤1得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按一定比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
步骤3,利用测试数据对训练后的Naive Bayes预测方法进行测试,并与其他机器学习预测方法进行比较。
10.一种执行权利要求5-8任意一项所述基于机器学习的新冠肺炎数据处理方法的计算机,包括:病例数据特征获取模块,用于对新冠肺炎的医学病例数据集中的部分缺失值进行填充,并采用Pearson相关系数对病例数据集进行特征选择,得到提取后的病例数据特征;
数据训练模块,对病例数据特征获取模块得到的特征数据以及原始病例数据中的症状情况数据组成样本数据,按比例分成训练数据和测试数据,并利用Naive Bayes方法在训练数据上进行训练;
新冠肺炎症状预测数据获取模块,对数据训练模块训练后数据进行测试,并与其他机器学习预测方法进行比较。
CN202010332419.2A 2020-04-24 2020-04-24 一种基于机器学习的新冠肺炎数据处理方法及预测系统 Pending CN111524599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010332419.2A CN111524599A (zh) 2020-04-24 2020-04-24 一种基于机器学习的新冠肺炎数据处理方法及预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010332419.2A CN111524599A (zh) 2020-04-24 2020-04-24 一种基于机器学习的新冠肺炎数据处理方法及预测系统

Publications (1)

Publication Number Publication Date
CN111524599A true CN111524599A (zh) 2020-08-11

Family

ID=71902859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010332419.2A Pending CN111524599A (zh) 2020-04-24 2020-04-24 一种基于机器学习的新冠肺炎数据处理方法及预测系统

Country Status (1)

Country Link
CN (1) CN111524599A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002412A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于血常规数据推导疾病的系统、设备、存储介质
CN112071421A (zh) * 2020-09-01 2020-12-11 深圳高性能医疗器械国家研究院有限公司 一种深度学习预估方法及其应用
CN112185560A (zh) * 2020-09-27 2021-01-05 江苏省人民医院(南京医科大学第一附属医院) 一种感染covid-19患者预后风险程度的早期预测方法和系统
CN112525804A (zh) * 2020-11-21 2021-03-19 烟台智医医药科技有限公司 全血细胞计数在预测SARS-CoV-2感染中的应用
CN112652398A (zh) * 2020-12-22 2021-04-13 浙江大学 一种基于机器学习算法的新冠肺炎重症化预测方法及系统
CN112766352A (zh) * 2021-01-13 2021-05-07 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN113081025A (zh) * 2021-03-10 2021-07-09 华中科技大学 一种基于肺音的新冠肺炎智能诊断系统和装置
CN113138250A (zh) * 2021-04-23 2021-07-20 西湖大学 特征尿蛋白对covid-19轻重级进行分型的非诊断方法及应用
CN113314227A (zh) * 2021-04-16 2021-08-27 山东大学 一种预测新型冠状病毒感染的机器学习模型构建方法
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN114093523A (zh) * 2021-11-11 2022-02-25 哈尔滨工业大学 一种新冠肺炎轻重症预测模型的构建方法及其应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN108305690A (zh) * 2018-02-07 2018-07-20 王博冉 神经系统疾病分诊方法及神经系统疾病的分诊系统
CN108416190A (zh) * 2018-02-11 2018-08-17 广州市碳码科技有限责任公司 基于深度学习的肿瘤早期筛查方法、装置、设备及介质
CN108597603A (zh) * 2018-05-04 2018-09-28 吉林大学 基于多维高斯分布贝叶斯分类的癌症复发预测系统
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、系统及存储介质
CN110246577A (zh) * 2019-05-31 2019-09-17 深圳江行联加智能科技有限公司 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688872A (zh) * 2017-08-20 2018-02-13 平安科技(深圳)有限公司 预测模型建立装置、方法及计算机可读存储介质
CN108305690A (zh) * 2018-02-07 2018-07-20 王博冉 神经系统疾病分诊方法及神经系统疾病的分诊系统
CN108416190A (zh) * 2018-02-11 2018-08-17 广州市碳码科技有限责任公司 基于深度学习的肿瘤早期筛查方法、装置、设备及介质
CN108597603A (zh) * 2018-05-04 2018-09-28 吉林大学 基于多维高斯分布贝叶斯分类的癌症复发预测系统
CN109036568A (zh) * 2018-09-03 2018-12-18 浪潮软件集团有限公司 一种基于朴素贝叶斯算法的预测模型的建立方法
CN110111888A (zh) * 2019-05-16 2019-08-09 闻康集团股份有限公司 一种XGBoost疾病概率预测方法、系统及存储介质
CN110246577A (zh) * 2019-05-31 2019-09-17 深圳江行联加智能科技有限公司 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高文;黄钢;韩晓莉;: "基于蚊密度差分自回归移动平均模型预测流行性乙型脑炎的贝叶斯判别分析研究", 中国媒介生物学及控制杂志 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002412A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于血常规数据推导疾病的系统、设备、存储介质
CN112071421A (zh) * 2020-09-01 2020-12-11 深圳高性能医疗器械国家研究院有限公司 一种深度学习预估方法及其应用
CN112185560A (zh) * 2020-09-27 2021-01-05 江苏省人民医院(南京医科大学第一附属医院) 一种感染covid-19患者预后风险程度的早期预测方法和系统
CN112525804A (zh) * 2020-11-21 2021-03-19 烟台智医医药科技有限公司 全血细胞计数在预测SARS-CoV-2感染中的应用
CN112652398A (zh) * 2020-12-22 2021-04-13 浙江大学 一种基于机器学习算法的新冠肺炎重症化预测方法及系统
CN112766352A (zh) * 2021-01-13 2021-05-07 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN112766352B (zh) * 2021-01-13 2024-03-29 大连海事大学 一种基于极端梯度提升算法的新型冠状病毒分类方法
CN113081025A (zh) * 2021-03-10 2021-07-09 华中科技大学 一种基于肺音的新冠肺炎智能诊断系统和装置
CN113314227A (zh) * 2021-04-16 2021-08-27 山东大学 一种预测新型冠状病毒感染的机器学习模型构建方法
CN113138250A (zh) * 2021-04-23 2021-07-20 西湖大学 特征尿蛋白对covid-19轻重级进行分型的非诊断方法及应用
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN114093523A (zh) * 2021-11-11 2022-02-25 哈尔滨工业大学 一种新冠肺炎轻重症预测模型的构建方法及其应用

Similar Documents

Publication Publication Date Title
CN111524599A (zh) 一种基于机器学习的新冠肺炎数据处理方法及预测系统
CN108091372B (zh) 医疗字段映射校验方法及装置
Han et al. Prediction-based learning for continuous emotion recognition in speech
Islam et al. Early prediction of heart disease using PCA and hybrid genetic algorithm with k-means
US20170083670A1 (en) Drug adverse event extraction method and apparatus
CN111554402A (zh) 基于机器学习的原发性肝癌术后复发风险预测方法及系统
CN110379521B (zh) 基于信息论的医疗数据集特征选择方法
Moreno-Sanchez An automated feature selection and classification pipeline to improve explainability of clinical prediction models
Inbar et al. A machine learning approach to the interpretation of cardiopulmonary exercise tests: Development and validation
Tong et al. Investigating bias in image classification using model explanations
CN111524600A (zh) 基于neighbor2vec的肝癌术后复发风险预测系统
Kovács et al. A new baseline for retinal vessel segmentation: Numerical identification and correction of methodological inconsistencies affecting 100+ papers
CN111177356A (zh) 一种酸碱指标医疗大数据分析方法及系统
Deutsch et al. Ties matter: Meta-evaluating modern metrics with pairwise accuracy and tie calibration
TWI790479B (zh) 生理狀態評估方法與生理狀態評估裝置
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN109192306A (zh) 一种糖尿病的判断装置、设备及计算机可读存储介质
Peng et al. [Retracted] Research on Application of Data Mining Algorithm in Cardiac Medical Diagnosis System
CN116994751A (zh) 一种孕早期子痫前期风险预测模型的构建方法及装置
CN113066544B (zh) 基于CAA-Net与LightGBM的FVEP特征点检测方法
CN110008972A (zh) 用于数据增强的方法和装置
CN115049870A (zh) 一种基于小样本的目标检测方法
D'Souza et al. Diabetes Detection Using Machine Learning Algorithms
CN112614562A (zh) 基于电子病历的模型训练方法、装置、设备及存储介质
Yu et al. Retinal age estimation with temporal fundus images enhanced progressive label distribution learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination