CN116821753A - 一种基于机器学习的社区获得性肺炎病原类型预测方法 - Google Patents
一种基于机器学习的社区获得性肺炎病原类型预测方法 Download PDFInfo
- Publication number
- CN116821753A CN116821753A CN202310654625.9A CN202310654625A CN116821753A CN 116821753 A CN116821753 A CN 116821753A CN 202310654625 A CN202310654625 A CN 202310654625A CN 116821753 A CN116821753 A CN 116821753A
- Authority
- CN
- China
- Prior art keywords
- type prediction
- model
- pathogen type
- prediction model
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000052769 pathogen Species 0.000 title claims abstract description 121
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 46
- 206010035664 Pneumonia Diseases 0.000 title claims abstract description 41
- 238000010801 machine learning Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013441 quality evaluation Methods 0.000 claims abstract description 28
- 238000001303 quality assessment method Methods 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 18
- 108010048233 Procalcitonin Proteins 0.000 claims description 20
- CWCXERYKLSEGEZ-KDKHKZEGSA-N procalcitonin Chemical compound C([C@@H](C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@H](C(=O)N[C@@H](C)C(=O)N[C@@H]([C@@H](C)CC)C(=O)NCC(=O)N[C@@H](C(C)C)C(=O)NCC(=O)N[C@@H](C)C(=O)N1[C@@H](CCC1)C(=O)NCC(O)=O)[C@@H](C)O)NC(=O)[C@@H](NC(=O)[C@H](CC=1NC=NC=1)NC(=O)[C@H](CC=1C=CC=CC=1)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC=1C=CC=CC=1)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@@H](NC(=O)CNC(=O)[C@H](CC(C)C)NC(=O)[C@H](CCSC)NC(=O)[C@H]1NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CO)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CC(N)=O)NC(=O)CNC(=O)[C@@H](N)CSSC1)[C@@H](C)O)[C@@H](C)O)[C@@H](C)O)C1=CC=CC=C1 CWCXERYKLSEGEZ-KDKHKZEGSA-N 0.000 claims description 20
- 102100032752 C-reactive protein Human genes 0.000 claims description 18
- 238000013209 evaluation strategy Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 13
- 208000015181 infectious disease Diseases 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 8
- 230000002757 inflammatory effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 208000035143 Bacterial infection Diseases 0.000 claims description 6
- 208000022362 bacterial infectious disease Diseases 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000009885 systemic effect Effects 0.000 claims description 5
- 230000009385 viral infection Effects 0.000 claims description 5
- 208000036142 Viral infection Diseases 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 24
- 230000008569 process Effects 0.000 abstract description 10
- 238000012795 verification Methods 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 3
- 108010074051 C-Reactive Protein Proteins 0.000 description 16
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 206010061218 Inflammation Diseases 0.000 description 4
- 230000004054 inflammatory process Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 230000000844 anti-bacterial effect Effects 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 201000005008 bacterial sepsis Diseases 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002685 pulmonary effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 201000001178 Bacterial Pneumonia Diseases 0.000 description 1
- 208000003322 Coinfection Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 206010035737 Pneumonia viral Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012136 culture method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012106 screening analysis Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 208000009421 viral pneumonia Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于机器学习的社区获得性肺炎病原类型预测方法,所述方法包括:首先,收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集;然后,将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型;对病原类型预测模型进行模型质量评估,根据模型质量评估结果获取最优病原类型预测模型;然后,通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型;本发明通过对病原类型预测模型进行模型质量评估过程,并筛选合格的病原类型预测模型,从而保证验证模型的准确性,保证了减少筛选最优病原类型预测模型误差并实现检测效率的优化。
Description
技术领域
本发明涉及医学检测方法技术领域,具体涉及一种基于机器学习的社区获得性肺炎病原类型预测方法。
背景技术
社区获得性肺炎(community-aequired pneumonia,CAP)是指在医院外罹患的感染性肺实质含肺泡壁,即广义上的肺间质性炎症,包括由于其他原因入院但具有社区病原体潜伏、并在入院后短期(<48小时)内发病的肺炎;CAP是严重威胁人类健康的常见感染性疾病之一,也是临床急诊、门诊最常见的肺炎类型。由于CAP主要是由其病原体引发公共卫生事件,并且工作的重点之一是病原体类型的快速准确的识别与检测;而病原体的检测技术是通过确定检测样本中的病原体,从而确定病人是否感染了对应病原体引发的疾病从而对病情进行诊断和治疗。
随着医学技术的发展,病原体检测方法也在不断更新;现有的病原体检测方法包括传统的培养法、免疫学方法、分子生物学方法等;为了快速识别病原体类型,现有的通过显微镜成像形态学观察依然是最为经济有效的病原体检测手段,随着深度学习技术迅猛发展,其在医学图像分析领域持续活跃并展现出优秀处理能力。
然而患者CAP的感染来源复杂,并且在检测方法上依赖于精细化的建模过程,通过机器学习方法在医学诊断与预测中得到广泛应用且取得不错的效果,例如,通过提供应用机器学习方法构建细菌性脓毒症患者的菌型预测模型,同时辅助医生进行病情严重程度的评估以及抗菌治疗;但是现有的检测过程繁琐,现有的训练模型相较于CAP的适配性交低,导致误差较大;而且利用常规学统计方法进行感染类型的检测耽误检测时间,影响检测效率。
发明内容
本发明的目的在于提供一种基于机器学习的社区获得性肺炎病原类型预测方法,解决以下技术问题:
怎样减少筛选最优病原类型预测模型误差并实现检测效率的优化。
本发明的目的可以通过以下技术方案实现:
一种基于机器学习的社区获得性肺炎病原类型预测方法,所述方法包括:
S1、收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集;
S2、将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型;
S3、对病原类型预测模型进行模型质量评估,根据模型质量评估结果获取最优病原类型预测模型;
S4、通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。
优选地,步骤S3中所述模型质量评估的方法为:
通过预设评估数据集获取质量评估指标参数;
所述质量评估指标参数包括ROC曲线的AUC值参数Ai、P-R曲线参数Pr、F1 score参数Fs;
根据质量评估指标参数获取评估策略;
依据评估策略结果获得最佳模型质量信息。
优选地,所述评估策略的获取方式为:
SS1、通过公式计算出质量评估系数Mcoe,其中f为预设函数;α、β、γ为权重系数;且α、β、γ均大于0;Pr0为标准P-R曲线参数;Fs0为标准F1 score参数;
SS2、将质量评估系数Mcoe与标准质量评估系数阈值[M1,M2]进行比对:
若Mcoe∈[M1,M2],则判断该模型合格,生成评估策略;若则进一步判断:
若Mcoe<M1,则判断该模型不合格;
若Mcoe>M2,则判断该模型数据异常,则进行模型调整。
优选地,步骤S3中所述最优病原类型预测模型的获取方法为:
获取筛选合格的病原类型预测模型ROC曲线;
并根据样本数据集数量计算ROC曲线的面积SROC;
计算SROC值与预设标准AUC值(记作S0)进行大小比对:
若SROC≥S0,则记录为备选最优病原类型预测模型,进行下一步;
若SROC<S0,则排除;
输出备选最优病原类型预测模型数量及类型,并筛选SROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。
优选地,所述样本数据集包括占样本数据集总量的80%训练集和20%测试集,所述训练集和测试集是随机划分的。
优选地,所述第一次训练包括通过数据处理库对训练集数据进行数据预处理;将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。
优选地,所述第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优,所述模型超参数搜索和调优的方法为:
运用多轮超参网络搜索获取所述模型超参数备选空间的一组备选超参;
然后使用这一组备选超参重新进行病原类型预测模型的训练,重复步骤S2-S4;
其中,超参调优在训练集上完成,并使用5折交叉验证的准确率作为性能指标;完成超参网格搜索后,选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。
优选地,还包括:
S5、通过调优病原类型预测模型对未知感染CAP病例数据分析并输出结果。
优选地,所述输出结果包括C反应蛋白(CRP)指标和降钙素原(PCT)指标:
同步进行CRP指标和PCT指标比较,比较范围包括:
(1)炎症标志物是否存在和变化值;
(2)细菌感染或病毒感染特异性数据变化值;
(3)炎症局部或者全身支持指标变化值;
根据比对值判断CAP病例感染病原类型。
本发明的有益效果:
(1)通过对病原类型预测模型进行模型质量评估过程,保证验证模型的准确性,具体通过设置质量评估指数参数并获取评估参数,保证通过评估参数情况筛选分析获取评估策略,细化模型筛选过程,简化病原类型预测模型质量评估步骤,保证提高检测效率,降低筛选误差。
(2)还通过根据模型质量评估结果中筛选合格的病原类型预测模型进行进一步评估,通过对当前样本数据集数量情况进行进一步验证,通过在当前样本数据集数量的下的匹配精确率最高的病原类型预测模型,保证最优病原类型预测模型的顺利筛选。
(3)本发明通过设置第一训练及第二训练过程,保证搜索筛选准确度最高的超参数,并在下一次最优病原类型预测模型的筛选更新,保证训练获得调优病原类型预测模型精度更加理想化。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于机器学习的社区获得性肺炎病原类型预测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
随着医学技术的发展,病原体检测方法也在不断更新;现有的通过显微镜成像形态学观察依然是最为经济有效的病原体检测手段,然而患者CAP的感染来源复杂,并且在检测方法上依赖于精细化的建模过程,通过机器学习方法在医学诊断与预测中得到广泛应用且取得不错的效果,例如,通过提供应用机器学习方法构建细菌性脓毒症患者的菌型预测模型,同时辅助医生进行病情严重程度的评估以及抗菌治疗;但是现有的检测过程繁琐,现有的训练模型相较于CAP的适配性交低,导致误差较大;而且利用常规学统计方法进行感染类型的检测耽误检测时间,影响检测效率。为了解决上述技术问题,请参阅图1所示,本发明为一种基于机器学习的社区获得性肺炎病原类型预测方法,方法包括:
S1、收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集;
S2、将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型;
S3、对病原类型预测模型进行模型质量评估,根据模型质量评估结果获取最优病原类型预测模型;
S4、通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。
通过上述技术方案:基于机器学习方法的特点需要足够的数据进行训练获取有效的、高精度的模型,首先,收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集,由于医疗检验结果数据较少地受到患者主观描述和医生主观判断的影响,能比较客观地反映病人的健康状况和病情,通过CAP医疗数据中筛选出样本数据集;通过医疗机构的医疗数据库中获取CAP患者的数据并根据数据模型的需要获取数据样本特征及样本标签,样本标签是确定CAP患者的细菌性感染还是病毒性感染及具体感染种类,根据感染情况生成标签列表,其中样本标签中仅包括与肺炎相关的标签,需要注意的是,根据临床病例情况,本实施例只考虑病毒或者细菌单纯感染病例,而暂不考虑混合感染病例。
然后将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型;样本数据集中包括样本特征,样本特征的确定和筛选是基于样本构造方式确定之后选定的,通过数据特征和数据标签确定之后进行训练机器学习模型的第一次训练,保证获得病原类型预测模型,从而保证病原类型预测模型的初步形成,进入下一步。
通过对病原类型预测模型进行模型质量评估,根据模型质量评估结果获取最优病原类型预测模型,通过对病原类型预测模型进行质量评估保证验证模型的准确性,由于病原类型预测模型的准确性验证的指标复杂,本实施例通过评估策略进行评判,具体的在下文解释;最后通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。
作为本发明的一种实施例,具体的,步骤S3中模型质量评估的方法为:
通过预设评估数据集获取质量评估指标参数;
质量评估指标参数包括ROC曲线的AUC值参数Ai、P-R曲线参数Pr、F1 score参数Fs;
根据质量评估指标参数获取评估策略;
依据评估策略结果获得最佳模型质量信息。
通过上述技术方案:由于病原类型预测模型的准确性验证的指标复杂,为了进一步对模型准确性进行精细化检测,本实施例通过预设评估数据集获取质量评估指标参数进行提前筛选,具体的,设置质量评估指标参数:ROC曲线的AUC值参数Ai、P-R曲线参数Pr、F1score参数Fs;由于评价指标的多样化,通过设置多样指标保证避免单一化的准确性判断影响整体模型的精确性,其中,AUC是一种衡量机器学习模型分类性能的重要且常用的指标;F1 score可以解释为精确率和召回率的加权平均值,利用构建多组精确率和召回率,绘制出模型的P-R曲线;对上述指标进行参数化处理,这里的是通过医院关于质量评估指标处理标准获得质量评估指标参数;通过根据质量评估指标参数获取评估策略;然后依据评估策略结果获得最佳模型质量信息。
作为本发明的一种实施例,具体的,评估策略的获取方式为:
SS1、通过公式计算出质量评估系数Mcoe,其中f为预设函数;α、β、γ为权重系数;且α、β、γ均大于0;Pr0为标准P-R曲线参数;Fs0为标准F1 score参数;
SS2、将质量评估系数Mcoe与标准质量评估系数阈值[M1,M2]进行比对:
若Mcoe∈[M1,M2],则判断该模型合格,生成评估策略;
若则进一步判断:
若Mcoe<M1,则判断该模型不合格;
若Mcoe>M2,则判断该模型数据异常,则进行模型调整。
通过上述技术方案:为了获得评估策略,根据上述的三个质量评估指标参数进行分析,通过公式 计算出质量评估系数Mcoe,其中f为预设函数,预设函数f为根据评估体系的历史数据情况设定的一个调整函数,保证调整系数在特定合理的区间范围;α、β、γ为权重系数;且α、β、γ均大于0;Pr0为标准P-R曲线参数;Fs0为标准F1 score参数;其中,Pr0、Fs0是根据模型准确性判定的经验数据库中选定的。
通过将质量评估系数Mcoe与标准质量评估系数阈值[M1,M2]进行比对大小,如果Mcoe属于标准质量评估系数阈值范围内,则判断该模型合格,生成评估策略;如果Mcoe不属于标准质量评估系数阈值,则进行进一步判断:如果Mcoe小于M1,则判断该模型不合格;如果Mcoe大于M2,则判断该模型数据异常,则进行模型调整。
需要注意的是,本实施例通过设定的阈值进行判断过程,避免当对病原类型预测模型进行评估时,由于原先数据模型在训练过程中的运行错误等其他原因导致训练模型与预测模型相差较大,并且严重影响下一步的评估结果,进行提前排查排除误差;而细化分析后,对于超出预测范围的结果进行进一步的分析,考虑到模型问题,比如模型超参数优化不到位问题等,通过进一步优化可以再次筛选,保证本实施的筛选结果的精确性。
作为本发明的一种实施例,具体的,步骤S3中最优病原类型预测模型的获取方法为:
获取筛选合格的病原类型预测模型ROC曲线;
并根据样本数据集数量计算ROC曲线的面积SROC;
计算SROC值与预设标准AUC值(记作S0)进行大小比对:
若SROC≥S0,则记录为备选最优病原类型预测模型,进行下一步;
若SROC<S0,则排除;
输出备选最优病原类型预测模型数量及类型,并筛选SROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。
通过上述技术方案:根据模型质量评估结果中筛选合格的病原类型预测模型进行进一步评估,通过对当前样本数据集数量情况进行进一步验证,通过在当前样本数据集数量的下的匹配精确率最高的病原类型预测模型,根据样本数据集数量计算ROC曲线的面积SROC即为当前模型的AUC值,通过将当前AUC值(SROC)与预设标准AUC值(S0)进行大小比对获取最优病原类型预测模型,具体通过筛选合格的病原类型预测模型ROC曲线;并根据样本数据集数量计算ROC曲线的面积SROC;通过计算SROC值与预设标准AUC值(记作S0)进行大小比对:如果SROC≥S0,则记录为备选最优病原类型预测模型,进行下一步;如果SROC<S0,则排除;然后输出备选最优病原类型预测模型数量及类型,并筛选SROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。
作为本发明的一种实施例,具体的,样本数据集包括占样本数据集总量的80%训练集和20%测试集,训练集和测试集是随机划分的。
通过上述技术方案:为了兼顾模型的训练和准确率的验证,本实施例将样本数据集以80%/20%的比例被随机划分为训练集和测试集;其中,训练集用于模型训练,而测试集用于模型性能评估并进行不同模型的性能对比分析。
作为本发明的一种实施例,具体的,第一次训练包括通过数据处理库对训练集数据进行数据预处理;将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。
通过上述技术方案:在准备好数据样本后,就可以选择合适的机器学习模型并在训练数据上训练模型,本实施的训练方式有两次,但是可以根据实际要求进行多次训练,训练方式可以依据动态数据更新情况进行调整,调整到合适的状态获得较高精确度的病原类型预测模型,其中第一次训练包括通过数据处理库对训练集数据进行数据预处理,本实施例通过scikit-learn机器学习库,并使用了pandas数据处理库完成了数据预处理,本实施例通过将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型,本实施例选择了随机森林、梯度提升决策树(GBDT)、支持向量机(SVM)模型,当然这里不限于当前模型,可以根据实际需要设定。
作为本发明的一种实施例,具体的,第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优,模型超参数搜索和调优的方法为:
运用多轮超参网络搜索获取模型超参数备选空间的一组备选超参;
然后使用这一组备选超参重新进行病原类型预测模型的训练,重复步骤S2-S4;
其中,超参调优在训练集上完成,并使用5折交叉验证的准确率作为性能指标;完成超参网格搜索后,选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。
通过上述技术方案:由于病理学研究的复杂性,现实采取的数据的复杂性,在大多数情况下,实施例中所使用的scikit-learn库所提供的默认模型超参数并不能达到最佳的性能,需要对模型超参数进行进一步调优;通过设置第二次训练,第二次训练基于测试集数据情况对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优,具体的运用多轮超参网络搜索获取模型超参数备选空间的一组备选超参;然后使用这一组备选超参重新进行病原类型预测模型的训练,重复步骤S2-S4。
需要注意的是,超参调优在训练集上完成,并通过使用5折交叉验证的准确率作为性能指标;完成超参网格搜索后,本实施例选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。
作为本发明的一种实施例,具体的,还包括:
S5、通过调优病原类型预测模型对未知感染CAP病例数据分析并输出结果。
通过上述技术方案:为了保证对调优病原类型预测模型的评估结果进行最后验证,通过增加步骤S5对当前感染CAP病例数据情况进行检测并输出检验结果:根据其临床表现特征数据和医疗检验结果数据,预测其病原体类型,本实施例中,检验获得的支持向量机(SVM)模型的性能表现最好,准确率达到了0.80,而AUC值为0.85。
作为本发明的一种实施例,具体的,输出结果包括C反应蛋白(CRP)指标和降钙素原(PCT)指标:
同步进行CRP指标和PCT指标比较,比较范围包括:
(1)炎症标志物是否存在和变化值;
(2)细菌感染或病毒感染特异性数据变化值;
(3)炎症局部或者全身支持指标变化值;
根据比对值判断CAP病例感染病原类型。
通过上述技术方案:临床上通常通过C反应蛋白(CRP)、降钙素原(PCT)等关键指标来判断病人的感染类型和病情,通过设定输出结果,具体根据C反应蛋白(CRP)指标和降钙素原(PCT)指标并对RP指标和PCT指标进行比对大小;其中,降钙素原的达峰时间约为12小时,C反应蛋白的达峰时间为24-48小时。
具体比对大小的内容包括:炎症标志物是否存在和变化值,若存在则判断患者已经感染CAP,进一步判断,细菌感染或病毒感染特异性数据变化值,当细菌感染时,PCT指标发生变化,比如PCT值特异性升高,且升高幅度与疾病的严重程度是正相关,而CRP仅与炎症反应相关,且升高幅度与疾病的严重程度无明显的关系;当病毒感染时,CRP指标发生变化,而PCT指标变化不明显;炎症局部或者全身支持指标变化值,通过CRP指标和PCT指标变化判断炎症局部或者全身,例如,局部感染CRP升高,PCT变化不明显;根据输出结果通过CRP和PCT的同步检测结果能直接区分细菌性和病毒性肺炎并,从而辅助缺乏经验的医生诊断和治疗社区获得性肺炎。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (9)
1.一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述方法包括:
S1、收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集;
S2、将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型;
S3、对病原类型预测模型进行模型质量评估,根据模型质量评估结果获取最优病原类型预测模型;
S4、通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。
2.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,步骤S3中所述模型质量评估的方法为:
通过预设评估数据集获取质量评估指标参数;
所述质量评估指标参数包括ROC曲线的AUC值参数Ai、P-R曲线参数Pr、F1 score参数Fs;
根据质量评估指标参数获取评估策略;
依据评估策略结果获得最佳模型质量信息。
3.根据权利要求2所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述评估策略的获取方式为:
SS1、通过公式计算出质量评估系数Mcoe,其中f为预设函数;α、β、γ为权重系数;且α、β、γ均大于0;Pr0为标准P-R曲线参数;Fs0为标准F1 score参数;
SS2、将质量评估系数Mcoe与标准质量评估系数阈值[M1,M2]进行比对:
若Mcoe∈[M1,M2],则判断该模型合格,生成评估策略;
若则进一步判断:
若Mcoe<M1,则判断该模型不合格;
若Mcoe>M2,则判断该模型数据异常,则进行模型调整。
4.根据权利要求3所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,步骤S3中所述最优病原类型预测模型的获取方法为:
获取筛选合格的病原类型预测模型ROC曲线;
并根据样本数据集数量计算ROC曲线的面积SROC;
计算SROC值与预设标准AUC值S0进行大小比对:
若SROC≥S0,则记录为备选最优病原类型预测模型,进行下一步;
若SROC<S0,则排除;
输出备选最优病原类型预测模型数量及类型,并筛选SROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。
5.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述样本数据集包括占样本数据集总量的80%训练集和20%测试集,所述训练集和测试集是随机划分的。
6.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述第一次训练包括通过数据处理库对训练集数据进行数据预处理;将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。
7.根据权利要求3所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优,所述模型超参数搜索和调优的方法为:
运用多轮超参网络搜索获取所述模型超参数备选空间的一组备选超参;
然后使用这一组备选超参重新进行病原类型预测模型的训练,重复步骤S2-S4;
其中,超参调优在训练集上完成,并使用5折交叉验证的准确率作为性能指标;完成超参网格搜索后,选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。
8.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,还包括:
S5、通过调优病原类型预测模型对未知感染CAP病例数据分析并输出结果。
9.根据权利要求8所述的一种基于机器学习的社区获得性肺炎病原类型预测方法,其特征在于,所述输出结果包括C反应蛋白CRP指标和降钙素原PCT指标:
同步进行CRP指标和PCT指标比较,比较范围包括:
炎症标志物是否存在和变化值;
细菌感染或病毒感染特异性数据变化值;
炎症局部或者全身支持指标变化值;
根据比对值判断CAP病例感染病原类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654625.9A CN116821753A (zh) | 2023-06-05 | 2023-06-05 | 一种基于机器学习的社区获得性肺炎病原类型预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310654625.9A CN116821753A (zh) | 2023-06-05 | 2023-06-05 | 一种基于机器学习的社区获得性肺炎病原类型预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821753A true CN116821753A (zh) | 2023-09-29 |
Family
ID=88123359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310654625.9A Pending CN116821753A (zh) | 2023-06-05 | 2023-06-05 | 一种基于机器学习的社区获得性肺炎病原类型预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821753A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315380A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市健怡康医疗器械科技有限公司 | 一种基于深度学习的肺炎ct图像分类方法及系统 |
CN117690601A (zh) * | 2024-02-02 | 2024-03-12 | 江西省胸科医院(江西省第三人民医院) | 基于大数据分析的结核病流行趋势预测系统 |
-
2023
- 2023-06-05 CN CN202310654625.9A patent/CN116821753A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315380A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市健怡康医疗器械科技有限公司 | 一种基于深度学习的肺炎ct图像分类方法及系统 |
CN117315380B (zh) * | 2023-11-30 | 2024-02-02 | 深圳市健怡康医疗器械科技有限公司 | 一种基于深度学习的肺炎ct图像分类方法及系统 |
CN117690601A (zh) * | 2024-02-02 | 2024-03-12 | 江西省胸科医院(江西省第三人民医院) | 基于大数据分析的结核病流行趋势预测系统 |
CN117690601B (zh) * | 2024-02-02 | 2024-05-24 | 江西省胸科医院(江西省第三人民医院) | 基于大数据分析的结核病流行趋势预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670510B (zh) | 一种基于深度学习的胃镜活检病理数据筛查系统 | |
CN109035263B (zh) | 基于卷积神经网络的脑肿瘤图像自动分割方法 | |
CN116821753A (zh) | 一种基于机器学习的社区获得性肺炎病原类型预测方法 | |
CN112669960B (zh) | 一种基于机器学习方法的肝脏纤维化预测模型的构建方法、预测系统、设备和存储介质 | |
CN116612891B (zh) | 一种慢性病患者数据处理系统 | |
Kollias et al. | Ai-enabled analysis of 3-d ct scans for diagnosis of covid-19 & its severity | |
CN114999656B (zh) | 一种阿尔兹海默病风险评估系统及模块 | |
Li et al. | Development and multicenter validation of a CT-based radiomics signature for predicting severe COVID-19 pneumonia | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN114494215A (zh) | 基于Transformer的甲状腺结节检测方法 | |
Xing et al. | Automatic detection of A‐line in lung ultrasound images using deep learning and image processing | |
CN114842969A (zh) | 一种基于关键纤维束的轻度认知障碍症评估方法 | |
CN113706518A (zh) | 一种基于人工智能的股骨头坏死分期分析方法及系统 | |
Lu et al. | Data enhancement and deep learning for bone age assessment using the standards of skeletal maturity of hand and wrist for chinese | |
CN112200810A (zh) | 多模态的自动化脑室分割系统及其使用方法 | |
Jing et al. | Optimization of Deep-learning network using Resnet50 based model for corona virus disease (COVID-19) histopathological image classification | |
CN112216391B (zh) | 基于颈动脉粥样硬化情况评估脑卒中发病风险方法及装置 | |
CN114842960A (zh) | 一种基于ct影像和临床数据评估新冠患者病情进展和预后的方法 | |
CN112807008A (zh) | 基于影像组学的鉴别实性小儿肺炎支原体肺炎与肺炎链球菌肺炎的方法和系统 | |
CN113314219A (zh) | 胎儿生长发育异常数据识别方法、系统及可读存储介质 | |
Addeh et al. | A hybrid diagnostic system to detect COVID-19 Based on selected deep features of chest CT images and SVM | |
CN111582328A (zh) | 一种基于肺部ct影像的covid-19分类识别方法 | |
Naveen et al. | Deep learning based classification of heart diseases from heart sounds | |
CN115064267B (zh) | 一种胆道闭锁风险评估系统及其建立方法 | |
CN116741384B (zh) | 一种基于床旁护理的重症急性胰腺炎临床数据管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |