CN116821753A

CN116821753A - 一种基于机器学习的社区获得性肺炎病原类型预测方法

Info

Publication number: CN116821753A
Application number: CN202310654625.9A
Authority: CN
Inventors: 陈锡得; 陈迅; 黄巧玲; 林志鸿; 林志刚; 蔡川奇; 黄孝锋
Original assignee: First Affiliated Hospital of Fujian Medical University
Current assignee: First Affiliated Hospital of Fujian Medical University
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-29

Abstract

本发明公开了一种基于机器学习的社区获得性肺炎病原类型预测方法，所述方法包括：首先，收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集；然后，将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型；对病原类型预测模型进行模型质量评估，根据模型质量评估结果获取最优病原类型预测模型；然后，通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型；本发明通过对病原类型预测模型进行模型质量评估过程，并筛选合格的病原类型预测模型，从而保证验证模型的准确性，保证了减少筛选最优病原类型预测模型误差并实现检测效率的优化。

Description

一种基于机器学习的社区获得性肺炎病原类型预测方法

技术领域

本发明涉及医学检测方法技术领域，具体涉及一种基于机器学习的社区获得性肺炎病原类型预测方法。

背景技术

社区获得性肺炎(community-aequired pneumonia,CAP)是指在医院外罹患的感染性肺实质含肺泡壁,即广义上的肺间质性炎症，包括由于其他原因入院但具有社区病原体潜伏、并在入院后短期(<48小时)内发病的肺炎；CAP是严重威胁人类健康的常见感染性疾病之一，也是临床急诊、门诊最常见的肺炎类型。由于CAP主要是由其病原体引发公共卫生事件，并且工作的重点之一是病原体类型的快速准确的识别与检测；而病原体的检测技术是通过确定检测样本中的病原体，从而确定病人是否感染了对应病原体引发的疾病从而对病情进行诊断和治疗。

随着医学技术的发展，病原体检测方法也在不断更新；现有的病原体检测方法包括传统的培养法、免疫学方法、分子生物学方法等；为了快速识别病原体类型，现有的通过显微镜成像形态学观察依然是最为经济有效的病原体检测手段，随着深度学习技术迅猛发展，其在医学图像分析领域持续活跃并展现出优秀处理能力。

然而患者CAP的感染来源复杂，并且在检测方法上依赖于精细化的建模过程，通过机器学习方法在医学诊断与预测中得到广泛应用且取得不错的效果，例如，通过提供应用机器学习方法构建细菌性脓毒症患者的菌型预测模型，同时辅助医生进行病情严重程度的评估以及抗菌治疗；但是现有的检测过程繁琐，现有的训练模型相较于CAP的适配性交低，导致误差较大；而且利用常规学统计方法进行感染类型的检测耽误检测时间，影响检测效率。

发明内容

本发明的目的在于提供一种基于机器学习的社区获得性肺炎病原类型预测方法，解决以下技术问题：

怎样减少筛选最优病原类型预测模型误差并实现检测效率的优化。

本发明的目的可以通过以下技术方案实现：

一种基于机器学习的社区获得性肺炎病原类型预测方法，所述方法包括：

S1、收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集；

S2、将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型；

S3、对病原类型预测模型进行模型质量评估，根据模型质量评估结果获取最优病原类型预测模型；

S4、通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。

优选地，步骤S3中所述模型质量评估的方法为：

通过预设评估数据集获取质量评估指标参数；

所述质量评估指标参数包括ROC曲线的AUC值参数A_i、P-R曲线参数P_r、F1 score参数F_s；

根据质量评估指标参数获取评估策略；

依据评估策略结果获得最佳模型质量信息。

优选地，所述评估策略的获取方式为：

SS1、通过公式计算出质量评估系数M_coe，其中f为预设函数；α、β、γ为权重系数；且α、β、γ均大于0；P_r0为标准P-R曲线参数；F_s0为标准F1 score参数；

SS2、将质量评估系数M_coe与标准质量评估系数阈值[M₁，M₂]进行比对：

若M_coe∈[M₁，M₂]，则判断该模型合格，生成评估策略；若则进一步判断：

若M_coe＜M₁，则判断该模型不合格；

若M_coe＞M₂，则判断该模型数据异常，则进行模型调整。

优选地，步骤S3中所述最优病原类型预测模型的获取方法为：

获取筛选合格的病原类型预测模型ROC曲线；

并根据样本数据集数量计算ROC曲线的面积S_ROC；

计算S_ROC值与预设标准AUC值(记作S₀)进行大小比对：

若S_ROC≥S₀，则记录为备选最优病原类型预测模型，进行下一步；

若S_ROC＜S₀，则排除；

输出备选最优病原类型预测模型数量及类型，并筛选S_ROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。

优选地，所述样本数据集包括占样本数据集总量的80％训练集和20％测试集，所述训练集和测试集是随机划分的。

优选地，所述第一次训练包括通过数据处理库对训练集数据进行数据预处理；将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。

优选地，所述第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优，所述模型超参数搜索和调优的方法为：

运用多轮超参网络搜索获取所述模型超参数备选空间的一组备选超参；

然后使用这一组备选超参重新进行病原类型预测模型的训练，重复步骤S2-S4；

其中，超参调优在训练集上完成，并使用5折交叉验证的准确率作为性能指标；完成超参网格搜索后，选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。

优选地，还包括：

S5、通过调优病原类型预测模型对未知感染CAP病例数据分析并输出结果。

优选地，所述输出结果包括C反应蛋白(CRP)指标和降钙素原(PCT)指标：

同步进行CRP指标和PCT指标比较，比较范围包括：

(1)炎症标志物是否存在和变化值；

(2)细菌感染或病毒感染特异性数据变化值；

(3)炎症局部或者全身支持指标变化值；

根据比对值判断CAP病例感染病原类型。

本发明的有益效果：

(1)通过对病原类型预测模型进行模型质量评估过程，保证验证模型的准确性，具体通过设置质量评估指数参数并获取评估参数，保证通过评估参数情况筛选分析获取评估策略，细化模型筛选过程，简化病原类型预测模型质量评估步骤，保证提高检测效率，降低筛选误差。

(2)还通过根据模型质量评估结果中筛选合格的病原类型预测模型进行进一步评估，通过对当前样本数据集数量情况进行进一步验证，通过在当前样本数据集数量的下的匹配精确率最高的病原类型预测模型，保证最优病原类型预测模型的顺利筛选。

(3)本发明通过设置第一训练及第二训练过程，保证搜索筛选准确度最高的超参数，并在下一次最优病原类型预测模型的筛选更新，保证训练获得调优病原类型预测模型精度更加理想化。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于机器学习的社区获得性肺炎病原类型预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

随着医学技术的发展，病原体检测方法也在不断更新；现有的通过显微镜成像形态学观察依然是最为经济有效的病原体检测手段，然而患者CAP的感染来源复杂，并且在检测方法上依赖于精细化的建模过程，通过机器学习方法在医学诊断与预测中得到广泛应用且取得不错的效果，例如，通过提供应用机器学习方法构建细菌性脓毒症患者的菌型预测模型，同时辅助医生进行病情严重程度的评估以及抗菌治疗；但是现有的检测过程繁琐，现有的训练模型相较于CAP的适配性交低，导致误差较大；而且利用常规学统计方法进行感染类型的检测耽误检测时间，影响检测效率。为了解决上述技术问题，请参阅图1所示，本发明为一种基于机器学习的社区获得性肺炎病原类型预测方法，方法包括：

通过上述技术方案：基于机器学习方法的特点需要足够的数据进行训练获取有效的、高精度的模型，首先，收集CAP病案数据并根据数据样本确定样本特征和样本标签形成样本数据集，由于医疗检验结果数据较少地受到患者主观描述和医生主观判断的影响，能比较客观地反映病人的健康状况和病情，通过CAP医疗数据中筛选出样本数据集；通过医疗机构的医疗数据库中获取CAP患者的数据并根据数据模型的需要获取数据样本特征及样本标签，样本标签是确定CAP患者的细菌性感染还是病毒性感染及具体感染种类，根据感染情况生成标签列表，其中样本标签中仅包括与肺炎相关的标签，需要注意的是，根据临床病例情况，本实施例只考虑病毒或者细菌单纯感染病例，而暂不考虑混合感染病例。

然后将样本数据集输入机器学习模型进行第一次训练获得病原类型预测模型；样本数据集中包括样本特征，样本特征的确定和筛选是基于样本构造方式确定之后选定的，通过数据特征和数据标签确定之后进行训练机器学习模型的第一次训练，保证获得病原类型预测模型，从而保证病原类型预测模型的初步形成，进入下一步。

通过对病原类型预测模型进行模型质量评估，根据模型质量评估结果获取最优病原类型预测模型，通过对病原类型预测模型进行质量评估保证验证模型的准确性，由于病原类型预测模型的准确性验证的指标复杂，本实施例通过评估策略进行评判，具体的在下文解释；最后通过样本数据集输入最优病原类型预测模型进行第二次训练获得调优病原类型预测模型。

作为本发明的一种实施例，具体的，步骤S3中模型质量评估的方法为：

通过预设评估数据集获取质量评估指标参数；

质量评估指标参数包括ROC曲线的AUC值参数A_i、P-R曲线参数P_r、F1 score参数F_s；

根据质量评估指标参数获取评估策略；

依据评估策略结果获得最佳模型质量信息。

通过上述技术方案：由于病原类型预测模型的准确性验证的指标复杂，为了进一步对模型准确性进行精细化检测，本实施例通过预设评估数据集获取质量评估指标参数进行提前筛选，具体的，设置质量评估指标参数：ROC曲线的AUC值参数A_i、P-R曲线参数P_r、F1score参数F_s；由于评价指标的多样化，通过设置多样指标保证避免单一化的准确性判断影响整体模型的精确性，其中，AUC是一种衡量机器学习模型分类性能的重要且常用的指标；F1 score可以解释为精确率和召回率的加权平均值，利用构建多组精确率和召回率，绘制出模型的P-R曲线；对上述指标进行参数化处理，这里的是通过医院关于质量评估指标处理标准获得质量评估指标参数；通过根据质量评估指标参数获取评估策略；然后依据评估策略结果获得最佳模型质量信息。

作为本发明的一种实施例，具体的，评估策略的获取方式为：

若M_coe∈[M₁，M₂]，则判断该模型合格，生成评估策略；

若则进一步判断：

若M_coe＜M₁，则判断该模型不合格；

若M_coe＞M₂，则判断该模型数据异常，则进行模型调整。

通过上述技术方案：为了获得评估策略，根据上述的三个质量评估指标参数进行分析，通过公式计算出质量评估系数M_coe，其中f为预设函数，预设函数f为根据评估体系的历史数据情况设定的一个调整函数，保证调整系数在特定合理的区间范围；α、β、γ为权重系数；且α、β、γ均大于0；P_r0为标准P-R曲线参数；F_s0为标准F1 score参数；其中，P_r0、F_s0是根据模型准确性判定的经验数据库中选定的。

通过将质量评估系数M_coe与标准质量评估系数阈值[M₁，M₂]进行比对大小，如果M_coe属于标准质量评估系数阈值范围内，则判断该模型合格，生成评估策略；如果M_coe不属于标准质量评估系数阈值，则进行进一步判断：如果M_coe小于M₁，则判断该模型不合格；如果M_coe大于M₂，则判断该模型数据异常，则进行模型调整。

需要注意的是，本实施例通过设定的阈值进行判断过程，避免当对病原类型预测模型进行评估时，由于原先数据模型在训练过程中的运行错误等其他原因导致训练模型与预测模型相差较大，并且严重影响下一步的评估结果，进行提前排查排除误差；而细化分析后，对于超出预测范围的结果进行进一步的分析，考虑到模型问题，比如模型超参数优化不到位问题等，通过进一步优化可以再次筛选，保证本实施的筛选结果的精确性。

作为本发明的一种实施例，具体的，步骤S3中最优病原类型预测模型的获取方法为：

获取筛选合格的病原类型预测模型ROC曲线；

并根据样本数据集数量计算ROC曲线的面积S_ROC；

计算S_ROC值与预设标准AUC值(记作S₀)进行大小比对：

若S_ROC＜S₀，则排除；

通过上述技术方案：根据模型质量评估结果中筛选合格的病原类型预测模型进行进一步评估，通过对当前样本数据集数量情况进行进一步验证，通过在当前样本数据集数量的下的匹配精确率最高的病原类型预测模型，根据样本数据集数量计算ROC曲线的面积S_ROC即为当前模型的AUC值，通过将当前AUC值(S_ROC)与预设标准AUC值(S₀)进行大小比对获取最优病原类型预测模型，具体通过筛选合格的病原类型预测模型ROC曲线；并根据样本数据集数量计算ROC曲线的面积S_ROC；通过计算S_ROC值与预设标准AUC值(记作S₀)进行大小比对：如果S_ROC≥S₀，则记录为备选最优病原类型预测模型，进行下一步；如果S_ROC＜S₀，则排除；然后输出备选最优病原类型预测模型数量及类型，并筛选S_ROC最大的备选最优病原类型预测模型记为最优病原类型预测模型。

作为本发明的一种实施例，具体的，样本数据集包括占样本数据集总量的80％训练集和20％测试集，训练集和测试集是随机划分的。

通过上述技术方案：为了兼顾模型的训练和准确率的验证，本实施例将样本数据集以80％/20％的比例被随机划分为训练集和测试集；其中，训练集用于模型训练，而测试集用于模型性能评估并进行不同模型的性能对比分析。

作为本发明的一种实施例，具体的，第一次训练包括通过数据处理库对训练集数据进行数据预处理；将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。

通过上述技术方案：在准备好数据样本后，就可以选择合适的机器学习模型并在训练数据上训练模型，本实施的训练方式有两次，但是可以根据实际要求进行多次训练，训练方式可以依据动态数据更新情况进行调整，调整到合适的状态获得较高精确度的病原类型预测模型，其中第一次训练包括通过数据处理库对训练集数据进行数据预处理，本实施例通过scikit-learn机器学习库，并使用了pandas数据处理库完成了数据预处理，本实施例通过将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型，本实施例选择了随机森林、梯度提升决策树(GBDT)、支持向量机(SVM)模型，当然这里不限于当前模型，可以根据实际需要设定。

作为本发明的一种实施例，具体的，第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优，模型超参数搜索和调优的方法为：

运用多轮超参网络搜索获取模型超参数备选空间的一组备选超参；

通过上述技术方案：由于病理学研究的复杂性，现实采取的数据的复杂性，在大多数情况下，实施例中所使用的scikit-learn库所提供的默认模型超参数并不能达到最佳的性能，需要对模型超参数进行进一步调优；通过设置第二次训练，第二次训练基于测试集数据情况对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优，具体的运用多轮超参网络搜索获取模型超参数备选空间的一组备选超参；然后使用这一组备选超参重新进行病原类型预测模型的训练，重复步骤S2-S4。

需要注意的是，超参调优在训练集上完成，并通过使用5折交叉验证的准确率作为性能指标；完成超参网格搜索后，本实施例选择准确率最高的超参数作为第二次训练的病原类型预测模型最新超参数。

作为本发明的一种实施例，具体的，还包括：

通过上述技术方案：为了保证对调优病原类型预测模型的评估结果进行最后验证，通过增加步骤S5对当前感染CAP病例数据情况进行检测并输出检验结果：根据其临床表现特征数据和医疗检验结果数据，预测其病原体类型，本实施例中，检验获得的支持向量机(SVM)模型的性能表现最好，准确率达到了0.80，而AUC值为0.85。

作为本发明的一种实施例，具体的，输出结果包括C反应蛋白(CRP)指标和降钙素原(PCT)指标：

同步进行CRP指标和PCT指标比较，比较范围包括：

(1)炎症标志物是否存在和变化值；

(2)细菌感染或病毒感染特异性数据变化值；

(3)炎症局部或者全身支持指标变化值；

根据比对值判断CAP病例感染病原类型。

通过上述技术方案：临床上通常通过C反应蛋白(CRP)、降钙素原(PCT)等关键指标来判断病人的感染类型和病情，通过设定输出结果，具体根据C反应蛋白(CRP)指标和降钙素原(PCT)指标并对RP指标和PCT指标进行比对大小；其中，降钙素原的达峰时间约为12小时，C反应蛋白的达峰时间为24-48小时。

具体比对大小的内容包括：炎症标志物是否存在和变化值，若存在则判断患者已经感染CAP，进一步判断，细菌感染或病毒感染特异性数据变化值，当细菌感染时，PCT指标发生变化，比如PCT值特异性升高，且升高幅度与疾病的严重程度是正相关，而CRP仅与炎症反应相关，且升高幅度与疾病的严重程度无明显的关系；当病毒感染时，CRP指标发生变化，而PCT指标变化不明显；炎症局部或者全身支持指标变化值，通过CRP指标和PCT指标变化判断炎症局部或者全身，例如，局部感染CRP升高，PCT变化不明显；根据输出结果通过CRP和PCT的同步检测结果能直接区分细菌性和病毒性肺炎并，从而辅助缺乏经验的医生诊断和治疗社区获得性肺炎。

以上内容仅仅是对本发明的构思所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的构思或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，步骤S3中所述模型质量评估的方法为：

通过预设评估数据集获取质量评估指标参数；

根据质量评估指标参数获取评估策略；

依据评估策略结果获得最佳模型质量信息。

3.根据权利要求2所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述评估策略的获取方式为：

若M_coe∈[M₁，M₂]，则判断该模型合格，生成评估策略；

若则进一步判断：

若M_coe＜M₁，则判断该模型不合格；

若M_coe＞M₂，则判断该模型数据异常，则进行模型调整。

4.根据权利要求3所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，步骤S3中所述最优病原类型预测模型的获取方法为：

获取筛选合格的病原类型预测模型ROC曲线；

并根据样本数据集数量计算ROC曲线的面积S_ROC；

计算S_ROC值与预设标准AUC值S₀进行大小比对：

若S_ROC＜S₀，则排除；

5.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述样本数据集包括占样本数据集总量的80％训练集和20％测试集，所述训练集和测试集是随机划分的。

6.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述第一次训练包括通过数据处理库对训练集数据进行数据预处理；将预处理后的数据通过现有机器学习算法库输入不同的机器学习模型进行训练获取病原类型预测模型。

7.根据权利要求3所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述第二次训练包括对最优病原类型预测模型及步骤SS2中数据异常模型进行模型超参数搜索和调优，所述模型超参数搜索和调优的方法为：

8.根据权利要求1所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，还包括：

9.根据权利要求8所述的一种基于机器学习的社区获得性肺炎病原类型预测方法，其特征在于，所述输出结果包括C反应蛋白CRP指标和降钙素原PCT指标：

同步进行CRP指标和PCT指标比较，比较范围包括：

炎症标志物是否存在和变化值；

细菌感染或病毒感染特异性数据变化值；

炎症局部或者全身支持指标变化值；

根据比对值判断CAP病例感染病原类型。