CN115019916A

CN115019916A - 血流感染致病菌预测方法及系统

Info

Publication number: CN115019916A
Application number: CN202210587105.6A
Authority: CN
Inventors: 王昊; 苏腾; 姬冰; 刘力瑜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-06

Abstract

本发明涉及血流感染致病菌预测方法及系统，包括以下步骤：获取输入特征并预处理，输入特征为体检数据；从预处理的输入特征中筛选出最优输入特征形成输入特征集，经预测模型输出预测结果；其中，预测模型为，以多个并联的第一分类器作为预测模型的基分类器，以代价敏感的决策树作为每一个第一分类器的基分类器，单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。通过血流感染患者体检数据与致病菌中的阳性和阴性菌间的联系构建预测模型，在不增加额外成本的同时，实现对样本中血流感染致病菌的预测。

Description

血流感染致病菌预测方法及系统

技术领域

本发明涉及数据分类技术领域，具体为血流感染致病菌预测方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

血流感染是败血症和感染性休克的主要病因，选择适当的抗菌剂能够应对血流感染带来的危害，随着微生物对抗菌剂的耐药性日益增加，目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式，通过鉴定阳性的致病性微生物来选择适当的抗菌剂，但该种方式耗时较高，且鉴定出的阳性准确率不高，而基于PCR(聚合酶链反应)的检测虽然检测耗时相对更短，但受到PCR探针数量和样本数量的限制，难以大规模应用在血流感染革兰氏阳性菌检测上。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供血流感染致病菌预测方法及系统，通过挖掘血流感染患者体检数据指标与致病菌间的联系，旨在不增加额外成本的同时，以机器学习的方式实现对样本数据中血流感染致病菌中的阳性菌、阴性菌及真菌的准确筛选。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供血流感染致病菌预测方法，包括以下步骤：

获取输入特征并预处理，输入特征为体检数据；

从预处理的输入特征中筛选出最优输入特征形成输入特征集，经预测模型输出预测结果；

其中，预测模型为，以多个并联的第一分类器作为预测模型的基分类器，以代价敏感的决策树作为每一个第一分类器的基分类器，单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。

第一分类器为AdaBoost分类器。

获取输入特征并预处理，输入特征为体检数据包括，根据预处理之后的特征判断是否具有完整的模型输入指标，且这些指标是否为设定时间段内获得，若满足则将预处理之后的特征输入预测模型得到预测结果。

预处理包括，删除数据缺失比率超过设定值的特征和具有缺失值的样本；通过特征的箱体图或散点图，将离群点视为异常值并删除。

预测模型输入特征为筛选出的所有最优特征。

预测模型的训练过程包括：

获取血流感染患者体检数据并进行预处理，删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征；

检验并删除所选择的特征组间存在差异系数大于设定值的连续特征；

检验并删除在两组别间的差异系数大于设定值的性别特征；

检验并删除特征间相关系数|γ|>0.8的特征；

将检验后的剩余特征数据数据分布缩放为标准正态分布并划分为训练集和测试集；

输入训练集和测试集完成预测模型的训练。

本发明的第二个方面提供实现上述方法的系统，包括：

预处理模块，配置为：获取输入特征并预处理，输入特征为体检数据；

预测输出模块，配置为：从预处理的输入特征中筛选出最优输入特征形成输入特征集，经预测模型输出预测结果；

其中，其中，预测模型为，以多个并联的第一分类器作为预测模型的基分类器，以代价敏感的决策树作为每一个第一分类器的基分类器，单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积，第一分类器为AdaBoost分类器。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的血流感染致病菌预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的血流感染致病菌预测方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、通过血流感染患者体检数据与致病菌中的阴性菌、阳性菌和真菌间的联系构建预测模型，在不增加额外成本的同时，实现对样本数据中血流感染致病菌的阳性菌、阴性菌和真菌的预测，进而实现样本中致病菌的筛查。

2、利用集成模型作为预测模型，多个并联的AdaBoost分类器作为预测模型的基分类器形成第一层模型的集成，样本中的数据采样后先输入到多个并联的AdaBoost分类器中，而每一个AdaBoost分类器自身又是一个集成模型，其基分类器为代价敏感的决策树，也就形成了第二层集成，经预处理后的全部特征输入集成的模型后，使得得到的结果更加完善且准确率更高，能够预测出样本数据中的阳性菌、阴性菌和真菌，从而以机器学习的方式实现对样本中致病菌的筛查。

3、预测模型处理特征剔除后的各个数据集时，分别由每一个Ad aBoost分类器来处理，该分类器会根据分类结果调节样本权重，直至获得较好的结果，并且每一个AdaBoost分类器的基分类器为代价敏感的决策树，会根据各类输入样本数量生成各类的权重，其误分类的代价将根据在基分类器中的样本权重计算，随后根据分类结果调节样本权重，从而获得更加准确的结果。

4、为提高模型性能，采用网格搜索对模型的超参数进行优化，并对输入的特征进行选择，从而降低特征维度，提高了模型的泛化能力，达到了更好的预测效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的血流感染致病菌阳性菌、阴性菌和真菌的预测方法流程图；

图2是本发明一个或多个实施例提供的预测方法中特征相关性热力图；

图3是本发明一个或多个实施例提供的预测方法中模型训练的流程图；

图4是本发明一个或多个实施例提供的利用训练完毕的模型实现预测的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术中所描述的，目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式，通过鉴定阳性的致病性微生物来选择适当的抗菌剂，样本来自于血流感染患者体内，其中具有的血细胞计数，急性期蛋白以及电解质等参数是实验环境下容易获得的数据，这些数据中包含着有关败血症和感染性休克的特征，利用机器学习的方式，能够将样本中引发败血症和感染性休克的阳性菌、阴性菌和真菌进行预测和分类，从而加快致病性微生物的检出速度。

预后是指预测疾病的可能病程和结局，血流感染患者的样本中，同样能够可以以机器学习的方式，来预测疾病的可能病程和结局。

因此，以下实施例给出了对样本中引发血流感染的革兰氏阳性菌、阴性菌和真菌的预测方法及系统，通过挖掘血流感染患者体检数据指标与致病菌种间的联系，选取了预测模型，旨在不增加额外成本的同时，以机器学习的方式实现对样本中阳性菌、阴性菌和真菌的预测。

实施例一：

如图1-4所示，血流感染三种菌类的预测方法，包括以下步骤：

步骤1：接收输入特征，输入特征为患者的体检数据；

步骤2：对输入特征进行数据清洗、显著性与相关性检测及数据标准化预处理；

步骤3：从预处理的输入特征中筛选出各层最优输入特征并形成输入特征集，经预测模型输出预测结果；

具体的：

预测模型的输入特征为筛选出的所有最优特征，本实施例的预测模型的优化过程同时进行超参数优化。

在优化分类器之前，采集样本数据，样本数据包括血培养特征、肝功能特征等，研究对象选取的血流感染患者；将提取的特征数据进行处理，构建数据队列；对分类器采用10次十折交叉验证评估模型的性能。

关于预测模型如下：

1.获取研究对象的指标信息

研究对象均为血流感染患者；本实施例共采用2118个样本，均来源于MIMIC数据库。

指标信息包括BaseExcess(碱剩余)，FreeCalcium(游离钙)，Lactate(乳酸盐)，pCO2(二氧化碳分压)，pH，pO2(氧分压)，％HemoglobinA1c(糖化血红蛋白)，25-OHVitaminD(25羟维生素D)，AlanineAminotransferase(ALT丙氨酸氨基转移酶)，Albumin(白蛋白)，AlkalinePhosphatase(碱性磷酸酶)，Alpha-Fetoprotein(甲胎蛋白)，Ammonia(氨)，AsparateAminotransferase(AST谷草转氨酶)，Bicar bonate(碳酸氢盐)，BilirubinDirect(直接胆红素)，BilirubinInd irect(间接胆红素)，BilirubinTotal(总胆红素)，C-ReactiveProtei n(C-反应蛋白)，C3(β1C-球蛋白)，C4(β1E-球蛋白)，Calciu m Total(总钙)，Chloride(氯化物)，CholesterolTotal(总胆固醇)，CreatineKinase(CK肌酸激酶)，CreatineKinaseMBIsoenzyme(肌酸激酶MB同工酶)，Creatinine(肌氨酸酐)，D-Dimer(D-二聚体)，Ferritin(铁蛋白)，Glucose(葡萄糖)，HIVAntibody(HIV抗体)，ImmunoglobulinA(免疫球蛋白A)，ImmunoglobulinG(免疫球蛋白G)，ImmunoglobulinM(免疫球蛋白M)，Iron，LactateDehydrogen ase(LD乳酸脱氢酶)，Lithium(锂)，Magnesium(镁)，NTproBNP(N末端前脑钠肽)，Phosphate(磷酸盐)，Potassium(钾)，Sodi um(钠)，Thyroxine(T4)Free(脱甲氧嘧啶)，Triglycerides(三甘油三酯)，Triiodothyronine(T3三碘甲状腺氨酸)，TroponinI(肌钙蛋白I)，TroponinT(肌钙蛋白T)，UreaNitrogen(尿素氮)，Vitami nB12(维生素B12)，AbsoluteCD3Count(CD3绝对计数)，Absolut eCD4Count(CD4绝对计数)，AbsoluteCD8Count(CD8绝对计数)，AbsoluteLymphocyteCount(绝对淋巴细胞计数)，Antithrombin(抗凝血酶)，Basophils(嗜碱粒细胞)，CD10(脑啡肽酶)，CD103，CD117，CD11c(整合素αX)，CD13(氨肽酶N)，CD138，CD14(LPS和LBP复合物的受体)，CD15(岩藻糖基转移酶)，CD16/56，CD16(低亲和力Fc受体)，CD16/56AbsoluteCount(CD16/56绝对计数)，CD16/56％(CD16/56百分比)，CD19(B淋巴细胞表面抗原B4)，CD19％(B淋巴细胞表面抗原B4百分比)，CD19AbsoluteCount(B淋巴细胞表面抗原B4绝对计数)，CD2(绵羊红细胞受体)，CD20(B淋巴细胞表面抗原B1)，CD20％(CD20百分比)，CD20AbsoluteCount(CD20绝对计数)，CD22(T细胞表面抗原Leu-14)，CD23(低亲和免疫球蛋白εFc受体)，CD25(TAC抗原)，CD3％(CD3百分比)，CD3AbsoluteCount(CD3绝对计数)，CD3CellsPercent(CD3细胞百分比)，CD33(唾液酸结合性免疫球蛋白样凝集素3)，CD34，CD38(ADP核糖环化酶1)，CD4CellsPercent(CD4细胞百分比)，CD4/CD8Ratio(CD4与CD8bilv)，CD41(整合素α-IIb)，CD45(白细胞共同抗原)，CD5，CD5％(CD5百分比)，CD5AbsoluteCount(CD5绝对计数)，CD55(补体衰变加速因子)，CD56，CD57(人类自然杀伤细胞1)，CD59(MAC-抑制蛋白)，CD64(IgG Fc受体I)，CD7，CD71(转铁蛋白受体蛋白1)，Eosinophils(嗜酸性细胞)，HLA-DR(人白细胞DR抗原)，INR(PT)，Lymphocytes(淋巴细胞)，MCH(红细胞平均血红蛋白量)，MCHC(红细胞平均血红蛋白浓度)，MCV(红细胞平均体积)，MonocyteCount(单核细胞计数)，Neutrophils(中性粒(白)细胞)，PlateletCount(血小板计数)，PT(血浆凝血酶原时间)，PTT(部分凝血活酶时间)，RedBloodCells(红细胞)，ReticulocyteCountAbsolute(网细胞绝对计数)，WBCCount(白细胞计数)，WhiteBloodCells(白血球)。其中的CD为白细胞分类抗原。

2.将获取的数据进行处理，确定模型的输入参数。

特征处理主要包括数据清洗和统计学分析。检验所选择的特征组间存在差异的连续特征，检验性别特征在两组别间的差异性，检验判断特征间的相关性；将检验后的剩余特征数据数据分布缩放为标准正态分布，采用随机森林分类器得到分类结果。

检验判断特征间的相关性，包括删除特征间相关系数|γ|>0.8的全部特征。

具体的：

获取的数据除性别外均为连续特征，用0、1分别表示女性、男性。

数据清洗主要包括缺失值处理和异常值处理；对缺失比率超过40％的特征和具有缺失值的样本做删除处理；通过绘制特征的箱体图或散点图查看特征值的分布情况，将离群点视为异常值并做删除处理。本实施例中，有80个特征样本缺失率超过40％，故选取剩余的27个特征。

采用统计学方法剔除三类间无显著差异及特征间高度相关的特征，特征相关性如图2所示，从而降低输入特征的空间维度，降低模型过拟合的风险。

本实施例中，27个特征统计学检验信息如表1所示：

表1：27个特征的统计学检验信息

通过统计学差异性分析可以得出体检数据与阴阳性菌的联系，即表1的p值，采用Kruskal-Wallis H检验方法，检验选择组间存在显著差异的连续特征。采用卡方检验方法，检验性别特征在两组别间是否有显著差异，显著性水平p＝0.05。采用Pearson相关性检验判断特征间的相关性，特征间Pearson相关系数|γ|>0.8的特征全部删除。经统计学检验后，特征数降为13。

由于模型对特征量纲敏感，故对选择出有显著差异的连续特征做标准化处理，将数据分布缩放为标准正态分布，以消除不同特征间量纲的影响，特征标准化的转换公式为：

其中，X_new、X、μ、σ分别表示转换后的特征值、原特征值、特征总体均值、特征总体标准差。

对离散型特征采用OneHot编码，避免对无序特征进行排序。

3.使用分类器，得到预测结果。

选取代价敏感的随机森林、EasyEnsemble、RUSBoost、AdaBoos t(AdaptiveBoosting)分类器和本实施例中的预测模型进行对比，分类器的优化是使用网格搜索法同时进行模型超参数优化，根据模型的分类效果选择最优参数。

随机森林是一种基于决策树的集成学习方法，可以解决非线性分类问题。代价敏感是指不同类的错分类代价不同，以纠正模型对于多数样本类的预测倾向。随机森林需要优化的参数包括决策树的个数、最大特征数、决策树最大深度、节点最小可分样本数。决策树的个数太小容易欠拟合，太大不能显著的提升模型。最大特征数太小导致性能差，太大导致计算量过大。决策树深度、节点最小可分样本数的设定不当都会导致欠拟合或过拟合。本实施例设定决策树的个数范围为[50,400],精度为50；最大特征数的范围为1到样本特征数取根号，精度为1；决策树最大深度的范围为[5,20],精度为2；节点最小可分样本数对样本量的百分比范围为[0.01,0.02],精度为0.002。

Easyensemble是一种针对不平衡数据的集成学习方法，先对数据量大的类进行有放回的欠采样，形成许多个数据集，使得数据集的各类数据样本量均衡，每个数据集都用于对AdaBoost模型的训练，最后对多个模型的输出结果进行投票操作，确定最后的预测结果。需要优化的参数包括模型数量和学习率。模型数量过多或学习率过小都会导致训练时间过长，模型数量过少或学习率过大会导致准确率的降低。本实施例设定模型的个数范围为[10,100],精度为10；学习率的范围为0.1到1，精度为0.1。

RUSBoost是一种针对不平衡数据的集成学习方法，先对数据进行随机欠抽样，随机从数据集中抽取一定量的多数类样本和少数类组成平衡分布的训练数据集，每个数据集都用于对AdaBoost.M2模型的训练，最后对多个模型的输出结果进行投票操作，确定最后的预测结果。需要优化的参数包括模型数量和学习率。模型数量过多或学习率过小都会导致训练时间过长，模型数量过少或学习率过大会导致准确率的降低。本实施例设定模型的个数范围为[10,100],精度为10；学习率的范围为0.1到1，精度为0.1。

AdaBoost是集成学习模型，通过不断修改样本权重，对基分类器进行增强，本实施例采用决策树作为基分类器，需要调整的超参数为学习率和基模型数量。学习率过大训练速度很快，但是误差会变大，学习率过小误差小但是训练速度很慢。本实施例设定学习率范围为[0.2,0.7],基模型数量为[10,100].

本实施例的预测模型为集成模型，具体的：

预测模型为，以多个并联的AdaBoost分类器作为预测模型的基分类器，每一个AdaBoost分类器的基分类器为代价敏感的决策树，单个样本的错分类权重为AdaBoost分类器的样本权重与在决策树中错分类的类权重之间的乘积。

其中，预测模型具有多个并联的基分类器，如图3所示，也就是多个并联的AdaBoost分类器形成第一层模型的集成，样本中的数据采样后先输入到多个并联的AdaBoost分类器中；而每一个AdaBoost分类器自身又是一个集成模型，其基分类器为代价敏感的决策树，也就形成了第二层集成，AdaBoost分类器如图4所示。

具体如下：

首先对输入的不平衡的类别数据样本做有放回的采样，该采样过程不区分各类样本，生成若干个数据集，然后一一验证采样后的数据集各类比例，若采样后的某一数据集不平衡问题加重(多数类的样本数量/少数类的样本数量变大)，则去除该数据集并重新采样，最后生成指定数量(该数量可调节)的数据集。

然后对新生成的各个数据集进行随机特征剔除，该过程只剔除少量特征，保留的特征比例在70％以上，避免丢失过多信息，最后保留的特征数量可根据最后的准确率调节。上述两个抽样环节增加了数据的多样性，有利于集成模型性能的提升。

将特征剔除后的各个数据集分别输入到每一个AdaBoost分类器中，初始样本权重都为1，该分类器会根据分类结果调节样本权重，直至获得较好的结果。

每一个AdaBoost分类器的基分类器为代价敏感的决策树，该基分类器会根据各类输入样本数量生成各类的权重，针对每个样本来说，其在基分类器中的样本权重＝其在AdaBoost分类器中的样本权重*该样本对应的类权重，其误分类的代价将根据在基分类器中的样本权重计算，随后根据分类结果调节样本权重。

在各个AdaBoost分类器训练完成后，将这些分类结果的分类概率取均值，即软投票，获取最终的预测结果。

整个模型的样本采样比例为1，特征保留数量为11，数据集数量为50，该模型需要进行超参数优化，上述参数为根据验证集使用网格搜索法优化后的结果。

每个Adaboost分类器都需要进行超参数优化，采用网格搜索法进行超参数优化，优化过程中对分类器采用10次十折交叉验证评估模型的性能。每个分类器优化后的超参数都可能不相同。

使用代价敏感的决策树作为基分类器，为了防止过拟合，设置决策树最大深度为2。由于最大深度设置很小，故不对其它剪枝的超参数做限制。代价敏感是指不同类的错分类代价不同，以纠正模型对于多数样本类的预测倾向。各类错分类代价根据输入各类的样本数量比例计算得来。单个样本的权重等于AdaBoost分类器的样本权重乘上该类的错分类权重。

决策树是一种经典的机器学习有监督分类算法，是非线性分类器，代表的是对象属性与对象值之间的一种映射关系。具有预测时执行效率高、可解释性强的优点，受数据不平衡的影响较小，常被用于不平衡集成模型的基分类器。

使用网格搜索法进行超参数优化，网格搜索法是指定参数值的一种穷举搜索方法，通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。

对样本中的阳性菌和阴性菌实现预测的过程是针对不平衡数据的分类过程，因此使用的模型适用于不平衡数据的情况。

十折交叉验证是机器学习中常用的一种避免模型过拟合的方法，该方法将训练集划分成样本量相等的十份，并依次选择其中的九份进行模型的训练，剩余的一份作为测试，重复十次，保证所有的样本都用于了一次且仅一次的测试；取十次测试的结果作为模型的评价。

为了确定最优超参数，需要定义一个指标来定义模型效果的优劣；在医疗诊断中，最常见的评价指标是敏感性(sensitivity)和特异性(specificity)，为了综合衡量两者的大小，本实施例使用AUC面积作为指标，敏感性、特异性和score的定义是如下式所示：

其中，TN、TP、FN、FP分别表示真阴性、真阳性、假阴性、假阳性，是由混淆矩阵得出，混淆矩阵如表3所示：

表3：模型分类的混淆矩阵

准确率(accuracy)的定义如下式所示：

ROC分析也是一种常用的评价指标，以假阳性率(False Positive Rate,FPR)为横轴，以真阳性率(True Positive Rate,TPR)为纵轴，通过不断地降低分类阈值，描绘出一条曲线；为客观的评价ROC的效果，以ROC曲线的面积(Area Under Curve,AUC)来表示。真阳性率和假阳性率的定义式如下式所示：

F1-score是分类问题的一个衡量指标，它是精确率和召回率的调和平均数，最大为1，最小为0。

G分数是另一种统一精确率和的召回率系统性能评估标准，G分数被定义为召回率和精确率的几何平均数。

G＝√precision·recall

其中，精准度(precision)：指被分类器判定正例中的正样本的比重

召回率(recall)：指的是被预测为正例的占总的正例的比重

对于三分类问题，上述指标也同样适用，对某一类，计算该类与非该类的二分类指标，再将三类的指标平均就得到最终的指标。

本实例通过上述步骤使用分类器对革兰氏阳性阴性菌进行分类进而实现样本中阳性菌阴性菌的预测；同时，为避免样本顺序对分类器的影响，将数据集随机打乱十次，选取在十个数据集上平均分类性能最优的个体作为模型的最优解。

对比四种算法的指标与集成模型的指标，发现集成模型的性能优于其它分类器。

5.使用参数优化和特征选择的分类器，得到分类结果。参数优化的过程如上述采用网格搜索法进行超参数优化的过程相同。

本实施例通过挖掘体检数据中的有效信息，在不增加额外费用的条件下实了对阳性菌、阴性菌和真菌菌种的筛查。

预测模型采用集成模型，输入特征是经预处理后的全部特征，更加完善使得准确率更高，从而能够预测出血流感染致病菌中的阳性、阴性和真菌。

实施例二

本实施例提供了一种血流感染革兰氏阳性阴性菌、真菌预测系统，其包括：

(1)输入特征接收模块，其用于接收输入特征，输入特征分别为个体信息和实验室检查指标。

个体信息包括年龄、性别。

实验室检查指标为实施例一的指标信息。

(2)预处理模块，其用于对输入特征进行数据清洗、显著性与相关性检测及数据标准化预处理。

具体地，对提取特征的处理主要包括缺失值和异常值处理，以及采用统计学方法选择在革兰氏阳性、阴性间和真菌样本间有显著差异的特征；具体方法是分别采用用Kruskal-Wallis H检验方法和卡方检验分别比较连续特征和类别特征在两组间的差异，采用Pearson相关性检验检测连续特征间的相关性；显著性水平p＝0.05，Pearson相关系数|γ|＝0.8；对类别特征进行OneHot编码，避免对无序特征进行排序；对连续特征做标准化处理，将特征数据转化为标准正态分布。

特征处理主要包括数据清洗和统计学分析。

数据清洗主要包括缺失值处理和异常值处理；对缺失比率超过40％的特征和具有缺失值的样本做删除处理；通过绘制特征的箱体图或散点图查看特征值的分布情况，将离群点视为异常值并做删除处理。

采用统计学方法剔除在三类之间无显著差异及特征间高度相关的特征，从而降低输入特征的空间维度，降低模型过拟合的风险。

(3)预测输出模块，其用于从预处理的输入特征中筛选出最优输入特征并形成输入特征集，经预测模型输出预测结果；

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一中提出的血流感染致病菌预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上述实施例一提出的血流感染致病菌预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.血流感染致病菌预测方法，其特征在于：包括以下步骤：

获取输入特征并预处理，输入特征为体检数据；

2.如权利要求1所述的血流感染致病菌预测方法，其特征在于：所述第一分类器为AdaBoost分类器。

3.如权利要求1所述的血流感染致病菌预测方法，其特征在于：预测模型输入特征为筛选出的所有最优特征。

4.如权利要求1所述的血流感染致病菌预测方法，其特征在于：预处理的过程，包括：

删除数据缺失比率超过设定值的特征和具有缺失值的样本；

通过特征的箱体图或散点图，将离群点视为异常值并删除。

5.如权利要求4所述的血流感染致病菌预测方法，其特征在于：预处理的过程，还包括：

根据预处理之后的特征判断是否具有完整的模型输入指标，且这些指标是否为设定时间段内获得，若满足则将预处理之后的特征输入预测模型得到预测结果。

6.如权利要求1所述的血流感染致病菌预测方法，其特征在于：预测模型的训练过程包括：

获取血流感染患者体检数据，删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征；

检验并删除所选择的特征组间存在差异系数大于设定值的连续特征。

7.如权利要求6所述的血流感染致病菌预测方法，其特征在于：预测模型的训练过程还包括：

检验并删除在两组别间的差异系数大于设定值的性别特征；

检验并删除特征间相关系数|γ|>0.8的特征；

输入训练集和测试集完成预测模型的训练。

8.一种血流感染致病菌预测系统，其特征在于：包括：

预处理包括，删除数据缺失比率超过设定值的特征和具有缺失值的样本；通过特征的箱体图或散点图，将离群点视为异常值并删除；

其中，预测模型为，以多个并联的第一分类器作为预测模型的基分类器，以代价敏感的决策树作为每一个第一分类器的基分类器，单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积；第一分类器为AdaBoost分类器。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的血流感染致病菌预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的血流感染致病菌预测方法中的步骤。