CN117612747B

CN117612747B - 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置

Info

Publication number: CN117612747B
Application number: CN202410095751.XA
Authority: CN
Inventors: 高俊莉; 童明杰; 高俊顺; 彭小军; 王炜欣; 张晓惠; 关虹
Original assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Current assignee: Hangzhou Guangke Ander Biotechnology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-05-03
Anticipated expiration: 2044-01-24
Also published as: CN117612747A

Abstract

本发明公开了一种针对肺炎克雷伯菌的药物敏感性预测方法及装置，该方法包括：首先将携带药物敏感性标记的分离菌株作为检测样本，基于每个检测样本对应的质谱特征峰，获得若干检测样本对应的所有质谱特征峰，生成特征峰数据集；其次将特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；之后对训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；最后基于目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。由此，不仅提高了药物敏感性预测模型训练的准确度，而且提高了待测分离菌株药物敏感性的预测效率。

Description

一种针对肺炎克雷伯菌的药物敏感性预测方法及装置

技术领域

本发明属于生物医学的技术领域，尤其涉及一种针对肺炎克雷伯菌的药物敏感性预测方法及装置。

背景技术

欧洲疾病控制中心ECDC、疾病控制与预防中心CDC和世界卫生组织等不同组织将能够产生碳青霉烯酶的肺炎克雷伯菌CPK的日益增多视为全球健康问题。β-内酰胺是最常用于治疗肠杆菌引起的感染的抗生素，然而经过大量验证发现碳青霉烯酶可以对几乎所有可用的β-内酰胺产生耐药性，因此，早期识别肺炎克雷伯菌CPK的耐药性对于改善治疗方案非常重要。

抗菌药物耐药性的检测通常基于广泛认可的全基因组测序WGS技术。在利用WGS技术进行抗菌药物耐药性检测时，通常需要先分离细菌，然后对细菌进行体外扩大培养，之后对培养的细菌提取DNA后进行基因组测序以获得细菌的完整基因组序列，最后基于完整基因组序列确定细菌的耐药性；由此，在采用WGS技术进行耐药性检测时从样本采集到输出耐药性报告的时间可能长达48至72小时；而使用基质辅助激光解析串联飞行时间质谱仪MALDI-TOF-MS进行耐药性的检测时，在短短几分钟内就能表征单个细菌物种耐药性。因此WGS技术比基质辅助激光解吸/电离飞行时间MALDI-TOF技术更耗时、更昂贵。

与WGS等分子技术不同，MALDI-TOF技术已在许多临床微生物学实验室中实施。直接从MALDI-TOF质谱中提取附加信息也可以检测抗菌素耐药性，例如：在抗生素耐药性检测领域，MALDI-TOF-MS最初用于检测与耐药性相关的标记物；然而由于缺乏针对所有潜在病原体和药物组合的全面且可靠的标记物目录，导致转向更复杂的方法。

目前，加快程序和增加结果可追溯性的需要使得临床实验室对抗菌素耐药性检测的需求越来越大。人们开始探索机器学习工具，机器学习工具（例如：神经网络、支持向量和随机森林等）是强大的分类系统，已用于健康科学（例如：癌症基因组学）。随着高通量技术的进步产生大量数据，这种分类特征适合应用于基于蛋白质组学的临床微生物诊断。虽然现有技术中已经开发了几种基于MALDI-TOF-MS的程序和数据分析程序。然而，这些技术的生物学和技术再现性仍然存在一些不一致的地方。此外，缺乏通用的参考质谱数据库限制了MALDI-TOF-MS作为一线临床工具的整体适用性。

发明内容

针对现有技术存在的上述问题，本发明实施例提供了一种针对肺炎克雷伯菌的药物敏感性预测方法及装置，该方法不需要依赖质谱数据库就能够对分离菌株的药物敏感性进行准确预测，提高了微生物药物敏感性预测的效率。

根据本发明实施例第一方面，提供一种针对肺炎克雷伯菌的药物敏感性预测方法，所述方法包括：将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

可选的，所述方法还包括：获取所述待测分离菌株对应的质谱特征峰；利用所述药物敏感性预测模型对所述质谱特征峰进行药物敏感性预测，生成与所述待测分离菌株对应的药物敏感性预测结果。

可选的，所述的方法还包括：获取所述检测样本对应的质谱数据；对所述质谱数据进行降噪处理，获得降噪后质谱数据；对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰。

可选的，所述对所述训练数据集进行药物敏感性相关特征筛选处理，获得若干个与药物敏感性相关的质谱特征峰，生成目标特征峰数据集；包括：针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集。

可选的，所述的方法还包括：针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述训练样本和所述影子特征峰共同作为子训练样本；基于随机森林算法对每个训练样本所对应的子训练样本进行模型训练，生成药物敏感性评分模型。

可选的，将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；包括：从所述特征峰数据集中选取至少在预设数量的检测样本中重复出现的质谱特征峰；基于若干个所选取的质谱特征峰，获得模型数据集；将所述模型数据集按照预设比例分割成两份，获得训练数据集和验证数据集。

可选的，所述基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型；包括：基于所述目标特征峰数据集，利用不同算法进行有监督的模型训练，生成若干个模型；基于ROC指标对所述若干个模型进行筛选处理，获得药物敏感性预测模型。

可选的，与药物敏感性相关的质谱特征峰中排名前三位的特征峰分别为7814.64，9092.92和12311.47。

根据本发明实施例第二方面，还提供一种针对肺炎克雷伯菌的药物敏感性预测装置，所述装置包括：第一获得模块，用于将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；训练数据集模块，用于将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；筛选模块，用于对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；模型训练模块，用于基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

可选的，所述装置还包括：第二获得模块，用于获取所述待测分离菌株对应的质谱特征峰；预测模块，用于利用所述药物敏感性预测模型对所述质谱特征峰进行药物敏感性预测，生成与所述待测分离菌株对应的药物敏感性预测结果。

根据本发明实施例第三方面，还提供一种电子设备，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本发明实施例第四方面，还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的方法。

本发明实施例提供一种针对肺炎克雷伯菌的药物敏感性预测方法，所述方法包括：首先，将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；其次，将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；之后，对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；最后，基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。本实施例基于各种预处理手段对携带药物敏感性标记的分离菌株所对应的质谱特征峰进行特征峰筛选处理，之后基于筛选后的质谱特征峰进行模型训练，获得药物敏感性预测模型。由此，通过特征峰筛选处理，能够减少了不必要的特征，降低模型的复杂度，缩短模型训练时间，不仅提高了药物敏感性预测模型训练的准确度，而且提高了待测分离菌株药物敏感性的预测效率，解决了现有技术由于需要进行体外细菌培养等繁琐步骤导致药物敏感性检测时间长而无法实现在样本采集后24小时内直接追踪分离菌株药物敏感性的技术问题；而且本实施例不需要额外依赖质谱数据库就能够对分离菌株的药物敏感性进行准确预测，进一步解决了现有技术由于缺乏通用的参考质谱数据库导致预测结果不稳定的技术问题。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为本发明一实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测方法的流程示意图；

图2为本发明一实施例中提供的生成目标特征峰数据集的流程示意图；

图3为本发明一实施例中提供的获得检测样本对应的质谱特征峰的流程示意图；

图4为本发明一实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测装置的结构示意图；

图5为本发明一实施例中基于六种算法构建的最优预测模型性能评估的示意图；

图6为本发明一实施例中药物敏感性预测模型在验证数据集中的性能评估示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明一实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测方法的流程示意图。如图5所示，为本发明一实施例中基于六种算法构建的最优预测模型性能评估的示意图。

一种针对肺炎克雷伯菌的药物敏感性预测方法，至少包括如下步骤：

S101，将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；

S102，将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；

S103，对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；

S104，基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

在S101中，分离菌株可以是肺炎克雷伯菌，还可以是其他分离菌株；当分离菌株为肺炎克雷伯菌时，本实施例的微生物药物敏感性预测方法适用于肺炎克雷伯菌药物敏感性预测；当分离菌株为其他分离菌株时，本实施例方法适用于其他微生物药物敏感性预测。

例如：首先从179例肺炎克雷伯菌感染患者身上的采集样本；并对样本中的病原体进行分离，得到分离菌株；然后将分离菌株在血琼脂培养基（Becton, Dickinson, Madrid）上培养；其中，培养条件为37°C的有氧气氛下培养18小时；之后通过琼脂扩散法检测分离菌株的药物敏感性，并对分离菌株标记药物敏感和药物不敏感。通过对179例患者的分离菌株进行分析，其中91例分离菌株为药物敏感。最后通过在线性正离子模式下的Microflex LT/SH SMART质谱仪对培养后分离菌株进行质谱数据获取；其中，MicroflexLT/SH SMART质谱仪的仪器参数为质谱范围为2到20 kDa；每个质谱由240个满意的激光脉冲组成，通过小螺旋运动进行40步的采集。

将携带药物敏感性标记的分离菌株作为检测样本，对检测样本所对应的质谱数据进行预处理，得到检测样本对应的质谱特征峰；基于若干个检测样本对应的所有质谱特征峰，获得特征峰数据集。

在这里，若干个检测样本包括两种类型分离菌株，分别是携带药物敏感标记的第一分离菌株和携带药物不敏感标记的第二分离菌株。

需要说明的是，药物敏感性是分离菌株本身的属性；药物敏感性有两种结果，分别是药物敏感和药物不敏感。

在S102中，基于第一预设条件对特征峰数据集进行筛选处理是为了获取与药物敏感性相关的特征峰，从而去除特征峰数据集中一些干扰峰，提高模型训练的准确度。在这里，对第一预设条件不做任何限定，需要结合实际应用场景去确定。

在S103中，基于机器学习方法或者预设规则对训练数据集进行药物敏感性特征筛选，以以提高模型的准确性和泛化能力。通过药物敏感性相关特征筛选处理，可以减少不必要的特征，降低模型的复杂度，并缩短训练时间。此外，药物敏感性相关特征筛选还可以用于理解训练数据集，找到与目标变量最相关的特征，从而更好地解释药物敏感性预测模型的预测结果。

在S104中，基于目标特征峰数据集，利用随机森林的ranger算法进行有监督的模型训练，生成损失函数；当损失函数趋于最小时，获得模型超参数；基于模型超参数优化模型，获得药物敏感性预测模型。

由于目标特征峰数据集中质谱特征峰的复杂程度，在没有先验知识情况下若无法估计哪种机器学习算法更适合本研究数据；因此可以基于所述目标特征峰数据集，利用不同算法进行有监督的模型训练，生成若干个模型；之后基于ROC指标对所述若干个模型进行筛选处理，获得药物敏感性预测模型。例如：基于目标特征峰数据集，分别采用神经网络、朴树贝叶斯、随机森林、广义线性、梯度提升和支持向量机6种机器学习算法进行有监督的模型训练，获得6种预测模型；然后采用10倍交叉验证方法筛选出6种算法下的最优预测模型。采用ROC方法对最优预测模型进行性能评估，例如：ROC值、灵敏度，以及特异性等；其中基于随机森林的ranger算法构建的预测模型中ROC值最大，因此将该预测模型确定为药物敏感性预测模型；如图5所示。

本实施例基于各种预处理手段对携带药物敏感性标记的分离菌株所对应的质谱特征峰进行特征峰筛选处理，之后基于筛选后的质谱特征峰进行模型训练，获得药物敏感性预测模型。由此，通过特征峰筛选处理，能够减少了不必要的特征，降低模型的复杂度，缩短模型训练时间，提高了药物敏感性预测模型训练的准确度，有利于待测分离菌株药物敏感性的预测。

在优选的实施方式中，所述的方法还包括：获取所述待测分离菌株对应的质谱特征峰；利用所述药物敏感性预测模型对所述质谱特征峰进行药物敏感性预测，生成与所述待测分离菌株对应的药物敏感性预测结果。

在预测阶段，获取待测分离菌株对应的质谱数据，对质谱数据进行预处理，获得待测分离菌株对应的质谱特征峰；将该质谱特征峰输入药物敏感性预测模型进行药物敏感性预测，生成与待测分离菌株对应的药物敏感性预测结果。药物敏感性预测结果有两种，分别是药物敏感和药物不敏感。

由此，本实施例基于训练好的药物敏感性预测模型能够直接对待测分离菌株的药物敏感性进行预测，无需对分离菌株的体外培养，从而节省了分离菌株的药物敏感性预测时间，提高了药物敏感性的预测效率，进而使得样本采集后24小时内直接追踪CPK分离株成为可能。

如图2所示，为本发明一实施例中提供的生成目标特征峰数据集的流程示意图。

对所述训练数据集进行药物敏感性相关特征筛选处理，获得若干个与药物敏感性相关的质谱特征峰，生成目标特征峰数据集；至少包括如下步骤：

S201，针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；

S202，基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集。

具体地，药物敏感性评分模型通过如下方法获得：针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述训练样本和所述影子特征峰共同作为子训练样本；基于随机森林算法对每个训练样本所对应的子训练样本进行模型训练，生成药物敏感性评分模型。例如：基于随机森林Boruta算法对每个训练样本所对应的子训练样本进行模型训练，生成药物敏感性评分模型。随机森林Boruta算法通过比较训练样本和随机生成的影子特征峰之间的重要性来确定每个训练样本的重要性。影子特征峰是通过对训练样本进行随机重排得到的，这样可以保留训练样本的分布和相关性，但是破坏了训练样本与目标变量之间的关系。

本实施例基于机器学习的特征筛选能够从训练数据集中选择与药物敏感性相关的质谱特征峰，以提高模型训练的准确性和泛化能力。通过特征筛选，不仅可以减少不必要的特征，降低模型的复杂度，缩短模型训练时间。此外，特征筛选还有助于更好地理解训练数据集，找到与目标变量最相关的特征，从而更好地解释药物敏感性预测模型的预测结果。

如图3所示，为本发明一实施例中提供的获得检测样本对应的质谱特征峰的流程示意图。

对检测样本所对应的质谱数据进行预处理，得到检测样本对应的质谱特征峰；至少包括如下步骤：

S301，获取所述检测样本对应的质谱数据；

S302，对所述质谱数据进行降噪处理，获得降噪后质谱数据；

S303，对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；

S304，对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰。

具体地，对所述质谱数据进行平滑处理，获得第一质谱数据；对平滑后质谱数据进行基线去除处理，得到第二质谱数据；对第二质谱数据进行归一化处理，得到降噪后质谱数据；对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰。

由此，通过预处理不仅能够去除原质谱数据中的噪声，有利于模型训练；而且基于特征峰检测能够获得质谱数据中质谱特征峰，提高了模型训练的准确度。

如图6所示，为本发明一实施例中药物敏感性预测模型在验证数据集中的性能评估示意图。

本发明另一实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测方法的流程示意图。

S1，获取所述检测样本对应的质谱数据；对所述质谱数据进行降噪处理，获得降噪后质谱数据；

S2，对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；

S3，对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰；

S4，将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；

S5，从所述特征峰数据集中选取至少在预设数量的检测样本中重复出现的质谱特征峰；

S6，基于若干个所选取的质谱特征峰，获得模型数据集；将所述模型数据集按照预设比例分割成两份，获得训练数据集和验证数据集；

S7，对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；

S8，基于所述目标特征峰数据集，利用不同算法进行有监督的模型训练，生成若干个模型；

S9，基于ROC指标对所述若干个模型进行筛选处理，获得药物敏感性预测模型。

下面结合具体应用场景对本发明实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测方法进行详细说明。

首先从179例肺炎克雷伯菌感染患者身上的采集样本；并对样本中的病原体进行分离，得到分离菌株；然后将分离菌株在血琼脂培养基（Becton, Dickinson, Madrid）上培养；其中，培养条件为37°C的有氧气氛下培养18小时；之后通过琼脂扩散法检测分离菌株的药物敏感性，并对分离菌株标记药物敏感和药物不敏感。通过对179例患者的分离菌株进行分析，其中91例分离菌株为药物敏感。最后通过在线性正离子模式下的Microflex LT/SHSMART质谱仪对培养后分离菌株进行质谱数据获取。

使用R语言软件包MALDIquant对检测样本所对应的质谱数据进行预处理；首先采用Savitzky-Golay滤波器对质谱数据进行平滑处理，然后使用 Top-Hat 滤波器减去基线；接着采用TIC方法对信号强度进行归一化处理；为了比较不同检测样本所对应质谱数据之间的强度，还需要将检测到的物质质量值进行扭曲和对齐处理；最后采用MAD方法检出质谱数据的中质谱特征峰；从而获得特征峰数据集。

从特征峰数据集中选取至少在20%的检测样本中重复出现的质谱特征峰；最终在179个检测样本检出224个质谱特征峰，形成模型数据集。

将所述模型数据集按照7：3分割成两份，获得训练数据集和验证数据集。其中，70%的数据用于训练模型定义为训练数据集，剩下30%的数据用于验证模型性能的验证数据集。

针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集。

由于样本特征的复杂程度，在没有先验知识情况下无法估计哪种机器学习算法更适合本研究数据。因此，采用神经网络、朴树贝叶斯、随机森林、广义线性、梯度提升和支持向量机6种机器学习算法分别构建预测模型。然后采用10倍交叉验证方法筛选出6种算法下的最优模型。采用ROC方法对最优模型进行性能评估，结果如图5所示，其中基于随机森林的ranger算法构建的模型ROC中值最大，定义为最终预测模型。

在验证数据集（validation set）中对最终预测模型进行了性能验证。模型性能评估采用ROC分析方法，性能指标包括：准确度、Kappa值、敏感度、特异度、阳性预测率、阴性预测率以及特征重要性。结果如图5所示：最终预测模型在验证集中的AUC为0.97，准确度为0.981，Kappa值为0.962，灵敏度为100%，特异性为96.2%，阳性预测率为96。4%，阴性预测率为100%。最终模型给出的特征重要性评分显示，如图6：排名top3的特征峰为7814.64，9092.92和12311.47。

如图4所示，为本发明一实施例提供的一种针对肺炎克雷伯菌的药物敏感性预测装置的结构示意图。

一种针对肺炎克雷伯菌的药物敏感性预测装置，所述装置400包括：第一获得模块401，用于将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；训练数据集模块402，用于将所述特征峰数据集中满足第一预设条件的质谱特征峰作为训练样本，获得训练数据集；筛选模块403，用于对所述训练数据集进行药物敏感性相关特征筛选处理，获得由若干个质谱特征峰形成的目标特征峰数据集；模型训练模块404，用于基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

在优选的实施方式中，所述装置还包括：第二获得模块，用于获取所述待测分离菌株对应的质谱特征峰；预测模块，用于利用所述药物敏感性预测模型对所述质谱特征峰进行药物敏感性预测，生成与所述待测分离菌株对应的药物敏感性预测结果。

在优选的实施方式中，所述装置还包括：第三获得模块，用于获取所述检测样本对应的质谱数据；降噪处理模块，用于对所述质谱数据进行降噪处理，获得降噪后质谱数据；扭曲对齐处理模块，用于对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；特征峰检测模块，用于对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰。

在优选的实施方式中，筛选模块包括：特征峰筛选单元，用于针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；生成单元，用于基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集。

在优选的实施方式中，所述装置还包括：子训练样本模块，用于针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述训练样本和所述影子特征峰共同作为子训练样本；评分模型训练模块，用于基于随机森林算法对每个训练样本所对应的子训练样本进行模型训练，生成药物敏感性评分模型。

在优选的实施方式中，训练数据集模块包括：选取单元，用于从所述特征峰数据集中选取至少在预设数量的检测样本中重复出现的质谱特征峰；获得单元，用于基于若干个所选取的质谱特征峰，获得模型数据集；分割单元，用于将所述模型数据集按照预设比例分割成两份，获得训练数据集和验证数据集。

在优选的实施方式中，模型训练模块包括：模型训练单元，用于基于所述目标特征峰数据集，利用不同算法进行有监督的模型训练，生成若干个模型；筛选处理单元，用于基于ROC指标对所述若干个模型进行筛选处理，获得药物敏感性预测模型。

上述装置可执行本发明一实施例所提供的一种针对肺炎克雷伯菌的药物敏感性预测方法，具备执行一种针对肺炎克雷伯菌的药物敏感性预测方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明一实施例所提供的一种针对肺炎克雷伯菌的药物敏感性预测方法。

本发明还提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本发明所述的一种针对肺炎克雷伯菌的药物敏感性预测方法。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请如下各实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种针对肺炎克雷伯菌的药物敏感性预测方法，其特征在于，包括：

将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；

从所述特征峰数据集中选取至少在预设数量的检测样本中重复出现的质谱特征峰；基于若干个所选取的质谱特征峰，获得模型数据集；将所述模型数据集按照预设比例分割成两份，获得训练数据集和验证数据集；

针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集；

基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取待测分离菌株对应的质谱特征峰；

利用所述药物敏感性预测模型对所述质谱特征峰进行药物敏感性预测，生成与所述待测分离菌株对应的药物敏感性预测结果。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取所述检测样本对应的质谱数据；

对所述质谱数据进行降噪处理，获得降噪后质谱数据；

对降噪后质谱数据进行扭曲和对齐处理，获得处理后质谱数据；

对所述处理后质谱数据进行特征峰检测，获得所述检测样本对应的质谱特征峰。

4.根据权利要求1所述的方法，其特征在于，还包括：

针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述训练样本和所述影子特征峰共同作为子训练样本；

基于随机森林算法对每个训练样本所对应的子训练样本进行模型训练，生成药物敏感性评分模型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型；包括：

基于所述目标特征峰数据集，利用不同算法进行有监督的模型训练，生成若干个模型；

基于ROC指标对所述若干个模型进行筛选处理，获得药物敏感性预测模型。

6.根据权利要求1所述的方法，其特征在于，与药物敏感性相关的质谱特征峰中排名前三位的特征峰分别为7814.64，9092.92和12311.47。

7.一种针对肺炎克雷伯菌的药物敏感性预测装置，其特征在于，包括：

第一获得模块，用于将携带药物敏感性标记的分离菌株作为检测样本，基于每个所述检测样本对应的质谱特征峰，获得若干所述检测样本对应的所有质谱特征峰，生成特征峰数据集；其中，所述药物敏感性标记包括用于指示敏感的第一标记和用于指示不敏感的第二标记；

训练数据集模块，用于从所述特征峰数据集中选取至少在预设数量的检测样本中重复出现的质谱特征峰；基于若干个所选取的质谱特征峰，获得模型数据集；将所述模型数据集按照预设比例分割成两份，获得训练数据集和验证数据集；

筛选模块，用于针对所述训练数据集中任一训练样本：对所述训练样本进行随机重排，生成影子特征峰；将所述影子特征峰和所述训练样本输入训练好的药物敏感性评分模型，输出所述训练样本对应的第一得分集和所述影子特征峰对应的第二得分集；若所述第一得分集中分值中位数与所述第二得分集中最高分值之间的差值大于预设阈值，则将所述训练样本确定为与药物敏感性相关的质谱特征峰；其中，所述预设阈值为大于0的数值；基于所述训练数据集中每个所述训练样本对应的与药物敏感性相关的质谱特征峰，生成目标特征峰数据集；

模型训练模块，用于基于所述目标特征峰数据集进行有监督的模型训练，获得药物敏感性预测模型。

8.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-6任一所述的方法。