CN114724620A - 一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 - Google Patents
一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 Download PDFInfo
- Publication number
- CN114724620A CN114724620A CN202210438979.5A CN202210438979A CN114724620A CN 114724620 A CN114724620 A CN 114724620A CN 202210438979 A CN202210438979 A CN 202210438979A CN 114724620 A CN114724620 A CN 114724620A
- Authority
- CN
- China
- Prior art keywords
- imipenem
- data
- mass spectrum
- drug
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,属于药物敏感预测技术领域,具体步骤为:随机选取亚胺培南敏感和耐药例的质谱峰数据,通过机器学习最小绝对值选择与收缩算子算法建立训练集数据模型,再随机选取敏感和耐药例,建立测试集模型,对上述标本的质谱峰数据进行正交偏最小二乘判别分析,分别计算训练集和测试集模型的曲线下面积,建立测试集混淆矩阵并验证预测模型的正确率。可见,通过机器学习方法建立肺炎克雷伯菌对亚胺培南药物敏感性的预测模型并进行验证,得到的预测模型具有较高的正确率,具有潜在的临床辅助决策支持能力。
Description
技术领域
本发明属于药物敏感预测技术领域,尤其是涉及一种基于MALDI-TOF MS的肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型。
背景技术
肺炎克雷伯菌(Klebsiellapneumoniae,KP)是临床常见的条件致病菌之一,可引起呼吸道、泌尿道、腹腔等部位感染,导致患者脓毒症、多器官功能障碍甚至死亡。近年来由于抗菌药广泛应用以及不合理使用等原因,肺炎克雷伯菌耐药性日益严重,影响了临床抗感染治疗效果,对患者健康和生命造成危害。
目前,检验科需在菌株经质谱技术鉴定后进行药敏分析,存在一定滞后性,即需要在菌株分离培养及质谱鉴定后24-48小时才能得到微生物药物敏感性结果,常导致患者病情恶化。临床应尽早根据肺炎克雷伯菌药敏情况进行抗感染治疗,以降低重症或急性感染患者的病死率。但临床经验性抗感染治疗存在治疗效果不佳、具有产生耐药风险等不足。
质谱鉴定微生物的主要原理是利用已知菌种建立数据库,通过质谱检测获得细菌核糖体蛋白的指纹质谱峰图谱,与数据库中的参考图谱比对后得到鉴定结果。以往研究主要关注于通过识别耐药相关的质谱特征峰分析微生物药物敏感性,但是本研究发现OPLS-DA聚类分析效果不佳,可能与微生物耐药机制多样造成质谱信息的复杂性有关,导致通过简单鉴定质谱特征峰的方式可能无法有效判断微生物药物敏感性,需要就全部质谱信息进行更复杂的分析。
随着医疗数据量不断增大,高维数据难以被传统统计模型处理,机器学习可建立基于大数据的高效率、高准确性的数学模型,改变传统临床路径,向患者提供可能的最佳治疗方法,可通过建立复杂数字模型给出的预测结果取代主观性判断,改善患者的诊断结果,是临床诊断技术的重大变革和发展趋势。机器学习技术具有广阔的临床应用前景,如Khamzin等在医学影像方向研究尝试将机器学习技术应用于CT及核磁图像智能识别,McCoubrey等研究通过机器学习技术分析肠道菌群特征判断药物代谢情况等。在微生物鉴定方面,Mortier通过机器学习结合MALDI-TOF Mass数据进行菌种鉴定, Feucherolles等通过机器学习结合质谱数据分析弯曲杆菌属(Campylobacter) 分子多样性,Tran等和Deulofeu等已将机器学习和质谱数据相结合进行新型冠状肺炎(COVID-19)的智能诊断工作。
亚胺培南(imipenem)是碳青霉烯类抗菌药物,对肺炎克雷伯菌具有很好的治疗效果,但近年来肺炎克雷伯菌对亚胺培南的耐药率逐年升高,给临床经验用药带来了较大困难。
发明内容
本发明要解决的问题是提供一种基于MALDI-TOF MS的肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,以建立一种低成本、高准确性的智能药敏分析系统,辅助临床抗菌药应用决策。
为解决上述技术问题,本发明采用的技术方案是:一种基于MALDI-TOF MS的肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,包括以下步骤:
(1)数据筛选
根据菌株亚胺培南药物敏感度分布情况,从样本中随机选取肺炎克雷伯耐药株和敏感株作为训练集,随机另选取耐药株和敏感株作为测试集,将上述菌株质谱数据峰按以下步骤进行预处理;
(2)数据预处理
将质谱数据进行数据重采样,设置起始M/Z值、结束M/Z值和重新采样数,采用高斯滤波算法进行数据平滑处理,设置σ值,采用White Top Hat 算法进行基线矫正,设置基线矫正窗口值,进行质谱峰对齐,最终每个菌株质谱分析结果得到若干质谱峰;
(3)聚类分析
选取全部菌株质谱峰数据,进行正交偏最小二乘判别分析;
(4)数据建模及准确性验证
选取训练集菌株的质谱峰数据,通过机器学习包中的最小绝对值选择与收缩算子回归算法进行训练集数据建模,选取测试集质谱峰数据通过上述算法进行测试集数据建模,通过优化后的LASSO回归模型计算曲线下面积 (Area Under Curve,AUC),基于测试集通过机器学习包建立混淆矩阵,分别计算药物敏感、耐药以及总准确率。
通过将训练集菌株的质谱峰数据进行数据建模,结合Sigmoid函数和线性回归函数得到下列公式:
其中,f(x)=wTx+b是线性回归拟合函数;
w是模型训练得到的参数,x是样本数据的特征值,b是偏置;
σ(f(x))表示sigmoid函数,将线性回归结果作为输入,输出得到模型预测概率;
计算敏感或耐药概率,并推导出亚胺培南药敏训练集和测试集的AUC 值。
通过测试集对亚胺培南药敏训练集数据模型进行验证并建立训练集和测试集混淆矩阵,分析训练集的正确率和测试集的正确率。
优选地,在步骤(1)中,所有菌株分离培养后,采用MALDI-TOF-MS 技术鉴定为肺炎克雷伯菌,鉴定分值均≧2.0,采用微量稀释法进行药敏试验并计算亚胺培南最低抑菌浓度(minimum inhibitory concentration,MIC),≦1μg/mL为敏感,≧2μg/mL为耐药。
由于采用上述技术方案,本发明通过Python软件应用LASSO回归算法分析肺炎克雷伯菌亚胺培南敏感和耐药菌株的全部质谱峰信息并计算敏感或耐药概率进行判定,建立训练集和测试集数据模型,通过ROC分析证实训练集和测试集均具有良好的诊断效能。通过测试集对训练集数据模型进行验证后,表明本模型利用LASSO回归模型分析质谱峰数据的方法对耐药预测准确率、药物敏感预测准确率和正确率为均优于现有技术中的预测模型(基于拉曼光谱的逻辑回归(Logistic Regression,LR)及支持向量机(support vectormachine,SVM)预测模型)。
本发明作为将机器学习方法用于预测肺炎克雷伯菌亚胺培南药物敏感性的探索性研究,将肺炎克雷伯菌质谱峰数据导入至Python软件构建的数据模型中处理即可获取样本的预测概率进行亚胺培南敏感或耐药的分型,展现出人工智能在微生物耐药表型鉴定领域的潜力,随着机器学习深度和可靠性的不断提高,将临床专业知识和大数据分析相整合,将具有广阔的应用前景。
附图说明
下面通过参考附图并结合实例具体地描述本发明,本发明的优点和实现方式将会更加明显,其中附图所示内容仅用于对本发明的解释说明,而不构成对本发明的任何意义上的限制,在附图中:
图1为肺炎克莱伯菌亚胺培南药敏训练集AUC分析图
图2为肺炎克莱伯菌亚胺培南药敏测试集AUC分析图
图3为亚胺培南药敏训练集混淆矩阵图
图4为亚胺培南药敏预测集混淆矩阵图。
具体实施方式
本实施例菌种来源:收集2019年1月至12月天津市海河医院检验科微生物室分离的684例肺炎克雷伯菌的质谱峰和药敏数据,亚胺培南敏感株 516例,耐药株168例,其中来自于腹水1例、胸水10例、脓液19例、支气管肺泡灌洗液73例、尿液31例、血液31例、分泌物6例、痰液513例。所有菌株均采用MALDI-TOF-MS和VITEK 2Compact系统进行菌种鉴定和药敏分析。
仪器和试剂:microflex LT基质辅助激光解吸电离飞行时间质谱仪 (MALDI-TOFMS)购自美国布鲁克道尔顿公司,VITEK 2Compact全自动细菌鉴定及药敏分析系统和N335药敏卡购自法国生物梅里埃公司,超广谱β-内酰胺酶(Extended Spectrum Beta-Lactamases,ESBLs)阳性质控菌株肺炎克雷伯菌ATCC700603和ESBLs阴性质控菌株大肠埃希菌ATCC25922 购自天津市卫生健康委员会临检中心,Python 3.8.8软件下载于www.python.org。
一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,包括以下步骤:
1、菌株鉴定及药物敏感试验
所有菌株严格按照《全国临床检验操作规程》(第四版)进行分离培养后,采用MALDI-TOF-MS技术鉴定为肺炎克雷伯菌,鉴定分值均≧2.0,结果可信。采用微量稀释法经VITEK 2Compact全自动细菌鉴定及药敏分析系统和N335药敏卡进行药敏试验并计算亚胺培南最低抑菌浓度(minimum inhibitory concentration,MIC),药敏判断标准参照美国临床和实验室标准协会(Clinical and Laboratory Standards Institute,CLSI)折点判读标准,即≦1μg/mL为敏感,≧2μg/mL为耐药。
2、机器学习
(1)数据筛选
根据菌株亚胺培南药物敏感度分布情况,从684例样本中随机选取肺炎克雷伯耐药株和敏感株各70例作为训练集,随机另选取耐药株和敏感株各 17例作为测试集,将上述菌株质谱数据峰按以下步骤进行预处理;
(2)数据预处理
将质谱数据进行数据重采样,设置起始M/Z值为1962DA,结束M/Z 值为19998DA,重新采样数为15000,采用高斯滤波算法进行数据平滑处理,设置σ值为1,采用White Top Hat算法进行基线矫正,设置基线矫正窗口值为5,采用Python 3.8.8软件进行质谱峰对齐,最终每个菌株质谱分析结果得到3457个质谱峰;
(3)聚类分析
选取全部菌株质谱峰数据,采用MetaboAnalyst 5.0软件进行正交偏最小二乘判别分析(OPLS-DA,Orthogonal Partial least squares Discriminant Analysis),OPLS-DA分析的R2Y和Q2分别为0.546和0.0178;
(4)数据建模及准确性验证
选取训练集菌株的质谱峰数据,通过Python3.8.8软件Scikit-learn机器学习包中的最小绝对值选择与收缩算子(LASSO,Least absolute shrinkage and selectionoperator)回归算法进行训练集数据建模,选取测试集质谱峰数据通过上述算法进行测试集数据建模,通过优化后的LASSO回归模型计算曲线下面积(Area Under Curve,AUC),基于测试集通过Python 3.8.8软件 Scikit-learn机器学习包建立混淆矩阵,分别计算药物敏感、耐药以及总准确率。
3、结果
(1)亚胺培南药敏训练集及测试集数据模型的诊断效率
通过将训练集菌株的质谱峰数据进行数据建模,结合Sigmoid函数和线性回归函数得到下列公式:
其中,f(x)=wTx+b是线性回归拟合函数;
w是模型训练得到的参数,x是样本数据的特征值,b是偏置;
σ(f(x))表示sigmoid函数,将线性回归结果作为输入,输出得到模型预测概率;
计算敏感或耐药概率(阈值为>0.6,超过阈值即判定为敏感或耐药),并推导出亚胺培南药敏训练集的AUC为0.9726,测试集的AUC为0.9100 (如图1和图2所示),其中AUC的值是对ROC曲线进行积分处理得到。
(2)亚胺培南药敏训练集数据模型的验证
如图3和图4所示,通过测试集对亚胺培南药敏训练集数据模型进行验证并建立训练集和测试集混淆矩阵,分析结果表明训练集的正确率为94% (131/140),其中测试集耐药准确率为100%(70/70),药物敏感预测准确率为87%(61/70),测试集的正确率为82%(28/34),其中测试集耐药准确率为71%(12/17),药物敏感预测准确率为94%(16/17)。
其中,正确率的分析过程如表1所示,
其计算公式为:
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
Claims (4)
1.一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,其特征在于:包括以下步骤:
(1)数据筛选
根据菌株亚胺培南药物敏感度分布情况,从样本中随机选取肺炎克雷伯耐药株和敏感株作为训练集,随机另选取耐药株和敏感株作为测试集,将上述菌株质谱数据峰按以下步骤进行预处理;
(2)数据预处理
将质谱数据进行数据重采样,设置起始M/Z值、结束M/Z值和重新采样数,采用高斯滤波算法进行数据平滑处理,设置σ值,采用White Top Hat算法进行基线矫正,设置基线矫正窗口值,进行质谱峰对齐,最终每个菌株质谱分析结果得到若干质谱峰;
(3)聚类分析
选取全部菌株质谱峰数据,进行正交偏最小二乘判别分析;
(4)数据建模及准确性验证
选取训练集菌株的质谱峰数据,通过机器学习包中的最小绝对值选择与收缩算子回归算法进行训练集数据建模,选取测试集质谱峰数据通过上述算法进行测试集数据建模,通过优化后的LASSO回归模型计算曲线下面积(Area Under Curve,AUC),基于测试集通过机器学习包建立混淆矩阵,分别计算药物敏感、耐药以及总准确率。
3.根据权利要求2所述的肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,其特征在于:通过测试集对亚胺培南药敏训练集数据模型进行验证并建立训练集和测试集混淆矩阵,分析训练集的正确率和测试集的正确率。
4.根据权利要求1所述的肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型,其特征在于:在步骤(1)中,所有菌株分离培养后,采用MALDI-TOF-MS技术鉴定为肺炎克雷伯菌,鉴定分值均≧2.0,采用微量稀释法进行药敏试验并计算亚胺培南最低抑菌浓度,≦1μg/mL为敏感,≧2μg/mL为耐药。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210438979.5A CN114724620A (zh) | 2022-04-22 | 2022-04-22 | 一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210438979.5A CN114724620A (zh) | 2022-04-22 | 2022-04-22 | 一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114724620A true CN114724620A (zh) | 2022-07-08 |
Family
ID=82245759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210438979.5A Pending CN114724620A (zh) | 2022-04-22 | 2022-04-22 | 一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724620A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798576A (zh) * | 2023-02-06 | 2023-03-14 | 中国医学科学院北京协和医院 | 一种预测克雷伯氏菌属对亚胺培南敏感性的系统及方法 |
CN117612747A (zh) * | 2024-01-24 | 2024-02-27 | 杭州广科安德生物科技有限公司 | 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置 |
-
2022
- 2022-04-22 CN CN202210438979.5A patent/CN114724620A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115798576A (zh) * | 2023-02-06 | 2023-03-14 | 中国医学科学院北京协和医院 | 一种预测克雷伯氏菌属对亚胺培南敏感性的系统及方法 |
CN117612747A (zh) * | 2024-01-24 | 2024-02-27 | 杭州广科安德生物科技有限公司 | 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置 |
CN117612747B (zh) * | 2024-01-24 | 2024-05-03 | 杭州广科安德生物科技有限公司 | 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114724620A (zh) | 一种肺炎克雷伯菌亚胺培南药物敏感性机器学习预测模型 | |
Ziraldo et al. | Central role for MCP-1/CCL2 in injury-induced inflammation revealed by in vitro, in silico, and clinical studies | |
CN111378788B (zh) | 辅助covid-19诊断的菌种标志物及其应用 | |
CN114898800B (zh) | 一种预测肺炎克雷伯菌对头孢曲松敏感性的方法及系统 | |
Chung et al. | Incorporating statistical test and machine intelligence into strain typing of staphylococcus haemolyticus based on matrix-assisted laser desorption ionization-time of flight mass spectrometry | |
Jiang et al. | Overestimated discriminatory power of MALDI-TOF mass spectrometry for typing of carbapenem-resistant Klebsiella pneumoniae clones | |
Desaire et al. | Adaption of the Aristotle classifier for accurately identifying highly similar bacteria analyzed by MALDI-TOF MS | |
Enroth et al. | Evaluation of QuickFISH and maldi Sepsityper for identification of bacteria in bloodstream infection | |
Mlaga et al. | Using MALDI-TOF MS typing method to decipher outbreak: the case of Staphylococcus saprophyticus causing urinary tract infections (UTIs) in Marseille, France | |
Afshar et al. | Recognition and prediction of leukemia with Artificial Neural Network (ANN) | |
Zhang et al. | Rapid identification of carbapenem-resistant Klebsiella pneumoniae based on matrix-assisted laser desorption ionization time-of-flight mass spectrometry and an artificial neural network model | |
TWI775205B (zh) | 鑑定抗甲氧西林金黃色葡萄球菌的方法 | |
Tang et al. | MALDI-TOF MS platform combined with machine learning to establish a model for rapid identification of methicillin-resistant Staphylococcus aureus | |
CN112992351B (zh) | 一种人体肠道健康状态的特征表达方法及其评估方法 | |
Gould et al. | Inter-strain comparison by pyrolysis mass spectrometry in the investigation of Staphylococcus aureus nosocomial infection | |
US20220415447A1 (en) | Method for assessing drug-resistant microorganism and drug-resistant microorganism assessing system | |
Fritzenwanker et al. | Comparison of Urine Flow Cytometry on the UF-1000i System and Urine Culture of Urine Samples from Urological Patients | |
Shahbazi Khamas et al. | Exhaled Volatile Organic Compounds for Asthma Control Classification in Children with Moderate to Severe Asthma: Results from the SysPharmPediA Study | |
US11352655B2 (en) | Method of identification of methicillin-resistant Staphylococcus aureus | |
TW202409563A (zh) | 抗藥性肺炎克雷伯菌的判斷方法及抗藥性肺炎克雷伯菌的判斷系統 | |
Chen et al. | Pathogenic Profile Characteristics and Clinical Risk Factor Analysis of Patients Who Died from Sepsis Combined with Pulmonary Infection by Metagenomic Next-Generation Sequencing | |
Inamine et al. | Evaluation of an adapted method of relative growth to determine the susceptibility of Enterobacterales to polymyxin B by MALDI-TOF MS | |
Khan et al. | Urine my heart: a case of Aerococcal endocarditis | |
CN117612747B (zh) | 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置 | |
US20230386662A1 (en) | Rapid and direct identification and determination of urine bacterial susceptibility to antibiotics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |