CN114388062A - 基于机器学习预测抗生素抗性表型的方法、设备及应用 - Google Patents
基于机器学习预测抗生素抗性表型的方法、设备及应用 Download PDFInfo
- Publication number
- CN114388062A CN114388062A CN202111554153.7A CN202111554153A CN114388062A CN 114388062 A CN114388062 A CN 114388062A CN 202111554153 A CN202111554153 A CN 202111554153A CN 114388062 A CN114388062 A CN 114388062A
- Authority
- CN
- China
- Prior art keywords
- resistance phenotype
- model
- antibiotic
- machine learning
- antibiotic resistance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003115 biocidal effect Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000010801 machine learning Methods 0.000 title claims abstract description 35
- 239000003242 anti bacterial agent Substances 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 238000002790 cross-validation Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000013210 evaluation model Methods 0.000 claims abstract description 7
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 230000007067 DNA methylation Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 229940088710 antibiotic agent Drugs 0.000 abstract description 18
- 239000003814 drug Substances 0.000 abstract description 10
- 229940079593 drug Drugs 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 abstract description 5
- 241000894006 Bacteria Species 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012268 genome sequencing Methods 0.000 abstract description 2
- 206010059866 Drug resistance Diseases 0.000 abstract 2
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 239000002547 new drug Substances 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 8
- 230000001580 bacterial effect Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 244000005700 microbiome Species 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000845 anti-microbial effect Effects 0.000 description 4
- 238000007672 fourth generation sequencing Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 241000588626 Acinetobacter baumannii Species 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- IABBAGAOMDWOCW-UHFFFAOYSA-N Nicametate citrate Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O.CCN(CC)CCOC(=O)C1=CC=CN=C1 IABBAGAOMDWOCW-UHFFFAOYSA-N 0.000 description 2
- 244000052616 bacterial pathogen Species 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003113 dilution method Methods 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 238000000684 flow cytometry Methods 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000004599 antimicrobial Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于机器学习预测抗生素抗性表型的方法、设备及应用,包括获得基因组数据集和抗生素的抗性表型并将其处理成矩阵格式;将菌株数据集合随机分为训练集和测试集;筛选对抗性表型预测起到重要作用的特征;采用交叉验证的方法得到最优参数;基于最优参数重新构建训练集模型,并应用于测试集评估模型最终的性能评估;本发明整合快速发展的基因组测序技术积累的大量菌株的多组学数据和全球多实验室公开的抗生素抗性数据,通过机器学习算法预测细菌的耐药表型,从而在无需药敏实验的情况下利用机器学习方法根据基因组数据来预测细菌的抗生素抗性表型,提示临床个体化用药,并有效遏制因不合理使用抗生素导致新耐药表型的产生和传播。
Description
技术领域
本发明属于生物信息学领域,具体涉及一种基于机器学习预测抗生素抗性表型的方法。
背景技术
自20世纪40年代以来,抗生素在卫生保健和农业领域的使用显著增加,导致耐药菌株出现的频率大幅增加,抗生素抗性感染目前已经对公共健康构成了全球威胁。目前哪些抗生素对细菌病原体有效的金标准就是通过抗生素药物敏感性测试确定,而这需要在一组抗生素存在下培养微生物,由于培养过程可能很慢,因此往往需要临床医生依赖经验判断抗生素的使用。而当抗生素使用不正确或者不当时就会增加死亡率以及加剧抗生素耐药性的传播。
因此开发能够实时确定细菌病原体抗生素抗性表型的诊断方法,对降低患者的发病率和死亡率,以及抗生素耐药性的流行水平起到至关重要的作用。现有技术中,已经有一些研究利用计算机预测测试微生物对抗生素抗性表型的方法。比如CN201780042446.2用于抗微生物剂敏感性预测的流式细胞术数据处理,就是将计算机分为学习阶段和预测阶段从而实现预测测试微生物的敏感性表型,通过将包含易感、中间和抗性表型微生物的一组微生物和抗微生物剂等混合经过流式细胞仪测试并分析的方法获得特征向量,在此基础上利用被测微生物对应的值预测其特征向量,虽然是基于计算机学习的预测却没有特征选择和参数调优的过程,但其还是需要两次培养为前提,另外这种预测并不能进行多组抗性同时预测,效率较低。
CN201880057328.3细菌菌株对治疗组合物的敏感性谱的确定方法公开了一种不依赖于细菌培养物生长的用于预测细菌对特定噬菌体株的敏感性的快速筛选方法,其通过使用多种细菌菌株的基因组序列数据来训练机器学习模型,治疗组合物机器学习模型被配置成接收查询细菌基因组并且选择基于受过训练的机器学习模型被估计为对细菌基因组具有敏感性的治疗组合物,能够达到筛选有效药物的目的,但是其机器学习怎么评估敏感性并未明确论述,而且这种选择往往只能针对被学习模型确认的有限治疗组合物,而且缺乏反向验证评估其可靠性存在问题。
发明内容
针对上述内容中所记载的技术问题中的一种,本发明提供了一种基于机器学习预测抗生素抗性表型的方法、设备及应用,整合快速发展的基因组测序技术积累的大量菌株的多组学数据和全球多实验室公开的抗生素抗性数据,本发明通过机器学习算法预测细菌的耐药表型,从而在无需药敏试验的情况下利用机器学习方法根据基因组数据来预测细菌的抗生素抗性表型,提示临床个体化用药,并有效遏制因不合理使用抗生素导致新耐药表型的产生和传播。
根据本发明实施例的第一个方面,本发明提供了一种基于机器学习预测抗生素抗性表型的方法,包括:
获得基因组数据集和抗生素的抗性表型并将其处理成矩阵格式;
将菌株数据集合随机分为训练集和测试集;
筛选对抗性表型预测起到重要作用的特征;
基于机器学习方法,以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整得到最优参数;
基于最优参数重新构建训练集模型,并应用于测试集得到最终的性能评估。
具体的,本发明提供的方法为:
(1)获得目标菌种的全部菌株的基因组数据集,并获得每个菌株对每种抗生素的抗性表型;
(2)将菌株的基因组数据集处理为特征矩阵,菌株的抗生素抗性表型处理成表型矩阵;按照特定比例将菌株集合随机分为训练集和测试集;
(3)基于训练集对每种抗生素进行特征选择,筛选对抗性表型预测起到重要作用的特征;
(4)基于机器学习方法,以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整得到最优参数;
(5)基于最优参数重新构建训练集模型,并应用于测试集得到最终的性能评估。
更进一步的,本发明所述基因组数据集包括但不限于SNP/indel、结构变异、DNA甲基化、基因组序列、基因表达中的一组或者多组。
所述SNP/indel可通过二代测序数据与参考基因组比对获得;所述结构变异可通过三代测序数据与参考基因组比对获得;所述DNA甲基化可通过nanopore测序的电信号获得;所述基因组序列可通过测序数据组装或者公共数据库(如Genbank、NCBI)下载获得;所述基因表达可通过转录组测序获得。
所述抗生素抗性表型通过药敏实验测定,或者通过PATRIC数据库或者从相应的文献中下载。
所述抗生素的抗性表型包含MIC值和SIR分类两种类型;所述MIC值为抑制培养基内细菌生长的最低的抗菌药物浓度,抗菌药物的浓度通常通过倍比稀释(log2);所述SIR分类中S为敏感、I为中度、R为抗性,通常抗生素抗性表型以MIC值发表,通过CLSI或者EUCAST指导标准转化为SIR分类。
进一步的,本发明特征矩阵包含但不限于SNP/indel矩阵、结构变异矩阵、DNA甲基化矩阵、基因组kmer矩阵、基因表达矩阵中的一种或者多种。
所述基因组kmer矩阵是利用KMC软件将每个基因组序列拆分成非冗余的k-bp长度字符串的集合,所述kmer选择10bp或者15bp,其中10bp的kmer相比于15bp的kmer是更冗余的,而计算内存却更小;所述kmer矩阵以kmer长度的字符串作为行,以所述目标菌种的菌株作为列,以kmer的计数或者kmer是否存在(即0:不存在;1:存在)作为值。
优选地,本发明选择15bp的kmer作为非冗余字符串,选择kmer计数作为kmer矩阵的值。
本发明中,表型矩阵以所述抗生素作为行,以所述目标菌种的菌株作为列,对于SIR分类表型,定义S、I、R分别为-1、0、1或者0、1、2,作为抗生素的表型值;对于MIC值,则采用log2(MIC)值作为表型值;
所述SIR分类如果只存在两个类别如SR或IR或SI则可定义为0、1。
本发明中所述特定比例是训练集样品数量大于等于测试集样品数量的比例。
优选地,本发明中选择训练集样品数量比测试集样品数量为2:1;所述训练集的抗生素表型比例应与所述测试集菌株相同或相近。
进一步的,本发明所述特征选择采用XGBoost或者随机森林方法进行特征选择,或者本发明选择取全部特征作为模型输入特征。
本发明所述特征选择结合杂交验证来进行。
优选地,本发明采用随机森林进行特征选择。
进一步的,本发明所述机器学习方法包含AdaBoost,bagging,XGBoost,随机森林,随机树,支持向量机,线性回归中的一种或者多种。
本发明所述预测抗生素抗性是一个回归或者多分类的问题,如果抗性表型是MIC值则属于回归模型,SIR分类则属于分类模型。
本发明中所述交叉验证将所有训练集样品进一步随机分成若干个互斥的集合,每个集合具有相同的抗生素和表型的组合;其中1个集合用于验证,其余集合用于训练;训练集合被用来训练模型,验证集合被用来防止模型过度拟合进行参数调整;所述交叉验证选择3、5或10倍交叉验证,即将样品随机拆分为3份、5份或者10份。
优选地,交叉验证选择采用10倍交叉验证。
本发明所述调整最优参数时,不同机器学习方法需要调整的参数不同,如所述XGBoost可调整maximum tree depth、column subsampling、row subsampling以及learning rate等,所述随机森林可调整max_features、max_depth、n_estimators、criterion等。
优选地,本发明选择XGBoost方法构建模型。
进一步的,本发明所述模型性能评估包括的指标有ACC、MCC、VME、ME、F1、灵敏度、特异度、AUC中的一个或者多个;
所述ACC是准确性,即正确预测的样品数除以总样品数;
所述MCC是马修斯相关系数,当两类别的样品含量相差较大时使用,取值范围从-1到1,其中-1代表预测与实际分类完全不一致,0代表预测结果并不比随机预测好,1代表完美预测,MCC计算公式如下:
其中,TP、TN、FP、FN分别是真阳性数、真阴性数、假阳性数、假阴性数;
所述VME是非常主要错误率,是指抗性的菌株被预测为敏感的比例;
所述ME是主要错误率,是指敏感的菌株被预测为抗性的比例;
所述F1是综合衡量精确率与召回率的指标,其中精确率是真阳性数除以真阳性数和假阳性数之和,召回率是真阳性数除以真阳性数与假阴性数之和;
所述灵敏度是真阳性数除以真阳性数和假阴性数之和,与召回率相同;
所述特异度是真阴性数除以真阴性数和假阳性数之和;
所述AUC是受试者工作特征曲线的曲线下面积,取值范围在0.5-1之间越接近1则真实性越高,越接近0.5则真实性越低无应用价值;
所述回归模型的ACC和MCC计算,可以用±1两倍稀释法进行计算,即预测的log2(MIC)加1或者减1与真实情况相同则认为预测结果正确。
优选地,本发明选择ACC或者MCC作为评估指标。
进一步的,本发明所述方法还包括随机抽样过程;所述随机抽样过程为:当所述目标菌种的目标菌株的某种抗生素的MIC值或者SIR分类样品偏倚严重时,随机从较多数量的分类中选择与较少数量分类相同的样品数,重复这个过程100次或者1000次。例如S样品有10个,而R样品有1000个,则随机选择R样品中的10个样品,进行模型构建,重复这个过程100次。
本发明所述方法还包括重要特征功能的分析;
所述重要特征根据XGBoost或者随机森林特征重要性值进行挑选;
所述特征功能分析包含该特征SNP/indel、结构变异、DNA甲基化位点、kmer中一种或者多种所在的基因及基因的注释和富集分析;
所述kmer的特征功能分析还包含不同分类中kmer上显著的SNP分析。
第二方面,本发明采用上面任一技术方案所述的方法构建抗生素抗性表型预测模型。
第三方面,本发明采用上面任一技术方案所述的方法构建抗生素抗性表型预测模型获取的模型预测中的重要特征。
第四方面,本发明提供了一种基于机器学习预测抗生素抗性表型所述的方法在评估待测菌株的抗生素抗性表型方面的应用。
第五方面,本发明提供了一种基于机器学习预测抗生素抗性表型所述的方法在评估制备用于评估待测菌株的抗生素抗性表型方面的应用。
第六方面,本发明还提供了一种基于机器学习预测抗生素抗性表型的系统,包括:
数据存储模块,用于获得基因组数据集和抗生素的抗性表型并将其处理成矩阵格式;
数据分析模块,用于将菌株数据集合随机分为训练集和测试集;并筛选对抗性表型预测起到重要作用的特征;
数据处理模块,用于进行机器学习和交叉验证,通过以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整得到最优参数;
结果反馈模块,用于利用训练集构建抗生素抗性预测模型和/或利用测试集评估抗生素抗性模型效能。
第七方面,本发明还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明上述的方法。
第八方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行本发明上述的方法。
通过实施本发明的技术方案,可以达到以下有益效果:
本发明提供的一种基于机器学习预测抗生素抗性表型的方法,可以在不需要药敏实验的情况下基于既往数据所构建的模型对抗生素抗性表型进行预测,涉及的数据基数大,抗生素类别多,预测准确率高,具有重要的应用价值。
附图说明
图1为本发明中基于机器学习预测抗生素抗性表型的技术路线图。
图2为实施例1中不同菌株的抗生素表型分布图。
图3为实施例1中抗生素预测模型的ROC曲线图。
具体实施方式
下面将结合说明书附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
如图1所示,本发明提供了一种基于机器学习预测抗生素抗性表型的方法,包括:
S100,获得基因组数据集和抗生素的抗性表型并将其处理成矩阵格式;
S120,将菌株数据集合随机分为训练集和测试集;
S140,筛选对抗性表型预测起到重要作用的特征;采用交叉验证的方法得到最优参数;
S160,基于最优参数重新构建训练集模型,并应用于测试集得到最终的性能评估。
本发明还提供基于上述方法的应用、系统、电子设备和计算机可读存储介质。
实施例1利用XGBoost算法基于基因组序列特征预测鲍曼不动杆菌的抗生素抗性表型
本实施例中,对74个鲍曼不动杆菌的菌株进行nanopore测序,并对这些菌株在8种抗生素中进行药敏实验。基于nanopore测序得到的数据进行质控进而对每个菌株进行组装,对组装得到的基因组序列文件采用KMC软件进行10bp的kmer拆分,获得全部菌株的kmer矩阵;并采用8种抗生素的SIR分类作为表型特征,如图2所示。
本实施例基因组数据集为基因组序列,基因组序列通过测序数据组装获得。
本实施例抗生素抗性表型通过药敏实验测定。
本实施例抗性表型为SIR分类,SIR分类中S为敏感、I为中度、R为抗性,通常抗生素抗性表型以MIC值发表,通过CLSI或者EUCAST指导标准转化为SIR分类。
本实施例特征矩阵是基因组kmer矩阵,基因组kmer矩阵是利用KMC软件将每个基因组序列拆分成非冗余的k-bp长度字符串的集合,kmer选择10bp,其中10bp的kmer相比于15bp的kmer是更冗余的,而计算内存却更小;所述kmer矩阵以kmer长度的字符串作为行,以所述目标菌种的菌株作为列,以kmer的计数作为值。
本实施例表型矩阵以抗生素作为行,以目标菌种的菌株作为列,对于SIR分类表型,定义S、I、R分别为-1、0、1,作为抗生素的表型值,SIR分类如果只存在两个类别如SR或IR或SI则可定义为0、1。
首先将74个菌株在每种抗生素下的表型按照7:3的比例进行随机拆分成训练集和测试集。其次,采用随机森林算法在训练集中筛选对抗生素表型具有重要区分效能的kmer,每种抗生素选择500个kmer。
本实施例特定比例是训练集样品数量大于等于测试集样品数量的比例,选择训练集样品数量比测试集样品数量为7:3;训练集的抗生素表型比例应与测试集菌株相同或相近。
本实施例特征选择采用随机森林方法进行特征选择。
最后,基于这500个kmer,构建XGBoost分类模型(xgboost.XGBClassifier),利用5倍交叉验证的方法确定learning_rate、min_child_weight这两个参数的最优值,其他参数采用默认值。其中learning_rate代表学习率,候选值从0.1到1以0.1为梯度变化,较小的learning_rate意味着更多弱分学习器;min_child_weight代表叶子上最小的样品数,候选值为1,3,5,7。
本实施例机器学习方法是AdaBoost。
本实施例预测抗生素抗性是一个多分类的问题。
本实施例交叉验证将所有训练集样品进一步随机分成若干个互斥的集合,每个集合具有相同的抗生素和表型的组合;其中1个集合用于验证,其余集合用于训练;训练集合被用来训练模型,验证集合被用来防止模型过度拟合进行参数调整;交叉验证选择5倍交叉验证,即将样品随机拆分为5份。
本实施例交叉验证选择采用5倍交叉验证。
调整最优参数时,不同机器学习方法需要调整的参数不同,本实施例XGBoost调整min_child_weight以及learning rate。
每种抗生素训练集的最优参数,如下表1:
表1
antibiotic | learning_rate | min_child_weight |
drug3 | 0.1 | 1 |
drug7 | 0.1 | 3 |
drug6 | 0.1 | 1 |
drug4 | 0.2 | 3 |
drug5 | 0.1 | 1 |
drug1 | 0.1 | 3 |
drug8 | 0.6 | 3 |
drug2 | 0.3 | 3 |
利用最优参数的最优模型于测试集,测试集的准确可达78%-96%,模型的效能如下表2:
表2
antibiotic | train_acc | test_acc | train_mcc | test_mcc |
drug7 | 0.94 | 0.91 | 0.882897812 | 0.818181818 |
drug2 | 1 | 0.95 | 1 | 0.885614886 |
drug8 | 0.98 | 0.78 | 0.964523667 | 0.59426092 |
drug4 | 1 | 0.96 | 1 | 0.887151079 |
drug5 | 0.98 | 0.95 | 0.961304917 | 0.91146543 |
drug6 | 1 | 0.83 | 1 | 0.724139246 |
drug3 | 1 | 0.96 | 1 | 0.887151079 |
drug1 | 1 | 0.82 | 1 | 0.674074074 |
其中,drug7的受试者工作特征曲线(ROC曲线)的曲线下面积AUC为0.91,如图3所示。
本实施例模型性能评估包括的指标有ACC、MCC和AUC;
ACC是准确性,即正确预测的样品数除以总样品数;
MCC是马修斯相关系数,当两类别的样品含量相差较大时使用,取值范围从-1到1,其中-1代表预测与实际分类完全不一致,0代表预测结果并不比随机预测好,1代表完美预测,MCC计算公式如下:
其中,TP、TN、FP、FN分别是真阳性数、真阴性数、假阳性数、假阴性数;
AUC是受试者工作特征曲线的曲线下面积,取值范围在0.5-1之间越接近1则真实性越高,越接近0.5则真实性越低无应用价值;
由此可见,基于机器学习方法可以利用基因组序列的特征来预测鲍曼不动杆菌对于抗生素的抗性表型,无需药敏实验可直接得到抗生素的抗性表型,测试集准确率高达96%,具有重要的应用价值。
实施例2:
本实施例基因组数据集分别采用SNP/indel、结构变异、DNA甲基化、基因表达中的数据集。
SNP/indel通过二代测序数据与参考基因组比对获得;结构变异通过三代测序数据与参考基因组比对获得;DNA甲基化通过nanopore测序的电信号获得;基因表达通过转录组测序获得。
抗生素的抗性表型为MIC值;MIC值为抑制培养基内细菌生长的最低的抗菌药物浓度,抗菌药物的浓度通常通过倍比稀释(log2)。
和基因组数据集对应的,本实施例特征矩阵分别采用SNP/indel矩阵、结构变异矩阵、DNA甲基化矩阵、基因表达矩阵。
本实施例表型矩阵以所述抗生素作为行,以所述目标菌种的菌株作为列,对于MIC值,则采用log2(MIC)值作为表型值。
本实施例特征选择采用XGBoost方法进行特征选择,或者选择取全部特征作为模型输入特征。
本实施例特征选择结合杂交验证来进行。
本实施例机器学习方法包含AdaBoost,bagging,随机森林,随机树,支持向量机和线性回归。
本实施例预测抗生素抗性是一个回归或者多分类的问题,如果抗性表型是MIC值则属于回归模型。
本实施例调整最优参数时,不同机器学习方法需要调整的参数不同,如所述XGBoost通常调整maximum tree depth、column subsampling、row subsampling以及learning rate,所述随机森林通常调整max_features、max_depth、n_estimators、criterion。
本实施例模型性能评估包括的指标有ACC、MCC、VME、ME、F1、灵敏度、特异度;
VME是非常主要错误率,是指抗性的菌株被预测为敏感的比例;
ME是主要错误率,是指敏感的菌株被预测为抗性的比例;
F1是综合衡量精确率与召回率的指标,其中精确率是真阳性数除以真阳性数和假阳性数之和,召回率是真阳性数除以真阳性数与假阴性数之和;
灵敏度是真阳性数除以真阳性数和假阴性数之和,与召回率相同;
特异度是真阴性数除以真阴性数和假阳性数之和;
回归模型的ACC和MCC计算,可以用±1两倍稀释法进行计算,即预测的log2(MIC)加1或者减1与真实情况相同则认为预测结果正确。
实施例3
和实施例1不同的是本实施例采用了随机抽样过程;随机抽样过程为:当所述目标菌种的目标菌株的某种抗生素的MIC值或者SIR分类样品偏倚严重时,随机从较多数量的分类中选择与较少数量分类相同的样品数,重复这个过程100次或者1000次。例如S样品有10个,而R样品有1000个,则随机选择R样品中的10个样品,进行模型构建,重复这个过程100次。
本实施例还采用了重要特征功能的分析;
重要特征根据XGBoost或者随机森林特征重要性值进行挑选;
特征功能分析包含该特征SNP/indel、结构变异、DNA甲基化位点、kmer所在的基因及基因的注释和富集分析;
kmer的特征功能分析还包含不同分类中kmer上显著的SNP分析。
实施例4本发明基于机器学习预测抗生素抗性表型的系统
本实施的系统包括:
数据存储模块,用于获得基因组数据集和抗生素的抗性表型并将其处理成矩阵格式。
数据分析模块,用于将菌株数据集合随机分为训练集和测试集;并筛选对抗性表型预测起到重要作用的特征。
数据处理模块,用于进行机器学习和交叉验证,通过以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整得到最优参数。
结果反馈模块,用于利用训练集构建抗生素抗性预测模型和/或利用测试集评估抗生素抗性模型效能。
实施例5本发明提供的一种电子设备
本发明电子设备包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例1的方法。
实施例6本发明提供的一种计算机可读存储介质
本发明所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行本发明实施例1的方法。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
Claims (10)
1.一种基于机器学习预测抗生素抗性表型的方法,其特征在于,包括:
获得基因组数据集和抗生素的抗性表型,并将基因组数据集和抗性表型处理成矩阵格式;
将菌株数据集合随机分为训练集和测试集;
筛选对抗性表型预测起到重要作用的特征;
基于机器学习方法,以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整得到最优参数;
基于最优参数重新构建训练集模型,并应用于测试集得到最终的性能评估。
2.根据权利要求1所述的一种基于机器学习预测抗生素抗性表型的方法,其特征在于,所述基因组数据集包括但不限于SNP/indel、结构变异、DNA甲基化、基因组序列、基因表达中的一组或者多组;
所述抗生素的抗性表型包含MIC值和SIR分类两种类型。
3.根据权利要求1所述的一种基于机器学习预测抗生素抗性表型的方法,其特征在于,所述矩阵包括但不限于SNP/indel矩阵、结构变异矩阵、DNA甲基化矩阵、基因组kmer矩阵、基因表达矩阵中的一种或者多种特征矩阵。
4.根据权利要求1所述的一种基于机器学习预测抗生素抗性表型的方法,其特征在于,所述特征的筛选采用XGBoost或者随机森林方法中一种来选择部分特征作为模型输入特征;
或者选择全部特征作为模型输入特征。
5.根据权利要求1所述的一种基于机器学习预测抗生素抗性表型的方法,其特征在于,所述机器学习方法包含AdaBoost、bagging、XGBoost、随机森林、随机树、支持向量机、线性回归中一种或者多种;
所述模型性能评估的参数包括ACC、MCC、VME、ME、F1、灵敏度、特异度、AUC中的一个或者多个。
6.采用权利要求1至5任一项所述的方法构建的抗生素抗性表型预测模型;或者采用权利要求1至5任一项所述的方法构建的抗生素抗性表型预测模型获取的模型预测中的重要特征。
7.权利要求1至5任一项所述的方法在评估待测菌株的抗生素抗性表型或/和制备用于评估待测菌株的抗生素抗性表型方面的应用。
8.应用权利要求1-5任一项所述方法的系统,其特征在于,包括:
数据存储模块,用于获得基因组数据集和抗生素的抗性表型,并将基因组数据集和抗性表型处理成矩阵格式;
数据分析模块,用于将菌株数据集合随机分为训练集和测试集;并筛选对抗性表型预测起到重要作用的特征;
数据处理模块,用于进行机器学习和交叉验证,通过以重要特征作为输入,以抗性表型作为输出,采用交叉验证的方法来对每种抗生素分别构建模型、评估模型并调整获得最优参数;
结果反馈模块,用于利用训练集构建抗生素抗性预测模型和/或利用测试集评估抗生素抗性模型效能。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的计算机指令,所述计算机指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554153.7A CN114388062A (zh) | 2021-12-17 | 2021-12-17 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554153.7A CN114388062A (zh) | 2021-12-17 | 2021-12-17 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114388062A true CN114388062A (zh) | 2022-04-22 |
Family
ID=81197940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111554153.7A Pending CN114388062A (zh) | 2021-12-17 | 2021-12-17 | 基于机器学习预测抗生素抗性表型的方法、设备及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114388062A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662503A (zh) * | 2022-04-29 | 2023-01-31 | 安徽农业大学 | 基于机器学习的细菌基因组数据预测细菌表型特征的方法 |
CN116825182A (zh) * | 2023-06-14 | 2023-09-29 | 北京金匙医学检验实验室有限公司 | 一种基于基因组ORFs筛选细菌耐药特征的方法及应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN113257345A (zh) * | 2021-06-09 | 2021-08-13 | 上海宝藤生物医药科技股份有限公司 | 一种利用基因序列信息预测药物最小抑菌浓度的方法 |
CN113555070A (zh) * | 2021-05-31 | 2021-10-26 | 宋洋 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
-
2021
- 2021-12-17 CN CN202111554153.7A patent/CN114388062A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN113555070A (zh) * | 2021-05-31 | 2021-10-26 | 宋洋 | 机器学习算法构建急性髓系白血病药敏相关基因分类器 |
CN113257345A (zh) * | 2021-06-09 | 2021-08-13 | 上海宝藤生物医药科技股份有限公司 | 一种利用基因序列信息预测药物最小抑菌浓度的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662503A (zh) * | 2022-04-29 | 2023-01-31 | 安徽农业大学 | 基于机器学习的细菌基因组数据预测细菌表型特征的方法 |
CN116825182A (zh) * | 2023-06-14 | 2023-09-29 | 北京金匙医学检验实验室有限公司 | 一种基于基因组ORFs筛选细菌耐药特征的方法及应用 |
CN116825182B (zh) * | 2023-06-14 | 2024-02-06 | 北京金匙医学检验实验室有限公司 | 一种基于基因组ORFs筛选细菌耐药特征的方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alberdi et al. | A guide to the application of Hill numbers to DNA‐based diversity analyses | |
Bonhomme et al. | A local score approach improves GWAS resolution and detects minor QTL: application to Medicago truncatula quantitative disease resistance to multiple Aphanomyces euteiches isolates | |
Gebiola et al. | Integration of molecular, ecological, morphological and endosymbiont data for species delimitation within the Pnigalio soemius complex (Hymenoptera: Eulophidae) | |
King et al. | The Beavis effect in next-generation mapping panels in Drosophila melanogaster | |
Latorre et al. | Genomic surveillance uncovers a pandemic clonal lineage of the wheat blast fungus | |
Gan et al. | Deep whole-genome sequencing to detect mixed infection of Mycobacterium tuberculosis | |
Rampersad | Genetic structure of Colletotrichum gloeosporioides sensu lato isolates infecting papaya inferred by multilocus ISSR markers | |
Chan et al. | Evaluating imputation algorithms for low-depth genotyping-by-sequencing (GBS) data | |
Bermond et al. | Secondary contact and admixture between independently invading populations of the western corn rootworm, Diabrotica virgifera virgifera in Europe | |
Swift et al. | A review of normalization and differential abundance methods for microbiome counts data | |
CN114388062A (zh) | 基于机器学习预测抗生素抗性表型的方法、设备及应用 | |
US20230141128A1 (en) | Molecular technology for predicting a phenotypic trait of a bacterium from its genome | |
US20200357485A1 (en) | System and method for nucleotide analysis | |
Ma et al. | Population structure discovery in meta-analyzed microbial communities and inflammatory bowel disease | |
CA3154621A1 (en) | Single cell rna-seq data processing | |
JP2023517904A (ja) | 細菌ゲノムにおいてゲノム配列を検出するための分子技術 | |
Lammers et al. | Retrophylogenomics in rorquals indicate large ancestral population sizes and a rapid radiation | |
Zhang et al. | MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations | |
Corty et al. | QTL mapping on a background of variance heterogeneity | |
JP2018518725A (ja) | サンプル中の分類単位内の微生物の量を推定する方法及び装置 | |
Wang et al. | Interpretation of Manhattan plots and other outputs of genome-wide association studies | |
CN113260710A (zh) | 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法 | |
Zhou et al. | Data pre-processing for analyzing microbiome data–A mini review | |
Busch et al. | Using affinity propagation clustering for identifying bacterial clades and subclades with whole-genome sequences of Francisella tularensis | |
Zhang et al. | Inferring historical introgression with deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220422 |