CN116825182B

CN116825182B - 一种基于基因组ORFs筛选细菌耐药特征的方法及应用

Info

Publication number: CN116825182B
Application number: CN202310702705.7A
Authority: CN
Inventors: 蒋智; 陈方媛; 韩朋; 饶冠华; 贾雪峰
Original assignee: Jinshi Zhizao Tianjin Medical Technology Co ltd; Tianjin Jinke Medical Technology Co ltd; Beijing Jinshao Medical Laboratory Co ltd
Current assignee: Jinshi Zhizao Tianjin Medical Technology Co ltd; Tianjin Jinke Medical Technology Co ltd; Beijing Jinshao Medical Laboratory Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2024-02-06
Anticipated expiration: 2043-06-14
Also published as: CN116825182A

Abstract

本申请属于生物信息学技术领域，具体涉及一种基于基因组ORFs筛选细菌耐药特征的方法及应用。该方法基于细菌基因组从头预测获得的基因(ORF)进行细菌基因组遗传特征和药敏表型数据的关联分析，以筛选出与细菌耐药表型具有高关联的耐药特征。

Description

一种基于基因组ORFs筛选细菌耐药特征的方法及应用

技术领域

本申请属于生物信息学技术领域，具体涉及一种基于基因组ORFs筛选细菌耐药特征的方法及应用。

技术背景

基于细菌基因组从头预测基因是一种基因组学方法，是指在没有参考序列的情况下鉴定和注释细菌基因组，对基因组序列进行分析，以识别潜在的开放阅读框架(ORFs)，并预测它们是否具有编码蛋白质的能力。基因预测的方法主要有3种：1)分析mRNA和EST数据直接得到结果；2)通过相似性比对从已知基因和蛋白质序列得到间接证据；3)基于各种统计模型和算法从头预测，比如隐马尔可夫模型。其中通过相似性比对得到预测基因的方法最为常见，目前已经有许多的基因预测工具或者在线注释网站。然而，通过相似性比对可以获取参考基因数据库中的基因，对于新的潜在的功能基因，则需要通过从头预测方式结合与表型的关联研究才能获得。

随着抗生素耐药性(ABR)对全球公共卫生的威胁越来越大，抗生素耐药性研究已成为近年来的一个重点关注领域。对感染性疾病进行精准诊疗，减少抗微生物药物的误用和过度使用，是延缓病原体耐药性发展的重要措施。细菌耐药性检测技术包括以经典方法为主的肉汤稀释法、琼脂稀释法、纸片扩散法和浓度梯度法等。随后出现了一系列物理、化学方法和分子生物学检测技术，包括PCR、qPCR、微流控检测、飞行时间质谱等。随着高通量测序技术的发展，各类细菌耐药基因数据库的开发和完善，全基因组测序、宏基因组测序和微生物单细胞转录组测序等新技术已逐步应用于细菌耐药性检测领域。

然而，细菌耐药机制复杂，许多分子检测法仅依赖于一个或两个基因的检测，实际应用时很容易假阴性，而当样本中存在无效或不完整的耐药基因，又可能产生假阳性。另外，因为现有分子技术无法检测出新型(未知)耐药机制，细菌最终的耐药表型常常是由多种耐药机制综合作用导致等原因，仅仅检测一种或数种耐药机制尚不能准确指导抗感染治疗。目前分子方法依赖于已发表过的耐药特征基因或现有耐药基因数据库。因此，筛选找到与抗生素耐药性相关联的重要特征，并构建一个全面且精准的耐药基因数据库是至关重要的。

全基因组关联研究(Genome-Wide Association Studies，GWAS)是指在全基因组层面上，开展多中心、大样本、反复验证的基因与疾病的关联研究，是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型，从而寻找与复杂疾病相关的遗传因素的研究方法，全面揭示疾病发生、发展与治疗相关的遗传基因。全基因组关联研究(GWAS)对许多个体基因组中的数十万到数百万个基因变异进行了测试，以确定基因型-表型关联。GWAS同样可用于细菌研究,为宿主适应性、毒力等复杂表型的遗传机制探索提供新思路。且近年来，基于GWAS思想的应用机器学习方法的预测细菌耐药表型的分子药敏预测方法已有相关专利和文章的发表。鉴于此，提出本申请。

发明内容

为解决上述技术问题，本申请创新性的提出了一种基于细菌基因组从头预测获得的基因(ORF)进行细菌基因组遗传特征和药敏表型数据的关联分析方法。

因此，本申请至少包括如下目的：

本申请的第一目的是寻求一种耐药特征库的构建方法、产品及应用；

本申请的第二目的是寻求一种基于基因组ORFs的筛选细菌耐药特征的方法、产品及应用具体的，本申请提出如下技术方案：

本申请首先提供一种ORFs候选耐药特征库的构建方法，包括如下步骤：

1)收集细菌菌株基因组数据和药敏表型数据；

2)基于细菌ORFs蛋白序列进行聚类分析,获得各聚类中的非冗余代表基因序列；

3)基于非冗余代表基因序列相对于耐药表型的阳性检出一致性PPV和非冗余基因序列在总体菌株中的菌株发生频次筛选候选耐药基因，判定其耐药特征类型，构建ORF候选耐药特征库。

进一步的，所述步骤1)中，所述菌株个数≥100，所述菌株中耐药株和敏感株比例均衡；

优选的，所述细菌菌株基因组数据来源公共数据库和/或临床培养鉴定的菌株经测序和组装所得；

更优选的，所述公共数据库包括但不限于NCBI NDARO数据库；所述药敏表型数据包括但不限于PATRIC数据库。

进一步的，所述步骤2)具体为：预测各菌株基因组上ORFs序列，获得相应核酸和蛋白序列，合并所有菌株蛋白序列并基于合并序列进行聚类分析,得到各聚类中的非冗余代表基因序列；

优选的，所述聚类基于100％序列一致性进行聚类；

更优选的，所述聚类基于cd-hit软件进行聚类。

进一步的，所述步骤3)的筛选候选耐药基因具体步骤为：

基于聚类结果和药敏表型数据,计算各非冗余代表基因序列相对于耐药表型的阳性检出一致性PPV；

将非冗余代表基因序列两两同源性比对，将具有同源性的所有非冗余代表基因序列划分为一组(认为是同属于一个基因，其中各非冗余代表基因序列是该基因的不同序列型)；

根据各序列相对于耐药表型的PPV，划分高PPV亚组和低PPV亚组，计算高PPV亚组和低PPV亚组包含的所有非冗余基因序列在总体菌株中的菌株发生频次；

根据高PPV亚组和低PPV亚组两者的总体菌株发生频次比值差异筛选候选耐药基因并构建ORF候选耐药特征库；

优选的，所述相对于耐药表型的PPV＝检出当前基因且为耐药的菌株数目/检出当前基因的所有菌株数；

更优选的，所述高PPV亚组为PPV≥0.9的组，所述低PPV亚组为PPV<0.9的组。

进一步的，所述步骤3)的判定其耐药特征类型，具体为：

若发生频次比值高且低PPV亚组菌株发生频次为0或接近于0，则当前基因被判定为基因有无特征，选择高PPV亚组中发生频次最高的核酸序列型作为该基因最终的代表序列；若发生频次比值低且当前基因的总体菌株发生率为100％或接近100％，则当前基因被判定为基因变异的耐药特征，选择低PPV组中发生频次最高的核酸序列型为该基因最终的代表序列。

本申请更是提供了一种基于基因组ORFs的筛选细菌耐药特征的方法，所述方法包括上述ORFs候选耐药特征库的构建，并进一步包括如下步骤：

4)将收集的细菌基因组contig序列与步骤3)获得的所有候选耐药基因代表序列比对，检侧候选耐药基因的有无和/或变异信息；

5)针对目标抗生素，采用机器学习进行候选耐药基因及其变异信息与耐药表型数据关联分析，筛选出与耐药显著相关的重要特征。

进一步的，所述步骤4)中，所述比对具体为：使用软件blastn，参数identity>90％且参比基因覆盖度大于等于90％的hit,并最终选择每条contig比对区域的best hit作为contig区域的最终比对结果。

进一步的，所述步骤5)具体为：将药敏表型数据与步骤4)所得的候选耐药基因及其变异信息进行GWAS关联分析，筛选出与耐药产生可能相关的重要特征基因；使用LASSO回归模型进行筛选，得出与耐药表型高度相关的关键耐药基因,并计算得到这些基因的权重系数。

进一步的，上述方法中，所述细菌包括但不限于：大肠埃希菌，肺炎克雷伯菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌复合群、金黄色葡萄球菌、屎肠球菌、粪肠球菌、肺炎链球菌、化脓性链球菌、流感嗜血杆菌、表皮葡萄球菌、嗜麦芽窄食单胞菌；优选的为屎肠球菌；所述耐药表型包括但不限于：耐受碳青霉烯类、头孢菌素类、青霉素类、β内酰胺类抗生素抑制剂、氨基糖苷类、磺胺类、四环素类、喹诺酮类、糖肽类、恶唑烷酮类、多粘菌素类药物的表型。

本申请还提供一种基于基因组ORFs的筛选细菌耐药特征的系统，所述系统包括如下组件：

组件1)收据收集组件：该组件用于收集细菌菌株基因组数据和药敏表型数据；

组件2)非冗余代表基因序列获得组件：用于预测各菌株基因组上ORFs序列，获得相应核酸和蛋白序列，合并所有菌株蛋白序列并基于合并序列进行聚类分析,得到各聚类中的非冗余代表基因序列；

组件3)ORF候选耐药特征库构建组件，该组件基于非冗余代表基因序列相对于耐药表型的阳性检出一致性PPV和非冗余基因序列在总体菌株中的菌株发生频次筛选候选耐药基因，判定其耐药特征类型，构建ORF候选耐药特征库。

优选的，所述系统进一步包括如下组件：

组件4)检测组件：该组件将细菌基因组contig序列与组件3获得的所有候选耐药基因代表序列比对，检测候选耐药基因的有无和/或变异信息；

组件5)筛选组件：该组件针对目标抗生素，采用机器学习进行候选耐药基因及其变异信息与耐药表型数据关联分析，筛选出与耐药显著相关的重要特征。

本申请还提供一种电子设备，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如上任一项所述的方法。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如上任一项所述的方法。

本申请有益技术效果：

不同于过往的直接以目标物种群体snp 0-1矩阵、按某一固定序列相似性聚类得到的非冗余基因0-1矩阵或基因组kmer 0-1矩阵为遗传特征进行与耐药表型的关联研究，本申请拓展了细菌耐药机制研究及耐药特征挖掘的生物信息学方法，主要从全基因组水平上，基于细菌基因组基因编码区可挖掘潜在的耐药特征位点。本申请首先将所有相应蛋白序列聚类得到非冗余的代表序列，并结合与耐药表型的一致性，划分界定具有同源性的非冗余代表基因序列集合所代表的基因属于基因有无还是基因变异的耐药特征，以此获得候选的耐药基因或变异信息，最后再采用机器学习方法，对以上候选特征进行排序筛选出最终的关联度较高的耐药特征。

生物表型往往与其某些基因有关，然而与表型相关联的这些基因在该种群中往往又是具有多态性的，即同一个基因经过长期的进化或变异在种群中不同个体间的序列性并非完全相同，存在属于同一基因的不同基因型或序列型可能会造成不同的表型表现。对此，本申请有效避开了常规的基于某一固定阈值(如95％)进行基因聚类获得候选耐药基因的弊端，制定并实施了一套有效地挑选候选耐药基因的策略。本申请方法也适用于其他类似的基因型与表型的关联研究。

附图说明

图1、本申请总体技术流程图；

图2、针对屎肠球菌氨苄西林药物重要特征(ORF有无或ORF变异)的重要程度热图；

图3、ROC曲线验证筛选出的耐药屎肠球菌氨苄西林的特征ORF的可靠性。

具体实施方式

下面将结合实施例对本申请的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本申请，而不应视为限制本申请的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场购买获得的常规产品。

部分术语定义

除非在下文中另有定义，本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解，但仍然阐述以下定义以更好地解释本申请。

如本申请中所使用，术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的，且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案，这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。

在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”，“所述”，包括该名词的复数形式。

本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10％，优选±5％。

此外，说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类，是用于区分相似的元素，不是描述顺序或时间次序必须的。应理解，如此应用的术语在适当的环境下可互换，并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。

本申请的ORFs候选耐药特征库的构建方法包括如下基础步骤：

1)收集细菌菌株基因组数据和药敏表型数据；

如文中所用，“相对于耐药表型的阳性检出一致性PPV”是指检出当前基因且为耐药的菌株数目/检出当前基因的所有菌株数。

如文中所用，术语“ORFs”、“ORF”、“ORF序列”或“ORFs序列”为开放阅读框序列，是指一个基因的起始密码子到终止密码子的密码子组合,中间不被终止密码子打断,是直接可以翻译成目的蛋白的核酸序列。

在一些实施方式中，所述步骤1)中，所述菌株个数≥100；

在一些实施方式中，所述菌株中耐药株和敏感株比例均衡。

在一些优选实施方式中，所述细菌菌株基因组数据来源公共数据库和/或临床培养鉴定的菌株经测序和组装所得；

在一些更优选实施方式中，所述公共数据库包括但不限于NCBI NDARO数据库；所述药敏表型数据包括但不限于PATRIC数据库。

在一些实施方式中，所述步骤2)具体为：预测各菌株基因组上ORFs序列，获得相应核酸和蛋白序列，合并所有菌株蛋白序列并基于合并序列进行聚类分析,得到各聚类中的非冗余代表基因序列；

在一些优选实施方式中，所述聚类基于100％序列一致性进行聚类；

在一些更优选实施方式中，所述聚类基于cd-hit软件进行聚类。

在一些实施方式中，所述步骤3)具体为：

将非冗余代表基因序列两两同源性比对，将具有同源性的所有非冗余代表基因序列划分为一组，认为是同属于一个基因，其中各非冗余代表基因序列是该基因的不同序列型；

在一些实施方式中，所述高PPV亚组为PPV≥0.9的组，所述低PPV亚组为PPV<0.9的组。

在一些实施方式中，所述步骤3)中，所述判定当前基因是基因有无还是基因变异的耐药特征，具体为：

文中“基因有无特征”是指：检出特征基因即代表药敏表型为耐药，未检出特征基因代表药敏表型为敏感。

文中“基因变异特征”是指：检出的特征基因序列上存在的特定的snp/indel变异位点/区域时药敏表型为耐药，未检出为敏感。

本申请的基于基因组ORFs的筛选细菌耐药特征的方法，该方法除包括上述ORFs候选耐药特征库的构建外，进一步包括如下步骤：

在一些实施方式中，所述步骤4)中，所述比对具体为：使用软件blastn，参数identity>90％且参比基因覆盖度大于等于90％的hit,并最终选择每条contig比对区域的best hit作为contig区域的最终比对结果。

在一些实施方式中，所述步骤5)具体为：将药敏表型数据与步骤4)所得的候选耐药基因及其变异信息进行GWAS关联分析，筛选出与耐药产生可能相关的重要特征基因；使用LASSO回归模型进行筛选，得出与耐药表型高度相关的关键耐药基因,并计算得到这些基因的权重系数。

不做限制，上述方法中所述及的细菌类型包括但不限于：大肠埃希菌，肺炎克雷伯菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌复合群、金黄色葡萄球菌、屎肠球菌、粪肠球菌、肺炎链球菌、化脓性链球菌、流感嗜血杆菌、表皮葡萄球菌、嗜麦芽窄食单胞菌；优选的为屎肠球菌；上述方法中所述及的耐药表型可以包括但不限于：耐受碳青霉烯类、头孢菌素类、青霉素类、β内酰胺类抗生素抑制剂、氨基糖苷类、磺胺类、四环素类、喹诺酮类、糖肽类、恶唑烷酮类、多粘菌素类药物的表型。

下面结合具体实施例来阐述本申请。

实施例1.本申请方法体系的建立

本申请的方法步骤如下：

1)细菌菌株基因组及药敏信息数据获取。细菌菌株数据主要来源分为公共库和现有临床培养鉴定的菌株经测序和组装所得。公共数据的获取是从NCBINDARO数据库(http://www.nvbi.nlm.nih.gov/isolates)和PATRIC数据库平台(http://patricbrc.org)搜集有药敏测试结果的菌株，收集其基因组组装序列及药敏表型数据。

注：菌株基因组个数需大于等于100株，且耐药株和敏感株的比例尽量均衡,菌株来源尽量广泛，避免单克隆株。

2)基于基因组组装序列，使用Prodigal(软件版本V2.6.3)基因预测软件预测所有细菌基因组的cds区，和并所有菌株的ORFs，并将其翻译成蛋白序列。

3)使用cd-hit软件(软件版本V4.6)对得到的全部基因组蛋白序列，进行序列一致性100％，比对覆盖度100％的聚类分析，得到全部非冗余蛋白序列集和每个cluster代表的蛋白序列对应的ORF。

4)针对某一药物(如下以屎肠球菌的氨苄西林药物为例)，进行3)所得ORF与细菌菌株药敏表型进行关联分析，计算得到每个代表ORF相对于氨苄西林的耐药药敏表型的阳性一致率值(PPV＝检出当前基因且为耐药的菌株数目/检出当前基因的所有菌株数)。

5)基于4)所得的非冗余代表基因序列进行两两比对，将可能是来自同一基因的同源序列划分到一个同源基因组ORF构建候选耐药特征库。然后，按照4)所得PPV将各代表序列，将PPV大于等于0.9的cds定义为蛋白同源模型，而PPV小于0.9的cds定义为变异模型；分为高PPV组(PPV>＝0.9)和低PPV组(PPV<0.9)。随后分别统计两个组内所有序列在菌株的发生频次。如果同源基因组序列处于高PPV组且发生频率低，则该基因定义为基因有无特征，选取该组中频数最高的序列为代表序列；若同源基因组的处于低PPV组，但该基因的检出频次接近或等于100％，则该基因定义为基因变异模型特征，选取该组发生频次最多的序列作为代表序列。

6)细菌基因组与5)得到的ORF候选耐药特征库进行比对,使用软件blastn，参数identity>90％且参比基因覆盖度大于等于90％的hit,并最终选择每条contig比对区域的best hit作为contig区域的最终比对结果。

7)将屎肠球菌氨苄西林的药敏表型结果与代表ORF数据进行GWAS关联分析，筛选出与耐药产生可能相关的重要特征基因。使用LASSO回归模型(R语言glmnet程序包)进行筛选，得出与耐药表型高度相关的关键耐药基因,并极端得到这些基因的权重系数。

拉索回归分析方法为：以基因检出分布矩阵(0-1矩阵，0代表未检出，1代表检出)和屎肠球菌氨苄西林药物表型结构作为输入文件，使用glmnet包进行ORF与药敏表型进行关联，并做交叉验证，筛选得到与耐药表型相关的重要基因。

8)重要CDS特征功能注释，筛选出的重要ORF与CARD(版本V3.1.0)比对，确定筛选得到的ORF是已知功能基因或者未知功能基因。

9)当确定7)筛选出的与药敏表型相关的重要权重ORF和8)的ORF注释信息后，对此药敏预测模型进行ROC曲线绘制，确定模型性能。

实施例2.特征基因的筛选和验证

本实施例以屎肠球菌耐氨苄西林为例。

1)从公共数据库(NCBI NDARO和PATRIC)搜索下载屎肠球菌基因组和其对应的氨苄西林的药敏表型数据。

2)从NCBI NDARO数据库下载：打开网址http://www.nvbi.nlm.nih.gov/isolates,在搜索栏输入”Enterococcus faecium”检索屎肠球菌信息，然后在MatchedIsolates子窗口，点击“Chose columns”选择“AST pheotypes”将此列信息展示出来，接着下载整个窗口的表格数据，整理具有药敏测试结果数据的肺克菌株，根据Assembly ID信息，从NCBI的genome数据库(ftp://ftp.ncbi.nlm.nih.gov/genomes)批量下载基因组序列。

3)从PATRIC网站下载屎肠球菌基因组数据：打开网址http://patricbrc.org,在搜索窗口BROWSE栏选择点击BACTERIA按钮，首选选择“AMR Phenotypes”,在KEYWORDS栏输入“Enterococcus faecium”进行筛选，同时过滤掉Evidence列为“Computational Method”仅保留“Laboratory Method”条目，得到屎肠球菌菌株药敏信息并下载表格，然后选择“Genome”，添加“Assembly Accession”列后下载数据表格。根据下载的两个表格里GEnomeID对应找到具有药敏测试结果数据的菌株基因组PATRIC ID或Assembly ID，然后从PATRIC或NCBI genome数据库(ftp://ftp.ncbi.nlm.nih.gov/genomes)批量下载基因组序列。

4)合并NCBI NDARO和PATRIC数据库下载的基因组，过滤掉低质量和冗余的基因组，最终得到1475株(R:S＝1311:164)有药敏结果的屎肠球菌的基因组。

5)基于下载的屎肠球菌基因组contig序列比对自建ORF耐药候选特征库，采用blastn(版本V2.9.0+)将基因组contig与自建cdsST型耐药候选特征库进行比对，过滤掉identity小于90％或参比基因覆盖度小于90％的hit,然后针对各contig上比对上的区域选择best hit作为改contig区域的最终比对结果。分析得到所有菌株的基因检出谱，生成0-1矩阵。

6)基于2)得到的所有菌株基因检出谱，与屎肠球菌的氨苄西林药敏结果进行关联分析，过滤掉检出频率低于3个的特征基因和PPV小于0.8的特征基因，使用LASSO(R语言glment)进行关联分析，筛选得到与氨苄西林的耐药相关的重要特征基因和这些特征的重要程度，并赋予不同的权重分。

综上方法，针对氨苄西林本实施例最终确定一个重要特征基因：efm_PEN_pbp:1886(A->T)，具体如下表：

7)ROC分析确定筛选出的特征基因确定模型性能

针对检出特征基因判断屎肠球菌氨苄西预测药物敏感型的预测结果判定，设定耐药敏感阈值等于氨苄西林特征efm_PEN_pbp:1886(A->T)的权重系数，当检出efm_PEN_pbp:1886(A->T)时，预测结果为耐药，否则为敏感。

最终屎肠球菌氨苄西林的模型ROC为：0.9836119328012501，结果见附图3，可见其预测能力优秀。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种ORFs候选耐药特征库的构建方法，其特征在于，包括如下步骤：

1）收集细菌菌株基因组数据和药敏表型数据；

2）基于细菌ORFs蛋白序列进行聚类分析,获得各聚类中的非冗余代表基因序列；

3）基于非冗余代表基因序列相对于耐药表型的阳性检出一致性PPV和非冗余基因序列在总体菌株中的菌株发生频次，筛选候选耐药基因，判定其耐药特征类型，构建ORF候选耐药特征库；

所述步骤3）中，所述筛选候选耐药基因的步骤为：

将非冗余代表基因序列两两同源性比对，将具有同源性的所有非冗余代表基因序列划分为一组；

根据高PPV亚组和低PPV亚组两者的总体菌株发生频次比值差异，筛选候选耐药基因；

所述相对于耐药表型PPV=检出当前基因且为耐药的菌株数目/检出当前基因的所有菌株数；

所述高PPV亚组为PPV≥0.9的组，所述低PPV亚组为PPV<0.9的组。

2.根据权利要求1所述的构建方法，其特征在于，所述步骤1）中，所述菌株个数≥100；所述细菌菌株基因组数据来源公共数据库和/或临床培养鉴定的菌株经测序和组装所得的数据。

3.根据权利要求1所述的构建方法，其特征在于，所述步骤2）具体为：预测各菌株基因组上ORFs序列，获得相应核酸和蛋白序列，合并所有菌株蛋白序列并基于合并序列进行聚类分析,获得各聚类中的非冗余代表基因序列。

4.根据权利要求1所述的构建方法，其特征在于，所述步骤3）中，所述判定其耐药特征类型具体为：

若发生频次比值高且低PPV亚组菌株发生频次为0或接近于0，当前基因被判定为基因有无特征，选择高PPV亚组中发生频次最高的核酸序列型作为该基因最终的代表序列；若发生频次比值低且当前基因的总体菌株发生率为100%或接近100%，则当前基因被判定为基因变异的耐药特征，选择低PPV组中发生频次最高的核酸序列型为该基因最终的代表序列。

5.一种基于基因组ORFs的筛选细菌耐药特征的方法，其特征在于，所述方法包括权利要求1-4任一所述方法，并进一步包括如下步骤：

4）将收集的细菌基因组contig序列与步骤3）获得的所有候选耐药基因代表序列比对，检测候选耐药基因的有无和/或变异信息；

5）针对目标抗生素，采用机器学习进行候选耐药基因及其变异信息与耐药表型数据关联分析，筛选出与耐药显著相关的重要特征。

6.根据权利要求5所述的筛选细菌耐药特征的方法，其特征在于，所述步骤5）具体为：将药敏表型数据与步骤4）所得的候选耐药基因及其变异信息进行GWAS关联分析，筛选出与耐药产生可能相关的重要特征基因；使用LASSO回归模型进行筛选，得出与耐药表型高度相关的关键耐药基因,并计算得到这些基因的权重系数。

7.根据权利要求1-6任一所述的方法，其特征在于，所述细菌包括但不限于：大肠埃希菌，肺炎克雷伯菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌复合群、金黄色葡萄球菌、屎肠球菌、粪肠球菌、肺炎链球菌、化脓性链球菌、流感嗜血杆菌、表皮葡萄球菌、嗜麦芽窄食单胞菌；所述耐药表型包括但不限于：耐受碳青霉烯类、头孢菌素类、青霉素类、β内酰胺类抗生素抑制剂、氨基糖苷类、磺胺类、四环素类、喹诺酮类、糖肽类、恶唑烷酮类、多粘菌素类药物的表型。

8.一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行如权利要求1-7任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。