CN116631501A - 一种耐药基因物种归属预测的模型构建方法 - Google Patents

一种耐药基因物种归属预测的模型构建方法 Download PDF

Info

Publication number
CN116631501A
CN116631501A CN202310625501.8A CN202310625501A CN116631501A CN 116631501 A CN116631501 A CN 116631501A CN 202310625501 A CN202310625501 A CN 202310625501A CN 116631501 A CN116631501 A CN 116631501A
Authority
CN
China
Prior art keywords
drug
gene
genes
resistant
species
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310625501.8A
Other languages
English (en)
Inventor
饶冠华
韩朋
高建鹏
陈方媛
蒋智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinke Medical Technology Co ltd
Original Assignee
Tianjin Jinke Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinke Medical Technology Co ltd filed Critical Tianjin Jinke Medical Technology Co ltd
Priority to CN202310625501.8A priority Critical patent/CN116631501A/zh
Publication of CN116631501A publication Critical patent/CN116631501A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物信息学技术领域,具体涉及一种基于基因测序reads比对的用于检测鉴定耐药基因和预测耐药表型的模型构建方法。本发明结合耐药表型相关重要特征基因,构建实现基于测序read序列直接进行目标病原细菌及其携带的耐药基因的比对检测鉴定,以及耐药表型的预测。

Description

一种耐药基因物种归属预测的模型构建方法
本申请为2021年12月30日递交的中国专利申请CN 202111680866.8的分案申请。
技术领域
本申请涉及生物信息学技术领域,具体涉及一种基于基因测序read比对检测鉴定耐药基因以及预测耐药表型的方法。
技术背景
感染病原菌及其耐药性的精准检测是指导临床进行精准用药治疗的关键。目前,针对感染病原菌耐药性的实验室检测,分为表型检测和基因型检测。在表型检测方法方面,临床主要采用的是微生物培养+药敏试验这一金标准方法,该方法可为临床感染的诊断和治疗提供了有力的依据,但是也存在一些局限,如培养比较耗时(一般2-4天)、病原菌培养阳性率低,培养过程容易受到多种不确定的因素影响等,有些难培养或罕见病原菌甚至无法顺利培养出来。其他检测技术如Carba NP试验、改良碳青霉烯灭活试验(包括mCIM和eCIM)、碳青霉烯酶抑制剂增强试验和时间飞行质谱技术等,是针对临床常见的肠杆菌目碳青霉烯酶的检测,其仅适用于由于产相关酶造成的碳青霉烯类药物耐药性的检测,对于其他机制(如外排泵机制)造成的耐药性无法检测。基因型检测,包括酶免疫层析技术和基因检测技术。酶免疫层析技术和常规基因检测技术(如GeneXpert、Verigene和Filmarray等检测系统),检测针对的是特异度靶基因,具有快速易解读的特点,但若待测基因与靶基因不同,容易会呈现假阴性结果。
随着测序技术的不断发展和测序成本的降低,基于测序进行病原菌及其耐药基因的检测也逐渐流行起来。微生物基因组测序,包括全基因组测序(WGS)和宏基因组测序(mNGS)两种策略。针对细菌菌株的全基因组测序,已有研究表明基于单一种群的所有菌株基因组数据和对应的耐药表型数据构建模型(rule-based model或machine-learningmodel),然后用于对新菌株基因组数据分析预测其耐药表型,具有较好的效果(准确率可达到95%以上),但是存在一个局限,就是全基因组测序同样地绕不开对病原菌培养富集的限制。而病原体宏基因组高通量测序(mNGS),是最近十余年发展起来的新型病原体检测手段,不同于微生物培养,mNGS不需要筛选得到环境中所有病原体的纯培养物,就可以从少量的样本中一次性读取所有病原体核酸的碱基序列,并提供病原体的种类等信息。mNGS具有检测快速、覆盖病原广、无偏差的特点,且已有不少相关应用研究文章发在了高水平SCI期刊上,再者,这些已发表的文章中不少也都针对耐药基因的检测做了分析和论述,说明了mNGS具有预测病原菌药敏特性的潜在价值。然而,对于临床标本(肺泡灌洗液、血液、脑脊液等),我们知道其由于往往受宿主污染严重(提取得到的样本总核酸中宿主核酸占比达95%以上),其中含有的微生物载量较低,在现有常规的20M左右reads数的测序量下,临床标本测得的细菌基因组覆盖很多不超过1X。那么在此测序数据量情况下,mNGS能否很好地鉴定出病原菌,并同时准确地检测出耐药基因进行病原菌耐药性的预测,有必要进一步探究mNGS的检测效能。
发明内容
为解决上述技术问题,本发明结合BGWAS已筛选确定的耐药表型相关重要特征基因,构建实现基于NGS或nanopore测序read序列直接进行目标病原细菌及其携带的耐药基因的比对检测鉴定以及预测耐药表型的数据分析方法及系统。针对前期BGWAS纳入的训练集所有菌株基因组,通过模拟NGS或nonopore测序read序列比对(read-based)和基因组Contig序列比对(assembly-based)进行目标耐药基因的检测,并以assmbly-based方法检测结果为参比,验证和优化read-based检测流程,以实现read-based精准检测基因分型的目的。然后,自定义公式计算Score,且以此Score作为预测抗生素药物药敏性质的判读指标,并结合read序列模拟测试进行ROC分析以确定最佳cutoff阈值,同时评估预测模型的准确性和性能。最后,使用临床标本或培养分离的纯病原菌菌株标本进行验证,评估该分析系统的有效性。
具体的,本申请提出如下技术方案:
本申请首先提供一种基于基因测序reads比对的、用于检测鉴定耐药基因和预测耐药表型模型构建的方法,包括如下步骤:
步骤1):结合比如CARD耐药数据库耐药基因的分类信息,整理校正耐药基因家族信息、基因序列间一致性注释信息,优选的,还包括整理校正来源物种信息和/或介导方式;
步骤2):耐药基因家族权重系数计算,基于家族内成员基因的权重系数以及BGWAS模型训练集中相应基因的样本检出频数,计算基因家族权重系数;
步骤3):耐药基因的检测和流程校正。
进一步的,所述步骤1)中,
所述基因家族是根据耐药数据库记录的基因所属家族信息定义,同时参考NCBINDARO数据库和MEGARes数据库记录的耐药基因所属家族信息进行梳理校正;
所述来源物种信息是将所有耐药参考基因与NCBI NT库比对,保留identity>=95%且subject coverage>=95%的hit,以获取各耐药基因的所有物种注释信息;
所述介导方式为在比对上的参考序列描述信息中查询耐药基因是否由质粒介导;
所述基因序列间一致性注释信息为将所有耐药基因序列进行两两比对,得到所有基因序列间的一致性值。
进一步的,所述步骤2)中,所述权重系数定义公式如下:
式中,arg_Ni为目标基因家族内相应基因在BGWAS模型训练集中有检出的样本个数,arg_Wi为家族内相应基因的权重系数,j表示家族内有j个关键基因,j+k表示家族内所有基因数目。
进一步的,所述步骤3)耐药基因的检测和流程校正包括如下步骤:
a)测序Reads数据模拟;
b)序列比对与注释统计;
c)耐药基因的筛选过滤。
进一步的,所述a)测序Reads数据模拟是基于BGWAS模型训练集菌株样本进行数据模拟;优选的:
使用ART_Illumina软件模拟细菌菌株基因组NGS测序短reads序列数据;
使用ReadSim软件模拟细菌菌株基因组Nanopore测序reads序列数据;
更优选的,所述模拟为模拟0.05X、0.1X、0.2X、0.3X、0.4X、0.5X、0.6X、0.7X、0.8X、0.9X、1X、2X、3X、5X、10X、30X梯度数据量。
进一步的,所述b)序列比对与注释统计包括:
将模拟的reads序列与耐药基因库比对,过滤低质量hit;进行最终基因注释,并统计得到样本中耐药基因检出的特异性reads数、多重比对reads数以及耐药基因所属家族的reads数,计算检出基因的覆盖度;
优选的,采用最佳比对和LCA算法对reads序列进行最终基因注释为:挑选每条reads序列最高score的hit即best hit为最终hit,如果best hit存在多个相同值的,即多重比对,则对这多个hit采用LCA算法进行该read序列的最终注释,即针对单条read序列,由于多重比对导致注释不到基因型,进而向更高一层级注释为基因家族水平;
更优选的,
针对NGS测序数据,使用blastn软件将模拟的reads序列与耐药基因库比对,过滤保留identity高于90%的hit;
针对Nanopore测序数据,使用minimap2软件进行与耐药参考基因库的比对,过滤掉identity低于0.7或subject coverage低于0.4的hit。
进一步的,所述c)耐药基因的筛选过滤为:对步骤b)比对上reads序列的耐药基因进行筛选过滤;
优选的,包括如下任一或多个筛选过滤标准:
A)评估耐药基因参考库中不同分型基因间序列一致性对read-based精准检测耐药基因分型的影响:通过挑取在数据库中具有不同最大序列一致性的耐药基因,模拟短reads序列进行read-based流程检测分析,统计目标基因检出的特异性reads数和所有比对上目标基因的reads数;针对是否有特异性reads序列检出鉴定基因分型的策略,以95%identity选作为目标基因可否容易实现精准分型的阈值标准;
B)基于耐药基因分型鉴定的筛选过滤:针对与数据库内其他基因具有高相似度的目标基因,采用所有能够比对目标基因的reads数排第一位的作为真阳性检出,对于非第一位的保留基于精确比对read计算得到覆盖度为100%的基因,作为真阳性检出;二是针对与数据库内其他基因具有低相似度的目标基因,根据检出特异性reads数目进行判断是否为真阳性结果;对于一些未检出特异性reads的基因家族直接过滤掉;
C)评估read-based检测鉴定耐药基因分型的准确性:以BGWAS模型训练过程中assembly-based检测耐药基因的结果为参比,针对BGWAS模型筛选出来的重要基因或基因家族,统计得到read-based检测耐药基因或基因家族的准确性、敏感度和特异性指标,
进一步的,步骤4):定义并计算阴阳性判断指标Score值,基于ROC分析确定报告规则及cutoff阈值;
所述Score值计算如下:
式中,arg_Wi表示相应基因型的权重系数,genefamily_Wi表示相应基因家族的权重系数;当检出基因型且基因型权重系数>0,以基因型权重系数计算;当检出基因型,但基因型权重系数为0或无权重系数,则以基因家族权重系数计算。
进一步的,所述测序reads为一代、二代、三代测序reads,优选的为NGS或Nanopore测序reads;更优选的为NGS或Nanopore宏基因组测序reads。
本发明还提供一种耐药基因物种归属预测的模型构建方法,其特征在于,所述方法包括如下步骤:
步骤1):目标病原菌种基因组序列比对及检出序列数、基因组覆盖度和覆盖深度计算;
步骤2):基于BGWAS模型训练集标本耐药基因检出结果,统计目标病原菌种携带的耐药基因拷贝数;
步骤3):基于假定的基因-物种归属关系,进行耐药基因拷贝数计算及物种归属判断。
进一步的,所述步骤1)具体为
选择临床常见的病原细菌设定为目标病原,从NCBI genome数据库上搜索下载目标病原菌参考基因组,以此作为目标病原菌种鉴定的参比序列库;
将各测序reads序列与以上参比序列库进行比对,计算比对上目标病原菌种的检出序列数、基因组覆盖度和覆盖深度;统计得到检出病原菌种的总reads序列数、基因组覆盖度和覆盖深度。
进一步的,所述步骤2)具体为:
基于BGWAS模型训练时训练集样本的assembly-based耐药基因检测结果,统计得到目标病原菌种耐药基因和耐药基因家族的检出分布及拷贝变化范围。
进一步的,所述步骤3)具体为:
假定耐药基因-物种对应关系时,主要依据:a、数据库中参考基因的物种注释是否包含目标物种,如果包含则先接受该基因-物种归属关系的假设;b、如果a不满足,则查看数据库中参考基因的介导方式注释,是否包含质粒介导方式,如果包含则先接受该基因-物种归属关系的假设;c、如果a、b不满足,则根据ARG-like reads的物种注释进行推测其物种来源,按如下公式计算耐药基因的拷贝数:
如果计算得到的耐药基因拷贝数,落在基于BGWAS模型训练集统计得到的目标基因家族的正常拷贝数范围内,则接受此上述假定的基因-物种归属关系,否则拒绝。
本发明还提供一种宏基因组测序数据的耐药检测的方法,包括如下步骤:
1)对样本测序数据进行质控和人源核酸序列去除;
2)检测鉴定样本所含有的耐药基因:基于上述检测鉴定方法进行样本序列的耐药基因比对和注释统计,检测鉴定样本所含有耐药基因;
3)预测样本中检出耐药基因的物种归属:按照上述物种归属预测方法鉴定样本中含有的目标病原细菌,以及对检出耐药基因的物种归属进行预测;
4)针对目标病原细菌,根据检出的其耐药基因携带情况,按照上是上述score计算方式,计算获得目标物种-抗生素药物的score值,并与cutoff值进行比较:当score>=cutoff时,则预测为R;score<cutoff时,如果检出病原基因组覆盖度高于模型稳定所需要的最低基因组覆盖度或数据量,则预测为S,否则报告为未知。
本发明还提供一种基于基因测序reads比对检测鉴定耐药基因的模型,包括如下模块:
模块1):用于结合CARD耐药数据库耐药基因的分类信息,整理校正耐药基因家族信息、基因序列间一致性注释信息,优选的,还包括整理校正来源物种信息和/或介导方式;
模块2):用于耐药基因家族权重系数计算,基于家族内成员基因的权重系数以及BGWAS模型训练集中相应基因的样本检出频数,计算基因家族权重系数;
模块3):用于耐药基因的检测和流程校正。
本发明还提供一种耐药基因物种归属的预测模型,所述方法模块如下步骤:
模块1):用于目标病原菌种基因组序列比对及检出序列数、基因组覆盖度和覆盖深度计算;
模块2):用于基于BGWAS模型训练集标本耐药基因检出结果,统计目标病原菌种携带的耐药基因拷贝数;
模块3):用于基于假定的基因-物种归属关系,进行耐药基因拷贝数计算及物种归属判断。
上述模型中各模块的进一步限定同上述任一方法中各步骤的限定。
本发明还提供一种装置,包括:至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行如上任一项所述方法。
本发明还提供一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如上任一项所述方法。
本发明还提供如下内容:
基因AAC(3)-IIe、AAC(3)-IV、AAC(3)-IId、rmtC、armA、rmtF、rmtB、AAC(6')-33和ANT(2”)-Ia作为非核心型耐药基因在肺炎克雷伯菌辅助药敏预测中的应用;
所述药敏预测包括耐药预测和敏感预测,优选为敏感预测;
更优选,所述药敏针对庆大霉素药物。
针对非核心型耐药基因AAC(3)-IIe、AAC(3)-IV、AAC(3)-IId、rmtC、armA、rmtF、rmtB、AAC(6')-33和ANT(2”)-Ia检测试剂在制备肺炎克雷伯菌辅助药敏预测试剂盒中的应用;
所述药敏预测包括耐药预测和敏感预测,优选为敏感预测;
更优选的,所述药敏针对庆大霉素药物;
进一步优选的,通过对于主要介导耐药产生的高频次发生且权重较高的AAC(3)-IIe、AAC(3)-IV、AAC(3)-IId、rmtC、armA、rmtF、rmtB、AAC(6')-33和ANT(2”)-Ia基因同时进行检测,若检测结果均为阴性,推测为敏感。
基因AAC(3)-IV、AAC(3)-IId、AAC(6')-Ib'、AAC(6')-Ib-cr、AAC(6')-Ib-Hangzhou、AAC(6')-Ib4、mphE、ANT(2”)-Ia和aadA24作为非核心型耐药基因在肺炎克雷伯菌辅助药敏预测中的应用;
所述药敏预测包括耐药预测和敏感预测,优选为敏感预测;
更优选,所述药敏针对妥布霉素药物。
针对非核心型耐药基因AAC(3)-IV、AAC(3)-IId、AAC(6')-Ib'、AAC(6')-Ib-cr、AAC(6')-Ib-Hangzhou、AAC(6')-Ib4、mphE、ANT(2”)-Ia和aadA24检测试剂在制备肺炎克雷伯菌辅助药敏预测试剂盒中的应用;
所述药敏预测包括耐药预测和敏感预测,优选的为敏感预测;
更优选的,所述药敏针对妥布霉素药物;
进一步优选的,通过对于主要介导耐药产生的高频次发生且权重较高的AAAC(3)-IV、AAC(3)-IId、AAC(6')-Ib'、AAC(6')-Ib-cr、AAC(6')-Ib-Hangzhou、AAC(6')-Ib4、mphE、ANT(2”)-Ia、aadA24基因同时进行检测,若检测结果均为阴性,推测为敏感。
基因CTX-M-55、CTX-M-11、CTX-M-15、SHV-155、SHV-5、SHV-11、SHV-12、SHV-76、SHV-30、SHV-53、SHV-124、SHV-182、DHA-1、KPC-3和KPC-2作为非核心型耐药基因在肺炎克雷伯菌辅助药敏预测中的应用。
所述药敏预测包括耐药预测和敏感预测,优选为敏感预测;
更优选,所述药敏针对头孢他啶药物。
针对非核心型耐药基因CTX-M-55、CTX-M-11、CTX-M-15、SHV-155、SHV-5、SHV-11、SHV-12、SHV-76、SHV-30、SHV-53、SHV-124、SHV-182、DHA-1、KPC-3和KPC-2检测试剂在制备肺炎克雷伯菌辅助药敏预测试剂盒中的应用;
所述药敏预测为耐药预测;
优选的,所述药敏针对头孢他啶药物。
更优选的,通过对于主要介导耐药产生的高频次发生且权重较高的CTX-M-55、CTX-M-11、CTX-M-15、SHV-155、SHV-5、SHV-11、SHV-12、SHV-76、SHV-30、SHV-53、SHV-124、SHV-182、DHA-1、KPC-3和KPC-2基因进行检测,若检测结果均为阳性,推测耐药。
基因dfrA12、dfrA15、dfrA17、dfrA19、dfrA30、dfrA8、dfrA5、dfrA15b、dfrA14、dfr22、dfrA27和dfrA1作为非核心型耐药基因在肺炎克雷伯菌辅助药敏预测中的应用;
所述药敏预测为耐药预测;
优选的,所述药敏针对复方新诺明药物。
针对非核心型耐药基因dfrA12、dfrA15、dfrA17、dfrA19、dfrA30、dfrA8、dfrA5、dfrA15b、dfrA14、dfr22、dfrA2和dfrA1检测试剂在制备肺炎克雷伯菌辅助药敏预测试剂盒中的应用;
所述药敏预测为耐药预测;
优选的,所述药敏针对复方新诺明药物。
更优选的,通过对于主要介导耐药产生的高频次发生且权重较高的dfrA12、dfrA15、dfrA17、dfrA19、dfrA30、dfrA8、dfrA5、dfrA15b、dfrA14、dfr22、dfrA27和dfrA1基因同时进行检测,若检测结果均为阳性,推测为耐药。
本申请有益技术效果:
1)本发明是基于核酸分子检测耐药的方法,绕开了传统培养的限制,直接针对临床标本进行宏基因组测序检测鉴定目标病原菌种及其耐药基因携带情况,并进一步基于耐药基因的有无检出特征预测抗生素药物的药敏结果,本发明亦适用于纯菌株标本。
2)本发明在检测鉴定耐药基因时,是直接基于NGS或nonapore测序的reads序列进行耐药基因比对检测,相较于基于基因组contig的比对检测,绕过基因组组装步骤,具有更高的检测灵敏度。具体地,构建了一套read-based耐药基因比对检测方法以及相应的数据库,并同时以asembly-based方法的耐药基因检测结果作为参比,对read-
based流程性能进行验证和评估,保证read-based检测耐药基因的准确性。
3)本发明针对read-based耐药基因检测,构建了一个特异性的耐药基因参考数据库,尤其是对耐药基因分型及其分类划分的整理,实现了可对待查询序列采用LCA的注释策略。具体地,收录了CARD耐药公共库的所有基因序列作为参考基因,参考MEGARes数据库的基因多级水平标注方式和NCBI NDARO数据库中记录的耐药基因所属家族信息,对每个参考基因做了6级水平的标注,以此可以实现对耐药基因的LCA(lowest
common ancestors)注释策略,即获得各级水平的检出特异性reads数目。以OXA-181
基因为例,其6级水平的标注为:OXA-181__1(L1_geneST),OXA-
181(L2_genetype),OXA-48subfamily(L3_subgroup),OXA family(L4_Group),
Class_D_betalactamases(L5_Mechanism),betalactams(L6_Class)。
4)本发明针对read-based耐药基因分型的精准检测,采用了两种规则相结合的策略,可有效提高检测流程的基因分型能力和准确性。一是针对与数据库内其他基因具有高相似度(如一致性超过95%)的目标基因,采用了ARG-like reads数(即所有能够比对目标基因的reads数,或者特异性reads数+多重比对reads数)排第一位的作为真阳性检出,对于非第一位的则保留基于精确比对read计算得到覆盖度为100%的基因,作为真阳性检出;二是针对与数据库内其他基因具有低相似度的目标基因(一致性低于95%),则主要根据检出特异性reads数目进行判断是否为真阳性结果。对于一些未检出特异性
reads的家族,会被认为是假阳性而直接被过滤掉。
5)本发明定义了一种基于耐药基因分型权重系数计算相应耐药基因家族权重系数的方法
(或公式),针对存在基因分型可能不准确的情况,代替采用基因家族权重参与计算和预测药敏结果,有效避免了由于基因分型不准而可能导致的假阳性。
6)本发明定义了一种预测药敏结果的方法规则,即定义了阴阳性判读指标Score的计算公式,并同时结合不同测序数据量的梯度模拟测试评估预测模型的性能以及确定cutoff
阈值,最终实现可有效的预测抗生素药敏结果。
7)本发明针对临床标本的宏基因组测序(混合菌群测序),定义了一种基于目标病原细菌和耐药基因检出序列情况来计算耐药基因拷贝数的方法(或公式),并根据计算得到的耐药基因拷贝数,来预测评估耐药基因的可能病原物种来源。具体地,在推断耐药基因-病原物种对应关系时,先根据实际检出的耐药基因和病原物种信息,假设耐药基因来源于某目标物种,然后计算耐药基因拷贝数,查看计算出来的拷贝数是否落在正常范围内,如果正常,则考虑接受此归属关系,否则拒绝。假定耐药基因-物种对应关系时,主要依据:a、数据库中参考基因的物种注释是否包含目标物种,如果包含则先接受该基因-物种归属关系的假设;b、如果a不满足,则查看数据库中标注的参考基因的介导方式信息,是否包含质粒介导方式,如果包含则先接受该基因-物种归属关系的假设;c、如果a、b不满足,则根据ARG-like reads的物种注释进行推测其物种来源。
8)以肺炎克雷伯菌抗生素药物耐药性检测为例,本发明可以准确鉴定肺炎克雷伯菌种及其携带的耐药基因,并能够有效地预测碳青霉烯类(亚胺培南、美罗培南)、氨基糖苷类
(庆大霉素、妥布霉素)的药敏结果以及预测头孢他啶、复方新诺明的耐药性质,预测准确率在90%以上。临床标本抽样验证显示,碳青霉烯的药敏预测准确率可达100%,且明确给出药敏预测结果提示的样本例数占比在80%以上。本发明可辅助临床进行感染耐药菌的检测诊断。
附图说明
图1本发明的技术路线图;
图2针对与数据库其他基因不同identity的目标基因,模拟100X目标基因read数据进行耐药基因检测测试结果图。图中,ARG-like为检出的目标基因或非目标基因的序列数占目标基因所属家族检出序列数比例,Specific为检出的目标基因特异性序列数。
图3以assembly-based耐药基因检测结果为参考,read-based鉴定基因分型或基因家族分型的准确性性能图。
图4基于read-based耐药基因检测进行Score指标计算和报告规则的技术流程图图5模拟不同测序数据量下的6个抗生素耐药预测模型性能(AUC值)变化曲线图图6针对训练集和验证集,模拟30X基因组数据量下的6个抗生素药物预测模型性能(AUC值)图。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义
除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
本申请所述的“耐药”又称抗药性,系指微生物、寄生虫以及肿瘤细胞对于药物作用的耐受性,耐药性一旦产生,药物作用就明显下降。本申请优选的指体内感染为细菌对于抗生素类药物的耐药性。
本申请所述的“耐药表型”,通常是指为生物呈现的耐药特征称为耐药表型(resistant phenotype),而拥有的耐药基因称为耐药基因型(resistant genotype)。
本申请所述的“非核心基因”是这样一类基因,针对某细菌种群,仅在部分菌株中存在的基因,与之相对应的是核心基因,即所有菌株中都存在的基因。本申请方法检测的耐药基因主要是针对这种非核心基因。
本申请所述的“重要特征基因”是指上述非核心耐药基因,即与某一抗生素药物耐药表型显著相关的耐药特征或耐药基因。
本发明所述的“read-based”是指read序列比对:将测序read序列直接比对耐药基因库,进行耐药基因的检测分析。
本发明所述的“assembly-based”是指基因组Contig序列比对;将测序read序列进行物种基因组组装获得contig,然后基于contig序列比对耐药基因库,进行耐药基因的检测分析。
本发明所述的“BGWAS”或“BGWAS模型”是指细菌全基因组关联分析,即将细菌基因组数据与耐药表型数据进行关联分析,以筛选找到与耐药表型显著相关的重要耐药特征或耐药基因。
相应的,“BGWAS模型训练集”是指开展细菌全基因组关联分析时所使用到的所有细菌菌株数据,即模型训练集。
关于“BGWAS”或“BGWAS模型”,详细也可参见申请人早期专利CN202111400540.5,该模型具体包括如下模块:
模块1)、用于获取目标细菌菌株基因组数据,同时收集对应药敏测试结果数据;
模块2)、用于基于细菌基因组的contig序列进行耐药数据库的比对注释;
模块3)、用于针对目标药物,进行基因型与耐药表型数据关联分析,筛选与耐药产生相关的重要特征基因,并计算重要特征基因权重系数;优选的,所述重要特征基因为非核心型耐药基因。
模块4)、ROC分析评估基于筛选出的重要基因预测药敏结果的模型性能。
所述ROC分析如下:基于步骤3)得到的重要基因权重系数的矩阵,定义并计算Score值,并以此作为阴阳性判读指标,绘制ROC曲线以及确定cut off值,用验证集样本进行验证和评估模型性能;所述其中ar/_Wi表示检出相应基因的权重系数值。
进一步的,所述步骤1)中所述菌株基因组个数>=100,菌株来源涵盖各种亚型,耐药株与敏感株的菌株数目比例均衡;在一些优选方式中,所述获取从公共数据库搜索下载已发表的目标基因组序列,或者通过现行收集临床培养鉴定出的细菌菌株进行测序组装获得;在一些更优选的方式中,所述从公共数据库搜索下载为:从NCBI NDARO数据库和PATRIC数据库平台搜集记录有药敏测试结果的细菌菌株信息,整理表型数据,并根据基因组组装id号从ncbi genome数据库或根据PATRIC id从PATRIC数据库批量下载基因组数据。进一步的,所述步骤2)中所述比对注释为:将contig序列与CARD耐药基因参考序列库进行比对,过滤identity和覆盖度低的hit(优选的,先过滤identity小于90%或参比基因覆盖度subject coverage小于90%的hit)再将每条contig比对上的区域选择best hit作为该contig区域的最终比对结果,并添加耐药基因的注释信息。进一步的,所述步骤3)中所述关联分析采用拉索回归模型进行关联分析。更进一步的,所述步骤3)中拉索回归模型关联分析方法具体为:以基因检出分布矩阵和抗生素药敏测试结果数据矩阵作为输入,使用glmnet程序包进行基因型和耐药表型数据的关联分析,并做k(优选k=5~15)重交叉验证,筛选得到与耐药表型相关的重要特征基因,计算重要特征基因的权重系数;进一步的,所述重要特征基因具体为:根据不同个数特征基因下的模型CV错误率、AUC变化曲线,选择在CV错误率最低且此时模型AUC值相对稳定处所对应的数目基因为重要特征基因。进一步的,步骤3)中进一步可包括人工召回,所述人工召回为:对与耐药表型PPV较高(优选的,PPV>=0.8)的基因进行人工召回,并基于以上得到的重要基因其权重系数值计算得到召回基因的权重系数。进一步的,本申请所述细菌包括但不限于大肠埃希式菌、肺炎克雷伯式菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌复合群、金黄色葡萄球菌、屎肠球菌、粪肠球菌、肺炎链球菌、化脓性链球菌、流感嗜血杆菌、表皮葡萄球菌;优选的为肺炎克雷伯菌。进一步的,本申请所述耐药表型包括但不限于耐受碳青霉烯类、头孢菌素类、青霉素类、β内酰胺类抗生素抑制剂、氨基糖苷类、磺胺类、四环素类、喹诺酮类、糖肽类、恶唑烷酮类、多粘菌素药物的表型;优选的,所述耐药表型为耐受碳青霉烯药物的表型。
下面结合具体实施例来阐述本申请。
实施例1本发明方法建立
图1为本发明的技术路线图,各步骤描述如下:
一)基于BGWAS已筛选出的重要基因,构建基于测序reads比对的耐药基因检测及表型预测流程,并通过模拟数据进行测试验证以及确定报阳cutoff值。
1.1结合CARD耐药数据库(V3.1.0)耐药基因的分类信息,重新整理并校正耐药基因所属家族、可能的来源物种、介导方式以及基因序列间一致性等注释信息。基因家族定义是根据耐药数据库(CARD)记录的基因所属家族信息定义,同时参考NCBI NDARO数据库和MEGARes数据库记录的耐药基因所属家族信息进行梳理和校正。如:OXA family家族可再细分为OXA-48family、OXA-51family等子家族,且不同子家族对不同的抗生素药物在决定耐药产生的贡献上可能存在差异,因此需要将OXA具体分型基因界定到子家族水平,如OXA-181和OXA-232为OXA-48family。其次,将所有耐药参考基因进行与NCBI NT库比对,保留identity>=95%且subject coverage>=95%的hit,以获取各耐药基因的所有物种注释信息,并在比对上的参考序列描述信息中搜索关键词”plasmid”,来查询耐药基因是否由质粒介导。最后使用blastn软件将所有耐药基因序列进行两两比对,得到所有基因序列间的一致性值。
1.2耐药基因家族权重系数计算。基于家族内成员基因的权重系数以及BGWAS模型训练集(具体可参见申请人在先专利CN202111400540.5)中相应基因的样本检出频数,计算得到基因家族的权重系数。计算公式如下:
式中,arg_Ni为目标基因家族内相应基因在训练集(即前期BGWAS分析进行模型训练用到的样本)中有检出的样本个数,arg_Wi为家族内相应基因的权重系数。j表示家族内有j个关键基因,j+k表示家族内所有基因数目。
1.3模拟NGS或ONT测序reads进行耐药基因的检测和流程校正
1.3.1Reads数据模拟
基于前期BGWAS模型用到的训练集菌株样本,使用ART_Illumina软件(Version2.5.8)模拟细菌菌株基因组测序短reads序列(Ilumina SE75)数据(参数设置:-ss NS50-l75-f 5-nf 0-rs 1)。使用ReadSim软件(Version 1.6)模拟nanopore测序reads序列,参数设置:--rev_strd on--tech nanopore--read_mu 3000--read_dist normal。考虑到临床标本常规测序20Mreads的数据量下检出病原细菌基因组深度一般不超过1X,故模拟0.05X、0.1X、0.2X、0.3X、0.4X、0.5X、0.6X、0.7X、0.8X、0.9X、1X、2X、3X、5X、10X、30X等梯度数据量。
1.3.2序列比对与注释统计
使用blastn(版本2.9.0+)软件将模拟的Illumina reads序列与耐药基因数据库进行比对(参数设置:-evalue 1e-5-outfmt 6),先进行过滤仅保留identity高于90%的hit,然后挑选每条reads序列的最高score的hit即best hit为最终hit,如果最高socre的hit存在多个相同值的(即多重比对),则对这多个hit采用LCA算法进行该read序列的最终注释(即针对单条read序列,由于多重比对导致注释不到基因型,进而向更高一层级注释为基因家族水平),然后统计得到样本中耐药基因检出的特异性reads数和多重比对reads数以及耐药基因所属家族的特异性reads数,并计算各检出基因的覆盖度指标。
针对模拟的nanopore reads序列数据,则使用minimap2软件(版本2.17)进行与耐药参考基因库的比对,参数设置:-c-x map-ont-L--secondary=no,然后过滤掉identity低于0.7或subject coverage低于0.4的hit。然后同上采用最佳比对或LCA算法对reads序列进行最终的基因注释,并统计得到样本中耐药基因检出的特异性reads数和多重比对reads数以及耐药基因所属家族的reads数,计算检出基因的覆盖度。
1.3.3对有比对上reads序列的耐药基因的筛选过滤
A)评估耐药基因参考库中不同分型基因间序列一致性对read-based精准检测耐药基因分型的影响。通过挑取在数据库中具有不同最大序列一致性的耐药基因,模拟短reads序列进行read-based流程检测分析,统计目标基因检出的特异性reads数和ARG-likereads数(即所有比对上目标基因的reads数)。最后,针对是否有特异性reads序列检出鉴定基因分型的策略,可以95%identity选作为目标基因可否容易实现精准分型的阈值标准(如图2)。
B)耐药基因分型的鉴定,采用两种规则相结合的策略:一是针对与数据库内其他基因具有高相似度(如一致性超过95%)的目标基因,采用ARG-like reads数(即所有能够比对目标基因的reads数,或者特异性reads数+多重比对reads数)排第一位的作为真阳性检出,对于非第一位的则保留基于精确比对read计算得到覆盖度为100%的基因,作为真阳性检出;二是针对与数据库内其他基因具有低相似度(如一致性低于95%)的目标基因,则主要根据检出特异性reads数目进行判断是否为真阳性结果。对于一些未检出特异性reads的基因家族,会被认为是假阳性而直接被过滤掉。
C)评估read-based检测鉴定耐药基因分型的准确性。以BGWAS模型训练过程中assembly-based检测耐药基因的结果为参比,针对BGWAS模型筛选出来的重要基因或基因家族,统计得到read-based检测耐药基因或基因家族的准确性、敏感度和特异性指标,如图3显示,read-based检测流程在检测大部分耐药基因或基因家族时,具有较好的表现。
1.4定义并计算阴阳性判断指标Score值,并结合不同测序数据量下的模拟测试进行ROC分析,确定报告规则及cutoff阈值。
1.4.1基于筛选得到的重要基因(和基因家族)及其权重系数,根据样本耐药基因检出结果,定义并计算Score指标值。计算公式如下:
式中,arg_Wi表示相应基因型的权重系数,genefamily_Wi表示相应基因家族的权重系数。当检出基因型(genetype,即gt)且基因型权重系数>0,以基因型权重系数计算;当检出基因型,但基因型权重系数为0或无权重系数,则以基因家族权重系数计算(基因家族无权重系数时记为0)。
具体地,按照图4规则,基于read-based耐药基因检测分型结果及基因权重系数矩阵,同时考虑BGWAS模型训练集中各基因与药敏结果的阳性一致率(PPV)因素,进行Score计算。(图4中:gt表示ARG type即耐药基因分型,gf表示ARG family即耐药基因家族)。
1.4.2针对基于训练集菌株进行的不同数据量下的模拟测试,基于耐药基因检测结果和训练集菌株实际药敏结果,进行ROC分析,评估不同测序数据量下的药敏预测模型性能(AUC值),以及确定cutoff阈值。
具体地,鉴于模型性能以及测序数据量影响因素,针对报告”耐药”和”敏感”分别设置阈值。报告“耐药”的阈值的设定,是以目标菌株基因组测序数据量足够且模型性能稳定(如30X)时,Youden指数最大值处对应的Score值为阈值,记为R_cutoff。报告”敏感”的阈值设定,则采用两套阈值标准。一是以上述测序数据量足够情况下(30X数据量,模型稳定)确定的R_cutoff作为报告”敏感”的阈值,记为S_cutoff2,且此时需满足NPV在0.9以上,否则无法报告”敏感”。二是直接根据基于基因家族权重系数计算score值而找到的模型性能稳定时所对应的最小测序数据量(记为gf_LOD1),在此数据量下以满足NPV超过0.9的最大Score值(该Score值必须小于或等于S_cutoff2)作为为报告”敏感”的阈值,记为S_cutoff1。其次,针对在gf_LOD1和30X之间的各模拟测序数据量下,查看以S_cutoff2为报告”敏感”阈值标准的可行性,即找到满足NPV>0.9对应的最小数据量,记为gf_LOD2。那么,最终可以确定报告”敏感”的两套阈值标准,即测序数据量在gf_LOD2以上时,以S_cutoff2为报告”敏感”的阈值,测序数据量介于gf_LOD1和gf_LOD2时,以S_cutoff1作为报告”敏感”的阈值。
针对某一抗生素,进行药敏预测的具体报告规则如下:当Score值大于R_cutoff时,报告为”可能耐药”;当检出病原菌的基因组覆盖度大于或等于gf_LOD2,且Score值小于S_cutoff2,则报告为”可能敏感”,或者当检出病原菌的基因组覆盖度位于gf_LOD1和gf_LOD2之间,且Score值小于S_cutoff1,则报告为”可能敏感”;当检出病原菌的基因组覆盖度小于gf_LOD1,且Score小于S_cutoff1,则报告为“/”,即未知。
二)耐药基因物种归属预测
2.1目标病原菌种检测及耐药基因的物种归属预测
2.1.1目标病原菌种基因组序列比对及检出序列数、基因组覆盖度和覆盖深度计算
选择临床常见的病原细菌(肺炎克雷伯菌、大肠埃希菌、鲍曼不动杆菌、铜绿假单胞菌、阴沟肠杆菌等)设定为目标病原,从NCBI genome数据库上搜索下载目标病原菌参考基因组,以此作为目标病原菌种鉴定的参比序列库。
使用minimap2软件(v2.17),将Illumina reads序列与以上设定的目标病原参考基因组序列库进行比对(比对参数:-x sr-a--secondary=no-L),然后计算比对上目标病原菌种的检出序列数、基因组覆盖度和覆盖深度。针对nanopore测序reads的比对,参数设置为-x map-ont-a--secondary=no-L。
接着,统计得到检出病原菌种的总reads序列数、基因组覆盖度和覆盖深度。
2.1.2基于BGWAS模型训练集标本耐药基因检出结果,统计目标病原菌种携带的耐药基因拷贝数
基于BGWAS模型训练时训练集样本的assembly-based耐药基因检测结果,统计得到目标病原菌种耐药基因和耐药基因家族的检出分布及拷贝变化范围。
2.1.3基于假定的基因-物种归属关系,进行耐药基因拷贝数计算及物种归属判断
假定耐药基因-物种对应关系时,主要依据:a、数据库中参考基因的物种注释是否包含目标物种,如果包含则先接受该基因-物种归属关系的假设;b、如果a不满足,则查看数据库中参考基因的介导方式注释,是否包含质粒介导方式,如果包含则先接受该基因-物种归属关系的假设;c、如果a、b不满足,则根据ARG-like reads的物种注释进行推测其物种来源。然后,按如下公式计算耐药基因的拷贝数:
如果计算得到的耐药基因拷贝数,落在基于BGWAS模型训练集统计得到的目标基因家族的正常拷贝数范围内,则接受此上述假定的基因-物种归属关系,否则拒绝。
三)临床标本宏基因组测序进行耐药基因检测与验证
采集同时进行了培养+药敏测试的临床标本,按要求转运至医学检验试验室进行预处理、核酸提取、建库以及上机测序(Illumina CN500 SE75或nanopore测序),接着对测序获得的reads序列进行目标物种基因组和耐药基因数据库比对分析,鉴定出样本中病原细菌及其携带的耐药基因情况。
3.1对测序原始低质量序列进行质控过滤和去除人源核酸序列
针对Illumina平台测得的序列数据,按如下处理:
a、使用bcl2fastq(v2.20.0.422)对测序下机数据进行处理,将BCL格式数据转换成fastq格式序列数据;
b、使用fastp(v0.19.5)软件对得到的原始fastq序列数据进行过滤(参数设置:-q15-u 40-l read_length*0.67),去除低质量和短序列;同时使用komplexity(v0.3.6)软件计算序列信息复杂度(参数设置:-F-t 0.4),并过滤掉低复杂度的序列。
c、将质控过滤得到的clean序列,使用bowtie2(v2.3.4.3)软件进行与人参考基因组序列(human_38)进行比对(参数设置:--mm--very-sensitive-k 1),以过滤掉人源序列。
3.2检测鉴定样本所含有的耐药基因及其物种归属
按照1.3.2步骤,使用blastn软件进行样本序列的耐药基因比对和注释统计,并按照2.1.1步骤,使用minimap2软件进行目标物种基因组比对以及计算检出基因组覆盖度,然后按照2.1.3步骤,评估预测检出耐药基因的物种归属。
3.3针对所关注且检出的病原细菌,根据其耐药基因检出情况,按照1.4.1定义的score计算方式,计算获得目标物种-抗生素药物的score值,并与cutoff值进行比较:score>=cutoff时,则预测为R;score<cutoff时,如果检出病原基因组覆盖度高于基于1.4.2步骤确定的模型稳定所需要的最低基因组覆盖度或数据量(如>40%),则预测为S,否则报告为”/”(表示未知)
3.4最后将上述药敏预测结果与同时收集到的临床标本实际药敏测试结果,进行对比,统计预测结果的准确率以及有效报告的样本数比例,评估耐药检测流程的性能。
实施例2、针对临床标本,进行肺炎克雷伯菌耐药基因检测和表型预测分析
1、基于肺炎克雷伯菌株基因组,BGWAS筛选得到抗生素相关重要耐药基因及相应基因家族,并计算得到基因或基因家族的权重系数
从NCBI NDARO数据库和PATRIC数据库,搜集下载具有药敏测试结果信息的肺炎克雷伯菌株基因组数据,并经筛选过滤最后得到3072例(训练集、验证集为例2410、662例)菌株样本,然后基于采用机器学习方法筛选得到与抗生素药物耐药相关的重要基因及其权重系数矩阵,并按照技术方案1.2的公式计算这些重要基因所属家族的权重系数,结果如下表:
2、基于训练集2410例肺炎克雷伯菌株基因组,按照技术方案1.3步骤模拟75bp短reads(NGS测序平台)进行read-based耐药基因检测流程的测试验证,模拟0.05X、0.1X、0.2X、0.3X、0.4X、0.5X、0.6X、0.7X、0.8X、0.9X、1X、2X、3X、5X、10X、30X等不同梯度数据量。然后进行耐药基因检测获得每个模拟标本的耐药基因检出结果,按照技术方案1.4.1步骤计算score值,进行ROC曲线分析,获得各抗生素药物在不同数据量下的模型性能AUC值,然后绘制模型性能AUC值变化曲线如下图5。在数据量为30X时,模型性能已经稳定,此时的各抗生素模型性能AUC值如下图6。按照技术方案1.4.2步骤,最后确定各抗生素药物的报告规则和cutoff阈值如下表。
肺炎克雷伯菌6个抗生素药物的mNGS药敏预测cutoff阈值。
注:“/”表示无法报告“敏感”。
3、共收集48例培养鉴定包含肺炎克雷伯菌的临床标本,-80℃冰箱进行保存。然后将这48份标本,提取核酸后构建宏基因二代(插入片段长度为200-400bp)文库,进行二代(Illumina nextseq CN500 SE75)上机测序。对下机数据进行病原及其携带的耐药基因鉴定,然后计算Score值和药敏结果预测判断。最后得到各标本的目标病原菌及其耐药基因检测鉴定结果和药敏预测结果。部分样本结果展示如下表:
说明:ND表示未检出,“/”表示未知。
统计得到,药敏预测准确率及可报告的样本数比例如下表:
结果表明,本发明可以有效地针对临床标本准确进行病原菌种及其携带耐药基因鉴定以及预测抗生素药物的药敏结果,可用于辅助临床进行感染耐药菌的检测诊断。
进一步的从上述结果可知,针对庆大霉素,AAC(3)-IIe、AAC(3)-IV、AAC(3)-IId、rmtC、armA、rmtF、rmtB、AAC(6')-33、ANT(2”)-Ia为重要耐药基因,而综合基因权重、基因家族权重、基因发生频次以及耐药产生的所有可能机制等因素,实践中可通过对于主要介导耐药产生的高频次发生且权重较高的AAC(3)-IIe、AAC(3)-IV、AAC(3)-IId、rmtC、armA、rmtF、rmtB、AAC(6')-33、ANT(2”)-Ia基因同时进行检测,若检测结果均为阴性,则可推测为敏感,即实现药敏,尤其是敏感检测目的。
进一步的从上述结果可知,针对妥布霉素,AAC(3)-IV、AAC(3)-IId、AAC(6')-Ib'、AAC(6')-Ib-cr、AAC(6')-Ib-Hangzhou、AAC(6')-Ib4、mphE、ANT(2”)-Ia、aadA24为重要耐药基因,而综合基因权重、基因家族权重、基因发生频次以及耐药产生的所有可能机制等因素,实践中可通过对于主要介导耐药产生的高频次发生且权重较高的AAAC(3)-IV、AAC(3)-IId、AAC(6')-Ib'、AAC(6')-Ib-cr、AAC(6')-Ib-Hangzhou、AAC(6')-Ib4、mphE、ANT(2”)-Ia、aadA24基因同时进行检测,若检测结果均为阴性,则可推测为敏感,即实现药敏,尤其是敏感检测目的。
进一步的从上述结果可知,针对头孢他啶,CTX-M-55、CTX-M-11、CTX-M-15、SHV-155、SHV-5、SHV-11、SHV-12、SHV-76、SHV-30、SHV-53、SHV-124、SHV-182、DHA-1、KPC-3、KPC-2为重要耐药基因,而综合基因权重、基因家族权重、基因发生频次以及耐药产生的所有可能机制等因素,实践中可通过对于主要介导耐药产生的高频次发生且权重较高的CTX-M-55、CTX-M-11、CTX-M-15、SHV-155、SHV-5、SHV-11、SHV-12、SHV-76、SHV-30、SHV-53、SHV-124、SHV-182、DHA-1、KPC-3和/或KPC-2基因进行检测,若检测结果均为阳性,则可推测耐药。同时,根据30X基因组模拟reads测试结果可知,找不到一个合适的阈值使得计算的Score值<该阈值时,模型NPV较高(如>0.9),因此无法实现对敏感的检测目的。
进一步的从上述结果可知,针对复方新诺明,dfrA12、dfrA15、dfrA17、dfrA19、dfrA30、dfrA8、dfrA5、dfrA15b、dfrA14、dfr22、dfrA27、dfrA1为重要耐药基因,而综合基因权重、基因家族权重、基因发生频次以及耐药产生的所有可能机制等因素,实践中可通过对于主要介导耐药产生的高频次发生且权重较高的dfrA12、dfrA15、dfrA17、dfrA19、dfrA30、dfrA8、dfrA5、dfrA15b、dfrA14、dfr22、dfrA27和/或dfrA1基因同时进行检测,若检测结果均为阳性,则可推测为耐药。即实现药敏,尤其是敏感检测目的。同时,根据30X基因组模拟reads测试结果可知,找不到一个合适的阈值使得计算的Score值<该阈值时,模型NPV较高(如>0.9),因此无法实现对敏感的检测目的。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (5)

1.一种耐药基因物种归属预测的模型构建方法,其特征在于,所述方法包括如下步骤:
步骤1):目标病原菌种基因组序列比对及检出序列数、基因组覆盖度和覆盖深度计算;
步骤2):基于BGWAS模型训练集标本耐药基因检出结果,统计目标病原菌种携带的耐药基因拷贝数;
步骤3):基于假定的基因-物种归属关系,进行耐药基因拷贝数计算及物种归属判断。
2.根据权利要求1所述的模型构建方法,其特征在于,所述步骤3)具体为:
假定耐药基因-物种对应关系时,依据:a、数据库中参考基因的物种注释是否包含目标物种,如果包含则先接受该基因-物种归属关系的假设;b、如果a不满足,则查看数据库中参考基因的介导方式注释,是否包含质粒介导方式,如果包含则先接受该基因-物种归属关系的假设;c、如果a、b不满足,则根据ARG-like reads的物种注释进行推测其物种来源,并按如下公式计算耐药基因的拷贝数:
如果计算得到的耐药基因拷贝数,落在基于BGWAS模型训练集统计得到的目标基因家族的正常拷贝数范围内,则接受此上述假定的基因-物种归属关系,否则拒绝。
3.根据权利要求1所述的模型构建方法,其特征在于,所述步骤1)具体为:
选择临床常见的病原细菌设定为目标病原,从NCBI genome数据库上搜索下载目标病原菌参考基因组,以此作为目标病原菌种鉴定的参比序列库;
将各测序reads序列与以上参比序列库进行比对,计算比对上目标病原菌种的检出序列数、基因组覆盖度和覆盖深度;统计得到检出病原菌种的总reads序列数、基因组覆盖度和覆盖深度。
4.根据权利要求1所述的模型构建方法,其特征在于,所述步骤2)具体为:
基于BGWAS模型训练时训练集样本的assembly-based耐药基因检测结果,统计得到目标病原菌种耐药基因和耐药基因家族的检出分布及拷贝变化范围。
5.一种装置,其特征在于,包括:至少一个存储器,用于存储程序;至少一个处理器,用于加载所述程序以执行如权利要求1-4任一项所述方法。
CN202310625501.8A 2021-12-30 2021-12-30 一种耐药基因物种归属预测的模型构建方法 Pending CN116631501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310625501.8A CN116631501A (zh) 2021-12-30 2021-12-30 一种耐药基因物种归属预测的模型构建方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111680866.8A CN114333987B (zh) 2021-12-30 2021-12-30 一种基于宏基因组测序的预测耐药表型的数据分析方法
CN202310625501.8A CN116631501A (zh) 2021-12-30 2021-12-30 一种耐药基因物种归属预测的模型构建方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202111680866.8A Division CN114333987B (zh) 2021-12-30 2021-12-30 一种基于宏基因组测序的预测耐药表型的数据分析方法

Publications (1)

Publication Number Publication Date
CN116631501A true CN116631501A (zh) 2023-08-22

Family

ID=81022835

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202310625499.4A Pending CN116631500A (zh) 2021-12-30 2021-12-30 非核心型耐药基因
CN202111680866.8A Active CN114333987B (zh) 2021-12-30 2021-12-30 一种基于宏基因组测序的预测耐药表型的数据分析方法
CN202310625501.8A Pending CN116631501A (zh) 2021-12-30 2021-12-30 一种耐药基因物种归属预测的模型构建方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202310625499.4A Pending CN116631500A (zh) 2021-12-30 2021-12-30 非核心型耐药基因
CN202111680866.8A Active CN114333987B (zh) 2021-12-30 2021-12-30 一种基于宏基因组测序的预测耐药表型的数据分析方法

Country Status (1)

Country Link
CN (3) CN116631500A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612747A (zh) * 2024-01-24 2024-02-27 杭州广科安德生物科技有限公司 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置
CN118212987A (zh) * 2024-05-21 2024-06-18 中国医学科学院北京协和医院 一种基因数据处理方法、装置、存储介质及电子设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115323067B (zh) * 2022-09-19 2023-11-17 北京金匙医学检验实验室有限公司 用于预测阴沟肠杆菌对抗生素药敏表型的特征基因组合、试剂盒及测序方法
CN115910216B (zh) * 2022-12-01 2023-07-25 杭州瑞普基因科技有限公司 一种基于机器学习识别基因组序列分类错误的方法和系统
CN115798575B (zh) * 2023-02-06 2023-06-02 中国医学科学院北京协和医院 一种预测克雷伯氏菌属对头孢他啶敏感性的系统及方法
CN116825182B (zh) * 2023-06-14 2024-02-06 北京金匙医学检验实验室有限公司 一种基于基因组ORFs筛选细菌耐药特征的方法及应用
CN116597893B (zh) * 2023-06-14 2023-12-15 北京金匙医学检验实验室有限公司 预测耐药基因-病原微生物归属的方法
CN118098369A (zh) * 2024-03-26 2024-05-28 杭州洛兮医学检验实验室有限公司 一种分析病原微生物耐药表型的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170023871A (ko) * 2014-05-27 2017-03-06 옵젠, 인크. 레지스톰 프로파일을 생성하고 분석하기 위한 시스템, 장치 및 방법
CN106886689B (zh) * 2015-12-15 2018-12-21 浙江大学 一种病原微生物基因组快速分析方法及系统
JP2022521791A (ja) * 2019-02-26 2022-04-12 テンパス ラブズ,インコーポレイテッド 病原体検出のための配列決定データを使用するためのシステムおよび方法
CN113614831A (zh) * 2019-03-22 2021-11-05 英芙勒玛提克斯公司 用于从多个数据集导出和优化分类器的系统和方法
US20210193262A1 (en) * 2019-12-24 2021-06-24 Koninklijke Philips N.V. System and method for predicting antimicrobial phenotypes using accessory genomes
CA3176326A1 (en) * 2020-04-20 2021-10-28 Boris SIMOVSKI Method and system for identifying one or more candidate regions of one or more source proteins that are predicted to instigate an immunogenic response, and method for creating a vaccine
CN113035269B (zh) * 2021-04-16 2022-11-01 北京计算科学研究中心 基于高通量测序技术的基因组代谢模型构建、优化及可视化的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117612747A (zh) * 2024-01-24 2024-02-27 杭州广科安德生物科技有限公司 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置
CN117612747B (zh) * 2024-01-24 2024-05-03 杭州广科安德生物科技有限公司 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置
CN118212987A (zh) * 2024-05-21 2024-06-18 中国医学科学院北京协和医院 一种基因数据处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN114333987A (zh) 2022-04-12
CN114333987B (zh) 2023-05-12
CN116631500A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN114333987B (zh) 一种基于宏基因组测序的预测耐药表型的数据分析方法
Cornet et al. Contamination detection in genomic data: more is not enough
Sangiovanni et al. From trash to treasure: detecting unexpected contamination in unmapped NGS data
Sherry et al. Genomics for molecular epidemiology and detecting transmission of carbapenemase-producing Enterobacterales in Victoria, Australia, 2012 to 2016
CN114067912B (zh) 基于机器学习筛选细菌耐药表型相关重要特征基因的方法
Macesic et al. Predicting phenotypic polymyxin resistance in Klebsiella pneumoniae through machine learning analysis of genomic data
EP3426800A1 (en) Methods and systems for determining antibiotic susceptibility
WO2021227329A1 (zh) 一种测序数据的分类单元组分计算方法
US20230141128A1 (en) Molecular technology for predicting a phenotypic trait of a bacterium from its genome
Zhou et al. Comprehensive pathogen identification, antibiotic resistance, and virulence genes prediction directly from simulated blood samples and positive blood cultures by nanopore metagenomic sequencing
CN117690483B (zh) 一种基于病原宏基因二代测序的耐药基因检测方法
Cuevas-Córdoba et al. A bioinformatics pipeline for Mycobacterium tuberculosis sequencing that cleans contaminant reads from sputum samples
Yarmosh et al. Comparative analysis and data provenance for 1,113 bacterial genome assemblies
US20180201979A1 (en) Genetic testing for predicting resistance of acinetobacter species against antimicrobial agents
Galata et al. Comparing genome versus proteome-based identification of clinical bacterial isolates
Osa et al. Dela Merced
Abdelrazik et al. Benchmarking of Antimicrobial Resistance Gene Detection Tools in Assembled Bacterial Whole Genomes
Liu et al. Rapid discrimination of Bifidobacterium longum subspecies based on MALDI-TOF MS and machine learning
Kuruwa et al. An integrated method for targeted Oxford Nanopore sequencing and automated bioinformatics for the simultaneous detection of bacteria, fungi, and ARG
CN117219157B (zh) 预测铜绿假单胞菌碳青霉烯类药物药敏表型的特征基因、试剂盒及应用
CN116597893B (zh) 预测耐药基因-病原微生物归属的方法
Peretz-Machluf et al. Genome-wide noninvasive prenatal diagnosis of de novo mutations
Wojciechowski et al. The correctness of large scale analysis of genomic data
CN116825182B (zh) 一种基于基因组ORFs筛选细菌耐药特征的方法及应用
Casola From de novo to ‘de nono’: most novel protein coding genes identified with phylostratigraphy represent old genes or recent duplicates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination