CN117690483A

CN117690483A - 一种基于病原宏基因二代测序的耐药基因检测方法

Info

Publication number: CN117690483A
Application number: CN202311620805.1A
Authority: CN
Inventors: 周淑芳; 胡亮; 李姗姗
Original assignee: Luoxi Medical Technology Hebei Co ltd
Current assignee: Luoxi Medical Technology Hebei Co ltd
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-03-12
Anticipated expiration: 2043-11-30
Also published as: CN117690483B

Abstract

本发明属于宏基因组测序分析技术领域，提供了一种基于病原宏基因二代测序的耐药基因检测方法。本发明不依赖于细菌的培养，与传统方法相比具有更高的敏感性和特异性；并且与现有病原宏基因组的耐药基因分析相比，本发明提供了一个更全面且无冗余的耐药基因比对数据库，在保证耐药基因全面准确的基础，又不会增加分析资源与成本的消耗；另外，在去除人源宿主序列中，本发明新增了专门针对中国人种的炎黄一号基因组序列和人类基因组序列无间隙版本，这使得人源序列去除的更加彻底，减少了人源序列对耐药基因分析的影响。除此之外，本发明还提供了一个耐药基因注释数据库，增加了耐药基因结果可读性，有助于实现临床细菌耐药情况的快速诊断。

Description

一种基于病原宏基因二代测序的耐药基因检测方法

技术领域

本发明涉及宏基因组测序分析技术领域，具体涉及一种基于病原宏基因二代测序的耐药基因检测方法。

背景技术

近些年来，随着感染性疾病的增多，第三代和第四代头孢菌素、碳青霉烯类以及氟喹诺酮类等超广谱药物被广泛使用，这导致病原微生物(一般指细菌)的耐药情况变得日益加剧，严重影响了疾病的治疗效果。因此，在疾病治疗中对细菌耐药基因进行检测在临床诊断中具有重要意义。

目前，传统的细菌耐药性检测主要依赖于形态学、培养等方法，需要先从标本中培养分离到病原菌，然后测定细菌的药物敏感性，测定的方法主要包括纸片扩散法，K-B法，稀释法等。其中，稀释法是临床检测和实验室研究中最为常用的细菌耐药性检测方法，堪称细菌耐药性检测的金标准。但这种方法存在许多局限性，比如需要耗费大量时间，测定过程复杂，无法培养一些难以培养的细菌，并且不能同时检测多个细菌种类。

目前，常规的病原宏基因耐药基因检测利用了高通量测序技术，不依赖于细菌的培养，与上述传统方法相比虽然具有更高的敏感性和特异性，但仍存在着一些问题，诸如：(1)目前基于宏基因二代测序的耐药基因检测方法大多是针对单一数据库(比如card，resfinder等)，单一耐药基因数据库不够准确、全面和完整，而且目前又缺乏准确完整的耐药基因数据库，因此要想获得准确全面的耐药基因结果往往需要投入大量的精力和成本；(2)人源序列数据库中常用的人类参考基因组版本为hg19，hg38等，其主要来自高加索人种，对于中国人群来说，不具有广泛适用性；除此之外，hg19、hg38等版本的人类参考基因组，只针对了92％的人类基因组进行了排序，剩下8％在图谱中依旧是缺失状态；(3)在病原宏基因耐药基因检测中，由于测序错误、低质量序列存在以及read长度太短，这使得耐药基因检测结果经常会出现假阳性或者假阴性情况；(4)部分宏基因组分析技术尚不能将物种鉴定与耐药分析进行有机地整合，无法提供更为全面的信息分析结果。上述问题进一步限制了宏基因二代测序对耐药基因检测分析的发展，这使得其难以为临床提供准确且有意义的耐药基因信息。

发明内容

本发明的目的是针对现有技术的不足，提供了一种基于病原宏基因二代测序的耐药基因检测方法。本发明联合card数据库、resfinder数据库、argannot数据库以及ncbibetalactamase数据库，通过过滤、筛选，构建出一套全面而完整的耐药基因数据库体系；后续通过将测序数据与所构建耐药数据库中的耐药基因进行比对和分析，从而确定样品中是否存在耐药基因；可以帮助医生和临床实验室确定细菌等微生物是否携带耐药基因，并为临床治疗提供指导。

本发明采用的技术方案具体包括如下步骤：

一种基于宏基因组二代测序的细菌耐药基因检测方法，包括以下步骤：

步骤S1：联合card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库，过滤、筛选、重建细菌耐药基因数据库，具体包括细菌耐药基因比对数据库和细菌耐药基因注释数据库；

步骤S2：对病原宏基因组样本进行测序，并对测序数据样本进行标签识别；待测序结束后对数据样本进行序列拆分，即得到病原宏基因组原始测序数据；

步骤S3：对病原宏基因组原始测序数据进行质量控制；

步骤S4：构建人源序列数据库，将质控后的数据与人源序列数据库进行比对，并过滤人源宿主序列，即得非人源序列；

步骤S5：将非人源序列组装成contigs；

步骤S6：组装之后的contigs序列往耐药基因比对数据库上进行比对；

步骤S7：筛选耐药基因；

步骤S8：对耐药基因耐药机制、所属耐药类别和物种来源的信息进行注释。

进一步，步骤S1中的耐药基因比对数据库的构建方法包括如下步骤：

(1)下载耐药基因参考序列：从card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库下载耐药基因列表及其对应序列；

(2)统一命名耐药基因：序列下载完成后，对耐药基因的命名实现统一；具体涉及字母大小写、有无括号、有无bla前缀等；

(3)过滤处理耐药基因序列：过滤掉命名模糊不清，耐药基因长度小于100bp的序列，去除低复杂度序列以及污染序列；

(4)相同耐药基因的筛选：a.一个基因在两个及以上耐药数据库中同时出现且序列相同，保留其一；b.一个基因在两个及以上耐药数据库中同时出现但序列不同，根据大多数原则，保留出现次数在两次及以上的序列；c.一个基因在多个数据库中同时出现但是序列彼此之间均不相同，根据数据库优先级排序保留优先级更高的数据库中的序列，数据库优先级为card>resfinder>argannot>ncbibetalactamase。

本发明采用上述方法构建的耐药基因比对数据库，既包含了全面完整的细菌的耐药基因序列，并去除冗余重复及可信度较低的基因序列，确保耐药基因序列的完整性和准确性，且减少序列冗余，提高了分析比对速度，又去除了污染以及重复序列带来的影响，同时又可以一次分析多种菌所对应的耐药基因，完全避免了传统方法带来的时间成本高，通量低，培养难度大的缺点。

进一步，步骤S1中的细菌耐药基因注释数据库的构建方法包括如下步骤：

(1)从card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库中下载注释信息；从NCBI数据库中下载DNA Accession所对应的物种信息；

(2)不同数据库之间对同一耐药基因的注释信息有可能不同，按照优先级card>resfinder>argannot>ncbibetalactamase的顺序进行保留；

(3)对注释信息进行汇总和整理，去除掉不同数据库之间的冗余信息，过滤掉低质量的记录信息。

本发明是基于二代高通量测序数据的耐药基因分析方法，由于目前的测序仪通量都比较大，病原宏基因组单个样本大小一般在20M～50M之间，所以在实际测序过程都是多个样本混合在一起同时测序，每个样本用独特的标签序列(barcode)进行区分，所以等测序数据下机后，首先要通过样本标签进行序列拆分，得到每个样本的原始测序序列，然后对原始数据进行质控，具体质量控制条件如下：

去除接头(adapter)序列：在高通量测序过程中，打断之后的DNA片段两端都会加上接头序列，接头序列的作用是在PCR反应中使引物定向结合到模板DNA上，防止引物在PCR反应中的非特异性扩增和引物自身的二聚体形成，当插入片段的长度小于测序的读长时，接头序列就会出现在测序结果中引起污染，因此质控的时候要将其进行切除；

去除首尾的低质量序列：在测序循环初始阶段由于酶活性还未达到最佳，测序质量会相对较低；但是随着反应的进行，酶活性逐渐降低，因此在read末尾测序质量也比较低，质控的时候要将首尾低质量序列进行切除；

去除read中含有N碱基的序列：测序过程中测序仪如果无法确定某个位置具体碱基，就会输出N碱基，质控的时候要加以去除；

去除单一碱基占比超过80％或者两种碱基占比超过90％的序列：ACGT四种碱基在测序数据中含量应该都在25％左右，如果每一种或者两种含量过高，质控的时候要去除，比如高GC序列；

去除重复序列：在病原宏基因组测序采用的是鸟枪法，为了后续耐药基因鉴定的准确性，需要去除PCR过程中引入的重复序列；

去除低复杂度序列(简单重复序列)：低复杂度序列往往是测序错误的高发区，质控的时候要加以去除。

在本发明中，判断一个样本在质量控制之后是否可以使用要同时满足以下条件：

(1)Q30碱基数据量占比大于80％；(2)接头污染比例不超过1％；(3)有效序列长度不小于45bp；(4)数据的有效数据量应大于70％。

将质控之后的测序数据往人源序列数据库上进行比对，去除比对上的序列，剩下的即为高质量非人源序列。

进一步，步骤S4中人源序列数据库是由hg19版本的人类参考基因组、人转录本数据、炎黄一号基因组以及人类基因组序列无间隙版本(T2T-CHM13)组成。

进一步，为了避免read序列太短引起的假阳性，本发明将去除人源宿主之后得到的高质量非人源序列组装成contigs。

进一步，将组装之后的contigs序列往耐药基因比对数据库上进行比对，提取比对上的耐药基因，然后按照一定的过滤原则对耐药基因进行筛选，并通过耐药基因注释数据库对筛选出的耐药基因进行注释。

本发明优点在于：

1.本发明基于card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库重建了一个更加全面并且无冗余的耐药基因比对数据库，在保证了耐药基因全面准确的基础之上，又不会增加分析资源与成本的消耗。

2.本发明构建了一个更加全面且和中国人种适配的人源序列数据库，除了常规的人类参考基因组与转录组之外，还新增了专门针对中国人种的炎黄一号基因组序列以及人类基因组序列无间隙版本T2T-CHM13，这使人源序列去除的更加彻底，减少了人源序列对耐药基因分析的影响。

3.本发明针对病原宏基因组二代测序数据提出了一套系统的质控方法，从源头上杜绝了测序错误以及低质量序列对耐药基因结果带来的影响；并且对得到的非人源高质量序列组装成了序列更长的contigs，克服了假阳性的问题。

4.本发明提供了一个更加全面的耐药基因注释数据库，增加了耐药基因结果可读性，有助于实现临床细菌耐药情况的快速诊断，为临床医生确定治疗方案治疗提供指导。

附图说明

附图1为本发明的数据处理流程图。

具体实施方式

下面将结合本发明附图和实施例对本发明所描述的技术方案进行清楚、完整地描述。除非另有定义，本文所使用的所有的技术和科学术语都属于本发明的技术领域的技术人员通常理解的含义。

参考附图1流程，可基于宏基因组二代测序技术进行如下的细菌耐药基因检测。

实施例1：构建耐药基因比对数据库

数据下载：CARD是一个基于志愿者贡献数据的耐药性研究共享平台，从https://card.mcmaster.ca下载其耐药基因列表、序列以及相关注释信息等；Resfinder数据库收录了通过水平转移获得的耐药基因，一共分为15种耐药基因小库，共有3097条耐药基因序列组成，从https://bitbucket.org/genomicepidemiology/resfinder_db.git下载其耐药基因相关信息；ARG-ANNOT数据库收录了1689个非冗余耐药基因，其中具有抗生素抗性的决定簇来自于发表的文章和网络资源，核苷酸和蛋白序列则从NCBI GenBank数据库中提取，具体耐药基因列表、序列以及相关注释信息等下载路径为：https://github.com/katholt/srst2/blob/master/data/ARGannot_r3.fasta，数据库ncbibetalactamase是NCBI下子数据库，收录的是耐药基因的相关信息，相关信息通过https://www.ncbi.nlm.nih.gov/pathogens/beta-lactamase-data-resources/进行下载。

耐药基因名字的统一：不同数据库之间对于同一个耐药基因命名上稍有不同，比如大小写的不同，再比如名字中有无括号，再比如有无bla前缀等，会出现一些耐药基因在四个耐药库四种命名的极端情况，就拿card与resfinder这两个库来说，card库里AAC(6')-Ia基因在resfinder库里写作aac(6')-Ia；card库里mefA基因在resfinder库里写作mef(A)；card库里TEM-116基因在resfinder库里写作blaTEM-116；因此在耐药基因名称以及序列下载完成之后要对耐药基因的命名实现统一。

耐药基因序列信息的筛选与汇总：按照过滤原则，过滤掉耐药基因命名模糊不清，或者耐药基因长度不足100bp的序列；去除低复杂度序列以及污染序列；如果一个基因在两个及以上耐药数据库中同时出现且序列相同保留其一，序列不同，则根据大多数原则，保留出现次数在两次及以上的序列；如果一个基因在多个数据库中同时出现但是序列彼此之间均不相同，则根据数据库优先级排序保留优先级更高的数据库中的序列，数据库优先级为card>resfinder>argannot>ncbibetalactamase；另外对于耐药基因注释数据库，整理了上述四个耐药数据库的所有耐药基因的注释信息，包括耐药基因名、耐药类别名称、耐药机制和关联菌列表等。

实施例2：构建耐药基因注释数据库

下载card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库的注释信息，该注释信息包括但不限于耐药基因所属基因家族信息、耐药基因对应DNAAccession编号、所属药物分类(Drug Class)，耐药机制(Resistance Mechanism)等信息；另外通过网络爬虫的方式从NCBI数据库(https://www.ncbi.nlm.nih.gov/)下载DNAAccession所对应的物种信息。当不同数据库之间对同一耐药基因的注释信息相同时，仅保留其一；当注释信息不同时，按照优先级card>resfinder>argannot>ncbibetalactamase的顺序进行保留。最后对注释信息进行汇总、筛选和整理，去除掉不同数据库之间的冗余信息，过滤掉低质量的记录信息。

另外，如表1所示，同一基因还会对应多个Accession编号，这些Accession编号可能指向同一种微生物，也可能指向不同的微生物，出现这种情况，多个编号要同时保留，也即保留了其所对应的多个物种信息。

表1为Accession与物种信息对应示例表

实施例3：通过样本标签对测试的序列进行拆分

由于测序仪通量比较大，实际测序过程都是多个样本混合在一起同时上机测序，每个样本用独特的标签(barcode)加以区分，待测序数据下机之后，首先要通过样本标签进行序列拆分，得到与每个样本对应的原始测序序列，采用的barcode分为单barcode和双barcode两种模式，长度一般为8bp或者10bp；在本发明中，采用splitBarcode V2.0对下机数据进行拆分，每个barcode允许一个碱基错配。

实施例4：对拆分后的序列进行质量控制

在本发明中，使用fastp v0.23.2对测序原始数据进行质控，参数设置为--dedup--length_required 45-q 20–n 1，首先去除重复序列，然后过滤掉含有N碱基的read，切除质量值低于20的read片段，另外，还切除了接头序列以及低复杂度序列，过滤掉质控之后read长度不足45bp的序列；还有，对于整个样本而言，同时满足Q30碱基数据量占比大于80％，接头污染比例低于1％并且质控之后的有效数据量必须大于70％三个条件才是合格的样本。

实施例5：构建以及比对人源序列数据库，获得非人源高质量序列

人类基因组图谱的最新版本于2013年发布，一直处于反复修补的状态，至2022年它仍然缺少超过8％的基因组，包括所有着丝粒区域卫星阵列、端粒、基因组大段重复以及rRNA区域长期以来都处于序列不明或未知的状态。这些缺失的基因组藏于大量重复基因拷贝的长序列中，短读长技术以及组装技术并无法完善。

除此之外，人源序列数据库中常用的人类参考基因组版本为hg19，hg38等，其主要来自高加索人种，对于中国人群来说，不具有广泛适用性。

针对于上述问题，本发明在人源序列数据库构建过程中，除了常规的hg19版本的参考基因组、转录组数据(refMrna)之外，还引入炎黄一号基因组和人类基因组序列无间隙版本T2T-CHM13。T2T-CHM13人类基因组序列无间隙版本由30.55亿个碱基对和19969个蛋白质编码基因组成，其克服了8％基因组缺陷的问题。而炎黄一号是全球第一例中国人标准基因组序列图谱，也是全球20亿黄种人的第一个个人基因序列图，其对于中国乃至亚洲人的DNA以及相关临床研究具有重要作用，也使得本发明构建的人源序列数据库更加适合中国人群。

本发明采用bowtie v2-2.4.4将质控之后的数据比对到人源序列数据库，并且基于上述组成所构建的人源序列数据库，使得人源宿主序列去除的更彻底；后续通过--un参数将比对不到人源序列数据库的read保存下来，即获得为非人源高质量序列。

实施例6：将非人源高质量序列组装成contigs，与耐药基因比对数据库进行比对并筛选出耐药基因。

本发明在得到了高质量非人源序列之后，采用MEGAHIT v1.2.9的默认参数将read序列组装成contigs，contigs长度可以达到几K甚至十几K，可以有效避免read序列太短引起的假阳性问题；另外需注意这与单个基因组的组装不同，病原宏基因组组装得到的是样品中全部微生物的混合contigs。

使用blastn v2.9.0+软件将高质量非人源reads序列与耐药基因比对库上的参考序列进行比对，提取比对上的耐药基因，blastn参数设置为-outfmt 6-evalue 1e-5，其中-outfmt参数指定输出格式，blastn输出文件格式，总共有12种格式，6是tabular格式对应BLAST的m8格式；-evalue设置输出结果的e-value值。

blastn比对之后的输出结果如表2所示(仅展示部分列，部分行)，其中Query_id指的是组装之后的一条contig名称，也即查询序列ID标识；Subject_id指的是耐药基因比对库中的被比对到的序列标识，由数据库来源，耐药基因名称，耐药基因accession编号以及比对到的具体位置组成；Identity指的是序列比对的一致性百分比；Align_length指的是符合比对的比对区域的长度；Miss_match是比对区域的错配数；Gap指的是比对区域的gap数目；E_value指的是比对结果的期望值，将比对序列随机打乱重新组合，和数据库进行比对，如果功能越保守，则该值越低，该值越低，匹配越好，进一步说明该结果越可信；Score指的比对结果的bit score值，值越高，结果越可信。

表2blastn比对结果

采用blastn把contigs往耐药基因比对库比对之后，筛选Gap数目为0，Miss_match数目为0，E_value值为0，Identity值为100并且Align_length大于200的结果即为最终的耐药基因分析结果。

实施例7：对耐药基因进行注释

采用耐药基因注释数据库对耐药基因进行注释，注释之后的耐药基因结果如表3所示(仅展示部分行列)，即可得到耐药基因所属物种以及表型相关信息。经本发明提供的耐药基因注释数据库注释之后的耐药基因信息，有助于实现临床细菌耐药情况的快速诊断，从而为临床医生合理选择治疗药物提供强有力的支持。

表3耐药基因检测结果示例表

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，包括以下步骤：

步骤S3：对步骤S2中病原宏基因组原始测序数据进行质量控制；

步骤S4：构建人源序列数据库，将步骤S3中质控后的数据与人源序列数据库进行比对，并过滤人源宿主序列，即得非人源序列；

步骤S5：将步骤S4所述非人源序列组装成contigs；

步骤S6：将步骤S5所述contigs序列与步骤S1构建的耐药基因比对数据库进行比对；

步骤S7：筛选耐药基因；

步骤S8：对耐药基因耐药机制、所属耐药类别和物种来源的信息进行注释；

其中，步骤S4中所述人源序列数据库是由人类参考基因组-hg19、人转录组数据、炎黄一号基因组和人类基因组序列无间隙版本-T2T-CHM13共同组成。

2.根据权利要求1所述一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，步骤S1中所述耐药基因比对数据库的构建方法包括如下步骤：

(2)统一命名耐药基因：序列下载完成后，将耐药基因名称中字母大小写、括号、bla前缀的格式问题进行规范统一；

(4)相同耐药基因的筛选：a.同一耐药基因在两个及以上耐药数据库中同时出现且序列相同，保留其一；b.同一耐药基因在两个及以上耐药数据库中同时出现但序列不同，保留出现次数在两次及以上的序列；c.同一耐药基因在多个数据库中同时出现但是序列彼此之间均不相同，根据数据库优先级card>resfinder>argannot>ncbibetalactamase排序，保留数据库最高优先级中的耐药基因序列。

3.根据权利要求1所述一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，步骤S1中所述细菌耐药基因注释数据库的构建方法包括如下步骤：

(1)数据下载：从card、resfinder、argannot以及ncbibetalactamase四个耐药基因数据库中下载注释信息；从NCBI数据库中下载DNAAccession所对应的物种信息；

(2)相同耐药基因注释信息的筛选：按照card>resfinder>argannot>ncbibetalactamase数据库排序顺序保留最高优先级数据库中的耐药基因注释信息；

(3)注释信息的汇总和整理：去除不同数据库之间的冗余信息，过滤低质量的记录信息。

4.根据权利要求1所述一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，步骤S3中所述质量控制的步骤为：(1)去除接头序列；(2)去除首尾的低质量序列；(3)去除read中含有N碱基的序列；(4)去除单一碱基占比超过80％或者两种碱基占比超过90％的序列；(5)去除重复序列；(6)去除低复杂度序列。

5.根据权利要求4所述一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，所述质量控制的合格标准为：(1)Q30碱基数据量占比大于80％；(2)接头污染比例不超过1％；(3)有效序列长度不小于45bp；(4)数据的有效数据量应大于70％。

6.根据权利要求1所述一种基于宏基因组二代测序的细菌耐药基因检测方法，其特征在于，步骤S7中所述筛选耐药基因的条件为Gap数目为0，Miss_match数目为0，E_value值为0，Identity值为100并且Align_length大于200。