CN113160882B

CN113160882B - 一种基于三代测序的病原微生物宏基因组检测方法

Info

Publication number: CN113160882B
Application number: CN202110567044.2A
Authority: CN
Inventors: 邹珂珂; 赵科研; 马欣; 刘菲; 李珊
Original assignee: Chengdu Boxin Medical Laboratory Co ltd
Current assignee: Chengdu Boxin Medical Laboratory Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-11-15
Anticipated expiration: 2041-05-24
Also published as: CN113160882A

Abstract

本发明公开了一种基于三代测序的病原微生物宏基因组检测方法，包括获取样本三代测序的原始基因检测数据，去除干扰序列，保留非人源数据；建立全物种核酸数据库与全物种分类数据库的映射关系；去除映射关系集合中的无效映射关系，得到非人源数据和全物种分类数据库的有效映射关系集合，并根据有效映射关系集合计算得到物种鉴定结果；构建微生物注释数据库，获得微生物注释信息；构建微生物耐药数据库，获得微生物耐药信息；根据物种鉴定结果、微生物注释信息和微生物耐药信息，获得微生物检测报告。本发明通过建立非人源数据，优化映射结果，提高检测精度，提高了相似区域物种分类的准确性，进而经过预测比对序列结果得到物种。

Description

一种基于三代测序的病原微生物宏基因组检测方法

技术领域

本发明涉及生物信息技术领域，具体涉及到一种基于三代测序的病原微生物宏基因组检测方法。

背景技术

病原微生物是人类致病的主要因素之一，在人类疾病的确诊过程中，通常需要进行人体样本的生物学检测。

宏基因组学（Metagenomics）又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库，利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质（或获得新基因）的新理念和新方法。其主要含义是：对特定环境中全部微生物的总DNA（也称宏基因组，metagenomic）进行克隆，并通过构建宏基因组文库和筛选等手段获得新的生理活性物质；或者根据rDNA数据库设计引物，通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。

病原微生物宏基因组的检测是指从感染微生物的患者中检测相关的致病菌，目前已知的致病菌包括病毒、细菌、寄生虫、真菌、原生动物等。耐药基因的检测是指从感染微生物的患者中检测是否存在能产生对某种抗生物素不敏感产物的基因。快速、准确的鉴定出微生物的类型和耐药基因，能对医生的用药指导提供有效的参考。但目前由于检测手段的限制，快速精确诊断的难度比较大。

目前病原微生物物种鉴定的方法主要有以下几种：

1）涂片检查：

该方法通过感染液涂片显微镜光学检测，只能判定是否有微生物存在，由于只能从形态学进行判定，因此准确度和敏感性都存在极大的缺乏，另外受到样本类型的限制，如鼻验拭子样本就不适用。

2）病原培养：

常见的样本培养类型包括血培养和痰液培养，所需鉴定的物种受到培养基成分的限制且培养时间由培养样本中类型不同而所需培养的时间不同，一般来说鉴定需氧菌需要24 小时，厌氧菌需要 48 小时，酵母菌需要48-72 小时，丝状真菌需要 4-7 天，该种方法虽是临床上常用的方法但检测的种类非常有限，所需时间也不同步，存在比较高的漏检情况。

3）抗原/抗体的免疫学检测方法：

能鉴定存在抗体的常见物种，灵敏度低且通量小。

4）基于代谢产物的质谱检测：

作为一种高通量检测技术，检测时间略长需 1-3 天。5）基于核酸的 PCR 检测，一般来说具有较高的准确性，检测速度只需几小时，但因需要设计特异性的引物和探针，一次只能鉴定 10-20 种物种，且每个物种需要针对性设计引物和探针。

5）基于基因组序列的二三代测序的检测方法：

相较于传统低通量钓鱼氏检测，二三代测序检测的检测方法能快速高效的一次性分析所有的基因组成分，通常能在 12-24 小时检测出样本中含有的所有微生物核酸序列。

目前三代测序技术中的纳米单分子测序技术与以往的测序技术皆不同，它是基于电信号而不是光信号的测序技术。该技术的关键之一是，设计一种特殊的纳米孔，孔内共价结合有分子接头。当DNA碱基通过纳米孔时，它们使电荷发生变化，从而短暂地影响流过纳米孔的电流强度（每种碱基所影响的电流变化幅度是不同的），灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。

目前基于二代测序的病原微生物检测方法相比于三代纳米孔测序的多，大部分检测方法缺乏有效的致病注释也没有同时整合耐药基因的检测。三代测序比二代测序时间少，从样本到结果，二代一般需要24h以上，而三代从样本到结果可以在10-24h内。而且三代测序灵活，不需要积累很多样本达到测序的通量，也可以随时暂停，随时加测数据。三代测序序列更长，也更有利于比对到病原参考基因组。所以三代测序应用在病原检测上具有很大优势，但是三代测序的测序准确度比二代测序的低，这些数据特性决定了不能简单沿用二代的数据分析方法。

另外基于二代测序的数据一般由于数据量较大鉴定物种的算法，一般采用基于kmer 进行，该种方法在高相似核酸的鉴定上准确性较差且只能在属级上有相对准确的区分度，并且多数流程为提高分析速度比对数据库只保留报道过的已知致病物种的基因组核酸数据库，对于一些还未报道过的病原鉴定，存在一定的盲区。另外同时整合耐药分析的测序分析方法流程比较罕见，因此一个自动化的快速准确分析鉴定病原微生物与耐药基因的流程方法是行业急需。

发明内容

本发明的目的是提供一种基于三代测序的病原微生物宏基因组检测方法。

为达上述目的，本发明的一个实施例中提供了一种基于三代测序的病原微生物宏基因组检测方法，包括以下步骤：

S1、获取样本三代测序的原始基因检测数据，去除干扰序列；

S2、调用人源基因数据库，去除原始基因检测数据中的人源数据，保留非人源数据，非人源数据即为含有病原微生物基因检测数据的三代测序数据；

S3、构建全物种核酸数据库；建立全物种核酸数据库与全物种分类数据库的映射关系，全物种核酸数据库中的每个序列号与全物种分类数据库的分类号建立对应关系；

S4、映射非人源数据到全物种核酸数据库中，确定非人源数据中的微生物物种的数量和种类；

S5、构建微生物注释数据库和微生物耐药数据库，对鉴定出的微生物进行注释；获得微生物注释信息和微生物耐药信息。

本发明优选的方案中，干扰序列包括标签序列、接头序列、低质量分数序列和低复杂度序列。

本发明优选的方案中，低复杂度序列为复杂度得分大于阈值的序列，复杂度得分的计算方法采用滑动窗口算法，具体公式为：

；

其中Score为复杂度得分，比例因子S=100/31；

为在一个窗口内某单词

出现的次数；

为窗口长度；

为步长。

本发明优选的方案中，低质量分数序列为质量分数均值低于7的序列；低复杂度序列为复杂度得分大于5的序列。

本发明优选的方案中，全物种核酸数据库的构建方法为：

从NCBI的Nucleotide数据库中下载核酸序列信息，对数据进行清理，去除所有不具有分类效果的核酸序列；去除干扰序列，得到全物种核酸数据库；

干扰序列包括：质粒序列、合成序列、富集培养序列、宏基因组序列、未知序列和未能区分物种序列。

本发明优选的方案中，步骤S4中，确定非人源数据中的微生物物种的数量和种类的具体方法为：

S41、获取非人源数据中的每条序列，即得到多个测序序列；

S42、分别将每个测序序列与全物种核酸数据库中的参考序列建立映射关系，获得每个测序序列的映射关系集合；通过Blast算法计算映射关系集合中每个映射关系的映射系数，筛选所有映射系数大于阈值的映射关系，得到每个测序序列与全物种核酸数据库的最佳映射关系集合；每个映射关系中包括映射信息，映射信息包括映射系数Si、序列匹配区域相似度li、测序序列占参考序列的比例Ci、测序序列总长度Li；

S43、根据最佳映射关系集合、全物种核酸数据库与全物种分类数据库的映射关系，得到该测序序列所代表的所有物种，获得预测物种集合；

S44、选择预测物种集合中物种数目出现次数最多的物种认定为预测物种；根据预测物种从最佳映射关系集合中筛选出唯一映射关系；所述唯一映射关系中序列匹配区域相似度li、测序序列占参考序列的比例Ci的值最大；

S45、将所有测序序列所认定的预测物种进行合并，得到样本的预测物种全集。

本发明优选的方案中，步骤S42中还包括从映射关系集合中去除干扰映射关系的步骤，干扰映射关系包括：

A、参考序列对应的物种为人源的映射关系；

B、映射系数小于 80的映射关系；

C、序列长度小于 100bp的映射关系；

D、序列长度大于 900 且匹配覆盖度小于 70%的映射关系；

E、序列长度小于等于 900 、匹配覆盖度小于 90%的映射关系。

本发明优选的方案中，微生物注释数据库中包括：

人条件致病菌数据库、人体微生物定植菌数据库、移植病人常见感染数据库、人菌血症常见微生物数据库、人脑脊液常见数据库、人间传染的病原微生物名录。

本发明优选的方案中，微生物注释信息包括：

物种种属序列数占比统计，分布统计，比对分数统计，比对长度统计，序列数统计，可视化鉴定物种序列在基因组上的分布。

本发明优选的方案中，微生物耐药数据库包括耐药基因数据库序列，耐药基因数据库序列来自 NCBI数据库；微生物耐药信息包括耐药基因家族类型、基因家族序列占比、耐药基因序列分布，耐抗生素的具体类型、耐药的药物类型、产生耐药的耐药机制。

本发明优选的方案中，微生物注释数据库中的数据包括：

综上，本发明具有以下优点：

1、本发明在检测过程中去除了干扰序列和人源数据信息，建立非人源数据、全物种核酸数据库和全物种分类数据库之间的映射关系，并优化映射结果，提高检测精度，提高了相似区域物种分类的准确性，进而经过预测比对序列结果得到物种。

2、本发明在获取物种检测鉴定结果后，将预测鉴定结果映射至微生物注释数据库和微生物耐药数据库中，整合微生物信息注释模块和耐药分析注释模块后，能够提供该方法适用于病原微生物的分类鉴定和耐药基因的寻找。

本发明的方法与现有的分析系统相比，能集成化分析、自由度程度更高、分类准确度和更高的灵敏度；能提供微生物致病的注释信息和耐药基因的注释、并且能可视化序列在基因组或者核酸序列上的分布。

3、本发明对样本进行了去噪，去除了包括低复杂度在内的干扰序列，提供了低复杂度序列的算法，使得最终得到的检测结果更加准确。

附图说明

图1为本发明一个实施例中的原理框图；

图2为本发明构建测序序列和参考核酸序列映射关系的示意图；

图3为本发明实验例3中微生物序列分布情况图；

图4为本发明实验例3中一个耐药性基因序列的分布图；

图5为本发明实验例3中另一个耐药性基因序列的分布图。

具体实施方式

本发明提供了一种基于三代测序的病原微生物宏基因组检测方法，包括以下步骤：

S1、获取样本三代测序的原始基因检测数据，去除干扰序列。

本发明是三代测序方法，可以采用纳米孔三代测序数据，在去除干扰序列时，可以自动识别去除去除纳米孔三代测序数据中的干扰序列。干扰序列包括标签序列、接头序列、低质量分数序列和低复杂度序列。接头序列和标签序列，是生物学流程的选择性去除，属于数据清洗去噪。

本发明的低复杂度序列为复杂度得分大于阈值的序列，复杂度得分的计算方法采用滑动窗口算法，具体公式为：

；

其中Score为复杂度得分，比例因子S=100/31；

为在一个窗口内某单词

出现的次数；

为窗口长度；

为步长。

本发明的复杂度得分是为了评估测序片段序列的复杂程度，用于排除低复杂度的序列，是基于序列字符串的滑动窗口算法。

窗口长度指的是一条序列中以窗口长度为64个碱基为单位从头截取序列进行计算，每个窗口下有一个得分值，最后根据每个序列所有滑动窗口这个得分值的平均值作为序列整体复杂度的最后结果。步长指的是上一个窗口开始位置到下一个窗口的滑动距离（滑动窗口计算一般常用窗口长度的一半作为滑动步长）。本发明的窗口长度和步长都是根据大量实验和经验得到的值，采用本发明的窗口长度和步长，能够保证良好的准确度。

优选的，为了保证精确度的同时尽量降低运算通量，可以设定低质量分数序列为质量分数均值低于7的序列；低复杂度序列为复杂度得分大于5的序列。

低复杂度序列主要表现为均聚物序列，例如AAAAAAAAAAAA, TTTTTTTTTTT等；短串联重复序列如ACACACACAC、TCGTCGTCGTCG等这种类似的结构，在许多物种中存在这种结构性序列，因此这些序列能匹配在多个物种上，会导致最后的一致性计算得分很高或者混淆Blast的运算。

由此可见，这类序列不仅没有起到任何区分作用，还会的延长分类的时间，并且增加误分类的可能性；因此在检测开始前必须要去除干扰序列。

接头序列和标签序列是在建库过程中引入的，一般是用来区分样本并且保证序列能被正常测序的结构性序列，是一些已知的序列。如果不对该序列去除，会降低序列在正确物种上的一致性得分，甚至造成错误的分类结果。另外从去除接头、标签、低复杂度的序列的情况中能侧面评估测序数据是否达标。

S2、调用人源基因数据库，去除原始基因检测数据中的人源数据，保留非人源数据，非人源数据即为含有病原微生物基因检测数据的三代测序数据。

人源基因数据库即为人类独有的基因数据库。人体检测样本中大部分的基因序列是人基因组数据，微生物基因组数据的占比相对较小。

例如一般情况下，血液样本中人源基因序列占比大于98%、肺泡灌洗液中人源基因序列占比大于70%，具体占比和病人的感染情况相关。因此，在检测筛分前对人源数据的去除和统计不但能帮助监控样本的情况，还能加速的后期的分析速度。

去除人源基因数据后能够快速提取出非人源数据，非人源数据即为含有病原微生物基因检测数据的三代测序数据。

本发明首先去除人源数据具有以下益处：

（1）可以对人源数据进行统计，人源数据的占比从一定程度上反应样本本身的情况，如正常未扩增的血液样本人源占比一般大于98%，若严重低于该值则提示样本存在一定程度的污染问题。

（2）样本中除了人源数据外，则其余为非人源数据，人源数据更容易对比和去除，这样能够快速获得非人源数据。

S3、构建全物种核酸数据库；建立全物种核酸数据库与全物种分类数据库的映射关系，全物种核酸数据库中的每个序列号与全物种分类数据库的分类号建立对应关系。

全物种核酸数据库的构建方法为：

从NCBI的Nucleotide数据库中下载核酸序列信息，对数据进行清理，去除所有不具有分类效果的核酸序列；考虑到微生物基因组之间存在基因交流而影响分类的情况，去除干扰序列，得到全物种核酸数据库；全物种核酸数据库包含51M条核酸序列、283G个碱基。

每个物种具有已知的核酸数据，每个核算序列也能够与对应的物种进行关联；因此可以根据上述关系建立全物种核酸数据库与全物种分类数据库的映射关系，即通过核酸数据库的相关信息检索到或者查询得到该核酸信息对应的哪种物种。

S4、映射非人源数据到全物种核酸数据库中，确定非人源数据中的微生物物种的数量和种类。

样本中必然含有多个非人源数据，即含有多条代表非人源基因序列；样本中也可能含有一个或者多个微生物，因此实际上得到的样本大多数是含有多个微生物物种的；这样将会导致实际的检测样本检测出多个微生物种群。

其次，基因是存在突变的，全物种核酸数据库中该微生物所对应的参考序列与现实样本中该物种的微生物的基因序列有可能不完全相同，且不相同的概率非常大。因此，基于上述实际情况，本发明根据样本中的非人源数据确定非人源数据中的微生物物种的数量和种类的具体方法为：

S41、获取非人源数据中的每条序列，即得到多个测序序列。

S42、分别将每个测序序列与全物种核酸数据库中的参考序列建立映射关系，获得每个测序序列的映射关系集合；通过Blast算法计算映射关系集合中每个映射关系的映射系数，筛选所有映射系数大于阈值的映射关系，得到每个测序序列与全物种核酸数据库的最佳映射关系集合。每个映射关系中包括映射信息，映射信息包括映射系数Si、序列匹配区域相似度li、测序序列占参考序列的比例Ci、测序序列总长度Li。

每个测序序列可能具有多个映射关系，映射关系的映射系数越高，表示该映射关系更加准确可靠，通过该映射关系得到认定的物种信息更具有可信度。

S43、根据最佳映射关系集合、全物种核酸数据库与全物种分类数据库的映射关系，得到该测序序列所代表的所有物种，获得预测物种集合。

测序序列对应参考序列，参考序列能够对应物种，因此能够从测序序列对应到物种。

本发明优选最佳映射关系集合中每个映射关系的映射系数大于阈值，最优选的是选择映射系数排名前五个的映射关系。每个映射关系所对应的全物种核酸数据库中，均具有对应的一个物种。则在此步骤，每一个测序序列均能够得到多个物种，获得预测物种集合。

S44、选择预测物种集合中物种数目出现次数最多的物种认定为预测物种。

当预测物种集合中某一物种出现的次数最多，则表示该物种是最有可能预测正确的物种。根据预测物种从最佳映射关系集合中筛选出唯一映射关系；所述唯一映射关系中序列匹配区域相似度li、测序序列占参考序列的比例Ci的值最大，则该映射关系为该测序序列与物种的最正确的对应关系，其表征或者显示该测序序列或者物种的相关信息则能够更加准确。

参考图2，本发明通过测序序列和参考序列的多个映射关系即佳映射关系集合找到对应的物种，再从所有映射预测物种的映射关系中反向筛选出唯一映射关系，筛选的标准以序列匹配区域相似度li、测序序列占参考序列的比例Ci的值最大为要素，使得最终得到的物种映射关系能够准确，以该唯一映射关系所代表的全物种核酸数据库对应的参考序列或者其余映射信息作为要素进行显示，即可以提供给相关人员查看，在显示微生物信息时同时显示。

本发明的映射信息包括：

Min：代表测序序列i和参考序列n的映射关系；

Sin：代表测序序列i和参考序列n的映射系数；

lin：代表测序序列i和参考序列n的序列匹配区域相似度数值；

Cin：代表测序序列i和参考序列n的测序序列占参考序列的比例数值；

Lin：代表测序序列i的总长度。

微生物注释数据库中包括：

微生物注释信息包括：

微生物耐药数据库包括耐药基因数据库序列，耐药基因数据库序列来自 NCBI数据库；微生物耐药信息包括耐药基因家族类型、基因家族序列占比、耐药基因序列分布，耐抗生素的具体类型、耐药的药物类型、产生耐药的耐药机制。

本发明优选的实施例中，步骤S42中还包括从映射关系集合中去除干扰映射关系的步骤，干扰映射关系包括：

A、参考序列对应的物种为人源的映射关系；

B、映射系数小于 80的映射关系；

C、序列长度小于 100bp的映射关系；

D、序列长度大于 900 且匹配覆盖度小于 70%的映射关系；

E、序列长度小于等于 900 、匹配覆盖度小于 90%的映射关系。

本发明在获得映射关系后，需要进行去噪的原因在于：

序列的长度过短，随机匹配到其他参考序列的概率会增大；映射系数过小表示该条测序序列和参考序列之间不相似的区域过多；当序列大于900时由于三代测序产生的错误率会导致覆盖度降低，因此设置一个长序列的长度阈值和覆盖度阈值保证长序列的正常检出。以上的这些参数都是基于三代测序本身的特征和真实三代测序后的标准样本数据优化后的结果。

实验例1

本发明的方法（简称MCP）与目前主流的基于测序数据的微生物检测方法centrifuge和kraken2+bracken进行了比较，其对应的比对数据库均为该方法流程下相对的物种较全的数据库，分别是NT和microbial-fatfree，其中NT数据为NCBI全物种数据库、microbial-fatfree数据库主要涵盖了古细菌、细菌、真菌、原生动物、病毒。

因为临床样本均为高度人源数据富集的样本，且三代测序中存在的10-15%测序误差会导致人源背景数据去除不干净，有时候也存在类似微生物感染的自身免疫反应的阴性样本，因此先模拟评估比较在纯人源背景下，物种的误分情况。

人源数据DNA来自NCBI核酸序列CM000663.2，随机生成300bp长的1000条序列，其中不包含N碱基含量占比50%以上的序列。

表1：实验例1的检测结果

方法	分类数据库	匹配到非哺乳动物的序列数目	匹配到非哺乳动物的序列数目占比
				MCP	ASD	2	0.2%
centrifuge	NT	10	1%
				kraken2+bracken	microbial-fatfree	229	22.9%

从表1可以看出，在单纯的人源背景分析下本发明的MCP/ASD流程的分类准确率是最高的，误分率只占0.2%，其次是centrifuge/NT误分率为1%，而表现最差的组为kraken2+bracken/microbial-fatfree，误分率为22.9%。由此可看出本发明的MCP/ASD流程方法对于阴性样本的判定有着明显的优势。另外MCP/ASD的分析速度介于两者之间。

实验例2

为了评估微生物的分类准确率本发明随机选择了10种中常见的病毒、细菌、真菌，并从每个物种对应的核酸序列中随机挑选300bp长的500条序列作为分析的起始序列。

参与模拟的核酸序列号为：

序列1：NC_006273.2；病毒；

序列2：NC_001798.2；病毒；

序列3：NC_002205.1；病毒；

序列4：NC_011071.1；细菌；

序列5：NZ_CP014955.1；细菌；

序列6：NC_007795.1；细菌；

序列7：NC_032089.1；真菌；

序列8：NC_007445.1；真菌；

序列9：NC_013660.2；真菌；

序列10：CP022321.1；真菌。

检测方法：

方法1：MCP/ASD；

方法2：centrifuge/NT；

方法3：kraken2+bracken/microbial-fatfree。

表2：实验例2的实验结果

从表2的实验的结果来看，本发明MCP/ASD匹配到目标序列的占比是最高的，匹配到非目标序列占比的中位数三种方法一致，centrifuge/NT整体的检出敏感度明显低于其它两种方法。另外，当样本中存在非数据库的未知序列时，方法3会引入大量的假阳性结果，具体可参考Aspergillusnigermitochondrion和Pneumocystiscariniimitochondrion。

由此可看出，对于宏基因组测序数据来说，独立于数据库外的未知物种是完全有可能存在的，并且测序错误也可能引入未知序列。本发明对于阳性样本序列的敏感性和准确性的判定上有着明显的优势。

实验例3

使用已知耐药类型和微生物类型的临床血液样本结果对整个流程做一个展示，该临床样本为耐头孢菌素的枸橼酸杆菌(Citrobacter freundii)，测序起始数据为PC001.fastq。Linux 系统下运行包含预处理、映射、分类、耐药分析模块的 MCP 程序：

MCP -i PC001.fastq -a preclean-mapping-ClassifyBlast-resistance -sPC001 -r y。

整块分析耗时为 7m36.839s，分析耐药基因结果为 CMY beta-lactamase 基因家族，检出微生物结果为 Citrobacter freundii，与临床培养和耐药鉴定的结果吻合。

结果做如下展示：

1) 原始序列统计信息

样本

数据类型

类型

序列数

碱基数目

最短序列

序列平均长度

序列最大长度

Q1

Q2

Q3

N50

Q20(%)

Q30(%)

PC001

FASTQ

DNA

2429

1043075

72

429.4

2725

337

350

441

396

62.76

23.41

2) 清洗后的序列统计信息

样本	人员序列占比%	序列总数	非人员序列数	碱基数目	序列平均长度	序列最大长度	平均质量分数
								PC001	82.54	2429	424	1026996	422	2725	21.8

3) 微生物分类注释结果

检出微生物主要为 Citrobacter freundii。

4) 微生物序列分布情况

参考图3，经分析序列最多分布于 Citrobacer freundii strain CitB 全基因组序列上，主要集中16S 区域，该结果与我们实验16S 富集扩增的结果一致。横坐标为其物种基因组坐标，纵坐标为覆盖深度。

5) 微生物耐药的结果

流程结果显示主要耐药基因家族为 CMY 基因家族，与临床耐药培养结果结果一致。

6) 耐药基因序列分布

参考图4和图5，CMY beta-lactamase 基因家族主要分布在下面两个基因上，分布情况如图所示。横坐标为其基因的坐标，纵坐标为覆盖深度。其中 txid为耐药基因id。

Claims

1.一种基于三代测序的病原微生物宏基因组检测方法，其特征在于，包括以下步骤：

S2、调用人源基因数据库，去除原始基因检测数据中的人源数据，保留非人源数据，所述非人源数据即为含有病原微生物基因检测数据的三代测序数据；

S5、构建微生物注释数据库和微生物耐药数据库，对鉴定出的微生物进行注释；获得微生物注释信息和微生物耐药信息；

所述步骤S4中，确定非人源数据中的微生物物种的数量和种类的具体方法为：

S41、获取非人源数据中的每条序列，即得到多个测序序列；

2.如权利要求1所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述干扰序列包括标签序列、接头序列、低质量分数序列和低复杂度序列。

3.如权利要求2所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述低复杂度序列为复杂度得分大于阈值的序列，所述复杂度得分的计算方法采用滑动窗口算法，具体公式为：

其中Score为复杂度得分，比例因子S＝100/31；

n_i为在一个窗口内某单词i出现的次数；w为窗口长度；l为步长。

4.如权利要求3所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述低质量分数序列为质量分数均值低于7的序列；所述低复杂度序列为复杂度得分大于5的序列。

5.如权利要求1所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述全物种核酸数据库的构建方法为：

所述干扰序列包括：质粒序列、合成序列、富集培养序列、宏基因组序列、未知序列和未能区分物种序列。

6.如权利要求1所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述步骤S42中还包括从映射关系集合中去除干扰映射关系的步骤，干扰映射关系包括：

A、参考序列对应的物种为人源的映射关系；

B、映射系数小于80％的映射关系；

C、序列长度小于100bp的映射关系；

D、序列长度大于900bp且匹配覆盖度小于70％的映射关系；

E、序列长度小于等于900bp、匹配覆盖度小于90％的映射关系。

7.如权利要求1所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述微生物注释数据库中包括：人条件致病菌数据库、人体微生物定植菌数据库、移植病人常见感染数据库、人菌血症常见微生物数据库、人脑脊液常见数据库、人间传染的病原微生物名录。

8.如权利要求7所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述微生物注释信息包括：

9.如权利要求1所述的基于三代测序的病原微生物宏基因组检测方法，其特征在于：所述微生物耐药数据库包括耐药基因数据库序列，所述耐药基因数据库序列来自NCBI数据库；所述微生物耐药信息包括耐药基因家族类型、基因家族序列占比、耐药基因序列分布，耐抗生素的具体类型、耐药的药物类型、产生耐药的耐药机制。