CN116179664A

CN116179664A - 基于内参确定微生物的高通量检测方法和系统及试剂盒

Info

Publication number: CN116179664A
Application number: CN202310110734.4A
Authority: CN
Inventors: 于雷; 周斌; 李婷
Original assignee: Qingdao Ruiyi Precision Medical Test Co ltd
Current assignee: Qingdao Ruiyi Precision Medical Test Co ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-30

Abstract

本发明提供了一种基于内参确定微生物的高通量检测方法和系统及试剂盒。该方法包括：提供均添加有内参序列的待测样品、阳性对照品和阴性对照品，阳性对照品含已知微生物，阴性对照品中不含微生物；基于各样品的核酸建库，进行高通量测序，获得原始测序数据；进行一级质控处理，获得各样品质控数据；将各样品质控数据中的内参特异检出序列与内参序列比对，进行第一质控处理，将阳性对照品质控数据与微生物核酸数据库比对，进行第二质控处理，将阴性对照品质控数据与微生物核酸数据库比对，进行第三质控处理；去除待测样品质控数据中的人源数据后，确定待测样品中微生物。通过该方法可以实现针对病原微生物的快速临床检测、准确性高。

Description

基于内参确定微生物的高通量检测方法和系统及试剂盒

技术领域

本发明涉及病原检测技术领域，尤其涉及一种基于内参确定微生物的高通量检测方法和系统及试剂盒。

背景技术

宏基因组二代测序(mNGS)为急难危重感染性疾病的病原微生物诊断提供了一种无需预知、无偏好、高通量的方法。不需要对病原体进行培养，可直接从患者的脑脊液、血液、肺泡灌洗液、组织等样本中提取核酸，且能够同时对多个样本进行测序。可以在24-48小时内快速检测样本中所有潜在的病原体(病毒、细菌、真菌、支原体、衣原体和寄生虫)，包括新发病原体，具有良好的敏感性和特异性。

宏基因组二代测序在急难危重感染性疾病的病原检测分析的应用，特别强调检测的质量控制和质量保证。由于mNGS检测病原微生物流程涉及核酸提取、文库构建、上机测序流程的多个实验步骤，因操作失误、气溶胶或index hopping等因素导致的同批次样本的互换或交叉污染对检测结果有很大的误导性，因此需要对整个检测流程进行严格质控以确保检测结果的可靠性和准确性。

针对宏基因组测序在呼吸道疾病的快速检测的准确性和可靠性还需要进一步改进。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。结合宏基因组测序在病原微生物检测的流程特点，为了提高检测的准确性和可靠性，发明人在研究过程中创造性的设置了质控检测，例如：(1)添加碱基序列作为内参质控品，可以质控病原检测实验过程中是否存在交叉污染，内参的有无同时可以监控病原检测实验成功与否；(2)以已知多种微生物组成的样本作为阳性对照品，可用于监控病原检测实验过程成功与否；(3)以不含任何微生物的样品作为阴性对照品或空白对照品，可用于监控外源的或试剂的微生物污染。基于上述几点，本发明创造性的提出了一种质控病原检测的内参序列、阳性对照和阴性对照体系，对整个病原检测流程进行严格质控以确保检测结果的可靠性和准确性。

具体而言，本发明提供了如下技术方案：

在本发明的第一方面，本发明提供了一种基于内参的通过高通量测序确定微生物的方法。所提供的基于内参确定微生物的高通量检测方法，包括：

提供待测样品、阳性对照品和阴性对照品，所述待测样品、所述阳性对照品和阴性对照品中均添加有预定含量的内参序列，所述内参序列与微生物核酸序列库和人源核酸序列库均不存在交叉序列，所述阳性对照品中含有已知微生物的混合物，所述阴性对照品中不含有微生物；

获取所述待测样品、所述阳性对照品和所述阴性对照品的核酸，建库，并进行高通量测序，以便获得待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据；

对所述待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据进行一级质控处理，以便获得待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据；

分别基于待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据中所含有的内参特异检出序列与内参序列的比对结果，进行第一质控处理，基于阳性对照品质控数据与微生物核酸数据库的比对结果，进行第二质控处理，基于阴性对照品质控数据与微生物核酸数据库的比对结果，进行第三质控处理；

基于待测样品质控数据与人源核酸数据库的比对结果，去除人源核酸数据，并基于剩余数据与微生物核酸数据库的比对结果，确定所述待测样品中含有的微生物。

该方法通过设计有阳性对照品和阴性对照品，并且在所有样品中添加有内参序列，通过第一质控处理、第二质控处理和第三质控处理，多级质控，能够准确地确定待测样品中含有的微生物。

根据本发明的实施例，以上所提供的基于内参确定微生物的高通量检测方法还可以进一步包括如下技术特征：

根据本发明的实施例，所述内参序列包含固定序列和随机序列，所述内参序列不能比对到微生物核酸序列库和人源核酸序列库。

根据本发明的实施例，所述固定序列来自于植物基因组。植物基因组与人源核酸数据库以及微生物核酸数据库亲缘关系远，不存在交叉，可以用作内参序列的组成。

根据本发明的实施例，所述植物包括选自拟南芥、小麦、大麦、水稻中的至少一种，根据本发明的优选实施例，所述植物为小麦。

根据本发明的实施例，所述随机序列长度为6～30bp；优选地，所述随机序列长度为8～24bp。所述随机序列位于所述固定序列的任意位置；优选地，所述随机序列位于所述固定序列两端或者位于所述固定序列中间。

根据本发明的实施例，所述固定序列长度为50-300bp，优选的，所述固定序列长度为150-250bp。

根据本发明的实施例，所述内参序列选自SEQ ID NO.1～SEQ ID NO.24所示序列中的至少一种。

根据本发明的实施例，所述内参序列在所述待测样品中的添加量为10⁶-10¹⁰copies/ml，优选的，添加量为1×10⁸copies/ml。

根据本发明的实施例，所述阳性对照品包括细菌、真菌、病毒和/或寄生虫的已知微生物的混合物。所述阴性对照品为人源细胞。

根据本发明的实施例，所述待测样品选自脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织中的至少一种。

根据本发明的实施例，采用物理破壁、化学试剂裂解联合酶解法分别提取所述待检测样品、阳性对照品和阴性对照品中的核酸；

根据本发明的实施例，通过下述方法对所述待测样品、阳性对照品和阴性对照品中的核酸进行建库，包括：对DNA样本进行酶切片段化处理、末端修复、连接接头和文库纯化。

根据本发明的实施例，所述方法进一步包括：基于所述待测样品质控数据、阳性对照品质控数据和阴性对照品的质控数据比对到内参序列的特异序列数，判断所述待测样品、阳性对照品和阴性对照品中的内参特异性序列是否为添加的内参序列，若是，判定检测合格。

根据本发明的实施例，基于所述阳性对照品质控数据比对到所述微生物核酸序列库的序列数，判定检测流程是否成功，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功。

根据本发明的实施例，基于所述阴性对照品质控数据比对到所述微生物核酸序列库的序列数，判定实验的背景情况。

本发明的第二方面提供了一种基于内参确定微生物的高通量检测系统，包括：

样本提供单元，所述样本提供单元用于提供待测样品、阳性对照品和阴性对照品，所述待测样品、所述阳性对照品和阴性对照品中均添加有预定含量的内参序列，所述内参序列与微生物核酸序列库和所述人源核酸序列库均不存在交叉序列，所述阳性对照品中含有已知微生物的混合物，所述阴性对照品中不含有微生物；

高通量测序单元，所述高通量测序单元用于获取所述待测样品、所述阳性对照品和所述阴性对照品的核酸，建库，并进行高通量测序，以便获得待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据，所述待测样品原始测序数据包含内参特异检出序列、微生物特异检出序列和人源特异检测序列；

一级质控单元，所述一级质控单元用于对所述待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据进行质控处理，以便获得待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据；

多级质控单元，所述多级质控单元基于待测样品质控数据中所含有的内参特异检出序列与内参序列的比对结果，进行第一质控处理，基于阳性对照品质控数据与微生物核酸数据库的比对结果，进行第二质控处理，基于阴性对照品质控数据与微生物核酸数据库的比对结果，进行第三质控处理；

微生物确定单元，所述微生物确定单元基于待测样品质控数据与人源核酸数据库的比对结果，去除人源核酸数据，并基于剩余数据与微生物核酸数据库的比对结果，确定所述待测样品中含有的微生物。

根据本发明的实施例，以上所述基于内参确定微生物的高通量检测系统可以进一步包括如下技术特征：

根据本发明的实施例，所述系统中，所述内参序列包含固定序列和随机序列，所述内参序列不能比对到微生物核酸序列库和人源核酸序列库。

根据本发明的实施例，所述系统中，所述固定序列来自于植物基因组。

根据本发明的实施例，所述系统中，所述植物包括选自拟南芥、小麦、大麦、水稻中的至少一种，优选的，所述植物为小麦。

根据本发明的实施例，所述系统中，所述随机序列长度为6～30bp；优选地，所述随机序列长度为8～24bp。所述随机序列位于所述固定序列的任意位置；优选地，所述随机序列位于所述固定序列两端或者位于所述固定序列中间。

根据本发明的实施例，所述系统中，所述固定序列长度为50-300bp，优选的，所述固定序列长度为150-250bp。

根据本发明的实施例，所述系统中，所述内参序列选自SEQ ID NO.1～SEQ IDNO.24所示序列中的至少一种。

根据本发明的实施例，所述系统中，所述内参序列在所述待测样品中的添加量为10⁶-10¹⁰copies/ml，优选的，添加量为1×10⁸copies/ml。

根据本发明的实施例，所述系统中，所述阳性对照品包括细菌、真菌、病毒和/或寄生虫的已知微生物的混合物；

所述阴性对照品为人源细胞；

根据本发明的实施例，所述系统中，所述待测样品选自脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织中的至少一种。

根据本发明的实施例，所述系统中，采用物理破壁、化学试剂裂解联合酶解法分别提取所述待测样品、阳性对照品和阴性对照品中的核酸；

根据本发明的实施例，所述系统中，通过下述方法对所述待测样品、阳性对照品和阴性对照品中的核酸进行建库，包括：对DNA样本进行酶切片段化处理、末端修复、连接接头和文库纯化。

根据本发明的实施例，所述系统中，进一步包括：基于所述待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据比对到内参序列的特异序列数，判断所述待测样品、阳性对照品和阴性对照品中的内参特异性序列是否为添加的内参序列，若是，判定检测合格。

根据本发明的实施例，所述系统中，基于所述阳性对照品质控数据比对到所述微生物核酸序列库的序列数，判定检测流程是否成功，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功；

根据本发明的实施例，所述系统中，基于所述阴性对照品质控数据比对到所述微生物核酸序列库的序列数，判定实验的背景情况。

本发明的第三方面提供了一种试剂盒，所述试剂盒包括内参序列，所述内参序列选自SEQ ID NO:1～SEQ ID NO:24中的至少一种。根据本发明的实施例，所述试剂盒进一步包括阳性对照品，阴性对照品，所述阳性对照品含有已知微生物，所述阴性对照品中不含有微生物。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明的实施例提供的不同的内参序列的示意图。

图2是根据本发明的实施例提供的基于内参确定微生物的高通量检测方法的示意图。

图3是根据本发明的实施例提供的基于内参确定微生物的高通量检测系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明的发明人在研究过程中创造性的发现在含有微生物核酸序列和人源核酸序列的待测样品中添加设定含量的内参序列；从添加有内参序列的待测样品中提取核酸，并使用所述核酸进行测序文库构建和上机测序得到测序原始数据；并对测序结果中的原始测序数据进行质控处理，并去除比对到人源基因组的序列，获得待比对数据；基于预先建立的比对数据库，对待比对数据进行比对，根据比对结果，统计比对数据序列数、内参特异检出序列数和微生物特异检出序列数(待测样品中通常含有微生物核酸序列和人源核酸序列，而且由于同时添加了预定含量的内参数据，所以待测样品原始测序数据包含内参特异检出序列、微生物特异性检出序列和人源特异检出序列)；根据微生物特异检出序列，确定主要病原微生物，实现针对感染性疾病的无需预知、无偏好、高通量的病原微生物的快速临床检测；根据内参特异检出序列，判断检测方法是否发生交叉污染，质控全流程，降低假阳性。

为此，本发明提供了一种基于内参确定微生物的高通量检测方法，包括：提供待测样品、阳性对照品和阴性对照品，所述待测样品、所述阳性对照品和阴性对照品中均添加有预定含量的内参序列，所述内参序列与微生物核酸序列库和人源核酸序列库均不存在交叉序列，所述阳性对照品中含有已知微生物的混合物，所述阴性对照品中不含有微生物；获取所述待测样品、所述阳性对照品和所述阴性对照品的核酸，建库，并进行高通量测序，以便获得待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据；对所述待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据进行质控处理，以便获得待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据；分别基于待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据中所含有的内参特异检出序列与内参序列的比对结果，进行第一质控处理，基于阳性对照品质控数据与微生物核酸数据库的比对结果，进行第二质控处理，基于阴性对照品质控数据与微生物核酸数据库的比对结果，进行第三质控处理；基于待测样品质控数据与人源核酸数据库的比对结果，去除人源核酸数据，并基于剩余数据与微生物核酸数据库的比对结果，确定所述待测样品中含有的微生物。

在含有病原核酸序列和人源核酸序列的待测样品中添加设定含量的内参序列，所述内参序列与微生物核酸序列库及人源核酸序列库均不存在交叉序列；阳性对照品、阴性对照品中也添加设定含量的内参序列。提取各样品中的核酸，并使用核酸进行测序文库构建和上机测序，得到包含内参特异检出序列、微生物特异检出序列和人源特异检出序列的各原始测序数据；对原始测序数据进行质控处理(主要目的是去除质量差的测序数据)，质控后的数据比对内参序列，根据内参特异检出序列，判断检测方法是否发生交叉污染，从而达到质控全流程的目的；质控后数据进行去除比对到人源核酸序列库中的数据，并基于微生物核酸序列库确定主要病原微生物。通过该方法可以准确快速的确定待测样品中的微生物，包括病原微生物。所提供的方法可以用于疾病诊断目的，也可以用于非疾病检测和诊断目的。

所提到的内参序列包括固定序列与随机序列，所提到的内参序列要求不能比对到微生物核酸序列库及人源核酸序列库。因此，所述选择植物源性核酸序列作为固定序列的来源，植物物种可为拟南芥、小麦、大麦、水稻等其它物种，具体的，为小麦。所述随机序列是一段或几段碱基随机组合的序列，其随机序列位置可以位于固定序列两端或内部任意位置。

在至少一些实施方式中，内参序列中固定序列的长度可为50-300bp,优选的，长度为150-250bp。在至少一些实施方式中，内参序列中固定序列可选择来自小麦基因组中序列，具体的选择小麦γ-麦醇溶蛋白基因序列。具体的序列如下：

CAACAACTATTTCCCCAGTCCCAGCAACCACAACAACAATTTCCCCAGCCCCAACAA

CAATTCCCGCAGCCCCAACAACCGCAACAATCATTCCCCCAACAACAACCACCGTTC

ATTCAGCCATCTCTACAACAACAGGTGAACCCATGCAAGAATTTCCTCTTGCAGCAA

TGCAAACCTGTGTCATTGGTGTC(SEQ ID NO:25)

所提到的内参序列中的随机序列通过碱基随机组合，挑选出GC含量为35％-65％的序列；进行连续碱基过滤，筛选出连续碱基序列数小于6的序列；去除比对微生物核酸序列库及人源核酸序列库的序列，经过系列严格筛选后获得随机序列集。在本发明的至少一些实施方式中，所述随机序列长度为6-30bp，具体的，选择为24bp。在本发明的至少一些实施方式中，随机序列选择1-3个分别与固定序列的不同位置连接，随机序列位置可以位于固定序列两端或内部任意碱基位置。在至少一些具体实施方式中，选择2个随机序列与固定序列进行组合，更具体的，2个随机序列位于固定序列两端。结合本发明的具体实施例，内参序列具体为SEQ ID NO.1～SEQ ID NO.24所示序列。如图1所示，内参序列可以是各种组合，随机序列与固定序列组合，或者不同的随机序列和固定序列组合，或者不同的随机序列和不同的固定序列交叉组合等等。

所提到的内参序列可以通过直接化学合成或设计特殊引物进行PCR扩增获得。

所述内参序列在待测样品中的含量，是根据不同样本类型中人源核酸序列分布的特性而确定的添加量，该添加量保证在不同人源核酸样本背景下内参序列都能被稳定检出，且在总测序数据中不超过设定比例。根据本发明的具体实施方式，所述内参序列添加量(即内参序列在待测样品中的核酸占比)为10⁶-10¹²copies/ml，例如为10⁶-10¹⁰copies/ml。优选的，添加量为1×10⁸copies/ml。

根据本发明的具体实施方式，可以通过本领域常用的多种方法获取待测样品、阳性对照品和阴性对照品的核酸。例如可以通过采用物理破壁、化学试剂裂解联合酶解法提取所述待测样品、阳性对照品和阴性对照品中的DNA。

在建库的时候可以通过本领域常用的多种方法进行建库。例如可以通过市售的试剂盒，例如病原微生物检测试剂盒针对所述DNA样本构建测序文库。建库步骤可以根据需要包括：对所述DNA样本进行酶切片段化处理、末端修复、连接接头和文库纯化。在进行测序时，可以借助于二代测序平台如：illumina NextSeq平台。

应用所提供的基于内参确定微生物的高通量方法，可以结合多个判定结果对结果进行判定。例如根据所述待测样品、阳性对照品和阴性对照品的测序数据比对到内参DNA的特异序列数，判断所述待检测样品、阳性对照品和阴性对照品中的相应的内参序列数是否为添加的特定内参序列，若是，判定检测合格。例如，每种样品中只添加唯一一种特异的内参序列，若样品测序数据中只检测到所添加的特异的内参序列，则说明检测合格；若没有检测到特异的内参序列，则说明检测失败，或检测到多种内参序列，也说明检测失败。

再例如根据所述阳性对照品的测序数据比对到所述预先建立的微生物核酸序列库的序列数，评价整个检测流程成功与否，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功。例如，阳性对照品中有10种微生物，测序数据种检测到这10种对应的微生物，则说明检测合格，符合预期值，实验成功。

再例如根据所述阴性对照品的测序数据比对到所述预先建立的微生物核酸序列库的序列数，确定阴性对照样本中的微生物检出结果，评价实验的背景情况。阴性对照品主要是用来评价实验背景情况，测序数据会包含实验室环境微生物、试剂工程菌等信息，设置阴性对照品目的是排除这些微生物对样本检测结果的影响。

所提到的阳性对照品为已知微生物的混合物；所提到的阴性对照品为人源细胞。例如所提到的阳性对照品，为已知的微生物的混合物，如可以是包括细菌、真菌、病毒或寄生虫在内的混合物(mix)。所提到的阴性对照品为人源细胞，理论上不包含任何微生物，即微生物空白对照。

本文中所提到的待测样品的类型不作特殊限制，可以为：人类脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织等其他样本类型。

所提到的内参序列为：合成DNA(脱氧核糖核苷酸)。根据本发明的具体实施方式，所列出的各内参序列分别如SEQ ID NO:1～SEQ ID NO:24所示，所示出的SEQ ID NO:1～SEQ ID NO:24序列均包含SEQ ID NO:25：

SEQ ID NO:1

CTAAGGTACTAAGGTACTAAGGTACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCGCAATTTCGCAATTTCGCAATT(SEQ ID NO:1)

SEQ ID NO:2

TAAGGAGATAAGGAGATAAGGAGACAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTTCGAGACTTCGAGACTTCGAGAC(SEQ ID NO:2)

SEQ ID NO:3

AAGAGGATAAGAGGATAAGAGGATCAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTGCCACGATGCCACGATGCCACGA(SEQ ID NO:3)

SEQ ID NO:4

TACCAAGATACCAAGATACCAAGACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCAACCTCATAACCTCATAACCTCAT(SEQ ID NO:4)

SEQ ID NO:5

CAGAAGGACAGAAGGACAGAAGGACAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCCCTGAGATCCTGAGATCCTGAGAT(SEQ ID NO:5)

SEQ ID NO:6

CTGCAAGTCTGCAAGTCTGCAAGTCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTTACAACCTTACAACCTTACAACC(SEQ ID NO:6)

SEQ ID NO:7

TTCGTGATTTCGTGATTTCGTGATCAACAACTATTTCCCCAGTCCCAGCAACCACAAC

AACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCAT

TCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCAT

GCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCGGATGGTTGGATGGTTGGATGGTT(SEQ ID NO:7)

SEQ ID NO:8

TTCCGATATTCCGATATTCCGATACAACAACTATTTCCCCAGTCCCAGCAACCACAAC

AACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCAT

TCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCAT

GCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCATCCGGAAATCCGGAAATCCGGAA(SEQ ID NO:8)

SEQ ID NO:9

TGAGCGGATGAGCGGATGAGCGGACAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCGACCACTCGACCACTCGACCAC(SEQ ID NO:9)

SEQ ID NO:10

CTGACCGACTGACCGACTGACCGACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCCGAGGTTACGAGGTTACGAGGTTA(SEQ ID NO:10)

SEQ ID NO:11

TCCTCGAATCCTCGAATCCTCGAACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCCAAGCTTCCAAGCTTCCAAGCT(SEQ ID NO:11)

SEQ ID NO:12

TAGGTGGTTAGGTGGTTAGGTGGTCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCTTACACTCTTACACTCTTACAC(SEQ ID NO:12)

SEQ ID NO:13

TCTAACGGTCTAACGGTCTAACGGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTTCTCATTTTCTCATTTTCTCATT(SEQ ID NO:13)

SEQ ID NO:14

TTGGAGTGTTGGAGTGTTGGAGTGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCGCATCGTCGCATCGTCGCATCG(SEQ ID NO:14)

SEQ ID NO:15

TCTAGAGGTCTAGAGGTCTAGAGGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTAAGCCATTAAGCCATTAAGCCAT(SEQ ID NO:15)

SEQ ID NO:16

TCTGGATGTCTGGATGTCTGGATGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCAAGGAATCAAGGAATCAAGGAATC(SEQ ID NO:16)

SEQ ID NO:17

TCTATTCGTCTATTCGTCTATTCGCAACAACTATTTCCCCAGTCCCAGCAACCACAAC

AACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCAT

TCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCAT

GCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCCTTGAGAACTTGAGAACTTGAGAA(SEQ ID NO:17)

SEQ ID NO:18

AGGCAATTAGGCAATTAGGCAATTCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTGGAGGACTGGAGGACTGGAGGAC(SEQ ID NO:18)

SEQ ID NO:19

TTAGTCGGTTAGTCGGTTAGTCGGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTAACAATCTAACAATCTAACAATC(SEQ ID NO:19)

SEQ ID NO:20

CAGATCCACAGATCCACAGATCCACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCCTGACATACTGACATACTGACATA(SEQ ID NO:20)

SEQ ID NO:21

GTTCGAAGGTTCGAAGGTTCGAAGCAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTGATCGTCTGATCGTCTGATCGTC(SEQ ID NO:21)

SEQ ID NO:22

GAAGACATGAAGACATGAAGACATCAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCTCGAGGACTCGAGGACTCGAGGAC(SEQ ID NO:22)

SEQ ID NO:23

GACAGAACGACAGAACGACAGAACCAACAACTATTTCCCCAGTCCCAGCAACCACA

ACAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATC

ATTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCC

ATGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCGCTTAGGCGCTTAGGCGCTTAGGC(SEQ ID NO:23)

SEQ ID NO:24

GACCTCCAGACCTCCAGACCTCCACAACAACTATTTCCCCAGTCCCAGCAACCACAA

CAACAATTTCCCCAGCCCCAACAACAATTCCCGCAGCCCCAACAACCGCAACAATCA

TTCCCCCAACAACAACCACCGTTCATTCAGCCATCTCTACAACAACAGGTGAACCCA

TGCAAGAATTTCCTCTTGCAGCAATGCAAACCTGTGTCATTGGTGTCCATTAATCCATTAATCCATTAATC(SEQ ID NO:24)

在本发明的一些具体实施方式中，提供了一种基于内参确定微生物的高通量检测方法，如图2所示，包括：

(1)在含有微生物核酸序列和人源核酸序列的待测样品中添加设定含量的内参序列，所述内参序列与微生物核酸序列库及人源核酸序列库均不存在交叉序列；向阳性对照品、阴性对照品中添加设定含量的内参序列；

(2)从添加有内参序列的待测样品、阳性对照品、阴性对照品中提取核酸，并使用所述核酸进行测序文库构建和上机测序，得到包含内参特异检出序列、病原特异检出序列和人源特异检出序列的原始测序数据；

(3)对原始测序数据进行质控处理，质控后的数据比对内参序列，根据内参特异检出序列，判断检测方法是否发生交叉污染，质控全流程；

(4)阳性对照品的测序数据比对到所述预先建立的微生物核酸序列库的序列数，评价整个检测流程成功与否，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功；

(5)阴性对照品的测序数据比对到所述预先建立的微生物核酸序列库的序列数，确定阴性对照样本中的微生物检出结果，评价实验的背景情况；

(6)原始测序数据进行质控处理后，进行去除比对到人源核酸序列库的序列，获得待比对数据；对待比对数据进行微生物原核酸序列库比对处理，根据比对结果，确定主要病原微生物。

本发明还提供了一种基于内参确定微生物的高通量检测系统，如图3所示，包括：样本提供单元，所述样本提供单元用于提供待测样品、阳性对照品和阴性对照品，所述待测样品、所述阳性对照品和阴性对照品中均添加有预定含量的内参序列，所述内参序列与微生物核酸序列库和所述人源核酸序列库均不存在交叉序列，所述阳性对照品中含有已知微生物的混合物，所述阴性对照品中不含有微生物；高通量测序单元，所述高通量测序单元用于获取所述待测样品、所述阳性对照品和所述阴性对照品的核酸，建库，并进行高通量测序，以便获得待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据，所述待测样品原始测序数据包含内参特异检出序列、微生物特异检出序列和人源特异检测序列；一级质控单元，所述一级质控单元用于对所述待测样品原始测序数据、阳性对照品原始测序数据、阴性对照品原始测序数据进行质控处理，以便获得待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据；多级质控单元，所述多级质控单元基于待测样品质控数据中所含有的内参特异检出序列与内参序列的比对结果，进行第一质控处理，基于阳性对照品质控数据与微生物核酸数据库的比对结果，进行第二质控处理，基于阴性对照品质控数据与微生物核酸数据库的比对结果，进行第三质控处理；微生物确定单元，所述微生物确定单元基于待测样品质控数据与人源核酸数据库的比对结果，去除人源核酸数据，并基于剩余数据与微生物核酸数据库的比对结果，确定所述待测样品中含有的微生物。

根据本发明的具体实施方式，所述系统中，所述内参序列包含固定序列和随机序列，所述内参序列不能比对到微生物核酸序列库和人源核酸序列库。

根据本发明的具体实施方式，所述系统中，所述固定序列来自于植物基因组。

根据本发明的具体实施方式，所述系统中，所述植物包括选自拟南芥、小麦、大麦、水稻中的至少一种，优选的，所述植物为小麦。

根据本发明的具体实施方式，所述系统中，所述随机序列长度为6～30bp；优选地，所述随机序列长度为8～24bp。所述随机序列位于所述固定序列的任意位置；优选地，所述随机序列位于所述固定序列两端或者位于所述固定序列中间。

根据本发明的具体实施方式，所述系统中，所述固定序列长度为50-300bp，优选的，所述固定序列长度为150-250bp。

根据本发明的具体实施方式，所述系统中，所述内参序列选自SEQ ID NO.1～SEQID NO.24所示序列中的至少一种。

根据本发明的具体实施方式，所述系统中，所述内参序列在所述待测样品中的添加量为10⁶-10¹⁰copies/ml，优选的，添加量为1×10⁸copies/ml。

根据本发明的具体实施方式，所述系统中，所述阳性对照品包括细菌、真菌、病毒和/或寄生虫的已知微生物的混合物；所述阴性对照品为人源细胞。

根据本发明的具体实施方式，所述系统中，所述待测样品选自脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织中的至少一种。

根据本发明的具体实施方式，所述系统中，采用物理破壁、化学试剂裂解联合酶解法分别提取所述待测样品、阳性对照品和阴性对照品中的核酸；

根据本发明的具体实施方式，所述系统中，通过下述方法对所述待测样品、阳性对照品和阴性对照品中的核酸进行建库，包括：对DNA样本进行酶切片段化处理、末端修复、连接接头和文库纯化。

根据本发明的具体实施方式，所述系统中，进一步包括：基于所述待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据比对到内参序列的特异序列数，判断所述待测样品、阳性对照品和阴性对照品中的内参特异性序列是否为添加的内参序列，若是，判定检测合格。

根据本发明的具体实施方式，所述系统中，基于所述阳性对照品质控数据比对到所述微生物核酸序列库的序列数，判定检测流程是否成功，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功；

根据本发明的具体实施方式，所述系统中，基于所述阴性对照品质控数据比对到所述微生物核酸序列库的序列数，判定实验的背景情况。

以下将通过实施例对本发明进行详细描述。需要说明的是，这些实施例仅用于方便本领域技术人员理解，不应看做是对本发明保护范围的限制。实施例中未提及的具体的参数或者步骤均可以通过本领域的常识获得，而且所用到的试剂均可以通过商用获得。

实施例1

1、内参序列合成

上述内参序列进行化学合成，组合共24种，分别如SEQ ID NO:1～SEQ ID NO:24所示。

2、内参序列添加量测试

以脑脊液样本为例，对脑脊液样本中内参序列的添加量进行测试。

首先对待测样品类型中人源核酸含量分布进行分析。分别选取6例临床脑脊液、血液、肺泡灌洗液、痰液样本，通过qPCR方法测定样本中的人源核酸含量，评估脑脊液、血液、肺泡灌洗液、痰液样本中的人源核酸分布范围，24例样品中人源核酸含量分布在10³～10⁷copies/ml之间。因此，在进行内参序列的添加量评估时，需满足在不同人源核酸含量的样本中均有稳定检出。

根据24例样本中人源核酸的分布特征，分别选取了低(3×10³copies/ml)、中(10⁵copies/ml)、高(10⁷copies/ml)浓度人源核酸含量的样本进行内参序列添加量测试，添加不同浓度的内参序列，每组重复测试3次，根据内参检出序列数及内参占比确定最终的内参序列添加量，所有数据均在标准化到20Mreads(2千万条测序序列数)下进行统计，统计结果如下表1所示：

表1

根据上述测试结果显示，当内参序列添加量为1.5×10⁶拷贝/ml时，高浓度人源样本中内参序列检测值较小，且有一例未检检测到内参序列，且三次检测差异较大，不符合分析要求；当内参序列数据添加量为1.5×10¹⁰拷贝/ml时，低浓度人源样本中内参序列检出值较高，造成可利用数据减少，且三次检测差异较大，不符合分析要求；当内参序列数据添加量为1×10⁸拷贝/ml时，在低、中、高浓度的人源核酸下均有稳定检出，且三个重复样本中检测值波动较小，符合分析要求，因此确认内参序列添加量为1×10⁸拷贝/ml。

实施例2

本实施例采用本发明的测序内参序列进行实际应用，进行病原微生物高通量测序检测的质控。

1、实际待检测病原样本中添加内参序列提取核酸

选取待检测病原样本、阳性对照品和阴性对照品，分别取600ul，按照上述浓度(1×10⁸copies/ml)分别加入不同种类的内参序列，进行核酸提取，得到样本核酸DNA。

2、二代测序文库构建与Illumina NextSeq平台上机测序。

3、下机测序数据分析：对原始测序数据进行质控，比对内参序列，提取内参检测值，分析实验结果。

对测序数据分析结果中部分数据进行了统计，具体见下表2。

表2

首先对原始测序数据进行质控处理，得到每个样本的总检测值，质控后的数据比对内参序列，样本S2中检出其他内参序列，判断为实验过程中存在交叉污染，实验失败，其他样本均未检测出其他样本的内参序列，判断为实验过程中不存在交叉污染，实验成功；阳性对照品中含有的微生物特异性序列均有检出，判定为实验成功；阴性对照品的测序数据比对到所述预先建立的微生物核酸序列库的序列数，确定阴性对照样本中的微生物检出结果，评价实验的背景情况；原始测序数据进行质控处理后，进行去除比对到人源核酸序列库的序列，获得待比对数据；对待比对数据进行微生物原核酸序列库比对处理，根据比对结果，确定主要病原微生物。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于内参确定微生物的高通量检测方法，其特征在于，包括：

提供待测样品、阳性对照品和阴性对照品，所述待测样品、所述阳性对照品和阴性对照品中均添加有预定含量的内参序列，所述内参序列与微生物核酸序列库和人源核酸序列库均不存在交叉序列，所述阳性对照品中含有已知微生物，所述阴性对照品中不含有微生物；

2.根据权利要求1所述的方法，其特征在于，所述内参序列包含固定序列和随机序列，所述内参序列不能比对到微生物核酸序列库和人源核酸序列库；

任选地，所述固定序列来自于植物基因组；

任选地，所述植物包括选自拟南芥、小麦、大麦、水稻中的至少一种，优选的，所述植物为小麦；

任选地，所述随机序列长度为6～30bp；优选地，所述随机序列长度为8～24bp；

任选地，所述随机序列位于所述固定序列的任意位置；

优选地，所述随机序列位于所述固定序列两端或者位于所述固定序列中间；

任选地，所述固定序列长度为50-300bp，优选的，所述固定序列长度为150-250bp；

任选地，所述内参序列选自SEQ ID NO.1～SEQ ID NO.24所示序列中的至少一种；

任选地，所述内参序列在所述待测样品中的添加量为10⁶-10¹²copies/ml，优选为10⁶-10¹⁰copies/ml，更优选的，添加量为1×10⁸copies/ml。

3.根据权利要求1所述的方法，其特征在于，所述阳性对照品包括细菌、真菌、病毒和/或寄生虫的已知微生物的混合物；

所述阴性对照品为人源细胞；

任选地，所述待测样品选自脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织中的至少一种。

4.根据权利要求1所述的方法，其特征在于，采用物理破壁、化学试剂裂解联合酶解法分别提取所述待测样品、阳性对照品和阴性对照品中的核酸；

任选地，通过下述方法对所述待测样品、阳性对照品和阴性对照品中的核酸进行建库，包括：对DNA样本进行酶切片段化处理、末端修复、连接接头和文库纯化。

5.根据权利要求1所述的方法，其特征在于，进一步包括：

基于所述待测样品质控数据、阳性对照品质控数据和阴性对照品的质控数据比对到内参序列的特异序列数，判断所述待测样品、阳性对照品和阴性对照品中的内参特异性序列是否为添加的内参序列，若是，判定检测合格；

任选地，基于所述阳性对照品质控数据比对到所述微生物核酸序列库的序列数，判定检测流程是否成功，若相应的微生物特异序列数为零，则判定为实验失败，若相应的微生物特异序列数符合预期值，则判定为实验成功；

任选地，基于所述阴性对照品质控数据比对到所述微生物核酸序列库的序列数，判定实验的背景情况。

6.一种基于内参确定微生物的高通量检测系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述内参序列包含固定序列和随机序列，所述内参序列不能比对到微生物核酸序列库和人源核酸序列库；

任选地，所述固定序列来自于植物基因组；

任选地，所述随机序列位于所述固定序列的任意位置；

任选地，所述内参序列在所述待测样品中的添加量为10⁶-10¹⁰copies/ml，优选的，添加量为1×10⁸copies/ml。

8.根据权利要求6所述的系统，其特征在于，所述阳性对照品包括细菌、真菌、病毒和/或寄生虫的已知微生物的混合物；

所述阴性对照品为人源细胞；

任选地，所述待测样品选自脑脊液、血液、肺泡灌洗液、痰液、胸水、尿液、组织中的至少一种；

任选地，采用物理破壁、化学试剂裂解联合酶解法分别提取所述待测样品、阳性对照品和阴性对照品中的核酸；

9.根据权利要求6所述的系统，其特征在于，进一步包括：

基于所述待测样品质控数据、阳性对照品质控数据和阴性对照品质控数据比对到内参序列的特异序列数，判断所述待测样品、阳性对照品和阴性对照品中的内参特异性序列是否为添加的内参序列，若是，判定检测合格；

10.一种试剂盒，其特征在于，所述试剂盒包括内参序列，所述内参序列选自SEQ IDNO:1～SEQ ID NO:24中的至少一种；

任选地，进一步包括阳性对照品和阴性对照品，所述阳性对照品含有已知微生物，所述阴性对照品中不含有微生物。