CN114574565A

CN114574565A - 通过宏基因组测序确定环境样本中存在预定物种的方法

Info

Publication number: CN114574565A
Application number: CN202011392040.7A
Authority: CN
Inventors: 申奥; 宫艳萍; 吴红龙; 尹烨
Original assignee: Huada Biotechnology Wuhan Co ltd; BGI Shenzhen Co Ltd; Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Current assignee: Huada Biotechnology Wuhan Co ltd; BGI Shenzhen Co Ltd; Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-06-03

Abstract

本发明提出了一种通过宏基因组测序确定环境样本中存在预定物种的方法。该方法包括：(a)获取环境样本；(b)提取所述环境样本的总核酸，所述总核酸包括DNA和RNA；(c)对所述总核酸进行逆转录处理和第二链合成；(d)对步骤(c)的产物进行全基因组扩增处理，以便获得全基因组扩增产物；(e)基于所述全基因组扩增产物构建测序文库；(f)对所述测序文库进行测序，以便获得测序结果；和(g)基于所述测序结果，确定所述环境样本中是否存在所述预定物种。本发明的方法能够快速准确地判断环境样本中是否存在预定物种，并且可以进行预定物种的谱系建立、溯源追踪。

Description

通过宏基因组测序确定环境样本中存在预定物种的方法

技术领域

本发明涉及生物技术领域，具体地，涉及通过宏基因组测序确定环境样本中存在预定物种的方法。

背景技术

目前，微生物鉴定方法分为培养和非培养两类，临床公认的金标准是分离培养和生化鉴定，但这种方法的操作周期长、阳性率低，并且不能适用于所有病原体，例如多种细菌混合的样本，分离鉴定困难，厌氧菌在分离鉴定的过程中通常会被忽略而造成鉴定不准确。非培养类的方法比如涂片镜检、抗体抗原免疫、PCR等方法时效性强，但在准确性上存在较明显的劣势，且每个项目只能检测某一些特定的病原体，检测数量受到限制，阳性率不高。

宏基因组二代测序技术(metagenomics next-generation sequencing,mNGS)是借助二代测序平台快速测序获得样品中的核酸序列，并进一步与微生物参考基因组序列库对比，从而得知样品中微生物的种类和比例的技术。随着宏基因组二代测序技术的出现，可以不依赖于培养，直接对样本中的全部微生物核酸序列进行测定。包括直接从临床样本或环境样本中提取全部核酸信息，利用基因组学的研究策略研究样本中所包含的全部微生物信息。

环境中的微生物呈现多样性，一定程度上可以反映环境中的实时状态，通过对环境微生物的监测，可以实现对环境的动态监测。

因此，开发一种能够快速准确确定环境样本中存在预定物种的方法，能够对环境样本中的微生物进行实时监测、种群溯源、信息预测的方法很有必要。

发明内容

新型冠状病毒肺炎出现大流行，随着疫情的发展和逐步控制，如何实现对疫情的实时监测具有重要意义。在疫情发生初期，已经发现感染源附近的环境采样样本中均有不同程度的新型冠状病毒检出，证明通过环境样本对新型冠状病毒监测的可行性。因此，本研究通过宏基因组二代测序的技术建立针对环境样本进行预定物种检测的方法，为疫情的防控和实时监测提供支撑。

在本发明的一个方面，本发明提出了一种通过宏基因组测序确定环境样本中存在预定物种的方法。根据本发明的实施例，所述方法包括：(a)获取环境样本；(b)提取所述环境样本的总核酸，所述总核酸包括DNA和RNA；(c)对所述总核酸进行逆转录处理和第二链合成；(d)对步骤(c)的产物进行全基因组扩增处理，以便获得全基因组扩增产物； (e)基于所述全基因组扩增产物构建测序文库；(f)对所述测序文库进行测序，以便获得测序结果；和(g)基于所述测序结果，确定所述环境样本中是否存在所述预定物种。

根据本发明实施例的方法通过对环境中的气体、液体、固体物质进行直接收集并妥善保存，可以全面准确地获取环境样本中生物体的核酸物质，包括：微生物、动物、植物等的DNA和RNA，对所获取的核酸进行扩增、建库及测序，全面准确地获取环境样本中的核酸序列信息，利用测序结果与数据库进行分析，采用合理精准地分析方法对目标物种进行变异检测和构建进化树，对其谱系进行追踪与溯源。本发明的方法简单准确，可以实现对环境样本中的目标物种实时监控，具有无偏倚、效率高、覆盖广的优势，并且可以对目标物种进行溯源，同时可以适当预测其变异与进化的方向。

附图说明

图1为根据本发明实施例的通过宏基因组测序确定环境样本中存在预定物种的方法；

图2为根据本发明实施例的生物信息学分析流程图；

图3为根据本发明实施例的构建SNP矩阵流程图；

图4为根据本发明实施例的获得测序样本变异位点的流程图；

图5为根据本发明实施例的环境样本宏基因组检测技术流程图；

图6为根据本发明实施例的环境表面拭子样本1文库检测结果；

图7为根据本发明实施例的土壤样本文库检测结果。

图8为根据本发明实施例的45株新冠菌株S基因进化树。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的第一方面，本发明提出了一种通过宏基因组测序确定环境样本中存在预定物种的方法。参考图1，根据本发明的实施例，所述方法包括：

S1000,获取环境样本；

S2000,提取所述环境样本的总核酸，所述总核酸包括DNA和RNA；

S3000,对所述总核酸进行逆转录处理和第二链合成；

S4000,对步骤S3000的产物进行全基因组扩增处理，以便获得全基因组扩增产物；

S5000,基于所述全基因组扩增产物构建测序文库；

S6000,对所述测序文库进行测序，以便获得测序结果；和

S7000,基于所述测序结果，进行生物信息学分析，确定所述环境样本中是否存在所述预定物种。

根据本发明实施例的方法基于二代测序技术，对直接采集的环境样本中的核酸进行前处理、扩增、建库及测序等操作，进而对环境样本中的目标物种核酸信息进行检测和分析，通过将环境样本中的核酸信息与数据库进行比对，确定环境样本中是否存在目标物种，所述核酸信息可以为目标物种的特异性核酸序列、特异性修饰、表观遗传修饰、SNP位点、Indel位点等信息；在确定目标物种存在后，根据环境样本中该物种的核酸信息构建进化树，以便对其进行溯源追踪，以便对其的来源及传播方向进行溯源追踪和预测。

根据本发明的实施例，所述环境样本包括选自下列的至少之一：空气微生物样本、污水样本、固体表面拭子样本、固体表面清洗液和排泄物。根据本发明实施例的方法，根据需求确定所要取样的环境，如空气、土壤、水源等，针对目标样本为微生物及对微生物进行追踪溯源的情况，可以针对人员密集区域，如社区、餐厅、电影院等公共场所进行空气样本、固体表面及水源的采样。采样的样本量可以依据目标物种在空气、固体表面、液体中的一般存在数量，同时结合测序所需核酸样本量确定。对于排泄物、土壤等固体物质以及液体可以直接用采样管收集样本，对于针对固体表面的采样，可以利用拭子进行擦拭采样，或者利用缓冲液等采样用液体试剂冲洗所要采样的固体表面，以便获得采样的样本。

根据本发明的实施例，所述空气样本是利用过滤膜或者吸附材料获得的。根据本发明实施例的方法针对空气环境的采样可以直接利用采样管随机收集所要采样环境中的空气或者气溶胶，也可以根据目标物种有针对性地进行空气或者气溶胶的收集，进而避免空气中的颗粒物质、化学物质、某些生物、某些特殊的气体物质对后续的检测造成影响，同时也能够减少空气样本中的生物复杂度，使后续的测序分析过程更加简单准确。针对目标物种确定所需过滤膜或者吸附材料的种类及大小，例如针对病毒等微生物的采样，可以使用孔径在1μm～10μm左右，对微生物截留率较高的滤膜或者吸附材料，滤膜或者吸附材料可以选用木质素、纤维素、水溶膜等材料，便于对微生物的吸附采集，同时可以过滤空气或者气溶胶中的其他颗粒物质。

根据本发明的实施例，所述过滤膜设置在换气设备上，所述换气设备被配置为适于通过压差使环境空气通过所述过滤膜。根据本发明实施例的方法，所述换气设备可以造成采样器内部的压强低于外部环境的压强，通过内外的压差使所要采样的环境中的空气或者气溶胶经由滤膜进入采样器中，例如，所述换气设备可以为移液器、真空泵等。所述采样器本身也可以为内部真空结构，进而在采集样本时，打开真空采样器就可以利用采样器与外部环境的压差使所要采样的环境中的空气或者气溶胶经由滤膜进入采样器中。

根据本发明的实施例，所述换气设备设置有流量计，所述流量计被配置为确定通过所述过滤膜的环境空气体积。根据本发明实施例的方法，流量计可以对通过滤膜的空气体积进行测定，进而就可以估计采样量，采样量的大小可以基于一般采样经验及后续测序所需核酸量确定，例如对于人口密集且封闭环境中的气溶胶采样，可以根据一般采样经验估算在一定人口密度的封闭环境中的微生物含量，再进一步结合滤膜的结合能力，进而确定进气量。流量计可以设置与换气设备上，也可以设置于滤膜附近，以便精确测量进气量，例如对于真空采样器，可以将流量计设置于滤膜附近，进而精确测量进气量。所述流量计设置有刻度，该刻度用于提示采样人员进气量大小，便于采样人员随时观察进气量，便于采样人员根据需求调整所要收集的环境空气体积。

根据本发明的实施例，所述换气设备设置有提醒部件，所述提醒部件基于所述流量计的结果发出可识别信号。所述提醒部件可以为刻度，该刻度用于提示采样人员进气量大小，便于采样人员随时观察进气量，便于采样人员根据需求调整所要收集的环境空气体积。采样人员也可以提前通过提醒部件设置进气量，在进气量达到预定大小时，提醒部件可以发出声音或者灯光指示，进而提示采样人员。

根据本发明的实施例，所述吸附材料进一步含有指示试剂，所述指示试剂被配置为在吸收预定量二氧化碳后变色。根据本发明实施例的方法，指示试剂可以设置在吸附材料上，并且指示试剂适于指示水蒸气或者二氧化碳的流量。实际采样过程中，无法直接获知病毒的富集浓度，采用适于指示水蒸气或者二氧化碳的流量的指示试剂，可以显示水蒸气或二氧化碳的含量进而估算所吸附的微生物(如新型冠状病毒)的数量，由此可以进一步提高取样的可靠性，也可以便于判断使用者是否依从取样指示进行操作。

根据本发明的实施例，指示试剂可以与预定量的水或者二氧化碳接触后变色，由此可以根据指示试剂的变色程度来估算水蒸气或二氧化碳的含量进而估算所吸附的微生物(如新型冠状病毒)的数量，由此可以进一步提高取样的可靠性。根据本发明的实施例，本发明采用二氧化碳指示剂膜作为指示试剂，该二氧化碳指示剂膜能够在检测环境中二氧化碳浓度超过3％时变色，在将该二氧化碳指示剂膜作为指示试剂时，其变色所对应的气溶胶量足以提供做出新冠肺炎检测或其它呼吸道感染疾病的样本量。另外，根据本发明又一实施例，所采用的指示试剂为溴麝香草酚蓝，其变色要求是pH值达到6，其变色所对应的气溶胶量也足以提供做出新冠肺炎或其它呼吸道感染疾病检测的样本量。当然本领域技术人员能够理解的是，本领域技术人员还可以综合一般环境中可供检测用量的病毒量所需的时间、其他指示试剂的使用体积/质量、以及气溶胶中二氧化碳的浓度等来估算二氧化碳预定量的范围或具体值。

根据本发明的一个具体实施例，本发明中指示试剂的类型并不受特别限制，本领域技术人员可以根据实际需要进行选择，只需满足能够指示水蒸气或者二氧化碳的流量即可。例如，指示试剂可以包括但不限于：遇水变色油墨、变色硅胶、二氧化碳指示剂膜、溴麝香草酚蓝和甲基红与溴百里酚蓝的混合物中的至少之一，等等，但从原料成本、指示性好和工艺方便等方面考虑，可以优选为二氧化碳指示剂膜或溴麝香草酚蓝。

根据本发明的实施例，在步骤S3000中，所述逆转录处理采用特异性引物和随机引物相结合的方式进行，在获得目标物种的前提下同时对其他微生物进行获取，在S4000中，所述全基因组扩增处理采用随机引物进行。根据本发明实施例的方法，由于环境样本中具体的物种及物种数量并不清晰，其核酸类型及含量也不清晰，可能含有双链RNA、双链 DNA、单链RNA、单链DNA，因此需要对环境样本中的核酸进行逆转录处理、第二链合成，将相对不稳定的单链核酸及RNA序列转变为双链DNA序列，便于后续的扩增步骤及测序步骤顺利进行。利用特异引物和随机引物进行逆转录处理、然后进行第二链合成以及全基因组扩增处理，是指在对模板顺序一无所知的情况下，通过将目标病原体逆转录引物和随机序列引物组合的方式对环境样本中的目标RNA病原体和全部RNA病原体进行逆转录，进一步进行第二链的合成。将得到的DNA和原样本中的DNA共同通过随机引物进行非特异性扩增，即认为对全部核酸进行了扩增，以便于构建测序文库。本发明基于宏基因组二代测序的方法，无需使用16S或18S等通用引物进行扩增，通过无偏倚的全基因组扩增技术对样本中的全部核酸进行放大，使其达到二代测序建库要求。通过对总核酸进行文库构建并上机测序，可以对样本中的全部微生物信息进行检测，包括细菌、病毒、真菌、寄生虫以及其他RNA类的微生物。

根据本发明的又一实施例，针对微量甚至超微量的环境样本进行核酸提取，在文库构建之前，增加了全基因组的DNA扩增过程，通过该步骤的处理，可以在较短的时间内将pg级别的DNA进行放大至ng级别甚至μg级别的DNA用于文库构建的起始，得到的扩增产物经过试剂盒纯化去除多余的反应液离子。由于放大后的DNA片段大小不一，需要经过打断处理后，得到适合文库构建的小片段，用于建库实验。由于DNA含量较高，每次只需要取一定量的样本进行文库构建，可用于多次重复建库，保证检测结果的可重复性，同时也避免了对样本体积的高要求。根据本发明的另一实施例，当环境样本中的核酸量足够大时，且核酸类型单一时，也可以直接对环境样本中所提取出的核酸进行建库测序。

根据本发明的实施例，所述环境样本含有微生物，所述微生物包括细菌、病毒、真菌、支原体、衣原体的至少之一，所述病毒包括DNA病毒和RNA病毒的至少之一。根据本发明的又一实施例，所述病毒包括新型冠状病毒。

根据本发明实施例的方法，所述测序是采用DNA纳米球技术进行的。根据本发明实施的方法，先将DNA进行片段化处理，加接头序列，环化，形成单链环状DNA或者双链环状DNA，然后通过滚环复制将环状DNA扩增2-3个数量级，最终产生的扩增产物即形成 DNA纳米球，DNA纳米球用于联合探针锚定连接测序技术或者联合探针锚定聚合技术。滚环复制的优势在于扩增引入的错误率更低，并且形成的DNA纳米球直径小，可更有效地利用测序芯片表面积，从而得到更大的数据产出量。联合探针锚定连接测序技术和联合探针锚定聚合技术均采用非连续、非连锁的联合探针锚定连接，利用四种不同颜色荧光基团标记的探针读取接头附近的碱基，通过对荧光基团的成像来判断碱基类型，利用联合探针锚定连接测序技术或者联合探针锚定聚合技术可以获得最为准确的核酸序列信息。

根据本发明具体的实施例，本发明通过对环境样本中的总核酸(包括DNA和RNA)进行提取，将提取后的核酸样本进行逆转录及二链合成，将得到的产物进行全基因组扩增，扩增后的产物经过纯化并且打断处理，然后取一定量的DNA经过末端修复、末端加A处理，以及接头连接和PCR扩增放大模板量，最终获得环境样本二代测序文库。

按照测序平台要求，对上述获得的二代测序文库进行上机测序，获得测序数据，按照生物信息学分析流程对获得的测序数据进行分析比对，得到比对结果，根据比对结果来判断环境样本中是否存在新型冠状病毒核酸。同时，还可以对样本中包含新型冠状病毒核酸序列是否存在变异进行初步分析。如果检测到新型冠状病毒的基因组覆盖率和测序深度满足一定要求时，可以同时对病毒基因序列的变异情况及进化树情况进行全面分析。

主要包括以下步骤：

(1)环境样品总核酸的提取；(2)核酸逆转录及二链合成；(3)DNA全基因组扩增；(4)扩增产物纯化：用试剂盒对扩增后的DNA进行纯化处理；(5)DNA片段化：打断 DNA，使DNA样品成150-200bp的片段；(6)DNA定量：用Qubit2.0对纯化后的DNA 进行定量，取50g进行文库构建，；(7)DNA片段末端修复加A：补平5’端缺口并连接磷酸基团，去除3’端的粘性末端并加A，所述末端修复加A采用的酶为T4 DNA聚合酶、 T4多聚核苷酸激酶和rTaq DNA聚合酶；(8)DNA片段连接接头：接头Ad153通过T4 连接酶与末端加A的DNA片段相连，所述接头Ad153为接头Ad153_5T_N和接头 Ad153Ω_Bottom等摩尔量退火组合而成，

Ad153_5T_N：5’-/Phos/AGTCGGAGGCCAAGCGGTCTTAGGAAGACAANNNNNNNNNNCAACTCCTTGGCTCACA-3’(SEQ ID NO:1)

Ad153Ω_Bottom：5’-TTGTCTTCCTAAGGAACGACATGGCTACGATCCGACTT-3’(SEQ IDNO:2)，

其中Ad153_5T_N中的NNNN为标签序列，共有96种不同的标签序列，即Ad153_5T_1-96； (9)连接产物纯化；(10)PCR扩增，所述PCR扩增采用KAPA HiFi HotStart ReadyMix 试剂盒，扩10个循环，纯化，检测浓度；(11)检测文库质量；(12)多样本pooling环化，所述多样本pooling环化使用T4 DNA连接酶。采用Splint oligo序列作为环化的桥梁， Splintoligo：5’-GCCATGTCGTTCTGTGAGCCAAGG-3’(SEQ ID NO:3)； (13)形成纳米球；(14)MGISEQ-2000测序；(15)数据分析：测序完成后的原始数据，按照信息分析流程进行处理，首先进行数据拆分和数据质控，然后将质控后的序列与微生物序列库进行比对，按照设定的参数进行数据过滤，最终得到微生物比对序列。(16)在获得的微生物比对序列中统计新型冠状病毒序列比对情况，并且对比对结果与参考基因组的一致率进行分析，给出病毒序列潜在的变异结果。若比对到新型冠状病毒序列的覆盖率和深度满足一定要求时，可以对其序列变异情况及进化规律进行全面分析，构建进化树，确定待测环境样本中新型冠状病毒的来源情况以及预测新型灌装病毒可能的变异方向。

根据本发明的实施例，参考图2，步骤S7000进一步包括：

S7100，利用人类基因组参考序列，对所述测序结果进行过滤处理，以便获得非人来源测序数据；和

S7200，将所述非人来源测序数据与微生物基因组参考序列进行比对，以便确定所述环境样本中是否含有新型冠状病毒。

根据本发明实施例的方法，在采样过程中有较大几率在环境样本中污染人类的核酸，因此在测序分析时首先比对人类基因组序列，将人来源的数据过滤掉。将非人来源的的测序数据与微生物基因组数据库进行比对，以便确定环境样本中是否含有目标微生物。

根据本发明的实施例，参考图2，在步骤S7200之后，进一步包括：

S7300,确定来源于所述新型冠状病毒的新冠病毒测序读段；

S7400,基于所述新冠病毒测序读段以及已知新冠病毒参考序列，构建SNP矩阵，并基于所述SNP矩阵构建新冠病毒进化树。

根据本发明的实施例，参考图3，步骤S7400进一步包括：

S7410,将所述新冠病毒测序读段与新冠病毒参考基因组序列进行比对，确定测序样本变异位点，根据本发明实施例的方法，所述变异位点的测序读段需去除duplication后支持数不小于5，突变频率不小于5％；

S7420,基于步骤S7410中获得的所述测序样本变异位点，构建SNP矩阵。

根据本发明的实施例，参考图4，步骤S7400进一步包括：

S7430,确定覆盖新冠病毒参考基因组序列及特异基因的覆盖率和平均深度；

S7440,当所述覆盖深度不小于10X时，对所述新冠病毒测序读段进行组装；

S7450,基于所述组装结果，使用软件mummer比对，得到SNP矩阵，选用软件treebest 或mega，构建进化树。

根据本发明的具体实施例，基于环境样本的核酸测序数据，进行生物信息学分析，确定环境样本中是否携带目标微生物，在环境样本中携带目标微生物时构建进化树，对目标微生物进行溯源，预测变异信息。

(1)物种鉴定

通过生物信息分析流程进行测序数据分析，具体步骤如下：

将二代测序得到的原始数据，首先进行数据拆分和数据质控，将质控合格的数据与人源序列库进行比对，以过滤实验过程中人员操作引入的人源核酸序列。将处理后的非人源序列比对微生物序列库，按照比对率、一致率、比对质量等设定的参数过滤比对结果，并对结果进行注释，根据最终注释结果判断样本中是否存在新型冠状病毒。根据样本中检测到的新型冠状病毒核酸序列数进行后续分析：

(1-1)未检测到新型冠状病毒核酸序列时，报告检测结果为阴性；

(1-2)检测到新型冠状病毒核酸序列时，报告检测结果为阳性，并进一步对检测序列分析；

(1-3)检测到的新型冠状病毒核酸序列满足相应条件时，根据测序得到的基因序列或基因组序列进一步对其做进化树分析，以实现对新型冠状病毒的溯源及变异分析。

(2)进化树分析

通过菌株在进化树上所处的位置，可以判断该菌株与其他菌株的亲缘关系，从而进行溯源。进化树的构建主要通过以下步骤实现：

(2-1)构建SNP矩阵

a.基于reads比对参考序列

当测序样本有多个时，可以基于质控后的reads序列比对选定的一条新冠参考菌株的基因组序列，提取比对上的去除duplication后reads数>＝5且突变频率>＝5％的变异位点，得到测序样本检出的新冠菌株与参考序列间的SNP(变异位点)矩阵。

b.基于mummer比对

如果测序样本检测到的新冠序列数满足覆盖深度(不去除duplication)>30x时，可以将样本检出的新冠序列进行组装，然后基于组装序列与新冠已测菌株的基因组序列，与新冠参考菌株的基因组比对，构建变异位点(SNP)矩阵。

(2-2)生成进化树

基于生成的SNP矩阵，可以选择用treebest构建进化树，也可以选择用mega。此外，mega也可以直接基于多个菌株的基因组序列或者基因序列构建进化树，从而判断新型冠状病毒的来源。

在新冠鉴定为阳性，且满足构建进化树相应条件的前提下，可以用以上方法构建进化树。

(3)变异检测

在新冠鉴定为阳性的前提下，如果序列覆盖新冠的深度满足分析变异位点的条件，可以基于reads序列比对新冠参考序列的结果，获得变异位点(SNP和INDEL)，从而对环境样本中的菌株进行变异检测和溯源。

下面将结合具体实施例对本发明进行进一步解释说明。下述实施例中所使用的实验方法如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例

本发明用到的引物信息如表1所示，所有引物均由上海生工生物科技有限公司合成。

表1：引物序列信息

本发明中用到的试剂均为商业化的试剂，试剂信息如表2所示。

表2：试剂信息

实验仪器和设备需要：ESCO生物安全柜、高速冷冻离心机、PCR仪、数显干式热双模块、2100生物分析仪、磁力架16孔、移液器、舒适型恒温混匀仪、

Pico打断仪、MGISEQ-2000测序仪。

本实施例中所使用的样本类型包括环境表面拭子样本、污水样本和土壤样本。分别按照本发明的技术流程和常规宏基因组二代测序的技术流程进行对比。检测样本信息如表3 所示：

表3：检测样本信息

样本类型	本发明技术流程	常规流程(对照)
			环境表面拭子1	S1	S5
环境表面拭子2	S2	S6
			土壤样本	S3	S7
污水样本	S4	S8

对照组实验处理：

环境样本S5-S8按照常规实验流程，对样本进行核酸提取后，进行逆转录及二链合成，并按照MGISEQ-2000平台文库构建流程进行文库构建，对构建好的文库进行文库质量检测，结果发现，4例样本文库使用qubit进行浓度测定均未测到，表明样本建库失败，无法进行后续上机测序操作。

本发明技术流程处理：

按照附图5所示的技术流程进行实验。所使用的接头序列为上述所列序列。主要实验步骤：

1、核酸提取：按照“微生物提取试剂(磁珠法)”的操作说明对选取的疑似新型冠状病毒污染的环境样本进行核酸的提取，其中环境样本包括环境表面拭子样本S1、环境表面拭子样本S2、土壤样本S3、污水样本S4。

2、逆转录：按照Super ScriptⅡReverse Transcriptase说明书进行逆转录及二链合成；

3、环境样本核酸全基因组扩增

a、取9μL二链合成的DNA用Single Cell WGA kit试剂盒进行扩增；

b、向32μL 10×Single Cell Lysis&Fragmentation Buffer中加入2μLProteinase K Solution，充分涡旋混匀(现配现用)；

c、将上述Proteinase K Solution-10×Single Cell Lysis&FragmentationBuffer混合液取1 μL加入9μL脑脊液DNA中，充分涡旋混匀后，在50℃孵育1h，然后在99℃孵育刚好4min (孵育时间的改变会影响实验结果)；

d、向上述反应液中分别加入2μL 1×Single Cell Library Preparation Buffer和1μL Library Stabilization Solution，充分混匀后在95℃条件下孵育2min；

e、将反应液取出后在冰上迅速冷却，短暂离心后放置于冰上；

f、向反应液中加入1μL Library Preparation Enzyme，充分混匀后短暂离心，按照以下程序进行反应：

(以上步骤得到的产物可以直接用来扩增或者在-20℃存放3天)

g、将步骤f中得到的产物进行扩增，反应体系如表4所示。

表4：扩增反应体系

4、扩增产物纯化：按照QIAquick PCR Purification Kit纯化试剂盒的操作要求对上述得到的扩增产物进行纯化，最终回融至43μL溶液中。

5、MGISEQ-2000平台文库构建：按照MGISEQ-2000平台文库构建说明书进行文库构建。

6、检测文库质量：用Agilent 2100Bioanalyzer检测文库产量，操作流程按照Agilent 2100 Bioanalyzer说明书进行。测序文库检测结果见附图6、7。

7、MGISEQ-2000平台测序：按照MGISEQ-2000平台测序说明书进行操作。

8、数据分析

测序完成后的原始数据，按照信息分析流程进行处理，首先进行数据质控和过滤，然后将得到的数据与病原序列库进行比对，按照设定的参数过滤比对结果，最终得到病原比对结果，鉴定新冠病毒检测结果是否为阳性。进一步对阳性结果分析新冠病毒变异位点，基于S基因进行组装，并构建进化树。

8.1物种鉴定

4例样本检测到的新型冠状病毒信息如表5所示。

表5：4例样本检测到的新型冠状病毒信息

8.2变异分析

除样本S2外，其他样本检出值较低，无法进行进一步变异位点分析。样本S2的变异信息如表6所示。

表6样本S2的变异信息

结论：在样本S2中检测到与参考基因组存在差异的突变位点16510：G/T。

8.3构建进化树

根据S2样本中检测到的新型冠状病毒序列读段，进行全基因组或特异基因组装，本实施例中分别对全基因组和特异基因S基因(参考序列为：MT079851.1:21563-25384-3822) 的比对情况进行分析。

样本S2检测到新冠病毒S基因和基因组的reads数、覆盖率及平均深度如表7所示。

表7新冠病毒基因组及S基因的reads数、覆盖率及平均深度信息

名称	reads数	覆盖率	平均深度
				S基因	389	96.1％	10
基因组	886	73.2％	4

样本S2中的新冠病毒读段比对到S基因的reads深度满足组装要求，对S基因进行组装，并将组装结果与S基因序列库中的参考序列(44株)进行比对，使用MUMmer(v3.23)比对获取SNP矩阵的方式，用treebest(v1.9.2)构建进化树。S基因组装结果统计信息如表8。进化树如图8。

表8 S基因组装结果统计信息

通过对进化树结果进行分析，提示样本S2中检测到的新冠病毒序列S基因与参考序列 MT079851.1(SARS-CoV-2/human/CHN/WHUHnCoV011/2020)中的S基因具有较高的相似性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

SEQUENCE LISTING

<110> 深圳华大因源医药科技有限公司；华大生物科技（武汉）有限公司；深圳华大基因股份有限公司

<120> 通过宏基因组测序确定环境样本中存在预定物种的方法

<130> PIDC3204410

<160> 4

<170> PatentIn version 3.5

<210> 1

<211> 58

<212> DNA

<213> Artificial Sequence

<220>

<223> Ad153_5T_N

<220>

<221> misc_feature

<222> (1)..(1)

<223> 该序列5'端的A具有磷酸化修饰

<220>

<221> misc_feature

<222> (32)..(41)

<223> 每个n可以为A、T、G或C

<400> 1

agtcggaggc caagcggtct taggaagaca annnnnnnnn ncaactcctt ggctcaca 58

<210> 2

<211> 38

<212> DNA

<213> Artificial Sequence

<220>

<223> Ad153_Bottom

<400> 2

ttgtcttcct aaggaacgac atggctacga tccgactt 38

<210> 3

<211> 24

<212> DNA

<213> Artificial Sequence

<220>

<223> Splint oligo

<400> 3

gccatgtcgt tctgtgagcc aagg 24

<210> 4

<211> 18

<212> DNA

<213> Artificial Sequence

<220>

<223> S-P1

<400> 4

gctcagagtc gtcttcat 18

Claims

1.一种通过宏基因组测序确定环境样本中存在预定物种的方法，其特征在于，包括：

(a)获取环境样本；

(b)提取所述环境样本的总核酸，所述总核酸包括DNA和RNA；

(c)对所述总核酸进行逆转录处理和第二链合成；

(d)对步骤(c)的产物进行全基因组扩增处理，以便获得全基因组扩增产物；

(e)基于所述全基因组扩增产物构建测序文库；

(f)对所述测序文库进行测序，以便获得测序结果；和

(g)基于所述测序结果，确定所述环境样本中是否存在所述预定物种。

2.根据权利要求1所述的方法，其特征在于，所述环境样本包括选自下列的至少之一：

空气微生物样本、污水样本、固体表面拭子样本、固体表面清洗液和排泄物。

3.根据权利要求2所述的方法，其特征在于，所述空气样本是利用过滤膜或者吸附材料获得的。

4.根据权利要求3所述的方法，其特征在于，所述过滤膜设置在换气设备上，所述换气设备被配置为适于通过压差使环境空气通过所述过滤膜。

5.根据权利要求4所述的方法，其特征在于，所述换气设备设置有流量计，所述流量计被配置为确定通过所述过滤膜的环境空气体积。

6.根据权利要求5所述的方法，其特征在于，所述换气设备设置有提醒部件，所述提醒部件基于所述流量计的结果发出可识别信号。

7.根据权利要求3所述的方法，其特征在于，所述吸附材料进一步含有指示试剂，所述指示试剂被配置为在吸收预定量二氧化碳后变色。

8.根据权利要求1所述的方法，其特征在于，在步骤(c)中，所述逆转录处理采用特异性引物和随机引物组合的方式进行。在步(d)中，所述全基因组扩增处理采用随机引物进行。

9.根据权利要求1所述的方法，其特征在于，所述环境样本含有微生物，所述微生物包括细菌、病毒、真菌、衣原体和支原体的至少之一，所述病毒包括DNA病毒和RNA病毒的至少之一。

10.根据权利要求1所述的方法，其特征在于，所述测序是采用DNA纳米球技术进行的。

11.根据权利要求9所述的方法，其特征在于，所述病毒包括新型冠状病毒。

12.根据权利要求1所述的方法，其特征在于，步骤(g)进一步包括：

(g-1)利用人类基因组参考序列，对所述测序结果进行过滤处理，以便获得非人来源测序数据；和

(g-2)将所述非人来源测序数据与微生物基因组参考序列进行比对，以便确定所述环境样本中是否含有新型冠状病毒。

13.根据权利要求12所述的方法，其特征在于，在步骤(g-2)之后，进一步包括：

(g-3)确定来源于所述新型冠状病毒的新冠病毒测序读段；

(g-4)基于所述新冠病毒测序读段与已知新冠病毒参考序列，构建SNP矩阵，并基于所述SNP矩阵构建新冠病毒进化树。

14.根据权利要求13所述的方法，其特征在于，步骤(g-4)进一步包括：

(g-4-i)将所述新冠病毒测序读段与已知新冠病毒参考基因组序列进行比对，确定测序样本变异位点，可选的，所述变异位点的测序读段支持数不小于5，可选地，突变频率不小于5％；

(g-4-ii)基于步骤(g-4-i)中获得的所述测序样本新冠病毒的变异位点，构建SNP矩阵。

15.根据权利要求13所述的方法，其特征在于，步骤(g-4)进一步包括：

(g-4-a)确定覆盖新冠病毒参考基因组序列及特异基因的覆盖率和平均深度；

(g-4-b)当所述测序深度不小于10X时，对所述新冠病毒测序读段进行组装。

(g-4-c)基于所述组装结果，使用软件mummer比对，得到SNP矩阵，选用软件treebest或mega，构建进化树。