CN105112569B

CN105112569B - 基于宏基因组学的病毒感染检测及鉴定方法

Info

Publication number: CN105112569B
Application number: CN201510583787.3A
Authority: CN
Inventors: 金奇; 任仙文; 杨剑; 胡永峰; 杨帆
Original assignee: Institute of Pathogen Biology of CAMS
Current assignee: Institute of Pathogen Biology of CAMS
Priority date: 2015-09-14
Filing date: 2015-09-14
Publication date: 2017-11-21
Anticipated expiration: 2035-09-14
Also published as: CN105112569A

Abstract

本发明提供一种基于宏基因组学的病毒感染检测鉴定技术。基于宏基因组学的病毒感染检测鉴定技术包括以下四个部分：样本制备、高通量测序、生物信息学分析、结果复核。样本制备过程根据基于宏基因组学的病毒感染检测技术的要求和不同类型检测样本的特点从检测样本中有效提取或富集病毒核酸并建成可供二代测序仪使用的核酸库；高通量测序对样本制备步骤提供的核酸库进行测序以获得充分的高质量的核酸序列信息；生物信息学分析通过对高通量测序提供的大量、高质量核酸序列进行分析进而获得样本核酸提示的病毒组成信息；结果复核部分综合生物信息分析结果和其他信息如技术对照等进行全面研判，最终确定备选的感染病毒，并利用其他技术如PCR进行复核。

Description

基于宏基因组学的病毒感染检测及鉴定方法

技术领域：

本发明涉及病毒的检测与鉴定，具体涉及一种基于宏基因组学和高通量测序的病毒检测鉴定技术。

背景技术：

随着人类经济和社会的不断发展，人类的活动范围越来越大，与野生动物的接触越来越密切、越来越频繁，野生动物携带的病毒直接或通过媒介如蚊子、蜱等传致人的风险越来越大，构成了人类新发传染病的70％左右。这些新发传染病如2003年中国发生的非典、2007‐2010年中国发生的新布尼亚病毒导致的疫情、2014年在西非肆虐的埃博拉疫情、2015年由中东传致韩国的MERS，给病毒感染的检测鉴定技术提出了极大的挑战。由于这些新发传染病的病原体往往是未知病原，与已知病原的同源性很低，传统的检测方法如基于已知病毒核酸序列建立的PCR技术、基于已知病毒组分建立的血清学技术等通常都会失灵。这给新发传染病的及时防控带来了极大的负面影响。

基于PCR或者血清学的技术都需要预先已知病毒的信息，或者是核酸序列，或者是病毒的关键组分，这些技术特点严重限制了它们在新发传染病病原体检测上的应用。另外一项有希望用于新发传染病病原体检测的技术是在特点的培养基或细胞上对病原体进行培养，然后提取核酸进行基因组测序。但是这一技术因为三个缺点其应用受到严重限制。首先，培养基或细胞类型的选择是个难题。由于对新发传染病病原体的认识非常有限甚至是空白，所以应用这一技术进行新发传染病病原体的检测几乎完全是靠运气。选对了培养基或细胞类型，可以得到正确的检测结果。选错了培养基或细胞类型就会得到阴性结果。这一选择难题严重影响了这一检测方法的灵敏度。其次，活的病原体的培养对生物安全防护水平提出了很高的要求。例如，2003年非典是由SARS冠状病毒导致的，需要达到生物安全三级(P3)防护水平才能开展病毒培养实验。2014年西非的埃博拉病毒需要生物安全四级(P4)的防护水平。而具备这些生物安全防护水平的实验室非常有限，严重限制了这一技术的广泛应用。第三，从培养到提取核酸再到基因组测序整个实验流程耗时长，不能满足传染病防控的需求。

鉴于上述检测技术的局限性，发明新的快速、灵敏、准确、方便的病原体检测技术势在必行。针对传染病防控的这一特殊需求，我们发明了一套基于宏基因组学的病毒检测鉴定技术体系。该体系不需要培养病原体，对生物安全防护水平要求低，不限于特定的病毒种类，可适用于所有已知的和未知远缘的病毒的检测，不限于单一病毒的检测，也可用于病毒混合感染的检测，对样本的需求量低，检测时间短，检测灵敏，结果可靠，给出的信息全面。尽管这套技术体系针对传染病的防控而发明，但其应用不限于传染病的防控，可以进一步拓展到其他方面如临床样本的精准医学分析、动植物样本的微生物组成分析等等。

发明内容：

本发明的目的在于提供一种基于宏基因组学的病毒检测方法。

本发明所述的检测方法，包括样本制备、高通量测序、生物信息学分析、结果复核等四个步骤。

具体的，本发明所述的检测方法，包括以下步骤：

(1)样本制备：基于微量、痕量待检测样本富集、提取病毒核酸构建可用于高通量测序的核酸库；

(2)高通量测序：设定辅助基于宏基因组学技术的病毒感染检测的内参、对照；

(3)生物信息学分析：本系统的主体部分，从高通量测序数据中准确分析样本中的物种组成，包括远缘未知的病毒组成。

(4)结果复核：综合多方面信息，对生物信息学分析结果就行遴选、复核。

一.样本制备

其中，步骤(1)所述样本制备：针对微量(≤1ml)、痕量(≤1ul)待检测样本，本发明采用了一套订制的聚合酶链反应(PCR，Polymerase Chain Reaction)扩增技术制备高通量测序所需的核酸文库。

具体地，步骤(1)所述样本制备部分包括以下八个步骤：病毒灭活、样本定量、病毒纯化、背景消除、提取核酸、合成互补DNA(cDNA，complementary DNA)、等比例扩增、核酸纯化。

第一步，病毒灭活：样本要根据疑似病毒的种类和样本的特点采取通用的或特异的病毒灭活方法进行灭活。这一步不仅充分保障了实验人员的人身安全，而且简便有效地降低了病毒检测任务对生物安全防护水平的要求，同时也充分保留了病毒的遗传信息。

第二步，样本定量：对样本总量、样本所含病毒载量、病毒核酸量进行初步测定和估计，从而为后续实验步骤制定详细计划。

第三步，病毒纯化：通过超速离心将病毒颗粒进行富集纯化，从而提高病毒序列在最后结果中所占的比例。

第四步，背景消除：在提取病毒核酸前将宿主的DNA和RNA利用DNA酶和RNA酶进行充分消化。

第五步，提取核酸：提取病毒核酸，主要提取病毒的核糖核酸。

第六步，合成cDNA：将第五步提取出来的病毒核糖核酸转化成更稳定更易保存的cDNA。

第七步，等比例扩增：基于聚合酶链反应(PCR)将第六步获得的cDNA进行用随机引物进行扩增，直到满足下一步高通量测序所要求的上样量。这一步是可选步骤。如果第六步获得的cDNA量足够进行高通量测序，则直接进入高通量测序环节。

第八步，核酸纯化：纯化第六步或第七步获得的病毒核酸用于后续的高通量测序。

二.高通量测序

其中，步骤2所述高通量测序：根据病毒检测的需求，人工合成序列已知、数量已知的核酸序列作为样本核酸库的内参；对序列已知并与样本检测平行进行的对照核酸库进行测序。

具体地，步骤(2)所述高通量测序包括三个步骤：构建高通量测序文库、高通量测序、将图像测序信号转换为核酸序列信息。为提高基于高通量测序的病毒检测技术的准确性，我们在高通量测序文库构建这一步增加了我们设计的内参样本，以衡量病毒核酸在样本中的丰度；与样本测序平行，我们增加了对照样本同时进行高通量测序，以评价整个检测系统的平稳运行，同时为最后结果复核部分提供重要的背景信息。

三.生物信息学分析

其中，步骤3所述生物信息学分析包括以下8个单元：

病原数据库构建系统：从公共生物信息数据库中下载并整理病原体(包括病毒但不限于病毒)和宿主相关的核酸、蛋白质的序列信息、结构信息、进化信息；

高通量测序数据质量控制系统：对高通量测序数据进行质量控制，包括剔除不合格序列、剪切不合格序列、修正不合格序列等部分；

宿主序列去除系统：将高通量测序数据中与宿主基因组、转录组高度同源的序列去除；

宏基因组学拼接系统：将短的、多的高通量测序序列拼接成长的、少的叠连群(Contig)序列，特别是将短肽拼接为长的蛋白质序列进而进行病毒检测是本发明的一大特色；

序列比对搜索系统：将高通量测序序列或叠连群(Contig)序列与病原数据库进行比对搜索，找出与查询序列相似或高度同源的数据库条目；

物种信息映射系统：根据序列比对搜索结果确定查询序列的物种来源；

物种组成分析系统：根据物种信息映射的结果分析样本中的物种组成；

多样本物种组成高级分析系统：对多个样本的物种组成进行高级分析如比较相似性、寻找共同物种组成、寻找差异物种组成、寻找生物标记物等。

具体地，步骤(3)所述生物信息学分析包括病原数据库构建系统、高通量测序数据质量控制系统、宿主序列去除系统、宏基因组学拼接系统、序列比对搜索系统、物种信息映射系统、物种组成分析系统、多样本物种组成高级分析系统共8个单元组成。这8个功能单元各司其职共同构成了整个生物信息学分析流程。

第一，病原数据库构建系统从公共生物信息学数据库中提取病原体(不限于病毒)和宿主的序列信息、结构信息、进化信息，然后将这些信息按照信息种类、物种类别整理成多个宿主数据库、病原体数据库和不同组合的综合库，以供后续序列比对搜索系统使用。目前参考的公共生物信息学数据库包括美国生物技术信息中心NCBI(http://www.ncbi.nlm.nih.gov/)、欧洲生物信息学研究院EBI(http://www.ebi.ac.uk/)、欧洲的基因组注释数据库ENSEMBL (http://www.ensembl.org/index.html)、欧洲的蛋白质总库UNIPROT(http://www.uniprot.org/)、蛋白质家族数据库PFAM(http://pfam.xfam.org/)、RNA家族数据库RFAM(http://rfam.xfam.org/)、蛋白质结构数据库PDB(http://www.rcsb.org/pdb/home/home.do)、细菌毒力因子数据库VFDB(http://www.mgc.ac.cn/VFs/)等，未来将根据需要和公共生物信息学数据库的发展进一步进行拓展。数据库的构建由我们自主开发的软件包(命名为MetaDBConstructor)来完成。

第二，高通量测序数据质量控制系统对高通量测序仪产生的序列数据进行预处理。预处理的内容包括：去除质量分数不满足测序仪要求的序列、去除碱基平均质量分数小于20的序列、去除序列中包含N的序列、剪掉连续质量分数低于20的子序列、剪掉测序引物序列、剪掉建库时所用的引物序列、剪掉低复杂度序列、去掉重复序列、基于二代测序数据纠错软件如BFC(https://github.com/lh3/bfc)等对其余序列中的低质量碱基进行修正及其他相关处理。该过程由我们自主开发的软件包(命名为MetaReadsQC)通过集成纠错软件来完成。

第三，宿主序列去除系统通过将优质高通量测序数据与人或其他宿主的序列进行比对去除高度同源序列进而获得不包含宿主序列或包含少量宿主序列的高通量测序数据集。这一流程通过深度测序映射软件Bowtie2(http://bowtie‐bio.sourceforge.net/bowtie2/index.shtml)等来完成，宿主序列数据库由第一部分病原数据库构建系统提供。

第四，宏基因组学拼接系统将短的、多的由第三步获得的高通量测序数据进一步拼接成长的、少的叠连群(Contig)序列。核酸水平的拼接由拼接软件MetaVelvet(http://metavelvet.dna.bio.keio.ac.jp/)或/和我们自主开发的拼接软件(命名为MetaQridge)来完成。蛋白水平的拼接由拼接软件GRASP(http://sourceforge.net/projects/grasp‐release)和我们自主开发的拼接软件(命名为MetaQridge)来完成。

第五，序列比对搜索系统将第三步获得的测序序列和第四步获得的拼接序列与第一部构建的病原体序列数据库、结构数据库进行比对搜索，找出与查询序列相近的序列或结构，并输出结果。序列比对与搜索由美国生物技术信息中心NCBI 的软件包BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)完成，与结构的比对搜索由软件包HMMER(http://hmmer.janelia.org/)完成。结果的格式化由我们自主开发的软件包(命名为MetaOutputFormatter)来完成。

第六，物种信息映射系统根据第五步序列比对搜索结果将病原体数据库提供的物种信息映射到第五步中的每一条查询序列，进而获得每一条序列的可能物种来源。这一步由宏基因组学分析软件MEGAN(http://ab.inf.uni‐tuebingen.de/software/megan5/)和我们自主开发的软件(命名为MetaTaxAssigner)来完成。

第七，物种组成分析系统根据第五步的比对结果、第六步的物种映射信息、病原体数据库提供的其他先验信息和实验过程中内参和对照提供的信息对每一可能物种综合进行评判、打分、定量，最终获得该样本的微生物组成打分表。这一步由我们自主开发的软件(命名为MetaTaxQuantifier)来完成。

第八，在有多个样本同时检测的情况下，多样本物种组成高级分析系统综合多个样本的物种组成信息进行无监督的或有监督的分析，内容包括聚类、找共同物种组成、找差异物种组成、找生物标记物等。分析软件由软件环境Matlab(http://cn.mathworks.com/products/matlab/)和我们自主开发的软件ellipsoidFN(http://nar.oxfordjournals.org/content/41/4/e53)与iPCC(http://nar.oxfordjournals.org/content/41/14/e143.abstract)完成。

四.结果复核

其中，步骤4所述结果复核：将步骤4的结果与其他实验数据如临床数据、反转录酶-聚合酶链锁反应(RT-PCR，reverse transcription-polymerase chain reaction)数据、样本形态学分析结果等平行实验结果进行一致性分析和关联分析，进一步降低假阳性、假阴性；基于分析结果提出假设进行针对性验证。

具体地，步骤4所述结果复核结合样本的其他信息，如样本的采集部位、采集过程、采集方法、对应病人或宿主的其他特征等，对生物信息学分析的结果综合进行研判遴选，最终得出结论，或形成科学假设，并设计其他类型实验如(基于高通量测序结果的聚合酶链式反应PCR)对假设进行验证、复核。

本发明与现有技术相比较，其优点在于：1)它适用于任何种类病毒的检测与鉴定；2)它既可用于单一病毒感染的检测也可用于混合病毒感染的检测；3)它既可用于已知病毒感染的检测也可用于未知远缘病毒的检测；4)它既可用于单样本(个体)的检测也可用于多样本(群体)的检测；5)检测灵敏度高于或相当于已知病毒基因组序列的聚合酶链式反应PCR检测；6)对初始样本量要求非常低；7)对生物安全防护水平要求低；8)检测时间短；9)可以获得病毒基因组的全部或部分序列；10)可以获得病毒的核酸多态性。鉴于本发明的这些优点，它可被用于但不限于临床样本的精准医学分析、新发突发传染病的病原鉴定。

具体实施方式：

下面通过具体的例子说明本发明的实施方式。本领域技术人员可由本说明书所披露的内容在没有背离本发明的精神下根据具体实例的不同进行分析路径的选择与调整和具体参数的调试都属于本发明的保护范围。

实施例1、

我们以2013年12月采集的一例人感染H10N8型禽流感的呼吸道样本的病毒检测为例按顺序来说明本发明的具体实施方式。

一.样本制备

1.根据样本的类型进行不同的前期处理。取低温保藏或临床采集的呼吸道样本(包括咽拭、鼻拭或肺泡吸取液等)500μl，65度，30分钟灭活。若是消化道样本(肛拭或粪便)，也可采取类似的灭活方法。若采集的是新鲜的病理组织或冰冻组织，利用液氮保持低温，在研钵中进行研磨，研磨充分的组织加入Hanks液。若是血液样本，分离血浆。无论哪种类型样本，都要采用通用的或特异的病毒灭活方法进行灭活。如果样本较多，可以合并后，一起进行以下的浓缩处理。

2.反复冻融，振荡，重复3次。解冻后10000rpm，4℃，离心10min。

3.取上清，用0.45μm滤膜过滤至洁净EP管中。过滤样本前先用1ml注射器取100μl新鲜Hanks液(一种生物医学实验中常用的无机盐溶液)将滤膜润湿，过滤完后再取适量Hanks液(或者PBS)冲洗滤膜(冲洗用量以滤过1‐2滴为宜)。

4.取超离管2支，一管为滤过的样本，另一管为空白。两管液体加至刻度，并配平。超离，30000‐34000转，3小时。(此步可选，样本量小时，可直接进行下一步酶处理)。

5.去上清，然后用100μl新鲜Hanks液溶超离管底解浓缩的病毒颗粒。

6.酶处理。按照140μl总体系配制消化系。

然后在37度，消化2小时。其中，Turbo Dnase是一种名为Turbo的脱氧核糖核酸酶；Nuclease是核酸酶；Rnase one是核糖核酸酶一；Turbo Dnase Buffer是Turbo脱氧核糖核酸酶的缓冲液。

7.消化后的样品使用QIAGEN公司的QIamp viral RNA mini Kit回收,用60μl AVE洗脱样品中的病毒RNA。

8.逆转录(总核酸)

1^st链合成

65℃,5min，冰上冷却2分钟。

预混液2

将预混液1和预混液2混合，执行下列程序：

25℃,10min

50℃,50min

85℃,5min

2^nd链合成

95℃,2min,然后向向冷却后体系加入1μl 3’‐5’exo‐Klenow DNA聚合酶,混匀，执行下列程序：37℃,1hr；75℃,10min。

9.双链DNA的等比扩增

按下表配制PCR反应体系

*按逆转录产物的浓度确定其在PCR反应体系中的体积，使其绝对质量在50‐200ng范围之内即可。同时增减dd H₂O的体积，使整个反应体系总体积保持为50μl。

将上述PCR反应体系放入PCR仪，执行下列PCR反应程序：

10.电泳纯化

将全部50μl PCR产物用浓度为1.2％的回收胶电泳，并将500bp～2500bp之间的条带切胶，使用QIAGEN胶回收。用仪器NanoDrop对胶回收产物进行定量。

二.高通量测序

11.取DNA样本10mg，利用超声随机打断，末端补平后连接测序用adapter，胶回收300‐350bp片段；

12.PCR扩增后使用Illumina公司的试剂盒(名称为Illumina ClusterGeneration)构建高通量测序文库；加入事先制备好的内参核酸。

13.应用Illumina公司的测序仪(名称为HiSeq2500)进行深度测序，为避免可能的交叉污染，待检测样本和对照样本分别使用单一甬道(Lane)进行深度测序，片段读长80bp；

三.生物信息学分析

14.使用Illumina公司提供的软件包(名称为CASAVA)将测序信号数据转换为FASTQ格式(一种包含碱基质量的序列文件格式)的序列数据用于后续的生物信息学分析。

15.运行软件包MetaReadsQC，去除被CASAVA标记为“Y”的序列(即被CASAVA软件认为是低质量的序列)，去除中间含有“N”的序列(即有些碱基没有被测序仪测出来的序列)，去除平均分值低于20的序列，剪掉序列末尾分值连续低于20的序列，去掉引物序列，用软件DUSTMASKER(一个广泛使用的去除低复杂度核酸序列的软件)去掉低复杂度序列(默认参数)，去掉完全相同或反向互补的序列，去掉小于50bp的短序列，用序列纠错软件BFC软件采用默认参数对序列进行纠错校正。

16.利用深度测序映射软件Bowtie2等(采用默认参数)将上一步获得的序列快速映射到宿主核酸数据库(如果是人的样本，则为人的核酸数据库；如果是动物的样本，则为动物的核酸数据库)上，将不能映射的序列保存作后续分析。

17.在核酸水平利用宏基因组学拼接软件MetaVelvet(默认参数)对由上一步获得的不能映射到宿主核酸序列上的序列进行拼接，在蛋白水平利用我们自主开发的软件MetaQridge进行拼接。

18.将上述步骤获得的拼接序列和原始核酸序列与事先由我们自主开发的软件MetaDBConstructor准备好的病毒核酸库、病毒蛋白库进行比对，由NCBI的BLAST软件包进行，采用参数“‐e 1e‐5‐F F‐b 100‐v 100”。

19.利用MEGAN将BLAST的结果转换成物种组成信息，单一病毒最少5条reads(即测序序列)支持。不能映射成具体病毒种的序列根据最近宏基因组学数据分析中经常采用的最近共同祖先算法(LCA，latest common ancestry)映射到属、科等更高级物种分类单元，或者由我们自主开发的软件MetaTaxAssigner根据比对的分数高低、位置(特异性位置还是共有性位置)、对reads的覆盖率等信息求几何平均数单独进行分析。

20.根据序列的物种映射信息、物种基因组大小以及比对情况、内参数据和对照数据，由我们自主开发的软件MetaTaxQuantifier对物种组成的概率(基于费舍尔精确检验即Fisher’s exact test和超几何分布检验)、丰度即量的多少(基于标准化和线性回归)进行推算，获得样本的物种组成定量分析表。

四.结果复核

21.将样本的物种组成定量分析表与其他实验数据(如qPCR、RT‐PCR)和临床数据(症状、血象)进行比照分析，计算相关性(皮尔斯相关系数即Pearson correlationcoefficients和斯皮尔曼相关系数即Spearman correlation coefficients)，藉此提出统计显著的病毒种类，并设计实验验证。

结果小结：

Illumina测序仪共产出原始数据9.3G，共获得69663375条有效测序序列，即做过质控(第15步)后的有效reads，进一步去除宿主人的核酸序列(第16步)后剩余10913456条reads。经由第18步和第19步，直接基于reads的比对结果我们拿到了该样本的物种组成，其中在病毒中，甲型流感病毒的序列占到了99％，共897595条。这一结果与经由第17步、第18步、第19步的基于拼接的分析结果一致。通过与内参和对照数据的比对分析(第20步)，MetaTaxQuantifier推定甲型流感病毒在样本中存在，在对照中不存在，且甲型流感病毒唯一存在的可能很大。进一步，通过基因组拼接，获得了该甲型流感病毒的全基因组序列，分型分析确定为甲型H10N8型流感病毒。第21步，根据第20步的分析结果设计引物，从原始样本中经PCR扩增获得了该病毒的基因组，基因组序列与第20步获得的序列99％相似，各基因组片段(PB1、PB2、PA、NP、MP、NA、HA、NS)的丰度与第20步获得的丰度高度相关(皮尔斯相关系数达0.87)。因此，通过完成整个流程的分析，甲型H10N8型流感病毒被检出并被确认在样本中存在，其基因组及样本内的核苷酸多样性也一并获得。

技术名称列表：

1、微量、痕量待检测样本：微量(≤1ml)、痕量(≤1ul)的待检测样本

2、高通量测序所需的核酸文库：按照高通量测序仪测序要求制备的核酸提取物

3、高通量测序数据：高通量测序仪对特定样本进行测序后产生的图像、序列数据

4、远缘未知的病毒：和已知病毒同源关系较远的病毒，尚未被人类所认知

5、等比扩增：对核酸文库进行扩增时尽可能地保持文库组成不变的扩增技术

6、MetaDBConstructor：由我们自主开发的、用于根据公共数据库构建病毒宏基因组检测用数据库的程序脚本，由Perl语言编写

7、MetaReadsQC：由我们自主开发的、用于对高通量测序仪产生的序列数据进行质量控制的程序脚本，由Perl语言编写

8、MIRA：软件名，序列拼接软件，网址：http://mira‐assembler.sourceforge.net/docs/DefinitiveGuideToMIRA.html

9、Newbler：软件名，454测序仪数据拼接软件，网址：http://www.454.com/products/analysis‐software/

10、Velvet：软件名，高通量测序数据拼接软件，网址：https://www.ebi.ac.uk/～zerbino/velvet/

11、MetaVelvet：软件名，宏基因组数据拼接软件，网址：http://metavelvet.dna.bio.keio.ac.jp/

12、IDBA‐UD：软件名，宏基因组数据拼接软件，网址：http://i.cs.hku.hk/～alse/hkubrg/projects/idba_ud/

13、Trinity：软件名，转录组数据拼接软件，网址：http://trinityrnaseq.github.io/

14、Bridger：软件名，转录组数据拼接软件，网址：http://sourceforge.net/projects/rnaseqassembly/

15、Qridge：软件名，转录组数据拼接软件，由我们自主开发，用Perl和C++语言编写

16、MetaQridge：软件名，宏基因组数据拼接软件，由我们自主开发，用Perl和C++语言编写

17、GRASP：软件名，多肽序列拼接软件，网址：http://sourceforge.net/projects/grasp‐release/

18、NCBI：美国国立生物技术信息中心，网址：http://www.ncbi.nlm.nih.gov/

19、BLAST：软件名，序列比对软件，由NCBI开发，网址：http://blast.ncbi.nlm.nih.gov/Blast.cgi

20、HMMER：软件名，序列分析软件，网址：http://hmmer.janelia.org/

21、MetaOutputFormatter：由我们自主开发的、用于对BLAST等软件的输出结果进行格式化的程序脚本，由Perl语言编写

22、MEGAN：软件名，宏基因组学数据分析软件，网址：http://ab.inf.uni‐tuebingen.de/software/megan/

23、MetaTaxAssigner：由我们自主开发的、用于对BLAST等软件的输出结果进行分析进而确定测序数据的物种信息的软件，由Perl语言编写

24、MetaTaxQuantifier：由我们自主开发的、基于MetaTaxAssigner的结果对每一物种的序列数量进行统计估计的分析软件，由Perl语言编写

25、Matlab：软件名，科学计算软件环境，网址：http://cn.mathworks.com/products/matlab/

26、ellipsoidFN：软件名，我们自主开发的基于高通量数据进行生物标记物识别的分析软件，网址：http://doc.aporc.org/wiki/EllipsoidFN

27、IPCC：算法名，我们自主研发的基于高通量数据对样本进行聚类、分类的分析算法，参考文献：http://www.ncbi.nlm.nih.gov/pubmed/23761440

28、Hanks液：试剂名，是生物医学实验中最常用的无机盐溶液和平衡盐溶液(Balanced Salt Solution,BSS)，简称H。主要用于配制培养液，稀释剂和细胞清洗液，而不能单独作为细胞组织培养液

29、PBS：磷酸缓冲盐溶液

30、VTM：无菌病毒运输液

31、Contig序列：由原始测序数据拼接产生的长序列

32、RT‐PCR数据：实时定量PCR技术产生的数据

33、Turbo Dnase：酶的名称，Turbo DNA酶

34、Nuclease：核酸酶

35、Rnase one：RNA酶1

36、Turbo Dnase Buffer：Turbo DNA酶缓冲液

37、Qiagen：试剂公司名

38、QIamp viral RNA mini Kit：试剂盒名

39、Total nucleic acids：所有核酸

40、10X First‐Strand buffer：10倍体积一链缓冲液

41、100mM DTT：100毫摩尔二硫苏糖醇

42、25mM MgCl₂：25毫摩尔氯化镁

43、Rnase：RNA酶

44、Reverse transcriptase：逆转录酶

45、cDNA：由RNA逆转录生成的双链DNA

46、FR26RV‐N：一种引物编号

47、Buffer：缓冲液

48、3’‐5’exo‐Klenow DNA polymerase：一种DNA聚合酶

49、10X Buffer：10倍体积缓冲液

50、dNTP：脱氧核苷酸

51、Primer FR20RV：编号为FR20RV的引物

52、LA Taq：长保真Taq聚合酶

53、Template：模板

54、dd H₂O：双蒸水

55、NanoDrop：仪器名称，对核酸进行定量

56、Adapter：接头，对核酸序列进行扩增、测序时所用的短核酸序列

57、Illumina Cluster Generation：簇生成，ILLUMINA公司的测序仪在测序时的一个扩增步骤

58、CASAVA：软件名，ILLUMINA公司提供的高通量数据分析软件包

59、FASTQ格式的序列数据：一种序列数据文件格式，既包含有序列信息，又包含有序列质量信息

60、标记为“Y”的序列：ILLUMINA公司的CASAVA软件包认为的低质量序列

61、中间含有“N”的序列：高通量序列数据中不能确定的碱基

62、DUSTMASKER：软件名，低复杂度序列分析软件，包含在BLAST软件包内

63、BFC：软件名，序列纠错软件，网址：https://github.com/lh3/bfc

64、BLESS：软件名，序列纠错软件，网址：http://sourceforge.net/projects/bless‐ec/

65、BLUE：软件名，序列纠错软件，网址：http://www.bioinformatics.csiro.au/blue/

66、Bowtie2：软件名，序列比对软件，网址：http://bowtie‐bio.sourceforge.net/bowtie2/index.shtml

67、BWA：软件名，序列比对软件，网址：http://bio‐bwa.sourceforge.net/

68、SNAP：软件名，序列比对软件，网址：http://snap.cs.berkeley.edu/

69、SMALT：软件名，序列比对软件，网址：https://www.sanger.ac.uk/resources/software/smalt/

70、宿主核酸数据库：人的基因组、转录组核酸数据库

71、最近共同祖先算法：基于BLAST等分析结果对序列进行物种信息判定时通常采用的一种算法，如MEGAN软件采用的就是这种算法。

72、Fisher精确检验：一种基于超几何分布的四格表统计检验方法

73、丰度：一个微生物物种在一个样本中数量的多少

74、qPCR：定量PCR

75、RT‐PCR：实时PCR

76、Pearson相关系数：用来反映两个变量线性相关程度的统计量，要求变量的分布为正态分布

77、Spearman相关系数：用来反映两个变量线性相关程度的统计量，对变量的分布没有要求。

Claims

1.一种基于宏基因组学的病毒检测方法，该方法用于非诊断目的，其特征在于，所述方法包括以下步骤：

（1）样本制备：基于微量、痕量待检测样本富集、提取病毒核酸构建可用于高通量测序的核酸库；

（2）高通量测序：设定辅助基于宏基因组学技术的病毒感染检测的内参、对照；

（3）生物信息学分析：本系统的主体部分，从高通量测序数据中准确分析样本中的物种组成，包括远缘未知的病毒组成；

（4）结果复核：综合多方面信息，对生物信息学分析结果就行遴选、复核；

其中，步骤（1）所述样本制备包括以下八个步骤：病毒灭活、样本定量、病毒纯化、背景消除、提取核酸、合成cDNA、等比扩增、核酸纯化；

1）病毒灭活：样本要根据疑似病毒的种类和样本的特点采取通用的或特异的病毒灭活方法进行灭活；

2）样本定量：对样本总量、样本所含病毒载量、病毒核酸量进行初步测定和估计，从而为后续实验步骤制定详细计划；

3）病毒纯化：通过超速离心将病毒颗粒进行富集纯化，从而提高病毒序列在最后结果中所占的比例；

4）背景消除：在提取病毒核酸前将宿主的DNA和RNA利用DNA酶和RNA酶进行充分消化；

5）提取核酸：提取病毒核酸，主要提取病毒的核糖核酸；

6）合成cDNA，将第五步提取出来的病毒核糖核酸转化成更稳定更易保存的cDNA；

7）是可选步骤，如果第六步获得的cDNA量足够进行高通量测序，则直接进入高通量测序环节，如果不能达到高通量测序的要求，则进行第七步的基于PCR的核酸序列等比扩增直至满足高通量测序对上样量的要求；

8）纯化第六步或第七步获得的病毒核酸用于后续的高通量测序；

其中，步骤（2）所述高通量测序，方法如下：取DNA样本，利用超声随机打断，末端补平后连接测序用adapter，胶回收300-350 bp片段；PCR扩增后使用Illumina ClusterGeneration试剂盒构建高通量测序文库；加入事先制备好的内参核酸；应用Illumina/HiSeq2500测序仪进行深度测序，为避免可能的交叉污染，待检测样本和对照样本分别使用单一甬道进行深度测序，片段读长80 bp；

其中，步骤（3）所述生物信息学分析，方法如下：

使用CASAVA软件包将测序信号数据转换为FASTQ格式的序列数据用于后续的生物信息学分析；运行MetaReadsQC软件包，去除由CASAVA软件标记为“Y”的序列，去除中间含有“N”的序列，去除平均分值低于20的序列，剪掉序列末尾分值连续低于20的序列，去掉引物序列，用软件DUSTMASKER去掉低复杂度序列，去掉完全相同或反向互补的序列，去掉小于50bp的短序列，用BFC、BLESS或BLUE软件采用默认参数对序列进行纠错校正；利用Bowtie2、BWA、SNAP和SMALT软件将上一步获得的序列快速映射都宿主核酸数据库上，将不能映射的序列保存作后续分析；在核酸水平利用软件MetaVelvet对由上一步获得的不能映射到宿主核酸序列上的序列进行拼接，在蛋白水平利用软件MetaQridge进行拼接；将上述步骤获得的拼接序列和原始核酸序列与事先由软件MetaDBConstructor准备好的病毒核酸库、病毒蛋白库进行比对，由NCBI的BLAST软件包进行，采用参数“-e 1e-5 -F F -b 100 -v 100”；利用软件MEGAN将BLAST的结果转换成物种组成信息，单一病毒最少5条reads支持，不能映射成具体病毒种的序列由软件MetaTaxAssigner根据比对的分数高低、位置、对序列的覆盖率信息求几何平均数单独进行分析；根据序列的物种映射信息、物种基因组大小以及比对情况、内参数据和对照数据，由软件MetaTaxQuantifier对物种组成的概率、丰度进行推算，获得样本的物种组成定量分析表。