CN102952895B

CN102952895B - 一种利用测序技术检测未知病毒的方法

Info

Publication number: CN102952895B
Application number: CN201110243558.9A
Authority: CN
Inventors: 李轩; 王蔚; 郝沛; 蓝柯
Original assignee: Shanghai Institutes for Biological Sciences SIBS of CAS; Institut Pasteur of Shanghai of CAS
Current assignee: Institut Pasteur of Shanghai of CAS; Center for Excellence in Molecular Plant Sciences of CAS
Priority date: 2011-08-23
Filing date: 2011-08-23
Publication date: 2014-12-17
Anticipated expiration: 2031-08-23
Also published as: CN102952895A

Abstract

本发明涉及一种利用测序技术检测未知病毒的方法。揭示了一种利用二代高通量测序技术检测未知病毒的新方法。本发明的方法通过结合微量病毒核酸的扩增技术和二代高通量测序技术，有效地解决了现有技术存在的问题，为临床诊断、传染病监控、公共卫生环境监测、环境保护等方面的应用建立有效、快速、准确、的手段和技术平台。

Description

一种利用测序技术检测未知病毒的方法

技术领域

本发明属于生物技术领域；更具体地，本发明涉及一种利用测序技术检测未知病毒的方法。

背景技术

第二代高通量测序技术是对传统测序技术一次革命性的变革，一次对几十万到几百万条DNA/RNA分子进行序列测定。应用第二代高通量测序技术，可以对混合的核酸分子进行序列测定，同时分辨和测出每个独立的序列，而这是第一代测序技术做不到的。目前存在的依赖于第一代测序技术的病毒核酸序列测定技术，具有操作复杂，灵敏度低，不适合在临床诊断、传染病监控、公共卫生环境监测、环境保护等方面的应用。

二代高通量测序技术经过近几年突破性的发展，目前有几个成熟的平台投放市场。以454公司于2005年底推出的创新性的基于焦磷酸测序法和emulsionPCR的高通量基因组测序系统Genome Sequencer 20 System为起始，2007年454公司又推出了性能更优的二代基因组测序系统：Genome Sequencer FLXSystem。目前，实现市场商业化的二代高通量测序技术平台，除了454的GS系统外，还包括SOLiD(ABI公司)，Solexa(Illumina公司)，Helicos、Polonater，和Ion Torrent。二代高通量测序不仅可用于DNA分子的序列测定，而且也可以通过测定不同DNA分子的丰度对转录组进行研究，称为Digital Expression，因而有望在未来完全替代芯片技术。

临床检测、传染病监控、公共卫生环境监测、环境保护等面临的一个重大挑战，是对包含多种混合病毒，特别是未知病毒的样本的检测。尤其面临包括未知病毒和微量病毒的样本时，尚缺乏有效的方法对样本的多种病毒和未知病毒进行快速鉴定。现有手段多依靠结合血清学检测、PCR方法以及传统的克隆测序等方法对有限的已知病原体进行复合筛查。血清学方法是最古老的方法，一般是针对已知血清型的病毒使用，用于证实某种病毒的新近或既往感染，交叉反应导致的假阳性率较高，针对未知病毒、混合病毒和微量样本时，其应用受到很大的限制。PCR方法是近年来发展起来的可以快速检测病毒的方法，但由于其自身的技术弱点，如只针对已知病毒序列、敏感性受引物特异性限制、易污染而导致假阳性高、无法检测突变和变异型等，同样不能完全适用于临床诊断、传染病监控、公共卫生环境监测、环境保护等重要应用。传统的克隆测序法，有着实验周期长、通量低、不灵敏等特点，一般只在科学研究中使用。上述方法不能满足对混合病毒、未知病毒和微量病毒快速鉴定的要求。

可见，已有的方法具有灵敏度低、速度慢、假阳性和假阴性结果高、监测覆盖面有限、或者只能定性不能定量等不同的缺点，完全不适应现代社会对病毒检测技术的要求。

发明内容

本发明的目的在于提供一种利用测序技术检测未知病毒的方法。

在本发明的第一方面，提供一种鉴定未知病毒的方法，所述方法包括：

(1)获取未知病毒的核酸；

(2)以步骤(1)的核酸为模板，以第一引物为引物，获得第一链cDNA产物；其中，所述的第一引物序列如下：5’-与测序引物1部分互补或部分相同的碱基-随机引物碱基-3’；

(3)以步骤(2)的第一链cDNA产物为模板，以第一引物和第二引物为引物，获得第二链cDNA产物；其中，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；

(4)从步骤(3)获得的第二链cDNA产物中分离携带有可识别标记物的cDNA产物；

(5)从步骤(4)获得的cDNA产物为模板，以测序引物1和测序引物2为引物，进行PCR反应，获得PCR扩增产物；其中，所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对；

(6)对步骤(5)的PCR扩增产物进行二代高通量测序、序列拼接，拼接后的序列与已知的病毒序列(数据库)进行比较，从而得知未知病毒的种类。

在另一优选例中，所述的方法是非诊断性或非治疗性的方法。例如，是针对环境检测样本的鉴定；该环境检测样本例如是来自于一些大自然或公共场所中的污染物、植物、动物代谢产物、排泄物等。

在另一优选例中，所述的病毒核酸包括：DNA或RNA。

在另一优选例中，所述的未知病毒包括：一种未知病毒或两种以上的未知病毒(混合未知病毒)。

在另一优选例中，所述的随机引物碱基的个数是6-15个；较佳地，所述的随机引物碱基的个数是6-12个；更佳地，所述的随机引物碱基的个数是7-10个；最佳地，所述的随机引物碱基的个数是8个。

在另一优选例中，步骤(3)中，所述的第一引物和第二引物的比例是1∶(6-12)。

在另一优选例中，所述的第一引物和第二引物的比例是1∶(8-10)；最优选的，所述的第一引物和第二引物的比例是1∶9。

在另一优选例中，所述的可识别标记物是生物素(Biotin)。

在另一优选例中，以抗生物素蛋白(Avidin)来结合生物素，从而将连接有生物素的eDNA产物分离出来。

在另一优选例中，步骤(5)中，获得PCR扩增产物之后，还包括：去除剩余的核酸引物，保留长片段(片段长度大于80bp；较佳地大于100bp)的PCR扩增产物。

在另一优选例中，以GSBrowser进行数据分析和分布统计，并去除低质量的序列或重复序列。

在另一优选例中，步骤(6)中，采用选自(但不限于)下组的平台(或技术)进行二代高通量测序：

Genome Sequencer(454公司)；

Solexa (Illumina公司)；

SOLiD (ABI公司)；

HiSeq/MiSeq(Illumina公司)；

Helieos(Helieos BioSciences)；

Polonater(Dover Systems)；或

Ion Torrent (ABI公司)。

在另一优选例中，所述的平台是Genome Sequencer；

所述的第一引物的核苷酸序列如SEQ ID NO：1所示；

所述的第二引物的核苷酸序列如SEQ ID NO：2所示；

所述的测序引物1的核苷酸序列如SEQ ID NO：3所示；

所述的测序引物2的核苷酸序列如SEQ ID NO：3所示。

在另一优选例中，所述的平台是Solexa；

所述的第一引物的核苷酸序列如SEQ ID NO：5所示；

所述的第二引物的核苷酸序列如SEQ ID NO：6所示；

所述的测序引物1的核苷酸序列如SEQ ID NO：7所示；

所述的测序引物2的核苷酸序列如SEQ ID NO：8所示。

在另一优选例中，以序列拼接程序GSAssembler进行序列拼接；

用BLAST软件与已知的病毒序列数据库进行比较。

在本发明的另一方面，提供一种用于鉴定未知病毒的试剂组合，所述试剂组合包括：

第一引物，所述的第一引物序列如下：5’-与测序引物1部分互补或部分相同的碱基-随机引物碱基-3’；

第二引物，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；

测序引物1和测序引物2；所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对。

在本发明的另一方面，提供一种用于鉴定未知病毒的试剂盒，所述试剂盒包括：

容器1，以及位于容器1中的第一引物，所述的第一引物序列如下：5’-与测序引物1部分互补或部分相同的碱基-随机引物碱基-3’；

容器2，以及位于容器2中的第二引物，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；

容器3，以及位于容器3中的测序引物1；

容器4，以及位于容器3中的测序引物2；

其中，所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对。

在另一优选例中，所述的试剂组合或试剂盒中，

所述的第一引物的核苷酸序列如SEQ ID NO：1所示；

所述的第二引物的核苷酸序列如SEQ ID NO：2所示；

所述的测序引物1的核苷酸序列如SEQ ID NO：3所示；

所述的测序引物2的核苷酸序列如SEQ ID NO：3所示。

在另一优选例中，所述的试剂组合或试剂盒中，

所述的第一引物的核苷酸序列如SEQ ID NO：5所示；

所述的第二引物的核苷酸序列如SEQ ID NO：6所示；

所述的测序引物1的核苷酸序列如SEQ ID NO：7所示；

所述的测序引物2的核苷酸序列如SEQ ID NO：8所示。

在另一优选例中，所述的试剂盒中还包括(但不限于)：序列数据分析或统计工具(如GSBrowser)；序列拼接工具(如GS Assembler)；序列比较工具(如BLAST软件)；和/或使用说明书。

本发明的其它方面由于本文的公开内容，对本领域的技术人员而言是显而易见的。

附图说明

图1、微量RNA病毒逆转录和扩增技术流程图。

图2、RNA病毒逆转录和PCR扩增产物的Agilent2100质量监控图。1，空白对照；2，Agilent standard ladder；3，RNA病毒逆转录和PCR扩增产物(实验1)；4，RNA病毒逆转录和PCR扩增产物(实施例2)；5，RNA病毒逆转录和PCR扩增产物(实施例3)。

图3、典型的病毒PCR扩增产物的成功例图：左侧是PCR产物分布曲线，右侧是样本凝胶图。

图4、利用二代高通量测序技术(454FLX)对混合病毒进行序列测定和鉴定的流程。

具体实施方式

鉴于现有技术尚不能满足对混合病毒、未知病毒和微量病毒快速鉴定的要求，本发明人致力于研究方便、快速地鉴定未知病毒的方法，经过深入的研究，设计了特定的PCR引物，开发了一种利用二代高通量测序技术检测未知RNA/DNA病毒的新方法。本发明的方法通过结合微量病毒核酸的扩增技术和二代高通量测序技术，有效地解决了现有技术存在的问题，为临床诊断、传染病监控、公共卫生环境监测、环境保护等方面的应用建立有效、快速、准确、的手段和技术平台。

术语

如本文所用，所述的“测序引物1”和“测序引物2”是与二代高通量测序相衔接的引物对。本领域技术人员均了解，二代高通量测序平台的测序过程中，规定了一些配合该平台的材料，例如测序引物；利用其所规定的引物，才能与其测序步骤中的PCR等过程相匹配，顺利获得足够量的待测核酸。不同厂家制造的二代高通量测序平台会规定不同序列的测序引物，但在原理上是接近的。本发明的方法适用于不同的二代高通量测序平台，只要在应用时针对不同的平台选择其特异的测序引物即可。

如本文所用，所述的“第一引物”是指用于从病毒核酸样品中扩增出第一链cDNA产物的引物。所述的“第一引物”包括与测序引物1部分互补或部分相同的碱基以及随机引物碱基。

如本文所用，所述的“第二引物”是指与“第一引物”一起用于从第一链cDNA产物扩增出第二链cDNA产物的引物。所述的第二引物序列如下：可识别标记物、与测序引物2部分互补或部分相同的碱基和随机引物碱基。

如本文所用，所述的“随机引物”是指一段由随机的碱基(选自A、T、C或G)构成的引物，用于与病毒核酸链中与之相互补的序列互补结合，并通过逆转录或聚合的方式进行序列延伸，从而获得与病毒的一段核酸互补的一段cDNA序列。不同的“第一引物”中，随机引物的碱基序列是不同的，从而可由此获得不同的病毒核酸相应的cDNA片段。

如本文所用，所述的“与测序引物1部分互补或部分相同的碱基”是指所述的第一引物中，包括一段碱基序列，这段序列与测序引物1的一部分序列互补或相同。该段碱基序列的长度是足够实现碱基互补的，例如长度在10-30个；较佳地15-25个；例如17个，20个，22个。

如本文所用，所述的“与测序引物2部分互补或部分相同的碱基”是指所述的第二引物中，包括一段碱基序列，这段序列与测序引物1的一部分序列互补或相同。该段碱基序列的长度是足够实现碱基互补的，例如长度在10-30个；较佳地12-25个；例如15个，17个，20个，22个。

如本文所用，所述的“样品”或“样本”可互换使用，是指一些离体样品或环境材料，其可能包括一种或多种已知或未知病毒。例如，所述的“样品”是离体的RNA/DNA病毒或病毒混合物、临床病人样本、健康人群监测样本、环境检测样本、动物样本、植物样本、污染物、动物代谢产物等等。

如本文所用，所述的“核酸”包括DNA或RNA。当所述的核酸是RNA时，采用逆转录酶来获得第一链cDNA产物；当所述的核酸是DNA时，采用DNA聚合酶来获得第一链cDNA产物。

如本文所用，所述的“可识别标记物”是指与引物相连接、结合或耦联的、用于鉴别(或作为显示标志的)携带该标记物的核酸的材料。在本发明的优选方式中，所述的可检测标记物是生物素，该生物素作为标志物，当接触抗生物素蛋白时，可与抗生物素蛋白结合，从而分离出携带该标记物的核酸。所述的“可识别标记物”可以是生物素以外的其它物质，只要其也可以藉由一些已知技术被识别和分离。

病毒鉴定方法

本发明提供了一种鉴定未知病毒的方法，所述方法包括：

(1)获取未知病毒的核酸；

(6)对步骤(5)的PCR扩增产物进行二代高通量测序、序列拼接，拼接后的序列与已知的病毒序列进行比较，从而得知未知病毒的种类。

本发明的方法可以针对多种多样的病毒样品，这些样品可以是各种来源的，除了来源于动物体、也可以来源于植物体、公共场所、自然环境、动物代谢产物等等。所述的样品中可以同时存在多于一种的病毒(可以是混合病毒)，藉由随机引物，可以从样品中获得多种病毒的cDNA链。

本发明的方法中，通过设计随机引物来获得多种病毒的cDNA链以及获得同一病毒不同区域核酸对应的cDNA链。所述的随机引物的序列是随机的，不同的随机引物序列存在于不同的第一引物或第二引物上。

在获得病毒核酸对应的第一链cDNA产物时，采用第一引物为引物；而在获得第二链cDNA产物时，采用第一引物和第二引物为引物，以获得两端同时带有第一引物和第二引物对应序列的碱基序列(其中部分序列与测序引物相同或互补)。作为本发明的优选方式，在获得第二链cDNA产物时，所述的第一引物和第二引物的比例为1∶(6-12)；更优选地为1∶(8-10)；最优选地为1∶9。本发明人发现，合适的比例有利于后续获得尽可能多的符合后续PCR过程的cDNA产物(即两端同时带有第一引物和第二引物对应序列，其中部分序列与测序引物相同或互补)。

为了便于从获得的第二链cDNA产物中分离获得两端同时带有第一引物和第二引物对应序列的cDNA产物，本发明人还在第二引物的一段连接一可识别标记物，从而藉由该可识别标记物分离携带有该可识别标记物的cDNA产物。例如，所述的可识别标记物为生物素，后续通过抗生物素蛋白(Avidin)来结合生物素，从而将连接有生物素的cDNA产物分离出来。

在获得了两端同时带有第一引物和第二引物对应序列的第二链cDNA产物后，由于这种cDNA链两端的部分序列与测序引物(即高通量测序平台所规定的测序引物)相同或互补的序列，满足高通量测序平台的测序要求，因此可以后续进行PCR扩增并将扩增产物通过高通量测序平台进行测序。

由于以不同的随机引物来扩增，因此可获得序列、长度不同的第一链cDNA产物，后续将产生序列、长度不同的第二链cDNA产物。因此，获得PCR扩增产物之后，还包括：去除剩余的核酸引物，保留长片段的PCR扩增产物。

PCR扩增后获得的高通量序列数据(不同的核酸序列片段)，还可利用序列数据分析工具进行数据分析和分布统计，以去除低质量的序列(包括重复序列)。所述的序列分析工具可以是本领域技术人员熟知的工具，例如GSBrowser。

PCR扩增后获得的高通量序列数据(不同的核酸序列片段)，还需要利用序列拼接工具进行序列拼接，以获得较为完整的病毒序列信息，所述的序列拼接程序可以是本领域技术人员熟知的工具，例如GS Assembler (参见GS FLXSystem Software Manual，version 2.3)。

拼接后的较为完整的序列，可利用序列比较软件与现有技术中已知的病毒序列数据库进行比对，找出样本中的病毒序列，鉴定出样本中的病毒品种。所述的序列比较软件可以是本领域技术人员熟知的软件，例如BLAST程序(″Basiclocal alignment search tool″.J Mol Biol 215(3)：403-410)。

本发明的方法还可应用于检测已知RNA/DNA病毒的突变点和突变频率，或对微量RNA/DNA病毒进行检测为目的，通过利用本发明的方法、流程和技术手段，进行临床诊断、传染病监控、公共卫生环境监测、环境保护等应用。

本发明的方法适用于多种高通量测序平台，包括但不限于：GenomeSequencer FLX System(454公司)；Solexa(Illumina公司)；SOLiD(ABI公司)；HiSeq；Helicos；Polonater；或Ion Torrent。作为本发明的优选方式，所述的高通量测序平台是Genome Sequencer(454公司)，例如Genome Sequencer FLXSystem平台。

本发明的方法克服了上述目前常规技术中严重技术弱点，实现了对微量、未知、混合病毒、和病毒突变的有效、快速、和准确的鉴定。首先，利用最新设计和开发的对未知病毒的逆转录和扩增技术，打破了需要已知病毒品种的严重缺陷，实现了对不管是什么病毒，都可以测定和鉴别的重大突破。第二，本发明人设计的RNA病毒逆转录和扩增技术(忽略逆转录步骤，同样适用于DNA病毒)解决了对微量样本的检测问题。其对微量样本的灵敏度，可达10-100pgRNA数量级。第三，对混合病毒样本，本发明的方法可以同时检测和鉴定所有包含的病毒，并给出各类病毒的大致比例。第四，本发明的方法不仅可以检测微量混合病毒样本，同时也可以用于对病毒突变的检测，其对低丰度突变的检测有非常高的灵敏度，这是目前其它所有技术做不到的。第五，因为本发明的方法是通过对病毒序列的测定实现病毒确认，而不是像其它技术依靠生化反应或电泳图谱等二次信号，所以本发明的方法降低或完全排除了假阳性结果(样本本身污染除外)。第六，目前的多种二代测序技术平台中，可以有多种选择，如可以利用给予最大灵敏度(Solexa平台)，或给予最短检测时间(454和Ion Torrent)的不同平台。

本发明的方法适用于鉴定未知的核酸序列，特别适用于鉴定含有复杂的混合序列的核酸样品。本发明的方法除了可鉴定病毒核酸以外，也可以鉴定病毒核酸以外其它来源的核酸样品。例如可鉴定来源于动物、植物的核酸样品，或者来源于病毒以外的其它微生物如细菌、真菌的核酸样品。本领域技术人员可以理解，只要样品中包括了需要鉴定的核酸，就可以应用本发明的方法。

试剂和试剂盒

本发明还包括了用于鉴定未知病毒的试剂组合，所述试剂组合包括：第一引物，所述的第一引物序列如下：5’-与测序引物1部分互补或部分相同的碱基-随机引物碱基-3’；第二引物，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；测序引物1和测序引物2；所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对。由于本发明人独特的设计，利用上述引物可获得病毒核酸的cDNA链结构，且这种cDNA链两端携带有适用于进行PCR扩增以及高通量序列测定的序列结构，从而使得未知病毒的鉴定成为可能。

本发明还包括了用于鉴定未知病毒的试剂盒，所述试剂盒包括多个容器，以及分别位于各容器中的上述引物。作为本发明的优选方式，所述的试剂盒中还包括其它一些工具，包括序列数据分析或统计工具(如GSBrowser)；序列拼接工具(如GS Assembler)；序列比较工具(如BLAST软件)；以便于人们进行序列分析比较。更佳地，所述的试剂盒中还包括使用说明书，以指导技术人员进行操作。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如J.萨姆布鲁克等编著，分子克隆实验指南，科学出版社，2002中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

除非另行定义，文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外，任何与所记载内容相似或均等的方法及材料皆可应用于本发明中。文中所述的较佳实施方法与材料仅作示范之用。

实施例1、检测方法

1、引物设计

(1)454公司高通量测序平台引物

为了配合后续利用454公司高通量测序平台(Genome Sequencer FLXSystem)进行高通量的测序操作，引物上的部分序列(下划线部分)参考罗氏(Roche)Genome S equencer FLX System Technical Bulletin(April 2009)上公布的建库序列设计。

首先，设计3’端带有8个随机序列的标签引物(A1/B1)，即核酸引物对1∶

A 1：5’-GCGTGTCTCCGAC TCAG NNNNNNNN-3’(SFQ ID NO：1)；

B1：5’-Biotin-TGCCTTGGCAGTC TCAG NNNNNNNN-3’(SEQ ID NO：2)。

其中，引物A1用于第一链的cDNA合成。引物B 1用于第二链的cDNA合成。由于引物B 1带有5’-生物素(Biotin)，可以利用抗生物素蛋白(Avidin)磁珠来分离B1引物生成的cDNA。

其次，设计与二代高通量测序(454测序平台)相衔接的引物(A2/B2)，即核酸引物对2：

A2：5’-CCATCTCATCCCTGCGTGTCTCCGAC TCAG-3’(SEQ ID NO：3)；

B2：5’-CCTATCCCCTGTGTGCCTTGGCAGTC TCAG-3’(SEQ ID NO：4)。

核酸引物A2和B2用于PCR选择性扩增由A1/B1生成的双链cDNA。

(2)Illumina公司高通量测序平台引物

为了配合后续利用Illumina公司高通量测序平台(Solexa GA)进行高通量的测序操作，引物上的部分序列(下划线部分)参考Illumina的Pair-endSequencing User Guide上公布的建库序列设计。

首先，设计3’端带有8个随机序列的标签引物(A3/B3)，即核酸引物对3：

A3：5’-ACTCTTTCCCTACACGACGCTCTTCCGATCT NNNNNNNN-3’(SEQ ID NO：5)；

B3：5’-Biotin-CGGCATTCCTGCTGAACCGCTCTTCCGATCT NNNNNNNN-3’。(SEQ ID NO：6)

其中，引物A3用于第一链的cDNA合成。引物B3用于第二链的cDNA合成。由于引物B3带有5’-Biotin，可以利用Avidin磁珠来分离B3引物生成的cDNA。

核酸引物对4：

A4：5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACG AC-3’(SEQ ID NO：7)；

B4：5’-CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGC TGAACC-3’(SEQ ID NO：8)。

核酸引物A4和B4用于PCR选择性扩增由A3/B3生成的双链cDNA。此核酸引物的设计是针对Illumina的二代测序平台的专用序列。

2、混合RNA病毒逆转录及扩增方法

利用上述的核酸引物对A1/B1，通过逆转录的方法完成第一和第二链的病毒cDNA合成。利用Avidin磁珠提取分离B1引物生成的cDNA。然后将磁珠提取分离cDNA直接用于PCR扩增。PCR扩增反应由A2/B2核酸引物对及反应底物和PCR酶组成，PCR反应扩增35个循环。

核酸引物对A3/B3可替代A1/B1；A4/B4可替代A2/B2，其工作条件相同。

3、对病毒cDNA扩增产物利用二代高通量测序技术进行序列测定和鉴定

对于从上述步骤产生的PCR扩增产物，经过定性和定量检测后，可直接进入454高通量测序步骤，包括小规模emulsion PCR步骤，emulsion PCR的珠子效率检测，大规模emulsion PCR步骤，454上机测序，和序列数据的获取、处理和分析。对于使用与本发明设计不同的病毒逆转录和PCR扩增引物，病毒的cDNA的PCR扩增产物经过定性和定量检测后，可以经过一个454建库的步骤，再进入454高通量测序步骤。

当用核酸引物对A3/B3替代A1/B1；A4/B4替代A2/B2时，前述步骤“2”的PCR扩增产物，经过定性和定量检测后，直接进入Illumina的高通量测序步骤。

对于前述步骤获得的高通量序列数据，利用序列数据分析工具GSBrowser进行数据分析和分布统计，并去除低质量的序列(包括重复序列)。然后利用序列拼接程序GSAssembler，进行序列拼接(方法见GS FLX System SoftwareManual，version 2.3)。最后，用BLAST程序进行序列比较(″Basic local alignmentsearch tool″.J Mol Biol 215(3)：403-410)，对拼接后的结果数据与现有病毒序列数据库进行比对，找出样本中的病毒序列，鉴定出样本中的病毒品种。

实施例2、利用二代高通量测序检测和鉴定呼吸道样本病毒

1、病人呼吸道样本的病毒RNA的提取

获取一病人的上呼吸道黏液样本，该样本的病毒RNA提取操作在生物安全实验室完成。操作程序中使用病毒RNA提取试剂盒(详细步骤请参考QIAamp Viral RNA Mini Kit说明书)。起始样品体积为140μl，与的AVL溶液(包含于试剂盒中)混合，室温放置10min后离心。加入无水乙醇，混匀后加入的层析柱中，6000g离心lmin。用500μl溶液AWl和AW2(包含于试剂盒中)分别清洗1次后，再用的溶液AWE (包含于试剂盒中)洗脱病毒RNA。这样纯化的RNA(同样适用于DNA)能够在广泛的下游中使用，包括：RT-PCR和real-time PCR等等。

2、病人呼吸道RNA病毒逆转录及扩增

首先，合成双链cDNA采用Invitrogen的VILO^TM cDNA合成试剂盒，操作按SuperScript技术手册来完成。逆转录合成第一链cDNA时，利用前述设计引物A1替代试剂盒中的随机引物。合成第二链cDNA前，加入设计引物B1，其浓度比是A1∶B1＝1∶9。这样可以保证第二链合成起始过程中B1占90％，流程如图1。

第二，引物B 1起始合成的cDNA的分离，通过利用Invitrogen的Streptavidin-coupled Dynabeads来完成。操作过程见Streptavidin的技术手册。

第三，前述获得的由引物A1和B1共同扩增获得的病毒cDNA产物的扩增通过PCR来实现。将连有病毒cDNA的Dynabeads与PCR反应溶液混合。PCR溶液：2μM引物A2；2μM引物B2；1×Phusion Master Mix with HF Buffer[见Phusion High Fidelity Master Mix User’s Guide(Finnzymes)]。PCR反应按下述条件进行：模板DNA变性，98℃保持30秒。PCR反应循环条件：

以下进行35个循环：

第1步：98℃进行30秒；

第2步：56℃进行30秒；

第3步：72℃进行30秒；

35个循环完成后，保持在4℃。

PCR反应完成后扩增的病毒cDNA产物用QIAquick PCR Purification Kit清理和回收，可以基本去除剩余的核酸引物，保留长片段的PCR扩增产物。

3、RNA病毒逆转录和扩增产物的质量监控

对RNA病毒逆转录和扩增产物的质量，利用Agilent 2100生物分析仪来完成，如图2。

使用“Agilent High Sensitivity DNA Chip”，操作流程见“Agilent HighSensitivity DNA Chip”说明书(“Agilent High Sensitivity DNA Kit Quick StartGuide”)。当PCR产物的量(有显著的峰值)和分布(无剩余引物片段)满足要求后，可进一步用于下一步的高通量测序和鉴定。图3是典型的病毒PCR扩增产物的成功例图：左侧是PCR产物分布曲线，右侧是样本凝胶图。

4、利用二代高通量测序技术对混合病毒进行序列测定和鉴定

上述病毒RNA的逆转录和PCR扩增产物，经过定性和定量检测，对于满足质量要求的可直接进入454高通量测序步骤，包括小规模emulsion PCR步骤，emulsion PCR的珠子效率检测，大规模emulsion PCR步骤，454上机测序，和序列数据的获取、处理和分析。实验方法和数据分析根据如下说明书：1)emPCR Method Manual-Lib-L SV；2)emPCR Method Manual-Lib-A LV；3)GS FLX Instrument Owner’s Manual；4)GS FLX Sequencing Method Manual。实验流程见图4。

5、高通量序列数据分析和病毒鉴别

对于前述步骤获得的高通量序列数据，通过GSBrowser进行数据统计和分布分析，并去除低质量的序列(包括重复序列)。然后利用GSAssembler进行序列拼接(方法见GS FLX System Software Manual，version 2.3)。对拼接后的结果数据与病毒序列数据库进行比对(利用BLAST程序：Basic Local AlignmentSearch Tool，见Altschul SF，Gish W，Miller W，Myers EW，Lipman DJ (October1990).″Basic local alignment search tool″.J Mol Biol 215(3)：403-410.)。

通过上述实验和分析步骤，发现病人样本中带有两种病毒：甲流HW1：09MH671和流感B：10MH79，与该病人的临床确诊结果相吻合。通过进一步分析，确定每种病毒序列出现的频率(代表病毒丰度)，病毒序列中存在的突变碱基和位置，并计算出突变的发生率。本发明有效的鉴定出病人样本中的未知混合病毒和病毒的丰度及低频率突变出现次数等关键数据，为在临床诊断、传染病监测、公共卫生环境监测、环境保护等方面的应用，提供了灵敏、高效、低成本、快速的技术手段。

实施例3、利用二代高通量测序检测和鉴定病人体液样本病毒

1、病人体液样本的病毒RNA的提取

病人体液样本的病毒RNA提取操作在生物安全实验室完成。操作程序中使用病毒RNA提取试剂盒(详细步骤请参考QIAamp Viral RNAMini Kit说明书)。起始样品体积为140μl，与的AVL溶液混合，室温放置10min后离心。加入无水乙醇，混匀后加入的层析柱中，6000g离心1min。用500μl溶液AW1和AW2分别清洗一次后，再用的溶液AWE洗脱病毒RNA。这样纯化的RNA(同样适用于DNA)能够在广泛的下游中使用，包括：RT-PCR和real-time PCR等等。

2、病人RNA病毒逆转录及扩增

首先，合成双链cDNA采用Invitrogen的VILO^TM cDNA合成试剂盒，操作按SuperScript技术手册来完成。逆转录合成第一链cDNA时，利用前述设计引物A1替代试剂盒中的随机引物。合成第二链cDNA前，加入设计引物B1，其浓度比是A1∶B1＝1∶9。这样可以保证第二链合成起始过程中B1占90％(如图1)。

第三，病毒逆转录产物的扩增通过PCR来实现。将连有病毒cDNA的Dynabeads与PCR反应溶液混合。PCR溶液：2μM A2引物；2μM B2引物；1xPhusion Master Mix with HF Buffer[见Phusion High Fidelity Master Mix User’sGuide(Finnzymes)]。PCR反应按下述条件进行：模板DNA变性98℃保持30秒。PCR反应循环条件：

以下进行35个循环：

第1步：98℃进行30秒；

第2步：56℃进行30秒；

第3步：72℃进行30秒；

35个循环完成后，保持在4℃。

3、RNA病毒逆转录和扩增产物的质量监控

使用“Agilent High Sensitivity DNA Chip”，操作流程见“Agilent HighSensitivity DNA Chip”说明书(“Agilent High Sensitivity DNA Kit Quick StartGuide”)。当PCR产物的量(有显著的峰值)和分布(无剩余引物片段)满足要求后，可进一步用于下一步的高通量测序和鉴定。

4、利用二代高通量测序技术对混合病毒进行序列测定和鉴定

上述病毒RNA的逆转录和PCR扩增产物，经过定性和定量检测，对于满足质量要求的可直接进入454高通量测序步骤，包括小规模emulsion PCR步骤，emulsion PCR的珠子效率检测，大规模emulsion PCR步骤，454上机测序，和序列数据的获取、处理和分析。实验方法和数据分析根据如下说明书：1)emPCR Method Manual-Lib-L SV；2)emPCR Method Manual-Lib-A LV；3)GS FLX Instrument Owner’s Manual；4)GS FLX Sequencing Method Manual。

5、高通量序列数据分析和病毒鉴别

对于前述步骤获得的高通量序列数据，通过GSBrowser进行数据统计和分布分析，并去除低质量的序列(包括重复序列)。然后利用GS Assembler进行序列拼接(方法见GS FLX System Software Manual，version 2.3)。对拼接后的结果数据与病毒序列数据库进行比对(利用BLAST程序：″Basic local alignmentsearch tool″.J Mol Biol 215(3)：403-410)。

通过上述实验和分析步骤，发现病人样本中带有两种病毒：日本乙脑病毒(JEV)和1型人单纯疱疹病毒(HSV)，与该病人的临床确诊结果相吻合。本发明有效的鉴定出病人样本中的未知混合病毒，为在临床诊断、传染病监测、公共卫生环境监测、环境保护等方面的应用，提供了灵敏、高效、低成本、快速的技术手段。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种鉴定未知病毒的方法，其特征在于，所述方法包括：

(1)获取未知病毒的核酸；

(3)以步骤(2)的第一链cDNA产物为模板，以第一引物和第二引物为引物，获得第二链cDNA产物；其中，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；所述的第一引物和第二引物的比例是1:(8-10)；

(5)从步骤(4)获得的cDNA产物为模板，以测序引物1和测序引物2为引物，进行PCR反应，获得PCR扩增产物；其中，所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对；获得PCR扩增产物之后，去除剩余的核酸引物，保留片段长度大于80bp的PCR扩增产物；

(6)对步骤(5)的PCR扩增产物进行二代高通量测序、序列拼接，拼接后的序列与已知的病毒序列进行比较，从而得知未知病毒的种类；

所述方法是针对环境检测样本的鉴定；

所述的随机引物碱基的个数是6-15个。

2.如权利要求1所述的方法，其特征在于，步骤(3)中，所述的第一引物和第二引物的比例是1:9。

3.如权利要求1所述的方法，其特征在于，步骤(6)中，采用选自下组的平台进行二代高通量测序：Genome Sequencer；Solexa；SOLiD；HiSeq/MiSeq；Helicos；Polonater；或Ion Torrent。

4.如权利要求3所述的方法，其特征在于，所述的平台是Genome Sequencer；

所述的第一引物的核苷酸序列如SEQ ID NO:1所示；

所述的第二引物的核苷酸序列如SEQ ID NO:2所示；

所述的测序引物1的核苷酸序列如SEQ ID NO:3所示；

所述的测序引物2的核苷酸序列如SEQ ID NO:4所示。

5.如权利要求3所述的方法，其特征在于，所述的平台是Solexa；

所述的第一引物的核苷酸序列如SEQ ID NO:5所示；

所述的第二引物的核苷酸序列如SEQ ID NO:6所示；

所述的测序引物1的核苷酸序列如SEQ ID NO:7所示；

所述的测序引物2的核苷酸序列如SEQ ID NO:8所示。

6.如权利要求1所述的方法，其特征在于，以序列拼接程序GSAssembler进行序列拼接；和/或

用BLAST软件与已知的病毒序列数据库进行比较。

7.一种用于鉴定未知病毒的试剂组合，其特征在于，所述试剂组合包括：

第二引物，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；其中，所述的第一引物和第二引物的比例是1:(8-10)；

测序引物1和测序引物2；所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对；

所述的随机引物碱基的个数是6-15个。

8.一种用于鉴定未知病毒的试剂盒，其特征在于，所述试剂盒包括：

容器2，以及位于容器2中的第二引物，所述的第二引物序列如下：5’-可识别标记物-与测序引物2部分互补或部分相同的碱基-随机引物碱基-3’；其中，所述的第一引物和第二引物的比例是1:(8-10)

容器3，以及位于容器3中的测序引物1；

容器4，以及位于容器3中的测序引物2；

其中，所述的测序引物1和测序引物2是与二代高通量测序相衔接的引物对；

所述的随机引物碱基的个数是6-15个。

9.如权利要求7或8所述的试剂组合或试剂盒，其特征在于，

所述的第一引物的核苷酸序列如SEQ ID NO:1所示；

所述的第二引物的核苷酸序列如SEQ ID NO:2所示；

所述的测序引物1的核苷酸序列如SEQ ID NO:3所示；

所述的测序引物2的核苷酸序列如SEQ ID NO:4所示。

10.如权利要求7或8所述的试剂组合或试剂盒，其特征在于，

所述的第一引物的核苷酸序列如SEQ ID NO:5所示；

所述的第二引物的核苷酸序列如SEQ ID NO:6所示；

所述的测序引物1的核苷酸序列如SEQ ID NO:7所示；

所述的测序引物2的核苷酸序列如SEQ ID NO:8所示。