CN108138244A

CN108138244A - 病毒组捕获测序平台、设计和构建方法以及使用方法

Info

Publication number: CN108138244A
Application number: CN201680060545.9A
Authority: CN
Inventors: W·I·利普金; O·贾巴多; T·布里斯; A·卡普尔
Original assignee: Columbia University in the City of New York
Current assignee: Columbia University in the City of New York
Priority date: 2015-09-18
Filing date: 2016-09-19
Publication date: 2018-06-08
Also published as: EP3350351A4; WO2017049285A1; US10815536B2; AU2016324473A1; US20180265935A1; AU2016324473B2; EP3350351A1; EP3350351B1

Abstract

本发明提供用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的新颖方法、系统、工具以及试剂盒。本文所描述的所述方法、系统、工具以及试剂盒是基于病毒组捕获测序平台(“VirCapSeq‑VERT”)，所述平台是由本发明人开发的一种新颖平台。本发明还提供用于设计和构建所述病毒组捕获测序平台的方法和试剂盒。

Description

病毒组捕获测序平台、设计和构建方法以及使用方法

其他申请的交叉引用

本申请要求2015年9月18日提交的美国专利申请序列号62/220,431的优先权，该专利申请以全文引用的方式并入本文中。

政府支持的陈述

本发明是根据NIH批准号U19AI109761和R01HL119485在政府支持下完成。因此，美国政府具有本发明中的某些权利。

技术领域领域

本发明涉及使用高通量测序进行多重病毒检测、鉴定以及表征的领域。

背景技术

20世纪的临床病毒学和病毒发现主要集中于通过显微术、血清学以及细胞或动物感染研究鉴定病毒(Kapoor和Lipkin 2001)。随着核酸扩增的出现，广泛范围的用于病毒检测的分子方法变得可用，包括各种类型的聚合酶链反应(Mullis和Faloona 1987；Briese等2005)、微阵列(Wang等2002；Palacios等2007)以及最近的高通量测序(HTS)。

高通量测序已实现无偏差的病原体发现并且有助于病毒组分析，从而增加了我们对已知和新颖病毒的来源、进化以及生态学的了解(Kapoor和Lipkin 2001)。然而，不灵敏、成本以及技术复杂性阻碍了在临床实验室中在病毒感染的鉴别诊断中实施高通量核酸测序。

不同于细菌的16S rRNA，病毒普遍缺乏保守的标记物并且具有容易产生突变体、小种(strain)以及变体的可塑性基因组。即使序列因单一点突变而不同的病毒变体也可在宿主范围、可传递性以及病原性方面有所改变(Guillot等1994；Drexler等2014)。因此，理想的病毒诊断平台应使得能够灵敏地多重检测所有病毒和其变体。已利用使用寡核苷酸进行核酸捕获来提高HTS用于低规模表征宿主(Mercer等2014；Clark等2015)或所选微生物(Bent等2013；Depledge等2011)靶标的效率。然而，在病毒情况下此类核酸捕获尚未成功。用于增加HTS灵敏性的策略集中于通过经由核酸酶消化和rRNA消耗扣除宿主核酸来富集病毒模板。虽然它们是有帮助的，但都未实现临床应用所需的灵敏性。因此，尤其在临床环境中，对用于检测脊椎动物病毒的灵敏的成本有效性捕获测序平台存在需要。本发明解决了这个问题，并且是一种用于任何类型的样品的临床诊断和病毒组分析的灵敏且特异性的基于HTS的平台。

发明内容

本发明提供用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的新颖方法、系统、工具以及试剂盒。本文所描述的方法、系统、工具以及试剂盒是基于病毒组捕获测序平台(“VirCapSeq-VERT”)，所述平台是是由本发明人开发的一种新颖平台。

因此，本发明为一种利用关于探针的正向选择策略来设计和/或构建病毒组捕获测序平台的方法，，所述探针包含来源于已知或疑似感染脊椎动物的病毒分类群的基因组和/或存在于所述基因组中的核酸，所述方法包括以下步骤。

第一步是从来自已知或疑似感染脊椎动物的各病毒分类群的至少一种病毒的基因组获得序列信息。表1包含已知感染脊椎动物的病毒列表。此列表相较于本领域中已知的为过度包括和综合的。将该病毒列表与来自数据库的序列信息相互参照。

下一步骤可包括提取编码序列。从以约80％序列同一性群集的数据库提取病毒的编码序列，即蛋白质序列。在其他实施方案中，提取以约85％同一性、约90％同一性、约95％同一性以及约96％同一性群集的编码序列。

在下一步骤中，将编码序列分解成长度为约50至100个核苷酸的片段。可根据T_m和均聚物重复单元的需要关于长度和起始/停止位置对寡核苷酸进行精制。寡核苷酸的最终T_m可在约不大于约75℃、更优选不大于约65℃并且最优选不大于约50℃范围内。

另外，片段在编码序列上以约25至50个核苷酸的间隔平铺，以覆盖在约两百万个探针的数据库中的所有序列。如果需要更多的探针，那么间隔可更小，少于25个核苷酸至约1个核苷酸，以甚至使探针重叠。如果平台中需要更少的探针，那么间隔可更大，约50至100个核苷酸。

本发明的实施方案还提供用于设计和/或构建病毒组捕获测序平台的自动化系统和方法。通过本发明的实施方案制备的模型可由本领域中的人员用于设计和/或构建病毒组捕获测序平台。

在本发明的一些实施方案中，提供使用病毒和序列信息以及设计模型中的分析工具来设计和/或构建病毒组捕获测序平台的系统、设备、方法以及计算机可读介质。举例来说，在一些实施方案中，可使用包含来自公开感染脊椎动物的所有病毒的表1的信息的第一分析工具来发现相关序列信息，并且使用算法加工相关序列信息以提取编码序列，并且使用第二分析工具将编码序列分解成具有对于平台来说适当的参数的寡核苷酸片段。

本发明的另一实施方案为一种使用本文中的方法设计和/或构建的新颖平台，或者称为病毒组捕获测序平台。在一个实施方案中，平台包括约一百万至三百万个探针，优选为约两百万个探针。在一个实施方案中，探针为寡核苷酸探针。在一个更优选实施方案中，寡核苷酸探针为合成的。平台可包含和/或衍生自已知或疑似感染脊椎动物(包括人)的病毒分类群的基因组。在一个实施方案中，平台可包含约100、更优选约125、更优选约150、更优选约175、更优选200并且最优选超过200个已知或疑似感染脊椎动物的病毒分类群的基因组。在一个优选实施方案中，平台包括表1中的病毒。在一个实施方案中，平台呈寡核苷酸文库的形式。在一个实施方案中，寡核苷酸可包含DNA、RNA、键联核酸(LNA)、桥联核酸(BNA)或肽核酸(PNA)以及现在或将来可天然或合成衍生的任何核酸。在一个实施方案中，平台呈溶液形式。在另一实施方案中，平台呈固态形式，诸如微阵列或珠粒。在另一实施方案中，寡核苷酸由组合物修饰以有助于结合于固态。

本发明的一个实施方案为一种包含关于病毒组捕获测序平台的信息的数据库，所述信息至少包括各寡核苷酸探针的长度、核苷酸序列、解链温度以及病毒来源。另一实施方案为具有包含如下信息的程序代码的计算机可读存储介质，例如数据库，所述信息包含关于病毒组捕获测序平台的信息，至少包括各寡核苷酸探针的长度、核苷酸序列、解链温度以及病毒来源。

另外，本发明提供一种用于构建测序文库的方法，所述测序文库是用于使用病毒组捕获测序平台以正向选择方案检测、鉴定和/或表征已知或疑似感染脊椎动物的至少一种病毒并且优选为多个病毒。

本发明还提供用于同时检测、鉴定和/或表征任何样品中已知或疑似感染脊椎动物的所有病毒，包括那些已知和未知的病毒的系统。所述系统包括至少一个子系统，其中所述子系统包括本发明的病毒组捕获测序平台。所述系统还可包括用于进一步检测、鉴定和/或表征病毒的子系统，包括但不限于用于从样品制备核酸、杂交、扩增、高通量测序以及病毒的鉴定和表征的子系统。

本发明还提供利用病毒组捕获测序平台同时检测、鉴定和/或表征任何样品中已知或疑似感染脊椎动物的所有病毒的方法。

本发明还提供利用新颖病毒组捕获测序平台检测、鉴定和/或表征任何样品中的未知病毒的方法。

另一实施方案为一种用于设计和/或构建病毒组捕获测序平台的试剂盒，所述试剂盒包括用于选择病毒序列信息以及将编码序列分解成具有对于平台来说适当的参数的寡核苷酸片段的分析工具。

另一实施方案为一种用于检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的试剂盒，所述试剂盒包括病毒组捕获测序平台并且任选包括引物、酶、试剂和/或用于进一步检测、鉴定和/或表征样品中的至少一种病毒的用户说明书。

附图说明

出于说明本发明的目的，以图式展示本发明的某些实施方案。然而，本发明不限于图式中所展示的实施方案的精确布置和手段。

图1示出了VirCapSeq-VERT探针设计的计算机模拟验证的结果。针对脊髓灰质炎病毒(图1A)、黄热病毒(图1B)以及细小病毒B19(图1C)示出了VirCapSeq-VERT探针文库的探针深度和覆盖率。病毒基因组由黑色线表示，并且编码序列由图底部的尖头灰色框表示。探针由图顶部的灰色框指示。各图片的顶部图指示各基因座处的探针深度。探针中带颜色的线指示与用于比对的参考物(绿色＝A，红色＝T，蓝＝C，橙子＝G)错配。上方的覆盖轨迹中的线高指示错配碱基的频率。

图2为示出了使用标准HTS和VirCapSeq-VERT的高通量测序的结果的图。VirCapSeq-VERT通过增加从高背景试样回收的定位病毒读段的数目来增强高通量测序的性能。通过qPCR对八种不同的病毒核酸(NA)进行定量并且掺加到肺(3种病毒)或血液(5种病毒)衍生的NA提取物的背景中。将样品分成两份并且通过标准HTS(左侧柱)或用VirCapSeq-VERT(右侧柱)(图2A)加工。图2A示出了通过各方法获得的每1000万个读段的定位读段数。图2B示出了使用VirCapSeq-VERT与标准HTS的定位病毒读段的增加倍数。

缩写：FLUAV，A型流感病毒；EVD-68，肠道病毒D68(enterovirus D68)；MERS-CoV，MERS冠状病毒(MERS coronavirus)；DENV，登革热病毒(dengue virus)；EBOV，埃博拉病毒(ebola virus)；WNV，西尼罗河病毒(West Nile virus)；CVV，卡奇谷病毒(Cache Valleyvirus)；HHV-1，人疱疹病毒-1。

图3示出了针对西尼罗河病毒(图3A)、卡奇谷病毒(图3B)以及MERS冠状病毒(图3C)的VirCapSeq-VERT的读段覆盖率与探针覆盖率。病毒基因组由水平黑色线表示并且编码序列由各图底部的黑色尖头框表示。各图的顶部图指示通过VirCapSeq-VERT获得的读段覆盖率；下方示出了探针覆盖率。带颜色的线指示与用于比对的参考物(绿色＝A，红色＝T，蓝＝C，橙子＝G)错配。线高指示错配碱基的频率。

图4为以回收的基因组序列百分比展示VirCapSeq-VERT检测限的图。向来自血液或肺组织的总核酸中掺加人疱疹病毒1(HHV-1)和西尼罗河病毒(WNV)核酸。将两种制剂连续稀释，以产生按100ng肺组织或50ng全血核酸中5000、1000、300、100、30或10个拷贝含有两种病毒的六个样品。用VirCapSeq-VERT加工样品。

图5为以每一千万个读段的定位读段数展示用VirCapSeq-VERT来定位病毒读段的效率的图。向人血液和血清中掺加通过qPCR定量的活肠道病毒D68病毒储备液，以产生每毫升具有500、200、100或10个拷贝的样品。对500μl的各样品进行提取并且用VirCapSeq-VERT加工。

图6为以病毒读段数百分比示出通过VirCapSeq-VERT选择性增强脊椎动物病毒检测的图。将蝙蝠粪便样品材料分成两份并且针对各病毒使用HTS加上过滤和核酸酶消化与提取后DNA酶处理的组合(图的左侧柱)，或单独使用VirCapSeq-VERT(图的右侧柱)进行分析。

图7为由计算相对于使用VirCapSeq-VERT获得的总读段数目计算的定位至重叠群序列以及未组装单例的读段的数目所获得的病毒读段数目百分比的热图。LM指示以低多重汇集物形式加工的样品(9个样品)。HM指示以高多重汇集物形式加工的样品(23个样品)。

具体实施方式

分子生物学

根据本发明，可能存在许多在本领域的技术范围内的工具和技术，诸如常用于分子免疫学、细胞免疫学、药理学以及微生物学中的那些工具和技术。参见例如Sambrook等(2001)Molecular Cloning:A Laboratory Manual.第3版Cold Spring HarborLaboratory Press:Cold Spring Harbor,N.Y.；Ausubel等编(2005)Current Protocolsin Molecular Biology.John Wiley and Sons,Inc.:Hoboken,N.J.；Bonifacino等编(2005)Current Protocols in Cell Biology.John Wiley and Sons,Inc.:Hoboken,N.J.；Coligan等编(2005)Current Protocols in Immunology,John Wiley and Sons,Inc.:Hoboken,N.J.；Coico等编(2005)Current Protocols in Microbiology,John Wileyand Sons,Inc.:Hoboken,N.J.；Coligan等编(2005)Current Protocols in ProteinScience,John Wiley and Sons,Inc.:Hoboken,N.J.；以及Enna等编(2005)CurrentProtocols in Pharmacology,John Wiley and Sons,Inc.:Hoboken,N.J.。

定义

本说明书中所用的术语通常具有其在本领域中在本发明的背景和使用各术语的特定背景内的普通含义。下文或本说明书中的别处论述某些术语，以在描述本发明的方法和如何使用它们时为从业者提供额外指导。此外，应了解相同内容可能会以超过一种方式来说明。因此，可对本文所论述的术语中的任何一种或多种使用替代措辞和同义词，无论在本文中是否详细描述或论述一个术语都不强调任何特别的意义。提供了某些术语的同义词。叙述一个或多个同义词不排除使用其他同义词。本说明书中任何地方使用实例，包括本文所论述的任何术语的实例，仅为说明性的，并且决不限制本发明或任何所例示的术语的范围和含义。同样地，本发明不限于其优选实施方案。

除非上下文另外明确指示，否则如本文和权利要求书中所用，单数形式“一个(种)(a/an)”和“所述”包括单数和复数参考物。因此，举例来说，提到“一种药剂”包括单个药剂和多个此类药剂。

如本文所用，术语“病毒组捕获测序平台”和“VirCapSEQ-VERT”将为可互换使用的并且指本发明的新颖捕获测序平台，所述新颖捕获测序平台允许在单一高通量测序反应中同时检测、鉴定和/或表征任何单个样品中已知或疑似感染脊椎动物的所有病毒。所述术语表示呈每一种形式的平台，包括但不限于代表来自已知感染脊椎动物的每个病毒分类群的至少一种病毒的编码序列的合成寡核苷酸的集合(即“探针文库”)，其呈溶液形式或附接至固体载体；包含关于病毒组捕获测序平台的信息的数据库，所述信息至少包括各寡核苷酸探针的长度、核苷酸序列、解链温度以及病毒来源；以及具有包含关于病毒组捕获测序平台的信息的程序代码的计算机可读存储介质，所述信息至少包括各寡核苷酸探针的长度、核苷酸序列、解链温度以及病毒来源。

如本申请中所用的术语“受试者”意指具有免疫系统的动物，诸如禽类和哺乳动物。哺乳动物包括犬、猫、啮齿动物、牛、马、猪、绵羊以及灵长类动物。禽类包括但不限于家禽、鸣禽以及猛禽。因此，本发明可用于兽医学中，例如用于治疗伴侣动物、农场动物、动物园中的实验室动物以及野生动物。本发明为人医学应用特别需要的。

如本申请中所用的术语“患者”意指人受试者。

如本文所用的术语“检测(detection/detect/detecting)”等意指发现存在。

如本文所用的术语“鉴定(identification/identify/identifying)”等意指识别来自受试者的样品中的特定病毒。

如本文所用的术语“表征(characterization/characterize/characterizi ng)”等意指通过特征，在本文的一些情况下通过序列信息进行描述或分类。

如本文所用，术语“分离”等意味着所提到的材料不含存在于通常发现所述材料的天然环境中的组分。具体地说，分离的生物材料不含细胞组分。在核酸分子的情况下，分离的核酸包括PCR产物、分离的mRNA、cDNA、分离的基因组DNA或限制片段。在另一实施方案中，分离的核酸优选是从其可存在的染色体切除的。可将分离的核酸分子插入质粒、粘粒、人工染色体等。因此，在一个特定实施方案中，重组核酸为分离的核酸。分离的蛋白质可与其他蛋白质或核酸或两者缔合，它在细胞中与所述其他蛋白质或核酸缔合，或者如果它是膜相关蛋白质，那么与细胞膜缔合。分离的材料可为，但不需要为，纯化的。

如本文所用，“核酸”和“多核苷酸”和“核酸序列”以及“核苷酸序列”包括核酸、寡核苷酸、核苷酸、多核苷酸以及其任何片段、变体或衍生物。核酸或多核苷酸可为双链、单链或三链DNA或RNA(包括cDNA)或者基因或合成来源的DNA-RNA杂合物，其中核酸含有脱氧核糖核苷酸和核糖核苷酸的任何组合以及碱基的任何组合，所述碱基包括但不限于腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、尿嘧啶、肌苷以及黄嘌呤次黄嘌呤。如本文中进一步所用，术语“cDNA”是指分离的DNA多核苷酸或核酸分子或其任何片段、衍生物或互补物。它可为双链、单链或三链的，它可能已重组或合成产生，并且它可表示编码和/或非编码5'和/或3'序列。

当在提到核苷酸序列时使用术语“片段”是指所述核苷酸序列的部分。片段的尺寸可在5个核苷酸残基至整个核苷酸序列减去一个核酸残基范围内。

如本文所用的术语“基因组”是指一级DNA或RNA或核苷酸序列(在适用时为DNA或RNA)中所编码的全部有机体遗传信息。基因组包括基因与非编码序列两者。举例来说，基因组可表示病毒基因组、微生物基因组或哺乳动物基因组。

如本文所用，术语“基因”意指脱氧核糖核苷酸或核糖核苷酸序列，包含结构基因的编码区并且包括邻近5'末端与3'末端的编码区在任一末端约1kb的距离处定位使得基因对应于全长mRNA的长度的序列。定位于编码区的5'并且存在于mRNA上的序列称为5'非翻译序列。定位于编码区的3'或下游并且存在于mRNA上的序列称为3'非翻译序列。术语“基因”涵盖基因的扩增形式与基因组形式两者。基因的基因组形式或克隆含有编码区，其间插有称为“内含子”或“间插区”或“间插序列”的非编码序列。内含子为转录至核不均一RNA(hnRNA)中的基因区段；内含子可含有调控元件，诸如增强子。内含子被从核或一级转录物中移除或“剪接出来”；因此内含子不存在于信使RNA(mRNA)转录物中。mRNA在翻译期间发挥规定新生多肽的序列或氨基酸顺序的功能。

“编码序列”或“编码”诸如RNA、多肽、蛋白质或酶等表达产物的序列为当表达时使得产生所述RNA、多肽、蛋白质或酶的核苷酸序列，即所述核苷酸序列编码所述多肽、蛋白质或酶的氨基酸序列。蛋白质的编码序列可包括起始密码子(通常为ATG)和终止密码子。

如本文所用的术语“测序文库”是指与下一代高通量测序仪相容的核酸文库。

如本文所用，术语“寡核苷酸”是指通常具有至少10个、优选至少15个以及更优选至少20个核苷酸、优选不超过100个核苷酸的核酸，所述核酸可杂交至编码基因、mRNA、cDNA或其他感兴趣的核酸的基因组DNA分子、cDNA分子或mRNA分子。包含寡核苷酸的核酸包括但不限于DNA、RNA、键联核酸(LNA)、桥联核酸(BNA)以及肽核酸(PNA)。可例如用³²P-核苷酸或已与诸如生物素等标记共价结合的核苷酸对寡核苷酸进行标记。

术语“合成的寡核苷酸”是指可合成的优选具有约10至约100个碱基的单链DNA或RNA分子。一般来说，将这些合成分子设计成具有独特的或所需的核苷酸序列，不过有可能合成具有相关序列以及在核苷酸序列内的特定位置具有不同核苷酸组成的分子家族。术语合成的寡核苷酸将用于指具有所设计或所需的核苷酸序列的DNA或RNA分子。

如本文所用的术语“标识符”是指可用于鉴定核酸片段的来源基因组的任何独特的非天然存在的核酸序列。有时可将标识符功能与诸如衔接子或引物等其他功能组合并且可定位于任何方便的位置。

如本文所用的术语“DNA测序”是指用于测定DNA分子中核苷酸碱基腺嘌呤、鸟嘌呤、胞嘧啶以及胸腺嘧啶的顺序的任何方法。

如本文所用的术语“下一代测序平台”和“高通量测序”以及“HTS”是指利用大规模平行技术的任何核酸测序装置。举例来说，此类平台可包括但不限于Illumina测序平台。

如本文所用，在提到根据碱基配对规则相关的“多核苷酸”和“寡核苷酸”(它们是可互换的术语，是指核苷酸的序列)时使用术语“互补”或“互补性”。它还可包括可能不确切遵守碱基配对规则的模拟物或人工碱基。举例来说，序列“C-A-G-T”与序列“G-T-C-A”互补。互补性可为“部分”或“总体”互补。“部分”互补性为根据碱基配对规则一个或多个核酸碱基不匹配的情况。核酸之间的“总体”或“完全”互补性为根据碱基配对规则每一个核酸碱基与另一碱基匹配的情况。核酸链之间的互补程度对核酸链之间的杂交效率和强度有显著影响。这在扩增反应以及视核酸之间的结合而定的检测方法中特别重要。

术语“核酸杂交”或“杂交”是指两个单链核酸之间的反平行氢键合，其中A与T(或者如果是RNA核酸，那么是U)配对，而C与G配对。当核酸分子的至少一个链在规定的严格性条件下可与另一核酸分子的互补碱基形成氢键时，核酸分子为彼此“可杂交”的。例如根据(i)进行杂交和/或洗涤的温度以及杂交和洗涤溶液的诸如甲酰胺等变性剂的(ii)离子强度和(iii)浓度以及其他参数来确定杂交的严格性。杂交要求两个链含有基本上互补的序列。然而，视杂交的严格性而定，可忍受一定程度的错配。在“低严格”条件下，更大百分比的错配为可忍受的(即将不阻止形成反平行杂交种)。

如本文所用，术语“杂交产物”是指两个核酸序列之间借助于互补的G与C碱基之间以及互补的A与T碱基之间形成氢键而形成的复合物；这些氢键可因碱基堆积相互作用而进一步得到稳定。两个互补核酸序列以反平行构型氢键合。可在溶液中或存在于溶液中的一个核酸序列与固定至固体载体的另一核酸序列之间形成杂交产物。

如本文所用，在提到“解链温度”时使用术语“T_m”。解链温度为使双链核酸分子的群体变得一半解离成单链的温度。如由标准参考文献所指示，当核酸位于1M NaCl的水溶液中时，可通过以下等式来计算T_m值的简单估计值：T_m＝81.5+0.41(％G+C)。Anderson等,"Quantitative Filter Hybridization",Nucleic Acid Hybridization(1985)。更完善的计算将结构以及序列特征考虑在内来计算T_m。

如本文所用，在提到温度、离子强度以及诸如有机溶剂等其他化合物的存在的条件时使用术语“严格性”，在所述条件下进行核酸杂交。“严格性”典型地发生在约T_m至T_m以下约20℃至25℃范围内。可使用“严格杂交”来鉴定或检测相同的多核苷酸序列或用于鉴定或检测类似或相关的多核苷酸序列。举例来说，当在严格条件下将片段用于杂交反应中时，有助于含有独特序列(即非同源或含有低于约50％同源性或互补性的区)的片段的杂交。或者，当使用“弱”或“低”严格性的条件时，来源于在遗传上多种多样的有机体(即，例如此类有机体之间互补序列的频率通常为低的)的核酸可发生杂交。

“扩增”被定义为产生核酸序列的额外拷贝并且通常在体内或体外进行，即例如使用聚合酶链反应来进行。

如本文所用，术语“聚合酶链反应”(“PCR”)是指以引用的方式并入本文中的美国专利号4,683,195和4,683,202中所公开的方法，这些专利描述在不进行克隆或纯化的情况下增加基因组DNA的混合物中靶序列的区段的浓度的方法。所需靶序列的扩增区段的长度是通过两种寡核苷酸引物相对于彼此的相对位置来确定，并且因此，此长度为可控制的参数。由于所述过程的重复方面，所述方法被称为“聚合酶链反应”(在下文中为“PCR”)。因为靶序列的所需扩增区段变为混合物中的主导序列(就浓度来说)，所以将它们说成是“PCR扩增的”。使用PCR，有可能将基因组DNA中的特定靶序列的单个拷贝扩增至通过若干不同方法(例如与标记的探针杂交；合并生物素化引物随后进行亲和素-酶缀合物检测；将₃₂P-标记的脱氧核苷酸三磷酸酯，诸如dCTP或dATP合并至扩增区段中)可检测的水平。除基因组DNA之外，可使用适当的引物分子集合扩增任何寡核苷酸序列。具体地说，通过PCR方法本身所形成的扩增区段本身为用于后续PCR扩增的高效模板。使用PCR，还有可能扩增线性DNA分子的复杂混合物(文库)，前提条件是它们在任一末端携带适合的通用序列，使得通用PCR引物结合在所要扩增的DNA分子外部。

术语“序列相似性百分比(％)”、“序列同一性百分比(％)”等统指可能拥有或可能不拥有共同进化来源的不同的核酸分子的核苷酸序列或蛋白质的氨基酸序列之间的同一或对应程度。可使用许多公共可获得的序列比较算法中的任一种来测定序列同一性，诸如BLAST、FASTA、DNA Strider以及GCG(Genetics Computer Group,GCG程序包程序手册,第7版,Madison,Wisconsin)。

为测定两个氨基酸序列或两个核酸分子之间的同一性百分比，出于最佳比较目的对序列进行比对。两个序列之间的同一性百分比为序列所拥有的同一位置数目的函数(即，同一性百分比＝同一位置的数目/位置(例如重叠位置)的总数目x 100)。在一个实施方案中，两个序列具有或大致具有相同长度。可在允许或不允许空位的情况下使用类似于下文所描述的那些技术的技术来测定两个序列之间的同一性百分比。在计算序列同一性百分比时，典型地对确切匹配进行计数。

病毒组捕获测序平台

本发明包括一种设计和/或构建捕获测序平台的方法、所述平台本身以及使用所述平台来构建适合用于在任何高通量测序技术中测序的测序文库的方法。本发明还包括用于使用新颖捕获测序平台同时检测任何来源的单个样品中已知或疑似感染脊椎动物的所有病毒的方法和系统。本发明(指用于脊椎动物病毒的病毒组捕获测序平台或VirCapSeq-VERT)相较于现有技术中的当前方法增加基于序列的病毒检测和表征的灵敏性。它能够在任何复杂样品背景，包括那些在临床试样中发现的样品背景中检测病毒序列。系统的高度多重性允许所有已知脊椎动物病毒、其基因变体以及新颖序列的同时鉴定与综合基因表征两者。病毒组捕获测序平台的操作简易性和效率可有助于高通量测序转化到临床诊断以及研究应用。

所述平台是基于用于富集已知或疑似感染脊椎动物(包括人)的所有病毒的序列的策略，并且包括所述病毒的变体和突变体的序列。

当前的通常基于靶向一种或几种特定药剂的PCR分析的病毒诊断分析可能未能检测病毒变体并且仅提供有限的基因型信息。本文所提供的发明解决了用于诊断和病毒组分析的PCR和HTS的许多当前挑战。病毒组捕获测序平台的灵敏性和特异性类似于药剂特异性实时PCR(参见表6)。当前方法和系统使用正向选择方法来进行高通量(HTS)筛选以实现微生物诊断和整个病毒组分析。另外，中靶读段中实现的100倍至10,000倍增加在研究应用中实现了测序深度对成本的杠杆作用。在20条形码样品形式中病毒组捕获测序平台的约每一样品成本40美元(USD)优于诸如rRNA消耗(约每一样品65USD)等其他富集程序的成本，特别是鉴于其在灵敏性、基因组覆盖率以及容易使用方面的优点。高度多重样品加工和简化样品处置的能力为成本有效的并且降低交叉污染的风险。

另外，虽然病毒组捕获测序平台并非特定地被设计成用于病毒发现，但是，它使得能够对具有低至75％的总序列同一性的基因组进行测序。轮状病毒(rotavirus)和丙型肝炎病毒(hepacivirus)分析的结果表明，在目标是检测而不是综合基因组测序的情况下，捕获测序平台具有通过杂交至保守区检测具有在40％范围内的总核苷酸趋异度的新颖病毒的潜能(参见实施例5)。

概括地说，病毒组捕获测序平台为用于诊断和研究应用的有效工具。它具有类似于使用靶向实时PCR所获得的灵敏性，优点为检测使用特异性PCR分析将不被捕获的病毒变体以及提供评估病毒多样性以及流行病学和公众健康应用的进展所需的完全基因组覆盖率的潜能。所述方法为廉价的。此外，因为绝大多数序列将代表病毒而非宿主模板，重叠群组件和BLAST分析与蛮力、无偏测序相比将需要较少的计算并且需要较少时间来完成。

因此，本发明为一种设计和/或构建序列捕获平台或技术或者称为病毒组捕获测序平台或VirCapSeq-VERT的方法。本发明为一种设计和/或构建包含选择性富集感染脊椎动物的所有病毒的寡核昔酸探针的序列捕获平台的方法，以及所得捕获序列平台。因此，所述方法可包括以下步骤。

第一步是从来自已知感染脊椎动物的各病毒分类群的至少一种病毒的基因组获得序列信息。这些病毒分类群的列表的归纳整理是基于本发明人的在脊椎动物病毒领域的工作和特有的知识来进行。在一个实施方案中，使用表1中所列的病毒分类群来获得序列数据。表1中的病毒列表关于本领域中已知感染脊椎动物的病毒为过度包括的。在另一实施方案中，同样可包括被发现感染脊椎动物的新病毒。

从诸如EMBL编码结构域序列数据库、NCBI基因库以及任何公共或专用序列信息数据库等数据库获得病毒的序列信息。

所述方法的第二步是从数据库中提取编码序列以用于设计寡核苷酸。这与使用将包括更多的序列并且更不高效的整个病毒基因组大不相同。在一个实施方案中，使用以约80％序列同一性群集的编码序列。在一个更优选实施方案中，使用以约85％序列同一性群集的编码序列。在一个更优选实施方案中，使用以约90％序列同一性群集的编码序列。在一个更优选实施方案中，使用以约95％序列同一性群集的编码序列。在一个最优选实施方案中，使用以约96％序列同一性群集的编码序列。可使用计算机算法来选择编码序列，包括但不限于CD-Hit(Li和Godzik 2006)、MOI生物信息学工具包(Alva等2016)、HMMer(Finn等2011)以及UCLUST(Edgar 2010)。还可使用完全非冗余数据库，诸如UniProt(2015)。

所述方法的下一步骤是将序列分解成要作为寡核苷酸的基础的片段。片段的长度为约50至100个核苷酸。可根据T_m和均聚物重复单元的需要关于长度和起始/停止位置对寡核苷酸进行精制。

举例来说，寡核苷酸的最终T_m应为类似的并且范围不太宽。优选的是平台中所有寡核苷酸的最终T_m应在约不大于约75℃、更优选不大于约65℃并且最优选不大于约50℃范围内。例示的平台中的寡核苷酸的最终T_m在约58℃至约101℃范围内。因此，可相应地调整片段尺寸以获得具有适合的解链温度的寡核苷酸。

为处理序列变异并且捕获变体或突变序列，如果序列趋异度为约10％，即具有约90％的同一性，那么将序列保留。

如本文所用，序列的变体与核酸序列具有至少约90％、约95％、约95.5％、约96％、约96.5％、约97％、约97.5％、约98％、约98.5％、约99％或约99.5％或约99.9％的同一性。

如本文所用，术语“突变”意指包括DNA和RNA的基因材料中的任何可检测的变化。“突变体”意指基因材料中具有变化的基因、表达产物或病毒。

本发明还涉及使用计算机产生的信息来设计和/或构建病毒组捕获测序平台的方法和系统。举例来说，在一些实施方案中，可使用第一分析工具使用来自公开感染脊椎动物的所有病毒的表1的信息来发现相关序列信息，并且使用算法加工相关序列信息以提取编码序列，并且使用第二分析工具将编码序列片段化至具有对于平台来说适当的参数的寡核苷酸中，所述适当的参数包括适当的长度、解链温度、GC分布、编码序列上寡核苷酸之间间隔的距离以及序列同一性百分比。

在本发明的另一方面中，可提供分析工具，诸如被配置成进行来自适当病毒的编码序列的选择的第一模块以及用于进行编码序列的片段化的第二模块，从而测定寡核苷酸的特征，诸如适当的长度、解链温度、GC分布、编码序列上寡核苷酸之间间隔的距离以及序列同一性百分比。这些工具的结果形成用于设计用于病毒组捕获测序平台的寡核苷酸的模型。

用于产生设计模型的说明性系统包括分析工具，诸如被配置成包括来自表1的病毒以及序列信息数据库的模块。分析工具可包括任何适合硬件、软件或其组合，以测定来自表1的病毒与来自数据库的序列数据之间的相关性。在从数据库选择相关序列数据后，使用已知算法来提取以约80％同一性群集，或在其他实施方案中，为以约85％同一性、约90％同一性、约95％同一性以及约96％同一性群集的编码序列。使用诸如模块等第二分析工具来将编码序列片段化。此分析工具可包括任何适合的硬件、软件或组合，以测定病毒组捕获测序平台的寡核苷酸的必需特征，包括适当的长度、解链温度、GC分布、编码序列上寡核苷酸之间间隔的距离以及序列同一性百分比。在本发明的一些实施方案中，寡核苷酸的特征为长度为约50至100个核苷酸，解链温度在约不大于约75℃、更优选不大于约65℃并且最优选不大于约50℃范围内，在编码序列上以约25至50个核苷酸的间隔隔开以及约90％的序列同一性。

在获得寡核苷酸的序列信息之后，可通过本领域中已知的包括但不限于固相合成的任何方法来合成寡核苷酸，所以固相合成使用亚磷酰胺法和来源于以下各项的亚磷酰胺砌块：受保护的2'-脱氧核苷(dA、dC、dG以及T)、核糖核苷(A、C、G以及U)或化学修饰的核苷，例如键联核酸(LNA)、桥联核酸(BNA)或肽核酸(PNA)。

可根据T_m和均聚物重复单元的需要关于长度和起始/停止位置对寡核苷酸进行精制。寡核苷酸的最终T_m可在约不大于约75℃、更优选不大于约65℃并且最优选不大于约50℃范围内。可如本领域中已知的对这些参数进行优化。本发明的方法设计的最终文库包含约1,993,176个寡核苷酸，长度在50至100nt范围内，平均长度为74.3并且中值长度为74，T_m在58.7℃至101℃范围内，平均T_m为79.69℃并且中值T_m为79.1℃。GC含量(百分比)分布为GC％平均值0.44和中值0.42，范围为0至1。

平台的优选实施方案为包含寡核苷酸探针的文库，所述寡核苷酸探针能够捕获来自已知或疑似感染脊椎动物的每一分类群的至少一种病毒的核酸。

在一个实施方案中，平台的寡核苷酸呈溶液形式。

在本发明的一个实施方案中，使包含捕获序列平台的寡核苷酸预结合于固体载体或底物。优选固体载体包括但不限于珠粒(例如由金属、玻璃、塑料、右旋糖酐(诸如以商标名Sephadex(Pharmacia)出售的右旋糖酐珠粒)、硅胶、琼脂糖凝胶(诸如以商标名Sepharose(Pharmacia)出售的那些珠粒)或纤维素)制成的磁性珠粒(即珠粒本身为磁性，或珠粒易于由磁铁捕获)；毛细管；平面载体(例如由玻璃、金属(诸如钢、金、银、铝、铜或硅)或塑料(诸如聚乙烯、聚丙烯、聚酰胺或聚偏二氟乙烯)制成的过滤器、平板或薄膜)；色谱底物；微流体底物；以及销(例如在存在或不存在过滤板的情况下适合用于组合合成或分析平面表面(诸如晶片)的凹坑中的珠粒的销阵列)。适合的固体载体的额外实例包括但不限于琼脂糖、纤维素、右旋糖酐、聚丙烯酰胺、聚苯乙烯、琼脂糖以及其他不溶性有机聚合物。适当的结合条件(例如温度、pH值以及盐浓度)可由熟练技工容易地确定。

可使包含捕获序列平台的寡核苷酸共价或非共价结合于固体载体。此外，可使包含序列捕获平台的寡核苷酸直接结合于固体载体(例如寡核苷酸与固体载体直接范德华(van der Waal)和/或氢键和/或盐桥接触)，或间接结合于固体载体(例如寡核苷酸本身不与固体载体直接接触)。在包含序列捕获平台的寡核苷酸间接结合于固体载体的情况下，使捕获核酸的核苷酸连接至本身与固体载体直接接触的中间组合物。

为促进包含捕获序列平台的寡核苷酸结合至固体载体，可用适合用于直接结合于固体载体和/或通过结合于固体载体的中间组合物或间隔分子间接结合于固体载体的一个或多个分子(诸如抗体、受体、结合蛋白或酶)对包含捕获序列平台的寡核苷酸进行修饰。此类修饰的实例包括但不限于配体(例如小有机或无机分子、受体的配体、结合蛋白的配体或其结合域(诸如生物素和地高辛(digoxigenin)))、抗原和其结合域、适体、肽标签、抗体以及酶的底物。在一个优选实施方案中，寡核苷酸包含生物素。

适合用于将包括核酸/多核苷酸的生物和其他分子与固体表面隔开的连接子或间隔分子为本领域中熟知的，并且包括但不限于多肽、饱和或不饱和双官能烃以及聚合物(例如聚乙二醇)。其他适用连接子为可商购获得的。

在本发明的一个实施方案中，包含捕获序列平台的寡核苷酸的序列为已知感染脊椎动物的病毒的基因组的序列的互补物(即与其互补)。在另一实施方案中，包含捕获序列平台的寡核苷酸能够在高严格性条件下杂交至已知感染脊椎动物的病毒的基因组的序列。核酸序列的“互补物”在本文中指与另一核酸完全互补或在高严格性条件下将杂交至其他核酸的核酸分子。高严格性条件为本领域中已知的。参见例如Maniatis等,MolecularCloning:A Laboratory Manual,第2版(Cold Spring Harbor:Cold Spring HarborLaboratory,1989)以及Ausubel等编,Current Protocols in Molecular Biology(NewYork,N.Y.:John Wiley&Sons,Inc.,2001)。严格条件为序列依赖性的，并且可视情况而变化。

在所例示的实施方案中，使用可裂解可编程阵列合成包含捕获序列平台的寡核苷酸，其中所述阵列包含含有序列捕获平台的寡核苷酸。从所述阵列裂解寡核苷酸并且与溶液中来自样品的核酸杂交。

本发明还包括由本发明的方法制成的序列捕获平台，或者称为病毒组捕获测序平台。平台包含约1,993,176个长度在50至100nt范围内并且T_m为58.7℃至101℃的寡核苷酸。寡核苷酸包含来自已知感染脊椎动物的每一病毒分类群的至少一种病毒的基因组的序列(表1)。另外，序列捕获平台包含将捕获来自所述病毒分类群的变体和突变体的序列。

本发明的病毒组捕获测序平台可呈优选如上文所阐述而设计的寡核苷酸的集合的形式，即探针文库。寡核苷酸可呈溶液形式或附接至固态，诸如阵列或珠粒。另外，可将寡核苷酸用另一分子修饰。在一个优选实施方案中，寡核苷酸包含生物素。

病毒组捕获测序平台还可呈一个数据库或诸多个数据库的形式，所述数据库可包括关于各寡核苷酸探针的序列和长度以及T_m以及衍生出寡核苷酸序列的病毒的信息。数据库可为可搜索的。从所述数据库，本领域技术人员可获得设计和合成包含病毒组捕获测序平台的寡核苷酸探针所需的信息。还可将数据库记录在机器可读存储介质上，所述机器可读存储介质为可由计算机直接读取和存取的任何介质。机器可读存储介质可包含例如用机器可读数据或数据阵列编码的数据存储材料。机器可读存储介质可包括但不限于磁存储介质、光存储介质、电存储介质以及混合物。本领域技术人员可容易地确定可如何使用目前已知的机器可读存储介质和将来开发的机器可读存储介质来形成任何数据库信息的记录的制造品。“记录”是指使用本领域中已知的任何方法将信息存储在机器可读存储介质上的过程。

测序文库的构建

本发明的另一实施方案为一种构建适合用于用利用新颖病毒组捕获测序平台的任何高通量测序方法进行测序的测序文库的方法。

因此，所述方法可包括以下步骤。

从样品获得核酸。本发明中所用的样品可为环境样品、食物样品或生物样品。优选样品为生物样品。可从受试者的组织或来自受试者的包括但不限于鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液或腹膜液的人体流体或诸如粪便等固体获得生物样品。生物样品还可为细胞、细胞培养物或细胞培养基。样品可能包含或含有或可能不包含或含有任何病毒核酸。在一个优选实施方案中，样品是来自脊椎动物受试者，并且在一个最优选实施方案中，样品是来自人受试者。在另一优选实施方案中，样品包含血液并且在输血之前进行测试。在另一优选实施方案中，样品包含细胞、细胞培养物、细胞培养基或用于开发药物和治疗剂的任何其他组合物。

对来自样品的核酸进行片段化以获得核酸片段。对可使用的核酸样品的类型没有特别限制，并且对用于进行片段化的手段没有特别限制；并且可使用可制备经历随机片段化的核酸样品的任何化学或物理方法对核酸样品进行随机片段化。优选的是对核酸样品进行片段化以获得具有200bp至300bp的长度或适合于相应测序平台的任何其他尺寸分布的核酸片段。

在获得核酸片段之后，可将其连结至衔接子。在一个实施方案中，衔接子为线性衔接子。可如下将线性衔接子添加至片段中：对片段进行末端修复，以获得末端修复的片段；将腺嘌呤碱基添加至片段的3'末端，以获得在3'末端具有腺嘌呤的片段；以及将衔接子连结至在3'末端具有腺嘌呤的片段。

在一些实施方案中，衔接子包含标识符序列。在一些实施方案中，衔接子包含用于引发扩增的序列。在一些实施方案中，衔接子包含鉴定的序列与用于引发扩增的序列两者。

在将核酸片段连结至衔接子之后，在如果核酸包含来源于已知或疑似感染脊椎动物的任何病毒的任何病毒序列，那么允许核酸片段杂交至病毒组捕获测序平台的寡核苷酸的条件下，使其与病毒组捕获测序平台的寡核苷酸接触。此步骤可在溶液中或以固相杂交方法进行，这取决于病毒组捕获测序平台的形式。

在与病毒组捕获测序平台的寡核苷酸接触之后，可使任何杂交产物经受扩增条件。在一个实施方案中，用于扩增的引物存在于连结至核酸片段的衔接子中。所得扩增产物包含测序文库，所述测序文库适合于使用现在已知或随后开发的任何HTS系统进行测序。

可通过本领域中已知的任何手段进行扩增，包括聚合酶链反应(PCR)和等温扩增。PCR为一种用于DNA碱基序列的体外扩增的实用系统。举例来说，PCR分析可使用热稳定聚合酶和两个引物：一个与在所要扩增的序列一端的(+)-链互补，而另一个与另一端的(-)-链互补。因为新合成的DNA链随后可充当相同引物序列的额外模板，所以连续多轮引物退火、链伸长以及解离可产生所需序列的快速且高度特异性的扩增。还可使用PCR来检测DNA样品中规定序列的存在。在本发明的一个优选实施方案中，将杂交产物与适合的PCR试剂混合。然后进行PCR反应，以扩增杂交产物。

在一个优选实施方案中，使用可裂解阵列中的病毒组捕获测序平台来构建测序文库。从样品提取核酸并且进行逆转录酶处理并且连结至包含标识符和用于引发扩增的序列的衔接子。使用可裂解阵列平台来合成包含序列捕获平台的寡核苷酸，其中寡核苷酸为生物素化的。然后将生物素化的寡核苷酸从固体基质裂解至具有来自样品的核酸的溶液中以使包含捕获序列平台的寡核苷酸能够杂交至溶液中的任何病毒核酸。在杂交之后，通过链霉亲和素磁性珠粒收集结合于包含序列捕获平台的生物素化寡核苷酸的来自样品的核酸，即杂交产物，并且使用衔接子序列作为特定引发位点通过PCR进行扩增，从而产生扩增产物，以在任何已知HTS系统(Ion、Illumina、454)以及将来开发的任何HTS系统上测序。

在另一实施方案中，可使用本领域中已知的任何方法对测序文库进行直接测序。换言之，可在没有扩增的情况下对由平台捕获的核酸进行测序。

用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的方法和系统

本发明包括用于利用新颖病毒组捕获测序平台同时检测任何样品中已知或疑似感染脊椎动物的所有病毒、确定和表征存在于任何样品中的病毒以及鉴定任何样品中的新颖病毒的方法和系统。

可使用本发明的方法和系统来检测研究样品、临床样品、环境样品以及食物样品中的已知和新颖的病毒。额外应用包括但不限于感染性病原体的检测，血液产品的筛选(例如针对感染剂对血液产品进行筛选)、生物防御、食物安全、环境污染、法医学以及基因可比较性研究。本发明还提供用于检测细胞、细胞培养物、细胞培养基以及用于开发药物和治疗剂的其他组合物中的病毒的方法和系统。因此，本发明提供用于许多特定应用的方法和系统，包括但不限于用于确定样品中病毒和病毒核酸序列的存在的方法、用于筛选血液产品的方法、用于关于污染对食物产品进行分析的方法、用于关于环境污染对样品进行分析的方法以及用于检测基因修饰的有机体的方法。本发明进一步提供所述系统在诸如针对生物恐怖主义的生物防御、法医学以及基因可比较性研究等一般应用中的用途。

受试者可为任何动物，特别是脊椎动物并且更特别是哺乳动物，包括但不限于奶牛、狗、人、猴、小鼠、猪或大鼠。优选地，受试者为人。受试者可已知具有病原体感染，疑似具有病原体感染或相信不具有病原体感染。

本文所描述的系统和方法支持任何样品中多种病毒和病毒转录物的多重检测。

因此，本发明的一个实施方案提供一种用于同时检测任何样品中已知或疑似感染脊椎动物的所有病毒的系统。所述系统包括至少一个子系统，其中所述子系统包括如本文所描述的病毒组捕获测序平台。所述系统还可包括用于以下目的的额外子系统：从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸杂交以形成杂交产物；扩增杂交产物；以及对杂交产物进行测序。

本发明还提供一种用于同时确定和表征任何样品中已知感染脊椎动物的所有病毒的系统。所述系统包括至少一个子系统，其中所述子系统包括如本文所描述的病毒组捕获测序平台。所述系统还可包括用于以下目的的额外子系统：从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸杂交以形成杂交产物；扩增杂交产物；对杂交产物进行测序；以及通过在杂交产物与已知病毒的序列之间进行比较来鉴定和表征病毒。

本发明还提供一种用于鉴定任何样品中的新颖病毒的系统。所述系统包括至少一个子系统，其中所述子系统包括如本文所描述的病毒组捕获测序平台。所述系统还可包括用于以下目的的额外子系统：从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸杂交以形成杂交产物；扩增杂交产物；对杂交产物进行测序；以及通过在杂交产物与已知病毒的序列之间进行比较来鉴定病毒为新颖的。

另外，本发明提供一种用于同时检测任何样品中已知或疑似感染脊椎动物的所有病毒的方法，所述方法包括以下步骤：获得样品；从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸在足以使核酸片段与病毒组捕获测序平台的寡核苷酸杂交的条件下接触；以及检测在核酸片段与病毒组捕获测序平台的寡核苷酸之间形成的任何杂交产物。

此方法还可包括对杂交产物进行扩增和测序的步骤。

本发明提供一种用于同时确定和表征任何样品中已知或疑似感染脊椎动物的所有病毒的方法，所述方法包括以下步骤：获得样品；从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸在足以使核酸片段与病毒组捕获测序平台的寡核苷酸杂交的条件下接触；对核酸片段与病毒组捕获测序平台的寡核苷酸之间形成的任何杂交产物进行测序；比较杂交产物的序列与已知病毒的序列；以及通过比较杂交产物的序列与已知病毒的序列来确定和表征样品中的病毒。

此方法还可包括扩增杂交产物的步骤。

本发明提供一种用于检测任何样品中新颖病毒的存在的方法，所述方法包括以下步骤：获得样品；从样品分离和制备核酸片段；使来自样品的核酸片段与病毒组捕获测序平台的寡核苷酸在足以使核酸片段与病毒组捕获测序平台的寡核苷酸杂交的条件下接触；对核酸片段与病毒组捕获测序平台之间形成的任何杂交产物进行测序；比较杂交产物的序列与已知病毒的序列；以及通过比较杂交产物的序列与已知病毒的序列来确定和表征样品中的病毒。

此方法还可包括扩增杂交产物的步骤。

当实践用于确定和表征样品中的病毒的方法以及检测样品中新颖病毒的存在的方法时，将杂交产物的序列与已知病毒的核酸序列进行比较。这可使用因用途而呈多种介质形式的数据库来进行。

如上文所公开，可对疑似具有病毒或病毒核酸的任何样品进行本发明的用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的方法，包括但不限于生物样品、环境样品或食物样品。优选样品为生物样品。可从受试者的组织或来自受试者的包括但不限于鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液或腹膜液的人体流体或诸如粪便等固体获得生物样品。生物样品还可为细胞、细胞培养物或细胞培养基。样品可能包含或含有或可能不包含或含有任何病毒核酸。

在一个优选实施方案中，样品是来自脊椎动物受试者，并且在一个最优选实施方案中，样品是来自人受试者。在另一优选实施方案中，样品包含血液并且在输血之前进行测试。在另一优选实施方案中，样品包含细胞、细胞培养物、细胞培养基或用于开发药物和治疗剂的任何其他组合物。

试剂盒

本发明还包括用于实践本发明方法的试剂和试剂盒。这些试剂和试剂盒可变化。

一种试剂将为病毒组捕获测序平台。所述平台可呈寡核苷酸探针的集合的形式，所述寡核苷酸探针包含来源于已知或疑似感染脊椎动物的所有病毒的基因组的序列。此寡核苷酸探针集合，即文库，可呈溶液形式或附接至固态。另外，可对寡核苷酸探针进行修饰以用于反应中。优选修饰为将生物素添加至探针。

平台还可呈具有关于寡核苷酸的信息的可搜索数据库的形式，所述信息至少包括序列信息、长度和解链温度以及病毒来源。

试剂盒中的其他试剂可包括用于从样品分离和制备核酸、使来自样品的核酸片段与平台的寡核苷酸杂交、扩增杂交产物以及获得序列信息的试剂。

本发明的试剂盒可包括上述试剂中的任一种，以及参考/对照序列，所述参考/对照序列可用于通过例如适合的计算手段基于输入的序列信息比较所获得的测试序列信息。

此外，试剂盒还将进一步包括说明书。

另一实施方案为一种用于设计和/或构建病毒组捕获测序平台的试剂盒，所述试剂盒包括用于选择病毒序列信息和将编码序列分解成具有对于平台来说适当的参数的寡核苷酸片段的分析工具，所述适当的参数包括适当的长度、解链温度、GC分布、编码序列上寡核苷酸之间间隔的距离以及序列同一性百分比。此试剂盒还可包括关于数据库和编码序列选择的说明书。

实施例

通过参考以下非限制性实施例可更好地理解本发明，所述非限制性实施例是为了更充分地说明本发明的优选实施方案而呈现。它们决不应被理解为限制本发明的广泛范围。

实施例1-用于实施例2-6样品和试样的材料和方法

在从正常人肺组织、EDTA-血液或血清提取的核酸(NA)的背景下产生临床试样的复制物。向样品中掺加病毒NA并且通过病毒特异性TaqMan实时(逆转录)-聚合酶链反应(qPCR)进行定量。使用easyMAG系统(bioMerieux,Marcy1l'Etoile,France)或AllPrepDNA/RNA试剂盒(Qiagen,Hilden,Germany)从细胞培养物、血液、血清或组织样品提取NA。通过Nanodrop(Wilmington,DE,USA)或生物分析仪2100(Agilent,Santa Clara,CA,USA)对背景NA进行定量并且与可变量的来源于以下各项的病毒NA混合：代表不同基因组尺寸的单链、正义RNA病毒的肠道病毒D68(EV234D68，(Mercer等2014)、西尼罗河病毒(WNV，(Clark等2015))、登革热病毒3(DENV-3，(Bent等2013))以及中东呼吸道综合征冠状病毒(MERS-CoV；(Depledge等2011))；代表非区段化和区段化的负链RNA病毒的埃博拉病毒(EBOV)A型流感病毒H3N2(FLUAV，A/莫斯科/10/99，WHO流感中心(WHO Influenza Centre),MRC,London,GB)以及卡奇谷病毒(CVV，(Brown等2014)；以及作为大双链DNA病毒的单纯疱疹病毒1(HHV-1，ATCC VR-733)。使用贮备在传染和免疫中心(Center of Infection)的最初来源于病毒培养物或阳性诊断试样的NA储备液进行掺加，除了EBOV，EBOV是作为非感染性核酸提取物由国家过敏和传染病研究所(National Institute of Allergy and InfectiousDiseases)、国家卫生研究所(National Institutes of Health)的Peter Jahrling提供。用于各种病毒的TaqMan PCR引物和探针为引用的或应要求提供。

为确定检测限并且与常规靶标富集程序相比较对VirCapSeq-VERT进行评估，向正常人肺组织匀浆、EDTA-血液或血清样品中掺加通过qPCR定量的不同量的EV-D68、HHV-1以及FLUAV活病毒储备液。

临床样品包括已知对于EV-D68为阳性的人鼻拭子样品(Tokarz等2012)；来自感染鹿鼠丙型肝炎病毒的鹿鼠的肝脏试样(Kapoor等2013)；已鉴定出(未发表)轮状病毒序列的蝙蝠粪便球粒样品；以及来自共感染C型肝炎病毒(HCV)、GB病毒C(GBV-C)、人免疫缺陷病毒(HIV)以及细环病毒(TTV)的血友病患者的血清样品。

探针序列的选择

含有2,199,467条记录的EMBL编码结构域序列数据库(第122次发行，2014年12月；ftp://ftp.ebi.ac.uk/pub/databases/embl/cds/relea se/std/)根据CD-Hit是以96％序列同一性群集(Li和Godzik 2006)，产生具有跨越所有病毒序列记录(排除噬菌体)的401,716个代表性序列的数据库。已知感染脊椎动物的所有病毒属的列表是产生自国际病毒分类委员会(International Committee on Taxonomy of Viruses)的主要种类列表(ICTV；http://talk.ictvonline.org/files/ictv_documents/m/msl/5208.aspx)。通过交叉引用蛋白质ID与NCBI分类ID，关于所选病毒属对342,438条编码序列记录的集合进行鉴定。将序列分解为片段，以90％序列同一性群集并且用以产生100nt探针序列，所述探针序列在基因上以约25-50nt的间隔平铺。选择1,993,200个寡核苷酸探针的文库。采用NimbleGen可裂解阵列平台来合成生物素化的可溶性探针文库(SeqCap EZ选择；Roche/NimbleGen，Basel,Switzerland)，并且通过将长度调整为符合诸如最大T_m或均聚物重复长度等Nimble Gen合成参数来对探针序列进行精制。

常规靶序列富集程序

常用于基于宏基因组测序的病毒发现中的常规病毒富集方法包括过滤和提取前核酸酶处理，此举常常与提取后DNA酶I和/或核糖体rRNA序列的消耗组合。简单来说，经0.45μm孔度无菌盘过滤器(Merck/Millipore,Billerica,MA,USA)过滤样品(100-300μl)以相较于细胞或细菌富集病毒。将流穿物在室温下用1μl RNA酶A(10mg/mL；Thermo Fisher,Waltham,MA,USA)处理15分钟，随后在室温下用8U Turbo DNA酶(Thermo Fisher)、250U全能核酸酶(Benzonase)(Merck/Millipore)以及10mM MgCl₂的混合物处理45分钟以消化不受粒子保护的NA。通过easyMAG(bioMerieux)或AllPrep试剂盒(Qiagen)提取诸如在病毒粒子中受保护的NA。在一些情况下增加通过DNA酶I进行的提取后消化(2U/μg DNA，15分钟，37℃；Thermo Fisher)以消化染色体DNA(细胞、细菌)，但也将消化病毒DNA(例如HHV-1DNA，而由主动复制的细胞病毒产生的mRNA转录物将被保留)。使用RiboZero磁性试剂盒(Illumina,San Diego,CA,USA)实现非所需宿主mRNA序列的消耗。使富集的制剂经历逆转录和序列文库制备。

常规HTS

使用SuperScript III(Thermo Fisher)用随机六聚物对全部NA提取物进行逆转录。在使用克列诺片段(Klenow Fragment)(New England Biolabs,Ipswich,MA,USA)进行第二链合成之前对cDNA进行RNA酶-H处理。使用制造商的标准设定(Covaris集中式超声波发生器E210；Woburn,MA,USA)将所产生的双链cDNA剪切至200个碱基对的平均片段尺寸。将剪切的产物纯化(AxyPrep Mag PCR净化珠粒；Axygen/Corning,Corning,NY,USA)并且使用KAPA文库制备试剂盒(KAPA,Wilmington,MA,USA)构建文库。对于10-100ng双链cDNA的NA输入量，将最终PCR扩增的循环次数增加至12次循环，而不是>100ng双链cDNA的样品的9次循环。将最终产物纯化(AxyPrep)并通过生物分析仪(Agilent)定量以进行Illumina测序。

病毒组捕获测序

大体上遵循标准KAPA方案，但包括病毒序列捕获，主要遵循S eqCap RNA富集系统方案(www.nimblegen.com/products/lit/07279337001_RNG_SeqCapRNA303UGuide_v1p0.pdf)来制备文库。

简单来说，使用SuperScript III(Thermo Fisher)用随机六聚物对全部NA提取物进行逆转录。在使用克列诺片段(New England Biola bs)进行第二链合成之前对cDNA进行RNA酶-H处理。使用制造商的标准设定(Covaris集中式超声波发生器E210)将所得双链cDNA/DN A混合物剪切至200个碱基对的平均片段尺寸。将剪切的产物纯化(A xyPrep)并且使用KAPA文库制备试剂盒(KAPA)加上rs/NimbleGen衔接子试剂盒构建文库。使用生物分析仪(Agilent)检验文库的数量和质量。然后将文库与SeqCap HE通用寡核苷酸、SeqCap HE索引寡核苷酸以及COT DNA混合并且在60℃下真空蒸发约40分钟。将干燥样品与2倍杂交缓冲液和杂交组分A(Roche/NimbleGen)混合，然后在95℃下变性10分钟。添加4.5μl的VirCap探针文库并且在标准P CR热循环器中在47℃下杂交12小时。将SeqCap纯捕获珠粒(Roche/NimbleGen)洗涤两次，然后与杂交混合物混合并且在每10-15分钟涡旋混合10秒的同时在47℃下保持45分钟。将与生物素化VirCapSe q-VERT探针复合的链霉亲和素捕获珠粒捕获(DynaMag-2磁铁，The rmo Fisher)并且在47℃下洗涤一次并且然后在室温下用严格性增加的洗涤缓冲液再洗涤两次。最后，将珠粒悬浮于50μl水中并且直接进行杂交后PCR(SeqCap EZ附属试剂盒V2，Roche/NimbleGen)。将PCR产物纯化(Agencourt Ampure DNA纯化珠粒，Beckman Coul ter,Brea,CA,USA)并且通过生物分析仪(Agilent)定量以进行Illumin a测序。

数据分析和生物信息学工艺过程

对Illumina HiSeq 2500平台(Illumina)测序产生每一通道平均21000万个读段。使用Illumina软件对样品进行多路分配并且产生FastQ文件。使用Bowtie2定位仪2.0.6将多路分配和Q30过滤的FastQ文件针对来自基因库的参考基因组进行定位。使用SAMtool(v0.1.19；(Li等2006))来产生共同基因组和覆盖率统计量。使用整合基因组观察器(v2.3.55；(Robinson等2011))来产生覆盖率曲线。由针对从NCBI下载的宿主基因组的Bowtie2定位确定宿主背景水平。使用PRINSEQ(v 0.20.2；(Schmieder和Edwards 2011))软件对从未知样品获得的测序数据进行预处理并且将过滤的读段针对宿主参考数据库进行比对以去除宿主背景。使用MIRA(v 4.0；(Chevreux等1999))或SOAPdenovo2(v 2.04：(Luo等2012))组装器从头组装扣除宿主的读段，并且使用MegaBlast针对基因库核苷酸数据库对重叠群和特有的单例进行同源性搜索；针对病毒基因库蛋白质数据库通过Blastx筛选在核苷酸层面显示不良同源性或不显示同源性的序列。针对整个基因库蛋白质数据库对来自Blastx分析的病毒序列进行另一轮Blastx同源性搜索以校正偏差e-值和分类错误分配。基于针对不同病毒株鉴定的重叠群，下载基因库序列并且用于定位整个数据集以回收部分或完整基因组。由计算定位至重叠群序列和未组装的单例的读段的数目获得病毒读段数目并且相对于所获得的总读段数目计算百分比。使用MultiExperiment观察器(MeV v4.9，(Saeed等2003))将百分比转化成热图。

实施例2-探针设计策略

目标是为靶向可感染动物，包括人的所有已知病毒。为此，选择寡核苷酸来代表含有已知感染脊椎动物的至少一种病毒的所有病毒分类群；将排他地包括感染植物或昆虫的病毒的病毒家族排除在外(表1)。编码序列是从EMBL编码结构域序列数据库提取，以96％序列同一性群集并且用以选择沿各序列由约25至50个核苷酸(nt)隔开的100聚体寡核苷酸。为处理序列变异，如果序列趋异度超过10％，那么将寡核苷酸突变体或变体序列保留。在寡核苷酸合成中技术复杂性因T_m或均聚物重复单元而具挑战性的情况下，通过缩短和调整起始/停止位置来对探针序列进行精制。最终文库包含1,993,176个寡核苷酸，长度在50至100nt范围内，平均长度为74.3并且中值长度为74，T_m在58.7℃至101℃范围内，平均T_m为79.69℃并且中值T_m为79.1℃。

对所选探针文库进行计算机模拟评估以确定其是否提供所靶向病毒序列的均匀覆盖。所述分析表明探针数目与可获得的序列信息的量成比例，当假设各探针‘超出’任一侧约100nt时，产生88-98％的估计靶序列覆盖率(表2)。使用90％的最小nt同一性针对具有代表双链/单链DNA和RNA、正/负RNA、圆形、线性以及区段化病毒的100个参考病毒基因组序列的数据库对探针文库进行定位。探针文库以按<150nt的间隔隔开的探针覆盖所靶向的基因组序列(图1)，但不提供非编码区(例如脊髓灰质炎病毒5’-UTR，图1A)的覆盖。最高探针覆盖率明显在趋异基因组区(例如黄热病毒的E基因区；约在位置1000-2500，图1B)中。计算机模拟分析表明VirCapSeq-VERT探针文库包括选择性杂交至脊椎动物病毒的基因组但不杂交至噬菌体、植物或真菌病毒的基因组的寡核苷酸。

表1-选择用于VirCapSeq-VERT探针设计的病毒分类群

表2-所选分类群的探针覆盖率

实施例3-效率的实验评估

向人肺组织或全血的核酸(NA)提取物中掺加变化量的代表大和小、正链和负链、区段化以及非区段化以及DNA和RNA病毒的NA(表3)。将掺加的肺(汇集物1)和血液(汇集物2)NA制剂分成多份并且使用标准Illumina HTS方案或VirCapSeq-VERT系统平行加工，借此通过正向选择富集病毒序列。在Illumina HiSeq 2500测序仪上对每一份制剂进行测序，每一样品加载2个通道。VirCapSeq-VERT产生中靶(病毒)读段的100至1,000倍增加并且在肺中宿主背景读段从99.7％减少至68.2％，而在血液中则从99.4％减少至38.5％(图2)。平均覆盖率也显著增加，所有病毒均获得几乎全长序列(>95％)(表4)。图3示出了西尼罗河病毒(WNV)、卡奇谷病毒(CVV)以及中东呼吸道综合征冠状病毒(MERS-CoV)的序列回收率的所选实例。

为确定病毒序列的检测阈值，使用含有不同量的WNV和单纯疱疹病毒1(HHV-1)NA的来自肺组织匀浆和EDTA-血液的NA。两种病毒在50ng血液NA中100个病毒拷贝或100ng肺NA中1,000个病毒拷贝的输入水平下均实现几乎完全基因组回收(>90％)(图4)。外推到临床样品，这些值对应于每毫升含有约1,200个拷贝的血液试样或每毫克含有约16,000个拷贝的组织试样，假设100％提取率(表5)。甚至在所测试的最低病毒输入水平下，对应于每毫升血液约100个拷贝的每50ng背景NA 10个病毒拷贝，VirCapSeq-VERT也能回收45kb(29％)的HHV-1和0.75kb(7％)的WNV基因组序列。对掺加有活肠道病毒D68(EV-D68)病毒储备液的人血液和血清样品(1ml)进行测试。VirCapSeq-VERT能够在两种样品类型中在10个拷贝/ml的浓度下(图5)进行检测，这类似于实时PCR的灵敏性(表6)。

表3-使用定量的病毒核酸来掺加到肺和血液宿主核酸中进行的VirCapSeq-Vert效率评估

a通过用于序列文库构建的双链cDNA/DNA的qPCR来测定。

b FLUAV，A型流感病毒H3N2；MERS-CoV，中东呼吸道综合征冠状病毒；EV-D68，肠道病毒D68；DENV-3，登革热病毒3；WNV，西尼罗河病毒；EBOV，埃博拉病毒；CVV，卡奇谷病毒；HHV-1，单纯疱疹病毒1。

表4-VirCapSeq-VERT提供比HTS更大的基因组覆盖率和测序深度

^a通过用于序列文库构建的双链-cDNA/DNA的qPCR来测定。

^b对于汇集物组成参见表3。

表5-使用核酸提取物通过VirCapSEq-VERT实现的检测限评估

*通过qPCR对病毒核酸拷贝进行定量并且添加至用于测序文库构建的50纳克血液或100纳克肺产生的背景核酸中

#假设100％提取产率

$将所有6个样品一起捕获杂交(使用不同的条形码)/将每个样品个别捕获杂交

表6-使用活肠道病毒D68通过VirCapSeq-VERT实现的检测限评估

实施例4-与其他富集方案比较

对掺加有活EV-D68、HHV-1以及A型流感病毒(FLUAV)储备液的人血液样品的分析表明，相较于在个别地或以组合形式用DNA酶提取和RiboZero rRNA消耗之后处理，并且然后通过标准HTS加工的样品，VirCapSeq-VERT使得定位读段计数增加高达10,000倍。对于大多数病毒，甚至在少于1,000个拷贝的靶标输入情况下，VirCapSeq-VERT也产生几乎完全基因组回收(表7)。

临床试样包括含有EV-D68的人鼻拭子样品，所述样品被分成三个等分试样，将所述三个等分试样用以下各项进行处理：(i)过滤和核酸酶消化，然后提取和标准HTS，(ii)过滤和核酸酶消化，然后提取和VirCapSeq-VERT，或(iii)在提取和VirCapSeq-VERT之前无处理。在不进行事先处理的情况下VirCapSeq-VERT实现最高序列回收率和深度(表8)。

由于粪便材料对于病毒组分析来说常常具挑战性，测试了已知含有轮状病毒序列的来自蝙蝠的粪便球粒样品。将样品分成四个等分试样并且用以下各项处理：(i)过滤和核酸酶消化，然后提取，随后标准HTS，(ii)过滤和核酸酶消化，然后提取，随后在提取和标准HTS之后进行DNA酶消化，(iii)过滤和核酸酶消化，然后提取和VirCapSeq-VERT，或(iv)在提取之前VirCapSeq-VERT之前无处理。VirCapSeq-VERT再次产生最高定位读段计数(表9)。

VirCapSeq-VERT对相关靶标的特异性与通过常规HTS获得的结果相比是显而易见的。尽管通过常规HTS发现的高达36％的病毒读段代表感染昆虫的双顺反子病毒，但是根据VirCapSeq-VERT这些读段降至15％。在常规HTS中仅检测到低水平的脊椎动物轮状病毒、冠状病毒、星状病毒以及圆环病毒序列，根据VirCapSeq-VERT增加约10倍(图6)。

由于存在于蝙蝠样品中的轮状病毒的精确序列为未知的，使用通过从头组装获得的重叠群来鉴定各区段的最接近的基因库匹配。表9表明对于与用于VirCapSeq-VERT探针设计的已知序列不同高达25％的序列获得了几乎完全序列。甚至对于与已知序列不同高达50％的序列也获得了保守区中的部分序列(NSP1和NSP4，表10)。

表7-与常规富集程序相比的VirCapSeq-VERT性能

^a向人血液中掺加来源于组织培养物的活病毒储备液以产生每250ng提取的血液NA约10⁴个拷贝的单纯疱疹病毒1(HHV-1)、A型流感病毒(FLUAV)以及肠道病毒D68(EV-D68)。将样品分成相等的等分试样以用所指示的处理进行加工，然后进行室温反应并且进行常规序列文库制备或VirCapSeq-VERT。

^b通过用于序列文库构建的双链cDNA/DNA的qPCR来测定。

^c HHV-1检测因DNA酶而受损。

^d校正至10,000,000个总读段。

^e在血液背景中使用额外的样品稀释来制备。

表8-在鼻拭子中使用VirCapSEQ-VERT或用于病毒模板富集的其他方法进行肠道病毒D68(EV-D68)检测和基因组测序的效率

表9-在蝙蝠粪便中使用VirCapSEQ-VERT或用于病毒模板富集的其他方法进行轮状病毒检测和基因组测序的效率

表10-VirCapSeq-VERT检测趋异序列的能力

实施例5-新颖序列的检测

为进一步测试VirCapSeq-VERT检测新颖病毒序列的能力，使用来自实验感染啮齿动物丙型肝炎病毒分离株RHVpl-01的鹿鼠的肝脏匀浆的提取物。此分离株的完整基因组序列与用以设计VirCapSeq-VERT探针的序列具有不到65％的总体nt序列同一性。尽管如此，VirCapSeq-VERT在编码解旋酶和聚合酶基因的保守区中选择性富集RHVpl-01序列，其中生物信息学分析显示在VirCapSeq-VERT探针汇集物中存在具有高达90％nt同一性的探针。因此，从轮状病毒和丙型肝炎病毒实验推断出VirCapSeq-VERT可通过杂交至较大基因组片段内的短保守序列基序来检测新颖病毒。

实施例6-样品多重分析

在评估VirCapSeq-VERT的检测限(LoD)期间，样品为在杂交捕获期间个别或一起加工的样品。使用个别加工的样品获得的结果为优良的(表5)。此发现表明，对探针群体的竞争可能会损害在患者样品可能具有广泛趋异的病毒负荷的诊断环境中的应用。在使用21个条形码文库的分析中研究了此潜在困扰的实际影响，这21个条形码文库代表以从10²变化至10⁸的基因组负荷含有七种不同病毒的样品。一个集合代表各自在每个文库约10⁴个基因组拷贝的浓度下的七种不同病毒。为模拟在一些临床样品中预期的竞争，第二个集合含有10⁴个拷贝的相同的七个文库与用10²和10⁵-10⁸个拷贝的七种病毒制备的额外的14个文库的组合。甚至在目标浓度变化高达10⁴的样品情况下在多重分析中病毒检测也未受损(表11)；然而，与21重分析中相比在7重分析中基因组覆盖率典型地更高。

为测定VirCapSeq-VERT在病毒组多样性和动力学的表征中的功效，使用从多次输血的血友病患者收集的已知含有C型肝炎病毒(HCV)、GB病毒C(GBV-C)、人免疫缺陷病毒(HIV)以及细环病毒(TTV)的23个血清样品的集合。使用独特的条形码扩增样品并且产生用于VirCapSeq-VERT的两个汇集物。汇集物-1含有9个样品。汇集物-2含有相同的9个样品与剩余14个样品的混合物。9重以及23重样品汇集物中的所有病毒得到高效表征(图7)。

表11-VirCapSeq-VERT多重分析中的基因组定位和覆盖率

^a使用qPCR定量的代表七种不同病毒的核酸提取物以约10⁴个拷贝/100ng、10²个拷贝/100ng以及10⁵至10⁸个拷贝/100ng的水平掺加到人血液核酸背景中。使用用于条形码化的21种不同索引来制备个别序列文库。将文库混合用于捕获杂交至7重混合物(由10⁴负荷制备的文库)和完整21重混合物中。

参考文献

Alva et al.(2016)The MPI bioinformatics Toolkit as an integrativeplatform for advanced protein sequence and structure analysis.Nucleic AcidsResearch.pii：gkw348.PMID：27131380)，

Bent et al.2013.Enriching pathogen transcripts from infected samples：a capture-based approach to enhanced host-pathogen RNA sequencing.AnalBiochem 438：90-96.

Briese et al.2005.Diagnostic system for rapid and sensitivedifferential detection of pathogens.Emerg Infect Dis 11：310-313.

Brown et al.2014.Seven strains of enterovirus D68 detected in theUnited States during the 2014 severe respiratory disease outbreak.GenomeAnnounc 2：e01201-14.

Chevreux et al.1999.Genome sequence assembly using trace signals andadditional sequence information.Comput Sci Bio199：45-56.

Clark et al.2015.Quantitative gene profiling of long noncoding RNAswith targeted RNA sequencing.Nature Methods 12：339-342.

Depledge et al.2011.Specific capture and whole-genome sequencing ofviruses from clinical samples.PLoS One 6：e27805.

Drexler et al.2014.Robustness against serum neutralization of apoliovirus type 1 from a lethal epidemic of poliomyelitis in the Republic ofCongo in 2010.Proc Natl Acad Sci U S A 111：12889-12894.

Edgar 2010 Search and clustering orders of magnitude faster thanBLAST，Bioinformatics 26(19)：2460-2461.

Finn et al.2011 HMMER Web Server：Interactive Sequence SimilaritySearching.Nucleic Acids Research 39：W29-37.

Guillot et al.1994.Point mutations involved in the attenuation/neurovirulence alternation in type 1and 2 oral polio vaccine strains detectedby site-specific polymerase chain reaction.Vaccine 12：503-507.

Kapoor and Lipkin 2001.Virus discovery in the 21st century.IneLS.John Wiley&Sons，New York，NY.

Kapoor et al.2013.Identification of rodent homologs of hepatitis Cvirus and pegiviruses.mBio 4：e00216-13.

Li and Godzik 2006.Cd-hit：a fast program for clustering and comparinglarge sets of protein or nucleotide sequences.Bioinformatics 22：1658-1659.

Li et al.，1000 Genome Project Data Processing Subgroup.2009.TheSequence Alignment/Map format and SAMtools.Bioinformatics 25：2078-2079.

Luo et al.2012.SOAPdenovo2：an empirically improved memory-efficientshort-read de novo assembler.Gigascience 1：18.10.1186/2047-217X-1-18.

Mercer et al.2014.Targeted sequencing for gene discovery andquantification using RNA CaptureSeq.Nature Protocols 9：989-1009.

Mullis and Faloona 1987.Specific synthesis of DNA in vitro via apolymerase-catalyzed chain reaction.Methods Enzymology 155：335-350.

Palacios et al.2007.Panmicrobial oligonucleotide array for diagnosisof infectious diseases.Emerg Infect Dis 13：73-81.

Robinson et al.2011.Integrative genomics viewer.Nat Biotechnol 29：24-26.

Saeed et al.2003.TM4：a free，open-source system for microarray datamanagement and analysis.Biotechniques 34：374-378.

Schmieder and Edwards 2011.Quality control and preprocessing ofmetagenomic datasets.BioInformatics 27：863-864.

Tokarz et al.2012.Worldwide emergence of multiple clades ofenterovirus 68.J Gen Virol 93：1952-1958.

UniProt Consortium 2015 UniProt：a Hub for protein information.NucleicAcids Research 43：D204-D212.

Wang et al.2002.Microarray-based detection and genotyping of viralpathogens.Proc Natl Acad Sci U S A 99：15687-15692.

Claims

1.一种设计和/或构建病毒组捕获测序平台的方法，所述病毒组捕获测序平台包含用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的寡核苷酸，所述方法包括：

a.获得表1中所列病毒分类群中的每一种中的至少一种病毒的基因组的核苷酸序列；

b.从步骤a中获得的所述核苷酸序列提取编码序列，其中选择以80％同一性群集的编码序列进行提取；以及

c.将所述编码序列分解成片段，其中所述片段的长度为50至100个核苷酸，具有约90％序列同一性，并且以特定间隔平铺在所述编码序列上，以获得序列信息，从而设计选择性杂交至感染或疑似感染脊椎动物的所有病毒的基因组的寡核苷酸。

2.如权利要求1所述的方法，其中调整所述片段的长度，使得所有所述片段的解链温度在约不大于75℃范围内。

3.如权利要求1所述的方法，其中调整所述片段的长度，使得所有所述片段的解链温度在约不大于50℃范围内。

4.如权利要求1所述的方法，其中所述片段在所述编码序列上平铺的所述间隔的长度为25至50个核苷酸。

5.如权利要求1所述的方法，其中平台呈寡核苷酸文库的形式。

6.如权利要求1所述的方法，所述方法包括合成在步骤c中获得序列信息的所述寡核苷酸的另一步骤。

7.如权利要求1所述的方法，其中所述寡核苷酸是选自由以下各项组成的组：DNA、RNA、桥联核酸、锁核酸以及肽核酸。

8.如权利要求6所述的方法，其中所述寡核苷酸是在可裂解微阵列上合成。

9.如权利要求6所述的方法，其中对所述寡核苷酸进行修饰以包含用于结合于固体载体的组合物，所述固体载体是选自由以下各项组成的组：生物素、地高辛、配体、小有机分子、小无机分子、适体、抗原、抗体以及底物。

10.如权利要求1所述的方法，其中所述平台呈数据库形式，所述数据库包含在步骤c中获得序列信息的各寡核苷酸的序列信息、长度、解链温度以及病毒来源。

11.如权利要求1所述的方法，其中选择以约90％同一性群集的编码序列进行提取。

12.如权利要求1所述的方法，其中选择以约96％同一性群集的编码序列进行提取。

13.一种用于同时检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的病毒组捕获测序平台，所述平台通过如权利要求1所述的方法来构建。

14.如权利要求13所述的病毒组捕获测序平台，其呈寡核苷酸文库的形式。

15.如权利要求14所述的寡核苷酸文库，其中所述寡核苷酸连接至生物素并且结合于可裂解阵列。

16.如权利要求13所述的病毒组捕获测序平台，其呈包含各寡核苷酸的序列信息和病毒来源的数据库的形式。

17.一种构建用于样品的高通量测序的测序文库的方法，所述方法包括：

a.从所述样品分离核酸；以及

b.使所述核酸与如权利要求14所述的寡核苷酸文库的寡核苷酸接触，其中如果所述样品中的所述核酸包含来自已知或疑似感染脊椎动物的病毒的核酸，那么将形成所述样品中的所述核酸与所述寡核苷酸之间的杂交产物。

18.如权利要求17所述的方法，所述方法进一步包括扩增步骤b中获得的任何杂交产物。

19.如权利要求17所述的方法，其中来自所述样品的所述核酸包含衔接子。

20.如权利要求17所述的方法，其中所述寡核苷酸结合于生物素。

21.如权利要求17所述的方法，其中所述寡核苷酸结合于可裂解阵列。

22.如权利要求17所述的方法，其中所述样品是选自由以下各项组成的组：生物样品、环境样品以及食物样品。

23.如权利要求22所述的方法，其中所述生物样品是选自由以下各项组成的组：鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液、腹膜液、粪便、组织、细胞、细胞培养物以及细胞培养基。

24.如权利要求17所述的方法，其中所述样品是来自脊椎动物受试者。

25.如权利要求24所述的方法，其中所述脊椎动物受试者为人。

26.一种用于检测、鉴定和/或表征已知或疑似感染脊椎动物的所有病毒的系统，所述系统包括如权利要求13所述的病毒组捕获测序平台和至少一个其他子系统。

27.如权利要求26所述的系统，其中所述其他子系统是选自由用于以下用途的子系统组成的组：从样品分离和制备核酸；使来自所述样品的所述核酸与所述病毒组捕获测序平台的所述寡核苷酸杂交以形成杂交产物；扩增所述杂交产物；以及对所述杂交产物进行测序。

28.一种同时检测样品中已知或疑似感染脊椎动物的所有病毒的存在的方法，所述方法包括：

a.从所述样品分离核酸；

b.使所述核酸与如权利要求13所述的病毒组捕获测序平台的寡核苷酸接触以形成杂交产物；

c.检测来自所述样品的所述核酸与所述寡核苷酸之间的杂交产物；

其中与来源于特定病毒的寡核苷酸的所述杂交产物的存在指示所述样品中存在所述病毒。

29.如权利要求28所述的方法，其中所述样品是选自由以下各项组成的组：生物样品、环境样品以及食物样品。

30.如权利要求29所述的方法，其中所述生物样品是选自由以下各项组成的组：鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液、腹膜液、粪便、组织、细胞、细胞培养物以及细胞培养基。

31.如权利要求28所述的方法，其中所述样品是来自脊椎动物受试者。

32.如权利要求31所述的方法，其中所述脊椎动物受试者为人。

33.如权利要求28所述的方法，其中所述样品为在输血之前进行测试的血液。

34.如权利要求28所述的方法，其中所述样品是选自由以下各项组成的组：细胞、细胞培养物、细胞培养基以及用于开发药物和治疗剂的其他组合物。

35.如权利要求28所述的方法，其中所述病毒组捕获测序平台为寡核苷酸文库。

36.一种鉴定样品中的生物样品中的新颖病毒的方法，所述方法包括：

a.从所述样品分离核酸；

c.对来自所述样品的所述核酸与所述寡核苷酸之间的任何杂交产物进行检测和测序；

d.将所述杂交产物的核苷酸序列与已知病毒的核苷酸序列进行比较，以及

e.如果所述杂交产物的所述序列与已知病毒的序列之间不存在同一性，那么确定所述病毒为新颖的。

37.如权利要求36所述的方法，其中所述样品是选自由以下各项组成的组：生物样品、环境样品以及食物样品。

38.如权利要求37所述的方法，其中所述生物样品是选自由以下各项组成的组：鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液、腹膜液、粪便、组织、细胞、细胞培养物以及细胞培养基。

39.如权利要求36所述的方法，其中所述样品是来自脊椎动物受试者。

40.如权利要求39所述的方法，其中所述脊椎动物受试者为人。

41.如权利要求36所述的方法，其中所述样品为在输血之前进行测试的血液。

42.如权利要求36所述的方法，其中所述样品是选自由以下各项组成的组：细胞、细胞培养物、细胞培养基以及用于开发药物和治疗剂的其他组合物。

43.如权利要求36所述的方法，所述方法进一步包括扩增步骤b中形成的所述杂交产物的步骤。

44.如权利要求36所述的方法，其中所述病毒组捕获测序平台为寡核苷酸文库。

45.一种同时鉴定和表征样品中的感染脊椎动物的所有病毒的方法，所述方法包括；

a.从所述样品分离核酸，

b.使所述核酸与如权利要求13所述的病毒组捕获测序平台的所述寡核苷酸接触以形成杂交产物；

e.通过所述杂交产物的所述序列与已知病毒的序列之间的同一性来鉴定和表征所述病毒。

46.如权利要求45所述的方法，其中所述样品是选自由以下各项组成的组：生物样品、环境样品以及食物样品。

47.如权利要求46所述的方法，其中所述生物样品是选自由以下各项组成的组：鼻咽吸出物、血液、脑脊髓液、唾液、血清、尿液、痰、支气管灌洗液、心包液、腹膜液、粪便、组织、细胞、细胞培养物以及细胞培养基。

48.如权利要求45所述的方法，其中所述样品是来自脊椎动物受试者。

49.如权利要求48所述的方法，其中所述脊椎动物受试者为人。

50.如权利要求45所述的方法，其中所述样品为在输血之前进行测试的血液。

51.如权利要求45所述的方法，其中所述样品是选自由以下各项组成的组：细胞、细胞培养物、细胞培养基以及用于开发药物和治疗剂的其他组合物。

52.如权利要求45所述的方法，所述方法进一步包括扩增步骤b中形成的所述杂交产物的步骤。

53.如权利要求45所述的方法，其中所述病毒组捕获测序平台为寡核苷酸文库。

54.一种用于检测、鉴定以及表征感染或疑似感染脊椎动物的所有病毒的试剂盒，所述试剂盒包括如权利要求13所述的病毒组捕获测序文库。

55.如权利要求54所述的试剂盒，其中所述病毒组捕获测序平台为寡核苷酸文库。

56.如权利要求54所述的试剂盒，其中所述寡核苷酸文库呈可裂解阵列形式。

57.如权利要求54所述的试剂盒，其进一步包括至少一种选自由以下各项组成的组的额外组件：用于从样品分离核酸的试剂、用于检测杂交产物、扩增杂交产物、对杂交产物进行测序的试剂以及使用说明书。

58.一种用于设计和/或构建如权利要求13所述的病毒组捕获测序平台的试剂盒，所述试剂盒包括如下分析工具，所述分析工具用于选择病毒序列信息以及将所述编码序列分解成寡核苷酸的片段，所述片段具有对于所述平台来说适当的参数，包括适当的长度、解链温度、GC分布、所述编码序列上的所述寡核苷酸之间间隔的距离以及序列同一性百分比。

59.如权利要求58所述的试剂盒，其进一步包括关于数据库和编码序列选择的说明书。

60.一种用于产生用于设计如权利要求13所述的病毒组捕获测序平台的设计模型的系统，所述系统包括第一分析工具，所述第一分析工具用于确定来自表1的病毒与来自数据库的序列数据之间的相关性；以及第二分析工具，所述第二分析工具用于将从所述数据库获得的所述序列数据的所述编码序列片段化，所述序列数据包括寡核苷酸的特征，所述特征是选自由以下各项组成的组：长度、解链温度、GC分布、所述编码序列上的所述寡核苷酸之间间隔的距离、序列同一性百分比以及其组合。

61.如权利要求60所述的系统，其中所述分析工具为模块。

62.如权利要求60所述的系统，其中所述寡核苷酸的所述特征为长度为约50至100个核苷酸，解链温度在约不大于约75℃范围内，在编码序列上以约25至50个核苷酸的间隔隔开，以及约90％序列同一性。