CN109790577A

CN109790577A - 从核酸测序制备物除去衔接子二聚体的方法

Info

Publication number: CN109790577A
Application number: CN201780060758.6A
Authority: CN
Inventors: R.W.戴维斯; A.比比罗
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2016-08-01
Filing date: 2017-07-31
Publication date: 2019-05-21
Anticipated expiration: 2037-07-31
Also published as: EP3491147A1; US11519026B2; CN109790577B; ES2812261T3; JP7096812B2; WO2018024671A1; US20190161794A1; EP3491147B1; US20230074210A1; JP2019523010A

Abstract

提供了制备用于测序的多核苷酸的测序衔接子和方法。所述测序衔接子包含甲基依赖性内切核酸酶的识别序列的一部分。在衔接子与靶多核苷酸连接期间形成的不需要的衔接子二聚体产生完整的限制序列并被内切核酸酶切割，然后进行外切核酸酶消化，从而除去所述二聚体。

Description

从核酸测序制备物除去衔接子二聚体的方法

发明领域

本发明涉及用于从核酸测序样品制备混合物除去不需要的衔接子二聚体的方法和组合物。

背景

大多数DNA测序技术依赖于特异性DNA衔接子与样品DNA片段末端的连接，以创建聚合酶引物位点、添加样品捕获位点、将样品“条码化”，以及向样品添加校准位点，以及许多可能的用途。将衔接子核酸连接至待测序的DNA样品的每个末端。衔接子连接的DNA片段的创建通常包括相互连接的衔接子，形成不需要的“衔接子二聚体”。

目前，通过小片段清除步骤除去衔接子二聚体，例如使用磁珠捕获大的多核苷酸片段并与小片段分离。这种方法不是基于序列的，并且因此是非特异性和低效的。如果样品是环化的，则可以通过用外切核酸酶处理使非环化的衔接子从其暴露的末端解聚。特别地，从一组近似或相似大小的DNA样品片段中去除环化的衔接子二聚体是特别困难的。清除步骤没有基于尺寸有效地除去二聚体或花费相当长的时间。此外，环状衔接子不能被外切核酸酶解聚，因为它们没有暴露的末端。

需要更有效和特异的方法来除去不需要的衔接子二聚体。

发明内容

提供了用于多核苷酸测序的衔接子以及将其用于测序方法的方法和试剂盒。本文所述的衔接子和方法可用于产生用于测序的多核苷酸样品，其没有衔接子二聚体或具有极低水平的衔接子二聚体，否则所述衔接子二聚体会干扰多核苷酸测序方法或降低多核苷酸测序方法的效率。

一方面，提供了制备用于测序的靶DNA双链体的方法。在本文公开的方法中，衔接子包含甲基依赖性内切核酸酶识别序列的一部分，当其在衔接子二聚体中共价连接时，将形成完整的识别序列并将被内切核酸酶消化。通过甲基依赖性内切核酸酶消化，然后通过外切核酸酶消化，来除去衔接子二聚体。与用于测序的靶多核苷酸连接的衔接子对内切核酸酶和外切核酸酶的消化不敏感，并且因此仅从样品中除去不需要的衔接子二聚体。

在一个实施方案中，所述方法包括：(a)将多个测序衔接子的双链多核苷酸双链体区共价连接至多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在靶DNA双链体的每个末端的测序衔接子，其中每个衔接子的双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列；(b)如果有任何衔接子二聚体，通过用甲基依赖性内切核酸酶消化，然后用一种或多种外切核酸酶消化，来除去所述衔接子二聚体。

在另一个实施方案中，所述方法包括：(a)提供多个测序衔接子，其中每个所述衔接子包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列；(b)将所述测序衔接子的双链体区共价连接至多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在靶DNA双链体的每个末端的测序衔接子；(c)如果有任何衔接子二聚体，通过用甲基依赖性内切核酸酶消化，然后用一种或多种外切核酸酶消化，来除去所述衔接子二聚体。

衔接子可以包含单链发夹区或可以是线性的。在一个实施方案中，每个所述衔接子包含单链多核苷酸发夹区和双链多核苷酸双链体区。在另一个实施方案中，每个衔接子是包含第一和第二多核苷酸链的线性多核苷酸，其中每个衔接子包含双链多核苷酸双链体区和3'突出端区，其中第一链包含3'突出端区并在3'末端或在3'末端附近包含对外切核酸酶消化具有抗性的修饰核苷酸(例如，硫代核苷酸)，并且作为多核苷酸双链体的一部分的第二链在5'末端或5'末端附近包含对外切核酸酶消化具有抗性的修饰核苷酸(例如，硫代核苷酸)。

在一些实施方案中，每个衔接子中的双链多核苷酸双链体区包含具有5'末端的第一链，其杂交至具有3'末端的第二链，其中所述第一链包含位于5'末端的序列GG，其杂交至位于第二链3'末端的序列C_MeC。甲基依赖性内切核酸酶可以是例如MspI或MspII，其中衔接子二聚体包含识别序列CC_MeGG。

在一些实施方案中，每个衔接子中的双链多核苷酸双链体区包含具有5'末端的第一链，其杂交至具有3'末端的第二链，其中所述第一链包含位于5'末端的序列TC，其杂交至位于3'末端的序列GA_Me。甲基依赖性内切核酸酶可以是例如DpnI或DpnII，其中衔接子二聚体包含识别序列GA_MeTC。

在一些实施方案中，用于消化切割的衔接子二聚体的外切核酸酶包括外切核酸酶VII，外切核酸酶III和/或T5外切核酸酶。在一些实施方案中，使用外切核酸酶III和外切核酸酶VII。在一些实施方案中，使用外切核酸酶III和T5外切核酸酶。

在一些实施方案中，使用连接酶将测序衔接子的双链多核苷酸双链体区共价连接至平端靶DNA双链体的第一和第二末端。

在各种实施方案中，靶DNA双链体可包括扩增的靶多核苷酸，基因组DNA的未扩增片段，用未甲基化的核苷酸合成的基因组DNA片段的拷贝，和/或从RNA片段转录的cDNA。在各种实施方案中，靶DNA双链体可以源自生物流体或组织样品和/或源自一种或多种微生物。

在另一方面，提供了制备用于测序的多核苷酸样品的方法，所述方法包括根据本文所述的方法，将测序衔接子共价连接至待测序的靶DNA双链体，并且其中所得的用于测序的多核苷酸样品包含少于约1％的衔接子二聚体。

另一方面，提供了制备用于测序的多核苷酸样品的方法，所述方法包括根据本文所述的方法，将测序衔接子共价连接至待测序的靶DNA双链体，包括使引物与共价连接的衔接子上的引物结合序列杂交，并用DNA聚合酶延伸引物，从而制备用于测序的引物延伸产物。例如，可以延伸引物以产生靶DNA双链体的一条链的互补拷贝，其中所述拷贝在其由聚合酶合成时被测序。在一个实施方案中，所述引物结合序列位于衔接子的单链发夹区中。在另一个实施方案中，所述引物结合序列位于衔接子的3'单链突出端区中。

另一方面，提供了用于多核苷酸测序的衔接子。所述衔接子包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，并且其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列。

在一个实施方案中，所述衔接子包含单链多核苷酸发夹区和双链多核苷酸双链体区，任选地包含发夹区中的引物结合位点。

在一个实施方案中，所述衔接子是包含第一和第二多核苷酸链的线性多核苷酸，其中所述衔接子包含双链多核苷酸双链体区和3'突出端区，其中第一链包含3'突出端区并在3'末端或3'末端附近包含对外切核酸酶消化具有抗性的修饰(例如，硫代)核苷酸，且作为多核苷酸双链体的一部分的第二链在5'末端或5'末端附近包含对外切核酸酶消化具有抗性的修饰(例如，硫代)核苷酸。

在一个实施方案中，所述衔接子中的双链多核苷酸双链体包含具有5'末端的第一链，其杂交至具有3'末端的第二链，其中所述第一链包含位于5’末端的序列GG，其杂交至位于第二链3'末端的序列C_MeC。

在一个实施方案中，所述衔接子中的双链多核苷酸双链体包含具有5'末端的第一链，其杂交至具有3'末端的第二链，其中所述第一链包含位于5'末端的序列TC，其杂交至位于3'末端的序列GA_Me。

在另一方面，提供了用于测序多核苷酸的方法，所述方法包括测序包含多个衔接子连接的DNA双链体的多核苷酸样品，所述衔接子连接的DNA双链体具有共价连接在靶DNA双链体的每个末端的如本文所述的测序衔接子，其中所述多核苷酸样品包含少于约1％的衔接子二聚体。

在另一方面，提供了用于测序的多核苷酸样品，所述样品包含多个衔接子连接的DNA双链体，其具有共价连接在靶DNA双链体的每个末端的如本文所述的测序衔接子，其中所述多核苷酸样品包含少于约1％的衔接子二聚体。

在另一方面，提供了用于多核苷酸测序的试剂盒。在一些实施方案中，所述试剂盒包含：(a)如本文所述的多个测序衔接子；和(b)制备如本文所述的用于测序的靶DNA双链体的说明书。在一些实施方案中，所述试剂盒进一步包含(c)连接酶；(d)甲基依赖性内切核酸酶；(e)一种或多种外切核酸酶；和/或(f)一种或多种测序引物。

因此，本发明提供了制备用于测序的靶DNA双链体的方法，所述方法包括：

(a) 提供多个测序衔接子，其中每个所述衔接子包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列；

(b) 将所述测序衔接子的双链体区共价连接至多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在所述靶DNA双链体的每个末端的测序衔接子；和

(c) 如果有任何衔接子二聚体，通过用甲基依赖性内切核酸酶消化，然后用一种或多种外切核酸酶消化，来除去所述衔接子二聚体。

每个所述衔接子可包含单链多核苷酸发夹区和双链多核苷酸双链体区。每个所述衔接子可以是包含第一和第二多核苷酸链的线性多核苷酸，其中每个衔接子包含含有双链多核苷酸双链体区的第一末端和含有所述第一链的3'末端和所述第二链的5'末端的第二末端，其中第一链包含单链3'突出端区，其包含位于3'末端或3'末端附近的硫代核苷酸，且第二链包含位于5'末端或5'末端附近的硫代核苷酸。每个所述衔接子中的双链多核苷酸双链体区可包含含有5'末端的第一链，其杂交至含有3'末端的第二链，其中所述第一链包含位于5'末端的序列GG，其杂交至位于第二链3'末端的序列CCMe。在这种情况下，所述甲基依赖性内切核酸酶可以是MspI或MspII，其中衔接子二聚体包含识别序列CCMeGG。

每个所述衔接子中的双链多核苷酸双链体区可包含含有5'末端的第一链，其杂交至含有3’末端的第二链，其中所述第一链包含位于5’末端的序列TC，其杂交至位于3'末端的序列GAMe。如果是这种情况，所述甲基依赖性内切核酸酶可以是DpnI或DpnII，其中衔接子二聚体包含识别序列GAMeTC。

外切核酸酶可以是外切核酸酶VII，外切核酸酶III或T5外切核酸酶。共价连接可以用连接酶进行。

靶DNA可包含扩增的靶多核苷酸或基因组DNA的非扩增片段。此外，靶DNA可包含用未甲基化核苷酸合成的基因组DNA片段的拷贝或从RNA片段转录的cDNA。靶DNA可以源自生物流体或组织样品或源自一种或多种微生物。

本发明还提供了制备用于测序的多核苷酸样品的方法，包括将测序衔接子共价连接至待测序的靶DNA双链体，其中用于测序的多核苷酸样品根据上文公开的方法制备并包含少于约1％的衔接子二聚体。

本发明还提供了用于测序多核苷酸的方法，包括制备上文公开的用于测序的靶DNA双链体，其中每个衔接子的单链发夹区包含引物结合序列，并且其中所述方法进一步包括：

(d) 使引物与引物结合序列杂交并用DNA聚合酶延伸所述引物，从而制备用于测序的引物延伸产物。如果是这种情况，可以延伸引物以产生靶DNA双链体的一条链的互补拷贝，其中所述拷贝在其由聚合酶合成时被测序。

本发明还包括用于测序多核苷酸的方法，包括制备上文公开的用于测序的靶DNA双链体，其中单链3'突出端区包含引物结合序列，并且其中所述方法进一步包括：

另一方面，本发明提供了用于多核苷酸测序的衔接子，其包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列。所述衔接子可包含单链多核苷酸发夹区，和双链多核苷酸双链体区，所述单链多核苷酸发夹区可包含引物结合序列。所述衔接子也可以是包含第一和第二多核苷酸链的线性多核苷酸，其中所述衔接子包含含有双链多核苷酸双链体区的第一末端，和含有所述第一链的3'末端和所述第二链的5'末端的第二末端，其中第一链包含单链3'突出端区，其包含位于3'末端或3'末端附近的硫代核苷酸，且第二链包含位于5'末端或5'末端附近的硫代核苷酸。如果是这种情况，则第一链可以在单链3'突出端区上包含引物结合序列。

所述双链多核苷酸双链体也可包含含有5'末端的第一链，其杂交至含有3'末端的第二链，其中所述第一链包含位于5'末端的序列GG，其杂交至位于第二链3'末端的序列CCMe。所述双链多核苷酸双链体区也可包含含有5'末端的第一链，其杂交至含有3'末端的第二链，其中所述第一链包含位于5'末端的序列TC，其杂交至位于3'末端的序列GAme。

在仍另一方面，本发明提供了用于测序多核苷酸的方法，包括测序包含多个衔接子连接的DNA双链体的多核苷酸样品，所述衔接子连接的DNA双链体具有共价连接在靶DNA双链体的每个末端的根据权利要求23的测序衔接子，其中所述多核苷酸样品包含少于约1％的衔接子二聚体。

本发明还提供了用于测序的多核苷酸样品，其包含多个衔接子连接的DNA双链体，其具有共价连接在靶DNA双链体的每个末端的如上文公开的测序衔接子，并包含少于约1％的衔接子二聚体。

本发明还提供了用于多核苷酸测序试剂盒，其包含：

(a) 根据权利要求23的多个衔接子；和

(b) 制备用于测序的靶DNA双链体的说明书。

这种试剂盒可以进一步包含以下的一种或多种：

(c) 连接酶；

(d) 甲基依赖性内切核酸酶；

(e) 一种或多种外切核酸酶；和

(f) 一种或多种测序引物。

最后，本发明提供了制备用于测序的靶DNA双链体的方法，所述方法包括：

(a) 将多个测序衔接子的双链多核苷酸双链区共价连接至多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在靶DNA双链体的每个末端的测序衔接子，其中每个衔接子的双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成甲基依赖性内切核酸酶的完整识别序列；和

(b) 如果有任何衔接子二聚体，通过用甲基依赖性内切核酸酶消化，然后用一种或多种外切核酸酶消化，来除去所述衔接子二聚体。

每个所述衔接子可包含单链多核苷酸发夹区和双链多核苷酸双链体区。每个所述衔接子也可以是包含第一和第二多核苷酸链的线性多核苷酸，其中每个衔接子包含含有双链多核苷酸双链体区的第一末端，和含有所述第一链的3'末端和所述第二链的5'末端的第二末端，其中第一链包含单链3'突出端区，其包含位于3'末端或3'末端附近的硫代核苷酸，且第二链包含位于5'末端或5'末端附近的硫代核苷酸。

附图简述

图1显示了具有双链多核苷酸双链体区和单链发夹区的衔接子的实施方案。

图2显示了具有双链多核苷酸双链体区和3'突出端区的线性衔接子的实施方案。

图3显示了其中两个衔接子连接在一起形成衔接子二聚体的实施方案，所述衔接子二聚体包含甲基依赖性内切核酸酶的完整识别序列。

发明详述

提供了制备没有显著水平的不需要的衔接子双链体的用于测序的衔接子连接的DNA双链体的方法，其中所述衔接子双链体是通过衔接子的彼此连接而不是连接至靶DNA的末端而形成的。在本文所述的方法中，衔接子在其中的DNA双链体的末端含有独特的序列，其含有甲基化的核苷酸碱基。当衔接子连接在一起形成二聚体时，这些序列形成甲基依赖性限制性内切核酸酶的限制性位点，提供了从反应混合物中特异性除去衔接子二聚体的切割位点。连接至不含限制酶识别位点的剩余序列的靶DNA末端的衔接子不被切割并保持与靶连接以用于测序。

除非本文另有定义，否则本文使用的所有技术和科学术语都具有与本发明所属领域的普通技术人员通常理解的相同含义。Singleton等人，Dictionary of Microbiology and Molecular Biology，第二版，John Wiley and Sons, New York (1994)；和Hale &Markham, The Harper Collins Dictionary of Biology, Harper Perennial, NY(1991)为技术人员提供了本发明中使用的许多术语的通用字典。与本文描述的那些类似或等同的任何方法和材料可以用于本发明的实践或测试。

除非另有说明，本发明的实践将采用分子生物学(包括重组技术)、微生物学、细胞生物学和生物化学的常规技术，它们属于本领域的技能。这些技术在文献中得到充分解释，所述文献例如，Molecular Cloning: A Laboratory Manual，第二版(Sambrook等人1989)；Oligonucleotide Synthesis (M. J. Gait编辑，1984; Current Protocols in Molecular Biology (F. M. Ausubel等人编辑1994)；PCR: The Polymerase Chain Reaction (Mullis等人编辑，1994)；和Gene Transfer and Expression: A Laboratory Manual (Kriegler, 1990)。

本文提供的数值范围包括定义该范围的数字。

除非另有说明，分别地，核酸以5'至3'方向从左向右书写；氨基酸序列以氨基至羧基方向从左至右书写。

定义

除非上下文明确另有说明，“一个”、“一种”和“该”包含复数提及对象。

本文的术语“衔接子”是指连接至双链DNA分子的两条链的核酸。衔接子可以由彼此碱基配对(即互补)的两个不同寡核苷酸分子构成。或者，衔接子可以由包含一个或多个互补区和一个或多个非互补区的单个寡核苷酸构成。

如本文所用的术语“碱基对”或“bp”是指在双链DNA分子中腺嘌呤(A)与胸腺嘧啶(T)，或胞嘧啶(C)与鸟嘌呤(G)的配对关系(即氢键合配对)。在一些实施方案中，碱基对可包含与尿嘧啶(U)配对的A，例如，在DNA / RNA双链体中。

本文的术语“互补”是指在单个多核苷酸链的双链体区中或两个多核苷酸链之间，通过碱基配对在核苷酸对之间的序列互补性的广义概念。已知腺嘌呤核苷酸能够与胸腺嘧啶或尿嘧啶核苷酸形成特异性氢键(“碱基配对”)。类似地，已知胞嘧啶核苷酸能够与鸟嘌呤核苷酸碱基配对。“基本上互补”在本文中是指单个多核苷酸链的双链区中或两个多核苷酸链之间，例如，衔接子的多核苷酸链之间的序列互补性，其中所述互补性小于100％但大于90％，并且保持双链体区的稳定性，例如，在衔接子与靶DNA双链体共价连接的条件下。

术语“源自”涵盖术语“来源于”，“得自”，“可得自”，“分离自”和“产生自”，并且通常是指一种特定材料的来源于另一种指定材料或具有可以参考另一个指定材料描述的特征。

本文的术语“双链体”是指存在于两个多核苷酸序列之间的互补区域。

在提及核酸分子使用时，术语“第一末端”和“第二末端”在本文中是指线性核酸分子的末端。

“基因”是指参与产生多肽的DNA区段，并且包括编码区之前和之后的区域以及各个编码区段(外显子)之间的间插序列(内含子)。

在将核酸序列插入细胞的上下文中，术语“引入”包括“转染”，“转化”或“转导”，并且是指将核酸序列掺入真核或原核细胞中，其中核酸序列可以掺入细胞的基因组(例如，染色体，质粒，质体或线粒体DNA)，转化成自主复制子，或瞬时表达。

如本文所用，术语“分离的”，“纯化的”，“分开的”和“回收的”是指从与其天然相关的至少一种组分中移开的物质(例如，蛋白，核酸或细胞)，例如，其浓度为含有该物质的样品的至少90重量％，或至少95重量％，或至少98重量％。例如，这些术语可以指实质上或基本上不含在其天然状态(例如，如完整的生物系统)中发现的通常与其相伴的组分的材料。分离的核酸分子包括被包含在通常表达所述核酸分子的细胞中的核酸分子，但是所述核酸分子存在于染色体外或在不同于其天然染色体位置的染色体位置。

术语“文库”在本文中是指一组或多个模板分子，即靶DNA双链体，它们在其5'末端共享共有序列，并且在其3'末端共享共有序列。使用术语“文库”来指代一组或多个模板分子不应被视为暗示构成文库的模板源自特定来源，或者“文库”具有特定组成。例如，术语“文库”的使用不应被视为暗示文库内的各个模板必须具有不同的核苷酸序列或者模板必须在序列和/或来源方面相关。

“甲基依赖性内切核酸酶”是限制性内切核酸酶，其需要位于限制性位点的特异性甲基化碱基以切割双链DNA。

术语“突变”在本文中是指引入亲本序列中的变化，包括但不限于取代、插入、缺失(包括截短)。突变的后果包括但不限于产生在由亲本序列编码的蛋白中未发现的新特征、性质、功能、表型或性状。

术语“纳米孔”在本文中是指在膜中形成或以其它方式提供的孔、通道或通路。膜可以是有机膜，例如脂双层，或合成膜，例如由聚合物材料形成的膜。所述纳米孔可以被设置为邻近或接近传感电路或与传感电路偶联的电极(例如，如互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)。在某些实例中，纳米孔具有大约0.1 nm至约1000 nm的特征性宽度或直径。一些纳米孔是蛋白。OmpG是蛋白纳米孔的实例。

术语“下一代测序(NGS)”在本文中是指允许对克隆扩增的和单个核酸分子进行大规模平行测序的测序方法，在此期间对来自单个样品或来自多个不同样品的多个(例如数百万的)核酸片段一起进行测序。NGS的非限制性实例包括合成测序(sequencing-by-synthesis)，连接测序(sequencing-by-ligation)，实时测序和纳米孔测序。

术语“核苷酸”在本文中是指由糖部分(戊糖)、磷酸和含氮杂环碱基组成的DNA或RNA的单体单元。所述碱基通过糖苷碳(戊糖的1'碳)连接至糖部分，并且碱基和糖的该组合是核苷。当所述核苷含有键合至戊糖的3'或5'位置的磷酸基团时，它被称作核苷酸。聚合的可操作连接的核苷酸的序列在本文中通常称为“碱基序列”或“核苷酸序列”，或核酸或多核苷酸“链”，并且在本文中由其从左到右方向为5'末端至3'末端的常规方向的结构式表示，所述5'末端和3'末端分别是指在聚合的序列的“5'”和“3'”末端的末端5'磷酸基团和末端3'羟基。

术语“核苷酸类似物”在本文中是指核苷三磷酸的类似物，例如，常见核碱基：腺嘌呤，胞嘧啶，鸟嘌呤，尿嘧啶和胸苷的(S)-甘油核苷三磷酸(gNTP) (Horhota等人，OrganicLetters, 8:5345-5347 [2006])。还包括核苷四磷酸，核苷五磷酸和核苷六磷酸。“甲基化核苷酸”是通过添加甲基进行修饰的核苷酸(例如，3-甲基胞嘧啶，3-甲基腺嘌呤，N6-甲基腺嘌呤)。在本文中，使用核苷酸碱基的单字母名称后的下标字母“Me”(例如，C_Me)表示甲基化核苷酸。核苷酸类似物包括对外切核酸酶消化具有抗性的核苷酸，例如，硫代核苷酸。“硫代”核苷酸包含硫代磷酸酯(PS)键，其用硫原子取代寡核苷酸的磷酸主链中的非桥接氧。这种修饰使得核苷酸间的键对核酸酶降解具有抗性。可以在寡核苷酸的5'-或3'-末端的最后3-5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。

术语“可操作地连接”表示指定元件的并置或布置，所述并置或布置允许它们一起工作以产生效果。例如，如果启动子控制编码序列的转录，则其与所述编码序列可操作连接。

术语“聚合酶”在本文中是指催化核苷酸的聚合(即，聚合酶活性)的酶。术语聚合酶包括DNA聚合酶、RNA聚合酶和逆转录酶。“DNA聚合酶”催化脱氧核糖核苷酸的聚合。“RNA聚合酶”催化核糖核苷酸的聚合。“逆转录酶”催化与RNA模板互补的脱氧核糖核苷酸的聚合。

术语“多核苷酸”和“核酸”和“寡核苷酸”在本文中可互换使用，是指由共价键合在链中的核苷酸单体构成的聚合分子。DNA (脱氧核糖核酸)和RNA (核糖核酸)是多核苷酸的实例。如本文所用，术语多核苷酸是指任何长度和任何三维结构，以及单链或多链(例如，单链，双链，三螺旋等)的核苷酸的聚合形式，其包括脱氧核糖核苷酸，核糖核苷酸和/或脱氧核糖核苷酸或核糖核苷酸的类似物或修饰形式，包括修饰的核苷酸或碱基或其类似物。因为遗传密码是简并的，所以多于一种密码子可用于编码特定的氨基酸，并且本发明包括编码特定氨基酸序列的多核苷酸。可以使用任何类型的修饰的核苷酸或核苷酸类似物，只要该多核苷酸在使用条件下保留所需的功能，包括增加核酸酶抗性的修饰(例如，脱氧，2'-O-Me，硫代磷酸酯等)。为了检测或捕获的目的，还可以掺入标记物，例如放射性或非放射性标记物或锚，例如生物素。术语多核苷酸还包括肽核酸(PNA)。多核苷酸可以是天然存在的或非天然存在的。术语“多核苷酸”、“核酸”和“寡核苷酸”在本文中可互换使用。多核苷酸可包括RNA，DNA或两者，和/或其修饰形式和/或类似物。核苷酸的序列可被非核苷酸组分间断。一个或多个磷酸二酯键可被替代性连接基团置换。这些替代性连接基团包括但不限于其中磷酸酯被P(O)S(“硫代酸酯”)、P(S)S (“二硫代酸酯”)、(O)NR.sub.2 (“酰胺化物”)、P(O)R、P(O)OR'、CO或CH2 (“甲缩醛”)置换的实施方案，其中各R或R'独立地为H或取代或未取代的烷基(1-20 C)，其任选地含有醚(-O-)键，芳基、烯基、环烷基、环烯基或芳烷基(araldyl)。不是多核苷酸中的所有键都需要以及环状部分。

如本文所用，“多肽”是指由氨基酸组成，并且被本领域技术人员认为是蛋白的组合物。本文使用氨基酸残基的常规的单字母或三字母代码。术语“多肽”和“蛋白”在本文中可互换使用，是指任何长度的氨基酸的聚合物。所述聚合物可以是线性或支化的，其可包含修饰的氨基酸，并且可能被非氨基酸间断。这些术语还包括已经被天然或通过干预而修饰的氨基酸聚合物；例如二硫键形成、糖基化、脂化、乙酰化、磷酸化，或任何其他操作或修饰，例如使用标记组分缀合。所述定义中还包括，例如，含有一个或多个氨基酸类似物(包括例如非天然氨基酸等)和本领域已知的其他修饰的多肽。

本文中的术语“引物”是指这样的寡核苷酸：无论是天然存在的或是合成产生的，当被放置在诱导与核酸链互补的引物延伸产物的合成的条件下时，能够作为核酸合成的起始点，例如，在适当缓冲液(“缓冲液”包括pH、离子强度、辅因子等)中存在四种不同三磷酸核苷酸和聚合酶(例如热稳定酶)的条件下并在适当的温度下。引物优选为单链，以获得扩增的最高效率，但或者可以是双链的。如果是双链的，则在用来制备延伸产物之前首先处理引物以分开它的链。优选地，所述引物为寡脱氧核糖核苷酸。引物必须足够长以在聚合酶(例如热稳定聚合酶)存在的条件下引发延伸产物的合成。引物的准确长度将取决于许多因素，包括温度、引物来源以及方法的使用。例如，取决于靶序列的复杂性，寡核苷酸引物通常含有15-25个核苷酸，虽然它可以包含更多或更少的核苷酸。短引物分子通常需要较低的温度以与模板形成足够稳定的杂交复合物。

“启动子”是指参与结合RNA聚合酶以启动基因转录的调节序列。启动子可以是诱导型启动子或组成型启动子。“诱导型启动子”是在环境或发育调节条件下具有活性的启动子。

术语“重组的”是指遗传物质(即，核酸，它们编码的多肽，以及包含此类多核苷酸的载体和细胞)，其经过修饰以改变其序列或表达特征，例如通过使编码序列突变以产生改变的多肽，将编码序列与另一个基因的编码序列融合，将基因置于不同启动子的控制下，在异源生物中表达基因，以降低或升高的水平表达基因，以不同于其自然表达谱的方式有条件地或组成型地表达基因。通常，重组核酸，多肽和基于其的细胞已被人操纵，使得它们与见于自然界中的相关核酸，多肽和细胞不同。

术语“选择标记”或“可选择标记”是指能够在宿主细胞中表达的基因，其允许容易地选择含有引入的核酸或载体的那些宿主。可选择标记的实例包括但不限于抗微生物物质(例如，潮霉素，博来霉素或氯霉素)和/或赋予宿主细胞代谢优势(例如营养优势)的基因。

术语“测序文库”在本文中是指经过加工而用于测序（例如，使用大规模平行方法，例如NGS）的DNA。可以任选地扩增DNA以获得多拷贝加工DNA的群体，其可以通过NGS测序。

“信号序列”(也称为“前序列”，“信号肽”，“前导序列”或“前导肽”)是指与蛋白的N-末端部分结合的氨基酸序列，其促进成熟形式的蛋白从细胞分泌。细胞外蛋白的成熟形式缺乏在分泌过程中被切除的信号序列。

术语“单链突出端”或“突出端”在本文中用于指双链(ds)核酸分子的链，其延伸超出所述ds核酸分子的互补链的末端。术语“5'突出端”或“5'突出序列”在本文中用于指ds核酸分子的链，其在5'方向上延伸超出ds核酸分子的互补链的3'末端。术语“3'突出端”或“3'突出序列”在本文中用于指ds核酸分子的链，其在3'方向上延伸超出ds核酸分子的互补链的5'末端。

在至少两种核酸或多肽的上下文中，短语“基本上相似”和“基本上相同”通常是指多核苷酸或多肽包含与参考(例如，野生型)多核苷酸或多肽相比，具有至少约35％，40％，45％，50％，55％，60％，65％，70％，75％，80％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或甚至99.5％的序列同一性的序列。可以使用已知程序(例如BLAST，ALIGN和CLUSTAL)，使用标准参数确定序列同一性。参见例如Altshul等人(1990) J. Mol. Biol. 215:403-410；Henikoff等人，(1989) Proc. Natl.Acad. Sci. 89:10915；Karin等人，(1993) Proc. Natl. Acad. Sci. 90:5873；和Higgins等人，(1988) Gene 73:237)。通过National Center for Biotechnology Information，用于进行BLAST分析的软件是公共可得的。也可以使用FASTA来检索数据库(Person等人，(1988) Proc. Natl. Acad. Sci. 85:2444-2448.)。在一些实施方案中，基本上相同的多肽仅通过一个或多个保守氨基酸取代而不同。在一些实施方案中，基本上相同的多肽是免疫交叉反应的。在一些实施方案中，基本上相同的核酸分子在严格条件下(例如，在中等至高度严格的范围内)彼此杂交。

本文的核酸“合成”是指以模板依赖性方式制备新的多核苷酸链或延伸现有多核苷酸(即DNA或RNA)的任何体外方法。根据本发明，合成可包括扩增，其使用聚合酶增加多核苷酸模板序列的拷贝数。多核苷酸合成(例如，扩增)导致核苷酸掺入多核苷酸中(即，从引物延伸)，从而形成与多核苷酸模板互补的新的多核苷酸分子。形成的多核苷酸分子及其模板可以用作模板来合成另外的多核苷酸分子。如本文所用，“DNA合成”包括但不限于聚合酶链式反应(PCR)，并且可以包括使用标记的多核苷酸，例如用于探针和寡核苷酸引物，或用于多核苷酸测序。

术语“标签”是指可检测部分，其可以为一个或多个原子或分子、或原子和分子的集合。标签可以提供光学的、电化学的、磁性或静电的(例如，感应的、电容的)特征。标签可以阻断穿过纳米孔的电流。

术语“加标签的核苷酸”在本文中是指包含偶联在核苷酸的任何位置(包括但不限于核苷酸的磷酸(例如，末端磷酸)，糖或含氮碱基部分)的标签(或标签物质)的核苷酸。标签可以是一个或多个原子或分子，或原子和分子的集合。标签可以提供光学的、电化学的、磁性或静电的(例如，感应的、电容的)特征，该特征可以借助纳米孔检测(US2014/013616)。标签也可以连接至多磷酸上，如US2014/013616的图13中所示。

本文中的术语“靶DNA双链体”是指源自样品多核苷酸的双链DNA分子，所述样品多核苷酸是DNA (例如基因组或无细胞DNA)和/或RNA。

本文中的术语“模板DNA分子”是指DNA聚合酶从其合成互补核酸链(例如，在引物延伸反应中)的核酸链。

术语“模板依赖性的方式”是指涉及引物分子的模板依赖性延伸(例如，通过DNA聚合酶的DNA合成)的过程。术语“模板依赖性的方式”通常是指RNA或DNA的多核苷酸合成，其中新合成的多核苷酸链的序列受控于众所周知的互补碱基配对规则(参见例如，Watson,J. D.等人，In: Molecular Biology of the Gene，第四版，W. A. Benjamin, Inc.,Menlo Park, Calif. (1987))。

如本文所用，“载体”是指设计用于将核酸引入一种或多种细胞类型的多核苷酸序列。载体包括克隆载体，表达载体，穿梭载体，质粒，噬菌体颗粒，盒等。

相关(和衍生)蛋白包括“变体”蛋白。变体蛋白与另一种(即亲本)蛋白和/或彼此的不同之处在于少量的氨基酸残基。与衍生出该变体的亲本蛋白相比，变体可以包括一个或多个氨基酸突变(例如，氨基酸缺失，插入或取代)。在一些实施方案中，不同氨基酸残基的数目是约1、2、3、4、5、10、20、25、30、35、40、45或50中的任一个。在一些实施方案中，变体相差约1至约10个氨基酸。可选地或另外地，变体可具有与参考蛋白或核酸的特定程度的序列同一性，例如，如使用序列比对工具(例如BLAST，ALIGN和CLUSTAL)(参见下文)所确定的。例如，变体蛋白或核酸可具有与参考序列的至少约35％，40％，45％，50％，55％，60％，65％，70％，75％，80％，85％，86％，87％，88％，89％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，或甚至99.5％氨基酸序列同一性。

如本文所用，“野生型”，“天然的”和“天然存在的”蛋白是在自然界中发现的那些。术语“野生型序列”是指在自然界中发现或天然存在的氨基酸或核酸序列。在一些实施方案中，野生型序列是蛋白工程化项目，例如，变体蛋白的产生的起点。

衔接子

本文提供了用于多核苷酸测序的衔接子。衔接子含有双链多核苷酸双链体(例如，DNA双链体)区，所述双链多核苷酸双链体区在其末端具有甲基依赖性限制性内切核酸酶的识别序列的一部分。在它们各自的多核苷酸双链体区的末端共价连接(例如，连结)(即形成衔接子二聚体)的两个衔接子，将形成用于甲基依赖性内切核酸酶的完整序列，并且将在内切核酸酶的存在下进行切割。与待测序的靶多核苷酸双链体的末端共价连接的衔接子将不会被内切核酸酶切割，除非在靶多核苷酸的末端含有内切核酸酶识别位点的剩余序列的罕见情况下。

在一些实施方案中，如图1中示意性所示，衔接子包括单链发夹区2和双链多核苷酸双链体区1，其中在所述双链体区的末端具有甲基依赖性内切核酸酶序列的一部分。任选地，所述单链发夹区包括引物结合序列3。

在一些实施方案中，如图2中示意性所示，衔接子是线性多核苷酸(例如，DNA)，其含有第一和第二多核苷酸(例如DNA)链和第一和第二末端。第一末端包括具有甲基依赖性内切核酸酶序列的一部分的双链多核苷酸双链体20。第二末端包括单链3'突出端区21，其具有在第一链的3'末端或3'末端附近的一个或多个对外切核酸酶消化具有抗性修饰的核苷酸22 (例如，硫代核苷酸)，和在第二链的5'末端或5'末端附近的一个或多个对外切核酸酶消化具有抗性的修饰的核苷酸23 (例如，硫代核苷酸)，其是双链多核苷酸双链体区的一部分。任选地，单链3'突出端包括一个或多个引物结合序列24。在一些实施方案中，单链3'突出端区21的长度为8至约100个核苷酸。

在一些实施方案中，衔接子的双链多核苷酸双链体区包含在5'末端的序列GG和在3'末端的CC_Me，当两个衔接子连接在一起时形成序列CC_MeGG。这个序列是甲基依赖性内切核酸酶MspI或MspII的识别序列。

在一些实施方案中，衔接子的双链多核苷酸双链体区包含在5'末端的序列TC和在3'末端的GA_Me，当两个衔接子连接在一起时形成序列GA_MeTC。这个序列是甲基依赖性内切核酸酶DpnI或DpnII的识别序列。

靶多核苷酸

可应用本文所述方法的核酸样品可源自生物样品，例如组织样品，生物流体样品或细胞样品，及其加工的级分。作为非限制性实例，生物流体样品包括血液、血浆、血清、汗液、泪液、痰液、尿液、耳流液(ear flow)、淋巴液、间质液、唾液、脑脊髓液、呕吐物(ravages)、骨髓悬液、阴道流液(vaginal flow)、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道分泌物、肠道和泌尿生殖道、羊水和白细胞分离法样品。在一些实施方案中，源样品是可通过非侵入性程序容易地获得的样品，例如血液、血浆、血清、汗液、泪液、痰液、尿液、耳流液和唾液。在一些实施方案中，生物样品是外周血样品，或血浆和血清级分。在其他实施方案中，生物样品是拭子或涂片，活检标本或细胞培养物。在另一个实施方案中，样品是两种或更多种生物样品的混合物，例如包含生物流体样品，组织样品和细胞培养样品中的两种或更多种的生物样品。如本文所用，术语“血液”、“血浆”和“血清”包括其级分或经加工的部分。类似地，在从活检、拭子、涂片等取样的情况下，“样品”可以包括源自活检、拭子、涂片等的经加工的级分或部分。

在一些实施方案中，样品可以从包括但不限于以下的来源获得：来自不同个体，相同或不同个体的不同发育阶段，不同患病个体(例如，患有癌症或怀疑患有遗传病症的个体)，正常个体(例如，缺乏目标状况的个体)的样品，在个体的不同疾病阶段获得的样品，从接受疾病的不同治疗的个体获得的样品，来自经历不同环境因素的个体，具有病理学倾向的个体，暴露于病原体例如传染病病原体(例如，HIV)的个体，以及作为供体细胞，组织和/或器官的接受者的个体的样品。在一些实施方案中，样品是包含源自相同或不同受试者的不同来源样品的混合物的样品。例如，样品可以包括源自两个或更多个体的细胞的混合物，如经常在犯罪现场发现的。在一个实施方案中，样品是从怀孕女性(例如孕妇)获得的母体样品。在这种情况下，可以使用本文所述的方法分析样品，以提供潜在胎儿病症的产前诊断。除非另有说明，否则母体样品包括胎儿和母体DNA的混合物，例如cfDNA。在一些实施方案中，母体样品是生物流体样品，例如血液样品。在其他实施方案中，母体样品是纯化的cfDNA样品。

样品可以是未加工的生物样品，例如全血样品。源样品可以是部分加工的生物样品，例如，已经分级以提供基本上无细胞的血浆级分的血液样品。源样品可以是含有纯化核酸的生物样品，例如源自基本上无细胞的血浆样品的纯化cfDNA样品。样品的加工可包括例如冷冻(例如，组织活检样品)，固定(例如，福尔马林固定)和包埋(例如，石蜡包埋)。样品的部分加工可以包括例如样品分级(例如，从血液样品中获得血浆级分)，以及分析在常规临床工作期间收集的样品所需的其他加工步骤，例如在临床试验和/或科学研究的背景下。另外的加工步骤可包括例如分离和纯化样品核酸的步骤。纯化样品的进一步加工可包括，例如，用于准备测序的样品核酸的必需修饰的步骤。在一些实施方案中，样品是未加工或部分加工的样品。

样品也可以从体外培养的组织，细胞或其他含多核苷酸的来源获得。培养的样品可以取自包括但不限于以下的来源：在各种培养基和条件(例如，pH，压力，温度)下维持，维持不同时间段，或用不同的因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞)。

生物样品可以从多种受试者获得，所述受试者包括但不限于人类和其他生物，包括哺乳动物，植物或来自受试者的细胞，微生物(例如细菌，真菌)或病毒。

可如本文所述分析的样品多核苷酸包括基因组细胞DNA，无细胞DNA (cfDNA)，线粒体DNA，RNA和cDNA。用于一些NGS测序平台的测序文库的制备需要多核苷酸具有特定范围的片段大小，并且需要将大的多核苷酸(例如细胞基因组DNA)片段化。因此，可能需要多核苷酸(例如细胞基因组DNA)的片段化。通过机械方法的多核苷酸分子片段化在C-O，P-O和C-C处切割DNA主链，产生具有断裂的C-O，P-O和C-C键的平端和3'-和5'-突出末端的异质混合物，其需要修复以用于随后的酶促反应，例如，测序衔接子的连接，其是制备用于测序的DNA所需的。或者，使用cfDNA样品生成测序文库可能不需要将作为<300个碱基的片段存在的cfDNA片段化。一旦起始DNA或cDNA已经被片段化，即将片段平端化，即末端修复。

在一些实施方案中，待测序的核酸用标准的未甲基化的核苷酸碱基延伸以产生cDNA延伸产物。如果核酸靶含有甲基化核苷酸，则用cDNA产生的双链体将不含有甲基依赖性内切核酸酶的内部识别序列，因为两条链上都需要甲基化核苷酸，并且由此产生的双链核酸将不被内切核酸酶在内部切割。如果在靶核酸末端或末端附近存在甲基化碱基，并且如本文所述将靶双链体末端与衔接子连接，导致产生甲基依赖性内切核酸酶的识别序列，则可能在切割衔接子二聚体期间，将衔接子从靶切割下来，但预计这是罕见的事件。

在一些实施方案中，扩增待测序的核酸，例如通过扩增程序，例如，如聚合酶链式反应(PCR)扩增。用标准的非甲基化核苷酸碱基扩增含有甲基化碱基的核酸样品(例如基因组DNA)，将产生不含甲基化碱基的DNA产物。这种扩增的靶DNA将不含甲基依赖性内切核酸酶的限制性位点，并且当如本文所述，用这种内切核酸酶处理样品以除去衔接子二聚体时，其不会被切割。

制备用于测序的靶多核苷酸

本文提供了制备用于测序的靶多核苷酸双链体的方法。如本文所述，将靶多核苷酸双链体的每个末端共价连接至测序衔接子的双链多核苷酸双链体区。产生在每个末端具有测序衔接子的衔接子连接的靶多核苷酸双链体。也可以生产衔接子二聚体，如图3中示意性所示。衔接子二聚体包括两个衔接子31和32，其一起连接在每个衔接子的双链多核苷酸双链体区的末端，如图3中的虚线34示意性所示。两个衔接子的连接产生甲基依赖性内切核酸酶的限制性位点33。然后，用甲基依赖性内切核酸酶处理样品混合物，并且包含如上所述的内切核酸酶的限制序列的衔接子二聚体被切割。然后，用一种或多种外切核酸酶处理样品混合物，所述外切核酸酶将切割的衔接子从其游离的5'和/或3'末端解聚，从而从待测序的多核苷酸混合物中除去衔接子二聚体和任何游离的未连接的衔接子。连接至靶多核苷酸双链体末端的衔接子不具有易受外切核酸酶消化的游离末端。如上所述，衔接子或者具有发夹环，或者在线性衔接子的情况下，在其未连接的末端具有修饰的核苷酸，例如硫代核苷酸，使得它们将不被外切核酸酶消化。

在一些实施方案中，根据本文公开的方法制备靶多核苷酸用于测序，并且在甲基依赖性内切核酸酶和外切核酸酶处理后，含有衔接子连接的靶多核苷酸双链体的样品混合物含有少于约1％，0.5％，0.2％，0.1％，0.05％或0.01％的衔接子二聚体。在一些实施方案中，样品混合物不含或基本不含衔接子二聚体。

甲基依赖性内切核酸酶

许多甲基依赖性内切核酸酶是已知的。在一个实施方案中，甲基依赖性内切核酸酶是MspI或MspII，其在回文限制序列CC_MeGG处切割双链DNA。在另一个实施方案中，甲基依赖性内切核酸酶是DpnI或DpnII，其在回文限制性序列GA_MeTC处切割双链DNA。应当理解，任何甲基依赖性内切核酸酶都可以用于本文所述的方法，只要它在如下识别序列处切割：所述识别序列包含至少一个甲基化核苷酸并且可以通过如本文所述的在衔接子的双链体区末端连接核苷酸序列以提供酶的完整识别序列而产生。

测序方法

提供了用于测序多核苷酸的方法。通过在每个末端共价连接如本文所述的衔接子，来制备用于测序的多核苷酸双链体。如本文所述除去衔接子二聚体，得到含有少于约1％，0.5％，0.2％，0.1％，0.05％或0.01％的衔接子二聚体的测序混合物。在一些实施方案中，样品混合物不含或基本不含衔接子二聚体。

在一些实施方案中，所述方法包括对包含多个衔接子连接的DNA双链体的多核苷酸样品进行测序，所述双链体具有连接在靶双链体的每个末端的如本文所述的测序衔接子，其中所述多核苷酸样品含有少于约1％，0.5％，0.2％，0.1％，0.05％或0.01％的衔接子二聚体，或不含或基本不含衔接子二聚体。

在一些实施方案中，引物与衔接子上的引物结合序列杂交并用DNA聚合酶延伸，从而制备用于测序的引物延伸产物。在一些实施方案中，延伸引物以产生靶多核苷酸双链体的一条链的互补拷贝，并且所述拷贝在其由聚合酶合成时被测序。

许多多核苷酸测序方法是本领域已知的。可以使用的测序方法包括下一代测序(NGS)技术，其允许在单个测序运行中单独地测序多个样品(即，单重测序)，或将多个样品作为合并样品作为编索引的靶DNA分子测序(即，多重测序)，并产生高达数亿的DNA序列读数。靶核酸和编索引的靶核酸的序列可以使用NGS方法测定，其中分别以大规模平行的方式对克隆扩增的DNA模板或单个DNA分子进行测序(例如，描述于Voelkerding等人，(2008)Clin Chem 55:641-658；Metzker (2010) Nature Rev 11:31-46。NGS技术有时细分类为第一、第二和第三代测序(Pareek and Smoczynski (2011) J Appl Genetics 52:413-435)。除了高通量序列信息之外，NGS还提供定量信息，因为每个序列读数可以是代表个体克隆DNA模板或单个DNA分子的可计数“序列标签”。NGS的测序技术包括但不限于焦磷酸测序，用可逆染料终止子的合成测序，通过寡核苷酸探针连接的测序，离子半导体测序和纳米孔测序。

通常适用于所有当前技术的NGS涉及的主要步骤是文库选择/构建，用于测序的文库的制备和大规模平行测序。

在一个实施方案中，本方法可以应用于454测序(http：//www.454.com/)(例如描述于Margulies, M.等人，(2005) Nature 437:376-380)。用于454的总体方法是基于焦磷酸测序。测序制备起始于一定长度的DNA (例如，扩增子或雾化基因组/宏基因组DNA)，其在任一端具有衔接子。将它们固定至悬浮于油包水乳液中的微小珠子(理想地，一个珠子将具有一个DNA片段)。然后进行乳液PCR步骤以制备每个DNA片段的多个拷贝，产生一组珠子，其中每个珠子含有相同DNA片段的许多克隆拷贝。然后用所述乳液洗涤被称为PicoTiterPlate的填充有微孔区域的光纤芯片，允许单个珠子落入每个孔中。孔中还填充有一组用于测序过程的酶(例如，DNA聚合酶，ATP硫酸化酶和荧光素酶)。此时，随着添加触发焦磷酸释放的碱基可以开始合成测序，这在每个碱基类型(A，C，G，T)被添加时产生闪光，记录所述闪光以推断每个孔中DNA片段的序列。

在另一个实施方案中，本方法可以应用于Illumina测序仪。Illumina测序是一种合成测序方法，它与454方法在两个主要方式中不同：(1)它使用连接了寡核苷酸区域的流动池，而不是含有带有珠子的各个微孔的芯片，和(2)它不涉及焦磷酸测序，而是涉及可逆的染料终止子。染料终止方法类似于“传统的”Sanger测序。然而，它与Sanger的不同之处在于染料终止子是可逆的，因此它们在每个成像循环后被除去，以便为下一个可逆的染料终止的核苷酸腾出位置。测序制备起始于在流动池上洗涤在任一末端具有特异性衔接子的一定长度的DNA，所述流动池填充有杂交至片段末端的特异性寡核苷酸。然后，复制每个片段以产生相同片段的簇。然后，在流动池上洗涤可逆的染料终止子核苷酸，并给予时间进行连接；洗去过量的核苷酸，对流动池进行成像，并使终止子逆转以使得可以重复该过程并且可以在随后的循环中继续添加核苷酸。

在另一个实施方案中，本方法可以应用于Applied Biosystems SOLiD过程(http://solid.appliedbiosystems.com)。SOLiD过程起始于与454所用的类似的乳液PCR步骤，但测序本身与先前描述的系统完全不同。测序涉及多轮，交错式，双碱基掺入系统。使用DNA连接酶用于掺入，使其成为“连接测序”方法，而不是之前提到的“合成测序”方法。Mardis, E.R. (2008) Annu Rev Genomics Hum Genet 9:387–402，提供了涉及使用该系统的复杂测序和解码过程的全面概述。

在另一个实施方案中，本方法可以应用于Ion Torrent系统(http://www.iontorrent.com/)。Ion Torrent系统以类似于454的方式开始，使用含有连接DNA片段的珠子的微孔板。然而，它与所有其他系统的不同之处在于检测碱基掺入的方式。当碱基添加到正在生长的DNA链时，释放出质子，这轻微地改变周围的pH。对pH敏感的微检测器与平板上的孔相关联，平板本身是半导体芯片，并且它们记录何时发生这些变化。在不同的碱基(A、C、G、T)被顺序洗涤通过时，记录添加物，从而允许推断来自每个孔的序列。

在另一个实施方案中，本方法可以应用PacBio单分子实时测序方法(http://www.pacificbiosciences.com/)。PacBio测序系统不涉及扩增步骤，使其与其他主要NGS系统区别开来。在包含许多零模式波导(ZMW)检测器的芯片上进行测序。将DNA聚合酶连接至ZMW检测器上，并且在合成DNA链时，将磷酸连接染料标记的核苷酸掺入实时成像。PacBio的RS II C2 XL目前提供最大的读取长度(平均约4,600个碱基)和每次运行的最高读取数(约47,000个)两者。典型的“配对末端”方法不与PacBio一起使用，因为读取通常足够长，使得通过CCS可以多次覆盖片段而无需独立地从每个末端测序。使用PacBio的多重方法不涉及独立的读取，而是遵循标准的“在线”条码化模型。

在另一个实施方案中，本方法可以应用于纳米孔测序(例如描述于Soni, G.V.和Meller, A. (2007) Clin Chem 53:1996-2001)。纳米孔测序DNA分析技术已由许多公司开发，包括Oxford Nanopore Technologies (英国牛津)、Roche和Illumina。在一个实施方案中，使用合成测序，由此使用对每种核苷酸类型A，G，C和T独特的聚合物标签，对被掺入生长中的DNA分子拷贝的核苷酸进行标记。在新链的酶促延伸期间掺入标记的核苷酸的过程中，聚合物标签被捕获在孔中，并且通过标签阻断离子电流指明了被掺入的碱基。在链合成期间连续的核苷酸掺入导致连续的聚合物标签捕获，从而允许检测新的链序列。

试剂盒

提供了用于本文所述的方法的试剂盒。所述试剂盒包含如本文所述的测序衔接子。任选地，提供了例如制备用于测序的靶多核苷酸双链体的使用说明书。说明书可以以印刷形式或以诸如CD，DVD或USB的电子介质的形式，或者以可以获得此类说明书的网站地址的形式提供。任选地，可以包含制备用于测序的靶多核苷酸双链体的其他组分和/或测序试剂。例如，试剂盒可包含以下一种或多种：连接酶；甲基依赖性内切核酸酶；一种或多种外切核酸酶；和一种或多种测序引物。

提供合适的包装。如本文所用，“包装”是指通常用于系统中并且能够将组合物保持在固定限度内的固体基质或材料。这些材料包括玻璃和塑料(例如聚乙烯，聚丙烯和聚碳酸酯)的瓶，小瓶，纸，塑料和塑料-箔层压封套等。

Claims

1.一种制备用于测序的靶DNA双链体的方法，所述方法包括：

(a) 提供多个测序衔接子，其中每个所述衔接子包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成所述甲基依赖性内切核酸酶的完整识别序列；

(b) 将所述测序衔接子的双链体区共价连接到多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在所述靶DNA双链体的每个末端的测序衔接子；和

2.根据权利要求1的方法，其中每个所述衔接子包含单链多核苷酸发夹区和双链多核苷酸双链体区。

3.根据权利要求1的方法，其中每个所述衔接子是包含第一和第二多核苷酸链的线性多核苷酸，其中每个衔接子包含含有双链多核苷酸双链体区的第一末端和含有第一链的3'末端和第二链的5'末端的第二末端，其中第一链包含单链3'突出端区，其包含位于3'末端或3'末端附近的硫代核苷酸，且第二链包含位于5'末端或5'末端附近的硫代核苷酸。

4.根据权利要求1的方法，其中每个所述衔接子中的双链多核苷酸双链体区包含含有5'末端的第一链，其杂交至含有3'末端的第二链，其中所述第一链包含位于5'末端的序列GG，其杂交至位于所述第二链3'末端的序列CC_Me。

5.根据权利要求1的方法，其中每个所述衔接子中的双链多核苷酸双链体区包含含有5'末端的第一链，其杂交至含有3'末端的第二链，其中所述第一链包含位于5'末端的序列TC，其杂交至位于3'末端的序列GA_Me。

6.根据权利要求1的方法，其中步骤(b)包括使用连接酶进行共价连接。

7.根据权利要求1的方法，其中所述靶DNA包含用未甲基化核苷酸合成的基因组DNA片段的拷贝。

8.一种制备用于测序的多核苷酸样品的方法，包括将测序衔接子共价连接到待测序的靶DNA双链体，其中用于测序的多核苷酸样品根据权利要求1的方法制备，并包含少于约1％的衔接子二聚体。

9.一种测序多核苷酸的方法，包括根据权利要求2制备用于测序的靶DNA双链体，

其中每个衔接子的单链发夹区包含引物结合序列，且

其中所述方法进一步包括：

(d) 使引物与引物结合序列杂交并用DNA聚合酶延伸所述引物，从而制备用于测序的引物延伸产物。

10.一种测序多核苷酸的方法，包括根据权利要求3制备用于测序的靶DNA双链体，

其中所述单链3'突出端区包含引物结合序列，并且其中所述方法还包括：

11.用于多核苷酸测序的衔接子，其包含双链多核苷酸双链体区，其中所述双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成所述甲基依赖性内切核酸酶的完整识别序列。

12.一种测序多核苷酸的方法，其包括测序包含多个衔接子连接的DNA双链体的多核苷酸样品，所述衔接子连接的DNA双链体具有共价连接在靶DNA双链体的每个末端的根据权利要求11的测序衔接子，其中所述多核苷酸样品包含少于约1％的衔接子二聚体。

13.用于测序的多核苷酸样品，其包含多个衔接子连接的DNA双链体，其具有共价连接在靶DNA双链体的每个末端的根据权利要求11的测序衔接子，并且所述多核苷酸样品包含少于约1％的衔接子二聚体。

14.用于多核苷酸测序的试剂盒，其包含：

(a) 多个根据权利要求11的衔接子；和

(b) 制备用于测序的靶DNA双链体的说明书。

15.一种制备用于测序的靶DNA双链体的方法，所述方法包括：

(a) 将多个测序衔接子的双链多核苷酸双链区共价连接到多个平端靶DNA双链体的第一和第二末端，从而产生多个衔接子连接的靶DNA双链体，其具有共价连接在所述靶DNA双链体的每个末端的测序衔接子，

其中每个衔接子的双链多核苷酸双链体区在其末端包含甲基依赖性内切核酸酶的识别序列的一部分，其中如果两个衔接子的双链体区共价连接在一起产生衔接子二聚体，则将形成所述甲基依赖性内切核酸酶的完整识别序列；和