CN105917036A

CN105917036A - 下一代测序文库

Info

Publication number: CN105917036A
Application number: CN201480057285.0A
Authority: CN
Inventors: D.H.金
Original assignee: Abbott Laboratories
Current assignee: Abbott Laboratories
Priority date: 2013-08-19
Filing date: 2014-08-19
Publication date: 2016-08-31
Anticipated expiration: 2034-08-19
Also published as: EP3036359A2; RU2016107196A3; EP3036359A4; ES2873850T3; US20210062186A1; US10865410B2; US20150051116A1; US20150051088A1; RU2016107196A; WO2015026853A3; US10036013B2; EP3626866A1; CA2921620A1; US20180334671A1; CA2921620C; RU2698125C2; EP3036359B1; CN105917036B; EP3626866B1; WO2015026853A2

Abstract

本文提供涉及下一代测序并且特别地，但非排他地，涉及用于制备包含短重叠DNA片段的下一代测序文库和使用所述文库测序一个或多个靶核酸的方法和组合物的技术。

Description

下一代测序文库

本申请要求于2013年8月19日提交的美国临时专利申请序列号61/867,224的优先权，所述临时专利申请通过引用以其整体结合到本文中。

发明领域

本文提供涉及下一代测序的技术并且特别地，但不排他地，涉及用于制备包含重叠DNA片段的下一代测序文库和使用该文库测序一个或多个靶核酸的方法、组合物、试剂盒和系统的技术。

发明背景

核酸序列编码生物发挥功能和繁殖所必需的信息。因此测定这样的序列是在对生物体如何和在何处生存的纯研究中以及在应用科学例如药物开发中有用的工具。在医学中，测序工具被用于诊断和开发对各种病理学，包括癌症、传染病、心脏病、自身免疫病症、多发性硬化和肥胖的治疗。在工业上，测序被用于设计改进的酶促过程和合成的生物体。在生物学中，这样的工具被用于研究例如生态系统的健康并因此具有广泛的功用。

测序工业的一个焦点已经转移至发现更高通量和/或更低成本的核酸测序技术，有时称为“下一代”测序(NGS)技术。在使测序更高通量和/或更便宜中，目标为使该技术对于测序更可及。这些目标可通过使用为更大量的显著复杂样品提供样品制备、测序更大量复杂样品和/或在短期时间内提供高容量信息产生和分析的测序平台和方法达到。为应对这些挑战，发展了各种方法，例如，通过合成测序、通过杂交测序和通过连接测序。

对于核酸的高通量、大规模平行测序许多下一代测序(NGS)平台可用。这些系统中的许多，例如Illumina生产的HiSeq和MiSeq系统，使用通过合成测序(SBS)方法，其中核苷酸序列使用逐个碱基检测和鉴定来测定。使用这一具体方法，鉴定1个碱基需要1个SBS化学过程循环(其可涉及通过洗涤分离的四个单独反应)。

当前，这些技术提供~250个碱基的最大可实现阅读长度，若从同一模板获得两个高质量的配对末端阅读并汇编，这可延长至~400 (2 × 250个碱基，伴随足够的重叠用于汇编)。每个SBS循环大约需要4分钟完成；因此，在配对末端方法中为了获得~400个碱基的序列信息，产生两个~250个碱基阅读所需要的500个SBS循环大约需要37个小时完成。另外，大多数循环测序技术的性能和质量在测定~100个碱基后大幅降低，引入一定程度的与个体序列阅读长于~100个碱基相关的不确定性和其中使用它们的更长序列汇编。由于当前NGS平台的这些质量和时间限制，不断增加的对长的、高质量核苷酸序列的需求饱和了测序装置已安装基础的输出能力。因此，需要从几小时而非几天的更短的测序运行时间提供~500个碱基或更多的高质量序列的技术。

发明概述

通过NGS技术获得较长序列的一些尝试应用汇编多个短阅读以产生较长序列的方法。例如，Illumina提供的Moleculo技术最初分离长(~10 Kbp) DNA片段的单拷贝。克隆扩增该长DNA片段并随后将其打碎为约300-800个碱基的较小的片。最后，使用转座酶将具有条码的衔接头附在较小的片上以产生测序文库。使用标准的SBS方案以从靶模板(2 × 150个碱基或2 × 250个碱基)获得~300-500个碱基的序列并且，一旦产生该序列，使用条码解析和汇编这些阅读以提供原始~10 Kbp DNA的序列。另一种方法涉及创建适于Illumina测序仪的重叠片段文库，该测序仪通过汇编重叠~20-50个碱基的两个~250个碱基阅读产生~400–460个碱基范围的阅读(参见，例如，Lundin等人 (2012) Scientific Reports3: 1186)。该重叠文库主要通过用特定的衔接头序列标记片段并接着消化步骤和精确的大小选择过程构建。

因此，本文提供了利用相对短的阅读长度(例如，小于300或小200个碱基，例如~30-50个碱基)以取得与常规技术相当或优于常规技术的高质量、长连续序列的测序技术。与常规技术相比，所提供的技术在测序仪(例如，Illumina MiSeq平台)上仅需要较短的运行时期(例如，~3-4小时)，因此显著减少完成一个测序运行所需的专门使用测序装置的时间。此外，所述技术导致比常规技术长的序列(例如，~500 bp-1000 bp或更长的高质量序列)。同样，运行时间不作为待测序核酸大小的函数增加，因为不管待测序核酸的大小如何，短阅读大小(例如，~30-50)保持同样。

所述技术不受任何具体的测序平台限制，而是广泛适用并且不依赖平台。例如，除了在Illumina系统上运行时间下降，对于使用，例如，Life Technologies Ion Torrent和Qiagen GeneReader系统获得的序列取得相似的时间减少。特别地，虽然使用常规IonTorrent样品制备和测序技术获得~400个碱基序列时需要大约4小时，但本文提供的技术将该时间减少至大约20-30分钟。在一些实施方案中，所述技术适用基于乳液PCR的方法、基于珠和不基于珠的方法，因此可用在Life Technologies SOLiD系统和Qiagen NGS测序平台中。

相对于常规技术该技术在减少的测序时间内提供高质量的序列。所述技术与平台无关因此与现存的测序装置相容。在一些实施方案中，该技术通过，例如，增加现存平台的阅读长度和缩短序列获取时间增强现有NGS平台。此外，本技术的一个额外优点为其减少昂贵测序试剂的消耗因此可降低测序总体的每个碱基成本。

简言之，所述技术涉及产生一组平铺(tiled)在待测序核酸区域上并且彼此偏移，例如，1-20、1-10或1-5个碱基(例如，在一些实施方案中，偏移1个碱基)的定义的重叠短序列文库插入物(例如，小于300或小于200个碱基，例如，~30-50个碱基)的集合。使用重叠文库产生序列集合后，生物信息汇编算法用于将短重叠序列的平铺集合“缝合”在一起以产生核酸的序列。

首先，序列质量较高，因为根据获得的短序列的长度和邻近平铺序列之间的偏移，待测序核酸中的每个碱基以高覆盖测序(例如，10倍-1000倍覆盖，例如，50倍-500倍覆盖)。每个碱基的高取样率通过为确定每个碱基的共有同一性(consensus identity)的汇编过程提供增加的信息来最小化或消除测序错误。另外，测序运行中测定的前面的碱基(例如，前~20-100个碱基)一般具有最好的质量。因此，通过使用每个测序运行的第一部分期间测定的这些初始碱基(例如，前~30-50个碱基)，高质量序列信息被用于汇编中。因此所述技术最小化测序错误，特别是在其中需要保留与阅读和汇编相关的定相和连锁信息的长序列阅读的应用中。

第二，测序仪时间减少，因为测定每个短序列(例如，~30-50个碱基)在测序装置上仅需要少量测序循环(例如，每个碱基1个循环，例如，~30-50个循环)。通过平行测定短序列集合中的所有短序列，提供待测序核酸的序列所需的测序时间大大减少，例如，减少至常规技术测序同一待测序核酸所需时间的1/8-1/10。

该用于NGS文库制备和测序以及随后的短阅读解析和汇编的技术提供超过~500bp(例如，600、700、800 bp或更多)的具有相位信息的高质量连续序列的获取。所述技术可用于，例如，测序从已知区域开始的未知区域，例如，以审问结构变体例如基因易位，例如，未知基因融合配偶体的检测和鉴定。此外，相对于阅读长度、运行时间和成本该技术增强现有NGS平台的测序能力，而不升级和/或改变现有安装的硬件和现存测序化学。

在一些实施方案中，所述技术涉及用于测定靶核苷酸序列的方法，所述方法包括测定靶核苷酸序列的第一个核苷酸子序列，所述第一个核苷酸子序列具有位于靶核苷酸序列的核苷酸x1处的5′末端并且具有位于靶核苷酸序列的核苷酸y1处的3′末端；测定靶核苷酸序列的第二个核苷酸子序列，所述第二个核苷酸子序列具有位于靶核苷酸序列的核苷酸x2处的5′末端并且具有位于靶核苷酸序列的核苷酸y2处的3′末端；汇编第一个核苷酸子序列和第二个核苷酸子序列以为靶核苷酸序列提供共有序列，其中x2 < y1；并且(y1 – x1)< 100，(y2 – x2) < 100，和(y2 – y1) < 5。在一些实施方案中，所述片段小于100 bp、小于90 bp、小于80 bp、小于70 bp、小于60 bp、小于55 bp、小于50 bp、小于45 bp、小于40 bp或小于35 bp。相应地，在一些实施方案中，(y1 – x1) < 100、90、80、70、60、55、50、45、40或35并且(y2 – x2) < 100、90、80、70、60、55、50、45、40或35。在一些实施方案中，所述片段小于50 bp；相应地，在一些实施方案中，(y1 – x1) < 50并且(y2 – x2) < 50。

在一些实施方案中，所述片段的3′末端关于靶序列相差小于4或小于3个碱基；相应地，在一些实施方案中，(y2 – y1) < 4或(y2 – y1) < 3。在一些实施方案中，所述片段的3′末端关于靶序列相差1个碱基；相应地，在一些实施方案中(y2 – y1) = 1。

在一些实施方案中，使用独特指标(在一些实施方案中“标志”)关联片段与产生其的模板核酸。在一些实施方案中，独特指标为允许容易地鉴定包含各种序列的寡核苷酸(例如，片段)的复杂集合内的靶核酸的独特的合成核苷酸序列或独特的天然核苷酸序列。在某些实施方案中，独特指标标识符在连接衔接头序列之前连接至核酸片段。在一些实施方案中，独特指标标识符包含在衔接头序列内以致测序阅读中包含该独特序列。这确保同源片段可根据每个片段连接的独特指标检测，因此进一步提供共有序列的无模糊重建。同源片段可例如由于基因组重复、源自同源染色体的两个片段或源自同一染色体上的重叠位置的片段而偶然发生。同源片段还可由密切相关的序列(例如，密切相关的基因家族成员、旁系同源物、直向同源物、ohnologs、异向同源物和/或假基因)引起。可丢弃这样的片段以确保长片段汇编可无模糊地计算。所述标志可如上文对于衔接头序列所描述连接。指标(例如，标志)可包含在衔接头序列内。

在一些实施方案中，独特指标(例如，指标标识符、标签、标志，等)为一个“条码”。如本文所使用的，术语“条码”指允许鉴定条码所关联的核酸的一些特征的已知核酸序列。在一些实施方案中，待鉴定的核酸特征为衍生核酸的样品或源。在一些实施方案中，条码至少3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸长。在一些实施方案中，条码长度小于10、9、8、7、6、5或4个核苷酸。在一些实施方案中，关联一些核酸的条码具有与关联其他核酸的条码不同的长度。一般而言，条码具有足够的长度并且包含充分不同的序列以允许基于其所关联的条码鉴定样品。在一些实施方案中，条码和其所关联的样品源可在条码序列中一个或多个核苷酸突变、插入或缺失，例如1、2、3、4、5、6、7、8、9、10或更多个核苷酸突变、插入或缺失后准确地鉴定。在一些实施方案中，多个条码中的每个条码与该多数中每一其他条码在两个或多个核苷酸位置，例如，2、3、4、5、6、7、8、9、10或更多个位置处不同。在一些实施方案中，一个或多个衔接头包含多个条码序列中的至少一个。在一些实施方案中，所述技术的方法进一步包括基于靶核酸所结合的条码序列鉴定衍生靶核酸的样品或源。在一些实施方案中，所述技术的方法进一步包括基于靶核酸所结合的条码序列鉴定靶核酸。所述方法的一些实施方案进一步包括通过测定条码核苷酸序列鉴定靶核苷酸序列的源或样品。所述方法的一些实施方案进一步包括分子计数应用(例如，数字条码枚举和/或框并(binning))以测定期需靶的表达水平或拷贝数状态。一般而言，条码可包含当与靶核酸结合时用作衍生靶多核苷酸的样品的标识符的核酸序列。

在一些实施方案中，所述方法提供多达100个碱基的序列或，在一些实施方案中，超过100、200、300、400、500、600、700、800、900、1000或更多个碱基的序列。在一些实施方案中，所述技术提供超过1000个碱基，例如，超过2000、2500、3000、3500、4000、4500或5000或更多个碱基的序列。在一些实施方案中共有序列包含多达100个碱基或更多，例如，200、300、400、500、600、700、800、900、1000或更多个碱基；在一些实施方案中共有序列包含超过1000个碱基，例如超过2000、2500、3000、3500、4000、4500或5000或更多个碱基。

在一些实施方案中，寡核苷酸例如引物、衔接头等包含“通用”序列。通用序列为，例如，用于使用已知序列(例如，与通用序列互补的)的引物或探针时作为引物或探针结合位点的已知序列。尽管在本技术的实施方案中引物的模板-特异性序列、引物的条码序列和/或衔接头的条码序列可能，例如，在片段与片段、样品与样品、源与源，或目的区域与目的区域之间不同，但本技术的实施方案提供片段与片段、样品与样品、源与源，或目的区域与目的区域之间相同的通用序列以便包含通用序列的所有片段可以使用相似的方法或技术(例如，使用相同的引物或探针)以相同或相似的方式操作和/或处理，例如，扩增、鉴定、测序、分离等。

在具体的实施方案中，使用包含通用序列(例如，通用序列A)、条码序列和模板-特异性序列的引物。在具体的实施方案中，使用包含通用序列(例如，通用序列B)的第一个衔接头并且在具体的实施方案中，使用包含通用序列(例如，通用序列C)的第二个衔接头。通用序列A、通用序列B和通用序列C可为任何序列。该命名法用于指出包含通用序列A的第一个核酸(例如，片段)的通用序列A与包含通用序列A的第二个核酸(例如，片段)的通用序列A相同，包含通用序列B的第一个核酸(例如，片段)的通用序列B与包含通用序列B的第二个核酸(例如，片段)的通用序列B相同，以及包含通用序列C的第一个核酸(例如，片段)的通用序列C与包含通用序列C的第二个核酸(例如，片段)的通用序列C相同。尽管在本技术的实施方案中通用序列A、B和C一般不同，但其不必如此。因此，在一些实施方案中，通用序列A和B相同；在一些实施方案中，通用序列B和C相同；在一些实施方案中，通用序列A和C相同；以及在一些实施方案中，通用序列A、B和C相同。在一些实施方案中，通用序列A、B和C不同。

例如，如果要测序两个目的区域(例如，来自相同或不同的源或，例如，来自同一核酸、染色体、基因等的两个不同区域)，可使用两个引物，一个引物包含用于从第一个目的区域引发的第一个模板-特异性序列和关联第一个扩增产物与第一个目的区域的第一个条码并且第二个引物包含用于从第二个目的区域引发的第二个模板-特异性序列和关联第二个扩增产物与第二个目的区域的第二个条码。然而，在一些实施方案中，为了合并和下游一起处理，这两个引物将包含相同的通用序列(例如，通用序列A)。可使用两个或更多个通用序列并且，一般而言，为了合并样品和作为单一样品的库(批)处理，通用序列的数目将小于靶-特异性序列和/或条码序列的数目。

因此，在一些实施方案中，测定第一个核苷酸子序列和第二个核苷酸子序列包括从通用序列引发。在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3′-O-封闭的核苷酸类似物终止聚合。例如，在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3′-O-炔基核苷酸类似物终止聚合，例如，在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3′-O-炔丙基核苷酸类似物终止聚合。在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用包含可逆终止剂的核苷酸类似物终止聚合。

将获得的短序列阅读根据其条码分区(例如，解复用)并将源自相同样品、源、目的区域等的阅读框并在一起，例如，保存至分离的文件或以允许原样鉴定框并的阅读的有组织的数据结构保持。然后将框并的短序列汇编成共有序列。序列汇编一般可分为两大类：重新汇编和参考基因组定位汇编。在重新汇编中，将序列阅读汇编在一起以使其形成新的和先前未知的序列。在参考基因组定位中，针对现有骨架序列(例如，参考序列等)汇编序列阅读以建立与骨架序列相似但不一定相同的序列。

因此，在一些实施方案中，使用重新汇编重建对应于每个目的区域的靶核酸。为了开始重建过程，通过发现重叠将短阅读生物信息学缝合在一起并延伸其以产生共有序列。在一些实施方案中所述方法进一步包括将共有序列定位至参考序列。本技术的方法利用表示碱基读出置信度的测序质量分数重建全长片段。除了重新汇编外，片段可用于通过观察共有序列源自哪一染色体获得基因组变体的定相(对染色体同源拷贝的分配)。

在一些实施方案中，对于序列信息的汇编和生物信息学处理(例如，鉴定条码、分区、框并、进行碱基读出、确定每个碱基的共有同一性、缝合阅读、评估质量分数、比对阅读和/或共有序列与参考序列，等)执行计算机系统。在多个实施方案中，计算系统包括用于传递信息的总线或其他通信机制和与总线偶联的用于处理信息的处理器。在多个实施方案中，所述计算机系统包括与总线偶联的存储器(其可为随机存取存储器(RAM)或其他动态存储装置)和等待处理器执行的指令。存储器还可用于储存临时变量或执行指令期间等待处理器执行的其他中间信息。在多个实施方案中，所述计算机系统进一步包括与总线偶联的用于为处理器储存静态信息和指令的只读存储器(ROM)或其他静态存储装置。在一些实施方案中，提供存储装置，例如固态驱动器(例如，“闪速”存储器)、磁盘和光盘并与总线偶联用于储存信息和指令。

在多个实施方案中，所述计算机系统经由总线与显示器，例如阴极射线管(CRT)或液晶显示器(LCD)偶联，用于向计算机用户显示信息。在一些实施方案中，输入装置，包括字母数字和其他键，与总线偶联用于向处理器传递信息和命令选择。另一种类型的用户输入装置为用于向处理器传达指令信息和命令选择以及用于控制显示器上的光标移动的光标控制，例如鼠标、跟踪球和光标方向键。

在一些实施方案中，计算机系统实施本技术的方面。与本技术的某些实施方案一致，结果通过计算机系统响应处理器执行存储器中包含的一个或多个指令的一个或多个序列提供。这样的指令可从另一个计算机-可读介质，例如存储装置读入存储器中。或者，可使用硬线电路代替或与软件指令组合以实现本技术。因此本教导的实现不限于硬件电路和软件的任何特定组合。例如，如本文所描述的，本技术的实施方案包括使用利用“云”计算技术、有线(例如，光纤、电缆、铜、ADSL、以太网等)和/或无线技术(例如，IEEE 802.11等)的数据储存和转移。如本文所描述的，在一些实施方案中，本技术的组件经由局域网(LAN)、无线局域网(WLAN)、广域网(WAN)例如因特网或任何其他网络类型、拓扑和/或方案连接。在一些实施方案中，本技术包括使用便携装置例如手持计算机、智能电话、平板计算机、膝上计算机、掌上计算机、臀上(hiptop)计算机，例如，以显示结果、接受用户输入、向另一个计算机提供指令、储存数据和/或进行本文所提供方法的其他步骤。一些实施方案提供使用瘦客户端以显示结果、接受用户输入、向另一个计算机提供指令、储存数据和/或进行本文所提供方法的其他步骤。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括测定靶核苷酸序列的n个核苷酸子序列(超过m个编入指标)，其中第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5′末端并具有位于靶核苷酸序列的核苷酸y_m处的3′末端；第(m + 1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5′末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3′末端；和汇编n个核苷酸子序列以为靶核酸序列提供共有序列，其中m范围为1到n，x_m+1 < y_m；和(y_m – x_m) < 100、90、80、70、60、50、55、50、45、40、35或30或更小，(y_m+1 –x_m+1) < 100、90、80、70、60、50、55、50、45、40、35或30或更小，并且(y_m+1 – y_m) < 20、10或更小，或小于5、4或3，或等于1。在一些实施方案中所述片段小于50 bp；相应地，在一些实施方案中(y_m – x_m) < 50并且(y_m+1 – x_m+1) < 50。在一些实施方案中所述片段小于40 bp；相应地在一些实施方案中(y_m – x_m) < 40并且(y_m+1 – x_m+1) < 40。在一些实施方案中所述片段小于30 bp；相应地，在一些实施方案中(y_m – x_m) < 30并且(y_m+1 – x_m+1) < 30。

在一些实施方案中所述片段的3′末端相对于靶核酸序列相差4或3个碱基。相应地，在一些实施方案中(y_m+1 – y_m) < 4或(y_m+1 – y_m) < 3。在一些实施方案中所述片段的3′末端相对于靶核酸序列相差1个碱基。因此，在一些实施方案中(y_m+1 – y_m) = 1。

在一些实施方案中，测定n个核苷酸子序列包括从通用序列引发。在一些实施方案中，测定n个核苷酸子序列包括用3′-O-封闭的核苷酸类似物终止聚合。在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3′-O-炔基核苷酸类似物终止聚合。在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3′-O-炔丙基核苷酸类似物终止聚合。在一些实施方案中测定第一个核苷酸子序列和第二个核苷酸子序列包括用包含可逆终止剂的核苷酸类似物终止聚合。

在一些实施方案中，提供用于产生下一代测序文库的方法。在一些实施方案中所述方法包括使用包含靶特异性序列、通用序列A和与靶核酸关联的条码核苷酸序列的引物扩增靶核苷酸序列以提供可鉴定的扩增子；将包含通用序列B的第一个衔接头寡核苷酸连接至扩增子的3′末端以形成衔接头-扩增子；环化衔接头-扩增子以形成环形模板；使用3′-O-封闭的核苷酸类似物从环形模板产生梯状片段文库；和(例如，使用连接酶或通过，例如，点击化学，例如，铜催化的炔(例如，3′炔)与叠氮化物(例如，5′叠氮化物)的反应化学连接)将包含通用序列C的第二个衔接头寡核苷酸连接至梯状片段文库的片段的3′末端以产生下一代测序文库。

在一些实施方案中，所述条码核苷酸序列包含1-20个核苷酸。在一些实施方案中，所述第一个衔接头寡核苷酸包含10-80个核苷酸。在一些实施方案中梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应并且片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端。在一些实施方案中梯状片段文库的片段的核苷酸序列包含小于100个核苷酸，例如，小于90、80、70、60、50或40个核苷酸，例如，15-50，例如，15-40个核苷酸。

在一些实施方案中所述第一个衔接头寡核苷酸包括单链DNA和/或第二个衔接头寡核苷酸包括单链DNA。

在一些实施方案中产生梯状片段文库包括使用与通用序列A互补的寡核苷酸引物。

在一些实施方案中，所述方法进一步包括扩增下一代测序文库。

在一些实施方案中所述3′-O-炔基核苷酸类似物为3′-O-炔丙基核苷酸类似物。在一些实施方案中所述核苷酸类似物包含可逆终止剂。

所述技术进一步提供用于测定核酸序列的方法。例如，在一些实施方案中，所述方法包括根据本文提供的技术产生下一代测序文库；测定梯状片段文库的片段的核苷酸序列，所述核苷酸序列包括靶核苷酸序列的核苷酸子序列；和测定梯状片段文库的片段的条码核苷酸序列。

在一些实施方案中，测定梯状片段文库的片段的核苷酸序列包括使用与通用序列C互补的寡核苷酸引物。另外，在一些实施方案中测定梯状片段文库的片段的条码核苷酸序列包括使用与通用序列B互补的寡核苷酸引物。

在一些实施方案中梯状片段文库的片段的核苷酸序列包含小于100个核苷酸，例如，15-50个核苷酸，例如，20-50个，例如，25-50个，例如，30-50个，例如，35-50个，例如，40-50个核苷酸。在一些实施方案中所述方法进一步包括关联条码核苷酸序列与靶核苷酸序列的源。

在一些实施方案中所述方法进一步包括收集或框并具有相同条码核苷酸序列的梯状片段文库的片段的核苷酸序列。在一些实施方案中，所述方法进一步包括汇编梯状片段文库的片段的多个核苷酸序列以提供共有序列。在一些实施方案中所述方法进一步包括将共有序列定位至参考序列。

在一些实施方案中，为了提供共有序列的重建，所述技术包括将标签连接至核酸，例如，核酸结合蛋白、光学标签、核苷酸类似物和本领域已知的其他标签。

所述技术提供包含下一代测序文库的相关组合物，其中所述下一代测序文库包含多个核酸，每个核酸包含通用序列A、条码核苷酸序列、第二个通用序列B、靶核苷酸序列的核苷酸子序列和通用序列C。在一些实施方案中所述组合物包含n个核酸，其中第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5′末端并具有位于靶核苷酸序列的核苷酸y_m处的3′末端；第(m + 1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5′末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3′末端；m范围为1到n；x_m = x_m+1；和(y_m+1 – y_m) <20、10或小于5、4、3或2。在一些实施方案中测序文库的片段的3′末端相对于彼此和靶核苷酸序列偏离4或3个碱基；相应地，在一些实施方案中(y_m+1 – y_m) < 4或(y_m+1 – y_m) < 3。在一些实施方案中测序文库的片段的3′末端相对于彼此和靶核苷酸序列偏离1个碱基；相应地，在一些实施方案中(y_m+1 – y_m) = 1。

在一些实施方案中，通用序列B包含10-100个核苷酸和/或条码核苷酸序列包含1-20个核苷酸。

在一些实施方案中所述组合物进一步包含3′-O-封闭的核苷酸类似物如3′-O-炔基核苷酸类似物，例如，3′-O-炔丙基核苷酸类似物。在一些实施方案中所述组合物进一步包含测序引物。例如，在一些实施方案中所述组合物进一步包含与通用序列C互补的测序引物和/或与通用序列B互补的测序引物。

在一些实施方案中，条码核苷酸序列与靶核苷酸序列关联。在一些实施方案中所述多个核酸包括具有不同条码核苷酸序列和靶核苷酸序列的不同核苷酸子序列的核酸，其中每个条码核苷酸序列与靶核苷酸序列关联。在一些实施方案中，条码核苷酸序列以一对一的对应关系与靶核苷酸序列关联。

在一些实施方案中下一代测序文库的每个核酸包含3′-O-封闭的核苷酸类似物，例如，3′-O-炔基核苷酸类似物，例如，3′-O-炔丙基核苷酸类似物。在一些实施方案中下一代测序文库的每个核酸包含含有可逆终止剂的核苷酸类似物。

还提供用于产生NGS测序文库和/或用于从靶核酸获得序列信息的试剂盒。在本技术的一些实施方案中提供包含核苷类似物的试剂盒，例如，用于根据本文所提供的方法产生核苷酸片段梯。在一些实施方案中，所述核苷酸类似物为3′-O-封闭的核苷酸类似物，例如，3′-O-炔基核苷酸类似物，例如，3′-O-炔丙基核苷酸类似物。在一些实施方案中，试剂盒中提供常规A、C、G、U和/或T核苷酸以及一种或多种(例如，1、2、3或4种) A、C、G、U和/或T核苷酸类似物。

在一些实施方案中，试剂盒包含聚合酶(例如，天然聚合酶、修饰的聚合酶和/或经工程改造的聚合酶，等)，例如，用于扩增(例如，通过热循环，等温扩增)或用于测序，等。在一些实施方案中，试剂盒包含连接酶，例如，用于连接衔接头与核酸例如扩增子或梯状片段或用于环化衔接头-扩增子。试剂盒的一些实施方案包含基于铜的催化剂试剂，例如，用于点击化学反应，例如，以使叠氮化物与炔基反应形成三唑连接。一些试剂盒实施方案提供缓冲剂、盐、反应容器、说明书和/或计算机软件。

在一些实施方案中，试剂盒包含引物和/或衔接头。在一些实施方案中，衔接头包含适于，例如，通过点击化学连接衔接头与核苷酸类似物的化学修饰。例如，在一些实施方案中，所述试剂盒包含含有炔基的核苷酸类似物和含有叠氮(N₃)基的衔接头寡核苷酸。在一些实施方案中，使用“点击化学”过程例如叠氮化物-炔环加成经由三唑形成连接衔接头与片段。

本技术的一些实施方案提供用于获得序列信息的系统。例如，系统实施方案包括用于从靶核酸产生片段梯的核苷酸类似物和储存用于从汇编短序列阅读测定靶核酸序列的指令的计算机可读介质。在一些实施方案中，系统包括一个或多个衔接头寡核苷酸(例如，适合与核苷酸类似物连接)或如上所述的其他试剂盒组分。

例如，一些系统实施方案与汇编(缝合、重建)核酸序列相关。这样的系统的实施方案包括多个组件，例如，核酸测序仪、样品序列数据存储器、参考序列数据存储器和分析计算装置/服务器/节点。在一些实施方案中，分析计算装置/服务器/节点为工作站、主机计算机、个人计算机、移动装置等。在一些实施方案中，所述系统包括用于鉴定条码、基于条码解析序列和框并具有共同条码的序列的功能。

在一些实施方案中，核酸测序仪配置为利用所有可用的技术、平台或工艺种类分析(例如，审问)核酸片段(例如，单一片段、配对片段、末端配对片段，等)以获得核酸序列信息。在一些实施方案中，所述系统包括用于进行碱基读出、评估质量分数、比对序列、鉴定条码、基于条码解析序列和框并具有共同条码的序列的功能。

在多个实施方案中，核酸测序仪与样品序列数据存储器直接经由数据电缆(例如，串行电缆、直接电缆连接，等)或总线连接或，替代地，通过网络连接(例如，因特网、LAN、WAN、WLAN、VPN，等)通信。在多个实施方案中，网络连接为硬线物理连接。例如，一些实施方案提供核酸测序仪与数据服务器(经由Category 5 (CAT5)、光纤或等效电缆)通信连接，数据服务器继而通过因特网(经由CAT5、光纤或等效电缆)与样品序列数据存储器通信连接。在多个实施方案中，网络连接为，例如，利用IEEE 802.11 (例如，a/b/g/n，等)或等效传输形式的无线网络连接(例如，Wi-Fi、WLAN等)。在实践中，所利用的网络连接取决于系统的具体需求。在多个实施方案中，样品序列数据存储器为核酸测序仪的整合部分。

在一些实施方案中，样品序列数据存储器为配置为组织和储存核酸测序仪产生的核酸序列阅读数据(例如，小于300或小于200个碱基，例如~30-50个碱基的短重叠序列阅读和关联的指标信息例如条码序列和与条码关联的元数据例如样品源、类型和靶核酸、目的区域、实验条件、临床数据等)以便数据可(例如，由数据库管理员/客户端操作员)手动或经由计算机程序/应用/软件脚本自动(例如，通过条码序列或相关的元数据)搜寻或检索的数据库存储装置、系统或仪器(例如，数据存储分区，等)。在多个实施方案中，参考数据存储器可为配置为组织和储存参考序列(例如，全/部分基因组、全/部分外显子组、基因、区域、染色体、BAC等)以便数据可(例如，由数据库管理员/客户端操作员)手动或经由计算机程序/应用/软件脚本自动搜寻或检索的任何数据库装置、存储系统或仪器(例如，数据存储分区，等)。在多个实施方案中，样品核酸测序阅读数据以多个不同的数据文件类型/格式储存在样品序列数据存储器和/或参考数据存储器上，包括，但不限于：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

在一些实施方案中，样品序列数据存储器和参考数据存储器为互不依赖的独立装置/系统或在不同装置上实现。在一些实施方案中，样品序列数据存储器和参考数据存储器在同一装置/系统上实现。在一些实施方案中，样品序列数据存储器和/或参考数据存储器在分析计算装置/服务器/节点上实现。

在一些实施方案中，分析计算装置/服务器/节点与样品序列数据存储器和参考数据存储器直接经由数据电缆(例如，串行电缆、直接电缆连接，等)或总线连接，或，替代地，通过网络连接(例如，因特网、LAN、WAN、VPN，等)通信。在多个实施方案中，分析计算装置/服务器/节点宿有(host)汇编器，例如，参考定位引擎或重新定位模块和/或第三分析引擎。

在一些实施方案中，重新定位模块配置为将样品数据存储器的样品核酸序列阅读汇编成新的和先前未知的序列。

在一些实施方案中，参考定位引擎配置为从样品数据存储器获得(例如，具有共同条码或被框并在一起的)样品核酸序列阅读并将其对从参考数据存储器获得的一个或多个参考序列定位以使用所有种类的参考定位/比对技术和方法将阅读汇编成与参考序列相似但不一定相同的序列。重汇编的序列然后可通过一个或多个任选的第三分析引擎进一步分析以鉴定可导致体格特征(表型)的很大差异的个体基因构成(基因型、单元型)、基因表达或表观遗传状态差异。例如，在多个实施方案中，第三分析引擎配置为鉴定由突变、重组/交叉或遗传漂变引起的(汇编序列中的)各种基因组变体；鉴定遗传信息的定相；鉴定系统发育和/或分类学信息；鉴定个体；鉴定物种、属或其他系统发育分类；鉴定药物抗性或药物易感性(敏感性)标志；鉴定基因融合；鉴定拷贝数变异；鉴定甲基化状态；关联疾病状态与序列；等。基因组变体类型的实例包括，但不限于：单核苷酸多态性(SNPs)、拷贝数目变异(CNVs)、插入/缺失(“indel”)、倒位、重复、易位、整合，等。

然而，应理解的是，分析计算装置/服务器/节点上宿有的各种引擎和模块可组合或塌缩为单个引擎或模块，取决于具体应用或系统体系结构的需求。此外，在多个实施方案中，所述分析计算装置/服务器/节点宿有具体应用或系统体系结构所需的额外的引擎或模块。

在一些实施方案中，定位和/或第三分析引擎配置为在彩色空间处理核酸和/或参考序列。在多个实施方案中，定位和/或第三分析引擎配置为在基础空间处理核酸和/或参考序列。然而，应理解的是，定位和/或第三分析引擎可处理或分析任何图式或格式的核酸序列数据，只要该图式或格式传输核酸序列的碱基同一性和位置。

在一些实施方案中，以多种不同的输入数据文件类型/格式向分析计算装置/服务器/节点提供样品核酸测序阅读和参考序列数据，包括，但不限于：*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

一些实施方案提供客户端。客户端，在一些实施方案中，为瘦客户端或，在一些实施方案中，为胖客户端计算装置。在一些实施方案中，客户端包括用于控制参考定位引擎、重新定位模块和/或第三分析引擎操作的网络浏览器(例如，Internet Explorer、Firefox、Safari、Chrome，等)。即，客户端可使用浏览器访问参考定位引擎、重新定位模块和/或第三分析引擎以控制其功能。例如，根据具体应用的需求，客户端可用于配置多个引擎的操作参数(例如，错配约束、质量值阈值，等)。相似地，客户端还可包括显示器以显示汇编器、参考定位引擎、重新定位模块和/或第三分析引擎所进行分析的结果。

本文所提供的技术，在方法、组合物、试剂盒和系统实施方案中，可用于，例如，制备用于测序的NGS文库，获得核苷酸序列，定位单核苷酸多态性，区分等位基因，测序基因组，鉴定罕见的小群体变体(例如，癌症中的体细胞突变或相对宿主或非-病原体DNA的大背景下低丰度的病原体)，等。

可通过任何本领域已知的方法测序。在某些实施方案中，测序为通过合成测序。在其他实施方案中，测序为通过合成单分子测序。在某些实施方案中，测序涉及使引物与模板杂交以形成模板/引物双链体，使双链体在允许聚合酶以模板-依赖的方式向引物添加核苷酸的条件下在可检测标记的核苷酸存在时与聚合酶接触，检测来自所掺入的标记核苷酸的信号，和顺序重复接触和检测步骤至少一次，其中顺序检测所掺入的标记核苷酸确定核酸序列。示例性的检测标记包括放射性标记、荧光标记、酶标记等。在具体的实施方案中，可检测标记可为光学上可检测的标记，例如荧光标记。示例性的荧光标记(用于测序和/或其他目的例如标记核酸、引物、探针等)包括花青、罗丹明、荧光素、香豆素、BODIPY、alexa或缀合的多-染料。

一些实施方案提供用于产生下一代测序文库的方法，所述方法包括使用包含靶特异性序列、通用序列A和与靶核酸关联的条码核苷酸序列(例如，包含1-20个核苷酸)的引物扩增靶核苷酸序列以提供可鉴定的扩增子；将包含通用序列B的第一个衔接头寡核苷酸(例如，单链DNA，例如，包含10-80个核苷酸)连接至扩增子的3′末端以形成衔接头-扩增子；环化衔接头-扩增子以形成环形模板；通过使用与通用序列A互补的引物和3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物或包含可逆终止剂)从环形模板产生含有多个片段的梯状片段文库；和(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库，其中梯状片段文库的片段的核苷酸序列包含15-40个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，并且梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括使用包含靶特异性序列、通用序列A和与靶核酸关联的条码核苷酸序列(例如，包含1-20个核苷酸)的引物扩增靶核苷酸序列以提供扩增子；将包含通用序列B的第一个衔接头寡核苷酸(例如，单链DNA，例如，包含10-80个核苷酸)连接至扩增子的3′末端以形成衔接头-扩增子；环化衔接头-扩增子以形成环形模板；通过使用与通用序列A互补的引物和3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物或包含可逆终止剂)从环形模板产生含有多个片段的梯状片段文库；(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库；(例如，使用与通用序列C互补的寡核苷酸引物)测定梯状片段文库的片段的核苷酸序列，所述核苷酸序列包含靶核苷酸序列的核苷酸子序列；(例如，使用与通用序列B互补的寡核苷酸引物)测定梯状片段文库的片段的条码核苷酸序列；关联条码核苷酸序列与靶核苷酸序列的源；框并具有相同条码核苷酸序列的梯状片段文库的片段的核苷酸序列；汇编梯状片段文库的片段的多个核苷酸序列以提供共有序列；和将共有序列定位到参考序列，其中梯状片段文库的片段的核苷酸序列包含15-50、15-40或15-30个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端，并且共有序列保留靶核酸的定相和/或连锁信息。

一些实施方案涉及用于通过使用修饰的核苷酸，例如，一种或多种3′-O-修饰的核苷酸如3′-O-炔基修饰的核苷酸产生下一代测序文库(例如，经由NGS)测序核酸的方法、组合物、试剂盒和系统。在一些实施方案中，3′-O-修饰的核苷酸为3′-O-炔丙基核苷酸(例如，3′-O-炔丙基-dNTP，例如，3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP、3′-O-炔丙基-dTTP；参见，例如，美国专利申请序列号14/463,412和14/463,416；以及国际专利申请PCT/US2014/051726，对于所有目的所述申请的每一个通过引用以其整体结合到本文中)。例如，所述技术的实施方案涉及产生包含通过在体外合成核酸期间经由聚合酶掺入链-终止的3′-O-修饰的核苷酸产生的核酸片段梯的测序文库(例如，用于NGS)。

具体的实施方案涉及使用包含摩尔比率1:500-500:1 (例如，1:500、1:450、1:400、1:350、1:300、1:250、1:200、1:150、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、1:2、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、150:1、200:1、250:1、300:1、350:1、400:1、450:1或500:1的标准dNTPs与3′-O-炔丙基-dNTPs的比率)的标准dNTPs和3′-O-炔丙基-dNTPs的聚合酶反应产生核酸片段梯。通过本文所述方法产生的终止的核酸片段在其3′末端包含炔丙基。进一步的实施方案涉及使用化学缀合将衔接头连接至核酸片段的3′末端。例如，在一些实施方案中通过点击化学(例如，在铜(例如，铜(I))试剂催化的反应中)将5′-叠氮基-修饰的寡核苷酸(例如，5′-叠氮基-甲基-修饰的寡核苷酸)缀合到3′-炔丙基-终止的核酸片段。在一些实施方案中，首先(例如，通过PCR)扩增靶区域以产生用于测序的靶扩增子。在一些实施方案中，扩增靶区域包括扩增靶区域5-15个循环(例如，“低-循环”扩增)。

进一步的实施方案提供包含标签(例如，包含条码序列)的靶扩增子，例如，所述靶扩增子为可鉴定的扩增子。在一些实施方案中，靶区域扩增中使用的引物包含随后(例如，在“拷贝和标签”反应中)掺入靶扩增子内的标签(例如，包含条码序列)以产生可鉴定的扩增子。在一些实施方案中，扩增之后(例如，在连接酶反应中)将包含标签(例如，包含条码序列)的衔接头连接至靶扩增子以产生可鉴定的衔接头-扩增子。在一些实施方案中，用于在拷贝和标签反应中产生可鉴定扩增子的引物包含含有靶-特异性引发序列的3′区域和含有位于简并序列侧面的两个不同通用序列(例如，通用序列A和通用序列B)的5′区域。在一些实施方案中，连接至扩增子以产生可鉴定衔接头-扩增子的衔接头为双链衔接头，例如，包含含有在5′末端和3′末端两侧为两个不同的通用序列(例如，通用序列A和通用序列B)的简并序列(例如，含有8-12个碱基)的一条链和含有通用序列C (例如，在5′末端)以及与通用序列B互补的和在3′-末端位置具有额外的T的序列(例如，在3′末端)的第二条链。

然后，所述技术的实施方案提供从衔接头-扩增子产生核酸梯状片段，例如，以为NGS提供测序文库。特别地，所述技术提供，例如，通过使用含有摩尔比率1:500-500:1 (标准dNTPs比3′-O-炔丙基-dNTPs)的标准dNTPs和3′-O-炔丙基-dNTPs的聚合酶反应产生用于核酸测序(例如，NGS)的3′-O-炔丙基-dN终止的核酸梯。然后，在一些实施方案中，所述技术提供使用化学缀合将衔接头连接至核酸片段的3′末端。例如，在一些实施方案中，通过点击化学(例如，在铜(例如，铜(I))试剂催化的反应中)将5′-叠氮基-修饰的寡核苷酸(例如，5′-叠氮基-甲基-修饰的寡核苷酸)缀合到3′-炔丙基-终止的核酸片段。

因此，一些实施方案提供用于产生下一代测序文库的方法，所述方法包括使用包含靶特异性序列、通用序列A、通用序列B和与靶核酸关联的条码核苷酸序列(例如，包含1-20个核苷酸)的引物扩增靶核苷酸序列以提供可鉴定的扩增子；使用3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物)从可鉴定的扩增子产生核酸片段梯；和(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库，其中梯状片段文库的片段的核苷酸序列包含15-100个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，并且梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端。

一些实施方案提供用于产生下一代测序文库的方法，所述方法包括扩增靶核苷酸序列以提供扩增子；连接衔接头(例如，包含含有在5′末端和3′末端两侧为两个不同的通用序列(例如，通用序列A和通用序列B)的简并序列(例如，含有8-12个碱基)的一条链和含有通用序列C (例如，在5′末端)以及与通用序列B互补的和在3′-末端位置具有额外的T的序列(例如，在3′末端)的第二条链的衔接头)与扩增子以产生衔接头-扩增子；使用3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物)从衔接头-扩增子产生核酸片段梯；和(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库，其中梯状片段文库的片段的核苷酸序列包含15-100个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，并且梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括使用包含靶特异性序列、通用序列A、通用序列B和与靶核酸关联的条码核苷酸序列(例如，包含1-20个核苷酸)的引物扩增靶核苷酸序列以提供可鉴定的扩增子；使用3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物)从可鉴定的扩增子产生核酸片段梯；和(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库；(例如，使用与通用序列C互补的寡核苷酸引物)测定梯状片段文库的片段的核苷酸序列，所述核苷酸序列包含靶核苷酸序列的核苷酸子序列；测定梯状片段文库的片段的条码核苷酸序列；关联条码核苷酸序列与靶核苷酸序列的源；框并具有相同条码核苷酸序列的梯状片段文库的片段的核苷酸序列；汇编梯状片段文库的片段的多个核苷酸序列以提供共有序列；和，在一些实施方案中，将共有序列定位至参考序列，其中梯状片段文库的片段的核苷酸序列包含15-50、15-40或15-30个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端，并且共有序列保留靶核酸的定相和/或连锁信息。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括扩增靶核苷酸序列以提供扩增子；连接衔接头(例如，包含含有在5′末端和3′末端两侧为两个不同的通用序列(例如，通用序列A和通用序列B)的简并序列(例如，包含8-12个碱基)的一条链和含有通用序列C (例如，在5′末端)以及与通用序列B互补的和在3′-末端位置具有额外的T的序列(例如，在3′末端)的第二条链的衔接头)与扩增子以产生衔接头-扩增子；使用3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物)从衔接头-扩增子产生核酸片段梯；和(例如，通过点击化学，例如，使用基于铜的催化剂试剂，例如，从叠氮化物和炔基形成三唑)将包含通用序列C的第二个衔接头寡核苷酸(例如，单链DNA)连接至梯状片段文库的片段的3′末端以产生下一代测序文库；(例如，使用与通用序列C互补的寡核苷酸引物)测定梯状片段文库的片段的核苷酸序列，所述核苷酸序列包含靶核苷酸序列的核苷酸子序列；测定梯状片段文库的片段的条码核苷酸序列；关联条码核苷酸序列与靶核苷酸序列的源；框并具有相同条码核苷酸序列的梯状片段文库的片段的核苷酸序列；汇编梯状片段文库的片段的多个核苷酸序列以提供共有序列；和在一些实施方案中，将共有序列定位至参考序列，其中梯状片段文库的片段的核苷酸序列包含15-50、15-40或15-30个核苷酸，梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，梯状片段文库的片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3′末端，并且共有序列保留靶核酸的定相和/或连锁信息。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括(例如，通过从通用序列引发和，例如，用3′-O-封闭的核苷酸类似物如3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物终止聚合或用包含可逆终止剂的核苷酸类似物终止聚合)测定靶核苷酸序列的第一个核苷酸子序列，所述第一个核苷酸子序列具有位于靶核苷酸序列的核苷酸x1处的5′末端并且具有位于靶核苷酸序列的核苷酸y1处的3′末端；(例如，通过从通用序列引发和，例如，用3′-O-封闭的核苷酸类似物如3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物终止聚合或用包含可逆终止剂的核苷酸类似物终止聚合)测定靶核苷酸序列的第二个核苷酸子序列，所述第二个核苷酸子序列具有位于靶核苷酸序列的核苷酸x2处的5′末端并且具有位于靶核苷酸序列的核苷酸y2处的3′末端；汇编第一个核苷酸子序列和第二个核苷酸子序列以为靶核苷酸序列提供共有序列(例如，包含100、200、300、400、500、600、700、800、900、1000或超过1000、例如，2000、2500、3000、3500、4000、4500或5000或超过5000个碱基)；通过解码条码核苷酸序列鉴定靶核苷酸序列的源或样品；将共有序列(例如，保留靶核酸的定相和/或连锁信息)定位至参考序列，其中x2 < y1；和(y1 – x1) < 100 (例如，(y1– x1) < 90、80、70、60、55、50、45、40、35或30)，(y2 – x2) < 100 (例如，(y1 – x1) < 90、80、70、60、55、50、45、40、35或30)并且(y2 – y1) < 20 (例如，(y2 – y1) < 10、(y2 – y1)< 5、(y2 – y1) < 4、(y2 – y1) < 3、(y2 – y1) < 2或(y2 – y1) = 1)。

一些实施方案提供用于测定靶核苷酸序列的方法，所述方法包括(例如，通过从通用序列引发和，例如，用3′-O-封闭的核苷酸类似物如3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物终止聚合或用包含可逆终止剂的核苷酸类似物终止聚合)测定靶核苷酸序列的n个核苷酸子序列，其中第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5′末端并具有位于靶核苷酸序列的核苷酸y_m处的3′末端；和第(m + 1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5′末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3′末端；汇编n个核苷酸子序列以为靶核酸序列提供共有序列(例如，包含100、200、300、400、500、600、700、800、900、1000或超过1000个碱基，例如，2000、2500、3000、3500、4000、4500或5000或超过5000个碱基)；通过解码条码核苷酸序列鉴定靶核苷酸序列的源或样品；和将共有序列定位至参考序列，其中：m范围为1到n；x_m+1 < y_m；和(y_m – x_m) < 100 (例如，(y_m –x_m) < 90、80、70、60、55、50、45、40、35或30)，(y_m+1 – x_m+1) < 100 (例如，(y_m+1 – x_m+1) <90、80、70、60、55、50、45、40、35或30)并且(y_m+1 – y_m) < 20 (例如，(y_m+1 – y_m) < 10、(y_m+1– y_m) < 5、(y_m+1 – y_m) < 4、(y_m+1 – y_m) < 3或(y_m+1 – y_m) = 1)，共有序列保留靶核酸的定相和/或连锁信息。

所述技术的一些实施方案提供用作下一代测序文库以获得靶核酸序列的组合物，所述组合物包含3′-O-封闭的核苷酸类似物、3′-O-炔基核苷酸类似物、3′-O-炔丙基核苷酸类似物或包含可逆终止剂的核苷酸类似物；测序引物(例如与通用序列C互补的)；第二个测序引物(例如，与通用序列B互补的)；和包含(例如，通过形成的三唑连接，例如，通过点击化学，例如，通过基于铜的催化剂催化的叠氮化物与炔基之间的反应)与衔接头(例如，下一代测序衔接头寡核苷酸)连接的3′-O-封闭的核苷酸类似物、3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物或包含可逆终止剂的核苷酸类似物的n个核酸，，其中每个核酸包含靶核酸的核苷酸子序列、含有10-100个核苷酸的通用序列B、含有10-100个核苷酸的通用序列C和/或含有1-20个核苷酸的条码核苷酸序列，其中第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5′末端并具有位于靶核苷酸序列的核苷酸y_m处的3′末端；第(m + 1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5′末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3′末端；m范围为1到n；x_m = x_m+1；(y_m+1 – y_m) < 20 (例如，(y_m+1 – y_m) <15、(y_m+1 – y_m) < 10、(y_m+1 – y_m) < 5、(y_m+1 – y_m) < 4、(y_m+1 – y_m) < 3或 (y_m+1 – y_m) =1)；所述n个核酸包括具有不同条码核苷酸序列和靶核苷酸序列的不同核苷酸子序列的核酸，其中每个条码核苷酸序列与靶核苷酸序列关联(例如，以一对一的对应关系)。

所述技术的一些实施方案提供用作下一代测序文库以获得靶核酸序列的组合物，所述组合物包含n个核酸(例如，核酸片段文库)，其中n个核酸的每个包含3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物如3′-O-炔丙基核苷酸类似物)。在一些实施方案中，n个核酸的每个包含靶核苷酸序列的核苷酸子序列。特别地，实施方案提供包含n个核酸的组合物，其中n个核酸的每个被3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物如3′-O-炔丙基核苷酸类似物)终止。进一步的实施方案提供包含n个核酸的组合物(例如，核酸片段文库)，其中n个核酸的每个包含3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物如3′-O-炔丙基核苷酸类似物)并且n个核酸的每个通过三唑连接(例如，炔丙基与叠氮基，例如，通过点击化学反应化学缀合形成的连接)与寡核苷酸衔接头缀合(例如，连接)。例如，一些实施方案提供包含n个核酸的组合物(例如，核酸片段文库)，其中n个核酸的每个包含通过三唑连接(例如，炔丙基与叠氮基，例如，通过点击化学反应化学缀合形成的连接)与寡核苷酸衔接头缀合(或连接)的3′-O-炔丙基核苷酸类似物(例如，3′-O-炔丙基-dA、3′-O-炔丙基-dC、3′-O-炔丙基-dG和/或3′-O-炔丙基-dT)。

在一些实施方案中，用作下一代测序文库以获得靶核酸序列的组合物通过包括以下的方法产生：使用，例如，摩尔比率1:500-500:1 (例如，1:500、1:450、1:400、1:350、1:300、1:250、1:200、1:150、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、1:2、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、150:1、200:1、250:1、300:1、350:1、400:1、450:1或500:1)的dNTPs和一种或多种3′-O-封闭的核苷酸类似物(例如，一种或多种3′-O-炔基核苷酸类似物如一种或多种3′-O-炔丙基核苷酸类似物)的混合物合成n个核酸(例如，核酸片段文库)。在一些实施方案中，所述组合物使用从热球菌属(Thermococcus)物种(例如，分类谱系古生菌广古菌门热球菌纲热球菌目热球菌科热球菌属的生物体)获得、衍生、分离、克隆等的聚合酶产生。在一些实施方案中，所述聚合酶从热球菌属物种9°N-7获得、衍生、分离、克隆等。在一些实施方案中，聚合酶包含提供改进的修饰底物例如修饰的双脱氧核苷酸、核糖核苷酸和无环核苷酸的掺入的氨基酸置换。在一些实施方案中，聚合酶包含提供改进的包括修饰的3′官能团的核苷酸类似物例如本文所述的3′-O-炔丙基dNTPs的掺入的氨基酸置换。在一些实施方案中聚合酶的氨基酸序列相对于热球菌属物种9°N-7野生型聚合酶的氨基酸序列包含一个或多个氨基酸置换，例如，141位氨基酸处丙氨酸置换天冬氨酸(D141A)、143位氨基酸处丙氨酸置换谷氨酸(E143A)、409位氨基酸处缬氨酸置换酪氨酸(Y409V)和/或485位氨基酸处亮氨酸置换丙氨酸(A485L)。在一些实施方案中，聚合酶在包含克隆的，例如，包含一个或多个突变(例如，D141A、E143A、Y409V和/或A485L)的热球菌属物种9°N-7聚合酶基因的异源宿主生物体例如大肠杆菌中提供。在一些实施方案中，聚合酶为New England BioLabs (Ipswich, Mass.)以商品名THERMINATOR (例如，THERMINATORII)出售的热球菌属物种9°N-7 聚合酶。

因此，本技术涉及包含靶核酸、例如摩尔比率1:500-500:1 (例如，1:500、1:450、1:400、1:350、1:300、1:250、1:200、1:150、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、1:2、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、150:1、200:1、250:1、300:1、350:1、400:1、450:1或500:1)的dNTPs与一种或多种3′-O-封闭的核苷酸类似物(例如，一种或多种3′-O-炔基核苷酸类似物如一种或多种3′-O-炔丙基核苷酸类似物)的混合物，和用于使用dNTPs和一种或多种3′-O-封闭的核苷酸类似物合成核酸的聚合酶(例如，从热球菌属物种聚合酶获得、衍生、分离、克隆等的聚合酶)的反应混合物。在一些实施方案中，靶核酸为扩增子。在一些实施方案中，靶核酸包含条码。在一些实施方案中，靶核酸为包含条码的扩增子。在一些实施方案中，靶核酸为与包含条码的衔接头连接的扩增子。一些实施方案提供包含多个靶核酸的反应混合物，每个靶核酸包含与靶核酸的可鉴定特征关联的条码。

一些实施方案提供包含含有靶核酸子序列的模板(例如，环形模板，例如，含有通用核苷酸序列和/或条码核苷酸序列)、聚合酶、梯状片段文库的一个或多个片段和3′-O-封闭的核苷酸类似物的反应混合组合物。

一些实施方案提供包含核酸文库的反应混合组合物，所述核酸文库包含平铺在靶核酸上(例如，重叠短核苷酸序列覆盖包含100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、600个碱基、700个碱基、800个碱基、900个碱基、1000个碱基或超过1000个碱基，例如，2000个碱基、2500个碱基、3000个碱基、3500个碱基、4000个碱基、4500个碱基、5000个碱基或超过5000个碱基的靶核酸区域)并彼此偏移1-20、1-10或1-5个碱基(例如，1个碱基)的重叠短核苷酸序列，并且文库的每一核酸包含小于100个碱基、小于90个碱基、小于80个碱基、小于70个碱基、小于60个碱基、小于50个碱基、小于45个碱基、小于40个碱基、小于35个碱基或小于30个碱基。

一些实施方案提供用于产生序列文库的试剂盒，所述试剂盒包含含有第一个反应基团(例如，叠氮化物)的衔接头寡核苷酸、3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物，例如，含有炔基，例如，含有例如使用点击化学与第一个反应基团形成化学键的第二个反应基团)、聚合酶(例如，用于等温扩增或热循环的聚合酶)、第二个衔接头寡核苷酸、一种或多种含有核苷酸或核苷酸混合物的组合物和连接酶或基于铜的点击化学催化剂试剂。

在试剂盒的一些实施方案中，试剂盒包含一种或多种3′-O-封闭的核苷酸类似物(例如，一种或多种3′-O-炔基核苷酸类似物如一种或多种3′-O-炔丙基核苷酸类似物)和一个或多个含有叠氮基的衔接头寡核苷酸(例如，5′-叠氮基寡核苷酸，例如，5′-叠氮基-甲基寡核苷酸)。一些试剂盒的实施方案进一步提供包含条码的5′-叠氮基-甲基寡核苷酸。一些试剂盒的实施方案进一步提供包含多个条码的多个5′-叠氮基-甲基寡核苷酸(例如，每个5′-叠氮基-甲基寡核苷酸包含可与包含不同条码的一个或多个其他5′-叠氮基-甲基寡核苷酸的一个或多个其他条码区分的条码)。进一步的试剂盒实施方案包含点击化学催化试剂(例如，铜(I)催化试剂)。

除了一种或多种一种或多种3′-O-封闭的核苷酸类似物(例如，一种或多种3′-O-炔基核苷酸类似物如一种或多种3′-O-炔丙基核苷酸类似物)外一些试剂盒实施方案还包含一种或多种标准dNTP。例如，一些试剂盒实施方案在单独的容器中或作为与一种或多种3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP和/或3′-O-炔丙基-dATP的混合物提供dATP、dCTP、dGTP和dTTP。

一些试剂盒实施方案进一步包含从热球菌属物种(例如，分类谱系古生菌广古菌门热球菌纲热球菌目热球菌科热球菌属的生物体)获得、衍生、分离、克隆等的聚合酶。在一些实施方案中，所述聚合酶从热球菌属物种9°N-7获得、衍生、分离、克隆等。在一些实施方案中，聚合酶包含提供改进的修饰底物例如修饰的双脱氧核苷酸、核糖核苷酸和无环核苷酸的掺入的氨基酸置换。在一些实施方案中，聚合酶包含提供改进的包括修饰的3′官能团的核苷酸类似物例如本文所述的3′-O-炔丙基dNTPs的掺入的氨基酸置换。在一些实施方案中聚合酶的氨基酸序列相对于热球菌属物种9°N-7野生型聚合酶的氨基酸序列包含一个或多个氨基酸置换，例如，141位氨基酸处丙氨酸置换天冬氨酸(D141A)、143位氨基酸处丙氨酸置换谷氨酸(E143A)、409位氨基酸处缬氨酸置换酪氨酸(Y409V)和/或485位氨基酸处亮氨酸置换丙氨酸(A485L)。在一些实施方案中，聚合酶在包含克隆的，例如，包含一个或多个突变(例如，D141A、E143A、Y409V和/或A485L)的热球菌属物种9°N-7聚合酶基因的异源宿主生物体例如大肠杆菌中提供。在一些实施方案中，聚合酶为New England BioLabs(Ipswich, Mass.)以商品名THERMINATOR (例如，THERMINATOR II)出售的热球菌属物种9°N-7 聚合酶。

因此，一些试剂盒实施方案包含一种或多种3′-O-炔丙基核苷酸类似物(例如，一种或多种3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP和/或3′-O-炔丙基-dATP)、标准dNTPs (例如，dATP、dCTP、dGTP和dTTP)混合物、一个或多个5′-叠氮基-甲基寡核苷酸衔接头、从热球菌属物种获得、衍生、分离、克隆等的聚合酶和用于从叠氮基和炔基形成三唑的点击化学催化剂。在一些实施方案中，一种或多种3′-O-炔丙基核苷酸类似物(例如，一种或多种3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP和/或3′-O-炔丙基-dATP)与标准dNTPs (例如，dATP、dCTP、dGTP和dTTP)的混合物一起提供，例如，试剂盒包含含有一种或多种3′-O-炔丙基核苷酸类似物(例如，一种或多种3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP和/或3′-O-炔丙基-dATP)与标准dNTPs (例如，dATP、dCTP、dGTP和dTTP)的混合物的溶液。在一些实施方案中，所述溶液包含比率为1:500-500:1 (例如，1:500、1:450、1:400、1:350、1:300、1:250、1:200、1:150、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、1:2、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、150:1、200:1、250:1、300:1、350:1、400:1、450:1或500:1)的一种或多种3′-O-炔丙基核苷酸类似物(例如，一种或多种3′-O-炔丙基-dATP、3′-O-炔丙基-dCTP、3′-O-炔丙基-dGTP和/或3′-O-炔丙基-dATP)与标准dNTPs (例如，dATP、dCTP、dGTP和dTTP)的混合物。

试剂盒的一些实施方案进一步包含用于处理序列数据的软件，例如，以从测序仪产生的数据提取核苷酸序列数据；以从测序仪产生的数据鉴定条码和靶子序列；以从测序仪产生的数据比对和/或汇编子序列以产生共有序列；和/或以比对子序列和/或共有序列与参考序列(例如，以鉴定序列差异(例如，以鉴定等位基因、同系物、系统发育关系、染色体、序列相似性或差异、突变和/或测序错误，等)和/或校正序列异常(例如，测序错误))。

一些实施方案提供用于测序靶核酸的系统，所述系统包括含有第一个反应基团(例如，叠氮化物)的衔接头寡核苷酸、3′-O-封闭的核苷酸类似物(例如，3′-O-炔基核苷酸类似物或3′-O-炔丙基核苷酸类似物，例如，含有炔基和，例如，含有使用点击化学，例如，使用基于铜的点击化学催化剂与第一个反应基团形成化学键的第二个反应基团)、测序装置、核酸片段梯(例如，包含具有相差小于20个核苷酸、小于10个核苷酸、小于5个核苷酸、小于4个核苷酸、小于3个核苷酸或仅相差1个核苷酸的3′末端的多个核酸)和用于将短重叠核苷酸序列汇编成共有序列的软件，其中每个短核苷酸序列具有小于100、小于90、小于80、小于70、小于60、小于50、小于45、小于40、小于35或小于30个碱基；所述短核苷酸序列平铺在具有至少100、200、300、400、500、600、700、800、900、1000、2000、2500、3000、3500、4000、5000或超过5000个碱基的靶核酸上；并且所述短核苷酸序列彼此偏移1-20、1-10或1-5个碱基。

基于本文包含的教导额外的实施方案将对相关领域的技术人员显而易见。

附图简述

考虑下列附图本技术的这些和其他特征、方面以及优点将变得更好地理解：

图1为描绘用于测序核酸的技术的实施方案的示意图。

图2为描绘用于产生下一代测序文库的技术的实施方案的示意图。图2A显示所述技术的一个实施方案，图2B显示所述技术的另一个实施方案。图2C显示所述技术的另一个实施方案。

图3为描绘用于测序核酸的技术的实施方案的示意图。

图4为描绘用于测序核酸的技术的实施方案的示意图。

图5显示涉及可用于测序核酸的技术的实施方案的流程图。图5A为显示包括从NGS文库获得序列数据和提取靶序列的重叠子序列的技术的实施方案的流程图。图5B为显示用于提取序列数据的包括串联序列数据文件、鉴定和提取靶序列以及比对靶序列以提供共有序列的技术的实施方案的流程图。

图6显示本技术的实施方案所产生的短序列阅读对靶序列的预测和实验覆盖。图6A显示40-bp阅读的序列比对和相应的序列覆盖概况。还示出了共有和参考序列(包含人KRAS的外显子2和部分侧翼内含子序列的177-bp序列)。图6B显示对于理论模板参考序列预测的短阅读序列比对和相应的序列覆盖概况。

图7显示涉及使用包含条码序列和通用序列的引物的聚合酶延伸的“拷贝和标签”方案的技术的实施方案的示意图。

图8显示“拷贝和标签”反应产物的实验检测方案和聚合酶延伸阻断剂的有效性的评估方案。

图9显示根据所述技术的具体实施方案基于衔接头连接的分子条码策略方案。

图10显示衔接头连接产物的实验检测方案。

图11显示作为根据本文所提供的技术产生梯状片段的步骤的单链DNA的分子内连接(环化)方案。

图12显示与涉及产生用于片段梯产生的环形模板的技术的实施方案有关的环形模板的实验检测方案。

应理解的是图不一定按比例绘制，图中的物体也不一定彼此成比例绘制。图为意在带来对本文所公开装置、系统和方法的多个实施方案的清楚和理解的描绘。只要有可能，相同的参考数字将在整个附图中用于指相同或相似的部分。此外，应理解的是附图不意在以任何方式限制本教导的范围。

发明详述

本技术一般地涉及获得核苷酸序列，例如共有序列或单元型序列。在本文所提供的一些实施方案中为从待测序的较大的靶DNA片段产生短重叠DNA片段文库的技术。短重叠DNA片段具有使得一个片段与另一个片段在其3′末端相差1-5个碱基，优选1个碱基的一系列长度(例如，与常规Sanger测序方法产生的相似的片段梯)。在一些实施方案中，将短重叠DNA片段编入指标以产生下一代测序(NGS)文库。所述文库可用于通过从DNA片段的变化的3′末端开始测序反应实施NGS。从短重叠片段的3′末端获得~30个碱基-~50个碱基序列阅读产生跨越待测序的较大靶DNA并彼此偏移1-5个碱基，优选偏离1个碱基的~30个碱基-~50个碱基序列阅读的平铺集合。汇编该重叠的~30–50 bp短序列阅读产覆盖靶DNA片段的较大区域(~800–1000 bp)的长连续阅读。因此，每个序列阅读来自于NGS产生的最高质量碱基(例如，开始的20-100个碱基)并且汇编的每个碱基为30-50独立高质量序列阅读的共有区。

在本技术的说明书中，本文所使用的节标题仅为组织目的并且不应解释为以任何方式限制所描述的主题。

在该多个实施方案的详述中，为了解释目的，阐述了很多具体的细节以提供对所公开实施方案的透彻理解。然而，本领域技术人员将理解的是，这些多个实施方案可具有或不具有这些具体细节实践。在其他情况下，结构和装置以框图形式显示。此外，本领域技术人员可容易地理解，呈现和实施方法的具体顺序为说明性的并且预计顺序可进行改变但仍在本文所公开的多个实施方案的精神和范围内。

对于任何目的本申请中引用的所有文献和相似材料，包括但不限于，专利、专利申请、文章、书籍、论文和因特网网页通过引用以其整体清楚地结合。除非另外定义，本文使用的所有技术和科学术语具有与本文所述多个实施方案所属领域的普通技术人员通常理解的相同的含义。当所结合参考中的术语的定义似乎与本教导中提供的定义不同时，应以本教导中提供的定义为准。

定义

为了便于理解本技术，下文定义了许多术语和短语。额外的定义在整个详述中阐述。

在整个说明书和权利要求中，下列术语采用本文明确相关的含义，除非上下文另有清楚指示。如本文所使用的短语“在一个实施方案中”不一定指相同的实施方案，尽管其可能指相同的实施方案。此外，如本文所使用的短语“在另一个实施方案中”不一定指不同的实施方案，尽管其可能指不同的实施方案。因此，如下文所描述的，可容易地组合本发明的多个实施方案，而不脱离本发明的范围或精神。

另外，如本文所使用的，术语“或”为包含在内的“或”算符并且与术语“和/或”等同，除非上下文另有清楚指示。术语“基于”不是排他的并且允许基于额外的未描述的因素，除非上下文另有清楚指示。另外，在整个说明书中，“一个”、“一种”和“所述”的含义包括复数参考。“在其中”的含义包括“在其中”和“在其上”。

如本文所使用的，“核苷酸”包含“碱基”(或者，“核苷碱基”或“含氮碱基”)、“糖”(特别地，五碳糖，例如，核糖或2-脱氧核糖)和一个或多个磷酸基团的“磷酸部分”(例如，分别由一个、两个或三个连接的磷酸组成的单磷酸、二磷酸或三磷酸)。无磷酸部分，核苷碱基和糖组成“核苷”。因此根据连接的磷酸基团数目核苷酸还可称为核苷一磷酸或核苷二磷酸或核苷三磷酸。磷酸部分通常连接到糖的5-碳，尽管一些核苷酸包含连接到糖的2-碳或3-碳的磷酸部分。核苷酸包含嘌呤(在核苷酸腺嘌呤和鸟嘌呤中)或嘧啶碱基(在核苷酸胞嘧啶、胸腺嘧啶和尿嘧啶中)。核糖核苷酸为其中糖为核糖的核苷酸。脱氧核糖核苷酸为其中糖为脱氧核糖的核苷酸。

如本文所使用的，“核酸”应意指任何核酸分子，包括，但不限于，DNA、RNA及其杂交体。形成核酸分子的核酸碱基可为碱基A、C、G、T和U，及其衍生物。这些碱基的衍生物为本领域所熟知。该术语应理解为包括，作为相等物，由核苷类似物制成的DNA或RNA的类似物。如本文所使用的该术语还包括cDNA，其为例如通过反转录酶的作用从RNA模板产生的互补拷贝DNA。

如本文所使用的，“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”、“片段序列”或“核酸测序阅读”指任何指示DNA或RNA分子(例如，全基因组、全转录子组、外显子组、寡核苷酸、多核苷酸、片段，等)内的核苷酸碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)次序的信息或数据。

应理解本教导考虑使用所有可用的技术、平台或工艺种类获得的序列信息，包括，但不限于：毛细管电泳、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴定系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统，等。

对碱基、核苷酸或另一种分子的提及可为单数或复数。即，“一个碱基”可指，例如，溶液中的该碱基的单个分子或多个该碱基。

“多核苷酸”、“核酸”或“寡核苷酸”指通过核苷间连接结合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。典型地，多核苷酸包含至少三个核苷。通常寡核苷酸大小范围从几个单体单元，例如3-4，到几百个单体单元。每当多核苷酸例如寡核苷酸用字母序列，例如“ATGCCTG”表示时，其将理解为核苷酸为从左到右5'-3'的次序并且“A”指脱氧腺苷，“C”指脱氧胞苷、“G”指脱氧鸟苷和“T”指胸苷，除非另外注明。字母A、C、G和T可用于指碱基本身、核苷或包含碱基的核苷酸，如本领域中的标准。

如本文所使用的，术语“靶核酸”或“靶核苷酸序列”指其操作以任何理由被本领域普通技术人员认为是期需的任何核苷酸序列(例如，RNA或DNA)。在一些语境中，“靶核酸”指其核苷酸序列待测定或期需被测定的核苷酸序列。在一些语境中，术语“靶核苷酸序列”指产生与其部分或完全互补的引物或探针的序列。

如本文所使用的，“目的区域”指(例如，使用本文所述的组合物、系统或方法之一)分析的核酸。在一些实施方案中，目的区域为为基因组的或基因组DNA区域的一部分(例如，包含一个或多个染色体或一个或多个基因)。在一些实施方案中，分析从目的区域表达的mRNA。

如本文所使用的，术语“对应于”或“对应的”关于与全部或部分靶核酸序列互补并且因此“对应”的连续核酸或核苷酸序列(例如，子序列)使用。

如本文所使用的，短语“克隆的多个核酸”指为产生其的模板核酸的完全或部分拷贝的核酸产物。这些产物彼此大体或完全或基本同一，并且其为合成其的模板核酸链的互补拷贝，假定合成克隆核酸分子期间核苷酸错误掺入率为0%。

如本文所使用的，术语“文库”指多个核酸，例如，多个不同核酸。

如本文所使用的，核苷酸序列的“子序列”指该核苷酸序列内包含的任何核苷酸序列，包括具有单个碱基大小的任何子序列直至比核苷酸序列短一个碱基的子序列。

如本文所使用的，术语“共有序列”指比对的序列群中共同的，或否则以最大分数存在的序列。共有序列显示序列群的核酸序列内每个位置处最常见地存在的核苷酸。共有序列常常从较短的序列阅读“汇编”。

如本文所使用的，“汇编”指从较短的序列，例如，实验获得的序列阅读产生核苷酸序列信息。序列汇编可一般地分为两大类：重新汇编和参考基因组定位汇编。在重新汇编中，将序列阅读汇编在一起以使其形成新的和先前未知的序列。在参考基因组“定位”中，针对现有“参考序列”汇编序列阅读以建立与参考序列相似但不一定同一的序列。

短语“测序运行”指所进行的以测定与至少一个生物分子(例如，核酸分子)有关的一些信息的测序实验的任何步骤或部分。

如本文所使用的，短语“dNTP”意指脱氧核苷酸三磷酸，其中所述核苷酸包含核苷酸碱基，例如，A、T、C、G或U。

如本文所使用的术语“单体”意指可通过给定的聚合酶掺入生长的分子链内的任何化合物。这样的单体包括，但不限于，天然存在的核苷酸(例如，ATP、GTP、TTP、UTP、CTP、dATP、dGTP、dTTP、dUTP、dCTP、合成的类似物)、各核苷酸的前体、非天然存在的核苷酸及其前体或可通过给定的聚合酶掺入生长的聚合物链内的任何其他分子。

如本文所使用，“互补的”一般指双螺旋以形成规范的Watson-Crick碱基对的特定核苷酸，如本领域技术人员所理解的。然而，互补的还包括能够与A、T、G或C核苷酸通用碱基配对并锁定核酸增强双链体的热稳定性的核苷酸类似物的碱基配对。本领域技术人员将认识到杂交严格性为杂交所形成的双链体中匹配或错配程度的决定因素。

“聚合酶”为一般用于连接3′-OH 5′-三磷酸核苷酸、寡聚物及其类似物的酶。聚合酶包括，但不限于，DNA-依赖性DNA聚合酶、DNA-依赖性RNA聚合酶、RNA-依赖性DNA聚合酶、RNA-依赖性RNA聚合酶、T7 DNA聚合酶、T3 DNA聚合酶、T4 DNA聚合酶、T7 RNA聚合酶、T3RNA聚合酶、SP6 RNA聚合酶、DNA聚合酶1、Klenow片段、水生嗜热链球菌(Thermophilus aquaticus)(Taq) DNA聚合酶、嗜热栖热菌(Thermus thermophilus)(Tth) DNA聚合酶、Vent DNA聚合酶(New England Biolabs)、Deep Vent DNA聚合酶(New England Biolabs)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)(Bst) DNA聚合酶、DNA聚合酶大片段、Stoeffel片段、9°N DNA聚合酶、9°N_m聚合酶、Pyrococcus furiosis (Pfu)DNA聚合酶、丝状栖热菌(Thermus filiformis)(Tfl) DNA聚合酶、RepliPHI Phi29聚合酶、嗜热高温球菌(Thermococcus litoralis)(Tli) DNA聚合酶、真核DNA聚合酶β、端粒末端转移酶、Therminator (例如，THERMINATOR I、THERMINATOR II等)聚合酶(New England Biolabs)、KOD HiFi. DNA聚合酶(Novagen)、KOD1 DNA聚合酶、Q-β复制酶、末端转移酶、AMV反转录酶、M-MLV反转录酶、Phi6反转录酶、HIV-1反转录酶、生物勘探和/或分子进化发现的新型聚合酶和美国专利申请出版号2007/0048748和美国专利号6,329,178、6,602,695和6,395,524中引用的聚合酶。这些聚合酶包括野生型、突变体同种型和经基因工程改造的变体例如exo^–聚合酶、具有最小的、不可检测的和/或降低的3'→ 5' 校对外切核酸酶活性的聚合酶和其他突变体，例如耐受标记的核苷酸并将其掺入核酸链中的突变体。在一些实施方案中，聚合酶设计为用在，例如，实时PCR、高保真度PCR、下一代DNA测序、快速PCR、热启动PCR、粗样品PCR、稳健PCR和/或分子诊断中。这样的酶可从许多供应商，例如，Kapa Enzymes、Finnzymes、Promega、Invitrogen、Life Technologies、Thermo Scientific、Qiagen、Roche等获得。

术语“引物”是指当放置在诱导与核酸链互补的引物延伸产物合成的条件下时(例如，在核苷酸和诱导剂例如DNA聚合酶的存在下以及在合适的温度和pH下)能够充当合成起始点的寡核苷酸，无论是在纯化的限制酶消化产物中天然存在的还是合成产生的。为了在扩增中达到最大效率，所述引物优选为单链的，但可备选地为双链的。若为双链，首先处理引物以分开其两条链，然后用于制备延伸产物。优选地，所述引物为寡脱氧核糖核苷酸。引物必须足够长以便在诱导剂存在下引发延伸产物合成。引物的确切长度将取决于多个因素，包括温度、引物来源和所使用的方法。

如本文所使用的，“衔接头”为与核酸连接或设计为与核酸连接以将核酸引入测序工作流中的寡核苷酸。衔接头可为单链的或双链的(例如，双链DNA或单链DNA)。如本文所使用的，术语“衔接头”指处于不与另一个核酸连接的状态或处于与核酸连接的状态的衔接头核酸。

衔接头的至少一部分包含已知的序列。例如，衔接头的一些实施方案包含用于核酸扩增和/或用于测序引物结合的引物结合序列。一些衔接头包含用于互补的捕获探针杂交的序列。一些衔接头包含用于捕获和或固定至固体载体(例如，包含亲和素部分)的化学或其他部分(例如，生物素部分)。衔接头的一些实施方案包含使衔接头和其所连接的核酸可鉴定的标志、指标、条码、标签或其他序列。

一些衔接头包含通用序列。通用序列为在通用序列之外的其他方面可具有不同序列的多个衔接头所共享的序列。例如，通用序列为，例如，可包含不同条码的来自不同靶核酸的核酸集合提供共同的引物结合位点。

衔接头的一些实施方案包含限定的但未知的序列。例如，衔接头的一些实施方案包含限定数目的碱基的简并序列(例如，1-至20-碱基简并序列)。这样的序列为限定的，即使每个个体序列未知——这样的序列仍可用作标记来自，例如，同一靶核酸的核酸片段的指标、条码、标签等。

一些衔接头包含平末端，一些衔接头包含具有一个或多个碱基突出的末端。

在本文所提供的具体实施方案中，衔接头包含叠氮基部分，例如，衔接头在其5′末端包含叠氮基(例如，叠氮基-甲基)部分。因此，一些实施方案涉及为或包含5′-叠氮基-修饰的寡核苷酸或5′-叠氮基-甲基-修饰的寡核苷酸的衔接头。

如本文所使用的，“系统”表示一套组件，真实的或抽象的，包括其中每个组件与整体内的至少一个其他组件相互作用或相关的整体。

如本文所使用的，“指标”应一般意指与众不同的或辨识性的标志或特征。指标的一个实例为用作“条码”以鉴定包含条码和其他序列的较长核苷酸的短核苷酸序列。

如本文所使用的，术语“相位”或“定相”指从每个亲本遗传的两个染色体的独特内容和/或核酸(例如，染色体)上存在的分离母本或父本衍生序列的信息。例如，单元型定相信息描述哪个核苷酸(例如，SNP)、区域、部分或片段源自各亲本染色体(或与小病毒准物种有关)。

如本文所使用的“Sanger梯”、“DNA梯”、“片段梯”或“梯”指各自长度相差少量碱基，例如，1-5个碱基并且在一些优选的实施方案中仅相差1个碱基的核酸(例如，DNA)的文库。在一些实施方案中，梯中的核酸具有与制作其的模板中的相同核苷酸位置(或落入小范围的核苷酸位置内，例如，1-10个核苷酸位置)对应的5′末端并具有与制作其的模板中的一系列核苷酸位置对应的不同3′末端。参见，例如，示例性梯和/或与本文在Sanger &Coulson (1975) “A rapid method for determining sequences in DNA by primedsynthesis with DNA polymerase (用于通过用DNA聚合酶的引发合成测定DNA中序列的快速方法)” J Mol Biol 94(3):441–8; Sanger等人(1977) “DNA sequencing with chain-terminating inhibitors (用链终止抑制剂的DNA测序)” Proc Natl Acad Sci USA 74(12): 5463–7中提供的那些类似的梯。

详述

在一些实施方案中，本文所提供的技术提供创建跨越DNA片段的较大区域的短重叠DNA片段的方法和组合物。特别地，所述短DNA片段组成具有一个片段到下一个较大片段大小增加，例如，1-20个碱基对、1-10个碱基对、1-5个碱基对，优选1个碱基对的一系列大小的DNA片段群(例如，如在Sanger测序产生的片段的情况下)。在一些实施方案中，具有通用序列的短核酸附在每个片段的3′末端(例如，其中产生梯的片段末端)。随后，片段使用与通用序列互补的测序引物测序。正因如此，产生的序列具有一系列与沿较长DNA的长度分布的从连接至通用序列的第一个碱基直至500个碱基或更多的碱基对应的5′ (第一个)碱基。优选地，产生的序列具有一系列与沿较大DNA的长度分布的每个碱基对应的5′ (第一个)碱基。用此方法，短NGS阅读(~30-~50个碱基)用于汇编保留相位和/或连锁信息的长连续阅读(参见，例如，图1)。

1. 用于产生NGS文库的方法

本技术的实施方案通过图2中所示的示意图描绘。首先，在一些实施方案中，使用一个或多个靶特异性引物扩增靶核酸(参见，例如，图2A，步骤i；图2C，步骤i)。靶核酸可为DNA或RNA，例如，基因组DNA、mRNA、粘粒、F粘粒或细菌人工染色体(例如，包含插入物)、基因、质粒等。在一些实施方案中，首先将RNA反转录以产生DNA。扩增可为PCR，有限循环(低循环，例如5-15个循环(例如，8个循环)) PCR，等温PCR、用Phi29或Bst酶扩增，等，例如，如图2A和图2C中所示。

在一些实施方案中，靶特异性引物包含通用序列(例如，通用序列A)和允许跟踪和/或鉴定产生扩增产物(扩增子)的靶核酸的独特的鉴定指标序列(例如，条码序列；参见图2A，“NNNNN”条码序列)二者。一般地，条码序列可由1-10或更多个核苷酸组成。例如，10-碱基条码序列提供1,048,576 (4¹⁰)种独特可鉴定靶-特异性引物分子的组合。因此，用适当设计的条码长度，可将包含小量到非常大量靶DNA片段的起始材料可靠地标记和指标而不需用相同条码序列重复标记。

在一些实施方案中，引物用于扩增(例如，不包含条码)并将靶扩增子与包含一个或多个通用序列和/或一个或多个条码序列(参见，例如，图2C，“NNNNNNNNNN”条码序列，步骤ii)的衔接头连接。因此，在一些实施方案中下一个步骤包括连接衔接头与靶扩增子。在一些实施方案中，衔接头包含含有在5′末端和3′末端两侧为两个不同的通用序列(例如，通用序列A和通用序列B；参见图9)的简并序列(例如，包含8-12个碱基)的第一条链和含有通用序列C (例如，在5′末端)以及与通用序列B互补的和在3′-末端位置具有额外的T的序列(例如，在3′末端)的第二条链。

本文提供用于从环化模板产生片段梯的实施方案(参见，例如，图2A和图2B)并且本文提供用于从线性模板产生片段梯的实施方案(参见，例如，图2C)。因此，在一些实施方案中，下一个步骤包括将独特的条码个体扩增子在其3′末端与约10-80个碱基长并且包含第二个通用序列(例如通用序列B)的衔接头寡核苷酸连接(参见，例如，图2A，步骤ii)。连接后，将衔接头-扩增子核酸自身-连接(例如，环化)以形成环形模板(参见，例如，图2A，步骤iii)。环化使3′末端的通用序列与5′末端的条码序列相邻。分子内连接可使用连接酶实现。例如，CircLigase II (Epicentre)是一个热稳定的催化具有5′磷酸和3′羟基的单链DNA模板分子内连接的单链DNA连接酶。

然后，在涉及使用环化模板的实施方案中，Sanger片段-样DNA梯使用与通用序列A互补的引物和如本文所述的dNTPs和3′-O-封闭的dNTP类似物的混合物通过聚合酶反应产生(参见，例如，图2A，步骤iv)。在一些实施方案中，3′-O-封闭的dNTP类似物为3′-O-炔基核苷酸类似物(例如，在紧接炔基的分子骨架上具有饱和位置(sp³-杂化)的烷基，及其取代变体)。在一些实施方案中，3′-O-封闭的dNTP类似物为具有如下所示结构的3′-O-炔丙基核苷酸类似物：

,

其中B为核苷酸的碱基(例如，腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶或天然或合成的核苷碱基，例如，修饰的嘌呤如次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤；修饰的嘧啶如5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-羟甲基胞嘧啶；等)并且P包含磷酸部分。在一些实施方案中，P包含四磷酸、三磷酸、二磷酸、单磷酸、5′羟基、α硫代磷酸(例如，硫代磷酸或二硫代磷酸)、β硫代磷酸(例如，硫代磷酸或二硫代磷酸)和/或γ硫代磷酸(例如，硫代磷酸或二硫代磷酸)、或α甲基膦酸、β甲基膦酸和/或γ甲基膦酸。本技术考虑其他炔基并可用在所述技术中，例如丁炔基等。在一些实施方案中，核苷酸类似物如本文其他节中所述。

或者，在涉及使用线性模板的实施方案中(参见，例如，图2C)，Sanger片段-样DNA梯使用与衔接头中的序列互补的引物和如本文所述的dNTPs和3′-O-封闭的dNTP类似物的混合物通过聚合酶反应产生(参见，例如，图2C，步骤iii)。在一些实施方案中，3′-O-封闭的dNTP类似物为3′-O-炔基核苷酸类似物(例如，在紧接炔基的分子骨架上具有饱和位置(sp³-杂化)的烷基，及其取代变体)。在一些实施方案中，3′-O-封闭的dNTP类似物为具有如下所示结构的3′-O-炔丙基核苷酸类似物：

，

本技术的实施方案提供与现有技术相比的优点。例如，在一些实施方案中所述技术从小量输入核酸(例如，小于10 ng的核酸，例如，小于10 ng的基因组DNA)提供高质量序列。所述技术提供个体模板的稳健标记。文库的产生是有效的，因为该方法包括很少的操作(因此很少的清理步骤)并且每一操作具有充足的得率。

在一些实施方案中，核苷酸类似物包含含有可移除以解锁核苷酸的阻断基团的可逆终止剂。在一些实施方案中，核苷酸类似物包含，例如，为后续步骤提供特定的期需反应性的功能终止剂。

核苷酸类似物导致产生具有一系列大小的片段的片段梯。例如，在一些实施方案中，所述片段具有约10-约50 bp、约10-约100 bp、以及至多约100 bp-约700 bp或约800 bp或更多bp的长度；此外，在一些实施方案中通过调整反应混合物中dNTPs与3′-O-封闭的dNTP类似物的比率(例如，使用1:500-500:1的比率(例如，1:500、1:450、1:400、1:350、1:300、1:250、1:200、1:150、1:100、1:90、1:80、1:70、1:60、1:50、1:40、1:30、1:20、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、1:2、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、150:1、200:1、250:1、300:1、350:1、400:1、450:1或500:1))可达到超过1000 bp的长度。

在这些实施方案中对于该步骤常规双脱氧核苷酸(ddNTP)测序技术(例如，Sanger-型测序化学)是不合适的，因为终止ddNTP中3′ -OH基团的缺乏创造出一个在后续步骤中不能接受第二个衔接头寡核苷酸连接的非反应性的终末3′端。

一旦产生具有反应性(例如，可连接的) 3′末端的核酸片段梯，将包含通用序列(例如，通用序列C)的第二个衔接头寡核苷酸(酶或化学)连接至核酸片段梯的片段的3′末端以产生NGS文库(参见，例如，图2A，步骤v；图2C，步骤(iv))。在一些实施方案中，进行有限循环PCR或另一种扩增方法以扩增终产物。

在一些实施方案中，所述方法可用于获得，例如，~120–200 bp的短序列。这样的实施方案可用于，例如，评估癌症基因，例如，以评估癌症组的突变。在一些实施方案中，所述技术可用于获得500 bp、1000 bp或更长的序列。例如，在一些实施方案中，靶核酸使用一个或多个靶特异性引物扩(参见，例如，图2B，步骤i；图2C，步骤(i))。靶核酸可为DNA或RNA，例如，基因组DNA、mRNA、粘粒、F粘粒或细菌人工染色体(例如，包含插入物)、基因、质粒，等。在一些实施方案中，首先将RNA反转录以产生DNA。扩增可为PCR、有限循环PCR、等温PCR、用Phi29或Bst酶扩增，等，例如，如图2B和图2C中所示。

在一些实施方案中，靶特异性引物包含通用序列(例如，通用序列A)和允许跟踪和/或鉴定产生扩增产物(扩增子)的靶核酸的独特的鉴定指标序列(例如，条码序列；参见图2B，“NNNNN”条码序列)二者。一般地，条码序列可由1-10或更多个核苷酸组成。例如，10-碱基条码序列提供1,048,576 (4¹⁰)种独特的可鉴定靶-特异性引物分子的组合。因此，用适当设计的条码长度，可将包含小量到非常大量靶DNA片段的起始材料可靠地标记和指标而不需用相同条码序列重复标记。

在一些实施方案中，下一个步骤包括将独特条码个体扩增子在其3′末端与约10-80个碱基长并包含第二个通用序列(例如，通用序列B)的衔接头寡核苷酸连接(参见，例如，图2B，步骤ii)。连接后，将衔接头-扩增子核酸自身-连接(例如，环化)以形成环形模板(参见，例如，图2B，步骤iii)。环化使3′末端的通用序列与5′末端的条码序列相邻。分子内连接可使用连接酶实现。例如，CircLigase II (Epicentre)是一个热稳定的催化具有5′磷酸和3′羟基的单链DNA模板分子内连接的单链DNA连接酶。

使用环化模板，Sanger片段-样DNA梯使用与通用序列A互补的引物和如本文所述的dNTPs和3′-O-封闭的dNTP类似物的混合物通过聚合酶反应产生(参见，例如，图2B，步骤iv)。在一些实施方案中，3′-O-封闭的dNTP类似物为3′-O-炔基核苷酸类似物(例如，在紧接炔基的分子骨架上具有饱和位置(sp³-杂化)的烷基，及其取代变体)。在一些实施方案中，3′-O-封闭的dNTP类似物为具有如下所示结构的3′-O-炔丙基核苷酸类似物：

,

在一些实施方案中，核苷酸类似物包含含有可移除以解锁核苷酸的阻断基团的可逆终止剂。在一些实施方案中，核苷酸类似物包含，例如，为后续步骤提供特定的期需反应性的功能终止剂。核苷酸类似物导致产生具有一系列大小的片段的片段梯。例如，在一些实施方案中，所述片段具有~100 bp-~700或800 bp的长度；此外，在一些实施方案中，例如，通过调整反应混合物中dNTPs与3′-O-封闭的dNTP类似物的比率，达到超过1000 bp-超过10,000 bp的序列长度。

在这些实施方案中对于该步骤常规双脱氧核苷酸(ddNTP)测序技术(例如，Sanger-型测序化学)是不合适的，因为终止ddNTP中3′ -OH基团的缺乏创造出一个在后续步骤中不能接受第二个衔接头寡核苷酸连接的非反应性的末端3′端。

然后，将核酸片段梯环化以形成核酸环文库(参见，例如，图2B，步骤v)。用一个或多个限制酶消化后(参见，例如，图2B，步骤vi)，将第二个衔接头寡核苷酸(例如，包含包含通用序列，例如，通用序列C)(酶或化学)连接至核酸环文库的消化产物的3′末端以产生NGS文库(参见，例如，图2B，步骤vii)。在一些实施方案中，进行有限循环PCR或另一种扩增方法以扩增终产物。不受任何具体的方法或实施所提供方法的任何步骤的时间长度限制，在一些实施方案中所描述的方法需要~6 (例如，~6.5)小时- ~9 (例如，~8.5)小时完成。

在一些实施方案中(例如，使用3′-O-炔基核苷酸类似物终止剂如3′-O-炔丙基核苷酸类似物的实施方案)，所述片段包含3′炔。然后，在一些实施方案中，第二个衔接头寡核苷酸包含含有可与片段3′炔基反应的5′叠氮(N₃)基的通用序列(例如，通用序列C)。然后，在一些实施方案中，使用“点击化学”过程例如叠氮化物-炔环加成经由三唑形成连接衔接头与片段：

，

其中R₁和R₂各自为任何化学结构或化学部分。

在一些实施方案中，三唑环连接具有下列结构：

，例如，，例如，，例如，，

其中R₁和R₂各自为任何化学结构或化学部分(并且不一定为结构与结构上相同的)，B、B₁和B₂各自指示核苷酸的碱基(例如，腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、或天然或合成的核苷碱基，例如，修饰的嘌呤如次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤；修饰的嘧啶如5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-羟甲基胞嘧啶；等)。

炔-叠氮化物环加成形成的三唑环连接具有与核酸中存在的天然磷酸二酯键相似的特征(例如，物理、生物、化学特征)，因此为核酸主链模拟物。因此，识别天然核酸作为底物的常规酶也识别如本文所述技术提供的通过炔-叠氮化物环加成形成的产物作为底物。参见，例如，El-Sagheer等人(2011) “Biocompatible artificial DNA linker that isread through by DNA polymerases and is functional in Escherichia coli (被DNA聚合酶通读的并且在大肠杆菌中有功能的生物相容的人工DNA接头)” Proc Natl Acad Sci U S A108(28): 11338-43，通过引用以其整体结合到本文中)。

然后使用最终的NGS片段文库作为NGS系统输入用于测序。测序期间，测序邻近包含通用序列C的衔接头的DNA的~20-50个碱基(对应于靶核酸的~20-50个碱基)并且测序邻近包含通用序列B的衔接头的条码(参见，例如，图3)。一旦获得序列，通过条码序列将序列阅读解析至箱子(bins)中以收集源自用特定的独特条码序列标记的模板分子的序列阅读(参见，例如，图3)。将每个箱子(对于每个条码序列)中的序列阅读相互比对并汇编以建立具有完整相位信息的较长的连续共有序列。可将该序列与适当的参考序列比对用于下游测序分析。

例如，美国专利申请出版号2011/0270533中描述了多个示例性的核酸测序平台、核酸汇编和/或核酸定位系统(例如，计算机软件和/或硬件)，所述申请通过引用结合到本文中。“配对末端”、“配对”和其他汇编-相关测序技术在分子生物学领域众所周知(SiegelA. F. 等人, Genomics 2000, 68: 237-246; Roach J. C.等人, Genomics 1995, 26:345-353)。这些测序技术允许测定序列的多个“阅读”，每个阅读来自单个多核苷酸的不同位置。通常，已知阅读之间的距离或关于阅读之间关系的其他信息。在一些情况下，这些测序技术提供比以随机方式测序多段核酸序列所提供的多的信息。使用适当的软件工具汇编序列信息(例如，Millikin S. C.等人, Genome Res. 2003, 13: 81-90; Kent, W. J.等人, Genome Res. 2001, 11: 1541-8)利用序列不完全随机而是已知发生已知的距离间隔和/或具有一些其他关系并因此在基因组中连锁这一知识是可能的。该信息可有助于将整个核酸序列汇编为共有序列。

2. 核苷酸类似物

在一些实施方案中核苷酸类似物可用作功能核苷酸终止剂(例如，在本文所述组合物、方法、试剂盒和系统的实施方案中)。功能核苷酸终止剂，例如，通过阻断3′羟基进一步参与聚合反应终止核酸聚合并且包含可参与与其他化学部分和基团的其他化学反应的功能反应性基团。

例如，在一些实施方案中可使用包含炔基的核苷酸类似物，例如，具有下列结构：

，

其中B为碱基，例如，腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶，例如，具有下列结构：

，

或修饰的碱基或碱基类似物，P包含磷酸部分，例如，以提供具有下列结构的核苷酸：

。

在一些实施方案中，P包含四磷酸、三磷酸、二磷酸、单磷酸、5′羟基、α硫代磷酸(例如，硫代磷酸或二硫代磷酸)、β硫代磷酸(例如，硫代磷酸或二硫代磷酸)和/或γ硫代磷酸(例如，硫代磷酸或二硫代磷酸)、或α甲基膦酸、β甲基膦酸和/或γ甲基膦酸。在一些实施方案中，P包含叠氮化物(例如，N₃，例如，N=N=N)，因此在一些实施方案中提供定向的双功能聚合剂。在一些实施方案中，所述技术包括使用如共同未决的美国专利申请序列号14/463,412和14/463,416以及国际专利申请PCT/US2014/051726中所描述的核苷酸类似物，所述每个申请通过引用以其整体结合到本文中。

在一些实施方案中，所述核苷酸类似物为3′-O-炔基核苷酸类似物；在一些实施方案中所述核苷酸类似物为3′-O-炔丙基核苷酸类似物如3′-O-炔丙基·dNTP(其中N = A、C、G、T或U)。炔丙基核苷酸类似物为包含碱基(例如，腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶)、脱氧核糖和与脱氧核糖的3′-氧连接的炔化学部分的核苷酸类似物。聚合酶延伸产物和适当的缀合配偶体(例如，叠氮化物修饰的分子)之间的化学连接使用，例如，点击化学高效和特异性地取得。

核苷酸类似物的3′羟基通过当由聚合酶(例如，DNA或RNA聚合酶)掺入时使核酸(例如，DNA、RNA)链停止进一步延伸的化学部分，例如，炔(例如，碳-碳三键)帽化。所述炔基化学部分是，例如，在铜(I)-催化的1,3-偶极环加成反应(例如，“点击化学”反应)中，众所周知的叠氮(N₃)基的缀合配偶体。炔与叠氮化物的反应形成五元的三唑环，从而建立共价连接。在某些位置排列中，三唑环连接具有与常规核酸主链中存在的天然磷酸二酯键相似的性质，因此三唑环为核酸主链模拟物。如本文一些实施方案中所提供的，3′-O-炔丙基-dNTPs的使用创造出具有末端3′-O-炔基的核酸片段。因此，这些核酸片段可然后使用点击化学与叠氮化物-修饰的分子，例如5′-叠氮化物-修饰的寡核苷酸(例如，本文所提供的衔接头或固体载体)连接。三唑化学键与生物化学和分子生物学使用的典型反应和酶相容并且，正因如此，不抑制酶反应。因此，化学连接的核酸片段可然后用在后续酶反应，例如聚合酶链反应、测序反应等中。

在一些实施方案中，所述核苷酸类似物包含可逆终止剂。例如，在包含可逆终止剂的核苷酸类似物中，3′羟基用可以用特定化学反应移除因此再生游离3'羟基的化学部分帽化。正因如此，一些实施方案包括一个反应以移除可逆终止剂和，在一些实施方案中，额外的纯化步骤以移除游离的帽化(终止剂)部分。在一些实施方案中，包含可逆终止剂的核苷酸如美国专利申请序列号61/791,730和/或国际申请号PCT/US14/24391中所描述，所述各申请通过引用以其整体结合到本文中。

3. 衔接头

所述技术的方法涉及连接衔接头与核酸(例如，如本文所述的扩增子或梯状片段)。在某些实施方案中，衔接头用酶连接至核酸。所述酶可为连接酶或聚合酶。连接酶可为能够连接寡核苷酸(单链RNA、双链RNA、单链DNA或双链DNA)与另一个核酸分子的任何酶。合适的连接酶包括T4 DNA连接酶和T4 RNA连接酶(这样的连接酶，例如，从New England BioLabs市售可得)。用于使用连接酶的方法为本领域所熟知。连接可为平末端的或经由使用互补的突出末端。在某些实施方案中，可将核酸末端磷酸化(例如，使用T4多核苷酸激酶)、修复、修剪(例如，使用外切核酸酶)或填充(例如，使用聚合酶和dNTPs)以形成平末端。一旦产生平末端，可用聚合酶和dATP处理末端以形成片段3′末端的模板不依赖添加，因此产生单个A突出。该单个A用于在称为T-A克隆的方法中引导片段与从5′末端突出的单个T连接。聚合酶可为能够向模板核酸分子的3'和5'末端添加核苷酸的酶。

在一些实施方案中衔接头包含用于与核苷酸类似物化学连接的功能部分。例如，在一些实施方案中衔接头(例如，在5′末端)包含，例如，通过点击化学反应(例如，使用基于铜的催化剂试剂)，与炔基(例如，炔丙基，例如，在包含核苷酸类似物的核酸的3′末端)反应的叠氮基。

在一些实施方案中，衔接头包含通用序列和/或指标，例如，条码核苷酸序列。另外，衔接头可包含多个序列元件中的一个或多个，包括但不限于，一个或多个扩增引物退火序列或其互补物，一个或多个测序引物退火序列或其互补物、一个或多个条码序列、一个或多个多个不同衔接头之间共享的共同序列或不同衔接头的子集(例如，通用序列)、一个或多个限制酶识别位点、一个或多个与一个或多个靶多核苷酸突出互补的突出、一个或多个探针结合位点(例如用于与测序平台连接，如用于大规模平行测序的流动室，如Illumina,Inc.开发的)、一个或多个随机或近-随机序列(例如，在一个或多个位置从两个或多个不同核苷酸的集合中随机选择的一个或多个核苷酸，在一个或多个位置选择的不同核苷酸的每一代表一个包含随机序列的衔接头的池)及其组合。两个或多个序列元件可彼此不相邻(例如相隔一个或多个核苷酸)、彼此相邻、部分重叠或完全重叠。例如，扩增引物退火序列也可用作测序引物退火序列。序列元件可位于衔接头寡核苷酸的3′末端或3′末端附近、5′末端或5′末端附近或内部。当衔接头寡核苷酸能够形成二级结构例如发夹时，序列元件可部分或全部位于二级结构之外，部分或全部位于二级结构内部或位于参与二级结构的序列之间。例如，当衔接头寡核苷酸包含发夹结构时，序列元件可部分或全部位于可杂交序列(“茎”)内部或外部，包含在可杂交序列之间的序列(“环”)中。在一些实施方案中，具有不同条码序列的多个第一个衔接头寡核苷酸中的第一个衔接头寡核苷酸包含该多个中的所有第一个衔接头寡核苷酸之间共同的序列元件。在一些实施方案中，所有第二个衔接头寡核苷酸包含与第一个衔接头寡核苷酸共享的共同序列所不同的所有第二个衔接头寡核苷酸中共同的序列元件。序列元件的差异可为使得不同衔接头的至少一部分，例如，由于序列长度改变、一个或多个核苷酸的缺失或插入或一个或多个核苷酸位置的核苷酸组成变化(例如碱基变化或碱基修饰)，不完全对齐的任何差异。在一些实施方案中，衔接头寡核苷酸包含与一个或多个靶多核苷酸互补的5′突出、3′突出或二者。互补的突出可为一个或多个核苷酸长，包括但不限于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸长。互补的突出可包含固定的序列。互补的突出可包含一个或多个核苷酸的随机序列，使得一个或多个位置的一个或多个核苷酸从两个或更多个不同核苷酸的结合中随机选择，在一个或多个位置选择的不同的核苷酸的每一代表一个具有包含随机序列的互补突出的衔接头的池。在一些实施方案中，衔接头突出与通过限制性内切核酸酶消化产生的靶多核苷酸突出互补。在一些实施方案中，衔接头突出由腺嘌呤或胸腺嘧啶组成。

在一些实施方案中，所述衔接头序列可包含分子结合位点鉴定元件以方便鉴定和分离靶核酸用于下游应用。作为亲和机制的分子结合允许两个分子之间相互作用以导致稳定关联的复合体。可参与分子结合反应的分子包括蛋白质、核酸、碳水化合物、脂质和小有机分子例如配体、肽或药物。

当核酸分子结合位点用作衔接头的一部分时，其可用于利用选择性杂交以分离靶序列。选择性杂交可限制与包含具有分子结合位点的衔接头的靶核酸大量杂交并捕获与分子结合位点充分互补的核酸。因此，通过“选择性杂交”可检测包含许多核酸的池的不纯样品中靶多核苷酸的存在情况。核苷酸-核苷酸选择性杂交分离系统的一个实例包括具有一些捕获核苷酸的系统，所述捕获核苷酸为分子结合鉴定元件的互补序列，并且任选固定至固体载体。在其他实施方案中，捕获多核苷酸可与靶序列本身或衔接头内包含的条码或独特标签互补。捕获多核苷酸可固定至多种固体载体，例如板的孔内部、单分散球、微阵列或本领域已知的任何其他合适的载体表面。附着在固体载体上的杂交的互补衔接头多核苷酸可通过洗去不需要的非-结合核酸留下期需的靶多核苷酸分离。若将互补衔接头分子固定至顺磁球或相似的球技术用于分离，那么然后可将球在管中与包含衔接头的靶多核苷酸混合在一起。当衔接头序列与固定至球的互补序列杂交，可将不需要的分子洗去而用磁体或相似的剂将球保持子管内。随后期需的靶分子可通增加温度、改变pH或通过使用本领域已知的任何其他合适的洗脱方法释放。

4. 条码

条码为允许鉴定条码所关联的核酸的一些特征的已知核酸序列。在一些实施方案中，待鉴定核酸的特征为衍生核酸的样品或源。条码序列一般包括使序列可用于测序反应的某些特征。例如，条码序列设计为在条码序列内具有最小的或无均聚物区域，例如，连续2个或更多个相同碱基如AA或CCC。在一些实施方案中，条码序列还设计为使得当进行逐个碱基测序时其距离碱基添加次序至少一个编辑距离，确保第一个和最后一个碱基不与序列的预期碱基匹配。

在一些实施方案中，条码序列设计为使得每个序列与特定的靶核酸关联，允许将短序列阅读关联回其所来自的靶核酸。设计条码序列集合的方法，例如，在美国专利号6,235,475中示出，所述专利的内容通过引用以其整体结合到本文中。在一些实施方案中，条码序列从约5核苷酸至约15核苷酸变动。在一个具体的实施方案中，条码序列从约4核苷酸至约7核苷酸变动。由于条码序列与梯状片段核酸一起测序，在使用较长序列的实施方案中条码长度为最小长度以便允许从与条码连接的片段核酸的最长阅读。在一些实施方案中，条码序列与片段核酸分子间隔至少一个碱基，例如，以最小化均聚物组合。

在一些实施方案中，条码序列的长度和序列设计为取得期需的测定核酸同一性的准确度水平。例如，在一些实施方案中条码序列设计为使得在可耐受数目的点突变后所关联核酸的同一性仍可以以期需的准确度推导。在一些实施方案中，Tn-5 转座酶 (从Epicentre Biotechnologies市售可得；Madison, Wis.)将核酸切割为片段并将短DNA片段插入切口中。短DNA片段用于掺入条码序列。

将包含条码的衔接头连接至核酸模板在美国专利申请出版号2008/0081330和国际专利申请号PCT/US09/64001中示出，所述各申请的内容通过引用以其整体结合到本文中。用于设计条码序列集合的方法和其他用于连接衔接头(例如，包含条码序列)的方法在美国专利号6,138,077、6,352,828、5,636,400、6,172,214、6235,475、7,393,665、7,544,473、5,846,719、5,695,934、5,604,097、6,150,516、RE39,793、7,537,897、6172,218和5,863,722中示出，所述各专利的内容通过引用以其整体结合到本文中。在某些实施方案中，将单个条码连接至各个片段。在其他实施方案中，将多个条码，例如，两个条码连接至各个片段。

5. 样品

在一些实施方案中，从包含各种其他组分，例如蛋白、脂质和非模板核酸的生物样品中分离核酸模板分子(例如，DNA或RNA)。核酸模板分子可从任何材料(例如，细胞材料(活的或死的)、胞外材料、病毒材料、环境样品(例如，宏基因组样品)、合成材料(例如，扩增子如PCR或其他扩增技术所提供的))获得，从动物、植物、细菌、古细菌、真菌或任何其他生物获得。用于本发明的生物样品包括病毒颗粒或其制备物。核酸模板分子可从生物体或从获自生物体的生物样品，例如，从血液、尿液、脑脊液、精液、唾液、痰、粪便、头发、汗液、泪液、皮肤和组织直接获得。示例性的样品包括，但不限于，全血、淋巴液、血清、血浆、口腔细胞、汗液、泪液、唾液、痰、头发、皮肤、活组织检查、脑脊液(CSF)、羊水、精液、阴道分泌物、浆液、滑液、心包液、腹膜液、胸膜液、渗出液、渗出物、囊液、胆汁、尿液、胃液、肠液、粪便样品和拭子、抽出物(例如，骨髓、细针，等)、洗涤物(例如，口腔、鼻咽、支气管、支气管肺泡、眼、直肠、肠、阴道、表皮，等)和/或其他试样。

任何组织或体液试样均可用作本技术中使用的核酸的源，包括法医试样、存档试样、保存试样和/或长时间储存的试样，例如，新鲜-冷冻、甲醇/乙酸固定或甲醛固定石蜡包埋(FFPE)的试样和样品。核酸模板分子还可从培养细胞，例如原代细胞培养物或细胞系分离。可用病毒或其他胞内病原体感染获得模板核酸的细胞或组织。样品还可为从生物试样提取的总RNA、cDNA文库、病毒或基因组DNA。样品还可为来自非细胞源的分离的DNA，例如，在冰箱中储存的扩增/分离的DNA。

核酸模板分子可，例如，通过从生物样品例如，经由多种技术如Maniatis等人(1982) Molecular Cloning: A Laboratory Manual (分子克隆：实验室手册), ColdSpring Harbor, N.Y. 描述的那些(参见例如，pp. 280–281)提取获得。

在一些实施方案中，对核酸进行大小选择以除去非常短的片段或非常长的片段。选择大小的合适方法为本领域所已知。在多个实施方案中，所述大小限制为0.5、1、2、3、4、5、7、10、12、15、20、25、30、50、100 kb或更长。

在多个实施方案中，扩增核酸。可使用本领域已知的任何扩增方法。可使用的扩增技术的实例包括，但不限于，PCR、定量PCR、定量荧光PCR (QF-PCR)、多重荧光PCR (MF-PCR)、实时PCR (RT-PCR)、单细胞PCR、限制片段长度多态性PCR (PCR-RFLP)、热启动PCR、巢氏PCR、原位群落PCR、原位滚环扩增(RCA)、桥式PCR、小滴度PCR和乳液PCR。其他合适的扩增方法包括连接酶链反应(LCR)、转录扩增、自主序列复制、靶多核苷酸序列的选择性扩增、共有序列引发的聚合酶链反应(CP-PCR)、随机引发的聚合酶链反应(AP-PCR)、简并寡核苷酸引发的PCR (DOP-PCR)和基于核酸的序列扩增(NABSA)。本文可使用的其他扩增方法包括美国专利号5,242,794、5,494,810、4,988,617和6,582,938中描述的那些。

在一些实施方案中，使用市售试剂盒，例如从Epicentre Biotechnologies(Madison, Wis.)可得的那些进行末端修复以产生平末端5'磷酸化的核酸末端。

6. 核酸测序

在本技术的一些实施方案中，产生核酸序列数据。核酸测序平台(例如，核酸测序仪)的多个实施方案包括如下所述的组件。根据多个实施方案，测序仪器包括流体递送和控制单元、样品处理单元、信号检测单元以及数据采集、分析和控制单元。所述仪器的多个实施方案提供用于平行和/或基本上同时从多个序列收集序列信息的自动化测序。

在一些实施方案中，流体递送和控制单元包括试剂递送系统。所述试剂递送系统包括用于储存多种试剂的试剂槽。所述试剂可包括基于RNA的引物、正向/反向DNA引物、用于通过合成测序的核苷酸混合物(例如，包含本文所提供的核苷酸类似物的组合物)、缓冲剂、洗涤试剂、封闭试剂、剥离试剂等。另外，试剂递送系统可包括连接样品处理单元与试剂槽的移液系统或连续流动系统。

在一些实施方案中，样品处理单元包括样品室例如流动室、底物、微阵列、多孔托盘等。样品处理单元可包括多个泳道、多个通道、多个孔或基本上同时处理多个样品集的其他装置。另外，样品处理单元可包括多个样品室以使得能够同时处理多个运行。在具体的实施方案中，所述系统可在一个样品室进行信号检测同时基本上同时处理另一个样品室。另外，样品处理单元可包括用于移动或操纵样品室的自动系统。在一些实施方案中，信号检测单元可包括成像或检测传感器。例如，成像或检测传感器(例如，荧光检测器或电子检测器)可包括CCD、CMOS、离子传感器如覆盖CMOS的离子敏感层、检流器等。信号检测单元可包括激发系统以引起探针，例如，荧光染料，发射信号。检测系统可包括照明源，例如弧光灯、激光、发光二极管(LED)等。在具体的实施方案中，信号检测单元包括用于从照明源向样品或从样品向成像或检测传感器传输光的光学。或者，信号检测单元可不包括照明源，例如，当信号由于测序反应自发产生时。例如，信号可通过释放部分的相互作用，例如释放的离子与离子敏感层相互作用，或焦磷酸与酶或其他催化剂反应以产生化学发光信号。在另一个实例中，可检测电流、电压或电阻的变化而不需照明源。

在一些实施方案中，数据采集分析和控制单元监测多个系统参数。所述系统参数可包括仪器多个部分例如样品处理单元或试剂槽的温度、多种试剂的体积、多个系统亚组件例如机械手、步进电机、泵等的状态，或其任何组合。

本领域技术人员将理解的是所述仪器和系统的多个实施方案用于实践测序方法例如通过合成测序、单分子方法和其他测序技术。通过合成测序可包括掺入染料标记的核苷酸、链终止、离子/质子测序、焦磷酸测序等。单分子技术可包括交错测序，其中暂停测序反应以确定所掺入核苷酸的同一性。

在一些实施方案中，测序仪器测定核酸，例如多核苷酸或寡核苷酸的序列。核酸可包括DNA或RNA，并且可为单链的，例如ssDNA和RNA，或双链的，例如dsDNA或RNA/cDNA对。在一些实施方案中，核酸可包括或从片段文库、配对文库、ChIP片段等衍生。在具体的实施方案中，测序仪器可从单个核酸分子或从基本上同一的核酸分子群获得序列信息。

在一些实施方案中，测序仪器可以以多种不同的输出数据文件类型/格式输出核酸测序阅读数据，包括，但不限于：*.txt、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

7. 下一代测序技术

本技术所考虑的具体测序技术为下一代测序(NGS)方法，其共享大规模平行、高通量策略的共同特征，并以与旧测序方法相比更低的成本为目标(参见，例如，Voelkerding等人,Clinical Chem., 55: 641-658, 2009; MacLean等人, Nature Rev. Microbiol., 7:287-296; 各自通过引用以其整体结合到本文中)。NGS方法可大致分为通常使用模板扩增的那些和不使用的那些。需要扩增的方法包括作为454技术平台(例如，GS 20和GS FLX)由Roche商业化的焦磷酸测序、由Illumina商业化的Solexa平台和由Applied Biosystems商业化的Supported Oligonucleotide Ligation and Detection (SOLiD)平台。非-扩增方法，也称为单分子测序，通过由Helicos BioSciences商业化的HeliScope平台和分别由VisiGen、Oxford Nanopore Technologies Ltd.、Life Technologies/Ion Torrent和Pacific Biosciences商业化的新兴平台例示。

在焦磷酸测序中(Voelkerding等人, Clinical Chem., 55: 641-658, 2009;MacLean等人, Nature Rev. Microbiol., 7: 287-296; 美国专利号6,210,891; 美国专利号6,258,568; 各自通过引用以其整体结合到本文中)，通过用承载与衔接头互补的寡核苷酸的小珠捕获单个模板分子原位克隆扩增NGS片段文库。将每个承载单个模板类型的小珠划分入油包水微泡中，并使用称作乳液PCR的技术克隆扩增模板。扩增后将乳液打破并将小珠放置在测序反应期间充当流动室的picotitre板的单个孔。在测序酶和发光报告分子例如荧光素酶存在下流动室中发生4种dNTP试剂每个的有序反复引入。如果适当的dNTP被加至测序引物的3’末端，结果产生的ATP导致孔内发光的爆发，这使用CCD照相机记录。达到大于或等于400碱基的阅读长度是可能的，并且可达到10⁶个序列阅读，导致多达500个百万碱基对(Mb)的序列。

在Solexa/Illumina平台中(Voelkerding等人, Clinical Chem., 55: 641-658,2009; MacLean等人, Nature Rev. Microbiol., 7: 287-296; 美国专利号6,833,246;美国专利号7,115,400; 美国专利号6,969,488; 各自通过引用以其整体结合到本文中)，测序数据以较短长度阅读的形式产生。在该方法中，将NGS片段文库的片段捕获在布满寡核苷酸锚的流动室表面。所述锚用作PCR引物，但由于模板的长度以及其与其他附近锚寡核苷酸的接近度，PCR延伸导致该分子“拱悬”与邻近锚寡核苷酸杂交以在流动室表面上形成桥状结构。将这些DNA环变性和切割。然后用可逆染料终止剂测序正向链。所掺入核苷酸的序列通过检测掺入后荧光测定，去除各荧光剂和障碍，然后进行下一个dNTP添加循环。序列阅读长度从36个核苷酸到超过100个核苷酸变化，每个分析运行的总体输出超过十亿个核苷酸对。

使用SOLiD技术测序核酸分子(Voelkerding等人, Clinical Chem., 55: 641-658, 2009; MacLean等人, Nature Rev. Microbiol., 7: 287-296; 美国专利号5,912,148; 美国专利号6,130,073; 各自通过引用以其整体结合到本文中)也涉及通过乳液PCR克隆扩增NGS片段。这之后，将承载模板的小珠固定在玻璃流动室的衍生表面，并退火与衔接头寡核苷酸互补的引物。然而，不是利用该引物进行3′延伸，而是用于提供5′磷酸基团与包含两个探针-特异性碱基接着6个简并碱基和4种荧光标记之一的审问探针(interrogation probe)连接。在SOLiD系统中，审问探针在每个探针的3′末端具有16种可能的两个碱基组合并且在5′末端具有4种荧光剂之一。荧光剂颜色，以及因此各个探针的鉴定，与指定的颜色-空间编码方案对应。多轮(通常7)探针退火、连接和荧光剂检测之后为变性，然后使用相对于最初的引物1个碱基偏移的引物第二轮测序。以这种方式，可计算重构模板序列，并且模板碱基被审问两次，导致增加的准确度。序列阅读长度平均35个核苷酸，并且每次测序运行的总体输出超过40亿碱基。

在某些实施方案中，使用Helicos BioSciences的HeliScope (Voelkerding等人,Clinical Chem., 55: 641-658, 2009; MacLean等人, Nature Rev. Microbiol., 7:287-296; 美国专利号7,169,560; 美国专利号7,282,337; 美国专利号7,482,120; 美国专利号7,501,245; 美国专利号6,818,395; 美国专利号6,911,345; 美国专利号7,501,245; 各自通过引用以其整体结合到本文中)。测序通过添加聚合酶和系列添加荧光标记的dNTP试剂完成。掺入事件导致与dNTP对应的荧光剂信号，并且在每轮dNTP添加前用CCD照相机捕获信号。序列阅读长度从25-50个核苷酸变化，每次分析运行的总体输出超过10亿核苷酸对。

在一些实施方案中，使用Roche的454测序(Margulies等人(2005) Nature437:376–380)。454测序包括两步。在第一步中，将DNA剪切为约300-800碱基对的片段并将片段平末端化。然后将寡核苷酸衔接头连接至片段的末端。衔接头用作用于片段扩增和测序的引物。片段可使用，例如，包含5′-生物素标签的衔接头附着到DNA捕获小珠上，例如链霉亲和素-包覆的小珠上。在油-水乳液的微滴内PCR扩增附着到小珠上的片段。结果为每个小珠上克隆扩增的DNA片段的多个拷贝。在第二步中，将小珠捕获在孔(微升大小)中。在每个DNA片段上平行实施焦磷酸测序。一个或多个核苷酸的添加产生光信号，其由测序仪器中的CCD照相机记录。信号强度与掺入核苷酸的数目成比例。焦磷酸测序利用核苷酸添加时释放的焦磷酸(PPi)。PPi在腺苷5'磷酸硫酸酐的存在下被ATP硫酸化酶转化为ATP。荧光素酶使用ATP以将荧光素转化为氧荧光素，该反应产生被检测和分析的光。

Ion Torrent技术为基于对DNA聚合期间所释放氢离子的检测的DNA测序方法(参见，例如，Science 327(5970): 1190 (2010); 美国专利申请出版号20090026082、20090127589、20100301398、20100197507、20100188073和20100137143，对于所有目的通过引用以其整体结合)。微孔包含待测序的NGS片段文库的片段。微孔层之下为高灵敏度的ISFET离子传感器。所有层均被包含在CMOS半导体芯片内，与电子工业中所使用的类似。当dNTP掺入到增长的互补链中时释放氢离子，氢离子触发高灵敏度的离子传感器。若模板序列中存在均聚物重复，单个循环中将掺入多个dNTP分子。这导致相应数目的氢释放以及按比例增高的电子信号。该技术与其他测序技术的不同之处在于不使用修饰的核苷酸或光学。对于50碱基阅读Ion Torrent测序仪每个碱基的准确度为~99.6%，每次运行产生~100Mb。阅读长度为100碱基对。5个重复长度的均聚物重复的准确度为~98%。离子激流测序的益处为快的测序速度以及低前期和运行成本。然而，除去样品制备装置和用于数据分析的服务器，获得pH-介导的测序仪的成本为大约$50,000。

Stratos Genomics, Inc.开发了经适应可用于本发明的另一种示例性的核酸测序方法并且涉及Xpandomers的使用。该测序方法通常包括提供由模板-定向合成所产生的子链。所述子链一般在与所有或部分靶核酸的连续核苷酸序列所对应的序列中包含多个偶联的亚基，其中单个亚基含有一个系链、至少一个探针或核苷碱基残基以及至少一个可选择性切割的键。可选择性切割的键被切割产生长度长于子链的多个亚基的Xpandomer。Xpandomer通常在与全部或部分靶核酸的连续核苷酸序列所对应的序列中含有系链和用于解析遗传信息的报告分子元件。然后检测Xpandomer的报告分子元件。关于基于Xpandomer的方法的更多细节在，例如，2008年6月19日提交的标题为“HIGH THROUGHPUT NUCLEICACID SEQUENCING BY EXPANSION (通过扩展的高通量核酸测序)”的美国专利出版号20090035777中描述，所述专利以其整体结合到本文中。

其他单分子测序方法包括使用VisiGen平台通过合成实时测序(Voelkerding等人, Clinical Chem., 55: 641–58, 2009; 美国专利号7,329,492; 美国专利申请序列号11/671956; 美国专利申请序列号11/781166; 各自通过引用以其整体结合到本文中)，其中将NGS片段文库的片段固定、引发，然后经受使用荧光修饰的聚合酶和荧光受体分子的链延伸，导致核苷酸添加时可检测的荧光共振能量转移(FRET)。

Pacific Biosciences开发的另一个实时单分子测序系统(Voelkerding等人,Clinical Chem., 55: 641-658, 2009; MacLean等人, Nature Rev. Microbiol., 7:287-296; 美国专利号7,170,050; 美国专利号7,302,146; 美国专利号7,313,308; 美国专利号7,476,503; 其所有均通过引用结合到本文中)利用直径50-100 nm并包含约20仄升4(10^–21 l)的反应体积的反应孔。测序反应使用固定化模板、修饰的phi29 DNA聚合酶和高局部浓度的荧光标记dNTPs进行。高局部浓度和连续反应条件允许通过使用激光激发、光波导和CCD照相机检测荧光信号实时捕获掺入事件。

在某些实施方案中，利用Pacific Biosciences开发的使用零模式波导(ZMW)的单分子实时(SMRT) DNA测序方法，或相似的方法。用该技术，DNA测序在SMRT芯片上进行，每个芯片包含数千个零模式波导(ZMWs)。ZMW为直径数十纳米的孔，在二氧化硅基底上放置的100 nm金属膜中制造。每个ZMW成为提供仅20仄升(10^–21 l)检测体积的纳米光子可视化小室。在该体积，可在数千个标记核苷的背景之中检测单分子的活性。由于其进行合成法测序，ZMW提供用于观察DNA聚合酶的窗口。在每个室内，单个DNA聚合酶分子附着在底部表面上使得其永久存在于检测体积中。然后将磷酸连接的核苷酸，各个类型用不同颜色的荧光团标记，以促进酶速度、准确度和持续合成能力的高浓度引入反应溶液中。由于ZMW的小尺寸，即使在这些高、生物学相关浓度时，核苷酸仅占据检测体积一小部分时间。另外，访问检测体积迅速，仅持续几个微秒，因为扩散需要携带核酸的距离非常小。结果是非常低的背景。

在一些实施方案中，使用纳米孔测序(Soni G V和Meller A. (2007) Clin Chem53: 1996-2001)。纳米孔为直径1纳米级的小孔。将纳米孔浸在电导液中并在其两端施加电势导致轻微电流，这是因为离子传导通过纳米孔。流过的电流的量对纳米孔的大小敏感。随着DNA分子通过纳米孔，DNA分子上的每个核苷酸以不同的程度堵塞纳米孔。因此，随着DNA分子通过纳米孔通过纳米孔的电流的变化代表对DNA序列的阅读。

在一些实施方案中，测序技术使用化学-敏感场效应晶体管(chemFET)阵列测序DNA (例如，如美国专利申请出版号20090026082中所描述的)。在该技术的一个实例中，将DNA分子放置在反应室中并使模板分子与结合聚合酶的测序引物杂交。一个或多个三磷酸在测序引物的3'末端向新核酸链中的掺入可通过chemFET经由电流变化检测。阵列可具有多个chemFET传感器。在另一个实例中，可将单个核酸附着在小珠上，核酸可在小珠上扩增，并且可将单个小珠转移至chemFET阵列上的单个反应室，每个反应室具有一个chemFET传感器，并且可测序核酸。

在一些实施方案中，测序技术使用电子显微镜(Moudrianakis E. N.和Beer M.Proc Natl Acad Sci USA. 1965 March; 53:564-71)。在该技术的一个实例中，使用可使用电子显微镜区分的金属标记标记个体DNA分子。然后将这些分子在平面上拉伸并使用电子显微镜测量序列。

在一些实施方案中，使用如Turro等人 PNAS 103: 19635–40 (2006)中所描述的“使用可切割的荧光核苷酸可逆终止剂的四-颜色合成法测序”，例如Intelligent Bio-Systems所商业化的。该技术在美国专利申请出版号2010/0323350、2010/0063743、2010/0159531、20100035253、20100152050中描述，对于所有目的所述申请通过引用结合到本文中。

用于这样的经适应可用于本发明的实时测序的过程和系统在，例如，2008年7月29日颁予Xu等人的标题为“Fluorescent nucleotide analogs and uses therefor(荧光核苷类似物及其用途)”的美国专利号7,405,281、2008年1月1日颁予Turner等人的标题为“Arrays of optical confinements and uses thereof (光学限制的阵列及其用途)”的7,315,019、2007年12月25日颁予Turner等人的标题为“Optical analysis of molecules(分子的光学分析)”的7,313,308、2007年11月27日颁予Turner等人的标题为“Apparatusand method for analysis of molecules (用于分子分析的装置和方法)”的7,302,146以及2007年1月30日颁予Turner等人的标题为“Apparatus and methods for opticalanalysis of molecules (用于分子光学分析的装置和方法)”的7,170,050，以及Lundquist等人2007年10月26日提交的标题为“Methods and systems for simultaneousreal-time monitoring of optical signals from multiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的美国专利出版号20080212960、Williams等人2007年10月26日提交的标题为“Flowcell system for single molecule detection (用于单分子检测的流动室系统)”的20080206764、Hanzel等人2007年10月26日提交的标题为“Active surface coupled polymerases (活性表面偶联的聚合酶)”的20080199932、Otto等人2008年2月11日提交的标题为“CONTROLLABLE STRAND SCISSION OF MINI CIRCLE DNA(小圆DNA的可控链断裂)”的20080199874、Rank等人2007年10月26日提交的标题为“Articles having localized molecules disposed thereon and methods ofproducing same (具有局域化的分子排列在其上的物品及生产其的方法)”的20080176769、Eid等人2007年10月31日提交的标题为“Mitigation of photodamage inanalytical reactions (分析反应中光损伤的缓解)”的20080176316、Eid等人2007年10月31日提交的标题为“Mitigation of photodamage in analytical reactions (分析反应中光损伤的缓解)”的20080176241、Lundquist等人2007年10月26日提交的标题为“Methodsand systems for simultaneous real-time monitoring of optical signals frommultiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的20080165346、Korlach 2007年10月31日提交的标题为“Uniform surfaces for hybridmaterial substrates and methods for making and using same (用于杂交体材料基底的独特表面及用于制造和使用其的方法)”的20080160531、Lundquist等人2007年10月26日提交的标题为“Methods and systems for simultaneous real-time monitoring ofoptical signals from multiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的20080157005、Rank等人2007年10月31日提交的标题为“Articles havinglocalized molecules disposed thereon and methods of producing same (具有局域化的分子排列在其上的物品及生产其的方法)”的20080153100、Williams等人2007年10月26日提交的标题为“CHARGE SWITCH NUCLEOTIDES (电荷开关核苷酸)”的20080153095、Lundquist等人2007年10月31日提交的标题为“Substrates, systems and methods foranalyzing materials (用于分析物质的底物、系统和方法)”的20080152281、Lundquist等人2007年10月31日提交的标题为“Substrates, systems and methods for analyzingmaterials (用于分析物质的底物、系统和方法)”的20080152280、Korlach 2007年10月31日提交的标题为“Uniform surfaces for hybrid material substrates and methodsfor making and using same (用于杂交体材料基底的独特表面及用于制造和使用其的方法)”的20080145278、Lundquist等人2007年8月31日提交的标题为“SUBSTRATES, SYSTEMSAND METHODS FOR ANALYZING MATERIALS (用于分析物质的底物、系统和方法)”的20080128627、Rank等人2007年10月22日提交的标题为“Polymerase enzymes andreagents for enhanced nucleic acid sequencing (用于增强核酸测序的聚合酶和试剂)”的20080108082、Foquet等人2007年6月11日提交的标题为“SUBSTRATES FORPERFORMING ANALYTICAL REACTIONS (用于进行分析反应的底物)”的20080095488、Dixon等人2007年9月27日提交的标题为“MODULAR OPTICAL COMPONENTS AND SYSTEMSINCORPORATING SAME (模块光学组件和并入其的系统)”的20080080059、Korlach等人2007年8月14日提交的标题为“Articles having localized molecules disposed thereonand methods of producing and using same (具有局域化的分子排列在其上的物品及生产和使用其的方法)”的20080050747、Rank等人2007年3月29日提交的标题为“Articleshaving localized molecules disposed thereon and methods of producing same (具有局域化的分子排列在其上的物品及生产其的方法)”的20080032301、Lundquist等人2007年2月9日提交的标题为“Methods and systems for simultaneous real-timemonitoring of optical signals from multiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的20080030628、Lyle等人2007年6月15日提交的标题为“CONTROLLED INITIATION OF PRIMER EXTENSION (引物延伸的受控起始)”的20080009007、Rank等人2006年3月30日提交的标题为“Articles having localizedmolecules disposed thereon and methods of producing same (具有局域化的分子排列在其上的物品及生产其的方法)”的20070238679、Korlach等人2006年3月31日提交的标题为“Methods, systems and compositions for monitoring enzyme activity andapplications thereof (用于监测酶活的方法、系统和组合物及其应用)”的20070231804、Lundquist等人2007年2月9日提交的标题为“Methods and systems for simultaneousreal-time monitoring of optical signals from multiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的20070206187、Hanzel等人2006年12月21日提交的标题为“Polymerases for nucleotide analog incorporation (用于掺入核苷酸类似物的聚合酶)”的20070196846、Lundquist等人2006年7月7日提交的标题为“Methods andsystems for simultaneous real-time monitoring of optical signals frommultiple sources (用于同时实时监测来自多个源的光学信号的方法和系统)”的20070188750、Eid等人2006年12月1日提交的标题为“MITIGATION OF PHOTODAMAGE INANALYTICAL REACTIONS (分析反应中光损伤的缓解)”的20070161017、Turner等人2006年11月3日提交的标题为“Nucleotide Compositions and Uses Thereof (核苷酸组合物及其用途)”的20070141598、Korlach 2006年11月27日提交的标题为“Uniform surfaces forhybrid material substrate and methods for making and using same (用于杂交体材料基底的独特表面及用于制造和使用其的方法)”的20070134128、Eid等人2005年12月2日提交的标题为“Mitigation of photodamage in analytical reactions (分析反应中光损伤的缓解)”的20070128133、Roitman等人2005年9月30日提交的标题为“Reactivesurfaces, substrates and methods of producing same (反应性表面、基底和用于生产其的方法)”的20070077564、Xu等人2005年9月29日提交的标题为“Fluorescentnucleotide analogs and uses therefore (荧光核苷酸类似物及其用途)”的20070072196和Lundquist等人2005年8月11日提交的标题为“Methods and systems formonitoring multiple optical signals from a single source (用于监测来自单一源的多个光学信号的方法和系统)”的20070036511，以及Korlach等人(2008) “Selectivealuminum passivation for targeted immobilization of single DNA polymerasemolecules in zero-mode waveguide nanostructures (用于将单个DNA聚合酶分子以零模式波导纳米结构靶向固定的选择性铝钝化)” PNAS 105(4): 1176–81中描述，其所有均通过引用以其整体结合到本文中。

8. 核酸序列分析

在一些实施方案中，使用基于计算机的分析程序为最终用户(例如，医务人员)将检测测定所产生的原始数据(例如，测序阅读)翻译为预测值数据。用户可使用任何合适的方法访问预测数据。因此，在一些优选的实施方案中，本技术提供用户(不太可能经受遗传学或分子生物学训练)不需理解原始数据这一进一步的益处。数据以其最有用的形式直接呈现给最终用户。然后用户能够立即利用该信息以确定(例如，在医学诊断、研究或筛查中的)有用信息。

一些实施方案提供用于重建核酸序列的系统。所述系统可包括核酸测序仪、样品序列数据存储器、参考序列数据存储器和分析计算装置/服务器/节点。在一些实施方案中，分析计算装置/服务器/节点可为工作站、主机计算机、个人计算机、移动装置等。核酸测序仪可配置为利用所有可用的技术、平台或工艺种类分析(例如，审问)核酸片段(例如，单一片段、配对片段、末端配对片段等)以获得核酸序列信息，特别是本文所述使用本文所提供的组合物的方法。在一些实施方案中，核酸测序仪与样品序列数据存储器直接经由数据电缆(例如，串行电缆、直接电缆连接，等)或总线连接或，替代地，通过网络连接(例如，因特网、LAN、WAN、VPN，等)通信。在一些实施方案中，网络连接可为硬线物理连接。例如，核酸序列可与数据服务器(经由Category 5 (CAT5)、光纤或等效电缆)通信连接，数据服务器通过因特网(经由CAT5、光纤或等效电缆)与样品序列数据存储器通信连接。在一些实施方案中，网络连接为例如，利用802.11 a/b/g/n或等效传输形式的无线网络连接(例如，Wi-Fi、WLAN等)。在实践中，所利用的网络连接取决于系统的具体需求。在一些实施方案中，样品序列数据存储器为核酸测序仪的整合部分。

在一些实施方案中，样品序列数据存储器为配置为组织和储存核酸测序仪产生的核酸序列阅读数据以便数据可(例如，由数据库管理员/客户端操作员)手动或经由计算机程序、应用或软件脚本自动搜寻和检索的任何数据库存储装置、系统或仪器(例如，数据存储分区，等)。在一些实施方案中，参考数据存储器可为配置为组织和储存参考序列(例如，全或部分基因组、全或部分外显子组、SNP、基因等)以便数据可(例如，由数据库管理员/客户端操作员)手动或经由计算机程序、应用或软件脚本自动搜寻和检索的任何数据库装置、存储系统或仪器(例如，数据存储分区，等)。在一些实施方案中，样品核酸测序阅读数据可以以多种不同的数据文件类型/格式储存在样品序列数据存储器和/或参考数据存储器上，包括，但不限于：*.txt、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

在一些实施方案中，样品序列数据存储器和参考数据存储器为互不依赖的独立装置/系统或在不同装置上实现。在一些实施方案中，样品序列数据存储器和参考数据存储器在同一装置/系统上实现。在一些实施方案中，样品序列数据存储器和/或参考数据存储器可在分析计算装置/服务器/节点上实现。分析计算装置/服务器/节点与样品序列数据存储器和参考数据存储器直接经由数据电缆(例如，串行电缆、直接电缆连接，等)或总线连接，或，替代地，通过网络连接(例如，因特网、LAN、WAN、VPN，等)通信。在一些实施方案中，分析计算装置/服务器/节点可宿有(host)参考定位引擎、重新定位模块和/或第三分析引擎。在一些实施方案中，参考定位引擎可配置为从样品数据存储器获得样品核酸序列阅读并将其对从参考数据存储器获得的一个或多个参考序列定位以使用所有种类的参考/比对技术和方法将阅读汇编成与参考序列相似但不一定同一的序列。重汇编的序列然后可通过一个或多个任选的第三分析引擎进一步分析以鉴定可导致体格特征(表型)的很大差异的个体基因构成(基因型)、基因表达或表观遗传状态差异例如，在一些实施方案中，第三分析引擎可配置为鉴定由突变、重组/交叉或遗传漂变引起的(汇编序列中的)各种基因组变体。基因组变体类型的实例包括，但不限于：单核苷酸多态性(SNPs)、拷贝数变异(CNVs)、插入/缺失(Indels)、倒位，等。任选的重新定位模块可配置为将样品数据存储器的样品核酸序列阅读汇编成新的和先前未知的序列。然而，应理解的是，分析计算装置/服务器/节点上宿有的各种引擎和模块可组合或塌缩为单个引擎或模块，取决于具体应用或系统体系结构的需求。此外，在一些实施方案中，所述分析计算装置/服务器/节点可宿有具体应用或系统体系结构所需要的额外的引擎或模块。

在一些实施方案中，定位和/或第三分析引擎配置为在彩色空间处理核酸和/或参考序列阅读。在一些实施方案中，定位和/或第三分析引擎配置为在基础空间处理核酸和/或参考序列阅读。然而，应理解的是，本文所公开的定位和/或第三分析引擎可处理或分析任何图式或格式的核酸序列数据，只要该图式或格式可传输核酸序列的碱基同一性和位置。

在一些实施方案中，样品核酸测序阅读和参考序列数据可以以多种不同的输入数据文件类型/格式向分析计算装置/服务器/节点提供，包括，但不限于：*.txt、*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

此外，客户端可为瘦客户端或胖客户端计算装置。在一些实施方案中，客户端可具有可用于控制参考定位引擎、重新定位模块和/或第三分析引擎的操作的网络浏览器。即，客户端可使用浏览器访问参考定位引擎、重新定位模块和/或第三分析引擎以控制其功能。例如，根据具体应用的需求，客户端可用于配置多个引擎的操作参数(例如，错配约束、质量值阈值，等)。相似地，客户端还可显示参考定位引擎、重新定位模块和/或第三分析引擎所进行分析的结果。

本技术还包括能够向进行测定的实验室、信息提供者、医务人员和受试者以及从进行测定的实验室、信息提供者、医务人员和受试者接收、处理和传递信息的任何方法。

9. 用途

所述技术不限于特定的应用，而是可用在广泛的(基础和应用) 研究、临床、医药和其他生物学、生物化学和分子生物学应用中。本技术的一些示例性用途包括遗传学、基因组学和/或，例如，植物、动物和其他生物体的基因分型，例如，以鉴定突变和/或等位基因的单元型、定相和/或连锁。在人类医学背景中的具体和非限制的说明性实例包括检验囊性纤维化和脆性X综合征。

另外，所述技术可用在传染病领域，例如鉴定传染剂例如病毒、细菌、真菌等，和测定病毒类型、家族、种类和/或准种，和鉴定突变和/或等位基因的单元型、定相和/或连锁。在传染病领域的具体和非限制的说明性实例为人类免疫缺陷病毒(HIV)的遗传元件的表征和鉴定突变和/或等位基因的单元型、定相和/或连锁。在传染病领域的其他具体和非限制的说明性实例包括表征抗生素抗性决定簇、对于流行病学跟踪传染生物体、监测抗性机制的出现和进化、鉴定与毒力有关的物种、亚种、菌株染色体外元件、类型等、监测治疗的进展，等。

在一些实施方案中，所述技术可用于移植医学，例如，用于分型主要组织相容性复合体(MHC)、分型人类白细胞抗原(HLA)和用于鉴定与移植医学相关的突变和/或等位基因的单元型、定相和/或连锁(例如，以为需要移植的特定宿主鉴定相容的供体、预测排斥的可能性、监测排斥、存档移植材料、用于医学信息数据库，等)。

在一些实施方案中，所述技术可用于肿瘤学和肿瘤学相关领域。在肿瘤学领域的具体和非限制的说明性实例为鉴定与癌症相关的遗传和/或基因组畸变、癌症诱因和/或癌症治疗。例如，在一些实施方案中所述技术可用于检测与癌症相关的染色体易位的存在情况；以及在一些实施方案中所述技术可用于鉴定新型基因融合伴侣以提供癌症诊断检验。在一些实施方案中，所述技术可用于癌症筛查、癌症诊断、癌症预后、测量微小残留疾病以及选择和/或监测癌症治疗进程。

在一些实施方案中，所述技术可用于表征核苷酸序列。例如，在一些实施方案中，所述技术可用于检测核苷酸(例如，基因组、基因等)序列中的插入和/或缺失(“indels”)。考虑本文所述技术提供相对于常规技术改进的插入缺失检测。另外，所述技术可用于检测短串联重复(STRs)、倒位、大插入和用于测序(例如，基因组的)核苷酸序列的重复(例如，高度重复)区域。

尽管本文的公开内容提及某些说明性的实施方案，应理解的是这些实施方案经由举例而非经由限制呈现。

实施例

实施例1 – 与Illumina MiSeq的比较

开发本文所提供的技术期间，进行了计算以比较本文所提供技术(表1和2，“SOD文库”)与MiSeq平台中Illumina所提供的常规技术(表1和2，“Illumina扩增子文库”)的性能。数据从，例如，每个运行的样品数、测量通量的标准等不同的两个脚本收集(参见表1和2)。

如表1和2中所示，相对于使用Illumina技术构建NGS文库，本文所述技术降低仪器运行时间，具有更高的通量并产生更高百分比的质量分数大于Q30的阅读。

表1 - 与Illumina MiSeq的比较(靶向测序：扩增子组)

a) MiSeq Reagent试剂盒v2：双面扫描，12–15百万簇通过滤波器

b) 为了覆盖整个400 bp扩增子，执行2 × 250 bp配对末端阅读策略，其中阅读重叠~100 bp

c) 仅实际测序部分(不包括簇产生时间)

d) 为计算SOD文库的覆盖：[(总阅读数)/((插入大小 – SOD阅读长度) × (运行中的样品数×每样品的扩增子数))] × SOD阅读长度：例如，[(15 × 10⁶)/((400 – 50) ×(8 × 50))] × 50

e) 为计算通量：[(平均覆盖)/1000]/(总运行时间)

f) 基于Illumina，例如，在其在线材料中提供的MiSeq测序说明书。

表2 - 与Illumina MiSeq的比较(400 bp插入物的靶向组测序)

a) MiSeq Reagent试剂盒v2：双面扫描，15百万簇通过滤波器

b) 为了覆盖整个200或400 bp扩增子，(分别)执行2 × 150 bp或2 × 250 bp配对末端阅读策略，其中阅读重叠~100 bp

c) 仅实际测序部分(不包括簇产生时间)

d) 为计算SOD文库的覆盖：[(总阅读数)/((插入大小 – SOD 阅读长度) × (运行中的样品数×每一样品的扩增子数))] × SOD阅读长度：例如，[(15 × 10⁶)/((400 – 50)× (8 × 50))] × 50

e) 为计算通量：[(平均覆盖)/2000]/(总运行时间)

实例2 – 与Ion Torrent PGM的比较(靶向测序：扩增子组)

开发本文所提供的技术期间，进行了计算以比较本文所提供技术(表3和4，“SOD文库”)与PGM平台中Ion Torrent所提供的常规技术(表3和4，“Ion扩增子文库”)的性能。数据从，例如，每个运行的样品数、测量通量的标准等不同的两个脚本收集(参见表3和4)。

如表3和4中所示，相对于使用Ion Torrent技术构建NGS文库，本文所述技术降低仪器运行时间并产生更高百分比的质量分数大于Q20的阅读。

表3 - 与Ion Torrent PGM的比较

a) PGM 400 bp测序试剂盒v2

b) 为了覆盖整个400 bp 扩增子，进行1 × 400 bp双向测序

c) 仅实际测序部分(不包括OneTouch2和其他预测序处理时间)

d) 为计算SOD文库的覆盖：[(0.4 × 10⁶)/((400– 50) × (8 × 50))] × 50

e) 为计算通量：[(平均覆盖)/1000]/(总运行时间)

f) 基于Loman N. 等人(2012) “Performance comparison of benchtop high-throughput sequencing platforms (台式高通量测序平台的性能比较)” Nature Biotechnology, vol. 30-5设计。

表4 – 与Ion Torrent PGM的比较

a) Ion PGM芯片318/v2： ~ 6百万负载孔产生通过滤波器的阅读

b) 为了覆盖整个200-bp或400-bp扩增子，分别执行200-bp (双向)或400-bp (双向)策略

c) 仅实际测序部分(不包括ePCR/富集)

d) 为计算SOD文库的覆盖：[(总阅读数)/((插入大小 – SOD 阅读长度) × (样品数× 扩增子数))] × SOD阅读长度，例如，[(15 ×10⁶)/((400 – 50) × (8 × 50))] ×50

e) 为计算通量：[(平均覆盖)/2000]/(总运行时间)

f) 基于在Ion Torrent在线材料中可得的Ion Torrent测序说明书。

实例3 – 长阅读技术比较

表5和6比较本文所提供技术与常规技术用于测序约1000 bp (表5)和2000 bp (表6)的长扩增子的性能。对于本技术运行时间不随扩增子大小增加，因为无论待测序靶核酸的大小如何阅读大小总是~30–50个碱基。在一些实施方案中，本文所提供技术在比常规技术少一个数量级的时间内产生2000-bp序列(参见，例如，表6)。在一些实施方案中，本文所提供的技术在与常规技术相同的运行时间内提供更长的序列阅读。

表5-长扩增子测序1000 bp的比较

	SOD文库^a	Illumina TruSeq文库	Ion gDNA文库
				样品数/运行	8	8	1
扩增子数/样品	50	50	50
				扩增子的平均大小(bp)	1000	1000	1000
需要的SBS阅读长度	1×50	2×250 (配对末端)	1×400 (双向)
				总运行时间(小时)	3	37	4
各扩增子的平均覆盖/样品	1974	-	-
				通量(具有1000×覆盖的样品数/小时)	5.3	-	-
质量分数(分数>Q30的阅读的百分比)	>90%	-	-

a) SOD文库在MiSeq上用测序试剂盒v2运行

表6 – 长-扩增子测序2000 bp的比较

a) 在一些实施方案中对于较长插入物大小SOD文库制备时间较长(例如，~6.5小时- ~8.5小时)

b) Illumina “Moleculo”技术。

实施例4 – 使用模型文库获得的数据的概念验证

开发本文所提供的技术的实施方案期间，收集数据以使用模型文库验证该技术。如图4中所示，从根据所提供技术的实施方案产生的~35-bp阅读的集合构建了~127 bp的共有序列。使用本文所提供技术产生的文库在Illumina MiSeq DNA测序装置上产生~127-bp序列的计算测序运行时间为约2.5小时。使用常规技术提供文库，~13小时的运行时间产生同样的~127-bp序列阅读。

实例5 – 使用3′-O-炔丙基dNTP终止产生梯

开发本文所提供的技术的实施方案期间，进行实验以评估包含3′-O-炔丙基-dNTPs和天然(标准)dNTPs的混合物的反应中终止的核酸片段的产生。具体地，进行实验以评估通过在合成期间由DNA聚合酶掺入链终止3′-O-炔丙基-dNTPs在靶区域内的每一位置终止的片段的产生。使用具有来自人KRAS (例如，KRAS外显子2和侧翼内含子序列)的序列的模板核酸和互补的引物进行聚合酶延伸测定：

KRAS外显子2模板(SEQ ID NO: 1)

TTATTATAAGGCCTGCTGAAAATGACTGAATATAAACTTGTGGTAGTTGGAGCTGGTGGCGTAGGCAAGAGTGCCTTGACGATACAGCTAATTCAGAATCATTTTGTGGACGAATATGATCCAACAATAGAGGTAAATCTTGTTTTAATATGCATATTACTGGTGCAGGACCATTCT

R_ke2_trP1_T_bio (SEQ ID NO: 2)

bTAAUCCTCTCTATGGGCAGTCGGTGATAGAATGGTCCTGCACCAGTAA

在R_ke2_trP1_T_bio引物序列(SEQ ID NO: 2)中，“b”指示生物素修饰并且“U”指示脱氧尿苷修饰。引物至延伸产物的掺入产生包含尿嘧啶的延伸产物。尿嘧啶可用于，例如，在许多分子生物学操作(例如，从固体载体上切割产物)中切割产物(例如，使用尿嘧啶切割试剂)。

实验使用天然dNTPs和所有四种3′-O-炔丙基-dNTPs的混合物在单一反应中进行。DNA片段产生反应混合物在25-µl反应体积中包含20 mM Tris-HCl、10 mM (NH₄)SO₄、10 mMKCl、2 mM MnCl₂、0.1% Triton X-100、1000 pmol dATP、1000 pmol dCTP、1000 pmoldGTP、1000 pmol dTTP、100 pmol 3′-O-炔丙基-dATP、100 pmol 3′-O-炔丙基-dCTP、100pmol 3′-O-炔丙基-dGTP、100 pmol 3′-O-炔丙基-dTTP、6.25 pmol引物R_ke2_trP1_T_bio(SEQ ID NO: 2)和2单位THERMINATOR II DNA聚合酶(New England BioLabs)。与KRAS外显子2中的区域(SEQ ID NO: 1)对应的0.5 pmol纯化的扩增子用作模板。聚合酶延伸反应通过加热至95℃ 2分钟，接着95℃ 15秒、55℃ 25秒和65℃ 35秒45个循环热循环。

聚合酶延伸反应后，1 µl反应混合物直接用于使用凝胶电泳(Agilent 2100生物分析仪和高灵敏度DNA测定芯片)分析DNA片段大小。反应产物的片段大小分析表明片段产生反应成功产生具有预期大小的核酸片段梯。

实施例6 – 5′-叠氮基-甲基-修饰的寡核苷酸的合成

开发本文所提供的技术的实施方案期间，合成和表征了包含5′-叠氮基-甲基修饰的寡核苷酸。修饰寡核苷酸的合成使用亚磷酰胺化学合成进行。在最后的合成步骤中，亚磷酰胺化学合成用于在末端5′位置掺入5′-碘-dT亚磷酰胺。然后如下处理附着到反应柱中的固体载体上的寡核苷酸。

首先，将叠氮化钠(30 mg)重悬在干燥DMF (1 ml)中，55℃加热3小时，并冷却至室温。用1-ml注射器吸取上清液并来回通过包含5′-碘-修饰的寡核苷酸的反应柱，环境(室)温度孵育过夜。孵育后，柱用干燥DMF洗涤、用乙腈洗涤，然后经由氩气干燥。从固体载体切割所得的5′-叠氮基-甲基-修饰的寡核苷酸并通过在氨水中55℃加热5小时去保护。终产物为具有下示序列的寡核苷酸：

Az-TCTGAGTCGGAGACACGCAGGGATGAGATGGT (SEQ ID NO: 3)

“Az”指示5′末端的叠氮基-甲基修饰(例如，5′-叠氮基-甲基修饰)，例如，以提供具有下列结构的寡核苷酸

，

其中B为核苷酸的碱基(例如，腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶，或天然或合成的核苷碱基，例如，修饰的嘌呤如次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤；修饰的嘧啶如5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-羟甲基胞嘧啶；等)。

实施例7 – 5′-叠氮基-甲基-修饰的寡核苷酸与3′-O-炔丙基-修饰的核酸片段的缀合

开发本文所提供的技术的实施方案期间，进行实验以检验5′-叠氮基-甲基-修饰的寡核苷酸(例如，参见实施例6)通过点击化学与3′-O-炔丙基-修饰的核酸片段(例如，参见实施例5)的缀合。具体地，进行其中使用铜(I)催化的1,3-偶极炔-叠氮化物环加成化学(“点击化学”)将5′-叠氮基-甲基-修饰的寡核苷酸与3′-O-炔丙基-修饰的DNA片段化学缀合的实验。

点击化学使用市售可得的试剂(baseclick GmbH, Oligo-Click-M Reload试剂盒)按照制造商的说明进行。简言之，在10 µl的总体积中使用点击化学试剂使约0.1 pmol包含5′-生物素修饰的3′-O-炔丙基-修饰的DNA片段与约500 pmol 5′-叠氮基-甲基-修饰的寡核苷酸反应。反应混合物45℃孵育30分钟。孵育之后，将上清液转移至新的微量离心管并加入40-µl体积的市售提供的结合和洗涤缓冲液(例如，1 M NaCl、10 mM Tris-HCl、1 mMEDTA，pH 7.5)。通过用链霉亲和素-包覆的磁珠(Dynabeads, MyOne Streptavidin C1,Life Technologies)环境(室)温度孵育点击化学反应混合物15分钟分离缀合的反应产物和过量5′-叠氮基-甲基-修饰的寡核苷酸。使用磁体从上清液分离小珠并将上清液移除。随后，使用结合和洗涤缓冲液洗涤小珠两次然后重悬在25 µl TE缓冲液(10 mM Tris-HCl，0.1 mM EDTA，pH约8)中。

使用尿嘧啶切割(尿嘧啶转葡糖基酶和内切核酸酶VIII，Enzymatics)从固体载体(小珠)切割产物。具体地，尿嘧啶切割试剂用于在位于缀合产物(参见SEQ ID NOs: 2-5)的5′-末端位置附近的脱氧尿苷修饰位点切割反应产物。最后，使用Ampure XP (BeckmanCoulter)按照制造商的方案纯化包含缀合产物的上清液并洗脱在20 µl TE缓冲液中。

实施例8 – 缀合产物的扩增

开发本文所述的技术的实施方案期间，进行实验以表征5′-叠氮基-甲基-修饰的寡核苷酸与3′-O-炔丙基修饰的核酸片段的化学缀合和以评估作为核酸骨架中的天然磷酸二酯键的模拟物的三唑连接。为了检验聚合酶识别缀合产物作为模板和合成期间穿过三唑连接的能力，PCR引物设计为产生跨越缀合产物的三唑连接的扩增子：

引物1：CCTCTCTATGGGCAGTCGGTGAT SEQ ID NO: 4

引物2：CCATCTCATCCCTGCGTGTCTC SEQ ID NO: 5

使用市售可得的PCR预混物(KAPA 2G HS, KAPA Biosystems)提供包含，除了混合物提供的组分(例如，缓冲液、聚合酶、dNTPs)外，0.25 µM引物1 (SEQ ID NO: 4)、0.25 µM 引物2 (SEQ ID NO: 5)和2 µl纯化的缀合产物(参见实施例7)作为扩增模板的25-µl反应混合物。反应混合物通过95℃孵育样品5分钟，接着98℃ 20秒，60℃ 30秒和72℃ 20秒30个循环热循环。扩增产物通过凝胶电泳(例如，使用Agilent生物分析仪2100系统和高灵敏度DNA芯片)分析以测定反应产物的大小分布。

扩增产物的分析表明使用点击化学反应的缀合产物(参见实施例7)作为扩增模板扩增反应成功产生扩增子。具体地，扩增产物的分析表明聚合酶沿模板前进并通过三唑连接以从模板产生扩增子。此外，扩增产生具有与经由掺入3′-O-炔丙基-dNTP的碱基-特异性终止的DNA片段的扩增所产生的预期大小对应的大小范围的异质扩增子群。片段分析还显示与来自缀合的5′-叠氮基-甲基-修饰的寡核苷酸的三十一(31)个额外碱基对应的适当片段大小增加。

实施例9 – NGS衔接头与片段梯产物的连接

开发本文所提供的技术的实施方案期间，进行实验以测序根据本文所提供技术产生的梯状片段(参见，图5)。作为测序的初始步骤，进行实验以使用实施例8中产生的DNA梯产物作为输入和用于样品制备的市售试剂盒制备测序文库。测序文库使用TRUSEQ NANO DNA样品制备试剂盒(Illumina, Inc.)按照制造商的方案并进行以下改进制备。衔接头连接步骤后，使用1:1 (v/v)的样品与小珠-混合物比率进行两轮(而不是一轮)基于小珠的纯化。按照制造商的方案使用提供的Illumina PCR引物进行8个扩增循环以富集衔接头-连接的产物。最终的测序文库通过凝胶电泳(Agilent 2100生物分析仪和高灵敏度DNA测定芯片)分析。片段大小分析证实使用实施例8的片段梯产物成功产生NGS文库(例如，用于Illumina测序)。数据表明NGS文库具有与126-bp Illumina衔接头的添加对应的适当片段大小增加，因此衔接头与片段梯适当连接。图5显示测序文库的片段的示意图。具体地，片段包含两个末端的Issumina衔接头、一个或多个通用序列和靶序列。

实施例10 – 测序

开发本文所提供的技术的实施方案期间，进行实验以测序衔接头-连接的NGS文库，例如，如实施例9中所描述制备的测序文库。根据实施例9产生的文库使用2 × 75-bp合成法测序试剂盒用Illumina MiSeq测序仪成功测序。试剂盒提供与衔接头序列互补的测序引物。测序后，超过89%的阅读具有Q30或更好的序列质量分数。

实验收集的数据表明片段群提供该技术所产生的短测序阅读(30 – 50 bp)的无模糊比对。具体地，重叠核酸片段提供尽管尺寸小但成功比对并汇编的阅读。

序列数据使用适应根据本技术产生的片段梯的具体设计的自定义数据处理工作流从测序仪输出提取。例如，自定义软件鉴定阅读并处理阅读以使用2 × 75-bp序列阅读的40-bp部分用于后续序列比对。自定义软件的具体组件串联NGS测序仪产生的阅读(例如，Read1和Read2 FASTQ文件)；鉴定源自靶序列、通用序列和衔接头的序列(例如，鉴定源自5′-叠氮基-甲基-寡核苷酸的序列)；使用模式识别设置序列提取边界；从NGS测序仪产生的序列阅读提取靶序列；和比对序列(参见图5)。

实施例11 – 序列比对

开发本文所提供的技术的实施方案期间，进行实验以比对如本文所述从NGS文库产生的序列数据，从比对产生共有序列和比对共有序列与参考序列。具体地，将从MiSeq测序输出提取的40-bp序列阅读与参考序列(例如，包含人KRAS基因外显子2部分侧翼内含子序列的177-bp序列)比对。

40-bp测序阅读的比对使用CLC Genomics Workbench v7并严格处罚错配和插入缺失进行；长度和相似匹配需求根据附带的对40-bp阅读的说明适当设置。比对结果(图6A)表明40-bp序列阅读提供整个参考序列(177bp)的完全覆盖。此外，覆盖深度对序列位置的图具有理论比对模拟期间阐明的预期的“梯形”覆盖概况(图6B)。

这些结果表明相对短的测序运行(例如具有30 – 50个通过合成测序循环的MiSeq)产生完整的、高质量的靶序列。进一步地，调整现有方法，例如，设计引物紧邻靶位点结合，可使高质量序列的长度最大化。进一步地，适当产生片段梯以覆盖靶的整个长度(例如，通过调整3′-O-炔丙基-dNTPs与dNTPs的比率；参见实施例12)也可使高质量序列的长度最大化。在本实施例中，在Miseq上40个测序循环(以获得序列的40个碱基)耗费大约2.5小时。但重要的是该技术相对于现有技术提供测序仪运行时间不根据靶大小改变这一改进。

实施例12 – NGS文库的测序和分析

开发本文所提供的技术的实施方案期间，进行实验以通过调整3′-O-炔丙基-dNTPs与天然(标准)dNTPs的比率控制包含3′-O-炔丙基-dNTPs和天然(标准)dNTPs的混合物的反应中所产生的终止核酸片段的大小分布。考虑3′-O-炔丙基-dNTPs与天然dNTPs的摩尔比率影响片段大小分布，这由于3′-O-炔丙基-dNTPs (终止延伸)与天然dNTPs (延伸聚合酶产物)之间对于通过聚合酶掺入合成的核酸的竞争引起。

因此，进行其中在3′-O-炔丙基-dNTPs与天然dNTPs的多个摩尔比率时评估片段梯产生反应的产物的实验。片段梯产生反应使用2:1、10:1和100:1的天然dNTPs与3′-O-炔丙基-dNTPs的摩尔比率进行。这些实验中使用的片段产生反应混合物在25-µl终反应体积中包含20 mM Tris-HCl、10 mM (NH₄)SO₄、10 mM KCl、2 mM MnCl₂、0.1% Triton X-100、1000pmol dATP、1000 pmol dCTP、1000 pmol dGTP、1000 pmol dTTP、6.25 pmol引物、2单位Therminator II DNA 聚合酶 (New England BioLabs)和0.5 pmol与KRAS外显子2 (SEQID NO: 1)中的区域对应的纯化的扩增子作为模板。

另外，检验2:1的天然dNTPs与3′-O-炔丙基-dNTPs摩尔比率的反应包含500 pmol3′-O-炔丙基-dATP、500 pmol 3′-O-炔丙基-dCTP、500 pmol 3′-O-炔丙基-dGTP和500pmol 3′-O-炔丙基-dTTP。检验10:1的天然dNTPs与3′-O-炔丙基-dNTPs摩尔比率的反应包含100 pmol 3′-O-炔丙基-dATP、100 pmol 3′-O-炔丙基-dCTP、100 pmol 3′-O-炔丙基-dGTP和100 pmol 3′-O-炔丙基-dTTP。检验100:1的天然dNTPs与3′-O-炔丙基-dNTPs摩尔比率的反应包含10 pmol 3′-O-炔丙基-dATP、10 pmol 3′-O-炔丙基-dCTP、10 pmol 3′-O-炔丙基-dGTP和10 pmol 3′-O-炔丙基-dTTP。

聚合酶延伸反应通过95℃孵育2分钟，接着95℃ 15秒，55℃ 25秒和65℃ 35秒45个循环温度循环。聚合酶延伸反应之后，如实施例6和实施例7所述使用点击化学将5′-叠氮基-甲基-修饰的寡核苷酸化学缀合到以3′-O-炔丙基-dN终止的核酸片段。缀合后，如实施例8中所述将缀合产物用作扩增模板以产生与缀合产物对应的扩增子。在缀合产物上进行片段大小分析。

从三个不同的摩尔比率条件的产物产生的扩增的缀合产物的片段大小分析表明片段大小取决于3′-O-炔丙基-dNTPs与天然dNTPs的比率。片段大小的分析显示片段大小分布作为dNTP与3′-O-炔丙基-dNTP的摩尔比率的函数转变。在2:1摩尔比率时，与另外两个摩尔比率条件相比检测到更大的较短片段群。在10:1摩尔比率时，相对于2:1摩尔比率存在更大部分的较长片段。在100:1摩尔比率时，相对于另外两个摩尔比率主要的片段群包含较长的DNA片段。

用三个不同的摩尔比率产生的梯状片段用作单独的输入以如实施例9中所述产生用于在MiSeq测序仪上测序的NGS (Illumina)文库。此外，序列阅读如实施例10中所述获得并且如实施例11中所述提取和分析来自靶序列的序列数据。

使用三个不同的dNTP与3′-O-炔丙基-dNTP摩尔比率(摩尔比率2:1、10:1和100:1)制备的三个文库的覆盖概况与各个摩尔比率建立的DNA梯状片段大小分布相关。例如，由于相对高的3′-O-炔丙基-dNTP丰度，2:1的dNTP与3′-O-炔丙基-dNTP摩尔比率预期以高频率终止聚合酶延伸并因此产生与较高的dNTP与3′-O-炔丙基-dNTP比率相比相对短的核酸梯状片段。相反，由于相对低的3′-O-炔丙基-dNTP丰度，100:1的摩尔比率预期以低频率终止聚合酶延伸并因此产生与较低的dNTP与3′-O-炔丙基-dNTP比率相比相对长的核酸梯状片段。

从使用三个不同的摩尔比率产生的DNA梯产物的片段大小分析收集的数据证实了这些预测。具体地，数据表明改变dNTP与3′-O-炔丙基-dNTP的摩尔比率提供对DNA梯状片段大小的控制。

此外，使用三个不同的摩尔比率产生的DNA梯产物的测序和从梯产物产生的序列的分析显示序列覆盖概况与DNA梯产生期间使用的dNTP与3′-O-炔丙基-dNTP的摩尔比率相关。具体地，数据表明2:1摩尔比率提供测序引物结合位点附近序列的更多覆盖并且100:1摩尔比率提供远离测序引物结合位点的更多覆盖。因此，本技术提供控制DNA梯状片段产生用于多种测序应用的能力。具体地，增加远离测序引物结合位点的覆盖可用于与长(例如，大于100个碱基对)测序应用有关的测序应用。使用在不同摩尔比率产生的多个测序文库测序提供具有测序引物结合位点附近、中间和远处的序列的高覆盖的序列数据。

实施例13 – 用包含指标序列的引物标记

开发本文所提供的技术的实施方案期间，进行实验以评估指标或条码序列从文库产生、NGS和比对所产生的序列跟踪和构建原始靶模板的序列的用途。在第一组实验中，靶核酸使用包含独特的鉴定指标序列的靶-特异性引物通过聚合酶延伸反应拷贝和标记。如本文所使用的，此种或相似的分子条码方法称为“拷贝和标记反应”或“拷贝和ID-标记反应”。

在该方案中，设计包含两个区域的聚合酶延伸引物(图7)：含有靶-特异性引发序列的3′区域和含有两个不同的通用序列(例如，通用序列A和通用序列B)位于简并序列(例如，包含8 bp)侧面的5′区域。寡核苷酸引物根据该方案合成并与设计为停止聚合酶延伸的第二个寡核苷酸一起用在聚合酶延伸反应中，因此仅“拷贝和标记”目的靶区域：

聚合酶延伸引物Eg_e19_R_SOD_v03-01-bio (SEQ ID NO: 6)

bTAAUTAGTGGCTGACGGGTATCTCTCACCTTTNNNNNNNNCAGACATGAGAAAAGGTGGGC

聚合酶延伸阻断剂Eg_e19_SOD_SC-200_v1 (SEQ ID NO: 7)

C*A*ATTGTGAGATGGTGCCACATGCTGCam

“拷贝和标记”程序期间在聚合酶延伸反应中使用的聚合酶延伸引物和聚合酶延伸阻断剂的序列(上述SEQ ID NOs: 6和7)中，“b”指示5′-生物素修饰，“U”指示脱氧尿苷修饰，“*”指示硫代磷酸酯键，“am”指示3′-氨基修饰。

聚合酶延伸反应使用市售可得的高保真度聚合酶预混物试剂盒(KAPA HiFiHotStart PCR kit, KAPA Biosystems)进行以产生在25-µl反应体积中包含1 pmol聚合酶延伸引物(例如，Eg_e19_R_SOD_v03-01-bio)、1 pmol聚合酶延伸阻断剂(例如，Eg_e19_SOD_SC-200_v1)和100 ng从人肺腺癌/非小细胞肺癌细胞系(在登录号CRL-5908下从ATCC可得的细胞系NCI-H1975)提取的纯化基因组DNA的反应混合物。聚合酶延伸反应在95℃孵育2分钟，98℃ 30秒，58℃ 90秒和65℃ 30秒。完成58℃孵育步骤后立即加入dNTP和KAPAHiFi聚合酶。

聚合酶延伸反应产物使用基于小珠的纯化(Ampure XP, Beckman Coulter)按照制造商的方案纯化与去除聚合酶延伸引物、聚合酶延伸阻断剂和其他延伸反应组分。然后，使用链霉亲和素-包覆的磁性微球的基于固相捕获的纯化(Dynabeads, MyOneStreptavidin C1, Life Technologies)用于分离聚合酶延伸反应产物与基因组DNA模板。分离聚合酶延伸反应产物后，以1:1 (v/v)的比率向小珠纯化的洗脱液加入2×结合和洗涤缓冲液(2 M NaCl，20 mM Tris-HCl，2 mM EDTA，pH 7.5)并于环境(室)温度孵育15分钟。使用磁体从上清液分离小珠并将上清液移除。接着，小珠使用结合和洗涤缓冲液洗涤两次并重悬在25 µl TE缓冲液(10 mM Tris-HCl, 0.1 mM EDTA, pH约8)中。将小珠用0.1 M NaOH和0.1 M NaCl的溶液孵育1分钟以除去任何剩余基因组DNA的痕迹。然后使用磁体从上清液分离小珠(将上清液丢弃)，使用结合和洗涤缓冲液洗涤小珠两次，并重悬在25 µl TE缓冲液(10 mM Tris-HCl, 0.1 mM EDTA, pH约8)中。

最后，为了释放小珠-结合的产物，使用尿嘧啶切割系统(尿嘧啶转葡糖基酶和外切核酸酶VIII，酶的)在由于聚合酶延伸引物(参见SEQ ID NO: 6)的延伸而掺入聚合酶延伸产物的5′末端的脱氧尿苷修饰处切割小珠-结合的聚合酶延伸产物。使用Ampure XP(Beckman Coulter)按照制造商的方案纯化包含聚合酶延伸产物的上清液并洗脱在20 µlTE缓冲液中。

如图8中所示意描述的，设计、合成扩增引物Uni_R_v2和e19_F_v1并用于扩增纯化的聚合酶延伸产物以证实拷贝和标记产物的产生。扩增引物Uni_R_v2和SC-240_COM_v1用于证实聚合酶延伸阻断剂有效阻断聚合酶延伸过聚合酶延伸阻断剂与模板结合的位点。

Uni_R_v2 (SEQ ID NO: 8)

AGTGGCTGACGGGTATCTCTC

e19_F_v1 (SEQ ID NO: 9)

TGCCAGTTAACGTCTTCCTTCT

SC-240_COM_v1 (SEQ ID NO: 10)

ATCACTGGGCAGCATGTGG

在聚合酶延伸产物上进行两个扩增反应。第一个反应包含引物Uni_R_v2和e19_F-v1，其扩增(经由聚合酶延伸阻断剂)阻断的和非阻断的聚合酶延伸产物二者。第二个反应包含引物 Uni_R_v2和SC-240_COM_v1，其仅扩增非阻断的聚合酶延伸产物。使用市售可得的扩增混合物(KAPA 2G HS, KAPA Biosystems)和0.25 µM的各个引物(如上文对于此两个反应所指明的)以25-µl终反应体积产生两种类型的反应混合物。5-µl体积的纯化聚合酶延伸产物用作每个扩增反应的模板。扩增反应通过95℃孵育反应混合物5分钟，接着98℃ 20秒，60℃ 30秒和72℃ 20秒30个循环热循环。扩增产物通过凝胶电泳(例如，使用Agilent生物分析仪2100系统和高灵敏度DNA芯片)分析以测定片段大小分布。

从片段大小分析收集的数据表明包含引物Uni_R_v2和e19_F_v1的扩增反应产生预期大小的产物。此外，数据还表明包含引物Uni_R_v2和SC-240_COM_v1的扩增反应不产生可检测的产物，因此表明聚合酶延伸阻断剂有效停止聚合酶反应。因此，本技术提供拷贝和标记反应的精确控制以产生仅来自目的靶区域的产物。

实施例14 – 用包含指标序列的衔接头标记

进一步地，在开发本文所述实施方案期间进行的第二组实验中，将靶核酸拷贝并随后使用包含独特的鉴定指标序列的衔接头通过衔接头连接标记。在该基于衔接头连接的分子条码方案中(参见，例如，图9)，使用两个寡核苷酸构建DNA衔接头。第一个寡核苷酸设计为具有5′末端和3′末端两侧为两个不同的通用序列(例如，通用序列A和通用序列B；参见图9)的一段简并序列(例如，包含8 - 12个碱基)。第二个寡核苷酸设计为包含通用序列C (例如，在5′末端)以及与通用序列B互补的和在3′-末端位置具有额外的T的序列(例如，在3′末端)。为了产生DNA衔接头，以等摩尔量混合两个寡核苷酸，95℃孵育5分钟，然后缓慢冷却至环境(室)温度以提供两个寡核苷酸的互补部分(例如，通用序列B和其互补序列)的有效杂交。这些衔接头与靶DNA的连接提供每个个体靶DNA分子(例如，每个个体PCR扩增子)，例如，在包含相对于个体靶分子的数目摩尔过量的独特ID-标签序列衔接头的反应中的独特“ID-标记”。

进行实验以使用下列寡核苷酸检验此技术的实施方案：

ST-adN10-phos-v1 (SEQ ID NO: 11)

pGTGGCTGACGGGTATCTCTCNNNNNNNNNNATCACCGACTGCCCATAGAGAGG

ST-ad-T-v1 (SEQ ID NO: 12)

GCACTGGATCACGTCATACCTACGAGAGATACCCGTCAGCCA*C*T

在用于形成衔接头的两个寡核苷酸的序列(上述SEQ ID NOs: 11和12)中，“P”指示5′-磷酸修饰，“N”指示简并碱基位置(例如，该位置可为A、C、G或T)，以及“*”指示硫代磷酸酯键。

作为第一步，进行扩增反应以使用下列引物扩增人EGFR基因的外显子18 (具有侧翼内含子序列)中的158-bp区域：

E_e18_f_v1p (SEQ ID NO: 13)

pCCAGTGGAGAAGCTCCCAAC

E_e18_r_v1p (SEQ ID NO: 14)

pCAGACCATGAGAGGCCCTG

在两个EGFR引物的序列(上述SEQ ID NOs: 13和14)中，“p”指示5′-磷酸修饰。反应混合物使用市售可得的PCR预混物试剂盒(KAPA 2G HotStart PCR kit, KAPA Biosystems)、10 pmol的每一EGFR引物(SEQ ID NOs: 13和14)和10 ng纯化的从人肺腺癌/非小细胞肺癌细胞系(在登录号CRL-5908下从ATCC可得的细胞系NCI-H1975)提取的基因组DNA以25-µl反应体积产生。反应混合物通过95℃孵育2分钟，接着98℃ 20秒，63℃ 30秒和68℃ 20秒23个循环热循环。扩增后，1 µl反应混合物直接用于使用凝胶电泳(例如，Agilent 2100生物分析仪和高灵敏度DNA测定芯片)分析DNA片段大小。从片段分析收集的数据表明扩增产生具有预期大小158 bp的产物。

接着，使用基于小珠的纯化方法(Ampure XP, Beckman Coulter)按照制造商的方案纯化扩增产物以除去未掺入的引物和扩增反应组分。

纯化后，将包含指标序列(例如，如上文所述的)的衔接头连接到扩增子。通过上述扩增反应产生的扩增子包含5′磷酸(例如，来自5′-磷酸修饰的引物的掺入)和3′-dA-突出(例如，来自在延伸产物的3′-末端添加非-模板A的DNA聚合酶)。连接反应使用市售可得的连接试剂盒(T4 DNA Ligase-Rapid, Enzymatics)进行。具体地，连接反应混合物使用试剂盒“Rapid”连接缓冲液、25 pmol衔接头和约0.25 pmol扩增子以50-µl反应体积产生。

连接反应后，连接反应混合物在25℃孵育10分钟并立即使用基于小珠的纯化(Ampure XP, Beckman Coulter)按照制造商的方案纯化两次，除了样品输入体积与小珠溶液体积从1:1.8改变至1:1。

纯化的连接产物在有限-循环(例如，8-循环)富集扩增中用作模板以扩增连接产物(图10)。扩增反应包含设计为扩增包含“ID-标签”标签部分(例如，10个简并碱基)并具有预期长度249 bp的连接产物：

PCR1 (SEQ ID NO: 15)

CCTCTCTATGGGCAGTCGGTGAT

ST-PCR1-R-v1 (SEQ ID NO: 16)

GCACTGGATCACGTCATACCTAC

扩增使用市售可得的高保真度PCR预混物试剂盒(KAPA HiFi HotStart PCR kit,KAPA Biosystems)进行以产生在25-µl反应体积中包含0.25 µM的每一引物和纯化的衔接头-连接产物作为模板的反应混合物。扩增反应混合物通过95℃孵育5分钟，接着98℃ 20秒，60℃ 30秒和72℃ 20秒8个循环热循环。扩增后，1 µl反应混合物直接用于通过凝胶电泳(例如，Agilent 2100生物分析仪和高灵敏度DNA测定芯片)分析片段大小。从片段分析收集的数据表明扩增从衔接头-连接产物产生预期大小的扩增子(例如，包含与上文产生的158 bp的EGFR扩增子对应的部分和连接的衔接头的249-bp扩增子)。

实施例15 - 靶核酸的环化

开发本文所提供的技术的实施方案期间，进行实验以评估基于靶核酸分子内连接(环化)以定向特定排列的靶核酸的不同区域的分子技术。该方法包括环化靶核酸，这使已知序列(例如，通用引发序列)以特定的方向与未知序列(例如，比如通过测序查询的目的区域)相邻(图11)。

在这些实施方案中，环化反应使用市售可得的ssDNA连接酶试剂盒(CircLigaseII, Epicentre-Illumina)按照制造商的方案进行。该实验检验合成的输入模板，其为具有100、150和200个碱基长度的寡核苷酸(“ultramers”)：

Ultramer-200bp (SEQ ID NO: 17)

pGCAGCATGTGGCACCATCTCACAATTGCCAGTTAACGTCTTCCTTCTCTCTGGTGAGAAAGTTAAAATTCCCGTCGCTATCAAGGAATTAAGAGAAGCAACATCTCCGAAAGCCAACAAGGAAATCCTCGATGTGAGTTTCTGCTTTGCTGTGTGGGGGTCCATGGCTCTGAACCTCAGGCCCACCTTTTCTCATGTCTG

Ultramer-150bp (SEQ ID NO: 18)

pGCAGCATGTGGCACCATCTCACAATTGCCAGTTAACGTCTTCCTTCTCTCTATCTCCGAAAGCCAACAAGGAAATCCTCGATGTGAGTTTCTGCTTTGCTGTGTGGGGGTCCATGGCTCTGAACCTCAGGCCCACCTTTTCTCATGTCTG

Ultramer-100bp (SEQ ID NO: 19)

pGCAGCATGTGGCACCATCTCACAATTGCCAGTTAACGTCTTCCTTCTCTCTGATGTGAGTTTCTGCTTTGCTTCCTCAGGCCCACCTTTTCTCATGTCTG

在ultramers的序列(上述SEQ ID NOs: 17、18和19)中，“p”指示5′-磷酸修饰。

环化反应后，用外切核酸酶I和III (NEB) 37℃处理产物30分钟以去除非环化模板。外切核酸酶处理后，通过80℃孵育10分钟灭活外切核酸酶。为了证实模板环化，设计引物扩增环-特异性扩增产物(图12)：

e19_F_v1 (SEQ ID NO: 20)

TGCCAGTTAACGTCTTCCTTCT

e19_circ_v1 (SEQ ID NO: 21)

G*A*TGGTGCCACATGCTGC

在环形模板引物的序列(上述SEQ ID NOs: 20和21)中，“*”指示硫代磷酸酯键。

扩增反应混合物使用Taq-Gold (Abbott Molecular)、0.2 µM的每种引物和三个不同大小的反应产物之一作为模板以25-µl反应体积产生。反应混合物通过95℃孵育5分钟，接着98℃ 20秒、60℃ 30秒和68℃ 30秒38个循环热循环。扩增后，10 µl反应混合物直接用于通过凝胶电泳使用预制2%琼脂糖凝胶(E-Gel EX 2% Agarose Gel, LifeTechnologies)分析DNA片段大小。收集的数据表明扩增从环形模板产生预期大小的产物，因此证实从三个检验ultramers产生环形核酸。此外，包含线性模板的阴性对照中环-特异性产物的缺失表明该引物产生环-特异性产物。

对于所有目的，上述说明书中提及的所有出版物和专利通过引用以其整体结合到本文中。所述技术的组合物、方法和用途的多种修饰和变更将对本领域技术人员显而易见而不脱离所述技术的范围和精神。尽管所述技术已经结合具体的示例性实施方案进行描述，应理解的是如所要求的本发明不应被过度限制在这样的具体实施方案中。实际上，对本领域技术人员显而易见的所述用于实施本发明的模式的多种修饰意在包含在随附权利要求的范围内。

Claims

1.产生下一代测序文库的方法，所述方法包括：

a)使用包含靶特异性序列和通用序列A的引物扩增靶核苷酸序列以提供扩增子，其中所述扩增子可为单链的或双链的；

b)将包含通用序列B的第一个衔接头寡核苷酸与扩增子连接以形成衔接头-扩增子；和

c)产生包含多个片段的梯状片段文库以用作下一代测序文库。

2.权利要求1的方法，其中所述引物进一步包含与靶核酸关联的条码核苷酸序列。

3.权利要求1的方法，其中所述第一个衔接头寡核苷酸连接至扩增子的3'末端。

4.权利要求1的方法，进一步包括环化所述衔接头-扩增子以形成环形模板。

5.权利要求1的方法，进一步包括环化所述衔接头-扩增子以形成环形模板和从环形模板产生梯状片段文库。

6.权利要求1的方法，其中所述梯状片段文库使用3'-O-修饰的核苷酸类似物产生。

7.权利要求1的方法，进一步包括将包含通用序列C的第二个衔接头寡核苷酸连接至梯状片段文库的片段的3'末端以产生下一代测序文库。

8.权利要求2的方法，其中所述条码核苷酸序列包含1-20个核苷酸。

9.权利要求1的方法，其中所述第一个衔接头寡核苷酸包含10-80个核苷酸。

10.权利要求1的方法，其中所述梯状片段文库的片段的核苷酸序列与靶核苷酸序列内的重叠核苷酸子序列对应，并且所述片段的核苷酸序列具有与靶核苷酸序列的不同核苷酸对应的3'末端。

11.权利要求1的方法，其中梯状片段文库的每个片段的每一核苷酸序列包含15-1,000个核苷酸。

12.权利要求1的方法，其中所述第一个衔接头寡核苷酸为单链DNA。

13.权利要求7的方法，其中第二个衔接头寡核苷酸为单链DNA。

14.权利要求1的方法，其中产生梯状片段文库包括使用与通用序列A互补的寡核苷酸引物。

15.权利要求1的方法，进一步包括扩增所述多个片段。

16.权利要求6的方法，其中所述3'-O-修饰的核苷酸类似物为3'-O-炔基核苷酸类似物，所述3'-O-修饰的核苷酸类似物为3'-O-炔丙基核苷酸类似物，或所述核苷酸类似物包含可逆的终止剂。

17.权利要求7的方法，包括使用点击化学反应将包含通用序列C的第二个衔接头寡核苷酸连接至梯状片段文库的片段的3'末端以产生下一代测序文库。

18.权利要求7的方法，包括使用基于铜的点击化学催化剂试剂。

19.用于测定靶核苷酸序列的方法，所述方法包括：

a)根据权利要求1产生下一代测序文库；和

b)测定梯状片段文库的片段的核苷酸序列，所述核苷酸序列包括靶核苷酸序列的核苷酸子序列。

20.权利要求19的方法，其中所述引物进一步包含与靶核酸关联的条码核苷酸序列并且所述方法进一步包括测定梯状片段文库的片段的条码核苷酸序列。

21.权利要求19的方法，进一步包括将包含通用序列C的第二个衔接头寡核苷酸连接至梯状片段文库的片段的3'末端以产生下一代测序文库，并且其中测定梯状片段文库的片段的核苷酸序列包括使用与通用序列C互补的寡核苷酸引物。

22.权利要求20的方法，其中测定梯状片段文库的片段的条码核苷酸序列包括使用与通用序列B互补的寡核苷酸引物。

23.权利要求19的方法，其中所述梯状片段文库的片段的核苷酸序列包含15-1000个核苷酸。

24.权利要求20的方法，包括关联条码核苷酸序列与靶核苷酸序列的源。

25.权利要求20的方法，进一步包括将具有相同条码核苷酸序列的梯状片段文库的片段的核苷酸序列框并。

26.权利要求19的方法，进一步包括汇编梯状片段文库的片段的多个核苷酸序列以提供共有序列。

27.权利要求26的方法，进一步包括将共有序列定位至参考序列。

28.权利要求26的方法，其中所述共有序列保留靶核酸的定相和/或连锁信息。

29.用于测定靶核苷酸序列的方法，所述方法包括：

a)测定靶核苷酸序列的第一个核苷酸子序列，所述第一个核苷酸子序列具有位于靶核苷酸序列的核苷酸x1处的5'末端并且具有位于靶核苷酸序列的核苷酸y1处的3'末端；

b)测定靶核苷酸序列的第二个核苷酸子序列，所述第二个核苷酸子序列具有位于靶核苷酸序列的核苷酸x2处的5'末端并且具有位于靶核苷酸序列的核苷酸y2处的3'末端；

c)汇编第一个核苷酸子序列和第二个核苷酸子序列以为靶核苷酸序列提供共有序列，

其中：

1)x2<y1；并且

2)(y1–x1)<100，(y2–x2)<100，和(y2–y1)<5。

30.权利要求29的方法，其中(y1–x1)<90、80、70、60、55、50、45、40、35或30并且(y2–x2)<90、80、70、60、55、50、45、40、35或30。

31.权利要求29的方法，其中(y1–x1)<40并且(y2–x2)<40。

32.权利要求29的方法，其中(y1–x1)<30并且(y2–x2)<30。

33.权利要求29的方法，其中(y2–y1)<20、(y2–y1)<10、(y2–y1)<5、(y2–y1)<4、(y2–y1)<3或(y2–y1)<2。

34.权利要求29的方法，其中(y2–y1)＝1。

35.权利要求29的方法，进一步包括通过解码条码核苷酸序列鉴定靶核苷酸序列的源或样品。

36.权利要求29的方法，其中所述共有序列包含100、200、300、400、500、600、700、800、900、1000或超过1000个碱基。

37.权利要求29的方法，其中所述共有序列包含1000、2000、2500、3000、3500、4000、4500或5000或超过5000个碱基。

38.权利要求29的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括从通用序列引发。

39.权利要求29的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3'-O-修饰的核苷酸类似物终止聚合。

40.权利要求29的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3'-O-炔基核苷酸类似物终止聚合。

41.权利要求29的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3'-O-炔丙基核苷酸类似物终止聚合。

42.权利要求29的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用包含可逆终止剂的核苷酸类似物终止聚合。

43.权利要求29的方法，进一步包括将共有序列定位至参考序列。

44.权利要求29的方法，其中所述共有序列保留靶核酸的定相和/或连锁信息。

45.用于测定靶核苷酸序列的方法，所述方法包括：

a)测定靶核苷酸序列的n个核苷酸子序列，其中：

1)第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5'末端并具有位于靶核苷酸序列的核苷酸y_m处的3'末端；

2)第(m+1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5'末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3'末端；和

b)汇编n个核苷酸子序列以为靶核苷酸序列提供共有序列，

其中：

1)m的范围为1到n；

2)x_m+1<y_m；和

3)(y_m–x_m)<100，(y_m+1–x_m+1)<100，并且(y_m+1–y_m)<5。

46.权利要求45的方法，其中(y_m–x_m)<90、80、70、60、55、50、45、40、35或30并且(y_m+1–x_m+1)<90、80、70、60、55、50、45、40、35或30。

47.权利要求45的方法，其中(y_m–x_m)<40并且(y_m+1–x_m+1)<40。

48.权利要求45的方法，其中(y_m–x_m)<30并且(y_m+1–x_m+1)<30。

49.权利要求45的方法，其中(y_m+1–y_m)<20、(y_m+1–y_m)<10、(y_m+1–y_m)<5、(y_m+1–y_m)<4、(y_m+1–y_m)<3或(y_m+1–y_m)<2。

50.权利要求45的方法，其中(y_m+1–y_m)＝1。

51.权利要求45的方法，进一步包括通过解码条码核苷酸序列鉴定靶核苷酸序列的源或样品。

52.权利要求45的方法，其中所述共有序列包含100、200、300、400、500、600、700、800、900、1000或超过1000个碱基。

53.权利要求45的方法，其中所述共有序列包含1000、2000、2500、3000、3500、4000、4500或5000或超过5000个碱基。

54.权利要求45的方法，其中测定n个核苷酸子序列包括从通用序列引发。

55.权利要求45的方法，其中测定n个核苷酸子序列包括用3'-O-修饰的核苷酸类似物终止聚合。

56.权利要求45的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3'-O-炔基核苷酸类似物终止聚合。

57.权利要求45的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用3'-O-炔丙基核苷酸类似物终止聚合。

58.权利要求45的方法，其中测定第一个核苷酸子序列和第二个核苷酸子序列包括用包含可逆终止剂的核苷酸类似物终止聚合。

59.权利要求45的方法，进一步包括将共有序列定位至参考序列。

60.权利要求45的方法，其中所述共有序列保留靶核酸的定相和/或连锁信息。

61.用作下一代测序文库以获得靶核酸序列的组合物，所述组合物包括n个核酸，其中每个核酸包含靶核酸的核苷酸子序列并且

1)第m个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m处的5'末端并具有位于靶核苷酸序列的核苷酸y_m处的3'末端；和

2)第(m+1)个核苷酸子序列具有位于靶核苷酸序列的核苷酸x_m+1处的5'末端并具有位于靶核苷酸序列的核苷酸y_m+1处的3'末端；

3)m的范围为1到n；

4)x_m＝x_m+1；和

5)(y_m+1–y_m)<20。

62.权利要求61的组合物，其中(y_m+1–y_m)<15、(y_m+1–y_m)<10、(y_m+1–y_m)<5、(y_m+1–y_m)<4、(y_m+1–y_m)<3或(y_m+1–y_m)＝1。

63.权利要求61的组合物，其中核酸进一步包含含有10-100个核苷酸的通用序列B和/或含有10-100个核苷酸的通用序列C。

64.权利要求61的组合物，其中核酸包含含有1-20个核苷酸的条码核苷酸序列。

65.权利要求61的组合物，进一步包含3'-O-修饰的核苷酸类似物、3'-O-炔基核苷酸类似物或3'-O-炔丙基核苷酸类似物。

66.权利要求61的组合物，进一步包含测序引物。

67.权利要求61的组合物，进一步包含与通用序列C互补的测序引物和/或与通用序列B互补的测序引物。

68.权利要求61的组合物，其中所述n个核酸包括具有不同条码核苷酸序列和靶核苷酸序列的不同核苷酸子序列的核酸，其中每个条码核苷酸序列与靶核苷酸序列关联。

69.权利要求61的组合物，其中条码核苷酸序列与靶核苷酸序列关联。

70.权利要求61的组合物，其中条码核苷酸序列以一对一的对应关系与靶核苷酸序列关联。

71.权利要求61的组合物，其中核酸包含3'-O-修饰的核苷酸类似物、3'-O-炔基核苷酸类似物、3'-O-炔丙基核苷酸类似物或含有可逆终止剂的核苷酸类似物。

72.权利要求61的组合物，其中核酸包含通过点击化学形成的连接。

73.权利要求61的组合物，其中核酸包含三唑连接。

74.权利要求61的组合物，其中核酸包含通过点击化学形成的连接与核苷类似物连接的衔接头。

75.权利要求61的组合物，进一步包含基于铜的点击化学催化剂试剂。

76.权利要求61的组合物，进一步包含下一代测序衔接头寡核苷酸。

77.一种反应混合组合物，其包含：

a)含有靶核酸的子序列的模板；和

b)3'-O-修饰的核苷酸类似物。

78.权利要求77的反应混合组合物，进一步包含聚合酶。

79.权利要求77的反应混合组合物，进一步包含梯状片段文库的一个或多个片段。

80.权利要求77的反应混合组合物，其中所述模板为环形的。

81.权利要求77的反应混合组合物，其中所述模板包含通用核苷酸序列。

82.权利要求77的反应混合组合物，其中所述模板包含条码核苷酸序列。

83.包含核酸文库的反应混合组合物，所述核酸文库包含平铺在靶核酸上并且彼此偏移1-20、1-10或1-5个碱基的重叠短核苷酸序列。

84.权利要求83的反应混合组合物，其中所述核酸文库的每一核酸包含小于10000个碱基、小于5000个碱基、小于2500个碱基、小于1000个碱基、小于900个碱基、小于800个碱基、小于700个碱基、小于600个碱基、小于500个碱基、小于400个碱基、小于300个碱基、小于200个碱基、小于100个碱基、小于90个碱基、小于80个碱基、小于70个碱基、小于60个碱基、小于50个碱基、小于45个碱基、小于40个碱基、小于35个碱基或小于30个碱基。

85.权利要求83的反应混合组合物，其中所述重叠短核苷酸序列彼此偏移1-5个碱基。

86.权利要求83的反应混合组合物，其中所述重叠短核苷酸序列彼此偏移1个碱基。

87.权利要求83的反应混合组合物，其中所述重叠短核苷酸序列覆盖包含100个碱基、200个碱基、300个碱基、400个碱基、500个碱基、600个碱基、700个碱基、800个碱基、900个碱基、1000个碱基或超过1000个碱基的靶核酸区域。

88.权利要求83的反应混合组合物，其中所述重叠短核苷酸序列覆盖包含1000个碱基、2000个碱基、2500个碱基、3000个碱基、3500个碱基、4000个碱基、4500个碱基、5000个碱基或超过5000个碱基的靶核酸区域。

89.权利要求1-85中任一项获得核苷酸序列的用途。

90.权利要求1-85中任一项定位单核苷酸多态性的用途。

91.权利要求1-85中任一项区分等位基因、区分罕见的小群体变体、鉴定基因融合和/或易位、鉴定拷贝数变体、鉴定插入缺失、鉴定倒位、鉴定重复、鉴定扩增、鉴定体细胞突变和/或鉴定基因、基因片段或基因或基因片段的一部分的用途。

92.权利要求1-85中任一项测序基因组的用途。

93.用于产生测序文库的试剂盒，所述试剂盒包含：

a)3'-O-修饰的核苷酸类似物；和

b)衔接头寡核苷酸。

94.权利要求90的试剂盒，进一步包含聚合酶。

95.权利要求90的试剂盒，进一步包含用于等温扩增的聚合酶。

96.权利要求90的试剂盒，进一步包含第二个衔接头寡核苷酸。

97.权利要求90的试剂盒，其中所述3'-O-修饰的核苷酸类似物为3'-O-炔基核苷酸类似物。

98.权利要求90的试剂盒，其中所述3'-O-修饰的核苷酸类似物为3'-O-炔丙基核苷酸类似物。

99.权利要求90的试剂盒，进一步包含含有指示计算机汇编短重叠核苷酸序列和产生共有序列的指令的计算机可读介质。

100.权利要求90的试剂盒，进一步包含一种或多种含有核苷酸或核苷酸混合物的组合物。

101.权利要求90的试剂盒，进一步包含连接酶或基于铜的点击化学催化剂试剂。

102.权利要求90的试剂盒，其中所述衔接头寡核苷酸包含第一个反应基团并且所述3'-O-修饰的核苷酸类似物包含与第一个反应基团形成化学键的第二个反应基团。

103.权利要求90的试剂盒，其中所述衔接头寡核苷酸包含第一个反应基团并且所述3'-O-修饰的核苷酸类似物包含使用点击化学与第一个反应基团形成化学键的第二个反应基团。

104.权利要求90的试剂盒，其中所述衔接头寡核苷酸包含叠氮基并且所述3'-O-修饰的核苷酸类似物包含炔基。

105.用于测序靶核酸的系统，所述系统包括：

a)3'-O-修饰的核苷酸类似物；

b)测序装置；和

c)用于将短重叠核苷酸序列汇编为共有序列的软件。

106.权利要求102的系统，进一步包括衔接头寡核苷酸。

107.权利要求102的系统，进一步包括衔接头寡核苷酸，其中所述3'-O-修饰的核苷酸类似物包含第一个反应基团并且所述衔接头寡核苷酸包含可通过点击化学与第一个反应基团连接的第二个反应基团。

108.权利要求102的系统，进一步包括核酸片段梯。

109.权利要求102的系统，进一步包括核酸片段梯，所述核酸片段梯包含具有相差小于20个核苷酸、小于10个核苷酸、小于5个核苷酸、小于4个核苷酸、小于3个核苷酸或仅相差1个核苷酸的3'末端的多个核酸。

110.权利要求102的系统，其中所述3'-O-修饰的核苷酸类似物为3'-炔基核苷酸类似物或3'-O-炔丙基核苷酸类似物。

111.权利要求102的系统，其中每个短核苷酸序列具有小于100、小于90、小于80、小于70、小于60、小于50、小于45、小于40、小于35或小于30个碱基；所述短核苷酸序列平铺在具有至少100、200、300、400、500、600、700、800、900、1000、2000、2500、3000、3500、4000、5000或超过5000个碱基的靶核酸上；并且所述短核苷酸序列彼此偏离1-20、1-10或1-5个碱基。

112.权利要求102的系统，进一步包括基于铜的点击化学催化剂试剂。