CN107002117B

CN107002117B - 核酸测序方法

Info

Publication number: CN107002117B
Application number: CN201480074863.1A
Authority: CN
Inventors: 周巍; 菲利普·克洛诺哥拉克; 格伦·麦克加尔; 曹建
Original assignee: Centrillion Technology Holdings Corp
Current assignee: Centrillion Technology Holdings Corp
Priority date: 2013-12-05
Filing date: 2014-12-05
Publication date: 2021-12-10
Anticipated expiration: 2034-12-05
Also published as: WO2015085274A1; GB201613408D0; US10597715B2; EP3077545A4; GB2537077B; EP3077545B1; GB2537077A; US20160369334A1; EP3077545A1; CN107002117A

Abstract

本发明提供了用于长核酸如DNA的测序的方法和组合物。该方法和组合物适合于长核酸分子的空间标记和测序。

Description

核酸测序方法

交叉引用

本申请要求于2014年6月13日提交的美国临时申请号62/012,238、于2014年4月14日提交的美国临时申请号61/979,448、于2013年12月5日提交的美国临时申请号61/912,027、于2014年3月28日提交的美国临时申请号61/971,536、于2014年4月2日提交的美国临时申请号61/973,864、于2014年4月25日提交的美国临时申请号61/984,057、于2014年6月6日提交的美国临时申请号62/008,985、于2014年4月14日提交的美国临时申请号61/979,431、于2014年3月28日提交的美国临时申请号61/971,542以及于2014年8月4日提交的美国临时申请号62/033,125的权益，上述每一个申请均通过引用以其全文并入本文。

背景技术

人类基因组计划已经导致测序成本显著降低，从完成每个碱基约需10美元降低至少于0.00001美元。现在可以在研究和临床设置中均常规地使用外显子组测序，以用于检测与疾病有关的遗传性或获得性突变，并且FDA已经列出了超过100种在其标签上具有基因型信息的药物。此外，全基因组测序(WGS)的使用已经变得十分普遍。然而，当前的核酸测序技术可能受到测序长度的限制。就这一点而言，当前的技术仍然可能存在较大的局限性，这可能严重限制WGS用于许多研究的可行性和实用性。也就是说，这些“下一代测序”(NGS)技术的读取长度可能相对较短。测序的工业标准或许可以说是Illumina HiSeq2500，其可以对成对的150个碱基读取(read)进行测序。鉴于这种相对较短的读取长度，全基因组重新测序研究通常可能对鉴别单核苷酸变体(SNV)十分有用；然而，相对较短的读取长度对于鉴别大的插入/缺失(indel)以及结构变体也可能是非常不可靠的。

此外，通常可能难以在不进行相当多的额外实验的情况下采用短读取对变体进行定相(phase)。因此，许多临床应用需要长测序或可能从长测序受益。

目前，可以生成长读取的技术具有低准确率、低通量并且是昂贵的。因此，它们不是全基因组测序的可行选择。最后，其他测序技术没有提供详细的序列信息。

为了解决这些问题，提供了本文所述的方法、组合物、系统和试剂盒，以产生非常长的读取，即，百万碱基范围，以及准确鉴别许多(如果不是全部的话)遗传变体(例如，单核苷酸多态性、插入/缺失、多倍性、转座、重复和/或结构变体)并将任何鉴别的变体定相至适当的同源染色体。

发明内容

本公开内容的一个方面提供了一种制备修饰的表面的方法，其包括：(a)提供表面；(b)使引发剂物质与所述表面共价键合；(c)从该引发剂物质进行聚合物的表面引发聚合，由此产生包含多个聚合物链的聚合物涂层；以及(d)将标志物偶联至该聚合物涂层。

在本文提供的方面的一些实施方案中，所述表面选自玻璃、二氧化硅、氧化钛、氧化铝、氧化铟锡(ITO)、硅、聚二甲基硅氧烷(PDMS)、聚苯乙烯、多环烯烃、聚甲基丙烯酸甲酯(PMMA)、钛和金。在本文提供的方面的一些实施方案中，所述表面包含玻璃。在本文提供的方面的一些实施方案中，所述表面包含硅。在本文提供的方面的一些实施方案中，所述表面选自流动池、测序流动池、流动通道、微流体通道、毛细管、压电表面、孔、微孔、微孔阵列、微阵列、芯片、晶片、非磁性珠、磁珠、铁磁珠、顺磁珠、超顺磁珠以及聚合物凝胶。在本文提供的方面的一些实施方案中，所述引发剂物质包含有机硅烷。在本文提供的方面的一些实施方案中，所述引发剂物质包含图40所示的分子。在本文提供的方面的一些实施方案中，所述聚合物物质包含聚丙烯酰胺。在本文提供的方面的一些实施方案中，所述聚合物物质包含PMMA。在本文提供的方面的一些实施方案中，所述聚合物物质包含聚苯乙烯。在本文提供的方面的一些实施方案中，所述进行表面引发聚合包括原子转移自由基聚合(ATRP)。在本文提供的方面的一些实施方案中，所述进行表面引发聚合包括可逆加成断裂链转移(RAFT)。在本文提供的方面的一些实施方案中，所述标志物包含寡核苷酸。在本文提供的方面的一些实施方案中，所述标志物包含5’acrydite修饰的寡核苷酸。

本公开内容的一个方面提供了一种用于转移阵列的组合物，其包含：(a)基底；(b)偶联至所述基底的涂层；以及(c)偶联至所述涂层的多个第一接受体寡核苷酸，其中所述多个第一接受体寡核苷酸中的每一个均包含与附加至多个模板寡核苷酸中的每一个上的第一衔接子序列互补的序列，其中所述多个模板寡核苷酸存在于待转移的阵列上。

在本文提供的方面的一些实施方案中，所述方法进一步包括：(d)偶联至所述涂层的多个第二接受体寡核苷酸，其中所述多个第二接受体寡核苷酸中的每一个均包含与待转移的模板寡核苷酸的第二衔接子序列互补的序列。在本文提供的方面的一些实施方案中，所述第一衔接子序列位于或靠近所述待转移的模板寡核苷酸的3’端。在本文提供的方面的一些实施方案中，所述第一衔接子序列位于或靠近所述待转移的模板寡核苷酸的5’端。在本文提供的方面的一些实施方案中，所述第二衔接子序列位于或靠近所述待转移的模板寡核苷酸的3’端。在本文提供的方面的一些实施方案中，所述第二衔接子序列位于或靠近所述待转移的模板寡核苷酸的5’端。在本文提供的方面的一些实施方案中，所述涂层包括聚合物凝胶或涂层。在本文提供的方面的一些实施方案中，所述涂层包括丙烯酰胺或聚丙烯酰胺凝胶或涂层。

本公开内容的一个方面提供了一种用于转移阵列的方法，其包括：(a)提供基底并提供偶联至所述基底的多个第一接受体寡核苷酸，所述多个第一接受体寡核苷酸中的每一个均包含与附加至多个模板寡核苷酸上的第一衔接子序列互补的序列；(b)向所述基底的表面施加包含酶和dNTP的反应混合物；(c)使所述基底与包含所述模板寡核苷酸的阵列接触；以及(d)使用所述多个模板寡核苷酸作为模板，进行所述多个第一接受体寡核苷酸的延伸反应。

在本文提供的方面的一些实施方案中，所述第一衔接子序列位于或靠近所述模板寡核苷酸的3’端处。在本文提供的方面的一些实施方案中，所述第一衔接子序列位于或靠近所述模板寡核苷酸的5’端。在本文提供的方面的一些实施方案中，所述基底包含聚合物。在本文提供的方面的一些实施方案中，所述基底包含丙烯酰胺或聚丙烯酰胺。

本公开内容的一个方面提供了一种用于生成阵列的方法，其包括：提供包含与其偶联的至少1,000个不同寡核苷酸的模板阵列；将所述模板阵列与接受体阵列偶联，该接受体阵列具有与所述至少1,000个不同寡核苷酸的部分互补的多个寡核苷酸；以及在该模板阵列与酶阵列彼此偶联时进行酶促反应，由此生成包含接受体寡核苷酸的接受体阵列，其中至少40％的接受体寡核苷酸与来自所述至少1,000个不同寡核苷酸的全长寡核苷酸互补或相同。

在本文提供的方面的一些实施方案中，该模板阵列包含至少100个斑点(spot)。在本文提供的方面的一些实施方案中，该模板阵列包含大小至多为约500μm的斑点。在本文提供的方面的一些实施方案中，接受体寡核苷酸相对于接受体阵列的方向性与模板寡核苷酸相对于模板阵列的方向性相同。在本文提供的方面的一些实施方案中，接受体寡核苷酸相对于接受体阵列的方向性与模板寡核苷酸相对于模板阵列的方向性相反。在本文提供的方面的一些实施方案中，生成多个接受体阵列。在本文提供的方面的一些实施方案中，在接受体阵列彼此之间，所述多个接受体寡核苷酸平均至少99％相同。在本文提供的方面的一些实施方案中，在接受体阵列彼此之间，所述接受体寡核苷酸至少99％相同。

本公开内容的一个方面提供了一种用于生成阵列的方法，其包括：使用包含模板寡核苷酸的模板阵列合成包含接受体寡核苷酸的接受体阵列，其中在合成期间，该接受体阵列与该模板阵列偶联。

在本文提供的方面的一些实施方案中，至少40％的接受体寡核苷酸包含全长产物。在本文提供的方面的一些实施方案中，至少50％的接受体寡核苷酸包含全长产物。在本文提供的方面的一些实施方案中，至少60％的接受体寡核苷酸包含全长产物。在本文提供的方面的一些实施方案中，接受体寡核苷酸相对于接受体阵列的方向性与模板寡核苷酸相对于模板阵列的方向性相同。在本文提供的方面的一些实施方案中，接受体寡核苷酸相对于接受体阵列的方向性与模板寡核苷酸相对于模板阵列的方向性相反。在本文提供的方面的一些实施方案中，生成多个接受体阵列。在本文提供的方面的一些实施方案中，在接受体阵列彼此之间，所述多个接受体寡核苷酸平均至少99％相同。在本文提供的方面的一些实施方案中，在接受体阵列彼此之间，所述接受体寡核苷酸至少99％相同。

本公开内容的一个方面提供了一种用于对模板核酸分子进行测序的方法，其包括：(a)将一个或多个引物结合位点引入到所述模板核酸分子中，以生成引发的模板核酸分子；(b)使所述引发的模板核酸分子与包含固定于其上的引物的基底接触，每个引物包含：(i)与引物结合位点互补的区域，和(ii)指示所述引物在所述基底上的物理位置的条形码序列；(c)使用所述引物和模板核酸分子作为模板进行延伸反应，由此生成延伸产物，每个延伸产物包含(i)所述模板核酸的片段或该片段的互补体的序列，和(ii)所述条形码序列或其互补体的序列；(d)对所述延伸产物进行测序以确定所述片段或其互补体以及条形码序列或其互补体的序列；以及(e)采用所述条形码序列组装所述片段的序列，由此确定所述模板核酸分子的序列。

在本文提供的方面的一些实施方案中，所述方法进一步包括在步骤(b)之前使所述核酸分子拉伸(stretching)。在本文提供的方面的一些实施方案中，所述拉伸通过分子梳理(molecular combing)进行。在本文提供的方面的一些实施方案中，所述拉伸通过分子穿线(molecular threading)进行。在本文提供的方面的一些实施方案中，所述拉伸通过转移打印进行。在本文提供的方面的一些实施方案中，所述拉伸在纳米通道中进行。在本文提供的方面的一些实施方案中，所述拉伸通过磁性镊子进行。在本文提供的方面的一些实施方案中，所述拉伸通过光学镊子进行。在本文提供的方面的一些实施方案中，所述基底包含玻璃。在本文提供的方面的一些实施方案中，所述基底包含疏水性玻璃。在本文提供的方面的一些实施方案中，所述基底包含聚合物涂层。

基于以下详细描述，本发明的其他方面和优点对本领域技术人员来说将会变得显而易见，在以下详细描述中仅显示和描述了本发明的说明性实施方案。应当理解，本发明允许有其他不同的实施方案，并且其一些细节能够在各个明显的方面发生改变，均不会偏离本公开内容。相应地，附图和说明书将被视为在本质上是说明性的，而非限制性的。

援引并入

本说明书中提及的全部出版物、专利和专利申请均通过引用并入本文，其程度如同特别且单独地指出每个单独的出版物、专利或专利申请通过引用并入本文。

附图简述

本发明的新特征在随附的权利要求中具体阐述。通过参考以下对利用了本发明原理的说明性实施方案进行阐述的详细描述和附图，将会获得对本发明特征和优点的更好的理解，附图中：

图1示出了核酸分子测序过程的流程图。

图2示出了核酸分子测序过程的流程图。

图3示出了采用本文所述的面对面酶促转移方法制备的高特征阵列。通过Bst将棋盘样DNA阵列酶促转移至10μm的薄丙烯酰胺凝胶涂覆的第二表面上。

图4示出了采用光解保护基化学法，利用常规接触光刻逐步错位(stepwisemisalignment)生成的20-聚体寡核苷酸阵列。

图5示出了寡核苷酸500的示意图，其从5’到3’包含PCR引物序列501、条形码序列502以及用于结合与靶多核苷酸(即，模板核酸)上的限定序列互补的序列的限定序列(例如，衔接子或通用的)503。

图6A示出了具有空间编码的阵列的基底的示意图。

图6B示出了具有空间编码的行或列的基底的示意图。

图6C示出了具有空间编码的簇的基底的示意图。

图7示出了用于将模板核酸(例如，DNA)阵列拷贝到第二表面(即，接受体阵列)上的面对面酶促转移方法。将合成的阵列(5’朝上)压靠在含有均匀分布的固定引物和反应混合物的第二凝胶覆盖的表面上(图7A)。一经加热，引物与互补的底部衔接子杂交(图7B)并通过Bst聚合而延伸(图7C)。将表面分离产生原始寡核苷酸阵列的3’朝上的拷贝(图7D)。

图8A示出了通过合成的酶促转移(ETS)的一般示意图。

图8B示出了导致核酸相对于基底的不同朝向的酶促转移的示意图。

图8C示出了导致全长链的转移的酶促转移的示意图。

图9示出了在接受体表面上从模板表面合成的示意图。

图10示出了用于去除衔接子序列的探针末端剪切(PEC)的示意图。

图11示出了在切口位点处的探针末端剪切(PEC)的示意图。

图12示出了具有通过酶促延伸转移的簇的模板载玻片(左侧)和凝胶芯片(右侧)。

图13示出了来自图12的模板(左侧)和凝胶拷贝(右侧)的放大图像。

图14示出了模板(左侧)和凝胶拷贝(右侧)的强度的比较，后者具有比前者低约100倍的强度。

图15示出了与不存在模板的阴性对照表面相比，向凝胶拷贝的酶促转移。

图16示出了与不存在酶的阴性对照表面(右侧)相比，向凝胶拷贝(左侧)的酶促转移。

图17示出了寡核苷酸固定化转移(OIT)的第一阶段的示意图。

图18示出了寡核苷酸固定化转移(OIT)的第二阶段的示意图。

图19示出了非酶促凝胶转移的示意图。

图20示出了采用交联剂1,4-亚苯基二异硫氰酸酯(PDITC)将寡核苷酸附接至硅烷化后的玻璃表面的第一阶段的示意图。

图21示出了采用PDITC将寡核苷酸附接至硅烷化后的玻璃表面的第二阶段的示意图。

图22示出了如图20-21所示采用PDITC附接至硅烷化的玻璃表面上的寡核苷酸的凝胶转移。

图23示出了包含以棋盘样图案附接至表面的荧光标记的寡核苷酸的模板阵列。

图24示出了图23中的表面的放大视图。

图25示出了非酶促凝胶转移后的模板，具有来自合成链(左侧)和另一条链(右侧)的信号。

图26示出了非酶促凝胶转移之前(左侧)和之后(右侧)的模板。

图27示出了来自凝胶延伸的链转移(左侧)和撕下凝胶的模板链转移(右侧)的拷贝。

图28示出了采用10x 2S 2bin(左侧)和10x 0.5s 10bin(右侧)的凝胶图像。

图29示出了酶促转移后的簇扩增。

图30示出了采用本文所述的面对面酶促凝胶转移过程(例如，通过合成的酶促转移或ETS)进行5次酶促转移之前(左侧)和之后(右侧)的模板阵列。

图31示出了通过转座子插入将可延伸的序列添加至长核酸的示意图。

图32示出了使用随机引物将可延伸的序列添加至长核酸的示意图。

图33示出了在具有空间编码的簇的基底上的核酸链的示意图。

图34示出了在具有空间编码的阵列的基底上的核酸链的示意图。

图35示出了将具有经梳理的核酸的盖玻片向具有空间编码的基底上放置的示意图。

图36示出了利用基底特征，使用随机引物将可延伸的序列添加至长核酸的示意图。

图37示出了利用基底特征，通过转座子插入将可延伸的序列添加至长核酸的示意图。

图38示出了用于在寡核苷酸芯片(DNA阵列)上构建下一代测序(NGS)文库的步骤a)到步骤f)。步骤a)示出了固定的寡核苷酸，其包含与采用分子梳理在整个寡核苷酸阵列上拉伸的靶多核苷酸(拉伸的DNA)杂交的条形码。步骤b)示出了经梳理的靶多核苷酸的延伸以及由此的拷贝，从而产生双链靶多核苷酸(dsDNA)。步骤c)示出了双链靶多核苷酸的酶切，其后为步骤d)中的末端修复。步骤e)示出了将衔接子附加至片段化的双链靶多核苷酸上，随后将该双链靶多核苷酸从寡核苷酸阵列上释放以用于步骤f)中的测序。

图39示出了使用随机引物制备芯片上文库的示意图。

图40示出了引发剂硅烷的实例。

图41示出了磷酰胆碱-丙烯酰胺单体的实例。

图42示出了甜菜碱-丙烯酰胺单体的实例。

图43示出了用于生产具有寡核苷酸的聚丙烯酰胺表面涂层的过程的实例。

具体实施方式

概述

本文提供了用于制备DNA芯片、控制寡核苷酸在阵列上的朝向、使核酸拉伸、制备测序文库以及对长度可以为数百个千碱基至百万碱基的核酸进行测序的方法、组合物和试剂盒。本发明的方法整合了几种技术，以克服当前的下一代测序(NGS)的局限性。尽管NGS已经取得长足的进步，使得外显子组或全基因组测序对任何机构的研究者均可用，但对结果进行解释可能极具挑战性。序列变异和突变的定相单元型信息是当前全基因组测序策略缺失的关键信息，并且可以显著地辅助对基因组测序数据的分析和解释。

本公开内容提供了关于可用于阵列的表面上的改善的聚合物涂层的方法和组合物。该聚合物涂层可以通过结合至表面的引发剂物质经由表面引发聚合(SIP)而产生。该聚合物涂层可以并入修饰的单体，以调节该涂层的物理化学性质。该聚合物涂层可以并入寡核苷酸。

本文提供了用于生成包含寡核苷酸(“oligos”)的阵列的方法，其中每个寡核苷酸均包含标记阵列上的位置或地址的条形码(即，位置条形码)。在一些情况下，本文提供了寡核苷酸阵列(“芯片”)制备方法，该方法被优化以(a)减小特征(“斑点”)大小和间距(pitch)，(b)任选地，反转阵列上寡核苷酸的朝向以使阵列上每个寡核苷酸的3’端自由地用于延伸(例如，核苷酸碱基的酶促添加)，以及(c)提高寡核苷酸合成的长度和准确度。可使用投影光刻法和光-酸生成的聚合物膜来合成高特征(“斑点”)密度(>10⁸/cm²)的寡核苷酸阵列。特征大小为1μm时，阵列上条形码化的寡核苷酸可以将通过本文提供的方法获得的序列读取定位至基因组DNA的约2000bp区域。阵列的每个斑点中的寡核苷酸可以包含相同的条形码序列，而在不同阵列斑点中的寡核苷酸可以包含不同的条形码序列。

为生成具有所需朝向(例如，5’端附接至阵列基底)的阵列的拷贝，可以采用面对面凝胶转移过程。该面对面凝胶转移过程可以显著降低单位制备成本，同时翻转寡核苷酸朝向以便将5’端固定，这可以具有如本文所述的测定优势。此外，全长寡核苷酸的选择性转移以及随后的全长寡核苷酸的扩增可以使寡核苷酸阵列含有非常长的寡核苷酸(50+个碱基)而不会导致如本文所述的低产率或部分长度产物。该转移可以包括生成与模板寡核苷酸序列互补的核酸序列。该转移过程可以通过酶复制或通过阵列组分在表面之间的非酶促物理转移而发生。转移可以包括制备已附接至接受体/转移阵列的互补序列。例如，结合至接受体/转移阵列的引物与模板阵列上的衔接子互补，并且可以采用模板阵列序列作为模板进行延伸，由此生成全长或部分长度的转移阵列。转移可包括从模板阵列制备互补序列，随后将该互补序列附接至转移阵列。

转移可以保留核酸相对于其偶联的阵列表面的朝向(例如，模板核酸的3’端结合至模板阵列，并且转移的核酸互补体的3’端结合至转移阵列)。转移可以逆转核酸相对于其偶联的阵列表面的朝向(例如，模板核酸的3’端结合至模板阵列，并且转移的核酸互补体的5’端结合至转移阵列)。

在一些情况下，本文所述的阵列转移方法对于生成具有增加或富集量或百分比的寡核苷酸的转移或接受体阵列是有用的，该寡核苷酸偶联至转移或接受体阵列表面，并且该寡核苷酸的长度为用作转移程序的模板的阵列(即，模板阵列)上相应寡核苷酸的长度的100％(即，相同或等同的长度)。该转移程序可以是如本文提供的面对面酶促转移。该面对面酶促转移方法还可以被称为通过合成的酶促转移或ETS。阵列转移可以产生包含至少、至多、多于、少于或大约30％、40％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％转移的寡核苷酸的转移或接受体阵列，该转移的寡核苷酸的长度为用于生成该转移或接受体阵列的模板阵列上相应寡核苷酸的长度的100％或与该相应寡核苷酸的长度相同或等同。长度为模板寡核苷酸的长度的100％(即，相同或等同的长度)的转移的寡核苷酸可以被称为全长产物(例如，全长产物寡核苷酸)。通过本领域已知的方法(例如，点印法或原位合成)制备的模板阵列可以包含约20％的所需长度的寡核苷酸(即，全长寡核苷酸)和约80％的非所需长度的寡核苷酸(即，部分长度寡核苷酸)。采用如本文提供的阵列转移方法(例如，ETS)转移通过本领域已知的方法生成的、包含约20％全长寡核苷酸和约80％部分长度寡核苷酸的阵列可以导致生成包含至多约20％全长产物寡核苷酸的转移或接受体阵列。可使用包含与模板阵列上全长寡核苷酸的未结合端处的序列互补的引物的转移阵列进行转移；包含约20％全长寡核苷酸和约80％部分长度寡核苷酸的模板阵列上的许多或全部部分长度产物缺少在本文提供的阵列转移(例如，ETS)中使用的序列的未结合端部，并因此不能被转移。在一些情况下，根据本文的方法制备的阵列具有更大百分比的具有所需长度的寡核苷酸(即，全长寡核苷酸)，使得采用本文提供的阵列转移方法(即，ETS)转移根据本文的方法制备的阵列导致生成与本领域已知的制备和转移方法相比具有更高百分比的全长产物寡核苷酸的转移或接受体阵列。采用本文提供的方法制备的阵列(例如，模板阵列)上的全长寡核苷酸可以为大约、至多或至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个碱基长。采用本文提供的阵列转移方法(即，ETS)转移的转移或接受体阵列上的全长产物寡核苷酸可以为大约、至多或至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个碱基长。

如本文提供的阵列转移可以进行多次。在一些情况下，模板阵列(例如，寡核苷酸阵列)经历多次阵列转移过程。模板阵列可以经历至少、至多、多于、少于或大约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、600、700、800、900或1000次阵列转移过程。阵列转移过程可以是如本文提供的面对面酶促转移方法。可以采用相同模板阵列由多次阵列转移生成多个转移或接受体阵列。采用本文提供的阵列转移方法从单个模板阵列生成的每个转移或接受体阵列均可以与该模板阵列和/或从该模板阵列生成的每一个其他转移或接受体阵列至少、至多、大于、小于或大约30％、40％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％相同。通过使用来自一次阵列转移的转移阵列作为随后转移的模板阵列，阵列转移可以在一系列的转移中多次进行。例如，可以从具有在其3’端处与阵列结合的寡核苷酸的模板阵列到具有在其5’端处与阵列结合的互补寡核苷酸的第一转移阵列进行第一次转移，并且可以从该第一转移阵列(现在充当模板阵列)到第二转移阵列进行第二次转移。在一些情况下，在如本文提供的一系列阵列转移反应中的每一个渐进转移或接受体阵列均产生具有富集百分比的全长产物寡核苷酸(即，长度为模板寡核苷酸长度的100％的转移的寡核苷酸)和与原始模板阵列匹配的序列的接受体或转移阵列。

在一些情况下，可以通过使用在模板寡核苷酸阵列上的寡核苷酸上的衔接子序列来帮助阵列转移。寡核苷酸可以包含所需的最终序列，外加一个或多个衔接子序列。该一个或多个衔接子序列可以在模板阵列上的寡核苷酸的5’或3’端上。在一些情况下，该一个或多个衔接子序列在模板阵列上的寡核苷酸的3’端上。在一些情况下，该一个或多个衔接子序列在模板阵列上的寡核苷酸的5’端上。在接受体/转移阵列上的引物可以与衔接子序列互补，从而允许该引物与模板阵列上的寡核苷酸之间的杂交(通过与该衔接子序列的全部或一部分杂交)。这样的杂交可以帮助从一个阵列到另一个阵列的转移。可以在转移后通过例如酶切、消化或限制性处理，从转移阵列寡核苷酸中去除一些或全部衔接子序列。

在一些情况下，可以通过阵列或阵列上的表面涂层的柔性或可变形性来帮助阵列转移。例如，可以在阵列转移中使用包含具有偶联的寡核苷酸的聚丙烯酰胺凝胶涂层的阵列。该凝胶涂层的可变形性可以允许阵列组分彼此接触，即使存在表面粗糙度。该可变形性可以允许酶促阵列转移方法(例如，本文提供的ETS)中需要的酶与不包含聚丙烯酰胺凝胶的阵列相比更有效地与反应组分接触。这种更有效的接触可以允许与不包含聚丙烯酰胺凝胶的阵列相比更大数目的酶促转移。这种更有效的接触可以允许生成更大百分比的转移或接受体阵列，该阵列包含长度为阵列转移方法中使用的模板阵列上寡核苷酸的长度的100％的寡核苷酸。

可以通过酶促反应扩增或再生阵列组分。例如，可以通过阵列组分上的衔接子序列与结合至表面的寡核苷酸引物之间的杂交，及随后的酶促延伸或扩增，来对阵列组分寡核苷酸进行桥式扩增。可以使用扩增来恢复损失的阵列组分密度或将阵列组分的密度增加至超出其原始密度。

可以制备模板核酸分子以用于在通过如本文提供的方法产生的条形码化寡核苷酸阵列中拉伸。可以处理模板核酸分子以并入与存在于条形码化的寡核苷酸阵列上的寡核苷酸中的那些互补的序列。示例性的方法在图1和图2中示出。可以提供待测序的模板核酸分子(101、201)。可以通过转座子插入(102)或通过与游离引物杂交(202)，将通用引物结合位点并入到模板核酸分子中。可以使模板核酸分子拉伸(103、203)。可以采用如本文提供的方法进行核酸拉伸。可以提供具有位置编码的条形码以及与引物结合位点杂交的衔接子的引物/寡核苷酸阵列(104、204)。可以使拉伸的模板核酸分子与引物/寡核苷酸阵列接触(105、205)。可以采用引物进行延伸反应，从而生成位置编码的延伸产物，该延伸产物包含与模板核酸分子的区段互补的序列(106、206)，以及条形码，使得该条形码与对应于与其接触的阵列斑点的给定模板核酸区段相关联。

可以使用拉伸的核酸分子生成测序文库，随后可以在如图1和图2所示的位置条形码的辅助下对该文库进行测序。在一些情况下，使多个模板核酸分子(例如，DNA)在采用本文提供的方法生成的条形码化寡核苷酸阵列表面(例如，30-40X二倍体基因组覆盖率)上拉伸。阵列表面上的寡核苷酸可以引发拉伸的核酸分子(例如，DNA)，该核酸分子随后可以充当用于生成下一代测序(NGS)文库的模板(如图3所示)。然后可以采用如本文所述的任意NGS平台或任何其他合适的序列读出技术(例如，Illumina HiSeq)对该NGS文库进行测序。由于用于生成测序文库的寡核苷酸被条形码化，因此获得了用于组装较短NGS读取的位置信息。利用条形码，可以将短读取连接至对应于衍生出该短读取的拉伸的DNA分子的长串中。该长串可以允许从头组装、核苷酸变体检测、结构变体检测以及来自二倍体样品的单元型分辨。该长串可以为多于或大约500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个碱基。

本文提供的方法对确定长核酸分子例如具有超过100,000个碱基的核酸分子的序列是特别有用的。这些方法还可用于对具有插入、缺失、转座、重复区、端粒、SNP、癌细胞基因组、病毒细胞基因组以及甲氧西林抗性区(mec区)的核酸分子或其区域进行测序。由条形码序列传达的位置信息可用于组装或比对来自至少100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个模板核酸片段或延伸产物的核酸分子读取。

核酸及其来源

除非另有说明，如本文提及的“核酸分子”或“核酸”可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)，包括其已知的类似物或组合。本文中待测序的核酸分子可以从任何核酸来源获得。该核酸分子可以是单链或双链的。在一些情况下，该核酸分子是DNA。该DNA可以采用本领域的标准技术来获得和纯化，并且包括纯化或未纯化形式的DNA。该DNA可以是线粒体DNA、无细胞DNA、互补DNA(cDNA)或基因组DNA。在一些情况下，该核酸分子是基因组DNA(gDNA)。该DNA可以是质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。该DNA可以来源于一个或多个染色体。例如，如果该DNA来自人类，则该DNA可以来源于染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一个或多个。该RNA可以采用本领域的标准技术来获得和纯化，并且包括纯化或未纯化形式的RNA，包括但不限于mRNA、tRNA、snRNA、rRNA、逆转录病毒、小的非编码RNA、微RNA、多核糖体RNA、前mRNA、内含子RNA、病毒RNA、无细胞RNA及其片段。非编码RNA或ncRNA可以包括snoRNA、微RNA、siRNA、piRNA和长nc RNA。

供本文所述的方法和组合物使用的核酸的来源可以是包含该核酸的样品。该核酸可以从该样品中分离并通过本领域已知用于从样品中纯化核酸的任何方法纯化。该样品可以来源于包含多核苷酸的非细胞实体(例如，病毒)或来源于基于细胞的生物体(例如，古细菌、细菌或真核生物域的成员)。在一些情况下，该样品从诸如门或台面等表面的拭子获得。

该样品可以来自受试者，例如，植物、真菌、真细菌、古细菌、原生生物(protest)或动物。该受试者可以是生物体，无论是单细胞的还是多细胞的生物体。该受试者可以是培养的细胞，其可以是原代细胞或来自建立的细胞系的细胞，等等。样品可以最初以任何合适的形式从多细胞生物体中分离。该动物可以是鱼，例如，斑马鱼。该动物可以是哺乳动物。该哺乳动物可以是例如狗、猫、马、牛、小鼠、大鼠或猪。该哺乳动物可以是灵长类动物，例如人、黑猩猩、猩猩或大猩猩。该人可以是男性或女性。该样品可以来自人类胚胎或人类胎儿。该人可以是婴儿、儿童、少年、成人或老人。该女性可以是妊娠的、疑似妊娠的或计划妊娠的女性。在一些情况下，该样品是来自受试者的单一或单个细胞，并且该多核苷酸来源于该单一或单个细胞。在一些情况下，该样品是单个微生物，或微生物群体，或微生物和宿主细胞或无细胞核酸的混合物。

该样品可以来自健康的受试者(例如，人类受试者)。在一些情况下，该样品取自妊娠至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26周的受试者(例如，待产妇女)。在一些情况下，该受试者患有遗传性疾病，是遗传性疾病的携带者，或处于遗传或发展出遗传性疾病的风险中，其中遗传性疾病是可能与遗传变异如突变、插入、添加、缺失、易位、点突变、三核苷酸重复障碍和/或单核苷酸多态性(SNP)有关的任何疾病。

该样品可以来自患有特定疾病、病症或病况，或疑似患有特定疾病、病症或病况(或处于患有该特定疾病、病症或病况的风险中)的受试者。例如，该样品可以来自癌症患者，疑似患有癌症的患者，或处于患有癌症的风险中的患者。该癌症可以是例如急性成淋巴细胞性白血病(ALL)、急性髓样白血病(AML)、肾上腺皮质癌、卡波西肉瘤、肛门癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶性纤维组织细胞瘤、脑干胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、松果体实质肿瘤、乳腺癌、支气管肿瘤、伯基特淋巴瘤、非霍奇金淋巴瘤、类癌瘤、宫颈癌、脊索瘤、慢性淋巴细胞性白血病(CLL)、慢性髓性白血病(CML)、结肠癌、结直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食管癌、尤文肉瘤、眼癌、眼内黑素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞癌、小细胞癌、黑素瘤、口癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、神经母细胞瘤、鼻咽癌、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、乳头状瘤病、副神经节瘤、甲状旁腺癌、阴茎癌、咽癌、垂体瘤、浆细胞肿瘤、前列腺癌、直肠癌、肾细胞癌、横纹肌肉瘤、唾液腺癌、塞扎里综合征、皮肤癌、非黑素瘤、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、咽喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、Waldenstrom巨球蛋白血症或肾母细胞瘤。该样品可以来自癌症患者的癌和/或正常组织。

该样品可以是房水、玻璃状液、胆汁、全血、血清、血浆、乳汁、脑脊液、耵聍、内淋巴、外淋巴、胃液、粘液、腹膜液、唾液、皮脂、精液、汗液、泪液、阴道分泌物、呕吐物、粪便或尿液。该样品可以从医院、实验室、临床或医学实验室获得。该样品可以取自受试者。

该样品可以是包含诸如水、土壤、空气等介质的环境样品。该样品可以是法医样品(例如，毛发、血液、精液、唾液等)。该样品可以包含在生物恐怖袭击(例如，流感、炭疽、天花)中使用的试剂。

该样品可以包含核酸。该样品可以包含无细胞核酸。该样品可以是细胞系、基因组DNA、无细胞血浆、福尔马林固定石蜡包埋的(FFPE)样品或快速冷冻的样品。福尔马林固定石蜡包埋的样品可以在提取核酸之前脱蜡。该样品可以来自器官，例如心脏、皮肤、肝、肺、乳房、胃、胰、膀胱、结肠、胆囊、脑等。可以通过本领域普通技术人员可用的手段从样品中提取核酸。

可对样品进行处理以使其能够进行片段化、连接、变性、扩增、拉伸和/或测序或本文提供的任何方法。示例性的样品处理可以包括裂解样品的细胞以释放核酸，纯化样品(例如，以将核酸与可能抑制酶促反应的其他样品组分分离)，稀释/浓缩样品，和/或将样品与用于进一步核酸处理的试剂合并。在一些实例中，可以将样品与限制酶、逆转录酶或任何其他核酸处理酶合并。

本文所述的方法可以用于对一种或多种靶核酸或多核苷酸进行测序。术语多核苷酸或语法等同语可以指共价连接在一起的至少两个核苷酸。本文所述的多核苷酸可含有磷酸二酯键，虽然在如下所示的一些情况下(例如在引物和探针如标记探针的构建中)，也包括可具有替代骨架的核酸类似物，其包含例如磷酰胺(Beaucage等人,Tetrahedron 49(10):1925(1993)及其中的参考文献；Letsinger,J.Org.Chem.35:3800(1970)；Sprinzl等人,Eur.J.BioChem.81:579(1977)；Letsinger等人,Nucl.Acids Res.14:3487(1986)；Sawai等人,Chem.Lett.805(1984)，Letsinger等人,J.Am.Chem.Soc.110:4470(1988)；和Pauwels等人,Chemica Scripta 26:141 91986))、硫代磷酸酯(Mag等人,Nucleic AcidsRes.19:1437(1991)；和美国专利5,644,048)、二硫代磷酸酯(Briu等人,J.Am.Chem.Soc.111:2321(1989)、O-甲基亚磷酰胺(methylphophoroamidite)连接(参见Eckstein,Oligonucleotides and Analogues:A Practical Approach,OxfordUniversity Press)和肽核酸(此处也称为“PNA”)骨架和连接(参见Egholm,J.Am.Chem.Soc.114:1895(1992)；Meier等人,Chem.Int.Ed.Engl.31:1008(1992)；Nielsen,Nature,365:566(1993)；Carlsson等人,Nature 380:207(1996)，其全部通过引用并入本文)。其他核酸类似物包括那些具有双环结构的核酸，包括锁定核酸(此处也称为“LNA”)，Koshkin等人,J.Am.Chem.Soc.120.13252 3(1998)；阳性骨架(Denpcy等人,Proc.Natl.Acad.Sci.USA 92:6097(1995)；非离子骨架(美国专利5,386,023、5,637,684、5,602,240、5,216,141和4,469,863；Kiedrowshi等人,Angew.Chem.Intl.Ed.English 30:423(1991)；Letsinger等人,J.Am.Chem.Soc.110:4470(1988)；Letsinger等人,Nucleoside&Nucleotide 13:1597(1994)；ASC Symposium Series 580第2和3章,"Carbohydrate Modifications in Antisense Research",Y.S.Sanghui和P.Dan Cook编；Mesmaeker等人,Bioorganic&Medicinal Chem.Lett.4:395(1994)；Jeffs等人,J.Biomolecular NMR 34:17(1994)；Tetrahedron Lett.37:743(1996))和非核糖骨架，包括在美国专利5.235,033和5,034,506和ASC Symposium Series 580第6和7章,Y.S.Sanghui和P.Dan Cook编著的"Carbohydrate Modifications in AntisenseResearch"中描述的那些。含有一个或更多个碳环糖的核酸也包括在核酸的定义内(参见Jenkins等人,Chem.Soc.Rev.(1995)pp 169 176)。一些核酸类似物描述于Rawls，C&ENews，1997年6月2日，第35页。“锁定核酸”也包括在核酸类似物的定义内。LNA是一类核酸类似物，其中核糖环被连接2'-O原子和4'-C原子的亚甲基桥所“锁定”。全部这些参考文献均在此明确地通过引用并入本文。可以对这些核糖-磷酸骨架进行修饰以增强该分子在生理环境中的稳定性和延长其半衰期。例如，PNA:DNA和LNA-DNA杂合体能够表现出更高的稳定性，从而可以在一些情况下使用。按照说明，该核酸可以是单链或双链的，或者既含有双链序列部分又含有单链序列部分。根据应用，该核酸可以是DNA(包括，例如，基因组DNA、线粒体DNA和cDNA)、RNA(包括，例如，mRNA和rRNA)或杂合体，其中该核酸含有脱氧核糖核苷酸和核糖核苷酸的任意组合，以及包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等的碱基的任意组合。

如本文中提及的“核酸分子”或“核酸”可以是“寡核苷酸”、“适体”或“多核苷酸”。术语“寡核苷酸”可以指通常小于200个残基长，例如15到100个核苷酸长的核苷酸链。寡核苷酸可以包含至少或大约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个碱基。寡核苷酸可以为约3至约5个碱基、约1至约50个碱基、约8至约12个碱基、约15至约25个碱基、约25至约35个碱基、约35至约45个碱基或约45至约55个碱基。寡核苷酸(也被称为“寡核苷酸(oligo)”)可以是任何类型的寡核苷酸(例如，引物)。在一些情况下，寡核苷酸是5’-acrydite修饰的寡核苷酸。寡核苷酸可以偶联至在如本文提供的表面上的如本文提供的聚合物涂层。寡核苷酸可以包含可切割的连接。可切割的连接可以是酶可切割的。寡核苷酸可以是单链或双链的。术语“引物”和“寡核苷酸引物”可以指能够与互补核苷酸序列杂交的寡核苷酸。术语“寡核苷酸”可以与术语“引物”、“衔接子”和“探针”互换使用。术语“多核苷酸”可以指通常大于200个残基长的核苷酸链。多核苷酸可以是单链或双链的。

术语“杂交”和“退火”可互换使用并可以指互补核酸的配对。

术语“引物”可以指通常具有游离的3’羟基基团的寡核苷酸，其能够与模板核酸或核酸分子(诸如靶多核苷酸、靶DNA、靶RNA或引物延伸产物)杂交，并且还能够促进与模板互补的多核苷酸的聚合。引物可以含有构成该引物的尾部的非杂交序列。即使引物的序列可能不与靶标完全互补，该引物仍可以与该靶标杂交。

例如，引物可以是可以在通过聚合酶沿着多核苷酸模板进行的延伸反应中，诸如在PCR或cDNA合成中采用的寡核苷酸。寡核苷酸引物可以是单链的合成多核苷酸，在其3′端含有能够与靶多核苷酸的序列杂交的序列。通常，与靶核酸杂交的引物的3′区与序列或引物结合位点具有至少80％、90％、95％或100％的互补性。

为了避免二级结构和自杂交，可以根据已知参数设计引物。不同的引物对可以在大致相同的温度下，例如，在另一个引物对的约1、2、3、4、5、6、7、8、9或10℃内退火并解链。在一些情况下，最初使用多于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、100、200、500、1000、5000、10,000个或更多个引物。这样的引物可以能够与本文所述的遗传靶标杂交。在一些情况下，使用约2至约10,000、约2至约5,000、约2至约2,500、约2至约1,000、约2至约500、约2至约100、约2至约50、约2至约20、约2至约10或约2至约6个引物。

可以通过多种方法制备引物，该方法包括但不限于适当序列的克隆以及采用本领域公知方法的直接化学合成(Narang等人,Methods Enzymol.68:90(1979)；Brown等人,Methods Enzymol.68:109(1979))。引物还可以从商业来源如Integrated DNATechnologies、Operon Technologies、Amersham Pharmacia Biotech、Sigma和LifeTechnologies获得。引物可以具有相同的解链温度。引物的解链温度可以为大约、高于、低于或至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、81、82、83、84或85℃。在一些情况下，引物的解链温度为约30至约85℃、约30至约80℃、约30至约75℃、约30至约70℃、约30至约65℃、约30至约60℃、约30至约55℃、约30至约50℃、约40至约85℃、约40至约80℃、约40至约75℃、约40至约70℃、约40至约65℃、约40至约60℃、约40至约55℃、约40至约50℃、约50至约85℃、约50至约80℃、约50至约75℃、约50至约70℃、约50至约65℃、约50至约60℃、约50至约55℃、约52至约60℃、约52至约58℃、约52至约56℃或约52至约54℃。

引物的长度可以在5'端或3'端处延伸或缩短，以产生具有所需解链温度的引物。引物对中的一个引物可以比另一个引物长。在引物对内，引物的3'退火长度可以不同。还可以设计每个引物对的退火位置，使得该引物对的序列和长度产生所需的解链温度。用于确定小于25个碱基对的引物的解链温度的等式为Wallace法则(Td＝2(A+T)+4(G+C))。还可以采用计算机程序来设计引物，该计算机程序包括但不限于Array Designer Software(Arrayit Inc.)、Oligonucleotide Probe Sequence Design Software for GeneticAnalysis(Olympus Optical Co.)、NetPrimer以及来自Hitachi Software Engineering的DNAsis。每个引物的T_M(解链或退火温度)均可以采用软件程序如Net Primer(http://www.premierbiosoft.com/netprimer/index.html上基于网络的免费程序)来计算。在任意扩增循环后，包括但不限于约1、2、3、4、5次循环、约6次循环至约10次循环、约10次循环至约15次循环、约15次循环至约20次循环、约20次循环至约25次循环、约25次循环至约30次循环、约30次循环至约35次循环或约35次循环至约40次循环之后，引物的退火温度可重新计算并可能增加。在最初的扩增循环之后，引物的5'一半可以从每一个感兴趣的基因座并入到产物中；因此可以根据每个引物的5'一半和3'一半的序列来重新计算T_M。

在任意扩增循环后，包括但不限于约1、2、3、4、5次循环、约6次循环至约10次循环、约10次循环至约15次循环、约15次循环至约20次循环、约20次循环至约25次循环、约25次循环至约30次循环、约30次循环至约35次循环或约35次循环至约40次循环之后，引物的退火温度可重新计算并可能增加。在最初的扩增循环之后，引物的5'一半可以从每一个感兴趣的基因座并入到产物中，因此可以根据每个引物的5'一半和3'一半的序列来重新计算T_M。

“互补的”可以指与序列(例如，模板核酸)的全部或仅一部分的互补性。特定寡核苷酸引物的可杂交序列中的核苷酸的数目应该使得用于杂交该寡核苷酸引物的严格性条件将阻止过度的随机非特异性杂交。通常，寡核苷酸引物的杂交部分中的核苷酸的数目将至少与该寡核苷酸引物所杂交的靶多核苷酸(例如，模板核酸)上确定的序列一样多，即，至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少约20个，并且通常为约6个至约10个或6个至约12个或12个至约200个核苷酸，通常为约10个至约50个核苷酸。靶多核苷酸可以大于如上文所述的寡核苷酸引物或引物。

如本文所用的术语“约”是指指定量的+/-10％、9％、8％、7％、6％、5％、4％、3％、2％或1％。

如本文所用的，术语“较长的DNA”、“长DNA”、“较长的核酸”或“长核酸”可以包括超过、至少或大约100、200、300、400、500、600、700、800、900kb，或超过、至少或大约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4.0、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的核酸(例如，DNA)。长核酸的上限可以包括例如，100、90、80、70、60、50、40、30、20、10、9、8、7、6、5或4.5Mb。长核酸可以在100kb到4.6Mb的范围内。长核酸可以在100kb到10Mb的范围内。在一些情况下，长核酸可以在100kb到20Mb的范围内。长核酸可以在100kb到30Mb的范围内。长核酸可以在100kb到40Mb的范围内。长核酸可以在100kb到50Mb的范围内。在一些情况下，大核酸由生物体(例如，大肠杆菌)的整个基因组组成。应理解，本文提供的方法、组合物、系统和试剂盒并不限于DNA，而是可以包括如本文所述的其他核酸分子，并且可以采用与如下所述相同的方法进行测序。

在一些情况下，提供一组条形码。术语“条形码”可以指允许与该条形码相关联的核酸(例如，寡核苷酸)的一些特征得到鉴别的已知核酸序列。在一些情况下，待鉴别的核酸的特征是每个核酸(例如，寡核苷酸)在阵列或芯片上的空间位置。条形码可以针对精确序列性能来设计，例如，在40％到60％之间的GC含量，没有长于2的均聚物运行，没有长于3的自互补的序列段，并且由不存在于人类基因组参照中的序列构成。条形码序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。条形码序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。条形码序列可以为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。寡核苷酸(例如，引物或衔接子)可以包含大约、多于、少于或至少1、2、3、4、5、6、7、8、9或10个不同的条形码。条形码可以具有足够的长度，并可以包含可能足够不同的序列以允许根据与每个核酸相关联的条形码鉴别每一个核酸(例如，寡核苷酸)的空间位置。在一些情况下，每个条形码与阵列中的任何其他条形码相差例如四个缺失或插入或置换。在条形码化的寡核苷酸阵列上的每个阵列斑点中的寡核苷酸可以包含相同的条形码序列，而在不同阵列斑点中的寡核苷酸可以包含不同的条形码序列。在一个阵列斑点中使用的条形码序列可以与在任何其他阵列斑点中的条形码序列不同。或者，只要两个阵列斑点不相邻，在一个阵列斑点中使用的条形码序列可以与在另一个阵列斑点中使用的条形码序列相同。可以从阵列的受控合成知晓与特定阵列斑点相对应的条形码序列。或者，可以通过对来自特定阵列斑点的材料进行提取和测序而知晓与特定阵列斑点相对应的条形码序列。作为一个示例设计了含有150万个18碱基条形码的一组候选的条形码。

酶

供本文提供的方法和组合物使用的RNA依赖性DNA聚合酶可以能够根据本文提供的方法实现引物的延伸。因此，RNA依赖性DNA聚合酶可以是能够使核酸引物沿着至少主要包含核糖核苷酸的核酸模板延伸的聚合酶。供本文提供的方法、组合物和试剂盒使用的合适的RNA依赖性DNA聚合酶包括逆转录酶(RT)。RT是本领域公知的。RT的实例包括但不限于莫洛尼鼠白血病病毒(M-MLV)逆转录酶、人免疫缺陷病毒(HIV)逆转录酶、劳斯肉瘤病毒(RSV)逆转录酶、禽成髓细胞白血病病毒(AMV)逆转录酶、劳斯相关病毒(RAV)逆转录酶以及成髓细胞白血病相关病毒(MAV)逆转录酶或其他禽肉瘤白血病病毒(ASLV)逆转录酶，以及由其衍生的修饰的RT。参见例如US7056716。许多逆转录酶，如来自禽成髓细胞白血病病毒(AMV-RT)以及莫洛尼鼠白血病病毒(MMLV-RT)的逆转录酶，包含超过一种活性(例如，聚合酶活性和核糖核酸酶活性)，并且可以在双链cDNA分子的形成中起作用。然而，在一些情况下，优选地使用缺少RNA酶H活性或具有显著降低的RNA酶H活性的RT。缺乏RNA酶H活性的RT是本领域已知的，包括包含野生型逆转录酶的突变的那些RT，其中该突变消除RNA酶H活性。具有降低的RNA酶H活性的RT的实例在US20100203597中描述。在这些情况下，来自其他来源的RNA酶H如从大肠杆菌分离的RNA酶H的添加可用于起始RNA样品的降解和双链cDNA的形成。还可以考虑RT的组合，包括不同非突变RT的组合，不同突变RT的组合，以及一种或多种非突变RT与一种或多种突变RT的组合。

供本文提供的方法和组合物使用的DNA依赖性DNA聚合酶可以能够根据本文提供的方法实现引物的延伸。因此，DNA依赖性DNA聚合酶可以是在RNA模板的存在下或在选择性去除RNA模板后，能够使核酸引物沿着第一链cDNA延伸的聚合酶。适合用于本文提供的方法的示例性DNA依赖性DNA聚合酶包括但不限于有或没有3'-外切核酸酶活性的Klenow聚合酶、Bst DNA聚合酶、Bca聚合酶、phi.29DNA聚合酶、Vent聚合酶、Deep Vent聚合酶、Taq聚合酶、T4聚合酶和大肠杆菌DNA聚合酶1，其衍生物，或聚合酶的混合物。在一些情况下，该聚合酶不包含5'-外切核酸酶活性。在其他情况下，该聚合酶包含5'外切核酸酶活性。在一些情况下，可以采用包含强链置换活性的聚合酶例如Bst聚合酶进行引物延伸。在其他情况下，可以采用包含弱链置换活性或不包含链置换活性的聚合酶进行引物延伸。本领域技术人员可以认识到在引物延伸步骤期间使用链置换活性的优势和劣势，以及哪些聚合酶预期可以提供链置换活性(参见例如，New England Biolabs Polymerases)。例如，链置换活性可能对在随机引发和延伸步骤期间确保整个转录组覆盖是有用的。链置换活性还可能对在引发和延伸步骤期间双链扩增产物的生成是有用的。或者，包含弱链置换活性或不包含链置换活性的聚合酶可能对在引物杂交和延伸期间可以与模板核酸杂交的单链核酸产物的生成是有用的。

在一些情况下，可以对通过本文所述的方法生成的任何双链产物进行末端修复，以产生用于本文所述的衔接子连接应用的平端。双链产物上的平端的生成可以通过使用单链特异性DNA外切核酸酶例如外切核酸酶1、外切核酸酶7或其组合降解该双链产物的突出单链末端而实现。或者，可以通过使用单链特异性DNA内切核酸酶，例如但不限于绿豆内切核酸酶或S1内切核酸酶，将通过本文提供的方法生成的任何双链产物平端化。或者，可以通过使用包含单链外切核酸酶活性的聚合酶例如T4DNA聚合酶、包含单链外切核酸酶活性的任何其他聚合酶或其组合降解双链产物的突出单链末端，来将通过本文提供的方法生成的任何双链产物平端化。在一些情况下，可以将包含单链外切核酸酶活性的聚合酶在包含或不包含一种或多种dNTP的反应混合物中温育。在其他情况下，可使用单链核酸特异性外切核酸酶与一种或多种聚合酶的组合将引物延伸反应的双链产物平端化。在另外的其他情况下，可以通过补平双链产物的突出单链末端而使延伸反应的产物成为平端。例如，可以在一种或多种dNTP的存在下将片段与聚合酶如T4DNA聚合酶或Klenow聚合酶或其组合一起温育，以补平双链产物的单链部分。或者，可以通过采用外切核酸酶和/或聚合酶的单链突出端降解反应与在一种或多种dNTP的存在下使用一种或多种聚合酶的补平反应的组合来使通过本文提供的方法生成的任何双链产物成为平端。

在另一个实施方案中，本文所述的衔接子连接应用可以在衔接子的非连接链与双链产物的链之间留下缺口。在这些情况下，可以采用缺口修复或补平反应来为双链产物附上与衔接子的连接链互补的序列。可以采用任意数目的本文所述的DNA依赖性DNA聚合酶来进行缺口修复。在一些情况下，可以采用具有链置换活性的DNA依赖性DNA聚合酶来进行缺口修复。在一些情况下，可以采用具有弱链置换活性或不具有链置换活性的DNA依赖性DNA聚合酶来进行缺口修复。在一些情况下，衔接子的连接链可以充当缺口修复或补平反应的模板。在一些情况下，可以采用Taq DNA聚合酶进行缺口修复。

多种连接方法和试剂是本领域已知的并且可用于实施本文提供的方法。例如，可以采用平端连接。相似地，可以通过缺少3′-外切核酸酶活性的聚合酶将单个dA核苷酸添加至双链DNA产物的3′-端，并且该dA核苷酸可以与包含dT突出端的衔接子退火(或者反过来)。这一设计使得杂交的组分随后被连接(例如，通过T4DNA连接酶)。本领域已知的其他连接策略和相应的试剂以及试剂盒和用于进行有效连接反应的试剂可商购获得(例如，从NewEngland Biolabs,Roche获得)。

就两个多核苷酸如茎–环衔接子/引物寡核苷酸和靶多核苷酸而言，如本文所用的术语“联接(joining)”、“附加”和“连接(ligation)”是指两个单独的多核苷酸的共价附接以产生具有连续骨架的单个较大的多核苷酸。用于联接两个多核苷酸的方法是本领域已知的，并且包括但不限于酶和非酶(例如，化学)方法。非酶促连接反应的实例包括在美国专利号5,780,613和5,476,930中描述的非酶促连接技术，该专利通过引用并入本文。在一些实施方案中，通过连接酶，例如DNA连接酶或RNA连接酶，使衔接子寡核苷酸与靶多核苷酸联接。各自具有特征反应条件的多种连接酶是本领域已知的，并且包括但不限于NAD⁺依赖性连接酶，包括tRNA连接酶、Taq酶DNA连接酶、丝状栖热菌(Thermus filiformis)DNA连接酶、大肠杆菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌(Thermus scotoductus)DNA连接酶(I和II)、热稳定连接酶、Ampligase热稳定DNA连接酶、VanC型连接酶、9°N DNA连接酶、TspDNA连接酶以及通过生物勘测发现的新型连接酶；ATP依赖性连接酶，包括T4 RNA连接酶、T4DNA连接酶、T3 DNA连接酶、T7 DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV以及通过生物勘测发现的新型连接酶；及其野生型、突变同种型及遗传工程变体。连接可以在具有可杂交序列如互补突出端的多核苷酸之间。连接还可以在两个平端之间。通常，在连接反应中采用5’磷酸。5’磷酸可以由靶多核苷酸、衔接子寡核苷酸或这两者提供。根据需要，可以将5’磷酸添加至待联接的多核苷酸或从该多核苷酸上去除。用于添加或去除5’磷酸的方法是本领域已知的，并且包括但不限于酶促和化学方法。在5’磷酸的添加和/或去除中有用的酶包括激酶、磷酸酶和聚合酶。

扩增方法

本文所述的方法、组合物和试剂盒对生成用于下游应用如大规模平行测序(即，下一代测序方法)或杂交平台的扩增就绪产物可能是有用的。扩增的方法是本领域公知的。可以使用的PCR技术的实例包括但不限于定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、PCR-RFLP/RT-PCR-RFLP、热启动PCR、巢式PCR、原位聚合酶群落(polony)PCR、原位滚环扩增(RCA)、桥式PCR、皮滴定PCR(picotiter PCR)、数字PCR、小滴数字(droplet digital)PCR和乳液PCR。其他合适的扩增方法包括连接酶链反应(LCR)、转录扩增、分子倒置探针(MIP)PCR、自动维持序列复制、靶多核苷酸序列的选择性扩增、共有序列引发的聚合酶链反应(CP-PCR)、随机引发的聚合酶链反应(AP-PCR)、简并寡核苷酸引发的PCR(DOP-PCR)以及基于核酸的序列扩增(NABSA)、单引物等温扩增(SPIA，参见例如，美国专利号6,251,639)、Ribo-SPIA或其组合。可以在本文中使用的其他扩增方法包括在美国专利号5,242,794、5,494,810、4,988,617和6,582,938中描述的那些。靶核酸的扩增可以在珠子上发生。在其他实施方案中，扩增不在珠子上发生。扩增可以通过等温扩增例如等温线性扩增来进行。可以进行热启动PCR，其中在添加聚合酶之前将反应加热至95℃持续两分钟，或者可以使该聚合酶保持失活，直到第1循环的第一加热步骤。可以使用热启动PCR来使非特异性扩增最小化。用于扩增的其他策略和扩增的方面在2010年7月8日公开的美国专利申请公开号2010/0173394A1中进行了描述，该专利申请通过引用并入本文。在一些情况下，可以在限制条件下进行扩增方法，使得仅进行较少轮次的扩增(例如，1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30等)例如用于cDNA生成而通常进行的。扩增的轮数可以为约1-30、1-20、1-15、1-10、5-30、10-30、15-30、20-30、10-30、15-30、20-30或25-30。

用于靶序列和参考序列的扩增的技术是本领域已知的，并且包括美国专利号7,048,481中描述的方法。简言之，该技术可以包括将样品分离成小液滴的方法和组合物，在一些情况下其中每个小滴平均含有少于约5、4、3、2或1个靶核酸分子(多核苷酸)，扩增每个小滴中的核酸序列并检测靶核酸序列的存在。在一些情况下，扩增的序列存在于基因组DNA的探针上，而非该基因组DNA自身上。在一些情况下，至少200、175、150、125、100、90、80、70、60、50、40、30、20、10或0个小滴具有靶核酸的零个拷贝。

PCR可以包括基于变性、寡核苷酸引物退火以及通过嗜热模板依赖性多核苷酸聚合酶进行的引物延伸的反复循环的体外扩增，这可以导致侧翼为引物的多核苷酸分析物的所需序列的拷贝呈指数式增加。在一些情况下，可以将与DNA的相对链退火的两个不同的PCR引物定位，使得一个引物的聚合酶催化的延伸产物可以充当另一个引物的模板链，从而导致长度由寡核苷酸引物的5'端之间的距离限定的离散双链片段的积累。

LCR采用连接酶来联接成对的预先形成的核酸探针。该探针可以与核酸分析物的每条互补链(若存在)杂交，并且可以采用连接酶来将每对探针结合在一起，从而产生可以在下一循环中用来重复特定核酸序列的两个模板。

SDA(Westin等人2000,Nature Biotechnology,18,199-202；Walker等人1992,Nucleic Acids Research,20,7,1691-1696)可以包括等温扩增，该等温扩增基于限制性内切核酸酶如HincII或BsoBI在其识别位点的半硫代磷酸酯形式的未修饰链上产生切口的能力，以及缺乏外切核酸酶的DNA聚合酶如Klenow exo minus聚合酶或Bst聚合酶在该缺口处延伸3'-端并置换下游DNA链的能力。指数式扩增由偶联有义和反义反应导致，在该反应中由有义反应置换的链充当反义反应的靶标并且反之亦然。

在一些情况下，在例如DNA的特定双链序列通过聚合酶链反应(PCR)的酶促扩增中，扩增是指数式的。

用于生成寡核苷酸阵列的表面的制备

本公开内容中提供的方法和组合物可以包括制备用于生成阵列的表面。在一些情况下，该阵列是寡核苷酸的阵列(寡核苷酸阵列或oligo阵列)。该表面的制备可以包括在该表面上形成聚合物涂层。该表面可以包括玻璃、二氧化硅、氧化钛、氧化铝、氧化铟锡(ITO)、硅、聚二甲基硅氧烷(PDMS)、聚苯乙烯、聚环烯烃、聚甲基丙烯酸甲酯(PMMA)、环烯烃共聚物(COC)、其他塑料、钛、金、其他金属或其他合适的材料。该表面可以是平坦的或圆的、连续的或非连续的、光滑的或粗糙的。表面的实例包括流动池、测序流动池、流动通道、微流体通道、毛细管、压电表面、孔、微孔、微孔阵列、微阵列、芯片、晶片、非磁性珠、磁珠、铁磁珠、顺磁珠、超顺磁珠以及聚合物凝胶。

引发剂物质附接

在一些情况下，用于生成如本文提供的寡核苷酸阵列的、如本文所述的表面的制备包括将引发剂物质与表面键合。在一些情况下，该引发剂物质包含至少一种有机硅烷。在一些情况下，该引发剂物质包含一个或多个表面键合基团。在一些情况下，该引发剂物质包含至少一种有机硅烷，并且该至少一种有机硅烷包含一个或多个表面键合基团。该有机硅烷可以包含一个表面键合基团，导致单足(mono-pedal)结构。该有机硅烷可以包含两个表面键合基团，导致双足(pi-pedal)结构。该有机硅烷可以包含三个表面键合基团，导致三足(tri-pedal)结构。该表面键合基团可以包含MeO₃Si、(MeO)₃Si、(EtO)₃Si、(AcO)₃Si、(Me₂N)₃Si和/或(HO)₃Si。在一些情况下，该表面键合基团包含MeO₃Si(例如，参见图40中的4000)。在一些情况下，该表面键合基团包含(MeO)₃Si。在一些情况下，该表面键合基团包含(EtO)₃Si。在一些情况下，该表面键合基团包含(AcO)₃Si。在一些情况下，该表面键合基团包含(Me₂N)₃Si。在一些情况下，该表面键合基团包含(HO)₃Si。在一些情况下，该有机硅烷包含多个表面键合基团。该多个表面键合基团可以是相同的或可以是不同的。该有机硅烷可以包含图40中示出的硅烷试剂。在一些情况下，该引发剂物质包含至少一种有机膦酸，其中表面键合基团包含(HO)₂P(＝O)。该有机膦酸可以包含一个表面键合基团，导致单足结构。该有机膦酸可以包含两个表面键合基团，导致双足结构。该有机膦酸可以包含三个表面键合基团，导致三足结构。

表面引发聚合(SIP)

在一些情况下，如本文提供的表面包含如本文提供的与表面结合的引发剂物质，该引发剂物质用于生成包含表面涂层或功能化的寡核苷酸阵列。该表面涂层或功能化可以是疏水或亲水的。该表面涂层可以包含聚合物涂层或聚合物刷，如聚丙烯酰胺或修饰的聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶或修饰的聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、亲和素、抗体、抗体片段或适体。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层以及结合剂。在一些情况下，用于生成如本文提供的寡核苷酸阵列的、如本文所述的表面的制备包括在与表面结合的引发剂物质上形成聚合物涂层。该与表面结合的引发剂物质可以是本领域已知的任何与表面结合的引发剂物质。在一些情况下，该与表面结合的引发剂物质包含如本文提供的有机硅烷。该有机硅烷可以包含如本文所述的一个或多个表面键合基团。在一些情况下，该有机硅烷包含至少两个表面键合基团。两个或更多个表面键合基团的存在可以用于提高引发剂物质-聚合物涂层复合物的稳定性。该一个或多个表面键合基团可以是如本文提供的任何表面键合基团。所得到的聚合物涂层可以包含线性链。所得到的聚合物涂层可以包含支化的链。该支化的链可以是轻度支化的。轻度支化的链可以包含少于或大约1、2、3、4、5、6、7、8、9或10个分支。该聚合物涂层可以形成聚合物刷薄膜。该聚合物涂层可以包含一定的交联。该聚合物涂层可以形成接枝结构。该聚合物涂层可以形成网络结构。该聚合物涂层可以形成支化结构。该聚合物可以包含均匀的聚合物。该聚合物可以包含嵌段聚合物。该聚合物可以包含梯度共聚物。该聚合物可以包含周期共聚物。该聚合物可以包含统计共聚物。

在一些情况下，在与表面结合的引发剂物质上形成的聚合物涂层包含聚丙烯酰胺(PA)。该聚合物可以包含聚丙烯酰胺(PA)。该聚合物可以包含聚甲基丙烯酸甲酯(PMMA)。该聚合物可以包含聚苯乙烯(PS)。该聚合物可以包含聚乙二醇(PEG)。该聚合物可以包含聚丙烯腈(PAN)。该聚合物可以包含聚(苯乙烯-r-丙烯腈)(PSAN)。该聚合物可以包含单一类型的聚合物。该聚合物可以包含多种类型的聚合物。该聚合物可以包含如Ayres,N.(2010).Polymer brushes:Applications in biomaterials and nanotechnology.PolymerChemistry,1(6),769-777中描述的聚合物或如Barbey,R.,Lavanant,L.,Paripovic,D.,Schüwer,N.,Sugnaux,C.,Tugulu,S.,&Klok,H.A.(2009)Polymer brushes via surface-initiated controlled radical polymerization:synthesis,characterization,properties,and applications.Chemical reviews,109(11),5437-5527中描述的聚合物，每篇文献的公开内容均通过引用以其全文并入本文。

与表面结合的引发剂物质上的聚合物涂层的聚合可以包括用于控制聚合物链长度、涂层均匀性或其他性质的方法。该聚合可以包括受控的自由基聚合(CRP)、原子转移自由基聚合(ATRP)或可逆加成断裂链转移(RAFT)。该聚合可以包括如在Ayres,N.(2010).Polymer brushes:Applications in biomaterials and nanotechnology PolymerChemistry,1(6),769-777中描述的，或者如在Barbey,R.,Lavanant,L.,Paripovic,D.,Schüwer,N.,Sugnaux,C.,Tugulu,S.,&Klok,H.A.(2009)Polymer brushes via surface-initiated controlled radical polymerization:synthesis,characterization,properties,and applications.Chemical reviews,109(11),5437-5527中描述的活性聚合过程，每篇文献的公开内容均通过引用以其全文并入本文。

在如本文提供的与表面结合的引发剂物质上形成的聚合物涂层可以在该聚合物涂层的整个区域上具有均匀的厚度。在如本文提供的与表面结合的引发剂物质上形成的聚合物涂层可以在整个聚合物涂层区域上具有变化的厚度。该聚合物涂层可以为至少1μm、2μm、3μm、4μm、5μm、7μm、8μm、9μm、10μm、15μm、20μm、25μm、30μm、40μm厚。该聚合物涂层可以为至少50μm厚。该聚合物涂层可以为至少75μm厚。该聚合物涂层可以为至少100μm厚。该聚合物涂层可以为至少150μm厚。该聚合物涂层可以为至少200μm厚。该聚合物涂层可以为至少300μm厚。该聚合物涂层可以为至少400μm厚。该聚合物涂层可以为至少500μm厚。该聚合物涂层可以为约1μm到约10μm厚。该聚合物涂层可以为约5μm到约15μm厚。该聚合物涂层可以为约10μm到约20μm厚。该聚合物涂层可以为约30μm到约50μm厚。该聚合物涂层可以为约10μm到约50μm厚。该聚合物涂层可以为约10μm到约100μm厚。该聚合物涂层可以为约50μm到约100μm厚。该聚合物涂层可以为约50μm到约200μm厚。该聚合物涂层可以为约100μm到约30μm厚。该聚合物涂层可以为约100μm到约500μm厚。

聚合物涂层的物理化学特征的修饰

在一些情况下，对本文的聚合物涂层的物理化学性质进行修饰。该修饰可以通过在聚合过程中并入修饰的丙烯酰胺单体来实现。在一些情况下，在聚合过程中并入乙氧基化的丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含CH₂＝CH-CO-NH(-CH₂-CH2-O-)_nH形式的单体。该乙氧基化的丙烯酰胺单体可以包含羟乙基丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含乙二醇丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含甲基丙烯酸羟乙酯(HEMA)。乙氧基化的丙烯酰胺单体的并入可以导致更加疏水的聚丙烯酰胺表面涂层。在一些情况下，在聚合过程中并入磷酰胆碱丙烯酰胺单体。该磷酰胆碱丙烯酰胺单体可以包含具有图41中示出的结构的单体。该磷酰胆碱丙烯酰胺单体可以包含其他磷酰胆碱丙烯酰胺单体。在一些情况下，在聚合过程中并入甜菜碱丙烯酰胺单体。该甜菜碱丙烯酰胺单体可以包含具有图42中示出的结构的单体。该甜菜碱丙烯酰胺单体可以包含其他甜菜碱丙烯酰胺单体。

寡核苷酸阵列在制备的表面上的生成

在一些情况下，使用如本文提供的方法处理从而包含如本文提供的聚合物涂层的、如本文提供的表面用于生成寡核苷酸阵列。在一些情况下，该寡核苷酸或oligo阵列在包含如本文提供的聚合物涂层的表面上生成，该聚合物涂层在如本文提供的与表面结合的引发剂物质上形成。该寡核苷酸阵列可以是高密度寡核苷酸阵列。该寡核苷酸阵列可以包含至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或1,000,000,000个偶联至如本文提供的表面上的寡核苷酸。该寡核苷酸阵列可以包含至多10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或1,000,000,000个偶联至如本文提供的表面上的寡核苷酸。该寡核苷酸阵列可以包含约10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或1,000,000,000个偶联至如本文提供的表面上的寡核苷酸。如本文提供的寡核苷酸阵列可以具有在其上以至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或1,000,000,000个寡核苷酸/平方毫米的密度排列的寡核苷酸。在如本文提供的寡核苷酸阵列上的寡核苷酸可以被组织成斑点(特征)、区域或像素。每个斑点(特征)或区域中的寡核苷酸可以彼此相同或彼此相关(例如，全部或基本上全部都包括共有或共同序列)。每个斑点或区域中的寡核苷酸可以彼此超过55％、60％、65％、70％、75％、80％、85％、90％、95％、99％或99.9％相同。如本文提供的寡核苷酸阵列可以包含至少1、2、3、4、5、6、7、8、9、10、100、1000、10,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或1,000,000,000个斑点(特征)或区域。每个斑点或区域可以具有至多约1cm、1mm、500μm、200μm、100μm、10μm、9μm、8μm、7μm、6μm、5μm、4μm、3μm、2μm、1μm、800nm、500nm、300nm、100nm、50nm或10nm的大小。在一些情况下，寡核苷酸偶联至表面上的聚合物涂层。该聚合物涂层可以是如本文提供的聚丙烯酰胺涂层。在一些情况下，如本文提供的组合物包含表面、与所述表面共价结合的聚丙烯酰胺涂层；以及偶联至所述聚丙烯酰胺涂层的至少一个寡核苷酸。

在一些情况下，寡核苷酸在聚合过程中并入至聚合物涂层(例如，聚丙烯酰胺涂层)中。例如，可以在丙烯酰胺聚合过程中添加5’-acrydite修饰的寡核苷酸链，以允许寡核苷酸并入至正在聚合的聚丙烯酰胺结构中。在一些情况下，寡核苷酸在5’端处偶联至聚合物涂层(例如，聚丙烯酰胺涂层)。在一些情况下，寡核苷酸在3’端处偶联至聚合物涂层(例如，聚丙烯酰胺涂层)。在一些情况下，一些寡核苷酸在3’端处偶联至聚合物涂层(例如，聚丙烯酰胺涂层)，而一些寡核苷酸在5’端处偶联至聚合物涂层(例如，聚丙烯酰胺涂层)。

在一些情况下，寡核苷酸在聚合过程之后并入至聚合物涂层(例如，聚丙烯酰胺涂层)中。例如，可以在聚合过程中将反应性位点添加至聚合物(例如，聚丙烯酰胺)结构中。然后，可在聚合物(例如，聚丙烯酰胺)聚合后，将寡核苷酸在反应性位点处并入。该反应性位点可以包括溴乙酰基位点、叠氮基位点或与叠氮基-炔Huisgen环加成相容的位点。在一些情况下，该反应性位点包含溴乙酰基位点。在一些情况下，该反应性位点包含叠氮基。在一些情况下，该反应性位点包含与叠氮基-炔Huisgen环加成相容的位点。

在一些情况下，将寡核苷酸以受控方式并入到聚合物涂层(例如，聚丙烯酰胺涂层)中，其中特定的寡核苷酸位于该聚合物涂层(例如，聚丙烯酰胺涂层)的特定区域。可以将寡核苷酸随机并入到聚合物涂层(例如，聚丙烯酰胺涂层)中，其中特定的寡核苷酸随机地分布在整个聚合物涂层(例如，聚丙烯酰胺涂层)中。

可以通过多种手段在如本文所述制备的表面上制备寡核苷酸(“oligo”)阵列。该表面可以包含如本文提供的与表面结合的引发剂物质。该表面可以包含如本文提供的与表面结合的引发剂物质，其中聚合物涂层(例如，聚丙烯酰胺涂层)在如本文提供的所述与表面结合的引发剂物质上形成。该手段可以包括但不限于原位合成(例如，光引导的合成)、打印(例如，喷墨打印)、点印法、转移、桥式扩增或重组酶聚合酶扩增。

在一些情况下，供本文提供的方法使用的寡核苷酸阵列通过原位合成来合成。例如，如在Gao等人,2004,Biopolymers,73(5):579-596中描述的，可以通过原位合成制备寡核苷酸区域，该文献的公开内容通过引用以其全文并入本文。阵列表面上寡核苷酸的原位合成可以通过打印进行；例如，喷墨打印或者可以将A、C、G或T亚磷酰胺递送至特定阵列区域并由此控制在每个区域处的合成的其他打印技术。原位合成可以通过电反应进行；例如，可以将阵列区域包含在单独可寻址的电反应单元中，并且可以电控制每个区域处的合成。

在一些情况下，供本文提供的方法使用的寡核苷酸阵列通过点印法合成。点印法可以如Gao等人,2004,Biopolymers,73(5):579-596中所述，该文献的公开内容通过引用以其全文并入本文。可以使用非接触或接触打印法(例如，机器人针、压电式喷墨打印机)使预合成的寡核苷酸沉积到阵列的寡核苷酸或引物区域上。然后可以例如通过经由官能团的化学附接将寡核苷酸连接或固定至表面。在一些情况下，该官能团可以与寡核苷酸的5’端结合，导致寡核苷酸的3’端远离表面。

在一些情况下，原位合成可以通过光刻法进行。光刻法可以在使用或不使用掩模的情况下进行。在一些情况下，使用光不稳定的保护基团来控制每个阵列区域处的合成，并且采用光掩模或采用无掩模光刻系统进行图案化。

在一些情况下，组合使用投影光刻法与对比度增强光-酸生成聚合物膜，以合成供本文提供的方法使用的寡核苷酸阵列。目前，探针长度可达60bp的高密度寡核苷酸(“oligo”)阵列可从Affymetrix、NimbleGen和Agilent(即，SurePrint Technology)商购获得，如Fodor,S.P.等人,Light-directed,spatially addressable parallel chemicalsynthesis.Science 251,767-773,(1991)，McGall,G.H.&Christians,F.C.High-densitygenechip oligonucleotide probe arrays.Adv Biochem Eng Biotechnol 77,21-42,(2002)，以及Nuwaysir,E.F.等人,Gene expression analysis using oligonucleotidearrays produced by maskless photolithography.Genome Res 12,1749-1755,(2002)中所描述的，每篇文献的公开内容均通过引用以其全文并入本文。然而，在这些阵列中制备的最小特征间距分别为5μm、13μm和30μm。图4示出了采用光解保护基化学法，利用常规接触光刻逐步错位生成的20-聚体寡核苷酸阵列。如图4所示，通过光解保护基化学法，使用常规接触光刻逐步错位将所生成的寡核苷酸阵列的可实现的最小特征大小限制到1μm至2μm。在本文提供的方法中，投影光刻法与对比度增强光-酸生成聚合物膜的组合使用可以允许等于或小于1μm的分辨率。这可以有利于条形码特征的紧密封装，同时使串扰误差最小化。在一些情况下，通过组合使用投影光刻法与对比度增强光酸生成聚合物膜生成的寡核苷酸阵列包含1500万个特征，每个特征大小为1μm x 1μm，总阵列大小为3mm x 5mm。寡核苷酸阵列上的每个寡核苷酸可以为具有约20个碱基条形码的约60个碱基，其侧翼为两个约20个碱基的通用衔接子。可以使用知名的(established)步进器(例如，ASML PAS5500)来生成寡核苷酸阵列。知名的步进器(例如，ASML PAS5500)以±0.060um的放置准确度常规地打印缩小5倍的、在亚微米范围内的图案。条形码区可以<1μm，使得每个特征(“斑点”)跨越采用本文提供的方法在整个阵列中拉伸的模板核酸(例如，DNA)的2000bp部分。该通用衔接子可以包含顶部衔接子和底部衔接子。该顶部衔接子可用于引发拉伸的核酸(例如，DNA)，而该底部衔接子可以充当NGS文库制备的第一衔接子。该条形码可以是一组寡核苷酸条形码。这组条形码可以唯一地鉴别每个寡核苷酸在寡核苷酸阵列或芯片上的空间位置。条形码可以针对精确序列性能来设计，例如，在40％到60％之间的GC含量，没有长于2的均聚物运行，没有长于3的自互补的序列段，不存在于人类基因组参照中。在一些情况下，为了误差检验可寻址性，每个条形码与阵列中的任何其他条形码相差四个缺失或插入或置换。在一些情况下，将采用计算机辅助重叠比对的多次曝光接触光刻法用于采用已证明的光解保护基化学法实现1μm特征分辨率。

在一些情况下，采用例如如本文以及美国临时申请号61/979,448或62/012,238所述的桥式扩增或重组酶聚合酶扩增生成寡核苷酸阵列，每篇申请的公开内容均通过引用以其全文并入本文。阵列的基底可以包含结合的衔接子或能够与单独寡核苷酸上的区域结合的寡核苷酸，从而允许该基底上的单独寡核苷酸的桥式扩增或重组酶聚合酶扩增。可以向基底上接种具有已知条形码序列的寡核苷酸(即，引物)，随后扩增以生成寡核苷酸区域。或者，可以向寡核苷酸基底接种具有随机或未知条形码序列的寡核苷酸，随后扩增以生成寡核苷酸区域，并对来自每个寡核苷酸区域的寡核苷酸进行测序以确定与每个寡核苷酸区域对应的条形码序列。可以制备用于生成如本文提供的寡核苷酸阵列的基底。

采用本文提供的任意方法生成的寡核苷酸阵列(例如，模板和/或接受体阵列)上的寡核苷酸可以包含多个区段或序列，如PCR或延伸反应引物序列、条形码序列以及衔接子或通用序列。例如，图5示出了寡核苷酸500的示意图，其从5’到3’包含PCR引物序列501、条形码序列502和用于结合的限定序列503。限定序列(503)可以是衔接子序列，通用序列，或与通过本文提供的方法(例如，转座子插入)引入到靶多核苷酸中的随机引物或引物结合位点的特定区域互补的序列。寡核苷酸的5'端可以结合至该阵列。如本文提供的寡核苷酸阵列(例如，模板和/或接受体阵列)上的寡核苷酸可以包含单独或单个的区段或序列。该单独的区段可以是PCR或延伸反应引物序列、条形码序列或衔接子或通用序列。

在包含PCR引物序列的寡核苷酸中的PCR引物序列可以是在采用聚合酶的PCR反应中使用的序列，该聚合酶包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。可以采用PCR引物序列来引发延伸反应。可以采用PCR引物序列来引发PCR反应。可以通过PCR来扩增从包含PCR引物序列的寡核苷酸生成的延伸产物，以在测序前增加其浓度或量。PCR引物序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35bp。PCR引物序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。

寡核苷酸阵列上的寡核苷酸中的衔接子或通用序列可以包含能够与模板或靶核酸直接(例如，通过与模板核酸内的序列杂交)或间接(例如，通过与杂交至模板核酸内的序列的游离引物杂交)杂交的衔接子或通用序列。衔接子或通用序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。衔接子或通用序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。

寡核苷酸阵列(例如，模板和/或接受体寡核苷酸阵列)上的寡核苷酸区可以在寡核苷酸阵列600上以不同的排列方式来组织。例如，如图6A所示，寡核苷酸区可以在寡核苷酸阵列上以寡核苷酸区610的二维阵列的方式排列。例如，如图6B所示，寡核苷酸区可以在寡核苷酸阵列上以跨越寡核苷酸阵列在一个方向上延伸的行或列620、621、622、623、624的方式排列。例如，如图6C所示，寡核苷酸区可以在寡核苷酸阵列600上以簇630的方式排列。

寡核苷酸(oligo)可以在阵列表面上以5’至3’朝向或以3’至5’朝向排列。单个阵列斑点或区域可以具有最大约15μm、最大约14μm、最大约13μm、最大约12μm、最大约11μm、最大约10μm、最大约5μm、最大约3μm、最大约1μm、最大约0.3μm或最大约0.1μm的尺寸。引物区可以在基底上以至少100、1,000、10,000、100,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、50,000,000、100,000,000、200,000,000或500,000,000个区域每cm²的密度排列。

用于生成转移或接受体阵列的转移技术

本文的方法还可用于生成具有所需朝向的寡核苷酸阵列。在一些情况下，在为了生成本文提供的寡核苷酸阵列而制备的表面上生成如本文提供的寡核苷酸阵列的方法用来生成用作模板的寡核苷酸阵列(即，模板阵列)，以用于生成一个或多个寡核苷酸阵列，该寡核苷酸阵列包含与其偶联的且与模板阵列上的寡核苷酸互补的寡核苷酸。包含与其偶联的且与模板阵列互补的寡核苷酸的寡核苷酸阵列可以被称为接受体阵列(或者可替代地，被称为转移阵列)。该转移或接受体寡核苷酸阵列可以包含具有所需朝向的寡核苷酸。可以采用阵列转移过程从模板阵列生成转移或接受体阵列。在一些情况下，使具有所需特征(“斑点”)密度(例如，特征或斑点大小为约1μm)的模板寡核苷酸阵列经历如本文提供的阵列转移过程，以便生成具有所需朝向的转移或接受体寡核苷酸阵列。该所需朝向可以是包含寡核苷酸的转移或接受体寡核苷酸阵列，其中该阵列的每个寡核苷酸的5’端均附接至阵列基底。用于生成具有所需朝向的寡核苷酸的转移或接受体寡核苷酸阵列(即，该阵列的每个寡核苷酸的5’端均附接至阵列基底)的模板寡核苷酸阵列，可使模板阵列的每个寡核苷酸的3’端均附接至该基底。该阵列转移过程可以是面对面转移过程。在一些情况下，该面对面转移过程通过酶促转移或通过合成的酶促转移(ETS)发生。图7、8A和9中总体上描绘了ETS。在一些情况下，该面对面转移过程通过非酶促转移过程发生。该非酶促转移过程可以是寡核苷酸固定化转移(OIT)。图4和图5中总体上描绘了OIT。

面对面凝胶转移过程(例如，ETS或OIT)可以显著降低单位制备成本，同时翻转寡核苷酸朝向(5’固定的)，这可以具有测定优势，如允许与阵列结合的寡核苷酸的3’端的酶促延伸。而且，ETS或OIT可以导致更大数目或更高百分比的具有所需或限定长度的寡核苷酸(即，全长寡核苷酸)从模板阵列转移至接受体阵列。随后接受体寡核苷酸阵列上的转移的全长产物寡核苷酸的扩增(例如，如本文提供的扩增特征再生或AFR)可以使该接受体寡核苷酸阵列含有包含超过50个核苷酸碱基的寡核苷酸，而不会导致低产率或部分长度产物。

在一些情况下，模板和/或接受体阵列包含聚合物。该聚合物可以是适体或寡核苷酸。在一些情况下，模板或接受体阵列包含寡核苷酸。模板或接受体阵列可以具有至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000或100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或十亿个与其偶联的模板聚合物(例如，寡核苷酸)。模板阵列可以具有以至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000或100,000个聚合物(例如，寡核苷酸)/平方毫米的密度在其上排列的模板聚合物。可将模板或接受体阵列上的聚合物(例如，寡核苷酸)组织成斑点、区域或像素。每个斑点或区域中的聚合物(例如，寡核苷酸)可以彼此相同或彼此相关(例如，全部或基本上全部都包括共有或共同序列)。每个斑点或区域中的聚合物(例如，寡核苷酸)可以彼此超过55％、60％、65％、70％、75％、80％、85％、90％、95％、99％或99.9％相同。该模板或接受体阵列可以包含至少1、2、3、4、5、6、7、8、9、10、100、1000、10,000、100,000、1,000,000或10,000,000个斑点或区域。每个斑点或区域可以具有至多约1cm、1mm、500μm、200μm、100μm、10μm、9μm、8μm、7μm、6μm、5μm、4μm、3μm、2μm、1μm、800nm、500nm、300nm、100nm、50nm或10nm的大小。

如本文提供的生成的接受体或转移阵列可以包含在其序列和/或数目方面与模板阵列上的寡核苷酸完全互补、完全相同、部分互补或部分相同的寡核苷酸，其中该接受体阵列从该模板阵列转移。部分互补可以指具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的序列互补性的接受体阵列。部分相同可以指具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的序列同一性的接受体阵列。接受体阵列可以具有与模板阵列相同的寡核苷酸数目，和/或具有模板阵列的至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的寡核苷酸数目，其中该接受体阵列从该模板阵列转移。

如本文提供的阵列制备方法可以产生具有设计的、所需的或预期的长度的、可以被称为全长产物的聚合物(例如，寡核苷酸)的阵列。例如，预期生成具有10个碱基的寡核苷酸的制备方法可以生成偶联至阵列的、具有10个碱基的全长寡核苷酸。阵列制备过程可以产生具有小于设计的、所需的或预期的长度的、可以被称为部分长度产物的聚合物(例如，寡核苷酸)。部分长度的寡核苷酸的存在可以在给定的特征(斑点)内或在特征(斑点)之间。例如，预期生成具有10个碱基的寡核苷酸的制备方法可以生成偶联至阵列的、仅具有8个碱基的部分长度寡核苷酸。也就是说，合成的寡核苷酸阵列可以包含许多核酸，这些核酸沿其长度是同源的或接近同源的，但其长度可以彼此不同。在这些同源或接近同源的核酸中，具有最长长度的那些可以被认为是全长产物。长度比最长长度短的核酸可以被认为是部分长度产物。本文提供的阵列制备方法可以产生偶联至阵列的给定特征(斑点)内的一些全长产物(例如，寡核苷酸)和一些部分长度产物(例如，寡核苷酸)。偶联至特定阵列或在给定特征内的部分长度产物在长度上可以不同。由全长产物生成的互补核酸也可以被认为是全长产物。由部分长度产物生成的互补核酸也可以被认为是部分长度产物。

可以使用如本文提供的转移方法(例如，ETS或OIT)增加或富集偶联至接受体阵列表面的全长产物(例如，寡核苷酸)的量或百分比。阵列转移(例如，ETS或OIT)可以产生包含至少、至多、大于、小于或大约30％、40％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％转移的寡核苷酸的转移或接受体阵列，其中该转移的寡核苷酸的长度是用于生成该转移或接受体阵列的模板阵列上相应寡核苷酸的长度的100％。长度为模板寡核苷酸的长度的100％(即，相同或等同长度)的转移的寡核苷酸可以被称为全长产物(例如，全长产物寡核苷酸)。通过本领域已知的方法(例如，点印法或原位合成)制备的模板阵列可以包含约20％的所需长度的寡核苷酸(即，全长寡核苷酸)和约80％的非所需长度的寡核苷酸(即，部分长度寡核苷酸)。采用如本文提供的阵列转移方法转移通过本领域已知的方法生成的、包含约20％全长寡核苷酸和约80％部分长度寡核苷酸的阵列可以导致生成包含至多约20％全长产物寡核苷酸的转移或接受体阵列。在一些情况下，根据本文的方法制备的阵列具有更大百分比的所需长度的寡核苷酸(即，全长寡核苷酸)，使得采用本文提供的阵列转移方法转移根据本文的方法制备的阵列导致生成与本领域已知的制备和转移方法相比具有更高百分比的全长产物寡核苷酸的转移或接受体阵列。

在一些情况下，本文提供的转移方法(例如，ETS或OIT)包括生成与模板序列互补的核酸(例如，寡核苷酸)序列。该转移可以通过酶复制(例如，ETS)或通过阵列组分在阵列表面之间的非酶促物理转移(例如，OIT)而发生。该阵列表面可以是如本文提供的任何阵列表面。模板阵列和接受体阵列的基底可以是相同的或可以是不同的。该转移可以包括制备已附接至接受体阵列的互补序列；例如，结合至接受体阵列的引物，并且它与模板阵列上的衔接子互补，可以采用模板阵列序列作为模板进行延伸，从而生成全长或部分长度接受体阵列。转移可包括从模板阵列制备互补序列，随后将该互补序列附接至接受体阵列。

如本文提供的转移方法(例如，ETS或OIT)可以生成接受体阵列，使得模板核酸(例如，寡核苷酸)相对于其偶联的接受体阵列表面的朝向得以保留(例如，模板核酸(例如，寡核苷酸)的3’端结合至模板阵列，而转移的核酸(例如，寡核苷酸)互补体的3’端结合至接受体阵列)。转移可以逆转核酸相对于其偶联的阵列表面的朝向(例如，模板核酸的3’端结合至模板阵列，而转移的核酸互补体的5’端结合至接受体阵列)。

阵列转移(例如，ETS或OIT)可以多次进行。可以采用相同的模板阵列多次进行阵列转移(例如，ETS或OIT)。可以使用与模板基底结合的模板聚合物的模板阵列来产生至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、500、1,000、5,000、10,000、50,000或100,000个接受体阵列。通过使用来自一次阵列转移的转移阵列作为随后转移的模板阵列，阵列转移可以在一系列的转移中多次进行。例如，可以从具有在其3’端处与阵列结合的寡核苷酸的模板阵列到具有在其5’端处与阵列结合的互补寡核苷酸的第一转移阵列进行第一次转移，并且可以从该第一转移阵列(现在充当模板阵列)到第二转移阵列进行第二次转移，该第二转移阵列比采用本领域常用的转移技术生成的接受体阵列具有更高百分比的全长产物以及匹配原始模板阵列的序列，同时保留5’-表面结合的朝向。在一些情况下，采用本文提供的阵列转移方法(例如，ETS或OIT)生成的接受体阵列上的全长产物寡核苷酸进一步通过接受体阵列上的全长产物寡核苷酸的扩增而富集。可以采用本文提供的方法进行扩增。该阵列转移方法可以是如本文提供的面对面酶促转移方法(例如，ETS)或非酶促(例如，OIT)方法。

在一些情况下，可以通过使用在模板聚合物(例如，寡核苷酸)上的衔接子序列来帮助通过ETS或OIT进行的阵列转移。聚合物(例如，寡核苷酸)可以包含所需的最终序列，外加一个或多个衔接子序列。例如，模板寡核苷酸可以按顺序包含具有第一衔接子序列的3’端、具有第二衔接子序列的5’端以及在中间的所需最终序列。第一和第二衔接子序列可以是相同的或可以是不同的。在一些情况下，在相同阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及最终序列，而在不同阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及不同的最终序列。在转移/接受体阵列上的引物可以与衔接子序列互补，从而允许引物与模板聚合物(例如，寡核苷酸)之间的杂交。这样的杂交可有助于从一个阵列到另一个阵列的转移。

可以在转移后通过例如酶切、消化或限制性处理，从转移/接受体阵列聚合物(例如，转移的寡核苷酸)中去除一些或全部衔接子序列。可以在转移后通过例如酶切、消化或限制性处理，从转移/接受体阵列聚合物(例如，转移的寡核苷酸)中去除一些或全部衔接子序列。例如，可以经由通过双链DNA酶进行的探针末端剪切(PEC)将寡核苷酸阵列组分的衔接子去除。可以添加与衔接子序列互补的寡核苷酸并将该寡核苷酸与阵列组分杂交。然后可以采用对双链DNA具有特异性的DNA酶消化寡核苷酸(参见图10)。或者，可以将一个或多个可切割的碱基如dU掺入到待去除的链的引物中。然后可以将该引物在紧挨着探针的最3’碱基的位置处产生切口，并且该切口位点可以由合适的酶如绿豆S1或P1核酸酶切割(见图11)。还可以使用许多种限制酶及其相关的限制酶切位点，包括但不限于EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、Sau3AI、PvuII、SmaI、HaeIII、HgaI、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI和XbaI。在一些情况下，从第二表面(接受体表面)到含有与顶部衔接子互补的引物(例如，寡核苷酸)的新的第三表面重复上述转移过程。因为只有全长寡核苷酸可以具有完整的顶部衔接子，所以只有这些寡核苷酸可以被拷贝到第三阵列表面(即，新的或第三受体或转移阵列)上。该过程可以从部分产物中纯化或富集全长寡核苷酸，由此产生高特征密度、高质量的全长寡核苷酸阵列。纯化或富集可以意指接受体阵列的生成，使得所述接受体阵列比用作生成所述接受体阵列的模板的阵列具有更大百分比或数目的所需长度(即，全长)的寡核苷酸。该全长寡核苷酸可以是含有所有所需特征(例如，衔接子、条形码、靶核酸或其互补体，和/或通用序列等)的寡核苷酸。

在一些情况下，可以通过阵列(例如，模板阵列)的或阵列(例如，模板阵列)上表面涂层的柔性或可变形性来帮助阵列转移。例如，可以在阵列转移(例如，ETS、OIT)中使用包含具有偶联的寡核苷酸的聚丙烯酰胺凝胶涂层的阵列(例如，模板阵列)。该凝胶涂层的可变形性可以允许阵列组分(寡核苷酸、试剂(例如，酶))彼此接触，即使存在表面粗糙度。表面粗糙度可以是表面的形貌的变化性。

可以通过被称为扩增特征再生(AFR)的酶促反应扩增或再生阵列组分。AFR可以在模板阵列和/或接受体阵列上进行。可使用AFR在阵列(例如，模板和/或接受体)上再生全长寡核苷酸，以便确保阵列(例如，模板和/或接受体阵列)上的特征(斑点)中的每个寡核苷酸均包含所需组分(例如，衔接子、条形码、靶核酸或其互补体，和/或通用序列等)。可以对包含衔接子和/或引物结合位点(PBS)的寡核苷酸进行AFR，使得寡核苷酸各自包含第一衔接子(或第一PBS)、探针序列和第二衔接子(或第二PBS)。优选地，阵列(例如，模板和/或接受体阵列)上的每个特征中的寡核苷酸均包含两个或更多个引物结合位点(或衔接子序列)。可以采用本领域已知的核酸扩增技术进行AFR。该扩增技术可以包括但不限于等温桥式扩增或PCR。例如，可以通过阵列(例如，模板和/或接受体阵列)组分上的衔接子序列与结合至表面的寡核苷酸引物之间的杂交，及随后的酶促延伸或扩增，来对阵列(例如，模板和/或接受体阵列)组分寡核苷酸进行桥式扩增。可以使用扩增来恢复损失的阵列(例如，模板和/或接受体阵列)组分密度或将阵列(例如，模板和/或接受体阵列)组分的密度增加至超过其原始密度。

如本文提供的阵列(例如，模板和/或接受体阵列)上的固定的寡核苷酸、核苷酸或引物可以在长度上彼此相等，或可以具有不同的长度。固定的寡核苷酸、核苷酸或引物可以包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195或200个碱基。在一些情况下，固定的寡核苷酸、核苷酸或引物为71个碱基长(71-聚体)。

可以使转移阵列的接受体表面与模板阵列的模板表面紧密靠近或接触。在一些情况下，可以通过可变形的涂层如聚合物凝胶(例如，聚丙烯酰胺)的存在来帮助模板阵列与转移阵列之间的接触。该涂层的可变形性可以允许偶联的聚合物(例如，寡核苷酸或引物)进行足够紧密的接触，以使杂交发生。该涂层的可变形性可以帮助克服由于表面粗糙度(例如，表面形貌变化性)或其他特征导致的间隙，该间隙将会阻止用于杂交的足够紧密接触。可变形涂层的一个额外的益处是它可以预加载有酶促反应试剂，因此充当用于通过合成的酶促转移(ETS)的界面反应的储器。阵列之一或两者可以包含具有偶联有聚合物分子的凝胶涂层的基底。例如，转移阵列可以包含与聚丙烯酰胺凝胶偶联的基底，其中寡核苷酸引物偶联至该凝胶。表面和涂层在本公开内容的其他地方进一步讨论。

通过合成的酶促转移(ETS)

ETS可以包括如图7、8A和9中描绘的面对面聚合酶延伸反应，该反应用于将一个或多个模板寡核苷酸(例如，DNA寡核苷酸)从模板寡核苷酸阵列拷贝到第二表面(例如，接受体阵列)上。可以按压第二表面(例如，接受体阵列)，使其与模板寡核苷酸(例如，DNA寡核苷酸)阵列接触，其中该第二表面均匀覆盖有与模板寡核苷酸阵列中的寡核苷酸上的序列(例如，包含衔接子序列的寡核苷酸阵列中的底部衔接子序列)互补的固定的引物。接受体阵列表面可以包含表面固定的寡聚物(寡核苷酸)、核苷酸或者与模板寡核苷酸阵列上的模板核酸或寡核苷酸至少部分互补的引物。在一些情况下，转移或接受体阵列包含与模板阵列上的适体选择性杂交或结合的寡核苷酸。转移或接受体阵列上的固定的寡核苷酸、核苷酸或引物可以与模板聚合物(例如，寡核苷酸)上的衔接子区域互补。

图8A-C中示出了如本文提供的ETS阵列转移过程的实例。模板核酸(寡核苷酸)可以与接受体表面上的固定的引物或探针杂交，该引物或探针也被称为接受体引物或探针，或者转移引物或探针。可以例如通过DNA聚合酶对杂交的复合物(例如，双链体)进行酶促延伸(见图8A)，该DNA聚合酶包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、pyrophage。

转移过程可以保留寡核苷酸的朝向，即，如果5’端结合至模板表面，则合成的寡核苷酸的5’端将结合至接受体表面，或者反之亦然。如图8A所示，在其5’端结合的转移引物可以在其3’端与模板核酸结合，随后进行酶促延伸以产生与模板寡核苷酸互补并在其5’端与接受体阵列表面结合的核酸。

在一些情况下，仅使用全长模板核酸产物在接受体阵列上生成互补体。图8C示出了仅采用全长模板核酸产物的酶促转移(即，ETS)的实例，该产物包含第一衔接子区域A、中间区域B和第二衔接子区域C。在图8C中，接受体阵列表面包含与在模板核酸末端处的第二衔接子序列C互补的引物。模板阵列上的全长产物包含整个序列(即，第一衔接子A-中间区域B-第二衔接子C)，而部分长度产物不包含整个序列(即，第一衔接子A-中间区域B)。在图8C中，模板阵列上的部分长度产物没有被转移，因为它们缺少第二衔接子C，因此不能被包含与第二衔接子C互补的序列的接受体阵列上的引物(寡核苷酸)结合。在一些情况下，模板阵列上的模板核酸寡核苷酸的至少30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％是全长产物(寡核苷酸)。在一些情况下，在接受体阵列上生成的转移或接受体核酸产物(寡核苷酸)的至少30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％是全长产物。ETS期间接受体阵列上部分长度产物的生成可能是由于全长模板寡核苷酸在聚合酶驱动的合成期间的不完全延伸而引起的。接受体阵列上全长产物的生成可以采用如本文提供的AFR来实现。

在一些情况下，接受体阵列上包含与模板聚合物(例如，寡核苷酸)的一部分杂交的引物，使得发生延伸反应，直到所有的模板聚合物(例如，寡核苷酸)都用作互补阵列(或接受体阵列)上互补接受体寡核苷酸合成的模板。在一些情况下，发生接受体阵列的合成，使得平均至少100％、99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％、70％、69％、68％、67％、66％、65％、64％、63％、62％、61％、60％、59％、58％、57％、56％、55％、54％、53％、52％、51％或50％的模板聚合物(例如，寡核苷酸)用于在该接受体阵列上生成互补序列。换句话说，转移后，接受体阵列可以包含采用至少100％、99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％、70％、69％、68％、67％、66％、65％、64％、63％、62％、61％、60％、59％、58％、57％、56％、55％、54％、53％、52％、51％或50％的模板寡核苷酸作为模板合成的接受体核苷酸(例如，寡核苷酸)。

阵列转移过程(例如，ETS)可以逆转模板核酸的朝向(见图8B、图9)。也就是说，如果5’端结合至模板表面，则合成的寡核苷酸的3’端将结合至接受体表面，或者反之亦然。例如，图8B示出了模板阵列表面上的模板核酸(例如，寡核苷酸)的酶促转移(即，ETS)，该模板核酸可以包含第一衔接子区域A、中间区域B和第二衔接子区域C中的一些或全部。在图8B中，与位于模板核酸的基底端处并被指定为A的衔接子序列互补的接受体表面引物(A')用于进行酶促转移。在这种情况下，部分长度和全长互补产物(寡核苷酸)均被转移，并且其相对于模板阵列的基底表面的朝向得到逆转。

如图9所示，在其3’端与模板阵列表面(模板表面)结合的模板核酸(例如，寡核苷酸)可以与接受体阵列上、在其5’端与接受体阵列表面结合的转移引物杂交。转移引物的酶促延伸产生与模板核酸(例如，寡核苷酸)互补并在其5’端与接受体阵列表面结合的核酸(例如，寡核苷酸)。在一些情况下，利用模板阵列的特征(斑点)中的部分长度寡核苷酸在接受体阵列上生成互补的部分长度寡核苷酸。在一些情况下，利用模板阵列的特征(斑点)中的全长寡核苷酸在接受体阵列上生成互补的全长寡核苷酸。

模板和接受体表面可以是可生物相容的，如聚丙烯酰胺凝胶，修饰的聚丙烯酰胺凝胶，PDMS，二氧化硅，硅，COC，金属如金、铬合金或铬，或任何其他生物相容的表面。如果表面包含聚合物凝胶层，则厚度可影响其可变形性或柔性。凝胶层的可变形性或柔性可以使其对保持表面之间的接触是有用的，即使存在表面粗糙度。在本文中进一步讨论了表面的细节。

试剂和其他化合物，包括酶、缓冲液和核苷酸，可以放置在表面上或包埋在相容的凝胶层中。该酶可以是聚合酶、核酸酶、磷酸酶、激酶、解旋酶、连接酶、重组酶、转录酶或逆转录酶。在一些情况下，在表面上或包埋在相容的凝胶层中的酶包括聚合酶。聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion、pyrophage及其他聚合酶。在本文中进一步讨论了表面的细节。在一些情况下，在表面上或包埋在相容的凝胶层中的酶包括连接酶。连接酶可以包括但不限于大肠杆菌连接酶、T4连接酶、哺乳动物连接酶(例如，DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV)、热稳定连接酶以及快速连接酶。

图12、图13和图14中示出了模板表面以及通过酶促延伸生成的转移后的接受体表面。接受体阵列的表面可以是在模板阵列的顶部上形成的凝胶。图15示出了在反应混合物(例如，如本文概述的引物、酶、缓冲液)和模板的存在下，如本文所述的、从模板阵列表面向接受体表面(即，凝胶拷贝(具有模板))的酶促延伸反应以及阴性对照的实例，在该阴性对照中，在存在反应混合物(例如，如本文概述的引物、酶、缓冲液)但没有模板核酸的情况下，模板阵列经历如本文所述的、向接受体表面(凝胶拷贝(没有模板))的酶促延伸反应。阴性对照(即，凝胶拷贝(无模板))中荧光的缺乏证明了在不存在模板核酸的情况下生成的产物的缺乏。图16示出了来自另外的对照实验的结果，其中模板阵列表面(左侧)与接受体转移表面在存在反应混合物(即，引物、缓冲液)(右侧)但不存在酶的情况下接触。图16中的接受体阵列(右侧)上的荧光缺乏证明了转移的缺乏。可以将反应混合物放置在接受体阵列的表面上或包埋在接受体表面中。在一些情况下，将反应混合物放置在接受体阵列的表面上。在一些情况下，将反应混合物包埋在接受体表面中。该接受体表面可以是相容的凝胶层。该反应混合物可以包含进行通过合成的酶促转移(ETS)所必需的任何试剂。该试剂可以包含

模板阵列通过ETS的酶促转移可以如下进行：1.)制备酶混合物(例如，37μL H₂O，5μL 10X Thermopol缓冲液，5μL 10mg/mL BSA，1μL10mM dNTP以及2μL8U/μL Bst酶)；2.)将酶混合物施加到接受体阵列(例如，如本公开内容其他地方所述制备的、偶联有寡核苷酸引物的丙烯酰胺凝胶涂覆的载玻片)；3.)将模板阵列与接受体阵列面对面放置并使其反应(例如，在55℃下在湿度室内夹紧在一起持续2小时)；4.)将模板阵列与接受体阵列分开(例如，通过施加4X SSC缓冲液而松开并在剃须刀片的辅助下拉开)；5.)将模板阵列漂洗(例如，在去离子水中)并干燥(例如，用N₂)；以及6.)漂洗接受体阵列(例如，用4X SSC缓冲液和2X SSC缓冲液)。在一些情况下，模板阵列上的寡核苷酸包含衔接子，使得底部衔接子位于邻近该模板阵列表面的位置，而顶部衔接子位于远离该模板阵列表面的位置。当将该夹心结构加热至55℃时，Thermopol PCR缓冲液中的Bst聚合酶可以延伸来自接受体阵列的、与该模板阵列的底部衔接子杂交的引物，这可以在模板与接受体阵列表面之间产生dsDNA分子桥。一经物理分离，第二表面(即，接受体阵列)可以含有互补ssDNA条形码阵列，其中寡核苷酸的5’端附接至该表面并且3’端可用于聚合酶延伸。由于模板阵列上的均匀分散的引物和接受体阵列上的条形码寡核苷酸都可以栓系至其各自的表面，因此可以保持转移的特征的相对位置(以镜像形式)。为了实现密切接触并因此在整个芯片区域上均匀转移，可以使用宽范围的表面材料(PDMS、聚丙烯酰胺)、厚度和工艺条件。图3示出了在大的(约150μm)阵列特征上如本文所述的面对面酶促转移过程的实例。面对面转移的效率可能导致每个拷贝的阵列特征内的寡核苷酸密度降低。本领域技术人员可以理解，可以通过例如改变凝胶转移条件，例如酶、过程温度和时间、引物长度或表面材料性质的选择来优化转移条件。或者，可以使用经由固相PCR(例如，桥式PCR)的转移后表面扩增来使条形码密度增加至如本文所述的所需水平。

寡核苷酸固定化转移(OIT)

在一些情况下，通过非酶促转移来进行接受体阵列的生成。非酶促转移的一种形式是寡核苷酸固定化转移(OIT)。在OIT中，模板阵列上的模板核酸(例如，寡核苷酸)可以是单链的。包含与模板寡核苷酸的一部分互补的序列的引物可以与该模板寡核苷酸杂交并通过引物延伸而延伸，以便生成并可以在模板阵列上制备双链模板寡核苷酸。用于引物延伸的引物可以在溶液中。许多聚合酶可以用于OIT，包括PolI、PolII、PolIII、Klenow、T4DNAPol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion及其他。在一些情况下，用于引物延伸的引物包含连接体，该连接体用于固定或结合接受体阵列表面上通过引物延伸(见图17)生成的双链模板寡核苷酸的链。该接受体阵列表面可以是如本文提供的平坦表面、珠子或凝胶。在一些情况下，该接受体阵列表面是在OIT期间形成的聚丙烯酰胺凝胶(如图18中所示)。在一些情况下，在延伸后，该连接体可以结合至接受体阵列表面。该接受体阵列表面可以是如本文提供的任何阵列表面，如聚合物凝胶或修饰的玻璃表面。在OIT中，随后可以将该模板和接受体阵列表面分离。可以在分离前使DNA(即，双链模板寡核苷酸)解链。

在一些情况下，OIT中使用的引物是5’-acrydite修饰的引物。5’-acrydite修饰的引物可以能够在如本文提供的聚合期间并入到聚合物凝胶(例如，聚丙烯酰胺)中。然后可以采用该acrydite引物生成来自模板核酸(例如，寡核苷酸)的延伸产物，使该延伸产物与经结合处理(例如，未聚合的聚丙烯酰胺涂料前体)的基底接触，在聚合期间并入，并分离(说明见图19)。该引物可以是5'-己炔基-聚T-DNA。在一些情况下，通过互补的5'-己炔基-聚T-DNA引物的结合和延伸生成来自模板核酸的引物延伸产物。在延伸后，可以将该5'-己炔基-聚T-DNA引物：1.)与经结合处理的基底(如采用硅烷处理的玻璃)接触，2.)与交联剂例如同双功能连接体如1,4-亚苯基二异硫氰酸酯(PDITC)连接，3.)使用PEG连接体与N3结合基团连接(例如，图20)，4.)在N3基团处键合至基底(例如，图21)，以及5.)在OIT的第二阶段期间分离(图18)。图22和图23示出了核酸的PDITC-N3附接的实例。该表面可以是如本文讨论的任何表面。可以代替PDITC使用的其他交联剂可以包括辛二亚氨酸二甲酯(DMS)、二琥珀酰亚胺基碳酸酯(DSC)和/或二琥珀酰亚胺基草酸酯(DSO)。该过程可以保留寡核苷酸的朝向，即，如果5’端结合至模板阵列表面，则合成的寡核苷酸的5’端将结合至接受体阵列表面，或者反之亦然。尽管可以在转移之前使用酶促延伸，但转移自身可以在没有酶促反应的情况下进行。

图23示出了荧光标记的模板阵列的图片，其中模板分子具有结构5'CAGAAGACGGCATACGAGAT_GACTGGAGTTCAGACGTGTGCTCTTCC_GTGTAGATCTCGGTGGTCGCCGTA-3'T*―(HEG)₂―(基底表面)。在成像前，使该阵列与在4X SSC缓冲液中的500nM QC FC2-Cy3在55℃下杂交60分钟。图24示出了同一模板阵列的区域的放大视图。图25示出了同一模板阵列以及非酶促转移后的接受体转移阵列。模板核酸与Acr-FC1(例如，5’Acrydite-TTTTTTTTTTAATGATACGGCGACCACCGAGAUCTACAC)引物杂交并用Bst聚合酶延伸，然后并入到接受体转移阵列基底上的聚合物凝胶中并与模板阵列分离。该模板阵列的转移后的信号没有显示明显下降，而转移阵列在10x曝光下显示小信号。图26示出了转移前后模板阵列的并排比较。可以看出，模板阵列的转移后的信号没有明显下降。图27示出了非酶促转移(OIT)后的接受凝胶表面。在左侧，在凝胶表面上探测通过与模板杂交、延伸以及随后固定化而获得的所需链。另外，在右侧，模板链也在OIT期间被转移至接受凝胶表面，推测可能是通过从模板阵列上物理脱离。值得注意的是，模板链的物理转移比延伸引物的固定化更强。图28示出了凝胶图像之间的曝光设置的比较，其中一个采用10x2S 2bin而另一个采用10x 0.5s 1bin。

在一些情况下，可以在没有酶促转移的情况下生成具有5’至3’朝向的寡核苷酸阵列。例如，模板寡核苷酸阵列上的合成核酸序列的未结合端可以包含与在该寡核苷酸的阵列结合端处或该结合端附近的序列互补的连接体序列，从而使该寡核苷酸环化。该寡核苷酸可以进一步在相同末端处包含限制性序列。环化的寡核苷酸上的限制性序列的消化起到翻转含有连接体序列的全长寡核苷酸并切断该阵列上缺乏连接体序列的任何部分长度的寡核苷酸产物的作用。可以使用许多限制酶及其相关的限制酶切位点，包括但不限于EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、Sau3AI、PvuII、SmaI、HaeIII、HgaI、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI和XbaI。

用于寡核苷酸阵列转移方法的表面

用于如本文提供的转移方法的表面(例如，模板表面和/或接受体表面)可以包含一系列可能的材料。在一些情况下，该表面包含在基底上的聚合物凝胶，如聚丙烯酰胺凝胶或PDMS凝胶。在一些情况下，该表面包含没有基底支持物的凝胶。在一些情况下，该表面包含在基底上的薄涂层，如聚合物的200nm以下的涂层。在一些情况下，该表面包含未涂覆的基底，如玻璃或硅。

该涂层和/或凝胶可以具有一定范围的厚度或宽度。该凝胶或涂层可以具有约0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有小于0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有大于0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有至少0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有至多0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有0.0001至200mm、0.01至20mm、0.1至2mm或1至10mm的厚度或宽度。该凝胶或涂层可以具有约0.0001至约200mm、约0.01至约20mm、约0.1至约2mm或约1至约10mm的厚度或宽度。在一些情况下，该凝胶或涂层包含约10微米的宽度或厚度。

凝胶和涂层可以另外包含用于修饰其物理化学性质例如疏水性的组分。例如，聚丙烯酰胺凝胶或涂层可以在其聚合物结构中包含修饰的丙烯酰胺单体，如乙氧基化的丙烯酰胺单体、磷酰胆碱丙烯酰胺单体和/或甜菜碱丙烯酰胺单体。

凝胶和涂层可以另外包含标志物或允许标志物并入的反应性位点。标志物可以包括寡核苷酸。例如，可以在聚丙烯酰胺凝胶或涂层的聚合过程中添加5’-acrydite修饰的寡核苷酸。用于并入标志物的反应性位点可以包括溴乙酰基位点、叠氮基、与叠氮基-炔Huisgen环加成相容的位点或其他反应性位点。可以将标志物以受控的方式并入到聚合物涂层中，其中特定的标志物位于该聚合物涂层的特定区域。可以将标志物随机并入到聚合物涂层中，由此特定的标志物可以随机地分布在整个聚合物涂层中。

在一些情况下，具有凝胶涂层的表面可以如下制备：将载玻片清洗(例如，用NanoStrip溶液)、漂洗(例如，用去离子水)并干燥(例如，用N₂)；将该载玻片表面用丙烯酰胺单体功能化；制备硅烷化溶液(例如，在乙醇和水中的5体积％(3-丙烯酰氨基丙基)三甲氧基硅烷)；将该载玻片浸没在硅烷化溶液中(例如，在室温下5小时)，漂洗(例如，用去离子水)，并干燥(例如，用N₂)；制备12％丙烯酰胺凝胶混合物(例如，5mL H₂O，1mg明胶，600mg丙烯酰胺，32mg双丙烯酰胺)；制备6％丙烯酰胺凝胶混合物(例如，50μL 12％丙烯酰胺凝胶混合物，45μL去离子水，5μL5’-acrydite修饰的寡核苷酸引物(1mM)，涡旋混合)；使6％丙烯酰胺凝胶混合物活化(例如，每100μL凝胶混合物分别添加1.3μL的5％过硫酸铵和1.3μL的5％TEMED并涡旋)；将凝胶混合物施加至表面(例如，硅烷化功能化的载玻片表面)，使其均匀分布(例如，通过用盖玻片按压或通过旋涂)，并使其聚合(例如，在室温下20分钟)。

寡核苷酸阵列扩增和再生

在一些情况下，阵列(例如，模板和/或接受体)上每个特征中的阵列组分(例如，核酸、寡聚物)的数目可以通过一种被称为扩增特征再生或AFR的过程来扩增或再生。如果模板阵列上的阵列组分已经利用本文提供的阵列转移方法(例如ETS或OIT)变得耗尽(例如，由于转移过程中的损失)，则对于该模板或接受体阵列，AFR可能是期望的。如果接受体阵列上的阵列组分的数目较低(例如，由于从具有低密度或小数目的阵列组分的模板阵列转移)，则对于该接受体阵列，扩增可能是期望的。例如，图29示出了在酶促转移中使用并随后通过50-70次扩增循环来扩增的模板阵列。

可以通过在模板和/或接受体聚合物(例如，寡核苷酸)上使用衔接子序列来辅助扩增(例如，通过AFR)。除了一种或多种衔接子序列之外，该模板和/或接受体聚合物(例如，寡核苷酸)还可以包含所需的最终序列。例如，模板和/或接受体聚合物可以按顺序包含具有第一衔接子序列的3’端、具有第二衔接子序列的5’端以及在中间的所需最终序列。第一和第二衔接子序列可以是相同的或可以是不同的。在一些情况下，在同一阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及最终序列，而在不同阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及不同的最终序列。在接受体阵列上的引物可以与衔接子序列互补，这可以允许引物与模板聚合物(例如，寡核苷酸)之间的杂交。这样的杂交可有助于阵列的扩增或再生。偶联至阵列的引物(例如，寡核苷酸)可以是一般的引物，例如，通用或随机引物，或靶标特异性引物。

阵列(例如，模板或接受体)组分的扩增(例如，通过AFR)可以酶促发生。例如，如果该阵列(例如，模板和/或接受体)组分包含寡核苷酸，则扩增可以通过核酸扩增反应如聚合酶链反应(PCR)、桥式扩增、桥式PCR、等温PCR、等温桥式扩增、等温桥式PCR、连续流PCR、重组酶聚合扩增(RPA)或其他反应而发生。所用的酶可以包括多种酶，如PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab或其他聚合酶；解旋酶；重组酶；或其他酶。

阵列(例如，模板和/或接受体)上偶联的聚合物(例如，核酸、寡核苷酸)的强度或密度可以通过扩增来恢复。阵列(例如，模板和/或接受体)上偶联的聚合物(例如，核酸、寡核苷酸)的强度或密度可以通过扩增而增加至超过其初始值。阵列(例如，模板和/或接受体)斑点可以在扩增期间扩大。例如，在28次扩增循环期间，桥式扩增或桥式PCR可以导致核酸分子扩大或移行50-100nm。

阵列表面可以包含障碍物，以防止阵列组分扩增超出其单独的特征边界。障碍物可以包含物理边界、反应边界或其他边界。可以通过表面偶联的特征(例如，核酸或其他聚合物)的激光消融来制备边界。可以通过光激活的保护性基团来制备边界；例如，可以将光激活的保护性基团与整个阵列上的核酸偶联，随后可仅将所需的区域去保护。

在一些情况下，可以通过标准手段生成模板寡核苷酸阵列，并可以从该模板生成作为互补或接受体阵列的多个接受体转移寡核苷酸阵列。接受体阵列可以采用本文提供的面对面转移过程(例如，ETS或OIT)来生成。这可以导致制备成本降低。在一些情况下，可以从每个模板寡核苷酸阵列生成至少5、10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、100,000、200,000、500,000个互补阵列或接受体阵列。例如，图30示出了在如本文提供的面对面酶促凝胶转移(即，ETS)之后，在转移前(左侧)和五次转移后(右侧)的模板阵列的图像。每个互补阵列可以产生与该模板阵列上的至少50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.9％或100％的模板分子互补的寡核苷酸探针。

接受体转移寡核苷酸阵列可以包含比通过标准手段制备的阵列更加酶促有利的环境，因此使得更宽范围的反应能够在该阵列表面之上或附近进行。例如，接受体转移阵列可以包含聚合物凝胶或涂层如聚丙烯酰胺，其可能比未涂覆的表面如玻璃或硅更加有利于酶活性。

可以制备包含3’端朝上的寡核苷酸的接受体转移寡核苷酸阵列。这可以为杂交提供降低的空间位阻。这还可以提供对包括合成测序或基因分型(例如，SNP检测)在内的进一步延伸有用的构型的寡核苷酸。

可以生成具有非常长的寡核苷酸(例如，大于50个碱基对)的接受体转移寡核苷酸阵列。虽然非常长的寡核苷酸的合成可能导致非常少的全长寡核苷酸产物，但本公开内容中描述的组合物和方法可以生成主要包含或仅包含全长寡核苷酸的接受体转移阵列。

在一些情况下，本公开内容中描述的组合物和方法可以提供具有高分辨率、5’至3’朝向的限定(即，非随机)序列并在酶相容表面上的阵列。

对于酶促转移方法，寡核苷酸的固定化可以减少阵列特征之间的交叉污染。此外，对于单链模板，可以消除转移前制备互补链的需要。

阵列表面上核酸的位置测序

在使用如本文提供的方法合成(和/或转移)寡核苷酸阵列或芯片后，可以如图1和图2中概述并在图3中描绘的，使包含核酸(“靶多核苷酸”)的样品拉伸并固定在寡核苷酸阵列的表面上。该包含核酸的样品可以是如本文提供的任何样品。该核酸可以是如本文提供的任何核酸。在一些情况下，该核酸是DNA。在一些情况下，该DNA是基因组DNA。该基因组DNA可以是染色体或染色体的片段。可以将采用本文提供的方法制备的寡核苷酸阵列用于确定多核苷酸或核酸分子如RNA、DNA、染色体及其片段的序列。这样的多核苷酸在本文中被称为模板或靶多核苷酸。在一些情况下，使靶多核苷酸在采用本文提供的方法生成的寡核苷酸阵列上拉伸。该阵列上的寡核苷酸可以包含如本文所述的位置条形码。该寡核苷酸阵列可以是模板或接受体阵列。在一些情况下，在使靶多核苷酸在寡核苷酸阵列(例如，模板或接受体阵列)上拉伸之前，对其进行处理。

靶多核苷酸处理

在一些情况下，在使靶多核苷酸在如本文提供的寡核苷酸阵列上拉伸之前对其进行处理包括从样品中分离或提取靶多核苷酸。该样品可以是如本文提供的任何样品。可以采用本领域已知的用于提取Mb长DNA的任意方法，例如，Zhang,M.等人,Preparation ofmegabase-sized DNA from a variety of organisms using the nuclei method foradvanced genomics research.Nature protocols 7,467-478,(2012)中描述的方法，该文献的公开内容通过引用以其全文并入本文。在一个实例中，可以使用BioRad MammalianGenomic DNA Plug试剂盒。简言之，洗涤柱塞(plug)，将琼脂糖熔融并随后用β-琼脂糖酶消化。一旦分离，可以如下所述进一步处理待用于本文提供的方法的靶多核苷酸。

在一些情况下，进一步处理从样品中分离的靶多核苷酸，使得引物(例如，寡核苷酸)结合位点添加至该靶多核苷酸。例如，如图31和图32所示，可以将通用引物结合位点并入到模板核酸分子3102、3202中。引物结合位点为可以包含与引物中的限定序列互补的序列的核酸区域。包含限定序列的引物可以是与如本文提供的模板或接受体阵列结合的寡核苷酸。该限定序列可以是衔接子序列。该限定序列可以是通用序列。模板核酸中的引物结合位点可用于使包含该引物结合位点的模板核酸与包含与该引物结合位点互补的序列的引物偶联或结合。结合阵列的引物的限定序列(例如，衔接子或通用的)可以能够与包含互补引物结合位点的模板核酸直接偶联，诸如通过与模板核酸内的引物结合位点序列杂交。结合阵列的引物的限定序列(例如，衔接子或通用的)可以能够与模板核酸间接偶联，诸如通过与互补于游离引物中的限定序列的引物结合位点序列杂交，同时该游离引物可以能够与模板核酸杂交。在一些情况下，引物以确定的间隔杂交。在其他情况下，引物以随机的间隔杂交。引物(例如，与阵列结合的或非阵列结合的)优选以沿着靶多核苷酸至少50、100、200、300、400、500、1,000、1,200、1,400、1,600、1,800或2,000个碱基对的间隔与该靶多核苷酸杂交。引物(例如，与阵列结合的或非阵列结合的)可以与靶多核苷酸上的随机序列杂交，或与采用本文提供的方法引入的、靶多核苷酸上的引物结合位点杂交。引物结合位点可以包含至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。引物结合位点可以包含至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。

在一些情况下，采用切口酶将引物(例如，寡核苷酸)结合位点添加至靶多核苷酸，随后连接该引物(例如，寡核苷酸)结合位点。该方法可以包括采用Nt.CviPII或仅在CCD位点处切割一条链的任何其他合适的切口酶对靶多核苷酸(例如，长DNA分子)进行酶切。在靶多核苷酸上产生切口后，可以用磷酸酶(例如，Next Shrimp碱性磷酸酶(rSAP))处理该靶多核苷酸的切口端，以去除5’磷酸并防止靶多核苷酸的切口端的连接。在一些情况下，靶多核苷酸的切口产生和5’磷酸的去除在单个反应中进行。例如，用Nt.CviPII和rSAP处理靶多核苷酸可以在单个反应缓冲液(即，NEBuffer 2.1,New England Biolabs)中进行。随后，可以对该酶进行热灭活，随后将引物结合位点与该切口内的靶多核苷酸的3’端连接。最后，可以将附有引物结合位点的经处理的靶多核苷酸在0.5M pH 5.5缓冲液中稀释并将其倒入拉伸储器中，以准备用于在采用本文提供的方法制备的寡核苷酸阵列上进行梳理(拉伸)。

在一些情况下，例如，如图1，102中概述和图31中示出的，可以通过转座子插入将通用引物结合位点并入到靶多核苷酸(也被称为模板核酸分子)中。优选地，沿着靶多核苷酸的长度平均每隔至少50、100、200、300、400、500、1,000、1,200、1,400、1,600、1,800或2,000个碱基对插入这样的引物结合位点。可以以不同的间隔将转座子整合到靶多核苷酸如DNA中。可以以平均约100、200、500、1000、1500或2000个碱基对插入转座子。图31示出了引物结合位点3101通过转座子插入添加至靶多核苷酸3100。该引物结合位点可以包含限定序列。该限定序列可以是通用序列、衔接子序列和/或条形码序列。该引物结合位点可以包含通用序列、衔接子序列和/或条形码序列。用于转座子的整合的方法在例如美国专利申请公开号US 2012/0208724A1中进行了描述，该专利申请的公开内容通过引用以其全文并入本文。

在一些情况下，例如如图2，202中概述的，可以通过与非基底或阵列结合的引物杂交，将通用引物结合位点并入至靶多核苷酸中。该非基底结合的引物可以被称为游离引物。该非基底结合的引物可以在溶液中。例如，如图32所示，可以使模板核酸(靶多核苷酸)3200与包含与模板核酸分子3200杂交的随机序列3201(例如，随机五聚体、随机六聚物或随机九聚体(nonomer))以及不与该模板核酸分子3200杂交的引物结合位点序列3202的游离引物接触。如本文所述，该引物结合位点可以包含限定序列。该限定序列可以是通用序列、衔接子序列和/或条形码序列。该引物结合位点可以包含通用序列、衔接子序列和/或条形码序列。用于将引物结合位点引入到如本文提供的靶多核苷酸中的游离引物中的随机序列的长度可以为至少5、6、7、8、9、10、11、12、13、14或15个碱基对。在一些情况下，该随机序列的长度可以为至多5、6、7、8、9、10、11、12、13、14或15个碱基对。在一些情况下，该随机序列的长度可以为5、6、7、8、9、10、11、12、13、14或15个碱基对。在一些情况下，该随机序列的长度可以为大于5、6、7、8、9、10、11、12、13、14或15个碱基对。在一些情况下，该随机序列的长度可以为小于5、6、7、8、9、10、11、12、13、14或15个碱基对。与阵列结合的引物可以包含与游离引物的引物结合位点序列互补并可以通过互补序列之间的结合与该游离引物的引物结合位点序列杂交的限定序列(例如，衔接子序列、通用序列和/或条形码序列)，由此间接地将模板核酸偶联至寡核苷酸阵列(模板或接受体阵列)。这种的实例在图36中示出并且在本文中进行了描述。可以采用本文所提供的任何方法生成寡核苷酸阵列。

在一些情况下，可以在靶多核苷酸上产生切口，并且可以通过引物延伸将生物素化的核苷酸添加至所得的核酸片段，由此产生在一端处或一端附近具有生物素的核酸片段。或者，使用生物素标记的随机引物(例如，随机六聚体或随机九聚体(nonomer))进行与靶多核苷酸的延伸，由此产生在一端处或一端附近具有生物素的核酸延伸产物。在任何情况下，可以通过合适的酶进行引物延伸，该酶包括聚合酶如PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion和Phi-29。例如，可以采用Bst聚合酶，通过将靶多核苷酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mMKCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。然后，可以将包含生物素的DNA分子如DNA片段或如上所述制备的DNA延伸产物与其模板DNA分子一起在拉伸基底上拉伸。

在一些情况下，可以在靶多核苷酸上产生切口，并将可逆终止核苷酸添加至所得DNA片段的3’端以防止或减少连接。在一些情况下，使用随机引物(例如，随机六聚体或随机九聚体(nonomer))在具有靶多核苷酸模板的核苷酸的存在下进行延伸，由此产生DNA延伸产物。如本文所述，随机引物可以在一端处或一端附近用生物素标记，使得延伸产生在一端处或一端附近具有生物素的DNA延伸产物。用于延伸的核苷酸可以是混合有小百分比的终止子核苷酸的天然核苷酸，由此产生在所得DNA延伸产物的3’端处具有终止核苷酸的一些延伸产物。这样的DNA延伸产物可能不大可能被连接。可以通过合适的酶进行引物延伸，该酶包括聚合酶如PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将靶多核苷酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mMTris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。dNTP可以具有小百分比的终止子核苷酸。然后，可以将DNA分子如DNA片段或如上所述制备的DNA延伸产物与其靶多核苷酸一起在拉伸基底上拉伸。

靶多核苷酸拉伸

在一些情况下，使供本文提供的方法使用的靶多核苷酸拉伸。该靶多核苷酸可以是DNA。可以通过多种方法进行拉伸，该方法包括但不限于分子梳理、转移打印、分子穿线、纳米通道、电力、磁力、光力和流体动力。可以通过方法的组合来进行拉伸。例如，分子梳理和纳米通道的使用。DNA拉伸可以是这样的过程，通过该过程，溶液中的DNA(“游离DNA”)可以被放置在储器中，并且可以将疏水涂覆的载玻片浸入到DNA溶液中并收回。虽然该过程的物理学可能尚未被完全理解，但DNA末端可以通过疏水相互作用与载玻片的表面相互作用，并且收回载玻片的过程可以产生后退弯月面，该弯月面可以用于以线性方式拉动DNA横跨表面(在表面上拉伸的标记的DNA的实例参见图31和图34)。DNA拉伸可以是高度平行的过程，其可以产生在表面或基底上拉伸的高密度堆积的DNA分子。本领域技术人员可以理解，DNA拉伸可以在多种表面上进行，并且用于在特定表面上拉伸的具体条件可以采用本领域已知的方法进行优化。该多种表面或基底可以是玻璃、硅和/或聚合物或聚合物涂覆的表面。拉伸基底可以包含特征，如微通道、纳米通道、微柱(micropost)或纳米柱(nanopost)。该拉伸基底可以与引物阵列相同或可以是单独的基底。DNA分子的大小可以在数百kb到超过1Mb的范围内。几kb至百万碱基长度的完整靶多核苷酸(例如，DNA分子)通过拉伸的固定可以提供在基因组的复杂重复区中分辨序列的能力，并且可以进一步降低与WGS有关的测序成本。拉伸可以为与模板核酸分子的杂交提供改善的可及性。拉伸可以增加模板核酸分子的线性。使核酸拉伸可增加核酸区域之间的分辨率或距离。拉伸可以将DNA的长度增加至DNA的结晶学长度的1.5倍。一旦靶多核苷酸(例如，DNA)已拉伸并结合至固体表面，则可以探测该靶多核苷酸以形成用于组装如本文所述的短NGS读取的支架。例如，如图1和图2中所示，为了准备用条形码进行的位置标记和随后的应用(例如，NGS)，可以使如本文提供的处理的靶多核苷酸(也被称为模板核酸)拉伸或伸长(103、203)。该模板核酸可以在寡核苷酸阵列(例如，模板或接受体寡核苷酸阵列)上拉伸。

虽然拉伸可以在溶液中或基底上发生，但拉伸的靶多核苷酸可以最终置于基底上或可以以伸长的方式定位在基底上。例如，图33示出了包含簇阵列斑点3301的阵列基底3300上的拉伸的核酸分子3302。在另一个实例中，图34示出了包含阵列斑点3401的二维阵列的阵列基底3400上的拉伸的核酸分子3402。该阵列基底可以是如本文所述的模板和/或接受体寡核苷酸阵列。

拉伸基底可以包含表面涂层或功能化。该表面涂层或功能化可以是疏水或亲水的。该拉伸基底可以是具有基于聚(马来酸酐)的梳状共聚物的胺衍生化的载玻片。该表面涂层可以包含聚合物涂层，如聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、亲和素、抗体、抗体片段或适体。该表面涂层或功能化可以包含用于例如将拉伸核酸的片段伸长的引物。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层和结合剂，或聚合物凝胶涂层以及引物。拉伸基底可以包含引物阵列。引物阵列在本公开内容的其他地方进一步讨论。

在一些情况下，使靶多核苷酸经历分子梳理(也被称为DNA梳理或染色体梳理)。分子梳理法可以是如Gueroui,Z.,Place,C.,Freyssingeas,E.&Berge,B.Observation byfluorescence microscopy of transcription on single combed DNA.Proceedings ofthe National Academy of Sciences of the United States of America 99,6005-6010,(2002)，或Bensimon,A等人,Alignment and sensitive detection of DNA by amoving interface.Science 265,2096-2098,(1994)，或Michalet,X.等人,Dynamicmolecular combing:stretching the whole human genome for high-resolutionstudies.Science 277,1518-1523,(1997)，或Allemand等人,1997,Biophysical Journal73:2064-2070中描述的一种，上述每篇文献的公开内容均通过引用以其全文并入本文。可以使核酸(例如，DNA)链末端与基底键合，例如与基底(例如，硅烷化的玻璃板)上的可离子化基团键合。核酸(例如，DNA分子)与基底的键合可以在特定pH，如低于可离子化基团的pKa的pH下完成。可以通过使溶液的后退弯月面在整个基底上移动来梳理和拉伸溶液中的核酸分子(例如，DNA分子)。可以通过相对于拴系的分子末端拉动的后退弯月面来使核酸(例如，DNA)拉伸。拉伸的程度可能与核酸(例如，DNA)的长度无关。在一些情况下，拉伸的核酸(例如，DNA)每1μm包含约2kb。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过转移打印来实现。转移打印法可以是如Zhang等人,2005,Langmuir 21:4180-4184中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以通过采用分子梳理的拉伸，在印章(stamp)如PDMS印章上制备和比对拉伸的核酸。可以通过例如以氨基为末端的表面修饰将印章上拉伸的核酸锚定或键合至表面。可以使用接触或转移打印将比对的核酸从印章转移至表面。在一些情况下，弯月面速度可以影响表面上的核酸密度。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过分子穿线来实现。分子穿线法可以是如Payne等人,2013,PLoS ONE 8:e69058中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将溶液中核酸分子(例如，DNA分子)的小滴定位于表面附近。可以使用探针如PMMA处理的玻璃针抓取溶液中的单个核酸分子(例如，DNA分子)。然后可以将探针从溶液中拉出，使关联的核酸分子(例如，DNA分子)拉伸。然后可以使拉伸的核酸分子(例如，DNA分子)沉积在表面上。在一些情况下，可以将拉伸的核酸分子(例如，DNA分子)相隔小于或等于约100nm放置。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过使用纳米通道进行。通过使用纳米通道进行的拉伸可以如Reisner等人,2012,Rep.Prog.Phys.,75(10):106601或美国专利号7,670,770中所述，这些文献的公开内容分别通过引用以其全文并入于此。纳米通道的宽度、高度、直径或流体动力学半径可以为约200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10nm。纳米通道可以在包括聚合物、玻璃和硅在内的材料中形成。由于自回避作用，核酸分子(例如，DNA分子)在被限制在纳米通道中时，可以拉伸开。核酸(例如，DNA)在纳米通道中的延伸或拉伸可能依赖于核酸(例如，DNA)溶液的离子强度。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过使用纳米结构来进行。通过使用纳米结构进行的拉伸可以如美国专利号RE42315中所述，该专利的公开内容通过引用以其全文并入于此。基底上的纳米结构可以包括纳米槽，并且该基底可以具有悬浮在其上的脂双层。核酸分子(例如，DNA分子)可以被驱使通过该膜进入槽中并拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过磁力(如磁性镊子)进行。磁力法可以是如Haber和Wirtz,2000,Rev.Sci.Instrum.71:4561中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将核酸分子(例如，DNA分子)连接至磁性颗粒或珠子，随后可以通过施加的磁场对其进行操纵。例如，当核酸分子的一端连接至磁性颗粒并且该分子的另一端连接或栓系至基底时，可以使用施加的磁力来使该核酸分子(例如，DNA分子)拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过光力(如光学镊子)进行。光力法可以是如Wang等人,1997,Biophysical Journal,72(3):1335-1346中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将核酸分子(例如，DNA分子)连接至颗粒或珠子，随后可以通过光学陷阱对其进行操纵。例如，当核酸分子的一端连接至捕获的颗粒并且该分子的另一端连接或栓系至基底时，可以使用光阱力使该核酸分子(例如，DNA分子)拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过电场进行。电场法可以是如Ferree和Blanch,2003,Biophysical Journal,85(4):2539-2546中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以例如通过生物素-链霉亲和素结合或其他方法将核酸分子(例如，DNA分子)栓系至基底。然后可以用施加的电场产生使分子拉伸的力。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过流体动力进行。流体动力法可以是如Kim等人,2007,Nature Methods,4:397-399中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以例如通过生物素-链霉亲和素结合或其他方法将靶多核苷酸栓系至基底。围绕靶多核苷酸的流体流动可以提供使分子拉伸的力。

在一些情况下，靶多核苷酸可以在拉伸基底上拉伸并随后与引物阵列(例如，模板和/或接受体寡核苷酸阵列)接触。或者，靶多核苷酸可以直接在引物阵列(例如，模板和/或接受体寡核苷酸阵列)上拉伸。

在一些情况下，使用分子梳理使靶多核苷酸在如本文提供的寡核苷酸阵列(例如，模板和/或接受体寡核苷酸阵列)上拉伸。该靶多核苷酸可以是来自如本文提供的任意模板核酸来源的任意模板核酸。可能存在多个影响DNA与阵列结合的变量。两个关键变量可能是载玻片表面特性和缓冲液的化学组成。本领域技术人员将理解，改变不同的参数如表面性质以优化寡核苷酸芯片或阵列上的分子梳理可能是期望的。在一些情况下，将乙烯基功能化的载玻片用于分子梳理。表面特性可以是如Allemand,J.F.,Bensimon,D.,Jullien,L.,Bensimon,A.&Croquette,V.pH-dependent specific binding and combing ofDNA.Biophys J 73,2064-2070,(1997)中描述的影响DNA梳理的因素，该文献的公开内容通过引用以其全文并入本文。在一些情况下，靶多核苷酸的分子梳理在氨基-硅烷和乙烯基-硅烷涂覆的载玻片上进行。在一些情况下，模板寡核苷酸阵列向如本文所述的接受体阵列的面对面酶促凝胶转移在已经用乙烯基-硅烷或氨基-硅烷处理的功能化的PDMS上进行。在一些情况下，模板寡核苷酸阵列向如本文所述的接受体阵列的面对面酶促凝胶转移在已经用乙烯基-硅烷或氨基-硅烷处理的功能化的丙烯酰胺表面上进行。可以采用如Seiffert,S.&Oppermann,W.Amine-Functionalized Polyacrylamide for Labeling andCrosslinking Purposes.Macromolecular Chemistry and Physics 208,1744-1752,(2007)中描述的各种修饰的单体对丙烯酰胺进行功能化，该文献的公开内容通过引用以其全文并入本文。

此外，本领域技术人员将理解，针对如本文提供的分子梳理来优化表面处理并由此允许酶接近靶多核苷酸可能是期望的。在一些情况下，靶多核苷酸的拉伸常数在表面上降低，以便获得更高的聚合酶效率。该表面可以是已经用乙烯基-硅烷或氨基-硅烷处理的功能化的PDMS。该表面可以是已经用乙烯基-硅烷或氨基-硅烷处理的功能化的丙烯酰胺表面。

固定

本公开内容提供了用于将核酸固定在基底上的方法和组合物。任选地，可以使用固定来帮助从模板核酸(“靶多核苷酸”)分离延伸或扩增产物。在一些情况下，将靶多核苷酸固定至固定基底上。

许多不同的材料适合用作固定基底。该固定基底可以包含玻璃、硅、聚合物(例如，聚丙烯酰胺、PMMA)或金属。该固定基底可以包含物理特征，如微通道或纳米通道。

固定基底可以包含表面涂层或功能化。该表面涂层或功能化可以是疏水或亲水的。该表面涂层可以包含聚合物涂层，如聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、亲和素、抗体、抗体片段或适体。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层以及结合剂。

在一些情况下，可以在靶多核苷酸上产生切口，并且可以通过引物延伸将生物素化的核苷酸添加至所得的核酸片段，由此产生在一端处或一端附近具有生物素的核酸片段。或者，使用生物素标记的随机引物(例如，随机六聚体或随机九聚体(nonomer))进行与核酸分子模板的延伸，由此产生在一端处或一端附近具有生物素的核酸延伸产物。在任何情况下，可以通过合适的酶进行引物延伸，该酶包括聚合酶如PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。在一些情况下，靶多核苷酸是包含生物素的DNA分子。然后，可以将包含生物素的DNA分子如DNA片段或如上所述制备的DNA延伸产物与其模板DNA分子一起在拉伸基底上拉伸。然后，可以使拉伸基底上的DNA与固定基底接触。该固定基底可以包含结合剂，如亲和素或链霉亲和素。该生物素可以用于通过亲和素或链霉亲和素结合将DNA分子结合至固定基底。可以通过使用热或其他变性方法将拉伸基底与固定基底分离。然后可以使固定基底与包含如本公开内容中描述的位置编码的引物(寡核苷酸)的引物基底(例如，如本文提供的寡核苷酸阵列)接触。可以将引物连接至固定基底上的DNA片段或DNA延伸产物，以用条形码编码位置信息，或者添加对测序文库构建有用的衔接子。

在一些情况下，可以在DNA分子上产生切口，并将可逆终止核苷酸添加至所得DNA片段的3’端以防止或减少连接。在一些情况下，使用随机引物(例如，随机六聚体或随机九聚体(nonomer))在具有靶多核苷酸模板的核苷酸的存在下进行延伸，由此产生DNA延伸产物。如本文所述，随机引物可以在一端处或一端附近用生物素标记，使得延伸产生在一端处或一端附近具有生物素的DNA延伸产物。用于延伸的核苷酸可以是混合有小百分比的终止子核苷酸的天然核苷酸，由此产生在所得DNA延伸产物的3’端处具有终止核苷酸的一些延伸产物。这样的DNA延伸产物可能不大可能被连接。可以通过合适的酶进行引物延伸，该酶包括聚合酶如PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mMTris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。dNTP可以具有小百分比的终止子核苷酸。然后，可以将DNA分子如DNA片段或如上所述制备的DNA延伸产物与其模板DNA分子一起在拉伸基底上拉伸。然后，可以使拉伸基底上的DNA与固定基底接触。该固定基底可以包含结合剂，如亲和素或链霉亲和素。该生物素可以用于通过亲和素或链霉亲和素结合将DNA分子结合至固定基底。可以通过使用热或其他变性方法将拉伸基底与固定基底分离。然后可以使固定基底与包含如本公开内容中描述的位置编码的引物的引物基底接触。可以将引物连接至固定基底上的DNA片段或DNA延伸产物，以用条形码编码位置信息，或者添加对测序文库构建有用的衔接子。

延伸反应

一旦如本文提供的将靶多核苷酸得到分离并处理，则可以从该靶多核苷酸生成位置条形码化的延伸产物。在一些情况下，如图1和图2所概述的，使如本文提供的经处理的靶多核苷酸在拉伸基底上拉伸并在经历引物延伸反应之前与引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物接触。

如图35所示，可以使包含凝胶表面涂层3502的引物基底3500与包含拉伸的靶多核苷酸的拉伸基底3501接触。或者，可以使靶多核苷酸拉伸，固定在固定基底上，并与引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物接触。或者，可以直接使靶多核苷酸在引物阵列(例如，模板和/或接受体寡核苷酸阵列)基底上拉伸。引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物可以与采用本文提供的方法引入到靶多核苷酸中的引物结合位点杂交。

可以进行延伸反应以采用靶多核苷酸的区段作为模板延伸与靶多核苷酸杂交的引物。该靶多核苷酸可以是拉伸的靶多核苷酸。与该靶多核苷酸(例如，拉伸的多核苷酸)杂交的引物可以是非基底结合的(例如，游离于溶液中的)或基底结合的。在一些情况下，如图1和图2概述的，采用与引物阵列(例如，模板和/或接受体寡核苷酸阵列)结合的引物进行延伸反应，以生成包含与靶多核苷酸的区段互补的序列的位置编码的延伸产物(106、206)。所得延伸产物可以保持与该引物阵列(例如，模板和/或接受体寡核苷酸阵列)结合。所得延伸产物可以包含PCR引物位点，条形码序列，和存在于原始的与阵列结合的引物中的衔接子序列，以及与靶多核苷酸的区段互补的序列。

在一些情况下，引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物(例如，寡核苷酸)在采用本文提供的方法引入到靶多核苷酸中的引物结合位点处与拉伸的靶多核苷酸杂交或偶联。可以使用杂交或偶联的引物(例如，寡核苷酸)进行延伸反应。图36示出了采用引物阵列(例如，模板和/或接受体寡核苷酸阵列)生成与靶多核苷酸互补的延伸产物的多步过程，其中该引物阵列采用本文提供的方法生成。在第一步中，使非阵列结合的引物3622与靶多核苷酸杂交，可以在杂交之前采用本文所提供的任意方法使该靶多核苷酸拉伸。可以通过非阵列结合的引物3622上的随机序列3613以及靶多核苷酸3630上与该随机序列3613互补的序列来促进非阵列结合的引物3622与靶多核苷酸之间的杂交。这与图32中示出的方法类似。杂交后，可以采用靶多核苷酸3630作为模板，利用本文提供的任意聚合酶来延伸杂交的非阵列结合的引物3622，以便生成与该靶多核苷酸3630互补的延伸产物。非阵列结合的引物3622可以进一步包含引物结合位点3612，使得引物结合位点3612不与靶多核苷酸杂交。引物结合位点3612可以包含限定序列。该限定序列可以是通用序列、衔接子序列、PCR引物序列和/或条形码序列。引物结合位点3612可以包含通用序列、衔接子序列、PCR引物序列和/或条形码序列。该条形码序列可以以本文所述的方式编码位置信息。在一些情况下，所使用的聚合酶包含链置换活性。在一些情况下，所使用的聚合酶不包含链置换活性。可以使延伸产物与包含引物区3610、3620的引物阵列(例如，模板和/或接受体寡核苷酸阵列)3600接触。每个引物区均可包含与引物阵列3600在引物区3610、3620中的一个处结合的引物(例如，寡核苷酸，3621)。每一个与阵列结合的引物(例如，寡核苷酸；3621)均可以包含与引物结合位点3612互补的序列3611，并且可因此在与引物结合位点3612杂交时将提供的延伸产物栓系至基底，以生成如图36所示的与阵列结合的延伸产物3614。或者，在图36中的延伸反应期间，可以发生从游离引物到靶多核苷酸的模板转换，从而允许延伸产物并入与靶多核苷酸的区段互补的序列。

在一些情况下，从与靶多核苷酸偶联的与阵列结合的引物生成延伸产物，其中该靶多核苷酸包含通过如本文提供的转座子插入引入的引物结合位点。例如，图37示出了包含引物区3710、3720的引物基底3700。引物区3710和3720中的每一个均包含结合至引物基底3700的引物(例如，寡核苷酸)，使得每一个引物(例如，寡核苷酸)均能够与拉伸的靶多核苷酸3730在引物结合位点3731处结合，所述引物结合位点如本文所述并且如图31中示出，采用转座子并入到靶多核苷酸3730中。随后，将杂交或偶联的引物(例如，寡核苷酸)延伸，以生成与阵列结合的延伸产物3712。引物结合位点3731可以包含限定序列。该限定序列可以是通用序列、衔接子序列、PCR引物序列和/或条形码序列。引物结合位点3731可以包含通用序列、衔接子序列、PCR引物序列和/或条形码序列。该条形码序列可以以本文所述的方式编码位置信息。

可以用酶如本文提供的任何DNA聚合酶进行延伸反应。该聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mMTris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行延伸反应。可以用逆转录酶进行延伸反应。在一些情况下，模板核酸包含RNA，并且酶延伸反应使用RNA作为模板使引物延长。采用与阵列结合的引物和靶多核苷酸进行延伸反应可以生成与阵列结合的延伸产物，该延伸产物包含模板核酸序列或其互补体的一部分以及如本文提供的条形码标签序列。

在一些情况下，从在如本文提供的阵列上的、与靶多核苷酸偶联的与阵列结合的引物生成延伸产物，该靶多核苷酸包含通过采用切口酶在靶多核苷酸上产生切口并随后附加引物结合位点而引入的引物结合位点。该切口酶可以是如本文提供的任意切口酶。在一些情况下，该切口酶是Nt.CviPII。可以通过连接进行该引物结合位点的附加。连接可以是如本文所述的任何连接方法。靶多核苷酸的拉伸可以是本文提供的任何拉伸方法。在一些情况下，采用分子梳理使靶多核苷酸拉伸。可以采用分子梳理使包含附加的引物结合位点的靶多核苷酸在寡核苷酸阵列上拉伸，使得一个或多个引物结合位点包含与寡核苷酸阵列上的寡核苷酸互补的序列。可以通过本文提供的方法制备寡核苷酸阵列。寡核苷酸阵列可以是模板或接受体阵列。可以采用如本文提供的转移方法生成接受体阵列。转移方法可以是如本文提供的面对面酶促转移方法。在一些情况下，在寡核苷酸阵列上拉伸的靶多核苷酸上的引物结合位点与包含互补序列的寡核苷酸结合，使得包含结合的引物结合位点的靶多核苷酸的链充当模板以采用聚合酶延伸包含互补序列的寡核苷酸，由此生成与阵列结合的双链靶多核苷酸。例如，图38示出了包含通过切口酶和引物结合位点的附加而引入的引物结合位点且随后在如通过本文提供的方法制备的寡核苷酸阵列上拉伸的靶多核苷酸。图38步骤a)示出了固定的寡核苷酸，其包含在寡核苷酸阵列上的、与在整个寡核苷酸阵列上拉伸的靶多核苷酸(拉伸的DNA)杂交的条形码(密码/密码’)。可以通过使用分子梳理进行靶多核苷酸的拉伸。该条形码可以是如本文提供的位置条形码。图38步骤b)示出了靶多核苷酸(拉伸的DNA)的延伸以及由此的拷贝，从而产生固定在寡核苷酸阵列上的双链靶多核苷酸(dsDNA)(图38步骤c)。可以在可用于视觉确认聚合酶延伸的修饰的核苷酸(用荧光团标记)的存在下，用热稳定酶—Vent exo^-聚合酶进行引物延伸。然而，本领域技术人员可以理解，可以使用如本文提供的任何合适的聚合酶。在一些情况下，使用包含链置换性质的聚合酶。该链置换聚合酶可以是Vent exo^-聚合酶以及phi29和Bst。图38步骤d)示出了该双链靶多核苷酸的片段化，随后为末端修复。在一些情况下，可以通过本领域已知的方法实现片段化。可以通过物理片段化方法和/或酶片段化方法进行片段化。物理片段化方法可以包括雾化、声处理和/或流体动力学剪切。在一些情况下，可以机械地实现片段化，包括使核酸经受声处理。在一些情况下，该片段化包括在适合于一种或多种酶在双链核酸中产生断裂的条件下，用该一种或多种酶处理核酸。对核酸片段的生成有用的酶的实例包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例包括DNA酶I、片段化酶(Fragmentase)、限制性内切核酸酶、其变体及其组合。用于进行酶片段化反应的试剂是可商购的(例如，从NewEngland Biolabs)。例如，用DNA酶I消化可以包括在不存在Mg⁺⁺但存在Mn⁺⁺的情况下诱导DNA中的随机双链断裂。在一些情况下，片段化包括用一种或多种限制性内切核酸酶处理靶多核苷酸。片段化可以产生具有5’突出端、3’突出端、平端或其组合的片段。在一些情况下，诸如当片段化包括使用一种或多种限制性内切核酸酶时，靶多核苷酸的切割留下具有可预测的序列的突出端。在一些情况下，如本文所述对片段化的双链靶多核苷酸进行末端修复，由此产生平端。在一些情况下，如本文所述对片段化的双链靶多核苷酸进行末端修复，并随后如本文所述使其经历A-加尾反应。图38步骤e)示出了将衔接子附加至片段化的双链靶多核苷酸上，随后将该双链靶多核苷酸从寡核苷酸阵列上释放以用于图38步骤f)中的测序。可以通过双链靶多核苷酸从寡核苷酸阵列基底的片段化来实现该双链靶多核苷酸从寡核苷酸阵列上的释放。可以通过使用本文提供的任何方法来进行片段化。在一些情况下，与阵列结合的引物(寡核苷酸)优选地在其5’或3’端具有限制酶切位点，该位点并入到双链靶多核苷酸中并允许该双链靶多核苷酸或其部分的选择性切割和释放。在一些情况下，采用NEB片段化酶对双链靶多核苷酸进行酶切。在一些情况下，可以采用热能破坏双链靶多核苷酸与引物基底之间的键。在一些情况下，可以通过机械破坏或剪切将双链靶多核苷酸从引物基底上分离。将衔接子附加至片段化的双链靶多核苷酸上可以包括连接。可以通过本文证明的任何连接方法进行连接。在一些情况下，附加至双链靶多核苷酸上的衔接子包含与如本文提供的下一代测序平台(NGS)相容的序列。在一些情况下，该测序平台是Illumina平台。在一些情况下，附加至双链靶多核苷酸上的衔接子包含用于Illumina HiSeq 2500的Illumina引物序列。Illumina引物序列可以是第二Illumina引物。可以采用本领域已知的任何测序方法对释放的双链靶多核苷酸进行测序。在一些情况下，采用NGS方法对释放的双链靶多核苷酸进行测序。该NGS方法可以是如本文提供的任何NGS方法。

从延伸产物产生测序文库

一旦从靶多核苷酸产生延伸产物，如本公开内容中其他地方所述，该延伸产物可以直接进行测序或用来生成用于随后测序的测序文库。在一些情况下，在处理靶多核苷酸，使其在寡核苷酸阵列上拉伸以及如本文所述将拉伸的靶多核苷酸延伸之后，产生了核酸文库。如图1和图2中概述的，该核酸文库可以是可以从延伸产物产生的测序文库(107、207)。

在一些情况下，在测序之前，将通过本文所述的方法产生的延伸产物从寡核苷酸阵列上释放。这种实施方案的实例在图38的步骤f中示出。在一些情况下，可以采用热能破坏延伸产物与引物基底之间的键。在一些情况下，可以通过机械破坏或剪切将延伸产物从引物基底上分离。在一些情况下，与阵列结合的引物(寡核苷酸)优选地在其5’或3’端具有限制酶切位点，该位点并入到延伸产物中并允许该延伸产物或其部分的选择性切割和释放。在一些情况下，可以通过采用用于如本文提供的对核酸进行片段化的酶消化延伸产物来将延伸产物从寡核苷酸阵列上释放。在一些情况下，通过用限制酶消化来将延伸产物从寡核苷酸阵列上释放。该限制酶可以是本领域已知的和/或本文提供的任何限制酶。在一些情况下，使用NEB片段化酶对延伸产物进行酶切。可以调整延伸产物的酶消化的消化时间以获得选定的片段大小。在一些情况下，可以将延伸产物片段化成具有一个或多个特定大小范围的片段化延伸产物的群体。在一些情况下，该片段可以具有约10至约10,000个核苷酸或碱基对的平均长度。在一些情况下，该片段具有约50至约2,000个核苷酸或碱基对的平均长度。在一些情况下，该片段具有约100至约2,500、约10至约1000、约10至约800、约10至约500、约50至约500、约50至约250或约50至约150个核苷酸或碱基对的平均长度。在一些情况下，该片段具有少于10,000个核苷酸或bp、少于7,500个核苷酸或bp、少于5,000个核苷酸或bp、少于2,500个核苷酸或bp、少于2,000个核苷酸或bp、少于1,500个核苷酸或bp、少于1,000个核苷酸或bp、少于500个核苷酸或bp、少于400个核苷酸或bp、少于300个核苷酸或bp、少于200个核苷酸或bp或少于150个核苷酸或bp的平均长度。在一些情况下，该片段具有大约、多于、少于或至少10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个核苷酸或碱基对的平均长度。

在一些情况下，通过由本文提供的方法生成的寡核苷酸阵列上延伸产物的片段化生成的多核苷酸片段经历末端修复。末端修复可以包括生成平端、非平端(即，粘端或粘性末端)或单碱基突出端(如单个dA核苷酸通过缺乏3’外切核酸酶活性的聚合酶添加至双链核酸产物的3’端)。在一些情况下，对片段进行末端修复以产生平端，其中该片段的末端含有5’磷酸和3’羟基。可以采用本领域已知的任意数目的酶和/或方法进行末端修复。突出端可以包含大约、多于、少于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。

在一些情况下，通过本文提供的方法生成并结合至如本文提供的寡核苷酸阵列的延伸产物保持与该寡核苷酸阵列结合，并且从该结合的延伸产物生成测序文库。从通过本文提供的方法生成的与寡核苷酸阵列结合的延伸产物生成测序文库可以通过采用与阵列结合的延伸产物作为模板生成第二组延伸产物来实现。这些第二延伸产物可以包含与条形码序列互补的序列。与条形码序列互补的序列可以与原始条形码序列相关，并因此传达与原始条形码相同的位置信息。由于第二延伸产物可以与第一延伸产物的区域互补(该第一延伸产物可以与生成与阵列结合的延伸产物的靶多核苷酸互补)，因此该第二延伸产物还可以包含与靶多核苷酸的区域或区段对应的序列。

在一些情况下，通过将非基底结合的引物(即，溶液中的引物或“游离”引物)与阵列结合的延伸产物杂交并采用该阵列结合的延伸产物作为模板将杂交的非基底结合的引物延伸以生成非阵列结合的(或游离的)延伸产物，来从通过本文提供的方法生成的与寡核苷酸阵列结合的延伸产物制备测序文库。可以例如通过如本文所述的非基底结合引物的随机序列区段(例如，随机六聚体等)，将该非基底结合的引物与阵列结合的延伸产物杂交。该随机序列可以为至少5、6、7、8、9、10、11、12、13、14或15个碱基对或核苷酸。该随机序列可以为至多5、6、7、8、9、10、11、12、13、14或15个碱基对或核苷酸。游离引物可以包含PCR引物序列。PCR引物序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对或核苷酸。PCR引物序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对或核苷酸。该非基底结合的引物可以包含衔接子序列。该衔接子序列可以与本领域已知的任何测序平台相容。在一些情况下，该衔接子序列包含适用于IlluminaNGS测序方法如Illumina HiSeq 2500系统的序列。该衔接子序列可以是Y形衔接子，或双链体或部分双链体衔接子。与该阵列结合的延伸产物杂交的非基底结合的引物的延伸可以采用酶如DNA聚合酶进行。该聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4DNAPol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行延伸反应。

采用非基底结合的引物从与寡核苷酸阵列结合的延伸产物制备测序文库的实例在图39中示出。引物阵列(例如，模板和/或接受体寡核苷酸阵列)3900可以包含引物(寡核苷酸)区3910、3920，该引物区包含与阵列结合的延伸产物3913。与阵列结合的延伸产物3913可以包含PCR引物序列3911和条形码序列3912，以及与靶多核苷酸或其互补体对应的序列。可以添加非基底结合的引物以通过例如该非基底结合引物的随机六聚体或随机九聚体区段3932的结合而结合与阵列结合的延伸产物3913，并且该非基底结合的引物可以用于延伸反应。可以产生含有与阵列结合的延伸产物的部分以及条形码序列或其互补体的非阵列结合的延伸产物3931。非基底结合的引物可以包含含有限定序列的尾部区段3933，该限定序列不与阵列结合的延伸产物中的序列互补，因此不与该阵列结合的延伸产物杂交。该限定序列可以包含通用序列、衔接子序列和/或条形码序列。

通过本文提供的方法生成的非阵列结合的延伸产物(例如，如图39所示)可以包含与靶多核苷酸的区段对应的序列。即，非阵列结合的延伸产物可以包含与产生所述非阵列结合的延伸产物的与阵列结合的延伸产物的一些或全部区段互补的序列，该序列可以包含与靶多核苷酸的区段对应或互补的序列。非阵列结合的延伸产物可以包含条形码，该条形码包含与阵列结合的延伸产物的条形码序列互补的序列。通过将互补条形码序列与原始条形码序列相互关联，该互补条形码可以传达与原始条形码序列所传达的相同的位置信息。在非阵列结合的延伸产物中，可以将由条形码或互补条形码所传达的位置信息与和靶多核苷酸的区段对应的序列相互关联，由此沿着拉伸的靶多核苷酸分子的长度定位该靶多核苷酸的区段。非阵列结合的延伸产物可以包含一种或多种PCR引物序列。非阵列结合的延伸产物可以包含与产生所述非阵列结合的延伸产物的阵列结合的延伸产物中的PCR引物序列互补的PCR引物序列。非阵列结合的延伸产物可以包含来自非阵列结合的引物的PCR引物序列，该引物被延伸以生成非阵列结合的延伸产物。非阵列结合的延伸产物可以包含衔接子序列如测序衔接子。在一些情况下，附加至非阵列结合的延伸产物上的衔接子序列包含适用于Illumina NGS测序方法如Illumina HiSeq 2500系统的序列。

可以例如通过测序来扩增和/或进一步分析延伸产物(非阵列结合的或从如本文所述的寡核苷酸阵列上释放的)或其片段。该测序可以是本领域已知的任何测序方法。可以通过本领域已知或本文提供的任何扩增方法进行扩增。可以用如本文提供的任何酶进行扩增。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。扩增可以利用并入到延伸产物中的例如来自与阵列结合的引物(寡核苷酸)和非基底结合引物的PCR引物位点。可以使用扩增将衔接子如测序衔接子并入至扩增的延伸产物中。该测序衔接子可以与本领域已知的任何测序方法相容。

测序

一旦延伸产物被制备成测序文库，则可以对其进行测序。在测序前，可以通过变性、选择性切割或PCR扩增将与寡核苷酸阵列结合的制备的测序文库从该寡核苷酸阵列上释放。例如如图1和图2中概述的，可以对测序文库进行测序，并且可以通过使用位置条形码信息确定序列读取的顺序和比对(108、208)。可以将来自延伸产物的序列读取比对或组装成靶多核苷酸。可以通过由与靶多核苷酸的每个区段相关的条形码序列传达的位置信息来辅助比对或组装。可以将由条形码传达的位置信息与和靶多核苷酸的区段对应的序列相互关联，由此沿着拉伸的靶多核苷酸的长度定位该靶多核苷酸的区段。当对长核酸分子或含有长重复序列、插入、缺失、转座或其他特征的核酸分子进行测序时，位置信息的使用可能是特别有益的。

可以通过任何适当的测序技术进行测序文库的测序，该测序技术包括但不限于单分子实时(SMRT)测序、聚合酶克隆测序(Polony sequencing)、连接测序(例如，SOLiD测序)、可逆终止子测序、质子检测测序、离子半导体(例如，Ion Torrent)测序、纳米孔测序、电子测序、焦磷酸测序(例如，454)、Maxam-Gilbert测序、链终止(例如，Sanger)测序、+S测序，或合成测序(例如，Illumina HiSeq)。

可以通过如美国专利号7462452、7476504、7405281、7170050、7462468、7476503、7315019、7302146、7313308以及美国专利申请公开号US20090029385、US20090068655、US20090024331和US20080206764中描述的单分子实时(SMRT)测序(例如，PacificBiosciences)进行测序，上述每一篇文献的公开内容均通过引用以其全文并入本文。来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物可以固定在零模式波导阵列中。可以将单一DNA聚合酶固定在具有单一靶多核苷酸的零模式波导的底部。可以将荧光标记的核苷酸并入到核酸合成中，并且可以使用零模式波导在荧光染料从核苷酸上切割时检测该荧光染料。这可以允许模板核酸序列的实时逐碱基(base-by-base)测量。将荧光标记物作为核苷酸并入的一部分剪掉。在一些情况下，采用环形模板以使得能够实现单分子上的多个读取。

可以通过聚合酶克隆测序进行测序。例如，可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物剪切成长度约为1kb的链。这些链可以通过滚环扩增进行环化和扩增。可以通过例如MmelIIs限制酶来消化扩增的环化产物，从而产生侧翼是标签的T30片段。可以通过例如PCR将片段扩增并形成文库。可以通过与珠子结合的引物对文库进行乳液PCR，并且使用捕获珠子来富集具有扩增的DNA的珠子。然后可以通过离心分离珠子，将其以单层的形式结合至基底并与测序试剂接触。对荧光标记的简并九聚体进行成像，从而允许测量片段序列，并且可以组装片段序列。

在一些情况下，本文所述的方法可用于制备释放的延伸产物或文库，其插入物通过由Applied Biosystems商业化的连接测序法(例如，SOLiD测序)进行测序。可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物与聚苯乙烯珠子一起并入到油包水乳液中，并通过例如PCR进行扩增。在一些情况下，可以在油包水乳液中采用备选的扩增方法，如本文提供的任何方法。由乳液形成的每个水微滴中的扩增产物与存在于该微滴中的一个或多个珠子相互作用、结合或杂交，产生具有多个基本上一个序列的扩增产物的珠子。当破乳时，珠子漂浮至样品的顶部并被放置到阵列上。该方法可以包括使结合至珠子的核酸成为链状或部分单链的步骤。然后添加测序引物以及四种不同荧光标记的寡核苷酸探针的混合物。该探针与待测序的多核苷酸中紧邻测序引物并且位于测序引物3’的两个碱基特异性结合，以确定四种碱基中的哪些在那些位置处。在洗涤并读取来自第一并入探针的荧光信号后，添加连接酶。该连接酶在第五与第六个碱基之间切割寡核苷酸探针，从而将荧光染料从待测序的多核苷酸中去除。采用不同的测序引物重复整个过程，直到序列中所有的中间位置都成像。该过程允许以“大规模平行”方式同时读取数百万个DNA片段。这种“连接测序”技术使用编码两个碱基而不是仅编码一个碱基的探针，以允许通过信号错配进行错误识别，从而导致碱基确定准确率提高。

可以通过可逆终止子测序进行测序。例如，可以将荧光标记的可逆终止子结合的dNTP并入到从模板核酸插入物形成的核酸产物中，该模板核酸插入物来自采用本文提供的方法制备的文库或从寡核苷酸阵列释放的延伸产物。然后可以对荧光标记的终止子进行成像并切割，以允许并入和成像的另外的循环。荧光标记物可以指示并入了哪些碱基，并且可以推导出模板核酸的序列。

可以在本文所述的方法中使用的测序技术的另一个实例是由Ion Torrent提供的半导体测序(例如，采用Ion Personal Genome Machine(PGM))。Ion Torrent技术可以采用具有多层例如具有微加工孔的层、离子敏感层和离子传感器层的半导体芯片。可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物引入到孔中，例如，单个核酸的克隆群体可以附接至单个珠子上，并且可以将该珠子引入到孔中。为了启动珠子上核酸的测序，将一种类型的脱氧核糖核苷酸(例如，dATP、dCTP、dGTP或dTTP)引入到孔中。当一个或多个核苷酸通过DNA聚合酶掺入时，质子(氢离子)在孔中释放，其可以通过离子传感器检测到。然后可以洗涤半导体芯片，并可以用不同的脱氧核糖核苷酸重复该过程。可以在半导体芯片的孔中对多个核苷酸进行测序。该半导体芯片可以包含化学敏感的场效应晶体管(chemFET)阵列以对DNA进行测序(例如，如美国专利申请公开号20090026082中所述的)。可以经由chemFET的电流的变化检测一个或多个三磷酸在测序引物的3’端向新核酸链的掺入。阵列可以具有多个chemFET传感器。添加至微孔的dNTP的种类与氢离子检测之间的相互关系可以允许确定靶多核苷酸序列。

可以在本文所述的方法中使用的测序技术的另一个实例是纳米孔测序(参见例如，Soni G V和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径为1纳米数量级的小孔。将纳米孔浸没在导电流体中并在其上施加电势可以产生由于离子通过该纳米孔传导的细微电流。流过的电流的量对纳米孔的大小敏感。当来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物穿过纳米孔时，核酸插入物或释放的延伸产物上的每个核苷酸均不同程度地阻塞纳米孔。因此，核酸插入物或释放的延伸产物穿过纳米孔时穿过该纳米孔的电流变化可以代表该核酸插入物或释放的延伸产物序列的读取。

可以通过如Margulies等人,Nature(2005)437:376-380(2005)以及美国专利号7,244,559、7,335,762、7,211,390、7,244,567、7,264,929和7,323,305中描述的焦磷酸测序(例如，454)来进行测序，上述每篇文献的公开内容均通过引用以其全文并入本文。可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物固定在珠子上并在适用于PCR扩增的油包水乳液中分区。在一些情况下，可以在油包水乳液中采用除PCR外的备选扩增方法，如本文提供的任何方法。当破乳时，扩增的片段保持与珠子结合。该方法可以包括使结合至珠子的核酸成为单链或部分单链的步骤。可以将珠子富集并加载到光纤载玻片的孔中，使得每个孔中约有1个珠子。在聚合酶、硫化氢解酶和萤光素酶的存在下，使核苷酸以固定的顺序流经并流入孔中。可以将单一dNTP物质添加至反应区。dNTP的掺入可以产生焦磷酸(PPi)，焦磷酸可以被ATP硫酸化酶转化成ATP。然后ATP可以为萤光素酶提供能量以产生可以检测到的光。与靶链互补的核苷酸的添加产生化学发光信号，例如通过相机记录该信号。这允许监测所添加的dNTP物质是否被掺入，并因此允许分析靶多核苷酸。信号强度与板上产生的位置信息的组合使得软件能够确定DNA序列。

可以通过Maxam-Gilbert测序进行测序。例如，可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物在双链核酸分子的一个5’端处进行放射性标记。可以使用化学处理在小部分的核苷酸碱基处产生断裂。可以采用四种不同的反应，每一种反应在特定碱基或碱基对(例如，G、A+G、C和C+T)处产生断裂。然后可以切割核酸分子，产生在一端上具有放射标记并且长度取决于断裂位点的片段。然后可以在凝胶上分离反应产物并且根据其长度以及标记的存在对其进行分析。可以根据长度将反应产物排序，并且可以确定靶多核苷酸的序列。

可以通过链终止(例如，Sanger)测序进行测序。例如，可以将来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物用聚合酶、正常dNTP和修饰的ddNTP(如果其掺入到核酸链中会终止链伸长)进行扩增。可以对ddNTP进行标记(例如，荧光地或放射性地)。可以将单一的ddNTP物质与全部四种dNTP物质添加至模板核酸的延伸反应中。然后可以在凝胶上分离反应产物并根据其长度以及标记的存在对其进行分析。可以根据长度将反应产物排序，并且可以确定模板核酸分子的序列。

可以通过由Illumina商业化的合成测序方法进行测序，如美国专利号5,750,341、6,306,597和5,969,119中描述的。可以使来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物变性，并且可以将单链的扩增的多核苷酸随机地附接至流动池通道的内表面上。可以添加未标记的核苷酸来引发固相桥式扩增，以产生双链DNA的密集簇。为了引发第一碱基测序循环，可添加四种标记的可逆终止子、引物和DNA聚合酶。在激光激发后，对来自流动池上的每个簇的荧光进行成像。然后记录每个簇的第一碱基的身份。可以进行测序循环，从而以每次一个碱基的方式确定片段序列。

可以通过如WO2012134602中描述的+S测序进行测序，该文献的公开内容通过引用并入本文。在一些情况下，对来自采用本文所述的方法制备的文库的核酸插入物或从如本文提供的寡核苷酸阵列上释放的延伸产物进行+S测序。+S测序可能需要重复轮次的受控延伸和洗涤循环。与脉冲延伸相似，可以通过限制核苷酸的可用性或通过添加可逆终止子核苷酸来进行受控延伸。可以使用核酸聚合酶以及一组或多组核苷酸来进行受限延伸。该一组或多组通常各自包含不超过三种不同的核苷酸。在一些情况下，+S测序中采用的一组或多组核苷酸包含一到四种核苷酸并且至少一种核苷酸为可逆终止子核苷酸。可以采用超过一组核苷酸，如至少1、2、3组或更多组来进行延伸。一组核苷酸可包含一种、两种或三种不同的核苷酸。在一些情况下，+S测序法进一步包括例如通过重复从模板(例如，来自采用本文所述的方法制备的文库的核酸插入物或从寡核苷酸阵列上释放的延伸产物)上释放引物延伸产物的步骤来获得一个或多个额外的序列读取；使额外的测序引物(或延伸引物)与模板杂交；通过经由受控延伸来延伸该额外的测序引物而生成额外的引物延伸产物；以及通过进一步延伸该额外的引物延伸产物以生成额外的引物延伸产物来对该模板的一个或多个碱基进行测序，由此获得额外的序列读取。该额外的测序引物可以针对该模板的相同或相似区域。可以通过采用本文提供的任何测序方法延伸该测序引物来进行模板的测序。在一些情况下，在随后添加核苷酸组之前进行洗涤步骤或核苷酸降解步骤。

生物信息学和软件

在测序后，可以比对序列数据。可以根据已知设计的引物/标签序列以及靶多核苷酸信息将每个序列读取分离成引物/标签序列信息。可以通过编码的位置条形码信息来辅助比对，该信息通过其引物/标签序列与靶多核苷酸的每个片段相关联。测序文库或释放的延伸产物的测序可以产生具有相同或相邻条形码序列的重叠读取。例如，一些延伸产物可能足够长，从而到达与靶多核苷酸有关的下一个特定序列位点。条形码序列信息的使用可以将类似的重叠读取聚集在一起，这可以提高准确率并减少计算时间或工作量。

在一些情况下，通过软件对序列读取以及通过本文提供的方法获得的相关条形码序列信息进行分析。该序列读取可以是短序列读取(例如，<100bp)或长序列读取(例如，>100bp)。该软件可以进行对衍生自相同模板的序列读取进行排列的步骤。可以通过例如搜索具有来自包含如本文提供的斑点或区域的寡核苷酸阵列中的相同或相邻列的条形码的读取来鉴别这些读取。在一些情况下，只有某些范围的距离、水平行和/或垂直列的读取被推定认为是来自相同模板。在读取条形码时，软件可以将基于条形码设计的潜在测序(及其他)错误考虑在内。该错误可以是具有为四的编辑距离的条形码，以允许某些错误。在一些情况下，如果条形码含有过多错误并且不能被唯一地鉴别，则不直接使用其相关读取来组装序列。尽管许多读取可以根据相对条形码位置(例如，行数)组装，但一些空白可以通过对来自相同基因组区的读取进行比对来填充。本领域技术人员将会理解，软件产品可以根据条形码将读取串在一起，并且可以解释如本文提供的寡核苷酸阵列上的靶多核苷酸的拉伸朝向。

例如，如果在DNA阵列上拉伸后，DNA分子不是严格垂直的，则可以通过例如掺加(spiked in)的已知参考DNA样品来分析该DNA分子相对于条形码列的朝向。该参考DNA样品可用于检测拉伸的相对角度，其中假设拉伸的角度与所有DNA分子相似。为了例如在重新测序中根据与参考DNA样品(例如，基因组)的比较来组装序列读取，可以使用对重新测序组装有用的软件。所使用的软件可以与所使用的测序平台的类型相兼容。如果采用Illumnia系统进行测序，则可以使用软件包如Partek、Bowtie、Stampy、SHRiMP2、SNP-o-matic、BWA、BWA-MEM、CLC workstation、Mosaik、Novoalign、Tophat、Splicemap、MapSplice、Abmapper.ERNE-map(rNA)和mrsFAST-Ultra。对于基于SOliD的NGS测序，可以使用Bfast、Partek、Mosaik、BWA、Bowtie和CLC工作站。对于基于454的测序，可以使用Partek、Mosaic、BWA、CLC工作站、GSMapper、SSAHA2、BLAT、BWA-SW和BWA-MEM。对于基于Ion torrent的测序，可以使用Partek、Mosaic、CLC工作站、TMAP、BWA-SW和BWA-MEM。对于从本文提供的方法获得的序列读取的从头组装，可以使用本领域已知的任何比对软件。所使用的软件可以采用针对长读取(即，>100bp)的重叠布局方法，或针对短读取(即，<100bp读取)的基于de Bruijn图的基于k-mer的方法。用于从头组装的软件可以是可公开获得的软件(例如，ABySS、Trans-ABySS、Trinity、Ray、Contrail)或商业软件(例如，CLCbio Genomics Workbench)。

以上的描述公开了本发明的几种方法和系统。本发明容许方法和材料的修改以及制备方法和设备的改变。从本公开内容或本文公开的发明的实践考虑，这样的修改将对本领域技术人员变得显而易见。例如，本发明已采用核酸进行例证，但其也可以适用于其他聚合物。因此，并不意味着将本发明限制于本文公开的具体实施方案，而是意味着其涵盖在本发明的真正范围和精神内的所有修改和改变。

应用和优势

在一些情况下，本文所述的装置和方法可以用于对长核酸分子如DNA或RNA分子进行测序。例如，大肠杆菌具有约4.6Mb的基因组，可以在一个过程中对其进行测序。对DNA或RNA的较大区段(例如50kb或100kb)进行测序可以准确表征一些重复序列和较大的结构变化，但可能错误表征百万碱基数量级的结构变化。本文所述的装置和方法可以更加准确地表征重复序列、较大结构变化和百万碱基规模的结构变化。测序的核酸分子可以是整个基因组，例如大肠杆菌基因组。测序的核酸分子可以是人DNA或染色体的非常长的链。

虽然本文已经显示和描述了本发明优选的实施方案，但是对于本领域技术人员而言显然这些实施方案仅仅是作为示例提供的。本领域技术人员在不偏离本发明的前提下将会想到大量的变化、改变和替换。应当理解，在本发明的实践中可以使用本文描述的本发明实施方案的各种替代方案。以下权利要求旨在限定本发明的范围，由此覆盖在这些权利要求的范围内的方法和结构及其等同物。

实施例

实施例1-平坦表面阵列的产生

使具有图40所示结构的引发剂硅烷在EtOH的存在下结合至平坦的二氧化硅基底，从而形成双足表面聚合物引发位点。在CuBr、PMDETA和H₂O的存在下，使丙烯酰胺和乙氧基化丙烯酰胺的混合物与acrydite修饰的寡核苷酸一起在基底上经历原子转移自由基聚合(ATRP)。这形成了结合至表面引发剂位点的、共价键合的、轻微交联的聚丙烯酰胺表面涂层，其厚度在约50nm至约200nm之间，并且其结构中并入了寡核苷酸。该过程在图43中示出。

实施例2-平坦表面阵列在测序中的应用

如实施例1中所述制备聚丙烯酰胺涂覆的基底。使待测序的DNA与并入至该聚合物结构中的寡核苷酸结合。向该基底添加合成测序试剂，并使合成测序进行40个循环。至少90％的聚合物链保持完整并与表面键合。

实施例3-通过单次延伸、凝胶-芯片表面的硅烷化、阵列表面的制备，模板的酶促转移

将载玻片在NanoStrip溶液中清洗过夜，用去离子(DI)水漂洗并用N₂干燥。然后，用丙烯酰胺单体将表面功能化，这将使聚丙烯酰胺凝胶结合至表面。用475mL乙醇、25mL去离子水和26mL(3-丙烯酰氨基丙基)三甲氧基硅烷制备硅烷化溶液，使硅烷的最终浓度为5％v/v。将一架(a rack of)清洗和干燥后的载玻片浸没在硅烷化溶液中，并在室温下轻轻地搅拌5小时。随后将载玻片放置在新鲜的乙醇浴中，总共五次。然后，将载波片在去离子水浴中漂洗并用N₂干燥。将载玻片储存在干燥室中直到进一步使用。

丙烯酰胺凝胶混合物的制备

用5.00mL H₂O、1.00mg明胶、600.00mg丙烯酰胺和32.00mg双丙烯酰胺制备12％的丙烯酰胺凝胶混合物。将组分溶解并混合在一起，得到最终浓度为12％的丙烯酰胺凝胶混合物。对于6％的凝胶芯片，将50μL的12％丙烯酰胺凝胶混合物、45μL的去离子水以及μL的5’-acrydite-FC1(1mM浓度)功能化的寡核苷酸合并以得到50μL的总体积并涡旋。

薄凝胶的聚合

对于以上制备的6％凝胶芯片的混合物，每100μL反应混合物添加1.3μL的5％过硫酸铵和1.3μL的5％TEMED作为活化剂，最终活化剂浓度各为0.065％。然后将混合物涡旋。将15μL的凝胶混合物用移液管移到干净的平坦表面例如载玻片或硅晶片上。用如上制备的凝胶-芯片载玻片表面面朝下覆盖表面上的凝胶混合物。向下按压该玻璃芯片以实现凝胶混合物的更加均匀的分布。使凝胶在室温下聚合20分钟。将凝胶结合至该芯片，并将该凝胶-芯片基底从干净的平坦表面上去除，如需要，在剃须刀片或其他器具的辅助下进行。将凝胶芯片在去离子水中漂洗，并从芯片边缘去除过量的凝胶。凝胶芯片可以立即使用或储存在4x盐水-柠檬酸钠(SSC)缓冲液中。

酶混合物的制备

用37μL H₂O、5μL 10x Thermopol缓冲液、5μL BSA(10mg/mL)、1μL dNTP(10mM)和2μL Bst DNA聚合酶(8U/μL)制备酶混合物。

模板通过单次延伸的酶促转移

将如上制备的18μL酶混合物放置在制备的凝胶芯片的顶部。使该酶混合物溶液向凝胶内渗透30秒。然后，将该凝胶芯片面朝下放置在模板芯片上。模板芯片表面如实施例1所述制备。将一片PDMS放置在两个芯片的顶部作为顺应层，并将芯片堆叠放置在夹具如铝制夹具中。将该芯片堆叠在湿度室中在55℃下温育2小时。然后，在该芯片堆叠的边缘周围添加额外的4x盐水-柠檬酸钠(SSC)缓冲液，并使其被吸入以使凝胶芯片松开。然后将凝胶芯片表面与模板芯片表面拉开，如需要，在剃须刀片或其他器具的辅助下进行。凝胶仍结合至凝胶芯片，并具有转移的寡核苷酸。将模板芯片在去离子水中洗涤并用N₂干燥。将凝胶芯片用4x SSC缓冲液洗涤三次并用2x SSC缓冲液洗涤三次。

转移的图案的成像

将FC2QC-Cy3寡核苷酸与如上文中使用的模板芯片在55℃下杂交35分钟。杂交后，将该模板芯片漂洗并成像。将SP2-Cy3寡核苷酸与如上制备的具有转移寡核苷酸的凝胶芯片在55℃下杂交30分钟。随后将该凝胶芯片用4x SSC缓冲液漂洗两次并用2x SSC缓冲液漂洗两次，并让其在4x SSC缓冲液中浸泡3小时以降低背景信号。可以备选地将该凝胶芯片在4x SSC缓冲液中摇动20分钟，而非浸泡3小时。然后，在落射荧光显微镜下，在所需放大倍数如10x和40x下对该凝胶芯片进行成像。然后，将该凝胶芯片剥离并与针对模板芯片的FC2QC-Cy3寡核苷酸杂交。然后，将该凝胶芯片再成像，并且观察指示模板分子的物理转移的信号。

按成分体积制备用于模板扩增的反应缓冲液

用1.5mL的10x Taq缓冲液、750μL 100％DMSO、3mL 5M甜菜碱、120μL 25mM dNTP、75μL 5000U/mL Taq聚合酶和9.555mL无核酸酶H₂O制备反应缓冲液。

按最终浓度制备用于模板扩增的反应缓冲液

在无核酸酶H₂O中以1x Taq缓冲液、5％DMSO、1M甜菜碱、0.2mM dNTP、25U/mL Taq聚合酶的最终浓度制备反应缓冲液。

通过热循环的模板扩增

将具有寡核苷酸的凝胶芯片用添加有0.1％吐温-20的0.3x SSC缓冲液洗涤。然后使该凝胶芯片经历50个浸没于溶液浴中的循环，该循环如下：a)在94℃下在具有0.1％吐温-20的0.3x SSC缓冲液中45秒；b)在60℃下在具有0.1％吐温-20的5x SSC缓冲液中2分钟；以及c)在72℃下在按照上文制备的反应缓冲液中1分钟。该凝胶芯片上的模板得到扩增。

芯片上的探针杂交

将具有双链DNA(dsDNA)的待成像的芯片放置在0.1N NaOH溶液中3分钟以使该DNA变性。洗涤后，用4x SSC缓冲液洗涤该芯片。然后该芯片与20mL的100nM荧光标记的杂交探针溶液在章动器(nutator)上在55℃下温育40分钟。温育后，将该芯片用4x SSC缓冲液洗涤两次并用2x SSC缓冲液洗涤两次，每个洗涤步骤持续20分钟。然后对该芯片进行成像。

实施例4-从光引导的3’-5’阵列到5’-3’全长阵列

通过标准的光引导合成，制备具有3’-5’寡核苷酸特征的模板微阵列，其中该寡核苷酸含有衔接子1序列、在特征之间不同的探针序列以及衔接子2序列。将模板寡核苷酸与还含有可固定的连接体的、与衔接子1互补的引物杂交。用聚合酶进行引物延伸反应。使第一接受体阵列表面与模板阵列接触，并将该连接体结合至其表面。将两个表面分开，并且该接受体阵列含有5’-3’朝向的部分长度和全长产物两者。将寡核苷酸与还含有可固定的连接体的、与衔接子2互补的引物杂交。用聚合酶进行引物延伸反应。使第二接受体阵列表面与第一接受体(现在为模板)阵列接触，并将该连接体结合至其表面。将两个表面分开，并且该第二接受体阵列主要含有5’-3’朝向的全长产物。

实施例5-采用结合引物对长DNA分子的标记和测序

制备DNA提取物的溶液，其包含约4Mb长的模板DNA分子的长片段。通过分子梳理使模板DNA拉伸到包含纳米通道特征的载玻片上。将游离引物添加至拉伸的模板DNA分子，每个游离引物均包含随机六聚体序列和引物结合位点序列。游离引物通过其随机六聚体区域结合在沿着模板DNA分子的不同位置。提供了具有凝胶涂层的基底，该凝胶涂层包含结合引物的空间限定的阵列。每个与阵列结合的引物均具有与引物结合位点序列互补的衔接子序列、核酸扩增引物序列以及条形码序列，其中给定阵列斑点中的所有引物共享对该区域独特的条形码序列。该衔接子序列与该引物结合位点序列杂交。进行延伸反应以生成模板DNA分子的区域(片段)的拷贝，其中该延伸反应从与阵列结合的引物上的核酸扩增引物序列处开始，并将条形码序列并入到所得的延伸产物中。产生了含有条形码序列以及与该模板DNA分子的区域互补的序列的与阵列结合的延伸产物。将延伸产物组装成测序文库并测序。通过条形码信息来辅助序列读取的比对和组装，并产生了完整的4Mb模板DNA序列。

实施例6-采用转座子位点对长DNA分子的标记和测序

制备DNA提取物的溶液，其包含约4Mb长的模板DNA分子的长片段。将引物结合位点通过转座子整合以平均500bp间隔添加至模板DNA分子中。通过分子梳理使该模板DNA拉伸到包含纳米通道特征的载玻片(第一基底)上。提供了具有凝胶涂层的第二基底。该凝胶涂层包含结合引物的空间限定的阵列。每个与阵列结合的引物均具有与引物结合位点序列互补的衔接子序列、核酸扩增引物序列(例如，PCR引物序列)和条形码序列。给定阵列斑点或区域中的所有引物共享对该区域独特的条形码序列。与阵列结合的引物与先前整合到模板DNA分子中的引物结合位点杂交。进行延伸反应以生成模板DNA分子(或其互补体)的区域的多个拷贝，该延伸反应采用与阵列结合的引物的核酸扩增(例如，PCR)引物序列开始于5’端，接下来并入条形码序列，接着并入引物结合位点序列，并随后延伸以将模板核酸序列并入到所得的延伸产物中。因此，产生了包含条形码序列以及与该模板DNA分子的区域互补的序列的与阵列结合的延伸产物。将延伸产物组装成测序文库并测序。通过条形码信息来辅助序列读取的比对和组装，并产生了完整的4Mb模板DNA序列。

实施例7-延伸产物的PCR扩增

使用包含与阵列结合的引物区的引物基底生成延伸产物的阵列。每个延伸产物均包含与模板核酸分子互补的核酸的一部分，以及PCR引物序列和位置编码的条形码序列。对于给定阵列斑点或区域中的所有产物，条形码序列是相同的。引入了PCR引物，其在一端的PCR引物序列处，通过在另一端的随机六聚体结合序列与延伸产物杂交。进行PCR以扩增该延伸产物。对包含模板核酸序列以及与条形码序列互补的序列的PCR扩增产物进行测序。在位置条形码信息的帮助下比对序列读取。

实施例8-对RNA分子的标记和测序

制备了包含RNA分子片段的RNA提取物溶液。通过分子梳理使RNA拉伸到包含纳米通道特征的载玻片上。将游离(即，非阵列结合的)引物添加到拉伸的RNA分子，每个游离引物均包含随机六聚体序列和引物结合位点序列。游离引物通过其随机六聚体区域杂交在沿着拉伸的RNA分子的不同位置。提供了具有如实施例1中所述制备的凝胶涂层的基底，该凝胶涂层包含在其5’端处粘附于阵列表面的引物的空间限定阵列。每个与阵列结合的引物从3’到5’具有与游离引物上的引物结合位点序列互补的衔接子序列、条形码序列以及核酸扩增引物序列，其中给定阵列斑点或区域中的所有引物共享对该区域独特的位置条形码序列。衔接子序列与游离引物的引物结合位点序列杂交，其中该游离引物与RNA分子杂交。用逆转录酶进行延伸反应，以产生该RNA分子的区域或片段的拷贝。该延伸反应从引物上的核酸扩增引物序列处开始，并将条形码序列并入到所得的延伸产物中。产生了含有条形码序列以及与该RNA分子的区域互补的序列的延伸产物，并且将该延伸产物结合至基底。将延伸产物组装成测序文库。为了生成测序文库，添加非基底结合的引物以与阵列结合的延伸产物结合，并且将该引物用于延伸反应。产生了含有与阵列结合的延伸产物的一部分以及条形码序列或其互补体的非阵列结合的延伸产物。非基底结合的引物包含含有限定序列的尾部区段，该限定序列不与阵列结合的延伸产物中的序列互补，并因此不与该阵列结合的延伸产物杂交。该限定序列包含与Illumina NGS测序系统相容的衔接子和扩增引物序列。因此，该非阵列结合的延伸产物包含用于Illumina HiSeq 2500系统的序列，并因此采用该Illumina HiSeq 2500系统进行测序。

通过条形码信息来辅助序列读取的比对和组装，并通过在计算机中组装该序列读取产生完整的RNA序列。对于从新基因获得的序列读取，采用了可用于从头组装的软件。用于从头组装的软件是可公开获得的软件(例如，ABySS、Trans-ABySS、Trinity、Ray、Contrail)或商业软件(例如，CLCbio Genomics Workbench)。对于从重新测序获得的序列读取，采用了用于重新测序组装的软件。所采用的软件与Illumnia系统兼容，如BWA、BWA-MEM、Novoalign、Tophat、Splicemap、MapSplice、Abmapper或ERNE-map(rNA)。

实施例9-寡核苷酸固定化转移

根据以下方案进行寡核苷酸固定化转移(OIT)：

将引物与模板表面杂交并延伸：A)将200uL的500nM Acr-FC1引物在55℃下在Grace hyb室中温育1小时。B)用4X SSC(2次)、2X SSC(2次)漂洗。C)在Grace室(200uL)中将引物用Bst延伸，37℃下10min+55℃下20min。用38uL H₂O、5uL 10X Thermopol、5uL BSA(10mg/ml)、1uL dNTPs(10mM)、1uL Bst(8U/ul)制备Bst混合物。D)用4X SSC(2次)、2X SSC(2次)漂洗。

用H₂O(0.50mL)、明胶(0.10mg)、丙烯酰胺(60.00mg)、双丙烯酰胺(3.20mg)制备2X浓度的凝胶混合物。通过将50uL的2X丙烯酰胺混合物与50uL的2X SSC合并来制备主混合物(master mix)。

丙烯酰胺凝胶的活化(每种活化剂最终浓度＝0.065％)：A)每100uL反应添加1.3uL的5％过硫酸铵。B)每100uL反应添加1.3uL的5％temed。C)涡旋。

薄凝胶的聚合：A)将20uL的凝胶混合物用移液管移至模板玻璃上。B)用硅烷化的玻璃芯片(受体表面)面朝下覆盖模板，并按压以得到均匀无气泡的铺展。C)使其聚合10-15分钟。

变性/分离：A)将结合的芯片放置在1X TE浴中并将其加热至65℃。B)用剃刀将表面拉下。凝胶应留在芯片侧上。

成像：A)将来自模板表面的任何剩余的Acr-FC1在0.1N NaOH中变性3分钟。B)用4XSSC(3次)、2X SSC(3次)漂洗。C)在芯片侧上与SP2-Cy3寡核苷酸(500nM)在55℃下杂交45min。使用具有浓NaCl溶液的湿度室(74％RH)。D)在模板侧上与FC2-QC-Cy3寡核苷酸(500nM)在55℃下杂交1小时。E)用4X SSC(3次)、2X SSC(3次)漂洗。F)采用落射荧光显微镜对凝胶或模板进行成像。

Claims

1.一种用于确定模板核酸分子的序列的方法，所述方法包括：

(a)将多个通用引物结合位点并入到所述模板核酸分子中；

(b)拉伸所述模板核酸分子，并将所述模板核酸分子与寡核苷酸阵列接触，所述寡核苷酸阵列包含多个寡核苷酸，所述多个寡核苷酸中的每一个包含位置编码的条形码和与所述通用引物结合位点杂交的衔接子；

(c)通过使用所述拉伸的模板核酸分子和所述寡核苷酸阵列上的所述多个寡核苷酸进行延伸反应，所述延伸反应从与所述通用引物结合位点杂交的所述衔接子开始，以所述拉伸的模板核酸分子的片段为模板进行延伸，并将所述位置编码的条形码并入到所得的延伸产物中，所述延伸产物含有(i)所述通用引物，(ii)所述位置编码的条形码，和(iii)所述模板核酸分子的片段的第一互补序列，把所述延伸产物组装成测序文库；以及

(d)借助所述位置编码的条形码对所述测序文库进行测序，由此获得所述模板核酸分子的所述序列，

其中所述方法并非用于诊断疾病的目的。

2.如权利要求1所述的方法，其中所述多个寡核苷酸固定在所述寡核苷酸阵列的表面上的不同的斑点内，且其中所述位置编码的条形码是对于给定寡核苷酸指示所述斑点的条形码序列，其中所述条形码序列对于不同的斑点是不同的。

3.如权利要求1所述的方法，其中所述多个通用引物结合位点沿着所述模板核酸分子平均每隔至少200个碱基对并入所述模板核酸分子中。

4.如权利要求1所述的方法，其中所述多个通用引物结合位点通过转座子插入并入所述模板核酸分子中。

5.如权利要求2所述的方法，其中所述多个通用引物结合位点通过游离引物并入所述模板核酸分子中，每个所述游离引物包含(i)所述通用引物结合位点，以及(ii)随机序列，所述随机序列与所述模板核酸分子的一部分具有互补性，其中所述游离引物未结合于所述寡核苷酸阵列的所述表面。

6.如权利要求1所述的方法，其中所述多个通用引物结合位点通过下述步骤并入所述模板核酸分子中：(i)通过切口酶对所述模板核酸分子进行酶切以切割所述模板核酸分子的一条链；(ii)从所述模板核酸分子的经切口的链去除5’磷酸；和(iii)将所述通用引物结合位点与所述模板核酸分子的所述经切口的链的3’端连接。

7.如权利要求1所述的方法，其中所述拉伸通过分子梳理、通过分子穿线、通过转移打印、在纳米通道中、通过磁性镊子、或通过光学镊子进行。

8.如权利要求2所述的方法，其中所述每个寡核苷酸还包含聚合酶链式反应引物序列。

9.如权利要求2所述的方法，其中每个斑点的大小不大于500μm。

10.如权利要求2所述的方法，其中每个斑点的大小不大于200μm。

11.如权利要求2所述的方法，其中每个斑点的大小不大于2μm。

12.如权利要求1所述的方法，其中所述模板核酸分子长度超过100,000个碱基对。

13.如权利要求1所述的方法，其中所述模板核酸分子长度为至少1.1Mb。

14.如权利要求1所述的方法，其中所述多个寡核苷酸具有大于10⁸/cm²的密度。

15.如权利要求2所述的方法，其中每个所述延伸产物包含所述模板核酸分子的所述片段的所述第一互补序列和指示对应的寡核苷酸的所述位置编码的条形码的第二序列。

16.如权利要求15所述的方法，所述方法还包括对所述多个延伸产物进行测序以确定(i)每个所述模板核酸分子的所述片段的所述第一互补序列，和(ii)对于每个所述延伸产物的所述寡核苷酸的所述位置编码的条形码。

17.如权利要求16所述的方法，所述方法还包括使用对于每个延伸产物与所述确定的位置编码的条形码相关联的顺序和比对的信息来将所述片段的序列组装在一起。

18.如权利要求15所述的方法，其中使用对于每个所述延伸产物所述寡核苷酸的所述位置编码的条形码对所述多个延伸产物的至少100个延伸产物进行比对。

19.如权利要求2所述的方法，所述方法还包括在(a)之前：(a1)将引发剂物质与所述寡核苷酸阵列的所述表面共价键合；和(a2)从所述引发剂物质进行聚合物的表面引发聚合，其中所述聚合物包含多个聚合物链，其中所述多个聚合物链的一部分包含在所述斑点内的所述寡核苷酸。

20.如权利要求19所述的方法，其中所述表面选自包括以下的组：玻璃、二氧化硅、氧化钛、氧化铝、氧化铟锡、硅、聚二甲基硅氧烷、聚苯乙烯、多环烯烃、钛、金。

21.如权利要求19所述的方法，其中所述表面是聚甲基丙烯酸甲酯。

22.如权利要求19所述的方法，其中在(a2)中，所述进行表面引发聚合包括原子转移自由基聚合。

23.如权利要求19所述的方法，其中在(a2)中，所述进行表面引发聚合包括可逆加成断裂链转移聚合。