CN118019856A

CN118019856A - 缺口-连接stlfr

Info

Publication number: CN118019856A
Application number: CN202280051567.4A
Authority: CN
Inventors: 拉多吉·T·德尔马纳茨; 布罗克·A.彼得斯; 安德烈·亚历克斯埃夫; 斯尼泽纳·德尔马纳茨; 阿姆拉·纳尼塞蒂
Original assignee: MGI Tech Co Ltd
Current assignee: MGI Tech Co Ltd
Priority date: 2021-07-22
Filing date: 2022-07-22
Publication date: 2024-05-10
Also published as: MX2023014612A; WO2023001262A1; KR20240013182A; US20240240174A1; IL310293A; CA3219555A1; AU2022313376A1; JP2024527626A; EP4373959A1

Abstract

本申请涉及在单一反应混合物中制备用于测序的多核苷酸文库的方法和组合物。该方法包括将双链目标核酸与一种或多种缺口剂接触，以产生被交错的单链断裂分隔的重叠核酸片段；在连接酶存在下，将部分双链的第一接头与至少一个核酸片段接触，从而使用DNA连接酶通过3′支链连接将第一接头双链区域的5′末端连接到至少一个核酸片段的3′末端。第一接头包括：(i)具有5′末端和3′末端的双链平端；(ii)包含条形码的单链区。

Description

缺口-连接STLFR

相关申请

本申请要求2021年7月22日提交的申请号为63/224,731的美国临时申请的优先权及其权益。上述临时申请的全部内容在此并入作为参考。

技术领域

本申请涉及测序领域。

背景技术

为常用的新一代测序平台构建测序文库通常需要在目标核酸的两端添加接头。这些接头通常包含用于样本或分子识别的条形码。在某些情况下，还需要在单个长基因组DNA分子的子片段上添加相同的条形码，以促进全基因组测序。目前构建测序文库的过程通常需要多步程序来添加接头。每个步骤通常在单独的反应或容器中进行，既耗费人力，又效率低下。

发明内容

在一个方面，本公开提供了一种用于测序的已接头多核苷酸文库的制备方法，包括在单个反应混合物中：(a)将双链目标核酸与一种或多种缺口剂接触，以产生由交错的单链断裂分隔的多个重叠核酸片段；(b)提供多个珠子，每个珠子包括固定在珠子上的多个分支连接接头(b-BLA)，并提供在3′末端具有简并序列的L-接头群；以及(c)在连接酶存在的情况下，将b-BLA与至少一种核酸片段接触、(d)在有连接酶存在下接触L-接头群，从而将L-接头连接到核酸片段的5′末端，由此获得在5′末端具有L-接头序列和在3′末端具有b-BLA接头序列的核酸片段文库。

在另一方面，本文公开了一种用于制备测序用多核苷酸文库的方法，该方法包括在单个反应混合物中：

(a)将双链目标核酸与一种或多种缺口剂接触，以产生被交错的单链断裂分隔的重叠核酸片段；以及

(b)在连接酶存在下，将包含多个部分双链第一接头的珠子与核酸片段接触，其中每个第一接头包括：(i)双链平端，其包括一条链的5′末端和互补链的3′末端；(ii)固定在珠子上的单链区，其中单链区包括条形码、从而使用DNA连接酶将至少一个第一接头的双链平端中的链的5′末端与至少一个核酸片段的3′末端连接，以产生已连接的第一接头，其中已连接的第一接头包括条形码和至少一个核酸片段，(c)对已连接的第一接头进行变性，以及(d)对与已连接的第一接头中相对于条形码位于3′侧的序列杂交的引物进行受控延伸，从而产生与已连接的第一接头互补的部分延伸链。

在另一个方面，本文公开了一种反应混合物，该混合物包含(1)一种或多种缺口剂，(2)一种或多种连接酶，(3)多个被交错单链断裂分开的重叠核酸片段，以及(4)部分双链分支接头，部分双链分支接头包含相互杂交以形成部分双链核酸分子的条形码寡核苷酸和杂交寡核苷酸，其中条形码寡核苷酸连接到珠上并包含条形码，其中杂交寡核苷酸未连接到珠上，其中部分双链核酸分子包括(i)具有5′末端和3′末端的双链平端和(ii)包含条形码并具有单链末端的单链区，其中双链平端的5′末端与至少一个核酸片段的3′末端连接。

附图说明

附图及其描述说明了本发明的示例性实施例。本公开所提供的发明并不限于这些附图中所示的实施例。

图1显示了文库制备方法的示例性工作流程。

图2展示了对双链目标核酸(210)缺口以产生交错的单链断裂(220)。图2还说明扩展断裂以创造性地扩展由断裂分隔的片段(240)之间的间隙(230)，为连接接头做准备。

图3A和3B显示了在单个反应混合物中通过分支连接(320)将b-BLA接头(320)添加到目标DNA(310)的3′末端并将L-接头(340)添加到目标DNA的5′末端的示例性方法。图3A显示，珠子(300)包括固定在其上的b-BLA。每个b-BLA由两条链组成：1)条形码寡核苷酸，其包括条形码序列(330)和3′末端处的双脱氧阻遏核苷酸；2)杂交寡核苷酸，其与条形码寡核苷酸杂交。条形码寡核苷酸的5′末端与珠子(300)连接。虽然为了更好地说明和解释，图中的步骤是分开的，但b-BLA接头和L-接头的添加可以在一个反应中完成。来自b-BLA接头(340)的条形码(330)通过延长未与珠子连接的链(350)进行复制，从而产生已延长的核酸片段(360)。多余的b-BLA接头(370)(即未连接到片段上的b-BLA接头)也将被延长。延长的核酸片段(360)可以使用两个引物退火至两个末端处的b-BLA接头序列和L-接头序列从而进行扩增。或者，如下文所述，可使用与两个接头序列退火的分离寡聚体环化已延伸的核酸片段(360)，参见第10节″扩增″。多余的接头(370)没有L-接头，因此不能通过PCR扩增或环化。

图4显示了在一次反应中将b-BLA(410)添加到目标DNA的3′，将L-接头(420)添加到目标DNA的5′的示例性方法。L-接头包括受保护的键(例如，某(硫代磷酸键或类似物)以防止外切酶消化(用*表示)每个b-BLA的条形码寡核苷酸都在3末端被阻断(即通过具有双脱氧阻遏核苷酸))。同一b-BLA的杂交寡核苷酸可通过3′分支连接到目标核酸片段。将杂交寡核苷酸和目标核酸片段连接形成的连接产物(450)进行延伸，以合并来自b-BLA的条形码(430)，从而形成已延伸的核酸片段(460)。已延伸的核酸片段(460)可通过变性从珠子释放，释放出来的片段再通过PCR扩增或环化。可选地，多余的b-BLA(440)可通过Lambda外切酶和外切酶降解，以避免扩增未连接的接头。

图5显示了另一种示例性方法，即在类似于图4中所示的单个反应中将b-BLA(510)添加到目标DNA的3′，并将L-接头(520)添加到目标DNA的5′。b-BLA被固定在珠子(500)上。不像在图4中，条形码寡核苷酸被阻止延伸，而在图5中，杂交寡核苷酸被阻止，并且条形码寡核苷酸可以连接到目标核酸片段上从而产生条形码核酸片段(550)；不需要通过延伸复制条形码。然后，过量的b-BLA(560)和已连接的产物都会变性，从而产生单链条形码核酸片段(530)，它仍然与珠子连接在一起。在一种方法中，b-BLA包含条形码寡核苷酸3′末端附近的尿嘧啶；如上所述产生的条形码核酸片段(530)可通过接触USER从珠上释放。然后可以对释放的链(540)进行扩增或直接环化。也可以通过RecJ或Exo7处理去除多余的b-BLA(570)。″*″代表硫代磷酸键。

图6显示了本发明的一个说明性实施方案，其中b-BLA在缺口酶处理期间与靶DNA接触。与图4类似，每个b-BLA的条形码寡核苷酸被阻断延伸；但在图6中，每个条形码寡核苷酸还可以在条形码序列(620)和双脱氧阻遏核苷酸之间包含一个或多个尿嘧啶(610)。杂交寡核苷酸(630)可通过分支连接与目标核酸片段连接。然后加入USER来裂解条形码寡核苷酸并释放双脱氧阻遏核苷酸，从而使条形码寡核苷酸具有可延伸的末端(650)。连接产物(630)被延伸以结合条形码，形成条形码核酸片段(640)。在3′末端(650)无阻遏核苷酸的条形码寡核苷酸，也会被延伸。然后加入具有3′→5′外切酶活性的ExoIII，从而完全降解多余的b-BLA(660)，并从3′→5′方向部分降解条形码核酸片段，从而得到部分杂交的条形码目标核酸片段(670)。然后，所述部分杂交的条形码目标核酸片段(670)被延伸形成双链条形码核酸片段(680)，然后通过平端连接与第二接头连接。在某些情况下，第二接头不含5′磷酸基团，以减少自连接。连接产物经变性后形成单链核酸片段(690)，它的两端现在都有接头序列。单链核酸片段(690)现在可以通过PCR扩增或环化。

图7A和7B显示了本发明的另一个实施方案，其中b-BLA被固定到珠子(700)上。每个b-BLA包括相互杂交的条形码寡核苷酸(710)和杂交寡核苷酸(720)。杂交寡核苷酸在3′末端包括双脱氧阻遏核苷酸，而条形码寡核苷酸在与对于条形码序列(790)的5′位点上包括尿嘧啶。图7A和7B展示了以下事件：1)条形码寡核苷酸与经过缺口酶处理的目标核酸片段连接，通过分支连接形成条形码核酸片段(730)。2)通过变性去除杂交寡核苷酸；3)加入核酸酶，如RecJ或ExoVII，以降解单链的过多的b-BLA(740)；4)引物(750)退火至条形码核酸片段(730)上条形码5′序列，并延伸形成双链DNA分子(760)；然后将双链DNA分子连接到第二个双链接头(770)上，形成双链分子(780)，其两端都具有接头序列，其中一个接头序列来自分支接头，另一个接头序列来自第二个双链接头。第二接头可选择不包含5′磷酸，以避免自连接。然后，带有双L-接头序列的双链分子(780)通过USER变性并从珠子中释放出来，形成单链分子(781)，然后可以对其进行扩增和/或环化。

图8显示了本发明的一个示例性实施方案，其中b-BLA被固定到珠子(800)上。每个b-BLA包括条形码寡核苷酸(820)和杂交寡核苷酸(810)。条形码寡核苷酸(820)的3′处包含双脱氧阻遏核苷酸。在缺口酶处理过程中，b-BLA中的杂交寡核苷酸通过分支连接到目标核酸片段。在反应中加入lambda外切酶和外切酶I，以去除多余的b-BLA(830)。将杂交寡核苷酸和目标核酸片段连接形成的连接产物延伸复制条形码，从而得到条形码化核酸片段(840)，通过变性将其从条形码寡核苷酸中分离出来。引物退火到单链分子与条形码序列3′的序列上并延伸。延伸后形成双链分子(850)，然后与第二个接头连接，形成双链核酸片段(860)，其两端具有接头序列。然后可以通过PCR扩增双链核酸片段(860)。或者，也可以将双链核酸片段变性，形成单链核酸片段，然后将其环化。第二接头可以选择缺少5′磷酸，这样可以最大限度地减少单个第二接头的自连接。

图9A和图9B显示了本发明的另一个实施方案，其中b-BLA被固定在珠子(900)上。每个b-BLA包括相互杂交的条形码寡核苷酸(910)和杂交寡核苷酸(920)。杂交寡核苷酸(920)的3′末端处包含双脱氧阻遏核苷酸。首先，条形码寡核苷酸与经过缺口酶处理的目标核酸片段连接，通过分支连接形成条形码核酸片段(930)。其次，通过变性去除杂交寡核苷酸。第三，进行受控聚合酶延伸，留下可用于3′分支连接的5′悬空(940)。受控延伸只进行100-150个碱基，由不具有3-5′外切酶活性的DNA聚合酶进行，从而在模板末端产生A尾(950)。这将导致多余接头的完全延伸和A尾，但连接到基因组片段的接头将是不完全的。接下来，与发夹式接头进行连接，发夹式接头具有与已延伸的过量接头的A尾互补的T尾，从而阻止过量接头(960)的连接或延伸，而与目标核酸片段(970)连接的剩余接头不会被阻止(即这些剩余接头无法与发夹式接头连接)。终止子可以在不同的循环中以不同的浓度或在不同的时间点添加，以产生不同长度的延伸产物，从而在测序过程中提供每个片段大部分碱基的重叠覆盖。

剩余的接头(970)用可逆终止子进一步延伸，然后进行反应去除终止子阻断基团，再进行3′分支连接，从而将第二个接头(980)在末端处添加到目标核酸片段上。然后将反应变性，再将两端包含两个接头序列的单链分子(990)通过PCR扩增或环化。

图10A和图10B显示了本发明的另一个实施方案，该实施方案涉及进行受控延伸。与图9A和9B类似。本实施例中使用的b-BLA也是分支接头，它包括相互杂交的条形码寡核苷酸和杂交寡核苷酸(1020)。杂交寡核苷酸(1020)的3′末端处包含双脱氧阻遏核苷酸。首先，条形码寡核苷酸与经过缺口酶处理的目标核酸片段连接，通过分支连接形成条形码核酸片段(1030)。其次，通过变性去除杂交寡核苷酸。第三，使用具有3-5′外切酶活性的聚合酶进行受控聚合酶延伸，条件是将延伸限制在约100-150个碱基。这样就留下了可用于3′分支连接的5′悬空(1040)。这导致与目标核酸片段(1040)连接的接头延伸不完全，而多余的接头(1050)延伸完全，从而形成具有5′磷酸的平端dsDNA接头。然后在反应中加入lambda外切酶并且lambda降解带有5′磷酸的平端dsDNA接头(1050)。与单链DNA相比，lambda外切酶倾向磷酸化的双链DNA，因此已接头的短插入物(如1050)比长DNA插入物(如1040)更容易降解。如图10B所示，该方法的其余步骤与图9A和9B所示类似。

图11A显示了如图10A所述的受控延伸，完全延伸多余的接头(1150)，部分延伸连接产物(1140)。图11B显示，部分延伸的连接产物(1140)在可逆终止子存在的情况下进一步延伸，然后去除可逆终止子中的终止子阻断基团，再与第二个接头(1160)连接。这样，多余的接头(1150)与条形码目标核酸片段(1170)的3′支连接平端连接，形成两端都有接头序列的核酸片段(1180)。未连接链(1190)由链置换聚合酶在延伸控制条件下延伸，使未连接链仅延伸约100-150个碱基。这种延伸导致固定在珠上的已接头核酸片段发生链置换，并释放出已接头核酸片段(1190)。释放出的已接头核酸片段可以收集到溶液中。珠子可重复用于下一循环的受控延伸。与上述涉及可逆终止子的其他实施方案类似，终止子可以在不同的循环期间以不同的浓度或在不同的时间点添加，以产生不同长度的延伸产物。这有利于在测序过程中对每个片段的大部分碱基进行重叠覆盖。

图12A和图12B显示了使用本文公开的方法形成的缺口连接产物的电泳结果。在图12A所示的不同反应中逐渐增加Segmentase(可从中国深圳MGI获得)的使用，并且在图12B所示的不同反应中逐渐增加Masterase(Qiagen)的使用。图12C和图12D显示了两轮缺口连接反应生成产物的电泳结果。图12C所示反应中使用了Segmentase，图12D所示反应中使用了Masterase。

具体实施方式

I.概括

本文描述的是用于制备测序文库的″缺口连接″或″缺口-连接″单管LFR方法。这些方法以可控的速度、频率或两者兼而有之的方式在双链目标核酸中引入单链断裂(如缺口或间隙)。如下文所述，这些方法还可将接头连接到断裂的3′(3-prime)侧、断裂的5′(5-prime)侧或缺口或间隙的两侧。添加一个或多个接头可产生″已接头片段″。制备文库所涉及的酶反应，例如缺口和连接，可以在一个混合物中进行，以产生带有所需接头和条形码的目的核酸文库。

缺口-连接方法具有某些优势，特别适用于大基因组片段测序序列读数的从头组装。

首先，该方法可产生重叠的单链核酸片段，这些片段在文库制备的整个过程中保持相互关联。与在DNA链断裂位点产生双链断裂的方法(如基于转座子插入的方法)相比，本文公开的方法可避免材料损失并增加目标核酸的克隆覆盖率。

其次，与转座子介导的共编码方法(例如，如Zhang et al.，NatureBiotechnology，June 2017，doi 10.1038/nbt.3897中所述)相比，缺口连接方法避免了转座酶对某些DNA序列的偏好所造成的偏差。

第三，与基于转座子的多步共编码方法不同，本文公开的文库制备和共编码过程可以单步单管制备进行。

第四，本文公开的方法所产生的已接头片段的大小可以通过控制反应中的组分来控制，而不受目标核酸的影响。其他现有的基于转座子的方法产生的目标核酸片段的大小受反应中高分子量基因组DNA量的影响，因此往往难以控制。与此相反，在本文公开的方法中，可以通过平衡缺口剂和连接酶的量等来控制大小。

图1显示了一个示例性工作流程。在步骤1和2中，对双链核酸进行缺口以产生交错的单链断裂(220)。在步骤3中，通过″间隙酶″(如Klenow片段)(在没有核苷酸的情况下)将断裂扩展(等同于″加宽″或″打开间隙″)。如图2所示，这些缺口和间隙过程会产生单链间隙和重叠的核酸片段(240)(″片段″)。每个这些片段的部分仍与具有互补序列的另一片段的部分杂交。

在步骤3中，将片段连接到接头上。其中一个接头可以是固定在珠子上的分支连接接头，称为珠联分支连接接头或B-BLA。另一个接头可以是溶液中的L-接头。可选地，多余的接头(即未与任何片段连接的接头)可通过核酸酶去除(步骤4)。

在步骤5中，在某些情况下，已接头片段被加宽以产生包含条形码序列的双链片段。尽管在此作为单独的步骤进行了披露，但缺口和连接可以在单个反应中进行，并且可以同时进行。在某些实施方案中，缺口和连接反应可持续至少30分钟，例如至少60分钟、至少90分钟或至少120+分钟。在某些实施方案中，双链片段变性形成单链分子。

在步骤6中，扩增变性的核酸片段，例如通过使用片段两端处接头序列退火的引物的PCR。或者，变性的核酸片段可以环化和扩增。

本公开还包括该工作流程的各种变化。示例性变化如图3-8所示。

II.定义

″单一反应混合物″中的组分或反应是指反应在单一混合物中进行，在标记步骤中没有分到单独的试管、容器、等分液、孔、室或液滴中。各组分可同时或以任何顺序加入，以制成单一反应混合物。

术语″交错单链断裂″是指引入到双链或部分双链DNA分子单链中的断裂(通过缺口或间隙产生)，导致多个重叠的单链核酸片段与其他单链核酸片段杂交。对于至少一些核酸片段来说，5′序列的一部分与另一个核酸片段的至少一部分5′序列互补，3′序列的至少一部分与另一个核酸片段的至少一部分3′序列互补，这样在杂交条件下，多个核酸片段相互杂交形成核酸复合物。为了说明而非限制，图2展示了由交错单链断裂分隔的四个核酸片段组成的核酸复合物。可以理解的是，核酸复合物(或″复合物″)可以且通常包含四个以上的核酸片段。

术语″部分双链″是指相互杂交的两条DNA链，其中一条链的至少一部分未与另一条链杂交。部分双链DNA的两条DNA链的长度可以不同，也可以相同。

本文所用的″唯一分子标识符″(UMI)是指存在于DNA分子中的核苷酸序列，可用于区分单个DNA分子。参见，例如，Kivioja，Nature Methods 9，72-74(2012)。UMI可与与之相关的DNA序列一起测序，以识别来自同一源核酸的序列读数。本文使用的术语″UMI″既指UMI的核苷酸序列，也指物理核苷酸，这一点从上下文中可以明显看出。UMI可以是随机、伪随机或部分随机或非随机的核苷酸序列，它们被插入接头或以其他方式合并入待测序的源核酸(如DNA)分子中。在某些实施方案中，每个UMI都将唯一标识样本中存在的任何给定源DNA分子。

如本文所用，术语″单管LFR″或″stLFR″指的是例如美国专利公开号2014/0323316和Wang et al.，Genome Research，29：798-808(2019)中描述的过程，其全部内容特此全部并入作为参考，其中，除其他外，相同的、唯一的条形码序列(或″标签″)的多个拷贝与单个长核酸片段相关联。在单管LFR的一个实施方案中，长核酸片段以一定的间隔用″插入寡核苷酸″标记。在一个实施方案中，插入寡核苷酸由一种或多种酶(如转座酶、缺口酶和连接酶)引入长核酸分子。不同长核酸片段的条形码序列是不同的。因此，标记单个长核酸片段的过程可例如在单个容器中方便地进行，无需分隔。这一过程可对大量单个DNA片段进行分析，而无需在标记步骤中将片段分离到单独的试管、容器、等分液、孔或液滴中。

本文中使用的″唯一″条形码是指与单个珠子相关并可用于区分单个珠子的核苷酸序列。在每个都具有唯一条形码的珠子群中，与一个珠子相关的条形码序列至少不同于群中90％珠子的条形码序列，更常见的是至少不同于群体中99％珠子的条形码序列，甚至更常见的是至少不同于群体中99.5％珠子的条形码序列，最常见的是至少不同于群体中99.9％珠子的条形码序列。

与多核苷酸和底物(例如珠子)相关的术语″连接″是指多核苷酸(或多核苷酸的一个末端)直接与底物接触或共价连接。例如，表面可能具有活性官能团，与多核苷酸分子上的官能团反应形成共价连接。作为一个示例，通过将条形码寡核苷酸或杂交寡核苷酸连接到珠子上，将b-BLA固定在珠子上。

当术语″溶液中″用于关联本文公开的方法或组合物中使用的接头(或任何其他多核苷酸或多核苷酸复合物)时，是指接头(或任何其他多核苷酸或多核苷酸复合物)没有固定在基质上，可以在溶液中自由移动。当用于描述反应时，如″在溶液中进行的反应″是指反应发生在核酸之间，而所有核酸都在溶液中。

本文中使用的术语″接头″有不同的含义，从上下文中可以明显看出。在某些实施方案中，″接头″指的是下文讨论的″分支连接接头(BLA)″。在某些实施方案中，″接头″指的是下文讨论的″L-接头″。固定在珠子上的BLA称为珠联分支连接接头(″b-BLA″)。溶液中的BLA称为溶液分支连接接头(″s-BLA″)。

术语″已接头核酸片段″是指包含一个目标核酸片段和一个或多个接头序列的多核苷酸。例如，一个或多个接头序列可以是b-BLA中的序列或L-接头中的序列，或两者兼而有之。

术语″过量接头″(例如，过量的b-BLA接头)或″未亮接头″是指固定在珠上的接头，尽管处于其他珠接头与目标核酸片段连接的状态，但未与目标核酸片段连接。

术语″延伸的核酸片段″或″条形码延伸产物″是指与接头连接并延伸到包括条形码拷贝的片段。

术语″连接产物″或″连接接头″是指包含目的核酸片段和至少一个来自b-BLA接头的接头序列的产物。在某些情况下，连接产物可进一步包括一端来自b-BLA的接头序列和另一端来自另一接头(如L-接头)的接头序列。

术语″已连接的第一接头″是指目的核酸片段与第一接头序列连接形成的产物。

术语″接头序列″指接头任一链上的序列，这一点从上下文中可以清楚地看出。也就是说，″接头序列″既可以指一条链上的接头序列，也可以指第二条链上的互补序列。例如，b-BLA接头序列可以是条形码寡核苷酸上的序列，也可以是杂交寡核苷酸上的序列。

术语″分支连接接头″、″分支接头″或″BLA″指的是部分双链接头。所述部分双链接头包括：(i)双链平端，包括一条链的5′末端和互补链的3′末端；(ii)单链区，其包括条形码序列。如下文所述，分支接头双链区的5′末端可通过分支连接与核酸片段的3′末端连接。

术语″珠-固定分支连接接头″或″b-BLA″是指固定在珠子上的分支连接接头。本文公开的b-BLA由条形码寡核苷酸和杂交寡核苷酸组成，二者相互杂交。

术语″条形码寡核苷酸″是指包含条形码序列的b-BLA链。

术语″杂交寡核苷酸″是指与条形码寡核苷酸互补的分支连接接头链。

术语″可逆终止子核苷酸″或″可逆终止子″是指具有3′可逆阻断基团的核苷酸。″可逆阻断基团″是指可被裂解以在核苷酸的3′位提供羟基的基团，该羟基可与另一种核苷酸的5′磷酸基团连接。可逆阻断基团可通过酶、化学反应、热和/或光来裂解。具有3′可逆封端基团的示例核苷酸在本领域是已知的，于美国专利号10,988,501中公开，相关公开内容在此并入作为参考。

术语″复制(拷贝)″是指通过引物延伸产生模板的互补核苷酸链。

III.方法的示例性实施方案

可根据各种方案实施缺口-连接方法。本节提供方法的示例性实施例。具有分子生物学和测序技术的从业人员在本公开内容的指导下，会认识到个别步骤和试剂的许多变化都可以并入下面的方案中。

方法

1.缺口

在一种方法中，目标核酸与一种或多种缺口剂结合，从而在双链DNA中产生交错的单链断裂。在某些实施方案中，缺口剂是一种酶(一般称为″缺口酶″)，例如，一种内切酶，它能裂断多核苷酸链中的磷酸二酯键或从多核苷酸链中去除一个或多个相邻的核苷酸。在某些情况下，缺口酶是一种非序列特异性内切酶，可在随机位置缺口DNA链。缺口剂的非限制性实例包括弧菌裂解酶(Vvn)、虾dsDNA特异性内切酶、DNAse I、segmentase(MGI)和masterase(Qiagen)。在某些实施方案中，缺口剂是一种位点或序列特异性核酸内切酶，如限制性内切酶，可在其识别序列上剔除DNA。位点特异性核酸酶的非限制性实例包括Nt.CviPII(CCD)、Nt.BspQI和Nt.BbvCI，如Shuang-yong Xu，BioMol Concepts 2015；6(4)：253-267中所述，整个公开内容在此并入作为参考。

在某些实施方案中，本文所公开的缺口剂也可以是化学缺口剂。化学缺口剂的非限制性实例包括二肽丝氨酰-组氨酸(Ser-His)、Fe2+/H₂O₂或Cu(II)复合物/H₂O₂。

因此，缺口剂可分为非特异性缺口酶、位点特异性缺口酶或化学缺口剂等类别。在某些实施方案中，该方法使用两种或两种以上的缺口剂。在某些实施方案中，该方法使用同一类缺口剂中的两种或两种以上缺口剂。在某些实施例中，该方法使用不同类别的缺口剂。

一些参数会影响断裂所分离的核酸片段的长度。通常情况下，缺口剂的浓度越高，缺口剂的处理时间越长，片段的长度就越短。通过调整这些参数中的一个或多个，可以将片段的长度控制在所需的范围内。在某些实施方案中，核酸片段的平均长度在200到10000个核苷酸之间，例如200-500个核苷酸或400-1000个核苷酸或1000-10000个核苷酸。

2.间隙

在某些实施方案中，由缺口酶产生的缺口被外切核酸酶扩展(加宽)以形成间隙。这一过程可称为″间隙″，在此过程中使用的外切酶可称为″间隙酶″。具有3′外切酶活性的酶的例子包括DNA聚合酶I、Klenow片段(在没有核苷酸的情况下)、外切酶III以及本领域已知的其他酶。具有5′外切酶活性的酶包括Bst DNA聚合酶、T7外切酶、截短的外切酶VIII、Lambda外切酶、T5外切酶以及本领域已知的其他外切酶。低处理率的外切酶(即以相对较低的速度从多核苷酸末端去除核苷酸的外切酶)最好能打开一个较短的间隙(如2-7个碱基、3-10个碱基或3-20个碱基)并与DNA分离，以便进行接头连接。在使用外切酶的情况下，如有必要，可通过在接头5′和3′端部的碱基(或修饰碱基)之间引入硫代磷酸键来保护DNA接头不被外切酶消化。

图2展示了使用一种或多种缺口剂和一种或多种间隙酶生成重叠核酸片段(240)的过程，这些片段被交错的单链断裂(230)分开。

3.添加接头(连接)

如上文所述和图2所示，缺口和间隙产生多个片段(240)，每个片段具有5′末端和3′末端。在某些实施方案中，″片段″是单链的，尽管如上文和本文其他地方所讨论的，片段可以与互补链杂交，例如形成核酸复合物。第一接头与片段的一个末端(可以是5′末端或3′末端)连接，第二接头(与第一接头不同)与另一个末端连接。其结果是具有两种不同接头序列的多个已接头片段；反应中产生的所有已接头片段具有相同的确定排列(例如，第一接头序列在5′端，第二接头序列在3′端，或者，第二接头序列在5′端，第一接头序列在3′端)。

在本发明的一个方面，第一接头连接到片段的3′末端，第二接头连接到片段的5′末端。在某些实施方案中，第一接头是b-BLA，在″3′分支连接″过程中与片段连接。在某些实施方案中，第二接头是″L-接头″。在某些实施方案中，第一接头和第二接头的连接是在与缺口和间隙反应相同的反应混合物中进行的。

第一接头连接

在某些实施方案中，第一接头是BLA。BLA是本领域已知的，其定义如上。BLA包括：(i)双链平端，包括一条链的5′末端和互补链的3′末端；(ii)单链区域，其包括条形码序列。双链平端提供5′磷酸，可通过3′分支连接到目标核酸片段的3′端。3′分支连接是指将平端接头(供体DNA)的5′磷酸根与双链DNA受体的3′羟基端在3′凹陷链、间隙或缺口处进行共价连接。与传统的DNA连接不同，3′分支连接不需要碱基配对。3′分支连接的描述见Wang etal.，BioRxiv，June 29，2018，doi：https//doi.org/10.1101/357863；PCT公开号WO2019/217452；美国专利公开号US2018/0044668和国际申请WO2016/037418；US美国专利公开号2018/0044667，以及Wang et al.，June 29，2018，http：//dx.doi.org/10.1101/357863，所有内容均作为参考文献纳入本文。

使用3′分支连接，理论上可以对捕获的基因组分子的所有子片段进行扩增和测序。因此，3′分支连接具有广泛的分子应用，包括在NGS文库制备过程中将接头连接到DNA或RNA上。

此外，这一连接步骤还能将样本条形码置于基因组序列附近，以进行多路采样。将这些接头用于样品条形码的好处是，条形码可以与基因组DNA相邻放置，这样就可以使用相同的引物对条形码和基因组DNA进行测序，而无需额外的测序引物来读取条形码。样品条形码可使多个样品的制备物在测序前集中在一起，并通过条形码加以区分。3′分支连接接头可按96、384或1536板格式合成，每孔含有多份携带相同条形码的接头，各孔之间的条形码各不相同。在珠子上捕获后，这些接头可用于96、384或1536板格式的连接。

3′分支连接可以作为一种简单、低成本、无偏差的方法用于标准测序文库的制备，也可以在有条形码珠(可在条形码接头的3′或5′端连接到珠)的情况下作为一种联合条形码文库制备方法进行。这种策略依赖于T4DNA连接酶的一个特性，即它可以将双链DNA接头连接到DNA的3′端缺口或间隙，即所谓的″3′分支连接″，如Wang et al.，DNA Research，2019Feb 1 16(1)：45-53中所述。由于这种新型连接方式不需要接头末端的简并单链碱基在缺口处杂交，因此能更有效地在接头结合能力有限的珠子上进行接头连接。与需要较大间隙(如4-7个碱基)的L型接头连接不同，3′分支连接可以在缺口或很小的间隙(1个碱基的间隙)中进行。此外，与5′简并L-接头的连接不同，5′简并L-接头的连接可能需要高浓度的5′简并L-接头，以补偿连接酶在杂交前不能与L-接头的单链5′-磷酸端结合的事实。

为了使珠子上的3′-分支连接最有效，这些接头可能具有相同碱基的绵延段或简单重复的绵延段，以改善对不完全(如自由松散环)包裹在每个珠子上的目标DNA的访问。在将珠子与基因组DNA混合之前，可将单链结合蛋白(SSB)与每个接头的单链部分结合。

在某些实施方案中，第一接头是b-BLA，它包括两条多核苷酸链，在此称为″条形码寡核苷酸″和″杂交寡核苷酸″。条形码寡核苷酸比杂交寡核苷酸长，包含至少一个条形码。条形码寡核苷酸与杂交寡核苷酸杂交，形成部分双链、平端的复合物。

在一些实施方案中，条形码寡核苷酸具有5′磷酸，可在分支连接中连接到3′凹陷片段的3′末端，并具有与珠子连接的3′末端；而杂交寡核苷酸不与珠子连接，杂交寡核苷酸具有3′阻断核苷酸(如双脱氧阻遏核苷酸)，可防止形成磷酸二酯键，从而防止分支接头自连接。3′分支连接的结果是条形码寡核苷酸连接到片段上。见图9A。

在一些实施方案中，杂交寡核苷酸具有5′磷酸，可在分支连接中与3′凹陷片段的3′连接，并具有与珠子连接的3′末端；而条形码寡核苷酸不与珠子连接，条形码寡核苷酸具有3′阻断核苷酸，可防止形成磷酸二酯键。3′分支连接(下面讨论)的结果是杂交寡核苷酸连接到片段上，见图3和图4。

在某些实施方案中，第一接头处于溶液中。在某些实施方案中，部分第一接头固定在珠子上，部分第一接头在溶液中。

第二接头连接

缺口和间隙DNA中的片段(彼此相互关联)与第二接头连接。第二接头可以是L-接头、s-BLA或任何双链或部分双链接头。

在一些实施方案中，第二接头是L-接头。在某些实施方案中，L-接头处于溶液中。在美国专利No.10,479,991中对L-接头进行了描述，其全部公开内容在此并入作为参考。本方法中使用的L-接头是单链接头，包括杂交区和尾区。L型接头的杂交区包括3′端的简并碱基，如3′端1-10、3-8或4-7个简并核苷酸(Ns)。这样，L-接头就能与各种目标序列杂交。当与上述缺口DNA中的核酸片段接触时，L-接头的杂交区会与目标核酸中的互补序列退火，而尾部区域则保持单链。在允许连接的条件下，L-接头的3′端与核酸片段的5′端连接。参见图3-5。

在某些实施方案中，L-接头包括杂交区旁的特定碱基，以提高连接效率和减少假象。例如，如果反应中使用的缺口酶优先切割某些碱基或序列，可将相同的碱基(或互补碱基)设计到L-接头的末端以提高连接效率。在某些实施方案中，可在同一反应中使用具有不同序列(例如具有不同数目的简并核苷酸)的两个或多个L-接头。

在一些实施方案中，第二接头是部分链接头(图6、7B和8)。在某些实施方案中，第二接头具有双链平端。在某些实施方案中，在缺口和间隙DNA中的片段与第一接头连接并通过引物延伸形成双链DNA后，可将第二接头连接到与第一接头相反的末端。见图5、6B和7。在某些实施方案中，第二接头通过平端连接到片段上。在某些实施方案中，第二接头通过单碱基悬空连接到片段上，条件是在延伸步骤中使用了留下A尾的聚合酶。

在同一反应中将两个接头分别连接到缺口或间隙的5′侧和3′侧

在某些实施方案中，第一接头(如b-BLA)可添加到片段的3′末端，第二接头(如L-接头)可连接到缺口和间隙DNA片段的5′末端。而连接是在同样的混合物中进行的，同时也会发生缺口和间隙。在某些实施方案中，经过一轮缺口-连接反应后，可以在额外的第一和/或第二接头存在的情况下，用缺口酶和/或间隙酶孵育包裹有基因组DNA的珠子，从而发生第二轮缺口-连接反应。这种缺口-连接过程可以重复多轮，例如两轮、三轮或四轮，以提高用两个接头连接的产物的产量。举例说明见实施例6和7。

可以通过调整L-接头的浓度、温度、循环、pH值、盐浓度和其他添加剂来优化条件，以同时连接缺口中的两个接头，从而增强已连接到基因组片段的分支接头的3′端DNA呼吸，使L-接头杂交和连接的单链区更短。见下文第5节″同时缺口和连接的条件″。在某些实施方案中，为了实现更完全的连接，从而实现更多的非重复读数覆盖，除了b-BLAs外，还可以在溶液中向反应中添加额外的分支连接接头(s-BLAs)。

在某些实施方案中，向反应中添加具有5′外切酶活性的酶，以去除多余的第一接头。这可以在L-接头连接之前进行，也可以与L-接头连接同时进行。由于必须去除多余的接头，因此可以使用较高浓度的L-接头，例如0.01至100μM、O.1至50μM、0.5至30μM、1至20μM，而不会产生大量珠-接头+L-接头连接假象。具有第一接头序列和第二接头序列(如L-接头)的已接头片段可以在Illumina型系统和其他不需要环化的系统上测序。下文将进一步描述测序的各个方面。

在某些情况下，可以添加具有3′外切酶活性的附加酶(如DNA聚合酶I、不含核苷酸的Klenow片段、外切酶III或类似物)或具有5′外切酶活性的附加酶(Bst DNA聚合酶全长或不含核苷酸的Taq聚合酶、T7外切酶、截短的外切酶VIII、Lambda外切酶、T5外切酶或类似物)，以增加缺口的开放度，为第二接头(例如L-接头)的连接提供更大的空间。同时具有3′和5′外切酶活性的酶或酶的组合具有优势，即使分支接头在缺口中连接，也能为L-接头的连接留出空隙。在使用外切酶的情况下，如有必要，可通过接头5′和3′端碱基和/或修饰碱基之间的硫代磷酸键来实现对DNA接头的保护。如上所述，该反应可在聚乙二醇或甜菜碱存在下进行，以提高连接和/或缺口酶的活性。

此时，如有需要，可按上文所述去除多余的接头。可使用低浓度的L-接头和其他条件来减少接头-接头连接(例如L-接头本身之间的连接或b-BLA与L-接头之间的连接)，并通过外切酶跳过去除多余的接头。否则，现在就可以进行PCR，因为子片段的两侧现在都有接头序列。在进行PCR之后，或者如果跳过PCR以实现无PCR版本的处理，那么如上一节所述，下一步就是环化，然后进行滚环扩增。

在一个说明性的实施方案中，在单个反应混合物中，非特异性核酸缺口核酸酶、DNA连接酶和第一接头、第二接头与双链目标核酸混合，以产生在两个末端都具有接头序列的片段。在优选的实施方案中，第一接头和第二接头中的一个与微米大小的珠子结合，另一个接头在溶液中。

在单个反应混合物中加入两个接头的过程可在溶液中进行，是一种简单、低成本、无偏差的标准测序文库制备方法。当使用附有接头的条形码化珠子时，此过程也可用作共条形码文库制备方法。

4.同时缺口和连接的条件

在一些实施方案中，可以在添加剂(例如聚乙二醇或甜菜碱)的存在下对目标核酸缺口和间隙，并将一个或多个接头连接到由缺口和间隙产生的片段上，以提高连接酶的活性、缺口剂的活性或两者的活性。在某些实施方案中，连接包括至少将珠-结合的第一接头(如b-BLA)连接到核酸片段上。在某些实施方案中，连接包括将溶液中与珠-结合的第一接头和第二接头(如L-接头)与核酸片段连接。

4.1温度

反应可以保持在5-65℃的温度范围内，例如5-42℃、10-37℃或5-15℃。在某些实施例中，反应在室温(37℃)下进行。在某些实施方案中，当使用热稳定连接酶和缺口酶时，反应可保持在高于37℃的温度下进行。在一些实施方案中，反应物在较低温度(5℃-25℃，例如10℃-15℃)和较高温度(例如37℃或更高)之间进行条件循环，循环多次(例如5-100次循环，或20-60次循环，30-55次循环等)。示例见实施例1-7。

4.2pH

在某些实施方案中，反应混合物的pH值保持在5.0到9.0的范围内，例如7.0到9.0，以适应文库制备所需的所有酶功能。缺口和连接反应的持续时间可根据所需的核酸片段大小和其他条件(如酶(包括聚合酶、外切酶或两者)的浓度、时间、温度、输入DNA的量等)而有所不同。

4.3时间

通常情况下，缺口和连接反应的持续时间为5分钟至5小时，如15-90分钟或30-120分钟。可采用本领域已知的方法终止反应。在某些实施方案中，缺口和连接是在溶液中进行的，反应可通过DNA纯化方法(如Beckman Coulter的Ampure XP珠)终止。在某些实施方案中，缺口和连接是在珠子上进行的，反应可以通过用缓冲液(如Tris NaCl缓冲液)洗涤珠子来终止，以除去缺口和连接反应所需的酶和成分。

4.4酶

本文所述的方法和组合物允许在单个反应混合物中进行缺口和连接。在某些实施例中，选择的条件和酶可使连接发生率高于缺口/间隙发生率。这就保证了在随后的间隙之前，最初间隙的部分缺口会被接头连接到大部分缺口上，从而最大限度地减少DNA的损失。本文公开的方法和组合物允许较高的缺口重封率，例如缺口重封率为70-100％，如70-90％、80-90％、80-95％、90-99％)。这里所说的缺口重封率是指被打开的间隙被连接酶重封的百分比。高缺口重封率可通过多种方式实现。在某些实施方案中，使用低活性缺口酶进行缺口。在某些实施方案中，使用低浓度(如0000001-10U/ul)的缺口酶进行缺口。在某些实施方案中，使用具有高连接率的连接酶进行连接。在某些实施方案中，使用高浓度的连接酶进行连接，例如1-100U/μl。

4.5添加组分的顺序

单个反应混合物中添加组分的顺序可以不同。在某些实施方案中，连接酶在加入缺口酶之前加入，或与缺口酶同时加入。加入连接酶和将目标核酸加载到珠子上的顺序可以改变。在某些实施方案中，在加入目标核酸(如基因组DNA)之前，先将连接酶加入固定有接头的珠子中。在某些实施方案中，先将目标核酸加载到珠子上，然后再加入连接酶。

在某些实施方案中，最好在加入任何缺口酶和连接酶之前将目标核酸装载到珠子，这样目标核酸就会在缺口和连接之前与珠子结合。基因组DNA包裹在微米大小的顺磁珠子上的速度非常快，通常约为1-10分钟。在某些实施方案中，可以采取额外的程序来提高目标核酸与珠子的结合效率，这对于将长DNA(例如，长度超过200kb的DNA)与大珠子(例如，直径为3微米或更大的珠子)结合可能特别有用。在一些实施方案中，目标核酸在含有PEG的缓冲液中与珠子结合，PEG的浓度相对较高，如3-12％，如5-10％，较高的PEG浓度通常会导致较高的结合率。在某些实施方案中，目标核酸在pH值相对较高的缓冲液中与珠子结合，以增强珠子对目标核酸的吸收。在某些实施方案中，pH值大于7.5，例如7.5-9、8.0-9.0或8.0-8.5。高pH值可增加DNA的吸附性，尤其是在PEG浓度较低的缓冲液中，如5％。在某些实施方案中，缓冲液包含低浓度盐，如10mM MgCl₂。本文公开的方法和组合物允许长DNA在这些条件下快速(如5-15分钟，大部分DNA在1-5或2-10分钟内结合)缠绕珠子，在与珠子结合前减小长DNA(如>200kb，或>300kb或>500kb)的片段。例如，长度超过1Mb的gDNA可与直径约为3um的珠子结合。

与珠子结合的目标核酸仍可进行酶反应，如缺口、间隙或接头连接。这样就可以在10-1000个接触点上对与珠子结合的长DNA片段(如20-500kb)进行共同编码。这样就可以对吸附在珠上的DNA进行多个连续的酶反应，特别是在如上所述保持DNA与珠结合的条件下。

DNA可以从珠子中释放出来，为测序做准备。释放DNA的方法包括但不限于使用pH值在7-8(例如约7.5)之间的低盐缓冲液(＜200mM)，时间在10分钟至1小时之间，例如约15分钟至约45分钟，约15分钟至约45分钟或约30分钟。

5.去除多余珠-接头的可选步骤

可选地，在缺口和连接之后，使用各种酶去除多余的接头，即未与目标核酸片段连接的接头。在某些实施方案中，珠子结合的接头是部分双链的，每个接头都包括一个相对较短的双链区(如6到20个碱基)，并且相对容易变性。也就是说，接头可以在不破坏固定在珠上的双链基因组DNA的条件下变性为单链DNA。将温度升高到短双链区域的熔点最容易做到这一点。

表1列出了可用于此目的的各种酶。

表1.可用于去除多余珠-结合接头的示例酶

然后可以使用外切酶去除变性的单链珠结合接头。在某些实施方案中，使用外切酶(如RecJ或ExoVII)去除过量的与珠子结合的接头，这些接头的3′端部连接到珠子上，这种外切酶可以在5′到3′方向上去除单链DNA上的核苷酸。在某些实施方案中，使用外切核酸酶(如Exol、ExoT)去除多余的珠-结合接头，该接头的5′末端与珠连接，该外切核酸酶可沿3′至5′方向从单链DNA中去除核苷酸。

或者，不需要变性，多余的、部分双链珠结合的接头可以在没有dNTPs的情况下，用单链特异性外切酶和对dsDNA具有3′到5′外切酶活性的酶，如ExoIII、T4 DNA聚合酶或Phi29 DNA聚合酶的混合物消化。在本实施方案中，基因组dsDNA将通过连接到DNA缺口或间隙3′末端的接头而免受这些酶的降解。连接产生的核酸片段具有单链末端，而单链末端不是这些dsDNA特异性外切酶的底物。

在另一种方法中，可以用特定的碱基(如尿嘧啶或肌苷)设计珠结合接头的短双链区域，然后用相应的DNA糖基化酶(如UDG或hAAG)处理这些碱基(以产生缺失位点)，再用EndoIV、EndoVIII、APE1或任何其他可以去除缺失位点的酶去除这些缺失位点。使用这种策略，可以进一步降低短双链区的熔化温度，因为在去除这些碱基后，连续双链区的长度会进一步减少。

还有一种方法，如果反应是在溶液中进行的，可以通过DNA纯化方法(如Ampure XP珠)去除多余的接头。在另一种方法中，当反应在珠子上进行时，多余的接头和与接头连接的产物可以通过酶解从珠子上释放出来。在某些实施方案中，珠子结合的接头包括位于珠子近端位置的尿嘧啶或肌苷或两者，可以添加酶来释放这些碱基，从而将接头从珠子中释放出来。在某些实施方案中，接头通过易受化学处理的键与珠子结合，可以添加化学物质来释放接头。例如，接头通过生物素链霉亲和素相互作用与珠子结合，加热或用甲酰胺处理与珠子结合的接头可以破坏这种相互作用。在另一个例子中，接头通过光可裂解连接体与珠子结合，光可用于裂解连接体并将接头从珠子中释放出来。

在某些实施方案中，该方法不包括去除多余的珠子结合的接头的步骤；在如上所述的缺口和连接步骤之后，进行引物延伸步骤。在某些实施方案中，引物延伸步骤是在去除多余的珠-接合接头之后进行的。

6.延伸以复制条形码

在某些实施方案中，与分支接头连接的核酸片段会被DNA聚合酶延伸以复制条形码。图6显示了一个说明性的实施例。

在一些实施方案中，引物延伸步骤可在珠上或溶液中进行，以复制条形码。在一些实施方案中，执行变性步骤(例如，通过加热)以产生与接头连接的单链片段，并使用不具有链置换活性的聚合酶(例如pfu、pfuCx、Taq聚合酶、DNA pol 1)延伸与核酸片段连接的链以复制条形码。图3和图4。在某些实施例中，不进行变性步骤，使用链置换聚合酶(如phi29聚合酶或Bst)延长引物。在一个示例中，反应在95℃下变性3分钟，然后引物在55℃下退火3分钟，使用pfuCx将引物在72℃下延伸10分钟。

在某些实施方案中，如果条形码延伸产物在溶液中，则可在此步骤中进行另一轮纯化。如果仍与珠子结合，则可在Tris NaCl缓冲液中清洗珠子。

如图3和图4所示，在延伸核酸片段已包含两个接头(核酸片段的每个末端各一个)的情况下，可将延伸片段从珠子中释放出来，以进行下文所述的进一步处理。在某些实施方案中，延伸产物中只有一个接头，如图6和图7A所示，可以将第二个接头连接到核酸片段的与第一个接头相反的末端。在某些实施方案中，第二接头通过平端连接到核酸片段上。在某些实施方案中，如果在延伸步骤中使用了留下A尾的聚合酶，则可以通过单碱基悬空连接将第二接头连接到核酸片段上。重要的是，为了以无PCR的方式进行连接，接头的3′OH要连接到产物的5′PO4上。这是原始的DNA链(而不是延伸过程中产生的拷贝)。对于基于PCR的文库预处理策略，通常会在此时进行另一轮DNA纯化，然后再进行PCR扩增。

7.受控延伸以分离已连接和未连接的接头

7.1受控延伸

在另一方面，在将第一接头(例如b-BLA)与上述单链断裂分离的核酸片段进行分支连接后，该方法包括在允许控制延伸反应程度的条件下延伸与第一接头序列杂交的引物。这些延伸控制条件包括但不限于选择具有合适聚合速率或其他特性的聚合酶，以及使用各种反应参数，包括(但不限于)反应温度、反应持续时间、引物组成、DNA聚合酶、引物和核苷酸浓度、添加剂和缓冲液组成。在某些情况下，延伸可以通过可逆终止子和正常核苷酸的混合来控制。可逆终止子核苷酸量与正常核苷酸量的比例可以调整，以达到延伸的程度；一般来说，可逆终止子核苷酸量与正常核苷酸量的比例越高，延伸越不完全。在某些实施方案中，延伸被控制为只增加约100-150个碱基。

在某些实施方案中，引物与第一接头中条形码序列3′侧的序列杂交，并在延伸控制条件下延伸。在这些条件下，引物延伸复制连接产物--由第一接头与目的片段连接产生--是不完全的，从而产生部分双链分子；而引物延伸复制未连接的b-BLA是完全的，从而产生双链分子。使用受控延伸制备已接头核酸片段的示例如图10A-10B和图11A-11B。

引物的不完全延伸复制连接的第一个接头会留下一个5′悬空，可用于3′分支连接。如果使用可逆终止子，在延伸反应结束时，去除可逆终止子的阻断基团以恢复3′OH基团。此时可进行3′分支连接，将第二个接头连接到片段的3′末端，从而产生接头片段，该片段的一个末端具有第一个接头序列，另一个末端具有第二个接头序列。在某些实施方案中，可逆终止子可以不同浓度、不同时间点或不同周期添加，以提供核酸片段中大多数核苷酸的重叠覆盖。

引物完全延伸复制未连接的第一个接头会产生双链分子，具有双链DNA外切酶活性的酶可以降解和去除双链分子，见表1。

7.2去除多余的接头

以下示例方法可用于去除多余的未连接接头(即未连接到任何核酸片段的接头)，以尽量减少这些未连接接头对文库制备的负面干扰。

7.2.1通过珠子纯化去除未连接的接头

在某些实施方案中，溶液中多余的接头可通过Ampure XP珠纯化(BeckmanCoulter，Brea，CA)去除。

7.2.2用发夹式接头阻断未连接的接头

在某些实施方案中，可以使用包括但不限于以下方法降解或阻断多余的接头。图9A和9B中描述的第一种方法使用受控引物延伸，使延伸仅增加约100-150个碱基。这种延伸中使用的聚合酶(如Tag聚合酶)不具有3′-5′外切酶活性，它可以产生平端并在3′末端添加A尾。这将导致多余接头的完全延伸和A尾(即在接头的3′末端添加A)(950)，但复制接头片段(940)的延伸将是不完全的。接下来，用发夹式接头进行连接，发夹式接头的T尾与完全延伸的过量接头的A尾互补(950)，以阻止这些过量接头的延伸。然而，发夹式接头不能与未完全延伸的已接头核酸片段(970)连接。因此，这些片段(970)可以进一步延伸。在某些实施方案中，延伸是在正常核苷酸和可逆终止子的混合物存在下进行的，然后进行反应去除终止子阻断基团，再用BLA(980)进行3′分支连接。现在可以将该产物(990)变性并与珠子分离，保存起来用于测序。珠子可重复用于另一轮使用可逆终止子的引物延伸、去除阻断基团、3′分支连接和变性。这个过程可以重复多次，使用不同浓度的终止子，使基因组片段的DNA几乎完全重叠覆盖。

7.2.3降解多余的接头

在另一个实施方案中，如图10A和10B所示，使用具有3′-5′外切酶活性的聚合酶(例如Pfu、Q5、Phusion、T7、Vent、Klenow、T4)进行受控延伸。延伸仅限于约100-150个碱基。同样，结果是连接到基因组片段的接头发生不完全延伸，而多余的接头(即未连接的接头)发生完全延伸。由于聚合酶具有3-5′外切酶活性，结果产生了带有5′磷酸的平端dsDNA接头。这是lambda外切酶的理想底物，而这些接头片段的不完全延伸产物则不是lambda外切酶的理想底物。因此，用lambda外切酶处理可以降解所有未连接的多余接头。其余步骤与图9A和9B中描述的步骤基本相同，用于将第二接头连接到基因组片段上。

在另一个实施方案中，在受控延伸导致未连接的接头完全延伸和连接产物不完全延伸(图11A)之后，在反应中加入可逆终止子继续受控延伸。一段时间后，从延伸产物中移除终止子阻断基团，并在允许连接的条件下(例如，在连接酶和连接缓冲液存在的情况下)向反应中加入第二个接头。图11B.这将导致多余接头的平端连接和接头片段的3′分支连接。此时，使用链置换聚合酶延长新连接的分支连接接头的一条链(1190)，从而进行受控引物延伸。与之前一样，这种延伸受时间、温度和/或核苷酸浓度的控制，只延伸约100-150个碱基。这种延伸会导致第一个接头(如b-BLA)的链置换，并释放出一份dsDNA接头(1180+1190)，可将其与珠子分离并收集起来。与之前的示例一样，可以保存珠子，重复此过程以从每个连接到基因组DNA片段的接头生成重叠片段。

在某些实施方案中，如上所述(例如，在延伸控制条件下)连接的第一接头延伸后，可以通过平端连接或分支连接等方式将第二接头(图8，890)连接到延伸产物的末端。

8.释放

具有两个接头(每个接头位于一个末端)的延伸片段从珠子中释放出来。可以通过降解珠子或裂解接头寡核苷酸与珠子之间的化学连接来实现从珠子中的释放。在某些情况下，使用EndoV酶从捕获寡核苷酸中去除肌苷残基，或使用尿嘧啶脱糖基酶和EndoIV/EndoVIII或其他具有类似功能的酶去除尿嘧啶核苷酸，从而实现释放。在某些情况下，捕获寡核苷酸通过一个或多个二硫键与珠子交联。在这种情况下，可将珠子暴露于还原剂(如二硫苏糖醇(DTT)或三(2-羧乙基)膦(TCEP))中以实现释放。

9.扩增

在某些实施方案中，对上述方法步骤中产生的扩展片段进行扩增。此类扩增方法包括但不限于：多重位移扩增(MDA)、聚合酶链反应(PCR)、连接链反应(有时也称为寡核苷酸连接酶扩增OLA)、循环探针技术(CPT)、链位移检测(SDA)、转录介导扩增(TMA)、基于核酸序列的扩增(NASBA)、滚环扩增(RCR)(用于环化片段)和侵袭裂解技术。扩增可在片段化之后或本文概述的任何步骤之前或之后进行。

在图3中的一个示例中，通过将引物退火至L-接头和分支接头，扩增目标核酸片段与珠接头和L-接头连接形成的连接产物。

在某些实施方案中，延伸片段可首先变性为单链核酸分子。然后为每个单链核酸分子添加一个连接寡聚物，该寡聚物与添加到目标核酸片段两端的接头序列杂交，然后在连接酶(如T4或Taq连接酶)的作用下将单链核酸环化。用于RCR的DNA聚合酶可以是任何具有链置换活性的DNA聚合酶，例如Phi29、Bst DNA聚合酶、DNA聚合酶I的Klenow片段和Deep-VentR NDA聚合酶(NEB#MO258)。已知这些DNA聚合酶具有不同强度的链置换活性。本领域普通技术人员有能力为本发明选择一种或多种合适的DNA聚合酶。

10.测序

可以使用本领域已知的测序方法对扩增的扩展片段进行测序，包括但不限于基于聚合酶的合成测序(例如，HiSeq2500系统，Illumina，San Diego，CA)、基于连接的测序(例如，SOLiD 5500，Life Technologies Corporation，Carlsbad，CA)、离子半导体测序(例如，Ion PGM或Ion Proton Properties，Life Technologies Corporation，Carlsbad，CA)、零模波导(如PacBio RS测序仪，Pacific Biosciences，Menlo Park，CA)、纳米孔测序(如Oxford Nanopore Technologies Ltd.，Oxford，United Kingdom)、热测序(如454LifeSciences，Branford，CT)或其他测序技术。这些测序技术中有些是短读数技术，但也有一些能产生较长的读数，如GS FLX+(454Life Sciences；最长1000bp)、PacBio RS(PacificBiosciences；约1000bp)和纳米孔测序(Oxford Nanopore Technologies Ltd.；100kb)。对于单倍型分型，长读数是有利的，需要的计算量更少，尽管它们往往具有更高的错误率，在进行单倍型分型之前，可能需要根据本文所述的方法识别和纠正这种长读数中的错误。

根据一个实施方案，使用组合探针-锚连接(cPAL)进行测序，例如在US20140051588、U.S.20130124100中所述，为所有目的，这两个文件的全部内容通过引用并入本文。

在某些实施方案中，与接头连接的片段或其扩增产物可以变性以产生单链分子。例如，8-40个碱基的剪接寡核苷酸退火到单链分子的两端。这些退火寡核苷酸可使产物的两端有1-10个碱基重叠，类似于限制性酶消化质粒DNA后产生的悬空。然后可以用T4 DNA连接酶进行连接，在连接处形成一个带有一小段双链DNA的单链圆环。这些圆环现在可以用来制作DNA纳米球(DNB)，用于DNBseq测序仪。

在某些实施方案中，这些片段在3′末端包含b-BLA接头序列，在5′末端包含上述L-接头序列。这些已接头片段可在Illumina型系统和其他不需要环化的系统上测序。

组成

1.样品

含有目的核酸的样品可以从任何合适的来源获得。例如，样品可以从任何感兴趣的生物体获得或提供。这些生物体包括植物、动物(例如哺乳动物，包括人类和非人类灵长类动物)或病原体(例如细菌和病毒)。在某些情况下，样本可以是或可以从这些相关生物群体的细胞、组织或多核苷酸中获得。再比如，样本可以是微生物组或微生物群。可选地，样品是环境样品，如水、空气或土壤样品。

来自感兴趣的生物体或感兴趣的生物群的样本可以包括但不限于体液样本(包括但不限于血液、尿液、血清、淋巴、唾液、肛门和阴道分泌物、汗液和精液)；细胞；组织；活检、研究样本(例如，核酸扩增反应的产物)、核酸扩增反应的产物，如PCR扩增反应)；纯化样品，如纯化基因组DNA；RNA制剂；以及原始样品(细菌、病毒、基因组DNA等)。从生物体中获取目标多核苷酸(如基因组DNA)的方法是本领域众所周知的。

2.目标核酸

本文所用术语″目标核酸″(或多核苷酸)或″感兴趣的核酸″是指适用于本文所述方法处理和测序的任何核酸(或多核苷酸)。核酸可以是单链或双链，可以包括DNA、RNA或其他已知核酸。目标核酸可以是任何生物的核酸，包括但不限于病毒、细菌、酵母、植物、鱼类、爬行动物、两栖动物、鸟类和哺乳动物(包括但不限于小鼠、大鼠、狗、猫、山羊、绵羊、牛、马、猪、兔、猴和其他非人灵长类动物以及人类)。目标核酸可从个体或多个个体(即群体)中获得。获取核酸的样本可能包含来自细胞甚至生物体混合物的核酸，例如：包含人体细胞和细菌细胞的人类唾液样本；包含小鼠细胞和移植人类肿瘤细胞的小鼠异种移植样本等。目标核酸可以是未扩增的，也可以通过本领域已知的任何合适的核酸扩增方法进行扩增。目标核酸可根据本领域已知的方法进行纯化，以去除细胞和亚细胞污染物(脂质、蛋白质、碳水化合物、待测序核酸以外的核酸等)，也可以是未纯化的，即至少包括一些细胞和亚细胞污染物，包括但不限于为处理和测序而破坏以释放核酸的完整细胞。目标核酸可以使用本领域已知的方法从任何合适的样本中获得。此类样品包括但不限于生物样品，如组织、分离细胞或细胞培养物、体液(包括但不限于血液、尿液、血清、淋巴液、唾液、肛门和阴道分泌物、汗液和精液)；以及环境样品，如空气、农业、水和土壤样品等。

目标核酸可以是基因组DNA(如来自单个个体的DNA)、cDNA和/或复杂核酸，包括来自多个个体或基因组的核酸。复杂核酸的例子包括微生物组、孕妇血液中的循环胎儿细胞(参见Kavanagh et al.，J.Chromatol.B 878：1905-1911，2010)，circulating tumorcells(CTC)、癌症患者血液中的循环肿瘤细胞(CTC)。在一个实施方案中，这种复合核酸具有完整的序列，至少包括一个千兆碱基(Gb)(二倍体人类基因组包括约6Gb的序列)。

在某些情况下，目标核酸或第一复合体是基因组片段。在某些实施方案中，基因组片段的长度超过10kb，例如10-100kb、10-500kb、20-300kb、50-200kb、100-400kb或超过500kb。在某些情况下，目标核酸或第一复合体的长度为5,000至100,000Kb。单个混合物中使用的DNA(如人类基因组DNA)量可小于10ng、小于3ng、小于1ng、小于0.3ng或小于0.1ngDNA。在某些实施方案中，单个混合物中使用的DNA量可小于单倍体DNA量的3,000倍，如小于900倍、小于300倍、小于100倍或小于30倍。在某些实施方案中，单个混合物中使用的DNA量可以是单倍体DNA量的至少1倍，如至少2倍，或至少10倍。

可以使用常规技术分离目的核酸，例如S Sambrook and Russell，MolecularCloning：A Laboratory Manual，cited supra中所披露的那样。在某些情况下，特别是在特定步骤中使用少量核酸的情况下，当仅有少量样品核酸可用，且存在通过非特异性结合(如与容器壁等结合)造成损失的危险时，提供载体DNA(如非相关的环状合成双链DNA)与样品核酸混合使用是有利的。

根据本发明的某些实施方案，基因组DNA或其他复合核酸可通过任何已知方法从单个细胞或少量细胞中获得，无论是否经过纯化。

对于本发明的方法来说，长片段是可取的。基因组DNA的长片段可通过任何已知方法从细胞中分离出来。例如，Peters et al.，Nature 487：190-195(2012)中描述了从人类细胞中分离长基因组DNA片段的方案。在一个实施方案中，细胞被裂解，完整的细胞核通过温和的离心步骤沉淀下来。然后通过蛋白酶K和RNase消化数小时，释放基因组DNA。可通过透析一段时间(即2-16小时)和/或稀释等方法对材料进行处理，以降低剩余细胞废物的浓度。由于这种方法不需要采用许多破坏性过程(如乙醇沉淀、离心和涡旋)，基因组核酸基本上保持完整，产生的大部分片段长度超过150千碱基。在某些实施方案中，片段长度约为5至750千碱基。在更多的实施方案中，片段的长度为约150至约600、约200至约500、约250至约400以及约300至约350千碱基。可用于单倍型鉴定的最小片段约为2-5kb；虽然片段长度可受起始核酸制备操作产生的剪切力限制，但没有最大理论大小。

在其他实施方案中，长DNA片段的分离和处理方式可以最大程度地减少DNA对容器的剪切或吸收，包括例如在琼脂糖凝胶塞或油中分离细胞，或使用特殊涂层的试管和平板。

根据另一个实施方案，为了在具有少量细胞(例如，来自微生物检查或循环肿瘤或胎儿细胞的1、2、3、4、5、10、10、15、20、30、40、50或100个细胞)的样品中获得均匀的基因组覆盖，使用本文公开的方法对从细胞中获得的所有长片段进行条形码编码。

3.条形码

根据一个实施方案，所使用的含条形码序列具有两个、三个或更多区段，例如，其中一个区段是条形码序列。例如，引入的序列可包括一个或多个已知序列区段和一个或多个作为条形码或标签的简并序列区段。已知序列(B)可包括PCR引物结合位点、转座子末端、限制性内切酶识别序列(如稀有切割酶位点，如Not I、Sac II、Mlu I、BssH II等)或其他序列。作为标签的简并序列(N)足够长，以提供与待分析的目标核酸片段数目相等或优选大于该数目的不同序列标签群。

根据一个实施方案，含条形码序列包括一个任意长度的已知序列区域。根据另一个实施方案，含条形码序列包括两个选定长度的已知序列区域，其侧翼是选定长度的简并序列区域，即B_nN_nB_n，其中N可以具有足以标记目标核酸长片段的任何长度，包括但不限于N＝10、11、12、13、14、15、16、17、18、19或20，而B可以具有容纳所需序列如转座子末端、引物结合位点等的任何长度。例如，这样的实施方案可以是B₂₀N₁₅B₂₀。

在一个实施方案中，用于标记长片段的条形码采用两段或三段设计。这种设计允许通过将不同的条形码片段连接在一起形成完整的条形码片段，或在寡核苷酸合成中使用片段作为试剂，从而产生组合条形码片段，从而提供更多可能的条形码。这种组合设计提供了更多可能的条形码，同时减少了需要生成的全尺寸条形码的数量。在进一步的实施方案中，使用8-12个碱基对(或更长)的条形码可实现每个长片段的唯一识别。

在一个实施例中，使用了两个不同的条形码段。A段和B段很容易修改，各自包含不同的半条形码序列，从而产生成千上万种组合。在另一个实施例中，条形码序列被整合到同一个接头上。这可以通过将B接头分成两部分来实现，每一部分都包含一个半条形码序列，中间用一个用于连接的共同重叠序列隔开。两个标签部分各有4-6个碱基。一个8碱基(2x4碱基)的标签组能够唯一标记65,000个序列。2x5个碱基和2x6个碱基的标记都可包括使用简并碱基(即″通配符″)，以达到最佳解码效率。

在更多的实施方案中，每个序列的唯一识别是通过8-12碱基对纠错条形码实现的。条形码的长度可为5-20个信息碱基，通常为8-16个信息碱基。

4.UMI

在各种实施方案中，唯一分子标识符(UMI)用于区分单个DNA分子。例如，UMI用于区分固定在第一珠上的捕获寡核苷酸。生成的接头集合每个都有一个UMI，这些接头连接到待测序的片段或其他源DNA分子上，每个测序分子都有一个UMI，有助于将其与所有其他片段区分开来。在这种情况下，可以使用大量不同的UMI(例如数千到数百万个)来唯一识别样本中的DNA片段。

UMI的长度足以确保每个源DNA分子的唯一性。在某些实施方案中，唯一分子标识符的长度约为3-12个核苷酸，或3-5个核苷酸。在某些情况下，每个唯一分子标识符的长度约为3-12个核苷酸，或3-5个核苷酸。因此，唯一分子标识符的长度可以是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18或更多核苷酸。

5.条形码化珠

珠子由固定在其上的b-BLA中的条形码寡核苷酸编码。每个珠子包含多个b-BLA，因此包含多个条形码寡核苷酸。每个条形码寡核苷酸包括至少一个条形码。同一微珠上的条形码寡核苷酸具有相同的条形码序列，而不同珠子上的条形码寡核苷酸具有不同的条形码序列。因此，每个珠子上都有许多份独特的条形码序列，可使用上述方法将其转移到目标核酸片段上。

所用珠子的直径可在1-20微米范围内，也可为2-8微米、3-6微米或1-3微米，例如约2.8微米。例如，珠子上条形码寡核苷酸的间距可以是至少1纳米、至少2纳米、至少3纳米、至少4纳米、至少5纳米、至少6纳米或至少7纳米。在一些实施方案中，间距小于10纳米(例如5-10纳米)、小于15纳米、小于20纳米、小于30纳米、小于40纳米或小于50纳米。在某些实施例中，每种混合物使用的不同条形码的数量可以>1M、>10M、>30M、>100M、>300M、或>1B。如下文所述，本发明可使用本文所述的方法等生产大量条形码。在某些实施例中，每种混合物使用的不同条形码的数量可以>1M、>10M、>30M、>100M、>300M、或>1B，并且它们是从至少10倍以上的多样性库中采样的(例如，从>10M、>0.1B、0.3B、>0.5B、>1B、>3B、>10B珠子上的不同条形码中采样)。在一些实施例中，每个珠子上的条形码数量介于100k到10M之间，例如，介于200k到1M之间，介于300k到800k之间，或约400k之间。

在一些实施方案中，条形码区域的长度约为3-15个核苷酸，例如5-12、8-12或10个核苷酸。在某些情况下，条形码区的每个条形码长度约为3-12个核苷酸，或3-5个核苷酸。因此，条形码(无论是样品条形码、细胞条形码还是其它条形码)的长度可以是3、4、5、6、7、8、9、10、11、12、13、14、15或更多核苷酸。在一个特定的例子中，每个条形码区域包括三个条形码，每个条形码由10个碱基组成，三个条形码之间由6个碱基的共同序列隔开。

条形码化珠被转移到目标核酸序列上。在一些实施方案中，通过将接头寡核苷酸的3′末端连接到通过所公开的核酸片段的核酸片段上，以一定的间隔进行转移。

在一些实施方案中，条形码化珠是通过使用三组双链条形码DNA分子的分裂和汇集连接策略构建的。在一些实施方案中，每组双链条形码DNA分子由10个碱基对组成，三组分子的核酸序列不同。PCT公开号WO2019/217452中描述了生产条形码珠子的示例性方法，其公开内容在此全文并入作为参考。WO2019/217452的图12和13也说明了拆分和汇集法的方法。在一种方法中，将包含PCR引物退火位点的通用接头序列连接到带有5′双生物素连接子的Dynabeads^TM M-280 Streptavidin(ThermoFisher，Waltham，MA)磁珠上。整合DNA技术(Coralville，IA)构建了三组1536个条形码寡聚体，其中包含序列重叠区域。连接在384孔板中的15μL反应液中进行，反应液含有50mM Tris-HCl(pH7.5)、10mM MgCl₂、1mM ATP、2.5％PEG-8000、571单位T4连接酶、580pmol条形码寡聚体和6500万颗M-280珠子。连接反应在室温下旋转孵育1小时。在两次连接之间，通过离心将珠子集中到一个容器中，用磁铁收集到容器的一侧，然后用高盐洗涤缓冲液(50mM Tris-HCl(pH7.5)、500mM NaCl、0.1mMEDTA和0.05％Tween 20)洗涤一次，用低盐洗涤缓冲液(50mM Tris-HCl(pH7.5)、150mMNaCl和0.05％Tween 20)洗涤两次。将珠子重新悬浮在1X连接缓冲液中，然后分布到384孔板中，并重复连接步骤。

在一个方面，本发明提供了一种组合物，该组合物包括带有转接寡核苷酸的珠子，转接寡核苷酸包括附着的克隆条形码，其中组合物包括30多亿个不同的条形码，条形码是具有5′-CS1-BC1-CS2-BC2-CS3-BC3-CS4结构的三重条形码。在某些实施例中，CS1和CS4比CS2和CS3长。在某些实施方案中，CS2和CS3的长度为4-20个碱基，CS1和CS4的长度为5或10至40个碱基，例如20-30个碱基，而BC序列的长度为4-20个碱基(例如10个碱基)。在某些实施方案中，CS4与剪接寡核苷酸互补。在某些实施方案中，组合物包含桥寡核苷酸。在某些实施方案中，组合物包括桥接寡核苷酸、包含上文讨论的三重条形码的珠子，以及包含与桥接寡核苷酸互补区域的杂交序列的基因组DNA。

克隆条形码的另一种来源，如与多个标签拷贝相关联的珠子或其他支持物，可以通过乳化PCR或CPG(可控孔玻璃)或化学合成制备。含标签的DNA序列群可以通过已知的方法在油包水(w/o)乳液中的珠子上进行PCR扩增。例如，见Tawfik and Griffiths NatureBiotechnology 16：652-656(1998)；Dressman et al.，Proc.Natl.Acad.Sci.USA 100：8817-8820，2003；和Shendure et al.，Science 309：1728-1732(2005)。这使得每个珠子上的每个含标签序列都有许多拷贝。

制作克隆条形码源的另一种方法是在微珠或CPG上以″混合和分割″组合工艺合成寡核苷酸。使用这种方法可以制造出一组微珠，每组微珠都有一个条形码拷贝群。例如，要制作所有的B₂₀N₁₅B₂₀，平均每100个珠子上有大约～1000+多个拷贝，其中每个珠子上有大约10亿个拷贝，可以从大约1000亿个珠子开始，在所有珠子上合成B₂₀共用序列(接头)，然后将它们分成1024个合成柱，在每个柱子上合成不同的5-mer，然后将它们混合，再分成1024个柱，合成更多的5-mer，然后再重复一次，完成N15，然后将它们混合，在一个大柱中合成最后一个B₂₀作为第二个接头。这样，在3050次合成中，就能做出与用～1000亿个珠子(1¹²个珠子)进行的大型仿真PCR反应相同的″克隆式″条形码集，因为10个珠子中只有1个有起始模板(其他9个没有)，以防止每个珠子有两个不同条形码的模板。

PCT公开号WO2019/217452号中描述了条形码序列组装的示例性过程，其公开内容在此并入作为参考。

6.固定化

多核苷酸可以通过各种技术固定在底物(例如珠子)上，包括共价和非共价附着。多核苷酸可以通过多种技术固定到底物上。在某些实施方案中，多核苷酸与底物(如珠子)连接，即多核苷酸的一个末端直接与底物接触或连接。例如，表面可能具有活性官能团，与多核苷酸分子上的互补官能团发生反应，形成共价连接。长DNA分子，例如几个核苷酸或更大的DNA分子，也可以有效地附着在疏水表面上，例如具有低浓度各种活性官能团(如-OH基团)的洁净玻璃表面。在另一个实施方案中，多核苷酸分子可通过与表面的非特异性相互作用，或通过氢键、范德华力等非共价相互作用吸附到表面上。

在一些实施方案中，多核苷酸通过与表面上的捕获寡核苷酸杂交并与捕获寡核苷酸组分形成复合物(例如双链双工物或部分双链双工物)而固定到表面上。

7.反应混合物

本文提供的反应混合物包含一种或多种缺口剂、一种或多种连接酶、多个珠子、多个被交错单链断裂分隔的重叠核酸片段。每个珠子包括至少一个固定在其上的分支连接接头。每个分支连接接头包括一个杂交寡核苷酸和一个条形码寡核苷酸。条形码寡核苷酸包括条形码并与珠子连接，而杂交寡核苷酸不与珠子连接。多个珠子中的每一个都包含唯一的条形码序列，即同一珠子上的分支连接接头具有相同的条形码序列，而不同珠子上的分支连接接头具有不同的条形码序列。

条形码寡核苷酸与杂交寡核苷酸杂交，形成部分双链核酸分子，包括单链区和双链区。双链区包括具有5′末端和3′末端的双链平端，双链平端的5′末端与核酸片段的3′末端连接。

示例性实施方案

以下是本文公开的方法和组合物的非限制性示例性实施方案。

实施方案1.一种制备用于测序的已接头多核苷酸文库的方法，包括在单一反应混合物中：(a)使双链目标核酸与一种或多种缺口剂接触，以产生由交错的单链断裂分隔的多个重叠的核酸片段；(b)提供多个珠子，每个珠子包括固定在珠子上的多个分支连接接头(b-BLAs)和在3′末端具有简并序列的L-接头群；以及(c)在连接酶存在下，将b-BLAs与至少一种核酸片段接触、(d)在连接酶存在下，将L-接头群体核酸片段的5′末端接触，从而将L-接头与核酸片段的5′末端连接、从而获得5′末端具有L接头序列、3′末端具有b-BLA接头序列的核酸片段文库，其中每个b-BLA包括条形码寡核苷酸，条形码寡核苷酸包括b-BLA接头序列，以及与条形码寡核苷酸杂交的杂交寡核苷酸，其中每个L接头包括L接头序列。可选地，杂交寡核苷酸的3′末端是阻遏核苷酸。

实施方案2.实施方案1的方法，其中L-接头的3′末端与至少一个核酸片段的5′末端连接。

实施方案3.实施方案1的方法，其中每个BLA包括(i)双链平端，其包括一条链的5′末端和互补链的3′末端；和(ii)单链区域，其包括条形码序列，其中双链平端中的链的5′末端通过分支连接连接到至少一个核酸片段的3′末端。

实施方案4.实施方案1的方法，其中该方法进一步包括向反应中添加酶，其中该酶在连接L-接头之前降解过量的b-BLA。

实施方案5.实施方案1的方法，其中所述L-接头在3′末端包括1-10个简并碱基。

实施方案6.实施方案1的方法，其中L-接头处于溶液中，其中条形码寡核苷酸与珠子连接，且杂交寡核苷酸未与珠子连接。

实施方案7.实施方案5的方法，其中所述b-BLAs包含尿嘧啶，其可被移除以从珠释放b-BLAs。

实施方案8.实施方案5的方法，其中每个珠上固定有多个b-BLAs，且多个b-BLAs中的每个具有相同的条形码序列。

实施方案9.实施方案1的方法，该方法进一步包括延伸与b-BLA和L-接头连接的至少一个核酸片段以产生延伸核酸片段，其中所述延伸核酸片段包括条形码的拷贝。

实施方案10.实施方案8的方法，其中该方法还包括将延伸核酸片段环化。

实施方案11.实施方案5的方法，其中该方法包括多个珠子，每个珠子包括唯一条形码序列。

实施方案12.实施方案1的方法，其中双链区的3′末端或杂交寡核苷酸的3′末端是双脱氧阻遏核苷酸。

实施方案13.实施方案1的方法，其中核酸片段的平均长度在200个核苷酸和10000个核苷酸之间。

实施方案14.实施方案1的方法，其中步骤(a)中产生的交错单链断裂的50％以上在步骤(b)中通过连接闭合。

实施方案15.实施方案1的方法，其中所述一种或多种缺口剂选自由非特异性裂解核酸酶、位点特异性裂解核酸酶和化学缺口剂组成的组。

实施方案16.实施方案1的方法，其中所述非特异性缺口酶选自由Vvn、虾dsDNA特异性内切酶和DNAseI组成的组。

实施方案17.实施方案1的方法，所述连接酶是T4 DNA连接酶。

实施方案18.一种制备用于测序的多核苷酸文库的方法，包括在单个反应混合物中：

(a)使双链目标核酸与一种或多种核酸缺口剂接触，以产生被交错的单链断裂分隔的重叠核酸片段；以及

(b)在连接酶存在的情况下，将包含多个部分双链第一接头的珠子与核酸片段接触，其中每个第一接头包括(i)双链平端，包括一条链的5′末端和互补链的3′末端；(ii)固定在珠子上的单链区、其中单链区域包括条形码，从而使用DNA连接酶将至少一个第一接头的双链平端中的链的5′末端与至少一个核酸片段的3′末端连接，以产生连接的第一接头，其中连接的第一接头包括条形码和至少一个核酸片段、

(c)对已连接的第一接头进行变性，以及

(d)对与连接的第一接头中相对于条形码3′侧的序列杂交的引物进行受控延伸，从而产生与连接的第一接头互补的部分延伸链。

实施方案19.实施方案18的方法，其中至少一个部分双链的第一接头保持未连接，其中执行受控延伸包括将引物与连接的第一接头和未连接的第一接头中相对于条形码3′侧的序列杂交，从而产生与连接的第一接头互补的部分延伸链和与未连接的第一接头互补的完全延伸链，从而产生混合物，该混合物包含部分双链分子，其中部分双链分子包括短链和长链，以及双链分子包括未连接的接头。

实施方案20.实施方案19的方法，其中该方法还包括加入具有双链DNA外切酶活性的外切酶，从而外切酶降解双链分子。

实施方案21.实施方案19的方法，其中方法还包括在连接允许的条件下向步骤(d)中的混合物中加入发夹型接头，从而双链分子被连接到一个发夹型接头上，其中部分双链分子保持未连接到发夹型接头上。

实施方案22.实施方案21或实施方案20的方法，其中该方法还包括：(e)延伸部分双链分子链中的较短链以复制较长链中的核酸片段序列，从而产生进一步延伸的链，以及(f)将第二接头连接到进一步延伸的链的3′末端。

实施方案23.实施方案22的方法，其中在步骤(e)中延伸较短链是在可延伸核苷酸和具有3′可逆封端基团的核苷酸的混合物存在下进行的，其中在步骤(f)中连接第二接头是在去除3′封端基团后进行的。

实施方案24.实施方案23的方法，其中具有3′可逆封端基团的核苷酸在不同周期中添加。

实施方案25.实施方案23的方法，其中所述第二接头是分支连接接头(BLA)。

实施方案26.实施方案23的方法，其中该方法还包括用链置换聚合酶延伸连接的第二分支连接接头。

实施方案27.实施方案1-26中任一项的方法，其中目标核酸在步骤(a)和步骤(b)之前与珠子结合。

实施方案28.实施方案27的方法，其中所述方法包括在步骤(a)中的缺口之前将目标核酸与所述珠子孵育0-30分钟。

实施方案29.实施方案28的方法，其中在包含3-12％PEG的缓冲液中将目标核酸与珠子孵育。

实施方式30.实施方案1-26中任一项的方法，其中单一反应混合物的pH为7-9。

实施方案31.任一实施方案1-26的方法，其中步骤(a)在连接酶存在下发生。

实施方案32.实施方案1-26中任一个的方法，其中选择一种或多种缺口剂和连接酶，使连接速率高于缺口速率。

实施方案33.实施方案1的方法，其中该方法还包括在步骤(b)之后，通过使反应混合物变性来除去未与核酸片段连接的第一接头的DNA链。

实施方案34.实施方案1-26中任一项的方法，其中步骤(a)还包括向单次反应中加入外切酶以增加交错单链断裂的间隙。

实施方案35.实施方案34的方法，其中增加的间隙在交错的单链断裂中具有1-30个碱基的长度。

实施方案36.一种反应混合物，其包含(1)一种或多种缺口剂，(2)一种或多种连接酶，和(3)多个被交错单链断裂分开的重叠核酸片段，和(4)部分双链分支接头，其包含条形码寡核苷酸和杂交寡核苷酸，彼此杂交以形成部分双链核酸分子，其中条形码寡核苷酸连接到珠上并包含条形码、其中杂交寡核苷酸不与珠连接，其中部分双链核酸分子包括(i)具有5′末端和3′末端的双链平端和(ii)包含条形码并具有单链末端的单链区，其中双链平端的5′末端与至少一个核酸片段的3′末端连接。

实施方案37.实施方案36的反应混合物，其中所述至少一个核酸片段的5′末端与L-接头连接。

实施方案38.实施方案37的反应混合物，其中所述L-接头在3′末端包括1-10个简并碱基。

实施方案39.一种制备用于测序的多核苷酸文库的方法，包括在单个反应混合物中：

(a)使双链目标核酸与一种或多种缺口剂接触，以产生由交错的单链断裂分开的多个重叠的核酸片段；和

(b)在连接酶存在下，将部分双链第一接头与至少一个核酸片段接触、其中第一接头包括(i)具有5′末端和3′末端的双链区和(ii)包含条形码的单链区，

使用DNA连接酶通过3′分支连接将第一接头双链区的5′末端与至少一个核酸片段的3′末端连接起来。

(c)将第二接头与至少一个核酸片段的相反末端连接，

其中第一和第二接头的连接是在单个反应中进行的。

实施方案40.实施方案39的方法，其中第二接头是L-接头，其中L-接头在3′末端包括与目的核酸的单链区杂交的核酸序列，并且

其中L接头的3′末端与至少一个核酸片段的5′连接。

实施方案41.实施方案39的方法，其中该方法还包括向反应中添加酶，其中该酶在连接第二接头之前降解过量的第一接头。

实施方案42.实施方案39的方法，其中所述第二接头在3′末端包括1-10个简并碱基。

实施方案43.实施方案39的方法，该方法还包括延伸与第一接头和第二接头中的一者或两者连接的至少一个核酸片段以产生延伸核酸片段，其中所述延伸核酸片段包括条形码的拷贝。

实施方案44.实施方案39的方法，其中第一接头通过包含条形码的单链区域固定在珠子上，并且珠子固定有多个第一接头的拷贝，每个都包含相同的条形码序列。

实施方案45.实施方案39的方法，其中所述双链区的3′末端是双脱氧阻遏核苷酸。

实施方案46.一种制备用于测序的多核苷酸文库的方法，其包括在单个反应混合物中：(a)将双链目标核酸与一种或多种缺口剂接触，以产生被交错的单链断裂分开的重叠的核酸片段；以及(b)在连接酶存在下，将包含多个部分双链第一接头的珠与核酸片段接触，

其中每个第一接头包括：(i)具有5′末端和3′末端的双链区；(ii)固定在珠上的单链区，其中单链区包括条形码，

使用DNA连接酶通过3′分支连接将至少一个第一接头的双链区的5′末端与至少一个核酸片段的3′末端连接，从而产生连接的第一接头，

其中连接的第一接头包括条形码和至少一个核酸片段，

其中至少一个第一接头仍为未连接的第一接头，

(c)变性反应混合物，其中已连接的第一接头和未连接的第一接头为单链形式，

(d)对与以下序列杂交的引物进行受控延伸：(i)已连接的第一接头中条形码3′侧的序列；(ii)未连接的第一接头中的条形码3′侧的序列，从而产生与已连接的第一接头互补的部分延伸链和与未连接的第一接头互补的完全延伸链，由此产生第一混合物，该混合物包括：由已连接的第一接头组成的部分双链分子和由未连接的接头组成的双链分子。

实施方案47.实施方案46的方法，其中所述受控延伸是用Tag聚合酶进行的，并且其中所述方法进一步包括在允许将发夹型接头连接到双链分子的条件下，将发夹型接头添加到步骤(d)中的第一混合物中，从而产生第二混合物，所述第二混合物包括：连接到发夹型接头的双链分子，以及未连接到发夹型接头的部分双链分子。

实施方案48.实施方案46的方法，其中该方法还包括添加具有双链DNA外切酶活性的外切酶，从而外切酶降解双链分子。

实施方案49.实施方案48和47的方法，其中该方法还包括(e)延伸部分延伸的链，以结合核酸片段的序列，产生进一步延伸的产物，以及(f)将第二分支接头连接到进一步延伸产物的末端。

实施方案50.上述任一实施方案的方法，其中(1)缺口目标核酸并将b-BLAs和L-接头连接至核酸片段至少持续30分钟，或缺口双链目标核酸并将第一接头连接至核酸片段至少持续30分钟。

***

虽然本发明已参照具体方面和实施例进行了公开，但显然本领域的其他技术人员可以在不背离本发明的真正精神和范围的情况下设计出本发明的其他实施例和变体。

本公开中引用的每一份出版物和专利文件均以引用的方式并入本文，如同每一份此类出版物或文件均以引用的方式具体和单独地指明并入本文。对出版物和专利文件的引用并不表示任何此类文件是相关的现有技术，也不构成对其内容或日期的承认。

实施例

以下实施例用于说明而非限制本申请中公开的实施方案。

实施例1使用Segmentase的缺口连接方案

1.将基因组DNA预结合至珠子

条形码化珠储备溶液每微升含100万个编码珠。使用Cheng，et al.2018，A simplebead-based method for generating cost-effective co-barcoded sequencereads.Protocol Exchange，available at https：//doi.org/10.1038/protex.2018.116；Wang，et al.Genome Res.2019May；29(5)：798-808.doi：10.1101/gr.245126.118.EpubAprl 2.，2019中描述的方法，首先用LSWB缓冲液(低盐洗涤缓冲液：0.05M Tris-HCl pH7.5、0.15M NaCl和0.05％Tween 20)洗涤两次，然后用1X HB缓冲液(由30％PEG 8000、150mM Tris-HCl pH 7.8、30mM MgCl₂、3mM ATP和0.15mg/mL BSA组成的3X HB缓冲液，pH8.3)洗涤一次。

分支接头包括相互退火的条形码寡核苷酸和杂交寡核苷酸。条形码寡核苷酸的5端具有磷酸基团，杂交寡核苷酸的3端是双脱氧核苷酸。条形码寡核苷酸的序列为：

/5Phos/GTGCACT*GA*CG*AC*ATGATCACCAAGGATCGCCATAGTCCATGCTA[条形码]GGAAGG[条形码]CGCAGA[条形码]CCAGAGCAACTCCTTGGCTCACAUAAAAAAAAAAAAA/3BioTEG/(每个*代表硫代磷酸酯键，它们对核酸酶具有抗性)。

杂交寡核苷酸的序列为G*TC*GT*CIGTGC*A*/3dDC/，其中3ddC代表3’端的双脱氧胞嘧啶。

将20μL 3x HB缓冲液和水加入到每个含有约1ng基因组DNA的样品中，得到总体积为45μL的混合物。在每个样品中加入3,000万个按上述方法制备的珠子，并在室温下孵育15分钟。

2.与单链结合蛋白(SSB)孵育

在10.25μL 1x HB缓冲液中混合4.75μL(总计7.5μg)SSB原液(NOvusBiologicals#NBP2-35314-1mg)，制备SSB混合物。将15μL SSB混合物加入上一步的基因组DNA和珠子混合物中，37℃孵育15分钟。

3.缺口-连接

将L-oligo、连接酶(NEB#M0202T)、Segmentase工作溶液(MGI Easy FS PCR-FreeDNA Library Prep Set-MGI-Leading Life Science Innovation，MGI，货号1000013454或1000013455中包含的缺口酶)和Exo III(NEB#M0206S]按照下表2在1X HB中稀释(″稀释浓度″)制备。L-oligo的序列为GAGACGTTCTCGACTCAGCAGANNNN*N*N*N(N代表A、T、C、G中的任意一种，每个*代表一个硫代磷酸酯键，对核酸酶有抗性)。

表2

将制备好的L-oligo、连接酶、Segmentase和Exo III工作溶液加入60μL的珠子-gDNA混合物中，每个珠子都固定有包含条形码的分支接头，在冰上混合。反应混合物的总体积为75μL。见表3。

表3

L-oligo	3.0μL
		T4连接酶	6.0μL
Segmentase	3.0μL
		ExoIII	3.0μL
混合	60.0μL
		总	75.0μL

反应混合物在15℃30秒和37℃30秒之间循环，共54个循环。将反应混合物短暂旋转并放在磁铁上2分钟。然后用40μL的0.1M氢氧化钠洗涤混合物中的珠子。然后用100μLLSWB冲洗珠子两次。珠子在50μL LSWB中重新悬浮，珠子悬浮液在PCR扩增前保持在4℃的温度下。

4.PCR

从珠子悬浮液中去除LSWB缓冲液，然后将珠子重悬于含有引物PCR1和PCR2(序列如下)和2X KAPA HiFi(Roche#7958935001)的PCR混合物中，以扩增缺口-连接反应中形成的产物。如表4所述：

表4

PCR设置(冰上)	1x	终浓度
				珠子上连接产物	40.0
PCR1 (20uM)	5.0	0.5	uM
				PCR2(20uM)	5.0	0.5	uM
2xKAPA HiFi混合物	100.0	1	X
				H₂O	50.0
总	200.0

PCR1 TGTGAGCCAAGGAGTTG(SEQ ID NO：1)

PCR2 GCCTCCCTCGCGCCATCAG(SEQ ID NO：2)

按照下表5中的条件进行PCR循环：

表5.

然后用0.8X Ampure XP珠子(160μL)(Beckman Coulter#A63881)纯化PCR产物。用200ul 0.8X Ampure冲洗缓冲液(将800ul新鲜Ampure珠子和1ml TE混合，将珠子放在磁铁上，收集上清液，这就是冲洗缓冲液)冲洗珠子一次。其余步骤按照生产商的说明书进行。用60μL的TE缓冲液洗脱Ampure XP珠上的纯化产物。使用表6和表7中的混合液和循环条件进行第二轮PCR：表6.

PCR设置(冰上)	1x	终浓度
				五个循环后Pur PCR pdt	60.0
PCR1(20uM)	10.0	0.5	uM
				PCR2(20uM)	10.0	0.5	uM
2x KAPA HiFi混合物	200.0	1x
				H₂O	120.0
总	400.0

表7.

使用0.8X Ampure XP珠子(320ul)再次纯化PCR产物，步骤与上述相同，并用50ul的TE洗脱。对纯化的产物进行电泳分析。

实施例2segmentase浓度对产物大小的影响

如表8所示，在不同浓度的segmentase和T4 DNA连接酶存在下，如实施例1所述进行缺口-连接反应。

表8

缺口连接产物(扩增后)的电泳结果见图12A。结果表明，Segmentase的用量增加，插入的平均尺寸逐渐变短，而T4 DNA连接酶的用量增加，插入的平均尺寸逐渐变长。这些单个反应#1-#10中形成的产物长度在300bp-2kb范围内，适合测序。

实施例3使用Masterase的缺口-连接方案

1.将基因组DNA与珠子预结合

如实施例1所述，将基因组DNA预结合到用分支接头固定的珠子上。

2.与单链结合蛋白(SSB)孵育

如实施例1所述，将SSB与基因组DNA和珠子孵育。

3.缺口-连接

将L-oligo(与实施例1中描述的序列相同)、连接酶(NEB#M0202T)、Masterase(Qiagen#EN31-005)和Exo III(NEB#M0206S)按照下表9分别稀释在1X HB中(″稀释浓度″)：

表9

将L-oligo(与实施例1中所述相同)、连接酶、Segmentase和Exo III加入上述55μL珠子-gDNA混合物中，在冰上混合。反应总体积为75μL。见上表3。

表3

L-oligo	3.0μL
		T4连接酶	6.0μL
Masterase	5.0μL
		ExoIII	6.0μL
混合	55.0μL
		总	75.0μL

将反应混合物置于10℃30秒和37℃30秒之间的条件循环中，共54个循环。将反应混合物短暂旋转并放在磁铁上2分钟。然后用40μL 0.1M氢氧化钠洗涤混合物中的珠子。然后用100μL LSWB将珠子洗涤两次。珠子在50μL LSWB中重新悬浮，珠子悬浮液在PCR扩增前保持在4℃的温度下。

4.PCR

将LSWB缓冲液从珠子悬浮液中去除，然后将珠子重悬于含有引物PCR1(SEQ IDNO：1)和2X KAPA HiFi(Roche#7958935001)的PCR混合物中。如下表10所述：

表10

引物延伸设置(冰上)	1x	终浓度
				PCR1(20uM)	2.5	0.5	uM
2xKAPA HiFi混合	50	1	X
				H₂O	47.5
总	100.0

根据上表5中的条件进行引物延伸：

将引物延伸反应置于磁铁架上2分钟。收集上清液，加入由表11所列成分组成的混合物：

表11

用表5所示的以下循环条件进行一个循环的延伸。

加入ExoVII，使用由以下成分组成的混合物(表12)去除任何单链人工产物，然后将反应温育30分钟。

表12

PCR延伸产物体积	103.0
		0.4M MgCl₂	2.0
ExoVII，0.5U/ul	2.0
		总	107.0	ul

然后如上所述，使用0.8X Ampure XP珠子(85μL)(Beckman Coulter#A63881)纯化延伸产物。纯化后的产物用60μL的TE缓冲液洗脱。在表5所示的循环条件下，使用混合液进行最后一轮PCR，但PCR要进行9个循环。

PCR设置(冰上)	1x	终浓度
				五个循环后purPCRpdt	40.0
PCR1(20uM)(SEQ ID NO：1)	10.0	0.5	uM
				PCR2(20uM)(SEQ ID NO：2)	10.0	0.5	uM
2x KAPA HiFi混合	200.0	1x
				H₂O	140.0
总	400.0

使用0.8X Ampure XP珠子(320ul)再次纯化PCR产物，步骤与上述相同，并用40ul的TE洗脱。对纯化的产物进行电泳分析。

实施例4.masterase浓度对产物大小的影响

在不同浓度的masterase和T4 DNA连接酶存在下，按照实施例3中所述的方案进行缺口-连接反应。见下表13。

表13

缺口连接产物(扩增后)的电泳结果见图12B。结果表明，增加Masterase的用量会导致插入长度逐渐变短。反应#1-#6中形成的产物长度在300bp-3kb范围内，适合测序。

实施例5使用Segmentase进行两轮缺口连接

1.将基因组DNA与珠子预结合

将基因组DNA预结合到用分支接头固定的珠子上，如实施例1所述。

2.与单链结合蛋白(SSB)孵育

如实施例1所述，将SSB与基因组DNA和珠子孵育。

3.缺口-连接

L-oligo(与实施例1中所述相同)、连接酶(NEB#M0202T)、Segmentase(MGI)和ExoIII(NEB#M0206S)按照下表14分别稀释在1X HB中(″稀释浓度″)，

表14.

在冰上将L-oligo(与例1中所述相同)、连接酶、Segmentase和Exo III加入上述形成的60μL珠子-DNA混合物中并混合。如实施例1所述，反应总体积为75μL。

反应混合物在15℃30秒和37℃30秒之间循环，共循环36次。将反应混合物短暂旋转并放在磁铁上2分钟。然后用100μL LSWB冲洗珠子一次。将珠子重悬于60μL 1X HB中。

4.第二次L-oligo连接

L-oligo(与实施例1中所述相同)、连接酶(NEB#M0202T)和T7exo(NEB#M0263S)按下表15在1X HB中分别稀释(″稀释浓度″)：

表15.

将L-oligo(如实施例1所述)、连接酶和T7 exo加入上一步的60μL微珠中。反应总体积为75μL。见上表3。

将反应混合物在10℃30秒和37℃30秒之间循环，共36个循环。将反应混合物短暂旋转并置于磁铁上2分钟。然后用100μL LSWB冲洗珠子两次。珠子在60μL LSWB中重新悬浮。

5.PCR

将LSWB缓冲液从珠子悬浮液中去除，然后将珠子重悬于含有引物PCR1和PCR2(序列如下)和2X KAPA HiFi(Roche#7958935001)的PCR混合物中。如下表16所述：

表16.

PCR设置(冰上)	1x	终浓度
				PCR1(20uM)	5.0	0.5	uM
PCR2(20uM)	5.0	0.5	uM
				2x KAPAHiFi混合	100.0	1	X
H₂O	90.0
				总	200.0

按照表5中的条件进行PCR循环5个循环。然后如上所述，使用0.8X Ampure XP珠子(160μL)纯化PCR产物。纯化后的产物用60μL的TE缓冲液洗脱。用表17所示的混合物和表5所示的循环条件进行第二轮5个循环的PCR。

表17.

PCR设置(冰上)	1x	终浓度
				5个循环后purPCRpdt	60.0
PCR1(20uM)	10.0	0.5	uM
				PCR2(20uM)	10.0	0.5	uM
2xKAPAHiFi混合	200.0	1	X
				H₂O	120.0
总	400.0

使用0.8X Ampure XP珠子(320ul)再次纯化PCR产物，步骤与上述相同，并用60ul的TE洗脱。对纯化的产物进行电泳分析。

实施例6两步方案中segmentase浓度对产物大小的影响

按照实施例5中所述的方案，在不同浓度的segmentase和T4DNA连接酶存在下进行缺口连接反应。见下表18。

表18

缺口连接产物(扩增后)的电泳结果如图12C所示。

结果表明，Segmentase的用量增加会导致插入长度逐渐变短，这些反应中形成的片段适于测序。

实施例7使用Masterase进行两轮缺口连接

1.将基因组DNA与珠子预结合

首先使用LSWB缓冲液(低盐缓冲液：0.05M Tris-HCl pH 7.5、0.15MNaCl和0.05％Tween20)洗涤两次每微升含100万颗珠子的条形码化珠储存溶液(有关珠子制作的描述和说明书，请参阅(Cheng，et al.2018；Wang，et al.2019))，然后用1X HB缓冲液(3X HB：30％PEG 8000、150mM Tris-HCl pH 7.8、30mM MgCl₂、3mM ATP和0.15mg/mL BSA，pH 8.3)洗涤一次。

将20μL 3x HB缓冲液和水加入到每个含有约1ng基因组DNA的样品中，得到总体积为45μL的混合物。将上述制备的3000万个珠子加入到每个样品中，并在室温下孵育15分钟。

2.与单链结合蛋白(SSB)孵育

在7.63μL 1x HB缓冲液中混合2.37μμL(总计3.75μg)SSB储存溶液，制备10μL SSB混合物。将10μL SSB混合物加入上一步的基因组DNA和珠子混合物中，37℃孵育15分钟。

3.缺口连接

按照表19，将L-oligo、连接酶(NEB#M0202T)、Masterase(Qiagen#EN31-005)和ExoIII(NEB#M0206S)分别稀释在1XHB中(″稀释浓度″)。

表19.

将L-oligo(如实施例1所述)、连接酶、Segmentase和Exo III加入上述55μL珠子-DNA混合物中，在冰上混合。反应总体积为75μL。见表3。

将反应混合物在10℃30秒和37℃30秒之间循环，共循环36次。将反应混合物短暂旋转并置于磁铁上2分钟。然后用100μL LSWB冲洗珠子一次。将珠子重悬于60μL 1X HB中。

4.第二次L-oligo连接

按照下表20，分别在1X HB中稀释L-oligo(如实施例1中所述)、连接酶(NEB#M0202T)和T7 exo(NEB#M0263S)(″稀释浓度″)。

表20

将L-oligo(如实施例1所述)、连接酶和T7 exo加入上一步的60μL微珠中。如表3所示，反应总体积为75μL：

将反应混合物在10℃30秒和37℃30秒之间循环，共循环36次。将反应混合物短暂旋转并置于磁铁上2分钟。然后用100μL LSWB冲洗珠子两次。珠子在60μL LSWB中重新悬浮。

5.PCR

从珠子悬浮液中去除LSWB缓冲液，然后将珠子重悬于含有引物PCR1和PCR2(序列如下)和2X KAPA HiFi(Roche#7958935001)的PCR混合物中。如下表21所述：

表21

PCR设置(冰上)	1x	终浓度
				PCR1(20uM)	5.0	0.5	uM
PCR2(20uM)	5.0	0.5	uM
				2x KAPA HiFi混合	100.0	1	X
H₂O	90.0
				总	200.0

按照如下表5中的条件进行PcR循环：

然后使用0.8X Ampure XP珠子(160μL)(Beckman coulter#A63881)纯化PCR产物，用200ul 0.8X Ampure冲洗缓冲液(将800ul新鲜Ampure珠子和1ml TE混合，将珠子放在磁铁上，收集上清液，这就是冲洗缓冲液)冲洗珠子一次。剩下的步骤按照生产商的说明书进行，产物用60μL的TE缓冲液洗脱。用表22所示的混合物和表5所示的循环条件进行第二轮PCR，但PCR要进行7个循环。

表22.

实施例8两步方案中Masterase浓度对产物大小的影响

按照实施例7中所述的方案，在不同浓度的Masterase和T4DNA连接酶存在下进行缺口连接反应。见下表23和表24。

表23

表24

如实施例中所述，例如在表23和表24中，″10C/37C，x36″是指将反应置于10℃30秒和37℃30秒之间循环的条件下，共循环36次。

缺口连接产物(扩增后)的电泳结果表明，增加Masterase的用量会导致插入长度逐渐变短，而增加T4连接酶的用量会导致插入长度逐渐变长。见图12D。

Claims

1.一种制备用于测序的已接头多核苷酸文库的方法，其包括在单个反应混合物中：将双链的目标核酸与一种或多种缺口剂接触，以产生由交错单链断裂分隔的多个重叠核酸片段；

(a)提供多个珠子，每个珠子包括固定在珠子上的多个分支连接接头(b-BLA)，并提供在3′末端具有简并序列的L-接头群，

其中每个b-BLA包括条形码寡核苷酸，所述条形码寡核苷酸包括b-BLA接头序列，以及与所述条形码寡核苷酸杂交的杂交寡核苷酸，其中每个L接头包括L-接头序列，

(b)在连接酶存在下，将所述b-BLA与至少一个所述核酸片段接触，从而将所述b-BLA连接到所述核酸片段的3′末端，以及

(c)在连接酶存在下，接触所述L-接头群，从而将所述L-接头连接到所述核酸片段的5′末端，

从而获得所述5′末端具有所述L-接头序列和所述3′末端具有所述b-BLA接头序列的核酸片段文库。

2.根据权利要求1所述的方法，其中所述L-接头的3′末端与至少一个所述核酸片段的5′末端连接。

3.根据权利要求1的方法，其中每个BLA包括(i)双链的平端，其包括一条链的5′末端和互补链的3′末端以及(ii)包括条形码序列的单链区域，

其中所述双链的平端中的所述链的所述5′末端通过分支连接与所述至少一个所述核酸片段的所述3′末端连接。

4.根据权利要求1所述的方法，其中所述方法还包括向所述反应混合物中添加酶，其中所述酶在连接所述L-接头之前降解过量的b-BLA。

5.根据权利要求1所述的方法，其中所述L-接头在所述3′末端包括1-10个简并碱基。

6.根据权利要求1所述的方法，其中所述L-接头在溶液中，

其中所述条形码寡核苷酸连接至所述珠子，

其中所述杂交寡核苷酸未连接至所述珠子。

7.根据权利要求5所述的方法，其中所述b-BLA包含尿嘧啶，所述尿嘧啶可被移除以从所述珠子释放所述b-BLA。

8.根据权利要求5所述的方法，其中每个珠子上固定有多个b-BLA，且所述多个b-BLA中的每个具有相同的条形码序列。

9.根据权利要求1所述的方法，所述方法还包括延伸与所述b-BLA和L-接头连接的至少一个所述核酸片段以产生延伸的核酸片段，其中所述延伸的核酸片段包括所述条形码的拷贝。

10.根据权利要求8所述的方法，其中所述方法还包括环化所述延伸的核酸片段。

11.根据权利要求5所述的方法，其中所述方法包括多个珠子，每个珠子包含唯一条形码序列。

12.根据权利要求1所述的方法，其中所述双链区的所述3′末端是双脱氧阻遏核苷酸。

13.根据权利要求1所述的方法，其中所述核酸片段的平均长度在200个核苷酸和10000个核苷酸之间。

14.根据权利要求1所述的方法，其中步骤(a)中产生的交错单链的断裂的50％以上在步骤(b)中通过连接封闭。

15.根据权利要求1所述的方法，其中所述一种或多种缺口剂选自由非特异性缺口核酸酶、位点特异性缺口核酸酶和化学缺口剂组成的组。

16.根据权利要求1所述的方法，其中所述非特异性缺口酶选自由Vvn、虾dsDNA特异性内切酶和DNAse I组成的组。

17.根据权利要求1所述的方法，所述连接酶是T4 DNA连接酶。

18.一种制备用于测序的多核苷酸文库的方法，其包括在单一反应混合物中：

(a)将双链目标核酸与一种或多种缺口剂接触，以产生被交错单链的断裂分隔的重叠核酸片段；以及

(b)在连接酶的存在下，将包含多个部分双链的第一接头的珠子与所述核酸片段接触，

其中每个第一接头包括(i)包含一条链的5′末端和互补链的3′末端组的双链的平端以及(ii)固定在珠子上的单链区，其中所述单链区包括条形码；从而使用DNA连接酶将至少一个第一接头处的所述双链的平端中的所述链的5′末端连接到至少一个所述核酸片段的3′末端以产生已连接的第一接头，

其中，所述已连接的第一接头包括所述条形码和至少一个核酸片段，

(c)使所述已连接的第一接头变性

(d)对与所述已连接的第一接头中的相对于所述条形码位于3′侧的序列杂交的引物进行受控延伸，从而产生与所述已连接的第一接头互补的部分延伸链。

19.根据权利要求18所述的方法，其中至少一个部分双链的第一接头保持未连接，

其中进行所述受控延伸包括将所述引物与所述已连接的第一接头和所述未连接的第一接头的二者中相对于所述条形码位于3′侧的序列杂交，从而产生与所述已连接的第一接头互补的部分延伸链和与所述未连接的第一接头互补的完全延伸链，从而产生混合物，所述混合物包括：

包含所述已连接的第一接头的部分双链分子，

其中所述部分双链分子包括较短的链和较长的链，以及

包含所述未连接的接头的双链分子。

20.根据权利要求19所述的方法，其中所述方法还包括添加具有双链DNA外切酶活性的外切酶，从而所述外切酶降解所述双链分子。

21.根据权利要求19所述的方法，其中方法还包括：

在允许连接的条件下，在步骤(d)中向所述混合物中加入发夹型接头，从而双链分子被连接至一个发夹型接头并且其中所述部分双链分子仍未连接至发夹型接头。

22.根据权利要求21或权利要求20所述的方法，其中所述方法还包括：

(a)延伸所述部分双链分子链中的较短链从而拷贝较长链中的所述核酸片段的序列，从而产生进一步延伸链，以及

(b)将第二个接头连接到进一步延伸链的3′末端。

23.根据权利要求22所述的方法，其中在步骤(e)中延伸所述较短链是在可延伸核苷酸和具有3′可逆阻断基团的核苷酸的混合物存在下进行，

其中步骤(f)中所述第二接头的所述连接是在移除所述3′阻断基团之后进行。

24.根据权利要求23所述的方法，其中所述具有3′可逆阻断基团的核苷酸在不同的循环期间加入。

25.根据权利要求23所述的方法，其中所述第二接头是分支连接接头(BLA)。

26.根据权利要求23所述的方法，其中所述方法还包括用链转移聚合酶延伸所述已连接的第二分支连接接头。

27.根据权利要求1-26中任一项所述的方法，其中所述目标核酸在所述步骤(a)和步骤(b)之前与所述珠子结合。

28.根据权利要求27所述的方法，其中所述方法包括在步骤(a)的缺口之前将所述目标核酸与所述珠子孵育0-30分钟。

29.根据权利要求28的方法，其中所述目标核酸在包含3-12％PEG的缓冲液中与所述珠子孵育。

30.根据权利要求1-26中任一项所述的方法，其中所述单一反应混合物的pH为7-9。

31.根据权利要求1-26中任一项所述的方法，其中所述步骤(a)是在所述连接酶存在下发生。

32.根据权利要求1-26中任一项所述的方法，其中选择所述一种或多种缺口剂和连接酶使得连接速率高于缺口速率。

33.根据权利要求1所述的方法，其中所述方法还包括在步骤(b)之后，通过使所述反应混合物变性，去除未连接至所述核酸片段的所述第一接头的DNA链。

34.根据权利要求1-26中任一项所述的方法，其中步骤(a)还包括向所述单反应混合物加入外切酶以增加所述交错单链断裂的间隙。

35.根据权利要求34所述的方法，其中增加的所述间隙长度为1-30碱基。

36.根据权利要求1所述的方法，其中所述目标核酸的缺口和所述b-BLA以及L-接头与所述核酸片段的连接至少持续30分钟。

37.根据权利要求18所述的方法，其中缺口所述双链目标核酸并将所述第一接头连接至所述核酸片段至少持续30分钟。

38.一种反应混合物，其包括

(1)一种或多种缺口剂，

(2)一种或多种连接酶，

(3)由交错单链断裂分开的多个重叠核酸片段，

(4)部分双链分支接头，其包括相互杂交形成部分双链核酸分子的条形码寡核苷酸和杂交寡核苷酸，

其中所述条形码寡核苷酸连接至珠子并包含条形码，

其中所述杂交寡核苷酸未连接至珠子，

其中所述部分双链核酸分子包括

(i)具有5′末端和3′末端的双链平端和

(ii)包含所述条形码并具有单链末端的单链区，

其中所述双链平端的5′末端与至少一个所述重叠核酸片段的3′末端连接。

39.根据权利要求38所述的反应混合物，其中所述至少一个所述核酸片段的所述5′末端与L-接头连接。

40.根据权利要求38所述的反应混合物，其中所述L-接头在所述3′末端处包括1-10个简并碱基。