CN108060191A

CN108060191A - 一种双链核酸片段加接头的方法、文库构建方法和试剂盒

Info

Publication number: CN108060191A
Application number: CN201711086910.6A
Authority: CN
Inventors: 江媛; 拉多杰·德马纳克; 埃文·贺罗维茨; 安德烈·阿莱克谢耶夫; 赵霞; 阮婕
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Shenzhen Hua made Dazhi Technology Co. Ltd.
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2018-05-22
Anticipated expiration: 2037-11-07
Also published as: CN108060191B

Abstract

本申请公开了一种双链核酸片段加接头的方法、文库构建方法和试剂盒。本申请双链核酸片段加接头的方法，在双链靶标核酸片段3’末端连接3’端侧向接头；双链靶标核酸片段包含连接位点，连接位点包含3’‑羟基的3’末端，连接位点为切口、缺口或5’端突起；3’端侧向接头包含5’‑磷酸的5’平端和非连接性3’末端；连接3’端侧向接头方法包括，采用连接酶将双链靶标核酸片段和3’端侧向接头连接。本申请的方法，在双链靶标核酸片段3’末端连接3’端侧向接头，基于该方法进行文库构建，应用于cPAL和合成测序，适于基因组序列或全外显子测序，减小了建库核酸起始量，简化了建库流程，改善了GC富含区测序覆盖率，提高了测序能力。

Description

一种双链核酸片段加接头的方法、文库构建方法和试剂盒

技术领域

本申请涉及基因工程领域，特别是涉及一种双链核酸片段加接头的方法、文库构建方法和试剂盒。

背景技术

大规模的基因组序列分析是了解各种生物学现象的关键。因此，基于低成本、高通量测序或个体基因组重测序的需求，促进了新的靶标核酸片段文库构建方法的发展，同时，也促进了并行分析多个靶标核酸片段的新测序方法的研究。然而，靶标核酸片段文库的建库效率仍然有待提高。

发明内容

本申请的目的是提供一种新的双链核酸片段加接头的方法、文库构建方法和试剂盒。

本申请采用了以下技术方案：

本申请的一方面公开了一种双链核酸片段加接头的方法，在双链靶标核酸片段的3’末端连接3’端侧向接头；双链靶标核酸片段包含连接位点，连接位点具有包含3’-羟基的3’末端，连接位点为单链缺刻产生的切口、单链核苷酸缺失产生的缺口或5’端突起；3’端侧向接头具有包含5’-磷酸的5’平端，以及非连接性的3’末端；连接3’端侧向接头的方法包括，采用连接酶，在连接反应条件下，使双链靶标核酸片段的连接位点的3’-羟基，与3’端侧向接头的5’平端的5’-磷酸发生连接反应，将双链靶标核酸片段与3’端侧向接头连接。

优选的，3’端侧向接头中，非连接性的3’末端为连接有阻断基团，并被阻断基团阻断的末端。

更优选的，阻断基团为双脱氧核苷酸。

需要说明的是，阻断基团可以阻断3’末端连接，使其不与其它核苷酸片段连接，同时，也避免其自连接；避免自连接的阻断基团还可以采用3’-磷酸基团。另外，避免自连接的方法，除了连接有阻断基团以外，还可以采用3’端突起结构。

优选的，连接位点为单链缺刻产生的切口，本申请的方法还包括采用具有5’端外切酶活性的酶处理双链靶标核酸片段，切除切口处的一个或多个核苷酸，形成核苷酸缺失的缺口。

优选的，连接反应条件包括采用PEG或SSB蛋白酶或其组合物，对双链靶标核酸片段与3’端侧向接头进行连接。

本申请的再一面公开了一种文库构建方法，该文库包括多个双链靶标核酸片段，文库构建方法包括，构建环状核酸样本，每个环状核酸样本中包括一个双链靶标核酸片段和双链结构的第一接头，第一接头中含有单链缺刻产生的切口或单链核苷酸缺失产生的缺口；对环状核酸样本进行可控的切口平移，将切口或缺口可控的平移到双链靶标核酸片段内，获得切口平移产物；在切口平移产物的切口或缺口处连接3’端侧向接头，获得连接产物；在连接产物的3’端侧向接头上杂交引物，通过杂交引物进行可控的延伸，延伸至双链靶标核酸片段内的指定位置，获得引物延伸产物；在所述引物延伸产物的5’端连接5’端接头，获得配对的双接头文库，每个双接头文库包括：5’端接头、双链靶标核酸片段的第一端部分、第一接头、双链靶标核酸片段的第二端部分，和3’端侧向接头；双链靶标核酸片段的第一端部分，即引物延伸的指定位置到双链靶标核酸片段3’末端的部分；双链靶标核酸片段的第二端部分，即双链靶标核酸片段的5’末端到切口或缺口处的部分。

优选的，构建环状核酸样本的方法包括，将双链结构的第一接头的两条链拆分作为两个单接头链，两个单接头链分别与双链靶标核酸片段的两端连接，形成粘性末端，双链靶标核酸片段两端的粘性末端互补连接，形成第一接头，产生环状核酸样本。

优选的，第一接头中含有至少一个尿嘧啶残基，文库构建方法包括切除尿嘧啶残基，在第一接头中产生切口或缺口。

优选的，切口平移为可控的切口平移。

更优选的，可控的切口平移为ttCNT或ntCNT。

优选的，本申请的文库构建方法还包括，将切口平移产物与3’端侧向接头的连接产物变性，获得线性单链，引物与线性单链杂交。

优选的，3’端侧向接头具有包含5’-磷酸的5’末端和被阻断的3’末端，其中，5’末端的5’-磷酸可以连接切口平移产物在其切口或缺口处的3’-羟基。

优选的，本申请的文库为双链文库，文库构建方法还包括，将双链文库制备成单链，并且将单链的末端连接成环，形成单链环状文库。

优选的，本申请的文库构建方法还包括，对单链环状文库进行滚环扩增，获得DNA纳米球。

优选的，本申请的文库构建方法还包括，将DNA纳米球按照设定的阵列结构固定在固体支撑物上，获得DNA纳米球阵列。

优选的，本申请的文库为双链文库，文库构建方法还包括，将双链文库制备成单链，将单链按照设定的阵列结构固定在固体支撑物上，并且，扩增阵列上的单链，形成阵列扩增产物。

优选的，扩增阵列上的单链的方法为桥式PCR。

需要说明的是，本申请的文库构建方法，其构建的文库为双链核酸文库，根据使用需求可以进一步形成单链文库或单链环状文库；并且，根据试验设计需求，还可以将单链文库或单链环状文库固定在固体支撑物上，例如制成文库芯片；再进一步的，还可以对固定在固体支撑物上的单链文库或单链环状文库进行扩增，以放大信号；其中扩增方法包括，例如单链环状文库采用滚环扩增，形成DNA纳米球；单链文库采用桥式PCR扩增其单链。以上所描述的单链文库、单链环状文库、固体支撑物固定成阵列或者信号放大扩增等，可以根据试验设计需求或者根据不同的建库方案选择使用，在此不做具体限定。

本申请的另一面公开了一种采用本申请的双链靶标核酸片段加接头的方法，或者本申请的文库构建方法，制备的核酸文库。

本申请的另一面公开了一种用于文库构建的试剂盒，该试剂盒用于本申请的文库构建方法，试剂盒包括5’端单接头链、3’端单接头链、3’端侧向接头和5’端接头；其中，5’端单接头链和3’端单接头链由双链结构的第一接头的两条链产生。

优选的，5’端单接头链和3’端单接头链的至少一个中包含有至少一个尿嘧啶残基。

其中，尿嘧啶残基用于切除产生切口或缺口。

优选的，本申请的试剂盒中还包括具有桥连片段结构的单链寡核苷酸片段。

优选的，本申请的试剂盒中还包括尿嘧啶切除酶、DNA连接酶和DNA聚合酶中的至少一种。

可以理解，为了使用方便，本申请的试剂盒中还可以包括试验过程中涉及到的各种试剂，包括但不限于尿嘧啶切除酶、DNA连接酶、DNA聚合酶等。

本申请的有益效果在于：

本申请的双链核酸片段加接头的方法，创造性的在双链靶标核酸片段的3’末端连接3’端侧向接头，基于该方法进行文库构建，可以应用于组合探针锚定连接的化学测序和/或合成序列的测序，适用于基因组序列或全外显子测序。本申请的方法，减小了建库所需的核酸起始量，简化了文库构建流程，改善了富含GC区域的测序覆盖率，提高了对某些基因、基因组或外显子的测序能力。

附图说明

图1是本申请实施例中双接头文库构建示意图；可以为不同的应用配置包括第一接头(缩写“AdA”)和第二接头(缩写“AdB”)的双接头文库；例如，所示的双接头文库可用于采用组合探针锚定连接(缩写cPAL)化学的测序应用，用于采用合成测序(缩写SBS)的测序应用，或用于采用cPAL和SBS化学的顺序测序；这些应用可以用于例如全基因组测序或全外显子测序。

图2是本申请实施例中文库构建-ttCNT/Exo的示例性流程图；其中，第一接头和第二接头是鼓泡接头；在步骤1中加入插入DNA片段，并在步骤1和2中进行修饰，以备用于步骤3连接第一接头；步骤4通过PCR扩增连接产物；步骤5对扩增产物进行“USER-环化-质粒安全”(缩写U-C-S)处理，形成具有缺口的双链DNA结构；步骤6-8对构建的双链DNA进行受控的切口平移(缩写“ttCNT”)反应，步骤9受控的切口平移通过控制时间和温度进行调控；然后将所得产物进行末端修复，步骤10以准备与第二接头连接；步骤11通过PCR扩增连接产物；步骤12-13扩增反应可以包括通过PCR将条形码标签序列添加到第二接头序列中；采用桥连片段片段可以使扩增产物环化，构建单链环状DNA结构；然后可以通过滚环扩增双链DNA形成DNA纳米球(缩写DNB)。

图3是本申请实施例中“鼓泡接头”、“L-寡核苷酸”和“夹钳接头”的结构；其中，左图为L-寡核苷酸接头的结构；中图为鼓泡接头的结构；右图为夹钳接头的结构；图中，1＝5’单接头链，本申请也称为第一寡核苷酸；2＝3’单接头链，本申请也称为第二寡核苷酸；3＝7-8nt的反向重复(缩写IR)序列；4＝保持两个寡核苷酸在一起的≥12nt的扣环区；5＝用于5’夹钳接头的辅助寡核苷酸，其中“N”是G，A，T或C核苷酸中的任一个，“I”是肌苷，“n”≥3；6＝用于3’夹钳接头的辅助寡核苷酸，其中“N”是G，A，T或C核苷酸中的任一个，“I”是肌苷，“n”≥3。

图4是本申请实施例中将L-寡核苷酸、鼓泡接头和夹钳接头连接到DNA片段的示例性方法概述；其中，左图为将L-寡核苷酸接头连接到DNA片段的示例性方法；使用T4DNA连接酶，在具有3’末端修饰的辅助寡核苷酸的存在下，将L-寡核苷酸接头的第二寡核苷酸连接到去磷酸化的平端DNA片段上；连接后，通过热灭活步骤使连接酶失活，加入T4PNK以磷酸化连接产物的5’末端；使用T4DNA连接酶将接头的第一寡核苷酸退火至磷酸化的连接产物；然后通过PCR扩增得到的连接产物；图中的中图为将鼓泡接头连接到DNA片段的示例性方法；将第一寡核苷酸和第二寡核苷酸退火，并使用T4DNA连接酶连接到5’磷酸化的3’dA尾DNA片段上以形成包含该DNA片段的双链构建体，两侧通过接头寡核苷酸的双链体侧接；然后通过PCR扩增得到的连接产物；图中右图为将夹钳接头连接到DNA片段的示例性方法；在辅助寡核苷酸和T4DNA连接酶的存在下，将夹钳接头的第一寡核苷酸和第二寡核苷酸连接到单链且5’磷酸化的DNA片段；辅助寡核苷酸具有由序列(N)5(I)n组成的5’或3’单链突出；得到的构建体是单链线性DNA片段，两侧由双链体侧接，双链体包含第一和第二接头寡核苷酸以及相应的辅助寡核苷酸；然后通过PCR扩增得到的连接产物。

图5是本申请实施例中用于cPAL和/或SBS测序的第一接头的示例性接头架构；图5A-图5C在最终配对多核苷酸构建体中观察到的第一鼓泡接头或第一L-寡核苷酸接头的示例性描述；图5A对于通过cPAL测序，用cPAL读取5’方向的靶核苷酸序列和条形码，第一接头包括用于cPAL锚(缩写B15)的两个杂交序列和用于干扰的寡核苷酸片段(即intruderoligonucleotide)的杂交序列；第一接头具有大约60-70个碱基的长度；图5B对于SBS测序，第一接头包括用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列，其中第一SBS引物读取3’方向的靶核苷酸序列，第二SBS引物读取3’方向的条形码；第一接头具有大约70-80个碱基的长度；图5C对于采用cPAL和SBS两者进行测序，第一接头包括用于cPAL锚(缩写B15)的两个杂交序列，干扰寡核苷酸片段的杂交序列，用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列；靶核苷酸序列可以通过cPAL在5’方向读取，或者通过SBS用SBS引物1在3’方向读取；条形码可以通过cPAL在5’方向读取，或者通过SBS用SBS引物2在3’方向读取；第一接头长约70-80个碱基。

图6是本申请实施例中用于cPAL和/或SBS测序的第二接头的示例性接头架构。图6A-图6C在最终配对多核苷酸构建体中观察到的第二鼓泡接头或第二L-寡核苷酸接头的示例性描绘；图6A对于通过cPAL测序，用cPAL读取5’方向的靶核苷酸序列和条形码，第二接头包含用于cPAL锚(缩写B15)的两个杂交序列和用于干扰的寡核苷酸片段的杂交序列；第二接头具有约80-90个碱基的长度；图6B对于SBS测序，第二接头包括用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列，其中第一SBS引物读取3’方向的靶核苷酸序列，第二SBS引物读取3’方向的条形码；第二接头具有约80-90个碱基的长度；图6C对于cPAL和SBS两者的测序，第二接头包括用于cPAL锚(缩写B15)的两个杂交序列，用于干扰寡核苷酸片段的杂交序列，用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列；靶核苷酸序列可以通过cPAL在5’方向读取，或者通过SBS用SBS引物1在3’方向读取；条形码可以通过cPAL在5’方向读取，或者通过SBS用SBS引物2在3’方向读取；第二接头的长度约为80-90个碱基。

图7是本申请实施例中用于cPAL和/或SBS进行测序的夹钳接头的示例性接头架构；图7A-图7D在最终配对多核苷酸构建体中观察到的夹钳接头的示例性描绘；图7A对于通过cPAL测序，用cPAL读取5’方向的靶核苷酸序列和条形码，接头包括用于cPAL锚(缩写B15)的两个杂交序列和用于干扰者寡核苷酸的杂交序列；接头的长度约为70-80个碱基；图7B对于SBS测序，第二接头包括用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列，其中第一SBS引物读取3’方向的靶核苷酸序列，第二SBS引物读取3’方向的条形码；接头具有约70-90个碱基的长度；图7C对于cPAL和SBS两者的测序，第二接头包括用于cPAL锚(缩写B15)的两个杂交序列，用于干扰者寡核苷酸的杂交序列，用于第一SBS引物(缩写SBS引物1)的杂交序列和用于第二SBS引物(缩写SBS引物2)的杂交序列；靶核苷酸序列可以通过cPAL在5’方向读取，或者通过SBS用SBS引物1在3’方向读取；条形码可以通过cPAL在5’方向读取，或者通过SBS用SBS引物2在3’方向读取；接头长约70-90个碱基；图7D为SBS测序的替代设计；接头包含用于第一SBS引物(缩写SBS引物1)的杂交序列；使用相同的SBS测序引物，靶核苷酸序列和条形码可以在“3”方向“串联(in-line)”读取；接头长度约35-45个碱基。

图8是本申请实施例中示例性的鼓泡接头“接头A-Ad203”；图8A鼓泡接头Ad203的核苷酸序列；Ad203包括以下特征：锚定杂交序列(1,2,3)；干扰杂交序列(4)；七个碱基的标签序列(5)；反向重复(6)；和用于特异性扩增构建体的RCR引物杂交序列(7)，RCR引物杂交序列中具有第一接头的一个取向；图8B形成Ad203鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝七碱基的标签序列；p＝5’-磷酸基；A＝3’-氨基修饰剂(3AmMO，Integrated DNA Technologies(IDT)，Coralville，IA)；3’氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图9是本申请实施例中示例性的鼓泡接头“接头A-Ad201”；图9A支持SBS的鼓泡接头Ad201的核苷酸序列；Ad203包括以下特征：锚定杂交序列(1,2,3)；干扰杂交序列(4)；七碱基的标签序列(5)；反向重复(6)；用于特异性扩增构建体的RCR引物杂交序列(7)，RCR引物杂交序列中构建有第一接头的一个取向；和SBS引物杂交序列；图9B形成Ad201鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝七碱基的标签序列；p＝5’磷酸基；A＝3’氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)；3’氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图10是本申请实施例中示例性的鼓泡接头“接头A-Ad162”；图10A支持cPAL的鼓泡接头Ad162的核苷酸序列；Ad162包括以下特征：锚定杂交序列(1,2,3)；干扰杂交序列(4)；七碱基的标签序列(5)；反向重复(6)；和用于特异性扩增构建体的RCR引物杂交序列(7)，RCR引物杂交序列中构建有第一接头的一个取向；图10B形成Ad162鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝七碱基的标签序列；p＝5’磷酸基。A＝3’氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)；3’氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图11是本申请实施例中示例性的鼓泡接头“接头A-Ad181”；图11A支持cPAL的鼓泡接头Ad181的核苷酸序列；Ad181包括以下特征：锚定杂交序列(1,2,3)；干扰杂交序列(4)；十碱基的标签序列(5)；反向重复(6)；和用于特异性扩增构建体的RCR引物杂交序列(7)，RCR引物杂交序列中构建有第一接头的一个取向；图11B形成Ad181鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝十碱基的标签序列；p＝5’磷酸基；A＝3’氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)；3’氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图12是本申请实施例中示例性的鼓泡接头“接头B-Ad195”；图12A支持SBS的鼓泡接头Ad195的核苷酸序列；Ad195包括以下功能：八碱基的反向重复(1)；标签序列(2)；干扰杂交序列(3)；SBS引物杂交序列(4)；锚定杂交序列(5,6,7)；以及用于采用cPAL化学读取条形码或标签的“填充(stuffer)”(N)的六碱基序列(8)；图12B形成Ad195鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝七碱基的标签序列；p＝5’-磷酸基；A＝3’-氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)；3’-氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接；形成Ad195的寡核苷酸不包括标签序列；在连接步骤后可以通过PCR将标签/条形码加入接头。

图13是本申请实施例中示例性的鼓泡接头“接头B-Ad194”；图13A支持SBS的鼓泡接头Ad194的核苷酸序列；Ad194包括以下功能：八碱基反向重复(1)；标签序列(2)；干扰者交序列(3,4)；SBS引物杂交序列(4)；锚定杂交序列(5,6,7)；以及用于采用cPAL化学读取条形码或标签的“填充”(N)六碱基的序列(8)；图13B形成Ad194鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；B＝七碱基条形码/标签；p＝5’-磷酸基；A＝3’-氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)；3’-氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图14是本申请实施例中示例性的鼓泡接头“接头B-Ad165-鼓泡”；图14A支持cPAL的鼓泡接头Ad165-鼓泡的核苷酸序列；Ad165-鼓泡包括以下特征：锚定杂交序列(1,2)；干扰杂交序列(3)；图14B形成Ad165-鼓泡接头的寡核苷酸的双链体；将A尾的靶多核苷酸连接到寡核苷酸的双链体的3’-T突出；p＝5’-磷酸基；A＝3’-氨基修饰剂(3AmMO，IntegratedDNA Technologies，Coralville，IA)；3’-氨基修饰剂阻断寡核苷酸的3’末端与其他DNA分子的潜在连接。

图15是本申请实施例中示例性的L-寡核苷酸接头“接头A-Ad169”；图15A支持cPAL化学的L-寡核苷酸接头Ad169的核苷酸序列；Ad169包括以下特征：锚定杂交序列(1,2,3,4)；干扰杂交序列(5)；标签/条形码序列(6)；图15B使用3’-半接头和5’-半接头，将Ad169L-寡核苷酸接头以两步法连接至靶多核苷酸；连接3’-半接头和5’-半接头后，寡核苷酸形成L型结构；B＝条形码；p＝5’-磷酸基团，用于将3’-半接头连接到靶多核苷酸；C＝ddC，即双脱氧核苷酸，以防止不希望的连接；T＝3-dT-Q修饰(Operon/Eurofins，Huntsville，AL)，以防止连接到靶多核苷酸；寡核苷酸之间的互补性的8-核苷酸区突出显示。

图16是本申请实施例中示例性的L-寡核苷酸接头“接头B-Ad165”；图16A支持cPAL化学的L-寡核苷酸接头Ad165的核苷酸序列；Ad165包括以下特征：锚定杂交序列(1,2)；干扰杂交序列(3)；图16B使用3’-半接头和5’-半接头，将Ad165L-寡核苷酸接头以两步法连接至靶多核苷酸；连接3’-半接头和5’-半接头后，寡核苷酸形成L型结构；T＝3-dT-Q修饰(Operon/Eurofins，Huntsville，AL)，以防止连接到靶多核苷酸；寡核苷酸之间的互补性的8-核苷酸区突出显示。

图17是本申请实施例中示例性的夹钳接头“接头B-Ad191”；图17A支持SBS的夹钳接头Ad191的核苷酸序列；Ad191包括以下特征：反向重复序列(1)；标签/条形码序列(2)；干扰杂交序列(3)；SBS引物杂交序列(4)；两个锚定杂交序列(5,6)；用于采用cPAL化学读取条形码或标签的“填充”(N)6序列；用SBS化学读取条形码或标签的SBS引物杂交序列(8)；以及用于用cPAL化学读取条形码或标签的锚定杂交序列；图17B通过将3’夹钳和5’夹钳连接在单链形式的靶多核苷酸上，将Ad191夹钳接头连接到靶多核苷酸；5’夹钳包含形成夹钳接头的5’部分的寡核苷酸；3’夹钳包含形成夹钳接头3’部分的寡核苷酸；并且5’夹钳和3’夹钳中的每一个包含一个含有(N)5(I)n序列的辅助寡核苷酸；形成Ad191的寡核苷酸不包括标签序列；在连接步骤后，可以通过PCR将标签/条形码加入接头；p＝用于连接到单链多核苷酸的5’-磷酸基团；T＝用3’C3间隔区修饰(3SpC3，Integrated DNA Technologies，Coralville，IA)；*＝最后的肌苷用3’氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)修饰；N＝所有4个核苷酸A、T、C、G的混合物，其比例为1:1:1:1；I＝肌苷。

图18是本申请实施例中示例性的夹钳接头“接头B-Ad212”。图18A用于通过SBS进行“串联(in-line)”条形码读取的夹钳接头Ad212的核苷酸序列；Ad212包括以下特征：用于读取条形码或标签和用于读取“插入”靶多核苷酸序列的SBS引物杂交序列(1)；和标签/条形码序列(2)；图18B通过将3’夹钳和5’夹钳连接在单链形式的靶多核苷酸上，将Ad212夹钳接头连接至靶多核苷酸；5’夹钳包含形成夹钳接头5’部分的寡核苷酸；3’夹钳包含形成夹钳接头3’部分的寡核苷酸；并且5’夹钳和3’夹钳中的每一个包含一个含有(N)5(I)n序列的辅助寡核苷酸；p＝5’-磷酸基团，用于连接到单链多核苷酸，并且用于直接单链连接-环化而无需扩增；C＝用3’-氨基修饰剂(3AmMO，Integrated DNA Technologies，Coralville，IA)修饰；*＝最后的肌苷也用3AmMO修饰；N＝所有4个核苷酸A、T、C、G的混合物，其比例为1:1:1:1；I＝肌苷。

图19是本申请实施例中用于构建包含两个鼓泡接头的文库的示例性流程图；示出了用于构建含有两个鼓泡接头的配对多核苷酸构建体的示例性方法。

图20是本申请实施例中3’侧向连接；该图示出了接头与各种底物(substrates)的连接；接头是合成的双链DNA，具有5’平端和3’端的3’端突起，3’端突起防止接头自连接；为进一步防止接头的自连接，接头的3’末端是双脱氧核苷酸，以实心圆表示；长接头链的磷酸化5’末端与底物DNA的3’末端连接；底物DNA分子含有以下结构之一：底物1，具有3’-羟基的缺口；底物2，1bp间隙；底物3，8bp间隙；和底物4，5’-羟基，即具有超过5’末端的突出末端。

图21是本申请实施例中文库构建-ntCNT/CPE的示例流程图；显示了用于构建文库的流程，涉及受控引物延伸(缩写CPE)和核苷酸量受控缺口平移(缩写ntCNT)；要表征的基因组被片段化，然后分离出500-100bp的基因组DNA片段；在末端修复和加A尾后，将Ad1半-接头臂连接到片段的末端，并扩增得到的Ad1连接的片段；USER反应消除引物的5’末端，产生Ad1臂互补物；片段末端然后变得彼此互补，并且具有连接的Ad1臂的片段被环化；在环化DNA的一条链上产生1bp的间隙，然后通过控制dNTP量将其缺口平移80bp；如果用于ntCNT的DNA聚合酶是Taq DNA聚合酶，任选地进行切除反应以增加切口或缺口的大小以便于通过3’侧向连接进行接头连接；然后通过3’侧向连接，具体地，缺口连接，将接头Ad2_5’连接到缺口处；选择线性链作为模板以通过CPE合成互补链，通过控制dNTP比(即ntCPE)控制特定长度；接头Ad2_3’通过3’侧向连接而连接到5’突起末端；使用大规模PCR来制备所得线性dsDNA的拷贝，然后将其变性产生ssDNA；将桥连片段退火以结合ssDNA的末端，并使用T4连接酶连接末端以产生单链环，随后通过滚环扩增以制备用于测序的DNB。

图22是本申请实施例中构建包含两个L-寡核苷酸接头的文库的示例性流程图；示出了构建包含两个L-寡核苷酸接头的配对多核苷酸构建体的示例性方法。

图23是本申请实施例中构建包含鼓泡接头和夹钳接头的文库的构造的示例性流程图；示出了构建包含作为鼓泡接头的第一接头和作为夹钳接头的第二接头的配对多核苷酸构建体的示例性方法。

图24是本申请实施例中与使用其他方法构建的文库相比，使用时间和温度受控缺口平移(缩写TT-CNT)构建的文库的外显子组(英文Exome)GC曲线；将根据实施例1批次10000046和批次10000096的方法构建的文库的GC曲线与使用切口平移方法“Denali”构建的文库以及根据另一种方法构建的文库的GC曲线进行比较。

具体实施方式

1.概述

在一方面，提供用于核酸测序的多核苷酸构建体和文库，以及产生多核苷酸构建体和文库的方法。本申请描述的多核苷酸构建体包含由较大核酸片段产生的配对多核苷酸序列，并且还包含接头序列。如本申请所用，术语“配对多核苷酸构建体”是指包含由较大核酸片段，如基因组DNA，产生的多核苷酸序列或“多核苷酸臂”的配偶对的构建体，并且还包含第一接头和第二接头，其中每个多核苷酸臂在一端连接到第一接头，另一端连接到第二接头。图1中示出了配对多核苷酸构建体的示意图。图2示出了生成包含两个鼓泡接头的配对多核苷酸构建体的示例性方法的流程图。

在一些实施方案中，本申请的多核苷酸构建体或文库可以通过扩增方法以形成可以置于表面上的多核苷酸连环体(concatemers)或“[DNA]纳米球”。然后可以对多核苷酸构建体或包含多核苷酸构建体的连环体的纳米球进行测序，以检测和鉴定靶核酸序列。在一些实施方案中，可以使用诸如通过连接方法测序，例如组合探针锚定连接(缩写“cPAL”)方法的技术或通过合成方法测序来对多核苷酸构建体和文库进行测序。

如本申请的配对构建体和文库可用于确定靶多核苷酸、基因组、外显子组、核苷酸文库等内的重复序列的长度和/或核苷酸序列。例如，许多测序技术具有相对较短的读取长度，并且由于这些较短的读取长度可能无法通过长的重复序列序列，例如延伸20、30、40或50个碱基或更多的重复序列，可能难以从短读取长度组装完整的序列，部分是由于不能确定重复序列的端点。通过使用如本申请所述的配对构建体和配对文库，其中起始多核苷酸片段的大小和片段的缺失部分的长度是已知的或可以被预测的，甚至可以使用短的读取长度鉴定靶多核苷酸中目标区的长度和/或核苷酸序列。

如本申请的配对构建体和文库也可用于减少GC偏差，其传统上导致富含GC的序列的低覆盖。使用本申请所述的方法和组合物可以获得富含GC的序列覆盖率的改善，允许更高质量的数据或对某些基因、基因组或外显子区进行测序的能力。

另外，本申请的方法和组合物具有显著降低建库成本的多个特征。在一个方面，本申请的方法需要相对少量的核酸起始量，例如，只需约3μg未片段化的起始基因组DNA，或0.3至1.2pmol片段化的筛选片段大小的DNA。因此，与本领域已知的文库构建方法相比，本申请的方法减少了生成文库所需的核酸起始量，而不牺牲产量或覆盖率。此外，与本领域已知的文库构建方法相比，本申请的方法减少了建库所需的步骤，优化了各种酶促和非酶促步骤，缩小了各个步骤所需的反应体积，而不牺牲产量或覆盖率。本申请的方法更加适合于自动化文库构建，以增加测序通量。

2.用于文库构建的基因组核酸

通常，根据本申请的方法产生的配对文库包含靶核酸序列与“接头”，靶核酸序列例如，基因组DNA或其他类型的核酸。接头可以充当每个接头-基因组DNA结以外的多个位置的读取碱基的起点，并且可以从接头沿两个方向读取碱基。

如本申请用于产生配对文库的靶核酸可以是本申请的单链或双链，或可以包含双链和单链序列的一部分。例如，靶核酸可以是基因组DNA、cDNA、mRNA或DNA和RNA的组合或杂交。在一些实施方案中，用于产生配对文库的靶核酸是基因组DNA。

用于产生配对文库的靶核酸，例如，基因组DNA，可以从任何目标生物获得。目标生物包括例如植物；动物，例如，哺乳动物，包括人和非人灵长类动物；和病原体，如细菌和病毒。在一些实施方案中，靶核酸，例如基因组DNA，是人核酸。

靶核酸从目标生物体的样品获得。样品的非限制性实例包括体液，包括但不限于血液，尿液，血清，淋巴，唾液，肛门和阴道分泌物，出汗和精液；细胞；环境样本，如空气，农业，水土样品；生物试剂样品；研究样品，例如，核酸扩增反应的产物，例如PCR扩增反应；纯化的样品，如纯化的基因组DNA；RNA制剂；和原始样品，如细菌、病毒、基因组DNA等。从生物体获得靶核酸，例如基因组DNA，的方法是本领域熟知的。参见例如Sambrook等人，Molecular Cloning：A Laboratory Manual(1999)；Ausubel等人，Current Protocols inMolecular Biology，(John Wiley and Sons，Inc.，NY，1999)等。

在一些实施方案中，靶核酸包含基因组DNA。在一些实施方案中，靶核酸包含基因组的子集，例如，特定应用的目标亚群，例如可能在群体特定子集中存在突变的所选择的基因，例如易于早期得癌症的个体。在一些实施方案中，靶核酸包含外显子组DNA，即富含转录序列的全基因组DNA的子集，转录序列含有基因组中的一组外显子。在一些实施方案中，靶核酸包含全部或部分转录组，即在细胞或细胞群中产生的所有mRNA或“转录(transcripts)”的集合。在一些实施方案中，靶核酸包含甲基化的全部或部分，即甲基化位点的群体和基因组或特定细胞中的甲基化模式。

在一些实施方案中，靶核酸，例如，基因组DNA，通过片段化处理以产生一种或多种特定大小的片段。可以使用任何片段化方法。例如，在一些实施方案中，靶核酸通过机械方式，例如，超声波切割、声剪切、针剪切或超声处理；化学方法；或通过酶法，例如使用内切核酸酶，进行片段化处理。片段化的方法是本领域已知的；参见例如US 2012/0004126。在一些实施方案中，通过超声例如Covaris或Sonicman 96孔格式的仪器，实现靶核酸片段化。

在一些实施方案中，将片段化的靶核酸，例如，片段化的基因组DNA，进行大小选择以获得具有一定尺寸或大小范围的核酸片段。可以使用任何尺寸选择的方法。例如，在一些实施方案中，通过凝胶电泳分离片段化的靶核酸，并且从凝胶中提取选择片段大小的条带。在一些实施方案中，也可以采用分离柱选择特定大小的片段。在一些实施方案中，磁珠分离可用于选择性地结合具有所需大小范围的DNA片段。在一些实施例中，也可以以上方法的组合。

在一些实施方案中，片段化的多核苷酸长度为约50bp至约2000bp，例如长度为约50bp至约600bp，长度为约300bp至约1000bp，长度为约300bp至约600bp，或约200bp至约2000bp。在一些实施方案中，片段为10-100bp、50-100bp、50-300bp、100-200bp、200-300bp、50-400bp、100-400bp、200-400bp、400-500bp、400-600bp、500-600bp、50-1000bp、100-1000bp、200-1000bp、300-1000bp、400-1000bp、500-1000bp、600-1000bp、700-1000bp、700-900bp、700-800bp、800-1000bp、900-1000bp、1500-2000bp或1750-2000bp。在一些实施方案中，片段化多核苷酸，例如，基因组DNA，为约50bp，约100bp，约150bp，约200bp，约250bp，约300bp，约350bp，约400bp，约450bp，约500bp，约550bp，约650bp，约700bp，约750bp，约800bp，约850bp，约900bp，约950bp，约1000bp，约1100bp，约1200bp，约1300bp，约1400bp，约1500bp，约1600bp，约1700bp，约1800bp，约1900bp或约2000bp。

3.接头

在一方面，本申请的多核苷酸构建体包含接头。如本申请所用，接头是具有已知序列的合成多核苷酸。通常，接头的长度比插入它们的多核苷酸序列短。接头可以充当每个接头-基因组DNA结以外的多个位置的读取碱基的起点，并且可以从接头沿两个方向读取碱基。

3.1接头特征

与本申请的方法一起使用的接头的架构可以包括多个特征。在一些实施方案中，接头包括以下特征中的一个或多个：在接头的5’和3’末端的反向重复序列，用于配置在附着到DNA片段期间形成接头的寡核苷酸；一个或多个限制性内切核酸酶识别序列；一个或多个扩增，例如PCR，引物杂交序列；一个或多个测序引物杂交序列，例如SBS引物的杂交序列或cPAL引物的杂交序列，本申请也称为“锚定探针”；一个或多个用于杂交使单链DNA环化的桥连片段的序列；一个或多个滚环扩增引物杂交序列；用于通过cPAL读取标签或条形码，可以是一个或多个标签或条形码序列，或“填充”序列；和一个或多个“干扰”杂交序列，在cPAL测序期间用于洗去锚的寡核苷酸。

在一些实施方案中，接头在接头的5’和/或3’端包括一个或多个反向重复序列。在一些实施例中，接头在其5’端包括第一反向重复序列，在其3’端包含第二反向重复序列。在一些实施方案中，在接头与靶核酸的连接期间使用反向重复序列。在连接期间，反向重复序列允许形成接头的寡核苷酸瞬时形成连接于靶核酸的寡核苷酸双链体。

在一些实施方案中，接头包含一个或多个限制性内切核酸酶识别序列，其允许内切核酸酶在接头内的识别位点处结合并在接近识别序列处或在识别序列内切割。在一些实施方案中，限制性内切核酸酶识别序列是II型核酸内切酶的识别位点。II型核酸内切酶识别双链多核苷酸序列内的核苷酸碱基对的特定序列，通常在识别位点外部切割，通常留下序列的一条链的突出端，或“粘性末端”。II型核酸内切酶通常可商购并且是本领域公知的。

在一些实施方案中，接头包含一个或多个引物杂交序列，例如引物的一个或多个用于扩增反应的引物，例如，PCR引物或RCR引物，的结合位点或一个或多个用于测序反应的引物，例如，通过合成测序，的结合位点。在一些实施方案中，接头包含多个引物杂交序列，例如两个，三个，四个，五个或更多个引物杂交序列。

在一些实施方案中，接头包含一个或多个测序引物杂交序列，例如用于与SBS测序引物杂交的一个或多个序列，或与“锚定”探针杂交的一个或多个序列。锚定探针可用于测序方法，例如本申请所述的cPAL测序方法。在US9,023,769中描述了用于cPAL测序的锚定探针。在一些实施方案中，接头包含多个测序引物杂交序列，例如两个，三个，四个，五个或更多个测序引物杂交序列。在一些实施方案中，接头包含用于一个或两个或更多个测序方法的引物杂交序列，例如，用于与SBS测序引物杂交的一个或多个序列和用于与cPAL锚定探针杂交的一个或多个序列。

在一些实施例中，接头包括一个或多个“干扰”序列。如本申请所用，干扰者序列是用于在使用锚定探针，例如，在cPAL测序中，的测序方法期间用于洗脱锚定探针的寡核苷酸的结合位点。

在一些实施方案中，接头包含用于杂交桥连片段的一个或多个序列。如本申请所用，桥连片段是用于单链线性多核苷酸构建体，例如，包含配对多核苷酸臂，第一接头和第二接头的线性构建体，的环化中的寡核苷酸。桥连片段在连接位点处与单链环杂交，以便使足够长的环稳定以进行连接。

在一些实施方案中，接头包括一个或多个标签或条形码序列或“填充”序列，以通过cPAL化学改善条形码测序的质量。如本申请所用，术语“条形码”是指允许相应核酸序列被鉴定、检索和/或扩增的唯一寡核苷酸序列。在一些实施方案中，条形码被引入，对于获得多核苷酸片段的每个样品条形码是唯一的。在一些实施方案中，条形码可以各自具有在约4至约30个碱基，约6至约20个碱基或约5至约10个碱基的范围内的长度。在一些实施例中，条形码包括“唯一分子标识符”序列，例如，用于标记核酸分子群体的序列，使得群体中的每个分子具有与其相关联的不同标识符。条形码和UMI技术是本领域已知的；参见例如Winzeler等人(1999)Science 285：901；Parameswaran等人(2007)Nucleic Acids Res 35(19)：e130；Tu等人(2012)BMC Genomics 13:43；Kivioja等人，Nat Methods 9：72-74(2012)；US5,604,097；US 7,537,897；US 8,715,967；US 8,835,358；和WO 2013/173394。在一些实施方案中，通过将条形码序列包含在形成接头的寡核苷酸中，例如，鼓泡接头、L-寡核苷酸接头或夹钳接头，而将条形码序列引入接头序列。在一些实施方案中，通过具有条形码序列的一个或多个引物的扩增反应，例如PCR，将条形码序列引入接头序列。

3.2接头结构

在一些实施方案中，接头是“鼓泡(英文bubble)”接头。在一些实施例中，接头是“L-寡核苷酸(L-oligo)”接头。在一些实施例中，接头是“夹钳(clamp)”接头。图3中示出了形成鼓泡接头、L-寡核苷酸接头和夹钳接头的寡核苷酸的示例性结构。图4中示出了将鼓泡接头、L-寡核苷酸和夹钳接头连接到DNA片段的方法的示意图。

在一些实施方案中，生成的配对构建体的文库中的每个配对多核苷酸构建体包含两个接头。在一些实施方案中，多核苷酸分子中的第一接头和第二接头是相同类型的接头，例如，第一接头和第二接头中的每一个均为鼓泡接头，或者第一接头和第二接头中的每一个为L-寡核苷酸接头。在一些实施方式中，多核苷酸分子中的第一接头和第二接头是不同类型的接头，例如，第一接头是鼓泡接头，第二接头是夹钳接头。

3.3鼓泡接头

在一些实施方案中，连接到目标多核苷酸，例如，基因组DNA片段，的接头之一或两者是“鼓泡接头”。鼓泡接头由两个寡核苷酸序列“第一寡核苷酸”和“第二寡核苷酸”形成。两个寡核苷酸在其5’和3’末端彼此部分互补，使得第一寡核苷酸的5’末端与第二寡核苷酸的3’末端互补，第一寡核苷酸的3’末端与第二寡核苷酸的5’末端互补。每个寡核苷酸的插入序列，即每个寡核苷酸的中间区中的序列，与其它寡核苷酸基本上不互补，使得寡核苷酸的中间区彼此不杂交，从而形成“鼓泡”。描述寡核苷酸的双链体和由双链体形成的鼓泡结构的示意图如图3的中间图所示。

鼓泡接头可以包括一个或多个特征，例如反向重复序列，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，例如，用于用cPAL化学测序和/或用SBS化学测序，锚定探针杂交序列，RCR引物杂交序列，干扰杂交序列，标签或条形码序列，桥连片段杂交序列和填充序列。

在一些实施方案中，配对多核苷酸构建体包含两个鼓泡接头，第一鼓泡接头和第二鼓泡接头。第一鼓泡接头和第二鼓泡接头可以包括相同的特征或至少一些相同的特征，例如，反向重复序列，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，锚定探针杂交序列，RCR引物杂交序列，干扰者杂交序列，标签或条形码序列，桥连片段杂交序列和填充序列。在一些实施例中，第一鼓泡接头和第二鼓泡接头包括一些但不是全部的相同特征。

如环状配对多核苷酸构建体所看到的，鼓泡接头通常具有约50至约100个碱基的长度，例如，长度为约50至约90个碱基，长度为约60至约80碱基，长度为约60至约70个碱基，或长度为约70-80个碱基。第一鼓泡接头和第二鼓泡接头可以是相同的长度或可以是不同的长度。在一些实施例中，第一鼓泡接头比第二鼓泡接头长。在一些实施例中，第二鼓泡接头比第一鼓泡接头长。

在一些实施方案中，鼓泡接头的长度可以根据使用的测序方法而变化。例如，在一些实施方案中，第一鼓泡接头和/或第二鼓泡接头可以包含用于通过一种类型化学，例如仅用cPAL化学测序，或仅用SBS化学测序，进行测序的引物杂交序列。在一些实施方案中，包含仅用一种类型化学测序的引物杂交序列的鼓泡接头具有约60-90个碱基，约60-70个碱基，约60-80个碱基，约70-80个碱基或约80-90个碱基。在一些实施方案中，第一鼓泡接头和/或第二鼓泡接头可以含有用于使用“混合”化学测序，例如以顺序方式使用cPAL化学和SBS化学测序构建体或DNA，的引物杂交序列。在一些实施方案中，包含用于用混合化学测序的引物杂交序列的鼓泡接头具有约70-90个碱基，约70-80个碱基或约80-90个碱基的长度。图5A-C和图6A-C中示出了包含用于仅用cPAL化学测序的引物杂交序列、仅用SBS化学测序或用cPAL化学和SBS化学测序的引物杂交序列的鼓泡接头的示例性实施方案。

通常，第一寡核苷酸，在图3中也称为“5’半接头”，具有如下结构。第一寡核苷酸的5’末端具有与第二寡核苷酸3’区的域互补且与第二寡核苷酸的3’区形成双链体的区，在图3中也称为“扣环(clasp)”区。在一些实施方案中，扣环区的长度≥12个碱基；在一些实施方案中，扣环区的长度为约12至约20个碱基。在扣环区之后是与第二寡核苷酸不互补的区，其长度可以为约15至约60个碱基，例如，约15bp，约20bp，约25bp，约30bp，约35bp，约40bp，约45bp，约50bp，约55bp或约60bp长度。在该非互补性区之后是与第二寡核苷酸的5’区互补并形成双链体的反向重复区。该反向重复区的长度可以为约6至约14个碱基；在一些实施方案中，反向重复区的长度为约7至9个碱基。在反向重复区之后是与DNA片段中的A尾互补的一个或多个碱基的3’“T”突出端。在一些实施方案中，第一寡核苷酸的全长的长度为约35至约80个碱基，例如，约35bp，约40bp，约45bp，约50bp，约55bp，约60bp，约65bp，约70bp，约75bp或约80bp。

通常，第二寡核苷酸，在图3中也称为“3’半接头”，具有如下结构。第二寡核苷酸的5’末端具有将寡核苷酸与DNA片段连接的磷酸基。在5’磷酸基之后，第二寡核苷酸具有与第一寡核苷酸的3’区互补并与第一寡核苷酸的3’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约14个碱基，例如长度约6,7,8,9,10,11,12,13或14个碱基。在反向重复区之后是与第一寡核苷酸不互补的区，其长度可以为约10至约60个碱基，例如，约10，约15，约20，约25，约30，约35，约40，约45，约50，约55或约60个碱基。第一寡核苷酸与第二寡核苷酸之间缺乏互补性导致寡核苷酸双链体中形成鼓泡结构。在该非互补区之后是与第一寡核苷酸的5’区互补并形成双链体的区，在图3中也称为“扣环”区。在一些实施例中，扣环区的长度≥12个碱基；在一些实施方案中，扣环区的长度为约12至约20个碱基，例如，约12，约13，约14，约15，约16，约17，约18，约19，或约20个碱基。在扣环区之后，第二寡核苷酸具有3’修饰或阻断基团，其用于阻断该3’端与其它多核苷酸分子，例如DNA片段或其它鼓泡接头寡核苷酸，的任何潜在连接。3’修饰或阻断基团的非限制性实例包括3’氨基修饰酶，由3AmMO，Integrated DNA Technologies(IDT)，Coralville，IA进行，3’间隔，例如，C3间隔3SpC3，IDT，双脱氧核苷酸例如ddC，反向dT(缩写IDT)或3-dT-Q/3-dA-Q/3-dC-Q/3-dG-Q(Operon/Eurofins，Huntsville，AL)中任何一个。在一些实施方案中，第一寡核苷酸的全长的长度为约35至约80个碱基，例如，约35，约40，约45，约50，约55，约60，约65，约70，约75，或约80个碱基。

形成鼓泡接头的第一寡核苷酸和第二寡核苷酸可以具有相同的长度或可以是不同的长度。在一些实施方案中，第一寡核苷酸比第二寡核苷酸长。在一些实施方案中，第二寡核苷酸比第一寡核苷酸长。

通过退火形成第一寡核苷酸和第二寡核苷酸的双链体并将形成的鼓泡接头连接到多核苷酸，例如DNA片段，的两端，将鼓泡接头连接到多核苷酸，例如DNA片段。在一些实施方案中，存在于配对多核苷酸构建体中的所得鼓泡接头的长度短于第一寡核苷酸和第二寡核苷酸的总和；例如，在一些实施方案中，第一鼓泡接头短于形成第一鼓泡接头的第一寡核苷酸和第二寡核苷酸的总和，是由于第一寡核苷酸与第二寡核苷酸的互补序列的重叠，第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放的双链DNA环。在一些实施方案中，存在于配对多核苷酸构建体中的所得鼓泡接头长度长于第一寡核苷酸和第二寡核苷酸的总和；例如，在一些实施方案中，第二鼓泡接头长于构成第二鼓泡接头的第一寡核苷酸和第二寡核苷酸的总和，是由于在桥连片段辅助的(splint-assisted)ssDNA环化中加入核苷酸或由于通过PCR添加了条形码序列。

图8和SEQ ID NO.1中示出了第一鼓泡接头的一个实施方案。该第一接头称为“Ad203”，其长度为61个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；锚定探针杂交序列；干扰者杂交序列；标签序列；和链特异性RCR引物杂交序列。在一些实施方案中，接头具有与SEQ ID NO.1基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.1的多核苷酸序列。

SEQ ID NO.1：

5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBT CTCGACTCAGCAGTT-3’

图9和SEQ ID NO.2中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad201”，其长度为73个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；锚定探针杂交序列；干扰者杂交序列；标签/条形码序列；链特异性RCR引物杂交序列；和SBS引物杂交序列。在一些实施方案中，接头具有与SEQ ID NO.2基本上相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.2的多核苷酸序列。

SEQ ID NO.2：

5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBAACGATCACTCCTCTCGACTCAGCAGTT-3’

图10和SEQ ID NO.3中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad162”，其长度为64个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；锚定探针杂交序列；干扰者杂交序列；标签/条形码序列；和链特异性RCR引物杂交序列。在一些实施方案中，接头具有与SEQ ID NO.3基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.3的多核苷酸序列。

SEQ ID NO.3：

5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBB BBTCTCGACTCAGCAGTT-3’

图11和SEQ ID NO.4中示出了第一鼓泡接头的另一个实施方案。该第一接头称为“Ad201”，其长度为75个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；锚定探针杂交序列；干扰者杂交序列；标签/条形码序列；和链特异性RCR引物杂交序列。在一些实施方案中，接头具有与SEQ ID NO.4基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.4的多核苷酸序列。

SEQ ID NO.4：

5’-AACTGCTGACGTACTGATGGGCATGGCGACCTATTCAGBBBBBBBBBBCGATCACTCCTCTCCAGCTCAGCAGTT-3’

图12和SEQ ID NO.5中示出了第二鼓泡接头的一个实施方案。称为“Ad195”的第二接头长度为79个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；7-碱基标签序列；干扰者杂交序列；SBS测序引物杂交序列；锚定探针杂交序列；以及用于通过cPAL化学读取条形码或标签的6-碱基“填充物”序列。在一些实施方案中，接头具有与SEQ ID NO.5基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.5的多核苷酸序列。

SEQ ID NO.5：

5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGCGTCG(N)6BBBBBBBAACGAGTGATGCGTGTACGATCCGACTT-3’

图13和SEQ ID NO.6中示出了第二鼓泡接头的另一个实施方案。称为“Ad194”的第二接头长度为81个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；7-碱基标签序列；干扰者杂交序列；SBS测序引物杂交序列；锚定探针杂交序列；以及用于通过cPAL化学读取条形码或标签的7-碱基“填充物”序列。在一些实施方案中，接头具有与SEQ ID NO.6基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.6的多核苷酸序列。

SEQ ID NO.6：

5’-AAGTCGGAGGCCAAGCGTGACTTAGGACATGTAGCGACCT(N)6BBBBBBBAACGAGTGATGCGTGTACGATCCGACTT-3’

图14和SEQ ID NO.7中示出了第二鼓泡接头的另一个实施方案。称为“Ad165-鼓泡”的第二接头长度为48个核苷酸，包括以下特征：接头5’和3’端的反向重复序列；锚定探针杂交序列；和干扰者杂交序列。在一些实施方案中，接头具有与SEQ ID NO.7基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.7的多核苷酸序列。

SEQ ID NO.7：

5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGTGTACGATCCGAC TT-3’

3.4L-寡核苷酸接头

在一些实施方案中，连接到目标多核苷酸，例如，基因组DNA片段，的接头之一或两者是“L-寡核苷酸接头”。L-寡核苷酸接头由两个寡核苷酸序列“第一寡核苷酸”，本申请也称为“5’-半接头”，和“第二寡核苷酸”，本申请也称为“3’-半接头”，形成。两个寡核苷酸彼此部分互补，使得第一寡核苷酸的3’端与第二寡核苷酸的5’端互补。第一寡核苷酸的剩余5’序列与第二寡核苷酸的剩余3’序列基本上不互补，使得这些区彼此不杂交；结果，第一寡核苷酸形成“L”形。描述寡核苷酸的双链体和由双链体形成的L-寡核苷酸结构的示意图如图3左图所示。

L-寡核苷酸接头可以包括一个或多个特征，例如反向重复序列，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，例如用于用cPAL化学测序和/或用SBS化学测序，锚定探针杂交序列，RCR引物杂交序列，干扰者杂交序列，标签或条形码序列和填充序列。

在一些实施方案中，配对多核苷酸构建体包含两个L-寡核苷酸接头，第一L-寡核苷酸接头和第二L-寡核苷酸接头。第一L-寡核苷酸接头和第二L-寡核苷酸接头可以包括相同的特征或至少一些相同的特征，例如，反向重复序列，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，锚定探针杂交序列，RCR引物杂交序列，干扰者杂交序列，标签或条形码序列，桥连片段杂交序列和填充序列。在一些实施方案中，第一L-寡核苷酸接头和第二L-寡核苷酸接头包括一些但不是全部相同的特征。在一些实施方案中，第一L-寡核苷酸接头包含通过第一L-寡核苷酸接头的第二寡核苷酸引入L-寡核苷酸接头的条形码序列，其在连接到多核苷酸片段之前连接到第一L-寡核苷酸接头的第一寡核苷酸；因为第二寡核苷酸在第一寡核苷酸之前连接到多核苷酸片段，在第二寡核苷酸中包含条形码序列允许将通过条形码标记的不同样品汇集在一起，并允许通过多路复用过程，例如，用于全外显子组序列和长片段读取测序应用，继续进行文库构建过程。

如在环状配对多核苷酸构建体中观察到的，L-寡核苷酸接头通常具有约50至约100个碱基的长度，例如，长度为约50至约90个碱基，长度为约60至约80个碱基，长度为约60至约70个碱基，或长度为约70-80碱基。第一L-寡核苷酸接头和第二L-寡核苷酸接头可以是相同的长度或可以是不同的长度。在一些实施方案中，第一L-寡核苷酸接头比第二L-寡核苷酸接头更长。在一些实施方案中，第二L-寡核苷酸接头比第一L-寡核苷酸接头更长。

在一些实施方案中，L-寡核苷酸接头的长度可以根据待使用的测序方法而变化。例如，在一些实施方案中，第一L-寡核苷酸接头和/或第二L-寡核苷酸接头可以含有用于通过一种类型化学，例如，仅用cPAL化学测序或仅用SBS化学测序，进行测序的引物杂交序列。在一些实施方案中，包含仅用于一种类型化学测序的引物杂交序列的L-寡核苷酸接头具有约60-90个碱基，约60-70个碱基，约60-80个碱基，约70-80个碱基的长度，或约80-90个碱基的长度。在一些实施方案中，第一L-寡核苷酸接头和/或第二L-寡核苷酸接头可以含有引物杂交序列用于使用“混合”化学测序，例如，以顺序方式使用cPAL化学和SBS化学测序构建体或DNA。在一些实施方案中，包含用于用混合化学测序的引物杂交序列的L-寡核苷酸接头具有约70-90个碱基，约70-80个碱基或约80-90个碱基的长度。包含用于仅用cPAL化学测序的引物杂交序列、用于仅用SBS化学测序的引物杂交序列或用于用cPAL化学和SBS化学测序的引物杂交序列的L-寡核苷酸接头的示例性实施方案示于图5A-C和图6A-C中。

通常，第一寡核苷酸，在图3中也称为“5’半接头”，具有如下结构。第一寡核苷酸的5’区是与第二寡核苷酸的3’区不互补的区。在一些实施方案中，不互补的该区的长度为约20至约60个碱基，例如，约20，约25，约30，约35，约40，约45，约50，约55，或约60个碱基长度。在该非互补区之后是与第二寡核苷酸的5’区互补且与第二寡核苷酸的5’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约12个碱基，例如约6，约7，约8，约9，约10，约11，或约12个碱基长度；在一些实施方案中，反向重复区的长度为约7至9个碱基。在一些实施方案中，第一寡核苷酸的全长的长度为约25至约75个碱基，例如，约25，约30，约35，约40，约45，约50，约55，约60，约65，约70个，或约75个碱基长度。

通常，第二寡核苷酸，在图3中也称为“3’半接头”，具有如下结构。第二寡核苷酸的5’端在与第一寡核苷酸退火后形成平端。5’平端之后是与第一寡核苷酸的3’区互补并与第一寡核苷酸的3’区形成双链体的反向重复区。该反向重复区的长度可以为约6至约12个碱基，例如约6，约7，约8，约9，约10，约11，或约12个碱基长度；在一些实施方案中，反向重复区的长度为约7至9个碱基。在反向重复区之后是与第一寡核苷酸的5’区不互补的区。在一些实施方案中，不互补的该区的长度为约20至约60个碱基，例如，约20，约25，约30，约35，约40，约45，约50，约55，或约60个碱基长度。在一些实施方案中，第一寡核苷酸的全长的长度为约25至约75个碱基，例如，约25，约30，约35，约40，约45，约50，约55，约60，约65，约70个，或约75个碱基长度。

形成L-寡核苷酸接头的两个寡核苷酸序列可以是相同的长度或可以是不同的长度。在一些实施方案中，第一寡核苷酸比第二寡核苷酸长。在一些实施方案中，第二寡核苷酸比第一寡核苷酸长。

通过两步连接法将L-寡核苷酸接头连接到多核苷酸，例如，DNA片段。在第一次连接步骤中，在约8-9个核苷酸的短的具有3’-端修饰的辅助寡核苷酸，例如，可从Operon/Eurofins获得的3-dN-Q修饰，存在下，将3’半接头，即第二寡核苷酸，连接到平端多核苷酸，例如基因组DNA片段，的3’末端。关于L-寡核苷酸接头的连接使用的“辅助寡核苷酸”是指与第二寡核苷酸的一部分，例如，第二寡核苷酸的5’区，杂交的寡核苷酸，以便于在平端连接中将第二寡核苷酸连接到靶多核苷酸片段。然后在第二次连接反应中将5’半接头，即第一寡核苷酸，连接到5’端。在一些实施方案中，存在于配对多核苷酸构建体，例如，适合连环化的环状配对构建体，中的所得L-寡核苷酸接头的长度短于第一寡核苷酸和第二寡核苷酸的总和，例如，由于第一寡核苷酸与第二寡核苷酸的互补序列的重叠，第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放双链DNA环。

图15和SEQ ID NO.8中示出了第一L-寡核苷酸接头的一个实施方案。这个称为“Ad169”的第一接头长度为66个核苷酸，包括以下特征：反向重复序列；锚定探针杂交序列；干扰者杂交序列；和标签序列。在一些实施方案中，接头具有与SEQ ID NO.8基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.8的多核苷酸序列。

SEQ ID NO.8：

5’-ACTGCTGACGTACTGACTGTAGGGCTGGCGACCTTGACGANNNNNNNNNNTCCTCAGCTCAGCAGT-3’

图16和SEQ ID NO.9中示出了第二L-寡核苷酸接头的一个实施方案。称为“Ad165”的第二接头长度为48个核苷酸，包括以下特征：反向重复序列；干扰者杂交序列；锚定探针杂交序列；和用于杂交桥连片段的序列。在一些实施方案中，接头具有与SEQ ID NO.9基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.9的多核苷酸序列。

SEQ ID NO.9：

5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGTGTACGATCCGACTT-3’

3.5夹钳接头

在一些实施方案中，连接到目标多核苷酸，例如，基因组DNA片段，的接头之一或两者是“夹钳接头”。通过将“3’夹钳”和“5’夹钳”连接到靶单链靶多核苷酸上，例如，DNA片段，将夹钳接头连接到靶多核苷酸。5’夹钳包含第一寡核苷酸和第一“辅助寡核苷酸”，3’夹钳包含第二寡核苷酸和第二“辅助寡核苷酸”。关于夹钳接头的连接，“辅助寡核苷酸”是指与形成夹钳接头的第一寡核苷酸或第二寡核苷酸的一部分杂交的寡核苷酸，以便于第一寡核苷酸和第二寡核苷酸连接至靶多核苷酸。在连接后除去辅助寡核苷酸，因此不在配对多核苷酸构建体中观察到的最终夹钳接头的一部分。辅助寡核苷酸包含能够与靶靶多核苷酸，例如，DNA片段，杂交的随机核苷酸A，T，C或G，和通用肌苷核苷酸序列。因此，辅助寡核苷酸帮助将第一寡核苷酸和第二寡核苷酸“夹紧”到靶多核苷酸。在图3中示出了从包含第一寡核苷酸的5’夹钳和包含第二寡核苷酸的3’夹钳形成夹钳接头的实例。

夹钳接头可以包括一个或多个特征，例如限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，例如，用于用cPAL化学测序和/或用SBS化学测序，锚定探针杂交序列，RCR引物杂交序列，干扰杂交序列，桥连片段杂交序列，标签或条形码序列和填充序列。

在一些实施方案中，配对多核苷酸构建体包含两个夹钳接头，第一夹钳接头和第二夹钳接头。第一夹钳接头和第二夹钳接头可以包括相同特征或至少一些相同特征，例如，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，锚定探针杂交序列，RCR引物杂交序列，干扰者杂交序列，标签或条形码序列和填充序列。在一些实施方案中，第一夹钳接头和第二夹钳接头包括一些但不是全部相同的特征。

如环状配对多核苷酸构建体所示，夹钳通常具有约35至约100个碱基的长度，例如，长度约35至约50个碱基，长度约60至约90个碱基，长度约70至约90个碱基长度，或长度约70-80个碱基。第一夹钳接头和第二夹钳接头可以具有相同的长度或可以是不同的长度。在一些实施方案中，第一夹钳接头比第二夹钳接头长。在一些实施方案中，第二夹钳接头比第一夹钳接头长。

在一些实施方案中，夹钳接头的长度可以根据待使用的测序方法而变化。例如，在一些实施方案中，第一夹钳接头和/或第二夹钳接头可以含有用于通过一种类型化学，例如仅用cPAL化学测序，或仅用SBS化学测序，进行测序的引物杂交序列。在一些实施方案中，包含用于仅用一种类型化学测序的引物杂交序列的夹钳接头具有约60-90个碱基，约70-90个碱基，约70-80个碱基或约80-90个碱基的长度。或者，在一些实施方案中，包含仅具有SBS序列测序的引物杂交序列的夹钳接头具有约35-50个碱基或约35-45个碱基的长度。在一些实施方案中，第一夹钳接头和/或第二夹钳接头可以含有引物杂交序列，用于使用“混合”化学测序，例如以顺序方式使用cPAL化学和SBS化学测序构建体或DNA。在一些实施方案中，包含用于用混合化学测序的引物杂交序列的夹钳接头具有约70-90个碱基，约70-80个碱基或约80-90个碱基的长度。包含用于仅用cPAL化学测序的引物杂交序列、用于仅用SBS化学测序的引物杂交序列或用于用cPAL化学和SBS化学测序的引物杂交序列的夹钳接头的示例性实施方案示于图7A-D中。

第一寡核苷酸，对应于最终夹钳接头的5’部分，和第二寡核苷酸，对应于最终夹钳接头的3’部分，可以是相同的长度或可以是不同的长度。在一些实施方案中，第一寡核苷酸比第二寡核苷酸长。在一些实施方案中，第一寡核苷酸和/或第二寡核苷酸的长度为约20至约75个碱基，例如，约20，约25，约30，约35，约40，约45，约50，约55，约60，约65，约70，或约75个碱基。

在一些实施方案中，第一辅助寡核苷酸用于辅助对应于最终夹钳接头的5’部分的第一寡核苷酸的连接，并且第二辅助寡核苷酸用于辅助对应于最终夹钳接头的3’部分的第二寡核苷酸的连接。在一些实施方案中，第一辅助寡核苷酸包含5’(N)5(I)n序列，随后是与第一寡核苷酸杂交的区。在(N)5(I)n序列中，N可以是G，A，T或C核苷酸中的任一个，I是肌苷，n≥3。在一些实施方案中，第一辅助寡核苷酸还包含3’端的修饰以防止分子内连接。在一些实施方案中，第一辅助寡核苷酸具有约20-40个碱基的长度。

在一些实施方案中，第二辅助寡核苷酸包含与第二寡核苷酸杂交的5’区，随后是(N)5(I)n序列。在(N)5(I)n序列中，N可以是G，A，T或C核苷酸中的任一个，I是肌苷，n≥3。在一些实施方案中，第二辅助寡核苷酸还包含3’端的修饰以防止分子内连接。在一些实施方案中，第二辅助寡核苷酸具有约20-40个碱基的长度。

通过在上述辅助寡核苷酸序列的存在下连接第一寡核苷酸和第二寡核苷酸，将夹钳接头与单链形式的多核苷酸，例如DNA片段，连接。在一些实施方案中，存在于配对多核苷酸构建体，例如，适于连环化的环状配对构建体，中的所得夹钳接头的长度比第一寡核苷酸和第二寡核苷酸的总和短，例如由于第一寡核苷酸和第二寡核苷酸的互补序列的重叠，第二寡核苷酸用于在产生配对多核苷酸臂的步骤期间稳定开放双链DNA环。

夹钳接头的一个实施例在图17和SEQ ID NO.10中示出。这种称为“Ad191”的接头长度为76个核苷酸，包括以下特征：反向重复序列；标签或条形码序列；用于通过cPAL化学读取条形码或标签的“填充”序列；锚定探针杂交序列；干扰者杂交序列；SBS测序引物杂交序列；RCR引物杂交序列和用于用SBS化学读取条形码或标签的SBS引物杂交序列。在一些实施方案中，接头具有与SEQ ID NO.10基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.10的多核苷酸序列。

SEQ ID NO.10：

5’-AAGTCGGAGGCCAAGCGTGCTTAGGACATGTAGCG(N)6CTCTCTAAACGAGTGATGCGTGTACGATCCGACTT-3’

夹钳接头的另一个实施方案在图18和SEQ ID NO.11中示出。这种称为“Ad212”的接头具有44个核苷酸的长度，并且包括以下特征：用于读取条形码/标签和靶多核苷酸的SBS引物；和标签/条形码序列。在一些实施方案中，接头具有与SEQ ID NO.11基本相同，例如，至少70％，75％，80％，85％，90％，91％，92％，93％，94％，95％96％，97％，98％，或99％相同，的多核苷酸序列。在一些实施方案中，接头具有SEQ ID NO.11的多核苷酸序列。

SEQ ID NO.11：

5’-AAGTCGGAACCGTGGATGCTGAGTGATGGCTGTACGABBBBBBB-3’

3.6不同类型接头的组合

在一些实施方案中，配对多核苷酸构建体，例如，适于连环化的环状配对构建体，包含两个如本申请所述的不同类型的接头。在一些实施方案中，配对多核苷酸构建体包含作为夹钳接头的第一接头和作为鼓泡接头的第二接头。在一些实施方案中，配对多核苷酸构建体包括作为鼓泡接头的第一接头和作为夹钳接头的第二接头。第一接头和第二接头可以包括相同的特征或至少一些相同的特征，例如，限制性内切核酸酶识别序列，PCR引物杂交序列，测序引物杂交序列，锚定探针杂交序列，RCR引物杂交序列，干扰者杂交序列，标签或条形码序列和填充序列。在一些实施例中，第一接头和第二接头包括一些但不是全部的相同特征。作为非限制性示例，在一些实施例中，鼓泡接头包括反向重复序列，而夹钳接头不包括反向重复序列。

4.第一接头的连接和环化

4.1多核苷酸片段的修饰

在一些实施方案中，在将第一接头与多核苷酸片段连接之前，修饰多核苷酸片段以使其端部与第一接头连接相容。作为非限制性实例，在一些实施方案中，多核苷酸片段可以含有5’和/或3’突出端，并且磷酸基可以在5’和/或3’端存在或不存在。在一些实施方案中，在将第一接头连接到片段化DNA之前，可以通过产生用于A-T连接的粘性末端来修饰DNA片段的末端。作为另一个非限制性实例，在一些实施方案中，在将第一接头连接到片段化DNA之前，DNA片段的末端可以通过产生平端去磷酸化末端来修饰，以用于平末端连接。作为另一个非限制性实例，在一些实施方案中，在将第一接头连接到片段化DNA之前，将DNA变性为单链形式。

在一些实施方案中，多核苷酸片段的修饰导致具有5’磷酸化平末端的DNA片段。本领域技术人员将理解如何产生5’磷酸化的平端DNA，例如，通过将DNA片段的5’端添加磷酸基团，将羟基再生到DNA的3’端，填充凹入的3’端，和/或根据需要移除突出的3’端。本领域技术人员可以确定用于制备5’磷酸化平端DNA的合适的酶，例如激酶和聚合酶，例如T4多核苷酸激酶，T4DNA聚合酶，Klenow大片段，大肠杆菌DNA聚合酶I，大肠杆菌DNA聚合酶I大片段，Taq聚合酶，Bst聚合酶全长，Bst聚合酶大片段，Bsu DNA聚合酶大片段及其组合。在一些实施方案中，然后使用DNA聚合酶将一个或多个脱氧腺苷加入5’磷酸化平末端DNA片段的3’末端以产生3’突出端或“尾”。在一些实施方案中，将单个dA加入到3’末端。在一些实施方案中，使用Taq聚合酶，Klenow exo-，Bsu DNA聚合酶大片段或其组合用于dA加尾DNA片段。在一些实施方案中，3’突出修饰的DNA片段用于与作为鼓泡接头的第一接头连接。

在一些实施方案中，多核苷酸片段的修饰产生具有去磷酸化的平端DNA片段。具有去磷酸化的平端的DNA片段可以是有用的，例如用于防止DNA片段彼此连接而不连接第一接头。本领域技术人员将理解如何产生去磷酸化的平端DNA，例如，通过从5’和/或3’端去除磷酸基团，填充凹入的3’端和/或根据需要去除突出的3’端。本领域技术人员可以确定用于制备去磷酸化的平端DNA的合适的酶，例如磷酸酶和聚合酶，例如虾碱性磷酸酶，T4DNA聚合酶，Klenow大片段，大肠杆菌DNA聚合酶I，大肠杆菌DNA聚合酶I大片段，Taq聚合酶，Bst聚合酶全长，Bst聚合酶大片段，Bsu DNA聚合酶大片段及其组合。在一些实施方案中，去磷酸化的平端DNA片段用于与作为L-寡核苷酸接头的第一接头连接。

在一些实施方案中，多核苷酸片段的修饰包括将双链DNA片段变性为单链，例如通过热变性。在一些实施方案中，单链DNA片段的5’端被磷酸化。本领域技术人员将认识到用于磷酸化5’端的合适的酶，例如，激酶，例如T4PNK。本领域技术人员还将认识到，在DNA片段末端修复后，例如，使用T4聚合酶和T4PNK的组合进行平末端修复以产生5’磷酸化末端后，双链DNA片段可以被变性，或者在DNA片段的最终修复之前可以使双链DNA片段变性，例如，将DNA片段变性为单链DNA，然后依次用磷酸酶和激酶处理单链DNA以除去3’磷酸基团并加入5’磷酸基团。在一些实施方案中，5’磷酸化单链DNA片段用于与作为夹钳接头的第一接头连接。

4.2连接

4.2.1鼓泡接头连接

在一些实施方案中，连接到多核苷酸片段的第一接头是鼓泡接头。为了将DNA片段与作为鼓泡接头的第一接头连接，将第一鼓泡接头的第一寡核苷酸和第二寡核苷酸与经修饰的，，例如，dA加尾DNA，片段退火以形成双链线性构建体，其包含两侧被第一接头寡核苷酸的双链体侧接的DNA片段。连接反应使用合适的连接酶进行。在一些实施方案中，使用T4DNA连接酶。图4描绘了鼓泡接头与DNA片段连接的示意图。

4.2.2L-oligo接头连接

在一些实施方案中，连接到多核苷酸片段的第一接头是L-寡核苷酸接头。为将DNA片段与作为L-寡核苷酸接头的第一接头连接，使用两步法。首先，在具有3’端修饰，例如，3-dN-Q修饰，Eurofin-MWG-Operon，其中N是任何碱基，的短约8-9个碱基长度的辅助寡核苷酸的存在下，将第一L-接头的第二寡核苷酸连接到修饰，例如，去磷酸化的平端，的片段。连接反应使用合适的连接酶进行。在一些实施方案中，使用T4DNA连接酶。连接酶失活，例如，在热灭活步骤中，并且辅助寡核苷酸从连接产物中除去，由于它具有低熔点。然后将磷酸基团加入到连接产物的5’端。使用任何合适的酶进行磷酸化。在一些实施方案中，T4PNK用于磷酸化5’端。然后进行第二连接步骤，以将磷酸化连接产物连接到第一L-寡核苷酸接头的第一寡核苷酸，以形成双链线性构建体，其包含DNA片段与两侧侧翼的第一接头寡核苷酸的双链体。连接反应使用合适的连接酶，例如，T3DNA连接酶，T4DNA连接酶，T7DNA连接酶，Chlorella病毒DNA连接酶购自New England Biolabs,Inc.,Ipswich,MA，或TaqDNA连接酶进行。在一些实施方案中，使用T4DNA连接酶。图4中示出了L-寡核苷酸接头与DNA片段连接的示意图。

4.2.3夹钳接头连接

在一些实施方案中，连接到多核苷酸片段的第一接头是夹钳接头。为将DNA片段与作为夹钳接头的第一接头连接，在第一辅助寡核苷酸和第二寡核苷酸的存在下，将第一夹钳接头的第一寡核苷酸和第二寡核苷酸退火到修饰的，例如，单链和5’磷酸化的，DNA片段。每个辅助寡核苷酸具有序列(N)5(I)n，第一辅助寡核苷酸和第二辅助寡核苷酸序列具有不同的序列。所得构建体是单链线性构建体，其包含DNA片段，以及一侧侧翼的含有第一接头寡核苷酸和辅助寡核苷酸的双链体，以及另一侧侧翼的含有第二接头寡核苷酸和辅助寡核苷酸的双链体。连接反应使用合适的连接酶，例如，T3DNA连接酶，T4DNA连接酶，T7DNA连接酶，Chlorella病毒DNA连接酶或Taq DNA连接酶，进行。在一些实施方案中，使用T4DNA连接酶。图4示出了夹钳接头与DNA片段连接的示例性示意图。

4.3扩增和环化

在连接步骤之后，通过PCR扩增得到包含DNA片段和两侧翼的第一接头寡核苷酸的线性构建体。使用含有尿嘧啶残基并在接头区内杂交的引物进行扩增。用于扩增反应的聚合酶是耐受模板中尿嘧啶存在的聚合酶。在一些实施方案中，使用Cx DNA聚合酶或KAPA HiFi HotStart Uracil+DNA聚合酶来扩增双链寡核苷酸双链体-DNA片段构建体。所得扩增产物是包含DNA片段和第一接头的第一寡核苷酸和第二寡核苷酸的双链构建体，其中DNA片段的每条链在一端侧接第一接头的第一寡核苷酸，另一端侧接第一接头的第二寡核苷酸。在一些实施方案中，扩增产物还包含双链构建体的每条链中的一个或多个尿嘧啶残基。

可选地，在扩增反应期间可以将一个或多个标签或条形码添加到第一接头。通常，使用包含标签或条形码序列的引物添加标签或条形码序列。在一些实施方案中，标签或条形码序列的长度为约4至约15个碱基，例如长度为4,5,6,7,8,9,10,11,12,13,14或15个碱基。在扩增反应期间引入标签或条形码序列的方法是本领域已知的。参见例如US 8,691,509；US 8,841,071；和US 8,921,076。

然后用特异性切除尿嘧啶碱基的酶处理扩增产物，这导致双链构建体中每个尿嘧啶位点上产生单个核苷酸间隙。在一些实施方案中，用于在尿嘧啶位点产生间隙的酶是尿嘧啶DNA糖基化酶或尿嘧啶特异性切除试剂USER^TM酶。

扩增且用尿嘧啶特异性切除酶处理后的产物随后进行环化，形成在第一接头区中具有“粘性”末端的环状双链多核苷酸片段，其中尿嘧啶残基被切除，本申请称为“开放双链环状多核苷酸构建体”。在一些实施方案中，尿嘧啶的切除导致每个多核苷酸链中的缺口或每个多核苷酸链中的长度为约1至约10个碱基的间隙。在一些实施方案中，每个多核苷酸链的间隙长度为约2个碱基。

图19描述了扩增和形成开放双链环状多核苷酸构建体的示例性示意图。如图19所示，开放双链环状多核苷酸构建体的结构使得一条多核苷酸链上的间隙不与其他多核苷酸链上的间隙重叠，并且在具有间隙的第一接头的区之间，存在足以稳定开放双链环的重叠互补序列区。重叠序列区长度可以为约8至约20个碱基。在一些实施方案中，重叠序列区长度为约12至约14个碱基。

在一些实施方案中，纯化DNA环化反应的反应产物以除去污染的非环化的线性DNA片段。在一些实施方案中，用特异性消化线性双链DNA而非环状或有缺口的环状双链DNA的DNA酶处理反应产物。在一些实施方案中，用Plasmid-Safe^TM ATP依赖型DNase(Epicentre，Madison，WI)或核酸外切酶V(RecBCD)(New England Biolabs，Inc)处理反应产物。

5.配对文库臂的产生采用ttCNT/Exo

包含第一接头的开放双链环状多核苷酸构建体用作生成从第一接头的每一端延伸出的多核苷酸“臂”的模板。在开放双链环状多核苷酸构建体中，片段DNA的末端，即“互补配对”被第一接头分开。合成多核苷酸臂是从第一接头的每个末端起始，到片段化DNA序列的一部分，从片段化DNA的末端开始，并且去除片段化DNA序列的中间部分，由此产生配对多核苷酸臂，其连接到第一接头的每一端。

在一些实施方案中，每个多核苷酸臂包含约50-150个碱基，约60-120个碱基或约80-100个碱基，例如约50，约60，约70，约80，约90，约100，约110，约120，约130，约140，约150个碱基。

在一些实施方案中，对于包含与第一接头连接的一对多核苷酸臂的配对构建体而言，每个多核苷酸臂具有约40-150个碱基，约60-120个碱基或约80-100个碱基，例如约40，约50，约60，约70，约80，约90，约100，约110，约120，约130，约140或约150个碱基；并且第一接头具有约50-100个碱基，约60-90个碱基，约70-80个碱基，约60-70个碱基或约80-90个碱基，例如约50，约60，约70，约80，约90或约100个碱基。在一些实施方案中，对于包含与第一接头连接的一对多核苷酸臂的构建体而言，具有约150-400个碱基，约150-300个碱基，约180-300个碱基，约180-280个碱基，约180-250个碱基，约200-300个碱基，约200-280个碱基，约250-350个碱基，约230-330个碱基或约200-250个碱基。

5.1时间和温度受控缺口平移

在一些实施方案中，由第一接头的每个末端延伸出的多核苷酸臂是通过时间和温度受控缺口平移(缩写ttCNT)过程产生的。通常，该方法涉及在开放双链环状多核苷酸构建体上进行的DNA聚合酶驱动的合成反应。对于构建体的每条链，该聚合酶反应导致在5’至3’方向上移动缺口，从第一接头区中的间隙朝向并随后沿连接到第一接头的DNA片段。当缺口沿DNA片段移动时，DNA聚合酶合成连接到第一接头的多核苷酸臂。参见例如图19。

在时间和温度受控缺口平移中，通过在非限制性浓度的dNTPs中优化缺口平移反应的时间和温度来控制5’至3’方向的聚合酶驱动的DNA合成。对于用于缺口平移反应的特定聚合酶，时间和温度条件被优化。因此，在时间和温度受控缺口平移中，可以通过调节DNA合成的进程来控制连接到第一接头上的每个多核苷酸臂的长度。

在一些实施方案中，使用Taq聚合酶，大肠杆菌DNA聚合酶I，Bst DNA聚合酶全长，Taq DNA聚合酶(New England Biolabs，Inc)或DNA聚合酶(NewEngland Biolabs，Inc)。在一些实施方案中，使用Taq聚合酶，Taq DNA聚合酶，或DNA聚合酶。缺口平移反应的最佳时间和温度可以根据所使用的聚合酶而变化。在一些实施方案中，缺口平移反应发生在约37℃至约72℃，例如约37℃，约40℃，约45℃，约50℃，约55℃，约60℃，约65℃，约70℃或约72℃。在一些实施方案中，缺口平移反应进行约10至约120秒，例如，约10，约20，约30，约40，约50，约60，约70，约80，约90，约100约110或约120秒。在一些实施方案中，使用Taq聚合酶在约45℃的温度下进行约10至约120秒，进行时间和温度受控缺口平移。

时间和温度受控缺口平移DNA合成反应的终止，可通过在冰上温育，通过用螯合剂，例如浓度为至少约20mM的EDTA，螯合可用的镁，和/或通过向反应中加入盐，例如浓度至少为约800mM的氯化钠。在一些实施方案中，通过向反应中加入约20mM EDTA来终止时间和温度受控缺口平移反应。

在通过时间和温度受控缺口平移的DNA合成反应结束时，开放双链环状多核苷酸构建体“崩溃”，这是通过在构建体中的缺口的位点引发核苷酸去除，并在每条链的5’至3’继续去除核苷酸，从而产生部分双链的线性构建体，双链位于第一接头所在的区并且在合成多核苷酸臂的位置，并且在5’端具有单链尾。在一些实施方案中，T7外切核酸酶用于去除核苷酸并产生5’单链尾。

然后使用降解单链核酸的核酸酶从构建体中除去5’单链DNA尾。在一些实施方案中，可以使用Mung Bean核酸酶，S1核酸酶，核酸外切酶VII或T7核酸内切酶I来除去5’单链端。所得构建体是双链线性构建体，其中每条链包含侧翼为多核苷酸臂的第一接头，所述多核苷酸臂为核酸序列的配偶对，本申请称为“线性配对构建体”。

用于除去5’单链DNA尾的最佳反应条件，例如时间，温度和单位，可以基于所使用的核酸酶而变化。例如，对于S1核酸酶，示例性条件包括：在约23℃下5-20U/pmol酶孵育约15分钟；在约12℃下5-20U/pmol酶孵育约30分钟；或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII，示例性条件包括：在约37℃下0.4-12U/pmol酶孵育约30分钟。对于Mung Bean核酸酶，示例性条件包括：在约22℃下1-7U/pmol酶孵育约30分钟；或在约37℃下4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I，示例性条件包括：在约23℃下1-4U/pmol酶孵育约30分钟；在约30℃下1-4U/pmol酶孵育约30分钟；或在约37℃下1-4U/pmol酶孵育约15分钟。

5.2受控延伸

在一些实施方案中，产生从第一接头的每一端延伸的多核苷酸臂通过受控延伸过程进行。通常，该方法包括首先在开放双链环状多核苷酸构建体的每条链上的缺口或间隙处进行外切核酸酶反应，以产生除第一接头区内的重叠序列区以外的单链构建体。随后，从每条链上的第一接头3’端开始进行聚合酶驱动的核酸链延伸，其使用单链尾的作为模板。延伸反应在5’到3’方向上移动以合成连接到第一接头的多核苷酸臂。

5.2.1时间和温度受控延伸

在一些实施方案中，通过“时间和温度受控延伸”的方法产生配对构建体。在时间和温度受控延伸中，开放双链环状多核苷酸构建体“崩溃”，这是通过在构建体中的缺口位点引发核酸酶去除核苷酸，并在每条链的5’到3’方向上继续去除核苷酸，从而产生除了第一接头区中重叠序列短区，长度为约8至约20个碱基，例如约12至14个碱基长度，之外，大部分是单链的线性构建体。在一些实施方案中，T7外切核酸酶用于去除核苷酸并产生5’单链尾。在一些实施方案中，从第一接头的5’端延伸的每条单链多核苷酸尾长度为约150至约500个碱基。

然后从每条链上的第一接头的3’端进行聚合酶驱动的DNA延伸，以便在每条链上延伸多核苷酸臂，得到构建体，包含双链第一接头和从第一接头的每一端延伸出的双链多核苷酸臂，并且还包括在每条链的5’端的单链尾。通过在非限制性浓度的dNTPs中优化延伸反应的时间和温度来控制聚合酶驱动的DNA合成。对于用于缺口平移反应的特定聚合酶来讲优化时间和温度条件。因此，在时间和温度受控延伸中，可以通过调节DNA合成的进展来控制连接到第一接头上的每个多核苷酸臂的长度。在一些实施方案中，时间和温度受控延伸使用大肠杆菌DNA聚合酶I，大肠杆菌DNA聚合酶I大片段，Taq聚合酶，Bst DNA聚合酶大片段，Bst DNA聚合酶全长，Bsu DNA聚合酶大片段，T4DNA聚合酶Exo-，phi29WT，phi29M1突变体，phi29M6突变体，phi29M8突变体，Sulfolobus DNA聚合酶IV，Bst 2.0DNA聚合酶，Bst2.0DNA聚合酶(New Englands Biolabs，Inc.)，Taq DNA聚合酶(New England Biolabs，Inc。)或DNA聚合酶(New England Biolabs，Inc)。在一些实施方案中，使用Taq聚合酶，Sulfolobus DNA聚合酶IV，Taq DNA聚合酶或DNA聚合酶。

受控延伸反应的最佳时间和温度可以根据所使用的聚合酶而变化。在一些实施方案中，受控延伸反应在约4℃至约60℃，例如约4°，约10°，约15°，约20°，约25°，约30°，约35°，约37°，约40°，约45°，约50°，约55°，约60℃，进行。在一些实施方案中，缺口平移反应进行约10至约120秒，例如，约10，约20，约30，约40，约50，约60，约70，约80，约90，约100约110或约120秒。示例性条件包括：大肠杆菌DNA聚合酶I在约4°至约25℃下进行约15至约120秒；大肠杆菌DNA聚合酶I大片段在约4°至约25℃进行约15至约60秒；Taq聚合酶，Taq DNA聚合酶或DNA聚合酶，在约37°至约55℃进行约10至约90秒；Bst DNA聚合酶大片段，Bst DNA聚合酶全长或Bst 2.0DNA聚合酶，在约37°至约45℃进行约10至约30秒；Bsu DNA聚合酶大片段或T4DNA聚合酶Exo-在约4°至约25℃下进行约15至约60秒；phi29WT，phi29M1突变体，phi29M6突变体或phi29M8突变体，在约4℃进行约10至约60秒；SulfolobusDNA聚合酶IV在约37℃进行约30至约90秒；Bst 2.0DNA聚合酶在约45℃进行约10至约30秒。

时间和温度受控延伸的DNA合成可以被终止，可以通过在反应中用螯合剂，例如，至少约20mM浓度的EDTA，螯合可用的镁，和/或通过加入盐，例如，至少约800mM的浓度的氯化钠。

在延伸反应之后，使用降解单链核酸的核酸酶除去5’单链尾。在一些实施方案中，使用绿豆核酸酶，S1核酸酶，核酸外切酶VII或T7核酸内切酶I来除去5’单链端。所得构建体是双链线性构建体，其中每条链包含侧翼为多核苷酸臂的第一接头，所述多核苷酸臂为核酸序列配偶对，本申请称为“线性配对构建体”。

用于除去5’单链DNA尾的最佳反应条件，例如时间，温度和单位，可以基于所使用的核酸酶而变化。例如，对于S1核酸酶，示例性条件包括：在约23℃下5-20U/pmol酶孵育约15分钟；在约12℃下5-20U/pmol酶孵育约30分钟；或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII，示例性条件包括：在约37℃下0.4-12U/pmol酶孵育约30分钟。对于Mung Bean核酸酶，示例性条件包括：在约22℃下1-7U/pmol酶孵育约30分钟；或在37℃下约4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I，示例性条件包括：在约23℃下1-4U/pmol酶孵育约30分钟；在约30℃下1-4U/pmol酶孵育约30分钟；或在约37℃下1-4U/pmol酶孵育约15分钟。

5.2.2可逆终止剂受控延伸

在一些实施方案中，通过“可逆终止剂受控延伸”的方法产生配对构建体。在可逆终止剂受控延伸中，如在时间和温度受控延伸中，开放双链环状多核苷酸构建体“崩溃”，这是通过在构建体的缺口或间隙位点引发核苷酸去除，并在每条链的5’至3’继续去除核苷酸，从而产生除了第一接头区中重叠序列短区，长度为约8至约20个碱基，例如约12至14个碱基长度，之外大部分是单链的线性构建体。在一些实施方案中，T7外切核酸酶用于去除核苷酸并产生5’单链尾。在一些实施方案中，从第一接头的5’端延伸出的每条单链多核苷酸尾长度为约150至约500个核苷酸。然后进行从每条链上的第一接头的3’端开始的聚合酶驱动的DNA延伸，以便在每条链上延伸多核苷酸臂，得到构建体，其包含双链第一接头和从第一接头的每一端延伸出的双链多核苷酸臂，并且还包括在每条链的5’端的单链尾。在可逆终止剂控制延伸中，聚合酶驱动的DNA合成通过优化可逆终止剂与dNTPs的比例来控制。可逆终止剂可以选自如下组，例如3’-OH封闭的可逆终止剂，例如3’-O-叠氮甲基可逆终止剂；3’-O-NH2可逆终止剂和3’-O-烯丙基可逆终止剂，或选自如下组，例如3’-OH未封闭的可逆终止剂，例如，由Helicos BioSciences Corporation开发的“虚拟终止剂(virtualterminators)”，和由Michael L.Merzker集团开发的“雷电终止剂(lightningterminators)”、2-硝基苄基烷基化终止剂。当所有生长链通过并入可逆终止剂终止时，DNA合成停止。可以通过用THPP，即Tris(3-羟丙基)膦，处理重新开始DNA合成，THPP使3’羟基可用于进一步的多核苷酸延伸。因此，在可逆终止剂受控延伸中，通过调节DNA合成的进展可以控制连接到第一接头上的每个多核苷酸臂的长度。在一些实施方案中，可逆终止剂受控延伸使用Thermo Sequenase^TM(GE Healthcare,Pittsburg,PA),T7Sequenase^TM 2.0(GEHealthcare),Therminator^TM(New England Biolabs,Inc.),Therminator^TM IX或定制聚合酶。当聚合酶掺入可逆终止剂核苷酸时，DNA合成反应自动停止。

可逆终止剂受控延伸反应的最佳条件，例如，可逆终止剂与天然核苷酸的比例，时间和温度，可以根据所使用的聚合酶而变化。在一些实施方案中，约1:20至约1:500的可逆终止剂与天然核苷酸的比例，例如约1:20，约1:30，约1:40，约1:50，约1:60，约1:70，约1:80，约1:90，约1:100，约1:150，约1:200，约1:250，约1:300，约1:350，约1:400，约1：450，或约1:500的可逆终止剂与天然核苷酸的比例。示例性的条件包括：使用Thermo Sequenase^TM在1：200-1：600的可逆终止剂：天然核苷酸的比例情况下，在约72℃下进行约1-5分钟；使用T7Sequenase TM 2.0在1：20-1：100的可逆终止剂：天然核苷酸的比例情况下，在约37℃下进行30秒-2分钟；使用Therminator^TM在1:5-1:20的可逆终止剂：天然核苷酸的比例情况下，在约72℃下进行1-5分钟；使用Therminator TM IX在1：40-1：400的可逆终止剂：天然核苷酸的比例情况下，在约72℃下进行1-5分钟；或使用定制聚合酶在1：50-1：300的可逆终止剂：天然核苷酸的比例情况下，在约37℃下进行约5分钟或在约60℃下进行约5分钟。

在受控延伸反应后，使用降解单链核酸的核酸酶除去5’单链尾。在一些实施方案中，使用绿豆核酸酶，S1核酸酶，核酸外切酶VII或T7核酸内切酶I来除去5’单链端。用于除去5’单链DNA尾的最佳反应条件(例如时间，温度和单位)可以基于所使用的核酸酶而变化。例如，对于S1核酸酶，示例性条件包括：在约23℃下5-20U/pmol酶孵育约15分钟；在约12℃下5-20U/pmol酶孵育约30分钟；或在约4℃下5-20U/pmol酶孵育约60分钟。对于核酸外切酶VII，示例性条件包括：在约37℃下0.4-12U/pmol酶孵育约30分钟。对于绿豆核酸酶，示例性条件包括：在约22℃下1-7U/pmol酶孵育约30分钟；或在约37℃下约4-32U/pmol酶孵育约15分钟。对于T7核酸内切酶I，示例性条件包括：在约23℃下1-4U/pmol酶孵育约30分钟；在约30℃下1-4U/pmol酶孵育约30分钟；或在约37℃下1-4U/pmol酶孵育约15分钟。

所得构建体是双链线性构建体，其中每条链包含侧翼为多核苷酸臂的第一接头，所述多核苷酸臂为核酸序列配偶对，本申请称为“线性配对构建体”。该线性配对构建体具有3’终止剂，需要用THPP(Tris(3-羟丙基)膦)化学处理，以产生连接到第二接头所需的3’羟基。在一些实施方案中，将约4-20mM THPP加入到反应中，然后在55℃下处理约10分钟。在该处理之后，线性配对构建体可以连接到第二接头或被修饰以准备连接到第二接头。

6.第二接头连接

6.1多核苷酸片段的修饰

在一些实施方案中，在将第二接头连接到线性配对构建体之前，对线性配对构建体进行修饰，以使端部与第二接头的连接相容。例如，在一些实施方案中，修饰导致具有用于A-T连接的“粘性”端的线性配对构建体。本领域的技术人员将理解如何末端修复和加A尾到构建体上，以用于AT连接(例如，通过填充凹入的3’端部并根据需要移除突出的3’端部，以及通过添加一个或多个脱氧腺苷到3’端)。本领域技术人员可以确定用于末端修复和加A尾的合适的酶，例如，聚合酶，例如T4DNA聚合酶和/或Klenow大片段；或Klenow Exo-。在一些实施方案中，修饰的构建体的尾包含单个dA。在一些实施方案中，末端修复和加A尾的方法在单独的反应中进行。在一些实施方案中，末端修复和加A尾的方法在单个反应中进行。在一些实施方案中，使用一种酶，例如Klenow Exo-，在单个反应中进行末端修复和加A尾的方法。在一些实施方案中，加A尾修饰的DNA片段用于与作为鼓泡接头的第二接头结合。

在一些实施方案中，在将第二接头连接到线性配对构建体之前，经修饰的构建体具有适于用于平端连接的去磷酸化的平端。本领域技术人员将理解如何产生去磷酸化的平端DNA，例如，通过从5’和/或3’端去除磷酸基团，填充凹入的3’端和/或根据需要去除突出的3’端。本领域技术人员可以确定用于制备去磷酸化的平端DNA的合适的酶，例如磷酸酶和聚合酶，例如虾碱性磷酸酶，T4DNA聚合酶，Klenow大片段，大肠杆菌DNA聚合酶I，大肠杆菌DNA聚合酶I大片段，Taq聚合酶，Bst聚合酶全长，Bst聚合酶大片段，Bsu DNA聚合酶大片段及其组合。在一些实施方案中，去磷酸化的平端DNA片段用于与作为L-寡核苷酸接头的第二接头连接。

在一些实施方案中，通过在连接第二接头之前将构建体变性为单链形式，例如通过热变性，来修饰线性配对构建体。在一些实施方案中，单链构建体直接使用，无需预先DNA修复，用于与作为夹钳接头的第二接头连接，因为缺口平移产物的缺口后平移核酸酶修剪导致线性配对构建体具有5’磷酸和3’羟基。

6.2连接

6.2.1鼓泡接头连接

在一些实施方案中，连接到经修改的线性配对构建体的第二接头是鼓泡接头。第二鼓泡接头的第一寡核苷酸和第二寡核苷酸被退火并连接到经修饰的(例如，加A尾)的线性配对构建体上，以形成双链线性构建体，其包含配对多核苷酸臂，被第一接头分开并且在两侧由第二接头寡核苷酸双链体侧接。连接反应使用合适的连接酶进行。在一些实施方案中，使用T4DNA连接酶。

6.2.2L-寡核苷酸接头接头连接

为了将修饰的线性配对构建体连接到作为L-寡核苷酸接头的第二接头，使用两步法。首先，在具有3’端修饰，例如，3-dN-Q修饰，Eurofin-MWG-Operon，其中N是A，T，G或C中的任一个，的约8-9个核苷酸的短辅助寡核苷酸的存在下，将第二L-接头的第二寡核苷酸连接到修饰，例如，去磷酸化的平端，的片段上。连接反应使用合适的连接酶进行。在一些实施方案中，使用T4DNA连接酶。连接酶失活，例如，在热灭活步骤中，并且从连接产物中除去辅助寡核苷酸。然后将磷酸基团加入到连接产物的5’端。使用任何合适的酶进行磷酸化。在一些实施方案中，T4PNK用于磷酸化5’端。然后进行第二连接步骤以将磷酸化连接产物连接到第二L-寡核苷酸接头的第一寡核苷酸，以形成双链线性构建体，其包含配对多核苷酸臂，被第一接头分开并且在两侧由第二接头寡核苷酸双链体侧接。连接反应使用合适的连接酶进行。在一些实施方案中，使用T4DNA连接酶。

6.2.3夹钳接头连接

在一些实施方案中，连接到多核苷酸片段的第二接头是夹钳接头。在第一辅助寡核苷酸和第二辅助寡核苷酸的存在下，将第二夹钳接头的第一寡核苷酸和第二寡核苷酸退火到修饰的，例如单链，线性配对构建体。每个辅助寡核苷酸具有序列(N)5(I)n，第一辅助寡核苷酸和第二辅助寡核苷酸序列是不同的序列。所得构建体是单链线性构建体，其包含配对多核苷酸臂，由第一接头分隔并且在两侧由第二接头寡核苷酸侧接。使用合适的连接酶，例如，T3DNA连接酶，T4DNA连接酶，T7DNA连接酶或Chlorella病毒DNA连接酶(New England Biolabs,Inc)进行连接反应。在一些实施方案中，使用T4DNA连接酶。

6.3扩增

在连接反应后，通过PCR扩增线性配对构建体，其包含配对多核苷酸臂，由第一接头分隔并且在两侧由第二接头寡核苷酸侧接。在一些实施方案中，PCR聚合酶是产生平端PCR产物的聚合酶。在一些实施方案中，使用PCR聚合酶DNA聚合酶。在一些实施方案中，在扩增反应中使用的引物之一是5’磷酸化的，以允许扩增产物的链特异性环化和连接，例如，为了选择具有所需接头取向的链。例如，在一些实施方案中，5’-磷酸化的引物是与第二接头的5’区杂交的引物。

任选地，可以在扩增反应期间将一个或多个标签或条形码添加到第二接头。通常，包含标签或条形码序列的PCR引物中包括标签或条形码序列。在一些实施方案中，标签或条形码序列的长度为约4至约15个碱基，例如长度为4,5,6,7,8,9,10,11,12,13,14或15个碱基。在扩增反应期间引入标签或条形码序列的方法是本领域已知的。参见例如US 8,691,509；US 8,841,071；和US 8,921,076。

6.4扩增产物的环化

在双链线性构建体的扩增后，扩增产物被变性以将产物分离成单链多核苷酸。变性可以通过例如热变性，化学变性或通过使用生物素/链霉亲和素标记来特异性捕获扩增产物的两条链之一来完成。在一些实施方案中，通过在95℃下加热扩增产物约3分钟而对扩增产物进行热变性，然后在冰上快速冷却约2分钟或例如以4℃/秒的降温速度快速冷却约10分钟至4℃。在一些实施方案中，扩增产物通过用75mM氢氧化钾或110mM氢氧化钠处理而化学变性。在一些实施方案中，通过生物素化PCR产物的一条链，例如，生物素化不需要的链并留下携带未标记的5’磷酸的所需链，并用链霉亲和素磁珠捕获生物素化的链，而将扩增产物分离成单链多核苷酸。

然后将单链多核苷酸环化。在一些实施方案中，DNA连接酶，例如，T4DNA连接酶，用于使单链多核苷酸环化。在一些实施方案中，在桥连片段存在下，单链多核苷酸变性和环化，桥连片段用作共价闭合单链多核苷酸的模板。桥连片段包含与第二接头的第一寡核苷酸互补的第一部分和与第二接头的第二寡核苷酸互补的第二部分。在一些实施方案中，桥连片段的第一部分和第二部分中的每一个长度为至少10个碱基，例如，至少10个，至少11个，至少12个，至少13个，至少14个，至少15个，至少16个，至少17个，至少18个，至少19个，或至少20个碱基长度。在一些实施方案中，桥连片段的第一部分和第二部分中的每一个长度为至少12个碱基。

在单链多核苷酸环化之后，可以用一个或多个外切核酸酶处理环化反应的产物以除去非环化的线性链，除去保持退火到单链环状构建体的桥连片段，并除去过量游离，即没有非退火连接的，桥连片段。用于除去单链环化构建体以外的组分的合适的酶可由本领域技术人员确定。在一些实施方案中，可以使用核酸外切酶I，核酸外切酶III，核酸外切酶VII，T7核酸外切酶或RecJ核酸外切酶。在一些实施方案中，使用核酸外切酶I，核酸外切酶III或其组合。在一个示例性实施方案中，将外切核酸酶I和核酸外切酶III加入到单链环化反应中，终浓度为0.5-2U/μl，接着在37℃温育约30分钟，然后加入20mM EDTA停止反应。

形成的单链环状多核苷酸构建体包含配对多核苷酸臂，第一接头和第二接头。在该环状单链配对构建体中，每个多核苷酸臂在一端连接到第一接头，另一端连接第二接头。在一些实施方案中，生成的环状构建体包含环内取向的接头的混合物，即，一些单链环状构建体将包含相对于第二接头的第一接头的一个取向，而其它单链环状构建体将包含相对于第二接头的第一接头的相反方向。如下所述，可以选择第一接头相对于第二接头的单个取向，以便产生环状配对构建体的连环体，其中所有构建体都具有第一接头和第二接头相同的取向。

在一些实施方案中，包含配对多核苷酸臂、第一接头和第二接头的环状多核苷酸构建体，具有约180-550个碱基，约180-500个碱基，约180-450个碱基，约180-400个碱基，约180-350个碱基，约180-330个碱基，约200-550个碱基，约200-500个碱基，约200-450个碱基，约200-400个碱基，约200-350个碱基，约200-330个碱基，约230-550个碱基，约230-500个碱基，约230-450个碱基，约230-400个碱基，约230-350个碱基，约230-330个碱基，约250-550个碱基，约250-500个碱基，约250-450个碱基，约250-400个碱基或约250-350个碱基的长度。

7.配对文库构建，方法二：通过受控缺口平移和受控引物延伸生成双接头配对文库

本申请的一个实施方案是配对文库构建方法，其称为受控缺口平移，例如，由核苷酸量受控缺口平移，ntCNT，与受控引物延伸(ntCNT/CPE)偶联。

如下所述，在向基因组DNA添加第一接头(缩写AdA)并形成具有缺口或间隙的双链环(缩写dsCir)之后，CNT将具有选定长度的缺口或间隙移动到基因组DNA中。3’侧向连接，或间隙连接，用于连接第二接头的5’臂。注意，由于连接到缺口的效率低，使用ntCNT或在缺口平移之后包括间隙步骤以产生用于间隙连接的几个碱基对的间隙。任选地，分离由3’侧向连接得到的dsCir DNA的两条链，并产生单链DNA链，其包含由基因组DNA，具体地，起始基因组DNA片段的末端，和在基因组DNA3’末端的AdB-5’序列包围的AdA序列。该ssDNA链在CPE反应中用作模板，得到具有源自起始基因组DNA片段的配对构建体。配偶对的每个臂具有选定的长度，分别由CNT和CPE反应产生，由AdA序列分开，在构建体的一端具有AdB_5’序列。然后通过3’侧向连接，在这种情况下为5’突出连接，将AdB_3’序列添加到构建体的另一端，得到每端具有AdB引物的可扩增模板。

假如使用适当的AdB 5’和3’序列，这样的构建体可以用作桥接PCR的模板，如Illumina边合成边测序[SBS]过程。这样的构建体也可环化并用于产生通过cPAL、SBS或其他测序方法测序的DNA纳米球。

7.2 3’侧向连接

在ntCNT之后，进行3’侧向连接以添加第二接头(缩写AdB_3’)的3’臂。

众所周知，双链DNA片段的缺口和具有粘性或平端的双链DNA片段可以在5’磷酸和3’羟基处连接。粘性末端或缺口的连接通常比平端连接更快且对酶浓度的依赖性较小。这两种方法都可以通过噬菌体T4DNA连接酶催化。据报道，T4连接酶介导某些非常规连接：它封闭dsDNA底物，其在连接处含有脱碱基位点或间隙；连接支链DNA链，并形成具有部分双链DNA的茎环产物，参考Nilsson and Magnusson,Nucleic Acids Res 10:1425–1437,1982；Goffin et al.,Nucleic Acids Res 15:8755–8771,1987；Mendel-Hartvig et al.,Nucleic Acids Res.32:e2,2004；Western and Rose,Nucleic Acids Res.,19:809–813,1991。

我们已经发现T4连接酶可以用于在去磷酸缺口、间隙或5’突出区处连接DNA片段以形成冈崎片段样结构。如图20所示，插入DNA可以是由具有一个平端和一个3’突出端的双链DNA组成的合成接头或接头DNA。接头的3’末端都是双脱氧核苷酸，这阻止了接头的自连接。长接头链的5’末端被磷酸化，并在间隙处连接到底物DNA的3’末端。

底物DNA分子，即靶多核苷酸，含有以下结构之一：(1)切口，或(2)具有3’-羟基末端的缺口，即，一个或多个缺失核苷酸碱基，或(3)包含5’-OH的5’突起，以上即3’侧向连接包括切口连接，缺口连接和5’突起连接。T4连接酶将5’-磷酸化接头链连接到3’-羟基化底物DNA链上以形成侧向DNA结构。因此，我们将这种新型连接事件称为“3’侧向连接”。在切口、缺口或5’突起连接到底物DNA的接头可称为“3’端侧向接头”。

我们检查了影响一般连接效率的许多因素，包括：adapter:DNA比例，T4连接酶的量，最终ATP浓度，Mg²⁺浓度，pH，孵育时间和各种添加剂。加入聚乙二醇至终浓度为10％时，连接效率从小于10％提高至超过80％。连接对于缺口，例如，1,2,3,4,5,6,7,8或更多bp的缺口和5’-OH的DNA是有效的。事实上，5’-OH连接几乎100％成功，甚至比平端连接更高。具有1bp间隙的底物具有约50％的连接效率，并且对于较长的间隙，例如，2bp或更长，连接效率更高。然而，即使在优化条件下，切口连接虽然也有发生，但效率较低，低于10％。可能的原因是，较长的ssDNA区，使得底物的3’-OH更易于连接，因此导致更高的连接效率。

实际上，如果ntCNT反应使用具有3’外切核酸酶活性的DNA聚合酶，例如DNA聚合酶I，则第二接头(缩写AdB)的5’臂可直接连接到产生的缺口区的3’端。如果CNT反应使用缺少3’exo活性的DNA聚合酶，或者如果使用ttCNT，则较不具有进行性的外切核酸酶，例如T7外切酶或Bst聚合酶，Bst聚合酶具有外切核酸酶活性；为此目的，我们在不存在dNTPs时使用它，可用于从切口的5’端去除几个核苷酸，并为AdB 3’间隙连接产生更为有效的3’侧向连接的缺口区。

SSB蛋白，例如，最终浓度为10-20ng/微升，也增加8bp间隙和5’-OH DNA的3’侧向连接效率，但对切口或1b缺口DNA没有影响。SSB蛋白似乎与单链区结合并稳定ssDNA。

因此，根据本申请的一个实施方案，使用包含一定量的PEG或SSB蛋白或其组合的连接条件进行3’侧向连接，其有效地可检测地增加3’端侧向接头与靶多核苷酸在连接部位的连接。对于PEG，这种有效量包括但不限于例如最终浓度为5％，或10％，或15％，或20％。对于SSB蛋白质，这种有效量包括但不限于5或10或15或20ng/μl的终浓度。

7.3受控引物延伸(CPE)

接下来，进行受控引物延伸(缩写CPE)。对于CNT，该反应采用DNA聚合酶，引物延伸的程度可以通过时间和温度(缩写ttCPE)、核苷酸量(缩写ntCPE)等进行控制。DNA合成从与Ad2_5’杂交的引物开始贯穿基因组序列，然后是Ad1，最后是从Ad2_5’到Ad1另一侧的基因组序列的选定距离，产生双链构建体，构建体包含由Ad1和Ad2-5’，在3’端，分离的配对臂。

7.4突出连接即OH连接

Ad2的3’单接头链，Ad2_3’，可以通过3’侧向连接加在由CPE产生的构建体的5’端，如图21所示。然后OH连接产物使用AdB 5’和AdB 3’引物进行PCR扩增，以产生双链构建体，其包括由Ad1和每端的单接头链，即Ad2_5’和Ad2_3’，分开的配对臂。

7.5制备单链环

可以将该构建体用于桥式PCR和测序，通过使用Illumina方案合成，特别是如果使用适当的Ad2序列。然而，为了形成DNA纳米球，可以使用以下步骤。首先，对双链PCR产物进行链分离。然后，使用桥连片段连接单链的末端，桥连片段具有与Ad2-5’和Ad2-3’杂交的序列，然后使用T4连接酶连接，以产生可以用作底物的单链环，用于滚环复制以产生DNA纳米球。

7.6加AdB的替代方法

有几种替代方法来添加第二接头(缩写AdB)。ntCNT步骤可以通过以下方法实现：(a)使用大肠杆菌DNA聚合酶I进行ntCNT，或者使用Pol I加另一种聚合酶的混合物进行ntCNT；(b)使用Taq进行ntCNT然后进行由Bst Pol或T7外切酶介导的形成缺口的步骤；(c)使用Taq进行ttCNT然进行形成间隙的步骤；(d)通过单个聚合酶，如Taq，或聚合酶的组合进行nt-ttCNT，对时间和温度以及限制的dNTP量进行控制。CPE步骤可以通过(a)使用PfuCx或其他单一聚合酶的ttCPE来实现；(b)使用Taq或其他单一聚合酶的ntCPE来实现；(d)通过单个聚合酶，如Taq，或聚合酶的组合进行nt-ttCNT来实现，对时间和温度以及限制的dNTP量进行控制。

7.7使用DNA聚合酶的受控反应(缩写CNT/CPE/CSD)

我们已经讨论了各种方法来控制涉及DNA聚合酶的反应的速度和/或程度，包括但不限于通过控制时间和温度，核苷酸量，可逆终止剂等。这种受控反应包括但不限于缺口平移(缩写CNT)，从链或引物的3’端延伸(缩写CE和CPE)和链置换(缩写SD)。本申请详细描述的用于控制这些反应之一的方法一般适用于所有反应。

这些反应中的一个问题是所有序列的扩增的一致性。DNA Pol I倾向于在某些DNA区暂停，这可以停止缺口平移过程，并导致所得文库中的GC偏差。为了解决这个问题，我们采用了几种方法：

1.对于ntCNT反应，代替以相等的比例使用dNTP，我们使用足够或超量的两种dNTP和有限的量两种dNTPs。具有过量A和T，即，使用G和C作为限制性核苷酸，的ntCNT反应导致富含GC的区更好扩增。为了平移每pmol的DNA约50-100bp，提供60ul反应，每份17至19pmol的dGTP和dCTP，以及34至38pmol的dATP和dTTP。还可以使用已知的抑制聚合酶暂停并增强富含GC区的扩增的添加剂，如甜菜碱，乙二醇，1,2-丙二醇，SSB等。

2.将DNA Pol I或DNA Pol I，大片段Klenow与一种或多种不同的DNA聚合酶，例如Taq或Bst聚合酶，混合，可以绕过干扰DNA Pol I介导的扩增的暂停位点。

3.缺口平移反应由两个酶促步骤组成：降解旧链，然后合成新链。除了偏倚的聚合酶活性外，用于DNA降解的DNA Pol I的DNA外切核酸酶活性也可能导致偏倚扩增。在CNT反应中这种偏倚可以被减轻，是通过添加较差进行性的酶，这种酶具有5’至3’外切核酸酶活性，在缺口平移的DNA之前或之内降解旧链，这种降解是在Pol I的外切核酸酶步骤之前或同时进行。

8.连环体化

在一个方面，使用包含配对多核苷酸臂、第一接头和第二接头的环状配对多核苷酸构建体，来产生环状构建体的连环体。这些连环体在本申请中也称为“核酸纳米球”，“DNA纳米球”和“DNB”。产生DNB的方法是本领域已知的，并且描述于例如US 8,445,194；US 8,592,150；US 9,023,769；和WO 2007/120208；其各自通过引用并入本申请。

该连环体包含多个串联的配对多核苷酸构建体的拷贝，其中多核苷酸构建体包括配对多核苷酸臂，第一接头和第二接头。在一些实施方案中，连环体包含数十至数百个配对多核苷酸构建体的拷贝，例如约100至约500个拷贝，约100至约400个拷贝，约150至约400个拷贝，约150至约300个拷贝，或约150至约个250拷贝。

可以通过多种方法中的任何一种来制备配对构建体的连环体，包括但不限于滚环扩增和环介导扩增(Circle Dependent Amplification，缩写CDA)。通过RCR或CDA扩增环状多核苷酸构建体的方法在本领域中有描述。参见例如WO 2006/1199066；US 2008/0213771；US 8,445,194；和US 9,023,769；其中每一个通过引用并入本申请。

8.1滚环扩增

在一些实施方案中，RCR用于产生如本申请所述的配对构建体的连环体。RCR方法依赖于所需的环状靶多核苷酸。RCR使用原始的环状多核苷酸，而不是一个拷贝的多个拷贝，确保序列的保真度。此外，作为环状实体，环状配对构建体用作用于链置换聚合酶的无限模板，链置换聚合酶用于延伸与环的一部分互补的引物，例如，在接头区中。连续的链延伸产生长的单链多核苷酸，其由多个，例如，数十或数百个，连环体组成，连环体包含与环状多核苷酸互补的多个拷贝的序列。包含该连环体的单链多核苷酸可以自身折叠以形成三维球，即DNB，其随后可以设置在表面上，用于制造DNB阵列。

通常，RCR反应组分包括单链环状多核苷酸模板，与单链环状多核苷酸退火的一种或多种引物，具有链置换活性以延伸退火至环状多核苷酸的3’端的引物的DNA聚合酶，以及核苷酸。在一些实施方案中，DNA聚合酶是噬菌体phi29DNA聚合酶。RCR反应组分在这样的条件下混合，该条件允许引物退火到环状多核苷酸模板，例如，在第一接头的区中，并且被DNA聚合酶延伸以形成与环状多核苷酸互补的序列连环体。在一些实施方案中，允许RCR反应继续直至反应组分耗尽。在一些实施方案中，RCR反应在一定时间点，例如，约10分钟，约20分钟，约30分钟，约40分钟，约50分钟或约1小时，后停止。关于RCR反应的条件和试剂的指导可参考，例如US 5,854,033；US 6,143,495；和8,722,326，其各自通过引用并入本申请。

在一些实施方案中，由RCR制备的连环体大小近似均匀；因此，在一些实施方案中，本申请的方法可以包括连环体大小选择的步骤。例如，在一些实施方案中，选择连环体，因为群体的分子量变异系数小于约30％；在另一个实施方案中小于20％。在一些实施方案中，通过向RCR反应混合物中加入低浓度的链终止剂，例如ddNTP，以减少非常大的连环体的存在，从而使尺寸均匀性进一步改善，这种非常大的连环体例如由聚合酶以较高速率合成的DNA环产生。在一些实施方案中，使用的ddNTP的浓度，导致预期的连环体大小在50-250Kb范围内，或在50-100Kb范围内。在另一方面，可以使用常规分离技术，例如尺寸排阻色谱法，膜过滤法等，浓缩特定尺寸范围的连环体。参见例如US 2012/0004126。

8.2控制环状配对构建体中接头的取向

在一些实施方案中，只有一组环状配对构建体的子集被连环化，该子集的构建体具有第一接头相对于第二接头有单个取向。控制接头相对于彼此的取向可以是有利的，例如，为了最大化可检测的信号量，例如当在测序反应中使用特定于第一接头的锚(缩写anchor)时。

在一些实施方案中，为了选择具有第一接头相对于第二接头有单一取向的环状配对构建体，使用链特异性RCR引物，该引物特异于环状配对构建体中第一接头的一个取向。该链特异性引物与第一接头的一个取向杂交，但不与其它取向(其为所选取向的反向互补)杂交。因此，RCR反应仅针对其中链特异性RCR引物可结合的环状配对构建体发生。

在一些实施方案中，使用“非退火(英文annealing-free)”方法来选择具有第一接头相对于第二接头有单个取向的环状构建体。非退火方法使用“预退火”链-和接头-特异性RCR引物，其在桥连片段环化/连接步骤期间预退火，而不是在RCR反应之前。因此，非退火方法将单链DNA环化和扩增步骤相结合，这是通过使用链特异性扩增引物，例如，通过RCR进行复制的链特异性RCR引物，和具有封闭的3’端的桥连片段，封闭的3’端阻断了聚合酶延伸。线性单链多核苷酸，例如，包含一对多核苷酸臂、第一接头和第二接头的线性单链多核苷酸构建体，在存在3’端封闭桥连片段和链-特异性扩增引物下，使用合适的连接酶，例如，T4DNA连接酶，环化。然后用外切核酸酶，例如外切核酸酶I，处理连接产物以除去非环化的线性链和过量的未退火的桥连片段。然后使用磁珠从游离寡核苷酸和核酸酶纯化单链DNA环。然后将RCR反应组分与纯化的连接产物在这样的条件下混合，该条件允许DNA聚合酶延伸预退火的链特异性引物以形成与环状多核苷酸互补的序列连环体。

9.生成阵列

在一方面，包含本申请所述的配对构建体的连环体的DNB布置在表面上以形成分子的随机阵列。可以通过多种技术将多核苷酸分子，包括DNA连环体如DNB，固定在基板上。产生DNB阵列的方法在例如US 7,910,354；US 8,133,719；US 8,440,397；US 8,445,196；US8,772,326；US 9,023,769；和US 2013/0178369中有描述，其各自通过引用并入本申请。

在一些实施方案中，可以使用具有二维点阵列的图案化基板来产生DNB阵列。这些点被激活以捕获和保持DNB，而DNB不保留在斑点之间的区中。一般来说，在点上的DNB将排斥其他DNB，每个点产生一个DNB。由于DNB是三维的，所以包含DNB的阵列比包含短线性DNA片段的传统DNA阵列导致每平方纳米表面结合更多的DNA拷贝。这种三维特性进一步降低了所需的测序试剂的量，从而产生更亮的斑点和更有效的成像。DNB阵列的占用通常超过90％，但可以从50％到100％的占用范围。

在一些实施方案中，使用标准硅处理技术制造图案化表面。这样的图案阵列实现了比未图案阵列更高的DNB密度，导致每个碱基读长的像素更少，处理更快，并且提高了试剂使用效率。

在一些实施方案中，表面可以具有与多核苷酸分子上的互补官能团反应以形成共价键的反应性官能团。诸如几个核苷酸或更长的长DNA分子可以有效地连接到疏水性表面，例如具有低浓度的各种反应性官能团例如-OH基团的干净的玻璃表面。在一些实施方案中，多核苷酸分子可以通过与表面的非特异性相互作用或通过非共价相互作用例如氢键、范德华力等吸附到表面。

将多核苷酸连接到基板还可以包括洗涤步骤，其改变严格性，以除去不完全连接的单分子或其它试剂，这些其它试剂来自存在于不期望的步骤或非特异性结合到表面的制备步骤中。

在附着到表面上时，单链多核苷酸通常填充平坦的球形体积，其平均体积受大约等于随机环状构建体中的连环体直径区的限制。单链多核苷酸在表面上的紧密度可能受许多因素的影响，包括所使用的附着化学性质，多核苷酸与表面之间的连接密度，表面的性质等。在表面上保持多核苷酸，包括连环体，的大分子结构的紧密形式可以增加信噪比；例如，紧密连环体可以产生来自探针，例如，荧光标记的寡核苷酸，的更强烈的信号，探针特异性针对于连环体的组分。

可以以各种密度将环状配对构建体和/或DNB排列在表面上。在一些实施方案中，每个离散区可以包含约1至约1000个分子。在其它实施方案中，每个离散区可以包含约10至约900，约20至约800，约30至约700，约40至约600，约50至约500，约60至约400，约70至约300，约80至约200，以及约90至约100个分子。在一些实施方案中，以每平方毫米至少0.5,1,2,3,4,5,6,7,8,9或10,000个分子的密度提供环状配对构建体和/或DNB阵列。

10.测序

在一些实施方案中，本申请所述的配对构建体或包含配对构建体或其连环体的阵列，例如，DNB，用于鉴定一个或多个靶多核苷酸的核苷酸序列。可用于本申请所述构建体和/或阵列鉴定目标多核苷酸序列的技术包括但不限于依赖于传统杂交方法来区分检测位置的核苷酸的技术；在检测位置添加核苷酸碱基对，例如通过合成方法如焦磷酸测序进行测序，的延伸技术；依赖于连接酶的特异性连接技术，如果在检测位置存在完美的互补性，则优选发生连接反应；以及依赖于酶或化学特异性的切割技术，如果存在完美的互补性，则优先进行切割；及其组合。

在一些实施方案中，本申请所述的测序方法用于测定靶核酸中至少约10至约200个碱基，例如约10，约20，约30，约40，约50，约60，约70，靶核酸中约80，约90，约100，约110，约120，约130，约140，约150，约160，约170，约180，约190或约200个碱基。在一些实施方案中，本申请所述的测序方法用于确定本申请所述的核酸构建体中每个接头的一个或两个末端附近的至少5,10,15,20,25,30或更多碱基。

在一些实施方案中，本申请所述的构建体和/或阵列与组合探针-锚定连接(缩写“cPAL”)测序技术结合使用。在一些实施方案中，本申请所述的构建体和/或阵列与通过合成测序(缩写“SBS”)的测序技术结合使用。在一些实施方案中，本申请所述的构建体、DNB和/或阵列与测序技术的组合结合使用，例如与可以在构建体、DNB和/或阵列上顺序使用的cPAL和SBS测序技术的组合结合使用。

10.1cPAL测序

在一些实施方案中，本申请所述的构建体、文库或DNB用于cPAL测序方法。cPAL测序涉及鉴定靶核酸中特定检测位置的核苷酸，这是通过检测探针连接产物来鉴定，探针连接产物是至少一个锚定探针，其与所有或部分接头杂交，与测序探针连接形成的，测序探针在对应于，例如与之杂交，检测位置的“询问位置(英文interrogation position)”含有特定核苷酸。本申请所用的“测序探针”是指被设计为提供靶核酸的特定检测位置处的核苷酸身份的寡核苷酸。测序探针通常包含许多简并碱基和探针内特定位置的特定核苷酸以查询询问位置。测序探针包含一个唯一的识别标签。如果询问位置的核苷酸与检测位置处的核苷酸互补，则可能发生连接，导致产生含有唯一标记物的连接产物，然后检测该连接产物。在任何给定的循环中，使用的测序探针被设计成使得一个或多个位置上的一个或多个碱基的身份与附接到该测序探针的标记的身份相关。一旦检测到连接的测序探针，并因此检测到询问位置的碱基，则将连接的复合物从构建体或DNB上剥离，并进行新的接头循环和测序探针杂交和连接。cPAL的多个循环将鉴定与接头相邻的靶核酸的区中的多个碱基。

另外，可以在每个接头的一个或两个末端进行测序反应，例如，测序反应可以是“单向”，检测发生在接头或另一个的3’或5’，或者反应可以是“双向的”，其中在接头的检测位置3’和5’处检测到碱基。双向测序反应可以同时发生，即同时检测接头两侧，也可以按任意顺序进行。

cPAL测序方法具有通过本领域已知的杂交方法进行测序的许多优点，包括DNA阵列平行度，独立和非迭代碱基读数，以及每个反应读取多个碱基的能力。此外，cPAL通过杂交方法解决了测序的两个局限性，特别是无法读取简单的重复序列和强化计算的需要。

在一些实施方案中，cPAL测序方法包括在每个杂交连接循环中使用一个，两个，三个或更多个锚定探针。在一些实施方案中，cPAL测序方法包括在每个杂交连接循环中使用至少两个连接的锚定探针。在一些实施方案中，第一锚定探针与接头中的第一锚定位点杂交，并且第二锚定探针与第二锚定位点杂交。在一些实施方案中，一个锚定探针与接头完全互补，并且第二锚定探针是完全简并的，因此能够与邻近于接头的靶核酸区的未知核苷酸杂交。在一些实施方案中，第二完全简并的锚定探针长度为约5至约20个碱基，例如，长度为约5至约10个碱基。连接至第一锚定探针时，形成较长连接的锚定探针结构，提供cPAL过程后续步骤所需的稳定性。

cPAL方法的不同示例性实施方案的详细描述，以及用于通过cPAL进行测序的试剂和条件，在以下专利技术中有描述：US 6,309,824；US 6,401,267；US 6,864,052；US 7,906,285；US 7,910,304；US 7,910,354；US 7,960,104；US 8,105,771；US 8,278,039；US8,415,099；US 8,445,194；US 8,445,197；US 9,023,769；US 2008/0213771；US 2009/0264299；US 2012/0135893；和U.S.专利申请序列号60/992,485；61/026,337；61/035,91461/061,134；以及61/102,586；其各自通过引用并入本申请。

10.2SBS测序

在一些实施方案中，本申请所述的构建体、文库或DNB用于通过合成测序(缩写SBS)方法测序。通过合成反应进行的测序可以在DNB阵列上进行，其提供高密度的测序靶以及单体单元的多个拷贝。

可以使用SBS测序的任何方法。SBS测序的实例包括但不限于焦磷酸测序，引物延伸测序和单分子实时(缩写SMRT)测序。SBS方法描述于例如US 6,210,891；US 6,828,100；US 6,833,246；US 6,911,345；US 7,858,311；US 8,399,188；和US 9,017,973。

10.3使用cPAL和SBS化学进行测序

在一些实施方案中，本申请所述的构建体、文库或DNB用于测序方法的组合中。例如，在一些实施方案中，使用cPAL化学和SBS化学以顺序方式，例如，首先通过cPAL化学，随后是SBS化学，对本申请所述的构建体和文库进行测序。在一些实施方案中，第一接头和第二接头包含用于在3’至5’方向上通过cPAL化学测序的杂交序列，例如，锚定或干扰者杂交序列，并且还包含用于通过SBS化学在5’到3’方向测序的杂交序列，例如，SBS测序引物杂交序列。

对于包含两个接头的文库，以顺序的方式使用cPAL和SBS化学进行测序将导致每个配对多核苷酸“臂”的两个读取，每个构建体或DNB总共四个读取。因此，如本申请所述在构建体、文库或DNB上使用多个测序方法可以从被测序的每个构建体、文库或DNB中产生更多的信息。

11.试剂盒

在另一方面，提供用于实践本申请所述的文库构建方法的试剂盒。

在一些实施方案中，试剂盒包含本申请所述的用于接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中，试剂盒包含用于鼓泡接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中，试剂盒包含用于L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸，并且任选地还包含用于L-寡核苷酸接头的辅助寡核苷酸。在一些实施方案中，试剂盒包含用于夹钳接头的第一寡核苷酸和第二寡核苷酸，并且任选地还包含用于夹钳接头的辅助寡核苷酸。

在一些实施方案中，试剂盒包含用于两个或多个接头的寡核苷酸，例如，用于第一接头的寡核苷酸和用于第二接头的寡核苷酸。在一些实施方案中，试剂盒包含用于第一鼓泡接头的第一寡核苷酸和第二寡核苷酸，并且还包含用于第二鼓泡接头的第一寡核苷酸和第二寡核苷酸。在一些实施方案中，试剂盒包含用于第一L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸，其还包含用于第二L-寡核苷酸接头的第一寡核苷酸和第二寡核苷酸，并任选地还包含用于L-寡核苷酸接头的辅助寡核苷酸。在一些实施方案中，试剂盒包含用于第一夹钳接头的第一寡核苷酸和第二寡核苷酸，还包含用于第二夹钳接头的第一寡核苷酸和第二寡核苷酸，并任选地还包含用于夹钳接头的辅助寡核苷酸。在一些实施方案中，试剂盒包含用于鼓泡接头的第一寡核苷酸和第二寡核苷酸，还包含用于夹钳接头的第一寡核苷酸和第二寡核苷酸，并任选地还包含用于夹钳接头的辅助寡核苷酸。

在一些实施方案中，试剂盒还可以包含与本申请的接头的特征相关的一个或多个附加组分。在一些实施方案中，试剂盒可以进一步包含用于进行本申请方法的一种或多种酶，例如用于本申请所述的连接、扩增或DNA合成反应的酶，并且任选地可以包含用于进行如本申请的酶反应的其他组分，例如缓冲液，核苷酸等。在一些实施方案中，试剂盒还可以包含用于进行本申请方法的一种或多种引物，例如，用于进行本申请的扩增方法的一种或多种扩增引物。在一些实施方案中，试剂盒还可包含桥连片段。在一些实施方案中，试剂盒可以进一步包含用于如本申请的测序方法的一种或多种试剂，例如，用于cPAL和/或SBS测序的一种或多种试剂。

在一些实施方案中，试剂盒包含用于进行如本申请的一组反应的组分，例如，接头寡核苷酸，酶或与反应组分预混合的酶。示例性的一组反应如图2所示。在一些实施方案中，试剂盒包含用于制备用于连接的多核苷酸片段和/或用于连接第一接头至多核苷酸片段的组分，例如，用于修饰多核苷酸片段和连接第一接头的组分；用于修饰多核苷酸片段、连接第一接头和通过PCR扩增连接产物的组分；用于片段化DNA、修饰多核苷酸片段和连接第一接头的组分；或用于片段化DNA、修饰多核苷酸片段、连接第一接头以及通过PCR扩增连接产物的组分。在一些实施方案中，试剂盒包含用于形成开放双链环状多核苷酸构建体的组分，例如，用于在尿嘧啶位点处形成间隙、环化和纯化的组分。在一些实施方案中，试剂盒包含用于连接第一接头和形成开放双链环状多核苷酸构建体的组分，例如，用于连接第一接头、通过PCR扩增连接产物、在尿嘧啶位点产生间隙、进行环化和纯化的组分。在一些实施方案中，试剂盒包含用于产生配对多核苷酸臂的组分，例如，用于进行时间和温度受控缺口平移(缩写TTCNT)的组分，用于进行时间和温度受控延伸(缩写TTCE)的组分或用于进行可逆终止剂受控延伸(缩写RTCE)的组分，如聚合酶、外切核酸酶和核酸酶；用于TTCNT、TTCE或RTCE的组分，以及用于末端修复TTCNT、TTCE或RTCE产物的组分，如聚合酶和磷酸酶。在一些实施方案中，试剂盒包含用于连接第二接头的组分，例如用于连接第一接头并通过PCR扩增连接产物的组分。在一些实施方案中，试剂盒包含用于环化配对多核苷酸构建体的组分，例如用于变性扩增产物和环化单链多核苷酸构建体的组分。在一些实施方案中，试剂盒包含用于连接第二接头并环化配对多核苷酸构建体的组分，例如，用于连接第一接头、通过PCR扩增连接产物、变性扩增产物和环化单链多核苷酸构建体的组分。在一些实施方案中，试剂盒包含用于制备、加载和/或汇集DNA纳米球的组分。

下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明，不应理解为对本申请的限制。

实施例一构建包含两个鼓泡接头的配对文库

图19描绘了如何构建包含两个鼓泡接头的配对文库。详细如下：

使用Covaris将3ug DNA片段化，得到200-1800bp片段。然后使用磁珠对片段化的DNA进行大小选择，以保留300-1000bp，平均大小为650bp的片段。将500ng或1.2pmol经大小选择的DNA用于文库制备中。使用T4PNK和T4DNA聚合酶进行末端修复以产生5’磷酸化的平端片段，然后向片段中加dA尾。将第一鼓泡接头Ad203通过A-T连接与DNA片段连接。使用含有尿嘧啶的引物和PfuCx聚合酶通过PCR扩增连接产物，其允许模板中存在尿嘧啶。用USER酶，尿嘧啶特异性切除试剂酶，尿嘧啶DNA糖基化酶(缩写UDG)和DNA糖基化酶-裂解酶内切核酸酶VIII的混合物，处理扩增产物以产生具有14nt重叠的“粘性”末端。使用Plasmid-Safe^TM ATP依赖型DNA酶(缩写“PS”)，以形成包含2-nt间隙的稳定的开放-dsDNA-环(缩写open-dsDNA-circles)。使用Taq聚合酶在开放-dsDNA-环上进行时间和温度受控缺口平移(缩写“TT-CNT”)，随后进行T7外切核酸酶处理和核酸酶处理。然后双链构建体被末端修复并且加A尾。然后通过A-T连接将第二鼓泡接头Ad195连接到双链构建体，并用Q5聚合酶扩增产生平端PCR产物；其中一个引物被5’磷酸化，以允许通过扩增反应产生的4种不同DNA链中的2种形成ssDNA环。然后将扩增产物热变性成单链DNA构建体。通过在桥连片段的存在下用T4连接酶连接形成ssDNA环，然后进行外切核酸酶处理以除去非环化线性链、退火到环的桥连片段和过量游离的桥连片段。然后使用针对ssDNA环中第一接头的一个取向特异性的链特异性RCR引物从特定的ssDNA环状成DNA纳米球(缩写DNB)。

实施例二构建包含两个L-寡核苷酸接头的配对文库

图22描绘了构建包含两个L-寡核苷酸接头的配对文库的示意图。

使用Covaris将3ug DNA片段化，得到200-1800bp片段。然后使用磁珠对片段化的DNA进行大小选择，以保留300-1000bp，平均大小为650bp的片段。将500ng或1.2pmol经大小选择的DNA用于文库制备中。使用虾碱性磷酸酶和T4DNA聚合酶对片段DNA进行末端修复，得到去磷酸化的平端片段。将第一L-寡核苷酸接头Ad169以两个步骤连接到DNA片段上。对于第一个步，在具有3’-末端修饰的短辅助寡核苷酸的存在下，通过平端连接第二寡核苷酸。使用“热灭活”步骤灭活连接酶并除去辅助寡核苷酸，然后使用T4PNK将磷酸基团加入DNA片段的5’-末端。对于第二个连接步骤，将与已经连接到DNA片段上的第二寡核苷酸具有3’同源性区的第一寡核苷酸退火并连接以在DNA片段侧面产生对称的Y样结构。使用含有尿嘧啶的引物和PfuCx聚合酶通过PCR扩增连接产物，其允许模板中存在尿嘧啶。用USER酶处理扩增产物以产生具有14-nt重叠的“粘性”末端，随后用Plasmid-Safe^TM ATP依赖型DNA酶(缩写“PS”)处理，以形成稳定的开放-dsDNA-环，其中含有2-nt间隙。使用Taq聚合酶在开放-dsDNA-环上进行时间和温度受控缺口平移(缩写“TT-CNT”)，随后进行T7外切核酸酶处理和核酸酶处理。然后对双链构建体进行末端修复以产生去磷酸化的平端。将第二L-寡核苷酸接头Ad165连接到双链构建体，使用与用于连接第一接头相同的两步连接方法。连接产物用Q5聚合酶扩增产生平端PCR产物；其中一个引物被5’磷酸化，以允许通过扩增反应产生的4种不同DNA链中的2种形成ssDNA环。然后将扩增产物热变性成单链DNA构建体。在桥连片段的存在下，通过T4连接酶连接形成ssDNA环，然后进行外切核酸酶处理以除去非环化线性链、退火到环的桥连片段和过量游离的桥连片段。使用针对ssDNA环中第一接头的一个取向特异的链特异性RCR引物，从特定的ssDNA环状成DNB。

实施例三构建包含鼓泡和夹钳接头的配对文库

图23描绘了构建包括作为第一接头的鼓泡接头和作为第二接头的夹钳接头的配对文库的示意图。

使用Covaris将3μg DNA片段化以产生200-1800bp片段。然后使用磁珠对片段化的DNA进行大小选择，以保留300-1000bp，平均大小为650bp的片段。将500ng或1.2pmol经大小选择的DNA用于文库制备中。使用T4PNK和T4DNA聚合酶进行末端修复以产生5’磷酸化的平端片段，然后向片段中加dA尾。通过A-T连接将第一接头即鼓泡接头Ad201连接到DNA片段上。使用含有尿嘧啶的引物和PfuCx聚合酶通过PCR扩增连接产物，其允许模板中存在尿嘧啶。用USER酶，尿嘧啶特异性切除试剂酶，尿嘧啶DNA糖基化酶(缩写UDG)和DNA糖基化酶-裂解酶内切核酸酶VIII的混合物，处理扩增产物以产生具有14-nt重叠的“粘性”末端。使用Plasmid-Safe^TM ATP依赖型DNA酶(缩写“PS”)，以形成包含2-nt间隙的稳定的开放-dsDNA-环。使用Taq聚合酶在开放-dsDNA-环上进行时间和温度受控缺口平移(缩写“TT-CNT”)，随后进行T7外切核酸酶处理和核酸酶处理。然后将双链构建体热变性为单链。使用T4DNA连接酶将第二接头即包含5’-接头和3’-接头部分的夹钳接头Ad191直接连接到单链构建体上。在连接处的连接模板由五个随机核苷酸[(N)5]加四个通用肌苷核苷酸[(I)4]的组合表示。连接产物用Q5聚合酶扩增产生平端PCR产物；其中一个引物被5’磷酸化，以允许通过扩增反应产生的4种不同DNA链中的2条形成ssDNA环。然后将扩增产物热变性成单链DNA构建体。在桥连片段的存在下，用T4连接酶连接形成ssDNA环，然后进行外切核酸酶处理以除去非环化线性链、退火到环的桥连片段和过量游离的桥连片段。使用针对ssDNA环中第一接头的一个取向特异的链特异性RCR引物，从特定的ssDNA环状成DNA纳米球。

实施例四使用双鼓泡接头系统改进GC覆盖率

将从包含两个鼓泡接头的配对文库获得的GC覆盖率与从其他方法构建的文库获得的GC覆盖率进行比较，如图24所示。使用NA19238、NA19239和NA19240基因组DNA的批次10000046，根据上述实施例1中描述的方法构建基因组文库。鼓泡接头162用作第一鼓泡接头，即接头A，鼓泡接头165用作第二鼓泡接头，即接头B。使用NA19238、NA19239、NA19240和NA12878的批次10000096，根据上述实施例1中所述的方法构建基因组文库。鼓泡接头181用作第一鼓泡接头，鼓泡接头194用作第二鼓泡接头。

如图24所示，与目前的文库构建，Denali；26-nt臂由EcoP15产生，以及另一种产生配对文库臂的方法相比，包含两个鼓泡接头，批次10000046和批次10000096，的TT-CNT配对文库得到外显子组的更均匀的覆盖率，其中外显子组包含富含AT和富含GC的序列。TT-CNT文库显示出显着改善的外显子GC覆盖率，特别是在GC富集区。

实施例五核苷酸量受控缺口平移(ntCNT)

我们研究了各种dNTP:DNA摩尔比，比例分别为17、8.6和5.7，对ntCNT的影响。结果如表1所示。

表1dNTP:DNA摩尔比对ntCNT的影响

我们还使用Taq DNA聚合酶研究了各种温度对ntCNT和限制量的dNTP对缺口平移的影响，特别是DNA平移距离。用于ntCPE的模板首先用位于800bp-3kb的基因组区两侧的5’和3’接头引物扩增。在ntCPE反应期间，PCR产物首先在96℃变性，在56℃下用5’引物退火，然后用Taq和滴定量的dNTP在72℃下延伸10分钟。在ntCPE反应之后，使用ExoVII处理以降解由ntCPE产生的任何单链DNA，以及不能用作ntCPE模板的另一条PCR链。图3中的凝胶显示了具有不同dNTP量的ntCPE的程度。来自不同ntCPE反应的引物扩增产物的平移不同，平移取决于不同的dNTP滴定。在泳道6中，在聚合步骤中加入过量的dNTP作为对照，导致正常的具有原始PCR大小范围的PCR扩增产物。在泳道5中用最少的dNTP进行反应产生最小的终点产物。当dNTPs:DNA增加时，Taq介导的聚合可以延长。我们还测试了dNTPs量与其他聚合酶如PfuCx和Pol I之间的关系。PfuCx可能具有最高的Km，因此在相同程度的CPE中，它需要反应中最高的dNTP量。结果表明，我们还可以组合ntCNT和TTCNT来控制缺口平移速度。结果表2所示。

表2ntCNT和ttCNT的组合效果

实施例六3’侧向连接

众所周知，双链DNA片段的缺口和具有粘性或平端的双链DNA片段可以在5’磷酸和3’羟基处连接。粘性末端或缺口的连接通常比平端连接更快且对酶浓度的依赖性较小。这两种方法都可以通过噬菌体T4DNA连接酶催化。据报道，T4连接酶介导某些非常规连接：它封闭dsDNA底物，其在连接处含有脱碱基位点或间隙；连接支链DNA链，以及形成具有部分双链DNA的茎环产物，参考Nilsson and Magnusson,Nucleic Acids Res 10:1425–1437,1982；Goffin et al.,Nucleic Acids Res 15:8755–8771,1987；Mendel-Hartvig et al.,Nucleic Acids Res.32:e2,2004；Western and Rose,Nucleic Acids Res.,19:809–813,1991。我们已经发现T4连接酶可以用于在去磷酸缺口、间隙或5’突出区处连接DNA片段以形成冈崎片段样结构。如图20所示，插入DNA可以是由具有一平端和一3’突出端的双链DNA组成的合成接头或接头DNA。接头的3’末端都是双脱氧核苷酸，这阻止了接头的自连接。长接头链的5’末端被磷酸化，并在间隙处连接到底物DNA的3’末端。

底物DNA分子包含以下结构之一：(1)切口，或(2)具有3’-羟基末端的缺口，即，一个或多个缺失的核苷酸碱基，或(3)具有5’-OH的5’突起，以上分别对应的3’侧向连接即切口连接、缺口连接和5’突起连接。

通过适当混合两个或三个寡核苷酸，我们构建了具有切口、1bp间隙缺口、8bp间隙缺口和36bp的5’突起端的底物，如图20所示。底物不被磷酸化，并且接头的长链具有3’双脱氧核苷酸以防止连接。T4连接酶将5’-磷酸化的接头链连接到3’-羟基化底物DNA链上以形成侧向DNA结构。因此，我们将这种新型连接事件命名为“3’侧向连接”。

我们研究了影响一般连接效率的许多因素，包括：接头:DNA比例，T4连接酶的量，最终ATP浓度，Mg²⁺浓度，pH，孵育时间和各种添加剂。加入聚乙二醇至终浓度为10％时，连接效率从小于10％提高至超过80％。各种ATP浓度，如1μM至1mM的ATP浓度，和3mM至10mM的Mg²⁺浓度下，3’侧向连接相当好。对于我们优化的条件，接头:DNA摩尔比约为50，反应在pH 7.8下用10％PEG和10μM的ATP在37℃下进行1小时。在30μl的体积中，在600单位的T4连接酶的存在下，将0.5pmol不同底物，如底物1、底物2、底物3、底物4，分别连接到25pmol接头DNA。平端连接的阳性对照和底物自连接的阴性对照也被包括在内。为了测定连接产率，将连接产物在6％聚丙烯酰胺凝胶中电泳。大小偏移率表明3’侧向连接的效率。数据表明8bp间隙和5’-OH DNA有效连接。5’-OH连接似乎几乎100％成功连接，甚至比平端连接更高。1bp间隙底物的连接效率约为50％。然而，即使在优化条件下，切口连接效率最低，小于10％。

我们还将研究扩展到不同的接头底物序列。对上述四种底物而言，一些接头序列相比其他序列产生更有效的连接产物。然而，如果底物序列改变，接头的性能也改变。这可能是由于T4连接酶的核苷酸偏好性。尽管接头序列，8bp的间隙和5’-OH连接总是具有最高的连接效率，而1b bp间隙连接工作，但不如较长的间隙或5’-OH，并且缺口连接工作不良。这支持我们的假设，如图20所示，DNA在切口/缺口/OH开始点弯曲并暴露3’羟基用于连接。更长的ssDNA区使得3’末端在连接中更容易接近，因此导致更高的连接效率。

实际上，如果ntCNT反应使用具有3’外切核酸酶活性的DNA聚合酶，例如DNA聚合酶I，则第二接头(缩写AdB)的5’臂可以直接连接到所产生的间隙区的3’端。如果CNT反应使用缺少3’外切活性的DNA聚合酶，或者如果使用ttCNT，则可以使用较不具进行性的外切核酸酶，例如T7外切酶或Bst聚合酶，Bst聚合酶具有外切核酸酶活性；为此目的，我们在不存在dNTPs情况下使用它，以从切口的5’端去除几个核苷酸，并为AdB 3’间隙连接产生更为有效的3’侧向连接的间隙区。

还对其他添加剂，如单链结合蛋白SSB蛋白的影响进行了分析。我们将ET SSB(NewEngland Biolabs，Ipswich，MA)的最终浓度滴定至从2ng/μl到20ng/μl，发现较高浓度的ETSSB，10或20ng/μl，可以进一步提高对于8bp间隙和5’-OH DNA的连接效率，但对缺口或1bp间隙的DNA没有影响。SSB蛋白似乎与单链区结合并稳定ssDNA。

实施例七使用ntCNT、3’侧向连接和CPE构建文库

根据本申请的一个实施例，提供了如图21所示的配对文库结构的方法。在将第一接头(缩写AdA)，例如，鼓泡接头，L-寡核苷酸接头，夹钳接头等，添加到基因组DNA并形成具有缺口或间隙的双链环(缩写dsCir)之后，任选地随后进行间隙步骤以产生几个碱基对的间隙，CNT将选定长度的缺口或间隙平移到基因组DNA中。3’侧向连接用于将第二接头的5’臂连接到所得的缺口或间隙处。任选地分离由3’侧向连接产生的dsCir DNA的两条链，并且产生单链DNA(缩写ssDNA)，其包括由基因组DNA，具体地，起始基因组DNA片段的末端，包围的AdA序列，以及在基因组DNA的3’末端的AdB_5‘序列。该ssDNA链在CPE反应中用作模板，得到具有源自起始基因组DNA片段的配对构建体。配偶对的每个臂具有选定的长度，分别由CNT和CPE反应产生，由AdA序列分开，在构建体的一端具有AdB_5’序列。然后通过3’侧向连接，在这种情况下为5’突出连接，将AdB_3’序列(缩写Ad141_3’)加入到构建体的另一端，得到每端具有AdB引物的可扩增模板。

受控缺口平移。用于进行CNT的一种方法是通过核苷酸量的受控缺口平移(缩写ntCNT)，其中使用有限量的一个或多个核苷酸来控制缺口平移进基因组序列的距离或缺口平移的长度。当DNA聚合酶用完有限量的核苷酸时，例如，聚合酶具有低dNTP Km的聚合酶，如大肠杆菌DNA Pol I，或者当可用的dNTP变得太低而不能形成酶/底物复合体时，例如，高Km DNA聚合酶如Taq DNA聚合酶或PfuCx DNA聚合酶，DNA聚合酶停止。这种形式的CNT可用于从任何选定长度的起始DNA片段序列产生配对文库，例如，允许序列读取长度为100-150bp。ntCNT具有受控缺口平移的所有优点：孵化时间短，配对读长的长度长，效率高。另外，ntCNT对温度或孵育时间不敏感，导致可控且易于重复地读取长度范围很窄的读长，或配对臂长度，读取长度的大小和范围取决于所选择的聚合酶类型和dNTP与DNA的比例，通常反应中使用的dNTPs越多，读取长度越长，且读取长度的范围越宽。

在含有1.5pmol长度约300-1000bp的Ad142双链环状DNA，6μl 10×NEBuffer 2(New England Biolabs，Ipswich，MA)，5.5μl具有2×AT的0.0045mM dNTP，1μl 0.91U/μlDNA聚合酶I(New England Biolabs，Ipswich，MA)和水的总反应体积为60μl的反应中，进行核苷酸量(ntCNT)受控缺口平移。将反应混合物置于冰上，然后置于热循环仪中在37℃运行15分钟，并在65℃加热变性15分钟。热盖跟踪设置在5℃以上。

缺口的3’侧向连接。3’侧向连接是通过混合12μl 20μM Ad141_5’接头，40μl 3×HB缓冲液，3μl 600U/μl T4DNA连接酶(New England Biolabs，Ipswich，MA)，60μl CNT产物，2.4μl的0.5μg/μl ET SSB(New England Biolabs，Ipswich，MA)和水的120μl反应体积中进行。将反应在37℃下孵育1小时，并在热循环仪中在65℃热变性15分钟，并在5℃以上设置热盖跟踪。

其中，3×HB缓冲液包括：0.05mg/ml BSA,50mM Tris-Cl pH7.8,10mM MgCl2,0.5mM DTT,1mM ATP,10％PEG-8000。

Ad141_5’接头序列如下：

YJ-364Ad041_5T_04为SEQ ID NO.12所示序列

SEQ ID NO.12：5’-AAGTCGGAGGCCAAGCGGTCGT-3’

其中，5’端具有磷酸化修饰，3’端为ddC修饰。

YJ-365ON4248Ad141_5为SEQ ID NO.13所示序列

SEQ ID NO.13：5’-TTGGCCTCCGACT/3dT-Q/-3’

根据Agengen珠纯化方案，使用1.5x Axygen磁珠来纯化连接产物。然后在30μl pH8.0Tris-EDTA(缩写TE)缓冲液中洗脱。

受控引物延伸。在含有9μl 10×ThermoPol缓冲液(New England Biolabs,Ipswich,MA)，0.5μl 0.096mM dNTPs，18μl 20μM ON0639，30μl间隙连接产物，1.5μl 5U/μlTaq和水的总反应体积为90μl的反应中进行受控引物延伸。将反应混合物置于冰上并保持新鲜，然后置于热循环仪中：运行程序为：96℃5分钟，56℃1分钟，72℃5分钟，4℃hold。通过加入1.2μl 0.5M EDTA终止反应。

其中，ON0639为SEQ ID NO.14所示序列：

SEQ ID NO.14：5’-TCCTAAGACCGCTTGGCCTCCGACT-3’

SEQ ID NO.14所示序列的ON0639中5’端具有52Bio生物素标记。

根据Axygen磁珠纯化方案，使用1.5×Axygen珠(Corning，Corning，NY)纯化CPE产物。然后在40μl pH 8.0TE缓冲液中洗脱。

5’-OH的5’突起的3’侧向连接。通过混合16μl 20μM Ad141_3’接头，ON3664,ON3665，40μl 3×HB缓冲液，4μl 600U/μlT4DNA连接酶(New England Biolabs，Ipswich，MA)，40μl CPE产物，2.4μl 0.5μg/μl ET SSB(New England Biolabs，Ipswich，MA)和水在120ul反应体积中。然后将反应在37℃下孵育1小时，并在热循环仪中在65℃加热变性15分钟，并在5℃以上设置加热盖跟踪。

ON3664为SEQ ID NO.15所示序列

SEQ ID NO.15：5’-GTCTCCAGTCGAAGCCCGACG-3’，

其中，5’为磷酸化修饰，3’端为ddC修饰。

ON3665为SEQ ID NO.16所示序列

SEQ ID NO.16：5’-GCTTCGACTGGAGA-3’，其中，3’端为ddC修饰。

根据Axygen珠纯化方案，用1.0×Axygen珠(Corning，Corning，NY)纯化连接产物。然后在90ul pH 8.0TE缓冲液中洗脱。

AdB PCR。使用Q5高保真DNA聚合酶(New England Biolabs，Ipswich，MA)和高GC增效剂(New England Biolabs，Ipswich，MA)，在240μl反应体积中，PCR扩增纯化的OH连接产物。

通过使用如下程序进行PCR富集：98℃30s，然后进入7个循环：98℃10s、65℃30s、72℃30s，循环结束后，72℃2分钟，以0.1℃/sec的速度下降至4℃，hold。

使用SEQ ID NO.17和SEQ ID NO.18所示序列的引物。

SEQ ID NO.17：

5’-TCCTAAGACCGCTTGGCCTCCGACT-3’

SEQ ID NO.17所示序列的引物中5’端具有52Bio标记。

SEQ ID NO.18：

5’-AGACAAGCTCGAGCTCGAGCGATCGGGCTTCGACTGGAGAC-3’

SEQ ID NO.18所示序列的引物中5’端具有phos标记。

依据Axygen磁珠纯化方案，使用0.8×Axygen珠(Corning，Corning，NY)纯化PCR产物。在55μl pH 8.0TE缓冲液中，从珠子洗脱DNA。然后按照制造商的说明书，使用dsDNA高灵敏度试剂盒(Invitrogen，Waltham，MA)对DNA进行定量。

PCR和PAGE分析。为了评估ntCNT和ntCPE臂的质量，使用PfuCx DNA聚合酶(Agilent Technologies，Santa Clara，CA)扩增间隙连接和OH连接产物(1μl)。引物序列如表3所示。

表3Cir对照、CNT臂、CPE臂和终产物的扩增引物

在预制的6％TBE聚丙烯酰胺凝胶(Bio-Rad，Hercules，CA)上分析样品。将5μl PCR产物与2μl 6×上洋缓冲液混合。然后将样品加载到凝胶中并在250V下运行10-15分钟。分离的凝胶用GelStar染色，并使用凝胶成像系统进行扫描，得到确定胶带尺寸和强度的凝胶图像。

制备用于滚环复制以制备DNA纳米球的ssCir。

1.桥连片段退火。将AdB PCR产物均一化为65μl。在每个反应中加入5μl 20μMON1587桥连片段5’-TCGAGCTTGTCTTCCTAAGACCGC-3’。然后在热循环仪中在95℃加热变性3分钟，加热盖105℃，并立即在冰上快速冷却10分钟。

2.ssDNA桥连环化。随后，加入50μl以下反应混合物，通过涡旋充分混合，并在37℃孵育1小时：36.4μl H2O,12μl 10X TA缓冲液(Epicentre,Madison,WI),1.2μl 100mM ATP,0.4μl T4DNA连接酶(Enzymatics，Beverly，MA)；总反应体积120μl。

3.Exo I和Exo III Tx。除去环化反应的产物4μl。通过向环化产物中加入8μl以下反应混合物除去线性DNA：0.8μl 10X TA缓冲液(Epicentre，Madison，WI)，3.9μl 20U/μlExoI(New England Biolabs，Ipswich，MA)，2.0μl H₂O，1.3μl 100U/μl ExoIII(NewEngland Biolabs，Ipswich，MA)，总反应体积为124μl。在室温下配置反应混合物，并置于热循环仪中37℃运行30分钟。通过加入6μl 0.5M EDTA终止反应。

4.纯化。通过170μl PEG32珠，即MPure XP珠，购自ckman Coulter，Inc.，Beverley，MA，在32％PEG 3350 1.6M NaCl，20mM EDTA0.09％叠氮化物0.01％Tween-20中纯化单链环DNA(缩写ssCir DNA)，然后在55μl pH 8.0TE缓冲液中洗脱。

5.定量。通过ssDNA Oligreen试剂盒(Invitrogen，Waltham，MA)定量2μl纯化的ssCir DNA。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换。

SEQUENCE LISTING

<110> 深圳华大基因科技有限公司

<120> 一种双链核酸片段加接头的方法、文库构建方法和试剂盒

<130> 17I25388

<160> 26

<170> PatentIn version 3.3

<210> 1

<211> 61

<212> DNA

<213> 人工序列

<400> 1

aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbtctcg actcagcagt 60

t 61

<210> 2

<211> 73

<212> DNA

<213> 人工序列

<400> 2

aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbaacga tcactcctct 60

cgactcagca gtt 73

<210> 3

<211> 64

<212> DNA

<213> 人工序列

<400> 3

aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbbbbtc tcgactcagc 60

agtt 64

<210> 4

<211> 75

<212> DNA

<213> 人工序列

<400> 4

aactgctgac gtactgatgg gcatggcgac ctattcagbb bbbbbbbbcg atcactcctc 60

tccagctcag cagtt 75

<210> 5

<211> 79

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (39)..(44)

<223> n is a, c, g, or t

<400> 5

aagtcggagg ccaagcgtgc ttaggacatg tagcgtcgnn nnnnbbbbbb baacgagtga 60

tgcgtgtacg atccgactt 79

<210> 6

<211> 81

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (41)..(46)

<223> n is a, c, g, or t

<400> 6

aagtcggagg ccaagcgtga cttaggacat gtagcgacct nnnnnnbbbb bbbaacgagt 60

gatgcgtgta cgatccgact t 81

<210> 7

<211> 48

<212> DNA

<213> 人工序列

<400> 7

aagtcggagg ccaagcgtgc ttaggacatg tagtgtacga tccgactt 48

<210> 8

<211> 66

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (41)..(50)

<223> n is a, c, g, or t

<400> 8

actgctgacg tactgactgt agggctggcg accttgacga nnnnnnnnnn tcctcagctc 60

agcagt 66

<210> 9

<211> 48

<212> DNA

<213> 人工序列

<400> 9

aagtcggagg ccaagcgtgc ttaggacatg tagtgtacga tccgactt 48

<210> 10

<211> 76

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (36)..(41)

<223> n is a, c, g, or t

<400> 10

aagtcggagg ccaagcgtgc ttaggacatg tagcgnnnnn nctctctaaa cgagtgatgc 60

gtgtacgatc cgactt 76

<210> 11

<211> 44

<212> DNA

<213> 人工序列

<400> 11

aagtcggaac cgtggatgct gagtgatggc tgtacgabbb bbbb 44

<210> 12

<211> 22

<212> DNA

<213> 人工序列

<400> 12

aagtcggagg ccaagcggtc gt 22

<210> 13

<211> 13

<212> DNA

<213> 人工序列

<400> 13

ttggcctccg act 13

<210> 14

<211> 25

<212> DNA

<213> 人工序列

<400> 14

tcctaagacc gcttggcctc cgact 25

<210> 15

<211> 21

<212> DNA

<213> 人工序列

<400> 15

gtctccagtc gaagcccgac g 21

<210> 16

<211> 14

<212> DNA

<213> 人工序列

<400> 16

gcttcgactg gaga 14

<210> 17

<211> 25

<212> DNA

<213> 人工序列

<400> 17

tcctaagacc gcttggcctc cgact 25

<210> 18

<211> 41

<212> DNA

<213> 人工序列

<400> 18

agacaagctc gagctcgagc gatcgggctt cgactggaga c 41

<210> 19

<211> 19

<212> DNA

<213> 人工序列

<220>

<221> n

<222> (11)..(11)

<223> 尿嘧啶残基

<400> 19

gtcgagaacg nctcgtgct 19

<210> 20

<211> 19

<212> DNA

<213> 人工序列

<220>

<221> n

<222> (12)..(12)

<223> 尿嘧啶残基

<400> 20

acgttctcga cncagcaga 19

<210> 21

<211> 25

<212> DNA

<213> 人工序列

<400> 21

tcctaagacc gcttggcctc cgact 25

<210> 22

<211> 19

<212> DNA

<213> 人工序列

<220>

<221> n

<222> (12)..(12)

<223> 尿嘧啶残基

<400> 22

acgttctcga cncagcaga 19

<210> 23

<211> 19

<212> DNA

<213> 人工序列

<220>

<221> n

<222> (11)..(11)

<223> 尿嘧啶残基

<400> 23

gtcgagaacg nctcgtgct 19

<210> 24

<211> 41

<212> DNA

<213> 人工序列

<400> 24

agacaagctc gagctcgagc gatcgggctt cgactggaga c 41

<210> 25

<211> 25

<212> DNA

<213> 人工序列

<400> 25

tcctaagacc gcttggcctc cgact 25

<210> 26

<211> 41

<212> DNA

<213> 人工序列

<400> 26

agacaagctc gagctcgagc gatcgggctt cgactggaga c 41

Claims

1.一种双链核酸片段加接头的方法，其特征在于：在双链靶标核酸片段的3’末端连接3’端侧向接头；

所述双链靶标核酸片段包含连接位点，所述连接位点具有包含3’-羟基的3’末端，所述连接位点为单链缺刻产生的切口、单链核苷酸缺失产生的缺口或5’端突起；

所述3’端侧向接头具有包含5’-磷酸的5’平端，以及非连接性的3’末端；

所述连接3’端侧向接头的方法包括，采用连接酶，在连接反应条件下，使双链靶标核酸片段的连接位点的3’-羟基，与3’端侧向接头的5’平端的5’-磷酸发生连接反应，将双链靶标核酸片段与3’端侧向接头连接。

2.根据权利要求1所述的双链核酸片段加接头的方法，其特征在于：所述3’端侧向接头中，非连接性的3’末端为连接有阻断基团，并被阻断基团阻断的末端；优选的，所述阻断基团为双脱氧核苷酸或3’-磷酸基团。

3.根据权利要求1所述的双链核酸片段加接头的方法，其特征在于：所述连接位点为单链缺刻产生的切口，所述方法还包括采用具有5’端外切酶活性的酶处理所述双链靶标核酸片段，切除所述切口处的一个或多个核苷酸，形成核苷酸缺失的缺口。

4.根据权利要求1所述的双链核酸片段加接头的方法，其特征在于：所述连接反应条件包括采用PEG或SSB蛋白酶或其组合物，对所述双链靶标核酸片段与所述3’端侧向接头进行连接。

5.一种文库构建方法，其特征在于：所述文库包括多个双链靶标核酸片段，文库构建方法包括，

构建环状核酸样本，每个环状核酸样本中包括一个双链靶标核酸片段和双链结构的第一接头，所述第一接头中含有单链缺刻产生的切口或单链核苷酸缺失产生的缺口；

对所述环状核酸样本进行可控的切口平移，将所述切口或缺口可控的平移到所述双链靶标核酸片段内，获得切口平移产物；

在所述切口平移产物的所述切口或缺口处连接3’端侧向接头，获得连接产物；

在所述连接产物的3’端侧向接头上杂交引物，通过杂交引物进行可控的延伸，延伸至所述双链靶标核酸片段内的指定位置，获得引物延伸产物；

在所述引物延伸产物的5’端连接5’端接头，获得配对的双接头文库，每个双接头文库包括：5’端接头、双链靶标核酸片段的第一端部分、第一接头、双链靶标核酸片段的第二端部分，和3’端侧向接头；

所述双链靶标核酸片段的第一端部分，即引物延伸的所述指定位置到所述双链靶标核酸片段3’末端的部分；所述双链靶标核酸片段的第二端部分，即所述双链靶标核酸片段的5’末端到所述切口或缺口处的部分。

6.根据权利要求5所述的文库构建方法，其特征在于：所述构建环状核酸样本的方法包括，将双链结构的第一接头的两条链拆分作为两个单接头链，两个单接头链分别与所述双链靶标核酸片段的两端连接，形成粘性末端，双链靶标核酸片段两端的粘性末端互补连接，形成所述第一接头，产生环状核酸样本。

7.根据权利要求5所述的文库构建方法，其特征在于：所述第一接头中含有至少一个尿嘧啶残基，所述文库构建方法包括切除所述尿嘧啶残基，在所述第一接头中产生所述切口或所述缺口。

8.一种采用权利要求1-4任一项所述的双链核酸片段加接头的方法，或者权利要求5-7任一项所述的文库构建方法，制备的核酸文库。

9.一种用于文库构建的试剂盒，所述试剂盒用于权利要求5-7任一项所述的文库构建方法，其特征在于：所述试剂盒包括5’端单接头链、3’端单接头链、3’端侧向接头和5’端接头；所述5’端单接头链和3’端单接头链由双链结构的所述第一接头的两条链产生。

10.根据权利要求9所述的试剂盒，其特征在于：所述5’端单接头链和所述3’端单接头链的至少一个中包含有至少一个尿嘧啶残基。