CN114774411B

CN114774411B - 大片段dna环化连接方法

Info

Publication number: CN114774411B
Application number: CN202210679408.0A
Authority: CN
Inventors: 任军; 高芳芳; 张鹏
Original assignee: Xukang Medical Science & Technology Suzhou Co ltd
Current assignee: Xukang Medical Science & Technology Suzhou Co ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-10-21
Anticipated expiration: 2042-06-16
Also published as: CN114774411A

Abstract

本发明涉及一种大片段DNA环化连接方法及其在测序文库构建中的应用，和用于实现所述方法和应用的环化接头和试剂盒和由此形成的DNA分子和测序文库。

Description

大片段DNA环化连接方法

技术领域

本发明属于基因工程领域，更具体地涉及一种大片段DNA环化连接方法及其在测序文库构建中的应用，和用于实现所述方法和应用的环化接头和试剂盒和由此形成的DNA分子和测序文库。

背景技术

二代测序中，大片段文库构建是一种重要且基础的实验技术。对基因组序列未知或没有近源物种基因组信息的物种，采用二代测序进行基因图谱绘制是快速了解一个物种的途径之一。此外，二代测序也在目前人类基因组染色体结构变异的筛查检测过程中具有重要的使用价值。

末端配对测序（Mate-Pair sequencing，MP测序）是目前最为常用的二代测序技术之一。该测序技术仅对DNA片段的两端进行成对测序，获得末端配对读段(Mate-pair, MP)测序结果。该测序结果不仅提供读段本身的序列信息还提供配对的两末端中间的距离信息，由此可以判断测出的成对MP序列在基因组上的距离。

末端配对测序的实现，依赖于大片段的末端配对文库(mate-pair library)的构建。在该文库构建过程中，通常的方法有两大类：物理打断法或普通酶切法；和转座酶切打断法。

物理打断法或普通酶切法一般涉及：1）通过物理方法（DNA片段化仪）或普通酶切法打断gDNA并回收目的大小DNA片段；2）对回收的DNA片段两端加上通用的生物素标记接头；3）将带有生物素标记接头的DNA大片段进行环化；4）消化未环化的线性DNA片段；5）将环化的DNA片段进行片段化，并采用链霉亲和素磁珠捕获带有生物素标记的DNA片段；6）将捕获的DNA片段进行扩增，建成测序用的DNA文库。

转座酶切打断法一般涉及：1）通过转座酶将gDNA片段化并加上生物素标记接头；2）回收目的大小的DNA片段并末端补齐；3）将带有生物素标记接头的DNA大片段进行环化；4）消化未环化的DNA片段；5）将环化的DNA片段进行片段化，并采用链霉亲和素磁珠捕获带有生物素标记的DNA片段；6）将捕获的DNA片段进行扩增，建成测序用的DNA文库。

在两种末端配对文库构建方法中，大片段DNA的环化连接都是文库构建的主要部分，其连接效率是限制大片段文库构建的关键节点。而且，由于末端配对测序有效数据来源于末端配对的DNA片段，因此DNA片段环化连接效率也影响了末端配对测序的整体效率。

目前基于分子内的环化连接主要有两种方式：一种是平末端直接连接方案；一种是采用重组酶系统对DNA大片段进行环化。平末端直接连接方案只能依靠大片段DNA分子自身扭曲的碰撞几率，因此环化效率较低，通常低于10%。基于重组酶系统对DNA大片段进行环化，也存在一些问题，例如，会产生大量比例的两端带有不同方向的重组位点的接头片段，导致重组无法进行；此外，重组酶系统在体外的重组效率不高，这些因素导致了整个系统的环化效率不超过10%。

为了提高DNA连接效率，较常见的研究集中在对建库过程中各种功能酶与缓冲液的优化。例如，有研究者提出，通过优化连接缓冲液体系，通过添加高聚物聚乙二醇(PEG)，小分子丙二醇，甘油等试剂以实现高效率连接。这些研究虽也可有效提高连接效率，但或需复杂且高标准的设备生产改造酶，或因专利保护无法使用，或需花费较高的价格购买商品化试剂。

因此，迫切需要开发一种简便的方法，用以提升大片段DNA环化连接的效率。

发明内容

在分子间的连接上，粘性末端连接被认为是比平末端连接更为有效的DNA连接方式。在采用粘性末端连接两DNA分子时，一般认为，DNA连接效率受粘性末端的GC含量和粘性末端长度的影响。粘性末端的GC丰度高将有助于改善连接效率；并且对于含有A,G,T,C核苷酸的粘性末端，相对于较短的粘性末端，使用较长的粘性末端是更加有利的。而粘性末端富含A和T将显著降低连接效率。参见例如, GURNEET BOLA, 2005，Evaluating the Role ofG,C-nucleotides and Length of Overhangs in T4 DNA Ligase Efficiency, Vol. 8:1-7, Copyright © December 2005, M&I, UBC；和Tina Gao等, Increasing OverhangGC-Content Increases Sticky-End Ligation Efficiency，Journal of ExperimentalMicrobiology and Immunology (JEMI), Copyright © April 2015, M&I UBC。

然而，在对大片段DNA环化进行深入研究后，本发明人令人惊奇地发现，对于采用USER酶形成粘性末端来实现大片段DNA的分子内环化而言，引入仅2bp的AT粘性末端，是更为有效的环化连接方式。基于此令人惊奇的发现，本发明人完成了本发明。如本文实施例所证实，在大片段DNA的环化连接中，应用本发明的接头引入优化粘性末端，可以提高连接效率和目的连接产物占比。

因此，在第一个方面，本发明提供了一种用于大片段DNA环化连接的环化接头，其由寡核苷酸长链和与其互补的寡核苷酸短链组成，其中，所述寡核苷酸长链的5'端第一个碱基为A碱基，第二个碱基为U碱基，且优选地，所述接头分子具有两个磷酸化的5'端。

在一些实施方案中，根据本发明的环化接头，按照所述寡核苷酸长链的5'至3'方向，具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，粘性末端生成区由寡核苷酸长链5'最末端的AU二核苷酸组成，或由该二核苷酸和所述寡核苷酸短链上与其反向互补的二核苷酸AT组成，

其中，内部连接区为用于所述环化接头与靶核酸连接的10至30bp长的双链或至少部分双链的寡核苷酸，

其中，辅助序列区为0至75bp长的单链或双链或部分双链的寡核苷酸。

在一些实施方案中，根据本发明的环化接头包含由所述寡核苷酸短链与所述寡核苷酸长链的一部分互补形成的至少19bp长的双链体区，且所述环化接头具有21bp至50bp长。

在一些实施方案中，根据本发明的环化接头的特征在于，所述内部连接区由转座元件的双链寡核苷酸组成。优选地，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'突出端和3'平末端的双链寡核苷酸，且其中所述寡核苷酸长链从5'到3'方向由AU二核苷酸和转座元件的转移链组成；且所述寡核苷酸短链从5'到3'方向由转座元件的非转移链组成。更优选地，所述转座元件的转移链具有SEQ ID NO:3所示的序列，且所述转座元件的非转移链具有SEQ ID NO:4所示的序列。再优选地，所述寡核苷酸长链具有SEQ ID NO: 1的序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列。在一个优选的实施方案中，根据本发明的环化接头的特征在于，所述寡核苷酸长链具有SEQ ID NO: 5的生物素化序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列。

在另一些实施方案中，根据本发明的环化接头的特征在于，所述内部连接区包含3'T突出端。优选地，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'平末端和3'突出端的双链寡核苷酸，且其中所述5'平末端具有AU::TA二核苷酸对，且其中所述3'突出端为单碱基3'T突出端。

在一些实施方案中，所述辅助序列区为0bp，根据本发明的环化接头不包含辅助序列区。在另一些实施方案中，根据本发明的环化接头包含辅助序列区，且所述辅助序列区包含选自如下的序列：索引序列，锚定位点、报告标签、条形码序列，和引物结合位点。

在一些实施方案中，根据本发明的环化接头具有缀合的生物素标记物。

在第二方面，本发明提供了一种DNA环化连接的方法，所述方法包括如下步骤：

(i) 在靶DNA片段的两端加上根据本发明的环化接头，以得到带有环化接头的靶DNA片段，其中，所述得到的带有环化接头的靶DNA片段具有以反向末端重复的形式存在于其两末端的AU:TA二核苷酸对；

(ii) 应用尿嘧啶特异性切除试剂，处理由步骤(i)得到的所述带有环化接头的靶DNA片段，以产生两端均含有3'AT粘性末端的DNA片段；

(iii) 在允许由步骤(ii)产生的DNA片段环化的条件下，温育所述DNA片段，以获得环化的DNA分子。

在一个实施方案中，在所述步骤(iii)后，消化未发生环化的线性DNA分子。在另一个实施方案中，所述步骤(ii)在20℃至45℃进行。在再一实施方案中，所述尿嘧啶特异性切除试剂为USER酶。

根据本发明方法的靶DNA片段优选为1kbp-200kbp，优选2kbp-30kbp，更优选3kbp-20kbp，更优选4kbp-7kbp长度的大片段DNA。所述靶DNA片段可以为基因组DNA或cDNA片段。

在一个实施方案中，在步骤(i)中，所述环化接头通过转座反应，连接到靶DNA片段的两端。

在另一实施方案中，在步骤(i)中，所述环化接头通过TA尾连接方式，连接到靶DNA片段的两端。

因此，在一些优选的实施方案中，其中所述步骤(i)包括：

(a1) 通过转座酶，将靶DNA进行片段化并同时在产生的靶DNA片段两端加上根据本发明的环化接头；

(b1) 将步骤(a1)产生的靶DNA片段，通过链置换反应，补平末端，以得到所述带有环化接头的靶DNA片段，

其中优选地，所述环化接头为包含转座元件的双链寡核苷酸的根据本发明的环化接头，且其中，优选地，在步骤(a1)前，所述转座酶与包含所述转座元件的本发明环化接头形成转座复合体。

在另一些优选的实施方案中，其中所述步骤(i)包括：

(a2) 获取平末端的靶DNA片段，通过末端转移酶，添加3'A尾；

(b2) 应用TA尾连接，将根据本发明的环化接头连接到所述靶DNA片段的两端，以得到所述带有环化接头的靶DNA片段；

其中优选地，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'平末端和3'突出端的双链寡核苷酸，且其中所述5'平末端具有AU::TA二核苷酸对，且其中所述3'突出端为单碱基3'T突出端，

优选地，步骤a2)的所述平末端的靶DNA片段通过物理或酶切打断并经末端修复后得到。

在第三方面，本发明提供了一种末端配对 (Mate-pair)测序文库构建方法，包括：

(a) 通过本发明的方法获得带有环化接头的环化DNA分子；

(b) 将环化DNA分子进行片段化，并(例如采用链霉亲和素磁珠) 捕获带有(生物素标记的)环化接头的DNA片段；

(c) 将捕获的DNA片段进行扩增，建成测序用DNA文库。

在第四方面，本发明也提供了根据本发明的方法获得的环化DNA分子和测序文库。

在第五方面，本发明也提供了根据本发明的环化接头和双链DNA分子在测序文库构建中的应用、和包含所述环化接头的试剂盒，尤其是测序建库用试剂盒。

附图说明

图1示意性显示，根据本发明的大片段DNA环化连接方法。

图2示意性显示，可用于本发明方法的环化接头。

图3示意性显示，根据本发明的转座环化方案。

图4示意性显示，根据本发明的TA尾连接环化方案。

具体实施方式

定义

在本文中，核苷酸对是指，基于Watson-Crick碱基互补配对规则，通过氢键连接的一对互补核苷酸。例如，在本文中，由一条链上的5'-AU-3'和位于另一链上的与之互补的3'-TA-5'组成的核苷酸对，可以表示为二核苷酸对，

5'- A U -3'

3'- T A -5' ，

或简写为“AU::TA”二核苷酸对。

在本文中，表述“粘性末端生成区”是指，DNA分子5'末端部分中，包含U残基及位于该残基5'端的核苷酸的区域，例如，根据本发明的环化接头和双链DNA分子上包含AU二核苷酸的区域。

在一些实施方案中，在根据本发明的环化接头上，该粘性末端生成区由接头分子的寡核苷酸长链5'最末端的AU二核苷酸（即，A为5'端第一个残基；U为5'端的第二残基）组成并形成接头分子的5'单链突出端，或在另一些实施方案中，该粘性末端生成区由该AU二核苷酸和寡核苷酸短链上与之反向互补的AT二核苷酸组成。

在根据本发明的一些双链DNA分子实施方案中，所述的粘性末端生成区由二核苷酸对

5'- A U -3'

3'- T A -5'

组成，并以反向末端重复的形式存在于所述DNA分子的两端。由此，所述双链DNA分子具有如下结构：

5'AU- (N)₁-AT3'

3'TA- (N)₂-UA5'

其中，(N)₁和(N)₂表示位于两个反向末端重复之间的互补核酸区。应当明了，对于所述DNA分子中的该核酸区，其可以为任意长度、序列和/或来源，例如，不同长度的靶核酸和/或其他附加序列。

在本文中，提及一个DNA分子具有反向末端重复是指，所述DNA分子在两末端具有反向重复序列(IR)。例如，上述具有AU::TA二核苷酸对反向末端重复的DNA分子。

在本文中，当述及一个DNA分子或寡核苷酸分子包含一条核苷酸长链和与之互补的另一条核苷酸短链时，是指所述DNA分子具有由所述短链和与之互补的长链部分组成的双链体区。

在本文中，当述及部分双链寡核苷酸时，是指该寡核苷酸具有双链部分和位于其5'或3'端的单链部分。

在本文中，表述“转座元件”与“转座元”可互换使用，是指，能够在转座反应中与转座酶形成功能性转座复合体的双链寡核苷酸分子。转座酶能够识别并结合转座元件（或包含转座元件的核酸分子）以形成转座复合体。在体外转座反应中，转座复合体在将靶DNA片段化的同时，能将转座元件（或包含转座元件的核酸分子）转移到产生的靶DNA片段上。转座元件一般由互补的两条寡核苷酸链组成，一条寡核苷酸链称作“转移链”，另一条寡核苷酸链称作“非转移链”。在体外转座反应中，转移链的3'末端与靶DNA的5'末端共价连接或转移到靶DNA上；而与转移链互补的非转移链在体外转座反应中并不与靶DNA共价连接或转移到靶DNA上。转座元件除包含转座子末端序列(即，能够与转座酶形成转座复合体并引发转座反应的最少双链DNA片段)外，任选地还可以在转移链的5'端和/或非转移链的3'端包含其他序列，而不影响转座发生。在一个优选的实施方案中，转座元件的转移链具有序列：5'AGATGTGTATAAGAGACAG 3' (SEQ ID NO: 3); 非转移链具有序列：5'CTGTCTCTTATACACATCT 3' (SEQ ID NO: 4)。

在本文中，转移链是指转座元件中在转座反应中被转移到靶核酸分子上的寡核苷酸链；非转移链是指在转座元件中与转移链互补但在转座反应中不被转移到靶核酸分子上的寡核苷酸链。

在本文中，转座反应是指这样的反应，在所述反应中，由转座酶和含转座元件的至少部分双链的DNA分子形成的转座复合体（在本文中也称作“转座子体”），在对靶DNA分子进行片段化的同时，将含转座元件的所述DNA分子转移并连接到片段化的靶DNA分子上。关于转座反应的更多细节，可参见US2010/0120098A1，在此将其完整并入作为参考。转座反应的必要成分是转座酶和含转座元件的DNA核酸分子。在转座反应后，如US2010/0120098A1中描述，可以通过采用具有链置换活性的DNA聚合酶，从产物DNA分子上置换去除未与靶核酸连接的包含非转移链的DNA核酸链，并同时补平产物DNA分子的末端。如图1和3示意性显示，在本发明的一些实施方案中，可以采用转座反应，在片段化靶DNA分子的同时，将带有转座元件的环化接头连接到所产生的DNA片段上，获得可用于本发明方法步骤(ii)的带环化接头的靶DNA片段。

在本文中，TA尾连接是指，3'端带有一个突出的“T”尾的分子，与带有3'端“A”尾的另一分子，通过T和A碱基互补而发生两分子连接。在本文中，TA尾连接旨在指两分子之间的这样连接方式，而不指分子连接的目的或所连接分子的性质。换言之，提及两分子通过TA尾连接策略连接，仅意味着两分子具有互补的T/A尾并经由该互补性而连接。如图1和4示意性显示，在本发明的一些实施方案中，可以采用TA尾连接，将带有3'-T尾的环化接头连接到带有3'-A尾的待环化DNA分子上。作为一种已知的常用方式，靶核酸可以应用具有末端转移酶活性的DNA聚合酶（例如Taq DNA聚合酶）处理，以在平端双链DNA的3'末端添加单个非模板依赖性A残基。

在本文中，与本发明环化接头相关的术语“辅助序列区”，是指0至75bp长的寡核苷酸。当辅助序列区为0bp时，如本领域技术人员理解，是指根据本发明的环化接头不包含辅助序列区。当辅助序列区大于1bp，例如为10-75bp时，如本领域技术人员理解，是指根据本发明的环化接头包含辅助序列区，在此情况下，该辅助序列区可以为单链或双链或部分双链，并由位于环化接头的寡核苷酸长链上的辅助序列单独组成（单链的辅助序列区），或由所述辅助序列与位于寡核苷酸短链上与之全部或部分互补的互补辅助序列组成（双链或部分双链的辅助序列区）。

I. 本发明方法

在深入研究的基础上，本发明人提出了应用特殊优化的含U碱基环化接头来产生具有AT粘性末端的大片段DNA并进而实现DNA分子环化的方法。

因此，在一个方面，本发明提供了一种DNA环化连接的方法，所述方法包括如下步骤：

(i)在靶DNA片段的两端加上环化接头，其中，所述接头由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸链短链组成，其中，所述寡核苷酸长链的5'端第一个碱基为A碱基，第二个碱基为U碱基；

(ii)应用尿嘧啶特异性切除试剂，处理加接头的DNA片段，以产生具有2bp AT回文3'粘性末端的DNA片段；

(iii)在允许经处理的DNA片段环化的条件下，温育所述DNA片段，以获得环化的DNA分子。

在图1中示意性展示了本发明方法的一些示例。在图2中示意性展示了本发明环化接头的一些示例。

在本发明的步骤i)中，通过本发明环化接头的应用，将产生两端具有反向重复的AU:TA二核苷酸对的平末端大片段DNA分子。在该步骤中，环化接头的连接可以应用本领域已知的各种方式进行，但优选应用转座反应的连接方式和应用T/A尾互补的连接方式。相应地，环化接头中用于与靶DNA片段进行连接的部分（在本文中也称作“内部连接区”）可以基于连接方式的选择来设计。在环化接头连接反应后，优选地，对反应产物进行纯化，以去除诸如用于连接反应的酶和试剂。

在本发明的步骤ii)中，采用尿嘧啶特异性切除试剂，可以切除来自步骤(i)的带接头DNA产物分子中的U碱基，形成带单核苷酸缺口的中间产物。从所述缺口至5'末端的剩余核酸序列(即，单碱基A)，由于该中间产物的结构不稳定，无需高温即可以自原互补链上解离，从而在所述产物两端形成互补的3'AT粘性末端结构。在该步骤中，用于切除U碱基的尿嘧啶特异性切除试剂可以是，能够特异性识别和切除双链DNA分子中的尿嘧啶碱基并留下单核苷酸缺口的任何试剂，例如，USER酶和UNG酶。USER酶是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶Endo VIII的混合物。优选地，本发明步骤ii)在例如大约20-45℃，例如大约30℃-45℃，例如, 大约 31℃、大约 32℃、大约 33℃、大约 34℃、大约 35℃、大约36℃、大约 37℃、大约 38℃、大约 39℃、大约 40℃、大约 41℃、大约 42℃、大约43℃、大约 44℃、大约 45℃进行。步骤ii)的反应时间根据所用的尿嘧啶特异性切除试剂可以变化。在一个实施方案中，在使用USER酶的步骤ii)中，反应在大约30℃-45℃持续至少20分钟，例如，20-50分钟，如25分钟、30分钟、35分钟、40分钟、45分钟，或任何两者之间的时间长度。在USER酶处理后，优选对反应产物进行纯化，例如，采用磁珠纯化，以最小化对后续DNA环化反应的干扰。

在本发明的步骤(iii)中，具有回文3' AT粘性末端的靶DNA片段分子可以在允许分子内环化的条件下环化。为了避免分子间连接的影响，可以配制环化反应体系，控制待环化分子在低浓度。用于环化反应的连接酶系统，并无限制。环化反应的条件可根据所用连接酶系统予以确定。例如，可以使用T4连接酶系统，在例如大约20-30℃（例如25℃），反应大约10-20小时(例如大约12小时)。

任选地，在步骤(iii)的环化反应后，可以包括消化未发生环化的线性DNA分子的步骤。用于实现线性DNA分子消化的方式，并无限制。反应条件可以根据所选的消化方式容易地确定。例如，可以采用外切核酸酶I (Exonuclease I酶)与ATP依赖性DNase的组合。例如，应用所述酶组合，在大约30-40℃反应大约30分钟或更长时间，并在大约70-75℃反应大约10-30分钟。

在根据本发明方法的一些实施方案中，步骤i)的待环化的靶DNA片段优选具有较大的片段大小，例如片段大小为1kbp-200 kbp，优选2 kbp -30 kbp，更优选3 kbp -20kbp，例如4 kbp, 5 kbp, 6 kbp, 7 kbp, 8 kbp, 9 kbp, 10 kbp, 11 kbp, 12 kbp, 13kbp, 14 kbp, 15 kbp, 16 kbp, 17 kbp, 18 kbp, 19 kbp, 20 kbp，更优选4 kbp -7kbp。

本发明方法的环化效率，可以通过定量环化反应后的环化DNA分子量，并与环化反应起始前的DNA投入量进行比较，予以确定。环化效率可以表示为环化DNA分子量与所述DNA投入量的百分比。用于定量环化分子量的方法，并无限制。例如，可以在对环化反应中的残留线性DNA进行消化后，采用Qubit的DNA定量试剂盒进行。

如本申请实施例部分所显示，与引入含GC的多碱基粘性末端相比，本发明通过应用优化的含U碱基接头方案完成了大片段DNA的环化连接，不仅在操作流程上更简单易行，且提高了连接效率和目的环化DNA产物占比，整体的大片段DNA环化效率达到20%左右。

不期望受理论的束缚，但认为在本发明方法中，经USER酶处理后残留的5'单碱基A，将由于2碱基（A与T）互补形成的氢键较少，而与互补链之间的分子间作用力小，导致具有缺口的中间产物分子在结构上非常不稳定，因此该残留A无需进行高温变性，在常温下即可充分自原互补链上解离，从而释放出互补链上的3'AT粘性末端。

而与本发明的优化接头方案不同，在采用含U接头来生成多碱基粘性末端的方案中（例如，如对照例中所示, 带有5'末端ACGU的接头），在USER酶处理后，将在5'端残留短单链(ACG)，该短单链在常温下自发脱落效率低下。推测这是由于残留短单链与互补链间形成的氢键较多，该中间产物DNA分子在结构上相对稳定所致。因此，一方面，在程序上，需要提供其它解离条件，例如高温变性和/或额外的辅助酶，来促使残留短链自互补链上解离，从而形成具有粘性末端的DNA片段。而另一方面，在连接效率上，这种结构上的相对稳定性，也将导致多碱基末端解离不充分，致使一定比例的DNA分子末端无法形成所需的粘性末端。进一步考虑到在环化连接过程中需要同一双链DNA分子的两端同时形成2个完整的粘性末端，这就使得满足环化条件的分子数目将在上述粘性末端形成效率的基础上再打折扣，导致真实可用于环化的DNA双链分子数不多，从而降低连接效率。

因此，尽管不期望受理论的束缚，但认为在本发明方法中，由本发明优化接头应用导致的粘性末端充分释放，更有利于分子内环化。

因此，本发明的大片段DNA环化连接方法至少具有如下优点：

(1)操作流程简单易行；

(2)连接效率和目的环化DNA产物占比高；

(3)本发明的环化接头可以兼容多种测序接头添加方式，既可以在转座酶体系中应用，也可以在非转座酶体系中应用；

(4)本发明的环化接头可以通过添加各种辅助序列区，灵活地适应各种测序文库构建需要。

结合前述优点，本发明的方法将尤其适用于形成测序文库构建中所需的环化大片段DNA分子。因此，在一些优选实施方案中，本发明提供了环化大片段DNA分子的产生方法，尤其是用于测序文库，例如末端配对测序文库构建中的环化DNA分子的产生方法，

其中所述的环化接头由寡核苷酸长链和与其互补的寡核苷酸短链组成，其中，按照所述寡核苷酸长链的5'至3'方向，所述接头具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中所述粘性末端生成区由寡核苷酸长链5'最末端的AU二核苷酸组成，或由该二核苷酸和所述寡核苷酸短链上与其反向互补的二核苷酸AT组成，

其中，内部连接区为由接头与靶核酸的连接方式决定的10-50bp的双链或部分双链核酸区，

其中，在通过转座反应实现环化接头连接的实施方案中，所述内部连接区包含转座元件，例如， Tn5转座酶的转座元件；或

其中，在通过TA尾连接实现环化接头连接的实施方案中，所述内部连接区包含由寡核苷酸长链3'最末端T残基形成的3' T突出端（例如，单残基3' T突出端）；

其中，辅助序列区长度为0-75bp，即，可以存在或不存在，其中，在存在辅助序列区的情况下，所述辅助序列区为基于待环化分子的应用而选择的单链或双链或部分双链的寡核苷酸，例如，可以用于鉴定、检测(例如荧光检测、生物素检测)或分选本发明方法产物的寡核苷酸；例如，用于测序建库的辅助序列，例如，索引序列(index)或条形码序列(barcode)核酸或测序引物结合位点。

本领域已知的其他接头连接方式，也在本发明的考虑中。例如，可以通过其他粘性末端实现接头与靶核酸连接。在这样的实施方案中，所述内部连接区将包含与靶核酸上的单链突出端互补的单链互补突出端。

用于本发明方法的环化接头可以带有缀合物，例如，亲和标记物。亲和标记物可以是一对结合对成员之一。可提及的结合对的例子包括，但不限于：生物素-亲和素，生物素-链霉亲和素、配体-受体、抗原-抗体。例如，可以通过将结合对的一个成员包括在环化接头上；并将结合对另一成员包括在例如固定于固相上的捕获试剂上，从而利于带有环化接头的DNA分子的分离。

转座环化

在本发明的一个进一步优选实施方案中，本发明的方法包括如下步骤：

1）通过转座酶，将靶DNA(优选基因组DNA)片段化并同时在产生的靶DNA片段两端加上根据本发明的环化接头；

2）将带有接头的靶DNA片段，通过链置换反应（例如应用具有链置换活性的酶如Klenow大片段），补平末端；

3）采用尿嘧啶特异性切除试剂(优选USER酶)消化，得到两端均含有3' AT粘性末端的DNA片段；

4）将得到的含有粘性末端的DNA片段进行环化连接，得到环化DNA分子；

5）任选地消化未环化的线性DNA分子，得到所述环化的DNA分子。

可用于本发明的转座酶，并无特别限制，包括但不限于：Mu, Mu E392Q, Tn5, 超活性Tn5 (Goryshin and Reznikoff, J. Biol. Chem., 273:7367 (1998)), EZ-Tn5™转座酶 (Epicentre Biotechnologies, Madison, Wisconsin), Tn5变体, RAG, Tn7,Tn10，Vibhar转座酶, 和Tn552。Tn5转座酶的变体公开在 U.S. 专利: 5,925,545; 5,965,443; 7,083,980; 7,608,434; 和U.S.专利申请14/686,961。这些专利和专利申请并入本文作为参考。优选地，用于本发明方法的转座酶选自： Tn5, 超活性Tn5, 和EZ-Tn5™ 转座酶；尤其是EZ-Tn5™ 转座酶。

用于本发明的转座元件可以包含适于与转座酶在体外转座反应中形成功能性复合体的任何核酸。转座元件的例子包括，但不限于，可以被野生型或突变Tn5转座酶识别的转座子末端序列，例如，19bp的外侧末端(OE)转座子末端、内侧末端（IE）转座子末端，或嵌合末端(ME)转座子末端，或R1和R2转座子末端。(参见，例如，US 2010/0120098，该文献特此此处并入作为参考)。

用于上述方法的根据本发明的环化接头，优选地，由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸链短链组成，

其中，按照所述寡核苷酸长链的5'至3'方向，所述接头具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，粘性末端生成区由寡核苷酸长链5'最末端的AU二核苷酸组成并形成接头的5'单链突出端，

其中，内部连接区具有位于其3'端的转座元件双链寡核苷酸或由其组成，

其中，辅助序列区长度为0-75bp，即，可以存在或不存在。

在一些实施方案中，所述接头包括位于所述粘性末端生成区和所述内部连接区之间的辅助序列区，例如包含条形码序列的寡核苷酸。

图3示意性显示了该实施方案的一个优选示例性例子。

在一个优选的实施方案中，按照寡核苷酸长链的5'至3'方向，所述环化接头分子为具有5'突出端和3'平末端的双链寡核苷酸分子，且其中

(i) 寡核苷酸长链从5'到3'方向由AU二核苷酸、辅助序列、和转座元件的转移链组成；寡核苷酸链短链从5'到3'方向由转座元件的非转移链和互补辅助序列组成，其中，辅助序列与互补辅助序列形成双链或部分双链的辅助序列区;

(ii) 寡核苷酸长链从5'到3'方向由AU二核苷酸、辅助序列、和转座元件的转移链组成；寡核苷酸链短链从5'到3'方向由转座元件的非转移链组成，其中，辅助序列形成单链的辅助序列区; 或

(iii) 优选地，寡核苷酸长链从5'到3'方向由AU二核苷酸和转座元件的转移链组成；寡核苷酸链短链由转座元件的非转移链组成。

在一个更优选的实施方案中，转座元件为19bp 的Tn5转座酶的转座子末端序列，并优选地：

所述转座元件的转移链具有序列：5'P-AGATGTGTATAAGAGACAG-3' （SEQ ID NO:3），且

所述转座元件的非转移链具有序列：5'P-CTGTCTCTTATACACATCT-3' （SEQ ID NO:4）。

在一些实施方案中，根据本发明的环化接头可以包含位于单链的AU二核苷酸粘性末端生成区和转座元件双链寡核苷酸之间的辅助序列区。所述辅助序列区的长度可以为10-30bp之间。本领域技术人员可以根据接头分子的具体应用情形选择所需的辅助序列区的序列。例如，在测序应用中，可以通过所述辅助序列区提供例如10-15bp的条形码序列或索引序列，用于靶DNA片段的标识和分组。

在一个优选的实施方案中，因此，用于上述方法的环化接头由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸短链组成，其中，

所述寡核苷酸长链为：5'P-AU（N）AGATGTGTATAAGAGACAG -3'；且所述寡核苷酸短链为：5'P-CTGTCTCTTATACACATCT（N'）-3',

其中，N是0-75bp的核苷酸链，例如0-50bp，

N'是N的全部或部分互补序列，或N'可以不存在，

优选地，N和N'均不存在，所述寡核苷酸长链具有SEQ ID NO: 1的序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列。

在一个再优选的实施方案中，因此，所述环化接头由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸短链组成，其中，

所述寡核苷酸长链具有序列（SEQ ID NO：1）：5'P-AUAGATGTGTATAAGAGACAG-3'；

所述寡核苷酸短链具有序列（SEQ ID NO：2）：5'P-CTGTCTCTTATACACATCT-3'。

在根据本发明的一些实施方案中，环化接头可以带有利于产物分子(例如环化分子)鉴定、检测和/或纯化的标记物，例如亲和标记物，如生物素标记。然而，本领域技术人员理解，尽管在一些情况下包括这样的标记物对于环化分子的后续处理是有利的，但该标记物的存在对于分子的环化并非必需的。

在一些实施方案中，标记物可以偶联或缀合在环化接头的内部连接区（例如转座元件的转移链）或辅助序列区的核苷酸上，并优选地，所述标记物缀合在寡核苷酸长链上。在一个优选的实施方案中，环化接头包含携带生物素标记的转座元件转移链，例如：AGATGTGTA(Biotin)TAAGAGACAG。

在一个更优选的实施方案中，环化接头由寡核苷酸长链和互补寡核苷酸短链组成，其中，

所述寡核苷酸长链具有SEQ ID NO：5的生物素化序列：5'P-AUAGATGTGTA(Biotin)TAAGAGACAG -3'；且所述寡核苷酸短链具有SEQ ID NO：2的序列：5'P-CTGTCTCTTATACACATCT-3'。

TA尾连接环化

基因组DNA片段化的方法，除了转座反应加接头外，还可以通过物理打断（DNA片段化仪等）和普通DNA片段化酶切来实现。通过该种方法片段化的DNA，在进行DNA片段末端修复和加A后，可以用于环化接头连接和后续的尿嘧啶核酸处理以及环化步骤。

在本发明的一个优选实施方案中，因此，本发明的方法包括如下步骤：

1）获取平末端靶DNA片段（例如，通过物理或酶切打断并经末端修复后得到的基因组DNA大片段），通过末端转移酶，添加3'A尾；

2）应用TA尾连接，将环化接头连接到靶DNA片段的两端；

3）采用尿嘧啶特异性切除试剂(优选USER酶)消化带接头的DNA片段，得到两端均含有3'AT粘性末端的DNA片段；

5）任选地，消化未环化的线性DNA分子，得到所述环化的DNA分子。

用于上述方法的根据本发明的环化接头，优选地，由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸链短链组成，其中，按照所述寡核苷酸长链的5'至3'方向，所述接头具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，所述粘性末端生成区由寡核苷酸长链5'最末端的二核苷酸与寡核苷酸短链3'最末端的二核苷酸互补形成的如下二核苷酸对组成，

5'- A U -3'

3'- T A -5'

其中，所述内部连接区具有由寡核苷酸长链3'最末端T残基形成的3'T突出端(即，3'T尾），且

其中，所述辅助序列区为0-75bp长度，即可以存在或不存在。

在一些实施方案中，所述内部连接区可以具有用于MP测序文库的内部接头序列，例如，Roche454系统中包括的环化接头(CA)序列和SOLiD 系统中包括的内部接头(IA)序列。

在一些实施方案中，所述接头还包括位于所述粘性末端生成区和内部环化连接区之间的辅助序列区，例如包含条形码序列的寡核苷酸。

图4示意性显示了该实施方案的一个优选示例性例子。

在一个优选的实施方案中，环化接头由寡核苷酸长链和互补寡核苷酸短链组成，其中，

所述寡核苷酸长链为：5'P-AU-（N）-T-3'；

所述寡核苷酸短链为：5'P-（N'）-AT-3';

其中，N和N'为10-50bp，例如大约15-30bp的互补寡核苷酸，其中寡核苷酸长链的3'最末端T形成接头的单碱基3'突出端。

II．环化接头

在再一方面，本发明提供可用于本发明DNA环化方法的环化接头，其是由寡核苷酸长链和与之互补的寡核苷酸短链组成的双链寡核苷酸分子，其中寡核苷酸长链的5'端第一个碱基是A碱基, 第二个碱基是U碱基。优选地，所述接头分子包含由寡核苷酸短链和与其互补的寡核苷酸长链部分组成的双链体区和一个或两个突出端。优选地，所述接头分子具有一个由寡核苷酸长链核苷酸组成的突出端和一个平末端。

在一个实施方案中，按照寡核苷酸长链的5'至3'方向，所述接头分子为具有至少2bp的5'突出端和3'平末端的双链寡核苷酸分子；在又一实施方案中，所述接头分子为具有5'平末端和至少1bp的3'突出端的双链寡核苷酸分子。在又一些实施方案中，接头分子包含由寡核苷酸短链与寡核苷酸长链的至少一部分互补形成的至少15bp，例如19-30bp的双链体区。

优选地，本发明环化接头由寡核苷酸长链和与其互补的寡核苷酸短链组成，其中，按照所述寡核苷酸长链的5'至3'方向，所述接头具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，内部连接区为用于接头与靶核酸连接的10-30bp的双链或至少部分双链核酸区，

其中，辅助序列区为0-75bp长，即，可以存在或不存在，在一些实施方案中，辅助序列区为0bp，所述接头不含辅助序列区；在另一实施方案中，所述接头包含辅助序列区，且所述辅助序列区为10-75bp的单链或双链或部分双链寡核苷酸。

优选地，根据本发明的环化接头具有至少一个，优选两个，磷酸化的5'端。

在一个实施方案中，所述内部连接区包含转座元件的双链寡核苷酸，例如， Tn5转座酶的转座元件的双链寡核苷酸。由此，所述环化接头可以用于转座反应中连接到靶分子上，产生两端带有环化接头的靶核酸分子。

在另一实施方案中，所述内部连接区具有由寡核苷酸长链3'最末端T残基形成的3'T突出端。由此，所述环化接头可以用于在TA尾连接策略中连接到靶分子上，产生两端带有环化接头的靶核酸分子。

在一些实施方案中，根据本发明的环化接头还包括辅助序列区。该辅助序列区的序列可以基于待环化分子的应用目的而决定。为了利于靶DNA上的体外转座反应，位于转移链5'端的辅助序列区长度优选小于75bp、或50bp、或25bp。

在一些优选实施方案中，根据本发明的环化接头用于测序文库构建中环化分子的生成。

根据本发明的环化接头可以具有10-100bp长度，例如，15bp, 20bp, 25bp, 30bp,35bp, 40bp, 45bp, 50bp, 55bp, 60bp, 65bp, 70bp, 75bp, 80bp, 85bp, 90bp, 95bp,100bp, 或所述任何两个长度之间的长度，优选20-40bp长，例如21bp长。然而，本领域技术人员明了，根据需要，本发明的环化接头也可以更长，例如，大于120bp，大于150bp。

在一些优选的实施方案中，按照寡核苷酸长链的5'至3'方向，根据本发明的环化接头为具有至少2bp的5'突出端的双链寡核苷酸接头分子，其中， 5'突出端的第一个碱基为A碱基，第二个碱基为U碱基。更优选地，所述接头分子为具有5'突出端和3'平末端的双链DNA分子，其中接头分子的双链体区具有至少19bp长。再优选地，所述接头分子由AU二核苷酸5'突出端和19bp的双链体区组成。

在一些再优选的实施方案中，所述接头分子由寡核苷酸长链和寡核苷酸短链组成，其中，从5'至3'方向，

所述寡核苷酸长链具有序列： AU二核苷酸+任选的辅助序列+转座元件的转移链；

所述寡核苷酸短链具有序列：与转移链互补的转座元件非转移链+任选的与辅助序列的全部或部分互补的互补辅助序列；

优选地，所述寡核苷酸长链和寡核苷酸短链两者具有磷酸化的5'端。

在一些实施方案中，所述转座元件的转移链具有SEQ ID NO: 3所示的核苷酸序列；所述转座元件的非转移链具有SEQ ID NO: 4所示的核苷酸序列。

在一个优选的实施方案中，因此，环化接头由5'端磷酸化的寡核苷酸长链和5'端磷酸化的互补寡核苷酸短链组成，其中，

其中，N是0-75bp的核苷酸链，例如0-50bp，

N'是N的全部或部分互补序列，或N'可以不存在，

在另一些实施方案中，所述接头分子缀合标记物，例如亲和标记物，如生物素标记物。在一个优选的实施方案中，构成接头的所述寡核苷酸长链具有SEQ ID NO：5的生物素化序列：5'P-AUAGATGTGTA(Biotin)TAAGAGACAG -3'；且所述寡核苷酸短链具有SEQ ID NO：2的序列：5'P-CTGTCTCTTATACACATCT-3'。

在另一些实施方案中，按照寡核苷酸长链的5'至3'方向，根据本发明的环化接头为具有至少1bp的3'突出端的双链寡核苷酸接头分子。更优选地，按照寡核苷酸长链的5'至3'方向，所述接头分子为具有3'突变端和5'平末端的双链DNA分子，其中，所述平末端具有由寡核苷酸长链5'最末端的二核苷酸与寡核苷酸短链3'最末端的二核苷酸互补形成的如下二核苷酸对，

5'- A U -3'

3'- T A -5'

且其中，优选地，所述3'突变端由寡核苷酸长链3'最末端T残基形成，即，所述3'突变端为单碱基3'T突变端。

在另一些实施方案中，所述环化接头在上述5'平末端和3'突出端之间具有10-50bp长的双链体区。再优选地，所述接头分子具有20-30bp，例如21bp的双链体区。所述环化接头的该双链体可以包括适于测序文库构建或测序需要的辅助序列区。例如，在一个实施方案中，所述环化接头包括用于MP测序文库的内部接头序列，例如，Roche454系统中包括的环化接头(CA)序列和SOLiD 系统中包括的内部接头(IA)序列；和/或包括条形码序列或索引序列。

III．测序文库构建

在本发明的再一方面，本发明也提供，根据本发明的方法和环化接头在涉及环化分子产生的测序文库构建中的应用。在一个实施方案中，本发明提供，根据本发明方的方法和环化接头在末端配对测序文库构建中的应用。

在一个实施方案中，本发明提供了测序文库(例如末端配对测序文库)构建方法，包括：

(a) 通过本发明的方法获得带有环化接头的环化DNA分子；

(b）将环化的DNA片段进行片段化，并(例如采用链霉亲和素磁珠) 捕获带有(生物素标记的)环化接头的DNA片段；

(c）将捕获的DNA片段进行扩增，建成测序用DNA文库。

在一些实施方案中，为例如测序目的，可以在步骤(a)中采用具有辅助序列区的根据本发明的环化接头。所述辅助序列区可以包含选自以下的寡核苷酸：分子索引序列，锚定位点、报告分子标签、条形码序列，引物结合位点。引物结合位点可以是测序引物位点，其可以包括用于在测序反应中使测序引物与测序文库核酸分子退火的核酸序列。锚定位点可以包括与捕获探针互补或基本互补的序列；或可以包括缀合/偶联在锚定位点核苷酸上的结合对成员，例如生物素/链霉亲和素之一，或配体/受体之一。有用的报告分子标签可以是能够发送信号，例如，荧光、化学发光、生物发光等的报告分子标签，例如，缀合或偶联了荧光团、发色团、放射性同位素等的核苷酸和/或寡核苷酸。

在一个优选的实施方案中，所述辅助序列区包含条形码序列以标识靶核酸分子。

IV．双链DNA分子和测序文库组合物

本发明也提供了带有本发明环化接头或可通过本发明方法产生的双链DNA分子，以及可以通过本发明的方法产生的测序文库组合物。

在一个方面，本发明提供可通过本发明方法产生的平末端双链DNA分子。

在一个实施方案中，本发明提供平末端双链DNA分子，其中所述DNA分子在两末端具有如下的二核苷酸对反向末端重复：

5'- A U -3'

3'- T A -5' 。

在一个实施方案中，所述的双链DNA分子还包含位于所述反向末端重复之间的插入序列，或在一个更优选的实施方案中，还具有位于插入序列侧翼的互为反向重复的转座元件双链寡核苷酸。

在一个实施方案中，所述转座元件双链寡核苷酸由SEQ ID NO: 3和4组成：

5'-AGATGTGTATAAGAGACAG-3' (SEQ ID NO: 3)

3'-TCTACACATATTCTCTGTC-5' (SEQ ID NO: 4)。

在再一优选实施方案中，所述的双链DNA分子在两末端具有如下的反向末端重复：

5'-AUAGATGTGTATAAGAGACAG-3' (SEQ ID NO: 1)

3'-TATCTACACATATTCTCTGTC-5' (SEQ ID NO: 2)。

在一个实施方案中，所述插入序列是天然来源的基因组DNA片段，长度为例如1kbp-200kbp，优选2kbp-30kbp，更优选3kbp-20kbp，更优选4kbp-7kbp。

在另一方面中，本发明提供可通过本发明的方法产生的测序文库组合物。

在一个实施方案中，本发明提供了包含多数个核酸分子的测序文库组合物，其中所述多数个核酸分子包含如下结构：

5'-转座元件非转移链-(M)- AT-(M')-转座元件转移链-3'，

和位于所述结构两侧翼的基因组序列,

其中M和M'为0-75bp的寡核苷酸链，并优选等长。优选地，所述转座元件为Tn5转座酶的转座元件。再优选地，所述转座元件转移链具有SEQ ID NO: 3的序列；且所述转座元件非转移链具有SEQ ID NO: 4的序列。优选地，所述多数个核酸分子是双链DNA分子。

如本领域技术人员理解，在MP测序文库的情况下，所述的两侧翼基因组序列在天然情况下将为一段连续的基因组大片段的两末端序列。

在一个实施方案中，所述的多数个核酸分子包含如下结构：

5'-CTGTCTCTTATACACATCT-(M)- AT-(M')-AGATGTGTATAAGAGACAG-3'，

或

5'-CTGTCTCTTATACACATCTATAGATGTGTATAAGAGACAG-3' (SEQ ID NO:6)

和位于所述结构两侧翼的基因组序列，例如长度50-400bp，或大约50-150bp的基因组序列。

在再一些实施方案中，所述多数个核酸分子还包含位于基因组序列侧翼的测序引物序列或捕获序列。

在再一些方面，本发明提供本发明环化接头的用途，用于制备环化DNA分子和/或用于构建测序文库，优选地，所述测序文库为末端配对测序文库。

在再一些方面，本发明提供包含本发明环化接头的试剂盒。优选地，所述试剂盒用于构建测序文库，优选地，末端配对测序文库。相应地，本发明也提供了本发明环化接头在制备所述试剂盒中的用途。

实施例

下面通过具体实施方式对本发明作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本发明能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本发明相关的一些操作并没有显示或者描述，这是为了避免本发明的核心部分被过多的描述所淹没，而且对于本领域技术人员而言，详细描述这些相关操作并不是必要的，因为根据本申请的描述以及本领域的一般技术知识即可完整了解相关操作。

实施例1：

环化接头制备

提供环化接头，该接头包括正义链（SEQ ID NO：5）和反义链（SEQ ID NO：2），上述正义链和反义链5'均进行磷酸化处理，且正义链5'端第二个碱基为U碱基，接头序列如下表1所示：

表1

名称	引物序列（5'-3'）
		SEQ ID NO:5	5'P-AUAGATGTGTA(Biotin)TAAGAGACAG-3'
SEQ ID NO:2	5'P-CTGTCTCTTATACACATCT-3'

应用制备的环化接头进行实验。

步骤1：基因组DNA提取

取健康人全血1ml，采用基因组DNA抽提试剂盒（厂家：康为世纪货号：CW2087），抽提基因组DNA。0.8%琼脂糖凝胶电泳检测DNA无明显降解。

步骤2：接头退火

按如下配制反应液：

组分	体积(ul)
		SEQ ID NO:5（100uM）	2
SEQ ID NO:2（100uM）	2
		5X 退火缓冲液（碧云天，D0251）	4
水	12
		总计	20

将配制好的反应液充分混匀，应用反应程序：98℃，2min；15个循环（95℃，2min，（-5℃/循环））；4℃保持；以获得退火的接头。

步骤3：转座子体组装

按如下配制用于转座子体组装的反应液：

组分	体积(ul)
		退火接头（10uM）	4
5X 组装缓冲液 (ABclonal，RM20187)	8
		Tn5 转座酶（1mg/ml，RM21303）	2
水	26
		总计	40

将配制好的反应液充分混匀，反应程序：35℃，1h；4℃保持。

步骤4：转座反应

配制下表所示的反应体系：

组分	体积(ul)
		5X Tagment 缓冲液 (Abclonal，RM20250)	20
转座子体	4
		基因组DNA(1 ug)	25
ddH<sub>2</sub>O	51
		总计	100

将配制好的反应液充分混匀，反应程序：55℃孵育15min。结束后，采用ZymoGenomic DNA & Concentrator kit（货号: D4011）进行纯化，30ul洗脱缓冲液洗脱。经过此转座反应，基因组DNA被片段化并加上接头。0.8%琼脂糖凝胶电泳检测片段化DNA，确定DNA大小。

步骤5：链置换反应

配制下表所示的反应体系：

组分	体积（ul）
		片段化DNA	30
10X 大片段(Klenow) 缓冲液（NEB，M0210M）	5
		dNTPs (各10mM)（NEB，N0447S）	1
DNA 聚合酶 I, Klenow(NEB，50U/ul，M0210M)	1
		ddH<sub>2</sub>O	13
总计	50

将配制好的反应液充分混匀，反应程序：25℃孵育15min，75℃孵育20min。

步骤6：粘性末端生成

配制下表所示的反应体系：

组分	体积（ul）
		步骤5的反应产物	50
10X CutSmart缓冲液(NEB，B7204S)	6
		USER酶(NEB，1U/ul，M5505)	4
总计	60

将配制好的反应液充分混匀，反应程序：37℃孵育30min。在反应中，无需高温变性，产物即可形成粘性末端。反应结束后，补水40ul，加40ul（0.4X）磁珠（BeckmanAgencourt AMPure XP beads, 货号A63880）纯化，其中室温使反应产物和磁珠结合15min，每2min混匀一次，温育结束后用70%酒精洗磁珠2次，用30ul无核酸酶水洗脱结合在磁珠上的产物, Qubit定量（试剂盒: dsDNA HS Assay Kit for Qubit, Q32851）。

步骤7：DNA环化

配制下表所示的反应体系：

组分	体积（ul）
		步骤6纯化产物DNA(500ng)	25
10X T4 DNA 连接酶缓冲液(NEB，M0202M)	30
		T4 DNA 连接酶(NEB, 2000U/ul，M0202M)	7
水	238
		总计	300

将配制好的反应液充分混匀，反应程序：25℃孵育12h。

步骤8：线性DNA消化

配制下表所示的反应体系：

组分	体积（ul）
		Plasmid-Safe<sup>TM</sup> 10X 反应缓冲液(Epicentre，E3101K)	36
Plasmid-Safe<sup> TM</sup> ATP-依赖性DNase (Epicentre, 10U/ul，E3101K)	8
		外切核酸酶 I (NEB, 20U/ul，M0293S)	4
ATP (Epicentre, 25mM，E3101K)	12
		总计	60

将配制好的反应液加入步骤7反应产物中并充分混匀，反应程序：37℃孵育30min，75℃孵育10min。

步骤9：Qubit定量

采用试剂盒（dsDNA HS Assay Kit for Qubit, Q32851）进行定量，定量统计结果如表2所示；

表2

样本	环化起始DNA量(ng)	环化DNA量(ng)	环化效率
				1	500	115.3	23.1%
2	500	97.7	19.5%
				3	500	106.1	21.2%
平均环化效率	\	\	21.3%

由表2可知，实施例1完成的大片段DNA环化，平均环化效率达到20%左右。

对比例

本测试采用含GC的4碱基粘性末端接头进行对照测试，该对照接头包括正义链（SEQ ID NO：7）和反义链（SEQ ID NO: 8），上述正义链和反义链5'均进行磷酸化处理，且正义链5'端第四个碱基为U碱基，接头序列如下表3所示：

表3

名称	引物序列（5'-3'）
		SEQ ID NO:7	5'P-ACGUAGATGTGTA(Biotin)TAAGAGACAG-3'
SEQ ID NO:8	5'P-CTGTCTCTTATACACATCT-3'

按照与实施例1相同的方式，进行基因组DNA提取、转座子体组装、转座反应、链置换反应、粘性末端生成、DNA环化、线性DNA消化、以及Qubit定量；但在粘性末端生成步骤中，考虑到USER酶处理后留下的5'-ACG较长，采用了更有利其脱落的高温处理。如下面结果所示，即使在此更为有利的处理条件下，对照接头的环化连接效率，仍明显低于本发明接头。

具体而言，取健康人全血1ml，进行三个样本实验重复。按照与实施例1中相同的程序，进行步骤1-5的基因组DNA提取、接头退火、转座子体组装、转座反应、和链置换反应。之后，按如下进行后续步骤：粘性末端生成、环化和定量。

步骤6：粘性末端生成

配制下表所示的反应体系：

组分	体积（ul）
		步骤5的反应产物	50
10X CutSmart缓冲液	6
		USER酶	4
总计	60

将配制好的反应液充分混匀，反应程序：37℃孵育30min，75℃孵育15min，立即置于冰上，使形成的3'端残留的短单链脱落，从而形成具有粘性末端的DNA大片段。补水40ul，加40ul（0.4X）磁珠纯化，室温结合15min，每2min混匀，70%酒精洗2次，30ul无核酸酶水洗脱。

步骤7：DNA环化

配制与实施例1步骤7中相同的反应体系：

组分	体积（ul）
		步骤6纯化产物DNA(500ng)	25
10X T4 DNA 连接酶缓冲液	30
		T4 DNA 连接酶	7
水	238
		总计	300

将配制好的反应液充分混匀，反应程序：25℃孵育12h。

步骤8：线性DNA消化

配制与实施例1步骤8中相同的反应体系：

组分	体积（ul）
		Plasmid-Safe 10X 反应缓冲液	36
Plasmid-Safe ATP-依赖性DNase	8
		外切核酸酶I	4
ATP	12
		总计	60

步骤9：Qubit定量

按照与实施例1步骤9相同方式，进行定量统计。结果显示在下表4中：

表4

样本	环化起始DNA量(ng)	环化DNA量(ng)	环化效率
				1	500	79.2	15.8%
2	500	84.7	16.9%
				3	500	60.3	12.1%
平均环化效率	\	\	14.9%

由表4可知，对照例完成的大片段DNA环化平均环化效率在15%左右，低于应用本发明接头的21%平均环化效率。

本发明的一些具体实施方案：

1. 一种环化接头，其由寡核苷酸长链和与其互补的寡核苷酸短链组成，其中，所述寡核苷酸长链的5'端第一个碱基为A碱基，第二个碱基为U碱基，且优选地，所述接头分子具有两个磷酸化的5'端。

2. 实施方案1的环化接头，其中，按照所述寡核苷酸长链的5'至3'方向，所述接头具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，内部连接区为用于所述接头分子与靶核酸连接的10-30bp的双链或至少部分双链寡核苷酸，

其中，辅助序列区为0bp，或为10-75bp的单链或双链或部分双链寡核苷酸。

3. 实施方案2的环化接头，其中，所述内部连接区包含转座元件的双链寡核苷酸，例如， Tn5转座元件的双链寡核苷酸，优选地，所述转座元件双链寡核苷酸由SEQ ID NO:3和SEQ ID NO:4组成。

4. 实施方案2的环化接头，其中，所述内部连接区包含由寡核苷酸长链3'最末端T残基形成的3' T突出端。

5. 实施方案1-4任一项的环化接头，其中环化接头还包括辅助序列区，优选地该辅助序列区包含选自如下的序列：分子索引序列(index)，锚定位点、报告分子标签、条形码序列(barcode)，引物结合位点，尤其是，用于测序的条形码序列核酸或测序引物结合位点。

6. 实施方案1-5任一项的环化接头，其中，所述环化接头具有一个突出端和一个平末端，其中所述突出端由寡核苷酸长链核苷酸组成，优选地，所述接头分子还包含由所述寡核苷酸短链与所述寡核苷酸长链的一部分互补形成的10-50bp，例如至少19bp的双链体区，再优选地，所述接头分子具有至少15bp长，例如21bp-100bp长。

7. 实施方案6的环化接头，其中，按照寡核苷酸长链的5'至3'方向，所述接头分子为具有至少2bp的5'突出端和3'平末端的双链寡核苷酸分子，

优选地，其中所述5’突出端包含最末端AU二核苷酸，且所述分子具有位于其3’最末端的转座元件双链寡核苷酸。

8. 实施方案6的环化接头，其中，按照寡核苷酸长链的5'至3'方向，所述接头分子为具有5'平末端和至少1bp的3'突出端的双链寡核苷酸分子，

优选地，其中，所述5'平末端具有由寡核苷酸长链5'最末端的二核苷酸与寡核苷酸短链3'最末端的二核苷酸互补形成的如下二核苷酸对，

5'- A U -3'

3'- T A -5'

且其中，所述3'突出端包含寡核苷酸长链3'最末端T残基，优选地，所述3'突出端为由单个T残基组成的1bp的3'突出端。

9. 实施方案1-8任一项的环化接头，其中所述环化接头具有缀合的标记物，例如亲和标记物，尤其是生物素标记物，优选地，所述标记物缀合在寡核苷酸长链上。

10. 实施方案1-9任一项的环化接头，其中，所述寡核苷酸长链为：5'P-AU（N）AGATGTGTATAAGAGACAG -3'；且所述寡核苷酸短链为：5'P-CTGTCTCTTATACACATCT（N'）-3',其中，N是0-75bp的核苷酸链，例如0-50bp，且N'是N的全部或部分互补序列，或N'可以不存在，且优选地，所述寡核苷酸长链在自3'端起第11个A残基上生物素化，

优选地，其中，N和N'不存在，所述寡核苷酸长链具有SEQ ID NO: 1的序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列，再优选地，所述寡核苷酸长链包含SEQ ID NO: 5的生物素化的序列(5'P-AUAGATGTGTA(Biotin)TAAGAGACAG -3')。

11．实施方案1-10任一项的环化接头，其中所述环化接头包含寡核苷酸长链和寡核苷酸短链，其中所述寡核苷酸长链为：5'P-AU-（N）-T-3'；且所述寡核苷酸短链为：5'P-（N'）-AT-3'; 其中，N和N'为10-50bp，例如大约15-30bp的互补寡核苷酸，其中寡核苷酸长链的3'最末端T形成所述环化接头的单碱基3'突出端(即，3'T尾)。

12. 一种DNA环化连接方法，所述方法包括如下步骤：

(i)在靶DNA片段的两端加上根据实施方案1-11任一项的环化接头；

(ii)应用尿嘧啶特异性切除试剂，处理加接头的DNA片段，以产生两端均含有3'AT粘性末端的DNA片段；

(iii)在允许经处理的DNA片段环化的条件下，温育所述DNA片段，以获得环化的DNA分子，

任选地，在步骤(iii)的环化反应后，消化未发生环化的线性DNA分子。

13. 实施方案12的方法，其中步骤ii)在大约20-45℃，如30℃-45℃或大约 35℃-40℃进行。

14. 实施方案12或13的方法，其中尿嘧啶特异性切除试剂为USER酶，优选地，其中步骤ii) 的反应持续20-50分钟。

15. 实施方案12-14任一项的方法，其中步骤(iii)的环化连接采用T4连接酶进行，优选地在20-30℃进行10-20小时。

16. 实施方案12-15任一项的方法，其中，步骤i)的所述靶DNA片段具有1kbp-200kbp，优选2 kbp -30 kbp，更优选3 kbp -20 kbp，更优选4 kbp -7 kbp 长度，优选地，所述DNA片段为基因组DNA或cDNA。

17. 实施方案12-16任一项的方法，其中，所述方法包括如下步骤：

1）通过转座酶将靶DNA片段化，并同时在产生的靶DNA片段两端加上所述环化接头；

2）将带有接头的靶DNA片段，通过链置换反应，补平末端；

3）采用尿嘧啶特异性切除试剂消化，得到两端均含有3'AT粘性末端的DNA片段；

5）任选地，消化未环化的线性DNA分子，得到所述环化的DNA分子，

其中优选地，所述环化接头为根据实施方案10的环化接头。

18. 实施方案12-16任一项的方法，其中，所述方法包括如下步骤：

1）获取平末端的靶DNA片段，通过末端转移酶，添加3' A尾；

2）应用TA尾连接，将所述环化接头连接到所述靶DNA片段的两端；

5）任选地，消化未环化的线性DNA分子，得到所述环化的DNA分子；

其中优选地，所述环化接头为根据实施方案11的环化接头，

优选地，步骤i)的所述靶DNA片段为通过物理或酶切打断并经末端修复后得到的基因组DNA片段。

19. 一种末端配对 (Mate-pair)测序文库构建方法，包括：

(a) 通过实施方案12-18任一项的方法获得带有环化接头的环化DNA分子；

(b）将环化DNA分子进行片段化，并(例如采用链霉亲和素磁珠) 捕获带有(例如生物素标记的)所述环化接头的DNA片段；

(c）将捕获的DNA进行扩增，建成测序用DNA文库。

20. 实施方案19的方法，其中在步骤(a)中采用具有辅助序列区的环化接头获得环化DNA分子，其中所述辅助序列区包含选自以下的寡核苷酸：分子索引序列，锚定位点、报告分子标签、条形码序列，引物结合位点，优选地所述辅助序列区包含条形码序列或测序引物结合位点。

21. 由实施方案12-18任一项的方法获得的环化DNA分子。

22. 由实施方案19-20任一项的方法获得的测序文库。

23. 包含多数个核酸分子的测序文库组合物，其中所述多数个核酸分子包含如下结构：

5'-转座元件非转移链-(M)- AT-(M')-转座元件转移链-3'，

和位于所述结构两侧翼的基因组序列,

其中M和M'为0-75bp的寡核苷酸双链，并优选等长。

24. 实施方案23的测序文库组合物，其中，所述M和M'包含测序引物结合位点或条形码序列。

25. 实施方案23的测序文库组合物，其中所述转座元件转移链为SEQ ID NO: 3所示的序列，且所述转座元件非转移链为SEQ ID NO: 4所示的序列，由此，所述多数个核酸分子包含如下结构：

5'-CTGTCTCTTATACACATCT-(M)- AT-(M')-AGATGTGTATAAGAGACAG-3'，

或所述多数个核酸分子包含SEQ ID NO: 6的序列。

26. 一种平末端双链DNA分子，其中所述DNA分子在两末端具有如下的二核苷酸对反向末端重复：

5'- A U -3'

3'- T A -5' ，

优选地，所述双链DNA分子还包含位于所述反向末端重复之间的基因组DNA插入序列，且更优选地还具有位于插入序列两侧翼的互为反向重复的转座元件双链寡核苷酸。

27. 根据实施方案1-11任一项的环化接头或根据实施方案26的双链DNA分子的用途，用于制备环化DNA分子和/或用于构建测序文库，优选地，所述测序文库为末端配对测序(Mate-pair sequencing) 文库。

28. 包含实施方案1-11任一项的环化接头的试剂盒，优选地，所述试剂盒还包含用于构建测序文库，优选地，末端配对测序文库的试剂。

29. 根据实施方案1-11任一项的环化接头在制备试剂盒中的用途，所述试剂盒用于制备环化DNA分子和/或用于构建测序文库。

序列表

<110> 序康医疗科技（苏州）有限公司

<120> 大片段DNA环化连接方法

<130> PF 210925CNI

<160> 8

<170> PatentIn 版本3.3

<210> 1

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<220>

<221> misc_feature

<222> (2)..(2)

<223> n是尿嘧啶核苷

<400> 1

anagatgtgt ataagagaca g 21

<210> 2

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<400> 2

ctgtctctta tacacatct 19

<210> 3

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<400> 3

agatgtgtat aagagacag 19

<210> 4

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<400> 4

ctgtctctta tacacatct 19

<210> 5

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<220>

<221> misc_feature

<222> (2)..(2)

<223> n是尿嘧啶核苷

<220>

<221> misc_feature

<222> (11)..(11)

<223> 缀合生物素

<400> 5

anagatgtgt ataagagaca g 21

<210> 6

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<400> 6

ctgtctctta tacacatcta tagatgtgta taagagacag 40

<210> 7

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<220>

<221> misc_feature

<222> (4)..(4)

<223> n是尿嘧啶核苷

<220>

<221> misc_feature

<222> (13)..(13)

<223> 缀合生物素

<400> 7

acgnagatgt gtataagaga cag 23

<210> 8

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成序列

<400> 8

ctgtctctta tacacatct 19

Claims

1.一种环化接头，其特征在于，所述环化接头由5'磷酸化的寡核苷酸长链和与其互补的5'磷酸化的寡核苷酸短链组成，并具有由寡核苷酸短链和与其互补的寡核苷酸长链部分组成的双链体区和一个突出端，

其中，所述寡核苷酸长链的5'端第一个碱基为A碱基，第二个碱基为U碱基，

且其中，所述环化接头，按照寡核苷酸长链的5'至3'方向，具有如下结构：

粘性末端生成区-辅助序列区-内部连接区，

其中，辅助序列区为0bp，或为10bp至75bp长的单链或双链或部分双链的寡核苷酸，且

其中，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'突出端和3'平末端的双链寡核苷酸，所述粘性末端生成区由寡核苷酸长链5'最末端的AU二核苷酸组成，且所述内部连接区由转座元件的双链寡核苷酸组成，或

其中，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'平末端和3'突出端的双链寡核苷酸，所述粘性末端生成区由寡核苷酸长链5'最末端的AU二核苷酸和所述寡核苷酸短链上与其反向互补的二核苷酸AT组成，且所述内部连接区包含单碱基3'T突出端。

2.如权利要求1所述的环化接头，其特征在于，所述环化接头包含由所述寡核苷酸短链与所述寡核苷酸长链的一部分互补形成的至少19bp长的双链体区，且所述环化接头具有21bp至50bp长。

3.如权利要求1所述的环化接头，其特征在于，所述内部连接区由转座元件的双链寡核苷酸组成。

4.如权利要求3所述的环化接头，其特征在于，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'突出端和3'平末端的双链寡核苷酸，且其中

所述寡核苷酸长链从5'到3'方向由AU二核苷酸和转座元件的转移链组成；且

所述寡核苷酸短链从5'到3'方向由转座元件的非转移链组成。

5.如权利要求4所述的环化接头，其特征在于，所述转座元件的转移链具有SEQ ID NO:3所示的序列，且所述转座元件的非转移链具有SEQ ID NO:4所示的序列。

6.如权利要求1所述的环化接头，其特征在于，所述寡核苷酸长链具有SEQ ID NO: 1的序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列。

7.如权利要求1所述的环化接头，其特征在于，所述寡核苷酸长链具有SEQ ID NO: 5的生物素化序列；且所述寡核苷酸短链具有SEQ ID NO: 2的序列。

8.如权利要求1所述的环化接头，其特征在于，所述内部连接区包含3'T突出端。

9.如权利要求8所述的环化接头，其特征在于，所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'平末端和3'突出端的双链寡核苷酸，其中所述5'平末端具有如下二核苷酸对：

5'- A U -3'

3'- T A -5' ，

且其中所述3'突出端为单碱基3'T突出端。

10.如权利要求1所述的环化接头，其特征在于，所述辅助序列区包含选自如下的序列：索引序列，锚定位点、报告标签、条形码序列，和引物结合位点。

11.如权利要求1所述的环化接头，其特征在于，所述环化接头具有缀合的生物素标记物。

12.一种DNA环化连接方法，其特征在于，所述方法包括如下步骤：

(i) 在靶DNA片段的两端加上根据权利要求1所述的环化接头，以得到带有环化接头的靶DNA片段，

其中，所述得到的带有环化接头的靶DNA片段具有以反向末端重复的形式存在于其两末端的如下二核苷酸对：

5'- A U -3'

3'- T A -5' ；

13.如权利要求12所述的方法，其特征在于，在所述步骤(iii)后，消化未发生环化的线性DNA分子。

14.如权利要求12所述的方法，其特征在于，所述步骤(ii)在20℃至45℃进行。

15.如权利要求12所述的方法，其特征在于，所述尿嘧啶特异性切除试剂为USER酶。

16.如权利要求12所述的方法，其特征在于，所述步骤(i)的所述靶DNA片段具有1kbp-200kbp长度。

17.如权利要求12所述的方法，其特征在于，所述步骤(i)包括：

(a1) 通过转座酶，将靶DNA进行片段化并同时在产生的靶DNA片段两端加上所述环化接头；

(b1) 将步骤(a1)产生的靶DNA片段，通过链置换反应，补平末端，以得到所述带有环化接头的靶DNA片段。

18.如权利要求17所述的方法，其特征在于，所述步骤(a1)的所述环化接头包含寡核苷酸长链和寡核苷酸短链，且其中所述寡核苷酸长链具有SEQ ID NO:5的序列；所述寡核苷酸短链具有SEQ ID NO:2的序列。

19.如权利要求12所述的方法，其特征在于，所述步骤(i)包括：

(a2) 获取平末端的靶DNA片段，通过末端转移酶，添加3' A尾；

(b2) 应用TA尾连接，将所述环化接头连接到所述靶DNA片段的两端，以得到所述带有环化接头的靶DNA片段。

20.如权利要求19所述的方法，其特征在于，所述步骤(a2)的所述环化接头，按照寡核苷酸长链的5'至3'方向，为具有5'平末端和3'突出端的双链寡核苷酸，且

其中所述5'平末端具有如下二核苷酸对：

5'- A U -3'

3'- T A -5' ，

且其中所述3'突出端为单碱基3'T突出端。

21.如权利要求19所述的方法，其特征在于，所述平末端的靶DNA片段为通过物理或酶切打断并经末端修复后得到的平末端靶DNA片段。

22.一种末端配对测序文库构建方法，其特征在于，所述方法包括步骤：

(a) 通过权利要求12-21任一项所述的方法获得带有环化接头的环化DNA分子；

(b）将环化DNA分子进行片段化，并捕获带有所述环化接头的DNA片段；

(c）将捕获的DNA片段进行扩增，建成测序用DNA文库。

23.如权利要求22所述的方法，其特征在于，所述环化接头带有生物素标记，且所述捕获带有所述环化接头的DNA片段采用链霉亲和素磁珠进行。

24.如权利要求1-11任一项所述的环化接头用于制备环化DNA或用于构建末端配对测序文库的用途。

25.包含如权利要求1-11任一项所述的环化接头的试剂盒。

26.如权利要求25所述的试剂盒，其特征在于，所述试剂盒还包含用于构建末端配对测序文库的试剂。