CN117822130A

CN117822130A - 文库的制备方法及其应用和接头及试剂盒

Info

Publication number: CN117822130A
Application number: CN202311837370.6A
Authority: CN
Inventors: 刘浩男; 李世学; 张雅琦
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-05

Abstract

本发明公开了一种文库的制备方法及其应用和接头及试剂盒，该方法包括如下步骤：(a)获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品；(b)提供多个环状接头；(c)将多个环状接头连接到多个所述dsDNA分子的两个末端，以生成多个第一环状接头‑dsDNA‑环状接头构建体；(d)扩增多个第一环状接头‑dsDNA‑环状接头构建体以产生多个环状接头‑dsDNA构建体；(e)将多个环状接头连接到多个所述环状接头‑dsDNA构建体的第二末端，以生成多个第二环状接头‑dsDNA‑环状接头构建体；(f)消化多个第二环状接头‑dsDNA‑环状接头构建体并且进行变性，以产生所述文库。本发明的制备方法提高了文库制备的成功率。

Description

文库的制备方法及其应用和接头及试剂盒

技术领域

本发明涉及分子生物学技术领域，具体涉及一种文库的制备方法及其应用和接头及试剂盒。

背景技术

2005年，罗氏推出了第一款二代测序仪罗氏454，生命科学开始进入高通量测序时代。后续随着Illumina系列测序平台的推出，极大降低了二代测序的价格，推动了高通量测序在生命科学各个研究领域的普及。第二代测序(Next-generation sequencing，NGS)又称为高通量测序，是基于PCR和基因芯片发展而来的DNA测序技术。二代测序开创性的引入了可逆终止末端，从而实现边合成边测序。

二代测序是一个强大的功能平台，它可以同时给数以万计的DNA分子进行测序。由于这种可以多个样本同时测序的能力，在个性化医疗、遗传疾病和临床诊断等方面，二代测序也就是高通量测序开创了革命性的领域。

文库制备即为测序片段添加接头。无论是PCR产生的片段还是基因组鸟枪法打断的片段都具有特异性(PCR中不同样品反向引物插入了特异性的条形码，因此两个末端也是特异的)，两个末端缺乏必要的引物因此混合DNA片段不能直接扩增和测序。DNA片段需要加接头修饰才能进行上机测序，这个过程称为二代测序的文库制备。

在连接接头的过程中一般需要先经过一步引物扩增，在此基础上再在引物的两个末端添加测序接头。由于引物的5＇端是没有磷酸基团的，所以在添加测序接头时正链和负链都会由于缺少磷酸基团而导致文库不完整，一般实验中会人为添加磷酸基团，但成功率很低，一般＜1％，这就限制了文库制备的成功率。

发明内容

本发明的一个目的是提供一种文库的制备方法，包括如下步骤：

(a)获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品，其中dsDNA分子包含正向链序列和反向互补链序列；

(b)提供多个环状接头，其中所述环状接头包含可用于核酸酶消化的识别位点；

(c)将所述多个环状接头连接到多个所述dsDNA分子的两个末端，以生成多个第一环状接头-dsDNA-环状接头构建体；

(d)扩增多个所述第一环状接头-dsDNA-环状接头构建体以产生多个环状接头-dsDNA构建体，其包含源自所述dsDNA分子的正向链序列和反向互补链序列以及连接在所述dsDNA的第一末端的所述环状接头；

(f)将所述多个环状接头连接到多个所述环状接头-dsDNA构建体的第二末端，以生成多个第二环状接头-dsDNA-环状接头构建体；

(g)消化所述多个第二环状接头-dsDNA-环状接头构建体并且进行变性，以产生多个包含所述正向链序列或所述反向互补链序列的单链DNA分子，从而产生测序所述文库。

在一种实施方式中，所述获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品包括：PCR扩增dsDNA分子。

在一种实施方式中，所述将所述环状接头连接到多个所述dsDNA分子的两个末端包括：修饰多个所述dsDNA分子，其中，所述修饰不包括磷酸化，和/或所述修饰包括末端修复、加A尾中的至少一种。

在一种实施方式中，所述第一环状接头-dsDNA-环状接头构建体包含位于所述dsDNA分子的两个序列5’端的两个切口；

所述第二环状接头-dsDNA-环状接头构建体包含位于所述dsDNA分子的第二末端序列5’端的一个切口；

所述单链DNA分子的位于源于所述dsDNA分子的第一末端的序列不包括切口。

在一种实施方式中，所述扩增多个所述第一环状接头-dsDNA-环状接头构建体包括：变性、退火和延伸过程；

其中，所述扩增过程不额外添加引物。

在一种实施方式中，所述消化所述多个第二环状接头-dsDNA-环状接头构建体并进行变性的步骤包括：

核酸酶消化所述环状接头包含的识别位点；和

变性；以及

分离不包含切口的单链DNA分子。

在一种实施方式中，在所述扩增多个所述第一环状接头-dsDNA-环状接头构建体的过程中，所述环状接头用作引物。

在一种实施方式中，所述方法还包括对所产生的单链DNA分子进行扩增的步骤，以生成所述文库。

在一种实施方式中，所述识别位点是尿嘧啶残基，所述核酸酶是尿嘧啶DNA糖基化酶(UDG)。

在一种实施方式中，所述接头包含标记核苷酸，其中，所述标记核苷酸包括：分子条形码序列、独特的分子标识符(UMI)、样品特异性索引序列、通用引发位点、以及用于簇生成和/或测序的测序寡核苷酸中的一种或多种；和/或

上述标记核苷酸的部分序列。

在一种实施方式中，所述dsDNA分子是无细胞DNA(cfDNA)分子和/或基因组DNA。

在一种实施方式中，所述测试样品来自全血、血液成分、血浆、血清、尿液、粪便、唾液、组织活检、胸膜液、心包液、脑脊液(CSF)或腹膜液。

本发明的另一个目的是提供一种用于测序的接头，包含通过U碱基连接的P5引物和P7引物各自的至少一部分序列。

在一种实施方式中，所述接头的序列为SEQ ID NO：1所示的序列：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAUGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’。

本发明的另一个目的是提供一种文库制备试剂盒，包括如上所述的方法中使用的试剂。

本发明的又一个目的提供了如上所述的方法在测序、检测癌症的存在或不存在、确定癌症状态、监测癌症进展和/或确定癌症分类中的应用。

本发明的文库的制备方法免去了添加磷酸基团的步骤，提高了文库制备的成功率并且简单、易于操作。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明的文库的制备方法的示意图；

图2示出了qPCR标准曲线。

图3示出了本发明的接头结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

定义

除非另有定义，否则本文中使用的科学和技术术语具有与本发明所属领域的技术人员通常理解的含义相同的含义。

本文提及的所有出版物通过引用被明确地并入本文，以公开和描述与引用这些出版物相关的方法和/或材料。

如本文所用，术语“组织”是指连接的细胞和/或细胞外基质材料的块。通常与本发明的方法结合使用的组织的非限制性实例包括皮肤、头发、指甲、子宫内膜组织、鼻腔组织、中枢神经系统(CNS)组织、神经组织、眼睛组织、肝组织、肾组织、胎盘组织、乳腺组织、胃肠道组织、肌肉骨骼组织、泌尿生殖组织、骨髓等，来源于例如人类或非人哺乳动物。根据本发明的实施方式的组织样品可以以本领域已知的任何组织样品类型的形式制备和提供，例如但不限于福尔马林固定石蜡包埋(FFPE)、新鲜和新鲜冷冻(FF)组织样品。

如本文所用，术语“体液”是指来源于受试者的液体材料，例如人类或非人哺乳动物。通常与本发明的方法结合使用的体液的非限制性实例包括粘液、血液、血浆、血清、血清衍生物、滑液、淋巴液、胆汁、痰、唾液、汗液、眼泪、痰液、羊水、经血液、阴道液、精液、尿液、脑脊液(CSF)如腰部或心室CSF、胃液，包括来源于鼻拭子、咽拭子或颊拭子的一种或多种材料的液体样品，以及包括来源于灌洗程序(例如腹膜、胃、胸或导管灌洗程序)的一种或多种材料的液体样品等。

如本文所用，术语“扩增”是指进行扩增反应。“反应混合物”是指含有进行反应所需的所有反应物的溶液，其可包括但不限于：在反应过程中将pH值保持在所选水平的缓冲剂，盐、辅助因子和清除剂等。

本文使用的术语“片段”是指较大的多核苷酸分子的一部分。例如，多核苷酸可以通过自然过程(如生物样品中自然发生的cfDNA片段的情况)或通过体外操作被分解或片段化为多个片段。片段化核酸的各种方法在本领域是众所周知的。这些方法可以是，例如，本质上是化学的、物理的或酶促的。酶促片段化可以包括用DNA酶的部分降解；用酸进行部分脱嘌呤；限制性内切酶的使用；内含子编码的核酸内切酶；基于DNA的裂解方法，例如三重和杂交形成方法，其依赖于核酸片段的特异性杂交，以将裂解剂定位到核酸分子中的特定位置；或在已知或未知位置裂解多核苷酸的其他酶或化合物。物理片段化方法可以包括使多核苷酸经受高剪切速率。例如，可以通过使DNA移动通过具有凹坑或尖峰的腔室或通道，或者迫使DNA样品通过限制尺寸的流动通道，例如具有微米或亚微米范围的横截面尺寸的孔，来产生高剪切速率。其他物理方法包括超声和雾化。同样可以采用物理和化学片段化方法的组合，例如通过加热和离子介导的水解进行裂解。这些方法可被优化以将核酸消化成选定大小范围的片段。

本文使用的术语“扩增子”是指多核苷酸扩增反应的产物；即从一个或多个起始序列复制的多核苷酸的克隆群体，其可以是单链或双链。一个或多个起始序列可以是相同序列的一个或更多个拷贝，或者它们可以是不同序列的混合物。优选地，扩增子通过扩增单个起始序列而形成。扩增子可以通过多种扩增反应产生，其产物包括一种或多种起始核酸或靶核酸的复制物。在一个方面，产生扩增子的扩增反应是“模板驱动的”，其中反应物的碱基对，核苷酸或寡核苷酸，在模板多核苷酸中具有生成反应产物所需的互补物。在一个方面，模板驱动的反应是与核酸聚合酶的引物延伸，或与核酸连接酶的寡核苷酸连接。这样的反应包括但不限于聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)和滚环扩增等，这些反应在以下参考文献中公开，每一个参考文献通过引用整体并入本文：Mullis et al,U.S.Pat.Nos.4,683,195；4,965,188；4,683,202；4,800,159(PCR)；Gelfandet al,U.S.Pat.No.5,210,015(real-time PCR with“taqman”probes)；Wittwer et al,U.S.Pat.No.6,174,670；Kacian et al,U.S.Pat.No.5,399,491(“NASBA”)；Lizardi,U.S.Pat.No.5,854,033；Aono et al,Japanese patent publ.JP 4-262799(rollingcircle amplification)等。

术语“聚合酶链式反应”或“PCR”在本文中可互换使用，是指通过DNA互补链的同时引物延伸，对特定DNA序列进行体外扩增的反应。换言之，PCR是用于制备侧翼为引物结合位点的靶核酸的多个拷贝或复制物的反应，这种反应包括以下步骤中的一个或多个重复：(i)使靶核酸变性，(ii)将引物退火到引物结合位点，和(iii)在三磷酸核苷的存在下通过核酸聚合酶延伸引物。通常，反应在热循环仪中，在针对每个步骤优化的不同温度下循环。具体的温度、每个步骤的持续时间和步骤之间的变化率取决于本领域技术人员已知的许多因素，例如，由以下参考文献举例说明：McPherson et al,editors,PCR:A PracticalApproach and PCR2:A Practical Approach(IRL Press,Oxford,1991and1995,respectively)。例如，在使用Taq DNA聚合酶的常规PCR中，双链靶核酸可以在>90℃的温度下变性，引物在50-75℃的范围内退火，以及引物在72-78℃的范围内延伸。术语“PCR”包括反应的衍生形式，包括但不限于RT-PCR、实时PCR、巢式PCR、定量PCR和多重PCR等。所采用的PCR的特定形式可由本领域技术人员从应用的上下文中辨别。反应体积的范围可以从几百纳升，例如200nL到几百μL，例如200μL。

“逆转录PCR”或“RT-PCR”是指在逆转录反应之前将靶RNA转化为互补单链DNA，然后进行扩增的PCR，例如在Tecott等人的第5168038号美国专利中描述的，其公开内容通过引用整体并入本文。

“实时PCR”是指随着反应的进行，对反应产物(即扩增子)的量进行监测的PCR。存在许多形式的实时PCR，其主要在用于监测反应产物的检测化学成分上不同，例如Gelfand等人的第5210015号美国专利(“taqman”)；Wittwer等人的第6174670和6569627号美国专利(嵌入染料)；Tyagi等人的第5925517号美国专利(分子信标)；其公开内容通过引用整体并入本文。实时PCR的检测化学方法综述于Mackay等人，Nucleic Acids Research，30:1292-1305(2002)中，其也通过引用并入本文。

“巢式PCR”是指两阶段PCR，其中第一次PCR的扩增子成为使用一组新的引物的第二次PCR的样品，在该组新的引物中的至少一个引物与第一次扩增子的内部位置结合。如本文所用，关于巢式扩增反应的“初始引物”是指用于产生第一扩增子的引物，而“二次引物”是指用于产生第二扩增子或巢式扩增子的一个或多个引物。

“不对称PCR”是指所使用的两种引物中的一种的浓度非常高的PCR，使得反应主要是线性扩增，其中靶核酸的两条链中的一条被优先复制。不对称PCR引物的过量浓度可以表示为浓度比。典型的比率在从10至100的范围内。

“多重PCR”是指在同一反应混合物中同时进行多个靶序列(或单个靶序列和一个或多个参考序列)的PCR，例如Bernard等人，Anal.Biochem.,273:221-228(1999)(双色实时PCR)。通常，对于被扩增的每个序列使用不同的引物组。通常，多重PCR中靶序列的数量在2至50、或2至40、或2至30的范围内。

“定量PCR”是指设计用于测量样品或标本中的一个或多个特定靶序列的丰度的PCR。定量PCR包括这种靶序列的绝对定量和相对定量。使用一个或多个参考序列或内标进行定量测量，所述参考序列或内标可以单独测定或与靶序列一起测定。参考序列对于样品或标本可以是内源性或外源性的，在后一种情况下，可以包括一个或多个竞争模板。典型的内源性参考序列包括以下基因的转录物片段：β-肌动蛋白、GAPDH、β₂-微球蛋白和核糖体RNA等。定量PCR的技术对于本领域的技术人员来说是公知的，如以下参考文献中所举例说明的，其全部通过引用并入本文：Freeman et al,Biotechniques,26:112-126(1999)；Becker-Andre et al,Nucleic Acids Research,17:9437-9447(1989)；Zimmerman et al,Biotechniques,21:268-279(1996)；Diviacco et al,Gene,122:3013-3020(1992)；andBecker-Andre et al,Nucleic Acids Research,17:9437-9446(1989)。

本文所用的术语“引物”是指天然或合成的寡核苷酸，其在与多核苷酸模板形成双链时能够作为核酸合成的起始点，并从其3’端沿着模板延伸，从而形成延伸的双链体。引物的延伸通常使用核酸聚合酶如DNA或RNA聚合酶进行。在延伸过程中添加的核苷酸的序列由模板多核苷酸的序列决定。通常，引物通过DNA聚合酶进行延伸。引物的长度通常在14至40个核苷酸的范围内，或在18至36个核苷酸的范围内。引物用于多种核酸扩增反应中，例如，使用单个引物的线性扩增反应，或使用两个或更多个引物的聚合酶链式反应。选择用于特定应用的引物的长度和序列的指导对于本领域技术人员来说是公知的，如以下参考文献所证明的，其通过引用全文并入本文：Dieffenbach,editor,PCR Primer:A LaboratoryManual,2^nd Edition(Cold Spring Harbor Press,New York,2003)。

术语“独特的序列标签”、“序列标签”、“标签”、“独特的分子标识符”、“UMI”或“条形码”在本文中可互换使用，是指连接到多核苷酸或模板分子并用于在一个反应或一系列反应中识别和/或跟踪多核苷酸或模板的寡核苷酸。序列标签可以连接到多核苷酸或模板的3’端或5’端，或者可以插入到这种多核苷酸或模版的内部以形成线性缀合物，有时在本文中称为“标记的多核苷酸”或“标记的模板”等。序列标签的大小和组成可能差异很大；以下参考文献通过引用整体并入本文，为选择适用于特定实施方式的序列标签集提供指导：Brenner,U.S.Pat.No.5,635,400；Brenner and Macevicz,U.S.Pat.No.7,537,897；Brenner et al,Proc.Natl.Acad.Sci.,97:1665-1670(2000)；Church et al,Europeanpatent publication 0 303 459；Shoemaker et al,Nature Genetics,14:450-456(1996)；Morris et al,European patent publication 0799897A1；Wallace,U.S.Pat.No.5,981,179等。序列标签的长度和组成可以广泛变化，并且特定长度和/或组成的选择取决于以下几个因素，包括但不限于：如何使用标签来产生读数，例如通过杂交反应或通过酶促反应，例如测序；它们是否被标记，例如用荧光染料标记等；明确鉴定一组多核苷酸所需的可区分寡核苷酸标签的数量等，以及特定组的标签必须有多大的不同，以确保可靠的鉴定，例如免于交叉杂交或测序错误的误认。在一个方面，每个序列标签的长度可以在约2至约36个核苷酸、约4至约30个核苷酸、约4至约20个核苷酸、约8至约20个核苷酸或约6至约10个核苷酸的范围内。在一个方面，使用序列标签的集合，其中一个集合的每个序列标签具有独特的核苷酸序列，该独特的核苷酸序列与同一集合的每个其他标签相差至少两个碱基。在另一个方面，使用序列标签的集合，其中一个集合的每个标签的序列与同一集合的每个其他标签的序列相差至少三个碱基。

本文使用的术语“富集”是指增加样品中的一种或多种靶核酸的比例。因此，“富集”样品或测序文库是其中一种或多种靶核酸的比例相对于样品中的非靶核酸的比例增加的样品或测序文库。

术语“受试者”和“患者”在本文中可互换使用，是指已知患有或潜在患有医学病症或紊乱(例如癌症)的人类或非人类动物。

术语“循环肿瘤DNA”或“ctDNA”和“循环肿瘤RNA”或“ctRNA”是指来源于肿瘤细胞或其他类型的癌症细胞的核酸片段(DNA或RNA)，这些片段可能由于生物学过程(如死亡细胞的细胞凋亡或坏死)而释放到受试者的血液中，或者可能由活的肿瘤细胞主动释放。

文库的制备方法

一方面，本发明涉及一种文库的制备方法，包括如下步骤：(a)获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品，其中dsDNA分子包含正向链序列和反向互补链序列；(b)提供多个环状接头，其中所述环状接头包含可用于核酸酶消化的识别位点；(c)将所述多个环状接头连接到多个所述dsDNA分子的两个末端，以生成多个第一环状接头-dsDNA-环状接头构建体；(d)扩增多个所述第一环状接头-dsDNA-环状接头构建体以产生多个环状接头-dsDNA构建体，其包含源自所述dsDNA分子的正向链序列和反向互补链序列以及连接在所述dsDNA的第一末端的所述环状接头；(e)将所述多个环状接头连接到多个所述环状接头-dsDNA构建体的第二末端，以生成多个第二环状接头-dsDNA-环状接头构建体；(f)消化所述多个第二环状接头-dsDNA-环状接头构建体并且进行变性，以产生多个包含所述正向链序列或所述反向互补链序列的单链DNA分子，从而产生测序所述文库。

在一种实施方式中，步骤(a)中所述的dsDNA分子是无细胞DNA(cfDNA)分子和/或基因组DNA。在一种实施方式中，所述测试样品来自全血、血液成分、血浆、血清、尿液、粪便、唾液、组织活检、胸膜液、心包液、脑脊液(CSF)或腹膜液。

在一些实施方式中，测试样品可以包括细针抽吸物或生物切片组织。在一些实施方式中，测试样品可以包括含有细胞或生物材料的培养基。在一些实施方式中，测试样品可以包括血块，例如，在去除血清后从全血中获得的血块。在一些实施方式中，测试样品可以包括粪便。在一个优选实施方式中，测试样品是抽取的全血。在一个方面，仅使用全血样品的一部分，例如血浆、红细胞、白细胞和血小板。在一些实施方式中，结合本发明的方法将测试样品分离成两个或多个组成部分。例如，在一些实施方式中，全血样品被分离成血浆、红细胞、白细胞和血小板成分。

在一些实施方式中，测试样品包括多个核酸，所述核酸不仅来自从其获取测试样品的受试者，而且来自一种或多种其他生物体，例如在采样时存在于受试者内的病毒DNA/RNA。

本发明的各方面涉及从受试者获得测试样品，例如生物样品，例如组织和/或体液样品，用于分析其中的多种核酸(例如，多种RNA分子)。根据本发明的实施方式的样品可以以任何临床可接受的方式收集。任何怀疑含有多种核酸的测试样品都可以与本发明的方法结合使用。在一些实施方式中，测试样品可以包括组织、体液或其组合。在一些实施方式中，从健康受试者收集生物样品。在一些实施方案中，从已知患有特定疾病或病症(例如，特定癌症或肿瘤)的受试者收集生物样品。在一些实施方案中，从被怀疑患有特定疾病或病症的受试者收集生物样品。

在一种实施方式中，任选地，在进行文库制备步骤之前，可以从测试样品中提取和/或纯化无细胞核酸(例如，cfDNA和/或cfRNA)。通常，可以使用本领域已知的任何方法从测试样品中提取和纯化无细胞核酸。例如，可以使用一种或多种已知的可商购获得的试剂盒，例如使用通用型DNA抽提试剂盒D3018 HiPure Tissue&Blood DNA Kit(广州美基生物)提取无细胞核酸。在一些实施方式中，样品可以是例如片段化的基因组DNA(gDNA)样品(例如剪切的gDNA样品)。

在一种实施方式中，所述获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品包括：通过PCR扩增dsDNA分子，以产生每条链的5’端含有引物序列的引物-dsDNA分子结构。在一种实施方式中，所述PCR为多重PCR。

在一种实施方式中，步骤(b)中所述的环状(发夹/茎环结构)接头可以包括例如双链茎区和包含引物结合位点和/或用于核酸酶消化的识别位点(例如核酸内切酶限制性位点)的环区。

在一种实施方式中，核酸酶是在所述识别位点特异性切割的核酸内切酶。在另一种实施方式中，所述识别位点是尿嘧啶残基，所述核酸内切酶是尿嘧啶DNA糖基化酶(UDG)。

在一种实施方式中，环状(发夹/茎环结构)接头可以包含标记核苷酸，其中，所述标记核苷酸包括：分子条形码序列、独特的分子标识符(UMI)序列、独特的分子标识符(UMI)、样品特异性索引序列、通用引发位点、以及用于簇生成和/或测序的测序寡核苷酸中的一种或多种；和/或上述标记核苷酸的部分序列。所述独特的分子标识符(UMI)序列使得在文库制备之后，测序文库将包括衍生自独特的dsDNA分子或dsDNA片段的UMI标记的扩增子。在一种实施方式中，独特的序列标签(例如，独特的分子标识符(UMI))可用于从测试样品中鉴定独特的核酸序列。例如，不同的独特的序列标签(UMI)可用于区分源自测试样品的各种独特的核酸序列片段。在另一种实施方式中，UMI序列可用于鉴定来自dsDNA分子的双链序列读取(即，源自单个dsDNA分子的单链正向(+)和单链反向(-)互补链序列)。在另一种实施方式中，独特的序列标签(UMI)可用于减少扩增偏倚，这是由于核酸组成的差异(例如，高GC含量)而导致的不同靶标的不对称扩增。独特的序列标签(UMI)也可用于区分扩增过程中出现的核酸突变。在一种实施方式中，独特的序列标签可包含长度为约2nt至约100nt、约2nt至约60nt、约2nt至约40nt或约2至20nt的短的寡核苷酸序列。在另一种实施方式中，UMI标签可包含长度大于约5、6、7、8、9、10、11、12、13、14、15、16、17或18个核苷酸(nt)的短的寡核苷酸序列。

独特的序列标签可以存在于多功能环状测序接头中。例如，环状测序接头可以包括独特的序列标签、样品特异性索引序列(或标签)和/或通用引发位点。在一种实施方式中，所使用的测序接头还可以包括用于后续簇生成和/或测序的一个或多个测序寡核苷酸(例如，用于边合成边测序(SBS)的已知的P5和P7序列(IIlumina,San Diego,Calif.))。在另一种实施方式中，环状接头包括样品特异性索引序列，使得在文库制备之后，文库可以与由单个样品制备的一个或多个其他文库组合，从而允许多重测序。所述样品特异性索引序列可包含长度为约2nt至约20nt、约2nt至约10nt、约2至约8nt或约2至约6nt的短的寡核苷酸序列。在另一种实施方式中，所述样品特异性索引序列可包括长度大于约2、3、4、5、6、7或8个核苷酸(nt)的短的寡核苷酸序列。

另一方面，本发明提供一种用于测序的接头，包含通过U碱基连接的P5引物和P7引物各自的至少一部分序列。

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAUGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’。

在一种实施方式中，所述将所述环状接头连接到多个所述dsDNA分子的两个末端包括：修饰多个所述dsDNA分子，其中，所述修饰不包括磷酸化，和/或所述修饰包括末端修复、加A尾中的至少一种。例如，dsDNA分子的末端可以使用例如T4 DNA聚合酶和/或Klenow聚合酶修复。然后使用例如Taq聚合酶将单个“A”脱氧核苷酸添加到dsDNA分子的3’端，产生与dsDNA接头上的3’碱基(例如T)突出物互补的单个碱基3’突出物。在一种实施方式中，加A尾的步骤可以省略，因为使用的聚合酶(如Taq酶)具有加A尾的功能。

在一种实施方式中，所述第一环状接头-dsDNA-环状接头构建体包含位于所述dsDNA分子的两个末端序列的5’端的两个切口。所述第二环状接头-dsDNA-环状接头构建体包含位于所述dsDNA分子的第二末端序列5’端的一个切口。所述单链DNA分子的位于源于所述dsDNA分子的第一末端的序列不包括切口。

连接反应可以使用任何合适的连接步骤(例如，使用连接酶)进行。第一连接(步骤(c))将多个环状接头连接到多个dsDNA分子的两个末端，以生成多个第一环状接头-dsDNA-环状接头构建体，第二连接步骤(步骤(f))将多个环状接头连接到多个环状接头-dsDNA构建体的第二末端，以生成多个第二环状接头-dsDNA-环状接头构建体。在一种实施方式中，使用T4 DNA连接酶进行连接反应。在另一种实施方式中，使用T7 DNA连接酶进行接头与dsDNA分子的连接。

在一种实施方式中，所述扩增多个所述第一环状接头-dsDNA-环状接头构建体包括：变性、退火和延伸过程。其中，所述扩增过程不额外添加引物。在一种实施方式中，在所述扩增多个所述第一环状接头-dsDNA-环状接头构建体的过程中，所述环状接头用作引物。

在一种实施方式中，所述消化所述多个第二环状接头-dsDNA-环状接头构建体并进行变性的步骤包括：核酸酶消化所述环状接头包含的识别位点；和变性；以及分离不包含切口的单链DNA分子。

在一种实施方式中，所述方法还包括对所产生的单链DNA分子进行扩增的步骤，以生成所述文库。在一种实施方式中，所述扩增使用截短型接头作为引物，在这种情况下还需要进行第二轮扩增。具体地，截短型接头通过TA互补配对的方式连接到待测DNA片段上后，第二轮扩增(文库扩增)的引物与接头部分区域互补配对，再经由扩增酶富集，完成包含完整接头的DNA文库。在一种实施方式中，所述扩增使用完整接头作为引物，在这种情况下不需要进行第二轮扩增。

在一些实施方式中，测序技术是Illumina测序。Illumina测序是基于使用折回PCR和锚定引物在固体表面上扩增DNA的。基因组DNA可以被片段化，或者在cfDNA的情况下，由于片段已经很短，不需要片段化。将接头连接到片段的5’端和3’端。附着在流动池通道表面的DNA片段被延伸并桥接扩增。片段变成双链，双链分子变性。固相扩增、然后变性的多个循环可以在流动池的每个通道中产生约1000个拷贝的相同模板的单链DNA分子的数百万个簇。引物、DNA聚合酶和四个荧光团标记的可逆终止核苷酸用于进行顺序测序。核苷酸掺入后，使用激光来激发荧光团，捕获图像并记录第一碱基的身份。从每个掺入的碱基中去除3’终止子和荧光团，并重复结合、检测和鉴定步骤。

在一种具体实施方式中，本发明提供的文库的制备方法如图1所示，包括以下步骤：

(1)PCR扩增

在从样品中提取目标基因组DNA之后，设计引物，进行多重PCR扩增，得到的PCR扩增产物为每条链的5’端连接有引物的DNA双链结构，所使用的引物的序列如下：

正向引物V1：CTCAGTGAAGGTCTCCTGCAAGGC(SEQ ID NO：4)；

正向引物V2：CGCTGGTGAAACCCACAGAGACCCT(SEQ ID NO：5)；

正向引物V3：GGGTCCCTGAGACTCTCCTGTGCA(SEQ ID NO：6)；

正向引物V4：GAGACCCTGTCCCTCACCTGCACTG(SEQ ID NO：7)；

正向引物V5：GGAGTCTCTGAGGATCTCCTGTAA(SEQ ID NO：8)；

正向引物V6：TCGCAGACCCTCTCACTCACCTGTG(SEQ ID NO：9)；以及

反向引物：CTGAGGAGACGGTGACCAGGGTT(SEQ ID NO：10)。

(2)连接测序接头

将上一步的多重PCR扩增产物通过连接酶连接测序接头，形成每条链的仅3’端与接头的一条链连接而5’端不与接头的另一条链连接的第一环状接头-dsDNA-环状接头构建体。由于引物的5’端缺少磷酸基团，导致两边接头共有两处未连接处(切口)，如图1的步骤(2)中的×所示。

接头的结构如图3所示，是通过可水解的U碱基将P5引物的序列与P7引物的序列连接而成的茎环结构(发夹结构)，包括环区和茎和。

接头的序列如下：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAUGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’(SEQ ID NO：1)。

(3)变性、退火和DNA聚合酶延伸

将上一步的产物进行PCR变性、退火和延伸过程。首先，DNA双链变性为单链，形成仅3’端连接有所述接头而5’端(P5的末端)并未与DNA连接的接头-DNA单链结构，然后退火，P5与P7复性，恢复成茎环结构，然后P5作为引物进行延伸，碱基沿P5末端延伸，并对未连接的原有DNA链进行取代，形成只有一端(第一末端)有接头的两份双链结构。

以其中一半作为示例，如图1中的步骤(3)所示，P5端可以往后继续延伸形成带有一端(第一末端)接头，但连接完整的文库。之所以将P5和P7用U碱基连接，是为了DNA双链变性再复性时，P5和P7能更好地恢复成发夹结构，而DNA被解开的双链不能复性。

(4)第2轮接头连接

将上一步的产物进行第二轮接头连接。还是以一半为例，基于图1中的步骤(3)的结果，将双链的右侧(即第二末端)连接同样的接头，如图1中的步骤(4)所示，此时的文库只有一个断点(切口)，如图中×所示。

(5)UDG酶水解，然后变性

将上一步的产物进行UDG酶水解，双链结构的两个端部的P5序列和P7序列断开，茎环结构的环区消失，形成双链的每端都包含互补的P5引物和P7引物的线性DNA双链结构。然后进行PCR，将双链进行变性，形成一条相接完整的带有双端接头的文库，如图1中的步骤(5)之后所示的短接头文库。

(6)文库扩增

以P5引物和P7引物为引物对，进行文库扩增，形成测序文库。

在文库扩增的过程中，可以使用截短型接头作为引物，也可以使用完整接头作为引物。在使用截短型接头作为引物的情况下，还需要进行第二轮扩增文库，即截短型接头通过TA互补配对的方式连接到待测DNA片段上后，第二轮扩增(文库扩增)的引物与接头部分区域互补配对，再经由扩增酶富集，完成包含完整接头的DNA文库。在使用完整接头作为引物情况下不需要进行第二轮扩增文库。

在本发明的实施例中，双链模板DNA在第一步引物扩增完成之后，连接通过U碱基将P5和P7连在一起形成的DNA片段。此时P5的末端并未与模板DNA连接，将此时未完全连接的DNA双链再经一次变性，退火和延伸，碱基会沿P5末端延伸，并对未连接的原有DNA链进行取代，形成两份只有一端有接头的双链结构。然后在此基础上第二次连接通过可水解的U碱基将P5和P7连在一起形成的接头。最终形成两份具有两个末端加接头的DNA双链，每份双链上具有一条完成的DNA文库。此方法免去了添加磷酸基团的步骤，提高了文库制备的成功率。

本发明提出的两次接头方案在不用加磷酸的前提下能够制备完整的文库，解决了常规文库制备过程中接头与DNA链之间由于5’端缺少磷酸基团导致文库不完全的问题，又由于添加磷酸基团的效率低，导致文库构建效率低的问题，提高了建库效率。

下面结合附图和实施例，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

对照方法

对照方法所用的接头(Adapter)的序列如下：

P5引物序列为SEQ ID NO：2：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACA-3’

P7引物序列为SEQ ID NO：3：

5’-GACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’

以B淋巴瘤细胞株RAJI为模板，使用引物池IGH进行扩增。

1、引物池

所有引物按照引物合成单加入水，配置成100μM；

引物序列如下：

##FR1 5'->3'

V1 CTCAGTGAAGGTCTCCTGCAAGGC(SEQ ID NO：4)

V2 CGCTGGTGAAACCCACAGAGACCCT(SEQ ID NO：5)

V3 GGGTCCCTGAGACTCTCCTGTGCA(SEQ ID NO：6)

V4 GAGACCCTGTCCCTCACCTGCACTG(SEQ ID NO：7)

V5 GGAGTCTCTGAGGATCTCCTGTAA(SEQ ID NO：8)

V6 TCGCAGACCCTCTCACTCACCTGTG(SEQ ID NO：9)

##J 5'->3'

CTGAGGAGACGGTGACCAGGGTT(SEQ ID NO：10)。

2、PCR扩增

PCR反应体系：

组分名称	加入体积
		2×Mix	25μl
模板	10μl
		引物	5μl
水	10μl

PCR扩增条件：

3、磁珠纯化：

1.2倍磁珠(AMPure XP Bead)纯化，30-50μl洗脱。Qubit测定PCR产物浓度。

4、PCR产物磷酸化

反应程序：20℃，30min；65℃，30min；4℃，保持。

5、连接接头

反应条件：20℃，20min。

6、磁珠纯化：

0.88倍Beads纯化，22μl洗脱。Qubit测定浓度。

7、文库扩增

PCR反应体系：

组分名称	加入体积
		2×VAHTS HiFi Amplification Mix(诺维赞)	25μl
UDIPrimer(翌圣生物)	5μl
		模板(连接产物)	20μl

PCR扩增条件：

8、磁珠纯化：

0.88倍磁珠纯化，40μl无核酸水洗脱回收文库。

实施例

本实施例中使用的接头(P5-U-P7)的结构如图3所示，为发夹结构。

该接头(P5-U-P7)的序列为SEQ ID NO：1：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAUGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’。(注：由于在制作序列表的过程中，提示“U”为无效的核苷酸符号，核苷酸序列必须只包含WIPOST.26附件I第1部分中列出的符号，其中，“U”和“T”碱基均对应于t，因此，本发明的SEQ ID NO：1的第34位碱基“U”在序列表中的相应位置显示为“t”)。

P5引物序列(SEQ ID NO：2)为：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACA-3’

P7引物序列为(SEQ ID NO：3)：

5’-GACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’

以B淋巴瘤细胞株RAJI为模板，引物池IGH进行扩增，采用接头连接法制备测序文库，具体步骤如下：

1)IGH V和J引物稀释至10μM，IGH V引物等比例混匀，IGH J引物加入2倍体积，即引物池IGH。引物序列如下：

##FR1 5'->3'

V1 CTCAGTGAAGGTCTCCTGCAAGGC(SEQ ID NO：4)

V2 CGCTGGTGAAACCCACAGAGACCCT(SEQ ID NO：5)

V3 GGGTCCCTGAGACTCTCCTGTGCA(SEQ ID NO：6)

V4 GAGACCCTGTCCCTCACCTGCACTG(SEQ ID NO：7)

V5 GGAGTCTCTGAGGATCTCCTGTAA(SEQ ID NO：8)

V6 TCGCAGACCCTCTCACTCACCTGTG(SEQ ID NO：9)

##J 5'->3'

CTGAGGAGACGGTGACCAGGGTT(SEQ ID NO：10)

2)B淋巴瘤细胞株RAJI目标基因组DNA提取(广州美基生物，通用型DNA抽提试剂盒D3018 HiPure Tissue&Blood DNA Kit)，

具体步骤如下：

1,000x g离心5分钟收集细胞(<2x10⁶)，小心吸弃培养液。加入100μl Buffer PBS至样品中，涡旋打散细胞。

加入100μl Buffer ATL和20μl Proteinase K于样品中，55℃振荡温浴15分钟。若需去除RNA，加入5μl RNase A至样品中混匀，室温静置10分钟。

加入200μl Buffer AL至样品中，高速涡旋10秒。65℃振荡温浴15分钟。

加入200μl无水乙醇，高速涡旋10秒。

把HiPure DNA Mini Column I装在2ml收集管中。转移<750μl混合液(包括沉淀)至柱子中。10,000x g离心1分钟。

倒弃滤液，把柱子装回收集管中。转移剩余混合液(包括沉淀)至柱子中。10,000xg离心1分钟。弃去滤液和收集管。

把柱子装在新的收集管中。加入500μl Buffer GW1(已用乙醇稀释)至柱子中。10,000x g离心1分钟。

倒弃滤液，把柱子装回收集管中。加入650μl Buffer GW2(已用乙醇稀释)至柱子中。10,000x g离心1分钟。

倒弃滤液，把柱子装回收集管中。10,000×g离心3分钟。

将柱子装在新的1.5ml离心管中。加入20～100μl预热至70℃ Buffer AE至柱子的膜中央。放置3分钟，10,000×g离心1分钟。

3)多重PCR扩增反应

反应体系：

成分	体积
		2×Mix	25μl
引物池	5μl
		模板	10μl
无核酸水	10μl

反应程序：

4)PCR产物纯化

采用AMPure XP Bead纯化PCR产物，Beads用量1.2倍PCR体积，40μl无核酸水回收PCR产物。

5)接头连接

反应体系：

成分	体积
		10x连接酶缓冲液	5μl
T4 DNA连接酶	3μl
		DNA聚合酶	1μl
PCR产物	36μl
		接头(P5-U-P7)	5μl

反应程序：

6)产物纯化

采用AMPure XP Bead纯化产物，Beads用量1.2倍PCR体积，40μl无核酸水回收连接有接头的PCR产物。

7)第2次接头连接

反应体系：

成分	体积
		10x连接酶缓冲液	5μl
T4 DNA连接酶	3μl
		6)中连接有接头的PCR产物	36μl
接头(P5-U-P7)	5μl

反应程序：

步骤	温度	时间
			1	25℃	15min
2	70℃	5min
			3	10℃	∞

8)UDG酶水解

取出PCR反应管，分别加入0.2U UDG酶，37℃反应5min。

9)文库扩增

反应体系：

成分	体积
		2×Mix	12.5μl
P5	1.25μl
		P7	1.25μl
水解产物	10μl

反应程序

9)文库纯化

采用0.88倍AMPure XP Bead纯化文库，40μl无核酸水回收文库。

建库效率检测

qPCR标准曲线如图2所示。

根据标准曲线进行文库定量及建库效率比如表1所示：

表1

文库测序验证结果如下表2所示：

表2

如表1和表2的数据所显示的，本发明的实施例的方法与对照的方法相比提高了文库制备的成功率。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种文库的制备方法，包括：

(e)将所述多个环状接头连接到多个所述环状接头-dsDNA构建体的第二末端，以生成多个第二环状接头-dsDNA-环状接头构建体；

(f)消化所述多个第二环状接头-dsDNA-环状接头构建体并且进行变性，以产生多个包含所述正向链序列或所述反向互补链序列的单链DNA分子，从而产生所述文库。

2.根据权利要求1所述的方法，其特征在于，所述获得包含多个具有两个末端的双链DNA(dsDNA)分子的样品包括：PCR扩增dsDNA分子。

3.根据权利要求1所述的方法，其特征在于，所述将所述环状接头连接到多个所述dsDNA分子的两个末端包括：修饰多个所述dsDNA分子，其中，所述修饰不包括磷酸化，和/或所述修饰包括末端修复、加A尾中的至少一种。

4.根据权利要求3所述的方法，其特征在于，所述第一环状接头-dsDNA-环状接头构建体包含位于所述dsDNA分子的两个末端序列5’端的两个切口；

5.根据权利要求4所述的方法，其特征在于，所述扩增多个所述第一环状接头-dsDNA-环状接头构建体包括：变性、退火和延伸过程；

其中，所述扩增过程不额外添加引物。

6.根据权利要求4所述的方法，其特征在于，所述消化所述多个第二环状接头-dsDNA-环状接头构建体并进行变性的步骤包括：

核酸酶消化所述环状接头包含的识别位点；和

变性；以及

分离不包含切口的单链DNA分子。

7.根据权利要求5所述的方法，其特征在于，在所述扩增多个所述第一环状接头-dsDNA-环状接头构建体的过程中，所述环状接头用作引物。

8.根据权利要求1所述的方法，还包括对所产生的单链DNA分子进行扩增的步骤，以生成所述文库。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述识别位点是尿嘧啶残基，所述核酸酶是尿嘧啶DNA糖基化酶(UDG)。

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述接头包含标记核苷酸，其中，所述标记核苷酸包括：分子条形码序列、独特的分子标识符(UMI)、样品特异性索引序列、通用引发位点、以及用于簇生成和/或测序的测序寡核苷酸中的一种或多种；和/或

上述标记核苷酸的部分序列。

11.根据权利要求1至8中任一项所述的方法，其特征在于，所述dsDNA分子是无细胞DNA(cfDNA)分子和/或基因组DNA。

12.根据权利要求1至8中任一项所述的方法，其特征在于，所述测试样品来自全血、血液成分、血浆、血清、尿液、粪便、唾液、组织活检、胸膜液、心包液、脑脊液(CSF)或腹膜液。

13.一种接头，包含通过U碱基连接的P5引物和P7引物各自的至少一部分序列。

14.根据权利要求13所述的接头，其特征在于，所述接头的序列为SEQ ID NO：1所示的序列：

5’-TCTAGCCTTCTCGCAGCACATCCCTTTCTCACAUGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’。

15.一种文库制备试剂盒，包括权利要求1至12中任一项所述的方法中使用的试剂。

16.根据权利要求1-12中任一项所述的方法在测序、检测癌症的存在或不存在、确定癌症状态、监测癌症进展和/或确定癌症分类中的应用。