CN106435744A

CN106435744A - 使用y‑接头和消失限制位点的文库构建

Info

Publication number: CN106435744A
Application number: CN201610663090.1A
Authority: CN
Inventors: 贾斯汀·科斯塔
Original assignee: Sheng Jie Technology Holdings Ltd
Current assignee: Sheng Jie Technology Holdings Ltd; Centrillion Technology Holdings Corp
Priority date: 2015-08-13
Filing date: 2016-08-12
Publication date: 2017-02-22
Anticipated expiration: 2036-08-12
Also published as: US10689690B2; WO2017027779A1; CN106435744B; EP3130673B1; US20170044600A1; EP3130673A1

Abstract

本公开描述构建基因组DNA片段文库的系统和方法，所述构建过程是通过以下步骤来进行的：将基因组DNA延伸于经接头修饰的芯片上方；使用包含第一限制酶、连接酶和第二限制酶的酶混合物来将基因组DNA切割成片段并且将所述片段连接至芯片上的接头；并且通过PCR扩增来扩增由此获得的DNA。

Description

使用Y-接头和消失限制位点的文库构建

相互参照

本申请要求2015年8月13日提交的美国临时专利申请号62/204,943的权益，所述专利申请全部以引用方式并入本文。

本发明的背景

DNA测序的策略可分组成多个类别。(Shendure,J.等人,“Advanced sequencingtechnologies:methods and goals,”Nat.Rev.Genet.,5(5):335-44,2004)。其包括(i)微电泳方法、(ii)通过杂交来测序、(iii)单一分子的实时观察，和(iv)环状阵列测序。可获得的市售产品包括454测序(用于454Genome Sequencers,Roche Applied Science；Basel中)、Solexa技术(用于Illumina(San Diego)Genome Analyzer中)、SOLiD平台(AppliedBiosystems；Foster City,CA,USA)、Polonator(Dover/Harvard)和HeliScope SingleMolecule Sequencer技术(Helicos；Cambridge,MA,USA)。

这些测序技术的一个共性是从生物样品产生文库。文库制备通过DNA样品的随机片段化，随后体外连接共同接头序列来完成。此外，这些方法的共同点是从文库中的任何给定单一片段化DNA分子产生的PCR扩增子最终在空间上聚集至平面基底上的单一位置(例如，原位聚合酶克隆、桥PCR)，或微米尺度珠粒的表面(例如，乳液PCR)。

新的测序方法，通常被称为下一代测序(NGS)技术，可经由测序技术来提供关于生物样品的快速、廉价和精确基因组信息。举例来说，高通量NGS(HT-NGS)方法可允许科学家以更大速度、较低成本并且以可接受的错误率来获得所需测序信息。NGS的一个预先步骤是以适合于NGS技术的方式来制备生物样品的核酸文库，例如，具有条形码的短序列文库。因此，出于测序目的，需要发现构建条形码文库的新方法。

发明概述

本公开提供构建条形码核酸文库的方法和系统。举例来说，本公开总体上提供制备条形码测序文库的方法和系统。这类文库可适用于使用NGS的方法。如本文描述所产生的测序文库依赖于芯片上的Y-接头、消失和出现限制位点、酶的混合物和PCR循环。

本公开的方面提供从核酸构建文库的方法，方法包含：将核酸的至少一个拷贝安置于连接有多个接头的表面上；将溶液施加至表面，溶液包含：能够将核酸消化成多个核酸片段的第一限制酶；能够将一个核酸片段的末端与一个接头连接的连接酶；和能够消化多个接头之中的自身连接接头的第二限制酶；并且形成第一文库，第一文库包含多个连接核酸片段，所述核酸片段具有一个接头连接至其每个末端。

在本文提供方面的一些实施方案中，将核酸的至少一个拷贝安置于表面上的步骤包含将核酸的至少一个拷贝在表面上延伸。在本文提供方面的一些实施方案中，表面包含丙烯酰胺凝胶。在本文提供方面的一些实施方案中，表面是固体支撑物。在本文提供方面的一些实施方案中，每个Y形接头是部分双链Y形寡核苷酸接头，所述接头包含第一可连接末端，和包含两个非互补链的第二未配对末端，其中非互补链的长度是至少约8个核苷酸。在本文提供方面的一些实施方案中，多个接头包含多个第一接头和多个第二接头，其中第一接头和第二接头不同。在本文提供方面的一些实施方案中，第一限制酶的浓度高于溶液中的连接酶的浓度。在本文提供方面的一些实施方案中，第一限制酶的浓度是连接酶浓度的至少两倍。在本文提供方面的一些实施方案中，连接核酸片段不超过600个碱基对长度。在本文提供方面的一些实施方案中，连接核酸片段不超过400个碱基对长度。

在本文提供方面的一些实施方案中，自身连接接头在自身连接之后包含第二限制酶的限制位点。在本文提供方面的一些实施方案中，第一限制酶是II型限制性核酸内切酶。在本文提供方面的一些实施方案中，第一限制酶识别4个碱基对限制位点、5个碱基对限制位点或6个碱基对限制位点。在本文提供方面的一些实施方案中，第一限制酶识别4个碱基对限制位点。在本文提供方面的一些实施方案中，第一限制酶是MspA1I限制性核酸内切酶、PsiI限制性核酸内切酶或Alu1限制性核酸内切酶。在本文提供方面的一些实施方案中，第一限制酶是Alu1限制性核酸内切酶。在本文提供方面的一些实施方案中，连接酶是T4连接酶。在本文提供方面的一些实施方案中，第二限制酶识别至少8个碱基对长度的限制位点。在本文提供方面的一些实施方案中，与第二限制酶相比，第一限制酶识别限制位点的较短序列。在本文提供方面的一些实施方案中，第二限制酶是Pme1限制性核酸内切酶。在本文提供方面的一些实施方案中，方法进一步包含扩增第一文库，从而产生扩增连接核酸片段的第二文库。在本文提供方面的一些实施方案中，接头包括充当分子条形码的序列节段。在本文提供方面的一些实施方案中，每个接头具有识别接头在表面上的位置的独特分子条形码，并且其中分子条形码作为连接核酸片段的一部分包含在内。在本文提供方面的一些实施方案中，接头包含由第二限制酶的限制位点的一半组成的可连接末端。在本文提供方面的一些实施方案中，连接核酸片段不包括第一限制酶或第二限制酶的限制位点。

本公开的另一个方面提供从核酸来构建文库的系统，系统包含：连接有多个接头的表面；能够将核酸消化成多个核酸片段的第一限制酶；能够将一个核酸片段的末端与一个接头连接的连接酶；和能够消化多个接头之中的自身连接接头的第二限制酶。

在本文提供方面的一些实施方案中，多个接头是Y形接头。在本文提供方面的一些实施方案中，第一限制酶的浓度大于连接酶的浓度。在本文提供方面的一些实施方案中，第一限制酶是II型限制性核酸内切酶。在本文提供方面的一些实施方案中，第一限制酶识别4个碱基对限制位点、5个碱基对限制位点或6个碱基对限制位点。在本文提供方面的一些实施方案中，第一限制酶识别4个碱基对限制位点。在本文提供方面的一些实施方案中，与第二限制酶相比，第一限制酶识别限制位点的较短序列。在本文提供方面的一些实施方案中，第一限制酶是MspA1I限制性核酸内切酶、PsiI限制性核酸内切酶或Alu1限制性核酸内切酶。在本文提供方面的一些实施方案中，连接酶是T4连接酶。在本文提供方面的一些实施方案中，第二限制酶是Pme1限制性核酸内切酶。在本文提供方面的一些实施方案中，接头包括充当分子条形码的序列节段。在本文提供方面的一些实施方案中，每个接头具有识别接头在表面上的位置的独特分子条形码。在本文提供方面的一些实施方案中，接头包含由第二限制酶的限制位点的一半组成的可连接末端。

本公开的其他方面和优势从以下详细说明变得容易为本领域技术人员显而易知，其中仅示出并描述本公开的例示性实施方案。如认识到，本公开能够执行其他和不同实施方案，并且其多个细节能够在各种明显方面加以修改，而都不背离本公开。因此，附图和说明书在本质上视为例示性，并且不是限制性的。

以引用方式并入

本说明书中提到的所有公布、专利和专利申请以引用的方式并入本文，引用程度如同已明确且个别地指示将各个别公布、专利和专利申请以引用的方式并入本文一般。

附图简述

本发明的特征和优势的更好理解参考阐明利用本发明原则的例示性实施方案的以下详细说明和附图来获得，在附图中：

图1示出根据本公开的使用消失和出现限制位点连接的基因组文库构建的初始设置的示意图。

图2描绘在根据本公开的使用消失和出现限制位点连接的基因组文库构建期间的限制酶的作用的示意图。

图3示出在根据本公开的使用消失和出现限制位点连接的基因组文库构建期间的连接酶的作用的示意图。

图4展现在根据本公开的使用消失和出现限制位点连接的基因组文库构建期间的可能连接产物的示意图。

图5显示在根据本公开的使用消失和出现限制位点连接的基因组文库构建期间的另一个可能连接产物的示意图。

图6示出在根据本公开的使用消失和出现限制位点连接的基因组文库构建期间的仍然另一个可能连接产物的示意图。

图7描绘根据本公开的具有用于Y-接头的单链骨架的芯片的示例性初始设置的示意图。

图8示出根据本公开的Y-接头引物杂交至图7中的骨架上的示意图。

图9展现根据本公开的经由骨架来延伸图8中的Y-接头引物的示意图。

图10显示根据本公开的基因组DNA在Y-接头芯片上延伸的示意图。

图11示出根据本公开的消化并连接于Y-接头芯片上的基因组DNA的示意图。

图12描绘根据本公开的使用具有图11中的消化并连接DNA的Illumina接头1和2的PCR产物的示意图。

图13示出根据本公开的Y-接头芯片上的具有特定序列的Y-接头骨架(SEQ ID NO:3)。

图14展现根据本公开的具有特定序列的Y-接头引物(SEQ ID NO:4)杂交至图13中的骨架(SEQ ID NO:3)。

图15显示根据本公开的经由骨架(SEQ ID NO:3)延伸的图14中的Y-接头引物(SEQID NO:5)。

图16示出根据本公开的图15中的完整Y-接头的剖析。骨架公开为SEQ ID NO:3并且引物公开为SEQ ID NO:5。

图17描绘根据本公开的基因组DNA消化和与Y-接头连接之后的两个示例性PCR产物。

图18示出根据本公开的芯片上的图案化阵列的特征。

图19展现根据本公开的在Y-接头芯片上延伸的基因组DNA。

图20显示从根据本公开的方法得到的PCR产物的凝胶图片。

图21示出使用根据本公开的方法构建的文库中的基因组DNA的片段大小的分布。

图22描绘图21中的文库的片段大小的计算、理论分布。

发明详述

虽然本文已经示出并描述本发明的各种实施方案，但是本领域技术人员显而易知这些实施方案仅作为举例来提供。许多改变、变化和取代可由本领域技术人员想到而不背离本发明。应了解可使用本文描述的本发明的实施方案的各种替代方案。

核苷酸序列信息是科学家和研究人员通过临床手段或通过物质手段来提高人类生活的基础，例如提高作物产量、研制更好的燃油、制造更好的疫苗、研制更有效的药品、预防疾病或防止危险病原体的爆发。(参见Ansorge,W.,“Next-generation DNA sequencingtechniques,”New Biotech.,25(4):195-203,2009)。许多并行DNA测序平台已经变得可用，并大大降低了DNA测序的成本。通过使基因组、转录组和相互作用组的综合分析达到一个新的水平，NGS可以加快生物和生物医学研究。(参见Shendure,J.和Ji,H.,“Next-generationDNA sequencing,”Nature Biotech.,26:1135-45,2008)。NGS的一个挑战是开发产生测序文库，例如，条形码文库的稳健方案。

用于通常使用的NGS测序平台诸如Illumina Genome Analyzer、Roche(454)Genome Sequencer、Life Technologies SOLiD平台和‘实时’测序仪例如PacificBiosciences的输入材料需要从生物样品得到的DNA片段的文库。DNA片段由平台特异性接头来侧接。构建这类文库的标准方法完全在体外并且通常包括将样品DNA片段化(机械或酶促)、末端修磨、连接接头序列、选择片段大小和通过PCR来扩增。

在很多实验努力后，申请人已经发现用于制备测序文库的新方法和系统。如本文描述所产生的测序文库使用芯片上的Y-接头、消失和出现限制位点、酶的混合物和多个PCR循环。在一些实施方案中，用分子条形码来标记的测序文库适合于在NGS反应中使用。

I.定义

所有术语旨在以它们由本领域技术人员所理解的方式来理解。除非另有定义，否则本文中使用的所有技术和科学术语具有与发明所属领域的普通技术人员通常理解的含义相同的含义。下列定义补充本领域中的定义，并且针对本公开内容，并且不应归功于任何相关或不相关的案例，例如，任何共同拥有的专利或申请。虽然与本文中所述的那些方法和材料相似或相等的任何方法和材料可用于实践或测试本发明，但是本文描述优选材料和方法。因此，本文使用的术语仅用于描述具体实施方案目的，并且不意欲具有限制性。

除非上下文另外明确规定，否则如本说明书和所附权利要求书中所用的，单数形式“一个/种(a)”、“一个/种(an)”以及“所述(the)”包括复数个指代物。因此，例如，提到“分子”包括多个这类分子等。

如本文使用的术语“片段”总体上是指特定区域的原始DNA序列或RNA序列的部分。

如本文使用，术语“核酸序列”或“核苷酸序列”是指具有给定核苷酸序列的核酸分子，可能需要知道所述核苷酸序列的存在或量。核苷酸序列可包含核糖核酸(RNA)或DNA，或从RNA或DNA得到的序列。核苷酸序列的实例是对应于天然或合成RNA或DNA包括基因组DNA和信使RNA的序列。序列的长度可为可扩增至核酸扩增产物或扩增子的任何长度，例如多达约20、50、100、200、300、400、500、600、700、800、1,000、1,200、1,500、2,000、5,000、10,000或超过10,000个核苷酸长度。

如本文使用，术语“模板”是指个别多核苷酸分子，可从所述多核苷酸分子通过核酸聚合酶来合成另一个核酸，包括互补核酸链。另外，模板可为能够充当由核酸聚合酶催化的模板依赖性核酸聚合的模板的多核苷酸的一个或两个链。使用此术语不应理解为将本公开的范围限制于实际上在后续酶催化聚合反应中用作模板的多核苷酸。此外，模板可含有出于本领域普通技术人员已知的各种原因与所需扩增产物不互补的序列。

如本文使用，术语“PCR”或“聚合酶链反应”是指使用例如热循环来使核酸变性、延伸并粘接的核酸酶促复制的熟知技术。

当两个多核苷酸例如在相关测定条件下缔合形成稳定双链体时，其“杂交”。核酸归因于各种良好表征的物理-化学力，诸如氢键合、溶剂排除、碱基堆积等而杂交。核酸杂交的广泛指导发现于Tijssen(1993)Laboratory Techniques in Biochemistry andMolecular Biology-Hybridization with Nucleic Acid Probes,第I部分第2章,“Overview of principles of hybridization and the strategy of nucleic acidprobe assays”(Elsevier,New York)中。

如本文使用的术语“大约”或“几乎”总体上是指定量的+/-15％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％以内。

如本文使用的术语“互补”是指例如在相关测定条件下与其“补体”形成稳定双链体的多核苷酸。典型地，彼此互补的两个多核苷酸序列具有少于约20％碱基、少于约10％碱基、优选地少于约5％碱基的错配并且更优选地没有错配。

如本文使用的“多核苷酸序列”或“核苷酸序列”或“核酸序列”是指核苷酸的聚合物(寡核苷酸、DNA、核酸等)或表示核苷酸聚合物的字符串，取决于上下文。从任何规定多核苷酸序列，可确定给定核酸或互补多核苷酸序列(例如，互补核酸)。

如本文在与限制酶相关时使用的术语“消化”是指DNA的受控分解，其使用具有已知识别和/或裂解位点的限制性内切酶来实现。限制性内切酶是执行以下功能的酶：裂解DNA的糖-磷酸盐骨架，通常仅几个碱基链段的双链DNA的两个链。已经分离到几千种不同限制性内切酶，其共同地展现几百种不同序列特异性。

如本文在与限制酶相关时使用，“限制位点”或“限制识别位点”或“识别位点”是DNA分子上的含有特定(例如，4至8个碱基对长度)核苷酸序列的位置，所述核苷酸序列由限制酶识别来消化或切割。

如本文使用的“连接”是指在两个或更多个核酸，例如寡核苷酸和/或多核苷酸的末端之间形成共价键或键合。键或键合的性质可广泛不同并且连接可酶促或化学执行。如本文使用，连接通常酶促执行以形成一个寡核苷酸的末端核苷酸的5′磷酸盐与另一个寡核苷酸的3′羟基之间的磷酸二酯键。各种模板驱动连接反应描述于以下参考文献中，所述参考文献以引用方式并入：Xu和Kool,Nucleic Acids Research,27:875-881,1999；Higgins等人,Methods in Enzymology,68:50-71,1979；Engler等人,The Enzymes,15:3-29,1982。

如本文使用的术语“DNA聚合酶”是指将DNA分子从其核苷酸结构单元来加以合成的细胞或病毒酶。

如本文使用的术语“阵列”，在描述装置、系统、传感器、样品腔室等时，是指微观结构的一维或二维集合。阵列可为任何形状。举例来说，阵列可为以线来布置的一系列微观结构，诸如正方形阵列。阵列可以正方形或矩形网格来布置。可存在通过间隔来与阵列的其他区段分开的阵列区段。阵列可具有其他形状。举例来说，阵列可为以一系列同心圆形、一系列同心正方形、一系列同心三角形、一系列曲线等来布置的一系列微观结构。阵列区段之间或任何阵列中的微观结构之间的间隔可为有规则的或可在特定区段之间或在特定对的微观结构之间不同。本发明的微观结构阵列可包含具有零维、一维或二维形状的微观结构。具有二维形状的微观结构可具有形状诸如正方形、矩形、圆形、平行四边形、五边形、六边形、不规则形状等。

II.方法和系统

本公开提供方法、装置和系统以使得能够构建条形码核酸文库。本公开的方法、装置和系统可包含部件，其包括但不限于：

1.芯片，其包含用于连接Y-接头的固体或半固体基底。基底可包括一或多个由相同或不同材料制成的层，诸如金属、玻璃、半导体、合成或天然材料和有机或无机材料。可用于形成基底的材料的非限制实例可包括玻璃、石英、硅、硅基材料(例如氮化硅或二氧化硅)、金属、塑料、聚合物材料(例如热固性、弹性体、热塑性、聚苯乙烯、尼龙、聚多巴胺(PDA)、聚氯乙烯(PVC)、聚(二甲基硅氧烷)(PDMS)、聚偏二氟乙烯等)、纸、水凝胶或其组合。基底可采用各种形状，1维、2维或3维，诸如薄片、球体、立方体、长方体、锥体、圆柱体、棱柱、角锥体、管、板、圆盘、棒或任何规则或不规则形状。另外，芯片可包括数百万个微米尺度特征，其中的每一个可进一步连接至Y-接头。

基底可进一步包含表面。基底的表面可为平坦表面、弯曲表面或具有凸起和/或凹陷区域的表面，所述区域可有利于实施本公开的方法。表面上的凸起/凹陷区域可为连续、半连续或不连续。在一些情况下，基底的表面可具有交替凸起和凹陷区域(例如，孔，所述孔可保持溶剂，即适合于执行本公开方法的试剂)。在一些情况下，基底的表面划分成许多独立区段并且每个个别区段包含多个不同位置，其中的每一个可保持聚合物分子，诸如多聚核酸。

基底的表面可进行修饰以促进或有助于产生或合成这类聚合物。举例来说，如果使用光刻技术，基底表面可用对光不稳的保护基团来修饰。一旦表面经由光刻掩模来照明，则反应性羟基可在照明区域中产生并且聚合物分子的单体或亚单位可连接至其上。通过连续地添加单体或亚单位至预先存在的链，聚合物分子得以合成。在一个实例中，将在5′羟基处用对光不稳的基团来保护的3′活化脱氧核苷提供至表面以使得偶合在已经曝露于光的位点处发生。脱氧核苷的5’-末端的保护防止后续不必要的(光)化学反应。选择性光去保护和偶合循环可重复直到获得所需探针组为止。此过程的变化可使用通过光刻技术来选择性图案化的聚合物半导体光阻剂，而非使用对光不稳的5′保护基团。在一些情况下，在添加每个单体或亚单位时，使用光活化保护性基团。这类光活化保护性基团本身对于光敏感并且可在曝露于光时活化。

2.Y-接头，其为具有两个DNA链的接头，所述链的一部分不彼此互补，从而形成单链DNA臂的叉。Y-接头的非互补臂可含有不同元件诸如标识符、测序接头、引物结合位点等。在Y-形状的顶端，Y的一个臂不同于Y的另一个臂。Y-形状的底端是双链(即含有互补链)。如本文使用，Y-接头和Y形接头为相同的。

接头附接至DNA片段的实现方法如下：将Y-接头连接至DNA片段的一个或两个5′-或3′-末端，然后任选地执行初始引物延伸反应，其中形成与固定寡核苷酸互补的延伸产物。此步骤任选地包含将接头-片段-构建体倍增的扩增步骤。有分叉的或Y-接头可通过DNA连接酶来连接至DNA片段的两个末端。仅Y-接头的双链底端能够连接至片段DNA。

在本发明中使用时，Y-接头DNA连接至双链DNA片段的两个末端，其中接头DNA的一个链连接至DNA片段的一个5′-末端并且其另一个链连接至DNA片段的相应3′末端，并且这在DNA片段的两侧发生。Y-接头的序列可通过考虑各种因素来确定，所述因素包括但不限于用于DNA片段文库的DNA测序技术或系统的类型；和在构建DNA片段文库之后或期间的用于PCR过程的引物。

3.酶混合物，其包含将DNA分子消化成片段的第一限制酶；将DNA片段连接至Y-接头的双链末端的连接酶；和切割自身连接Y-接头的第二限制酶。第一限制酶与第二限制酶的不同之处在于与后者相比，前者识别限制位点的较短序列。此外，在基因组DNA和Y-接头存在下，在酶混合物中一起使用时，与第二限制酶相比，第一限制酶可更经常切割基因组DNA；并且与第一限制酶相比，第二限制酶可更经常切割自身连接Y-接头。这可例如通过设计Y-接头以使得在自身连接时，连接接合处形成第二限制酶的限制位点来实现。

一旦限制性核酸内切酶遇到其在DNA分子上的特定识别序列，则它结合至DNA分子并且在双螺旋的两个糖-磷酸盐骨架的一个或两个中进行切割。此切割/这些切割的位置通过限制性核酸内切酶的特性来确定。一旦DNA分子在至少一个位置处裂解，则它断裂成片段。限制性内切酶对称地切割DNA骨架并且留下钝端或在不彼此直接相对的位置中裂解DNA骨架，从而产生单链末端(粘性末端)。在任何情况下并且除了潜在粘性末端以外，由限制性核酸内切酶建立的DNA片段是双链。

在一个实施方案中，必须注意确保第一限制酶的相同限制位点应在连接DNA片段之后再次出现。在另一个实施方案中，类似地应注意关于接头的自身连接和其消化，因为接头在自身连接时提供用于第二限制酶的限制位点；自身连接接头在由第二限制酶消化之后再次改变回到原始接头。

在一个实施方案中，与第二限制酶相比，第一限制酶识别较短限制位点。在另一个实施方案中，第一限制酶识别4个碱基对(bp)的限制位点。在一个实施方案中，第一限制酶识别5bp或6bp的限制位点。限制位点的长度的选择取决于插入DNA片段的所需大小，因为II类限制酶切割DNA基底的频率主要随着酶敏感的限制位点的长度而变化。用于限制酶的更长限制位点导致在DNA链中的任何点处具有供酶消化的位点的较低可能性。理论上，识别4bp限制位点的酶将在消化之后产生DNA片段的256bp平均大小。识别5bp或6bp限制位点的酶可产生平均大于256bp，即分别平均1,016bp和4,064bp的DNA片段。在一个实施方案中，第一限制酶在消化之后在DNA基底上留下钝端。在另一个实施方案中，第二限制酶可识别8bp或更长限制位点。理论上，识别8bp限制位点的酶将在消化之后产生DNA片段的65,536平均大小。在另一个实施方案中，第二限制酶在消化之后在DNA基底上留下钝端。

在通过第一或第二限制酶消化之后的粘性末端需要在消化之后DNA产物的特殊处理。举例来说，使用特殊连接酶来形成DNA序列的两个粘性末端之间的共价键，不论它是来自DNA片段或接头。

在一个实施方案中，接头的设计使得在将接头与DNA片段连接之后，连接产物，即，接头-DNA片段，不提供用于第一限制酶的限制位点。在另一个实施方案中，连接产物，即，接头-DNA片段，不提供用于第二限制酶的限制位点。在仍然另一个实施方案中，自身连接接头提供用于第二限制酶的限制位点。

在一个实施方案中，第一限制酶是MspA1I限制酶。在另一个实施方案中，第一限制酶是PsiI限制酶。在酶混合物的一个实施方案中，第一限制酶是Alu1，其为4bp切割限制酶并且可将基因组DNA切割成例如约256bp长度的片段。它识别5’-AG^CT-3’位点并且在37℃下在补充有10mM ATP的Cutsmart缓冲液中最佳切割。在一个实施方案中，连接酶是T4DNA连接酶，可催化粘着末端或钝端化配置中的相邻核苷酸的5′-磷酸盐与3′-羟基之间的DNA两个链的共价键形成。在一个实施方案中，第一限制酶的浓度高于连接酶的浓度。在另一个实施方案中，第一限制酶的浓度是连接酶的浓度约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、3.0、5.0或10.0倍。在仍然另一个实施方案中，第一限制酶的浓度是连接酶的浓度至少1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、20或30倍。在一个实施方案中，连接酶的浓度高于第二限制酶的浓度。在另一个实施方案中，连接酶的浓度是第二限制酶的浓度约1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9或2.0倍。在仍然另一个实施方案中，连接酶的浓度是第二限制酶的浓度至少2、3、4、5、6、7、8、9、10、20或30倍。在一个实施方案中，第一限制酶:连接酶:第二限制酶的酶比率是3:2:1。

在一个实施方案中，第二限制酶识别8bp限制位点。在另一个实施方案中，第二限制酶识别至少8bp长度的限制位点。在一个实施方案中，第二限制酶是Pme1，其识别5’-GTTT^AAAC-3’位点。Pme1对于甲基化敏感。另外，在含有5’-GTTTAAAC-3’序列的替代可用识别位点存在下，Pme1以小得多的频率来切割基因组DNA。因此，如果Y-接头的双链末端分别在每个链上含有3’-TTTG和5’-AAAC，那么不同Y-接头之间的自身连接产物可形成由Pme1识别的限制位点，并且自身连接的Y-接头可由Pme1切割。因为基因组DNA含有用于Pme1的8-bp限制位点的频率较低，所以Pme1极少切割基因组DNA。即使基因组DNA由Pme1切割，酶混合物的连接酶可修复切割或将所得DNA片段与Y-接头连接。

虽然上述实例描述包括Alu1限制酶、T4DNA连接酶和Pme1限制酶的酶混合物的一个实施方案；但是酶混合物的其他组合是可能的。

在一个实施方案中，包含DNA片段的基因组DNA文库使用本文公开方法的Y-接头消失和出现限制位点来形成。所述方法包含至少三个步骤：

1)将基因组DNA延伸于Y-接头芯片上；

2)将延伸基因组DNA在Y-接头芯片上与酶混合物一起培育；并且

3)进行多个PCR循环。

现在参看附图，并且具体参考图1，描绘使用消失和出现限制位点连接的基因组文库构建的示例性设置，其中可利用本公开的各种实施方案。在芯片100的表面上存在多个接头102、104和106，其能够与DNA片段连接。在接头102、104和106顶部存在延伸形式的DNA108，其可为接头修饰芯片100表面上的延伸基因组DNA。

基因组DNA可通过各种手段来延伸，包括但不限于使用交流电(AC)电场(Kaji,N.,“Molecular stretching of long DNAin agarose gel using alternating currentelectric fields,”Biophys.J.,82(1Pt 1):335-44,2002)、使用双曲线收缩微通道中的电场梯度(Randall,G.C..等人,“Methods to electrophoretically stretch DNA:microconstractions,gels,and hybrid gel-microconstraction devices,”Lab.Chip,6(4):516-25,2006)、使用光学镊均匀流(Smith,S.B.等人,“Overstretching B-DNA:theelastic response of individual double-stranded and single-stranded DNAmolecules,”Science,271:795-9,1996)、使用均匀流(Perkins,T.T.等人,“Stretching ofa single tethered polymer in a uniform flow,”Science,268:83-7,1995)、使用均匀电场(Ferree,S.等人,“Electrokinetic stretching of tethered DNA,”Biophys.J.,85(4):2539-46,2003)、使用声学力光谱学(AFS)(Sitters,G.等人,“Acoustic forcespectroscopy,”Nat.Methods,12(1):47-50,2015)、强制DNA进入纳米通道(Tegenfeldt,J.O.等人,“The dynamics of genomic-length DNA molecules in 100-nm channels,”Proc.Natl.Acad.Sci.U.S.A.,101(30):10979-83,2004)、多个流的流体动力学聚焦(Wong,P.K.等人,“Deformation of DNA molecules by hydrodynamic focusing,”J.Fluid.Mech.,497:55-65,2003)和表面上的动态梳理(Dimalanta,E.T.等人,“Amicrofluidic system for large DNA molecule arrays,”Anal.Chem.,76(18):5293-301,2004)。

现在转向图2，示出第一限制酶110的作用。第一限制酶110可在由第一限制酶110识别的限制位点处将延伸DNA108切割成DNA片段108A和108B。

在切割DNA108之后，如图3中示出，连接酶112可将两个DNA片段108A和108B重新连接回到DNA108，如图1中示出，或可经由共价键114将一个DNA片段例如108B与接头例如接头102连接，以给出如图4中示出的连接产物。

根据本公开的酶混合物系统的一个优势是它驱动基因组DNA内和接头之间的消失和出现限制位点。这些消失和出现限制位点进而驱动在片段的两个末端上具有附接接头的基因组片段的形成。

在一方面，酶混合物系统在基因组DNA内产生消失和出现限制位点。首先，因为基因组DNA较长，使用存在可用于由第一限制酶110消化的许多限制位点。通过选择限制位点的长度，可控制所得DNA片段的平均长度，如以上论述。当切割基因组DNA时，限制位点大量地消失。其次，如果DNA片段通过连接酶来连接，那么相同限制位点得以重建并且保持完整。因此，此再现限制位点可仍然通过第一限制酶来切割。第三，随着时间的推移，所产生的DNA片段连接至接头。这类连接永久地破坏用于第一限制酶的限制位点并且使得在形成连接接头-DNA片段时，用于第一限制酶的限制位点永久地消失。这由接头序列的设计导致以使得新产生接头-DNA片段序列不提供用于第一限制酶或第二限制酶的出现限制位点。

在另一方面，酶混合物系统在接头之间产生消失和出现限制位点。具体来说，连接酶可连接两个接头并且使得其无法用于与DNA片段的所需连接。然而，归因于接头的设计，自身连接接头提供用于第二限制酶的出现限制位点，按照设计，所述第二限制酶与第一限制酶相比识别更长限制位点。因此，自身连接接头中的出现更长限制位点可由第二限制酶来切割，从而导致这些更长限制位点的消失。另外，一旦接头连接至DNA片段，此接头永远停止可用于与另一个接头的自身连接，并且因此在形成连接接头-DNA片段时，用于第二限制酶的可用更长限制位点永久地消失。

总体上，依赖于在接头和基因组DNA和其片段上或其之间的消失和出现限制位点，酶混合物将整个系统的平衡朝向形成基因组片段来转变，所述基因组片段在片段的两个末端上具有所附接的接头。

图2-4示出的消化和连接过程可重复多次以给出在两个末端处由接头连接的DNA片段，例如，图5中的连接至接头102和106的DNA片段108C，其中DNA片段108C形成与接头102的共价键114和与接头106的共价键116。其他DNA片段108A和108D可经历图2-5示出的类似过程并且提供其他接头连接DNA片段以构建DNA文库，例如，基因组DNA文库。

图6是展示在连接酶112存在下的另一个可能性的示意图，所述连接酶可连接两个接头以在两个接头102和104之间形成共价键118。第二限制酶120可切割两个接头102和104之间的共价键118以使得两个再生接头102和104变得可用于与其他DNA片段连接。上述过程的最终结果是产生DNA片段文库，其中每个片段在两个末端上与接头键结。

本公开的系统和方法的更详细实例在图7-12中示出。现在参看图7，DNA文库的构建开始于单链Y-接头骨架202、204和206经由其3’末端来共价连接至芯片200。从3’末端开始的Y-接头骨架202的序列是流槽2’210、条形码212和序列引物2’220。从3’末端开始的Y-接头骨架204的序列是流槽2’210、条形码214和序列引物2’220。从3’末端开始的Y-接头骨架206的序列是流槽2’210、条形码216和序列引物2’220。

如图8描绘，Y-接头引物230可杂交至Y-接头骨架202、204和2006的流槽2’210。从5’末端起始的Y-接头引物230的序列是Y-主干232和流槽2’互补片段234，其中流槽2’互补片段234与Y-接头骨架202、204和206的流槽2’210的互补区段杂交。

如图9展示，杂交Y-接头引物230可在每个结合Y-接头骨架的条形码区域和序列引物区域上延伸。具体来说，杂交于Y-接头骨架202上的Y-接头引物230从其3’末端以与212互补的条形码242和与220互补的序列引物2250来延伸以给出完整Y-接头Y-链252。杂交于Y-接头骨架204上的Y-接头引物230从其3’末端以与214互补的条形码244和与220互补的序列引物2250来延伸以给出完整Y-接头Y-链254。杂交于Y-接头骨架206上的Y-接头引物230从其3’末端以与216互补的条形码246和与220互补的序列引物2250来延伸以给出完整Y-接头Y-链256。在此阶段，芯片200修饰与多个Y-接头由组成Y-接头骨架和Y-接头Y-链：202/252链，204/254链，和206/256链。

然后将基因组DNA 260安置并延伸于Y-接头202/252、204/254和206/256的表面上，如图10中示出。在酶混合物存在下并且借助于根据本公开的用于连接的消失和出现限制位点，基因组DNA 260可由第一限制酶消化以产生多个片段，其中的一个可由基因组DNA片段链260A和260B组成，如图11描绘。借助于连接酶和第二限制酶，基因组DNA片段链260A可在其3’末端上连接至Y-接头骨架202并且在其5’末端上连接至Y-接头Y-主干256。同样地，基因组DNA片段链260B可在其3’末端上连接至Y-接头骨架206并且在其5’末端上连接至Y-接头Y-主干252。

现在转向图12并且关注基因组DNA片段链260A，可在此阶段添加用于NGS测序的其他接头，例如，Illumina接头1和2，并且PCR反应可使用由此获得的DNA片段来进行以产生PCR产物270。从3’末端起始的PCR产物270的序列是Illumina接头1 272、流槽2’210、条形码212、序列引物2’220、基因组DNA片段260A、序列引物2 250、条形码246、Y-接头引物230(其由流槽2’互补片段234和Y-主干232组成)和Illumina接头2 274。如由PCR产物270展示，基因组DNA片段260A现在具有两个不同条形码的不对称末端序列。基因组DNA片段260A的这类组成可给出起始基因组DNA 260的位置信息。

本公开的系统和方法的另一个详细实例，尤其Y-接头的设计，在图13-17中示出。现在转向图13，构建DNA文库开始于单链Y-接头骨架402经由Y-接头骨架402的3’末端来共价连接至芯片400。

参看图14，Y-接头引物404可杂交至Y-接头骨架402。从5’末端起始的Y-接头引物404的序列是SEQ C 408和SEQ A’406，其中SEQ A’406与Y-接头骨架402的互补区段杂交。

如图15展示，杂交Y-接头引物404可在Y-接头骨架402上延伸以给出Y接头Y-链410。具体来说，杂交于Y-接头骨架402上的Y-接头引物404从其3’末端以序列412来延伸。在此阶段，芯片400与多个Y-接头修饰，包括Y-接头460，其由Y-接头骨架402和Y-接头Y-链410组成。

图16示出所获得的Y-接头460的完整剖析。Y-接头460由两个链：Y-接头骨架402和Y-接头Y-链410组成。从5’末端起始的Y-接头骨架402的序列包含用于Pme1的限制位点的一半422、条形码终止信号424、条形码序列426(其中V表示A、C或G中的任何一个，并且N表示A、T、C和G中的任何一个)、SEQ A428和SEQ B 430。从3’末端起始的Y-接头Y-链410的序列包含用于Pme1的限制位点另一半434、条形码终止信号436、条形码序列438、SEQ A’440和SEQ C442。如以上论述，序列5’-GTTTAAAC-3’是用于Pme1限制酶的限制位点。因此，如果两个Y-接头460自身连接，连接产物在接合处含有序列5’-GTTTAAAC-3’，从而成为供Pme1限制酶切割的基底。

以下是两个PCR引物，其被设计来与Y-接头460末端上的不同5’和3’序列介接并且引入Illumina流槽序列(以非粗体示出的FC1和FC2)：

AATGATACGGCGACCACCGAGATCTACACATGATGATGCTGATC AGCGT-3’(SEQ ID NO:1)

CAAGCAGAAGACGGCATACGAGATGAAGTACTGTGGCGTGG-3’(SEQ ID NO:2)

在根据本公开来消化基因组DNA并且将基因组DNA片段连接至Y-接头之后，来自图16的使用以上公开PCR引物来由此获得的基因组DNA片段的PCR可在至少两个PCR循环之后给出图17所示产物。基因组DNA片段文库的这些PCR产物可进一步通过测序过程，例如，Illumina测序过程来处理。

参看图18，根据本公开的芯片可具有数百万个条形码特征的图案化阵列，如图18中示出。这些条形码特征可在芯片上具有可识别位置并且其条形码(嵌入于相应Y-接头中)可被设计来反映其可识别位置。在这些条形码连接至基因组DNA片段之后，每个片段可携带关于DNA片段的末端位于芯片上的可识别位置的信息。因为基因组DNA延伸于Y-接头阵列上，与不同基因组DNA片段相关联的可识别位置信息可提供基因组DNA片段与基因组DNA定向之间的相对距离有关的信息。因此，本公开的系统和方法可识别基因组DNA的位置和向量。

III.实施例

1.芯片容量设置

将Y-接头负载凝胶安置于具有cis溶液中的0.5μg人基因组DNA的平行铜板之间。将50mV电压电位施加至平行铜板2分钟。

图19描绘使用上述芯片容量设置来延伸的DNA的图片。解开的DNA明显地延伸于表面上。

2.使用消失和出现限制位点的消化和连接

在将基因组DNA容量施加至凝胶之后，酶混合物包含Alu1限制酶、T4DNA连接酶和Pme1限制酶，并且将缓冲液施加至以上获得的凝胶。作为比较，还进行Pme1限制酶从以上酶混合物省去的对照实验。延伸基因组DNA用Alu1来消化并且使用T4DNA连接酶来连接DNA片段直至Y-接头负载凝胶形成文库。在此酶处理之后，将凝胶刮落至PCR管中以便进行初步分析。

图20显示在使用消失和出现限制位点来消化和连接之后所获得的PCR产物的琼脂糖凝胶电泳图片。泳道1对应于在不添加Pme1限制酶的情况下，在从Y-接头/DNA容量凝胶的5个PCR循环之后从DNA片段文库获得的PCR产物。泳道1中接近于底部的亮点对应于自身连接Y-接头。泳道2对应于在自身连接Y-接头的低盐Pme1消化存在下，随后20个PCR循环，从DNA片段文库获得的PCR产物。与泳道1比较，对应于自身连接Y-接头的亮点在泳道2中消失。这一观察结果暗示添加Pme1限制酶有助于消化自身连接Y-接头并且使得Y-接头可用于DNA片段捕获。另外，泳道1和2的比较示出DNA片段相比于自身连接Y-接头的相对量增加，如与泳道1相比，在泳道2中的自身连接Y-接头点上方扩散的条带的强度增加所证明。泳道3对应于在与泳道2中所获得的文库相似的DNA片段文库的大小选择和净化之后的PCR产物。选定大小是200bp至600bp。文库浓度是6nM并且准备在MiSeq机器上测序。如果按照设计，自身连接Y-接头约100bp长度，文库构建之后的下游大小选择步骤可通过将选择大小设定为高于预定数目，例如，150bp、200bp或250bp来移除仍然保留在粗文库中的连接Y-接头。

图21展示使用Alu1消化和测序所获得的文库中的DNA片段大小的分布。图22描绘在图21中使用的相同基因组DNA在根据New England BioLabs,Inc.来Alu1消化之后的片段大小的理论分布。图21和22的比较示出理论预测与所获得的实验结果完全匹配。

虽然本文已经示出并描述本发明的优选实施方案，但是本领域技术人员显而易知这些实施方案仅作为举例来提供。许多变异、变化和取代现在将由本领域技术人员想到而不背离本发明。应了解本文描述的本发明的实施方案的各种替代方案可用于实施本发明。规定以下权利要求定义本发明范围并且这些权利要求和其均等物范围内的方法和结构由此得以覆盖。

3.在芯片上使用Y接头和消失限制位点来延伸并组装基因组文库的实验细节

具有寡核苷酸402的条形码芯片阵列如图13中所示来合成。接头寡核苷酸404在5μM浓度下悬浮于补充有25mM MgCl₂的10x SSC缓冲液中。

五十微升寡核苷酸404溶液沉积于芯片阵列上，安置于加湿腔室中以防止蒸发，并且在50℃下培育5小时。

将加湿腔室从培育器移除并且允许冷却至室温。然后芯片阵列用4x SSC冲洗两次，然后用2x SSC冲洗两次，然后用0.5x SSC冲洗两次。每个冲洗缓冲液预冷却至4℃。最后，芯片阵列浸泡于1mL的1x Thermopol缓冲液中以使杂交寡核苷酸402和404平衡并且将其制备以便通过BST聚合酶来延伸。

1X Thermopol缓冲液、20mM dNTP和10单位BST聚合酶大片段(所有试剂购自NewEngland Biolabs)的50μl溶液沉积至杂交芯片阵列上并且允许在加湿腔室中、在50℃下培育3小时。

现在将具有双链DNA的延伸的双链芯片阵列在冰冷MES缓冲液(50mM，pH 5.5)中洗涤4次并且将人基因组DNA制备以便延伸至阵列上。

人基因组DNA购自Promega并且在MES缓冲液(50mM，pH 5.5)中稀释至50pg/μl的最终浓度。随后，将1.25mL的基因组DNA溶液转移至延伸小池。将芯片阵列夹持在延伸机上并且浸没于小池中的基因组DNA溶液中历时1小时。

正好在收回阵列之前，使用连接至电压源的两个铜板作为平行板电容器，垂直于芯片阵列的平面来施加电场。电场的计算强度是22,500牛顿/库仑。一旦电场接通，阵列以67μm/sec的速率从小池中的基因组DNA溶液中收回。

然后允许阵列在冰冷Cutsmart缓冲液中培育以移除来自延伸的任何残留MES缓冲液。

120μL酶混合物制备如下：84μl H₂O、12μL Cutsmart缓冲液、12μL ATP(最终浓度10mM)、6μL(60单位)Alu1限制酶、4μL(40单位)T4DNA连接酶、2μL(20单位)Pme1限制酶，得到Alu1:T4:Pme1的最终比率为3:2:1。

酶混合物(120μL)安置于其上具有延伸DNA的杂交并延伸阵列上并且允许在37℃下培育2小时。这是允许消失和出现限制位点形成文库的反应。

现在连接至芯片阵列的文库在冰冷Cutsmart缓冲液中冲洗3次。

将芯片阵列安置于PCR管中或替代地，可建立玻片PCR反应。在5个循环的PCR之后，(使用引物与Y接头的两个不同末端接合并且在末端包括Illumina流槽序列，如以上在图16描述之后所展示)，快速Pme1消化在37℃下在低盐(0.5x Cutsmart缓冲液)中进行30分钟以消化在与基因组DNA的以前连接/消化反应期间未切割的任何自身连接Y接头。图20中的泳道1和泳道2展示在来自相同文库的Pme1消化前后所获得的凝胶图片。

最后，将文库清理并且通过使用珠粒或凝胶萃取试剂盒来进行大小选择。举例来说，来自Qiagen的凝胶萃取试剂盒用于进行大小选择并且从文库中选择的片段在200-750bp范围内。在所有上述步骤之后的文库可在5-12nM浓度范围内。图20的泳道3中的凝胶展示6nM浓度的文库，其可继续在Illumina MiSEQ上进行测序。然后制备文库以便遵循制造商的方案用于Illumina机器。

Claims

1.一种用于从核酸构建文库的方法，所述方法包含：

a)将核酸的至少一个拷贝安置于表面上，所述表面连接有多个接头；

b)将溶液施加至所述表面，所述溶液包含：

i.第一限制酶，所述第一限制酶能够将所述核酸消化成多个核酸片段；

ii.连接酶，所述连接酶能够将所述核酸片段中的一个的末端与所述接头中的一个连接；和

iii.第二限制酶，所述第二限制酶能够消化所述多个接头之中的自身连接接头；并且

c)形成第一文库，所述第一文库包含多个连接核酸片段，所述核酸片段具有所述接头中的一个连接至其每个末端。

2.如权利要求1所述的方法，其中所述第一限制酶的浓度高于所述溶液中的所述连接酶的浓度。

3.如权利要求1所述的方法，其中所述自身连接接头在所述自身连接之后包含用于所述第二限制酶的限制位点。

4.如权利要求1所述的方法，其中所述第一限制酶识别4个碱基对限制位点、5个碱基对限制位点或6个碱基对限制位点。

5.如权利要求1所述的方法，其中所述第二限制酶识别至少8个碱基对长度的限制位点。

6.一种从核酸构建文库的系统，所述系统包含：

a)表面，多个接头连接至所述表面；

b)第一限制酶，所述第一限制酶能够将所述核酸消化成多个核酸片段；

c)连接酶，所述连接酶能够将所述核酸片段中的一个的末端与所述接头中的一个连接；和

d)第二限制酶，所述第二限制酶能够消化所述多个接头之中的自身连接接头。

7.如权利要求6所述的系统，其中所述多个接头是Y形接头。

8.如权利要求6所述的系统，其中所述第一限制酶的浓度大于所述连接酶的浓度。

9.如权利要求6所述的系统，其中所述第一限制酶识别4个碱基对限制位点、5个碱基对限制位点或6个碱基对限制位点。

10.如权利要求6所述的系统，其中与所述第二限制酶相比，所述第一限制酶识别所述限制位点的较短序列。

11.如权利要求6所述的系统，其中所述第一限制酶是MspA1I限制性核酸内切酶、PsiI限制性核酸内切酶或Alu1限制性核酸内切酶。

12.如权利要求6所述的系统，其中所述连接酶是T4连接酶。

13.如权利要求10所述的系统，其中所述第二限制酶是Pme1限制性核酸内切酶。