CN114391043A

CN114391043A - 哺乳动物dna的甲基化检测及分析

Info

Publication number: CN114391043A
Application number: CN201980099399.4A
Authority: CN
Inventors: 曹云龙; 谢晓亮
Original assignee: Peking University
Current assignee: Changping National Laboratory
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-04-22
Anticipated expiration: 2039-10-25
Also published as: US20220389412A1; EP4048808A4; JP2023507876A; CN114391043B; WO2021077415A1; EP4048808A1

Abstract

本公开提供了对基因组片段进行甲基化分析的方法。

Description

哺乳动物DNA的甲基化检测及分析

背景

发明领域

本发明的实施方案总体上涉及用于少量DNA(诸如数个细胞至100个细胞或单个细胞的DNA)测序的方法和组合物。

相关领域的描述

在单细胞水平DNA上进行高覆盖率和高精度的哺乳动物DNA甲基化研究的能力在细胞间变异和群体异质性起关键作用的研究(诸如肿瘤生长、干细胞重编程、记忆形成、胚胎发育)中是必需的。当要进行分析的细胞样品是珍贵的或稀少的或以微量存在时，诸如当样品是单个细胞或单个细胞的整个或部分基因组或游离DNA(cell-free DNA)时，这也很重要。

为了以单碱基分辨率分析DNA甲基化，DNA需要经过化学或酶促转化才能有效地区分甲基化的胞嘧啶和未甲基化的胞嘧啶。常见的转化方法包括但不限于亚硫酸氢钠、TET辅助的吡啶-硼烷测序(TAPS)，Liu等，Nature Biotechnology(2019)."Bisulfite-freedirect detection of 5-methylcytosine and 5-hydroxymethylcytosine at baseresolution"；基于酶促转化的甲基化测序(Enzymatic-methyl seq conversion)(EM-seq)，Williams等，New England Biolabs,Inc.(2019)."Enzymatic Methyl-seq:The NextGeneration of Methylome Analysis"[国际万维网.neb.com/tools-and-resources/feature-articles/enzymatic-methyl-seq-the-next-generation-of-methylome-analysis]。

所有化学或酶促转化的主要挑战是与转化同时发生的DNA的丢失或破坏。完全转化所必需的条件，诸如长孵育时间、升高的温度、高亚硫酸氢盐浓度以及高氧化或还原环境，都可能导致多达90％的经孵育的DNA降解、DNA碱基损伤和断裂。转化过程中步骤之间或之后的DNA纯化也可导致高达90％的DNA损失。大量的DNA损失和破坏是个问题，在处理有限或少量的起始DNA甚至单细胞水平DNA时更是如此。低覆盖率单细胞亚硫酸氢盐测序已通过直接在单个细胞上进行亚硫酸氢盐转化，然后进行DNA扩增来实现。Guo,H.等(2013)."Single-cell methylome landscapes of mouse embryonic stem cells and earlyembryos analyzed using reduced representation bisulfite sequencing."GenomeRes 23(12):2126-2135；Smallwood,S.A.等(2014)."Single-cell genome-widebisulfite sequencing for assessing epigenetic heterogeneity."Nat Methods 11(8):817-820。

化学或酶促转化过程中的DNA损伤，以及与转化同时发生的DNA纯化过程中的DNA损失，可以通过添加载体DNA(诸如100bp至4kb的超声处理的λDNA)来大大减少。然而，将载体DNA与靶DNA混合会产生稍后无法区分的样品的混合物，从而在随后的甲基化检测和分析中造成困难甚至失败。

体外转座已用于DNA扩增的某些应用中。在此类方法中，靶DNA同时被片段化和标记，以产生标记有所需DNA序列的片段，用于下游处理。作为文库制备方法，体外转座技术已经被应用于Illumina,Inc的Nextera技术中，用于对DNA进行片段化同时使用适当的序列标记每个片段以用于下一代测序(US20110287435)。作为研究单细胞基因组和表观基因组的工具，体外转座已被Buenrostroet等用来分析染色质可及性(Buenrostro,J.D.,Wu,B.,Litzenburger,U.M.,Ruff,D.,Gonzales,M.L.,Snyder,M.P.,...&Greenleaf,W.J.(2015).Single-cell chromatin accessibility reveals principles of regulatoryvariation.Nature,523(7561),486-490)；被Ramani等用来研究三维染色体构象(Ramani,V.,Deng,X.,Qiu,R.,Gunderson,K.L.,Steemers,F.J.,Disteche,C.M.,...&Shendure,J.(2017).Massively multiplex single-cell Hi-C.Nature Methods,14(3),263-266)；以及被Zahn等用来扩增单细胞基因组并直接用于测序文库中(Zahn,H.,Steif,A.,Laks,E.,Eirew,P.,VanInsberghe,M.,Shah,S.P.,...&Hansen,C.L.(2017).Scalable whole-genome single-cell library preparation without preamplification.NatureMethods,2017)。然而，所有这些方法均会遭遇约50％的原始靶核酸损失。发生这种情况是因为使用了两个转座子序列进行标记，在下文中表示为A和B：将转座子A和B标记到靶DNA之后，可以生成四种不同类型的DNA片段，它们是在每一个片段的两个末端被标记为A-A、B-B、A-B或B-A的片段。只有标记为A-B或B-A的片段(其占总转座产物的50％)才适合进行PCR扩增或配对末端测序。标记为A-A或B-B的其它50％片段将丢失。对于具有有限数量的DNA的样品，包括稀少、独特或有价值的单细胞样品(诸如用于植入前遗传筛选的单个细胞)，这样的损失率无疑是不希望的，并且可能是不可接受的。在WO2016/073690中描述了另外的转座方法，然而这种方法不能减少由转置偏差(transposition bias)引起的50％的损失。

因此，需要进一步的方法来分析少量哺乳动物DNA的甲基化状态而不会引起与现有技术方法相关的DNA损失。

概述

本公开提供了用于对少量存在的靶DNA样品(例如来自多个细胞或单个细胞的DNA)进行甲基化状态分析的方法，包括使用多个转座体的基因组DNA片段化，其中所述多个转座体的每个成员包括两个具有引发位点序列的转座子核酸序列。具有与转座酶结合的引发位点序列的转座子核酸序列中的所有胞嘧啶可被甲基化或不被甲基化，这取决于转化化学是将甲基化的胞嘧啶还是未甲基化的胞嘧啶进行转化。由转座体产生的DNA片段中可存在胞嘧啶和/或甲基胞嘧啶。

在PCT/US2018/034162(由此通过引用整体并入)中提供了使用转座体对少量DNA进行片段化、缺口填充、纯化、扩增和测序的方法，所述方法通常被称为多末端标记扩增或“META”。根据一个方面，所述转座体的每个转座子核酸序列的引发位点序列是相同的。根据一个方面，所述转座体的每个转座子核酸序列的引发位点序列是不同的。根据一个方面，所述多个转座体的每个成员可包括独特和/或不同的引发位点序列。根据一个方面，所述多个转座体的每个成员可包括两个独特和/或不同的引发位点序列(转座体中的每个转座子存在一个独特和/或不同的引发位点序列)。通过这样的方式，提供了一组转座体，所述转座体含有与其相关的独特引物结合位点序列(或两个独特和/或不同的引发位点序列)以用于区分这些转座体。换句话说，所述转座体中的转座子的引物结合位点序列可以相同，也可以不同或不完全相同。连接至靶核酸序列并用于制备片段的两个相邻转座体中的转座体的引物结合位点序列是不完全相同的，或者以很高的概率不完全相同。转座体中的每个转座子具有不同的引发位点序列，就此而言，所述转座子可以称为多重转座子。每个转座体所含有的引发位点序列，与该组转座体中的其他转座体所含有的其他引发位点序列相比，是不同的、不完全相同的或独特的，就此而言，转座体文库中的引发位点可被称为多重引发位点。根据一个方面，该方法提供了沿着靶核酸序列结合来自文库的转座体或多个转座体的步骤，使得相邻的转座体具有不同的引物结合位点序列。通过这样的方式，断裂位点(fragmentation site)的末端将被不同的引物结合位点序列标记。无论转座体其中的两个转座子DNA是否具有相同的引物结合位点序列，或者无论转座体其中的两个转座子DNA是否具有不同的引物结合位点序列，这都可以实现。通过这样的方式，本文所述的多重末端标记扩增方法使用多个引发序列来产生在两个末端被不同序列标记的靶DNA片段。无论转座体内的两个转座子序列相同还是不同，都可进行多重末端标记扩增方法，只要两个相邻的转座体(即，直接相邻以形成片段序列)具有不同的转座子引物结合位点序列，其中所述片段在每个末端具有不同的引物结合位点序列。

根据一个方面，当转座方法用于片段化和标记基因组核酸序列，诸如单个细胞的基因组核酸序列时，在一组转座体中使用多重引发位点序列降低了损失率。根据本文的教导，当反应混合物中存在N个不同的转座子序列时，即，当独特的引物位点序列的数量为N时，被相同的转座子序列标记的DNA片段的机会(即损失率)是1/N。因此，本公开提供了用于改变独特的引发位点序列的数目，即数目N，以控制损失率的方法。例如，当存在20种与获自人单个细胞的DNA一起使用的不同转座子序列时，缺失率为1/20或5％。

本文所述的产生多个片段的方法使用一组转座体，其中该组转座体的每个成员具有一个或两个不同的引物结合位点序列，并且其中该组转座体的每个成员与该组转座体的每个其它成员相比，诸如以很高的概率具有一个或两个独特或不同的引发结合位点。通过这样的方式，在片段化过程中用不同和/或独特的末端条形码序列对片段的相邻末端进行条形码化，以产生在每个末端上具有独特的条形码序列(引发位点序列)的片段。通过这样的方式，片段的相对末端在片段化过程中以高概率被不同和/或独特的末端条形码序列条形码化，以在每个末端上产生具有不同条形码序列(引发位点序列)的片段。通过这样的方式，片段的所述两个相对末端在片段化过程中被不同和/或独特的末端条形码序列进行条形码化，以产生在每个末端上具有独特的条形码序列(引发位点序列)的片段。

根据一个方面，转座体文库用于在水性介质中制备基因组DNA的片段，其中独特的条形码序列在被转座体的转座酶切割的位点处被插入或连接至基因组DNA的每个末端。由于与该组转座体或多个转座体或转座体文库中的其它转座体成员相比，每个转座体具有一个或两个不同和/或独特的引发位点序列，因此每个片段将在每个末端上具有独特的引发位点序列(条形码序列)。根据一个方面，每个片段将包括一个或多个胞嘧啶或一个或多个甲基胞嘧啶。本文所述的方法在将胞嘧啶转化为尿嘧啶的化学转化步骤期间利用载体DNA，以保护样品DNA在化学转化步骤中不丢失或损坏。用于将胞嘧啶转化为尿嘧啶的试剂或酶是本领域技术人员已知的。将胞嘧啶转化为尿嘧啶的酶促试剂，即胞嘧啶脱氨酶，包括ABOPEC家族的那些，诸如APOBEC-seq或APOBEC3A。APOBEC家族成员是胞苷脱氨酶，其将胞嘧啶转化为尿嘧啶，同时保持5-羟基甲基胞嘧啶，即不改变5-羟基甲基胞嘧啶。通过与TET酶的氧化反应，5-甲基胞嘧啶可被转化为5-羟基甲基胞嘧啶。此类酶在US 2013/0244237中有所描述，并且可从New England Biolabs获得。基于本公开，其它酶促试剂对于本领域技术人员将变得显而易见。根据一个方面，该试剂不是亚硫酸氢盐或不包括亚硫酸氢盐，或者该试剂将胞嘧啶转化为尿嘧啶，条件是该试剂不是亚硫酸氢盐。然后可以除去载体DNA，或者可以在不扩增载体DNA的情况下扩增转化的片段，从而获得扩增的片段化DNA。更具体地，提供了利用通过转座体方法插入到片段化的靶DNA中的引物或衔接子(adapter)以及添加载体DNA的方式以在DNA的化学或酶促转化期间减少DNA损失和DNA损伤的方法，这是碱基分辨率甲基化分析所必需的。通过如本文所述的使用转座体产生在每个末端均具有引物或衔接子的片段(并在添加载体DNA之前)的方式，可以将条形码和PCR衔接子添加至靶向DNA，从而使得该靶向DNA可以与载体DNA充分区分开。根据本文所述的方法，衔接子连接的DNA被扩增而载体DNA不被扩增。载体DNA变成单链DNA，即ssDNA，并从混合物中除去，产生纯的扩增的靶DNA。

本公开考虑使用本文所述的转座体文库将基因组DNA片段化为多个片段，诸如5个或更多个片段，10个或更多个片段，100个或更多个片段，1000个或更多个片段，10,000个或更多个片段，100,000个或更多个片段，1,000,000个或更多个片段或者10,000,000个或更多片段。根据一个方面，取决于独特和/或不同的引物结合位点序列的数量，转座体文库包括5至10个类型或种类的转座体成员、10至100个类型或种类的转座体成员、100个或更多个类型或种类的转座体成员、1000个或更多个类型或种类的转座体成员、10,000个或更多个类型或种类的转座体成员、100,000个或更多个类型或种类的转座体成员、1,000,000个或更多个类型或种类的转座体成员或10,000,000个或更多个类型或种类的转座体成员、或5至50个类型或种类的转座体成员。

根据一个方面，每个转座体包含两个转座酶和两个转座子DNA。转座体的两个转座子DNA的每一个都包括转座酶结合位点和引物结合位点序列。根据一个方面，转座子DNA包括单个转座酶结合位点和独特的引物结合位点序列。每个转座子DNA是在转座酶结合位点与转座酶结合的独立核酸。转座体是两个独立的转座酶的二聚体，每个转座酶都与其自己的转座子DNA结合。所述二聚体在每个转座子上可具有相同的引物结合位点序列，或者在每个转座子上可具有不同的引物结合位点序列。根据一个方面，所述转座体包含两个独立的的单独的转座子DNA，每个与其自已相应的转座酶结合。根据一个方面，所述转座体仅包含两个转座酶和两个转座子DNA。根据一个方面，作为转座体的一部分的所述两个转座子DNA是独立的、单独的或非连接的转座子DNA，每个与其自已相应的转座酶结合。

根据一个方面，所述文库的每个转座体成员包括独特且不同的引发位点序列。相同的所述独特且不同的引物位点序列可存在于转座体的每个转座子DNA上，或者不同的所述独特且不同的引发位点序列可存在于转座体的每个转座子DNA上。这样，每个转座体包括独特且不同的引发位点序列，所述引发位点序列在转座体文库中是独特的且与转座体文库中的任何其它转座体的引发位点序列不同的。根据一个方面，尽管可能性相对较小或几乎可忽略，但转座体文库可包括具有与其它转座成员相同的引发位点序列的转座体成员。这样，所述转座体文库可被视为已制备的转座体集合的一个子集，其中该子集仅包含具有独特且不同的引发位点序列的转座体，因为目的是对基因组DNA片段化，其中每个片段切割位点具有不同的引发位点序列。应当理解的是，在相邻的转座体各自具有独特且不同的引发位点序列的情况下，可以实现使每个片段切割位点具有不同的引发位点序列的基因组DNA片段化的目的，尽管其可被转座体的两个转座子共享。应当理解的是，在相邻转座体各自具有两个独特且不同的引发位点序列的情况下，可以实现使每个片段切割位点具有不同的引发位点序列的基因组DNA片段化的目的，其中转座体的每个转座子具有独特且不同的的引发位点序列。

应当理解，由于转座体文库的制备过程，很少数量的切割位点可能共享相同的引发位点序列。例如，对于给定的文库制备方法，存在多个分子的具有相同引发位点序列的转座子在数学上是可能的，但这样制备文库以使得不同引发位点序列的数目大大超过将被实际插入靶基因组的转座体分子的数目。根据一个方面，所述转座体文库可包括具有相同的两个引发位点序列(即，引发位点序列完全相同或相同)的转座体成员，尽管该引发位点序列与转座体文库的转座体成员的任何其它转座子DNA相比是独特的。为了制备这种转座体文库，通过混合转座酶和含有独特引发位点序列的转座子DNA来分别制备每个转座体成员。然后将所有转座成员混合在一起以形成转座体文库。

根据一个方面，通过将所有转座子序列与转座酶混合在一起以形成转座体来制备转座体文库。在这种方法中，大多数转座体具有不同的转座子序列，但具有相同转座子序列的转座体的机会是1/N。根据制备转座体文库的另一种方法，将每种类型的转座子序列分别与转座酶混合，然后将所有转座体混合以形成转座体文库。在这种方法中，所有转座体都将具有相同的转座子序列。

根据一个方面，独特和/或不同的引发位点序列的数目为5个至50个、10个至50个、15个至45个、20个至40个或1个至1,000个、1个至10,000个、1至100,000个、1个至1,000,000个或1个至10,000,000个。根据一个方面，所述基因组DNA中切割位点的数目由转座体的浓度确定或调节，其中较高的浓度导致较高数目的切割位点，较低的浓度导致较低的切割位点。根据一个方面，选择转座体和相关的不同和/或独特的引发位点序列的数量，使得基本上所有切割位点都具有两个不同和/或独特的引发位点序列。根据一个方面，超过90％的切割位点具有两个不同和/或独特的引发位点序列，超过95％的切割位点具有两个不同和/或独特的引发位点序列，96％的切割位点具有两个不同和/或独特的引发位点序列，97％的切割位点具有两个不同和/或独特的引发位点序列，98％的切割位点具有两个不同和/或独特的引发位点序列，99％的切割位点具有两个不同和/或独特的引发位点序列，99.5％的切割位点具有两个不同和/或独特的引发位点序列，或100％的切割位点具有两个不同和/或独特的引发位点序列。

然后将所述转座体文库用于切割所述基因组DNA，每个转座体在切割位点的末端插入或连接包含在每个转座子DNA中的引发位点序列。在相邻的转座体彼此之间具有独特且不同的引发位点序列的情况下，所述切割位点将在其每个末端具有独特且不同的引发位点序列，即，插入的引发位点序列将是不同的。这样，只要相邻的转座体彼此之间具有独特且不同的引发位点序列，由所述转座体文库产生的多个或大部分或基本上所有片段就在该片段的每个末端(即相对端)上具有不同和/或独特的引发位点序列。然后可从每个片段中去除所述转座酶，随后进行缺口填充步骤，例如聚合酶延伸步骤。然后可以例如使用多重PCR扩增来扩增所得的双链核酸片段序列。然后可对所述片段进行测序，并可确定所述基因组DNA的序列。

根据一个方面，所述转座体的转座子DNA可包括促进扩增方法的序列，诸如可以连接至所述片段的特异性引物序列或转录启动子序列，从而使得可在测序之前扩增所述片段，例如通过PCR或使用本领域技术人员已知方法进行的RNA转录。应当理解，本公开考虑到，用于扩增片段的不同扩增方法和用于对扩增子进行测序的不同测序方法并不限于任何特定的扩增或测序方法。

本公开的实施方案涉及对核酸进行多重末端标记扩增的方法，所述核酸是诸如基因组DNA，诸如少量或小量的基因组DNA或有限量的DNA，诸如获自单个细胞或相同细胞类型的多个细胞或来自获自个体或底物的组织、液体或血液样品的一个或多个基因组序列。根据本公开的某些方面，本文描述的方法可在具有单个反应混合物的单个管中进行。根据本公开的某些方面，核酸样品可以存在于来自单个细胞的未纯化或未处理的裂解物中。用于本文所述的方法中的核酸，在于本文所述的各种条件下与各种试剂接触之前，不需要进行纯化(诸如通过柱纯化)。本文所述的方法降低了损失率，即原始靶核酸的损失，从而有助于提供对单个细胞的完整基因组的基本且均匀的覆盖，从而产生用于高通量测序的扩增的DNA。

本发明的实施方案总体上涉及用于制备DNA片段的方法和组合物，所述DNA片段可以来自例如单个细胞的整个基因组，并且所述DNA片段后续可被用于本领域技术人员已知和本文所述的扩增和测序方法。根据某些方面，本文所述的制备核酸片段的方法利用转座体文库。根据一个方面，作为转座体的一部分的转座酶用于产生一组双链基因组DNA片段。根据某些方面，所述转座酶具有与转座子DNA结合并在接触时二聚化(诸如当放置在反应容器或反应体积内时，形成称为转座体的转座酶/转座子DNA复合物二聚体)的能力。转座体的每个转座子DNA包括双链转座酶结合位点和第一核酸序列，所述第一核酸序列包括引发位点序列和任选的功能序列，诸如转录启动子位点。所述第一核酸序列可呈单链延伸的形式。所述转座体文库的每个转座体都包含独特且不同的引发位点序列，该序列不同于该转座体文库的其余每个成员的引发位点序列。根据一个方面，所述转座体文库的每个转座体包括两个独特且不同的引发位点序列，其不同于该转座体文库的其余每个成员的引发位点序列。

所述转座体具有沿双链核酸(诸如双链基因组DNA)随机结合至靶位置，形成包括转座体和双链基因组DNA的复合物的能力。所述转座体中的转座酶切割所述双链基因组DNA，其中一个转座酶切割上链，一个转座酶切割下链。所述转座体中的每个转座子DNA都在切割位点的每个末端连接至双链基因组DNA，即，所述转座体的一个转座子DNA连接至左侧切割位点，所述转座体的另一个转座子DNA连接至右侧切割位点。当所述转座体的转座子DNA各自具有不同的引物结合位点序列时，左侧切割位点和右侧切割位点被不同且独特的条形码(即，引发位点序列)“条形码化”。当所述转座体的转座子DNA各自具有相同的引物结合位点序列时，左侧切割位点和右侧切割位点被相同的条形码(即引发位点序列)“条形码化”。当用于制备片段的相邻转座体各自具有不同且独特的引物结合位点序列时，所得片段将在其每个末端具有不同且独特的引物结合位点。根据某些方面，例如，多个转座酶/转座子DNA复合物二聚体，即转座体，沿着双链基因组DNA与相应的多个靶位置结合，然后将双链基因组DNA切割成多个双链片段，其中每个片段具有在双链片段的每个末端连接有不同条形码序列的转座子DNA。

根据一个方面，所述转座子DNA连接至所述双链基因组DNA，并且在基因组DNA的一条链与转座子DNA的一条链之间存在单链缺口。根据一个方面，进行缺口延伸以填充缺口并在双链基因组DNA与双链转座子DNA之间产生双链连接。根据一个方面，包括转座酶结合位点和引发位点序列的核酸序列连接在双链片段的每个末端。根据某些方面，所述转座酶与转座子DNA连接，所述转座子DNA连接在双链片段的每个末端。根据一个方面，从转座子DNA中去除转座酶，所述转座子DNA连接在双链基因组DNA片段的每个末端。

根据本公开的一个方面，然后使用转座子DNA作为模板，对具有转座子DNA的双链基因组DNA片段进行缺口填充并延伸，所述转座子DNA具有连接在双链基因组DNA片段的每个末端的不同引发位点序列。由此产生了双链核酸延伸产物，其包括双链基因组DNA片段和双链转座子DNA，所述双链转座子DNA在双链基因组DNA的每个末端包括不同的引发位点序列。

在这一阶段，可使用本领域技术人员已知的方法扩增包括基因组DNA片段、每个末端上的不同的引发位点序列的双链核酸延伸产物，以产生基因组DNA片段和每个末端的不同引物结合位点的扩增子。PCR引物序列和试剂可用于扩增。本文所述的转座子还可包含用于产生RNA转录物的RNA聚合酶结合位点，所述RNA转录物可随后被反转录为cDNA以进行线性扩增。可将双链核酸延伸产物(包括基因组DNA片段和在每个末端的不同的引发位点序列)与扩增试剂结合，然后可使用本领域技术人员已知的方法扩增双链基因组核酸片段，以产生双链基因组核酸片段的扩增子。

然后可在进一步分析之前收集和/或纯化扩增子。可使用本领域技术人员已知的方法对扩增子进行测序。一旦测序，就可对序列进行计算分析以鉴定基因组DNA。

本公开的实施方案涉及使用多重末端标记扩增DNA的方法，其中所述DNA是少量或小量的基因组DNA或有限量的DNA，诸如获自单个细胞或相同细胞类型的多个细胞或来自获自个体或底物的组织、液体或血液样品的一个或多个基因组序列。根据本公开的某些方面，本文所述的方法可在单个管中进行以产生在每一个末端具有不同且独特的序列的片段，所述片段随后可以被扩增并使用本领域技术人员已知的高通量测序平台对其进行测序。

本文所述的转座体片段化和条形码化方法可用于扩增少量或小量或有限量的DNA，然后对所述DNA进行测序。本文所述的方法在以高度异质的细胞群为特征的生物系统或组织样品(诸如肿瘤和神经团)中具有特定的应用。本文所述的方法可使用DNA材料的各种来源，包括遗传异质组织(例如癌症)、稀少和珍贵样品(例如胚胎干细胞)和非分裂细胞(例如神经元)等，还可以使用本领域技术人员已知的测序平台和基因分型方法。

在以下对实施例及其附图的描述中以及根据权利要求书，本公开的某些实施方案的其他特征和有利方面将变得更加明显。

附图简述

根据以下结合附图对说明性实施方案的详细描述，将更充分地理解本发明的前述和其它特征和有利方面，其中：

图1示意性地描绘了具有线性5'延伸的转座子DNA的结构，其中T是双链转座酶结合位点，M是在延伸的一端处的多重引发位点。

图2是可在液滴或其它形成介质中自发形成转座体的转座酶和转座子DNA的一般实施方案的示意图。在转座体形成之前，每个转座子具有以不同模式表示的不同且独特的引发位点序列。转座体形成后，转座体的每个转座子都具有以不同模式表示的不同且独特的引发位点序列。

图3A是转座体与基因组DNA结合、切成片段并添加或插入转座子DNA的示意图，其中，每个转座体的每个转座子上包含转座酶结合位点(黑色)和以不同模式表示的独特且不同的引发位点序列。

图3B是转座体与基因组DNA结合、切成片段并添加或插入转座子DNA的示意图，所述转座子DNA包括转座酶结合位点(黑色)和代表所述转座体的独特且不同的引发位点序列，即相同的所述独特且不同的引物结合位点序列存在于该转座体的每个转座子上，所述引物结合位点序列在每个转座体中由相同模式表示。每个转座体之间的不同引物结合位点序列由不同的模式表示。

图4是去除转座酶、缺口填充以形成核酸延伸产物的示意图，所述核酸延伸产物包括基因组DNA、转座酶结合位点以及在延伸产物的每个末端上的独特且不同的引发位点序列。

图5是显示图4的片段的多重PCR扩增的示意图。

图6是示出低输入甲基化检测方法的一般工作流程的示意图。

图7是显示scEM-seq的工作流程的示意图。

图8是使用不同的比对算法(PE或PE+SE)获得的与sc-COOL seq和scWGBS相比的scEM-seq的基因组覆盖率。PE：使用末端配对比对(pair-end alignment)。PE+SE：对未与参考基因组比对的reads使用单端比对(single-end alignment)。scEM-seq和sc-COOL seq在4细胞期小鼠胚胎上进行。scWGBS在鼠标ESC上执行。

图9是scEM-seq、sc-COOL seq和scWGBS之间的比对率(mapping rate)比较。

图10是sc-COOL seq与scEM-seq之间的甲基化速率分布比较。

详述

根据一个方面，提供了单细胞全基因组扩增、测序和组装的方法，其包括使来自单细胞的双链基因组DNA与转座酶诸如Tn5转座酶接触，所述转座酶各自结合于转座子DNA，其中所述转座子DNA包括双链19bp的转座酶(Tnp)结合位点和第一核酸序列(其包括独特且不同的引发位点序列)，以形成称为转座体的转座酶/转座子DNA复合物二聚体。所述第一核酸序列可呈单链延伸的形式。根据一个方面，所述第一核酸序列可以是悬突(overhang)，诸如5'悬突(5’overhang)，其中该悬突包括独特且不同的引发位点序列。所述悬突可根据需要包括其它功能序列。所述悬突可具有适合于包括引发位点序列或期望的其它功能序列的任何长度。所述转座体沿双链基因组DNA与靶位置结合，并将双链基因组DNA切割成多个双链片段，其中每个双链片段具有通过Tnp结合位点连接至上链的第一复合物和通过Tnp结合位点连接至下链的第二复合物。所述转座子结合位点，以及因此所述转座子DNA与所述引物结合位点，都连接至所述双链片段的每个5'末端。根据一个方面，从所述复合物中除去所述Tn5转座酶。

所述双链片段包括一个或多个胞嘧啶或一个或多个甲基胞嘧啶，并沿着转座子DNA延伸，以产生双链延伸产物，所述双链延伸产物在其每个末端具有相异或不同或独特的引发位点序列。根据一个方面，可以填充可能由于Tn5转座酶结合位点连接至双链基因组DNA片段而引起的缺口。

所述缺口填充的双链延伸产物随后在载体DNA存在的情况下进行化学处理以将胞嘧啶转化为尿嘧啶。

将所述缺口填充的双链延伸产物与扩增试剂混合，并扩增所述双链基因组DNA片段。使用例如本领域技术人员已知的高通量测序方法对在每个末端包括相异或不同或独特的引发位点序列(其可充当条形码序列)的扩增子进行测序。

在特定的方面，实施方案涉及在对基本上整个基因组进行扩增、测序和组装而不丢失对特定位点的描述(representation)的方法(在本文中定义为“全基因组扩增”)。在具体实施方案中，全基因组扩增包括对基因组文库的基本上所有片段或所有片段进行扩增。在进一步的具体实施方案中，“基本上整个”或“基本上所有”是指基因组中所有序列的约80％、约85％、约90％、约95％、约97％或约99％。

除非另外指出，否则某些实施方案或某些实施方案的特征的实施可采用在本领域普通技术人员能力内的分子生物学、微生物学、重组DNA等的常规技术。此类技术在文献中被充分解释。参见，Sambrook,Fritsch和Maniatis,MOLECULAR CLONING:A LABORATORYMANUAL，第2版(1989),OLIGONUCLEOTIDE SYNTHESIS(M.J.Gai编辑，1984),ANIMAL CELLCULTURE(R.I.Freshney，编辑，1987),the series METHODS IN ENZYMOLOGY(AcademicPress,Inc.)；GENE TRANSFER VECTORS FOR MAMMALIAN CELLS(J.M.Miller和M.P.Calos编辑1987),HANDBOOK OF EXPERIMENTAL IMMUNOLOGY,(D.M.Weir和C.C.Blackwell，编辑),CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel,R.Brent,R.E.Kingston,D.D.Moore,J.G.Siedman,J.A.Smith,and K.Struhl,eds.,1987),CURRENT PROTOCOLS INIMMUNOLOGY(J.E.Coligan,A.M.Kruisbeek,D.H.Margulies,E.M.Shevach和W.Strober，编辑，1991)；ANNUAL REVIEW OF IMMUNOLOGY；以及诸如ADVANCES IN IMMUNOLOGY等期刊的专题论文。本文上文和下文所提及的所有专利、专利申请和出版物均由此通过引用并入本文。

本文使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域标准论文和文本(例如，Kornberg和Baker,DNA Replication，第2版(W.H.Freeman,NewYork,1992)；Lehninger,Biochemistry，第2版(Worth Publishers,New York,1975)；Strachan和Read,Human Molecular Genetics，第2版(Wiley-Liss,New York,1999)；Eckstein，编者，Oligonucleotides and Analogs:A Practical Approach(OxfordUniversity Press,New York,1991)；Gait，编者，Oligonucleotide Synthesis:APractical Approach(IRL Press,Oxford,1984)；等等)的术语和符号。

定义

如本文中所用，术语“生物样品”旨在包括但不限于从受试者分离的组织、细胞、生物流体及其分离物，以及受试者体内存在的组织、细胞和流体。

术语“体外”具有其本领域公认的含义，例如，涉及纯化的试剂或提取物，例如细胞提取物。术语“体内”还具有其本领域公认的含义，例如涉及活细胞，例如永生化的细胞、原代细胞、细胞系和/或生物体中的细胞。

如本文中所用，术语“互补”和“互补性”用于指与碱基配对法则相关的核苷酸序列。例如，序列5'-AGT-3'与序列5'-ACT-3'互补。互补可以是部分的也可以是全部的。当一个或多个核酸碱基根据碱基配对法则不匹配时，发生部分互补。当每个核酸碱基在碱基配对法则下与另一个碱基匹配时，发生核酸之间的全部或完全互补。核酸链之间的互补程度对核酸链之间的杂交效率和强度具有重要影响。

术语“杂交”是指互补核酸的配对。杂交和杂交强度(即，核酸之间缔合的强度)受诸如以下因素影响：核酸之间的互补程度、所涉及条件的严格性、形成的杂交体的T_m以及核酸内的G:C比率。在其结构内包互补核酸的配对的单个分子被称为是“自身杂交的(self-hybridized)”。

术语“T_m”是指核酸的解链温度。解链温度是双链核酸分子群体的一半解离成单链时的温度。用于计算核酸的T_m的方程式在本领域中是公知的。如标准参考文献所示，当核酸在1M NaCl的水溶液中时，可以通过以下公式计算T_m值的简单估算值：T_m＝81.5+0.41(％G+C)(参见，例如Anderson和Young,Quantitative Filter Hybridization,in Nucleic AcidHybridization(1985))。其它参考资料包括更复杂的计算，所述计算在T_m的计算中考虑了结构以及序列特征。

术语“严格性”是指进行核酸杂交时所处的温度、离子强度和其它化合物诸如有机溶剂的存在的条件。

当用于核酸杂交时，“低严格条件”包括等同于下述的条件：当使用长度为约500个核苷酸的探针时，在42℃下在由5x SSPE和100mg/ml变性鲑鱼精子DNA组成的溶液中结合或杂交，所述5x SSPE包含43.8g/l NaCl,6.9g/l NaH₂PO₄(H₂O)和1.85g/l EDTA,用NaOH将pH调节至7.4)、0.1％SDS、5x Denhardt试剂(每500ml的50x Denhardt包含：5g Ficoll(Type400,Pharmacia),5g BSA(Fraction V；Sigma))；然后在42℃下于含有5x SSPE,0.1％SDS的溶液中洗涤。

当用于核酸杂交时，“中等严格条件”包括等同于下述的条件：当采用长度为约500个核苷酸的探针时，在42℃下在由5x SSPE和100mg/ml变性鲑鱼精子DNA组成的溶液中结合或杂交，所述5x SSPE包含43.8g/l NaCl,6.9g/l NaH₂PO₄(H₂O)和1.85g/l EDTA,用NaOH将pH调节至7.4)、0.5％SDS、5x Denhardt试剂；然后在42℃下于含有1.0x SSPE,1.0％SDS的溶液中洗涤。

当用于核酸杂交时，“高严格条件”包括等同于下述的条件：当采用长度为约500个核苷酸的探针时，在42℃下在由5x SSPE和100mg/ml变性鲑鱼精子DNA组成的溶液中结合或杂交，所述5x SSPE包含43.8g/l NaCl,6.9g/lNaH₂PO₄(H₂O)和1.85g/l EDTA,用NaOH将pH调节至7.4)、0.5％SDS、5xDenhardt试剂；然后在42℃下于含有0.1x SSPE,1.0％SDS的溶液中洗涤。

如本文中所用，术语“基因组”定义为由个体、细胞或细胞器所携带的集合基因集。如本文中所用，术语“基因组DNA”定义为包含由个体、细胞或细胞器所携带的部分或全部集合基因集的DNA材料。

如本文中所用，术语“核苷”是指具有与核糖或脱氧核糖糖共价连接的嘌呤或嘧啶碱基的分子。示例性核苷包括腺苷、鸟苷、胞苷、尿苷和胸苷。另外的示例性核苷包括肌苷、1-甲基肌苷、假尿苷、5,6-二氢尿苷、核糖胸苷、2N-甲基鸟苷和2,2N,N-二甲基鸟苷(也称为“稀有”核苷)。术语“核苷酸”是指具有一个或多个通过酯键与糖部分连接的磷酸基团的核苷。示例性核苷酸包括核苷一磷酸、二磷酸和三磷酸。术语“多核苷酸”、“寡核苷酸”和“核酸分子”在本文可中互换使用，并且是指通过5'与3'碳原子之间的磷酸二酯键联连接在一起的任意长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸)的聚合物。多核苷酸可具有任何三维结构，并且可执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段(例如，探针、引物、EST或SAGE标签)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、具有任何序列的分离的DNA、具有任何序列的分离的RNA、核酸探针和引物。多核苷酸可包含经修饰的核苷酸，诸如甲基化的核苷酸和核苷酸类似物。该术语还指双链和单链分子。除非另有说明或要求，否则包含多核苷酸的本发明的任何实施方案既包括双链形式，也包括已知或预测组成双链形式的两个互补单链形式中的每一个。多核苷酸由四个核苷酸碱基的特定序列组成：腺嘌呤(A)；胞嘧啶(C)；鸟嘌呤(G)；胸腺嘧啶(T)；以及当多核苷酸为RNA时，为对应于胸腺嘧啶的尿嘧啶(U)。因此，术语多核苷酸序列是多核苷酸分子的字母表示。可以将该字母表示形式输入到具有中央处理单元的计算机中的数据库中，并用于生物信息学应用，诸如功能基因组学和同源性搜索。

术语“DNA”、“DNA分子”和“脱氧核糖核酸分子”是指脱氧核糖核苷酸的聚合物。DNA可以天然合成(例如，通过DNA复制)。RNA可被转录后修饰。DNA也可以化学合成。DNA可以是单链的(即，ssDNA)或多链的(例如，双链的，即dsDNA)。

术语“核苷酸类似物”、“改变的核苷酸”和“经修饰的核苷酸”是指非标准核苷酸，包括非天然存在的核糖核苷酸或脱氧核糖核苷酸。在某些示例性实施方案中，可在任何位置修饰核苷酸类似物，以改变核苷酸的某些化学性质，但保留核苷酸类似物执行其预期功能的能力。可被衍生的核苷酸的位置的实例包括5位，例如5-(2-氨基)丙基尿苷、5-溴尿苷、5-丙炔尿苷、5-丙烯基尿苷等；等等；6位，例如6-(2-氨基)丙基尿苷；腺苷和/或鸟苷的8位，例如8-溴鸟苷、8-氯鸟苷、8-氟鸟苷等。核苷酸类似物还包括脱氮核苷酸，例如7-脱氮-腺苷；经O-和N-修饰的(例如，烷基化的，例如，N6-甲基腺苷，或其它本领域中所知晓的修饰)核苷酸；以及其它杂环修饰的核苷酸类似物，诸如Herdewijn,Antisense Nucleic AcidDrug Dev.,2000Aug.10(4):297-310中描述的那些。

核苷酸类似物还可包含对核苷酸的糖部分的修饰。例如，2'OH-基团可被选自以下的基团替代：H、OR、R、F、Cl、Br、I、SH、SR、NH₂、NHR、NR₂、COOR或OR，其中R是被取代或未取代的C₁-C₆烷基、烯基、炔基、芳基等。其它可能的修饰包括美国专利第5,858,988号和第6,291,438号中所描述的那些修饰。

核苷酸的磷酸酯基团也可例如通过用硫(例如，硫代磷酸酯)取代磷酸酯基团的一个或多个氧，或通过进行允许核苷酸执行其预期的功能的其它取代(诸如，例如在Eckstein,Antisense Nucleic Acid Drug Dev.2000Apr.10(2):117-21,Rusckowski等Antisense Nucleic Acid Drug Dev.2000Oct.10(5):333-45,Stein,Antisense NucleicAcid Drug Dev.2001Oct.11(5):317-25,Vorobjev等Antisense Nucleic Acid DrugDev.2001Apr.11(2):77-85和美国专利第5,684,143号中所描述的)来进行修饰。某些上述修饰(例如，磷酸酯基团修饰)降低了例如包含所述类似物的多核苷酸在体内或体外的水解速率。

获得DNA样品

通过本文描述的方法处理的核酸可以是DNA，并且它们可获自任何有用的来源，诸如，例如人样品。在具体实施方案中，双链DNA分子被进一步定义为包含基因组，诸如，例如，从人的样品获得的基因组。所述样品可以是来自人的任何样品，诸如血液、血清、血浆、脑脊液、脸颊刮屑、乳头抽吸物、活检物、精液(其可被称为精液(ejaculate))、尿液、粪便、毛囊、唾液、汗液、免疫沉淀或物理分离的染色质等。在具体实施方案中，样品包含单个细胞。在具体实施方案中，样品仅包括单个细胞。

根据一个方面，所述DNA样品是基因组DNA、显微解剖的染色体DNA、酵母人工染色体(YAC)DNA、质粒DNA、粘粒DNA、噬菌体DNA、P1衍生的人工染色体(PAC)DNA或细菌人工染色体(BAC)DNA、线粒体DNA、叶绿体DNA、法医样品DNA或来自待测试的天然或人工来源的其它DNA。在另一个优选的实施方案中，所述DNA样品是哺乳动物DNA、植物DNA、酵母DNA、病毒DNA或原核DNA。在另一个优选实施方案中，DNA样品获自人、牛、猪、绵羊、马、啮齿动物、禽类、鱼、虾、植物、酵母、病毒或细菌。优选地，所述DNA样品是基因组DNA。

在某些示例性实施方案中，鉴定细胞，然后分离单个细胞或多个细胞。本公开范围内的细胞包括本领域技术人员认为在其中理解DNA含量是有用的任何类型的细胞。根据本公开的细胞包括任何类型的癌细胞、肝细胞、卵母细胞、胚胎细胞、干细胞、iPS细胞、ES细胞、神经元、红细胞、黑素细胞、星形胶质细胞、生殖细胞、少突胶质细胞、肾细胞等。根据一个方面，用来自单个细胞的细胞DNA实施本发明的方法。多个细胞包括约2至约1,000,000个细胞、约2至约10个细胞、约2至约100个细胞、约2至约1,000个细胞、约2至约10,000个细胞、约2至约100,000个细胞、约2个至约10个细胞或约2至约5个细胞。

如本文中所用，“单个细胞”是指一个细胞。可从目标组织或从活检物、血液样品或细胞培养物中获得可用于本文所述方法的单个细胞。另外，可获得来自特定器官、组织、肿瘤、赘生物(neoplasm)等的细胞，并将其用于本文所述的方法中。此外，通常地，可将来自任何群体的细胞用于所述方法，诸如原核或真核单细胞生物(包括细菌或酵母)群体。可使用本领域已知的标准方法获得单细胞悬浮液，所述方法包括例如使用胰蛋白酶或木瓜蛋白酶酶促消化组织样品中连接细胞的蛋白质或释放培养物中的贴壁细胞，或机械分离样品中的细胞。可将单细胞放置在任何允许单细胞被单独处理的合适反应容器中。例如96孔板，使得每个单个细胞被放置在单个孔中。

操纵单细胞的方法是本领域已知的，包括荧光激活细胞分选(FACS)、流式细胞术(Herzenberg.,PNAS USA 76:1453-55 1979)、显微操作和使用半自动细拣选器(例如，来自Stoelting Co.的Quixell^TM细胞转移系统)。例如，可以基于可通过显微镜观察检测的特征(诸如位置、形态或报告基因表达)来单独选择单个细胞。另外，梯度离心和流式细胞术的组合也可以用于增加分离或分选效率。

一旦鉴定出所需细胞，使用本领域技术人员已知的方法裂解细胞以释放包括DNA在内的细胞内容物。将所述细胞内容物包含在容器或收集空间内。在本发明的一些方面，可以通过裂解细胞从细胞释放细胞内容物，诸如基因组DNA。裂解可通过例如加热细胞，或通过使用去垢剂或其它化学方法，或通过这些方法的组合来实现。然而，可使用本领域已知的任何合适的裂解方法。例如，在Tween-20存在下，将细胞在72℃加热2分钟，足以溶解细胞。或者，可将细胞在水中加热至65℃，进行10分钟(Esumi等，Neurosci Res 60(4):439-51(2008))；或在补充有0.5％NP-40的PCR缓冲液II(Applied Biosystems)中加热至70℃，进行90秒(Kurimoto等，Nucleic Acids Res 34(5):e42(2006))；或可用蛋白酶诸如蛋白酶K或通过使用离液盐诸如异硫氰酸胍来实现裂解(美国公开号2007/0281313)。根据本文描述的方法扩增基因组DNA可以直接在细胞裂解物上进行，从而可将反应混合物添加到细胞裂解物中。或者，可使用本领域技术人员已知的方法将细胞裂解物分成两个或更多个体积，诸如分入两个或更多个容器、管或区域中，其中将一部分细胞裂解物包含在每个体积的容器、管或区域中。然后可通过本文所述的方法或本领域技术人员已知的方法扩增包含在每个容器、管或区域中的基因组DNA。

用于本发明的核酸还可包括天然或非天然碱基。在这方面，天然脱氧核糖核酸可具有一个或多个选自腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的碱基，而核糖核酸可具有一个或多个选自尿嘧啶、腺嘌呤、胞嘧啶或鸟嘌呤的碱基。可包含在核酸中的示例性非天然碱基，无论具有天然骨架还是类似物结构，包括但不限于肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤、5-甲基胞嘧啶、5-羟甲基胞嘧啶、2-氨基腺嘌呤、6-甲基腺嘌呤、6-甲基鸟嘌呤、2-丙基鸟嘌呤、2-丙基腺嘌呤、2-硫氧嘧啶、2-硫胸腺嘧啶、2-硫胞嘧啶、15-卤代尿嘧啶、15-卤代胞嘧啶、5-丙炔基尿嘧啶、5-丙炔基胞嘧啶、6-偶氮尿嘧啶、6-偶氮胞嘧啶、6-偶氮胸腺嘧啶、5-尿嘧啶、4-硫尿嘧啶、8-卤腺嘌呤或鸟嘌呤、8-氨基腺嘌呤或鸟嘌呤、8-硫醇腺嘌呤或鸟嘌呤、8-硫代烷基腺嘌呤或鸟嘌呤、8-羟基腺嘌呤或鸟嘌呤、5-卤素取代的尿嘧啶或胞嘧啶、7-甲基鸟嘌呤、7-甲基腺嘌呤、8-氮杂鸟嘌呤、8-氮杂腺嘌呤、7-脱氮鸟嘌呤、7-脱氮腺嘌呤、3-脱氮鸟嘌呤、3-脱氮腺嘌呤等。特定的实施方案可在核酸中利用异胞嘧啶和异鸟嘌呤，以减少非特异性杂交，如美国专利第5,681,702中通常所述的。

使用转座子产生片段

本发明部分地基于诸如从DNA或基因组DNA制备核酸片段模板的方法，该方法使用转座酶或转座体将原始或起始核酸序列(诸如基因组DNA)片段化并将不同的引发位点序列连接至切割位点或断裂位点的每个末端，从而产生一组片段(该组的每个成员具有两个独特且不同的引发位点序列)。核酸片段模板被扩增以产生扩增子。可以收集核酸片段模板的扩增子并对其进行测序。收集的扩增子形成原始核酸诸如基因组DNA的片段的扩增子文库。根据一个示例性方面，描述了使用酶诸如Tn5制备核酸片段的方法。此类方法是本领域已知的，并且包括使用illumina Nextera试剂盒实践的那些方法。根据一个示例性方面，就从较大的dsDNA序列产生片段、其中所述片段被标记有引物从而用于单引物延伸和扩增的角度而言，本文所述的方法利用转座体文库和被称为“tagmentation”的方法。

根据一个方面，获得了基因组DNA，诸如获自裂解的单个细胞的基因组核酸。使用多个转座体或转座体文库将基因组DNA切割成双链片段。多个转座体或文库中的每个转座体是与转座子DNA结合的转座酶的二聚体，即每个转座体包括两个分开的转座子DNA。转座体的每个转座子DNA包括转座酶结合位点和引物结合位点序列。所述引物结合位点序列对于所述转座体是独特的。根据一个方面，转座体的每个转座子的引发位点序列可以是独特的和/或不同的。根据一个方面，转座体的每个转座子的引发位点序列可以是相同的。根据一个方面，大多数转座体具有两个具有不同引发位点序列的转座子DNA，而仅一小部分转座体具有两个具有相同引发位点序列的转座子DNA。根据一个方面，每个转座子成员的两个转座子DNA的引发位点序列可以是相同的，但来自不同转座体成员的转座子DNA的一个或多个引发位点序列是独特的和不同的。具有与转座酶结合的引发位点序列的转座子核酸序列可在每个胞嘧啶上被甲基化，从而在甲基化检测所需的胞嘧啶转化后，引发位点序列不会改变。

根据一个方面，转座体的每个转座子DNA的引发位点序列是独特的和不同的。根据一个方面，转座体的转座子DNA的一个或多个引发位点序列是独特的，并且与所述多个转座体或转座体文库的其余成员不同。根据一个方面，所述多个转座体或转座体文库中的每个转座体具有其自身独特的和不同的引发位点序列，其不同于所述多个转座体或转座体文库的其余成员，并且可具有两个独特的且不同的引发位点序列，其不同于所述多个转座体或转座体文库的其余成员。所述转座子DNA在每个切割或断裂位点连接至每个双链片段的上链和下链。由于每个转座子DNA的引发位点序列可以不同，因此用不同的引发位点序列标记切割或断裂位点。由于每个转座子DNA的引发位点序列可以相同，因此用相同的引发位点序列标记切割或断裂位点。在用于产生片段的相邻转座体各自具有与其相关的不同引物结合位点序列的情况下，该片段在片段的每个末端具有不同的引物结合位点序列。因此，该片段将具有两个独特且不同的引物结合位点序列。由于每个转座体具有与其相关的其自身独特和/或不同的引发位点序列(以及可具有与其相关的两个独特和/或不同的引发位点序列)，并且转座体的文库被用于产生许多切割或断裂位点，因此使用转座体文库来产生许多切割或断裂位点，每个切割或断裂位点将具有连接在切割位点的任一末端的不同且独特的引发位点序列，并且每个片段在片段的各末端上具有不同和/或独特的引发位点序列。因此，通过转座体文库产生了来自原始核酸序列的许多片段，其中每个片段在片段的每个末端具有相异的引发位点序列。然后处理双链片段以填充缺口。使用合适的扩增试剂，诸如引物序列、DNA聚合酶和用于PCR扩增的核苷酸来扩增片段，并使用本领域技术人员已知的方法进行测序。

根据某些方面，示例性转座子系统包括Tn5转座酶、Mu转座酶、Tn7转座酶或IS5转座酶等。其它有用的转座子系统是本领域技术人员已知的，包括Tn3转座子系统(参见Maekawa,T.,Yanagihara,K.,and Ohtsubo,E.(1996),A cell-free system of Tn3transposition and transposition immunity,Genes Cells 1,1007-1016)、Tn7转座子系统(参见Craig,N.L.(1991),Tn7:a target site-specific transposon,Mol.Microbiol.5,2569-2573)、Tn10转座子系统(参见Chalmers,R.,Sewitz,S.,Lipkow,K.,and Crellin,P.(2000),Complete nucleotide sequence of Tn10,J.Bacteriol 182,2970-2972)、Piggybac转座子系统(参见Li,X.,Burnight,E.R.,Cooney,A.L.,Malani,N.,Brady,T.,Sander,J.D.,Staber,J.,Wheelan,S.J.,Joung,J.K.,McCray,P.B.,Jr.等(2013),PiggyBac transposase tools for genome engineering,Proc.Natl.Acad.Sci.USA 110,E2279-2287)、睡美人转座子系统(Sleeping beautytransposon system)(参见Ivics,Z.,Hackett,P.B.,Plasterk,R.H.和Izsvak,Z.(1997),Molecular reconstruction of Sleeping Beauty,a Tc1-like transposon from fish,and its transposition in human cells,Cell 91,501-510)、Tol2转座子系统(参见Kawakami,K.(2007),Tol2:a versatile gene transfer vector in vertebrates,GenomeBiol.8Suppl.1,S7.)

特定的Tn5转座系统已被描述，并且其对于本领域技术人员而言是已知的。参见Goryshin,I.Y.和W.S.Reznikoff,Tn5 in vitro transposition.The Journal ofbiological chemistry,1998.273(13)：第7367-74页；Davies,D.R.等，Three-dimensionalstructure of the Tn5 synaptic complex transposition intermediate.Science,2000.289(5476)：第77-85页；Goryshin,I.Y.等，Insertional transposon mutagenesisby electroporation of released Tn5 transpositioncomplexes.Naturebiotechnology,2000.18(1)：第97-100页以及Steiniger-White,M.,I.Rayment和W.S.Reznikoff,Structure/function insights into Tn5transposition.Currentopinion in structural biology,2004.14(1)：第50-7页，所述每一篇文献出于所有目的由此通过引用整体并入。将Tn5转座系统用于DNA文库制备和其它用途的试剂盒是已知的。参见Adey,A.等，Rapid,low-input,low-bias construction of shotgun fragmentlibraries by high-density in vitro transposition.Genome biology,2010.11(12)：第R119页；Marine,R.等，Evaluation of a transposase protocol for rapidgeneration of shotgun high-throughput sequencing libraries from nanogramquantities of DNA.Applied and environmental microbiology,2011.77(22)：第8071-9页；Parkinson,N.J.等，Preparation of high-quality next-generation sequencinglibraries from picogram quantities of target DNA.Genome research,2012.22(1)：第125-33页；Adey,A.和J.Shendure,Ultra-low-input,tagmentation-based whole-genome bisulfite sequencing.Genome research,2012.22(6)：第1139-43页；Picelli,S.等，Full-length RNA-seq from single cells using Smart-seq2.Nature protocols,2014.9(1)：第171-81页以及Buenrostro,J.D.等，Transposition of native chromatinfor fast and sensitive epigenomic profiling of open chromatin,DNA-bindingproteins and nucleosome position.Nature methods,2013，所述每一篇文献出于所有目的由此通过引用整体并入。另见WO 98/10077、EP 2527438和EP 2376517，其每一个由此通过引用整体并入本文。市售转座子试剂盒以商品名NEXTERA出售，并且可从Illumina获得。

缺口填充

本文所述的转座体方法产生的双链片段随后被加工以填充缺口。根据一个方面，所述转座子可包括一种或多种甲基化胞嘧啶，诸如本文所述的甲基化胞嘧啶衔接子(adapter)或引物。对于使用甲基化胞嘧啶衔接子进行Tn5转座的系统，所述缺口填充步骤包括在dNTP混合物中使用甲基化dCTP代替dCTP，以产生完全甲基化的双链衔接子。

载体DNA和任选的纯化

根据某些方面，所述缺口填充的片段随后与载体DNA组合。载体DNA可以是长度在100个碱基对(bp)至4千个碱基对之间的任何dsDNA片段。根据一个方面，所述载体DNA可以是与靶DNA不同的DNA类型。根据一个方面，所述载体DNA可以是与靶DNA相同的DNA类型。根据一个方面，所述载体DNA是经超声处理的λDNA。根据一个方面，载体DNA不包括Illumina测序衔接子。

所述载体DNA用于保护所述靶DNA免受化学处理的严苛条件，并减少对所述靶DNA的损伤或所述靶DNA的损失。关于DNA损伤，示例性非亚硫酸氢盐转化利用强氧化剂Fe(II)，其将通过产生羟基自由基而引起DNA损伤。以样品DNA量的100至1000倍(例如，100至1000倍)的量添加到反应介质中的所述载体DNA，用于占据过量的羟基自由基，从而防止或限制其与靶DNA之间的相互作用。根据一个示例性方面，对于来自单个细胞的6pg样品DNA，提供20ng经超声处理的λ载体DNA。

关于DNA损失，所述转化反应在不同步骤之前或甚至在不同步骤之间使用专用的缓冲液和纯化方法(缓冲液交换，同时保存DNA)。而且，在PCR扩增之前可能需要纯化步骤以去除化学试剂。作为胞嘧啶转化过程的结果，可以进行两个或三个纯化步骤。如果输入的DNA量很低(诸如来自单个细胞的DNA)，则每个DNA纯化步骤可导致50％-90％的DNA损失。但是，如果将载体DNA添加到样品DNA中，诸如将20ngλDNA添加到6pg样品DNA中，则所述DNA纯化只引起10％的损失，尽管与载体DNA混合在一起，却可以保留90％的样品DNA。根据本公开，所述DNA纯化的效率随着输入DNA的量增加而增加。

根据某些方面，在进行甲基化检测所需的DNA转化之前，可通过DNA旋转柱(DNAspin-column)或基于珠粒的DNA纯化(beads-based DNA purification)或本领域技术人员已知的其它纯化方法来纯化包括经缺口填充的双链区段和载体DNA的所述反应介质。或者，所述反应介质可以直接进行化学转化。

化学处理

与载体DNA结合的经缺口填充片段继续与化学试剂混合，所述化学试剂将胞嘧啶化学改变为尿嘧啶。此类化学试剂描述于US 2013/0244237中并且可从New EnglandBiolabs获得。基于本公开，其它酶促试剂对于本领域技术人员将变得显而易见。根据一个方面，所述试剂不是亚硫酸氢盐或不包括亚硫酸氢盐，或者所述试剂将胞嘧啶转化为尿嘧啶，条件是该试剂不是亚硫酸氢盐。

任选的纯化

根据某些方面，可在扩增之前通过DNA旋转柱或基于珠粒的DNA纯化或本领域技术人员已知的其它纯化方法来纯化包括所述经化学转化的片段的反应介质。或者，所述反应介质可以直接进行扩增。

扩增

根据一个方面，通过使用靶向由转座体掺入到片段中的衔接子序列的引物，仅扩增靶片段。载体DNA不被扩增，并因变性而变成ssDNA。

表述“扩增(amplification)”或“扩增(amplifying)”是指籍以形成特定多核苷酸的额外或多个拷贝的过程。待扩增的DNA可获自单个细胞或小群体的细胞。本文所述的方法允许从任何物种或生物体中和在反应混合物(诸如在单个反应容器中进行的单个反应混合物)中扩增DNA。在一个方面，本文所述的方法包括来自任何来源的DNA的不依赖于序列的扩增，所述来源包括但不限于人、动物、植物、酵母、病毒、真核和原核DNA。

使用本文描述的转座酶方法制备的DNA片段模板可使用本领域技术人员已知的方法在微滴内进行扩增。微滴可以形成为油相和水相的乳液。乳液可在连续油相中包括水滴或分离的水性体积。乳液全基因组扩增方法使用油中的小体积水滴来分离每个片段，以用于均匀扩增单个细胞的基因组。通过将每个片段分配到其自身的液滴或分离的水性反应体积中，可使每个液滴达到DNA扩增的饱和度。然后，每个液滴内的扩增子通过破乳作用合并，从而使单个细胞的整个基因组的所有片段均等地扩增。

在某些方面，使用PCR实现扩增。PCR是其中使用一对引物或一组引物(由上游和下游引物组成)和聚合催化剂(诸如DNA聚合酶)(通常是热-稳定的聚合酶)由靶多核苷酸制备复制拷贝的反应。用于PCR的方法是本领域公知的，并且例如在MacPherson等(1991)PCR 1:A Practical Approach(IRL Press at Oxford University Press)中进行了教导。Mullis(美国专利第4,683,195号、第4,683,202号和第4,965,188号)的术语“聚合酶链反应”(“PCR”)是指增加靶序列的片段浓度而无需克隆或纯化的方法。该扩增靶序列的方法包括提供具有所需靶序列的寡核苷酸引物和扩增试剂，然后在聚合酶(例如，DNA聚合酶)存在的情况下进行精确的热循环顺序。引物与双链靶序列的它们各自相应的链(“引物结合序列”)互补。为了实现扩增，使双链靶序列变性，然后将引物与其在靶分子内的互补序列退火。退火后，用聚合酶延伸引物，以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可以重复多次(即，变性、退火和延伸构成一个“循环”；可以有多个“循环”)以获得高浓度的所需靶序列的扩增区段。所需靶序列的扩增片段的长度由引物相对于彼此的相对位置决定，因此，该长度是可控制的参数。由于该过程中的重复，该方法被称为“聚合酶链反应”(以下称为“PCR”)，并且该靶序列被称为“PCR扩增的”。

借助PCR，可以将基因组DNA中特定靶序列的单拷贝扩增到可通过几种不同方法(例如，与标记探针杂交；掺入生物素化引物，然后进行抗生物素蛋白-酶缀合物检测；将32P标记的脱氧核苷酸三磷酸(诸如dCTP或dATP)掺入扩增的片段中)检测到的水平。除了基因组DNA，任何寡核苷酸或多核苷酸序列都可以用适当的引物分子组进行扩增。特别地，由所述PCR过程本身在每个微滴内产生的扩增片段本身即是用于后续PCR扩增的高效模板。进行PCR的方法和试剂盒是本领域公知的。产生多核苷酸的复制拷贝的所有过程，诸如PCR或基因克隆，在本文中统称为复制。引物也可以用作杂交反应诸如Southern或Northern印迹分析中的探针。

表述“扩增(amplification)”或“扩增(amplifying)”是指籍以形成特定多核苷酸的额外或多个拷贝的过程。扩增包括诸如PCR、连接扩增(或连接酶链式反应，LCR)和其它扩增方法等的方法。这些方法是本领域已知的并且广泛实践的。参见，例如，美国专利第4,683,195号和第4,683,202号以及Innis等，″PCR protocols:a guide to method andapplications”Academic Press,Incorporated(1990)(对于PCR)和Wu等(1989)Genomics4:560-569(对于LCR)。通常，PCR程序描述了基因扩增方法，该方法包括(i)引物与DNA样品(或文库)中的特定基因的序列特异性杂交，(ii)随后使用DNA聚合酶进行的扩增，包括多轮退火、延伸和变性；以及(iii)筛选PCR产物的正确大小的条带。所使用的引物是具有足够长度和适当序列以提供聚合起始的寡核苷酸，即，每个引物被专门设计为与待扩增的基因组基因座的每条链互补。

用于进行扩增反应的试剂和硬件是商购可得的。用于扩增来自特定基因区域的序列的引物优选与靶区域或其侧翼区域中的序列互补并特异性杂交，并且可使用本领域技术人员已知的方法制备。通过扩增产生的核酸序列可以直接测序。

当在两个单链多核苷酸之间以反向平行构型发生杂交时，该反应被称为“退火”，并且那些多核苷酸被描述为“互补的”。如果在第一多核苷酸的链之一与第二多核苷酸的链之一之间可以发生杂交，则双链多核苷酸与另一多核苷酸互补或同源。根据普遍接受的碱基配对法则，互补性或同源性(一个多核苷酸与另一个多核苷酸互补的程度)可根据相对链中预期会彼此形成氢键的碱基比例定量。

术语“PCR产物”、“PCR片段”和“扩增产物”是指在变性、退火和延伸的PCR步骤的两个或更多个循环完成之后所得化合物的混合物。这些术语包括其中已经扩增了一个或多个靶序列的一个或多个区段的情况。

术语“扩增试剂”可以指除引物、核酸模板和扩增酶外的扩增所需的那些试剂(脱氧核糖核苷酸三磷酸、缓冲液等)。通常，将扩增试剂与其它反应组分一起放置并容纳在反应容器(试管、微孔等)中。扩增方法包括本领域技术人员已知的PCR方法，并且还包括滚环扩增(Blanco等，J.Biol.Chem.,264,8935-8940,1989)、超支链滚环扩增(Lizard等，Nat.Genetics,19,225-232,1998)和环介导的等温扩增(Notomi等，Nuc.Acids Res.,28,e63,2000)，所述每一篇文献由此通过引用整体并入。

对于乳液PCR，通过剧烈振荡或搅拌“油包水”混合物以产生数百万个微米大小的水性区室来产生乳液PCR反应。微流体芯片可配备有通过振荡或搅拌油相和水相来产生乳液的装置。或者，可通过将某种油与水相混合或将水相引入油相中而自发形成水滴。乳化前，将待扩增的DNA文库以有限稀释度混合。区室大小(即微滴大小)与待扩增的DNA片段文库的有限稀释产生的微滴量的组合，用于产生平均仅包含一个DNA分子的区室。取决于微滴形成或乳化步骤期间生成的水性区室的大小，可以在同一管中同时进行每μl多达3x 10⁹个单独的PCR反应。基本上，乳液中基本上每个小的水性区室微滴都形成了微型PCR反应器。乳液中区室的平均大小范围为直径亚微米至100微米以上，或1皮升至1000皮升或1纳升至1000纳升或1皮升至1纳升或1皮升至1000纳升，这取决于乳化条件。

根据本公开，可使用在英国专利申请号GB 2,202,328和PCT专利申请号PCT/US89/01025(每个专利申请通过引用并入本文)中描述的其它扩增方法。在前一申请中，“经修饰的”引物用于依赖于PCR样模板和酶的合成中。引物可通过用捕获部分(例如，生物素)和/或检测部分(例如，酶)标记来修饰。在后一种应用中，将过量的标记探针添加到样品中。在靶序列存在的情况下，探针结合并被催化切割。切割后，靶序列被完整释放以被过量探针结合。标记探针的切割表明靶序列的存在。

其它合适的扩增方法包括“race PCR”和“单侧PCR”。(Frohman,In:PCRProtocols:A Guide To Methods And Applications,Academic Press,N.Y.,1990，每个通过引用并入本文)。基于在存在具有所得“二聚寡核苷酸(di-oligonucleotide)”序列的核酸的情况下连接两个(或多个)寡核苷酸，从而扩增该二聚寡核苷酸的方法，也可根据本公开用于扩增DNA(Wu等，Genomics 4:560-569,1989，通过引用并入本文)。

如本文中所用，术语“引物”通常包括天然的或合成的寡核苷酸，其在与多核苷酸模板形成双链体后能够充当核酸合成的起始点(诸如测序引物)，并从其3'端沿模板延伸，从而形成延伸的双链体。在延伸过程中添加的核苷酸的序列由模板多核苷酸的序列确定。通常，引物通过DNA聚合酶延伸。引物的长度通常为3至36个核苷酸，也为5至24个核苷酸，也为14至36个核苷酸。在本发明范围内的引物包括正交引物、扩增引物、构建引物等。引物对可位于目标序列或一组目标序列的两侧。引物和探针在序列上可以是简并或半简并的。在本发明范围内的引物与靶序列相邻结合。“引物”可被认为是短的多核苷酸，通常具有游离的3'-OH基团，其通过与靶标杂交而与可能存在于目标样品中靶标或模板结合，并随后促进与靶标互补的多核苷酸聚合。本发明的引物由17至30个核苷酸组成。在一个方面，引物为至少17个核苷酸，或者可选地至少18个核苷酸，或者可选地至少19个核苷酸，或者可选地至少20个核苷酸，或者可选地至少21个核苷酸，或者可选地至少22个核苷酸，或者可选地至少23个核苷酸，或者可选地至少24个核苷酸，或者可选地至少25个核苷酸，或者可选地至少26个核苷酸，或者可选地至少27个核苷酸，或者可选地至少28个核苷酸，或者可选地至少29个核苷酸，或者可选地至少30个核苷酸，或者可选地至少50个核苷酸，或者可选地至少75个核苷酸或者可选地至少100个核苷酸。

纯化

根据某些方面，在测序之前，可通过DNA旋转柱或基于珠粒的DNA纯化或本领域技术人员已知的其它纯化方法来纯化包括扩增片段的反应介质。扩增(诸如通过PCR反应)后进行的DNA纯化将去除大多数单链载体DNA，这会产生纯的经扩增的靶DNA文库准备用于测序。

测序

可使用本领域技术人员已知的方法对根据本文所述的方法扩增的DNA进行测序和分析。可使用本领域已知的多种测序方法来确定目标核酸序列的序列，所述方法包括但不限于通过杂交测序(SBH)、通过连接测序(SBL)(Shendure等(2005)Science 309:1728)、定量增量荧光核苷酸加成测序(quantitative incremental fluorescent nucleotideaddition sequencing)(QIFNAS)、逐步连接并切割(stepwise ligation and cleavage)、荧光共振能量转移(FRET)、分子信标、TaqMan报告基因探针消化、焦磷酸测序、荧光原位测序(FISSEQ)、FISSEQ珠粒(美国专利第7,425,431号)、摆动测序(PCT/US05/27695)、多重测序(2008年2月6日提交的美国序列号12/027,039；Porreca等(2007)Nat.Methods 4:931)、聚合菌落(POLONY)测序(美国专利第6,432,360号、第6,485,944号和第6,511,803号以及PCT/US05/06425)；纳米网格滚环测序(ROLONY)(2008年5月14日提交的美国序列号12/120,541)、等位基因特异性寡核苷酸连接测定(allele-specific oligo ligation assay)(例如，寡核苷酸连接测定(OLA)、使用连接的线性探针和滚环扩增(RCA)读数的单模板分子OLA、连接的挂锁探针和/或使用连接的圆形挂锁探针和滚环扩增(RCA)读数的单模板分子OLA)等。也可以利用高通量测序方法，例如使用诸如Roche 454、Illumina Solexa、AB-SOLiD、Helicos、Polonator平台之类的平台。多种基于光的测序技术在本领域中是已知的(Landegren等(1998)Genome Res.8:769-76；Kwok(2000)Pharmacogenomics 1:95-100和Shi(2001)Clin.Chem.47:164-172)。

可通过任何合适的方法对扩增的DNA进行测序。特别地，可使用高通量筛选方法(诸如，Applied Biosystems的SOLiD测序技术或Illumina的Genome分析仪)对扩增的DNA进行测序。在本发明的一个方面，可对扩增的DNA进行鸟枪法测序。读数(read)数量可以是至少10,000、至少100万、至少1000万、至少1亿或至少10亿。在另一方面，读数(read)数量可以是10,000至100,000，或可选地100,000至1百万，或可选地1,000,000至1千万，或可选地1000万至1亿，或可选地1亿至10亿。“读数(read)”是通过测序反应获得的连续核酸序列的长度。

“鸟枪测序法”是指用于对大量DNA(诸如整个基因组)进行测序的方法。在这种方法中，首先将待测序的DNA切成较小的片段，可对所述较小的片段进行单独测序。然后，根据它们的重叠序列将这些片段的序列重新组装成其原始顺序，从而产生完整的序列。DNA的“切碎”可使用多种不同技术来完成，所述技术包括限制性内切酶消化或机械剪切。通常用适当编程的计算机来比对重叠序列。用于对cDNA文库进行鸟枪测序的方法和程序是本领域公知的。

扩增和测序方法在预测医学领域中是有用的，在所述预测医学领域中诊断测定、预后测定、药物基因组学和监测临床试验被用于预后(预测)目的，从而预防性地治疗个体。因此，本发明的一个方面涉及用于确定基因组DNA以便确定个体是否有患病症和/或疾病的风险的诊断测定法。此类测定可用于预后或预测目的，从而在病症和/或疾病发作之前预防性治疗个体。因此，在某些示例性实施方案中，提供了使用本文所述的一种或多种表达谱分析方法诊断和/或预后一种或多种疾病和/或病症的方法。

电子实施方案

在某些示例性实施方案中，提供了包含本文所述的一个或多个基因组DNA序列的电子设备可读介质。如本文中所用，“电子设备可读介质”是指用于存储、保存或包含可由电子设备直接读取和访问的数据或信息的任何合适的介质。此类介质可以包括但不限于：磁性存储介质诸如软盘、硬盘存储介质和磁带；光存储介质诸光盘；电子存储介质，诸如RAM、ROM、EPROM、EEPROM等；通用硬盘和这些类型的杂交体诸如磁/光存储介质。所述介质适于或被配置用于在其上记录一个或多个本文所述的表达谱。

如本文中所用，术语“电子设备”旨在包括任何合适的计算或处理设备、或被配置来或适于存储数据或信息的其它设备。适用于本发明的电子设备的实例包括独立计算设备；网终，包括包括局域网(LAN)、广域网(WAN)Internet、Intranet和Extranet；电子设备，诸如个人数字助理(PDA)、蜂窝电话、寻呼机等；以及本地和分布式处理系统。

如本文中所用，“记录的”是指用于在电子设备可读介质上存储或编码信息的过程。本领域技术人员可容易地采用任何目前已知的方法在已知介质上记录信息，以产生包含本文所述的一个或多个表达谱的制品。

可使用多种软件程序和格式来将本发明的基因组DNA信息存储在电子设备可读介质上。例如，所述核酸序列可以以文字处理文本文件呈现，以商购可得的软件(诸如WordPerfect和MicroSoft Word)格式化，或者以ASCII文件的形式呈现，存储在数据库应用程序(诸如DB2、Sybase、Oracle等)中，以及以其它形式呈现。可以采用多个数据处理器结构格式(例如，文本文件或数据库)，以便获得或产生其上记录有本文所述的一个或多个表达谱的介质。

应当理解，已经描述的本发明的实施方案仅是本发明原理的一些应用的说明。在不脱离本发明的真实精神和范围的情况下，本领域技术人员可以基于本文给出的教导进行多种修改。在整个本申请中引用的所有参考文献、专利和公开的专利申请的内容出于所有目的由此通过引用整体并入。

示出以下实施例以代表本发明。这些实施例不应被解释为限制本发明的范围，因为鉴于本公开、附图和所附权利要求书，这些以及其它等效实施方案将是显而易见的。

实施例I

根据某些示例性方面，转座系统用于制备根据需要用于化学甲基化处理(包括载体DNA)、扩增和测序的核酸片段。根据一个方面，转座系统用于将基因组DNA进行片段化以形成双链基因组DNA片段，其中转座子DNA具有插入其中的不同引发位点序列。如图1所示，转座子DNA包括双链转座酶结合位点和独特且不同的引发位点序列M。尽管在图1中未示出，所述转座子DNA可包括一个或多个5-甲基胞嘧啶。所述双链转座酶结合位点可以是双链19bp的Tn5转座酶(Tnp)结合位点，其诸如通过共价键诸如在悬突的一个末端联接或连接至单链悬突(包括引物发点序列)。所述转座子DNA被插入单个细胞的基因组DNA中，同时使用转座酶产生片段。去除转座酶并填充缺口后，使用引物与DNA聚合酶、核苷酸和扩增试剂一起扩增在片段的每个末端具有相异或不同或独特的引发位点序列的基因组DNA片段，以PCR扩增单个细胞的整个基因组。

根据某些方面，当扩增少量或小量DNA，诸如来自少数细胞(即2至5个或2至10个细胞或2至100个细胞或单个细胞)的DNA时，不进行DNA柱纯化步骤以在扩增前最大化可从单个细胞内获得的少量(～6pg)基因组DNA。可直接从细胞裂解物或其它不纯条件中扩增DNA。因此，所述DNA样品可以是不纯的、未纯化的或未分离的。因此，本方法的各个方面允许最大化用于扩增的基因组DNA并减少由像其它方法(即非多重方法)一样在每个末端上具有相同引发位点序列的片段所导致的损失。根据另外的方面，本文所述的方法可利用除PCR外的扩增方法。

根据一个方面并且如图2中大体上所示，将转座酶(Tnp，灰色圆圈)和转座子DNA组合在一起以形成多个转座体，所述转座子DNA各自具有由不同模式突出端序列图示的独特且不同的引发位点序列。每个转座体都有两个不同且独特的引发位点序列。与所述多个转座体中的每个其它转座体相比，每个转座体都有两个不同且独特的引发位点序列。为了产生20个转座子序列的转座子混合物库，将等摩尔的每种类型的转座子序列在含有10mMTris pH＝8、50mM NaCl和1mM EDTA的缓冲液中混合。为了组装转座体复合物，将所述20个转座子库与Tn5转座酶以等摩尔比混合，并在室温下孵育30分钟。

如图3A所示，所述转座体文库的转座体以二聚体的形式随机捕获单个靶细胞基因组DNA或以其它方式与单个靶细胞基因组DNA结合。代表性转座体编号为1、2和3，尽管转座体成员的数量可以根据所需的应用而更大。具有不同和/或独特的引物结合位点序列的转座子的代表性数目为5至50。每个转座体包括两个独特和/或不同的引发位点序列。例如，转座体1包括两个独特和/或不同的引发位点序列，转座体2包括两个独特和/或不同的引发位点序列，转座体3包括两个独特和/或不同的引发位点序列，等等。所述独特和/或不同的引发位点序列在所述转座体的每个转座子DNA内。所述转座体中的转座酶切割基因组DNA，其中一个转座酶切割上链，一个转座酶切割下链以产生基因组DNA片段。尽管未在图3A中示出，但该片段可包括一个或多个胞嘧啶或一个或多个5-甲基胞嘧啶。所述多个转座体产生多个基因组DNA片段，其中一个或多个片段包括一个或多个胞嘧啶或一个或多个5-甲基胞嘧啶。

因此，来自转座子DNA二聚体的一个转座子DNA连接至切割位点或断裂位点的每个末端，即，来自转座体1的一个转座子DNA连接至左侧切割位点，而来自转座体1的另一个转座子DNA连接至右侧切割位点。由于转座体文库将核酸切割成片段，因此每个片段在片段的每个末端将具有相异的引发位点序列。这由两个示例性片段表示，其中上部片段在一个末端具有独特且不同的引发位点序列1，而在另一个末端具有独特且不同的引发位点序列2。同样，下部片段在一个末端具有独特的和不同的引发位点序列2，在另一个末端具有独特和不同的引发位点序列3。如所显示的，两个片段之间的切割位点由转座体2产生，左侧切割位点(即，观察图3中上部片段的右侧)包括一个具有独特且不同的引发位点序列2的转座子，而右侧切割位点(即，观察图3中下部片段的左侧)包括独特且不同的引发位点序列2(其中“2”指转座体2)。根据一个方面，将100nM转座体添加至细胞裂解物中，并且将转座反应混合物在55度下以5mM的最终镁浓度孵育10分钟。除去转座酶后，将基因组DNA切成数百万个小DNA片段，每个片段在每端均标记有所述20个转座子序列之一。(图3A)。这样，所述转座体文库可包含20个本文所述的不同和/或独特的引物结合位点序列，而所述转座体文库的成员可接近数百万个成员。

如图3B所示，所述转座体文库的转座体以二聚体的形式随机捕获靶单细胞基因组DNA或以其它方式与其结合。代表性的转座体编号为1、2和3，尽管转座体成员的数量可以根据所需的应用而更大。具有不同和/或独特的引物结合位点序列的转座子的代表性数目为5至50个。每个转座体在该转座体的每个转座子上包含相同的独特和/或不同的引物结合位点序列。例如，转座体1在每个转座子上包含相同的引物结合位点序列，转座体2在每个转座子上包含相同的引物结合位点序列，转座体3在每个转座子上包括相同的引物结合位点序列，等等。然而，每个转座体具有与其相关的独特且不同的引物结合位点，使得与该转座文库的其它成员相比，每个转座体具有与其相关的不同的引物结合位点。所述转座体中的转座酶切割基因组DNA，其中一个转座酶切割上链，一个转座酶切割下链以产生基因组DNA片段。所述多个转座体产生多个基因组DNA片段，其中一个或多个片段包括一个或多个胞嘧啶或一个或多个5-甲基胞嘧啶，以用于化学处理以将胞嘧啶变为尿嘧啶。因此，来自转座子DNA二聚体的一个转座子DNA连接至切割位点或断裂位点的每个末端，即，来自转座体1的一个转座子DNA连接至左侧切割位点，而来自转座体1的另一个转座子DNA连接至右侧切割位点。由于转座体文库将核酸切割成片段，每个片段在片段的每个末端将具有相异的引发位点序列，因为与核酸结合以产生片段的相邻转座体各自具有不同的引物结合位点序列。这由两个示例性片段表示，其中上部片段在一个末端上具有独特且不同的引发位点序列1，而在另一个末端上具有独特且不同的引发位点序列2。同样，下部片段在一个末端上具有独特且不同的引发位点序列2(其与上部片段的右端具有相同的引物结合位点序列)，而在另一个末端上具有独特且不同的引发位点序列3。如所显示的，两个片段之间的切割位点由转座体2产生，左侧切割位点(即，观察图3中上部片段的右侧)包括一个具有独特且不同的引发位点序列2的转座子，而右侧切割位点(即，观察图3中下部片段的左侧)包括独特且不同的引发位点序列2(其中“2”指转座体2)。因此，即使在转座体在每个转座子上具有相同的引物结合位点序列的情况下，该方法也产生在每个末端具有不同的引物结合位点序列的片段。

如图4所示，所述基因组DNA的断裂和甲基化转座子的插入在所述转座/插入位点的两端留下了缺口。所述缺口可具有任何长度，但9个碱基的缺口是示例性的。由此而产生的结果是具有连接至上链的5'位置的转座子DNA Tnp结合位点和连接至下链的5'位置的转座子DNA Tnp结合位点的基因组DNA片段。由于所述转座子DNA的连接或插入而引起的缺口被显示。转座后，去除所述转座酶并进行缺口延伸以填充缺口，并与如图4中所示的转座子DNA中最初设计的单链悬突互补。此后，在载体DNA存在的情况下，对经缺口填充的片段进行化学处理以将胞嘧啶转化为尿嘧啶。然后可对这些经化学处理的片段进行如本文所述的扩增和纯化。

根据一个方面，为填充由转座留下的缺口，包含每种200uM的dNTP、1X NEB Q5反应缓冲液、每种125nM的20种引物和0.02U/uL Q5 DNA聚合酶的DNA聚合酶反应混合物被随后添加，并在720℃下孵育3分钟(图4)。如图5进一步所示，将图4所示的片段进行多重PCR扩增以产生扩增子。按以下步骤进行15个循环的PCR反应：98℃30s，65℃1min，72℃2min，以扩增所述靶基因组DNA。然后通过Zymo DNA纯化柱纯化扩增产物。

实施例II

一般方案

在裂解缓冲液中裂解单个细胞。使用转座体文库进行Tn5转座，所述转座体文库包括各自具有如本文所述的不同且独特的引物结合位点序列(或各自具有两个不同且独特的引物结合位点序列)并且包括甲基化转座子的转座体，并将转座缓冲液添加至细胞裂解液中，将其充分混合，然后在55℃下孵育10分钟。转座后加入1mg/ml蛋白酶，以消除转座酶与单个细胞的基因组DNA的结合。将Q5 DNA聚合酶、dNTP、PCR反应缓冲液和引物添加到反应混合物中，将所述反应混合物加热到72℃进行10分钟，以填充由转座子插入所产生的缺口。加入载体DNA，诸如100bp至4000bp的经超声处理的λDNA，以及用于将胞嘧啶转化为尿嘧啶的化学试剂或酶试剂，并进行胞嘧啶向尿嘧啶的转化。在不进行预先纯化的情况下进行该步骤。然后，将经化学处理的片段进行5至25个循环的PCR反应，以扩增单个细胞的基因组DNA。该步骤无需纯化即可进行。纯化扩增产物以用于进一步分析，诸如通过高通量深度测序。

实施例III

细胞裂解

根据如下方法，选择细胞，从培养皿中切取细胞，并使用激光解剖显微镜(LMD-6500，Leica)将其分配在管中。将细胞铺在膜包被的培养皿上，并使用具有10倍物镜的明场显微镜(Leica)进行观察。然后，使用紫外线激光切割围绕单个所选择的细胞的膜，使得其落入PCR管的帽中。将所述管短暂离心以使细胞下降到管底部。将3-5μl裂解缓冲液(30mMTris-Cl PH 7.8,2mM EDTA,20mM KCl,0.2％Triton X-100,500μg/ml Qiagen蛋白酶)添加到PCR管的侧面并旋转沉降。然后在PCR仪上使用以下温度程序对捕获的细胞进行热裂解：50℃3小时，75℃30分钟。或者，将单个细胞用口吸管转移入含有EDTA和浓度为10-5000μg/mL的蛋白酶(诸如QIAGEN蛋白酶(QIAGEN))的低盐裂解缓冲液中。孵育条件根据所用蛋白酶的不同而不同。在使用QIAGEN蛋白酶的情况下，应在37-55℃下孵育1-4小时。然后将蛋白酶加热至80℃灭活，并进一步用特定的蛋白酶抑制剂诸如4-(2-氨基乙基)苯磺酰氟酸盐(AEBSF)或苯甲磺酰氟(PMSF)(Sigma Aldrich)灭活。在-80℃下保存细胞裂解物。

示例性单个细胞裂解程序如下：

(1)由以下溶液制备裂解缓冲液：a)20uL 1M Tris pH 8.0(Invitrogen15568025；最终：20mM)；b)4uL 5M NaCl(Invitrogen AM9760G；最终：20mM)；c)15uL 10％Triton X-100(Sigma 93443；最终：0.15％)；d)150uL100mM DTT(Sigma 43816；最终：15mM)；e)2uL0.5M EDTA (Invitrogen AM9260G；最终：1mM)；f)5uL 100uM载体ssDNA(最终：500nM)和g)804uL水。将混合物混合并在-20℃下储存。

(2)如下制备2X转座缓冲液(5uL/细胞；以下配方为1mL)：a)20uL 1MTAPS pH 8.5(Boston Bio Products BB-2375)(最终：20mM)；b)10uL 1MMgCl₂(最终：10mM)；c)320uL50％PEG 8000(Hampton Research HR2-535)(最终：16％)；d)650uL水。将组合物混合并在-20℃下储存。

(3)如下进行裂解。使用a)1uL 60mg/mL Qiagen蛋白酶和b)7uL水制备7.5mg/mLQiagen蛋白酶。每管加入2ul裂解缓冲液。每管添加0.5ul 7.5mg/ml QP。在密闭PCR仪中以2.5uL的体积裂解细胞，循环如下：a)50℃进行1小时；b)65℃进行1小时；b)70℃进行15分钟；c)4℃保持不变。

实施例IV

转座

将单个细胞的裂解液和转座体文库在含有1-100mM Mg²⁺以及任选的1-100mM Mn²⁺或Co²⁺或Ca²⁺的缓冲液系统中混合，然后在37-55℃下孵育5-240分钟。反应体积根据细胞裂物解体积而变化。根据所需的片段大小，可以容易地调节反应中添加的转座体文库的量。通过使用EDTA和任选的EGTA或其它离子螯合剂来螯合Mg²⁺以终止转座反应。任选地，短的双链DNA可被添加到混合物中以作为spike-in。通过在37-55℃下用终浓度为1-500μg/mL的蛋白酶消化(诸如QIAGEN蛋白酶)10-60分钟来使残留的转座体失活。然后通过热和/或蛋白酶抑制剂(诸如AEBSF)使蛋白酶失活。

如下提供示例性方法和构建体

Nextera构建体：

Nextera转座子具有一条链为5′-/Phos/-CTGTCTCTTATACACATCT-3′(SEQ ID NO:1)，具有一条5mC修饰链为5′-TMGTMGGMAGMGTMAGATGTGTATAAGAGAMAG-3′(“P5”)(SEQ IDNO:2)或5′-GTMTMGTGGGMTMGGAGATGTGTATAAGAGAMAG-3′(“P7”)(SEQ ID NO:3)(IDT，纯化：PAGE)。也可以使用Nextera XT(Illumina)。M代表甲基化的胞嘧啶。

Nextera index primer(IDT，纯化：标准脱盐；然后溶于0.1X TE至5uM，并保存于-20℃)的格式为：

5′-CAAGCAGAAGACGGCATACGAGAT-[i7]-GTCTCGTGGGCTCGG-3′and5′-AATGATACGGCGACCACCGAGATCTACAC-[i5]-TCGTCGGCAGCGTC-3′。

序列如下：

701:

CAAGCAGAAGACGGCATACGAGATTCGCCTTAGTCTCGTGGGCTCGG(SEQ ID NO:4)

702:

CAAGCAGAAGACGGCATACGAGATCTAGTACGGTCTCGTGGGCTCGG(SEQ ID NO:5)

703:

CAAGCAGAAGACGGCATACGAGATTTCTGCCTGTCTCGTGGGCTCGG(SEQ ID NO:6)

704:

CAAGCAGAAGACGGCATACGAGATGCTCAGGAGTCTCGTGGGCTCGG(SEQ ID NO:7)

705:

CAAGCAGAAGACGGCATACGAGATAGGAGTCCGTCTCGTGGGCTCGG(SEQ ID NO:8)

706:

CAAGCAGAAGACGGCATACGAGATCATGCCTAGTCTCGTGGGCTCGG(SEQ ID NO:9)

707:

CAAGCAGAAGACGGCATACGAGATGTAGAGAGGTCTCGTGGGCTCGG(SEQ ID NO:10)

708:

CAAGCAGAAGACGGCATACGAGATCCTCTCTGGTCTCGTGGGCTCGG(SEQ ID NO:11)

709:

CAAGCAGAAGACGGCATACGAGATAGCGTAGCGTCTCGTGGGCTCGG(SEQ ID NO:12)

710:

CAAGCAGAAGACGGCATACGAGATCAGCCTCGGTCTCGTGGGCTCGG(SEQ ID NO:13)

711:

CAAGCAGAAGACGGCATACGAGATTGCCTCTTGTCTCGTGGGCTCGG(SEQ ID NO:14)

712:

CAAGCAGAAGACGGCATACGAGATTCCTCTACGTCTCGTGGGCTCGG(SEQ ID NO:15)

501:

AATGATACGGCGACCACCGAGATCTACACTAGATCGCTCGTCGGCAGCGTC(SEQ ID NO:16)

502:

AATGATACGGCGACCACCGAGATCTACACCTCTCTATTCGTCGGCAGCGTC(SEQ ID NO:17)

503:

AATGATACGGCGACCACCGAGATCTACACTATCCTCTTCGTCGGCAGCGTC(SEQ ID NO:18)

504:

AATGATACGGCGACCACCGAGATCTACACAGAGTAGATCGTCGGCAGCGTC(SEQ ID NO:19)

505:

AATGATACGGCGACCACCGAGATCTACACGTAAGGAGTCGTCGGCAGCGTC(SEQ ID NO:20)

506:

AATGATACGGCGACCACCGAGATCTACACACTGCATATCGTCGGCAGCGTC(SEQ ID NO:21)

507:

AATGATACGGCGACCACCGAGATCTACACAAGGAGTATCGTCGGCAGCGTC(SEQ ID NO:22)

508:

AATGATACGGCGACCACCGAGATCTACACCTAAGCCTTCGTCGGCAGCGTC(SEQ ID NO:23)

用于产生本文所述数据的构建体是经5mC修饰的序列，其具有n＝20个具有以下序列的标签。应当理解，本领域技术人员可以设计许多其它此类引物结合位点序列组，并且以下20个转座子引物结合位点序列不意图以任何方式进行限制。

1.AGAAGMMGTGTGMMGGTMTA(SEQ ID NO:24)

2.ATMGTGMGGAMGAGAMAGMA(SEQ ID NO:25)

3.AATMMTAGMAMMGGTTMGMM(SEQ ID NO:26)

4.AMGTGTTGMAGGTGMAMTMG(SEQ ID NO:27)

5.AMAMMAMAMGGMMTAGAGTM(SEQ ID NO:28)

6.TGGAMAATMAMGMGAMMAGM(SEQ ID NO:29)

7.TMATMTAAMGMGMAMMGTGM(SEQ ID NO:30)

8.TTMGTMGGMTMTMTMGAAMM(SEQ ID NO:31)

9.TGGTGGAGMGTGMAGAMTMT(SEQ ID NO:32)

10.TATMTTMMTGMGMAGMGGAM(SEQ ID NO:33)

11.MTGAMGTGTGAGGMGMTAGA(SEQ ID NO:34)

12.MMATMATMMAAMMGGMTTMG(SEQ ID NO:35)

13.MAMGAGAAGMMGTMMGMTTA(SEQ ID NO:36)

14.MGTAMGTGMAAMAMTMMGMT(SEQ ID NO:37)

15.MTTGGTMAGGMGAGAAGMAM(SEQ ID NO:38)

16.GGMGTGATMAGTGMGTGGAT(SEQ ID NO:39)

17.GAGMGTTTGGTGAMMGMMAT(SEQ ID NO:40)

18.GMMTGMGGTMMATTGAMMTA(SEQ ID NO:41)

19.GTAAGMMAMTMMAGMGTMAM(SEQ ID NO:42)

20.GATMTGTTGMGMGTMTGGTG(SEQ ID NO:43)

Tn5转座子由5′-/Phos/CTGTCTCTTATACACATCT-3′构建，而另一链为5′-[tag]-AGATGTGTATAAGAGAMAG-3′的形式。将每种寡核苷酸(IDT，纯化：PAGE)溶解在0.1X TE中至终浓度为100uM。对于n＝20种标签中的每一种，将两条链以各自5uM的终浓度退火。然后将20个退火的转座子以等体积合并。第二，从pTXB1-Tn5质粒(Addgene)表达后纯化转座酶。以终浓度为1.25uM的二聚体(2.5uM单体)组装转座体，将其以1:10稀释(125nM二聚体或250nM单体)，并等分以用于单次使用，并于-80℃下储存。

20-引物混合物(20-primer Mix)(用于PCR混合物1中)为5′-[标签]AGATGTGTATAAG-3′的形式。将每种寡核苷酸(IDT，纯化：标准脱盐)溶于0.1X TE中至终浓度为100uM，并将其以体积混合(总计100uM，或每种5uM)。于-20℃下储存。40-引物混合物(40-primer Mix)(用于PCR混合物2)的Illumina衔接子的一侧为以下形式

5′ACACTCTTTCCCTACACGACGCTCTTCCGATCT-

[METAtag]AGATGTGTATAAG-3′，

另一侧为：

5′GACTGGAGTTCAGACGTGTGCTCTTCCGATCT-

[METAtag]AGATGTGTATAAG-3′。

将每种寡核苷酸(IDT，纯化：PAGE)溶解在0.1X TE中至终浓度为50uM，并以等体积合并(总计50uM，或每种1.25uM)，并于-20℃下储存。

为了在10ul反应中使用转座体(无论是Nextera还是本文所述的转座体)进行衔接子插入，对于每个单个细胞，在低结合PCR管中添加以下试剂中的每种试剂：A)2.5ul裂解样品；B)5ul 2x Trans缓冲液；C)2.5ul稀释的Tn5复合物，并在55℃保持10分钟，此后在4℃保持不变。

如下使用终止缓冲液来终止转座体反应：制备0.2mg/ml QP；制备终止缓冲液；1ul2x终止缓冲液；1ul 2mg/ml QP(最终100ug/ml)。通过在以下条件下运行(12uL体积)来终止或停止转座：a)50℃40min；b)70℃进行20min，c)此后在4℃保持不变。

实施例V

缺口填充和载体DNA

在转座和去除转座酶后，在合适的温度将包含Mg²⁺、dNTP混合物、引物和热稳定的DNA聚合酶(诸如Deepventexo-DNA聚合酶(New England Biolabs))的PCR反应混合物添加至溶液中并持续合适的时间段，以填充由转座反应留下的9bp缺口。缺口填充孵育温度和时间取决于所用的特定DNA聚合酶。反应后，任选地通过加热和/或蛋白酶处理(诸如QIAGEN蛋白酶)使DNA聚合酶失活。如果使用了蛋白酶，则通过加热和/或蛋白酶抑制剂将其灭活。然后将载体DNA (dsDNA)添加到反应介质中。存在的载体DNA包括长度在100bp与4000bp之间的DNA片段(诸如通过对λDNA进行超声处理而产生的)。载体DNA在反应介质中的存在量至少为20ng，介于20ng与50ng之间。

示例性缺口填充程序如下：

1.在5-甲基-dCTP(每种nt 2.5mM)中制备dNTP混合物。将100uL 10mM dTTP(NEBN0443S)、100uL 10mM dGTP(NEB N0442S)、100uL 10mM dATP(NEB N0440S)添加到100uL10mM 5-甲基-dCTP(NEB N0356S)中，然后通过涡旋充分混合，于-20℃下储存。

2.制备PCR混合液(23uL/细胞)；a)7uL Q5反应缓冲液(随Q5一起包含的)；b)7uLQ5 High GC增强剂(随Q5一起包含的)；c)在5-甲基-dCTP中的2.8uL dNTP混合物(每种nt2.5mM)；d)0.7uL 100mM MgCl₂(Invitrogen AM9530G)；e)0.35uL Q5(NEB M0491S)；f)1ul20ng/ulλ载体DNA(经超声处理的200-300bp)；g)4.15ul H₂O。涡旋混合。

3.每管添加23uL PCR混合物，避免接触液体。涡旋并旋转沉淀。

通过在以下条件下运行(35uL体积)来填充缺口：a)4℃进行3min(使盖子预热)；b)65℃进行3min；c)于4℃下储存。

净化：1.直接向pcr管中加入200ul结合缓冲液，混合10次，转移至柱子(ZYMODCC)；2.200ul洗涤两次；3.在17.8ul洗脱缓冲液(无edta，EM-seq试剂盒的NEB白色盖瓶)中洗脱。

实施例VI

胞嘧啶至尿嘧啶的化学或酶促转化

然后将载体DNA(dsDNA)与化学试剂一起添加到反应介质中以将胞嘧啶转化为尿嘧啶。在将胞嘧啶化学或酶促转化为尿嘧啶的过程中存在的载体DNA包括长度为100bp至4000bp的DNA片段(诸如通过对λDNA进行超声处理产生的)。载体DNA在反应介质中的存在量至少为20ng，介于20ng与50ng之间。

实施例VII

DNA片段扩增

根据一个方面，使用本领域技术人员已知的一般方法来扩增DNA片段。将来自以上实施例的化学转化的片段与PCR反应试剂在水性介质中合并。然后使水性介质经受PCR条件以PCR扩增每个DNA片段。

实施例VIII

DNA片段扩增子的测序

根据一个方面，使用本领域技术人员已知的方法对片段进行测序，并将序列存储在计算机可读存储器中。然后可使用本领域技术人员已知的方法，包括软件方法，将序列进行比较，组装成基因组序列。

实施例IX

单个细胞的甲基化检测

本公开的一个方面示于图7中。

(1)从单个细胞或2个细胞或4个细胞或...100个细胞中提取靶DNA。这种提取的DNA被认为是少量的。

(2)使用Tn5转座体将靶DNA片段化并插入或连接甲基化转座子。与Tn5结合的转座子引物在每个胞嘧啶上被完全甲基化。由此得到的是包括完全甲基化的PCR衔接子的靶DNA的片段。

(3)对片段进行缺口填充。缺口填充后，将载体DNA添加到反应中。载体DNA是由λDNA产生的，该λDNA已被超声处理成100bp至400bp的片段。

(4)通过DNA旋转柱纯化反应介质。使用NEB的EM-seq试剂盒进行DNA转化。修改EM-seq试剂盒的ABOPEC步骤以将体积减小至40ul。

(5)转化后，无需纯化DNA就将Q5U聚合酶和缓冲液直接加入反应中。通过使用本文所述的Nextera PCR引物(如果使用Nextera转座体系统)或PCR引物进行全基因组扩增。

(6)PCR反应后，纯化反应介质以除去单链载体DNA，纯化的文库准备用于DNA测序。

如图8所示，与现有的单细胞全甲基化组(methylome)测序技术相比，本文描述的使用转座体方式与载体DNA的方法导致更高的基因组覆盖率。如图9所示，与现有的单细胞全甲基化组测序技术相比，本文描述的使用转座体方式与载体DNA的方法导致更高的比对率(mapping rate)。如图10所示，与现有的单细胞全甲基化组测序技术相比，本文描述的使用转座体方式与载体DNA的方法导致更高的准确性。技术包括scWGBS“Smallwood,S.A.,Lee,H.J.,Angermueller,C.,Krueger,F.,Saadeh,H.,Peat,J.,...&Kelsey,G.(2014).Single-cell genome-wide bisulfite sequencing for assessing epigeneticheterogeneity.Nature methods,11(8),817.”和scCOOL-seq“Guo,F.,Li,L.,Li,J.,Wu,X.,Hu,B.,Zhu,P.,...&Tang,F.(2017).Single-cell multi-omics sequencing of mouseearly embryos and embryonic stem cells.Cell research,27(8),967.”。

实施例X

Enzymatic Methyl-seq试剂盒转化

5-甲基胞嘧啶和5-羟甲基胞嘧啶的氧化

1.制备TET2缓冲液。

将100μl TET2反应缓冲液(随TET2一起包含的)添加到一管TET2反应缓冲液补充剂(随TET2一起包含的)中并充分混合，然后于20℃下储存。

2.制备新鲜稀释的铁(II)。

用水将500mM铁(II)溶液(随TET2一起包含的)稀释至0.4mM。

3.在冰上，将9.6uL氧化预混物(6uL重配的TET2反应缓冲液(随TET2一起包含的)、0.6uL氧化补充剂(随TET2一起包含的)、0.6uL氧化增强剂(随TET2一起包含的)、2.4uLTET2(E7120S))直接添加到17.4μl加标签的DNA中。通过涡旋充分混合，短暂离心，然后添加3uL 0.4mM新鲜稀释的铁(II)至总共30uL的体积。通过涡旋充分混合，然后短暂离心。在热循环仪中于37℃孵育1小时，然后于4℃孵育。TET反应的总体积为30ul，所述体积足以用于低输入量的DNA。总体积可介于20ul与40ul之间。该范围内的体积有利地允许在同一单个管中进行以下纯化步骤以减少DNA的损失。

4.加入0.6μl终止剂(随TET2一起包含的)。通过涡旋充分混合，然后短暂离心。在热循环仪中于37℃孵育30分钟，然后于4℃孵育。

清除氧化的DNA

1.将200ul结合缓冲液直接加入到PCR管中，混合10次，转移至柱子(ZYMO DCC)

2. 200ul洗涤两次

3.在12.3ul洗脱缓冲液(无EDTA，EM-seq试剂盒中的NEB白盖瓶)中洗脱

相比于磁珠纯化(beads purification)，优选进行DNA的柱纯化(columnpurification)，以使由于纯化引起的DNA损失降至最低。

用氢氧化钠使DNA变性

1.通过向99uL水中添加1uL 10M NaOH，制备新鲜稀释的0.1NNaOH(Sigma)。

2.向12μl氧化的DNA中加入3μl 0.1N NaOH。涡旋混合，然后短暂离心。在预热的热循环仪中于50℃孵育10分钟。然后，置于冰上，进行至下一部分。

胞嘧啶的脱氨

1.通过向998.52μl水中添加1.48μl，将37％的盐酸(Sigma 30721)稀释至0.018M。

2.在冰上，向15μl变性的DNA中加入7uL 0.018M的HCl。

3.在冰上，添加18uL脱氨预混物(13.2uL水，4uL APOBEC反应缓冲液(随APOBEC一起包含的)、0.4uL BSA(随APOBEC一起包含的)、0.4uL APOBEC(E7120S))。通过涡旋充分混合，短暂离心。

4.在热循环仪中于37℃下孵育3小时，然后在4℃下孵育。

变性步骤和ABOPEC反应的反应体积为40ul，可介于30ul与60ul之间。该体积有利地允许避免用APOBEC处理后的DNA纯化步骤。可通过在40ul ABOPEC反应中加入40ul PCR缓冲液混合物(包含DNA聚合酶和引物)来直接进行PCR。

实施例XI

通过PCR制备文库

Nextera构建体

结合使用40ul脱氨系统，40ul Q5U 2x预混物和0.4ul 100mM nextera index序列(P5和P7)。通过以下运行(80.8uL体积)进行扩增：a)4℃进行3分钟(以使盖子预热)，b)98℃进行20s，c)12个循环(98℃进行10s，62℃进行30s，65℃进行1min)，e)65℃进行5分钟，以及f)保持4℃不变。使用Ampure Beads进行1.2x Beads尺寸选择。

META(多末端标记扩增)构建体：

组合以下方面：META 20-引物混合物(20-primer Mix)，2uL；40ul DNA洗脱物；40ul Q5U 2x master mix；在98℃下孵育20s，10个循环[98℃进行10s，62℃进行30s，65℃进行1分钟]和65℃进行5分钟。在此步骤中，用13.8uL洗脱缓冲液纯化扩增产物，并通过额外的两个PCR步骤制备测序文库。在第一PCR步骤中，通过添加16.5uL PCR混合物2(15ulQ5U2x master mix和1.5uL 40-引物混合物(40-primer Mix))，并在98℃下孵育30s，进行2个循环(98℃进行10s+62℃进行30s+65℃进行1min)以及在65℃进行5min来进行PCR。在第二PCR步骤中，通过添加1uL 20U/uLExoI(NEB M0293S)并在37℃下孵育30min，72℃进行20min类似地去除引物。通过添加2.5uL NEB index primer(NEB E7335S,E7500S,E7710S,E7730S)和6.5uL PCR混合物3(5uLQ5U 2x预混物(NEB)、1.25uL水、0.25uL通用引物(IDT，纯化：PAGE)，并在98℃下孵育30s，进行2个或更多个循环(98℃进行10s+62℃进行30s+65℃进行1分钟)以及在65℃进行5min来类似地进行PCR。可在此步骤或之后的任何步骤中合并文库。将1.2xAMpure珠粒用于尺寸选择。

实施例IX

试剂盒

可将所公开的扩增方法所需的材料和试剂一起组装在试剂盒中。本公开的试剂盒通常将至少包括所述方法所必需的转座体(由转座酶和转座子DNA组成)、核苷酸、DNA聚合酶、载体DNA和将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为尿嘧啶的化学试剂以及所需的引物对。在优选实施方案中，所述试剂盒还将包含用于从DNA样品扩增DNA的说明书。示例性试剂盒是适用于扩增整个基因组DNA的试剂盒。在每种情况下，所述试剂盒将优选具有用于每种单独的试剂、酶或反应物的不同容器。通常将每种试剂适当地等分在其各自的容器中。所述试剂盒的容器工具通常将包括至少一个小瓶或管。可将试剂放入其中的烧瓶、瓶子和其它容器工具也是可能的。优选将试剂盒的各个容器密闭保存，以用于商业销售。合适的较大容器可包括其中保留有所需小瓶的注射或吹塑塑料容器。优选将说明书与试剂盒一起提供。

SEQUENCE LISTING

<110> 北京大学

<120> 哺乳动物DNA的甲基化检测及分析

<130> IDC210493

<160> 43

<170> PatentIn version 3.5

<210> 1

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> Nextera转座子的一条链

<400> 1

ctgtctctta tacacatct 19

<210> 2

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> Nextera转座子的5mC修饰链 P5

<220>

<221> modified_base

<222> (2)..(2)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (8)..(8)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(14)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (31)..(31)

<223> n为甲基化胞嘧啶

<400> 2

tngtnggnag ngtnagatgt gtataagaga nag 33

<210> 3

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> Nextera转座子的5mC修饰链 P7

<220>

<221> modified_base

<222> (3)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (32)..(32)

<223> n为甲基化胞嘧啶

<400> 3

gtntngtggg ntnggagatg tgtataagag anag 34

<210> 4

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 4

caagcagaag acggcatacg agattcgcct tagtctcgtg ggctcgg 47

<210> 5

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 5

caagcagaag acggcatacg agatctagta cggtctcgtg ggctcgg 47

<210> 6

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 6

caagcagaag acggcatacg agatttctgc ctgtctcgtg ggctcgg 47

<210> 7

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 7

caagcagaag acggcatacg agatgctcag gagtctcgtg ggctcgg 47

<210> 8

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 8

caagcagaag acggcatacg agataggagt ccgtctcgtg ggctcgg 47

<210> 9

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 9

caagcagaag acggcatacg agatcatgcc tagtctcgtg ggctcgg 47

<210> 10

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 10

caagcagaag acggcatacg agatgtagag aggtctcgtg ggctcgg 47

<210> 11

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 11

caagcagaag acggcatacg agatcctctc tggtctcgtg ggctcgg 47

<210> 12

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 12

caagcagaag acggcatacg agatagcgta gcgtctcgtg ggctcgg 47

<210> 13

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 13

caagcagaag acggcatacg agatcagcct cggtctcgtg ggctcgg 47

<210> 14

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 14

caagcagaag acggcatacg agattgcctc ttgtctcgtg ggctcgg 47

<210> 15

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 15

caagcagaag acggcatacg agattcctct acgtctcgtg ggctcgg 47

<210> 16

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 16

aatgatacgg cgaccaccga gatctacact agatcgctcg tcggcagcgt c 51

<210> 17

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 17

aatgatacgg cgaccaccga gatctacacc tctctattcg tcggcagcgt c 51

<210> 18

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 18

aatgatacgg cgaccaccga gatctacact atcctcttcg tcggcagcgt c 51

<210> 19

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 19

aatgatacgg cgaccaccga gatctacaca gagtagatcg tcggcagcgt c 51

<210> 20

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 20

aatgatacgg cgaccaccga gatctacacg taaggagtcg tcggcagcgt c 51

<210> 21

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 21

aatgatacgg cgaccaccga gatctacaca ctgcatatcg tcggcagcgt c 51

<210> 22

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 22

aatgatacgg cgaccaccga gatctacaca aggagtatcg tcggcagcgt c 51

<210> 23

<211> 51

<212> DNA

<213> 人工序列

<220>

<223> Nextera index primer

<400> 23

aatgatacgg cgaccaccga gatctacacc taagccttcg tcggcagcgt c 51

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (6)..(7)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(14)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (18)..(18)

<223> n为甲基化胞嘧啶

<400> 24

agaagnngtg tgnnggtnta 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (3)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (7)..(7)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(16)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(19)

<223> n为甲基化胞嘧啶

<400> 25

atngtgngga ngaganagna 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (4)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(12)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(17)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(20)

<223> n为甲基化胞嘧啶

<400> 26

aatnntagna nnggttngnn 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (2)..(2)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (15)..(15)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(17)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(19)

<223> n为甲基化胞嘧啶

<400> 27

angtgttgna ggtgnantng 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (2)..(2)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (4)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (7)..(7)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (12)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 28

anannanang gnntagagtn 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(17)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 29

tgganaatna ngngannagn 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (2)..(2)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (15)..(16)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 30

tnatntaang ngnanngtgn 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (3)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (6)..(6)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (15)..(15)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(20)

<223> n为甲基化胞嘧啶

<400> 31

ttngtnggnt ntntngaann 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(17)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(19)

<223> n为甲基化胞嘧啶

<400> 32

tggtggagng tgnagantnt 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (4)..(4)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (7)..(8)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (13)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(16)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 33

tatnttnntg ngnagnggan 20

<210> 34

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (1)..(1)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(14)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(16)

<223> n为甲基化胞嘧啶

<400> 34

ntgangtgtg aggngntaga 20

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (1)..(2)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (8)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (12)..(13)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(16)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(19)

<223> n为甲基化胞嘧啶

<400> 35

nnatnatnna annggnttng 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (1)..(1)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (3)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (10)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(15)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(17)

<223> n为甲基化胞嘧啶

<400> 36

nangagaagn ngtnngntta 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (1)..(1)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (5)..(5)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (12)..(12)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(14)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (16)..(17)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (19)..(19)

<223> n为甲基化胞嘧啶

<400> 37

ngtangtgna anantnngnt 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (1)..(1)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (7)..(7)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (18)..(18)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 38

nttggtnagg ngagaagnan 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (3)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(14)

<223> n为甲基化胞嘧啶

<400> 39

ggngtgatna gtgngtggat 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (4)..(4)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (14)..(15)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(18)

<223> n为甲基化胞嘧啶

<400> 40

gagngtttgg tganngnnat 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (2)..(3)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (6)..(6)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (10)..(11)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (17)..(18)

<223> n为甲基化胞嘧啶

<400> 41

gnntgnggtn nattgannta 20

<210> 42

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (6)..(7)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (9)..(9)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (11)..(12)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (15)..(15)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (18)..(18)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (20)..(20)

<223> n为甲基化胞嘧啶

<400> 42

gtaagnnant nnagngtnan 20

<210> 43

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 转座子引物结合位点序列

<220>

<221> modified_base

<222> (4)..(4)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (10)..(10)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (12)..(12)

<223> n为甲基化胞嘧啶

<220>

<221> modified_base

<222> (15)..(15)

<223> n为甲基化胞嘧啶

<400> 43

gatntgttgn gngtntggtg 20

Claims

1.一种分析靶基因组DNA的甲基化特征的方法，其包括：

使基因组DNA与转座体的文库接触，其中所述文库的每个转座体具有两个转座酶和两个转座子DNA，其中每个转座子DNA包括转座酶结合位点和引物结合位点序列，其中所述引物结合位点序列不同于所述转座体文库的其它成员的引物结合位点，其中每个转座子DNA包含一个或多个5-甲基胞嘧啶，

其中所述转座体的文库沿基因组DNA与靶位置结合，并且所述转座酶将所述基因组DNA切割成代表基因组DNA片段文库的多个双链基因组DNA片段，其中每个双链基因组DNA片段均包括一个或多个胞嘧啶和/或一个或多个5-甲基胞嘧啶、以及在所述基因组DNA片段的每个末端上的独特和/或不同的引物结合位点序列，

填充所述转座子DNA与基因组DNA片段之间的缺口，以形成双链基因组DNA片段延伸产物的文库，所述双链基因组DNA片段延伸产物在每个末端具有独特和/或不同的引物结合位点序列，

在载体DNA存在的情况下处理所述双链基因组DNA片段延伸产物的文库以将胞嘧啶转化为尿嘧啶，以及

扩增所述双链基因组DNA片段延伸产物以产生扩增子。

2.如权利要求1所述的方法，其还包括对所述扩增子进行测序。

3.如权利要求1所述的方法，其中所述转座体文库中的每个转座体均包含两个不同的引物结合位点序列。

4.如权利要求1所述的方法，其中所述转座体文库中的每个转座体在所述转座体的每个转座子上包含两个相同的引物结合位点序列，其不同于所述转座体文库的其它转座体中的引物结合位点序列。

5.如权利要求1所述的方法，其中所述基因组DNA是获自单个细胞的完整基因组DNA。

6.如权利要求1所述的方法，其中所述转座酶是Tn5转座酶、Mu转座酶，Tn7转座酶或IS5转座酶。

7.如权利要求1所述的方法，其中所述转座子DNA包括双链19bp的Tnp结合位点和悬突，其中所述悬突在所述悬突的5'末端包括独特和/或不同的引物结合位点序列。

8.如权利要求1所述的方法，其中在对所述双链基因组DNA片段进行缺口填充和延伸之前，从所述双链片段中去除结合的转座酶。

9.如权利要求1所述的方法，其中所述基因组DNA来自胎儿细胞(prenatal cell)、癌细胞或循环肿瘤细胞。

10.如权利要求1所述的方法，其中所述基因组DNA来自单个胎儿细胞、单个癌细胞或单个循环肿瘤细胞。

11.如权利要求1所述的方法，其中所述独特且不同的引物结合位点序列是特异性PCR引物结合位点。

12.如权利要求1所述的方法，其中所述转座体文库包含1至100个独特且不同的引物结合位点序列。

13.如权利要求1所述的方法，其中所述转座体文库包含1至10个独特且不同的引物结合位点序列。

14.如权利要求1所述的方法，其中所述转座体文库包含5至50个独特且不同的引物结合位点序列。

15.如权利要求1所述的方法，其中所述转座体文库包含30至100个独特和不同的引物结合位点序列。

16.如权利要求1所述的方法，其中所述转座体文库包含15至25个独特且不同的引物结合位点序列。

17.如权利要求1所述的方法，其中所述转座体文库包含100至1,000个独特且不同的引物结合位点序列。

18.如权利要求1所述的方法，其中所述转座体文库包含1,000至10,000个独特且不同的引物结合位点序列。

19.如权利要求1所述的方法，其中所述转座体文库包含10,000至100,000个独特且不同的引物结合位点序列。

20.如权利要求1所述的方法，其中所述不同的引物结合位点序列是正交的(orthogonal)。

21.如权利要求1所述的方法，其中所述转座子DNA在每个胞嘧啶处被甲基化。

22.如权利要求1所述的方法，其中所述转座子DNA包括甲基化胞嘧啶衔接子(adapter)。

23.如权利要求22所述的方法，其中所述缺口填充步骤包括在所述dNTP混合物中使用甲基化dCTP代替dCTP。

24.如权利要求1所述的方法，其中所述载体DNA选自长度在100个碱基对(bp)至4千个碱基对之间的dsDNA片段。

25.如权利要求1所述的方法，其中所述载体DNA是与所述靶DNA不同或相同的DNA类型。

26.如权利要求1所述的方法，其中所述载体DNA是经超声处理的λDNA。

27.如权利要求1所述的方法，其中所述载体DNA不包括Illumina测序衔接子。

28.如权利要求1所述的方法，其中所述载体DNA添加到所述反应介质中的量为所述样品DNA的量的100至10000倍。

29.如权利要求1所述的方法，其还包括在所述缺口填充步骤之后但在所述转化步骤之前的步骤：纯化包含所述缺口填充的双链区段和载体DNA的反应介质。

30.如权利要求29所述的方法，其中通过DNA旋转柱(DNA spin-column)或基于珠粒的DNA纯化(beads-based DNA purification)来进行所述纯化步骤。

31.如权利要求1所述的方法，其中将包括所述缺口填充的双链区段和载体DNA的所述反应介质不经纯化直接进行至所述转化步骤。

32.如权利要求1所述的方法，其中将胞嘧啶转化为尿嘧啶的所述试剂不是亚硫酸氢盐或不包括亚硫酸氢盐。

33.如权利要求1所述的方法，其还包括在所述转化步骤之后但在所述扩增步骤之前的步骤：纯化包含所述化学转化的片段的反应介质。

34.如权利要求1所述的方法，其中将包含所述化学转化的片段的所述反应介质不经纯化直接进行至所述扩增步骤。