CN107922965B

CN107922965B - 基因组的表观遗传修饰的定相方法

Info

Publication number: CN107922965B
Application number: CN201680032920.9A
Authority: CN
Inventors: 杰里米·爱德华兹; 贾斯汀·科斯塔; 周巍
Original assignee: Centrillion Technology Holdings Corp
Current assignee: Centrillion Technology Holdings Corp
Priority date: 2015-04-06
Filing date: 2016-04-06
Publication date: 2021-12-07
Anticipated expiration: 2036-04-06
Also published as: US10538594B2; EP3280424B1; US20180112010A1; CN107922965A; EP3280424A1; US20200247907A1; EP3280424A4; WO2016164419A1

Abstract

本文提供了用于分析基因组的表观遗传修饰的方法和组合物。该方法和组合物适用于已经针对其开发了抗体或亲和结合剂的任何修饰的完整表观基因组测序。在一个方面，本文提供了用于分析基因组的表观遗传修饰的方法。在本文提供的方面的一些实施方案中，所述方法进一步包括对测序文库进行测序以生成序列读取，以及借助于位置条形码序列信息组装所述序列读取。在本文提供的方面的一些实施方案中，所述方法进一步包括确定核酸的至少两个不同的表观遗传修饰的位置。本发明的另一个方面提供了用于分析核酸的表观遗传修饰的试剂盒。

Description

基因组的表观遗传修饰的定相方法

交叉引用

本申请要求于2015年4月6日提交的美国临时专利申请号62/143,722的权益，该临时申请通过引用以其全文并入本文。

背景技术

人类基因组计划为生物医学界带来了巨大的回报，包括测序成本显著降低，从完成每个碱基需10美元降低到少于0.00001美元。现在在研究和临床设置中均常规地使用外显子组测序，以用于检测与疾病有关的遗传性或获得性突变，并且FDA已经列出了超过100种在其标签上具有基因型信息的药物。此外，全基因组测序(WGS)的使用正在变得十分普遍。然而，当前的技术仍然存在较大的局限性，这严重限制了WGS用于许多研究的可行性和实用性。

发明内容

在一个方面，本文提供了用于分析基因组的表观遗传修饰的方法，该方法包括：a.在表面上梳理(combing)来自所述基因组的DNA；b.用能与所述修饰结合的亲和剂标记所述表观遗传修饰；c.捕获所述亲和剂及其结合的DNA；以及d.由具有位置特异性寡核苷酸条形码的结合DNA制备测序文库。

在一些情况下，所述亲和剂为抗体。在一些情况下，所述捕获包括将所述抗体与链霉亲和素结合。在一些情况下，所述位置特异性寡核苷酸条形码来自具有空间限定的寡核苷酸的DNA微阵列。在一些情况下，所述制备包括利用体外转座。

本发明的一个方面提供了用于分析表观遗传修饰的方法，该方法包括：(a)在第一表面上拉伸包含表观遗传修饰的DNA；(b)用能与所述表观遗传修饰结合的亲和剂标记所述表观遗传修饰；(c)通过将所述亲和剂与第二表面结合在所述第二表面上捕获所述DNA，其中所述第二表面包含寡核苷酸，每个寡核苷酸包含指示所述寡核苷酸在所述第二表面上的位置的位置条形码序列；以及(d)由所述DNA制备测序文库，其中所述测序文库的核酸分子包含(i)表观遗传信息和(ii)位置条形码序列信息。

在本文提供的方面的一些实施方案中，所述亲和剂包括抗体。在本文提供的方面的一些实施方案中，所述亲和剂包括生物素。在本文提供的方面的一些实施方案中，所述捕获包括将所述抗体与链霉亲和素结合。在本文提供的方面的一些实施方案中，制备所述测序文库包括利用体外转座。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述第二表面上的位置至2μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述第二表面上的位置至1μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述第二表面上的位置至0.5μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述第二表面上的位置至0.2μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述第二表面上的位置至0.1μm内。在本文提供的方面的一些实施方案中，所述方法进一步包括对所述测序文库进行测序以生成序列读取，以及借助于所述位置条形码序列信息组装所述序列读取。在本文提供的方面的一些实施方案中，拉伸DNA包括梳理。在本文提供的方面的一些实施方案中，在所述第一表面上拉伸来自所述基因组的DNA导致所述DNA以至少约20个基因组/平方厘米的密度在所述第一表面上被拉伸。在本文提供的方面的一些实施方案中，在所述第一表面上拉伸来自所述基因组的DNA导致所述DNA以至少约30X二倍体基因组覆盖的密度在所述第一表面上被拉伸。在本文提供的方面的一些实施方案中，所述第一表面是疏水性的。在本文提供的方面的一些实施方案中，所述第一表面包含聚赖氨酸。在本文提供的方面的一些实施方案中，所述DNA包括基因组DNA。在本文提供的方面的一些实施方案中，所述核酸的长度为至少1兆碱基(Mb)。

本发明的另一个方面提供了用于分析核酸的表观遗传修饰的试剂盒，该试剂盒包含：(a)阵列基底，其包含与所述阵列基底结合的寡核苷酸，每个寡核苷酸包含指示所述寡核苷酸在所述阵列基底上的位置的位置条形码序列；以及(b)与所述核酸的所述表观遗传修饰结合的亲和剂。

在本文提供的方面的一些实施方案中，所述亲和剂包括抗体。在本文提供的方面的一些实施方案中，所述亲和剂包括生物素。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的位置至2μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的位置至1μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的位置至0.5μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的位置至0.2μm内。在本文提供的方面的一些实施方案中，所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的位置至0.1μm内。

本发明的另一个方面提供了用于分析表观遗传修饰的方法，该方法包括：(a)测定核酸中是否存在表观遗传修饰；以及(b)相对于固体支持体确定所述表观遗传修饰的位置。

在本文提供的方面的一些实施方案中，相对于固体支持体确定所述表观遗传修饰的位置至2μm内。在本文提供的方面的一些实施方案中，相对于固体支持体确定所述表观遗传修饰的位置至1μm内。在本文提供的方面的一些实施方案中，相对于固体支持体确定所述表观遗传修饰的位置至0.5μm内。在本文提供的方面的一些实施方案中，相对于固体支持体确定所述表观遗传修饰的位置至0.2μm内。在本文提供的方面的一些实施方案中，相对于固体支持体确定所述表观遗传修饰的位置至0.1μm内。在本文提供的方面的一些实施方案中，所述方法进一步包括相对于固体支持体确定所述核酸的至少两个不同的表观遗传修饰的位置。在本文提供的方面的一些实施方案中，所述方法进一步包括相对于固体支持体确定所述核酸的至少三个不同的表观遗传修饰的位置。在本文提供的方面的一些实施方案中，所述方法进一步包括相对于固体支持体确定所述核酸的至少四个不同的表观遗传修饰的位置。在本文提供的方面的一些实施方案中，所述方法进一步包括相对于固体支持体确定所述核酸的至少五个不同的表观遗传修饰的位置。在本文提供的方面的一些实施方案中，所述核酸包括基因组DNA。在本文提供的方面的一些实施方案中，所述核酸的长度为至少1兆碱基(Mb)。在本文提供的方面的一些实施方案中，所述固体支持体包含寡核苷酸阵列。

援引并入

本说明书中提及的全部出版物、专利和专利申请均通过引用并入本文，其程度如同特别且单独地指出每个单独的出版物、专利或专利申请通过引用并入本文。

附图说明

本发明的新特征在随附的权利要求中具体阐述。通过参考以下对利用了本发明原理的说明性实施方案进行阐述的详细描述和附图，将会获得对本发明特征和优点的更好的理解，附图中：

图1示出了用接触光刻法合成的、与互补Cy3标记的探针杂交的20-聚体寡核苷酸阵列。

图2示出了由Bst酶促转移至10μm薄丙烯酰胺凝胶涂覆的第二表面并与Cy5探针杂交的7μm特征的ssDNA阵列。

图3A示出了方法步骤，包括首先分离长DNA分子；在该长分子的3’端添加聚-C尾和生物素以特异性捕获末端序列；在拉伸前或拉伸后用抗体标记表观遗传修饰；将该分子转移至链霉亲和素涂覆的表面上；以及原位创建Nextera文库。

图3B示出了文库分子到用于条形码化的芯片的转移。

图4A示出了使用0.5M NaOH变性的dsDNA；用抗ssDNA抗体探测ssDNA。

图4B示出了固定的DNA的聚合酶延伸；Vent聚合酶延伸引发的固定的ssDNA。蓝色染色为YOYO。绿色为BIO寡核苷酸引物。红色为通过vent并入的DIG dGTP。

图4C示出了YOYO染色(蓝色)的固定在表面上的DNA分子。用抗体对5-甲基胞嘧啶进行探测，并用Cy-5标记的第二抗体(红色)进行可视化。

图5示出了使用Bst聚合酶掺入荧光dUTP。

图6示出了以绿色标记的梳理的DNA以及以红色标记的5-甲基胞嘧啶。

图7A示出了表面上的梳理的DNA分子(50pg/μL)。

图7B显示凝胶，证实从梳理的DNA分子产生的文库的文库分子大小。

具体实施方式

现将详细阐述其实例在附图中示出的本发明的各个实施方案。尽管将结合各个实施方案来描述本发明，但应当理解，它们并不旨在将本发明限于这些实施方案。相反，本发明旨在涵盖可以包含在由所附权利要求限定的本发明的精神和范围内的替代、修改和等同项。

本发明提供了用于分析表观基因组的创新技术。这些技术可以使基因组研究准确地对表观遗传修饰进行鉴别和定相。这些技术在分子诊断、动物和植物育种以及其他领域具有广泛的应用。这些技术可以降低表观遗传分析的成本，同时显著提高结果的准确性和完整性。

本发明的技术可以提供更高的准确度、更高的精度、更高的通量、更长的“读取”以及解码更多表观遗传修饰的能力。可以使用本发明的技术来探测可以对其产生特异性结合剂(例如，抗体)的任何表观遗传修饰。

本发明提供了准确地鉴别长的单个DNA分子上的表观遗传修饰的技术。单分子表观遗传测量可以允许破译单个DNA分子中兆碱基尺度的表观遗传修饰的连接性，从而对修饰进行定相，并提供基因组的表观遗传状态的前所未有的细节。在表观基因组学中解决这一重大挑战的方法非常重要，并可以改变表观遗传修饰的研究方式。

本发明的技术可以涉及在表面上拉伸单个长DNA分子(例如，>1MB)。例如可以通过使用抗体(例如，5-甲基胞嘧啶)来探测拉伸的DNA的表观遗传修饰。可以捕获探针结合区域，并可以通过使用DNA寡核苷酸芯片对相对空间位置进行条形码化。被条形码化的捕获的DNA分子可以作为测序如下一代测序(NGS)的模板。来自寡核苷酸芯片的条形码可以用于鉴别芯片上生成读取的位置，并因此提供用于组装短NGS读取(例如，来自Illumina HiSeq)并解析表观遗传修饰的框架。通过允许将表观遗传修饰高质量地分配给沿兆碱基大小的DNA分子对修饰进行定相的基因组，框架化(Scaffolding)短读取可以帮助解决表观基因组学中的关键问题。本领域技术人员将理解，可以制备相关试剂、仪器和生物信息学软件以促进表观遗传序列分析。

用于制备包含具有位置条形码的寡核苷酸阵列的表面、制备测序文库的技术以及其他有用的技术在PCT公开号WO/2015/085274、PCT公开号WO/2015/085275和PCT公开号WO/2015/085268中进行了描述，上述每个专利均通过引用以其全文并入本文。

表观遗传修饰在基因组中可以是稳定的可遗传性变化，其影响基因组的功能状态而不影响核苷酸序列的功能状态。参见，例如Feinberg,A.P.Phenotypic plasticity andthe epigenetics of human disease,Nature 447,433-440,(2007)；Hammoud,S.S.,Cairns,B.R.&Jones,D.A.Epigenetic regulation of colon cancer and intestinalstem cells,Current opinion in cell biology 25,177-183,(2013)；Feinberg,A.P.&Tycko,B.The history of cancer epigenetics,Nat Rev Cancer 4,143-153,(2004)；Calcagno,D.Q.,Gigek,C.O.,Chen,E.S.,Burbano,R.R.&Smith Mde,A.DNA and histonemethylation in gastric carcinogenesis,World journal of gastroenterology:WJG19,1182-1192,(2013)；Gigek,C.O.等人.Epigenetic mechanisms in gastric cancer,Epigenomics 4,279-294,(2012)；Kilpinen,H.&Dermitzakis,E.T.Genetic andepigenetic contribution to complex traits,Human molecular genetics 21,R24-28,(2012)；Jablonka,E.Epigenetic inheritance and plasticity:The responsivegermline,Progress in biophysics and molecular biology 111,99-107,(2013)；所有这些文献均通过引用并入本文。

最广泛研究的表观遗传修饰是5-甲基胞嘧啶(5mC)，其对基因组具有重要影响，虽然大多数测序技术还不能识别它。除了5mC，还有许多可以改变基因表达和/或DNA修复途径的其他表观遗传修饰(例如，5-羟甲基胞嘧啶、5-甲酰基胞嘧啶、5-羧基胞嘧啶、3-甲基胞嘧啶)。表观遗传修饰可以包括脱氧核苷酸修饰、组蛋白修饰和调节性非编码RNA、以及调节核小体定位的非共价变化。参见例如，Calcagno,D.Q.,Gigek,C.O.,Chen,E.S.,Burbano,R.R.&Smith Mde,A.DNA and histone methylation in gastric carcinogenesis,Worldjournal of gastroenterology:WJG 19,1182-1192,(2013)；Calo,E.&Wysocka,J.Modification of enhancer chromatin:what,how,and why？,Molecular cell 49,825-837,(2013)；Cantarino,N.,Douet,J.&Buschbeck,M.MacroH2A-An epigenetic regulatorof cancer,Cancer letters,(2013)；Pirooznia,S.K.&Elefant,F.Targeting specificHATs for neurodegenerative disease treatment:translating basic biology totherapeutic possibilities,Front Cell Neurosci 7,30,(2013)；Sharma,N.L.,Groselj,B.,Hamdy,F.C.&Kiltie,A.E.The emerging role of histone deacetylase(HDAC)inhibitors in urological cancers,BJU Int 111,537-542,(2013)；Yang,Y.A.&Yu,J.EZH2,an epigenetic driver of prostate cancer,Protein Cell 4,331-341,(2013)；Salomoni,P.The PML-Interacting Protein DAXX:Histone Loading Gets intothe Picture,Front Oncol 3,152,(2013)；Zoldos,V.,Novokmet,M.,Beceheli,I.&Lauc,G.Genomics and epigenomics of the human glycome,Glycoconj J 30,41-50,(2013)；Song,C.X.等人.Sensitive and specific single-molecule sequencing of 5-hydroxymethylcytosine,Nature methods 9,75-77,(2012)；Clark,T.A.,Spittle,K.E.,Turner,S.W.&Korlach,J.Direct detection and sequencing of damaged DNA bases,Genome Integr 2,10,(2011)；Murray,I.A.等人.The methylomes of six bacteria,Nucleic acids research 40,11450-11462,(2012)；Fang,G.等人.Genome-wide mappingof methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing,Nature biotechnology 30,1232-1239,(2012)；所有这些文献均通过引用并入本文。

理解表观基因组是理解细胞生物学和生理学的许多方面的重要组成部分。此外，一些DNA修饰(表观遗传或DNA损伤)与疾病如癌症有关。参见例如，Baer,C.,Claus,R.&Plass,C.Genome-wide epigenetic regulation of miRNAs in cancer,Cancer research73,473-477,(2013)；He,S.,Liu,Z.,Oh,D.Y.&Thiele,C.J.MYCN and the epigenome,Front Oncol 3,1,(2013)；Juergens,R.A.&Rudin,C.M.Aberrant epigeneticregulation,Am Soc Clin Oncol Educ Book 2013,295-300,(2013)；Ma,X.,Wang,Y.W.,Zhang,M.Q.&Gazdar,A.F.DNA methylation data analysis and its application tocancer research,Epigenomics 5,301-316,(2013)；Verma,M.Cancer control andprevention:nutrition and epigenetics,Curr Opin Clin Nutr Metab Care 16,376-384,(2013)，所有这些文献均通过引用并入本文。一些DNA修饰(表观遗传或DNA损伤)与疾病如神经系统功能和精神健康有关。参见例如，McQuown,S.C.&Wood,M.A.Epigeneticregulation in substance use disorders,Curr Psychiatry Rep 12,145-153,(2010)；Adwan,L.&Zawia,N.H.Epigenetics:A novel therapeutic approach for the treatmentof Alzheimer's disease,Pharmacology&therapeutics 139,41-50,(2013)；Ptak,C.&Petronis,A.Epigenetic approaches to psychiatric disorders,Dialogues ClinNeurosci 12,25-35,(2010)；Kofink,D.,Boks,M.P.,Timmers,H.T.&Kas,M.J.Epigeneticdynamics in psychiatric disorders:Environmental programming ofneurodevelopmental processes,Neurosci Biobehav Rev 37,831-845,(2013)；LaPlant,Q.&Nestler,E.J.CRACKing the histone code:cocaine's effects on chromatinstructure and function,Horm Behav 59,321-330,(2011)；Maze,I.&Nestler,E.J.Theepigenetic landscape of addiction.Annals of the New York Academy of Sciences1216,99-113,(2011)；Nielsen,D.A.,Utrankar,A.,Reyes,J.A.,Simons,D.D.&Kosten,T.R.Epigenetics of drug abuse:predisposition or response,Pharmacogenomics 13,1149-1160,(2012)；Madsen,H.B.,Brown,R.M.&Lawrence,A.J.Neuroplasticity inaddiction:cellular and transcriptional perspectives,Front Mol Neurosci 5,99,(2012)；McCarthy,D.M.,Brown,A.N.&Bhide,P.G.Regulation of BDNF expression bycocaine,Yale J Biol Med 85,437-446,(2012)；Schmidt,H.D.,McGinty,J.F.,West,A.E.&Sadri-Vakili,G.Epigenetics and psychostimulant addiction,Cold SpringHarb Perspect Med 3,a012047,(2013)；Nestler,E.J.Transcriptional mechanisms ofdrug addiction,Clin Psychopharmacol Neurosci 10,136-143,(2012)；所有这些文献均通过引用并入本文。

例如，理解表观遗传修饰对基因组的影响可能有助于解释在诸如精神分裂症和其他遗传疾病的神经系统病况中观察到的不完全外显性。参见例如，Archer,T.,Beninger,R.J.,Palomo,T.&Kostrzewa,R.M.Epigenetics and biomarkers in the staging ofneuropsychiatric disorders,Neurotox Res 18,347-366,(2010)；Van Winkel,R.等人.REVIEW:Genome-wide findings in schizophrenia and the role of gene-environment interplay,CNS Neurosci Ther 16,e185-192,(2010)；Brown,A.S.Theenvironment and susceptibility to schizophrenia,Prog Neurobiol 93,23-58,(2011)；Molfese,D.L.Advancing neuroscience through epigenetics:molecularmechanisms of learning and memory,Dev Neuropsychol 36,810-827,(2011)；Thibaut,F.Why schizophrenia genetics needs epigenetics:a review,Psychiatr Danub 24,25-27,(2012)；Gebicke-Haerter,P.J.Epigenetics of schizophrenia.Pharmacopsychiatry 45Suppl 1,S42-48,(2012)；Eren Kocak,E.&Ertugrul,A.Psychiatric disordersand epigenetics,Turk Psikiyatri Derg 23,130-140,(2012)；Svrakic,D.M.,Zorumski,C.F.,Svrakic,N.M.,Zwir,I.&Cloninger,C.R.Risk architecture of schizophrenia:the role of epigenetics,Curr Opin Psychiatry 26,188-195,(2013)；所有这些文献均通过引用并入本文。

本文公开的表观基因组测序技术可以有助于改变我们对复杂疾病的遗传和表观遗传学基础的理解，并且该技术可以促进发现细胞发育、分化和疾病的调节机制和生物标志物。

DNA损伤。许多DNA修饰是DNA损伤剂的直接结果。除了标准表观遗传修饰如5-甲基胞嘧啶之外，本文公开的技术也可以用于检测这些修饰。已知DNA损伤在许多疾病中发挥着关键作用，因此开发能够检测损伤的碱基的测序技术对于改善对这些疾病的理解、检测和治疗是重要的(参见，例如，Korlach,J.&Turner,S.W.Going beyond five bases in DNAsequencing,Curr Opin Struct Biol 22,251-261,(2012)；Preston,B.D.,Albertson,T.M.&Herr,A.J.DNA replication fidelity and cancer,Seminars in cancer biology20,281-293,(2010)，所有这些文献均通过引用并入本文)。例如，线粒体基因组的氧化性损伤与衰老和神经退行性疾病相关(参见，例如，Lindahl,T.Instability and decay of theprimary structure of DNA,Nature 362,709-715,(1993)；Beal,M.F.Mitochondria takecenter stage in aging and neurodegeneration,Ann Neurol 58,495-505,(2005)；Maynard,S.,Schurman,S.H.,Harboe,C.,de Souza-Pinto,N.C.&Bohr,V.A.Base excisionrepair of oxidative DNA damage and association with cancer and aging,Carcinogenesis 30,2-10,(2009)；De Bont,R.&van Larebeke,N.Endogenous DNA damagein humans:a review of quantitative data,Mutagenesis 19,169-185,(2004)；所有这些文献均通过引用并入本文)。环境因素，例如紫外线照射、吸烟以及衰老相关的脱嘌呤，也可能损伤DNA(参见，例如，Laird,P.W.&Jaenisch,R.DNA methylation and cancer,Humanmolecular genetics 3Spec No,1487-1495,(1994)；De Bont,R.&van Larebeke,N.Endogenous DNA damage in humans:a review of quantitative data,Mutagenesis19,169-185,(2004)；所有这些文献均通过引用并入本文)。此外，DNA聚合酶可能错误掺入可导致基因组不稳定和癌症的RNA碱基(而不是DNA碱基)(参见，例如，Nick McElhinny,S.A.等人.Abundant ribonucleotide incorporation into DNA by yeast replicativepolymerases,Proceedings of the National Academy of Sciences of the UnitedStates of America 107,4949-4954,(2010)；Nick McElhinny,S.A.等人.Genomeinstability due to ribonucleotide incorporation into DNA,Nat Chem Biol 6,774-781,(2010)；所有这些文献均通过引用并入本文)。

现有技术的局限性。DNA测序技术已经彻底改变了基因研究，并开始对人类健康保健产生重大影响。然而，在下一代测序中存在重大缺陷。鉴别表观遗传修饰不是直接的，并且能够测量表观遗传修饰的现有技术是有限的。在已经发现的许多表观遗传修饰中，仅有5mC可以使用亚硫酸氢盐测序进行鉴别。在基因组规模上研究其余的修饰是困难的或不可能的(参见，例如，Korlach,J.&Turner,S.W.Going beyond five bases in DNAsequencing.Curr Opin Struct Biol 22,251-261,(2012)，该文献通过引用并入本文)。

Pacific Biosciences单分子测序。Pacific Biosciences(PacBio)测序是目前唯一可用的可直接对表观遗传修饰进行测序的方法。其已经用于检测几种细菌(5-甲基胞嘧啶、4-甲基胞嘧啶和6-甲基腺嘌呤)和真核生物(5-甲基胞嘧啶、6-甲基腺嘌呤、5-羟甲基胞嘧啶)的表观遗传修饰(参见，例如，Clark,T.A.等人.Characterization of DNAmethyltransferase specificities using single-molecule,real-time DNAsequencing,Nucleic acids research 40,e29,(2012)；Flusberg,B.A.等人.Directdetection of DNA methylation during single-molecule,real-time sequencing,Nature methods 7,461-465,(2010)；所有这些文献均通过引用并入本文)。另外，该方法已经进一步应用于使用具有DNA损伤修饰的合成模板来表征核苷酸掺入的动力学特征(参见，例如，Clark,T.A.,Spittle,K.E.,Turner,S.W.&Korlach,J.Direct detection andsequencing of damaged DNA bases,Genome Integr 2,10,(2011)，该文献通过引用并入本文)。然而，PacBio限于检测以独特的可预测的方式改变核苷酸掺入率的表观遗传修饰。例如，几种修饰具有相似的特征(例如，典型的6-甲基腺嘌呤修饰与DNA损伤所具有的1-甲基腺嘌呤特征)，因此为了准确地确定哪些碱基被修饰，可能需要50-250X覆盖的最小覆盖率(参见，例如，Korlach,J.&Turner,S.W.Going beyond five bases in DNA sequencing,Curr Opin Struct Biol 22,251-261,(2012)，该文献通过引用并入本文)，这显著降低了PacBio系统已经很低的通量。此外，PacBio测序的通量和成本可能阻止其成为真正表观基因组测序的现实途径。相比之下，本发明的技术可以提供更高的准确度、更高的通量、更长的“读取”以及解码更多表观遗传修饰的能力。

长拉伸的单分子表观遗传作图(mapping)。当前诸如OpGen和BioNano Genomics等公司使用的光学作图技术也可以探测表观遗传修饰，但它们严重受限。首先，其他方法不能产生我们能够达到的分辨率，其次它们主要限于5-甲基胞嘧啶，因此错失了重要的信息(Ananiev,G.E.等人.Optical mapping discerns genome wide DNA methylationprofiles.BMC molecular biology 9,68,(2008)；Levy-Sakin,M.等人.Toward single-molecule optical mapping of the epigenome.ACS Nano 8,14-26,(2014)，所有这些文献均通过引用并入本文)。我们的技术将能够探测可以对其产生特异性抗体的任何表观遗传修饰，并且可以非常精确地确定位置。

在不断降低测序成本的时代，新的基因组以前所未有的速度释放。然而，现有技术不能够捕获基因组中存在的全部信息，并且全基因组表观遗传修饰“测序”目前无法执行。可以使用本发明的技术来提供表观基因组的完整图谱，包括在整个染色体的DNA修饰(例如，可以对其产生抗体或其他探针的所有可能的已知DNA修饰)。该信息对于整体研究遗传相关疾病，癌症，衰老过程，环境条件对表观基因组、遗传和进化的影响是至关重要的。

本发明的方法、组合物、试剂盒和技术集成了若干高度创新的突破性技术，以解决当前表观基因组下一代测序分析的主要限制。本发明的技术可以提供可以对其开发抗体或亲和结合剂的任何修饰的完整表观基因组测序。

本文公开的技术可以提供跨长DNA段，以及最终整个染色体的表观基因组修饰的定相图谱，从而实现以前不可能的新的测量和研究。

本发明的技术可以捕获并固定长基因组DNA区域，并选择性地对具有表观遗传修饰的区域进行测序。表观遗传修饰可以在所获得的短序列读取内。固定化的基因组DNA可以提供从中悬挂出短读取的兆碱基框架，从而对长基因组DNA区域中的单分子上的表观遗传修饰进行定位和定相。基本方法可以涉及在表面上拉伸许多单独的DNA分子(例如，30-40X二倍体基因组覆盖)。可以捕获长DNA分子的末端，并可以构建空间定位的文库。可以探测末端之间的序列的表观遗传修饰(例如，5-甲基胞嘧啶)，并且还可以针对含有表观遗传修饰的基因组区域构建测序文库。可以在空间条形码化的芯片上制备文库，以便可以确定文库在基因组中的相对位置。然后可以使用任何NGS平台(例如，Illumina HiSeq)对NGS文库进行测序。由于用于产生测序文库的引物被条形码化，因此可以获得用于组装短NGS读取并鉴别表观遗传修饰的位置的框架。

细胞系和DNA样品

可以使用多种DNA样品。优选使用未被广泛操纵的长DNA。在一些情况下，含有染色体DNA的细胞裂解物可以用于DNA梳理和随后基于本发明方法的表观遗传分析。

除非另有说明，如本文提及的“核酸分子”或“核酸”可以是脱氧核糖核酸(DNA)或核糖核酸(RNA)，包括其已知的类似物或组合。本文中待测序的核酸分子可以从任何核酸来源获得。该核酸分子可以是单链或双链的。在一些情况下，该核酸分子是DNA。该DNA可以采用本领域的标准技术来获得和纯化，并且包括纯化或未纯化形式的DNA。该DNA可以是线粒体DNA、无细胞DNA、互补DNA(cDNA)或基因组DNA。在一些情况下，该核酸分子是基因组DNA(gDNA)。该DNA可以是质粒DNA、粘粒DNA、细菌人工染色体(BAC)或酵母人工染色体(YAC)。该DNA可以来源于一个或多个染色体。例如，如果该DNA来自人类，则该DNA可以来源于染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一个或多个。该RNA可以采用本领域的标准技术来获得和纯化，并且包括纯化或未纯化形式的RNA，包括但不限于mRNA、tRNA、snRNA、rRNA、逆转录病毒、小的非编码RNA、微RNA、多核糖体RNA、前mRNA、内含子RNA、病毒RNA、无细胞RNA及其片段。非编码RNA或ncRNA可以包括snoRNA、微RNA、siRNA、piRNA和长nc RNA。

供本文所述的方法和组合物使用的核酸的来源可以是包含该核酸的样品。该核酸可以从该样品中分离并通过本领域已知用于从样品中纯化核酸的任何方法纯化。该样品可以来源于包含多核苷酸的非细胞实体(例如，病毒)或来源于基于细胞的生物体(例如，古菌、细菌或真核生物域的成员)。在一些情况下，该样品从诸如门或台面等表面的拭子获得。

该样品可以来自受试者，例如，植物、真菌、真细菌、古菌、原生生物(protest)或动物。该受试者可以是生物体，无论是单细胞的还是多细胞的生物体。该受试者可以是培养的细胞，其可以是原代细胞或来自建立的细胞系的细胞，等等。样品可以最初以任何合适的形式从多细胞生物体中分离。该动物可以是鱼，例如，斑马鱼。该动物可以是哺乳动物。该哺乳动物可以是例如狗、猫、马、牛、小鼠、大鼠或猪。该哺乳动物可以是灵长类动物，例如人、黑猩猩、猩猩或大猩猩。该人可以是男性或女性。该样品可以来自人类胚胎或人类胎儿。该人可以是婴儿、儿童、少年、成人或老人。该女性可以是妊娠的、疑似妊娠的或计划妊娠的女性。在一些情况下，该样品是来自受试者的单一或单个细胞，并且该多核苷酸来源于该单一或单个细胞。在一些情况下，该样品是单个微生物，或微生物群体，或微生物和宿主细胞或无细胞核酸的混合物。

该样品可以来自健康的受试者(例如，人类受试者)。在一些情况下，该样品取自妊娠至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26周的受试者(例如，待产妇女)。在一些情况下，该受试者患有遗传性疾病，是遗传性疾病的携带者，或处于遗传或发展出遗传性疾病的风险中，其中遗传性疾病是可能与遗传变异如突变、插入、添加、缺失、易位、点突变、三核苷酸重复障碍和/或单核苷酸多态性(SNP)有关的任何疾病。

该样品可以来自患有特定疾病、病症或病况，或疑似患有特定疾病、病症或病况(或处于患有该特定疾病、病症或病况的风险中)的受试者。例如，该样品可以来自癌症患者，疑似患有癌症的患者，或处于患有癌症的风险中的患者。该癌症可以是例如急性成淋巴细胞性白血病(ALL)、急性髓样白血病(AML)、肾上腺皮质癌、卡波西肉瘤、肛门癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶性纤维组织细胞瘤、脑干胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤、松果体实质肿瘤、乳腺癌、支气管肿瘤、伯基特淋巴瘤、非霍奇金淋巴瘤、类癌瘤、宫颈癌、脊索瘤、慢性淋巴细胞性白血病(CLL)、慢性髓性白血病(CML)、结肠癌、结直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食管癌、尤文肉瘤、眼癌、眼内黑素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞癌、小细胞癌、黑素瘤、口癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、神经母细胞瘤、鼻咽癌、口腔癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、乳头状瘤病、副神经节瘤、甲状旁腺癌、阴茎癌、咽癌、垂体瘤、浆细胞肿瘤、前列腺癌、直肠癌、肾细胞癌、横纹肌肉瘤、唾液腺癌、塞扎里综合征、皮肤癌、非黑素瘤、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、咽喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、瓦尔斯特伦巨球蛋白血症或维尔姆斯瘤。该样品可以来自癌症患者的癌和/或正常组织。

该样品可以是房水、玻璃状液、胆汁、全血、血清、血浆、乳汁、脑脊液、耵聍、内淋巴、外淋巴、胃液、粘液、腹膜液、唾液、皮脂、精液、汗液、泪液、阴道分泌物、呕吐物、粪便或尿液。该样品可以从医院、实验室、临床或医学实验室获得。该样品可以取自受试者。

该样品可以是包含诸如水、土壤、空气等介质的环境样品。该样品可以是法医样品(例如，毛发、血液、精液、唾液等)。该样品可以包含在生物恐怖袭击(例如，流感、炭疽、天花)中使用的试剂。

该样品可以包含核酸。该样品可以包含无细胞核酸。该样品可以是细胞系、基因组DNA、无细胞血浆、福尔马林固定石蜡包埋的(FFPE)样品或快速冷冻的样品。福尔马林固定石蜡包埋的样品可以在提取核酸之前脱蜡。该样品可以来自器官，例如心脏、皮肤、肝、肺、乳房、胃、胰、膀胱、结肠、胆囊、脑等。可以通过本领域普通技术人员可用的手段从样品中提取核酸。

可对样品进行处理以使其能够进行片段化、连接、变性、扩增、拉伸和/或测序或本文提供的任何方法。示例性的样品处理可以包括裂解样品的细胞以释放核酸，纯化样品(例如，以将核酸与可能抑制酶促反应的其他样品组分分离)，稀释/浓缩样品，和/或将样品与用于进一步核酸处理的试剂合并。在一些实例中，可以将样品与限制酶、逆转录酶或任何其他核酸处理酶合并。

如本文中提及的“核酸分子”或“核酸”可以是“寡核苷酸”、“适体”或“多核苷酸”。术语“寡核苷酸”可以指通常小于200个残基长，例如15到100个核苷酸长的核苷酸链。寡核苷酸可以包含至少或大约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50个碱基。寡核苷酸可以为约3至约5个碱基、约1至约50个碱基、约8至约12个碱基、约15至约25个碱基、约25至约35个碱基、约35至约45个碱基或约45至约55个碱基。寡核苷酸(也被称为“寡核苷酸(oligo)”)可以是任何类型的寡核苷酸(例如，引物)。在一些情况下，寡核苷酸是5’-acrydite修饰的寡核苷酸。寡核苷酸可以偶联至在如本文提供的表面上的如本文提供的聚合物涂层。寡核苷酸可以包含可切割的连接。可切割的连接可以是酶可切割的。寡核苷酸可以是单链或双链的。术语“引物”和“寡核苷酸引物”可以指能够与互补核苷酸序列杂交的寡核苷酸。术语“寡核苷酸”可以与术语“引物”、“衔接子”和“探针”互换使用。术语“多核苷酸”可以指通常大于200个残基长的核苷酸链。多核苷酸可以是单链或双链的。

术语“杂交”和“退火”可互换使用并可以指互补核酸的配对。

芯片设计和DNA条形码

为了解析表观遗传修饰的位置，可以提供唯一确定芯片上的寡核苷酸位置的一组条形码。可以准确地对该条形码进行测序(例如，GC含量在40％-60％之间，没有长于2的均聚物运行，没有长于3的自互补的序列段，不存在于人类基因组参照物中)。最重要的是，为了对空间可寻址性进行错误检查，每个条形码优选相距至少四个编辑距离；也就是说，每个条形码与阵列中任何其他条形码相距至少四个缺失、插入或置换。例如，可以使用一组约150万个18碱基条形码。

术语“条形码”可以指允许与该条形码相关联的核酸(例如，寡核苷酸)的一些特征得到鉴别的已知核酸序列。在一些情况下，待鉴别的核酸的特征是每个核酸(例如，寡核苷酸)在阵列或芯片上的空间位置。条形码可以针对精确序列性能来设计，例如，在40％到60％之间的GC含量，没有长于2的均聚物运行，没有长于3的自互补的序列段，并且由不存在于人类基因组参照中的序列构成。条形码序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。条形码序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。条形码序列可以为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基。寡核苷酸(例如，引物或衔接子)可以包含大约、多于、少于或至少1、2、3、4、5、6、7、8、9或10个不同的条形码。条形码可以具有足够的长度，并可以包含可能足够不同的序列以允许根据与每个核酸相关联的条形码鉴别每一个核酸(例如，寡核苷酸)的空间位置。在一些情况下，每个条形码与阵列中的任何其他条形码相差例如四个缺失或插入或置换。在条形码化的寡核苷酸阵列上的每个阵列斑点中的寡核苷酸可以包含相同的条形码序列，而在不同阵列斑点中的寡核苷酸可以包含不同的条形码序列。在一个阵列斑点中使用的条形码序列可以与在任何其他阵列斑点中的条形码序列不同。或者，只要两个阵列斑点不相邻，在一个阵列斑点中使用的条形码序列可以与在另一个阵列斑点中使用的条形码序列相同。可以从阵列的受控合成知晓与特定阵列斑点相对应的条形码序列。或者，可以通过对来自特定阵列斑点的材料进行检索和测序而知晓与特定阵列斑点相对应的条形码序列。作为一个示例设计了含有150万个18碱基条形码的一组候选的条形码。

阵列表面制备

本发明中提供的方法和组合物可以包括制备用于生成阵列的表面。在一些情况下，该阵列是寡核苷酸的阵列(寡核苷酸阵列或oligo阵列)。该表面的制备可以包括在该表面上形成聚合物涂层。该表面可以包括玻璃、二氧化硅、氧化钛、氧化铝、氧化铟锡(ITO)、硅、聚二甲基硅氧烷(PDMS)、聚苯乙烯、聚环烯烃、聚甲基丙烯酸甲酯(PMMA)、环烯烃共聚物(COC)、其他塑料、钛、金、其他金属或其他合适的材料。该表面可以是平坦的或圆的、连续的或非连续的、光滑的或粗糙的。表面的实例包括流动池、测序流动池、流动通道、微流体通道、毛细管、压电表面、孔、微孔、微孔阵列、微阵列、芯片、晶片、非磁性珠、磁珠、铁磁珠、顺磁珠、超顺磁珠以及聚合物凝胶。

在一些情况下，用于生成如本文提供的寡核苷酸阵列的、如本文所述的表面的制备包括将引发剂物质与表面键合。在一些情况下，该引发剂物质包含至少一种有机硅烷。在一些情况下，该引发剂物质包含一个或多个表面键合基团。在一些情况下，该引发剂物质包含至少一种有机硅烷，并且该至少一种有机硅烷包含一个或多个表面键合基团。该有机硅烷可以包含一个表面键合基团，导致单足(mono-pedal)结构。该有机硅烷可以包含两个表面键合基团，导致双足(pi-pedal)结构。该有机硅烷可以包含三个表面键合基团，导致三足(tri-pedal)结构。该表面键合基团可以包含MeO₃Si、(MeO)₃Si、(EtO)₃Si、(AcO)₃Si、(Me₂N)₃Si和/或(HO)₃Si。在一些情况下，该表面键合基团包含MeO₃Si。在一些情况下，该表面键合基团包含(MeO)₃Si。在一些情况下，该表面键合基团包含(EtO)₃Si。在一些情况下，该表面键合基团包含(AcO)₃Si。在一些情况下，该表面键合基团包含(Me₂N)₃Si。在一些情况下，该表面键合基团包含(HO)₃Si。在一些情况下，该有机硅烷包含多个表面键合基团。该多个表面键合基团可以是相同的或可以是不同的。在一些情况下，该引发剂物质包含至少一种有机膦酸，其中表面键合基团包含(HO)₂P(＝O)。该有机膦酸可以包含一个表面键合基团，导致单足结构。该有机膦酸可以包含两个表面键合基团，导致双足结构。该有机膦酸可以包含三个表面键合基团，导致三足结构。

在一些情况下，如本文提供的表面包含如本文提供的与表面结合的引发剂物质，该引发剂物质用于生成包含表面涂层或功能化的寡核苷酸阵列。该表面涂层或功能化可以是疏水或亲水的。该表面涂层可以包含聚合物涂层或聚合物刷，如聚丙烯酰胺或修饰的聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶或修饰的聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、抗生物素蛋白、抗体、抗体片段或适体。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层以及结合剂。在一些情况下，用于生成如本文提供的寡核苷酸阵列的、如本文所述的表面的制备包括在与表面结合的引发剂物质上形成聚合物涂层。该与表面结合的引发剂物质可以是本领域已知的任何与表面结合的引发剂物质。在一些情况下，该与表面结合的引发剂物质包含如本文提供的有机硅烷。该有机硅烷可以包含如本文所述的一个或多个表面键合基团。在一些情况下，该有机硅烷包含至少两个表面键合基团。两个或更多个表面键合基团的存在可以用于提高引发剂物质-聚合物涂层复合物的稳定性。该一个或多个表面键合基团可以是如本文提供的任何表面键合基团。所得到的聚合物涂层可以包含线性链。所得到的聚合物涂层可以包含支化的链。该支化的链可以是轻度支化的。轻度支化的链可以包含少于或大约1、2、3、4、5、6、7、8、9或10个分支。该聚合物涂层可以形成聚合物刷薄膜。该聚合物涂层可以包含一定的交联。该聚合物涂层可以形成接枝结构。该聚合物涂层可以形成网络结构。该聚合物涂层可以形成支化结构。该聚合物可以包含均匀的聚合物。该聚合物可以包含嵌段聚合物。该聚合物可以包含梯度共聚物。该聚合物可以包含周期共聚物。该聚合物可以包含统计共聚物。

在一些情况下，在与表面结合的引发剂物质上形成的聚合物涂层包含聚丙烯酰胺(PA)。该聚合物可以包含聚丙烯酰胺(PA)。该聚合物可以包含聚甲基丙烯酸甲酯(PMMA)。该聚合物可以包含聚苯乙烯(PS)。该聚合物可以包含聚乙二醇(PEG)。该聚合物可以包含聚丙烯腈(PAN)。该聚合物可以包含聚(苯乙烯-r-丙烯腈)(PSAN)。该聚合物可以包含单一类型的聚合物。该聚合物可以包含多种类型的聚合物。该聚合物可以包含如Ayres,N.(2010).Polymer brushes:Applications in biomaterials and nanotechnology.PolymerChemistry,1(6),769-777中描述的聚合物或如Barbey,R.,Lavanant,L.,Paripovic,D.,Schüwer,N.,Sugnaux,C.,Tugulu,S.,&Klok,H.A.(2009)Polymer brushes via surface-initiated controlled radical polymerization:synthesis,characterization,properties,and applications.Chemical reviews,109(11),5437-5527中描述的聚合物，每篇文献的公开内容均通过引用以其全文并入本文。

与表面结合的引发剂物质上的聚合物涂层的聚合可以包括用于控制聚合物链长度、涂层均匀性或其他性质的方法。该聚合可以包括受控的自由基聚合(CRP)、原子转移自由基聚合(ATRP)或可逆加成断裂链转移(RAFT)。该聚合可以包括如在Ayres,N.(2010).Polymer brushes:Applications in biomaterials and nanotechnology PolymerChemistry,1(6),769-777中描述的，或者如在Barbey,R.,Lavanant,L.,Paripovic,D.,Schüwer,N.,Sugnaux,C.,Tugulu,S.,&Klok,H.A.(2009)Polymer brushes via surface-initiated controlled radical polymerization:synthesis,characterization,properties,and applications.Chemical reviews,109(11),5437-5527中描述的活性聚合过程，每篇文献的公开内容均通过引用以其全文并入本文。

在如本文提供的与表面结合的引发剂物质上形成的聚合物涂层可以在该聚合物涂层的整个区域上具有均匀的厚度。在如本文提供的与表面结合的引发剂物质上形成的聚合物涂层可以在整个聚合物涂层区域上具有变化的厚度。该聚合物涂层可以为至少1μm、2μm、3μm、4μm、5μm、7μm、8μm、9μm、10μm、15μm、20μm、25μm、30μm、40μm厚。该聚合物涂层可以为至少50μm厚。该聚合物涂层可以为至少75μm厚。该聚合物涂层可以为至少100μm厚。该聚合物涂层可以为至少150μm厚。该聚合物涂层可以为至少200μm厚。该聚合物涂层可以为至少300μm厚。该聚合物涂层可以为至少400μm厚。该聚合物涂层可以为至少500μm厚。该聚合物涂层可以为约1μm到约10μm厚。该聚合物涂层可以为约5μm到约15μm厚。该聚合物涂层可以为约10μm到约20μm厚。该聚合物涂层可以为约30μm到约50μm厚。该聚合物涂层可以为约10μm到约50μm厚。该聚合物涂层可以为约10μm到约100μm厚。该聚合物涂层可以为约50μm到约100μm厚。该聚合物涂层可以为约50μm到约200μm厚。该聚合物涂层可以为约100μm到约30μm厚。该聚合物涂层可以为约100μm到约500μm厚。

在一些情况下，对本文的聚合物涂层的物理化学性质进行修饰。该修饰可以通过在聚合过程中并入修饰的丙烯酰胺单体来实现。在一些情况下，在聚合过程中并入乙氧基化的丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含CH₂＝CH-CO-NH(-CH₂-CH2-O-)_nH形式的单体。该乙氧基化的丙烯酰胺单体可以包含羟乙基丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含乙二醇丙烯酰胺单体。该乙氧基化的丙烯酰胺单体可以包含甲基丙烯酸羟乙酯(HEMA)。乙氧基化的丙烯酰胺单体的并入可以导致更加疏水的聚丙烯酰胺表面涂层。在一些情况下，在聚合过程中并入磷酰胆碱丙烯酰胺单体。在一些情况下，在聚合过程中并入甜菜碱丙烯酰胺单体。

用于如本文提供的转移方法的表面(例如，模板表面和/或接受体表面)可以包含一系列可能的材料。在一些情况下，该表面包含在基底上的聚合物凝胶，如聚丙烯酰胺凝胶或PDMS凝胶。在一些情况下，该表面包含没有基底支持体的凝胶。在一些情况下，该表面包含在基底上的薄涂层，如聚合物的200nm以下的聚合物涂层。在一些情况下，该表面包含未涂覆的基底，如玻璃或硅。

所述涂层和/或凝胶可以具有一系列的厚度或宽度。该凝胶或涂层可以具有约0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有小于0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有大于0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有至少0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有至多0.0001、0.00025、0.0005、0.001、0.005、0.01、0.025、0.05、0.1、0.2、0.5、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175或200mm的厚度或宽度。该凝胶或涂层可以具有0.0001至200mm、0.01至20mm、0.1至2mm或1至10mm的厚度或宽度。该凝胶或涂层可以具有约0.0001至约200mm、约0.01至约20mm、约0.1至约2mm或约1至约10mm的厚度或宽度。在一些情况下，该凝胶或涂层包含约10微米的宽度或厚度。

凝胶和涂层可以另外包含用于改变其物理化学性质例如疏水性的组分。例如，聚丙烯酰胺凝胶或涂层可以在其聚合物结构中包含修饰的丙烯酰胺单体，如乙氧基化的丙烯酰胺单体、磷酰胆碱丙烯酰胺单体和/或甜菜碱丙烯酰胺单体。

凝胶和涂层可以另外包含标志物或允许标志物并入的反应性位点。标志物可以包括寡核苷酸。例如，可以在聚丙烯酰胺凝胶或涂层的聚合过程中添加5’-acrydite修饰的寡核苷酸。用于并入标志物的反应性位点可以包括溴乙酰基位点、叠氮基、与叠氮基-炔Huisgen环加成相容的位点或其他反应性位点。可以将标志物以受控的方式并入到聚合物涂层中，其中特定的标志物位于该聚合物涂层的特定区域。可以将标志物随机并入到聚合物涂层中，由此特定的标志物可以随机地分布在整个聚合物涂层中。

在一些情况下，具有凝胶涂层的表面可以如下制备：将载玻片清洗(例如，用NanoStrip溶液)、漂洗(例如，用去离子水)并干燥(例如，用N₂)；将该载玻片表面用丙烯酰胺单体功能化；制备硅烷化溶液(例如，在乙醇和水中的5体积％(3-丙烯酰氨基丙基)三甲氧基硅烷)；将该载玻片浸没在硅烷化溶液中(例如，在室温下5小时)，漂洗(例如，用去离子水)，并干燥(例如，用N₂)；制备12％丙烯酰胺凝胶混合物(例如，5mL H₂O，1mg明胶，600mg丙烯酰胺，32mg双丙烯酰胺)；制备6％丙烯酰胺凝胶混合物(例如，50μL 12％丙烯酰胺凝胶混合物，45μL去离子水，5μL 5’-acrydite修饰的寡核苷酸引物(1mM)，涡旋混合)；使6％丙烯酰胺凝胶混合物活化(例如，每100μL凝胶混合物分别添加1.3μL的5％过硫酸铵和1.3μL的5％TEMED并涡旋)；将凝胶混合物施加至表面(例如，硅烷化功能化的载玻片表面)，使其均匀分布(例如，通过用盖玻片按压或通过旋涂)，并使其聚合(例如，在室温下20分钟)。

DNA条形码阵列的光引导合成

探针长度长达60bp的高密度寡核苷酸阵列可以从诸如Affymetrix、NimbleGen和Agilent商购获得。通过采用传统的接触光刻法，逐步错位可将可实现的最小特征大小限制到约1-2μm，如通过使用光解保护基团化学法合成的20-聚体寡核苷酸阵列所示的(参见，例如图1)。通过组合使用投影光刻法和对比增强的光致产酸聚合物膜，可以实现1μm以下的特征大小的缩小。已建立的步进机(steppers)(例如ASML PAS5500)通常在亚微米范围内以±0.060μm的放置精度打印5X缩小的图案。另外，完全合成的序列可以是～60个碱基(～20个碱基条形码，侧翼为两个～20个碱基通用衔接子)。如本文所讨论的，顶部衔接子可以最终引发固定的DNA，而底部衔接子可以作为用于NGS文库制备的第一衔接子。

通过本文公开的技术合成的阵列的特征大小可以小于约10μm、9μm、8μm、7μm、6μm、5μm、4μm、3μm、2μm、1μm、0.9μm、0.8μm、0.7μm、0.6μm、0.5μm、0.4μm、0.3μm、0.2μm或0.1μm。通过本文公开的技术合成的阵列的特征大小可以实现至约10μm、9μm、8μm、7μm、6μm、5μm、4μm、3μm、2μm、1μm、0.9μm、0.8μm、0.7μm、0.6μm、0.5μm、0.4μm、0.3μm、0.2μm或0.1μm内的靶核酸定位(例如，突变、表观遗传修饰或核酸的其他特征的定位)识别。

通过凝胶转移逆转寡核苷酸朝向

使用5’DMT保护基团的标准亚磷酰胺寡核苷酸合成可导致3’端附接至表面的寡核苷酸。为了作为引物用于梳理DNA上的聚合酶延伸，寡核苷酸的朝向在一些情况下可能被逆转。提供了通过面对面聚合酶延伸反应将DNA阵列复制到第二表面上的转移方法。可以将具有与底部衔接子互补的均匀覆盖的固定引物的第二表面按压至与DNA阵列接触。然后可以加热阵列夹层(例如至55℃)，此时界面处存在的聚合酶(例如，Thermopol PCR缓冲液中的Bst聚合酶)可以延伸与阵列的底部衔接子杂交的引物，从而在表面之间产生dsDNA分子桥。在阵列物理分离后，第二表面可以含有互补ssDNA条形码阵列，其5’端附接至该表面且3’端可用于聚合酶延伸。由于均匀分散的引物和条形码寡核苷酸均拴系至它们各自的表面上，所以可以保持转移的特征的相对地理位置(以镜像形式)。为了实现阵列之间的紧密接触，并由此在整个芯片区域上均匀转移，已经评估了包括PDMS和聚丙烯酰胺在内的材料。转移方法的示例性结果在图2中示出。

本文的方法还可用于生成具有所需朝向的寡核苷酸阵列。在一些情况下，在为了生成本文提供的寡核苷酸阵列而制备的表面上生成如本文提供的寡核苷酸阵列的方法用来生成用作模板的寡核苷酸阵列(即，模板阵列)，以用于生成一个或多个寡核苷酸阵列，该寡核苷酸阵列包含与其偶联的且与模板阵列上的寡核苷酸互补的寡核苷酸。包含与其偶联的且与模板阵列互补的寡核苷酸的寡核苷酸阵列可以被称为接受体阵列(或者可替代地，被称为转移阵列)。该转移或接受体寡核苷酸阵列可以包含具有所需朝向的寡核苷酸。可以采用阵列转移过程从模板阵列生成转移或接受体阵列。在一些情况下，使具有所需特征(“斑点”)密度(例如，特征或斑点大小为约1μm)的模板寡核苷酸阵列经历如本文提供的阵列转移过程，以便生成具有所需朝向的转移或接受体寡核苷酸阵列。该所需朝向可以是包含寡核苷酸的转移或接受体寡核苷酸阵列，其中该阵列的每个寡核苷酸的5’端均附接至阵列基底。用于生成具有所需朝向的寡核苷酸的转移或接受体寡核苷酸阵列(即，该阵列的每个寡核苷酸的5’端均附接至阵列基底)的模板寡核苷酸阵列，可使模板阵列的每个寡核苷酸的3’端均附接至该基底。该阵列转移过程可以是面对面转移过程。在一些情况下，该面对面转移过程通过酶促转移或通过合成的酶促转移(ETS)发生。在一些情况下，该面对面转移过程通过非酶促转移过程发生。该非酶促转移过程可以是寡核苷酸固定化转移(OIT)。

面对面凝胶转移过程(例如，ETS或OIT)可以显著降低单位制备成本，同时翻转寡核苷酸朝向(5’固定的)，这可以具有测定优势，如允许与阵列结合的寡核苷酸的3’端的酶促延伸。而且，ETS或OIT可以导致更大数目或更高百分比的具有所需或限定长度的寡核苷酸(即，全长寡核苷酸)从模板阵列转移至接受体阵列。随后接受体寡核苷酸阵列上的转移的全长产物寡核苷酸的扩增(例如，如本文提供的扩增特征再生或AFR)可以使该接受体寡核苷酸阵列含有包含超过50个核苷酸碱基的寡核苷酸，而不会导致低产率或部分长度产物。

在一些情况下，模板和/或接受体阵列包含聚合物。该聚合物可以是适体或寡核苷酸。在一些情况下，模板或接受体阵列包含寡核苷酸。模板或接受体阵列可以具有至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000或100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、20,000,000、100,000,000、200,000,000、500,000,000或十亿个与其偶联的模板聚合物(例如，寡核苷酸)。模板阵列可以具有以至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000或100,000个聚合物(例如，寡核苷酸)/平方毫米的密度在其上排列的模板聚合物。可将模板或接受体阵列上的聚合物(例如，寡核苷酸)组织成斑点、区域或像素。每个斑点或区域中的聚合物(例如，寡核苷酸)可以彼此相同或彼此相关(例如，全部或基本上全部都包括共有或共同序列)。每个斑点或区域中的聚合物(例如，寡核苷酸)可以彼此超过55％、60％、65％、70％、75％、80％、85％、90％、95％、99％或99.9％相同。该模板或接受体阵列可以包含至少1、2、3、4、5、6、7、8、9、10、100、1000、10,000、100,000、1,000,000或10,000,000个斑点或区域。每个斑点或区域可以具有至多约1cm、1mm、500μm、200μm、100μm、10μm、9μm、8μm、7μm、6μm、5μm、4μm、3μm、2μm、1μm、800nm、500nm、300nm、100nm、50nm或10nm的大小。

如本文提供的生成的接受体或转移阵列可以包含在其序列和/或数目方面与模板阵列上的寡核苷酸完全互补、完全相同、部分互补或部分相同的寡核苷酸，其中该接受体阵列从该模板阵列转移。部分互补可以指具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的序列互补性的接受体阵列。部分相同可以指具有至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的序列同一性的接受体阵列。接受体阵列可以具有与模板阵列相同的寡核苷酸数目，和/或具有模板阵列的至少40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％的寡核苷酸数目，其中该接受体阵列从该模板阵列转移。

如本文提供的阵列制备方法可以产生具有设计的、所需的或预期的长度的、可以被称为全长产物的聚合物(例如，寡核苷酸)的阵列。例如，预期生成具有10个碱基的寡核苷酸的制备方法可以生成偶联至阵列的、具有10个碱基的全长寡核苷酸。阵列制备过程可以产生具有小于设计的、所需的或预期的长度的、可以被称为部分长度产物的聚合物(例如，寡核苷酸)。部分长度的寡核苷酸的存在可以在给定的特征(斑点)内或在特征(斑点)之间。例如，预期生成具有10个碱基的寡核苷酸的制备方法可以生成偶联至阵列的、仅具有8个碱基的部分长度寡核苷酸。也就是说，合成的寡核苷酸阵列可以包含许多核酸，这些核酸沿其长度是同源的或接近同源的，但其长度可以彼此不同。在这些同源或接近同源的核酸中，具有最长长度的那些可以被认为是全长产物。长度比最长长度短的核酸可以被认为是部分长度产物。本文提供的阵列制备方法可以产生偶联至阵列的给定特征(斑点)内的一些全长产物(例如，寡核苷酸)和一些部分长度产物(例如，寡核苷酸)。偶联至特定阵列或在给定特征内的部分长度产物在长度上可以不同。由全长产物生成的互补核酸也可以被认为是全长产物。由部分长度产物生成的互补核酸也可以被认为是部分长度产物。

可以使用如本文提供的转移方法(例如，ETS或OIT)增加或富集偶联至接受体阵列表面的全长产物(例如，寡核苷酸)的量或百分比。阵列转移(例如，ETS或OIT)可以产生包含至少、至多、大于、小于或大约30％、40％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或99.9％转移的寡核苷酸的转移或接受体阵列，其中该转移的寡核苷酸的长度是用于生成该转移或接受体阵列的模板阵列上相应寡核苷酸的长度的100％。长度为模板寡核苷酸的长度的100％(即，相同或等同长度)的转移的寡核苷酸可以被称为全长产物(例如，全长产物寡核苷酸)。通过本领域已知的方法(例如，点印法或原位合成)制备的模板阵列可以包含约20％的所需长度的寡核苷酸(即，全长寡核苷酸)和约80％的非所需长度的寡核苷酸(即，部分长度寡核苷酸)。采用如本文提供的阵列转移方法转移通过本领域已知的方法生成的、包含约20％全长寡核苷酸和约80％部分长度寡核苷酸的阵列可以导致生成包含至多约20％全长产物寡核苷酸的转移或接受体阵列。在一些情况下，根据本文的方法制备的阵列具有更大百分比的所需长度的寡核苷酸(即，全长寡核苷酸)，使得采用本文提供的阵列转移方法转移根据本文的方法制备的阵列导致生成与本领域已知的制备和转移方法相比具有更高百分比的全长产物寡核苷酸的转移或接受体阵列。

在一些情况下，本文提供的转移方法(例如，ETS或OIT)包括生成与模板序列互补的核酸(例如，寡核苷酸)序列。该转移可以通过酶复制(例如，ETS)或通过阵列组分在阵列表面之间的非酶促物理转移(例如，OIT)而发生。该阵列表面可以是如本文提供的任何阵列表面。模板阵列和接受体阵列的基底可以是相同的或可以是不同的。该转移可以包括制备已附接至接受体阵列的互补序列；例如，结合至接受体阵列的引物，并且它与模板阵列上的衔接子互补，可以采用模板阵列序列作为模板进行延伸，从而生成全长或部分长度接受体阵列。转移可包括从模板阵列制备互补序列，随后将该互补序列附接至接受体阵列。

如本文提供的转移方法(例如，ETS或OIT)可以生成接受体阵列，使得模板核酸(例如，寡核苷酸)相对于其偶联的接受体阵列表面的朝向得以保留(例如，模板核酸(例如，寡核苷酸)的3’端结合至模板阵列，而转移的核酸(例如，寡核苷酸)互补体的3’端结合至接受体阵列)。转移可以逆转核酸相对于其偶联的阵列表面的朝向(例如，模板核酸的3’端结合至模板阵列，而转移的核酸互补体的5’端结合至接受体阵列)。

阵列转移(例如，ETS或OIT)可以多次进行。可以采用相同的模板阵列多次进行阵列转移(例如，ETS或OIT)。可以使用与模板基底结合的模板聚合物的模板阵列来产生至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、500、1,000、5,000、10,000、50,000或100,000个接受体阵列。通过使用来自一次阵列转移的转移阵列作为随后转移的模板阵列，阵列转移可以在一系列的转移中多次进行。例如，可以从具有在其3’端处与阵列结合的寡核苷酸的模板阵列到具有在其5’端处与阵列结合的互补寡核苷酸的第一转移阵列进行第一次转移，并且可以从该第一转移阵列(现在充当模板阵列)到第二转移阵列进行第二次转移，该第二转移阵列比采用本领域常用的转移技术生成的接受体阵列具有更高百分比的全长产物以及匹配原始模板阵列的序列，同时保留5’-表面结合的朝向。在一些情况下，采用本文提供的阵列转移方法(例如，ETS或OIT)生成的接受体阵列上的全长产物寡核苷酸进一步通过接受体阵列上的全长产物寡核苷酸的扩增而富集。可以采用本文提供的方法进行扩增。该阵列转移方法可以是如本文提供的面对面酶促转移方法(例如，ETS)或非酶促(例如，OIT)方法。

在一些情况下，可以通过使用在模板聚合物(例如，寡核苷酸)上的衔接子序列来帮助通过ETS或OIT进行的阵列转移。聚合物(例如，寡核苷酸)可以包含所需的最终序列，外加一个或多个衔接子序列。例如，模板寡核苷酸可以按顺序包含具有第一衔接子序列的3’端、具有第二衔接子序列的5’端以及在中间的所需最终序列。第一和第二衔接子序列可以是相同的或可以是不同的。在一些情况下，在相同阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及最终序列，而在不同阵列斑点中的寡核苷酸包含相同的第一和第二衔接子序列以及不同的最终序列。在转移/接受体阵列上的引物可以与衔接子序列互补，从而允许引物与模板聚合物(例如，寡核苷酸)之间的杂交。这样的杂交可有助于从一个阵列到另一个阵列的转移。

可以在转移后通过例如酶切、消化或限制性处理，从转移/接受体阵列聚合物(例如，转移的寡核苷酸)中去除一些或全部衔接子序列。可以在转移后通过例如酶切、消化或限制性处理，从转移/接受体阵列聚合物(例如，转移的寡核苷酸)中去除一些或全部衔接子序列。例如，可以经由通过双链DNA酶进行的探针末端剪切(PEC)将寡核苷酸阵列组分的衔接子去除。可以添加与衔接子序列互补的寡核苷酸并将该寡核苷酸与阵列组分杂交。然后可以采用对双链DNA具有特异性的DNA酶消化寡核苷酸(参见图10)。或者，可以将一个或多个可切割的碱基如dU掺入到待去除的链的引物中。然后可以将该引物在紧挨着探针的最3’碱基的位置处形成切口，并且该切口位点可以由合适的酶如绿豆S1或P1核酸酶切割。还可以使用许多种限制酶及其相关的限制酶切位点，包括但不限于EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、Sau3AI、PvuII、SmaI、HaeIII、HgaI、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI和XbaI。在一些情况下，从第二表面(接受体表面)到含有与顶部衔接子互补的引物(例如，寡核苷酸)的新的第三表面重复上述转移过程。因为只有全长寡核苷酸可以具有完整的顶部衔接子，所以只有这些寡核苷酸可以被拷贝到第三阵列表面(即，新的或第三受体或转移阵列)上。该过程可以从部分产物中纯化或富集全长寡核苷酸，由此产生高特征密度、高质量的全长寡核苷酸阵列。纯化或富集可以意指接受体阵列的生成，使得所述接受体阵列比用作生成所述接受体阵列的模板的阵列具有更大百分比或数目的所需长度(即，全长)的寡核苷酸。该全长寡核苷酸可以是含有所有所需特征(例如，衔接子、条形码、靶核酸或其互补体，和/或通用序列等)的寡核苷酸。

在一些情况下，可以通过阵列(例如，模板阵列)的或阵列(例如，模板阵列)上表面涂层的柔性或可变形性来帮助阵列转移。例如，可以在阵列转移(例如，ETS、OIT)中使用包含具有偶联的寡核苷酸的聚丙烯酰胺凝胶涂层的阵列(例如，模板阵列)。该凝胶涂层的可变形性可以允许阵列组分(寡核苷酸、试剂(例如，酶))彼此接触，即使存在表面粗糙度。表面粗糙度可以是表面的形貌的变化性。

可以通过被称为扩增特征再生(AFR)的酶促反应扩增或再生阵列组分。AFR可以在模板阵列和/或接受体阵列上进行。可使用AFR在阵列(例如，模板和/或接受体)上再生全长寡核苷酸，以便确保阵列(例如，模板和/或接受体阵列)上的特征(斑点)中的每个寡核苷酸均包含所需组分(例如，衔接子、条形码、靶核酸或其互补体，和/或通用序列等)。可以对包含衔接子和/或引物结合位点(PBS)的寡核苷酸进行AFR，使得寡核苷酸各自包含第一衔接子(或第一PBS)、探针序列和第二衔接子(或第二PBS)。优选地，阵列(例如，模板和/或接受体阵列)上的每个特征中的寡核苷酸均包含两个或更多个引物结合位点(或衔接子序列)。可以采用本领域已知的核酸扩增技术进行AFR。该扩增技术可以包括但不限于等温桥式扩增或PCR。例如，可以通过阵列(例如，模板和/或接受体阵列)组分上的衔接子序列与结合至表面的寡核苷酸引物之间的杂交，及随后的酶促延伸或扩增，来对阵列(例如，模板和/或接受体阵列)组分寡核苷酸进行桥式扩增。可以使用扩增来恢复损失的阵列(例如，模板和/或接受体阵列)组分密度或将阵列(例如，模板和/或接受体阵列)组分的密度增加至超过其原始密度。

如本文提供的阵列(例如，模板和/或接受体阵列)上的固定的寡核苷酸、核苷酸或引物可以在长度上彼此相等，或可以具有不同的长度。固定的寡核苷酸、核苷酸或引物可以包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195或200个碱基。在一些情况下，固定的寡核苷酸、核苷酸或引物为71个碱基长(71-聚体)。

可以使转移阵列的接受体表面与模板阵列的模板表面紧密靠近或接触。在一些情况下，可以通过可变形的涂层如聚合物凝胶(例如，聚丙烯酰胺)的存在来帮助模板阵列与转移阵列之间的接触。该涂层的可变形性可以允许偶联的聚合物(例如，寡核苷酸或引物)进行足够紧密的接触，以使杂交发生。该涂层的可变形性可以帮助克服由于表面粗糙度(例如，表面形貌变化性)或其他特征导致的间隙，否则该间隙将会阻止用于杂交的足够紧密接触。可变形涂层的一个额外的好处是其可以预加载有酶促反应试剂，因此充当用于通过合成的酶促转移(ETS)的界面反应的储器。阵列之一或两者可以包含具有偶联有聚合物分子的凝胶涂层的基底。例如，转移阵列可以包含与聚丙烯酰胺凝胶偶联的基底，其中寡核苷酸引物偶联至该凝胶。表面和涂层在本公开内容的其他地方进一步讨论。

通过合成的酶促转移(ETS)

ETS可以包括面对面聚合酶延伸反应，该反应用于将一个或多个模板寡核苷酸(例如，DNA寡核苷酸)从模板寡核苷酸阵列拷贝到第二表面(例如，接受体阵列)上。可以按压第二表面(例如，接受体阵列)，使其与模板寡核苷酸(例如，DNA寡核苷酸)阵列接触，其中该第二表面均匀覆盖有与模板寡核苷酸阵列中的寡核苷酸上的序列(例如，包含衔接子序列的寡核苷酸阵列中的底部衔接子序列)互补的固定的引物。接受体阵列表面可以包含表面固定的寡聚物(寡核苷酸)、核苷酸或者与模板寡核苷酸阵列上的模板核酸或寡核苷酸至少部分互补的引物。在一些情况下，转移或接受体阵列包含与模板阵列上的适体选择性杂交或结合的寡核苷酸。转移或接受体阵列上的固定的寡核苷酸、核苷酸或引物可以与模板聚合物(例如，寡核苷酸)上的衔接子区域互补。

模板核酸(寡核苷酸)可以与接受体表面上的固定的引物或探针杂交，该引物或探针也被称为接受体引物或探针，或者转移引物或探针。可以例如通过DNA聚合酶对杂交的复合物(例如，双链体)进行酶促延伸，该DNA聚合酶包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和pyrophage。

转移过程可以保留寡核苷酸的朝向，即，如果5’端结合至模板表面，则合成的寡核苷酸的5’端将结合至接受体表面，或者反之亦然。在其5’端结合的转移引物可以在其3’端与模板核酸结合，随后进行酶促延伸以产生与模板寡核苷酸互补并在其5’端与接受体阵列表面结合的核酸。

在一些情况下，仅使用全长模板核酸产物在接受体阵列上生成互补体。在一些情况下，模板阵列上的模板核酸寡核苷酸的至少30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％是全长产物(寡核苷酸)。在一些情况下，在接受体阵列上生成的转移或接受体核酸产物(寡核苷酸)的至少30％、40％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％、99.9％或100％是全长产物。ETS期间接受体阵列上部分长度产物的生成可能是由于全长模板寡核苷酸在聚合酶驱动的合成期间的不完全延伸而引起的。接受体阵列上全长产物的生成可以采用如本文提供的AFR来实现。

在一些情况下，接受体阵列上包含与模板聚合物(例如，寡核苷酸)的一部分杂交的引物，使得发生延伸反应，直到所有的模板聚合物(例如，寡核苷酸)都用作互补阵列(或接受体阵列)上互补接受体寡核苷酸合成的模板。在一些情况下，发生接受体阵列的合成，使得平均至少100％、99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％、70％、69％、68％、67％、66％、65％、64％、63％、62％、61％、60％、59％、58％、57％、56％、55％、54％、53％、52％、51％或50％的模板聚合物(例如，寡核苷酸)用于在该接受体阵列上生成互补序列。换句话说，转移后，接受体阵列可以包含采用至少100％、99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％、70％、69％、68％、67％、66％、65％、64％、63％、62％、61％、60％、59％、58％、57％、56％、55％、54％、53％、52％、51％或50％的模板寡核苷酸作为模板合成的接受体核苷酸(例如，寡核苷酸)。

阵列转移过程(例如，ETS)可以逆转模板核酸的朝向。也就是说，如果5’端结合至模板表面，则合成的寡核苷酸的3’端将结合至接受体表面，或者反之亦然。

在其3’端与模板阵列表面(模板表面)结合的模板核酸(例如，寡核苷酸)可以与接受体阵列上、在其5’端与接受体阵列表面结合的转移引物杂交。转移引物的酶促延伸产生与模板核酸(例如，寡核苷酸)互补并在其5’端与接受体阵列表面结合的核酸(例如，寡核苷酸)。在一些情况下，利用模板阵列的特征(斑点)中的部分长度寡核苷酸在接受体阵列上生成互补的部分长度寡核苷酸。在一些情况下，利用模板阵列的特征(斑点)中的全长寡核苷酸在接受体阵列上生成互补的全长寡核苷酸。

模板和接受体表面可以是可生物相容的，如聚丙烯酰胺凝胶、修饰的聚丙烯酰胺凝胶、PDMS、二氧化硅、硅、COC、金属(如金、铬合金或铬，或任何其他生物相容的表面)。如果表面包含聚合物凝胶层，则厚度可影响其可变形性或柔性。凝胶层的可变形性或柔性可以使其对保持表面之间的接触是有用的，即使存在表面粗糙度。在本文中进一步讨论了表面的细节。

试剂和其他化合物，包括酶、缓冲液和核苷酸，可以放置在表面上或包埋在相容的凝胶层中。该酶可以是聚合酶、核酸酶、磷酸酶、激酶、解旋酶、连接酶、重组酶、转录酶或逆转录酶。在一些情况下，在表面上或包埋在相容的凝胶层中的酶包括聚合酶。聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion、pyrophage及其他聚合酶。在本文中进一步讨论了表面的细节。在一些情况下，在表面上或包埋在相容的凝胶层中的酶包括连接酶。连接酶可以包括但不限于大肠杆菌连接酶、T4连接酶、哺乳动物连接酶(例如，DNA连接酶I、DNA连接酶II、DNA连接酶III、DNA连接酶IV)、热稳定连接酶以及快速连接酶。

接受体阵列的表面可以是在模板阵列顶部形成的凝胶。可以将反应混合物放置在接受体阵列的表面上或包埋在接受体表面中。在一些情况下，将反应混合物放置在接受体阵列的表面上。在一些情况下，将反应混合物包埋在接受体表面中。该接受体表面可以是相容的凝胶层。该反应混合物可以包含进行通过合成的酶促转移(ETS)所必需的任何试剂。

模板阵列通过ETS的酶促转移可以如下进行：1.)制备酶混合物(例如，37μL H₂O，5μL 10X Thermopol缓冲液，5μL 10mg/mL BSA，1μL 10mM dNTP以及2μL 8U/μL Bst酶)；2.)将酶混合物施加到接受体阵列(例如，如本公开内容其他地方所述制备的、偶联有寡核苷酸引物的丙烯酰胺凝胶涂覆的载玻片)；3.)将模板阵列与接受体阵列面对面放置并使其反应(例如，在55℃下在湿度室内夹紧在一起持续2小时)；4.)将模板阵列与接受体阵列分开(例如，通过施加4X SSC缓冲液而松开并在剃须刀片的辅助下拉开)；5.)将模板阵列漂洗(例如，在去离子水中)并干燥(例如，用N₂)；以及6.)漂洗接受体阵列(例如，用4X SSC缓冲液和2X SSC缓冲液)。在一些情况下，模板阵列上的寡核苷酸包含衔接子，使得底部衔接子位于邻近该模板阵列表面的位置，而顶部衔接子位于远离该模板阵列表面的位置。当将该夹心结构加热至55℃时，Thermopol PCR缓冲液中的Bst聚合酶可以延伸来自接受体阵列的、与该模板阵列的底部衔接子杂交的引物，这可以在模板与接受体阵列表面之间产生dsDNA分子桥。一经物理分离，第二表面(即，接受体阵列)可以含有互补ssDNA条形码阵列，其中寡核苷酸的5’端附接至该表面并且3’端可用于聚合酶延伸。由于模板阵列上的均匀分散的引物和接受体阵列上的条形码寡核苷酸都可以栓系至其各自的表面，因此可以保持转移的特征的相对位置(以镜像形式)。为了实现紧密接触并因此在整个芯片区域上均匀转移，可以使用宽范围的表面材料(PDMS、聚丙烯酰胺)、厚度和工艺条件。面对面转移的效率可能导致每个拷贝的阵列特征内的寡核苷酸密度降低。本领域技术人员可以理解，可以通过例如改变凝胶转移条件，例如酶、过程温度和时间、引物长度或表面材料性质的选择来优化转移条件。或者，可以使用经由固相PCR(例如，桥式PCR)的转移后表面扩增来使条形码密度增加至如本文所述的所需水平。

寡核苷酸固定化转移(OIT)

在一些情况下，通过非酶促转移来进行接受体阵列的生成。非酶促转移的一种形式是寡核苷酸固定化转移(OIT)。在OIT中，模板阵列上的模板核酸(例如，寡核苷酸)可以是单链的。包含与模板寡核苷酸的一部分互补的序列的引物可以与该模板寡核苷酸杂交并通过引物延伸而延伸，以便生成并可以在模板阵列上制备双链模板寡核苷酸。用于引物延伸的引物可以在溶液中。许多聚合酶可以用于OIT，包括PolI、PolII、PolIII、Klenow、T4DNAPol、修饰的T7DNA Pol、突变的修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion及其他。在一些情况下，用于引物延伸的引物包含连接体，该连接体用于固定或结合接受体阵列表面上通过引物延伸生成的双链模板寡核苷酸的链。该接受体阵列表面可以是如本文提供的平坦表面、珠子或凝胶。在一些情况下，该接受体阵列表面是在OIT期间形成的聚丙烯酰胺凝胶。在一些情况下，在延伸后，该连接体可以结合至接受体阵列表面。该接受体阵列表面可以是如本文提供的任何阵列表面，如聚合物凝胶或修饰的玻璃表面。在OIT中，随后可以将该模板和接受体阵列表面分离。可以在分离前使DNA(即，双链模板寡核苷酸)解链。

在一些情况下，OIT中使用的引物是5’-acrydite修饰的引物。5’-acrydite修饰的引物可以能够在如本文提供的聚合期间并入到聚合物凝胶(例如，聚丙烯酰胺)中。然后可以采用该acrydite引物生成来自模板核酸(例如，寡核苷酸)的延伸产物，使该延伸产物与经结合处理(例如，未聚合的聚丙烯酰胺涂料前体)的基底接触，在聚合期间并入，并分离。该引物可以是5'-己炔基-聚T-DNA。在一些情况下，通过互补的5'-己炔基-聚T-DNA引物的结合和延伸生成来自模板核酸的引物延伸产物。在延伸后，可以将该5'-己炔基-聚T-DNA引物：1)与经结合处理的基底(如采用硅烷处理的玻璃)接触，2)与交联剂例如同双功能连接体如1,4-亚苯基二异硫氰酸酯(PDITC)连接，3)使用PEG连接体与N3结合基团连接，4)在N3基团处键合至基底，以及5)在OIT的第二阶段期间分离。该表面可以是如本文讨论的任何表面。可以代替PDITC使用的其他交联剂可以包括辛二亚氨酸二甲酯(DMS)、二琥珀酰亚胺基碳酸酯(DSC)和/或二琥珀酰亚胺基草酸酯(DSO)。该过程可以保留寡核苷酸的朝向，即，如果5’端结合至模板阵列表面，则合成的寡核苷酸的5’端将结合至接受体阵列表面，或者反之亦然。尽管可以在转移之前使用酶促延伸，但转移自身可以在没有酶促反应的情况下进行。

在一些情况下，可以在没有酶促转移的情况下生成具有5’至3’朝向的寡核苷酸阵列。例如，模板寡核苷酸阵列上的合成核酸序列的未结合端可以包含与在该寡核苷酸的阵列结合端处或该结合端附近的序列互补的连接体序列，从而使该寡核苷酸环化。该寡核苷酸可以进一步在相同末端处包含限制性序列。环化的寡核苷酸上的限制性序列的消化起到翻转含有连接体序列的全长寡核苷酸并切断该阵列上缺乏连接体序列的任何部分长度的寡核苷酸产物的作用。可以使用许多限制酶及其相关的限制酶切位点，包括但不限于EcoRI、EcoRII、BamHI、HindIII、TaqI、NotI、HinFI、Sau3AI、PvuII、SmaI、HaeIII、HgaI、AluI、EcoRV、EcoP15I、KpnI、PstI、SacI、SalI、ScaI、SpeI、SphI、StuI和XbaI。

选择全长探针

由于脱保护和偶联的效率低下，现有的阵列合成技术可能受到部分长度产物的影响。对于较长的寡核苷酸来说，这可能是特别有问题的，其中98％的逐步效率只产生36％的全长50-聚体寡核苷酸，其余的均被截短。上述从第二表面到含有与顶部衔接子互补的引物的新的第三表面的转移过程可以有助于纯化全长探针。因为仅全长寡核苷酸具有完整的顶部衔接子，所以只有这些寡核苷酸将被拷贝到第三表面上。该过程可以从部分产物中纯化全长寡核苷酸，从而产生高特征密度、高质量的全长DNA阵列。

可以使用抗体标记表观遗传修饰(例如，5-甲基胞嘧啶)，并特异性捕获含有表观遗传修饰的基因组区域。可以捕获含有表观遗传修饰的基因组区域用于文库构建，同时保持这些文库分子的相对位置。该相对位置可以允许跨长基因组距离的表观遗传修饰的定相。

分离长DNA分子

用于提取Mb长DNA的方法是已知的(参见，例如，Zhang,M.等人.Preparation ofmegabase-sized DNA from a variety of organisms using the nuclei method foradvanced genomics research,Nature protocols 7,467-478,(2012)，该文献通过引用并入本文)，并通常在许多实验室中进行。例如，可以使用BioRad Mammalian Genomic DNAPlug试剂盒。简而言之，可以洗涤栓(plug)，并可以融化及消化琼脂糖(例如，用β-琼脂糖酶)。然后可以如下所述处理DNA溶液。

在梳理前处理DNA

可以在梳理之前处理长DNA分子，以便将引物位点和生物素附接到长DNA分子的末端，如图3A的实例所示。该方法可以被设计为以最少的步骤数目进行，以尽可能长时间地保持DNA分子，并在DNA的末端附接引物位点，从而能够特异性地从可辅助分析的固定化的DNA分子的末端产生文库读取。可以将DNA在0.5M pH 5.5的缓冲液中稀释并倒入拉伸储器中以备梳理。

DNA梳理

通过梳理来固定完整的、兆碱基长的DNA分子可以解析基因组的复杂重复区域(在一些区域中是第一次)中的序列。这些技术可以进一步降低与WGS相关的测序成本。DNA梳理可以以多种方式进行，包括使用微流体通道。存在多种在表面上或通过微流体通道梳理染色体DNA的方法。

可以将单个长DNA分子的多个拷贝在表面上梳理或以其他方式拉伸。例如，可将至少2、5、10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000或1,000,000个单个DNA分子在表面上拉伸。可以平行探测或以其他方式分析多个拉伸的DNA分子的表观遗传修饰。DNA分子的表面密度可以为至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个基因组/平方厘米(基因组/cm²)。在一些情况下，表面上的DNA分子的密度为约25个至约50个基因组/cm²。DNA分子的覆盖可以为至少约1X、2X、3X、4X、5X、6X、7X、8X、9X、10X、11X、12X、13X、14X、15X、16X、17X、18X、19X、20X、25X、30X、35X、40X、45X、50X、55X、60X、65X、70X、75X、80X、85X、90X、95X或100X二倍体基因组覆盖。在一些情况下，表面上的DNA分子的密度为约30X至约40X二倍体基因组覆盖。表面可以包含至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个兆碱基(Mb)长度的DNA片段。例如，DNA片段可以为约1至约40Mb长度。

用于拉伸和固定DNA的分子梳理方法(Gueroui,Z.,Place,C.,Freyssingeas,E.&Berge,B.Observation by fluorescence microscopy of transcription on singlecombed DNA.Proceedings of the National Academy of Sciences of the UnitedStates of America 99,6005-6010,(2002)；Bensimon,A.等人.Alignment and sensitivedetection of DNA by a moving interface.Science 265,2096-2098,(1994)；这些文献通过引用并入本文)。分子梳理是这样的过程，通过该过程可以将溶液中的游离DNA置于储器中，并且可以将疏水涂覆的载玻片(例如聚赖氨酸)浸入到DNA溶液中并收回。收回载玻片的过程产生可以以线性方式拉动DNA的后退弯月面(参见例如，图4A、图4B、图4C和图5)(Bensimon,A.等人.Alignment and sensitive detection of DNA by a movinginterface.Science 265,2096-2098,(1994)；Michalet,X.等人.Dynamic molecularcombing:stretching the whole human genome for high-resolution studies.Science277,1518-1523,(1997)，这些文献通过引用并入本文)。在一些情况下，可以在第一表面(例如PDMS)上梳理DNA，随后将其转移至第二表面(例如聚赖氨酸)上进行标记。

在一些情况下，拉伸供本文提供的方法使用的靶多核苷酸。该靶多核苷酸可以是DNA。可以通过多种方法进行拉伸，该方法包括但不限于分子梳理、转移打印、分子穿线、纳米通道、电力、磁力、光力和流体动力。可以通过方法的组合来进行拉伸。例如，分子梳理和纳米通道的使用。DNA拉伸可以是这样的过程，通过该过程可以将溶液中的DNA(“游离DNA”)置于储器中，并且可以将疏水涂覆的载玻片浸入到DNA溶液中并收回。虽然该过程的物理学可能尚未被完全理解，但DNA末端可以通过疏水相互作用与载玻片的表面相互作用，并且收回载玻片的过程可以产生后退弯月面，该弯月面可以用于以线性方式拉动DNA横跨表面。DNA拉伸可以是高度平行的过程，其可以产生在表面或基底上拉伸的高密度堆积的DNA分子。本领域技术人员可以理解，DNA拉伸可以在多种表面上进行，并且用于在特定表面上拉伸的具体条件可以采用本领域已知的方法进行优化。该多种表面或基底可以是玻璃、硅和/或聚合物或聚合物涂覆的表面。拉伸基底可以包含特征，如微通道、纳米通道、微柱(micropost)或纳米柱(nanopost)。该拉伸基底可以与引物阵列相同或可以是单独的基底。DNA分子的大小可以在数百kb到超过1Mb的范围内。几kb至百万碱基长度的完整靶多核苷酸(例如，DNA分子)通过拉伸的固定可以提供在基因组的复杂重复区中分辨序列的能力，并且可以进一步降低与WGS有关的测序成本。拉伸可以为与模板核酸分子的杂交提供改善的可及性。拉伸可以增加模板核酸分子的线性。使核酸拉伸可增加核酸区域之间的分辨率或距离。拉伸可以将DNA的长度增加至DNA的结晶学长度的1.5倍。一旦靶多核苷酸(例如，DNA)已拉伸并结合至固体表面，则可以探测该靶多核苷酸以形成用于组装如本文所述的短NGS读取的框架。该模板核酸可以在寡核苷酸阵列(例如，模板或接受体寡核苷酸阵列)上拉伸。

虽然拉伸可以在溶液中或基底上发生，但拉伸的靶多核苷酸可以最终置于基底上或可以以伸长的方式定位在基底上。该阵列基底可以是如本文所述的模板和/或接受体寡核苷酸阵列。

拉伸基底可以包含表面涂层或功能化。该表面涂层或功能化可以是疏水或亲水的。该拉伸基底可以是具有基于聚(马来酸酐)的梳状共聚物的胺衍生化的载玻片。该表面涂层可以包含聚合物涂层，如聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、抗生物素蛋白、抗体、抗体片段或适体。该表面涂层或功能化可以包含用于例如将拉伸核酸的片段伸长的引物。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层和结合剂，或聚合物凝胶涂层以及引物。拉伸基底可以包含引物阵列。引物阵列在本公开内容的其他地方进一步讨论。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过转移打印来实现。转移打印法可以是如Zhang等人,2005,Langmuir 21:4180-4184中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以通过采用分子梳理的拉伸，在印章(stamp)如PDMS印章上制备和比对拉伸的核酸。可以通过例如以氨基为末端的表面修饰将印章上拉伸的核酸锚定或键合至表面。可以使用接触或转移打印将比对的核酸从印章转移至表面。在一些情况下，弯月面速度可以影响表面上的核酸密度。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过分子穿线来实现。分子穿线法可以是如Payne等人,2013,PLoS ONE 8:e69058中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将溶液中核酸分子(例如，DNA分子)的小滴定位于表面附近。可以使用探针如PMMA处理的玻璃针抓取溶液中的单个核酸分子(例如，DNA分子)。然后可以将探针从溶液中拉出，使关联的核酸分子(例如，DNA分子)拉伸。然后可以使拉伸的核酸分子(例如，DNA分子)沉积在表面上。在一些情况下，可以将拉伸的核酸分子(例如，DNA分子)相隔小于或等于约100nm放置。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过使用纳米通道进行。通过使用纳米通道进行的拉伸可以如Reisner等人,2012,Rep.Prog.Phys.,75(10):106601或美国专利号7,670,770中所述，这些文献的公开内容分别通过引用以其全文并入于此。纳米通道的宽度、高度、直径或流体动力学半径可以为约200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10nm。纳米通道可以在包括聚合物、玻璃和硅在内的材料中形成。由于自回避作用，核酸分子(例如，DNA分子)在被限制在纳米通道中时，可以拉伸开。核酸(例如，DNA)在纳米通道中的延伸或拉伸可能依赖于核酸(例如，DNA)溶液的离子强度。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过使用纳米结构来进行。通过使用纳米结构进行的拉伸可以如美国专利号RE42315中所述，该专利的公开内容通过引用以其全文并入于此。基底上的纳米结构可以包括纳米槽，并且该基底可以具有悬浮在其上的脂双层。核酸分子(例如，DNA分子)可以被驱使通过该膜进入槽中并拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过磁力(如磁性镊子)进行。磁力法可以是如Haber和Wirtz,2000,Rev.Sci.Instrum.71:4561中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将核酸分子(例如，DNA分子)连接至磁性颗粒或珠子，随后可以通过施加的磁场对其进行操纵。例如，当核酸分子的一端连接至磁性颗粒并且该分子的另一端连接或栓系至基底时，可以使用施加的磁力来使该核酸分子(例如，DNA分子)拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过光力(如光学镊子)进行。光力法可以是如Wang等人,1997,Biophysical Journal,72(3):1335-1346中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以将核酸分子(例如，DNA分子)连接至颗粒或珠子，随后可以通过光学陷阱对其进行操纵。例如，当核酸分子的一端连接至捕获的颗粒并且该分子的另一端连接或栓系至基底时，可以使用光阱力使该核酸分子(例如，DNA分子)拉伸。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过电场进行。电场法可以是如Ferree和Blanch,2003,Biophysical Journal,85(4):2539-2546中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以例如通过生物素-链霉亲和素结合或其他方法将核酸分子(例如，DNA分子)栓系至基底。然后可以用施加的电场产生使分子拉伸的力。

在一些情况下，如本文提供的靶多核苷酸的拉伸通过流体动力进行。流体动力法可以是如Kim等人,2007,Nature Methods,4:397-399中描述的方法，该文献的公开内容通过引用以其全文并入于此。可以例如通过生物素-链霉亲和素结合或其他方法将靶多核苷酸栓系至基底。围绕靶多核苷酸的流体流动可以提供使分子拉伸的力。

在一些情况下，靶多核苷酸可以在拉伸基底上拉伸并随后与引物阵列(例如，模板和/或接受体寡核苷酸阵列)接触。或者，靶多核苷酸可以直接在引物阵列(例如，模板和/或接受体寡核苷酸阵列)上拉伸。

在第一表面上固定DNA并标记表观遗传修饰以供在第二表面上捕获

一旦DNA被拉伸并结合至固体表面上，则可以探测DNA以产生用于组装短NGS读取的框架。这可以允许无偏倚的长读取测序。例如可以通过使用抗体来标记表观遗传修饰(例如，5-甲基胞嘧啶)。可以捕获含有表观遗传修饰的基因组区域。可以使用常规生物化学法来制备寡核苷酸位置条形码阵列上的固定化的且被捕获的DNA的测序文库。可以对这些文库进行测序(例如，使用Illumina HiSeq)。可以对条形码进行测序，并可以提供用于将表观遗传修饰置于长单个DNA分子上的框架。

本发明提供了用于将核酸固定在基底上的方法和组合物。任选地，可以使用固定来帮助分离延伸或扩增产物与模板核酸(“靶多核苷酸”)。在一些情况下，将靶多核苷酸固定至固定基底上。

许多不同的材料适合用作固定基底。该固定基底可以包含玻璃、硅、聚合物(例如，聚丙烯酰胺、PMMA)或金属。该固定基底可以包含物理特征，如微通道或纳米通道。

固定基底可以包含表面涂层或功能化。该表面涂层或功能化可以是疏水或亲水的。该表面涂层可以包含聚合物涂层，如聚丙烯酰胺。该表面涂层可以包含凝胶，如聚丙烯酰胺凝胶。该表面涂层可以包含金属，如图案化的电极或电路。该表面涂层或功能化可以包含结合剂，如链霉亲和素、抗生物素蛋白、抗体、抗体片段或适体。该表面涂层或功能化可以包含多种要素，例如聚合物或凝胶涂层以及结合剂。

在DNA梳理后，可以封闭疏水性表面(例如，用BSA)，并可以标记表观遗传修饰(例如，用生物素)。表观遗传修饰可用一系列标签和亲和剂进行标记，例如通过使用对感兴趣的表观遗传修饰具有特异性的抗体(例如，5-甲基胞嘧啶)进行标记。可以对亲和剂如抗体进行标记(例如用生物素)，以允许标记表观遗传修饰。图4A示出了使用抗体来鉴别ssDNA的梳理区域的示例性结果。可以对其开发抗体或其他标签的任何表观遗传修饰可以用这些技术进行靶向和标记。

可以在核酸(例如，梳理的DNA)上标记至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个不同的表观遗传修饰。可以标记相同修饰以及不同修饰的多个实例。

转移DNA至第二表面以及文库构建。可以将固定的DNA分子转移至链霉亲和素涂覆的表面(例如，包埋于水凝胶内的链霉亲和素)上。链霉亲和素表面可以捕获生物素标记的表观遗传修饰以及固定DNA分子的生物素化的末端(参见例如图3A)。可以使用例如Nextera反应(可从Illumina,San Diego商购获得)产生来自结合至链霉亲和素表面的分子的测序文库。也可以通过其他的技术(例如连接和PCR)来创建测序文库(参见例如图7A和图7B)。这可以产生在表面上含有表观遗传修饰的文库分子，并且这些文库分子可以在空间上受到限制，从而沿长单DNA分子框架化表观遗传修饰。文库分子可以包含空间条形码信息以及遗传信息或表观遗传信息。

图7A示出了在DNA芯片表面上转化成文库的梳理的DNA分子(约50pg/μL)。通过用6-碱基切割物切割拉伸的DNA并将其连接到阵列寡核苷酸来创建文库，从而导致图7B中描绘的凝胶中所示的大文库分子的大小。通过PCR扩增和扩增后液体的收集，从阵列中提取该文库。在MiSeq上对通过类似的技术(使用4碱基切割物)产生的文库进行测序，并且～20％的读取被映射到人类基因组，而另外80％的读取容易被鉴定为来自DNA芯片的寡核苷酸。

可以从寡核苷酸阵列上的固定化的且被捕获的DNA产生测序文库。然后可以在例如Illumina HiSeq上对文库进行测序。也可以对条形码进行测序，这可以提供用于将表观遗传修饰置于固定在表面上的每个长单个DNA片段上的框架。表观遗传修饰的缺乏也可以通过在DNA片段末端之间的文库分子的缺乏来识别。

延伸固定的dsDNA。产生的dsDNA文库可以具有允许在阵列表面上产生互补链的引物位点(参见例如图3B)。阵列表面上的ssDNA可以引发文库分子上的位点，并且可以在固定时进行延伸(参见例如图3B)。引物可以在与DNA退火时进行延伸，并使用聚合酶将DNA转移至芯片表面(参见例如图4A、图4B、图4C和图5)。该过程可以在延伸的区域无(或最小)偏倚地进行。

一旦如本文提供的将靶多核苷酸得到分离并处理，则可以从该靶多核苷酸生成位置条形码化的延伸产物。在一些情况下，使如本文提供的经处理的靶多核苷酸在拉伸基底上拉伸并在经历引物延伸反应之前与引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物接触。

可以使包含凝胶表面涂层的引物基底与包含拉伸的靶多核苷酸的拉伸基底接触。或者，可以使靶多核苷酸拉伸，固定在固定基底上，并与引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物接触。或者，可以直接使靶多核苷酸在引物阵列(例如，模板和/或接受体寡核苷酸阵列)基底上拉伸。引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物可以与采用本文提供的方法引入到靶多核苷酸中的引物结合位点杂交。

可以进行延伸反应以采用靶多核苷酸的区段作为模板延伸与靶多核苷酸杂交的引物。该靶多核苷酸可以是拉伸的靶多核苷酸。与该靶多核苷酸(例如，拉伸的多核苷酸)杂交的引物可以是非基底结合的(例如，游离于溶液中的)或基底结合的。在一些情况下，采用与引物阵列(例如，模板和/或接受体寡核苷酸阵列)结合的引物进行延伸反应，以生成包含与靶多核苷酸的区段互补的序列的位置编码的延伸产物。所得延伸产物可以保持与该引物阵列(例如，模板和/或接受体寡核苷酸阵列)结合。所得延伸产物可以包含PCR引物位点，条形码序列，和存在于原始的与阵列结合的引物中的衔接子序列，以及与靶多核苷酸的区段互补的序列。

在一些情况下，引物阵列(例如，模板和/或接受体寡核苷酸阵列)上的引物(例如，寡核苷酸)在采用本文提供的方法引入到靶多核苷酸中的引物结合位点处与拉伸的靶多核苷酸杂交或偶联。可以使用杂交或偶联的引物(例如，寡核苷酸)进行延伸反应。

例如，在第一步中，使非阵列结合的引物与靶多核苷酸杂交，可以在杂交之前采用本文所提供的任意方法使该靶多核苷酸拉伸。可以通过非阵列结合的引物上的随机序列以及靶多核苷酸上与该随机序列互补的序列来促进非阵列结合的引物与靶多核苷酸之间的杂交。杂交后，可以采用靶多核苷酸作为模板，利用本文提供的任意聚合酶来延伸杂交的非阵列结合的引物，以便生成与该靶多核苷酸互补的延伸产物。非阵列结合的引物可以进一步包含引物结合位点，使得引物结合位点不与靶多核苷酸杂交。引物结合位点可以包含限定序列。该限定序列可以是通用序列、衔接子序列、PCR引物序列和/或条形码序列。引物结合位点可以包含通用序列、衔接子序列、PCR引物序列和/或条形码序列。该条形码序列可以以本文所述的方式编码位置信息。在一些情况下，所使用的聚合酶包含链置换活性。在一些情况下，所使用的聚合酶不包含链置换活性。可以使延伸产物与包含引物区的引物阵列(例如，模板和/或接受体寡核苷酸阵列)接触。每个引物区均可包含与引物阵列的引物区中的一个结合的引物(例如，寡核苷酸)。每一个与阵列结合的引物(例如，寡核苷酸)均可以包含与引物结合位点互补的序列，并且可因此在与引物结合位点杂交时将提供的延伸产物栓系至基底，以生成与阵列结合的延伸产物。或者，在延伸反应期间，可以发生从游离引物到靶多核苷酸的模板转换，从而允许延伸产物并入与靶多核苷酸的区段互补的序列。

在一些情况下，从与靶多核苷酸偶联的与阵列结合的引物生成延伸产物，其中该靶多核苷酸包含通过如本文提供的转座子插入引入的引物结合位点。该条形码序列可以以本文所述的方式编码位置信息。

可以用酶如本文提供的任何DNA聚合酶进行延伸反应。该聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4 DNA Pol、修饰的T7 DNA Pol、突变的修饰的T7 DNAPol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mMTris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行延伸反应。可以用逆转录酶进行延伸反应。在一些情况下，模板核酸包含RNA，并且酶促延伸反应使用RNA作为模板使引物延长。采用与阵列结合的引物和靶多核苷酸进行延伸反应可以生成与阵列结合的延伸产物，该延伸产物包含模板核酸序列或其互补体的一部分以及如本文提供的条形码标签序列。

在一些情况下，从在如本文提供的阵列上的、与靶多核苷酸偶联的与阵列结合的引物生成延伸产物，该靶多核苷酸包含通过采用切口酶在靶多核苷酸上产生切口并随后附加引物结合位点而引入的引物结合位点。该切口酶可以是如本文提供的任意切口酶。在一些情况下，该切口酶是Nt.CviPII。可以通过连接进行该引物结合位点的附加。连接可以是如本文所述的任何连接方法。靶多核苷酸的拉伸可以是本文提供的任何拉伸方法。在一些情况下，采用分子梳理使靶多核苷酸拉伸。可以采用分子梳理使包含附加的引物结合位点的靶多核苷酸在寡核苷酸阵列上拉伸，使得一个或多个引物结合位点包含与寡核苷酸阵列上的寡核苷酸互补的序列。可以通过本文提供的方法制备寡核苷酸阵列。寡核苷酸阵列可以是模板或接受体阵列。可以采用如本文提供的转移方法生成接受体阵列。转移方法可以是如本文提供的面对面酶促转移方法。在一些情况下，在寡核苷酸阵列上拉伸的靶多核苷酸上的引物结合位点与包含互补序列的寡核苷酸结合，使得包含结合的引物结合位点的靶多核苷酸的链充当模板以采用聚合酶延伸包含互补序列的寡核苷酸，由此生成与阵列结合的双链靶多核苷酸。可以通过使用分子梳理进行靶多核苷酸的拉伸。该条形码可以是如本文提供的位置条形码。可以在可用于视觉确认聚合酶延伸的修饰的核苷酸(用荧光团标记)的存在下，用热稳定酶—Vent exo^-聚合酶进行引物延伸。然而，本领域技术人员可以理解，可以使用如本文提供的任何合适的聚合酶。在一些情况下，使用包含链置换性质的聚合酶。该链置换聚合酶可以是Vent exo^-聚合酶以及phi29和Bst。在一些情况下，可以通过本领域已知的方法实现片段化。可以通过物理片段化方法和/或酶片段化方法进行片段化。物理片段化方法可以包括雾化、声处理和/或流体动力学剪切。在一些情况下，可以机械地实现片段化，包括使核酸经受声处理。在一些情况下，该片段化包括在适合于一种或多种酶在双链核酸中产生断裂的条件下，用该一种或多种酶处理核酸。对核酸片段的生成有用的酶的实例包括序列特异性和非序列特异性核酸酶。核酸酶的非限制性实例包括DNA酶I、片段化酶(Fragmentase)、限制性内切核酸酶、其变体及其组合。用于进行酶片段化反应的试剂是可商购的(例如，从New England Biolabs)。例如，用DNA酶I消化可以包括在不存在Mg⁺⁺但存在Mn⁺⁺的情况下随机诱导DNA中的双链断裂。在一些情况下，片段化包括用一种或多种限制性内切核酸酶处理靶多核苷酸。片段化可以产生具有5’突出端、3’突出端、平端或其组合的片段。在一些情况下，诸如当片段化包括使用一种或多种限制性内切核酸酶时，靶多核苷酸的切割留下具有可预测的序列的突出端。在一些情况下，如本文所述对片段化的双链靶多核苷酸进行末端修复，由此产生平端。在一些情况下，如本文所述对片段化的双链靶多核苷酸进行末端修复，并随后如本文所述使其经历A-加尾反应。可以通过双链靶多核苷酸从寡核苷酸阵列基底的片段化来实现该双链靶多核苷酸从寡核苷酸阵列上的释放。可以通过使用本文提供的任何方法来进行片段化。在一些情况下，与阵列结合的引物(寡核苷酸)优选地在其5’或3’端具有限制酶切位点，该位点并入到双链靶多核苷酸中并允许该双链靶多核苷酸或其部分的选择性切割和释放。在一些情况下，采用NEB片段化酶对双链靶多核苷酸进行酶切。在一些情况下，可以采用热能破坏双链靶多核苷酸与引物基底之间的键。在一些情况下，可以通过机械破坏或剪切将双链靶多核苷酸从引物基底上分离。将衔接子附加至片段化的双链靶多核苷酸上可以包括连接。可以通过本文证明的任何连接方法进行连接。在一些情况下，附加至双链靶多核苷酸上的衔接子包含与如本文提供的下一代测序平台(NGS)相容的序列。在一些情况下，该测序平台是Illumina平台。在一些情况下，附加至双链靶多核苷酸上的衔接子包含用于Illumina HiSeq 2500的Illumina引物序列。Illumina引物序列可以是第二Illumina引物。可以采用本领域已知的任何测序方法对释放的双链靶多核苷酸进行测序。在一些情况下，采用NGS方法对释放的双链靶多核苷酸进行测序。该NGS方法可以是如本文提供的任何NGS方法。

聚合酶延伸优化。可以用一系列聚合酶进行引物延伸。例如，用Vent exo^-聚合酶(参见例如图4B)和Bst聚合酶(参见例如图5)测试引物延伸。这两种聚合酶都具有链置换性质，这可能是非常重要的。可以使用其他聚合酶，例如phi-29。如果需要，可以使用热稳定聚合酶来允许进行热循环。

可以用酶如本文提供的任何DNA聚合酶来进行延伸反应。该聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4DNA Pol、修饰的T7DNA Pol、突变修饰的T7DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab、Phusion和Phi-29。例如，可以使用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mMTris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行延伸反应。延伸反应可以用逆转录酶进行。在一些情况下，模板核酸包含RNA，并且酶促延伸反应使用RNA作为模板来延伸引物。采用与阵列结合的引物和靶多核苷酸进行延伸反应可以生成与阵列结合的延伸产物，该延伸产物包含模板核酸序列或其互补体的一部分以及如本文提供的条形码标签序列。

自动化的文库制备

本发明的技术可以将测序文库制备步骤自动化。具体而言，本发明的技术可以捕获并固定长基因组DNA区域，并选择性地对具有表观遗传修饰的区域进行测序。表观遗传修饰可以在所获得的短序列读取内。固定化的基因组DNA可以提供从中悬挂出短读取的兆碱基框架，从而对长基因组DNA区域中的单分子上的表观遗传修饰进行定位和定相。基本方法可以涉及在表面上拉伸许多单独的DNA分子(例如，30-40X二倍体基因组覆盖)。可以捕获长DNA分子的末端并可以构建空间定位的文库。可以探测末端之间的序列的表观遗传修饰(例如5-甲基胞嘧啶)，并且还可以针对含有表观遗传修饰的基因组区域构建测序文库。可以在空间条形码化的芯片上制备文库，以便可以确定文库在基因组中的相对位置。然后可以使用任何NGS平台(例如Illumina HiSeq)对NGS文库进行测序。由于用于产生测序文库的引物被条形码化，因此可以获得用于组装短NGS读取并鉴别表观遗传修饰的位置的框架。

一旦从靶多核苷酸产生延伸产物，如本公开内容中其他地方所述，该延伸产物可以直接进行测序或用来生成用于随后测序的测序文库。在一些情况下，在处理靶多核苷酸，使其在寡核苷酸阵列上拉伸以及如本文所述将拉伸的靶多核苷酸延伸之后，产生了核酸文库。该核酸文库可以是可以从延伸产物产生的测序文库。

在一些情况下，在测序之前，将通过本文所述的方法产生的延伸产物从寡核苷酸阵列上释放。在一些情况下，可以采用热能破坏延伸产物与引物基底之间的键。在一些情况下，可以通过机械破坏或剪切将延伸产物从引物基底上分离。在一些情况下，与阵列结合的引物(寡核苷酸)优选地在其5’或3’端具有限制酶切位点，该位点并入到延伸产物中并允许该延伸产物或其部分的选择性切割和释放。在一些情况下，可以通过采用用于如本文所述对核酸进行片段化的酶消化延伸产物来将延伸产物从寡核苷酸阵列上释放。在一些情况下，通过用限制酶消化来将延伸产物从寡核苷酸阵列上释放。该限制酶可以是本领域已知的和/或本文提供的任何限制酶。在一些情况下，使用NEB片段化酶对延伸产物进行酶切。可以调整延伸产物的酶消化的消化时间以获得选定的片段大小。在一些情况下，可以将延伸产物片段化成具有一个或多个特定大小范围的片段化延伸产物的群体。在一些情况下，该片段可以具有约10至约10,000个核苷酸或碱基对的平均长度。在一些情况下，该片段具有约50至约2,000个核苷酸或碱基对的平均长度。在一些情况下，该片段具有约100至约2,500、约10至约1000、约10至约800、约10至约500、约50至约500、约50至约250或约50至约150个核苷酸或碱基对的平均长度。在一些情况下，该片段具有少于10,000个核苷酸或bp、少于7,500个核苷酸或bp、少于5,000个核苷酸或bp、少于2,500个核苷酸或bp、少于2,000个核苷酸或bp、少于1,500个核苷酸或bp、少于1,000个核苷酸或bp、少于500个核苷酸或bp、少于400个核苷酸或bp、少于300个核苷酸或bp、少于200个核苷酸或bp或少于150个核苷酸或bp的平均长度。在一些情况下，该片段具有大约、多于、少于或至少10、20、30、40、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500或10,000个核苷酸或碱基对的平均长度。

在一些情况下，通过本文提供的方法生成的寡核苷酸阵列上延伸产物的片段化生成的多核苷酸片段经历末端修复。末端修复可以包括生成平端、非平端(即，粘端或粘性末端)或单碱基突出端(如单个dA核苷酸通过缺乏3’外切核酸酶活性的聚合酶添加至双链核酸产物的3’端)。在一些情况下，对片段进行末端修复以产生平端，其中该片段的末端含有5’磷酸和3’羟基。可以采用本领域已知的任意数目的酶和/或方法进行末端修复。突出端可以包含大约、多于、少于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。

在一些情况下，通过本文提供的方法生成并结合至如本文提供的寡核苷酸阵列的延伸产物保持与该寡核苷酸阵列结合，并且从该结合的延伸产物生成测序文库。从通过本文提供的方法生成的与寡核苷酸阵列结合的延伸产物生成测序文库可以通过采用与阵列结合的延伸产物作为模板生成第二组延伸产物来实现。这些第二延伸产物可以包含与条形码序列互补的序列。与条形码序列互补的序列可以与原始条形码序列相关，并因此传达与原始条形码相同的位置信息。由于第二延伸产物可以与第一延伸产物的区域互补(该第一延伸产物可以与生成与阵列结合的延伸产物的靶多核苷酸互补)，因此该第二延伸产物还可以包含与靶多核苷酸的区域或区段对应的序列。

在一些情况下，通过将非基底结合的引物(即，溶液中的引物或“游离”引物)与阵列结合的延伸产物杂交并采用该阵列结合的延伸产物作为模板将杂交的非基底结合的引物延伸以生成非阵列结合的(或游离的)延伸产物，来从通过本文提供的方法生成的与寡核苷酸阵列结合的延伸产物制备测序文库。可以例如通过如本文所述的非基底结合引物的随机序列区段(例如，随机六聚体等)，将该非基底结合的引物与阵列结合的延伸产物杂交。该随机序列可以为至少5、6、7、8、9、10、11、12、13、14或15个碱基对或核苷酸。该随机序列可以为至多5、6、7、8、9、10、11、12、13、14或15个碱基对或核苷酸。游离引物可以包含PCR引物序列。PCR引物序列可以为至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对或核苷酸。PCR引物序列可以为至多5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个碱基对或核苷酸。该非基底结合的引物可以包含衔接子序列。该衔接子序列可以与本领域已知的任何测序平台相容。在一些情况下，该衔接子序列包含适用于IlluminaNGS测序方法如Illumina HiSeq 2500系统的序列。该衔接子序列可以是Y形衔接子，或双链体或部分双链体衔接子。与该阵列结合的延伸产物杂交的非基底结合的引物的延伸可以采用酶如DNA聚合酶进行。该聚合酶可以包括但不限于PolI、PolII、PolIII、Klenow、T4 DNAPol、修饰的T7 DNA Pol、突变的修饰的T7 DNA Pol、TdT、Bst、Taq、Tth、Pfu、Pow、Vent、Pab和Phi-29。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行延伸反应。

通过本文提供的方法生成的非阵列结合的延伸产物可以包含与靶多核苷酸的区段对应的序列。即，非阵列结合的延伸产物可以包含与产生序列的与阵列结合的延伸产物的一些或全部区段互补的序列，该序列可以包含与靶多核苷酸的区段对应或互补的序列。非阵列结合的延伸产物可以包含条形码，该条形码包含与阵列结合的延伸产物的条形码序列互补的序列。通过将互补条形码序列与原始条形码序列相互关联，该互补条形码可以传达与原始条形码序列所传达的相同的位置信息。在非阵列结合的延伸产物中，可以将由条形码或互补条形码所传达的位置信息与和靶多核苷酸的区段对应的序列相互关联，由此沿着拉伸的靶多核苷酸分子的长度定位该靶多核苷酸的区段。非阵列结合的延伸产物可以包含一种或多种PCR引物序列。非阵列结合的延伸产物可以包含与产生PCR引物序列的阵列结合的延伸产物中的PCR引物序列互补的PCR引物序列。非阵列结合的延伸产物可以包含来自非阵列结合的引物的PCR引物序列，该引物被延伸以生成非阵列结合的延伸产物。非阵列结合的延伸产物可以包含衔接子序列如测序衔接子。在一些情况下，附加至非阵列结合的延伸产物上的衔接子序列包含适用于Illumina NGS测序方法如Illumina HiSeq 2500系统的序列。

可以例如通过测序来扩增和/或进一步分析延伸产物(非阵列结合的或从如本文所述的寡核苷酸阵列上释放的)或其片段。该测序可以是本领域已知的任何测序方法。可以通过本领域已知或本文提供的任何扩增方法进行扩增。可以用如本文提供的任何酶进行扩增。例如，可以采用Bst聚合酶，通过将模板核酸和引物与Bst聚合酶和dNTP一起在65℃下在1X等温扩增缓冲液(例如，20mM Tris-HCl，10mM(NH₄)₂SO₄，50mM KCl，2mM MgSO₄和0.1％吐温20)中温育来进行反应。扩增可以利用并入到延伸产物中的例如来自与阵列结合的引物(寡核苷酸)和非基底结合引物的PCR引物位点。可以使用扩增将衔接子如测序衔接子并入至扩增的延伸产物中。该测序衔接子可以与本领域已知的任何测序方法相兼容。

文库扩增。在将文库分子转移至芯片表面后，可以在测序仪(例如IlluminaHiSeq)上对该分子进行测序。可以通过使用针对固定化分子上的远端引物位点的引物进行线性扩增来获得该分子。然而，如果需要，可以在与芯片结合的DNA分子上进行扩增反应(例如PCR)以供该文库的指数式扩增。

生物信息学和软件

在测序后，可以比对序列数据。可以根据已知设计的引物/标签序列以及靶多核苷酸信息将每个序列读取分离成引物/标签序列信息。可以通过编码的位置条形码信息来辅助比对，该信息通过其引物/标签序列与靶多核苷酸的每个片段相关联。测序文库或释放的延伸产物的测序可以产生具有相同或相邻条形码序列的重叠读取。例如，一些延伸产物可能足够长，从而到达与靶多核苷酸有关的下一个特定序列位点。条形码序列信息的使用可以将类似的重叠读取聚集在一起，这可以提高准确率并减少计算时间或工作量。

在一些情况下，通过软件对序列读取以及通过本文提供的方法获得的相关条形码序列信息进行分析。该序列读取可以是短序列读取(例如，<100bp)或长序列读取(例如，>100bp)。该软件可以进行对衍生自相同模板的序列读取进行排列的步骤。可以通过例如搜索具有来自包含如本文提供的斑点或区域的寡核苷酸阵列中的相同或相邻列的条形码的读取来鉴别这些读取。在一些情况下，只有某些范围的距离、水平行和/或垂直列的读取被推定认为是来自相同模板。在读取条形码时，软件可以将基于条形码设计的潜在测序(及其他)错误考虑在内。该错误可以是具有编辑距离的条形码，以允许某些错误。在一些情况下，如果条形码含有过多错误并且不能被唯一地鉴别，则不直接使用其相关读取来组装序列。尽管许多读取可以根据相对条形码位置(例如，行数)组装，但一些缺口可以通过对来自相同基因组区的读取进行比对来填充。本领域技术人员将会理解，软件产品可以根据条形码将读取串接在一起，并且可以解释如本文提供的寡核苷酸阵列上的靶多核苷酸的拉伸朝向。

例如，如果在DNA阵列上拉伸后，DNA分子不是严格垂直的，则可以通过例如掺加(spiked in)的已知参考DNA样品来分析该DNA分子相对于条形码列的朝向。该参考DNA样品可用于检测拉伸的相对角度，其中假设拉伸的角度对于所有DNA分子相似。为了例如在重新测序中根据与参考DNA样品(例如，基因组)的比较来组装序列读取，可以使用对重新测序组装有用的软件。所使用的软件可以与所使用的测序平台的类型相兼容。如果采用Illumnia系统进行测序，则可以使用软件包如Partek、Bowtie、Stampy、SHRiMP2、SNP-o-matic、BWA、BWA-MEM、CLC workstation、Mosaik、Novoalign、Tophat、Splicemap、MapSplice、Abmapper.ERNE-map(rNA)和mrsFAST-Ultra。对于基于SOliD的NGS测序，可以使用Bfast、Partek、Mosaik、BWA、Bowtie和CLC工作站。对于基于454的测序，可以使用Partek、Mosaic、BWA、CLC工作站、GSMapper、SSAHA2、BLAT、BWA-SW和BWA-MEM。对于基于Ion torrent的测序，可以使用Partek、Mosaic、CLC工作站、TMAP、BWA-SW和BWA-MEM。对于从本文提供的方法获得的序列读取的从头组装，可以使用本领域已知的任何比对软件。所使用的软件可以采用针对长读取(即，>100bp)的重叠布局方法，或针对短读取(即，<100bp读取)的基于de Bruijn图的基于k-mer的方法。用于从头组装的软件可以是可公开获得的软件(例如，ABySS、Trans-ABySS、Trinity、Ray、Contrail)或商业软件(例如，CLCbio Genomics Workbench)。

以上的描述公开了本发明的几种方法和系统。本发明容许方法和材料的修改以及制备方法和设备的改变。从本公开内容或本文公开的发明的实践考虑，这样的修改将对本领域技术人员变得显而易见。例如，本发明已采用核酸进行例证，但其也可以适用于其他聚合物。因此，并不意味着将本发明限制于本文公开的具体实施方案，而是意味着其涵盖在本发明的真正范围和精神内的所有修改和改变。

应当理解上述描述旨在是说明性的而非限制性的。对于本领域技术人员显而易见的是，在不脱离本发明的范围和精神的情况下，可以对本申请中公开的发明得到各种实施方案和修改。因此，本发明的范围不应参考以上描述来确定，而应当参考所附权利要求以及这些权利要求所享有的等同项的全部范围来确定。在本文中描述本发明时，以单数提及任何元素将包括对复数的提及，反之亦然(除非从上下文清楚地表明这是明确的而非意指的)。引用本文提到的所有出版物是为了描述和公开与本发明有关的可以使用的试剂、方法和概念。本文中没有任何描述被认为是承认这些参考文献是与本文描述的发明相关的现有技术。在整个公开内容中，引用了各个专利、专利申请和出版物。除非另有说明，否则每一篇参考文献均通过引用以其全文并入本文用于所有目的。

虽然本文已经显示和描述了本发明优选的实施方案，但是对于本领域技术人员而言显然这些实施方案仅仅是作为示例提供的。本领域技术人员在不偏离本发明的前提下将会想到大量的变化、改变和替换。应当理解，在本发明的实践中可以使用本文描述的本发明实施方案的各种替代方案。以下权利要求旨在限定本发明的范围，由此覆盖在这些权利要求的范围内的方法和结构及其等同物。

Claims

1.一种用于分析表观遗传修饰的方法，该方法包括：

(a)在第一表面上拉伸包含表观遗传修饰的DNA；

(b)用能与所述表观遗传修饰结合的亲和剂标记所述表观遗传修饰；

(c)通过将所述亲和剂与第二表面结合在所述第二表面上捕获所述DNA，其中所述第二表面包含寡核苷酸，每个寡核苷酸包含指示所述寡核苷酸在所述第二表面上的位置的位置条形码序列；以及

(d)由所述DNA制备测序文库，其中所述测序文库的核酸分子包含(i)表观遗传信息和(ii)位置条形码序列信息。

2.根据权利要求1所述的方法，其中所述亲和剂包括抗体。

3.根据权利要求1所述的方法，其中所述亲和剂包括生物素。

4.根据权利要求2所述的方法，其中所述捕获包括将所述抗体与链霉亲和素结合。

5.根据权利要求1所述的方法，其中所述制备所述测序文库包括利用体外转座。

6.根据权利要求1所述的方法，其中所述位置条形码序列指示所述寡核苷酸在所述第二表面上的所述位置至2μm内。

7.根据权利要求1所述的方法，其中所述位置条形码序列指示所述寡核苷酸在所述第二表面上的所述位置至1μm内。

8.根据权利要求1所述的方法，其中所述位置条形码序列指示所述寡核苷酸在所述第二表面上的所述位置至0.5μm内。

9.根据权利要求1所述的方法，其中所述位置条形码序列指示所述寡核苷酸在所述第二表面上的所述位置至0.2μm内。

10.根据权利要求1所述的方法，其中所述位置条形码序列指示所述寡核苷酸在所述第二表面上的所述位置至0.1μm内。

11.根据权利要求1所述的方法，进一步包括对所述测序文库进行测序以生成序列读取，以及借助于所述位置条形码序列信息组装所述序列读取。

12.根据权利要求1所述的方法，其中所述拉伸DNA包括梳理。

13.根据权利要求1所述的方法，其中所述DNA来自基因组，并且其中所述在所述第一表面上拉伸DNA导致所述DNA以至少20个基因组/平方厘米的密度在所述第一表面上被拉伸。

14.根据权利要求1所述的方法，其中所述DNA来自基因组，并且其中所述在所述第一表面上拉伸DNA导致所述DNA以至少30X二倍体基因组覆盖的密度在所述第一表面上被拉伸。

15.根据权利要求1所述的方法，其中所述第一表面是疏水性的。

16.根据权利要求1所述的方法，其中所述第一表面包含聚赖氨酸。

17.根据权利要求1所述的方法，其中所述DNA包括基因组DNA。

18.根据权利要求1所述的方法，其中所述DNA的长度为至少1兆碱基(Mb)。

19.一种用于分析核酸的表观遗传修饰的试剂盒，该试剂盒包含：

a)阵列基底，其包含与所述阵列基底结合的寡核苷酸，每个寡核苷酸包含指示所述寡核苷酸在所述阵列基底上的位置的位置条形码序列；以及

b)与所述核酸的所述表观遗传修饰结合的亲和剂。

20.根据权利要求19所述的试剂盒，其中所述亲和剂包括抗体。

21.根据权利要求19所述的试剂盒，其中所述亲和剂包括生物素。

22.根据权利要求19所述的试剂盒，其中所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的所述位置至2μm内。

23.根据权利要求19所述的试剂盒，其中所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的所述位置至1μm内。

24.根据权利要求19所述的试剂盒，其中所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的所述位置至0.5μm内。

25.根据权利要求19所述的试剂盒，其中所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的所述位置至0.2μm内。

26.根据权利要求19所述的试剂盒，其中所述位置条形码序列指示所述寡核苷酸在所述阵列基底上的所述位置至0.1μm内。