CN105793434B - Dna测序和表观基因组分析 - Google Patents

Dna测序和表观基因组分析 Download PDF

Info

Publication number
CN105793434B
CN105793434B CN201480054635.8A CN201480054635A CN105793434B CN 105793434 B CN105793434 B CN 105793434B CN 201480054635 A CN201480054635 A CN 201480054635A CN 105793434 B CN105793434 B CN 105793434B
Authority
CN
China
Prior art keywords
dna
probe
sequencing
immobilized
stretched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480054635.8A
Other languages
English (en)
Other versions
CN105793434A (zh
Inventor
J·S·爱德华兹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Js Edwards
New Mexico Rainforest Innovation Co, University of
Original Assignee
J SAidehuazi
STC UNM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by J SAidehuazi, STC UNM filed Critical J SAidehuazi
Publication of CN105793434A publication Critical patent/CN105793434A/zh
Application granted granted Critical
Publication of CN105793434B publication Critical patent/CN105793434B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • C12Q1/6825Nucleic acid detection involving sensors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6841In situ hybridisation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

在一个方面,本公开内容描述用于DNA测序和进行表观基因组分析的方法。一般地,所述方法包括将DNA分子的多个拷贝固定在表面上,拉伸所述固定化DNA分子的至少一部分,和测序所述固定化、拉伸的DNA分子的至少一部分。

Description

DNA测序和表观基因组分析
与相关申请的交叉引用
本申请要求于2013年8月2日提交的美国临时专利申请序列号61/861,622的优先权,所述临时专利申请通过引用结合到本文中。
发明概述
在一个方面,本公开内容描述用于DNA测序和进行表观基因组分析的方法。一般地,所述方法包括将DNA分子的多个拷贝固定在表面上,拉伸固定化DNA分子的至少一部分,和测序固定化、拉伸的DNA分子的至少一部分。在一些应用中,所述方法可进一步包括探针检测(probing)固定化、拉伸的DNA分子的表观遗传修饰。
在一些实施方案中,测序固定化、拉伸的DNA分子可包括变性固定化、拉伸的DNA分子的至少一部分和使多个探针与拉伸的DNA分子的变性位点的至少一部分杂交。一般地,每个探针可包含至少5个与拉伸的DNA分子变性位点的一条链的至少5个核苷酸互补的核苷酸和鉴定互补核苷酸序列的标签。在这些实施方案的一些中所述标签可为独特的条码。在这些实施方案的一些中,所述条码或标签可使用单碱基延伸测序或用荧光探针或DNA折纸探针的杂交来读出。在这些实施方案的一些中,互补序列通过所述标签或条码鉴定,并且在一些实施方案中所述标签或条码与互补序列无关。
在一些实施方案,对于表观遗传测序,可用任何方法对固定化DNA测序或作图(mapping)。在一些实施方案中,一旦进行测序或作图,可鉴定固定化、拉伸的DNA分子的一些。在一些实施方案中,在我们知道拉伸、固定化的DNA分子的身份(identity)后,我们可用抗体(或相似试剂)探针检测所述拉伸、固定化的DNA分子以鉴定表观遗传修饰的位置。
在一些实施方案中,所述方法可进一步包括从探针合成DNA,从而创建延长探针群。在这些实施方案的一些中,所述标签或条码(一旦通过杂交测序或解码)可包含鉴定携带标签的探针沿拉伸的DNA分子的变性位点的位置的信息。在一些实施方案中,位置信息可简单如相对于一个或多个与DNA分子杂交的其它探针的位置。在这些实施方案的一些中,DNA分子的序列可使用来自标签的位置信息和延长探针的重叠多核苷酸序列的组合而组装。
上述本发明的概述不意在描述本发明的每个公开的实施方案或每一个执行。之后的说明书更具体例示了说明性的实施方案。在本申请全文中的若干处,通过实例的列表提供指导,这些实例可以以不同组合使用。在各个情况下,所列清单仅用作代表群并且不应解释为排他的列表。
附图简述
图1. (A) 连接法测序(SBL) DNA折纸探针可在沿Mb大小的单一DNA分子的许多位置处读出5个碱基。(B) DNA折纸包含鉴定5-碱基序列的条码。另外,条码限定所测序的链。沿长分子的读出可用超分辨率显微术成像(C)以产生读出。最后,这些读出可参考测序单元型解析的基因组组装(D)。
图2. 用YOYO-1染色的梳理的(combed)基因组DNA。
图3. 用YOYO-1染色的,Mb长的梳理的dsDNA的合成图像(composite image)(条 =100 µm)。
图4. (A) 显示连接的寡核苷酸沿拉伸的dsDNA正确对齐的图像。标记的DNA包括:用YOYO-1染色的DNA,沿拉伸的DNA杂交并用Cy3-标记的抗-生物素检测的3’生物素-引物(25mer),和连接至引物或DNA的5’端并用Cy5-标记的抗-DIG检测的短3’DIG-寡核苷酸探针(9mer)。1) 拉伸、杂交和连接后的图像。2) 无连接酶对照。3) 杂交的简并引物没有携带生物素分子因此没有检测到,而连接的寡核苷酸探针携带了3’生物素而不是DIG。(B) 固定化DNA上的3-标记连接法测序。引发位点通过切口酶产生。使用标准SBL荧光探针。
图5. 基于DNA折纸纳米棒的条码。(A) 由两个结合的纳米棒(星号指示的块)组成的蓝-红-绿(BRG;从左至右的阴影块)条码的模式图,其每个由14 nm长的段(块)组成,特定的段负荷条形码位点(阴影块)。(B) 标有绿色条码的段的3D维管束模型(bundle model),显示Cy3-标记短链(staple strand)的定位。(C) 使用TIRF成像的BRG和BGR条码的实例(条= 5 µm)。(D) 条码种类的代表性TIRF图像(1.4 µm宽)。(E) 使用超分辨率显微术可分辨的较长(70 nm)和较短(42 nm)标记链间隔的不对称条码示意图(条 = 100 nm)。
图6. 定位折纸。(A) 显示折纸(定位点)沿垂直排列的DNA (垂直线)安置的模拟数据。该模拟显示400 nm DNA间隔,折纸之间100 nm平均间隔。折纸大小阻止与近邻者小于50 nm距离的结合。(B)在不同水平和平均垂直间隔场景下从Crámer-Rao Bound计算来自单一图像的折纸定位精密度。在约20个折纸/µm2的密度时以纳米准确度估计是可能的。
图7. 读出条码。模拟数据,假设30,000个收集光子/色带和7 nm带间隔。(A) 条码间隔相对于观察到的强度概况显示。(B) 计算每一可能模型的可能性并通过可能性分选。正确的条码在这些条件下容易地鉴定。
图8. 说明其中从探针合成DNA从而创造延长探针群的方法的示意图。在这些实施方案的一些中,标签或条码(一旦通过杂交测序或解码)可包含鉴定携带标签的探针沿拉伸的DNA分子的变性位点的位置的信息。在一些实施方案中,位置信息可简单如相对于一个或多个与DNA分子杂交的其它探针的位置。在这些实施方案的一些中,DNA分子的序列可使用来自标签的位置信息和延长探针的重叠多核苷酸序列的组合组装。
图9. (A) 使用0.5M NaOH变性的dsDNA。用抗-ssDNA抗体探针检测ssDNA (B)。固定化DNA的聚合酶延伸。Vent-(exo-)-DNA-聚合酶-延伸引发的固定化ssDNA。标记的DNA包括:YOYO-1 (垂直线),BIO寡核苷酸引物(深色点状点),和通过Vent (exo-) DNA聚合酶(New England Biolabs Inc., Ipswich, MA)掺入的DIG dGTP (Roche DiagnosticsCorp., Indianapolis, IN)(浅色点状点)。
图10. 抗硫酸酪氨酸抗体仅识别硫酸化的蛋白;硫酸酯酶处理消除反应性。
图11. 抗-CTBP1抗体对CTBP2的负选择消除交叉反应性结合,反之亦然。相交反应性在不影响特异性结合的情况下消除。
图12. 四个示例性荧光scFv构建体的示意图。(A) scFv-E-coil,用荧光素标记的K-coils以高亲和力与E-coil结合。(B) 将来自GFP的S11与scFV的C末端融合。S11与GFP1-10的互补产生荧光GFP。(C) 荧光蛋白可放置在scFv的VH和VL之间,充当接头。(D) 量子点可使用多种技术与一个或多个scFvs结合。
图13. (A) 使用分级成簇(hierarchical clustering)基于其表观遗传状态将相互作用的基因座分成12组。在许多情况下,相互作用基因座1的表观遗传状态显示与相互作用伴侣基因座2相似的模式。(B) 相互作用基因座集合与基因表达数据的相交(intersection)揭示了两种类型的染色质连接(chromatin linkage)。I型:与每对中的两个相互作用基因座相关的基因转录(活化型染色质连接);II型:与每对中的两个相互作用基因座相关的基因以低水平表达(抑制型染色质连接)。
图14. (A) Hi-C数据分析的主要步骤。采取若干步骤以从最初的杂交体片段集合中选择真实的相互作用。首先,基于其特定性质过滤自身连接。第二,使用MPRM消除随机环。接着,确定邻近连接阈值。(B) MPRM的示意性演示。Hi-C数据显示两个泊松组分的混合分布,其分别代表随机连接事件和邻近连接事件。使用期望最大化(EM)算法,估计隐藏分布的参数。(C) 杂交体片段两端之间的基因组距离的分布遵循幂律分布。
图15. 在不同细胞类型中不同的转录因子共同调节来自不同染色体或来自染色体内距离远的区域的转录染色质连接。活化型染色质连接将包含更高表达的基因(较深染色质),而抑制型染色质连接将包含更低表达的基因(较浅染色质)。
说明性实施方案的详述
外显子组测序目前在用于检测遗传性或获得性疾病相关突变的研究和临床背景中常规使用。FDA已经列出超过100种在其标签上具有基因型信息的药物。然而,外显子组小于人类基因组的2%,并且全面研究已经证实曾经被认为是大量“垃圾DNA”的基因间区域常常转录为长的非编码RNA (lncRNAs)和/或包含可影响基因表达特别是顺式连锁基因的表达(甚至位于很远的距离时(>1 兆碱基,Mb))的调节序列。
本文中我们描述了致力于理解基因组的外显子组之外区域在调节基因表达和疾病过程中的作用的技术。尽管下一代测序技术允许人们进行外显子组或全基因组测序,解释结果——特别是包含超过基因组的98%的外显子组之外区域中的突变或变体的重要性——仍极具挑战。如本文所描述的,关于,例如,序列变体、突变和/或表观遗传标志的定相的(phased)单元型信息可提供有价值的当前在常规全基因组策略中丢失的信息。
基因组的外显子组之外部分可参与调节顺式连锁基因(常常距离超过一兆碱基)的表达。例如,基因间区域可转录为调节lncRNAs和/或包含控制元件,例如,可与顺式连锁基因的启动子形成长-距离调节相互作用的增强子。我们描述了在表征和解密远距离基因间序列变体、突变或表观遗传标志对基因表达和/或疾病状态的作用中所涉及的新型试剂、技术和分析工具。
在一个方面,我们描述了能够分辨染色体长区域(在一些情况下包括整个染色体)的定相的单元型结构的准确的单分子长读出测序技术。该测序技术可允许人们将远距离变体或突变与可能受其影响的顺式连锁基因联系起来。
在另一个方面,所述单分子测序策略可扩展以检测新的表观遗传修饰和专业化单分子成像技术以对该修饰的位置作图。这可允许人们将远距离上游表观遗传变化与受其调节的顺式连锁基因联系起来。
因此,在一个方面我们描述了可允许完全重新将整个二倍体基因组组装的长读出测序技术。一般地,所述技术涉及将一个或多个DNA分子固定在表面上,拉伸一个或多个固定化DNA分子和直接测序该一个或多个固定化、拉伸的DNA分子。
许多可用的或处于开发中的超高通量测序技术仍不能完全测序人类基因组。另外,对于高质量组装当前技术通常涉及参考基因组。尽管用当前技术重新测序基因组是可能的,但相对于重测序项目其质量低下。这些问题限制了下一代测序平台鉴定某些变体,例如大的结构改变和重复区域的能力。
另一个当前测序技术,SMRT测序系统(Pacific Biosciences of California,Inc., Menlo Park, CA),具有产生非常长的读出并检测碱基修饰(例如,甲基化)的潜能。这些长读出已经用于进行小(例如,细菌)基因组的重新组装。然而,SMRT测序平台受损于相对低的通量和低准确度,因此对于大基因组其仅可帮助为通过更高通量、更稳健和更准确的系统产生的数据创建较长的组装平台。其它测序技术例如,纳米孔测序,可能不能分辨同聚物重复,获得足够的准确度和通量,和/或适应可从表观遗传修饰获得的信号的复杂性。
下一代测序技术的新近进展,连同稳健的分析方法的发展,已经给予了研究者测定序列变异在各种人类疾病中的作用的能力。然而,这些方法可产生受限于发现多态性而忽略单元型的重要性的结果。通常研究的变异为单核苷酸多态性(SNPs)以及小插入和缺失(InDels)。当前能够鉴定杂合基因座的下一代测序方法往往不能测定多态性的顺式或反式关系,因此复杂化对基因/疾病关联的研究。需要新方法以处理在罕见基因组(例如,新的体细胞突变)或在改变的基因组(例如,癌症)中出现的变体中的顺式和反式关系。
从当前测序方法获得的单元型信息的缺乏限制了得出重要生物学和医学结论的能力,这是因为,例如,分类为纯合或杂合的多态性列表忽略了每个多态性的背景的重要性。因此,研究者往往仅聚焦于蛋白编码区域(外显子组)发生的变体,因为外显组中的变异的重要性往往可预测。在不了解基因间区域的变体是否顺式和/或通过远程染色质相互作用连锁以影响基因的情况下,预测该变体是否有害往往是不可能的。因此,单元型解析测序可提供优于标准全基因组测序(WGS)的某些优点,这是因为,例如,可将多态性指定到特定染色体(例如,母源vs.父源),和/或可在远距离调节元件中的突变(或变体)与同一染色体上的顺式连锁基因之间建立联系。然而,直接单元型测序可受到相对短读出长度和/或当前平台的“相不敏感”限制(Venter等人,2001 Science 291:1304-1351; Lander等人,2001Nature 409:860-921; Suk等人,2011 Genome Res 21:1672-1685)。
与这些现有测序技术相比,本文所述长读出测序方法可提供比单元型解析测序方法提供的“合成的长读出”更长的读出,从而允许完全重新组装人类基因组,包括当前未测序的区域。
人类基因组为二倍体,并且基因组序列为不完全的,除非将所有的多态性或变体定相并指定到具体的染色体。另外,必须解码整条染色体的全景,包括基因组中的复杂结构变化(即,非整倍性、易位、倒位、复制、杂合性丢失,等)。例如,在500个个体中约1个发生平衡易位,在650个活产儿中多达1个发生21三体性(trisomy 21),并且在许多癌症中发生大量的基因组不稳定性。全基因组测序必须能够鉴定所有的复杂基因组变体。本文所述长读出测序方法可实现这些目标。
所述方法涉及将许多单一DNA分子固定在表面上,拉伸固定化分子,和直接成像固定化、拉伸的DNA分子平行地对DNA作图或测序与DNA退火的条码。这可允许高度覆盖人类基因组(>10X)。
DNA可使用任何合适的方法提取、固定化和拉伸。已知用于提取兆碱基长DNA的方法(Zhang等人,2012 Nature Protocols 7:467-478)。可改良这样的方法以提取和拉伸整个染色体(例如,对于染色体1,~ 250 Mb)。同样,某些微流体装置可从单细胞分离和拉伸染色体DNA (Zhang等人,2012 Nature Protocols 7:467-478; Benitez等人,2012 Lab on a Chip 12:4848-4854)。在一些实施方案中,可将细胞结合在浸渍管(dipping cuvette)中,然后裂解并分离DNA。在其最简单的形式中,反应混合物可包含细胞裂解试剂、蛋白酶和RNA酶。
分子梳为一个示例性的用于拉伸和固定DNA的方法。分子梳为可产生在一个表面上拉伸的高密度填充的长DNA分子的高度平行的过程。DNA链大小范围可为几百Kb-1 Mb以上(图2和图3)。分子梳为通过其可将溶液中的游离DNA放置在储液器中,以及将疏水-包覆的玻片(slide)浸入DNA溶液并缩回的过程。缩回玻片将DNA牵拉呈线性方式。功能化的玻片和梳理装置当前市售可得。
在一些实施方案中,所述程序可从如上所述制备dsDNA并使其拉伸开始。然而,对于测序DNA必须为单链的。可拉伸ssDNA (并且,实际上,在一些实施方案中拉伸ssDNA),但拉伸dsDNA可更有效。在这样的实施方案中,可变性dsDNA的至少一部分以制造可用于退火引物的DNA单链区域。许多方法可用于变性拉伸的dsDNA,包括,例如,高温、高或低pH、用离液极性剂(例如,盐酸胍、甲酰胺、二甲基亚砜)处理、酶消化(例如,钝端5’磷酸化dsDNA上的λ外切核酸酶)以及切口酶和链置换以接近DNA链。
在某些实施方案中,dsDNA可通过切口至少部分变性,其可以以随机方式在平均每150个碱基上产生引发位点——即,测序退火引物与ssDNA杂交的位点。该150碱基分离可使退火引物携带的荧光信号空间分离约75 nm,这可用下述显微镜工具分辨。在一些实施方案中,可使用切口酶库以增加位点沿DNA伪随机分布的可能性。引发位点的非随机分布可引起基因组区域覆盖不充分。如果引发位点非随机分布,可如下处理缺乏引发位点的区域:切口,接着限制性消化、聚合酶延伸和/或使随机引物退火至固定化ssDNA。
测序引物退火至变性DNA后,可通过任何合适的方法对该DNA测序或作图。在一些实施方案中,DNA可使用连接法测序(SBL)或合成法测序(SBS)而测序或作图,然后探针检测表观遗传修饰。传统的SBL首先使序列特异性锚定引物退火至DNA模板。然后荧光标记的查询探针通过DNA连接酶特异地连接至锚定引物。最后,通过显微术检测连接的查询探针。根据该技术,延伸的锚定引物可通过变性完全移除,这允许重复该循环,或延伸的锚定引物可通过切割荧光团进一步延伸。由于DNA连接酶的特异性,SBL提供高水平的原始序列准确度。然而,在当前商业系统中检测荧光团所必需的灵敏度需要多个荧光团共定位。这常常通过乳液PCR或滚环扩增以创建凝聚以形成rolonies或纳米球的长、连环化的DNA分子实现。
使用SBL,可在许多长的拉伸的DNA模板上于间隔约50 nm (150碱基)的随机位置处产生数千个五-碱基读出。(图1和图4)。为了检测单一DNA分子,可使用高分辨率显微术以空间上分辨SBL探针的位置。
在一些实施方案中,我们的方法可开发DNA折纸探针的用途,其涉及高度灵敏标有条码的DNA结构探针。DNA折纸探针可允许迅速和准确地测序个体DNA模板。DNA折纸条码可用于在沿每个拉伸的DNA分子的许多位置处测序许多不同的个体DNA分子。
基于荧光的测序中一个重大挑战为数据采集中的低信噪比,这是因为背景荧光、光漂白和/或未结合的荧光探针可促成图像噪声。几个性质使DNA折纸成为可克服信噪问题的用于建立定制测序探针的有希望的平台。DNA折纸使用DNA的固有碱基配对产生自身-组装的定制形状的大分子对象。DNA折纸提供可缀合至DNA的任何部分的亚纳米规模的定位。典型的三维DNA折纸形状具有25 nm-35 nm的直径,并且有可能在有限空间中控制DNA-缀合荧光染料的精确数目、比率和间隔。另外,任何数目的单链“粘性末端”可在任意位置掺入折纸结构。因此,本文所述测序方法的一些实施方案涉及使用携带30-60个分离的荧光团之一(one of 30 to 60 separate fluorophores)的基于DNA折纸的SBL查询探针。
DNA折纸技术的效用已经通过构建充当荧光条码的纳米棒说明。荧光团在硬DNA纳米棒表面上的定位的空间控制产生216个不同的条码,其然后使用全内反射荧光(TIRF)不含糊地解码。具有较高空间信息密度的条码经由具有间隔~40 nm的特征的超分辨率条码的构建证明(图5; Lin等人,2012 Nat Chem 4:832-839)。
在一些实施方案中,表观遗传探针检测之前的测序或作图方法可涉及成像拉伸的DNA单分子。所述成像可包括同时定位DNA折纸探针在DNA单分子上的位置和读出折纸“条码”。长读出测序可涉及成像、定位和读出沿拉伸的DNA的折纸探针的条码。可在沿固定化DNA长度的许多位置处测序五个碱基。序列可使用,例如,如上所述用DNA折纸的SBL获得。成像可涉及准确和精密地鉴定DNA折纸探针沿DNA分子的位置和读出DNA折纸上的条码。一旦将拉伸和固定化的DNA分子测序或作图(使用此方法,或任何其它方法),我们可探针检测所述固定化DNA的表观遗传修饰。
用于条码读出和折纸定位的基本实现方法学涉及可用于以远好于衍射极限的精密度发现探针位置的显微镜点扩展函数(PSF)。对于单一分离的探针,精密度按
Figure DEST_PATH_IMAGE002AA
衡量,其中σ参数化PSF的2D高斯模型。条码中的和来自邻近折纸的邻近探针的存在使问题变得复杂。然而,即使当发射谱重叠时,对定位精密度仍无基本限制,仅软限制。精密度与从样品收集的光子数有关。
折纸或杂交探针可设计为掺入许多染料,并且折纸探针可在每个带中使用多达30种染料。可从每种染料收集的光子数的保守估计为~1000个/种染料。大量的光子使得能够以纳米规模测定位置和读出条码。下文所示说明这些能力的估计假定可从折纸中的每个颜色带收集30,000个光子。
成像可使用任何合适的显微系统进行。在一些实施方案中,所述显微系统可使用,例如,四个科学互补金属-氧化物-传导(sCMOS)相机,每个颜色信道一个。每个相机可具有2048 × 2048像素,伴随约120 nm的反向投影像素大小,产生60,000 mm2视野/图像。
可使用Fisher Information和Crámer-Rao Bound的信息理论方法确定不同标记条件下的位置精密度限制。图6说明了在不同水平DNA间隔和平均垂直折纸间隔下的定位精密度。此处,对于该策略使用假定单一染料颜色的简化模型显示近似定位能力。假定光子发射率和DNA位置已知并且该分析将附近发射体的作用考虑在内。其结果为即使用我们的保守光子估计,折纸也可以以高达25序列/µm2的密度以优于2 nm定位在DNA上。不同折纸颜色带也可用于改进定位。
DNA折纸可与,例如沿折纸的7色条码对应,每个色条7 mm长。其中两个条可鉴定DNA折纸的方向,另外5个条可鉴定五个碱基序列。尽管条码带可仅间隔数纳米,由于来自每个带的大量光子稳健的分类是可能的。单个、分离的折纸的分类在图7中示出。使用已知的带间隔和总体位置,计算1024个可能序列和2个方向中每一种的可能性(以及界定碱基质量的置信度)。可容易地鉴定出正确的序列和方向。也可使用贝叶斯型分类方法并将最高的模型候选者的概率传递给序列重组分析。高折纸密度测序可产生来自邻近折纸的重叠发射,其可影响分类(和质量),因此可将分类步骤与定位步骤紧密结合。
在一些实施方案中,成像技术可包括,例如,超分辨率技术,例如,结构化照明显微术(SIM)。与需要精密光学装置和/或长成像时间的某些超分辨率技术(例如,受激发射损耗(STED),PALM/STORM))相反,SIM可以用相对简单的装置执行。由于来自SIM每维的2×分辨率增加,标记密度可以以因子4增加(即,100序列/平方微米)。
在其它实施方案中,成像技术可包括使用能够同时在4个荧光信道扫描和成像底物的超分辨率荧光显微镜。在一些备选的实施方案中,还可改良所述装置用于随机光学重建显微术(STORM)、光激活定位显微术(PALM)和/或点积累用于以纳米级拓扑图成像(PAINT)。
一旦获得和记录折纸位置信息和条码信息,可基于条码将其指定到具体的链并将此指定保存在该对象ID中。生成碱基调用者(caller)可依赖于超分辨率信息以使用标准碱基调用算法(base call algorithm)发现条码上每个位置的最大信号,为每个位置指定一个碱基调用和Phred分数。然后可基于链ID用该对象ID中保存的位置信息所指定的读出之间的缺口大小预装配所述读出。数据文件可包含与所给读出相关的所有对象ID (以保存缺口大小)接着碱基调用及其质量分数。
在第二个方面,可用允许完全测序和组装固定化DNA分子的备选方法替换刚刚描述的测序技术,所述备选方法使得能够,例如,完全重新基因组测序。可使用拉伸的DNA产生用于传统测序的模板。可将用于产生测序模板的引物标上条码并且可通过如上所述测序条码测定拉伸的DNA上所有标有条码的引物的相对位置。因此,当测序模板(和条码)时,读出可立即放置在框架中。结果为传统下一代原始测序读出可以以非常高的准确度放置在框架中(图8)。
在此方法中,dsDNA可如上所述拉伸和固定。可变性拉伸的dsDNA,由此产生两条互补的反向平行的固定化ssDNA链(图9A)。可使随机的、标有条码的引物退火至拉伸的固定化ssDNA。条码可为并入发夹中的20个随机碱基,如图8中所示。条码可在第一个测序通过(sequencing pass)中使用上述方法(例如用DNA折纸的SBL,或简单地通过杂交或通过SBS)测序。例如,可以以4个分开的5碱基读出测序该20个碱基,这将允许使用420个不同条码。该步骤的结果可为条码沿搭建固定化DNA分子框架。可退火标有条码的引物以致其退火,例如,固定化DNA上的平均约每150个碱基。20 bp条码提供足够的条码复杂性以允许每个条码在拉伸的DNA上独特放置。然而,在一些实施方案中,使用参考基因组组装仅5-15个碱基的序列可足以允许每个条码在拉伸的DNA上独特放置。例如,当测序模板DNA时可通过使用来自邻近模板的重叠信息组装框架。
测序条码和测定拉伸的DNA上的条码位置的完整图后,可用酶,例如聚合酶延伸引物以产生常规测序模板。例如,Vent (exo-) DNA聚合酶(New England Biolabs Inc.,Ipswich, MA)可延伸固定化DNA上的引物(图9B)。可进行聚合酶延伸至,例如,约400个碱基。然后可收集延伸片段,构建文库,并使用标准测序技术例如,双端测序(paired-endsequencing)测序文库和条码。使用来自条码框架图的数据,可搭建测序读出框架。由于序列冗余和框架搭建,这些框架可组装成高度准确的全基因组。
染色体区域1q21.1包含广泛和复杂的低拷贝重复,以及拷贝数变体(CNVs),其与先天性心脏缺损、发育延迟、精神分裂症和相关精神病有关。交互反复的1q21.1缺失和重复与小头畸形或巨头畸形以及发育和行为异常有关。该区域中低拷贝重复的复杂性不仅促成该区域的表观不稳定性还对该4.4 Mb区域的当前基因组组装中存在的13个序列缺口和不同的组装错误负有责任。Genome Reference Consortium已经竭尽全力构建和测序在该区域许多部分上的单一单元型平铺路径BAC重叠群(tiling path BAC contig)以解析这些缺口。上述长读出策略对于测序这样的基因组区域可特别有用。
本文所述长读出测序技术可应用于表观遗传研究。基因组的表观遗传修饰为基因组的可遗传稳定变化。表观遗传变化可影响基因组的功能状态,但不影响共有核苷酸序列。一个广泛研究的表观遗传修饰涉及脱氧胞嘧啶的甲基化。该甲基化可对基因组具有显著影响,但许多测序技术不识别该修饰。另外,许多其它表观遗传修饰可改变基因表达和/或DNA修复途径。示例性表观遗传修饰包括,例如,脱氧核苷酸的共价修饰,组蛋白修饰,调节性非编码RNA,和调节核小体定位的非共价变化。理解表观基因组——包括但不限于甲基化组——可导致更好地理解,例如,干细胞生物学和细胞如何分化为特定细胞类型。一些表观遗传修饰(和其它DNA修饰,例如胸腺嘧啶二聚体)可涉及多种疾病,例如癌症和神经学病况。对于表观基因组分析需要新型工具以允许发现细胞发育、分化和疾病的调节机制和生物标志。
表观遗传影响神经学功能和心理健康。例如,长期使用上瘾药物导致通过表观遗传事件介导的神经适应过程。同样,精神分裂症具有主要的遗传组分,但存在其中仅一个发展成精神分裂症的同卵双生的实例。同卵双生之间的这种不一致性提示表观遗传因素牵涉在内。因此,基因组的DNA甲基化和/或其它表观遗传修饰可帮助解释遗传疾病例如精神分裂症的不完全外显率。表观基因组测序技术——例如,本文所述长读出测序技术——可推进对复杂神经学疾病的遗传和表观遗传基础的理解。
疾病中涉及的许多DNA修饰为DNA损伤剂的直接结果。例如,线粒体基因组的氧化损伤与衰老和神经退行性疾病有关。环境因素,例如,UV暴露和或吸烟可损伤DNA并且还可发生衰老相关的脱嘌呤。最后,DNA聚合酶可错误-掺入RNA碱基而非DNA碱基,这可促成基因组不稳定性和癌症。这些DNA修饰可使用上述长读出测序技术检测。
当前用于表观遗传研究的技术包括光学作图技术。然而,这些技术为作图技术而非测序技术。这些技术仅可对基因组作图。此外,这些方法是基于限制性酶的并且其仅可发现被限制性酶差异性识别的位点。因此,这样的方法不适于检测表观遗传修饰。相反,本文所述长读出技术允许重新测序并且不是基于限制性酶的。
当前没有可测序所有表观遗传修饰的技术。PacBio测序(Pacific Biosciencesof California, Inc., Menlo Park, CA)已经被用于检测一些细菌(5-甲基胞嘧啶,4-甲基胞嘧啶和6-甲基腺嘌呤)和真核(5-甲基胞嘧啶,6-甲基腺嘌呤,5-羟甲基胞嘧啶)的表观遗传修饰,并且进一步应用于使用具有DNA损伤修饰的合成模板表征核苷酸掺入的动态特征(signature)。然而,PacBio测序可能不准确并且表观基因组测序限于检测以独特和可预测的方式改变核苷酸掺入率的表观遗传修饰。尽管几种修饰具有相似的特征(例如,典型的6-甲基腺嘌呤修饰 vs. DNA损伤特有的1-甲基腺嘌呤),为了准确地测定哪些碱基被修饰,需要50× - 250× 覆盖的最小覆盖度,进一步降低了已经很低的PACBIO系统通量。
可扩展我们的长读出测序技术至表观基因组测序。基本策略为首先对固定化的长DNA分子测序或作图。然后可剥离测序探针并使用新的用于DNA表观遗传修饰的荧光探针测定表观遗传修饰。表观遗传探针的空间位置可叠覆在序列上,由此提供表观基因组序列。
在某些实施方案中,可探针检测固定化、拉伸的DNA的一种或多种表观遗传修饰。使用的一种探针或多种探针可为适于特异性识别表观遗传修饰的任何探针。如本文所使用的“特异性”及其变更指对于特定的靶具有,达任何程度的,有差异的或非-一般的亲和力。示例性的探针可包括,例如,特异性结合表观遗传修饰的抗体,特异性识别表观遗传修饰的化学探针,特异性识别表观遗传修饰的肽探针,或特异性识别表观遗传修饰的经工程改造的探针。
可使用识别表观遗传变化的抗体直接可视化个体DNA分子上的表观遗传变化。这些抗体往往对研究中的特定修饰具有极其高的亲和力和特异性。通过免疫难以获得具有这些性质的抗体,因为,例如,表观遗传变化可为高度保守的和/或可通过免疫获得的抗体的亲和力可存在生理极限(~100 pM)。此外,通过免疫获得的抗体为筛选对免疫靶的天然免疫反应的结果。这与使用展示法相反,后者允许直接选择和改进具有通过免疫往往不可得到的特定性质的抗体,假定在原始文库中存在具有期需性质的抗体榜样(antibody leads)。
可使用展示抗体选择方案产生抗表观遗传变化的特异性单克隆抗体(mAbs)。单克隆抗体为从永生化B细胞衍生的单一特异性的抗体。随着分子生物学的出现,已经开发了体外展示法以产生单克隆抗体,其中将抗体片段,例如单链Fvs (scFv)或Fabs与编码它们的基因以可选择的方式偶联。噬菌体和酵母展示为常见的展示法。展示技术具有许多共同特征,基于以下概念:创建潜在目的多肽的大文库,从其中可选择具有期需性质的克隆。第一步常常是在DNA水平创建编码多样性的文库。抗体文库可合成性地创建,即通过使用寡核苷酸向具有期需性质的框架内引入多样性,或通过使用PCR从人或实验动物淋巴细胞收集天然多样性。已经制作了定向于特定靶的文库,包括肽。文库可包含数十亿不同的克隆。一旦文库在DNA水平获得,必须将其与编码的抗体偶联,这通过将文库克隆入展示载体实施,在所述展示载体中展示蛋白与外壳或表面蛋白融合。在噬菌体展示的情况下,通常使用丝状噬菌体并且一个流行的展示蛋白为g3p。对于酵母展示通常使用酿酒酵母(S.cerevisiae)并且Aga-2是一个流行的融合伴侣。已经证实天然文库为抗许多不同靶的抗体的有效的来源。
一旦文库创建,可选择与目的靶结合的抗体。在噬菌体展示的情况下,这可通过以下实施:将文库与靶一起孵育和通过一系列洗涤步骤将结合的抗体同不结合的那些分离,并随后洗脱。在酵母展示中,常常使用流式细胞术将结合的酵母展示克隆与不结合的那些分离。选择后接着扩增(通过感染(对于噬菌体)或生长(对于酵母))。理想地,单轮选择将足够,但由于每轮的富集通常为最多1000-倍,可采用2-4轮选择,并在选择之间进行扩增。
一般而言,多样性受到细菌转染效率限制,最大的文库可涉及数千次电穿孔。可使用重组文库创建方法(Sblattero和Bradbury, 2000 Nat. Biotechnol. 18:75-80),其中VH/VL接头包含翻译的lox重组酶位点。通过用至少20个不同的噬菌粒抗体重复感染大肠杆菌,不同的VH与VL基因之间可发生广泛重组,每一个体细菌产生至少400个不同的抗体(Sblattero和Bradbury, 2000 Nat. Biotechnol. 18:75-80)。使用该方法可制作非常大的多样性文库,而不需重复转化。
然而在噬菌体展示中每个噬菌体颗粒通常展示一个以下抗体,这在酵母中增加至大约30,000个抗体。因此,可使用流式细胞术分析和分选文库选择。通常,使用两种不同的荧光染料:一种可反映展示抗体的量,而另一种可反映结合的抗原的量。这可提供极大的灵活性和对选择进展的即时反馈,不像噬菌体展示,其非常难以监测。通过归一化至抗体展示水平,可容易地选择具有较高亲和力而不是较高表达水平的抗体,即使当亲和力仅相差两倍时。对于亲和力或特异性成熟而言,酵母展示是一个有效的展示平台并且可鉴定具有低至48 fM的进化的亲和力的抗体。
所有体外选择系统均提供编码区域,和针对特定靶选择的抗体的相应序列。这提供可更新的供应,对于此可认为抗体序列具体化永久档案存储(embody permanentarchival storage),以及通过简单的亚克隆容易得到额外的抗体形式。使用该“基于基因的”方法采用的功能包括,例如,二聚体化、多聚体化以及与酶和标签融合。抗体片段可另外转化为全长抗体,或scFv-Fc融合,所述scFv-Fc融合与全长抗体非常相似,包括被二级试剂识别和生物学性质。
重组抗体已经通过多种不同的方法荧光标记,包括在抗体C末端以及在VH和VL之间作为scFvs中的接头与荧光蛋白融合。将GFP与scFv融合的一个问题为所导致的表达水平显著降低,其为将分泌蛋白(scFv)与一个通常在细胞质中表达的蛋白(GFP)融合的结果。这可通过使用进化的“超折叠”GFP (sfGFP)部分克服。事实上,通过融合两个sfGFP至两个IgH和IgL链的每一个的C末端(总共8个GFP分子)已经产生荧光极强的全长IgG。一个备选的方法为直接与量子点偶联。这些具有高量子产率和消光系数,并且比荧光染料更耐光,具有较长的激发态寿命。它们还被用于在细胞中跟踪单个蛋白,使得其标记单个DNA分子的用途可行。
抗体已经通过用一个天然的DNA修饰 (5-甲基胞嘧啶 - 5MC) (Weber等人,2005Nat Genet 37:853-862),以及通过遗传毒性剂产生的DNA加合物(N-乙酰氧基-2-乙酰氨基芴) (Muysken-Schoen等人,1985 Carcinogenesis 6:999-1004)免疫而产生,并用于免疫沉淀修饰的DNA。这表明这样的修饰可为免疫原性的,并且为使用对选择过程具有大得多的控制的体外方法提供理论基础。
使用位点-特异性重组的文库创建可产生多样性和产生大量有功能的抗体文库,这是因为扩增与多样性的创建同时发生。这样的方法可用于选择,例如,不依赖于序列环境识别磺基酪氨酸(sulfotyrosine)翻译后修饰的抗体(图10),能够区分单个表面暴露氨基酸不同的蛋白的抗体,或能够区分两个密切相关的汉坦病毒的抗体。这些抗体说明了从展示文库选择和筛选抗体的潜能。
磺基酪氨酸抗体通过噬菌体展示在逐一筛选超过8000个克隆的结合活性后选择出来的(Kehoe等人,2006 Mol Cell Proteomics 5:2350-2363)。此外,可将噬菌体展示和酵母展示组合以选择特异性结合特定靶的抗体。Ag85是一个重要的肺结核抗原。为了选择特异性结合Ag85的抗体,可进行两轮噬菌体展示并将产出转移至酵母展示载体用于进一步的两轮荧光活化细胞分选(FACS)。用该新方法,可在几分钟内分选超过1百万个克隆(vs.每年8000个克隆)。有限分析后,鉴定出超过100个不同的特异性识别Ag85的抗体。使用该方法选择最高(单体)亲和力抗体为22 nM,随后使用易错PCR和链改组的组合使其亲和力成熟约10倍。
以完整的人类蛋白质组为目标,该组合的噬菌体/酵母展示法可应用于抗体选择流水线的开发。通过使用该组合的噬菌体和酵母方法针针对每个靶可分离多达2000个高特异性抗体。以这种方式选择的抗体的亲和力可根据靶本身的性质以及选择和分选期间使用的浓度(<10 nM是可能的)而不同。在一些情况下,抗体针对具有相似同源物的靶选择。例如,CTBP1与CTBP2 88%同源,选择CTBP1特异性抗体的初步实验导致同样识别CTBP2的抗体。然而,在酵母展示期间有可能除去CTBP2识别抗体(图11),提供CTBP1-特异性群体。
在一些实施方案中,可使用备选的方法创建荧光scFvs。例如,可创建scFv-E-coil融合(Ayriss等人,2009 Methods Mol Biol 525:241-260, xiii; Ayriss等人,2007 J Proteome Res 6:1072-1082)。E-coil为可以以皮摩尔亲和力与互补的K-coil结合的35个氨基酸的肽(De Crescenzo等人,2003 Biochemistry 42:1754-1763)。合成产生的荧光标记的K-coils可结合scFv-E-coil并用单个荧光团荧光标记scFv。该方法可在通过流式细胞术高通量筛选scFvs中有效,并且可减少由直接化学标记引起的问题。还可将进化的GFP的16氨基酸片段(例如,链11或S11)融合至scFv C末端并在该实例中用进化的GFP的链1-10(S1-10)补充。这可减少表达不相容并允许用单个功能GFP分子快速标记scFv。
抗DNA修饰的抗体的选择与抗蛋白翻译后修饰(PTMs)抗体的选择类似,对于抗蛋白翻译后修饰抗体的选择而言上文引用的磺基酪氨酸选择为一个实例。在该情况下,使用在许多不同序列和形式内包含修饰的选择肽。对于PTM抗体,如果在未修饰的非-生物素化靶和/或包含其它修饰的靶存在下进行选择,可改善特异性。由于这些竞争者靶缺乏生物素,与其结合的噬菌体/酵母抗体不被链霉亲和素识别,因此不被选择。这改善了特异性识别目的靶的抗体被选择的可能性。
在抗DNA修饰抗体的情况下,可使用生物素化的包含该修饰的简并31mer寡核苷酸(参见表1)作为阳性选择靶。简并寡核苷酸的使用可减少将针对特定DNA序列选择抗体的可能性。简并寡核苷酸可以以约1 nm-约100 nM的浓度使用以在包括具有其它修饰的非生物素化简并31mer寡核苷酸的竞争物的存在下从天然文库选择抗体。表1显示示例性的可靶向的市售可得的核苷酸修饰。也可产生非-市售可得的修饰。
表1
<u>TriLink</u> <u>IDT</u>
6-甲基腺苷 5-甲基胞嘧啶
5-甲酰胞嘧啶 5-羟甲基-胞嘧啶
5-caC 脱氧尿苷
8-oxoA 肌苷
8-oxoG 黄嘌呤
5-hU RNA碱基A
o6-mG RNA碱基T
5-hC RNA碱基C
5-hmU RNA碱基G
胸腺嘧啶乙二醇
O4-mT
胸腺嘧啶二聚体
可通过在例如,10-倍过量的非-生物素化非修饰寡核苷酸和每种其它非-生物素化修饰存在下将天然噬菌体抗体文库与修饰的寡核苷酸一起孵育进行选择。与修饰的寡核苷酸结合的噬菌体抗体可使用链霉亲和素磁珠收集。2-4轮选择后,可将噬菌体选择产出展示在酵母上。可通过使用荧光标记的链霉亲和素测定酵母展示的抗体与靶寡核苷酸的结合水平评估选择效率。可类似地评估与每一其它修饰的寡核苷酸结合的量。如上面在CTBP1/2例子中所描述的,可以以适当的分选闸门除去与其它修饰(或非修饰的寡核苷酸)结合的酵母展示抗体。选择和特异性的额外检验可包括包含特异靶的非-生物素化寡核苷酸抑制生物素化靶寡核苷酸与酵母上展示的抗体的结合的能力。这可减少对与生物素或链霉亲和素结合的抗体的选择。
特别地,可使用可与5MC抗体更强结合的单链DNA作为选择靶。在备选方法中,可使用发夹方法产生双链靶,其中在小随机发夹的碱基处(at the base of a small randomhairpin)的小同源区域可提供引发序列以从每个寡核苷酸合成双链DNA,允许使用包含修饰的双链DNA选择抗体。
为了使用抗体原位直接观察DNA修饰,可使用,例如,以下三大类荧光分子荧光标记那些抗体:化学染料(例如,Alexa)、量子点和荧光蛋白。图12说明了4个示例性荧光scFv构建体:scFv-E-coil (图12A),scFv-S11 (图12B),VL-GFP-VH (图12C),和scFv-QD (图12D)。
一旦产生scFv-E-coil构建体,任何适当的染料(例如,Atto488、Cy3、Cy3B和Alexa647,每种均给予高光子产率和在特定缓冲条件下以~2 nm精密度定位的能力)均可标记该构建体。使用多种染料可以以因子
Figure DEST_PATH_IMAGE004A
进一步改进定位精密度,其中N为每个scFv的染料数目。
当用GFP1-10补充时,S11融合产生荧光scFvs。通过增加串联放置的S11链的数目,可增加有效荧光,如先前对于GFP和全长抗体所描述的。由于S11设计为非-干扰的,该方法可创建对表达水平影响有限的高荧光水平。
可使用荧光蛋白作为VL和VH之间的接头达到有效的scFv表达水平。
最后,已经产生和检验了许多不同的scFv-QD形式(Wang等人,2008 Nanomedicine(Lond) 3:475-483; Zdobnova等人,2009 J Biomed Opt 14:021004; Zdobnova等人,2012PLoS One 7:e48248; Kierny等人,2012 Nano Reviews 3:2012; Iyer等人,2008 Nano Lett)。例如,可使用QDOT ITK羧基末端的量子点(Life Technologies, Carlsbad, CA)连接scFvs与C末端富含组氨酸的接头(SSGKSKGKHHHHHH, SEQ ID NO:1)。可通过将IgER固定在盖玻片上然后用BSA钝化该盖玻片(已证明所述钝化减少QDOT与盖玻片的非特异性结合)检验不同抗-IgER scFvs的结合和检测。可在用近似纳摩尔浓度的scFvs瞬时孵育盖玻片之后通过盖玻片单分子荧光成像评估scFv衍生物的结合。
在一些实施方案中,使用上述方法测序的样品可经受表观基因组测序。一般而言,这样的实施方案涉及首先测序固定化的DNA,接着从固定化DNA剥离测序探针,然后使用刚刚描述的荧光探针探针检测表观遗传标志。
与上文关于某些实施方案描述的条码成像策略相对,用单一类型探针标记的scFv可靶向特定的表观遗传修饰。将用于测序的折纸标记寡聚体移除后,可将样品与标记的scFv一起孵育,漂洗,并用针对适当的荧光探针的适当缓冲液制备。光学和成像步骤可与关于上述一般测序方法描述的光学和成像类似。
然而,在一些实施方案中,代替结构化照明显微术,可以单个图像或,为了避免照相机饱和,以保存前加在一起的几个图像来收集数据。单一、分离的标志可以以
Figure DEST_PATH_IMAGE006
的精密度从单个图像定位,其中σ为显微镜点扩展函数宽度并且N为收集的光子数。N可接近105;因此,定位精密度可接近约1 nm。
修饰可沿DNA以一段长度邻接。沿DNA的修饰的线性阵列的起点和终点可以以相同的精密度发现。多个修饰可通过连续地标记,成像然后剥离或光漂白剩余的荧光团而成像。可收集剥离/漂白后的图像以算作任何残留的标记,分析和用于信息学中。表观遗传修饰的位置可参考如上所述的测序检查以精确定位表观遗传修饰。
在一些实施方案中,可使用生物信息学工具辅助组装表观基因组和定相表观遗传修饰。在这样的实施方案中,表观基因组测序可以以完全组装的基因组开始。因此,表观基因组测序可仅需要鉴定特定修饰的碱基,这可通过用全基因组序列解释表观遗传探针定位来进行。用于解析修饰的相的工具可与用于定相杂合多态性的那些类似。
本文所述方法和工具可在临床相关分析的环境中执行。例如,可使用单元型解析的基因组和表观基因组测序以鉴定,例如,炎性肠病(IBD)患者中疾病的遗传基础。作为另一个实例,当与单独的全基因组测序相比时,可使用本文所述技术产生可改进治疗选择和减少患有结肠癌(CRC)的成年患者的发病率的数据。
全基因组测序在临床中的使用并不新颖。尽管如此,鉴定对于特定病况的致病性SNP或遗传变体的研究的数目相对低下。更广泛的成功(sucess)可能是因为当前的下一代测序方法不能定相变体、鉴定结构变体、准确定义非整倍性和测序表观基因组。本文所述技术可提供常规全基因组测序不能提供的基因组信息。
因此,在一个实施方案中,可鉴定IBD的单基因原因。简言之,这可通过在针对可能的IBD单基因形式富集的患者群中进行家族外显子组测序实现,——所述患者群例如,患有5岁前严重的极早发病IBD、家族内多例IBD和/或IBD症状表型簇(按优先次序排列)的患者。在约25-40%的被研究的家族中可鉴定到致病突变和基因或最高的候选突变。可将本文所述方法和工具应用于其中外显子组测序分析无定论的剩余60-75%的样品。
一般地,所述分析可包括测定IBD患者中的全基因组单元型序列,然后鉴定IBD中涉及的表观遗传修饰。
炎性肠病(IBD)为肠道的慢性炎性病况,其包括两种临床上不同的病症,克罗恩病和溃疡性结肠炎。很明显IBD具有遗传倾向,但很大程度的遗传异质性使其变得复杂。迄今为止,全基因组关联研究(GWAS)已经鉴定了与IBD有关的至少163个位点和超过300个基因。此外,不一致双生研究和IBD患病率的快速上升提示环境和表观遗传机制为IBD遗传组分的关键修饰物。IBD中复杂的遗传异质性和潜在的表观遗传作用强调了对研究该疾病的新基因组方法的需求。家族外显子组测序可使得能够基于特定遗传模型将变体分层并使得能够检测常染色体隐性、常染色体显性和与IBD分离(segregate with IBD)的再次突变。致病突变或高概率候选基因在约25%-40%的患者中可容易地鉴定。本文所述的基因组工具可用于进一步调查剩余的结果无定论的患者中IBD的遗传和表观遗传组分。此外,可分析数据以:(1) 搜索通过经由染色质连接远程序列接近而相互作用的变体集合;和(2) 剖析促成IBD的细胞-特异性表观遗传调节网络。
尽管外显子组和基因组测序取得了进展,大多数大型的未诊断疾病发现项目仍报告孟德尔疾病成功率在20%-60%之间。对于许多遗传病况,包括认识到的单基因病症,单独的外显子组测序不足以鉴定致病突变。为了揭露这些剩余情况的遗传源,需要测序技术典范转移(paradigm shift)。将廉价地进行全基因组和表观基因组单元型解析测序的能力,与解密这些数据中的调节网络的新型生物信息学解决方案结合是所需的典范转移。
在本文所述技术的该示例性应用中,使用本文所述方法和工具测序和分析外显子组测序结果无定论的IBD患者。变体调用和在全基因组数据中定相的准确度可通过将序列结果与先前获得的家族外显子组测序数据比较来验证。完成测序后,可鉴定、定相和表征变体。可使用本文所述的生物信息学工具鉴定对可能影响IBD的调节网络产生影响的变体并使该网络与外显子组测序结果和其它已知(或认为)参与IBD的基因相关联。另外,通过定相变异和将数据输入分析管道,可鉴定可能在IBD中发挥作用的变体的集合。
尽管存在公认的IBD遗传组分,不一致同卵双生研究和患病率的快速上升提示表观遗传修饰可能在IBD的病因学中发挥重要作用。DNA甲基化差异与IBD有关。这些研究清楚地提示表观遗传修饰参与IBD症状的发展和/或激活。然而,所述研究具有以下局限:(1) 其使用仅靶向已知甲基化位点的甲基化阵列,因此引入偏倚,和(2) 其与基因组测序隔离进行。
可使用本文所述方法和工具检查从例如,血液和/或例如,在小儿IBD患者中活组织检查和/或手术切除术期间获得的受影响组织分离的样品中的DNA甲基化(和一旦方法可用,潜在的其它DNA修饰)。可检查血液和受影响组织之间表观遗传修饰的一致性以测定IBD患者中表观遗传修饰的组织特异性。先前的研究已经报道个体内组织特异性甲基化的一致性矛盾和同卵双生研究中的甲基化差异。可分析IBD患者的表观基因组可能与IBD相关的甲基化模式,通过测序表征的DNA甲基化模式可从血液和活组织检查组织二者检查。
从血液分离的亲本DNA的表观基因组DNA甲基化测序可用作对照过滤各IBD患者的表观基因组。为了进一步检查表观遗传修饰在IBD中的作用,可使用本文所述新的生物信息学分析工具将从本申请全基因组单元型方面获得的序列信息与来自本申请表观基因组方面的数据整合。该整合可首次允许在基因组水平分析复杂遗传病症中遗传变异与表观遗传修饰的相互作用的能力。该整合测序方法可提供对表观遗传修饰的作用和IBD发展的进一步理解,并且证明本文所述技术和生物信息学工具的临床效用。
在本文所述技术和工具的第二个示例性应用中,可调查单元型解析测序和表观基因组测序是否可在直肠癌患者中提供优于仅外显子组测序的精密治疗方法。
对于直肠癌治疗护理形式的标准取决于呈现的疾病阶段。早期阶段的疾病(即,未完全侵入直肠壁的粘膜肌层或区域淋巴结的肿瘤)常常通过仅手术治疗。然而,局部晚期疾病患者——即入侵通过肌层和/或具有区域淋巴结牵涉——常常在手术切除之前用新辅助放化疗治疗。存在用该多形式治疗具有完全病理反应(cPR)的患者亚群。然而,当进行该治疗时一些患者仍经历疾病进展。特异性标志和临床病理学相关物的标准分析不能从不响应者中鉴定出响应者。鉴定会具有cPR的患者会避免该患者亚群对手术的需求。这将减少健康护理费用以及所产生的发病率,特别是对于患有超低肿瘤需要切除括约肌复合体的患者,所述患者因此而被强制执行永久性结肠造口术。同样地,了解哪些患者不响应新辅助放化疗将指导患者立即手术并避免化疗和辐射相关的费用和并发症。本文所述技术和工具可提供有信息的(informative)生物标志以更好地为定制的疗法选择直肠癌患者。
影响使用新辅助放化疗具有cPR的直肠癌患者与不响应该治疗的患者之间的临床差异的调节相互作用可使用用于在上述IBD应用中使用的测序方法和分析方法的方法来鉴定。该癌症的遗传基础可能与特定的单元型结构有关。测序数据可用于鉴定可能在结果中发挥作用的潜在调节相互作用和/或产生与结果有关的生物学/机械学假设。
在此申请中,也可测序患者的表观基因组以鉴定在结果中发挥作用的假定的调节网络。
如上述说明书中所使用的,术语“和/或”意指一个或所有的列出的元素或任两个或更多个所列出元素的组合;术语“包含”及其变更在说明书和权利要求中这些术语出现的地方不具有限制含义;除非另外说明,“一个”、“一种”、“所述”和“至少一个”可互换地使用并且意指一个或一个以上;并且通过终点列举的数字范围包括该范围内包容的所有数字(例如,1-5包括1、1.5、2、2.75、3、3.80、4、5等)。
在前述说明书中,为了清楚起见可分开描述具体的实施方案。除非另外清楚说明一个具体实施方案的特征与另一个实施方案的特征不相容,某些实施方案可包括与一个或多个实施方案相关的本文所述相容特征的组合。
对于本文所公开的包括不连续步骤的任何方法,所述步骤可以以任何可行的次序进行。并且,如果合适,可同时进行两个或更多个步骤的任何组合。
本发明通过下列实施例说明。应理解的是具体的实施例、材料、量和程序应依据如本文所阐述的本发明范围和精神广义地解释。
本文所引用的所有专利、专利申请和出版物以及电子化可得的材料(包括,例如,提交在,例如GenBank和RefSeq中的核苷酸序列,和提交在,例如,SwissProt、PIR、PRF、PDB中的氨基酸序列和来自GenBank和RefSeq中注释的编码区域的翻译)的完整公开内容通过引用以其整体结合。在本申请的公开内容与通过参考结合在本文中的任何文献的公开内容之间存在任何不一致的事件中,应以本申请的公开内容为准。前面的详述和实施例仅为了清楚理解而给出。不应从其理解不必要的限制。本发明不限于所显示和描述的确切细节,因为对本领域技术人员显而易见的变更将包含在通过权利要求界定的本发明内。
除非另外说明,说明书和权利要求书中使用的表述组分的量、分子量等的所有数字在所有情况下应理解为被术语“约”修饰。相应地,除非另外指示相反,说明书和权利要求中列出的数字参数为可根据欲通过本发明获得的期需性质而改变的近似值。至少,并且不试图将等同物的教义限制在权利要求的范围,每一数字参数应至少根据所报道的有效数字的数并通过应用普通舍入技术来解释。
尽管陈列本发明的广泛范围的数字范围和参数为近似值,但特定实施例中列出的数值仍尽可能准确地报告。然而,所有数值固有地包含由其各自的检验测量结果中存在的标准偏差所必然生成的范围。
所有的标题均用于方便读者并且不应用于限制标题之后的正文的含义,除非如此说明。
Figure IDA0000956575000000011
Figure IDA0000956575000000021

Claims (17)

1.一种测序方法,其包括
将DNA分子的多个拷贝固定在表面上;
拉伸固定的DNA分子的至少部分;和
对固定的、拉伸的DNA分子的至少部分测序或作图,
其中测序固定的、拉伸的DNA分子包括:
变性固定的、拉伸的DNA分子的至少部分;和
使多个探针与所述拉伸的DNA分子的变性位点的至少部分杂交,其中每个探针包含:
至少5个与所述拉伸的DNA分子变性位点的一条链的至少5个核苷酸互补的核苷酸;和
鉴定固定的DNA上的探针的独特的标签或条码;
确定固定的DNA分子上的标签或条码标记的探针位置。
2.权利要求1的方法,其中所述标签或条码使用具有DNA折纸(DNA origami)的SBL读出。
3.权利要求1的方法,其中所述标签或条码使用SBS读出。
4.权利要求1的方法,其中所述标签或条码使用杂交读出。
5.权利要求1-4中任一项的方法,其进一步包括从所述探针合成DNA,其中所述合成DNA与该探针所杂交的拉伸的DNA的链互补,从而创建多个延长的探针。
6.权利要求5的方法,其中所述标签进一步鉴定与携带所述标签的探针杂交的拉伸的DNA分子的变性位点部分所对应的位置。
7.权利要求6的方法,其中一个探针的位置是相对于第二个探针的位置。
8.权利要求5的方法,其中从多个探针合成的DNA产生重叠的多核苷酸序列。
9.权利要求5的方法,其进一步包括从所述拉伸的DNA移除所述延长的探针。
10.权利要求5的方法,其进一步包括测定所述多个延长探针的合成DNA的多核苷酸序列和所述标签或所述条码。
11.权利要求5的方法,其进一步包括使用所述标签和重叠的多核苷酸序列组装与所述拉伸的DNA分子变性位点的链互补的多核苷酸序列。
12.权利要求5的方法,其进一步包括使用所述标签和非重叠的多核苷酸序列组装与所述拉伸的DNA分子变性位点的链互补的多核苷酸序列。
13.权利要求1的方法,其进一步包括探针检测固定的DNA的表观遗传修饰。
14.权利要求13的方法,其中探针检测固定的DNA的表观遗传修饰包括使用特异性结合该表观遗传修饰的抗体。
15.权利要求13的方法,其中探针检测固定的DNA的表观遗传修饰包括使用特异性识别该表观遗传修饰的化学探针。
16.权利要求13的方法,其中探针检测固定的DNA的表观遗传修饰包括使用特异性识别该表观遗传修饰的肽探针。
17.权利要求13的方法,其中探针检测固定的DNA的表观遗传修饰包括使用特异性识别该表观遗传修饰的经工程改造的探针。
CN201480054635.8A 2013-08-02 2014-08-01 Dna测序和表观基因组分析 Expired - Fee Related CN105793434B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361861622P 2013-08-02 2013-08-02
US61/861622 2013-08-02
PCT/US2014/049372 WO2015017759A1 (en) 2013-08-02 2014-08-01 Dna sequencing and epigenome analysis

Publications (2)

Publication Number Publication Date
CN105793434A CN105793434A (zh) 2016-07-20
CN105793434B true CN105793434B (zh) 2021-08-10

Family

ID=52432456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480054635.8A Expired - Fee Related CN105793434B (zh) 2013-08-02 2014-08-01 Dna测序和表观基因组分析

Country Status (5)

Country Link
US (2) US10329614B2 (zh)
EP (1) EP3027775B1 (zh)
CN (1) CN105793434B (zh)
CA (1) CA2920250A1 (zh)
WO (1) WO2015017759A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10174368B2 (en) 2009-09-10 2019-01-08 Centrillion Technology Holdings Corporation Methods and systems for sequencing long nucleic acids
WO2011032040A1 (en) 2009-09-10 2011-03-17 Centrillion Technology Holding Corporation Methods of targeted sequencing
US20120252682A1 (en) 2011-04-01 2012-10-04 Maples Corporate Services Limited Methods and systems for sequencing nucleic acids
CN106460032B (zh) 2013-12-05 2019-12-24 生捷科技控股公司 图案化阵列的制备
EP3077545B1 (en) 2013-12-05 2020-09-16 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
EP3077430A4 (en) 2013-12-05 2017-08-16 Centrillion Technology Holdings Corporation Modified surfaces
US11060139B2 (en) 2014-03-28 2021-07-13 Centrillion Technology Holdings Corporation Methods for sequencing nucleic acids
CN106460232B (zh) 2014-05-23 2019-12-24 生捷科技控股公司 用于原位合成的探针阵列的寡核苷酸探针倒转方法
US10376888B2 (en) 2014-07-03 2019-08-13 Centrillion Technology Holdings Corporation Device for storage and dispensing of reagents
US10538594B2 (en) * 2015-04-06 2020-01-21 Centrillion Technology Holdings Corporation Methods for phrasing epigenetic modifications of genomes
WO2016182984A1 (en) 2015-05-08 2016-11-17 Centrillion Technology Holdings Corporation Disulfide-linked reversible terminators
WO2017004502A1 (en) 2015-07-02 2017-01-05 Centrillion Technology Holdings Corporation Systems and methods to dispense and mix reagents
EP3130681B1 (en) 2015-08-13 2019-11-13 Centrillion Technology Holdings Corporation Methods for synchronizing nucleic acid molecules
US10689690B2 (en) 2015-08-13 2020-06-23 Centrillion Technology Holdings Corporation Library construction using Y-adapters and vanishing restriction sites
US10695735B2 (en) 2015-08-18 2020-06-30 Centrillion Technology Holdings Corporation Probe inversion process for in situ synthesized probe arrays
WO2017087823A1 (en) * 2015-11-18 2017-05-26 Mir Kalim U Super-resolution sequencing
EP3411496A1 (en) 2016-02-05 2018-12-12 Ludwig-Maximilians-Universität München Molecular identification with sub-nanometer localization accuracy
CN107287333A (zh) * 2017-08-03 2017-10-24 华子昂 一种人类线粒体全长单倍型测定及遗传变异分析方法
CN111094592A (zh) * 2018-03-09 2020-05-01 伊鲁米纳剑桥有限公司 广义随机超分辨率测序
CN109273052B (zh) * 2018-09-13 2022-03-18 北京百迈客生物科技有限公司 一种基因组单倍体组装方法及装置
WO2020112964A1 (en) * 2018-11-29 2020-06-04 Xgenomes Corp. Sequencing by coalascence
WO2022194612A1 (en) * 2021-03-16 2022-09-22 Miltenyi Biotec B.V. & Co. KG Method to use dna nanoballs generated by rca using oligonucleotide based dna origami to create high density flowcell for sequencing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000039333A1 (en) * 1998-12-23 2000-07-06 Jones Elizabeth Louise Sequencing method using magnifying tags
CN101240330A (zh) * 1998-12-23 2008-08-13 普雷本·莱克索 使用放大标记的测序方法
WO2012106546A3 (en) * 2011-02-02 2013-11-14 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2801624B1 (en) * 2001-03-16 2019-03-06 Singular Bio, Inc Arrays and methods of use
EP1516665A1 (en) * 2003-09-18 2005-03-23 Sony International (Europe) GmbH A method of immobilizing and stretching a nucleic acid on a substrate
US7622281B2 (en) 2004-05-20 2009-11-24 The Board Of Trustees Of The Leland Stanford Junior University Methods and compositions for clonal amplification of nucleic acid
US7771944B2 (en) * 2007-12-14 2010-08-10 The Board Of Trustees Of The University Of Illinois Methods for determining genetic haplotypes and DNA mapping
KR20110025993A (ko) * 2008-06-30 2011-03-14 바이오나노매트릭스, 인크. 단일-분자 전체 게놈 분석용 장치 및 방법
US9856513B2 (en) * 2012-01-27 2018-01-02 Cornell University Methods and arrays for controlled manipulation of DNA and chromatin fragments for genetic and epigenetic analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000039333A1 (en) * 1998-12-23 2000-07-06 Jones Elizabeth Louise Sequencing method using magnifying tags
CN101240330A (zh) * 1998-12-23 2008-08-13 普雷本·莱克索 使用放大标记的测序方法
WO2012106546A3 (en) * 2011-02-02 2013-11-14 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping

Also Published As

Publication number Publication date
EP3027775B1 (en) 2019-10-09
EP3027775A4 (en) 2017-04-12
US20160168632A1 (en) 2016-06-16
WO2015017759A1 (en) 2015-02-05
US20200056232A1 (en) 2020-02-20
US10329614B2 (en) 2019-06-25
CN105793434A (zh) 2016-07-20
CA2920250A1 (en) 2015-02-05
EP3027775A1 (en) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105793434B (zh) Dna测序和表观基因组分析
US20210001302A1 (en) Methods of sequencing the immune repertoire
ES2968290T3 (es) Métodos y composiciones para identificar o cuantificar dianas en una muestra biológica
JP7327826B2 (ja) 核酸の検知
CN110870016B (zh) 用于序列变体呼出的验证方法和系统
JP5846703B2 (ja) ポリヌクレオチドのマッピング及び配列決定
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
US20160168621A1 (en) Methods and related devices for single molecule whole genome analysis
EP2080812A1 (en) Compositions and methods of detecting post-stop peptides
US20130324422A1 (en) Detecting disease-correlated clonotypes from fixed samples
JP7434243B2 (ja) 遺伝子サンプルを識別且つ区別するためのシステムと方法
US10851411B2 (en) Molecular identification with subnanometer localization accuracy
CN107889508A (zh) 使用环化的配对文库和鸟枪测序检测基因组变异的方法
JP7430301B2 (ja) 遺伝子サンプルを識別且つ区別するためのシステムと方法
Myllykangas et al. Targeted deep resequencing of the human cancer genome using next-generation technologies
WO2021116677A1 (en) Method for whole genome sequencing of picogram quantities of dna
US20180298430A1 (en) Genomic dna mutation assays and uses thereof
WO2024220475A1 (en) Polymerase variants
Yang et al. Proxi-RIMS-seq2 applied to native microbiomes uncovers hundreds of known and novel m5C methyltransferase specificities.
WO2024123733A1 (en) Enzymes for library preparation
Booth DNA and RNA Sequencing
Betsy et al. Molecular Techniques
SEQUENCING Article Watch: July 2021
WO2018061638A1 (ja) 100pg以下のヒトゲノムDNAからその由来を判別する方法、個人を識別する方法、および造血幹細胞の生着の程度を解析する方法
KR20230165273A (ko) 어댑터 이량체 검출을 갖는 핵산 라이브러리 서열분석 기술

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1227063

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: The American state of New Mexico

Patentee after: University of New Mexico rainforest innovation company

Patentee after: J.S. Edwards

Address before: The American state of New Mexico

Patentee before: STC. UNM

Patentee before: J.S. Edwards

CP01 Change in the name or title of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210810

CF01 Termination of patent right due to non-payment of annual fee