CN109641933A

CN109641933A - 染色质相互作用的全基因组鉴定

Info

Publication number: CN109641933A
Application number: CN201780053751.1A
Authority: CN
Inventors: B.任; M.余; R.房
Original assignee: Ludwig Institute for Cancer Research Ltd
Current assignee: Ludwig Institute for Cancer Research Ltd
Priority date: 2016-09-02
Filing date: 2017-08-31
Publication date: 2019-04-16
Anticipated expiration: 2037-08-31
Also published as: JP7140754B2; EP3507297A4; JP2022184895A; JP2019533433A; WO2018045137A1; US20240096441A1; EP3507297A1; US20190203203A1; CN109641933B; CN117402951A

Abstract

提供了用于全基因组鉴定细胞中染色质相互作用的方法和试剂盒。

Description

染色质相互作用的全基因组鉴定

相关申请的交叉引用

本申请要求于2016年9月2日提交的美国临时申请号62/383,112和于2016年9月22日提交的美国临时申请号62/398,175的优先权。这些申请的全部内容通过引用整体并入本文中。

关于联邦政府资助的研究或开发的声明

本发明是在国立卫生研究院资助的基金号1U54DK107977-01和U54HG006997下受政府支持完成的。美国政府对本发明享有一定的权利。

背景技术

远程染色质相互作用(long-range chromation interactions)的形成是通过远端增强子转录激活靶基因的关键步骤。这种结构特征的作图(mapping)可以帮助定义顺式调控元件的靶基因并注释与人类疾病相关的非编码序列变体的功能(Gorkin,D.U.等,CellStem Cell 14,762-775(2014),de Laat,W.&Duboule,D.Nature 502,499–506(2013),Sexton,T.&Cavalli,G.T.Cell 160,1049–1059(2015),及Babu,D.&Fullwood,M.J.Nucleus6,382–393(2015))。基于染色质构象捕获(3C)的技术的发展促进了远程染色质相互作用及其在基因调控中作用的研究((Dekker,J.等,Nat.Rev.Genet.14,390–403(2013)及Denker,A.&de Laat,W.Genes&development 30,1357–1382(2016))。常用的高通量3C方法有Hi-C和ChIA-PET(Lieberman,E.Science 326,289-293(2009)及Fullwood,M.J.et al.,Nature462,58–64(2009))。使用Hi-C的远程染色质相互作用的全局分析已经在千碱基分辨率，但需要数十亿的测序读取(reads)(Rao,S.S.P.等,Cell 159,1665–1680(2014))。通过配对末端标签测序染色质分析(ChIA-PET)或Hi-C文库的靶向捕获和测序，可以经济高效地对选定基因组区域的远程染色质相互作用进行高分辨率分析(Fullwood,M.J.等,Nature 462,58–64(2009),Mifsud,B.等,Nat.Genet.47,598–606(2015),及Tang,Z.等,Cell 163,1611–1627(2015))。特别地，ChIA-PET已成功用于在许多细胞类型和物种中高分辨率研究与靶蛋白质相关的长程相互作用(Li,G.等,BMCGenomics 15Suppl 12,S11(2014))。然而，需要数千万至数亿个细胞作为起始材料的要求限制了其应用。

发明内容

在某些实施方案中，提供了用于细胞中染色质相互作用的全基因组鉴定的方法。

在某些实施方案中，该方法包括提供含有具有基因组DNA的一组染色体的细胞；用固定剂孵育细胞或其细胞核以提供包含经交联的DNA的经固定的细胞；对经固定的细胞的基因组DNA进行邻近连接；从细胞中分离染色质以提供文库；以及对文库进行测序。邻近连接可以为非原位连接或原位连接。

在一些实施方案中，细胞为真核细胞。在一些实施方案中，细胞为哺乳动物细胞。在一些实施方案中，细胞为人细胞。在一些实施方案中，固定剂为甲醛、戊二醛、福尔马林或其混合物。在一些实施方案中，邻近连接为原位邻近连接。原位邻近连接可以通过以下步骤进行：透化经固定的细胞，通过限制酶消化使DNA片段化，然后进行带标记的核苷酸填充及邻近连接。限制酶消化可以使用一种或更多种酶进行。酶可以为4-切割物或6-切割物。在一个实施方案中，酶为MboI。带标记的核苷酸填充可以通过与DNA聚合酶(例如Klenow)和dCTP、dGTP、dTTP及dATP(其中一个用标记物标记)一起孵育来进行。在一个实施方案中，标记物为生物素。邻近连接可以通过在连接酶缓冲液中与连接酶一起孵育来进行。

在一些实施方案中，通过免疫沉淀分离染色质。在一些实施方案中，通过以下步骤分离染色质：使细胞的细胞核裂解，通过超声处理剪切染色质以提供可溶性染色质级分，以及对可溶性染色质级分进行免疫沉淀。在一些实施方案中，使用针对DNA结合蛋白或组蛋白修饰的特异性抗体进行免疫沉淀。在一些实施方案中，在分离染色质步骤之后进行反向交联，并在配对末端测序之前富集带标记的剪接点。

在一些实施方案中，提供了用于进行本发明的方法的试剂盒。该试剂盒可以含有一种或更多种固定剂、限制酶、一种或更多种用于亲和标签填充的试剂、一种或更多种用于邻近连接的试剂、一种或更多种用于染色质分离的试剂以及一种或更多种用于测序的试剂。用于染色质分离的试剂的实例包括如本文所述的用于免疫沉淀和亲和标签下拉的试剂。

附图说明

图1a、图1b、图1c、图1d、图1e、图1f、图1g、图1h、图1i和图1j示出了通过使用PLAC-seq方法确定的哺乳动物细胞中的染色质相互作用。(a)PLAC-seq工作流程的概述。透化经甲醛固定的细胞并用4-bp切割物MboI消化，然后进行生物素填充和原位邻近连接。然后裂解细胞核并通过超声处理剪切染色质。然后用针对DNA结合蛋白或组蛋白修饰的特异性抗体对可溶性染色质级分进行免疫沉淀。最后进行反向交联并在配对末端测序之前富集带生物素标记的连接剪接点。(b)Pol II PLAC-seq和ChIA-PET实验的测序结果的比较。(c-d)浏览图示出了通过H3K27Ac和Pol II PLAC-seq揭示的高分辨率长程相互作用的实例。c.启动子-启动子相互作用；d.左图，增强子-增强子相互作用；d.右图，启动子-增强子相互作用。(e)ChIA-PET和PLAC-seq相互作用的原始读取(reads)的箱形图。(f)Pol II PLAC-seq与Pol IIChIA-PET相互作用之间的重叠。(g)与原位Hi-C鉴定的相互作用相比，PLAC-seq和ChIA-PET相互作用的灵敏度和准确性。(h)通过H3K27ac、H3K4me3PLAC-seq和原位Hi-C鉴定的相互作用的重叠。(i)PLAC-seq与ChIA-PET之间的启动子和远端DHS的覆盖范围的比较。(j)锚定于Mreg启动子和推定增强子的4C-seq、PLAC-seq、ChIA-PET的比较(1、2、3突出显示通过ChIA-PET未检测到相互作用；4C锚定点用星号标记，而PLAC-seq和ChIA-PET锚定区域用黑色矩形标记。

图2a、图2b、图2c和图2d示出了mESC中启动子和增强子相互作用的鉴定。(a)PLAC-seq相互作用在与相应组蛋白修饰相关的基因组区域处富集。(b)H3K27ac与H3K4me3PLAC-富集(PLACE)相互作用之间的重叠。(c)H3K27ac和H3K4me3PLACE相互作用的启动子-启动子、启动子-增强子、增强子-增强子和其他相互作用的分布。(d)不同组基因的表达的箱线图。H3K27ac PLACE相互作用与表达显著高于其他基因的基因相关(Wilcoxon测试，P<2.2e-16)。

图3a、图3b、图3c、图3d、图3e、图3f和图3g示出了PLAC-seq的验证。(a)PLAC-seq和ChIA-PET的输入材料要求的比较。(b)不同PLAC-seq实验的短程读取的主成分分析(PCA)突出了生物重复学之间的重现性。(c)使用PLAC-seq短程顺式对(距离<1kb)计算的每百万读取中来自每千碱基的读取(RPKM)的箱形图，表明与随机选择区域相比PLAC-seq信号在ChIP-seq峰中显著富集(***Wilcoxon测试，P<2.2e-16)。(d)来自PLAC-seq的短程读取(<1kb)的信号与ChIP-seq的相似。(e)PLAC-seq和原位Hi-C在富含ChIP的区域的每百万读取(RPM)的箱形图。仅考虑长程(>10kb)顺式读取(***Wilcoxon检验，P<2.2e-16)。(f)染色体3上成对相互作用频率的散点图。左图，PLAC-seq生物学重复是高度可重现的(R²＝0.90)；右图，与原位Hi-C(R²＝0.76)相比，对于具有H3K27ac ChIP-seq峰的片段，相互作用强度倾向于PLAC-seq。(椭圆中的点代表具有至少一个被H3K27ac结合的末端的片段对)。(g)与原位Hi-C相比，H3K27ac、H3K4me和Pol II PLAC-seq的远程顺式读取富集的实例(通过Juicebox可视化)。

图4示出了在染色体3上PLAC-seq生物学重复(左图)和PLAC-seq与原位Hi-C之间(右图)的相互作用强度的散点图。(椭圆中的点表示与相应ChIP-seq峰结合的片段对)。

图5a和图5b示出了通过4V-seq的PLAC-seq数据。(a)使用不同数量的细胞，通过H3K27ac PLAC-seq鉴定的长程相互作用是可重现的。(b)在所选基因座上4C、PLAC-seq、ChIA-PET结果的比较。(4c锚定点用星号标记，而PLAC-seq和ChIA-PET锚定区域用黑色矩形标记；右边的矩形突出了通过ChIA-PET唯一检测到但从4C-seq未观察到的染色质相互作用)。

发明详述

本发明至少部分地基于出乎意料的发现，将邻近连接与染色质免疫沉淀组合并测序使得人们能够以高度灵敏且成本有效的方式实现染色质相互作用的全基因组鉴定。该方法表现出优异的灵敏度、准确性和易操作性。例如，将该方法应用于真核细胞改善了增强子-启动子相互作用的作图。

如上所述，远程染色质相互作用的形成是通过远端增强子转录激活靶基因的关键步骤。这些相互作用的作图有助于定义顺式调控元件的靶基因和注释与各种生理和病理条件相关的非编码序列变体的功能。用于这种作图的常规方法通常需要大量细胞和深度测序。例如，通常需要数十亿次测序读取才能获得令人满意的覆盖率。这非常昂贵且不灵敏或准确。

本文公开了用于全基因组鉴定染色质相互作用的新方法。该方法称为邻近连接辅助ChIP-seq(PLAC-seq)，利用基于邻近连接的染色质相互作用分析和蛋白质特异性DNA结合，从而实现优异的远程染色质相互作用作图。如下所述，该方法可以产生比ChIA-PET更全面且准确的相互作用图。实验程序的简易性，所需的细胞数量少以及该方法的成本效益极大地促进了在比以前方法更广泛的物种、细胞类型和实验设置中对远程染色质相互作用作图。

该方法通常包括：提供含有具有基因组DNA的一组染色体的细胞；用固定剂孵育细胞或其细胞核以提供包含具有与蛋白质交联的基因组DNA的复合物的经固定的细胞；对经固定的细胞的基因组DNA进行原位邻近连接以形成经邻近连接的基因组DNA；从细胞中分离复合物以提供DNA文库；以及对DNA文库进行测序。部分工作流程示于图1A中。下面进一步描述一些步骤。

交联

本文公开的方法包括体外技术以根据长程连接和定相的需要来固定和捕获基因组远端区域内的关联。

该技术利用活细胞中固定染色质来巩固细胞核中的空间关系。通过这种固定，产品的后续处理允许人们恢复基因组区域之间邻近关联的矩阵。通过进一步分析，这些关联可以用于产生染色体的三维几何图，因为它们物理排列在活细胞核中。这种技术描述了活细胞中染色体的离散空间组织，并提供了染色体基因座中功能相互作用的准确视图。限制常规功能研究的一个问题是存在非特异性相互作用，数据中存在的关联仅仅归因于染色体邻近。在本公开内容中，通过本文公开的方法使这些非特异性相互作用最小化，以便以更灵敏、准确且成本有效的方式为组装提供有价值的信息。

更具体地，可以在基因组区域与物理上接近的蛋白质之间产生交联。蛋白质(例如组蛋白)与染色质内DNA分子(例如基因组DNA)的交联可以根据本文所述或本领域已知的合适方法完成。在一些情况下，两个或更多个核苷酸序列可以通过与一个或更多个核苷酸序列结合的蛋白质进行交联。多核苷酸区段的交联也可以利用许多方法进行，例如化学或物理(例如光学)交联。合适的化学交联剂包括但不限于甲醛、戊二醛、福尔马林和补骨脂素(Solomon等,Proc.NatL.Acad.Sci.USA 82:6470-6474,1985；Solomon等,Cell 53:937-947,1988)。例如，交联可以通过向包含DNA分子和染色质蛋白的混合物中添加2％甲醛来进行。可用于交联DNA的试剂的其他实例包括但不限于丝裂霉素C、氮芥、美法仑、1,3-丁二烯二环氧化物、顺式二氮二氨合铂(II)和环磷酰胺。合适地，交联剂形成桥接相对短距离(例如约)的交联，从而选择可以反向的紧密相互作用。另一种方法是将染色质暴露于物理(例如光学)交联，例如紫外线照射(Gilmour等,Proc.Nat'l.Acad.Sci.USA81:4275-4279,1984)。

基因组DNA片段化和亲和标签填充

本文所述的方法包括在染色质的邻近连接之前使基因组DNA片段化。用于DNA片段化的许多方法是本领域已知的。因此，可以使用用于使染色质片段化的已建立的方法来实现片段化，包括例如超声处理、剪切和/或使用酶(例如限制酶)。

在一些实施方案中，采用限制酶消化。由于大多数测序读取分布在限制酶切位点附近(约500bp)，因此所用酶的选择会影响结果。为了最大限度地鉴定染色质相互作用，可以使用多种用于染色质消化的酶。为此，任何单一的6碱基切割限制酶可以产生覆盖5-10％基因组的邻近连接数据，但是通过在同一实验中使用多种这种酶，可以覆盖>80％的基因组。此外，可以使用4碱基切割酶或4碱基切割物代替6碱基切割酶，以进一步使基因组的覆盖范围最大化。

本文公开的PLAC-seq方法可以使用任何数量的限制酶进行，前提条件是它们产生足够多的文库。酶的选择问题确实对覆盖和作图的碱基数有影响。例如，6碱基切割酶切割每约4kb的基因组，因此可以分阶段的相对少数多态性下降到足以切割待定相的位点。相比之下，4碱基切割酶切割频率更高，大约每250bp(平均)。在这方面，更大比例的多态性落在酶切位点附近，因此具有分阶段的潜力。这涉及稀有变体的定相。

通常，利用4碱基切割酶或不同酶的混合物导致较大覆盖度，而测序读取深度较低。在此，虽然PLAC-seq可以使用一种限制酶成功进行，但使用多种酶的PLAC-seq可以产生更均匀的数据分布，从而产生更高分辨率图谱。限制酶可具有1、2、3、4、5、6、7或8个碱基长的限制位点。限制酶的实例包括但不限于Aatll、Acc65I、Accl、Acil、Acll_f Acul、Afel、Aflll、Afllll、Agel、Ahdl、Alel、Alul、Alwl、AlwNI、Apal、ApaLI、ApeKI、Apol、Ascl、Asel、AsiSI、Aval、Avail、Avrll、BaeGI、Bael、BamHI、Banl、Banll、Bbsl、BbvCI、Bbvl、Bed、BceAI、Bcgl、BciVI、Bell、Bfal、BfuAI、BfuCI、Bgll、Bgill、Blpl、BmgBI、Bmrl、Bmtl、Bpml、BpulOI、BpuEI、BsaAI、BsaBI、BsaHI、Bsal、BsaJI、BsaWI、BsaXI、BscRI、BscYI、Bsgl、BsiEI、BsiHKAI、Bsi I、BslI、BsmAI、Bs BI、Bs FI、Bsml、BsoBI、Bspl286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、Bsrl、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、Btgl、BtgZI、BtsCI、Btsl、CacSI、Clal、CspCI、CviAII、CviKI-1、CviQI、Ddcl、DpnI、DpnII、Dral、DraIII_f Drdl、Eacl、Eagl、Earl、Ecil、Eco53kI、Eco I、EcoO109I、EcoP15I、EcoRI、EcoRV、Fatl、Fad、Fnu4HI、Fokl、Fsel、Fspl、Haell、Haelll、figal、Hhal、Hindi、HindIII、Hinfl、HinPlI、Hpal、Hpall、Hphl、Hpyl66II、Hpyl88I、Hpyl88III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、Kasl、Kpnl、Mbol、MboII、Mfel、Mlul、Mlyl、Mmel、Mnll、Mscl、Mse、MslI、MspAlI、Mspl、Mwol、Nael、Narl、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、Neil、col、Ndel、NgoMIV、Nhel、Nla ll、NlalV、NmeAIII、Notl、Nrul、Nsil、Nspl、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、Pad、PaeR7I、Pcil、PflFI、PflMI、Phol、Ple、Pmel、Pmll、PpuMI、PshAI、Psil、PspGI、PspOMI、PspX、Pstl、Pvul、Pvul I、P.sal、RsrII、Sad、SacII、Sail、Sapl、Sau3AI、Sau96I、Sbfl、Seal、ScrFI、SexAI、SfaNI、Sfcl、Sfil、Sfol、SgrAI、Smal、Smll、SnaBI、Spel、Sphl、Sspl、Stul、StyD4I、Styl、Sv/al、T、Taqal、Tfil、Tlil、Tsel、Tsp45I、Tsp509I、TspMI、TspRI、Tthllll、Xbal、Xcml、Xhol、Xmal、Xmnl和Zral。所得片段的大小可以变化。所得片段还可以包含5'或3'末端的单链突出端。

在5'或3'末端的这些单链突出端可以被标记有一种或更多种亲和标签的核苷酸填充。亲和标签的实例包括生物素分子、半抗原、谷胱甘肽-S-转移酶和麦芽糖结合蛋白。用于捕获标签填充的技术是本领域已知的。

邻近连接

在图1a所示的工作流程中，使用基于邻近连接的方法来进行DNA测序文库制备，然后高通量DNA测序。邻近连接可以(1)在完整细胞内(即原位邻近连接，例如类似于Rao,S.S.P.等,Cell 159,1665–1680(2014)中描述的步骤)或(2)使用裂解细胞、裂解细胞核或细胞组分(即非原位邻近连接，例如类似于Lieberman-Aiden等.Science 326,289-93(2009),Selvaraj et al.Nat Biotechnol 31,1111-8(2013)或WO2015010051中描述的步骤)进行，其全部内容通过引用并入本文。更具体地，细胞可以与交联剂交联以保持蛋白质-蛋白质和DNA-蛋白质相互作用。该步骤可以在室温下用1-2％的甲醛进行10-30分钟。然后可以通过离心收获细胞，并可以在-80℃下储存。可以在低渗核裂解缓冲液中裂解细胞，然后用所选择的限制酶的1X浓度的缓冲液(例如，来自New England Biolabs)进行洗涤。根据所用的酶，细胞可以用25U至400U酶消化1小时至过夜。四碱基切割酶受益于短消化而酶量较少(例如，1小时，25U)，而六碱基切割酶可以使用较长时间的消化而酶量较大。可以在dNTP存在下用Klenow聚合酶修复DNA末端，其中一个(例如，dATP)可以与亲和标签(例如生物素)共价连接。然后可以在T4DNA连接酶存在下连接样品4小时。

如图1a所示，邻近连接产生具有DNA结合蛋白和经邻近连接的DNA对的复合物。如下所述，可以通过例如免疫沉淀进一步剪切和分离这些复合物。

剪切

在分离之前，可以进一步处理复合物。如上所述，许多剪切DNA的方法是本领域已知的并且可以用于此。剪切可以使用用于使染色质片段化的已建立的方法完成，包括例如超声处理和/或使用限制酶。在一些实施方案中，使用超声技术，可以获得约100至5000个核苷酸的片段。

免疫沉淀

多种技术可以用于分离上述复合物。在一个实施方案中，可以采用免疫沉淀。这种分离技术允许使用特异性结合特定蛋白质抗原的抗体从溶液中沉淀蛋白质抗原(例如DNA结合蛋白)以及与其结合的其他分子(例如基因组DNA)。该方法可以用于从含有数千种不同蛋白质的样品中分离和浓缩特定蛋白质。免疫沉淀可以在过程的某些点处用偶联至固体基质的抗体进行。

如本文所公开的，有用的蛋白质抗原通常为DNA结合蛋白(包括转录因子、组蛋白、聚合酶和核酸酶)或与这种DNA结合蛋白相关的其他蛋白质抗原。如上所述，蛋白质与与其结合的DNA交联。通过使用对这种DNA结合蛋白特异的抗体，可以将蛋白质-DNA复合物从细胞裂解物中免疫沉淀。交联可以通过向细胞(或组织)施加固定剂(例如甲醛)来实现，尽管有时使用本领域已知的更明确的一致的交联剂(例如二叔丁基过氧化物或DTBP)。交联后，可以裂解细胞，并且可以以上述方式将DNA破碎成片。作为免疫沉淀的结果，纯化蛋白质-DNA复合物，并且可以加热经纯化的蛋白质-DNA复合物以逆转蛋白质和DNA复合物的甲醛交联，从而允许DNA与蛋白质分离。

然后可以通过多种技术确定经分离的DNA片段的特性和数量，例如克隆、PCR、杂交、测序和DNA微阵列(例如，ChIP-芯片(ChIP-on-chip或ChIP-chip))。

多种DNA结合蛋白可以是本文公开的方法的靶标。DNA结合蛋白的实例在下文中描述。免疫沉淀的一个潜在技术障碍是难以产生特异性靶向目标蛋白质的抗体。为了解决这个障碍，可以将一个或更多个标签设计到目标蛋白质的C-或N-末端上以制备经表位标记的重组蛋白。这种经表位标记的重组蛋白可以在目标细胞中表达，然后进行本文公开的PLAC-seq。经表位标记的优点是可以在许多不同的蛋白质上一次又一次地使用相同的标签，并且研究人员每次都可以使用相同的抗体。使用的标签的实例为绿色荧光蛋白(GFP)标签、谷胱甘肽-S-转移酶(GST)标签、HA标签、6xHis和FLAG-标签。

亲和标签下拉和文库构建

该方法的下一步是捕获和分离已经免疫沉淀基因组DNA用以文库构建。这可以通过下拉亲和标签(例如，生物素、半抗原、谷胱甘肽-S-转移酶或麦芽糖结合蛋白)来进行。例如，分离步骤可以包括使经免疫沉淀的混合物与结合亲和标签的试剂接触。这种试剂的实例包括抗生物素蛋白分子、或与半抗原或其抗原结合片段结合的抗体。在一些实施方案中，药剂可以附着于支撑物，例如微阵列。在这种情况下，支撑物可以包括平坦的具有一种或更多种基底材料的支撑物，该基底材料选自玻璃、二氧化硅、金属、特氟隆和聚合物材料。或者，载体可以包括珠的混合物，每个珠具有一种或更多种与其结合的亲和标签捕获剂，珠的混合物可以包括选自以下的一种或更多种基质材料：硝酸纤维素、玻璃、二氧化硅、特氟隆、金属和聚合物材料。在一些实施方案中，亲和标签下拉可以以在Lieberman-Aiden,等Science 326,289-93(2009),Nat Biotechnol 31,1111-8(2013)和WO2015010051中描述的方式进行，其内容通过引用并入本文。

然后可以将衔接子(例如，Illumina Tru-Seq衔接子)连接到DNA上。然后可以通过PCR扩增样品以获得足够的材料。可以进一步纯化经PCR扩增的文库。为了使PLAC-seq文库复杂性最大化，可以通过qPCR针对已知标准确定用于文库扩增的最小PCR循环数，以确定获得足够测序材料所需的循环数。然后可以在例如Illumina测序平台上对文库进行测序。

测序

本文所述或本领域已知的各种合适的测序方法可以用于从样品内的核酸分子获得序列信息。测序可以通过以下方法来完成：经典的Sanger测序、大规模平行测序、下一代测序、polony测序、454焦磷酸测序、Illumina测序、SOLEXA测序、SOLiD测序、离子半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时测序、纳米孔DNA测序、隧穿电流DNA测序、杂交测序、质谱测序、微流体Sanger测序、基于显微镜的测序、RNA聚合酶测序、体外病毒高通量测序、Maxam-Gibler测序、单端测序、配对末端测序、深度测序、超深度测序。

然后可以使用生物信息学管道处理测序的读取以绘制长程和/或全基因组范围的染色质相互作用。例如，配对末端序列可以首先使用BWA-MEM(Li H.Aligning sequencereads,clone sequences and assembly contigs with BWA-MEM.arXiv:1303.3997v2(2013))定位到在两端各自为默认设置的单端模式中的参考基因组(mm9)。接下来，唯一定位的末端可以配对，并且仅在两端中的每一个被唯一定位(MQAL>10)时才保持配对。对于本研究中的染色体内分析，可以丢弃染色体间配对。接下来，如果任一端被定位远离最近的限制性站点(例如，MboI位点)超过500bp，则可以进一步丢弃读取对。接下来可以基于基因组坐标对读取对进行分类，然后使用Picard工具中的MarkDuplicates进行PCR重复移除。接下来，如果插入尺寸分别大于默认阈值10kb或小于1kb的给定距离，则定位对可以被划分为“长程”和“短程”。

DNA结合蛋白

本文公开的方法可以包括分离DNA结合蛋白。DNA结合蛋白的实例包括调节转录过程的转录因子(TF)、各种聚合酶、连接酶，切割DNA分子的核酸酶以及染色质相关的蛋白(例如组蛋白，高迁移率族(HMG)蛋白，甲基化酶，解旋酶和单链结合蛋白，拓扑异构酶，重组酶和染色质结构域蛋白)，它们参与细胞核中染色体的包装和转录。参见，例如US20020186569。

DNA结合蛋白可以包括促进与核酸结合的结构域，例如锌指、螺旋-环-螺旋、螺旋-转角-螺旋和亮氨酸拉链。还有更多不寻常的实例，例如转录激活因子(例如效应器)。多种DNA结合蛋白可以用于进行本文公开的方法以鉴定和分析涉及这些DNA结合蛋白的染色质相互作用，其涉及相关的生物学事件，例如基因表达调控、转录、DNA复制、修复和表观遗传学(例如印迹)。

虽然一些蛋白质以非序列特异性方式与DNA结合，但许多蛋白质与特异性DNA序列结合。这些中研究最多的是转录因子，其调控基因转录。每种转录因子与一组特定DNA序列结合，并激活或抑制在其启动子附近具有这些序列的基因的转录。转录因子以两种方式做到这一点。第一，它们可以直接或通过其他介质蛋白结合负责转录的RNA聚合酶；这将聚合酶定位于启动子并允许其开始转录。或者，转录因子可以结合修饰启动子上组蛋白的酶。这改变了DNA模板对聚合酶的可及性。DNA靶标遍布有机体的基因组。一种转录因子活性的变化可以影响数千种基因。因此，这些转录因子通常是控制对环境变化或细胞分化和发育的响应的信号转导过程的靶标。因此，本文公开的方法可以用于在全基因组范围内研究和评估这些反应中的转录因子。

可以靶向的转录因子包括一般转录因子，其参与预启动复合物的形成，例如TFIIA、TFIIB、TFIID、TFIIE、TFIIF和TFIIH。它们普遍存在并与围绕所有II类基因的转录起始位点的核心启动子区域相互作用。其他实例包括组成型活性转录因子(例如，Sp1、NF1、CCAAT)、条件活性转录因子、发育或细胞特异性转录因子(例如，GATA、HNF、PIT-1、MyoD、Myf5、Hox和翼状螺旋)、信号依赖性转录因子(需要外部信号以激活)。信号可以为细胞外配体依赖性(即内分泌或旁分泌，例如核受体)、细胞内配体依赖性(即自分泌，例如SREBP、p53、孤儿核受体)或细胞膜受体依赖性(例如，那些涉及导致转录因子磷酸化的第二信使信号级联的那些，例如CREB、AP-1、Mef2、STAT、R-SMAD、NF-κB、Notch、TUBBY和NFAT)。这些转录因子可以为多种超级类别的转录因子，包括具有碱性结构域的转录因子(例如，亮氨酸拉链因子、螺旋-环-螺旋因子、螺旋-环-螺旋/亮氨酸拉链因子、NF-1家族、RF-X家族和bHSH)、锌配位DNA结合结构域(例如，核受体类型的Cys4锌指、多种Cys4锌指、Cys2His2锌指结构域、Cys6半胱氨酸-锌簇及锌指的其他组合物)、螺旋-转角-螺旋(例如，homeo结构域、配对盒、叉头/翼状螺旋、热休克因子、色氨酸簇和转录增强因子))或具有小沟接触的β支架因子(例如，RHR、STAT、p53类、MADS盒、β桶α-螺旋转录因子、TATA结合蛋白、HMG盒、异聚CCAAT因子、粒状头(grainyhead)、冷休克结构域因子和Runt)其他(例如铜拳蛋白，HMGI(Y)(HMGA1)、口袋域、E1A样因子和AP2/EREBP相关因子)。

试剂盒

本公开内容还提供了一种包含一种或更多种用于进行本文公开的方法的组分的试剂盒。试剂盒可以用于对本领域技术人员显而易见的任何应用，包括上述那些。试剂盒可以包含例如多种缔合分子、亲和标签、固定剂、限制性内切核酸酶、连接酶和/或其组合。在一些情况下，缔合分子可以为蛋白质，包括例如DNA结合蛋白(例如组蛋白或转录因子)。在一些情况下，固定剂可以为甲醛或任何其他DNA交联剂。在一些情况下，试剂盒还可以包含多种珠。珠可以是顺磁性的和/或可以是经捕获剂涂覆的。例如，珠可以是经链霉抗生物素蛋白和/或抗体涂覆的。在一些情况下，试剂盒可以包含衔接子寡核苷酸和/或测序引物。此外，试剂盒可以包含能够使用衔接子寡核苷酸和/或测序引物扩增读取对的装置。在一些情况下，试剂盒还可以包含其他试剂，包括但不限于裂解缓冲液、连接试剂(例如，dNTP、聚合酶、多核苷酸激酶和/或连接酶缓冲液等)和PCR试剂(例如，dNTP、聚合酶、和/或PCR缓冲液等)。该试剂盒还可以包括使用试剂盒组分和/或产生读取对的说明书。

该试剂盒可以放在容器中。该试剂盒还可以具有用于生物样品的容器。在一种示例性情况下，试剂盒可以用于从有机体获得样品。例如，试剂盒可以包含容器、用于获得样品的装置、用于储存样品的试剂和使用说明书。在一些情况下，从有机体获得样品可以包括从获自有机体的样品中提取至少一种核酸。例如，试剂盒可以含有至少一种用于提取至少一种核酸的缓冲液、试剂、容器和样品转移装置。在一些情况下，试剂盒可以含有用于分析样品中的至少一种核酸的材料。例如，该材料可以包括至少一种对照和试剂。试剂盒可以含有多核苷酸裂解剂(例如，DNaseI等)以及与进行多核苷酸裂解反应相关的缓冲液和试剂。在另一种示例性情况中，试剂盒可以含有用于鉴定核酸的材料。例如，试剂盒可以包括用于实施本文所述的至少一种方法的试剂和本文所述的组合物。例如，试剂可以包括用于分析通过核酸鉴定产生的数据的计算机程序。在一些情况下，试剂盒还可以包括软件或用于获得和使用软件的许可，这些软件用于分析使用本文所述的方法和组合物提供的数据。在另一种示例性情况下，试剂盒可以包含可以用于将生物样品储存和/或运输到测试设施的试剂。

用途和应用

本文所述的方法和试剂盒可以用于确定在核酸内位点处的蛋白质结合的模式。该方法和试剂盒还可以用于将蛋白质结合模式与核酸样品内或跨多个核酸样品间的基因表达相关联。该方法和试剂盒可以用于构建核酸样品内或跨多个核酸样品间的调控网络。这些用途的其他实例包括鉴定DNA结合位点中的功能变体/突变和/或调节DNA；鉴定转录物起始位点；对多种细胞类型或多种有机体中转录因子网络作图；产生转录因子网络；网络分析用于转录因子的细胞类型特异性或细胞阶段特异性行为，转录因子和染色质可及性和功能，启动子/增强子染色质特征，调控DNA中的疾病和性状相关变体，疾病相关变体和转录调控途径；鉴定疾病细胞的和相关的筛选试验。

该方法和试剂盒可以用于确定核酸样品的发育状态、多能性、分化和/或永生化；建立核酸样品的时间状态；鉴定核酸样品的生理和/或病理状况。

在一个实例中，该方法和试剂盒可以用于评价或预测基因激活、转录起始、蛋白质结合模式、蛋白质结合位点和染色质结构。在一些情况下，方法和试剂盒可以用于检测关于基因表达的时间信息(例如，过去、未来或现在的基因表达或活性)。例如，该信息可以描述过去发生的基因激活事件。在一些情况下，该信息可以描述当前的基因激活事件。在一些情况下，该信息可以预测基因激活。本文描述的方法和试剂盒可以用于描述生理状态或病理状态。在一些情况下，病理状态可以包括疾病的诊断和/或预后。

使用本文公开的方法，可以鉴定蛋白质(例如，转录因子)结合核酸(例如，基因组DNA)的大量(例如，10、10²、10³、10⁴、10⁵、10⁶或10⁷)位点。在一些情况下，转录因子与核酸的结合在调控区内。这些事件可以代表多种转录因子与许多不同元件的差异结合。在一些情况下，由转录因子参与或结合的不同元件的数量大于10、50、500、1000、2500、5000、7500、10000、25000、50000或100000。不同元件可以为更长的核酸序列内的短序列元件。转录因子与序列元件的差异结合可以包括基因组序列区室，其可编码DNA结合蛋白的保守识别序列库。基因组序列区室可以包括先前已知的位点以及在使用本文所述方法之前可能尚未鉴定的新位点。在一些情况下，该方法可以用于确定顺式调控词典(cis-regulatory lexicon)，其可以包含具有进化元件、结构和功能谱。

在一些情况下，可以鉴定可能影响等位基因染色质状态的遗传变体。在一些情况下，遗传变体可以改变蛋白质与DNA序列的结合。在一些情况下，遗传变体可以位于可能不经修饰的结合位点(例如，DNA甲基化)。

该方法和试剂盒也可以用于鉴定识别新核酸(例如DNA)序列的结合蛋白(例如DNA结合蛋白)。结合蛋白和识别序列的鉴定可以在体内或体外进行。在一些情况下，结合蛋白和识别序列的鉴定可以在取自单一有机体的样品中进行。在一些情况下，结合蛋白和识别序列的鉴定可以在取自不同有机体的样品中进行。在一些情况下，结合蛋白和识别序列的鉴定可以在从取自至少一种有机体的样品中分析。例如，分析可以确定结合蛋白和识别序列的鉴定可以具有进化功能特征。

该方法可以用于鉴定新的调控因子识别基序。在一些情况下，新的调控因子识别基序可以在跨一种物种内多个基因、细胞和/或组织类型的序列和/或功能上保守。在一些情况下，识别基序可以在跨多种物种的多个基因、细胞和/或组织类型的序列和/或功能上保守。在一些情况下，新的调控因子识别基序可以在跨一个物种内的多个基因、细胞和/或组织类型的序列和/或功能上不是保守的。在一些情况下，新的调控因子识别基序可以在跨多种物种的多个基因、细胞和/或组织类型的序列和/或功能上不是保守的。新的调控因子识别基序可以具有由一种或多于一种的独特结合蛋白占据的细胞选择模式。新的调控因子识别基序可以不具有由一种或多于一种的独特结合蛋白占据的细胞选择模式。在一些情况下，新的调控因子识别基序可以排列在表格中，例如，基序表。

远程染色质相互作用的图谱(例如本文公开的PLACE相互作用)可以被组装以描绘调控网络(例如，转录因子网络)。这种调控网络的图谱可以提供调控网络的网路、动态和/或组织原理的描述。例如，图谱可以从多核苷酸片段文库生成，在一些情况下，其可以包含染色质相互作用位点。在一些情况下，图谱可以包括整个基因组间的染色质相互作用。例如，图谱可以通过将至少一个多核苷酸片段文库与至少一个不同的多核苷酸片段文库比对来产生。在一些情况下，可以对多核苷酸片段进行测序。在一些情况下，比对可以是将至少一种多核苷酸的序列与至少一种不同多核苷酸的序列比对。在一些情况下，比对可以不包括对至少一个多核苷酸片段进行测序。例如，比对文库可以包括可以被分析以确定调控网络的信息。在一些情况下，调控网络可以说明数百个序列特异性TF之间的联系。在一些情况下，调控网络可以用于分析跨多种细胞和组织类型的这些连接的动态。

细胞和组织样品可以包括多类细胞类型。样品可以包括可含有核酸的任何生物材料。样品可来自多种来源。在一些情况下，来源可以为人类、非人类哺乳动物、哺乳动物、动物、啮齿动物、两栖动物、鱼、爬行动物、微生物、细菌、植物、真菌、酵母菌和/或病毒。实例包括具有有限增殖潜力的经培养的原代细胞；培养永生化的，恶性肿瘤衍生的或多能的细胞系；终末分化细胞；自更新细胞；原代造血细胞；经纯化的分化造血细胞；用病原体(例如病毒)感染的细胞和/或更多种多能祖细胞和多能细胞或干细胞。在一些情况下，细胞和组织样品可以为受孕后胎儿组织样品。

本公开内容中提供的核酸样品可以源自有机体。为此，可以使用完整有机体或部分有机体。部分有机体可以包括器官、包含多种组织的组织片、包含单个组织的组织片、混合组织源的多种细胞、单个组织源的多种细胞、单个组织源的单种细胞、来自混合组织源细胞的多种细胞的无细胞核酸、来自单个组织源的多种细胞的无细胞核酸和来自单个组织源的单种细胞的无细胞核酸和/或体液。在一些情况下，有机体的部分为区室，例如线粒体、细胞核或本文所述的其他区室。组织可以源自任何胚层，例如神经嵴，内胚层，外胚层和/或中胚层。在一些情况下，器官可以含有赘生物，例如肿瘤。在一些情况下，肿瘤可以为癌症。

样品可以包括细胞培养物、组织切片、冷冻切片、活组织检查样品和尸检样品。样品可以是获得用于组织学目的。样品可以为临床样品、环境样品或研究样品。临床样本可以包括鼻咽清洗、血液、血浆、无细胞血浆、血沉棕黄层、唾液、尿液、粪便、痰液、粘液、伤口拭子、组织活检、牛奶、液体抽吸物、拭子(例如，鼻咽拭子)和/或组织等。环境样品可以包括水、土壤、气溶胶和/或空气等。样品可以是收集用于诊断目的或用于监测目的(例如，监测疾病或病症的过程)。例如，多核苷酸的样品可以是从患有疾病或病症，具有患有疾病或病症风险或者怀疑患有疾病或病症的受试者收集或获得的。

该方法可以应用于含有取自多种来源的核酸(例如基因组DNA)的样品。来源可以为处于细胞行为或阶段的细胞。细胞行为的实例包括细胞周期、有丝分裂、减数分裂、增殖、分化、细胞凋亡、坏死、衰老、非分裂、静止、增生、瘤形成和/或多能性。在一些情况下，细胞可以处于细胞成熟或衰老的阶段或状态。在一些情况下，细胞成熟的阶段或状态可以包括在从干细胞分化成终末细胞类型的过程中的阶段或状态。

本文公开的PLAC-seq方法可以用于获得每种细胞行为或阶段或来源的相应PLACE(PLAC-富集)相互作用。每种这样的相互作用代表对每种细胞行为或阶段或来源特异的基因调节记号或特征，并且可以用于临床目的。

本文所述的方法和试剂盒可以用于筛选来自试剂库的至少一种试剂，以鉴定可能引起对基因调节记号或特征的特定影响的试剂。试剂可以为药物、化学物质、化合物、小分子、生物仿制药、药物、糖、蛋白质、多肽、多核苷酸、RNA(例如siRNA)或遗传治疗剂。靶标可以为有机体、器官、组织、细胞、细胞的细胞器、细胞的细胞器的一部分、染色质、蛋白质、核酸(例如基因组DNA)或核酸。筛选可以包括高通量筛选和/或阵列筛选，其可以与本文所述的方法和组合物组合。

定义

如本文所公开的，提供了许多值的范围。应理解，除非上下文另有明确规定，否则还具体公开了该范围的上限和下限之间的至下限单位的十分之一的每个中间值。在所述范围内的任何规定值或介入值与所述范围内的任何其他陈述或介入值之间的每个较小范围都包含在本发明内。这些更小范围的上下限可以独立地包括在该范围中或者从该范围排除，并且上下限的两者之一，两者都不或者两者都包括在该更小范围中的每个范围也被包括在本发明之内，但以所述范围中有任何特别排除限制为条件。在所述范围包括一个或两个限值的情况下，还包括将这些包括的限值中的一个或两个排除在外的范围。

术语“约”通常是指所示数字的正负10％。例如，“约10％”可表示9％至11％的范围，“约1”可以意指0.9至1.1。从上下文中可以明显看出“约”的其他含义，例如四舍五入，因此例如“约1”也可以意指0.5至1.4。

术语“生物样品”是指从有机体(例如患者)或有机体的组分(例如细胞)获得的样品。样品可以为任何生物组织、细胞或液体。这种样品可以为“临床样品”，其为源自受试者的样品，例如人患者。这种样品包括但不限于唾液、痰液、血液、血细胞(例如白细胞)、羊水、血浆、精液、骨髓和组织或细针活检样品、尿液、腹膜液和胸膜。流体或其细胞。生物样品还可以包括组织切片，例如用于组织学目的的冷冻切片。生物样品还可以包括基本上纯化或分离的蛋白质、膜制剂或细胞培养物。

“核酸”是指DNA分子(例如基因组DNA)、RNA分子(例如mRNA)或者DNA或RNA类似物。DNA或RNA类似物可以是从核苷酸类似物合成的。核酸分子可以是单链或双链的，但优选双链DNA。

术语“带标记的核苷酸”或“带标记的碱基”是指与标记物或标签连接的核苷酸碱基，其中标记物或标签包含对配体具有独特亲和力的特定部分。或者，结合配对体可以对标记物或标签具有亲和力。在一些实例中，标记物包括但不限于生物素、组氨酸标记物(即6xHis)或FLAG标记物。例如，dATP-生物素可以被认为是带标记的核苷酸。在一些实例中，片段化的核酸序列可以用带标记的核苷酸进行钝化，然后进行平端连接。本文使用的术语“标记物”或“可检测的标记物”是指可通过光谱、光化学、生物化学、免疫化学、电学、光学或化学方法检测的任何组合物。这种标记物包括用带标记的链霉抗生物素蛋白缀合物染色的生物素、磁珠(例如，Dynabeads^TM)、荧光染料(例如，荧光素、德克萨斯红、罗丹明、绿色荧光蛋白等)、放射性标记物(例如，³H、¹²⁵I、³⁵S、¹⁴C或³²P)、酶(例如，ELISA中常用的辣根过氧化物酶、碱性磷酸酶和其他酶)和量热标记物(例如胶体金或有色玻璃或塑料(例如，聚苯乙烯、聚丙烯、乳胶等)珠)。本发明中考虑的标记物可以通过许多方法检测或分离。

“亲和结合分子”或“特异性结合对”在本文中意指在某些条件(称为结合条件)下彼此具有亲和力并结合的两个分子。生物素和链霉抗生物素蛋白(或抗生物素蛋白)为“特异性结合对”的实例，但本发明不限于使用该特定特异性结合对。在本发明的许多实施方案中，特定特异性结合对的一个被称为“亲和标签分子”或“亲和标签”，以及被称为“亲和标签结合分子”或“亲和标签结合分子”的其他。“多种其他特异性结合对或亲和结合分子，包括亲和标签分子和亲和标签结合分子，是本领域已知的(例如，参见美国专利号6,562,575)，并且可以用于本发明。例如，结合抗原的抗原和抗体(包括单克隆抗体)是特异性结合对。此外，抗体和抗体结合蛋白，例如金黄色葡萄球菌(Staphylococcus aureus)蛋白A可以用作特异性结合对。特异性结合对的其他实例包括但不限于与凝集素特异性结合的碳水化合物部分和凝集素；激素和激素受体；酶和酶的抑制剂。

如本文所用，术语“寡核苷酸”是指短多核苷酸，通常小于或等于300个核苷酸长(例如，核苷酸长度在5至150的范围内，优选在10至100的范围内，更优选在15至50的范围内)。然而，如本文所用，该术语还旨在涵盖更长或更短的多核苷酸链。“寡核苷酸”可以与其他多核苷酸杂交，因此用作多核苷酸检测的探针或用于多核苷酸链延伸的引物。

“延伸核苷酸”是指能够在扩增过程中掺入延伸产物的任何核苷酸，即DNA，RNA或——如果DNA或RNA可以包括标记物的话——衍生物。

如本文所用的术语“染色体”是指天然存在的核酸序列，其包含称为通常编码蛋白质的基因的一系列功能区。其他功能区可以包括微小RNA或长非编码RNA，或其他调控元件。这些蛋白质可以具有生物学功能，或者它们直接与相同或其他染色体相互作用(即，例如，调控染色体)。

术语“基因组”是指具有它们所含基因的任何染色体组。例如，基因组可以包括但不限于真核基因组和原核基因组。术语“基因组区域”或“区域”是指基因组和/或染色体的任何确定长度。或者，基因组区域可以是指完整染色体或部分染色体。此外，基因组区域可以是指染色体上的特定核酸序列(即，例如，开放阅读框和/或调控基因)。

术语“片段”是指任何比其衍生的序列更短的任何核酸序列。片段可以是任何大小，范围从几兆碱基和/或千碱基至几个核苷酸长。实验条件可以确定预期的片段大小，包括但不限于限制酶消化、超声处理、酸孵育、碱孵育、微流化等。

术语“片段化”是指将化合物或组合物分离成较小单元的任何过程或方法。例如，分离可以包括但不限于酶促切割(即，例如，转座酶介导的片段化，作用于核酸的限制酶或作用于蛋白质的蛋白酶)、碱水解、酸水解或加热-诱导热失稳。

术语“固定”是指固定任意和所有细胞过程的任何方法或过程。因此，经固定的细胞在固定时精确地保持细胞内组分之间的空间关系。许多化学物质能够提供固定，包括但不限于甲醛、福尔马林或戊二醛。

术语“交联”是指两种化合物之间的任何稳定的化学缔合，使得它们可以作为一个单元进行进一步加工。这种稳定性可以基于共价和/或非共价结合。例如，核酸和/或蛋白质可以通过化学试剂(即，例如固定剂)交联，使得它们在常规实验室程序(例如，提取、洗涤、离心等)期间保持其空间关系。

如本文所用的术语“连接”是指通常包含磷酸二酯键的两个核酸序列的任何连接。在辅因子试剂和能量源(即，例如，三磷酸腺苷(ATP))存在下，通常通过催化酶(即，例如连接酶)的存在来促进连接。

术语“限制酶”是指在特定碱基对序列处切割核酸的任何蛋白质。

如本文所用，术语“杂交”是指互补(包括部分互补)多核苷酸链的配对。杂交和杂交强度(例如，多核苷酸链之间的缔合强度)受本领域众所周知的许多因素的影响，包括多核苷酸之间的互补程度、受这种条件影响的所涉及条件的严格性，例如盐的浓度、所形成的杂化物的熔融温度(Tm)、其他组分的存在、杂交链的摩尔浓度和多核苷酸链的G:C含量。当一个多核苷酸与另一个多核苷酸被称为“杂交”时，它意味着两个多核苷酸之间存在一些互补性，或者两个多核苷酸在高度严格条件下形成杂交体。当一个多核苷酸不与另一个多核苷酸杂交时，它意味着两个多核苷酸之间不存在序列互补性，或者在严格条件下两个多核苷酸之间不形成杂交体。

在一个实施方案中，提供了一种用于全基因组鉴定真核细胞中染色质相互作用的高灵敏度且成本有效的方法。将邻近连接与染色质免疫沉淀和测序相组合，该方法表现出优异的灵敏度、准确性和易操作性。例如，将该方法应用于真核细胞改善了增强子-启动子相互作用的作图。

为了减少输入材料的量而不损害远程染色质相互作用作图的稳健性，在一个实施方案中，提供了本文中被称为邻近连接辅助ChIP-seq(PLAC-seq)的方法，其将甲醛交联和原位邻近连接与染色质免疫沉淀和测序组合(图1a)。PLAC-seq可以更加全面和准确地检测远程染色质相互作用，同时使用少至100,000个细胞，或比出版的ChIA-PET方案(Fullwood,M.J.等,Nature 462,58–64(2009)和Tang,Z.等,Cell 163,1611–1627(2015))低三个数量级(图3a)。在一个实施方案中，PLAC-seq用小鼠ES细胞并使用针对RNA聚合酶II(Pol II)、H3K4me3和H3K37ac的抗体来进行以确定与转录因子或染色质标记物相关的基因组位置处的远程染色质相互作用(表1)。

当比较Pol II PLAC-seq和ChIA-PET实验时，PLAC-seq产生的测序文库的复杂性远高于ChIA-PET。结果，获得了10x多序列读取，从Pol II PLAC-seq实验中收集的单倍顺式长程(>10kb)读取对的440倍，相较于先前发表的Pol IIChIA-PET实验(Zhang,Y.等,Nature504,306–310(2013))(图1b)。此外，PLAC-seq文库中的染色体间染色体对数量明显减少(11％相对于48％)，但长程染色体内染色体对更多(67％相对于9％)，并且相互作用检测的可用读取明显更多(25％相对于0.6％)。因此，PLAC-seq比ChIA-PET更具成本效益(图1b)。

表1

为了评价PLAC-seq数据的质量，首先将其与先前从鼠ES细胞(ENCODE)收集的相应ChIP-seq数据进行比较(Shen,Y.等,Nature 488,116–120(2012))并发现PLAC-seq读取在因子结合位点显著富集(P<2.2e-16)，并且在生物学重复之间具有高度可重现性(Pearson相关性>0.90)(图3b至图3g、图4)。因此，将来自两个生物学重复的数据组合用于后续分析。使用公开的算法“GOTHiC”(Schoenfelder,S.等,Genome Res.25,582–597(2015))来鉴定每个数据集中的远程染色质相互作用。观察到通过H3K27ac PLAC-seq使用2.5、0.5和10百万个细胞鉴定的高度可重现的相互作用(图5a)。此外，通过原位Hi-C数据归一化的PLAC-seq信号揭示了用甚至100,000个细胞在亚千碱基对分辨率下的相互作用(图1c至图1d)。从PolII、H3K27ac或H3K4me3PLAC-seq实验中分别鉴定了总共60,718、271,381和188,795显著的长程相互作用。

以前，在鼠ES细胞中对Pol II进行ChIA-PET，提供用于比较的参考数据集(Zhang,Y.等,Nature 504,306–310(2013))。在检查来自PLAC-seq相互作用区域的原始读取计数后，发现每个染色质接触通常由20至60个独特读取支持。相比之下，在ChIA-PET分析中鉴定的染色质相互作用通常由少于10个独特配对支持(Zhang,Y.等,Nature 504,306–310(2013))(图1e)。接下来，发现Pol II PLAC-seq分析鉴定出比Pol IIChIA-PET更多的相互作用(～60,000相对于～10,000)，10％PLAC-seq与35％ChIA-PET染色体内相互作用重叠(FDR<0.05且PET计数>＝3)(图1f)。为了进一步研究每种方法的灵敏度和准确度，在同一细胞系上进行原位Hi-C，从93～12亿对配对末端测序读取中收集了3亿个独特的长程(>10kb)顺式配对。使用“GOTHiC”，鉴定了464,690个远程染色质相互作用。结果发现，Pol II PLAC-seq中发现的94％的染色质相互作用与28％的原位Hi-C相互作用重叠，而通过ChIA-PET检测到的44％的接触匹配不到2％的原位Hi-C接触(图1g)。还检查了H3K27ac和H3K4me3PLAC-seq相互作用，发现由这两个标记物鉴定的相互作用一起重新获得68％的原位Hi-C相互作用(图1h)。此外，观察到与ChIA-PET相比，PLAC-seq相互作用通常对调控元件(例如启动子)和远端DNA酶I过敏性位点(DHS)具有更高的覆盖率(图1i)。总之，上述公开内容支持PLAC-seq优于ChIA-PET的优异灵敏度和特异性。

为了进一步验证PLAC-seq的可靠性，在四个选定区域进行了4C-seq分析(表2)。

尽管通过ChIA-PET和PLAC-seq方法独立地检测到大多数相互作用(图1j，左图和图5b)，但是通过4C-seq确定存在三种强相互作用通过PLAC-seq检测到而不是ChIA-PET(图1j中标记为1、2、3)。相反，通过ChIA-PET唯一检测到染色质相互作用的情况，但未从4C-seq观察到(图5b中由右侧矩形突出显示)，再次支持PLAC-seq优于ChIA-PET的性能。检查了H3K4me3和H3K27ac PLAC-seq数据集以研究鼠ES细胞中的启动子和活性增强子相互作用。与原位Hi-C相互作用相比，PLAC-seq相互作用及相应的ChIP-seq峰高度富集(图2a)。由于染色质免疫沉淀，与原位Hi-C相比，富集允许进一步探索PLAC-seq中特异性富集的相互作用。鉴定这种相互作用可以了解与特定蛋白质或组蛋白标记物相关的高阶染色质结构。为了实现这点，使用二项式测试开发了计算方法，以检测在PLAC-seq中相较于原位Hi-C显著富集的相互作用。这种类型的相互作用被称为“PLACE”(PLAC富集)相互作用。分别鉴定了鼠ES细胞中总共28,822和19,429个显著的H3K4me3或H3K27ac PLACE相互作用(q<0.05)(图4和图5)。26％的H3K27ac PLACE相互作用与19％的H3K4me3PLACE相互作用重叠，表明它们含有不同的染色质相互作用组(图2b)。大多数H3K27ac PLACE相互作用为增强子相关的相互作用(74％)，而H3K4me3PLACE相互作用通常与启动子相关(78％)(图2c)。H3K27ac和H3K4me3PLACE相互作用之间的差异导致进一步研究这两种类型的相互作用。检测了与H3K27ac和H3K4me3PLACE相互作用相关的基因的表达水平，并确定参与H3K27ac PLACE相互作用的基因具有比与H3K4me3PLACE相互作用相关的基因显著更高的表达水平(P<2.2e-16，图2d)，表明前一种方法可以用于发现活性增强子处的染色质相互作用。

表2

实施例

材料和方法

细胞培养和固定。F1Mus musculus castaneus×S129/SvJae鼠ESC系(F123系)是来自Rudolf Jaenisch博士实验室的赠送，之前在Gribnau,J.,等,Genes&development 17,759–773(2003)中描述。如先前在Selvaraj,S.等,Nat.Biotechnol.31,1111–1118(2013)中所述的，培养F123细胞。在固定之前，在0.1％明胶包被的无饲养板上将细胞传代一次。

对于经固定的细胞，在accutase处理后收获细胞并在没有Knockout SerumReplacement的培养基中以1×10⁶细胞/1ml的浓度将其悬浮。添加无甲醇的甲醛溶液至最终浓度为1％(v/v)并在室温下旋转15分钟。在室温下旋转5分钟，通过添加2.5M甘氨酸溶液至最终浓度0.2M淬灭反应。通过在4℃以3,000rpm离心5分钟沉淀细胞，并用冷PBS洗涤一次。通过离心将经洗涤的细胞再次沉淀，在液氮中快速冷冻并在-80℃下储存。

PLAC-seq方案。PLAC-seq方案包括三部分：原位邻近连接，染色质免疫沉淀或ChIP，生物素下拉，然后文库构建和测序。原位邻近连接和生物素下拉过程类似于先前公布的原位Hi-C方案(Rao,S.S.P.等,Cell 159,1665–1680(2014))，存在如下所述的微小修改：

1.原位邻近连接。将0.5至5百万交联的F123细胞在冰上解冻，在冷裂解缓冲液(10mM Tris，pH8.0，10mM NaCl，含蛋白酶抑制剂的0.2％IGEPAL CA-630)中裂解15分钟，然后用裂解缓冲液进行洗涤步骤一次。然后将细胞重悬于50μl 0.5％SDS中，并在62℃下孵育10分钟。通过添加25μl 10％Triton X-281100和145μl水来淬灭透化，并在37℃下孵育15分钟。在添加NEBuffer2至1x和100单位MboI后，在热混合器中于37℃下消化2小时，以1,000rpm振荡。在62℃下灭活MboI 20分钟后，于37℃下在添加dCTP、dGTP、dTTP、生物素-14-dATP(Thermo Fisher Scientific)各15nmol和40单位Klenow之后，在热混合器中进行生物素填充反应1.5小时。于室温下以缓慢旋转在总体积为1.2ml的含有1×T4连接酶缓冲液、0.1mg/ml BSA、1％Triton X-100和4000单位T4连接酶(NEB)中进行邻近连接。

2.ChIP。在邻近连接之后，将细胞核以2,500g离心5分钟，弃去上清液。然后将细胞核重悬于含有蛋白酶抑制剂的130μl RIPA缓冲液(10mM Tris，pH 8.0，140mM NaCl，1mMEDTA，1％Triton X-100,0.1％SDS，0.1％脱氧胆酸钠)中。将细胞核在冰上裂解10分钟，然后使用Covaris M220进行超声处理，设定如下：功率，75W；占空比，10％；每次爆发周期，200；时间，10分钟；温度，7℃。超声处理后，通过以14,000rpm离心20分钟澄清样品并收集上清液。将透明细胞裂解物与蛋白G Sepharose珠(GE Healthcare)混合，然后在4℃下旋转进行预清除。3小时后，收集上清液并保存约5％的裂解物作为输入对照。将剩余的裂解物与2.5μg的H3K27Ac(ab4729，ABCAM)，H3K4me3(04-745，MILLIPORE)或5μgPolII(ab817，ABCAM)特异性抗体混合，并在4℃下孵育过夜。第二天，添加0.5％BSA封闭的蛋白G琼脂糖珠(前一天制备)并在4℃下再旋转3小时。通过以2,000rpm离心1分钟收集珠，然后用RIPA缓冲液洗涤三次，高盐RIPA缓冲液(10mM Tris，pH 8.0，300mM NaCl，1mM 1EDTA，1％Triton X-100，0.1％SDS，0.1％脱氧胆酸钠)两次，LiCl缓冲液(10mM Tris，pH 8.0，250mM LiCl，1mMEDTA，0.5％IGEPAL CA-630,0.1％脱氧胆酸钠)洗涤一次，TE缓冲液(10mM Tris，pH 8.0,0.1mM EDTA)洗涤两次。首先在37℃下用提取缓冲液(10mM Tris，pH 8.0,350mM NaCl，0.1mM EDTA，1％SDS)中的10μg RNA酶A处理经洗涤的珠1小时。然后添加20μg蛋白酶K并在65℃下进行反向交联过夜。通过苯酚/氯仿/异戊醇(25:24:1)提取和乙醇沉淀纯化经片段化的DNA。

3.生物素下拉和文库构建。根据原位Hi-C方案进行生物素下拉，存在以下修改：1)每个样品使用20μl Dynabeads MyOne链霉抗生物素蛋白T1珠，而不是每个样品150μl；2)为了使PLAC-seq文库复杂性最大化，通过qPCR确定文库扩增的最小PCR循环数。

PLAC-seq和Hi-C读取作图。开发了生物信息学管道以对PLAC-seq和原位Hi-C数据作图。首先使用BWA-MEM(Li H.比对序列读取，克隆序列和装配重叠群与BWA-MEM.arXiv：1303.3997v2(2013))在两端分别各自采用默认设置的单端模式下相对于参照基因组(mm9)对配对末端序列作图定位。接下来，独自作图的末端配对，并且仅在两端中的每一个唯一作图时保持配对(MQAL>10)。由于本研究中重点是染色体内分析，因此丢弃了染色体间配对。接下来，如果距离最近的MboI位点超过500bp的任一端被作图，则进一步丢弃读取配对。接下来，基于基因组坐标对读取对进行分类，然后使用Picard工具中的MarkDuplicates进行PCR重复去除。最后，如果作图对的插入大小分别大于默认阈值10kb或小于1kb的给定距离，则将作图配对划分为“长程”和“短程”。

PLAC-seq可视化。对于每个给定的锚定点，首先提取相互作用读取对，其中一端落在锚定区域中，另一端位于其外侧。接下来，围绕锚定点的2MB窗口被分成一组500bp的非重叠区间。将侧翼读取延伸至2kb，然后计数来自PLAC-seq和原位Hi-C实验的每个区的覆盖度。读取计数然后归一化为RPM(每百万读取)，最后归一化的PLAC-seq信号是处理和输入之间的减法。

PLAC-seq和原位Hi-C相互作用鉴定。“GOTHiC”(Schoenfelder,S.等,GenomeRes.25,582–597(2015))用于鉴定PLAC-seq和具有5kb分辨率的原位Hi-C数据集中的远程染色质相互作用。为了鉴定最有说服力的相互作用，如果其FDR<1e-20且读取>20，则认为相互作用是显著的。总共，在鼠ES细胞中通过Pol II、H3K27ac、H3K4me3PLAC-seq中鉴定出60，718、271，381、188，795个显著的长程相互作用，通过原位Hi-C鉴定出464,690个显著的长程相互作用。

相互作用重叠。如果每个相互作用的两端相交至少一个碱基对，则将两个不同的相互作用定义为重叠的。

PLACE相互作用的鉴定。从ENCODE(Shen,Y.等,Nature 488,116–120(2012))下载鼠ES细胞的H3K4me3/H3K27ac/Pol2ChIP-seq峰。每个峰值扩展到5kb作为锚定点。通过使用原位Hi-C作为背景相互作用频率的估计的精确二项式测试来鉴定PLAC-富集(PLACE)相互作用。更详细地，对于每个锚定区域i，首先计算与用于PLAC-seq和原位Hi-C的锚定区域total_treat_i读取和total_input_i读取具有一端重叠的读取对的数量。接下来，重点是在锚定点两侧的2MB窗口，并将该区域划分为一组重叠的5kb区，步长为2.5kb。简而言之，读取对是锚定区域i和区j之间伪连接结果的概率可以估计为：

P_ij＝input_ij/total_input_i

然后，可以通过二项式密度计算在i和区j之间观察PLAC-seq中的treat_ij读取对的概率：

接下来，将二项式P值小于1e-5的区识别为候选者。以每个候选者为中心，选择1kb、2kb、3kb、4kb窗口并分别计算倍数变化，然后将具有最大倍数变化的峰值定义为相互作用：

F_max＝max(F_1K,F_2K,F_3k,F_4k)

重叠的相互作用被合并为一个相互作用，并且基于合并的相互作用重新计算二项式P。接下来，将得到的P值校正为q值，以考虑使用Bonferroni校正的多个假设检验。最后，q值小于0.05的相互作用被报告为显著的相互作用。

Hi-C和PLAC-seq关联图可视化。在去除所有的小于10kb的反式读取和顺式读取对后，使用Juicebox使原位Hi-C或PLAC-seq关联图可视化(Durand，N.C。等，Cell Systems 3,99-101(2016))。

4C验证。如先前van de Werken,H.J.G.等在Nucleosomes,Histones&ChromatinPart B 513,89–112(Elsevier,2012)中所述的，进行4C实验。使用的限制酶和用于PCR扩增的引物序列列于表2中。使用4Cseqpipe以invan de Werken,H.J.G.等,Nat.Methods 9,969–972(2012)中描述的方式进行数据分析。

原位Hi-C。F123如先前在Rao,S.S.P.等,Cell 159,1665–1680(2014)中所述的，进行原位Hi-C，F123细胞数量为500万。

前述实施例和优选实施方案的描述应视为说明性的，而不是限制由权利要求书限定的本发明。容易理解的，在不脱离如权利要求书中所阐述的本发明的情况下，可以利用上述特征的许多变化和组合。这些变化方案不视为脱离本发明的范围，并且所有这些变化方案旨在包括在所附权利要求书的范围内。本文引用的所有参考文献均通过引用整体并入本文中。

序列表

<110> 路德维格癌症研究有限公司

Ren, Bing

Yu, Miao

Fang, Rongxin

<120> 染色质相互作用的全基因组鉴定

<130> 084276.00211

<150> 62/383,112

<151> 2016-09-02

<150> 62/398,175

<151> 2016-09-22

<160> 8

<170> PatentIn version 3.5

<210> 1

<211> 43

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 1

tccctacacg acgctcttcc gatctattgc ctctgataag tac 43

<210> 2

<211> 52

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 2

gtgactggag ttcagacgtg tgctcttccg atctatgaca gccccagccc at 52

<210> 3

<211> 45

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 3

tccctacacg acgctcttcc gatctagaca agcctcagtt ggatc 45

<210> 4

<211> 54

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 4

gtgactggag ttcagacgtg tgctcttccg atctatccca aggctacatc atta 54

<210> 5

<211> 45

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 5

tccctacacg acgctcttcc gatctgggag tcatggaaac tgatc 45

<210> 6

<211> 53

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 6

gtgactggag ttcagacgtg tgctcttccg atctttgata gtaacaaggc ccc 53

<210> 7

<211> 45

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 7

tccctacacg acgctcttcc gatctattct tcttctgaaa ggatc 45

<210> 8

<211> 54

<212> DNA

<213> 人工

<220>

<223> 合成

<400> 8

gtgactggag ttcagacgtg tgctcttccg atctatttta gcggaagact caca 54

Claims

1.用于细胞中染色质相互作用的全基因组鉴定的方法，包括：提供含有具有基因组DNA的一组染色体的细胞；

用固定剂孵育所述细胞或其细胞核以提供包含具有与蛋白质交联的基因组DNA的复合物的经固定的细胞；

对所述经固定的细胞的所述基因组DNA进行邻近连接以形成经邻近连接的基因组DNA；

从所述细胞中分离所述复合物以提供DNA文库；以及

对所述DNA文库进行测序。

2.根据权利要求1所述的方法，进一步包括在分离步骤之前剪切所述邻近连接的基因组DNA。

3.根据权利要求2所述的方法，其中剪切通过超声处理进行。

4.根据权利要求1至3中任一项所述的方法，其中所述固定剂为甲醛、戊二醛、福尔马林或其混合物。

5.根据权利要求1至4中任一项所述的方法，其中所述邻近连接为通过以下方法进行的原位连接：

透化所述经固定的细胞；

片段化所述基因组DNA，以及

用带标记的核苷酸进行带标记的核苷酸填充，并

连接所述基因组DNA以形成经邻近连接的基因组DNA。

6.根据权利要求1至5中任一项所述的方法，其中在邻近连接步骤之前，使含有具有基因组DNA的一组染色体的细胞或其细胞核裂解。

7.根据权利要求5所述的方法，其中片段化步骤通过使用酶的限制性消化进行。

8.根据权利要求7所述的方法，其中所述酶为4-切割物或6-切割物。

9.根据权利要求5所述的方法，其中所述带标记的核苷酸是经标签标记的。

10.根据权利要求9所述的方法，其中所述标签为生物素。

11.根据权利要求1至10中任一项所述的方法，还包括在分离步骤之后且在测序步骤之前从所述复合物中下拉所述基因组DNA。

12.根据权利要求1至11中任一项所述的方法，其中使用特异性结合所述蛋白质的抗体通过免疫沉淀分离所述复合物。

13.根据权利要求12所述的方法，其中所述蛋白质为转录因子。

14.根据权利要求1至13中任一项所述的方法，其中所述细胞为哺乳动物细胞或源自组织。

15.用于进行根据权利要求1、5或6所述的方法的试剂盒，包含选自以下的一种或更多种试剂：固定剂、限制性内切核酸酶、连接酶、DNA结合蛋白、带标记的核苷酸、捕获剂、抗体或其抗原结合部分、衔接子寡核苷酸和/或测序引物、裂解缓冲液、dNTP、聚合酶、多核苷酸激酶、连接酶缓冲液和PCR试剂以及生物样品。

16.根据权利要求15所述的试剂盒，其中所述捕获剂为链霉抗生物素蛋白。