CN108300767B

CN108300767B - 一种核酸复合体中核酸区段相互作用的分析方法

Info

Publication number: CN108300767B
Application number: CN201810136518.6A
Authority: CN
Inventors: 陈阳; 梁征宇; 李贵鹏; 钱敏平; 张奇伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-10-27
Filing date: 2018-02-09
Publication date: 2021-08-20
Anticipated expiration: 2038-02-09
Also published as: WO2019080940A1; CN108300767A; US20210010062A1

Abstract

本发明涉及一种核酸复合体中核酸区段相互作用的分析方法，本发明具体采用识别四碱基位点的限制性内切酶进行酶切，后续配合采用两步连接法，整体流程简便易行，实现了对核酸相互作用区段的高效和高灵敏度的检测。

Description

一种核酸复合体中核酸区段相互作用的分析方法

技术领域

本发明属于核酸相互作用分析领域，涉及一种核酸复合体中核酸区段在三维空间中的相互作用分析方法。

背景技术

经过多年的研究，人们对染色质三维结构的认知逐渐加深，包括DNA通过层次化地折叠逐步形成染色质纤维、拓扑结构域(TADs)以及活跃/失活室区化(A/B compartment)。拓扑结构域等大尺度的染色质结构在哺乳动物早期胚胎发育的建立，以及细胞周期中的动态变化得到初步的研究。越来越多的证据表明在更为精细的染色质结构上，结构性蛋白和转录因子在维持染色质相互作用和调控染色质构象变化起到重要的作用。为了直接捕获并探究这类精细的染色质相互作用，人们开发了全基因组染色质构象捕获(high-throughputchromosome conformation capture,Hi-C)以及多种Hi-C的变形技术，主要分为两大类：第一类是基于染色质免疫共沉淀(Chromatin Immunoprecipitation,ChIP)的技术体系，其原理是利用抗体捕获特定蛋白所介导的染色质相互作用，例如ChIA-PET(ChromatinInteraction Analysis by Paired-End Tag Sequencing)和HiChIP。但这类方法需要使用高达百万的细胞用量和特异的抗体富集，难以适用少量细胞体系和转录因子体系。第二类是基于探针捕获、富集特定DNA序列，得到与该序列相互作用的染色质结构，比如CaptureHi-C。但这类方法需要针对已知的DNA位点设计探针，对于相似序列区分度大大降低。由于上述技术内在缺陷的存在，人们亟需更为简便高效的方法用于具有较为复杂结构的核酸复合体中核酸相互作用的研究。

发明内容

本发明的目的即在于提供一种更为高效敏感的用于检测核酸复合体相互作用，特别是染色质相互作用，以及染色质中核酸区段相互作用的方法。申请人经过大量深入的研究最终发现，如果用限制性内切酶HaeIII取代传统的MboI酶进行染色质的片段化，虽然识别四碱基序列GGCC的HaeIII在人基因组上的整体平均切割长度为342bp，与传统Hi-C中使用的MboI酶的平均切割长度401bp相接近，但HaeIII的切割位点与结合蛋白(如RNAPII、CTCF或者DNase)之间的距离相比于MboI却要显著更短，这种特性将极大便利于结合蛋白所结合的DNA序列的分离和鉴定，其效率远超传统的Hi-C技术。不仅如此，申请人还独创性的引入了桥接片段用于酶切后近邻DNA片段分子末端的连接，大大增加了“结合蛋白-DNA”复合体内部DNA片段的连接概率，显著增加了蛋白质介导的染色质结构，最大限度的排除了非结合DNA之间的连接带来的假阳性结果。

在第一个方面，本发明提供了一种用于分析处于核酸复合体中的两个或更多个核苷酸区段之间相互作用的方法，其包括下列步骤：

(1)提供包含核酸复合体的样品；

(2)将步骤(1)获得的样品暴露于具有如下特征的限制性内切酶：其识别位点位于至少一个所述核苷酸区段的内部或者附近，进行酶切处理；

(3)对步骤(2)经限制性内切酶消化的样品进行连接操作；

(4)确定步骤(3)所得样品中经连接的两个或更多个核苷酸区段的序列。

在一个实施方式中，步骤(1)包括对所述样品进行交联处理的操作，所述的交联处理优选采用交联剂的方式进行。

具体的，交联剂优选为戊二醛、甲醛、环氧氯丙烷及甲苯二异氰酸酯，更优选为甲醛；

任选的，所述交联为原位交联。

在另一个实施方式中，所述两个或更多个核苷酸区段可以是遗传调控序列，所述遗传调控序列优选是启动子、绝缘子、增强子序列。

在另一个实施方式中，所述两个或更多个核苷酸区段分别与一个或多个结合蛋白结合，所述结合蛋白优选转录因子、增强子结合蛋白、RNA聚合酶、CTCF。

在另一个实施方式中，所述限制性酶优选为识别四碱基序列的限制性内切酶，更优选的选择识别位点为CCTC和/或GGCC的限制性酶，最优选为HaeIII或Mnl1。

在一个实施方式中，其中步骤(3)的连接采用桥接片段将酶切后的不同核酸片段(如空间上临近的)进行连接，所述桥接片段是指将不同核酸片段的末端连接起来的一段接头序列。

在一个实施方式中，桥接片段是双链核酸。

所述桥接片段长度优选为10-60bp、15-55bp、20-50bp、25-45bp或30-40bp，例如15bp、16bp、17bp、18bp、19bp、20bp、21bp、22bp、23bp、24bp、25bp、26bp、27bp、28bp、29bp、30bp、31bp、32bp、33bp、34bp或35bp，更优选为20bp；

在一个实施方式中，所述桥接片段还可以被一个或者更多个标记物所标记，优选的，所述标记物包括：生物素、荧光素和抗体，更优选为生物素(biotin)；

在一个实施方式中，桥接片段与标记物的连接点位于5’末端、3’末端或者中间区域。

在一个实施方式中，标记物可标记于双链核酸的其中一条链中，或者两条链同时标记。

在一个实施方式中，步骤(4)中确定所述连接片段的序列时使用测序的方法，所述测序方法优选为sanger测序法、第二代测序(高通量测序)、单分子测序和单细胞测序法，更优选为第二代测序法；

在一个实施方式中，步骤(4)在确定所述经连接的两个或更多个核苷酸区段的序列前还包括解交联、核酸纯化、片段化(如通过超声破碎)、富集、构建文库和/或PCR扩增的步骤。

在另一个方面，本发明提供了一种分析一个或多个感兴趣的遗传调控序列与其他核苷酸相互作用的方法，其包括本发明第一个方面中任一方法的步骤。

在另一个方面，本发明提供了一种鉴定与一个或多个感兴趣的遗传调控序列相互作用的核苷酸区段的方法，其包括本发明第一个方面中任一方法的步骤。

在另一个方面，本发明提供了一种确定目标基因表达状态的方法，其包括本发明第一个方面中任一方法的步骤，并分析所述目标基因表达调控序列与其他核苷酸区段相互作用的状态、类型和密度。

在另一个方面，本发明提供了一种改变目标基因表达状态的方法，其包括本发明第一个方面中任一方法的步骤，以及

改变所述目标基因表达调控序列与其他核苷酸区段相互作用的状态、类型和密度。

在另一个方面，本发明提供了一种鉴定调控目标基因表达的试剂的方法，其包括将使样本与一种或多种试剂接触，并且

以及利用本发明第一个方面中任一方法分析与目标基因表达调控相关的两个或更多个核苷酸区段之间的相互作用，并鉴定相比于不添加调控试剂的对照能够改变相互作用的试剂。

在另一个方面，本发明提供了一种生物体遗传物质高级结构的分析方法，其包括本发明第一个方面中任一方法的步骤。

在另一个方面，本发明提供了一种鉴定染色质结构变异的方法，其包括本发明第一个方面中任一方法的步骤。

在另一个方面，本发明提供了一种用于鉴定生物体遗传物质高级结构的调控试剂的方法，其包括：使样品与一种或多种作用调控试剂相互接触，以及

利用本发明第一个方面中任一方法所述的步骤分析两个或更多个核苷酸区段之间的相互作用，并鉴定相比于不添加调控试剂的对照组，核苷酸区段相互作用发生改变的调控试剂。

在另一个方面，本发明提供了一种构建染色质相互作用分析的测序文库的方法，其包括本发明第一个方面中任一方法所述的步骤(1)-(3)，随后进行步骤(5)：释放连接片段，进而构建测序用DNA文库。

在另一个方面，本发明提供了一种鉴定核酸-蛋白复合体的方法，其包括本发明第一个方面中任一方法的步骤，并且根据核苷酸区段相互作用的结果以及核苷酸区段与蛋白质结合的信息，鉴定核酸-蛋白复合体。

在另一个方面，本发明提供了一种鉴定蛋白-蛋白复合体的方法，其包括本发明第一个方面中任一方法的步骤，并且根据核苷酸区段相互作用的结果以及核苷酸区段与蛋白质结合的信息，鉴定蛋白-蛋白复合体。

在另一个方面，本发明提供了一种基因转录调控序列之间相互作用的鉴定方法，其包括本发明第一个方面中任一方法的步骤，并且进一步分析位于启动子、增强子区域的核苷酸序列相互作用的种类、数量和/或密度。

在另一个方面，本发明提供了一种染色质拓扑相关结构域TAD边界稳定性的判断方法，其包括本发明第一个方面中任一方法的步骤，并分析CTCF所结合的核苷酸序列之间相互作用的种类、数量和/或密度。

在另一个方面，本发明提供了一种基因组拼装方法，其包括测序，以及本发明第一个方面中任一方法所述的步骤，并通过相互作用的核苷酸区段信息辅助测序片段的定位和拼接。

在另一个方面，本发明提供了一种用于鉴定一种或多种指示特定疾病状态的核苷酸相互作用的方法，其包括本发明第一个方面中任一方法的步骤，其中在步骤(1)中，提供病人和健康样本，显示有差异的核苷酸序列相互作用指示所述相互作用可用于指示特定的疾病状态；所述疾病优选是遗传疾病或癌症。

在另一个方面，本发明提供了一种与染色质结构改变相关的疾病的诊断方法，其包括本发明第一个方面中任一方法的步骤，其中步骤(1)包括提供来自受试者的样品，并根据核苷酸相互作用的结果判断是否可能患有疾病；所述疾病优选是遗传疾病或癌症。

在另一个方面，本发明还提供了用于以上任一方面中任一方法的检测试剂盒。

在另一个方面，本发明提供了一种检测试剂盒，其包括能够识别GGCC和/或CCTC位点的限制性酶和/或用于桥接片段，所述桥接片段长度优选为10-60bp、15-55bp、20-50bp、25-45bp或30-40bp，例如15bp、16bp、17bp、18bp、19bp、20bp、21bp、22bp、23bp、24bp、25bp、26bp、27bp、28bp、29bp、30bp、31bp、32bp、33bp、34bp或35bp，更优选为20bp。所述酶优选为HaeIII或Mnl1。

所述桥接片段优选被标记物所标记，所述标记物优选包括：同位素、生物素(Biotin)、地高辛(DIG)、荧光素(如FITC和罗丹明)和/或探针，最优选为生物素；

所述桥接片段与标记物的连接点可位于DNA的5’末端、3’末端和/或中间区域；

所述试剂盒是测序用试剂盒或建库用试剂盒。

在另一个方面，本发明提供了识别GGCC和/或CCTC位点的限制性酶或前述任一方面的试剂盒用于选自以下的用途：

(1)分析核酸复合体中的两个或更多个核苷酸区段之间相互作用；

(2)分析一个或多个感兴趣的遗传调控序列与其他核苷酸相互作用；

(3)鉴定与一个或多个感兴趣的遗传调控序列相互作用的核苷酸序列；

(4)确定目标基因表达状态；

(5)改变目标基因表达状态；

(6)改变所述目标基因表达调控序列与其他核苷酸序列相互作用

(7)遗传物质高级结构的分析；

(8)鉴定染色质结构变异；

(9)鉴定遗传物质高级结构的调控试剂；

(10)构建染色质相互作用分析的测序文库；

(11)鉴定核酸-蛋白复合体；

(12)鉴定蛋白-蛋白复合体；

(13)鉴定基因转录调控序列之间相互作用；

(14)染色质拓扑相关结构域TAD边界稳定性的判断；

(15)鉴定调控目标基因表达的试剂。

(16)基因组拼装

(17)用于鉴定一种或多种指示特定疾病状态的核苷酸区段相互作用；

(18)用于与染色质结构改变相关的疾病的诊断

(19)制备用于与染色质结构改变相关的疾病的诊断的试剂盒；

(20)制备用于鉴定一种或多种指示特定疾病状态的核苷酸区段相互作用的试剂盒。

在另一个方面，本发明提供了一种用于以上所有方面中的方法的桥接片段，所述桥接片段可以是双链核酸分子，所述核酸分子在其5’末端、3’末端或中间区域的一个或者更多个标记物，具体的，所述标记物可以是：同位素、生物素(Biotin)、地高辛(DIG)、荧光素如FITC和罗丹明以及探针，优选为生物素；具体的，所述核酸分子的长度为10-60bp、15-55bp、20-50bp、25-45bp或30-40bp，例如15bp、16bp、17bp、18bp、19bp、20bp、21bp、22bp、23bp、24bp、25bp、26bp、27bp、28bp、29bp、30bp、31bp、32bp、33bp、34bp或35bp，优选为20bp；具体的，所述核酸分子与标记物的连接点位于核酸分子的5’末端、3’末端或者中间区域；更具体的，所述标记物可位于双链核酸分子的任意一条链上或者同时位于两条链上。

本发明内容仅仅举例说明了要求保护的一些具体实施方案，其中一个或更多个技术方案中所记载的技术特征可以与任意的一个或更多个技术方案相组合，这些经组合而得到的技术方案也在本申请保护范围内，就像这些经组合而得到的技术方案已经在本发明公开内容中具体记载一样。

本发明的方法通过使用特定四碱基识别酶，使识别位点更加接近与所关注的核酸序列，如与维持染色质环的CTCF或者活性转录因子作用的核苷酸区段；而且用桥接片段替代传统in situ Hi-C使用的生物素标记的dCTP(Biotin-14-dCTP)后，由于桥接片段中的生物素标记只需在核酸片段合成过程中引入修饰即可，普通的生物技术公司均可实现，成本低廉。而in situ Hi-C则需要在末端补平过程中加入引入Biotin-14-dCTP，相关试剂非常昂贵。因此利用本发明的方法可以将降低成本至原有的三分之一。本发明的方法在核酸复合体中核酸区段相互作用、例如染色质相互作用研究、药物筛选和染色质相关疾病的诊断方面具有广阔的应用。

附图说明

图1a BL-Hi-C法的整体流程。

图1b BL-Hi-C与in situ Hi-C和HiChiP相比产生读段对的数量比较比较。

图2a BL-Hi-C法、in situ Hi-C和HiCHIP在CTCF和POL2A上峰值的对比结果。

图2b BL-Hi-C法检测到的读段对在启动子、增强子以及异染色质区域的分布，可见BL-Hi-C更多的检测到了活跃的启动子和较强的增强子附近的相互作用，而只有不到50％的读段位于异染色质区。

图2c BL-Hi-C法的读段在转录因子结合区域附近的富集。

图2d BL-Hi-C法与in situ Hi-C在CTCF区域的读段对相对比例分布图。

图2e BL-Hi-C法与in situ Hi-C在CTCF区域具有不同相对数量比例的读段对在基因组位置的分布，由图中可见大部分的分布是在启动子区，而非内含子或基因间区域。

图3a BL-Hi-C和in situ Hi-C所获得的分布于CTCF和II类RNA聚合酶的读段对数量比率图。

图3b BL-Hi-C与in situ Hi-C检测的读段对在染色质区域的分布比较。

图3c BL-Hi-C法与in situ Hi-C在RNAPII区域的读段对相对比例分布图。

图3d BL-Hi-C法与in situ Hi-C在RNAPII区域具有不同相对数量比例的读段对在基因组位置的分布，由图中可见大部分的分布是在启动子区，而非内含子或基因间区域。

图4酶和连接方法的对比。

图5a HaeIII、MboI和HindIII的酶切位点与不同结合蛋白距离的统计分析比较。

图5b一步连接和两步连接的理论模型。

图5c一步连接和两步连接信噪比的模拟计算结果。

图6a BL-Hi-C与in situ Hi-C分别检测到的总染色体环数量比较。

图6b CTCF染色质环(BL-Hi-C和in situ Hi-C共同检测到、BL-Hi-C特异检测到和in situ Hi-C特异检测到)且分别与ChIA-PET公共数据结果一致的数量比较。

图6c RNAPII染色质环(BL-Hi-C和in situ Hi-C共同检测到、BL-Hi-C特异检测到和in situ Hi-C特异检测到)且分别与ChIA-PET公共数据结果一致的数量比较。

图6d在第12号染色体上比较BL-Hi-C、in situ Hi-C与ChIA-PET检测结果的一致性情况。

图6e全基因组水平BL-Hi-C与in situ Hi-C检测到的染色体环的数量比较。

图6f BL-Hi-C和in situ Hi-C对包含β-globin的第11号染色体检测结果的热力图，上图分辨率为10kb，下图的分辨率为1kb。

图6g利用可视化4C技术显示β-globin区域的染色质相互作用检测结果。

图7通过4C-seq技术验证被BL-Hi-C特异检测到的染色质环的结果图。

图8不同四碱基酶切位点在人类和小鼠基因组中的平均分布比较。

图9不同四碱基内切酶在基因组上与启动子、增强子在基因组上的分布距离比较。

图10 K562细胞系中不同的转录因子结合位点附近五百碱基内的四碱基限制性核酸内切酶识别位点的分布情况。

具体实施方式

还可进一步通过实施例来理解本发明，然而，要理解的是，这些实施例不限制本发明。现在已知的或进一步开发的本发明的变化被认为落入本文中描述的和以下要求保护的本发明范围之内。

定义

术语“核酸复合体”是指至少由核酸参与形成的具有一定空间构象的复合物，该空间构象包含核酸的高级结构，例如环和折叠的结构；核酸复合体可以仅由核酸构成，如具有高级结构的DNA或RNA，也可以另外包含其它分子，如蛋白质，因此本发明中的核酸复合体从广义的角度也包含了核酸-蛋白复合体的概念；具体的，染色质(本发明中“染色质”也可以用“染色体”替换)就属于一种核酸复合体。

染色质中最丰富的蛋白质是组蛋白。染色质的结构取决于几个因素。总体结构取决于细胞周期的阶段：在分裂间期期间，染色质是结构上松散的，从而容许接近转录和复制DNA的RNA和DNA聚合酶。分裂间期期间的染色质的局部结构取决于DNA上存在的基因：活跃转录的DNA编码基因是最松散包装的，并且发现它们与RNA聚合酶联合(称为常染色质)，而发现编码无活性基因的DNA与结构蛋白联合，并且是更为紧密包装的(异染色质)。染色质中的结构蛋白的表遗传化学修饰也改变局部染色质结构，特别是通过甲基化和乙酰化对组蛋白蛋白质的化学修饰。由于细胞准备分裂，即进入有丝分裂或减数分裂，染色质更紧密包装以促进后期期间的染色体分离。在真核细胞的细胞核中，分裂间期染色体占据独特的染色体区域。最近，已经鉴定出较大的兆碱基大小的局部染色质相互作用域，称作“拓扑相关结构域(TAD)”，这些域与约束异染色质扩散的基因组区域相关联。所述域在不同细胞类型间稳定并且在物种间高度保守，并且彼此间具有相互作用，也为基因组形成高级结构提供了基础。本发明的方法即非常适合于分析染色质构造及其相互作用。

术语“核苷酸区段”指由不限长度的核苷酸(如脱氧核糖核苷酸)形成的一段连续序列，其可以独立存在，也可以位于更长的一段核酸序列中。

术语“两个或更多个核苷酸区段”是指位于核酸复合体中不同区域的核苷酸区段，被分析的核苷酸区段可以均是未被预先关注的，也可以仅部分核苷酸序列被预先关注，或者所有核苷酸序列均已经被预先关注。所述“预先关注”是指在方法实施之前即被选定作为目标研究对象。当核酸复合体为染色质时，核苷酸区段可以位于同一个染色体内，也可以位于不同的染色体之间。

术语“核苷酸区段之间相互作用”，是指一个核苷酸区段通过直接与另外一个核苷酸区段通过折叠成环等高级结构直接接触或结合，或者是一个核苷酸区段结合一个特定的中介分子(如蛋白质)，该中介分子同时还与另外的一个或更多个核苷酸区段直接接触或结合，或者是一个核苷酸区段结合第一中介分子(如蛋白质)，该中介分子又与与另外的一个或更多个核苷酸区段所结合的第二中介分子(如蛋白质)直接接触或结合，从而实现核苷酸区段之间的相互作用。

术语“核苷酸区段的内部”是指限制性内切酶的识别位点位于核苷酸区段的两端位点之间(含端点)。

术语“核苷酸区段的附近”限制性内切酶的识别位点位于核苷酸区段两端点外侧的一定距离范围内的位置，具体范围可以是1-500bp，50-450bp、100-400bp、150-350bp或200-300bp，优选的距离包括：150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp或350bp。

术语“遗传物质高级结构”指DNA或RNA通过与组蛋白等河内蛋白之间的作用，通过螺旋、折叠、缠绕等过程形成从而形成的在三维空间上较为复杂的构型，如染色质或染色体的结构。

术语“遗传调控序列”指与遗传物质的结构、表达等相关的调节序列，可以包括启动子、增强子、绝缘子，以及其他任意与具有调节功能的结合蛋白相互作用的序列。

术语“其它核苷酸区段”指不同于调控序列的可能与遗传调控序列相互作用的核苷酸区段。

术语“样品”可以是包含DNA的任何物理实体，所述DNA被交联或能够被交联。样品可以是或可以源自生物学材料。

样品可以是或者可以源自一种或多种细胞、一种或多种细胞核、或一种或多种组织样品。实体可以是或者可为可源自存在核酸(如染色质)的任何实体。样品可以是或者可以源自一种或多种分离的细胞或一种或多种分离的组织样品，或者一种或多种分离的细胞核。

样品可以是或者可以源自活细胞和/或死细胞和/或核裂解物和/或分离的染色质。

样品可以是或者可以源自患病和/或非患病受试者的细胞。

样品可以是或者可以源自怀疑患有疾病的受试者。

样品可以是或者可以源自要测试他们将来会患有疾病的可能性的受试者。

样品可以是或者可以源自存活或非存活患者材料。

术语“交联”指利用交联剂将核酸或者核酸与其他分子，例如蛋白质固定的过程。两个或更多个核苷酸区段可以经由交联剂被交联或者利用交联剂与将其与蛋白质交联。与甲醛不同的交联剂也可根据本发明使用，包括那些直接交联核苷酸序列的交联剂。交联剂的例子包括但不限于UV光、丝裂霉素C、氮芥、美法仑(melphalan)、1,3-丁二烯二环氧化物(1,3-butadiene diepoxide)、顺二胺二氯铂(II)和环磷酰胺。

术语“原位交联”属于交联的一种形式，是指经过交联后，核酸本身和/或与其结合的其他分子，例如蛋白质，保留交联前的作用和位置信息，或者相互作用和相对位置信息。

术语“CTCF”即CCCTC结合因子(CCCTC binding factor)，是CTCF基因编码的转录因子。CTCF蛋白在印记调控区域(imprinting control region，ICR)和分化甲基化区域1(differentially-methylated region-1，DMR1)和MAR3结合抑制胰岛素样生长因子2(Igf2)基因的过程中起重要作用。CTCF与靶顺序因子的结合可阻断增强子和启动子的相互作用。从而将增强子的活性限制在一定的功能区域，除了阻断增强子外，CTCF还可作为染色质屏障阻止异染色质的传播，人类基因组有将近一万五千个CTCF绝缘体位点；此外，CTCF在基因调控方面的功能广泛，而且CTCF结合位点还可作为核小体定位锚。

术语“桥接片段”，即Bridge-linker，在本文中指将酶切后不同片段末端连接起来的接头序列。

术语“一步连接”是指不同核苷酸的酶切末端之间直接连接，而不通过接头，因此反应环境中的游离干扰核苷酸序列通过随机碰撞，也可能被连接。

术语“两步连接”指接头(本发明即“桥接片段”)将三维空间上较近的不同核苷酸序列的酶切末端连接起来，减少反应环境中核苷酸序列的随机碰撞，减少游离的干扰序列与目标待分析序列的连接概率，增加特异性。

术语“限制性内切酶”，在本发明中也被称为“限制性酶”、“限制性内切核酸酶”，限制性内切酶是切割DNA的糖-磷酸主链的酶。在大多数实际背景中，给定的限制性酶切割仅几个碱基的区段内的双链体DNA的两条链。

术语“识别位点”即指限制性内切酶在其底物上所识别的核苷酸区段，识别位点的序列和长度随使用的限制性酶而变化，上述识别位点序列的长度在一定程度上决定了酶在DNA的序列中切割的切割频率和切割位点的距离。上述切割位点可能位于识别位点内部，也可以位于识别位点外部若干个核苷酸外，依据酶种类而定。例如，本发明中HaeIII的识别位点是GGCC，其切割位点位于识别位点的内容部，Mnl1的识别位点为CCTC，其切割位点则位于识别位点之外。

“BL-Hi-C”即桥接全基因组染色质构象捕获技术(Bridge-Linker-Hi-C)，在实施例部分用该名称指代本发明的方法，但并不限于实施例中所列举的具体步骤，因此广义上实际上可代指本发明所有方面的方法。

术语“读段对”，即Paired-End Tags，是指经过测序后得到的一个特定的核酸序列片段，本发明中两个或更多个核苷酸区段的连接产物的序列在使用测序的方法时，即可以可选的通过读段对的方式被而被确定。

实施例1标准BL-Hi-C方法(使用HaeIII酶和两步连接)

1、交联。哺乳动物K562细胞(5×10⁴到5×10⁵)在37℃和5％CO₂条件下培养于添加10％胎牛血清的RPMI 1640培养基中，并且用细胞自动记数仪记数。细胞在300g条件下离心5分钟后，取沉淀，用1×PBS洗一遍。随后细胞用新鲜培养基或者PBS重悬，密度最多不超过1.5×10⁶/ml。然后，将37％甲醛溶液加入到培养基或者PBS中至终浓度为1％v/v，室温震荡10分钟。接下来，迅速将2.5M甘氨酸加入至培养基中至终浓度为0.2M，室温震荡10分钟随后冰浴5分钟，从而终止交联反应。接着细胞用300g离心5分钟，用1×PBS清洗两次，从而分离得到交联的细胞。所分离的细胞可以保存在-80℃长达1年。

2、细胞裂解。用添加蛋白酶抑制剂(Complete Protease Inhibitor CocktailTablets,Roche Applied Science,Mannheim,Germany)的含0.1％SDS的BL-Hi-C裂解缓冲液(50mM HEPES-KOH pH 7.5，150mM NaCl，1mM EDTA，1％Triton X-100，0.1％脱氧胆酸钠和0.1％SDS)裂解细胞，4℃处理15分钟，随后800g离心5分钟。重复进行上述步骤一次。随后细胞核进一步用添加蛋白酶抑制剂的含1％SDS的BL-Hi-C裂解缓冲液(50mM HEPES-KOH pH7.5，150mM NaCl，1mM EDTA，1％Triton X-100，0.1％脱氧胆酸钠和1％SDS)4℃处理15分钟，随后3000g离心10分钟。最后，细胞核用添加蛋白酶抑制剂的含0.1％SDS的BL-Hi-C裂解缓冲液洗一遍，-80℃冻存。

3、酶切、连接和DNA纯化。细胞核在62℃下用50微升0.5％SDS溶液重悬处理10分钟，加入145微升双蒸水和10％Triton-X 100至终浓度1％v/v，37℃处理15分钟。接着加入25微升10×NEBuffer 2以及100U HaeIII限制性内切酶(New England Biolabs，Ipswich,MA,USA,R0108L)，摇动下(Thermomixer comfort,eppendorf 900rpm)37℃酶切过夜(至少2小时)。酶切后，添加2.5微升10mM dATP溶液以及2.5微升Klenow片段(3’至5’外切)(NewEngland BioLabs，M0212L)，37℃温育40min，用于DNA末端加A。然后，添加连接缓冲液(750μl ddH₂O，120μl 10×T4DNA连接酶缓冲液[New England BioLabs，B0202S]，100μl 10％Triton X-100,12μl 100×BSA[New England BioLabs，B9001S]，5μl T4DNA连接酶[NewEngland BioLabs，M0202L]和4μl 200ng/μl桥接片段(bridge linker))，并在16℃下振荡4小时用于两步连接。该连接产物在4℃下以3500×g离心5分钟。细胞核被重悬在外切核酸酶混合缓冲液(309μl ddH₂O，35μl Lambda核酸外切酶缓冲液[New England BioLabs，B0262L]，3μl Lambda核酸外切酶[New England BioLabs，B0262L]，3μl核酸外切酶I[NewEngland BioLabs，B0293L])，并在37℃下摇动1小时以除去未连接的桥接片段。为了逆转交联，加入45μl的10％SDS和55μl的20mg/ml蛋白酶K(真菌)(Invitrogen，25530-015)，并在55℃温育至少2小时，通常过夜。然后，加入65μl 5M NaCl(Ambion，AM9759)于68℃孵育2小时。最后，使用标准苯酚:氯仿(pH＝7.9)以及乙醇沉淀法提取DNA，将DNA重悬于130μl洗脱缓冲液(Qiagen Inc.，1014612)中。双链桥接片段由下述两个单链退火形成：

正向链：5P-CGCGATATC/iBIOdT/TATCTGACT(其中iBIOdT指携带生物素标记的T碱基脱氧核糖核苷酸)，和

反向链：5P-GTCAGATAAGATATCGCGT。

所述两个单链核酸序列是由生物公司合成，并且在合成过程中引入生物素(Biotin)修饰。

DNA可以在-20℃储存长达一年。

4、超声和富集。DNA用Covaris S220超声破碎到平均400bp长度，加入2×B&W缓冲液(10mM Tris-HCl,pH＝7.5,1mM EDTA,2M NaCl)，添加40微升M280链霉亲和素磁珠(LifeTechnologies,11205D)并室温摇动吸附15分钟。所述磁珠用2×SSC/0.5％SDS溶液洗涤5遍后，用1×B&W缓冲液清洗两遍。

5、文库构建。使用末端修复缓冲液(75μl ddH₂O，10μl 10×T4DNA连接酶缓冲液，5μl 10mM dNTP，5μl PNK(New England BioLabs，M0201L)，4μl T4DNA聚合酶I(New EnglandBioLabs，M0203L)，1μl Klenow大片段(New England BioLabs，M0210))重新悬浮吸附了DNA的M280链霉抗生物素蛋白磁珠，于37℃下摇动30分钟。然后用600μl1×TWB(5mM Tris-HClpH＝7.5，0.5mM EDTA，1mM NaCl，0.05％吐温20)于55℃洗涤2遍，每次2分钟。随后，将珠子用加A尾缓冲液(80μl ddH₂O,10μl 10×NEBuffer 2，5μl 10mM dATP,5μl Klenow exo-(New England BioLabs,M0212))重悬，37℃摇动30min。然后用600μl1×TWB于55℃下洗涤珠子两次，每次2分钟。然后用50μl 1×Quick Ligase Buffer(New England BioLabs，B2200S)清洗磁珠。然后用快速连接缓冲液(6.6μl ddH₂O，10μl 2×Quick Ligase Buffer，2μl Quick Ligase，0.4μl 20μM Adpator接头)悬浮珠子，随后室温下孵育15min。然后用600μl 1×TWB洗涤珠子于55℃下洗涤两次，各2分钟，以及使用100μl洗脱缓冲液(QiagenInc.，Valencia，CA，USA，1014612)洗涤一次。使用60μl洗脱缓冲液悬浮结合DNA的磁珠，并分成两份，每份30μl。一份用于随后的PCR，另一个存储在-20℃进行备份。双链Adaptor接头由下述两条单链退火形成：

正向链：5P-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC；和

反向链：TACACTCTTTCCCTACACGACGCTCTTCCGATCT。

6、PCR扩增和测序。利用适用于Illumina测序仪的PCR文库引物经9-12个循环直接PCR扩增与磁珠结合的DNA。然后，根据其标准方案，用AMPure XP珠(Beckman Coulter，A63881)纯化DNA以选择300-600bp的片段，并使用20μl ddH₂O而非Elution Buffer溶解DNA。关于DNA的大小选择，加入0.6×体积的AMPure XP珠，并且在磁力分离磁珠之后收集上清液。然后，加入0.15×体积的AMPure XP珠，用磁力分离后收集珠。用新鲜配制的70％乙醇洗涤珠子两次，并用50μl洗脱缓冲液(Qiagen Inc.，1014612)洗脱。通过使用Qubit，Agilent 2100，利用qPCR质量控制后，利用Hiseq 2500(Illumina)(125bp末端配对模块)或者Hiseq X Ten(Illumina)(150bp末端配对模块)对BL-Hi-C文库进行测序。适用于Illumina测序仪的文库PCR引物如下：,

通用引物：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC；和

Index引物：

CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGT。

7.数据分析。(推荐做法)用ChIA-PET2软件进行数据处理，包括用桥接分子去除，将测序读段(reads)比对到基因组上，读段对(paired-end tags)的形成和PCR重复的去除。两步连接的参数如下：-m 1-k 2-e 1-A ACGCGATATCTTATC-B AGTCAGATAAGATAT；

一步连接的参数如下：-m 2-k 2-e 1-A AGCTGAGGGATCCCT–B AGCTGAGGGATCCCT。处理得到的读段对可以用于下游的相互作用的矩阵构建，热图分析，蛋白结合峰的形成以及读段簇的分析等。

下面的步骤8-10根据不同的实验需求选择进行

8.BL-Hi-C富集分析

把BL-Hi-C和公共数据的in situ Hi-C的读段对转化成bed格式的文件用于富集分析，或者直接用软件ChIA-PET2处理的rmdup.bedpe.tag输出文件。接着用bedtools软件寻找和公共染色质免疫共沉淀数据重合的读段对，参数为“bedtools intersect-u”。其中，对于BL-Hi-C和公共的in situ Hi-C(Rao等)，使用公共的K562细胞系的CTCF和RNAPII染色质免疫共沉淀的数据；对于HiCHiP方法，使用公共的GM12878细胞系的数据；对于in situHi-C(Nagano等)用H1hesc细胞系的数据。相同策略也适用于ChromHMM注释信息分析。公共数据库ENCODE中对照组、CTCF和RNAPII染色质免疫共沉淀的预处理bam文件用于富集模式的分析。接着，用软件bedtools计算每组CTCF和RNAPII峰上读段的覆盖度，参数“bedtoolscoverage–sorted”。最后，用软件Homer中的annotatePeaks.pl来计算每组CTCF或者RNAPII峰在基因组元件上的富集情况。

9.BL-Hi-C环分析

共同的染色质环用软件bedtools来检测，参数“bedtools pairtopair–typeboth”，其他的归类到方法特异的染色质环。对于CTCF模体(motif)方向性的分析，相互作用中包含单一ENCODE注释的CTCF模体用于计算四种方向的比例。对于热图分析，BL-Hi-C和insitu Hi-C的相互作用矩阵用测序深度标准化后转化成差相互作用热图。对于可视化4C分析，从原始读段对文件中提取相互作用后，用软件MICC寻找读段簇并计算读段簇之间的深度和相互作用频率，并用WashU Epigenome Browser进行可视化浏览。

10.模型分析

BL-Hi-C数据用ChIA-PET2处理后直接获取读段对和峰值信息，两步连接参数为：-m 1 -t 4 -k 2 -e 1 -l 15 -S 500 -A ACGCGATATCTTATC-B AGTCAGATAAGATAT M"--nomodel-q 0.05-B--SPMR--call-summits，一步连接参数为：-m 2 -t 4 -k 2 – e 1 -l15 -S 500 -A AGCTGAGGGATCCCTCAGCT-B AGCTGAGGGATCCCTCAGCT-M"--nomodel-q 0.05-B--SPMR--call-summits。接着我们计算在每兆读段对时，峰值显示的读段覆盖度，并用软件bedGraphToBigWig转化bed文件成为可视化bedgraph文件。进一步利用软件computerMatrix计算不同酶切情形下的峰值与CTCF或者RNAPII结合位点的距离分布。其中，HaeIII的酶切数据随机抽取35兆用于和MboI、HindIII酶的数据进行比较。

实施例2使用MboI或HindIII酶以及两步连接法的BL-Hi-C

交联，细胞裂解，DNA纯化，超声和富集，文库构建，PCR扩增和测序部分的操作同实施例1中的标准BL-Hi-C方案。对于消化和连接，用50μl 0.5％SDS将细胞核轻柔重悬，62℃温育10分钟。然后，加入145μl ddH₂O和10％Triton-X 100至终浓度为1％v/v，并在37℃温育15分钟。然后，加入25μl 10×NEBuffer 2和100U MboI或HindIII限制酶(New EnglandBioLabs，R0147L或R3104L)，并在37℃下摇动过夜(Thermomixer comfort，eppendorf900rpm)，然后于62℃加热20分钟。然后加入36μl ddH₂O，1.5μl 10mM dNTP，8μl Klenow大片段(New England BioLabs，M0210)，并在37℃下振荡45分钟。然后，将细胞核以2000×g离心5分钟，再用250μl ddH₂O，25μl NEBuffer 2，2.5μl 10mM dATP溶液(New EnglandBioLabs，M0212L)和2.5μl Klenow片段(3'至5'exo-)(New England BioLabs，M0212L)，并在37℃下摇动40分钟加A尾。随后的步骤同实施例1中标准BL-Hi-C方案。

实施例3使用HaeIII酶和一步连接法的BL-Hi-C

交联，细胞裂解，消化，DNA纯化，超声处理和富集，文库构建，PCR扩增和测序部分同实施例1中的标准BL-Hi-C方案。在连接步骤，加入连接缓冲液(735μl ddH₂O，120μl 10×T4DNA连接酶缓冲液[New England BioLabs，B0202S]，100μl 10％Triton X-100，12μl 100×BSA[New England BioLabs，B9001S]，5μl T4DNA连接酶[New England BioLabs，M0202L]和20μl 90ng/μl半桥接片段(half bridge linker)，并在16℃下振荡4小时，从而进行一步连接。连接产物于4℃以3500×g离心5分钟。随后向细胞核加入170μl ddH₂O，20μl 10×T4DNA连接酶缓冲液，10μl T4PNK(New England BioLabs，M0201L)，于37℃下摇动1小时。连接产物于4℃以3500×g离心5分钟。然后，用连接缓冲液(755μl ddH₂O，120μl 10×T4DNA连接酶缓冲液，100μl 10％Triton X-100，12μl 100×BSA，5μl T4DNA连接酶)重悬，并在16℃下摇动4个小时进行一步连接。连接产物在4℃下以3500×g离心5分钟，随后将细胞核悬浮于与标准BL-Hi-C方案相同的外切核酸酶混合缓冲液中。双链半桥接片段由两条单链(正向链：5P-GCTGAGGGA/iBiodT/C；反向链：CCTCAGCT)退火形成。

实施例4与in situ Hi-C以及HiChIP的对比

将实施例1的方法(整体流程同时可参见图1a)和已经发表的in situ Hi-C以及HiChIP进行比较。结果显示实施例1的方法高于60％的测序读段组成单一的读段对(PETs)，效率远高于in situ Hi-C和HiChIP(参见图1b)。其中，通常被认作信噪比的同染色体读段对(图中的Cis Unique PETs)与异染色体读段对(图中的Trans Unique PETs)的比值在三种方法中分别如下：BL-Hi-C为5.83±0.29，in situ Hi-C为2.10±0.98，HiChIP为3.85±0.18。由此可见，实施例1的方法能够更高效率的形成读段对并检测到更多可信的同染色体读段对。

实施例5对DNA结合蛋白结合序列的富集作用

CTCF蛋白和II类RNA聚合酶分别在维持染色质结构和调控增强子-启动子相互作用中发挥重要作用。接下来进一步研究了CTCF和RNAPII的基因组结合峰在染色质构象锚点区域的分布，结果显示相比in situ Hi-C和HiChIP，BL-Hi-C的读段对在CTCF结合峰上有1.3-3.3倍的富集，在RNAP II的结合峰上有2-5.4倍的富集(图2a和3a)。

进一步，我们将BL-Hi-C的读段对映射到ChromHMM注释的具有组蛋白ChIP-seq数据集的染色质区域，发现相对于in situ Hi-C，BL-Hi-C在启动子和增强子区域所检测到的读段对数量是其3倍以上，并且仅有不到50％的读段对定位于异染色质区域(图2b和图3b)。重要的是BL-Hi-C呈现的富集效果和通过CTCF和RNAPII染色质免疫共沉淀的富集效果相接近，强烈地指示BL-Hi-C显著地在CTCF和RNAPII结合位点上富集读段对。

此外，BL-Hi-C读段对在K562细胞系的83类转录因子的结合为点上呈现1-5倍的富集，说明BL-Hi-C的富集方式呈现全局性(图2c)。进一步研究了BL-Hi-C富集的特异性，对CTCF和RNAPII染色质免疫共沉淀的位点按照标准化后BL-Hi-C和in situ Hi-C的读段对堆叠深度进行归类，取log2后以深度倍比大于1，介于1到-1，以及小于-1分为BL-Hi-C高、中和低三类(图2d和图3c)。

接下来研究了这三类比例的CTCF和RNAPII结合位点在基因组特征上的分布，发现BL-Hi-C相对于in situ Hi-C更加富集的位点更加显著地集中在启动子区域，而非内含子区和基因间隔区域(图2e和图3d)。总的来说，BL-Hi-C相比于in situ Hi-C和HiChIP能有效地捕获调控蛋白结合位点，特别是在更加活跃的常染色质区。

实施例6不同的限制性酶(HaeIII，MboI和HindIII)对结果的影响

如实施例2所示的方法，将HaeIII，MboI和HindIII分别应用于两步连接。把BL-Hi-C的测序数据转化成峰并研究和公共数据CTCF和RNAPII染色质免疫共沉淀结合位点的距离分布。结果强烈的表明HaeIII产生的基因组断裂点富集、靠近CTCF和RNAPII的DNA结合位点±1kb的区域，而MboI和HindIII并不富集，说明HaeIII酶切可以显著地增加蛋白质介导的染色质相互作用的富集(图4a和图5a)。

实施例7一步连接和两步连接的比较

基于两步连接的模型(图5b)，通过特定的蛋白复合体而被拉近的DNA片段会更优先与桥接片段连接，而并非有力的DNA片段，而两步连接法相比于一步连接法，可以更加的放大这种优势(图5c)。随后如实施例3的操作，使用相同的HaeIII进行酶切，通过把测序数据转化成峰并检测是否有蛋白质结合，比较一步连接法和两步连接法的效果。可以发现更多的CTCF和RNAPII结合峰被两步连接检测到，说明由桥接引导的两步连接减少DNA的随机碰撞，并增加蛋白质介导的染色质相互作用检测的特异性(图4b)。

实施例8 BL-Hi-C相比于in situ HiC能够检测到更多的染色质环

使用BL-Hi-C法能够从639M的读段中检测到10014个染色质环，相比于in situHi-C从高达1.37B读段仅检测到6057个染色质环，BL-Hi-C的效率显著更高。、进一步的，把上述检测到的染色质环分成三类：两种方法共同检测到的染色质环，BL-Hi-C特异检测到的染色质环和in situ Hi-C特异检测到的染色质环(图6a)。结果表明利用ChIA-PET所检测到的CTCF染色质环和RNAPII染色质环的更多地能被BL-Hi-C所检测到(图6b和图6c)。此外，共同检测到的染色质环更倾向于与CTCF的ChIA-PET检测结果重合(可能代表更多地稳定的染色质结构)，而BL-Hi-C特异检测到的染色质环更多的和RNAPII的ChIA-PET检测结果重合(图6d)。

为了验证BL-Hi-C检测到的特异的染色质环，我们用4C-seq的实验进行验证(图7)。结果显示BL-Hi-C环的锚点和4C-seq的锚点、组蛋白H3K27乙酰化信号位点、DENdb数据库收集的细胞特异性增强子相一致，并且在上述验证的区域内，BL-Hi-C的染色质相互作用的信噪比比in situ Hi-C更高。同时，在全基因组范围内，BL-Hi-C在共同检测到染色质环锚点上产生的读段比in situ Hi-C更高(图6e)，与局部区域的结果相一致。这些结果揭示了BL-Hi-C能更加灵敏地检测结构性和调控性的染色质环。

随后选择了11号染色体上的beta-globin区段，在10kb和1kb两个分辨率水平上，显示BL-Hi-C、in situ Hi-C以及标准化后差值相互作用图谱(图6f)。结果发现BL-Hi-C的信号和活跃的组蛋白修饰(如H3K27ac和H3K4me3)高度相关。进一步放大研究beta-globin区域(6g)，并且用可视化4C的方式研究该区域精细的调控关系，我们发现HS3在5个LCR调控区域最为活跃，并且和活跃的HBE1和HBG的启动子的相互作用比和抑制的HBB和HBD基因的相互作用更强，结果和先前RNAPII的ChIA-PET染色质环的研究相一致。更为重要的是，在仅有一半测序深度的情况下，相比于in situ Hi-C，BL-Hi-C检测到平均3.1倍的功能性染色质相互作用。

实施例9更多内切酶的选择和分析

人类基因组信息的信息存贮单元为四种碱基AGCT的线性组合，理论上连续四碱基序列长度的识别位点由256种组合所构成，而连续六碱基序列长度的识别位点由4096种组合构成。因此，假定基因组的碱基是理想的均匀分布时，每256bp即可出现一个特定的连续四碱基序列识别位点，以及平均4096bp可出现一个特定的连续六碱基序列识别位点。因此，识别四碱基的酶相对于识别六碱基的酶可以提高酶切的分辨率。

为了更精确地研究不同四碱基限制性内切酶酶切位点的实际分布情况，选用人类基因组和小鼠的基因组信息进行分析。其中人类基因组选用hg19版本，22条常染色体加上X和Y染色体的总长度为3095677412bp；小鼠基因组选用mm9版本，19条常染色质加上X和Y染色体的总长度为2654895218bp。以II型限制性核酸内切酶识别回文序列为分析对象，覆盖16种四碱基识别位点组合(图8)。发现四碱基识别位点在基因组上的分布差别很大，AATT、AGCT、ATAT、CATG、TATA、TGCA和TTAA这7种四碱基识别位点的基因组平均长度小于256bp的理论值，而ACGT、CCGG、CGCG、GCGC和TCGA这5种四碱基识别位点的基因组平均长度超过256bp理论值的四倍。这也反映了基因组实际的不均匀性对酶切结果带来的影响。

接下来研究了四碱基识别位点的限制性核酸内切酶在启动子、增强子元件上的分布，发现CTAG、GTAC、GGCC、CGCG、CCTC和CCGG这五种限制性核酸内切酶识别位点的基因组上分布和启动子、增强子在基因组上的分布显著靠近(图9)。

随后研究了K562细胞系中不同的转录因子结合位点附近五百碱基内的四碱基限制性核酸内切酶识别位点的分布情况。结果显示：同一个限制性核酸内切酶识别位点在不同的转录因子结合位点附近出现的频率是相对稳定的，仅在个别转录因子结合位点上具有较大差别差。其中，CCTC、TGCA、GGCC、AGCT这四种限制性核酸内切酶识别位点在转录因子结合位点五百碱基内出现的频率普遍较高，平均超过95％；CATG、AATT、CTAG和GATC这四种限制性核酸内切酶识别位点在转录因子结合位点五百碱基内出现的频率次之，超过90％；而CGCG、TCGA、GCGC、CCGC这四种限制性核酸内切酶识别位点在转录因子结合位点五百碱基内出现的频率偏低，不超过70％(图10)。

Claims

1.一种用于分析处于核酸复合体中的两个或更多个核苷酸区段之间相互作用的方法，其包括下列步骤：

(1)提供包含核酸复合体的样品；

(3)对步骤(2)经限制性内切酶消化的样品进行连接操作；

(4)确定步骤(3)所得样品中经连接的两个或更多个核苷酸区段的序列；

其中步骤(1)所述样品是经过交联处理的；

所述限制性内切酶为HaeIII；

其中步骤(3)的连接为两步连接，所述连接采用桥接片段将步骤(2)酶切处理后的两个不同核酸片段的末端连接到一起，所述桥接片段是指将两个不同核酸片段的末端连接起来的一段双链核酸接头序列，并且所述桥接片段被标记物所标记，所述标记物标记于核酸双链中的任意一条链或者两条链同时被标记物所标记。

2.根据权利要求1所述的方法，所述的交联处理采用交联剂的方式进行，所述交联剂选自戊二醛、甲醛、环氧氯丙烷或甲苯二异氰酸酯。

3.根据权利要求1所述的方法，所述两个或更多个核苷酸区段是遗传调控序列。

4.根据权利要求1所述的方法，所述两个或更多个核苷酸区段分别与一个或更多个结合蛋白结合，所述结合蛋白选自转录因子、增强子结合蛋白、RNA聚合酶和/或CTCF。

5.根据权利要求1所述的方法，所述桥接片段的长度为10-60bp、15-55bp、20-50bp、25-45bp或30-40bp。

6.根据权利要求5所述的方法，所述桥接片段的长度为15bp、16bp、17bp、18bp、19bp、20bp、21bp、22bp、23bp、24bp、25bp、26bp、27bp、28bp、29bp、30bp、31bp、32bp、33bp、34bp或35bp。

7.根据权利要求1所述的方法，所述标记物是：同位素、生物素(Biotin)、地高辛(DIG)、荧光素或探针。

8.根据权利要求7所述的方法，所述荧光素是FITC或罗丹明。

9.根据权利要求1所述的方法，所述桥接片段与标记物的连接点位于桥接片段的5’末端、3’末端或者中间区域。

10.根据权利要求1所述的方法，步骤(4)中确定所述连接片段的序列时使用测序的方法。

11.根据权利要求10所述的方法，其中所述测序方法为sanger测序法、第二代测序、单分子测序和单细胞测序法。

12.根据权利要求1所述的方法，其中步骤(4)在确定所述连接片段的序列前还包括解交联、核酸纯化、片段化、富集、构建文库和/或PCR扩增的步骤。