CN106480178A

CN106480178A - DLO Hi‑C染色体构象捕获方法

Info

Publication number: CN106480178A
Application number: CN201610853896.7A
Authority: CN
Inventors: 曹罡; 林达; 李国亮; 洪萍; 闫科技; 戴金霞; 宋云峰; 李亮; 张冉; 雷莹莹; 何文波
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2016-09-27
Filing date: 2016-09-27
Publication date: 2017-03-08
Anticipated expiration: 2036-09-27
Also published as: CN106480178B

Abstract

本发明公开了一种DLO Hi‑C染色体构象捕获方法，该技术克服了传统染色体构象捕获技术(Hi‑C)噪音大、成本高、实验过程繁琐、成功率低以及数据分析难度大等一系列缺陷，只需要简单的酶切酶连就可以进行实验。本发明的创新点在于:1)使用EGS和甲醛水溶液对目的细胞进行双交联，避免了后期实验过程中解交联的发生；2)实验过程中不需要生物素标记，很大程度上节约了成本；3)用时短，只需要进行简单的酶切酶连步骤，文库2天半时间就可以构建完成；4)数据噪音更小，用page胶通过片段大小选择来回收目的基因互作片段，测序所得数据基本上都是有效数据；5)首次的提出文库质量评价标准，在高通量测序之前就可以判断文库的质量。

Description

DLO Hi-C染色体构象捕获方法

技术领域

本发明涉及染色体构象捕获领域，具体地指一种DLO Hi-C染色体构象捕获方法。

背景技术

自基因组学启动到今天，基因组学的发展经历了两次大浪潮。第一次发展的浪潮是以人类基因组计划为代表的，从90年代初到2003年，该计划对人类基因组进行了测序，定义了人类基因组中的主要基因及其线性结构，同时极大的促进了测序技术的发展，开启了基因组学时代；第二次浪潮是以“人类基因组DNA元件百科全书计划”为代表的，从2003年开始，该计划对人类基因组序列进行了系统的解读和注释，发现了大量的转录序列和基因调控元件，并对基因的表达和染色质状态进行了定义。

有了基因组序列、调控元件和相关的注释以后，研究人员发现，这些离散的调控元件并不能有效地解释很多基因的调控机制和结构。虽然生物的基因组在它们的线性序列中储存了遗传信息，但是基因的正确表达、调控以及基因调控元件之间的相互作用都需要在染色体折叠成复杂的三维结构中完成，因此科学家们面临一个迫切需要解决的问题：基因组中的染色体是如何进行折叠的、基因组上线性距离远的调控元件是如何发生相互作用的。这个问题也是三维基因组学所致力解决的问题，对三维基因组学的研究也预示着基因组学第三次浪潮的到来。

Hi-C技术是基因组三维结构的研究的主要工具之一，它是基于经典的染色体构象捕获技术3C(Chromosome Conformation Capture)发展而来的。经典3C技术原理是先用甲醛固定细胞中的染色质，然后进行内切酶酶切后DNA再连接，这样就能将空间接近的序列片段聚拢在一起，之后通过测序分析这些连接处的特征，获得一张详细的染色质互作图谱。但3C技术聚焦于两个特定位点之间的互作，最终结果是基于观测特异性扩增片段的有无，因此仅能“一对一”的研究基因组中某一特定DNA片段在染色质中与另一特定DNA片段的相互作用。

随着高通量测序技术和生物信息学的发展，人们希望寻求一种方法能够克服3C技术通量低的缺陷，在全基因组的范围内分析染色体互作位点。2009年马萨诸塞大学的JobDekker研究团队首次提出Hi-C的概念。它以整个细胞核为研究对象，运用分子标记与新一代测序(NGS)技术，研究整个染色质中DNA在空间位置上的关系，通过对染色质内全部DNA的全部相互作用模式进行捕获，来获得高分辨率的染色质三维结构信息。

Hi-C主要包括以下步骤：6碱基或4碱基内切酶酶切固定后的染色体；内切酶切口补平、生物素标记；邻近染色体末端连接；未连接的染色体末端去生物素；DNA纯化以及超声波打断；链霉亲和素磁珠特异性分离纯化DNA；DNA片段末端修补以及测序接头连接；高通量测序分析。Job Dekker等人利用Hi-C技术测量了人淋巴细胞染色体中基因座空间交互信息。随后，科学家们利用Hi-C技术构建了果蝇、人及小鼠胚胎干细胞等数个高分辨率三维基因组互作图谱。2014年，来自Baylor医学院、Rice大学、Broad研究所和哈佛大学的科学家们利用Hi-C技术绘制了人基因组空前详细的图谱，展示了2米长的人类基因组在细胞核内的不同折叠方式。研究显示，和我们长期以来的想象不同，细胞可以将基因组折叠成各种不同的形态，进而调节自身的功能。

自Hi-C技术提出以来，已经有了很大的应用，但是其自身存在较多缺陷，其中包括：

1)成本高，需要生物素标记以及链霉亲和素磁珠选择吸附，花费很大，不是一般实验室所能承受的；

2)噪音大，链霉亲和素磁珠会吸附很多杂质DNA片段，导致测序结果有用数据过低；

3)试验过程繁琐，周期长，成功率低，往往要经过几次试验才能得到可用的试验结果；

4)不能对文库进行质量检测，只有测序结果出来后才能对文库的质量进行分析，实验风险性很大；

5)分析难度大，要从海量的数据中去除噪音，对生物信息学分析造成的很大的难度。

发明内容

本发明的目的提供了一种DLO Hi-C(Digestion-Ligation-Only Hi-C)染色体构象捕获方法，该方法采用同时酶切酶连(Simultaneous ligation and digestion)的方式，用高浓度内切酶以及T7DNA连接酶将一个带有MmeI酶切位点的20bp接头(Linker)连接在了染色体内切酶切口的黏性末端上，并采用高速离心的方法去除多余的接头，然后对连有接头的染色体片段进行T4DNA酶邻近酶连、超滤管浓缩、蛋白酶K消化、酚仿抽提，得到纯化后的DLO Hi-C总DNA(Total DNA of DLO Hi-C)，再用MmeI内切酶将DLO Hi-C总DNA进行酶切消化，并用非变性Page胶回收释放出82bp左右的DLO Hi-C片段(DLO Hi-C DNA fragment)，连上illumina高通量测序接头，PCR扩增，最终得到了DLO Hi-C library。本发明只需要简单的酶切酶连就能获取质量远高于传统Hi-C的数据。

为实现上述目的，本发明提供的一种DLO Hi-C染色体构象捕获方法，包括以下步骤：

1)将目的细胞离心，然后用EGS(ethylene glycol bis(succinimidylsuccinate))和甲醛水溶液对目的细胞进行双交联，终止交联反应，离心分离溶解得到两管细胞；

2)分别对步骤1)得到两管细胞进行裂解，提取得到基因组-蛋白复合物A和基因组-蛋白复合物B；

3)选取一种限制性内切酶分别对两管基因组-蛋白复合物A和基因组-蛋白复合物B进行酶切消化，得到酶切产物A和酶切产物B；

4)将酶切产物A和酶切产物B与对应的双链核苷酸序列LinkerA和双链核苷酸序列LinkerB连接，将LinkerA和LinkerB分别连到酶切产物A和酶切产物B的-内切酶粘性末端上；离心分离得到酶连产物A和酶连产物B；其中，双链核苷酸序列LinkerA和双链核苷酸序列LinkerB上均含有内切酶酶切位点，且内切酶酶切位点的识别位点和切割位点不在同一位点上；该步骤的关键为连接采用的是NEB T7 DNA ligase，该连接酶只能连接粘性末端，不能连平末端，因此避免了Linker之间的平末端自连；以HindIII染色体酶切产物为例，对应的Linker上只有HindIII的粘性末端，连在染色体切口上后会灭掉HindIII的酶切位点，不会再被HindIII切开，而若发生染色体切口末端自连，连接形成的HindIII位点会再次被切开，采用同时酶切酶连的方法可以大大的提高连接效率且不会有Linker之间的自连。

5)将酶连产物A和酶连产物B离心沉淀混合悬浮于ddH₂O中，来回吹打溶解，得到DNA-蛋白复合物；

6)向DNA-蛋白复合物中加入T4 DNA ligase buffer、Triton X-100、低熔点琼脂糖和T4 DNA连接酶，待管内琼脂糖凝固后酶连反应8～10h，酶连反应结束后，将离心管置于水浴锅中将低熔点琼脂糖融化，再加入琼脂糖酶消化琼脂糖；浓缩至1ml，再加入SDS水溶液和蛋白酶K消化蛋白解交联，消化结束后酚仿抽提DNA，将提取的DNA溶于ddH₂O中，测定浓度，得到的DNA即为DLO Hi-C总DNA；

7)将DLO Hi-C总DNA用识别位点和切割位点不在同一位点的内切酶进行酶切；酶切反应结束后，点样于非变性Page胶中跑胶分离酶切释放出来长度为70～90bp的DLO Hi-CDNA fragment；跑胶结束后用gel-red染色，并在紫外下切胶回收长度为70～90bp的DLOHi-C DNA fragment；

8)在DLO Hi-C DNA fragment片段上连接高通量测序的测序接头，得到DLO Hi-CPCR模板；

9)以DLO Hi-C PCR为模板设计illumina测序引物对，扩增回收即得到DLO Hi-Clibrary；

10)将DLO Hi-C library进行高通量测序，分析目的细胞中基因组的三维结果。

进一步地，所述步骤1)中，甲醛水溶液的质量分数为1～3％，所述终止剂为甘氨酸，所述溶解所用的溶剂为1×的NEBuffer2.1，两管细胞的细胞数目均为3×10⁶～8×10⁶个。

再进一步地，所述步骤2)中，加入终浓度为1％的SDS，室温裂解细胞及细胞核20min，待溶液变粘稠后，加入1×NEBuffer2.1致终体积为500μl，混合均匀，再加入终浓度为2％的Triton X-100中和SDS；

再进一步地，所述步骤3)中，限制性内切酶为NotI、HindIII、BgII、ClaI、NheI、NdeI、MspI、MboI、XbaI中任意一种；酶切体系为：

基因组-蛋白复合物A或基因组-蛋白复合物B	100-200μl
		酶切Buffer	50μl
限制性内切酶(NEB 100U/μl)	15μl
		水	补充至500μl

酶切条件为，震荡酶切6-8h。

再进一步地，所述步骤4)中，所述双链核苷酸序列LinkerA和双链核苷酸序列LinkerB上均含有内切酶酶切位点为MmeI、Ecop15i、BseRI、BpuEI、BpmI、BsgI、EciI、NmeAIII中任意一种。

再进一步地，所述步骤4)中，所述双链核苷酸序列LinkerA和双链核苷酸序列LinkerB如下所述：

酶连体系如下：

酶切产物A/酶切产物B	500μl
		酶切Buffer	50μl
DTT(1M)	1.5μl
		ATP(100mM)	10μl
限制性内切酶(NEB 100U/μl)	10μl
		T7DNA连接酶	5μl
LinkerA/LinkerB(800ng/μl)	200μl
		ddH₂O	补充至1ml
合计	1ml

酶连反应如下：20℃连接1.5h。

再进一步地，所述步骤6)中，

酶连体系如下：

DNA-蛋白复合物	555μl
		T4DNA ligase buffer	1.2ml
Triton X-100(质量分数为20％)	600μl
		低熔点琼脂糖(质量分数为2％)	4-5ml
T4DNA连接酶(thermo 2U/μl)	200μl
		ddH₂O	补水至12ml
合计	12ml

将上述含有酶切体系的离心管置于冰上20ml，待管内琼脂糖凝固后，将离心管置于20℃酶连反应8-10h。

再进一步地，所述步骤8)中，高通量测序的测序片段命名为Illumina sequenceadapter，其序列为：

PE-adapter1

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNN

TGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA

PE-adapter2

GATCGGAAGAGCACACGTCTGAACTCCAGTCAC

NNCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTG

连接体系如下：

置于16℃酶连反应2～3h。

本发与传统Hi-C方法相比，有益效果在于：

1)本发明的方法使用EGS和甲醛水溶液，避免了后期实验过程中解交联的发生；

2)本发明不需要生物素标记，很大程度上节约了成本；

3)本发明用时短，只需要进行简单的酶切酶连步骤，文库只需要2天半时间就可以构建完成；

4)本发明数据噪音更小，用page胶通过片段大小选择回收DLO Hi-C片段，测序所得数据基本上都是有效数据，并且离心去除多余的Linker的同时，也去除了未结合蛋白的基因组碎片，降低了小片段自环化产生的噪音；

5)本发明能够进行文库质量检测，将连有LinkerA和LinkerB的两份样品混合，再进行T4DNA连接酶邻近酶连，能够根据LinkerA和LinkerB的连接情况来判断文库质量；

6)本发明分析简单，根据Linker的序列信息，大大的降低了噪音去除，数据提取以及后期分析的难度。

附图说明

图1为DLO Hi-C文库构建流程图；

图2为跑胶鉴定HindIII片段化染色体效率图；

图3为利用同时酶切酶连的方式连接MmeI Linker的示意图；

图4为跑胶鉴定Linker连接效率；

图5为跑胶鉴定染色体末端邻近连接效率；

图6为切胶回收80bp DLO Hi-C DNA fragment的跑胶图；

图7为DLO Hi-C library的PCR扩增

图8为DLO Hi-C library的质量控制图；

图9为双酶切鉴定文库质量图；

图10为DLO Hi-C数据分析流程图；

图11为HindIII酶切包含4种Linker有效片段图；

图12为4种Hi-C方法得到K562的热图，图中，图12A为DLO Hi-C得到交互热图、图12B为传统的Hi-C方法的交互热图、图12C为DNase Hi-C得到的交互热图、图12D为In situHi-C得到的交互热图；

图13为由四种Hi-C方法捕获的K562交互之间的皮尔逊相关系数图。

具体实施方式

为了更好地解释本发明，以下结合具体实施例进一步阐明本发明的主要内容，但本发明的内容不仅仅局限于以下实施例。

一DLO Hi-C染色体构象捕获方法

如图1示：DLO Hi-C染色体构象捕获方法，首先用限制性内切酶将染色体酶切消化后，本方法创新性的采用同时酶切酶连(Simultaneous ligation and digestion)的方式，用高浓度内切酶以及T7DNA连接酶将一个带有MmeI酶切位点的20bp接头(Linker)连接在了染色体内切酶切口的黏性末端上，并采用高速离心的方法去除多余的接头，然后对连有接头的染色体片段进行T4DNA酶邻近酶连、超滤管浓缩、蛋白酶K消化、酚仿抽提，得到纯化后的DLO Hi-C总DNA(Total DNA of DLO Hi-C)，再用MmeI内切酶将DLO Hi-C总DNA进行酶切消化，并用非变性Page胶回收释放出82bp左右的DLO Hi-C片段(DLO Hi-C DNA fragment)，连上illumina高通量测序接头，PCR扩增，最终得到了DLO Hi-C library。在该方法中，我们对限制性内切酶以6碱基限制性内切酶HindIII为例进行说明，对后面的酶切接头以MmeI限制性内切酶为例进行说明。

具体方法如下：

1)将细胞离心，用1.5mM EGS和1％的甲醛进行双交联；

2)加入2M的甘氨酸，终浓度为200mM，室温旋转10min，终止交联反应；

3)3000×G离心收集细胞，用1×的NEB buffer2.1洗涤一遍后，再离心重悬细胞于1×的buffer2.1中，按照50μl/管分装细胞，每管细胞数约为5×10⁶个；

4)取A、B两管细胞，分别加入终浓度为1％的SDS，室温裂解细胞及细胞核20min，置于62℃水浴锅水浴5min，待溶液变粘稠后，加入1.2×NEB buffer2.1致终体积为500μl，混合均匀，再加入Triton X-100至终浓度为2％；

5)分别加入15μl高浓度HindIII(NEB 100U/μl)，用枪头混合均匀，置于震荡器中震荡酶切6-8h。酶切结束后两管各取10μl的酶切产物，蛋白酶K消化后提DNA跑胶鉴定酶切效果；如下图2显示，在没有加HindIII的样品中，DNA富集在序列较长的区段；在加HindIII的样品中，成功的染色体酶切产物DNA分布在序列长度很广泛的区域。

如图2显示：确定DNA酶切彻底后，加入DTT、ATP、HindIII内切酶和T7DNA连接酶，采用同时酶切酶连的方法将LinkerA和LinkerB分别连到A，B两管的基因组HindIII切口上如图3所示；

7)同时酶切酶连结束后，A和B两管各取20μl蛋白酶K消化后提取基因组跑胶鉴定Linker连接效率，若Linker连接成功，则会出现如下图4右边的弥散条带，左边是没有加入Linker的同时酶切酶连对照组。

8)将A和B两管同时酶切酶连产物置于离心机中高速离心1.5h，小心的用枪头吸走上清，留沉淀(上清为多余的Linker，沉淀为染色体DNA-蛋白复合物)，再加入1ml PBS，盖上管盖，上下轻柔颠倒润洗几次，再次置于离心机中高速离心1.5h，用枪头小心吸走上清，留沉淀。

9)将A,B两管沉淀混合悬浮于500μl的ddH₂O中，加入55μl10％SDS(SDS终浓度为1％)，用200μl枪头来回吹打溶解沉淀(SDS能断裂蛋白质分子之间的氢键，促进聚集的沉淀溶解)。

10)将555μl的SDS溶解的DNA-蛋白复合物置于15ml离心管中，加入T4 DNA ligasebuffer，终浓度为1％的Triton X-100，终浓度为0.5％的低熔点琼脂糖，T4 DNA连接酶，最后补ddH₂O致终体积为12ml，上下颠倒混匀，再将离心管置于冰上20ml，待管内琼脂糖凝固后，将离心管置于20℃酶连反应8-10h，成功的酶连产物DNA大小分别如图5所示；

11)酶连反应结束后，将离心管置于65℃水浴锅中，待低熔点琼脂糖融化后，加入20μl的琼脂糖酶(Takara)，置于65℃2h消化琼脂糖。

12)消化结束后将10ml的消化产物置于50kd超滤管(外管为50ml)离心浓缩至终体积为1ml左右，加入9ml ddH₂O稀释，再次浓缩至1ml终体积。

13)将浓缩产物置于2ml离心管中，加入浓度为10％的SDS至终浓度为1％，再加入蛋白酶K于60℃3h消化蛋白解交联，消化结束后酚仿抽提DNA，将提取的DNA溶于200μl的ddH₂O中，测定浓度，得到的DNA即为DLO Hi-C总DNA。

14)将回收的DLO Hi-C总DNA用MmeI进行酶切；

15)酶切反应结束后，向酶切产物中加入20μl的甘油，点样于非变性page胶中跑胶分离酶切释放出来80bp左右的DLO Hi-C DNA fragment；

16)跑胶结束后用gel-red染色，并在紫外下切胶回收80bp左右的DLO Hi-C DNAfragment，如图6所示。

其中，page胶回收步骤为：

a.在紫外灯下用手术刀切割大小在80bp左右的DNA条带；

b.先用直径为21-G的针头将0.6ml离心管管底戳一个洞，然后将切下的page胶置于0.6ml离心管中，再将1.5ml的离心管套在0.6ml的离心管外；

c.将1.5ml离心管置于离心机中，14000r/min离心15min，在离心力的作用下，凝胶会通过0.6ml离心管底部的针孔，从而将凝胶挤压成碎末并聚集在1.5ml离心管管底；

d.移去0.6ml的离心管，向1.5ml离心管中加入500ml的TE buffer，置于-80℃冷冻1h后再置于37℃震荡3h，凝胶内的DNA分子会析出并溶解于TE buffer中；

e.将混有凝胶碎末的TE buffer置于2.0ml Spin-X tube filter(Costar Cat#8160)中，14000r/min离心15min，将过滤得到的TE溶液转移到新的2ml的离心管中；

f.加入醋酸钠和助沉淀剂，用酒精从TE buffer中沉淀出DLO Hi-C DNA fragment并溶于40μl ddH₂O中。

17)连接Illumina sequence adapter

PE-adapter1

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNN

TGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA

PE-adapter2

GATCGGAAGAGCACACGTCTGAACTCCAGTCAC

NNCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTG

连接体系如下

置于16℃酶连反应2h。

18)用1.8倍体积的AMPure XP beads根据片段大小选择性回收连有Illuminasequence adapter的DLO Hi-C DNA fragment并去除多余的Illumina sequence adaper，其具体步骤如下：

a.涡旋震荡混匀AMPure XP beads，吸取80μl AMPure XP beads至50μl连接产物中，使用移液器轻轻吹打10次充分混匀，室温孵育5min。

b.将EP管置于磁力架中分离磁珠和液体，待溶液澄清后(约5min)，小心移除上清。

c.保持EP管始终处于磁力架中，加入200μl新鲜配制的80％乙醇漂洗磁珠。室温孵育30秒，再置于磁力架中小心移除上清。

d.重复上一步。

e.保持EP管始终处于磁力架中，开盖空气干燥磁珠10min。

f.将EP管从磁力架中取出，加入40μl灭菌超纯水进行DNA洗脱。涡旋振荡或使用移液器轻轻吹打充分混匀。将反应管置于磁力架中分离磁珠和液体。待溶液澄清后(大约5min)，小心吸取上清至一个新的灭菌EP管中。最后得到的40μl洗脱液即为连有Illuminasequence adapter的DLO Hi-C DNA fragment。

19)用修复混合液(NEB)修补DNA损伤及连接Illumina sequenceadapter所造成的切口。将修复反应体系置于37℃反应20min后再置于室温反应1h，最后得到的50μl体系即为DLO Hi-C PCR模板；

20)取5-10μl DLO Hi-C PCR模板用Illumina测序引物和高保真聚合酶进行PCR扩增。

引物序列如下：

Universal PCR Primer for Illumina

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’

Index 1Primer for Illumina

5’-CAAGCAGAAGACGGCATACGAGAT(index)GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC-3’

扩增循环数控制在15循以下，最后扩增得到的产物即为DLO Hi-C library，成功的DLO Hi-C library扩增产物见图7，用1.4倍体积的AMPure XP beads从PCR产物中回收DLO Hi-C library(回收步骤见18步)。

如图8所示，在第10步进行染色体末端邻近连接时，若发生了有效的分子内连接，则Linker间的LinkerA-LinkerA或者LinkerB-LinkerB连接占绝大部分比例；若发生了随机连接，则LinkerA、LinkerB之间的连接比例是随机没有规律的，因此可以根据DLO Hi-Clibrary中LinkerA-LinkerA或者LinkerB-LinkerB占的比例来判断文库的质量。我们在对Linker进行设计时，若发生LinkerA-LinkerA连接，则在序列的正中间形成一个ClaI的酶切位点，若发生LinkerB-LinkerB连接，则会在序列正中间形成一个HindIII的酶切位点，若发生的是Linker(B-A)或者Linker(A-B)随机连接，不会形成任何酶切位点，因此我们用ClaI和HindIII对DLO Hi-C library进行双酶切，如图9所示，就可以简单方便的判断我们的文库质量。

二DLO Hi-C数据分析

1、DLO Hi-C数据分析流程

1.1接头过滤

上述DLO Hi-C library有效片段长度在78-82bp之间，MmeI的酶切长度在19-21bp。如图11所示，目标DNA序列位于Linker两侧，长度为19-21bp。全长Linker为40bp，将原始序列和Linker进行比对，找出当中至少有34个碱基和Linker序列比对上的候选序列，然后根据比对上的Linker的种类，将序列分为AA，BB，AB和BA4种类型。

1.2序列比对

在候选的4类序列中，根据Linker的位置信息产生序列左右两端对应的序列。在此为了提高比对效率，补全上图中Linker两端对应酶切位点(紫色标示)。例如上图中所使用的酶是HindIII，在此步骤中左端序列AAGCT的末端加上碱基T，右端序列AGCTT的前端加上碱基A。然后用BWA对双端序列分别和参考基因组比对，所使用的参数是-n 0，进一步根据MAPQ值大于等于20筛选出唯一比对的序列，之后用BEDtools将双端都唯一比对的序列合并成bedpe格式文件。

1.3去冗余

在上述处理后得到的交互片段中可能包含由PCR产生的交互序列，这种交互不是真正捕获到的交互，在分析的过程中需要将这部分的序列过滤掉。我们将双端序列都比对到相同位置的片段认为是PCR扩增的过程产生的，仅保留一个比对到相同位置的序列用于后续分析。

1.4去噪

该过程去除的噪音是片段在酶切之后，单个片段两端都为粘性末端，双端接上接头之后自连接形成环，经过MmeI酶切之后形成的线性DNA片段。此部分包含以下三个步骤:

1.4.1标记参考基因组所对应的HindIII酶切片段的位置信息

1.4.2比较序列双端所对应的酶切片段序列号

1.4.3如果双端的序列都位于同一个相同的酶切片段上，将此类序列归类为自连接。去掉这部分序列，将剩余的序列进一步处理。

1.5归一化处理

由于GC含量、酶的偏好性、可比对性等信息对于酶切后获得的交互信息有一定的影响，所以我们要对交互数据进行归一化处理。我们将得到的交互的信息按照基因组划分合适的bins，将片段之间的交互转化为bin之间的交互，进而转化成相应的交互矩阵。然后采用hiclib(Imakaev et al.,2012)中迭代矫正的方法对得到的交互矩阵进行不同分辨率的矫正。

2K562细胞通过DLO Hi-C技术捕获的交互作用

2.1K562细胞的DLO Hi-C数据统计

对K562细胞的测序数据进行统计，统计结果见下表。本次数据为双端测序，长度为150bp，考虑到一端的序列已经包含了我们所有的信息，并且左端的测序质量优于右端。我们在此选取左端的序列进行后续分析。筛选出比对分值大于等于34的Linker序列的比例为78.1％(197,562,663/252,981,479)，即Linker的连接效率为78.1％，其中不同Linker的比例为3％，那么随机连接的噪音占相同Linker连接的比例为3％。

截取有效序然后用BWA将序列比对到hg19，使用参数-n 0。筛选出双端都唯一比对的序列。唯一比对序列占总序列的60％。

3和现有的Hi-C技术进行比较

将DLO Hi-C方法测得的K562细胞得到的交互信息和已发表的传统Hi-C(Lieberman-Aiden et al.,2009),DNase Hi-C(Ma et al.,2014)和in situ Hi-C(Rao etal.,2014)3种方法得到的K562的交互进行比较。

从上表中可以看出，在得到的有效交互片段中，DLO Hi-C方法得到的染色质内部的交互最多，并且在近距离和远距离的交互上，DLO Hi-C主要捕获的是远距离的交互，并且远距离交互比例高于其他三者。

通过K562的热图看出，总体上4种方法得到的交互总体上具有相同的趋势，线性距离越近交互越强，染色质内部交互强于染色质之间的交互。另外分析了，4种方法解析K562细胞的一致性。从交互作用的热图中可以看出DLO Hi-C和in situ Hi-C的皮尔逊相关系数最大，达到0.9334，DLO Hi-C和DNase Hi-C的相关系数最小(图12～13)。

其它未详细说明的部分均为现有技术。尽管上述实施例对本发明做出了详尽的描述，但它仅仅是本发明一部分实施例，而不是全部实施例，人们还可以根据本实施例在不经创造性前提下获得其他实施例，这些实施例都属于本发明保护范围。

Claims

1.一种DLO Hi-C染色体构象捕获方法，其特征在于：

1)将目的细胞离心，然后用EGS和甲醛水溶液对目的细胞进行双交联，终止交联反应，离心分离溶解得到两管细胞；

4)将酶切产物A和酶切产物B与对应的双链核苷酸序列LinkerA和双链核苷酸序列LinkerB连接，将LinkerA和LinkeB分别连到酶切产物A和酶切产物B的-内切酶粘性末端上；离心分离得到酶连产物A和酶连产物B；其中，双链核苷酸序列LinkerA和双链核苷酸序列LinkerB上均含有内切酶酶切位点，且内切酶酶切位点的识别位点和切割位点不在同一位点上；

5)将酶连产物A和酶连产物B离心沉淀混合悬浮于500μl的ddH₂O中，来回吹打溶解，得到DNA-蛋白复合物；

6)向DNA-蛋白复合物中加入T4DNA ligase buffer、Triton X-100、低熔点琼脂糖和T4DNA连接酶，待管内琼脂糖凝固后酶连反应8～10h，酶连反应结束后，将离心管置于水浴锅中将低熔点琼脂糖融化，再加入琼脂糖酶消化琼脂糖；浓缩至1ml，再加入SDS水溶液和蛋白酶K消化蛋白解交联，消化结束后酚仿抽提DNA，将提取的DNA溶于ddH₂O中，测定浓度，得到的DNA即为DLO Hi-C总DNA；

7)将DLO Hi-C总DNA用识别位点和切割位点不在同一位点的内切酶进行酶切；酶切反应结束后，点样于非变性page胶中跑胶分离酶切释放出来长度为70～90bp的DLO Hi-C DNAfragment；切胶回收得到跑胶结束后用gel-red染色，并在紫外下切胶回收长度为70～90bp的DLO Hi-C DNA fragment；

8)在DLO Hi-C DNA fragment片段上连接高通量测序的测序接头，得到DLO Hi-C PCR模板；

9)根据DLO Hi-C PCR模板设计高通量测序引物对，扩增回收即得到DLO Hi-Clibrary；

2.根据权利要求1所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤1)中，甲醛水溶液的质量分数为1～3％，所述终止剂为甘氨酸，所述溶解所用的溶剂为1×的NEBuffer2.1，两管细胞的细胞数目均为3×10⁶～8×10⁶个。

3.根据权利要求1或2所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤2)中，加入终浓度为1％的SDS，室温裂解细胞及细胞核20min，待溶液变粘稠后，加入1×NEBuffer2.1致终体积为500μl，混合均匀，再加入终浓度为2％的Triton X-100中和SDS；

4.根据权利要求1或2所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤3)中，限制性内切酶为NotI、HindIII、BgII、ClaI、NheI、NdeI、MspI、MboI和XbaI中任意一种；酶切体系为：

基因组-蛋白复合物A或基因组-蛋白复合物B 100-200μl 酶切Buffer 50μl 限制性内切酶(NEB 100U/μl) 15μl 水补充至500μl

酶切条件为，震荡酶切6-8h。

5.根据权利要求4所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤4)中，所述双链核苷酸序列Linker A和双链核苷酸序列Linker B上均含有内切酶酶切位点为MmeI、Ecop15i、BseRI、BpuEI、BpmI、BsgI、EciI和NmeAIII中任意一种。

6.根据权利要求5所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤4)中，所述双链核苷酸序列LinkerA和双链核苷酸序列LinkerB如下所述：

酶连体系如下：

酶连反应如下：20℃1.5h。

7.根据权利要求1所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤5)中，SDS水溶液的质量分数为10％，DNA-蛋白复合物中SDS质量分数为1％。

8.根据权利要求1所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤6)中，

酶连体系如下：

9.根据权利要求1所述DLO Hi-C染色体构象捕获方法，其特征在于：所述步骤8)中，高通量测序的测序接头命名为Illumina sequence adapter，其序列为：

PE-adaPter1

ACACTCTTTCCCTACACGACGCTCTTCCGATCTNN

TGTGAGAAAGGGATGTGCTGCGAGAAGGCTAGA

PE-adapter2

GATCGGAAGAGCACACGTCTGAACTCCAGTCAC

NNCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTG

连接体系如下：

置于16℃酶连反应2～3h。