CN109448783B - 一种染色质拓扑结构域边界的分析方法 - Google Patents

一种染色质拓扑结构域边界的分析方法 Download PDF

Info

Publication number
CN109448783B
CN109448783B CN201810890699.1A CN201810890699A CN109448783B CN 109448783 B CN109448783 B CN 109448783B CN 201810890699 A CN201810890699 A CN 201810890699A CN 109448783 B CN109448783 B CN 109448783B
Authority
CN
China
Prior art keywords
cdb
chromatin
cdbs
lri
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810890699.1A
Other languages
English (en)
Other versions
CN109448783A (zh
Inventor
陈阳
陈凤玲
李贵鹏
张奇伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810890699.1A priority Critical patent/CN109448783B/zh
Publication of CN109448783A publication Critical patent/CN109448783A/zh
Priority to PCT/CN2019/099404 priority patent/WO2020029951A1/zh
Application granted granted Critical
Publication of CN109448783B publication Critical patent/CN109448783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及染色质结构的分析方法,具体涉及一种分析染色质拓扑结构域边界的分析方法。

Description

一种染色质拓扑结构域边界的分析方法
技术领域
本发明涉及染色质结构的分析方法,具体涉及一种分析染色质拓扑结构域边界的分析方法。
背景技术
染色质结构及其在基因调控和细胞特性中的作用引起了细胞生物学研究的广泛关注。测序和成像技术的进步进一步使人们在理解染色质结构方面取得飞速的进展。其中,染色质结构中一个最显著的特征就是在Hi-C数据所观察到的染色质相互作用矩阵的对角线上具有增强的接触频率的矩形块,其最早在40Kb分辨率的Hi-C图(Hi-C map)中观测到,并且被命名为拓扑结构域(topologically associating domains,TADs)。拓扑结构域是连续的大片段的染色质折叠缠绕形成的三维结构,并且同一个拓扑结构域内部的染色质相互作用相对富集,而不同的拓扑结构域之间的相互作用则非常少。拓扑结构域同时也是基因组复制时机调控(replication-timing regulatoion)的稳定单元,具有重要的功能。
从结构上,不同的拓扑结构域之间会存在一个边界(contact domainboundaries,CDBs),边界上往往有CTCF蛋白和cohesin蛋白复合体的结合。目前对于CDB的系统研究还相对较少,这也部分是由于灵敏而鲁棒(robust)的CDB检测方法还较为缺乏所导致的。现有技术中已有一些基于Hi-C图的CDB拓扑结构域和CDB的计算方法,例如一维基于统计的方法,包括DI、Insulaton score和TopDom法,这些方法从原理上是通过计算原始染色质接触矩阵每个滑动窗口中的平均染色质相互作用频率来得出针对每个bin的一维统计量。另外还有一部分方法属于基于二维邻接矩阵的方法,其使用了原始染色质邻接矩阵中的全局信息,而并非前述的一维统计量,这些方法包括Armatus、HiCseq、IC-Finder和Arrowhead法等。
然而所有以上方法主要存在以下几个问题:计算复杂度较高,不适合应用在高分辨的Hi-C矩阵;检测拓扑结构域的准确率不高,尤其是灵敏度低等。因此,有必要开发新的检测拓扑结构域的算法。
发明内容
发明人经过深入研究,提供了一种新的检测拓扑结构域的方法,在本发明中该方法也被称为HiCDB。该方法能够快速准确地检测和精细划分拓扑结构域,并且能够精准的寻找差异CDB。
在本发明的第一个方面中,提供了一种染色质拓扑结构域边界(CDB)的识别方法,其包括:
(1)针对至少一个条件下(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个)的目标样本获得至少一次重复(例如1次、2次、3次、4次、5次、6次、7次、8次、9次或10次)的染色质相互作用结果;
(2)利用步骤(1)得到的结果数据获得染色质相互作用矩阵;
(3)给定窗长w,其中w为区间大小的x倍,所述区间大小优选为步骤(1)中染色质相互作用的分析方法的分辨率,优选的,所述区间大小为1kb至1Mb之间,例如10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb和1Mb;x优选为1-50之间的整数,例如1、2、3、4、5、6、7、8、9、10、20、30、40或50,对于位于第k和k+1个区间(bin)之间的每个位点s,计算不同窗口大小下的相对绝缘性RI(w,s),
Figure BDA0001756873820000021
其中,U、D和B分别表示位点s上游、下游以及中间区域的平均染色质相互作用频率,如下式计算:
Figure BDA0001756873820000022
Figure BDA0001756873820000023
Figure BDA0001756873820000024
(4)获得多个(例如2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个或50个)不同窗口大小下的RI值,取均值获得平均RI,如下式所示:
Figure BDA0001756873820000031
(5)检测步骤(4)得到的平均RI的局部峰值,优选的,利用Matlab中的内置函数findpeaks来检测峰值;
(6)计算局部相对绝缘性LRI值,并根据LRI值确定CDB,其中Lower_envelope指平均RI的下包络,通过线性插值拟合RI的局部最小峰值得到;
Figure BDA0001756873820000032
在一个实施方案中,其中步骤(1)中所述染色质相互作用结果是通过Hi-C技术获得的,例如single cell Hi-C、Dilution Hi-C、in situ Hi-C、DNase Hi-C、Capture-C和BL-Hi-C等。
在另一个实施方案中,其中步骤(6)中,当LRI值高于LRI的截止值时,即可被确定为CDB。
在另一个实施方案中,所述LRI截止值可以根据需要自行确定,或者通过下面的步骤确定:
a、根据LRI值的大小对候选CDB进行排序,
b、基于步骤a所述排序依次计算富集分数ES,计算公式如下式所示,其中S表示具有CTCF基序的候选CDB集合;Li表示第i候选CDB;LRIi表示第i候选CDB的局部相对绝缘;Nhit是S中候选CDB的数量,而N表示候选CDB的总数;
Figure BDA0001756873820000041
Figure BDA0001756873820000042
c、选择在最大ES处的LRI作为CDB检测截止值。
在另一个实施方案中,其中步骤(2)中获得的染色质相互作用矩阵还经过KR标准化。
在本发明的第二个方面中,提供了一种差异CDB的分析或检测方法,其包括下列步骤:
i)利用第一个方面所述的方法,针对至少2个条件下(例如2个、3个、4个、5个、6个、7个、8个、9个或10个)目标样本获得各自的CDB信息;
当样本的染色质相互作用结果具有至少2次重复(例如2次、3次、4次、5次、6次、7次、8次、9次或10次)时,
ii)对于每个条件下的数据,合并位于一个区间(bin)内的CDB;随后针对不同重复进行库深度的归一化;
iii)计算每个基因组区间(bin)内不同重复的平均RI;优选的,每次重复使用KR标准化来校正样本内偏差;
iv)每个重复乘以一个用于校正文库大小差异的库深度调整因子(size factor),所述size factor为每个Hi-C重复矩阵总和的平均值除以所有重复的矩阵总和;
v)应用MA归一化校正相同条件的重复之间的系统偏差;
vi)如果两个条件之间的平均RI值的差异高于所有CDB平均RI差异的90%分位数,或者其平均RI值在不同条件之间显著不同(p<0.05,t检验)同时所述差异高于所有CDB的50%分位数,则认为CDB存在差异;相反,则认为不存在差异;
当样本的染色质相互作用结果不存在重复时,进行如下操作:
ii’)对于每个条件下的数据,合并位于一个区间(bin)内的CDB;随后进行库深度的归一化;
iii’)通过交集确定差异CDB。
在本发明的第三个方面中,提供了一种染色质拓扑结构域边界(CDB)的识别系统,其包括:
输入模块:用于输入针对至少一个条件下(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个)的目标样本获得至少一次重复(例如1次、2次、3次、4次、5次、6次、7次、8次、9次或10次)的染色质相互作用结果和/或属于依据所述结果所得到的染色质相互作用矩阵;
优选的,还包括矩阵生成模块:用于基于输入模块所输入的染色质相互作用结果生成染色质相互作用矩阵;以及
计算模块,所述计算模块具体包括:
(a)相对绝缘RI(w,s)计算器:在下述条件下:给定窗口大小w,其中w为区间大小的x倍,所述区间大小优选为用于获得步骤(1)中染色质相互作用结果的方法的分辨率,例如10kb、1Mb等;x优选为1-50之间的整数,例如1、2、3、4、5、6、7、8、9、10、20、30、40或50,对于位于第k和k+1个区间(bin)之间的每个位点s,计算不同窗口大小下的相对绝缘RI(w,s),
Figure BDA0001756873820000051
其中,U、D和B分别表示位点s上游、下游以及中间区域的染色质相互作用频率,如下式计算:
Figure BDA0001756873820000061
Figure BDA0001756873820000062
Figure BDA0001756873820000063
(b)平均RI计算器:获得多个(例如2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个或50个)不同窗口大小下的RI值,取均值获得平均RI,如下式所示:
Figure BDA0001756873820000064
(c)候选CDB生成器:检测平均RI的局部峰值,优选的,利用Matlab中的内置函数findpeaks来检测峰值;
(6)LRI值计算器:计算局部相对绝缘性,并根据LRI值确定CDB,其中lower_envelope指平均RI的下包络,通过线性插值拟合RI的局部最小峰值得到;
Figure BDA0001756873820000065
在一个实施方案中,其中步骤(1)中所述染色质相互作用结果是通过Hi-C技术获得的,例如single cell Hi-C、Dilution Hi-C、in situ Hi-C、DNase Hi-C、Capture-C和BL-Hi-C等。
在另一个实施方案中,其中步骤(6)中,当LRI值高于LRI的截止值时,即可被确定为CDB。
在另一个实施方案中,其还进一步包括LRI截止值确定器:并通过下面的步骤确定的所述LRI截止值:
a、根据LRI度量值的大小对候选CDB进行排序,
b、基于步骤a所述排序依次计算富集分数ES,计算公式如下所示,其中S表示具有CTCF基序的候选CDB集合;Li表示第i候选CDB;LRIi表示第i候选CDB的局部相对绝缘;Nhit是S中候选CDB的数量,而N表示候选CDB的总数:
Figure BDA0001756873820000071
Figure BDA0001756873820000072
c、选择在最大ES处的LRI作为CDB检测截止值。
在本发明的第四个方面中,提供了一种分析CDB差异的系统,其包括第三个方面所述系统中所包括的模块,并且还额外包括CDB差异计算模块,所述模块能够执行下列步骤:
当样本的染色质相互作用结果具有至少2次重复(例如2次、3次、4次、5次、6次、7次、8次、9次或10次)时,
i.对于计算模块所得到的每个条件下的数据,合并位于一个区间(bin)内的CDB;随后针对不同重复进行库深度的归一化;
ii.并且计算每个基因组区间(bin)内不同重复的平均RI;优选的,每次重复使用KR标准化来校正样本内偏差;
iii.)每个重复乘以一个用于校正文库大小差异的库深度调整因子(sizefactor),所述size factor为每个Hi-C重复矩阵总和的平均值除以所有重复的矩阵总和;
iv)应用MA归一化校正相同条件的重复之间的系统偏差;
v)如果两个条件之间的平均RI值的差异高于所有CDB平均RI差异的90%分位数,或者其平均RI值在不同条件之间显著不同(p<0.05,t检验)同时所述差异高于所有CDB的50%分位数,则认为CDB存在差异;相反,则认为不存在差异;
当样本的染色质相互作用结果不存在重复时,进行如下操作:
i’)对于计算模块所获得的每个条件下的数据,合并位于一个区间(bin)内的CDB;随后进行库深度的归一化;
ii’)通过交集确定差异CDB。
在本发明的第五个方面中,提供了一种鉴定调控染色质拓扑结构域或CDB的试剂的方法,其包括将使样本与一种或多种试剂接触,利用第一个或第二个方面所述的方法分析CDB或者CDB差异,以及
鉴定相比于不添加试剂的对照组能够改变CDB的试剂。
在本发明的第六个方面中,提供了一种分析细胞分化、发育或病变过程中遗传物质高级结构改变的方法,其包括本发明第二个方面中所述的步骤。
在本发明的第七个方面中,提供了一种鉴定染色质结构变异的方法,其包括本发明第二个方面中所述的步骤。
在本发明的第八个方面中,提供了一种鉴定能够调控遗传物质高级结构或引起染色质结构变异的调控试剂的方法,其包括将使样本与一种或多种试剂接触,利用本发明第二个方面所述的方法分析CDB差异,以及
鉴定相比于不添加试剂的对照组能够改变CDB的试剂。
在本发明的第九个方面中,提供了一种与染色质结构改变相关的疾病的诊断方法,其包括进行本发明第二个方面的方法所述的步骤,其中样本为来自受试者的样品,并根据CDB差异分析的结果判断是否可能患有疾病;所述疾病优选是遗传疾病或癌症。
在本发明的第十个方面中,提供了一种潜在的与CDB相关的染色质结构蛋白的分析或鉴定方法,其中包括利用第一个方面所述的方法识别CDB位置,并鉴定出在多个CDB中富集的蛋白,即为所述潜在的与CDB相关的染色质结构蛋白。
本发明的方法与现有技术已有的其他方法相比,不但能够检测到数目更多CDB,而且与其他方法的一致性很高,在多次重复样本中结果也具有极佳的重复性。并且在使用计算机实施所述分析方法时,10kb下的全基因组数据只需10分钟即可完成,大大节约了时间并且降低了成本。此外,HiCDB在各个阈值下的CTCF富集程度都是最高的,并且将在10kb分辨率下多于两种方法检测到的染色质边界作为金标准,也可发现HiCDB具有最佳的灵敏性和特异性。
附图说明
图1(A)显示了HiCDB流程。图示区域是从10-kb GM12878Hi-C矩阵中提取的。检测到的CDB在热图中显示为蓝点。其中右上角的小图详细展示了如何计算相对绝缘性。Hi-C图谱下面的图显示了如何计算RI和LRI的过程。(B)AI,RI和LRI之间差异的示意图。CDB1代表具有高AI和高LRI的CDB。CDB2代表在高度连接区域中具有低AI但高LRI的CDB。(C)HiCDB分析的总结。该流程图介绍了其主要功能和顺序操作,该流程可以以软件方式呈现。黄色方块是输入数据,绿色方块表示可选输出。带箭头的曲线表示可选步骤。
图2显示了HiCDB与CDB的现有检测方法之间的比较。(A-B)不同方法之间的一致性。紫色条表示每种方法检测到的CDB总数。蓝色条表示通过任何其他方法确认的CDB数量以及比例。在10kb数据中计算一致性时允许出现一个bin的错误。(C-D)在40kb和10kb数据集中通过不同方法鉴定的CDB处每40kb/10kb的峰数量的聚集。(E-F)通过不同方法各自唯一预测的CDB处每40kb/10kb的峰数汇总。(G)不同方法的可重复性。如果方法具有排序的CDB输出,则在不同的截止值下计算CDB可重复性,否则,方法显示为单个点。通过将重叠的CDB数除以在两个Hi-C重复上检测到的平均CDB数来计算可重复性。在10kb数据中计算可重复性时允许出现一个bin错误。(H)不同染色体的平均运行时间(计算机配置:CPU242.6GHz)。
图3显示了与代表性蛋白质结合位点重叠的CDB的百分比例。在10kb分辨率GM12878数据集中计算的百分比允许一个bin的错误。CTCF、cohesion亚基RAD21和POLR2A均对HiCDB鉴定出的CDB表现出更高的偏好。
图4显示了不同截止值下CDB的CTCF结合百分比。不同方法的总检测到的CDB数量不同,这使得CTCF百分比比较困难。为了公平地比较这些方法,当方法具有排序的CDB输出时,计算了不同截止值下的CTCF结合百分比,而没有排序输出的方法在图中显示为单个点。在不同的截止值下,HiCDB鉴定的CDB具有最高的CTCF结合百分比,这证明了HiCDB的特异性。该图还表明CTCF结合百分比与LRI相关。此外,类似GSEA的截止选项不会偏向CTCF富集在HiCDB检测到的CDB上。在10kb分辨率GM12878数据集中计算的CTCF结合百分比允许一个bin错误。
图5显示了HiCDB对较小规模的CDB的识别。(A)不同方法得到的CDB距离分布。(B)使用在深度测序IMR90样品上的至少两种方法检测的CDB作为金标准,在40-kb IMR90Hi-C图谱中,不同方法检测CDB的性能。(C)对深度测序的GM12878样品代表性区域(chr21:32.30-34.30Mb)使用不同方法检测的比较。
图6显示了Hi-C环锚和CDB的比较。(a)维恩图显示56%的CDB与利用HiCCUPs调出的Hi-C染色质环锚点(anchor)相重叠。此交集允许一个bin错误。(b)bin是基于与CTCF介导的染色质环锚点和POLR2A介导的ChIA-PET环的锚点是否重叠而进行分类。特异性的Hi-C染色质环锚点倾向于由CTCF介导的染色质环控制。
图7显示了CDB的表观遗传特征。(A)GM12878中chr21:42,50-46,50M的整体结构,其中显示了40kb和10kb GM12878数据集中由HiCDB检测到的CDB。与Hi-C环锚不重叠的10kbCDB标记为红色。(B)在两种分辨率下检测到CDB上的TF富集。x轴显示与某些TF结合位点重叠的CDB百分比;y轴显示与随机区域相比,TF结合位点在CDB处的富集情况。
图8GM12878和IMR90的CDB预测结果比较。(A)以差异CDB为中心进行Hi-C图的聚合。Hi-C图显示了细胞类型特异性CDB处的绝缘性变强。(B)细胞特异性活性调节信号中富集的细胞类型特异性CDB。(C)在差异CDB附近的差异表达基因的倍数变化分布。使用Wilcoxon秩和检验计算P值。(D)由HiCDB检测的GM12878和IMR90之间存在的差异区域(chr9:36.50-37.50Mb)。该区域具有B细胞重要调节因子PAX5,其在IMR90中不表达。E1-E3标记了HiCDB检测到的PAX5的三种潜在增强子。
图9显示了由GREAT分析的差异CDB附近的GO term。GREAT的关联区域是基础区域+扩展区域:上游5kb,下游1kb,最大扩展500kb。
具体实施方式
还可进一步通过实施例来理解本发明,然而,要理解的是,这些实施例不限制本发明。现在已知的或进一步开发的本发明的变化被认为落入本文中描述的和以下要求保护的本发明范围之内。
样品
术语“样品”可以是或者可以源自一种或多种细胞、一种或多种细胞核、或一种或多种组织样品。实体可以是或者可为可源自存在核酸(如染色质)的任何实体。样品可以是或者可以源自一种或多种分离的细胞或一种或多种分离的组织样品,或者一种或多种分离的细胞核。
样品可以是或者可以源自活细胞和/或死细胞和/或核裂解物和/或分离的染色质。
样品可以是或者可以源自患病和/或非患病受试者的细胞。
样品可以是或者可以源自怀疑患有疾病的受试者。
样品可以是或者可以源自要测试他们将来会患有疾病的可能性的受试者。
样品可以是或者可以源自存活或非存活患者材料。
术语“条件”可以指某一种样本所处的外部特定环境,所述环境的变化会导致样本内部状态的改变;或者所述条件也可以指代两种或多种不同种类,并且为了实验目的进行比较的样本,每个样本即视为一个条件。
染色质
染色质中最丰富的蛋白质是组蛋白。染色质的结构取决于几个因素。总体结构取决于细胞周期的阶段:在分裂间期期间,染色质是结构上松散的,从而容许接近转录和复制DNA的RNA和DNA聚合酶。分裂间期期间的染色质的局部结构取决于DNA上存在的基因:活跃转录的DNA编码基因是最松散包装的,并且发现它们与RNA聚合酶联合(称为常染色质),而发现编码无活性基因的DNA与结构蛋白联合,并且是更为紧密包装的(异染色质)。染色质中的结构蛋白的表遗传化学修饰也改变局部染色质结构,特别是通过甲基化和乙酰化对组蛋白蛋白质的化学修饰。由于细胞准备分裂,即进入有丝分裂或减数分裂,染色质更紧密包装以促进后期期间的染色体分离。在真核细胞的细胞核中,分裂间期染色体占据独特的染色体区域。
染色质相互作用
染色质相互作用是指一个核苷酸区段通过直接与另外一个核苷酸区段通过折叠成环等高级结构直接接触或结合,或者是一个核苷酸区段结合一个特定的中介分子(如蛋白质),该中介分子同时还与另外的一个或更多个核苷酸区段直接接触或结合,或者是一个核苷酸区段结合第一中介分子(如蛋白质),该中介分子又与与另外的一个或更多个核苷酸区段所结合的第二中介分子(如蛋白质)直接接触或结合,从而实现核苷酸区段之间的相互作用。在本发明中,染色质相互作用也可以被称为染色质环,
Hi-C是检测染色质空间构象的关键技术,基于Hi-C技术又演变出了多种染色质相互作用的分析技术,例如single cell Hi-C、Dilution Hi-C、in situ Hi-C、DNase Hi-C、Capture-C和BL-Hi-C,通过Hi-C可以产生全基因组范围存在的大规模染色质相互作用的数据,现有技术中所有可用于染色质空间构象、染色质相互作用分析的方法均可用于本发明的方法中,以产生染色质相互作用的数据。在分析中,部分染色质区域或区段之间由于空间折叠相互相靠近,从而在染色质相互作用的分析,显示出相互相互作用的信号。这些信号经过分析转换为频率值后,被称为“接触强度”、“染色质接触强度”、“接触频率”、“染色质邻接频率”。
基于Hi-C数据的染色质相互作用的检测方法,主要是基于互作矩阵(在本发明中,其也被称为染色质相互作用矩阵、染色质相互作用图谱、Hi-C map、Hi-C互作图谱和Hi-C矩阵)的基础上建模并计算的。
Hi-C互作矩阵记录了Hi-C实验检测到的基因组不同区域之间相互作用的配对读段的个数,可用来衡量基因组间相互作用的频率。通常,可将基因组各个染色体先划分为大小相同的区间(例如1Mb,10kb等,区间的大小用来表示Hi-C互作矩阵分辨率的高低),然后可统计不同区间之间检测到的配对读段的个数。例如1号染色体1Mb分辨率的Hi-C互作矩阵M的第i行第j列(下标从1开始)的数值Mij表示该染色体上[i-1,i]Mb区域和[j-1,j]Mb区域之间的相互作用的读段总数。
染色质相互作用在互作矩阵中常常表示为局部峰值。例如,若基因组中相隔较远的两端区域A和B之间形成染色质环,A和B由于蛋白复合体等连接在一起,在三维空间中非常靠近。所以通过Hi-C实验,捕获到的A和B区域之间的相互作用的读段数目就会较多,即表现为Hi-C互作矩阵中的局部峰值。
染色质拓扑结构域(TAD)
在染色质中存在的的兆碱基大小的局部染色质相互作用域,称作“拓扑相关结构域(TAD)”,是由连续的大片段的染色质折叠缠绕形成的三维结构。同一个拓扑结构域内部的染色质相互作用相对富集,不同的拓扑结构域之间的相互作用则非常少。这些域与约束异染色质扩散的基因组区域相关联。所述域在不同细胞类型间稳定并且在物种间高度保守,并且彼此间具有相互作用,也为基因组形成高级结构提供了基础。
不同的拓扑结构域之间存在一个边界,这些边界被称为contact domainboundaries(CDBs),边界上往往有CTCF蛋白和cohesin蛋白复合体的结合。
方法
标准HiCDB方法
本发明提供了一种染色质拓扑结构域边界的识别方法,也被称为HiCDB法,其理论依据在于CDB是具有高绝缘强度的局部峰。为了测量上述绝缘强度,本发明方法构建了一种的被称为局部相对绝缘(local relative insulation,LRI)的度量,将二维的Hi-C图谱转换为一维向量。HiCDB法具体包括以下步骤(图1A):
首先,设立一个新的统计量“相对绝缘性”RI来表示染色质结构域的相对绝缘性,使用相对绝缘性而非绝对绝缘性有利于找到TAD内部的sub-TAD结构,因为这些sub-TAD之间的绝缘性不高,但是sub-TAD内部的相互作用非常频繁,因此相对绝缘性较高。给定窗长w,介于k和k+1个区间(bin)之间的每个基因组位置s,定义相对绝缘性RI(w,s)如下所示:
Figure BDA0001756873820000141
其中,U、D和B分别表示位点s的上游、下游以及中间区域的平均染色质相互作用频率(图1A)。
Figure BDA0001756873820000142
Figure BDA0001756873820000143
Figure BDA0001756873820000144
随后在多个窗长下计算相对绝缘谱,加和平均得到每个基因组位置的平均相对绝缘性(RI),从而使得域边界更加明显(图1A)。根据相对绝缘性的定义,相对绝缘性受当前位置的绝对绝缘数值和两侧区域染色质相互作用的聚集程度影响。平均RI值越高则越有可能是染色质结构域的边界,因而检测结构域边界变成检测平均RI的局部峰值,利用Matlab中的内置函数findpeaks来检测峰值,这些峰值位置即是候选染色质结构域结构边界:
Figure BDA0001756873820000145
随后,利用平均RI减去平滑背景后得到局部相对绝缘性(LRI),以进一步增强CDB信号:
Figure BDA0001756873820000146
其中,lower_envelope被定义为下包络,指平均RI的局部极小值包络,通过线性插值拟合RI的局部极小峰值即可得到。LRI的截止值可以由用户决定,也可以由HiCDB参照CTCF结合位点富集程度输出。
LRI度量结合了接触域的自关联和绝缘属性来检测CDB,这相比与现有技术此前的方法仅使用单一属性来讲具有显著的优势。例如,Insulation Score和TopDom测量了域边界的绝对绝缘(AI),而没有参考局部背景,这倾向于低估活跃区域中CDB的绝缘强度(Crane,E.,Bian,Q.,McCord,R.P.,Lajoie,B.R.,Wheeler,B.S.,Ralston,E.J.,Uzawa,S.,Dekker,J.and Meyer,B.J.(2015)Condensin-driven remodelling of X chromosometopology during dosage compensation.Nature,523,240;Shin,H.,Shi,Y.,Dai,C.,Tjong,H.,Gong,K.,Alber,F.and Zhou,X.J.(2015)TopDom:an efficient anddeterministic method for identifying topological domains in genomes.NucleicAcids Res.,44,e70-e70.)。在这些模型中,对于每个基因组位点s,通过仅平均相互作用(B)计算平均AI:
Figure BDA0001756873820000151
AI和LRI之间差异的示意图如图1B所示。CDB1代表具有高AI和高LRI的CDB,而CDB2代表低AI但在密集的self-associated接触结构域中具有高LRI的CDB。在使得绝缘强度度量在整个基因组中具有可比性并且将更多CDB(包括在整体具有更高染色质接触频率的区域内的CDB)与噪声区分开来方面,LRI度量要明显优于AI。
总之,HiCDB通过考虑接触域的self-association和绝缘特性以及通过应用多尺度聚合和背景去除的特异性来提高其在CDB检测中的灵敏度。
截止值(cutoff)的选择
已知CTCF是染色质结构域边界上的主要结构蛋白,为选择具有生物意义的相对绝缘性阈值来确定染色质结构域边界。可以将候选边界按照相对绝缘性从高到低排列,根据其是否在CTCF的motif附近计算统计量富集分数,取富集分数最大值前的候选边界为最终染色质结构域边界。在本发明中,HiCDB法进一步提供了具有生物学意义的CDB截断值选项,该选项基于适应基因集富集分析(GSEA)的方法(Clark,N.R.and Ma’ayan,A.(2011)Introduction to statistical methods for analyzing large data sets:gene-setenrichment analysis.Sci.Signal.,4,tr4-tr4;Subramanian,A.,Tamayo,P.,Mootha,V.K.,Mukherjee,S.,Ebert,B.L.,Gillette,M.A.,Paulovich,A.,Pomeroy,S.L.,Golub,T.R.and Lander,E.S.(2005)Gene set enrichment analysis:a knowledge-basedapproach for interpreting genome-wide expressionprofiles.Proc.Nat.Acad.Sci.USA,102,15545-15550.)考虑CTCF基序的富集(29,30)。当表明HiCDB截止选项时,HiCDB将首先根据其LRI对候选CDB进行排名。然后,通过浏览列表计算富集分数ES,该列表反映候选CDB列表顶部的CTCF基序富集。ES(i)的定义如下:
Figure BDA0001756873820000161
Figure BDA0001756873820000162
ES是一个运行总和统计量,当它遇到具有CTCF基序的峰值时会增加,否则会减少。S表示具有CTCF基序的候选CDB集合。Li表示第i候选CDB。LRIi表示第i候选CDB的局部相对绝缘。Nhit是S中候选CDB的数量,而N表示候选CDB的总数。选择在最大ES处的LRI作为CDB检测截止值。没有CTCF基序但具有比截止值更高的LRI的候选CDB也保留在输出中,因为这实际上也具有生物学意义。该截止值选项在CDB检测数和CTCF富集之间保持平衡,但它不会偏向CTCF富集在HiCDB检测的CDB上(例如参见图4)。通过使用来自JASPAR数据库(Heinz,S.,Benner,C.,Spann,N.,Bertolino,E.,Lin,Y.C.,Laslo,P.,Cheng,J.X.,Murre,C.,Singh,H.and Glass,C.K.(2010)Simple combinations of lineage-determiningtranscription factors prime cis-regulatory elements required for macrophageand B cell identities.Mol.Cell,38,576-589;Bryne,J.C.,Valen,E.,Tang,M.-H.E.,Marstrand,T.,Winther,O.,da Piedade,I.,Krogh,A.,Lenhard,B.and Sandelin,A.(2007)JASPAR,the open access database of transcription factor-bindingprofiles:new content and tools in the 2008update.Nucleic Acids Res.,36,D102-D106)的CTCF PWM矩阵的HOMER基序分析获得全基因组CTCF基序位点。
差异CDB检测
为了识别多次重复的Hi-C数据中具有差异的边界,本发明中,进一步计算每个条件下直接叠加原始Hi-C矩阵上的CDB,并首先将得到的CDB汇集在一起,合并距离在1个bin内的CDB。然后,在对Hi-C矩阵进行样本内、库深度、样本间的归一化后,对每个bin的不同重复计算平均RI。每次重复使用KR标准化来校正样本内偏差(例如酶切等的影响)(Kalhor,R.,Tjong,H.,Jayathilaka,N.,Alber,F.and Chen,L.(2012)Genome architecturesrevealed by tethered chromosome conformation capture and population-basedmodeling.Nat.Biotechnol.,30,90)。接着对每个重复乘以一个用于校正文库大小差异的库深度调整因子(size factor),其被定义为每个Hi-C重复矩阵总和的平均值除以所有重复的矩阵总和。
进一步应用MA归一化(Djekidel,M.N.,Chen,Y.and Zhang,M.Q.(2018)FIND:differential chromatin Interactions Detection using a spatial Poissonprocess.Genome Res.,28,412-422.)校正相同条件的重复之间的系统偏差。为了控制假阳性,仅针对在一种条件下检测到的CDB检验其在不同样品间的平均RI值是否有显著性差异。如果两个条件之间的平均RI值的差异高于所有CDB平均RI差异的90%分位数,或者其平均RI值在不同条件之间显著不同(p<0.05,t检验)同时所述差异高于所有CDB的50%分位数,则认为CDB存在差异。对于没有重复的Hi-C数据集,检测每个条件下经过库深度归一化处理后矩阵中的CDB,并通过交集确定差异CDB。
CDB分析
在一些实施方式中,还公开了CDB的分析方法,包括下列步骤:(1)以密集(Denseformat)或稀疏格式(sparse format)对原始Hi-C矩阵执行KR归一化。(2)利用前述的标准HiCDB方法,在步骤(1)获得的经过KR标准化的Hi-C图中进行CDB检测。优选的,Schmitt等人(Schmitt,A.D.,Hu,M.,Jung,I.,Xu,Z.,Qiu,Y.,Tan,C.L.,Li,Y.,Lin,S.,Lin,Y.andBarr,C.L.(2016)A compendium of chromatin contact maps reveals spatiallyactive regions in the human genome.Cell Rep.,17,2042-2059)生成针对21种细胞类型的Hi-C数据被预先计算了CDB的存在和分布,连同所述CDB在不同细胞类型中的一致性,可作为在新样品中注释检测到的CDB的参考。(3)优选的,还可以针对步骤(2)中的Hi-C数据(不论是否具有重复数据),进行差异CDB检测。(4)优选的,对单一Hi-C图进行可视化和/或对已标注CDB的两个Hi-C图之间进行比较。
数据源
用于比较CDB检测方法的中等分辨率(40-kb)Hi-C数据的原始矩阵来自http:// chromosome.sdsc.edu/mouse/hi-c/download.html(Dixon,J.R.,Selvaraj,S.,Yue,F.,Kim,A.,Li,Y.,Shen,Y.,Hu,M.,Liu,J.S.and Ren,B.(2012)Topological domains inmammalian genomes identified by analysis of chromatin interactions.Nature,485,376)。
HiCCUPS检测到的高分辨率(10-kb)Hi-C数据集和Hi-C loops来自NCBI,登录号为GSE63525(Rao,S.S.,Huntley,M.H.,Durand,N.C.,Stamenova,E.K.,Bochkov,I.D.,Robinson,J.T.,Sanborn,A.L.,Machol,I.,Omer,A.D.and Lander,E.S.(2014)A 3D mapof the human genome at kilobase resolution reveals principles of chromatinlooping.Cell,159,1665-1680)。
对于IMR90,两个重复的Hi-C矩阵不可用,因此使用了Juicer的计算结果(Durand,N.C.,Shamim,M.S.,Machol,I.,Rao,S.S.,Huntley,M.H.,Lander,E.S.and Aiden,E.L.(2016)Juicer provides a one-click system for analyzing loop-resolution Hi-Cexperiments.Cell Sys.,3,95-98)。
从NCBI获得21个人类细胞系和原代组织的Hi-C矩阵,登录号为GSE87112(Schmitt,A.D.,Hu,M.,Jung,I.,Xu,Z.,Qiu,Y.,Tan,C.L.,Li,Y.,Lin,S.,Lin,Y.andBarr,C.L.(2016)A compendium of chromatin contact maps reveals spatiallyactive regions in the human genome.Cell Rep.,17,2042-2059)。
GM12878细胞系的CTNC和RNA聚合酶II(POLR2A)的ChIA-PET数据从NCBI下载,登录号为GSE72816(Tang,Z.,Luo,O.J.,Li,X.,Zheng,M.,Zhu,J.J.,Szalaj,P.,Trzaskoma,P.,Magalska,A.,Wlodarczyk,J.and Ruszczycki,B.(2015)CTCF-mediated human 3D genomearchitecture reveals chromatin topology for transcription.Cell,163,1611-1627)。
从ENCODE数据库(Neph,S.,Vierstra,J.,Stergachis,A.B.,Reynolds,A.P.,Haugen,E.,Vernot,B.,Thurman,R.E.,John,S.,Sandstrom,R.and Johnson,A.K.(2012)Anexpansive human regulatory lexicon encoded in transcription factorfootprints.Nature,489,83)下载所有ChIP-seq和RNA-seq数据。差异基因利用DESeq2进行识别(调整p值<0.01,log2-倍变化>1),(Love,M.I.,Huber,W.and Anders,S.(2014)Moderated estimation of fold change and dispersion for RNA-seq data withDESeq2.Genome Biol.,15,550)。
实施例1HiCDB与已有的CDB检测方法的比较。
本实施例使用中等分辨率(40kb)和更高分辨率(10kb)的原始Hi-C数据比较了不同CDB的检测方法的性能,并测量了几个定量标准,包括CDB数量、一致性、蛋白质结合富集、鲁棒性和时间复杂性。基于40kb数据集,将HiCDB与Armatus、DI、HiCseg、IC-Finder、Insulation和TopDom进行了比较。在10-kb数据集中,DI和HiCseg由于其过高的计算时间复杂度而被排除在比较之外。同时由于Arrowhead被设计用于染色质环水平的分辨率的Hi-C实验,并且相比用于40-kb数据集的其他方法调用更少数量的域边界而被包括在比较中。
首先,分析了各方法一致性用以反映CDB检测的准确性(图2A和B)。HiCDB检测到5768个CDB,在40kb IMR90数据集的实际计数中最高的,其中有76%被其它方法检测到。在10kb的数据集中,Arrowhead识别的CDB具有最高的一致性比率(86%),而HiCDB则具有相近的一致性比率85%。尽管Armatus和IC-Finder分别在40kb和10kb数据集上确定了最多的CDB,但它们的一致性比率和数量都低于HiCDB。
CTCF和cohesin富集指标进一步用于比较不同的方法,因为它们是广泛接受的域边界特征,常用于域检测方法的比较中。同时还考虑了CDB上的POLR2A结合,因为已知活跃的转录与CDB形成相关。在两个数据集的方法中,由HiCDB所检测到的与CTCF,cohesin和POLR2A结合位点重叠的比例在各个方法中都是最高的(图3)。值得注意的是,对于不同的截止值,HiCDB检测的CDB与CTCF的结合百分比总是最高的(图4)。
进一步通过通过聚集图(aggregation plot)检查了CDB上的结构蛋白或组蛋白修饰信号的分布(图2C和D)。结构蛋白和活性转录信号都集中在HiCDB检测的CDB的中心,特别是在10kb的数据集上,而其他方法具有更宽的富集区域,表明HiCDB可能检测到确切的功能位点。
除了HiCDB检测的CDB与其他方法具有的高度一致性之外,在两个数据集中,HiCDB所检测到的独有CDB富集了最多的结构和调节信号(图2E和F)。在40-kb IMR90数据集中,TopDom、IC-Finder和DI方法检测出较低的结构和调节信号的富集,这与上述方法所预测的独特CDB的侧翼区域仅具有模糊的绝缘边界的情况是一致的,这表明这些CDB位置的预测并不准确。此外,只有HiCDB所独特预测的CDB在10-kb GM12878数据集上显示出清晰的绝缘和高度丰富的结构和调节信号。
同时,HiCDB具有很高的鲁棒并且具有很快的速度。针对重复数据集的再现性对于评估鲁棒性非常重要。所有方法都应用于40-kb hESC数据集以及10-kb GM12878Hi-C数据集重复以获得它们的再现性比率。在两种分辨率数据集的不同截止值下,HiCDB在再现性方面优于其他方法(图2G)。另外,HiCDB的时间复杂度是O(n),其中n是Hi-C邻接矩阵的行/列数。在上机时,HiCDB花了大约2分钟来计算全基因组CDB,这比分析40kb数据时第二快方法的绝缘分数(Insulation score)快2.5倍。HiCDB分析10kb数据花了大约10分钟,使其比Arrowhead和绝缘分数快两倍(图2H)。
实施例2HiCDB可以准确识别较小规模的CDB。
本实施例比较了不同方法所鉴定的CDB距离分布(图5A)。Armatus倾向于检测两个数据集上聚集在一起的许多小区域(图5C)。在40kb数据集中,HiCDB检测的CDB之间平均距离为505kb,除了Armatus之外,上述距离在所有方法中是最短的。利用10-kb数据,HiCDB、Arrowhead、TopDom和IC-Finder鉴定出的CDB之间距离约为200kb。值得注意的是,Arrowhead和TopDom的CDB距离分布具有两个峰值,这意味着这两种方法检测到的CDB的一小部分彼此紧密定位(图5C)。
由于深度测序数据的信噪比较高,基于10kb染色质邻接矩阵检测到的CDB比基于40kb矩阵的CDB更准确和完整。接下来将在10kb IMR90Hi-C矩阵中多于两种方法检测到的CDB作为“金标准“(即被认为是真实的CDB),用于定量评估评估在40kb分辨率的数据下各方法的特异性和灵敏度(图5B)。
结果表明:相比于其它方法,HiCDB的灵敏度(34.1%)和特异性(69.0%)最高。这也表明HiCDB可以在40kb数据集上比其他方法更准确的检测到较小规模的CDB。其次是TopDom,灵敏度为26.7%,特异性为67.5%;再次是IC-Finder;至于DI、绝缘分数和HiCseg,由于其最初被设计用于低分辨率Hi-C数据中的TAD边界检测,这导致它们的灵敏度相对较低。
由于缺乏评估10kb数据集性能的合适参照,于是根据其它的表观遗传注释评估不同方法检测到的CDB。图5C显示了GM12878基因组中一段代表性的两兆碱基的区域(chr21:32.30-34.30Mb),其含有由HiCDB、Arrowhead、Armatus、IC-Finder、TopDom和Insulationscore法分别检测得到的15个、13个、9个、7个、7个和6个CDB。由于HiCDB法对该区域主要结构进行了准确识别,因而还检测到另外五个CDB,即B1-B5。这些只被HiCDB识别的位置处于内部相互作用密集的相互作用域下,并且具有较高的相对绝缘性。其中,B1、B2和B3位于CTCF介导的染色质环的锚点(anchor)附近,而B4和B5是由活性组蛋白标记覆盖的POLR2A介导的染色质环簇的边界。此外,在该区域中检测到的Hi-C环往往是强CTCF介导的环,并且未能在强烈的自相关结构域中预测具有诸如B1-B7的锚的环。由上述结果可知,本发明HiCDB可以在不同分辨率下从Hi-C数据中准确地检测到较小规模的CDB,而所检测到的CDB与已知的结构蛋白(例如CTCF和cohesin)结合位点以及活性转录调节信号具有准确的重合。此外,HiCDB的再现性比率也优于其他测试方法,从而有效的用于一致性和差异性CDB的检测。
实施例3HiCDB检测的CDB富集结构蛋白与细胞特异性转录因子
本实施例验证了HiCDB所预测的CDB与Hi-C环、ChIA-PET环以及转录因子的结合位点。所有分析均在GM12878细胞系上进行。
首先,将HiCDB所预测的CDB与chromHMM注释进行重叠,以显示这些CDB与染色质状态的关系。在40-kb数据集中,CDB显著富集了绝缘体(2.11倍)和启动子(1.75倍)。同时,在10-kb数据集中检测到的CDB富集了活性启动子(5.86倍),绝缘子(3.36倍)和增强子(3.23倍)。
随后将CDB与使用HiCCUPHi-C数据上提取的另一特征Hi-C染色质环进行了比较。结果发现56%的CDB与Hi-C染色质环锚定一致(图6)。在只被识别为CDB而未被识别为Hi-C染色质环锚点的基因组位置中,有25%与仅有POLR2A介导的染色质环重合。另外整体而言,CDB相对Hi-C染色质环更加富集细胞特异的转录因子,而Hi-C染色质环更加富集结构性的蛋白,如CTCF,YY1,cohesin等(参见图6)。可见相对于染色质环,CDB更偏功能性。进一步的观察见图7A,其中显示了在GM12878的4M碱基区域(chr21:42,50-46,50M)上检测到的CDB。结果表明,40-kb CDB和Hi-C环主要与CTCF ChIA-PET锚点重叠,而10-kb CDB也反映了POLR2A相互作用簇的锚点。而其中有11个CDB与POLR2A染色质环的锚点重叠,但是未被该区域的Hi-C环捕获。
接下来分析了除CTCF和POLR2A之外,其他蛋白质是否与CDB相关。于是将CDB与来自ENCODE数据库的转录因子(TF)和组蛋白修饰的229个ChIP-seq数据集进行比较(Neph,S.,Vierstra,J.,Stergachis,A.B.,Reynolds,A.P.,Haugen,E.,Vernot,B.,Thurman,R.E.,John,S.,Sandstrom,R.and Johnson,A.K.(2012)An expansive human regulatorylexicon encoded in transcription factor footprints.Nature,489,83)。除了结构蛋白CTCF和cohesin,ZNF143、YY1、TRIM22和转录因子如IKZF1,RUNX3,BHLHE40出现在半数左右的CDB上,另外细胞特异的转录因子RXRA、IRF3、MYC和BRCA1等虽然只在一部分CDB上出现,但是相对基因组随机区域,富集程度在40kb和10kb时分别达到2倍和6倍以上(图7B)。这些转录因子的富集程度比在Hi-C上检测到的染色质环上的富集程度更高,表明了CDB相比于目前Hi-C图谱上检测到的染色质环与细胞特异性更为相关。另外有趣的是,TRIM22蛋白在CDB上的富集程度与经典的结构蛋白cohesin类似,经检验,这种现象不仅出现在GM12878细胞系中,也出现在MCF7细胞系中(数据未显示),因此TRIM22很可能是一种未被报道的结构蛋白。
以上结果表明了,HiCDB检测的CDB会富集结构蛋白与细胞特异性转录因子,因此HiCDB在检测功能性CDB方面更接近生物体的真实状况,具有独特的优势。
实施例4细胞类型特异性CDB与细胞类型特异性组蛋白修饰和细胞特异性基因的激活相关
首先对10-kb GM12878和IMR90数据集使用HiCDB法进行了差异CDB检测,并分别预测了GM12878和IMR90特异性CDB。Hi-C聚合热图证实了在差异CDB处绝缘性具有变化(图8A)。
随后利用10kb分辨率Hi-C数据分析了GM12878和IMR90中特异性CDB的异同,揭示了差异CDB与细胞特异基因激活的相关性。比较HiCDB在GM12878和IMR90两种细胞系上的检测到的CDB,发现细胞特异的CDB上富集着细胞特异的组蛋白信号。具体的,将在GM12878和IMR90中CDB处的POLR2A、H3K4me3、H3K27ac和H3K27me3的信号进行汇集,以研究调节元件在差异CDB中的富集情况(图8B)。在GM12878中,发现活性调节信号,特别是增强子标记H3K27ac,更富集于GM12878特异性的CDB上而非IMR90特异性CDB。相比之下,作为抑制性组蛋白标记的H3K27me3则不存在于GM12878特异性CDB处,而是富基于IMR90特异性CDB处。这表明细胞类型特异性CDB与细胞类型特异性组蛋白修饰相关。
然后,利用GREAT分析两种细胞系差异CDB周边基因的功能(标注GO term),发现GM12878特异的CDB周边基因主要富集在B细胞激活和干扰素伽玛信号通路上,IMR90特异的CDB周边基因主要富集在肺发育通路上(图9)。IMR90中有235个基因在两种细胞中表达水平相差50倍并且启动子区域与IMR90特异的CDB重合,其中230个基因是相对于GM12878上调的,只有5个基因是相对于CDB下调的(图8C),这个结果显示细胞特异CDB的出现与邻近细胞特异基因的激活相关。
PAX5是B细胞分化的重要调控因子,PAX5的变异和重组会诱发肿瘤,该蛋白在GM12878中有表达,而在IMR90中没有表达。HiCDB检测到PAX5邻域(chr9:36.50-37.50Mb)在GM12878和IMR90中具有截然不同的CDB(图8D),除了由Hi-C染色质环发现的启动子(P)和PAX5的远程增强子之外,三个其它的增强子(E1-E3)与GM12878中检测到的CDB重叠。然而,在IMR90中则并未检测到P、E1和E3。也就是说,HiCDB检测到的CDB与多个PAX5增强子相重合,且具有活跃的组蛋白修饰信号。
以上结果表明通过HiCDB检测到的细胞类型特异性的CDB与细胞类型特异性活性的组蛋白修饰、以及细胞特异性基因的上调具有密切关联。这更进一步说明了HiCDB能够更加准确的检测得到真实的CDB。

Claims (17)

1.一种染色质拓扑结构域边界(CDB)的识别方法,其包括:
(1)针对至少一个条件下的目标样本获得至少一次重复的染色质相互作用结果,所述染色质相互作用结果是通过Hi-C技术获得;
(2)利用步骤(1)得到的结果数据获得染色质相互作用矩阵;
(3)给定窗长w,其中w为区间大小的x倍,所述区间大小为步骤(1)中染色质相互作用的分析方法的分辨率;x为1-50之间的整数,对于位于第k和k+1个区间(bin)之间的每个位点s,计算不同窗口大小下的相对绝缘性RI(w,s),
Figure FDA0003499895710000011
其中,U、D和B分别表示位点s上游、下游以及中间区域的平均染色质相互作用频率,如下式计算:
Figure FDA0003499895710000012
Figure FDA0003499895710000013
Figure FDA0003499895710000014
(4)获得多个不同窗口大小下的RI值,取均值获得平均RI,如下式所示:
Figure FDA0003499895710000015
(5)检测步骤(4)得到的平均RI的局部峰值;
(6)计算局部相对绝缘性LRI值,并根据LRI值确定CDB,其中lower_envelope指平均RI的下包络,通过线性插值拟合RI的局部最小峰值得到;
Figure FDA0003499895710000021
当LRI值高于LRI截止值时,即可被确定为CDB;
所述LRI截止值通过下面的步骤确定:
a、根据LRI值的大小对候选CDB进行排序,
b、基于步骤a所述排序依次计算富集分数ES,计算公式如下式所示,其中S表示具有CTCF基序的候选CDB集合;Li表示第i候选CDB;LRIi表示第i候选CDB的局部相对绝缘;Nhit是S中候选CDB的数量,而N表示候选CDB的总数;
Figure FDA0003499895710000022
Figure FDA0003499895710000023
c、选择在最大ES处的LRI作为CDB检测截止值。
2.根据权利要求1所述的方法,其中步骤(1)中所述染色质相互作用结果是通过singlecell Hi-C、Dilution Hi-C、in situ Hi-C、DNase Hi-C、Capture-C或BL-Hi-C获得。
3.根据权利要求1所述的方法,其中步骤(3)所述区间大小为1kb至1Mb之间。
4.根据权利要求1所述的方法,其中步骤(5)中利用Matlab的内置函数findpeaks来检测峰值。
5.根据权利要求1所述的方法,其中步骤(2)中获得的染色质相互作用矩阵还经过KR标准化。
6.一种差异CDB的分析或检测方法,所述方法不用于疾病诊断,所述方法包括下列步骤:
(i)利用权利要求1-5中任一项所述的方法,针对至少2个条件下的目标样本获得各自的CDB信息;
当样本的染色质相互作用结果具有至少2次重复时,
(ii)对于每个条件下的数据,合并位于一个区间(bin)内的CDB;随后针对不同重复进行库深度(size)的归一化;
(iii)计算每个基因组区间(bin)内不同重复的平均RI;
(iv)每个重复乘以一个用于校正文库大小差异的库深度调整因子(size factor),所述size factor为每个Hi-C重复矩阵总和的平均值除以所有重复的矩阵总和;
(v)应用MA归一化校正相同条件的重复之间的系统偏差;
(vi)如果两个条件之间的平均RI值的差异高于所有CDB平均RI差异的90%分位数,或者其平均RI值在不同条件之间显著不同(p<0.05,t检验)同时所述差异高于所有CDB的50%分位数,则认为CDB存在差异;相反,则认为不存在差异;
当样本的染色质相互作用结果不存在重复时,进行如下操作:
(ii’)对于每个条件下的数据,合并位于一个区间(bin)内的CDB;随后进行库深度的归一化;
(iii’)通过交集确定差异CDB。
7.根据权利要求6所述的差异CDB分析或检测方法,其中步骤(iii)中所述重复使用KR标准化来校正样本内偏差。
8.一种染色质拓扑结构域边界(CDB)的识别系统,其包括:
输入模块:用于输入针对至少一个条件下的目标样本获得至少一次重复的染色质相互作用结果和/或属于依据所述结果所得到的染色质相互作用矩阵,所述染色质相互作用结果是通过Hi-C技术获得;
以及计算模块,所述计算模块具体包括:
(a)相对绝缘RI(w,s)计算器:在下述条件下:给定窗口大小w,其中w为区间大小的x倍,所述区间大小为用于获得步骤(1)中染色质相互作用结果的方法的分辨率;x优选为1-50之间的整数,对于位于第k和k+1个区间(bin)之间的每个位点s,计算不同窗口大小下的相对绝缘RI(w,s),
Figure FDA0003499895710000041
其中,U、D和B分别表示位点s上游、下游以及中间区域的染色质相互作用频率,如下式计算:
Figure FDA0003499895710000042
Figure FDA0003499895710000043
Figure FDA0003499895710000044
(b)平均RI计算器:获得多个不同窗口大小下的RI值,取均值获得平均RI,如下式所示:
Figure FDA0003499895710000045
(c)候选CDB生成器:检测平均RI的局部峰值;
(d)LRI值计算器:计算局部相对绝缘性,并根据LRI值确定CDB,其中lower_envelope指平均RI的下包络,通过线性插值拟合RI的局部最小峰值得到;
Figure FDA0003499895710000046
当LRI值高于LRI截止值时,即可被确定为CDB;
所述LRI截止值通过下面的步骤确定:
a、根据LRI值的大小对候选CDB进行排序,
b、基于步骤a所述排序依次计算富集分数ES,计算公式如下式所示,其中S表示具有CTCF基序的候选CDB集合;Li表示第i候选CDB;LRIi表示第i候选CDB的局部相对绝缘;Nhit是S中候选CDB的数量,而N表示候选CDB的总数;
Figure FDA0003499895710000051
Figure FDA0003499895710000052
c、选择在最大ES处的LRI作为CDB检测截止值。
9.根据权利要求8所述的系统,其中所述输入模块还包括矩阵生成模块:用于基于输入模块所输入的染色质相互作用结果生成染色质相互作用矩阵。
10.根据权利要求8所述的系统,其中步骤(1)中所述染色质相互作用结果是通过single cell Hi-C、Dilution Hi-C、in situ Hi-C、DNase Hi-C、Capture-C或BL-Hi-C获得。
11.一种分析CDB差异的系统,其包括权利要求8至10中任一项所述系统所包括的模块,并且还额外包括CDB差异计算模块,所述模块能够执行下列步骤:
当样本的染色质相互作用结果具有至少2次重复时,
(i)对于计算模块所得到的每个条件下的数据,合并位于一个区间(bin)内的CDB;随后针对不同重复进行库深度(size)的归一化;
(ii)并且计算每个基因组区间(bin)内不同重复的平均RI;
(iii)每个重复乘以一个用于校正文库大小差异的库深度调整因子(size factor),所述size factor为每个Hi-C重复矩阵总和的平均值除以所有重复的矩阵总和;
(iv)应用MA归一化校正相同条件的重复之间的系统偏差;
(v)如果两个条件之间的平均RI值的差异高于所有CDB平均RI差异的90%分位数,或者其平均RI值在不同条件之间显著不同(p<0.05,t检验)同时所述差异高于所有CDB的50%分位数,则认为CDB存在差异;相反,则认为不存在差异;
当样本的染色质相互作用结果不存在重复时,进行如下操作:
(i’)对于计算模块所获得的每个条件下的数据,合并位于一个区间(bin)内的CDB;随后进行库深度的归一化;
(ii’)通过交集确定差异CDB。
12.根据权利要求11所述的分析CDB差异的系统,其中步骤(ii)中所述重复使用KR标准化来校正样本内偏差。
13.一种鉴定调控染色质拓扑结构域或CDB的试剂的方法,其包括将使样本与一种或多种试剂接触,利用权利要求1所述的方法分析CDB或者CDB差异,以及
鉴定相比于不添加试剂的对照组能够改变CDB的试剂。
14.一种分析细胞分化或发育过程中遗传物质高级结构改变的方法,所述方法不用于疾病诊断,所述方法包括权利要求6所述的步骤。
15.一种鉴定染色质结构变异的方法,所述方法不用于疾病诊断,所述方法包括权利要求6中所述的步骤。
16.一种鉴定能够调控遗传物质高级结构或引起染色质结构变异的调控试剂的方法,其包括将使样本与一种或多种试剂接触,利用权利要求6的方法分析CDB差异,以及
鉴定相比于不添加试剂的对照组能够改变CDB的试剂。
17.一种潜在的与CDB相关的染色质结构蛋白的分析或鉴定方法,其中包括利用权利要求1的方法识别CDB位置,并鉴定出在多个CDB中富集的蛋白,即为所述潜在的与CDB相关的染色质结构蛋白。
CN201810890699.1A 2018-08-07 2018-08-07 一种染色质拓扑结构域边界的分析方法 Active CN109448783B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810890699.1A CN109448783B (zh) 2018-08-07 2018-08-07 一种染色质拓扑结构域边界的分析方法
PCT/CN2019/099404 WO2020029951A1 (zh) 2018-08-07 2019-08-06 一种染色质拓扑结构域边界的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810890699.1A CN109448783B (zh) 2018-08-07 2018-08-07 一种染色质拓扑结构域边界的分析方法

Publications (2)

Publication Number Publication Date
CN109448783A CN109448783A (zh) 2019-03-08
CN109448783B true CN109448783B (zh) 2022-05-13

Family

ID=65530835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810890699.1A Active CN109448783B (zh) 2018-08-07 2018-08-07 一种染色质拓扑结构域边界的分析方法

Country Status (2)

Country Link
CN (1) CN109448783B (zh)
WO (1) WO2020029951A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448783B (zh) * 2018-08-07 2022-05-13 清华大学 一种染色质拓扑结构域边界的分析方法
CN110097922B (zh) * 2019-04-19 2020-12-08 西安交通大学 基于在线机器学习的Hi-C接触矩阵中层级式TADs差异分析方法
CN112562783A (zh) * 2019-09-26 2021-03-26 北京百迈客生物科技有限公司 一种联合基因组三维结构差异鉴定和转录组基因表达水平差异分析挖掘功能基因的方法
US20240185955A1 (en) * 2021-11-23 2024-06-06 Chromatintech Beijing Co, Ltd Method for generating an enhanced hi-c matrix, non-transitory computer readable medium storing a program for generating an enhanced hi-c matrix, method for identifying a structural chromatin aberration in an enhanced hi-c matrix, and methods for diagnosing and treating a medical condition or disease
US20240185946A1 (en) * 2022-02-08 2024-06-06 Chromatintech Beijing Co, Ltd Method for identifying a chromatin structural characteristic from a hi-c matrix, non-transitory computer readable medium storing a program for identifying a chromatin structural characteristic from a hi-c matrix, and methods for diagnosing and treating a medical condition or disease
CN115059458B (zh) * 2022-06-29 2022-12-06 中国地质大学(北京) 一种井下随钻测量的泥浆脉冲信号的产生及识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107119120A (zh) * 2017-05-04 2017-09-01 河海大学常州校区 一种基于染色质3d构象技术的关键作用分子检测方法
CN108197431A (zh) * 2018-01-24 2018-06-22 清华大学 染色质相互作用差异的分析方法和系统
CN108220394A (zh) * 2018-01-05 2018-06-29 清华大学 基因调控性染色质相互作用的鉴定方法、系统及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20140195165A1 (en) * 2012-11-14 2014-07-10 The Translational Genomics Research Institute Systems and methods for identifying the relationships between a plurality of genes
GB2517936B (en) * 2013-09-05 2016-10-19 Babraham Inst Chromosome conformation capture method including selection and enrichment steps
KR102441391B1 (ko) * 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
EP3031929A1 (en) * 2014-12-11 2016-06-15 Mdc Max-Delbrück-Centrum Für Molekulare Medizin Berlin - Buch Genome architecture mapping
CN109448783B (zh) * 2018-08-07 2022-05-13 清华大学 一种染色质拓扑结构域边界的分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107119120A (zh) * 2017-05-04 2017-09-01 河海大学常州校区 一种基于染色质3d构象技术的关键作用分子检测方法
CN108220394A (zh) * 2018-01-05 2018-06-29 清华大学 基因调控性染色质相互作用的鉴定方法、系统及其应用
CN108197431A (zh) * 2018-01-24 2018-06-22 清华大学 染色质相互作用差异的分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"HiCDB: a sensitive and robust method for detecting contact domain boundaries";Fengling Chen et al.;《Nucleic Acids Research》;20180904;全文 *

Also Published As

Publication number Publication date
CN109448783A (zh) 2019-03-08
WO2020029951A1 (zh) 2020-02-13

Similar Documents

Publication Publication Date Title
CN109448783B (zh) 一种染色质拓扑结构域边界的分析方法
Lajoie et al. The Hitchhiker’s guide to Hi-C analysis: practical guidelines
Iyer et al. The landscape of long noncoding RNAs in the human transcriptome
Kuan et al. A statistical framework for the analysis of ChIP-Seq data
DeConde et al. Combining results of microarray experiments: a rank aggregation approach
Kharchenko et al. Design and analysis of ChIP-seq experiments for DNA-binding proteins
US20210332354A1 (en) Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution
CN109411015A (zh) 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
Baek et al. Quantitative analysis of genome-wide chromatin remodeling
Huang et al. Weakly supervised learning of RNA modifications from low-resolution epitranscriptome data
Pranzatelli et al. ATAC2GRN: optimized ATAC-seq and DNase1-seq pipelines for rapid and accurate genome regulatory network inference
Gorban et al. Seven clusters in genomic triplet distributions
JP2003500663A (ja) 実験データの正規化のための方法
Ahmed et al. Prediction of polyadenylation signals in human DNA sequences using nucleotide frequencies
CN108197431B (zh) 染色质相互作用差异的分析方法和系统
Rougemont et al. Computational analysis of protein–DNA interactions from ChIP-seq data
KR101841265B1 (ko) Nmf를 이용한 표적 염기 서열 해독에서의 바이어스 제거 방법
Ding et al. Identification of residue-residue contacts using a novel coevolution-based method
Zhang et al. Efficiently predicting protein stability changes upon single-point mutation with large language models
Wang et al. PrAS: Prediction of amidation sites using multiple feature extraction
Manzoor et al. A comparative analysis of multiple sequence alignments for biological data
JP2007108949A (ja) 遺伝子発現制御配列の推定方法
Zhang et al. Prediction of nucleosome positioning using the dinucleotide absolute frequency of DNA fragment
Saberkari et al. Identification of genomic islands in DNA sequences using a non-DSP technique based on the Z-Curve
Hahn et al. Transient protein-protein interaction of the SH3-peptide complex via closely located multiple binding sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant