CN103646192B - 增强子在全基因组相互作用研究方法 - Google Patents

增强子在全基因组相互作用研究方法 Download PDF

Info

Publication number
CN103646192B
CN103646192B CN201310584990.3A CN201310584990A CN103646192B CN 103646192 B CN103646192 B CN 103646192B CN 201310584990 A CN201310584990 A CN 201310584990A CN 103646192 B CN103646192 B CN 103646192B
Authority
CN
China
Prior art keywords
enhancer
data
gene
expression
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310584990.3A
Other languages
English (en)
Other versions
CN103646192A (zh
Inventor
马永超
卑占宇
徐松涛
罗晓冰
常陆林
范文娟
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luohe Medical College
Original Assignee
Luohe Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luohe Medical College filed Critical Luohe Medical College
Priority to CN201310584990.3A priority Critical patent/CN103646192B/zh
Publication of CN103646192A publication Critical patent/CN103646192A/zh
Application granted granted Critical
Publication of CN103646192B publication Critical patent/CN103646192B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种增强子在全基因组相互作用研究方法,属于基因技术领域。该方法步骤为:(1)数据转换:采用UCSC网站liftover软件把增强子数据转换成hg18,对1760个增强子长度和分布进行统计分析。(2)数据过虑:过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求平均值。(3)数据注释:将过虑好的数据比对到增强子数据中,统计不同细胞能捕获到的增强子数。(4)结果分析:比较增强子在全基因组范围相互位点数据。本发明能很好地得到细胞核内染色质三维构象的信息,能知道基因的表达调控信息,鉴定一些未知调控序列,这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。

Description

增强子在全基因组相互作用研究方法
技术领域
本发明涉及一种增强子在全基因组相互作用研究方法,属于基因技术领域。
背景技术
随着人类基因组计划的结束,分子生物学家研究开始转向功能基因组,并已经开始着手寻找基因组功能片段。很多功能元件例如增强子(enhancers)、位点控制区域(LCRs),在染色质座位上远离其靶基因,这为我们发现和鉴定带来了困难。最近有研究表明,染色质可以通过相互作用对转录进行反式调控。研究细胞核内三维空间中功能元件的相互作用可以帮助我们了解基因组的功能调控机制。
增强子是一类短的DNA序列,其通过转录因子的介导能增强基因的表达水平。增强子一类典型的远距离调控元件,它可以位于基因的远端,甚至位于不同的染色体。增强子一般是通过比较基因组技术和增强子捕获技术(enhancer trap techniques)鉴定。
研究染色质相互作用的主流技术都是基于染色体捕获技术(chromatinconformation capture,3C)而建立的,从2002年最初的染色体捕获技术到现在的Hi-c,历经10余年的研究,科学家已经累积了很多染色质相互作用的数据。由于Hi-c能无偏差全基因组范围捕获染色质与染色质相互作用,且通量巨大。本发明选取人的两个细胞系Hi-c数据,来分析增强子在全基因组范围相互作用。
发明内容
本发明的目的在于提供一种增强子在全基因组相互作用研究方法,以便更加全面地研究增强子在基因中的作用,更好地了解基因组的功能调控机制。
为了实现上述目的,本发明的技术方案如下。
一种增强子在全基因组相互作用研究方法,具体包括以下步骤:
(1)数据转换:
由于增强子数据库的基因组位置是hg19而Hi-c的数据是hg18,采用UCSC网站liftover软件把增强子数据转换成hg18。对1760个增强子长度和分布进行统计分析得到统计分布图,从中发现,增强子的长度大多小于2kbp,在各染色体上的分布不均匀。
(2)数据过虑:
过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求两个数据的平均值作为基因表达的量。根据基因或者转录本的表达量,把基因分为:低表达(表达值<50)、中表达(50<表达值<=500)、高表达(表达值>500),针对每类基因数量进行统计。
(3)数据注释:
将过虑好的数据比对到增强子数据中,统计不同细胞实验能捕获到的增强子数,发现,测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时,增加大量的测序读序似乎对于捕获增强子的作用不显著。
(4)结果分析:
比较4组增强子在全基因组范围相互位点数据,在较大片段范围内(1Mbp),四个实验组数据重合度比较高,在更精细的范围内(1kb),4个实验组数据有着较大的区别,但是同一细胞系的重复试验差别小于不同细胞系。这表明用Hi-c捕获细胞系的染色质相互作用时,捕获到的是细胞系的一个平均的相互作用,一个细胞系存在着大量的细胞,很难保证每个细胞处于同样状态,由于基因表达的时空差异,染色质的在核内的三维空间也是一种动态的过程。目前的技术限制很难做到单细胞的染色质构象捕获。
将与增强子作用的位点进行注释,得到相应数据,与增强子作用次数最多的是基因(Genes,大约占0.39%),其次是重复序列序列(大约占0.20%),再次是基因上游20K的位置(Up20k,约占17%),再次是基因组其他序列(NO,约占13%),再次是基因下游的20K(Down20k,约占9%),最少的增强子(Enhancer,约占0.2%)。
每个增强子平均能捕获到几十个作用片段,说明增强子在起作用时候,增强子和其他序列形成了一个以基因为中心比较复杂的三维结构。在增强子相互作用的片段中,基因与增强子相互租用频率最高,这表明不管基因表达状况如何,和基因在三维空间上的距离都是靠近的。重复序列是一个高频率的相互作用类型,这表明有的重复序参与基因表达,有的增强子可能在维持染色质的三维结构上起着重要的作用。在4个实验中,重复序列L1和增强子相互作用频率是最高的,L1是一个富含AT的重复序列,包含了RNA聚合酶III的内部启动子。另外在基因上游20K区域也是个高频区,大多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。另外增强子与增强子也存在着相互作用,这可能提示基因需要多个增强子作用,以增强某个时刻的高表达。
该发明的有益效果在于:本发明运用染色体构象捕获技术及其衍生技术,能很好地得到细胞核内染色质三维构象的信息。通过分析核内染色质与染色质的相互作用,能知道基因的表达调控信息,鉴定一些未知调控序列。这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。
附图说明
图1是本发明实施例中增强子长度统计图。
图2是本发明实施例中增强子分布统计图。
图3是本发明实施例中不同表达条件下的基因数量统计图。
图4是本发明实施例中4组数据增强子在全基因组范围相互位点图(A表示hESC;B表示hESC replicate组;C表示replicate;D表示imr90replicate)。
图5是本发明实施例中增强子作用的位点百分比对比图。
图6是本发明实施例中增强子相互作用的片段图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便更好的理解本发明。
实施例
本实施例中的Hi-c数据来自Jesse R.Dixon等在2012年《Nature》发表的《Topological domains in mammalian genomes identified by analysis of chromatinintcractions》,从NCBI的GEO数据库中下载GSM862724(IMR90细胞系),GSM892307(IMR90重复实验数据),GSM862723(hESC细胞系),GSM892306(hESC重复实验数据)具体见http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE35156。增强子数据库:数据下载于http://enhancer.lbl.gov/;hESC细胞系、IMR90细胞系基因表达数据下载于:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE26855。
具体步骤及结果如下:
(1)数据转换:
由于增强子数据库的基因组位置是hg19而Hi-c的数据是hg18,本发明实施例中,用UCSC网站liftover软件把强子数据转换成hg18。对1760个增强子长度和分布进行统计分析,长度统计图见图1,分布统计图见图2。增强子的长度大多小于2kbp,在各染色体上的分布也不均匀。
(2)数据过虑:
根据Jesse R.Dixon等分析,认为当两个染色质片段距离小于100kb,其自连率将大大增加。本实施例过虑掉两个染色质片段距离小于100kb的数据,得到表1的结果。
表1:不同细胞系基因表达数据
hESC细胞系、IMR90细胞系都有两个重复实验的基因表达数据,求两个数据的平均值作为基因表达的量。根据基因或者转录本的表达量,把基因分为:低表达(表达值<50)、中表达(50<表达值<=500)、高表达(表达值>500),每类基因数量见图3。
(3)数据注释:
将过虑好的数据比对到增强子数据中,不同细胞实验能捕获到的增强子数见表2。测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时,增加大量的测序读序似乎对于捕获增强子的作用不显著。
表2:不同细胞实验能捕获到的增强子数
(4)结果分析:
比较4组实验数据增强子在全基因组范围相互位点(见图4),发现在较大片段范围内(1Mbp),四个实验组数据重合度比较高(该图中线条的密度跟趋势类似),跟JesseR.Dixon等所绘制的热图吻合,但是在更精细的范围内(1kb),4个实验组数据有着较大的区别,但是同一细胞系的重复试验差别小于不同细胞系。这表明用Hi-c捕获细胞系的染色质相互作用时,捕获到的是细胞系的一个平均的相互作用,一个细胞系存在着大量的细胞,很难保证每个细胞处于同样状态,由于基因表达的时空差异,染色质的在核内的三维空间也是一种动态的过程。由于实验技术限制目前很难做到单细胞的染色质构象捕获。
把与增强子作用的位点进行注释,注释结果见表3。与增强子作用次数最多的是基因(Genes,大约占0.39%),其次是重复序列序列(大约占0.20%),再次是基因上游20K的位置(Up20k,约占17%),再次是基因组其他序列(NO,约占13%),再次是基因下游的20K(Down20k,约占9%),最少的增强子(Enhancer,约占0.2%),这种趋势在这4个实施例过程中都是一致的(见图5)。
每个增强子平均能捕获到几十个作用片段,说明增强子在起作用时候,增强子和其他序列形成了一个以基因为中心比较复杂的三维结构(见图6)。在增强子相互作用的片段中,基因与增强子相互租用频率最高,这表明不管基因表达状况如何,其和基因在三维空间上的距离都是靠近的。重复序列是一个高频率的相互作用类型,这表明有的重复序参与基因表达,有的增强子可能在维持染色质的三维结构上起着重要的作用。例如在4个实验中,重复序列L1和增强子相互作用频率是最高的,L1是一个富含AT的重复序列,包含了RNA聚合酶III的内部启动子。另外在基因上游20K区域也是个高频区,大多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。另外增强子与增强子也存在着相互作用,这可能提示基因需要多个增强子作用,以增强某个时刻的高表达。
运用染色体构象捕获技术及其衍生技术能很好地得到细胞核内染色质三维构象的信息。通过分析核内染色质与染色质的相互作用,能知道基因的表达调控信息,鉴定一些未知调控序列。这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。由于技术的缺陷,现在还不能较好的捕获单细胞的染色质相互作用,所得到的染色质相互作用信息都是多细胞的,这些细胞存在各种差异,增加分析的难度。另外目前这些技术的分辨率大约在10Kb,在这范围内做太精细的分析也比较困难。
表3:增强子作用的位点注释结果
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (1)

1.一种增强子在全基因组相互作用研究方法,其特征在于:具体包括以下步骤:
(1)数据转换:采用UCSC网站liftover软件把增强子数据转换成hg18;对1760个增强子长度和分布进行统计分析得到统计分布图,从中发现,增强子的长度大多小于2kbp,在各染色体上的分布不均匀;
(2)数据过虑:过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求两个数据的平均值作为基因表达的量;根据基因或者转录本的表达量,把基因分为:低表达、中表达、高表达,低表达的表达值<50、中表达为50<表达值<=500、高表达的表达值>500,针对每类基因数量进行统计;
(3)数据注释:将过虑好的数据比对到增强子数据中,统计不同细胞实验能捕获到的增强子数,发现测序读序read数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时,增加大量的测序读序似乎对于捕获增强子的作用不显著;
(4)结果分析:比较4组增强子在全基因组范围相互位点数据,在较大片段范围内1Mbp,四个实验组数据重合度比较高,在更精细的范围内1kb,4个实验组数据有着较大的区别,但是同一细胞系的重复试验差别小于不同细胞系;将与增强子作用的位点进行注释,得到相应数据,与增强子作用次数最多的是基因Genes,占0.39%,其次是重复序列序列,占0.20%,再次是基因上游20K的位置,Up20k,占0.17%,再次是基因组其他序列N0,占0.13%,再次是基因下游的20K,占0.09%,最少的增强子,Enhancer,占0.002%;在4个实验中,重复序列L1和增强子相互作用频率是最高的,L1是一个富含AT的重复序列,包含了RNA聚合酶III的内部启动子;另外在基因上游20K区域也是个高频区,大多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。
CN201310584990.3A 2013-11-14 2013-11-14 增强子在全基因组相互作用研究方法 Expired - Fee Related CN103646192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310584990.3A CN103646192B (zh) 2013-11-14 2013-11-14 增强子在全基因组相互作用研究方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310584990.3A CN103646192B (zh) 2013-11-14 2013-11-14 增强子在全基因组相互作用研究方法

Publications (2)

Publication Number Publication Date
CN103646192A CN103646192A (zh) 2014-03-19
CN103646192B true CN103646192B (zh) 2017-06-09

Family

ID=50251405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310584990.3A Expired - Fee Related CN103646192B (zh) 2013-11-14 2013-11-14 增强子在全基因组相互作用研究方法

Country Status (1)

Country Link
CN (1) CN103646192B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197431B (zh) * 2018-01-24 2022-04-05 清华大学 染色质相互作用差异的分析方法和系统
CN108334749B (zh) * 2018-02-06 2020-07-28 西安交通大学 一种基于染色质调控环路检测复杂疾病上位性的方法及系统
CN111254160B (zh) * 2020-03-30 2021-10-19 扬州大学 一种高效鉴定水稻增强子的原生质体验证方法
CN111613270B (zh) * 2020-04-21 2023-03-31 西安电子科技大学 基于机器学习分析基因上游启动子对表达影响强度的方法
CN115083517B (zh) * 2022-07-07 2023-04-18 南华大学附属第一医院 一种识别增强子与超级增强子的数据处理方法及其系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hume Stroud et al..5-Hydroxymethylcytosine is associated with enhancers and gene bodies in human embryonic stem cells.《Genome Biology》.2011,第1-8页. *
Topological domains in mammalian genomes identified by analysis of chromatin interactions;Jesse R.Dixon et al.;《LETTER》;20120517;第485卷;第376-340页 *
端脑发育中不同浓度骨形态发生蛋白4对同源域转录因子胰岛素基因增强子蛋白1表达的调节作用;周莉等;《中国组织工程研究与临床康复》;20070909;第‖卷(第36期);第7154-7156页 *
高职院校药学专业物理化学教学改革研究;卑占宇等;《教育论坛》;20110331;第8卷(第8期);第106-108页 *

Also Published As

Publication number Publication date
CN103646192A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103646192B (zh) 增强子在全基因组相互作用研究方法
Jia et al. Single cell RNA-seq and ATAC-seq analysis of cardiac progenitor cell transition states and lineage settlement
Ramírez et al. High-resolution TADs reveal DNA sequences underlying genome organization in flies
Liu et al. Microarray expression profile and functional analysis of circular RNAs in osteosarcoma
Mizuguchi et al. Cohesin-dependent globules and heterochromatin shape 3D genome architecture in S. pombe
Arvey et al. Sequence and chromatin determinants of cell-type–specific transcription factor binding
Kuan et al. A statistical framework for the analysis of ChIP-Seq data
Meng et al. Toward microRNA-mediated gene regulatory networks in plants
Olan et al. Transcription-dependent cohesin repositioning rewires chromatin loops in cellular senescence
Iancu et al. Cosplicing network analysis of mammalian brain RNA-Seq data utilizing WGCNA and Mantel correlations
Powers et al. Molecular classification of adult renal epithelial neoplasms using microRNA expression and virtual karyotyping
CN107506614B (zh) 一种细菌ncRNA预测方法
Signaroldi et al. Polycomb dysregulation in gliomagenesis targets a Zfp423-dependent differentiation network
CN114708910A (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
Han et al. Network-based integrated analysis of omics data reveal novel players of TGF-β1-induced EMT in human peritoneal mesothelial cells
Chen et al. An automated RNA‐Seq analysis pipeline to identify and visualize differentially expressed genes and pathways in CHO cells
Nguyen et al. Evaluation of methods to detect circular RNAs from single-end RNA-sequencing data
Pascuzzi et al. In vivo mapping of arabidopsis scaffold/matrix attachment regions reveals link to nucleosome-disfavoring poly (dA: dT) tracts
CN110428866A (zh) 基于网络融合多组学数据的癌症相关通路识别方法
CN105426700A (zh) 一种批量计算基因组直系同源基因进化速率的方法
Wang et al. Inferring pathway crosstalk networks using gene set co-expression signatures
Vacca et al. Conserved temporal ordering of promoter activation implicates common mechanisms governing the immediate early response across cell types and stimuli
CN103348350B (zh) 核酸信息处理装置及其处理方法
Zhao et al. ASJA: a program for assembling splice junctions analysis
Liu et al. Insights from multidimensional analyses of the pan‐cancer DNA methylome heterogeneity and the uncanonical CpG–gene associations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170609

Termination date: 20171114