CN108319814B - 基于染色体空间相互作用预测长非编码rna生物学功能的方法 - Google Patents

基于染色体空间相互作用预测长非编码rna生物学功能的方法 Download PDF

Info

Publication number
CN108319814B
CN108319814B CN201810082985.5A CN201810082985A CN108319814B CN 108319814 B CN108319814 B CN 108319814B CN 201810082985 A CN201810082985 A CN 201810082985A CN 108319814 B CN108319814 B CN 108319814B
Authority
CN
China
Prior art keywords
coding rna
long non
coding
rna
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810082985.5A
Other languages
English (en)
Other versions
CN108319814A (zh
Inventor
范珍
陈小伟
陈润生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Biophysics of CAS
Original Assignee
Institute of Biophysics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Biophysics of CAS filed Critical Institute of Biophysics of CAS
Priority to CN201810082985.5A priority Critical patent/CN108319814B/zh
Publication of CN108319814A publication Critical patent/CN108319814A/zh
Application granted granted Critical
Publication of CN108319814B publication Critical patent/CN108319814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于染色体空间相互作用预测长非编码RNA生物学功能的方法。本发明的方法包括如下步骤:1)选择候选长非编码RNA;2)确定长非编码RNA在全基因组范围内的结合位点;3)确定组织细胞中染色体精细的空间相互作用数据;4)预测长非编码RNA的靶基因;5)GO功能富集分析,预测长非编码RNA的生物学功能。本发明的方法能够结合最新的染色体空间相互作用数据,提高长非编码RNA生物学功能预测的准确性。

Description

基于染色体空间相互作用预测长非编码RNA生物学功能的 方法
技术领域
本发明涉及分子生物学、功能基因组学和生物信息学领域,具体涉及一种基于染色体空间相互作用预测长非编码RNA生物学功能的方法。
背景技术
人类基因组计划已经完成,但是对基因组还有待于进一步认识,蕴含在其中的大量功能元件仍然未被发现。ENCODE计划最新公布的数据显示,人类基因组74.7%的区域能够发生转录,而蛋白质编码基因的外显子区只占人类基因组的2.94%。说明人类基因组大部分的转录产物不能编码蛋白质。转录组可以分为能够编码蛋白质的信使RNA(mRNA)和不能够编码蛋白质的非编码RNA。发现较早的非编码RNA有参与蛋白质合成的转运RNA(tRNA)和核糖体RNA(rRNA)等。上世纪90年代初,研究人员发现了一种新的非编码RNA--长非编码RNA。长非编码RNA(long noncoding RNA,lncRNA)是一类长度大于200个核苷酸并且不具有编码蛋白质能力的核糖核酸。1989年,科学家们发现了第一个长非编码RNA H19,并发现该RNA分子能够参与基因印记过程。1990年,科学家找到了参与X染色体失活的lncRNA并将其命名为Xist。之后,随着高通量检测技术(如基因芯片和高通量测序技术)地不断发展,数以万计的长非编码RNA已被科学家们发现。根据长非编码RNA相对于附近蛋白编码基因所在的基因组位置关系,大致可以将其分为以下五类:Exonic lncRNA(外显子型lncRNA)、Intronic lncRNA(内含子型lncRNA)、Antisense lncRNA(反义型lncRNA)、DivergentlncRNA(反向型lncRNA)和Intergenic lncRNA(基因间型lncRNA)。
随着lncRNA大量地被发现,针对其功能进行的研究也逐渐增多。目前已知的lncRNA的作用机制大致可以分为以下几种:(一)lncRNA作为诱饵分子通过与蛋白质或者其他分子相结合,阻断其与其靶向目标物的结合,从而影响所结合分子的原有功能。一个比较经典的例子是lncRNA作为内源RNA分子与mRNA竞争性结合miRNA,影响了miRNA与mRNA的结合,进而间接上调了mRNA的表达。例如长非编码RNAlinc-RoR能够跟胚胎干细胞分化相关核心转录因子Oct4、Sox2和Nanog竞争性结合miR-145,从而阻止miR-145对Oct4等基因的抑制,linc-RoR、转录因子和miR-145共同构成一个调控环路调控胚胎干细胞的干性维持与分化。(二)lncRNA作为脚手架,促使生物大分子之间的相互作用以及蛋白质复合物的形成,如HOTAIR。HOTAIR的5’端能够跟PRC2蛋白结合,3’端能够跟LSD1/CoREST/REST复合物结合,PRC2具有组蛋白甲基转移酶活性,能够使H3组蛋白第27位的赖氨酸发生三甲基化,从而沉默基因的转录,而LSD1具有去甲基化酶的活性,能够使H3组蛋白第4位的赖氨酸去甲基化。HOTAIR作为脚手架分子将两种不同的染色质修饰复合物联系起来共同沉默基因的表达。(三)lncRNA作为向导,指引蛋白质复合物到特定的地点或者基因组区域行使功能。受p53调控的长非编码RNAlincRNA-p21是一个很好的例子。在小鼠中lincRNA-p21能够抑制p53依赖的转录应答。lincRNA-p21能够跟hnRNP-K相互作用把hnRNP-K引导到特定的基因组位置去抑制基因的表达。
伴随着lncRNA的系统发现和lncRNA功能机制研究的显著进展,人们也开始探讨lncRNA与疾病的关系。lncRNA与代谢疾病、神经退行性疾病、精神疾病、心血管疾病和自身免疫疾病的关系都有明确的报道,但是还是主要集中在肿瘤的研究上。HOTAIR是从HOX基因位点转录出来的一个lncRNA,其作用机制已经有所了解,同时HOTAIR与很多种肿瘤密切相关。在2010年,Howard Y.Chang实验室发现HOTAIR在乳腺癌的原发灶和转移灶中表达显著上调,因此,HOTAIR在肿瘤组织中的表达水平可以作为预测肿瘤转移的分子标识物。在上皮肿瘤细胞中过表达HOTAIR,导致PRC2靶向目标的改变,进而影响H3K27的甲基化、相应基因的表达,最终增强了肿瘤细胞侵袭和转移的能力。2011年,研究人员在结肠癌中发现了同样的结果,HOTAIR在癌组织中的表达水平要高于癌旁组织,而且HOTAIR的高表达与结肠癌的肝转移显著相关。结合患者的随访信息,还发现HOTAIR表达水平高的患者预后较差。研究人员在前列腺癌组织中发现了很多组织特异性表达的长非编码RNA,例如PCA3/DD3、PCGEM1、PCAT-1、PRNCR1等。除了以上列举的一些癌症相关的lncRNA,还有一些诸如aHIF、ANRIL、Oct4-pg、PTENP1和BC200等在神经母细胞瘤、乳腺癌、胶质瘤、结直肠癌、神经退行性等疾病中有功能的长非编码RNA。近些年来在几乎各种已知的各种肿瘤中都发现了lncRNA的存在以及两者间的显著关联,表明了lncRNA在肿瘤发生发展中起到了至关重要的作用。
GENCODE最新公布的第27版的数据中包括了27,908条长非编码RNA,其中却仅有一小部分的lncRNA的功能被报道。由于lncRNA在生物体中发挥着重要作用以及其与许多疾病密切相关,因此对其进行的研究日益增多。然而,lncRNA自身结构比较复杂,对于它们如何发挥功能还需进一步深入地研究。目前,对lncRNA功能进行预测的方法主要是通过基因表达量的信息来确定的。最早的关于lncRNA功能预测的方法是由在2009年提出的关联推定(Gulit by association)的方法。该方法的假定是共表达的RNA更有可能会受到同样的调控,并倾向于具有相似的功能或者参与相同的生物过程。通过分析lncRNA和mRNA的共表达水平,得到与所研究lncRNA显著相关的mRNA。由于mRNA的功能大都是已知的,可以通过将富集出的mRNA的功能或参与的通路推定给该lncRNA。通过这一方法,John L.Rinn等发现TUG1能够与PRC2结合并且参与p53依赖型细胞周期的调控过程。随后又衍生出一些相似的lncRNA功能的预测方法,如ncFANs和lnc-GFP。ncFANs和lnc-GFP主要基于长非编码RNA与蛋白质编码基因表达的相关性以及蛋白质之间的相互作用来预测长非编码RNA的生物学功能。由于长非编码RNA的表达水平通常低于蛋白质编码基因,目前的预测往往不能为长非编码RNA的生物学功能研究提供有效的线索。
发明内容
本发明的目的在于提供一种基于染色体空间相互作用预测长非编码RNA生物学功能的方法,能够结合最新的染色体空间相互作用数据,提高长非编码RNA生物学功能预测的准确性。
为了解决上述技术问题,本发明提供了一种预测长非编码RNA生物学功能的方法。
本发明提供的预测长非编码RNA生物学功能的方法包括如下步骤:
(1)确定细胞中长非编码RNA在全基因组范围内结合位点,根据所述长非编码RNA结合位点的基因组定位信息,以所述长非编码RNA结合位点的中心位置为准,将所述长非编码RNA结合位点的基因组定位向上下游进行扩展,得到扩展后结合位点区域内的基因,并将其作为所述长非编码RNA的候选靶基因;
(2)确定所述细胞中染色体空间相互作用数据,得到与所述长非编码RNA结合位点在空间上有相互作用的基因组区域,将与所述长非编码RNA结合位点在空间上有相互作用的基因组区域向上下游进行扩展,得到扩展后基因组区域内的基因,并将其作为所述长非编码RNA远程调控的候选靶基因;
(3)分别计算所述长非编码RNA与步骤(1)和(2)中获得的所述候选靶基因表达水平的皮尔森相关性,得到所述长非编码RNA与所述候选靶基因表达水平的皮尔森相关系数,根据所述皮尔森相关系数的大小选择候选靶基因作为所述长非编码RNA的靶基因;
(4)对步骤(3)获得的所述长非编码RNA的靶基因进行GO功能富集分析,得到所述长非编码RNA的生物学功能。
上述方法中,所述确定细胞中长非编码RNA在全基因组范围内结合位点的方法为现有技术中公知方法,该方法在文献“Simon等,The genomic binding sites of anoncoding RNA.PNAS.108:20497–20502.”中公开过。本领域技术人员可根据现有技术中公知方法来确定长非编码RNA在全基因组范围内的结合位点。具体方法包括如下步骤:
步骤S21、收集细胞并用1%甲醛交联,然后加入裂解液,得到交联的细胞核。
步骤S22、设计靶标长非编码RNA的捕获寡核苷酸,并对其进行生物素标记,得到标记后的寡核苷酸。
步骤S23、加入超声缓冲液进行超声处理,将其打断到约300bp的片段,得到超声后的细胞核提取物。
步骤S24、将所述标记后的寡核苷酸与所述超声后的细胞核提取物混匀,室温孵育过夜。
步骤S25、加入链霉素磁珠孵育,得到结合产物。因为链霉素可以与寡核苷酸上所带的生物素结合从而拉下靶标RNA,同时与靶标RNA相结合的DNA片段也被捕获到。
步骤S26、用洗涤液清洗所述结合产物几次,以除去非特异性的结合。
步骤S27、将清洗后的结合产物从珠子上洗脱下来构建文库并进行测序分析,确定长非编码RNA在全基因组范围内的结合位点。该结合位点是指长非编码RNA在全基因组范围内的具体结合位置,如某染色体的第几位至第几位。
上述方法中,所述确定细胞中染色体空间相互作用数据的方法为现有技术中公知方法,该方法在文献“Goh等,Chromatin Interaction Analysis with Paired-End TagSequencing(ChIAPET)for Mapping Chromatin Interactions and UnderstandingTranscription Regulation.JOVE.62.”中公开过。本领域技术人员可根据现有技术中公知方法来确定细胞中染色体空间相互作用数据。具体方法包括如下步骤:
步骤S31、收集细胞并用1%甲醛交联,然后加入细胞质裂解液和细胞核裂解液,获得交联的染色质。
步骤S32、将交联的染色质进行超声处理,将其打断到约300bp的片段,之后用IgG磁珠孵育过夜,以除去非特异性结合的DNA,得到预纯化后的染色质。与此同时,用RNA聚合酶Ⅱ的抗体孵育IgG磁珠过夜,使抗体结合在磁珠表面。
步骤S33、次日,将预纯化后的染色质与用抗体包被后的磁珠混匀,孵育过夜,使磁珠与所需的目标染色质相结合,得到结合产物。
步骤S34、用洗涤液清洗结合产物几次,以除去非特异性的结合。
步骤S35、将结合产物从珠子上洗脱下来并测定浓度。
步骤S36、将洗脱下来的染色质DNA碎片分为两等分,分别用不同DNA半连接子(A/B)连接,两个连接子除了中间的两个核苷酸不一样之外(连接子A是CG;连接子B是AT),其他部分的核苷酸序列完全相同。
步骤S37、在连接子进行连接后去除多余的序列,将两部分混合,两等分又会重新结合到一起发生邻近式连接。在邻近连接时,如果同一个染色质复合物内的DNA碎片被相同的连接子连接在一起,那么则会产生同源二聚体形式的连接产物(即AA或BB)。然而,如果连接反应发生在不同染色质的DNA碎片之间,那么这样非特异性连接的产物将有50%的几率形成异源二聚体的形式(AB或者BA)。这些异源二聚体的连接子可以作为非特异性连接的标志,用来评估每一次建立ChIA-PET文库发生非特异性连接概率的大小。
步骤S38、在邻近连接之后,获得的连接产物可以用来提取配对的末端标签(PET),这些末端标签的模板将被用来构建文库并进行测序分析,得到细胞中染色体空间相互作用数据。
上述方法中,所述GO功能富集分析的方法包括如下步骤:将所述长非编码RNA的靶基因与GO term中的基因进行比较,通过超几何分布检验基因富集的显著性,并且按照FDR排序,选取靶基因富集最显著的15个GO term作为所述长非编码RNA的生物学功能。
上述方法中,所述步骤(1)中,将所述长非编码RNA结合位点的基因组定位向上下游各扩展5kb;所述步骤(2)中,将与所述长非编码RNA结合位点在空间上有相互作用的基因组区域向上下游各扩展5kb。
上述方法中,所述步骤(3)中,选择皮尔森相关系数绝对值大于0.3的候选靶基因作为长非编码RNA的靶基因。
上述方法中,所述步骤(1)前还包括选择长非编码RNA的步骤;
所述选择长非编码RNA的方法包括如下步骤:
1)收集长非编码RNA的注释数据,得到长非编码RNA数据集;
2)去除所述长非编码RNA数据集之间的冗余,得到完备的长非编码RNA数据集;从所述完备的长非编码RNA数据集中过滤掉没有实验证据支持和注释数据不一致的长非编码RNA,得到过滤后的长非编码RNA数据集;
3)从所述过滤后的长非编码RNA数据集中选取表达量高且位于蛋白质编码基因间区域独立转录的长非编码RNA,并确定其细胞核与细胞质定位信息,选择至少90%定位在细胞核的长非编码RNA,即为步骤(1)中所述的长非编码RNA。
上述方法中,步骤1)中,所述注释数据包括名称、基因组定位、序列和表达水平。在本发明中,所述注释数据收集自公开发表的文献:Cabili等,Integrative annotation ofhuman large intergenic noncoding RNAs reveals global properties and specificsubclasses.2011.Genes Dev 25:1915-27和GENCODE公共数据库(公开GENCODE公共数据库的文献如下:GENCODE.Harrow等,GENCODE:the reference human genome annotation forThe ENCODE Project.Genome Research.2012.22:1760-74.,GENCODE公共数据库的查询网址如下:http://www.gencodegenes.org/)。
上述方法中,步骤2)中,利用所述长非编码RNA数据集间的交叉注释、序列相似性比对和基因组定位的方法去除所述长非编码RNA数据集之间的冗余,使序列相似度大于95%、基因组位置重叠度大于95%,得到完备的长非编码RNA数据集。
上述方法中,步骤3)中,所述表达量高为在至少1个组织中FPKM>1。
上述方法中,所述细胞可为常见细胞系,如HCT116细胞系、HeLa细胞系、K562细胞系等。在本发明中,所述细胞具体为MCF-7细胞系。
上述方法中,所述长非编码RNA为MALAT1。利用上述方法预测其生物学功能如下:1)参与mRNA、rRNA等转录后加工代谢过程;2)mRNA翻译调控;3)与蛋白质结合;4)与具有多聚A尾的RNA结合;5)基于SRP的膜靶向共翻译蛋白;6)病毒转录。本发明预测的功能与文献“Hutchinson等,A screen for nuclear transcripts identifies two linkednoncoding RNAs associated with SC35splicing domains.2007.BMC Genomics 8:39;Bernard等,A long nuclear-retained non-coding RNA regulates synaptogenesis bymodulating gene expression.2010.EMBO J.29:3082-3093”中已经证实的MALAT1在细胞核内能够与其他蛋白质结合,参与mRNA的转录后加工代谢过程的结果一致。
本发明基于染色体空间相互作用提供了一种预测长非编码RNA生物学功能的方法。本发明的方法包括如下步骤:1)选择候选长非编码RNA;2)确定细胞中长非编码RNA在全基因组范围内的结合位点;3)确定细胞中染色体精细的空间相互作用数据;4)预测长非编码RNA的靶基因;5)GO功能富集分析,预测长非编码RNA的生物学功能。本发明的预测方法能够结合最新的染色体空间相互作用数据,提高长非编码RNA生物学功能预测的准确性。
具体实施方式
为了使本发明的技术方案和优点更加清楚明白,以下结合实施例对本发明进行进一步说明。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1、基于染色体空间相互作用预测长非编码RNA生物学功能的方法
一、选择候选长非编码RNA
1、构建完备的长非编码RNA数据集
从公开发表的文献:Cabili等,Integrative annotation of human largeintergenic noncoding RNAs reveals global properties and specificsubclasses.2011.Genes Dev25:1915-27和GENCODE公共数据库(公开GENCODE公共数据库的文献如下:GENCODE.Harrow等,GENCODE:the reference human genome annotation forThe ENCODE Project.Genome Research.2012.22:1760-74.,GENCODE公共数据库的查询网址如下:http://www.gencodegenes.org/)中收集长非编码RNA的注释数据,包括名称、基因组定位、序列和表达水平等信息,得到长非编码RNA数据集。
利用数据集间的交叉注释、序列相似性比对和基因组定位的方法去除数据集之间的冗余,使序列相似度大于95%、基因组位置重叠度大于95%,得到完备的长非编码RNA数据集。
2、对长非编码RNA数据集进行过滤
从完备的长非编码RNA数据集中过滤掉没有实验证据支持、注释数据不一致的长非编码RNA,得到过滤后的长非编码RNA数据集。
3、确定长非编码RNA的核质定位比例
从过滤后的长非编码RNA数据集中选取表达量高(在至少1个组织中FPKM>1)且位于蛋白质编码基因间区域独立转录的长非编码RNA,利用细胞核质分提实验和RNA原位杂交技术确定这些长非编码RNA的细胞核与细胞质定位信息,选择至少90%定位在细胞核的长非编码RNA作为候选长非编码RNA。
二、确定细胞中长非编码RNA在全基因组范围内的结合位点
1、收集细胞并用1%(体积分数)甲醛交联,然后加入裂解液,得到交联的细胞核。
2、设计靶标RNA的捕获寡核苷酸,并对其进行生物素标记,得到生物素标记的捕获寡核苷酸。
3、向步骤1中的交联的细胞核中加入超声缓冲液进行超声处理,将其打断到约300bp的片段,得到超声后的细胞核提取物。
4、将步骤2中的生物素标记的捕获寡核苷酸与步骤3中的超声后的细胞核提取物混匀,室温孵育过夜,得到捕获反应产物。
5、向步骤4中的捕获反应产物中加入链霉素磁珠,孵育,得到结合后产物。因为链霉素可以与寡核苷酸上所带的生物素结合,从而捕获得到与寡核苷酸相结合的靶标RNA,同时与靶标RNA相结合的DNA片段也被捕获到。
6、用洗涤液清洗步骤5中的结合后产物几次,以除去非特异性的结合。
7、将结合到的CHART-DNA(清洗后的结合后产物)从珠子上洗脱下来构建文库,并进行测序分析,得到长非编码RNA在全基因组范围内的结合位点的基因组定位信息。
三、确定细胞中染色体精细的空间相互作用数据
1、收集细胞并用1%(体积分数)甲醛交联,然后加入细胞质裂解液和细胞核裂解液,获得交联的染色质。
2、向步骤1获得的交联的染色质中加入超声缓冲液进行超声处理,将其打断到约300bp的片段,然后加入IgG磁珠,孵育过夜,以除去非特异性结合的DNA,得到预纯化后的染色质;与此同时,用RNA聚合酶Ⅱ的抗体孵育IgG磁珠过夜,使抗体结合在磁珠表面,得到用抗体包被后的磁珠。
3、次日,将步骤2中的预纯化后的染色质与用抗体包被后的磁珠混匀,孵育过夜,使磁珠与所需的目标染色质相结合,得到结合后产物。
4、用洗涤液清洗步骤3中的结合后产物几次,以除去非特异性的结合。
5、将结合到的ChIP-DNA(清洗后的结合后产物)从珠子上洗脱下来,得到染色质DNA碎片并测定其浓度。
6、将染色质DNA碎片分为两等分,分别用不同DNA半连接子:连接子A和连接子B连接,分别得到连接产物A和连接产物B。两个连接子除了中间的两个核苷酸不一样之外(连接子A是CG;连接子B是AT),其他部分的核苷酸序列完全相同。
连接子A:5’-GGCCGCGAT(biotin)ATCTTATCCAAC-3’;
5’-GTTGGATAAGATATCGC-3’;
连接子B:
5’-GGCCGCGAT(biotin)ATACATTCCAAC-3’;
5’-GTTGGAATGTATATCGC-3’。
7、在连接子连接后,去除连接产物中多余的序列,然后将两部分连接产物混合,两等分又会重新结合到一起发生邻近式连接。在邻近连接时,如果同一个染色质复合物内的DNA碎片被相同的连接子连接在一起,那么则会产生同源二聚体形式的连接产物(即AA或BB)。然而,如果连接反应发生在不同染色质的DNA碎片之间,那么这样非特异性连接的产物将有50%的几率形成异源二聚体的形式(AB或者BA)。这些异源二聚体的连接子可以作为非特异性连接的标志,用来评估每一次建立ChIA-PET文库发生非特异性连接概率的大小。
8、在邻近连接之后,获得的连接产物可以用来提取配对的末端标签(PET),这些末端标签的模板将被用来构建文库并进行测序分析,根据分析结果确定组织细胞中染色体精细的空间相互作用数据。
四、预测长非编码RNA的靶基因
1、根据步骤二获得的长非编码RNA在全基因组范围内结合位点的基因组定位信息,以长非编码RNA结合位点的中心位置为准,将结合位点的基因组定位向上下游各扩展5kb,寻找扩展后结合位点区域内的基因,作为长非编码RNA的候选靶基因。
2、结合步骤三中获得的染色体空间相互作用数据,得到与长非编码RNA结合位点在空间上有相互作用的基因组区域,将与长非编码RNA结合位点在空间上有相互作用的基因组区域向上下游各扩展5kb,寻找扩展后基因组区域内的基因,作为长非编码RNA远程调控的候选靶基因。
3、分别计算长非编码RNA与步骤1和步骤2获得的候选靶基因表达水平的皮尔森相关性,选择皮尔森相关系数绝对值大于0.3的基因作为长非编码RNA的靶基因。
五、GO功能富集分析
基于步骤四预测到的长非编码RNA的靶基因,准备Gene Ontology进行GO功能富集分析,预测长非编码RNA的生物学功能。具体方法如下:将预测的长非编码RNA的靶基因与GOterm中的基因进行比较,通过超几何分布检验基因富集的显著性,并且按照FDR排序,选取靶基因富集最显著的15个GO term作为预测的长非编码RNA的生物学功能。
实施例2、基于染色体空间相互作用预测长非编码RNA的生物学功能的方法的应用
一、选择候选长非编码RNA
按照实施例1步骤一中的方法,从完备的长非编码RNA数据集中选取长非编码RNA----MALAT1(NR_144568.1)作为靶标RNA,其序列如序列1所示。
二、确定长非编码RNA在全基因组范围内的结合位点
参照文献“Simon等,The genomic binding sites of a noncodingRNA.PNAS.108:20497–20502.”中的方法确定长非编码RNA----MALAT1在全基因组范围内的结合位点,具体步骤如下:
1、收集MCF-7细胞(购自ATCC,ATCC编号为HTB-22)并用1%(体积分数)甲醛交联,然后加入裂解液,得到交联的细胞核。
上述裂解液由溶质和溶剂组成,溶剂为水,溶质及其浓度分别如下:0.3M蔗糖,1%(体积分数)Triton X-100,10mM Hepes(pH7.5),100mM KOAc,0.1mM EGTA,0.5mMspermidine,0.15mM spermine,Roche protease inhibitor tablet(终浓度为1×),1mMDTT,10U/mL SUPERasIN。
2、设计靶标RNA的捕获寡核苷酸,并对其进行生物素标记。序列如下:
MALAT1CO1:5’-CCTCAGTCCTAGCTTCATCAAACAC-3’;
MALAT1CO2:5’-GTCTTTCCTGCCTTAAAGTTACATTCG-3’,
3、向步骤1中的交联的细胞核中加入超声缓冲液进行超声处理,将其打断到约300bp的片段,得到超声后的细胞核提取物。
上述超声缓冲液由溶质和溶剂组成,溶剂为水,溶质及其浓度分别如下:50mMHEPES(pH7.5),75mM NaCl,0.5%(体积分数)N-lauroylsarcosine,0.1%(质量分数)Sodium deoxycholate,0.1mM EGTA,10U/mL RNase inhibitor(Promega),1mM DTT,EDTA-free protease inhibitors(Roche)(终浓度为1×)。
4、分别将步骤2中的捕获寡核苷酸MALAT1CO1和MALAT1CO2与上述超声后的细胞核提取物混匀,使其在体系中的浓度为800nM,室温孵育过夜,得到捕获反应产物。
5、向步骤4中的捕获反应产物中加入链霉素磁珠(Thermo Fisher),孵育,得到结合后产物。因为链霉素可以与寡核苷酸上所带的生物素结合,从而捕获得到与寡核苷酸相结合的靶标RNA,同时与靶标RNA相结合的DNA片段也被捕获到。
6、用洗涤液清洗步骤5中的结合后产物5次,以除去非特异性的结合,将结合到的CHART-DNA(清洗后的结合后产物)从珠子上洗脱下来,得到洗脱后产物。
上述洗涤液由溶质和溶剂组成,溶剂为水,溶质及其浓度分别如下:250mM NaCl,10mM Hepes(pH7.5),2mM EDTA,1mM EGTA,0.2%(质量分数)SDS,0.1%(体积分数)N-lauroylsarcosine。
7、用UltraTMII DNA文库试剂盒(E7645,NEB)基于步骤6中的洗脱后产物构建文库并在HiSeq测序仪上进行双端测序,读长为150bp,得到长非编码RNA----MALAT1在全基因组范围内的结合位点的基因组定位信息。长非编码RNA----MALAT1在全基因组范围内的部分结合位点的基因组定位信息如表1所示。
表1、长非编码RNA在全基因组范围内的部分结合位点的基因组定位信息
染色体 起始位置 终止位置 染色体 起始位置 终止位置
chrX 487470 489494 chr12 53877191 53883847
chrX 47087417 47092798 chr12 54676535 54682708
chrX 47429400 47436909 chr12 56523830 56540021
chrX 53221822 53227414 chr12 56546142 56575584
chrX 102863193 102868966 chr12 57482722 57495331
chrX 148596815 148622801 chr12 57888888 57900750
chrX 149100310 149105408 chr12 57902032 57914198
chrX 149107501 149119517 chr12 57916740 57922190
chr13 21720418 21727979 chr12 58090234 58104267
chr13 31028903 31036337 chr12 58120340 58130244
chr13 45902467 45912415 chr12 120652615 120660612
chr12 72333 94851 chr12 122263587 122269628
chr12 6496679 6501905 chr11 402881 416346
chr12 7052459 7059633 chr11 1752753 1777796
chr12 49214454 49223861 chr11 45921504 45934624
chr12 49393087 49395788 chr11 46801591 46805630
chr12 49949005 49952902 chr11 47258926 47270661
chr12 49992379 49995639 chr11 47433173 47442251
chr12 50169950 50180651 chr11 47853358 47870210
chr12 50489090 50493535 chr11 60654475 60661177
chr12 50525386 50534964 chr11 62335455 62346170
chr12 51764786 51769143 chr11 62389184 62401223
chr12 52573154 52584121 chr11 62576999 62580230
chr12 53280250 53297672 chr11 62647911 62661477
chr12 53331957 53349613 chr11 63972636 63980148
chr12 53429418 53441113 chr11 63989874 63994357
chr12 53448638 53462892 chr11 64521128 64533637
chr12 53594214 53602269 chr11 64571906 64604174
chr12 53607614 53625986 chr11 64809536 64815174
chr12 53691423 53698792 chr11 64864004 64906084
三、确定组织细胞中染色体精细的空间相互作用数据
参考文献“Goh等,Chromatin Interaction Analysis with Paired-End TagSequencing(ChIAPET)for Mapping Chromatin Interactions and UnderstandingTranscription Regulation.JOVE.62.”中的方法确定细胞中染色体精细的空间相互作用情况,具体步骤如下:
1、收集1×108个MCF-7细胞(购自ATCC)并用1%(体积分数)甲醛交联,然后加入15mL细胞质裂解液裂解细胞,得到细胞核提取物,再向细胞核提取物中加入15mL细胞核裂解液,获得交联的染色质。
上述细胞质裂解液由溶质和溶剂组成,溶剂为水,溶质及其浓度分别如下:50mMHEPES(pH7.5),150mM NaCl,1mM EDTA,1%(体积分数)Triton X-100,0.1%(体积分数)Sodium Deoxycholate,0.1%(质量分数)SDS,Protease inhibitor(Roche)(终浓度为1×)。
上述细胞核裂解液由溶质和溶剂组成,溶剂为水,溶质及其浓度分别如下:50mMHEPES(pH7.5),150mM NaCl,1mM EDTA,1%Triton X-100,0.1%Sodium Deoxycholate,1%(质量分数)SDS,Protease inhibitor(Roche)(终浓度为1×)。
2、向步骤1获得的交联的染色质中加入超声缓冲液进行超声处理,将其打断到约300bp的片段,然后加入IgG磁珠(Thermo Fisher),孵育过夜,以除去非特异性结合的DNA,得到预纯化后的染色质;与此同时,用RNA聚合酶Ⅱ的抗体(Covance,MMS-126R)孵育IgG磁珠过夜,使抗体结合在磁珠表面,得到抗体包被后的磁珠。
3、次日,将步骤2中的预纯化后的染色质与抗体包被后的磁珠混匀,孵育过夜,使磁珠与所需的目标染色质相结合,得到结合后产物。
4、用洗涤液清洗步骤3中的结合后产物5次,以除去非特异性的结合。
5、将结合到的ChIP-DNA(清洗后的结合后产物)从珠子上洗脱下来,得到染色质DNA碎片并测定其浓度。
6、将染色质DNA碎片分为两等分,分别用不同DNA半连接子:连接子A和连接子B连接,分别得到连接产物A和连接产物B。两个连接子除了中间的两个核苷酸不一样之外(连接子A是CG;连接子B是AT),其他部分的核苷酸序列完全相同。
7、在连接子连接后,去除连接产物中多余的序列,然后将两部分连接产物混合,两等分又会重新结合到一起发生邻近式连接。在邻近连接时,如果同一个染色质复合物内的DNA碎片被相同的连接子连接在一起,那么则会产生同源二聚体形式的连接产物(即AA或BB)。然而,如果连接反应发生在不同染色质的DNA碎片之间,那么这样非特异性连接的产物将有50%的几率形成异源二聚体的形式(AB或者BA)。这些异源二聚体的连接子可以作为非特异性连接的标志,用来评估每一次建立ChIA-PET文库发生非特异性连接概率的大小。
8、在邻近连接之后,获得的连接产物可以用来提取配对的末端标签(PET),基于末端标签的模板用UltraTMII DNA文库试剂盒(E7645,NEB)构建文库并在HiSeq测序仪上进行双端测序,读长为150bp,得到染色体精细的空间相互作用数据。染色体精细的空间相互作用部分数据结果如表2所示。
表2、染色体精细的空间相互作用部分数据结果
四、预测长非编码RNA的靶基因
1、根据步骤二获得的长非编码RNA----MALAT1在全基因组范围内结合位点的基因组定位信息,以长非编码RNA----MALAT1结合位点的中心位置为准,将结合位点的基因组定位向上下游各扩展5kb,寻找扩展后结合位点区域内的基因,作为长非编码RNA的候选靶基因。
2、结合步骤三中获得的染色体空间相互作用数据,得到与长非编码RNA结合位点在空间上有相互作用的基因组区域,将与长非编码RNA----MALAT1结合位点在空间上有相互作用的基因组区域向上下游各扩展5kb,寻找扩展后基因组区域内的基因,作为长非编码RNA远程调控的候选靶基因。
3、分别计算长非编码RNA----MALAT1与步骤1和步骤2获得的候选靶基因表达水平的皮尔森相关系数,选择皮尔森相关系数绝对值大于0.3的候选靶基因作为长非编码RNA----MALAT1的靶基因。
最终预测到的长非编码RNA----MALAT1的靶基因共有477个,具体信息如表3所示。顺式调控类型是指MALAT1直接与靶基因所在的基因组区域结合;远程调控类型是指与MALAT1结合的基因组区域在空间上与靶基因相互作用。
表3、预测MALAT1的靶基因
五、GO功能富集分析
将表3中预测的MALAT1的靶基因与GO term中的基因进行比较,通过超几何分布检验基因富集的显著性,并且按照FDR排序,得到靶基因富集最显著的15个GO term(表4)。通过本发明的方法预测MALAT1具有如下功能:1)参与mRNA、rRNA等转录后加工代谢过程;2)mRNA翻译调控;3)与蛋白质结合;4)与具有多聚A尾的RNA结合;5)基于SRP的膜靶向共翻译蛋白;6)病毒转录。文献“Hutchinson等,A screen for nuclear transcripts identifiestwo linked noncoding RNAs associated with SC35splicing domains.2007.BMCGenomics 8:39;Bernard等,A long nuclear-retained non-coding RNA regulatessynaptogenesis by modulating gene expression.2010.EMBO J.29:3082-3093”中已经证实MALAT1在细胞核内能够与其他蛋白质结合参与mRNA的转录后加工代谢过程。与本发明的预测结果一致,说明本发明基于长非编码RNA结合位点和染色体空间结构信息来预测长非编码RNA生物学功能的方法准确、可靠。
表4、靶基因富集最显著的10个GO term
GO条目 功能描述 P值 FDR值
GO:0006614 基于SRP的膜靶向共翻译蛋白 1.58E-13 2.69E-10
GO:0019083 病毒转录 5.04E-12 8.56E-09
GO:0000184 核转录mRNA代谢过程 1.61E-11 2.74E-08
GO:0005840 核糖体 1.87E-11 2.63E-08
GO:0005654 核质 1.36E-10 1.92E-07
GO:0006413 翻译起始 2.25E-10 3.82E-07
GO:0006412 翻译 2.55E-10 4.34E-07
GO:0044822 多聚A尾RNA结合 4.09E-10 6.08E-07
GO:0003735 核糖体结构性组成 4.84E-10 7.21E-07
GO:0005829 细胞溶质 1.02E-07 1.44E-04
GO:0006364 rRNA加工 1.11E-07 1.89E-04
GO:0022625 细胞溶质核糖体大亚基 7.44E-07 0.001048601
GO:0015935 核糖体小亚基 2.96E-06 0.004167096
GO:0005515 与蛋白质结合 4.16E-06 0.00619447
GO:0022627 细胞溶质核糖体小亚基 1.96E-05 0.027647567
序列表
<110>中国科学院生物物理研究所
<120>基于染色体空间相互作用预测长非编码RNA生物学功能的方法
<160>1
<170>PatentIn version 3.5
<210>1
<211>8302
<212>DNA
<213>人工序列(Artificial Sequence)
<400>1
cgcagcctgc agcccgagac ttctgtaaag gactggggcc ccgcaactgg cctctcctgc 60
cctcttaagc gcagcgccat tttagcaacg cagaagcccg gcgccgggaa gcctcagctc 120
gcctgaaggc aggtcccctc tgacgcctcc gggagcccag gtttcccaga gtccttggga 180
cgcagcgacg agttgtgctg ctatcttagc tgtccttata ggctggccat tccaggtggt 240
ggtatttaga taaaaccact caaactctgc agtttggtct tggggtttgg aggaaagctt 300
ttatttttct tcctgctccg gttcagaagg tctgaagctc atacctaacc aggcataaca 360
cagaatctgc aaaacaaaaa cccctaaaaa agcagaccca gagcagtgta aacacttctg 420
ggtgtgtccc tgactggctg cccaaggtct ctgtgtcttc ggagacaaag ccattcgctt 480
agttggtcta ctttaaaagg ccacttgaac tcgctttcca tggcgatttg ccttgtgagc 540
actttcagga gagcctggaa gctgaaaaac ggtagaaaaa tttccgtgcg ggccgtgggg 600
ggctggcggc aactgggggg ccgcagatca gagtgggcca ctggcagcca acggcccccg 660
gggctcaggc ggggagcagc tctgtggtgt gggattgagg cgttttccaa gagtgggttt 720
tcacgtttct aagatttccc aagcagacag cccgtgctgc tccgatttct cgaacaaaaa 780
agcaaaacgt gtggctgtct tgggagcaag tcgcaggact gcaagcagtt gggggagaaa 840
gtccgccatt ttgccacttc tcaaccgtcc ctgcaaggct ggggctcagt tgcgtaatgg 900
aaagtaaagc cctgaactat cacactttaa tcttccttca aaaggtggta aactatacct 960
actgtccctc aagagaacac aagaagtgct ttaagaggcg gcggaaggtg atcgaattcc 1020
ggtgatgcga gttgttctcc gtctataaat acgcctcgcc cgagctgtgc ggtaggcatt 1080
gaggcagcca gcgcaggggc ttctgctgag ggggcaggcg gagcttgagg aaaccgcaga 1140
taagtttttt tctctttgaa agatagagat taatacaact acttaaaaaa tatagtcaat 1200
aggttactaa gatattgctt agcgttaagt ttttaacgta attttaatag cttaagattt 1260
taagagaaaa tatgaagact tagaagagta gcatgaggaa ggaaaagata aaaggtttct 1320
aaaacatgac ggaggttgag atgaagcttc ttcatggagt aaaaaatgta tttaaaagaa 1380
aattgagaga aaggactaca gagccccgaa ttaataccaa tagaagggca atgcttttag 1440
attaaaatga aggtgactta aacagcttaa agtttagttt aaaagttgta ggtgattaaa 1500
ataatttgaa ggcgatcttt taaaaagaga ttaaaccgaa ggtgattaaa agaccttgaa 1560
atccatgacg cagggagaat tgcgtcattt aaagcctagt taacgcattt actaaacgca 1620
gacgaaaatg gaaagattaa ttgggagtgg taggatgaaa caatttggag aagatagaag 1680
tttgaagtgg aaaactggaa gacagaagta cgggaaggcg aagaaaagaa tagagaagat 1740
agggaaatta gaagataaaa acatactttt agaagaaaaa agataaattt aaacctgaaa 1800
agtaggaagc agaagaaaaa agacaagcta ggaaacaaaa agctaagggc aaaatgtaca 1860
aacttagaag aaaattggaa gatagaaaca agatagaaaa tgaaaatatt gtcaagagtt 1920
tcagatagaa aatgaaaaac aagctaagac aagtattgga gaagtataga agatagaaaa 1980
atataaagcc aaaaattgga taaaatagca ctgaaaaaat gaggaaatta ttggtaacca 2040
atttatttta aaagcccatc aatttaattt ctggtggtgc agaagttaga aggtaaagct 2100
tgagaagatg agggtgttta cgtagaccag aaccaattta gaagaatact tgaagctaga 2160
aggggaagtt ggttaaaaat cacatcaaaa agctactaaa aggactggtg taatttaaaa 2220
aaaactaagg cagaaggctt ttggaagagt tagaagaatt tggaaggcct taaatatagt 2280
agcttagttt gaaaaatgtg aaggactttc gtaacggaag taattcaaga tcaagagtaa 2340
ttaccaactt aatgtttttg cattggactt tgagttaaga ttatttttta aatcctgagg 2400
actagcatta attgacagct gacccaggtg ctacacagaa gtggattcag tgaatctagg 2460
aagacagcag cagacaggat tccaggaacc agtgtttgat gaagctagga ctgaggagca 2520
agcgagcaag cagcagttcg tggtgaagat aggaaaagag tccaggagcc agtgcgattt 2580
ggtgaaggaa gctaggaaga aggaaggagc gctaacgatt tggtggtgaa gctaggaaaa 2640
aggattccag gaaggagcga gtgcaatttg gtgatgaagg tagcaggcgg cttggcttgg 2700
caaccacacg gaggaggcga gcaggcgttg tgcgtagagg atcctagacc agcatgccag 2760
tgtgccaagg ccacagggaa agcgagtggt tggtaaaaat ccgtgaggtc ggcaatatgt 2820
tgtttttctg gaacttactt atggtaacct tttatttatt ttctaatata atgggggagt 2880
ttcgtactga ggtgtaaagg gatttatatg gggacgtagg ccgatttccg ggtgttgtag 2940
gtttctcttt ttcaggctta tactcatgaa tcttgtctga agcttttgag ggcagactgc 3000
caagtcctgg agaaatagta gatggcaagt ttgtgggttt ttttttttta cacgaatttg 3060
aggaaaacca aatgaatttg atagccaaat tgagacaatt tcagcaaatc tgtaagcagt 3120
ttgtatgttt agttggggta atgaagtatt tcagttttgt gaatagatga cctgttttta 3180
cttcctcacc ctgaattcgt tttgtaaatg tagagtttgg atgtgtaact gaggcggggg 3240
ggagttttca gtattttttt ttgtgggggt gggggcaaaa tatgttttca gttctttttc 3300
ccttaggtct gtctagaatc ctaaaggcaa atgactcaag gtgtaacaga aaacaagaaa 3360
atccaatatc aggataatca gaccaccaca ggtttacagt ttatagaaac tagagcagtt 3420
ctcacgttga ggtctgtgga agagatgtcc attggagaaa tggctggtag ttactctttt 3480
ttccccccac ccccttaatc agactttaaa agtgcttaac cccttaaact tgttattttt 3540
tacttgaagc attttgggat ggtcttaaca gggaagagag agggtggggg agaaaatgtt 3600
tttttctaag attttccaca gatgctatag tactattgac aaactgggtt agagaaggag 3660
tgtaccgctg tgctgttggc acgaacacct tcagggactg gagctgcttt tatccttgga 3720
agagtattcc cagttgaagc tgaaaagtac agcacagtgc agctttggtt catattcagt 3780
catctcagga gaacttcaga agagcttgag taggccaaat gttgaagtta agttttccaa 3840
taatgtgact tcttaaaagt tttattaaag gggaggggca aatattggca attagttggc 3900
agtggcctgt tacggttggg attggtgggg tgggtttagg taattgttta gtttatgatt 3960
gcagataaac tcatgccaga gaacttaaag tcttagaatg gaaaaagtaa agaaatatca 4020
acttccaagt tggcaagtaa ctcccaatga tttagttttt ttccccccag tttgaattgg 4080
gaagctgggg gaagttaaat atgagccact gggtgtacca gtgcattaat ttgggcaagg 4140
aaagtgtcat aatttgatac tgtatctgtt ttccttcaaa gtatagagct tttggggaag 4200
gaaagtattg aactgggggt tggtctggcc tactgggctg acattaacta caattatggg 4260
aaatgcaaaa gttgtttgga tatggtagtg tgtggttctc ttttggaatt tttttcaggt 4320
gatttaataa taatttaaaa ctactataga aactgcagag caaaggaagt ggcttaatga 4380
tcctgaaggg atttcttctg atggtagctt ttgtattatc aaactttttt cagataacat 4440
cttctgagtc ataaccagcc tggcagtatg atggcctaga tgcagagaaa acagctcctt 4500
ggtgaattga taagtaaagg cagaaaagat tatatgtcat acctccattg gggaataagc 4560
ataaccctga gattcttact actgatgaga acattatctg catatgccaa aaaattttaa 4620
gcaaatgaaa gctaccaatt taaagttacg gaatctacca ttttaaagtt aattgcttgt 4680
caagctataa ccacaaaaat aatgaattga tgagaaatac aatgaagagg caatgtccat 4740
ctcaaaatac tgcttttaca aaagcagaat aaaagcgaaa agaaatgaaa atgttacact 4800
acattaatcc tggaataaaa gaagccgaaa taaatgagag atgagttggg atcaagtgga 4860
ttgaggaggc tgtgctgtgt gccaatgttt cgtttgcctc agacaggtat ctcttcgtta 4920
tcagaagagt tgcttcattt catctgggag cagaaaacag caggcagctg ttaacagata 4980
agtttaactt gcatctgcag tattgcatgt tagggataag tgcttatttt taagagctgt 5040
ggagttctta aatatcaacc atggcacttt ctcctgaccc cttccctagg ggatttcagg 5100
attgagaaat ttttccatcg agccttttta aaattgtagg acttgttcct gtgggcttca 5160
gtgatgggat agtacacttc actcagaggc atttgcatct ttaaataatt tcttaaaagc 5220
ctctaaagtg atcagtgcct tgatgccaac taaggaaatt tgtttagcat tgaatctctg 5280
aaggctctat gaaaggaata gcatgatgtg ctgttagaat cagatgttac tgctaaaatt 5340
tacatgttgt gatgtaaatt gtgtagaaaa ccattaaatc attcaaaata ataaactatt 5400
tttattagag aatgtatact tttagaaagc tgtctcctta tttaaataaa atagtgtttg 5460
tctgtagttc agtgttgggg caatcttggg ggggattctt ctctaatctt tcagaaactt 5520
tgtctgcgaa cactctttaa tggaccagat caggatttga gcggaagaac gaatgtaact 5580
ttaaggcagg aaagacaaat tttattcttc ataaagtgat gagcatataa taattccagg 5640
cacatggcaa tagaggccct ctaaataagg aataaataac ctcttagaca ggtgggagat 5700
tatgatcaga gtaaaaggta attacacatt ttatttccag aaagtcaggg gtctataaat 5760
tgacagtgat tagagtaata ctttttcaca tttccaaagt ttgcatgtta actttaaatg 5820
cttacaatct tagagtggta ggcaatgttt tacactattg accttatata gggaagggag 5880
ggggtgcctg tggggtttta aagaattttc ctttgcagag gcatttcatc cttcatgaag 5940
ccattcagga ttttgaattg catatgagtg cttggctctt ccttctgttc tagtgagtgt 6000
atgagacctt gcagtgagtt tatcagcata ctcaaaattt ttttcctgga atttggaggg 6060
atgggaggag ggggtggggc ttacttgttg tagctttttt tttttttaca gacttcacag 6120
agaatgcagt tgtcttgact tcaggtctgt ctgttctgtt ggcaagtaaa tgcagtactg 6180
ttctgatccc gctgctatta gaatgcattg tgaaacgact ggagtatgat taaaagttgt 6240
gttccccaat gcttggagta gtgattgttg aaggaaaaaa tccagctgag tgataaaggc 6300
tgagtgttga ggaaatttct gcagttttaa gcagtcgtat ttgtgattga agctgagtac 6360
attttgctgg tgtattttta ggtaaaatgc tttttgttca tttctggtgg tgggagggga 6420
ctgaagcctt tagtcttttc cagatgcaac cttaaaatca gtgacaagaa acattccaaa 6480
caagcaacag tcttcaagaa attaaactgg caagtggaaa tgtttaaaca gttcagtgat 6540
ctttagtgca ttgtttatgt gtgggtttct ctctcccctc ccttggtctt aattcttaca 6600
tgcaggaaca ctcagcagac acacgtatgc gaagggccag agaagccaga cccagtaaga 6660
aaaaatagcc tatttacttt aaataaacca aacattccat tttaaatgtg gggattggga 6720
accactagtt ctttcagatg gtattcttca gactatagaa ggagcttcca gttgaattca 6780
ccagtggaca aaatgaggaa aacaggtgaa caagcttttt ctgtatttac atacaaagtc 6840
agatcagtta tgggacaata gtattgaata gatttcagct ttatgctgga gtaactggca 6900
tgtgagcaaa ctgtgttggc gtgggggtgg aggggtgagg tgggcgctaa gccttttttt 6960
aagatttttc aggtacccct cactaaaggc accgaaggct taaagtagga caaccatgga 7020
gccttcctgt ggcaggagag acaacaaagc gctattatcc taaggtcaag agaagtgtca 7080
gcctcacctg atttttatta gtaatgagga cttgcctcaa ctccctcttt ctggagtgaa 7140
gcatccgaag gaatgcttga agtacccctg ggcttctctt aacatttaag caagctgttt 7200
ttatagcagc tcttaataat aaagcccaaa tctcaagcgg tgcttgaagg ggagggaaag 7260
ggggaaagcg ggcaaccact tttccctagc ttttccagaa gcctgttaaa agcaaggtct 7320
ccccacaagc aacttctctg ccacatcgcc accccgtgcc ttttgatcta gcacagaccc 7380
ttcacccctc acctcgatgc agccagtagc ttggatcctt gtgggcatga tccataatcg 7440
gtttcaaggt aacgatggtg tcgaggtctt tggtgggttg aactatgtta gaaaaggcca 7500
ttaatttgcc tgcaaattgt taacagaagg gtattaaaac cacagctaag tagctctatt 7560
ataatactta tccagtgact aaaaccaact taaaccagta agtggagaaa taacatgttc 7620
aagaactgta atgctgggtg ggaacatgta acttgtagac tggagaagat aggcatttga 7680
gtggctgaga gggcttttgg gtgggaatgc aaaaattctc tgctaagact ttttcaggtg 7740
aacataacag acttggccaa gctagcatct tagcggaagc tgatctccaa tgctcttcag 7800
tagggtcatg aaggtttttc ttttcctgag aaaacaacac gtattgtttt ctcaggtttt 7860
gctttttggc ctttttctag cttaaaaaaa aaaaaagcaa aagatgctgg tggttggcac 7920
tcctggtttc caggacgggg ttcaaatccc tgcggcgtct ttgctttgac tactaatctg 7980
tcttcaggac tctttctgta tttctccttt tctctgcagg tgctagttct tggagttttg 8040
gggaggtggg aggtaacagc acaatatctt tgaactatat acatccttga tgtataattt 8100
gtcaggagct tgacttgatt gtatattcat atttacacga gaacctaata taactgcctt 8160
gtctttttca ggtaatagcc tgcagctggt gttttgagaa gccctactgc tgaaaactta 8220
acaattttgt gtaataaaaa tggagaagct ctaaattgtt gtggttcttt tgtgaataaa 8280
aaaatcttga ttggggaaaa aa 8302

Claims (7)

1.一种预测长非编码RNA生物学功能的方法,包括如下步骤:
(1)选择长非编码RNA;所述选择长非编码RNA的方法包括如下步骤:
1)收集长非编码RNA的注释数据,得到长非编码RNA数据集;
2)去除所述长非编码RNA数据集之间的冗余,得到完备的长非编码RNA数据集;从所述完备的长非编码RNA数据集中过滤掉没有实验证据支持和注释数据不一致的长非编码RNA,得到过滤后的长非编码RNA数据集;
3)从所述过滤后的长非编码RNA数据集中选取表达量高且位于蛋白质编码基因间区域独立转录的长非编码RNA,并确定其细胞核与细胞质定位信息,选择至少90%定位在细胞核的长非编码RNA,即为长非编码RNA;
确定细胞中所述长非编码RNA在全基因组范围内结合位点,根据所述长非编码RNA结合位点的基因组定位信息,以所述长非编码RNA结合位点的中心位置为准,将所述长非编码RNA结合位点的基因组定位向上下游进行扩展,得到扩展后结合位点区域内的基因,并将其作为所述长非编码RNA的候选靶基因;
(2)确定所述细胞中染色体空间相互作用数据,得到与所述长非编码RNA结合位点在空间上有相互作用的基因组区域,将与所述长非编码RNA结合位点在空间上有相互作用的基因组区域向上下游进行扩展,得到扩展后基因组区域内的基因,并将其作为所述长非编码RNA远程调控的候选靶基因;
(3)分别计算所述长非编码RNA与步骤(1)和(2)中获得的所述候选靶基因表达水平的皮尔森相关性,得到所述长非编码RNA与所述候选靶基因表达水平的皮尔森相关系数,根据所述皮尔森相关系数的大小选择候选靶基因作为所述长非编码RNA的靶基因;
(4)对步骤(3)获得的所述长非编码RNA的靶基因进行GO功能富集分析,得到所述长非编码RNA的生物学功能。
2.根据权利要求1所述的方法,其特征在于:所述GO功能富集分析的方法包括如下步骤:将所述长非编码RNA的靶基因与GO term中的基因进行比较,通过超几何分布检验基因富集的显著性,并且按照FDR排序,选取靶基因富集最显著的15个GO term作为所述长非编码RNA的生物学功能。
3.根据权利要求1或2所述的方法,其特征在于:所述步骤(1)中,将所述长非编码RNA结合位点的基因组定位向上下游各扩展5kb;
或,所述步骤(2)中,将与所述长非编码RNA结合位点在空间上有相互作用的基因组区域向上下游各扩展5kb。
4.根据权利要求1或2所述的方法,其特征在于:所述步骤(3)中,选择皮尔森相关系数绝对值大于0.3的候选靶基因作为长非编码RNA的靶基因。
5.根据权利要求1或2所述的方法,其特征在于:所述步骤1)中,所述注释数据包括名称、基因组定位、序列和表达水平。
6.根据权利要求1或2所述的方法,其特征在于:所述步骤2)中,利用所述长非编码RNA数据集间的交叉注释、序列相似性比对和基因组定位的方法去除所述长非编码RNA数据集之间的冗余,使序列相似度大于95%、基因组位置重叠度大于95%,得到完备的长非编码RNA数据集。
7.根据权利要求1或2所述的方法,其特征在于:所述步骤3)中,所述表达量高为在至少1个组织中FPKM>1。
CN201810082985.5A 2018-01-29 2018-01-29 基于染色体空间相互作用预测长非编码rna生物学功能的方法 Active CN108319814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810082985.5A CN108319814B (zh) 2018-01-29 2018-01-29 基于染色体空间相互作用预测长非编码rna生物学功能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810082985.5A CN108319814B (zh) 2018-01-29 2018-01-29 基于染色体空间相互作用预测长非编码rna生物学功能的方法

Publications (2)

Publication Number Publication Date
CN108319814A CN108319814A (zh) 2018-07-24
CN108319814B true CN108319814B (zh) 2018-12-14

Family

ID=62888033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810082985.5A Active CN108319814B (zh) 2018-01-29 2018-01-29 基于染色体空间相互作用预测长非编码rna生物学功能的方法

Country Status (1)

Country Link
CN (1) CN108319814B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113140255B (zh) * 2021-04-19 2022-05-10 湖南大学 一种预测植物lncRNA-miRNA相互作用的方法
CN113539360B (zh) * 2021-07-21 2023-03-31 西北工业大学 一种基于相关性优化和免疫富集的lncRNA特征识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106103728A (zh) * 2013-12-30 2016-11-09 米罗库鲁斯公司 检测和分析来自生物样品的微rna谱的系统、组合物和方法
CN106919809A (zh) * 2017-03-02 2017-07-04 北京林业大学 一种响应逆境胁迫的lncRNAs二级结构功能注释方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2787218A1 (en) * 2009-01-19 2010-07-22 Sistemic Scotland Limited Methods employing non-coding rna expression assays
CN102693369A (zh) * 2011-03-24 2012-09-26 上海聚类生物科技有限公司 一种基于基因序列表达分析的LncRNA发掘方法
CN102827923A (zh) * 2011-06-16 2012-12-19 上海聚类生物科技有限公司 长的非编码rna靶基因预测的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106103728A (zh) * 2013-12-30 2016-11-09 米罗库鲁斯公司 检测和分析来自生物样品的微rna谱的系统、组合物和方法
CN106919809A (zh) * 2017-03-02 2017-07-04 北京林业大学 一种响应逆境胁迫的lncRNAs二级结构功能注释方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LncRNA在蜜蜂级型分化中的功能研究;郭昱等;《生物化学与生物物理进展》;20150825;第32,35,37,46页 *
基于数据驱动的非编码基因功能注释方法研究;马知行;《中国优秀硕士论文全文数据库》;20150815;第750至757页 *

Also Published As

Publication number Publication date
CN108319814A (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
Schmitz et al. Mechanisms of long noncoding RNA function in development and disease
Mouraviev et al. Clinical prospects of long noncoding RNAs as novel biomarkers and therapeutic targets in prostate cancer
Gao et al. JMJD6 licenses ERα-dependent enhancer and coding gene activation by modulating the recruitment of the CARM1/MED12 co-activator complex
Shachar et al. Causes and consequences of nuclear gene positioning
Vokes et al. Genomic characterization of Gli-activator targets in sonic hedgehog-mediated neural patterning
Chu et al. Genomic maps of long noncoding RNA occupancy reveal principles of RNA-chromatin interactions
Li et al. Functional roles of enhancer RNAs for oestrogen-dependent transcriptional activation
Alecki et al. RNA-DNA strand exchange by the Drosophila Polycomb complex PRC2
Overman et al. Pharmacological targeting of the transcription factor SOX18 delays breast cancer in mice
Xue et al. HOXA11-AS: a novel regulator in human cancer proliferation and metastasis
Alvarez et al. Local changes in chromatin accessibility and transcriptional networks underlying the nitrate response in Arabidopsis roots
Turner et al. Multi-omics approaches to study long non-coding RNA function in atherosclerosis
Han et al. Combining genomic and proteomic approaches for epigenetics research
Daniel et al. The intriguing complexities of mammalian gene regulation: how to link enhancers to regulated genes. Are we there yet?
Fleming et al. STAT3 acts through pre-existing nucleosome-depleted regions bound by FOS during an epigenetic switch linking inflammation to cancer
CN108319814B (zh) 基于染色体空间相互作用预测长非编码rna生物学功能的方法
Liu et al. Identification of lncRNA MEG3 binding protein using MS2-tagged RNA affinity purification and mass spectrometry
Yu et al. PHAROH lncRNA regulates Myc translation in hepatocellular carcinoma via sequestering TIAR
Kim et al. Interrogating genomic and epigenomic data to understand prostate cancer
Rossi et al. RAIN is a novel enhancer-associated lncRNA that controls RUNX2 expression and promotes breast and thyroid cancer
Xiao et al. The landscape of promoter-centred RNA–DNA interactions in rice
Choi et al. Epigenetic landscape change analysis during human EMT sheds light on a key EMT mediator TRIM29
Prensner et al. Transcriptome sequencing identifies PCAT-1, a novel lincRNA implicated in prostate cancer progression
Milán-Rois et al. The role of lncRNAs in uveal melanoma
Huang et al. CRISPR-dCas13-tracing reveals transcriptional memory and limited mRNA export in developing zebrafish embryos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant