CN102693369A - 一种基于基因序列表达分析的LncRNA发掘方法 - Google Patents

一种基于基因序列表达分析的LncRNA发掘方法 Download PDF

Info

Publication number
CN102693369A
CN102693369A CN2011100719459A CN201110071945A CN102693369A CN 102693369 A CN102693369 A CN 102693369A CN 2011100719459 A CN2011100719459 A CN 2011100719459A CN 201110071945 A CN201110071945 A CN 201110071945A CN 102693369 A CN102693369 A CN 102693369A
Authority
CN
China
Prior art keywords
lncrna
sequence
coding rna
long non
ribonucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100719459A
Other languages
English (en)
Inventor
曾华宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CLUSTER BIOTECH CO Ltd
Original Assignee
SHANGHAI CLUSTER BIOTECH CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI CLUSTER BIOTECH CO Ltd filed Critical SHANGHAI CLUSTER BIOTECH CO Ltd
Priority to CN2011100719459A priority Critical patent/CN102693369A/zh
Publication of CN102693369A publication Critical patent/CN102693369A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。本发明主要包括如下流程:步骤1、收集人的所有全长mRNA序列数据;步骤2、去除包含编码蛋白的外含子的mRNA序列;步骤3、整理大于200bp的长非编码RNA,形成可检索数据库。步骤4、搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。步骤5、实验验证。最终,我们预测了在特定细胞组织中高表达的长非编码RNA。

Description

一种基于基因序列表达分析的LncRNA发掘方法
技术领域
本发明属于生物技术领域,涉及长非编码核糖核酸(Longnoncoding RNA)鉴定方面。
背景技术
本发明是一种适用LncRNA鉴定的新方法。适用于LncRNA的生物医学研究或基础生物学研究。
现在,越来越多的人开始把焦点放在MicroRNA(微小核糖核酸)上,因为它们具有降解目标信使RNA和抑制翻译的功能,从而调节基因表达。然而,新近的研究发现,还有一类序列比较长的非编码RNA(long noncoding RNA)也具有调节基因表达的功能。例如小鼠中的macroRNA Xist和Air,其大小分别为18和108kb。Xist通过与染色体作用引起失活的X染色体上的大部分基因沉默,而Air与父本的Igf2r/Slc22a2/Slc22a3基因簇的沉默有关。另外,long ncRNA还可能与基因印记和反义转录有关。
高密度的芯片tiling array和大规模的全长cDNA文库分析显示,在哺乳动物体内存在多达数千的ncRNA,通过FANTOM对102,801cDNAs的全长测序和分析显示,大约有三分之一(34,030)的序列缺少潜在的蛋白编码区域。而其中的大部分序列的功能仍然不清楚,当然其中可能有假的ncRNA序列,如3’UTR或5’UTR片断及内含子片断。
2006~2007年,有好几篇文章通过生物信息学的方法预测了小鼠Long ncRNA的序列和潜在数量。由于文章采用的对ncRNA的限制条件不尽相同,得到的long ncRNA的数量也存在差异:PNAS上的文章为1328个,其中849个在脑中有明显的信号;Genome Res.上的文章则在小鼠中预测出3122个长的全长ncRNAs(“macroRNAs”)。PLoSGenetics在2006年有一篇文章除了预测小鼠macro ncRNA之外,还用RT-PCR、Northern等方法进行了验证。
在人的基因组中,只有2%碱基用于编码蛋白,而有72%的碱基是可以转录的,因此ncRNA的存在有很大的空间。然而,这些不编码蛋白的RNA(ncRNA)有什么作用呢?近些年,研究者们主要将目光聚集在短的ncRNA(microRNA)上,已经发现了数百个microRNA,其主要功能是调节基因的表达。但是,我们也不能忽视更长一些的也具有重要功能的LncRNA。全基因组学和大量的转录序列分析使我们能够通过生物信息学方法更快跟准的发现大量的LncRNA。其生物学作用没有完全明晰,已知作用则包括基因沉默、基因印记和反义抑制。
本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。
在创新性方面,我们的方法解决了常规方法长非编码RNA无法确定表达量的问题。通过筛选高表达的长非编码RNA,大大缩小了实验验证的范围,节省时间与精力。
发明内容
本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证。其基本流程如下:
步骤一:收集人的所有全长mRNA序列数据
步骤二:去除包含编码蛋白的外显子的mRNA序列。
步骤三:整理大于200bp的长非编码RNA,形成可检索数据库。
步骤四:搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。
步骤五、实验验证
附图说明
图1一种基于基因序列表达分析的LncRNA发掘方法流程
具体实施方式
本发明将以一癌症疾病为实例,介绍本发明的具体实施步骤
步骤一:收集人的所有全长mRNA序列数据。数据来源于NCBI的数据库(http://www.ncbi.nlm.nih.gov/nuccore)。
步骤二:去除包含编码蛋白的外显子的mRNA序列。
步骤三:整理大于200bp的长非编码RNA,形成可检索数据库。
步骤四:搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。我们利用计算机程序,从长非编码RNA的序列数据库中生成含有虚拟酶切结果,如果一个酶切没有返回结果,则自动在序列前面加上酶切位点,保证结果的全面性。程序记录了整个分析过程中的重要参数,如酶切的结果标签序列,长非编码RNA的注释等。通过与实际标签序列序列比对,最后是包含的标签数量,也就是长非编码RNA的表达丰度值。
我们利用计算机程序,从长非编码RNA的序列数据库中生成含有虚拟酶切结果,如果一个酶切没有返回结果,则自动在序列前面加上酶切位点,保证结果的全面性。程序记录了整个分析过程中的重要参数,如酶切的结果标签序列,长非编码RNA的注释等。通过与实际标签序列序列比对,最后是包含的标签数量,也就是长非编码RNA的表达丰度值。
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。

Claims (1)

1.本发明所述的一种基于基因序列表达分析的长非编码RNA发掘方法,本发明根据基因序列表达和基因预测算法,找到了一种可以直接预测并定量长非编码RNA的生物信息学方法,可直接针对长非编码RNA进行锁定,以便于进一步的实验验证,包含如下几个步骤:
步骤1:收集人的所有全长cDNA序列数据;
步骤2:去除包含编码蛋白的外含子的cDNA序列;
步骤3:整理大于200bp的长非编码RNA,形成可检索数据库;
步骤4:搜索已有基因表达序列分析数据,从中鉴定高表达的长非编码RNA。
步骤5:实验验证。
CN2011100719459A 2011-03-24 2011-03-24 一种基于基因序列表达分析的LncRNA发掘方法 Pending CN102693369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100719459A CN102693369A (zh) 2011-03-24 2011-03-24 一种基于基因序列表达分析的LncRNA发掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100719459A CN102693369A (zh) 2011-03-24 2011-03-24 一种基于基因序列表达分析的LncRNA发掘方法

Publications (1)

Publication Number Publication Date
CN102693369A true CN102693369A (zh) 2012-09-26

Family

ID=46858797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100719459A Pending CN102693369A (zh) 2011-03-24 2011-03-24 一种基于基因序列表达分析的LncRNA发掘方法

Country Status (1)

Country Link
CN (1) CN102693369A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480473A (zh) * 2017-07-18 2017-12-15 中国石油大学(华东) 一种基于密码子模板的真核生物功能基因序列搜索方法
CN108319814A (zh) * 2018-01-29 2018-07-24 中国科学院生物物理研究所 基于染色体空间相互作用预测长非编码rna生物学功能的方法
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN111500575A (zh) * 2020-04-21 2020-08-07 中山大学附属第三医院 一种长链非编码RNA Lnc-FAM72D-3及其应用
CN111676219A (zh) * 2020-04-21 2020-09-18 中山大学附属第三医院 一种长链非编码RNA Lnc-EPC1-4及其应用

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480473A (zh) * 2017-07-18 2017-12-15 中国石油大学(华东) 一种基于密码子模板的真核生物功能基因序列搜索方法
CN107480473B (zh) * 2017-07-18 2021-02-26 中国石油大学(华东) 一种基于密码子模板的真核生物功能基因序列搜索方法
CN108319814A (zh) * 2018-01-29 2018-07-24 中国科学院生物物理研究所 基于染色体空间相互作用预测长非编码rna生物学功能的方法
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN108427865B (zh) * 2018-03-14 2022-04-22 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN111500575A (zh) * 2020-04-21 2020-08-07 中山大学附属第三医院 一种长链非编码RNA Lnc-FAM72D-3及其应用
CN111676219A (zh) * 2020-04-21 2020-09-18 中山大学附属第三医院 一种长链非编码RNA Lnc-EPC1-4及其应用
CN111500575B (zh) * 2020-04-21 2022-02-15 中山大学附属第三医院 一种长链非编码RNA Lnc-FAM72D-3及其应用
CN111676219B (zh) * 2020-04-21 2022-05-03 中山大学附属第三医院 一种长链非编码RNA Lnc-EPC1-4及其应用

Similar Documents

Publication Publication Date Title
Ding et al. MiRenSVM: towards better prediction of microRNA precursors using an ensemble SVM classifier with multi-loop features
Hah et al. A rapid, extensive, and transient transcriptional response to estrogen signaling in breast cancer cells
Bandyopadhyay et al. MBSTAR: multiple instance learning for predicting specific functional binding sites in microRNA targets
Nam et al. Human microRNA prediction through a probabilistic co-learning model of sequence and structure
Backofen et al. RNAs everywhere: Genome‐wide annotation of structured RNAs
Lindow et al. Computational evidence for hundreds of non-conserved plant microRNAs
Huang et al. Updated review of advances in microRNAs and complex diseases: experimental results, databases, webservers and data fusion
Missal et al. Prediction of structured non‐coding RNAs in the genomes of the nematodes Caenorhabditis elegans and Caenorhabditis briggsae
Hertel et al. Non-coding RNA annotation of the genome of Trichoplax adhaerens
Ji et al. Genome-wide identification and predictive modeling of polyadenylation sites in eukaryotes
CN102799796A (zh) 一种LncRNA与mRNA关联分析的方法
WC Chan et al. Genomic sequence analysis of EGFR regulation by microRNAs in lung cancer
Peace et al. A framework for improving microRNA prediction in non-human genomes
Agarwal et al. Prediction of novel precursor miRNAs using a context-sensitive hidden Markov model (CSHMM)
Morgado et al. Computational tools for plant small RNA detection and categorization
CN102693369A (zh) 一种基于基因序列表达分析的LncRNA发掘方法
Liu et al. Computational methods and online resources for identification of piRNA-related molecules
Paczynska et al. Distribution of miRNA genes in the pig genome
Rajendiran et al. Computational approaches and related tools to identify MicroRNAs in a species: A Bird’s Eye View
Yao et al. plantMirP: an efficient computational program for the prediction of plant pre-miRNA by incorporating knowledge-based energy features
Wei et al. Computational analysis of miRNA target identification
US20140088937A1 (en) Methods of Predicting The Probability of Modulation of Transcript Levels By RNAI Compounds
Peace et al. Computational sequence-and NGS-based microRNA prediction
Wang et al. An approach to identify individual functional single nucleotide polymorphisms and isoform MicroRNAs
Weile et al. Use of tiling array data and RNA secondary structure predictions to identify noncoding RNA genes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Zeng Huazong

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926