CN112201307A - 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法 - Google Patents
一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法 Download PDFInfo
- Publication number
- CN112201307A CN112201307A CN202011007988.6A CN202011007988A CN112201307A CN 112201307 A CN112201307 A CN 112201307A CN 202011007988 A CN202011007988 A CN 202011007988A CN 112201307 A CN112201307 A CN 112201307A
- Authority
- CN
- China
- Prior art keywords
- screening
- long non
- coding rna
- transcript
- rna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091046869 Telomeric non-coding RNA Proteins 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012216 screening Methods 0.000 title claims abstract description 40
- 241001430294 unidentified retrovirus Species 0.000 title claims abstract description 19
- 238000003559 RNA-seq method Methods 0.000 claims description 20
- 238000012163 sequencing technique Methods 0.000 claims description 11
- 238000012167 Small RNA sequencing Methods 0.000 claims description 10
- 238000003908 quality control method Methods 0.000 claims description 7
- NOIRDLRUNWIUMX-UHFFFAOYSA-N 2-amino-3,7-dihydropurin-6-one;6-amino-1h-pyrimidin-2-one Chemical compound NC=1C=CNC(=O)N=1.O=C1NC(N)=NC2=C1NC=N2 NOIRDLRUNWIUMX-UHFFFAOYSA-N 0.000 claims description 5
- 108020004437 Endogenous Retroviruses Proteins 0.000 claims description 4
- 210000000349 chromosome Anatomy 0.000 claims description 4
- 101100067993 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ASC1 gene Proteins 0.000 claims description 3
- 101100067991 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rkp1 gene Proteins 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000004445 quantitative analysis Methods 0.000 claims description 2
- 230000003252 repetitive effect Effects 0.000 abstract description 2
- 108091032955 Bacterial small RNA Proteins 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 9
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 8
- 108090000623 proteins and genes Proteins 0.000 description 6
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 108700011259 MicroRNAs Proteins 0.000 description 4
- 108091036066 Three prime untranslated region Proteins 0.000 description 4
- 210000004263 induced pluripotent stem cell Anatomy 0.000 description 4
- 239000002679 microRNA Substances 0.000 description 4
- 230000008672 reprogramming Effects 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 108091007412 Piwi-interacting RNA Proteins 0.000 description 3
- 108700009124 Transcription Initiation Site Proteins 0.000 description 3
- 108091023045 Untranslated Region Proteins 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 210000002950 fibroblast Anatomy 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 239000004055 small Interfering RNA Substances 0.000 description 3
- 108020004414 DNA Proteins 0.000 description 2
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 2
- 108700026226 TATA Box Proteins 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 101100408379 Drosophila melanogaster piwi gene Proteins 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010230 functional analysis Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种转录本注释方法以及筛选长非编码RNA和内源逆转录病毒来源长非编码RNA的方法,属于生物信息学领域,为了提供精准和完整的转录本,得到表达量较低、重复序列来源的长非编码RNA,本发明提供了一种转录本的注释方法,RNA测序和小RNA测序数据结合注释转录本,得到完整精准的转录本信息,提供更精准的长链非编码RNA注释,准确获取长链非编码RNA的表达信息,本发明应用在筛选长非编码RNA和内源逆转录病毒来源长非编码RNA,筛选得到新预测长非编码RNA 2,711条,其中内源逆转录病毒来源长非编码RNA占59.3%。
Description
技术领域
本发明属于生物信息学领域,具体涉及到一种转录本注释方法以及筛选长非编码RNA和内源逆转录病毒来源长非编码RNA的方法。
背景技术
RNA转录本的注释主要利用高通量RNA-seq(转录组测序技术)数据,其面临的一个普遍问题是转录本精确的边界难以界定。在理想条件下,RNA-seq读段在所有表达的转录本上应该是无偏性的覆盖模式,但由于读段长度的限制、样品的降解、建库方法和碱基偏好性等问题,RNA-seq读段的覆盖存在偏差,尤其在转录本末端的缺失,影响转录本注释的完整性,给转录本的识别、表达水平的定量以及进一步的功能解析带来偏差。 5’端的降解和采用oligo(dT)的第一链合成方案等会导致转录本5’端更严重的缺失,通常覆盖不到启动子区域和转录起始位点(transcription start site,TSS)。例如,Liu等发现 PCAN-R2的转录起始位点在其RNA-seq注释转录本上游3kb处。因此,提供精准的RNA 转录本的注释,进而准确的获取其表达信息显得尤为重要。传统的5’和3’RACE(Rapid Amplification of cDNAEnds)是获得完整转录本的最佳方法,但这种实验方法是低通量的。
长链非编码RNA(lncRNA)是一类大于200nt(碱基)不编码蛋白的转录本,目前研究表明,其在多个生物过程中发挥重要作用,引起科学家们的广泛关注。大多数lncRNA的形成都与内源逆转录病毒(ERV)有关。越来越多ERV来源的lncRNA被证明具有重要功能,其在进化、发育和疾病上都具有重要的调控作用。lncRNA的识别主要利用高通量RNA-seq数据,但由于读段长度的限制、样品的降解、建库和碱基偏好性等问题, RNA-seq读段的覆盖存在偏差,尤其在转录本末端的缺失,影响转录本注释的完整性,给lncRNA的识别、表达水平的定量以及进一步的功能解析带来偏差。因此,提供精准的lncRNA的注释,进而准确的获取lncRNA的表达信息显得尤为重要。传统的5’和 3’RACE(RapidAmplification of cDNAEnds)是获得完整转录本的最佳方法,但这种实验方法是低通量的。
发明内容
本发明为了获得表达量较低、重复序列来源的长非编码RNA,本发明提供了一种转录本的注释方法,采用RNA测序和小RNA测序数据(NCBI:GSE102518)结合的策略 (RNA-seqand small RNA-seq combined strategy,RSCS)注释转录本,得到完整精准的转录本信息,利用RSCS筛选长链非编码RNA和筛选内源逆转录病毒来源长非编码RNA。
本发明提供了一种转录本的注释方法,所述的注释方法的具体步骤包括:
(1)对RNA测序和小RNA测序的下机数据(raw data)进行去接头处理获得有效数据(clean data);
(2)对步骤(1)中得到的有效数据按照质控标准进行数据质控,得到符合标准的有效数据;
(3)分别将步骤(2)中得到的符合标准的有效数据与参考基因组进行比对拼接,获得比对结果(bam)文件;
(4)把步骤(3)中得到的比对结果文件,以比对质量得分(MAPQs)值作为筛选标准筛选转录本;
(5)将步骤(4)中得到的转录本进行定量分析,获得定量结果(gtf)文件,以Fragments Per Kilobase Million(Fpkm)值作为筛选标准进行筛选,得到完整转录本。
进一步地限定,步骤(1)中采用trim_galore或cutadapt软件得到clean data。
进一步地限定,所述的注释方法,步骤(2)中所述的质控标准为:
(1)每一个碱基的测序质量得分不低于20;
(2)每一条序列的鸟嘌呤胞嘧啶(GC)含量符合正态分布,偏差不超过15%;
(3)测序结果中不确定碱基(N)的含量不超过5%;
(4)每一个读长的测序长度保持一致;
(5)序列的重复性不超过20%;
采用FastQC软件分析得到符合标准的有效数据。
进一步地限定,步骤(3)采用hisat2、bowtie2、tophat2或subjunc软件分析得到比对结果文件。
进一步地限定,所述的注释方法,步骤(4)中所述的筛选标准是MAPQs大于10。
进一步地限定,所述的注释方法,步骤(5)中所述的筛选标准是Fpkm大于0.5。
本发明还提供了一种筛选长非编码RNA的方法,所述的方法中转录本的注释方法采用的是上述的注释方法。
进一步地限定,所述的筛选长非编码RNA的方法中是采用CPC2和CNCI软件分析所述的注释方法得到的完整转录本,然后筛选得到长非编码RNA。
本发明还提供了一种筛选内源逆转录病毒来源长非编码RNA的方法,所述的方法具体步骤包括:
(1)筛选长非编码RNA:采用上述的筛选长非编码RNA的方法筛选编码的长非编码RNA;
(2)从步骤(1)得到的长非编码RNA中,根据在染色体上的位置选择与内源逆转录病毒距离5kb以内的长非编码RNA,作为筛选得到内源逆转录病毒来源长非编码RNA。
进一步地限定,步骤(2)中采用bedtools interact软件筛选得到内源逆转录病毒来源长非编码RNA。
有益效果:RNA测序和小RNA测序数据结合(RSCS)注释转录本可以提供完整的转录本长度及更精准的转录组,尤其能更有效的注释表达量较低、重复序列来源的长非编码RNA,提供更精准的长链非编码RNA注释,准确获取长链非编码RNA的表达信息,RSCS应用在筛选长非编码RNA的方法,筛选得到新预测的长非编码RNA2,711条,占20.74%,RSCS应用筛选内源逆转录病毒来源长非编码RNA,40.8%的长非编码RNA 含有TE(转座因子)序列,其中与内源逆转录病毒相关长非编码RNA占59.3%。
附图说明
图1.小RNA参与转录本的注释分析图,其中图A是小RNA在小鼠基因组上的分布,coding exon(编码外显子),intron(内含子),intergenic(基因间);图B是小RNA 在转录本上的分布,横坐标是position(位置),纵坐标是density(富集密度);图C是各类小RNA在转录本5’UTR和3’UTR中的比例,横坐标是所占的比例,纵坐标是小RNA种类,miRNA(microRNA),others(其他),piRNA(Piwi互作RNA),sncRNA (核小RNA);
图2.小RNA参与和非小RNA参与拼接转录本的长度及起始碱基的分析,其中图A 是拼接转录本的长度分析,横坐标是有或者没有小RNA参与拼接转录本,纵坐标是转录本长度的对数值,transcripts with sRNA(小RNA参与拼接转录本),transcripts without sRNA(非小RNA参与拼接转录本);B是起始碱基的分析,A(腺嘌呤),G(鸟嘌呤) T(胸腺嘧啶),C(胞嘧啶),purine(嘌呤),pyrimidine(嘧啶);
图3.转录本上下游基序分析结果图,motif(结合域或结合基序),p-valune(p值);
图4.转录本长度分布和Nanog转录本分析结果图,其中图A是转录本长度分布,横坐标是不同长度分布区间,纵坐标是在此长度区间转录本的分布条数;图B是Nanog转录本分析结果图,Chr6是6号染色体;
图5.RSCS参与注释的长非编码RNA的筛选结果图,其中图A是长非编码RNA所占比例,non-coding transcripts(非编码转录本),coding transcripts(编码转录本);图B 是筛选获得的新长非编码RNA;图C是编码和非编码转录本表达量的比较,横坐标是编码转录本和非编码转录本,纵坐标是转录本表达量的对数值,MEFs(小鼠胚胎成纤维细胞),iPSCs(诱导多能干细胞);图D是编码和非编码转录本长度的比较,横坐标是编码转录本和非编码转录本,纵坐标是转录本长度的对数值。
图6.内源逆转录病毒来源长非编码RNA的筛选结果图。
具体实施方式
UTR(Untranslated Region),即非翻译区,是指任意一个位于mRNA链编码序列两端的片段,如果其位于5′端,则称为5′非翻译区(5'-untranslated region,5'-UTR)反之若位于 3′端,则称为3′非翻译区(3'-untranslated region,3'-UTR)。
MicroRNAs(miRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核苷酸。
piRNA长度为25-33nt,主要为20-30nt,在生殖细胞中表达丰富,其与piwi蛋白(Ago蛋白家族中的一个分支,Ago蛋白家族是一类庞大的蛋白家族)家族成员结合,在生殖细胞发生过程中,抑制转座子的活性,维持基因组的稳定性。
多能性是指具有形成机体内超过一种类型细胞的能力。
小鼠胚胎成纤维细胞(商业化途径购买),其他实验试剂或仪器设备如无特殊说明,均可通过商业化途径购买获得。
实施例1.RSCS注释转录本
本实施例以小鼠胚胎成纤维细胞(MEFs)为例,描述本发明所述的转录本的注释方法。
一、获取细胞重编程过程中从MEFs,第1天到第8天reprogramming(重编程) MEFs及iPSCs的RNA测序和小RNA测序下机数据数。
1.采用trim_galore(0.4.5)或cutadapt(1.18)软件对RNA-seq和小RNA-seq的下机数据进行去接头处理获得clean data。
2.然后采用FastQC(v0.11.5)软件对步骤1得到的clean data进行数据质控,筛选条件为:1)每一个碱基的测序质量得分不低于20;2)每一条序列的GC含量符合正态分布,偏差不超过15%;3)测序结果中N的含量不超过5%;4)每一个读长的测序长度保持一致;5)序列的重复性不超过20%。
3.采用hisat2(2.1.0)、bowtie2(2.3.4.1)、tophat2(2.1.1)或subjunc(1.6.0)软件分别将步骤 2中得到的符合标准的clean data与参考基因组(小鼠的全基因组)进行比对拼接,获得相应的bam文件。
4从步骤3中得到的bam文件中,筛选MAPQs>10的转录本。
5.采用stringtie(1.3.6)软件将步骤4中得到的转录本进行定量分析,获得gtf文件,筛选Fpkm>0.5的转录本作为最终获得的转录本。
二、RSCS注释转录本的分析
采用Rfam数据库检测小RNA在小鼠基因组中的来源,结果显示小RNA(主要是microRNA)能参与转录本的拼接,尤其在5′末端发现大量的小RNA,结果如图1中的 A所示,小RNA来源于5′-UTR(26%)和3′-UTR(21%)区域,结果如图1中的B所示,小RNA拼接在转录本5′和3′末端,然后对小RNA与Rfam数据库比对进行分类注释,结果如图1中的C所示,microRNA主要参与转录本5′-UTR和3′-UTR的拼接,上述结果表明,小RNA主要参与转录本5′和3′末端的拼接。
采用bedtools bamtobed软件对小RNA测序注释的转录本的完整性进行分析,结果如图2中的A所示,结果显示小RNA参与拼接的转录本长度显著大于非RNA参与拼接的转录本(p<0.01),研究表明大多数转录本的起始碱基为嘌呤。然后采用bedtools getfasta 软件提取小RNA参与拼接和非参与拼接的转录本的第一个碱基,结果如图2中的B所示,结果显示非小RNA参与拼接的转录本起始碱基A、G、C、T所占比例基本均等,并且 65%的小RNA参与拼接的转录本起始碱基为嘌呤(A或G)。
采用步骤一所述的方法注释转录本,采用MEME(5.1.0)软件对转录本上游和下游DNA保守序列进行预测(p<0.05),结果如图3所示,在小RNA参与拼接的转录本上游-30至-15bp(碱基对)处发现核心启动子元件TATA盒,此外,在3’端上游-40至-10bp 处发现了加尾信号AATAAA,以及在3’端下游+1至+30bp处发现富含GC的序列,而在非小RNA参与拼接的转录本的上游没有预测出TATA盒,且RSCS注释转录本预测下游DNA保守序列与小RNA拼接转录本预测DNA保守序列相比的p值较高,结果表明 RNA测序和小RNA测序数据结合可注释出完整的转录本。
对RNA测序和小RNA测序数据结合注释转录本采用bedtools bamtobed软件对其长度分布进行分析,结果如图4中的A所示,结果显示其与小鼠参考基因组转录本长度分布更相似,而RNA测序注释的转录本在1000-200bp间缺失了较多,然后采用stringtie软件对具体基因的拼接情况进行分析,结果如图4中的B所示,黑色方块指代基因的外显子区,Refseq(美国国家生物信息技术中心的参考序列)表示为参考基因组中Nanog(多能性因子)的三条转录本注释,RCSC表示为采用RNA测序和小RNA测序拼接的方法注释出的三条Nanog转录本,RNA-seq表示为只用RNA测序方法注释出的仅一条Nanog 转录本,说明采用RCSC方法比单独只用RNseq注释出的转录本更加完全,分析表明RSCS 能更好注释转录组。
实施例2.筛选长非编码RNA的方法
本实施例所述为利用实施例1中的注释方法筛选长非编码RNA,具体方法如下:
一、注释转录本,具体方法参照实施例1中步骤一。
二、利用CPC2和CNCI两种软件对在细胞重编程各时间点拼接步骤一获得的转录本的编码能力进行预测,结果如图5中的A所示,得到13,072条长非编码RNA,占总体转录本的22.19%;如图5中的B所示,其中已知的(known)长非编码RNA 10,361 条,占79.26%;新预测(novel)的长非编码RNA2,711条,占20.74%。采用R语言对 mefs和iPSCs中长非编码RNA与编码基因的表达水平和编码能力进行比较分析,结果如图5中的C和D所示,长非编码RNA的表达水平和长度都显著小于编码基因。
实施例3.筛选内源逆转录病毒来源长非编码RNA的方法
本实施例所述为利用实施例1中的注释方法筛选内源逆转录病毒来源长非编码RNA 的方法,具体方法如下:
1、筛选出编码的长非编码RNA,具体方法参照实施例2。
2、然后利用bedtools interact软件,从步骤1得到的长非编码RNA中,根据在染色体上的位置选择与内源逆转录病毒距离距离5kb以内的长非编码RNA作为内源逆转录病毒来源的长非编码RNA(ERV-lncRNAs),结果如图6所示,40.8%的长非编码RNA含有TE(转座因子)序列,其中与内源逆转录病毒相关长非编码RNA占59.3%。
Claims (10)
1.一种转录本的注释方法,其特征在于,所述的注释方法的具体步骤包括:
(1)对RNA测序和小RNA测序的下机数据进行去接头处理获得有效数据;
(2)对步骤(1)中得到的有效数据按照质控标准进行数据质控,得到符合标准的有效数据;
(3)分别将步骤(2)中得到的符合标准的有效数据与参考基因组进行比对拼接,获得对比结果文件;
(4)把步骤(3)中得到的对比结果文件,以MAPQs值作为筛选标准筛选转录本;
(5)将步骤(4)中得到的转录本进行定量分析,获得定量结果文件,以Fpkm值作为筛选标准进行筛选,得到完整转录本。
2.根据权利要求1所述的注释方法,其特征在于,步骤(1)中采用trim_galore或cutadapt软件得到有效数据。
3.根据权利要求1所述的注释方法,其特征在于,步骤(2)中所述的质控标准为:
(1)每一个碱基的测序质量得分不低于20;
(2)每一条序列的鸟嘌呤胞嘧啶含量符合正态分布,偏差不超过15%;
(3)测序结果中不确定碱基的含量不超过5%;
(4)每一个读长的测序长度保持一致;
(5)序列的重复性不超过20%;
采用FastQC软件分析得到符合标准的有效数据。
4.根据权利要求1所述的注释方法,其特征在于,步骤(3)采用hisat2、bowtie2、tophat2或subjunc软件分析得到对比结果文件。
5.根据权利要求1所述的注释方法,其特征在于,步骤(4)中所述的筛选标准是MAPQs大于10。
6.根据权利要求1所述的注释方法,其特征在于,步骤(5)中所述的筛选标准是Fpkm大于0.5。
7.一种筛选长非编码RNA的方法,其特征在于,所述的方法中的转录本注释方法采用的权利要求1-6任意一项所述的注释方法。
8.根据权利要求7所述的方法,其特征在于,所述的方法中是采用CPC2和CNCI软件分析所述的注释方法得到的完整转录本,然后筛选得到长非编码RNA。
9.一种筛选内源逆转录病毒来源长非编码RNA的方法,其特征在于,所述的方法具体步骤包括:
(1)筛选长非编码RNA:采用权利要求8所述的方法筛选编码的长非编码RNA;
(2)从步骤(1)得到的长非编码RNA中,根据在染色体上的位置选择与内源逆转录病毒距离5kb以内的长非编码RNA,作为筛选得到内源逆转录病毒来源长非编码RNA。
10.根据权利要求9所述的方法,其特征在于,步骤(2)中采用bedtools interact软件筛选得到内源逆转录病毒来源长非编码RNA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007988.6A CN112201307A (zh) | 2020-09-23 | 2020-09-23 | 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011007988.6A CN112201307A (zh) | 2020-09-23 | 2020-09-23 | 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112201307A true CN112201307A (zh) | 2021-01-08 |
Family
ID=74016116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011007988.6A Pending CN112201307A (zh) | 2020-09-23 | 2020-09-23 | 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201307A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN105861443A (zh) * | 2007-04-07 | 2016-08-17 | 怀特黑德生物医学研究所 | 体细胞重编程 |
CN106202992A (zh) * | 2016-07-11 | 2016-12-07 | 东南大学 | 一种长链非编码rna的高通量芯片处理及分析流程控制方法 |
CN107828857A (zh) * | 2017-11-23 | 2018-03-23 | 南宁科城汇信息科技有限公司 | 一种转录组测序及RNAseq数据分析方法 |
CN109750106A (zh) * | 2018-12-28 | 2019-05-14 | 山东省农业科学院奶牛研究中心 | 一种评价公牛精子活力高低的长链非编码rna组合及其检测方法和应用 |
CN110415764A (zh) * | 2019-07-25 | 2019-11-05 | 东南大学 | 利用多数据平台发现长链非编码RNA分子标志物运用ceRNA机制的方法及系统和应用 |
CN110600077A (zh) * | 2019-08-29 | 2019-12-20 | 北京优迅医学检验实验室有限公司 | 肿瘤新抗原的预测方法及其应用 |
-
2020
- 2020-09-23 CN CN202011007988.6A patent/CN112201307A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105861443A (zh) * | 2007-04-07 | 2016-08-17 | 怀特黑德生物医学研究所 | 体细胞重编程 |
CN105389481A (zh) * | 2015-12-22 | 2016-03-09 | 武汉菲沙基因信息有限公司 | 一种三代全长转录组中可变剪切体的检测方法 |
CN106202992A (zh) * | 2016-07-11 | 2016-12-07 | 东南大学 | 一种长链非编码rna的高通量芯片处理及分析流程控制方法 |
CN107828857A (zh) * | 2017-11-23 | 2018-03-23 | 南宁科城汇信息科技有限公司 | 一种转录组测序及RNAseq数据分析方法 |
CN109750106A (zh) * | 2018-12-28 | 2019-05-14 | 山东省农业科学院奶牛研究中心 | 一种评价公牛精子活力高低的长链非编码rna组合及其检测方法和应用 |
CN110415764A (zh) * | 2019-07-25 | 2019-11-05 | 东南大学 | 利用多数据平台发现长链非编码RNA分子标志物运用ceRNA机制的方法及系统和应用 |
CN110600077A (zh) * | 2019-08-29 | 2019-12-20 | 北京优迅医学检验实验室有限公司 | 肿瘤新抗原的预测方法及其应用 |
Non-Patent Citations (3)
Title |
---|
王雪;王卫军;骆启豪;孙国华;冯艳微;马敬俊;杨建敏;: "长牡蛎性腺中调控型非编码RNA的生物信息学", 水产学报, no. 05, 6 May 2020 (2020-05-06), pages 1 - 8 * |
王雪等: "长牡蛎性腺中调控型非编码RNA的生物信息学", 《水产学报》, 6 May 2020 (2020-05-06), pages 1 - 8 * |
胡序明;崔恒宓;: "内源性反转录病毒衍生的长非编码RNA的功能", 生命科学, no. 06, 15 July 2016 (2016-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Engreitz et al. | Local regulation of gene expression by lncRNA promoters, transcription and splicing | |
Herzog et al. | Thiol-linked alkylation of RNA to assess expression dynamics | |
Gaidatzis et al. | Analysis of intronic and exonic reads in RNA-seq data characterizes transcriptional and post-transcriptional regulation | |
Rahimi et al. | Nanopore sequencing of brain-derived full-length circRNAs reveals circRNA-specific exon usage, intron retention and microexons | |
Deininger | Alu elements: know the SINEs | |
Vitsios et al. | Large-scale analysis of microRNA expression, epi-transcriptomic features and biogenesis | |
Jansson et al. | Regulation of translation by site-specific ribosomal RNA methylation | |
Huang et al. | An RNA-Seq strategy to detect the complete coding and non-coding transcriptome including full-length imprinted macro ncRNAs | |
Boerner et al. | Computational identification and functional predictions of long noncoding RNA in Zea mays | |
Mudge et al. | Functional transcriptomics in the post-ENCODE era | |
Zhou et al. | Importance of miRNA stability and alternative primary miRNA isoforms in gene regulation during Drosophila development | |
Cechova et al. | High satellite repeat turnover in great apes studied with short-and long-read technologies | |
Yartseva et al. | RESA identifies mRNA-regulatory sequences at high resolution | |
Gowda et al. | Robust analysis of 5′-transcript ends (5′-RATE): a novel technique for transcriptome analysis and genome annotation | |
Herzel et al. | Quantification of co-transcriptional splicing from RNA-Seq data | |
Yu et al. | Poly (A)-seq: A method for direct sequencing and analysis of the transcriptomic poly (A)-tails | |
McCann et al. | H/ACA snoRNA levels are regulated during stem cell differentiation | |
Sigurgeirsson et al. | Analysis of stranded information using an automated procedure for strand specific RNA sequencing | |
Leenen et al. | Where does transcription start? 5′-RACE adapted to next-generation sequencing | |
Zhang et al. | A comprehensive map of intron branchpoints and lariat RNAs in plants | |
Steber et al. | The C. elegans 3′ UTRome v2 resource for studying mRNA cleavage and polyadenylation, 3′-UTR biology, and miRNA targeting | |
Sanfilippo et al. | Genome-wide profiling of the 3'ends of polyadenylated RNAs | |
Gregory et al. | Utilizing tiling microarrays for whole‐genome analysis in plants | |
Carninci | Constructing the landscape of the mammalian transcriptome | |
Yeh et al. | Analyses of alternative polyadenylation: from old school biochemistry to high-throughput technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |