CN112201307A

CN112201307A - 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法

Info

Publication number: CN112201307A
Application number: CN202011007988.6A
Authority: CN
Inventors: 孔庆然; 杜佳伟; 侯卫博; 丁春明
Original assignee: Wenzhou Medical University
Current assignee: Wenzhou Medical University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-08

Abstract

本发明提供了一种转录本注释方法以及筛选长非编码RNA和内源逆转录病毒来源长非编码RNA的方法，属于生物信息学领域，为了提供精准和完整的转录本，得到表达量较低、重复序列来源的长非编码RNA，本发明提供了一种转录本的注释方法，RNA测序和小RNA测序数据结合注释转录本，得到完整精准的转录本信息，提供更精准的长链非编码RNA注释，准确获取长链非编码RNA的表达信息，本发明应用在筛选长非编码RNA和内源逆转录病毒来源长非编码RNA，筛选得到新预测长非编码RNA 2,711条，其中内源逆转录病毒来源长非编码RNA占59.3％。

Description

一种转录本注释方法以及筛选长非编码RNA和内源逆转录病毒来源长非编码RNA的方法

技术领域

本发明属于生物信息学领域，具体涉及到一种转录本注释方法以及筛选长非编码RNA和内源逆转录病毒来源长非编码RNA的方法。

背景技术

RNA转录本的注释主要利用高通量RNA-seq(转录组测序技术)数据，其面临的一个普遍问题是转录本精确的边界难以界定。在理想条件下，RNA-seq读段在所有表达的转录本上应该是无偏性的覆盖模式，但由于读段长度的限制、样品的降解、建库方法和碱基偏好性等问题，RNA-seq读段的覆盖存在偏差，尤其在转录本末端的缺失，影响转录本注释的完整性，给转录本的识别、表达水平的定量以及进一步的功能解析带来偏差。 5’端的降解和采用oligo(dT)的第一链合成方案等会导致转录本5’端更严重的缺失，通常覆盖不到启动子区域和转录起始位点(transcription start site,TSS)。例如，Liu等发现 PCAN-R2的转录起始位点在其RNA-seq注释转录本上游3kb处。因此，提供精准的RNA 转录本的注释，进而准确的获取其表达信息显得尤为重要。传统的5’和3’RACE(Rapid Amplification of cDNAEnds)是获得完整转录本的最佳方法，但这种实验方法是低通量的。

长链非编码RNA(lncRNA)是一类大于200nt(碱基)不编码蛋白的转录本，目前研究表明，其在多个生物过程中发挥重要作用，引起科学家们的广泛关注。大多数lncRNA的形成都与内源逆转录病毒(ERV)有关。越来越多ERV来源的lncRNA被证明具有重要功能，其在进化、发育和疾病上都具有重要的调控作用。lncRNA的识别主要利用高通量RNA-seq数据，但由于读段长度的限制、样品的降解、建库和碱基偏好性等问题， RNA-seq读段的覆盖存在偏差，尤其在转录本末端的缺失，影响转录本注释的完整性，给lncRNA的识别、表达水平的定量以及进一步的功能解析带来偏差。因此，提供精准的lncRNA的注释，进而准确的获取lncRNA的表达信息显得尤为重要。传统的5’和 3’RACE(RapidAmplification of cDNAEnds)是获得完整转录本的最佳方法，但这种实验方法是低通量的。

发明内容

本发明为了获得表达量较低、重复序列来源的长非编码RNA，本发明提供了一种转录本的注释方法，采用RNA测序和小RNA测序数据(NCBI:GSE102518)结合的策略 (RNA-seqand small RNA-seq combined strategy,RSCS)注释转录本，得到完整精准的转录本信息，利用RSCS筛选长链非编码RNA和筛选内源逆转录病毒来源长非编码RNA。

本发明提供了一种转录本的注释方法，所述的注释方法的具体步骤包括：

(1)对RNA测序和小RNA测序的下机数据(raw data)进行去接头处理获得有效数据(clean data)；

(2)对步骤(1)中得到的有效数据按照质控标准进行数据质控，得到符合标准的有效数据；

(3)分别将步骤(2)中得到的符合标准的有效数据与参考基因组进行比对拼接，获得比对结果(bam)文件；

(4)把步骤(3)中得到的比对结果文件，以比对质量得分(MAPQs)值作为筛选标准筛选转录本；

(5)将步骤(4)中得到的转录本进行定量分析，获得定量结果(gtf)文件，以Fragments Per Kilobase Million(Fpkm)值作为筛选标准进行筛选，得到完整转录本。

进一步地限定，步骤(1)中采用trim_galore或cutadapt软件得到clean data。

进一步地限定，所述的注释方法，步骤(2)中所述的质控标准为：

(1)每一个碱基的测序质量得分不低于20；

(2)每一条序列的鸟嘌呤胞嘧啶(GC)含量符合正态分布，偏差不超过15％；

(3)测序结果中不确定碱基(N)的含量不超过5％；

(4)每一个读长的测序长度保持一致；

(5)序列的重复性不超过20％；

采用FastQC软件分析得到符合标准的有效数据。

进一步地限定，步骤(3)采用hisat2、bowtie2、tophat2或subjunc软件分析得到比对结果文件。

进一步地限定，所述的注释方法，步骤(4)中所述的筛选标准是MAPQs大于10。

进一步地限定，所述的注释方法，步骤(5)中所述的筛选标准是Fpkm大于0.5。

本发明还提供了一种筛选长非编码RNA的方法，所述的方法中转录本的注释方法采用的是上述的注释方法。

进一步地限定，所述的筛选长非编码RNA的方法中是采用CPC2和CNCI软件分析所述的注释方法得到的完整转录本，然后筛选得到长非编码RNA。

本发明还提供了一种筛选内源逆转录病毒来源长非编码RNA的方法，所述的方法具体步骤包括：

(1)筛选长非编码RNA：采用上述的筛选长非编码RNA的方法筛选编码的长非编码RNA；

(2)从步骤(1)得到的长非编码RNA中，根据在染色体上的位置选择与内源逆转录病毒距离5kb以内的长非编码RNA，作为筛选得到内源逆转录病毒来源长非编码RNA。

进一步地限定，步骤(2)中采用bedtools interact软件筛选得到内源逆转录病毒来源长非编码RNA。

有益效果：RNA测序和小RNA测序数据结合(RSCS)注释转录本可以提供完整的转录本长度及更精准的转录组，尤其能更有效的注释表达量较低、重复序列来源的长非编码RNA，提供更精准的长链非编码RNA注释，准确获取长链非编码RNA的表达信息，RSCS应用在筛选长非编码RNA的方法，筛选得到新预测的长非编码RNA2,711条，占20.74％，RSCS应用筛选内源逆转录病毒来源长非编码RNA，40.8％的长非编码RNA 含有TE(转座因子)序列，其中与内源逆转录病毒相关长非编码RNA占59.3％。

附图说明

图1.小RNA参与转录本的注释分析图，其中图A是小RNA在小鼠基因组上的分布，coding exon(编码外显子)，intron(内含子)，intergenic(基因间)；图B是小RNA 在转录本上的分布，横坐标是position(位置)，纵坐标是density(富集密度)；图C是各类小RNA在转录本5’UTR和3’UTR中的比例，横坐标是所占的比例，纵坐标是小RNA种类，miRNA(microRNA)，others(其他)，piRNA(Piwi互作RNA)，sncRNA (核小RNA)；

图2.小RNA参与和非小RNA参与拼接转录本的长度及起始碱基的分析，其中图A 是拼接转录本的长度分析，横坐标是有或者没有小RNA参与拼接转录本，纵坐标是转录本长度的对数值，transcripts with sRNA(小RNA参与拼接转录本)，transcripts without sRNA(非小RNA参与拼接转录本)；B是起始碱基的分析，A(腺嘌呤)，G(鸟嘌呤) T(胸腺嘧啶)，C(胞嘧啶)，purine(嘌呤)，pyrimidine(嘧啶)；

图3.转录本上下游基序分析结果图，motif(结合域或结合基序)，p-valune(p值)；

图4.转录本长度分布和Nanog转录本分析结果图，其中图A是转录本长度分布，横坐标是不同长度分布区间，纵坐标是在此长度区间转录本的分布条数；图B是Nanog转录本分析结果图，Chr6是6号染色体；

图5.RSCS参与注释的长非编码RNA的筛选结果图，其中图A是长非编码RNA所占比例，non-coding transcripts(非编码转录本)，coding transcripts(编码转录本)；图B 是筛选获得的新长非编码RNA；图C是编码和非编码转录本表达量的比较，横坐标是编码转录本和非编码转录本，纵坐标是转录本表达量的对数值，MEFs(小鼠胚胎成纤维细胞)，iPSCs(诱导多能干细胞)；图D是编码和非编码转录本长度的比较，横坐标是编码转录本和非编码转录本，纵坐标是转录本长度的对数值。

图6.内源逆转录病毒来源长非编码RNA的筛选结果图。

具体实施方式

UTR(Untranslated Region)，即非翻译区，是指任意一个位于mRNA链编码序列两端的片段，如果其位于5′端，则称为5′非翻译区(5'-untranslated region，5'-UTR)反之若位于 3′端，则称为3′非翻译区(3'-untranslated region，3'-UTR)。

MicroRNAs(miRNAs)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA，其大小长约20～25个核苷酸。

piRNA长度为25-33nt，主要为20-30nt，在生殖细胞中表达丰富，其与piwi蛋白(Ago蛋白家族中的一个分支，Ago蛋白家族是一类庞大的蛋白家族)家族成员结合，在生殖细胞发生过程中，抑制转座子的活性，维持基因组的稳定性。

多能性是指具有形成机体内超过一种类型细胞的能力。

小鼠胚胎成纤维细胞(商业化途径购买)，其他实验试剂或仪器设备如无特殊说明，均可通过商业化途径购买获得。

实施例1.RSCS注释转录本

本实施例以小鼠胚胎成纤维细胞(MEFs)为例，描述本发明所述的转录本的注释方法。

一、获取细胞重编程过程中从MEFs，第1天到第8天reprogramming(重编程) MEFs及iPSCs的RNA测序和小RNA测序下机数据数。

1.采用trim_galore(0.4.5)或cutadapt(1.18)软件对RNA-seq和小RNA-seq的下机数据进行去接头处理获得clean data。

2.然后采用FastQC(v0.11.5)软件对步骤1得到的clean data进行数据质控，筛选条件为：1)每一个碱基的测序质量得分不低于20；2)每一条序列的GC含量符合正态分布，偏差不超过15％；3)测序结果中N的含量不超过5％；4)每一个读长的测序长度保持一致；5)序列的重复性不超过20％。

3.采用hisat2(2.1.0)、bowtie2(2.3.4.1)、tophat2(2.1.1)或subjunc(1.6.0)软件分别将步骤 2中得到的符合标准的clean data与参考基因组(小鼠的全基因组)进行比对拼接，获得相应的bam文件。

4从步骤3中得到的bam文件中，筛选MAPQs>10的转录本。

5.采用stringtie(1.3.6)软件将步骤4中得到的转录本进行定量分析，获得gtf文件，筛选Fpkm>0.5的转录本作为最终获得的转录本。

二、RSCS注释转录本的分析

采用Rfam数据库检测小RNA在小鼠基因组中的来源，结果显示小RNA(主要是microRNA)能参与转录本的拼接，尤其在5′末端发现大量的小RNA，结果如图1中的 A所示，小RNA来源于5′-UTR(26％)和3′-UTR(21％)区域，结果如图1中的B所示，小RNA拼接在转录本5′和3′末端，然后对小RNA与Rfam数据库比对进行分类注释，结果如图1中的C所示，microRNA主要参与转录本5′-UTR和3′-UTR的拼接，上述结果表明，小RNA主要参与转录本5′和3′末端的拼接。

采用bedtools bamtobed软件对小RNA测序注释的转录本的完整性进行分析，结果如图2中的A所示，结果显示小RNA参与拼接的转录本长度显著大于非RNA参与拼接的转录本(p<0.01)，研究表明大多数转录本的起始碱基为嘌呤。然后采用bedtools getfasta 软件提取小RNA参与拼接和非参与拼接的转录本的第一个碱基，结果如图2中的B所示，结果显示非小RNA参与拼接的转录本起始碱基A、G、C、T所占比例基本均等，并且 65％的小RNA参与拼接的转录本起始碱基为嘌呤(A或G)。

采用步骤一所述的方法注释转录本，采用MEME(5.1.0)软件对转录本上游和下游DNA保守序列进行预测(p<0.05)，结果如图3所示，在小RNA参与拼接的转录本上游-30至-15bp(碱基对)处发现核心启动子元件TATA盒，此外，在3’端上游-40至-10bp 处发现了加尾信号AATAAA，以及在3’端下游+1至+30bp处发现富含GC的序列，而在非小RNA参与拼接的转录本的上游没有预测出TATA盒，且RSCS注释转录本预测下游DNA保守序列与小RNA拼接转录本预测DNA保守序列相比的p值较高，结果表明 RNA测序和小RNA测序数据结合可注释出完整的转录本。

对RNA测序和小RNA测序数据结合注释转录本采用bedtools bamtobed软件对其长度分布进行分析，结果如图4中的A所示，结果显示其与小鼠参考基因组转录本长度分布更相似，而RNA测序注释的转录本在1000-200bp间缺失了较多，然后采用stringtie软件对具体基因的拼接情况进行分析，结果如图4中的B所示，黑色方块指代基因的外显子区，Refseq(美国国家生物信息技术中心的参考序列)表示为参考基因组中Nanog(多能性因子)的三条转录本注释，RCSC表示为采用RNA测序和小RNA测序拼接的方法注释出的三条Nanog转录本，RNA-seq表示为只用RNA测序方法注释出的仅一条Nanog 转录本，说明采用RCSC方法比单独只用RNseq注释出的转录本更加完全，分析表明RSCS 能更好注释转录组。

实施例2.筛选长非编码RNA的方法

本实施例所述为利用实施例1中的注释方法筛选长非编码RNA，具体方法如下：

一、注释转录本，具体方法参照实施例1中步骤一。

二、利用CPC2和CNCI两种软件对在细胞重编程各时间点拼接步骤一获得的转录本的编码能力进行预测，结果如图5中的A所示，得到13,072条长非编码RNA，占总体转录本的22.19％；如图5中的B所示，其中已知的(known)长非编码RNA 10,361 条，占79.26％；新预测(novel)的长非编码RNA2,711条，占20.74％。采用R语言对 mefs和iPSCs中长非编码RNA与编码基因的表达水平和编码能力进行比较分析，结果如图5中的C和D所示，长非编码RNA的表达水平和长度都显著小于编码基因。

实施例3.筛选内源逆转录病毒来源长非编码RNA的方法

本实施例所述为利用实施例1中的注释方法筛选内源逆转录病毒来源长非编码RNA 的方法，具体方法如下：

1、筛选出编码的长非编码RNA，具体方法参照实施例2。

2、然后利用bedtools interact软件，从步骤1得到的长非编码RNA中，根据在染色体上的位置选择与内源逆转录病毒距离距离5kb以内的长非编码RNA作为内源逆转录病毒来源的长非编码RNA(ERV-lncRNAs)，结果如图6所示，40.8％的长非编码RNA含有TE(转座因子)序列，其中与内源逆转录病毒相关长非编码RNA占59.3％。

Claims

1.一种转录本的注释方法，其特征在于，所述的注释方法的具体步骤包括：

(1)对RNA测序和小RNA测序的下机数据进行去接头处理获得有效数据；

(3)分别将步骤(2)中得到的符合标准的有效数据与参考基因组进行比对拼接，获得对比结果文件；

(4)把步骤(3)中得到的对比结果文件，以MAPQs值作为筛选标准筛选转录本；

(5)将步骤(4)中得到的转录本进行定量分析，获得定量结果文件，以Fpkm值作为筛选标准进行筛选，得到完整转录本。

2.根据权利要求1所述的注释方法，其特征在于，步骤(1)中采用trim_galore或cutadapt软件得到有效数据。

3.根据权利要求1所述的注释方法，其特征在于，步骤(2)中所述的质控标准为：

(1)每一个碱基的测序质量得分不低于20；

(2)每一条序列的鸟嘌呤胞嘧啶含量符合正态分布，偏差不超过15％；

(3)测序结果中不确定碱基的含量不超过5％；

(4)每一个读长的测序长度保持一致；

(5)序列的重复性不超过20％；

采用FastQC软件分析得到符合标准的有效数据。

4.根据权利要求1所述的注释方法，其特征在于，步骤(3)采用hisat2、bowtie2、tophat2或subjunc软件分析得到对比结果文件。

5.根据权利要求1所述的注释方法，其特征在于，步骤(4)中所述的筛选标准是MAPQs大于10。

6.根据权利要求1所述的注释方法，其特征在于，步骤(5)中所述的筛选标准是Fpkm大于0.5。

7.一种筛选长非编码RNA的方法，其特征在于，所述的方法中的转录本注释方法采用的权利要求1-6任意一项所述的注释方法。

8.根据权利要求7所述的方法，其特征在于，所述的方法中是采用CPC2和CNCI软件分析所述的注释方法得到的完整转录本，然后筛选得到长非编码RNA。

9.一种筛选内源逆转录病毒来源长非编码RNA的方法，其特征在于，所述的方法具体步骤包括：

(1)筛选长非编码RNA：采用权利要求8所述的方法筛选编码的长非编码RNA；

10.根据权利要求9所述的方法，其特征在于，步骤(2)中采用bedtools interact软件筛选得到内源逆转录病毒来源长非编码RNA。