CN107451429A

CN107451429A - 一种一键化分析rna数据的系统

Info

Publication number: CN107451429A
Application number: CN201710607777.8A
Authority: CN
Inventors: 刘旭; 成睿; 张涌
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2017-12-08

Abstract

本发明公开了一种一键化分析RNA数据的系统。本发明通过综合各种分析软件写成一个脚本，一键化得出最终结果并得出需要的图片。本发明能够接受单端和双端序列的输入文件，并能够分别分析两组数据的mRNA和lncRNA的基因差异，并对结果作图，直观的查看分析的结果。本发明能够方便、快速、准确的完成对于RNA数据分析。

Description

一种一键化分析RNA数据的系统

技术领域

本发明属于转录组分析领域，涉及用算法一键化得出mRNA与lncRNA的差异基因分析结果。

背景技术

近年来，高通量测序的发展促进了生物技术领域与医学领域的不断进步。随着第三代测序技术的成熟，现在测序的成本大大的降低。越来越多的科研人员愿意进行高通量的测序。通过高通量测序能够分析得到两组样本间的基因与转录本的差异，为以后的实验提供方向和对实验做验证。但是现在的分析都是需要多种分析软件的配合，需要涉及的中间输入和操作较多，由于每个软件之间配合紧密，一个输入或操作错误就会影响最后分析结果的准确性和可靠性，而且浪费了大量的时间与精力。另外，分析软件一般都是基于LINUX的，对许多科研人员来，从其分析结果中挖掘有价值的信息需要熟悉LINUX参数设置和操作，并非易事。因此迫切需要一种能够一键化的从头到尾得到最终所需要的有价值的分析数据的RNA数据分析系统。

发明内容

本发明的目的在于提供了一种一键化分析RNA数据的系统。

为了达到上述目的，本发明采用了以下技术方案：

该系统包括系统运行脚本模块，所述系统运行脚本模块包括作图模块、数据挖掘模块以及数据分析模块；

所述数据分析模块用于差异基因分析；

所述数据挖掘模块用于根据差异基因分析结果中的检验参数进行差异基因的显著性筛选；

所述作图模块用于将差异基因分析结果以及显著性筛选结果通过绘图进行显示。

优选的，所述系统运行脚本模块采用shell语言和R语言编写。

优选的，所述数据分析模块包括用于mRNA的差异基因分析子模块和用于lncRNA的差异基因分析子模块；用于mRNA的差异基因分析子模块通过调用相应分析程序对测序数据依次进行基因组比对、转录本组装和基因差异结果分析，得到差异基因分析结果；用于lncRNA的差异基因分析子模块通过调用相应分析程序对测序数据依次进行基因组比对、转录本组装、lncRNA筛选和基因差异结果分析，得到差异基因分析结果。

优选的，所述比对的结果在进行所述组装之前，对该结果中的比对至参考基因组不同染色体上的测序片段按照染色体编号排序。

优选的，所述检验参数选自p值或/和q值。

优选的，所述系统还包括用于生成脚本操作路径的准备模块。

优选的，所述操作路径包括用于存放参考基因组序列文件和基因注释文件的根路径以及位于该路径下的用于存放实验组和对照组的测序数据子路径。

优选的，所述系统运行于LINUX环境。

与现有技术相比，本发明具有以下有益的技术效果：

本发明不需要在分析过程中手动输入或进行操作，只需要第一步把要分析的两组数据以及基因组序列与相应的参考文件分别放到准备阶段生成的对应文件夹内，直接运行就可以得到分析结果。因此，显著的降低了科研人员对高通量数据分析的难度，使科研人员可以利用现有大量的共享数据，更方便的进行分析。与现有的分析软件相比，本发明不仅提供了差异基因分析结果，而且可以做如下进一步处理，例如按照p、q值更一步的对高通量的数据进行筛选，更好的帮助科研人员分析出最后的结果，以及通过对分析结果进行作图，更好的、更直观的表达出数据的深层次的内容。本发明具有快速、准确、方便的优点，而且可以挖掘更为准确、可靠的数据信息。

进一步的，本发明主要采用的是Shell与R语言编写，可以直接在各种版本linux系统上运行。

附图说明

图1为本发明实施例中一键化分析的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

针对目前分析软件的支持，本实施例提供了一种用于mRNA、lncRNA的差异基因分析的一键化分析系统，其分析过程中间不需要输入任何参数或操作，对于不熟悉LINUX的科研人员来说，也能够很方便的获得差异基因的分析结果。

该系统包括采用Shell语言编写的系统运行脚本模块RSA。其调用的分析软件是通过尝试了大量的分析数据所需要的软件，按照分析速度最快、准确率最高的标准挑选出来的。

安装：该系统安装并运行于LINUX操作环境，系统内除了包含上述RSA以外，还包含准备模块以及所有需要的分析软件程序(Trimmomatic、fastqc、hisat2、samtools、stringtie、cuffcompare、PLEK、ballgown)，系统运行安装后安装所有需要的分析软件程序，并且自动配置路径(PATH)变量。

准备：安装完成后通过准备模块生成一个供RSA操作处理的文件夹rsa，这个文件夹里面会生成control和experience两个文件夹，使用者分别把所需要分析的两组数据放到这两个文件夹内。并把参考基因组文件与基因注释文件放到文件夹rsa内。

运行：安装、准备完成后，系统执行分析流程，参见图1。RSA根据数据的类型与分析的需要分为四个子模块，分别完成单端mRNA(single end mRNA)、单端lncRNA(single endlncRNA)、双端mRNA(pair end mRNA)及双端lncRNA(pair end lncRNA)的分析，得出最后的结果。

系统运行的具体实现就是RSA对于各个安装的分析软件的调用以及对于分析结果的数据挖掘和图示化显示。RSA运行的流程具体为：

1.调用输入数据：RSA根据使用者的选择或对于数据特点分析，运行单端mRNA子模块、单端lncRNA子模块、双端mRNA子模、双端lncRNA子模这四种模块之一或者多个。RSA会重命名基因组序列名称和注释文件的名字，方便以后的步骤进行。调取两组的名称生成csv文件。

2.质量控制：FASTQ文件中测序片段(Reads)需要与指定的参考基因组进行序列比对，定位cDNA片段在基因组或基因上的位置。在序列比对之前，首先需要确保这些测序片段(Reads)有足够高的质量，以保证后续分析的准确。RSA会调用Trimmomatic来进行质量控制，通过存入文件夹而提供的FASTQ格式的原始测序数据(Rawdata)会在这一步进行质量控制，例如，去除测序片段中的接头，得到整齐的测序片段数据(cleandata)。

3.质量报告：根据上一步质量控制后的cleandata，对上一步的数据进行质量的评估。使使用者对于其输入的数据有个大体的了解。RSA调用fastqc以上一步的cleandata为输入文件进行质量评估，生成html形式的评估结果。碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的是Phred碱基质量值公式。碱基质量值越高表明碱基识别越可靠，碱基测序错误的可能性越小。

4.建库：根据使用者提供的物种参考基因组建立数据库。RSA调用hisat2，以使用者提供的参考基因组的文件建立数据库。RSA支持各种参考基因的文件类型。

5.比对(mapping)：RSA调用hiast2把control与experience两组的FASTQ文件(单端或双端)分别比对到上一步建立的数据库上，生成sam格式的比对文件。

6.比对文件的转换：RSA调用samtools对sam文件进行转化，转化为bam文件。并把得到的bam文件利用LINUX的sort命令进行处理，使得比对到参考基因组不同染色体上的测序片段按照染色体编号等规则进行排列。这样可以显著缩短下一步组装所耗费的时间，并进一步提高组装结果的数量和准确程度。

7.组装：以上面过程生成的并经过sort处理的bam文件为输入文件，RSA调用string tie对该bam文件内的测序片段进行组装，并生成结果(即基因转录本)文件。

8.参考基因文件的筛选：对于lncRNA数据的分析，RSA根据cuffcompare对组装结果进行挑选，生成的结果(挑选外显子数目大于1，长度大于200bp，class_code为“i”“u“”“x”的参考基因组序列)。然后用PLEK对以上序列进行编码能力的预测，删除掉具有编码能力的基因转录本。对于mRNA数据的分析，无需执行此步。

9.差异结果的分析：RSA调用ballgown对组装好的结果或经过以上组装以及筛选的结果进行分析，得出mRNA、lncRNA的差异基因分析结果。

10.结果的数据挖掘：

1)基于p值得筛选

从统计学定义上来说，p值(P value)是拒绝原假设的最小显著性水平，是当原假设为真时所得到的样本观察结果出现极端现象的概率，即检验统计量落入拒绝域的概率p＝P(W)，其中W为原假设的拒绝域。

在现实应用中，常常通过比较事先约定的显著性水平α与p值的大小来判断是否能够拒绝原假设。当α＜p时，接受拒绝域；而当p＜α时，则拒绝原假设。如果p值很小，说明原假设情况发生的概率很小，就有理由拒绝原假设，p值越小，拒绝原假设的理由就越充分。一般来说，常常事先约定显著性水平α＝0.05为可接受错误的边界水平。当然取显著性水平α＝0.01或者0.001的统计学意义更好，本文不再对此赘述。

在以上第9步差异结果的方差分析中(ballgown提供p值)，原假设是待检因子的不同水平对总体均值没有显著性的差异，即该因子不是影响样本的显著性因素。从而，当利用样本计算得来的p值小于显著性水平α＝0.05时，则拒绝原假设，认为待检因子对样本有显著性影响。

2)基于q值的筛选

q值来源于q检验，全称为Student-Newman-Keuls(SNK)检验。

在进行单因子多水平的方差分析中得到待检因子对样本有显著性影响过后，SNK检验的目的是对单因子多水平样本中的不同水平进行两两比较。

其检验统计量q的计算公式为其中和分别为两对比组的样本均值；为两对比组样本均值之差的样本标准差；MS_e为方差分析的误差均方；n_i和n_j分别是两组的样本容量。通过检验，如果发现结果是拒绝原假设，则认为待检的两个水平之间有较大差异。

总而言之，q检验是对方差分析的进一步检验(ballgown提供q值)。

11.RSA会按照P值<0.05和q值<0.05对差异分析结果进行分类，生成新的文件。文件内除了标识基因ID号，还增加了对于基因名称的标识，在后续差异分析中可以直接显示基因名称于分析表格中，更为直观。RSA还包含用R语言编写的作图模块(RSA主体程序是shell语言编写，作图子程序是R语言编写)，RSA利用作图模块按照最后的结果进行画图，得出热图与小提琴图，方便对整体数据进行把控。

热图是对实验数据分布情况进行分析的直观可视化方法，可以用来进行实验数据的质量控制和差异数据的具像化展示，还可以对数据和样品进行聚类，观测样品质量。它有多种形式，但基本的元素却是通用的。热图通常有两大作用：数据质量控制和直观展示重点研究对象的差异变化情况。小提琴其实是箱线图与核密度图的结合，箱线图展示了分位数的位置，小提琴图则展示了任意位置的密度，通过小提琴图可以知道哪些位置的密度较高。RSA根据最终筛选出的结果进行作图，会得出三类图片(全部有差异的基因的热图、根据P值选取差异较大基因做出热图和小提琴图)。

Claims

1.一种一键化分析RNA数据的系统，其特征在于：该系统包括系统运行脚本模块，所述系统运行脚本模块包括作图模块、数据挖掘模块以及数据分析模块；

所述数据分析模块用于差异基因分析；

2.根据权利要求1所述一种一键化分析RNA数据的系统，其特征在于：所述系统运行脚本模块采用shell语言和R语言编写。

3.根据权利要求1所述一种一键化分析RNA数据的系统，其特征在于：所述数据分析模块包括用于mRNA的差异基因分析子模块和用于lncRNA的差异基因分析子模块；用于mRNA的差异基因分析子模块通过调用相应分析程序对测序数据依次进行基因组比对、转录本组装和基因差异结果分析，得到差异基因分析结果；用于lncRNA的差异基因分析子模块通过调用相应分析程序对测序数据依次进行基因组比对、转录本组装、lncRNA筛选和基因差异结果分析，得到差异基因分析结果。

4.根据权利要求3所述一种一键化分析RNA数据的系统，其特征在于：所述比对的结果在进行所述组装之前，对该结果中的比对至参考基因组不同染色体上的测序片段按照染色体编号排序。

5.根据权利要求3所述一种一键化分析RNA数据的系统，其特征在于：所述检验参数选自p值或/和q值。

6.根据权利要求1所述一种一键化分析RNA数据的系统，其特征在于：所述系统还包括用于生成脚本操作路径的准备模块。

7.根据权利要求6所述一种一键化分析RNA数据的系统，其特征在于：所述操作路径包括用于存放参考基因组序列文件和基因注释文件的根路径以及位于该路径下的用于存放实验组和对照组的测序数据的子路径。

8.根据权利要求1所述一种一键化分析RNA数据的系统，其特征在于：所述系统运行于LINUX环境。