一种RNA编辑位点的特征分析方法
技术领域
本发明属于生物技术领域,具体地说,本发明涉及一种RNA编辑位点的特征分析方法。
背景技术
RNA编辑是指DNA转录之后、翻译之前在RNA水平上发生的碱基的缺失、插入或置换。在高等生物中,最主要的RNA编辑是碱基A到I(次黄嘌呤核苷)的修饰,这种修饰,通常是被ADAR蛋白酶催化产生的。由于在翻译水平上,次黄嘌呤核苷酸(I)被识别为鸟核苷酸(G),因此在该位点的这种编辑,实际上是A到G的转换。这种改变可能导致相关蛋白质结构功能的改变,也可能改变生物体内起调控作用的RNA的结构功能的改变。根据相关文献报道表明,RNA编辑现象与癌症的发生有密切联系,因而成为了当前癌症方面研究的一个新的研究思路及研究热点。
由于实验技术需求较多的资源的投入,当前的RNA编辑方面的研究着重于以信息学的方式进行RNA编辑位点的鉴定的发掘,并在此基础上进行了RNA编辑位点的特征统计(基因组上分布,序列模体等)及后续的一些分析工作。当前癌症方面RNA编辑的分析工作主要集中在分析基因编码区,特别是外显子区的非同义突变的研究。这主要是因为这种方式的编辑可以比较直观的反映到对基因表达产物的影响。但从现有文献中已经鉴定出的RNA编辑位点分布情况来看,这种发生在基因编码区的RNA编辑,只占总体RNA编辑位点中极少比例的一部分,更多的RNA编辑位点发生在基因的内含子区及被称为Alu的SINE(ShortInterspersedNuclearElement)区域。
上述情况表明,RNA编辑的真正调控作用应该以以上两种区域的作用及特点密不可分。这将是之后对RNA编辑方面研究的重点思路之一。与其他的DNA变异不同(如snp,indel鉴定等),RNA编辑的生物学鉴定及分析尚处于起步阶段,因此,缺乏统一的分析思路及相关的软硬件支持,这导致大量的精力被投入到了重复性的工作中。
因此,对RNA编辑方面的分析,迫切需要一些较为完善的技术方案对RNA编辑位点数据进行基本特征分析,使得为RNA编辑方面的研究更为方便、快速、准确。
发明内容
本发明的目的在于提供一种RNA编辑位点的特征分析方法。
本发明的第一方面,提供了一种RNA编辑位点的特征分析方法,包括步骤:
(1)对待分析样本进行测序,获得DNA和RNA数据;
(2)分析步骤(1)中获得的数据,得到RNA编辑位点数据集;
(3)统计获得所述RNA编辑位点数据集中RNA编辑位点上下游序列的RNA二级结构自由能分布曲线A;优选地,所述“上下游序列”的长度为50bp-200bp;更优选地为100bp。
在另一优选例中,所述RNA二级结构自由能分布曲线的中位数位于-55~-70;优选地位于-60~-65。
在另一优选例中,所述方法还包括步骤:
(4)统计获得对照RNA编辑位点数据库中的RNA编辑位点上下游序列的RNA二级结构自由能分布曲线B,并将曲线A和曲线B进行比对。如果曲线A和曲线B大致重合,说明步骤(2)中所获得的RNA编辑位点数据集较为可靠。
在另一优选例中,所述方法还包括步骤:
(a)统计RNA编辑位点数据集中单编辑位点的编辑频率,选取差异显著的位点进行FDR矫正,获得具显著差异的位点作为后续分析的候选位点;
(b)对RNA编辑位点数据集进行两类样本单个基因编辑位点统计,并以该统计获取两类样本编辑位点数变化差异在较大(较佳地,差异变化在0.5倍以上)的及两类样本各自独有的发生编辑的基因,供后续进行目的基因的筛选。
在另一优选例中,所述方法还包括步骤:
统计所有样本检出的编辑位点上下游各10bp位置的各碱基出现频率。
在另一优选例中,所述步骤(b)中所述两类样本为肿瘤样本和对应正常样本。
在另一优选例中,所述步骤(3)中使用的统计工具为RNAfold软件。
在另一优选例中,所述步骤(1)中待分析样本为群体样本,所述群体样本中样本数量≥50个,合并测得的DNA和RNA数据进行步骤(2)。
在另一优选例中,所述步骤(1)中待分析样本包括正常组织和/或肿瘤组织。
在另一优选例中,所述样本选自:正常人或癌症患者。
在另一优选例中,所述步骤(a)中,对RNA编辑位点进行两类样本(比如,癌症样本和对应正常样本)单编辑位点编辑频率的统计,并以该频率进行成对t检验,获取每个位点的差异显著性值(P值),选取差异显著的点(如P<0.05)进行FDR过滤(设置P<0.05),获得在两类样本中具显著差异的位点,作为后续分析的候选位点。
在另一优选例中,所述方法包括步骤:
进行两类样本及DARNED数据库的RNA编辑位点绘制维恩图。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。
附图说明
图1显示了实施例1中数据库预测RNA编辑位点,snp位点二级结构最小自由能分布图(虚线为中位数)。
图2显示了实施例1中RNA编辑位点上下游各10bp特征情况图。
图3显示了实施例1中正常样本,肿瘤样本,DARNED数据库编辑位点韦恩图。
图4显示了实施例2中数据库预测RNA编辑位点,snp位点二级结构最小自由能分布图(虚线为中位数)。
图5显示了实施例2中RNA编辑位点上下游各10bp特征情况图。
图6显示了实施例2中正常样本,肿瘤样本,DARNED数据库编辑位点韦恩图。
具体实施方式
本发明人通过广泛而深入的研究,获得一种RNA编辑位点的特征分析方法,实验结果表明,所述方法能够方便、快速地对RNA编辑位点数据的基本特征进行分析,并得出准确的结果。
测序
在本发明中,可用常规的测序技术和平台进行测序。优选的测序方法包括:LifeTechnologies的proton或PGM,IlluminaHiSeq,ABISOLiD,Roche454等测序仪器。
在本发明中,特别适合对本发明构建的PCR-free文库进行测序的方法是IonProton法。在一优选例中,将符合上机测序标准的文库片段,使用TheIonProtonTMSystem进行测序。
数据处理
在本发明的优选例中,数据处理通常包括以下步骤:以NCBI数据库中公布的人基因组为参考标准。将测序的reads转换为fastq格式,并与人基因组序列比对,确定匹配的读序(即比对上的读序)。
数据处理可以用本领域采用的方法或软件进行,包括市售的软件、公开的软件(尤其是全部开源的软件)进行。
RNA编辑位点样本的获得
目前公开的RNA编辑位点数据库包括:DARNED数据库(网址:http://darned.ucc.ie/)、RADAR数据库(网址:http://rnaedit.com/),可以作为对照数据库。通过上述的数据库也可以获得本发明所涉及的待分析的RNA编辑位点数据。
此外,对于群体样本RNA编辑位点数据的获得,可以采用如下方法。
针对Illumina测序平台生产的高通量测序数据,所包括的RNA编辑位点检测方法,步骤如下:
(1)比对
(1.1)获得原始测序数据,所述原始测序数据为群体样本的测序数据;
在本发明的一个较佳实施方式中,所述原始测序数据包括正常DNA、肿瘤DNA、正常RNA、肿瘤RNA的高通量测序数据;
(1.2)原始数据过滤,目的是过滤掉一些含有接头或者质量值比较低的片段,获得“干净的”数据;主要内容有:
(i)去除含接头的片段;当片段被接头污染时,可能测到接头序列,所以要
除接头;
(ii)去除N的比例较高(优选地比例≥10%)的片段,N含量过高会引起比
对错误;
(iii)去除低质量片段,测序时存在测错的概率,低质量的片段有可能存在
测错的碱基。
(1.3)比对,利用基于Bowtie的RNA-seq比对工具tophat将测序数据比对到参考基因组上,生成bam格式的文件。
(1.4)使用GATK(GenomeAnalysisToolkit)对比对结果的碱基质量值校正。illumina测序结果在给定每个碱基质量值的时候存在偏差,需要根据整个文库所有测序reads的质量值分布进行校正。
(1.5)利用Picard工具包去除比对结果中存在的PCR重复序列。
(1.6)使用GATK分割比对结果中存在剪切的序列(含N的片段)。
(2)使用GATK的UnifiedGenotyper工具检测突变,分别对正常RNA、肿瘤RNA、正常DNA和肿瘤DNA四组bam文件进行突变检测,得到正常RNA、肿瘤RNA、正常DNA和肿瘤DNA一共4个vcf文件,作为原始RNA编辑位点数据(原始SNP)。
(3)过滤突变
(3.1)使用GATK对检测出来的SNP做VQSR(Variantqualityscorerecalibration),对vcf(VariantCallFormat)文件中的一些高质量的位点作为可信位点构建高斯混合模型(Gaussianmixturemodel),并对所有位点进行评估,从而过滤其中的假阳性位点,具体操作可以参考软件说明。
(3.2)分别移除DNA和RNA、RNA和dbSNP数据库共有的位点,因这些位点并不是在转录过程中发生的突变,不属于RNA编辑事件,需要排除。
(3.3)移除RNA检测的indel(插入或缺失)位点左右各30bp(basepair)内的位点,由于indel附近容易发生比对错误,造成较高的假阳性,因此将INDEL附近的位点排除掉。
(3.4)以深度大于2且突变支持数大于1作为一个可信的发生编辑的样本,若该组样本的编辑样本支持数少于2个,则视为假编辑位点滤掉。
(3.5)过滤掉FS(Phred-scaledp-valueusingFisher'sexacttesttodetectstrandbias)大于20的位点。
(3.6)移除基因间区以及处在剪切位点左右2bp内的的位点,由于处在这些区域的位点的突变并不会对基因表达产物产生直接影响,因此也需要过滤掉。
最终得到高质量的在基因区的RNA编辑位点。
其中,步骤1.3)中基于公开的开源Bowtie的RNA-seq比对工具tophat(下载地址如:http://ccb.jhu.edu/software/tophat/index.shtml),进行比对,命令行如下:
tophat--solexa1.3-quals--read-mismatches2--read-gap-length3--read-edit-dist3--library-typefr-unstranded-p6-r30--b2-fast--rg-centerbgi--rg-platformillumina--no-novel-juncs--no-novel-indels-odirreferencesequence.fq1sequence.fq2
步骤1.4)中,使用公开的开源GATK(GenomeAnalysisToolkit)软件(下载地址如:https://www.broadinstitute.org/gatk/),校正参数为-knownSites-nct-U–BQSR,GATK的软件使用可以参考产品使用说明。
步骤1.5)中,公开的开源Picard工具包(下载地址如:http://picard.sourceforge.net/)去除比对结果中存在的PCR重复序列,设置如下:
java-Xmx4g-jarMarkDuplicates.jarINPUT=in.bamOUTPUT=out.bamMETRICS_FILE=rmdup.metREMOVE_DUPLICATES=trueVALIDATION_STRINGENCY=SILENTASSUME_SORTED=trueCREATE_INDEX=true。
步骤1.6)中,GATK的设置如下:
java-Xmx512M-jarFilterBadCigar.jarin.bamout.bamjava-Xmx6g-jarGenomeAnalysisTK.jar-TSplitNCigarReads-Iin.bam-oout.bam-UALL–Rreference.fa。
步骤(1.2)中,GATK的UnifiedGenotyper工具的设置如下:
java-Xmx6g-jar-Djava.io.tmpdir=tmpGenomeAnalysisTK.jar-TUnifiedGenotyper-lINFO-Ibam.list-Rreference.fa--dbsnpdbsnp_138-stand_call_conf30-stand_emit_conf4-dcov200-GStandard-nt6-glmBOTH-UALLOW_N_CIGAR_READS-Lchr-metricsmetrics-ochr.vcf
步骤3.1)中,VQSR(Variantqualityscorerecalibration)是指:对vcf(VariantCallFormat)文件中的一些高质量的位点作为可信位点构建高斯混合模型(Gaussianmixturemodel),并对所有位点进行评估,从而过滤其中的假阳性位点;
主要步骤:(i)对vcf(VariantCallFormat)文件中的一些高质量的位点作为可信位点构建高斯混合模型(Gaussianmixturemodel),并对所有位点进行评估;(ii)将建立的高斯混合模型参数应用到输入的VCF文件,对每一个变异位点进行VQSLOD值的注释,从而过滤其中的假阳性位点。
VQSR通过机器学习的方法根据已知的变异位点训练出一组变异位点集,并会给每个位点赋一个VQSLOD值,变异位点越接近集合的中心其值就会越高;然后根据模型在对新检测出的变异位点进行打分,如果分值在训练集合内就认为是一个质量高的变异位点,否则认为是一个假阳性位点。
步骤(3.5),FS(Phred-scaledp-valueusingFisher'sexacttesttodetectstrandbias)使用Fish检验的方法,检测比对在某一位点片段是否存在链的偏好性。
另外,现有技术已经公开了许多常规的获得RNA编辑位点的方法,例如文献AccurateidentificationofA-to-IRNAeditinginhumanbytranscriptomesequencing、RNAeditinginthehumanENCODERNA-seqdata、HighlevelsofRNA-editingsiteconservationamongst15laboratorymousestrains中报道的方法,具体请见附录的参考文献。
RNA编辑位点的特征分析
本发明对RNA编辑位点的特征进行分析,包括:
1)对群体RNA编辑位点进行两类样本单编辑位点编辑频率的统计,并以该频率进行成对t检验,获取每个位点的差异显著性值(P值),选取差异显著的点(参数可修改,默认P<0.05)进行FDR过滤(参数可修改,默认P<0.05),获得较为可靠的在两类样本(比如,癌症样本和对应正常样本)中具显著差异的位点。这些位点可作为后续分析的候选位点。
2)对群体RNA编辑位点进行两类样本单个基因编辑位点统计,并以该统计获取两类样本编辑位点数变化差异在较大(参数可修改,默认差异变化在0.5倍以上)的及两类样本各自独有的发生编辑的基因,供后续进行目的基因的筛选。
3)统计所有样本检出的编辑位点上下游各10bp位置的各碱基出现频率,并绘图,可直观看到RNA编辑位点模体(motif)特征。
4)统计所有样本检出的编辑位点上下游各100bp位置序列的RNA二级结构自由能分布,并进行绘图,同时也对dbsnp138及DARNED数据库的位点上下游各200bp位置序列的RNA二级结构自由能分布进行。
5)进行两类样本及DARNED数据库的编辑位点维恩图的绘制。
本发明的主要优点在于:
(1)首次披露了一种RNA编辑位点的特征分析方法,该方法能够方便、快速地对RNA编辑位点数据的基本特征进行分析;
(2)采用本发明的方法对种RNA编辑位点数据进行分析,分析结论准确、可靠。
(3)使用本方法可以方便的判别分析获得RNA编辑位点数据的准确性,并鉴别出RNA编辑位点数据和SNP位点数据。
实施例1
1.样本/数据来源
1.165例前列腺癌患者,对每个患者的正常DNA、肿瘤DNA、正常RNA、肿瘤RNA分别进行高通量测序,读长为90bp,分析获取群体的RNA编辑位点数据和SNP位点数据,得到VCF格式的RNA编辑位点及相应注释信息。
1.2Darned数据库(网址:http://darned.ucc.ie/)
2.分析处理RNA编辑位点数据
本实施例中使用RNAfold软件对RNA编辑位点进行特征分析,RNAfold软件为开源软件,下载地址如:http://www.tbi.univie.ac.at/RNA/index.html#download。
为了便于说明,表1中列出了本实施例中的生成文件及说明。
表1本实施例中生成文件及说明
2.1分析RNA编辑位点、SNP位点的二级结构最小自由能分布
获得候选RNA编辑位点及数据库SNP位点后,将位点上下游各100bp的序列提取出来存入fasta格式的文档,将该文档直接以参数形式输入RNAfold软件,获取结果文件,从结果文件中提取每个位点的最小自由能数据,以R语言绘出最小自由能分布曲线。
2.2RNA编辑位点上下游序列特征分析
获得候选RNA编辑位点后,将其上下游各10bp的序列提取出来并以每个位置为单位,统计不同碱基出现频率,以R语言绘出SequenceLogo图。
2.3绘制正常样本,肿瘤样本,DARNED数据库RNA编辑位点的韦恩图。
3.结果
3.1RNA编辑位点、SNP位点的二级结构最小自由能分布的分析结果如图1所示,从图中可以看出,本实施例中从65名前列腺癌患者核酸数据中预测的RNA编辑位点,其二级结构最小自由能分布曲线与DARNED数据库RNA编辑位点的二级结构最小自由能分布曲线相一致。而与SNP(dbSNP138,寡核苷酸多态性数据库)的二级结构最小自由能分布曲线有显著差异。说明本发明的方法能够有效的鉴别出RNA编辑位点数据和SNP位点数据。
3.2RNA编辑位点上下游序列特征分析的结果如图2所示,从图中可以看出编辑位点腺嘌呤(A,对应于表2中的碱基位置为11)出现频率最高,在编辑位点上游的-1位(对应于表2中的碱基位置为10),鸟嘌呤(G)出现频率极低,可认为是该种碱基在-1位缺失,而在编辑位点下游+1位(对应于表2中的碱基位置为12),鸟嘌呤(G)呈现较高的频率。这些特征与之前文献(AccurateidentificationofA-to-IRNAeditinginhumanbytranscriptomesequencing)报道一致。
表2碱基频率分析
碱基位置 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
A频率 |
0.22 |
0.21 |
0.24 |
0.18 |
0.23 |
0.26 |
0.21 |
0.23 |
0.16 |
0.27 |
C频率 |
0.27 |
0.28 |
0.24 |
0.26 |
0.23 |
0.25 |
0.24 |
0.28 |
0.32 |
0.33 |
G频率 |
0.23 |
0.28 |
0.26 |
0.26 |
0.30 |
0.29 |
0.25 |
0.26 |
0.22 |
0.06 |
T频率 |
0.28 |
0.23 |
0.26 |
0.31 |
0.24 |
0.21 |
0.31 |
0.24 |
0.30 |
0.34 |
表2(续)
碱基位置 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
21 |
A频率 |
0.95 |
0.19 |
0.23 |
0.22 |
0.21 |
0.23 |
0.26 |
0.21 |
0.24 |
0.25 |
0.23 |
C频率 |
0.00 |
0.20 |
0.28 |
0.28 |
0.26 |
0.27 |
0.23 |
0.31 |
0.25 |
0.27 |
0.28 |
G频率 |
0.01 |
0.47 |
0.26 |
0.23 |
0.25 |
0.25 |
0.29 |
0.23 |
0.28 |
0.24 |
0.27 |
T频率 |
0.04 |
0.14 |
0.24 |
0.27 |
0.28 |
0.25 |
0.22 |
0.25 |
0.22 |
0.24 |
0.22 |
3.3正常样本,肿瘤样本,DARNED数据库RNA编辑位点的韦恩图如图3所示,从图中可以看出三类数据相互之间的重复率并不高,这表明,在不考虑假阳性的情况下,有许多的位点都可能是新发现的RNA编辑位点。
实施例2
重复实施例1中的步骤,不同点在于,用以下样本替换实施例1中65例前列腺癌患者,从而分别获得RNA编辑位点数据集,并进行特征分析:
样本:24例肺癌患者。
结果:
实验结果如图4、5、6所示,本实施例中从肺癌患者样本中预测的RNA编辑位点,其二级结构最小自由能分布曲线与DARNED数据库RNA编辑位点的二级结构最小自由能分布曲线相一致,而与对照SNP(dbsnp138,寡核苷酸多态性数据库)的二级结构最小自由能分布曲线有显著差异。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参考文献:
1.RamaswamiG,LinW,PiskolR,etal.AccurateidentificationofhumanAluandnon-AluRNAeditingsites[J].Naturemethods,2012,9(6):579-581.
2.PengZ,ChengY,TanBCM,etal.ComprehensiveanalysisofRNA-SeqdatarevealsextensiveRNAeditinginahumantranscriptome[J].Naturebiotechnology,2012,30(3):253-260.
3.JaeHoonBahn,Jae-HyungLeeetal.AccurateidentificationofA-to-IRNAeditinginhumanbytranscriptomesequencing.GenomeResearch,2012,22:142-150
4.EddiePark,BrianWilliams,BarbaraJ.Wold,etal.RNAeditinginthehumanENCODERNA-seqdata.GenomeResearch,201222:1626-1633
5.Daneceketal.HighlevelsofRNA-editingsiteconservationamongst15laboratorymousestrains.GenomeBiology2012,13:26