CN111192635B - 一种环状rna鉴定和表达定量的分析方法 - Google Patents
一种环状rna鉴定和表达定量的分析方法 Download PDFInfo
- Publication number
- CN111192635B CN111192635B CN201911378692.2A CN201911378692A CN111192635B CN 111192635 B CN111192635 B CN 111192635B CN 201911378692 A CN201911378692 A CN 201911378692A CN 111192635 B CN111192635 B CN 111192635B
- Authority
- CN
- China
- Prior art keywords
- circrna
- reads
- sequencing data
- analysis
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种环状RNA鉴定和表达定量的分析方法,其特征在于,包括一系列的测序数据过滤步骤、测序数据比对步骤、环状RNA连接点鉴定步骤、差异分析步骤、基因注释步骤和富集分析步骤来进行。本发明的分析方法可以帮助发现新的circRNA信息,进一步对环状RNA鉴定和表达定量分析。
Description
技术领域
本发明涉及基因检测领域,具体涉及一种环状RNA鉴定和表达定量的分析方法。
背景技术
circRNA(circular RNA,环状RNA)是一类具有闭合环状结构的非编码RNA分子,没有5′帽子结构和3′poly(A)结构,主要位于细胞质或储存于外泌体中,不受RNA外切酶影响,表达更稳定且不易降解,已被证明广泛存在于多种真核生物体内。大多数circRNA是由外显子环化而成,也有部分circRNA是由内含子环化而成的套索结构(lariat)。同时由于circRNA含有大量的miRNA应答原件(MREs),能与AGO蛋白形成RNA诱导沉默复合体(RISC)的催化核心,最终导致circRNA降解。根据来源,circRNA可大致分为四类:全外显子型的circRNA,内含子和外显子组合的EIcircRNA,内含子组成的套索型ciRNA,由病毒RNA基因组、tRNA、rRNA、snRNA等环化产生的circRNA。
现有的基于芯片的circRNA分析方法,依赖于已知的circRNA信息,无法发现新的circRNA。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种环状RNA鉴定和表达定量的分析方法,所述方法适用于去除rRNA并且链特异性建库,或者去除线性RNA的RNASeq测序结果分析。
为了实现本发明的目的,所采用的技术方案是:
一种环状RNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,具体是:
同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口。最后保留长度大于50的reads;
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制。
步骤二,测序数据比对步骤:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定,所述的环状RNA连接点鉴定具体是:
先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对;
接着挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对;如果两个序列比对的位置是相反的,这条Reads就可能来自一个CircRNA;
接着需要对这个CircRNA进行二次判断:
将Anchor序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合AG-GT的剪切模式,就认定这是一个CircRNA;
步骤四,差异分析步骤:
根据所述circRNA的成环连接点的支持数代表circRNA的表达量;
合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA;
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因;
根据circRNA通常调控来源基因的表达来发挥作用来推断circRNA的功能。
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析,所述富集分析具体为:
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;
根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性。获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。
在本发明的一个优选实施例中,所述质量控制具体为:
首先根据RNASeq的测序特点,将测序数据的碱基分布的四条线区分为:
AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
其次所述测序数据的Duplicate水平应该与建库的PCR循环数一致。
在本发明的一个优选实施例中,所述参考基因组包括Ensembl或NCBI。
在本发明的一个优选实施例中,所述构建索引为在hisat2比对时加上circRNA的链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
在本发明的一个优选实施例中,所述对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
本发明的有益效果在于:
本发明的分析方法可以帮助发现新的circRNA信息,进一步对环状RNA鉴定和表达定量分析。
附图说明
图1为本发明的流程图。
图2为本发明的操作示意图。
图3为本发明的结果示意图1。
图4为本发明的结果示意图2。
具体实施方式
一种环状RNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,准确性和去除的效率更高。同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口。最后保留长度大于50的reads。
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制:
根据RNASeq的测序特点,测序数据的碱基分布的四条线应该为:AT平行且接近,GC平行且接近;GC整体分布应该近似于正态分布,不能出现多峰;测序数据的Duplicate水平应该与建库的PCR循环数一致。
步骤二,测序数据比对步骤:
使用hisat2软件将过滤后的数据与参考基因组进行比对:
首先需要从基因组数据库中下载对应物种的参考基因组,常用的基因组数据库为Ensembl和NCBI,下载下来的基因组序列使用hisat2-build构建索引。circRNA通常都是链特异性文库,hisat2比对时需要加上链特异性参数,dUTP建库方法对应的参数为:--rna-strandness FR,其他参数通常使用默认值。
将比对完成的测序数据通过RSeQC进行质量控制:
对于circRNA项目,因为很多lncRNA都还没有注释信息,所以RSeQC结果的reads分布,在基因间区上需要有reads分布。比对结果的链信息需要与建库方式对应,dUTP建库的测序数据,需要集中在‘1+-,1-+,2++,2--’上。Reads在基因结构上需要呈现出中间高,两端低的分布形状。
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定;
首先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对。挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对。如果两个序列比对的位置是相反的,这条Reads就可能来自一个CircRNA。将Anchor序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合AG-GT的剪切模式,就认定这是一个CircRNA。
步骤四,差异分析步骤:
根据circRNA的结构特点,每个circRNA只有一个成环连接点,所以可以用连接点reads支持数代表circRNA的表达量。合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA。
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因。根据circRNA通常调控来源基因的表达来发挥作用来推断circRNA的功能。
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析。
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性。获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。
Claims (5)
1.一种环状RNA鉴定和表达定量的分析方法,其特征在于,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,具体是:
同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口;最后保留长度大于50的reads;
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制;
步骤二,测序数据比对步骤:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定,所述的环状RNA连接点鉴定具体是:
先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对;
接着挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对;如果两个序列比对的位置是相反的,这条 Reads 就可能来自一个 CircRNA;
接着需要对这个CircRNA进行二次判断:
将 Anchor 序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合 AG-GT 的剪切模式,就认定这是一个 CircRNA;
步骤四,差异分析步骤:
根据所述circRNA的成环连接点的支持数代表circRNA的表达量;
合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA;
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因;
根据circRNA调控来源基因的表达来发挥作用来推断circRNA的功能;
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析,所述富集分析具体为:
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;
根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性;
获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,选择P<0.05的结果为最后的富集结果。
2.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述质量控制具体为:
首先根据RNASeq的测序特点,将测序数据的碱基分布的四条线区分为:
AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
其次所述测序数据的Duplicate水平应该与建库的PCR循环数一致。
3.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述参考基因组包括Ensembl或NCBI。
4.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述构建索引为在hisat2比对时加上circRNA的链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
5.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378692.2A CN111192635B (zh) | 2019-12-27 | 2019-12-27 | 一种环状rna鉴定和表达定量的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378692.2A CN111192635B (zh) | 2019-12-27 | 2019-12-27 | 一种环状rna鉴定和表达定量的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192635A CN111192635A (zh) | 2020-05-22 |
CN111192635B true CN111192635B (zh) | 2023-03-14 |
Family
ID=70707652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911378692.2A Active CN111192635B (zh) | 2019-12-27 | 2019-12-27 | 一种环状rna鉴定和表达定量的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192635B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967757A (zh) * | 2021-04-06 | 2021-06-15 | 广州基迪奥生物科技有限公司 | 一种环状rna测序数据在线交互分析系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013041021A1 (zh) * | 2011-09-22 | 2013-03-28 | 深圳华大基因科技有限公司 | 一种分析基因表达定量的方法 |
CN110556162A (zh) * | 2019-08-20 | 2019-12-10 | 广州基迪奥生物科技有限公司 | 一种基于翻译组的环状rna翻译多肽的检测分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105492625B (zh) * | 2013-04-17 | 2020-04-07 | 先锋国际良种公司 | 用于在基因组中表征dna序列组成的方法 |
-
2019
- 2019-12-27 CN CN201911378692.2A patent/CN111192635B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013041021A1 (zh) * | 2011-09-22 | 2013-03-28 | 深圳华大基因科技有限公司 | 一种分析基因表达定量的方法 |
CN110556162A (zh) * | 2019-08-20 | 2019-12-10 | 广州基迪奥生物科技有限公司 | 一种基于翻译组的环状rna翻译多肽的检测分析方法 |
Non-Patent Citations (1)
Title |
---|
转录组测序分析猪胚胎附植的中期和后期卵巢差异表达基因;付言峰等;《畜牧兽医学报》(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111192635A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bentolila et al. | Comprehensive high-resolution analysis of the role of an Arabidopsis gene family in RNA editing | |
US20200051663A1 (en) | Systems and methods for analyzing nucleic acid sequences | |
CN108220394B (zh) | 基因调控性染色质相互作用的鉴定方法、系统及其应用 | |
EP2821501B1 (en) | Method and device for detecting microdeletion in chromosome sts area | |
CN111192637B (zh) | 一种lncRNA鉴定和表达定量的分析方法 | |
CN110021351B (zh) | 分析碱基连锁强度以及基因分型方法和系统 | |
CN103902852A (zh) | 基因表达的定量方法及装置 | |
CN115433768B (zh) | 一种基于ngs扩增子测序技术的igh超突变检测方法及系统 | |
CN110669834A (zh) | 一种基于转录组序列开发多态性ssr标记的方法 | |
CN102899335A (zh) | 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法 | |
CN111192635B (zh) | 一种环状rna鉴定和表达定量的分析方法 | |
CN113463202B (zh) | 一种新的rna高通量测序的方法、引物组和试剂盒及其应用 | |
Policastro et al. | Global approaches for profiling transcription initiation | |
US20220002337A1 (en) | Poly(A)-ClickSeq Click-Chemistry for Next Generation 3-End Sequencing Without RNA Enrichment or Fragmentation | |
Pereira et al. | RNA‐seq: applications and best practices | |
Fu et al. | CircRNAFinder: a tool for identifying circular RNAs using RNA-Seq data | |
CN111192636A (zh) | 一种适用于oligodT富集的mRNA二代测序结果分析方法 | |
CN102782152A (zh) | Rna分析方法 | |
WO2013152505A1 (zh) | 一种转录组组装的方法及系统 | |
CN110827920B (zh) | 测序数据分析方法和设备及高通量测序方法 | |
KR101977976B1 (ko) | 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법 | |
CN110684830A (zh) | 一种石蜡切片组织rna分析方法 | |
WO2016003283A1 (en) | A method for finding associated positions of bases of a read on a reference genome | |
Moraga et al. | BrumiR: A toolkit for de novo discovery of microRNAs from sRNA-seq data | |
Kainth et al. | Merging short and stranded long reads improves transcript assembly |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |