CN111192635B - 一种环状rna鉴定和表达定量的分析方法 - Google Patents

一种环状rna鉴定和表达定量的分析方法 Download PDF

Info

Publication number
CN111192635B
CN111192635B CN201911378692.2A CN201911378692A CN111192635B CN 111192635 B CN111192635 B CN 111192635B CN 201911378692 A CN201911378692 A CN 201911378692A CN 111192635 B CN111192635 B CN 111192635B
Authority
CN
China
Prior art keywords
circrna
reads
sequencing data
analysis
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911378692.2A
Other languages
English (en)
Other versions
CN111192635A (zh
Inventor
沈立
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Personal Biotechnology Co ltd
Original Assignee
Shanghai Personal Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Personal Biotechnology Co ltd filed Critical Shanghai Personal Biotechnology Co ltd
Priority to CN201911378692.2A priority Critical patent/CN111192635B/zh
Publication of CN111192635A publication Critical patent/CN111192635A/zh
Application granted granted Critical
Publication of CN111192635B publication Critical patent/CN111192635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种环状RNA鉴定和表达定量的分析方法,其特征在于,包括一系列的测序数据过滤步骤、测序数据比对步骤、环状RNA连接点鉴定步骤、差异分析步骤、基因注释步骤和富集分析步骤来进行。本发明的分析方法可以帮助发现新的circRNA信息,进一步对环状RNA鉴定和表达定量分析。

Description

一种环状RNA鉴定和表达定量的分析方法
技术领域
本发明涉及基因检测领域,具体涉及一种环状RNA鉴定和表达定量的分析方法。
背景技术
circRNA(circular RNA,环状RNA)是一类具有闭合环状结构的非编码RNA分子,没有5′帽子结构和3′poly(A)结构,主要位于细胞质或储存于外泌体中,不受RNA外切酶影响,表达更稳定且不易降解,已被证明广泛存在于多种真核生物体内。大多数circRNA是由外显子环化而成,也有部分circRNA是由内含子环化而成的套索结构(lariat)。同时由于circRNA含有大量的miRNA应答原件(MREs),能与AGO蛋白形成RNA诱导沉默复合体(RISC)的催化核心,最终导致circRNA降解。根据来源,circRNA可大致分为四类:全外显子型的circRNA,内含子和外显子组合的EIcircRNA,内含子组成的套索型ciRNA,由病毒RNA基因组、tRNA、rRNA、snRNA等环化产生的circRNA。
现有的基于芯片的circRNA分析方法,依赖于已知的circRNA信息,无法发现新的circRNA。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种环状RNA鉴定和表达定量的分析方法,所述方法适用于去除rRNA并且链特异性建库,或者去除线性RNA的RNASeq测序结果分析。
为了实现本发明的目的,所采用的技术方案是:
一种环状RNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,具体是:
同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口。最后保留长度大于50的reads;
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制。
步骤二,测序数据比对步骤:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定,所述的环状RNA连接点鉴定具体是:
先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对;
接着挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对;如果两个序列比对的位置是相反的,这条Reads就可能来自一个CircRNA;
接着需要对这个CircRNA进行二次判断:
将Anchor序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合AG-GT的剪切模式,就认定这是一个CircRNA;
步骤四,差异分析步骤:
根据所述circRNA的成环连接点的支持数代表circRNA的表达量;
合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA;
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因;
根据circRNA通常调控来源基因的表达来发挥作用来推断circRNA的功能。
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析,所述富集分析具体为:
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;
根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性。获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。
在本发明的一个优选实施例中,所述质量控制具体为:
首先根据RNASeq的测序特点,将测序数据的碱基分布的四条线区分为:
AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
其次所述测序数据的Duplicate水平应该与建库的PCR循环数一致。
在本发明的一个优选实施例中,所述参考基因组包括Ensembl或NCBI。
在本发明的一个优选实施例中,所述构建索引为在hisat2比对时加上circRNA的链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
在本发明的一个优选实施例中,所述对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
本发明的有益效果在于:
本发明的分析方法可以帮助发现新的circRNA信息,进一步对环状RNA鉴定和表达定量分析。
附图说明
图1为本发明的流程图。
图2为本发明的操作示意图。
图3为本发明的结果示意图1。
图4为本发明的结果示意图2。
具体实施方式
一种环状RNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,准确性和去除的效率更高。同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口。最后保留长度大于50的reads。
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制:
根据RNASeq的测序特点,测序数据的碱基分布的四条线应该为:AT平行且接近,GC平行且接近;GC整体分布应该近似于正态分布,不能出现多峰;测序数据的Duplicate水平应该与建库的PCR循环数一致。
步骤二,测序数据比对步骤:
使用hisat2软件将过滤后的数据与参考基因组进行比对:
首先需要从基因组数据库中下载对应物种的参考基因组,常用的基因组数据库为Ensembl和NCBI,下载下来的基因组序列使用hisat2-build构建索引。circRNA通常都是链特异性文库,hisat2比对时需要加上链特异性参数,dUTP建库方法对应的参数为:--rna-strandness FR,其他参数通常使用默认值。
将比对完成的测序数据通过RSeQC进行质量控制:
对于circRNA项目,因为很多lncRNA都还没有注释信息,所以RSeQC结果的reads分布,在基因间区上需要有reads分布。比对结果的链信息需要与建库方式对应,dUTP建库的测序数据,需要集中在‘1+-,1-+,2++,2--’上。Reads在基因结构上需要呈现出中间高,两端低的分布形状。
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定;
首先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对。挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对。如果两个序列比对的位置是相反的,这条Reads就可能来自一个CircRNA。将Anchor序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合AG-GT的剪切模式,就认定这是一个CircRNA。
步骤四,差异分析步骤:
根据circRNA的结构特点,每个circRNA只有一个成环连接点,所以可以用连接点reads支持数代表circRNA的表达量。合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA。
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因。根据circRNA通常调控来源基因的表达来发挥作用来推断circRNA的功能。
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析。
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性。获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。

Claims (5)

1.一种环状RNA鉴定和表达定量的分析方法,其特征在于,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:
fastp使用PE reads overlap信息自动识别接头序列,具体是:
同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口;最后保留长度大于50的reads;
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制;
步骤二,测序数据比对步骤:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,环状RNA连接点鉴定步骤:
对于比对不上基因组的序列,使用find_circ进行环状RNA连接点鉴定,所述的环状RNA连接点鉴定具体是:
先对于hisat2比对结果进行筛选,挑选没有比对结果和比对结果中出现大片段(10bp)soft-clip的reads进行二次比对;
接着挑选出的reads从两端分别截取20bp,使用bowtie2与基因组比对;如果两个序列比对的位置是相反的,这条 Reads 就可能来自一个 CircRNA;
接着需要对这个CircRNA进行二次判断:
将 Anchor 序列一直延伸,如果到连接点处为止序列都能够与参考基因组完全匹配,并且连接点处的剪切模式符合 AG-GT 的剪切模式,就认定这是一个 CircRNA;
步骤四,差异分析步骤:
根据所述circRNA的成环连接点的支持数代表circRNA的表达量;
合并所有样品的表达量,然后使用DESeq进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的circRNA;
步骤五,基因注释步骤:
根据连接点位置进行circRNA来源基因注释;
根据circRNA连接点的坐标,使用bedtools寻找与circRNA重叠的编码RNA作为circRNA的来源基因;
根据circRNA调控来源基因的表达来发挥作用来推断circRNA的功能;
步骤六,富集分析步骤:
对差异表达的circRNA来源基因进行功能富集分析,所述富集分析具体为:
提取circRNA的来源基因,使用topGO软件包进行GO富集分析;
根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性;
获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,选择P<0.05的结果为最后的富集结果。
2.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述质量控制具体为:
首先根据RNASeq的测序特点,将测序数据的碱基分布的四条线区分为:
AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
其次所述测序数据的Duplicate水平应该与建库的PCR循环数一致。
3.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述参考基因组包括Ensembl或NCBI。
4.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述构建索引为在hisat2比对时加上circRNA的链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
5.如权利要求1所述的一种环状RNA鉴定和表达定量的分析方法,其特征在于,所述对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
CN201911378692.2A 2019-12-27 2019-12-27 一种环状rna鉴定和表达定量的分析方法 Active CN111192635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911378692.2A CN111192635B (zh) 2019-12-27 2019-12-27 一种环状rna鉴定和表达定量的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911378692.2A CN111192635B (zh) 2019-12-27 2019-12-27 一种环状rna鉴定和表达定量的分析方法

Publications (2)

Publication Number Publication Date
CN111192635A CN111192635A (zh) 2020-05-22
CN111192635B true CN111192635B (zh) 2023-03-14

Family

ID=70707652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911378692.2A Active CN111192635B (zh) 2019-12-27 2019-12-27 一种环状rna鉴定和表达定量的分析方法

Country Status (1)

Country Link
CN (1) CN111192635B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967757A (zh) * 2021-04-06 2021-06-15 广州基迪奥生物科技有限公司 一种环状rna测序数据在线交互分析系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013041021A1 (zh) * 2011-09-22 2013-03-28 深圳华大基因科技有限公司 一种分析基因表达定量的方法
CN110556162A (zh) * 2019-08-20 2019-12-10 广州基迪奥生物科技有限公司 一种基于翻译组的环状rna翻译多肽的检测分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105492625B (zh) * 2013-04-17 2020-04-07 先锋国际良种公司 用于在基因组中表征dna序列组成的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013041021A1 (zh) * 2011-09-22 2013-03-28 深圳华大基因科技有限公司 一种分析基因表达定量的方法
CN110556162A (zh) * 2019-08-20 2019-12-10 广州基迪奥生物科技有限公司 一种基于翻译组的环状rna翻译多肽的检测分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
转录组测序分析猪胚胎附植的中期和后期卵巢差异表达基因;付言峰等;《畜牧兽医学报》(第09期);全文 *

Also Published As

Publication number Publication date
CN111192635A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
Bentolila et al. Comprehensive high-resolution analysis of the role of an Arabidopsis gene family in RNA editing
US20200051663A1 (en) Systems and methods for analyzing nucleic acid sequences
CN108220394B (zh) 基因调控性染色质相互作用的鉴定方法、系统及其应用
EP2821501B1 (en) Method and device for detecting microdeletion in chromosome sts area
CN111192637B (zh) 一种lncRNA鉴定和表达定量的分析方法
CN110021351B (zh) 分析碱基连锁强度以及基因分型方法和系统
CN103902852A (zh) 基因表达的定量方法及装置
CN115433768B (zh) 一种基于ngs扩增子测序技术的igh超突变检测方法及系统
CN110669834A (zh) 一种基于转录组序列开发多态性ssr标记的方法
CN102899335A (zh) 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法
CN111192635B (zh) 一种环状rna鉴定和表达定量的分析方法
CN113463202B (zh) 一种新的rna高通量测序的方法、引物组和试剂盒及其应用
Policastro et al. Global approaches for profiling transcription initiation
US20220002337A1 (en) Poly(A)-ClickSeq Click-Chemistry for Next Generation 3-End Sequencing Without RNA Enrichment or Fragmentation
Pereira et al. RNA‐seq: applications and best practices
Fu et al. CircRNAFinder: a tool for identifying circular RNAs using RNA-Seq data
CN111192636A (zh) 一种适用于oligodT富集的mRNA二代测序结果分析方法
CN102782152A (zh) Rna分析方法
WO2013152505A1 (zh) 一种转录组组装的方法及系统
CN110827920B (zh) 测序数据分析方法和设备及高通量测序方法
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
CN110684830A (zh) 一种石蜡切片组织rna分析方法
WO2016003283A1 (en) A method for finding associated positions of bases of a read on a reference genome
Moraga et al. BrumiR: A toolkit for de novo discovery of microRNAs from sRNA-seq data
Kainth et al. Merging short and stranded long reads improves transcript assembly

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant