CN111192637B - 一种lncRNA鉴定和表达定量的分析方法 - Google Patents
一种lncRNA鉴定和表达定量的分析方法 Download PDFInfo
- Publication number
- CN111192637B CN111192637B CN201911381879.8A CN201911381879A CN111192637B CN 111192637 B CN111192637 B CN 111192637B CN 201911381879 A CN201911381879 A CN 201911381879A CN 111192637 B CN111192637 B CN 111192637B
- Authority
- CN
- China
- Prior art keywords
- lncrna
- expression
- transcript
- sequencing data
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种lncRNA鉴定和表达定量的分析方法,其特征在于,包括一系列的测序数据过滤步骤、测序数据比对步骤、转录拼接步骤、基因比对步骤、lncRNA过滤步骤以及lncRNA分析步骤。本发明可以发现新的lncRNA,且本发明的方法提高了对lncRNA的注释准确性。
Description
技术领域
本发明涉及基因检测领域,具体涉及一种lncRNA鉴定和表达定量的分析方法。
背景技术
非编码RNA是一类不翻译蛋白的功能性RNA分子,其中常见的具调控作用的非编码RNA包括siRNA、miRNA、piRNA以及长链非编码RNA。大量研究表明非编码RNA在表观遗传学的调控中扮演了越来越重要的角色。人们对lncRNA(Long noncoding RNAs,lncRNAs)的认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而,有文献研究表明,lncRNA参与了X染色体沉默、基因组印记以及染色质修饰、转录激活、转录干扰、核内运输等多种重要的调控过程。lncRNA的这些调控作用也开始引起人们广泛的关注。
lncRNA因为不具有polyA尾,所以通常使用rRNA探针去除总RNA中的核糖体序列的方式富集lncRNA。现有的基于芯片的lncRNA分析方法,依赖于已知的lncRNA信息,无法发现新的lncRNA。
其他基于高通量测序的lncRNA分析方法,多使用旧的比对和注释软件,对lncRNA的注释准确性有限。
发明内容
为了克服现有技术的上述缺陷,本发明的目的在于提供一种lncRNA鉴定和表达定量的分析方法,所述方法适用于去除rRNA并且链特异性建库的RNASeq测序结果分析。
为了实现本发明的目的,所采用的技术方案是:
一种lncRNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
首先使用fastp软件去除测序结果中的接头和低质量序列:
所述fastp软件使用PE reads overlap信息自动识别接头序列,同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口,最后保留长度大于50的reads;
接着将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制:
所述质量控制为根据RNASeq的测序特点提供质量控制标准;
步骤二,测序数据比对步骤:
使用hisat2软件将过滤后的数据与参考基因组进行比对:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,转录拼接步骤
使用stringtie进行转录拼接,重构样品的转录本序列;
首先需要对每个样品单独使用stringtie拼接,然后使用stringtie merge将所有样品的转录本进行合并;合并后的转录本为最后重构出来的转录本序列。
步骤四,基因比对步骤:
重构的转录本序列与参考基因组注释进行对比:
区分mRNA,已知lncRNA和新发现的lncRNA。
步骤五,lncRNA过滤步骤:
对新发现的lncRNA进行过滤,然后进行编码潜能预测,去除有编码潜能的结果;
对于新发现的lncRNA首先需要去除;
剩下的lncRNA使用PFAM、PELK和CNCI预测编码潜能,只有在3个软件中都预测为noncoding的序列才保留下来。
步骤六,lncRNA分析步骤:
使用stringtie对转录本进行表达定量,然后用DESeq进行差异分析,对差异表达的lncRNA的顺式和反式靶基因进行预测和功能富集分析。
在本发明的一个优选实施例中,所述质量控制标准为:
所述测序数据的碱基分布的四条线为:AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
测序数据的Duplicate水平与建库的PCR循环数一致。
在本发明的一个优选实施例中,所述基因组数据库包括Ensembl或和NCBI。
在本发明的一个优选实施例中,所述构建索引为在hisat2比对时加上链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
在本发明的一个优选实施例中,所述步骤二当中的比对为:
模式生物的比对率为不低于80%,多重比对率为不高于10%;如果比对率低,通常需要检查测序样品是否有污染;如果多重比对率高,通常需要检查测序数据的核糖体比例。
在本发明的一个优选实施例中,所述对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
在本发明的一个优选实施例中,所述区分mRNA为:
使用gffcompare将重构的转录本与参考的基因组信息进行对比,根据对比结果的标签判断转录本的类型:“=”和“c”为已知转录本,“j”、“e”、“o”、“m”、“n”和“k”为已知基因的新转录本,“x”、“i”和“u”为新发现的转录本。
在本发明的一个优选实施例中,所述需要去除的新发现的lncRNA为:
外显子数小于1的或长度小于200的或reads覆盖度小于3的或只在一个样品中发现的lncRNA。
在本发明的一个优选实施例中,所述富集分析具体包括如下步骤:
1.使用stringtie-e-B参数进行转录本的表达定量;
2.使用prepDE.py脚本提取转录本的reads count矩阵,将得到的表达矩阵导入到DESeq包中进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的转录本;
3.使用bedtools提取lncRNA上下游100kb范围内的编码基因作为lncRNA的顺式靶基因。计算lncRNA表达量与mRNA表达量的pearson相关性,保留相关性大于0.9的作为lncRNA的反式靶基因;
4.提取lncRNA的靶基因,使用topGO软件包进行GO富集分析;根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性;
5.获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。
本发明的有益效果在于:
本发明可以发现新的lncRNA,且本发明的方法提高了对lncRNA的注释准确性。
附图说明
图1为本发明的流程图。
图2为本发明的数据分布示意图。
图3为本发明的基因体百分位数示意图。
图4为本发明的分析结果示意图。
具体实施方式
下面结合附图对本发明做进一步说明:
一种lncRNA鉴定和表达定量的分析方法,包括如下步骤:
步骤一,测序数据过滤步骤:
使用fastp软件去除测序结果中的接头和低质量序列:fastp使用PE readsoverlap信息自动识别接头序列,准确性和去除的效率更高。同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口。最后保留长度大于50的reads。
将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制:
根据RNASeq的测序特点,测序数据的碱基分布的四条线应该为:AT平行且接近,GC平行且接近;GC整体分布应该近似于正态分布,不能出现多峰;测序数据的Duplicate水平应该与建库的PCR循环数一致。
步骤二,测序数据比对步骤:
使用hisat2软件将过滤后的数据与参考基因组进行比对:
首先需要从基因组数据库中下载对应物种的参考基因组,常用的基因组数据库为Ensembl和NCBI,下载下来的基因组序列使用hisat2-build构建索引。LncRNA通常都是链特异性文库,hisat2比对时需要加上链特异性参数,常用dUTP建库方法对于的参数为:----rna-strandness FR,其他参数通常使用默认值。
常见的模式生物的比对率通常在80%以上,多重比对率在10%以下。如果比对率低,通常需要检查测序样品是否有污染;如果多重比对率高,通常需要检查测序数据的核糖体比例。
将比对完成的测序数据通过RSeQC进行质量控制:
对于lncRNA项目,因为很多lncRNA都还没有注释信息,所以RSeQC结果的reads分布,在基因间区上需要有reads分布。比对结果的链信息需要与建库方式对应,dUTP建库的测序数据,需要集中在‘1+-,1-+,2++,2--’上。Reads在基因结构上需要呈现出中间高,两端低的分布形状。
步骤三,转录拼接步骤
使用stringtie进行转录拼接,重构样品的转录本序列;
首先需要对每个样品单独使用stringtie拼接,然后使用stringtie merge将所有样品的转录本进行合并。合并后的转录本为最后重构出来的转录本序列。
步骤四,基因比对步骤:
重构的转录本序列与参考基因组注释进行对比:区分mRNA,已知lncRNA和新发现的lncRNA;
使用gffcompare将重构的转录本与参考的基因组信息进行对比,根据对比结果的标签判断转录本的类型:“=”和“c”为已知转录本,“j”、“e”、“o”、“m”、“n”和“k”为已知基因的新转录本,“x”、“i”和“u”为新发现的转录本。
步骤五,lncRNA过滤步骤:
对新发现的lncRNA进行过滤,然后进行编码潜能预测,去除有编码潜能的结果;
对于新发现的lncRNA首先需要去除:外显子数小于1的;长度小于200的;reads覆盖度小于3的;只在一个样品中发现的。
剩下的lncRNA使用PFAM、PELK和CNCI预测编码潜能,只有在3个软件中都预测为noncoding的序列才保留下来。
步骤六,lncRNA分析步骤:
使用stringtie对转录本进行表达定量,然后用DESeq进行差异分析,对差异表达的lncRNA的顺式和反式靶基因进行预测和功能富集分析。
使用stringtie-e-B参数进行转录本的表达定量,使用prepDE.py脚本提取转录本的reads count矩阵。将得到的表达矩阵导入到DESeq包中进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的转录本。
使用bedtools提取lncRNA上下游100kb范围内的编码基因作为lncRNA的顺式靶基因。计算lncRNA表达量与mRNA表达量的pearson相关性,保留相关性大于0.9的作为lncRNA的反式靶基因。
提取lncRNA的靶基因,使用topGO软件包进行GO富集分析;根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性。获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,通常选择P<0.05的结果为最后的富集结果。
综上,采用本发明的方法对于lncRNA的注释准确性更高,更便于后续的测序操作。
Claims (9)
1.一种lncRNA鉴定和表达定量的分析方法,其特征在于,包括如下步骤:
步骤一,测序数据过滤步骤:
首先使用fastp软件去除测序结果中的接头和低质量序列:
所述fastp软件使用PE reads overlap信息自动识别接头序列,同时以5个碱基长度为窗口,从3’端向5’端滑动,截去窗口内平均质量小于20的窗口,最后保留长度大于50的reads;
接着将去除接头和低质量序列后的测序数据采用fastqc软件进行质量控制:
所述质量控制为根据RNASeq的测序特点提供质量控制标准;
步骤二,测序数据比对步骤:
使用hisat2软件将过滤后的数据与参考基因组进行比对:
首先从基因组数据库中下载对应物种的参考基因组,下载下来的基因组序列使用hisat2-build构建索引;
对于构建索引后的序列进行比对;
将比对完成的测序数据通过RSeQC进行质量控制;
步骤三,转录拼接步骤:
使用stringtie进行转录拼接,重构样品的转录本序列;
首先需要对每个样品单独使用stringtie拼接,然后使用stringtie merge将所有样品的转录本进行合并;合并后的转录本为最后重构出来的转录本序列;
步骤四,基因比对步骤:
重构的转录本序列与参考基因组注释进行对比:
区分mRNA,已知lncRNA和新发现的lncRNA;
步骤五,lncRNA过滤步骤:
对新发现的lncRNA进行过滤,然后进行编码潜能预测,去除有编码潜能的结果;
对于新发现的lncRNA首先需要去除;
剩下的lncRNA使用PFAM、PELK和CNCI预测编码潜能,只有在3个软件中都预测为noncoding的序列才保留下来;
步骤六,lncRNA分析步骤:
使用stringtie对转录本进行表达定量,然后用DESeq进行差异分析,对差异表达的lncRNA的顺式和反式靶基因进行预测和功能富集分析。
2.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述质量控制标准为:
所述测序数据的碱基分布的四条线为:AT平行且接近或GC平行且接近或GC整体分布应该近似于正态分布或不能出现多峰;
测序数据的Duplicate水平与建库的PCR循环数一致。
3.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述基因组数据库包括Ensembl或和NCBI。
4.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,构件索引为在hisat2比对时加上链特异性参数,所述链特异性参数当中,当采用dUTP建库方法时,对应的参数为--rna-strandness FR,其他方法当中参数采用默认值。
5.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述步骤二当中的比对为:
模式生物的比对率为不低于80%,多重比对率为不高于10%;如果比对率低,需要检查测序样品是否有污染;如果多重比对率高,需要检查测序数据的核糖体比例。
6.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,对于RSeQC质量控制具体为:
对于RSeQC的结果在基因区间上采用reads分布,比对结果的链信息与建库方式对应,dUTP建库的测序数据需要集中在‘1+-,1-+,2++,2--’上,使得Reads在基因结构上需要呈现出中间高,两端低的分布形状。
7.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述区分mRNA为:
使用gffcompare将重构的转录本与参考的基因组信息进行对比,根据对比结果的标签判断转录本的类型:“=”和“c”为已知转录本,“j”、“e”、“o”、“m”、“n”和“k”为已知基因的新转录本,“x”、“i”和“u”为新发现的转录本。
8.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述需要去除的新发现的lncRNA为:
外显子数小于1的或长度小于200的或reads覆盖度小于3的或只在一个样品中发现的lncRNA。
9.如权利要求1所述的一种lncRNA鉴定和表达定量的分析方法,其特征在于,所述富集分析具体包括如下步骤:
1.使用stringtie -e -B 参数进行转录本的表达定量;
2.使用prepDE.py脚本提取转录本的reads count矩阵,将得到的表达矩阵导入到DESeq包中进行差异分析,保留|log2FC|>1,pvalue<0.05的作为差异表达的转录本;
3.使用bedtools提取lncRNA上下游100kb范围内的编码基因作为lncRNA的顺式靶基因;
计算lncRNA表达量与mRNA表达量的pearson相关性,保留相关性大于0.9的作为lncRNA的反式靶基因;
4.提取lncRNA的靶基因,使用topGO软件包进行GO富集分析;根据KEGG注释信息,使用phyper进行超几何检验,计算KEGG富集显著性;
5.获得的显著性P值,使用p.adjust进行多重校正,得到校正后的P值,选择P<0.05的结果为最后的富集结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911381879.8A CN111192637B (zh) | 2019-12-27 | 2019-12-27 | 一种lncRNA鉴定和表达定量的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911381879.8A CN111192637B (zh) | 2019-12-27 | 2019-12-27 | 一种lncRNA鉴定和表达定量的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111192637A CN111192637A (zh) | 2020-05-22 |
CN111192637B true CN111192637B (zh) | 2023-03-14 |
Family
ID=70707886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911381879.8A Active CN111192637B (zh) | 2019-12-27 | 2019-12-27 | 一种lncRNA鉴定和表达定量的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192637B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309496B (zh) * | 2020-11-10 | 2021-11-23 | 西北工业大学 | 一种基于rna表达值和二级结构的相关性融合方法 |
CN112201304A (zh) * | 2020-11-18 | 2021-01-08 | 上海美吉生物医药科技有限公司 | lncRNA靶基因的预测分析方法、装置、设备和介质 |
CN113539360B (zh) * | 2021-07-21 | 2023-03-31 | 西北工业大学 | 一种基于相关性优化和免疫富集的lncRNA特征识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103014137B (zh) * | 2011-09-22 | 2015-01-07 | 深圳华大基因科技服务有限公司 | 一种分析基因表达定量的方法 |
WO2014031881A2 (en) * | 2012-08-22 | 2014-02-27 | Lipovich Leonard | Activity-dependent gene pairs as therapeutic targets and methods and devices to identify the same |
CN104657628A (zh) * | 2015-01-08 | 2015-05-27 | 深圳华大基因科技服务有限公司 | 基于Proton的转录组测序数据的比较分析方法和系统 |
-
2019
- 2019-12-27 CN CN201911381879.8A patent/CN111192637B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111192637A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bentolila et al. | Comprehensive high-resolution analysis of the role of an Arabidopsis gene family in RNA editing | |
CN111192637B (zh) | 一种lncRNA鉴定和表达定量的分析方法 | |
Lowe et al. | Transcriptomics technologies | |
Kumar et al. | SNP discovery through next-generation sequencing and its applications | |
CN102329876B (zh) | 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法 | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
Elrod et al. | Development of Poly (A)-ClickSeq as a tool enabling simultaneous genome-wide poly (A)-site identification and differential expression analysis | |
Itoh et al. | Automated workflow for preparation of cDNA for cap analysis of gene expression on a single molecule sequencer | |
CN110669834A (zh) | 一种基于转录组序列开发多态性ssr标记的方法 | |
CN107506614B (zh) | 一种细菌ncRNA预测方法 | |
Main et al. | Allele-specific expression assays using Solexa | |
WO2012037881A1 (zh) | 核酸标签及其应用 | |
Renganaath et al. | Systematic identification of cis-regulatory variants that cause gene expression differences in a yeast cross | |
Negi et al. | Applications and challenges of microarray and RNA-sequencing | |
Szövényi et al. | Selfing in haploid plants and efficacy of selection: codon usage bias in the model moss Physcomitrella patens | |
Edwards et al. | DNA sequencing methods contributing to new directions in cereal research | |
CN111485026A (zh) | 一种与绵羊出生重相关的snp位点、应用、分子标记和引物 | |
Wongsurawat et al. | Native RNA or cDNA sequencing for transcriptomic analysis: a case study on Saccharomyces cerevisiae | |
CN111192636B (zh) | 一种适用于oligodT富集的mRNA二代测序结果分析方法 | |
Pereira et al. | RNA‐seq: applications and best practices | |
Gazestani et al. | circTAIL-seq, a targeted method for deep analysis of RNA 3′ tails, reveals transcript-specific differences by multiple metrics | |
Gildea et al. | Multiplexed primer extension sequencing: A targeted RNA-seq method that enables high-precision quantitation of mRNA splicing isoforms and rare pre-mRNA splicing intermediates | |
Fu et al. | CircRNAFinder: a tool for identifying circular RNAs using RNA-Seq data | |
CN111243665A (zh) | 一种核糖体印记测序数据分析方法及系统 | |
CN111192635B (zh) | 一种环状rna鉴定和表达定量的分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |