CN112489724A - 一种基于二代测序的转录组数据自动化分析方法 - Google Patents

一种基于二代测序的转录组数据自动化分析方法 Download PDF

Info

Publication number
CN112489724A
CN112489724A CN202011539343.7A CN202011539343A CN112489724A CN 112489724 A CN112489724 A CN 112489724A CN 202011539343 A CN202011539343 A CN 202011539343A CN 112489724 A CN112489724 A CN 112489724A
Authority
CN
China
Prior art keywords
analysis
data
next generation
genome
quality control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011539343.7A
Other languages
English (en)
Inventor
罗奇斌
申玉林
廖胜光
任毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Qiyun Nord Biomedical Co ltd
Original Assignee
Tianjin Qiyun Nord Biomedical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Qiyun Nord Biomedical Co ltd filed Critical Tianjin Qiyun Nord Biomedical Co ltd
Priority to CN202011539343.7A priority Critical patent/CN112489724A/zh
Publication of CN112489724A publication Critical patent/CN112489724A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于二代测序的转录组数据自动化分析方法,该自动化分析方法包括原始测序数据的预处理、预处理后测序数据的质控、质控后测序数据的比对、基于比对结果的变异检测分析、基于比对结果的重新组装及定量分析、基于定量结果进行差异表达基因的挑选、基于差异表达基因列表进行的注释富集分析以及PDF和Html报告的生成等步骤。本发明从转录组原始测序数据开始分析,自动化处理分析所有数据,直到生成最终数据分析报告;一键式自动化分析,避免了繁杂的人工操作及其带来的错误;提供PDF版报告和Html网页版报告,可以更好的满足不同场景下查看分析结果的需求;同时本发明提供的方法由程序自动化控制并使用更加高效的分析软件,简化了数据分析处理环节并降低了人工成本,提升了数据处理分析的效率。

Description

一种基于二代测序的转录组数据自动化分析方法
技术领域
本发明涉及一种基于二代测序的转录组数据自动化分析方法。
背景技术
转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有RNA的总和,主要包括 mRNA和非编码RNA 。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。
随着新一代测序平台的市场化,RNA测序(RNA sequenclng,RNA-Seq)技术已成为了转录组学研究的重要手段之一。该技术利用新一代高通量测序平台对基因组cDNA测序,通过统计相关Reads(用于测序的cDNA小片段)数计算出不同mRNA的表达量,分析转录本的结构和表达水平,同时发现未知转录本和稀有转录本,精确地识别可变剪切位点以及编码序列单核苷酸多态性,提供最全面的转录组信息。
目前转录组测序数据日益增多,涉及到的分析软件也是琳琅满目,但是大多分析都是只能分析其中的一个小部分内容,需要手动一步一步的进行串联,步骤非常繁琐且输入输出文件格式转换非常麻烦,因此很容易给分析过程及结果带来不必要的错误。同时,转录组测序数据量较大,而且一般会进行大批量样本比较分析,传统算法流程计算十分耗时耗资源,需要在高端服务器上分析较长时间才能得到相关分析结果及报告。
为了满足人们日益增长的分析需求,公开号为CN109637588A的中国专利公开了一种基于全转录组高通量测序构建基因调控网络的方法,该方法主要针对得到的差异表达基因结果进行后续分析,如mRNA、lncRNA和miRNA的共表达关系,构建相关竞争性内源RNA调控关系,以及关键基因的通路富集分析等,但未在对原始数据的高效处理上进行重点关注。
目前国内尚缺少一个使用场景全面、合理高效且自动化程度高的转录组测序数据分析方法,因此,设计了一种基于二代测序的转录组数据自动化分析方法,适用于多样本的转录组高通量测序数据的分析,提升了数据分析处理的自动化程度,功能多样、适用性强,具有现实意义和良好的应用前景。
发明内容
针对上述背景技术中的不足,本发明的目的在于提供一种可以避免上述技术缺陷的一种基于二代测序的转录组数据自动化分析方法,适用于多样本的转录组高通量测序数据的分析、自动化程度高、功能多样且适用性强。
为实现上述目的,本发明提供如下技术方案:
一种基于二代测序的转录组数据自动化分析方法,该自动化分析方法包括以下步骤:
1)对原始测序数据进行数据预处理;
2)对预处理后测序数据进行质控分析;
3)对通过质控的测序数据进行map比对分析;
4)基于比对结果进行变异检测分析;
5)基于比对后的结果进行重新组装及定量分析;
6)基于重新组装及定量分析结果进行差异基因的挑选;
7)基于挑选得到的差异基因进行功能注释及富集分析;
8)根据以上步骤得到的结果进行整理统计及画图等操作,从而输出PDF报告及Html报告供客户查看。
进一步地,所述步骤1)具体为:对得到的测序原始数据进行相应的过滤预处理,包括过滤低质量和接头相关序列,同时在此基础上过滤含有rRNA的序列,从而得到CleanData。
进一步地,所述步骤2)具体为:对通过过滤预处理后的Clean Data进行相应的质量控制,包括质量值的质控,不同碱基含量的质控,重复序列的质控等。
进一步地,所述步骤3)具体为:对以上通过质控的测序数据进行map比对处理,根据是否有参考基因组(Genome)序列分别进行基因组(Genome)序列以及基因(Gene)序列的map比对。
进一步地,所述步骤4)具体为:对以上步骤3)中基于基因组(Genome)序列的map比对结果进行变异检测分析。
进一步地,所述步骤5)具体为:对以上步骤3)中基于基因组(Genome)或者基因(Gene)序列的map比对结果进行转录本的重新组装,并根据重新组装结果进行定量分析,得到每个转录本的定量结果,并根据后续需要对转录本进行合并,从而进一步得到相关基因的定量结果。
进一步地,所述步骤6)具体为:在得到重新组装及定量结果后,使用相关算法对每个基因或者转录本进行差异表达分析,并根据筛选条件得到用于后续分析的差异基因列表。
进一步地,所述步骤7)具体为:在得到相关差异基因列表后,使用相关算法及数据库对这些差异基因进行相应的功能注释,并对这些基因进行富集分析(GO/KEGG等),从而得到不同样本组织间差异基因的对应功能、通路等。
进一步地,所述步骤8)具体为:在得到以上所有相关结果的同时,会自动进行相关结果的整理和统计,并根据统计结果进行相关图表的绘制,并进一步整理成最终的PDF以及Html报告供客户查看。
本发明提供的一种基于二代测序的转录组数据自动化分析方法与现有技术相比,具备以下有益效果:
1.使用更为高效的算法软件进行分析,不仅分析速度快,而且结果准确率也更高;
2.本发明提供的方法由计算机程序自动控制,简化了数据处理分析质控及报告生成环节,并降低了人工成本,提升了数据分析处理效率。
附图说明
图1为一种基于二代测序的转录组数据自动化分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于二代测序的转录组数据自动化分析方法,该自动化分析方法,包括以下步骤:
1)对原始测序数据进行数据预处理;
2)对预处理后测序数据进行质控处理;
3)对通过质控的测序数据进行map比对分析;
4)基于比对结果进行变异检测分析;
5)基于比对后的结果进行重新组装及定量分析;
6)基于重新组装及定量分析结果进行差异基因的挑选;
7)基于挑选得到的差异基因进行功能注释及富集分析;
8)根据以上步骤得到的结果进行整理统计及画图等操作,从而输出PDF报告及Html报告供客户查看。
所述步骤1)具体为:对得到的测序原始数据进行相应的过滤预处理,包括使用trim_galore软件过滤低质量和接头相关序列,同时在此基础上使用sortmerna过滤含有rRNA的序列,从而得到Clean Data。
所述步骤2)具体为:对通过过滤预处理后的Clean Data进行相应的质量控制,包括使用fastqc以及multiqc对Clean Data进行质量值的质控,不同碱基含量的质控,重复序列的质控等。
所述步骤3)具体为:对以上通过质控的测序数据进行map比对处理,根据是否有参考基因组(Genome)序列分别进行基因组(Genome)序列以及基因(Gene)序列的map比对,使用更为高效的比对软件Hisat2,比传统比对软件速度快10-100倍,同时得到的比对结果更为准确。
所述步骤4)具体为:对以上步骤3)中基于基因组(Genome)序列的map比对结果使用最新版的GATK4进行变异检测分析。
所述步骤5)具体为:对以上步骤3)中基于基因组(Genome)或者基因(Gene)序列的map比对结果使用stringtie软件进行转录本的重新组装,并根据重新组装结果进行定量分析,得到每个转录本的定量结果,并根据后续需要对转录本进行合并,从而进一步得到相关基因的定量结果。
所述步骤6)具体为:在得到重新组装及定量结果后,使用相关算法(如DEseq2、EdgeR等)对每个基因或者转录本进行差异表达分析,并根据筛选条件(如logFoldchange >= 1.5 && P-value < 0.05等)得到用于后续分析的差异基因列表。
所述步骤7)具体为:在得到相关差异基因列表后,使用相关算法及数据库对这些差异基因进行相应的功能注释,并对这些基因进行富集分析(GO/KEGG等),从而得到不同样本组织间差异基因的对应功能、通路等。
所述步骤8)具体为:在得到以上所有相关结果的同时,会自动进行相关结果的整理和统计,并根据统计结果进行相关图表的绘制,并进一步整理成最终的PDF以及Html报告供客户查看。
本发明提供一种基于二代测序的转录组数据自动化分析方法,使用更为高效准确的软件对转录组测序数据进行分析,从原始数据的预处理及质控,数据的map比对,差异基因的获取,以及后续差异基因相关分析,分析算法及参数可根据实际应用需求进行选择和调整,能更好地满足实际应用场景;同时本发明提供的方法由程序自动控制,简化了数据分析处理环节并降低了人工成本,提升了数据分析处理的效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于二代测序的转录组数据自动化分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行数据预处理;
2)对预处理后测序数据进行质控分析;
3)对通过质控的测序数据进行map比对分析;
4)基于比对结果进行变异检测分析;
5)基于比对后的结果进行重新组装及定量分析;
6)基于重新组装及定量分析结果进行差异基因的挑选;
7)基于挑选得到的差异基因进行功能注释及富集分析;
8)根据以上步骤得到的结果进行整理统计及画图等操作,从而输出PDF报告及Html报告供客户查看。
2.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤1)具体为:对得到的测序原始数据进行相应的过滤预处理,包括过滤低质量和接头相关序列,同时在此基础上过滤含有rRNA的序列,从而得到Clean Data。
3.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤2)具体为:对通过过滤预处理后的Clean Data进行相应的质量控制,包括质量值的质控,不同碱基含量的质控,重复序列的质控等。
4.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤3)具体为:对以上通过质控的测序数据进行map比对处理,根据是否有参考基因组(Genome)序列分别进行基因组(Genome)序列以及基因(Gene)序列的map比对。
5.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤4)具体为:对以上步骤3)中基于基因组(Genome)序列的map比对结果进行变异检测分析。
6.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤5)具体为:对以上步骤3)中基于基因组(Genome)或者基因(Gene)序列的map比对结果进行转录本的重新组装,并根据重新组装结果进行定量分析,得到每个转录本的定量结果,并根据后续需要对转录本进行合并,从而进一步得到相关基因的定量结果。
7.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤6)具体为:在得到重新组装及定量结果后,使用相关算法对每个基因或者转录本进行差异表达分析,并根据筛选条件得到用于后续分析的差异基因列表。
8.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤7)具体为:在得到相关差异基因列表后,使用相关算法及数据库对这些差异基因进行相应的功能注释,并对这些基因进行富集分析(GO/KEGG等),从而得到不同样本组织间差异基因的对应功能、通路等。
9.根据权利要求1所述的一种基于二代测序的转录组数据自动化分析方法,其特征在于,所述步骤8)具体为:在得到以上所有相关结果的同时,会自动进行相关结果的整理和统计,并根据统计结果进行相关图表的绘制,并进一步整理成最终的PDF以及Html报告供客户查看。
CN202011539343.7A 2020-12-23 2020-12-23 一种基于二代测序的转录组数据自动化分析方法 Withdrawn CN112489724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011539343.7A CN112489724A (zh) 2020-12-23 2020-12-23 一种基于二代测序的转录组数据自动化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011539343.7A CN112489724A (zh) 2020-12-23 2020-12-23 一种基于二代测序的转录组数据自动化分析方法

Publications (1)

Publication Number Publication Date
CN112489724A true CN112489724A (zh) 2021-03-12

Family

ID=74915252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011539343.7A Withdrawn CN112489724A (zh) 2020-12-23 2020-12-23 一种基于二代测序的转录组数据自动化分析方法

Country Status (1)

Country Link
CN (1) CN112489724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864007A (zh) * 2023-09-05 2023-10-10 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864007A (zh) * 2023-09-05 2023-10-10 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统
CN116864007B (zh) * 2023-09-05 2023-12-26 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统

Similar Documents

Publication Publication Date Title
Busch et al. iCLIP data analysis: A complete pipeline from sequencing reads to RBP binding sites
CN110544509B (zh) 一种单细胞ATAC-seq数据分析方法
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN108256289B (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN110021347B (zh) 一种基于miRBase数据库的动物有参的miRNA数据分析方法
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
CN109559780A (zh) 一种高通量测序的rna数据处理方法
CN104484582A (zh) 通过模块化选择实现的生物信息项目自动分析方法及系统
CN112599198A (zh) 一种用于宏基因组测序数据的微生物物种与功能组成分析方法
CN107506614B (zh) 一种细菌ncRNA预测方法
CN116030892B (zh) 一种鉴定染色体相互易位断点位置的系统和方法
Tang et al. Modelling capture efficiency of single-cell RNA-sequencing data improves inference of transcriptome-wide burst kinetics
CN112489724A (zh) 一种基于二代测序的转录组数据自动化分析方法
CN115064220A (zh) 一种单细胞的跨物种细胞类型鉴定方法
CN113066532B (zh) 基于高通量测序技术的宿主中病毒来源sRNA数据分析方法
CN111292806B (zh) 一种利用纳米孔测序的转录组分析方法
CN115050416A (zh) 融合深度学习模型的单细胞转录组计算分析方法和系统
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN113658643B (zh) 一种基于注意力机制对lncRNA和mRNA的预测方法
CN115472298A (zh) 基于ai的高通量测序数据智能分析系统及方法
CN115295084A (zh) 一种肿瘤新抗原免疫组库数据可视化分析方法和系统
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
Kielpinski et al. Reproducible analysis of sequencing-based RNA structure probing data with user-friendly tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210312