CN110047560A - 一种基于二代测序的原核转录组自动化分析方法 - Google Patents

一种基于二代测序的原核转录组自动化分析方法 Download PDF

Info

Publication number
CN110047560A
CN110047560A CN201910198969.7A CN201910198969A CN110047560A CN 110047560 A CN110047560 A CN 110047560A CN 201910198969 A CN201910198969 A CN 201910198969A CN 110047560 A CN110047560 A CN 110047560A
Authority
CN
China
Prior art keywords
result
analysis
gene
transcript
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910198969.7A
Other languages
English (en)
Inventor
王玲平
王智健
姜丽荣
沈立
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Parsono Gene Technology Co Ltd
Original Assignee
Nanjing Parsono Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Parsono Gene Technology Co Ltd filed Critical Nanjing Parsono Gene Technology Co Ltd
Priority to CN201910198969.7A priority Critical patent/CN110047560A/zh
Publication of CN110047560A publication Critical patent/CN110047560A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于二代测序的原核转录组自动化分析方法,其特征在于,包括如下步骤:原始下机数据过滤和质量控制步骤;基因组比对步骤:转录本结构分析步骤;基因表达定量以及差异表达分析步骤;结果整理步骤。本发明的有益效果在于:涵盖市场所需绝大部分分析内容,自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。所有操作步骤可见,方便错误查询,在进行每一步分析时,都会记录所用到的命令行和参数,以及运行中产生的日志结果,一旦程序运行出错,可以快速检查错误。

Description

一种基于二代测序的原核转录组自动化分析方法
技术领域
本发明涉及高通量测序领域,具体涉及一种基于二代测序的原核转录组自动化分析方法。
背景技术
原核转录组测序是基于二代高通量测序平台,构建链特异性文库研究原核生物在某个时期或者在某种环境条件下转录出来的所有mRNA,从基因的序列水平和表达水平来获得原核生物在某个时期或者在某种环境条件下所有的序列信息。由于原核生物mRNA没有polyA尾结构,需要去除rRNA来获得mRNA。
原核生物转录组的测序,用于研究原核生物在某个时期或者在某种环境条件下转录出来的所有mRNA。而随着测序成本的下降,测序数据增多,信息分析需求增大,需要能快速分析测序结果。而现有的分析方法存在如下几点不足:
(1)结果不好:目前已有原核转录组自动化分析工具Rockhopper在对样本进行差异分析时,标准化结果不理想,导致差异分析结果不准确。
(2)没有其他自动化分析平台:对于原核转录组的各步分析流程比较固定,但需要人工对结果进行整理以及每步的工作衔接,比较浪费人工和时间。
发明内容
为了克服现有技术所存在的上述缺陷,本发明的目的在于提供一种基于二代测序的原核转录组自动化分析方法。
为了实现本发明的目的之一,所采用的技术方案是:
一种基于二代测序的原核转录组自动化分析方法,包括如下步骤:
原始下机数据过滤和质量控制步骤:使用perl脚本进行原始数据的过滤(RNASeq_Filter.pl),调用cutadapt去除接头序列,然后去掉低质量序列,包括平均质量低于20的序列以及长度短于50nt的序列;在过滤的同时,统计原始数据和过滤数据的序列数量,碱基量,GC含量,N的数量,Q20和、或Q30的数量;然后使用FastQC软件对数据进行质量控制,使用perl语言对该功能进行包装,使得可以同时读取放在同一目录下所有的fastq(.gz)文件,并进行FastQC分析以及结果整理,将重点关注的结果单独放在目录中;
基因组比对步骤:
直接使用Bowtie2进行转录组和基因组的比对分析;首先使用bowtie2-build中BW算法构建基因组索引;然后使用RseQC工具检查各项比对指标;
转录本结构分析步骤:
根据比对结果,使用Rockhopper软件分析测到的转录本结构,使用perl脚本(post_RP.pl),提取新的转录本,反义转录本等信息;使用Varscan分析SNP和InDel的位点变异;
基因表达定量以及差异表达分析步骤:
根据比对结果,使用htseq-count判断比对到各个基因上的序列数量,得到每个样本中每个基因的表达量;再使用DESeq根据负二项分布统计检验比较不同分组之间基因的表达差异,得到显著的差异表达基因;使用perl脚本根据超几何检验得到差异表达基因显著富集的功能和通路;(Pass_DESeq_result.pl);
结果整理步骤:
将用于生成原核转录组测序分析结果报告的统计分析结果进行整理。
在本发明的一个优选实施例中,所述基因组比对步骤中,所述比对指标包括基因上的Reads覆盖度、比对到不同结构元件的Reads数量分布、插入片段长度分布、测序饱和度中的任意一种或多种。
本发明的主要创新点在于:
涵盖市场所需绝大部分分析内容,包括数据过滤,质控,比对,表达定量,结构分析等。
自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。
所有操作步骤可见,方便错误查询,在进行每一步分析时,都会记录所用到的命令行和参数,以及运行中产生的日志结果,一旦程序运行出错,可以快速检查错误。
附图说明
图1为本发明的流程示意图。
图2为原始数据及其统计结果示意图。
图3为所用参考基因组信息示意图。
图4为比对结果以及统计结果示意图。
图5为表达定量相关结果示意图。
图6为差异表达基因相关分析结果示意图。
图7为结构分析相关结果示意图。
具体实施方式
以下通过实施例对本发明作进一步的说明,但这些实施例不得用于解释对本发明的限制。
参见流程图1,本发明的步骤包括:
S1)准备并读取config文件,文件中包括:下机数据位置以及对应的样本名和分组名,用于差异分析的分组,分析结果保存路径,任务名称,基因组序列及其index文件的位置,GTF文件等信息。当的软件读取相关信息后,会生成进行以下列出的所有分析步骤对应的shell脚本,按顺序运行即可,在运行同时每一步都会有运行日志,方便结果检查。所有分析步骤简介如下。
首先是原始下机数据过滤。作为实例的,采用派森诺自主研发的perl脚本进行原始数据的过滤(RNASeq_Filter.pl),调用cutadapt去除接头序列,然后去掉低质量序列,包括平均质量低于20的序列以及长度短于50nt的序列。在过滤的同时,统计原始数据和过滤数据的序列数量,碱基量,GC含量,N的数量,Q20和Q30的数量等等。
然后是对原始数据和过滤数据进行质量控制。作为实例的,采用FastQC软件对数据进行质量控制,为使用更加快捷方便且独立,使用perl语言对该功能进行包装,使可以同时读取放在同一目录下所有的fastq(.gz)文件,并进行FastQC分析以及结果整理,将重点关注的结果单独放在目录中。
数据过滤完成后,需要与基因组进行比对,后续的分析都基于比对到该物种基因组上的序列进行。作为实例的,直接使用Bowtie2的默认参数进行转录组和基因组的比对分析。并使用自主研发的perl脚本(Mapped_regoin_stat_wlp.pl)统计比对情况,如比对上的reads比例,比对上基因区上的比例等等。然后使用RseQC软件,检查各项比对指标,例如基因上的Reads覆盖度,比对到不同结构元件的Reads数量分布、插入片段长度分布、测序饱和度等。
Bowtie2的优点在于,1)对于>50bp的段序列比对速度更快,内存占用更小,2)支持gap的存在,且对gap的数量和长度没有限制,3)支持局部比对。
根据比对结果,进行转录本结构分析。作为实例的,使用Rockhopper检测所有的转录本信息。然后使用Perl脚本筛选出新转录本,反义转录本。使用Varscan进行SNP和InDel信息的筛选。
根据比对结果进行基因的表达定量,并进行差异表达分析和差异基因的功能富集分析。作为实例的,用htseq-count判断比对到各个基因上的序列数量,得到每个样本中每个基因的表达量。再使用DESeq根据负二项分布统计检验比较不同分组之间基因的表达差异,得到显著的差异表达基因。再使用自主研发的脚本根据超几何检验得到差异表达基因显著富集的功能和通路。
最终包含结果整理,将所有用于生成原核转录组测序分析结果报告的统计分析结果进行整理。作为实例的,将原始数据单独存放;将比对结果以及比对结果的统计结果单独存放;将基因组注释信息进行整理;将结构分析和表达量分析等相关的结果分别单独存放。
生成的结果文件示例如图2-7。

Claims (2)

1.一种基于二代测序的原核转录组自动化分析方法,包括如下步骤:
原始下机数据过滤和质量控制步骤:使用perl脚本进行原始数据的过滤(RNASeq_Filter.pl),调用cutadapt去除接头序列,然后去掉低质量序列,包括平均质量低于20的序列以及长度短于50nt的序列;在过滤的同时,统计原始数据和过滤数据的序列数量,碱基量,GC含量,N的数量,Q20和、或Q30的数量;然后使用FastQC软件对数据进行质量控制,使用perl语言对该功能进行包装,使得可以同时读取放在同一目录下所有的fastq(.gz)文件,并进行FastQC分析以及结果整理,将重点关注的结果单独放在目录中;
基因组比对步骤:
直接使用Bowtie2进行转录组和基因组的比对分析;首先使用bowtie2-build中BW算法构建基因组索引;然后使用RseQC工具检查各项比对指标;
转录本结构分析步骤:
根据比对结果,使用Rockhopper软件分析测到的转录本结构,使用perl脚本(post_RP.pl),提取新的转录本,反义转录本等信息;使用Varscan分析SNP和InDel的位点变异;
基因表达定量以及差异表达分析步骤:
根据比对结果,使用htseq-count判断比对到各个基因上的序列数量,得到每个样本中每个基因的表达量;再使用DESeq根据负二项分布统计检验比较不同分组之间基因的表达差异,得到显著的差异表达基因;使用perl脚本根据超几何检验得到差异表达基因显著富集的功能和通路;(Pass_DESeq_result.pl);
结果整理步骤:
将用于生成原核转录组测序分析结果报告的统计分析结果进行整理。
2.如权利要求1所述的,其特征在于,所述基因组比对步骤中,所述比对指标包括基因上的Reads覆盖度、比对到不同结构元件的Reads数量分布、插入片段长度分布、测序饱和度中的任意一种或多种。
CN201910198969.7A 2019-03-15 2019-03-15 一种基于二代测序的原核转录组自动化分析方法 Pending CN110047560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910198969.7A CN110047560A (zh) 2019-03-15 2019-03-15 一种基于二代测序的原核转录组自动化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910198969.7A CN110047560A (zh) 2019-03-15 2019-03-15 一种基于二代测序的原核转录组自动化分析方法

Publications (1)

Publication Number Publication Date
CN110047560A true CN110047560A (zh) 2019-07-23

Family

ID=67273770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910198969.7A Pending CN110047560A (zh) 2019-03-15 2019-03-15 一种基于二代测序的原核转录组自动化分析方法

Country Status (1)

Country Link
CN (1) CN110047560A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192636A (zh) * 2019-12-27 2020-05-22 上海派森诺生物科技股份有限公司 一种适用于oligodT富集的mRNA二代测序结果分析方法
CN111243666A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于Nextflow的环状核糖核酸自动化分析方法及系统
CN111292806A (zh) * 2020-03-27 2020-06-16 武汉古奥基因科技有限公司 一种利用纳米孔测序的转录组分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409099A (zh) * 2011-11-29 2012-04-11 浙江大学 一种利用测序技术分析猪乳腺组织基因表达差异的方法
CN104204221A (zh) * 2011-12-31 2014-12-10 深圳华大基因科技服务有限公司 一种检验融合基因的方法及系统
CN107345256A (zh) * 2017-08-22 2017-11-14 山西省农业科学院农作物品种资源研究所 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN107391965A (zh) * 2017-08-15 2017-11-24 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN108085399A (zh) * 2017-12-28 2018-05-29 中国农业科学院北京畜牧兽医研究所 lncRNA及其反式调控基因WNT11的新用途

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102409099A (zh) * 2011-11-29 2012-04-11 浙江大学 一种利用测序技术分析猪乳腺组织基因表达差异的方法
CN104204221A (zh) * 2011-12-31 2014-12-10 深圳华大基因科技服务有限公司 一种检验融合基因的方法及系统
CN107391965A (zh) * 2017-08-15 2017-11-24 上海派森诺生物科技股份有限公司 一种基于高通量测序技术的肺癌体细胞突变检测分析方法
CN107345256A (zh) * 2017-08-22 2017-11-14 山西省农业科学院农作物品种资源研究所 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN108085399A (zh) * 2017-12-28 2018-05-29 中国农业科学院北京畜牧兽医研究所 lncRNA及其反式调控基因WNT11的新用途

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192636A (zh) * 2019-12-27 2020-05-22 上海派森诺生物科技股份有限公司 一种适用于oligodT富集的mRNA二代测序结果分析方法
CN111243666A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于Nextflow的环状核糖核酸自动化分析方法及系统
CN111243666B (zh) * 2020-01-08 2023-04-07 华南理工大学 一种基于Nextflow的环状核糖核酸自动化分析方法及系统
CN111292806A (zh) * 2020-03-27 2020-06-16 武汉古奥基因科技有限公司 一种利用纳米孔测序的转录组分析方法
CN111292806B (zh) * 2020-03-27 2022-04-26 武汉古奥基因科技有限公司 一种利用纳米孔测序的转录组分析方法

Similar Documents

Publication Publication Date Title
CN110047560A (zh) 一种基于二代测序的原核转录组自动化分析方法
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
CN110021347A (zh) 一种基于miRBase数据库的动物有参的miRNA数据分析方法
CN109859797A (zh) 一种基于miRBase数据库的无参的miRNA数据分析方法
CN114757413A (zh) 一种基于时序数列分析耦合神经网络预测的不良数据辨识方法
CN110275878B (zh) 业务数据检测方法、装置、计算机设备及存储介质
CN111258876B (zh) 一种微服务架构下的精确回归测试方法及装置
CN111913937B (zh) 数据库运维方法和装置
TW569373B (en) Method for analyzing defect inspection parameters
CN109886288B (zh) 一种用于电力变压器的状态评价方法及装置
CN111831545A (zh) 测试用例生成方法、生成装置、计算机设备和存储介质
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
CN113836826A (zh) 关键参数确定方法、装置、电子装置及存储介质
Borgelt Software test data generation from a genetic algorithm
CN114091910A (zh) 5g用户质差投诉的溯源分析方法及装置
CN112257948A (zh) 润叶加料出口含水率预测方法、装置以及设备
CN113658635B (zh) 核酸检测结果的自动判定方法、装置及其应用
CN109298999B (zh) 一种基于数据分布特征的核心化软件测试方法和装置
CN114913918A (zh) 一种针对孤独症的高通量测序数据分析方法及装置
CN115424664B (zh) 人为突变程度评估方法及装置
CN117809696B (zh) 基于声学分析的工业设备健康评估与故障预测方法和系统
CN111367820B (zh) 一种测试案例的排序方法及装置
CN114860569A (zh) 应用程序自动化测试方法、设备、存储介质及程序产品
CN114757412A (zh) 一种基于聚类分析耦合神经网络预测的不良数据辨识方法
CN117520043A (zh) Nand Falsh的质量评估方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination