CN109086567A - 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 - Google Patents
基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 Download PDFInfo
- Publication number
- CN109086567A CN109086567A CN201810802816.4A CN201810802816A CN109086567A CN 109086567 A CN109086567 A CN 109086567A CN 201810802816 A CN201810802816 A CN 201810802816A CN 109086567 A CN109086567 A CN 109086567A
- Authority
- CN
- China
- Prior art keywords
- analysis
- module
- result
- interactive
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法,该系统包括用于对项目的详细信息进行查看、编辑和管理的项目管理模块;用于对任务进行参数设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合生成项目文件的基础分析任务提交模块;以及用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现的交互式结果分析模块。本发明的系统及方法借助云计算技术,提供了高集成化的数据分析平台,为有参考基因组的转录组项目的基础分析和高级分析,个性化分析打下了良好的基础。
Description
技术领域
本发明涉及生物信息分析技术领域,尤其涉及一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法。
背景技术
转录组是指某一物种、组织或细胞在特定状态下所转录的所有RNA的集合,包括mRNA和非编码RNA。转录组是连接承担遗传物质的基因组与执行生物功能的蛋白质组的纽带,转录水平的调控是最为重要并且被广泛研究的调控方式,相比起基因组水平的研究,转录组研究能给出更高效更精确的研究信息。
虽然高通量测序技术相较于传统测序技术已有巨大进步,但是破译动植物基因组仍然面对巨大困难,且花费昂贵。转录组测序主要是针对转录产物mRNA进行高通量测序获得转录本的信息,该技术通量高、覆盖广、精度高,可从整体水平研究基因功能以及基因结构,发现不同生理或者病理状态下细胞、组织或个体内差异表达的基因,能够对任意物种进行转录组分析。目前已广泛应用于生物学基础研究、临床诊断、分子育种和药物研发等多个领域。
生物学大数据分析是高通量测序技术应用于有参考基因组的转录组研究的最关键步骤。针对有参考基因组的转录组项目,推荐选择Illumina HiSeq测序平台,IlluminaHiSeq运行一次产生的数据量高达1000G,个人计算机和工作站显然无法完成这些数据的处理工作。
高通量测序数据处理时要对有关数据进行调整、筛选、比对、注释,需要科研工作者具备高水平的脚本程序编写能力。现有有参考基因组的转录组项目生物信息学分析主要由三部分组成,分别为标准生物信息学分析、高级生物信息学分析、个性化生物信息学分析。标准生物信息学分析是整个有参考基因组的转录组项目的基础,其结果呈现方式包括样本信息统计、样本质控统计、比对结果统计、测序饱和度分析、冗余序列分析、覆盖度分析、染色体分布统计、新转录本详细信息图表、注释概览。高级生物信息分析呈现方式包括:基因表达分布信息、基因表达矩阵、基因表达Venn图、基因表达相关性分析、基因表达PCA分析、差异表达火山图、差异表达散点图、差异表达聚类分析、GO富集分析、KEGG富集分析。个性化生物信息分析呈现方式包括:基因共表达网络分析、蛋白互作网络分析、可变剪接分析、SNP分析、RNA编辑分析、基因融合分析等。
现有技术的业务流程采用手动的方式,工作效率较低,因此无法满足高效产出的市场需求。
发明内容
针对上述技术中存在的不足之处,本发明提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法,以解决个人计算机、工作站无法完成的大数据处理分析和现有手动方式的业务流程效率低的问题。
为实现上述目的,本发明采用的技术方案是:一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统,包括
项目管理模块,用于对项目的详细信息进行查看、编辑和管理;
基础分析任务提交模块,用于对任务进行参数设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合分配至相应的项目文件;基础分析任务提交模块中的任务包括:数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析;
交互式结果分析模块,用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现,包括高级生物信息学分析和个性化生物信息学分析;
所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接。
具体地,所述交互式结果分析模块包括图表工具和/或表格筛选工具。
图表工具可实现更改配色方案、图形方案、柱形方向;可选择分组方案、样本,并选择性显示图例、点名称、聚类树、环境因子,可修改图标题;分析结果图支持PNG、JPEG、PDF、SVG格式下载,并存入报告,在报告中展示;交互式结果分析模块的报告格式为html和pdf。
表格筛选工具可实现数据切换、数据筛选、数据排序、动态加载相应列、检索功能,检索功能包括精确匹配、模糊匹配、跨表检索。
本发明还提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统,包括以下步骤:
步骤0,建立项目;
步骤1,向本地集群服务器上传测序数据,同时在本地集群服务器上传用户私有的参考基因组数据库或者选择使用平台中的公共数据库,用户可锁定该模块中的文件或将项目选择性共享至他人操作管理;
步骤2,建立任务;
步骤3,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析,运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息;若符合则进行指定参数运算分析,经运算分析后生成相应的项目文件。
步骤4,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告。
具体地,所述步骤3中在对测序数据进行参数设置和运算分析时,用户可自行设置数据质控统计标准,选择分析平台中的公共参考基因组数据库或用户私有的参考基因组,设定比对、组装、表达差异分析、可变剪接分析软件,选择待分析内容后,再运行已选全部分析。
具体地,所述项目管理模块,还可用于查看、编辑和管理由用户上传的相关文件或由分析产生的相关文件,并可对相关文件进行上传、查找、复制、移动、删除和下载操作;项目管理模块用于查看任务运行的状态与日志信息;项目管理模块可用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块,也用于共享项目,并可管理成员权限。
具体地,参考基因组数据库存储在本地集群服务器内,使用平台中的参考基因组数据库包括动物基因组数据库、植物基因组数据库、真菌基因组数据库,也可上传自定义数据库。
具体地,所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于PHP+MySQL+MongoDB的服务器后台和html+Css+jquery的前端页面。交互式分析模块,通过用户触发前端页面交互相接受任务执行命令,向服务器后台提交任务参数,并调动Python、Perl、R、Bash、Java等计算机语言的服务器端脚本对测序数据进行分析,再次通过服务器返回到前端页面展示。
具体地,所述基础分析任务提交模块在对所述测序数据进行运算分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行生物信息学分析。
本发明的有益效果在于:本发明借助云计算技术,通过网络方便的获取生物学大数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于云计算平台的有参考基因组的转录组项目的交互式分析方法提供了高集成化的数据分析工作流,无需用户人工整合各类分析软件、搭建分析流程,实现了真正意义上的一站式生物信息分析。让没有计算机背景但有生信分析需求的生物学研究工作者在无需学习任何计算机语言的前提下,轻松实现生物学大数据的深度挖掘并获得理想的结果报告。此外,基于云计算平台的有参考基因组的转录组交互分析方法支持多种算法,自定义设置分组,灵活选择呈现可视化图表和交互式的报告。基于高性能云计算平台的有参考基因组的转录组交互式分析实现一键化数据共享,提高合作项目的综合管理水平。最后,基于云计算平台的有参考基因组的转录组项目的交互式分析内容全面,不仅涵盖有参考基因组的转录组分析的基础分析和高级分析,还包括部分个性化分析,满足用户对生信分析的更高需求。
附图说明
图1为本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析系统方框图;
图2为本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析方法流程图;
图3为本发明中基础分析任务提交模块的有参考基因组的转录组项目的示意图;
图4为本发明中有参考基因组的转录组项目的新建项目示意图;
图5为本发明中有参考基因组的转录组项目基础任务参数提交示意图。
图6为本发明中有参考基因组的转录组项目交互分析示意图;
图7为本发明中有参考基因组的转录组项目PCA图表工具示意图
图8为本发明中有参考基因组的转录组项目分析报告示意图。
主要元件符号说明如下:
10、项目管理模块 11、基础分析任务提交模块
12、交互式结果分析模块。
具体实施方式
为了更详尽地表述本发明,下面结合附图对本发明作进一步地阐述。
请参阅图1,本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析系统统,包括
项目管理模块10,用于对项目的详细信息进行查看、编辑和管理;
基础分析任务提交模块11,用于对任务的基本参数进行设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合分配至相应的项目文件;
交互式结果分析模块12,用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现,包括高级生物信息学分析和个性化生物信息学分析;
项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接;
进一步的,项目管理模块还与交互式结果分析模块相连。
具体的,项目管理模块10中,
所述项目的详细信息可包括下列中的一项或多项:项目名称、项目描述、领域标签、物种标签、文件、项目目录、任务目录、文件目录、任务运行状态等项目相关信息。
项目名称、项目描述、领域标签、物种标签可由用户创设。
文件可以为基础分析任务提交模块、交互式结果分析模块产生的分析结果文件、项目文件。也可以进一步包括用户上传的文件。
项目目录、任务目录、文件目录可由项目管理模块生成。
所述项目信息管理可包括下列中的一项或多项:项目创建;项目共享;项目分类存储;标记项目状态进度;文件上传、查找、下载、锁定、复制、移动、重命名、删除等。
具体的,可以利用客户端界面,通过网络通讯与项目管理模块通讯连接,从而实现文件的上传、查找、浏览、下载、锁定、复制、移动、重命名、删除,进行创建项目与项目共享的设定。
项目管理模块可通过项目、任务、应用和文件对所有状态的分析项目进行综合管理,即项目管理模块可对项目的详细信息进行查看、编辑和管理。
基础分析任务模块11至少可用于设置基础分析任务的参数,调取数据分析工具运行基础分析任务进而基于原始数据获得基础分析任务分析结果,将基础分析任务分析结果与原始数据整合生成项目文件。
所述原始数据存储于集群服务器或云端服务器中。原始数据可来源于用户传来数据。本发明中,原始数据指测序数据。测序数据是基于基因测序产生的基因碱基序列文件。测序数据可以是fastq格式的数据。集群服务器或云端服务器中还进一步存有参考基因组数据库。参考基因组数据库可以由用户在分析前上传至集群服务器或云端服务器。参考基因组数据库可以来源于用户自有数据库,也可以来源于已知的公共参考基因组数据库。数据分析工具基于参数设置在集群服务器中调取对应的原始数据及参考基因组数据库运行基础分析任务。
本发明中,基础分析任务提交模块预设基础分析任务。基础分析任务提交模块利用客户端设置基础分析任务的参数。数据分析工具存储在集群服务器或云端服务器中,通过解析所设参数获得任务指令,基于任务指令可触发对应分析工具的运行。
所述预设的基础分析任务可包括:数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析等。或者基于通用的分析需求,亦可包括其它预设的分析任务。
所述数据质控是对原始数据进行质量控制分析,包括修剪序列前后端接头和低质量碱基,过滤低质量序列等。
所述数据质控统计是对经数据质控获得的序列进行序列数、碱基数、序列质量、碱基分布等各方面的统计计算。本发明所述数据质控统计可用于设定质量值和保留reads的最小长度,并对所选fastq文件进行质量控制和统计。
所述基因功能注释用于将从参考基因组中提取的序列,比对到NR,GO(GeneOntology),COG(Cluster of Orthologous Groups),KEGG(Kyoto Encyclopedia of Genesand Genomes),Pfam与Swisspro等数据库,对注释进行综合评估;
所述比对参考基因组文件用于与指定参考基因组,以进行比对分析;
所述转录组质量评估反映测序数据饱和度、测序数据偏向性、测序数据冗余度等;
所述新转录本预测得到在参考基因组注释GTF/GFF文件中没有注释的全新转录本;
所述表达量分析可运用FeatureCount、RSEM、Kallisto、Salmon等软件进行表达量统计,得到转录本/基因的表达量;
所述差异表达分析反映所有基因在所有样本中的差异表达情况。在交互分析页面可进一步挑选不同的样本、设置不同分组方案、选择不同的计算软件(如DEseq2、DEGseq、edgeR等)、选择不同的计算差异基因的阈值等进行差异分析;
所述基因结构分析可选自可变剪接分析、SNP分析、Indel分析、RNA编辑分析与基因融合分析。其中RNA编辑分析与基因融合分析目前只支持对人类转录组进行分析。
基础分析任务提交模块生成的结果可在交互式分析模块中可视化查看,也可在项目文件中查找到对应的结果文件。
所述数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析均可基于现有转录组分析理论与算法,对测序数据进行分析。
现有技术中,可用于执行转录组相关分析任务的分析工具均可用于本发明,例如SeqPrep、sickle、fastp、fastx_clipper可用于数据质控统计;blast、DIAMOND、HMMER、blast2go、transdecoder可用于基因功能注释;Tophat2或Hisat2可用于比对参考基因组;Cufflinks和Stringtie可用于新转录本预测;FeatureCount、RSEM、Kallisto、Salmon可用于表达量分析;RSeQC可用于转录组质量评估;DESeq2、DEGseq、edgeR可用于差异表达分析;GATK、samtools、Rmats、RDDpred、SOAPfuse可用于基因结构分析等。
所述基础分析任务的参数可以是选自:数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析任务相关的参数。例如可以是选自:待分析的数据库、参考基因组数据库、剪切后的最小质量值、剪切后的最小片段长度、数据库E-Value阈值等现有分析工具中的常规可设置参数。用户可以基于拟分析任务选择合适的参数自行进行设置。
具体的,可以在后台运行时解析参数,根据参数值字段按照是否与软件名称匹配对应到相应软件命令。
基础分析任务提交模块中的结果是指:基于原始数据、设置的基础分析任务参数,运行与预设的基础分析任务相匹配的数据分析工具获得的基础分析任务分析结果。一般可为文本文件或二进制文件。基础分析任务分析结果可存储于云端,并记录在web端数据库中,可通过网络访问。用户可在项目管理的项目文件页面查阅。
具体的,所述基础分析任务提交模块中的结果可以对应选自:数据质控统计结果、基因功能注释结果、比对参考基因组结果、转录组质量评估结果、新转录本预测结果、表达量分析结果、差异表达分析结果、基因结构分析结果。
具体的,数据质控统计结果可选自:原始数据统计表、质控数据统计表、碱基质量分布图、碱基错误率分布图、碱基含量分布图;基因功能注释结果可选自:基因功能注释详情表;比对参考基因组结果可选自:比对结果统计表;转录组质量评估结果可选自:测序饱和度分析结果(如测序饱和度曲线图)、冗余序列分析结果(如基因冗余度分布图)、基因覆盖度分析结果(如基因覆盖度分布图)、覆盖区域分布分析结果(如Reads在基因不同区域的分布统计表)、覆盖区域分布分析结果(如Reads在不同染色体的分布统计表);新转录本预测结果可选自:转录本长度分布柱状图、转录本长度分布表、新转录本类型分布饼图、新转录本注释信息明细;表达量分析结果可选自:表达量分析结果表、表达量折线图、样本间相关性热图、PCA图;差异表达分析结果可选自:表达量差异详情表、表达量差异统计表、表达量差异散点图、表达量差异火山图、基因表达差异聚类分析结果(如热图)、GO富集分析结果(如GO富集分析统计表、GO富集分析柱形图、GO富集分析气泡图、GO有向无环图)、KEGG富集分析结果(如KEGG富集分析统计表、KEGG富集分析柱形图、KEGG富集分析气泡图);基因结构分析结果可选自:SNP分析结果(如SNP分析结果详情表、SNP在基因的不同区域分布饼图、SNP类型统计表、SNP类型统计柱状图、SNP频率统计表、SNP频率统计柱状图、SNP深度统计表、SNP深度统计柱状图)、可变剪切分析结果(如可变剪切事件详情表、可变剪切类型统计饼图、可变剪切类型统计表、差异可变剪切事件统计表、差异可变剪切事件统计饼状图、差异可变剪切模式变化统计柱形图、差异可变剪切事件模式图、差异可变剪切模式变化统计表)、RNA编辑分析结果(如RNA编辑结果表)、基因融合分析结果(如基因融合结果表、基因融合结果图)。
在本发明优选的实施方式中,所述项目文件中还包括中间过程文件数据。中间过程文件数据的部分或全部可以与基础分析任务分析结果共同位于结果文件中,或者,中间过程文件数据的部分或全部作为独立的文件存在于项目文件中。
中间过程文件数据是基于原始数据在运行基础分析任务时获得。例如可以将质控结果Fastq文件等作为中间过程文件数据。
项目文件中包括的中间过程文件数据可以根据用户需求预先选择设置。
交互式结果分析模块12根据用户个性化需求进行分析结果的进一步优化,并将结果可视化展示。交互式结果分析模块12至少可用于:
1)从基础分析任务提交模块形成的项目文件中获取分析结果数据,并以分析结果数据作为输入数据,根据用户请求进行交互分析获得交互分析文本。
2)将基础分析任务提交模块形成的分析结果文本或交互分析文本根据用户请求可视化展示。
进一步的,1)中,将交互分析任务预设于交互式结果分析模块中以供用户选择。交互式结果分析模块预设的交互分析任务至少包括以下一种或多种:Network分析、转录因子分析。
现有技术中,可用于执行转录组相关分析任务的相关分析工具均可用于实现上述功能,例如stringr、WGCNA可用于Network分析;BLAST、HMMSCAN可用于转录因子分析等。前述现有分析工具中的常规可设置参数均可作为交互式结果分析模块中的可设置分析参数。用户可以基于拟分析任务选择合适的参数自行进行设置。
Network分析可以选自基因共表达网络分析或蛋白互作网络分析。蛋白互作网络分析可以新转录本预测结果为出发数据,利用分析工具blast、stringr获得分析结果,其分析结果可选自蛋白互作网络图、网络中心系数分布图、网络节点分布图等。基因共表达网络分析可以表达量分析结果数据为出发数据,利用分析工具WGCNA获得分析结果,其分析结果可以为共表达网络图。
转录因子分析可以新转录本预测结果并结合表达量分析结果数据为出发数据,利用BLAST、HMMSCAN获得分析结果,其分析结果可选自转录因子比对结果表及比对结果统计图。
交互式结果分析模块利用客户端设置分析参数,选择分析任务。与分析任务匹配的数据分析工具存储在集群服务器或云端服务器中,基于任务指令可触发数据分析工具的运行。
交互式结果分析模块产生的交互分析结果文件可以在项目管理模块的文件目录中的任务文件夹中查看和操作。
项目文件中的原始数据可备交互式结果分析模块增设其他功能模块之需。
2)中的用户请求具体可以是基础分析任务提交模块形成的分析结果文本可视化展示请求或交互分析文本可视化展示请求。
分析结果文本可以报告的形式展示。分析结果图可以PNG、JPEG、PDF、SVG格式下载;交互式结果分析模块的报告格式可为html和pdf。
交互式结果分析模块可设置数据质控统计、转录组质量评估、新转录本预测、比对参考基因组、基因功能注释,以分别展示基础分析任务提交模块获得的数据质控统计、转录组质量评估、新转录本预测、比对参考基因组、基因功能注释分析结果。进一步的,Network分析、转录因子分析,亦可在交互式结果分析模块中展示对应的Network分析及转录因子分析结果。
在优选的实施方式中,交互式结果分析模块还可包括图表工具。图表工具用于图表展示、表格数据筛选和图形调整功能,具体的可用于实现更改颜色方案、形状方案、柱形方向;可选择地显示图例、点名称;实现合并或排序功能。
在优选的实施方式中,交互式结果分析模块还可用于:
3)根据用户请求,对基础分析任务提交模块形成的分析结果数据进行再计算获得调整的分析结果数据。
进一步的,3)中,所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据,基于用户在交互式结果分析模块设置的参数及分析任务请求,对已有的分析结果再计算,从而获得经调整的分析结果数据。
所述调整的分析结果数据可进一步作为供选择的输入数据,用于其他交互分析或者再一次的再计算。
为实现上述功能,交互式结果分析模块预设的交互分析任务至少包括基础分析任务中的一项或多项。具体的,至少包括表达量分析、差异表达分析和基因结构分析中的一项或多项。为实现本功能,交互式结果分析模块可供用户设置的参数至少还包括表达量分析、表达差异分析和基因结构分析的常规设置参数中的一项或多项。
基于该设计,在基础分析任务结果不符合用户要求、出现不合理结果、或基于其他原因需要调整分析结果时,用户可自行方便地基于交互式结果分析模块实现分析结果的快速调整。且由于该数据调整是基于中间过程文件数据作出,而不是从原始数据出发作出,因此速度相对更快,相比现有的完全从原始数据出发的重新计算大大节省了处理时间。
在本发明一种实施方式中,
对于交互式结果分析模块中的表达量分析任务:可将质控结果Fastq文件作为输入数据,将质控后的fastq文件基于新设的参数,利用RSEM或FeatureCount软件比对到转录本的序列或参考基因组文件,获得新的表达量分析结果。
对于交互式结果分析模块中的差异表达分析任务:可将表达量分析结果count文件作为输入数据,根据表达量分析产生的每一个基因raw count值,基于新设参数,利用DESeq2、DEGseq或edgeR进行差异表达分析,再根据预先设定好的cutoff阈值,进行差异表达结果统计获得新的差异表达分析结果。
对于交互式结果分析模块中的基因结构分析:可将比对参考基因组bam文件作为输入数据,基于新设参数,利用GATK、samtools或Rmats进行SNP分析或可变剪切分析,从而获得新的基因结构分析结果。
交互式结果分析模块同样可以根据用户请求可视化展示表达量分析、差异表达分析和基因结构分析再计算分析结果。
本发明中,项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均可基于html+Css+jquery的前端页面和PHP+WEB服务器后台,交互分析模块接收到任务执行命令后可调动相应分析软件或Python、Perl、C、R、Bash、Java等计算机语言的服务器端脚本对测序数据进行分析。
本发明中,基础分析任务只按初始设置的参数进行分析并产生文件和结果数据,交互分析中相关分析会直接调用基础分析任务模块中产生的结果进行展示,作为结果记录中的原始分析记录,部分交互分析提供重新设置参数再计算的功能,并产生新的分析记录。
本发明的基于云计算平台的有参考基因组的转录组项目的交互式分析系统可进行以下操作:
首先,在项目管理模块中建立分析项目,向本地集群服务器上传测序数据,同时在本地集群服务器上传用户私有的参考基因组或者选择使用分析平台中的公共参考基因组数据库,用户可锁定该模块中的文件或将项目选择性共享至他人操作管理;测序数据为fastq格式的文件;用户私有参考基因组应包括参考基因组fasta格式文件和参考基因组注释GFF/GTF文件;
然后,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析,经运算分析后生成相应的项目文件。运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息,若符合则进行指定参数的运算分析;
最后,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告;
请进一步参阅图2,本发明还提供一种基于云计算平台的有参考基因组的转录组项目的交互式分析方法,包括以下步骤:
步骤S0,建立项目;
步骤S1,向集群服务器上传测序数据,同时在集群服务器上传用户私有的参考基因组数据库或者选择使用平台中的公共数据库。用户可锁定该模块中的文件或将项目选择性共享至他人操作管理;
步骤S2,建立任务;
步骤S3,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置,进一步进行运算分析(即基础分析任务的运行)产生项目文件。运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息;若符合则进行指定参数运算分析,经运算分析后生成相应的项目文件。
步骤S4,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告。
在本实施例中,所述步骤S3中在对测序数据进行参数设置分析时,用户可自行设置数据质控统计标准,选择分析平台中的公共参考基因组数据库或用户私有的参考基因组,设定比对参考基因组、差异表达分析、基因结构分析软件等,勾选待分析内容后,再运行分析。
在本实施例中,可在项目管理模块10中建立项目。项目管理模块10还可用于查看、编辑和管理由用户上传的相关文件或由分析产生的相关文件,并可对相关文件进行上传、查找、复制、移动、锁定、删除和下载操作;项目管理模块用于查看任务运行的状态与日志信息;项目管理模块可用于标记项目状态进度,项目状态进度可为未开始、进行中、已完成、已终止和问题;项目管理模块,也用于共享项目,并可管理成员权限。
在本实施例中,所述参考基因组数据库存储在集群服务器内。平台中的公共数据库可选自动物基因组数据库、植物基因组数据库、真菌基因组数据库。平台中的公共数据库可作为参考基因组数据库。用户也可上传私有的数据库(或自定义的数据库)作为参考基因组数据库。
进一步的,步骤S4还包括将基础分析任务提交模块形成的分析结果文本或交互式结果分析模块形成的交互分析文本根据用户请求可视化展示。
步骤S4中,所述二次分析和统计包括从步骤S3形成的项目文件中获取分析结果数据,并以分析结果数据作为输入数据,根据用户请求进行交互分析获得交互分析文本。所述交互分析选自以下一种或多种:Network分析、转录因子分析。
在本发明一优选的实施方式中,步骤S4所述二次分析和统计还包括根据用户请求,对步骤S3形成的分析结果数据进行再计算获得调整的分析结果数据。进一步的,所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据,基于用户在交互式结果分析模块设置的参数及分析任务请求,对已有的分析结果再计算,从而获得经调整的分析结果数据。此时,所述交互分析至少还包括步骤S3运算分析项目中的一项或多项。在一具体实施方式中,所述交互分析包括表达量分析、差异表达分析、基因结构分析中的一项或多项,所述表达量分析、差异表达分析、基因结构分析以基础分析任务提交模块的分析结果数据或中间数据作为输入数据,经再计算获得调整的分析结果。
请进一步参阅图4,为基于本发明创建项目和任务步骤,点击分析平台进入我的项目,点击新建项目,填写项目名称,项目描述,选择领域标签,物种标签。点击已建立的项目名称,新建任务。
请参阅图5,基础分析参数设置主要包括数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析的参数设置。
在此可选择输入fastq格式序列文件也可选择包含每个独立样本的fastq序列文件夹。与此同时,可设定剪切后的最小质量值和最小片段长度。同时,选择在集群服务器上传用户私有的参考基因组或者选择使用分析平台中的公共参考基因组数据库,已有参考基因组数据库囊括常见真核模式生物的数据库,用户也可选择私有的参考基因组数据库用于序列比对。
请进一步参阅图3,基础分析任务提交模块可用于数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析等。
基础分析任务提交模块在对所述测序数据进行运算分析的不同阶段,从其存储的分析软件中选取相应的分析软件对所述测序数据进行生物信息学分析。
基因功能注释可设定NR、GO、COG、KEGG、Pfam、Swiss-prot数据库E-Value阈值,用于评估功能注释的准确性。
比对参考基因组可选择使用序列比对软件Tophat2或Hisat2,从测序饱和度、冗余序列、覆盖度、区域分布等4个角度对转录组质量进行评估。
新转录本预测提供Cufflinks和Stringtie等2种主流拼接软件预测新转录本。
表达量分析运用FeatureCount、RSEM、Kallisto、Salmon等分析软件进行表达量统计。
差异表达分析运用DESeq2、DEGseq、edgeR等分析软件进行差异表达分析及统计。
基因结构分析包括可变剪接、SNP、Indel分析、RNA编辑分析与基因融合分析,可依据不同的项目背景及分组方案提供相应的分析软件。
在本实施例中,交互式结果分析模块可用于高级生物信息学分析和个性化生物信息学分析(包括运算分析与可视化展示)。
所述高级生物信息学分析和个性化生物信息学分析即指根据用户的个性化需求对项目文件进行二次分析和统计,以及根据需求对基础分析任务提交模块形成的分析结果文本或交互式结果分析模块形成的交互分析文本的可视化展示。
高级生物信息学分析和个性化生物信息学分析可以选自:Network分析、转录因子分析、表达量分析、差异表达分析、基因结构分析、数据质控统计、转录组质量评估、新转录本预测、比对参考基因组、基因功能注释。其中,Network分析及转录因子分析,可将基础分析任务提交模块的分析结果数据作为输入数据,配置合适的分析工具运行获得分析结果并进行可视化展示。表达量分析、差异表达分析、基因结构分析可将基础分析任务提交模块的分析结果数据或中间数据作为输入数据,配置合适的分析工具运行获得调整的分析结果并进行可视化展示。数据质控统计、转录组质量评估、新转录本预测、比对参考基因组、基因功能注释可将基础分析任务提交模块中的对应分析结果文件在交互分析模块中进行可视化展示。在一具体的实施方式中,高级生物信息学分析和个性化生物信息学包括转录组质量评估(如:测序饱和度分析、冗余序列分析、基因覆盖度分析、覆盖区域分布分析)、差异表达分析(如:基因表达差异聚类分析、GO富集分析、KEGG富集分析)、Network分析(如:基因共表达网络分析、蛋白互作网络分析)、基因结构分析(如:可变剪接分析、SNP分析、RNA编辑分析、基因融合分析)等。
交互式结果分析模块可以对在基础分析任务提交模块已经做出的分析结果进行再计算,获得调整的分析结果。交互式结果分析模块可通过更改分组方案、挑选分析样品、选择聚类算法等获得新的分析结果。
交互式结果分析模块包括图表工具和/或表格筛选工具。
图表工具可实现更改配色方案、图形方案、柱形方向;可选择样本,并选择性显示图例、点名称、聚类树、环境因子,可修改图题;交互式结果分析模块分析结果图支持PNG、JPEG、PDF、SVG格式下载。
交互式结果分析模块分析结果可存入报告,并在报告中展示;交互式结果分析模块的报告格式可为html和pdf。
表格筛选工具可实现数据切换、数据筛选、数据排序、动态加载相应列、检索功能,检索功能包括精确匹配、模糊匹配、跨表检索。
交互式分析模块,通过用户触发前端页面交互相接受任务执行命令,向服务器后台提交任务参数,并调动Python、Perl、C、R、Bash、Java等计算机语言的服务器端脚本对测序数据进行分析,再次通过服务器返回到前端页面展示。
交互式结果分析模块的分析参阅图6,主要包括数据质控统计,转录组质量评估,新转录本预测,基因功能注释,表达量分析,差异表达分析,network分析,基因结构分析,转录因子分析等。
其中数据质控统计包括样本信息统计和样本质控统计两项内容。样本信息统计运用统计学的方法对所有测序reads的每个circle进行碱基分布和质量波动的统计,可以从宏观上直观地反映出样本的测序质量和文库构建质量,对每一个样本的原始测序数据进行测序相关质量评估,并可绘制原始测序数据的碱基质量分布图、碱基错误率分布图等。样本质控统计保证了后续生物信息分析的准确性,并提供质控后的样本数据量统计和质量评估。在碱基质量分布图上可使用图形右下角的放大工具对整张图片进行放大。点击存入报告按钮,可将该图片保存到报告相应位置。
转录组质量评估包括比对结果统计、测序饱和度分析、冗余序列分析、覆盖度分析、区域分布统计、染色体分布统计等六项分析。其中比对结果统计分为比对结果统计表。比对结果统计表用于统计各个样本的Total Reads、Total basepairs、Total mapped、Multiple mapped、Uniquely mapped、Total unmapped等信息。测序饱和度分析分为测序饱和度曲线和测序饱和度箱线图,点击图表工具可挑选样本、设定颜色方案及形状方案,确认生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。冗余序列分析分为冗余序列分布图,用于展示冗余序列分布情况,点击图表工具可挑选部分样本展示。覆盖度分析分为基因覆盖度分布图,是样本中所有基因的5’到3’区域上序列覆盖情况的综合呈现,点击图表工具可挑选样本、设定颜色方案。区域分布统计分为Reads区域分布统计饼图和Reads区域分布统计表。Reads区域分布统计饼图展示reads在各区域分布比例,点击图表工具可选择样本、设置颜色方案。Reads区域分布统计表,展示各个样本的reads在内含子、外显子、编码区、3’UTR和5’UTR区域的分布数目。染色体分布统计分为染色体分布统计柱状图,染色体分布统计弦图,染色体分布统计表。染色体分布统计柱状图统计比对到染色体上的序列数目,染色体分布统计弦图更直观的体现所测序列在各染色体上的分布,点击图表工具可选择样本、设置颜色方案。染色体分布统计表,以数据表统计比对到染色体上的序列数,点击下载可下载至本地保存。
新转录本预测包括转录本长度分布柱状图、转录本长度分布表。转录本长度分布柱状图反映个样本中所有转录本的长度分布区间,点击图表工具,可设定步长区间,选择颜色方案,绘制柱形图查看样本序列在各个长度区间范围中的转录本分布情况。新转录本预测还包括预测新转录本类型分布图和新转录本注释信息明细。新转录本类型分布图可视化展示各类型的新转录本数目,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。新转录本注释信息可智能查找片段类型、片段起始位置、片段终止位置、转录本表达量值等。
基因功能注释可以包括功能注释概览,如NR注释、GO注释、COG注释、KEGG注释、Pfam注释、Swiss-Prot注释、注释查询。NR注释分为信息统计、E-Value分布饼图、NR相似度分布饼图,参考基因组或拼接后的新转录本比对NCBI蛋白质序列库(NR)结果信息展示,结果同时注释NCBI的物种分类数据库。信息统计可切换数据并筛选分类学水平。E-Value分布饼图,用于分析匹配结果的可靠性,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。GO注释分为GO注释概览和GO层级统计表。GO注释概览可选择性查看基因或转录本的GO注释信息,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。COG注释分为COG分类统计表和COG分类统计柱状图。COG注释可对基因或转录本进行功能注释和归类,切换数据类型可展示不同的功能分类柱状图。KEGG注释分为pathway信息表、pathway分布柱状图。pathway信息表展示pathway统计信息,并可点击查看任一pathway的通路图。Pathway柱形图的图表工具可选择性展示基因数目前N的pathway,设定颜色方案。Pfam注释分为Pfam注释信息表、Pfam注释柱状图。Swiss-Prot分为Swiss-Prot注释信息表,以数据表的形式展示参考基因组或转录本比对该数据库的结果信息。注释查询整合如上六个数据库的综合信息,并可对转录本长度、序列名、物种名、ID号等信息进行检索查询,得到对应的数据信息表,该表格可下载至本地保存或存入项目文件。
表达量分析包括表达量统计、样本间基因表达分析两项内容。表达量统计分为基因表达分布、基因表达信息。基因表达分布基于FPKM/TPM结果绘制所有基因的表达量概率密度分布图,可供选择的FPKM/TPM计算软件有FeatureCounts、RSEM、Kallisto、Salmon,运行后即可生成基因的FPKM/TPKM分析图,点击图表工具选择样本、选择图形、修改主标题、调节配色方案等。样本基因表达信息展示单样本表达分析的具体信息如:基因ID、基因的染色体定位、起止位点、序列数目、FPKM/TPM值、count值、是否为新转录本等,并可依据表达量高低筛选相应结果。样本间基因表达差异分析分为相关性分析和PCA分析。相关性分析基于基因表达矩阵绘制样本相关性系数热图,可挑选部分样本、选择聚类方法、距离算法、层次聚类方式,运行后即可生成相应图片,点击图表工具可选择样本、设置颜色方案、显示聚类树、修改主标题,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。PCA分析与相关性分析操作相似,从而通过PCA找出离群样品,判别相似度高的样品簇。
差异表达分析包括差异统计、差异分析、差异基因GO分类统计、差异基因KEGG分类统计、差异基因GO富集分析、差异基因KEGG富集分析。
差异表达分析基于基因表达表绘制表达量差异分析图,可选择的差异分析软件为DESeq2、EdegR、DEGseq2,设置分组方案及对照,运行后即可生成表达量差异分析图表,切换组别可展示不同样本或不同样本组间的差异表达散点图或差异表达火山图、差异基因表达模式热图、差异基因venn图。其中差异基因表达模式热图可设置距离算法、聚类方法、设定表达模式选择方案,运行后生成相应的结果。差异基因GO分析分为GO分类统计、GO富集分析。GO分类统计利用GO数据库,将基因或转录本按照它们参与的生物学过程、构成细胞的组分、实现的分子功能等进行分类,并针对两两分组的差异表达基因或转录本进行GO注释的统计,以其中一个样本为对照,所得结果可绘制上下调基因或转录本GO注释柱形图,点击图表工具可设置上下调基因或转录本及功能分类的展示颜色,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。Go富集分析用于在基因或转录本功能水平阐明样本间的功能富集情况,选择两两组合方案、设置调控类型、显著性水平、多重检验校正方法后,点击运行生成GO富集分析统计表,并绘制GO富集分析柱状图、GO富集分析气泡图、GO有向无环图,其中图表工具可显示富集程度前N的基因或转录本、设置分类颜色方案,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。差异基因KEGG分析分为KEGG分类统计、KEGG富集分析。KEGG统计分析可获得KEGG调控分析统计表,并在KEGG通路中展现差异基因或转录本的表达模式分布。KEGG富集分析使用KOBAS进行KEGGPATHWAY富集分析,使用Fisher精确检验进行计算,可选择两两组合方案、设置调控类型及多重检验校正方法,可攻选择的多重检验校正方法有:BH、BY、Q-value,点击运行,生成相应的KEGG富集分析统计表、KEGG富集分析柱状图、KEGG富集分析气泡图,其中图表工具可显示富集程度前N的基因或转录本、设置分类颜色方案,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。
Network分析包括共表达网络分析、蛋白互作网络分析。共表达网络分析可以揭示转录调控的机制,选定一组基因/转录本,通过分析在不同样品中基因/转录本间表达量的相关性系数,构建基因/转录本间的共表达网络,从而可以明确其中的相互作用关系。共表达网络分析可设定softpower阈值(从1到20)、修改表达模式相似度阈值,点击运行后即可生成对应的network表和network图,其中的图表工具可设置颜色方案,切换至不同的模块可展示各个模块的network明细图表,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。蛋白质互作网络分析,使用同源映射的原理来预测差异基因的蛋白质互作网络,并对网络的拓扑属性进行分析。差异基因互作网络图可选择两两组合方案、设置蛋白质间互作的可能性、logFC值、显著性水平,点击运行后即可生成差异蛋白互作网络图、网络中心系数分布图、网络节点度分布图,其中图表工具可设置颜色方案、边的长度、引力范围、X轴标题、Y轴标题、主标题,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。
基因结构分析包括可变剪接分析、SNP分析、RNA编辑分析、基因融合分析。有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接。可变剪接分析可选择rMATS或MATS软件,生成差异可变剪接事件分类统计表及差异可变剪接时间表达量统计表。SNP分析是指在基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入。SNP统计可设定比对软件STAR、分析软件GATK,生成SNP结果表、SNP区域分布饼图、SNP类型分布柱状图,并可对结果进行样本、染色体、突变类型、突变碱基、功能区域等筛选。RNA编辑指转录后成熟的RNA分析的修饰和加工,使得RNA所携带的遗传信息发生改变的过程,RNA编辑分析使用RDDpred软件生成编辑位点详情图表。基因融合分析使用SOAPfuse,对转录组测序数据中的基因融合事件进行分析,可设置支持融合的reads数目最小值,运行后生成基因融合位点显示图及基因融合分布表,点击图表工具可选择不同样本的基因融合位点显示图,确定生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。
转录因子分析可用于找到与特定DNA序列相结合的蛋白质,并对该蛋白特征进行描述,从而为基因表达调控机制的研究提供合理的基本预测。转录因子分析中选择参考数据库,可供选择的转录因子数据库有:PlantTFDB、AnimalTFDB,运行后即可生成转录因子比对结果表及比对结果统计图。比对结果统计图可视化展示比对上的转录因子百分比饼图,生成的图片可下载至本地保存或点击存入报告则将图片存入静态报告中。
分析报告参阅图7-8,在交互式分析页面,点击存入报告按钮,即可将分析结果图或表存入静态报告的相应位置,且同一分析可存入多张不同维度的分析结果图。静态报告中,可查看分析选用的软件及算法以及该分析的生物学意义,静态报告支持在线预览、编辑、打印或下载至本地保存。
项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于PHP+MySQL+MongoDB的服务器后台和html+Css+jquery的前端页面。本实施例中,基于云计算平台的有参考基因组的转录组项目的交互式分析方法具有简洁友好的交互式分析界面,高度集成业内经典的质控软件SeqPrep、Sickle,数据比对软件TopHat2、HISAT2等分析软件并搭建成完整的工作流,分析生成的图表或结果文件符合专业期刊发表要求。在工作流界面,按照步骤顺序,选择用于分析的Fastq序列文件,选定质控标准、参考基因组数据库及比对软件,上传分组信息表,设置分析参数,点击保存并运行,即可实现有参考基因组的转录组项目的基础生信分析。在交互分析页面,用户可以自由执行重置距离算法、修改聚类方法、挑选样本、更改分组、改变配色、改写图题等操作,多角度、全方位、深层次解析数据价值,为用户节约了沟通环节的宝贵时间的同时,避免了对分析需求的认知偏差,项目周期大幅缩短。
本发明所述的一种基于云计算平台的有参考基因组的转录组项目的交互式分析将输出的分析结果文件按照预设格式整合分配至相应的项目文件。输出的分析结果可下载,供后续深入分析使用。此外,传统的数据存储途径收到硬件质量及寿命的限制,而云端存储数据永不丢失,安全性更高。
与现有分析技术相比,本发明提供的一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统及其方法,该发明主要包括项目管理模块10、基础分析任务提交模块11和交互式结果分析模块12三大模块,该系统及方法借助云计算技术,通过网络方便的获取生物学大数据分析所需要的基础计算资源,满足了大数据背景下研究人员对于基础计算资源的巨大需求。同时,基于云计算平台的有参考基因组的转录组项目的交互式分析方法提供了高集成化的数据分析工作流,无需用户人工整合各类分析软件、搭建分析流程,实现了真正意义上的一站式生物信息分析。让没有计算机背景但有生信分析需求的生物学研究工作者在无需学习任何计算机语言的前提下,轻松实现生物学大数据的深度挖掘并获得理想的结果报告。此外,基于云计算平台的有参考基因组的转录组交互分析方法支持多种算法,自定义设置分组,灵活选择呈现可视化图表和交互式的报告。基于高性能云计算平台的有参考基因组的转录组交互式分析实现一键化数据共享,提高合作项目的综合管理水平。最后,基于云计算平台的有参考基因组的转录组项目的交互式分析内容全面,不仅涵盖有参考基因组的转录组分析的基础分析和高级分析,还包括部分个性化交互分析,满足用户对生信分析的更高需求。
本发明所述的一种基于云计算平台的有参考基因组的转录组项目的交互式分析方法,用户可自由设置所需参数、选择测序数据、设定分组、筛选样本,利用所述配置文件对所述测序数据进行基础生信分析,并以图表和静态报告的形式呈现,因而相较于传统的手动分析模式,本发明的自动分析模式,不仅节约了学习成本,更提高了有参考基因组的转录组项目的分析效率。本发明实施例中,交互式分析包括高级生信分析和个性化生信分析,高级生信分析和个性化生信分析是在基础生信分析的基础上更有针对性的、更深层、更多维度的挖掘数据信息,使得有参考基因组的转录组分析方式不再局限于传统业务线流程的单一性,提高了有参考基因组的转录组分析的效率和数据利用率,基于一个基本生信分析数据可做无限次高级生信分析和个性化生信分析,大幅缩减科研周期并降低科研成本。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (20)
1.一种基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于:包括:
项目管理模块,用于对项目的详细信息进行查看、编辑和管理;
基础分析任务提交模块,用于对任务进行参数设置,提交后进行运算分析,并将输出的分析结果以及原始数据按照预设格式整合生成项目文件,所述基础分析任务提交模块中的任务包括:数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析;
交互式结果分析模块,用于根据用户个性化需求进行分析结果的进一步优化,并将结果可视化呈现,包括高级生物信息学分析和个性化生物信息学分析;
所述项目管理模块通过基础分析任务提交模块与交互式结果分析模块相连接。
2.根据权利要求1所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述项目管理模块与交互式结果分析模块相连。
3.根据权利要求1所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述项目文件还包括中间过程文件数据。
4.根据权利要求1所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,交互式结果分析模块至少可用于:
1)从基础分析任务提交模块形成的项目文件中获取分析结果数据,并以分析结果数据作为输入数据,根据用户请求进行交互分析获得交互分析文本;
2)将基础分析任务提交模块形成的分析结果文本或交互分析文本根据用户请求可视化展示。
5.根据权利要求1所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述交互式结果分析模块预设有以下一种或多种交互分析任务:Network分析、转录因子分析。
6.根据权利要求4所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,交互式结果分析模块还可用于:
3)根据用户请求,对基础分析任务提交模块形成的分析结果数据进行再计算获得调整的分析结果数据。
7.根据权利要求6所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述交互式结果分析模块预设有基础分析任务中的一种或多种分析任务。
8.根据权利要求7所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述交互式结果分析模块预设有下列任务中的一项或多项:表达量分析、差异表达分析和基因结构分析。
9.根据权利要求6所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据,基于用户在交互式结果分析模块设置的参数及分析任务请求,对已有的分析结果再计算,从而获得经调整的分析结果数据。
10.如权利要求1-9任一权利要求所述的基于云计算平台的有参考基因组的转录组项目的交互式分析系统,其特征在于,所述交互式结果分析模块还包括图表工具和/或表格筛选工具。
11.一种基于云计算平台的有参考基因组的转录组项目的交互分析方法,包括以下步骤:
步骤0,建立项目;
步骤1,向集群服务器上传测序数据,同时在集群服务器上传用户私有的参考基因组数据库或者选择使用平台中的公共数据库;
步骤2,建立任务;
步骤3,在基础分析任务提交模块中,用户在可视化界面中对测序数据进行参数设置及运算分析,运算分析前,预先判断数据质控是否符合标准化要求,若不符合直接返回报错信息;若符合则进行指定参数运算分析,经运算分析后生成相应的项目文件;
步骤4,产生的项目文件传送至交互式结果分析模块中进行交互式分析,依据用户个性化需求对项目文件进行二次分析和统计,生成直观呈现的交互式分析报告。
12.根据权利要求11所述的交互分析方法,其特征在于,步骤4还包括:将基础分析任务提交模块形成的分析结果文本或交互式结果分析模块形成的交互分析文本根据用户请求可视化展示。
13.根据权利要求11所述的交互分析方法,其特征在于,步骤3中,所述运算分析包括:数据质控统计、基因功能注释、比对参考基因组、转录组质量评估、新转录本预测、表达量分析、差异表达分析、基因结构分析。
14.根据权利要求11所述的交互分析方法,其特征在于,步骤4中,所述二次分析和统计包括从步骤3形成的项目文件中获取分析结果数据,并以分析结果数据作为输入数据,根据用户请求进行交互分析获得交互分析文本。
15.根据权利要求14所述的交互分析方法,其特征在于,所述交互分析包括Network分析和/或转录因子分析。
16.根据权利要求14所述的交互分析方法,其特征在于,步骤4中,所述二次分析和统计还包括根据用户请求,对步骤3形成的分析结果数据进行再计算获得调整的分析结果数据。
17.根据权利要求16所述的交互分析方法,其特征在于,所述再计算以基础分析任务提交模块形成的分析结果数据或中间过程文件数据作为输入数据,基于用户在交互式结果分析模块设置的参数及分析任务请求,对已有的分析结果再计算,从而获得经调整的分析结果数据。
18.根据权利要求15-17任一所述的交互分析方法,其特征在于,所述交互分析还包括表达量分析、差异表达分析、基因结构分析中的一项或多项,所述表达量分析、差异表达分析、基因结构分析以基础分析任务提交模块的分析结果数据或中间数据作为输入数据,经再计算获得调整的分析结果。
19.根据权利要求11所述的交互分析方法,其特征在于,所述交互式结果分析模块还包括图表工具和/或表格筛选工具。
20.根据权利要求11所述的交互分析方法,其特征在于,所述项目管理模块、基础分析任务提交模块和交互式结果分析模块的操作均基于PHP+MySQL+MongoDB的服务器后台和html+Css+jquery的前端页面,交互式分析模块,通过用户触发前端页面交互相接受任务执行命令,向服务器后台提交任务参数,并调动计算机语言的服务器端脚本对测序数据进行分析,再次通过服务器返回到前端页面展示。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710598342.1A CN107368704A (zh) | 2017-07-21 | 2017-07-21 | 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 |
CN2017105983421 | 2017-07-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109086567A true CN109086567A (zh) | 2018-12-25 |
Family
ID=60307060
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710598342.1A Pending CN107368704A (zh) | 2017-07-21 | 2017-07-21 | 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 |
CN201810802816.4A Pending CN109086567A (zh) | 2017-07-21 | 2018-07-20 | 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710598342.1A Pending CN107368704A (zh) | 2017-07-21 | 2017-07-21 | 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN107368704A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110993033A (zh) * | 2019-11-14 | 2020-04-10 | 北京诺禾致源科技股份有限公司 | 一种基因组数据的处理方法、系统及装置 |
CN111009289A (zh) * | 2019-11-28 | 2020-04-14 | 广州基迪奥生物科技有限公司 | 一种基于云计算的RNA-seq在线报告流程分析方法及系统 |
CN111428159A (zh) * | 2020-03-17 | 2020-07-17 | 中国建设银行股份有限公司 | 线上化分类方法和装置 |
CN111696629A (zh) * | 2020-06-29 | 2020-09-22 | 电子科技大学 | 一种rna测序数据的基因表达量计算方法 |
CN116386736A (zh) * | 2023-04-11 | 2023-07-04 | 南京派森诺基因科技有限公司 | 基于二代测序的真核有参转录组产品全自动化分析方法 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694305B (zh) * | 2018-03-30 | 2021-06-11 | 武汉生物样本库有限公司 | 基于云计算的生物信息分析系统 |
CN109086570B (zh) * | 2018-06-29 | 2020-09-04 | 迈凯基因科技有限公司 | 一种多数据库依次交互方法及装置 |
CN110838338B (zh) * | 2018-08-15 | 2023-09-29 | 上海美吉生物医药科技有限公司 | 生物分析项目的建立系统、方法、存储介质、及电子设备 |
CN109215742A (zh) * | 2018-08-30 | 2019-01-15 | 武汉古奥基因科技有限公司 | 生物信息可视化装置及方法 |
CN109448788B (zh) * | 2018-10-24 | 2022-03-15 | 广州基迪奥生物科技有限公司 | 基因组学及生物信息学的微生物组学在线分析平台架构 |
CN109584962A (zh) * | 2018-10-26 | 2019-04-05 | 广州基迪奥生物科技有限公司 | 一种RNA-seq在线分析报告系统及其生成方法 |
CN109582292B (zh) * | 2018-11-01 | 2022-02-18 | 广州基迪奥生物科技有限公司 | 一种基于基因组学以及生物信息学的在线交互云平台 |
CN110008427B (zh) * | 2019-03-29 | 2023-03-21 | 广州基迪奥生物科技有限公司 | 一种整合多组学知识库的交互式生物信息云分析平台 |
CN110010203B (zh) * | 2019-03-29 | 2022-05-27 | 广州基迪奥生物科技有限公司 | 一种基于生物云平台的交互式动态qtl分析系统及方法 |
CN110060741A (zh) * | 2019-04-29 | 2019-07-26 | 哈尔滨工业大学 | 基于JavaScript的交互式网页生物大数据可视化方法 |
CN110428867B (zh) * | 2019-07-30 | 2021-09-17 | 中国科学院心理研究所 | 一种人类大脑基因时空表达模式在线分析系统及其方法 |
CN110659252A (zh) * | 2019-08-12 | 2020-01-07 | 安诺优达生命科学研究院 | 基于云的生物信息数据交付方法、装置和电子设备 |
CN110490450A (zh) * | 2019-08-15 | 2019-11-22 | 安诺优达生命科学研究院 | 基于混合云的生物信息管理系统 |
CN111276190B (zh) * | 2020-01-07 | 2023-09-12 | 广州基迪奥生物科技有限公司 | 一种基于生物云平台的动态交互富集分析方法及系统 |
CN111402955A (zh) * | 2020-04-09 | 2020-07-10 | 德州学院 | 一种生物信息测定方法、系统、存储介质、终端 |
CN113886674A (zh) * | 2020-07-01 | 2022-01-04 | 北京达佳互联信息技术有限公司 | 资源推荐方法、装置、电子设备及存储介质 |
CN112037847A (zh) * | 2020-09-15 | 2020-12-04 | 中国科学院微生物研究所 | 微生物菌株基因组分析方法、装置及电子设备 |
CN113377765A (zh) * | 2021-07-09 | 2021-09-10 | 深圳华大基因科技服务有限公司 | 一种多组学数据分析系统及其数据转换方法 |
CN115440305A (zh) * | 2022-08-29 | 2022-12-06 | 新疆碳智干细胞库有限公司 | 一种人类遗传资源基因数据管理系统及方法 |
CN115472298B (zh) * | 2022-10-28 | 2023-04-07 | 方寸慧医(江苏)生物科技有限公司 | 基于ai的高通量测序数据智能分析系统及方法 |
CN115881225B (zh) * | 2022-12-28 | 2024-01-26 | 云舟生物科技(广州)股份有限公司 | 生物信息序列的分析方法、计算机存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102277351A (zh) * | 2010-06-10 | 2011-12-14 | 中国科学院上海生命科学研究院 | 从无基因组参考序列物种获得基因信息及功能基因的方法 |
CN104331640A (zh) * | 2014-10-17 | 2015-02-04 | 北京百迈客生物科技有限公司 | 基于生物云平台的项目结题报告分析系统和方法 |
CN105447336A (zh) * | 2015-12-29 | 2016-03-30 | 北京百迈客生物科技有限公司 | 基于生物云平台的微生物多样性分析方法及系统 |
CN105653900A (zh) * | 2015-12-25 | 2016-06-08 | 北京百迈客生物科技有限公司 | 无参转录组分析系统及方法 |
CN106021979A (zh) * | 2016-05-12 | 2016-10-12 | 北京百迈客云科技有限公司 | 人基因组重测序数据分析系统及方法 |
-
2017
- 2017-07-21 CN CN201710598342.1A patent/CN107368704A/zh active Pending
-
2018
- 2018-07-20 CN CN201810802816.4A patent/CN109086567A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102277351A (zh) * | 2010-06-10 | 2011-12-14 | 中国科学院上海生命科学研究院 | 从无基因组参考序列物种获得基因信息及功能基因的方法 |
CN104331640A (zh) * | 2014-10-17 | 2015-02-04 | 北京百迈客生物科技有限公司 | 基于生物云平台的项目结题报告分析系统和方法 |
CN105653900A (zh) * | 2015-12-25 | 2016-06-08 | 北京百迈客生物科技有限公司 | 无参转录组分析系统及方法 |
CN105447336A (zh) * | 2015-12-29 | 2016-03-30 | 北京百迈客生物科技有限公司 | 基于生物云平台的微生物多样性分析方法及系统 |
CN106021979A (zh) * | 2016-05-12 | 2016-10-12 | 北京百迈客云科技有限公司 | 人基因组重测序数据分析系统及方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110993033A (zh) * | 2019-11-14 | 2020-04-10 | 北京诺禾致源科技股份有限公司 | 一种基因组数据的处理方法、系统及装置 |
CN111009289A (zh) * | 2019-11-28 | 2020-04-14 | 广州基迪奥生物科技有限公司 | 一种基于云计算的RNA-seq在线报告流程分析方法及系统 |
CN111009289B (zh) * | 2019-11-28 | 2024-02-06 | 广州基迪奥生物科技有限公司 | 一种基于云计算的RNA-seq在线报告流程分析方法及系统 |
CN111428159A (zh) * | 2020-03-17 | 2020-07-17 | 中国建设银行股份有限公司 | 线上化分类方法和装置 |
CN111696629A (zh) * | 2020-06-29 | 2020-09-22 | 电子科技大学 | 一种rna测序数据的基因表达量计算方法 |
CN116386736A (zh) * | 2023-04-11 | 2023-07-04 | 南京派森诺基因科技有限公司 | 基于二代测序的真核有参转录组产品全自动化分析方法 |
CN116386736B (zh) * | 2023-04-11 | 2024-04-05 | 南京派森诺基因科技有限公司 | 基于二代测序的真核有参转录组产品全自动化分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107368704A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086567A (zh) | 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法 | |
CN109243532A (zh) | 基于计算云平台的真核无参转录组交互分析系统及其方法 | |
CN109192242A (zh) | 基于计算云平台的微生物多样性交互分析系统及其方法 | |
Isenberg et al. | Visualization as seen through its research paper keywords | |
US6868423B2 (en) | Production and preprocessing system for data mining | |
Rot et al. | dictyExpress: a Dictyostelium discoideum gene expression database with an explorative data analysis web-based interface | |
Nobre et al. | Lineage: Visualizing multivariate clinical data in genealogy graphs | |
US10930373B2 (en) | Methods and systems for knowledge discovery using biological data | |
Desimoni et al. | Empirical evaluation of linked data visualization tools | |
Pehkonen et al. | Theme discovery from gene lists for identification and viewing of multiple functional groups | |
Hale et al. | FunSet: an open-source software and web server for performing and displaying Gene Ontology enrichment analysis | |
CN111563200A (zh) | 一种信息显示方法、装置、设备和介质 | |
Bugacov et al. | Experiences with DERIVA: An asset management platform for accelerating eScience | |
Crisan et al. | Gevitrec: Data reconnaissance through recommendation using a domain-specific visualization prevalence design space | |
Azad et al. | Matching phosphorylation response patterns of antigen-receptor-stimulated T cells via flow cytometry | |
Zhang et al. | Optimized artificial bee colony algorithm for web service composition problem | |
Štajdohar et al. | Interactive network exploration with Orange | |
Edlund et al. | Design of the MCAW compute service for food safety bioinformatics | |
Cohen-Boulakia et al. | Path-based systems to guide scientists in the maze of biological data sources | |
Lushbough et al. | BioExtract server—an integrated workflow-enabling system to access and analyze heterogeneous, distributed biomolecular data | |
Laender et al. | Ciência Brasil-the brazilian portal of science and technology | |
Arifin et al. | An online analytical processing multi-dimensional data warehouse for malaria data | |
Cho et al. | ADAAPT: Amgen's data access, analysis, and prediction tools | |
CN112055866A (zh) | 基于电子文件关系的著作管理方法及著作管理系统 | |
US20150066883A1 (en) | Managing versions of cases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181225 |
|
RJ01 | Rejection of invention patent application after publication |