CN113674798A - 蛋白质组学数据的分析系统 - Google Patents
蛋白质组学数据的分析系统 Download PDFInfo
- Publication number
- CN113674798A CN113674798A CN202010415362.2A CN202010415362A CN113674798A CN 113674798 A CN113674798 A CN 113674798A CN 202010415362 A CN202010415362 A CN 202010415362A CN 113674798 A CN113674798 A CN 113674798A
- Authority
- CN
- China
- Prior art keywords
- analysis
- task
- target analysis
- target
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 342
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000002474 experimental method Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012544 monitoring process Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 240000007087 Apium graveolens Species 0.000 claims description 8
- 235000015849 Apium graveolens Dulce Group Nutrition 0.000 claims description 8
- 235000010591 Appio Nutrition 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010949 in-process test method Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 6
- 241001412224 Firmiana Species 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种蛋白质组学数据的分析方法及系统,分析方法包括:获取项目中每个实验对应的元数据以及蛋白质组学数据;根据元数据对实验进行分类处理;在网页端构建目标分析任务;通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;通过服务器端将分析结果发送至网页端。本发明中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种蛋白质组学数据的分析系统。
背景技术
随着蛋白质组学技术的大规模运用,蛋白质组学数据呈现爆发性地增长,针对大量、高维度、结构化的蛋白质组学数据以及描述蛋白组实验特征的数据,非常需要一套完善、易用、可扩展、可管理的系统来提供蛋白质组学数据的分析服务。
目前,对蛋白质组学数据的分析主要依赖于人工方式,但是该方式存在数据未能集中保存,易造成实验数据或元数据丢失、数据处理流程非标准化、需要手动启动处理流程及获取结果等问题;另外,还可以基于本地计算资源的软件,该处理方式需要用户自行安装软件,利用本机计算资源进行分析;但是,该处理方式存在计算分析受本机性能的影响,分析工具及其流程固定,通用性较差等缺点。
发明内容
本发明要解决的技术问题是为了克服现有技术中蛋白质组学数据存在均不能满足实际分析需求的缺陷,目的在于提供一种蛋白质组学数据的分析系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种蛋白质组学数据的分析方法,所述分析方法包括:
预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
获取项目中每个实验对应的元数据以及蛋白质组学数据;
根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
通过所述服务器端将所述分析结果发送至所述网页端。
较佳地,所述目标分析任务为DAG(有向无环图)结构的分析任务。
较佳地,所述根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签的步骤包括:
根据所述元数据生成分类规则;
根据所述分类规则对所述实验进行分类并获取所述分类结果;
根据所述分类结果设置每个所述实验对应的所述分类标签。
较佳地,所述通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果的步骤包括:
通过所述网页端将所述目标分析任务发送至所述服务器端;
在所述服务器端中,基于Airflow(一个可编程、调度和监控的工作流平台)流程调度和监视服务根据所述目标分析任务生成任务执行信息;
根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统(一种分布式系统)的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
较佳地,在所述执行进程中分析处理所述目标分析任务时,所述分析方法还包括:
获取并显示所述目标分析任务的运行状态;和/或,
获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
较佳地,所述通过所述服务器端将所述分析结果发送至所述网页端的步骤之后还包括:
通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
较佳地所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
本发明还提供一种蛋白质组学数据的分析系统,所述分析系统包括预设模块、数据获取模块、分类模块、任务构建模块、分析模块和发送模块;
所述预设模块用于预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
所述数据获取模块用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
所述分类模块用于根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
所述任务构建模块用于根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
所述分析模块用于通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
所述发送模块用于通过所述服务器端将所述分析结果发送至所述网页端。
较佳地,所述目标分析任务为有向无环图结构的分析任务。
较佳地,所述分类模块包括规则生成单元、分类结果获取单元和设置单元;
所述规则生成单元用于根据所述元数据生成分类规则;
所述分类结果获取单元用于根据所述分类规则对所述实验进行分类并获取所述分类结果;
所述设置单元用于根据所述分类结果设置每个所述实验对应的所述分类标签。
较佳地,所述分析模块包括任务发送单元、执行信息生成单元、任务发布单元、任务分配单元和分析单元;
所述任务发送单元用于通过所述网页端将所述目标分析任务发送至所述服务器端;
所述执行信息生成单元用于在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
所述任务发布单元用于根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
所述任务分配单元用于基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
所述分析单元用于在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
较佳地,在所述执行进程中分析处理所述目标分析任务时,所述分析系统还包括运行状态获取模块;
所述运行状态获取模块用于获取并显示所述目标分析任务的运行状态;和/或,
所述分析系统还包括运行日志获取模块;
所述运行日志获取模块用于获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
较佳地,所述分析系统还包括展示模块;
所述展示模块用于通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
较佳地,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
本发明的积极进步效果在于:
本发明中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
附图说明
图1为本发明实施例1的蛋白质组学数据的分析方法的流程图。
图2为本发明实施例2的蛋白质组学数据的分析方法的第一流程图。
图3为本发明实施例2的蛋白质组学数据的分析方法的第二流程图。
图4为本发明实施例3的蛋白质组学数据的分析系统的模块示意图。
图5为本发明实施例4的蛋白质组学数据的分析系统的模块示意图。
图6为本发明实施例4的蛋白质组学数据的分析系统中分析模块的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的蛋白质组学数据的分析方法包括:
S101、预设不同的分析任务在服务器端对应的分析工具以及分析工具的执行顺序;
S102、获取项目中每个实验对应的元数据以及蛋白质组学数据;
其中,元数据为用于表征实验的描述信息。
本实施例中基于Firmiana(蛋白质组一站式分析云平台)获取蛋白质组学数据并对获取的数据进行管理;还可以以项目为单位对管理的蛋白质组学数据进行共享。
S103、根据元数据对实验进行分类处理并设置每个实验对应的分类标签;
S104、根据设置分类标签的实验以及蛋白质组学数据在网页端构建目标分析任务;
其中,构建的目标分析任务为一个或者多个,即本实施例支持多任务管理与分析。
目标分析任务为DAG有向无环图结构的分析任务。
具体地,通过在可视化的网页端(网站页面)填写设置分类标签的实验以及蛋白质组学数据等参数信息来构建目标分析任务。
S105、通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;
此时,利用服务器端高性能的计算能力统一处理分析任务,同时不同的目标分析任务可以通过预先设置选取不同的分析工具及其执行顺序,从而提高蛋白质组学数据分析流程的通用性。
另外,每种分析工具都规定了数据输入的形式、输出的格式以及运行参数,这些输入的形式、输出的格式以及运行参数决定了各个分析工具之间是否可以连接构成分析流程,即目标分析任务对应的各个分析工具之间的执行进程构成该目标分析任务的分析流程,还可以根据实际需求对分析流程进行分享。
S106、通过服务器端将分析结果发送至网页端。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析流程,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例2
如图2所示,本实施例的蛋白质组学数据的分析方法是对实施例1的进一步改进,具体地:
步骤S103包括:
S1031、根据元数据生成分类规则;
S1032、根据分类规则对实验进行分类并获取分类结果;
S1033、根据分类结果设置每个实验对应的分类标签。
其中,可以根据实际情况将多个分类结果合并成一个分类组。
如图3所示,步骤S105包括:
S1051、通过网页端将目标分析任务发送至服务器端;
S1052、在服务器端中,基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
其中,利用Airflow流程调度和监视服务完成对任务流程依赖关系的解析,进而生成任务执行信息。
S1053、根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中,从而保证了本实施例基于分布式计算节点的优先级管理;
S1054、基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
S1055、在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
其中,在执行进程中分析处理目标分析任务时,本实施例的分析方法还包括:
获取并显示目标分析任务的运行状态,还可以复原提交任务流程的结构和信息,以及提供保存、删除、分享分析流程的功能。
获取执行进程中产生的运行日志并存储至数据库中以供Airflow流程调度和监视服务进行检查。
步骤S106之后包括:
S107、通过网页端对分析结果采用可交互式的图表进行展示;
其中,当调整图表对应的图表参数(如颜色)时,则获取不同展示效果的图表,即可以基于可视化的图表进一步筛选表格和修改数据以实现不同的展示方式。
同时,在网页端提供图片下载功能,以便于用户将对应的图表下载至本地。
另外,目标分析任务对应的执行进程Common Workflow Language(通用工作流语言)文件。
下面结合实例具体说明:
(1)创建新的项目,填入项目的基本信息,导入该项目中每个实验对应的元数据以及蛋白质组学数据,根据实验的元数据即描述信息生成分类规则,进而设置每个实验对应的分类标签;
(2)通过在可视化的网页端(网站页面)构建有向无环图的分析流程,并填写每个分析工具的运行参数;
(3)通过网页端将目标分析任务发送至服务器端,进入分析页面,以项目为单位进行分析:
基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
具体地,通过预设选取目标分析任务对应的目标分析工具,将目标分析工具拖入构建区域,将目标分析工具之间通过线段连接以表示分析工具之间的执行顺序,同时填写目标分析工具的参数,然后提交该目标分析任务进行分析处理。
(4)获取目标分析任务对应的分析流程的运行状态;其中,通过点击任务流程来每个分析流程的运行状态;通过点击具体目标分析任务以获取该目标分析任务的分析结果。
(5)在网页端采用可视化工具(如可交互式的图表)对分析结果进行展示,此时可以将图表导出至本地。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析流程,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例3
如图4所示,本实施例的蛋白质组学数据的分析系统包括预设模块1、数据获取模块2、分类模块3、任务构建模块4、分析模块5和发送模块6。
预设模块1用于预设不同的分析任务在服务器端对应的分析工具以及分析工具的执行顺序;
数据获取模块2用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
其中,元数据为用于表征实验的描述信息。
本实施例中基于Firmiana获取蛋白质组学数据并对获取的数据进行管理;还可以以项目为单位对管理的蛋白质组学数据进行共享。分类模块3用于根据元数据对实验进行分类处理并设置每个实验对应的分类标签;
任务构建模块4用于根据设置分类标签的实验以及蛋白质组学数据在网页端构建目标分析任务;
其中,构建的目标分析任务为一个或者多个,即本实施例支持多任务管理与分析。
目标分析任务为DAG有向无环图结构的分析任务。
具体地,通过在可视化的网页端(网站页面)填写设置分类标签的实验以及蛋白质组学数据等参数信息来构建目标分析任务。
分析模块5用于通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;
此时,利用服务器端高性能的计算能力统一处理分析任务,同时不同的目标分析任务可以通过预先设置选取不同的分析工具及其执行顺序,从而提高蛋白质组学数据分析流程的通用性。
另外,每种分析工具都规定了数据输入的形式、输出的格式以及运行参数,这些输入的形式、输出的格式以及运行参数决定了各个分析工具之间是否可以连接构成分析流程,即目标分析任务对应的各个分析工具之间的执行进程构成该目标分析任务的分析流程,还可以根据实际需求对分析流程进行分享。
发送模块6用于通过服务器端将分析结果发送至网页端。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例4
如图5所示,本实施例的蛋白质组学数据的分析系统是对实施例3的进一步改进,具体地:
分类模块3包括规则生成单元7、分类结果获取单元8和设置单元9。
规则生成单元7用于根据元数据生成分类规则;
分类结果获取单元8用于根据分类规则对实验进行分类并获取分类结果;
设置单元9用于根据分类结果设置每个实验对应的分类标签。
其中,可以根据实际情况将多个分类结果合并成一个分类组。
如图6所示,分析模块5包括任务发送单元10、执行信息生成单元11、任务发布单元12、任务分配单元13和分析单元14。
任务发送单元10用于通过网页端将目标分析任务发送至服务器端;
执行信息生成单元11用于在服务器端中,基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
其中,利用Airflow流程调度和监视服务完成对任务流程依赖关系的解析,进而生成任务执行信息。
任务发布单元12用于根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中,从而保证了本实施例基于分布式计算节点的优先级管理;
任务分配单元13用于基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
分析单元14用于在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
在执行进程中分析处理目标分析任务时,分析系统还包括运行状态获取模块;
运行状态获取模块用于获取并显示目标分析任务的运行状态。
另外,还可以复原提交任务流程的结构和信息,以及提供保存、删除、分享分析流程的功能。
分析系统还包括运行日志获取模块;
运行日志获取模块用于获取执行进程中产生的运行日志并存储至数据库中以供Airflow流程调度和监视服务进行检查。
分析系统还包括展示模块15;
展示模块15用于通过网页端对分析结果采用可交互式的图表进行展示;
其中,当调整图表对应的图表参数(如颜色)时,则获取不同展示效果的图表,即可以基于可视化的图表进一步筛选表格和修改数据以实现不同的展示方式。
同时,在网页端提供图片下载功能,以便于用户将对应的图表下载至本地。
另外,目标分析任务对应的执行进程支持通用工作流语言文件。
下面结合实例具体说明:
(1)选择不同的登录方式进入到蛋白质组学数据的分析系统;其中,不同的登录方式包括:1)若已经有Firmiana账号,则可以直接根据账号及密码登录,此时可以直接使用Firmiana中的数据。2)可以直接分析系统的账号和密码登录;3)可以通过扫码登录分析系统,此时需要已经注册账号,其中可以在设置中绑定相关应用程序(如微信);
(2)创建新的项目,填入项目的基本信息,导入该项目中每个实验对应的元数据以及蛋白质组学数据,根据实验的元数据即描述信息生成分类规则,进而设置每个实验对应的分类标签;
(3)通过在可视化的网页端(网站页面)构建有向无环图的分析流程,并填写每个分析工具的运行参数;
(4)通过网页端将目标分析任务发送至服务器端,进入分析页面,以项目为单位进行分析:
基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
具体地,通过预设选取目标分析任务对应的目标分析工具,将目标分析工具拖入构建区域,将目标分析工具之间通过线段连接以表示分析工具之间的执行顺序,同时填写目标分析工具的参数,然后提交该目标分析任务进行分析处理。
(5)获取目标分析任务对应的分析流程的运行状态;其中,通过点击任务流程来每个分析流程的运行状态;通过点击具体目标分析任务以获取该目标分析任务的分析结果。
(6)在网页端采用可视化工具(如可交互式的图表)对分析结果进行展示,此时可以将图表导出至本地。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (14)
1.一种蛋白质组学数据的分析方法,其特征在于,所述分析方法包括:
预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
获取项目中每个实验对应的元数据以及蛋白质组学数据;
根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
通过所述服务器端将所述分析结果发送至所述网页端。
2.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述目标分析任务为有向无环图结构的分析任务。
3.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签的步骤包括:
根据所述元数据生成分类规则;
根据所述分类规则对所述实验进行分类并获取所述分类结果;
根据所述分类结果设置每个所述实验对应的所述分类标签。
4.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果的步骤包括:
通过所述网页端将所述目标分析任务发送至所述服务器端;
在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
5.如权利要求4所述的蛋白质组学数据的分析方法,其特征在于,在所述执行进程中分析处理所述目标分析任务时,所述分析方法还包括:
获取并显示所述目标分析任务的运行状态;和/或,
获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
6.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述通过所述服务器端将所述分析结果发送至所述网页端的步骤之后还包括:
通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
7.如权利要求4所述的蛋白质组学数据的分析方法,其特征在于,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
8.一种蛋白质组学数据的分析系统,其特征在于,所述分析系统包括预设模块、数据获取模块、分类模块、任务构建模块、分析模块和发送模块;
所述预设模块用于预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
所述数据获取模块用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
所述分类模块用于根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
所述任务构建模块用于根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
所述分析模块用于通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
所述发送模块用于通过所述服务器端将所述分析结果发送至所述网页端。
9.如权利要求8所述的蛋白质组学数据的分析系统,其特征在于,所述目标分析任务为有向无环图结构的分析任务。
10.如权利要求8所述的蛋白质组学数据的分析系统,其特征在于,所述分类模块包括规则生成单元、分类结果获取单元和设置单元;
所述规则生成单元用于根据所述元数据生成分类规则;
所述分类结果获取单元用于根据所述分类规则对所述实验进行分类并获取所述分类结果;
所述设置单元用于根据所述分类结果设置每个所述实验对应的所述分类标签。
11.如权利要求8所述的蛋白质组学数据的分析系统,其特征在于,所述分析模块包括任务发送单元、执行信息生成单元、任务发布单元、任务分配单元和分析单元;
所述任务发送单元用于通过所述网页端将所述目标分析任务发送至所述服务器端;
所述执行信息生成单元用于在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
所述任务发布单元用于根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
所述任务分配单元用于基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
所述分析单元用于在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
12.如权利要求11所述的蛋白质组学数据的分析系统,其特征在于,在所述执行进程中分析处理所述目标分析任务时,所述分析系统还包括运行状态获取模块;
所述运行状态获取模块用于获取并显示所述目标分析任务的运行状态;和/或,
所述分析系统还包括运行日志获取模块;
所述运行日志获取模块用于获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
13.如权利要求8所述的蛋白质组学数据的分析系统,其特征在于,所述分析系统还包括展示模块;
所述展示模块用于通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
14.如权利要求11所述的蛋白质组学数据的分析系统,其特征在于,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010415362.2A CN113674798B (zh) | 2020-05-15 | 2020-05-15 | 蛋白质组学数据的分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010415362.2A CN113674798B (zh) | 2020-05-15 | 2020-05-15 | 蛋白质组学数据的分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113674798A true CN113674798A (zh) | 2021-11-19 |
CN113674798B CN113674798B (zh) | 2024-04-26 |
Family
ID=78537816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010415362.2A Active CN113674798B (zh) | 2020-05-15 | 2020-05-15 | 蛋白质组学数据的分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674798B (zh) |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2384883A1 (en) * | 1999-09-14 | 2001-03-22 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
KR20020080626A (ko) * | 2001-04-16 | 2002-10-26 | 학교법인연세대학교 | 프로테옴 데이터 제공 장치 및 방법 |
JP2002328961A (ja) * | 2001-04-27 | 2002-11-15 | Fuji Research Institute Corp | タスクフローを用いた解析支援システムおよび物質・材料設計支援システムおよび解析支援方法および物質・材料設計支援方法 |
US6941317B1 (en) * | 1999-09-14 | 2005-09-06 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
US20060212466A1 (en) * | 2005-03-11 | 2006-09-21 | Adam Hyder | Job categorization system and method |
JP2008537811A (ja) * | 2005-03-11 | 2008-09-25 | ヤフー! インコーポレイテッド | リスティングを管理するためのシステム及び方法 |
US20120066649A1 (en) * | 2010-07-12 | 2012-03-15 | Millipore Corporation | Data analysis and target visualization reporting tool |
US20120159503A1 (en) * | 2010-12-17 | 2012-06-21 | Verizon Patent And Licensing Inc. | Work flow command processing system |
US20120283954A1 (en) * | 2011-05-02 | 2012-11-08 | Tyler Stuart Bray | Method for quantitative analysis of complex proteomic data |
KR20120131678A (ko) * | 2011-05-26 | 2012-12-05 | 주식회사 이노테라피 | 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법 |
WO2013035904A1 (ko) * | 2011-09-08 | 2013-03-14 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
KR20130027949A (ko) * | 2011-09-08 | 2013-03-18 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
KR20130027948A (ko) * | 2011-09-08 | 2013-03-18 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
US20140081685A1 (en) * | 2012-09-17 | 2014-03-20 | Salesforce.com. inc. | Computer implemented methods and apparatus for universal task management |
CN105096225A (zh) * | 2014-05-13 | 2015-11-25 | 深圳华大基因研究院 | 辅助疾病诊疗的分析系统、装置及方法 |
US20160188797A1 (en) * | 2015-06-15 | 2016-06-30 | ANOME Inc. | Method and system for high-throughput sequencing data analysis |
CN106405131A (zh) * | 2016-08-24 | 2017-02-15 | 冯晓均 | 一种细胞与蛋白质联合分析装置及其分析方法 |
CN106709030A (zh) * | 2016-12-28 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 数据源管理功能的开发方法及系统 |
WO2018006022A1 (en) * | 2016-07-01 | 2018-01-04 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US20180059015A1 (en) * | 2016-08-30 | 2018-03-01 | Sensii, Inc. | Personal liquid analysis system |
US20190034047A1 (en) * | 2017-07-31 | 2019-01-31 | Wisconsin Alumni Research Foundation | Web-Based Data Upload and Visualization Platform Enabling Creation of Code-Free Exploration of MS-Based Omics Data |
CN109376015A (zh) * | 2018-10-23 | 2019-02-22 | 苏州思必驰信息科技有限公司 | 用于任务调度系统的日志阻塞解决方法及系统 |
US10305758B1 (en) * | 2014-10-09 | 2019-05-28 | Splunk Inc. | Service monitoring interface reflecting by-service mode |
WO2020018819A1 (en) * | 2018-07-18 | 2020-01-23 | Nvidia Corporation | Virtualized computing platform for inferencing, advanced processing, and machine learning applications |
-
2020
- 2020-05-15 CN CN202010415362.2A patent/CN113674798B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2384883A1 (en) * | 1999-09-14 | 2001-03-22 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
US6941317B1 (en) * | 1999-09-14 | 2005-09-06 | Eragen Biosciences, Inc. | Graphical user interface for display and analysis of biological sequence data |
KR20020080626A (ko) * | 2001-04-16 | 2002-10-26 | 학교법인연세대학교 | 프로테옴 데이터 제공 장치 및 방법 |
JP2002328961A (ja) * | 2001-04-27 | 2002-11-15 | Fuji Research Institute Corp | タスクフローを用いた解析支援システムおよび物質・材料設計支援システムおよび解析支援方法および物質・材料設計支援方法 |
US20060212466A1 (en) * | 2005-03-11 | 2006-09-21 | Adam Hyder | Job categorization system and method |
JP2008537811A (ja) * | 2005-03-11 | 2008-09-25 | ヤフー! インコーポレイテッド | リスティングを管理するためのシステム及び方法 |
US20120066649A1 (en) * | 2010-07-12 | 2012-03-15 | Millipore Corporation | Data analysis and target visualization reporting tool |
US20120159503A1 (en) * | 2010-12-17 | 2012-06-21 | Verizon Patent And Licensing Inc. | Work flow command processing system |
US20120283954A1 (en) * | 2011-05-02 | 2012-11-08 | Tyler Stuart Bray | Method for quantitative analysis of complex proteomic data |
KR20120131678A (ko) * | 2011-05-26 | 2012-12-05 | 주식회사 이노테라피 | 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법 |
KR20130027948A (ko) * | 2011-09-08 | 2013-03-18 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
WO2013035904A1 (ko) * | 2011-09-08 | 2013-03-14 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
KR20130027949A (ko) * | 2011-09-08 | 2013-03-18 | 한국과학기술정보연구원 | 생명 정보 분석 파이프라인 처리 시스템 및 방법 |
US20140081685A1 (en) * | 2012-09-17 | 2014-03-20 | Salesforce.com. inc. | Computer implemented methods and apparatus for universal task management |
CN105096225A (zh) * | 2014-05-13 | 2015-11-25 | 深圳华大基因研究院 | 辅助疾病诊疗的分析系统、装置及方法 |
US10305758B1 (en) * | 2014-10-09 | 2019-05-28 | Splunk Inc. | Service monitoring interface reflecting by-service mode |
US20160188797A1 (en) * | 2015-06-15 | 2016-06-30 | ANOME Inc. | Method and system for high-throughput sequencing data analysis |
WO2018006022A1 (en) * | 2016-07-01 | 2018-01-04 | Edico Genome Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
CN106405131A (zh) * | 2016-08-24 | 2017-02-15 | 冯晓均 | 一种细胞与蛋白质联合分析装置及其分析方法 |
US20180059015A1 (en) * | 2016-08-30 | 2018-03-01 | Sensii, Inc. | Personal liquid analysis system |
CN106709030A (zh) * | 2016-12-28 | 2017-05-24 | 深圳市华傲数据技术有限公司 | 数据源管理功能的开发方法及系统 |
US20190034047A1 (en) * | 2017-07-31 | 2019-01-31 | Wisconsin Alumni Research Foundation | Web-Based Data Upload and Visualization Platform Enabling Creation of Code-Free Exploration of MS-Based Omics Data |
WO2020018819A1 (en) * | 2018-07-18 | 2020-01-23 | Nvidia Corporation | Virtualized computing platform for inferencing, advanced processing, and machine learning applications |
CN109376015A (zh) * | 2018-10-23 | 2019-02-22 | 苏州思必驰信息科技有限公司 | 用于任务调度系统的日志阻塞解决方法及系统 |
Non-Patent Citations (1)
Title |
---|
JINWEN FENG 等: "Firmiana: towards a one-stop proteomic cloud platform for data processing and analysis", 《NATURE BIOTECHNOLOGY》, pages 409 - 410 * |
Also Published As
Publication number | Publication date |
---|---|
CN113674798B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241141B (zh) | 深度学习的训练数据处理方法和装置 | |
CN108259553B (zh) | 业务邮件的发送方法及终端设备 | |
US10116534B2 (en) | Systems and methods for WebSphere MQ performance metrics analysis | |
CN110674083B (zh) | 工作流迁移方法、装置、设备及计算机可读存储介质 | |
CN109426600B (zh) | 数据采集处理方法、装置、设备及可读存储介质 | |
Kia et al. | Scheduling a dynamic flexible flow line with sequence-dependent setup times: a simulation analysis | |
US20240176948A1 (en) | Method & system for labeling and organizing data for summarizing and referencing content via a communication network | |
JP2020537261A (ja) | 連続するデータブロックの非同期処理 | |
CN110249312A (zh) | 数据集成作业转换 | |
CN107704357B (zh) | 日志生成方法和装置 | |
CN114185750A (zh) | 流程监控方法、装置、设备及存储介质 | |
CN106992901B (zh) | 用于资源调度模拟压力的方法和设备 | |
CN109597702B (zh) | 消息总线异常的根因分析方法、装置、设备及存储介质 | |
KR101494864B1 (ko) | 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법 | |
CN113674798B (zh) | 蛋白质组学数据的分析系统 | |
CN114168624B (zh) | 数据分析方法、计算设备及存储介质 | |
CN111176834A (zh) | 自动伸缩策略运维方法、系统和可读存储介质 | |
CN113672497B (zh) | 无埋点事件的生成方法、装置、设备及存储介质 | |
CN109033196A (zh) | 一种分布式数据调度系统及方法 | |
US20130138690A1 (en) | Automatically identifying reused model artifacts in business process models | |
US20200210245A1 (en) | Method and device for aiding decision-making for the allocation of computing means on a high performance computing infrastructure | |
CN111782688A (zh) | 基于大数据分析的请求处理方法、装置、设备及存储介质 | |
CN113721976B (zh) | 基于bi分析软件的数据迁移方法、装置、存储介质及电子设备 | |
CN114691837B (zh) | 一种基于大数据的保险业务数据处理方法和处理系统 | |
US20220253338A1 (en) | Memory management through control of data processing tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |