CN113674798B - 蛋白质组学数据的分析系统 - Google Patents

蛋白质组学数据的分析系统 Download PDF

Info

Publication number
CN113674798B
CN113674798B CN202010415362.2A CN202010415362A CN113674798B CN 113674798 B CN113674798 B CN 113674798B CN 202010415362 A CN202010415362 A CN 202010415362A CN 113674798 B CN113674798 B CN 113674798B
Authority
CN
China
Prior art keywords
analysis
task
target analysis
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010415362.2A
Other languages
English (en)
Other versions
CN113674798A (zh
Inventor
丁琛
冯晋文
刘洋
李姚
杨烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010415362.2A priority Critical patent/CN113674798B/zh
Publication of CN113674798A publication Critical patent/CN113674798A/zh
Application granted granted Critical
Publication of CN113674798B publication Critical patent/CN113674798B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种蛋白质组学数据的分析方法及系统,分析方法包括:获取项目中每个实验对应的元数据以及蛋白质组学数据;根据元数据对实验进行分类处理;在网页端构建目标分析任务;通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;通过服务器端将分析结果发送至网页端。本发明中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。

Description

蛋白质组学数据的分析系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种蛋白质组学数据的分析系统。
背景技术
随着蛋白质组学技术的大规模运用,蛋白质组学数据呈现爆发性地增长,针对大量、高维度、结构化的蛋白质组学数据以及描述蛋白组实验特征的数据,非常需要一套完善、易用、可扩展、可管理的系统来提供蛋白质组学数据的分析服务。
目前,对蛋白质组学数据的分析主要依赖于人工方式,但是该方式存在数据未能集中保存,易造成实验数据或元数据丢失、数据处理流程非标准化、需要手动启动处理流程及获取结果等问题;另外,还可以基于本地计算资源的软件,该处理方式需要用户自行安装软件,利用本机计算资源进行分析;但是,该处理方式存在计算分析受本机性能的影响,分析工具及其流程固定,通用性较差等缺点。
发明内容
本发明要解决的技术问题是为了克服现有技术中蛋白质组学数据存在均不能满足实际分析需求的缺陷,目的在于提供一种蛋白质组学数据的分析系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种蛋白质组学数据的分析方法,所述分析方法包括:
预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
获取项目中每个实验对应的元数据以及蛋白质组学数据;
根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
通过所述服务器端将所述分析结果发送至所述网页端。
较佳地,所述目标分析任务为DAG(有向无环图)结构的分析任务。
较佳地,所述根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签的步骤包括:
根据所述元数据生成分类规则;
根据所述分类规则对所述实验进行分类并获取所述分类结果;
根据所述分类结果设置每个所述实验对应的所述分类标签。
较佳地,所述通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果的步骤包括:
通过所述网页端将所述目标分析任务发送至所述服务器端;
在所述服务器端中,基于Airflow(一个可编程、调度和监控的工作流平台)流程调度和监视服务根据所述目标分析任务生成任务执行信息;
根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统(一种分布式系统)的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
较佳地,在所述执行进程中分析处理所述目标分析任务时,所述分析方法还包括:
获取并显示所述目标分析任务的运行状态;和/或,
获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
较佳地,所述通过所述服务器端将所述分析结果发送至所述网页端的步骤之后还包括:
通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
较佳地所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
本发明还提供一种蛋白质组学数据的分析系统,所述分析系统包括预设模块、数据获取模块、分类模块、任务构建模块、分析模块和发送模块;
所述预设模块用于预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
所述数据获取模块用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
所述分类模块用于根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
所述任务构建模块用于根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
所述分析模块用于通过所述网页端将所述目标分析任务发送至所述服务器端,并根据所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果;
所述发送模块用于通过所述服务器端将所述分析结果发送至所述网页端。
较佳地,所述目标分析任务为有向无环图结构的分析任务。
较佳地,所述分类模块包括规则生成单元、分类结果获取单元和设置单元;
所述规则生成单元用于根据所述元数据生成分类规则;
所述分类结果获取单元用于根据所述分类规则对所述实验进行分类并获取所述分类结果;
所述设置单元用于根据所述分类结果设置每个所述实验对应的所述分类标签。
较佳地,所述分析模块包括任务发送单元、执行信息生成单元、任务发布单元、任务分配单元和分析单元;
所述任务发送单元用于通过所述网页端将所述目标分析任务发送至所述服务器端;
所述执行信息生成单元用于在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
所述任务发布单元用于根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
所述任务分配单元用于基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
所述分析单元用于在所述执行进程中采用所述目标分析任务对应的所述目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取所述分析结果。
较佳地,在所述执行进程中分析处理所述目标分析任务时,所述分析系统还包括运行状态获取模块;
所述运行状态获取模块用于获取并显示所述目标分析任务的运行状态;和/或,
所述分析系统还包括运行日志获取模块;
所述运行日志获取模块用于获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
较佳地,所述分析系统还包括展示模块;
所述展示模块用于通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
较佳地,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
本发明的积极进步效果在于:
本发明中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
附图说明
图1为本发明实施例1的蛋白质组学数据的分析方法的流程图。
图2为本发明实施例2的蛋白质组学数据的分析方法的第一流程图。
图3为本发明实施例2的蛋白质组学数据的分析方法的第二流程图。
图4为本发明实施例3的蛋白质组学数据的分析系统的模块示意图。
图5为本发明实施例4的蛋白质组学数据的分析系统的模块示意图。
图6为本发明实施例4的蛋白质组学数据的分析系统中分析模块的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的蛋白质组学数据的分析方法包括:
S101、预设不同的分析任务在服务器端对应的分析工具以及分析工具的执行顺序;
S102、获取项目中每个实验对应的元数据以及蛋白质组学数据;
其中,元数据为用于表征实验的描述信息。
本实施例中基于Firmiana(蛋白质组一站式分析云平台)获取蛋白质组学数据并对获取的数据进行管理;还可以以项目为单位对管理的蛋白质组学数据进行共享。
S103、根据元数据对实验进行分类处理并设置每个实验对应的分类标签;
S104、根据设置分类标签的实验以及蛋白质组学数据在网页端构建目标分析任务;
其中,构建的目标分析任务为一个或者多个,即本实施例支持多任务管理与分析。
目标分析任务为DAG有向无环图结构的分析任务。
具体地,通过在可视化的网页端(网站页面)填写设置分类标签的实验以及蛋白质组学数据等参数信息来构建目标分析任务。
S105、通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;
此时,利用服务器端高性能的计算能力统一处理分析任务,同时不同的目标分析任务可以通过预先设置选取不同的分析工具及其执行顺序,从而提高蛋白质组学数据分析流程的通用性。
另外,每种分析工具都规定了数据输入的形式、输出的格式以及运行参数,这些输入的形式、输出的格式以及运行参数决定了各个分析工具之间是否可以连接构成分析流程,即目标分析任务对应的各个分析工具之间的执行进程构成该目标分析任务的分析流程,还可以根据实际需求对分析流程进行分享。
S106、通过服务器端将分析结果发送至网页端。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析流程,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例2
如图2所示,本实施例的蛋白质组学数据的分析方法是对实施例1的进一步改进,具体地:
步骤S103包括:
S1031、根据元数据生成分类规则;
S1032、根据分类规则对实验进行分类并获取分类结果;
S1033、根据分类结果设置每个实验对应的分类标签。
其中,可以根据实际情况将多个分类结果合并成一个分类组。
如图3所示,步骤S105包括:
S1051、通过网页端将目标分析任务发送至服务器端;
S1052、在服务器端中,基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
其中,利用Airflow流程调度和监视服务完成对任务流程依赖关系的解析,进而生成任务执行信息。
S1053、根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中,从而保证了本实施例基于分布式计算节点的优先级管理;
S1054、基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
S1055、在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
其中,在执行进程中分析处理目标分析任务时,本实施例的分析方法还包括:
获取并显示目标分析任务的运行状态,还可以复原提交任务流程的结构和信息,以及提供保存、删除、分享分析流程的功能。
获取执行进程中产生的运行日志并存储至数据库中以供Airflow流程调度和监视服务进行检查。
步骤S106之后包括:
S107、通过网页端对分析结果采用可交互式的图表进行展示;
其中,当调整图表对应的图表参数(如颜色)时,则获取不同展示效果的图表,即可以基于可视化的图表进一步筛选表格和修改数据以实现不同的展示方式。
同时,在网页端提供图片下载功能,以便于用户将对应的图表下载至本地。
另外,目标分析任务对应的执行进程Common Workflow Language(通用工作流语言)文件。
下面结合实例具体说明:
(1)创建新的项目,填入项目的基本信息,导入该项目中每个实验对应的元数据以及蛋白质组学数据,根据实验的元数据即描述信息生成分类规则,进而设置每个实验对应的分类标签;
(2)通过在可视化的网页端(网站页面)构建有向无环图的分析流程,并填写每个分析工具的运行参数;
(3)通过网页端将目标分析任务发送至服务器端,进入分析页面,以项目为单位进行分析:
基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
具体地,通过预设选取目标分析任务对应的目标分析工具,将目标分析工具拖入构建区域,将目标分析工具之间通过线段连接以表示分析工具之间的执行顺序,同时填写目标分析工具的参数,然后提交该目标分析任务进行分析处理。
(4)获取目标分析任务对应的分析流程的运行状态;其中,通过点击任务流程来每个分析流程的运行状态;通过点击具体目标分析任务以获取该目标分析任务的分析结果。
(5)在网页端采用可视化工具(如可交互式的图表)对分析结果进行展示,此时可以将图表导出至本地。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析流程,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例3
如图4所示,本实施例的蛋白质组学数据的分析系统包括预设模块1、数据获取模块2、分类模块3、任务构建模块4、分析模块5和发送模块6。
预设模块1用于预设不同的分析任务在服务器端对应的分析工具以及分析工具的执行顺序;
数据获取模块2用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
其中,元数据为用于表征实验的描述信息。
本实施例中基于Firmiana获取蛋白质组学数据并对获取的数据进行管理;还可以以项目为单位对管理的蛋白质组学数据进行共享。分类模块3用于根据元数据对实验进行分类处理并设置每个实验对应的分类标签;
任务构建模块4用于根据设置分类标签的实验以及蛋白质组学数据在网页端构建目标分析任务;
其中,构建的目标分析任务为一个或者多个,即本实施例支持多任务管理与分析。
目标分析任务为DAG有向无环图结构的分析任务。
具体地,通过在可视化的网页端(网站页面)填写设置分类标签的实验以及蛋白质组学数据等参数信息来构建目标分析任务。
分析模块5用于通过网页端将目标分析任务发送至服务器端,并根据目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果;
此时,利用服务器端高性能的计算能力统一处理分析任务,同时不同的目标分析任务可以通过预先设置选取不同的分析工具及其执行顺序,从而提高蛋白质组学数据分析流程的通用性。
另外,每种分析工具都规定了数据输入的形式、输出的格式以及运行参数,这些输入的形式、输出的格式以及运行参数决定了各个分析工具之间是否可以连接构成分析流程,即目标分析任务对应的各个分析工具之间的执行进程构成该目标分析任务的分析流程,还可以根据实际需求对分析流程进行分享。
发送模块6用于通过服务器端将分析结果发送至网页端。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
实施例4
如图5所示,本实施例的蛋白质组学数据的分析系统是对实施例3的进一步改进,具体地:
分类模块3包括规则生成单元7、分类结果获取单元8和设置单元9。
规则生成单元7用于根据元数据生成分类规则;
分类结果获取单元8用于根据分类规则对实验进行分类并获取分类结果;
设置单元9用于根据分类结果设置每个实验对应的分类标签。
其中,可以根据实际情况将多个分类结果合并成一个分类组。
如图6所示,分析模块5包括任务发送单元10、执行信息生成单元11、任务发布单元12、任务分配单元13和分析单元14。
任务发送单元10用于通过网页端将目标分析任务发送至服务器端;
执行信息生成单元11用于在服务器端中,基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
其中,利用Airflow流程调度和监视服务完成对任务流程依赖关系的解析,进而生成任务执行信息。
任务发布单元12用于根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中,从而保证了本实施例基于分布式计算节点的优先级管理;
任务分配单元13用于基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
分析单元14用于在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
在执行进程中分析处理目标分析任务时,分析系统还包括运行状态获取模块;
运行状态获取模块用于获取并显示目标分析任务的运行状态。
另外,还可以复原提交任务流程的结构和信息,以及提供保存、删除、分享分析流程的功能。
分析系统还包括运行日志获取模块;
运行日志获取模块用于获取执行进程中产生的运行日志并存储至数据库中以供Airflow流程调度和监视服务进行检查。
分析系统还包括展示模块15;
展示模块15用于通过网页端对分析结果采用可交互式的图表进行展示;
其中,当调整图表对应的图表参数(如颜色)时,则获取不同展示效果的图表,即可以基于可视化的图表进一步筛选表格和修改数据以实现不同的展示方式。
同时,在网页端提供图片下载功能,以便于用户将对应的图表下载至本地。
另外,目标分析任务对应的执行进程支持通用工作流语言文件。
下面结合实例具体说明:
(1)选择不同的登录方式进入到蛋白质组学数据的分析系统;其中,不同的登录方式包括:1)若已经有Firmiana账号,则可以直接根据账号及密码登录,此时可以直接使用Firmiana中的数据。2)可以直接分析系统的账号和密码登录;3)可以通过扫码登录分析系统,此时需要已经注册账号,其中可以在设置中绑定相关应用程序(如微信);
(2)创建新的项目,填入项目的基本信息,导入该项目中每个实验对应的元数据以及蛋白质组学数据,根据实验的元数据即描述信息生成分类规则,进而设置每个实验对应的分类标签;
(3)通过在可视化的网页端(网站页面)构建有向无环图的分析流程,并填写每个分析工具的运行参数;
(4)通过网页端将目标分析任务发送至服务器端,进入分析页面,以项目为单位进行分析:
基于Airflow流程调度和监视服务根据目标分析任务生成任务执行信息;
根据任务执行信息将不同的目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收消息队列中的目标分析任务并分配至对应的执行进程中;
在执行进程中采用目标分析任务对应的目标分析工具以及目标分析工具的执行顺序对目标分析任务进行分析处理以获取分析结果。
具体地,通过预设选取目标分析任务对应的目标分析工具,将目标分析工具拖入构建区域,将目标分析工具之间通过线段连接以表示分析工具之间的执行顺序,同时填写目标分析工具的参数,然后提交该目标分析任务进行分析处理。
(5)获取目标分析任务对应的分析流程的运行状态;其中,通过点击任务流程来每个分析流程的运行状态;通过点击具体目标分析任务以获取该目标分析任务的分析结果。
(6)在网页端采用可视化工具(如可交互式的图表)对分析结果进行展示,此时可以将图表导出至本地。
本实施例中构建了一站式、可定制、流程化的蛋白质组学数据的分析系统,在基于网页端和服务器端实现云服务的同时,使得涵盖分析任务的整个分析流程,实现对蛋白质组学数据的自动化分析的同时,也提高了分析效率,提升了数据分析的通用性,满足了更高的用户分析需求。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种蛋白质组学数据的分析方法,其特征在于,所述分析方法包括:
预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
获取项目中每个实验对应的元数据以及蛋白质组学数据;
根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
通过所述网页端将所述目标分析任务发送至所述服务器端;
在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
在所述执行进程中采用所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取分析结果;
通过所述服务器端将所述分析结果发送至所述网页端;
所述根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签的步骤包括:
根据所述元数据生成分类规则;
根据所述分类规则对所述实验进行分类并获取分类结果;
根据所述分类结果设置每个所述实验对应的所述分类标签。
2.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述目标分析任务为有向无环图结构的分析任务。
3.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,在所述执行进程中分析处理所述目标分析任务时,所述分析方法还包括:
获取并显示所述目标分析任务的运行状态;和/或,
获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
4.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述通过所述服务器端将所述分析结果发送至所述网页端的步骤之后还包括:
通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
5.如权利要求1所述的蛋白质组学数据的分析方法,其特征在于,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
6.一种蛋白质组学数据的分析系统,其特征在于,所述分析系统包括预设模块、数据获取模块、分类模块、任务构建模块、分析模块和发送模块;
所述预设模块用于预设不同的分析任务在服务器端对应的分析工具以及所述分析工具的执行顺序;
所述数据获取模块用于获取项目中每个实验对应的元数据以及蛋白质组学数据;
所述分类模块用于根据所述元数据对所述实验进行分类处理并设置每个所述实验对应的分类标签;
所述任务构建模块用于根据设置所述分类标签的所述实验以及所述蛋白质组学数据在网页端构建目标分析任务;
所述分析模块包括任务发送单元、执行信息生成单元、任务发布单元、任务分配单元和分析单元;
所述任务发送单元用于通过所述网页端将所述目标分析任务发送至所述服务器端;
所述执行信息生成单元用于在所述服务器端中,基于Airflow流程调度和监视服务根据所述目标分析任务生成任务执行信息;
所述任务发布单元用于根据所述任务执行信息将不同的所述目标分析任务发布至不同优先等级的消息队列中;
所述任务分配单元用于基于Celery系统的任务执行管理功能接收所述消息队列中的所述目标分析任务并分配至对应的执行进程中;
所述分析单元用于在所述执行进程中采用所述目标分析任务对应的目标分析工具以及所述目标分析工具的执行顺序对所述目标分析任务进行分析处理以获取分析结果;
所述发送模块用于通过所述服务器端将所述分析结果发送至所述网页端;
所述分类模块包括规则生成单元、分类结果获取单元和设置单元;
所述规则生成单元用于根据所述元数据生成分类规则;
所述分类结果获取单元用于根据所述分类规则对所述实验进行分类并获取分类结果;
所述设置单元用于根据所述分类结果设置每个所述实验对应的所述分类标签。
7.如权利要求6所述的蛋白质组学数据的分析系统,其特征在于,所述目标分析任务为有向无环图结构的分析任务。
8.如权利要求6所述的蛋白质组学数据的分析系统,其特征在于,在所述执行进程中分析处理所述目标分析任务时,所述分析系统还包括运行状态获取模块;
所述运行状态获取模块用于获取并显示所述目标分析任务的运行状态;和/或,
所述分析系统还包括运行日志获取模块;
所述运行日志获取模块用于获取所述执行进程中产生的运行日志并存储至数据库中以供所述Airflow流程调度和监视服务进行检查。
9.如权利要求6所述的蛋白质组学数据的分析系统,其特征在于,所述分析系统还包括展示模块;
所述展示模块用于通过所述网页端对所述分析结果进行图表展示;
其中,当调整所述图表对应的图表参数时,则获取不同展示效果的所述图表。
10.如权利要求6所述的蛋白质组学数据的分析系统,其特征在于,所述目标分析任务对应的所述执行进程支持通用工作流语言文件。
CN202010415362.2A 2020-05-15 2020-05-15 蛋白质组学数据的分析系统 Active CN113674798B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010415362.2A CN113674798B (zh) 2020-05-15 2020-05-15 蛋白质组学数据的分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010415362.2A CN113674798B (zh) 2020-05-15 2020-05-15 蛋白质组学数据的分析系统

Publications (2)

Publication Number Publication Date
CN113674798A CN113674798A (zh) 2021-11-19
CN113674798B true CN113674798B (zh) 2024-04-26

Family

ID=78537816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010415362.2A Active CN113674798B (zh) 2020-05-15 2020-05-15 蛋白质组学数据的分析系统

Country Status (1)

Country Link
CN (1) CN113674798B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2384883A1 (en) * 1999-09-14 2001-03-22 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
KR20020080626A (ko) * 2001-04-16 2002-10-26 학교법인연세대학교 프로테옴 데이터 제공 장치 및 방법
JP2002328961A (ja) * 2001-04-27 2002-11-15 Fuji Research Institute Corp タスクフローを用いた解析支援システムおよび物質・材料設計支援システムおよび解析支援方法および物質・材料設計支援方法
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
KR20120131678A (ko) * 2011-05-26 2012-12-05 주식회사 이노테라피 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법
WO2013035904A1 (ko) * 2011-09-08 2013-03-14 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
KR20130027949A (ko) * 2011-09-08 2013-03-18 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
KR20130027948A (ko) * 2011-09-08 2013-03-18 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
CN105096225A (zh) * 2014-05-13 2015-11-25 深圳华大基因研究院 辅助疾病诊疗的分析系统、装置及方法
CN106405131A (zh) * 2016-08-24 2017-02-15 冯晓均 一种细胞与蛋白质联合分析装置及其分析方法
CN106709030A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 数据源管理功能的开发方法及系统
WO2018006022A1 (en) * 2016-07-01 2018-01-04 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN109376015A (zh) * 2018-10-23 2019-02-22 苏州思必驰信息科技有限公司 用于任务调度系统的日志阻塞解决方法及系统
US10305758B1 (en) * 2014-10-09 2019-05-28 Splunk Inc. Service monitoring interface reflecting by-service mode
WO2020018819A1 (en) * 2018-07-18 2020-01-23 Nvidia Corporation Virtualized computing platform for inferencing, advanced processing, and machine learning applications

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7702674B2 (en) * 2005-03-11 2010-04-20 Yahoo! Inc. Job categorization system and method
US20120066649A1 (en) * 2010-07-12 2012-03-15 Millipore Corporation Data analysis and target visualization reporting tool
US9098338B2 (en) * 2010-12-17 2015-08-04 Verizon Patent And Licensing Inc. Work flow command processing system
US9659146B2 (en) * 2011-05-02 2017-05-23 Tyler Stuart Bray Method for quantitative analysis of complex proteomic data
US20140081685A1 (en) * 2012-09-17 2014-03-20 Salesforce.com. inc. Computer implemented methods and apparatus for universal task management
US10325676B2 (en) * 2015-06-15 2019-06-18 Atgenomix Inc. Method and system for high-throughput sequencing data analysis
WO2018044972A1 (en) * 2016-08-30 2018-03-08 Sensii, Inc. A personal liquid analysis system
US20190034047A1 (en) * 2017-07-31 2019-01-31 Wisconsin Alumni Research Foundation Web-Based Data Upload and Visualization Platform Enabling Creation of Code-Free Exploration of MS-Based Omics Data

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2384883A1 (en) * 1999-09-14 2001-03-22 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US6941317B1 (en) * 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
KR20020080626A (ko) * 2001-04-16 2002-10-26 학교법인연세대학교 프로테옴 데이터 제공 장치 및 방법
JP2002328961A (ja) * 2001-04-27 2002-11-15 Fuji Research Institute Corp タスクフローを用いた解析支援システムおよび物質・材料設計支援システムおよび解析支援方法および物質・材料設計支援方法
JP2008537811A (ja) * 2005-03-11 2008-09-25 ヤフー! インコーポレイテッド リスティングを管理するためのシステム及び方法
KR20120131678A (ko) * 2011-05-26 2012-12-05 주식회사 이노테라피 클라우드 컴퓨팅 네트워크 기반의 프로테오믹스 서비스 제공 시스템 및 그에 의한 서비스 제공방법
KR20130027948A (ko) * 2011-09-08 2013-03-18 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
KR20130027949A (ko) * 2011-09-08 2013-03-18 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
WO2013035904A1 (ko) * 2011-09-08 2013-03-14 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
CN105096225A (zh) * 2014-05-13 2015-11-25 深圳华大基因研究院 辅助疾病诊疗的分析系统、装置及方法
US10305758B1 (en) * 2014-10-09 2019-05-28 Splunk Inc. Service monitoring interface reflecting by-service mode
WO2018006022A1 (en) * 2016-07-01 2018-01-04 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN106405131A (zh) * 2016-08-24 2017-02-15 冯晓均 一种细胞与蛋白质联合分析装置及其分析方法
CN106709030A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 数据源管理功能的开发方法及系统
WO2020018819A1 (en) * 2018-07-18 2020-01-23 Nvidia Corporation Virtualized computing platform for inferencing, advanced processing, and machine learning applications
CN109376015A (zh) * 2018-10-23 2019-02-22 苏州思必驰信息科技有限公司 用于任务调度系统的日志阻塞解决方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Firmiana: towards a one-stop proteomic cloud platform for data processing and analysis;Jinwen Feng 等;《Nature Biotechnology》;第409-410页 *

Also Published As

Publication number Publication date
CN113674798A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN109241141B (zh) 深度学习的训练数据处理方法和装置
CN108259553B (zh) 业务邮件的发送方法及终端设备
CN111835582B (zh) 物联网巡检设备的配置方法、装置、计算机设备
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
CA2948700A1 (en) Systems and methods for websphere mq performance metrics analysis
CN106104498B (zh) 信息处理系统、数据处理控制方法、程序和记录介质
KR102254653B1 (ko) 레거시 서비스를 이용한 데이터 라벨링 시스템 및 방법
CN103995735A (zh) 用于调度工作流作业的设备和方法
JP6094593B2 (ja) 情報システム構築装置、情報システム構築方法および情報システム構築プログラム
CN107704357B (zh) 日志生成方法和装置
CN117608825A (zh) 基于多云管理平台的资源管理方法和相关设备
WO2020172569A1 (en) Method, apparatus, and computer-readable medium for maintaining visual consistency
CN115686280A (zh) 深度学习模型管理系统、方法、计算机设备及存储介质
US20060195350A1 (en) Design review, progress check information transmission method and apparatus
CN116911805B (zh) 资源告警方法、装置、电子设备和计算机可读介质
CN116777297B (zh) 基于idc设备监测数据的机房评价指标配置方法和系统
CN113674798B (zh) 蛋白质组学数据的分析系统
KR100835905B1 (ko) 웹사이트 방문자의 웹페이지 내부 클릭분포를 시각화하는장치 및 그를 이용하여 시각화하는 방법
CN106992901B (zh) 用于资源调度模拟压力的方法和设备
CN114610597A (zh) 一种压力测试方法、装置、设备及存储介质
CN109597702B (zh) 消息总线异常的根因分析方法、装置、设备及存储介质
CN113672497B (zh) 无埋点事件的生成方法、装置、设备及存储介质
CN109033196A (zh) 一种分布式数据调度系统及方法
CN112070391A (zh) 车间生产任务管理系统、方法和装置
US20200210245A1 (en) Method and device for aiding decision-making for the allocation of computing means on a high performance computing infrastructure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant