CN113535326B - 一种基于高通量测序数据的计算流程调度系统 - Google Patents
一种基于高通量测序数据的计算流程调度系统 Download PDFInfo
- Publication number
- CN113535326B CN113535326B CN202110778384.XA CN202110778384A CN113535326B CN 113535326 B CN113535326 B CN 113535326B CN 202110778384 A CN202110778384 A CN 202110778384A CN 113535326 B CN113535326 B CN 113535326B
- Authority
- CN
- China
- Prior art keywords
- management
- app
- management module
- layer
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 38
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 20
- 238000007726 management method Methods 0.000 claims abstract description 95
- 238000004458 analytical method Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000013523 data management Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000009434 installation Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000004806 packaging method and process Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000005206 flow analysis Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 238000007619 statistical method Methods 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 5
- 239000000126 substance Substances 0.000 abstract description 3
- 238000011835 investigation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011981 development test Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
本发明实施例提供一种基于高通量测序数据的计算流程调度系统,采用微服务架构,整合多种计算资源、Cromwell调度引擎,实现分析任务的有效调度,并在此基础上与App规范以及为App分发复用而定制开发的App Store相结合,实现App的高效开发、测试、复用以及完成多组学数据的分析。通过Pipeline分析过程管理模块,将整个分析过程中涉及的参数和文件等通过版本控制工具,进行有效的管理,为后续项目溯源、Bug排查、数据分析复现等提供可靠的基础;极大简化了生物信息数据分析流程,实现了分析流程的可控,可复用,可溯源,应用场景较为广泛。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于高通量测序数据的计算流程调度系统。
背景技术
精准医学是将个体疾病的组学信息用于指导其诊断或治疗的医学。随着高通量测序技术的不断发展,在生命科学领域积累了大量组学数据,为精准医学提供了坚实的基础。
目前如全转录组测序、全外显子组测序、全基因组测序等高通量测序技术都有相应的标准分析流程。通常情况下,默认相同的数据使用相同的分析流程得到相同的计算结果。然而,事实并非如此,计算流程中存在的诸多问题如软件版本号、配置环境等不同均会导致计算结果的不可重复。计算结果的不可重复对精准医学的发展和应用造成严重影响。
发明内容
本发明实施例提供一种基于高通量测序数据的计算流程调度系统,将计算流程统一管理,并解决计算结果不可重复这一问题。
第一方面,本发明实施例提供一种基于高通量测序数据的计算流程调度系统,包括计算层、调度层、管理层和应用层;
所述计算层用于创建、管理目标项目所需的容器引擎、管理工具和存储库;
所述调度层用于基于计算流程定义语言WDL的语言解析与任务调度引擎;
所述管理层用于管理计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块;
所述应用层用于面向用户使用的操作界面与命令行。
作为优选的,所述计算层包括Docker容器、软件包管理工具以及Docker镜像仓库;
所述Docker容器用于将目标项目所需部分打包,并发布为Docker镜像;其中目标项目所需部分包括分析软件、软件依赖、系统设置与系统库;
所述软件包管理工具用于追踪计算环境中使用的不同软件包及其版本,自动分析待安装软件的依赖关系,将所有软件依赖的库等安装到独立的目录环境;
所述Docker镜像仓库用于存储所述Docker容器发布的Docker镜像。
作为优选的,所述Docker镜像仓库中的Docker镜像可被用户查看,并用于复现镜像制作打包的环境。
作为优选的,所述计算流程定义语言为预先制定的用于生物信息流程分析的定制语言。
作为优选的,所述任务调度引擎连接所述管理层和所述计算层,进行目标项目相关业务流程的推进和过程监控,并对流程步骤的按时完成情况进行统计分析。
作为优选的,所述计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块均为计算流程封装成的应用程序App;所述管理层还构建有App Store进行应用程序管理,以实现计算流程版本控制和复用。
作为优选的,所述管理层中的操作界面由web管理系统实现。
作为优选的,所述管理层中的命令行基于开发的命令行管理工具实现。
作为优选的,所述web管理系统包括API Driver,所述API Driver为调用Pipeline分析系统、数据管理系统、报告系统的驱动程序层。
作为优选的,所述命令行管理工具包括单一工作流管理模块、应用程序管理模块、对象存储模块和项目管理模块;
所述单一工作流管理模块,用于提供Pipeline的测试、Workflow/Job的监控、通知、验证与启停功能;
所述应用程序管理模块,用于提供App的安装、测试、生成App模板、查询App帮助文档、批量管理Workflow/Job功能;
所述对象存储模块,用于提供文件上传、下载等数据管理功能;
所述项目管理模块,用于进行项目相关计算流程历史记录的版本控制、溯源、备份。
本发明实施例提供的一种基于高通量测序数据的计算流程调度系统,采用微服务架构,整合多种计算资源、Cromwell调度引擎,实现分析任务的有效调度,并在此基础上与App规范以及为App分发复用而定制开发的App Store相结合,实现App的高效开发、测试、复用以及完成多组学数据的分析。通过Pipeline分析过程管理模块,将整个分析过程中涉及的参数和文件等通过版本控制工具,进行有效的管理,为后续项目溯源、Bug排查、数据分析复现等提供可靠的基础;极大简化了生物信息数据分析流程,实现了分析流程的可控,可复用,可溯源,应用场景较为广泛。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明计算流程调度系统示意图。
图2为本发明任务调度引擎示意图。
图3为本发明App目录结构规范示意图。
图4为本发明一个实施例的RNA分析流程图。
图5为本发明WEB图形化用户界面示意图。
图6为本发明一个实施例的RNA分析的基本信息界面示意图。
图7为本发明一个实施例的RNA分析的参数信息界面示意图。
图8是本发明一个实施例的RNA分析的提交界面示意图。
图9是本发明一个实施例的RNA分析的项目管理界面示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元,而是可选地还包括没有列出的部件或单元,或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
目前如全转录组测序、全外显子组测序、全基因组测序等高通量测序技术都有相应的标准分析流程。通常情况下,默认相同的数据使用相同的分析流程得到相同的计算结果。然而,事实并非如此,计算流程中存在的诸多问题如软件版本号、配置环境等不同均会导致计算结果的不可重复。计算结果的不可重复对精准医学的发展和应用造成严重影响。
基于此,本申请实施例拟对高通量多组学数据的计算流程提供一个调度系统,将计算流程统一管理,并解决计算结果不可重复这一问题。以下将通过多个实施例进行展开说明和介绍。
图1为本发明实施例提供种基于高通量测序数据的计算流程调度系统,包括计算层、调度层、管理层和应用层;
所述计算层用于创建、管理目标项目所需的容器引擎、管理工具和存储库;
所述计算层包括Docker容器、软件包管理工具以及Docker镜像仓库;
所述Docker容器用于将目标项目所需部分打包,并发布为Docker镜像;其中目标项目所需部分包括分析软件、软件依赖、系统设置与系统库;
所述软件包管理工具用于追踪计算环境中使用的不同软件包及其版本,自动分析待安装软件的依赖关系,将所有软件依赖的库等安装到独立的目录环境;
所述Docker镜像仓库用于存储所述Docker容器发布的Docker镜像。
计算层使用Conda软件包管理工具快速安装部署分析软件及软件依赖,并追踪计算环境中使用的不同软件包及其版本;使用Docker容器技术将所需的分析软件、软件依赖、系统库等打包成Docker镜像,实现计算环境的有效管理。
具体的,通过Dockerfile自动构建Docker镜像并发布至镜像仓库;
使用.dockerignore文件记录不需要添加至镜像中的文件,从而避免将非必要文件添加至镜像,减少镜像大小,并且一个镜像只包含一个软件及其相关的必要的依赖;
使用软件名以及对应的版本号来标识镜像,不推荐使用latest;
设置最小环境变量集合,如在镜像构建中,将软件可执行文件所在路径添加至PATH变量,避免每次调用软件时指定绝对路径,避免Pipeline不可复用;
设置最小元数据集合,如基础镜像名、镜像版本、软件名与版本、软件简介、软件官网、文档链接、标签等,便于使用Docker镜像的用户能够基于元数据获取更多关于软件的信息,提高镜像溯源与复用能力;
指定合理的工作路径。
所述调度层用于基于计算流程定义语言WDL的语言解析与任务调度引擎;
如图2所示;调度层基于任务调度引擎Cromwell的RESTful(ResourceRepresentational State Transfer)接口开发Clojure版本的软件开发工具包(SoftwareDevelopment Kit);使用软件开发工具包开发Web图形界面版的Pipeline(计算流程)分析系统,并支持WDL(Workflow Definition Language)语言规范,实现多平台的任务调度。
所述管理层用于管理计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块;所述计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块均为计算流程封装成的应用程序App;所述管理层还构建有App Store进行应用程序管理,以实现计算流程版本控制和复用。
具体而言,规定WDL撰写和文件命名规范,结合模板语言将多组学数据计算流程封装成App并进行校验和版本控制。App的目录结构如图3所示。
构建App Store并集成完成封装的App,简化开发流程,并保证计算流程的可复用。
用户通过简单的安装或卸载命令,完成指定版本App的安装和卸载。在使用某一App分析数据时,系统将用户的所有输入通过模块渲染技术固化,并保存实际运行的脚本、参数、数据版本等信息,实现计算的可重复性和可溯源性。
所述应用层用于面向用户使用的操作界面与命令行。
作为优选的,所述管理层中的操作界面由web管理系统实现。
作为优选的,所述管理层中的命令行基于开发的命令行管理工具实现。
作为优选的,所述web管理系统包括API Driver,所述API Driver为调用Pipeline分析系统、数据管理系统、报告系统的驱动程序层。
作为优选的,所述命令行管理工具包括单一工作流管理模块、应用程序管理模块、对象存储模块和项目管理模块;
所述单一工作流管理(Single Workflow Management)模块,用于提供Pipeline的测试、Workflow/Job的监控、通知、验证与启停功能;
所述应用程序管理(App Management)模块,用于提供App的安装、测试、生成App模板、查询App帮助文档、批量管理Workflow/Job功能;基于计算流程的Web管理系统,以项目的方式组织管理组学数据分析关联的App、Job实例、报告等。
所述对象存储模块(OSS Management),用于提供文件上传、下载等数据管理功能;
所述项目管理模块(Project Management),用于进行项目相关计算流程(Pipeline)历史记录的版本控制、溯源、备份。基于计算流程的命令行工具,其主要功能包括计算流程的测试,Workflow的监控、通知、管理,文件的上传和下载,以及计算流程历史记录的版本控制、溯源、备份等。
操作界面是由Web管理系统实现。
Web管理系统由一组相互关联的模块组成,包括API Driver(调用Pipeline分析系统、数据管理系统、报告系统等系统API组成的驱动程序层),基于RESTful的管理接口、数据服务器等。整套系统后端采用Clojure编程语言与PostgreSQL数据库系统构建而成。Web管理系统前端基于Vue Framework(https://reactjs.org/)、Antdv(https://www.antdv.com/)、Electron(https://www.electronjs.org/)等开发。采用前端组件化技术,实现前端不同功能的封装与复用,减少冗余,同时实现功能与业务的解耦合。
本实施例为对应上述计算流程调度系统进行RNA分析的实施例。
本实施例RNA标准分析包括:原始文件的比对,组装,计算表达量等,并在原始文件比对前和比对后进行质量控制(如图4所示)。在WEB图形化用户界面如图5所示。本计算流程调度系统可以根据用户请求设置相应参数,并点击提交,进行分析。并对分析过程实时监控。
下面以一具体实施例来说明本发明,但不限定本发明的保护范围。
如图6所示,本发明的一个实施例使用RNA相关App进行分析,所需填写的基本信息界面示意图。如图7所示,本发明一个实施例的RNA分析具体参数选项界面示意图。如图8所示,本发明一个实施例的RNA分析的参数确认选项并提交的界面示意图。如图9所示,本发明一个实施例的RNA分析的项目管理界面示意图。
如图6-9所示,具体选项包括:
Project Name:项目名称,项目名称不能与之前项目重复。
Description:项目的描述信息。
Stated Time:项目开始运行时的时间。
Group:App的所属的群组。
Choppy App:App的名称,选择具体的App,本实施例选择的是RNA分析流程。
Sample ID:该项目运行样本数。
Read1 Files:原始Read1文件的导入,数据必须是fastaq格式。
Read2 Files:原始Read2文件的导入,数据必须是fastaq格式。
FastqScreen Conf File:分析过程中使用的FastqScreen软件的配置文件。
References of Fastq Screen:参考文件。
Index Diretory:Index文件。
参数确认后,点击提交,提交到云平台上开始运行。并通过项目管理模块,实时监控项目运行的情况。
本发明的计算流程调度系统根据分析需求以及指定的分析数据进行分析。并在分析结果基础上对分析分析全流程进行管理。极大的提高了处理效率。
综上所述,本发明实施例提供的一种基于高通量测序数据的计算流程调度系统,优点和创新点在于:
(一)支持标准化计算流程描述语言。计算流程定义方式众多,有脚本语言类、配置文件类、专有语言类等,本发明自定义了一种模板语言用于APP开发,可以接收用户输入并将定义的APP转换成调度引擎可识别的DAG流程,有助于Pipeline的共享和复用;
(二)开发者友好。提供了多种App开发测试模式:语法检查模式帮助确定撰写的App是否符合语法规范;DryRun模式帮助确定App是否依据参数输入文件并生成正确的Pipeline;Test模式通过使用示例数据帮助测试App是否正确运行并生成预期结果文件;Batch模式帮助批量运行实际数据,测试App的稳定性和可靠性;
(三)用户友好。提供了多种用户操作界面,可以在各种系统环境下使用。支持以App的形式复用Pipeline,无需关注Pipeline实现细节,大大简化Pipeline的操作。
(四)强大的互操作能力。提供了丰富的API和Metadata,有助于实现系统间互操作。
(五)社区共享模式。支持将App发布至App store、Github等,有利于Pipeline的分享和复用。
本发明的各实施方式可以任意进行组合,以实现不同的技术效果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于高通量测序数据的计算流程调度系统,其特征在于,包括计算层、调度层、管理层和应用层;
所述计算层用于创建、管理目标项目所需的容器引擎、管理工具和存储库;
所述调度层用于基于计算流程定义语言WDL的语言解析与任务调度引擎;
所述管理层用于管理计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块;
所述应用层用于面向用户使用的操作界面与命令行;
所述任务调度引擎连接所述管理层和所述计算层,进行目标项目相关业务流程的推进和过程监控,并对流程步骤的按时完成情况进行统计分析;所述计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块均为计算流程封装成的应用程序App;
具体地,确定WDL撰写和文件命名规范,结合模板语言将多组学数据计算流程封装成App并进行校验和版本控制;构建App Store并集成完成封装的App,保证计算流程的可复用;通过简单的安装或卸载命令,完成指定版本App的安装和卸载;在使用App分析数据时,系统将所有输入通过模块渲染技术固化,并保存实际运行的脚本、参数、数据版本信息,实现计算的可重复性和可溯源性。
2.根据权利要求1所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述计算层包括Docker容器、软件包管理工具以及Docker镜像仓库;
所述Docker容器用于将目标项目所需部分打包,并发布为Docker镜像;其中目标项目所需部分包括分析软件、软件依赖、系统设置与系统库;
所述软件包管理工具用于追踪计算环境中使用的不同软件包及其版本,自动分析待安装软件的依赖关系,将所有软件依赖的库安装到独立的目录环境;
所述Docker镜像仓库用于存储所述Docker容器发布的Docker镜像。
3.根据权利要求2所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述Docker镜像仓库中的Docker镜像可被用户查看,并用于复现镜像制作打包的环境。
4.根据权利要求1所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述计算流程定义语言为预先制定的用于生物信息流程分析的定制语言。
5.根据权利要求1所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述管理层中的操作界面由web管理系统实现。
6.根据权利要求1所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述管理层中的命令行基于开发的命令行管理工具实现。
7.根据权利要求5所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述web管理系统包括API Driver,所述API Driver为调用Pipeline分析系统、数据管理系统、报告系统的驱动程序层。
8.根据权利要求6所述的基于高通量测序数据的计算流程调度系统,其特征在于,所述命令行管理工具包括单一工作流管理模块、应用程序管理模块、对象存储模块和项目管理模块;
所述单一工作流管理模块,用于提供Pipeline的测试、Workflow/Job的监控、通知、验证与启停功能;
所述应用程序管理模块,用于提供App的安装、测试、生成App模板、查询App帮助文档、批量管理Workflow/Job功能;
所述对象存储模块,用于提供文件上传、下载数据管理功能;
所述项目管理模块,用于进行项目相关计算流程历史记录的版本控制、溯源、备份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110778384.XA CN113535326B (zh) | 2021-07-09 | 2021-07-09 | 一种基于高通量测序数据的计算流程调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110778384.XA CN113535326B (zh) | 2021-07-09 | 2021-07-09 | 一种基于高通量测序数据的计算流程调度系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535326A CN113535326A (zh) | 2021-10-22 |
CN113535326B true CN113535326B (zh) | 2024-04-12 |
Family
ID=78127295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110778384.XA Active CN113535326B (zh) | 2021-07-09 | 2021-07-09 | 一种基于高通量测序数据的计算流程调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535326B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565609B (zh) * | 2022-09-28 | 2023-07-07 | 北京博安智联科技有限公司 | 一种针对dna测序数据的自动分析方法 |
CN116306591B (zh) * | 2023-05-18 | 2023-10-03 | 深圳市东信时代信息技术有限公司 | 流程表单生成方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7559049B1 (en) * | 2003-12-08 | 2009-07-07 | Sprint Communications Company L.P. | Integrated advance scheduling of indeterminate projects in an integrated development process |
CN103246516A (zh) * | 2013-05-16 | 2013-08-14 | 中国科学院计算机网络信息中心 | 一种基于互联网的遥感数据分析工具的封装服务方法 |
KR20140102478A (ko) * | 2013-02-14 | 2014-08-22 | 한국전자통신연구원 | 워크플로우 작업 스케줄링 장치 및 그 방법 |
CN105447643A (zh) * | 2015-11-30 | 2016-03-30 | 北京航空航天大学 | 一种面向云计算平台的科学工作流系统及方法 |
CN106022007A (zh) * | 2016-06-14 | 2016-10-12 | 中国科学院北京基因组研究所 | 面向生物组学大数据计算的云平台系统及方法 |
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台系统 |
CN110795219A (zh) * | 2019-10-24 | 2020-02-14 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 适用于多种计算框架的资源调度方法及系统 |
CN110968303A (zh) * | 2019-11-29 | 2020-04-07 | 苏州迈高材料基因技术有限公司 | 材料计算和材料数据挖掘的交互式流程设计方法和系统 |
CN111027921A (zh) * | 2019-11-19 | 2020-04-17 | 山东中创软件商用中间件股份有限公司 | 一种业务处理方法、装置及电子设备和存储介质 |
CN111897622A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院计算机网络信息中心 | 基于容器技术的高通量计算方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7114146B2 (en) * | 2003-05-02 | 2006-09-26 | International Business Machines Corporation | System and method of dynamic service composition for business process outsourcing |
US10394552B2 (en) * | 2016-05-17 | 2019-08-27 | Dropbox, Inc. | Interface description language for application programming interfaces |
US10740094B2 (en) * | 2018-07-03 | 2020-08-11 | Servicenow, Inc. | Performance monitoring of system version releases |
-
2021
- 2021-07-09 CN CN202110778384.XA patent/CN113535326B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7559049B1 (en) * | 2003-12-08 | 2009-07-07 | Sprint Communications Company L.P. | Integrated advance scheduling of indeterminate projects in an integrated development process |
KR20140102478A (ko) * | 2013-02-14 | 2014-08-22 | 한국전자통신연구원 | 워크플로우 작업 스케줄링 장치 및 그 방법 |
CN103246516A (zh) * | 2013-05-16 | 2013-08-14 | 中国科学院计算机网络信息中心 | 一种基于互联网的遥感数据分析工具的封装服务方法 |
CN105447643A (zh) * | 2015-11-30 | 2016-03-30 | 北京航空航天大学 | 一种面向云计算平台的科学工作流系统及方法 |
CN106022007A (zh) * | 2016-06-14 | 2016-10-12 | 中国科学院北京基因组研究所 | 面向生物组学大数据计算的云平台系统及方法 |
CN108537008A (zh) * | 2018-03-20 | 2018-09-14 | 常州大学 | 高通量基因测序大数据分析云平台系统 |
CN110795219A (zh) * | 2019-10-24 | 2020-02-14 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 适用于多种计算框架的资源调度方法及系统 |
CN111027921A (zh) * | 2019-11-19 | 2020-04-17 | 山东中创软件商用中间件股份有限公司 | 一种业务处理方法、装置及电子设备和存储介质 |
CN110968303A (zh) * | 2019-11-29 | 2020-04-07 | 苏州迈高材料基因技术有限公司 | 材料计算和材料数据挖掘的交互式流程设计方法和系统 |
CN111897622A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院计算机网络信息中心 | 基于容器技术的高通量计算方法及系统 |
Non-Patent Citations (4)
Title |
---|
Current Progression: Application of High-Throughput Sequencing Technique in Space Microbiology;Yanwu Chen,et al.;Biomed Res Int;20200620;1-10 * |
Docker技术在生物信息学中的应用;佟凡;王小磊;李江域;屈武斌;赵东升;;军事医学(07);81-84 * |
中华家系1号DNA标准物质的研制与应用;任路瑶 等;2019中国化学会第十五届全国计算(机)化学学术会议;1-2 * |
浅谈数据分析模型管理与工作流管理技术的集成应用方向;刘玲玲;;信息通信(03);61-62 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535326A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766126B (zh) | 容器镜像的构建方法、系统、装置及存储介质 | |
US20200233660A1 (en) | Distributed parallel build system | |
US7840944B2 (en) | Analytical regression testing on a software build | |
CN113535326B (zh) | 一种基于高通量测序数据的计算流程调度系统 | |
US11667033B2 (en) | Systems and methods for robotic process automation | |
US8656346B2 (en) | Converting command units into workflow activities | |
Lampa et al. | SciPipe: A workflow library for agile development of complex and dynamic bioinformatics pipelines | |
US20070240102A1 (en) | Software development tool for sharing test and deployment assets | |
US20180113799A1 (en) | Model generation for model-based application testing | |
US11061739B2 (en) | Dynamic infrastructure management and processing | |
CN114879939A (zh) | 生成微服务的方法、系统、电子设备及存储介质 | |
US20170364390A1 (en) | Automating enablement state inputs to workflows in z/osmf | |
Zampetti et al. | Continuous integration and delivery practices for cyber-physical systems: An interview-based study | |
CN116595086B (zh) | 一种基于插件的空间数据服务实现方法和系统 | |
US20230067086A1 (en) | Transformation of cloud-based data science pods | |
Wannipurage et al. | A Framework to capture and reproduce the Absolute State of Jupyter Notebooks | |
CN115291928A (zh) | 多种技术栈的任务自动集成方法、装置及电子设备 | |
US20220188089A1 (en) | Framework for industrial analytics | |
CN114791884A (zh) | 测试环境的构建方法、装置、存储介质及电子设备 | |
Sochat et al. | The flux operator | |
Westbrook et al. | RepeatFS: a file system providing reproducibility through provenance and automation | |
CN113760307A (zh) | 获取应用代码的差异化覆盖率的方法和装置 | |
Deelman | Looking into the future of workflows: The challenges ahead | |
CN112363700A (zh) | 智能合约的协同创建方法、装置、计算机设备和存储介质 | |
CN116107665B (zh) | 工程项目配置方法、装置、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |