CN105468451A - 一种基于高通量测序数据的计算机集群的作业调度系统 - Google Patents

一种基于高通量测序数据的计算机集群的作业调度系统 Download PDF

Info

Publication number
CN105468451A
CN105468451A CN201410409376.8A CN201410409376A CN105468451A CN 105468451 A CN105468451 A CN 105468451A CN 201410409376 A CN201410409376 A CN 201410409376A CN 105468451 A CN105468451 A CN 105468451A
Authority
CN
China
Prior art keywords
task
data
node
scheduling system
job scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410409376.8A
Other languages
English (en)
Inventor
赵琛
郁颖
庆涛
石乐明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201410409376.8A priority Critical patent/CN105468451A/zh
Publication of CN105468451A publication Critical patent/CN105468451A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Devices For Executing Special Programs (AREA)

Abstract

本发明属计算机领域,涉及一种基于高通量测序数据的计算机集群的作业调度系统。具体涉及针对高通量组学数据的数据密集性计算的集群作业调度系统。本发明中包括:搭建独立的消息与储存网络构架;指定分析软件与输入数据;通过文件系统自动生成指定的分析作业任务;通过消息传递侦听集群计算结点负载状态,向结点布署批量任务;在计算结点里,通过进程通迅侦听任务状态,根据指定负载要求控制任务量,并最终完成批量任务。该作业调度系统与现有技术相比,可以实现以大数据文件为主要输入的高通量组学数据分析的任务自动化,减少结点间的消息通迅,并形成对数据密集型任务的多层次负载平衡,充分利用高速网络资源进行数据传输。

Description

一种基于高通量测序数据的计算机集群的作业调度系统
技术领域
本发明属计算机领域,涉及一种基于高通量测序数据的计算机集群的作业调度系统。具体的说是针对高通量组学数据的数据密集性计算的集群作业调度系统。
背景技术
随着高通量组学技术在生物、健康和医学领域的广泛应用,大量存储在文件系统中的组学数据文件急需数据密集型计算集群进行高效分效,而目前的高性能计算集群,以浮点计算能力为主要指标,其高速网络资源主要分配给消息通迅;此外,组学数据分析涉及大量算法、软件和数据类型,而无法全面实现针对集群的并行化。
基于此,本申请的发明人拟针对组学数据分析的急需现状提供一个可以兼容不同软件和数据类型的可自动处理大规模组学数据的数据密集型作业调度系统。
发明内容
本发明的技术目的是解决现有技术的不足,针对高通量测序数据分析,为其数据密集型计算提供作业调度方法。具体涉及一种基于高通量测序数据的计算机集群的作业调度系统。
本发明的作业调度系统中包括如下调度过程:搭建独立的消息与储存网络构架;指定分析软件与输入数据;通过文件系统自动生成指定的分析作业任务;通过消息传递侦听集群计算结点负载状态,向结点布署批量任务;在计算结点里,通过进程通迅侦听任务状态,根据指定负载要求控制任务量,并最终完成批量任务。该作业调度系统与现有技术相比,可以实现以大数据文件为主要输入的高通量组学数据分析的任务自动化,减少结点间的消息通迅,并形成对数据密集型任务的多层次负载平衡,充分利用高速网络资源进行数据传输。
具体的,本发明所述的调度系统由两个部分组成:1)搭建消息与储存网络相互独立的计算机集群;布署管理、存储与计算结点;其中存储访问通过一个或多个高速网络实现;2)作业调度包括任务生成和负载均衡两个部分,其中批量任务由数据分析软件命令模板和数据文件类型自动生成,而负载均衡通过结点间均衡和结点内均衡的两层控制实现。
本发明中,所述部分1)中通过下述步骤和过程实现:
㈠,在集群中布署独立的管理结点、计算结点和存储结点,保证计算和存储资源分离;
㈡,在集群中布署独立的消息通迅网络和存储传输网络,存储传输网络必须使用一组及或多组高速网络设备,确促消息与存储传输的设备独立。
本发明中,所述部分2)中通过下述步骤和过程实现:
㈠,用户登录作业提交管理结点,建立分析软件的命令模板,指定待分析的文件目录和文件类型,产生批量作业任务;
㈡,用户通过MPICH2建立所有批量作用任务的任务队列消息;
㈢,MPICH2同时侦听计算资源的存储和计算负载,向计算结点分配批量任务;
㈣,计算结点通过Pythonthreading逐个运行分配的批量任务,侦听负载性情况,并产生并发的任务数;
㈤,结点分配的批量任务完成;返回消息(二)中产生的任务队列,获取新的任务直到所有任务完成。
更具体的,本发明的基于高通量测序数据的计算机集群的作业调度系统,其特征在于,其包括:
1)搭建计算机集群构架,包括管理结点、计算结点和存储结点;集群通迅由两个以上独立网络,包括一个消息通迅的以太网络和一个以上存储高速网络;
2)指定分析任务程序和数据文件形式,自动生成批量分析作业任务;
3)通过消息传递侦听集群计算结点负载状态,对低负载结点布署批量任务;
4)在计算结点里,通过进程通迅侦听任务状态,根据指定负载要求控制任务量,并最终完成批量任务。
本发明提供了一种基于计算机集群作业调度系统调度的方法,其特征在于,其包括,通过下述步骤和过程实现上述1)的任务:
(1)、布署一台管理服务器,管理集群的作业提交,计算和存储资源分配;
(2)、管理服务器同时管理和分离消息通迅和存储服务网络,保证任务负载管理与存储系统独立,资源管理不受数据传输压力影响;
以及,通过下述步骤和过程实现上述2)的任务;
(3)、指定高通量数据分析的软件与执行方式;
(4)、指定待分析文件形式,自动形成批量作业任务;
(5)、统计计算量和资源比例;
以及,通过下述步骤和过程实现上述3)的任务;
(6)、基于MPICH2建立基于MPI消息通迅和任务队列,并分析结点负载;
(7)、通过MPI消息对低负载结点布署批量任务;
以及,通过下述步骤和过程实现上述4)的任务;
(8)、基于PythonThreading建立MPI消息任务队列的任务的子线性;
(9)、通过系统管道分析负载情况,通过Threading控制结点内批量任务并发量;
(10)、完成单次批量任务完成报告,返回MPI消息,返回负载情况,等待新任务。
本发明的优点在于:
一、通过布署消息通迅和数据传输网络,将有限的高速网络资源集中用于数据传输;
二、通过对消息通迅和数据传输的硬件分离限制,确保通过基于消息通迅的调度系统不会因大量数据传输而延迟或中断;
三、通过在集群和计算结点两个层次进行负载控制,减少通迅量,使非高速网络同样可以满足消息通迅要求;
四、基于节点的负载监听可以产生批量的任务完成报告,有效控制不同任务的数据量和数据复杂性差异;
五、该系统以模板形式和文件为输入产生批量任务,可用于完成高通量组学数据自动化分析。
附图说明
图1示出本发明设计的简化计算机集群构架。
图2示出本发明设计的调度系统工作流框架。
图3示出本发明设计的自动分析作业生成程序。
图4示出本发明设计的结点内任务调度程序。
图5示出本发明设计的集群内任务调度程序。
具体实施方式
下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明,但并不意味着本发明仅限于此。
实施例1
本发明提供的数据密集型计算集群调度系统包括下述步骤:
如图1所示配置集群:
一、搭建计算机集群构架,包括管理结点、计算结点和存储结点,保证计算和存储资源分离;
二、在集群中布署独立的消息通迅网络和存储传输网络,存储传输网络必须使用一组及或多组高速网络设备;确促消息与存储传输的设备独立;
如图2所示完成调度系统的调度流程:
三、用户登录作业提交管理结点,建立分析软件的命令模板,指定待分析的文件目录和文件类型,产生所有作业任务;如图3run_analysis.sh中变量cmd所示;
四、用户通过MPICH2程序,如图4runscripts,建立作业任务队列,并管理结点间的任务调度;runscripts在集群中可通过常用集群作业系统运行,提交作业任务;如天河的yhrun,slurm的srun或SGE的qsub等;
五、计算结点中,应用Python子线程管理,如图5runscripts.py程序,通过runscripts调用并接受任务队列信息,侦听负载性情况,并产生并发的任务数;
六、计算结点中runscirpts.py将作业完成情况返回任务调度管理程序,并申请新的任务,直至所有作业完成。
应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于高通量测序数据的计算机集群的作业调度系统,其特征在于,其包括:
1)搭建计算机集群构架,包括管理结点、计算结点和存储结点;集群通迅由两个以上独立网络,包括一个消息通迅的以太网络和一个以上存储高速网络;
2)指定分析任务程序和数据文件形式,自动生成批量分析作业任务;
3)通过消息传递侦听集群计算结点负载状态,对低负载结点布署批量任务;
4)在计算结点里,通过进程通迅侦听任务状态,根据指定负载要求控制任务量,并最终完成批量任务。
2.一种基于权利要求1的作业调度系统调度的方法,其特征在于,其包括步骤:
(1)、布署一台管理服务器,管理集群的作业提交,计算和存储资源分配;
(2)、管理服务器同时管理和分离消息通迅和存储服务网络,保证任务负载管理与存储系统独立,资源管理不受数据传输压力影响。
3.一种基于权利要求1或2的作业调度系统调度的方法,其特征在于,其还包括步骤:
(3)、指定高通量数据分析的软件与执行方式;
(4)、指定待分析文件形式,自动形成批量作业任务;
(5)、统计计算量和资源比例。
4.一种基于权利要求1或2或3的作业调度系统调度的方法,其特征在于,其还包括步骤:
(6)、基于MPICH2建立基于MPI消息通迅和任务队列,并分析结点负载;
(7)、通过MPI消息对低负载结点布署批量任务。
5.一种基于权利要求1或2或3或4的作业调度系统调度的方法,其特征在于,其还包括步骤:
(8)、基于PythonThreading建立MPI消息任务队列的任务的子线性;
(9)、通过系统管道分析负载情况,通过Threading控制结点内批量任务并发量;
(10)、完成单次批量任务完成报告,返回MPI消息,返回负载情况,等待新任务。
CN201410409376.8A 2014-08-19 2014-08-19 一种基于高通量测序数据的计算机集群的作业调度系统 Pending CN105468451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410409376.8A CN105468451A (zh) 2014-08-19 2014-08-19 一种基于高通量测序数据的计算机集群的作业调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410409376.8A CN105468451A (zh) 2014-08-19 2014-08-19 一种基于高通量测序数据的计算机集群的作业调度系统

Publications (1)

Publication Number Publication Date
CN105468451A true CN105468451A (zh) 2016-04-06

Family

ID=55606186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410409376.8A Pending CN105468451A (zh) 2014-08-19 2014-08-19 一种基于高通量测序数据的计算机集群的作业调度系统

Country Status (1)

Country Link
CN (1) CN105468451A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445595A (zh) * 2020-11-26 2021-03-05 深圳晶泰科技有限公司 基于slurm计算平台的多任务提交系统
WO2022121387A1 (zh) * 2020-12-11 2022-06-16 北京锐安科技有限公司 数据存储方法、装置、服务器及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060060766A1 (en) * 2004-09-17 2006-03-23 Stephen Turner Apparatus and methods for optical analysis of molecules
CN102122252A (zh) * 2011-03-14 2011-07-13 华中科技大学 一种保证时间连续性的线程池设计方法
CN103019852A (zh) * 2012-11-14 2013-04-03 北京航空航天大学 一种适用于大规模集群的mpi并行程序负载问题三维可视化分析方法
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN103838985A (zh) * 2012-11-22 2014-06-04 中国科学院青岛生物能源与过程研究所 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060060766A1 (en) * 2004-09-17 2006-03-23 Stephen Turner Apparatus and methods for optical analysis of molecules
CN102122252A (zh) * 2011-03-14 2011-07-13 华中科技大学 一种保证时间连续性的线程池设计方法
CN103019852A (zh) * 2012-11-14 2013-04-03 北京航空航天大学 一种适用于大规模集群的mpi并行程序负载问题三维可视化分析方法
CN103838985A (zh) * 2012-11-22 2014-06-04 中国科学院青岛生物能源与过程研究所 基于多核cpu和gpgpu硬件的高通量测序数据质量控制系统
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445595A (zh) * 2020-11-26 2021-03-05 深圳晶泰科技有限公司 基于slurm计算平台的多任务提交系统
WO2022121387A1 (zh) * 2020-12-11 2022-06-16 北京锐安科技有限公司 数据存储方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
Zhang et al. Dynamic cloud task scheduling based on a two-stage strategy
CN109933306B (zh) 一种基于作业类型识别的自适应混合云计算框架生成方法
CN104331321B (zh) 基于禁忌搜索和负载均衡的云计算任务调度方法
Xu et al. Dynamic resource provisioning for workflow scheduling under uncertainty in edge computing environment
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及系统
CN114138486A (zh) 面向云边异构环境的容器化微服务编排方法、系统及介质
CN103488775A (zh) 一种用于大数据处理的计算系统及计算方法
CN102541640A (zh) 一种集群gpu资源调度系统和方法
CN106020934A (zh) 一种基于虚拟集群在线迁移的优化部署方法
CN104123182A (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
Wang et al. An energy saving based on task migration for mobile edge computing
Xu et al. Enhancing kubernetes automated scheduling with deep learning and reinforcement techniques for large-scale cloud computing optimization
CN105005503B (zh) 基于元胞自动机的云计算负载均衡任务调度方法
CN105450684A (zh) 云计算资源调度方法和系统
Wang et al. Task scheduling for MapReduce in heterogeneous networks
Wang et al. Dependency-aware network adaptive scheduling of data-intensive parallel jobs
Rodrigues et al. Network-aware container scheduling in multi-tenant data center
CN106027318A (zh) 一种基于云计算的虚拟机两级优化调度管理平台
CN107070965A (zh) 一种虚拟化容器资源下的多工作流资源供给方法
Chalack et al. Resource allocation in cloud environment using approaches based particle swarm optimization
Saravanan et al. Improving map reduce task scheduling and micro-partitioning mechanism for mobile cloud multimedia services
CN105468451A (zh) 一种基于高通量测序数据的计算机集群的作业调度系统
CN112506496B (zh) 晶上系统开发环境搭建方法及系统
Ding et al. Data locality-aware and QoS-aware dynamic cloud workflow scheduling in Hadoop for heterogeneous environment
Wu et al. Optimizing job completion time with fairness in large-scale data centers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406

WD01 Invention patent application deemed withdrawn after publication