CN103297543A - 一种基于计算机集群作业调度的方法 - Google Patents

一种基于计算机集群作业调度的方法 Download PDF

Info

Publication number
CN103297543A
CN103297543A CN2013102508767A CN201310250876A CN103297543A CN 103297543 A CN103297543 A CN 103297543A CN 2013102508767 A CN2013102508767 A CN 2013102508767A CN 201310250876 A CN201310250876 A CN 201310250876A CN 103297543 A CN103297543 A CN 103297543A
Authority
CN
China
Prior art keywords
job scheduling
server
network
operation dispatching
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102508767A
Other languages
English (en)
Inventor
陈良华
孙玉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013102508767A priority Critical patent/CN103297543A/zh
Publication of CN103297543A publication Critical patent/CN103297543A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于计算机集群作业调度的方法,其具体调度过程如下:搭建计算机集群网络构架;计算网络采用高速网络,该网络中包括若干太计算节点服务器和存储节点设备;当主服务器宕掉后,探测到对方设备异常,自动启用作业调度从服务器,待切换完成后,在作业调度客户端服务器上,确认作业调度集群管理pbs及计算节点是否依旧正常工作,如果正常,则正常提交计算作业,并查看作业信息,且保持原有作业的完整性和一致性。该一种基于计算机集群作业调度的方法和现有技术相比,保证了作业调度系统的稳定性和数据一致性,从而保证HPC集群的稳定运行,实用性强,易于推广。

Description

一种基于计算机集群作业调度的方法
技术领域
本发明涉及计算机技术领域,具体的说是一种作业调度节点宕机时同样可以完成计算机集群作业调度的方法。
背景技术
目前在高性能计算集群中,绝大部分采用单台服务器做作业调度节点,进行计算作业的提交和分配。这样当作业调度节点宕机后,高性能计算集群将无法提交分配计算作业,进而形成计算资源的浪费,基于此,需要一种新型的计算机集群作业调度的方法。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于计算机集群作业调度的方法。
本发明的技术方案是按以下方式实现的,该一种基于计算机集群作业调度的方法,其具体调度过程如下:
1)搭建计算机集群网络构架,包括管理网络的搭建和计算网络的搭建,管理网络采用以太网做集群管理网络,该网络中包括两台作业调度服务器,即作业调度主服务器和从服务器;计算网络采用高速网络,该网络中包括若干太计算节点服务器和存储节点设备;
2)当主服务器宕掉后,探测到对方设备异常,自动启用作业调度从服务器,待切换完成后,在作业调度客户端服务器上,确认作业调度集群管理pbs及计算节点是否依旧正常工作,如果正常,则正常提交计算作业,并查看作业信息,且保持原有作业的完整性和一致性。
所述步骤1)的详细实现过程为:
一、部署两台作业调度服务器,对应后端计算节点服务器进行计算资源的分配;
二、两台作业调度服务器对应一个虚拟服务IP,作业调度客户端访问该虚拟ip对应的实际工作作业调度服务器;
三、两台作业调度服务器之间采用以太网进行互联;
四、两台作业调度服务器之间使用以太网心跳线互联,并监视对方服务器的虚拟IP资源、作业调度服务资源是否正常。
所述步骤2)的详细实现过程为:
一、当主作业调度服务器出现宕机后,从服务器检测到对方的服务资源异常,自动接管相关服务资源;
二、作业调度客户端登录虚拟ip,该虚拟ip自动指向实际工作的从作业调度服务器;
三、作业调度客户端使用正常,使用qstat命令查看现有的作业信息文件是否正常,使用qsub命令提交新的作业。
所述两台作业调度服务器分别使用自身磁盘存放作业调度信息数据,两台作业调度服务器之间可通过以太网进行数据镜像同步、可进行资源监控和切换。
所述两台作业调度服务器之间采用 drbd软件实现作业信息的数据同步。
所述两台作业调度服务器之间采用heartbeat软件进行资源监控和切换,通过千兆网络心跳线监测对方作业调度软件的健康状况。
本发明与现有技术相比所产生的有益效果是:
本发明的一种基于计算机集群作业调度的方法实现作业调度系统的高可用HA功能,保证高性能计算机群的可用性及稳定性,当需要针对作业调度服务器进行维护的时候,作业调度服务器也可以自动切换,保证了作业调度系统的稳定性和数据一致性,从而保证HPC集群的稳定运行,实用性强,易于推广。
附图说明
附图1是本发明的计算机集群网络构架图。
附图2是本发明的作业调度实现流程图。
具体实施方式
下面结合附图对本发明的一种基于计算机集群作业调度的方法作以下详细说明。
如图1、图2所示,一种基于计算机集群作业调度的方法,其具体调度过程如下:
1)搭建计算机集群网络构架,包括管理网络的搭建和计算网络的搭建,管理网络采用以太网做集群管理网络,该网络中包括两台作业调度服务器,即作业调度主服务器和从服务器;计算网络采用高速网络,该网络中包括若干太计算节点服务器和存储节点设备;
2)当主服务器宕掉后,探测到对方设备异常,自动启用作业调度从服务器,待切换完成后,在作业调度客户端服务器上,确认作业调度集群管理pbs及计算节点是否依旧正常工作,如果正常,则正常提交计算作业,并查看作业信息,且保持原有作业的完整性和一致性。
所述步骤1)的详细实现过程为:
一、部署两台作业调度服务器,对应后端计算节点服务器进行计算资源的分配;
二、两台作业调度服务器对应一个虚拟服务IP,作业调度客户端访问该虚拟ip对应的实际工作作业调度服务器;
三、两台作业调度服务器之间采用以太网进行互联;
四、两台作业调度服务器之间使用以太网心跳线互联,并监视对方服务器的虚拟IP资源、作业调度服务资源是否正常;
所述步骤2)的详细实现过程为:
一、当主作业调度服务器出现宕机后,从服务器检测到对方的服务资源异常,自动接管相关服务资源;
二、作业调度客户端登录虚拟ip,该虚拟ip自动指向实际工作的从作业调度服务器;
三、作业调度客户端使用正常,使用qstat命令查看现有的作业信息文件是否正常,使用qsub命令提交新的作业。
所述两台作业调度服务器分别使用自身磁盘存放作业调度信息数据,两台作业调度服务器之间可通过以太网进行数据镜像同步、可进行资源监控和切换。
所述两台作业调度服务器之间采用 drbd软件实现作业信息的数据同步。
所述两台作业调度服务器之间采用heartbeat软件进行资源监控和切换,通过千兆网络心跳线监测对方作业调度软件的健康状况。
实施例:
某研究所高性能计算集群,主要应用于基因分析计算。该所科研人员数量众多,对计算资源、集群稳定性和可靠性要求较高,每天约提交新作业200多个,该所计算节点资源能够满足计算需求;该所前期采用的是单个作业调度服务器,当该服务器宕机或进行维护的同时,新作业将无法提交,对科研人员的工作进度产生了很大的不利影响。
为解决客户问题,提升集群的稳定性和可靠性,针对现有集群进行重新的调整。
本发明的硬件架构如下:
在高性能计算集群中,包含2台作业调度服务器、N台计算节点服务器和存储节点设备。
采用以太网做集群管理网络,使用infiniband高速网络做计算网络。    
其中2台作业调度服务器分别使用自身磁盘存放作业调度信息数据,2台作业调度服务器之间使用drbd通过以太网进行数据镜像同步;使用heartbeat进行资源监控和切换;
操作系统:Redhat linux
文件系统:ext3文件系统
MDT同步工具:开源软件 drbd,通过以太网实现作业信息的数据实时同步
MDS自动切换工具:开源软件heartbeat,通过千兆网络心跳线监测对方作业调度软件的健康状况
具体实施步骤如下:
第一步:打破原有架构,部署两台作业调度服务器,对应后端计算节点服务器进行计算资源的分配;
第二步:两台作业调度服务器对应一个虚拟服务IP,作业调度客户端访问该虚拟ip对应的实际工作作业调度服务器;
第三步:两台作业调度服务器之间采用以太网进行互联,采用 drbd软件,实现两台作业调度服务器的作业信息的数据同步;
第四步:两台作业调度服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的虚拟IP资源、drbd资源和作业调度服务资源是否正常;
第五步:当主作业调度服务器出现宕机后,从服务器检测到对方的服务资源异常,自动接管相关服务资源;
第五步:作业调度客户端登录的是虚拟ip,该虚拟ip自动指向实际工作的从作业调度服务器;
第六步:作业调度客户端使用正常,可以使用qstat命令查看现有的作业信息文件是否正常,使用qsub命令提交新的作业。
经过以上调整后,作业调度服务稳定运行,当需要针对作业调度服务器进行维护的时候,作业调度服务器也可以自动切换,保证了作业调度系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。

Claims (6)

1.一种基于计算机集群作业调度的方法,其特征在于其具体调度过程如下:
1)搭建计算机集群网络构架,包括管理网络的搭建和计算网络的搭建,管理网络采用以太网做集群管理网络,该网络中包括两台作业调度服务器,即作业调度主服务器和从服务器;计算网络采用高速网络,该网络中包括若干太计算节点服务器和存储节点设备;
2)当主服务器宕掉后,探测到对方设备异常,自动启用作业调度从服务器,待切换完成后,在作业调度客户端服务器上,确认作业调度集群管理pbs及计算节点是否依旧正常工作,如果正常,则正常提交计算作业,并查看作业信息,且保持原有作业的完整性和一致性。
2.根据权利要求1所述的一种基于计算机集群作业调度的方法,其特征在于所述步骤1)的详细实现过程为:
一、部署两台作业调度服务器,对应后端计算节点服务器进行计算资源的分配;
二、两台作业调度服务器对应一个虚拟服务IP,作业调度客户端访问该虚拟ip对应的实际工作作业调度服务器;
三、两台作业调度服务器之间采用以太网进行互联;
四、两台作业调度服务器之间使用以太网心跳线互联,并监视对方服务器的虚拟IP资源、作业调度服务资源是否正常。
3.根据权利要求1或2所述的一种基于计算机集群作业调度的方法,其特征在于所述步骤2)的详细实现过程为:
一、当主作业调度服务器出现宕机后,从服务器检测到对方的服务资源异常,自动接管相关服务资源;
二、作业调度客户端登录虚拟ip,该虚拟ip自动指向实际工作的从作业调度服务器;
三、作业调度客户端使用正常,使用qstat命令查看现有的作业信息文件是否正常,使用qsub命令提交新的作业。
4.根据权利要求3所述的一种基于计算机集群作业调度的方法,其特征在于:所述两台作业调度服务器分别使用自身磁盘存放作业调度信息数据,两台作业调度服务器之间可通过以太网进行数据镜像同步、可进行资源监控和切换。
5.根据权利要求4所述的一种基于计算机集群作业调度的方法,其特征在于:所述两台作业调度服务器之间采用 drbd软件实现作业信息的数据同步。
6.根据权利要求4所述的一种基于计算机集群作业调度的方法,其特征在于:所述两台作业调度服务器之间采用heartbeat软件进行资源监控和切换,通过千兆网络心跳线监测对方作业调度软件的健康状况。
CN2013102508767A 2013-06-24 2013-06-24 一种基于计算机集群作业调度的方法 Pending CN103297543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102508767A CN103297543A (zh) 2013-06-24 2013-06-24 一种基于计算机集群作业调度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102508767A CN103297543A (zh) 2013-06-24 2013-06-24 一种基于计算机集群作业调度的方法

Publications (1)

Publication Number Publication Date
CN103297543A true CN103297543A (zh) 2013-09-11

Family

ID=49097846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102508767A Pending CN103297543A (zh) 2013-06-24 2013-06-24 一种基于计算机集群作业调度的方法

Country Status (1)

Country Link
CN (1) CN103297543A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713974A (zh) * 2014-01-07 2014-04-09 浪潮(北京)电子信息产业有限公司 一种高性能作业调度管理节点双机加固方法及设备
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104679907A (zh) * 2015-03-24 2015-06-03 新余兴邦信息产业有限公司 高可用高性能数据库集群的实现方法及系统
WO2015103764A1 (en) * 2014-01-10 2015-07-16 Hewlett-Packard Development Company, L.P. Monitoring an object to prevent an occurrence of an issue
CN105468451A (zh) * 2014-08-19 2016-04-06 复旦大学 一种基于高通量测序数据的计算机集群的作业调度系统
CN106096379A (zh) * 2016-06-29 2016-11-09 浪潮电子信息产业股份有限公司 一种计算节点的安全加固的方法及装置
CN106227635A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 基于web界面的HPC机群管理系统
CN107426021A (zh) * 2017-07-19 2017-12-01 北京锐安科技有限公司 冗余系统的构建方法、装置及冗余系统
CN107707413A (zh) * 2017-11-10 2018-02-16 郑州云海信息技术有限公司 一种集群容灾方法及装置
CN108880866A (zh) * 2018-05-31 2018-11-23 郑州云海信息技术有限公司 一种网络服务系统
CN108920260A (zh) * 2018-05-16 2018-11-30 成都淞幸科技有限责任公司 一种异构系统的交互方法及其装置
CN109471705A (zh) * 2017-09-08 2019-03-15 杭州海康威视数字技术股份有限公司 任务调度的方法、设备及系统、计算机设备
CN113721741A (zh) * 2021-08-26 2021-11-30 联泰集群(北京)科技有限责任公司 一种高性能计算集群平台散热的控制方法及系统
CN114745385A (zh) * 2022-04-12 2022-07-12 吉林大学 一种构建slurm调度并行计算集群的方法
CN116661979A (zh) * 2023-08-02 2023-08-29 之江实验室 异构作业调度系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
WO2012119310A1 (zh) * 2011-03-09 2012-09-13 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
CN103067296A (zh) * 2013-01-18 2013-04-24 浪潮电子信息产业股份有限公司 一种实现hpc集群登录节点负载均衡的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012119310A1 (zh) * 2011-03-09 2012-09-13 中国科学院计算机网络信息中心 在计算环境中汇聚队列信息及作业信息的方法
CN102629906A (zh) * 2012-03-30 2012-08-08 浪潮电子信息产业股份有限公司 一种将集群管理节点做双机实现提高集群业务可用性的设计办法
CN103067296A (zh) * 2013-01-18 2013-04-24 浪潮电子信息产业股份有限公司 一种实现hpc集群登录节点负载均衡的方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713974B (zh) * 2014-01-07 2016-02-17 浪潮(北京)电子信息产业有限公司 一种高性能作业调度管理节点双机加固方法及设备
CN103713974A (zh) * 2014-01-07 2014-04-09 浪潮(北京)电子信息产业有限公司 一种高性能作业调度管理节点双机加固方法及设备
WO2015103764A1 (en) * 2014-01-10 2015-07-16 Hewlett-Packard Development Company, L.P. Monitoring an object to prevent an occurrence of an issue
US10735246B2 (en) 2014-01-10 2020-08-04 Ent. Services Development Corporation Lp Monitoring an object to prevent an occurrence of an issue
CN105468451A (zh) * 2014-08-19 2016-04-06 复旦大学 一种基于高通量测序数据的计算机集群的作业调度系统
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104679907A (zh) * 2015-03-24 2015-06-03 新余兴邦信息产业有限公司 高可用高性能数据库集群的实现方法及系统
WO2016150050A1 (zh) * 2015-03-24 2016-09-29 新余兴邦信息产业有限公司 高可用高性能数据库集群的实现方法及系统
CN106096379A (zh) * 2016-06-29 2016-11-09 浪潮电子信息产业股份有限公司 一种计算节点的安全加固的方法及装置
CN106227635A (zh) * 2016-07-17 2016-12-14 合肥赑歌数据科技有限公司 基于web界面的HPC机群管理系统
CN107426021A (zh) * 2017-07-19 2017-12-01 北京锐安科技有限公司 冗余系统的构建方法、装置及冗余系统
CN109471705A (zh) * 2017-09-08 2019-03-15 杭州海康威视数字技术股份有限公司 任务调度的方法、设备及系统、计算机设备
CN107707413A (zh) * 2017-11-10 2018-02-16 郑州云海信息技术有限公司 一种集群容灾方法及装置
CN108920260A (zh) * 2018-05-16 2018-11-30 成都淞幸科技有限责任公司 一种异构系统的交互方法及其装置
CN108880866A (zh) * 2018-05-31 2018-11-23 郑州云海信息技术有限公司 一种网络服务系统
CN113721741A (zh) * 2021-08-26 2021-11-30 联泰集群(北京)科技有限责任公司 一种高性能计算集群平台散热的控制方法及系统
CN114745385A (zh) * 2022-04-12 2022-07-12 吉林大学 一种构建slurm调度并行计算集群的方法
CN114745385B (zh) * 2022-04-12 2023-05-30 吉林大学 一种构建slurm调度并行计算集群的方法
CN116661979A (zh) * 2023-08-02 2023-08-29 之江实验室 异构作业调度系统及方法
CN116661979B (zh) * 2023-08-02 2023-11-28 之江实验室 异构作业调度系统及方法

Similar Documents

Publication Publication Date Title
CN103297543A (zh) 一种基于计算机集群作业调度的方法
EP3014446B1 (en) Asynchronous message passing for large graph clustering
US11474874B2 (en) Systems and methods for auto-scaling a big data system
Peng et al. Hadoopwatch: A first step towards comprehensive traffic forecasting in cloud computing
CN105471622B (zh) 一种基于Galera的控制节点主备切换的高可用方法及系统
CN102685237B (zh) 一种集群环境下请求会话保持与调度的方法
CN103281359A (zh) 云桌面系统及运行方法
WO2013163865A1 (zh) 虚拟机热迁移和部署的方法、服务器及集群系统
CN105653398B (zh) 一种智能分配操作系统镜像方法
CN103516802A (zh) 一种实现跨异构虚拟交换机无缝迁移的方法和装置
CN105516292A (zh) 一种智能变电站云平台的热备方法
CN103095837A (zh) 一种实现lustre元数据服务器冗余的方法
CN104219288A (zh) 基于多线程的分布式数据同步方法及其系统
WO2017075989A1 (zh) 虚拟机迁移方法、装置及系统
CN103279386A (zh) 一种计算机作业调度系统高可用的方法
US9047126B2 (en) Continuous availability between sites at unlimited distances
CN106603696A (zh) 一种基于超融合基础框架的高可用系统
CN103561055A (zh) 基于会话的云计算环境下Web应用自动弹性扩展方法
CN204740299U (zh) 基于云计算的电能质量智能监测系统
AU2011312100A1 (en) Automatic selection of secondary backend computing devices for virtual machine image replication
CN106059940A (zh) 一种流量控制方法及装置
CN105207856A (zh) 一种基于sdn虚拟交换机的负载均衡的系统及方法
CN104484228A (zh) 基于Intelli-DSC的分布式并行任务处理系统
CN104320433A (zh) 数据处理方法和分布式数据处理系统
Nirmala Wan optimization tools, techniques and research issues for cloud-based big data analytics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130911