CN107040407B - 一种高性能计算集群动态节点作业方法 - Google Patents

一种高性能计算集群动态节点作业方法 Download PDF

Info

Publication number
CN107040407B
CN107040407B CN201710154402.0A CN201710154402A CN107040407B CN 107040407 B CN107040407 B CN 107040407B CN 201710154402 A CN201710154402 A CN 201710154402A CN 107040407 B CN107040407 B CN 107040407B
Authority
CN
China
Prior art keywords
node
network
nodes
computing
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710154402.0A
Other languages
English (en)
Other versions
CN107040407A (zh
Inventor
谢滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongxun Polytron Technologies Inc Innovation
Original Assignee
Chengdu Zhongxun Polytron Technologies Inc Innovation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongxun Polytron Technologies Inc Innovation filed Critical Chengdu Zhongxun Polytron Technologies Inc Innovation
Priority to CN201710154402.0A priority Critical patent/CN107040407B/zh
Publication of CN107040407A publication Critical patent/CN107040407A/zh
Application granted granted Critical
Publication of CN107040407B publication Critical patent/CN107040407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0889Techniques to speed-up the configuration process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0826Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network costs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0833Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network energy consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0836Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements

Abstract

本发明提供了一种高性能计算集群动态节点作业方法,其基于Infiniband网络提供统一的文件系统空间和无盘启动,基于以太网提供集群作业调度、开关机控制、系统监控等功能。通过上述方式,本发明能够提高高性能计算集群部署效率,降低故障率,简化作业提交,提高能源和资金利用率,提升使用效率和性能。

Description

一种高性能计算集群动态节点作业方法
技术领域
本发明涉及高性能计算技术领域,特别是涉及一种高性能计算集群动态节点作业方法。
背景技术
高性能计算(High performance computing,缩写HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。高性能计算在航空航天、材料、数学、生物、物理、化学、气象、环境、金融、媒体、电磁等多个行业具有较为广泛和重要的作用。当前高性能计算75%以上的系统都是通过X86服务器以Clustre架构进行构建,随着服务器节点的增多和对集群效率、实测计算峰值、能耗等各方面要求的提升,传统的高性能计算集群存在诸多瓶颈,需要广大科研人员和集群维护人员进行研究和探索。
通过基于Infiniband网络的无盘部署、标准化的作业提交流程和步骤、自动控制和调整计算节点开机数量可以实现:
A、节能,基于无盘部署,计算节点不需要配置硬盘,降低了集群的功率开销和故障点,通过动态调整计算节点开关机数量,避免了大量计算节点开机空转的情况,提高了能源的使用率;
B、性能,基于Infiniband网络的无盘部署,将系统镜像通过低延时的高速网络加载到各计算节点内存中,提升了计算节点开机速度,并且充分利用了RAM DISK的IOPS性能优势,极大提升计算任务在计算节点单机内部的收敛速率。
C、标准化,由于高性能计算涉及行业较多、范围较广、海量的专业软件,导致了传统用户在使用高性能计算集群时需要去针对具体的计算软件进行了解学习后才能上机使用。通过对作业流程的重构和标准化,将海量的专业软件的作业提交流程通过中间件固定为同样的步骤和流程,极大简化了上机操作步骤,让传统用户能快速的入手并将集群充分使用起来。
D、节约,最大程度减少不必要的软硬件投入(如计算节点硬盘、计算节点操作系统),提升资金使用率;
E、低故障率,传统高性能计算集群在每个计算节点上需要安装1块硬盘用于存放操作系统。机械硬盘价格便宜,使用年限久,但性能较差;固态硬盘性能较好,但成本太高,寿命太短。并且当集群意外断电时极易导致操作系统损坏。通过无盘部署,有效避免了由硬盘导致的故障,极大降低集群故障率。
F、高效率,传统高性能计算集群需要对所有的节点安装操作系统和配置环境变量才能工作,本申请所描述方式无需该环节,极大减少了集群部署时间,提升了集群部署的效率。
发明内容
本发明主要解决的技术问题是提供一种高性能计算集群动态节点作业方法,能够提高高性能计算集群部署效率,降低故障率,简化作业提交,提高能源和资金利用率,提升使用效率和性能。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:
步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;
步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;
步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;
步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;
步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;
步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;
步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;
步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。
优选地,管理网络N1为以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控等功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步等功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护等功能,登录节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构(如X86架构、MIPS架构、ARM架构、Power架构、Spark架构等),处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登录节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1一般为基于Infiniband的NFS服务器其包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。
优选地,系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID等唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录等。
所述计算节点的启动采用无盘启动方式,具体步骤包括:
步骤1:将C1(或Cn)开机,设置为默认PXE引导,PXE默认设备为主机通道适配器(HCA),采用FlexBoot模式;FlexBoot初始化HCA卡,检测端口协议及状态,以Infiniband方式启动端口,并以广播的方式发送DHCP客户端(Client)请求报文;
步骤2:管理节点M1的DHCP 服务器从Infiniband网络收到请求报文后,将C1的IP地址、TFTP服务器、网络引导启动镜像目录发送给C1;C1接收到M1发出的报文后,根据收到的报文启动Infiniband网络,并从M1的TFTP服务器中下载启动镜像目录并加载到内存中,所请求的镜像目录内包含默认的启动镜像名称J1、默认启动镜像镜像时间等信息,通过C1上选择启动J1或者超过默认时间后自动选择启动J1,并向M1发送请求J1的报文;
步骤3:M1收到C1请求J1的报文后,将J1通过TFTP服务器发送给C1;C1的FlexBoot接收完J1后,将J1放入内存进行加载;
步骤4:C1依次加载J1的内核、根文件系统、网络、配置文件等;C1在加载网络时广播DHCP Client的请求报文,M1的DHCP Server收到请求报文后再次将C1的IP地址发送给C1,C1收到IP地址报文后启动网络,并向M1请求主机名;M1的DNS Server收到C1请求主机名的报文后将C1的主机名发送给C1;C1网络启动完成后,首先加载挂载共享目录的配置文件,根据配置文件内容将S1通过Infiniband方式进行挂载;C1挂载完共享目录后,启动计算节点作业调度(pbs_mom),并将作业调度状态反馈给管理节点M1的作业调度(pbs_server),启动完成。
进一步的,所述作业中间件中提前录入已知的调用函数,针对已知的计算软件进行作业提交流程的重构和标准化,用户在提交作业时通过调用函数输入作业类型、参与计算节点数量、每个计算节点参与计算核心数量、输入文件(如果有)共计4个参数即可完成作业提交,避免了编写作业脚本的工作,极大简化上级操作步骤;
进一步的,计算机开机节点自动控制包括如下步骤:
步骤1:系统启动完成正常运行时,M1每60秒启动后台监控进程一次并检测启动时间,若未达到启动时间,则暂停60秒并重复步骤1;
步骤2:后台监控进程正常启动后,检查pbs_server是否有排队作业,若无排队作业并且处于工作状态的计算节点小于等于1时,则直接退出;若无排队作业并处于工作状态的节点大于1个,则通过管理网络N1和IPMI接口关闭开机但位处于空闲状态的空闲节点数量-1个节点,只保留空闲节点中节点名排名最前的1个空闲计算节点处于开机状态以备用;
步骤3:若检查到有排队作业情况时,则分析处于排队作业的原因:若为用户超额,则直接退出系统;若用户未超额,则排队原因为资源不足,执行下一步骤;
步骤4:在步骤3之后,检查关机节点数量。若关机节点为0,则提示节点用尽并退出系统;若关机节点大于等于1,则根据处于等待状态各中作业各节点需求量的大小从小到大进行排序,设定N为等待状态作业最小作业节点需求数量,F为当前空闲状态节点数量,G为关机节点数量。比较当前需要开机节点数量(N-F)和G-1。若N-F≤G-1,表示关机节点数量比需求节点数量大,则在管理网络N1中通过IPMI接口开启N-F+1个节点,并重新进行步骤2;若N-F≥G-1,表示关机节点数量不足,则在管理网络N1中通过IPMI接口开启所有关机节点并提示节点数用尽,然后退出系统。
区别于现有技术的情况,本发明的有益效果是:
1、节能:基于无盘部署,计算节点不在需要硬盘,降低了集群的功率开销和故障点。通过动态 调整计算节点开关机数量,避免了大量计算节点开机空转的情况,提高了能源的使用率。
2、性能:基于Infiniband网络的无盘部署,将系统镜像加载到各计算节点内存中,提升了计算节点开机速度,并且充分利用了RAM DISK的IOPS性能优势,极大提升计算任务在计算节点单机内部的收敛速率。
3、标准化:由于高性能计算涉及行业较多、范围较广、海量的专业软件,导致了传统用户在使用高性能计算集群时需要去针对具体的计算软件进行了解学习后才能上机使用。通过对作业流程的重构和标准化,将海量的专业软件的作业提交流程通过中间件固定为同样的步骤和流程,极大简化了上机操作步骤,让传统用户能快速的入手并将集群充分使用起来。
4、节约:最大程度减少不必要的硬件投入(如计算节点硬盘),提升资金使用率。
5、低故障率:传统高性能计算集群在每个计算节点上需要安装1块硬盘用于存放操作系统。机械硬盘价格便宜,使用年限久,但性能较差;固态硬盘性能较好,但成本太高,寿命太短。并且当集群意外断电时极易导致操作系统损坏。通过无盘部署,有效避免了由硬盘导致的故障,极大降低集群故障率。
6、高效率:传统高性能计算集群需要对所有的节点安装操作系统和配置环境变量才能工作,本申请所描述方式无需该环节,极大减少了集群部署时间,提升了集群部署的效率。
附图说明
图1是本发明实施例高性能计算集群系统拓扑图。
图2是本发明实施例动态节点控制流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1提供的一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:
步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;
步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;
步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;
步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;
步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;
步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;
步骤7:当C1到Cn完成计算后,释放物理内存、处理器等资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;
步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果等信息取回到N3中,在本地电脑上打开进行处理和分析。
优选地,管理网络N1为千兆以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控等功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步等功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护等功能,登录节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构(如X86架构、MIPS架构、ARM架构、Power架构、Spark架构等),处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登录节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1一般为基于Infiniband的NFS服务器其包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。
其中、系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID等唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录等。
具体的,所述计算节点的启动采用无盘启动方式,具体步骤包括:
步骤1:将C1(或Cn)开机,设置为默认PXE引导,PXE默认设备为主机通道适配器(HCA),采用FlexBoot模式;FlexBoot初始化HCA卡,检测端口协议及状态,以Infiniband方式启动端口,并以广播的方式发送DHCP客户端(Client)请求报文;
步骤2:管理节点M1的DHCP 服务器从Infiniband网络收到请求报文后,将C1的IP地址、TFTP服务器、网络引导启动镜像目录发送给C1;C1接收到M1发出的报文后,根据收到的报文启动Infiniband网络,并从M1的TFTP服务器中下载启动镜像目录并加载到内存中,所请求的镜像目录内包含默认的启动镜像名称J1、默认启动镜像镜像时间等信息,通过C1上选择启动J1或者超过默认时间后自动选择启动J1,并向M1发送请求J1的报文;
步骤3:M1收到C1请求J1的报文后,将J1通过TFTP服务器发送给C1;C1的FlexBoot接收完J1后,将J1放入内存进行加载;
步骤4:C1依次加载J1的内核、根文件系统、网络、配置文件等;C1在加载网络时广播DHCP Client的请求报文,M1的DHCP Server收到请求报文后再次将C1的IP地址发送给C1,C1收到IP地址报文后启动网络,并向M1请求主机名;M1的DNS Server收到C1请求主机名的报文后将C1的主机名发送给C1;C1网络启动完成后,首先加载挂载共享目录的配置文件,根据配置文件内容将S1通过Infiniband方式进行挂载;C1挂载完共享目录后,启动计算节点作业调度(pbs_mom),并将作业调度状态反馈给管理节点M1的作业调度(pbs_server),启动完成。
进一步的,所述作业中间件中提前录入已知的调用函数,针对已知的计算软件进行作业提交流程的重构和标准化,用户在提交作业时通过调用函数输入作业类型、参与计算节点数量、每个计算节点参与计算核心数量、输入文件(如果有)共计4个参数即可完成作业提交,避免了编写作业脚本的工作,极大简化上级操作步骤;
如图2所示,计算机开机节点自动控制包括如下步骤:
步骤1:系统启动完成正常运行时,M1每60秒启动后台监控进程一次并检测启动时间,若未达到启动时间,则暂停60秒并重复步骤1;
步骤2:后台监控进程正常启动后,检查pbs_server是否有排队作业,若无排队作业并且处于工作状态的计算节点小于等于1时,则直接退出;若无排队作业并处于工作状态的节点大于1个,则通过管理网络N1和IPMI接口关闭开机但处于空闲状态的空闲节点数量-1个节点,只保留空闲节点中节点名排名最前的1个空闲计算节点处于开机状态以备用;
步骤3:若检查到有排队作业情况时,则分析处于排队作业的原因:若为用户超额,则直接退出系统;若用户未超额,则排队原因为资源不足,执行下一步骤;
步骤4:在步骤3之后,检查关机节点数量。若关机节点为0,则提示节点用尽并退出系统;若关机节点大于等于1,则根据处于等待状态各中作业各节点需求量的大小从小到大进行排序,设定N为等待状态作业最小作业节点需求数量,F为当前空闲状态节点数量,G为关机节点数量。比较当前需要开机节点数量(N-F)和G-1。若N-F≤G-1,表示关机节点数量比需求节点数量大,则在管理网络N1中通过IPMI接口开启N-F+1个节点,并重新进行步骤2;若N-F≥G-1,表示关机节点数量不足,则在管理网络N1中通过IPMI接口开启所有关机节点并提示节点数用尽,然后退出系统。
通过上述方式,本发明实施例的高性能计算集群动态节点作业方法,提高高性能计算集群部署效率,降低故障率,简化作业提交,提高能源和资金利用率,提升使用效率和性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种高性能计算集群动态节点作业方法,其特征在于,包括如下步骤:
步骤1:配置服务器,包括管理网络N1、计算网络N2和用户网络N3,以及用户网络N3和管理网络N1之间的安全防护网络F1、登陆节点L1、管理节点M1、若干计算节点CN;所述登陆节点、管理节点、计算节点分别与管理网络和计算网络建立通信连接;所述登陆节点和管理节点通过计算网络挂载共享存储S1;
步骤2:在管理节点M1上安装并配置启动管理服务(Flexboot)、动态主机配置协议服务(DHCP)、文件传输协议服务(TFTP)、域名系统服务(DNS)、共享服务、认证服务以及作业调度,配置完成后启动计算节点;
步骤3:用户网络N3中的用户,经过安全防护网络F1以安全外壳协议SSH登录到登陆节点L1上,通过SSH将需要计算的算例上传至登陆节点L1上的共享存储S1;
步骤4:用户在登陆节点L1上通过作业调度中间件,指定作业参数完成作业脚本的生成并启动提交给M1的作业调度进行资源分配和计算;
步骤5:管理节点M1收到登陆节点L1上用户提交的作业脚本后,首先将作业脚本中的函数调用请求交给管理节点中的Maui.d进行资源配额检查,如果配额不足则报错提示,如果配额足够,则将作业脚本转交给M1上作业调度pbs_server进行调度;
步骤6:管理节点M1的作业调度pbs_server收到作业脚本后,根据作业脚本要求的节点数、每节点核心数为作业分配进行计算的节点C1到Cn,如果节点数量不足,则将作业进行排队等待;如果节点数量足够,则根据作业脚本具体执行内容开始计算;
步骤7:当C1到Cn完成计算后,释放物理内存、处理器资源,并向M1的pbs_server反馈“所有核心均未占用,状态Free”的信号;M1的pbs_server对该信号进行记录,并允许后续作业在该节点上进行分配和计算;
步骤8:用户可以通过安全文件传输协议SFTP从L1上将S1中存储的计算结果信息取回到N3中,在本地电脑上打开进行处理和分析;
所述方法还包括计算机开机节点自动控制步骤:
步骤11:系统启动完成正常运行时,M1每60秒启动后台监控进程一次并检测启动时间,若未达到启动时间,则暂停60秒并重复步骤1;
步骤12:后台监控进程正常启动后,检查pbs_server是否有排队作业,若无排队作业并且处于工作状态的计算节点小于等于1时,则直接退出;若无排队作业并处于工作状态的节点大于1个,则通过管理网络N1和IPMI口关闭开机但位处于空闲状态的空闲节点数量-1个节点,只保留空闲节点中节点名排名最前的1个空闲计算节点处于开机状态以备用;
步骤13:若检查到有排队作业情况时,则分析处于排队作业的原因:若为用户超额,则直接退出系统;若用户未超额,则排队原因为资源不足,执行下一步骤;
步骤14:在步骤3之后,检查关机节点数量:若关机节点为0,则提示节点用尽并退出系统;若关机节点大于等于1,则根据处于等待状态各中作业各节点需求量的大小从小到大进行排序,设定N为等待状态作业最小作业节点需求数量,F为当前空闲状态节点数量,G为关机节点数量,比较当前需要开机节点数量(N-F)和G-1,若N-F≤G-1,表示关机节点数量比需求节点数量大,则在管理网络N1中通过IPMI接口开启N-F+1个节点,并重新进行步骤2;若N-F≥G-1,表示关机节点数量不足,则在管理网络N1中通过IPMI接口开启所有关机节点并提示节点数用尽,然后退出系统。
2.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:管理网络N1为以太网络,主要负责计算节点开关机控制、作业调度数据传输、系统监控功能,计算网络N1为Infiniband网络,提高设备的扩展性、数据的传输速率及通信延迟,主要负责数据及存储的IO、操作系统镜像分发、计算软件工作时各进程相互通信与数据同步功能,用户网络N3是高性能计算机用户所在的网络,安全防护F1为防火墙、UTM或路由器设备,提供用户网络到管理网络的端口映射、访问权限管理、异常流量监测、攻击防护功能,登陆节点L1、管理节点M1、若干计算节点CN统一为同一处理器架构,处理器具有完全相同的指令集,根据用户实际使用需求和高性能计算机总体计算性能要求,登陆节点L1、管理节点M1、若干计算节点CN可以通过集群(Cluster)方式进行横向扩展,共享存储S1为基于Infiniband的NFS服务器,所述共享存储S1包含底层的硬盘柜或磁盘阵列,或基于Infiniband的分布式存储系统,对外提供一个统一的文件系统空间,并且支持用户权限控制和容量配额。
3.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:系统第一次部署时将登陆节点L1的操作系统复制为镜像文件J1,并修改J1中包含的相关个性化参数配置文件为通用配置文件,其中包括修改网卡配置文件,去掉MAC地址、UUID唯一信息,修改为DHCP引导;将主机名修改为DHCP自动获取、将硬盘的挂载方式修改为设备名方式进行挂载、将系统环境变量存放目录修改为共享存储S1上特定目录。
4.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:所述计算节点的启动采用基于Infiniband网络的无盘启动方式,若干计算节点的启动方式一致,启动计算机节点C1具体步骤包括:
步骤1:将C1开机,设置为默认PXE引导,PXE默认设备为主机通道适配器(HCA),采用FlexBoot模式;FlexBoot初始化HCA卡,检测端口协议及状态,以Infiniband方式启动端口,并以广播的方式发送DHCP客户端(Client)请求报文;
步骤2:管理节点M1的DHCP服务器从Infiniband网络收到请求报文后,将C1的IP地址、TFTP服务器、网络引导启动镜像目录发送给C1;C1接收到M1发出的报文后,根据收到的报文启动Infiniband网络,并从M1的TFTP服务器中下载启动镜像目录并加载到内存中,所请求的镜像目录内包含默认的启动镜像名称、默认启动镜像时间信息,通过C1上选择启动J1或者超过默认时间后自动选择启动J1,并向M1发送请求J1的报文;
步骤3:M1收到C1请求J1的报文后,将J1通过TFTP服务器发送给C1;C1的FlexBoot接收完J1后,将J1放入内存进行加载;
步骤4:C1依次加载J1的内核、根文件系统、网络、配置文件;C1在加载网络时广播DHCPClient的请求报文,M1的DHCPServer收到请求报文后再次将C1的IP地址发送给C1,C1收到IP地址报文后启动网络,并向M1请求主机名;M1的DNSServer收到C1请求主机名的报文后将C1的主机名发送给C1;C1网络启动完成后,首先加载挂载共享目录的配置文件,根据配置文件内容将S1通过Infiniband进行挂载;C1挂载完共享目录后,启动计算节点作业调度(pbs_mom),并将作业调度状态反馈给管理节点M1的作业调度(pbs_server),启动完成。
5.根据权利要求1所述的高性能计算集群动态节点作业方法,其特征在于:所述作业调度中间件中提前录入已知的调用函数,针对已知的计算软件进行作业提交流程的重构和标准化,用户在提交作业时通过调用函数输入作业类型、参与计算节点数量、每个计算节点参与计算核心数量、输入文件共计4个参数即可完成作业提交,避免了编写作业脚本的工作,极大简化上级操作步骤。
CN201710154402.0A 2017-03-15 2017-03-15 一种高性能计算集群动态节点作业方法 Active CN107040407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710154402.0A CN107040407B (zh) 2017-03-15 2017-03-15 一种高性能计算集群动态节点作业方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710154402.0A CN107040407B (zh) 2017-03-15 2017-03-15 一种高性能计算集群动态节点作业方法

Publications (2)

Publication Number Publication Date
CN107040407A CN107040407A (zh) 2017-08-11
CN107040407B true CN107040407B (zh) 2020-02-18

Family

ID=59534083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710154402.0A Active CN107040407B (zh) 2017-03-15 2017-03-15 一种高性能计算集群动态节点作业方法

Country Status (1)

Country Link
CN (1) CN107040407B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107483645A (zh) * 2017-09-27 2017-12-15 郑州云海信息技术有限公司 一种基于分布式存储系统的网络通信系统和方法
CN108196787B (zh) * 2017-12-21 2021-04-13 北京鲸鲨软件科技有限公司 集群存储系统的配额管理方法以及集群存储系统
CN108322532A (zh) * 2018-01-31 2018-07-24 郑州云海信息技术有限公司 服务器开关机的控制方法、装置及计算机可读存储介质
CN109167687B (zh) * 2018-09-05 2021-06-15 浪潮云信息技术股份公司 一种批量初始化物理服务器集群网络配置的方法及系统
CN109495601B (zh) * 2018-11-21 2019-06-28 北京谷数科技有限公司 Infiniband网络中IP地址漂移处理方法、装置、系统、存储介质和设备
CN110737489A (zh) * 2019-10-08 2020-01-31 成都中讯创新科技股份有限公司 一种智能型高性能计算中心
CN111597038B (zh) * 2020-01-08 2023-07-14 中国空气动力研究与发展中心计算空气动力研究所 一种超级计算机i/o转发结点轮询映射方法
CN111343047A (zh) * 2020-02-23 2020-06-26 苏州浪潮智能科技有限公司 一种监控ib网络流量的方法及系统
CN111679884A (zh) * 2020-05-18 2020-09-18 广东海光云科技股份有限公司 数据部署的方法及装置
US11474873B2 (en) * 2020-09-22 2022-10-18 Rockwell Automation Technologies, Inc. Implementing serverless functions using container orchestration systems and operational technology devices
CN112231052A (zh) * 2020-09-29 2021-01-15 中山大学 一种高性能分布式容器镜像分发系统及方法
CN112261105B (zh) * 2020-10-16 2023-02-03 天津津航计算技术研究所 一种层次化集群作业管理系统及方法
CN112905349B (zh) * 2021-03-18 2023-04-07 上海零数众合信息科技有限公司 一种面向指令集的高可用计算控制方法
CN113434093B (zh) * 2021-07-08 2023-12-01 山东中科好靓基础软件技术有限公司 一种可有效提高存储能力的ipfs数据存储方法
CN113254946A (zh) * 2021-07-12 2021-08-13 深圳市永达电子信息股份有限公司 一种类脑计算平台及可管理控制漏洞扫描系统
CN113254936A (zh) * 2021-07-12 2021-08-13 深圳市永达电子信息股份有限公司 一种基于类脑计算的终端安全管理与控制平台
CN114915545B (zh) * 2022-05-20 2024-01-26 深圳市证通电子股份有限公司 基于dhcp网络集群的应用调度部署管理方法
CN115442369B (zh) * 2022-09-02 2023-06-16 北京星汉未来网络科技有限公司 一种服务资源调度的方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495759A (zh) * 2011-12-08 2012-06-13 曙光信息产业(北京)有限公司 一种云计算环境中作业调度的方法
CN102629941A (zh) * 2012-03-20 2012-08-08 武汉邮电科学研究院 云计算系统中虚拟机镜像缓存的方法
CN102929720A (zh) * 2012-09-24 2013-02-13 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN104125165A (zh) * 2014-08-18 2014-10-29 浪潮电子信息产业股份有限公司 一种基于异构集群的作业调度系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679907A (zh) * 2015-03-24 2015-06-03 新余兴邦信息产业有限公司 高可用高性能数据库集群的实现方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495759A (zh) * 2011-12-08 2012-06-13 曙光信息产业(北京)有限公司 一种云计算环境中作业调度的方法
CN102629941A (zh) * 2012-03-20 2012-08-08 武汉邮电科学研究院 云计算系统中虚拟机镜像缓存的方法
CN102929720A (zh) * 2012-09-24 2013-02-13 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN104125165A (zh) * 2014-08-18 2014-10-29 浪潮电子信息产业股份有限公司 一种基于异构集群的作业调度系统及方法

Also Published As

Publication number Publication date
CN107040407A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN107040407B (zh) 一种高性能计算集群动态节点作业方法
EP3606008B1 (en) Method and device for realizing resource scheduling
CN111431740B (zh) 数据的传输方法、装置、设备及计算机可读存储介质
Beloglazov et al. OpenStack Neat: a framework for dynamic and energy‐efficient consolidation of virtual machines in OpenStack clouds
US9274824B2 (en) Network technology standard operating environment
US8762999B2 (en) Guest-initiated resource allocation request based on comparison of host hardware information and projected workload requirement
US20130111467A1 (en) Dynamic Server Farms
CN106775946B (zh) 一种虚拟机快速创建方法
US20210247903A1 (en) Dynamically adjusting storage capacity
US11334372B2 (en) Distributed job manager for stateful microservices
CN106790403B (zh) 实现移动云计算中间平台的方法及实现分布式的方法
CN110806928A (zh) 一种作业提交方法及系统
Saha et al. Exploring the fairness and resource distribution in an apache mesos environment
CN114518955A (zh) 一种基于kubernetes的Flink云原生部署架构方法及系统
Li et al. Research and application of server cluster load balancing technology
US11334436B2 (en) GPU-based advanced memory diagnostics over dynamic memory regions for faster and efficient diagnostics
US6598105B1 (en) Interrupt arbiter for a computing system
CN116302534A (zh) 一种服务器存储设备性能优化方法、装置、设备及介质
US20200065126A1 (en) Resource optimization for virtualization environments
CN114780207A (zh) 固态硬盘的多虚拟机负载的自动化测试方法、装置、系统
CN111431951B (zh) 一种数据处理方法、节点设备、系统及存储介质
JP6051798B2 (ja) ファームウェア検証システム、ファームウェア検証方法およびファームウェア検証プログラム
Byun et al. DynaGrid: A dynamic service deployment and resource migration framework for WSRF-compliant applications
US20230254727A1 (en) Methods for profile based management of infrastructure of a cloud used for ran applications
EP4224810A1 (en) Methods for profile based management of infrastructure of a cloud used for ran applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A high performance computing cluster dynamic node job method

Effective date of registration: 20201029

Granted publication date: 20200218

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU ZONSURE TECHNOLOGY Co.,Ltd.

Registration number: Y2020980007334

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221025

Granted publication date: 20200218

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU ZONSURE TECHNOLOGY CO.,LTD.

Registration number: Y2020980007334

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Dynamic Node Job Method for High Performance Computing Cluster

Effective date of registration: 20221212

Granted publication date: 20200218

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU ZONSURE TECHNOLOGY CO.,LTD.

Registration number: Y2022980025627

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231027

Granted publication date: 20200218

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU ZONSURE TECHNOLOGY CO.,LTD.

Registration number: Y2022980025627

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Dynamic Node Job Method for High Performance Computing Clusters

Granted publication date: 20200218

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU ZONSURE TECHNOLOGY CO.,LTD.

Registration number: Y2024980012728