CN114745385A - 一种构建slurm调度并行计算集群的方法 - Google Patents

一种构建slurm调度并行计算集群的方法 Download PDF

Info

Publication number
CN114745385A
CN114745385A CN202210383566.1A CN202210383566A CN114745385A CN 114745385 A CN114745385 A CN 114745385A CN 202210383566 A CN202210383566 A CN 202210383566A CN 114745385 A CN114745385 A CN 114745385A
Authority
CN
China
Prior art keywords
cluster
computing
computing cluster
master
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210383566.1A
Other languages
English (en)
Other versions
CN114745385B (zh
Inventor
王建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202210383566.1A priority Critical patent/CN114745385B/zh
Publication of CN114745385A publication Critical patent/CN114745385A/zh
Application granted granted Critical
Publication of CN114745385B publication Critical patent/CN114745385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数,需要给每台机器安装完毕系统,正确连接交换机;步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;步骤三:选取其中一个为master主机,master节点两网卡,其中一个接入集群专属交换机,另外一个负载用户登录;步骤四:组网成功即并行计算集群组建成功,无需任何Linux操作技能。只需录入一次机器网络地址。依照操作手册。运行hpc4youtoolkit各模块。复制粘贴屏幕提示指令即可完成科学计算集群组建。集群模式,可以有效提高现有硬件资源的利用效率。降低硬件成本。简化科学计算实施流程。

Description

一种构建slurm调度并行计算集群的方法
技术领域
本发明涉及一种科学计算领域高性能并行计算集群。具体是一种构建slurm调度并行计算集群的方法。
背景技术
高性能计算(High Performance Computing。HPC)是改造世界的第三大科学研究方法。是大规模科学计算和工程计算的必备基础设施。是科技创新的重要手段。在信息服务、工业仿真、科学研究、生物信息、基因测序、石油勘探、航天航空等众多领域发挥着不可替代的作用。是研究和解决各领域挑战性问题的重要手段。已上升为国家战略。是国家综合国力和科技创新力的重要标志。也是世界大国投入巨资争夺科学技术制高点的领域之一。截止2021年底,科技部批准建立的国家超级计算中心共有9家,分别是国家超级计算天津中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算长沙中心、国家超级计算济南中心、国家超级计算无锡中心、国家超级计算郑州中心、国家超级计算昆山中心、国家超级计算成都中心。
在国家级超算中心稳步发展的同时,随着硬件成本的进一步下探和通用计算机设备运算能力进一步提升,考虑到不同研究领域计算场景的特殊性,越来越多的研究所、高校科研团队、课题组,开始自购或者自建小规模并行计算集群,以满足研究之需。
当前,很多高性能计算集群都采用Linux操作系统。其运维工作比较繁琐,尤其对刚入门者非常困难。自己搭建计算集群,至少涉及到如下层面:仅root用户密钥鉴权认证,至少在master机器需要编辑openssh配置文件5次,而后在任何一台计算节点,修改密钥和配置文件一次,并回传各计算节点公钥到master机器并完成合并。指令版vi编辑器都不会用的微软用户,是难以完成指令模式下Linux系统配置文件修改的。更别说在Linux机器下载登录所有计算节点,完成其他Linux机器的修改配置,并把配置文件,从master机器在指令模式分发到其他Linux机器。况且openssh属于系统核心配置文件,修改错误,意味着无法登录计算服务器,新手可能选择再次重新安装系统,浪费时间,也有极大可能刷掉重要数据。配置用户信息鉴权系统,NIS,又涉及域名、可信域等信息系统概念,更涉及到另一套密钥对的配置和分发。当然还有更麻烦的,DHCP服务器以及客户端,涉及TCP/IP网络知识和实际操作技能,子网掩码计算、网关设定;亦需要针对每一个计算节点做合理的配置,使得DHCP客户端可以顺利工作;文件服务器以及网络共享系统配置及其优化;slurm所依赖的munge鉴权系统调优设定,涉及随机数以及另外一种密钥对设定和后续的密钥分发;Linux工作站文件权限、用户群组管理,需Linux系统员操作技能;多Linux机器远程指令操控等等Linux平台运维技能。
对于绝大多数科技工作者,电脑技能仅仅局限于熟悉Word、PowerPoint、Excel、PhotoShop等办公套件,Linux图形桌面都不会用,更何谈在Linux平台完成如上各种复杂的运维操作呢?
现有商业解决方案,价格昂贵,高校科研课题组无法承担。开源免费方案比如OpenHPC,Rocks Cluster,或者IBM的xCat方案,使用手册由计算机专业人士编撰。由于手册过于专业,没有一定的Linux运维经验和计算机知识,这种手册使用起来如同天书。
发明内容
针对上述现有技术存在的问题。本发明提供一种构建slurm调度并行计算集群的方法。可以只需按顺序执行各模块即可组建并行计算集群。组建得到的并行计算集群,免维护、免管理,可以最大限度解决一线科技人员在自建高性能并行计算集群方面的实际痛点。Slurm是开源免费的智能资源调度管理系统,支持CPU核心数、内存容量、GPU、各种加速卡的调度管理,完全满足科学计算领域各种计算场景的资源调度和管控。
为了实现上述目的。本发明通过以下技术方案实现:一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:
步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数。需要给每台机器安装完毕系统,正确连接交换机;
步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;
步骤三:选取其中一个为master主机。登录节点master节点,其中一个接入集群专属交换机,另外一个负载用户登录;
步骤四:组网成功即并行计算集群组建成功。
所述的步骤三标注为master的主机至少具备两个网卡。
所述的步骤三标注为master的主机可以访问互联网。
借由上述方案。本发明至少具有以下优点:每个计算节点是通过slurm将获取到的待计算任务/需求自动分发到各计算节点内的硬件资源上,并根据任务需求,自动建立资源限定围墙,做到资源专属使用,提高现有硬件运行效率,可以只需按顺序执行各模块即可组建并行计算集群,组建得到的并行计算集群,免维护、免管理,可以最大限度解决一线科技人员在自建高性能并行计算集群方面的实际痛点,Slurm是开源免费的智能资源调度管理系统,支持CPU核心数、内存容量、GPU、各种加速卡的调度管理,完全满足科学计算领域各种计算场景的资源调度和管控。
附图说明
图1是一种构建slurm调度并行计算集群的方法的结构示意图;
具体实施方式
下面结合附图对本发明做进一步说明。
如图1所示。本一种构建slurm调度并行计算集群的方法。计算集群的构建方法如下:
步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数。需要给每台机器安装完毕系统,正确连接交换机;
需要说明的是:
本发明通过以下四个核心模块实现化繁为简、傻瓜式集群搭建。
Figure BDA0003592781550000031
以上四个核心模块,均已取得版权局软件著作权登记证明。以上核心模块运行,均无需用户干预。
setup_hpc是整个集群系统正常运转的核心枢纽,承担用户鉴权认证、指令同步、各种配置下发生效,摒弃古老而复杂的Linux系统网络信息系统(NIS)。setup_hpc基于openSSH密钥做鉴权,基于scp+rsync下发配置并同步指令,快速高效且安全有保障。
os_setup_all.sh,为科学计算方向专属打造的Linux系统调优设定。
prepare.sh和slurm_all.sh模块相互依赖,自动从网络获取slurm源码并自动构建适用于科学计算平台的调度器二进制文件和相适应的配置设定。
步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;
需要说明的是:
依次开启master,nodeXX机器。使用nmtui指令,设定hostname和IP地址。
网络地址规范如下表:
机器名/hostname IP地址
master 192.168.50.254
node01 192.168.50.1
node02 192.168.50.2
node03 192.168.50.3
备注:
所有机器运行同样版本的Linux系统。如下系统任选一种,CentOS 7.x,8.x,8Stream,Rocky Linux,Ubuntu 20.04。
所有机器,root用户具有相同的默认登录密码。
在微软机器新建记事本,录入网络信息。一行一个条目,网络地址末尾和英文之间,用一个或者多个空格均可。保存文件为cluster-net.txt。
Figure BDA0003592781550000051
步骤三:选取其中一个为master主机。登录节点master节点,其中一个接入集群专属交换机,另外一个负载用户登录;
需要说明的是:
登录master机器,将cluster-net.txt文件全部内容,粘贴到master机器上/etc/hosts文件最后面,并保存修改。
上传hpc4you toolkit到master机器,依照手册,按照顺序和屏幕提示,运行对应模块即可。
步骤四:组网成功即并行计算集群组件成功。
所述的步骤三标注为master的主机至少具备两个网卡。
所述的步骤三标注为master的主机可以访问互联网。
使用时按照步骤构建slurm调度并行计算集群,并进行相应的连接。设备即可投入使用。
有益效果:通过并行的多个计算设备的联合计算。在slurm的处理下可以将多个计算设备的算力进行整合。通过分布式任务安排,从共享存储设备中获取相应数量的待计算数据来进行处理,由此可确保每个计算节点当前所处理的数据量与其当前的运算能力是相适应的。避免出现过载运行情况,每个计算节点是通过slurm将获取到的待计算任务/需求自动分发到各计算节点内的硬件资源上,并根据任务需求,自动建立资源限定围墙,做到资源专属使用,提高现有硬件运行效率,可以只需按顺序执行各模块即可组建并行计算集群,组建得到的并行计算集群,免维护、免管理,可提升计算节点的整体计算效率。综上,本发明有效提升了计算集群的计算速度,可以有效提升计算分析准确度,可以有效地提高并行计算机的计算效率。

Claims (3)

1.一种构建slurm调度并行计算集群的方法,其特征在于,计算集群的构建方法如下:
步骤一:硬件准备;需要两台或者两台以上的计算设备,上限取决于交换机端口数,需要给每台机器安装完毕系统,正确连接交换机;
步骤二:开机后,按照实际要求,修改hostname并设定实际的IP址并记录网络信息;
步骤三:选取其中一个为master主机,登录master节点,其中一个接入集群专属交换机,另外一个负载用户登录;
步骤四:组网成功即并行计算集群组建成功。
2.根据权利要求1所述的一种构建slurm调度并行计算集群的方法,其特征在于,所述的步骤三标注为master的主机至少具备两个网卡。
3.根据权利要求2所述的一种构建slurm调度并行计算集群的方法,其特征在于,所述的步骤三标注为master的主机可以访问互联网。
CN202210383566.1A 2022-04-12 2022-04-12 一种构建slurm调度并行计算集群的方法 Active CN114745385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210383566.1A CN114745385B (zh) 2022-04-12 2022-04-12 一种构建slurm调度并行计算集群的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210383566.1A CN114745385B (zh) 2022-04-12 2022-04-12 一种构建slurm调度并行计算集群的方法

Publications (2)

Publication Number Publication Date
CN114745385A true CN114745385A (zh) 2022-07-12
CN114745385B CN114745385B (zh) 2023-05-30

Family

ID=82280867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210383566.1A Active CN114745385B (zh) 2022-04-12 2022-04-12 一种构建slurm调度并行计算集群的方法

Country Status (1)

Country Link
CN (1) CN114745385B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN103593192A (zh) * 2013-11-19 2014-02-19 湖南大学 一种基于slurm调度的算法集成与评测平台及方法
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法
US20160283335A1 (en) * 2015-03-24 2016-09-29 Xinyu Xingbang Information Industry Co., Ltd. Method and system for achieving a high availability and high performance database cluster
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件系统及方法
WO2018113443A1 (zh) * 2016-12-21 2018-06-28 北京大学 一种多用户环境下利用浏览器访问Linux容器集群的方法和装置
CN110177020A (zh) * 2019-06-18 2019-08-27 北京计算机技术及应用研究所 一种基于Slurm的高性能集群管理方法
CN111031022A (zh) * 2019-12-05 2020-04-17 安徽大学 基于Slurm的资源管理调度方法、装置、电子设备及存储介质
CN112882828A (zh) * 2021-01-25 2021-06-01 北京大学 基于slurm作业调度系统的昇腾处理器管理和调度方法
CN114172903A (zh) * 2021-11-18 2022-03-11 苏州浪潮智能科技有限公司 slurm调度系统的节点扩容方法、装置、设备和介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103297543A (zh) * 2013-06-24 2013-09-11 浪潮电子信息产业股份有限公司 一种基于计算机集群作业调度的方法
CN103593192A (zh) * 2013-11-19 2014-02-19 湖南大学 一种基于slurm调度的算法集成与评测平台及方法
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法
US20160283335A1 (en) * 2015-03-24 2016-09-29 Xinyu Xingbang Information Industry Co., Ltd. Method and system for achieving a high availability and high performance database cluster
WO2018113443A1 (zh) * 2016-12-21 2018-06-28 北京大学 一种多用户环境下利用浏览器访问Linux容器集群的方法和装置
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件系统及方法
CN110177020A (zh) * 2019-06-18 2019-08-27 北京计算机技术及应用研究所 一种基于Slurm的高性能集群管理方法
CN111031022A (zh) * 2019-12-05 2020-04-17 安徽大学 基于Slurm的资源管理调度方法、装置、电子设备及存储介质
CN112882828A (zh) * 2021-01-25 2021-06-01 北京大学 基于slurm作业调度系统的昇腾处理器管理和调度方法
CN114172903A (zh) * 2021-11-18 2022-03-11 苏州浪潮智能科技有限公司 slurm调度系统的节点扩容方法、装置、设备和介质

Also Published As

Publication number Publication date
CN114745385B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN104898573A (zh) 一种基于云计算的数控系统数据采集及处理方法
CN104283959A (zh) 一种适用于云平台的基于性能分级的存储机制
CN106168993B (zh) 电网实时仿真分析系统
Hancock et al. Jetstream2: Accelerating cloud computing via Jetstream
CN105391652A (zh) 基于usb重定向实现usb设备网络共享的系统及方法
CN110008005B (zh) 基于云平台的电网通信资源虚拟机迁移系统及方法
Zink et al. The Open Cloud Testbed (OCT): A platform for research into new cloud technologies
CN113177088B (zh) 一种材料辐照损伤多尺度模拟大数据管理系统
CN114745385A (zh) 一种构建slurm调度并行计算集群的方法
Baginyan et al. Current Status of the MICC: an Overview
WO2014010247A1 (en) General-purpose simulation system using social network interface
CN110879753A (zh) 基于自动化集群资源管理的gpu加速性能优化方法和系统
WO2017096951A1 (zh) 一种虚拟机更新方法和装置
CN112346814A (zh) 实现数据中心资源统一管理及自助服务的方法及平台
Jaffe et al. Everlab: A Production Platform for Research in Network Experimentation and Computation.
CN114466030A (zh) 数据分布存储策略的管理方法、装置及分布式存储系统
Karaarslan et al. Forming a decentralized research network: DS4H
KR20040084831A (ko) 피투피 방식의 병렬 분산처리시스템 및 방법
Xuning et al. Research of campus resource management based on cloud computing
Wen et al. Research of the Modular Operational Performance Analysis for Consortium Blockchain
CN112330278B (zh) 一种基于模块化子系统的集成系统组建方法
CN103067296A (zh) 一种实现hpc集群登录节点负载均衡的方法
Sui et al. A Summary of Cloud Computing Research
CN117131486B (zh) 基于cad软件云化部署下的机械装备协同设计方法及系统
Zheng Application of Cloud Computing in Library Information System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant