CN114172903B - slurm调度系统的节点扩容方法、装置、设备和介质 - Google Patents

slurm调度系统的节点扩容方法、装置、设备和介质 Download PDF

Info

Publication number
CN114172903B
CN114172903B CN202111370556.6A CN202111370556A CN114172903B CN 114172903 B CN114172903 B CN 114172903B CN 202111370556 A CN202111370556 A CN 202111370556A CN 114172903 B CN114172903 B CN 114172903B
Authority
CN
China
Prior art keywords
slm
node
scheduling
newly added
scheduling configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111370556.6A
Other languages
English (en)
Other versions
CN114172903A (zh
Inventor
王金喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111370556.6A priority Critical patent/CN114172903B/zh
Publication of CN114172903A publication Critical patent/CN114172903A/zh
Application granted granted Critical
Publication of CN114172903B publication Critical patent/CN114172903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/303Terminal profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种slurm调度系统的节点扩容方法、装置、设备和介质。所述方法包括:接收终端发送的节点扩容请求;当节点扩容请求中的新增节点存在于slurm调度系统所部署的目标集群中时,获取slurm调度配置文件;当slurm调度配置文件中不存在新增节点的slurm调度配置数据时,向新增节点发送slurm客户端的安装请求;在接收到安装完成的通知信息时,获取新增节点的slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件中,以述slurm调度系统进行节点扩容。本申请实现自动扩容,解决了现有技术中需要人为输入命令,实现扩容的繁琐步骤,提升slurm调度系统的节点扩容效率。

Description

slurm调度系统的节点扩容方法、装置、设备和介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种slurm调度系统的节 点扩容方法、装置、设备和介质。
背景技术
slurm是一个开源、容错、高度可扩展的集群管理和作业调度系统,适 用于大型和小型Linux集群。它提供了三个关键功能。首先,它在一段时 间内为用户分配对资源(计算机节点)的独占和/或非独占访问权限,以便他们可以执行工作。其次,它提供了一个框架,用于在一组分配的节点上 启动,执行和监视工作(通常是并行作业,例如MPI)。最后,它通过管 理待处理作业队列来仲裁资源争用。实际应用中,经常会出现slurm调度 系统的计算能力不足的情况,在这种情况下,需要进行slurm调度系统的 扩容。
目前,当slurm调度系统需要扩容时,一般是通过各种命令操作实现 节点的扩容,该方案需要人为手动干预,步骤繁琐,效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种slurm调度系统的节点 扩容方法、装置、设备和介质。
一种slurm调度系统的节点扩容方法,方法包括:
接收终端发送的slurm调度系统的节点扩容请求;
当节点扩容请求中的新增节点存在于slurm调度系统所部署的目标集 群中时,获取预先配置的slurm调度配置文件;
当slurm调度配置文件中不存在新增节点的slurm调度配置数据时, 向新增节点发送slurm客户端的安装请求;
在接收到新增节点发送的安装完成的通知信息时,获取新增节点的 slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件中, 以对slurm调度系统进行节点扩容。
在其中一个实施例中,上述的方法还包括:
查询预设数据库,当预设数据库中存在新增节点的通信配置数据时, 确定新增节点存在于目标集群中。
在其中一个实施例中,上述的方法还包括:
根据slurm调度配置数据中的CPU核数以及内存的容量为新增节点分 配任务;
获取新增节点的任务执行状态;
当任务执行状态为正常运行时,生成新增节点成功加载到slurm调度 系统的通知信息,并发送至终端;
当任务执行状态为异常运行时,生成新增节点的运行日志信息;
将运行日志信息发送至终端。
在其中一个实施例中,上述的方法还包括:
当根据通信配置数据确定目标集群中不存在新增节点时,向终端发送 将新增节点添加至目标集群中的通知信息。
在其中一个实施例中,上述的方法还包括:
当slurm调度配置文件中存在新增节点的slurm调度配置信息时,向 终端发送是否扩容下一个节点的提示信息。
在其中一个实施例中,上述的方法还包括:
将更新后的slurm调度配置文件发送至slurm调度配置文件中所包含 的各个节点。
在其中一个实施例中,上述的方法还包括:
接收终端发送的slurm调度系统的节点删除请求;
根据节点删除请求从slurm调度系统中删除对应的节点。
一种slurm调度系统的节点扩容装置,装置包括:
接收模块,用于接收终端发送的slurm调度系统的节点扩容请求;
获取模块,用于当节点扩容请求中的新增节点存在于slurm调度系统 所部署的目标集群中时,获取预先配置的slurm调度配置文件;
发送模块,用于当slurm调度配置文件中不存在新增节点的slurm调 度配置数据时,向新增节点发送slurm客户端的安装请求;
更新模块,用于在接收到新增节点发送的安装完成的通知信息时,获 取新增节点的slurm调度配置数据,将slurm调度配置数据更新至slurm调 度配置文件中,以对slurm调度系统进行节点扩容。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理 器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
接收终端发送的slurm调度系统的节点扩容请求;
当节点扩容请求中的新增节点存在于slurm调度系统所部署的目标集 群中时,获取预先配置的slurm调度配置文件;
当slurm调度配置文件中不存在新增节点的slurm调度配置数据时, 向新增节点发送slurm客户端的安装请求;
在接收到新增节点发送的安装完成的通知信息时,获取新增节点的 slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件中, 以对slurm调度系统进行节点扩容。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处 理器执行时实现以下步骤:
接收终端发送的slurm调度系统的节点扩容请求;
当节点扩容请求中的新增节点存在于slurm调度系统所部署的目标集 群中时,获取预先配置的slurm调度配置文件;
当slurm调度配置文件中不存在新增节点的slurm调度配置数据时, 向新增节点发送slurm客户端的安装请求;
在接收到新增节点发送的安装完成的通知信息时,获取新增节点的slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件中, 以对slurm调度系统进行节点扩容。
上述slurm调度系统的节点扩容方法、装置、设备和介质,通过确定 新增节点是否在目标集群中,当确定新增存在目标集群中之后根据slurm 调度配置文件确定新增节点是否在slurm调度系统中,若新增节点不存在 slurm调度系统,则向新增节点发送slurm客户端的安装请求,以便新增节 点安装slurm客户端,在新增节点的slurm客户端安装完成之后,获取其 slurm调度配置数据更新至slurm调度配置文件中,以完成slurm调度系统 的扩容,实现自动扩容,解决了现有技术中需要人为输入命令,实现扩容的繁琐步骤,提升slurm调度系统的节点扩容效率。
附图说明
图1为一个实施例中slurm调度系统的节点扩容方法的应用环境图;
图2为一个实施例中slurm调度系统的节点扩容方法的流程示意图;
图3为一个实施例中slurm调度系统的节点扩容方法的流程示意图;
图4为一个实施例中slurm调度系统的节点扩容装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实 施例仅仅用以解释本申请,并不用于限定本申请。
请参考图1,图1为本申请一示例性实施例提供的一种slurm调度系统 的节点扩容方法的应用环境示意图。如图1所示,该应用环境中包括管理 服务器100以及终端101,服务器100与终端101之间可以通过网络102 实现可通信的连接,以实现本申请的slurm调度系统的节点扩容方法。
管理服务器100用于接收终端101发送的slurm调度系统的节点扩容 请求;当节点扩容请求中的新增节点存在于slurm调度系统所部署的目标 集群中时,获取预先配置的slurm调度配置文件;当slurm调度配置文件 中不存在新增节点的slurm调度配置数据时,向新增节点发送slurm客户 端的安装请求;在接收到新增节点发送的安装完成的通知信息时,获取新 增节点的slurm调度配置数据,将slurm调度配置数据更新至slurm调度配 置文件中,以对slurm调度系统进行节点扩容。管理服务器100还用于根 据slurm调度配置数据中的CPU核数以及内存的容量为新增节点分配任 务;获取新增节点的任务执行状态;当任务执行状态为正常运行时,生成 新增节点成功加载到slurm调度系统的通知信息,并发送至终端101;当任 务执行状态为异常运行时,生成新增节点的运行日志信息;将运行日志信息发送至终端101。其中,管理服务器100可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
终端101用于向管理服务器100发送slurm调度系统的节点扩容请求, 并接收管理服务器100发送的新增节点成功加载到slurm调度系统的通知 信息,或者,新增节点的运行日志信息。终端101可以但不限于是各种个 人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
网络102用于实现终端101与服务器100之间的网络连接,具体的, 网络102可以包括多种类型的有线或无线网络。
在一个实施例中,如图2所示,提供了一种slurm调度系统的节点扩 容方法,以该方法应用于图1中的管理服务器为例进行说明,包括以下步 骤:
S11、接收终端发送的slurm调度系统的节点扩容请求。
本申请中,slurm调度系统是一个开源、容错、高度可扩展的集群管理 和作业调度系统,适用于大型和小型Linux集群。slurm调度系统的操作不需要修改内核,并且相对独立。作为集群工作负载管理器,slurm调度系统 有三个关键功能。第一,它将资源(计算节点)的独占和/或非独占访问分 配给用户一段时间,以便用户可以执行工作。第二,它提供了一个框架, 用于在分配的节点集上启动、执行和监视工作(通常是并行作业)。第三, 它通过管理一个未决工作队列来仲裁资源争用。可选插件可用于记帐、高级保留、组调度(并行作业的分时)、回填调度、拓扑优化的资源选择、 用户或库帐户的资源限制以及复杂的多因素作业优先级算法。
slurm调度系统有一个集中式管理器slurmctld,用于监视资源和工作。 还可能有一个备份管理器在发生故障时承担这些责任。每个计算服务器(节 点)都有一个slurmd(守护进程),可以将其比作远程shell:它等待工作, 执行该工作,返回状态,并等待更多工作。slurmd守护进程提供容错分层 通信。有一个可选的slurmdbd(slurm数据库守护进程),可用于在单个 数据库中记录多个slurm管理集群的记帐信息。
上述的节点扩容请求用于请求管理服务器为slurm调度系统添加新的 节点。
S12、当节点扩容请求中的新增节点存在于slurm调度系统所部署的目 标集群中时,获取预先配置的slurm调度配置文件。
本申请中,上述的slurm调度系统部署于上述的目标集群上。上述的 目标集群为服务器集群。具体的,本申请的目标集群上预先部署了slurm 调度系统,当接收到该slurm调度系统的扩容请求时,管理服务器对该预 先部署的slurm调度系统进行添加新的节点。
本申请部署了slurm调度系统之后,为该slurm调度系统创建slurm调 度配置文件。该slurm调度配置文件中包括slurm调度系统中所有节点的 slurm调度配置数据。该slurm调度配置数据可以包括节点标识、节点的 CPU核数以及节点的内存容量等。
在其中一个实施例中,上述的方法还可以包括:
查询预设数据库,当预设数据库中存在新增节点的通信配置数据时, 确定新增节点存在于目标集群中。
本申请中,上述的通信配置数据可以包括SSH(SecureShell,安全外 壳协议)免密设置、NIS(NetworkInformationServices,网络信息服务)、NTP(NetworkTimeProtocol,网络时间协议)服务配置等。
具体的,若预设数据库中存在新增节点的通信配置数据,则确定新增 节点已加入目标集群中。当确定新增节点已加入目标集群中之后,进一步 确定新增节点是否在slurm调度系统中。
在其中一个实施例中,上述的方法还可以包括:
当根据通信配置数据确定目标集群中不存在新增节点时,向终端发送 将新增节点添加至目标集群中的通知信息。
本申请中,当上述的预设数据库中不存在新增节点的通信配置数据时, 确定目标集群中不存在上述的新增节点,则向终端发送将新增节点添加至 目标集群中的通知信息,以便相关人员将新增节点添加至目标集群中。
本申请通过管理节点实现自动判断新增节点是否存在与目标集群中, 若存在,则进一步判断新增节点是否存在于slurm调度系统中,若新增节 点不存在于slurm调度系统中则执行扩容。无需人为输入命令实现扩容, 提升slurm调度系统的扩容效率。
S13、当slurm调度配置文件中不存在新增节点的slurm调度配置数据 时,向新增节点发送slurm客户端的安装请求。
本申请中,当slurm调度配置文件中不存在新增节点的slurm调度配置 数据时,确定slurm调度系统中不存在上述的新增节点,此时,需要进行 扩容,以将上述的新增节点加入到slurm调度系统中。
具体的,管理服务器可以向新增节点发送slurm客户端的安装请求, 由新增节点自动完成slurm客户端的安装,当上述的新增节点安装完slurm 客户端之后,向上述的管理服务器发送安装完成的通知信息,以便管理服 务器根据该通知信息执行后续扩容操作。
S14、在接收到新增节点发送的安装完成的通知信息时,获取新增节点 的slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件 中,以对slurm调度系统进行节点扩容。
本申请中,上述的slurm调度配置数据可以包括新增节点的节点标识、节点的CPU核数以及节点的内存容量等。其中,上述的节点标识可以为节 点名称。本申请中,管理节点可以根据该slurm调度配置数据为新增节点 分配对应的任务。
具体的,上述的管理服务器可以向上述的新增节点获取上述的slurm 调度配置数据,并将上述的slurm调度配置数据添加至上述的slurm调度 配置文件中,以更新该slurm调度配置文件。当slurm调度配置数据添加 至上述的slurm调度配置文件中之后,新增节点被成功加入至slurm调度 系统中,slurm调度系统的节点扩容完成。
在其中一个实施例中,如图3所示,上述的方法还可以包括:
S31、根据slurm调度配置数据中的CPU核数以及内存的容量为新增 节点分配任务;
S32、获取新增节点的任务执行状态;
S33、当任务执行状态为正常运行时,生成新增节点成功加载到slurm 调度系统的通知信息,并发送至终端;
S34、当任务执行状态为异常运行时,生成新增节点的运行日志信息;
S35、将运行日志信息发送至终端。
本申请中,在扩容完成之后可以重启slurm调度作业系统服务,以便 为上述的新增节点分配对应的任务,获取新增节点执行任务的任务执行状 态,通过该任务执行状态判断新增节点是否成功的加载到slurm调度系统中。
具体的,当任务执行状态为正常运行时,生成新增节点成功加载到 slurm调度系统的通知信息,并发送至终端;当任务执行状态为异常运行时, 生成新增节点的运行日志信息;将运行日志信息发送至终端。其中,上述 的运行日志信息可以包括新增节点扩容失败的通知信息。上述的运行日志 信息可以供相关人员对加载失败的原因进行分析。本申请通过该实施方式 可以检测新增节点是否成功加载到slurm调度系统中,即slurm调度系统是否扩容成功,并将加载成功或者失败以及失败对应的运行日志信息发送至终端供相关人员分析,提升方案的灵活性。
在其中一个实施例中,的方法还可以包括:
当slurm调度配置文件中存在新增节点的slurm调度配置信息时,向终 端发送是否扩容下一个节点的提示信息。
本申请中,当slurm调度配置文件中存在新增节点的slurm调度配置信 息时,说明新增节点已经存在于slurm调度系统中,则提示是否扩容下一 个节点。本申请通过该实施方式提升方案的灵活性。
在其中一个实施例中,方法还可以包括:
将更新后的slurm调度配置文件发送至slurm调度配置文件中所包含的 各个节点。
本申请中,将新增节点添加至slurm调度系统中之后,将更新后的slurm 调度配置文件同步至slurm调度系统中的其他节点,以便新增节点与其他 节点进行通信,保证slurm调度系统中各节点之间的顺利通信,提升slurm 调度系统运行的稳定性。
在其中一个实施例中,上述的方法还可以包括:
接收终端发送的slurm调度系统的节点删除请求;
根据节点删除请求从slurm调度系统中删除对应的节点。
一种实施例中,当用户想把slurm调度系统中的一个节点用作其他用 途时,可以通过终端发起节点删除请求。本申请中的slurm调度系统可以 扩容也支持缩容,提升方案的灵活性。
在一个实施例中,如图4所示,提供了一种slurm调度系统的节点扩 容装置,包括:接收模块11、获取模块12、发送模块13和更新模块14, 其中:
接收模块11,用于接收终端发送的slurm调度系统的节点扩容请求;
获取模块12,用于当节点扩容请求中的新增节点存在于slurm调度系 统所部署的目标集群中时,获取预先配置的slurm调度配置文件;
发送模块13,用于当slurm调度配置文件中不存在新增节点的slurm 调度配置数据时,向新增节点发送slurm客户端的安装请求;
更新模块14,用于在接收到新增节点发送的安装完成的通知信息时, 获取新增节点的slurm调度配置数据,将slurm调度配置数据更新至slurm 调度配置文件中,以对slurm调度系统进行节点扩容。
在其中一个实施例中,上述的装置还包括查询模块(图未示),该查 询模块可以查询预设数据库,当预设数据库中存在新增节点的通信配置数 据时,确定新增节点存在于目标集群中。
在其中一个实施例中,上述的装置还包括检测模块(图未示),该检 测模块可以根据slurm调度配置数据中的CPU核数以及内存的容量为新增 节点分配任务,获取新增节点的任务执行状态,当任务执行状态为正常运 行时,生成新增节点成功加载到slurm调度系统的通知信息,并发送至终 端,当任务执行状态为异常运行时,生成新增节点的运行日志信息,将运 行日志信息发送至终端。
在其中一个实施例中,上述的装置还包括添加模块(图未示),该添 加模块可以当根据通信配置数据确定目标集群中不存在新增节点时,向终 端发送将新增节点添加至目标集群中的通知信息。
在其中一个实施例中,上述的装置还包括扩容模块(图未示),该扩 容模块可以当slurm调度配置文件中存在新增节点的slurm调度配置信息 时,向终端发送是否扩容下一个节点的提示信息。
在其中一个实施例中,上述的装置还包括同步模块(图未示),该同 步模块可以将更新后的slurm调度配置文件发送至slurm调度配置文件中 所包含的各个节点。
在其中一个实施例中,上述的装置还包括删除模块(图未示),该删 除模块可以接收终端发送的slurm调度系统的节点删除请求,根据节点删 除请求从slurm调度系统中删除对应的节点。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务 器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接 的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用 于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、 内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。 该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储智能家居设备的运行数据等数据。该 计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程 序被处理器执行时以实现编译虚拟机的资源分配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序 时实现以下步骤:接收终端发送的slurm调度系统的节点扩容请求;当节 点扩容请求中的新增节点存在于slurm调度系统所部署的目标集群中时, 获取预先配置的slurm调度配置文件;当slurm调度配置文件中不存在新 增节点的slurm调度配置数据时,向新增节点发送slurm客户端的安装请 求;在接收到新增节点发送的安装完成的通知信息时,获取新增节点的 slurm调度配置数据,将slurm调度配置数据更新至slurm调度配置文件中,以对slurm调度系统进行节点扩容。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
查询预设数据库,当预设数据库中存在新增节点的通信配置数据时, 确定新增节点存在于目标集群中。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
根据slurm调度配置数据中的CPU核数以及内存的容量为新增节点分 配任务;
获取新增节点的任务执行状态;
当任务执行状态为正常运行时,生成新增节点成功加载到slurm调度 系统的通知信息,并发送至终端;
当任务执行状态为异常运行时,生成新增节点的运行日志信息;
将运行日志信息发送至终端。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
当根据通信配置数据确定目标集群中不存在新增节点时,向终端发送 将新增节点添加至目标集群中的通知信息。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
当slurm调度配置文件中存在新增节点的slurm调度配置信息时,向终 端发送是否扩容下一个节点的提示信息。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
将更新后的slurm调度配置文件发送至slurm调度配置文件中所包含的 各个节点。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
接收终端发送的slurm调度系统的节点删除请求;
根据节点删除请求从slurm调度系统中删除对应的节点。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算 机程序,计算机程序被处理器执行时实现以下步骤:接收终端发送的slurm 调度系统的节点扩容请求;当节点扩容请求中的新增节点存在于slurm调 度系统所部署的目标集群中时,获取预先配置的slurm调度配置文件;当slurm调度配置文件中不存在新增节点的slurm调度配置数据时,向新增节 点发送slurm客户端的安装请求;在接收到新增节点发送的安装完成的通 知信息时,获取新增节点的slurm调度配置数据,将slurm调度配置数据 更新至slurm调度配置文件中,以对slurm调度系统进行节点扩容。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
查询预设数据库,当预设数据库中存在新增节点的通信配置数据时, 确定新增节点存在于目标集群中。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
根据slurm调度配置数据中的CPU核数以及内存的容量为新增节点分 配任务;
获取新增节点的任务执行状态;
当任务执行状态为正常运行时,生成新增节点成功加载到slurm调度 系统的通知信息,并发送至终端;
当任务执行状态为异常运行时,生成新增节点的运行日志信息;
将运行日志信息发送至终端。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
当根据通信配置数据确定目标集群中不存在新增节点时,向终端发送 将新增节点添加至目标集群中的通知信息。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
当slurm调度配置文件中存在新增节点的slurm调度配置信息时,向终 端发送是否扩容下一个节点的提示信息。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
将更新后的slurm调度配置文件发送至slurm调度配置文件中所包含的 各个节点。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
接收终端发送的slurm调度系统的节点删除请求;
根据节点删除请求从slurm调度系统中删除对应的节点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流 程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存 储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包 括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使 用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM (EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者 外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静 态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双 数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链 路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM (RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线 动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对 上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这 些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领 域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干 变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范 围应以所附权利要求为准。

Claims (7)

1.一种slurm调度系统的节点扩容方法,所述方法包括:
接收终端发送的slurm调度系统的节点扩容请求;
当所述节点扩容请求中的新增节点存在于所述slurm调度系统所部署的目标集群中时,获取预先配置的slurm调度配置文件;
当所述slurm调度配置文件中不存在所述新增节点的slurm调度配置数据时,向所述新增节点发送slurm客户端的安装请求;
在接收到所述新增节点发送的安装完成的通知信息时,获取所述新增节点的slurm调度配置数据,将所述slurm调度配置数据更新至所述slurm调度配置文件中,以对所述slurm调度系统进行节点扩容;
查询预设数据库,当所述预设数据库中存在所述新增节点的通信配置数据时,确定所述新增节点存在于所述目标集群中;
根据所述slurm调度配置数据中的CPU核数以及内存的容量为所述新增节点分配任务;
获取所述新增节点的任务执行状态;
当所述任务执行状态为正常运行时,生成所述新增节点成功加载到所述slurm调度系统的通知信息,并发送至所述终端;
当所述任务执行状态为异常运行时,生成所述新增节点的运行日志信息;
将所述运行日志信息发送至所述终端;
当根据所述通信配置数据确定所述目标集群中不存在所述新增节点时,向所述终端发送将所述新增节点添加至所述目标集群中的通知信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述slurm调度配置文件中存在所述新增节点的slurm调度配置信息时,向所述终端发送是否扩容下一个节点的提示信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将更新后的slurm调度配置文件发送至所述slurm调度配置文件中所包含的各个节点。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述终端发送的所述slurm调度系统的节点删除请求;
根据所述节点删除请求从所述slurm调度系统中删除对应的节点。
5.一种slurm调度系统的节点扩容装置,所述装置包括:
接收模块,用于接收终端发送的slurm调度系统的节点扩容请求;
获取模块,用于当所述节点扩容请求中的新增节点存在于所述slurm调度系统所部署的目标集群中时,获取预先配置的slurm调度配置文件;
发送模块,用于当所述slurm调度配置文件中不存在所述新增节点的slurm调度配置数据时,向所述新增节点发送slurm客户端的安装请求;
更新模块,用于在接收到所述新增节点发送的安装完成的通知信息时,获取所述新增节点的slurm调度配置数据,将所述slurm调度配置数据更新至所述slurm调度配置文件中,以对所述slurm调度系统进行节点扩容;
查询模块,用于查询预设数据库,当所述预设数据库中存在所述新增节点的通信配置数据时,确定所述新增节点存在于所述目标集群中;
检测模块,用于根据所述slurm调度配置数据中的CPU核数以及内存的容量为所述新增节点分配任务,获取所述新增节点的任务执行状态,当所述任务执行状态为正常运行时,生成所述新增节点成功加载到所述slurm调度系统的通知信息,并发送至所述终端,当所述任务执行状态为异常运行时,生成所述新增节点的运行日志信息,将所述运行日志信息发送至所述终端;
添加模块,用于当根据所述通信配置数据确定所述目标集群中不存在所述新增节点时,向所述终端发送将所述新增节点添加至所述目标集群中的通知信息。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202111370556.6A 2021-11-18 2021-11-18 slurm调度系统的节点扩容方法、装置、设备和介质 Active CN114172903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111370556.6A CN114172903B (zh) 2021-11-18 2021-11-18 slurm调度系统的节点扩容方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111370556.6A CN114172903B (zh) 2021-11-18 2021-11-18 slurm调度系统的节点扩容方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114172903A CN114172903A (zh) 2022-03-11
CN114172903B true CN114172903B (zh) 2023-07-14

Family

ID=80479561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111370556.6A Active CN114172903B (zh) 2021-11-18 2021-11-18 slurm调度系统的节点扩容方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114172903B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114745385B (zh) * 2022-04-12 2023-05-30 吉林大学 一种构建slurm调度并行计算集群的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445595A (zh) * 2020-11-26 2021-03-05 深圳晶泰科技有限公司 基于slurm计算平台的多任务提交系统
CN113438107A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 集群节点的扩展方法、装置、设备及存储介质
CN113553190A (zh) * 2021-09-17 2021-10-26 阿里云计算有限公司 计算集群系统、调度方法、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445595A (zh) * 2020-11-26 2021-03-05 深圳晶泰科技有限公司 基于slurm计算平台的多任务提交系统
CN113438107A (zh) * 2021-06-22 2021-09-24 康键信息技术(深圳)有限公司 集群节点的扩展方法、装置、设备及存储介质
CN113553190A (zh) * 2021-09-17 2021-10-26 阿里云计算有限公司 计算集群系统、调度方法、设备及存储介质

Also Published As

Publication number Publication date
CN114172903A (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN108959385B (zh) 数据库部署方法、装置、计算机设备和存储介质
CN111782232A (zh) 集群的部署方法、装置、终端设备及存储介质
CN113296792B (zh) 存储方法、装置、设备、存储介质和系统
CN105049268A (zh) 分布式计算资源分配系统和任务处理方法
US11888933B2 (en) Cloud service processing method and device, cloud server, cloud service system and storage medium
CN109933338B (zh) 区块链部署方法、装置、计算机设备和存储介质
CN111399764B (zh) 数据存储方法、读取方法、装置、设备及存储介质
CN113382077B (zh) 微服务调度方法、装置、计算机设备和存储介质
CN114172903B (zh) slurm调度系统的节点扩容方法、装置、设备和介质
CN109697112B (zh) 分布式集约化一站式作业系统和实现方法
CN111291062B (zh) 数据同步写入方法、装置、计算机设备及存储介质
CN114168179A (zh) 微服务管理方法、装置、计算机设备和存储介质
CN113434283B (zh) 服务调度方法及装置、服务器、计算机可读存储介质
CN112035062B (zh) 云计算的本地存储的迁移方法、计算机设备及存储介质
CN116107704B (zh) 区块链BaaS和多联盟部署方法、数据存储访问方法及装置
WO2018010603A1 (zh) 基于视频云存储系统的存储模式升级方法、装置和系统
CN111404978A (zh) 一种数据存储方法及云存储系统
CN115604120A (zh) 一种多云集群资源共享方法、装置、设备及存储介质
CN111431951B (zh) 一种数据处理方法、节点设备、系统及存储介质
WO2021248972A1 (zh) 默认网关管理方法、网关管理器、服务器及存储介质
CN112527561B (zh) 基于物联网云存储的数据备份方法及装置
CN113093995A (zh) 一种云盘数据的迁移方法和系统
CN112153093B (zh) 基于集群的任务调度方法、装置、设备及可读存储介质
CN113703930A (zh) 任务调度方法、装置及系统、计算机可读存储介质
CN114356214B (zh) 一种针对kubernetes系统提供本地存储卷的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant