CN111741130A - 一种服务器管理方法、装置、设备及存储介质 - Google Patents

一种服务器管理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111741130A
CN111741130A CN202010755150.9A CN202010755150A CN111741130A CN 111741130 A CN111741130 A CN 111741130A CN 202010755150 A CN202010755150 A CN 202010755150A CN 111741130 A CN111741130 A CN 111741130A
Authority
CN
China
Prior art keywords
idle
servers
server
computer cluster
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010755150.9A
Other languages
English (en)
Inventor
戴超群
周佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jiaochi Artificial Intelligence Research Institute Co ltd
Original Assignee
Suzhou Jiaochi Artificial Intelligence Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiaochi Artificial Intelligence Research Institute Co ltd filed Critical Suzhou Jiaochi Artificial Intelligence Research Institute Co ltd
Priority to CN202010755150.9A priority Critical patent/CN111741130A/zh
Publication of CN111741130A publication Critical patent/CN111741130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1012Server selection for load balancing based on compliance of requirements or conditions with available server resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Power Sources (AREA)

Abstract

本发明实施例公开了一种服务器管理方法、装置、设备及存储介质。其中,方法包括:获取计算机集群的空闲服务器数量;判断空闲服务器数量是否大于预设空闲服务器数量阈值;若是,则计算空闲服务器数量与预设空闲服务器数量阈值的差值;从空闲服务器中获取差值数量的空闲服务器,作为目标空闲服务器,从资源池中剔除,执行关机操作,并将关机成功的目标空闲服务器添加至计算机集群的可开机服务器列表中。本发明实施例可以根据空闲服务器数量,动态地关闭过多空闲的服务器,可以实现动态地根据计算机集群内服务器的空闲情况,自动关闭服务器,节省计算机集群的功耗,实现整个计算机集群的功耗维持在与计算任务相适应的程度,避免资源浪费。

Description

一种服务器管理方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种服务器管理方法、装置、设备及存储介质。
背景技术
在计算机集群中,通常有多个服务器组成计算资源。计算机集群采用将计算任务分配到集群的不同服务器的方式提高计算能力。
相关技术中,通常对计算机集群中的服务器统一地进行开启和关闭。所有服务器在开启后,维持在开启状态。如果服务器获取到分配的计算任务,则执行相应的计算操作。如果服务器没有获取计算任务,则维持开启状态,等待分配任务。
在计算机集群的实际运行过程中,计算机集群的使用率是动态变化的。可能在某段时间计算机集群的利用率不高,而在其他时间因任务激增会出现资源紧张状态。在计算机集群利用不高时,相关技术中所有服务器均维持开启状态会造成一定的资源浪费。
发明内容
本发明实施例提供一种服务器管理方法、装置、设备及存储介质,可以根据计算机集群的实际运行情况,动态地关闭过多空闲的服务器,实现整个计算机集群的功耗维持在与计算任务相适应的程度,避免资源浪费。
第一方面,本发明实施例提供了一种服务器管理方法,包括:
获取计算机集群的空闲服务器数量;
判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;
若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;
从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;
对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
第二方面,本发明实施例还提供了一种服务器管理装置,包括:
空闲数量获取模块,用于获取计算机集群的空闲服务器数量;
空闲数量判断模块,用于判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;
差值计算模块,用于若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;
服务器剔除模块,用于从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;
服务器关机模块,用于对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例所述的服务器管理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如本发明实施例所述的服务器管理方法。
本发明实施例的技术方案,通过判断空闲服务器数量是否大于预设空闲服务器数量阈值,确定计算机集群是否需要关闭过多空闲的服务器,在空闲服务器数量大于预设空闲服务器数量阈值时,确定计算机集群需要关闭过多空闲的服务器,然后计算空闲服务器数量与预设空闲服务器数量阈值的差值,从计算机集群的空闲服务器中获取差值数量的空闲服务器,作为目标空闲服务器,将目标空闲服务器从资源池中剔除,对剔除后的目标空闲服务器执行关机操作,可以根据空闲服务器数量和预设空闲服务器数量阈值,动态地关闭过多空闲的服务器,可以实现动态地根据计算机集群内服务器的空闲情况,自动关闭服务器,节省计算机集群的功耗,实现整个计算机集群的功耗维持在与计算任务相适应的程度,避免资源浪费
附图说明
图1为本发明实施例一提供的一种服务器管理方法的流程图。
图2为本发明实施例二提供的一种服务器管理方法的流程图。
图3为本发明实施例三提供的一种服务器管理方法的流程图。
图4为本发明实施例四提供的一种服务器管理装置的结构示意图。
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种服务器管理方法的流程图。本发明实施例可适用于对计算机集群中的服务器进行管理的情况,该方法可以由本发明实施例提供的服务器管理装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。例如,计算机集群中的管理服务器。管理服务器是用于对计算机集群中的全部服务器进行管理的服务器。如图1所示,本发明实施例的方法具体包括:
步骤101、获取计算机集群的空闲服务器数量。
本实施例中,空闲服务器数量是计算机集群内所有空闲服务器的数量。空闲服务器是服务器内的全部计算资源处于空闲状态的服务器。示例性的,计算资源可以为图形处理器(Graphics Processing Unit,GPU)卡。
可选的,所述获取计算机集群的空闲服务器数量,可以包括:按照预设关闭时间间隔,定时获取计算机集群的空闲服务器数量。
预设关闭时间间隔可以根据业务需求进行设置。示例性的,预设关闭时间间隔可以为一天。每隔一天获取计算机集群的空闲服务器数量;根据所述空闲服务器数量,判断所述计算机集群是否满足空闲服务器关闭条件;如果所述计算机集群满足空闲服务器关闭条件,则从所述计算机集群的空闲服务器中获取目标空闲服务器,控制所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。由此,可以每隔预设关闭时间间隔执行一次自动关机流程。
可选的,因为不宜频繁执行关机流程,预设关闭时间间隔长于后文所述的预设开机时间间隔。
根据经验,每天中凌晨附近时间段内用户提交的计算任务通常最少,计算机集群的利用率最低,此时触发自动关机流程往往最合适。所以可以按照预设关闭时间间隔,在每天凌晨获取计算机集群的空闲服务器数量。具体的,可以通过判断系统当前时间是否跨天来作为自动关机流程执行的触发条件,实现按照预设关闭时间间隔,在每天凌晨执行一次自动关机流程。
可选的,可以通过预设的用于获取空闲服务器数量的脚本命令,获取计算机集群的空闲服务器数量。
步骤102、判断所述空闲服务器数量是否大于预设空闲服务器数量阈值:若是,则执行步骤103;若否,则执行步骤106。
本实施例中,预设空闲服务器数量阈值的取值可以根据业务需求进行设置。示例性的,预设空闲服务器数量阈值的取值为5。
如果空闲服务器数量大于预设空闲服务器数量阈值,表明计算机集群中的空闲服务器的数量大于正常值,计算机集群中存在过多的空闲服务器维持开启状态,需要关闭过多空闲的服务器,避免资源浪费。如果空闲服务器数量小于等于预设空闲服务器数量阈值,表明计算机集群中的空闲服务器的数量小于等于正常值,计算机集群中不存在过多的空闲服务器维持开启状态,暂时不需要关闭过多空闲的服务器,避免资源浪费。
步骤103、计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值。
步骤104、从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除。
资源池中包括计算机集群中维持在开启状态的服务器。本实施例中,将需要执行关机操作的目标空闲服务器及时从资源池中剔除。
步骤105、对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
可选的,通过对剔除后的目标空闲服务器执行关机函数,完成对剔除后的目标空闲服务器的关机操作。
在一个具体实例中,预设空闲服务器数量阈值的取值为5。空闲服务器数量为7。空闲服务器数量大于5,表明计算机集群中的空闲服务器的数量大于正常值,计算机集群中存在过多的空闲服务器维持开启状态,需要关闭过多空闲的服务器,避免资源浪费,则确定计算机集群满足空闲服务器关闭条件。空闲服务器数量与预设空闲服务器数量阈值的差值为2。从计算机集群的空闲服务器中获取2台空闲服务器,作为目标空闲服务器。将目标空闲服务器从资源池中剔除。对剔除后的目标空闲服务器执行关机操作。
计算机集群的可开机服务器列表内维护计算机集群内可开机的可用服务器。可用服务器即为可开机的服务器。关机成功的目标空闲服务器为计算机集群内可开机的可用服务器。由此,将在自动关机流程中被成功关机的目标空闲服务器添加至计算机集群的可开机服务器列表中。
步骤106、将所述计算机集群的当前资源情况信息写入至日志文件中。
本实施例中,如果计算机集群不满足空闲服务器关闭条件,则将计算机集群的当前资源情况信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据计算机集群的当前资源情况信息确定计算机集群在当前自动关机流程中的资源情况。
可选的,计算机集群的当前资源情况信息包括计算机集群的空闲服务器数量。
本发明实施例提供了一种服务器管理方法,通过判断空闲服务器数量是否大于预设空闲服务器数量阈值,确定计算机集群是否需要关闭过多空闲的服务器,在空闲服务器数量大于预设空闲服务器数量阈值时,确定计算机集群需要关闭过多空闲的服务器,然后计算空闲服务器数量与预设空闲服务器数量阈值的差值,从计算机集群的空闲服务器中获取差值数量的空闲服务器,作为目标空闲服务器,将目标空闲服务器从资源池中剔除,对剔除后的目标空闲服务器执行关机操作,可以根据空闲服务器数量和预设空闲服务器数量阈值,动态地关闭过多空闲的服务器,可以实现动态地根据计算机集群内服务器的空闲情况,自动关闭服务器,节省计算机集群的功耗,实现整个计算机集群的功耗维持在与计算任务相适应的程度,避免资源浪费。
实施例二
图2为本发明实施例二提供的一种服务器管理方法的流程图。本发明实施例可以与上述一个或者多个实施例中各个可选方案结合,在本发明实施例中,服务器管理方法可以还包括:获取所述计算机集群的排队任务数量和空闲服务器数量;根据所述排队任务数量和/或空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件;如果所述计算机集群满足可用服务器开启条件,则从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作。
如图2所示,本发明实施例的方法具体包括:
步骤201、获取计算机集群的排队任务数量和空闲服务器数量。
本实施例中,计算机集群的排队任务数量是计算机集群内所有用户的排队任务数量。空闲服务器数量是计算机集群内所有空闲服务器的数量。空闲服务器是服务器内的全部计算资源处于空闲状态的服务器。示例性的,计算资源可以为GPU卡。
可选的,所述获取计算机集群的排队任务数量和空闲服务器数量,可以包括:按照预设开机时间间隔,定时获取计算机集群的排队任务数量和空闲服务器数量。
预设开机时间间隔可以根据业务需求进行设置。示例性的,预设开机时间间隔可以为15分钟。每隔15分钟获取计算机集群的排队任务数量和空闲服务器数量;根据排队任务数量和/或空闲服务器数量,判断计算机集群是否满足可用服务器开启条件;如果计算机集群满足可用服务器开启条件,则从计算机集群的可开机服务器列表中获取目标可用服务器,控制目标空闲服务器执行开机操作。由此,可以每隔预设开机时间间隔执行一次自动开机流程。
可选的,可以通过预设的用于获取排队任务数量和空闲服务器数量的脚本命令,获取计算机集群的排队任务数量和空闲服务器数量。
步骤202、根据所述排队任务数量和/或所述空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件:若是,则执行步骤203;若否,则执行步骤204。
可选的,所述根据所述排队任务数量和/或所述空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件,可以包括:判断所述排队任务数量是否大于预设任务数量阈值;如果所述排队任务数量大于预设任务数量阈值,则确定所述计算机集群满足可用服务器开启条件。
预设任务数量阈值的取值可以根据任务的频繁度进行确定。示例性的,预设任务数量阈值的取值为10。在实际的场景中,用户不合理地向服务器提交计算资源请求很容易导致任务排队。根据经验,排队任务数量在10及以下均可以认为正常。
判断排队任务数量是否大于预设任务数量阈值。如果排队任务数量大于预设任务数量阈值,表明排队任务数量大于正常值,当前计算任务申请资源比较紧张,需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群满足可用服务器开启条件。如果排队任务数量小于等于预设任务数量阈值,表明排队任务数量小于等于正常值,当前计算任务申请资源不是很紧张,暂时不需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群不满足可用服务器开启条件。
可选的,所述根据所述排队任务数量和/或所述空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件,可以包括:判断所述排队任务数量是否大于预设任务数量阈值,且所述空闲服务器数量是否小于预设服务器数量;如果所述排队任务数量大于预设任务数量阈值,且所述空闲服务器数量小于预设服务器数量,则确定所述计算机集群满足可用服务器开启条件。
预设服务器数量的取值可以根据可用机器数量来确定。示例性的,预设服务器数量的取值为2。在实际的场景中,一台服务器经常配置有8张GPU卡,当空闲服务器仅有1台而用户提交需要16张GPU卡的计算任务时,则该任务将处于排队状态。为此将预设服务器数量设置为2,则有助于及时对服务器进行开机,为该计算任务提供资源支持。
判断排队任务数量是否大于预设任务数量阈值,且空闲服务器数量是否小于预设服务器数量。如果排队任务数量大于预设任务数量阈值,且空闲服务器数量小于预设服务器数量,表明排队任务数量大于正常值,可用的空闲服务器数量小于正常值,当前计算任务申请资源比较紧张,需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群满足可用服务器开启条件。如果排队任务数量小于等于预设任务数量阈值,或者空闲服务器数量大于等于预设服务器数量,表明当前计算任务申请资源不是很紧张,暂时不需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群不满足可用服务器开启条件。
同时根据排队任务数量和空闲服务器数量,判断计算机集群是否满足可用服务器开启条件,可以更合理地判断是否需要自动开启服务器。
可选的,可以还包括:判断所述计算机集群的可开机服务器列表中是否存在可用服务器。
本实施例中,可以在根据所述排队任务数量和/或所述空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件之前,判断所述计算机集群的可开机服务器列表中是否存在可用服务器。可选的,还可以在根据所述排队任务数量和/或所述空闲服务器数量,确定所述计算机集群满足可用服务器开启条件之后,判断所述计算机集群的可开机服务器列表中是否存在可用服务器。
计算机集群的可开机服务器列表内维护计算机集群内可开机的可用服务器。可用服务器即为可开机的服务器。可选的,可开机服务器列表内的可用服务器可以为在自动关机流程中被成功关机的服务器。
如果确定计算机集群的可开机服务器列表中不存在可用服务器,则意味着即便后续流程中需要自动开启服务器也无法达到目的,所以这种情况可以结束流程。如果确定计算机集群的可开机服务器列表中存在可用服务器,则意味着即便后续流程有成功开启服务器的可能,所以可以继续执行后续步骤。
步骤203、从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作。
如果计算机集群满足可用服务器开启条件,则从计算机集群的可开机服务器列表中获取目标可用服务器,控制目标空闲服务器执行开机操作。
可选的,从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作,可以包括:从计算机集群的可开机服务器列表中选择一台可用服务器作为目标可用服务器;通过智能平台管理接口(Intelligent PlatformManagement Interface,IPMI)指令,控制目标空闲服务器执行开机操作。
可选的,在控制所述目标空闲服务器执行开机操作之后,可以还包括:在等待预设开机时间段后,判断所述目标可用服务器是否开机成功;如果所述目标可用服务器开机成功,则对所述目标可用服务器进行初始化操作;在等待预设初始化时间段后,判断所述目标可用服务器是否初始化成功;如果所述目标可用服务器初始化成功,则将所述目标可用服务器的正常上线信息写入至日志文件中。
预设开机时间段可以根据服务器开机操作需要的时间来确定。示例性的,通常服务器开机操作需要5分钟,预设开机时间段的取值为5分钟。预设初始化时间段可以根据服务器初始化操作需要的时间来确定。正常上线信息是用于记录目标可用服务器在当前自动开机流程中成功完成开机操作和初始化操作,正常上线的信息。
可选的,通过网络诊断工具(Packet Internet Groper,PING)指令对目标可用服务器进行测试,判断目标可用服务器是否开机成功。
可选的,如果目标可用服务器没有开机成功,则将目标可用服务器的开机未成功信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据目标可用服务器的开机未成功信息,手动对目标可用服务器进行干预和维护。开机未成功信息是用于记录目标可用服务器在当前自动开机流程中没有开机成功的信息。
可选的,初始化操作可以包括内存交换分区(SWaP)检查,资源管理系统SLURM配置文件同步,显卡初始化,存储挂载情况检查,调度系统服务检查是否正常等操作。
可选的,如果目标可用服务器没有初始化成功,则将目标可用服务器的初始化未成功信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据目标可用服务器的初始化未成功信息,手动对目标可用服务器进行干预和维护。初始化未成功信息是用于记录目标可用服务器在当前自动开机流程中没有初始化成功的信息。
步骤204、将所述计算机集群的当前资源情况信息写入至日志文件中。
本实施例中,如果计算机集群不满足可用服务器开启条件,则将计算机集群的当前资源情况信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据计算机集群的当前资源情况信息确定计算机集群在当前自动开机流程中的资源情况。
可选的,计算机集群的当前资源情况信息包括计算机集群的排队任务数量和空闲服务器数量。
本发明实施例提供了一种服务器管理方法,通过获取计算机集群的排队任务数量和空闲服务器数量,然后根据排队任务数量和/或空闲服务器数量,判断计算机集群是否满足可用服务器开启条件,并在计算机集群满足可用服务器开启条件时,则从计算机集群的可开机服务器列表中获取目标可用服务器,控制目标空闲服务器执行开机操作,可以根据排队任务数量和空闲服务器数量,确定计算机集群的当前计算任务申请资源的紧张情况,可以在根据排队任务数量和空闲服务器数量,确定计算机集群的当前计算任务申请资源比较紧张,需要自动开启服务器时,动态地开启合适数量的服务器,从而实现动态地根据计算机集群的当前计算任务申请资源的紧张情况,自动开启服务器,保障计算任务的及时处理,实现整个集群的功耗维持在与计算任务相适应的程度,避免资源浪费。
实施例三
图3为本发明实施例三提供的一种服务器管理方法的流程图。本发明实施例可以与上述一个或者多个实施例中各个可选方案结合,在本发明实施例中,服务器管理方法可以还包括:判断所述计算机集群的可开机服务器列表中是否存在可用服务器。
以及,所述根据所述排队任务数量和/或所述空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件,可以包括:判断所述排队任务数量是否大于预设任务数量阈值,且所述空闲服务器数量是否小于预设服务器数量;如果所述排队任务数量大于预设任务数量阈值,且所述空闲服务器数量小于预设服务器数量,则确定所述计算机集群满足可用服务器开启条件。
以及,在控制所述目标空闲服务器执行开机操作之后,可以还包括:在等待预设开机时间段后,判断所述目标可用服务器是否开机成功;如果所述目标可用服务器开机成功,则对所述目标可用服务器进行初始化操作;在等待预设初始化时间段后,判断所述目标可用服务器是否初始化成功;如果所述目标可用服务器初始化成功,则将所述目标可用服务器的正常上线信息写入至日志文件中。
如图3所示,本发明实施例的方法具体包括:
步骤301、获取计算机集群的排队任务数量和空闲服务器数量。
本实施例中未详尽的描述可以参考前述实施例。
步骤302、判断所述计算机集群的可开机服务器列表中是否存在可用服务器:若是,则执行步骤303;若否,则结束流程。
本实施例中,计算机集群的可开机服务器列表内维护计算机集群内可开机的可用服务器。可用服务器即为可开机的服务器。可选的,可开机服务器列表内的可用服务器可以为在自动关机流程中被成功关机的服务器。
如果确定计算机集群的可开机服务器列表中不存在可用服务器,则意味着即便后续流程中需要自动开启服务器也无法达到目的,所以这种情况可以结束流程。如果确定计算机集群的可开机服务器列表中存在可用服务器,则意味着即便后续流程有成功开启服务器的可能,所以可以继续执行后续步骤。
步骤303、判断所述排队任务数量是否大于预设任务数量阈值,且所述空闲服务器数量是否小于预设服务器数量:若是,则执行步骤304;若否,则执行步骤311。
本实施例中,判断排队任务数量是否大于预设任务数量阈值,且空闲服务器数量是否小于预设服务器数量。如果排队任务数量大于预设任务数量阈值,且空闲服务器数量小于预设服务器数量,表明排队任务数量大于正常值,可用的空闲服务器数量小于正常值,当前计算任务申请资源比较紧张,需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群满足可用服务器开启条件。如果排队任务数量小于等于预设任务数量阈值,或者空闲服务器数量大于等于预设服务器数量,表明当前计算任务申请资源不是很紧张,暂时不需要自动开启服务器,保障计算任务的及时处理,则确定计算机集群不满足可用服务器开启条件。
同时根据排队任务数量和空闲服务器数量,判断计算机集群是否满足可用服务器开启条件,可以更合理地判断是否需要自动开启服务器。
步骤304、确定所述计算机集群满足可用服务器开启条件,从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作。
可选的,从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作,可以包括:从计算机集群的可开机服务器列表中选择一台可用服务器作为目标可用服务器;通过IPMI指令,控制目标空闲服务器执行开机操作。
步骤305、在等待预设开机时间段后,判断所述目标可用服务器是否开机成功:若是,则执行步骤306;若否,则执行步骤310。
本实施例中,预设开机时间段可以根据服务器开机操作需要的时间来确定。示例性的,通常服务器开机操作需要5分钟,预设开机时间段的取值为5分钟。
可选的,通过PING指令对目标可用服务器进行测试,判断目标可用服务器是否开机成功。
步骤306、对所述目标可用服务器进行初始化操作。
可选的,初始化操作可以包括内存交换分区(SWaP)检查,资源管理系统SLURM配置文件同步,显卡初始化,存储挂载情况检查,调度系统服务检查是否正常等操作。
步骤307、在等待预设初始化时间段后,判断所述目标可用服务器是否初始化成功:若是,则执行步骤308;若否,则执行步骤309。
本实施例中,预设初始化时间段可以根据服务器初始化操作需要的时间来确定。
步骤308、将所述目标可用服务器的正常上线信息写入至日志文件中。
本实施例中,正常上线信息是用于记录目标可用服务器在当前自动开机流程中成功完成开机操作和初始化操作,正常上线的信息。
步骤309、将所述目标可用服务器的初始化未成功信息写入至日志文件中。
本实施例中,如果目标可用服务器没有初始化成功,则将目标可用服务器的初始化未成功信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据目标可用服务器的初始化未成功信息,手动对目标可用服务器进行干预和维护。初始化未成功信息是用于记录目标可用服务器在当前自动开机流程中没有初始化成功的信息。
步骤310、将所述目标可用服务器的开机未成功信息写入至日志文件中。
本实施例中,如果目标可用服务器没有开机成功,则将目标可用服务器的开机未成功信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据目标可用服务器的开机未成功信息,手动对目标可用服务器进行干预和维护。开机未成功信息是用于记录目标可用服务器在当前自动开机流程中没有开机成功的信息。
步骤311、将所述计算机集群的当前资源情况信息写入至日志文件中。
本实施例中,如果计算机集群不满足可用服务器开启条件,则将计算机集群的当前资源情况信息写入至日志文件中,以使运维人员可以在定期查看日志文件时,根据计算机集群的当前资源情况信息确定计算机集群在当前自动开机流程中的资源情况。
本发明实施例提供了一种服务器管理方法,通过获取计算机集群的排队任务数量和空闲服务器数量,然后在确定计算机集群的可开机服务器列表中存在可用服务器时,根据排队任务数量和空闲服务器数量,判断计算机集群是否满足可用服务器开启条件,并在计算机集群满足可用服务器开启条件时,则从计算机集群的可开机服务器列表中获取目标可用服务器,控制目标空闲服务器执行开机操作,根据目标可用服务器的开机情况和初始化情况,写入相应的信息至日志文件中,可以根据排队任务数量和空闲服务器数量,确定计算机集群的当前计算任务申请资源的紧张情况,可以在根据排队任务数量和空闲服务器数量,确定计算机集群的当前计算任务申请资源比较紧张,需要自动开启服务器时,动态地开启合适数量的服务器,从而实现动态地根据计算机集群的当前计算任务申请资源的紧张情况,自动开启服务器,保障计算任务的及时处理,实现整个集群的功耗维持在与计算任务相适应的程度,避免资源浪费,可以根据服务器的开机情况和初始化情况,写入相应的信息至日志文件中,以使运维人员可以在定期查看日志文件时,根据日志文件中的信息,手动对目标可用服务器进行干预和维护。
实施例四
图4为本发明实施例四提供的一种服务器管理装置的结构示意图。如图4所示,所述装置包括:空闲数量获取模块401、空闲数量判断模块402、差值计算模块403、服务器剔除模块404以及服务器关机模块405。
其中,空闲数量获取模块401,用于获取计算机集群的空闲服务器数量;空闲数量判断模块402,用于判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;差值计算模块403,用于若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;服务器剔除模块404,用于从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;服务器关机模块405,用于对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
本发明实施例提供了一种服务器管理装置,通过判断空闲服务器数量是否大于预设空闲服务器数量阈值,确定计算机集群是否需要关闭过多空闲的服务器,在空闲服务器数量大于预设空闲服务器数量阈值时,确定计算机集群需要关闭过多空闲的服务器,然后计算空闲服务器数量与预设空闲服务器数量阈值的差值,从计算机集群的空闲服务器中获取差值数量的空闲服务器,作为目标空闲服务器,将目标空闲服务器从资源池中剔除,对剔除后的目标空闲服务器执行关机操作,可以根据空闲服务器数量和预设空闲服务器数量阈值,动态地关闭过多空闲的服务器,可以实现动态地根据计算机集群内服务器的空闲情况,自动关闭服务器,节省计算机集群的功耗,实现整个计算机集群的功耗维持在与计算任务相适应的程度,避免资源浪费。
在本发明实施例的一个可选实施方式中,可选的,空闲数量获取模块401可以包括:空闲数量获取单元,用于按照预设关闭时间间隔,定时获取计算机集群的空闲服务器数量。
在本发明实施例的一个可选实施方式中,可选的,服务器管理装置可以还包括:信息写入模块,用于若否,则将所述计算机集群的当前资源情况信息写入至日志文件中。
在本发明实施例的一个可选实施方式中,可选的,服务器管理装置可以还包括:数量获取模块,用于获取计算机集群的排队任务数量和空闲服务器数量;开启条件判断模块,用于根据所述排队任务数量和/或空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件;服务器开机模块,用于如果所述计算机集群满足可用服务器开启条件,则从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作。
在本发明实施例的一个可选实施方式中,可选的,服务器管理装置可以还包括:服务器判断模块,用于判断所述计算机集群的可开机服务器列表中是否存在可用服务器。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
上述服务器管理装置可执行本发明任意实施例所提供的服务器管理方法,具备执行服务器管理方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,实现本发明实施例所提供的服务器管理方法:获取计算机集群的空闲服务器数量;判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
实施例六
本发明实施例六提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现本发明实施例所提供的服务器管理方法:获取计算机集群的空闲服务器数量;判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或计算机设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种服务器管理方法,其特征在于,包括:
获取计算机集群的空闲服务器数量;
判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;
若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;
从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;
对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
2.根据权利要求1所述的方法,其特征在于,所述获取计算机集群的空闲服务器数量,包括:
按照预设关闭时间间隔,定时获取计算机集群的空闲服务器数量。
3.根据权利要求1所述的方法,其特征在于,在判断所述空闲服务器数量是否大于预设空闲服务器数量阈值之后,还包括:
若否,则将所述计算机集群的当前资源情况信息写入至日志文件中。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述计算机集群的排队任务数量和空闲服务器数量;
根据所述排队任务数量和/或空闲服务器数量,判断所述计算机集群是否满足可用服务器开启条件;
如果所述计算机集群满足可用服务器开启条件,则从所述计算机集群的可开机服务器列表中获取目标可用服务器,控制所述目标空闲服务器执行开机操作。
5.根据权利要求4所述的方法,其特征在于,还包括:
判断所述计算机集群的可开机服务器列表中是否存在可用服务器。
6.一种服务器管理装置,其特征在于,包括:
空闲数量获取模块,用于获取计算机集群的空闲服务器数量;
空闲数量判断模块,用于判断所述空闲服务器数量是否大于预设空闲服务器数量阈值;
差值计算模块,用于若是,则计算所述空闲服务器数量与所述预设空闲服务器数量阈值的差值;
服务器剔除模块,用于从所述计算机集群的空闲服务器中获取所述差值数量的空闲服务器,作为目标空闲服务器,将所述目标空闲服务器从资源池中剔除;
服务器关机模块,用于对剔除后的所述目标空闲服务器执行关机操作,并将关机成功的目标空闲服务器添加至所述计算机集群的可开机服务器列表中。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的服务器管理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一所述的服务器管理方法。
CN202010755150.9A 2020-07-31 2020-07-31 一种服务器管理方法、装置、设备及存储介质 Pending CN111741130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010755150.9A CN111741130A (zh) 2020-07-31 2020-07-31 一种服务器管理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010755150.9A CN111741130A (zh) 2020-07-31 2020-07-31 一种服务器管理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111741130A true CN111741130A (zh) 2020-10-02

Family

ID=72656683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010755150.9A Pending CN111741130A (zh) 2020-07-31 2020-07-31 一种服务器管理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111741130A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101541068A (zh) * 2009-05-12 2009-09-23 杭州华三通信技术有限公司 一种wlan网络的控制方法和设备
US7694158B2 (en) * 2005-04-19 2010-04-06 Stmicroelectronics S.R.L. Parallel processing method and system, for instance for supporting embedded cluster platforms, computer program product therefor
CN101847044A (zh) * 2010-03-22 2010-09-29 北京航空航天大学 一种适用于千万亿次计算机机群的低功耗管理方法
CN102255774A (zh) * 2011-06-28 2011-11-23 迈普通信技术股份有限公司 通信设备开关机测试系统、测试方法及故障定位方法
CN103593274A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
CN103645956A (zh) * 2013-12-18 2014-03-19 浪潮电子信息产业股份有限公司 一种集群智能负载管理的方法
CN105391797A (zh) * 2015-12-03 2016-03-09 北京航空航天大学 基于sdn的云服务器负载均衡方法及装置
CN105959070A (zh) * 2016-04-18 2016-09-21 上海华测导航技术股份有限公司 基于gnss接收机电台改频的测试方法
CN107577501A (zh) * 2016-07-04 2018-01-12 深圳中电长城信息安全系统有限公司 一种开机方法及系统
CN108306949A (zh) * 2018-01-19 2018-07-20 深圳市晟达机械设计有限公司 可燃气体多点在线监测系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7694158B2 (en) * 2005-04-19 2010-04-06 Stmicroelectronics S.R.L. Parallel processing method and system, for instance for supporting embedded cluster platforms, computer program product therefor
CN101541068A (zh) * 2009-05-12 2009-09-23 杭州华三通信技术有限公司 一种wlan网络的控制方法和设备
CN101847044A (zh) * 2010-03-22 2010-09-29 北京航空航天大学 一种适用于千万亿次计算机机群的低功耗管理方法
CN102255774A (zh) * 2011-06-28 2011-11-23 迈普通信技术股份有限公司 通信设备开关机测试系统、测试方法及故障定位方法
CN103593274A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种根据计算机集群资源使用情况动态开关机达到节约功耗的方法
CN103645956A (zh) * 2013-12-18 2014-03-19 浪潮电子信息产业股份有限公司 一种集群智能负载管理的方法
CN105391797A (zh) * 2015-12-03 2016-03-09 北京航空航天大学 基于sdn的云服务器负载均衡方法及装置
CN105959070A (zh) * 2016-04-18 2016-09-21 上海华测导航技术股份有限公司 基于gnss接收机电台改频的测试方法
CN107577501A (zh) * 2016-07-04 2018-01-12 深圳中电长城信息安全系统有限公司 一种开机方法及系统
CN108306949A (zh) * 2018-01-19 2018-07-20 深圳市晟达机械设计有限公司 可燃气体多点在线监测系统

Similar Documents

Publication Publication Date Title
US9851996B2 (en) Applying firmware updates in a system with zero downtime by selectively offlining and onlining hardware using a scale-up hypervisor layer
US9043776B2 (en) Transferring files to a baseboard management controller (‘BMC’) in a computing system
US9223596B1 (en) Virtual machine fast provisioning based on dynamic criterion
US9170840B2 (en) Duration sensitive scheduling in a computing environment
CN109726076B (zh) 一种小程序生命周期管理方法和系统
US20120047357A1 (en) Methods and systems for enabling control to a hypervisor in a cloud computing environment
US11416322B2 (en) Reprovisioning virtual machines by means of DVFS-aware scheduling
CN111679911A (zh) 云环境中gpu卡的管理方法、装置、设备及介质
US10884469B2 (en) Method and system for dynamically allocating and optimizing power resources
US10114438B2 (en) Dynamic power budgeting in a chassis
CN100538649C (zh) 用于分发分派窗内的未使用的处理器循环的方法和系统
US10649832B2 (en) Technologies for headless server manageability and autonomous logging
US20130097412A1 (en) Performing A Boot Sequence In A Multi-Processor System
CN111930502A (zh) 一种服务器管理方法、装置、设备及存储介质
US11334436B2 (en) GPU-based advanced memory diagnostics over dynamic memory regions for faster and efficient diagnostics
US11334337B2 (en) Selecting and sending subset of components to computing device prior to operating system install
US8707449B2 (en) Acquiring access to a token controlled system resource
US20180052718A1 (en) Non-Process Identifier Based Service Manager
CN111581059A (zh) 一种Spark应用监控方法、系统、设备和存储介质
US20170255473A1 (en) Non-Intrusive Restart of a Task Manager
US9471433B2 (en) Optimizing computer hardware usage in a computing system that includes a plurality of populated central processing unit (‘CPU’) sockets
CN116185636A (zh) 一种内存管理方法、装置、设备和存储介质
US9292396B2 (en) System and method for secure remote diagnostics
US11726852B2 (en) Hardware-assisted paravirtualized hardware watchdog
CN111741130A (zh) 一种服务器管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002