CN113360344A - 一种服务器监控方法、装置、设备及计算机可读存储介质 - Google Patents

一种服务器监控方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113360344A
CN113360344A CN202110680380.8A CN202110680380A CN113360344A CN 113360344 A CN113360344 A CN 113360344A CN 202110680380 A CN202110680380 A CN 202110680380A CN 113360344 A CN113360344 A CN 113360344A
Authority
CN
China
Prior art keywords
cpu
host
host end
temperature
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110680380.8A
Other languages
English (en)
Other versions
CN113360344B (zh
Inventor
张贞雷
李拓
满宏涛
刘同强
周玉龙
邹晓峰
王贤坤
魏红杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Original Assignee
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd filed Critical Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority to CN202110680380.8A priority Critical patent/CN113360344B/zh
Publication of CN113360344A publication Critical patent/CN113360344A/zh
Application granted granted Critical
Publication of CN113360344B publication Critical patent/CN113360344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器监控方法,由本地服务器的基板管理控制器根据本地服务器主机端的CPU温度信息和主机端的风扇转速信息确定主机端的CPU温度超出主机端的风扇调节能力时,向主机端发送主动调节指令,以触发主机端的CPU运行预设脚本以降低主机端CPU的负载。从而可以在远程监控管理端无人值守时由主机端主动采取措施给主机端CPU降低温度,避免宕机或服务器损坏,保障本地服务器的安全运行。本申请还公开了一种服务器监控装置、设备及计算机可读存储介质,具有上述有益效果。

Description

一种服务器监控方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及服务器监控技术领域,特别是涉及一种服务器监控方法、装置、设备及计算机可读存储介质。
背景技术
基板管理控制器(Baseboard Management Controller,BMC,又称监控管理芯片)通常指服务器领域用于对服务器的状态(温度,风扇,主CPU运行情况等)进行监控的装置,同时还有一个重要的功能,就是将本地的视频信息,通过网络传递给远程监控管理端,供远程监控管理端显示和监控。
传统的基板管理控制器的管理流程通常包括:基板管理控制器获取主机端的信息(如主机端CPU的温度、风扇转速、主机视频画面等),将主机端的信息通过网络传递到远程监控管理端,供远程监控管理端监控使用。远程监控管理端的监控人员可以通过远程监控管理设备看到主机端的状态并进行管理,如调整风扇转速、进程以及控制服务器进行其他操作。
图1为现有技术中的一种基于基板管理控制器的服务器监控系统。如图1所示,现有技术中的基于基板管理控制器的服务器监控系统基于本地服务器上的基板管理控制器101和远程监控管理端102构成。基板管理控制器101通过接口控制器(interfacecontroller,INTF_CTRL)模块去获取本地服务器的主机端的状态信息,其所处理的接口包括集成电路总线(Inter-Integrated Circuit,I2C)、低速设备(Low pin count,LPC)总线等,不同的接口对应获取主机端不同的状态信息,如主机端的CPU温度、风扇转速、电源电压等。除了执行根据主机CPU温度进行风扇转速控制的任务外,基板管理控制器101上运行的软件将获取的主机端信息进行打包,通过网卡,利用网络传输到远程监控管理端102。远程监控管理端102的网卡接收网络信息,利用监控管理软件解析网络信息,并形成控制界面,供监控人员进行远程监控管理。监控人员可以在远程监控管理端102通过监控管理软件在人机交互装置呈现的交互界面上查看主机端信息,并设置管理命令、选择发送。监控人员下达的管理命令再通过网络传回本地服务器的基板管理控制器101,基板管理控制器101上运行相应软件解析管理命令得到对应的指令,通过INTF接口去管理主机端的相关设置,比如调整风扇转速、电源电压、打开视频界面等。
可见,传统的服务器监控方案中需要远程监控管理端有监控人员对本地服务器进行管理。如果监控人员离开远程监控管理端,而本地服务器出现紧急情况,如主机端CPU温度过高超出风扇的调节能力,将无法控制地导致本地服务器系统异常、风扇硬件损坏等不良后果。
发明内容
本申请的目的是提供一种服务器监控方法、装置、设备及计算机可读存储介质,用于实现在远程监控管理端无人监控时进行本地服务器主机端的主动控制,保障本地服务器的安全运行。
为解决上述技术问题,本申请提供一种服务器监控方法,基于本地服务器的基板管理控制器,包括:
获取所述本地服务器主机端的CPU温度信息和所述主机端的风扇转速信息;
当确定所述主机端的CPU温度超出所述主机端的风扇调节能力时,向所述主机端发送主动调节指令,以触发所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载。
可选的,所述确定所述主机端的CPU温度超出所述主机端的风扇调节能力,具体为:
当所述主机端的CPU温度超出第一阈值时,确定所述主机端的CPU温度超出所述主机端的风扇调节能力。
可选的,还包括:
当所述主机端的CPU温度大于第二阈值且小于等于所述第一阈值时,向远程监控管理端发送报警信号以触发所述远程监控管理端预设的报警机制。
可选的,所述确定所述主机端的CPU温度超出所述主机端的风扇调节能力,具体为:
根据所述CPU温度信息和所述风扇转速信息预测得到所述主机端的风扇转速将在预设时间内达到第三阈值时,确定所述主机端的CPU温度超出所述主机端的风扇调节能力。
可选的,所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载,具体为:
所述主机端的CPU运行预先部署的预设驱动,以调用所述预设脚本降低所述主机端的CPU的负载。
可选的,所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载,具体为:
所述主机端的CPU运行所述预设脚本以执行降低资源占用情况达到预设标准的进程的调度优先级、查杀本地病毒、将所述主机端的CPU的进程强制迁移至所述主机端的另一CPU、关闭超线程功能中的至少一项任务。
可选的,还包括:
将所述主机端的CPU运行所述预设脚本的日志发送至远程监控管理端。
为解决上述技术问题,本申请还提供一种服务器监控装置,包括:
获取单元,用于获取所述本地服务器主机端的CPU温度信息和所述主机端的风扇转速信息;
发送单元,用于当确定所述主机端的CPU温度超出所述主机端的风扇调节能力时,向所述主机端发送主动调节指令,以触发所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载。
为解决上述技术问题,本申请还提供一种服务器监控设备,包括:
存储器,用于存储指令,所述指令包括上述任意一项所述服务器监控方法的步骤;
处理器,用于执行所述指令。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述服务器监控方法的步骤。
本申请所提供的服务器监控方法,由本地服务器的基板管理控制器根据本地服务器主机端的CPU温度信息和主机端的风扇转速信息确定主机端的CPU温度超出主机端的风扇调节能力时,向主机端发送主动调节指令,以触发主机端的CPU运行预设脚本以降低主机端CPU的负载。从而可以在远程监控管理端无人值守时由主机端主动采取措施给主机端CPU降低温度,避免宕机或服务器损坏,保障本地服务器的安全运行。
本申请还提供一种服务器监控装置、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的一种基于基板管理控制器的服务器监控系统;
图2为本申请实施例提供的一种服务器监控系统的结构示意图;
图3为本申请实施例提供的一种服务器监控方法的流程图;
图4为本申请实施例提供的一种服务器监控装置的结构示意图;
图5为本申请实施例提供的一种服务器监控设备的结构示意图。
具体实施方式
本申请的核心是提供一种服务器监控方法、装置、设备及计算机可读存储介质,用于实现在远程监控管理端无人监控时进行本地服务器主机端的主动控制,保障本地服务器的安全运行。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图2为本申请实施例提供的一种服务器监控系统的结构示意图。
为便于理解,首先对本申请提供的系统架构进行介绍。
如本申请背景技术部分所介绍的,传统的基于基板管理控制器的服务器监控方案中,在远程监控管理端必须有监控人员时刻值守、监控本地服务器,才能实时地处理本地服务器的状况,尤其是紧急状态,比如本地服务器的主机端CPU温度过高但风扇转速达到极限等情况。若远程监控管理端无人值守,在出现上述紧急情况时,本地服务器无法自主做出反应,导致本地服务器有宕机乃至硬件受损的风险。因此本申请实施例在传统的基于基板管理控制器的服务器监控方案基础上进行了优化,涉及到本地服务器的主机端、本地服务器的基板管理控制器和远程监控管理端,目的是实现远程监控管理端无人值守的情况下,在本地服务器出现上述紧急情况或达到负载极限时,主动采取措施,保障本地服务器的安全运行。
如图2所示,本申请实施例提供的服务器监控系统由本地服务器的基板管理控制器201、本地服务器的主机端203和远程监控管理端202构成,在图1所示的现有技术中的一种基于基板管理控制器的服务器监控系统的基础上,在基板管理控制器201上新增主动分析(active_analyse,ACT_ANA)模块,用于判断主机端203的CPU温度是否超出主机端203的风扇调节能力,并在超出时产生主动调节指令。在主机端203新增主机主动控制(HOST_ACT)模块,用于解析得到主动调节指令后上报主机端203以触发主机端203的CPU采取主动降低CPU负载的措施。在主机端203的CPU部署用于执行降低CPU负载的主动措施的预设脚本,如通过部署于主机端203的CPU的预设驱动来调用预设脚本,用于实际执行降低CPU负载的任务。
基板管理控制器201通过主动分析(active_analyse,ACT_ANA)模块接收主机端203的状态信息,至少包括主机端203的CPU温度信息和主机端203的风扇转速信息,分析主机端203的CPU温度是否超出主机端203的风扇调节能力,如果超出,则需要采取主动措施,主动分析(active_analyse,ACT_ANA)模块生成主动调节指令,通过接口控制器(interfacecontroller,INTF_CTRL)模块将主动调节指令发送到主机端203。主机端203通过主机主动控制(HOST_ACT)模块接收并解析主动分析(active_analyse,ACT_ANA)模块发出的主动调节指令,然后产生中断,上报主机端203的CPU。主机端203的CPU启动预设驱动以运行预设脚本执行降低主机端203的CPU负载的主动措施,从而配合风扇实现对主机端203的CPU的降温操作。
实施例二
在上述架构的基础上,下面结合附图对本申请实施例提供的服务器监控方法进行说明。
图3为本申请实施例提供的一种服务器监控方法的流程图。
如图3所示,基于本地服务器的基板管理控制器,本申请实施例提供的服务器监控方法包括:
S301:获取本地服务器主机端的CPU温度信息和主机端的风扇转速信息。
S302:当确定主机端的CPU温度超出主机端的风扇调节能力时,向主机端发送主动调节指令,以触发主机端的CPU运行预设脚本以降低主机端的CPU的负载。
在具体实施中,步骤S301中,基板管理控制器通过接口控制器(interfacecontroller,INTF_CTRL)模块通过不同的接口(如集成电路总线(Inter-IntegratedCircuit,I2C)、低速设备(Low pin count,LPC)总线等)获取主机端的状态信息,如主机端的CPU温度信息、风扇转速信息、电源电压信息等。
对于步骤S302来说,在基板管理控制器的现有功能中已有对风扇转速的控制功能,即随着主机端CPU温度的升高而提高主机端的风扇转速,而针对CPU温度过高而超出风扇降温能力的情况,需要预先应对以避免其发生时造成无法挽回的后果。故可以通过设置温度阈值来使基板管理控制器判断主机端的CPU温度是否超出主机端的风扇调节能力。则基板管理控制器确定主机端的CPU温度超出主机端的风扇调节能力,具体为:当主机端的CPU温度超出第一阈值时,确定主机端的CPU温度超出主机端的风扇调节能力。温度阈值可以通过实验得到一个执行主动措施时间不会超过从CPU温度达到第一阈值到系统故障的时长的值。CPU允许运行的最高温度通常为100℃,则第一阈值可以设置为90℃。同时接受监控人员对温度阈值的修改。当主机端的CPU温度超出第一阈值时,认为主机端的风扇无论如何都无法调控CPU温度了,此时需要主机端采取主动措施配合风扇降温。
或者,还可以步骤S302中基板管理控制器确定主机端的CPU温度超出主机端的风扇调节能力,具体为:根据CPU温度信息和风扇转速信息预测得到主机端的风扇转速将在预设时间内达到第三阈值时,确定主机端的CPU温度超出主机端的风扇调节能力。在具体实施中,可以基于基板管理控制器原有的风扇转速控制逻辑(即风扇转速与CPU温度的对应关系),根据CPU温度攀升的速率预测风扇转速的控制策略,若预计将在预设时间内需控制风扇转速达到第三阈值(小于风扇转速的最大值),则认为确定主机端的CPU温度超出主机端的风扇调节能力,需主机端采取主动措施配合风扇降温。
基于实施例一提供的服务器监控系统,主机端运行主机主动控制(HOST_ACT)模块分析得到基板管理控制器的主动分析(active_analyse,ACT_ANA)模块发送的主动调节指令后产生中断,上报主机端的CPU。主机端的CPU运行预先部署的预设驱动,以调用预设脚本降低主机端的CPU的负载。通过主机端的CPU主动降低CPU负载,达到主动给主机端的CPU降低温度的效果,避免因CPU温度超出风扇调节能力而导致系统宕机或损坏。
预设脚本是用于降低CPU负载的脚本。主机端的CPU运行预设脚本以降低主机端的CPU的负载,具体可以为:主机端的CPU运行预设脚本以执行降低资源占用情况达到预设标准的进程的调度优先级、查杀本地病毒、将主机端的CPU的进程强制迁移至主机端的另一CPU、关闭超线程功能中的至少一项任务。
其中,进程的调度优先级(nice)为进程被调用的优先级,利用renice命令进行调整。通常进程的调度优先级的取值为从-20到+19的整数,-20是最大的调度优先级(nice值)。默认情况下,进程的调度优先级是“0”(“基本”调度优先级)。调度优先级较大的进程(nice值较小,最小为-20)相较于调度优先级较小的进程(nice值较大,最大为+19)将更为频繁地被调度运行,因此就拥有更多的进程周期。普通用户只能降低自己的进程的调度优先级,超级用户(root)可以将任何进程的调度优先级设为任何值,如“renice+15 785”(15是调度优先级,785是进程号)。主机端CPU运行预设脚本执行降低资源占用情况达到预设标准的进程的调度优先级的任务,即主机端CPU运行预设脚本,利用renice命令将长时间大量占用系统资源的进程的调度优先级调低。其中评估“资源占用情况达到预设标准”可以结合资源占用时间和资源占用率的函数来评估资源占用情况的值,与预设标准对应的值作比较,来衡量是否为长时间大量占用系统资源的进程。
CPU温度的攀升有可能是病毒导致的,为此,在执行完降低资源占用情况达到预设标准的进程的调度优先级的任务后,还可以调用病毒查杀软件查杀本地病毒。
此外,若本地服务器为多核CPU,则可以利用taskset命令来进行多核CPU的任务调度,将温度较高的CPU上的进程强制迁移到温度较低的CPU上运行,以达到降低温度较高的CPU的负载进而降温的目的。
此外,一般大型的应用软件的运行会耗CPU和内存大量的资源,有时也会因一些网络配置不当从而使这些应用软件的性能得不到充分的发挥,从而导致的是耗资源而不见功效的现象,故可以通过关闭超线程功能来降低CPU负载。
除此以外,还可以接收监控人员自行添加的降低CPU负载或直接降低CPU温度的配置内容,并根据该配置内容进行预设脚本的重新配置。
本申请实施例提供的服务器监控方法,由本地服务器的基板管理控制器根据本地服务器主机端的CPU温度信息和主机端的风扇转速信息确定主机端的CPU温度超出主机端的风扇调节能力时,向主机端发送主动调节指令,以触发主机端的CPU运行预设脚本以降低主机端CPU的负载。从而可以在远程监控管理端无人值守时由主机端主动采取措施给主机端CPU降低温度,避免宕机或服务器损坏,保障本地服务器的安全运行。
实施例三
在上述实施例的基础上,本申请实施例提供的服务器监控方法还包括:
当主机端的CPU温度大于第二阈值且小于等于第一阈值时,向远程监控管理端发送报警信号以触发远程监控管理端预设的报警机制。
在具体实施中,为辅助本地服务器的主动措施,预先在远程监控管理端设置报警机制(Remote_Alarm),包括硬件部分和软件部分。报警机制的硬件部分可以为蜂鸣器、报警灯、语音播报器等,或增加通信模块给远程监控人员发送信息。软件部分即远程监控管理端的监控软件的对应修改,以使远程监控管理端在接收到基板管理控制器通过网络发送的报警信号时执行报警操作。
当基板管理控制器解析到主机端的CPU温度小于等于第二阈值时,主动分析(active_analyse,ACT_ANA)模块不采取措施,此时基板管理控制器运行的本地监控软件依靠自身的调整能力,去调整当前风扇的转速,已达到给主机端CPU降温的目的。
当主机端的CPU温度大于第二阈值且小于等于第一阈值时(第二阈值小于第一阈值)时,基板管理控制器通过主动分析(active_analyse,ACT_ANA)模块产生中断信号到基板管理控制器的内部CPU,此时内部CPU运行的驱动程序会产生一个特定的网络数据包(预先与远程监控管理端的软件协商好的网络数据包)并通过网络发送,远程监控管理端解析到此网络数据包后,产生对应的操作执行,包括但不限于控制与本地服务器对应的蜂鸣器/报警灯/语音播报器进行报警,以告知远程管理控制端的监控人员本地服务器的主机端CPU温度逼近上限的情况,以使监控人员及时获知并快速处理。
其中,第一阈值可以为90℃,第二阈值可以为80℃。第一阈值和第二阈值可以由监控人员根据需要进行调整。
实施例四
在上述实施例的基础上,本申请实施例提供的服务器监控方法还包括:
将主机端的CPU运行预设脚本的日志发送至远程监控管理端。
为方便监控人员后续查看,本地服务器主机端的CPU将主动采取的降低CPU负载的措施产生的日志文件,通过接口控制器(interface controller,INTF_CTRL)模块发送到本地服务器的基板管理控制器,由基板管理控制器通过网络将日志文件传输到远程监控管理端。此外,还可以将日志文件保存于本地服务器的存储空间中留待后续查看。
进一步的,可以每经过一个监控周期,删除生成时间超出预定时间的日志文件。
上文详述了服务器监控方法对应的各个实施例,在此基础上,本申请还公开了与上述方法对应的服务器监控装置、设备及计算机可读存储介质。
实施例五
图4为本申请实施例提供的一种服务器监控装置的结构示意图。
如图4所示,本申请实施例提供的服务器监控装置包括:
获取单元401,用于获取本地服务器主机端的CPU温度信息和主机端的风扇转速信息;
发送单元402,用于当确定主机端的CPU温度超出主机端的风扇调节能力时,向主机端发送主动调节指令,以触发主机端的CPU运行预设脚本以降低主机端的CPU的负载。
进一步的,发送单元402确定主机端的CPU温度超出主机端的风扇调节能力,具体为:
发送单元402当主机端的CPU温度超出第一阈值时,确定主机端的CPU温度超出主机端的风扇调节能力。
则进一步的,本申请实施例提供的服务器监控装置还包括:
报警单元,用于当主机端的CPU温度大于第二阈值且小于等于第一阈值时,向远程监控管理端发送报警信号以触发远程监控管理端预设的报警机制。
或者,发送单元402确定主机端的CPU温度超出主机端的风扇调节能力,具体为:
发送单元402根据CPU温度信息和风扇转速信息预测得到主机端的风扇转速将在预设时间内达到第三阈值时,确定主机端的CPU温度超出主机端的风扇调节能力。
进一步的,主机端的CPU运行预设脚本以降低主机端的CPU的负载,具体为:
主机端的CPU运行预先部署的预设驱动,以调用预设脚本降低主机端的CPU的负载。
进一步的,主机端的CPU运行预设脚本以降低主机端的CPU的负载,具体为:
主机端CPU运行预设脚本以执行降低资源占用情况达到预设标准的进程的调度优先级、查杀本地病毒、将主机端CPU的进程强制迁移至主机端的另一CPU、关闭超线程功能中的至少一项任务。
进一步的,本申请实施例提供的服务器监控装置还包括:
记录单元,用于将主机端的CPU运行预设脚本的日志发送至远程监控管理端。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图5为本申请实施例提供的一种服务器监控设备的结构示意图。
如图5所示,本申请实施例提供的服务器监控设备包括:
存储器510,用于存储指令,所述指令包括上述任意一项实施例所述的服务器监控方法的步骤;
处理器520,用于执行所述指令。
其中,处理器520可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器520可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器520也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器520可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器520还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器510可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器510还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器510至少用于存储以下计算机程序511,其中,该计算机程序511被处理器520加载并执行之后,能够实现前述任一实施例公开的服务器监控方法中的相关步骤。另外,存储器510所存储的资源还可以包括操作系统512和数据513等,存储方式可以是短暂存储或者永久存储。其中,操作系统512可以为Windows。数据513可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,服务器监控设备还可包括有显示屏530、电源540、通信接口550、输入输出接口560、传感器570以及通信总线580。
本领域技术人员可以理解,图5中示出的结构并不构成对服务器监控设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的服务器监控设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的服务器监控方法,效果同上。
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。
为此,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如服务器监控方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-OnlyMemory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的计算机可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的服务器监控方法的步骤,效果同上。
以上对本申请所提供的一种服务器监控方法、装置、设备及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种服务器监控方法,其特征在于,基于本地服务器的基板管理控制器,包括:
获取所述本地服务器主机端的CPU温度信息和所述主机端的风扇转速信息;
当确定所述主机端的CPU温度超出所述主机端的风扇调节能力时,向所述主机端发送主动调节指令,以触发所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载。
2.根据权利要求1所述的服务器监控方法,其特征在于,所述确定所述主机端的CPU温度超出所述主机端的风扇调节能力,具体为:
当所述主机端的CPU温度超出第一阈值时,确定所述主机端的CPU温度超出所述主机端的风扇调节能力。
3.根据权利要求2所述的服务器监控方法,其特征在于,还包括:
当所述主机端的CPU温度大于第二阈值且小于等于所述第一阈值时,向远程监控管理端发送报警信号以触发所述远程监控管理端预设的报警机制。
4.根据权利要求1所述的服务器监控方法,其特征在于,所述确定所述主机端的CPU温度超出所述主机端的风扇调节能力,具体为:
根据所述CPU温度信息和所述风扇转速信息预测得到所述主机端的风扇转速将在预设时间内达到第三阈值时,确定所述主机端的CPU温度超出所述主机端的风扇调节能力。
5.根据权利要求1所述的服务器监控方法,其特征在于,所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载,具体为:
所述主机端的CPU运行预先部署的预设驱动,以调用所述预设脚本降低所述主机端的CPU的负载。
6.根据权利要求1所述的服务器监控方法,其特征在于,所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载,具体为:
所述主机端的CPU运行所述预设脚本以执行降低资源占用情况达到预设标准的进程的调度优先级、查杀本地病毒、将所述主机端的CPU的进程强制迁移至所述主机端的另一CPU、关闭超线程功能中的至少一项任务。
7.根据权利要求1所述的服务器监控方法,其特征在于,还包括:
将所述主机端的CPU运行所述预设脚本的日志发送至远程监控管理端。
8.一种服务器监控装置,其特征在于,包括:
获取单元,用于获取所述本地服务器主机端的CPU温度信息和所述主机端的风扇转速信息;
发送单元,用于当确定所述主机端的CPU温度超出所述主机端的风扇调节能力时,向所述主机端发送主动调节指令,以触发所述主机端的CPU运行预设脚本以降低所述主机端的CPU的负载。
9.一种服务器监控设备,其特征在于,包括:
存储器,用于存储指令,所述指令包括权利要求1至7任意一项所述服务器监控方法的步骤;
处理器,用于执行所述指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述服务器监控方法的步骤。
CN202110680380.8A 2021-06-18 2021-06-18 一种服务器监控方法、装置、设备及计算机可读存储介质 Active CN113360344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110680380.8A CN113360344B (zh) 2021-06-18 2021-06-18 一种服务器监控方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110680380.8A CN113360344B (zh) 2021-06-18 2021-06-18 一种服务器监控方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113360344A true CN113360344A (zh) 2021-09-07
CN113360344B CN113360344B (zh) 2023-03-21

Family

ID=77535210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110680380.8A Active CN113360344B (zh) 2021-06-18 2021-06-18 一种服务器监控方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113360344B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020489A (zh) * 2021-11-01 2022-02-08 山东芯慧微电子科技有限公司 一种基板管理控制芯片
CN114116378A (zh) * 2021-11-11 2022-03-01 苏州浪潮智能科技有限公司 获取PCIe设备温度的方法、系统、终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101660539A (zh) * 2009-09-21 2010-03-03 中兴通讯股份有限公司 一种风扇转速控制方法和装置
CN104660440A (zh) * 2013-11-25 2015-05-27 深圳中电长城信息安全系统有限公司 一种刀片服务器管理系统及其控制方法
US20150355651A1 (en) * 2014-06-05 2015-12-10 American Megatrends, Inc. Thermal watchdog process in host computer management and monitoring
CN108062270A (zh) * 2017-12-14 2018-05-22 郑州云海信息技术有限公司 风扇故障管理方法、系统、装置及可读存储介质
CN108490913A (zh) * 2018-03-22 2018-09-04 深圳市沃特沃德股份有限公司 控制车载系统温度的方法与装置
CN108983922A (zh) * 2018-06-27 2018-12-11 紫光华山信息技术有限公司 工作频率调节方法、装置及服务器
CN109189190A (zh) * 2018-10-16 2019-01-11 西安交通大学 一种基于温度预测的数据中心热量管理方法
CN111273753A (zh) * 2020-01-19 2020-06-12 苏州浪潮智能科技有限公司 一种基于bmc的机房温度检测控制方法、装置、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101660539A (zh) * 2009-09-21 2010-03-03 中兴通讯股份有限公司 一种风扇转速控制方法和装置
CN104660440A (zh) * 2013-11-25 2015-05-27 深圳中电长城信息安全系统有限公司 一种刀片服务器管理系统及其控制方法
US20150355651A1 (en) * 2014-06-05 2015-12-10 American Megatrends, Inc. Thermal watchdog process in host computer management and monitoring
CN108062270A (zh) * 2017-12-14 2018-05-22 郑州云海信息技术有限公司 风扇故障管理方法、系统、装置及可读存储介质
CN108490913A (zh) * 2018-03-22 2018-09-04 深圳市沃特沃德股份有限公司 控制车载系统温度的方法与装置
CN108983922A (zh) * 2018-06-27 2018-12-11 紫光华山信息技术有限公司 工作频率调节方法、装置及服务器
CN109189190A (zh) * 2018-10-16 2019-01-11 西安交通大学 一种基于温度预测的数据中心热量管理方法
CN111273753A (zh) * 2020-01-19 2020-06-12 苏州浪潮智能科技有限公司 一种基于bmc的机房温度检测控制方法、装置、设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020489A (zh) * 2021-11-01 2022-02-08 山东芯慧微电子科技有限公司 一种基板管理控制芯片
CN114020489B (zh) * 2021-11-01 2024-09-06 山东芯慧微电子科技有限公司 一种基板管理控制芯片
CN114116378A (zh) * 2021-11-11 2022-03-01 苏州浪潮智能科技有限公司 获取PCIe设备温度的方法、系统、终端及存储介质
CN114116378B (zh) * 2021-11-11 2023-12-22 苏州浪潮智能科技有限公司 获取PCIe设备温度的方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN113360344B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN113360344B (zh) 一种服务器监控方法、装置、设备及计算机可读存储介质
WO2016101099A9 (en) Techniques for power management associated with processing received packets at a network device
US20230035371A1 (en) Power consumption reduction circuit for gpus in server, and server
US20120017074A1 (en) Dynamic system mode switching
TW201702799A (zh) 動態管理電力供應的方法、系統
CN114050983B (zh) 流量自适应采集方法及装置、存储介质及电子设备
CN105739668A (zh) 一种笔记本电脑的电源管理方法及电源管理系统
CN115114118A (zh) 服务器监控方法及相关设备
WO2021078144A1 (zh) 能耗管理的方法和设备
CN112463367A (zh) 一种存储系统性能优化方法、系统及电子设备和存储介质
CN113852564A (zh) 一种服务器控制方法、装置、介质
EP3489777A1 (en) Control device, control method, and program
US20240303382A1 (en) Method, apparatus and system for monitoring i2c, and storage medium
CN103577306A (zh) 云平台中主动式探测的高可用软件运行方法
US20210048863A1 (en) System and Method for Controlling a Power-On Sequence and Power Throttling using Power Brake
CN117331425B (zh) 功耗管理系统、功耗管理方法、存储介质及电子设备
CN115480884A (zh) 芯片、芯片的测试监控方法及计算机可读存储介质
CN113590285A (zh) 一种用于线程池参数动态设置的方法、系统及设备
KR20160032881A (ko) 클라우드 기반의 지능형 전력제어 시스템
CN116991221A (zh) 功耗调整方法及装置
CN114610562B (zh) 服务器功耗管控方法、系统、终端及存储介质
CN113886196B (zh) 片上功耗管理方法、电子设备及存储介质
US9372786B1 (en) Constructing state-transition functions for mobile devices
CN114327020A (zh) 一种无线模组、功耗控制方法及电子设备
CN110647401B (zh) 调频方法、调频装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant