CN113204461B - 一种服务器硬件监控的方法、装置、设备及可读介质 - Google Patents

一种服务器硬件监控的方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN113204461B
CN113204461B CN202110412228.1A CN202110412228A CN113204461B CN 113204461 B CN113204461 B CN 113204461B CN 202110412228 A CN202110412228 A CN 202110412228A CN 113204461 B CN113204461 B CN 113204461B
Authority
CN
China
Prior art keywords
component
information
heat dissipation
server
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110412228.1A
Other languages
English (en)
Other versions
CN113204461A (zh
Inventor
李星辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110412228.1A priority Critical patent/CN113204461B/zh
Publication of CN113204461A publication Critical patent/CN113204461A/zh
Application granted granted Critical
Publication of CN113204461B publication Critical patent/CN113204461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种服务器硬件监控的方法,该方法包括:采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险;基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警。通过使用本发明的方案,能够实现服务器系统内散热的高效节能,能够提高服务器的可靠性与稳定性,提高产品竞争力。

Description

一种服务器硬件监控的方法、装置、设备及可读介质
技术领域
本领域涉及计算机领域,并且更具体地涉及一种服务器硬件监控的方法、装置、设备及可读介质。
背景技术
在服务器系统中,风扇等散热部件的供电与调控往往是分开处理的,服务器的主风扇部件的调控往往属于BMC(基板管理控制器)调控,但是服务器内部的其他部件的散热调控却不归属于服务器整体的调控策略中,这样往往会出现散热策略的相互干涉问题,并且各自为政的调控容易造成能耗的不节能问题。
风扇等散热的供电往往则是分别取自服务器主板端,供电策略未得到相应的统一调控,使得在BMC未激活的情况下,风扇等散热部件的调控不精准,例如上电瞬间BMC未激活,为了安全起见,对风扇等散热部件进行全速转动的策略,待BMC的调控策略在激活之后才能导入散热策略,造成了其他部件的干扰与能耗上的浪费问题。
现有风扇调控与供电系统往往会出现散热策略的相互干涉问题,并且各自为政的调控容易造成能耗的不节能问题。传统的BMC控制设计具有延时高,协调能力差,硬件协调效率底下等问题。
发明内容
有鉴于此,本发明实施例的目的在于提出一种服务器硬件监控的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够实现服务器系统内散热的高效节能,能够提高服务器的可靠性与稳定性,提高产品竞争力。
基于上述目的,本发明的实施例的一个方面提供了一种服务器硬件监控的方法,包括以下步骤:
采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险;
基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警。
根据本发明的一个实施例,采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中包括:
通过设置在服务器的每个部件上的侵入式调控模块实时采集每个部件的信息;
将采集到的信息通过控制总线传输到监控模块中的AI智能芯片中并保存在AI智能芯片的存储单元中。
根据本发明的一个实施例,AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型包括:
将信息进行神经网络学习以构建分析模型。
根据本发明的一个实施例,将信息进行神经网络学习以构建分析模型包括:
将信息作为训练集数据进行训练以得到参数修正量;
基于参数修正量对神经网络模型的参数进行修正以构建分析模型。
根据本发明的一个实施例,基于散热需求调整相应的风扇转速以调整部件的散热包括:
响应于部件的散热需求低于部件当前的散热条件,降低部件对应的风扇转速;
响应于部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速。
根据本发明的一个实施例,每个部件的信息包括每个部件不同位置的温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信息。
根据本发明的一个实施例,基于故障风险将存在风险的部件进行预警包括:
将预警信息通过网络发送到管理员的邮箱和通信设备中并将预警信息在服务器的显示器上进行显示。
本发明的实施例的另一个方面,还提供了一种服务器硬件监控的装置,装置包括:
调控模块,调控模块配置为采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
监控模块,监控模块AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险;
预警模块,预警模块配置为基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警。
本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
本发明具有以下有益技术效果:本发明实施例提供的服务器硬件监控的方法,通过采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险;基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警的技术方案,能够实现服务器系统内散热的高效节能,能够提高服务器的可靠性与稳定性,提高产品竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的服务器硬件监控的方法的示意性流程图;
图2为根据本发明一个实施例的服务器硬件监控系统的示意图;
图3为根据本发明一个实施例的服务器硬件监控的装置的示意图;
图4为根据本发明一个实施例的计算机设备的示意图;
图5为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种服务器硬件监控的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中。
S2 AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险。
S3基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警。
大量的信息采集是本发明的关键点,可以通过在服务器各个部件的位置处设置大量的侵入式采集模块,每个部件上的不同位置处也需要设置侵入式采集模块,通过多个位置的信息采集可以得到该部件的准确参数,例如监控采集各个部件的各个位置的温度信息等。硬件部件的入侵式采集模块针对服务器内的部件进行针对性的信息采集与构建各种部件状态信息与协调其他部件所产生的预想结果信息。例如针对硬盘部件来说,服务器内的硬盘部件的入侵式采集模块主要是针对硬盘部件的电压、电流、通讯速度、通讯质量和硬盘部件各个点的温度分布与温度变化梯度的信息采集,通过这些信息的采集,将这些信息传输给监控模块中的AI智能芯片构建出各种模型,例如硬盘部件的寿命周期预期模型,该硬盘部件的通讯故障以及失效模型,能耗的动态变化模型等,通过这些模型的建立进行结果的推导与达到提前预警故障与失效风险,提前预警计算该硬盘的动态寿命的变化,根据这些预警结果与风险,提前构建预警方案与策略,实现服务器的稳定性的增强。
侵入式采集模块将实时采集到的各种硬件的各种信息通过通讯控制总线传输到监控模块中的AI智能芯片进行模型的创建,通讯控制总线让监控模块作为唯一的主设备,侵入式采集模块均为从设备,读写操作只需要进行主从设备之间的操作,同时,监控模块与服务器的主控芯片之间也可以进行高速传输通讯,可以让服务器的主控芯片分担架构过大的服务器的过大的计算量的需求,还可以通过设计拓展PCIE口的设计,增加CPU或GPU的拓展支持以拓展计算量。同时,调控策略可以通过监控模块直接下达到各个部件中,也可以上传给服务器系统,通过服务器系统执行相应的调控策略。
AI智能芯片接收到侵入式采集模块发送的信息后通过神经网络学习构建分析模型,将采集到的信息作为训练集数据进行训练以得到参数修正量,基于参数修正量对神经网络模型的参数进行修正以构建分析模型。通过收集各个部件的信息,例如硬件不同点的温度信息、各个风扇转速信息、各个部件电压电流信息等,AI智能芯片通过这些信息构建分析模型,例如构建当前服务器的时时动态的温度模型、散热模型、电流电压稳定性模型等,通过对这些模型的监控与实时构建,构建服务器当前的健康与硬件状态模型,再经过实时动态采集,比对每一时间点的硬件状态与健康状态的模型计算推演服务器当前的硬件寿命与存在硬件风险的概率与风险点。通过对散热模型的分析可以得到每个部件当前的散热情况以及后续的散热需求,根据当前的散热情况和散热需求可以对部件对应的风扇的转速进行调整以使部件的散热情况满足散热需求的要求,例如,部件的散热需求低于部件当前的散热情况,可以降低部件对应的风扇转速,如果该部件没有独立的风扇,可以通过分析该部件最近的风扇的转速以及其他部件的当前散热情况判断是否可以降低该风扇的转速,如果部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速,如果该部件没有独立的风扇,可以提高该部件最近的风扇的转速。
风扇的调控策略通常的设计方法为实时采集CPU等关键调控点的温度,采用阈值调控方式,固定的阈值点,达到固定点进行一定规则的风扇加速或者减速策略。这种调控策略简单但是对于非调控点的部件异常无法判断,例如服务器内非调控点的网卡出现异常,导致临时温度瞬间过高,否则会造成部件损坏,而单一的调控无法发现与针对此问题,再或者GPU部件在运行时经常出现温度瞬态过高,但是调控曲线无法满足这种瞬态条件下的维持时间与实际状态,只是根据他达到一定数值进行调控,而实际GPU的平均温度并未达到需要调整的点,过早的介入调控会造成不必要的能耗损失。因此,通过本发明的方法的进行风扇的调控可以实现服务器系统内散热的高效节能。
本发明的方法可以具体解决服务器系统的整体风扇调控与功耗调控,通过区别于BMC控制策略,该方法具有更高的调控效率与测试监控能力,是一种额外加入的独特的新引入控制系统设计。
通过本发明的技术方案,能够实现服务器系统内散热的高效节能,能够提高服务器的可靠性与稳定性,提高产品竞争力。
在本发明的一个优选实施例中,服务器的每个部件上设置有侵入式调控模块。采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中包括:
通过设置在服务器的每个部件上的侵入式调控模块实时采集每个部件的信息;
将采集到的信息通过控制总线传输到监控模块中的AI智能芯片中并保存在AI智能芯片的存储单元中。
图2为根据本发明一个实施例的服务器硬件监控系统的示意图,如图2所示,可以在服务器中的每个部件上设置侵入式调控模块,该侵入式调控模块可以实时采集每个部件的信息,这些信息包括温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信息,还可以在每个部件的不同位置处设置多个侵入式调控模块以使采集的信息更加准确。侵入式调控模块将实时采集到的信息通过通讯监控总线发送到监控模块中,监控模块中有独立的存储单元存储这些信息,监控模块中的AI智能芯片可以通过采集到的信息构建分析模型,例如构建当前服务器的时时动态的温度模型、散热模型、电流电压稳定性模型等,通过对这些模型的监控与实时构建,构建服务器当前的健康与硬件状态模型,再经过实时动态采集,比对每一时间点的硬件状态与健康状态的模型计算推演服务器当前的硬件寿命与存在硬件风险的概率与风险点。经过AI分析得出的调控策略可以通过监控模块直接下达到各个部件中执行,也可以上传给服务器系统,通过服务器系统执行相应的调控策略。
在本发明的一个优选实施例中,AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型包括:
将信息进行神经网络学习以构建分析模型。
在本发明的一个优选实施例中,将信息进行神经网络学习以构建分析模型包括:
将信息作为训练集数据进行训练以得到参数修正量;
基于参数修正量对神经网络模型的参数进行修正以构建分析模型。
首先,数据AI智能芯片将当前采集到的硬件各信息,以及以往采集到的信息作为训练数据,在神经网络模型的多个层上进行正向处理,并在正向处理结束时获得误差信息,然后AI智能芯片通过误差逆传播算法将误差信息进行反向处理,在神经网络模型的反向处理产生参数修正量。此方法检测硬件故障具有主观能动性,在故障发生之前就能预测到故障可能发现,不但缩短了故障时间,而且大大提高了集群系统的可用性。结合参数修正量对神经网络模型的参数进行更新具体可以包括结合参数修正量,对神经网络模型的输入参数的权值和输出结果的阈值进行不断地调整以使误差平方和最小。通过不断的数据传入,AI智能芯片的学习次数不断提高,其预测精度也不断攀升,整个系统的硬件故障预测能力也不断提高。
在本发明的一个优选实施例中,基于散热需求调整相应的风扇转速以调整部件的散热包括:
响应于部件的散热需求低于部件当前的散热条件,降低部件对应的风扇转速;
响应于部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速。通过对散热模型的分析可以得到每个部件当前的散热情况(散热条件)以及后续的散热需求,根据当前的散热情况和散热需求可以对部件对应的风扇的转速进行调整以使部件的散热情况满足散热需求的要求,例如,部件的散热需求低于部件当前的散热情况,可以降低部件对应的风扇转速,如果该部件没有独立的风扇,可以通过分析该部件最近的风扇的转速以及其他部件的当前散热情况判断是否可以降低该风扇的转速,如果部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速,如果该部件没有独立的风扇,可以提高该部件最近的风扇的转速。
在本发明的一个优选实施例中,每个部件的信息包括每个部件不同位置的温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信息。AI智能芯片接收到侵入式采集模块发送的信息后通过神经网络学习构建分析模型,将采集到的信息作为训练集数据进行训练以得到参数修正量,基于参数修正量对神经网络模型的参数进行修正以构建分析模型。通过收集各个部件的信息,例如硬件不同点的温度信息、各个风扇转速信息、各个部件电压电流信息等,AI智能芯片通过这些信息构建分析模型,例如构建当前服务器的时时动态的温度模型、散热模型、电流电压稳定性模型等,通过对这些模型的监控与实时构建,构建服务器当前的健康与硬件状态模型,再经过实时动态采集,比对每一时间点的硬件状态与健康状态的模型计算推演服务器当前的硬件寿命与存在硬件风险的概率与风险点。通过对散热模型的分析可以得到每个部件当前的散热情况以及后续的散热需求,根据当前的散热情况和散热需求可以对部件对应的风扇的转速进行调整以使部件的散热情况满足散热需求的要求,例如,部件的散热需求低于部件当前的散热情况,可以降低部件对应的风扇转速,如果该部件没有独立的风扇,可以通过分析该部件最近的风扇的转速以及其他部件的当前散热情况判断是否可以降低该风扇的转速,如果部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速,如果该部件没有独立的风扇,可以提高该部件最近的风扇的转速。
在本发明的一个优选实施例中,基于故障风险将存在风险的部件进行预警包括:
将预警信息通过网络发送到管理员的邮箱和通信设备中并将预警信息在服务器的显示器上进行显示。
通过本发明的技术方案,能够实现服务器系统内散热的高效节能,能够提高服务器的可靠性与稳定性,提高产品竞争力。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种服务器硬件监控的装置,如图3所示,装置200包括:
调控模块,调控模块配置为采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
监控模块,监控模块AI智能芯片基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的散热需求和故障风险;
预警模块,预警模块配置为基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故障风险将存在风险的部件进行预警。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图4示出的是本发明提供的计算机设备的实施例的示意图。如图4所示,本发明实施例包括如下装置:至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令S23,指令由处理器执行时实现以上方法的步骤。
基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图5示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图5所示,计算机可读存储介质存储S31有被处理器执行时执行如上方法的计算机程序S32。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种服务器硬件监控的方法,其特征在于,包括以下步骤:
采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
所述AI智能芯片基于接收到的所述信息对所述服务器上的每个部件构建分析模型,并基于所述分析模型计算每个部件的散热需求和故障风险;
基于所述散热需求调整相应的风扇转速以调整部件的散热,并且基于所述故障风险将存在风险的部件进行预警。
2.根据权利要求1所述的方法,其特征在于,采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中包括:
通过设置在服务器的每个部件上的侵入式调控模块实时采集每个部件的信息;
将采集到的信息通过控制总线传输到监控模块中的AI智能芯片中并保存在所述AI智能芯片的存储单元中。
3.根据权利要求1所述的方法,其特征在于,所述AI智能芯片基于接收到的信息对所述服务器上的每个部件构建分析模型包括:
将所述信息进行神经网络学习以构建分析模型。
4.根据权利要求3所述的方法,其特征在于,将所述信息进行神经网络学习以构建分析模型包括:
将所述信息作为训练集数据进行训练以得到参数修正量;
基于所述参数修正量对所述神经网络模型的参数进行修正以构建所述分析模型。
5.根据权利要求1所述的方法,其特征在于,基于所述散热需求调整相应的风扇转速以调整部件的散热包括:
响应于部件的散热需求低于部件当前的散热条件,降低部件对应的风扇转速;
响应于部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速。
6.根据权利要求1所述的方法,其特征在于,每个部件的信息包括每个部件不同位置的温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信息。
7.根据权利要求1所述的方法,其特征在于,基于所述故障风险将存在风险的部件进行预警包括:
将预警信息通过网络发送到管理员的邮箱和通信设备中并将预警信息在所述服务器的显示器上进行显示。
8.一种服务器硬件监控的装置,其特征在于,所述装置包括:
调控模块,所述调控模块配置为采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
监控模块,所述监控模块所述AI智能芯片基于接收到的信息对所述服务器上的每个部件构建分析模型,并基于所述分析模型计算每个部件的散热需求和故障风险;
预警模块,所述预警模块配置为基于所述散热需求调整相应的风扇转速以调整部件的散热,并且基于所述故障风险将存在风险的部件进行预警。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
CN202110412228.1A 2021-04-16 2021-04-16 一种服务器硬件监控的方法、装置、设备及可读介质 Active CN113204461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110412228.1A CN113204461B (zh) 2021-04-16 2021-04-16 一种服务器硬件监控的方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110412228.1A CN113204461B (zh) 2021-04-16 2021-04-16 一种服务器硬件监控的方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN113204461A CN113204461A (zh) 2021-08-03
CN113204461B true CN113204461B (zh) 2022-05-03

Family

ID=77027435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110412228.1A Active CN113204461B (zh) 2021-04-16 2021-04-16 一种服务器硬件监控的方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN113204461B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901530B (zh) * 2021-09-10 2024-01-09 苏州浪潮智能科技有限公司 一种硬盘防御性预警保护的方法、装置、设备及可读介质
CN114002488B (zh) * 2021-09-29 2024-01-16 苏州浪潮智能科技有限公司 一种自动化监测及调节方法、装置及系统
CN114002901B (zh) * 2021-11-03 2023-06-20 江苏金视传奇科技有限公司 一种投影仪的散热系统
CN114326999B (zh) * 2021-12-30 2023-07-14 苏州浪潮智能科技有限公司 一种基于热成像散热调控的方法、系统、设备和存储介质
CN116483180A (zh) * 2023-03-10 2023-07-25 苏州振畅智能科技有限公司 一种主动散热装置的智能控制方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273273A (zh) * 2017-06-27 2017-10-20 郑州云海信息技术有限公司 一种分布式集群硬件故障预警方法及系统
CN108194398A (zh) * 2017-12-29 2018-06-22 青岛海信医疗设备股份有限公司 风扇控制方法及装置
CN109324679A (zh) * 2018-09-21 2019-02-12 郑州云海信息技术有限公司 一种服务器能耗控制方法及装置
CN109639450A (zh) * 2018-10-23 2019-04-16 平安壹钱包电子商务有限公司 基于神经网络的故障告警方法、计算机设备及存储介质
CN109707654A (zh) * 2018-12-17 2019-05-03 新华三技术有限公司 一种风扇调速方法及装置
CN110594180A (zh) * 2019-07-19 2019-12-20 苏州浪潮智能科技有限公司 一种服务器散热控制器的控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11579951B2 (en) * 2018-09-27 2023-02-14 Oracle International Corporation Disk drive failure prediction with neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273273A (zh) * 2017-06-27 2017-10-20 郑州云海信息技术有限公司 一种分布式集群硬件故障预警方法及系统
CN108194398A (zh) * 2017-12-29 2018-06-22 青岛海信医疗设备股份有限公司 风扇控制方法及装置
CN109324679A (zh) * 2018-09-21 2019-02-12 郑州云海信息技术有限公司 一种服务器能耗控制方法及装置
CN109639450A (zh) * 2018-10-23 2019-04-16 平安壹钱包电子商务有限公司 基于神经网络的故障告警方法、计算机设备及存储介质
CN109707654A (zh) * 2018-12-17 2019-05-03 新华三技术有限公司 一种风扇调速方法及装置
CN110594180A (zh) * 2019-07-19 2019-12-20 苏州浪潮智能科技有限公司 一种服务器散热控制器的控制方法及系统

Also Published As

Publication number Publication date
CN113204461A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113204461B (zh) 一种服务器硬件监控的方法、装置、设备及可读介质
CN110381560B (zh) 适用于电力现场的无线传感器网络通信方法
TWI684139B (zh) 基於自動學習的基地台異常之預測的系統與方法
CN101959219B (zh) 被管理单元设备、自优化的方法及系统
WO2017133455A1 (zh) 液冷设备的控制方法、装置以及系统
US9170579B1 (en) System, method and computer program product for monitoring and controlling industrial energy equipment
CN102957567B (zh) 服务器信息管理方法及服务器管理装置
CN117221088A (zh) 一种计算机网络强度检测系统及装置
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN117318069B (zh) 一种供电系统故障自愈方法及系统
CN106776216A (zh) 刀片服务器的散热控制系统和方法
US10599204B1 (en) Performance efficiency monitoring system
CN116594446A (zh) 一种大数据中心温控方法及系统
US10841669B2 (en) Battery management device, battery management system, and battery management method
US20230034061A1 (en) Method for managing proper operation of base station and system applying the method
CN116089086A (zh) 一种轨道交通节能方法、装置、设备及存储介质
WO2019186243A1 (en) Global data center cost/performance validation based on machine intelligence
CN111210060B (zh) 一种工作日期间机房温度预测方法
JP2015070528A (ja) ネットワーク管理システム、ネットワーク装置および制御装置
CN113170592B (zh) 基于监测/控制机制的热控制优化
Zhang et al. On demand cooling with real time thermal information
CN111901141A (zh) 一种物联网应用模拟系统的设计方法
CN110674150A (zh) 一种bmc设置策略更新方法和设备
CN111065143A (zh) 一种电力现场设备监测的无线传感器网络路由优化算法
TWI763177B (zh) 用於多個網路設備之管理系統、方法及電腦可讀媒介

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant