CN117493066A - 一种服务器的故障预测方法、装置、设备及介质 - Google Patents

一种服务器的故障预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN117493066A
CN117493066A CN202311841975.2A CN202311841975A CN117493066A CN 117493066 A CN117493066 A CN 117493066A CN 202311841975 A CN202311841975 A CN 202311841975A CN 117493066 A CN117493066 A CN 117493066A
Authority
CN
China
Prior art keywords
neurons
neuron
state data
fault
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311841975.2A
Other languages
English (en)
Other versions
CN117493066B (zh
Inventor
余志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311841975.2A priority Critical patent/CN117493066B/zh
Publication of CN117493066A publication Critical patent/CN117493066A/zh
Application granted granted Critical
Publication of CN117493066B publication Critical patent/CN117493066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及计算机技术领域,提出一种服务器的故障预测方法、装置、设备及介质,其中,方法包括:将多组状态数据与脉冲神经网络的输入层的神经元一一对应,将若干故障类型按照预设顺序与脉冲神经网络的输出层的神经元相对应;将每组中的状态数据按照对应关系输入到输入层的对应神经元,基于突触权重计算输出层的神经元分别输出的对应故障类型的预测概率;计算若干故障类型的预测概率与训练集中的实际概率的误差,基于误差更新所述突触权重,直至误差小于预设值,得到最优突触权重;通过脉冲神经网络基于最优突触权重输出目标故障类型及其对应的目标发生概率,以进行故障处理。本方案有利于节省服务器系统的整机功耗。

Description

一种服务器的故障预测方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种服务器的故障预测方法、装置、设备及介质。
背景技术
服务器指的是接收来自网络上的客户端请求,并将网页文件发送给客户端的计算机系统,是信息系统基础设施中最核心的部件。服务器主板上一般配置有基板管理控制芯片(Board Management Controller,BMC芯片)可以实时监测服务器上的电压、温度等物理状态,以及对服务器进行远程管理、安装和重启等操作。但是,目前基板管理控制器芯片仅对监测的物理状态进行超限报警功能,不具备智能故障预测和管理功能,对于故障的处理仍依赖于人工介入。
现有的对服务器故障进行预测的方法中,比如通过BMC获取服务器的状态信息,然后经过人工神经网络对信息分析以预测服务器是否会发生故障,所需的功耗较大,大大增加了服务器系统的整机功耗。
发明内容
有鉴于此,有必要针对以上技术问题,提供一种服务器的故障预测方法、装置、设备及介质。
根据本发明的第一方面,提供了一种服务器的故障预测方法,所述服务器的故障预测方法包括:
基于多组状态数据和各自对应的若干故障类型构建训练集,将多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
在一些实施例中,所述基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率。
在一些实施例中,所述基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压;
比较所述脉冲神经网络的每一神经元对应的所述膜电位电压与膜电位电压阈值,基于比较结果判断是否输出脉冲,直至输出到所述输出层的神经元,经由所述输出层的神经元分别输出的脉冲计算对应故障类型的预测概率。
在一些实施例中,所述根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流和预设常数计算所述中间层和所述输出层的神经元分别对应的膜电位电压,所述膜电位电压的计算公式如下:
其中,所述τ为所述预设常数,所述I为所述突触前神经元的突触电流,所述u为所述膜电位电压。
在一些实施例中,所述突触前神经元的突触电流的计算公式如下:
其中,oj为第j个所述突触前神经元是否输出脉冲分别对应的数值,所述ωj为所述第j个所述突触前神经元对应的突触权重。
在一些实施例中,所述基于比较结果判断是否输出脉冲的步骤,包括:
响应于所述脉冲神经网络的神经元对应的所述膜电位电压不小于所述膜电位电压阈值,确认输出脉冲。
在一些实施例中,所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,包括:
将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列;
将所述脉冲序列按照对应关系输入到所述输入层的对应神经元。
在一些实施例中,所述将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列的步骤,包括:
基于所述每组中的状态数据中的最大值和最小值进行归一化处理,得到归一化后的状态数据;
基于脉冲转换函数将所述归一化后的状态数据转换为对应的脉冲序列。
在一些实施例中,所述归一化处理的计算公式如下:
=/>
其中,所述dmin为所述每组中的状态数据中的最小值,所述dmax为所述每组中的状态数据中的最大值,所述d为所述每组中的状态数据中的任一状态数据,所述dN为归一化后的状态数据。
在一些实施例中,所述脉冲转换函数包括:线性脉冲转换函数、指数脉冲转换函数、反函数转换函数和幂函数转换函数。
在一些实施例中,所述通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较的步骤,包括:
所述脉冲神经网络基于所述最优突触权重计算所述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量;
基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率并进行比较。
在一些实施例中,所述基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率的步骤,包括:
计算所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量之间的比值,将所述比值作为所述若干故障类型分别对应的发生概率。
在一些实施例中,所述基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理的步骤包括:
比较所述输出层的每一神经元分别对应的故障类型的发生概率,得到其中的发生概率最大值;
基于所述发生概率最大值对应的故障类型输出目标故障类型及其对应的目标发生概率,并基于预设的故障处理规则判断是否向BMC发送对应的故障处理指令进行故障处理。
根据本发明的第二方面,提供了一种服务器的故障预测装置,所述装置包括:
第一模块,用于基于多组状态数据和各自对应的若干故障类型构建训练集,将多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
第二模块,用于初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
第三模块,用于计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
第四模块,用于通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
根据本发明的第三方面,还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的服务器的故障预测方法。
根据本发明的第四方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行前述的服务器的故障预测方法。
上述一种服务器的故障预测方法,收集服务器的多组状态数据并与各自对应的若干故障类型构建训练集,同时,将多组状态数据和脉冲神经网络的输入层的神经元一一对应,将若干故障类型按照预设顺序与脉冲神经网络的输出层的神经元相对应。之后初始化脉冲神经网络的每一神经元的突触权重并基于突触权重计算输出层的神经元分别输出的对应故障类型的预测概率,计算预测概率和训练集中实际概率的误差,基于误差更新突触权重,直至误差小于预设值,得到最优突触权重。最后通过脉冲神经网络基于最优突触权重对接收的服务器的实际状态数据进行计算,得到若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。通过上述对服务器故障进行预测的方法,降低了服务器故障预测过程中的功耗损耗,有利于节省服务器系统的整机功耗。
此外,本发明还提供了一种服务器的故障预测装置、一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果,这里不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例提供的一种服务器的故障预测方法的流程图;
图2为本发明一个实施例提供的服务器的故障预测的系统架构图;
图3为本发明一个实施例提供的一种服务器的故障预测方法的另一流程图;
图4为本发明另一个实施例提供的一种服务器的故障预测装置的结构示意图;
图5为本发明另一个实施例中电子设备的内部结构图;
图6为本发明另一个实施例中计算机可读存储介质结构图。
具体实施方式
为使本发明的目标、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一个实施例中,请参照图1所示,本发明提供了一种服务器的故障预测方法100,具体来说,所述服务器的故障预测方法包括以下步骤:
步骤101,基于多组状态数据和各自对应的若干故障类型构建训练集,将多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
步骤102,初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
步骤103,计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
步骤104,通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
上述一种服务器的故障预测方法,收集服务器的多组状态数据并与各自对应的若干故障类型构建训练集,同时,将每组中的状态数据和脉冲神经网络的输入层的神经元一一对应,将若干故障类型按照预设顺序与脉冲神经网络的输出层的神经元相对应。之后初始化脉冲神经网络的每一神经元的突触权重并基于突触权重计算输出层的神经元分别输出的对应故障类型的预测概率,计算预测概率和训练集中实际概率的误差,基于误差更新突触权重,直至误差小于预设值,得到最优突触权重。最后通过脉冲神经网络基于最优突触权重将接收的服务器的实际状态数据进行计算,得到若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。通过上述对服务器故障进行预测的方法,降低了服务器故障预测过程中的功耗损耗,有利于节省服务器系统的整机功耗。
根据本发明的若干实施例,所述基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率。
基于每一神经元的突触权重和膜电位电压阈值来计算输入到下一层中的神经元,直至输入到输出层,得到对应故障类型的预测概率,可以实现基于脉冲神经网络自动化计算得到每一组状态数据对应的预测概率。
根据本发明的若干实施例,所述基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压;
比较所述脉冲神经网络的每一神经元对应的所述膜电位电压与膜电位电压阈值,基于比较结果判断是否输出脉冲,直至输出到所述输出层的神经元,经由所述输出层的神经元分别输出的脉冲计算对应故障类型的预测概率。
通过比较每一神经元的膜电位电压和膜电位电压阈值确认本神经元是否输出脉冲,基于这种判断方式直至输出到输出层,可以得到每类故障类型对应的预测概率,避免了利用人工神经网络进行计算的方式增加损耗的问题。
根据本发明的若干实施例,所述根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流和预设常数计算所述中间层和所述输出层的神经元分别对应的膜电位电压,所述膜电位电压的计算公式如下:
其中,所述τ为所述预设常数,所述I为所述突触前神经元的突触电流,所述u为所述膜电位电压。
上述计算膜电位电压的计算公式简单,有利于降低计算过程的复杂性以及降低服务器整机运行的损耗。
根据本发明的若干实施例,所述突触前神经元的突触电流的计算公式如下:
其中,oj为第j个所述突触前神经元是否输出脉冲分别对应的数值,所述ωj为所述第j个所述突触前神经元对应的突触权重。
上述计算突触前神经元的突触电流的计算公式简单,有利于降低计算过程的复杂性以及降低服务器整机运行的损耗。
根据本发明的若干实施例,所述基于比较结果判断是否输出脉冲的步骤,包括:
响应于所述脉冲神经网络的神经元对应的所述膜电位电压不小于所述膜电位电压阈值,确认输出脉冲。
根据本发明的若干实施例,所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,包括:
将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列;
将所述脉冲序列按照对应关系输入到所述输入层的对应神经元。
通过对状态数据归一化处理后将其转换为脉冲序列,以脉冲输出数量的方式来统计输出层每一个神经元对应的故障类型的预测概率,有利于节省计算复杂性。
根据本发明的若干实施例,所述将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列的步骤,包括:
基于所述每组中的状态数据中的最大值和最小值进行归一化处理,得到归一化后的状态数据;
基于脉冲转换函数将所述归一化后的状态数据转换为对应的脉冲序列。
根据本发明的若干实施例,所述归一化处理的计算公式如下:
=/>
其中,所述dmin为所述每组中的状态数据中的最小值,所述dmax为所述每组中的状态数据中的最大值,所述d为所述每组中的状态数据中的任一状态数据,所述dN为归一化后的状态数据。
上述归一化处理的计算公式简单,有利于降低计算过程的复杂性以及降低服务器整机运行的损耗。
根据本发明的若干实施例,所述脉冲转换函数包括:线性脉冲转换函数、指数脉冲转换函数、反函数转换函数和幂函数转换函数。
本申请提供了多种脉冲转换函数进行选择,有利于根据实际需要选择对应的脉冲转换函数进行计算。
根据本发明的若干实施例,所述通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较的步骤,包括:
所述脉冲神经网络基于所述最优突触权重计算所述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量;
基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率并进行比较。
通过统计输出层的每一个神经元的脉冲数量以及输出层全部输出的脉冲数量来计算每一种故障类型对应的概率,节省了人工以及服务器整机消耗。
根据本发明的若干实施例,所述基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率的步骤,包括:
计算所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量之间的比值,将所述比值作为所述若干故障类型分别对应的发生概率。
基于输出层的每一神经元分别接收的脉冲数量和输出层的全部神经元接收的全部脉冲总数量之间的比值来计算对应故障类型的发生概率,计算方式简单,不需要人工介入。
根据本发明的若干实施例,所述基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理的步骤包括:
比较所述输出层的每一神经元分别对应的故障类型的发生概率,得到其中的发生概率最大值;
基于所述发生概率最大值对应的故障类型输出目标故障类型及其对应的目标发生概率,并基于预设的故障处理规则判断是否向BMC发送对应的故障处理指令进行故障处理。
根据预设的故障处理规则判断是否向BMC发送对应的故障处理指令,避免了重复多次向BMC发送无需故障处理的指令,有利于节省BMC的计算资源,有利于提高服务器的运行效率。
请参考图2,图2示出的为本发明一个实施例提供的服务器的故障预测的系统架构图,如图2所示,基于服务器故障预测方法集成的第一芯片与BMC之间通过总线连接,二者之间通过总线通信,第一芯片中部署了上述脉冲神经网络,可以从BMC中实时获取服务器的状态数据,并通过计算得到目标故障类型及其对应的目标发生概率,以向BMC发送故障处理指令进行故障处理。其中,BMC与服务器CPU连接,二者可以通过PCIE(Peripheral ComponentInterconnect Express,高速串行计算机扩展总线标准)链路连接通信,也可以通过I3C(Improved Inter-Integrated Circuit,一种总线接口)总线进行通信。具体地,BMC可以通过ADC(Analog-to-Digital Converter,模拟数字转换器)接口获取服务器关键部件的电压、电流,通过PECI接口获取服务器CPU的温度值,通过I3C接口获取CPU状态和内存状态数据,进一步,可以通过VGA(Video Graphic Array,显示绘图阵列)接口将获取的数据显示在显示器上。
为了进一步对本发明提供的一种服务器的故障预测方法的理解,请进一步参考图3,图3示出的为本发明一个实施例提供的一种服务器的故障预测方法的另一流程图,如图3所示,首先,初始化脉冲神经网络的结构、权重w以及每一神经元的状态,具体地,在训练过程中,随机初始化突触权重的值,以及脉冲神经网络的层数、每一层的神经元数目,并将所有神经元的膜电位u初始化为0。通过BMC芯片获取服务器的状态数据,比如温度、电压、电流、CPU(Central Processing Unit,中央处理器)状态和内存状态数据等。
进一步,对获取的服务器的状态数据进行预处理,包括对服务器的状态数据进行归一化处理以及脉冲转换处理,在本实施例中,将服务器的状态数据对应的实数值转换到[0,1]上的实数,通过脉冲转换函数进一步将[0,1]上的实数转换为脉冲发射时间。比如,服务器的某一状态数据为d,将该状态数据中的最大值记为dmax,该状态数据中的最小值记为dmin,将该状态数据的最大值和最小值基于归一化处理得到归一化后的状态数据,其中,归一化的公式如下:
=/>(公式1)
在一些实施例中,将归一化处理后得到的状态数据经由脉冲转换函数得到对应的脉冲发射时间,即脉冲序列,其中,脉冲转换函数包括线性脉冲转换函数、指数脉冲转换函数、反函数转换函数和幂函数转换函数等。比如,通过线性脉冲转换函数得到脉冲发射时间/>,其中,/>为脉冲发射时间窗的最早时刻,/>为脉冲发射时间窗的最晚时刻。
进一步,基于上述得到的脉冲发射时间按周期进行计算,根据脉冲发射时间,在输入层可以产生对应时刻的脉冲序列,经由脉冲神经网络计算,统计输出层各个神经元的发射脉冲数量,以输出层脉冲发射数量最多的神经元对应的故障类型作为预测的目标故障类型,并计算该神经元的发生数量和输出层神经元发射脉冲的总数量之间的比值,作为目标故障类型对应的故障发生概率。
其中,对于隐藏层和输出层的每个神经元是否产生脉冲,取决于各自神经元的膜电位u,其中,膜电位u的计算公式如下:
(公式2)
其中,τ为预设常数,I为突触前神经元的突触电流,u为所述膜电位电压,为膜电位电压阈值,当膜电位电压u大于等于该膜电位电压阈值时,神经元将会发射一个脉冲,并在下一个时间将膜电位电压u设置为复位电压,该当膜电位电压u小于该膜电位电压阈值时,该神经元则不会发射一个脉冲。其中,突触前神经元的突触电流的计算公式如下:
其中,oj为第j个所述突触前神经元是否输出脉冲分别对应的数值,所述ωj为所述第j个所述突触前神经元对应的突触权重。
在一些实施例中,对于故障类型可以根据实际情况进行设置,比如服务器温度过高、服务器供电异常、服务器显示异常、内存故障、硬盘故障、风扇故障等。比如,设置故障类型“服务器温度过高”,具体来说,为服务器的CPU温度超过60℃,并且CPU的状态持续长时间90%负载,该故障预测概率的计算公式如下:
(公式4)
其中,N1表示故障类型“服务器温度过高”所对应的输出层神经元产生的脉冲数量,Nk(k=1,2,3,……,n)表示输出层中第K个神经元产生的脉冲数量。
进一步,基于上述预测的目标故障类型以及计算得到的其对应的故障预测概率判断是否向BMC发送对应的故障处理指令进行故障处理。比如上述故障类型“服务器温度过高”对应的故障发生概率超过50%,则需要向BMC发送对应的故障处理指令,BMC基于接收的该指令执行故障处理操作,比如,通过加大风扇转速或增加风扇运转数量等措施来降低服务器温度,故障处理完毕后返回故障处理完成指示,并继续周期性获取服务器的状态数据;否则,无需向BMC发送对应的故障处理指令。
通过上述一种服务器的故障预测方法可以实现对服务器故障的智能预测以及自动化处理,实现了故障预测与故障处理自动化处理过程,相比于传统的故障预测方法,提高了服务器故障预测的准确性,以及有利于节省服务器整机的功耗。
根据本发明的第二方面,如图4所示,图4示出了本发明的另一个实施例提供的一种服务器的故障预测装置200,所述装置包括:
第一模块201,用于基于多组状态数据和各自对应的若干故障类型构建训练集,将多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
第二模块202,用于初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
第三模块203,用于计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
第四模块204,用于通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
本实施的一种服务器的故障预测装置,收集服务器的多组状态数据并与各自对应的若干故障类型构建训练集,同时,将每组中的状态数据和脉冲神经网络的输入层的神经元一一对应,将若干故障类型按照预设顺序与脉冲神经网络的输出层的神经元相对应。之后初始化脉冲神经网络的每一神经元的突触权重并基于突触权重计算输出层的神经元分别输出的对应故障类型的预测概率,计算预测概率和训练集中实际概率的误差,基于误差更新突触权重,直至误差小于预设值,得到最优突触权重。最后通过脉冲神经网络基于最优突触权重将接收的服务器的实际状态数据进行计算,得到若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。通过上述对服务器故障进行预测的方法,降低了服务器故障预测过程中的功耗损耗,有利于节省服务器系统的整机功耗。
需要说明的是,关于服务器的故障预测装置的具体限定可以参见上文中对服务器的故障预测方法的限定,在此不再赘述。上述服务器的故障预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
根据本发明的另一方面,提供了一种电子设备,该电子设备可以是服务器,其内部结构图请参照图5所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的服务器的故障预测方法。
根据本发明的又一方面,提供了一种计算机可读存储介质,请参照图6所示,其上存储有计算机程序,计算机程序被处理器执行时实现以上所述的服务器的故障预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种服务器的故障预测方法,其特征在于,所述服务器的故障预测方法包括:
基于多组状态数据和各自对应的若干故障类型构建训练集,将所述多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
2.根据权利要求1所述的服务器的故障预测方法,其特征在于,所述基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率。
3.根据权利要求2所述的服务器的故障预测方法,其特征在于,所述基于所述脉冲神经网络的每一神经元的突触权重和膜电位电压阈值计算所述输出层的神经元分别输出的对应故障类型的预测概率的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压;
比较所述脉冲神经网络的每一神经元对应的所述膜电位电压与膜电位电压阈值,基于比较结果判断是否输出脉冲,直至输出到所述输出层的神经元,经由所述输出层的神经元分别输出的脉冲计算对应故障类型的预测概率。
4.根据权利要求3所述的服务器的故障预测方法,其特征在于,所述根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流计算对应的膜电位电压的步骤,包括:
根据所述脉冲神经网络的每一神经元突触连接的突触前神经元的突触电流和预设常数计算所述中间层和所述输出层的神经元分别对应的膜电位电压,所述膜电位电压的计算公式如下:
其中,所述τ为所述预设常数,所述I为所述突触前神经元的突触电流,所述u为所述膜电位电压。
5.根据权利要求4所述的服务器的故障预测方法,其特征在于,所述突触前神经元的突触电流的计算公式如下:
其中,为第j个所述突触前神经元是否输出脉冲分别对应的数值,所述/>为所述第j个所述突触前神经元对应的突触权重。
6.根据权利要求3所述的服务器的故障预测方法,其特征在于,所述基于比较结果判断是否输出脉冲的步骤,包括:
响应于所述脉冲神经网络的神经元对应的所述膜电位电压不小于所述膜电位电压阈值,确认输出脉冲。
7.根据权利要求1所述的服务器的故障预测方法,其特征在于,所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,包括:
将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列;
将所述脉冲序列按照对应关系输入到所述输入层的对应神经元。
8.根据权利要求7所述的服务器的故障预测方法,其特征在于,所述将所述每组中的状态数据进行归一化处理后转换为对应的脉冲序列的步骤,包括:
基于所述每组中的状态数据中的最大值和最小值进行归一化处理,得到归一化后的状态数据;
基于脉冲转换函数将所述归一化后的状态数据转换为对应的脉冲序列。
9. 根据权利要求8所述的服务器的故障预测方法,其特征在于,所述归一化处理的计算公式如下:
=/>
其中,所述为所述每组中的状态数据中的最小值,所述/>为所述每组中的状态数据中的最大值,所述/>为所述每组中的状态数据中的任一状态数据,所述/>为归一化后的状态数据。
10.根据权利要求8所述的服务器的故障预测方法,其特征在于,所述脉冲转换函数包括:线性脉冲转换函数、指数脉冲转换函数、反函数转换函数和幂函数转换函数。
11.根据权利要求1所述的服务器的故障预测方法,其特征在于,所述通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较的步骤,包括:
所述脉冲神经网络基于所述最优突触权重计算所述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量;
基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率并进行比较。
12.根据权利要求11所述的服务器的故障预测方法,其特征在于,所述基于所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量计算所述若干故障类型分别对应的发生概率的步骤,包括:
计算所述述输出层的每一神经元分别接收的脉冲数量和所述输出层的全部神经元接收的全部脉冲总数量之间的比值,将所述比值作为所述若干故障类型分别对应的发生概率。
13.根据权利要求1所述的服务器的故障预测方法,其特征在于,所述基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理的步骤包括:
比较所述输出层的每一神经元分别对应的故障类型的发生概率,得到其中的发生概率最大值;
基于所述发生概率最大值对应的故障类型输出目标故障类型及其对应的目标发生概率,并基于预设的故障处理规则判断是否向BMC发送对应的故障处理指令进行故障处理。
14.一种服务器的故障预测装置,其特征在于,所述装置包括:
第一模块,用于基于多组状态数据和各自对应的若干故障类型构建训练集,将所述多组状态数据与脉冲神经网络的输入层的神经元一一对应,将所述若干故障类型按照预设顺序与所述脉冲神经网络的输出层的神经元相对应;
第二模块,用于初始化所述脉冲神经网络的每一神经元的突触权重,并将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元,基于所述突触权重计算所述输出层的神经元分别输出的对应故障类型的预测概率;
第三模块,用于计算所述若干故障类型的预测概率与所述训练集中的实际概率的误差,基于所述误差更新所述突触权重,并返回至所述将所述每组中的状态数据按照对应关系输入到所述输入层的对应神经元的步骤,直至所述误差小于预设值,得到最优突触权重;
第四模块,用于通过所述脉冲神经网络基于所述最优突触权重对接收的所述服务器的实际状态数据进行计算,得到所述若干故障类型分别对应的发生概率并进行比较,基于比较结果输出目标故障类型及其对应的目标发生概率,以进行故障处理。
15. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器中运行的计算机程序,所述处理器执行所述程序时执行权利要求1-13任意一项所述的服务器的故障预测方法。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-13任意一项所述的服务器的故障预测方法。
CN202311841975.2A 2023-12-28 2023-12-28 一种服务器的故障预测方法、装置、设备及介质 Active CN117493066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311841975.2A CN117493066B (zh) 2023-12-28 2023-12-28 一种服务器的故障预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311841975.2A CN117493066B (zh) 2023-12-28 2023-12-28 一种服务器的故障预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117493066A true CN117493066A (zh) 2024-02-02
CN117493066B CN117493066B (zh) 2024-03-15

Family

ID=89669306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311841975.2A Active CN117493066B (zh) 2023-12-28 2023-12-28 一种服务器的故障预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117493066B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013289A (zh) * 2024-04-09 2024-05-10 北京理工大学 一种基于信息融合元迁移学习的变工况小样本故障诊断方法、装置、介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298242A (zh) * 2021-06-08 2021-08-24 浙江大学 一种基于脉冲神经网络的脑机接口解码方法
CN114091652A (zh) * 2021-11-05 2022-02-25 上海新氦类脑智能科技有限公司 脉冲神经网络模型训练方法、处理芯片以及电子设备
CN114186672A (zh) * 2021-12-16 2022-03-15 西安交通大学 一种用于脉冲神经网络的高效高精度训练算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298242A (zh) * 2021-06-08 2021-08-24 浙江大学 一种基于脉冲神经网络的脑机接口解码方法
CN114091652A (zh) * 2021-11-05 2022-02-25 上海新氦类脑智能科技有限公司 脉冲神经网络模型训练方法、处理芯片以及电子设备
CN114186672A (zh) * 2021-12-16 2022-03-15 西安交通大学 一种用于脉冲神经网络的高效高精度训练算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013289A (zh) * 2024-04-09 2024-05-10 北京理工大学 一种基于信息融合元迁移学习的变工况小样本故障诊断方法、装置、介质及产品
CN118013289B (zh) * 2024-04-09 2024-07-16 北京理工大学 一种基于信息融合元迁移学习的变工况小样本故障诊断方法、装置、介质及产品

Also Published As

Publication number Publication date
CN117493066B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN110263921B (zh) 一种联邦学习模型的训练方法及装置
US11392826B2 (en) Neural network-assisted computer network management
CN117493066B (zh) 一种服务器的故障预测方法、装置、设备及介质
US10579459B2 (en) Log events for root cause error diagnosis
CN113077052B (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN111638958A (zh) 云主机负载处理方法、装置、控制设备及存储介质
CN110309537B (zh) 一种飞行器的智能健康预测方法及系统
CN117688342B (zh) 一种基于模型的设备状态预测方法、电子设备及存储介质
CN111198799A (zh) 一种基于lstm的机房功耗预警方法、系统、终端及存储介质
CN108334427B (zh) 存储系统中的故障诊断方法及装置
CN114647525A (zh) 诊断方法、装置、终端及存储介质
CN113568740A (zh) 基于联邦学习的模型聚合方法、系统、设备及介质
CN112598188A (zh) 神经网络的生成方法、功率预测方法、装置和存储介质
CN113541985A (zh) 物联网故障诊断方法、模型的训练方法及相关装置
Ruta et al. Deep bi-directional LSTM networks for device workload forecasting
CN116125279A (zh) 一种电池健康状态的确定方法、装置、设备及存储介质
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
CN113254153B (zh) 流程任务处理方法、装置、计算机设备和存储介质
CN114266201A (zh) 一种基于深度学习的自注意力电梯困人预测方法
CN107563511B (zh) 一种实时系统可用时间快速估算与优化方法
CN113822441B (zh) 决策模型训练方法、装置、终端设备及存储介质
CN113672870B (zh) 故障事件概率估算方法、装置、计算机设备和存储介质
CN113377595B (zh) 故障诊断方法、装置、电子设备和存储介质
CN116028881B (zh) 基于多维数据库的再次出现限制行为的预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant