CN117806900B - 服务器管理方法、装置、电子设备及存储介质 - Google Patents

服务器管理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117806900B
CN117806900B CN202310944749.0A CN202310944749A CN117806900B CN 117806900 B CN117806900 B CN 117806900B CN 202310944749 A CN202310944749 A CN 202310944749A CN 117806900 B CN117806900 B CN 117806900B
Authority
CN
China
Prior art keywords
equipment
result
data processing
server
access information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310944749.0A
Other languages
English (en)
Other versions
CN117806900A (zh
Inventor
曲燕
张秀波
王相宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310944749.0A priority Critical patent/CN117806900B/zh
Publication of CN117806900A publication Critical patent/CN117806900A/zh
Application granted granted Critical
Publication of CN117806900B publication Critical patent/CN117806900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供服务器管理方法、装置、电子设备及非易失性可读存储介质。服务器管理方法,应用于一种底板管理控制器,底板管理控制器集成微控制单元,该方法包括:通过微控制单元获取服务器的第一设备接入信息;通过微控制单元中预先设置的AI算法对第一设备接入信息进行数据处理,获取第一数据处理结果;当微控制单元对第一设备接入信息进行数据处理获取第一数据处理结果时,底板管理控制器执行初始化模块加载;通过初始化模块加载后的底板管理控制器,根据第一数据处理结果对服务器进行管理。BMC本身不再需要承担高性能算法,只用根据MCU运算结果进行输出显示,提高了BMC对服务器的管理能力与监控能力,降低了服务器管理成本与管理能耗。

Description

服务器管理方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种服务器管理方法、装置、电子设备及非易失性可读存储介质。
背景技术
为了提高服务器的可靠性和稳定性,需要对服务器相连的设备或硬件的状态进行监控与管理,而底板管理控制器(Baseboard Management Controller,BMC)作为一种独立于CPU的管理芯片,能够通过监控服务器上的中央处理单元、内存、硬盘等硬件设备的状态,实现服务器的远程监控与管理功能,从而应用广泛。
但是,现有的BMC芯片和BMC技术扫描设备往往需要对抓取到的数据进行处理与异常诊断,由于BMC需要承担高性能算法,这种管理方法的监控能力弱,BMC进行异常诊断时还会拉升服务器的CPU占用率,管理效果差。
发明内容
本申请提供了一种服务器管理方法、装置、电子设备及非易失性可读存储介质。本申请提供的架构管理方法中,底板管理控制器集成微控制单元((Microcontroller Unit,MCU),并且MCU作为BMC中的AI核,预先设置有能够对服务器设备接入信息进行数据处理的AI算法,BMC本身不再需要承担高性能算法,只用根据MCU运算结果进行输出显示,提高了BMC对服务器的管理能力与监控能力,降低了服务器管理成本与管理能耗。
第一方面,本申请提供了一种服务器管理方法,应用于一种底板管理控制器,该方法包括:
通过微控制单元获取服务器的第一设备接入信息;
通过微控制单元中预先设置的AI算法对第一设备接入信息进行数据处理,获取第一数据处理结果;
当微控制单元对第一设备接入信息进行数据处理获取第一数据处理结果时,底板管理控制器执行初始化模块加载;
通过初始化模块加载后的底板管理控制器,根据第一数据处理结果对服务器进行管理。
可选的,本申请提供的服务器管理方法还包括:
通过设备控制器和设备寄存器对设备进行设备中断判断,获取第一设备中断判断结果;
当第一设备中断判断结果为设备存在设备中断时,对服务器的设备执行设备信息抓取动作,获取第一设备接入信息。
可选的,本申请提供的服务器管理方法还包括:
通过通用串行总线控制器和通用串行总线寄存器对通用串行总线设备进行设备中断判断,获取第一设备中断判断结果。
可选的,本申请提供的服务器管理方法还包括:
通过总线和接口标准控制器和总线和接口标准寄存器对总线和接口标准设备进行设备中断判断,获取第一设备中断判断结果。
可选的,本申请提供的服务器管理方法还包括:
通过深度学习算法对第一设备接入信息进行特征提取,获取特征提取结果;
根据特征提取结果,通过深度学习算法进行异常故障判断,生成故障判断结果;
根据故障判断结果和第一设备接入信息生成第一数据处理结果。
可选的,本申请提供的服务器管理方法还包括:
根据训练数据对深度学习算法进行预训练得到训练后的深度学习算法,其中,训练数据用于供深度学习算法进行服务器的设备故障诊断识别训练。
可选的,本申请提供的服务器管理方法还包括:
根据递归神经网络算法对序列数据进行特征提取,获取特征提取结果。
可选的,本申请提供的服务器管理方法还包括:
根据预先设置的关键字对特征提取结果进行关键字属性分析,获取故障判断结果。
可选的,本申请提供的服务器管理方法还包括:
当故障判断结果为特征提取结果对应的设备存在故障时,将故障判断结果对应的第一设备接入信息记录在底板管理控制器的预警日志中;
当故障判断结果为特征提取结果对应的设备正常运行时,将故障判断结果对应的第一设备接入信息记录在共享内存中。
可选的,本申请提供的服务器管理方法还包括:
根据递归神经网络算法对序列数据进行滤波处理,得到滤波处理后的序列数据;
根据递归神经网络算法对滤波处理后的序列数据进行降噪处理,得到降噪处理后的序列数据。
可选的,本申请提供的服务器管理方法还包括:
根据卷积神经网络算法对第一设备接入信息进行特征提取,获取特征提取结果。
可选的,本申请提供的服务器管理方法还包括:
通过微控制单元获取第一数据处理结果;
根据第一数据处理结果,通过底板管理控制器对服务器进行管理。
可选的,本申请提供的服务器管理方法还包括:
根据总线和接口标准设备信息、通用串行总线设备信息,通过底板管理控制器对服务器的总线和接口标准设备、通用串行总线设备进行监控与管理。
可选的,本申请提供的服务器管理方法还包括:
对底板管理控制器进行中断处理判断,获取第四中断判断结果;
当第四中断判断结果为底板管理控制器接收到微控制单元发送的总线和接口标准中断信息时,通过底板管理控制器接收第一数据处理结果。
可选的,本申请提供的服务器管理方法还包括:
对服务器进行第二设备判断,获取第二设备判断结果,其中,第二设备为即插即用设备;
当第二设备判断结果为服务器连有第二设备时,获取第二设备接入信息;
通过AI算法对第二设备接入信息进行数据处理,获取第二数据处理结果;
根据第二数据处理结果,通过底板管理控制器对服务器进行管理。
可选的,本申请提供的服务器管理方法还包括:
当第二数据处理结果为第二设备存在异常时,生成第二设备告警信息;
将第二设备告警信息记录在底板管理控制器的预警日志中。
可选的,本申请提供的服务器管理方法还包括:
当第二数据处理结果为第二设备正常运行时,将第二设备对应的第二数据处理结果通过网页端页面输出显示。
第二方面,本申请还提供一种服务器管理装置,包括:
第一设备接入信息获取模块,用于通过微控制单元获取服务器的第一设备接入信息;
第一数据处理模块,用于通过微控制单元中预先设置的AI算法对第一设备接入信息进行数据处理,获取第一数据处理结果;
底板管理控制器初始化模块,用于当微控制单元对第一设备接入信息进行数据处理获取第一数据处理结果时,底板管理控制器执行初始化模块加载;
第一服务器管理模块,用于通过初始化模块加载后的底板管理控制器,根据第一数据处理结果对服务器进行管理。
第三方面,本申请还提供了一种电子设备,该电子设备包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的服务器管理方法的步骤。
第四方面,本申请实施例提供了一种非易失性可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的服务器管理方法的步骤。
本申请提供的服务器管理方法中,底板管理控制器集成微控制单元((Microcontroller Unit,MCU),并且MCU作为BMC中的AI核,预先设置有能够对服务器设备接入信息进行数据处理的AI算法,BMC本身不再需要承担高性能算法,只用根据MCU运算结果进行输出显示,提高了BMC对服务器的管理能力与监控能力,降低了服务器管理成本与管理能耗。
上述说明仅是本申请提供的技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请实施例提供的服务器管理方法示意图之一;
图2是本申请实施例提供的服务器管理方法示意图之二;
图3是本申请实施例提供的服务器管理方法示意图之三;
图4是本申请实施例提供的服务器管理方法示意图之四;
图5是本申请实施例提供的服务器管理方法示意图之五;
图6是本申请实施例提供的服务器管理方法示意图之六;
图7是本申请实施例提供的服务器管理方法示意图之七;
图8是本申请实施例提供的服务器管理方法示意图之八;
图9是本申请实施例提供的服务器管理方法示意图之九;
图10是本申请实施例提供的服务器管理方法示意图之十;
图11是本申请实施例提供的服务器管理方法示意图之十一;
图12是本申请实施例提供的服务器管理方法示意图之十二;
图13是本申请实施例提供的服务器管理方法示意图之十三;
图14是本申请实施例提供的服务器管理方法示意图之十四;
图15是本申请实施例提供的服务器管理方法示意图之十五;
图16是本申请实施例提供的服务器管理方法示意图之十六;
图17是本申请实施例提供的服务器管理方法示意图之十七;
图18是本申请提供的一种服务器架构示例;
图19是本申请提供的一种服务器管理流程示例之一;
图20是本申请提供的一种服务器管理流程示例之二;
图21是本申请提供的一种服务器管理流程示例之三;
图22是本申请实施例提供的服务器管理装置示意图;
图23是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的服务器管理方法进行详细地说明。
本申请的第一实施方式涉及一种服务器管理方法,应用于一种底板管理控制器,如图1所示,包括:
步骤101、通过微控制单元获取服务器的第一设备接入信息;
步骤102、通过微控制单元中预先设置的AI算法对第一设备接入信息进行数据处理,获取第一数据处理结果;
步骤117、当微控制单元对第一设备接入信息进行数据处理获取第一数据处理结果时,底板管理控制器执行初始化模块加载;
步骤103、通过初始化模块加载后的底板管理控制器,根据第一数据处理结果对服务器进行管理。
具体的,本申请提供的服务器管理方法首先需要获取服务器已经接入的设备运行信息,例如接收服务器上传感器或服务器本身发送的数据并得到第一设备接入信息。随后,通过底板管理控制器(Baseboard Management Controller,BMC)上集成的微控制单元((Microcontroller Unit,MCU)根据预先设置的AI算法对第一设备接入信息进行数据处理得到第一数据处理结果,例如总线和接口标准(PCI-Express,PCIe)设备信息、通用串行总线(Universal Serial Bus,USB)设备信息、网卡温度等服务器上相连设备的运行信息。最后,BMC调取MCU处理好的第一数据处理结果,并根据第一数据处理结果中的运行信息进行服务器运行的管理与监控。
其中,当MCU进行数据处理,例如服务器上接入部件的数据采集和根据采集到的第一设备接入信息进行故障判断时,BMC此时不需要参与运算,可以进行初始化模块加载,节省了服务器管理方法的启动时间,提高了管理效率。
本申请提供的服务器管理方法基于BMC实现,并采用MCU替代BMC的运算功能,MCU作为BMC中的AI核,预先设置有能够对服务器设备接入信息进行数据处理的AI算法,BMC本身不再需要承担高性能算法,只用根据MCU运算结果进行输出显示,提高了BMC对服务器的管理能力与监控能力,降低了服务器管理成本与管理能耗。具体的,MCU功耗低,能效高适用于低功耗场景,将MCU与BMC集成,MCU实现BMC中原本CPU处理器或GPU处理器的运算功能,在较低能耗的情况下实现高效的AI运算效果,从而保证服务器长时间运行时的持续管理与监控。
需要强调的是,本申请提供的MCU作为BMC的AI运算核,用于进行服务器接入的设备的判断,并通过数据采集的方式得到对应设备的第一设备接入信息,并对这些信息进行数据处理和异常功能判断,MCU还用于根据数据处理后得到的正常设备相关的状态信息,例如PCIe网卡的MAC地址,各个部件和网卡的温度等信息进行数据存储,存储到BMC和MCU共用的共享内存中,并根据异常功能判断结果生成对应的预告警信息,同样进行数据存储,存储到BMC和MCU共用的共享内存中。在MCU进行数据处理过程中,由于MCU分担了原本BMC需要进行的运算工作,BMC可以进行内部各个模块的初始化启动,并从BMC和MCU共用的共享内存中提取这些正常设备相关的状态信息,例如PCIe网卡的MAC地址,各个部件和网卡的温度等信息并通过web等形式输出显示。BMC还可以从BMC和MCU共用的共享内存中提取出异常检测或异常数据分析后得到的预告警信息并进行输出显示,供用户查看这些服务器对应的监控数据,了解服务器运行状态,实现对服务器的监控与管理功能。
由于MCU上预先设置有AI算法,将AI能力集成到MCU上,在服务器和设备的本地进行数据处理和数据响应,不需要依赖云端或远程服务器,BMC能够向设备发送的指令能够得到响应,提高了服务器管理方法响应的及时性。也能降低服务器对云端和其他远程服务器的依赖,确保数据安全性。举例来说,一些较为敏感的数据能够在本地服务器上根据预先设置的AI算法进行数据处理,不需要与远端服务器进行数据交互,降低了数据传输过程中的风险。
并且,将MCU与BMC集成的服务器管理方法能够减少对应管理系统的组件数量与系统复杂性没降低管理系统设计与制造成本。MCU还能便于BMC主核进行其他业务处理,进一步提高服务器的可靠性和稳定性。
此外,本申请提供的服务器管理方法还能够进行不同MCU与BMC的组合,满足用户的定制化需求。
在上述实施方式的基础上,如图2所示,服务器上连有设备、设备控制器和设备寄存器,本申请提供的服务器管理方法中,步骤101包括:
步骤111、通过设备控制器和设备寄存器对设备进行设备中断判断,获取第一设备中断判断结果;
步骤112、当第一设备中断判断结果为设备存在设备中断时,对服务器的设备执行设备信息抓取动作,获取第一设备接入信息。
具体的,本申请提供的服务器管理方法中,在获取服务器的第一设备接入信息前,通过服务器上连接设备对应的控制器和寄存器对设备进行检测,判断是否接收到设备中断信号,并生成第一设备中断判断结果。当第一设备中断判断结果判断服务器连接的设备不存在设备中断时,不进行数据抓取动作,而当第一设备中断判断结果判断存在设备中断或硬件中断的情况时,对硬件中断信号相应的设备进行扫描得到设备接入信号,并根据服务器的设备驱动所提供的接口进行设备信息的抓取,得到第一设备接入信息。
在上述实施方式的基础上,由于本申请提供的服务器管理方法能够在检测到服务器存在设备中断或硬件中断时进行设备接入信息和设备运行信息的抓取,避免实时抓取数据进行服务器运行状态的监控与管理导致BMC能耗大,占用CPU资源多的问题,在低功耗的条件下实现了对服务器接入和运行设备的管理和监控功能。
在上述实施方式的基础上,如图3所示,设备为通用串行总线设备,设备控制器为通用串行总线控制器,设备寄存器为通用串行总线寄存器,本申请提供的服务器管理方法中,步骤111包括:
步骤113、通过通用串行总线控制器和通用串行总线寄存器对通用串行总线设备进行设备中断判断,获取第一设备中断判断结果。
具体的,本申请提供的服务器管理方法中,服务器接入设备可以是通用串行总线(Universal Serial Bus,USB)设备,设备控制器为USB控制器,设备寄存器为USB寄存器。在获取服务器的USB设备的第一设备接入信息前,通过服务器上USB设备对应的USB控制器和USB寄存器对USB设备进行检测,判断是否接收到USB设备的设备中断信号,并生成USB设备的第一设备中断判断结果。当第一设备中断判断结果判断服务器连接的USB设备不存在设备中断时,不对USB设备进行数据抓取动作,而当第一设备中断判断结果判断USB设备存在设备中断或硬件中断的情况时,对硬件中断信号相应的USB设备进行扫描得到USB设备的接入信号,并根据服务器的设备驱动所提供的接口进行USB设备信息的抓取,得到第一设备接入信息。
在上述实施方式的基础上,由于本申请提供的服务器管理方法能够进行USB设备的识别和数据采集,并根据USB设备对应的第一设备接入信息进行异常判断,实现了本申请对于服务器接入USB设备的监控和管理效果。
在上述实施方式的基础上,如图4所示,设备为总线和接口标准设备,设备控制器为总线和接口标准控制器,设备寄存器为总线和接口标准寄存器,本申请提供的服务器管理方法中,步骤111包括:
步骤114、通过总线和接口标准控制器和总线和接口标准寄存器对总线和接口标准设备进行设备中断判断,获取第一设备中断判断结果。
具体的,本申请提供的服务器管理方法中,服务器接入设备可以是总线和接口标准(PCI-Express,PCIe)设备,设备控制器为PCIe控制器,设备寄存器为PCIe寄存器。在获取服务器的PCIe设备的第一设备接入信息前,通过服务器上PCIe设备对应的PCIe控制器和PCIe寄存器对PCIe设备进行检测,判断是否接收到PCIe设备的设备中断信号,并生成PCIe设备的第一设备中断判断结果。当第一设备中断判断结果判断服务器连接的PCIe设备不存在设备中断时,不对PCIe设备进行数据抓取动作,而当第一设备中断判断结果判断PCIe设备存在设备中断或硬件中断的情况时,对硬件中断信号相应的PCIe设备进行扫描得到PCIe设备的接入信号,并根据服务器的设备驱动所提供的接口进行PCIe设备信息的抓取,得到第一设备接入信息。
在上述实施方式的基础上,由于本申请提供的服务器管理方法能够进行PCIe设备的识别和数据采集,并根据PCIe设备对应的第一设备接入信息进行异常判断,实现了本申请对于服务器接入PCIe设备的监控和管理效果。
在上述实施方式的基础上,如图5所示,AI算法包括深度学习算法,本申请提供的服务器管理方法中,步骤102包括:
步骤121、通过深度学习算法对第一设备接入信息进行特征提取,获取特征提取结果;
步骤122、根据特征提取结果,通过深度学习算法进行异常故障判断,生成故障判断结果;
步骤123、根据故障判断结果和第一设备接入信息生成第一数据处理结果。
具体的,本申请提供的服务器管理方法中,集成在BMC上的MCU还能够根据预先设置的深度学习算法对第一设备接入信息进行设备故障判断。首先先对第一设备接入信息进行特征提取,得到特征提取结果,例如第一设备接入信息中的异常数据。随后通过预先设置在MCU上的深度学习算法或深度学习模型进行特征提取结果的异常评估,并得到故障判断结果。最后根据故障判断结果和之前抓取的第一设备接入信息生成第一数据处理结果。
在上述实施方式的基础上,由于集成在BMC上的MCU还能够根据预先设置的深度学习算法对第一设备接入信息进行设备故障判断,从而实现BMC根据抓取到的设备数据进行故障预警的效果。
在上述实施方式的基础上,如图6所示,本申请提供的服务器管理方法中,在步骤121之前,还包括:
步骤124、根据训练数据对深度学习算法进行预训练得到训练后的深度学习算法,其中,训练数据用于供深度学习算法进行服务器的设备故障诊断识别训练。
具体的,本申请提供的服务器管理方法中还能够对设置在MCU中的深度学习算法进行预先的训练,通过用于供深度学习算法进行服务器的设备故障诊断识别训练的训练数据训练模型,得到能够根据第一设备接入信息识别出不同故障状态下的输入序列的深度学习模型。
在上述实施方式的基础上,由于深度学习模型或深度学习算法预先进行过服务器故障诊断训练,确保了服务器管理过程中MCU根据抓取到的第一设备接入信息进行服务器诊断的功能,保障了服务器管理方法对服务器的监控与管理能力。
在上述实施方式的基础上,如图7所示,深度学习算法为递归神经网络算法,第一设备接入信息为序列数据,本申请提供的服务器管理方法中,步骤121包括:
步骤125、根据递归神经网络算法对序列数据进行特征提取,获取特征提取结果。
具体的,本申请提供的服务器管理方法中,预先设置在MCU的AI算法为递归神经网络算法(Recurrent Neural Network,RNN)或递归神经网络模型。本申请提供的服务器管理方法中首先需要通过RNN对第一设备接入信息进行特征提取,得到特征提取结果。举例来说,RNN的输入层接收抓取到的传感器数据、其他输入数据等第一设备接入信息,并将这些序列数据传递给RNN的隐藏层,RNN的隐藏层对这些数据进行处理,例如特征提取得到与服务器相连设备相关的特征信息,供RNN后续进行设备故障诊断。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU能够通过RNM算法或RNM模型对采集到数据进行数据处理,确保了MCU的AI运算能力,保证了MCU分担BMC运算的效果。
在上述实施方式的基础上,如图8所示,本申请提供的服务器管理方法中,步骤122包括:
步骤126、根据预先设置的关键字对特征提取结果进行关键字属性分析,获取故障判断结果。
具体的,RNN的隐藏层对提取到的特征提取结果根据预先设置的关键字进行关键字属性分析,识别服务器相连设备存在的故障并生成故障判断结果,并通过RNN的输出层将故障判断结果输出显示。此外,RNN还有多个激活函数,例如Sigmoid、Tanh和ReLU等函数,本申请并未对激活函数本身进行改进此处不作赘述。
在上述实施方式的基础上,由于本申请提供的服务器管理方法能够通过关键字对特征提取的方式对RNM算法提取到的特征进行关键字属性分析,提高了MCU数据处理和异常数据分析的准确性。
在上述实施方式的基础上,如图9所示,底板管理控制器和微控制单元共用共享内存,本申请提供的服务器管理方法中,步骤123包括:
步骤127、当故障判断结果为特征提取结果对应的设备存在故障时,将故障判断结果对应的第一设备接入信息记录在底板管理控制器的预警日志中;
步骤128、当故障判断结果为特征提取结果对应的设备正常运行时,将故障判断结果对应的第一设备接入信息记录在共享内存中。
具体的,当RNN对特征提取结果进行判断并生成故障判断结果后,当故障判断结果为特征提取结果存在问题,对应的第一设备接入信息是异常数据时,将这些异常数据记录在BMC的预警日志中存储备份;当故障判断结果为特征提取结果不存在问题,服务器相应设备正常运行时,将这些正常数据对应的第一设备接入信息记录在BMC和MCU的共享内存中。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU能够将第一设备接入信息记录在共享内存中,BMC能够从共享内存中直接提取结果,提高了BMC与MCU之间的通信效率,进而提高了服务器管理与监控效率。
在上述实施方式的基础上,如图10所示,本申请提供的服务器管理方法中,步骤125之前,还包括:
步骤126、根据递归神经网络算法对序列数据进行滤波处理,得到滤波处理后的序列数据;
步骤127、根据递归神经网络算法对滤波处理后的序列数据进行降噪处理,得到降噪处理后的序列数据。
具体的,在通过RNN对第一设备接入信息进行故障判断前,还需要对序列数据进行过滤处理,首先将序列数据的原始数据通过RNN算法进行滤波处理得到滤波处理后的序列数据,随后对滤波处理后的序列数据通过RNN算法进行降噪处理,得到降噪处理后的序列数据。
在上述实施方式的基础上,由于对序列数据的原始数据进行滤波,降噪等动作,排除了序列数据中的干扰数据,确保了RNN算法检测服务器接入设备故障时判断的准确性。
在上述实施方式的基础上,如图11所示,深度学习算法为卷积神经网络算法,本申请提供的服务器管理方法中,步骤121包括:
步骤128、根据卷积神经网络算法对第一设备接入信息进行特征提取,获取特征提取结果。
具体的,本申请提供的服务器管理方法同样可以通过卷积神经网络算法(Convolutional Neural Networks,CNN)或卷积神经网络模型对第一设备接入信息进行特征提取得到特征提取结果,并通过CNN对特征提取结果进行异常故障判断,得到故障判断结果。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU能够通过CNM算法或CNM模型对采集到数据进行数据处理,确保了MCU的AI运算能力,保证了MCU分担BMC运算的效果。
在上述实施方式的基础上,如图12所示,本申请提供的服务器管理方法中,在步骤117之后,步骤103之前,还包括:
步骤104、对底板管理控制器进行中断处理判断,获取第四中断判断结果;
步骤105、当第四中断判断结果为底板管理控制器接收到微控制单元发送的总线和接口标准中断信息时,通过底板管理控制器接收第一数据处理结果。
具体的,本申请提供的服务器管理方法中MCU与BMC通过PCIe总线的方式连接,并利用PCIe中断机制进行数据传递。本申请提供的服务器管理方法中,对BMC进行中断处理判断,判断是否接收到MCU发送的PCIe中端信号,得到第四中断判断结果。当第四中断判断结果为MCU向BMC发送PCIe中断信号时,BMC的中断处理程序被触发,进入BMC与MCU的共享空间获取数据,得到第一数据处理结果。
举例来说,MCU向BMC发送PCIe中断消息,触发BMC的中断处理程序,并将数据传递给BMC。BMC在接收到MCU发送的PCIe中断消息后,可以使用但不限于DMA引擎将数据从PCIe总线读取到内存中进行处理。处理完成后,BMC向MCU发送PCIe中断消息,并将处理结果传递给MCU,MCU继续监控设备状态。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU与BMC之间可以进行高速数据传输和通信,MCU芯片运行RTOS实时操作系统,检测外设速度快,以PCIE中断形式异步通知BMC,BMC访问PCIE 共享内存空间抓取实时数据,从而实现本申请提供的服务器管理方法中即插即用设备的监控与管理功能。
在上述实施方式的基础上,如图13所示,底板管理控制器和微控制单元共用共享内存,微控制单元获取的第一数据处理结果存储在共享内存中,本申请提供的服务器管理方法中,步骤103包括:
步骤131、通过微控制单元获取第一数据处理结果;
步骤132、根据第一数据处理结果,通过底板管理控制器对服务器进行管理。
具体的,BMC和MCU共用共享内存,MCU获取的第一数据处理结果存储在共享内存中,供BMC根据第一数据处理结果对服务器执行管理动作。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU与BMC共享内存,当MCU处理完数据并将数据处理结果存储在共享内存中,BMC可以从共享内存中快速调取数据并将数据结果输出显示,确保了MCU与BMC之间可以进行高速数据传输和通信,提高了服务器管理效率。
在上述实施方式的基础上,如图14所示,第一数据处理结果包括总线和接口标准设备信息、通用串行总线设备信息,本申请提供的服务器管理方法中,步骤132包括:
步骤133、根据总线和接口标准设备信息、通用串行总线设备信息,通过底板管理控制器对服务器的总线和接口标准设备、通用串行总线设备进行监控与管理。
具体的,服务器上连接的设备有PCIe设备、USB设备等设备,BMC进入BMC和MCU的共享内存里面获取MCU处理好的数据,例如PCIE设备信息、USB设备信息、网卡温度等信息,BMC根据这些信息实现对服务器的监控与管理动作。
在上述实施方式的基础上,由于本申请提供的服务器管理方法中MCU的智能数据处理包括但不限于PCIe设备、USB设备,BMC能够根据共享内存中调取的数据对PCIe设备、USB设备等设备进行管理,扩展了本申请提供的服务器管理方法的应用领域。
在上述实施方式的基础上,如图15所示,本申请提供的服务器管理方法中,在步骤103之后,还包括:
步骤106、对服务器进行第二设备判断,获取第二设备判断结果,其中,第二设备为即插即用设备;
步骤107、当第二设备判断结果为服务器连有第二设备时,获取第二设备接入信息;
步骤108、通过AI算法对第二设备接入信息进行数据处理,获取第二数据处理结果;
步骤109、根据第二数据处理结果,通过底板管理控制器对服务器进行管理。
具体的,本身器提供的服务器管理方法还能够对服务器进行第二设备接入判断,例如判断服务器是否接入新的即插即用设备,并生成第二设备判断结果。当第二设备判断结果为服务器连有第二设备时,获取服务器新接入的第二设备运行信息,例如接收服务器上传感器或服务器本身发送的数据并得到第二设备接入信息。随后,通过BMC上集成的MCU根据预先设置的AI算法对第二设备接入信息进行数据处理得到第二数据处理结果,例如PCIe设备信息、USB设备信息、网卡温度等服务器上相连设备的运行信息。最后,BMC调取MCU处理好的第二数据处理结果,并根据第二数据处理结果中的运行信息进行服务器运行的管理与监控。
在上述实施方式的基础上,由于本申请提供的服务器管理方法还能够对服务器中新接入的设备,例如新接入的即插即用设备进行实时监控,当监控到对应设备时,MCU进行数据采集、数据处理和异常检测后将结果放在共享内存中,BMC调出数据并输出显示,满足了服务器管理的动态更新需求。
在上述实施方式的基础上,如图16所示,本申请提供的服务器管理方法中,在步骤108之后,还包括:
步骤110、当第二数据处理结果为第二设备存在异常时,生成第二设备告警信息;
步骤115、将第二设备告警信息记录在底板管理控制器的预警日志中。
具体的,在获取第二数据处理结果后,还可以通过MCU上预先设置的AI算法,例如RNN算法进行设备异常检测,当MCU检测到新接入的第二设备存在异常时,例如PCIe设备发出报错信息,生成第二设备告警信息并在BMC的预警日志中进行记录。
在上述实施方式的基础上,由于本申请提供的服务器管理方法还能够对新接入的第二设备,例如新接入的即插即用设备进行输出处理和异常数据分析,并生成对应的第二设备告警信息,确保了服务器管理方法对服务器管理的准确性,提高了服务器管理和监控效果。
在上述实施方式的基础上,如图17所示,底板管理控制器与网页端页面连接,本申请提供的服务器管理方法中,在步骤108之后,还包括:
步骤116、当第二数据处理结果为第二设备正常运行时,将第二设备对应的第二数据处理结果通过网页端页面输出显示。
具体的,当第二数据处理结果为第二设备正常运行时,BMC能够将第二数据处理结果通过相连的网页端,例如WEB端页面输出显示。此外,第一数据处理结果、第一设备接入信息和第二设备接入信息均可根据用户需求,由BMC控制并通过网页端页面输出显示,实现服务器的管理与监控的可视化动作,本申请不作限制。
在上述实施方式的基础上,由于本申请提供的服务器管理方法还能够由BMC从共享内存中调出数据并输出显示,用户可以直观地看到对服务器进行监控管理后得到的监控数据,提高了服务器管理的可视化程度,改善用户体验。
在上述实施方式的基础上,本申请还提供一种具体的服务器管理方法示例:
本申请提供的服务器管理方法通过服务器BMC实现,其架构如图18所示,在双倍速率(Double Data Rate,DDR)内存空间或DDR内存空间中,微处理器MCU与底板管理控制器BMC集成,用于代替BMC的AI运算功能,MCU上运行实时操作系统(Real-time operatingsystem, RTOS)系统,能够快速响应并处理数据,MCU通过USB、PCIE等通路(BUS)与BMC的多个主核,例如四个CotexA53主核进行数据传输和通信,实现了对服务器硬件的监控、管理和控制,BMC中的四个主核、USB控制器(USB Controller)、PCIe控制器(PCIe Controller)、UART控制器(UART Controller)和其他控制器(Other Controller)用于根据MCU处理后的数据进行服务器管理。其中,MCU芯片可以采用ARM Cortex-M系列或者RISC系列处理器。此外,BMC内的协处理器与BMC中的主核和各个控制器通过先进的高性能总线(Advanced Highperformance Bus,AHB)进行信息交互。这种架构方式,由于RTOS相比通用的分时操作系统,例如Linux、Windows、Unix等操作系统有着仅适用于嵌入式应用程序、基于时间片调度、抢占式内核等优势,其中断延迟可达到以微秒为单位,MCU能够以0.1秒的精度进行增量,处理结果能够在规定的时间之内控制生产过程或对处理系统做出快速响应,调度一切可利用的资源,完成实时任务的同时控制所有实时任务协调一致运行。而MCU作为BMC的AI核,可以分担BMC高算法部分的监控功能,具有较高的可靠性和稳定性,同时也具备较好的可扩展性和灵活性。
综上,这种MCU集成BMC的架构可以进行MCU与BMC之间的高速数据传输和通信,MCU芯片运行RTOS实时操作系统,检测外设速度快,以PCIE中断形式异步通知BMC,BMC访问PCIE共享内存空间抓取实时数据,从而实现即插即用设备功能,MCU中使用RNN算法对部件信息进行特征提取,同样通过PCIE中断形式通知BMC抓取数据,BMC根据数据可以进行精准故障预防,提升了服务器的精确监控和管理能力及可靠性。
基于上述BMC架构,本申请提供的服务器管理流程如图21所示,包括:
在服务器上电后,MCU运行RTOS进行服务器的正常启动。当服务器启动后,如图19所示,通过MCU监控PCIE/USB设备进程,例如DectDevProc进程,通过PCIE、USB控制器判断BMC是否接收到硬件中断信号,当判断接收到硬件中断信号后,由BMC对PCIE、USB等设备进行扫描,获取上述设备的设备接入情况,并根据设备驱动提供的接口进行设备信息抓取得到部件信息数据。
随后,如图20所示,MCU通过内置的AI算法,例如RNN深度学习算法根据抓取的部件信息数据进行故障诊断。首先由RNN算法对抓取得到的部件信息数据进行特征提取,并对特征提取后的结果根据关键字属性分析得到异常故障数据和正常信息,将异常故障数据和正常信息存储在BMC和MCU的共用内存或PCIe空间sharemem中,并将异常故障数据记录在BMC的预警日志中。
当BMC本身的各个模块初始化完成后,进入共享内存中直接获取MCU已经处理好的数据,例如通过BMC部件监控进程或CompMonitor进程获取服务器的PCIE设备信息、USB设备信息、网卡温度、MAC地址等设备数据,并根据这些数据实现对服务器连接设备的管理与监控。
此外,本申请提供的服务器管理方法还能够对服务器新出现的设备进行检测,当检测到存在新出现的设备时,获取对应的第二设备接入信息并由MCU进行数据处理与异常检测,MCU数据处理后的结果同样放在共享内存中供BMC调取,而异常检测结果会记录在BMC的预警日志中进行服务器管理预告警。随后,BMC同样将上述结果通过Redfish接口送到WEB端页面进行显示。
本申请的第二实施方式涉及一种服务器管理装置,应用于一种底板管理控制器,如图22所示,包括:
第一设备接入信息获取模块201,用于通过微控制单元获取服务器的第一设备接入信息;
第一数据处理模块202,用于通过微控制单元中预先设置的AI算法对第一设备接入信息进行数据处理,获取第一数据处理结果;
底板管理控制器初始化模块217,用于当微控制单元对第一设备接入信息进行数据处理获取第一数据处理结果时,底板管理控制器执行初始化模块加载;
第一服务器管理模块203,用于通过初始化模块加载后的底板管理控制器,根据第一数据处理结果对服务器进行管理。
在上述实施方式的基础上,本申请提供的服务器管理装置中,第一设备接入信息获取模块201包括:
设备中断判断单元211,用于通过设备控制器和设备寄存器对设备进行设备中断判断,获取第一设备中断判断结果;
设备信息抓取单元212,用于当第一设备中断判断结果为设备存在设备中断时,对服务器的设备执行设备信息抓取动作,获取第一设备接入信息。
在上述实施方式的基础上,本申请提供的服务器管理装置中,设备为通用串行总线设备,设备控制器为通用串行总线控制器,设备寄存器为通用串行总线寄存器,设备中断判断单元211包括:
通用串行总线设备判断子单元213,用于通过通用串行总线控制器和通用串行总线寄存器对通用串行总线设备进行设备中断判断,获取第一设备中断判断结果。
在上述实施方式的基础上,设备为总线和接口标准设备,设备控制器为总线和接口标准控制器,设备寄存器为总线和接口标准寄存器,本申请提供的服务器管理装置中,设备中断判断单元211包括:
总线和接口标准设备判断子单元214,用于通过总线和接口标准控制器和总线和接口标准寄存器对总线和接口标准设备进行设备中断判断,获取第一设备中断判断结果。
在上述实施方式的基础上,AI算法包括深度学习算法,本申请提供的服务器管理装置中,第一数据处理模块202包括:
特征提取单元221,用于通过深度学习算法对第一设备接入信息进行特征提取,获取特征提取结果;
故障判断单元222,用于根据特征提取结果,通过深度学习算法进行异常故障判断,生成故障判断结果;
结果生成单元223,用于根据故障判断结果和第一设备接入信息生成第一数据处理结果。
在上述实施方式的基础上,本申请提供的服务器管理装置还包括:
预训练单元224,用于根据训练数据对深度学习算法进行预训练得到训练后的深度学习算法,其中,训练数据用于供深度学习算法进行服务器的设备故障诊断识别训练。
在上述实施方式的基础上,深度学习算法为递归神经网络算法,第一设备接入信息为序列数据,本申请提供的服务器管理装置中,特征提取单元221包括:
递归神经网络特征提取子单元225,用于根据递归神经网络算法对序列数据进行特征提取,获取特征提取结果。
在上述实施方式的基础上,本申请提供的服务器管理装置中,故障判断单元222包括:
关键字属性分析子单元226,用于根据预先设置的关键字对特征提取结果进行关键字属性分析,获取故障判断结果。
在上述实施方式的基础上,底板管理控制器和微控制单元共用共享内存,本申请提供的服务器管理装置中,结果生成单元223包括:
异常记录子单元227,用于当故障判断结果为特征提取结果对应的设备存在故障时,将故障判断结果对应的第一设备接入信息记录在底板管理控制器的预警日志中;
正常记录子单元228,用于当故障判断结果为特征提取结果对应的设备正常运行时,将故障判断结果对应的第一设备接入信息记录在共享内存中。
在上述实施方式的基础上,本申请提供的服务器管理装置中,特征提取单元221还包括:
滤波处理子单元226,用于根据递归神经网络算法对序列数据进行滤波处理,得到滤波处理后的序列数据;
降噪处理子单元227,用于根据递归神经网络算法对滤波处理后的序列数据进行降噪处理,得到降噪处理后的序列数据。
在上述实施方式的基础上,深度学习算法为卷积神经网络算法,本申请提供的服务器管理装置中,特征提取单元221包括:
卷积神经网络特征提取子单元228,用于根据卷积神经网络算法对第一设备接入信息进行特征提取,获取特征提取结果。
在上述实施方式的基础上,本申请提供的服务器管理装置还包括:
中断处理判断模块204,用于对底板管理控制器进行中断处理判断,获取第四中断判断结果;
数据处理结果接收模块205,用于当第四中断判断结果为底板管理控制器接收到微控制单元发送的总线和接口标准中断信息时,通过底板管理控制器接收第一数据处理结果。
在上述实施方式的基础上,本申请提供的服务器管理装置中,第一服务器管理模块203包括:
数据处理结果接收单元231,用于通过微控制单元获取第一数据处理结果;
服务器管理单元232,用于根据第一数据处理结果,通过底板管理控制器对服务器进行管理。
在上述实施方式的基础上,第一数据处理结果包括总线和接口标准设备信息、通用串行总线设备信息,本申请提供的服务器管理装置中,服务器管理单元232包括:
设备管理子单元233,用于根据总线和接口标准设备信息、通用串行总线设备信息,通过底板管理控制器对服务器的总线和接口标准设备、通用串行总线设备进行监控与管理。
在上述实施方式的基础上,本申请提供的服务器管理装置还包括:
第二设备判断模块206,用于对服务器进行第二设备判断,获取第二设备判断结果,其中,第二设备为即插即用设备;
第二设备接入信息获取模块207,用于当第二设备判断结果为服务器连有第二设备时,获取第二设备接入信息;
第二数据处理模块208,用于通过AI算法对第二设备接入信息进行数据处理,获取第二数据处理结果;
第二服务器管理模块209,用于根据第二数据处理结果,通过底板管理控制器对服务器进行管理。
在上述实施方式的基础上,本申请提供的服务器管理装置还包括:
第二设备告警生成模块210,用于当第二数据处理结果为第二设备存在异常时,生成第二设备告警信息;
第二设备告警记录215,用于将新设备告警信息记录在底板管理控制器的预警日志中。
在上述实施方式的基础上,底板管理控制器与网页端页面连接,本申请提供的服务器管理装置还包括:
输出显示模块216,用于当第二数据处理结果为第二设备正常运行时,将第二设备对应的第二数据处理结果通过网页端页面输出显示。
本申请的第三实施方式涉及一种电子设备,如图23所示,包括:
至少一个处理器301;以及,
与所述至少一个处理器301通信连接的存储器302;其中,
所述存储器302存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器301执行,以使所述至少一个处理器301能够实现本申请第一实施方式所述的服务器管理方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现本申请第一实施方式所述的服务器管理方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (16)

1.一种服务器管理方法,应用于一种底板管理控制器,其特征在于,所述底板管理控制器集成微控制单元,所述方法包括:
通过所述微控制单元获取服务器的第一设备接入信息;
通过所述微控制单元中预先设置的AI算法对所述第一设备接入信息进行数据处理,获取第一数据处理结果;
当所述微控制单元对所述第一设备接入信息进行数据处理获取第一数据处理结果时,所述底板管理控制器执行初始化模块加载;
通过初始化模块加载后的所述底板管理控制器,根据所述第一数据处理结果对所述服务器进行管理;
所述AI算法包括深度学习算法,所述通过所述微控制单元中预先设置的AI算法对所述第一设备接入信息进行数据处理,获取第一数据处理结果包括:
通过所述深度学习算法对所述第一设备接入信息进行特征提取,获取特征提取结果;
根据所述特征提取结果,通过所述深度学习算法进行异常故障判断,生成故障判断结果;
根据所述故障判断结果和所述第一设备接入信息生成所述第一数据处理结果;
所述通过所述深度学习算法对所述第一设备接入信息进行特征提取,获取特征提取结果之前还包括:
根据训练数据对所述深度学习算法进行预训练得到训练后的深度学习算法,其中,所述训练数据用于供所述深度学习算法进行服务器的设备故障诊断识别训练;
所述深度学习算法为递归神经网络算法,所述第一设备接入信息为序列数据,所述通过所述深度学习算法对所述第一设备接入信息进行特征提取,获取特征提取结果包括:
根据所述递归神经网络算法对所述序列数据进行特征提取,获取所述特征提取结果;
所述根据所述特征提取结果,通过所述深度学习算法进行异常故障判断,生成故障判断结果包括:
根据预先设置的关键字对所述特征提取结果进行关键字属性分析,获取故障判断结果。
2.根据权利要求1所述的方法,其特征在于,所述服务器上连有设备、设备控制器和设备寄存器,所述通过微控制单元获取所述服务器的所述第一设备接入信息包括:
通过所述设备控制器和所述设备寄存器对所述设备进行设备中断判断,获取第一设备中断判断结果;
当所述第一设备中断判断结果为所述设备存在设备中断时,对所述服务器的设备执行设备信息抓取动作,获取所述第一设备接入信息。
3.根据权利要求2所述的方法,其特征在于,所述设备为通用串行总线设备,所述设备控制器为通用串行总线控制器,所述设备寄存器为通用串行总线寄存器,所述通过所述设备控制器和所述设备寄存器对所述设备进行设备中断判断,获取第一设备中断判断结果包括:
通过所述通用串行总线控制器和所述通用串行总线寄存器对所述通用串行总线设备进行设备中断判断,获取第一设备中断判断结果。
4.根据权利要求2所述的方法,其特征在于,所述设备为总线和接口标准设备,所述设备控制器为总线和接口标准控制器,所述设备寄存器为总线和接口标准寄存器,所述通过所述设备控制器和所述设备寄存器对所述设备进行设备中断判断,获取第一设备中断判断结果包括:
通过所述总线和接口标准控制器和所述总线和接口标准寄存器对所述总线和接口标准设备进行设备中断判断,获取第一设备中断判断结果。
5.根据权利要求1所述的方法,其特征在于,所述底板管理控制器和所述微控制单元共用共享内存,所述根据所述故障判断结果和所述第一设备接入信息生成所述第一数据处理结果包括:
当所述故障判断结果为所述特征提取结果对应的设备存在故障时,将所述故障判断结果对应的第一设备接入信息记录在所述底板管理控制器的预警日志中;
当所述故障判断结果为所述特征提取结果对应的设备正常运行时,将所述故障判断结果对应的第一设备接入信息记录在所述共享内存中。
6.根据权利要求1所述的方法,其特征在于,所述根据所述递归神经网络算法对所述序列数据进行特征提取,获取所述特征提取结果之前,还包括:
根据所述递归神经网络算法对所述序列数据进行滤波处理,得到滤波处理后的序列数据;
根据所述递归神经网络算法对所述滤波处理后的序列数据进行降噪处理,得到降噪处理后的序列数据。
7.根据权利要求1所述的方法,其特征在于,所述深度学习算法为卷积神经网络算法,所述根据所述深度学习算法对所述第一设备接入信息进行特征提取,获取特征提取结果包括:
根据所述卷积神经网络算法对所述第一设备接入信息进行特征提取,获取所述特征提取结果。
8.根据权利要求1所述的方法,其特征在于,所述底板管理控制器和所述微控制单元共用共享内存,所述微控制单元获取的第一数据处理结果存储在所述共享内存中,所述通过初始化模块加载后的所述底板管理控制器,根据所述第一数据处理结果对所述服务器进行管理包括:
通过所述微控制单元获取所述第一数据处理结果;
根据所述第一数据处理结果,通过所述底板管理控制器对所述服务器进行管理。
9.根据权利要求8所述的方法,其特征在于,所述第一数据处理结果包括总线和接口标准设备信息、通用串行总线设备信息,所述根据所述第一数据处理结果,通过所述底板管理控制器对所述服务器进行管理包括:
根据所述总线和接口标准设备信息、通用串行总线设备信息,通过所述底板管理控制器对所述服务器的总线和接口标准设备、通用串行总线设备进行监控与管理。
10.根据权利要求1所述的方法,其特征在于,所述当所述微控制单元对所述第一设备接入信息进行数据处理获取第一数据处理结果时,所述底板管理控制器执行初始化模块加载之后,所述通过初始化模块加载后的所述底板管理控制器,根据所述第一数据处理结果对所述服务器进行管理之前,还包括:
对所述底板管理控制器进行中断处理判断,获取第四中断判断结果;
当所述第四中断判断结果为所述底板管理控制器接收到所述微控制单元发送的总线和接口标准中断信息时,通过所述底板管理控制器接收所述第一数据处理结果。
11.根据权利要求1所述的方法,其特征在于,所述通过初始化模块加载后的所述底板管理控制器,根据所述第一数据处理结果对所述服务器进行管理之后,还包括:
对所述服务器进行第二设备判断,获取第二设备判断结果,其中,第二设备为即插即用设备;
当所述第二设备判断结果为所述服务器连有所述第二设备时,获取第二设备接入信息;
通过AI算法对所述第二设备接入信息进行数据处理,获取第二数据处理结果;
根据所述第二数据处理结果,通过底板管理控制器对所述服务器进行管理。
12.根据权利要求11所述的方法,其特征在于,所述第二数据处理结果包括异常分析结果,所述通过AI算法对所述第二设备接入信息进行数据处理,获取第二数据处理结果后,还包括:
当所述第二数据处理结果为所述第二设备存在异常时,生成第二设备告警信息;
将所述第二设备告警信息记录在所述底板管理控制器的预警日志中。
13.根据权利要求12所述的方法,其特征在于,所述底板管理控制器与网页端页面连接,所述通过AI算法对所述第二设备接入信息进行数据处理,获取第二数据处理结果后,还包括:
当所述第二数据处理结果为所述第二设备正常运行时,将所述第二设备对应的所述第二数据处理结果通过所述网页端页面输出显示。
14.一种服务器管理装置,其特征在于,所述装置包括:
第一设备接入信息获取模块,用于通过所述微控制单元获取所述服务器的所述第一设备接入信息;
第一数据处理模块,用于通过所述微控制单元中预先设置的AI算法对所述第一设备接入信息进行数据处理,获取第一数据处理结果;
底板管理控制器初始化模块,用于当所述微控制单元对所述第一设备接入信息进行数据处理获取第一数据处理结果时,所述底板管理控制器执行初始化模块加载;
第一服务器管理模块,用于通过初始化模块加载后的所述底板管理控制器,根据所述第一数据处理结果对所述服务器进行管理;
所述AI算法包括深度学习算法,所述第一数据处理模块包括:
特征提取单元,用于通过深度学习算法对第一设备接入信息进行特征提取,获取特征提取结果;
故障判断单元,用于根据特征提取结果,通过深度学习算法进行异常故障判断,生成故障判断结果;
结果生成单元,用于根据故障判断结果和第一设备接入信息生成第一数据处理结果;
所述特征提取单元之前还包括:
预训练单元,用于根据训练数据对所述深度学习算法进行预训练得到训练后的深度学习算法,其中,所述训练数据用于供所述深度学习算法进行服务器的设备故障诊断识别训练;
所述深度学习算法为递归神经网络算法,所述第一设备接入信息为序列数据,所述特征提取单元包括:
递归神经网络特征提取子单元,用于根据所述递归神经网络算法对所述序列数据进行特征提取,获取所述特征提取结果;
所述故障判断单元包括:
关键字属性分析子单元,用于根据预先设置的关键字对所述特征提取结果进行关键字属性分析,获取故障判断结果。
15.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-13任一项所述的服务器管理方法的步骤。
16.一种非易失性可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13任一项所述的服务器管理方法。
CN202310944749.0A 2023-07-28 2023-07-28 服务器管理方法、装置、电子设备及存储介质 Active CN117806900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310944749.0A CN117806900B (zh) 2023-07-28 2023-07-28 服务器管理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310944749.0A CN117806900B (zh) 2023-07-28 2023-07-28 服务器管理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117806900A CN117806900A (zh) 2024-04-02
CN117806900B true CN117806900B (zh) 2024-05-07

Family

ID=90432479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310944749.0A Active CN117806900B (zh) 2023-07-28 2023-07-28 服务器管理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117806900B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118394605B (zh) * 2024-06-24 2024-10-01 新华三人工智能科技有限公司 基于人工智能模型辅助服务器bmc运维方法及装置
CN118394695B (zh) * 2024-06-28 2024-10-01 苏州元脑智能科技有限公司 通用串行总线控制装置、系统、方法、设备、介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
WO2020259421A1 (zh) * 2019-06-28 2020-12-30 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置
DE102021105413A1 (de) * 2020-04-14 2021-10-14 Hewlett Packard Enterprise Development Lp Gesundheitsinformationen verarbeiten, um festzustellen, ob eine anomalie aufgetreten ist
CN113918375A (zh) * 2021-12-13 2022-01-11 苏州浪潮智能科技有限公司 一种故障处理方法、装置及电子设备和存储介质
KR20220042687A (ko) * 2020-09-28 2022-04-05 김학철 순환 신경망(rnn)을 이용한 스마트팜 센서의 고장여부 판단방법
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020259421A1 (zh) * 2019-06-28 2020-12-30 深圳前海微众银行股份有限公司 一种业务系统的监控方法及装置
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
DE102021105413A1 (de) * 2020-04-14 2021-10-14 Hewlett Packard Enterprise Development Lp Gesundheitsinformationen verarbeiten, um festzustellen, ob eine anomalie aufgetreten ist
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
KR20220042687A (ko) * 2020-09-28 2022-04-05 김학철 순환 신경망(rnn)을 이용한 스마트팜 센서의 고장여부 판단방법
CN113918375A (zh) * 2021-12-13 2022-01-11 苏州浪潮智能科技有限公司 一种故障处理方法、装置及电子设备和存储介质
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117806900A (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN117806900B (zh) 服务器管理方法、装置、电子设备及存储介质
US20100077258A1 (en) Generate diagnostic data for overdue thread in a data processing system
CN110737201B (zh) 一种监护方法、装置、存储介质及空调
CN105700999B (zh) 记录处理器操作的方法及系统
CN111274059A (zh) 一种从设备的软件异常处理方法及装置
JP2022522474A (ja) 組み込みソフトウェアアプリケーションのための機械学習ベースの異常検出
CN109003646A (zh) 一种数据处理方法及单片机
CN113849356B (zh) 一种设备测试方法、装置、电子设备和存储介质
KR102410940B1 (ko) Ecu 실행시간 모니터링 및 고장원인 파악 방법 및 시스템
US12010470B2 (en) Data processing system, data processing method, sensor apparatus, and receiving apparatus
CN104750551B (zh) 一种计算机系统及其自定义响应方法
CN109597389A (zh) 一种嵌入式控制系统的测试系统
CN111695445A (zh) 一种人脸识别的方法、装置、设备及计算机可读存储介质
CN114034972B (zh) 基于图像数据的智能电缆故障确定方法和装置
CN115934446A (zh) 一种自检方法、服务器、设备和存储介质
CN114338451B (zh) 一种控制器局域网总线测试系统、方法和存储介质
CN115135358B (zh) 使用机器学习的自动传感器追踪验证
CN111796872A (zh) 控制方法、机器人、控制设备、系统和介质
CN110175083A (zh) 操作系统的监控方法和装置
CN112100023B (zh) 一种异构加速平台的板卡信息获取的方法和设备
CN114979478A (zh) 一种设备控制的方法和装置
CN113815636A (zh) 一种车辆安全监控方法、装置、电子设备及存储介质
CN110412983A (zh) 一种车辆避碰的检测方法及装置、车辆
CN111538644A (zh) 计算机故障报警系统及方法
US12124325B2 (en) Automatic sensor trace validation using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant