CN117170994A - Ipmi接口协议的故障预测扩展方法及系统 - Google Patents
Ipmi接口协议的故障预测扩展方法及系统 Download PDFInfo
- Publication number
- CN117170994A CN117170994A CN202311153871.2A CN202311153871A CN117170994A CN 117170994 A CN117170994 A CN 117170994A CN 202311153871 A CN202311153871 A CN 202311153871A CN 117170994 A CN117170994 A CN 117170994A
- Authority
- CN
- China
- Prior art keywords
- data
- command
- bmc
- request
- ipmi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 title claims abstract 20
- 238000005070 sampling Methods 0.000 claims abstract description 64
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 21
- 230000036541 health Effects 0.000 claims description 16
- 230000003862 health status Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 description 15
- 239000000306 component Substances 0.000 description 13
- 238000013475 authorization Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000011084 recovery Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- OUXCBPLFCPMLQZ-WOPPDYDQSA-N 4-amino-1-[(2r,3s,4s,5r)-4-hydroxy-5-(hydroxymethyl)-3-methyloxolan-2-yl]-5-iodopyrimidin-2-one Chemical compound C[C@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)N=C(N)C(I)=C1 OUXCBPLFCPMLQZ-WOPPDYDQSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种IPMI接口协议的故障预测扩展方法及系统,通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式,并将预设采样数据格式封装得到的IPMI命令发送至服务器管理控制器BMC,通过推理预测服务功能模块PSDF基于采样数据发送请求命令解析推理模型编号,根据推理模型编号匹配推理模型,并在匹配到推理模型时,向DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,通过上述方式实现了对设备的自动化预警,实现对故障的准确预警。
Description
技术领域
本发明涉及服务器管理技术领域,尤其涉及一种IPMI接口协议的故障预测扩展方法及系统。
背景技术
当前,服务器设计和生产厂商利用IPMI接口协议实现独立于固件、操作系统的服务器监控,能够从远程获取服务器温度/电源状态等健康信息、访问系统日志、发送告警等功能。当前IPMI接口协议的功能和命令全部都是针对温度、电压、风扇转速等传感器的简单采样数据,其告警策略也是直接用简单采样数据和阈值进行比较。也就是说,只有当服务器已经出现故障,服务器管理员才能进行服务器维护工作。发生故障后才进行故障恢复,在一定程度上提高了服务器的可靠性;但是这种事后恢复机制很多时候延长了故障修复时间,降低了服务器的可用性,目前的方式无法实现对IPMI接口协议进行故障预测。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种IPMI接口协议的故障预测扩展方法及系统,旨在解决现有技术无法实现对IPMI接口协议进行故障预测的技术问题。
为实现上述目的,本发明提供了一种IPMI接口协议的故障预测扩展方法,所述IPMI接口协议的故障预测扩展方法包括以下步骤:
通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式;
通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令;
通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,其中,所述PSDF设置在所述BMC中,所述采样数据发送响应命令用于描述BMC对请求命令的接收情况且不包含数据。
可选地,所述预设采样数据格式由模型ID,采样时间,长度以及数据组成,其中,所述模型ID对应的数据域占4个字节,所述采样时间对应的数据域占12个字节,每两个字节分别表示年/月/日/时/分/秒,所述长度对应的数据域占4个字节,用于表示数据占用字节的数量,所述数据与实际采样数据的数据域一致且数据长度按照字节对齐。
可选地,所述其他用户软件包括模型学习软件和健康状态展示软件,所述故障预测数据对应的数据格式由标记/预测事件以及所述预设采样数据格式组成,所述标记/预测事件对应数据域占用4字节长度,其中,当第0位设置为0时,表示为预测事件,用于供给所述健康状态展示软件使用,当第0位设置为1时,用于供给所述健康状态展示软件使用,除所述第0位外的其他位由所匹配到的推理模型确定,所述第0位是否设置为1由所述PSDF周期性检查本地专有存储区SFPS中的每一个故障预测数据,并根据存储区中同类型设备的最新故障预测数据的时间域确定。
此外,为实现上述目的,本发明还提出一种IPMI接口协议的故障预测扩展系统,应用于上述中任一项所述的IPMI接口协议的故障预测扩展方法,所述系统包括BMC与服务终端,所述服务终端至少包括计算机或服务器CPU,所述BMC通过传输层通道分别与学习软件、采集模块以及健康/状态管理软件进行通信,所述传输层通道至少包括网络或串口的系统总线,所述BMC内设置有推理预测服务功能模块PSDF,所述推理预测服务功能模块PSDF驻留在BMC内部运行,并通过传输层通道为串口的系统总线向所述采集模块请求磁盘或内存等格式信息数据。
可选地,在所述BMC与所述学习软件进行通信时,通过所述学习软件向所述BMC发送请求样本数据命令或请求更新模型命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令或基于所述请求更新模型命令反馈响应请求更新模型命令,所述请求样本数据命令对应的数据格式包括类型、数据以及标签,所述请求更新模型命令对应的数据格式包括类型与模型文件;
在所述BMC与所述采集模块进行通信时,通过所述采集模块向所述BMC发送请求发送格式数据命令,并通过所述BMC基于所述请求发送格式数据命令反馈响应接收格式数据命令,所述请求发送格式数据命令对应的数据格式包括类型与数据;
在所述BMC与健康/状态管理软件进行通信时,通过所述健康/状态管理软件向所述BMC发送请求样本数据命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令,所述请求样本数据命令对应的数据格式包括类型与预测事件。
可选地,所述系统还包括训练服务模块,所述推理预测服务功能模块PSDF与所述训练服务模块通过网络进行通信,所述训练服务模块用于向所述推理预测服务功能模块PSDF发送样本数据请求;
所述推理预测服务功能模块PSDF用于在接收到所述样本数据请求后,响应所述样本数据请求,并将样本数据发送给所述训练服务模块,以使所述训练模块根据所获取到的样本数据进行模型训练;
所述训练服务模块向所述推理预测服务功能模块PSDF发送模型更新请求;
所述推理预测服务功能模块PSDF在接收到所述模型更新请求后,更新模型文件。
可选地,所述传输层通道包括的串口为UART接口,所述BMC通过所述UART接口与所述计算机或服务器CPU进行通信,所述UART接口包括用于串行通信的串行数据的发送和接收的接收器与发送器,所述BMC的发送器与所述计算机或服务器CPU的接收器连接,所述BMC的接收器与所述计算机或服务器CPU的发送器连接。
可选地,所述BMC用于将IPMI指令数据通过所述UART接口传输给所述计算机或服务器端的接收器;
所述计算机或服务器端的接收器完成IPMI指令数据的接收,将接收到的IPMI指令数据存储于对应地址的内存空间,并通过IPMI指令解析模块完成对接收到的IPMI指令数据进行解析,以校验所述IPMI指令数据的正确性,若正确则将所述IPMI指令数据传输给IPMI指令接口调用相应模块实现对BMC端请求的响应。
可选地,所述UART接口将所述IPMI指令数据按照UART协议进行传输,所述UART协议包含空闲位、起始位、数据位、奇偶校验位以及停止位,其中,所述数据位为5~9位构成的一个字符,用于将所述IPMI指令数据依次按照一个字符的大小通过UART协议的数据位从所述BMC传输给所述计算机或服务器CPU。
可选地,所述UART接口用于电平转换,所述UART接口至少支持0~5V、0~3.3V0~1.8V的TTL/COMS逻辑电平,若所述BMC对应的UART接口为0~3.3V COMS逻辑电平,则所述计算机或服务器CPU对应的UART接口为0~1.8V COMS逻辑电平。
本发明通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式;通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令;通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,通过上述方式实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,辅助运维人员对硬件故障进行提前干预与处理,能够提升服务器故障预警能力、故障诊断明确率,以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性,推理模块分布在每台服务器计算机上,模型文件和各种格式数据受到BMC的授权保护。
附图说明
图1为本发明IPMI接口协议的故障预测扩展方法第一实施例的流程示意图;
图2为本发明IPMI接口协议的故障预测扩展方法第一实施例中IPMI协议相关基本概念示意图;
图3为本发明IPMI接口协议的故障预测扩展方法第一实施例中IPMI-XXXX协议相关基本概念示意图;
图4为本发明IPMI接口协议的故障预测扩展系统第一实施例的结构框图;
图5为本发明IPMI接口协议的故障预测扩展系统第一实施例中传输流程示意图;
图6为本发明IPMI接口协议的故障预测扩展系统中UART与BMC以及服务端之间的连接结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种IPMI接口协议的故障预测扩展方法,参照图1,图1为本发明一种IPMI接口协议的故障预测扩展方法第一实施例的流程示意图。
本实施例中,所述IPMI接口协议的故障预测扩展方法包括以下步骤:
步骤S10:通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式。
在本实施例中,本实施例的执行主体可为所述IPMI接口协议的故障预测扩展设备,该IPMI接口协议的故障预测扩展设备具有数据处理、数据通信及程序运行等功能。当然,还可为其他具有相似功能的设备,本实施条件对此不加以限制。为便于说明,本实施方式以IPMI接口协议的故障预测扩展设备为例进行说明。
需要说明的是,当前,服务器设计和生产厂商利用IPMI接口协议实现独立于固件、操作系统的服务器监控,能够从远程获取服务器温度/电源状态等健康信息、访问系统日志、发送告警等功能。当前IPMI接口协议的功能和命令全部都是针对温度、电压、风扇转速等传感器的简单采样数据,其告警策略也是直接用简单采样数据和阈值进行比较。也就是说,只有当服务器已经出现故障,服务器管理员才能进行服务器维护工作。发生故障后才进行故障恢复,在一定程度上提高了服务器的可靠性;但是这种事后恢复机制很多时候延长了故障修复时间,降低了服务器的可用性,目前的方式无法实现对IPMI接口协议进行故障预测。
为了解决上述问题,可以通过数据采样功能模块DSF将采样硬件组件所采集到的采样数据封装成预设采样数据格式;通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令;通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,通过上述方式实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,辅助运维人员对硬件故障进行提前干预与处理,能够提升服务器故障预警能力、故障诊断明确率,以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性,推理模块分布在每台服务器计算机上,模型文件和各种格式数据受到BMC的授权保护。
需要说明的是,在服务器计算机中,运维管理系统和业务系统是两套垂直的系统;运维管理系统旨在提高服务器软硬件平台的高可靠性,对服务器软硬件平台进行状态监控、故障监控,以及故障恢复。BMC是服务器计算机运维管理系统的核心部件;健康管理、状态管理等软件必须通过IPMI命令与BMC通信,在获得BMC授权条件下才能获取服务器状态信息并对服务器计算机进行相关控制。为了兼容对功能可替换单元的运维管理,功能可替换单元与BMC通过IPMB总线连接,IPMB总线上只能运行状态请求和响应两种IPMI命令;健康管理、状态管理等软件对功能可替换单元的状态查询只能通过BMC转发,例如图2所示,IPMI协议定义了图1所示的灰色逻辑,IPMI协议不定义健康管理、状态管理等软件具体行为,但是当前已有的将运维管理和机器学习/推理相融合的技术,主要是在健康/状态管理软件实现的,不属于IPMI协议定义的BMC功能扩展,推理模型的更新与BMC无关。推理模型更新和推理数据获取,不需要获得BMC授权,因此安全性也缺乏保障。当前IPMI协议本身并没有针对故障的预测功能,IPMI协议定义的BMC功能和IPMI命令全部都是原始数据,以及基于原始数据和阈值简单比较后的事件数据。另外,服务器主存、磁盘等部件的运维数据可能涉及到主存、磁盘等服务器厂商的技术秘密;服务器厂商不愿意与BMC模块开发商、运维管理软件开发商共享原始数据采集接口和原始数据。
本方案中所采取的为IPMI-XXXX子协议,是基于IPMI协议对服务器主存、磁盘等部件故障预测的功能扩展,服务器或设备厂商以灵活模块的方式,在获得BMC授权的条件下,提供格式化的数据给BMC,例如(类型、数据)。BMC内部实现推理功能,计算出预测事件,同时BMC还会根据格式化数据记录,生成样本数据,例如(类型、数据、标签);健康管理软件在获得授权条件下,获得预测事件,例如(类型、预测事件)。学习软件在获得BMC授权条件下,获得样本数据从而计算出推理模型;并在BMC授权条件下,对BMC的推理模型进行更新,这里涉及到模型文件数据(类型、模型文件)。IPMI-XXXX子协议对应的框架如图3所示,推理模块中所自带的推理模型属于常规,本实施例中改进在于将推理模块集成在BMC中,并定义了相关的命格格式。
需要强调的是,本方案所提出的IPMI-XXXX子协议,属于IPMI协议的扩展,推理模型的更新需要获得BMC授权。推理模块属于BMC功能扩展,驻留在BMC内部运行,并通过传输层通道为串口的系统总线,向驻留在业务系统上的采集模块请求磁盘/内存等格式信息数据;格式信息数据与传感器数据完全不同,提供了针对磁盘/内存等服务器关键硬件的有效状态。原IPMI协议没有对这类信息进行定义,IPMI-XXXX子协议需要对这类信息进行格式化定义。IPMI-XXXX子协议的命令是在原IPMI命令上,增加了两类:学习软件与BMC的通信命令:包括学习软件请求样本数据命令、BMC响应请求样本数据命令;学习软件请求更新模型命令、BMC响应请求更新模型命令。BMC与采集模块的通信命令:BMC请求格式化数据命令,采集模块响应请求格式化数据命令。
具体地,本实施例中需要通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式,本实施例中可以实现在服务器主机上实现关键硬件组件数据采样功能DSF,预设采样数据格式由模型ID,采样时间,长度以及数据组成,其中,所述模型ID对应的数据域占4个字节,所述采样时间对应的数据域占12个字节,每两个字节分别表示年/月/日/时/分/秒,所述长度对应的数据域占4个字节,用于表示数据占用字节的数量,所述数据与实际采样数据的数据域一致且数据长度按照字节对齐,例如模型ID域占4个字节,这个类型就是PSDF中实现的推理模型编号。时间域占12个字节,表示数据采样的时间,格式如“YYMMDDHHMMSS”,每两个字节分别表示年/月/日/时/分/秒。长度域占4个字节,表示数据占用字节的数量。数据域是实际采样数据,数据长度要按照字节对齐。
步骤S20:通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令。
需要说明的是,按照IPMI接口协议规定,采样数据格式并不能直接发送给服务器的BMC;因此DSF需要将采样数据格式封装成一个IPMI命令,并通过“系统接口”才能发送给BMC,在得到IPMI命令之后,再将IPMI命令发送至服务器管理器BMC,该命令为采样数据发送请求命令,也即用于请求进行数据的采样。
步骤S30:通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,其中,所述PSDF设置在所述BMC中,所述采样数据发送响应命令用于描述BMC对请求命令的接收情况且不包含数据。
具体地,例如PSDF接收到IPMI的采样数据发送请求命令后,解析出推理模型编号,查找相应模型,如果匹配上了,按照IPMI接口协议规定向通过“系统接口”给DSF发送IPMI采样数据发送响应命令。这个IPMI命令不包含数据,仅仅描述了BMC对请求命令的接收情况,
需要说明的是,除此之外,PSDF还需要用查找到的模型对接收到的采样数据进行推理预测,并将计算结果和原始采样数据组成故障预测数据,格式是(标记/预测事件,采样数据格式[模型ID,时间,长度,数据])。然后存在本地专有存储区SFPS中,以备其他用户软件(例如模型学习软件、健康状态展示软件等)的使用,具体为通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,所述其他用户软件包括模型学习软件和健康状态展示软件,所述故障预测数据对应的数据格式由标记/预测事件以及所述预设采样数据格式组成,所述标记/预测事件对应数据域占用4字节长度,其中,当第0位设置为0时,表示为预测事件,用于供给所述健康状态展示软件使用,当第0位设置为1时,用于供给所述健康状态展示软件使用,除所述第0位外的其他位由所匹配到的推理模型确定,所述第0位是否设置为1由所述PSDF周期性检查本地专有存储区SFPS中的每一个故障预测数据,并根据存储区中同类型设备的最新故障预测数据的时间域确定,例如故障预测数据格式,其实就是直接在采样数据格式之前增加了标记/预测事件域:标记/预测事件域占用4字节长度。其中第0位的意义是:对采样数据进行推理预测后PSDF直接将该位设置为0,表示这是预测事件,这类故障预测数据为了提供给健康状态展示软件;另外,PSDF还需要周期性检查存储区SFPS中的每一个故障预测数据,并根据存储区中同类型设备的最新故障预测数据的时间域,来计算是否将该位设置为1,这类故障预测数据为了提供给模型学习软件。除了第0位的其他位,由具体推理模型的计算决定。
本实施例通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式;通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令;通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,通过上述方式实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,辅助运维人员对硬件故障进行提前干预与处理,能够提升服务器故障预警能力、故障诊断明确率,以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性,推理模块分布在每台服务器计算机上,模型文件和各种格式数据受到BMC的授权保护。
本发明实施例进一步提供一种IPMI接口协议的故障预测扩展系统,参照图4,图4为本发明一种IPMI接口协议的故障预测扩展系统第一实施例的接口框图。
本实施例中所述系统包括BMC与服务终端,所述服务终端至少包括计算机或服务器CPU,所述BMC通过传输层通道分别与学习软件、采集模块以及健康/状态管理软件进行通信,所述传输层通道至少包括网络或串口的系统总线,所述BMC内设置有推理预测服务功能模块PSDF,所述推理预测服务功能模块PSDF驻留在BMC内部运行,并通过传输层通道为串口的系统总线向所述采集模块请求磁盘或内存等格式信息数据。该系统的具体传输流程可以参照图5所示,其中,在所述BMC与所述学习软件进行通信时,通过所述学习软件向所述BMC发送请求样本数据命令或请求更新模型命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令或基于所述请求更新模型命令反馈响应请求更新模型命令,所述请求样本数据命令对应的数据格式包括类型、数据以及标签,所述请求更新模型命令对应的数据格式包括类型与模型文件;在所述BMC与所述采集模块进行通信时,通过所述采集模块向所述BMC发送请求发送格式数据命令,并通过所述BMC基于所述请求发送格式数据命令反馈响应接收格式数据命令,所述请求发送格式数据命令对应的数据格式包括类型与数据;在所述BMC与健康/状态管理软件进行通信时,通过所述健康/状态管理软件向所述BMC发送请求样本数据命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令,所述请求样本数据命令对应的数据格式包括类型与预测事件。所述系统还包括训练服务模块,所述推理预测服务功能模块PSDF与所述训练服务模块通过网络进行通信,所述训练服务模块用于向所述推理预测服务功能模块PSDF发送样本数据请求;所述推理预测服务功能模块PSDF用于在接收到所述样本数据请求后,响应所述样本数据请求,并将样本数据发送给所述训练服务模块,以使所述训练模块根据所获取到的样本数据进行模型训练;所述训练服务模块向所述推理预测服务功能模块PSDF发送模型更新请求;所述推理预测服务功能模块PSDF在接收到所述模型更新请求后,更新模型文件。
进一步地,IPMI(智能平台管理)是一种用于带外管理的计算机接口规范协议,IPMI智能平台管理接口协议中规定了以下4中标准系统传输接口:KCS、SMIC、BT、SSIF;其中在远程管理及服务器管理等场景,主要使用KCS、BT用于连接管理控制器(BMC)和主机处理器(CPU)之间的通讯接口。当前市面上基于X86架构的计算机、服务器CPU芯片及BMC芯片,大多将KCS、BT接口挂载在LPC总线上,但目前在国产BMC、国产计算机、服务器CPU芯片领域很多国产芯片并不具有LPC总线或具有LPC总线但不包含KCS、BT接口,导致BMC与计算机、服务器CPU之间缺少一种适用的系统传输接口。
为了解决这一问题,本方案中传输层通道包括的串口设置为UART接口,所述BMC通过所述UART接口与所述计算机或服务器CPU进行通信,所述UART接口包括用于串行通信的串行数据的发送和接收的接收器与发送器,所述BMC的发送器与所述计算机或服务器CPU的接收器连接,所述BMC的接收器与所述计算机或服务器CPU的发送器连接。所述BMC用于将IPMI指令数据通过所述UART接口传输给所述计算机或服务器端的接收器;所述计算机或服务器端的接收器完成IPMI指令数据的接收,将接收到的IPMI指令数据存储于对应地址的内存空间,并通过IPMI指令解析模块完成对接收到的IPMI指令数据进行解析,以校验所述IPMI指令数据的正确性,若正确则将所述IPMI指令数据传输给IPMI指令接口调用相应模块实现对BMC端请求的响应。
具体地,所述UART接口将所述IPMI指令数据按照UART协议进行传输,所述UART协议包含空闲位、起始位、数据位、奇偶校验位以及停止位,其中,所述数据位为5~9位构成的一个字符,用于将所述IPMI指令数据依次按照一个字符的大小通过UART协议的数据位从所述BMC传输给所述计算机或服务器CPU。所述UART接口用于电平转换,所述UART接口至少支持0~5V、0~3.3V0~1.8V的TTL/COMS逻辑电平,若所述BMC对应的UART接口为0~3.3VCOMS逻辑电平,则所述计算机或服务器CPU对应的UART接口为0~1.8V COMS逻辑电平。例如UART通用异步收发器包括TX(发送器)、RX(接收器)主要用于串行通信的串行数据的发送和接收,BMC模块的TX(发送器)与计算机、服务器CPU的RX(接收器)连接,同理计算机、服务器CPU的TX(发送器)与BMC模块的RX(接收器)连接;UART支持0~5V,0~3.3V,0~1.8V等不同的TTL/COMS逻辑电平,例如BMC模块UART接口为0~3.3V COMS逻辑电平,计算机、服务器CPUUART接口为0~1.8V COMS逻辑电平。那么BMC模块UART接口需连接UART电平转换芯片将电平转换为0~1.8V,再与计算机、服务器CPU UART接口通讯,其具体连接如图6所示。
本实施例中通过使用UART接口做为BMC芯片与计算机、服务器CPU之间的IPMI系统传输接口,可以降低国产计算机、服务器CPU芯片及BMC芯片的设计难度、提升系统的可靠性、降低硬件设计的复杂性,节约硬件设计成本。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的种IPMI接口协议的故障预测扩展方法,此处不再赘述。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
应该理解的是,虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
Claims (10)
1.一种IPMI接口协议的故障预测扩展方法,其特征在于,所述方法包括:
通过数据采样功能模块DSF件将采样硬件组件所采集到的采样数据封装成预设采样数据格式;
通过所述DSF对所述预设采样数据格式进行封装,得到IPMI命令,并将所述IPMI命令发送至服务器管理控制器BMC,所述IPMI命令为采样数据发送请求命令;
通过推理预测服务功能模块PSDF接收所述采样数据发送请求命令,基于所述采样数据发送请求命令解析推理模型编号,根据所述推理模型编号匹配相应的推理模型,并在匹配到相应的推理模型时,向所述DSF反馈采样数据发送响应命令,同时通过所匹配到的推理模型对所述采样数据进行预测,将预测结果与原始采样数据组成故障预测数据,并将所述故障预测数据存储至本地专有存储区SFPS,以供其他用户软件使用,其中,所述PSDF设置在所述BMC中,所述采样数据发送响应命令用于描述BMC对请求命令的接收情况且不包含数据。
2.如权利要求1所述的方法,其特征在于,所述预设采样数据格式由模型ID,采样时间,长度以及数据组成,其中,所述模型ID对应的数据域占4个字节,所述采样时间对应的数据域占12个字节,每两个字节分别表示年/月/日/时/分/秒,所述长度对应的数据域占4个字节,用于表示数据占用字节的数量,所述数据与实际采样数据的数据域一致且数据长度按照字节对齐。
3.如权利要求2所述的方法,其特征在于,所述其他用户软件包括模型学习软件和健康状态展示软件,所述故障预测数据对应的数据格式由标记/预测事件以及所述预设采样数据格式组成,所述标记/预测事件对应数据域占用4字节长度,其中,当第0位设置为0时,表示为预测事件,用于供给所述健康状态展示软件使用,当第0位设置为1时,用于供给所述健康状态展示软件使用,除所述第0位外的其他位由所匹配到的推理模型确定,所述第0位是否设置为1由所述PSDF周期性检查本地专有存储区SFPS中的每一个故障预测数据,并根据存储区中同类型设备的最新故障预测数据的时间域确定。
4.一种IPMI接口协议的故障预测扩展系统,其特征在于,应用于上述权利要求1至3中任一项所述的IPMI接口协议的故障预测扩展方法,所述系统包括BMC与服务终端,所述服务终端至少包括计算机或服务器CPU,所述BMC通过传输层通道分别与学习软件、采集模块以及健康/状态管理软件进行通信,所述传输层通道至少包括网络或串口的系统总线,所述BMC内设置有推理预测服务功能模块PSDF,所述推理预测服务功能模块PSDF驻留在BMC内部运行,并通过传输层通道为串口的系统总线向所述采集模块请求磁盘或内存等格式信息数据。
5.如权利要求4所述的系统,其特征在于,在所述BMC与所述学习软件进行通信时,通过所述学习软件向所述BMC发送请求样本数据命令或请求更新模型命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令或基于所述请求更新模型命令反馈响应请求更新模型命令,所述请求样本数据命令对应的数据格式包括类型、数据以及标签,所述请求更新模型命令对应的数据格式包括类型与模型文件;
在所述BMC与所述采集模块进行通信时,通过所述采集模块向所述BMC发送请求发送格式数据命令,并通过所述BMC基于所述请求发送格式数据命令反馈响应接收格式数据命令,所述请求发送格式数据命令对应的数据格式包括类型与数据;
在所述BMC与健康/状态管理软件进行通信时,通过所述健康/状态管理软件向所述BMC发送请求样本数据命令,并通过所述BMC基于所述请求样本数据命令反馈响应请求样本数据命令,所述请求样本数据命令对应的数据格式包括类型与预测事件。
6.如权利要求4所述的系统,其特征在于,所述系统还包括训练服务模块,所述推理预测服务功能模块PSDF与所述训练服务模块通过网络进行通信,所述训练服务模块用于向所述推理预测服务功能模块PSDF发送样本数据请求;
所述推理预测服务功能模块PSDF用于在接收到所述样本数据请求后,响应所述样本数据请求,并将样本数据发送给所述训练服务模块,以使所述训练模块根据所获取到的样本数据进行模型训练;
所述训练服务模块向所述推理预测服务功能模块PSDF发送模型更新请求;
所述推理预测服务功能模块PSDF在接收到所述模型更新请求后,更新模型文件。
7.如权利要求4所述的系统,其特征在于,所述传输层通道包括的串口为UART接口,所述BMC通过所述UART接口与所述计算机或服务器CPU进行通信,所述UART接口包括用于串行通信的串行数据的发送和接收的接收器与发送器,所述BMC的发送器与所述计算机或服务器CPU的接收器连接,所述BMC的接收器与所述计算机或服务器CPU的发送器连接。
8.如权利要求7所述的系统,其特征在于,所述BMC用于将IPMI指令数据通过所述UART接口传输给所述计算机或服务器端的接收器;
所述计算机或服务器端的接收器完成IPMI指令数据的接收,将接收到的IPMI指令数据存储于对应地址的内存空间,并通过IPMI指令解析模块完成对接收到的IPMI指令数据进行解析,以校验所述IPMI指令数据的正确性,若正确则将所述IPMI指令数据传输给IPMI指令接口调用相应模块实现对BMC端请求的响应。
9.如权利要求8所述的系统,其特征在于,所述UART接口将所述IPMI指令数据按照UART协议进行传输,所述UART协议包含空闲位、起始位、数据位、奇偶校验位以及停止位,其中,所述数据位为5~9位构成的一个字符,用于将所述IPMI指令数据依次按照一个字符的大小通过UART协议的数据位从所述BMC传输给所述计算机或服务器CPU。
10.如权利要求7所述的系统,其特征在于,所述UART接口用于电平转换,所述UART接口至少支持0~5V、0~3.3V0~1.8V的TTL/COMS逻辑电平,若所述BMC对应的UART接口为0~3.3V COMS逻辑电平,则所述计算机或服务器CPU对应的UART接口为0~1.8V COMS逻辑电平。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153871.2A CN117170994B (zh) | 2023-09-07 | 2023-09-07 | Ipmi接口协议的故障预测扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153871.2A CN117170994B (zh) | 2023-09-07 | 2023-09-07 | Ipmi接口协议的故障预测扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117170994A true CN117170994A (zh) | 2023-12-05 |
CN117170994B CN117170994B (zh) | 2024-07-19 |
Family
ID=88931499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311153871.2A Active CN117170994B (zh) | 2023-09-07 | 2023-09-07 | Ipmi接口协议的故障预测扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117170994B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446049A (zh) * | 2018-11-01 | 2019-03-08 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法和装置 |
CN111124852A (zh) * | 2019-11-21 | 2020-05-08 | 北京计算机技术及应用研究所 | 一种基于bmc健康管理模块的故障预测方法及系统 |
CN111858230A (zh) * | 2019-04-30 | 2020-10-30 | Ovh公司 | 用于监控服务器基础设施的健康状况的方法和系统 |
US20210081266A1 (en) * | 2019-09-13 | 2021-03-18 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Using server power to predict failures |
US20210377102A1 (en) * | 2018-03-09 | 2021-12-02 | Wangsu Science & Technology Co., Ltd. | A method and system for detecting a server fault |
CN115794702A (zh) * | 2022-11-09 | 2023-03-14 | 上海遇贤微电子有限公司 | 接口转接装置、服务器系统和接口切换方法 |
-
2023
- 2023-09-07 CN CN202311153871.2A patent/CN117170994B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210377102A1 (en) * | 2018-03-09 | 2021-12-02 | Wangsu Science & Technology Co., Ltd. | A method and system for detecting a server fault |
CN109446049A (zh) * | 2018-11-01 | 2019-03-08 | 郑州云海信息技术有限公司 | 一种基于监督学习的服务器错误诊断方法和装置 |
CN111858230A (zh) * | 2019-04-30 | 2020-10-30 | Ovh公司 | 用于监控服务器基础设施的健康状况的方法和系统 |
US20210081266A1 (en) * | 2019-09-13 | 2021-03-18 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Using server power to predict failures |
CN111124852A (zh) * | 2019-11-21 | 2020-05-08 | 北京计算机技术及应用研究所 | 一种基于bmc健康管理模块的故障预测方法及系统 |
CN115794702A (zh) * | 2022-11-09 | 2023-03-14 | 上海遇贤微电子有限公司 | 接口转接装置、服务器系统和接口切换方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117170994B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7589624B2 (en) | Component unit monitoring system and component unit monitoring method | |
CN107272649A (zh) | 车辆故障远程诊断系统及方法 | |
US8793366B2 (en) | Method and arrangement for diagnosing networks including field bus systems | |
US20190217869A1 (en) | Control apparatus, control method, and program | |
CN111600848B (zh) | 一种协议转换器及其控制方法 | |
CN101577698A (zh) | 带外智能管理服务器系统及监控服务器和处理命令方法 | |
US20240020017A1 (en) | Monitoring method and apparatus for electronic device, and electronic device | |
US20120136970A1 (en) | Computer system and method for managing computer device | |
CN110569988B (zh) | 一种支付机具故障处理系统及处理方法 | |
CN110457744B (zh) | 一种sd/sdio设备仿真模型框架及其设计方法 | |
US7051363B2 (en) | System and method for interfacing to different implementations of the intelligent platform management interface | |
US20060209680A1 (en) | Network link backup system | |
CN112697267A (zh) | 一种工业设备异常振动检测装置 | |
CN114662618A (zh) | 一种基于联邦学习的故障诊断方法、装置及相关设备 | |
CN115543746A (zh) | 图形处理器监测方法、系统、装置及电子设备 | |
CN117170994B (zh) | Ipmi接口协议的故障预测扩展方法及系统 | |
KR100505692B1 (ko) | 디스크 드라이브의 고장 진단 서비스 시스템 및 방법 | |
CN101296132A (zh) | 一种监测网卡的方法、系统及一种监测装置 | |
CN109032867A (zh) | 一种故障诊断方法、装置及设备 | |
CN113010122A (zh) | 图像形成装置监控装置、方法、系统和存储介质 | |
CN101136756B (zh) | 网络远程控制主机上电自检的方法、系统和bmc芯片 | |
CN116599870A (zh) | 一种基于物联网的ecu手持监控诊断设备系统 | |
US20080285461A1 (en) | Method for remotely monitoring system | |
CN101098257A (zh) | 改善被管理网络中的错误管理的方法和网络单元 | |
CN103440218A (zh) | 基于usb-hid协议的can总线监控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |