CN118113508A - 网卡故障风险预测方法、装置、设备及介质 - Google Patents

网卡故障风险预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN118113508A
CN118113508A CN202410383404.7A CN202410383404A CN118113508A CN 118113508 A CN118113508 A CN 118113508A CN 202410383404 A CN202410383404 A CN 202410383404A CN 118113508 A CN118113508 A CN 118113508A
Authority
CN
China
Prior art keywords
network card
register
speed serial
expansion bus
bus standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410383404.7A
Other languages
English (en)
Inventor
麻书卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202410383404.7A priority Critical patent/CN118113508A/zh
Publication of CN118113508A publication Critical patent/CN118113508A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及服务器技术领域,公开了一种网卡故障风险预测方法、装置、设备及介质,应用于处理器,包括:接收故障诊断命令后,在服务器操作系统下运行故障诊断命令对应的故障诊断脚本;实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数;在监测到目标类型错误被触发且计数达到设定阈值时,自动收集网卡中的寄存器原始数据;将寄存器原始数据通过设定协议发送至基板管理控制器。这样能够使基板管理控制器带内间接获取寄存器原始数据来预测出网卡故障风险,方便用户有效管理网卡设备,降低宕机的发生概率,并且减少频繁获取寄存器原始数据而造成资源消耗的缺陷,提升服务器产品竞争力。

Description

网卡故障风险预测方法、装置、设备及介质
技术领域
本发明涉及服务器技术领域,特别是涉及一种网卡故障风险预测方法、装置、设备及介质。
背景技术
服务器中不可避免地会出现各种设备故障问题,例如内存故障、高速串行计算机扩展总线标准(Peripheral Component Interconnect Express,PCIE)总线挂死、图形处理器(Graphics Processing Unit,GPU)故障、PCIE网卡故障等问题,最终设备的故障可能会导致系统宕机。
在相关技术方案中,基板管理控制器(Baseboard Management Controller,BMC)通常支持通过平台环境式控制接口(Platform Environment Control Interface,PECI)带外获取中央处理器(Central Processing Unit,CPU)中一些寄存器数据,以进行故障定位及分析。但是,BMC对于服务器内部设备的不可纠正错误和可纠正错误等寄存器数据无法进行收集分析,无法对设备的健康状态进行监测,导致带外故障诊断无法覆盖所有场景。
发明内容
本发明的目的是提供一种网卡故障风险预测方法、装置、设备及介质,可以使基板管理控制器带内间接获取寄存器原始数据来预测出网卡故障风险,方便用户有效管理网卡设备,并且减少了资源消耗。
为了解决上述技术问题,本发明提供一种网卡故障风险预测方法,所述方法应用于处理器,包括:
接收故障诊断命令后,在服务器操作系统下运行所述故障诊断命令对应的故障诊断脚本;
根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数;
在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据;
将所述寄存器原始数据通过设定协议发送至基板管理控制器,以便所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险。
第一方面,在本发明提供的上述网卡故障风险预测方法中,根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数,包括:
根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误,并对不可纠正错误和可纠正错误进行计数;
对应地,在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据,包括:
在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据。
另一方面,在本发明提供的上述网卡故障风险预测方法中,在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据,包括:
当监测到不可纠正错误或可纠正错误故障被触发时,确定当前不可纠正错误和可纠正错误故障的总计数;
判断当前不可纠正错误和可纠正错误故障的总计数是否达到设定阈值;
若是,则自动收集所述高速串行计算机扩展总线标准网卡中包括增强型错误报告和机器检查架构的寄存器原始数据;所述增强型错误报告和所述机器检查架构包含所述高速串行计算机扩展总线标准网卡内部核心的所有状态信息以及所述高速串行计算机扩展总线标准网卡的描述信息;
其中,所述高速串行计算机扩展总线标准网卡内部核心的所有状态信息包括第一缓存和第二缓存的不可纠正错误计数,逻辑运算单元和浮点运算单元的故障信息,内存显示程序的不可纠正错误和可纠正错误的信息;所述高速串行计算机扩展总线标准网卡的描述信息包括所述高速串行计算机扩展总线标准网卡的在位状态,温度,电压,电流的信息;
若否,则继续监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误。
另一方面,在本发明提供的上述网卡故障风险预测方法中,将所述寄存器原始数据通过设定协议发送至基板管理控制器,包括:
将智能平台管理接口协议作为所述故障诊断脚本与所述基板管理控制器之间传输数据约定的协议;
将所述寄存器原始数据通过所述智能平台管理接口协议发送至基板管理控制器。
另一方面,在本发明提供的上述网卡故障风险预测方法中,所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险,包括:
所述基板管理控制器在获取所述寄存器原始数据后,将所述寄存器原始数据更新至诊断日志;
根据预故障诊断规则表对所述寄存器原始数据中各个数据位进行分析;
由所述寄存器原始数据的分析结果预测所述高速串行计算机扩展总线标准网卡的故障风险。
另一方面,在本发明提供的上述网卡故障风险预测方法中,根据预故障诊断规则表对所述寄存器原始数据中各个数据位进行分析,包括:
获取由所述高速串行计算机扩展总线标准网卡各部位的故障诊断规则组成的预故障诊断规则表;
按照所述预故障诊断规则表对所述寄存器原始数据中各个数据位依次进行识别解析,生成每个数据位对应的故障诊断结论文件并存放至所述诊断日志;
将所述诊断日志中的所述故障诊断结论文件作为所述寄存器原始数据的分析结果。
另一方面,在本发明提供的上述网卡故障风险预测方法中,还包括:
根据预测结果,获取所述高速串行计算机扩展总线标准网卡的故障程度;
根据所述高速串行计算机扩展总线标准网卡的故障程度,生成宕机发生的概率。
为了解决上述技术问题,本发明还提供一种网卡故障风险预测装置,所述装置应用于处理器,包括:
脚本运行模块,用于接收故障诊断命令后,在服务器操作系统下运行所述故障诊断命令对应的故障诊断脚本;
网卡监测模块,用于根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数;
数据收集模块,用于在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据;
数据发送模块,用于将所述寄存器原始数据通过设定协议发送至基板管理控制器,以便所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险。
为了解决上述技术问题,本发明还提供一种网卡故障风险预测设备,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的网卡故障风险预测方法的步骤。
为了解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的网卡故障风险预测方法的步骤。
从上述技术方案可以看出,本发明所提供的一种网卡故障风险预测方法,该方法应用于处理器,包括:接收故障诊断命令后,在服务器操作系统下运行故障诊断命令对应的故障诊断脚本;根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数;在监测到目标类型错误被触发且计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据;将寄存器原始数据通过设定协议发送至基板管理控制器,以便基板管理控制器对寄存器原始数据进行分析,预测高速串行计算机扩展总线标准网卡的故障风险。
本发明的有益效果在于,本发明提供的上述网卡故障风险预测方法,在服务器操作系统下带内运行故障诊断脚本,利用该故障诊断脚本来实时监测高速串行计算机扩展总线标准网卡的目标类型错误,当目标类型错误被触发且计数达到设定阈值时可自动收集高速串行计算机扩展总线标准网卡的寄存器原始数据,基板管理控制器可以带内间接获取该寄存器原始数据,能够预测出高速串行计算机扩展总线标准网卡的故障风险,避免了基板管理控制器对于服务器内部设备的故障无法进行收集分析而无法对设备的健康状态进行监测的问题,方便用户有效管理网卡设备,降低宕机的发生概率,并且减少频繁获取寄存器原始数据而造成资源消耗的缺陷,提升服务器产品竞争力。
此外,本发明还针对网卡故障风险预测方法提供了相应的网卡故障风险预测装置、网卡故障风险预测设备及计算机可读存储介质,与上述提到的网卡故障风险预测方法具有相同或相对应的技术特征,效果同上。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的网卡故障风险预测方法的流程图;
图2为本发明实施例提供的网卡故障风险预测装置的结构示意图;
图3为本发明实施例提供的网卡故障风险预测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种网卡故障风险预测方法、装置、设备及介质,以解决基板管理控制器对于服务器内部设备的故障无法进行收集分析而无法对设备的健康状态进行监测的技术问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。图1为本发明实施例提供的网卡故障风险预测方法的流程图,如图1所示,该方法应用于处理器,包括:
S101、接收故障诊断命令后,在服务器操作系统下运行故障诊断命令对应的故障诊断脚本。
在实施中,通过执行上述步骤,可以进入服务器操作系统(Operating System,OS)中,在接收故障诊断命令后,运行该命令对应的故障诊断脚本,以便后续执行监测目标类型错误的操作。
S102、根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数。
在实施中,利用故障诊断脚本的运行过程中,时刻监测高速串行计算机扩展总线标准网卡的目标类型错误,并对其进行计数。其中,目标类型错误的具体形式可以根据实际情况而定。
S103、在监测到目标类型错误被触发且计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据。
在实施中,当目标类型错误的计数达到设定阈值的情况下,本发明可以自动对高速串行计算机扩展总线标准网卡中的寄存器原始数据进行收集,以获取到待分析的寄存器原始数据,这样可以减少频繁获取寄存器原始数据而造成资源消耗的缺陷。其中,设定阈值可以通过监测对应寄存器数据查看得到,具体可以为10或11或12或其他值,关于设定阈值的具体数值可以根据实际情况而定。
S104、将寄存器原始数据通过设定协议发送至基板管理控制器,以便基板管理控制器对寄存器原始数据进行分析,预测高速串行计算机扩展总线标准网卡的故障风险。
本发明实施例提供的上述网卡故障风险预测方法中,在服务器操作系统下带内运行故障诊断脚本,利用该故障诊断脚本来实时监测高速串行计算机扩展总线标准网卡的目标类型错误,当目标类型错误被触发且计数达到设定阈值时可自动收集高速串行计算机扩展总线标准网卡的寄存器原始数据,基板管理控制器可以带内间接获取该寄存器原始数据,能够预测出高速串行计算机扩展总线标准网卡的故障风险,避免了基板管理控制器对于服务器内部设备的故障无法进行收集分析而无法对设备的健康状态进行监测的问题,方便用户有效管理网卡设备,降低宕机的发生概率,并且减少频繁获取寄存器原始数据而造成资源消耗的缺陷,提升服务器产品竞争力。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测方法中,步骤S102根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数,具体可以包括:根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误(Uncorrect Error,UCE)和可纠正错误(Corrected Error,CE),并对不可纠正错误和可纠正错误进行计数。
对应地,步骤S103在监测到目标类型错误被触发且计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据,具体可以包括:在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据。
在实施中,目标类型错误可以设定为不可纠正错误和可纠正错误。当然可以根据实际情况设置其他目标类型错误。本发明的故障诊断脚本可以时刻监测高速串行计算机扩展总线标准网卡中的不可纠正错误和可纠正错误等数据,当不可纠正错误和可纠正错误的总计数达到设定阈值时,本发明可以自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据。
进一步地,在具体实施时,上述步骤中在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据,具体可以包括:当监测到不可纠正错误或可纠正错误故障被触发时,确定当前不可纠正错误和可纠正错误故障的总计数;判断当前不可纠正错误和可纠正错误故障的总计数是否达到设定阈值;若是,则自动收集高速串行计算机扩展总线标准网卡中包括增强型错误报告和机器检查架构的寄存器原始数据;增强型错误报告和机器检查架构包含高速串行计算机扩展总线标准网卡内部核心的所有状态信息以及高速串行计算机扩展总线标准网卡的描述信息;其中,高速串行计算机扩展总线标准网卡内部核心的所有状态信息包括第一缓存和第二缓存的不可纠正错误计数,逻辑运算单元和浮点运算单元的故障信息,内存显示程序的不可纠正错误和可纠正错误的信息;高速串行计算机扩展总线标准网卡的描述信息包括高速串行计算机扩展总线标准网卡的在位状态,温度,电压,电流的信息;若否,则继续监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误。
在实施中,当故障诊断脚本监测到不可纠正错误或可纠正错误故障被触发的同时,可在之前统计出的计数加上1,得到当前不可纠正错误和可纠正错误故障的总计数。通过判断该总计数是否达到设定阈值;若否,则继续运行故障诊断脚本来监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数的步骤;若是,则自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据,该寄存器原始数据具体可以包括增强型错误报告(Advanced Error Report,AER)和机器检查架构(Machine CheckArchitecture,MCA)。该AER和MCA等相关寄存器数据包含了高速串行计算机扩展总线标准网卡的内部核心(core)的所有状态信息以及描述信息。其中内部核心的所有状态信息包括网卡内部芯片运算核心,包括一级(L1)缓存和二级(L2)缓存的不可纠正错误计数、逻辑运算单元(Arithmetic and Logic Unit,ALU)和浮点运算单元(Floating Point Unit,FPU)的非正常类(FAULT)类故障信息、内存显示程序(MEM,用于显示所有内存驻留程序的占用情况)的不可纠正错误和可纠正错误的信息等。L2缓存比L1缓存慢,但是存储容量更大。高速串行计算机扩展总线标准网卡描述信息包括高速串行计算机扩展总线标准网卡的在位状态、温度、电压、电流等信息,描述网卡是否出现过热、过流等问题。这样通过该AER、MCA等高速串行计算机扩展总线标准网卡寄存器数据可以准确预判高速串行计算机扩展总线标准网卡的健康状态。
需要说明的是,非正常类(FAULT)故障是指系统、设备或软件中出现的错误或不正常状态,如电源故障,部件工作故障,元器件或芯片问题,连接问题,系统配置问题,硬件搭配故障,代码错误,漏洞问题等。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测方法中,步骤S104将寄存器原始数据通过设定协议发送至基板管理控制器,具体可以包括:将智能平台管理接口协议作为故障诊断脚本与基板管理控制器之间传输数据约定的协议;将寄存器原始数据通过智能平台管理接口协议发送至基板管理控制器。
在实施中,本发明可以在寄存器原始数据收集工作完成后,直接调用故障诊断脚本的数据发送模块将寄存器原始数据传送至基板管理控制器的数据接收模块中。为了保证基板管理控制器准确识别上述寄存器原始数据,数据发送模块和数据接收模块必须严格遵守与基板管理控制器约定的交互文档发送数据。该交互文档是指基板管理控制器与故障诊断脚本之间传输数据约定的协议。在本发明中的交互文档可以选用智能平台管理接口(Intelligent Platform Management Interface,IPMI)协议。寄存器原始数据可以通过IPMI命令发送至基板管理控制器。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测方法中,步骤S104基板管理控制器对寄存器原始数据进行分析,预测高速串行计算机扩展总线标准网卡的故障风险,具体可以包括:基板管理控制器在获取寄存器原始数据后,将寄存器原始数据更新至诊断日志;根据预故障诊断规则表对寄存器原始数据中各个数据位进行分析;由寄存器原始数据的分析结果预测高速串行计算机扩展总线标准网卡的故障风险。
在实施中,本发明可以利用基板管理控制器的数据接收模块获取寄存器原始数据并更新至诊断日志中,同时,基板管理控制器的故障诊断模块可以根据预故障诊断规则表对寄存器原始数据中各个数据位进行分析,来预测高速串行计算机扩展总线标准网卡的故障风险。在实际应用中,web页面会提供故障诊断功能,用户可以点击触发基板管理控制器的故障诊断模块完成对寄存器原始数据中各个数据位的分析。
该预故障诊断规则表具体可以是由高速串行计算机扩展总线标准网卡故障诊断规则所组成,该高速串行计算机扩展总线标准网卡故障诊断规则是综合分析高速串行计算机扩展总线标准网卡指定相关寄存器数据,经过故障诊断规则处理后,分析出当前高速串行计算机扩展总线标准网卡的运行健康状态和故障风险。其中,预故障诊断规则表由网卡厂商底层驱动开发人员设计提供,将高速串行计算机扩展总线标准网卡某部位具体故障、不可纠正错误、可纠正错误等记录至指定寄存器,然后形成具体诊断规则或流程。
在具体实施时,在上述步骤中根据预故障诊断规则表对寄存器原始数据中各个数据位进行分析,具体可以包括:获取由高速串行计算机扩展总线标准网卡各部位的故障诊断规则组成的预故障诊断规则表;按照预故障诊断规则表对寄存器原始数据中各个数据位依次进行识别解析,生成每个数据位对应的故障诊断结论文件并存放至诊断日志;将诊断日志中的故障诊断结论文件作为寄存器原始数据的分析结果。
在实施中,用户可以通过一键收集日志来获取寄存器原始数据和故障诊断结论文件,并根据故障诊断规则表得出具体结论。上述故障日志的作用是存储用户使用和开发者调试的原始数据、相关结论以及排除故障(Debug)信息。故障日志可以包括寄存器数据文件和故障诊断结论文件;其中寄存器数据文件用于存放高速串行计算机扩展总线标准网卡的寄存器原始数据;故障诊断结论文件用于存放基板管理控制器故障诊断模块根据寄存器的原始数据自动分析得到的初步结论。用户可以通过web页面提供的故障诊断功能,自动收集日志时获取寄存器的原始数据,并根据故障诊断规则表完成对设备的故障分析自动获取BMC内部生成的初步诊断结论,将初步诊断结论和用户分析的结论进行对比,可得出更准确的结论。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测方法中,还可以包括:根据预测结果,获取高速串行计算机扩展总线标准网卡的故障程度;根据高速串行计算机扩展总线标准网卡的故障程度,生成宕机发生的概率。
在实施中,根据高速串行计算机扩展总线标准网卡故障程度来判断宕机发生的概率,可以降低维护人员定位服务器故障的成本。
另外,在具体实施时,在本发明实施例提供的上述网卡故障风险预测方法中,步骤S104基板管理控制器对寄存器原始数据进行分析,预测高速串行计算机扩展总线标准网卡的故障风险,具体可以包括:基板管理控制器对寄存器原始数据中各个数据位进行分析,以确定各个数据位对应的寄存器数据是否有效,进而确定高速串行计算机扩展总线标准网卡中与该寄存器数据对应的部件是否故障。
在实施中,当分析出寄存器原始数据中第八数据位对应的寄存器数据首次出现内存错误的来源是来自处理器核心(MCerrlogReg Bit8FirstMCerrSrcFromCore)时,预测高速串行计算机扩展总线标准网卡的微控制器(Microcontroller Unit,MCU)部分出现故障风险;需要说明的是,当某数据位对应的寄存器数据首次出现内存错误的来源是来自处理器核心时,说明该寄存器某数据位有效,表示高速串行计算机扩展总线标准网卡某部分出现故障风险,此时可以置为1;
接下来,判断寄存器原始数据中第七数据位对应的寄存器数据首次出现内存错误的来源是否是来自处理器核心(MCerrlogReg Bit7FirstMCerrSrcFromCore);
若是,则预测高速串行计算机扩展总线标准网卡的微控制器内部的核心(core)出现故障风险,并通过寄存器原始数据中的其他数据位来定位出故障所在位置;需要说明的是,这里可以根据其他寄存器数据位(如MC0_Status寄存器)和core单独的诊断流程定位具体哪部分出现故障风险;
若否,则说明该数据位无效,数值置为0,继续判断寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源是否来自处理器核心(MCerrlogReg Bit6FirstMCerrSrcFromCore);
若寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源来自处理器核心,则预测高速串行计算机扩展总线标准网卡的处理器内存控制器部分出现故障风险,并通过寄存器原始数据中的其他寄存器数据位来定位出故障所在位置;需要说明的是,这里可以根据其它寄存器数据位和单独的诊断流程进行下一步定位;
若寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源不来自处理器核心,则继续判断寄存器原始数据中第五数据位对应的寄存器数据首次出现内存错误的来源是否来自处理器核心,直至判断完所有数据位对应的寄存器数据。
以上通过对寄存器原始数据中的数据位进行分析,以确定各数据位对应的寄存器数据是否有效,进而确定高速串行计算机扩展总线标准网卡中各个部件的各个部位是否存在故障,这样可以提高高速串行计算机扩展总线标准网卡故障定位的准确性,进一步降低维护人员定位服务器故障的成本,同时有利于检测人员根据故障诊断结果对高速串行计算机扩展总线标准网卡进行管理,进一步降低服务器系统宕机的概率。
在上述实施例中,对于网卡故障风险预测方法进行了详细描述,本发明还提供网卡故障风险预测装置、网卡故障风险预测设备对应的实施例。需要说明的是,本发明从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图2为本发明实施例提供的网卡故障风险预测装置的结构图。本实施例基于功能模块的角度,该装置应用于处理器,包括:
脚本运行模块10,用于接收故障诊断命令后,在服务器操作系统下运行故障诊断命令对应的故障诊断脚本;
网卡监测模块11,用于根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对目标类型错误进行计数;
数据收集模块12,用于在监测到目标类型错误被触发且计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据;
数据发送模块13,用于将寄存器原始数据通过设定协议发送至基板管理控制器,以便基板管理控制器对寄存器原始数据进行分析,预测高速串行计算机扩展总线标准网卡的故障风险。
在本发明实施例提供的上述网卡故障风险预测装置中,可以通过上述四个模块的相互作用,使得基板管理控制器带内间接获取该寄存器原始数据,预测出高速串行计算机扩展总线标准网卡的故障风险,避免了基板管理控制器对于服务器内部设备的故障无法进行收集分析而无法对设备的健康状态进行监测的问题,方便用户有效管理网卡设备,降低宕机的发生概率,并且减少频繁获取寄存器原始数据而造成资源消耗的缺陷,提升服务器产品竞争力。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。并且具有与上述提到的网卡故障风险预测方法相同的有益效果。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,网卡监测模块11,具体可以用于根据故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误,并对不可纠正错误和可纠正错误进行计数;
对应地,数据收集模块12,具体可以用于在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集高速串行计算机扩展总线标准网卡中的寄存器原始数据。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,数据收集模块12,具体可以包括:
计数确定单元,用于当监测到不可纠正错误或可纠正错误故障被触发时,确定当前不可纠正错误和可纠正错误故障的总计数;
计数判断单元,用于判断当前不可纠正错误和可纠正错误故障的总计数是否达到设定阈值;若是,则自动收集高速串行计算机扩展总线标准网卡中包括增强型错误报告和机器检查架构的寄存器原始数据;增强型错误报告和机器检查架构包含高速串行计算机扩展总线标准网卡内部核心的所有状态信息以及高速串行计算机扩展总线标准网卡的描述信息;其中,高速串行计算机扩展总线标准网卡内部核心的所有状态信息包括第一缓存和第二缓存的不可纠正错误计数,逻辑运算单元和浮点运算单元的故障信息,内存显示程序的不可纠正错误和可纠正错误的信息;高速串行计算机扩展总线标准网卡的描述信息包括高速串行计算机扩展总线标准网卡的在位状态,温度,电压,电流的信息;若否,则继续监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,数据发送模块13,具体可以包括:
协议确定单元,用于将智能平台管理接口协议作为故障诊断脚本与基板管理控制器之间传输数据约定的协议;
数据发送单元,用于将寄存器原始数据通过智能平台管理接口协议发送至基板管理控制器。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,基板管理控制器可以包括数据接收模块和故障诊断模块;
数据接收模块,用于在获取寄存器原始数据后,将寄存器原始数据更新至诊断日志;
故障诊断模块,用于根据预故障诊断规则表对寄存器原始数据中各个数据位进行分析;由寄存器原始数据的分析结果预测高速串行计算机扩展总线标准网卡的故障风险。
在实施中,故障诊断模块具体可以用于获取由高速串行计算机扩展总线标准网卡各部位的故障诊断规则组成的预故障诊断规则表;按照预故障诊断规则表对寄存器原始数据中各个数据位依次进行识别解析,生成每个数据位对应的故障诊断结论文件并存放至诊断日志;将诊断日志中的故障诊断结论文件作为寄存器原始数据的分析结果。
另外,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,故障诊断模块,可以用于对寄存器原始数据中各个数据位进行分析,以确定各个数据位对应的寄存器数据是否有效,进而确定高速串行计算机扩展总线标准网卡中与该寄存器数据对应的部件是否故障。
在实施中,故障诊断模块具体可以用于当分析出寄存器原始数据中第八数据位对应的寄存器数据首次出现内存错误的来源是来自处理器核心时,预测高速串行计算机扩展总线标准网卡的微控制器部分出现故障风险;判断寄存器原始数据中第七数据位对应的寄存器数据首次出现内存错误的来源是否是来自处理器核心;若是,则预测高速串行计算机扩展总线标准网卡的微控制器内部的核心出现故障风险,并通过寄存器原始数据中的其他数据位来定位出故障所在位置;若否,则继续判断寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源是否来自处理器核心;若寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源来自处理器核心,则预测高速串行计算机扩展总线标准网卡的处理器内存控制器部分出现故障风险,并通过寄存器原始数据中的其他寄存器数据位来定位出故障所在位置;若寄存器原始数据中第六数据位对应的寄存器数据首次出现内存错误的来源不来自处理器核心,则继续判断寄存器原始数据中第五数据位对应的寄存器数据首次出现内存错误的来源是否来自处理器核心,直至判断完所有数据位对应的寄存器数据。
进一步地,在具体实施时,在本发明实施例提供的上述网卡故障风险预测装置中,还可以包括:
概率生成模块,用于根据预测结果,获取高速串行计算机扩展总线标准网卡的故障程度;根据高速串行计算机扩展总线标准网卡的故障程度,生成宕机发生的概率。
图3为本发明实施例提供的网卡故障风险预测设备的结构图。本实施例基于硬件角度,如图3所示,网卡故障风险预测设备包括:
存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中所提到的网卡故障风险预测方法的步骤。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU;协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图形处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的网卡故障风险预测方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于上述所提到的网卡故障风险预测方法所涉及到的数据等。
在一些实施例中,网卡故障风险预测设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图3中示出的结构并不构成对网卡故障风险预测设备的限定,可以包括比图示更多或更少的组件。
本发明实施例提供的网卡故障风险预测设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:网卡故障风险预测方法,效果同上。
最后,本发明还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提供的计算机可读存储介质包括上述提到的网卡故障风险预测方法,效果同上。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的网卡故障风险预测方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。

Claims (10)

1.一种网卡故障风险预测方法,其特征在于,所述方法应用于处理器,包括:
接收故障诊断命令后,在服务器操作系统下运行所述故障诊断命令对应的故障诊断脚本;
根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数;
在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据;
将所述寄存器原始数据通过设定协议发送至基板管理控制器,以便所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险。
2.根据权利要求1所述的网卡故障风险预测方法,其特征在于,根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数,包括:
根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误,并对不可纠正错误和可纠正错误进行计数;
对应地,在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据,包括:
在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据。
3.根据权利要求2所述的网卡故障风险预测方法,其特征在于,在监测到不可纠正错误或可纠正错误故障被触发且不可纠正错误和可纠正错误故障的总计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据,包括:
当监测到不可纠正错误或可纠正错误故障被触发时,确定当前不可纠正错误和可纠正错误故障的总计数;
判断当前不可纠正错误和可纠正错误故障的总计数是否达到设定阈值;
若是,则自动收集所述高速串行计算机扩展总线标准网卡中包括增强型错误报告和机器检查架构的寄存器原始数据;所述增强型错误报告和所述机器检查架构包含所述高速串行计算机扩展总线标准网卡内部核心的所有状态信息以及所述高速串行计算机扩展总线标准网卡的描述信息;
其中,所述高速串行计算机扩展总线标准网卡内部核心的所有状态信息包括第一缓存和第二缓存的不可纠正错误计数,逻辑运算单元和浮点运算单元的故障信息,内存显示程序的不可纠正错误和可纠正错误的信息;所述高速串行计算机扩展总线标准网卡的描述信息包括所述高速串行计算机扩展总线标准网卡的在位状态,温度,电压,电流的信息;
若否,则继续监测高速串行计算机扩展总线标准网卡是否发生不可纠正错误和可纠正错误。
4.根据权利要求1所述的网卡故障风险预测方法,其特征在于,将所述寄存器原始数据通过设定协议发送至基板管理控制器,包括:
将智能平台管理接口协议作为所述故障诊断脚本与所述基板管理控制器之间传输数据约定的协议;
将所述寄存器原始数据通过所述智能平台管理接口协议发送至基板管理控制器。
5.根据权利要求1所述的网卡故障风险预测方法,其特征在于,所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险,包括:
所述基板管理控制器在获取所述寄存器原始数据后,将所述寄存器原始数据更新至诊断日志;
根据预故障诊断规则表对所述寄存器原始数据中各个数据位进行分析;
由所述寄存器原始数据的分析结果预测所述高速串行计算机扩展总线标准网卡的故障风险。
6.根据权利要求5所述的网卡故障风险预测方法,其特征在于,根据预故障诊断规则表对所述寄存器原始数据中各个数据位进行分析,包括:
获取由所述高速串行计算机扩展总线标准网卡各部位的故障诊断规则组成的预故障诊断规则表;
按照所述预故障诊断规则表对所述寄存器原始数据中各个数据位依次进行识别解析,生成每个数据位对应的故障诊断结论文件并存放至所述诊断日志;
将所述诊断日志中的所述故障诊断结论文件作为所述寄存器原始数据的分析结果。
7.根据权利要求1所述的网卡故障风险预测方法,其特征在于,还包括:
根据预测结果,获取所述高速串行计算机扩展总线标准网卡的故障程度;
根据所述高速串行计算机扩展总线标准网卡的故障程度,生成宕机发生的概率。
8.一种网卡故障风险预测装置,其特征在于,所述装置应用于处理器,包括:
脚本运行模块,用于接收故障诊断命令后,在服务器操作系统下运行所述故障诊断命令对应的故障诊断脚本;
网卡监测模块,用于根据所述故障诊断脚本实时监测高速串行计算机扩展总线标准网卡是否发生目标类型错误并对所述目标类型错误进行计数;
数据收集模块,用于在监测到所述目标类型错误被触发且计数达到设定阈值时,自动收集所述高速串行计算机扩展总线标准网卡中的寄存器原始数据;
数据发送模块,用于将所述寄存器原始数据通过设定协议发送至基板管理控制器,以便所述基板管理控制器对所述寄存器原始数据进行分析,预测所述高速串行计算机扩展总线标准网卡的故障风险。
9.一种网卡故障风险预测设备,其特征在于,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的网卡故障风险预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网卡故障风险预测方法的步骤。
CN202410383404.7A 2024-03-31 2024-03-31 网卡故障风险预测方法、装置、设备及介质 Pending CN118113508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410383404.7A CN118113508A (zh) 2024-03-31 2024-03-31 网卡故障风险预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410383404.7A CN118113508A (zh) 2024-03-31 2024-03-31 网卡故障风险预测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN118113508A true CN118113508A (zh) 2024-05-31

Family

ID=91208615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410383404.7A Pending CN118113508A (zh) 2024-03-31 2024-03-31 网卡故障风险预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN118113508A (zh)

Similar Documents

Publication Publication Date Title
US11360842B2 (en) Fault processing method, related apparatus, and computer
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN108388489B (zh) 一种服务器故障诊断方法、系统、设备及存储介质
US8141053B2 (en) Call stack sampling using a virtual machine
TWI317868B (en) System and method to detect errors and predict potential failures
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
WO2022089202A1 (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
CN107924360B (zh) 计算系统中的诊断框架
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN112702184A (zh) 故障预警方法及装置、计算机可存储介质
US20140359365A1 (en) Integrated Configuration Management and Monitoring for Computer Systems
WO2020044898A1 (ja) 機器状態監視装置及びプログラム
KR100987124B1 (ko) 메트릭을 이용한 소프트웨어 결함 예측 계산 장치 및 계산 방법
CN118113508A (zh) 网卡故障风险预测方法、装置、设备及介质
CN113312246B (zh) 验证环境的控制方法、装置、平台、设备和存储介质
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
CN113742113A (zh) 一种嵌入式系统健康管理方法、设备及储存介质
CN117055718B (zh) 一种服务器功耗检测系统、方法、装置、设备和存储介质
CN117472474B (zh) 配置空间调试方法、系统、电子设备及存储介质
CN116610481A (zh) 故障诊断方法、装置、计算机设备、存储介质及系统
CN117555719A (zh) 一种系统异常定位的方法、装置、存储介质及电子设备
CN116701116A (zh) 服务器故障预测方法、装置、服务器及存储介质
CN114721886A (zh) 一种故障检测方法、装置、设备及可读存储介质
CN117439899A (zh) 一种基于大数据的通信机房巡检方法及系统
CN115934467A (zh) 应用运维方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication