CN117149492A - 一种服务器故障检测方法、装置、设备及计算机存储介质 - Google Patents

一种服务器故障检测方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN117149492A
CN117149492A CN202311105133.0A CN202311105133A CN117149492A CN 117149492 A CN117149492 A CN 117149492A CN 202311105133 A CN202311105133 A CN 202311105133A CN 117149492 A CN117149492 A CN 117149492A
Authority
CN
China
Prior art keywords
bandwidth
speed information
information
peripheral component
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311105133.0A
Other languages
English (en)
Inventor
吕德稳
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Shandong Computer Technology Co Ltd
Original Assignee
Inspur Shandong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Shandong Computer Technology Co Ltd filed Critical Inspur Shandong Computer Technology Co Ltd
Priority to CN202311105133.0A priority Critical patent/CN117149492A/zh
Publication of CN117149492A publication Critical patent/CN117149492A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器故障检测方法、装置、设备及计算机存储介质,涉及服务器技术领域,包括:获取外围组件互联桥的带宽带速,得到第一带宽带速信息;获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;向目标设备发送所述第一带宽带速信息;比较所述第二带宽带速信息与所述第三带宽带速信息;若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。该方法可以避免向基板管理控制器传递错误的降带宽降速信息,有利于高效、准确定位故障。

Description

一种服务器故障检测方法、装置、设备及计算机存储介质
技术领域
本发明涉及服务器技术领域,特别涉及一种服务器故障检测方法;还涉及一种服务器故障检测装置、设备以及计算机存储介质。
背景技术
产品研发过程中可能会发生故障,当发生故障时会生成错误信息。在众多错误信息中,尤以降带宽降速信息居多,而过多的降带宽降速信息,就需要研发或运维人员投入大量的时间、精力去排查故障原因,造成人力与财力的极大消耗。另外,错误的生成并传递降带宽降速信息,还会导致研发或运维人员无法准确定位故障,并且造成人力与财力的浪费。因此,如何避免传递错误的降带宽降速信息,以便于高效、准确定位故障已成为本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的是提供一种服务器故障检测方法,可以避免向基板管理控制器传递错误的降带宽降速信息,有利于高效、准确定位故障。本发明的另一个目的是提供一种服务器故障检测装置、设备以及计算机存储介质,均具有上述技术效果。
为解决上述技术问题,本发明提供了一种服务器故障检测方法,包括:
获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
向目标设备发送所述第一带宽带速信息;
比较所述第二带宽带速信息与所述第三带宽带速信息;
若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
可选的,还包括:
比较所述第一带宽带速信息与所述第三带宽带速信息,并向所述目标设备发送比较结果。
可选的,所述向所述目标设备发送比较结果包括:
若所述第一带宽带速信息与所述第三带宽带速信息不同,则将第一预设标识赋值为第一数值,并向所述目标设备发送所述第一预设标识的数值;
若所述第一带宽带速信息与所述第三带宽带速信息相同,则将所述第一预设标识赋值为第二数值,并向所述目标设备发送所述第一预设标识的数值。
可选的,还包括:
向所述目标设备发送所述第二带宽带速信息。
可选的,还包括:
向所述目标设备发送所述第三带宽带速信息。
可选的,还包括:
若所述第二带宽带速信息与所述第三带宽带速信息不同,则将第二预设标识赋值为第三数值,并向所述目标设备发送所述第二预设标识的数值;
若所述第二带宽带速信息与所述第三带宽带速信息相同,则将所述第二预设标识赋值为第四数值,并向所述目标设备发送所述第二预设标识的数值。
可选的,还包括:
向目标设备发送降带宽降速信息后,循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,并在每次比较后,根据比较结果向所述目标设备发送降带宽降速信息或带宽带速无异常信息。
可选的,向所述目标设备发送降带宽降速信息前还包括:
循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,根据多次的比较结果,判定是否向所述目标设备发送所述降带宽降速信息。
为解决上述技术问题,本申请还提供了一种服务器故障检测装置,包括:
第一获取模块,用于获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
第二获取模块,用于获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
第三获取模块,用于获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
第一发送模块,用于向目标设备发送所述第一带宽带速信息;
比较模块,用于比较所述第二带宽带速信息与所述第三带宽带速信息;
第二发送模块,用于若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
为解决上述技术问题,本申请还提供了一种服务器故障检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的服务器故障检测方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的服务器故障检测方法的步骤。
本发明所提供的服务器故障检测方法,包括:获取外围组件互联桥的带宽带速,得到第一带宽带速信息;获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;向目标设备发送所述第一带宽带速信息;比较所述第二带宽带速信息与所述第三带宽带速信息;若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
可见,本发明所提供的服务器故障检测方法,仅以快速外围组件互联插槽的带宽带速作为故障判别依据,仅当快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息不同时,才会生成并向基板管理控制器发送降带宽降速信息,才会使基板管理控制器出示告警信息。外围组件互联桥的带宽带速不再作为故障判别依据,获取的外围组件互联桥信息发送给基板管理控制器,以便于查看外围组件互联桥信息。这样可以避免向基板管理控制器传递错误的降带宽降速信息,使研发及运维人员可以更加明确故障来源,有利于高效、准确定位故障。
本发明所提供的服务器故障检测装置、设备以及计算机存储介质均具有上述技术效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种服务器故障检测方法的流程示意图;
图2为本发明实施例所提供的一种具体的服务器故障检测方法的流程示意图;
图3为本发明实施例所提供的一种服务器故障检测装置的示意图;
图4为本发明实施例所提供的一种服务器故障检测设备的示意图。
具体实施方式
本发明的核心是提供一种服务器故障检测方法,可以避免向基板管理控制器传递错误的降带宽降速信息,有利于高效、准确定位故障。本发明的另一个核心是提供一种服务器故障检测装置、设备以及计算机存储介质,均具有上述技术效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种服务器故障检测方法的流程示意图,参考图1所示,该方法主要包括:
S101:获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
S102:获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
S103:获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
S104:向目标设备发送所述第一带宽带速信息;
S105:比较所述第二带宽带速信息与所述第三带宽带速信息;
S106:若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
服务器主板上电开机后,基本输入输出系统(BIOS,Basic Input OutputSystem)通过读取中央处理器(CPU,Central Processing Unit),获取外围组件互联桥即PCI(Peripheral Component Interconnect,外围组件互联)桥与快速外围组件互联插槽即PCIE(Peripheral Component Interconnect Express)插槽的信息。例如,快速外围组件互联插槽为网卡插槽。基板输入输出系统根据外围组件互联桥与快速外围组件互联插槽的信息读取PCIE配置空间中的BUSNumber、DEVICE Number、FUNCTION Number、REGISTERNumber、Capabilities Pointer,获取外围组件互联桥的带宽带速与快速外围组件互联插槽的带宽带速。基本输入输出系统还从实际使用的快速外围组件互联设备即PCIE设备中抓取实际使用的快速外围组件互联设备的带宽带速。
为了区分外围组件互联桥、快速外围组件互联插槽以及实际使用的快速外围组件互联设备的带宽带速信息,本实施例以第一带宽带速信息指代外围组件互联桥的带宽带速信息,以第二带宽带速信息指代快速外围组件互联插槽的带宽带速信息,以第三带宽带速信息指代实际使用的快速外围组件互联设备的带宽带速信息。“第一”、“第二”、“第三”的描述不作为顺序、大小的限定。
对于所获取的外围组件互联桥的带宽带速信息,基本输入输出系统将其发送给目标设备。目标设备可以为基板管理控制器。基板管理控制器将外围组件互联桥的带宽带速信息写入日志中进行保存。研发及运维人员通过查看日志可以获悉外围组件互联桥的带宽带速信息。
对于所获取的快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息,本实施例对二者进行比较,即比较第二带宽带速信息与第三带宽带速信息。如果快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息不同,即如果第二带宽带速信息与第三带宽带速信息不同,则向基板管理控制器发送降带宽降速信息。快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息不同是指快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽不同和/或快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速不同。基本输入输出系统向基板管理控制器发送降带宽降速信息,表明服务器有故障产生,基板管理控制器将收到的降带宽降速信息写入SEL(SystemEvent Log,系统事件日志)日志,并告知操作系统记录故障状态。如果快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息相同,即如果第二带宽带速信息与第三带宽带速信息相同,则向基板管理控制器发送带宽带速无异常信息。快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息相同是指快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽相同且快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速相同。
综上所述,本发明所提供的服务器故障检测方法,仅以快速外围组件互联插槽的带宽带速作为故障判别依据,仅当快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息不同时,才会生成并向基板管理控制器发送降带宽降速信息,才会使基板管理控制器出示告警信息。外围组件互联桥的带宽带速不再作为故障判别依据,获取的外围组件互联桥信息发送给基板管理控制器,以便于查看外围组件互联桥信息。这样可以避免向基板管理控制器传递错误的降带宽降速信息,使研发及运维人员可以更加明确故障来源,有利于高效、准确定位故障。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
比较所述第一带宽带速信息与所述第三带宽带速信息,并向所述目标设备发送比较结果。
本实施例中,对于所获取的外围组件互联桥的带宽带速信息,一方面,基本输入输出系统将外围组件互联桥的带宽带速信息发送给基板管理控制器,以便于研发及运维人员查看。另一方面,基本输入输出系统将外围组件互联桥的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息进行比较,即比较第一带宽带速信息与第三带宽带速信息,并向基板管理控制器发送比较结果,即向外围组件互联桥的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息相同或不同。基板管理控制器可以将收到的比较结果写入日志中保存。
通过比较第一带宽带速信息与第三带宽带速信息,并向基板管理控制器发送比较结果,可以使研发及运维人员更加直观的获悉外围组件互联桥的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息的关系,而不需要研发及运维人员再做比较,同时便于研发及运维人员针对性的查看日志。例如,研发人员可以根据所保存的比较结果,针对性的查看其中与实际使用的快速外围组件互联设备的带宽带速信息不同时相关的日志。
其中,在一些实施例中,所述向所述目标设备发送比较结果可以包括:
若所述第一带宽带速信息与所述第三带宽带速信息不同,则将第一预设标识赋值为第一数值,并向所述目标设备发送所述第一预设标识的数值;
若所述第一带宽带速信息与所述第三带宽带速信息相同,则将所述第一预设标识赋值为第二数值,并向所述目标设备发送所述第一预设标识的数值。
如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽不同和/或外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速不同,则将第一预设标识赋值为第一数值,并向基板管理控制器发送此时第一预设标识的数值。如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽相同且外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速相同,则将第一预设标识赋值为第二数值,并向基板管理控制器发送此时第一预设标识的数值。
例如,如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽不同和/或外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速不同,则将第一预设标识赋值为0,并向基板管理控制器发送此时第一预设标识的数值。如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽相同且外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速相同,则将第一预设标识赋值为1,并向基板管理控制器发送此时第一预设标识的数值。
基板管理控制器可将第一预设标识的数值写入日志保存。研发或运维人员根据第一预设标识的数值就可以直观获悉外围组件互联桥的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息相同或不同。通过对预设标识进行赋值并发送预设标识的数值,可以简单快速的完成比较结果发送,不需要占用太多的计算及存储资源。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
向所述目标设备发送所述第二带宽带速信息。
本实施例中,对于所获取的快速外围组件互联插槽的带宽带速信息,一方面,基本输入输出系统对快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息进行比较,并当快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息不同时,向基板管理控制器发送降带宽降速信息,当快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息相同时,向基板管理控制器发送带宽带速无异常信息。另一方面基本输入输出系统将快速外围组件互联插槽的带宽带速信息发送给基板管理控制器。基板管理控制器可以将收到的快速外围组件互联插槽的带宽带速信息写入日志中保存。
通过向基板管理控制器发送快速外围组件互联插槽的带宽带速信息,可以更加便于研发及运维人员查询快速外围组件互联插槽的带宽带速信息。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
向所述目标设备发送所述第三带宽带速信息。
基本输入输出系统将实际使用的快速外围组件互联设备的带宽带速信息发送给基板管理控制器,基板管理控制可将实际使用的快速外围组件互联设备的带宽带速信息写入日志保存,以供后续查看。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
若所述第二带宽带速信息与所述第三带宽带速信息不同,则将第二预设标识赋值为第三数值,并向所述目标设备发送所述第二预设标识的数值;
若所述第二带宽带速信息与所述第三带宽带速信息相同,则将所述第二预设标识赋值为第四数值,并向所述目标设备发送所述第二预设标识的数值。
如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽不同和/或快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速不同,则将第二预设标识赋值为第三数值,并向基板管理控制器发送此时第二预设标识的数值。如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽相同且快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速相同,则将第二预设标识赋值为第四数值,并向基板管理控制器发送此时第二预设标识的数值。
例如,如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽不同和/或快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速不同,则将第二预设标识赋值为0,并向基板管理控制器发送此时第二预设标识的数值。如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽相同且快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速相同,则将第二预设标识赋值为1,并向基板管理控制器发送此时第二预设标识的数值。基板管理控制器可以将收到的第二预设标识的数值写入日志中保存。
通过向基板管理控制器发送第二预设标识的数值,可以使研发及运维人员更加直观的获悉快速外围组件互联插槽的带宽带速信息与实际使用的快速外围组件互联设备的带宽带速信息的关系,并且更便于研发及运维人员针对性的查看日志。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
向目标设备发送降带宽降速信息后,循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,并在每次比较后,根据比较结果向所述目标设备发送降带宽降速信息或带宽带速无异常信息。
如果第二带宽带速信息与第三带宽带速信息不同,向基板管理控制器发送降带宽降带速信息,并在向基板管理控制器发送降带宽降速信息后,循环执行多次比较第二带宽带速信息与第三带宽带速信息的操作。并在每次比较后,如果第二带宽带速信息与第三带宽带速信息不同,则向基板管理控制器发送降带宽降速信息,如果第二带宽带速信息与第三带宽带速信息相同,则向基板管理控制器发送带宽带速无异常信息。
例如,在向基板管理控制器发送降带宽降速信息后,循环执行3次比较第二带宽带速信息与第三带宽带速信息的操作。并在每次比较后,如果第二带宽带速信息与第三带宽带速信息不同,则向基板管理控制器发送降带宽降速信息,如果第二带宽带速信息与第三带宽带速信息相同,则向基板管理控制器发送带宽带速无异常信息。
在向基板管理控制器发送降带宽降速信息后,循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,并根据比较结果向基板管理控制器发送相应的信息,可以有效确保信息的可靠性。
在上述实施例的基础上,作为一种具体的实施方式,向所述基板管理控制器发送降带宽降速信息前还包括:
循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,根据多次的比较结果,判定是否向所述目标设备发送所述降带宽降速信息。
本实施例在比较确定出第二带宽带速信息与第三带宽带速信息不同,向基板管理控制器发送降带宽降速信息前,首先循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,根据多次的比较结果,判定是否向所述基板管理控制器发送所述降带宽降速信息,这样可以有效确保信息的可靠性。
根据多次的比较结果,判定是否向所述基板管理控制器发送所述降带宽降速信息的方式可以为:
若比较结果为所述第二带宽带速信息与所述第三带宽带速信息不同所占的比例超出预设阈值,则向所述基板管理控制器发送所述降带宽降速信息。
例如,在比较确定出第二带宽带速信息与第三带宽带速信息不同,向基板管理控制器发送降带宽降速信息前,首先循环执行3次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,其中一次的比较结果为所述第二带宽带速信息与所述第三带宽带速信息相同,另外两次的比较结果为第二带宽带速信息与所述第三带宽带速信息不同,此时比较结果为所述第二带宽带速信息与所述第三带宽带速信息不同所占的比例为2/3,超出预设阈值1/2,则向所述基板管理控制器发送所述降带宽降速信息。
根据多次的比较结果,判定是否向所述基板管理控制器发送所述降带宽降速信息的方式还可以为:
若任意一次的比较结果为所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述基板管理控制器发送所述降带宽降速信息。
例如,在比较确定出第二带宽带速信息与第三带宽带速信息不同,向基板管理控制器发送降带宽降速信息前,首先循环执行3次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,当3次中的任意一次的比较结果为所述第二带宽带速信息与所述第三带宽带速信息不同时,向所述基板管理控制器发送所述降带宽降速信息。
参考图2所示,以下描述一种具体的实施方式:
服务器主板上电开机,基本输入输出系统通过读取中央处理器而获取外围组件互联桥和快速外围组件互联插槽的信息。基本输入输出系统通过读取PCIE配置空间中的BUSNumber、DEVICE Number、FUNCTION Number、REGISTER Number、Capabilities Pointer而获取外围组件互联桥和快速外围组件互联插槽的带宽与带速。
首先,基本输入输出系统比较外围组件互联桥的带宽、带速与实际使用的快速外围组件互联设备的带宽、带速的值,如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽相同且外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速相同,则将标识赋予值为1。如果外围组件互联桥的带宽与实际使用的快速外围组件互联设备的带宽不同和/或外围组件互联桥的带速与实际使用的快速外围组件互联设备的带速不同,则将标识赋予值0。读取标识的值,判断读取到的值是否为1。如果读取到的值为1,则向基板管理控制器发送OK即带宽带速无异常信息。基板管理控制器将外围组件互联桥的带宽、带速写入日志中保存。如果读取到的值为0,则同样向基板管理控制器发送OK即带宽带速无异常信息。另外,基本输入输出系统向基板管理控制器发送外围组件互联桥的带宽、带速。基板管理控制器将外围组件互联桥的带宽、带速希写入日志中保存。
然后,基本输入输出系统比较快速外围组件互联插槽的带宽、带速与实际使用的快速外围组件互联设备的带宽、带速,如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽相同且快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速相同,则将标识赋予值为1。如果快速外围组件互联插槽的带宽与实际使用的快速外围组件互联设备的带宽不同和/或快速外围组件互联插槽的带速与实际使用的快速外围组件互联设备的带速不同,则将标识赋予值0。读取标识的值,判断读取到的值是否为1。如果读取的值为1,则向基板管理控制器发送OK即带宽带速无异常信息。如果读取的值为0,则向基板管理控制器发送underground信息即降带宽降速信息。基板管理控制器将underground信息写入SEL日志,并同时告知操作系统记录故障状态。另外,基本输入输出系统向基板管理控制器发送快速外围组件互联插槽的带宽、带速。基板管理控制器将快速外围组件互联插槽的带宽、带速写入日志中保存。
基本输入输出系统向基板管理控制器发送underground后,自动循环执行三次比较、判断以及后续相关操作。
本发明还提供了一种服务器故障检测装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图3,图3为本发明实施例所提供的一种服务器故障检测装置的示意图,结合图3所示,该装置包括:
第一获取模块10,用于获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
第二获取模块20,用于获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
第三获取模块30,用于获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
第一发送模块40,用于向目标设备发送所述第一带宽带速信息;
比较模块50,用于比较所述第二带宽带速信息与所述第三带宽带速信息;
第二发送模块60,用于若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第三发送模块,用于比较所述第一带宽带速信息与所述第三带宽带速信息,并向所述目标设备发送比较结果。
在上述实施例的基础上,作为一种具体的实施方式,第三发送模块包括:
第一发送单元,用于若所述第一带宽带速信息与所述第三带宽带速信息不同,则将第一预设标识赋值为第一数值,并向所述目标设备发送所述第一预设标识的数值;
第二发送单元,用于若所述第一带宽带速信息与所述第三带宽带速信息相同,则将所述第一预设标识赋值为第二数值,并向所述目标设备发送所述第一预设标识的数值。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第四发送模块,用于向所述目标设备发送所述第二带宽带速信息。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第五发送模块,用于向所述目标设备发送所述第三带宽带速信息。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第六发送模块,用于若所述第二带宽带速信息与所述第三带宽带速信息不同,则将第二预设标识赋值为第三数值,并向所述目标设备发送所述第二预设标识的数值;
第七发送模块,用于若所述第二带宽带速信息与所述第三带宽带速信息相同,则将所述第二预设标识赋值为第四数值,并向所述目标设备发送所述第二预设标识的数值。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第一循环模块,用于向目标设备发送降带宽降速信息后,循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,并在每次比较后,根据比较结果向所述目标设备发送降带宽降速信息或带宽带速无异常信息。
在上述实施例的基础上,作为一种具体的实施方式,还包括:
第二循环模块,用于在向所述目标设备发送所述降带宽降速信息循环前,执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,根据多次的比较结果,判定是否向所述目标设备发送所述降带宽降速信息。
本发明还提供了一种服务器故障检测设备,参考图4所示,该设备包括存储器1和处理器2。
存储器1,用于存储计算机程序;
处理器2,用于执行计算机程序实现如下的步骤:
获取外围组件互联桥的带宽带速,得到第一带宽带速信息;获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;向目标设备发送所述第一带宽带速信息;比较所述第二带宽带速信息与所述第三带宽带速信息;若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
对于本发明所提供的设备的介绍请参照上述方法实施例,本发明在此不做赘述。
本发明还提供了一种计算机存储介质,该计算机存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:
获取外围组件互联桥的带宽带速,得到第一带宽带速信息;获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;向目标设备发送所述第一带宽带速信息;比较所述第二带宽带速信息与所述第三带宽带速信息;若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
该计算机存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明所提供的计算机存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的服务器故障检测方法、装置、设备以及计算机存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围。

Claims (11)

1.一种服务器故障检测方法,其特征在于,包括:
获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
向目标设备发送所述第一带宽带速信息;
比较所述第二带宽带速信息与所述第三带宽带速信息;
若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
2.根据权利要求1所述的服务器故障检测方法,其特征在于,还包括:
比较所述第一带宽带速信息与所述第三带宽带速信息,并向所述目标设备发送比较结果。
3.根据权利要求2所述的服务器故障检测方法,其特征在于,所述向所述目标设备发送比较结果包括:
若所述第一带宽带速信息与所述第三带宽带速信息不同,则将第一预设标识赋值为第一数值,并向所述目标设备发送所述第一预设标识的数值;
若所述第一带宽带速信息与所述第三带宽带速信息相同,则将所述第一预设标识赋值为第二数值,并向所述目标设备发送所述第一预设标识的数值。
4.根据权利要求1所述的服务器故障检测方法,其特征在于,还包括:
向所述目标设备发送所述第二带宽带速信息。
5.根据权利要求1所述的服务器故障检测方法,其特征在于,还包括:
向所述目标设备发送所述第三带宽带速信息。
6.根据权利要求1所述的服务器故障检测方法,其特征在于,还包括:
若所述第二带宽带速信息与所述第三带宽带速信息不同,则将第二预设标识赋值为第三数值,并向所述目标设备发送所述第二预设标识的数值;
若所述第二带宽带速信息与所述第三带宽带速信息相同,则将所述第二预设标识赋值为第四数值,并向所述目标设备发送所述第二预设标识的数值。
7.根据权利要求1至6任一项所述的服务器故障检测方法,其特征在于,还包括:
向目标设备发送降带宽降速信息后,循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,并在每次比较后,根据比较结果向所述目标设备发送降带宽降速信息或带宽带速无异常信息。
8.根据权利要求1至6任一项所述的服务器故障检测方法,其特征在于,向所述目标设备发送降带宽降速信息前还包括:
循环执行多次比较所述第二带宽带速信息与所述第三带宽带速信息的操作,根据多次的比较结果,判定是否向所述目标设备发送所述降带宽降速信息。
9.一种服务器故障检测装置,其特征在于,包括:
第一获取模块,用于获取外围组件互联桥的带宽带速,得到第一带宽带速信息;
第二获取模块,用于获取快速外围组件互联插槽的带宽带速,得到第二带宽带速信息;
第三获取模块,用于获取实际使用的快速外围组件互联设备的带宽带速,得到第三带宽带速信息;
第一发送模块,用于向目标设备发送所述第一带宽带速信息;
比较模块,用于比较所述第二带宽带速信息与所述第三带宽带速信息;
第二发送模块,用于若所述第二带宽带速信息与所述第三带宽带速信息不同,则向所述目标设备发送降带宽降速信息,以使所述目标设备告警。
10.一种服务器故障检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的服务器故障检测方法的步骤。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的服务器故障检测方法的步骤。
CN202311105133.0A 2023-08-30 2023-08-30 一种服务器故障检测方法、装置、设备及计算机存储介质 Pending CN117149492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311105133.0A CN117149492A (zh) 2023-08-30 2023-08-30 一种服务器故障检测方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311105133.0A CN117149492A (zh) 2023-08-30 2023-08-30 一种服务器故障检测方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN117149492A true CN117149492A (zh) 2023-12-01

Family

ID=88900099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311105133.0A Pending CN117149492A (zh) 2023-08-30 2023-08-30 一种服务器故障检测方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117149492A (zh)

Similar Documents

Publication Publication Date Title
CN111752776B (zh) 一种服务器的循环上下电测试方法和系统
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN111414268B (zh) 故障处理方法、装置及服务器
CN105204968B (zh) 一种故障内存检测方法和装置
CN113708986B (zh) 服务器监控装置、方法及计算机可读存储介质
CN105183575A (zh) 处理器故障的诊断方法、装置及系统
CN109324959B (zh) 一种自动转移数据的方法、服务器及计算机可读存储介质
CN111048138A (zh) 一种硬盘的故障检测方法及相关装置
CN110580220B (zh) 测量代码段执行时间的方法及终端设备
CN110874311A (zh) 数据库检测方法、装置、计算机设备和存储介质
CN111654405B (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN113010341A (zh) 一种故障内存定位的方法和设备
CN104461847A (zh) 数据处理程序检测方法及装置
CN117149492A (zh) 一种服务器故障检测方法、装置、设备及计算机存储介质
CN104182290A (zh) 除错装置及除错方法
CN116738091A (zh) 页面监控方法、装置、电子设备及存储介质
CN114281618A (zh) 一种pcie链路训练状态监测装置和服务器
CN113176971A (zh) 一种单板自检方法及装置
CN111190781A (zh) 服务器系统的测试自检方法
CN107797915B (zh) 故障的修复方法、装置及系统
CN111581044A (zh) 集群优化方法、装置、服务器及介质
CN113220510A (zh) 设备检测方法、检测设备和计算机可读存储介质
CN113094221B (zh) 故障注入方法、装置、计算机设备以及可读存储介质
CN118012702A (zh) 温度监测方法及装置
CN116340046B (zh) 一种芯粒故障检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination