CN110347558A - 一种服务器设备故障诊断方法和装置以及设备 - Google Patents

一种服务器设备故障诊断方法和装置以及设备 Download PDF

Info

Publication number
CN110347558A
CN110347558A CN201910642625.0A CN201910642625A CN110347558A CN 110347558 A CN110347558 A CN 110347558A CN 201910642625 A CN201910642625 A CN 201910642625A CN 110347558 A CN110347558 A CN 110347558A
Authority
CN
China
Prior art keywords
server
server equipment
equipment
server device
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910642625.0A
Other languages
English (en)
Inventor
赵美玉
唐斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tong Yi Yi Information Technology Co Ltd
Original Assignee
Shenzhen Tong Yi Yi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tong Yi Yi Information Technology Co Ltd filed Critical Shenzhen Tong Yi Yi Information Technology Co Ltd
Priority to CN201910642625.0A priority Critical patent/CN110347558A/zh
Publication of CN110347558A publication Critical patent/CN110347558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器设备故障诊断方法和装置以及设备。其中,所述方法包括:开启服务器设备的基本输入输出系统,和在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,根据该设置的故障检测阈值,检测服务器设备的当前状态是否临近该设置的故障检测阈值,根据该检测的服务器设备的当前状态是否临近该设置的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。通过上述方式,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。

Description

一种服务器设备故障诊断方法和装置以及设备
技术领域
本发明涉及服务器技术领域,尤其涉及一种服务器设备故障诊断方法和装置以及设备。
背景技术
现有的服务器设备故障诊断方案,一般包括:
在服务器设备的BIOS(Basic Input Output System,基本输入输出系统)开启时,设置服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范;
根据该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范,设定由UEFI FW(Unified Extensible Firmware Interface Firmware,统一可扩展固件接口固件)、OS(Operating System,操作系统)、Driver(驱动)、APP(Application,应用程序)等来进行管理该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范;
在对该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范进行管理时,发现该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范达到预设的触发条件时,进入相应的处理流程;
在该进行的相应的处理流程完成后,将该服务器设备重新开机开启业务上线服务。
但是,发明人发现现有技术中至少存在如下问题:
现有的服务器设备故障诊断方案,一般是在对该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范进行管理时,发现该设置的服务器设备的相应功能和服务器设备故障诊断的阈值以及服务器设备的行为规范达到预设的触发条件时,进入相应的处理流程,此时服务器设备已出现故障,无法实现在服务器设备出现故障前预警提示给用户,无法避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
发明内容
有鉴于此,本发明的目的在于提出一种服务器设备故障诊断方法和装置以及设备,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
根据本发明的一个方面,提供一种服务器设备故障诊断方法,包括:
开启服务器设备的基本输入输出系统;
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值;
根据所述设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值;
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
其中,所述在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,包括:
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制关联服务器设备的检测机制,根据所述增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值。
其中,所述根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,包括:
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范接口进行服务器设备的故障预警提示。
其中,在所述根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示之后,还包括:
重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
根据本发明的另一个方面,提供一种服务器设备故障诊断装置,包括:
开启模块、设置模块、检测模块和提示模块;
所述开启模块,用于开启服务器设备的基本输入输出系统;
所述设置模块,用于在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值;
所述检测模块,用于根据所述设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值;
所述提示模块,用于根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
其中,所述设置模块,具体用于:
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制关联服务器设备的检测机制,根据所述增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值。
其中,所述提示模块,具体用于:
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范接口进行服务器设备的故障预警提示。
其中,所述服务器设备故障诊断装置,还包括:
上线模块;
所述上线模块,用于重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
根据本发明的又一个方面,提供一种服务器设备故障诊断设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的服务器设备故障诊断方法。
根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的服务器设备故障诊断方法。
可以发现,以上方案,可以开启服务器设备的基本输入输出系统,和可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,和可以根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值,以及可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
进一步的,以上方案,可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制等关联服务器设备的检测机制,根据该增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值,这样的好处是能够实现设置服务器设备的故障检测阈值,能够提高该设置的服务器设备的故障检测阈值的准确率。
进一步的,以上方案,可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范等接口进行服务器设备的故障预警提示,这样的好处是能够实现进行服务器设备的故障预警提示,便于用户检测确认服务器设备的状态,能够保障服务器设备的稳定性。
进一步的,以上方案,可以重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务,这样的好处能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明服务器设备故障诊断方法一实施例的流程示意图;
图2是本发明服务器设备故障诊断方法另一实施例的流程示意图;
图3是本发明服务器设备故障诊断装置一实施例的结构示意图;
图4是本发明服务器设备故障诊断装置另一实施例的结构示意图;
图5是本发明服务器设备故障诊断设备一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种服务器设备故障诊断方法,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
请参见图1,图1是本发明服务器设备故障诊断方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:
S101:开启服务器设备的基本输入输出系统BIOS。
在本实施例中,基本输入输出系统是一组固化到计算机内主板上一个EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦除可编程只读存储器)芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从NVRAM(Non-Volatile Random Access Memory,非易失性随机访问存储器)中读写系统设置的具体信息。
在本实施例中,基本输入输出系统的主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外,在本实施例中,基本输入输出系统还向作业系统提供一些系统参数。系统硬件的变化是由BIOS隐藏,程序使用在本实施例中,基本输入输出系统功能而不是直接控制硬件。
S102:在开启服务器设备的基本输入输出系统BIOS后,在POST(向服务器设备传送数据)过程中,设置服务器设备的故障检测阈值。
其中,该在开启服务器设备的基本输入输出系统BIOS后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,可以包括:
在开启服务器设备的基本输入输出系统BIOS后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制等关联服务器设备的检测机制,根据该增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值,这样的好处是能够实现设置服务器设备的故障检测阈值,能够提高该设置的服务器设备的故障检测阈值的准确率。
S103:根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值。
在本实施例中,该检测服务器设备的当前状态检测可以是检测服务器设备的状态、服务器设备的组件状态、服务器设备的压力状态等中的至少一种,本发明不加以限定。
S104:根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
其中,该根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,可以包括:
根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,通过BMC(Baseboard Management Controller,基板管理控制器)、SMI(System Management Interrupt,系统管理中断)、Dialog box(一个对话框资源创一个模态对话框)、WMI(Windows Management Instrumentation,计算机管理规范)等接口进行服务器设备的故障预警提示,这样的好处是能够实现进行服务器设备的故障预警提示,便于用户检测确认服务器设备的状态,能够保障服务器设备的稳定性。
其中,在该根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示之后,还可以包括:
重跑向服务器设备传送数据的POST过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务,这样的好处能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
可以发现,在本实施例中,可以开启服务器设备的基本输入输出系统,和可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,和可以根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值,以及可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
进一步的,在本实施例中,可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制等关联服务器设备的检测机制,根据该增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值,这样的好处是能够实现设置服务器设备的故障检测阈值,能够提高该设置的服务器设备的故障检测阈值的准确率。
进一步的,在本实施例中,可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范等接口进行服务器设备的故障预警提示,这样的好处是能够实现进行服务器设备的故障预警提示,便于用户检测确认服务器设备的状态,能够保障服务器设备的稳定性。
请参见图2,图2是本发明服务器设备故障诊断方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:
S201:开启服务器设备的基本输入输出系统。
可如上S101所述,在此不作赘述。
S202:在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值。
可如上S102所述,在此不作赘述。
S203:根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值。
可如上S103所述,在此不作赘述。
S204:根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
可如上S104所述,在此不作赘述。
S205:重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
可以发现,在本实施例中,可以重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务,这样的好处能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
本发明还提供一种服务器设备故障诊断装置,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
请参见图3,图3是本发明服务器设备故障诊断装置一实施例的结构示意图。本实施例中,该服务器设备故障诊断装置30包括开启模块31、设置模块32、检测模块33和提示模块34。
该开启模块31,用于开启服务器设备的基本输入输出系统。
该设置模块32,用于在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值。
该检测模块33,用于根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值。
该提示模块34,用于根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
可选地,该设置模块32,可以具体用于:
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制等关联服务器设备的检测机制,根据该增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值。
可选地,该提示模块34,可以具体用于:
根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范等接口进行服务器设备的故障预警提示。
请参见图4,图4是本发明服务器设备故障诊断装置另一实施例的结构示意图。区别于上一实施例,本实施例所述服务器设备故障诊断装置40还包括上线模块41。
该上线模块41,用于重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
该服务器设备故障诊断装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
本发明又提供一种服务器设备故障诊断设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的服务器设备故障诊断方法。
其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。
处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。
本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
可以发现,以上方案,可以开启服务器设备的基本输入输出系统,和可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,和可以根据该设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值,以及可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,能够实现在服务器设备出现故障前预警提示给用户,能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
进一步的,以上方案,可以在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制等关联服务器设备的检测机制,根据该增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值,这样的好处是能够实现设置服务器设备的故障检测阈值,能够提高该设置的服务器设备的故障检测阈值的准确率。
进一步的,以上方案,可以根据该检测的服务器设备的当前状态是否临近该设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近该设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范等接口进行服务器设备的故障预警提示,这样的好处是能够实现进行服务器设备的故障预警提示,便于用户检测确认服务器设备的状态,能够保障服务器设备的稳定性。
进一步的,以上方案,可以重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务,这样的好处能够避免用户开启业务上线后因为服务器设备故障引起的异常情况的出现。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种服务器设备故障诊断方法,其特征在于,包括:
开启服务器设备的基本输入输出系统;
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值;
根据所述设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值;
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
2.如权利要求1所述的服务器设备故障诊断方法,其特征在于,所述在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值,包括:
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制关联服务器设备的检测机制,根据所述增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值。
3.如权利要求1所述的服务器设备故障诊断方法,其特征在于,所述根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示,包括:
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范接口进行服务器设备的故障预警提示。
4.如权利要求1所述的服务器设备故障诊断方法,其特征在于,在所述根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示之后,还包括:
重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
5.一种服务器设备故障诊断装置,其特征在于,包括:
开启模块、设置模块、检测模块和提示模块;
所述开启模块,用于开启服务器设备的基本输入输出系统;
所述设置模块,用于在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并设置服务器设备的故障检测阈值;
所述检测模块,用于根据所述设置的服务器设备的故障检测阈值,检测服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值;
所述提示模块,用于根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,进行服务器设备的故障预警提示。
6.如权利要求5所述的服务器设备故障诊断装置,其特征在于,所述设置模块,具体用于:
在开启服务器设备的基本输入输出系统后,在向服务器设备传送数据过程中,服务器开机自检,并增加服务器设备的状态检测机制、服务器设备的组件状态检测机制、服务器设备的压力状态检测机制关联服务器设备的检测机制,根据所述增加的关联服务器设备的检测机制,设置服务器设备的故障检测阈值。
7.如权利要求5所述的服务器设备故障诊断装置,其特征在于,所述提示模块,具体用于:
根据所述检测的服务器设备的当前状态是否临近所述设置的服务器设备的故障检测阈值的检测结果,在检测出服务器设备的当前状态是临近所述设置的服务器设备的故障检测阈值的检测结果时,通过基板管理控制器、系统管理中断、一个对话框资源创一个模态对话框、计算机管理规范接口进行服务器设备的故障预警提示。
8.如权利要求5所述的服务器设备故障诊断装置,其特征在于,所述服务器设备故障诊断装置,还包括:
上线模块;
所述上线模块,用于重跑向服务器设备传送数据的过程,确保服务器设备的状态稳定后,将服务器设备开启业务上线服务。
9.一种服务器设备故障诊断设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的服务器设备故障诊断方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的服务器设备故障诊断方法。
CN201910642625.0A 2019-07-16 2019-07-16 一种服务器设备故障诊断方法和装置以及设备 Pending CN110347558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910642625.0A CN110347558A (zh) 2019-07-16 2019-07-16 一种服务器设备故障诊断方法和装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910642625.0A CN110347558A (zh) 2019-07-16 2019-07-16 一种服务器设备故障诊断方法和装置以及设备

Publications (1)

Publication Number Publication Date
CN110347558A true CN110347558A (zh) 2019-10-18

Family

ID=68174869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910642625.0A Pending CN110347558A (zh) 2019-07-16 2019-07-16 一种服务器设备故障诊断方法和装置以及设备

Country Status (1)

Country Link
CN (1) CN110347558A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312214A (zh) * 2021-06-10 2021-08-27 北京百度网讯科技有限公司 操作计算机的方法、装置、电子设备和存储介质
CN116521489A (zh) * 2023-07-04 2023-08-01 深圳市同泰怡信息技术有限公司 一种计算机用服务器故障预警方法
CN116643908A (zh) * 2023-07-19 2023-08-25 深圳市同泰怡信息技术有限公司 一种基于飞腾多路服务器的自动故障报警方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587966B1 (en) * 2000-04-25 2003-07-01 Hewlett-Packard Development Company, L.P. Operating system hang detection and correction
CN106505740A (zh) * 2016-12-06 2017-03-15 国网山东省电力公司鄄城县供电公司 电力设备的智能监测装置、系统及智能调控系统
US20180270128A1 (en) * 2017-03-20 2018-09-20 International Business Machines Corporation Analyzing performance and capacity of a complex storage environment for predicting failure
CN208848190U (zh) * 2018-07-23 2019-05-10 中国长城科技集团股份有限公司 一种服务器故障诊断装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587966B1 (en) * 2000-04-25 2003-07-01 Hewlett-Packard Development Company, L.P. Operating system hang detection and correction
CN106505740A (zh) * 2016-12-06 2017-03-15 国网山东省电力公司鄄城县供电公司 电力设备的智能监测装置、系统及智能调控系统
US20180270128A1 (en) * 2017-03-20 2018-09-20 International Business Machines Corporation Analyzing performance and capacity of a complex storage environment for predicting failure
CN208848190U (zh) * 2018-07-23 2019-05-10 中国长城科技集团股份有限公司 一种服务器故障诊断装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312214A (zh) * 2021-06-10 2021-08-27 北京百度网讯科技有限公司 操作计算机的方法、装置、电子设备和存储介质
CN113312214B (zh) * 2021-06-10 2024-05-31 北京百度网讯科技有限公司 操作计算机的方法、装置、电子设备和存储介质
CN116521489A (zh) * 2023-07-04 2023-08-01 深圳市同泰怡信息技术有限公司 一种计算机用服务器故障预警方法
CN116521489B (zh) * 2023-07-04 2024-03-15 深圳市同泰怡信息技术有限公司 一种计算机用服务器故障预警方法
CN116643908A (zh) * 2023-07-19 2023-08-25 深圳市同泰怡信息技术有限公司 一种基于飞腾多路服务器的自动故障报警方法
CN116643908B (zh) * 2023-07-19 2024-03-15 深圳市同泰怡信息技术有限公司 一种基于飞腾多路服务器的自动故障报警方法

Similar Documents

Publication Publication Date Title
JP6530774B2 (ja) ハードウェア障害回復システム
US10216550B2 (en) Technologies for fast boot with adaptive memory pre-training
CN109670319B (zh) 一种服务器flash安全管理方法及其系统
US8458524B2 (en) Firmware recovery system and method
US9015458B2 (en) Computer system and method for updating basic input/output system by switching between local mode and bypass mode through baseboard management controller
US8132055B2 (en) Operating system-firmware interface update recovery
CN110347558A (zh) 一种服务器设备故障诊断方法和装置以及设备
US20090249319A1 (en) Testing method of baseboard management controller
US10831467B2 (en) Techniques of updating host device firmware via service processor
US20180210783A1 (en) Information processing apparatus, control method of the same, and storage medium
US10691565B2 (en) Storage control device and storage control method
EP2798428B1 (en) Apparatus and method for managing operation of a mobile device
US20170091017A1 (en) Fault detecting device and method
US8375198B2 (en) Boot system and method having a BIOS that reads an operating system from first storage device via an input/output chip based on detecting a temperature of a second storage device
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
JP4886558B2 (ja) 情報処理装置
US10572435B2 (en) Techniques of accessing serial console of BMC using host serial port
US10742496B2 (en) Platform specific configurations setup interface for service processor
CN110825547B (zh) 一种基于smbus的pcie卡异常恢复装置及方法
US10509656B2 (en) Techniques of providing policy options to enable and disable system components
CN111176958A (zh) 信息监测方法、系统和存储介质
CN112394965A (zh) 电池管理系统升级和运行方法,控制器,电池管理系统及存储介质
US10176142B2 (en) Techniques of accessing BMC terminals through serial port
CN116701055A (zh) 一种服务器的故障隔离方法、装置、设备及介质
CN109491813B (zh) Arm架构服务器及其管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018