CN112732477B - 一种带外自检故障隔离的方法 - Google Patents

一种带外自检故障隔离的方法 Download PDF

Info

Publication number
CN112732477B
CN112732477B CN202110356379.XA CN202110356379A CN112732477B CN 112732477 B CN112732477 B CN 112732477B CN 202110356379 A CN202110356379 A CN 202110356379A CN 112732477 B CN112732477 B CN 112732477B
Authority
CN
China
Prior art keywords
equipment
state
isolation
starting
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110356379.XA
Other languages
English (en)
Other versions
CN112732477A (zh
Inventor
赵彦钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongxin Software Co ltd
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Beijing Electromechanical Engineering Research Institute
Original Assignee
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Huakun Zhenyu Intelligent Technology Co ltd filed Critical Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority to CN202110356379.XA priority Critical patent/CN112732477B/zh
Publication of CN112732477A publication Critical patent/CN112732477A/zh
Application granted granted Critical
Publication of CN112732477B publication Critical patent/CN112732477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Abstract

本发明公开了一种带外自检故障隔离的方法,包括系统启动时,对系统中所有的设备通过监控通道进行监控;获取启动时系统各设备的启动状态,对不同异常状态进行状态分级,根据状态分级,采用对应状态分级的隔离方法,完成对状态异常的设备的隔离,系统进入运行;系统进入运行后,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则先将新状态异常设备进行匹配,若匹配到相同的设备信息,则判断此设备为不稳定设备;若未匹配到相同的设备信息,则判断此设备为新故障设备,进行故障检测与隔离。通过本发明,可以实现提前主动的检测系统故障,主动的识别可能导致系统挂死、复位的高危故障类型,确保系统软件运行正常。

Description

一种带外自检故障隔离的方法
技术领域
本发明涉及服务器系统领域,具体是一种带外自检故障隔离的方法。
背景技术
目前服务器系统中,系统启动时,主要依靠BIOS对CPU、内存、PCIe外设做初始化和配置,对于故障率较高的内存,某些厂商的BIOS也会做内存的扫描、自检,以识别内存的可能潜在故障。但并没有对外设做故障检测。很有可能由于这些外设故障导致系统无法启动或者运行中异常挂死。
发明内容
本发明的目的在于克服现有技术的不足,提供一种带外自检故障隔离的方法,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure 364844DEST_PATH_IMAGE001
,进行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若 有,则进入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹 配,若匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率
Figure 100002_DEST_PATH_IMAGE002
、该类型设备的历史故障率
Figure 686104DEST_PATH_IMAGE003
以及该设备的设备启动分离度
Figure 174854DEST_PATH_IMAGE001
,对该设备进行故障隔离; 若未匹配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备 信息存储到错误状态寄存器,再根据该设备的设备启动分离度
Figure 708604DEST_PATH_IMAGE001
,进行故障检测与隔离,直 到所有状态异常设备均完成故障检测与隔离。
进一步的,步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
进一步的,步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
进一步的,所述的设备启动分离度
Figure 966410DEST_PATH_IMAGE001
为:
Figure DEST_PATH_IMAGE004
其中的
Figure 927412DEST_PATH_IMAGE005
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运 行的间隔时长,n为设备运行次数。
进一步的,所述的根据该设备的设备启动分离度
Figure 965776DEST_PATH_IMAGE001
,进行故障检测与隔离,包括: 若该设备的设备启动分离度
Figure 975320DEST_PATH_IMAGE001
大于或等于设备启动分离度阈值,则该设备直接与系统断开 连接,并将设备的状态信息关联到错误状态寄存器中该设备信息中;若该设备的设备启动 分离度
Figure 415528DEST_PATH_IMAGE001
小于设备启动分离度阈值
Figure 100002_DEST_PATH_IMAGE006
,则对该设备进行重新上线,若该设备重新上线启动 的次数大于二次上线启动阈值
Figure 783318DEST_PATH_IMAGE007
,则判定该设备故障,系统发出报警。
进一步的,步骤四中所述的该类型设备的使用故障率
Figure DEST_PATH_IMAGE008
为:
Figure 777819DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE010
其中的b为该类型设备接入系统的个数,
Figure 387792DEST_PATH_IMAGE011
为异常状态次数,
Figure 100002_DEST_PATH_IMAGE012
为该类型设备总 启动次数;
Figure 416928DEST_PATH_IMAGE013
为该类型设备使用率,
Figure 100002_DEST_PATH_IMAGE014
,其中
Figure 719733DEST_PATH_IMAGE015
为该类型设备在系统中以大于或等于 额定功率运行的次数,
Figure 100002_DEST_PATH_IMAGE016
为该类型设备在系统中待机运行的次数。
进一步的,步骤四中所述的该类型设备的历史故障率
Figure 201530DEST_PATH_IMAGE017
为:
Figure 100002_DEST_PATH_IMAGE018
其中的m为该类型设备出厂的批次总数,
Figure 615194DEST_PATH_IMAGE019
为第i批次的该类型设备的使用故障 率
Figure 764415DEST_PATH_IMAGE008
进一步的,步骤四所述的根据该类型设备的使用故障率
Figure DEST_PATH_IMAGE020
、该类型设备的历史故 障率
Figure 476937DEST_PATH_IMAGE021
以及该设备的设备启动分离度
Figure 711610DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure 100002_DEST_PATH_IMAGE022
本发明的有益效果是: 本方法提出了系统工作前,提前主动的检测系统故障,主动的识别并隔离故障外设,系统在启动运行后,对反复出现的或者新出现的故障,也能及时的处理,确保系统运行正常。
附图说明
图1为一种带外自检故障隔离的方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种带外自检故障隔离的方法,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure 663385DEST_PATH_IMAGE001
,进行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若 有,则进入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹 配,若匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率
Figure 870376DEST_PATH_IMAGE002
、该类型设备的历史故障率
Figure 780563DEST_PATH_IMAGE003
以及该设备的设备启动分离度
Figure 440214DEST_PATH_IMAGE001
,对该设备进行故障隔离; 若未匹配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备 信息存储到错误状态寄存器,再根据该设备的设备分离度
Figure 523577DEST_PATH_IMAGE001
,进行故障检测与隔离,直到所 有状态异常设备均完成故障检测与隔离。
步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
所述的设备启动分离度
Figure 319494DEST_PATH_IMAGE001
为:
Figure 400583DEST_PATH_IMAGE004
其中的
Figure 547530DEST_PATH_IMAGE005
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运 行的间隔时长,n为设备运行次数。
所述的根据该设备的设备启动分离度
Figure 608153DEST_PATH_IMAGE001
,进行故障检测与隔离,包括:若该设备的 设备启动分离度
Figure 586473DEST_PATH_IMAGE001
大于或等于设备启动分离度阈值,则该设备直接与系统断开连接,并将 设备的状态信息关联到错误状态寄存器中该设备信息中;若该设备的设备启动分离度
Figure 510567DEST_PATH_IMAGE001
小 于设备启动分离度阈值
Figure 207127DEST_PATH_IMAGE006
,则对该设备进行重新上线,若该设备重新上线启动的次数大于 二次上线启动阈值
Figure 507658DEST_PATH_IMAGE007
,则判定该设备故障,系统发出报警。
步骤四中所述的该类型设备的使用故障率
Figure 606064DEST_PATH_IMAGE008
为:
Figure 701059DEST_PATH_IMAGE009
Figure 884916DEST_PATH_IMAGE010
其中的b为该类型设备接入系统的个数,
Figure 989138DEST_PATH_IMAGE011
为异常状态次数,
Figure 410892DEST_PATH_IMAGE012
为该类型设备总 启动次数;
Figure 4685DEST_PATH_IMAGE013
为该类型设备使用率,
Figure 347941DEST_PATH_IMAGE014
,其中
Figure 318172DEST_PATH_IMAGE015
为该类型设备在系统中以大于或等于 额定功率运行的次数,
Figure 63274DEST_PATH_IMAGE016
为该类型设备在系统中待机运行的次数。
步骤四中所述的该类型设备的历史故障率
Figure 326502DEST_PATH_IMAGE017
为:
Figure 157055DEST_PATH_IMAGE018
其中的m为该类型设备出厂的批次总数,
Figure 399818DEST_PATH_IMAGE019
为第i批次的该类型设备的使用故障 率
Figure 61743DEST_PATH_IMAGE008
步骤四所述的根据该类型设备的使用故障率
Figure 935021DEST_PATH_IMAGE020
、该类型设备的历史故障率
Figure 315187DEST_PATH_IMAGE021
以及 该设备的设备启动分离度
Figure 299324DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure 81335DEST_PATH_IMAGE023
具体的,例如在某一服务器系统中,设备包括硬盘、键盘、鼠标、扫描设备、安全登录设备、打印机、通信装置、显示设备、用户支持设备,其中的硬盘为非系统数据盘,以上设备在服务器系统中均包括多台,在未进行故障隔离前,由于扫描设备故障而造成的系统启动失败占总系统启动失败的15%,因为非系统数据盘数据读取异常而造成的系统启动失败占总系统启动失败的35%,因为安全登录设备识别异常而造成的系统启动失败占总系统启动失败的20%,因为用户支持设备的启动异常,而造成的系统启动失败占总系统启动失败的20%,其余故障造成的系统启动失败占总系统启动失败的10%。
应用故障隔离方法后,基本避免了因为扫描设备、安全登录设备、用户支持设备等设备故障而造成的系统启动失败,也基本其余外设的故障而造成的系统启动失败;由于数据读取不可避免,所以无法完全杜绝数据读取故障,但应用本故障隔离方法后,因为非系统数据盘数据读取异常而造成的系统启动失败也大幅度降低,实现了对故障的隔离的目的。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种带外自检故障隔离的方法,其特征在于,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure DEST_PATH_IMAGE001
,进行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则进入步骤四;
所述的设备启动分离度
Figure 417477DEST_PATH_IMAGE001
为:
Figure DEST_PATH_IMAGE002
其中的
Figure 803459DEST_PATH_IMAGE003
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运行的间隔时长,n为设备运行次数;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹配,若匹配到相同的设备信息,则判断此设备为不稳定设备,获取此设备的设备类型,通过该类型设备的使用故障率
Figure 911092DEST_PATH_IMAGE005
、该类型设备的历史故障率
Figure DEST_PATH_IMAGE006
以及该设备的设备启动分离度
Figure 197979DEST_PATH_IMAGE001
,对该设备进行故障隔离;若未匹配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备信息存储到错误状态寄存器,再根据该设备的设备启动分离度
Figure 933723DEST_PATH_IMAGE001
,进行故障检测与隔离,直到所有状态异常设备均完成故障检测与隔离;
所述的根据该类型设备的使用故障率
Figure 287344DEST_PATH_IMAGE007
、该类型设备的历史故障率
Figure 492060DEST_PATH_IMAGE009
以及该设备的设备启动分离度
Figure 376446DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure DEST_PATH_IMAGE010
2.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
3.根据权利要求2所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
4.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,所述的根据该设备的设备启动分离度
Figure 169959DEST_PATH_IMAGE001
,进行故障检测与隔离,包括:若该设备的设备启动分离度
Figure 366585DEST_PATH_IMAGE001
大于或等于设备启动分离度阈值,则该设备直接与系统断开连接,并将设备的状态信息关联到错误状态寄存器中该设备信息中;若该设备的设备启动分离度
Figure 278171DEST_PATH_IMAGE001
小于设备启动分离度阈值
Figure 952866DEST_PATH_IMAGE011
,则对该设备进行重新上线,若该设备重新上线启动的次数大于二次上线启动阈值
Figure DEST_PATH_IMAGE012
,则判定该设备故障,系统发出报警。
5.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤四中所述的该类型设备的使用故障率
Figure 600885DEST_PATH_IMAGE013
为:
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
其中的b为该类型设备接入系统的个数,
Figure DEST_PATH_IMAGE016
为异常状态次数,
Figure DEST_PATH_IMAGE017
为该类型设备总启动次数;
Figure DEST_PATH_IMAGE018
为该类型设备使用率,
Figure DEST_PATH_IMAGE019
,其中
Figure 874739DEST_PATH_IMAGE021
为该类型设备在系统中以大于或等于额定功率运行的次数,
Figure DEST_PATH_IMAGE022
为该类型设备在系统中待机运行的次数。
6.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤四中所述的该类型设备的历史故障率
Figure 473954DEST_PATH_IMAGE023
为:
Figure DEST_PATH_IMAGE024
其中的m为该类型设备出厂的批次总数,
Figure 873712DEST_PATH_IMAGE025
为第i批次的该类型设备的使用故障率
Figure 189286DEST_PATH_IMAGE013
CN202110356379.XA 2021-04-01 2021-04-01 一种带外自检故障隔离的方法 Active CN112732477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110356379.XA CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110356379.XA CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Publications (2)

Publication Number Publication Date
CN112732477A CN112732477A (zh) 2021-04-30
CN112732477B true CN112732477B (zh) 2021-06-29

Family

ID=75596376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110356379.XA Active CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Country Status (1)

Country Link
CN (1) CN112732477B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113517897A (zh) * 2021-06-23 2021-10-19 成都市克莱微波科技有限公司 L波段双频固态发射机和l波段双频固态发射机控制方法
CN113507755A (zh) * 2021-09-10 2021-10-15 江苏新恒基特种装备股份有限公司 一种加热控制系统及加热控制方法
CN114167150A (zh) * 2021-11-02 2022-03-11 宜宾盛纬伦科技有限公司 一种高频相控阵天线的测试系统及方法
CN113835770B (zh) * 2021-11-30 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统
CN116090911A (zh) * 2023-04-11 2023-05-09 西南科技大学 一种基于多核聚类的设备故障分析方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259815A1 (en) * 2005-05-10 2006-11-16 Stratus Technologies Bermuda Ltd. Systems and methods for ensuring high availability
WO2012119432A1 (zh) * 2011-08-31 2012-09-13 华为技术有限公司 提高计算机系统稳定性的方法及计算机系统
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
US10296434B2 (en) * 2017-01-17 2019-05-21 Quanta Computer Inc. Bus hang detection and find out
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109271270A (zh) * 2018-09-26 2019-01-25 郑州云海信息技术有限公司 存储系统中底层硬件的故障排除方法、系统及相关装置
TWI679532B (zh) * 2018-10-05 2019-12-11 緯穎科技服務股份有限公司 監測系統與方法
TWI791880B (zh) * 2018-10-12 2023-02-11 南韓商三星電子股份有限公司 電腦系統
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN110377469B (zh) * 2019-07-12 2022-11-18 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
CN111124722B (zh) * 2019-10-30 2022-11-29 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111414268B (zh) * 2020-02-26 2022-05-13 华为技术有限公司 故障处理方法、装置及服务器
CN111338907A (zh) * 2020-03-09 2020-06-26 山东超越数控电子股份有限公司 一种pcie设备的远程状态监测系统及方法
CN112015597B (zh) * 2020-10-26 2021-04-13 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112732477A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112732477B (zh) 一种带外自检故障隔离的方法
CN100388217C (zh) 用于通信系统中的动态阈值缩放的方法和系统
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
CN110928743B (zh) 一种计算系统、自动诊断方法及存储有其指令的介质
US7461303B2 (en) Monitoring VRM-induced memory errors
WO2017125014A1 (zh) 硬盘监控方法及装置
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
CN110377469B (zh) 一种pcie设备的检测系统以及方法
CN104639380A (zh) 服务器监控方法
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
US20050177763A1 (en) System and method for improving network reliability
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
CN110178121A (zh) 一种数据库的检测方法及其终端
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US9158646B2 (en) Abnormal information output system for a computer system
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
CN112988439B (zh) 服务器故障发现方法、装置、电子设备及存储介质
CN116719657A (zh) 一种固件故障日志生成方法、装置、服务器及可读介质
CN115033441A (zh) PCIe设备故障检测方法、装置、设备和存储介质
CN111176878A (zh) 一种服务器bbu备电诊断方法、系统、终端及存储介质
CN113625957B (zh) 一种硬盘故障的检测方法、装置及设备
US20210349775A1 (en) Method of data management and method of data analysis
JP6217086B2 (ja) 情報処理装置、エラー検出機能診断方法およびコンピュータプログラム
CN113076210A (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: No. 1, 2, 3, 4, 5, 6, 7, 8, 9, 24th Floor, Unit 2, Building 1, No. 28, North Section of Tianfu Avenue, High-tech Zone, Chengdu 610000, Sichuan Province

Patentee after: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.

Patentee after: Sichuan Hongxin Software Co.,Ltd.

Patentee after: Beijing Electromechanical Engineering Research Institute

Address before: No. 901, block B, No. 199, Tianfu Fourth Street, high tech Zone, Chengdu, Sichuan 610094

Patentee before: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.