CN112732477A - 一种带外自检故障隔离的方法 - Google Patents

一种带外自检故障隔离的方法 Download PDF

Info

Publication number
CN112732477A
CN112732477A CN202110356379.XA CN202110356379A CN112732477A CN 112732477 A CN112732477 A CN 112732477A CN 202110356379 A CN202110356379 A CN 202110356379A CN 112732477 A CN112732477 A CN 112732477A
Authority
CN
China
Prior art keywords
equipment
state
isolation
starting
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110356379.XA
Other languages
English (en)
Other versions
CN112732477B (zh
Inventor
赵彦钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongxin Software Co ltd
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Beijing Electromechanical Engineering Research Institute
Original Assignee
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Huakun Zhenyu Intelligent Technology Co ltd filed Critical Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority to CN202110356379.XA priority Critical patent/CN112732477B/zh
Publication of CN112732477A publication Critical patent/CN112732477A/zh
Application granted granted Critical
Publication of CN112732477B publication Critical patent/CN112732477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种带外自检故障隔离的方法,包括系统启动时,对系统中所有的设备通过监控通道进行监控;获取启动时系统各设备的启动状态,对不同异常状态进行状态分级,根据状态分级,采用对应状态分级的隔离方法,完成对状态异常的设备的隔离,系统进入运行;系统进入运行后,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则先将新状态异常设备进行匹配,若匹配到相同的设备信息,则判断此设备为不稳定设备;若未匹配到相同的设备信息,则判断此设备为新故障设备,进行故障检测与隔离。通过本发明,可以实现提前主动的检测系统故障,主动的识别可能导致系统挂死、复位的高危故障类型,确保系统软件运行正常。

Description

一种带外自检故障隔离的方法
技术领域
本发明涉及服务器系统领域,具体是一种带外自检故障隔离的方法。
背景技术
目前服务器系统中,系统启动时,主要依靠BIOS对CPU、内存、PCIe外设做初始化和配置,对于故障率较高的内存,某些厂商的BIOS也会做内存的扫描、自检,以识别内存的可能潜在故障。但并没有对外设做故障检测。很有可能由于这些外设故障导致系统无法启动或者运行中异常挂死。
发明内容
本发明的目的在于克服现有技术的不足,提供一种带外自检故障隔离的方法,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure 364844DEST_PATH_IMAGE001
,进行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有, 则进入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹 配,若匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率
Figure 100002_DEST_PATH_IMAGE002
、该类型设备的历史故障率
Figure 686104DEST_PATH_IMAGE003
以及该设备的设备启动分离度
Figure 174854DEST_PATH_IMAGE001
,对该设备进行故障隔离; 若未匹配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备 信息存储到错误状态寄存器,再根据该设备的设备启动分离度
Figure 708604DEST_PATH_IMAGE001
,进行故障检测与隔离,直 到所有状态异常设备均完成故障检测与隔离。
进一步的,步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
进一步的,步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
进一步的,所述的设备启动分离度
Figure 966410DEST_PATH_IMAGE001
为:
Figure 100002_DEST_PATH_IMAGE004
其中的
Figure 927412DEST_PATH_IMAGE005
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运行 的间隔时长,n为设备运行次数。
进一步的,所述的根据该设备的设备启动分离度
Figure 965776DEST_PATH_IMAGE001
,进行故障检测与隔离,包括:若 该设备的设备启动分离度
Figure 975320DEST_PATH_IMAGE001
大于或等于设备启动分离度阈值,则该设备直接与系统断开连 接,并将设备的状态信息关联到错误状态寄存器中该设备信息中;若该设备的设备启动分 离度
Figure 415528DEST_PATH_IMAGE001
小于设备启动分离度阈值
Figure 100002_DEST_PATH_IMAGE006
,则对该设备进行重新上线,若该设备重新上线启动的次 数大于二次上线启动阈值
Figure 783318DEST_PATH_IMAGE007
,则判定该设备故障,系统发出报警。
进一步的,步骤四中所述的该类型设备的使用故障率
Figure 100002_DEST_PATH_IMAGE008
为:
Figure 777819DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE010
其中的b为该类型设备接入系统的个数,
Figure 387792DEST_PATH_IMAGE011
为异常状态次数,
Figure 100002_DEST_PATH_IMAGE012
为该类型设备总启 动次数;
Figure 416928DEST_PATH_IMAGE013
为该类型设备使用率,
Figure 100002_DEST_PATH_IMAGE014
,其中
Figure 719733DEST_PATH_IMAGE015
为该类型设备在系统中以大于或等于额定 功率运行的次数,
Figure 100002_DEST_PATH_IMAGE016
为该类型设备在系统中待机运行的次数。
进一步的,步骤四中所述的该类型设备的历史故障率
Figure 201530DEST_PATH_IMAGE017
为:
Figure 100002_DEST_PATH_IMAGE018
其中的m为该类型设备出厂的批次总数,
Figure 615194DEST_PATH_IMAGE019
为第i批次的该类型设备的使用故障率
Figure 764415DEST_PATH_IMAGE008
进一步的,步骤四所述的根据该类型设备的使用故障率
Figure 100002_DEST_PATH_IMAGE020
、该类型设备的历史故 障率
Figure 476937DEST_PATH_IMAGE021
以及该设备的设备启动分离度
Figure 711610DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure 100002_DEST_PATH_IMAGE022
本发明的有益效果是: 本方法提出了系统工作前,提前主动的检测系统故障,主动的识别并隔离故障外设,系统在启动运行后,对反复出现的或者新出现的故障,也能及时的处理,确保系统运行正常。
附图说明
图1为一种带外自检故障隔离的方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种带外自检故障隔离的方法,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure 663385DEST_PATH_IMAGE001
,进行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有, 则进入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹 配,若匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率
Figure 870376DEST_PATH_IMAGE002
、该类型设备的历史故障率
Figure 780563DEST_PATH_IMAGE003
以及该设备的设备启动分离度
Figure 440214DEST_PATH_IMAGE001
,对该设备进行故障隔离;若 未匹配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备信 息存储到错误状态寄存器,再根据该设备的设备分离度
Figure 523577DEST_PATH_IMAGE001
,进行故障检测与隔离,直到所有 状态异常设备均完成故障检测与隔离。
步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
所述的设备启动分离度
Figure 319494DEST_PATH_IMAGE001
为:
Figure 400583DEST_PATH_IMAGE004
其中的
Figure 547530DEST_PATH_IMAGE005
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运行 的间隔时长,n为设备运行次数。
所述的根据该设备的设备启动分离度
Figure 608153DEST_PATH_IMAGE001
,进行故障检测与隔离,包括:若该设备的 设备启动分离度
Figure 586473DEST_PATH_IMAGE001
大于或等于设备启动分离度阈值,则该设备直接与系统断开连接,并将设 备的状态信息关联到错误状态寄存器中该设备信息中;若该设备的设备启动分离度
Figure 510567DEST_PATH_IMAGE001
小于 设备启动分离度阈值
Figure 207127DEST_PATH_IMAGE006
,则对该设备进行重新上线,若该设备重新上线启动的次数大于二 次上线启动阈值
Figure 507658DEST_PATH_IMAGE007
,则判定该设备故障,系统发出报警。
步骤四中所述的该类型设备的使用故障率
Figure 606064DEST_PATH_IMAGE008
为:
Figure 701059DEST_PATH_IMAGE009
Figure 884916DEST_PATH_IMAGE010
其中的b为该类型设备接入系统的个数,
Figure 989138DEST_PATH_IMAGE011
为异常状态次数,
Figure 410892DEST_PATH_IMAGE012
为该类型设备总启 动次数;
Figure 4685DEST_PATH_IMAGE013
为该类型设备使用率,
Figure 347941DEST_PATH_IMAGE014
,其中
Figure 318172DEST_PATH_IMAGE015
为该类型设备在系统中以大于或等于额定功 率运行的次数,
Figure 63274DEST_PATH_IMAGE016
为该类型设备在系统中待机运行的次数。
步骤四中所述的该类型设备的历史故障率
Figure 326502DEST_PATH_IMAGE017
为:
Figure 157055DEST_PATH_IMAGE018
其中的m为该类型设备出厂的批次总数,
Figure 399818DEST_PATH_IMAGE019
为第i批次的该类型设备的使用故障率
Figure 61743DEST_PATH_IMAGE008
步骤四所述的根据该类型设备的使用故障率
Figure 935021DEST_PATH_IMAGE020
、该类型设备的历史故障率
Figure 315187DEST_PATH_IMAGE021
以及 该设备的设备启动分离度
Figure 299324DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure 81335DEST_PATH_IMAGE023
具体的,例如在某一服务器系统中,设备包括硬盘、键盘、鼠标、扫描设备、安全登录设备、打印机、通信装置、显示设备、用户支持设备,其中的硬盘为非系统数据盘,以上设备在服务器系统中均包括多台,在未进行故障隔离前,由于扫描设备故障而造成的系统启动失败占总系统启动失败的15%,因为非系统数据盘数据读取异常而造成的系统启动失败占总系统启动失败的35%,因为安全登录设备识别异常而造成的系统启动失败占总系统启动失败的20%,因为用户支持设备的启动异常,而造成的系统启动失败占总系统启动失败的20%,其余故障造成的系统启动失败占总系统启动失败的10%。
应用故障隔离方法后,基本避免了因为扫描设备、安全登录设备、用户支持设备等设备故障而造成的系统启动失败,也基本其余外设的故障而造成的系统启动失败;由于数据读取不可避免,所以无法完全杜绝数据读取故障,但应用本故障隔离方法后,因为非系统数据盘数据读取异常而造成的系统启动失败也大幅度降低,实现了对故障的隔离的目的。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种带外自检故障隔离的方法,其特征在于,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度
Figure DEST_PATH_IMAGE001
,进 行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则进 入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹配,若 匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率
Figure DEST_PATH_IMAGE002
、该 类型设备的历史故障率
Figure DEST_PATH_IMAGE003
以及该设备的设备启动分离度
Figure 842938DEST_PATH_IMAGE001
,对该设备进行故障隔离;若未匹 配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备信息存 储到错误状态寄存器,再根据该设备的设备启动分离度
Figure 556816DEST_PATH_IMAGE001
,进行故障检测与隔离,直到所有 状态异常设备均完成故障检测与隔离。
2.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。
3.根据权利要求2所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常标注,对三级异常状态对应的设备进行设备离线处理。
4.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,所述的设备启动 分离度
Figure 70974DEST_PATH_IMAGE001
为:
Figure DEST_PATH_IMAGE004
其中的
Figure DEST_PATH_IMAGE005
为设备在系统第i次启动后,设备在系统运行后从待机到额定功率运行的间 隔时长,n为设备运行次数。
5.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,所述的根据该设 备的设备启动分离度
Figure 295544DEST_PATH_IMAGE001
,进行故障检测与隔离,包括:若该设备的设备启动分离度
Figure 844337DEST_PATH_IMAGE001
大于或 等于设备启动分离度阈值,则该设备直接与系统断开连接,并将设备的状态信息关联到错 误状态寄存器中该设备信息中;若该设备的设备启动分离度
Figure 463537DEST_PATH_IMAGE001
小于设备启动分离度阈值
Figure DEST_PATH_IMAGE006
, 则对该设备进行重新上线,若该设备重新上线启动的次数大于二次上线启动阈值
Figure DEST_PATH_IMAGE007
,则判 定该设备故障,系统发出报警。
6.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤四中所述的 该类型设备的使用故障率
Figure DEST_PATH_IMAGE008
为:
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
其中的b为该类型设备接入系统的个数,
Figure DEST_PATH_IMAGE011
为异常状态次数,
Figure DEST_PATH_IMAGE012
为该类型设备总启动次 数;
Figure DEST_PATH_IMAGE013
为该类型设备使用率,
Figure DEST_PATH_IMAGE014
,其中
Figure DEST_PATH_IMAGE015
为该类型设备在系统中以大于或等于额定功率 运行的次数,
Figure DEST_PATH_IMAGE016
为该类型设备在系统中待机运行的次数。
7.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤四中所述的 该类型设备的历史故障率
Figure DEST_PATH_IMAGE017
为:
Figure DEST_PATH_IMAGE018
其中的m为该类型设备出厂的批次总数,
Figure DEST_PATH_IMAGE019
为第i批次的该类型设备的使用故障率
Figure 212794DEST_PATH_IMAGE008
8.根据权利要求5所述的一种带外自检故障隔离的方法,其特征在于,步骤四所述的根 据该类型设备的使用故障率
Figure DEST_PATH_IMAGE020
、该类型设备的历史故障率
Figure DEST_PATH_IMAGE021
以及该设备的设备启动分离度
Figure 739590DEST_PATH_IMAGE001
,对该设备进行故障隔离,包括:
Figure DEST_PATH_IMAGE022
CN202110356379.XA 2021-04-01 2021-04-01 一种带外自检故障隔离的方法 Active CN112732477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110356379.XA CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110356379.XA CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Publications (2)

Publication Number Publication Date
CN112732477A true CN112732477A (zh) 2021-04-30
CN112732477B CN112732477B (zh) 2021-06-29

Family

ID=75596376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110356379.XA Active CN112732477B (zh) 2021-04-01 2021-04-01 一种带外自检故障隔离的方法

Country Status (1)

Country Link
CN (1) CN112732477B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507755A (zh) * 2021-09-10 2021-10-15 江苏新恒基特种装备股份有限公司 一种加热控制系统及加热控制方法
CN113517897A (zh) * 2021-06-23 2021-10-19 成都市克莱微波科技有限公司 L波段双频固态发射机和l波段双频固态发射机控制方法
CN113835770A (zh) * 2021-11-30 2021-12-24 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统
CN114021748A (zh) * 2021-10-26 2022-02-08 中国通信建设第四工程局有限公司 一种智能通信网络维护方法及维护管理系统
CN114020553A (zh) * 2021-10-26 2022-02-08 中国通信建设第四工程局有限公司 一种用于网络设备的3d模拟安装系统及模拟方法
CN114167150A (zh) * 2021-11-02 2022-03-11 宜宾盛纬伦科技有限公司 一种高频相控阵天线的测试系统及方法
CN114253801A (zh) * 2021-12-13 2022-03-29 四川华鲲振宇智能科技有限责任公司 一种带外主动隔离故障外设的方法
CN116090911A (zh) * 2023-04-11 2023-05-09 西南科技大学 一种基于多核聚类的设备故障分析方法、装置及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259815A1 (en) * 2005-05-10 2006-11-16 Stratus Technologies Bermuda Ltd. Systems and methods for ensuring high availability
CN102369513A (zh) * 2011-08-31 2012-03-07 华为技术有限公司 提高计算机系统稳定性的方法及计算机系统
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
EP3349118A1 (en) * 2017-01-17 2018-07-18 Quanta Computer Inc. Bus hang detection and find out
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN109271270A (zh) * 2018-09-26 2019-01-25 郑州云海信息技术有限公司 存储系统中底层硬件的故障排除方法、系统及相关装置
CN110377469A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
US20200110678A1 (en) * 2018-10-05 2020-04-09 Wiwynn Corporation Monitoring system and method
CN111045597A (zh) * 2018-10-12 2020-04-21 三星电子株式会社 计算机系统
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111338907A (zh) * 2020-03-09 2020-06-26 山东超越数控电子股份有限公司 一种pcie设备的远程状态监测系统及方法
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN112015597A (zh) * 2020-10-26 2020-12-01 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259815A1 (en) * 2005-05-10 2006-11-16 Stratus Technologies Bermuda Ltd. Systems and methods for ensuring high availability
CN102369513A (zh) * 2011-08-31 2012-03-07 华为技术有限公司 提高计算机系统稳定性的方法及计算机系统
CN103455395A (zh) * 2013-08-08 2013-12-18 华为技术有限公司 一种硬盘故障的检测方法及装置
CN105808394A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
EP3349118A1 (en) * 2017-01-17 2018-07-18 Quanta Computer Inc. Bus hang detection and find out
CN109086151A (zh) * 2017-06-13 2018-12-25 中兴通讯股份有限公司 一种服务器上隔离内存故障的方法及装置
CN108376107A (zh) * 2018-03-01 2018-08-07 郑州云海信息技术有限公司 一种服务器故障检测的方法、装置、设备及存储介质
CN109271270A (zh) * 2018-09-26 2019-01-25 郑州云海信息技术有限公司 存储系统中底层硬件的故障排除方法、系统及相关装置
US20200110678A1 (en) * 2018-10-05 2020-04-09 Wiwynn Corporation Monitoring system and method
CN111045597A (zh) * 2018-10-12 2020-04-21 三星电子株式会社 计算机系统
CN110457164A (zh) * 2019-07-08 2019-11-15 华为技术有限公司 设备管理的方法、装置和服务器
CN110377469A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111338907A (zh) * 2020-03-09 2020-06-26 山东超越数控电子股份有限公司 一种pcie设备的远程状态监测系统及方法
CN112015597A (zh) * 2020-10-26 2020-12-01 苏州浪潮智能科技有限公司 一种故障隔离方法、装置、设备及计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113517897A (zh) * 2021-06-23 2021-10-19 成都市克莱微波科技有限公司 L波段双频固态发射机和l波段双频固态发射机控制方法
CN113507755A (zh) * 2021-09-10 2021-10-15 江苏新恒基特种装备股份有限公司 一种加热控制系统及加热控制方法
CN114021748A (zh) * 2021-10-26 2022-02-08 中国通信建设第四工程局有限公司 一种智能通信网络维护方法及维护管理系统
CN114020553A (zh) * 2021-10-26 2022-02-08 中国通信建设第四工程局有限公司 一种用于网络设备的3d模拟安装系统及模拟方法
CN114167150A (zh) * 2021-11-02 2022-03-11 宜宾盛纬伦科技有限公司 一种高频相控阵天线的测试系统及方法
CN113835770A (zh) * 2021-11-30 2021-12-24 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统
CN113835770B (zh) * 2021-11-30 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统
CN114253801A (zh) * 2021-12-13 2022-03-29 四川华鲲振宇智能科技有限责任公司 一种带外主动隔离故障外设的方法
CN116090911A (zh) * 2023-04-11 2023-05-09 西南科技大学 一种基于多核聚类的设备故障分析方法、装置及系统

Also Published As

Publication number Publication date
CN112732477B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN112732477B (zh) 一种带外自检故障隔离的方法
CN100388217C (zh) 用于通信系统中的动态阈值缩放的方法和系统
CN110377469B (zh) 一种pcie设备的检测系统以及方法
EP3627323B1 (en) Automatic diagnostic mode
US9734015B2 (en) Pre-boot self-healing and adaptive fault isolation
US10037238B2 (en) System and method for encoding exception conditions included at a remediation database
US7461303B2 (en) Monitoring VRM-induced memory errors
WO2017125014A1 (zh) 硬盘监控方法及装置
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
CN104639380A (zh) 服务器监控方法
US20240103961A1 (en) PCIe Fault Auto-Repair Method, Apparatus and Device, and Readable Storage Medium
US11853150B2 (en) Method and device for detecting memory downgrade error
CN112988439B (zh) 服务器故障发现方法、装置、电子设备及存储介质
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US20050177763A1 (en) System and method for improving network reliability
CN111414268A (zh) 故障处理方法、装置及服务器
US9798625B2 (en) Agentless and/or pre-boot support, and field replaceable unit (FRU) isolation
CN115033441A (zh) PCIe设备故障检测方法、装置、设备和存储介质
CN113608908A (zh) 服务器故障处理方法、系统、设备及可读存储介质
US9158646B2 (en) Abnormal information output system for a computer system
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
US20060206764A1 (en) Memory reliability detection system and method
CN116719657A (zh) 一种固件故障日志生成方法、装置、服务器及可读介质
CN113076210A (zh) 服务器故障诊断结果通知方法、系统、终端及存储介质
CN116893923A (zh) 内存报错导致宕机的问题处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220810

Address after: No. 1, 2, 3, 4, 5, 6, 7, 8, 9, 24th Floor, Unit 2, Building 1, No. 28, North Section of Tianfu Avenue, High-tech Zone, Chengdu 610000, Sichuan Province

Patentee after: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.

Patentee after: Sichuan Hongxin Software Co.,Ltd.

Patentee after: Beijing Electromechanical Engineering Research Institute

Address before: No. 901, block B, No. 199, Tianfu Fourth Street, high tech Zone, Chengdu, Sichuan 610094

Patentee before: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.