CN106815114A - 一种基于软硬件协同的计算机系统故障处理方法 - Google Patents
一种基于软硬件协同的计算机系统故障处理方法 Download PDFInfo
- Publication number
- CN106815114A CN106815114A CN201710020286.3A CN201710020286A CN106815114A CN 106815114 A CN106815114 A CN 106815114A CN 201710020286 A CN201710020286 A CN 201710020286A CN 106815114 A CN106815114 A CN 106815114A
- Authority
- CN
- China
- Prior art keywords
- hardware
- fault
- failure
- computer system
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
Abstract
本发明公开了一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:A、选取计算机系统中至少两个节点作为计算机系统的管理节点;B、主节点实时检测系统服务故障和应用服务故障并输出故障报告;C、备用节点实时检测系统硬件故障并输出故障报告;D、对故障进行识别和恢复,本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。
Description
技术领域
本发明涉及计算机系统故障处理技术领域,具体为一种基于软硬件协同的计算机系统故障处理方法。
背景技术
计算机系统由计算机硬件和软件两部分组成。硬件包括中央处理机、存储器和外部设备等;软件是计算机的运行程序和相应的文档。计算机系统具有接收和存储信息、按程序快速计算和判断并输出处理结果等功能;计算机系统的特点是能进行精确、快速的计算和判断,而且通用性好,使用容易,还能联成网络。①计算:一切复杂的计算,几乎都可用计算机通过算术运算和逻辑运算来实现。②判断:计算机有判别不同情况、选择作不同处理的能力,故可用于管理、控制、对抗、决策、推理等领域。③存储:计算机能存储巨量信息。④精确:只要字长足够,计算精度理论上不受限制。⑤快速:计算机一次操作所需时间已小到以纳秒计。⑥通用:计算机是可编程的,不同程序可实现不同的应用。⑦易用:丰富的高性能软件及智能化的人-机接口,大大方便了使用。⑧联网:多个计算机系统能超越地理界限,借助通信网络,共享远程信息与软件资源。
计算机系统的可用性是评价一个计算机系统稳定可靠的指标,其通常通过平均无故障时间来进行度量。平均无故障时间越长,则该计算机系统的可用性就越高。影响计算机系统可用性的因素既有软件方面也有硬件方面。软件故障通常指计算机系统的程序或软件因为某种因素破坏导致无法正常工作或影响正常使用,软件故障的影响域一般为软件自身以及依赖于此软件的其它软件或程序。硬件故障通常指计算机系统的物理硬件因为某种因素破坏导致无法正常工作或影响正常使用,硬件故障对计算机系统影响较大,严重时会导致系统宕机。
现有技术的计算机系统对于硬件故障的检测依赖于硬件驱动程序,而对于软件故障,通常采用定时轮询机制完成服务状态检测。完成故障检测后,立即按照驱动或程序默认策略进行故障处理,并记录各自的处理日志,现有的计算机系统故障处理缺乏软硬件故障统一管理,处理效率低。
发明内容
本发明的目的在于提供一种基于软硬件协同的计算机系统故障处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告口志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
优选的,所述步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。
优选的,所述步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。。
优选的,所述步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出。
与现有技术相比,本发明的有益效果是:本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,处理效率高,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告日志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
本实施例中,步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。当数据流的控制链路某环节出现异常时,相关的两组控制逻辑无法同步,造成该两组控制逻辑失效,并最终影响整个数据流链路的同步,直至前端控制逻辑与处理器的同步逻辑失效,引发处理器等待超时异常或使能设备错误中断,对没有总线等待状态接口的处理器通过中断或错误标志通知处理器,并通过管理软件的异常处理实施故障的恢复。
本实施例中,步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。
本实施例中,步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出;采用预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,能够提升对硬件故障的预警、快速发现能力,提高硬件故障发现的及时性和效率。
本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,处理效率高,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于软硬件协同的计算机系统故障处理方法,其特征在于:包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告日志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
2.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。
3.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。
4.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710020286.3A CN106815114A (zh) | 2017-01-12 | 2017-01-12 | 一种基于软硬件协同的计算机系统故障处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710020286.3A CN106815114A (zh) | 2017-01-12 | 2017-01-12 | 一种基于软硬件协同的计算机系统故障处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106815114A true CN106815114A (zh) | 2017-06-09 |
Family
ID=59109632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710020286.3A Pending CN106815114A (zh) | 2017-01-12 | 2017-01-12 | 一种基于软硬件协同的计算机系统故障处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815114A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0570505A4 (en) * | 1991-02-05 | 1996-06-26 | Storage Technology Corp | Knowledge based machine initiated maintenance system |
CN101833497A (zh) * | 2010-03-30 | 2010-09-15 | 山东高效能服务器和存储研究院 | 一种基于专家系统方法的计算机故障管理系统 |
CN103995759A (zh) * | 2014-05-21 | 2014-08-20 | 中国人民解放军国防科学技术大学 | 基于核内外协同的高可用计算机系统故障处理方法及装置 |
CN104050051A (zh) * | 2014-06-27 | 2014-09-17 | 上海航天电子通讯设备研究所 | 一种星载计算机的故障诊断方法 |
CN105183593A (zh) * | 2015-07-29 | 2015-12-23 | 山东超越数控电子有限公司 | 一种基于国产计算机自检测的系统及方法 |
-
2017
- 2017-01-12 CN CN201710020286.3A patent/CN106815114A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0570505A4 (en) * | 1991-02-05 | 1996-06-26 | Storage Technology Corp | Knowledge based machine initiated maintenance system |
CN101833497A (zh) * | 2010-03-30 | 2010-09-15 | 山东高效能服务器和存储研究院 | 一种基于专家系统方法的计算机故障管理系统 |
CN103995759A (zh) * | 2014-05-21 | 2014-08-20 | 中国人民解放军国防科学技术大学 | 基于核内外协同的高可用计算机系统故障处理方法及装置 |
CN104050051A (zh) * | 2014-06-27 | 2014-09-17 | 上海航天电子通讯设备研究所 | 一种星载计算机的故障诊断方法 |
CN105183593A (zh) * | 2015-07-29 | 2015-12-23 | 山东超越数控电子有限公司 | 一种基于国产计算机自检测的系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110493042B (zh) | 故障诊断方法、装置及服务器 | |
CN105187249B (zh) | 一种故障恢复方法及装置 | |
CN103220173B (zh) | 一种报警监控方法及监控系统 | |
WO2015090098A1 (zh) | 一种实现故障定位的方法及装置 | |
US20030115508A1 (en) | System and method for collecting statistics for a communication network | |
CN102088363B (zh) | 告警处理方法和系统 | |
CN101247283B (zh) | 网络设备掉电的检测方法和系统 | |
CN107204875B (zh) | 数据上报链路监测方法、装置、电子设备及存储介质 | |
CN106487612A (zh) | 一种服务器节点监控方法、监控服务器及系统 | |
CN115118581B (zh) | 一种基于5g的物联网数据全链路监控和智能保障系统 | |
CN112699007A (zh) | 监控机器性能的方法、系统、网络设备及存储介质 | |
CN104104542B (zh) | 一种基于rs485的实时智能排障方法 | |
WO2014169869A1 (zh) | 一种告警处理的方法及告警系统 | |
CN106452941A (zh) | 网络异常的检测方法及装置 | |
CN103246585A (zh) | 一种存储控制器故障检测方法 | |
CN106100918A (zh) | 一种基于ems系统的变电站数据不刷新检测方法 | |
CN104753712A (zh) | 一种告警上报方法、告警上报节点及告警上报系统 | |
US8521869B2 (en) | Method and system for reporting defects within a network | |
CN102195791A (zh) | 一种告警的分析方法、装置及系统 | |
CN102281167A (zh) | 网络设备掉电的检测方法和系统 | |
CN103905271B (zh) | 一种告警风暴抑制方法 | |
CN108171265A (zh) | 一种标签获得方法、装置及电子设备 | |
CN108449212B (zh) | 基于事件关联的mas消息传递方法 | |
CN106815114A (zh) | 一种基于软硬件协同的计算机系统故障处理方法 | |
CN105224426A (zh) | 物理主机故障检测方法、装置及虚机管理方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170609 |
|
RJ01 | Rejection of invention patent application after publication |