CN106815114A - 一种基于软硬件协同的计算机系统故障处理方法 - Google Patents

一种基于软硬件协同的计算机系统故障处理方法 Download PDF

Info

Publication number
CN106815114A
CN106815114A CN201710020286.3A CN201710020286A CN106815114A CN 106815114 A CN106815114 A CN 106815114A CN 201710020286 A CN201710020286 A CN 201710020286A CN 106815114 A CN106815114 A CN 106815114A
Authority
CN
China
Prior art keywords
hardware
fault
failure
computer system
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710020286.3A
Other languages
English (en)
Inventor
温乃宁
史晓楠
贾鹏涛
李占利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Science and Technology
Original Assignee
Xian University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Science and Technology filed Critical Xian University of Science and Technology
Priority to CN201710020286.3A priority Critical patent/CN106815114A/zh
Publication of CN106815114A publication Critical patent/CN106815114A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring

Abstract

本发明公开了一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:A、选取计算机系统中至少两个节点作为计算机系统的管理节点;B、主节点实时检测系统服务故障和应用服务故障并输出故障报告;C、备用节点实时检测系统硬件故障并输出故障报告;D、对故障进行识别和恢复,本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。

Description

一种基于软硬件协同的计算机系统故障处理方法
技术领域
本发明涉及计算机系统故障处理技术领域,具体为一种基于软硬件协同的计算机系统故障处理方法。
背景技术
计算机系统由计算机硬件和软件两部分组成。硬件包括中央处理机、存储器和外部设备等;软件是计算机的运行程序和相应的文档。计算机系统具有接收和存储信息、按程序快速计算和判断并输出处理结果等功能;计算机系统的特点是能进行精确、快速的计算和判断,而且通用性好,使用容易,还能联成网络。①计算:一切复杂的计算,几乎都可用计算机通过算术运算和逻辑运算来实现。②判断:计算机有判别不同情况、选择作不同处理的能力,故可用于管理、控制、对抗、决策、推理等领域。③存储:计算机能存储巨量信息。④精确:只要字长足够,计算精度理论上不受限制。⑤快速:计算机一次操作所需时间已小到以纳秒计。⑥通用:计算机是可编程的,不同程序可实现不同的应用。⑦易用:丰富的高性能软件及智能化的人-机接口,大大方便了使用。⑧联网:多个计算机系统能超越地理界限,借助通信网络,共享远程信息与软件资源。
计算机系统的可用性是评价一个计算机系统稳定可靠的指标,其通常通过平均无故障时间来进行度量。平均无故障时间越长,则该计算机系统的可用性就越高。影响计算机系统可用性的因素既有软件方面也有硬件方面。软件故障通常指计算机系统的程序或软件因为某种因素破坏导致无法正常工作或影响正常使用,软件故障的影响域一般为软件自身以及依赖于此软件的其它软件或程序。硬件故障通常指计算机系统的物理硬件因为某种因素破坏导致无法正常工作或影响正常使用,硬件故障对计算机系统影响较大,严重时会导致系统宕机。
现有技术的计算机系统对于硬件故障的检测依赖于硬件驱动程序,而对于软件故障,通常采用定时轮询机制完成服务状态检测。完成故障检测后,立即按照驱动或程序默认策略进行故障处理,并记录各自的处理日志,现有的计算机系统故障处理缺乏软硬件故障统一管理,处理效率低。
发明内容
本发明的目的在于提供一种基于软硬件协同的计算机系统故障处理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告口志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
优选的,所述步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。
优选的,所述步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。。
优选的,所述步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出。
与现有技术相比,本发明的有益效果是:本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,处理效率高,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于软硬件协同的计算机系统故障处理方法,包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告日志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
本实施例中,步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。当数据流的控制链路某环节出现异常时,相关的两组控制逻辑无法同步,造成该两组控制逻辑失效,并最终影响整个数据流链路的同步,直至前端控制逻辑与处理器的同步逻辑失效,引发处理器等待超时异常或使能设备错误中断,对没有总线等待状态接口的处理器通过中断或错误标志通知处理器,并通过管理软件的异常处理实施故障的恢复。
本实施例中,步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。
本实施例中,步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出;采用预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,能够提升对硬件故障的预警、快速发现能力,提高硬件故障发现的及时性和效率。
本发明的计算机系统故障处理方法简单,能够对计算机系统故障进行快速检测,处理效率高,故障处理规则扩展方便、能够保证计算机系统在软件故障或硬件故障下高可用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于软硬件协同的计算机系统故障处理方法,其特征在于:包括以下步骤:
A、选取计算机系统中至少两个节点作为计算机系统的管理节点,其中一个作为主节点,其余作为备用节点;
B、主节点实时检测系统服务故障和应用服务故障并生成故障报告日志,并通过故障报告接口输出故障报告;
C、备用节点实时检测系统硬件故障并生成故障报告日志,并通过故障报告接口输出故障报告;
D、对故障进行识别和恢复。
2.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤D中故障识别和恢复方法包括以下步骤:采用控制流、数据流的同步状态反馈方式,以总线访问的等待信号、错误信号以及中断信号三种触发方式中断处理器当前运行流程,并根据事件驱动源、反馈信息进行故障识别和恢复。
3.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤B中系统服务故障和应用服务故障检测方法包括以下步骤:
A、创建至少一组故障计数器,并设置故障计数器的计数增加值、减少值、门限值;
B、同一故障在一个检测周期内每出现一次,故障计数器即进行一次计数,当故障计数器的累积值达到门限值时,确认故障并记录。
4.根据权利要求1所述的一种基于软硬件协同的计算机系统故障处理方法,其特征在于:所述步骤C中系统硬件故障检测方法包括以下步骤:通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据;将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列;对故障消息队列进行调度分发并输出。
CN201710020286.3A 2017-01-12 2017-01-12 一种基于软硬件协同的计算机系统故障处理方法 Pending CN106815114A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710020286.3A CN106815114A (zh) 2017-01-12 2017-01-12 一种基于软硬件协同的计算机系统故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710020286.3A CN106815114A (zh) 2017-01-12 2017-01-12 一种基于软硬件协同的计算机系统故障处理方法

Publications (1)

Publication Number Publication Date
CN106815114A true CN106815114A (zh) 2017-06-09

Family

ID=59109632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710020286.3A Pending CN106815114A (zh) 2017-01-12 2017-01-12 一种基于软硬件协同的计算机系统故障处理方法

Country Status (1)

Country Link
CN (1) CN106815114A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0570505A4 (en) * 1991-02-05 1996-06-26 Storage Technology Corp Knowledge based machine initiated maintenance system
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN103995759A (zh) * 2014-05-21 2014-08-20 中国人民解放军国防科学技术大学 基于核内外协同的高可用计算机系统故障处理方法及装置
CN104050051A (zh) * 2014-06-27 2014-09-17 上海航天电子通讯设备研究所 一种星载计算机的故障诊断方法
CN105183593A (zh) * 2015-07-29 2015-12-23 山东超越数控电子有限公司 一种基于国产计算机自检测的系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0570505A4 (en) * 1991-02-05 1996-06-26 Storage Technology Corp Knowledge based machine initiated maintenance system
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN103995759A (zh) * 2014-05-21 2014-08-20 中国人民解放军国防科学技术大学 基于核内外协同的高可用计算机系统故障处理方法及装置
CN104050051A (zh) * 2014-06-27 2014-09-17 上海航天电子通讯设备研究所 一种星载计算机的故障诊断方法
CN105183593A (zh) * 2015-07-29 2015-12-23 山东超越数控电子有限公司 一种基于国产计算机自检测的系统及方法

Similar Documents

Publication Publication Date Title
CN110493042B (zh) 故障诊断方法、装置及服务器
CN105187249B (zh) 一种故障恢复方法及装置
CN103220173B (zh) 一种报警监控方法及监控系统
WO2015090098A1 (zh) 一种实现故障定位的方法及装置
US20030115508A1 (en) System and method for collecting statistics for a communication network
CN102088363B (zh) 告警处理方法和系统
CN101247283B (zh) 网络设备掉电的检测方法和系统
CN107204875B (zh) 数据上报链路监测方法、装置、电子设备及存储介质
CN106487612A (zh) 一种服务器节点监控方法、监控服务器及系统
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN104104542B (zh) 一种基于rs485的实时智能排障方法
WO2014169869A1 (zh) 一种告警处理的方法及告警系统
CN106452941A (zh) 网络异常的检测方法及装置
CN103246585A (zh) 一种存储控制器故障检测方法
CN106100918A (zh) 一种基于ems系统的变电站数据不刷新检测方法
CN104753712A (zh) 一种告警上报方法、告警上报节点及告警上报系统
US8521869B2 (en) Method and system for reporting defects within a network
CN102195791A (zh) 一种告警的分析方法、装置及系统
CN102281167A (zh) 网络设备掉电的检测方法和系统
CN103905271B (zh) 一种告警风暴抑制方法
CN108171265A (zh) 一种标签获得方法、装置及电子设备
CN108449212B (zh) 基于事件关联的mas消息传递方法
CN106815114A (zh) 一种基于软硬件协同的计算机系统故障处理方法
CN105224426A (zh) 物理主机故障检测方法、装置及虚机管理方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170609

RJ01 Rejection of invention patent application after publication