CN103605581A - 一种分布式计算机系统故障处理流程 - Google Patents

一种分布式计算机系统故障处理流程 Download PDF

Info

Publication number
CN103605581A
CN103605581A CN201310638727.8A CN201310638727A CN103605581A CN 103605581 A CN103605581 A CN 103605581A CN 201310638727 A CN201310638727 A CN 201310638727A CN 103605581 A CN103605581 A CN 103605581A
Authority
CN
China
Prior art keywords
fault
level
malfunctions
computer system
distributed computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310638727.8A
Other languages
English (en)
Other versions
CN103605581B (zh
Inventor
李成文
牛文生
孙靖国
李鹏
王明
何小亚
刘宇
余松涛
陈国�
湛文韬
高杨
杨涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVIC No 631 Research Institute
Original Assignee
AVIC No 631 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVIC No 631 Research Institute filed Critical AVIC No 631 Research Institute
Priority to CN201310638727.8A priority Critical patent/CN103605581B/zh
Publication of CN103605581A publication Critical patent/CN103605581A/zh
Application granted granted Critical
Publication of CN103605581B publication Critical patent/CN103605581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种分布式计算机系统故障处理流程,主要用于对分布计算机系统的故障分级别进行处理,不同级别不同故障类型采取相应处理措施,保证系统故障全面有效地处理,提高系统运行可靠性。该分布式计算机系统故障处理流程包括:1]对分布式计算机系统的故障进行分类;2]系统发生故障后由系统故障检测机制进行检测,过滤较小故障,处理其他故障,无法处理的故障则发送上级处理,严重故障人工处理。本发明分级别进行故障处理,可以降低故障处理复杂度,保证各种故障能够得到有效地处理,保证高优先级的任务能够可靠运行。

Description

一种分布式计算机系统故障处理流程
技术领域
本发明涉及一种分布式计算机系统故障处理流程,属于嵌入式计算机系统设计技术领域。
背景技术
分布式计算机系统是采用统一标准模块、统一数据通讯网络、多层次的软硬件结构,是一种十分复杂而可靠性要求很高的计算机系统。这种复杂计算机系统故障出现情况也是十分复杂,因此需要设计一种故障处理流程全面有效地处理各种各样的故障,即使系统出现了故障也能保证系统任务可靠运行或保证系统高优先级任务运行。
发明内容
本发明提供一种分布式计算机系统故障处理流程,主要用于对分布计算机系统的故障分级别进行处理,不同级别不同故障类型采取相应处理措施,保证系统故障全面有效地处理,提高系统运行可靠性。
本发明的具体技术解决方案如下:
该分布式计算机系统故障处理流程包括以下步骤:
1]对分布式计算机系统的故障按照进程级、分区级、模块级、系统级四个层次级别进行分类;
2]系统发生故障后由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,若是瞬时故障或影响很小的故障则忽略掉,否则把确认了的故障交给故障管理FM进行分类别处理;本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。
上述分类别处理具体是:
2.1]进程级故障处理:对分区内的任务故障由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构;
2.2]分区级故障处理:由健康管理监控服务进行处理,或报告给模块级处理;
2.3]模块级故障处理:由系统容错重构机制处理,实现故障模块的隔离;
2.4]系统级故障处理:由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障由人工干预;
上述步骤1中进程级故障包括:软截至期失败、硬截止期失效、应用错误、数值错误、非法请求、栈溢出、存储器违规、APEX内部错和PORT内部错。
上述步骤1中分区级故障包括:分区溢出、分区模式设置错和系统时钟丢失。
上述步骤1中模块级故障包括:硬件故障、电源失败和内核错误。
上述步骤1中系统级故障包括:配置错误、初始化错、生命消息错误、SMBP错、SMOS错和CM报告的远程模块错误。
本发明的优点是:
1)整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障处理,可以降低故障处理复杂度;
2)本级健康监控服务不能处理的故障则报上一级的健康监控服务进行处理,保证各种故障能够得到有效地处理;
3)顶层不能处理故障,则依据系统配置进行系统重构,保证高优先级的任务能够可靠运行。
附图说明
图1为本发明分布式计算机系统故障处理流程图。
具体实施方式
本发明提供一种故障处理流程,按照进程级、分区级、模块级、系统级四个层次级别的故障分别进行处理。各级故障被诊断确认后由操作系统的健康监控服务根据错误代码调相应的错误处理程序进行处理。如果本级健康监控服务不能处理的故障则报上一级的健康监控服务进行处理,到了系统层仍然不能处理的故障则根据系统配置进行系统重构,对不能处理的故障进行隔离,保证高优先级的任务能够可靠运行。
如图1所示,分布式计算机系统故障处理流程具体实施方式如下:
a.对分布式计算机系统各种各样的故障进行分类,按照进程级、分区级、模块级、系统级四个层次级别的设计故障处理程序,不同级别不同类别故障处理措施表1;
b.进程级故障处理,对分区内的任务故障,由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构;
c.分区级故障处理,由健康管理监控服务进行处理,也可报告给模块级处理;
d.模块级故障处理,由系统容错重构机制处理,可实现故障模块的隔离;
e.系统级故障处理,是最顶级的故障处理,由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障可以由飞行员干预;
f.各级故障出现后,由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,如果是瞬时故障或影响很小的故障则忽略掉,否则把确认了的故障交给故障管理FM进行分类别处理。本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。
表1故障分级别分类别处理措施
Figure BDA0000426079960000031
Figure BDA0000426079960000041

Claims (6)

1.一种分布式计算机系统故障处理流程,其特征在于,包括以下步骤: 
1]对分布式计算机系统的故障按照进程级、分区级、模块级、系统级四个层次级别进行分类; 
2]系统发生故障后由系统故障检测机制进行检测,将检测到的故障报给操作系统的健康监控HM服务,健康监控HM服务对故障进行过滤,若是瞬时故障或影响较小的故障则直接忽略,否则把确认后的故障交给故障管理FM进行分类别处理;本级别处理不了的故障上报上一级健康监控HM服务处理,顶层故障交给系统配置管理CM进行处理。 
2.根据权利要求1所述的分布式计算机系统故障处理流程,其特征在于:所述步骤2中故障管理FM进行分类别处理具体是: 
2.1]进程级故障处理:对分区内的任务故障由分区内的故障处理程序直接处理,以进程为单位实现进程的恢复、隔离或重构; 
2.2]分区级故障处理:由健康管理监控服务进行处理,或报告给模块级处理; 
2.3]模块级故障处理:由系统容错重构机制处理,实现故障模块的隔离; 
2.4]系统级故障处理:由系统定义的容错重构机制处理,重构策略在蓝图中事先已定义好,根据影响范围大小,非常严重故障由人工干预。
3.根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中进程级故障包括:软截至期失败、硬截止期失效、应用错误、数值错误、非法请求、栈溢出、存储器违规、APEX内部错和PORT内部错。 
4.根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中分区级故障包括:分区溢出、分区模式设置错和系统时钟丢失。 
5.根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中模块级故障包括:硬件故障、电源失败和内核错误。 
6.根据权利要求1或2所述的分布式计算机系统故障处理流程,其特征在于:所述步骤1中系统级故障包括:配置错误、初始化错、生命消息错误、 SMBP错、SMOS错和CM报告的远程模块错误。 
CN201310638727.8A 2013-11-29 2013-11-29 一种分布式计算机系统故障处理流程 Active CN103605581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310638727.8A CN103605581B (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障处理流程

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310638727.8A CN103605581B (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障处理流程

Publications (2)

Publication Number Publication Date
CN103605581A true CN103605581A (zh) 2014-02-26
CN103605581B CN103605581B (zh) 2015-08-19

Family

ID=50123810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310638727.8A Active CN103605581B (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障处理流程

Country Status (1)

Country Link
CN (1) CN103605581B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095007A (zh) * 2015-08-21 2015-11-25 上海联影医疗科技有限公司 硬件设备错误的处理方法及系统
CN106293986A (zh) * 2016-08-12 2017-01-04 中国航空工业集团公司西安飞行自动控制研究所 一种基于虚拟中断的故障监控处理装置与方法
CN106528276A (zh) * 2015-09-10 2017-03-22 中国航空工业第六八研究所 一种基于任务调度的故障处理方法
CN106874136A (zh) * 2017-02-22 2017-06-20 郑州云海信息技术有限公司 一种存储系统的故障处理方法及装置
CN106918803A (zh) * 2015-12-28 2017-07-04 中国航空工业集团公司雷华电子技术研究所 一种机载气象雷达视频处理方法
WO2020105774A1 (ko) * 2018-11-23 2020-05-28 주식회사 알티스트 멀티플 모듈 스케줄링 장치 및 시스템
CN111367769A (zh) * 2020-03-30 2020-07-03 浙江大华技术股份有限公司 应用故障处理方法及电子设备
CN112379977A (zh) * 2020-07-10 2021-02-19 中国航空工业集团公司西安飞行自动控制研究所 一种基于时间触发的任务级故障处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178397A1 (en) * 2001-05-23 2002-11-28 Hitoshi Ueno System for managing layered network
CN102592011A (zh) * 2011-12-30 2012-07-18 清华大学 基于随机Petri网的分层航空操作系统HM/FM建模与评价方法
CN102609345A (zh) * 2010-10-27 2012-07-25 霍尼韦尔国际公司 用于确定健康监视系统的错误可诊断性的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020178397A1 (en) * 2001-05-23 2002-11-28 Hitoshi Ueno System for managing layered network
CN102609345A (zh) * 2010-10-27 2012-07-25 霍尼韦尔国际公司 用于确定健康监视系统的错误可诊断性的系统和方法
CN102592011A (zh) * 2011-12-30 2012-07-18 清华大学 基于随机Petri网的分层航空操作系统HM/FM建模与评价方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095007A (zh) * 2015-08-21 2015-11-25 上海联影医疗科技有限公司 硬件设备错误的处理方法及系统
CN106528276A (zh) * 2015-09-10 2017-03-22 中国航空工业第六八研究所 一种基于任务调度的故障处理方法
CN106528276B (zh) * 2015-09-10 2019-08-02 中国航空工业第六一八研究所 一种基于任务调度的故障处理方法
CN106918803A (zh) * 2015-12-28 2017-07-04 中国航空工业集团公司雷华电子技术研究所 一种机载气象雷达视频处理方法
CN106918803B (zh) * 2015-12-28 2020-07-03 中国航空工业集团公司雷华电子技术研究所 一种机载气象雷达视频处理方法
CN106293986A (zh) * 2016-08-12 2017-01-04 中国航空工业集团公司西安飞行自动控制研究所 一种基于虚拟中断的故障监控处理装置与方法
CN106293986B (zh) * 2016-08-12 2019-01-25 中国航空工业集团公司西安飞行自动控制研究所 一种基于虚拟中断的故障监控处理装置与方法
CN106874136A (zh) * 2017-02-22 2017-06-20 郑州云海信息技术有限公司 一种存储系统的故障处理方法及装置
WO2020105774A1 (ko) * 2018-11-23 2020-05-28 주식회사 알티스트 멀티플 모듈 스케줄링 장치 및 시스템
CN111367769A (zh) * 2020-03-30 2020-07-03 浙江大华技术股份有限公司 应用故障处理方法及电子设备
CN112379977A (zh) * 2020-07-10 2021-02-19 中国航空工业集团公司西安飞行自动控制研究所 一种基于时间触发的任务级故障处理方法

Also Published As

Publication number Publication date
CN103605581B (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN103605581A (zh) 一种分布式计算机系统故障处理流程
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN104360868A (zh) 一种大型飞机综合处理平台中的多级故障管理方法
CN110798375A (zh) 一种增强容器集群高可用性的监控方法、系统及终端设备
CN107239383A (zh) 一种OpenStack虚拟机的故障监控方法及装置
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN103544092A (zh) 一种基于arinc653标准机载电子设备健康监控体系
CN106452846A (zh) 故障处理方法、虚拟架构管理系统和业务管理系统
CN102662788A (zh) 一种计算机系统故障诊断决策及处理方法
CN104133734A (zh) 分布式综合模块化航空电子系统混合式动态重构系统与方法
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
US11182232B2 (en) Detecting and recovering from fatal storage errors
US9002541B2 (en) Method, device, and computer redable media for automatic management of configuration and reconfiguration of a plurality of systems of an aircraft
CN105009086B (zh) 一种实现处理器切换的方法、计算机和切换装置
CN106875018B (zh) 一种超大规模机器自动化维修的方法和装置
CN107291589A (zh) 在机器人操作系统中提升系统可靠性的方法
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN106528276B (zh) 一种基于任务调度的故障处理方法
CN103926885B (zh) 集中装置、方法、计算机可读介质和飞行器
CN104158843A (zh) 分布式文件存储系统的存储单元失效检测方法及装置
US9798608B2 (en) Recovery program using diagnostic results
CN103605580A (zh) 一种分布式计算机系统容错体系结构
CN103605593A (zh) 异构系统的故障诊断、恢复方法及装置
CN104503858B (zh) 基于lrm位置识别的系统配置方法及配置系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant