CN103605592A - 一种分布式计算机系统故障检测机制 - Google Patents

一种分布式计算机系统故障检测机制 Download PDF

Info

Publication number
CN103605592A
CN103605592A CN201310638110.6A CN201310638110A CN103605592A CN 103605592 A CN103605592 A CN 103605592A CN 201310638110 A CN201310638110 A CN 201310638110A CN 103605592 A CN103605592 A CN 103605592A
Authority
CN
China
Prior art keywords
health monitoring
level
fault
fault detection
subregion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310638110.6A
Other languages
English (en)
Inventor
李成文
张亚棣
王卫东
韩强
韩嫚莉
王纯委
何立军
刘宇
何小亚
杨涛
范超
张彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVIC No 631 Research Institute
Original Assignee
AVIC No 631 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVIC No 631 Research Institute filed Critical AVIC No 631 Research Institute
Priority to CN201310638110.6A priority Critical patent/CN103605592A/zh
Publication of CN103605592A publication Critical patent/CN103605592A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种分布式计算机系统故障检测机制,用于对分布计算机系统的健康状况进行监测,一旦出现故障或错误,故障检测机制能立即发现,并向操作系统的健康监控服务报告故障,保证系统故障及时被发现处理,提高系统运行可靠性。整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障检测,可以降低故障检测复杂度;故障检测程序分布在系统的各个地方,以被动和主动方式进行检测,提高系统故障检测速率和故障检测覆盖率;故障检测信息报给健康监控服务集中管理。

Description

一种分布式计算机系统故障检测机制
技术领域
本发明涉及一种分布式计算机系统故障检测机制,属于嵌入式计算机系统设计技术领域。
背景技术
分布式计算机系统是采用统一标准模块、统一数据通讯网络、多层次的软硬件结构,是一种十分复杂而可靠性要求很高的计算机系统。这种复杂计算机系统故障定位率及定位速率是影响故障覆盖率的重要因素,因此分布式计算机需要设计一种系统故障检测机制一直监测着系统的健康状况,及时有效地发现各种各样的故障。
发明内容
本发明提供一种分布式计算机系统故障检测机制,用于对分布计算机系统的健康状况进行监测,一旦出现故障或错误,故障检测机制能立即发现,并向操作系统的健康监控服务报告故障,保证系统故障及时被发现处理,提高系统运行可靠性。
本发明的具体技术解决方案如下:
该分布式计算机系统故障检测机制,包括以下步骤:
1]按照进程级、分区级、模块级、系统级四个层次级别对分布式计算机系统的故障进行分类,设定进程级故障检测程序、分区级故障检测程序、模块级故障检测程序、系统级故障检测程序和对应的健康监控表;
2]上述步骤1中的四种故障检测程序通过操作系统的健康监控服务OS-HM收集故障信息,OS-HM依据故障代码调度故障处理服务程序,同时给通用管理系统的健康监控HM进程记录故障诊断信息。
上述步骤1中进程级故障检测程序具体是由进程健康监控进程通过信号机制向操作系统的健康监控服务OS-HM报告检测故障。
上述步骤1中分区级故障检测程序级包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障;分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
上述分区级故障检测程序包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
上述系统级故障检测程序包括故障管理FM、配置管理CM、健康管理HM的故障检测,由通用管理系统GSM依据系统健康监控表针对系统级故障进行检测,系统根据错误代码和错误事件发生时的系统状态级别查寻系统健康监控表,获得错误事件的派遣级别,据此级别派遣到不同的健康监控任务。
本发明的优点是:
1)整个系统故障按照进程级、分区级、模块级、系统级四个层次级别进行故障检测,可以降低故障检测复杂度;
2)故障检测程序分布在系统的各个地方,以被动和主动方式进行检测,提高系统故障检测速率和故障检测覆盖率;
3)故障检测信息报给健康监控服务集中管理。
附图说明
图1为分布式计算机系统故障检测机制原理图。
具体实施方式
该分布式计算机系统故障检测机制的原理是按照进程级、分区级、模块级、系统级四个层次级别的故障分被动和主动方式进行检测。被动方式故障检测是由系统中发生的故障触发了故障检测程序的执行程序代码,而主动方式的故障检测的是由故障检测程序主动检测到故障的发生。故障检测程序分布在系统的各个地方,一旦出现一个故障或错误,故障检测程序能立即发现,并向操作系统的健康监控服务报告故障。然后由操作系统的健康监控服务负责通知通用管理系统的健康监控进程,同时操作系统的健康监控服务也要给通用管理系统的健康监控进程提供故障诊断信息。
如图1所示,分布式计算机系统故障检测机制具体实施方式如下:
a.对分布式计算机系统各种各样的故障进行分类,按照进程级、分区级、模块级、系统级四个层次级别的设计故障检测程序和故障监控表;
b.进程级故障检测,由进程健康监控进程通过信号机制向操作系统的健康监控服务OS-HM报告检测故障;
c.分区级包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口;
d.模块级故障检测,由模块故障检测程序依据模块健康监控表针对模块级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。模块健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口;
e.系统级包括故障管理FM、配置管理CM、健康管理HM的故障检测,由通用管理系统GSM依据系统健康监控表针对系统级故障进行检测,系统根据错误代码和错误事件发生时的系统状态级别查系统健康监控表,获得错误事件的派遣级别,据此级别派遣到不同的健康监控任务;
f.各级别的故障检测程序通过操作系统的健康监控服务OS-HM收集故障信息,OS-HM依据故障代码调度故障处理服务程序,同时要给通用管理系统的健康监控HM进程记录故障诊断信息。
结合图1来看,系统层上的CM检测到远程资源故障/错误后可直接报告给HM,各层上的故障检测程序(FDM)用于向OS-HM报告故障/错误。

Claims (5)

1.一种分布式计算机系统故障检测机制,其特征在于,包括以下步骤:
1]按照进程级、分区级、模块级、系统级四个层次级别对分布式计算机系统的故障进行分类,设定进程级故障检测程序、分区级故障检测程序、模块级故障检测程序、系统级故障检测程序和对应的健康监控表;
2]上述步骤1中的四种故障检测程序通过操作系统的健康监控服务OS-HM收集故障信息,OS-HM依据故障代码调度故障处理服务程序,同时给通用管理系统的健康监控HM进程记录故障诊断信息。
2.根据权利要求1所述的分布式计算机系统故障检测机制,其特征在:所述步骤1中进程级故障检测程序具体是由进程健康监控进程通过信号机制向操作系统的健康监控服务OS-HM报告检测故障。
3.根据权利要求1所述的分布式计算机系统故障检测机制,其特征在:所述步骤1中分区级故障检测程序级包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障;分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
4.根据权利要求1所述的分布式计算机系统故障检测机制,其特征在:所述分区级故障检测程序包括应用APP分区和系统管理AM分区的故障检测,由分区故障检测程序依据分区健康监控表针对分区级故障进行检测,向操作系统的健康监控服务OS-HM报告检测故障。分区健康监控表定义错误代码、错误事件发生时的系统状态以及错误处理程序入口。
5.根据权利要求1所述的分布式计算机系统故障检测机制,其特征在:所述系统级故障检测程序包括故障管理FM、配置管理CM、健康管理HM的故障检测,由通用管理系统GSM依据系统健康监控表针对系统级故障进行检测,系统根据错误代码和错误事件发生时的系统状态级别查寻系统健康监控表,获得错误事件的派遣级别,据此级别派遣到不同的健康监控任务。
CN201310638110.6A 2013-11-29 2013-11-29 一种分布式计算机系统故障检测机制 Pending CN103605592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310638110.6A CN103605592A (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障检测机制

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310638110.6A CN103605592A (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障检测机制

Publications (1)

Publication Number Publication Date
CN103605592A true CN103605592A (zh) 2014-02-26

Family

ID=50123821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310638110.6A Pending CN103605592A (zh) 2013-11-29 2013-11-29 一种分布式计算机系统故障检测机制

Country Status (1)

Country Link
CN (1) CN103605592A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557398A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 信息上报方法和装置
CN107291584A (zh) * 2017-06-27 2017-10-24 郑州云海信息技术有限公司 一种机箱故障检测方法及系统
CN108345797A (zh) * 2017-08-03 2018-07-31 清华大学无锡应用技术研究院 处理器的检测方法、检测装置以及检测系统
CN109428779A (zh) * 2017-08-29 2019-03-05 武汉安天信息技术有限责任公司 一种分布式业务的监控告警方法及装置
WO2020105774A1 (ko) * 2018-11-23 2020-05-28 주식회사 알티스트 멀티플 모듈 스케줄링 장치 및 시스템
CN112115022A (zh) * 2020-08-27 2020-12-22 北京航空航天大学 基于aadl的ima系统健康监控的测试方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845120A (zh) * 2006-05-16 2006-10-11 北京启明星辰信息技术有限公司 一种恶意代码自动分析系统及方法
CN101068168A (zh) * 2007-04-23 2007-11-07 北京启明星辰信息技术有限公司 主机入侵检测方法及系统
US7831326B2 (en) * 2007-05-04 2010-11-09 Applied Materials, Inc. Graphical user interface for presenting multivariate fault contributions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845120A (zh) * 2006-05-16 2006-10-11 北京启明星辰信息技术有限公司 一种恶意代码自动分析系统及方法
CN101068168A (zh) * 2007-04-23 2007-11-07 北京启明星辰信息技术有限公司 主机入侵检测方法及系统
US7831326B2 (en) * 2007-05-04 2010-11-09 Applied Materials, Inc. Graphical user interface for presenting multivariate fault contributions

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晓红和孙高翔: "实时操作系统中健康监控技术研究", 《航空计算技术》 *
王和平: "分布式系统中的故障处理", 《计算机工程与设计》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557398A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 信息上报方法和装置
CN106557398B (zh) * 2015-09-29 2021-05-28 腾讯科技(深圳)有限公司 信息上报方法和装置
CN107291584A (zh) * 2017-06-27 2017-10-24 郑州云海信息技术有限公司 一种机箱故障检测方法及系统
CN108345797A (zh) * 2017-08-03 2018-07-31 清华大学无锡应用技术研究院 处理器的检测方法、检测装置以及检测系统
CN108345797B (zh) * 2017-08-03 2019-03-12 清华大学无锡应用技术研究院 处理器的检测方法、检测装置以及检测系统
CN109428779A (zh) * 2017-08-29 2019-03-05 武汉安天信息技术有限责任公司 一种分布式业务的监控告警方法及装置
WO2020105774A1 (ko) * 2018-11-23 2020-05-28 주식회사 알티스트 멀티플 모듈 스케줄링 장치 및 시스템
CN112115022A (zh) * 2020-08-27 2020-12-22 北京航空航天大学 基于aadl的ima系统健康监控的测试方法

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN103605592A (zh) 一种分布式计算机系统故障检测机制
CN101800675B (zh) 故障监控方法、监控设备及通信系统
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
CN104639380B (zh) 服务器监控方法
US10097572B1 (en) Security for network computing environment based on power consumption of network devices
CN103490917B (zh) 故障处理情况的检测方法及装置
US20210397497A1 (en) Intelligent network operation platform for network fault mitigation
CN105323113A (zh) 一种基于可视化技术的系统故障应急处置系统及方法
CN104065526B (zh) 一种服务器故障报警的方法和装置
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN103905255A (zh) 服务器内部硬件运行故障远程自动告警系统及方法
CN102291275A (zh) 一种服务器集群监控技术及方法
CN103490919A (zh) 故障管理系统和故障管理方法
CN103067209A (zh) 一种心跳模块自检测方法
CN103605581A (zh) 一种分布式计算机系统故障处理流程
CN101631048A (zh) 一种监视被管理对象的方法、装置及系统
CN104044969A (zh) 电梯故障预警方法和系统
CN102684936A (zh) 用于监测服务器的运行状态的方法、设备和系统
WO2021114971A1 (zh) 一种检测基于多层架构的应用系统是否正常运行的方法
CN104076808A (zh) 工控设备的故障诊断系统和方法
CN103178994A (zh) 自动检测多台服务器的方法
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN103761157A (zh) 一种基于多任务巡检策略实现系统容错机制的方法
CN110445647A (zh) 一种物联网数据诊断及纠错方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140226