CN105630620B - 一种机器故障自动化处理方法 - Google Patents

一种机器故障自动化处理方法 Download PDF

Info

Publication number
CN105630620B
CN105630620B CN201510973293.6A CN201510973293A CN105630620B CN 105630620 B CN105630620 B CN 105630620B CN 201510973293 A CN201510973293 A CN 201510973293A CN 105630620 B CN105630620 B CN 105630620B
Authority
CN
China
Prior art keywords
failure
kernel
module
fault
user space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510973293.6A
Other languages
English (en)
Other versions
CN105630620A (zh
Inventor
常现超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lesilie Science & Technology Development Co ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510973293.6A priority Critical patent/CN105630620B/zh
Publication of CN105630620A publication Critical patent/CN105630620A/zh
Application granted granted Critical
Publication of CN105630620B publication Critical patent/CN105630620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种机器故障自动化处理方法,所述方法通过在操作系统的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。本发明方法使用内核热补丁的方式,将内核产生的故障信息传输得到用户态,并将这些信息集中管理、统计、分析,以及自动化处理,大大减少了故障管理的工作,实现故障管理的自动化,能及时有效的发现并解决故障,保证系统及关键服务的安全、可靠的运行,均具有很高的技术价值。

Description

一种机器故障自动化处理方法
技术领域
本发明涉及计算机故障处理技术领域,具体涉及一种机器故障自动化处理方法。
背景技术
随着计算机技术以及集成电路技术的飞速发展,不论从软件还是硬件,计算机都得到了飞速提升。由于计算机硬件的增加,同时也提高了计算机硬件的故障率,给管理员带来很大的挑战,需要经常的关注机器的健康状态,即便如此也很难做到及时发现故障。机器产生故障时,需要管理员查看大量的系统日志并分析,花费很长时间去修复故障的设备,而且现在有些服务数据量巨大,服务器的集群也是相当大,维护起来相当的费时费力,而且可能严重影响服务的质量。
发明内容
本发明要解决的技术问题是:本发明提供一种机器故障自动化处理方法,能够解决上述问题。
本发明所采用的技术方案为:
一种机器故障自动化处理方法,所述方法通过在操作系统的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。
所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核(如使用kpatch工具就可以实现该功能),很方便在各个机器上使用该方法处理故障。
所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,如自动修复故障,若修复不成功,还可以隔离该故障,以免该故障对系统或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
所述方法当前使用的机器的Linux操作系统支持kpatch,kpatch是内核热补丁(kernel patch)工具,热补丁就是操作系统在运行过程中打入内核补丁。
所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中;
然后利用kpatch工具产生故障补丁模块并加载到操作系统中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;Netlink是Linux系统中内核态和用户态通信的方式;
当故障信息被传送到用户态,对这些信息做统计,制作图表或曲线更直观的观察故障,根据故障的类型及原因做相应的故障处理,如内存错误,可以将故障的内存做离线,避免了故障内存再次被使用,使系统不稳定。
本发明的有益效果为:
本发明方法弥补了人为监控机器健康状态、手动管理故障及分析故障产生原因效率低下、不能及时有效处理而导致机器不能稳定运行的不足,使用内核热补丁的方式,将内核产生的故障信息传输得到用户态,并将这些信息集中管理、统计、分析,以及自动化处理,大大减少了故障管理的工作,实现故障管理的自动化,能及时有效的发现并解决故障,保证系统及关键服务的安全、可靠的运行,均具有很高的技术价值。当机器故障时,无需手动分析大量的内核日志或其他故障日志,而且产生故障时会及时得到通知,或者通过故障统计分析结果自动修复故障,大大缩短了机器故障的修复时间,在机器的维护和故障管理上有很高的技术价值。
附图说明
图1为机器故障自动化处理流程图。
具体实施方式
下面通过说明书附图,结合具体实施方式对本发明进一步说明:
实施例1:
如图1所示,一种机器故障自动化处理方法,所述方法通过在操作系统的内核中打入故障补丁模块,用于收集机器故障信息,如故障的硬件、故障的位置、故障的原因等,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理,如故障修复、故障隔离、故障详细日志、故障通告等操作。
实施例2:
在实施例1的基础上,本实施例所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核(如使用kpatch工具就可以实现该功能),很方便在各个机器上使用该方法处理故障。
实施例3:
在实施例1的基础上,本实施例所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
实施例4:
在实施例1的基础上,本实施例所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,如自动修复故障,若修复不成功,还可以隔离该故障,以免该故障对系统或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
实施例5:
在1-4任一实施例的基础上,本实施例所述方法当前使用的机器的Linux操作系统支持kpatch,kpatch是内核热补丁(kernel patch)工具,热补丁就是操作系统在运行过程中打入内核补丁。
实施例5:
在实施例5的基础上,本实施例所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中,该补丁模块可以根据需求开发;
然后利用kpatch工具产生故障补丁模块并加载到操作系统中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;Netlink是Linux系统中内核态和用户态通信的方式;
当故障信息被传送到用户态,对这些信息做统计,制作图表或曲线更直观的观察故障,根据故障的类型及原因做相应的故障处理,如内存错误,可以将故障的内存做离线,避免了故障内存再次被使用,使系统不稳定。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (6)

1.一种机器故障自动化处理方法,其特征在于:所述方法通过在操作系统的内核中打入故障补丁模块,用于收集机器故障信息,将故障的详细信息封装好通过内核态和用户态的传输通道模块,将收集的故障信息传送到用户态,供故障统计分析模块使用,列出故障分布图表,然后将故障分析结果传送给故障处理模块进行处理。
2.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述故障补丁模块,负责收集内核中产生的机器故障信息,以故障补丁模块的方式向内核中添加代码,不用修改已安装的内核。
3.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述内核态和用户态传输通道模块,通过创建一个用户态和内核态通信的通道,将故障信息安全高效的传输到用户态。
4.根据权利要求1所述的一种机器故障自动化处理方法,其特征在于:所述故障处理模块,根据故障分析的结果,对该故障自动做合理的处理,还可以隔离该故障,以免该故障对系统或者关键服务造成严重的影响,产生严重的后果,同时把故障的处理结果及详细的信息发送给管理员,以确保故障处理是否合理。
5.根据权利要求1-4任一所述的一种机器故障自动化处理方法,其特征在于:当前使用的机器的Linux操作系统支持kpatch。
6.根据权利要求5所述的一种机器故障自动化处理方法,其特征在于,所述方法操作过程如下:
首先将收集故障的补丁模块加载到内核中;
然后利用kpatch工具产生故障补丁模块并加载到操作系统中;
当机器产生故障后补丁模块就会收集到相关故障信息,然后将该信息放入到netlink的通道中,发送到用户态;
当故障信息被传送到用户态,对这些信息做统计,观察故障,根据故障的类型及原因做相应的故障处理。
CN201510973293.6A 2015-12-23 2015-12-23 一种机器故障自动化处理方法 Active CN105630620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510973293.6A CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510973293.6A CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Publications (2)

Publication Number Publication Date
CN105630620A CN105630620A (zh) 2016-06-01
CN105630620B true CN105630620B (zh) 2019-04-16

Family

ID=56045597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510973293.6A Active CN105630620B (zh) 2015-12-23 2015-12-23 一种机器故障自动化处理方法

Country Status (1)

Country Link
CN (1) CN105630620B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608717B (zh) * 2016-07-12 2021-02-12 迈普通信技术股份有限公司 用户态信息收集方法、装置和系统
CN106775732B (zh) * 2016-12-23 2019-02-12 优刻得科技股份有限公司 一种热补丁加载方法以及装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
CN106775487A (zh) * 2016-12-27 2017-05-31 郑州云海信息技术有限公司 一种多路径存储故障的处理方法和装置
CN107229550A (zh) * 2017-05-27 2017-10-03 郑州云海信息技术有限公司 一种linux内核自旋锁死锁检测报告系统和方法
CN108205479A (zh) * 2017-10-25 2018-06-26 珠海市魅族科技有限公司 一种故障信息处理的方法、装置及存储介质
CN111145405A (zh) * 2019-12-31 2020-05-12 上海申铁信息工程有限公司 一种高铁车站闸机管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046765A (zh) * 2006-03-29 2007-10-03 华为技术有限公司 一种定位软件故障的方法
CN101620658A (zh) * 2009-07-14 2010-01-06 北京大学 一种Windows操作系统下钩子的检测方法
CN101799763A (zh) * 2009-02-10 2010-08-11 华为技术有限公司 内核在线补丁的方法、装置和系统
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046765A (zh) * 2006-03-29 2007-10-03 华为技术有限公司 一种定位软件故障的方法
CN101799763A (zh) * 2009-02-10 2010-08-11 华为技术有限公司 内核在线补丁的方法、装置和系统
CN101620658A (zh) * 2009-07-14 2010-01-06 北京大学 一种Windows操作系统下钩子的检测方法
US8756461B1 (en) * 2011-07-22 2014-06-17 Juniper Networks, Inc. Dynamic tracing of thread execution within an operating system kernel
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置

Also Published As

Publication number Publication date
CN105630620A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105630620B (zh) 一种机器故障自动化处理方法
CN110224894B (zh) 一种智能变电站过程层网络监测管理系统
CN107612787B (zh) 一种基于Openstack开源云平台的云主机故障检测方法
CN105808394B (zh) 一种服务器自愈的方法和装置
CN109501834B (zh) 一种道岔转辙机故障预测方法及装置
CN209607185U (zh) 一种电力监控系统网络安全防护实训系统
CN103812699A (zh) 基于云计算的监控管理系统
CN110750377A (zh) 一种故障定位方法及装置
CN102279905B (zh) 一种电网故障诊断中的数据流快速约简方法
CN103490919A (zh) 故障管理系统和故障管理方法
CN103684903B (zh) 一种goose报文异常的在线检测方法
CN105653322A (zh) 运维服务器和服务器事件的处理方法
CN105712143A (zh) 一种电梯远程监控点检及保养方法
CN107943670A (zh) 一种ups电源设备监控系统
CN104468184B (zh) 一种电力通信设备业务支持能力的分析方法及系统
CN105227403A (zh) 一种OpenStack网络流量监控方法
CN105657065B (zh) 一种电梯远程监控系统
CN105849699B (zh) 控制数据中心架构设备的方法
WO2023104219A1 (zh) 基于物联网轨道交通软件与应用故障自愈的解决方法
CN104850581A (zh) 一种电力调度自动化系统多源数据校核方法
CN104394003B (zh) 供电故障处理方法、装置以及供电设备
CN108629937B (zh) 一种监控消防设备的方法及系统
CN113110350A (zh) 水泥生产设备停机分析管理系统
CN101409637B (zh) 一种通信网管系统中的告警交互式自动处理方法
Xu et al. Research on condition monitoring platform for mineral processing equipment based on industrial cloud

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200529

Address after: 266107 No.1 Yuhui Road, pengjiatai community, Xiazhuang street, Chengyang District, Qingdao City, Shandong Province

Patentee after: QINGDAO LESILIE SCIENCE & TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 250100 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Patentee before: INSPUR GROUP Co.,Ltd.