CN105162632A - 一种服务器集群故障自动处理系统 - Google Patents

一种服务器集群故障自动处理系统 Download PDF

Info

Publication number
CN105162632A
CN105162632A CN201510584264.0A CN201510584264A CN105162632A CN 105162632 A CN105162632 A CN 105162632A CN 201510584264 A CN201510584264 A CN 201510584264A CN 105162632 A CN105162632 A CN 105162632A
Authority
CN
China
Prior art keywords
fault
processing
module
troubleshooting
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510584264.0A
Other languages
English (en)
Inventor
李锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510584264.0A priority Critical patent/CN105162632A/zh
Publication of CN105162632A publication Critical patent/CN105162632A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种服务器集群故障自动处理系统,属于服务器集群管理技术领域;本发明采用服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块,服务器集中管理模块监控到服务器故障后,由故障分析模块整理分析故障告警,并在故障智慧库模块中查询相关处理策略,将故障信息和故障处理策略发送到故障处理模块,完成故障自动处理,使该系统根据自带故障处理策略和用户自定义故障处理策略,实现自动处理服务器故障,很大程度上减轻了机房维护人员的负担,避免资源浪费。

Description

一种服务器集群故障自动处理系统
技术领域
本发明公开一种服务器集群故障自动处理系统,属于服务器集群管理技术领域。
背景技术
随着云计算的发展和应用,服务器设备的需求也从最初的单台或者少量的需求方式发展到至今的大规模大批量的需求方式。服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,但是集群中的应用只在一台服务器上运行,如果这个应用出现故障,其它的某台服务器如果重新启动这个应用,接管位于共享磁盘柜上的数据区,进而使应用重新正常运转需要侦测并确认故障、后备服务器重新启动该应用、接管共享的数据区,其切换的过程需要花费时间,而且越大的应用切换的时间越长。面对大规模的服务器集群,各种处理难易程度不等的大量故障,给维护人员带来庞大的工作量,也导致资源的浪费。
本发明提供一种服务器集群故障自动处理系统,采用服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块,服务器集中管理模块监控到服务器故障后,由故障分析模块整理分析故障告警,并在故障智慧库模块中查询相关处理策略,将故障信息和故障处理策略发送到故障处理模块,完成故障自动处理,使该系统根据自带故障处理策略和用户自定义故障处理策略,实现自动处理服务器故障,很大程度上减轻了机房维护人员的负担,避免资源浪费。
发明内容
本发明针对大规模的服务器集群,各种处理难易程度不等的大量故障,给维护人员带来庞大的工作量,也导致资源的浪费的问题,提供一种服务器集群故障自动处理系统,通过系统自带的故障处理策略以及用户自定义的故障处理策略,可以灵活自动处理各种类型,多种难度的服务器故障。极大的减轻了维护人员的工作量,避免人力物力资源的浪费,具有很高的应用价值。
本发明提出的具体方案是:
一种服务器集群故障自动处理系统,包括服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块;
服务器集中管理模块负责对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块负责进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块负责存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;
故障处理模块负责根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。其中服务器集中管理模块同时可获取和存储故障告警信息。
所述故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。
所述故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理。
所述故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板。
一种服务器集群故障自动处理方法,利用所述的系统,使用服务器集中管理模块对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;
故障处理模块根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。
所述故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。
所述故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理。
所述故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板。
本发明的有益之处是:本发明包括服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块;服务器集中管理模块负责对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;故障分析模块负责进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;故障智慧库模块负责存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;故障处理模块负责根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。使该系统根据自带故障处理策略和用户自定义故障处理策略,实现自动处理服务器故障,而且灵活自动处理各种类型,多种难度的服务器故障,很大程度上减轻了机房维护人员的负担,避免资源浪费,具有很高的应用价值。
附图说明
图1本发明服务器故障处理系统示意图。
具体实施方式
一种服务器集群故障自动处理系统,包括服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块;
服务器集中管理模块负责对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块负责进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块负责存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;
故障处理模块负责根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。
根据上述系统,结合附图对本发明做进一步说明。
其中上述系统中服务器集中管理模块负责对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;其中监控内容包括服务器的各类部件,例如CPU、内存、硬盘、外插设备等硬件和操作系统、应用、服务等软件。服务器集中管理模块同时可获取和存储故障告警信息。
故障分析模块负责进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块负责存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;所述故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。用户可以根据服务器系统的需要配置处理策略,比如将故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理;
故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板;
故障处理模块负责根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。
一种服务器集群故障自动处理方法,利用上述的系统,使用服务器集中管理模块对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;其中故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。用户可以根据服务器系统的需要配置处理策略,比如将故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理;
故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板;
故障处理模块根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。

Claims (8)

1.一种服务器集群故障自动处理系统,其特征是包括服务器集中管理模块、故障分析模块、故障智慧库模块、故障处理模块;
服务器集中管理模块负责对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块负责进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块负责存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;
故障处理模块负责根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。
2.根据权利要求1所述的一种服务器集群故障自动处理系统,其特征是所述故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。
3.根据权利要求1或2所述的一种服务器集群故障自动处理系统,其特征是所述故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理。
4.根据权利要求3所述的一种服务器集群故障自动处理系统,其特征是所述故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板。
5.一种服务器集群故障自动处理方法,其特征是利用权利要求1-4任一项所述的系统,使用服务器集中管理模块对服务器集群进行故障监控和故障,调用故障分析模块进行故障分析;
故障分析模块进行整理分析,并调用故障智慧库模块中的故障智慧库查询相关解决策略,并将故障处理分析结论、处理策略通知故障处理模块进行故障处理;
故障智慧库模块存储服务器故障处理策略,为服务器故障正确的自动处理提供可靠保障;
故障处理模块根据故障分析模块提供的故障信息和处理策略,自动完成服务器故障的处理和修复。
6.根据权利要求5所述的一种服务器集群故障自动处理方法,其特征是所述故障智慧库模块中智慧库的故障处理策略来源分为系统自带的处理策略和用户自定义的处理策略;系统自带的处理策略为系统原有存储的处理策略,用户自定义的处理策略为用户根据以往处理的故障类型,制定的并存储在系统中的处理策略。
7.根据权利要求5所述的一种服务器集群故障自动处理方法,其特征是所述故障智慧库模块设置故障处理模板,实例化故障处理模板为处理策略,对监控中发生的故障进行数据化处理,根据处理策略对数据化的故障进行处理。
8.根据权利要求5所述的一种服务器集群故障自动处理方法,其特征是所述故障处理模板分为系统处理模板和用户自定义处理模板,系统处理模板为系统原有存储的故障处理模板,用户自定义处理模板为用户根据以往处理的故障类型,制定的并存储在系统中的故障处理模板。
CN201510584264.0A 2015-09-15 2015-09-15 一种服务器集群故障自动处理系统 Pending CN105162632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510584264.0A CN105162632A (zh) 2015-09-15 2015-09-15 一种服务器集群故障自动处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510584264.0A CN105162632A (zh) 2015-09-15 2015-09-15 一种服务器集群故障自动处理系统

Publications (1)

Publication Number Publication Date
CN105162632A true CN105162632A (zh) 2015-12-16

Family

ID=54803394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510584264.0A Pending CN105162632A (zh) 2015-09-15 2015-09-15 一种服务器集群故障自动处理系统

Country Status (1)

Country Link
CN (1) CN105162632A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254158A (zh) * 2016-09-22 2016-12-21 安徽云图信息技术有限公司 信息系统智能监控管理平台
CN106341281A (zh) * 2016-11-10 2017-01-18 福州智永信息科技有限公司 linux服务器分布式故障检测和恢复方法
CN106407030A (zh) * 2016-09-13 2017-02-15 郑州云海信息技术有限公司 一种存储集群系统故障处理方法及系统
CN106875018A (zh) * 2017-01-04 2017-06-20 北京百度网讯科技有限公司 一种超大规模机器自动化维修的方法和装置
CN107104858A (zh) * 2017-06-09 2017-08-29 携程旅游信息技术(上海)有限公司 Web负载均衡系统的监控系统
CN108521339A (zh) * 2018-03-13 2018-09-11 广州西麦科技股份有限公司 一种基于集群日志的反馈式节点故障处理方法及系统
WO2018201863A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 一种应用程序运维方法、装置、设备以及存储介质
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN113592337A (zh) * 2021-08-09 2021-11-02 北京豆萌信息技术有限公司 故障处理方法、装置、电子设备及存储介质
CN117370066A (zh) * 2023-12-08 2024-01-09 杭州沃趣科技股份有限公司 一种服务器集群的恢复方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091814A1 (en) * 1998-07-10 2002-07-11 International Business Machines Corp. Highly scalable and highly available cluster system management scheme
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091814A1 (en) * 1998-07-10 2002-07-11 International Business Machines Corp. Highly scalable and highly available cluster system management scheme
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407030A (zh) * 2016-09-13 2017-02-15 郑州云海信息技术有限公司 一种存储集群系统故障处理方法及系统
CN106254158A (zh) * 2016-09-22 2016-12-21 安徽云图信息技术有限公司 信息系统智能监控管理平台
CN106341281A (zh) * 2016-11-10 2017-01-18 福州智永信息科技有限公司 linux服务器分布式故障检测和恢复方法
CN106875018A (zh) * 2017-01-04 2017-06-20 北京百度网讯科技有限公司 一种超大规模机器自动化维修的方法和装置
WO2018201863A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 一种应用程序运维方法、装置、设备以及存储介质
CN107104858A (zh) * 2017-06-09 2017-08-29 携程旅游信息技术(上海)有限公司 Web负载均衡系统的监控系统
CN108521339A (zh) * 2018-03-13 2018-09-11 广州西麦科技股份有限公司 一种基于集群日志的反馈式节点故障处理方法及系统
CN108521339B (zh) * 2018-03-13 2021-08-03 广州西麦科技股份有限公司 一种基于集群日志的反馈式节点故障处理方法及系统
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN113592337A (zh) * 2021-08-09 2021-11-02 北京豆萌信息技术有限公司 故障处理方法、装置、电子设备及存储介质
CN117370066A (zh) * 2023-12-08 2024-01-09 杭州沃趣科技股份有限公司 一种服务器集群的恢复方法、装置、设备及存储介质
CN117370066B (zh) * 2023-12-08 2024-03-15 杭州沃趣科技股份有限公司 一种服务器集群的恢复方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105162632A (zh) 一种服务器集群故障自动处理系统
CN109634728B (zh) 作业调度方法、装置、终端设备及可读存储介质
CN105631026B (zh) 一种安全数据分析系统
CN108270726B (zh) 应用实例部署方法及装置
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
US8381015B2 (en) Fault tolerance for map/reduce computing
CN114024834B (zh) 故障定位方法、装置、电子设备及可读存储介质
CN103678051B (zh) 一种集群数据处理系统中的在线故障容错方法
CN105243125B (zh) PrestoDB集群的运行方法、装置、集群及查询数据方法和装置
CN104657150A (zh) 一种集群环境下的自动化运维方法
US20210287523A1 (en) Method, apparatus, and system for managing alarms
CN110535671A (zh) 云平台的管理方法及装置
CN110278101B (zh) 一种资源管理方法及设备
CN105574590A (zh) 自适应总控灾备切换装置、系统及信号发生方法
CN117608825A (zh) 基于多云管理平台的资源管理方法和相关设备
CN113127299A (zh) 服务器运维方法、装置、系统及计算机可读存储介质
CN114691050A (zh) 基于kubernetes的云原生存储方法、装置、设备及介质
CN114095343A (zh) 基于双活系统的容灾方法、装置、设备及存储介质
CN111756778A (zh) 一种服务器磁盘清理脚本推送的方法、装置和存储介质
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN105849699B (zh) 控制数据中心架构设备的方法
CN105025179A (zh) 呼叫中心座席的监控方法及系统
CN104951346A (zh) 一种用于嵌入式系统的进程管理方法及系统
CN109995554A (zh) 多级数据中心主备切换的控制方法及云调度指挥器
CN109728957B (zh) 一种交互式运维的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216

RJ01 Rejection of invention patent application after publication