CN106341281A - linux服务器分布式故障检测和恢复方法 - Google Patents
linux服务器分布式故障检测和恢复方法 Download PDFInfo
- Publication number
- CN106341281A CN106341281A CN201610988738.2A CN201610988738A CN106341281A CN 106341281 A CN106341281 A CN 106341281A CN 201610988738 A CN201610988738 A CN 201610988738A CN 106341281 A CN106341281 A CN 106341281A
- Authority
- CN
- China
- Prior art keywords
- fault
- module
- central control
- control module
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0695—Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。本发明实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障。
Description
技术领域
本发明涉及信息科技技术领域,尤其涉及一种linux服务器分布式故障检测和恢复方法。
背景技术
目前的开源的工具多数只是监控工具,并不能很好的实现故障的发现和故障流程的联动,导致系统运维需要用多个系统结合来实现故障的发现和处理。
现在很多的linux服务器后台用PHP,如手游的服务端后台;其架构上多采用nginx(代理服务器)+php(语言)+mysql(数据库)的方式对服务器接口进行分布式的部署,一旦服务器规模多了就容易产生某个服务器环境或者程序异常导致的接口不一致引发数据异常。
现有技术公开了一种“资源服务优化配置容错管理实现系统”,见公开号为:CN102916830A,公开日为:2013-02-06的中国专利,其根据资源服务优化配置过程中故障产生的原因及分类,设计相应的容错管理实现机制,实现相应的故障检测和消解。具体包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块,具有良好的模块性、可维护性、扩展性,能有效检测和消解资源服务优化配置过程中的各种故障,提高整个服务制造系统的稳定性和资源服务优化配置的可靠性。该发明能有效检测到服务制造系统资源服务优化配置过程中由虚拟连接、资源、任务、应用等引起的常见故障,并对其提供相应的良好的消解策略,有效提高服务制造系统资源服务优化配置的可靠性和服务质量。该发明是针对系统资源服务的优化配置,并非本专利申请是对服务器分布式故障的检测和恢复,解决的技术问题和方案不相同。
发明内容
本发明要解决的技术问题,在于提供一种linux服务器分布式故障检测和恢复方法,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。
本发明是这样实现的:一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
进一步的,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。
进一步的,所述系统的状态包括cpu、内存、或网络状态。
进一步的,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
进一步的,所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
进一步的,所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
本发明具有如下优点:本发明通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,使得开发者只关心游戏开发,无需关心环境的稳定一致;灵活可移植性高,业务可根据业务特点定制模块策略;缩短从故障检测到故障恢复的时间;自动化的故障恢复策略减少人为干预带来的不稳定因素。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法实现的原理框图。
图2为本发明的方法流程示意图。
具体实施方式
请参阅图1和图2所示,一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
其中,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术(agent技术是一种处于一定环境下包装的计算机系统,为实现设计目的,能在该环境下灵活的,自主的活动。)将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;所述系统的状态包括cpu、内存、或网络状态。通过设定的接口调用将当前的应用状态通过心跳方式上报中央控制模块。
在本发明中,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
总之,本发明通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
2.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。
3.根据权利要求2所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述系统的状态包括cpu、内存、或网络状态。
4.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
5.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
6.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610988738.2A CN106341281A (zh) | 2016-11-10 | 2016-11-10 | linux服务器分布式故障检测和恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610988738.2A CN106341281A (zh) | 2016-11-10 | 2016-11-10 | linux服务器分布式故障检测和恢复方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106341281A true CN106341281A (zh) | 2017-01-18 |
Family
ID=57841765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610988738.2A Pending CN106341281A (zh) | 2016-11-10 | 2016-11-10 | linux服务器分布式故障检测和恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106341281A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108289034A (zh) * | 2017-06-21 | 2018-07-17 | 新华三大数据技术有限公司 | 一种故障发现方法和装置 |
CN110597716A (zh) * | 2019-08-29 | 2019-12-20 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1635802A (zh) * | 2003-12-26 | 2005-07-06 | 华为技术有限公司 | 告警系统及其方法 |
CN102624570A (zh) * | 2012-04-27 | 2012-08-01 | 杭州东信北邮信息技术有限公司 | 实现对web服务器可用性进行检测的监控系统和方法 |
CN102916830A (zh) * | 2012-09-11 | 2013-02-06 | 北京航空航天大学 | 一种资源服务优化配置容错管理实现系统 |
CN103490919A (zh) * | 2013-09-02 | 2014-01-01 | 用友软件股份有限公司 | 故障管理系统和故障管理方法 |
CN103746829A (zh) * | 2013-12-20 | 2014-04-23 | 中国科学院计算技术研究所 | 一种基于集群的故障感知系统及其方法 |
CN104065501A (zh) * | 2013-03-22 | 2014-09-24 | 中兴通讯股份有限公司 | 一种网管系统中网络故障定位的方法及装置 |
CN104486109A (zh) * | 2014-12-09 | 2015-04-01 | 大唐移动通信设备有限公司 | 一种故障检测、恢复方法及装置 |
CN105162632A (zh) * | 2015-09-15 | 2015-12-16 | 浪潮集团有限公司 | 一种服务器集群故障自动处理系统 |
CN105653411A (zh) * | 2015-12-28 | 2016-06-08 | 哈尔滨工业大学 | 支持局部永久故障恢复的多核处理器芯片可重构系统 |
CN105657039A (zh) * | 2016-02-15 | 2016-06-08 | 上海带来科技有限公司 | 一种基于大数据的电厂设备故障快速定位系统和方法 |
-
2016
- 2016-11-10 CN CN201610988738.2A patent/CN106341281A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1635802A (zh) * | 2003-12-26 | 2005-07-06 | 华为技术有限公司 | 告警系统及其方法 |
CN102624570A (zh) * | 2012-04-27 | 2012-08-01 | 杭州东信北邮信息技术有限公司 | 实现对web服务器可用性进行检测的监控系统和方法 |
CN102916830A (zh) * | 2012-09-11 | 2013-02-06 | 北京航空航天大学 | 一种资源服务优化配置容错管理实现系统 |
CN104065501A (zh) * | 2013-03-22 | 2014-09-24 | 中兴通讯股份有限公司 | 一种网管系统中网络故障定位的方法及装置 |
CN103490919A (zh) * | 2013-09-02 | 2014-01-01 | 用友软件股份有限公司 | 故障管理系统和故障管理方法 |
CN103746829A (zh) * | 2013-12-20 | 2014-04-23 | 中国科学院计算技术研究所 | 一种基于集群的故障感知系统及其方法 |
CN104486109A (zh) * | 2014-12-09 | 2015-04-01 | 大唐移动通信设备有限公司 | 一种故障检测、恢复方法及装置 |
CN105162632A (zh) * | 2015-09-15 | 2015-12-16 | 浪潮集团有限公司 | 一种服务器集群故障自动处理系统 |
CN105653411A (zh) * | 2015-12-28 | 2016-06-08 | 哈尔滨工业大学 | 支持局部永久故障恢复的多核处理器芯片可重构系统 |
CN105657039A (zh) * | 2016-02-15 | 2016-06-08 | 上海带来科技有限公司 | 一种基于大数据的电厂设备故障快速定位系统和方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108289034A (zh) * | 2017-06-21 | 2018-07-17 | 新华三大数据技术有限公司 | 一种故障发现方法和装置 |
CN110597716A (zh) * | 2019-08-29 | 2019-12-20 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
CN110597716B (zh) * | 2019-08-29 | 2023-06-30 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113424494B (zh) | 用于防护基于人工智能的网络控制和主动网络操作的系统和方法 | |
US11677635B2 (en) | Hierarchical network analysis service | |
EP3654583B1 (en) | Fault delimitation method and device | |
CN104639374B (zh) | 一种应用程序部署管理系统 | |
CN101414927B (zh) | 用于内网网络攻击检测的报警和响应系统 | |
CN104301136B (zh) | 故障信息上报及处理的方法及设备 | |
WO2019223062A1 (zh) | 系统异常的处理方法和系统 | |
CN104901838A (zh) | 企业网络安全事件管理系统及其方法 | |
Nováczki | An improved anomaly detection and diagnosis framework for mobile network operators | |
CN105610648B (zh) | 一种运维监控数据的采集方法及服务器 | |
CN108964995A (zh) | 基于时间轴事件的日志关联分析方法 | |
CN107995049A (zh) | 电力安全区跨区同步故障监测方法、装置和系统 | |
CN103544093A (zh) | 监控报警控制方法及其系统 | |
CN104809030A (zh) | 一种基于Android的异常处理系统及处理方法 | |
CN110806921B (zh) | 一种ovs异常告警监控系统及方法 | |
CN106452846A (zh) | 故障处理方法、虚拟架构管理系统和业务管理系统 | |
CN103116531A (zh) | 存储系统故障预测方法和装置 | |
CN109362235A (zh) | 对网络可访问存储装置处的事务进行分类 | |
CN102929773A (zh) | 信息采集方法和装置 | |
CN111143167A (zh) | 用于多平台的告警归并方法及装置、设备、存储介质 | |
CN100433647C (zh) | 一种告警管理方法和系统 | |
CN105278521B (zh) | 一种机组故障原因的诊断方法、诊断装置以及空调机组 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN106301840B (zh) | 双向转发检测bfd报文的发送方法及装置 | |
CN101741609A (zh) | 一种业务支撑系统可用性的评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170118 |
|
RJ01 | Rejection of invention patent application after publication |