CN106341281A - linux服务器分布式故障检测和恢复方法 - Google Patents

linux服务器分布式故障检测和恢复方法 Download PDF

Info

Publication number
CN106341281A
CN106341281A CN201610988738.2A CN201610988738A CN106341281A CN 106341281 A CN106341281 A CN 106341281A CN 201610988738 A CN201610988738 A CN 201610988738A CN 106341281 A CN106341281 A CN 106341281A
Authority
CN
China
Prior art keywords
fault
module
central control
control module
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610988738.2A
Other languages
English (en)
Inventor
林智明
唐光宇
蔡泸炜
龚文飞
陈文静
许元敬
许美娟
李嘉莉
黄晗
林密英
刘林
蒋滢芳
陈翔
林珍
陈平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Zhiyong Information Technology Co Ltd
Original Assignee
Fuzhou Zhiyong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Zhiyong Information Technology Co Ltd filed Critical Fuzhou Zhiyong Information Technology Co Ltd
Priority to CN201610988738.2A priority Critical patent/CN106341281A/zh
Publication of CN106341281A publication Critical patent/CN106341281A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0695Management of faults, events, alarms or notifications the faulty arrangement being the maintenance, administration or management system

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。本发明实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障。

Description

linux服务器分布式故障检测和恢复方法
技术领域
本发明涉及信息科技技术领域,尤其涉及一种linux服务器分布式故障检测和恢复方法。
背景技术
目前的开源的工具多数只是监控工具,并不能很好的实现故障的发现和故障流程的联动,导致系统运维需要用多个系统结合来实现故障的发现和处理。
现在很多的linux服务器后台用PHP,如手游的服务端后台;其架构上多采用nginx(代理服务器)+php(语言)+mysql(数据库)的方式对服务器接口进行分布式的部署,一旦服务器规模多了就容易产生某个服务器环境或者程序异常导致的接口不一致引发数据异常。
现有技术公开了一种“资源服务优化配置容错管理实现系统”,见公开号为:CN102916830A,公开日为:2013-02-06的中国专利,其根据资源服务优化配置过程中故障产生的原因及分类,设计相应的容错管理实现机制,实现相应的故障检测和消解。具体包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块,具有良好的模块性、可维护性、扩展性,能有效检测和消解资源服务优化配置过程中的各种故障,提高整个服务制造系统的稳定性和资源服务优化配置的可靠性。该发明能有效检测到服务制造系统资源服务优化配置过程中由虚拟连接、资源、任务、应用等引起的常见故障,并对其提供相应的良好的消解策略,有效提高服务制造系统资源服务优化配置的可靠性和服务质量。该发明是针对系统资源服务的优化配置,并非本专利申请是对服务器分布式故障的检测和恢复,解决的技术问题和方案不相同。
发明内容
本发明要解决的技术问题,在于提供一种linux服务器分布式故障检测和恢复方法,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。
本发明是这样实现的:一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
进一步的,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。
进一步的,所述系统的状态包括cpu、内存、或网络状态。
进一步的,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
进一步的,所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
进一步的,所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
本发明具有如下优点:本发明通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,使得开发者只关心游戏开发,无需关心环境的稳定一致;灵活可移植性高,业务可根据业务特点定制模块策略;缩短从故障检测到故障恢复的时间;自动化的故障恢复策略减少人为干预带来的不稳定因素。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法实现的原理框图。
图2为本发明的方法流程示意图。
具体实施方式
请参阅图1和图2所示,一种linux服务器分布式故障检测和恢复方法,所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
其中,所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术(agent技术是一种处于一定环境下包装的计算机系统,为实现设计目的,能在该环境下灵活的,自主的活动。)将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;所述系统的状态包括cpu、内存、或网络状态。通过设定的接口调用将当前的应用状态通过心跳方式上报中央控制模块。
在本发明中,所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
总之,本发明通过故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块的配合操作,实现接口的自我检测,应用故障的告警和切换,帮助业务快速恢复故障;缩短从故障检测到故障恢复的时间。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种linux服务器分布式故障检测和恢复方法,其特征在于:所述在linux服务器中设置故障检测模块、中央控制模块、故障恢复模块、以及配置中心模块;
所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息;所述配置中心模块配置基础信息和配置故障检测模块、中央控制模块、故障恢复模块;所述中央控制模块接收故障信息,并对故障类型进行分析处理,通过配置中心模块的配置进行告警或者恢复操作的触发;所述故障恢复模块对不同的故障类型进行恢复操作。
2.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述故障检测模块对linux服务器分布式故障进行检测,并采集服务器故障信息具体为:所述故障检测模块通过agent技术将服务器接口的状态值,上报给中央控制模块;通过agent技术将系统的状态通过心跳方式上报中央控制模块;通过接口调用将当前的应用状态通过心跳方式上报中央控制模块。
3.根据权利要求2所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述系统的状态包括cpu、内存、或网络状态。
4.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述中央控制模块的操作具体为:中央控制模块接收并记录服务器状态到数据库;中央控制模块不停轮询当前服务器状态,依据配置中心模块的配置进行下一步告警或者恢复操作的触发。
5.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述配置中心模块的操作具体为:配置服务器节点所对应的模块、基础信息、通用策略以及模块策略;下发agent技术相关配置信息;为故障恢复模块的故障提供切换依据。
6.根据权利要求1所述的linux服务器分布式故障检测和恢复方法,其特征在于:所述所述故障恢复模块对不同的故障类型进行恢复操作,具体为:故障恢复模块检测到是硬件故障类型,直接根据中央控制模块查询配置中心模块的策略进行替换更新操作或者直接集群屏蔽;检测到是业务故障类型的,根据业务故障类型策略定制进行自动的恢复操作;检测故障恢复结果是否成功;并根据恢复的结果发送故障恢复信息。
CN201610988738.2A 2016-11-10 2016-11-10 linux服务器分布式故障检测和恢复方法 Pending CN106341281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610988738.2A CN106341281A (zh) 2016-11-10 2016-11-10 linux服务器分布式故障检测和恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610988738.2A CN106341281A (zh) 2016-11-10 2016-11-10 linux服务器分布式故障检测和恢复方法

Publications (1)

Publication Number Publication Date
CN106341281A true CN106341281A (zh) 2017-01-18

Family

ID=57841765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610988738.2A Pending CN106341281A (zh) 2016-11-10 2016-11-10 linux服务器分布式故障检测和恢复方法

Country Status (1)

Country Link
CN (1) CN106341281A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635802A (zh) * 2003-12-26 2005-07-06 华为技术有限公司 告警系统及其方法
CN102624570A (zh) * 2012-04-27 2012-08-01 杭州东信北邮信息技术有限公司 实现对web服务器可用性进行检测的监控系统和方法
CN102916830A (zh) * 2012-09-11 2013-02-06 北京航空航天大学 一种资源服务优化配置容错管理实现系统
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理系统和故障管理方法
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置
CN104486109A (zh) * 2014-12-09 2015-04-01 大唐移动通信设备有限公司 一种故障检测、恢复方法及装置
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN105657039A (zh) * 2016-02-15 2016-06-08 上海带来科技有限公司 一种基于大数据的电厂设备故障快速定位系统和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635802A (zh) * 2003-12-26 2005-07-06 华为技术有限公司 告警系统及其方法
CN102624570A (zh) * 2012-04-27 2012-08-01 杭州东信北邮信息技术有限公司 实现对web服务器可用性进行检测的监控系统和方法
CN102916830A (zh) * 2012-09-11 2013-02-06 北京航空航天大学 一种资源服务优化配置容错管理实现系统
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置
CN103490919A (zh) * 2013-09-02 2014-01-01 用友软件股份有限公司 故障管理系统和故障管理方法
CN103746829A (zh) * 2013-12-20 2014-04-23 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN104486109A (zh) * 2014-12-09 2015-04-01 大唐移动通信设备有限公司 一种故障检测、恢复方法及装置
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN105653411A (zh) * 2015-12-28 2016-06-08 哈尔滨工业大学 支持局部永久故障恢复的多核处理器芯片可重构系统
CN105657039A (zh) * 2016-02-15 2016-06-08 上海带来科技有限公司 一种基于大数据的电厂设备故障快速定位系统和方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108289034A (zh) * 2017-06-21 2018-07-17 新华三大数据技术有限公司 一种故障发现方法和装置
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法
CN110597716B (zh) * 2019-08-29 2023-06-30 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法

Similar Documents

Publication Publication Date Title
CN113424494B (zh) 用于防护基于人工智能的网络控制和主动网络操作的系统和方法
US11677635B2 (en) Hierarchical network analysis service
EP3654583B1 (en) Fault delimitation method and device
CN104639374B (zh) 一种应用程序部署管理系统
CN101414927B (zh) 用于内网网络攻击检测的报警和响应系统
CN104301136B (zh) 故障信息上报及处理的方法及设备
WO2019223062A1 (zh) 系统异常的处理方法和系统
CN104901838A (zh) 企业网络安全事件管理系统及其方法
Nováczki An improved anomaly detection and diagnosis framework for mobile network operators
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
CN108964995A (zh) 基于时间轴事件的日志关联分析方法
CN107995049A (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN103544093A (zh) 监控报警控制方法及其系统
CN104809030A (zh) 一种基于Android的异常处理系统及处理方法
CN110806921B (zh) 一种ovs异常告警监控系统及方法
CN106452846A (zh) 故障处理方法、虚拟架构管理系统和业务管理系统
CN103116531A (zh) 存储系统故障预测方法和装置
CN109362235A (zh) 对网络可访问存储装置处的事务进行分类
CN102929773A (zh) 信息采集方法和装置
CN111143167A (zh) 用于多平台的告警归并方法及装置、设备、存储介质
CN100433647C (zh) 一种告警管理方法和系统
CN105278521B (zh) 一种机组故障原因的诊断方法、诊断装置以及空调机组
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN106301840B (zh) 双向转发检测bfd报文的发送方法及装置
CN101741609A (zh) 一种业务支撑系统可用性的评估方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170118

RJ01 Rejection of invention patent application after publication