CN104657622A - 一种基于事件驱动分析的集群故障分析方法 - Google Patents

一种基于事件驱动分析的集群故障分析方法 Download PDF

Info

Publication number
CN104657622A
CN104657622A CN201510108367.XA CN201510108367A CN104657622A CN 104657622 A CN104657622 A CN 104657622A CN 201510108367 A CN201510108367 A CN 201510108367A CN 104657622 A CN104657622 A CN 104657622A
Authority
CN
China
Prior art keywords
event
fault
cluster
analysis
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510108367.XA
Other languages
English (en)
Inventor
姜伟丽
冯江辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510108367.XA priority Critical patent/CN104657622A/zh
Publication of CN104657622A publication Critical patent/CN104657622A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明特别涉及一种基于事件驱动分析的集群故障分析方法。该基于事件驱动分析的集群故障分析方法,包括事件分析器和事件故障库。该基于事件驱动分析的集群故障分析方法,通过对服务器日志、控制器事件、事务等集群事件数据进行搜集,并对收集的集群事件数据进行分析,将集群服务器的故障事件通过与事件故障库进行自动匹配,从而分析故障原因,并给出分析和解决方法,提高了集群服务器故障事件的分析效率和解决效率,保证了集群服务器的正常运行。

Description

一种基于事件驱动分析的集群故障分析方法
技术领域
本发明涉及集群故障分析技术领域,特别涉及一种基于事件驱动分析的集群故障分析方法。
背景技术
集群技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益。
集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。
采用集群技术的目的包括如下几点:
1 提高性能
一些计算密集型应用,如:天气预报、核试验模拟等,需要计算机要有很强的运算处理能力,现有的技术,即使普通的大型机其计算也很难胜任。这时,一般都使用计算机集群技术,集中几十台甚至上百台计算机的运算能力来满足要求。提高处理性能一直是集群技术研究的一个重要目标之一。
2 降低成本
通常一套较好的集群配置,其软硬件开销要超过100000美元。但与价值上百万美元的专用超级计算机相比已属相当便宜。在达到同样性能的条件下,采用计算机集群比采用同等运算能力的大型计算机具有更高的性价比。
3 提高可扩展性
用户若想扩展系统能力,不得不购买更高性能的服务器,才能获得额外所需的CPU 和存储器。如果采用集群技术,则只需要将新的服务器加入集群中即可,对于客户来看,服务无论从连续性还是性能上都几乎没有变化,好像系统在不知不觉中完成了升级。
4 增强可靠性
集群技术使系统在故障发生时仍可以继续工作,将系统停运时间减到最小。集群系统在提高系统的可靠性的同时,也大大减小了故障损失。
虽然集群系统的构建目前可以说是模块化的,从硬件角度来看可以分为节点机系统、通讯系统、存储系统等,软件角度则主要有操作系统、集群操作系统(COS)、并行环境、编译环境和用户应用软件等,目前高性能计算机的通讯、存储等硬件系统是伴随摩尔定律快速发展的,跟踪、测试、比较最新硬件设备构成的高性能计算机的可能方案也成了高性能计算机厂商的重要科研活动,而所有这些关键部件研发、系统方案科研以及厂商的自主部件研发的高度概括就是“整合计算”。整合硬件计算资源的同时,伴随着整合软件资源,其中集群操作系统COS是软件系统中连接节点机操作系统和用户并行应用的重要“黏合剂”,也是高性能计算机厂商的技术杀手锏。
就目前业务来说,集群所涉及到的规模一般都是比较大的,因此发生故障更多的会成为一种常态。鉴于业务的重要性,一旦发生故障势必要求尽快处理恢复。因此,对集群状态故障的分析就显得格外重要。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单有效的基于事件驱动分析的集群故障分析方法。
本发明是通过如下技术方案实现的:
一种基于事件驱动分析的集群故障分析方法,其特征在于:包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位事件分析器,最后将结果呈现给用户即可。
所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。
本发明的有益效果是:该基于事件驱动分析的集群故障分析方法,通过对服务器日志、控制器事件、事务等集群事件数据进行搜集,并对收集的集群事件数据进行分析,将集群服务器的故障事件通过与事件故障库进行自动匹配,从而分析故障原因,并给出分析和解决方法,提高了集群服务器故障事件的分析效率和解决效率,保证了集群服务器的正常运行。
附图说明
附图1为本发明基于事件驱动分析的集群故障分析流程示意图。
具体实施方式
下面结合附图对本发明进行详细说明。
该基于事件驱动分析的集群故障分析方法,包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位,最后将结果呈现给用户即可。
所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。

Claims (3)

1.一种基于事件驱动分析的集群故障分析方法,其特征在于:包括事件分析器和事件故障库,在集群服务器上,运行守护进程收集集群事件数据,然后将收集的数据发送到事件分析器,所述事件分析器对集群事件数据进行分析建模,并不断完善;当有故障发生时,及时获取故障机器发生的事件,并将故障事件与事件故障库进行自动匹配,对其进行识别,从而分析故障原因,给出分析和解决方法,助力故障快速解决和定位,最后将结果呈现给用户即可。
2.根据权利要求1所述的基于事件驱动分析的集群故障分析方法,其特征在于:所述集群事件数据包括服务器日志、控制器时间、事务,这些事件包含了集群自身的状态变化,以及外部的输入输出。
3.根据权利要求1所述的基于事件驱动分析的集群故障分析方法,其特征在于:所述事件故障库用于描述集群服务器的故障,并对故障进行分析,并通过经验总结,不断完善集群服务器的故障。
CN201510108367.XA 2015-03-12 2015-03-12 一种基于事件驱动分析的集群故障分析方法 Pending CN104657622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510108367.XA CN104657622A (zh) 2015-03-12 2015-03-12 一种基于事件驱动分析的集群故障分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510108367.XA CN104657622A (zh) 2015-03-12 2015-03-12 一种基于事件驱动分析的集群故障分析方法

Publications (1)

Publication Number Publication Date
CN104657622A true CN104657622A (zh) 2015-05-27

Family

ID=53248736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510108367.XA Pending CN104657622A (zh) 2015-03-12 2015-03-12 一种基于事件驱动分析的集群故障分析方法

Country Status (1)

Country Link
CN (1) CN104657622A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN105827431A (zh) * 2015-12-25 2016-08-03 广东亿迅科技有限公司 基于故障因果图的集群故障收敛方法和装置
CN108011752A (zh) * 2017-11-21 2018-05-08 江苏天联信息科技发展有限公司 故障定位分析方法及装置、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103441906A (zh) * 2013-09-25 2013-12-11 哈尔滨工业大学 基于自主计算的代理缓存集群异常检测系统
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103441906A (zh) * 2013-09-25 2013-12-11 哈尔滨工业大学 基于自主计算的代理缓存集群异常检测系统
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机系统故障诊断方法及装置
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105827431A (zh) * 2015-12-25 2016-08-03 广东亿迅科技有限公司 基于故障因果图的集群故障收敛方法和装置
CN105827431B (zh) * 2015-12-25 2019-05-17 广东亿迅科技有限公司 基于故障因果图的集群故障收敛方法和装置
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN105656699B (zh) * 2016-03-29 2018-12-04 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN108011752A (zh) * 2017-11-21 2018-05-08 江苏天联信息科技发展有限公司 故障定位分析方法及装置、计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10205627B2 (en) Method and system for clustering event messages
US9336119B2 (en) Management of performance levels of information technology systems
Mikhail et al. Increasing SCADA system availability by fault tolerance techniques
CN101833536A (zh) 一种冗余仲裁机制的可重构星载计算机
CN103678051B (zh) 一种集群数据处理系统中的在线故障容错方法
Xu et al. Experience mining Google's production console logs
CN102571499A (zh) 一种云端数据库服务器集群的监控方法
CN104657622A (zh) 一种基于事件驱动分析的集群故障分析方法
Edwards et al. Design of hadoop-based framework for analytics of large synchrophasor datasets
CN111309546A (zh) 一种集群容器内文本日志的采集方法、系统及存储介质
Zhu et al. Bigop: Generating comprehensive big data workloads as a benchmarking framework
Riesen et al. See applications run and throughput jump: The case for redundant computing in HPC
Fu et al. An empirical study of the impact of log parsers on the performance of log-based anomaly detection
CN111221698A (zh) 任务数据采集方法与装置
CN114691050A (zh) 基于kubernetes的云原生存储方法、装置、设备及介质
Jiang et al. A Large-scale Benchmark for Log Parsing
Bhandare et al. Generic log analyzer using Hadoop MapReduce framework
CN102055780A (zh) 磁盘阵列测试系统及方法
CN106843822B (zh) 一种执行代码生成方法及设备
JP2013171542A (ja) 性能分析装置、性能分析方法及び性能分析プログラム
CN104375921A (zh) 一种针对ibm主机进行检查的方法及系统
CN112037003A (zh) 文件对账处理方法及装置
CN104468810A (zh) 一种基于龙芯平台的高性能计算资源监控实现方法
CN109167676A (zh) 一种高性能集群故障的诊断方法及系统
CN202364244U (zh) 分布式日志分析系统处理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150527