CN111290909A - 一种对ceph集群进行监控和告警的系统及方法 - Google Patents

一种对ceph集群进行监控和告警的系统及方法 Download PDF

Info

Publication number
CN111290909A
CN111290909A CN202010057439.3A CN202010057439A CN111290909A CN 111290909 A CN111290909 A CN 111290909A CN 202010057439 A CN202010057439 A CN 202010057439A CN 111290909 A CN111290909 A CN 111290909A
Authority
CN
China
Prior art keywords
information
alarm
ceph cluster
module
ceph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010057439.3A
Other languages
English (en)
Inventor
李敏
蔡卫卫
谢涛涛
宋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huimao Electronic Port Co Ltd
Original Assignee
Shandong Huimao Electronic Port Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huimao Electronic Port Co Ltd filed Critical Shandong Huimao Electronic Port Co Ltd
Priority to CN202010057439.3A priority Critical patent/CN111290909A/zh
Publication of CN111290909A publication Critical patent/CN111290909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种对ceph集群进行监控和告警的系统及方法,属于云计算技术领域。本发明的对ceph集群进行监控和告警的系统,包括状态采集模块、数据分析模块和告警推送模块,状态采集模块用于周期性采集ceph集群状态,数据分析模块用于分析收集状态采集模块采集的ceph集群状态信息,告警推送模块用于将告警信息发送至运维人员。该发明的对ceph集群进行监控和告警的系统在故障发生后能够及时通知到运维人员,帮助运维人员迅速判断故障紧急性,提升运维效率,具有很好的推广应用价值。

Description

一种对ceph集群进行监控和告警的系统及方法
技术领域
本发明涉及云计算技术领域,具体提供一种对ceph集群进行监控和告警的系统及方法。
背景技术
ceph是一种分布式存储系统,具有高性能、高可用性、高可扩展性以及特性丰富等特点。ceph支持三种调用接口,分别为对象存储、块存储和文件存储,在虚拟化领域里,比较常用到的是ceph的块设备存储,比如在OpenStack项目里,ceph的块设备存储可以对接OpenStack的cinder后端存储。ceph相比其它存储的优势点在于在实现存储功能的同时还充分利用了存储节点上的计算能力,在存储数据时,都会通过特有的CRUSH算法计算得出该数据存储的位置,尽量将数据分布均衡,同时可以由管理员自行定义存储副本数,使得它不存在传统的单点故障的问题。ceph的核心组件包括ceph OSD、ceph monitor和ceph MDS。ceph OSD的主要功能是存储、复制以及平衡数据等,OSD之间会进行心跳检查并将组件的变化情况上报到ceph monitor;ceph monitor的主要功能为监控ceph集群,维护cpeh集群健康状态,同时维护集群的map信息;ceph MDS的主要功能为保存文件系统服务的元数据,该组件只有用到文件存储时才需要使用。
在ceph的luminous版本中增加了一个组件:ceph mgr(Ceph Manager Daemon)。该组件的主要功能是分担和扩展了ceph monitor的一些功能,减小其工作压力,同时提供外部监控管理系统的接口。ceph mgr提供了一个名为prometheus的插件,实现了与监控软件prometheus的接口,可以将ceph mgr收集的ceph集群信息传递到prometheus中进行监控。
在ceph集群运行过程中,慢请求是一种常见的告警信息,其现象为:如果某个cephOSD对一个请求响应很慢,那么会生成日志信息说明请求耗费的时间过长。ceph集群发生慢请求时可能会造成集群性能下降,持续时间过长甚至会造成osd down的现象,影响用户使用。虽然ceph集群可以发现慢请求的现象并打印出日志,但是对于管理员来说并不能及时发现故障,在实际生产中可能影响业务运行。传统运维过程中通常在出现运行业务受到影响或ceph集群出现其他故障时管理员才会进入环境查看ceph集群的健康状态,从而发现存在慢请求的故障,再进行恢复。但是这种方法不够及时高效,无法实现对ceph业务的有效监控和管理。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种在故障发生后能够及时通知到运维人员,帮助运维人员迅速判断故障紧急性,提升运维效率的对ceph集群进行监控和告警的系统。
本发明进一步的技术任务是提供一种对ceph集群进行监控和告警的方法。
为实现上述目的,本发明提供了如下技术方案:
一种对ceph集群进行监控和告警的系统,包括状态采集模块、数据分析模块和告警推送模块,状态采集模块用于周期性采集ceph集群状态,数据分析模块用于分析收集状态采集模块采集的ceph集群状态信息,告警推送模块用于将告警信息发送至运维人员。
作为优选,所述状态采集模块周期性的采集ceph集群的状态信息,对采集的ceph集群的状态信息进行筛选,筛选出关于慢请求的信息,上报至数据分析模块。
作为优选,状态采集模块对采集到的ceph集群的状态信息按照时间序列进行保存。
作为优选,数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求,则无动作,否则对上报的ceph集群的状态信息进行分析,统计出信息关键字,发送给告警推送模块。
作为优选,数据分析模块统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号。
作为优选,所述告警推送模块接收数据分析模块上报的信息关键字组装成告警信息,包括告警名称、告警时间、告警描述,并将告警信息发送给运维人员。
告警推送模块,对于一段时间内的重复告警信息,不会进行重复发送,避免短时间内发送过多冗余信息,影响用户体验。
一种对ceph集群进行监控和告警的方法,该方法基于所述的对ceph集群进行监控和告警的系统实现,具体包括以下步骤:
S1、对状态采集模块、数据分析模块和告警推送模块进行初始化,配置好ceph集群信息和告警推送的接收器;
S2、状态采集模块运行在ceph集群所在节点,周期性采集ceph集群的状态信息并筛选出关于慢请求的信息,将慢请求信息上报至数据分析模块;
S3、数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求的信息,则无动作,否则对上报的信息进行分析,统计出信息关键字,发送给告警推送模块;
S4、告警推送模块接收到数据分析模块上报的信息关键字后,根据信息关键字组装成告警信息,将告警信息发送给运维人员。
作为优选,步骤S3中具体包括以下流程:
1)数据分析模块分析是否存在慢请求的状态;
2)若不存在慢请求的状态,跳转至5),否则转至3);
3)分析上报的信息并统计出信息关键字,统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号;
4)将统计的信息关键字发送至告警推送模块;
5)分析结束。
作为优选,所述告警推送模块接收数据分析模块上报的信息关键字组装成告警信息发送给运维人员,组装好的告警信息包括告警名称、告警时间、告警描述。
与现有技术相比,本发明的对ceph集群进行监控和告警的方法具有以下突出的有益效果:所述对ceph集群进行监控和告警的方法实现了针对ceph集群的慢请求的监控和告警,提高了发现ceph集群慢请求故障的时效性,与传统运维过程相比,在故障发生后能够及时通知到运维人员,提高运维效率;另外,在告警信息中明确了故障关键字,包括慢请求的数量和发生慢请求的OSD,该信息可以帮助运维人员迅速判断故障紧急性,同时免去了人工查找异常OSD的过程,进一步提升运维效率,具有良好的推广应用价值。
附图说明
图1是本发明所述对ceph集群进行监控和告警的方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的对ceph集群进行监控和告警的系统及方法作进一步详细说明。
实施例
本发明的对ceph集群进行监控和告警的系统,包括状态采集模块、数据分析模块和告警推送模块。
状态采集模块用于周期性采集ceph集群状态。
状态采集模块。状态采集模块周期性的采集ceph集群的状态信息,对采集到的ceph集群的状态信息按照时间序列进行保存,同时对采集的ceph集群的状态信息进行筛选,筛选出关于慢请求的信息,上报至数据分析模块。
数据分析模块用于分析收集状态采集模块采集的ceph集群状态信息。
数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求,则无动作,否则对上报的ceph集群的状态信息进行分析,统计出信息关键字,发送给告警推送模块。统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号。
告警推送模块用于将告警信息发送至运维人员。将告警信息以邮件等形式发送给相关运维人员,使运维人员可以及时发现故障并进行原因排查和环境恢复。
告警推送模块接收数据分析模块上报的信息关键字组装成告警信息,包括告警名称、告警时间、告警描述,并将告警信息发送给运维人员。其中告警推送模块,对于一段时间内的重复告警信息,不会进行重复发送,避免短时间内发送过多冗余信息,影响用户体验。
如图1所示,本发明的对ceph集群进行监控和告警的方法,基于所述的对ceph集群进行监控和告警的系统实现。具体包括以下步骤:
S1、对状态采集模块、数据分析模块和告警推送模块进行初始化,配置好ceph集群信息和告警推送的接收器。告警推送的接收器不限于邮件接收器,也可以是自定义的webhook接收器等。
S2、状态采集模块运行在ceph集群所在节点,周期性采集ceph集群的状态信息并筛选出关于慢请求的信息,将慢请求信息上报至数据分析模块。
S3、数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求的信息,则无动作,否则对上报的信息进行分析,统计出信息关键字,发送给告警推送模块。具体包括以下流程:
1)数据分析模块分析是否存在慢请求的状态;
2)若不存在慢请求的状态,跳转至5),否则转至3);
3)分析上报的信息并统计出信息关键字,统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号;
4)将统计的信息关键字发送至告警推送模块;
5)分析结束。
S4、告警推送模块接收到数据分析模块上报的信息关键字后,根据信息关键字组装成告警信息,将告警信息发送给运维人员。
告警推送模块接收数据分析模块上报的信息关键字组装成告警信息发送给运维人员,组装好的告警信息包括告警名称、告警时间、告警描述。对于一段时间内的重复告警信息,不会进行重复发送,避免短时间内发送过多冗余信息,影响用户体验。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种对ceph集群进行监控和告警的系统,其特征在于:包括状态采集模块、数据分析模块和告警推送模块,状态采集模块用于周期性采集ceph集群状态,数据分析模块用于分析收集状态采集模块采集的ceph集群状态信息,告警推送模块用于将告警信息发送至运维人员。
2.根据权利要求1所述的对ceph集群进行监控和告警的系统,其特征在于:所述状态采集模块周期性的采集ceph集群的状态信息,对采集的ceph集群的状态信息进行筛选,筛选出关于慢请求的信息,上报至数据分析模块。
3.根据权利要求2所述的对ceph集群进行监控和告警的系统,其特征在于:状态采集模块对采集到的ceph集群的状态信息按照时间序列进行保存。
4.根据权利要求3所述的对ceph集群进行监控和告警的系统,其特征在于:数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求,则无动作,否则对上报的ceph集群的状态信息进行分析,统计出信息关键字,发送给告警推送模块。
5.根据权利要求4所述的对ceph集群进行监控和告警的系统,其特征在于:数据分析模块统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号。
6.根据权利要求5所述的对ceph集群进行监控和告警的系统,其特征在于:所述告警推送模块接收数据分析模块上报的信息关键字组装成告警信息,包括告警名称、告警时间、告警描述,并将告警信息发送给运维人员。
7.一种对ceph集群进行监控和告警的方法,其特征在于:该方法基于权利要求1-6任意项所述的对ceph集群进行监控和告警的系统实现,具体包括以下步骤:
S1、对状态采集模块、数据分析模块和告警推送模块进行初始化,配置好ceph集群信息和告警推送的接收器;
S2、状态采集模块运行在ceph集群所在节点,周期性采集ceph集群的状态信息并筛选出关于慢请求的信息,将慢请求信息上报至数据分析模块;
S3、数据分析模块分析状态采集模块上报的ceph集群的状态信息,若不存在慢请求的信息,则无动作,否则对上报的信息进行分析,统计出信息关键字,发送给告警推送模块;
S4、告警推送模块接收到数据分析模块上报的信息关键字后,根据信息关键字组装成告警信息,将告警信息发送给运维人员。
8.根据权利要求7所述的对ceph集群进行监控和告警的方法,其特征在于:步骤S3中具体包括以下流程:
1)数据分析模块分析是否存在慢请求的状态;
2)若不存在慢请求的状态,跳转至5),否则转至3);
3)分析上报的信息并统计出信息关键字,统计的信息关键字包括发生故障的主机名、发生故障的时间、发生慢请求的数量以及发生慢请求故障的ceph OSD编号;
4)将统计的信息关键字发送至告警推送模块;
5)分析结束。
9.根据权利要求8所述的对ceph集群进行监控和告警的方法,其特征在于:所述告警推送模块接收数据分析模块上报的信息关键字组装成告警信息发送给运维人员,组装好的告警信息包括告警名称、告警时间、告警描述。
CN202010057439.3A 2020-01-19 2020-01-19 一种对ceph集群进行监控和告警的系统及方法 Pending CN111290909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057439.3A CN111290909A (zh) 2020-01-19 2020-01-19 一种对ceph集群进行监控和告警的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057439.3A CN111290909A (zh) 2020-01-19 2020-01-19 一种对ceph集群进行监控和告警的系统及方法

Publications (1)

Publication Number Publication Date
CN111290909A true CN111290909A (zh) 2020-06-16

Family

ID=71023246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057439.3A Pending CN111290909A (zh) 2020-01-19 2020-01-19 一种对ceph集群进行监控和告警的系统及方法

Country Status (1)

Country Link
CN (1) CN111290909A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035319A (zh) * 2020-08-31 2020-12-04 浪潮云信息技术股份公司 一种针对多路径状态的监控告警系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法
CN105119737A (zh) * 2015-07-16 2015-12-02 浪潮软件股份有限公司 一种通过Zabbix监控Ceph集群的方法
CN106354590A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 磁盘检测方法和装置
CN107291594A (zh) * 2017-06-30 2017-10-24 上海白虹软件科技股份有限公司 openstack平台对ceph进行监控和管理的装置及方法
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及系统
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
US20190042144A1 (en) * 2018-08-22 2019-02-07 Intel Corporation Distributed storage location hinting for non-volatile memories
CN109358816A (zh) * 2018-10-19 2019-02-19 网宿科技股份有限公司 一种分布式存储系统的流控方法及装置
CN109508325A (zh) * 2018-11-13 2019-03-22 郑州云海信息技术有限公司 一种集群文件系统的容量控制方法及装置
CN109669822A (zh) * 2018-11-28 2019-04-23 平安科技(深圳)有限公司 电子装置、备用存储池的创建方法和计算机可读存储介质
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
CN110083515A (zh) * 2019-04-24 2019-08-02 苏州元核云技术有限公司 分布式存储系统中慢盘的快速判断方法、装置及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法
CN105119737A (zh) * 2015-07-16 2015-12-02 浪潮软件股份有限公司 一种通过Zabbix监控Ceph集群的方法
CN106354590A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 磁盘检测方法和装置
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及系统
CN107291594A (zh) * 2017-06-30 2017-10-24 上海白虹软件科技股份有限公司 openstack平台对ceph进行监控和管理的装置及方法
CN109726072A (zh) * 2018-07-18 2019-05-07 平安科技(深圳)有限公司 WebLogic服务器的监控告警方法、装置、系统及计算机存储介质
US20190042144A1 (en) * 2018-08-22 2019-02-07 Intel Corporation Distributed storage location hinting for non-volatile memories
CN109298945A (zh) * 2018-10-17 2019-02-01 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理方法
CN109358816A (zh) * 2018-10-19 2019-02-19 网宿科技股份有限公司 一种分布式存储系统的流控方法及装置
CN109508325A (zh) * 2018-11-13 2019-03-22 郑州云海信息技术有限公司 一种集群文件系统的容量控制方法及装置
CN109669822A (zh) * 2018-11-28 2019-04-23 平安科技(深圳)有限公司 电子装置、备用存储池的创建方法和计算机可读存储介质
CN110083515A (zh) * 2019-04-24 2019-08-02 苏州元核云技术有限公司 分布式存储系统中慢盘的快速判断方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
佘楚玉等: "一种自适应文件系统元数据服务负载均衡策略", 《软件学报》 *
周丽等: "面向云文件系统的隔离性度量方法研究", 《计算机工程与科学》 *
李宇: "用于云存储数据服务器的I/O请求调度算法", 《西南交通大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035319A (zh) * 2020-08-31 2020-12-04 浪潮云信息技术股份公司 一种针对多路径状态的监控告警系统
CN112035319B (zh) * 2020-08-31 2023-12-26 浪潮云信息技术股份公司 一种针对多路径状态的监控告警系统

Similar Documents

Publication Publication Date Title
CN112131073B (zh) 服务器的监控方法和系统
CN109783322A (zh) 一种企业信息系统运行状态的监控分析系统及其方法
CN110493065B (zh) 一种云中心运维的告警关联度分析方法及系统
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN110535713B (zh) 监控管理系统以及监控管理方法
CN105468492A (zh) 一种基于搜索引擎的数据监控方法和系统
CN109871392B (zh) 一种分布式应用系统下的慢sql实时数据采集方法
CN110650038A (zh) 面向多类监管对象的安全事件日志采集处理方法和系统
CN112306700A (zh) 一种异常rpc请求的诊断方法和装置
CN111046011A (zh) 日志收集方法、系统、节点、电子设备及可读存储介质
CN112231296B (zh) 一种分布式日志处理方法、装置、系统、设备及介质
CN113722187B (zh) 一种面向微服务架构的服务监控系统
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN112069049A (zh) 数据监控管理方法、装置、服务器及可读存储介质
CN112052134A (zh) 一种业务数据的监控方法及装置
JP2020057416A (ja) 分散データベースにおけるデータブロックを処理する方法およびデバイス
CN117632897A (zh) 动态扩缩容方法及装置
CN111339466A (zh) 接口管理方法、装置、电子设备及可读存储介质
CN111290909A (zh) 一种对ceph集群进行监控和告警的系统及方法
KR102473637B1 (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN117891686A (zh) 一种基于微服务架构的监控及预警方法
CN113765717A (zh) 一种基于涉密专用计算平台的运维管理系统
CN116489005A (zh) 一种日志服务系统及日志处理方法
CN113535519B (zh) 一种监控告警方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200616