CN105119737A - 一种通过Zabbix监控Ceph集群的方法 - Google Patents

一种通过Zabbix监控Ceph集群的方法 Download PDF

Info

Publication number
CN105119737A
CN105119737A CN201510418268.1A CN201510418268A CN105119737A CN 105119737 A CN105119737 A CN 105119737A CN 201510418268 A CN201510418268 A CN 201510418268A CN 105119737 A CN105119737 A CN 105119737A
Authority
CN
China
Prior art keywords
zabbix
ceph cluster
monitoring
monitored
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510418268.1A
Other languages
English (en)
Inventor
李国涛
周庆勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201510418268.1A priority Critical patent/CN105119737A/zh
Publication of CN105119737A publication Critical patent/CN105119737A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种通过Zabbix监控Ceph集群的方法,属于Ceph集群的监控方法,本发明要解决Ceph集群出现异常时难以分析的问题。技术方案为:Ceph集群的服务器通过千兆网或万兆网进行互联,Zabbix采用服务端及客户端的架构,包括如下步骤:(1)、Zabbix服务端使用单独一台服务器部署,将Zabbix客户端部署在Ceph集群对应的服务器上;(2)、在Zabbix服务端选择要添加监控项的Ceph集群对应的服务器,之后在相应服务器上添加监控项;(3)、利用Ceph集群提供的API,加之Zabbix的自定义监控功能,实现对Ceph集群的监控;(4)、监控Ceph集群的整体健康状态、MON服务状态、OSD服务状态,当状态发生异常,发出报警;监控Ceph集群的操作,并用图表进行展示。

Description

一种通过Zabbix监控Ceph集群的方法
技术领域
  本发明涉及一种Ceph集群的监控方法,具体地说是一种通过Zabbix监控Ceph集群的方法。
背景技术
Ceph集群是统一存储系统,支持三种接口:Object(对象):有原生的API,而且也兼容Swift和S3的API;Block(块):支持精简配置、快照、克隆;File(文件):Posix接口,支持快照。Ceph也是分布式存储系统,它的特点是:高扩展性:使用普通x86服务器,支持10~1000台服务器,支持TB到PB级的扩展;高可靠性:没有单点故障,多数据副本,自动管理,自动修复;高性能:数据分布均衡,并行化度程度高。对于objectsstorage(对象存储)和blockstorage(块存储),不需要元数据服务器。
Zabbix是一个基于Web界面的,提供分布式系统监视以及网络监视功能的企业级的开源解决方案。Zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供弹性的通知机制以让系统管理员快速定位并解决存在的各种问题。
Ceph功能如此犀利,但对其监控却很不方便。尤其是出现问题时,很难定位。
发明内容
  本发明的技术任务是针对以上不足之处,提供一种通过Zabbix监控Ceph集群的方法,来解决Ceph集群出现异常时难以分析、解决的问题。
本发明解决其技术问题所采用的技术方案是:
一种通过Zabbix监控Ceph集群的方法,Ceph集群的服务器通过千兆网或万兆网进行互联,Zabbix采用服务端及客户端的架构,包括如下步骤:
(1)、Zabbix服务端使用单独一台服务器部署,将Zabbix客户端部署在Ceph集群对应的服务器上;
(2)、在Zabbix服务端选择要添加监控项的Ceph集群对应的服务器,之后在相应服务器上添加监控项;
(3)、利用Ceph集群提供的API,加之Zabbix的自定义监控功能,实现对Ceph集群的监控;
(4)、监控Ceph集群的整体健康状态、MON服务状态、OSD服务状态,当状态发生异常,发出报警;监控Ceph集群的操作,并用图表进行展示。
步骤(2)中的监控项包括CPU负载、内存使用率、磁盘使用率、网络流量。
通过Zabbix监控Ceph集群的流程如下:
①、编写Ceph集群的进程监控脚本,获取监控项的具体值;
②、根据监控项的具体值内的进程的名称或进程的端口号来判定该进程是否存在;
如果传送的监控项的具体值内包含进程的端口号,则根据端口号判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;如果监控项的具体值内不包含进程的端口号,根据进程的名称判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;
③、在zabbix_agentd.conf文件中定义UserParameter,格式为:用户参数=键值[*],命令;
④、配置Item,通过键值来控制传参,其中键值和zabbix_agentd.conf中定义的UserParameter一致;
⑤、接着查看监控项的具体值情况,如果数据为1,则监控正常;
⑥、配置触发器,用来报警,最后一次的值是0则触发报警;
⑦、进行宕服务测试,在ceph集群的服务器端,宕掉MON服务或OSD服务,测试定制的相应时间后会不会收到邮件报警。
将错误日志存入MongoDB数据库,用来存储实时的监控数据和历史信息,供开发或维护人员用来进行离线分析之用。
本发明的一种通过Zabbix监控Ceph集群的方法和现有技术相比,具有以下有益效果:
1、借助Zabbix提供的强大监控功能,加之Ceph集群本身提供的API和日志,对Ceph集群的运行情况进行全方面的监控,出现问题时简单快速定位;
2、具有实时监控、离线分析等特点,使原本复杂的Ceph集群的监控分析变得简单易行;
3、使用简单、性能优越。
附图说明
下面结合附图对本发明进一步说明。
附图1为一种通过Zabbix监控Ceph集群的方法的架构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:
本发明的一种通过Zabbix监控Ceph集群的方法,Ceph集群的服务器通过千兆网或万兆网进行互联,Zabbix采用服务端及客户端的架构,包括如下步骤:
(1)、Zabbix服务端使用单独一台服务器部署,将Zabbix客户端部署在Ceph集群对应的服务器上;
(2)、在Zabbix服务端选择要添加监控项的Ceph集群对应的服务器,之后在相应服务器上添加监控项;
(3)、利用Ceph集群提供的API,加之Zabbix的自定义监控功能,实现对Ceph集群的监控;
(4)、监控Ceph集群的整体健康状态、MON服务状态、OSD服务状态,当状态发生异常,发出报警;监控Ceph集群的操作,并用图表进行展示。
步骤(2)中的监控项包括CPU负载、内存使用率、磁盘使用率、网络流量。
实施例2:
本发明的一种通过Zabbix监控Ceph集群的方法,Ceph集群的服务器通过千兆网或万兆网进行互联,Zabbix采用服务端及客户端的架构,包括如下步骤:
(1)、Zabbix服务端使用单独一台服务器部署,将Zabbix客户端部署在Ceph集群对应的服务器上;
(2)、在Zabbix服务端选择要添加监控项的Ceph集群对应的服务器,之后在相应服务器上添加监控项;
(3)、利用Ceph集群提供的API,加之Zabbix的自定义监控功能,实现对Ceph集群的监控;
(4)、监控Ceph集群的整体健康状态、MON服务状态、OSD服务状态,当状态发生异常,发出报警;监控Ceph集群的操作,并用图表进行展示。
步骤(2)中的监控项包括CPU负载、内存使用率、磁盘使用率、网络流量。
通过Zabbix监控Ceph集群的流程如下:
①、编写Ceph集群的进程监控脚本,获取监控项的具体值;
②、根据监控项的具体值内的进程的名称或进程的端口号来判定该进程是否存在;
如果传送的监控项的具体值内包含进程的端口号,则根据端口号判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;如果监控项的具体值内不包含进程的端口号,根据进程的名称判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;
③、在zabbix_agentd.conf文件中定义UserParameter,格式为:用户参数=键值[*],命令;
④、配置Item,通过键值来控制传参,其中键值和zabbix_agentd.conf中定义的UserParameter一致;
⑤、接着查看监控项的具体值情况,如果数据为1,则监控正常;
⑥、配置触发器,用来报警,最后一次的值是0则触发报警;
⑦、进行宕服务测试,在ceph集群的服务器端,宕掉MON服务或OSD服务,测试定制的相应时间后会不会收到邮件报警。
将错误日志存入MongoDB数据库,用来存储实时的监控数据和历史信息,供开发或维护人员用来进行离线分析之用。
图1中,MongoDB是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。MongoDB很好的实现了面向对象的思想(OO思想),在MongoDB中每一条记录都是一个Document对象。MongoDB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。Cephprobe用于:收集集群信息,只需要安装在某一个ceph节点。Sysprobe用于:收集系统信息,必须被安装在所有ceph节点上。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (4)

1.一种通过Zabbix监控Ceph集群的方法,其特征在于Ceph集群的服务器通过千兆网或万兆网进行互联,Zabbix采用服务端及客户端的架构,包括如下步骤:
(1)、Zabbix服务端使用单独一台服务器部署,将Zabbix客户端部署在Ceph集群对应的服务器上;
(2)、在Zabbix服务端选择要添加监控项的Ceph集群对应的服务器,之后在相应服务器上添加监控项;
(3)、利用Ceph集群提供的API,加之Zabbix的自定义监控功能,实现对Ceph集群的监控;
(4)、监控Ceph集群的整体健康状态、MON服务状态、OSD服务状态,当状态发生异常,发出报警;监控Ceph集群的操作,并用图表进行展示。
2.根据权利要求1所述的一种通过Zabbix监控Ceph集群的方法,其特征在于步骤(2)中的监控项包括CPU负载、内存使用率、磁盘使用率、网络流量。
3.根据权利要求2所述的一种通过Zabbix监控Ceph集群的方法,其特征在于通过Zabbix监控Ceph集群的流程如下:
①、编写Ceph集群的进程监控脚本,获取监控项的具体值;
②、根据监控项的具体值内的进程的名称或进程的端口号来判定该进程是否存在;
如果传送的监控项的具体值内包含进程的端口号,则根据端口号判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;如果监控项的具体值内不包含进程的端口号,根据进程的名称判断进程是否存在,进程存在则返回值为1,进程不存在则返回值为0;
③、在zabbix_agentd.conf文件中定义UserParameter,格式为:用户参数=键值[*],命令;
④、配置Item,通过键值来控制传参,其中键值和zabbix_agentd.conf中定义的UserParameter一致;
⑤、接着查看监控项的具体值情况,如果数据为1,则监控正常;
⑥、配置触发器,用来报警,最后一次的值是0则触发报警;
⑦、进行宕服务测试,在ceph集群的服务器端,宕掉MON服务或OSD服务,测试定制的相应时间后会不会收到邮件报警。
4.根据权利要求3所述的一种通过Zabbix监控Ceph集群的方法,其特征在于将错误日志存入MongoDB数据库,用来存储实时的监控数据和历史信息。
CN201510418268.1A 2015-07-16 2015-07-16 一种通过Zabbix监控Ceph集群的方法 Pending CN105119737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510418268.1A CN105119737A (zh) 2015-07-16 2015-07-16 一种通过Zabbix监控Ceph集群的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510418268.1A CN105119737A (zh) 2015-07-16 2015-07-16 一种通过Zabbix监控Ceph集群的方法

Publications (1)

Publication Number Publication Date
CN105119737A true CN105119737A (zh) 2015-12-02

Family

ID=54667635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510418268.1A Pending CN105119737A (zh) 2015-07-16 2015-07-16 一种通过Zabbix监控Ceph集群的方法

Country Status (1)

Country Link
CN (1) CN105119737A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844201A (zh) * 2016-12-30 2017-06-13 北京五八信息技术有限公司 测试环境部署方法和系统
CN107291594A (zh) * 2017-06-30 2017-10-24 上海白虹软件科技股份有限公司 openstack平台对ceph进行监控和管理的装置及方法
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN108156215A (zh) * 2017-11-20 2018-06-12 广东睿江云计算股份有限公司 一种XenServer存储设备的监控方法、系统
CN108551481A (zh) * 2018-04-16 2018-09-18 武汉斗鱼网络科技有限公司 一种文件上传方法、装置、服务器及存储介质
CN108965403A (zh) * 2018-06-27 2018-12-07 平安科技(深圳)有限公司 运维监控连接的建立方法及终端设备
CN109218109A (zh) * 2018-10-17 2019-01-15 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理系统
CN109302499A (zh) * 2018-11-30 2019-02-01 成都华栖云科技有限公司 一种可兼容访问nas存储和oss存储的存储网关
CN109451066A (zh) * 2018-12-27 2019-03-08 郑州云海信息技术有限公司 一种集群监控管理方法、系统以及计算机可读存储介质
CN109495335A (zh) * 2017-09-12 2019-03-19 阿里巴巴集团控股有限公司 业务监控方法、装置、系统及电子设备
CN111290909A (zh) * 2020-01-19 2020-06-16 山东汇贸电子口岸有限公司 一种对ceph集群进行监控和告警的系统及方法
CN112783723A (zh) * 2021-01-20 2021-05-11 北京首汽智行科技有限公司 一种Java虚拟机监控方法
CN113254305A (zh) * 2021-05-08 2021-08-13 山东英信计算机技术有限公司 一种显示测试机离线状态的方法、系统、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062783B1 (en) * 2001-12-21 2006-06-13 Mcafee, Inc. Comprehensive enterprise network analyzer, scanner and intrusion detection framework
CN104579840A (zh) * 2015-01-08 2015-04-29 浪潮软件集团有限公司 一种基于zabbix的网络监控系统
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN104699419A (zh) * 2013-12-09 2015-06-10 陈勋元 分布式内存磁盘群集储存系统运作方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062783B1 (en) * 2001-12-21 2006-06-13 Mcafee, Inc. Comprehensive enterprise network analyzer, scanner and intrusion detection framework
CN104699419A (zh) * 2013-12-09 2015-06-10 陈勋元 分布式内存磁盘群集储存系统运作方法
CN104579840A (zh) * 2015-01-08 2015-04-29 浪潮软件集团有限公司 一种基于zabbix的网络监控系统
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844201A (zh) * 2016-12-30 2017-06-13 北京五八信息技术有限公司 测试环境部署方法和系统
CN107291594A (zh) * 2017-06-30 2017-10-24 上海白虹软件科技股份有限公司 openstack平台对ceph进行监控和管理的装置及方法
CN109495335A (zh) * 2017-09-12 2019-03-19 阿里巴巴集团控股有限公司 业务监控方法、装置、系统及电子设备
CN107729185A (zh) * 2017-10-26 2018-02-23 新华三技术有限公司 一种故障处理方法及装置
CN107729185B (zh) * 2017-10-26 2020-12-04 新华三技术有限公司 一种故障处理方法及装置
CN108156215A (zh) * 2017-11-20 2018-06-12 广东睿江云计算股份有限公司 一种XenServer存储设备的监控方法、系统
CN108156215B (zh) * 2017-11-20 2021-01-15 广东睿江云计算股份有限公司 一种XenServer存储设备的监控方法、系统
CN108551481A (zh) * 2018-04-16 2018-09-18 武汉斗鱼网络科技有限公司 一种文件上传方法、装置、服务器及存储介质
CN108551481B (zh) * 2018-04-16 2021-02-02 武汉斗鱼网络科技有限公司 一种文件上传方法、装置、服务器及存储介质
CN108965403A (zh) * 2018-06-27 2018-12-07 平安科技(深圳)有限公司 运维监控连接的建立方法及终端设备
CN109218109A (zh) * 2018-10-17 2019-01-15 北京京航计算通讯研究所 面向大数据平台的Ceph分布式存储监控与调优管理系统
CN109302499A (zh) * 2018-11-30 2019-02-01 成都华栖云科技有限公司 一种可兼容访问nas存储和oss存储的存储网关
CN109451066A (zh) * 2018-12-27 2019-03-08 郑州云海信息技术有限公司 一种集群监控管理方法、系统以及计算机可读存储介质
CN111290909A (zh) * 2020-01-19 2020-06-16 山东汇贸电子口岸有限公司 一种对ceph集群进行监控和告警的系统及方法
CN112783723A (zh) * 2021-01-20 2021-05-11 北京首汽智行科技有限公司 一种Java虚拟机监控方法
CN113254305A (zh) * 2021-05-08 2021-08-13 山东英信计算机技术有限公司 一种显示测试机离线状态的方法、系统、设备和存储介质
CN113254305B (zh) * 2021-05-08 2022-08-02 山东英信计算机技术有限公司 一种显示测试机离线状态的方法、系统、设备和存储介质

Similar Documents

Publication Publication Date Title
CN105119737A (zh) 一种通过Zabbix监控Ceph集群的方法
US8635376B2 (en) Computer system input/output management
CA2835446C (en) Data analysis system
CN104022902A (zh) 一种监控服务器集群的方法和系统
US7593351B1 (en) Method and system for collecting and consolidating network traffic information
CN108092836A (zh) 一种服务器的监控方法及装置
CN111884878A (zh) 基于区块链的数据监控方法
CN107704387B (zh) 用于系统预警的方法、装置、电子设备及计算机可读介质
CN109462490B (zh) 视频监控系统及故障分析方法
CN105302697B (zh) 一种密集数据模型数据库的运行状态监控方法及系统
US10289522B2 (en) Autonomous information technology diagnostic checks
CN105450292A (zh) 一种故障诊断分析方法、装置及系统
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN108228422A (zh) 存储型服务器管理系统与方法
CN110912755A (zh) 一种云环境下网卡故障监控与自动恢复的系统及方法
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN109213657B (zh) 一种电网运行数据云储存装置
CN114064402A (zh) 服务器系统监控方法
CN105825641A (zh) 一种业务报警方法和装置
CN108064054B (zh) 一种lte系统中的ftp文件传输监控方法及系统
CN112486776A (zh) 一种集群成员节点可用性监测设备及方法
CN106897189A (zh) 一种基于数据实时推送的日志监控系统
US8464276B1 (en) Channel monitoring in a messaging-middleware environment
CN110798352A (zh) 一种移动应用支撑系统中全景监控系统
US20140359109A1 (en) Device monitoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151202

WD01 Invention patent application deemed withdrawn after publication