CN112035319B - 一种针对多路径状态的监控告警系统 - Google Patents

一种针对多路径状态的监控告警系统 Download PDF

Info

Publication number
CN112035319B
CN112035319B CN202010895514.3A CN202010895514A CN112035319B CN 112035319 B CN112035319 B CN 112035319B CN 202010895514 A CN202010895514 A CN 202010895514A CN 112035319 B CN112035319 B CN 112035319B
Authority
CN
China
Prior art keywords
multipath
module
alarm
tool
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895514.3A
Other languages
English (en)
Other versions
CN112035319A (zh
Inventor
李敏
蔡卫卫
谢涛涛
孙思清
赵磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010895514.3A priority Critical patent/CN112035319B/zh
Publication of CN112035319A publication Critical patent/CN112035319A/zh
Application granted granted Critical
Publication of CN112035319B publication Critical patent/CN112035319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种针对多路径状态的监控告警系统,涉及数据监控技术领域,其实现包括:使用SAN存储的主机节点配置multipath‑tool模块;Exporter模块对外暴露一个用于获取监控指标的http访问地址,Exporter模块一方面周期性调用multipath‑tool模块进行多路径状态的查询,另一方面对获取的多路径状态结果进行分析,形成监控指标及其监控值;Prometheus模块定期拉取、存储及展示Exporter模块分析得出的监控指标及其监控值;告警管理模块自定义配置告警规则及告警推送方式,并根据监控指标及告警规则判断是否有告警发生,若发生告警,则按照告警推送方式发出告警,提示运维人员进行处理。本发明可以避免打印太多垃圾日志及告警误报,可以使运维人员及时获知异常并进行运维修复,避免造成更严重的故障。

Description

一种针对多路径状态的监控告警系统
技术领域
本发明涉及数据监控技术领域,具体的说是一种针对多路径状态的监控告警系统。
背景技术
当前主流的存储架构主要包括三种:直连式存储(DAS)、网络连接存储(NAS)以及存储区域网络(Storage Area Network,SAN)。
DAS存储可以通过在服务器内部直接连接磁盘组,或者外接线连接磁盘阵列两种方式实现,这种存储方式对于服务器的扩展和存储容量的扩展均不友好,因为在扩展时需要业务系统的停机,对于要求7×24小时服务的业务系统来说不可接受。
NAS可以简单地理解为一台在网络上提供文档共享服务的网络存储服务器,NAS存储设备可以直接连接在以太网中,在该网络域内的主机上可以实现对该设备的访问。
SAN是通过某种交换机(例如光纤交换机)连接存储阵列和服务器等设备形成的一个专用存储网络,该网络可利用TCP/IP等网络协议与以太网互联,实现CS架构的服务端(存储)和客户端(主机)结构。SAN存储由于使用了专用网络,因此具有很好的隔离性,可以增强存储系统的可靠性和可用性,可以方便地使用数据备份、数据压缩等附加功能,提高存储系统利用率。
在SAN存储架构中,由于使用了光纤交换机,物理磁盘与主机的连接实际上是有多条路径的,即存储与主机之间看起来是多对多的关系,主机与存储之间的I/O可以有多条路径进行选择。在这种情况下,主机使用存储时,每条路径的I/O流量应该如何分配,如何某一条路径异常,存储连接是否会受到影响;对于操作系统而言,每条路径应该连接到一块物理磁盘,但是实际上这里只是连接到物理磁盘的一条路径,对于用户而言应该处理多条路径。为了解决以上问题,多路径软件multipath-tool应运而生。该软件可以将多条路径聚合,使用户只看到一条磁盘映射路径,而不必关心数据是如何传输的;同时,该软件可以对多条连接路径进行负载均衡,提高磁盘使用效率,当使用中的链路出现异常时,可以自动完成故障切换,保证用户使用不受影响,保护传输数据不丢失。
在多路径软件的帮助下,用户不会察觉链路出现的故障,但是对于运维人员和管理员来说,这种故障同样不易察觉,如果没有进行及时的修复,可能会导致更大的故障,从而影响用户的使用。为了保证用户使用多路径映射磁盘方式的稳定性,需要对多路径的状态进行监控,对于发生的故障及时进行告警,提示运维人员进行故障定位和修复处理。
发明内容
SAN存储环境中使用多路径软件进行路径聚合、I/O负载均衡和故障切换,该软件实现了用户对故障无感知,但同时对运维人员和管理员也是无感知的。为了避免故障没有被及时发现从而造成更严重的后果,本发明提供一种针对多路径状态的监控告警系统,以对故障及时发现和进行告警。
本发明的一种针对多路径状态的监控告警系统,解决上述技术问题采用的技术方案如下:
一种针对多路径状态的监控告警系统,其包括multipath-tool模块、Exporter模块、Prometheus模块、告警管理模块四部分,经前述四部分对多路径状态进行监控告警的实现步骤为:
1)使用SAN存储的主机节点配置multipath-tool模块,multipath-tool模块用于数据的采集,multipath-tool模块的多路径软件multipath-tool由操作系统提供;
2)Exporter模块对外暴露一个用于获取监控指标的http访问地址,Exporter模块一方面周期性调用multipath-tool模块进行多路径状态的查询,另一方面对获取的多路径状态结果进行分析,形成监控指标及其监控值;
3)Prometheus模块定期拉取Exporter模块分析得出的监控指标及其监控值,并对监控指标及其监控值进行存储及展示,方便运维人员及管理员随时进行查看;
4)告警管理模块自定义配置告警规则及告警推送方式,根据Prometheus模块拉取的监控指标以及自定义的告警规则判断是否有告警发生,若发生告警,则按照自定义配置的推送方式将告警发出,提示运维人员进行处理。
进一步的,所涉及multipath-tool模块在集群部署中可以随节点软件包部署,以在有监控告警需求时,直接启动多路径软件multipath-tool。
更进一步的,所涉及multipath-tool模块可以直接使用默认配置,也可以对多路径软件multipath-tool进行自定义配置以适应业务需要。
进一步的,所涉及Exporter模块进行多路径状态查询的具体操作为:
2.1)通过Exporter模块初始化监控指标,包括指示软件运行状态和多路径链路状态的指标;
2.2)通过Exporter模块配置默认的拉取多路径状态的周期及端口,所述配置信息可以在使用过程中自行修改;
2.3)查询多路径软件multipath-tool的运行状态,即查询多路径软件multipath-tool是否发生故障并造成链路异常;
2.4)在多路径软件multipath-tool运行状态正常时,进一步以关键字failed进行检查多路径软件multipath-tool的输出信息,分析输出信息是否存在异常映射的链路,若分析结果不存在异常映射的链路,形成指示多路径软件multipath-tool运行状态的指标值,若析结果存在异常映射的链路,则直接打印异常日志;
2.5)在多路径软件multipath-tool运行状态异常时,则停止链路检查。
更进一步的,步骤2.2)中,拉取多路径状态的端口号可以自行指定,只要不与当前环境中应用使用的端口冲突即可。
更进一步的,步骤2.3)中,查询多路径软件multipath-tool的运行状态,即是查询多路径软件multipath-tool是否发生故障并造成链路异常:
在不是多路径软件multipath-tool发生故障并造成链路异常时,执行步骤2.4),
在是多路径软件multipath-tool发生故障并造成链路异常时,执行步骤2.5)。
优选的,所涉及Exporter模块可以根据需求配置获取监控指标及其监控值的时间间隔。
优选的,所涉及Exporter模块可以直接对接通用的告警解决方案Prometheus,便于部署升级。
进一步的,所涉及告警管理模块的告警推送具有时间间隔,所述告警管理模块不会重复发送设定时间段内重复出现的告警信息。
更进一步的,所涉及告警管理模块的告警推送方式通过Restful API形式发送。
本发明的一种针对多路径状态的监控告警系统,与现有技术相比具有的有益效果是:
本发明通过Exporter模块、Prometheus模块监控多路径的运行状态,通过告警管理模块判断是否有告警发生,并在发生告警时,按照自定义配置的推送方式将告警发出,提示运维人员进行处理;通过监控多路径的运行状态,并在多路径的运行状态发生异常时进行告警,可以避免打印太多垃圾日志以及告警误报,还可以使运维人员及时获知异常并进行运维修复,避免造成更严重的故障导致影响用户使用。
附图说明
附图1是本发明的架构流程图;
附图2是本发明中Exporter模块的工作流程架构图。
附图中各标号信息表示:
1、multipath-tool模块,2、Exporter模块,3、Prometheus模块,
4、告警管理模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种针对多路径状态的监控告警系统,其包括multipath-tool模块1、Exporter模块2、Prometheus模块3、告警管理模块4四部分。
multipath-tool模块1用于数据的采集;
Exporter模块2一方面调用multipath-tool模块1拉取相关数据,另一方面对数据进行处理,形成监控指标;
Prometheus模块3用于定时从Exporter模块2拉取监控指标及数据;
告警管理模块4用于配置告警规则并进行告警推送。
基于multipath-tool模块1、Exporter模块2、Prometheus模块3、告警管理模块4,对多路径状态进行监控告警的实现步骤为:
S1、使用SAN存储的主机节点配置multipath-tool模块1,multipath-tool模块1用于数据的采集,multipath-tool模块1的软件包由操作系统提供。
本步骤中,使用SAN存储的主机节点配置multipath-tool模块1时,multipath-tool模块1在集群部署中可以随节点软件包部署,以在有监控告警需求时,直接启动多路径软件multipath-tool。
本步骤中,multipath-tool模块1可以直接使用默认配置,也可以对多路径软件multipath-tool进行自定义配置以适应业务需要。
S2、Exporter模块2对外暴露一个用于获取监控指标的http访问地址,Exporter模块2一方面周期性调用multipath-tool模块1进行多路径状态的查询,另一方面对获取的多路径状态结果进行分析,形成监控指标及其监控值。
结合附图2,本步骤中,Exporter模块2进行多路径状态查询的具体操作为:
S2.1、通过Exporter模块2初始化监控指标,包括指示软件运行状态和多路径链路状态的指标;
S2.2、通过Exporter模块2配置默认的拉取多路径状态的周期及端口,拉取多路径状态的端口号可以自行指定,只要不与当前环境中应用使用的端口冲突即可,配置的周期及端口信息可以在使用过程中自行修改;
S2.3、查询多路径软件multipath-tool的运行状态,即是查询多路径软件multipath-tool是否发生故障并造成链路异常:
若否,执行步骤2.4),
若是,执行步骤2.5);
S2.4、多路径软件multipath-tool运行状态正常,进一步以关键字failed进行检查多路径软件multipath-tool的输出信息,分析输出信息是否存在异常映射的链路,若分析结果不存在异常映射的链路,形成指示多路径软件multipath-tool运行状态的指标值,若析结果存在异常映射的链路,则直接打印异常日志;
S2.5、多路径软件multipath-tool运行状态异常,停止链路检查。因为多路径软件multipath-tool正常运行是链路可正常使用的必要条件,因此不必再耗费资源进行链路状态的检查。
本步骤中,Exporter模块2可以根据需求配置获取监控指标及其监控值的时间间隔。
本步骤中,Exporter模块2可以直接对接通用的告警解决方案Prometheus,便于部署升级。
S3、Prometheus模块3定期拉取Exporter模块2分析得出的监控指标及其监控值,并对监控指标及其监控值进行存储及展示,方便运维人员及管理员随时进行查看。
S4、告警管理模块4自定义配置告警规则及告警推送方式,根据Prometheus模块3拉取的监控指标以及自定义的告警规则判断是否有告警发生,若发生告警,则按照自定义配置的推送方式将告警发出,提示运维人员进行处理。
本步骤中,告警管理模块4的告警推送具有时间间隔,告警管理模块4不会重复发送设定时间段内重复出现的告警信息,避免短时间内发送过多冗余信息,影响用户体验。
本步骤中,告警管理模块4的告警推送方式通过Restful API形式发送,便于对接一些可实现自动化运维的解决方案。
综上可知,采用本发明的一种针对多路径状态的监控告警系统,可以避免打印太多垃圾日志以及告警误报,还可以使运维人员及时获知异常并进行运维修复,避免造成更严重的故障导致影响用户使用。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种针对多路径状态的监控告警系统,其特征在于,其包括multipath-tool模块、Exporter模块、Prometheus模块、告警管理模块四部分,经前述四部分对多路径状态进行监控告警的实现步骤为:
1)使用SAN存储的主机节点配置multipath-tool模块,multipath-tool模块用于数据的采集,multipath-tool模块的多路径软件multipath-tool由操作系统提供;
2)Exporter模块对外暴露一个用于获取监控指标的http访问地址,Exporter模块一方面周期性调用multipath-tool模块进行多路径状态的查询,另一方面对获取的多路径状态结果进行分析,形成监控指标及其监控值;
3)Prometheus模块定期拉取Exporter模块分析得出的监控指标及其监控值,并对监控指标及其监控值进行存储及展示,方便运维人员及管理员随时进行查看;
4)告警管理模块自定义配置告警规则及告警推送方式,根据Prometheus模块拉取的监控指标以及自定义的告警规则判断是否有告警发生,若发生告警,则按照自定义配置的推送方式将告警发出,提示运维人员进行处理。
2.根据权利要求1所述的一种针对多路径状态的监控告警系统,其特征在于,所述multipath-tool模块在集群部署中可以随节点软件包部署,以在有监控告警需求时,直接启动多路径软件multipath-tool。
3.根据权利要求2所述的一种针对多路径状态的监控告警系统,其特征在于,所述multipath-tool模块可以直接使用默认配置,也可以对多路径软件multipath-tool进行自定义配置以适应业务需要。
4.根据权利要求1所述的一种针对多路径状态的监控告警系统,其特征在于,所述Exporter模块进行多路径状态查询的具体操作为:
2.1)通过Exporter模块初始化监控指标,包括指示软件运行状态和多路径链路状态的指标;
2.2)通过Exporter模块配置默认的拉取多路径状态的周期及端口,所述配置信息可以在使用过程中自行修改;
2.3)查询多路径软件multipath-tool的运行状态,即查询多路径软件multipath-tool是否发生故障并造成链路异常;
2.4)在多路径软件multipath-tool运行状态正常时,进一步以关键字failed进行检查多路径软件multipath-tool的输出信息,分析输出信息是否存在异常映射的链路,若分析结果不存在异常映射的链路,形成指示多路径软件multipath-tool运行状态的指标值,若析结果存在异常映射的链路,则直接打印异常日志;
2.5)在多路径软件multipath-tool运行状态异常时,则停止链路检查。
5.根据权利要求4所述的一种针对多路径状态的监控告警系统,其特征在于,所述步骤2.2)中,拉取多路径状态的端口号可以自行指定,只要不与当前环境中应用使用的端口冲突即可。
6.根据权利要求4所述的一种针对多路径状态的监控告警系统,其特征在于,步骤2.3)中,查询多路径软件multipath-tool的运行状态,即是查询多路径软件multipath-tool是否发生故障并造成链路异常:
在不是多路径软件multipath-tool发生故障并造成链路异常时,执行步骤2.4),
在是多路径软件multipath-tool发生故障并造成链路异常时,执行步骤2.5)。
7.根据权利要求1-6中任一项所述的一种针对多路径状态的监控告警系统,其特征在于,所述Exporter模块可以根据需求配置获取监控指标及其监控值的时间间隔。
8.根据权利要求7所述的一种针对多路径状态的监控告警系统,其特征在于,所述Exporter模块可以直接对接通用的告警解决方案Prometheus,便于部署升级。
9.根据权利要求1所述的一种针对多路径状态的监控告警系统,其特征在于,所述告警管理模块的告警推送具有时间间隔,所述告警管理模块不会重复发送设定时间段内重复出现的告警信息。
10.根据权利要求9所述的一种针对多路径状态的监控告警系统,其特征在于,所述告警管理模块的告警推送方式通过Restful API形式发送。
CN202010895514.3A 2020-08-31 2020-08-31 一种针对多路径状态的监控告警系统 Active CN112035319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895514.3A CN112035319B (zh) 2020-08-31 2020-08-31 一种针对多路径状态的监控告警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895514.3A CN112035319B (zh) 2020-08-31 2020-08-31 一种针对多路径状态的监控告警系统

Publications (2)

Publication Number Publication Date
CN112035319A CN112035319A (zh) 2020-12-04
CN112035319B true CN112035319B (zh) 2023-12-26

Family

ID=73587159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895514.3A Active CN112035319B (zh) 2020-08-31 2020-08-31 一种针对多路径状态的监控告警系统

Country Status (1)

Country Link
CN (1) CN112035319B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559281A (zh) * 2020-12-07 2021-03-26 恩亿科(北京)数据科技有限公司 一种基于配置的告警路由系统和方法
CN112332914B (zh) * 2021-01-07 2021-04-06 睿至科技集团有限公司 一种存储网络中光纤链路故障监控方法及系统
CN113037547A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种资源性能采集监控与告警系统
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN114116282B (zh) * 2021-11-12 2023-08-18 苏州浪潮智能科技有限公司 一种网络附加存储故障上报并修复的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014142898A1 (en) * 2013-03-14 2014-09-18 Hitachi, Ltd. Method and apparatus of disaster recovery virtualization
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN111290909A (zh) * 2020-01-19 2020-06-16 山东汇贸电子口岸有限公司 一种对ceph集群进行监控和告警的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014142898A1 (en) * 2013-03-14 2014-09-18 Hitachi, Ltd. Method and apparatus of disaster recovery virtualization
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN111290909A (zh) * 2020-01-19 2020-06-16 山东汇贸电子口岸有限公司 一种对ceph集群进行监控和告警的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SaaS的校园网监控平台的设计与实现;章勇;;中国教育网络(第12期);全文 *

Also Published As

Publication number Publication date
CN112035319A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN112035319B (zh) 一种针对多路径状态的监控告警系统
US6701449B1 (en) Method and apparatus for monitoring and analyzing network appliance status information
US6918051B2 (en) Node shutdown in clustered computer system
CN109344014B (zh) 一种主备切换方法、装置及通信设备
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
CN107147540A (zh) 高可用性系统中的故障处理方法和故障处理集群
CN105323113A (zh) 一种基于可视化技术的系统故障应急处置系统及方法
US7937481B1 (en) System and methods for enterprise path management
CN112003721B (zh) 一种大数据平台管理节点高可用的实现方法及装置
CN103490914A (zh) 一种网络应用设备多机热备的切换系统及方法
US20160191359A1 (en) Reactive diagnostics in storage area networks
JP4464256B2 (ja) ネットワーク上位監視装置
CN111181764A (zh) 一种基于ovs的主备切换方法及其系统
WO2012155648A1 (zh) 一种北向通知管理接口装置及其管理方法
US9118540B2 (en) Method for monitoring a plurality of rack systems
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN111309515A (zh) 一种容灾控制方法、装置及系统
CN113162797B (zh) 一种分布式集群的主节点故障的切换方法、系统及介质
CN102638369B (zh) 一种主备倒换的仲裁方法、装置和系统
JP2014532236A (ja) 接続方法
CN113961406A (zh) 一种服务器资产故障处理方法、系统及计算机存储介质
JP2012075009A (ja) 冗長化装置及び冗長化プログラム
JP5631285B2 (ja) 障害監視システムおよび障害監視方法
JP2003273930A (ja) ネットワーク障害監視方法、通信システムおよび回線切替装置
Kitamura Configuration of a Power-saving High-availability Server System Incorporating a Hybrid Operation Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant