CN115174356A - 一种集群告警上报方法、装置、设备及介质 - Google Patents

一种集群告警上报方法、装置、设备及介质 Download PDF

Info

Publication number
CN115174356A
CN115174356A CN202210890233.8A CN202210890233A CN115174356A CN 115174356 A CN115174356 A CN 115174356A CN 202210890233 A CN202210890233 A CN 202210890233A CN 115174356 A CN115174356 A CN 115174356A
Authority
CN
China
Prior art keywords
node
module
cluster
alarm
detection information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210890233.8A
Other languages
English (en)
Inventor
庆隆阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210890233.8A priority Critical patent/CN115174356A/zh
Publication of CN115174356A publication Critical patent/CN115174356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种集群告警上报方法、装置、设备及介质,涉及分布式存储领域,该方法应用于预设存储集群,包括:分别控制当前预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;若任一主节点检测到心跳信息异常,则确定当前告警类型;若为节点级告警,则控制集群中第一模块中的备节点对第二模块中的节点进行节点级告警检测,并将告警检测信息上报至第一模块中的主节点,以便第一模块中的主节点将告警检测信息进行入库;若为集群级告警,则控制集群中第一模块中主节点对第二模块中的主节点进行集群级告警检测,并将告警检测信息进行入库。本发明引入心跳机制实现告警的检测与上报多活,强化了存储集群的鲁棒性。

Description

一种集群告警上报方法、装置、设备及介质
技术领域
本发明涉及分布式存储领域,特别涉及一种集群告警上报方法、装置、设备及介质。
背景技术
存储集群,指将多台存储设备聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。告警,指当系统使用者操作不当或者系统遭受外界攻击时系统会发生故障,此时监控单元将视故障情况给出告警信号,同时向远端检测中心发出告警检测信息,能够让系统使用者或者维护者随时了解系统的整体运行情况,可以及时采取应对措施,进最大可能减少损失。
在存储集群的应用中,如果集群产生故障告警时,可能会出现无法及时准确推送或者出现告警丢失的情况,此时存储集群使用者无法及时感知集群运行健康状态、数据存储状态和故障出现原因,这会对存储集群的后续使用产生重大影响,产生的后果也是无法估量的,例如整个存储集群系统的崩溃、节点宕机、数据丢失等。
由上可见,在集群产生故障告警时,如何避免出现无法及时推送告警或告警丢失导致使用者无法及时感知集群的运行情况的情况是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种集群告警上报方法、装置、设备及介质,能够通过引入心跳机制,实现告警检测上报的多活,一旦集群产生故障,可及时、准确、无遗漏地实现告警上报,强化存储集群告警上报的鲁棒性。其具体方案如下:
第一方面,本申请公开了一种集群告警上报方法,应用于预设存储集群,包括:
分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;
若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;
若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;
若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
可选的,所述的集群告警上报方法,还包括:
若所述各主节点检测到接收到的各主节点的心跳信息为正常,则确定当前告警类型;
若所述当前告警类型为节点级告警,则控制集群中所有节点对本节点进行节点级告警检测;控制第二模块中的各备节点将本节点生成的第一告警检测信息上报至所述第二模块中的主节点,并控制所述第二模块中的主节点将接收到的所述第一告警检测信息与本节点生成的第二告警检测信息上报至所述第一模块中的主节点;控制第一模块中的各备节点将本节点生成的第三的告警检测信息上报至所述第一模块中的主节点;控制所述第一模块中的主节点将接收到的所述第一告警检测信息、第二告警检测信息、第三告警检测信息以及本节点生成的第四告警检测信息进行入库处理;
若所述当前告警类型为集群级告警,则控制集群中各模块的主节点对本节点进行集群级告警检测;控制第二模块中的各主节点将本集群的第五告警检测信息上报至第一模块的主节点,以便所述第一模块将接收到的所述第五告警检测信息与本节点生成的第六告警检测信息进行入库处理。
可选的,所述进行节点级告警检测,包括:
对节点的网卡状态、磁盘温度、磁盘状态、风扇转速、电源状态进行检测。
可选的,所述进行集群级告警检测,包括:
对集群状态、存储池容量、集群服务状态、数据一致性、集群容量进行检测。
可选的,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息之前,还包括:
将所述预设存储集群中的预设上层管理模块确定为第一模块,并将所述预设存储集群中除所述预设上层管理模块以外的其他模块均确定为第二模块;
从所述第一模块中的全部节点中确定第一主节点,并分别从各所述第二模块中的全部节点中确定各模块中的第二主节点;
相应的,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息,包括:
分别控制所述第一主节点与各所述第二主节点按照预设信息发送频率向其他主节点发送心跳消息。
可选的,控制第一模块中的主节点对告警检测信息进行入库处理之前,还包括:
查询上次告警检测信息,并确定当前告警检测信息;
对比所述上次告警检测信息与所述当前告警检测信息中是否存在相同告警检测信息;
若所述上次告警检测信息与所述当前告警检测信息中存在相同告警检测信息,则从所述当前告警检测信息中将相应的所述相同告警检测信息剔除,以生成更新后告警检测信息;
相应的,控制第一模块中的主节点对告警检测信息进行入库处理,包括:
控制第一模块中的主节点将所述更新后告警检测信息进行入库处理。
可选的,进行节点级告警检测或进行集群级告警检测之后,还包括:
生成告警检测信息,并判断当前所述告警检测信息与上次告警检测信息是否一致;
若当前所述告警检测信息与上次告警检测信息一致,则禁止触发将告警检测信息向相应节点上报的步骤,并将所述告警检测信息丢弃;
若当前所述告警检测信息与上次告警检测信息不一致,则触发将告警检测信息向相应节点上报的步骤。
第二方面,本申请公开了一种集群告警上报装置,应用于预设存储集群,包括:
心跳交互模块,用于分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;
心跳异常模块,用于若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;
节点异常告警模块,用于若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;
集群异常告警模块,用于若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的集群告警上报方法。
第四方面,本申请公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的集群告警上报方法的步骤。
本申请应用于预设存储集群,先分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。这样一来,本申请通过引入心跳机制,在节点级告警与集群级告警两种不同的告警形式中,对各种告警项的检测与上报实现了多活,还可以通过预设存储集群中作为最上层的界面管理系统模块接管告警的检测,可以很好解决存储集群在故障情况下,告警丢失、上报延迟情况,同时也可以实现管理系统模块占用尽可能少的系统资源,进一步强化了存储集群告警上报的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种集群告警上报方法流程图;
图2为本申请提供的一种具体的集群告警上报方法流程图;
图3为本发明提出的一种告警多活流程示意图;
图4为本申请提供的一种集群告警上报装置结构示意图;
图5为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,在集群产生故障告警时,出现无法及时推送告警或告警丢失导致使用者无法及时感知集群的情况。在本申请中,通过引入心跳机制,实现告警检测上报的多活,一旦集群产生故障,可及时、准确、无遗漏地实现告警上报,强化存储集群告警上报的鲁棒性。
本发明实施例公开了一种集群告警上报方法,应用于预设存储集群,参见图1所述,该方法包括:
步骤S11:分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息。
本实施例中,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息之前,还可以包括:将所述预设存储集群中的预设上层管理模块确定为第一模块,并将所述预设存储集群中除所述预设上层管理模块以外的其他模块均确定为第二模块;从所述第一模块中的全部节点中确定第一主节点,并分别从各所述第二模块中的全部节点中确定各模块中的第二主节点;相应的,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息,包括:分别控制所述第一主节点与各所述第二主节点按照预设信息发送频率向其他主节点发送心跳消息。
本实施例中所述第一模块为所述预设存储集群中的预设上层管理模块,所述第二模块为除所述预设上层管理模块以外的其他模块。在一些具体的实施方式中,预设上层管理模块(即第一模块)可以是预设存储集群中作为最上层的界面管理系统,所述第二模块可以是集群中的中间模块或底层模块,在具体的实施方式中,所述中间模块包括但不限于存储高可用模块、通信监听模块、数据存储模块,所述底层模块包括但不限于硬件模块、底层软件模块。
本实施例中,会预先分别从所述预设存储集群中的各个模块中均选举出相应的主节点,即各个模块中均会存在一个主节点。在确定主节点后,可以将除此主节点以外的其他节点均确定为备节点。本实施例中,集群中各模块中的各个主节点均会按照预设信息发送频率向其他主节点发送心跳信息,以便各主节点根据接收到的心跳信息检测其他主节点是否正常运行。
步骤S12:若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型。
本实施例中,若任一主节点检测到其他主节点发送的心跳信息为异常,则表明集群中的某些模块或某些模块中的一个或多个节点出现了故障,此时集群会基于当前集群中预先设置的告警类型进行后续的故障处理。在一些具体的实施方式中,各主节点会判断其他主节点是否按照所述预设信息发送频率所规定的时间发送心跳信息,或,判断本节点是否在所述预设信息发送频率所规定的时间内接收到心跳信息,以及判断接收到的心跳信息的内容是否正常。若某一主节点未按照所述预设信息发送频率发送心跳信息,或某一主节点为在述预设信息规定的时间内接收到心跳信息,或某一主节点接收到的心跳信息内容异常,则可以确定相应模块出现故障或模块中某一个或某些节点出现了故障,此时会基于当前集群中预先设置的告警类型进行后续的故障处理。
步骤S13:若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理。
本实施例中,所述告警类型包括两种,一种为节点级告警,另一种为集群级告警。
其中,若当前的告警类型为节点级告警,则会利用第一模块中的各个节点对其余各个模块进行节点级告警检测,在一些具体的实施方式中,可以预先设置第一模块中的节点与其他模块的对应关系,当任一主节点检测到接收到的任一主节点的心跳信息为异常时,则第一模块中的节点会对所述对应关系所设定的其对应的模块中的各节点进行节点级检测。
具体地,本实施例中,所述进行节点级告警检测,可以包括:对节点的网卡状态、磁盘温度、磁盘状态、风扇转速、电源状态进行检测。其中,
网卡状态检测:对每个存储节点配备的网卡的状态进行检测,当网卡出现down、网卡传输速度不匹配、网卡出现丢包和时延超过阈值时,均会产生网卡告警;
磁盘温度检测:对每个存储节点的磁盘温度进行检测,当磁盘温度大于预设温度阈值时,会产生磁盘温度告警;
磁盘状态检测:对每个存储节点的磁盘状态进行检测,当检测到磁盘掉盘或磁盘状态异常时,会产生磁盘温度告警;
风扇转速检测,对转速进行检测,当检测到转速大于预设转速阈值时,会产生风扇转速告警;
电源状态检测,对每个存储节点的电源状态进行检测,当检测到电源未通电会出现电源状态告警。
本实施例中,进行节点级告警检测或进行集群级告警检测之后,还可以包括:生成告警检测信息,并判断当前所述告警检测信息与上次告警检测信息是否一致;若当前所述告警检测信息与上次告警检测信息一致,则禁止触发将告警检测信息向相应节点上报的步骤,并将所述告警检测信息丢弃;若当前所述告警检测信息与上次告警检测信息不一致,则触发将告警检测信息向相应节点上报的步骤。
本实施例中,控制第一模块中的主节点对告警检测信息进行入库处理之前,还可以包括:查询上次告警检测信息,并确定当前告警检测信息;对比所述上次告警检测信息与所述当前告警检测信息中是否存在相同告警检测信息;若所述上次告警检测信息与所述当前告警检测信息中存在相同告警检测信息,则从所述当前告警检测信息中将相应的所述相同告警检测信息剔除,以生成更新后告警检测信息;相应的,控制第一模块中的主节点对告警检测信息进行入库处理,包括:控制第一模块中的主节点将所述更新后告警检测信息进行入库处理。
可以理解的是,本实施例中,所述第一模块中的备节点对所述第二模块中的节点某一进行节点检测后,会将生成的告警检测信息上报至第一主节点,所述第一节点为第一模块中的主节点,然后所述第一主节点会将告警检测信息进行入库处理。在具体的实施过程中,若第一模块中的备节点确定第二模块中的目标节点存在节点级故障,则会先判断此次生成的节点级故障的告警检测信息与上次生成的告警检测信息是否一致,若一致,则不会将此次生成的告警检测信息进行上报,并将本次的告警检测信息丢弃;若不一致,则会保留本地的告警检测信息进行上报。所述第一主节点接收到备节点发送的告警检测信息后,会对所述告警检测信息进行二次过滤,即将所有的告警检测信息进行一一核对,若其中某一信息为与上次入库的信息一致,则会此信息剔除,在对所有的告警检测信息进行核对后,最终生成更新后告警检测信息,然后将所述更新后告警检测信息进行入库处理。
步骤S14:若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
本实施例中,所述进行集群级告警检测,可以包括:对集群状态、存储池容量、集群服务状态、数据一致性、集群容量进行检测。在具体的实施方式中,可以直接对各第二模块中的主节点进行检测。其中,
集群状态检测:对各第二模块中的主节点进行集群状态检测,集群状态一般有健康、警告、紧急三种状态、当整个集群状态不为健康时,会产生集群状态告警;
存储池容量检测:对各第二模块中的主节点进行存储池容量检测,当存储池的可用容量小于预设容量阈值时,会产生存储池容量告警;
集群服务状态检测:对各第二模块中的主节点进行集群服务状态检测,当集群服务处于不可用状态时,会产生集群服务状态告警;
数据一致性检测:对各第二模块中的主节点进行数据一致性检测,当节点中数据不一致时,会产生数据一致性告警;
集群容量检测:对各第二模块中的主节点进行集群容量检测,当节点中的集群容量大于预设容量阈值时,会产生集群容量检测。
本实施例中,若当前告警类型为集群级告警,则所述第一主节点会对所述各第二模块中的主节点进行集群级告警检测,在确定集群级告警的告警检测信息后,第一主节点会将
若第一主节点确定第二模块中的目标主节点存在集群级故障,则会先判断此次生成的集群级故障的告警检测信息与上次生成的告警检测信息是否一致,若一致,则会将本次的告警检测信息丢弃;若不一致,则会保留此次的告警检测信息。最后所述第一主节点在将所述告警检测信息进行入库处理之前,还会进行信息的二次过滤,即将所有的告警检测信息进行一一核对,若其中某一信息为与上次入库的信息一致,则会此信息剔除,在对所有的告警检测信息进行核对后,最终生成更新后告警检测信息,然后将所述更新后告警检测信息进行入库处理。
本实施例中,在第一主节点将所述告警检测信息进行入库处理后,还可以包括:将所述告警检测信息上报至于所述第一模块通过预设接口连接的预设界面中,或将所述告警检测信息上报至其他第三方平台,所述第三方平台可以是手机短信、邮箱等。
本实施例应用于预设存储集群,先分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。这样一来,本申请通过引入心跳机制,在节点级告警与集群级告警两种不同的告警形式中,对各种告警项的检测与上报实现了多活,还可以通过预设存储集群中作为最上层的界面管理系统模块接管告警的检测,可以很好解决存储集群在故障情况下,告警丢失、上报延迟情况,同时也可以实现管理系统模块占用尽可能少的系统资源,进一步强化了存储集群告警上报的鲁棒性。
图2为本申请实施例提供的一种具体的集群告警上报方法流程图。参见图2所示,该方法包括:
步骤S21:分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息。
其中,关于步骤S21的更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S22:若所述各主节点检测到接收到的各主节点的心跳信息为正常,则确定当前告警类型。
其中,关于步骤S22的更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S23:若所述当前告警类型为节点级告警,则控制集群中所有节点对本节点进行节点级告警检测;控制第二模块中的各备节点将本节点生成的第一告警检测信息上报至所述第二模块中的主节点,并控制所述第二模块中的主节点将接收到的所述第一告警检测信息与本节点生成的第二告警检测信息上报至所述第一模块中的主节点;控制第一模块中的各备节点将本节点生成的第三的告警检测信息上报至所述第一模块中的主节点;控制所述第一模块中的主节点将接收到的所述第一告警检测信息、第二告警检测信息、第三告警检测信息以及本节点生成的第四告警检测信息进行入库处理。
本实施例中,在正常情况下,即各主节点间持续进行正常的心跳交互的情况下,若当前告警类型为节点级告警,则各个模块中的各个节点均会以上述节点级检测的方式检测自身告警项是否存在告警,若存在告警,则将告警检测信息发送至本模块中的主节点,本模块中的主节点在接收到告警检测信息后,会将告警检测信息推送至上述第一主节点,以便第一主节点将告警检测信息进行入库处理。在另外一些具体的实施方式中,在各节点对自身进行集群级告警检测后,可以判断此次生成的告警检测信息是否与上次生成的告警检测信息一致,若不一致,则才会将告警检测信息发送至本模块中的主节点,以实现将告警检测信息进行过滤的目的。需要指出的是,将告警检测信息进行过滤的过程也可以由第二模块中的各主节点来完成,具体地,各节点确定自身告警检测信息后,将告警检测信息发送至本模块中的主节点,主节点对所述告警检测信息进行过滤。
接着,第一主节点收到所述第二模块中的主节点发送的告警检测信息后,会对所述告警检测信息进行二次过滤,以将更新后告警检测信息进行入库处理。
步骤S24:若所述当前告警类型为集群级告警,则控制集群中各模块的主节点对本节点进行集群级告警检测;控制第二模块中的各主节点将本集群的第五告警检测信息上报至第一模块的主节点,以便所述第一模块将接收到的所述第五告警检测信息与本节点生成的第六告警检测信息进行入库处理。
本实施例中,在正常情况下,即各主节点间持续进行正常的心跳交互的情况下,若当前告警类型为集群级告警,则各个模块中的主节点会以上述集群级检测的方式检测自身告警项是否存在告警,若存在告警,则将告警检测信息推送至上述第一主节点,以便第一主节点将告警检测信息进行入库处理。在一些具体的实施方式中,所述各主节点在检测自身的告警项后,会先对所述告警项进行过滤,然后才会将过滤后的告警检测信息法发送至所述第一主节点。接着第一主节点会进行二次过滤,然后进行入库处理。
如图3所示为本发明提出的一种告警多活流程示意图,图中以界面管理系统模块为所述第一模块、以存储集群中其他模块为第二模块为例,即利用界面管理系统模块与存储集群中其他模块中的主节点进行心跳交互,当心跳正常的情况下,若当前告警类型为节点级类型,则各个模块中的各个节点检测自身的告警项,并向界面管理系统中的主节点进行推送,主节点会对告警检测信息进行过滤,并将过滤后的告警检测信息推送至第一模块中的第一主节点;若当前告警类型为集群级类型,则各个模块中的主节点会检测自身的告警项,并将告警检测信息推送至第一模块中的第一主节点,第一主节点会对告警检测信息进行过滤。当心跳异常的情况下,若当前告警类型为节点级类型,则第一模块中的各个节点会检测相应第二模块中各个节点的告警项,并将告警检测信息进行过滤,将过滤后的告警检测信息推送至第一模块中的第一主节点;若当前告警类型为集群级类型,则会直接由第一主节点对各模块中的主节点进行告警项检测,并将对告警检测信息进行过滤。最后第一主节点会在将告警检测信息进行入库之前再进行二次过滤,并将最后过滤后的告警检测信息入库后上报至预设界面或三方平台中。
本实施例中,提出了一种各模块的主节点在正常心跳交互下,节点级告警与集群级告警时的告警上报过程,本发明通过引入心跳机制,并采取多活机制可以很好解决存储集群故障情况下,告警丢失、上报延迟情况,同时也可以实现管理系统模块尽可能少的占用系统资源。另外本发明采用二次信息过滤的方式实现了告警上报的便捷性与智能化,实现了告警检测信息的精简化上报。
参见图4所示,本申请实施例公开了一种集群告警上报装置,应用于预设存储集群,具体可以包括:
心跳交互模块11,用于分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;
心跳异常模块12,用于若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;
节点异常告警模块13,用于若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;
集群异常告警模块14,用于若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
本装置应用于预设存储集群,先分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。这样一来,本申请通过引入心跳机制,在节点级告警与集群级告警两种不同的告警形式中,对各种告警项的检测与上报实现了多活,还可以通过预设存储集群中作为最上层的界面管理系统模块接管告警的检测,可以很好解决存储集群在故障情况下,告警丢失、上报延迟情况,同时也可以实现管理系统模块占用尽可能少的系统资源,进一步强化了存储集群告警上报的鲁棒性。
进一步的,本申请实施例还公开了一种电子设备,图5是根据示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图5为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、显示屏24、输入输出接口25、通信接口26和通信总线27。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的集群告警上报方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口26能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及虚拟机数据223等,虚拟机数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的集群告警上报方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory,RAM)、内存、只读存储器(Read-OnlyMemory,ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述公开的集群告警上报方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的集群告警上报方法、装置、设备、存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种集群告警上报方法,其特征在于,应用于预设存储集群,包括:
分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;
若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;
若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;
若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
2.根据权利要求1所述的集群告警上报方法,其特征在于,还包括:
若所述各主节点检测到接收到的各主节点的心跳信息为正常,则确定当前告警类型;
若所述当前告警类型为节点级告警,则控制集群中所有节点对本节点进行节点级告警检测;控制第二模块中的各备节点将本节点生成的第一告警检测信息上报至所述第二模块中的主节点,并控制所述第二模块中的主节点将接收到的所述第一告警检测信息与本节点生成的第二告警检测信息上报至所述第一模块中的主节点;控制第一模块中的各备节点将本节点生成的第三的告警检测信息上报至所述第一模块中的主节点;控制所述第一模块中的主节点将接收到的所述第一告警检测信息、第二告警检测信息、第三告警检测信息以及本节点生成的第四告警检测信息进行入库处理;
若所述当前告警类型为集群级告警,则控制集群中各模块的主节点对本节点进行集群级告警检测;控制第二模块中的各主节点将本集群的第五告警检测信息上报至第一模块的主节点,以便所述第一模块将接收到的所述第五告警检测信息与本节点生成的第六告警检测信息进行入库处理。
3.根据权利要求1或2所述的集群告警上报方法,其特征在于,所述进行节点级告警检测,包括:
对节点的网卡状态、磁盘温度、磁盘状态、风扇转速、电源状态进行检测。
4.根据权利要求1或2所述的集群告警上报方法,其特征在于,所述进行集群级告警检测,包括:
对集群状态、存储池容量、集群服务状态、数据一致性、集群容量进行检测。
5.根据权利要求1所述的集群告警上报方法,其特征在于,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息之前,还包括:
将所述预设存储集群中的预设上层管理模块确定为第一模块,并将所述预设存储集群中除所述预设上层管理模块以外的其他模块均确定为第二模块;
从所述第一模块中的全部节点中确定第一主节点,并分别从各所述第二模块中的全部节点中确定各模块中的第二主节点;
相应的,所述分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息,包括:
分别控制所述第一主节点与各所述第二主节点按照预设信息发送频率向其他主节点发送心跳消息。
6.根据权利要求1所述的集群告警上报方法,其特征在于,控制第一模块中的主节点对告警检测信息进行入库处理之前,还包括:
查询上次告警检测信息,并确定当前告警检测信息;
对比所述上次告警检测信息与所述当前告警检测信息中是否存在相同告警检测信息;
若所述上次告警检测信息与所述当前告警检测信息中存在相同告警检测信息,则从所述当前告警检测信息中将相应的所述相同告警检测信息剔除,以生成更新后告警检测信息;
相应的,控制第一模块中的主节点对告警检测信息进行入库处理,包括:
控制第一模块中的主节点将所述更新后告警检测信息进行入库处理。
7.根据权利要求1至6任一项所述的集群告警上报方法,其特征在于,进行节点级告警检测或进行集群级告警检测之后,还包括:
生成告警检测信息,并判断当前所述告警检测信息与上次告警检测信息是否一致;
若当前所述告警检测信息与上次告警检测信息一致,则禁止触发将告警检测信息向相应节点上报的步骤,并将所述告警检测信息丢弃;
若当前所述告警检测信息与上次告警检测信息不一致,则触发将告警检测信息向相应节点上报的步骤。
8.一种集群告警上报装置,其特征在于,应用于预设存储集群,包括:
心跳交互模块,用于分别控制当前所述预设存储集群中各个模块中的主节点按照预设信息发送频率向其他主节点发送心跳消息;
心跳异常模块,用于若任一主节点检测到接收到的任一主节点的心跳信息为异常,则确定当前告警类型;
节点异常告警模块,用于若所述当前告警类型为节点级告警,则控制集群中第一模块中的各备节点对第二模块中的各个节点进行节点级告警检测,并将相应的告警检测信息上报至所述第一模块中的主节点,以便所述第一模块中的主节点将相应的告警检测信息进行入库处理;
集群异常告警模块,用于若所述当前告警类型为集群级告警,则控制集群中第一模块中所述主节点对所述第二模块中的主节点进行集群级告警检测,并将相应的告警检测信息进行入库处理。
9.一种电子设备,其特征在于,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至7任一项所述的集群告警上报方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的集群告警上报方法。
CN202210890233.8A 2022-07-27 2022-07-27 一种集群告警上报方法、装置、设备及介质 Pending CN115174356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210890233.8A CN115174356A (zh) 2022-07-27 2022-07-27 一种集群告警上报方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210890233.8A CN115174356A (zh) 2022-07-27 2022-07-27 一种集群告警上报方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115174356A true CN115174356A (zh) 2022-10-11

Family

ID=83496363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210890233.8A Pending CN115174356A (zh) 2022-07-27 2022-07-27 一种集群告警上报方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115174356A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283641A1 (en) * 2004-05-21 2005-12-22 International Business Machines Corporation Apparatus, system, and method for verified fencing of a rogue node within a cluster
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN105138441A (zh) * 2015-06-30 2015-12-09 中标软件有限公司 高可用集群系统及基于该系统的告警方法、告警系统
CN107465560A (zh) * 2017-09-20 2017-12-12 郑州云海信息技术有限公司 一种分布式元数据集群告警系统及方法
CN108038043A (zh) * 2017-12-22 2018-05-15 郑州云海信息技术有限公司 一种分布式存储集群告警方法、系统及设备
CN108984320A (zh) * 2018-06-27 2018-12-11 郑州云海信息技术有限公司 一种消息队列集群防脑裂方法及装置
CN109039733A (zh) * 2018-07-26 2018-12-18 郑州云海信息技术有限公司 一种告警方法、系统及电子设备和存储介质
CN112636979A (zh) * 2020-12-24 2021-04-09 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN112764956A (zh) * 2021-01-14 2021-05-07 网宿科技股份有限公司 数据库的异常处理系统、数据库的异常处理方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283641A1 (en) * 2004-05-21 2005-12-22 International Business Machines Corporation Apparatus, system, and method for verified fencing of a rogue node within a cluster
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN105138441A (zh) * 2015-06-30 2015-12-09 中标软件有限公司 高可用集群系统及基于该系统的告警方法、告警系统
CN107465560A (zh) * 2017-09-20 2017-12-12 郑州云海信息技术有限公司 一种分布式元数据集群告警系统及方法
CN108038043A (zh) * 2017-12-22 2018-05-15 郑州云海信息技术有限公司 一种分布式存储集群告警方法、系统及设备
CN108984320A (zh) * 2018-06-27 2018-12-11 郑州云海信息技术有限公司 一种消息队列集群防脑裂方法及装置
CN109039733A (zh) * 2018-07-26 2018-12-18 郑州云海信息技术有限公司 一种告警方法、系统及电子设备和存储介质
CN112636979A (zh) * 2020-12-24 2021-04-09 北京浪潮数据技术有限公司 一种集群告警方法及相关装置
CN112764956A (zh) * 2021-01-14 2021-05-07 网宿科技股份有限公司 数据库的异常处理系统、数据库的异常处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BEHZAD GHAZANFARI; FATEMEH AFGHAH; KAYVAN NAJARIAN; SAJAD MOUSAVI; JONATHAN GRYAK; JAMES TODD: "An Unsupervised Feature Learning Approach to Reduce False Alarm Rate in ICUs", 2019 41ST ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC), 7 October 2019 (2019-10-07) *
王中原;裘炜浩;: "超大规模用电信息采集系统主站通信架构设计", 电力系统通信, no. 06, 10 June 2011 (2011-06-10) *

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN103812675A (zh) 一种实现业务交付平台异地容灾切换的方法和系统
CN108924202B (zh) 一种分布式集群的数据容灾方法以及相关装置
CN106656682A (zh) 集群心跳检测方法、系统及装置
CN109218126B (zh) 监测节点存活状态的方法、装置及系统
CN110830283A (zh) 故障检测方法、装置、设备和系统
CN110417586B (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
CN106817237A (zh) 一种重复告警抑制方法和装置
CN106021070A (zh) 服务器集群监测方法及装置
CN101741635A (zh) 一种同步告警信息的方法、系统及设备
CN109688018A (zh) 一种基于设备异常的告警消息推送方法及系统
CN112039723A (zh) 微服务网络状态检测方法、装置及电子设备
CN108845916A (zh) 平台监控与告警方法、装置、设备与计算机可读存储介质
CN109510730B (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN115202958A (zh) 一种电力异常监控方法、装置、电子设备及存储介质
CN114070711A (zh) 告警信息的处理方法、装置、电子设备及存储介质
EP1622310A2 (en) Administration system for network management systems
CN110224872B (zh) 一种通信方法、装置及存储介质
CN115174356A (zh) 一种集群告警上报方法、装置、设备及介质
EP2883414B1 (en) Self organizing network event reporting
CN115002001B (zh) 一种检测集群网络亚健康的方法、装置、设备及介质
CN107911229A (zh) 运行状态改变的提醒方法、装置、电子设备及存储介质
CN113824595B (zh) 链路切换控制方法、装置和网关设备
CN114363150A (zh) 服务器集群的网卡连通性监控方法及装置
CN114356625A (zh) 分布式系统冗余诊断方法、装置、电子装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240419

Address after: Room 1801, 18th Floor, Jiyun Investment Building, No. 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province, 450047

Applicant after: Zhengzhou Inspur Data Technology Co.,Ltd.

Country or region after: China

Address before: 250101 room s311, building S05, Inspur Science Park, No. 1036, Inspur Road, Jinan pilot Free Trade Zone, Jinan, Shandong Province

Applicant before: Ji'nan tide data Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right