CN113590025B - 一种分布式存储系统的告警方法和装置 - Google Patents
一种分布式存储系统的告警方法和装置 Download PDFInfo
- Publication number
- CN113590025B CN113590025B CN202110682175.5A CN202110682175A CN113590025B CN 113590025 B CN113590025 B CN 113590025B CN 202110682175 A CN202110682175 A CN 202110682175A CN 113590025 B CN113590025 B CN 113590025B
- Authority
- CN
- China
- Prior art keywords
- alarm
- information
- alert
- configuration
- jitter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000004044 response Effects 0.000 claims abstract description 48
- 230000002085 persistent effect Effects 0.000 claims abstract description 10
- 238000011084 recovery Methods 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004590 computer program Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004880 explosion Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0605—Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分布式存储系统的告警方法和装置,方法包括:接收下发的告警配置,并将告警配置持久化到告警配置数据库;响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象。本发明能够降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率。
Description
技术领域
本发明涉及告警领域,更具体地,特别是指一种分布式存储系统的告警方法和装置。
背景技术
随着信息化持续深入,数据存储的需求日益增长,分布式存储系统规模也持续扩大。对服务器硬件、提供服务的监控告警格外重要。当前分布式存储中的告警粒度采用精细化监控管理,告警粒度精确到单个功能项(如,IDC-机房1-01机柜位-节点01-IP192.168.102.101-磁盘slot0上的osd.10服务异常)。但在大规模集群下(例如节点规模超过30),该方案存在以下问题:
(1)海量告警信息爆炸。告警粒度精细化管理后,网络故障时,集群节点在空间以及时间局部性条件下各服务器物理部件、软件功能部件产生海量告警,告警信息爆炸。
(2)告警重复。如机房网络抖动时,集群各节点竞相上报相同的网络通信异常告警(即每个节点上报一条相同的该节点网络通信异常告警)
(3)告警缺乏权限管理。当集群使用者配置短信、邮件告警等,当地发生告警爆炸时,不同角色的使用者都能收到海量告警爆炸信息,不胜其烦。
(4)告警抖动。集群中的告警触发器大多采用时间间隔粒度生成告警,有些告警信息可在一个时间片内立即恢复,一闪而过的抖动告警对使用的工作生活产生一定不必要的影响。
针对现有技术中分布式存储系统细粒度告警导致信息爆炸、处理负担过重的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种分布式存储系统的告警方法和装置,能够降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率。
基于上述目的,本发明实施例的第一方面提供了一种分布式存储系统的告警方法,包括执行以下步骤:
接收下发的告警配置,并将告警配置持久化到告警配置数据库;
响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;
响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;
响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象。
在一些实施方式中,告警配置包括去重配置、防抖配置、和权限配置。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息包括:将告警信息写入临时告警数据表,在临时告警数据表中在去重配置所限定的告警发送周期范围内尝试匹配与告警信息具有相同告警内容的已经获得的现有告警信息。
在一些实施方式中,方法还包括执行以下步骤:
响应于告警信息在去重配置所限定的告警发送周期范围内不能匹配到现有告警信息,而将告警信息持久化到告警数据库。
在一些实施方式中,方法还包括执行以下步骤:
响应于告警信息在去重配置所限定的告警发送周期范围内能匹配到现有告警信息,而将告警信息合并到被匹配到的现有告警信息,并从临时告警数据表中删除告警信息。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动包括:判断在防抖配置所限定的时间抖动窗口范围内能否接收到针对告警信息的告警恢复信息、或告警信息本身是否为针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息。
在一些实施方式中,方法还包括执行以下步骤:
响应于在防抖配置所限定的时间抖动窗口范围内能接收到针对告警信息的告警恢复信息、或告警信息本身是针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从临时告警数据表中删除由告警信息和告警恢复信息组成的信息对。
在一些实施方式中,时间抖动窗口包括以下之一:时间滑动窗口、固定时间间隔、集群自适应配置。
在一些实施方式中,从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象包括:基于告警特征和在权限配置中记载的告警特征和接警对象之间的对应关系而确定针对告警信息的接警对象,并将告警信息推送给接警对象,其中告警特征包括告警级别和告警类型。
本发明实施例的第二方面提供了一种装置,包括:
处理器;
控制器,存储有处理器可运行的程序代码,处理器在运行程序代码时执行以下步骤:
接收下发的告警配置,并将告警配置持久化到告警配置数据库;
响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;
响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;
响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象。
在一些实施方式中,告警配置包括去重配置、防抖配置、和权限配置。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息包括:将告警信息写入临时告警数据表,在临时告警数据表中在去重配置所限定的告警发送周期范围内尝试匹配与告警信息具有相同告警内容的已经获得的现有告警信息。
在一些实施方式中,步骤还包括:
响应于告警信息在去重配置所限定的告警发送周期范围内不能匹配到现有告警信息,而将告警信息持久化到告警数据库。
在一些实施方式中,步骤还包括:
响应于告警信息在去重配置所限定的告警发送周期范围内能匹配到现有告警信息,而将告警信息合并到被匹配到的现有告警信息,并从临时告警数据表中删除告警信息。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动包括:判断在防抖配置所限定的时间抖动窗口范围内能否接收到针对告警信息的告警恢复信息、或告警信息本身是否为针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息。
在一些实施方式中,步骤还包括:
响应于在防抖配置所限定的时间抖动窗口范围内能接收到针对告警信息的告警恢复信息、或告警信息本身是针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从临时告警数据表中删除由告警信息和告警恢复信息组成的信息对。
在一些实施方式中,时间抖动窗口包括以下之一:时间滑动窗口、固定时间间隔、集群自适应配置。
在一些实施方式中,从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象包括:基于告警特征和在权限配置中记载的告警特征和接警对象之间的对应关系而确定针对告警信息的接警对象,并将告警信息推送给接警对象,其中告警特征包括告警级别和告警类型。
本发明具有以下有益技术效果:本发明实施例提供的分布式存储系统的告警方法和装置,通过接收下发的告警配置,并将告警配置持久化到告警配置数据库;响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象的技术方案,能够降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的分布式存储系统的告警方法的流程示意图;
图2为本发明提供的分布式存储系统的告警方法的整体结构图;
图3为本发明提供的分布式存储系统的告警方法的告警配置部署的流程示意图;
图4为本发明提供的分布式存储系统的告警方法的数据时序交互图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率的分布式存储系统的告警方法的一个实施例。图1示出的是本发明提供的分布式存储系统的告警方法的流程示意图。
所述的分布式存储系统的告警方法,如图1所示,包括执行以下步骤:
步骤S101,接收下发的告警配置,并将告警配置持久化到告警配置数据库;
步骤S103,响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;
步骤S105,响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;
步骤S107,响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,告警配置包括去重配置、防抖配置、和权限配置。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息包括:将告警信息写入临时告警数据表,在临时告警数据表中在去重配置所限定的告警发送周期范围内尝试匹配与告警信息具有相同告警内容的已经获得的现有告警信息。
在一些实施方式中,方法还包括执行以下步骤:
响应于告警信息在去重配置所限定的告警发送周期范围内不能匹配到现有告警信息,而将告警信息持久化到告警数据库。
在一些实施方式中,方法还包括执行以下步骤:
响应于告警信息在去重配置所限定的告警发送周期范围内能匹配到现有告警信息,而将告警信息合并到被匹配到的现有告警信息,并从临时告警数据表中删除告警信息。
结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动包括:判断在防抖配置所限定的时间抖动窗口范围内能否接收到针对告警信息的告警恢复信息、或告警信息本身是否为针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息。
在一些实施方式中,方法还包括执行以下步骤:
响应于在防抖配置所限定的时间抖动窗口范围内能接收到针对告警信息的告警恢复信息、或告警信息本身是针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从临时告警数据表中删除由告警信息和告警恢复信息组成的信息对。
在一些实施方式中,时间抖动窗口包括以下之一:时间滑动窗口、固定时间间隔、集群自适应配置。
在一些实施方式中,从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象包括:基于告警特征和在权限配置中记载的告警特征和接警对象之间的对应关系而确定针对告警信息的接警对象,并将告警信息推送给接警对象,其中告警特征包括告警级别和告警类型。
本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
图2示出的是分布式存储系统的告警方法的整体结构,下面根据图2所示的具体实施例进一步阐述本发明的具体实施方式。每个节点包括告警权限、告警防抖和告警去重三个模块详细描述如下。
第一,告警权限配置在存储管理软件上按照告警级别、类型等关键告警特性新增告警权限分配模块,不同的用户可以设置不同的告警权限,不同权限的人能够收到不同的告警,避免告警单一用户的告警信息爆炸。
第二,当前集群的告警都在集群各节点上监控处理,产生告警信息后通过消息通道将告警信息发送到集群主节点,并持久化到告警数据库中,为了去重合并告警,可以将生成的告警信息写入一张临时告警数据表中,对于告警发送周期范围内已经恢复正常的告警直接删除,不同节点同一告警周期内相同的告警合并描述信息后再写入告警数据库中(如,01,02,05节点的槽位1磁盘因为高温同时上报三条高温告警,合并去重后变为一条,告警描述主体部分一致,仅合并了不同的节点名,变成一条告警)。
第三,告警抖动反复上报告警及恢复告警是因为检测点时间短而且存在时间抖动窗口。在存储管理软件上按照不同类型的告警新增告警防抖时间窗口配置功能,通过管理节点新增告警配置触发器,按照时间滑动窗口配置模式、固定时间间隔防抖模式、集群自适应防抖配置模式设置防抖策略,进一步约束抖动告警的生成。
配置流程参见图3,用户可通过存储管理软件配置告警权限、告警防抖策略功能,将用户设置下发到集群主节点,并持久化到告警配置数据库;各节点上的告警检测模块产生告警时,将告警信息发送到集群主节点的临时告警去重索引表中,告警去重模块遍历当前临时索引表中告警信息,将同一告警周期内的相同类型告警合并类型区分关键字,合并描述信息后,插入到告警数据库中,最后用户通过管理界面或者其他告警接受客户端展示告警信息。
上述三个模块的使用顺序可以按照实际需要排列。本发明实施例在图4公开了一种优选的排列顺序,即按照告警权限→告警防抖→告警去重的顺序分别部属配置,然后按照其反方向来实施告警信息的处理。图4所示的顺序在数据交互时序方面具有最优选的性能,尽管其它排序也是可行的并且依然能够达到本发明获得的技术效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
从上述实施例可以看出,本发明实施例提供的分布式存储系统的告警方法,通过接收下发的告警配置,并将告警配置持久化到告警配置数据库;响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象的技术方案,能够降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率。
需要特别指出的是,上述分布式存储系统的告警方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于分布式存储系统的告警方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率的分布式存储系统的告警装置的一个实施例。装置包括:
处理器;
控制器,存储有处理器可运行的程序代码,处理器在运行程序代码时执行以下步骤:
接收下发的告警配置,并将告警配置持久化到告警配置数据库;
响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;
响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;
响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一些实施方式中,告警配置包括去重配置、防抖配置、和权限配置。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息包括:将告警信息写入临时告警数据表,在临时告警数据表中在去重配置所限定的告警发送周期范围内尝试匹配与告警信息具有相同告警内容的已经获得的现有告警信息。
在一些实施方式中,步骤还包括:
响应于告警信息在去重配置所限定的告警发送周期范围内不能匹配到现有告警信息,而将告警信息持久化到告警数据库。
在一些实施方式中,步骤还包括:
响应于告警信息在去重配置所限定的告警发送周期范围内能匹配到现有告警信息,而将告警信息合并到被匹配到的现有告警信息,并从临时告警数据表中删除告警信息。
在一些实施方式中,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动包括:判断在防抖配置所限定的时间抖动窗口范围内能否接收到针对告警信息的告警恢复信息、或告警信息本身是否为针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息。
在一些实施方式中,步骤还包括:
响应于在防抖配置所限定的时间抖动窗口范围内能接收到针对告警信息的告警恢复信息、或告警信息本身是针对在防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从临时告警数据表中删除由告警信息和告警恢复信息组成的信息对。
在一些实施方式中,时间抖动窗口包括以下之一:时间滑动窗口、固定时间间隔、集群自适应配置。
在一些实施方式中,从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象包括:基于告警特征和在权限配置中记载的告警特征和接警对象之间的对应关系而确定针对告警信息的接警对象,并将告警信息推送给接警对象,其中告警特征包括告警级别和告警类型。
本发明例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
从上述实施例可以看出,本发明实施例提供的分布式存储系统的告警装置,通过接收下发的告警配置,并将告警配置持久化到告警配置数据库;响应于从分布式存储系统的节点接收到告警信息,而基于告警配置数据库中存储的告警配置判断告警信息是否能匹配到已经获得的现有告警信息;响应于告警信息不能匹配到现有告警信息,基于告警配置数据库中存储的告警配置判断告警信息是否为告警抖动;响应于告警信息不是告警抖动,而从告警信息中提取告警特征,并基于告警特征和告警配置数据库中存储的告警配置将告警信息推送给指定对象的技术方案,能够降低细粒度告警产生的冗余告警信息,压缩告警数据输出,提高告警处理效率。
需要特别指出的是,上述装置的实施例采用了所述分布式存储系统的告警方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述分布式存储系统的告警方法的其他实施例中。当然,由于所述分布式存储系统的告警方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
本发明实施例还可以包括相应的计算机设备。计算机设备包括存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时执行上述任意一种方法。
其中,存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述分布式存储系统的告警方法对应的程序指令/模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的分布式存储系统的告警方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据分布式存储系统的告警装置的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还可以包括相应的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的分布式存储系统的告警方法与实现上述任意装置实施例中的分布式存储系统的告警装置。所述计算机可读存储介质的实施例,可以达到与之对应的前述任意方法与装置实施例相同或者相类似的效果。
本发明实施例还可以包括相应的计算机程序产品,该计算机程序产品包括存储在计算机可读存储介质上的计算程序,该计算机程序包括指令,当该指令被计算机执行时,使该计算机执行上述任意方法实施例中的分布式存储系统的告警方法与实现上述任意装置实施例中的分布式存储系统的告警装置。所述计算机程序产品的实施例,可以达到与之对应的前述任意方法与装置实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (4)
1.一种分布式存储系统的告警方法,其特征在于,包括执行以下步骤:
接收下发的告警配置,并将所述告警配置持久化到告警配置数据库;
响应于从分布式存储系统的节点接收到告警信息,而基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否能匹配到已经获得的现有告警信息;
响应于所述告警信息不能匹配到现有告警信息,基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否为告警抖动;
响应于所述告警信息不是告警抖动,而从所述告警信息中提取告警特征,并基于所述告警特征和所述告警配置数据库中存储的所述告警配置将所述告警信息推送给指定对象;
其中,所述告警配置包括去重配置、防抖配置、和权限配置;
基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否能匹配到已经获得的现有告警信息包括:将所述告警信息写入临时告警数据表,在所述临时告警数据表中在所述去重配置所限定的告警发送周期范围内尝试匹配与所述告警信息具有相同告警内容的已经获得的现有告警信息;
方法还包括执行以下步骤:
响应于所述告警信息在所述去重配置所限定的所述告警发送周期范围内不能匹配到现有告警信息,而将所述告警信息持久化到告警数据库;
响应于所述告警信息在所述去重配置所限定的所述告警发送周期范围内能匹配到现有告警信息,而将所述告警信息合并到被匹配到的现有告警信息,并从所述临时告警数据表中删除所述告警信息;
基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否为告警抖动包括:判断在所述防抖配置所限定的时间抖动窗口范围内能否接收到针对所述告警信息的告警恢复信息、或所述告警信息本身是否为针对在所述防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息;
响应于在所述防抖配置所限定的时间抖动窗口范围内能接收到针对所述告警信息的告警恢复信息、或所述告警信息本身是针对在所述防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从所述临时告警数据表中删除由所述告警信息和所述告警恢复信息组成的信息对。
2.根据权利要求1所述的方法,其特征在于,所述时间抖动窗口包括以下之一:时间滑动窗口、固定时间间隔、集群自适应配置。
3.根据权利要求1所述的方法,其特征在于,从所述告警信息中提取告警特征,并基于所述告警特征和所述告警配置数据库中存储的所述告警配置将所述告警信息推送给指定对象包括:基于所述告警特征和在所述权限配置中记载的所述告警特征和接警对象之间的对应关系而确定针对所述告警信息的所述接警对象,并将所述告警信息推送给所述接警对象,其中所述告警特征包括告警级别和告警类型。
4.一种分布式存储系统的告警装置,其特征在于,包括:
处理器;
控制器,存储有所述处理器可运行的程序代码,所述处理器在运行所述程序代码时执行以下步骤:
接收下发的告警配置,并将所述告警配置持久化到告警配置数据库,其中,所述告警配置包括去重配置、防抖配置、和权限配置;
响应于从分布式存储系统的节点接收到告警信息,而基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否能匹配到已经获得的现有告警信息,其中,基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否能匹配到已经获得的现有告警信息包括:将所述告警信息写入临时告警数据表,在所述临时告警数据表中在所述去重配置所限定的告警发送周期范围内尝试匹配与所述告警信息具有相同告警内容的已经获得的现有告警信息;
响应于所述告警信息不能匹配到现有告警信息,基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否为告警抖动;
响应于所述告警信息不是告警抖动,而从所述告警信息中提取告警特征,并基于所述告警特征和所述告警配置数据库中存储的所述告警配置将所述告警信息推送给指定对象;
响应于所述告警信息在所述去重配置所限定的所述告警发送周期范围内不能匹配到现有告警信息,而将所述告警信息持久化到告警数据库;
响应于所述告警信息在所述去重配置所限定的所述告警发送周期范围内能匹配到现有告警信息,而将所述告警信息合并到被匹配到的现有告警信息,并从所述临时告警数据表中删除所述告警信息;
基于所述告警配置数据库中存储的所述告警配置判断所述告警信息是否为告警抖动包括:判断在所述防抖配置所限定的时间抖动窗口范围内能否接收到针对所述告警信息的告警恢复信息、或所述告警信息本身是否为针对在所述防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息;
响应于在所述防抖配置所限定的时间抖动窗口范围内能接收到针对所述告警信息的告警恢复信息、或所述告警信息本身是针对在所述防抖配置所限定的时间抖动窗口范围内缓存的现有告警信息的告警恢复信息,而从所述临时告警数据表中删除由所述告警信息和所述告警恢复信息组成的信息对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682175.5A CN113590025B (zh) | 2021-06-20 | 2021-06-20 | 一种分布式存储系统的告警方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110682175.5A CN113590025B (zh) | 2021-06-20 | 2021-06-20 | 一种分布式存储系统的告警方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590025A CN113590025A (zh) | 2021-11-02 |
CN113590025B true CN113590025B (zh) | 2023-12-22 |
Family
ID=78244152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110682175.5A Active CN113590025B (zh) | 2021-06-20 | 2021-06-20 | 一种分布式存储系统的告警方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590025B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064421B (zh) * | 2021-11-16 | 2022-04-22 | 展讯通信(上海)有限公司 | 告警处理方法及装置 |
CN115150249A (zh) * | 2022-06-29 | 2022-10-04 | 济南浪潮数据技术有限公司 | 一种存储系统告警方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101014179A (zh) * | 2007-02-14 | 2007-08-08 | 中兴通讯股份有限公司 | 一种通信系统中告警防抖的实现装置和实现方法 |
CN102340808A (zh) * | 2010-07-21 | 2012-02-01 | 中兴通讯股份有限公司 | 告警处理方法及装置 |
EP2600542A4 (en) * | 2010-07-28 | 2017-08-02 | ZTE Corporation | Process method and apparatus for preventing alarm jitter |
CN109450098A (zh) * | 2018-12-14 | 2019-03-08 | 朱明增 | 电力调控一体化系统告警信息优化方法 |
WO2019080918A1 (zh) * | 2017-10-26 | 2019-05-02 | 中兴通讯股份有限公司 | 压减冗余告警的方法、网管设备及存储介质 |
CN110784338A (zh) * | 2019-09-29 | 2020-02-11 | 许昌许继软件技术有限公司 | 一种智能告警处理方法及配网主站系统 |
CN110969375A (zh) * | 2019-12-27 | 2020-04-07 | 广东电科院能源技术有限责任公司 | 一种智能变电站告警处理方法、装置、终端及存储介质 |
-
2021
- 2021-06-20 CN CN202110682175.5A patent/CN113590025B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101014179A (zh) * | 2007-02-14 | 2007-08-08 | 中兴通讯股份有限公司 | 一种通信系统中告警防抖的实现装置和实现方法 |
CN102340808A (zh) * | 2010-07-21 | 2012-02-01 | 中兴通讯股份有限公司 | 告警处理方法及装置 |
EP2600542A4 (en) * | 2010-07-28 | 2017-08-02 | ZTE Corporation | Process method and apparatus for preventing alarm jitter |
WO2019080918A1 (zh) * | 2017-10-26 | 2019-05-02 | 中兴通讯股份有限公司 | 压减冗余告警的方法、网管设备及存储介质 |
CN109450098A (zh) * | 2018-12-14 | 2019-03-08 | 朱明增 | 电力调控一体化系统告警信息优化方法 |
CN110784338A (zh) * | 2019-09-29 | 2020-02-11 | 许昌许继软件技术有限公司 | 一种智能告警处理方法及配网主站系统 |
CN110969375A (zh) * | 2019-12-27 | 2020-04-07 | 广东电科院能源技术有限责任公司 | 一种智能变电站告警处理方法、装置、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于人因工程视角的民机驾驶舱告警系统研究综述;蒋引 等;民用飞机设计与研究;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113590025A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590025B (zh) | 一种分布式存储系统的告警方法和装置 | |
US10867033B2 (en) | Load distribution enabling detection of first appearance of a new property value in pipeline data processing | |
CN107423426B (zh) | 一种区块链块数据的数据归档方法及电子设备 | |
US10678925B2 (en) | Data quarantine and recovery | |
US20210240828A1 (en) | Malicious software detection | |
US9219639B2 (en) | Automated alert management | |
US10409980B2 (en) | Real-time representation of security-relevant system state | |
EP3685268A1 (en) | File system point-in-time restore using recycle bin and version history | |
WO2013019198A1 (en) | Systems and methods for distributed rule-based correlation of events | |
CN111782486B (zh) | 一种基于动态配置的告警实现方法及其系统 | |
CN112084072A (zh) | 一种提高PostgreSQL集群容灾能力的方法、系统、介质及终端 | |
US10558547B2 (en) | Methods for proactive prediction of disk failure in a RAID group and devices thereof | |
KR20200037850A (ko) | 분산 데이터 저장 시스템 | |
US9858152B2 (en) | Collaborative information source recovery | |
CN109257370B (zh) | 验证请求的处理系统 | |
CN108710547B (zh) | 一种数据备份方法、装置、终端及存储介质 | |
CN110351313B (zh) | 数据缓存方法、装置、设备及存储介质 | |
US8745010B2 (en) | Data storage and archiving spanning multiple data storage systems | |
CN112214519A (zh) | 一种数据查询方法、装置、设备及可读介质 | |
CN115934414A (zh) | 数据备份方法、数据恢复方法、装置、设备及存储介质 | |
CN108809678A (zh) | 一种信息推送的方法以及服务器 | |
CN113342746A (zh) | 文件管理系统、文件管理方法、电子设备和存储介质 | |
CN106383900A (zh) | 一种防止Sybase数据库中数据文件误删除的方法及系统 | |
CN113900855B (zh) | 一种交换机异常状态的主动热启动方法、系统及装置 | |
CN103795577A (zh) | 日志服务器处理日志的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |