CN112306813B - 一种系统告警方法及装置 - Google Patents

一种系统告警方法及装置 Download PDF

Info

Publication number
CN112306813B
CN112306813B CN202011264872.0A CN202011264872A CN112306813B CN 112306813 B CN112306813 B CN 112306813B CN 202011264872 A CN202011264872 A CN 202011264872A CN 112306813 B CN112306813 B CN 112306813B
Authority
CN
China
Prior art keywords
alarm
data
monitoring data
resource group
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011264872.0A
Other languages
English (en)
Other versions
CN112306813A (zh
Inventor
姜红燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011264872.0A priority Critical patent/CN112306813B/zh
Publication of CN112306813A publication Critical patent/CN112306813A/zh
Application granted granted Critical
Publication of CN112306813B publication Critical patent/CN112306813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Abstract

本发明公开了一种系统告警方法及装置,所述方法包括:采集系统的监控数据,并输出存储在数据库中;逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项;下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中。所述装置包括:采集单元、配置单元、检测单元和告警单元。本发明通过在资源组和告警项之间添加模板概念,使资源组和告警项不再直接关联,从而使得下层数据处理面减少告警处理任务的数量。应用于Kapacitor中可以精简Kapacitor设计,提高用户的使用效率。

Description

一种系统告警方法及装置
技术领域
本发明涉及系统监控领域,具体涉及一种系统告警方法及装置。
背景技术
目前云数据中心操作系统InCloud OpenStack(ICOS)采用TICK技术栈进行自研开发,Telegraf以Agent形式负责数据采集,运行于各个物理节点上,Telegraf采集到的数据通过网络发送到开源时序数据库InfluxDB中(目前已构建集群)进行存储。数据的告警处理通过Kapacitor订阅InfluxDB的数据进行计算,将符合告警条件的数据进行筛选。
在控制面上,告警条件的设置由管理组件pluto控制。目前的方案为不同类型的资源有M个告警项,其所属的资源数量为N,为实现每个资源的单独设置,会为每个资源的每个告警项生成一个任务(task),发送到Kapacitor中进行告警数据的处理,随着资源数量N的增长,tasks的数量(M*N)不断增加,造成Kapacitor性能下降。
发明内容
为了解决上述技术问题,本发明提出了一种系统告警方法及装置,通过告警模板配置资源组的告警任务,从而减少了告警任务的处理数量。
为实现上述目的,本发明采用以下技术方案:
一种系统告警方法,包括:
采集系统的监控数据,并输出存储在数据库中;
逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项;
下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中。
进一步地,所述告警模板在系统初始化时生成,包括告警项的告警阈值和开关状态的默认配置。
进一步地,所述方法还包括:
用户自定义编辑修改所述告警模板时,同步修改对应资源组的告警项配置。
进一步地,所述数据库为influxDB时,所述逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项,具体为:
逐条获取存储在influxDB中的监控数据,判断监控数据对应的资源组在现有数据库中是否已存在;
若资源组不存在,则新增资源组;
若资源组存在,则判断资源组是否为丢失状态;
若资源组不是丢失状态,则读取资源组的告警项;
若资源组是丢失状态,则发送告警恢复提醒。
进一步地,所述数据库为mariaDB时,所述逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项,具体为:
逐条获取存储在mariaDB中的监控数据,判断监控数据对应的资源组在mariaDB数据列表中是否已存在;
若资源组存在,将no_alive_times字段值修改为0;
若资源组不存在,获取no_alive_times字段值;
若no_alive_times字段值小于设置值,no_alive_times字段值加1;
若no_alive_times字段值大于或等于设置值,则创建资源组;
若创建资源组的时间超过10分钟,发送丢失告警。
进一步地,所述方法还包括:
所述告警数据与对应资源组关联,按照所对应的资源组组别聚合展示。
进一步地,所述告警阈值包括模板默认阈值和同比数据值,所述告警任务下发后,根据告警项配置,检测监控数据是否超过告警阈值,具体为:
告警任务下发后,根据告警项配置,检测监控数据是否超过模板默认阈值,若监控数据超过模板默认阈值,则产生告警;
检测监控数据是否超过同比数据值,若监控数据超过同比数据值,则产生告警。
进一步地,所述告警阈值包括中度告警阈值和严重告警阈值;
当监控数据达到中度告警阈值时,产生中度告警;
当监控数据达到严重告警阈值时,产生严重告警。
本发明还提出了一种系统告警装置,包括:
采集单元,用于采集系统的监控数据,并输出存储在数据库中;
配置单元,用于逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项;
检测单元,用于下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
告警单元,用于当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中。
进一步地,所述装置还包括:
展示单元,用于按照告警数据所对应的资源组组别聚合展示告警数据。
本发明的有益效果是:
本发明通过提出一种系统告警方法及装置,在资源组和告警项之间添加模板概念,使资源组和告警项不再直接关联,从而使得下层数据处理面减少告警处理任务的数量。应用于Kapacitor中可以精简Kapacitor设计。当有大量告警数据时,本发明能够实现告警聚合功能,在保证告警能够正常产生并存储的情况下,将告警与资源组相关联,更直观、清晰地向用户呈现每个资源组有的告警,避免告警数据的遗漏,使用户管理和查找告警更加方便,提高用户的使用效率。同时,本发明还可以由用户对告警模板进行新建、修改告警阈值等操作,使得告警模板更加灵活,用户使用体验感更强。
附图说明
图1是本发明实施例系统告警方法流程示意图。
图2是本发明实施例告警过程流程示意图。
图3是本发明实施例influxDB数据库资源发现和配置流程示意图。
图4是本发明实施例mariaDB数据库资源发现和配置流程示意图。
图5是本发明实施例告警展示示意图。
图6是本发明实施例系统告警装置结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明实施例公开了一种系统告警方法,包括:
采集系统的监控数据,并输出存储在数据库中;
逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项;
下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中。
具体地,本发明实施例所述系统为OpenStack系统,所述数据库可采用influxDB、mariaDB等。
系统初始化时,每个资源生成一个默认告警模板(default),该模板包含所有告警项的默认配置,包括告警项的告警阈值和开关状态的默认配置等,当用户自定义编辑修改该告警模板时,同步修改对应资源组的告警项配置。
当系统中产生监控数据时,采用Kapacitor数据处理工具采集系统的监控数据,Kapacitor采用TICKscript的DSL语言进行配置。采集的数据输出存储在数据库中。
图2所示为本发明实施例告警过程示意图。本发明实施例所述告警阈值包括中度告警阈值和严重告警阈值;
首先,配置Kapacitor,设置告警阈值,并将阈值存储到t_mo_template_alert表中;
获取数据库存储的监控数据,将监控数据与告警阈值对比;
当监控数据达到中度告警阈值时,产生中度告警;
当监控数据达到严重告警阈值时,产生严重告警。
除上述中度告警阈值和严重告警阈值等模板默认阈值,本发明实施例还可以实现同比数据告警,即利用Kapacitor获取不同日期同一时刻的数据,将不同日期同一时刻的数据相对比,例如,将昨天某一时刻的数据作为同比数据值,如果今天同一时刻的数据超过昨天的数据,就会产生告警,保存在数据库中,并在系统中展示告警详情。
本发明实施例所述逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项,在数据库为influxDB时的资源发现和配置流程如图3所示,具体包括:
逐条获取存储在influxDB中的监控数据,判断监控数据对应的资源组在现有数据库中是否已存在;
若资源组不存在,则新增资源组;
若资源组存在,则判断资源组是否为丢失状态;
若资源组不是丢失状态,则读取资源组的告警项;
若资源组是丢失状态,则发送告警恢复提醒。
本发明实施例所述逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项,在数据库为mariaDB时的资源发现和配置流程如图4所示,具体包括:
逐条获取存储在mariaDB中的监控数据,判断监控数据对应的资源组在mariaDB数据列表中是否已存在;
若资源组存在,将no_alive_times字段值修改为0;
若资源组不存在,获取no_alive_times字段值;
若no_alive_times字段值小于设置值,no_alive_times字段值加1;
若no_alive_times字段值大于或等于设置值,则创建资源组;
若创建资源组的时间超过10分钟,发送丢失告警。
由于告警数据精确到告警项,而且有大量的告警数据,因此,如果直接展示,数据量将会很大,使得展示效果很差,因此本发明进行告警聚合,将告警数据与对应资源组关联,按照所对应的资源组组别聚合展示,即按照模板形式展示资源告警,警展示示意图如图5所示。
如图6所示,本发明实施例还公开了一种系统告警装置,包括:
采集单元,用于采集系统的监控数据,并输出存储在数据库中;
配置单元,用于逐条获取存储的监控数据,根据告警模板配置该条数据对应资源组的告警项;
检测单元,用于下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
告警单元,用于当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中。
所述装置还包括:
展示单元,用于按照告警数据所对应的资源组组别聚合展示告警数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种系统告警方法,其特征在于,包括:
采集系统的监控数据,并输出存储在数据库中;
逐条获取存储的监控数据,根据告警模板配置监控数据对应资源组的告警项;告警模板包含所有告警项的默认配置,包括告警项的告警阈值和开关状态的默认配置,当用户自定义编辑修改该告警模板时,同步修改对应资源组的告警项配置;
下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中;
还包括,利用Kapacitor获取不同日期同一时刻的数据,将不同日期同一时刻的数据相对比,具体为:将昨天某一时刻的数据作为同比数据值,如果今天同一时刻的数据超过昨天的数据,产生告警,保存在数据库中,并在系统中展示告警详情。
2.根据权利要求1所述的系统告警方法,其特征在于,所述告警模板在系统初始化时生成,包括告警项的告警阈值和开关状态的默认配置。
3.根据权利要求2所述的系统告警方法,其特征在于,所述方法还包括:
用户自定义编辑修改所述告警模板时,同步修改对应资源组的告警项配置。
4.根据权利要求1所述的系统告警方法,其特征在于,所述数据库为influxDB时,所述逐条获取存储的监控数据,根据告警模板配置监控数据对应资源组的告警项,具体为:
逐条获取存储在influxDB中的监控数据,判断监控数据对应的资源组在现有数据库中是否已存在;
若资源组不存在,则新增资源组;
若资源组存在,则判断资源组是否为丢失状态;
若资源组不是丢失状态,则读取资源组的告警项;
若资源组是丢失状态,则发送告警恢复提醒。
5.根据权利要求1所述的系统告警方法,其特征在于,所述数据库为mariaDB时,所述逐条获取存储的监控数据,根据告警模板配置监控数据对应资源组的告警项,具体为:
逐条获取存储在mariaDB中的监控数据,判断监控数据对应的资源组在mariaDB数据列表中是否已存在;
若资源组存在,将no_alive_times字段值修改为0;
若资源组不存在,获取no_alive_times字段值;
若no_alive_times字段值小于设置值,no_alive_times字段值加1;
若no_alive_times字段值大于或等于设置值,则创建资源组;
若创建资源组的时间超过10分钟,发送丢失告警。
6.根据权利要求1所述的系统告警方法,其特征在于,所述方法还包括:
所述告警数据与对应资源组关联,按照所对应的资源组组别聚合展示。
7.根据权利要求1所述的系统告警方法,其特征在于,所述告警阈值包括模板默认阈值和同比数据值,所述告警任务下发后,根据告警项配置,检测监控数据是否超过告警阈值,具体为:
告警任务下发后,根据告警项配置,检测监控数据是否超过模板默认阈值,若监控数据超过模板默认阈值,则产生告警;
检测监控数据是否超过同比数据值,若监控数据超过同比数据值,则产生告警。
8.根据权利要求1所述的系统告警方法,其特征在于,所述告警阈值包括中度告警阈值和严重告警阈值;
当监控数据达到中度告警阈值时,产生中度告警;
当监控数据达到严重告警阈值时,产生严重告警。
9.一种系统告警装置,其特征在于,包括:
采集单元,用于采集系统的监控数据,并输出存储在数据库中;
配置单元,用于逐条获取存储的监控数据,根据告警模板配置监控数据对应资源组的告警项;告警模板包含所有告警项的默认配置,包括告警项的告警阈值和开关状态的默认配置,当用户自定义编辑修改该告警模板时,同步修改对应资源组的告警项配置;
检测单元,用于下发告警任务,根据告警项配置,检测监控数据是否超过告警阈值;
告警单元,用于当监控数据超过告警阈值时,触发告警并将告警数据存储到数据库中;利用Kapacitor获取不同日期同一时刻的数据,将不同日期同一时刻的数据相对比,具体为:将昨天某一时刻的数据作为同比数据值,如果今天同一时刻的数据超过昨天的数据,产生告警,保存在数据库中,并在系统中展示告警详情。
10.根据权利要求9所述的系统告警装置,其特征在于,所述装置还包括:
展示单元,用于按照告警数据所对应的资源组组别聚合展示告警数据。
CN202011264872.0A 2020-11-13 2020-11-13 一种系统告警方法及装置 Active CN112306813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011264872.0A CN112306813B (zh) 2020-11-13 2020-11-13 一种系统告警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011264872.0A CN112306813B (zh) 2020-11-13 2020-11-13 一种系统告警方法及装置

Publications (2)

Publication Number Publication Date
CN112306813A CN112306813A (zh) 2021-02-02
CN112306813B true CN112306813B (zh) 2023-03-14

Family

ID=74325892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011264872.0A Active CN112306813B (zh) 2020-11-13 2020-11-13 一种系统告警方法及装置

Country Status (1)

Country Link
CN (1) CN112306813B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113645650A (zh) * 2021-07-09 2021-11-12 三维通信股份有限公司 主备切换的处理方法、系统、电子装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN109240891A (zh) * 2018-09-26 2019-01-18 郑州云海信息技术有限公司 一种sr整机柜服务器的监控方法及装置
CN110708197A (zh) * 2019-09-27 2020-01-17 招商局金融科技有限公司 监控装置、监控装置的监控策略的设置方法及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN109240891A (zh) * 2018-09-26 2019-01-18 郑州云海信息技术有限公司 一种sr整机柜服务器的监控方法及装置
CN110708197A (zh) * 2019-09-27 2020-01-17 招商局金融科技有限公司 监控装置、监控装置的监控策略的设置方法及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
zabbix基本监控各指标简解;夜风2019;《https://www.cnblogs.com/zhou2019/p/10954045.html》;20190531;第1-4页 *

Also Published As

Publication number Publication date
CN112306813A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
US11550628B2 (en) Performing runbook operations for an application based on a runbook definition
CN107145489B (zh) 一种基于云平台的客户端应用的信息统计方法和装置
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
US10068202B2 (en) Instantiating complex event scenarios using dynamic rule creation
CN107832200A (zh) 告警处理方法、装置、计算机设备及存储介质
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
CN111309567B (zh) 数据处理方法、装置、数据库系统、电子设备及存储介质
WO2017011708A1 (en) Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments
US8904243B2 (en) Event management systems and methods
CN106445292B (zh) 应用程序的分身管理方法及系统
CN109362235B (zh) 对网络可访问存储装置处的事务进行分类的方法
CN110704283A (zh) 一种统一生成告警信息的方法、装置和介质
TW201901491A (zh) 一種關聯信息查詢方法、終端及設備
CN111459763A (zh) 跨kubernetes集群监控系统及方法
CN104639347A (zh) 一种多集群监控方法、装置及系统
US20210200740A1 (en) System and method for processing logs
CN112306813B (zh) 一种系统告警方法及装置
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和系统
CN111130867B (zh) 一种基于物联网的智能家居设备告警方法及装置
CN112529528A (zh) 基于大数据流计算的工作流监控与告警方法、装置及系统
CN114090378A (zh) 一种基于Kapacitor的自定义监控告警方法
US20210195384A1 (en) Monitoring and analyzing communications across multiple control layers of an operational technology environment
CN107315652B (zh) 一种数据备份方法及云hdfs系统
US9971324B2 (en) Storage for real time process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant