CN112069019A - 一种系统告警方法及装置 - Google Patents

一种系统告警方法及装置 Download PDF

Info

Publication number
CN112069019A
CN112069019A CN202010737839.9A CN202010737839A CN112069019A CN 112069019 A CN112069019 A CN 112069019A CN 202010737839 A CN202010737839 A CN 202010737839A CN 112069019 A CN112069019 A CN 112069019A
Authority
CN
China
Prior art keywords
alarm
condition
trigger
information
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010737839.9A
Other languages
English (en)
Inventor
董玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN202010737839.9A priority Critical patent/CN112069019A/zh
Publication of CN112069019A publication Critical patent/CN112069019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种系统告警方法及装置。其中,所述系统告警方法,包括:获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;基于所述告警策略触发模板并确定系统的告警触发条件;采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。本申请提供的系统告警方法及装置,能够大大减少维护配置的工作量。

Description

一种系统告警方法及装置
技术领域
本说明书涉及计算机技术领域,特别涉及一种系统告警方法及装置、计算设备及计算机可读存储介质。
背景技术
随着云化系统的不断普及,为了更好快速地获取被监控资源发生故障或者变更,能够快速地对被监控资源的故障信息进行处理,云化系统通常采用主动监控和被动接收相结合的监控机制。
在主动监控方式下,以被监控资源的监测项为单位,设置监测项的监测频率,定时采集数据,当监控项出现异常时,及时将告警信息展示给用户处理。被动接收方式下,用户将被监控资源相应的陷阱报文信息管理库(Trap MIB)导入到系统中,当设备出现故障或变更时,该资源会通过Trap方式将该设备的故障或变更信息发送到系统中,系统对接收的Trap信息进行解析,形成相应的告警信息,并展示给用户。
但是,由于系统所部署的主机等监控对象往往呈指数增加,虚拟化资源池的虚拟机呈现几千上万级别的趋势,这样在部署监控软件时,监控对象的监控告警配置策略显得尤为重要,那么如何减少增加告警策略的配置环节,减少维护人员的工作量就成为了当前亟待解决的问题。
发明内容
有鉴于此,本说明书实施例提供了一种系统告警方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请提供了一种系统告警方法,包括:
获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
基于所述告警策略触发模板并确定系统的告警触发条件;
采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
进一步地,所述告警采集条件信息包括预设采集时间、预设采集周期、预设采集值中的至少一种;
基于所述告警触发信息确定告警策略触发模板,包括:
基于预设采集时间、预设采集周期、预设采集值中的至少一种确定告警策略触发模板。
进一步地,基于所述告警策略触发模板并确定系统的告警触发条件,包括:
基于所述告警策略触发模板配置告警策略,并基于所述告警策略确定系统的告警触发条件。
进一步地,所述系统告警方法,还包括:
在告警未被处理的情况下,基于预设的告警频率对系统进行重复告警。
本申请还提供一种系统告警装置,包括:
信息获取模块,被配置为获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
条件确定模块,被配置为基于所述告警策略触发模板并确定系统的告警触发条件;
告警触发模块,被配置为采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
本申请还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现所述系统告警方法的步骤。
本申请还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述系统告警方法的步骤。
本申请提供的系统告警方法及装置,其通过获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;基于所述告警策略触发模板并确定系统的告警触发条件;采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。由于在云监控过程中,触发告警采集条件信息都可以逐步的形成固定的模板,模板可以不断的进行复用,采用上述的方法告警触发条件可以直接配置一次即可,大大减少了维护配置的工作量。
附图说明
图1是本说明书一实施例提供的系统告警方法的步骤流程示意图;
图2是本说明书一实施例提供的现有的告警策略配置逻辑关系示意图;
图3是本说明书一实施例提供的系统告警方法中包含的告警策略配置逻辑关系图;
图4是本说明书一实施例提供的系统告警装置的结构框图;
图5是本说明书一实施例提供的计算设备的机构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种系统告警方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
如图1所示,本实施例提供一种系统告警方法,包括步骤S101至步骤S103。
S101、获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板。
具体地,告警采集条件信息包括预设采集时间、预设采集周期、预设采集值中的至少一种。
在实际应用中,可以基于预设采集时间、预设采集周期、预设采集值中的至少一种确定告警策略触发模板。
系统将告警策略中的采集条件,形成模板的方式,如此能够同时配置多个采集条件的关联关系,比如采集时间在晚上10点到12点的时间段内,采集周期大于5次,采集值都大于90。这样维护人员再配置完告警策略触发采集条件模板后,直接配置一次即可完成所有配置工作,减少工作量。
S102、基于所述告警策略触发模板并确定系统的告警触发条件。
具体地,可以基于所述告警策略触发模板配置告警策略,并基于所述告警策略确定系统的告警触发条件。
其中,告警策略由告警名称、告警策略类型、告警触发条件、告警对象和告警渠道组成,告警触发条件是由指标、比较关系、阈值、统计周期和持续周期组成的一个有语义的条件。
例如指标为“CPU利用率”、比较关系为>、阈值为50%、统计周期为10分钟、持续周期为2个周期表示:每10分钟收集一次CPU利用率数据,若某台云服务器的CPU利用率连续三次大于50%则触发告警。
S103、采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
具体地,系统的运行信息为其运行速度、运行内存、利用率等能够展示其运行状态的信息,在其运行速度、运行内存、利用率等运行信息满足告警触发条件即不符合预设运行要求的情况下,即会进行告警,以提示用户尽早处理。
此外,在告警一直未被处理的情况下,还可以基于预设的告警频率对系统进行重复告警。换而言之可以为每一条告警策略设置重复通知策略。即当告警产生时,能够定义告警以特定的频率重复通知,比如不重复、5分钟、10分钟、周期指数递增等重复频率。
参见图2和图3,图2是现有的告警策略配置逻辑关系示意图,图3是本申请提供的系统告警方法中包含的告警策略配置逻辑关系图。由于采集值的判断条件多达数十种,包括采集值大于90、或者采集值小于0、采集值不包括UP等。随着云化系统的不断普及,系统所部署的主机等监控对象呈指数增加,虚拟化资源池的虚拟机呈现几千上万级别的趋势,这样对部署监控软件时,增加监控对象的监控告警配置策略形成巨大的压力,迫切需要减少增加告警策略的配置环节,减少维护人员的工作量。
如图2所示,在现有技术中某一类或某一个监控对象的告警配置策略都需要循环配置N次采集值以及之间的关系。而本申请创造性的形成告警策略触发模板,能够减少每次监控对象告警策略时,每次都要循环配置N次的告警采集值及判断标准,参见图3,按照现有的维护经验,监控对象配置的告警策略中的触发条件,平均需要6个采集值条件配置。按照监控对象5000台,每个监控对象平均告警的监控条数5次告警采集配置。每台监控对象的告警策略配置时间大概是3分钟。使用告警触发采集条件模板后,每台监控对象的告警策略配置时间大概是1分钟。可以节省166个小时,大大的提高了告警效率。
如图4所示,本实施例提供一种系统告警装置,包括:
信息获取模块401,被配置为获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
条件确定模块402,被配置为基于所述告警策略触发模板并确定系统的告警触发条件;
告警触发模块403,被配置为采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
可选地,所述告警采集条件信息包括预设采集时间、预设采集周期、预设采集值中的至少一种;
所述信息获取模块401,进一步被配置为:
基于预设采集时间、预设采集周期、预设采集值中的至少一种确定告警策略触发模板。
可选地,所述条件确定模块402,进一步被配置为:
基于所述告警策略触发模板配置告警策略,并基于所述告警策略确定系统的告警触发条件。
可选地,所述装置,还包括:
重复告警模块,被配置为在告警未被处理的情况下,基于预设的告警频率对系统进行重复告警。
本申请提供的一种系统告警装置,其通过获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;基于所述告警策略触发模板并确定系统的告警触发条件;采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。由于在云监控过程中,触发告警采集条件信息都可以逐步的形成固定的模板,模板可以不断的进行复用,采用上述的方法告警触发条件可以直接配置一次即可,大大减少了维护配置的工作量。
如图5所示,图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备550可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
基于所述告警策略触发模板并确定系统的告警触发条件;
采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的系统告警方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述权限管控方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
基于所述告警策略触发模板并确定系统的告警触发条件;
采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的系统告警方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述系统告警方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (7)

1.一种系统告警方法,其特征在于,包括:
获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
基于所述告警策略触发模板并确定系统的告警触发条件;
采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
2.根据权利要求1所述的系统告警方法,其特征在于,所述告警采集条件信息包括预设采集时间、预设采集周期、预设采集值中的至少一种;
基于所述告警触发信息确定告警策略触发模板,包括:
基于预设采集时间、预设采集周期、预设采集值中的至少一种确定告警策略触发模板。
3.根据权利要求1所述的系统告警方法,其特征在于,基于所述告警策略触发模板并确定系统的告警触发条件,包括:
基于所述告警策略触发模板配置告警策略,并基于所述告警策略确定系统的告警触发条件。
4.根据权利要求1所述的系统告警方法,其特征在于,还包括:
在告警未被处理的情况下,基于预设的告警频率对系统进行重复告警。
5.一种系统告警装置,其特征在于,包括:
信息获取模块,被配置为获取告警采集条件信息,并基于所述告警触发信息确定告警策略触发模板;
条件确定模块,被配置为基于所述告警策略触发模板并确定系统的告警触发条件;
告警触发模块,被配置为采集系统的运行信息,并在所述运行信息满足所述告警触发条件的情况下,进行告警。
6.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-4任意一项所述方法的步骤。
7.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
CN202010737839.9A 2020-07-28 2020-07-28 一种系统告警方法及装置 Pending CN112069019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010737839.9A CN112069019A (zh) 2020-07-28 2020-07-28 一种系统告警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010737839.9A CN112069019A (zh) 2020-07-28 2020-07-28 一种系统告警方法及装置

Publications (1)

Publication Number Publication Date
CN112069019A true CN112069019A (zh) 2020-12-11

Family

ID=73656215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010737839.9A Pending CN112069019A (zh) 2020-07-28 2020-07-28 一种系统告警方法及装置

Country Status (1)

Country Link
CN (1) CN112069019A (zh)

Similar Documents

Publication Publication Date Title
CN112506444A (zh) 基于Kubernetes集群的扩缩容控制方法和装置、电子设备
CN110347716B (zh) 日志数据处理方法、装置、终端设备及存储介质
EP3058679B1 (en) Alarm prediction in a telecommunication network
US10438124B2 (en) Machine discovery of aberrant operating states
US10346756B2 (en) Machine discovery and rapid agglomeration of similar states
JP6262229B2 (ja) 向上したウェブページ性能のためのタグ待ち時間モニタリングおよび制御システム
CN112615742A (zh) 用于预警的方法、装置、设备以及存储介质
CN110995497A (zh) 一种云计算环境下统一运维的方法、终端设备及存储介质
CN111752805A (zh) 一种云服务器资源监控及告警系统
CN112532435B (zh) 一种运维方法、运维管理平台、设备及介质
WO2016192568A1 (zh) 一种多点监控报警方法和系统
CN114070711A (zh) 告警信息的处理方法、装置、电子设备及存储介质
CN112612577A (zh) 一种大规模K8s集群监控的方法、装置、设备及可读介质
CN111124609A (zh) 数据采集方法、装置、数据采集设备及存储介质
CN112506738A (zh) 数据可视化处理方法及装置
US10862738B2 (en) System and method for alarm correlation and root cause determination
CN111327466B (zh) 一种告警分析方法、系统、设备以及介质
CN116804957A (zh) 一种系统监控方法及装置
CN112948223A (zh) 一种监测运行情况的方法和装置
CN110458396A (zh) 风险数据的监控方法和装置
CN112069019A (zh) 一种系统告警方法及装置
CN113220527A (zh) 边缘端执行的方法、云端执行的方法和装置
CN112612929A (zh) 数据处理方法及装置
CN116708217A (zh) 一种数据中心设备监控方法、系统、电子设备及存储介质
CN110647086B (zh) 一种基于运行大数据分析的智能运维监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination