CN109688188B - 监控告警方法、装置、设备及计算机可读存储介质 - Google Patents
监控告警方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109688188B CN109688188B CN201811053362.1A CN201811053362A CN109688188B CN 109688188 B CN109688188 B CN 109688188B CN 201811053362 A CN201811053362 A CN 201811053362A CN 109688188 B CN109688188 B CN 109688188B
- Authority
- CN
- China
- Prior art keywords
- alarm
- monitoring data
- monitoring
- fluctuation
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/51—Discovery or management thereof, e.g. service location protocol [SLP] or web services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/064—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Alarm Systems (AREA)
Abstract
本发明提供一种监控告警方法,该方法包括:获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;若异常,则判断所述监控数据的生成时间是否属于许可波动时间段;若属于,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;若不属于,则根据预设标准告警优先级进行告警。本发明还提供一种监控告警装置、设备及计算机可读存储介质。本发明在日常监控基础上,当监控的业务数据出现异常时,从时间维度对异常原因进行校验和分析,并根据分析结果采用合适的告警方式进行告警,提高了告警的精确性,有利于提高系统稳定性和安全性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种监控告警方法、装置、设备及计算机可读存储介质。
背景技术
监控是整个运维乃至整个产品生命周期中最重要的一环,为了更好、更有效的保障业务系统上线后的稳定的运行,对于业务系统(包括服务器和数据库)的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时检测出业务系统的异常。
在对业务系统进行监控的过程中,若发现异常,监控系统(或监控服务器)将会自动向告警邮箱发送告警邮件,以提示运维工程师及时进行异常排查。而在传统的监控过程中,异常标准一般是以一个定值方式进行设置,灵活性较低,没有考虑到业务方的实际业务安排,经常会出现在某一段时间告警邮件特别多的情况,降低了告警的准确性,容易对运维工程师造成视觉疲劳,影响了本身的运维工作。
发明内容
本发明的主要目的在于提供一种监控告警方法、装置、设备及计算机可读存储介质,旨在提高监控告警的准确性。
为实现上述目的,本发明提供一种监控告警方法,所述监控告警方法包括:
获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
若所述监控数据异常,则判断所述监控数据的生成时间是否属于许可波动时间段;
若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警。
可选地,所述将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常的步骤包括:
根据所述监控数据的类型查询历史数据库,获取对应的历史数据;
根据所述监控数据和所述历史数据计算所述监控数据的同比波动值和环比波动值;
判断所述监控数据的同比波动值和环比波动值是否均大于对应的标准波动阈值,以判断所述监控数据是否异常。
可选地,所述若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警的步骤包括:
若所述监控数据的生成时间属于许可波动时间段,则根据所述生成时间所属的许可波动时间段确定对应的动态波动阈值;
将所述监控数据和对应的动态波动阈值进行比对,并根据所述监控数据和所述动态波动阈值的大小关系设置对应的告警优先级,以根据所述告警优先级进行告警处理。
可选地,所述获取目标业务系统和/或目标数据库的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常的步骤之前,还包括:
接收所述目标业务系统发送的业务安排信息,并根据所述业务安排信息设置对应的许可波动时间段和动态波动阈值。
可选地,所述若所述监控数据异常,则根据所述监控数据的生成时间是否属于许可波动时间段的步骤之后,还包括:
若所述监控数据的生成时间不属于所述许可波动时间段,则获取所述目标业务系统在所述生成时间内接收到的任务指令;
对所述任务指令进行分析,判断所述目标业务系统是否被攻击;
若所述目标业务系统被攻击,则进行防御性处理。
可选地,所述监控告警方法还包括:
根据告警情况在预设告警日志中记录对应的告警事件,所述告警事件包括异常时间、分析时间、异常类型和告警方式。
可选地,所述根据告警情况在预设告警日志中记录对应的告警事件的步骤之后,还包括:
根据所述预设告警日志确定预设统计周期内的高频告警时间和/或高频告警类型,并根据所述高频告警时间和/或所述高频告警类型分别对应的监控数据生成对应的高频告警报告。
此外,为实现上述目的,本发明还提供监控告警装置,所述监控告警装置包括:
第一判断模块,用于获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
第二判断模块,用于若所述监控数据异常,则判断所述监控数据的生成时间是否属于许可波动时间段;
第一告警模块,用于若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
第二告警模块,用于若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警。
此外,为实现上述目的,本发明还提供一种监控告警设备,所述监控告警设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的监控告警程序,其中所述监控告警程序被所述处理器执行时,实现如上述的监控告警方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有监控告警程序,其中所述监控告警程序被处理器执行时,实现如上述的监控告警方法的步骤。
本发明在监控日常业务活动的基础上,当监控的业务数据出现异常时,从时间维度对异常原因进行校验和分析,并根据分析结果采用合适的告警方式进行告警,从而使得监控告警能够更贴近实际业务,实现更为精确的告警,有利于提高系统稳定性和安全性,也有利于降低运维人员的工作量,提高了运维效率。
附图说明
图1为本发明实施例方案中涉及的监控告警设备的硬件结构示意图;
图2为本发明监控告警方法第一实施例的流程示意图;
图3为本发明监控告警方法第二实施例的流程示意图;
图4为本发明监控告警方法第三实施例的流程示意图;
图5为本发明监控告警装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的监控告警方法主要应用于监控告警设备,该监控告警设备可以是个人计算机(personal computer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的监控告警设备的硬件结构示意图。本发明实施例中,监控告警设备可以包括处理器1001(例如中央处理器Central ProcessingUnit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WI-FI接口);存储器1005可以是高速随机存取存储器(random accessmemory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及监控告警程序。在图1中,网络通信模块可用于连接目标业务系统,与目标业务系统进行数据通信;而处理器1001可以调用存储器1005中存储的监控告警程序,并执行本发明各实施例提供的监控告警方法。
本发明实施例提供了一种监控告警方法。
参照图2,图2为本发明监控告警方法第一实施例的流程示意图。
本实施例中,所述监控告警方法包括:
步骤S10,获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
监控是整个运维乃至整个产品生命周期中最重要的一环,为了更好、更有效的保障业务系统上线后的稳定的运行,对于业务系统必须有一个可靠和可持续的监测机制,统计分析业务处理过程产生的各种数据,从而能及时检测出业务系统的异常。在对业务系统进行监控的过程中,若发现异常,监控系统(或监控服务器)将会自动向告警邮箱发送告警邮件,以提示运维工程师及时进行异常排查。而在传统的监控过程中,异常标准一般是以一个定值方式进行设置,灵活性较低,没有考虑到业务方的实际业务安排,经常会出现在某一段时间告警邮件特别多的情况,降低了告警的准确性,容易对运维工程师造成视觉疲劳,影响了本身的运维效率。对此,本实施例中提出一种监控告警方法,在监控日常业务活动的基础上,当监控的业务数据出现异常时,从时间维度对异常原因进行校验和分析,并根据分析结果确定告警优先级,从而实现更为精确的告警,提高运维效率。
本实施例中的监控告警方法是由监控告警设备实现的,该监控告警设备以监控服务器为例进行说明。监控服务器预先与目标业务系统(包括业务服务器和业务数据库)进行连接。监控服务器在进行监控时,将会获取目标业务系统的监控数据,并对这些监控数据进行分析,判断当前是否存在异常。其中,监控数据的类型包括但不限于硬件资源使用情况、带宽占用、进程数、APP访问量等;而对于监控数据的获取方式,可以是实时获取,也可以是定期获取(例如每隔10分钟获取一次)。
监控服务器在对监控进行分析时,可以是将获取到监控数据与预先设置的标准数据、标准阈值进行比对,从而判断监控数据是否异常;当然,为了使分析能更贴近实际业务情况,还可以采用将监控数据与历史数据进行比对的方法来分析,例如可以是通过分析监控数据的同比波动和环比波动的方式来判断监控数据是否异常;其中,同比指与历史同期的数据相比,环比指与上一个统计周期的数据相比,采用同比可以剔除周期性行业因短期环境的因素导致的波动,而环比是反映受周期影响较小的部分的发展状况。具体的,监控服务器还将与一历史数据库连接,该历史数据库中存储有目标业务系统的历史数据;当监控获取到目标业务系统的监控数据时,还将查询该历史数据库,获取到与监控数据同类型的历史数据,然后监控服务器将会根据监控数据和历史数据计算出监控数据的同比波动值和环比波动值;在计算得到同比波动值和环比波动值时,监控服务器将会把该同比波动值和环比波动值分别与各自对应的标准波动阈值进行比较,判断同比波动值和环比波动值是否均大于各自对应的标准波动阈值;若同比波动值和环比波动值均大于各自对应的标准波动阈值,则可认为监控数据异常(波动异常)。值得说明的是,该波动异常包括上限异常和下限异常,也就是说,监控数据过大或小于所导致的波动(例如APP访问量过大或过小引起的波动),均有可能被认为是异常。
本实施例中,当监控服务器判断监控数据异常时,将进入步骤S20进行进一步分析;而若判断监控正常,则监控服务器将进入休眠状态直至下一个时间节点再次执行监控任务。
步骤S20,若所述监控数据异常,则判断所述监控数据的生成时间是否属于许可波动时间段;
考虑监控数据出现异常不一定是目标业务系统异常导致,该异常也可能是跟自然时间和业务安排有关,例如国家法定节假日、业务促销、临时维护窗口等原因均可能会导致监控数据异常;若对由这些原因导致的监控数据异常的情况也采用标准的告警处理方式,则会降低了告警的准确性,容易对运维工程师造成视觉疲劳,影响了本身的运维效率。对此,本实施例中,监控服务器在判断监控数据存在异常时,首先将会分析该异常原因是否与自然时间或业务安排有关。
具体的,监控服务器将会获取监控数据的生成时间,并判断该生成时间是否属于许可波动时间段。其中,该监控数据的生成时间,可以是包含于监控数据中,即监控服务器在获取到监控数据时也一起确定该监控数据的生成时间;当然,也可以是监控服务器在判断监控数据异常时,再向目标业务系统发送时间询问请求,以确定异常的监控数据的生成时间。而对于许可波动时间段,则可以由运维人员预先进行设置,该许可波动时间段又可以包括自然波动时间段和业务波动时间段;自然波动时间段可以是根据国家节假日进行设定,例如X1月Y1日到X2月Y2日为长假日,经常会出现访问量、线程数、查询量等业务数据暴增的情况,对此可以将这段时间设置为自然波动时间段,然对自动波动时间段的告警规则进行特殊配置;业务波动时间段则可以是根据业务方的实际业务安排进行设定,例如X3月Y3日为“开门红”业务的促销日活动期间,在该时间段内经常会出现访问量、线程数、查询量等业务数据暴增的情况,对此可以将这段时间设置为自然波动时间段,然对业务波动时间段的告警规则进行特殊配置;有例如X4月Y4日为窗口维护期,在该时间段内经常会出现访问量、线程数、查询量等业务数据骤减的情况,对此可以将这段时间设置为业务波动时间段,然对业务波动时间段的告警规则进行特殊配置。本实施例中,监控服务器将判断监控数据的生成时间是否属于许可波动时间段;若监控数据的生成时间属于许可波动时间段,则进入步骤S30;若监控数据的生成时间不属于许可波动时间段,则进入步骤S40。
步骤S30,若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
本实施例中,若监控数据的生成时间属于许可波动时间段时,监控服务器将会根据该许可波动时间段所对应的波动告警规则对监控数据进行进一步的分析处理。正如步骤S20中所述,在处于许可波动时间段时(包括自然波动时间段和业务波动时间段),对于一些监控数据的波动异常,对于业务方和/或运维人员而言,属于可预知的情况;因此对于许可波动时间段,可针对性地设置波动告警规则,以对该许可波动时间段发先的数据异常进行个性化地告警设置,例如下调告警的优先级,普通时间段内数据异常的原告警方式为电话、邮箱的双重告警,而在许可波动时间段的数据异常可仅设置为邮箱的单项告警;甚至于还可以不进行告警。
值得说明的,许可波动时间段内出现的监控数据波动异常虽然对业务方和/或运维人员而言是可预知,但并不代表该数据波动异常对目标业务系统本身的正常运行毫无影响,例如当某一访问量或线程数长时间处于一个顶峰值时,也会对目标业务系统造成较大的压力,此时也需要及时进行告警,以通知相关运维人员进行业务优化或处理。对此,本实施例中,对于许可波动时间段,还可以设置对应的动态波动阈值;对于该动态波动阈值,与步骤S10中的标准阈值、标准波动阈值相比,可看做是放宽的告警标准,例如在步骤S10在判断监控数据是否异常时,同比波动的标准波动阈值为20%,而许可波动时间段对应的动态波动阈值为40%。当监控数据的生成时间属于许可波动时间段时,监控服务器将根据许可波动时间段确定对应的动态波动阈值,然后将监控数据和对应的动态波动阈值进行进一步的比对,然后再根据监控数据和动态波动阈值的大小关系确定和设置对应的告警优先级,并以该告警优先级进行告警处理;也就是说,如果许可波动时间段的数据异常程度超过该某个程度(该程度以动态波动阈值表征)时,则认为许可波动时间段的数据异常依然可能会存在一定的威胁性,此时可对应设置告警优先级并进行告警。而在实际中,对于告警优先级,也可以根据数据异常程度进行设置;例如动态波动阈值为40%;而当监控数据的波动比(值)在40%到50%之间为一般优先级告警,当监控数据的波动比(值)超过50%时为高优先级告警。
进一步的,在实际中,监控服务器不仅是对目标业务系统进行监控,同时还可以目标业务系统的业务安排设置许可波动时间段。具体的,当业务方在目标业务系统中进行业务设置时(如促销安排、窗口维护等),目标业务系统将向监控服务器发送对应的业务安排信息,该业务安排信息中包括有业务时间、业务类型等内容;监控服务器在接收到该业务安排信息,即可设置根据该业务安排信息设置对应的许可波动时间段和动态波动阈值。其中,不同的业务类型可以对应不同的动态波动阈值;当然,该动态波动阈值也可以是由业务方在进行业务安排设置时进行手动设置,并将该动态波动阈值添加至业务安排信息中,监控服务器可根据业务安排信息进行相关的设置。
步骤S40,若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警。
本实施例中,若监控数据的生成时间不属于许可波动时间段时,则可认为当前的异常不与业务安排或自然时间有关,此时监控服务器将根据预设标准告警优先级进行告警,也即根据标准的告警流程(规则)进行处理,例如向对应的邮箱、微信发送告警信息等,以提示相关的运维工程师及时进行异常排查。
本实施例中,获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;若所述监控数据异常,则根据所述监控数据的生成时间是否属于许可波动时间段;若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警。通过以上方式,本实施例在监控日常业务活动的基础上,当监控的业务数据出现异常时,从时间维度对异常原因进行校验和分析,并根据分析结果采用合适的告警方式进行告警,从而使得监控告警能够更贴近实际业务,实现更为精确的告警,有利于降低运维人员的工作量,提高了运维效率。
参照图3,图3为本发明监控告警方法第二实施例的流程示意图。
基于上述图2所示实施例,本实施例中,步骤S20之后还包括:
步骤S50,若所述监控数据的生成时间不属于所述许可波动时间段,则获取所述目标业务系统在所述生成时间内接收到的任务指令;
本实施例中,若监控数据的生成时间不属于许可波动时间段时,则可认为当前的异常不与业务安排或自然时间有关;此时,为了提高目标业务系统的安全性,监控服务器还会对目标业务系统的安全性进行分析,判断当前是否受到了攻击。对于该安全分析的过程,往往需要获取到大量的基础信息(数据)。例如,目标业务系统包括有业务数据库,业务数据库的类型可以是oracle、SQL server、DB2、mysql等;而对于业务数据库而言可能会遭到跨站脚本攻击;对此,监控服务器中首先需要获取目标业务系统在异常监控数据生成时间内所接收到的任务指令(即监控服务器需要获取客户端提交到目标业务系统的数据包、任务脚本、通信报文等)。
步骤S60,对所述任务指令进行分析,判断所述目标业务系统是否被攻击;
本实施例中,在获取到目标业务系统在异常监控数据生成时间内所接收到的任务指令时,监控服务器将根据关键字匹配的方式对任务指令进行全文遍历,从中提取出相关的SQL(结构化查询语言,Structured Query Language)语句;然后根据判断提取到的SQL语句中是否包括修改数据库字段内容的语句;如果该SQL语句中包括有修改数据库字段内容的语句(如inset、update等),则进一步判断该语句中是否为跨站脚本攻击特征语句;若有,则判断目标业务系统被攻击,此时进入步骤S70;否则即认为目标业务系统未被攻击,此时可进行标准的告警处理。
步骤S70,若所述目标业务系统被攻击,则进行防御性处理。
本实施例中,若判断目标业务系统被攻击,则监控服务器将会采取相应的防御性处理,例如向目标业务系统发送相关业务暂停信息,以使目标业务系统暂时停止对外提供服务;又或者向相关人员发送系统维护信息等,以使得相关人员及时对攻击做出回应。
进一步的,对于该安全性分析,由于可能出现安全问题的类型较多,因此在实际中往往需要结合其它多种基础数据进行,例如目标业务系统的网络情况、客户端ip、服务端ip、请求码、请求方法、请求url、useragent代理、日期、线程连接数和连接时间等。而对于该安全性的分析过程,还可以是通过机器学习得到的分析模型来实现,该分析模型预先通过历史的监控数据训练得到。在进行安全性分析时,可将这些基础数据输入至分析模型中,由该分析模型根据计算机自己总结的数据关联规律判断当前是否受到了攻击;若是,则会提高告警优先级并进行告警。当然分析模型在确定受到攻击的同时,还可根据当前情况给出相应的异常原因和处理建议,以方便管理人员进行异常排除处理;也就是说,在训练和构建分析模型时,对于训练所用的样本,其分析结果项除了受到攻击与否的结论外,还包括异常表现形式、原因、用户行为、解决方案等,如此,在确定受到攻击并进行告警时,还将一同给出相应的异常原因和处理建议。通过以上方式,有利于及时发现目标业务系统的安全性问题,并对安全性问题及时作出回应,提高了目标业务系统的可靠性和稳定性。
参照图4,图4为本发明监控告警方法第三实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述监控告警方法还包括:
步骤S80,根据告警情况在预设告警日志中记录对应的告警事件,所述告警事件包括异常时间、分析时间、异常类型和告警方式。
本实施例中,为了方便运维人员了解告警的具体情况,监控服务器在进行了告警之后,还会对告警情况进行记录。具体的,监控服务器中预先设置有告警日志,用以对告警事件进行记录;当然,如果监控服务器是对多个不同的业务系统进行监控,则可以是设置有多个不同的告警日志以分别进行告警记录。当监控服务器进行了告警之后,将会在告警日志中记录对应的告警事件,该告警事件可以包括异常时间(目标业务系统生成异常的监控数据的时间)、分析时间(监控服务器分析监控数据的时间)、异常类型、告警方式等内容。
进一步的,为了方便运维人员从宏观上了解监控数据异常导致的告警情况,监控服务器还可以根据预设告警日志统计出一定时间段内的高频告警时间、高频告警类型等数据。其中,高频告警时间为告警的多发时间,例如4月份共告警300次,有200次告警发生在上午的9点到10点,则4月份的高频告警时间为上午9点到10点;当然,在实际中,统计的周期时长可以是根据实际情况进行设置,如可以是以一个月为一个统计周期,还可以是以一周为一个统计周期;而对于“高频”的标准,也可以是根据实际情况进行设置,如可以将某一次数阈值作为“高频”的判断标准,也可以是以某一占比阈值作为“高频”的判断标准。高频告警类型则为高频的多发类型,例如4月份共告警300次,有200次告警类型为警告warning类型(对应的告警方式为邮件告警),则4月份的高频告警类型为warning类型;类似的,统计的周期时长以及“高频”的判断标准也可以是根据实际情况进行设置。而在得到这些宏观的统计分析结果时,监控服务器还可以给出相关的报告,以供运维人员查看;例如,监控服务器可以根据预设告警日志统计某一时间段的高频告警时间和/或高频告警类型时,将会获取到这些高频告警时间和/或高频告警类型所对应的监控数据,并生成对应的高频告警报告以供运维人员查看,运维人员可根据该报告对业务流程或是目标业务系统进行优化,保证业务的正常进行。
此外,本发明实施例还提供一种监控告警装置。
参照图5,图5为本发明监控告警装置第一实施例的功能模块示意图。
本实施例中,所述监控告警装置包括:
第一判断模块10,用于获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
第二判断模块20,用于若所述监控数据异常,则根据所述监控数据的生成时间是否属于许可波动时间段;
第一告警模块30,用于若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
第二告警模块40,用于若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警。
其中,上述监控告警装置的各虚拟功能模块存储于图1所示监控告警设备的存储器1005中,用于实现监控告警程序的所有功能;各模块被处理器1001执行时,可实现当监控的业务数据出现异常时,从时间维度对异常原因进行校验和分析,并根据分析结果采用合适的告警方式进行告警的功能。
进一步的,所述第一判断模块10包括:
数据获取单元,用于根据所述监控数据的类型查询历史数据库,获取对应的历史数据;
比值计算单元,用于根据所述监控数据和所述历史数据计算所述监控数据的同比波动值和环比波动值;
异常判断单元,用于判断所述监控数据的同比波动值和环比波动值是否均大于对应的标准波动阈值,以判断所述监控数据是否异常。
进一步的,所述第一告警模块30包括:
阈值确定单元,用于若所述监控数据的生成时间属于许可波动时间段,则根据所述生成时间所属的许可波动时间段确定对应的动态波动阈值;
告警处理单元,用于将所述监控数据和对应的动态波动阈值进行比对,并根据所述监控数据和所述动态波动阈值的大小关系设置对应的告警优先级,以根据所述告警优先级进行告警处理。
进一步的,所述监控告警装置还包括:
信息接收模块,用于接收所述目标业务系统发送的业务安排信息,并根据所述业务安排信息设置对应的许可波动时间段和动态波动阈值。
进一步的,所述监控告警装置还包括:
指令获取模块,用于若所述监控数据的生成时间不属于所述许可波动时间段,则获取所述目标业务系统在所述生成时间内接收到的任务指令;
第三判断模块,用于对所述任务指令进行分析,判断所述目标业务系统是否被攻击;
防御处理模块,用于若所述目标业务系统被攻击,则进行防御性处理。
进一步的,所述监控告警装置还包括:
事件记录模块,用于根据告警情况在预设告警日志中记录对应的告警事件,所述告警事件包括异常时间、分析时间、异常类型和告警方式。
进一步的,所述监控告警装置还包括:
报告生成模块,用于根据所述预设告警日志确定预设统计周期内的高频告警时间和/或高频告警类型,并根据所述高频告警时间和/或所述高频告警类型分别对应的监控数据生成对应的高频告警报告。
其中,上述监控告警装置中各个模块的功能实现与上述监控告警方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有监控告警程序,其中所述监控告警程序被处理器执行时,实现如上述的监控告警方法的步骤。
其中,监控告警程序被执行时所实现的方法可参照本发明监控告警方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种监控告警方法,其特征在于,所述监控告警方法包括:
获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
若所述监控数据异常,则判断所述监控数据的生成时间是否属于许可波动时间段;
若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警;
其中,所述监控数据包括硬件资源使用情况、带宽占用、进程数、APP访问量;
所述获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常的步骤,包括:
从历史数据库中获取与目标业务系统的监控数据同类型的历史数据;
根据所述历史数据和所述监控数据确定同比波动值和环比波动值;
判断所述同比波动值和所述环比波动值是否均大于各自对应的标准波动阈值;
若所述同比波动值和所述环比波动值均大于各自对应的标准波动阈值,则可认为监控数据异常。
2.如权利要求1所述的监控告警方法,其特征在于,所述将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常的步骤包括:
根据所述监控数据的类型查询历史数据库,获取对应的历史数据;
根据所述监控数据和所述历史数据计算所述监控数据的同比波动值和环比波动值;
判断所述监控数据的同比波动值和环比波动值是否均大于对应的标准波动阈值,以判断所述监控数据是否异常。
3.如权利要求1所述的监控告警方法,其特征在于,所述若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警的步骤包括:
若所述监控数据的生成时间属于许可波动时间段,则根据所述生成时间所属的许可波动时间段确定对应的动态波动阈值;
将所述监控数据和对应的动态波动阈值进行比对,并根据所述监控数据和所述动态波动阈值的大小关系设置对应的告警优先级,以根据所述告警优先级进行告警处理。
4.如权利要求3所述的监控告警方法,其特征在于,所述获取目标业务系统和/或目标数据库的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常的步骤之前,还包括:
接收所述目标业务系统发送的业务安排信息,并根据所述业务安排信息设置对应的许可波动时间段和动态波动阈值。
5.如权利要求1所述的监控告警方法,其特征在于,所述若所述监控数据异常,则根据所述监控数据的生成时间是否属于许可波动时间段的步骤之后,还包括:
若所述监控数据的生成时间不属于所述许可波动时间段,则获取所述目标业务系统在所述生成时间内接收到的任务指令;
对所述任务指令进行分析,判断所述目标业务系统是否被攻击;
若所述目标业务系统被攻击,则进行防御性处理。
6.如权利要求1至5中任一项所述的监控告警方法,其特征在于,所述监控告警方法还包括:
根据告警情况在预设告警日志中记录对应的告警事件,所述告警事件包括异常时间、分析时间、异常类型和告警方式。
7.如权利要求6所述的监控告警方法,其特征在于,所述根据告警情况在预设告警日志中记录对应的告警事件的步骤之后,还包括:
根据所述预设告警日志确定预设统计周期内的高频告警时间和/或高频告警类型,并根据所述高频告警时间和/或所述高频告警类型分别对应的监控数据生成对应的高频告警报告。
8.一种监控告警装置,其特征在于,所述监控告警装置包括:
第一判断模块,用于获取目标业务系统的监控数据,并将所述监控数据和对应的标准阈值进行比对,判断所述监控数据是否异常;
第二判断模块,用于若所述监控数据异常,则判断所述监控数据的生成时间是否属于许可波动时间段;
第一告警模块,用于若所述监控数据的生成时间属于所述许可波动时间段,则根据所述许可波动时间段对应的波动告警规则和所述监控数据设置对应的告警优先级,并根据所述告警优先级进行告警;
第二告警模块,用于若所述监控数据的生成时间不属于所述许可波动时间段,则根据预设标准告警优先级进行告警;
其中,所述监控数据包括硬件资源使用情况、带宽占用、进程数、APP访问量;
所述第一判断模块,还用于从历史数据库中获取与目标业务系统的监控数据同类型的历史数据;根据所述历史数据和所述监控数据确定同比波动值和环比波动值;判断所述同比波动值和所述环比波动值是否均大于各自对应的标准波动阈值;若所述同比波动值和所述环比波动值均大于各自对应的标准波动阈值,则可认为监控数据异常。
9.一种监控告警设备,其特征在于,所述监控告警设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的监控告警程序,其中所述监控告警程序被所述处理器执行时,实现如权利要求1至7中任一项所述的监控告警方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有监控告警程序,其中所述监控告警程序被处理器执行时,实现如权利要求1至7中任一项所述的监控告警方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053362.1A CN109688188B (zh) | 2018-09-07 | 2018-09-07 | 监控告警方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811053362.1A CN109688188B (zh) | 2018-09-07 | 2018-09-07 | 监控告警方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109688188A CN109688188A (zh) | 2019-04-26 |
CN109688188B true CN109688188B (zh) | 2022-08-19 |
Family
ID=66185197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811053362.1A Active CN109688188B (zh) | 2018-09-07 | 2018-09-07 | 监控告警方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109688188B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110113201B (zh) * | 2019-04-30 | 2022-12-23 | 平安科技(深圳)有限公司 | 监控数据处理方法、装置及监控系统 |
CN110247796B (zh) * | 2019-05-30 | 2022-09-20 | 平安科技(深圳)有限公司 | 监控告警方法、装置及相关设备 |
CN110245049B (zh) * | 2019-06-06 | 2023-07-11 | 深圳前海微众银行股份有限公司 | 产品配置数据的监控方法、装置、设备及存储介质 |
CN110445637B (zh) * | 2019-07-05 | 2022-08-09 | 深圳壹账通智能科技有限公司 | 事件监控方法、系统、计算机设备和存储介质 |
CN110309042A (zh) * | 2019-07-10 | 2019-10-08 | 西安点告网络科技有限公司 | 广告数据监控的方法和平台 |
CN110503567B (zh) * | 2019-08-15 | 2023-08-22 | 中国平安财产保险股份有限公司 | 数据校验方法、设备、存储介质及装置 |
CN110677271B (zh) * | 2019-08-16 | 2022-06-24 | 平安科技(深圳)有限公司 | 基于elk的大数据告警方法、装置、设备及存储介质 |
CN110650052B (zh) * | 2019-09-26 | 2022-08-12 | 科大国创软件股份有限公司 | 一种基于智能算法的客户原因故障识别处理方法及系统 |
CN110650060A (zh) * | 2019-10-16 | 2020-01-03 | 中国联合网络通信集团有限公司 | 流量告警的处理方法、设备及存储介质 |
CN111193609B (zh) * | 2019-11-20 | 2021-09-28 | 腾讯科技(深圳)有限公司 | 应用异常的反馈方法、装置及应用异常的监控系统 |
CN111258859B (zh) * | 2020-01-16 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种服务器告警策略、方法及系统 |
CN113138872A (zh) * | 2020-01-17 | 2021-07-20 | 中国移动通信集团浙江有限公司 | 数据库系统的异常处理装置及方法 |
CN113377559A (zh) * | 2020-03-10 | 2021-09-10 | 北京同邦卓益科技有限公司 | 基于大数据的异常处理方法、装置、设备及存储介质 |
CN111522719B (zh) * | 2020-04-27 | 2023-12-01 | 中国银行股份有限公司 | 大数据任务状态的监控方法及装置 |
CN111814113A (zh) * | 2020-06-09 | 2020-10-23 | 武汉光迅科技股份有限公司 | 一种产品制作的预警方法、系统、电子设备及存储介质 |
CN111782433A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 异常排查方法、装置、电子设备和存储介质 |
CN111991807A (zh) * | 2020-07-06 | 2020-11-27 | 广州西山居世游网络科技有限公司 | 精确监控游戏fps波动的方法、装置及可读介质 |
CN112347081B (zh) * | 2020-11-11 | 2024-01-05 | 北京新数科技有限公司 | 一种数据库基线生成方法、系统、设备及可读存储介质 |
CN112416724B (zh) * | 2020-12-04 | 2024-05-07 | 中国建设银行股份有限公司 | 告警处理方法、系统、计算机设备和存储介质 |
CN112463543A (zh) * | 2020-12-17 | 2021-03-09 | 江苏苏宁云计算有限公司 | 业务数据的监控方法、规则数据生成方法、装置及系统 |
CN112866007B (zh) * | 2020-12-31 | 2022-11-04 | 神思旭辉医疗信息技术有限责任公司 | 一种设备云管控系统 |
CN112767080A (zh) * | 2021-01-19 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种基于流式计算的告警方法、装置及介质 |
CN112969151B (zh) * | 2021-04-30 | 2022-03-29 | 中国银行股份有限公司 | 一种短信监控方法、装置及设备 |
CN113313591A (zh) * | 2021-05-26 | 2021-08-27 | 中国银行股份有限公司 | 一种数据异常的告警方法及装置 |
CN114064441B (zh) * | 2022-01-18 | 2022-04-19 | 云智慧(北京)科技有限公司 | 一种日志异常检测方法、装置及设备 |
CN114595843A (zh) * | 2022-02-25 | 2022-06-07 | 苏州赛美特科技有限公司 | 一种警报提示方法、装置、计算机设备及可读存储介质 |
CN115208741A (zh) * | 2022-07-06 | 2022-10-18 | 中国联合网络通信集团有限公司 | 一种基于网络设备的故障监控方法、装置、设备及介质 |
CN116860563B (zh) * | 2023-09-05 | 2023-12-15 | 山东捷瑞数字科技股份有限公司 | 一种基于云平台的数据库服务器监测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105406991A (zh) * | 2015-10-26 | 2016-03-16 | 上海华讯网络系统有限公司 | 基于网络监控指标由历史数据生成业务阈值的方法及系统 |
CN105873107A (zh) * | 2016-05-12 | 2016-08-17 | 西安汇龙科技股份有限公司 | 一种基于omc的网络性能告警的方法及装置 |
CN107871190A (zh) * | 2016-09-23 | 2018-04-03 | 阿里巴巴集团控股有限公司 | 一种业务指标监控方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010052087A1 (en) * | 1998-04-27 | 2001-12-13 | Atul R. Garg | Method and apparatus for monitoring a network environment |
US20050216585A1 (en) * | 2004-03-26 | 2005-09-29 | Tsvetelina Todorova | Monitor viewer for an enterprise network monitoring system |
-
2018
- 2018-09-07 CN CN201811053362.1A patent/CN109688188B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105406991A (zh) * | 2015-10-26 | 2016-03-16 | 上海华讯网络系统有限公司 | 基于网络监控指标由历史数据生成业务阈值的方法及系统 |
CN105873107A (zh) * | 2016-05-12 | 2016-08-17 | 西安汇龙科技股份有限公司 | 一种基于omc的网络性能告警的方法及装置 |
CN107871190A (zh) * | 2016-09-23 | 2018-04-03 | 阿里巴巴集团控股有限公司 | 一种业务指标监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109688188A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109688188B (zh) | 监控告警方法、装置、设备及计算机可读存储介质 | |
CN109726072B (zh) | WebLogic服务器的监控告警方法、装置、系统及计算机存储介质 | |
CN107566163B (zh) | 一种用户行为分析关联的告警方法及装置 | |
CN108304308A (zh) | 用户行为监控方法、装置、计算机设备和存储介质 | |
CN100511159C (zh) | 用于解决对计算机系统的侵入攻击的方法和系统 | |
CN109669835B (zh) | MySQL数据库监控方法、装置、设备及可读存储介质 | |
CN108664793B (zh) | 一种检测漏洞的方法和装置 | |
CN111193609B (zh) | 应用异常的反馈方法、装置及应用异常的监控系统 | |
CN102937930A (zh) | 应用程序监控系统及方法 | |
US8040231B2 (en) | Method for processing alarm data to generate security reports | |
EP2800024A1 (en) | System and methods for identifying applications in mobile networks | |
CN108551449B (zh) | 防病毒管理系统及方法 | |
CN102882701A (zh) | 一种电网核心业务数据智能化监控告警系统及方法 | |
CN112346931A (zh) | 基于树莓派的私网服务集群监控报警系统、方法及介质 | |
CN113468530A (zh) | 基于云计算的风险管理安全实时监控方法 | |
CN113672475A (zh) | 告警处理方法、装置、计算机设备和存储介质 | |
CN113242359A (zh) | 一种基于企业微信自动发送发电厂报警消息的方法 | |
CN115001989A (zh) | 一种设备预警方法、装置、设备及可读存储介质 | |
CN113656252A (zh) | 故障定位方法、装置、电子设备以及存储介质 | |
CN108964957B (zh) | 一种数据通信业务质量监控的方法及大数据系统 | |
CN116483663A (zh) | 用于平台的异常告警方法和装置 | |
CN114301796B (zh) | 预测态势感知的验证方法、装置及系统 | |
US7606745B1 (en) | System and method for tracking a billing cycle | |
KR101973728B1 (ko) | 통합 보안 이상징후 모니터링 시스템 | |
CN109508356B (zh) | 数据异常预警方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |