CN114553682B - 实时告警方法、系统、计算机设备及存储介质 - Google Patents

实时告警方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114553682B
CN114553682B CN202210176749.6A CN202210176749A CN114553682B CN 114553682 B CN114553682 B CN 114553682B CN 202210176749 A CN202210176749 A CN 202210176749A CN 114553682 B CN114553682 B CN 114553682B
Authority
CN
China
Prior art keywords
alarm
log
abnormal log
abnormal
distributed computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210176749.6A
Other languages
English (en)
Other versions
CN114553682A (zh
Inventor
梅江滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210176749.6A priority Critical patent/CN114553682B/zh
Publication of CN114553682A publication Critical patent/CN114553682A/zh
Application granted granted Critical
Publication of CN114553682B publication Critical patent/CN114553682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及大数据技术,提供了实时告警方法、系统、设备及介质,方法包括先获取异常日志集并发送至消息中间件,然后根据异常日志集的主题存储在消息中间件对应的存储空间,之后通过数据消费获取异常日志集中包括的异常日志及获取告警规则库数据集,根据告警规则库数据集确定各异常日志的告警策略和告警抑制状态,以对各异常日志进行状态标识,最后根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。实现了基于告警规则库中配置的告警规则库数据确定各异常日志的告警策略,且告警规则库数据集可基于实际应用场景对应配置,可适配多场景进行监控预警。

Description

实时告警方法、系统、计算机设备及存储介质
技术领域
本发明涉及大数据的数据分析技术领域,尤其涉及一种实时告警方法、系统、计算机设备及存储介质。
背景技术
目前的实时任务监控方案主要是针对实时任务自身运行的内存使用率、CPU使用率以及数据及时性等进行监控,或者单独的对某一项关键事项开发监控告警任务,任务与告警耦合度比较高;而且实时任务本身所产生的日志数据未能得到合理的利用,仅仅通过关键字来筛选日志,不足以在告警的时候就及时自动通知运维人员错误导致的后果以及可以采取的补救措施。
发明内容
本发明实施例提供了一种实时告警方法、系统、计算机设备及存储介质,旨在解决现有技术中实时任务监控方案是单独的对某一项关键事项开发监控告警任务,任务与告警耦合度比较高,应用场景受到局限,无法适配多场景进行监控预警的问题。
第一方面,本发明实施例提供了一种实时告警方法,其包括:
日志收集系统服务器响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件;
所述消息中间件获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间;
分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略;
所述分布式计算引擎根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间;以及
所述分布式计算引擎根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
第二方面,本发明实施例提供了一种实时告警系统,其包括日志收集系统服务器、消息中间件和分布式计算引擎;
所述日志收集系统服务器,用于响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件;
所述消息中间件,用于获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间;
所述分布式计算引擎,用于通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略;
所述分布式计算引擎,还用于根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间;以及
所述分布式计算引擎,还用于根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的实时告警方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的实时告警方法。
本发明实施例提供了一种实时告警方法、系统、计算机设备及存储介质,先获取异常日志集并发送至消息中间件,然后根据异常日志集的主题存储在消息中间件对应的存储空间,之后通过数据消费获取异常日志集中包括的异常日志及获取告警规则库数据集,根据告警规则库数据集确定各异常日志的告警策略,还根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识,最后根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。实现了基于告警规则库中配置的告警规则库数据确定各异常日志的告警策略,且告警规则库数据集可基于实际应用场景对应配置,可适配多场景进行监控预警。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实时告警方法的应用场景示意图;
图2为本发明实施例提供的实时告警方法的流程示意图;
图3为本发明实施例提供的实时告警系统的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的实时告警方法的应用场景示意图;图2为本发明实施例提供的实时告警方法的流程示意图,该实时告警方法应用于服务器集群中,该方法通过安装于服务器集群中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S105。
S101、日志收集系统服务器响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件。
在本实施例中,是以服务器集群为执行主体描述技术方案。服务器集群中包括日志收集系统服务器(如Flume日志收集系统)、消息中间件(如Kafka消息中间件)、分布式计算引擎(如Flink分布式处理引擎)和告警规则配置服务器(如Postgresql、Mysql等)。其中,日志收集系统服务器可以不断收集日志,并且将日志存储在本地。之后在日志收集系统服务器的本地中对异常日志进行识别,然后识别得到异常日志后发送至消息中间件即可。
在一实施例中,步骤S101中所述获取与所述异常日志检测指令对应的异常日志集,包括:
所述日志收集系统服务器获取已存储的日志数据集,若所述日志数据集中存在日志数据具有预设的第一关键词,获取具有所述第一关键词的日志数据组成异常日志集。
在本实施例中,预设的第一关键词为error,若日志收集系统服务器的本地已收集并存储的日志数据集中有一条或多条日志数据包括error这一关键词,则获取这些包括error这一关键词的日志数据组成异常日志集。之后将所获取得到的异常日志集直接发送至消息中间件即可。
而且异常日志集中,每一条异常日志至少包括任务名和告警uid(也即该条异常日志的告警编号用uid表示),当然在异常数据包括的信息中还能再配置告警级别、导致异常的原始数据、异常、异常分析、时间戳、扩展内容等这些字段,以便在初始确定异常日志的基础信息的阶段或者是后续确定了异常日志的告警类型后的阶段将这些字段对应的信息补全。
S102、所述消息中间件获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间。
在本实施例中,由于消息中间件中存在多个主题(即多个topic),每个主题存储相应的消息,而且每个主题的消息只能被相应的订阅者消费。这样消息中间件在接收了日志收集系统服务器发送的异常日志集,是先确定所述异常日志集对应的主题,然后根据所述异常日志集的主题确定其在消息中间件中的目标存储空间,最后将所述异常日志集存储在消息中间件中的目标存储空间中。
S103、分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略。
在本实施例中,由于所述异常日志集中是包括若干条异常日志,而且每一条异常日志数据均是可以确定告警策略的,故可以在由分布式计算引擎(如Flink)通过对存储空间中的数据进行消费获取到异常日志集后,将所获取到的异常日志集先存储在分布式计算引擎的本地,然后从告警规则配置服务器获取到当前最新的告警规则库数据集,最终基于告警规则库数据集中预先配置的各条告警规则确定各异常日志的告警策略。由于是可以实时从告警规则配置服务器获取到当前最新的告警规则库数据集,故可以实现告警规则的实时动态变化。
在一实施例中,步骤S103包括:
通过分布式计算引擎中的变更数据获取插件获取告警规则配置服务器的告警规则库数据集,将所述告警规则库数据集存储在预设的第一存储空间;
获取所述异常日志集中包括的第i条异常日志;其中,i的初始取值为1,且i的取值范围是[1,N],N表示所述异常日志集中异常日志的总条数;
若确定分布式计算引擎的剩余内存大小值超出预设的内存阈值,将所述第i条异常日志与所述告警规则库数据集中每一条告警规则库数据进行条件匹配,直至获取到所述第i条异常日志所满足的告警规则库数据作为目标告警规则库数据,根据所述第i条异常日志的目标告警规则库数据确定所述第i条异常日志的告警策略;
将i自增1以更新i的取值;
若确定i未超出N,返回执行所述获取所述异常日志集中包括的第i条异常日志的步骤;
若确定i超出N,获取第1条异常日志的告警策略至第N条异常日志的告警策略,组成各异常日志的告警策略。
在本实施例中,可通过分布式计算引擎中的变更数据获取插件(例如FlinkCDC,也即Flink的Change Data Capture,表示变更数据获取)可以从告警规则配置服务器中获取已提交的更改(这些变更可以包括INSERT、DELETE、UPDATE等,也即插入、删除、更新等),并将这些更改保存到分布式计算引擎,以供分布式计算引擎使用。
在一实施例中,所述分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略之后,还包括:
分布式计算引擎基于消息订阅从消息中间件中获取到异常数据集,并将异常数据集保存在分布式计算引擎中预设的第二存储空间。
例如当通过FlinkCDC获取到告警规则配置服务器的告警规则库数据集,则将所述告警规则库数据集存储在分布式计算引擎Flink中预设的第一存储空间。之后分布式计算引擎Flink从消息中间件中基于设置的消息订阅获取到异常数据集,并将异常数据集保存在分布式计算引擎Flink中预设的第二存储空间。之后可以对异常数据集中的异常数据逐条基于告警规则库数据集确定告警类型,从而确定了各异常日志的告警类型。
例如,对第1条异常日志确定的告警策略为异常发生的前3小时的跟进处理人为用户A,而异常发生的前3小时结束后跟进处理人由用户A切换为用户B,这样第1条异常日志根据上述告警策略将该异常日志由分布式计算引擎发送至相应的跟进处理人终端。
在一实施例中,所述获取所述异常日志集中包括的第i条异常日志之后,还包括:
若确定分布式计算引擎的剩余内存大小值未超出所述内存阈值,获取告警规则配置服务器的连接串信息,根据所述连接串信息将所述第i条异常日志发送至告警规则配置服务器以获取所述第i条异常日志的告警策略,将所述第i条异常日志的告警策略发送至分布式计算引擎。
在本实施例中,若出现分布式计算引擎当前剩余内存极小且不足以处理获取第i条异常日志的告警策略的情况,这是因为异常数据量并不是稳定的,大部分情况是起伏不定的,以及规则过多的时候如果内存状态压力较大,所有采用了查询告警规则配置服务器的方式(因为告警抑制机制的存在所以告警规则配置服务器查询抗压也不会很大),缓解状态存储压力,及时清理内存中过期的状态,保证告警任务本身的健康性。
此时分布式计算引擎可以基于告警规则配置服务器的连接串信息(即JDBC连接串)与告警规则配置服务器建立连接,直接在告警规则配置服务器的本地存储的告警规则库数据进行条件匹配,直至获取到所述第i条异常日志所满足的告警规则库数据作为目标告警规则库数据,根据所述第i条异常日志的目标告警规则库数据确定所述第i条异常日志的告警策略。
在一实施例中,所述通过分布式计算引擎中的变更数据获取插件获取告警规则配置服务器的告警规则库数据集,将所述告警规则库数据集存储在预设的第一存储空间之前,还包括:
告警规则配置服务器获取在交互页面中所录入的告警规则配置信息,将所述告警规则配置信息保存至告警规则配置服务器。
在本实施例中,可以在告警规则配置服务器对应提供交互页面,并将交互页面发送至操作终端上进行显示和交互操作。若用户操作操作终端进行告警规则的配置,在完成配置后得到告警规则配置信息(其中,告警规则配置信息在配置时可以是关联一个告警关联方,也可以是关联多个告警关联方),此时将告警规则配置信息存储在告警规则配置服务器中即可。
S104、所述分布式计算引擎根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间。
在本实施例中,当在分布式计算引擎中确定了各异常日志的告警策略后,可以针对满足告警抑制条件的告警策略进行告警抑制状态标识。例如可以具体将告警抑制状态划分为抑制状态和非抑制状态,则可以将满告警抑制条件的告警策略标识为抑制状态(而且针对该抑制状态可以设置有效时间,如设置有效时间为6小时,每个被标识了抑制状态的告警策略在6个小时之后自动转换成非抑制状态),若后续再有异常日志被确定为同一告警策略,此时该异常日志不会生成同样的告警策略并发送到跟进处理人终端进行异常处理。
S105、所述分布式计算引擎根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
在本实施例中,由于在分布式计算引擎中确定了各异常日志的告警策略和告警抑制状态后,此时需要针对各条异常日志分别确定并生成相应的告警通知信息,在告警通知信息所包括的内容可以参考异常日志所包括的字段信息及字段具体取值(任务名和告警uid、告警级别、导致异常的原始数据、异常、异常分析、时间戳和扩展内容),告警通知信息的隐藏属性还可以设置为告警抑制状态,这样可以基于告警通知信息的隐藏属性生成带有有效时间的告警通知信息并发送至对应的告警关联方终端。
在一实施例中,步骤S105之后还包括:
若所述分布式计算引擎确定接收到与任意一个告警抑制状态的异常日志相同的当前异常日志,将所述当前异常日志拦截。
在本实施例中,当在分布式计算引擎Flink中再次获取到了与任意一个告警抑制状态的异常日志相同的当前异常日志,且与当前异常日志相同且为告警抑制状态的异常日志的告警抑制状态仍在生效期内,则这一当前异常日志不会再去获取相应的告警策略并生成对应的告警通知信息以发送至对应的告警关联方终端。可见,基于同类型的异常日志被分布式计算引擎获取后,若之前一个处于告警抑制状态的异常日志正在生效,不会重复的生成对应的告警通知信息。
本申请实施例可以基于人工智能技术对服务器集群中相关的日志数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
该方法实现了基于告警规则库中配置的告警规则库数据确定各异常日志的告警策略,且告警规则库数据集可基于实际应用场景对应配置,可适配多场景进行监控预警。
本发明实施例还提供一种实时告警系统,该实时告警系统用于执行前述实时告警方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的实时告警系统100的示意性框图。
其中,如图3所示,实时告警系统100包括日志收集系统服务器101、消息中间件102、和分布式计算引擎103。
所述日志收集系统服务器101,用于响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件。
在本实施例中,是以服务器集群为执行主体描述技术方案。服务器集群中包括日志收集系统服务器(如Flume日志收集系统)、消息中间件(如Kafka消息中间件)、分布式计算引擎(如Flink分布式处理引擎)和告警规则配置服务器(如Postgresql、Mysql等)。其中,日志收集系统服务器可以不断收集日志,并且将日志存储在本地。之后在日志收集系统服务器的本地中对异常日志进行识别,然后识别得到异常日志后发送至消息中间件即可。
在一实施例中,所述日志收集系统服务器101具体用于:
获取已存储的日志数据集,若所述日志数据集中存在日志数据具有预设的第一关键词,获取具有所述第一关键词的日志数据组成异常日志集。
在本实施例中,预设的第一关键词为error,若日志收集系统服务器的本地已收集并存储的日志数据集中有一条或多条日志数据包括error这一关键词,则获取这些包括error这一关键词的日志数据组成异常日志集。之后将所获取得到的异常日志集直接发送至消息中间件即可。
而且异常日志集中,每一条异常日志至少包括任务名和告警uid(也即该条异常日志的告警编号用uid表示),当然在异常数据包括的信息中还能再配置告警级别、导致异常的原始数据、异常、异常分析、时间戳、扩展内容等这些字段,以便在初始确定异常日志的基础信息的阶段或者是后续确定了异常日志的告警类型后的阶段将这些字段对应的信息补全。
所述消息中间件102,用于获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间。
在本实施例中,由于消息中间件中存在多个主题(即多个topic),每个主题存储相应的消息,而且每个主题的消息只能被相应的订阅者消费。这样消息中间件在接收了日志收集系统服务器发送的异常日志集,是先确定所述异常日志集对应的主题,然后根据所述异常日志集的主题确定其在消息中间件中的目标存储空间,最后将所述异常日志集存储在消息中间件中的目标存储空间中。
所述分布式计算引擎103,用于通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略。
在本实施例中,由于所述异常日志集中是包括若干条异常日志,而且每一条异常日志数据均是可以确定告警策略的,故可以在由分布式计算引擎(如Flink)通过对存储空间中的数据进行消费获取到异常日志集后,将所获取到的异常日志集先存储在分布式计算引擎的本地,然后从告警规则配置服务器获取到当前最新的告警规则库数据集,最终基于告警规则库数据集中预先配置的各条告警规则确定各异常日志的告警策略。由于是可以实时从告警规则配置服务器获取到当前最新的告警规则库数据集,故可以实现告警规则的实时动态变化。
在一实施例中,所述分布式计算引擎103具体用于:
通过分布式计算引擎中的变更数据获取插件获取告警规则配置服务器的告警规则库数据集,将所述告警规则库数据集存储在预设的第一存储空间;
获取所述异常日志集中包括的第i条异常日志;其中,i的初始取值为1,且i的取值范围是[1,N],N表示所述异常日志集中异常日志的总条数;
若确定分布式计算引擎的剩余内存大小值超出预设的内存阈值,将所述第i条异常日志与所述告警规则库数据集中每一条告警规则库数据进行条件匹配,直至获取到所述第i条异常日志所满足的告警规则库数据作为目标告警规则库数据,根据所述第i条异常日志的目标告警规则库数据确定所述第i条异常日志的告警策略;
将i自增1以更新i的取值;
若确定i未超出N,返回执行所述获取所述异常日志集中包括的第i条异常日志的步骤;
若确定i超出N,获取第1条异常日志的告警策略至第N条异常日志的告警策略,组成各异常日志的告警策略。
在本实施例中,可通过分布式计算引擎中的变更数据获取插件(例如FlinkCDC,也即Flink的Change Data Capture,表示变更数据获取)可以从告警规则配置服务器中获取已提交的更改(这些变更可以包括INSERT、DELETE、UPDATE等,也即插入、删除、更新等),并将这些更改保存到分布式计算引擎,以供分布式计算引擎使用。
在一实施例中,所述分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略之后,还包括:
分布式计算引擎基于消息订阅从消息中间件中获取到异常数据集,并将异常数据集保存在分布式计算引擎中预设的第二存储空间。
例如当通过FlinkCDC获取到告警规则配置服务器的告警规则库数据集,则将所述告警规则库数据集存储在分布式计算引擎Flink中预设的第一存储空间。之后分布式计算引擎Flink从消息中间件中基于设置的消息订阅获取到异常数据集,并将异常数据集保存在分布式计算引擎Flink中预设的第二存储空间。之后可以对异常数据集中的异常数据逐条基于告警规则库数据集确定告警类型,从而确定了各异常日志的告警类型。
例如,对第1条异常日志确定的告警策略为异常发生的前3小时的跟进处理人为用户A,而异常发生的前3小时结束后跟进处理人由用户A切换为用户B,这样第1条异常日志根据上述告警策略将该异常日志由分布式计算引擎发送至相应的跟进处理人终端。
在一实施例中,所述获取所述异常日志集中包括的第i条异常日志之后,还包括:
若确定分布式计算引擎的剩余内存大小值未超出所述内存阈值,获取告警规则配置服务器的连接串信息,根据所述连接串信息将所述第i条异常日志发送至告警规则配置服务器以获取所述第i条异常日志的告警策略,将所述第i条异常日志的告警策略发送至分布式计算引擎。
在本实施例中,若出现分布式计算引擎当前剩余内存极小且不足以处理获取第i条异常日志的告警策略的情况,这是因为异常数据量并不是稳定的,大部分情况是起伏不定的,以及规则过多的时候如果内存状态压力较大,所有采用了查询告警规则配置服务器的方式(因为告警抑制机制的存在所以告警规则配置服务器查询抗压也不会很大),缓解状态存储压力,及时清理内存中过期的状态,保证告警任务本身的健康性。
此时分布式计算引擎可以基于告警规则配置服务器的连接串信息(即JDBC连接串)与告警规则配置服务器建立连接,直接在告警规则配置服务器的本地存储的告警规则库数据进行条件匹配,直至获取到所述第i条异常日志所满足的告警规则库数据作为目标告警规则库数据,根据所述第i条异常日志的目标告警规则库数据确定所述第i条异常日志的告警策略。
在一实施例中,所述实时告警系统100还包括告警规则配置服务器;
所述告警规则配置服务器,用于获取在交互页面中所录入的告警规则配置信息,将所述告警规则配置信息保存至告警规则配置服务器。
在本实施例中,可以在告警规则配置服务器对应提供交互页面,并将交互页面发送至操作终端上进行显示和交互操作。若用户操作操作终端进行告警规则的配置,在完成配置后得到告警规则配置信息(其中,告警规则配置信息在配置时可以是关联一个告警关联方,也可以是关联多个告警关联方),此时将告警规则配置信息存储在告警规则配置服务器中即可。
所述分布式计算引擎103,还用于根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间。
在本实施例中,当在分布式计算引擎中确定了各异常日志的告警策略后,可以针对满足告警抑制条件的告警策略进行告警抑制状态标识。例如可以具体将告警抑制状态划分为抑制状态和非抑制状态,则可以将满告警抑制条件的告警策略标识为抑制状态(而且针对该抑制状态可以设置有效时间,如设置有效时间为6小时,每个被标识了抑制状态的告警策略在6个小时之后自动转换成非抑制状态),若后续再有异常日志被确定为同一告警策略,此时该异常日志不会生成同样的告警策略并发送到跟进处理人终端进行异常处理。
所述分布式计算引擎103,还用于根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
在本实施例中,由于在分布式计算引擎中确定了各异常日志的告警策略和告警抑制状态后,此时需要针对各条异常日志分别确定并生成相应的告警通知信息,在告警通知信息所包括的内容可以参考异常日志所包括的字段信息及字段具体取值(任务名和告警uid、告警级别、导致异常的原始数据、异常、异常分析、时间戳和扩展内容),告警通知信息的隐藏属性还可以设置为告警抑制状态,这样可以基于告警通知信息的隐藏属性生成带有有效时间的告警通知信息并发送至对应的告警关联方终端。
在一实施例中,实时告警系统100中:
所述分布式计算引擎103,还用于若确定接收到与任意一个告警抑制状态的异常日志相同的当前异常日志,将所述当前异常日志拦截。
在本实施例中,当在分布式计算引擎Flink中再次获取到了与任意一个告警抑制状态的异常日志相同的当前异常日志,且与当前异常日志相同且为告警抑制状态的异常日志的告警抑制状态仍在生效期内,则这一当前异常日志不会再去获取相应的告警策略并生成对应的告警通知信息以发送至对应的告警关联方终端。可见,基于同类型的异常日志被分布式计算引擎获取后,若之前一个处于告警抑制状态的异常日志正在生效,不会重复的生成对应的告警通知信息。
该系统实现了基于告警规则库中配置的告警规则库数据确定各异常日志的告警策略,且告警规则库数据集可基于实际应用场景对应配置,可适配多场景进行监控预警。
上述实时告警系统可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参阅图4,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行实时告警方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行实时告警方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的实时告警方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的实时告警方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,后台服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种实时告警方法,其特征在于,包括:
日志收集系统服务器响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件;
所述消息中间件获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间;
分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略;
所述分布式计算引擎根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间;以及
所述分布式计算引擎根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
2.根据权利要求1所述的实时告警方法,其特征在于,所述获取与所述异常日志检测指令对应的异常日志集,包括:
所述日志收集系统服务器获取已存储的日志数据集,若所述日志数据集中存在日志数据具有预设的第一关键词,获取具有所述第一关键词的日志数据组成异常日志集。
3.根据权利要求1所述的实时告警方法,其特征在于,所述分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略,包括:
通过分布式计算引擎中的变更数据获取插件获取告警规则配置服务器的告警规则库数据集,将所述告警规则库数据集存储在预设的第一存储空间;
获取所述异常日志集中包括的第i条异常日志;其中,i的初始取值为1,且i的取值范围是[1,N],N表示所述异常日志集中异常日志的总条数;
若确定分布式计算引擎的剩余内存大小值超出预设的内存阈值,将所述第i条异常日志与所述告警规则库数据集中每一条告警规则库数据进行条件匹配,直至获取到所述第i条异常日志所满足的告警规则库数据作为目标告警规则库数据,根据所述第i条异常日志的目标告警规则库数据确定所述第i条异常日志的告警策略;
将i自增1以更新i的取值;
若确定i未超出N,返回执行所述获取所述异常日志集中包括的第i条异常日志的步骤;
若确定i超出N,获取第1条异常日志的告警策略至第N条异常日志的告警策略,组成各异常日志的告警策略。
4.根据权利要求3所述的实时告警方法,其特征在于,所述获取所述异常日志集中包括的第i条异常日志之后,还包括:
若确定分布式计算引擎的剩余内存大小值未超出所述内存阈值,获取告警规则配置服务器的连接串信息,根据所述连接串信息将所述第i条异常日志发送至告警规则配置服务器以获取所述第i条异常日志的告警策略,将所述第i条异常日志的告警策略发送至分布式计算引擎。
5.根据权利要求3所述的实时告警方法,其特征在于,所述分布式计算引擎通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略之后,还包括:
分布式计算引擎基于消息订阅从消息中间件中获取到异常数据集,并将异常数据集保存在分布式计算引擎中预设的第二存储空间。
6.根据权利要求3所述的实时告警方法,其特征在于,所述通过分布式计算引擎中的变更数据获取插件获取告警规则配置服务器的告警规则库数据集,将所述告警规则库数据集存储在预设的第一存储空间之前,还包括:
告警规则配置服务器获取在交互页面中所录入的告警规则配置信息,将所述告警规则配置信息保存至告警规则配置服务器。
7.根据权利要求1所述的实时告警方法,其特征在于,所述分布式计算引擎根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端之后,还包括:
若所述分布式计算引擎确定接收到与任意一个告警抑制状态的异常日志相同的当前异常日志,将所述当前异常日志拦截。
8.一种实时告警系统,其特征在于,包括日志收集系统服务器、消息中间件和分布式计算引擎;
所述日志收集系统服务器,用于响应于异常日志检测指令,获取与所述异常日志检测指令对应的异常日志集,将所述异常日志集发送至消息中间件;
所述消息中间件,用于获取所述异常日志集对应的主题,将所述异常日志集存储在所述消息中间件对应主题的存储空间;
所述分布式计算引擎,用于通过数据消费获取所述异常日志集中包括的异常日志,及获取告警规则库数据集,根据所述告警规则库数据集确定各异常日志的告警策略;
所述分布式计算引擎,还用于根据各异常日志的告警策略确定各异常日志的告警抑制状态,以对各异常日志根据相应的告警抑制状态进行状态标识;其中,所述告警抑制状态包括抑制状态和非抑制状态,抑制状态对应设置有抑制有效时间;以及
所述分布式计算引擎,还用于根据各异常日志的告警策略及告警抑制状态确定各异常日志的告警通知信息,将各异常日志的告警通知信息发送至对应的告警关联方终端。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的实时告警方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的实时告警方法。
CN202210176749.6A 2022-02-25 2022-02-25 实时告警方法、系统、计算机设备及存储介质 Active CN114553682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210176749.6A CN114553682B (zh) 2022-02-25 2022-02-25 实时告警方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210176749.6A CN114553682B (zh) 2022-02-25 2022-02-25 实时告警方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114553682A CN114553682A (zh) 2022-05-27
CN114553682B true CN114553682B (zh) 2023-08-15

Family

ID=81679582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210176749.6A Active CN114553682B (zh) 2022-02-25 2022-02-25 实时告警方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114553682B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115331440B (zh) * 2022-08-09 2023-08-18 山东旗帜信息有限公司 一种基于监测阈值信息的高适配预警方法及系统
CN117424797B (zh) * 2023-12-19 2024-03-01 天讯瑞达通信技术有限公司 一种实时大并发告警接收和处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及系统
CN111881011A (zh) * 2020-07-31 2020-11-03 网易(杭州)网络有限公司 日志管理方法、平台、服务器及存储介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113312241A (zh) * 2021-06-29 2021-08-27 中国农业银行股份有限公司 异常告警的方法、生成访问日志的方法以及运维系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407507B (zh) * 2018-04-23 2022-04-29 华为技术有限公司 告警类型关联规则的生成方法、装置及系统、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及系统
CN111881011A (zh) * 2020-07-31 2020-11-03 网易(杭州)网络有限公司 日志管理方法、平台、服务器及存储介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113312241A (zh) * 2021-06-29 2021-08-27 中国农业银行股份有限公司 异常告警的方法、生成访问日志的方法以及运维系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Elasticsearch的实时集群日志采集和分析系统实现;胡庆宝 等;科研信息化技术与应用(第03期);全文 *

Also Published As

Publication number Publication date
CN114553682A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114553682B (zh) 实时告警方法、系统、计算机设备及存储介质
CN108833184B (zh) 服务故障定位方法、装置、计算机设备及存储介质
CN111404909B (zh) 一种基于日志分析的安全检测系统及方法
CN107729210B (zh) 分布式服务集群的异常诊断方法和装置
EP3243136B1 (en) Dynamic telemetry message profiling and adjustment
US8713682B2 (en) Dynamic learning method and adaptive normal behavior profile (NBP) architecture for providing fast protection of enterprise applications
WO2021169064A1 (zh) 一种基于边缘网络的异常处理方法及装置
CN111740868B (zh) 告警数据的处理方法和装置及存储介质
CN113010374B (zh) 一种基于监控平台的量子设备监控的方法、系统
US20200379875A1 (en) Software regression recovery via automated detection of problem change lists
CN108234426B (zh) Apt攻击告警方法和apt攻击告警装置
CN114338372A (zh) 网络信息安全监控方法及系统
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN109766198B (zh) 流式处理方法、装置、设备及计算机可读存储介质
CN110113208A (zh) 报警信息处理方法、装置、设备及计算机可读存储介质
CN116416764A (zh) 报警阈值的生成方法和装置、电子设备和存储介质
CN115484326A (zh) 处理数据的方法、系统及存储介质
CN111800409B (zh) 接口攻击检测方法及装置
CN108829563B (zh) 一种告警方法和告警装置
WO2014184263A1 (en) Integration platform monitoring
US11855853B1 (en) Machine learning algorithms for change management in information technology environment
CN113660107B (zh) 故障定位方法、系统、计算机设备和存储介质
CN110430093B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN115883607A (zh) 获取模组信息的方法、装置、计算机设备及存储介质
CN115834347A (zh) 基于区块链的事件告警方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant