CN109634814A - 基于日志流的故障预警方法、设备、存储介质及装置 - Google Patents

基于日志流的故障预警方法、设备、存储介质及装置 Download PDF

Info

Publication number
CN109634814A
CN109634814A CN201811531483.2A CN201811531483A CN109634814A CN 109634814 A CN109634814 A CN 109634814A CN 201811531483 A CN201811531483 A CN 201811531483A CN 109634814 A CN109634814 A CN 109634814A
Authority
CN
China
Prior art keywords
current
information
unit information
early warning
core cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811531483.2A
Other languages
English (en)
Inventor
敖挺挺
冯小磊
陶瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Urban Construction Technology Shenzhen Co Ltd
Original Assignee
Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Urban Construction Technology Shenzhen Co Ltd filed Critical Ping An Urban Construction Technology Shenzhen Co Ltd
Priority to CN201811531483.2A priority Critical patent/CN109634814A/zh
Publication of CN109634814A publication Critical patent/CN109634814A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于日志流的故障预警方法、设备、存储介质及装置,该方法包括:通过预设监控规则对链路进行监控,输出监控日志;获取预设监测间隔时间,在当前监测周期内每隔预设监测间隔时间从监控日志中提取出各链路中的当前异常单元信息;判断当前异常单元信息是否为核心单元信息;若不是,则获取同一链路上的核心单元信息;将当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。基于安全监控,监测到异常单元信息时,将同一链路上的核心单元信息一同发送至用户终端,实现关联预警,基于链路入口,完成调用链源头、中间件服务和内外部系统的完整监控覆盖,核心单元的异常提前预警,保证服务的正常运行。

Description

基于日志流的故障预警方法、设备、存储介质及装置
技术领域
本发明涉及安全监控领域,尤其涉及一种基于日志流的故障预警方法、设备、存储介质及装置。
背景技术
目前,监控策略一般基于应用服务层进行,监控链路无法触及到中间件部分,无法做到同时覆盖数据库、搜索引擎及消息服务等所有中间件服务的全链路监控。市面的监控系统需要对现有应用进行侵入式的监控开发接入,接入成本高、影响面大并且周期长。目前的监控服务平台大多数是基于滞后性的服务预警,即异常或时延实际发生后才能得到告警提醒,无法做到风险提前发现和故障预警等。此外,IT人员也很难快速定位应用程序出现的问题,经常会动用IT的各个团队,包括网络管理员、服务器管理员、应用程序开发人员和数据库管理人员一起分析查找原因,浪费了IT人员的时间,也延迟了用户问题的解决时间。因此,如何提高服务监测覆盖度及故障预警时效性是亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于日志流的故障预警方法、设备、存储介质及装置,旨在解决现有技术中服务监测覆盖度不高及异常告警不及时的技术问题。
为实现上述目的,本发明提供一种基于日志流的故障预警方法,所述基于日志流的故障预警方法包括以下步骤:
通过预设监控规则对链路进行监控,输出监控日志;
获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息;
判断所述当前异常单元信息是否为核心单元信息;
若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息;
将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
优选地,所述若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息之后,所述基于日志流的故障预警方法还包括:
从所述当前异常单元信息中提取出当前异常参数值;
获取预警级别对应的预警阈值,将所述当前异常参数值与所述预警阈值进行比对,获得比对结果;
根据所述比对结果设置所述当前异常单元信息的当前预警级别;
所述将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示,包括:
将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示。
优选地,所述根据所述比对结果设置所述当前异常单元信息的当前预警级别之后,所述基于日志流的故障预警方法还包括:
获取上一异常单元信息,并从所述上一异常单元信息中提取出上一异常参数值;
判断所述当前异常参数值是否超过所述上一个异常参数值;
若所述当前异常参数值超过所述上一个异常参数值,则设置所述当前异常单元信息的异常趋势为风险增高趋势;
所述将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示,包括:
将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
优选地,所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示之前,所述基于日志流的故障预警方法还包括:
获取所述当前异常单元信息对应的当前服务,并获取所述当前服务对应的当前服务级别;
查找与所述当前服务级别对应的信息发送次数上限;
获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限;
若所述已发送次数未超过所述信息发送次数上限,则执行所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示的步骤。
优选地,所述获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限之后,所述基于日志流的故障预警方法还包括:
若所述已发送次数超过所述信息发送次数上限,则记录异常时刻;
获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息;
所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示,包括:
将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
优选地,所述获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息之前,所述基于日志流的故障预警方法还包括:
从映射关系表中查找与所述预设监测间隔时间对应的预设汇聚间隔时间,所述映射关系表中包括监测时间与汇聚时间之间的对应关系。
优选地,所述将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示之后,所述基于日志流的故障预警方法还包括:
从汇聚获得的所有异常单元信息中获取重复的交集异常单元,并从各异常单元信息在同一链路上的核心单元信息中获取重复的交集核心单元;
根据所述交集异常单元和所述交集核心单元定位故障服务。
此外,为实现上述目的,本发明还提出一种基于日志流的故障预警设备,所述基于日志流的故障预警设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于日志流的故障预警程序,所述基于日志流的故障预警程序配置为实现如上文所述的基于日志流的故障预警方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于日志流的故障预警程序,所述基于日志流的故障预警程序被处理器执行时实现如上文所述的基于日志流的故障预警方法的步骤。
此外,为实现上述目的,本发明还提出一种基于日志流的故障预警装置,所述基于日志流的故障预警装置包括:
监控模块,用于通过预设监控规则对链路进行监控,输出监控日志;
提取模块,用于获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息;
判断模块,用于判断所述当前异常单元信息是否为核心单元信息;
获取模块,用于若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息;
发送模块,用于将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
本发明中,通过预设监控规则对链路进行监控,输出监控日志,基于链路入口,完成调用链源头、中间件服务以及内外部系统的完整监控覆盖;获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息,判断所述当前异常单元信息是否为核心单元信息,若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息,将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示,基于安全监控,实现关联预警,核心单元的异常进行提前预警,保证各服务的正常运行。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于日志流的故障预警设备的结构示意图;
图2为本发明基于日志流的故障预警方法第一实施例的流程示意图;
图3为本发明基于日志流的故障预警方法第二实施例的流程示意图;
图4为本发明基于日志流的故障预警方法第三实施例的流程示意图;
图5为本发明基于日志流的故障预警方法第四实施例的流程示意图;
图6为本发明基于日志流的故障预警装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于日志流的故障预警设备结构示意图。
如图1所示,该基于日志流的故障预警设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于日志流的故障预警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于日志流的故障预警程序。
在图1所示的基于日志流的故障预警设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述基于日志流的故障预警设备通过处理器1001调用存储器1005中存储的基于日志流的故障预警程序,并执行本发明实施例提供的基于日志流的故障预警方法。
基于上述硬件结构,提出本发明基于日志流的故障预警方法的实施例。
参照图2,图2为本发明基于日志流的故障预警方法第一实施例的流程示意图,提出本发明基于日志流的故障预警方法第一实施例。
在第一实施例中,所述基于日志流的故障预警方法包括以下步骤:
步骤S10:通过预设监控规则对链路进行监控,输出监控日志。
应理解的是,本实施例的执行主体是所述基于日志流的故障预警设备,其中,所述基于日志流的故障预警设备可为个人电脑或服务器等电子设备。服务器端部署apm-agent.jar,所述apm-agent.jar通过Agent服务结合ASM字节码增强技术自研实现,当项目启动时启用agent命令:-javaagent:/data1/env/apm-agent/apm-agent.jar,即开始对链路进行监控,服务端安装开源消息组件flume+kafka进行分布式环境下集群(cluster)服务的日志收集,并推送至开源搜索引擎Elasticsearch,后端代码通过ES DSL语言即可进行日志聚合查询,可输出所述监控日志。所述预设监控规则为基于链路入口,完成从调用链源头开始,至中间件服务,至内外部系统依赖调用的完整监控覆盖,一次完整的请求触及的所有服务点即形成一个调用链路。同时,所述预设监控规则包括对不同级别的服务设置不同的告警次数阈值,若通过发送邮件进行告警,则告警次数为发送邮件次数。系统中各种服务可根据日均访问量来设置不同的服务级别,比如:日均访问量超过10w次为一级服务,5w–10w为二级服务,1w-5w为三级服务及小于1w为四级服务。
步骤S20:获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息。
可理解的是,通常会周期性对链路进行监测,并根据监测信息发送预警信息,根据预警信息定位故障服务。通常以日为周期,所述当前监测周期为T日,上一监测周期即是T-1日。通常所述当前监测周期为当天/今日。所述预设监测间隔时间为根据以往经验值设置的所述预设监控规则的执行时间范围,可根据前一天的告警次数进行设置,若前一天的告警次数较多,则可将所述预设监测间隔时间设置为较小的值,从而更加频繁的对所述监控日志中数据进行分析,能够快速发现系统中的众多异常信息。比如,所述预设监测间隔时间可以设置为5分钟、10分钟、30分钟或者60分钟等。所述当前异常单元信息为链路中存在异常的最小单元Span,链路中的Span为一个链路中的最小单位,当前监测周期内可能提取出多个所述当前异常单元信息。
步骤S30:判断所述当前异常单元信息是否为核心单元信息。
需要说明的是,通常按照T-1日实际调用量划分核心或非核心的链路单元(Span),可对划分的所述核心单元做上标签,判断所述当前异常单元信息是否包括所述标签,若包括,则认定所述当前异常单元信息为核心单元信息;若不包括,则认定所述当前异常单元信息不是核心单元信息。还可从所述当前异常单元信息中提取出单元信息,根据单元信息与划分出的核心链路单元进行比对,若一致,则认定所述当前异常单元信息为核心单元信息;若不一致,则认定所述当前异常单元信息不是核心单元信息。
步骤S40:若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息。
应理解的是,链路中部分核心单元,核心单元本身未发生预警,但同一调用链路中其他关联的单元(Span)出现时延或错误异常后,该核心Span即会被预警出来,从而实现提前预警,保证及时发现核心单元的异常,保证服务的正常运行。当某一个Span出现告警后,即由服务获取到同一链路上下游中出现的核心Span作为所述同一链路上的核心单元信息。
步骤S50:将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
在具体实现中,配置所述监控规则(AgentRule)针对链路中的一个链路中的最小单位Span进行预警,当某一个Span出现告警后,由服务获取到同一链路上下游中出现的核心Span,并将其一并通过预警通道推送到用户终端,从而实现告警提示,以使技术人员根据发送的所述当前异常单元信息及同一链路上的核心单元信息定位出故障服务。所述用户终端可以是个人计算机、智能手机、平板电脑或者服务器等电子设备。具体为推送至所述用户终端中的终端平台上,所述终端平台包括邮件、短信或微信等。针对不同告警链路中的Span进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,便于技术人员快速定位报障点,即快速定位故障服务(Server)。
本实施例中,通过预设监控规则对链路进行监控,输出监控日志,基于链路入口,完成调用链源头、中间件服务以及内外部系统的完整监控覆盖;获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息,判断所述当前异常单元信息是否为核心单元信息,若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息,将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示,基于安全监控,实现关联预警,核心单元的异常进行提前预警,保证各服务的正常运行。
参照图3,图3为本发明基于日志流的故障预警方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明基于日志流的故障预警方法的第二实施例。
在第二实施例中,在所述步骤S40之后,还包括:
步骤S401:从所述当前异常单元信息中提取出当前异常参数值。
可理解的是,所述当前异常参数值包括当前系统错误比例、当前时延时间和当前系统错误数中的至少一项。可通过设置所述监控规则,使得监测日志中体现上述异常参数值。所述系统错误比例为当前系统错误数与当前系统请求总数之间的比值,所述当前时延时间为当前系统中访问请求时间超过预设正常请求时间的时间差,所述当前系统错误数为当前系统请求中存在异常的请求数。
步骤S402:获取预警级别对应的预警阈值,将所述当前异常参数值与所述预警阈值进行比对,获得比对结果。
应理解的是,所述预警级别通常为根据T-1日的预警情况而设置的,也可以是根据以往的多个周期的预警情况而设置的,所述预警级别包括:低级别预警和高级别预警。所述高级别预警通常为比较严重的异常,需要引起技术人员的高度重视,及时发现故障,以免出现更大程度的故障,导致服务无法正常运行。所述低级别预警为与高级别预警相比影响较小的异常。
在具体实现中,所述预警阈值也可根据T-1日的预警情况而设置的,也可以是根据以往的多个周期的预警情况而设置的。比如,访问失败比例预警,低级别预警规则AgentRule(如:INFO)配置为2%阀值(threshold),高级别预警(如:WARN)配置为5%阀值。当实际系统错误比例达到2.1%时,将所述系统错误比例2.1%与低级别预警对应的预警阈值2%进行比对,获得的比对结果为所述当前异常参数值超过所述低级别预警对应的预警阈值,则会触发低级别(INFO)预警。所述比对结果包括:所述当前异常参数值未超过低级别预警对应的预警阈值,所述当前异常参数值超过所述低级别预警对应的预警阈值但未超过高级别预警对应的预警阈值,以及所述当前异常参数值超过高级别预警对应的预警阈值。
步骤S403:根据所述比对结果设置所述当前异常单元信息的当前预警级别。
需要说明的是,若所述比对结果为所述当前异常参数值未超过低级别预警对应的预警阈值,所述当前预警级别可以设置为空,即不设置预警级别,此时的预警信息为普通预警。若所述比对结果为所述当前异常参数值超过所述低级别预警对应的预警阈值但未超过高级别预警对应的预警阈值,所述当前预警级别为低级别预警。若所述比对结果为所述当前异常参数值超过高级别预警对应的预警阈值,所述当前预警级别为高级别预警。技术人员可以根据预警级别的高低决定优先处理哪个异常单元信息,从而保证影响大的高级别预警能够被优先识别并及时处理。
在第二实施例中,所述步骤S50,包括:
步骤S501:将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示。
应理解的是,配置所述监控规则(AgentRule)针对链路中的一个链路中的最小单位Span进行预警,当某一个Span出现告警后,由服务获取到同一链路上下游中出现的核心Span,并获取所述当前预警级别,将其一并通过预警通道推送到用户终端,从而实现告警提示,以使技术人员根据发送的所述当前异常单元信息及同一链路上的核心单元信息定位出故障服务,根据所述当前预警级别优先识别出影响大的高级别预警进行优先处理。所述用户终端可以是个人计算机、智能手机、平板电脑或者服务器等电子设备。具体为推送至所述用户终端中的终端平台上,所述终端平台包括邮件、短信或微信等。针对不同告警链路中的Span进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,便于技术人员快速定位报障点,即快速定位故障服务(Server)。
在第二实施例中,从所述当前异常单元信息中提取出当前异常参数值,获取预警级别对应的预警阈值,将所述当前异常参数值与所述预警阈值进行比对,获得比对结果,根据所述比对结果设置所述当前异常单元信息的当前预警级别,将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示,技术人员可以根据预警级别的高低决定优先处理哪个异常单元信息,从而保证影响大的高级别预警能够被优先识别并及时处理。
参照图4,图4为本发明基于日志流的故障预警方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明基于日志流的故障预警方法的第三实施例。
在第三实施例中,在所述步骤S403之后,还包括:
步骤S404:获取上一异常单元信息,并从所述上一异常单元信息中提取出上一异常参数值。
应理解的是,为了避免异常或时延实际发生后才能得到告警提醒,对异常信息单元的异常参数值进行分析,判断是否存在风险升级的趋势,以便及时发现并预警提示。获取上一预设监测间隔时间对应的上一常单元信息,从所述上一异常单元信息中提取出上一异常参数值,所述上一异常参数值包括在上一预测监测时间内上一系统错误比例、上一时延时间和上一系统错误数中的至少一项。
步骤S405:判断所述当前异常参数值是否超过所述上一个异常参数值。
可理解的是,将所述当前异常参数值与所述上一个异常参数值进行比对,比如,所述当前异常参数值为当前系统错误比例,所述上一个异常参数值为上一系统错误比例,则将所述当前系统错误比例与所述上一系统错误比例进行比对,若所述当前系统错误比例超过所述上一系统错误比例,即所述当前异常参数值超过所述上一个异常参数值,若所述当前系统错误比例未超过所述上一系统错误比例,即所述当前异常参数值未超过所述上一个异常参数值。
步骤S406:若所述当前异常参数值超过所述上一个异常参数值,则设置所述当前异常单元信息的异常趋势为风险增高趋势。
应理解的是,若当前异常参数值超过所述上一异常参数值,说明所述异常值处于环比增高的趋势,若当前为低级别预警,则未来可能会发展为高级别预警,则设置所述当前异常单元信息的异常趋势为风险增高趋势,并将当前异常参数值的风险增高趋势发送至所述用户终端,以进行风险升级提示。
例如,访问失败比例预警:
低级别预警规则AgentRule(如:INFO)配置为2%阀值(threshold),高级别预警(如:WARN)配置为5%阀值。
上一系统错误比例达到2.1%时,超过低级别预警对应的预警阈值,即会首次触发低级别(INFO)预警。
比如,所述预设监测间隔时间为间隔10分钟,在上一预设监测间隔时间10分钟之后,当前系统错误比例达到2.5%时,再次触发低级别预警,此时即连续触发低级别预警,环比趋势为升高(2.1%->2.5%)。
此时,实际未触发高级别预警对应的预警阈值5%,但系统会对低级别风险环比增高的趋势进行同步提示,预示未来该风险点可能会升级。
进一步地,当下一预设监测间隔时间,比如间隔10分钟,下一系统错误比例达到3.5%时,再次触发低级别预警,此时即连续触发低级别预警,环比趋势为升高(2.5%->3.5%)。此时实际未触发高级别预警对应的预警阈值5%,但系统会对低级别风险环比增高的趋势进行同步提示,预示未来该风险点可能会升级。
在第二实施例中,所述步骤S501,包括:
步骤S502:将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
在具体实现中,配置所述监控规则(AgentRule)针对链路中的一个链路中的最小单位Span进行预警,当某一个Span出现告警后,由服务获取到同一链路上下游中出现的核心Span,并获取所述当前预警级别及所述风险增高趋势,将其一并通过预警通道推送到用户终端,从而实现告警提示,以使技术人员根据发送的所述当前异常单元信息及同一链路上的核心单元信息定位出故障服务,根据所述当前预警级别优先识别出影响大的高级别预警进行优先处理,并根据所述风险增高趋势及时对所述当前异常单元信息进行处理,避免未来升级为更高级别预警。所述用户终端可以是个人计算机、智能手机、平板电脑或者服务器等电子设备。具体为推送至所述用户终端中的终端平台上,所述终端平台包括邮件、短信或微信等。针对不同告警链路中的Span进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,便于技术人员快速定位报障点,即快速定位故障服务(Server)。
在第三实施例中,获取上一异常单元信息,并从所述上一异常单元信息中提取出上一异常参数值,判断所述当前异常参数值是否超过所述上一个异常参数值,若所述当前异常参数值超过所述上一个异常参数值,则设置所述当前异常单元信息的异常趋势为风险增高趋势,将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示,以使技术人员根据所述风险增高趋势及时对所述当前异常单元信息进行处理,避免未来升级为更高级别预警。
参照图5,图5为本发明基于日志流的故障预警方法第四实施例的流程示意图,基于上述图4所示的第三实施例,提出本发明基于日志流的故障预警方法的第四实施例。
在第四实施例中,在所述步骤S502之前,还包括:
步骤S60:获取所述当前异常单元信息对应的当前服务,并获取所述当前服务对应的当前服务级别。
应理解的是,系统中各种服务可根据日均访问量来设置不同的服务级别,比如:日均访问量超过10w次为一级服务,5w–10w为二级服务,1w-5w为三级服务及小于1w为四级服务。可根据所述日均访问量将系统中各服务分别设置对应的服务级别。
本实施例中,所述步骤S10之前,还包括:获取预设历史时段内各服务的历史访问量;根据所述历史访问量设置各服务的服务级别。
需要说明的是,所述预设历史时段可以是所述T-1日,所述当前监测周期为当天/今日,则所述预设历史时段可以是昨天,获取所述T-1日的历史访问量,根据所述T-1日的历史访问量设置各服务的服务级别。
步骤S70:查找与所述当前服务级别对应的信息发送次数上限。
可理解的是,所述预设监控规则包括对不同级别的服务设置不同的告警次数阈值,若通过发送信息进行告警,则告警次数为发送信息次数,即对不同级别的服务设置不同的信息发送次数上限,可根据T-1日的预警情况而设置不同服务级别对应的所述信息发送次数上限,也可以是根据以往的多个周期的预警情况而设置不同服务级别对应的所述信息发送次数上限,预先建立不同服务级别与对应的信息发送次数上限之间的对应关系,则在提取出所述异常单元信息之后,可从所述对应关系中查找与所述当前服务级别对应的信息发送次数上限。通常所述信息发送次数上限还需结合所述预设监测间隔时间进行设置,若所述预设监测间隔时间较短,则监测到的异常单元信息数据会较多,需要相应设置较大的信息发送次数上限。
比如,在预设监测间隔时间为5分钟时,所述所述对应关系为:一级服务对应的信息发送次数上限为无上限,二级服务对应的信息发送次数上限为100次,三级服务对应的信息发送次数上限为50次,四级服务对应的信息发送次数上限为20次。在预设监测间隔时间为60分钟时,所述所述对应关系为:一级服务对应的信息发送次数上限为无上限,二级服务对应的信息发送次数上限为10次,三级服务对应的信息发送次数上限为5次,四级服务对应的信息发送次数上限为3次。还可以是其他规则,本实施例对此不加以限制。
步骤S80:获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限。
在具体实现中,通常在每次发送信息至所述用户设备时,会进行相关数据统计,统计各级别服务发送的次数。根据统计的数据获取所述当前异常单元信息在所述当前监测周期内的已发送次数,将所述已发送次数与所述信息发送次数上限进行比对,若所述已发送次数未超过所述信息发送次数上限,则可继续发送所述当前异常单元信息,若所述已发送次数超过所述信息发送次数上限,则不再反复推送所述当前异常单元信息到所述用户终端,防止大量无效的预警导致预警疲劳。
步骤S90:若所述已发送次数未超过所述信息发送次数上限,则执行所述步骤S502。
需要说明的是,若所述已发送次数未超过所述信息发送次数上限,说明预警次数还不是很多,可继续发送所述当前异常单元信息,以进行预警提示。
在第四实施例中,在所述步骤S80之后,还包括:
步骤S100:若所述已发送次数超过所述信息发送次数上限,则记录异常时刻。
应理解的是,若所述已发送次数超过所述信息发送次数上限,说明预警次数已经很多次,则不再反复推送所述当前异常单元信息到所述用户终端,防止大量无效的预警导致预警疲劳,可记录提取出所述当前异常单元信息的所述异常时刻,对于超过所述信息发送次数上限之后统计的所有异常单元信息可进行汇聚后发送。
步骤S110:获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息。
可理解的是,首先服务级别按日访问量动态划分为一级服务、二级服务、三级服务和四级服务,其中一级服务、二级服务、三级服务和四级服务结合具体的触发频度,也就是所述预设监测间隔时间,如5分钟、10分钟、30分钟或60分钟等,会设置不同的日上限预警推送量配置,当以发送信息形式进行异常信息推送时,所述日上限预警推送量配置即为所述信息发送次数上限,同时会设置聚敛通知触发的频度,即所述预设汇聚间隔时间,比如每1小时、2小时、6小时或1天等。当实际预警触次数超过所述日上限预警推送量配置时,即所述已发送次数超过所述信息发送次数上限时,预警内容暂停推送,并记录相关推送内容。
需要说明的是,由不同的服务级别和预设检测时间决定聚敛推送的所述预设汇聚间隔时间。通常一级服务设置的所述信息发送次数上限为无限制,其他级别服务可设置相同的所述预设汇聚间隔时间。通常根据历史预警信息进行分析,预先建立预设监测间隔时间与预设汇聚间隔时间之间的对应关系,将监测时间与汇聚时间之间的对应关系存储于映射关系表中。可根据T-1日的预警情况或者根据以往的多个周期的预警情况而设置监测时间与汇聚时间之间的对应关系。本实施例中,所述步骤S110之前,还包括:从映射关系表中查找与所述预设监测间隔时间对应的预设汇聚间隔时间,所述映射关系表中包括监测时间与汇聚时间之间的对应关系。
例如,在预设监测间隔时间为5分钟时,所述二级服务、三级服务和四级服务都对应同一个所述预设汇聚间隔时间,设置为1小时,则在所述当前时刻与所述异常时刻之间的时间差值大于或者等于1小时,则汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息,并进行信息发送。在预设监测间隔时间为10分钟时,所述二级服务、三级服务和四级服务都对应同一个所述预设汇聚间隔时间,设置为2小时;在预设监测间隔时间为30分钟时,所述二级服务、三级服务和四级服务都对应同一个所述预设汇聚间隔时间,设置为6小时;在预设监测间隔时间为60分钟时,所述二级服务、三级服务和四级服务都对应同一个所述预设汇聚间隔时间,设置为24小时,还可以是其他设置规则,本实施例对此不加以限制。
所述步骤S502,包括:
步骤S503:将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
在具体实现中,配置所述监控规则(AgentRule)针对链路中的一个链路中的最小单位Span进行预警,当某一个Span出现异常,将该Span作为所述异常单元,获取所述异常单元相关的所述异常单元信息,由服务获取到同一链路上下游中出现的核心Span,从监测日志中获取所述核心单元相关的所述核心单元信息,并获取所述当前预警级别及所述风险增高趋势,将其一并通过预警通道推送到所述用户终端,从而实现告警提示,以使技术人员根据发送的汇聚获得的所有异常单元信息及各异常单元信息在同一链路上的核心单元信息定位出故障服务,根据所述当前预警级别优先识别出影响大的高级别预警进行优先处理,并根据所述风险增高趋势及时对所述当前异常单元信息进行处理,避免未来升级为更高级别预警。所述用户终端可以是个人计算机、智能手机、平板电脑或者服务器等电子设备。具体为推送至所述用户终端中的终端平台上,所述终端平台包括邮件、短信或微信等。针对不同告警链路中的Span进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,便于技术人员快速定位报障点,即快速定位故障服务(Server)。
在第四实施例中,所述步骤S503之后,还包括:
从汇聚获得的所有异常单元信息中获取重复的交集异常单元,并从各异常单元信息在同一链路上的核心单元信息中获取重复的交集核心单元;
根据所述交集异常单元和所述交集核心单元定位故障服务。
应理解的是,通过将汇聚获得的所有异常单元信息进行两两比对,获得重复的异常单元信息,从重复的异常单元信息中获取对应的异常单元作为所述交集异常单元。从各异常单元信息在同一链路上的核心单元信息中的重复核心单元,与所述重复的异常单元信息在同一链路上的核心单元信息,即为重复的核心单元信息,从重复的核心单元信息中获取对应的核心单元作为所述交集核心单元。针对不同告警链路中的Span(一个链路中的最小单位)进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,即所述交集异常单元和所述交集核心单元,也就是说通常所述交集异常单元和所述交集核心单元对应的服务即为所述故障服务,从而便于技术人员快速定位故障服务。
在第四实施例中,通过获取所述当前异常单元信息对应的当前服务,并获取所述当前服务对应的当前服务级别,查找与所述当前服务级别对应的信息发送次数上限,获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限,若所述已发送次数未超过所述信息发送次数上限,则执行所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示的步骤,说明预警次数还不是很多,可继续发送所述当前异常单元信息,以进行预警提示;若所述已发送次数超过所述信息发送次数上限,则记录异常时刻,获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息,将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示,若所述已发送次数超过所述信息发送次数上限,则不再反复推送所述当前异常单元信息到所述用户终端,防止大量无效的预警导致预警疲劳,并进行汇聚预警,提高预警效率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于日志流的故障预警程序,所述基于日志流的故障预警程序被处理器执行时实现如上文所述的基于日志流的故障预警方法的步骤。
此外,参照图6,本发明实施例还提出一种基于日志流的故障预警装置,所述基于日志流的故障预警装置包括:
监控模块10,用于通过预设监控规则对链路进行监控,输出监控日志;
提取模块20,用于获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息;
判断模块30,用于判断所述当前异常单元信息是否为核心单元信息;
获取模块40,用于若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息;
发送模块50,用于将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
应理解的是,服务器端部署apm-agent.jar,所述apm-agent.jar通过Agent服务结合ASM字节码增强技术自研实现,当项目启动时启用agent命令:-javaagent:/data1/env/apm-agent/apm-agent.jar,即开始对链路进行监控,服务端安装开源消息组件flume+kafka进行分布式环境下集群(cluster)服务的日志收集,并推送至开源搜索引擎Elasticsearch,后端代码通过ES DSL语言即可进行日志聚合查询,可输出所述监控日志。所述预设监控规则为基于链路入口,完成从调用链源头开始,至中间件服务,至内外部系统依赖调用的完整监控覆盖,一次完整的请求触及的所有服务点即形成一个调用链路。同时,所述预设监控规则包括对不同级别的服务设置不同的告警次数阈值,若通过发送邮件进行告警,则告警次数为发送邮件次数。系统中各种服务可根据日均访问量来设置不同的服务级别,比如:日均访问量超过10w次为一级服务,5w–10w为二级服务,1w-5w为三级服务及小于1w为四级服务。
可理解的是,通常会周期性对链路进行监测,并根据监测信息发送预警信息,根据预警信息定位故障服务。通常以日为周期,所述当前监测周期为T日,上一监测周期即是T-1日。通常所述当前监测周期为当天/今日。所述预设监测间隔时间为根据以往经验值设置的所述预设监控规则的执行时间范围,可根据前一天的告警次数进行设置,若前一天的告警次数较多,则可将所述预设监测间隔时间设置为较小的值,从而更加频繁的对所述监控日志中数据进行分析,能够快速发现系统中的众多异常信息。比如,所述预设监测间隔时间可以设置为5分钟、10分钟、30分钟或者60分钟等。所述当前异常单元信息为链路中存在异常的最小单元Span,链路中的Span为一个链路中的最小单位,当前监测周期内可能提取出多个所述当前异常单元信息。
需要说明的是,通常按照T-1日实际调用量划分核心或非核心的链路单元(Span),可对划分的所述核心单元做上标签,判断所述当前异常单元信息是否包括所述标签,若包括,则认定所述当前异常单元信息为核心单元信息;若不包括,则认定所述当前异常单元信息不是核心单元信息。还可从所述当前异常单元信息中提取出单元信息,根据单元信息与划分出的核心链路单元进行比对,若一致,则认定所述当前异常单元信息为核心单元信息;若不一致,则认定所述当前异常单元信息不是核心单元信息。
应理解的是,链路中部分核心单元,核心单元本身未发生预警,但同一调用链路中其他关联的单元(Span)出现时延或错误异常后,该核心Span即会被预警出来,从而实现提前预警,保证及时发现核心单元的异常,保证服务的正常运行。当某一个Span出现告警后,即由服务获取到同一链路上下游中出现的核心Span作为所述同一链路上的核心单元信息。
在具体实现中,配置所述监控规则(AgentRule)针对链路中的一个链路中的最小单位Span进行预警,当某一个Span出现告警后,由服务获取到同一链路上下游中出现的核心Span,并将其一并通过预警通道推送到用户终端,从而实现告警提示,以使技术人员根据发送的所述当前异常单元信息及同一链路上的核心单元信息定位出故障服务。所述用户终端可以是个人计算机、智能手机、平板电脑或者服务器等电子设备。具体为推送至所述用户终端中的终端平台上,所述终端平台包括邮件、短信或微信等。针对不同告警链路中的Span进行预警,当多个链路中重复预警到同一Span则会形成交叉网状的预警交集点,便于技术人员快速定位报障点,即快速定位故障服务(Server)。
本实施例中,通过预设监控规则对链路进行监控,输出监控日志,基于链路入口,完成调用链源头、中间件服务以及内外部系统的完整监控覆盖;获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息,判断所述当前异常单元信息是否为核心单元信息,若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息,将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示,基于安全监控,实现关联预警,核心单元的异常进行提前预警,保证各服务的正常运行。
在一实施例中,所述提取模块20,还用于从所述当前异常单元信息中提取出当前异常参数值;
所述获取模块40,还用于获取预警级别对应的预警阈值,将所述当前异常参数值与所述预警阈值进行比对,获得比对结果;
所述基于日志流的故障预警装置还包括:
设置模块,用于根据所述比对结果设置所述当前异常单元信息的当前预警级别;
所述发送模块50,还用于将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示。
在一实施例中,所述获取模块40,还用于获取上一异常单元信息,并从所述上一异常单元信息中提取出上一异常参数值;
所述判断模块30,还用于判断所述当前异常参数值是否超过所述上一个异常参数值;
所述设置模块,还用于若所述当前异常参数值超过所述上一个异常参数值,则设置所述当前异常单元信息的异常趋势为风险增高趋势;
所述发送模块50,还用于将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
在一实施例中,所述获取模块40,还用于获取所述当前异常单元信息对应的当前服务,并获取所述当前服务对应的当前服务级别;
所述基于日志流的故障预警装置还包括:
查找模块,用于查找与所述当前服务级别对应的信息发送次数上限;
所述判断模块30,还用于获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限;
所述发送模块50,还用于若所述已发送次数未超过所述信息发送次数上限,则执行所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示的步骤。
在一实施例中,所述基于日志流的故障预警装置还包括:
记录模块,用于若所述已发送次数超过所述信息发送次数上限,则记录异常时刻;
汇聚模块,用于获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息;
所述发送模块50,还用于将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
在一实施例中,所述查找模块,还用于从映射关系表中查找与所述预设监测间隔时间对应的预设汇聚间隔时间,所述映射关系表中包括监测时间与汇聚时间之间的对应关系。
在一实施例中,所述获取模块40,还用于从汇聚获得的所有异常单元信息中获取重复的交集异常单元,并从各异常单元信息在同一链路上的核心单元信息中获取重复的交集核心单元;
所述基于日志流的故障预警装置还包括:
定位模块,用于根据所述交集异常单元和所述交集核心单元定位故障服务。
本发明所述基于日志流的故障预警装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于日志流的故障预警方法,其特征在于,所述基于日志流的故障预警方法包括以下步骤:
通过预设监控规则对链路进行监控,输出监控日志;
获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息;
判断所述当前异常单元信息是否为核心单元信息;
若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息;
将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
2.如权利要求1所述的基于日志流的故障预警方法,其特征在于,所述若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息之后,所述基于日志流的故障预警方法还包括:
从所述当前异常单元信息中提取出当前异常参数值;
获取预警级别对应的预警阈值,将所述当前异常参数值与所述预警阈值进行比对,获得比对结果;
根据所述比对结果设置所述当前异常单元信息的当前预警级别;
所述将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示,包括:
将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示。
3.如权利要求2所述的基于日志流的故障预警方法,其特征在于,所述根据所述比对结果设置所述当前异常单元信息的当前预警级别之后,所述基于日志流的故障预警方法还包括:
获取上一异常单元信息,并从所述上一异常单元信息中提取出上一异常参数值;
判断所述当前异常参数值是否超过所述上一个异常参数值;
若所述当前异常参数值超过所述上一个异常参数值,则设置所述当前异常单元信息的异常趋势为风险增高趋势;
所述将所述当前异常单元信息、同一链路上的核心单元信息及所述当前预警级别一同发送至用户终端,以进行告警提示,包括:
将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
4.如权利要求3所述的基于日志流的故障预警方法,其特征在于,所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示之前,所述基于日志流的故障预警方法还包括:
获取所述当前异常单元信息对应的当前服务,并获取所述当前服务对应的当前服务级别;
查找与所述当前服务级别对应的信息发送次数上限;
获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限;
若所述已发送次数未超过所述信息发送次数上限,则执行所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示的步骤。
5.如权利要求4所述的基于日志流的故障预警方法,其特征在于,所述获取所述当前异常单元信息在所述当前监测周期内的已发送次数,判断所述已发送次数是否超过所述信息发送次数上限之后,所述基于日志流的故障预警方法还包括:
若所述已发送次数超过所述信息发送次数上限,则记录异常时刻;
获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息;
所述将所述当前异常单元信息、同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示,包括:
将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示。
6.如权利要求5所述的基于日志流的故障预警方法,其特征在于,所述获取当前时刻,当所述当前时刻与所述异常时刻之间的时间差值大于或者等于预设汇聚间隔时间时,汇聚所述异常时刻至所述当前时刻的时间段内产生的所有异常单元信息之前,所述基于日志流的故障预警方法还包括:
从映射关系表中查找与所述预设监测间隔时间对应的预设汇聚间隔时间,所述映射关系表中包括监测时间与汇聚时间之间的对应关系。
7.如权利要求5所述的基于日志流的故障预警方法,其特征在于,所述将汇聚获得的所有异常单元信息、与各异常单元信息在同一链路上的核心单元信息、所述当前预警级别及所述风险增高趋势一同发送至用户终端,以进行告警提示之后,所述基于日志流的故障预警方法还包括:
从汇聚获得的所有异常单元信息中获取重复的交集异常单元,并从各异常单元信息在同一链路上的核心单元信息中获取重复的交集核心单元;
根据所述交集异常单元和所述交集核心单元定位故障服务。
8.一种基于日志流的故障预警设备,其特征在于,所述基于日志流的故障预警设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于日志流的故障预警程序,所述基于日志流的故障预警程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于日志流的故障预警方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于日志流的故障预警程序,所述基于日志流的故障预警程序被处理器执行时实现如权利要求1至7中任一项所述的基于日志流的故障预警方法的步骤。
10.一种基于日志流的故障预警装置,其特征在于,所述基于日志流的故障预警装置包括:
监控模块,用于通过预设监控规则对链路进行监控,输出监控日志;
提取模块,用于获取预设监测间隔时间,在当前监测周期内每隔所述预设监测间隔时间从所述监控日志中提取出各链路中的当前异常单元信息;
判断模块,用于判断所述当前异常单元信息是否为核心单元信息;
获取模块,用于若所述当前异常单元信息不是核心单元信息,则获取同一链路上的核心单元信息;
发送模块,用于将所述当前异常单元信息及同一链路上的核心单元信息一同发送至用户终端,以进行告警提示。
CN201811531483.2A 2018-12-14 2018-12-14 基于日志流的故障预警方法、设备、存储介质及装置 Pending CN109634814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811531483.2A CN109634814A (zh) 2018-12-14 2018-12-14 基于日志流的故障预警方法、设备、存储介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811531483.2A CN109634814A (zh) 2018-12-14 2018-12-14 基于日志流的故障预警方法、设备、存储介质及装置

Publications (1)

Publication Number Publication Date
CN109634814A true CN109634814A (zh) 2019-04-16

Family

ID=66073961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811531483.2A Pending CN109634814A (zh) 2018-12-14 2018-12-14 基于日志流的故障预警方法、设备、存储介质及装置

Country Status (1)

Country Link
CN (1) CN109634814A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188189A (zh) * 2020-09-18 2021-01-05 Tcl海外电子(惠州)有限公司 电视设备的预警方法、预警服务器及计算机可读存储介质
CN116634205A (zh) * 2023-07-19 2023-08-22 深圳市华曦达科技股份有限公司 智能电视盒及其日志管理方法、装置和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407077A (zh) * 2016-09-21 2017-02-15 广州华多网络科技有限公司 一种实时告警方法及系统
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN107124298A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 告警聚合方法及系统
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置
CN107483268A (zh) * 2017-09-20 2017-12-15 深圳市中润四方信息技术有限公司 一种告警处理方法及系统
CN108900353A (zh) * 2018-07-18 2018-11-27 平安科技(深圳)有限公司 故障告警方法及终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN106407077A (zh) * 2016-09-21 2017-02-15 广州华多网络科技有限公司 一种实时告警方法及系统
CN107124298A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 告警聚合方法及系统
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置
CN107483268A (zh) * 2017-09-20 2017-12-15 深圳市中润四方信息技术有限公司 一种告警处理方法及系统
CN108900353A (zh) * 2018-07-18 2018-11-27 平安科技(深圳)有限公司 故障告警方法及终端设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188189A (zh) * 2020-09-18 2021-01-05 Tcl海外电子(惠州)有限公司 电视设备的预警方法、预警服务器及计算机可读存储介质
CN112188189B (zh) * 2020-09-18 2022-07-05 茂佳科技(广东)有限公司 电视设备的预警方法、预警服务器及计算机可读存储介质
CN116634205A (zh) * 2023-07-19 2023-08-22 深圳市华曦达科技股份有限公司 智能电视盒及其日志管理方法、装置和系统

Similar Documents

Publication Publication Date Title
CN110224858B (zh) 基于日志的告警方法及相关装置
AU2018203374B2 (en) Advanced intelligence engine
US10057285B2 (en) System and method for auditing governance, risk, and compliance using a pluggable correlation architecture
US9103854B2 (en) Meter data management systems, methods, and software with outage management capabilities
US20200201699A1 (en) Unified error monitoring, alerting, and debugging of distributed systems
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
CN110166290A (zh) 基于日志文件的告警方法及装置
CN109688097A (zh) 网站防护方法、网站防护装置、网站防护设备及存储介质
WO2020228276A1 (zh) 网络告警的方法及装置
CN107832196A (zh) 一种用于实时日志异常内容的监测装置及监测方法
US11799748B2 (en) Mitigating failure in request handling
WO2007005440A2 (en) Change event correlation
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN109634814A (zh) 基于日志流的故障预警方法、设备、存储介质及装置
CN110191097A (zh) 登录页面安全性的检测方法、系统、设备及存储介质
CN111352676A (zh) 帮助信息推送方法、帮助系统及可读存储介质
CN114390016B (zh) 邮箱规则管理方法、装置、计算机设备和存储介质
KR101973728B1 (ko) 통합 보안 이상징후 모니터링 시스템
US7752504B2 (en) System diagnostics with dynamic contextual information of events
CN112882892B (zh) 数据处理方法和装置、电子设备及存储介质
JP2006331026A (ja) メッセージ分析システム及びメッセージ分析プログラム
CN113656207B (zh) 故障处理方法、装置、电子设备和介质
US20230379229A1 (en) Artificial intelligence based service quality response system
CN116541408A (zh) 基于Flink的告警方法、装置、设备、系统及介质
CN117472692A (zh) 基于Java Agent和字节码技术的平台健康监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190416

WD01 Invention patent application deemed withdrawn after publication