CN117009180A - 日志、异常警报信息处理方法及装置 - Google Patents

日志、异常警报信息处理方法及装置 Download PDF

Info

Publication number
CN117009180A
CN117009180A CN202310988087.7A CN202310988087A CN117009180A CN 117009180 A CN117009180 A CN 117009180A CN 202310988087 A CN202310988087 A CN 202310988087A CN 117009180 A CN117009180 A CN 117009180A
Authority
CN
China
Prior art keywords
log
alarm information
mode
streaming
abnormal alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310988087.7A
Other languages
English (en)
Inventor
茅逸斐
国欣宇
徐修颖
吴声
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310988087.7A priority Critical patent/CN117009180A/zh
Publication of CN117009180A publication Critical patent/CN117009180A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种日志、异常警报信息处理方法及装置,可用于金融领域或其他技术领域。所述日志处理方法包括:获取目标系统的流式日志;对所述流式日志进行分段,得到至少两个语段;确定每个所述语段的语法结构和语义;根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。本申请提供一种日志、异常警报信息处理方法及装置,通过对日志进行实时模式分析,能够有效发现首次遇到的未知异常。

Description

日志、异常警报信息处理方法及装置
技术领域
本申请涉及监控运维技术领域,具体涉及一种日志、异常警报信息处理方法及装置。
背景技术
在监控运维领域,日志监控是主要的监控方式之一。日志中记录了程序的运行情况、运行状态等,尤其在发生异常故障时,日志会记录关键信息及程序的关键变化/操作等。
一般针对日志的监控,会将日志全量采集后做分析(如关键词筛选等),通过筛选关键词等方式将重要信息过滤出来上送至告警平台。当收到相关告警,结合关键词、告警时间,运维人员可以回溯到故障相关的(多台)服务器上,对相应时间的日志进行查阅分析,确定故障原因等。
这样的分析流程主要有两方面的弊端:1、故障感知主要依赖于所配置的关键词告警,如果故障期间没有命中所配置的关键词,将无法感知到故障;2、故障定位主要依赖人员分析,特别是跨组件/跨服务器的故障所涉及的各类日志关联分析,耗时较长、效率较低。
发明内容
针对现有技术中的问题,本申请实施例提供一种日志、异常警报信息处理方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本申请提出一种日志处理方法,包括:
获取目标系统的流式日志;
对所述流式日志进行分段,得到至少两个语段;
确定每个所述语段的语法结构和语义;
根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
在一些实施例中,所述方法还包括:
若所述流式日志模式库中存在与所述流式日志的匹配度大于或等于第一阈值的日志模式,则将所述日志模式确定为所述流式日志的日志模式。
在一些实施例中,所述方法还包括:
若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则根据所述流式日志生成新的日志模式;
将所述新的日志模式添加到所述流式日志库中。
在一些实施例中,所述方法还包括:
按照预先配置的告警策略根据所述流式日志生成告警信息。
另一方面,本申请提出一种异常警报信息处理方法,包括:
获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
在一些实施例中,所述方法还包括:
若在目标系统的故障库中没有查找到与该组异常警报信息相匹配的历史故障,则获取该组异常警报信息的相关运维对象在所述目标时间段内的日志模式,其中,该组异常警报信息的相关运维对象包括所述异常警报信息所涉及的运维对象以及与该运维对象在配置上相关联的运维对象;
按照每个所述相关运维对象的日志命中所述日志模式的时间,对所述日志模式进行倒排展示,其中,对所述日志模式进行倒排展示用于所述目标系统的故障定位。
在一些实施例中,在利用所述倒排展示的日志模式确定目标系统的故障之后,所述方法还包括:
将所述故障对应的异常警报信息的关联逻辑、所述故障发生的时间周期、所述故障的持续时间和/或所述故障所涉及的运维对象对应保存到所述目标系统的故障库中。
又一方面,本申请提出一种日志处理装置,包括:
日志获取模块,用于获取目标系统的流式日志;
分段模块,用于对所述流式日志进行分段,得到至少两个语段;
确定模块,用于确定每个所述语段的语法结构和语义;
计算模块,用于根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
发送模块,用于若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
再一方面,本申请提出一种异常警报信息处理装置,包括:
获取模块,用于获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
分组模块,用于根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
查找模块,用于对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
展示模块,用于展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
本申请实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的日志、异常警报信息处理方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的日志、异常警报信息处理方法的步骤。
本申请实施例提供的日志处理方法及装置,通过获取目标系统的流式日志;对所述流式日志进行分段,得到至少两个语段;确定每个所述语段的语法结构和语义;根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。这样,通过对日志进行实时模式分析,未匹配上已有模式库的日志会发出未知日志通知,未知日志通知对应的是日志中出现的新情况,新的日志模式一般表示在非正常运行状态下的一些新出现的信息,能够有效发现首次遇到的未知异常。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请一实施例提供的日志处理方法的流程示意图。
图2是本申请一实施例提供的一日志模式库的示意图。
图3是本申请一实施例提供的日志处理方法的部分流程示意图。
图4是本申请一实施例提供的异常警报信息处理方法的流程示意图。
图5是本申请一实施例提供的异常警报信息处理方法的部分流程示意图。
图6是本申请一实施例提供的日志处理装置的结构示意图。
图7是本申请一实施例提供的异常警报信息处理装置的结构示意图。
图8是本申请一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本申请实施例做进一步详细说明。在此,本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意排序。
关于本文中所使用的“第一”、“第二”、……等,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部排序。
本申请实施例提供的日志、异常警报信息处理方法的执行主体包括但不限于计算机。
图1是本申请一实施例提供的日志处理方法的流程示意图,如图1所示,本申请实施例提供的日志处理方法,包括:
S101、获取目标系统的流式日志;
S102、对所述流式日志进行分段,得到至少两个语段;
S103、确定每个所述语段的语法结构和语义;
S104、根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
S105、若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
具体来讲,运用NLP技术(自然语言处理技术)对流式日志进行实时模式提取,日志模式的提取方法包括以下步骤:
断句:首先,对日志原文,根据断句标点符号(,/./:/?/.../(/)等)将其分段,分为一个个语段,每个语段由多个单词组成。
通用元素匹配:在每个语段中检查、匹配通用元素。通用元素是一些预置的常用元素,包括IP(四段1-255之间的数,由·连接)、时间(T,年月日时分秒等格式)、独立字符串(S)、整数型数据(N)等(可见图2中模式特征栏的加方框的字段)。通用元素可以从语段中获取关键的时间、对象等信息,便于后续统计分析。
结构分析:分析语段中剩余的单词,从中提取出基本的主谓宾句法结构及含义。对每个语段计算其在整条日志中的统计比重。
合并归类:统计并分析日志中结构及每段词义的相似性。对于结构及词义相似性高于合并阈值的日志,归类作为同一类模式。根据每个语段的统计比重,从日志中计算出权重最高的3个关键词作为模式名称。
如果未达到合并阈值,则该条日志会生成一个新的模式,并发出未知日志通知。
本申请提供的日志处理方法,获取目标系统的流式日志;对所述流式日志进行分段,得到至少两个语段;确定每个所述语段的语法结构和语义;根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。这样,通过对日志进行实时模式分析,未匹配上已有模式库的日志会发出未知日志通知,未知日志通知对应的是日志中出现的新情况,新的日志模式一般表示在非正常运行状态下的一些新出现的信息,能够有效发现首次遇到的未知异常。
在一些实施例中,所述方法还包括:若所述流式日志模式库中存在与所述流式日志的匹配度大于或等于第一阈值的日志模式,则将所述日志模式确定为所述流式日志的日志模式。具体来讲,若流式日志匹配上已有的日志模式,则可以直接确定该流式日志的日志模式。
如图3所示,在一些实施例中,所述方法还包括:
S106、若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则根据所述流式日志生成新的日志模式;
S107、将所述新的日志模式添加到所述流式日志库中。
具体来讲,统计并分析日志中结构及每段词义的相似性。对于结构及词义相似性高于合并阈值的日志,归类作为同一类模式。
在一些实施例中,所述方法还包括:按照预先配置的告警策略根据所述流式日志生成告警信息。
具体来讲,所述告警信息是指所配置的告警策略所生成的告警,如根据关键词及固定阈值检测策略所生成的告警。告警对应的是日志中已知的异常信息。
图4是本申请一实施例提供的异常警报信息处理方法的流程示意图,如图2所示,本申请实施例提供的异常警报信息处理方法,包括:
S201、获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
S202、根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
S203、对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
S204、展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
具体来讲,首先提供各组异常警报信息对应的运维对象之间的配置关联关系:系统将配置上相关联的告警及(或)未知日志通知放入一组。综合每组异常警报信息所对应的运维对象关联关系、关联逻辑等信息与故障库中的故障事件进行匹配。当命中匹配/满足匹配要求后,会将相关异常警报及信息抽取出来,在事件中心的故障事件中展示。
本申请提供的异常警报信息处理方法,获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。这样,能够有效在故障发生时自动关联匹配有效信息,实现运维过程中故障定位,提升运维效率。
如图5所示,在一些实施例中,所述方法还包括:
S205、若在目标系统的故障库中没有查找到与该组异常警报信息相匹配的历史故障,则获取该组异常警报信息的相关运维对象在所述目标时间段内的日志模式,其中,该组异常警报信息的相关运维对象包括所述异常警报信息所涉及的运维对象以及与该运维对象在配置上相关联的运维对象;
S206、按照每个所述相关运维对象的日志命中所述日志模式的时间,对所述日志模式进行倒排展示,其中,对所述日志模式进行倒排展示用于所述目标系统的故障定位。
具体来讲,对每组异常警报信息,自动拉取相关运维对象的在目标时间段内的日志所命中的日志模式,并根据日志匹配命中模式的时间先后对日志模式进行倒排展示。其中:
相关运维对象,不仅包括异常警报所在的运维对象,还包括它们关联的运维对象(如所属同一集群的其他节点),能够有效解决跨组件的故障发现和关联。
拉取日志模式并倒排,将大量日志分类展示,可以有效减少人工分析的日志量,快速发现故障关键信息,并进行对应的应急操作。
在一些实施例中,在利用所述倒排展示的日志模式确定目标系统的故障之后,所述方法还包括:将所述故障对应的异常警报信息的关联逻辑、所述故障发生的时间周期、所述故障的持续时间和/或所述故障所涉及的运维对象对应保存到所述目标系统的故障库中。
具体来讲,在故障恢复后的事后分析环节,对故障事件进行标记。
主要支持几类标记要素:
关联逻辑标记:包括标记故障对应的异常警报,以及关键的日志模式。标记关键日志模式可以作为关联逻辑的一部分,也可以配置对应的告警。
时间标记:根据异常警报及所标记的日志模式匹配的时间,生成故障时间周期,记录故障的持续时间。同时支持人员手动设定标记时间周期。
对象标记:系统根据关联配置关系及关联逻辑标记,确定故障对象范围(异常波及范围)。同时支持人员手动修改调整。
除了对上述要素进行标记外,还可增加对故障的补充说明(如应急操作说明、故障根因说明等)。完成后的故障事件,会由以上几方面标记的数据构成,组成故障事件的异常报警关联逻辑、事件的周期及持续长度、重点关注的影响范围等要素,相关信息会整体保存在系统的故障库中,此外还包括此次故障发生的时间,以及历史故障匹配命中的记录等信息。
为更好的理解本申请,以下通过一具体实施例对本申请提供的日志、异常警报信息处理方法进行详细说明。
本实施例的目的在于解决背景技术中存在的弊端。通过自主感知异常、标记关联异常、自动匹配故障几部分流程简化运维人员的人工分析过程,实现在故障发生时迅速感知并关联有效信息,沉淀运维过程中的故障定位及处置经验,提升运维效率。
本实施例所涉及的日志分析及故障定位系统,首先需要维护、保存所监测IT系统各服务器、组件(称为运维对象)的关联配置信息,包括但不限于组件所在服务器IP,集群IT系统的服务器IP组,应用访问关系等。关联配置信息可以存储在关系型数据库中的不同表里,方便查询。上述信息为数据跨组件/服务器关联提供依据。
以容器及其所在的宿主机为例。容器具有独立的一组IP及端口。一台宿主机拥有独立的IP。一台宿主机上可能运行一个或者多个容器。可以将上述三项信息(容器IP、容器端口、宿主机IP)存入容器-宿主机配置表中。可以通过宿主机IP查询到其上运行的全量容器,也可以通过容器IP及容器端口查询到容器所在的宿主机IP。
对日志的分析检测,除了使用典型的关键词筛选,重点提供日志模式分析功能。日志模式分析功能,是运用NLP技术(自然语言处理技术)对流式日志进行实时模式提取,根据词频、格式等提取出日志的架构,并结合日志语义对日志进行分类。经过日志模式分析,能够生成如下图所示的模式库。
日志模式的提取方法包括以下步骤:
1、断句。首先,对日志原文,根据断句标点符号(,/./:/?/.../(/)等)将其分段,分为一个个语段,每个语段由多个单词组成。
2、通用元素匹配。在每个语段中检查、匹配通用元素。通用元素是一些预置的常用元素,包括IP(四段1-255之间的数,由·连接)、时间(T,年月日时分秒等格式)、独立字符串(S)、整数型数据(N)等(可见图2中模式特征栏的蓝色字段)。通用元素可以从语段中获取关键的时间、对象等信息,便于后续统计分析。
3、结构分析。分析每个语段,从中提取出基本的主谓宾句法结构及含义。对每个语段计算其在整条日志中的统计比重,具体是指每个语段在整条日志中的重要性,也即每个语段用来表示该条日志所要表达的信息的重要程度。
4、合并归类。统计并分析日志中结构及每段词义的相似性。对于结构及词义相似性高于合并阈值的日志,归类作为同一类模式。根据每个语段的统计比重,从日志中计算出权重最高的3个关键词作为模式名称。
如果未达到合并阈值,则该条日志会生成一个新的模式,并发出未知日志通知。
本申请所涉及的日志分析及故障定位系统,在故障定位过程中主要包括故障捕捉、故障定位、标记关联、自动匹配四部分。
1、异常捕捉
异常捕捉主要作用是自主感知异常。感知异常的数据来源包含两方面:
告警:指所配置的告警策略所生成的告警,如根据关键词及固定阈值检测策略所生成的告警。告警对应的是日志中已知的异常信息。
未知日志通知:对日志进行实时模式分析,未匹配上已有模式库的日志会生成新的模式,并发出未知日志通知。未知日志通知对应的是日志中出现的新情况,新的日志模式一般表示在非正常运行状态下的一些新出现的信息。==>能够有效发现首次遇到的未知异常。
告警和未知日志通知(合称为异常警报),会统一上送到事件中心。事件中心调取关联配置信息,对一定时间范围内的在关联配置上相关的运维对象的异常警报放入一组进行关联分析和展示。
2、故障定位
在故障发生后,重点要对问题进行快速分析和故障定位。
系统首先提供各组异常警报对应的运维对象之间的配置关联关系:系统将配置上相关联的告警及(或)未知日志通知放入一组。
其次,对每组异常警报,自动拉取相关运维对象的日志匹配上的日志模式,并根据日志匹配命中模式的时间先后对模式进行倒排展示。其中:
相关运维对象,不仅包括异常警报所在的运维对象,还包括它们关联的运维对象(如所属同一集群的其他节点),能够有效解决跨组件的故障发现和关联。
拉取日志模式并倒排,将大量日志分类展示,可以有效减少人工分析的日志量,快速发现故障关键信息,并进行对应的应急操作。
3、标记关联
在故障恢复后的事后分析环节,对故障事件进行标记。
系统支持几类标记要素:
关联逻辑标记:包括标记故障对应的异常警报,以及关键的日志模式。标记关键日志模式可以作为关联逻辑的一部分,也可以配置对应的告警。
时间标记:根据异常警报及所标记的日志模式匹配的时间,生成故障时间周期,记录故障的持续时间。同时支持人员手动设定标记时间周期。
对象标记:系统根据关联配置关系及关联逻辑标记,确定故障对象范围(异常波及范围)。同时支持人员手动修改调整。
除了对上述要素进行标记外,还可增加对故障的补充说明(如应急操作说明、故障根因说明等)。完成后的故障事件,会由以上几方面标记的数据构成,组成故障事件的异常报警关联逻辑、事件的周期及持续长度、重点关注的影响范围等要素,相关信息会整体保存在系统的故障库中,此外还包括此次故障发生的时间,以及历史故障匹配命中的记录等信息。
4、自动匹配
当新的故障事件发生后,系统根据故障事件实时扫描异常警报,综合异常警报、时间间隔、对象关联关系、关联逻辑等信息与故障库中的故障事件进行匹配。当命中匹配/满足匹配要求后,会将相关异常警报及信息抽取出来,在事件中心的故障事件中展示。
本实施例提供的日志、异常警报信息处理方法,故障感知更加敏感,不限制于已知的告警类型及关键信息,能够自动感知到未知的异常情况。为跨运维对象的日志关联分析带来很大便利,能够大量减少人工分析的日志量,快速发现故障关键信息。故障标记及故障匹配,能够有效在故障发生时自动关联匹配有效信息,实现运维过程中故障定位及处置经验的沉淀及复用,提升运维效率。
图6是本申请一实施例提供的日志处理装置的结构示意图,如图6所示,本申请实施例提供的日志处理装置,包括:
日志获取模块31,用于获取目标系统的流式日志;
分段模块32,用于对所述流式日志进行分段,得到至少两个语段;
确定模块33,用于确定每个所述语段的语法结构和语义;
计算模块34,用于根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
发送模块35,用于若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
本申请提供的日志处理装置,获取目标系统的流式日志;对所述流式日志进行分段,得到至少两个语段;确定每个所述语段的语法结构和语义;根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。这样,通过对日志进行实时模式分析,未匹配上已有模式库的日志会发出未知日志通知,未知日志通知对应的是日志中出现的新情况,新的日志模式一般表示在非正常运行状态下的一些新出现的信息,能够有效发现首次遇到的未知异常。
在一些实施例中,所述装置还包括:
日志模式确定模块,用于若所述流式日志模式库中存在与所述流式日志的匹配度大于或等于第一阈值的日志模式,则将所述日志模式确定为所述流式日志的日志模式。
在一些实施例中,所述装置还包括:
日志模式生成模块,用于若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则根据所述流式日志生成新的日志模式;
添加模块,用于将所述新的日志模式添加到所述流式日志库中。
在一些实施例中,所述装置还包括:
告警信息生成模块,用于按照预先配置的告警策略根据所述流式日志生成告警信息。
图7是本申请一实施例提供的异常警报信息处理装置的结构示意图,如图7所示,本申请实施例提供的异常警报信息处理装置,包括:
获取模块41,用于获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
分组模块42,用于根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
查找模块43,用于对于每组异常警报信息,根据该组异常警报信息关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
展示模块44,用于展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
在一些实施例中,所述装置还包括:
日志模式获取模块,用于若在目标系统的故障库中没有查找到与该组异常警报信息相匹配的历史故障,则获取该组异常警报信息的相关运维对象在所述目标时间段内的日志模式,其中,该组异常警报信息的相关运维对象包括所述异常警报信息所涉及的运维对象以及与该运维对象在配置上相关联的运维对象;
倒排展示模块,用于按照每个所述相关运维对象的日志命中所述日志模式的时间,对所述日志模式进行倒排展示,其中,对所述日志模式进行倒排展示用于所述目标系统的故障定位。
本申请提供的异常警报信息处理装置,获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;对于每组异常警报信息,根据该组异常警报信息关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。这样,能够有效在故障发生时自动关联匹配有效信息,实现运维过程中故障定位,提升运维效率。
在一些实施例中,所述装置还包括:
保存模块,用于将所述故障对应的异常警报信息关联逻辑、所述故障发生的时间周期、所述故障的持续时间和/或所述故障所涉及的运维对象对应保存到所述目标系统的故障库中。
本申请实施例提供的装置的实施例具体可以用于执行上述方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
需要说明的是,本申请实施例提供的日志、异常警报信息处理方法及装置可用于金融领域,也可用于除金融领域之外的任意技术领域,本申请实施例对日志、异常警报信息处理方法及装置的应用领域不做限定。
图8为本申请一实施例提供的电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行上述任一实施例所述的方法。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种日志处理方法,其特征在于,包括:
获取目标系统的流式日志;
对所述流式日志进行分段,得到至少两个语段;
确定每个所述语段的语法结构和语义;
根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述流式日志模式库中存在与所述流式日志的匹配度大于或等于第一阈值的日志模式,则将所述日志模式确定为所述流式日志的日志模式。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则根据所述流式日志生成新的日志模式;
将所述新的日志模式添加到所述流式日志库中。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
按照预先配置的告警策略根据所述流式日志生成告警信息。
5.一种异常警报信息处理方法,其特征在于,包括:
获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若在目标系统的故障库中没有查找到与该组异常警报信息相匹配的历史故障,则获取该组异常警报信息的相关运维对象在所述目标时间段内的日志模式,其中,该组异常警报信息的相关运维对象包括所述异常警报信息所涉及的运维对象以及与该运维对象在配置上相关联的运维对象;
按照每个所述相关运维对象的日志命中所述日志模式的时间,对所述日志模式进行倒排展示,其中,对所述日志模式进行倒排展示用于所述目标系统的故障定位。
7.根据权利要求6所述的方法,其特征在于,在利用所述倒排展示的日志模式确定目标系统的故障之后,所述方法还包括:
将所述故障对应的异常警报信息的关联逻辑、所述故障发生的时间周期、所述故障的持续时间和/或所述故障所涉及的运维对象对应保存到所述目标系统的故障库中。
8.一种日志处理装置,其特征在于,包括:
日志获取模块,用于获取目标系统的流式日志;
分段模块,用于对所述流式日志进行分段,得到至少两个语段;
确定模块,用于确定每个所述语段的语法结构和语义;
计算模块,用于根据每个所述语段的语法结构和语义以及流式日志模式库中的每个日志模式的语法结构和语义,计算所述流式日志与流式日志模式库中的每个日志模式的匹配度;
发送模块,用于若所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,则发送未知日志通知,所述未知日志通知中包括所述流式日志。
9.一种异常警报信息处理装置,其特征在于,包括:
获取模块,用于获取目标系统在目标时间段内的异常警报信息,所述异常警报信息包括未知日志通知和/或告警信息,其中,所述未知日志通知中包括目标系统的流式日志,所述流式日志与所述流式日志模式库中的每个日志模式的匹配度均低于第一阈值,所述告警信息是按照预先配置的告警策略根据所述目标系统的流式日志生成的;
分组模块,用于根据所述目标系统各运维对象之间的关联配置信息,对各所述异常警报信息进行分组,其中,将在配置上相关联的运维对象的异常警报信息分为一组;
查找模块,用于对于每组异常警报信息,根据该组异常警报信息的关联逻辑、该组异常警报信息发生的时间、该组异常警报信息的持续时间和/或该组异常警报信息所涉及的运维对象,在目标系统的故障库中查找与该组异常警报信息相匹配的历史故障;
展示模块,用于展示查找到的所述历史故障的信息,所述历史故障的信息包括所述历史故障的应急操作指导信息和/或所述历史故障的故障根因信息。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4或5至7任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4或5至7任一项所述方法的步骤。
CN202310988087.7A 2023-08-07 2023-08-07 日志、异常警报信息处理方法及装置 Pending CN117009180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310988087.7A CN117009180A (zh) 2023-08-07 2023-08-07 日志、异常警报信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310988087.7A CN117009180A (zh) 2023-08-07 2023-08-07 日志、异常警报信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN117009180A true CN117009180A (zh) 2023-11-07

Family

ID=88570761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310988087.7A Pending CN117009180A (zh) 2023-08-07 2023-08-07 日志、异常警报信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN117009180A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971606A (zh) * 2024-03-29 2024-05-03 浙商银行股份有限公司 基于ElasticSearch的日志管理系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971606A (zh) * 2024-03-29 2024-05-03 浙商银行股份有限公司 基于ElasticSearch的日志管理系统及方法

Similar Documents

Publication Publication Date Title
CN111158977B (zh) 一种异常事件根因定位方法及装置
US20210174253A1 (en) Analysis of system log data using machine learning
CN111190876A (zh) 日志管理系统及其运行方法
CN112114995B (zh) 基于进程的终端异常分析方法、装置、设备及存储介质
CN106371986A (zh) 一种日志处理运维监控系统
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN113645232B (zh) 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN107016298B (zh) 一种网页篡改监测方法及装置
CN107003992A (zh) 用于神经语言行为识别系统的感知联想记忆
CN112181758A (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN117009180A (zh) 日志、异常警报信息处理方法及装置
JP2014153721A (ja) ログ可視化装置及び方法及びプログラム
CN107111610A (zh) 用于神经语言行为识别系统的映射器组件
CN107111609A (zh) 用于神经语言行为识别系统的词法分析器
KR20130037975A (ko) 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치
CN115883163A (zh) 网络安全告警监测方法
CN113297044A (zh) 一种运维风险预警方法及装置
CN113590421B (zh) 日志模板提取方法、程序产品及存储介质
CN112068979B (zh) 一种业务故障确定方法及装置
CN112306820A (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
CN114996335B (zh) 一种iptv日志实时聚类分析方法
CN117033501A (zh) 大数据采集分析系统
CN116756659A (zh) 智能运维管理方法、装置、设备及存储介质
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
EP3828712A1 (en) Data parsing method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination