CN111881011A - 日志管理方法、平台、服务器及存储介质 - Google Patents

日志管理方法、平台、服务器及存储介质 Download PDF

Info

Publication number
CN111881011A
CN111881011A CN202010757970.1A CN202010757970A CN111881011A CN 111881011 A CN111881011 A CN 111881011A CN 202010757970 A CN202010757970 A CN 202010757970A CN 111881011 A CN111881011 A CN 111881011A
Authority
CN
China
Prior art keywords
log
abnormal
data
alarm
log data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010757970.1A
Other languages
English (en)
Inventor
赵宗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202010757970.1A priority Critical patent/CN111881011A/zh
Publication of CN111881011A publication Critical patent/CN111881011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供的一种日志管理方法、平台、服务器及存储介质,通过采集一个或多个应用程序在运行过程中产生的日志的日志数据;若监控到存在满足预设异常告警条件的日志,则生成告警事件,所述告警事件用于指示采集到的日志中存在异常日志;根据所述告警事件,生成告警信息,所述告警信息用于指示所述异常日志中的异常内容;根据所述告警信息,对采集到的日志数据进行检索,获得所述异常日志的日志数据。通过本实施例提供的方法,可以对日志进行统一管理,从而提升日志管理效率。

Description

日志管理方法、平台、服务器及存储介质
技术领域
本申请涉及日志管理技术领域,尤其涉及一种日志管理方法、平台、服务器及存储介质。
背景技术
日志是记录系统行为、应用运行状态、描述发生事件的数据,其在异常行为排查、问题诊断、应用性能和使用情况的分析统计等场景中有着广泛的应用。日志一般由应用打印在目标机器中,有数据体积大、数据增量多、数据格式不固定等的特点。随着日志的应用场景的不断扩大,日志的管理难度也越来越大。目前,对于日志管理,大多利用专门的工具,例如:用于日志收集和查询的Elasticsearch服务器、Logstash平台和Kibana平台以及用于日志链路分析的开放式分布式追踪规范(OpenTracing)等。在实际应用中,发明人发现上述方案至少存在以下问题:
目前的日志管理工具均只能在日志生命周期中固定的阶段和场景提供特定的服务和功能,不能对日志进行统一的管理,导致日志管理效率低。
发明内容
第一方面,本申请提供一种日志管理方法,包括:采集一个或多个应用程序在运行过程中产生的日志的日志数据;
若监控到存在满足预设异常告警条件的日志,则生成告警事件,告警事件用于指示采集到的日志中存在异常日志;
根据告警事件,生成告警信息,告警信息用于指示异常日志中的异常内容;
根据告警信息,对采集到的日志进行检索,获得异常日志的日志数据。
可选的,集一个或多个应用程序在运行过程中产生的日志的日志数据,包括:
实时采集一个或多个应用程序在运行过程中产生的日志的日志数据;
以及实时存储采集到的日志的日志数据到第一存储装置中。
可选的,若监控到存在满足预设异常告警条件的日志,则生成告警事件,包括:
通过消费日志,确定是否存在满足预设异常告警条件的日志;
若存在,则生成告警事件。
可选的,根据告警信息,对采集到的日志进行检索,获得异常日志的日志数据,包括:
根据告警信息获取异常日志的反查凭据;
根据反查凭据进行检索,获得异常日志的日志数据。
可选的,反查凭据包括以下至少一种:
日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳以及条件谓词,条件谓词是发起日志检索的关键字键值对。
可选的,根据反查凭据进行反查,对采集到的日志进行检索,获得异常日志的日志数据,包括:
根据条件谓词,对采集到的日志进行检索;
若检测到满足如下至少一项:日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳的日志数据,则获取异常日志对应的日志数据。
可选的,对已完成消费的日志的日志数据以时序数据格式,写入第二存储装置中。
第二方面,本申请提供一种日志管理平台,包括:日志收集模块,用于采集一个或多个应用程序在运行过程中产生的日志的日志数据;
日志监控模块,用于在若监控到存在满足预设异常告警条件的日志,则生成告警事件,告警事件用于指示采集到的日志中存在异常日志;;
告警分析模块,用于生成告警信息,告警信息用于指示异常日志中的异常内容;
日志检索模块,用于根据告警信息,对采集到的日志进行检索,获得异常日志的日志数据。
可选的,日志收集模块在采集一个或多个应用程序在运行过程中产生的日志的日志数据时,具体用于:
实时采集一个或多个应用程序在运行过程中产生的日志的日志数据;
以及实时存储采集到的日志的日志数据到第一存储装置中。
可选的,日志监控模块在监控到存在满足预设异常告警条件的日志,则生成告警事件,还用于:
通过消费日志,确定是否存在满足预设异常告警条件的日志;
若存在,则生成告警事件。
可选的,告警分析模块在根据告警信息,对采集到的日志进行检索,获得异常日志的日志数据时,具体用于:
根据告警信息获取异常日志的反查凭据;
根据反查凭据进行检索,获得异常日志的日志数据。
可选的,反查凭据包括以下至少一种:
日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳以及条件谓词,条件谓词是发起日志检索的关键字键值对。
可选的,日志检索模块在根据反查凭据进行反查,对采集到的日志进行检索,获得异常日志的日志数据时,具体用于:
根据条件谓词,对采集到的日志进行检索;
若检测到满足如下至少一项:日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳的日志数据,则获取异常日志对应的日志数据。
可选的,日志监控模块还用于:对已完成消费的日志的日志数据以时序数据格式,写入第二存储装置中。
第三方面,本申请提供一种服务器,包括:存储器,用于存储程序指令;
处理器,用于调用并执行存储器中的程序指令,执行如第一方面中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序;计算机程序被处理器执行时,实现如第一方面中任一项所述的方法。
本申请提供的一种日志管理方法、平台、服务器及存储介质,采集一个或多个应用程序在运行过程中产生的日志的日志数据;若监控到存在满足预设异常告警条件的日志,则生成告警事件,所述告警事件用于指示采集到的日志中存在异常日志;根据所述告警事件,生成告警信息,所述告警信息用于指示所述异常日志中的异常内容;根据所述告警信息,对采集到的日志数据进行检索,获得所述异常日志的日志数据。通过本实施例提供的方法,可以对日志进行统一管理,从而提升日志管理效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的日志管理平台的结构示意图;
图2为本申请另一实施例提供的日志管理平台的结构示意图;
图3为本申请一实施例提供的日志管理平台运行过程示例图;
图4为本申请一实施例提供的日志管理方法的流程图;
图5为本申请另一实施例提供的日志管理方法的流程图;
图6为本申请一实施例提供的服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“上部”、“上”、“下”、“前”、“后”等指示的方位或者位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或者暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。在发明的描述中,“多个”的含义是两个或两个以上,除非是另有精确具体地规定。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它步骤或单元。
描述包括对形成详细描述的一部分的附图的参考。附图示出了根据示例性实施方式的图示。在本文中也可被称为“示例”的这些实施方式被足够详细地描述,以使本领域中的技术人员能够实践本文所描述的所要求保护的主题的实施方式。在不偏离所要求保护的主题的范围和精神的情况下,可组合实施方式,可使用其它实施方式,或可做出结构、逻辑和电气改变。应理解的是,本文中所描述的实施方式并不旨在限制主题的范围,而是使本领域中的技术人员能够实践、制作和/或使用该主题。
以下,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解:
时序数据库,用于保存时序特性指标,提供实时的时间序列指标过滤、聚合查询服务。
数据地图:(DataMap)用于记录数据血缘关系,提供数据定位和溯源服务。
日志模型:(parser):实时分析模块对输入的数据用何种日志模型进行解析。
日志消费:全量数据顺序(FIFO)读写。
每个日志库(LogStore)有一个或多个分区(Shard),在数据读取中有以下方式:
(1)可以随机落到某一个分区中;
(2)可以从指定分区中,按照日志写入分区的顺序批量读取日志;
(3)根据接收日志的时间,设置批量读取分区日志的起始位置(cursor)。
目前,行业里有不少有效的日志处理方案和存储分析工具,例如:用于日志收集和查询的Elasticsearch服务器、Logstash平台和Kibana平台以及用于日志链路分析的开放式分布式追踪规范(OpenTracing)等专门用于日志链路分析的工具,但每个工具各有侧重点,针对日志生命周期中的某些阶段和场景提供服务和功能,不能对日志进行统一的管理,从而导致日志使用场景的限制和应用难以扩展。具体的,当前对于日志管理主要存在以下几个问题:
(1)当日志数量较大时,Elasticsearch服务器、Logstash平台和Kibana平台的数据处理方式难以满足实时日志分析需求;
(2)当日志体积较大时,Elasticsearch服务器、Logstash平台和Kibana平台均存在性能限制,无法满足实时日志内容监控和告警需求;
(3)Elasticsearch服务器、Logstash平台和Kibana平台均存在设计限制,无法满足告警链路的日志原文关联需求。
因此,目前的日志管理方法只能在日志生命周期中的某些阶段和场景提供特定的服务和功能,不能对日志进行统一的管理,导致日志管理效率低,难以满足现今大量日志的管理需求。
基于上述问题,本申请实施例提供一种日志管理方法、平台、服务器及存储介质,通过实现统一的架构,完成包括日志采集、日志监控分析、监控告警以及日志检索等完整的日志管理功能,打破日志生命周期中各阶段的壁垒,为用户提供一个统一的日志使用平台化服务,解决现有技术中不能对日志进行统一的管理,从而导致日志管理效率低的技术问题,满足现今大量日志的管理需求。
本领域技术人员可以理解的是,本实施例提供的日志管理平台可以为具有信息处理功能的电子设备,例如,可以是智能手机,平板电脑,计算机,或者网络设备等,也可以为具有信息处理功能的服务器等。
对应的,日志可以是电子设备上应用程序在运行过程中产生的日志,也可以是服务器在运行过程中产生的日志,对此本实施例不做特别限制。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例实现了一种日志收集、日志监控、日志检索和告警分析日志数据的管理平台,既可以满足不同应用、不同设备的日志分析需求,是一套完整的监控与报警综合服务平台。
图1为本申请一实施例提供的日志管理平台的结构示意图。本实施例不对平台及其各器件的名称进行严格限定,如日志管理平台200可以称之为系统日志信息采集与管理系统(Syslog Information Collection And Management System,SICMS)。
具体的,日志管理平台200包括:
日志收集模块201,用于采集一个或多个应用程序在运行过程中产生的日志的日志数据;
日志监控模块202,用于在若监控到存在满足预设异常告警条件的日志,则生成告警事件,所述告警事件用于指示采集到的日志中存在异常日志;
告警分析模块203,用于生成告警信息,所述告警信息用于指示所述异常日志中的异常内容;
日志检索模块204,用于用于根据所述告警信息,对采集到的日志进行检索,获得所述异常日志的日志数据。
可选的,日志收集模块201在采集一个或多个应用程序在运行过程中产生的日志的日志数据时,具体用于:
实时采集一个或多个应用程序在运行过程中产生的日志的日志数据;
以及实时存储采集到的日志的日志数据到第一存储装置中。
可选的,日志监控模块202在监控到存在满足预设异常告警条件的日志,则生成告警事件,还用于:
通过消费日志,确定是否存在满足预设异常告警条件的日志;
若存在,则生成告警事件。
可选的,告警分析模块203在根据告警信息,对采集到的日志进行检索,获得异常日志的日志数据时,具体用于:
根据告警信息获取异常日志的反查凭据;
根据反查凭据进行检索,获得异常日志的日志数据。
可选的,反查凭据包括以下至少一种:
日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳以及条件谓词,条件谓词是发起日志检索的关键字键值对。
可选的,日志检索模块204在根据反查凭据进行反查,对采集到的日志进行检索,获得异常日志的日志数据时,具体用于:
根据条件谓词,对采集到的日志进行检索;
若检测到满足如下至少一项:日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳的日志数据,则获取异常日志对应的日志数据。
可选的,日志监控模块还用于:对已完成消费的日志的日志数据以时序数据格式,写入第二存储装置中。
本申请实施例提供的一种日志管理平台,包括日志收集模块、日志监控模块、告警分析模块以及日志检索模块。其中,日志收集模块提供日志收集服务、日志监控模块提供日志监控服务、告警分析模块提供告警分析服务以及日志检索模块提供日志检索服务。通过本实施例提供的日志管理平台,可以对日志进行统一管理,从而提升日志管理效率。
在图1的基础上,日志管理平台200还可以包括其他模块,共同实现日志管理平台200的日志管理功能。下面结合图2进行说明。
图2为本申请另一实施例提供的日志管理平台的结构示意图。如图2所示:日志管理平台200还包括日志管理系统205,日志管理平台通过日志管理系统205统筹管理各个模块,以使各个模块分别提供日志收集服务、日志监控服务、告警分析服务以及日志检索服务。
通过日志管理系统205使日志管理平台200完成包括日志采集、日志监控、告警分析以及日志检索等完整的日志管理功能,打破日志生命周期中各阶段的壁垒,为用户提供一个统一的日志使用平台化服务。
在日志收集阶段,日志收集模块201用于实现日志收集服务。其中,日志收集模块201包括日志实时采集和日志数据缓存两大功能。在一种实施方式中,日志收集模块201由采集器206实现日志采集,其中,采集器206可以是Filebeat。在另一种实施方式中,日志收集模块201由分布式队列系统207来实现日志数据缓存功能,其中,该分布式队列系统207可以是Kafka系统。
具体的,在日志收集模块201采集到应用程序运行过程中的日志的日志数据后,由日志管理系统205将日志数据的属性记录在第一数据地图215中,获得数据收集的处理链路。其中日志属性可以包括以下至少一种:日志路径、日志所在电子设备IP以及日志格式等。
进一步的,通过日志管理系统205指定日志收集的汇总处,即上述的Kafka中,并根据数据收集的处理链路获得日志采集程序,将打包好的日志采集程序发布至日志数据源所在的电子设备以及Filebeat中,并将日志采集程序部署在日志数据源所在的电子设备以及Filebea中,以实现Filebea从电子设备中实时收集日志数据。
在后续的日志数据收集过程中,通过Filebeat利用日志采集程序从电子设备中采集应用程序运行中产生的日志的日志数据,将收集到的日志数据按预设队列形式保存在Kafka中。由于Filebeat以及Kafka都是开源系统,因此,本申请实施例提供的日志收集模块201在日志采集和存储过程中可以满足高容量和可扩展的需求。
在其他实施例中,由于Kafka中的数据事典型的非格式化数据,并且存在数据打印延迟、数据补回、重复等的特点,而经过处理后输出到下游的则要求是格式化良好的半结构化数据、同时产生的统计指标需要周期对齐。因此需要保证对非法数据的有效识别、容错性极高的格式转换、数据对齐处理等,该功能在日志监控阶段实现,下面结合日志监控模块202说明日志监控阶段的具体内容。
在日志监控阶段,日志监控模块202用于实现日志监控服务。其中,日志监控模块202包括实时分析聚合和指标数据存储两大功能。在一种实施方式中,由日志分析聚合模块208来实现日志的实时分析聚合,其中,日志分析聚合模块208可以是Flink模块,Flink模块包含基于Flink开发的动态解析聚合程序。
在一种实施方式中,通过在电子设备中配置日志聚合程序,以实现日志监控功能,下面结合日志监控模块202的结构说明日志监控模块202实现日志监控功能的具体方案。
首先,Flink模块208通过第一消费接口(consume)209接入日志收集模块201中的Kafka系统。具体的,Flink模块通过第一消费接口209按照预设日志模型和预设处理过程,实时、流式地消费来自Kafka系统207的日志数据。
进一步的,日志管理系统205将日志消费来源、聚合处理程序、处理结果输出记录在第一数据地图215,从而记录下日志监控数据的处理链路。
更进一步的,日志管理系统205根据处理链路重新配置Flink中日志聚合程序的逻辑,其中,配置Flink日志聚合程序的逻辑可以包括:
(1)指定上游数据来源,即Kafka中的Topic;
(2)日志监控数据的处理链路;
(3)指定下游数据存储路径,其中下游存储路径可以为时序数据库(TSDB)209。其中,TSDB是一个基于分布式引擎(ElasticSearch,Es)开发而成的分布式非结构数据库。
最后,在完成Flink模块中日志聚合程序的逻辑配置后,将打包好的日志聚合程序下发部署在日志数据源所在的电子设备以及Flink中。
在一种实施方式中,日志监控模块还可以包括:网络连接监控器(Argus)214。
在日志监控模块202提供日志数据监控服务过程中,由于在电子设备中配置了日志聚合程序的逻辑,日志监控模块202可以通过日志聚合程序完成电子设备中日志数据的实时聚合,并根据配置的日志聚合程序,将聚合结果以时序数据格式写入到下游的时序数据库209中,再利用Argus读取TSDB中的日志数据,以监控时序数据库209中的日志数据。
相应的,用户可以通过时序数据库接口在时序数据库209中执行即席的时序指标聚合查询等操作。
在告警分析阶段,告警分析模块203用于实现日志告警分析服务。其中,告警分析模块203具体用于对时序指标的监控分析服务。
在一种实施方式中,告警分析模块203还可以包括:反查凭据库210以及告警引擎217,具体的,可以告警引擎217采用由Prometheus引擎,通过告警引擎接收来自日志监控模块202发来的告警事件,其中,日志监控模块202可以通过邮件、短信等通讯软件向告警引擎发送告警事件。
当接收到告警事件时,日志管理系统触发告警引擎获取告警信息,其中,告警信息可以包括:指标名、过滤条件、时间范围、聚合方法中的一种或多种。
进一步的,反查凭据库210根据告警信息获取异常日志的反查凭据,其中,还可以将反查凭据写入到反查凭据库210中,并获取反查凭据对应的反查凭据ID。
在一种实施方式中,将告警信息和反查凭据ID发送至运维人员,由运维人员根据告警信息,通过反查凭据ID从反查凭证库210中定位反查凭证,从而根据反查凭证从日志原文数据库Kafka中查询告警事件对应的日志数据。其中,反查凭证可以包括:日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳以及条件谓词等中的一种或多种。其中,条件谓词是向日志原文数据库Kafka发起查询的关键字键值对。
在另一种实施方式中,也可以由日志检索模块204根据反查凭据及告警信息进行检索,从日志原文数据库Kafka中检索告警事件对应的日志数据。
日志检索模块204包括日志实时检索和日志数据存储两大功能,其中,日志实时检索可以由数据仓库技术(Extract-Transform-Load,ETL)实现,具体的,可以由管理平台211实现,其中,管理平台211可以包括:Logstash平台;日志数据存储通过分布式引擎212实现,其中,分布式引擎212可以为ElasticSearch引擎,简称Es。
下面,以Logstash平台以及Es引擎为例,结合日志检索模块204的结构说明日志检索模块204实现日志检索功能的具体方案。
在一种实施方式中,Logstash平台与日志收集模块201通过第二消费接口213连接。
首先,通过Logstash平台实时消费来自Kafka的日志事件,并将日志消费来源、消费处理程序、处理结果输出记录在第二数据地图216中,从而记录下日志检索处理链路;
进一步的,日志管理系统205根据日志处理链路重新配置日志管理平台Logstash平台的日志消费程序的逻辑,其中,配置Logstash平台的日志消费程序的逻辑可以包括以下步骤:
(1)指定上游数据来源,即Kafka中的Topic;
(2)日志消费过程中的日志检索处理链路;
(3)指定下游数据存储路径,其中,下游存储路径可以为分布式引擎Es。
最后,在完成Logstash平台中日志消费程序的逻辑配置后,将打包好的日志消费程序下发部署在日志数据源所在的电子设备中。
通过上述步骤,由于在电子设备中配置了日志消费程序的逻辑,日志检索模块204可以通过日志消费程序提供电子设备中日志数据的实时检索服务,并根据配置的日志消费程序,将检索结果写入到下游的ES中,最终提供实时的日志检索服务。
在一种实施方式中,日志检索模块204和告警分析模块203基于同一份日志数据分别生成了监控指标和日志原文,两份数据之间的来源、处理链路关系由一种半结构化的图数据表示,这种数据是一种检索纬度多、点与点之间多对多关联的数据,一般以多个维度为查询条件,查询一或多张连通图上的数据点。
本申请实施例提供的一种日志管理平台,包括日志管理系统、日志收集模块、日志监控模块、告警分析模块以及日志检索模块。通过日志管理系统统筹管理各个模块,以使各模块分别提供日志收集服务、日志监控服务、告警分析服务以及日志检索服务。通过本实施例提供的日志管理平台,可以对日志进行统一管理,从而提升日志管理效率。
图3为本申请一实施例提供的日志管理平台运行过程示例图。其结合图2,图3中所示的日志检索服务由日志检索模块201提供,日志监控服务由日志监控模块202提供,告警分析服务由告警分析模块203提供,以及日志检索服务由日志检索模块204提供。为方便理解,日志管理平台具体的运行过程及原理结合图4提供的日志管理方法实施例进行说明,本实施例不再赘述。
图4为本申请一实施例提供的日志管理方法的流程图。本申请实施例提供的日志管理方法,实施例的执行主体可以为计算机,也可以为其它设备,例如服务器等具有信息处理功能的电子设备,本实施例此处不做特别限制。
如图4所示,该日志管理方法包括以下步骤:
S401、采集一个或多个应用程序在运行过程中产生的日志的日志数据。
在实际应用中,其中,一个或多个应用程序在为正在运行日志管理程序的电子设备。在一种实施方式中,可以在接收到用户下发的采集命令后开始获取电子设备在运行过程中产生的日志的日志数据。在另一种实施方式中,也可以根据电子设备的运行情况自动获取,例如,当电子设备开始运行时,即开始采集日志数据,或者,当电子设备停止运行时,停止采集日志数据,对此本申请不予以限制。
为方便理解,下面结合图3进行说明,在一种实施方式中,通过Filebeat利用日志采集程序从电子设备中采集电子设备运行中产生的日志的日志数据,将收集到的日志数据按预设队列形式保存在Kafka中。
S402、若监控到存在满足预设异常告警条件的日志,则生成告警事件。
继续结合图3进行说明,日志监控模块202可以通过日志聚合程序完成电子设备中日志数据的实时聚合,以监控电子设备中日志数据是否存在满足预设异常告警条件的日志。
在实际应用中,根据获取日志所在的电子设备类型,利用各电子设备对应的关键字模板对系统日志进行监控,对日志进行监控操作主要将日志数据进行分类,每个日志的日志数据可以分为以下几类:危险日志数据、安全日志数据以及未知日志数据中的至少一类。
在一种实施方式中,当日志数据为危险日志数据时,即监控到存在满足预设异常告警的条件,生成告警事件,其中,告警事件用于指示采集到的日志中存在异常日志。在另一种实施方式中,当日志数据为安全日志数据或者未知日志数据时,即未监控到满足预设异常告警条件的日志,此时,不需要生成告警事件。
在一种实施方式中,可以通过邮件、短信等通讯软件发送告警事件。
S403、根据告警事件,生成告警信息。
对应的,接收上述告警事件。
其中,告警信息用于指示异常日志中的异常内容。
在实际应用中,告警信息可以包括:指标名、过滤条件、时间范围、聚合方法中的一种或多种。
S404、根据告警信息,对采集到的日志数据进行检索,获得异常日志的日志数据。
请继续参考图3,在告警分析模块203接收到告警信息时,在一种实施方式中,可以将告警信息发送至运维人员,由运维人员根据告警信息从日志原文数据库Kafka中查询告警事件对应的日志数据。
在另一种实施方式中,也可以由日志检索模块204根据告警信息进行检索,从日志原文数据库Kafka中检索告警事件对应的日志数据。
本申请实施例提供的一种日志管理方法,首先采集一个或多个应用程序在运行过程中产生的日志的日志数据;若监控到存在满足预设异常告警条件的日志,则生成告警事件,告警事件用于指示采集到的日志中存在异常日志;再根据告警事件,生成告警信息,告警信息用于指示异常日志中的异常内容;最后根据告警信息,对采集到的日志数据进行检索,获得异常日志的日志数据。通过本实施例提供的方法,可以对日志进行统一管理,从而提升日志管理效率。
图5为本申请另一实施例提供的日志管理方法的流程图。如图5所示,本实施例提供的日志管理方法可以包括以下步骤:
S501、实时采集一个或多个应用程序在运行过程中产生的日志的日志数据,实时存储采集到的日志的日志数据到第一存储装置中。
其中,实时采集一个或多个应用程序在运行过程中产生的日志的日志数据的步骤与图4中S401类似,具体可参考图4提供的实施例,此处不再赘述。
在一种实施方式中,第一存储装置可以为Kafka系统。
具体的,为方便理解,请参考图3,在Filebeat利用日志采集程序从电子设备中采集电子设备运行中产生的日志的日志数据后,将收集到的日志数据按预设队列形式保存在Kafka中。
S502、通过消费日志,确定是否存在满足预设异常告警条件的日志;
若存在,则生成告警事件。
请继续参考图3,Flink模块通过第一消费接口(consume)209接入日志收集模块201中的Kafka系统。具体的,Flink模块通过消费接口209按照预设日志模型和预设处理过程,实时、流式地消费来自Kafka系统的日志数据。将消费后的日志数据存储在TSDB中,利用Argus读取存储在TSDB中的日志数据,确定是否存在满足预设异常告警条件的日志。
若确定TSDB中的日志数据存在满足预设异常告警条件的日志,则生成告警事件。
其中,生成告警事件的步骤与图4中S402类似,具体可参考图4提供的实施例,此处不再赘述。
S503、根据告警事件获取告警信息,根据告警信息获取异常日志的反查凭据。
其中,根据告警事件获取告警信息的过程与图4中S403类似,具体可参考图4提供的实施例,此处不再赘述。
在一些实施例中,反查凭据可以包括以下至少一种:
日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳以及条件谓词,条件谓词是发起日志检索的关键字键值对等。
下面结合图3具体说明根据告警信息获取异常日志的反查凭据的过程。根据告警信息获取异常日志的反查凭据,其中,还可以将反查凭据写入到反查凭据库210中,并获取反查凭据对应的反查凭据ID。
S504、根据反查凭据进行检索,获得异常日志的日志数据。
请继续参考图3,在一种实施方式中,将告警信息和反查凭据ID发送至运维人员,由运维人员根据告警信息,通过反查凭据ID从反查凭证库210中定位反查凭证,从而根据反查凭证从日志原文数据库Kafka中查询告警事件对应的日志数据。
在另一种实施方式中,也可以由日志检索模块204根据反查凭据及告警信息进行检索,从日志原文数据库Kafka中检索告警事件对应的日志数据。
具体的,从日志原文数据库Kafka中检索告警事件对应的日志数据可以进一步包括以下步骤:
(1)根据条件谓词,在Kafka中对采集到的日志进行检索;
(2)若检测到满足如下至少一项:日志数据的存储路径、日志数据的指针偏移量、日志数据的时间戳的日志数据,则获取异常日志对应的日志数据。
本申请实施例提供的一种日志管理方法,首先实时采集一个或多个应用程序在运行过程中产生的日志的日志数据,实时存储采集到的日志的日志数据到第一存储装置中;通过消费日志,确定是否存在满足预设异常告警条件的日志,若存在,则生成告警事件;根据告警事件获取告警信息,根据告警信息获取异常日志的反查凭据;最后,根据反查凭据进行检索,获得异常日志的日志数据。通过本实施例提供的方法,可以对日志进行统一管理,从而提升日志管理效率。另外,通过以上方法可以提供日志收集服务、日志监控服务、告警分析服务以及日志检索服务,进一步提升日志管理效率。
图6为本申请一实施例提供的服务器的结构示意图。参照图6,服务器60包括处理组件601,其进一步包括一个或多个处理器,以及由存储器602所代表的存储器资源,用于存储可由处理组件601的执行的指令,例如应用程序。存储器602中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件601被配置为执行指令,以执行如图4、图5所示的方法实施例,具体参见上述方法实施例中的说明,此处不再赘述。
服务器60还可以包括一个有线或无线网络接口603被配置为将服务器60连接到网络,和一个输入输出(I/O)接口604。服务器60可以操作基于存储在存储器602的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员可以理解的是,图6中示出的服务器的结构并不构成对本服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时用于实现如上任一实施例的优化方法。
在上述的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称:CPU),也可以是数字事件处理器(Digital Signal Processor,简称:DSP)、专用集成电路(Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种日志管理方法,其特征在于,包括:
采集一个或多个应用程序在运行过程中产生的日志的日志数据;
若监控到存在满足预设异常告警条件的日志,则生成告警事件,所述告警事件用于指示采集到的日志中存在异常日志;
根据所述告警事件,生成告警信息,所述告警信息用于指示所述异常日志中的异常内容;
根据所述告警信息,对采集到的日志数据进行检索,获得所述异常日志的日志数据。
2.根据权利要求1所述的方法,其特征在于,采集一个或多个应用程序在运行过程中产生的日志的日志数据,包括:
实时采集一个或多个应用程序在运行过程中产生的日志的日志数据;
以及实时存储采集到的所述日志的日志数据到第一存储装置中。
3.根据权利要求2所述的方法,其特征在于,若监控到存在满足预设异常告警条件的日志,则生成告警事件,包括:
通过消费所述日志,确定是否存在满足预设异常告警条件的日志;
若存在,则生成所述告警事件。
4.根据权利要求3所述的方法,其特征在于,所述根据所述告警信息,对采集到的日志进行检索,获得所述异常日志的日志数据,包括:
根据所述告警信息获取所述异常日志的反查凭据;
根据反查凭据进行检索,获得所述异常日志的日志数据。
5.根据权利要求4所述的方法,其特征在于,所述反查凭据包括以下至少一种:
所述日志数据的存储路径、所述日志数据的指针偏移量、所述日志数据的时间戳以及条件谓词,所述条件谓词是发起日志检索的关键字键值对。
6.根据权利要求5所述的方法,其特征在于,所述根据反查凭据进行反查,对采集到的日志进行检索,获得所述异常日志的日志数据,包括:
根据所述条件谓词,对采集到的日志进行检索;
若检测到满足如下至少一项:所述日志数据的存储路径、所述日志数据的指针偏移量、所述日志数据的时间戳的日志数据,则获取所述异常日志对应的日志数据。
7.根据权利要求3-6任一项所述的方法,其特征在于,还包括:
对已完成消费的日志的日志数据以时序数据格式,写入第二存储装置中。
8.一种日志管理平台,其特征在于,包括:
日志收集模块,用于采集一个或多个应用程序在运行过程中产生的日志的日志数据;
日志监控模块,用于在若监控到存在满足预设异常告警条件的日志,则生成告警事件,所述告警事件用于指示采集到的日志中存在异常日志;
告警分析模块,用于生成告警信息,所述告警信息用于指示所述异常日志中的异常内容;
日志检索模块,用于根据所述告警信息,对采集到的日志进行检索,获得所述异常日志的日志数据。
9.一种服务器,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的日志管理方法。
CN202010757970.1A 2020-07-31 2020-07-31 日志管理方法、平台、服务器及存储介质 Pending CN111881011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010757970.1A CN111881011A (zh) 2020-07-31 2020-07-31 日志管理方法、平台、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010757970.1A CN111881011A (zh) 2020-07-31 2020-07-31 日志管理方法、平台、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN111881011A true CN111881011A (zh) 2020-11-03

Family

ID=73204800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010757970.1A Pending CN111881011A (zh) 2020-07-31 2020-07-31 日志管理方法、平台、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111881011A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380105A (zh) * 2020-11-23 2021-02-19 华人运通(上海)云计算科技有限公司 日志收集方法、装置、系统、设备、存储介质及插件
CN113177023A (zh) * 2021-04-19 2021-07-27 杭州海康威视系统技术有限公司 一种日志检索方法、装置及电子设备
CN113254308A (zh) * 2021-05-19 2021-08-13 中国联合网络通信集团有限公司 日志处理方法及设备
CN113342608A (zh) * 2021-06-08 2021-09-03 中国建设银行股份有限公司 流式计算引擎任务的监控方法及装置
CN114006727A (zh) * 2021-09-28 2022-02-01 北京六方云信息技术有限公司 告警关联分析方法、装置、设备及存储介质
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质
CN116599822A (zh) * 2023-07-18 2023-08-15 云筑信息科技(成都)有限公司 一种基于日志采集事件的故障告警治理方法
CN117194175A (zh) * 2023-11-02 2023-12-08 广州嘉为科技有限公司 一种日志告警监控方法、装置及计算机存储介质
WO2024001656A1 (zh) * 2022-06-29 2024-01-04 中兴通讯股份有限公司 日志异常的检测方法、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682351A (zh) * 2017-10-20 2018-02-09 携程旅游网络技术(上海)有限公司 网络安全监控的方法、系统、设备及存储介质
CN108737170A (zh) * 2018-05-09 2018-11-02 中国银行股份有限公司 一种批量日志异常数据告警方法及装置
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN110750426A (zh) * 2019-10-30 2020-02-04 北京明朝万达科技股份有限公司 服务状态监测方法、装置、电子设备及可读存储介质
CN110912753A (zh) * 2019-12-11 2020-03-24 中山大学 一种基于机器学习的云安全事件实时检测系统及方法
CN110990218A (zh) * 2019-11-22 2020-04-10 深圳前海环融联易信息科技服务有限公司 基于海量日志的可视化与告警的方法、装置及计算机设备
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107682351A (zh) * 2017-10-20 2018-02-09 携程旅游网络技术(上海)有限公司 网络安全监控的方法、系统、设备及存储介质
CN108737170A (zh) * 2018-05-09 2018-11-02 中国银行股份有限公司 一种批量日志异常数据告警方法及装置
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN110750426A (zh) * 2019-10-30 2020-02-04 北京明朝万达科技股份有限公司 服务状态监测方法、装置、电子设备及可读存储介质
CN110990218A (zh) * 2019-11-22 2020-04-10 深圳前海环融联易信息科技服务有限公司 基于海量日志的可视化与告警的方法、装置及计算机设备
CN110912753A (zh) * 2019-12-11 2020-03-24 中山大学 一种基于机器学习的云安全事件实时检测系统及方法
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380105A (zh) * 2020-11-23 2021-02-19 华人运通(上海)云计算科技有限公司 日志收集方法、装置、系统、设备、存储介质及插件
CN113177023A (zh) * 2021-04-19 2021-07-27 杭州海康威视系统技术有限公司 一种日志检索方法、装置及电子设备
CN113254308A (zh) * 2021-05-19 2021-08-13 中国联合网络通信集团有限公司 日志处理方法及设备
CN113342608A (zh) * 2021-06-08 2021-09-03 中国建设银行股份有限公司 流式计算引擎任务的监控方法及装置
CN113342608B (zh) * 2021-06-08 2024-06-21 中国建设银行股份有限公司 流式计算引擎任务的监控方法及装置
CN114006727A (zh) * 2021-09-28 2022-02-01 北京六方云信息技术有限公司 告警关联分析方法、装置、设备及存储介质
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质
CN114553682B (zh) * 2022-02-25 2023-08-15 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质
WO2024001656A1 (zh) * 2022-06-29 2024-01-04 中兴通讯股份有限公司 日志异常的检测方法、设备及存储介质
CN116599822A (zh) * 2023-07-18 2023-08-15 云筑信息科技(成都)有限公司 一种基于日志采集事件的故障告警治理方法
CN116599822B (zh) * 2023-07-18 2023-10-20 云筑信息科技(成都)有限公司 一种基于日志采集事件的故障告警治理方法
CN117194175A (zh) * 2023-11-02 2023-12-08 广州嘉为科技有限公司 一种日志告警监控方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
US11775501B2 (en) Trace and span sampling and analysis for instrumented software
US20200201699A1 (en) Unified error monitoring, alerting, and debugging of distributed systems
US8412696B2 (en) Real time searching and reporting
EP4099170B1 (en) Method and apparatus of auditing log, electronic device, and medium
CN111984499A (zh) 一种大数据集群的故障检测方法和装置
JP2010506311A (ja) 時系列検索エンジン
CN112307057A (zh) 数据的处理方法及装置、电子设备、计算机存储介质
Roschke et al. A flexible and efficient alert correlation platform for distributed ids
US10657099B1 (en) Systems and methods for transformation and analysis of logfile data
CN107463479A (zh) 一种社交数据监控系统
CN111046022A (zh) 一种基于大数据技术的数据库审计方法
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN111400361A (zh) 数据实时存储方法、装置、计算机设备和存储介质
CN110941530A (zh) 监控数据的获取方法、装置、计算机设备和存储介质
CN113704790A (zh) 一种异常日志信息汇总方法及计算机设备
CN112306700A (zh) 一种异常rpc请求的诊断方法和装置
US10997171B2 (en) Database performance analysis based on a random archive
CN112069162A (zh) 流计算的数据处理方法、装置、计算机设备和存储介质
CN113297245A (zh) 获取执行信息的方法及装置
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN112543127A (zh) 一种微服务架构的监控方法及装置
Makanju et al. An evaluation of entropy based approaches to alert detection in high performance cluster logs
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN116628042A (zh) 数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination