CN114584457A - 一种用于系统的日志分析报警方法及平台 - Google Patents

一种用于系统的日志分析报警方法及平台 Download PDF

Info

Publication number
CN114584457A
CN114584457A CN202210281653.6A CN202210281653A CN114584457A CN 114584457 A CN114584457 A CN 114584457A CN 202210281653 A CN202210281653 A CN 202210281653A CN 114584457 A CN114584457 A CN 114584457A
Authority
CN
China
Prior art keywords
log
logs
analysis
cluster
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210281653.6A
Other languages
English (en)
Inventor
戈子根
李春龙
郗亚静
刘亚维
张强
刘一男
朱静波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiehui Technology Co Ltd
Original Assignee
Beijing Jiehui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiehui Technology Co Ltd filed Critical Beijing Jiehui Technology Co Ltd
Priority to CN202210281653.6A priority Critical patent/CN114584457A/zh
Publication of CN114584457A publication Critical patent/CN114584457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/0253Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using browsers or web-pages for accessing management information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及涉及计算机网络技术领域,具体涉及一种用于系统的日志分析报警方法及平台,包括以下步骤:实时采集系统日志,并发送到集群中;对集群中的日志进行实时分析处理,若出现异常则发出报警通知,并将分析结果存储于数据库中。本发明通过实时采集日志数据,且采集后进行实时分析,因此可以及时发现系统异常情况,并及时报警及处理。

Description

一种用于系统的日志分析报警方法及平台
技术领域
本发明涉及计算机技术领域,特别涉及一种用于系统的日志分析报警方法及平台。
背景技术
网络设备、系统及服务程序等,在运作时都会产生一个叫log的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。通过对日志文件进行分析,可以获取很多有用的信息,因此对于系统产生的日志进行分析很有必要。现有技术中存在多种日志分析平台,但几乎都有一个共同的特点,就是先收集日志,然后存储于数据库中,需要分析时再从数据库中调取日志数据来进行分析,这样的处理方式存在一定的技术缺陷,例如不能及时发现异常情况并报警,经常出现用户发现异常再临时解决的情况,干扰业务的顺畅进行,也使得用户的体验差。
发明内容
本发明的目的在于提供一种用于系统的日志分析报警方法及平台,可以及时发现异常并报警。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种用于系统的日志分析报警方法,包括以下步骤:
实时采集系统日志,并发送到集群中;
对集群中的日志进行实时分析处理,若出现异常则发出报警通知,并将分析结果存储于数据库中。
在进一步优化的方案中,在日志发送到集群中之后,还包括步骤:将集群中的日志传输到所述数据库中存储。本方案中,通过对采集的日志数据进行直接存储,保留了日志原始数据,可以供后续其他目的的使用。
在进一步优化的方案中,在采集系统日志之前,还包括步骤:在各个系统中置入统一的日志包,以便于实现收集该系统中的日志。针对于体量较大的应用,通常是通过多个应用服务器来满足负载需求,因为日志数据会分布在不的系统中,本方案中通过在各个系统中提前置入统一的日志包,继而实现从各个系统中收集日志数据的目的,然后汇总并进行可视化展示,为日志的查看带来了极大的便利。
另一方面,本发明实施例还提供了一种用于系统的日志分析报警平台,包括:
日志采集模块,用于实时采集系统日志;
集群模块,用于实时接收日志采集模块所发送的日志数据;
日志分析模块,用于对集群中的日志进行实时分析处理;
报警模块,用于当日志分析模块发现异常时发出报警通知;
数据库,用于存储日志分析模块输出的分析结果。
与现有技术相比,本发明通过实时采集日志数据,且采集后进行实时分析,因此可以及时发现系统异常情况,并及时报警及处理,不仅可以使得问题得到及时解决,而且可以提升用户体验。另外,采集的日志数据同时也会存储在数据库中,使得原始数据得以保留,以供其他应用所需。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例中用于系统的日志分析报警方法的流程图。
图2为日志可视化展示的实现流程图。
图3为实施例中用于系统的日志分析报警平台的结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本实施例提供的用于系统的日志分析报警方法,包括以下步骤:
实时采集系统日志,并发送到集群中。
对集群中的日志进行实时分析处理,若出现异常则发出报警通知,并将分析结果存储于数据库中。
传统的日志数据分析处理,是先将采集的日志数据存储在数据库中,当有分析需求时才从数据库中调取日志数据进行分析,因此对于故障节点(熔断信息)不能及时发现及定位,且是由人工进行排查才能找到故障点,效率低,因此会严重影响业务的继续进行。例如A服务与B服务相互配合才能完成例如支付功能,假设B服务出现故障,当A服务调用B服务时无法调用,因此会导致一直处于在支付的状态。
本方案中,在收集到日志数据后,马上进行分析处理,因此如果应用服务中某个节点存在故障,那么就会马上被发现,继而进行及时处理。仍以上述举例为例,当B服务出现故障时会被及时发现,继而A服务无法调用B服务后即会及时向前端反馈,及时终止当前服务,不会出现一直等待调用B服务、一直处于支付状态的情况。
因此,通过本发明上述方案,可以及时发现是否出现故障、故障位置、故障发生时间、故障时长及恢复时间等信息,而且是由传统的人工确认方式转为机器自动感知,发现故障后及时通知业务人员及时解决,故障恢复快,用户体验好。另外,实时分析的结果会存储在数据库中,业务人员可以通过web系统直接查看。
另外,通过上述方案还可以实现业务耗时分析,方便识别耗时较长环节。具体的,日志中包含整个微服务的调用日志,所以可以根据日志中记载的记录计算出每个调用使用的具体时间。比如用户(客户端)发起请求,这时应用系统日志里就有了客户端发起请求相关信息(例如发起时间),到了服务端也有相关信息(例如接到消息时间,处理时间,再发送到别的服务端的时间),根据这一次调用的整个链路即可计算出业务的耗时时间。
需要注意的是,对于日志数据的具体分析方式本方案中没有限定,用户甚至可以自定义分析规则、预警规则等,以实现对系统状态的全面掌控,保障用户体验。例如,当发现应用系统有网络波动或者应用系统有异常时,监控告警到企业微信群时,在告警群里可以看到当前告警原因、告警时候的日志及系统(如cpu,内存,磁盘,网络)相关指标、告警服务器IP地址、告警系统名称、以及业务相关指标(比如失败率)、失败原因、失败码、失败笔数等。
在实时采集系统日志的步骤中,采集的日志数据可能是来自于同一个应用系统,也可能是来自于多个应用系统。为了实现对不同应用系统中日志数据的采集,事先在各个应用系统中置入了统一的日志包,例如应用系统是java语言开发的就用jar包。日志包的作用就是采集和发送相关数据到分析平台,如果预先没有事先置入日志包将无法实现日志采集。
目前,查看日志的方式较为简单,登录一台服务器,找到固定目录的一个日志文件即可查看。然而,当应用的体量较大时,往往一个应用服务器很难满足负载需求,从而会安装多个web应用服务器同时产生不同目录下的多个日志文件,甚至分散到不同主机上的不同目录下,负载均衡往往更多是随机轮询web应用服务器,如果为了找日志中的有效信息,需要在不同主机不同目录下的多个日志间不断切换,这就为日志的查看工作带来了极大的不便。本方案中,通过在不同应用系统中预先置入统一标准的日志包,即可实现在不同应用系统中收集日志数据,继而汇总并进行可视化展示,这就使得日志的查看变得非常方便。如图2所示,客户端只需要登录web服务器,web端从数据库中提取出汇总的日志数据,并进行可视化展示,相关业务人员无需在不同主机不同目录下切换。因此,针对于此种情况,在实时采集到系统日志后,需要将日志存储在数据库中,也就是说,采集到日志数据后,一方面进行实时分析,另一方面将集群中的日志数据传输到数据库中进行存储,如图1所示。
对于日志数据的采集,本方案中是基于log4j2进行日志的采集,然后发送到kafka集群中,因此,对于日志的分析,也是利用kafkastream进行分析处理。本方案中采用kafka集群的目的是避免其他软件系统例如实时流系统的安装,可以极大地节省成本。当然地,也可以采用其他实施方式,例如spark、streaming、flink等流处理框架都可实施。
为了不影响系统的性能,log4j2优选采用异步方式将日志信息发送到kafka集群中,即日志输出语句与业务逻辑语句并不是同一个线程中运行,而是专文的线程用于进行日志输出操作,处理业务逻辑的主线程不用等待即可执行后续业务逻辑。
如图3所示,基于相同的发明构思,本实施例中同时提供了一种用于系统的日志分析报警平台,以实现日志数据的实时采集与分析。具体地,该日志分析报警平台包括以下功能实现模块:
日志采集模块,用于实时采集系统日志;
集群模块,用于实时接收日志采集模块所发送的日志数据;
日志分析模块,用于对集群中的日志进行实时分析处理;
报警模块,用于当日志分析模块发现异常时发出报警通知;
数据库,用于存储日志分析模块输出的分析结果,以及存储日志采集模块所采集到的日志数据。
针对于各个模块的具体实现方式或可替代实施方式,请参见前面的相关描述,此处不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种用于系统的日志分析报警方法,其特征在于,包括以下步骤:
实时采集系统日志,并发送到集群中;
对集群中的日志进行实时分析处理,若出现异常则发出报警通知,并将分析结果存储于数据库中。
2.根据权利要求1所述的用于系统的日志分析报警方法,其特征在于,在日志发送到集群中之后,还包括步骤:将集群中的日志传输到所述数据库中存储。
3.根据权利要求1所述的用于系统的日志分析报警方法,其特征在于,在采集系统日志之前,还包括步骤:在各个系统中置入统一的日志包,以便于实现收集该系统中的日志。
4.根据权利要求1所述的用于系统的日志分析报警方法,其特征在于,所述实时采集系统日志的步骤中,基于log4j2进行日志的采集。
5.根据权利要求1所述的用于系统的日志分析报警方法,其特征在于,所述对集群中的日志进行实时分析处理的过程中,利用kafka stream进行分析处理。
6.一种用于系统的日志分析报警平台,其特征在于,包括:
日志采集模块,用于实时采集系统日志;
集群模块,用于实时接收日志采集模块所发送的日志数据;
日志分析模块,用于对集群中的日志进行实时分析处理;
报警模块,用于当日志分析模块发现异常时发出报警通知;
数据库,用于存储日志分析模块输出的分析结果。
7.根据权利要求6所述的用于系统的日志分析报警平台,其特征在于,所述数据库还用于直接存储日志采集模块所采集到的日志数据。
CN202210281653.6A 2022-03-22 2022-03-22 一种用于系统的日志分析报警方法及平台 Pending CN114584457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210281653.6A CN114584457A (zh) 2022-03-22 2022-03-22 一种用于系统的日志分析报警方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210281653.6A CN114584457A (zh) 2022-03-22 2022-03-22 一种用于系统的日志分析报警方法及平台

Publications (1)

Publication Number Publication Date
CN114584457A true CN114584457A (zh) 2022-06-03

Family

ID=81783524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210281653.6A Pending CN114584457A (zh) 2022-03-22 2022-03-22 一种用于系统的日志分析报警方法及平台

Country Status (1)

Country Link
CN (1) CN114584457A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682119A (zh) * 2016-12-08 2017-05-17 杭州销冠网络科技有限公司 基于http服务切面与日志系统的异步数据同步方法和系统
CN107517131A (zh) * 2017-08-31 2017-12-26 四川长虹电器股份有限公司 一种基于日志采集的分析预警方法
CN109284251A (zh) * 2018-08-14 2019-01-29 平安普惠企业管理有限公司 日志管理方法、装置、计算机设备以及存储介质
CN110224865A (zh) * 2019-05-30 2019-09-10 宝付网络科技(上海)有限公司 一种基于流式处理的日志告警系统
CN110690984A (zh) * 2018-07-05 2020-01-14 上海宝信软件股份有限公司 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN113094225A (zh) * 2020-01-09 2021-07-09 北京搜狗科技发展有限公司 一种异常日志监控方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682119A (zh) * 2016-12-08 2017-05-17 杭州销冠网络科技有限公司 基于http服务切面与日志系统的异步数据同步方法和系统
CN107517131A (zh) * 2017-08-31 2017-12-26 四川长虹电器股份有限公司 一种基于日志采集的分析预警方法
CN110690984A (zh) * 2018-07-05 2020-01-14 上海宝信软件股份有限公司 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN109284251A (zh) * 2018-08-14 2019-01-29 平安普惠企业管理有限公司 日志管理方法、装置、计算机设备以及存储介质
CN110224865A (zh) * 2019-05-30 2019-09-10 宝付网络科技(上海)有限公司 一种基于流式处理的日志告警系统
CN113094225A (zh) * 2020-01-09 2021-07-09 北京搜狗科技发展有限公司 一种异常日志监控方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PAULTRONCONE 等: "《bash网络安全运维》", 北京:机械工业出版社, pages: 103 - 104 *
刘祥: "基于Kafka的大数据流式处理分析系统", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN109714192B (zh) 一种监控云平台的监控方法及系统
CN111176879A (zh) 设备的故障修复方法及装置
US8352589B2 (en) System for monitoring computer systems and alerting users of faults
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
CN112350854B (zh) 一种流量故障定位方法、装置、设备及存储介质
JP2008217735A (ja) 障害解析システム、方法、及び、プログラム
CN110620688A (zh) 一种业务综合监控方法、系统及装置
CN113760652A (zh) 基于应用的全链路监控的方法、系统、设备和存储介质
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN114327967A (zh) 设备修复方法及装置、存储介质、电子装置
CN106789335B (zh) 一种用于处理信息的方法和系统
CN101677278A (zh) 网络信息系统可用性的监控方法及系统
CN112214459A (zh) 基于事件机制的资源处理流程日志收集系统
US20060053021A1 (en) Method for monitoring and managing an information system
CN115987827B (zh) 一种设备监测方法、装置、电子设备及可读介质
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
JP2012181744A (ja) 分散ファイルシステムにおける運用監視システム及び運用監視方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN112256470A (zh) 故障服务器定位方法及装置、存储介质及电子设备
CN110011845B (zh) 日志采集方法及系统
CN109951313B (zh) 一种Hadoop云平台的监控装置及方法
CN115174350B (zh) 一种运维告警方法、装置、设备及介质
CN114584457A (zh) 一种用于系统的日志分析报警方法及平台
CN114640567A (zh) Apache日志的分析方法及装置
CN114598622A (zh) 数据监控方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination