CN116594840A - 基于elk的日志故障采集与分析方法、系统、设备及介质 - Google Patents

基于elk的日志故障采集与分析方法、系统、设备及介质 Download PDF

Info

Publication number
CN116594840A
CN116594840A CN202310593606.XA CN202310593606A CN116594840A CN 116594840 A CN116594840 A CN 116594840A CN 202310593606 A CN202310593606 A CN 202310593606A CN 116594840 A CN116594840 A CN 116594840A
Authority
CN
China
Prior art keywords
log
data
elk
analysis
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310593606.XA
Other languages
English (en)
Inventor
彭星辉
徐云龙
翁元
石利国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Mingxiao Intelligent Manufacturing Technology Co ltd
Original Assignee
Nanjing Mingxiao Intelligent Manufacturing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Mingxiao Intelligent Manufacturing Technology Co ltd filed Critical Nanjing Mingxiao Intelligent Manufacturing Technology Co ltd
Priority to CN202310593606.XA priority Critical patent/CN116594840A/zh
Publication of CN116594840A publication Critical patent/CN116594840A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于ELK的日志故障采集与分析方法、系统及存储介质,包括中心设备以及连接的多个采集端,该方法包括以下步骤:中心设备接收所述采集端采集的日志数据;采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;将所述日志规范数据存储到ElasticSearch;根据设定的异常关键字对存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果;采用Kibana对所述分析结果进行可视化。与现有技术相比,本发明具有快速定位以及显著提高故障排查效率等优点。

Description

基于ELK的日志故障采集与分析方法、系统、设备及介质
技术领域
本发明涉及日志管理领域,尤其是涉及一种基于ELK的日志故障采集与分析方法、系统及存储介质。
背景技术
随着乘客信息(PIDS)系统的扩展、创新,对应产生的日志也越来越多,对日志的管理也就变得尤为重要,那么我们必然会面临以下问题:1)分布式日志数据集中式查询和管理;2)系统监控,包含系统硬件和应用各个组件的监控;3)故障排查;4)安全信息和事件管理;5)报表功能。
目前,我们已经面临了如下问题:1)故障排查效率低:需要找到故障程序所在服务器的ip地址,再远程登录到对应服务器上,然后去拷贝应用程序目录下的对应日志,再在用文本编辑工具打开日志文件,查找故障原因,如果文件过大,大部分文本编辑工具还无法打开,打开后再通过文本编辑器搜索故障日志,太过繁琐。
2)通过syslog采集日志时CPU占用率过高,而且对日志格式要求严格。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种快速定位以及显著提高故障排查效率的一种基于ELK的日志故障采集与分析方法、系统、设备及介质。
本发明的目的可以通过以下技术方案来实现:
本发明的第一方面,提供了一种基于ELK的日志故障采集与分析方法,包括中心设备以及连接的多个采集端,该方法包括以下步骤:
中心设备接收所述采集端采集的日志数据;
采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
将所述日志规范数据存储到ElasticSearch;
根据设定的异常关键字对所述存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果;
采用Kibana对所述分析结果进行可视化。
进一步地,采用Beats采集所述日志数据。
进一步地,所述Beats包括Filebeat,Filebeat采集所述日志数据。
进一步地,采用Kafka接收所述日志数据。
进一步地,还包括配置流控规则。
进一步地,采用Sentinel对流控规则进行配置。
本发明的第二方面,提供了一种基于ELK的日志故障采集与分析系统,包括中心设备以及连接的多个采集端,该中心设备包括:
数据接收模块,用于中心设备接收所述采集端采集的日志数据;
格式转换模块,用于采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
数据存储模块,用于将所述日志规范数据存储到ElasticSearch;
数据分析模块,用于根据设定的异常关键字对所述存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果。
可视化模块,用于采用Kibana对所述分析结果进行可视化。
本发明的第三方面,提供了一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于ELK的日志故障采集与分析方法的指令。
本发明的第四方面,提供了一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述的基于ELK的日志故障采集与分析方法的指令。
与现有技术相比,本发明具有以下有益效果:
(1)本发明将采集的所有日志数据在中心汇总,并对汇总后的数据进行处理,并根据异常关键字对日志规范数据进行检索并分析,能够实现故障自动分析告警,自动定位,降低排查时间,节省运维成本。通过采用;另外,将规则的日志数据进行规范化处理,配置方式实现了日志格式统一,便于上层应用解析。
(2)本发明采用日志中心化的方式,能够实现快速定位,使得搜索及排查更简单。
(3)本发明采用的ElasticSearch提供灵活、多维度的统计分析能力,实现查看监控按照地域、业务模块等灵活的进行统计分析,还具有支持列存储、高压缩比、副本数按需调整等能力,可实现较低存储成本。
(4)本发明采用Beats采集日志数据,Beats为轻量型数据采集器,占用资源少,相比现有技术中采用syslog采集日志数据,CPU占用率降低。
(5)本发明采用Sentinel对流控规则进行配置,Sentinetl流量防卫兵监控应用流量的QPS或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被大量的瞬间流量高峰冲垮,从而保障应用的高可用性,通过配置相应规则达到流控目的。
附图说明
图1为本发明实施例提供的一种的流程示意图;
图2为本发明实施例提供的一种的原理结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
ELK是指三个开源软件的缩写,分别为Elasticsearch、Logstash和Kibana。Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能,Logstash主要是用于日志的搜集、分析、过滤;Kibana是一个开源的工具,可为Logstash和ElasticSearch提供的日志分析友好的Web界面,也可以帮助汇总、分析和搜索重要数据日志。
实施例1
本实施例提供一种基于ELK的日志故障采集与分析方法,包括中心设备以及连接的多个采集端,如图1所示,该方法包括以下步骤:
S1、中心设备接收所述采集端采集的日志数据;
S2、采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
S3、将所述日志规范数据存储到ElasticSearch;
S4、根据设定的异常关键字对存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果;
S5、采用Kibana对所述分析结果进行可视化。
基于上述方法步骤,本实施例以乘客信息(Passenger Information DisplaySystem,PIDS)系统为应用场景进行详细说明,原理结构图如图2所示,具体如下:
S1、中心设备接收所述采集端采集的日志数据。
本实施例将中心、车站、车载等硬件/软件的信息通过Beats进行采集,Beats包含以下的数据采集功能:Filebeat:采集日志文件,Metricbeat:采集指标,Packetbeat:采集网络数据,采用Beats从成百上千台设备收集日志数据及指标数据,并向中心发送。以往采用syslog采集日志数据,会导致CPU占用率过高,而且对日志格式要求严格,而采用Beats采集时,能够降低CPU占用率。
本实施例中采用Kafka接收成百上千的设备突然到来的大量所述日志数据和指标数据,通过采用Sentinel配置流控规则,Sentinetl流量防卫兵监控应用流量的QPS(QueryPer Second,每秒查询率)或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被大量的瞬间流量高峰冲垮,从而保障应用的高可用性。流控规则主要有熔断降级规则、黑白名单规则、热点参数规则,通过配置相应规则达到流控目的。因此能够在中心以稳定的速度逐步处理,起到“削峰填谷”的效果,从而避免流量突刺造成系统负载过高。
S2、采用Logstash将所述日志数据转化为规范格式,获得日志规范数据。
由于获取的日志数据是不规则的,通过采用Logstash消费Kafka接收的所有数据,将不规则的日志数据进行格式化,获得日志规范数据,并将所有数据返回到Logstash。这种配置方式实现了日志格式统一,便于上层应用解析。
S3、将所述日志规范数据存储到ElasticSearch。
将日志规范数据存储到ElasticSearch,ElasticSearch提供灵活、多维度的统计分析能力,实现查看监控按照地域、业务模块等灵活的进行统计分析。另外,ElasticSearch支持列存储、高压缩比、副本数按需调整等能力,可实现较低存储成本。
此外,将所有设备或软件的状态及性能指标存储到MySQL。
S4、根据设定的异常关键字对所述存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果。
本实施例中,采用分析APP根据设定的“异常关键字”去ElasticSearch中检索内容,分析APP收到ElasticSearch返回的数据,对异常信息进行分析,获得分析结果,根据该分析结果判断是否产生告警。比如异常信息(通讯时断时连)持续一分钟内超过一定次数,则产生告警。根据“异常关键字”对日志规范数据进行检索并分析,能够实现故障自动分析告警,自动定位,降低排查时间,节省运维成本。此外,分析APP将告警信息存储到MySQL中。
S5、采用Kibana将所述分析结果进行可视化。
当发生异常时,根据上述步骤的分析结果采用Kibana将分析结果进行可视化,能够方便管理人员直观看到故障发生的位置,降低排查时间。
可以看出,本实施例中,将采集的所有日志数据在中心汇总,并对汇总后的数据进行分析,能够使得搜索及排查更简单。
实施例2
本实施例提供了一种基于ELK的日志故障采集与分析系统,包括中心设备以及连接的多个采集端,该中心设备包括:
数据接收模块,用于中心设备接收所述采集端采集的日志数据;
格式转换模块,用于采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
数据存储模块,用于将所述日志规范数据存储到ElasticSearch;
数据分析模块,用于根据设定的异常关键字对所述存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果;
可视化模块,用于采用Kibana将所述分析结果进行可视化。
实施例3
本实施例提供了一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于ELK的日志故障采集与分析方法的指令。
实施例4
本实施例提供了一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行上述的基于ELK的日志故障采集与分析方法的指令。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于ELK的日志故障采集与分析方法,其特征在于,包括中心设备以及连接的多个采集端,该方法包括以下步骤:
中心设备接收所述采集端采集的日志数据;
采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
将所述日志规范数据存储到ElasticSearch;
根据设定的异常关键字对存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果;
采用Kibana对所述分析结果进行可视化。
2.根据权利要求1所述的一种基于ELK的日志故障采集与分析方法,其特征在于,采用Beats采集所述日志数据。
3.根据权利要求2所述的一种基于ELK的日志故障采集与分析方法,其特征在于,所述Beats包括Filebeat,Filebeat采集所述日志数据。
4.根据权利要求1所述的一种基于ELK的日志故障采集与分析方法,其特征在于,采用Kafka接收所述日志数据。
5.根据权利要求1所述的一种基于ELK的日志故障采集与分析方法,其特征在于,该方法还包括配置流控规则。
6.根据权利要求4所述的一种基于ELK的日志故障采集与分析方法,其特征在于,采用Sentinel对流控规则进行配置。
7.一种基于ELK的日志故障采集与分析系统,其特征在于,包括中心设备以及连接的多个采集端,该中心设备包括:
数据接收模块,用于中心设备接收所述采集端采集的日志数据;
格式转换模块,用于采用Logstash将所述日志数据转化为规范格式,获得日志规范数据;
数据存储模块,用于将所述日志规范数据存储到ElasticSearch;
数据分析模块,用于根据设定的异常关键字对存储在ElasticSearch中的日志规范数据进行检索并分析,获得分析结果。
可视化模块,用于采用Kibana对所述分析结果进行可视化。
8.根据权利要求7所述一种基于ELK的日志故障采集与分析系统,其特征在于,还包括流控配置模块,用于配置流控规则。
9.一种电子设备,其特征在于,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-6任一所述的基于ELK的日志故障采集与分析方法的指令。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-6任一所述的基于ELK的日志故障采集与分析方法的指令。
CN202310593606.XA 2023-05-24 2023-05-24 基于elk的日志故障采集与分析方法、系统、设备及介质 Pending CN116594840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310593606.XA CN116594840A (zh) 2023-05-24 2023-05-24 基于elk的日志故障采集与分析方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310593606.XA CN116594840A (zh) 2023-05-24 2023-05-24 基于elk的日志故障采集与分析方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN116594840A true CN116594840A (zh) 2023-08-15

Family

ID=87605968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310593606.XA Pending CN116594840A (zh) 2023-05-24 2023-05-24 基于elk的日志故障采集与分析方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN116594840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033334A (zh) * 2023-10-08 2023-11-10 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033334A (zh) * 2023-10-08 2023-11-10 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统
CN117033334B (zh) * 2023-10-08 2023-12-22 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统

Similar Documents

Publication Publication Date Title
CN108763957B (zh) 一种数据库的安全审计系统、方法及服务器
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN109714192B (zh) 一种监控云平台的监控方法及系统
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
CN111176879A (zh) 设备的故障修复方法及装置
CN103491354A (zh) 一种系统运行监控可视化平台
CN101997925A (zh) 具有预警功能的服务器监控方法及其系统
CN103699111A (zh) 分布式监控系统的故障检测方法和装置
CN108521339A (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN113157994A (zh) 一种多源异构平台数据处理方法
CN112865311B (zh) 一种电力系统消息总线监视方法和装置
KR102580916B1 (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN116594840A (zh) 基于elk的日志故障采集与分析方法、系统、设备及介质
CN112699007A (zh) 监控机器性能的方法、系统、网络设备及存储介质
CN103763143A (zh) 基于存储服务器的设备异常报警的方法及系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN114167181B (zh) 监测本地和异地线路故障溯源的方法及系统
CN113472881B (zh) 在线终端设备的统计方法和装置
CN116126621A (zh) 大数据集群的任务监控方法及相关设备
CN113342596A (zh) 一种设备指标的分布式监控方法、系统及装置
CN113760669A (zh) 问题数据的告警方法及装置、电子设备、存储介质
WO2018192569A1 (zh) 设备监控方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination