CN115333929A - 一种基于集群的日志预警方法和相关设备 - Google Patents
一种基于集群的日志预警方法和相关设备 Download PDFInfo
- Publication number
- CN115333929A CN115333929A CN202210834294.2A CN202210834294A CN115333929A CN 115333929 A CN115333929 A CN 115333929A CN 202210834294 A CN202210834294 A CN 202210834294A CN 115333929 A CN115333929 A CN 115333929A
- Authority
- CN
- China
- Prior art keywords
- alarm
- monitoring
- log
- target
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012544 monitoring process Methods 0.000 claims abstract description 143
- 238000005259 measurement Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 9
- 230000008859 change Effects 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 241000380131 Ammophila arenaria Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种基于集群的日志预警方法和相关设备,方法包括:获取监听指令;根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;将所述告警信息发送至预先连接的报警终端。本发明能够提高基于集群的日志预警效率,快速实现告警。
Description
技术领域
本发明设计数据监控技术领域,特别涉及一种基于集群的日志预警方法和相关设备。
背景技术
在集群环境中,应用程序在运行过程中常常会发生一些运行错误,这些运行错误会影响到应用程序的运行,甚至应用程序出现卡顿、无法运行的情形。
目前流行的监控方法主要有以下三种:
1、将应用程序的日志收集到可视化界面,并采用“error”等关键词在可视化界面上寻找这些日志中可能存在报错信息的报错日志,并将这些报错日志发到处理人员处由处理人员进行处理。这种报错日志发送到处理人员处需要一段时间,而处理人员收到报错日志后一般按照日志到达的先后顺序进行处理,最新的报错日志需要等待一段时间才能被处理,但是在这段时间内,报错日志所对应的错误仍然存在,错误的解决实时性较低。
2、采用API接口采集报错信息和告警组件,这种方式虽然获取报错信息的速度较快,但是不同的应用程序的API接口不同,因此开发周期较长,此外,在产品迭代过程中也需要考虑API接口的利用问题,产品的研发和迭代时间较长。
3、仅对进程和端口等数据信息进行监控,虽然这些数据信息能够覆盖大多数的运行错误,但是仍然存在一部分信息被遗漏,因此不利于处理人员对错误相关的信息的收集。
发明内容
本发明要解决的技术问题在于目前对日志报错的监控预警效率不足,针对现有技术的不足,提供一种基于集群的日志预警方法和相关设备。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于集群的日志预警方法,所述方法包括:
获取监听指令,其中,所述监听指令包括目标变量和目标标签;
根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;
当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;
基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;
将所述告警信息发送至预先连接的报警终端。
所述基于集群的日志预警方法,其中,所述目标变量包括监听变量和告警变量,所述目标标签包括监听标签和告警标签;所述根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源包括:
基于预设的部署文件,对预设的运行环境进行初始化,得到监听环境和所述告警环境;
根据所述监听变量和所述监听标签,对所述监听环境进行监听参数配置,得到第一监听资源;以及,
根据所述告警变量和所述告警标签,对所述告警环境进行告警参数配置,得到第一告警资源。
所述基于集群的日志预警方法,其中,所述根据所述监听指令,生成第一监听资源和第一告警资源之后,还包括:
当监听参数配置失败或告警参数配置失败时,根据所述目标标量和所述目标标签,生成提示信息;
将所述提示信息发送至预先连接的部署终端。
所述基于集群的日志预警方法,其中,所述基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志和所述目标日志对应的告警信息包括:
根据所述度量标签,确定所述初选日志对应的监控指标和每一个所述监控指标对应的监控值;
基于所述第一告警资源,计算所述监控值对应的风险指标和风险值;
根据所述风险值,确定所述初选日志中的目标日志;
根据所述目标日志,生成告警信息。
所述基于集群的日志预警方法,其中,所述将所述告警信息发送至预先连接的报警终端包括:
根据所第一告警资源中的告警规则,确定所述报警终端与所述告警信息对应的目标终端;
将所述报警文件发送至所述目标终端。
所述基于集群的日志预警方法,其中,所述获取监听指令之前还包括:
获取部署文件,其中,所述部署文件包括变量信息,所述变量信息包括变量字段和每一个所述变量字段对应的标签值;
对所述变量信息进行选项化,得到变量选项;
当检测到针对所述变量选项的确定信息时,根据所述确定信息,生成监听指令。
所述基于集群的日志预警方法,其中,所述方法还包括:
当检测到针对所述变量选项的变更指令时,根据所述变更指令确定所述变量字段中的变更字段和变更标签;
根据所述变更字段和所述变更标签,生成第二监听资源和第二告警资源。
一种基于集群的日志预警装置,包括:
获取模块,用于获取监听指令,其中,所述监听指令包括目标变量和目标标签;
生成模块,用于根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;
第一确定模块,用于当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;
第二确定模块,用于基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;
发送模块,用于将所述告警信息发送至预先连接的报警终端。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于集群的日志预警方法中的步骤。
一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的基于集群的日志预警方法中的步骤。
有益效果:首先获取用于对集群的日志进行监听的监听指令,该监听指令中包含目标变量和目标标签,从而确定后续所要监听的对象,以生成用于监听的第一监听资源以及用于报警的第一告警资源。当检测到集群日志时,第一监听资源可对日志进行筛选,确定所需要监听的对象,也就是初选日志,而第一监听资源是根据目标变量和目标标签生成,因此,筛选后还可确定初选日志中目标变量、目标标签的性质、数量等因素,确定初选日志对应的度量标签。然后基于第一告警资源以及度量标签,可进一步确定初选日志的目标日志,以及目标日志对应的告警信息,告警信息可包含告警报告等形式,将其发送至报警终端。相对于以往先将日志显示出来再筛选,此方式在日志显示出来就进行了筛选和报警内容的确定,提高了报警的效率。此外,筛选和告警分开执行,工作分工,能够提高告警效率。
附图说明
图1为本发明提供的基于集群的日志预警方法的流程图。
图2为本发明提供的基于集群的日志预警方法的整体流程图。
图3为本发明提供的基于集群的日志预警方法中配置参数的流程图。
图4为本发明提供的基于集群的日志预警方法的告警信息的示意图。
图5为本发明提供的基于集群的日志预警方法的更新配置参数的流程图。
图6为本发明提供的基于集群的日志预警装置的结构示意图。
图7为本发明提供的终端设备的结构原理图。
具体实施方式
本发明提供一种基于集群的日志预警方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,本实施提供了一种基于集群的日志预警方法,为方便说明,以常见的服务器作为执行主体进行描述,此处的服务器可替换为平板、电脑等具有数据处理功能的设备,基于集群的日志预警方法包括以下步骤:
S10、获取监听指令。
具体地,监听指令为用于启动监听程序以及下发所需要监听的对象信息的指令。为了实现确定监听对象,监听指令中包括目标变量和目标标签。目标变量是指在运行过程中可能存在的变量,例如日志的服务器来源不同,应用程序来源不同,功能不同。目标标签是指日志上的标签,用于对日志表达的内容进行区分。例如一个监听指令中的目标变量为“服务器”,目标标签为“服务器1”,即所需要监听的对象为服务器1来源的日志。
由于应用程序在服务过程中存在更新迭代,在每次更新迭代过程中,都重新根据环境设置和目的设置目标变量和目标标签,则需要花费大量的时间,增加更新时间。因此在本实施例中,采用可视化的方式生成监听指令。其具体过程为:
A10、获取部署文件。
首先,获取用于对集群进行环境部署的部署文件,如图2所示,该部署文件可采用Helm编写。Helm是Kubernetes的工具,具有包管理器的能力,能够将一组K8S资源打包统一管理,实现查找、共享和使用为Kubernetes构建的软件。部署文件中可包括配置文件(value.yaml)和模板文件(templates)。在部署文件中包含变量信息,变量信息包括变量字段和每一个变量字段对应的标签值。例如变量字段为“服务器”,标签值包括“服务器1”、“服务器2”和“服务器3”。
A20、对所述变量信息进行选项化,得到变量选项。
具体地,虽然部署文件中包含很多变量信息,但是并非所有的变量信息都是需要监听或告警的,此时对变量信息进行选项化,以选项的形式展示变量选项,例如在显示屏上可显示为“服务器-服务器1”、“服务器-服务区2”。
A30、当检测到针对所述变量选项的确定信息时,根据所述确定信息,生成监听指令。
具体地,用户在需要下发监听指令时,可采用点击、输入、关键词匹配等方式,确定变量选项中需要的变量字段和标签值。例如变量选项以选框的形式展示,用户可点击选框选取需要的变量字段和标签值;用户自行在输入框中输入关键词,例如“服务器1”后,主动弹出与“服务器1”相关的变量选项,用户可自行输完或者点击变量选项完成确定,得到确定信息。然后根据确定信息对应的变量字段和标签值,生成监听指令。此外,如图2~3所示,选项化可采用Jenkins实现。
S20、根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源。
具体地,如图2所示,得到监听指令后,需要生成用于监听的第一监听资源和用于告警的第二监听资源。
在生成第一监听资源和第一告警资源之前,需要对当前的集群环境进行部署,以便安装配置第一监听资源和第一告警资源。
在获取监听指令时或获取监听指令之前,可先根据集群的实际场景,根据Helm编写与集群对应的部署文件。以部署文件value.yaml和templates为例,得到部署文件后,可先对预设的环境初始化,得到后续能够监听和告警运行的环境,即监听环境和告警环境。但此时并不知道所要监听和告警的对象,因此得到目标变量和目标标签后,需要对监听环境进行参数配置,以及对告警环境进行参数配置。
如图2所示,以后续监听采用Loggie进行监听为例,Loggie是一个基于Golang的轻量级、高性能、云原生日志采集Agent和中转处理Aggregator,支持日志中转、过滤、解析等功能,且具备生产级特性。采用目标变量和目标标签对Loggie进行监听参数的配置,从而得到能够对目标变量和目标标签监听的第一监听资源。由于本实施例是基于集群进行监听,因此第一监听资源也为LogConfig CRD资源。
以告警采用Prometheus进行告警为例,Prometheus是一个开源的系统监控和报警系统,用于收集和聚合指标作为时间序列数据。其已经加入到CNCF基金会,成为继k8s之后第二个在CNCF托管的项目,在kubernetes容器管理系统中,通常会搭配Prometheus进行监控,同时也支持多种exporter采集数据。其包括Prometheus Server(服务端)和PrometheusClient(客户端)。Prometheus还包含Alerts configmap,采用目标变量和目标标签对Alerts configmap进行告警参数配置,从而得到能够对目标变量和目标标签进行分析并实现告警的第一告警资源。由于为Alerts configmap部署,因此第一告警资源也可被称为Alerts configmap资源。
值得注意的是,在一种实现方式中,第一监听资源的监听对象和第一告警资源的告警对象是相同的。在另一种实现方式中,目标变量包括监听变量和告警变量,目标标签包括监听标签和告警标签,根据监听变量和监听标签生成第一监听资源,根据告警变量和告警标签生成第一告警资源。
此外,当监听参数配置失败或告警参数配置失败时,根据所述目标标量和所述目标标签,生成提示信息。该提示信息包括部署失败的类型,出错的地方等内容,该提示信息可以为日志的形式,即提示日志,该提示日志可发送至预先连接的部署终端,以供用户通过提示日志,确定部署过程中的问题。
S30、当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签。
具体地,在集群工作时,会持续产生不同的日志,将集群中的服务程序运行过程中产生的日志称为集群日志。如图2所示,第一监听资源会对集群日志进行采集和监听。由于第一监听资源根据目标变量和目标标签生成,因此其在采集过程中,第一监听资源能够采集集群日志,并且对集群日志进行筛选,确定集群日志中的初选日志。
以监听变量为例,当检测到集群日志时,根据监听变量,确定变量信息与监听变量相同的集群日志为初选日志。例如监听变量为“运维服务器”,则集群日志中来自运维服务器的日志为初选日志。再以监听标签为例,在检测到集群日志时,通过与监听标签对应的正则表达式或关键词,对集群日志进行遍历,当正则表达式能够筛选出结果,或存在与关键词对应的词时,将该集群日志作为初选日志。例如监听标签为“报错”,在第一监听资源中,与监听标签对应的关键词包括“error”,当集群日志中包含“error”,则将该集群日志贴上“报错”这一监听标签,并确定其为初选日志。本实施例中,初选日志的确定可通过LogConfigCRD资源实现。
同时,在一个初选日志上,其对应的监听标签和/或监听变量的数量可能存在多个,根据初选日志对应的一个或几个监听标签和/或监听变量的类型,可确定初选日志对应的度量标签。度量标签是指用于对初选日志进行区分的标签。例如初选日志对应的监听标签为“error”、“访问错误”,其对应的监听变量为“服务器”,则其对应的度量标签可为“服务器存在访问错误”。
在一种实现方式中,用户可预先在部署文件中设定用于确定度量标签的标签确定规则和度量标签,例如先根据该初选日志对应的监听变量,确定初始标签,然后根据监听标签,确定初始标签中的度量标签。
在另一种实现方式中,可采用聚类的方式确定初始日志对应的度量标签。例如选择对一个时间段的初选日志对应的监听变量或监听标签进行聚类,得到多个初选日志组,然后对不同的初选日志组附上不同的度量标签。亦或者预先设定若干个度量标签,然后根据对应的监听标签和监听变量,以度量标签为目标进行聚类,从而确定每一个度量标签对应的集群日志。在本实施例中,度量标签可采用metrics指标。
S40、基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息。
具体地,正如并非所有的日志都是记录报错信息,度量标签是针对所有日志的,而非存在异常内容的日志。因此,首先基于第一告警资源和度量标签,确定初选日志中的目标日志。例如将度量标签与告警标签和/或告警变量进行相似度计算,从而确定与告警标签和/或告警变量相似度超过预设的相似度阈值的度量标签为监控指标。每一个监控指标,其对应的初选日志的数量即为其对应的监控值。
基于第一告警资源,将对应相同的告警标签和/或告警变量的监控指标进行整合,即得到风险指标,相对地,监控值之和为风险值。根据风险值,可确定初选日志中的目标日志。例如预先设定推送数量,将数值最高的风险值的风险指标对应的初选日志作为目标日志。再例如设定为不同的风险指标设定不同的风险阈值,例如为风险指标A设定风险阈值为10,当风险指标对应的风险值为13时,将风险指标对应的初选日志作为目标日志。通过这种方式,可以将偶发的错误排除在发送给维护人员的情况之外,提高问题解决的有效性。此外,在第一告警资源中还可设置告警回调,当风险值超过风险阈值时,通过回调接口,使得风险指标对应的业务或服务回到报错前的状态,恢复正常,缩短故障恢复的时间,提高报错的处理效率。
确定目标日志后,根据目标日志的内容、对应的监控变量、监控标签、告警变量、告警标签、时间戳等与错误发生相关的内容,生成告警信息。如图4所示,可预先设定一个告警模板,将上述内容写入告警模板中,即可得到告警信息。在该告警信息中可包括对错误的描述、对应的变量字段和标签值(detail的内容)、风险描述(description)、风险指标对应的图示(Graph)等内容。
对于不同的风险指标及其对应的风险值,Prometheus可将其推送至图形化展示软件进行图形化展示,以方便后端实时监控具体的情况。图形化展示软件可选用Granfa。
S50、将所述告警信息发送至预先连接的报警终端。
具体地,预先与多个报警终端连接,以后续接收推送的告警信息,报警终端可包括邮箱、电话、短信、即时通讯软件等。
在本实施例中,目标日志的确定和告警信息的生成可由Alerts configmap资源实现。此外,Prometheus的服务端包括客服端和服务端,客户端负责拉去和接收metric,而服务端用于暴露metric给客户端或者推送metric给客户端。在本实施例中Alerts configmap确定了目标日志和生产告警信息后,即可主动将告警信息推送至预先连接的报警终端。在推送过程中,可通过Prometheus的AlertsManager组件实现。
不同的报错给集群带来的影响是不同的,虽然可以采用不同的报警终端进行报警,但是在不同的时间段,通知维护人员的主要方式存在不同,且不同的维护人员其主要的维护对象可能也存在差异,而为了提高告警后处理的及时性,预先在第一告警资源设置告警规则,当生成告警信息后,根据该告警规则,确定其对应的目标终端,例如针对同一种告警信息,根据当前的时间、风险指标等信息,可确定报警终端中合适的目标终端。
此外,在本实施例中,由于生成监控指令的方式是通过选项实现的,因此用户在后续更新迭代过程中,也可通过选项的方式对监控资源和告警资源进行快速地更新。如图5所示,该方法还包括:
B10、当检测到针对所述变量选项的变更指令时,根据所述变更指令确定所述变量字段中的变更字段和变更标签。
具体地,用户在需要变更第一监控资源监控的对象和第一告警资源告警的对象时,直接针对变量选项进行修改,例如原先确定的目标变量和目标标签为“服务器”和“服务器1”,变更指令可将目标变量变更为“应用”,目标标签为“应用1”。将变更指令中的变量字段作为变更字段,变更指令中的标签值作为变更标签。
B20、根据所述变更字段和所述变更标签,生成第二监听资源和第二告警资源。
具体地,得到变更字段和变更标签后,根据两者进行监听参数配置和告警资源配置,即可得到第二监听资源和第二告警资源。由于在前文已详细描述,故在此不再赘述。
基于上述基于集群的日志预警方法,如图6所示,本发明还提供一种基于集群的日志预警装置,包括:
获取模块110,用于获取监听指令,其中,所述监听指令包括目标变量和目标标签;
生成模块120,用于根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;
第一确定模块130,用于当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;
第二确定模块140,用于基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;
发送模块150,用于将所述告警信息发送至预先连接的报警终端。
其中,所述目标变量包括监听变量和告警变量,所述目标标签包括监听标签和告警标签;所述生成模块120具体应用于:
基于预设的部署文件,对预设的运行环境进行初始化,得到监听环境和所述告警环境;
根据所述监听变量和所述监听标签,对所述监听环境进行监听参数配置,得到第一监听资源;以及,
根据所述告警变量和所述告警标签,对所述告警环境进行告警参数配置,得到第一告警资源。
其中,所述装置还包括提示模块,所述提示模块用于:
当监听参数配置失败或告警参数配置失败时,根据所述目标标量和所述目标标签,生成提示信息;
将所述提示信息发送至预先连接的部署终端。
其中,所述第二确定模块140包括:
第一确定单元,用于根据所述度量标签,确定所述初选日志对应的监控指标和每一个所述监控指标对应的监控值;
计算单元,用于基于所述第一告警资源,计算所述监控值对应的风险指标和风险值;
第二计算单元,用于根据所述风险值,确定所述初选日志中的目标日志;
生成单元,用于根据所述目标日志,生成告警信息。
其中,所述发送模块具体用于:
根据所第一告警资源中的告警规则,确定所述报警终端与所述告警信息对应的目标终端;
将所述报警文件发送至所述目标终端。
所述基于集群的日志预警方法,其中,所述获取监听指令之前还选择模块,所述选择模块具体用于:
获取部署文件,其中,所述部署文件包括变量信息,所述变量信息包括变量字段和每一个所述变量字段对应的标签值;
对所述变量信息进行选项化,得到变量选项;
当检测到针对所述变量选项的确定信息时,根据所述确定信息,生成监听指令。
其中,所述装置还包括变更模块,所述变更模块用于:
当检测到针对所述变量选项的变更指令时,根据所述变更指令确定所述变量字段中的变更字段和变更标签;
根据所述变更字段和所述变更标签,生成第二监听资源和第二告警资源。
基于上述基于集群的日志预警方法,本发明还提供了一种终端设备,如图7所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑命令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序命令或模块。处理器20通过运行存储在存储器22中的软件程序、命令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态计算机可读存储介质。
此外,上述计算机可读存储介质以及终端设备中的多条命令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于集群的日志预警方法,其特征在于,所述方法包括:
获取监听指令,其中,所述监听指令包括目标变量和目标标签;
根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;
当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;
基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;
将所述告警信息发送至预先连接的报警终端。
2.根据权利要求1所述基于集群的日志预警方法,其特征在于,所述目标变量包括监听变量和告警变量,所述目标标签包括监听标签和告警标签;所述根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源包括:
基于预设的部署文件,对预设的运行环境进行初始化,得到监听环境和所述告警环境;
根据所述监听变量和所述监听标签,对所述监听环境进行监听参数配置,得到第一监听资源;以及,
根据所述告警变量和所述告警标签,对所述告警环境进行告警参数配置,得到第一告警资源。
3.根据权利要求2所述基于集群的日志预警方法,其特征在于,所述根据所述监听指令,生成第一监听资源和第一告警资源之后,还包括:
当监听参数配置失败或告警参数配置失败时,根据所述目标标量和所述目标标签,生成提示信息;
将所述提示信息发送至预先连接的部署终端。
4.根据权利要求1所述基于集群的日志预警方法,其特征在于,所述基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志和所述目标日志对应的告警信息包括:
根据所述度量标签,确定所述初选日志对应的监控指标和每一个所述监控指标对应的监控值;
基于所述第一告警资源,计算所述监控值对应的风险指标和风险值;
根据所述风险值,确定所述初选日志中的目标日志;
根据所述目标日志,生成告警信息。
5.根据权利要求4所述基于集群的日志预警方法,其特征在于,所述将所述告警信息发送至预先连接的报警终端包括:
根据所第一告警资源中的告警规则,确定所述报警终端与所述告警信息对应的目标终端;
将所述报警文件发送至所述目标终端。
6.根据权利要求1~5中任意一项所述基于集群的日志预警方法,其特征在于,所述获取监听指令之前还包括:
获取部署文件,其中,所述部署文件包括变量信息,其中,所述变量信息包括变量字段和每一个所述变量字段对应的标签值;
对所述变量信息进行选项化,得到变量选项;
当检测到针对所述变量选项的确定信息时,根据所述确定信息,生成监听指令。
7.根据权利要求2所述基于集群的日志预警方法,其特征在于,所述方法还包括:
当检测到针对所述变量选项的变更指令时,根据所述变更指令确定所述变量字段中的变更字段和变更标签;
根据所述变更字段和所述变更标签,生成第二监听资源和第二告警资源。
8.一种基于集群的日志预警装置,其特征在于,所述基于集群的日志预警装置包括:
获取模块,用于获取监听指令,其中,所述监听指令包括目标变量和目标标签;
生成模块,用于根据所述目标变量和所述目标标签,生成第一监听资源和第一告警资源;
第一确定模块,用于当检测到集群日志时,基于所述第一监听资源,对所述集群日志进行筛选,确定所述集群日志中的初选日志,以及所述初选日志对应的度量标签;
第二确定模块,用于基于所述第一个告警资源和所述度量标签,确定所述初选日志中的目标日志,以及所述目标日志对应的告警信息;
发送模块,用于将所述告警信息发送至预先连接的报警终端。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述的基于集群的日志预警方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~7任意一项所述的基于集群的日志预警方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834294.2A CN115333929B (zh) | 2022-07-14 | 2022-07-14 | 一种基于集群的日志预警方法和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210834294.2A CN115333929B (zh) | 2022-07-14 | 2022-07-14 | 一种基于集群的日志预警方法和相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115333929A true CN115333929A (zh) | 2022-11-11 |
CN115333929B CN115333929B (zh) | 2024-10-11 |
Family
ID=83917360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210834294.2A Active CN115333929B (zh) | 2022-07-14 | 2022-07-14 | 一种基于集群的日志预警方法和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115333929B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015028700A (ja) * | 2013-07-30 | 2015-02-12 | Kddi株式会社 | 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 |
CN105183609A (zh) * | 2015-09-16 | 2015-12-23 | 焦点科技股份有限公司 | 一种应用于软件系统的实时监控系统及方法 |
US20180101607A1 (en) * | 2016-10-11 | 2018-04-12 | Oracle International Corporation | Cluster-based processing of unstructured log messages |
CN108491310A (zh) * | 2018-03-26 | 2018-09-04 | 北京九章云极科技有限公司 | 一种日志监测方法及系统 |
CN110096408A (zh) * | 2019-03-11 | 2019-08-06 | 中国平安人寿保险股份有限公司 | 告警监测方法、装置、电子设备及计算机可读存储介质 |
CN111698109A (zh) * | 2019-03-14 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 监控日志的方法和装置 |
CN112068979A (zh) * | 2020-09-11 | 2020-12-11 | 重庆紫光华山智安科技有限公司 | 一种业务故障确定方法及装置 |
CN112416714A (zh) * | 2020-11-23 | 2021-02-26 | 平安普惠企业管理有限公司 | 日志处理方法、装置、电子设备及可读存储介质 |
CN112685253A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 前端报错日志采集方法、装置、设备及存储介质 |
CN113515683A (zh) * | 2021-07-09 | 2021-10-19 | 深圳创维-Rgb电子有限公司 | 日志抓取方法、装置、设备及存储介质 |
-
2022
- 2022-07-14 CN CN202210834294.2A patent/CN115333929B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015028700A (ja) * | 2013-07-30 | 2015-02-12 | Kddi株式会社 | 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 |
CN105183609A (zh) * | 2015-09-16 | 2015-12-23 | 焦点科技股份有限公司 | 一种应用于软件系统的实时监控系统及方法 |
US20180101607A1 (en) * | 2016-10-11 | 2018-04-12 | Oracle International Corporation | Cluster-based processing of unstructured log messages |
CN108491310A (zh) * | 2018-03-26 | 2018-09-04 | 北京九章云极科技有限公司 | 一种日志监测方法及系统 |
CN110096408A (zh) * | 2019-03-11 | 2019-08-06 | 中国平安人寿保险股份有限公司 | 告警监测方法、装置、电子设备及计算机可读存储介质 |
CN111698109A (zh) * | 2019-03-14 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 监控日志的方法和装置 |
CN112068979A (zh) * | 2020-09-11 | 2020-12-11 | 重庆紫光华山智安科技有限公司 | 一种业务故障确定方法及装置 |
CN112416714A (zh) * | 2020-11-23 | 2021-02-26 | 平安普惠企业管理有限公司 | 日志处理方法、装置、电子设备及可读存储介质 |
CN112685253A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 前端报错日志采集方法、装置、设备及存储介质 |
CN113515683A (zh) * | 2021-07-09 | 2021-10-19 | 深圳创维-Rgb电子有限公司 | 日志抓取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
苏蓉: "基于Hadoop平台的安全日志聚类挖掘算法研究与应用", 《中国优秀硕士学位论文全文数据库》, 15 June 2016 (2016-06-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN115333929B (zh) | 2024-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611137B (zh) | 告警监控方法、装置、计算机设备及存储介质 | |
US11657612B2 (en) | Method and apparatus for identifying video | |
EP3567496B1 (en) | Systems and methods for indexing and searching | |
US8713581B2 (en) | Selected alert delivery in a distributed processing system | |
CN110661659A (zh) | 一种告警方法、装置、系统及电子设备 | |
US20200117757A1 (en) | Real-time monitoring and reporting systems and methods for information access platform | |
US20200092180A1 (en) | Methods and systems for microservices observability automation | |
US11625315B2 (en) | Software regression recovery via automated detection of problem change lists | |
CN111666189A (zh) | 一种声明式可视化配置Prometheus监控告警的方法和系统 | |
US10110419B2 (en) | Alarm to event tracing | |
CN114363042B (zh) | 日志分析方法、装置、设备及可读存储介质 | |
CN110096419A (zh) | 接口日志的获取方法、接口日志管理服务器及业务服务器 | |
CN112306700A (zh) | 一种异常rpc请求的诊断方法和装置 | |
US11263072B2 (en) | Recovery of application from error | |
CN111427748A (zh) | 任务告警方法、系统、设备及存储介质 | |
US20230205516A1 (en) | Software change analysis and automated remediation | |
CN115981950A (zh) | 监控告警方法、装置、设备及计算机可读存储介质 | |
CN111339466A (zh) | 接口管理方法、装置、电子设备及可读存储介质 | |
CN107330031B (zh) | 一种数据存储的方法、装置及电子设备 | |
CN102986151A (zh) | 监视系统及数据传输装置和方法 | |
CN110727565B (zh) | 一种网络设备平台信息收集方法及系统 | |
CN115333929B (zh) | 一种基于集群的日志预警方法和相关设备 | |
EP3832985B1 (en) | Method and apparatus for processing local hot spot, electronic device and storage medium | |
CN114925283A (zh) | 推送任务的管理方法及系统、电子设备及介质 | |
CN114443343A (zh) | 一种服务接口反馈异常信息方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 Building 1901, 1902, 1903, Qianhai Kexing Science Park, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Province Applicant after: Shenzhen Flash Scissor Intelligent Technology Co.,Ltd. Address before: 518000 Unit 9ABCDE, Building 2, Haihong Industrial Plant Phase II, Haihong Industrial Plant, West Side of Xixiang Avenue, Labor Community, Xixiang Street, Bao'an District, Shenzhen, Guangdong Applicant before: Shenzhen big brother Technology Co.,Ltd. |
|
GR01 | Patent grant |