CN116931983A - 日志采集方法、装置、计算机设备和存储介质 - Google Patents
日志采集方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116931983A CN116931983A CN202310573696.6A CN202310573696A CN116931983A CN 116931983 A CN116931983 A CN 116931983A CN 202310573696 A CN202310573696 A CN 202310573696A CN 116931983 A CN116931983 A CN 116931983A
- Authority
- CN
- China
- Prior art keywords
- server
- alarm
- acquisition component
- target
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 273
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 225
- 238000012544 monitoring process Methods 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims description 25
- 230000005856 abnormality Effects 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 abstract description 22
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 description 14
- 239000003795 chemical substances by application Substances 0.000 description 14
- 238000007726 management method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 239000002071 nanotube Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种日志采集方法、装置、计算机设备和存储介质,应用于监控运维领域,可用于金融科技领域或其他相关领域。所述方法包括:部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;根据所述当前运行的进程,确定所述服务器对应的采集组件标识;获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。采用本方法能够提高对服务器集群的运行维护效率。
Description
技术领域
本申请涉及监控运维技术领域,特别是涉及一种日志采集方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在监控运维领域,需要关注服务器等对象上所运行的重要进程,而获取并检测这些进程的运行日志是感知其运行状态的重要监控方式之一。
目前常用的日志监测系统采用的日志采集方法一般是:由运维人员在服务器上部署采集组件,来采集服务器上的运行日志,当服务器上运行的进程发生改变时,运维人员再重新部署新的采集组件。这种方法在维护少量服务器时还可实现,但是,当服务器规模较大、数量较多、更新较频繁时,这种日志监测系统的运行维护效率将大大降低。
发明内容
基于此,有必要针对上述日志监测系统的运行维护效率较低的技术问题,提供一种日志采集方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种日志采集方法。所述方法包括:
部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
在其中一个实施例中,所述获取所述采集组件标识对应的目标采集组件,包括:
接收策略中心下发的多种采集组件版本;
根据所述采集组件标识,从所述多种采集组件版本中确定出所述服务器对应的目标采集组件。
在其中一个实施例中,所述根据所述当前运行的进程,确定所述服务器对应的采集组件标识之后,还包括:
获取所述采集组件标识对应的目标告警策略;
发送所述目标告警策略至所述服务器;所述服务器中运行有告警收集进程,所述告警收集进程用于根据所述目标告警策略对所述目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
在其中一个实施例中,所述获取所述采集组件标识对应的目标告警策略,包括:
接收策略中心下发的多种告警策略;
根据所述采集组件标识,从所述多种告警策略中确定出所述服务器对应的目标告警策略。
在其中一个实施例中,所述事件中心,用于接收多个服务器中的告警收集进程发送的告警信息,并根据预先配置的告警聚合策略,对所述多个服务器的告警信息进行聚合处理;
其中,所述告警聚合策略基于告警信息的告警种类或所述多个服务器之间的关联关系确定。
在其中一个实施例中,所述服务器上当前运行的进程的日志具体通过所述目标采集组件对应的日志采集进程进行采集;
所述监测程序,还用于监测所述日志采集进程和所述告警收集进程的运行情况,在监测到所述日志采集进程或所述告警收集进程出现异常时,发送异常提示信息至所述资源注册中心。
在其中一个实施例中,所述部署监测程序至待检测的服务器之前,还包括:
获取所述服务器的访问地址,并生成所述服务器的标识;
将所述访问地址和所述标识,注册至所述资源注册中心;所述访问地址用于为所述资源注册中心提供与所述服务器进行数据交互的通道。
第二方面,本申请还提供了一种日志采集装置。所述装置包括:
程序部署模块,用于部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
进程确定模块,用于在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
标识确定模块,用于根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
组件部署模块,用于获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
在其中一个实施例中,所述组件部署模块,还用于接收策略中心下发的多种采集组件版本;根据所述采集组件标识,从所述多种采集组件版本中确定出所述服务器对应的目标采集组件。
在其中一个实施例中,所述日志采集装置还包括告警模块,用于获取所述采集组件标识对应的目标告警策略;发送所述目标告警策略至所述服务器;所述服务器中运行有告警收集进程,所述告警收集进程用于根据所述目标告警策略对所述目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
在其中一个实施例中,所述告警模块,还用于通过事件信息接收策略中心下发的多种告警策略;根据所述采集组件标识,从所述多种告警策略中确定出所述服务器对应的目标告警策略。
在其中一个实施例中,所述告警模块,还用于接收多个服务器中的告警收集进程发送的告警信息,并根据预先配置的告警聚合策略,对所述多个服务器的告警信息进行聚合处理;其中,所述告警聚合策略基于告警信息的告警种类或所述多个服务器之间的关联关系确定。
在其中一个实施例中,所述服务器上当前运行的进程的日志具体通过所述目标采集组件对应的日志采集进程进行采集;所述装置还包括监测模块,用于通过监测程序监测所述日志采集进程和所述告警收集进程的运行情况,在监测到所述日志采集进程或所述告警收集进程出现异常时,发送异常提示信息至所述资源注册中心。
在其中一个实施例中,所述日志采集装置还包括注册模块,用于获取所述服务器的访问地址,并生成所述服务器的标识;将所述访问地址和所述标识,注册至所述资源注册中心;所述访问地址用于为所述资源注册中心提供与所述服务器进行数据交互的通道。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
上述日志采集方法、装置、计算机设备、存储介质和计算机程序产品,通过部署监测程序至待检测的服务器,由监测程序监测服务器上的进程的运行信息,从而可以自动及时地发现服务器上的进程更新信息,根据进程更新信息,确定服务器当前对应的采集组件标识,进一步将该采集组件标识对应的目标采集组件部署至服务器,并停止运行服务器上原有的采集组件,由此实现对服务器上采集组件的更新,无需运维人员进行较多操作,从而即使在服务器规模较大、数量较多、更新较频繁时,也可以提高对服务器集群的运行维护效率。
附图说明
图1为一个实施例中日志采集方法的应用环境图;
图2为一个实施例中日志采集方法的流程示意图;
图3为一个实施例中目标采集组件确定步骤的流程示意图;
图4为一个实施例中资源注册中心、策略中心和事件中心之间的信令交互示意图;
图5为一个实施例中日志采集装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在监控运维领域,需要关注服务器等对象上所运行的重要进程。获取并检测这些进程的运行日志是感知其运行状态的重要监控方式之一。针对日志的监测系统,一般由运维人员在服务器上部署采集组件,来采集服务器上的运行日志,当服务器上运行的进程发生改变时,运维人员再重新部署新的采集组件,进一步通过过滤或解析等方式对采集的运行日志进行分析,生成告警。
这样的日志监测系统主要存在以下问题:
(1)采集组件的动态适配性不足。不论是服务器上的进程发生改变还是日志采集策略需要调整,都需要重新部署采集组件;当服务器规模较大、数量较多、更新较频繁时,该套日志监测系统的运行维护成本较高,且版本管理和服务资产管理容易发生错误和遗漏,导致出现采集组件及其告警策略与实际运行的进程不相符的情况。
(2)未考虑告警之间的关联性,容易在故障期间产生大量告警、降低故障定位和应急处置的效率,例如,一组服务器属于一套集群,在其中一台服务器异常时,集群中的其他服务器会同时检测到异常并发出告警,产生告警风暴。
因此,为解决上述问题,本申请提供了一种可以实现日志监测及事件收集的自适应和动态管理,便于维护及同步的日志采集方法。
本申请实施例提供的日志采集方法,可以应用于如图1所示的应用环境中。其中,资源注册中心102通过网络与服务器104进行通信。在本申请的应用场景中,资源注册中心102可预先将用于监测服务器上的进程的运行信息的监测程序部署至待监测的服务器104中,使监测程序定时扫描服务器104上所运行的进程,并在扫描发现服务器104上有进程更新信息时,发送该进程更新信息至资源注册中心102,资源注册中心102接收到进程更新信息后,可根据进程更新信息,确定服务器上当前运行的进程,并根据当前运行的进程,确定服务器对应的采集组件标识;进而获取采集组件标识对应的目标采集组件,将目标采集组件部署至服务器,并停止运行服务器上原有的采集组件,进一步基于目标采集组件,对服务器上当前运行的进程进行日志采集。其中,资源注册中心102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种日志采集方法,以该方法应用于图1中的资源注册中心102为例进行说明,包括以下步骤:
步骤S210,部署监测程序至待检测的服务器;监测程序用于监测服务器上的进程的运行信息。
其中,监测程序,即监测daemon,是一段连续运行的程序,可定时扫描服务器上运行的进程。
其中,进程是指一个程序在一个数据集上的一次执行,是系统进行资源分配和调度的基本单位。可以理解的是,服务是指在计算机系统中一段独立的程序,负责执行某种任务,而进程是这种任务的运行。
具体实现中,资源注册中心可预先将用于监测服务器上的进程的运行信息的监测程序,部署至待监测的服务器中,使监测程序在该服务器的本地运行,定时扫描服务器上所运行的进程,并在扫描发现服务器上有进程更新信息时,发送该进程更新信息至资源注册中心。
步骤S220,在接收到监测程序返回的进程更新信息的情况下,根据进程更新信息,确定服务器上当前运行的进程。
其中,进程更新信息可包括进程停止、新增进程或进程更换等信息。
具体实现中,进程更新信息中包括有发生变动的进程的进程信息,如进程名称、进程标识等,因此,资源注册中心在接收到监测程序返回的进程更新信息后,可根据进程更新信息中发生变动的进程的进程信息,确定服务器上当前正在运行的进程,以便于后续根据该当前运行的进程,调整服务器对应的采集组件。
本步骤中,通过资源注册中心与监测程序的通信,资源注册中心可动态地掌握各个服务器上的进程运行情况,包括进程的版本信息、配置信息、日志所在路径等。
步骤S230,根据当前运行的进程,确定服务器对应的采集组件标识。
其中,采集组件指的是采集agent,为日志中心的接入组件,用于根据指定的配置监视日志目录或文件,增量读取更新的日志行。
其中,采集组件标识为表征采集组件唯一性的标识。
具体实现中,由于采集组件与一个(或一组)指定类型(或版本)的进程是一一对应的,因此,在确定服务器上当前运行的进程后,可确定当前运行的进程的类型,基于当前运行的进程的类型,查询预先确定的进程类型与采集组件之间的映射关系,由此得到服务器当前对应的采集组件的采集组件标识。
步骤S240,获取采集组件标识对应的目标采集组件,将目标采集组件部署至服务器,并停止运行服务器上原有的采集组件,以基于目标采集组件,对服务器上当前运行的进程进行日志采集。
其中,目标采集组件携带有日志采集策略,日志采集策略主要包括采集的日志对象、日志格式等。
具体实现中,在确定服务器当前对应的采集组件标识后,则可获取该采集组件标识对应的目标采集组件,将该目标采集组件部署至服务器上,同时停止服务器上原有的采集组件的运行,由此实现对服务器上采集组件的更新。同时,将目标采集组件部署至服务器上后,在服务器上将会有对应的日志采集进程运行,日志采集进程会基于目标采集组件携带的日志采集策略,采集服务器上当前运行的进程的运行日志。
上述日志采集方法中,通过部署监测程序至待检测的服务器,由监测程序监测服务器上的进程的运行信息,从而可以自动及时地发现服务器上的进程更新信息,根据进程更新信息,确定服务器当前对应的采集组件标识,进一步将该采集组件标识对应的目标采集组件部署至服务器,并停止运行服务器上原有的采集组件,由此实现对服务器上采集组件的更新,无需运维人员进行较多操作,从而即使在服务器规模较大、数量较多、更新较频繁时,也可以保证对服务器集群的运行维护效率。
在一示例性实施例中,如图3所示,上述步骤S240中,获取采集组件标识对应的目标采集组件,包括:
步骤S241,接收策略中心下发的多种采集组件版本;
步骤S242,根据采集组件标识,从多种采集组件版本中确定出服务器对应的目标采集组件。
具体实现中,策略中心的主要作用为发布采集策略,具体为采集组件管理,为不同类型的进程配置对应的采集组件版本,并将配置的多种采集组件版本发送给资源注册中心,由资源注册中心根据服务器上的进程运行情况,匹配对应的目标采集组件,具体为由资源注册中心根据服务器上的进程更新信息确定服务器上当前运行的进程,根据当前运行的进程,确定服务器对应的采集组件标识,进而从多种采集组件版本中确定出与采集组件标识相对应的目标采集组件,部署至服务器。
本实施例中,通过策略中心下发采集组件版本给资源注册中心,可以在策略中心动态地更新调整采集组件,并且采集组件的日志采集策略可以在策略中心可视化地呈现,提升运维管理效率。
在一示例性实施例中,上述步骤S230根据当前运行的进程,确定服务器对应的采集组件标识之后,还包括:
步骤S231,获取采集组件标识对应的目标告警策略;
步骤S232,发送目标告警策略至服务器;服务器中运行有告警收集进程,告警收集进程用于根据目标告警策略对目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
其中,目标告警策略包括过滤策略、执行策略和解析策略等,用于检测日志中的异常信息。
具体实现中,采集组件除了与某一指定类型或版本的进程一一对应外,还与告警策略具有对应关系,也就是说采集组件、进程和告警策略三者之间具有对应关系,因此,在确定服务器当前对应的采集组件标识后,资源注册中心除了可根据采集组件标识确定对应的目标采集组件外,还可获取该采集组件标识对应的目标告警策略,在将目标采集组件部署至服务器上时,可同时发送该目标告警策略至服务器,以基于该目标告警策略,对服务器当前运行的进程的日志进行异常检测分析,确定是否需要告警。
更具体地,在将目标告警策略发送至服务器上后,服务器上会有对应的告警收集进程运行,告警收集进程会根据目标告警策略对目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
本实施例中,根据采集组件标识,确定对应的目标告警策略并发送至服务器,保证了服务器上的告警策略与服务器上运行的进程之间的准确匹配,避免了告警策略与服务器实际运行的进程不相符的情况。
在一示例性实施例中,步骤S231中获取采集组件标识对应的目标告警策略,具体包括:接收策略中心下发的多种告警策略;根据采集组件标识,从多种告警策略中确定出服务器对应的目标告警策略。
具体实现中,策略中心的作用除了发布采集策略外,还包括发布告警策略,具体为不同的采集组件配置不同的告警策略,并将配置的多种告警策略发送给资源注册中心,由资源注册中心根据服务器上的进程运行情况,匹配对应的目标告警策略,具体为由资源注册中心根据服务器上的进程更新信息确定服务器上当前运行的进程,根据当前运行的进程,确定服务器对应的采集组件标识,进而从多种告警策略中确定出与采集组件标识相对应的目标告警策略,与目标采集组件一起部署至服务器。
本实施例中,基于采集组件与告警策略之间的对应关系,根据采集组件标识,从策略中心下发的多种告警策略中确定出服务器对应的目标告警策略,可以保证所确定的目标告警策略与服务器上运行的进程的适配性,并且通过策略中心,可以动态地更新调整告警策略,提升运维管理效率。
在一示例性实施例中,事件中心,用于接收多个服务器中的告警收集进程发送的告警信息,并根据预先配置的告警聚合策略,对多个服务器的告警信息进行聚合处理;其中,告警聚合策略基于告警信息的告警种类或多个服务器之间的关联关系确定。
具体实现中,当通过日志监测的服务器数目众多时,在事件中心则可能产生大量告警,出现告警风暴,为了解决该问题,本实施例考虑到告警信息之间的关联性,采用了由告警信息的告警种类或服务器之间的关联关系配置告警聚合策略,根据告警聚合策略,对多个服务器的告警信息进行聚合处理,将细颗粒的告警聚合为少量的事件,从而避免告警风暴。
更具体地,根据告警信息的告警种类确定的告警聚合策略,即将同一类的告警信息聚合为一个事件,适用于网络探活异常、心跳上送异常等类型的告警。通过这种聚合同类的告警聚合策略,可以快速确定异常的组件种类(适用于新版程序上线发布后发生异常的场景),或是定位到故障热点(如集群中同时发生心跳异常,可以确认到告警的共性点)。
根据服务器之间的关联关系确定的告警聚合策略中,该关联关系可以为物理关系,例如所属同一机柜,属于同一个网络区域等,也可以为逻辑关系,例如属于一个集群,属于调用链上下游关系等。通过这种关联关系确定的告警聚合策略,可以有效地确定是哪台或哪几台服务器出现异常,所涉及的异常进程影响范围等。
本实施例中,在事件中心,通过告警聚合策略对多个服务器的告警信息进行聚合处理,可以有效地汇聚告警信息并实现告警压降,减少告警风暴,提升应急处置效率。
在一示例性实施例中,服务器上当前运行的进程的日志具体通过目标采集组件对应的日志采集进程进行采集;
监测程序,还用于监测日志采集进程和告警收集进程的运行情况,在监测到日志采集进程或告警收集进程出现异常时,发送异常提示信息至资源注册中心。
具体实现中,资源注册中心将目标采集组件和目标告警策略部署至服务器上后,会有对应的日志采集进程和告警收集进程运行,监测程序会监测这两个进程的运行情况。在这两个进程正常运行的情况下,监测程序会发送正常心跳(定期消息)给资源注册中心。但在异常情况下,例如这两个进程中有出现进程夯住、进程中断、进程所用资源存在问题、无法采集到日志、发生运行报错异常等情况,监测程序会感知到这些异常信息,并发送异常提示信息给资源注册中心,提示资源注册中心的运维人员进行处理。
本实施例中,通过监测程序监测日志采集进程和告警收集进程的运行情况,在监测到日志采集进程或告警收集进程出现异常时,发送异常提示信息至资源注册中心,使得运维人员可以及时处理这些异常,以免由于日志采集进程或告警收集进程无法正常运行导致遗漏服务器的故障问题,出现更大的事故。
在一示例性实施例中,上述步骤S210部署监测程序至待检测的服务器之前,还包括:获取服务器的访问地址,并生成服务器的标识;将访问地址和标识,注册至资源注册中心;访问地址用于为资源注册中心提供与服务器进行数据交互的通道。
其中,服务器的标识为表征服务器唯一性的标识,具体可以用编号作为标识。
具体实现中,在资源注册中心对服务器进行进程监测前,还需要先在资源注册中心完成服务器的资源纳管,即需要登记服务器的访问地址,以便于后续资源注册中心可根据该访问地址,部署目标采集组件和目标告警策略至该服务器上;同时由于访问地址不具有唯一性,且服务器的访问地址可能会修改,也就是说,一个服务器可能对应有多个访问地址,因此还需要为该服务器赋予唯一的标识,采用该标识将该服务器注册到资源注册中心。在完成服务器的资源纳管后,资源注册中心可基于访问地址和标识连接该服务器,从而向该服务器发送监测程序。
本实施例中,通过获取服务器的访问地址,并生成服务器的标识,并将访问地址和标识,注册至资源注册中心,以便于后续可根据访问地址和标识准确地确定服务器,从而保证告警策略和采集组件的正确部署。
在一个实施例中,为了便于本领域技术人员理解本申请实施例,以下将结合附图对该方案进行进一步说明,参考图4,为资源注册中心、策略中心和事件中心之间的信令交互示意图,具体流程如下:
1.在资源注册中心上
资源注册中心的作用有三方面:
(1)资源纳管
当新的服务器被投入生产使用或者一个服务器需要进行进程监测,首先在资源注册中心完成资产注册。具体包括登记服务器的访问地址,以及采用唯一的编号将该服务器注册到资源注册中心。在完成服务器的资源纳管后,资源注册中心可连接该服务器,并向该服务器发送监测程序。
(2)进程自发现
由监测程序实现。监测程序在服务器的本地运行,定时扫描服务器上所运行的进程,并在扫描发现服务器上有进程更新信息时,发送该进程更新信息至资源注册中心。同时,监测程序会定时发送心跳,与资源注册中心保持联系。
经过资源纳管和自发现同步后,资源注册中心能够动态地掌握各个服务器上进程的运行情况,包括进程的版本号、配置信息、日志所在路径等等。
(3)采集agent和告警策略的下发
用于接收策略中心所发布的多个采集agent版本和多种告警策略,根据服务器上的进程运行情况,匹配对应的目标采集agent和目标告警策略,并下发部署至服务器。具体为根据服务器上的进程更新信息确定服务器上当前运行的进程,根据当前运行的进程,确定服务器对应的采集组件标识,进而根据采集组件标识确定服务器上当前运行的进程对应的目标采集组件和目标告警策略,将目标采集组件与目标告警策略一起部署至服务器。
目标采集agent和目标告警策略下发至服务器后,服务器上会有对应的日志采集进程及告警收集进程运行,监测程序同时会监测这两个进程的运行情况,并在任一个进程出现异常时,发送异常提示信息至资源注册中心。
2.在策略中心上
策略中心的主要功能为发布采集agent及发布告警策略。具体包括采集agent管理和告警策略的配置及发布。
策略中心管理所有采集agent和告警策略。采集agent与进程相关,主要用于确定采集日志对象、日志格式等。告警策略主要由过滤策略、执行策略、解析策略等组成,用于从日志中获取异常信息并上送至事件中心。
策略中心发布的版本包,由采集agent和告警策略两部分构成。策略中心与资源注册中心进行交互,将版本包发送至资源注册中心,由资源注册中心根据服务器上的进程的运行情况,筛选得到与服务器上当前进程相匹配的目标版本包,并将目标版本包下发给服务器。
3.在事件中心上
事件中心用于收集各个服务器上运行的告警收集进程上送的告警信息并生成事件。
且事件中心中支持配置告警聚合策略,具体为按照服务器之间的关联关系、告警种类等,将细颗粒度的告警聚合为一个事件,避免告警风暴。
与现有技术相比,本申请具有以下有益效果:
(1)利用资源注册中心,系统可以自动发现待监测的进程/服务,或自动同步已下线的进程/服务,方便筛选、适配、更新采集agent,不需要人工更新相关信息或确定采集agent的适配情况。
(2)通过策略中心,可以动态地更新调整采集agent及告警策略,并自动由资源注册中心实现下发,无需通过人工变更更新agent。同时采集及告警策略可以在策略中心显示地呈现,提升运维管理效率。
(3)事件中心能够有效地汇聚告警信息并实现告警压降,减少告警风暴,提升应急处置效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的日志采集方法的日志采集装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个日志采集装置实施例中的具体限定可以参见上文中对于日志采集方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种日志采集装置,包括:程序部署模块510、进程确定模块520、标识确定模块530和组件部署模块540,其中:
程序部署模块510,用于部署监测程序至待检测的服务器;监测程序用于监测服务器上的进程的运行信息;
进程确定模块520,用于在接收到监测程序返回的进程更新信息的情况下,根据进程更新信息,确定服务器上当前运行的进程;
标识确定模块530,用于根据当前运行的进程,确定服务器对应的采集组件标识;
组件部署模块540,用于获取采集组件标识对应的目标采集组件,将目标采集组件部署至服务器,并停止运行服务器上原有的采集组件,以基于目标采集组件,对服务器上当前运行的进程进行日志采集。
在其中一个实施例中,组件部署模块540,还用于接收策略中心下发的多种采集组件版本;根据采集组件标识,从多种采集组件版本中确定出服务器对应的目标采集组件。
在其中一个实施例中,日志采集装置还包括告警模块,用于获取采集组件标识对应的目标告警策略;发送目标告警策略至服务器;服务器中运行有告警收集进程,告警收集进程用于根据目标告警策略对目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
在其中一个实施例中,告警模块,还用于通过事件信息接收策略中心下发的多种告警策略;根据采集组件标识,从多种告警策略中确定出服务器对应的目标告警策略。
在其中一个实施例中,告警模块,还用于接收多个服务器中的告警收集进程发送的告警信息,并根据预先配置的告警聚合策略,对多个服务器的告警信息进行聚合处理;其中,告警聚合策略基于告警信息的告警种类或多个服务器之间的关联关系确定。
在其中一个实施例中,服务器上当前运行的进程的日志具体通过目标采集组件对应的日志采集进程进行采集;装置还包括监测模块,用于通过监测程序监测日志采集进程和告警收集进程的运行情况,在监测到日志采集进程或告警收集进程出现异常时,发送异常提示信息至资源注册中心。
在其中一个实施例中,日志采集装置还包括注册模块,用于获取服务器的访问地址,并生成服务器的标识;将访问地址和标识,注册至资源注册中心;访问地址用于为资源注册中心提供与服务器进行数据交互的通道。
上述日志采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种日志采集方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种日志采集方法,其特征在于,应用于资源注册中心,所述方法包括:
部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
2.根据权利要求1所述的方法,其特征在于,所述获取所述采集组件标识对应的目标采集组件,包括:
接收策略中心下发的多种采集组件版本;
根据所述采集组件标识,从所述多种采集组件版本中确定出所述服务器对应的目标采集组件。
3.根据权利要求1所述的方法,其特征在于,所述根据所述当前运行的进程,确定所述服务器对应的采集组件标识之后,还包括:
获取所述采集组件标识对应的目标告警策略;
发送所述目标告警策略至所述服务器;所述服务器中运行有告警收集进程,所述告警收集进程用于根据所述目标告警策略对所述目标采集组件采集的日志进行异常检测,并在检测异常时,发送告警信息至事件中心。
4.根据权利要求3所述的方法,其特征在于,所述获取所述采集组件标识对应的目标告警策略,包括:
接收策略中心下发的多种告警策略;
根据所述采集组件标识,从所述多种告警策略中确定出所述服务器对应的目标告警策略。
5.根据权利要求3所述的方法,其特征在于,所述事件中心,用于接收多个服务器中的告警收集进程发送的告警信息,并根据预先配置的告警聚合策略,对所述多个服务器的告警信息进行聚合处理;
其中,所述告警聚合策略基于告警信息的告警种类或所述多个服务器之间的关联关系确定。
6.根据权利要求3所述的方法,其特征在于,所述服务器上当前运行的进程的日志具体通过所述目标采集组件对应的日志采集进程进行采集;
所述监测程序,还用于监测所述日志采集进程和所述告警收集进程的运行情况,在监测到所述日志采集进程或所述告警收集进程出现异常时,发送异常提示信息至所述资源注册中心。
7.根据权利要求1所述的方法,其特征在于,所述部署监测程序至待检测的服务器之前,还包括:
获取所述服务器的访问地址,并生成所述服务器的标识;
将所述访问地址和所述标识,注册至所述资源注册中心;所述访问地址用于为所述资源注册中心提供与所述服务器进行数据交互的通道。
8.一种日志采集装置,其特征在于,所述装置包括:
程序部署模块,用于部署监测程序至待检测的服务器;所述监测程序用于监测所述服务器上的进程的运行信息;
进程确定模块,用于在接收到所述监测程序返回的进程更新信息的情况下,根据所述进程更新信息,确定所述服务器上当前运行的进程;
标识确定模块,用于根据所述当前运行的进程,确定所述服务器对应的采集组件标识;
组件部署模块,用于获取所述采集组件标识对应的目标采集组件,将所述目标采集组件部署至所述服务器,并停止运行所述服务器上原有的采集组件,以基于所述目标采集组件,对所述服务器上当前运行的进程进行日志采集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的日志采集方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的日志采集方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的日志采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573696.6A CN116931983A (zh) | 2023-05-19 | 2023-05-19 | 日志采集方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310573696.6A CN116931983A (zh) | 2023-05-19 | 2023-05-19 | 日志采集方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116931983A true CN116931983A (zh) | 2023-10-24 |
Family
ID=88388505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310573696.6A Pending CN116931983A (zh) | 2023-05-19 | 2023-05-19 | 日志采集方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116931983A (zh) |
-
2023
- 2023-05-19 CN CN202310573696.6A patent/CN116931983A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10152382B2 (en) | Method and system for monitoring virtual machine cluster | |
WO2021129367A1 (zh) | 一种监控分布式存储系统的方法及装置 | |
US8060782B2 (en) | Root cause problem identification through event correlation | |
US20200092180A1 (en) | Methods and systems for microservices observability automation | |
CN110362455B (zh) | 一种数据处理方法和数据处理装置 | |
US9164857B2 (en) | Scalable structured data store operations | |
US10664335B2 (en) | System and method for maintaining the health of a machine | |
CN115248826A (zh) | 一种大规模分布式图数据库集群运维管理的方法和系统 | |
CN113220540A (zh) | 业务管理方法、装置、计算机设备和存储介质 | |
US11120037B2 (en) | Test data integration system and method thereof | |
CN111625418A (zh) | 一种进程监控方法及装置 | |
CN114118991A (zh) | 第三方系统监控系统、方法、装置、设备及存储介质 | |
CN107451056B (zh) | 监听接口测试结果的方法及装置 | |
CN116931983A (zh) | 日志采集方法、装置、计算机设备和存储介质 | |
CN114490003A (zh) | 大规模数据的分布式作业调度方法及相关设备 | |
CN117097599B (zh) | 网络服务检测方法、装置、计算机设备和存储介质 | |
CN115150253B (zh) | 一种故障根因确定方法、装置及电子设备 | |
CN115801545B (zh) | 一种混合云管的异常实时上报方法、系统、设备和介质 | |
Chakraborty et al. | Observability | |
US10296967B1 (en) | System, method, and computer program for aggregating fallouts in an ordering system | |
CN117149589A (zh) | 业务系统的资源管理方法、装置、设备、存储介质和产品 | |
US20220114071A1 (en) | Apparatus and method for determining the performance impact of changes in a computing system | |
CN117407282A (zh) | 应用程序告警方法、装置、设备、存储介质和程序产品 | |
CN116032619B (zh) | 智能安全联网设备的状态巡检方法及装置 | |
CN117194191A (zh) | 日志监控告警方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |