CN114090378A

CN114090378A - 一种基于Kapacitor的自定义监控告警方法

Info

Publication number: CN114090378A
Application number: CN202111382833.5A
Authority: CN
Inventors: 于德江; 江燕; 高传集
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-25

Abstract

本发明公开一种基于Kapacitor的自定义监控告警方法,涉及性能监控技术领域；通过数据采集层的Telegraf采集监控数据，并利用数据持久层的InfluxDB存储Telegraf采集的监控数据，通过告警规则配置层中Kapacitor配置告警规则，并利用TICKscript语言定义数据处理管道，在告警事件触发层判断Telegraf采集的监控数据是否达到告警阈值，若达到告警阈值则根据告警通知策略进行告警，并通过用户展示层展示用户自定义监控数据，同时通过数据展示层展示原生监控数据。

Description

一种基于Kapacitor的自定义监控告警方法

技术领域

本发明公开一种方法,涉及性能监控技术领域，具体地说是一种基于Kapacitor的自定义监控告警方法。

背景技术

在云计算，大数据等技术日趋成熟的情况下，用户的服务产品越来越多，用户对自有资源的资源使用情况、业务的运行状况和健康度，并及时收到异常告警做出反应的需求越来越迫切。但目前还没有能够监控容器化环境下系统资源使用状况，有效覆盖线上问题和定位，从而使服务开发和运维人员能更有效率地排查和解决问题的方法。

发明内容

本发明针对现有技术的问题，提供一种基于Kapacitor的自定义监控告警方法，用于分析系统性能问题，以及系统故障的时候，能够快速定位和解决。

本发明提出的具体方案是：

一种基于Kapacitor的自定义监控告警方法，通过数据采集层的Telegraf采集监控数据，并利用数据持久层的InfluxDB存储Telegraf采集的监控数据，

通过告警规则配置层中Kapacitor配置告警规则，并利用TICKscript语言定义数据处理管道，在告警事件触发层判断Telegraf采集的监控数据是否达到告警阈值，若达到告警阈值则根据告警通知策略进行告警，并通过用户展示层展示用户自定义监控数据，同时通过数据展示层展示原生监控数据。

进一步，所述的一种基于Kapacitor的自定义监控告警方法中所述数据采集层中进行Telegraf的搭建，包括:

将Telegraf镜像，打包并放到集群镜像仓库中,

编写相应的Telegraf yaml文件并引入相应的输入插件,

给命名空间分配集群的读取权限，并在命名空间存储Telegraf的配置。

进一步，所述的一种基于Kapacitor的自定义监控告警方法中所述数据持久层中进行InfluxDB的搭建，包括:

将InfluxDB镜像，打包并放到集群镜像仓库中，

在Kubernetes集群中创建自定义的的命名空间，存放InfluxDB运行的容器，

给命名空间分配集群的读取权限，

在命名空间存储InfluxDB容器的配置，

在命名空间申请InfluxDB使用的数据卷，

在命名空间创建有状态负载，并在命名空间创建Service，对外提供SVC服务。

进一步，所述的一种基于Kapacitor的自定义监控告警方法中所述告警规则配置层中进行Kapacitor搭建，包括：

将Kapacitor镜像，打包并放到集群镜像仓库中，

在搭建好的Kubernetes集群中创建自定义的的命名空间，存放Kapacitor运行的容器，

给命名空间分配集群的读取权限，

在命名空间存储Kapacitor容器的配置，

在命名空间申请Kapacitor使用的数据卷，

在命名空间创建Deployment，通过yaml文件安装Kapacitor，

在命名空间创建Service，对外提供svc服务。

进一步，所述的一种基于Kapacitor的自定义监控告警方法中所述根据告警通知策略进行告警，包括：

根据告警通知策略中ID标识监控对象名称、标识监控指标及告警级别确定实际的告警级别，根据实际告警级别以短消息或者是邮件的方式进行告警通知。

一种基于Kapacitor的自定义监控告警平台，包括数据收集提取模块和监控告警模块，

数据收集提取模块通过自定义监控告警平台的数据采集层的Telegraf采集监控数据，并利用数据持久层的InfluxDB存储Telegraf采集的监控数据，

监控告警模块通过告警规则配置层中Kapacitor配置告警规则，并利用TICKscript语言定义数据处理管道，在告警事件触发层判断Telegraf采集的监控数据是否达到告警阈值，若达到告警阈值则根据告警通知策略进行告警，并通过用户展示层展示用户自定义监控数据，同时通过数据展示层展示原生监控数据。

进一步，所述的一种基于Kapacitor的自定义监控告警平台中所述数据收集提取模块在数据采集层中进行Telegraf的搭建，包括:

将Telegraf镜像，打包并放到集群镜像仓库中,

编写相应的Telegraf yaml文件并引入相应的输入插件,

进一步，所述的一种基于Kapacitor的自定义监控告警平台中所述数据收集提取模块在数据持久层中进行InfluxDB的搭建，包括:

将InfluxDB镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储InfluxDB容器的配置，

在命名空间申请InfluxDB使用的数据卷，

进一步，所述的一种基于Kapacitor的自定义监控告警平台中所述监控告警模块在告警规则配置层中进行Kapacitor的搭建，包括：

将Kapacitor镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储Kapacitor容器的配置，

在命名空间申请Kapacitor使用的数据卷，

在命名空间创建Deployment，通过yaml文件安装Kapacitor，

在命名空间创建Service，对外提供svc服务。

进一步，所述的一种基于Kapacitor的自定义监控告警平台中所述监控告警模块根据告警通知策略进行告警，包括：

本发明的有益之处是：

本发明提供一种基于Kapacitor的自定义监控告警方法，监控平台和业务系统中所涉及的硬件资源、软件资源、系统信息等，可以及时有效的了解系统目前的资源使用状况并通过消除管理软件的差别，数据采集手段的差别，对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现，最终实现运维规范化、自动化、智能化的大运维管理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法应用框架示意图。

具体实施方式

Telegraf是一个插件驱动的服务器代理，可以直接从其运行的容器和系统中提取各种指标、事件和日志，甚至可以通过StatsD和Kafka消费者服务监听指标。它还具有输出插件，可将指标发送到各种其他数据存储、服务和消息队列。

InfluxDB是一个开源时序型数据库，专注于海量时序数据的高性能读写、高效存储与实时分析等，广泛应用于DevOps监控、IoT监控、实时分析等场景，其部署简单、使用方便，无需任何外部依赖即可独立部署，且提供类似于SQL的查询语言，接口友好，使用方便，具有丰富的聚合运算和采样能力，提供灵活的数据保存策略(Retention Policy)来设置数据的保留时间和副本数，在保障数据可靠性的同时，及时删除过期数据，释放存储空间，提供灵活的连续查询(Continues Query)来实现对海量数据的采样。

Kapacitor是一个开源框架，用来处理、监控和警告时间序列数据，使用TICKscript脚本来定义任务，并对时序数据库当中的数据进行过滤，筛选，批处理等进行告警，告警信息可以通过日志保存在本地，或回插到InfluxDB，还可以直接在告警产生后发起http请求到指定地址，Kapacitor支持数据流(stream)和批处理(batch)数据。

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提供一种基于Kapacitor的自定义监控告警方法，通过数据采集层的Telegraf采集监控数据，并利用数据持久层的InfluxDB存储Telegraf采集的监控数据，

本发明方法通过Telegraf、InfluxDB、Kapacitor等组件以一种灵活松散组合、但紧密配合互为补充的方式专注于DevOps监控、IoT监控、实时分析等场景，集采集、存储、分析等能力为一体，构成了完整的生态。

具体应用中，在本发明方法的一些实施例中，分别通过数据采集层、数据持久层、数据展示层、告警规则配置层，告警发生层及用户展示层进行自定义监控告警。

其中通过数据采集层收集主机数据、系统数据、容器数据等时间序列型数据，比如服务器CPU指标、内存指标、各种IoT设备产生的数据等。

在数据采集层搭建安装Telegraf：

将Telegraf镜像，打包并放到集群镜像仓库中，

根据部署的组件编写相应的Telegraf yaml文件并引入相应的输入插件(Inputs)。如采集系统cpu信息插件(inputs.cpu)，磁盘信息插件(inputs.disk)，mysql数据库信息插件(inputs.mysql)等，

给命名空间分配集群的读取权限，并在命名空间创建ConfigMap用来存储Telegraf的一些配置，

创建Deployment模式的Telegraf，通过yaml文件安装Telegraf。

通过数据采集层还行驶包括监控数据采集，数据处理、数据聚合，数据输出等功能，数据处理主要是对采集到的指标数据进行一些简单的处理，如增加或删除tag，添加一些用户的元数据等。数据聚合主要对某段时间内所有的数据做聚合处理(如最大值，最小值，平均值等操作)。数据输出将被处理或聚合后的数据输出到数据存储系统，如：文件，Influxdb，各种消息服务队列等。

通过数据持久层将采集到的数据，经过对应频率的颗粒度的汇聚后，输出到数据存储系统。本发明使用InfluxDB作为数据存储系统。InfluxDB是时序数据库，适合存储采集的指标数据，提供了对时序数据高效率的存储优化，以时间维度的高效率的数据检索,内置丰富的数据计算函数，支持数据的科学计算。

其中在数据持久层搭建安装InfluxDB时，将InfluxDB镜像，打包并放到集群镜像仓库中，

在搭建好的Kubernetes集群中创建自定义的的命名空间，主要用于存放InfluxDB运行的容器，

给命名空间分配集群的读取权限，

在命名空间创建ConfigMap用来存储InfluxDB容器的一些配置，

在命名空间创建PersistentVolume用来申请InfluxDB使用的数据卷，

在命名空间创建StatefulSet用来创建有状态负载，

在命名空间创建Service，以对外提供SVC服务。

通过数据展示层可以用influxData自带的Chronograf(或者Grafana)，将数据收集层获取到的原生数据进行统一展示，展示的方式可以是曲线图、柱状图、饼状态等，通过将数据图形化，可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势，并作为运维人员排查问题或解决问题的依据。

通过告警规则配置层根据要监控的资源及业务需求，自定义告警统计周期、聚合方式，告警触发阈值，告警通知频率等。告警规则配置完成后，生成TICKscript语言，通过RestAPI的方式请求Kapacitor。具体实施时，Kapacitor允许定义模板并重用它来完成多个任务，每个任务可以为模板中的各种vars定义自己的值，模板可以重用，对于同样的告警逻辑，不同的监控对象可以使用自己的参数实例化模板产生具体的告警处理任务，模板通过DSL脚本定义，可以直接修改而不需要编译，在实际系统环境中可以方便的修改和部署，以快速响应需求。

Kapacitor中任务类型分为两种：stream和batch，Kapacitor使用名为TICKscript的DSL来定义任务，每个TICKscript定义一个管道，告诉Kapacitor要处理哪些数据以及如何处理，TICKscript语言是一种调用链接语言，每个脚本都有一个作用范围，并且作用范围中的每个变量都定义了可以在其上调用的方法；这些方法有两种：属性方法，即修改调用的节点并返回对同一节点的引用的方法和链接方法，即创建一个新节点作为节点的子节点，并返回一个对新节点的引用的方法，每个TICKscript都有一个流或批变量，取决于想要运行的任务类型；Kapacitor使用TICKscript定义数据处理管道，管道是一组节点，它处理连接节点的数据和边缘，Kapacitor的中的管道是有向无环图(DAGs)，这意味着每个边有一个数据流的方向，而管道中不可能有任何循环，每个边缘都有一个类型，StreamEdge是一次传输单个数据点的数据的边缘，BatchEdge是一种以块方式而不是一次一次地传送数据的边缘，连接节点时，TICKscript语言不会阻止连接错误类型的边缘，而是在运行时执行检查，因此，语法正确的脚本可以定义无效的管道。

其中告警脚本如下：

通过告警规则配置层搭建安装Kapacitor如下步骤：

将Kapacitor镜像，打包并放到集群镜像仓库中，

在搭建好的Kubernetes集群中创建自定义的的命名空间，主要用于存放Kapacitor运行的容器，

给命名空间分配集群的读取权限，

在命名空间创建ConfigMap用来存储Kapacitor容器的一些配置，

在命名空间创建PersistentVolumeClaim用来申请Kapacitor使用的数据卷，

在命名空间创建Deployment，通过yaml文件安装Kapacitor，

在命名空间创建Service，以对外提供svc服务。

通过告警事件触发层监控数据达到告警阈值Kapacitor将根据Lambdaexpressions产生告警信息。

Kapacitor产生的原始告警信息，是一种数字化的告警状态信息，在通知到告警中心之前，需要进行可视化的处理，格式化为用户可以阅读的信息，原始告警信息类似为.message('{{.ID}}is{{if eq.Level"OK"}}alive{{else}}dead{{end}}:{{index.Fields"emitted"|printf"％0.3f"}}points/10s.')，具体实施时将.ID标识监控对象名称，index.Fields标识监控指标，.Level告警级别更换为实际的告警级别，比如“紧急告警”，使用正则表达式匹配并替换实际告警对象和告警描述信息，生产用户可阅读和理解的告警信息描述；并可以设置告警通知策略，以短消息或者是邮件的方式通知到用户。

通过用户展示层展示监控数据页面，主要展示监控统计结果。用户可以根据业务需求展示不同采样周期(1分钟、5分钟、1小时、24小时)不同时间段内的监控数据。

通过上述实施，本发明方法可以实时监控及告警，使用户及时有效的了解系统目前的资源使用状况。

同时本发明还提供一种基于Kapacitor的自定义监控告警平台，包括数据收集提取模块和监控告警模块，

上述平台内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

同样地，本发明平台可以监控平台和业务系统中所涉及的硬件资源、软件资源、系统信息等，可以及时有效的了解系统目前的资源使用状况并通过消除管理软件的差别，数据采集手段的差别，对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现，最终实现运维规范化、自动化、智能化的大运维管理。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于Kapacitor的自定义监控告警方法，其特征是通过数据采集层的Telegraf采集监控数据，并利用数据持久层的InfluxDB存储Telegraf采集的监控数据，

2.根据权利要求1所述的一种基于Kapacitor的自定义监控告警方法，其特征是所述数据采集层中进行Telegraf的搭建，包括:

将Telegraf镜像，打包并放到集群镜像仓库中,

编写相应的Telegraf yaml文件并引入相应的输入插件,

3.根据权利要求1所述的一种基于Kapacitor的自定义监控告警方法，其特征是所述数据持久层中进行InfluxDB的搭建，包括:

将InfluxDB镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储InfluxDB容器的配置，

在命名空间申请InfluxDB使用的数据卷，

4.根据权利要求1所述的一种基于Kapacitor的自定义监控告警方法，其特征是所述告警规则配置层中进行Kapacitor搭建，包括：

将Kapacitor镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储Kapacitor容器的配置，

在命名空间申请Kapacitor使用的数据卷，

在命名空间创建Deployment，通过yaml文件安装Kapacitor，

在命名空间创建Service，对外提供svc服务。

5.根据权利要求1所述的一种基于Kapacitor的自定义监控告警方法，其特征是所述根据告警通知策略进行告警，包括：

6.一种基于Kapacitor的自定义监控告警平台，其特征是包括数据收集提取模块和监控告警模块，

7.根据权利要求6所述的一种基于Kapacitor的自定义监控告警平台，其特征是所述数据收集提取模块在数据采集层中进行Telegraf的搭建，包括:

将Telegraf镜像，打包并放到集群镜像仓库中,

编写相应的Telegraf yaml文件并引入相应的输入插件,

8.根据权利要求6所述的一种基于Kapacitor的自定义监控告警平台，其特征是所述数据收集提取模块在数据持久层中进行InfluxDB的搭建，包括:

将InfluxDB镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储InfluxDB容器的配置，

在命名空间申请InfluxDB使用的数据卷，

9.根据权利要求6所述的一种基于Kapacitor的自定义监控告警平台，其特征是所述监控告警模块在告警规则配置层中进行Kapacitor的搭建，包括：

将Kapacitor镜像，打包并放到集群镜像仓库中，

给命名空间分配集群的读取权限，

在命名空间存储Kapacitor容器的配置，

在命名空间申请Kapacitor使用的数据卷，

在命名空间创建Deployment，通过yaml文件安装Kapacitor，

在命名空间创建Service，对外提供svc服务。

10.根据权利要求6所述的一种基于Kapacitor的自定义监控告警平台，其特征是所述监控告警模块根据告警通知策略进行告警，包括：