CN116089218A

CN116089218A - 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统

Info

Publication number: CN116089218A
Application number: CN202310098359.6A
Authority: CN
Inventors: 李留; 王丽丽; 蔡敏伟; 苌程
Original assignee: Hangzhou Harmonycloud Technology Co Ltd
Current assignee: Hangzhou Harmonycloud Technology Co Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-09

Abstract

本发明公开一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法，属于领域；该方法包括：获取历史数据；将历史数据输入到预测模型进行训练和预测，得到预测数据；根据预测数据和当前值，判断数据是否异常；若数据异常，则告警。本发明还公开一种基于Kubernetes的历史数据和趋势分析的动态基线告警系统。本发明通过历史数据接入，多监控源采集到的数据汇聚到一处，统一格式，统一清洗、过滤，生成标维化的监控数据，存入数据仓库。对存储在数据仓库中的历史监控数据进行大数据分析，生成动态基线。基于动态基线对接入的监控数据进行异常检测，实时发现监控对象的故障状况，生成告警。

Description

基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统

技术领域

本发明涉及数据库技术领域，具体涉及一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统。

背景技术

传统架构下，业务服务及应用间的调用关系相对固化，架构偏向于前端展示层、应用层、数据层、数据存储层分离。但在云环境中，业务应用的架构通过功能职责拆分成为独立的服务应用模块。

不断拆分的微服务架构，迁移至kubernetes平台后也带来了更优的维护性、更好的拓展性、独立升级性、业务健壮性等能力，也让基于kubernetes的云上pod的资源调度变得越来越错综复杂，给故障发现和快速定位带来了挑战。在云环境资源存在运行故障或不稳定时，也能被重新调度到其他可用资源中，微服务业务运行更加稳定，但另一方面，历史数据跟踪也变得越来越难，基于历史数据和趋势分析的动态基线告警变得越发重要。

综上，将大数据作用于历史监控数据分析，生成监控指标的智能预测，用于动态基线告警的功能需求越来越强烈。从根本上解决过去只用固定阀值进行异常检测造成的误报、漏报率居高不下，以及告警风暴问题。结合历史数据和深度学习算法，预测指标未来的走势并据此生成预警，提前规避风险的检测方法显得尤为重要。

随着微服务架构、云计算的不断深入发展，业务系统持续容器化的场景下，技术架构由传统运维向云运维转变。业务应用的系统健康、安全、稳定、持续运行变成为关键，通过历史数据的趋势分析，确认当前Kubernetes上业务系统的健康状况已成为当前最重要的需求点。

现有业务系统告警的监测主要采用固定指标告警方式，主要通过硬件指标监控，定期对业务系统进行定期巡检并告警问题，如Kubernetes中标配的prometheus监测当前业务系统，提供对主机和容器应用级别的内存、CPU、网络流量、磁盘读写和容量的统计性指标分析，从资源角度形成告警的方法。

发明内容

本发明的目的在于提供一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统。

为解决上述技术问题，本发明提供一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法，包括以下步骤：

获取历史数据；所述历史数据包括训练指标和需预测指标；

将训练指标输入到预测模型进行训练，得到训练后预测模型；

将需预测指标输入到训练后预测模型进行预测，得到需预测指标的预测数据；

获取需预测指标相对应的实时数据；

根据需预测指标的预测数据和实时数据，判断数据是否异常；

若数据异常，则告警。

优选地，所述训练指标和需预测指标的指标类型均包括周期型指标和非周期性指标。

优选地，将训练指标输入到预测模型进行训练，得到训练后预测模型，具体包括以下步骤：

根据历史数据中训练指标的指标类型，将不同指标类型的训练指标分别输入到相应的预测模型中进行训练，得到训练后预测模型。

优选地，预测模型进行训练，具体包括以下步骤：

对历史数据中的训练指标进行预处理，得到预处理后训练指标；

将预处理后训练指标进行归一化处理，得到归一化处理后训练指标；

将归一化处理后训练指标划分为训练集和测试集，使用训练集对预测模型进行训练，使用测试集对预测模型进行测试，得到训练后预测模型。

优选地，将需预测指标输入到训练后预测模型进行预测，得到需预测指标的预测数据，具体包括以下步骤：

根据历史数据中的需预测指标的指标类型，将需预测指标输入到相应的训练后预测模型中进行预测，得到预测结果。

优选地，训练后预测模型中进行预测，具体包括以下步骤：

对历史数据中的需预测指标进行预处理，得到预处理后需预测指标；

将预处理后需预测指标进行归一化处理，得到归一化处理后训练指标；

将归一化处理后训练指标输入相应的训练后预测模型进行预测，得到预测结果。

优选地，所述预测模型为lstm神经网络模型。

本发明还提供一种基于Kubernetes的历史数据和趋势分析的动态基线告警系统，包括：

第一获取模块，用于获取历史数据；所述历史数据包括训练指标和需预测指标；

训练模块，用于将训练指标输入到预测模型进行训练，得到训练后预测模型；

预测模块，用于将需预测指标输入到训练后预测模型进行预测，得到需预测指标的预测数据；

第二获取模块，用于获取需预测指标相对应的实时数据；

判断模块，用于根据需预测指标的预测数据和实时数据，判断数据是否异常；

告警模块，用于告警。

与现有技术相比，本发明的有益效果为：

本发明通过有效降低MTTR(平均恢复时间mean time to repair)，一方面使运维部门的工作效率大大提高，另一方面也使运行的业务连续性更有保证。通过历史数据接入，多监控源采集到的数据汇聚到一处，统一格式，统一清洗、过滤，生成标维化的监控数据，存入数据仓库。对存储在数据仓库中的历史监控数据进行大数据分析，生成动态基线。基于动态基线对接入的监控数据进行异常检测，实时发现监控对象的故障状况，生成告警。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为数据训练和预测告警架构图；

图2为算法分析流程图；

图3为模块协助流程图；

图4为指标分类模块流程图；

图5为异常检测模块流程图；

图6为指标分类模块流程图；

图7为本发明一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法的流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图对本发明做进一步的详细描述：

如图1所示，一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法，包括以下步骤：

获取历史数据；所述历史数据包括训练指标和需预测指标；

获取需预测指标相对应的实时数据；

若数据异常，则告警。

优选地，预测模型进行训练，具体包括以下步骤：

优选地，训练后预测模型中进行预测，具体包括以下步骤：

优选地，所述预测模型为lstm神经网络模型。

第一获取模块，用于获取历史数据；所述历史数据包括训练指标和需预测指标

第二获取模块，用于获取需预测指标相对应的实时数据；

告警模块，用于告警。

本发明通过基础设施硬件、主机、网络、应用、中间件等全维度、多方位监控历史数据接入、汇聚、分析，实现面向业务视角的基础设施运维智能化。通过数据清理、智能故障定界、故障根因分析、告警压缩和过滤等能力，对运维体系中的问题和异常进行诊断，专注于故障的发现、定位和辅助决策，发现故障出现在业务系统的哪个环节、哪个位置，并为故障的处理指明方向，辅助排障。

为了更好的说明本发明的技术效果，本发明提供如下具体实施例说明上述技术流程：

实施例1、一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法，包括：

本发明提供的基于Kubernetes的历史数据和趋势分析方法，通过全维度监控数据接入的方式，进行训练及分析预测。下述方案通过历史数据接入，基于接入的kafka监控数据进行异常检测状况为例展开详细说明。

1、云边协同设计方案

数据采集接入：通过Kafka、Zabbix、Prometheus、APM工具等采集监控数据，适用于硬件基础设施资源、网络设备资源、主机系统资源、数据库、中间件、应用等多个维度。

异常检测模块：主模块负责实时数据的检测工作，是异常检测模块的入口模块，实时接收来自历史数据，判断检测类型。根据指标分类使用统计方法进行判断异常。案例以Kafka模块实时接入为例。

历史数据训练及预测：指标分类模块负责指标的分类、统计阈值计算、发起预测器模块和无监督训练模块任务的工作。根据分类发起预测或无监督训练任务，若指标为周期型指标，则向预测器模块发送预测任务，注明为短期预测；若指标为非周期性指标，则向无监督训练模块发送训练任务。

告警通知：在告警管理中心平台，对出现的预测出的异常发出告警，并提供关联的预测数据信息。

2、总体算法设计方案

异常检测具体实现步骤如下，如图5所示；

(1)实时接收来自kafka的指标数据，判断检测类型；若检测类型为用户设置的固定阈值检测，则跳至步骤2；若检测类型为非固定阈值检测；则跳至步骤3。

(2)直接进行阈值判断，跳至步骤9。

(3)判断该指标是否是新指标，或者该指标的相关检测参数(指标类型、指标统计阈值)是否缺失；若该指标是新指标，或该指标的相关检测参数缺失，则跳至步骤4；否则，跳至步骤5；

(4)向指标分类模块发送分类任务，并结束检测。

(5)根据异常规则，来逐个判断每个指标是否异常，进行统计；由于统计方法漏报很低，误报高，所以当统计方法判断为正常数据时结束检测，跳至步骤6。

例如异常规则为设置资源使用率默认阈值，判定各个指标是否超过资源使用率默认阈值。

(6)若统计方法检测为异常，则根据指标类型进行进一步检测；

若指标为周期类型，则跳至步骤7；

若指标为非周期类型，则跳至步骤8。

(7)若指标为周期类型，则调用基于阈值的检测方法，该检测方法读取历史数据及预测器生成的短期预测数据，生成残差序列，根据残差序列进行当前值的异常概率判断(3-sigma)，若非异常则结束检测，若为异常，跳至步骤9。

(8)若指标为非周期类型(稳定型、趋势型)，则调用无监督学习的检测方法，该方法读取历史数据和无监督训练模块训练好的模型，对数据提取时序特征进行判断，若实时异常检测中判断为异常则跳至步骤9，否则结束检测。

(9)将异常信息封装从kafka发出。

指标分类模块具体实现步骤如下：

(1)实时接收来自异常检测主模块的kafka分类任务，并定期启动指标的重分类任务。

(2)读取历史数据计算指标分类，指标类型划分如图6所示。

(3)根据分类计算统计阈值参数，并将分类结果和阈值参数存储至mysql。

(4)根据分类发起预测或无监督训练任务，若指标为周期型指标，则向预测器模块发送预测任务，注明为短期预测；若指标为非周期性指标，则向无监督训练模块发送训练任务。“预测器模块”和“无监督训练模块”采用同样的离线训练算法模型，分别输入不同的周期性指标和非周期性指标分别进行数据分析。

3、主体训练方法算法设计方案

主体训练方式为离线训练train模式，具体实现步骤如下：

(1)获取需训练指标：从mysql数据库的配置项目(cfg_item)表中获取手动设定的需要预测的指标数据，设置后其指标预测值(predict_flag)会成为1，查看该指标的训练时间(train_time)是否为空，为空即为未训练数据。同时与当前时间的差值大于默认重训练时间，默认值为1天，可在算法配置文件中修改重训时间，若符合重训练条件则加入训练指标队列(list)。

(2)对数据按照设定的间隔大小进行采样，间隔大小可以在算法配置文件(algorithm_config.py)中修改离线训练配置中的步长(step)，采样处理之后存入mongodb数据库的采样项目表(sample_item)中，该表中的数据只有记录时间(recordTime)和预测值(value)两个字段，因为该数据只用于预测，不需要其他的字段。采样方法将先判断sample_item中是否有数据(该指标是否采样过)，若没有数据则发起初次采样，从mongodb数据库的item表中获取训练所需时长范围内的全部原始数据，再使用pandas的resample方法对数据按设定的间隔大小进行采样；若有数据，则获取采样数据中时间最近的时间，读取这个时间到当前时间内的全部历史数据进行采样。最后将采样数据存储至mongodb数据库的sample_item表中。

(3)从mongodb数据库的sample_item表中根据item_id获取历史数据，历史数据的时间长度与训练所需的数据时长有关，可以在算法配置文件(algorithm_config.py)中修改离线训练配置中的训练时段(train_period)。

(4)数据预处理：

对原始数据进行空值处理及填补、根据时间去重并处理数据的间隔，生成规范的时间序列(TimeSeries)数据。

(5)模型训练：

1)、使用特征缩放的处理方式进行归一化，即将数据处理为[0,1]之间的小数。

2)、将时序数据通过滑窗处理划分为(input_shape,out_shape)输入、输出张量的形式数据格式的样本数据。例如(50，20)格式的数据表示每条数据的输入x为当前点的前50个值(含当前点)，输出y为当前点的后20个值，因此这个模型将对样本学习前50个点和未来20个点之间的规律，生成的模型对于每条输入x能够预测未来的20个点。其中input_shape和output_shape可以在算法配置文件(algorithm_config.py)中修改离线训练配置。

3)、使用lstm神经网络进行训练。

(6)训练生成的模型存储至指定路径，如：“../model”路径。文件命名规则采用元素+指标值：模型文件名如item_id为10的指标的模型文件命名为10.h5。

4、在线预测算法设计方案

(1)获取需预测指标：从mysql数据库的配置项目(cfg_item)表中获取预测值(predict_flag)为1的指标，查看该指标中下一次需要预测的时间(predict_time)是否为空(未预测过)，或是否小于当前时间，若符合重预测条件则加入预测指标队列(list)，这里需要进行后续预测流程的字段包括项目id(item_id)、数据标准化(unit_scale)、预测阈值(pre_threshold)。

(2)对数据按照设定的间隔大小进行采样，间隔大小可以在算法配置文件(algorithm_config.py)中修改离线训练配置中的步长(step)，采样处理之后存入mongodb数据库的采样项目表(sample_item)中，该表中的数据只有记录时间(recordTime)和预测值(value)两个字段，因为该数据只用于预测，不需要其他的字段。这里的采样方法将中从mongodb数据库的item表获取采样数据中时间最近的时间，读取这个时间到当前时间内的全部历史数据进行采样。最后将采样数据存储至mongodb数据库的采样项目表(sample_item)表中。

(3)从mongodb数据库的采样项目表(sample_item)表中根据item_id获取历史数据，历史数据的长度与预测模型所需的输入数据量大小有关，可以在算法配置文件(algorithm_config.py)中修改训练字典(TRAIN_DICT)中的input。

(4)数据预处理：

(5)读取模型：

根据item_id从模型目录中读取训练好的模型，若不存在模型则表示模型还未训练完成，则输出提示日志，结束当前预测任务。

(6)使用模型进行预测：

1)、使用特征缩放的处理方式进行归一化；

2)、将数据封装为(input_shape,out_shape)格式的数据作为模型输入，模型predict的结果就为预测的结果。

(7)判断是否有预警

根据用户设置的阈值判断预测点中是否有异常点。若有异常点则对设置的第一个预测阈值配置点进行告警，将预警信息发送。

(8)更新下一次预测与预警的时间

若当前预测点中有告警则以第一个告警点的下一秒钟为下次预测预警的时间；若预测点中不存在告警，则预测预警时间为默认重预警时间间隔之后，可以在算法配置文件中修改预测阈值。

本发明公开了一种基于Kubernetes的历史数据和趋势分析的动态基线告警方法，设计对Kubernetes上的系统历史数据处理及趋势分析的方法。在kubernetes环境中，对容器的数据仓库中的历史监控数据进行大数据分析，生成动态基线。基于动态基线对接入的监控数据进行异常检测，实时发现监控对象的故障状况，生成告警。

本发明基于全维度监控数据集中接入，打通硬件、网络、应用、中间件等监控数据之前的竖井壁垒。然后，对打通之后的监控数据进行大数据实时融合关联分析，生成融合了各种监控数据的业务拓扑图，从业务视角审视IT系统的健康度。

本发明基于机器学习智能算法对故障的根因进行分析，结合现有数据的情况，发出预警信息，给出故障根因推荐，提高排障效率。

计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线段、电线段、光缆、RF等等，或者上述的任意合适的组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、模组或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元、模组或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本发明的方法中限定的上述功能。需要说明的是，本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件，或者任意以上的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，包括以下步骤：

获取历史数据；所述历史数据包括训练指标和需预测指标；

获取需预测指标相对应的实时数据；

若数据异常，则告警。

2.根据权利要求1所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于：

所述训练指标和需预测指标的指标类型均包括周期型指标和非周期性指标。

3.根据权利要求2所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，将训练指标输入到预测模型进行训练，得到训练后预测模型，具体包括以下步骤：

4.根据权利要求3所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，预测模型进行训练，具体包括以下步骤：

5.根据权利要求4所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，将需预测指标输入到训练后预测模型进行预测，得到需预测指标的预测数据，具体包括以下步骤：

6.根据权利要求5所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，训练后预测模型进行预测，具体包括以下步骤：

7.根据权利要求1所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于：

所述预测模型为lstm神经网络模型。

8.一种基于Kubernetes的历史数据和趋势分析的动态基线告警系统，用于实现如权利要求1-7任一所述的基于Kubernetes的历史数据和趋势分析的动态基线告警方法，其特征在于，包括：

第二获取模块，用于获取需预测指标相对应的实时数据；

告警模块，用于告警。