CN117667311A

CN117667311A - 容器集群的监控告警方法及装置

Info

Publication number: CN117667311A
Application number: CN202311706836.9A
Authority: CN
Inventors: 阮宜龙; 张云龙; 汤文峰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-03-08

Abstract

本申请公开了一种容器集群的监控告警方法及装置。其中，该方法包括：获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值；对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列；利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。本申请解决了传统的容器集群监控方案缺乏智能性和自适应性，难以满足使用需求的技术问题。

Description

容器集群的监控告警方法及装置

技术领域

本申请涉及云计算技术领域，具体而言，涉及一种容器集群的监控告警方法及装置。

背景技术

在现代云计算环境中，通常使用Kubernetes管理云平台中多个主机上的容器化的应用，Kubernetes可以为应用程序提供稳定的运行环境。传统的Kubernetes集群监控主要依赖于诸如Prometheus这样的时间序列数据库，以及Grafana这样的可视化工具。这些工具能够从Kubernetes组件，如kube-apiserver和kube-controller-manager中，捕获并展示关于集群健康、性能和资源使用的详细指标。

然而，这类传统的监控方法主要基于静态阈值来设置告警，例如当CPU使用率超过90％时发出告警。但这种方法存在一定弊端：该方法只能观察到当前集群的使用情况，无法发现集群潜在的问题并且无法预测未来的资源需求，同时，静态阈值可能无法适用所有场景，在高变化性的应用场景下，静态阈值可能导致大量的误报、漏报现象，而固定的告警阈值需要视集群的资源使用情况频繁的手动调整，进而增加了集群运维的负担。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种容器集群的监控告警方法及装置，以至少解决传统的容器集群监控方案缺乏智能性和自适应性，难以满足使用需求的技术问题。

根据本申请实施例的一个方面，提供了一种容器集群的监控告警方法，包括：获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

可选地，获取容器集群在目标维度的第一性能指标数据序列，包括：利用目标性能监控工具获取容器集群在预设历史时间段和当前的目标维度的第一性能指标数据序列，其中，目标性能监控工具包括以下至少之一：Prometheus工具、Elasticsearch工具、InfluxDB工具、集群应用程序接口服务，目标维度包括以下至少之一：CPU使用率、内存使用率、磁盘输入输出、网络带宽、Pod启动时间、应用程序接口服务的请求延迟。

可选地，确定目标维度对应的目标性能指标阈值，包括：确定容器集群当前已部署的微服务的类型和数量；依据预设函数关系对已部署的微服务的类型和数量进行计算，得到目标性能指标阈值，其中，目标性能指标阈值中包括：对应不同风险等级的多个性能指标阈值区间。

可选地，对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，包括：对第一性能指标数据序列进行数据清洗操作，得到第三性能指标数据序列，其中，数据清洗操作包括以下至少之一：异常数据和噪声数据的检测及清理，缺失数据的插值处理，对不同性能监控工具采集的数据的时间对齐处理；对第三性能指标数据序列进行归一化处理，得到第四性能指标数据序列，其中，若第三性能指标数据序列中的离群值数量超过预设阈值，对第三性能指标数据序列进行Robust标准化处理，若第三性能指标数据序列呈正态分布，对第三性能指标数据序列进行Z-Score标准化处理，否则，对第三性能指标数据序列进行min-max标准化处理；将第四性能指标数据序列作为第二性能指标数据序列。

可选地，确定与目标维度对应的多个数值分段区间；将第四性能指标数据序列中的每个指标数据用指标数据对应的数值分段区间进行离散化表示，得到第二性能指标数据序列。

可选地，数据预测大模型的训练过程包括：构建用于数据预测的大语言模型；获取多个历史时间段的目标维度的性能指标数据序列，并对每个性能指标数据序列进行目标预处理操作，得到多个训练样本；将多个训练样本划分为训练集和验证集；利用训练集对大语言模型进行迭代训练，并利用验证集对模型训练结果进行验证，直至得到满足预设要求的数据预测大模型；周期性利用新获取的性能指标数据序列重新对数据预测大模型进行训练，更新数据预测大模型的模型参数。

可选地，分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息，包括：将第二性能指标数据与目标性能指标阈值中的多个性能指标阈值区间进行匹配，若第二性能指标数据属于目标性能指标阈值区间，确定目标性能指标阈值区间对应的目标风险等级，并生成第一告警提示信息，其中，第一告警提示信息用于提示容器集群存在目标风险等级的问题需要处理；将第三性能指标数据与目标性能指标阈值中的多个性能指标阈值区间进行匹配，若第三性能指标数据属于目标性能指标阈值区间，确定目标性能指标阈值区间对应的目标风险等级，并生成第二告警提示信息，其中，第二告警提示信息用于提示容器集群可能发生目标风险等级的问题。

根据本申请实施例的另一方面，还提供了一种容器集群的监控告警装置，包括：获取模块，用于获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；预处理模块，用于对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；预测模块，用于利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；告警模块，用于分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行该计算机程序执行上述的容器集群的监控告警方法。

根据本申请实施例的另一方面，还提供了一种电子设备，该电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行上述的容器集群的监控告警方法。

在本申请实施例中，获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。其中，通过对性能指标数据进行预处理，可以保证数据预测大模型接收到的数据是高质量的，可以减少噪声干扰和数据不一致带来的预测偏差，提高数据预测大模型的鲁棒性和准确性；通过自适应的目标性能指标阈值设置对应的告警提示信息，可以动态地根据集群的实时状态和行为进行预测和告警，从而可以更精准地捕捉到潜在的问题，并降低误报率，有效解决了传统的容器集群监控方案缺乏智能性和自适应性，难以满足使用需求的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的计算机终端的结构示意图；

图2是根据本申请实施例的一种可选的容器集群的监控告警方法的流程示意图；

图3是根据本申请实施例的一种可选的容器集群的监控告警装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好地理解本申请实施例，首先对本申请实施例描述过程中出现的部分名词或术语翻译解释如下：

Kubernetes：是一个开源的，用于管理云平台中多个主机上的容器化的应用。

集群：是一种用于集团调度指挥通信的移动通信系统。

大语言模型(Large Language Model，LLM)：是一个使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。

实施例1

根据本申请实施例，提供了一种容器集群的监控告警方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现容器集群的监控告警方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的容器集群的监控告警方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请实施例提供了一种容器集群的监控告警方法，如图2所示，该方法包括如下步骤：

步骤S202，获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；

步骤S204，第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；

步骤S206，利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；

步骤S208，分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

以下结合具体的实施过程对容器集群的监控告警方法的各步骤进行说明。

作为一种可选的实施方式，可以通过如下方式获取容器集群在目标维度的第一性能指标数据序列：利用目标性能监控工具获取容器集群在预设历史时间段和当前的目标维度的第一性能指标数据序列，其中，容器集群可以是Kubernetes容器集群，目标性能监控工具可以采用：Prometheus工具、Elasticsearch工具、InfluxDB工具、集群应用程序接口服务，目标维度则可以设置为：CPU使用率、内存使用率、磁盘输入输出、网络带宽、Pod启动时间、应用程序接口服务的请求延迟等。

可选地，可以通过如下方式确定目标维度对应的目标性能指标阈值：确定容器集群当前已部署的微服务的类型和数量；依据预设函数关系对已部署的微服务的类型和数量进行计算，得到目标性能指标阈值，其中，目标性能指标阈值中包括：对应不同风险等级的多个性能指标阈值区间。

其中，预设函数关系可以根据经验和实际需求进行自定义设置，从而实现针对不同场景设置不同的自适应阈值，与传统的固定阈值相比，自适应阈值可以更精准地捕捉到集群中的潜在问题，并且可以降低误报率；同时，通过划分多个性能指标阈值区间对应不同风险等级，则可以实现多级报警，方便运维人员进行检修。

为方便后续的数据分析处理，可以先通过如下方式对第一性能指标数据序列进行预处理操作：首先，可以对第一性能指标数据序列进行数据清洗操作，得到第三性能指标数据序列，其中，数据清洗操作包括以下至少之一：异常数据和噪声数据的检测及清理，缺失数据的插值处理，对不同性能监控工具采集的数据的时间对齐处理。

具体而言，当某个指标突然暴增或暴跌的情况可能是因为瞬间的系统错误或者数据采集的异常，此时需要检测对应的异常数据并进行清理；缺失数据的插值处理即对性能指标数据可能存在缺失的时间点进行处理，具体可以使用对应的插值方法进行处理，如线性插值法，该方法可以利用上一个有效值或者特定模型进行预测进而填充缺失值，其中，特定模型可以是ARIMA模型(Auto-Regressive Moving Average Model，自回归滑动平均模型)等模型；而对不同性能监控工具采集的数据的时间对齐处理主要是为了防止在分布式系统中，时钟偏移或采集延迟导致的数据时间不一致的问题。

之后，可以对第三性能指标数据序列进行归一化处理，得到第四性能指标数据序列，其中，若第三性能指标数据序列中的离群值数量超过预设阈值，对第三性能指标数据序列进行Robust标准化处理，若第三性能指标数据序列呈正态分布，对第三性能指标数据序列进行Z-Score标准化处理，否则，对第三性能指标数据序列进行min-max标准化处理；将第四性能指标数据序列作为第二性能指标数据序列。

可以理解的，归一化处理是将所有性能指标放在一个统一的尺度上，进而提高模型的学习和预测能力。其中，Robust标准化主要是利用四分位数进行标准化，具体公式为：其中，Q₁和Q₃分别是第一四分位数和第三四分位数，x为待标准化的第三性能指标数据；Z-Score标准化是将性能指标数据转换为符合均值为0，标准差为1的标准正态分布的数据，其具体公式为：/>其中，μ为平均值，σ为标准差，x为待标准化的第三性能指标数据；min-max标准化可以将性能指标数据转换到[0,1]区间内，其具体公式为：其中，X_max和X_min分别是第三性能指标序列中的最大值和最小值，x为待标准化的第三性能指标数据。

可选地，在进行归一化处理之后，还可以通过如下方式对性能指标数据进行离散化处理：确定与目标维度对应的多个数值分段区间；将第四性能指标数据序列中的每个指标数据用指标数据对应的数值分段区间进行离散化表示，得到第二性能指标数据序列。

例如，可以根据集群监控的具体指标和业务需求，确定合适的分段范围，例如，对于CPU使用率，可以选择0-25％，25-50％，50-75％和75-100％这样的数值分段区间；根据确定的数值分段区间范围为每个区间设定具体的边界值，对于归一化后的数据，其范围通常是0到1，对于上述CPU使用率可以设定对应的边界值为0，0.25，0.5，0.75和1；之后，对于每一个连续的指标数据点，检查其对应的区间，并将其转换为对应区间的标签，例如，一个归一化后的CPU使用率值为0.4，确定其属于25-50％这个区间，因此其对应的区间标签即为“25-50％”；但在实际应用中，可能会遇到一些特殊情况，如数据刚好落在区间的边界值上，对于这种情况，需要明确设置处理策略，如可以设置将边界值具体归属于左侧区间还是右侧区间的具体策略。通过指标数据的离散化处理，可以简化数据分析的复杂性，减少数据处理的计算量，使数据更具解释性和可视化。

作为一种可选的实施方式，数据预处理完成后，就可以对容器集群当前的性能状态进行评估，并生成对应的告警提示信息。具体地，可以将第二性能指标数据与目标性能指标阈值中的多个性能指标阈值区间进行匹配，若第二性能指标数据属于目标性能指标阈值区间，确定目标性能指标阈值区间对应的目标风险等级，并生成第一告警提示信息，其中，第一告警提示信息用于提示容器集群存在目标风险等级的问题需要处理。

以上述CPU使用率为例，对于0-25％，25-50％，50-75％和75-100％的性能指标阈值区间，可以确定其对应的风险等级分别为：0-25％对应正常情况，此时无需发送告警信息，25-50％对应低风险，50-75％对应中风险，75-100％则对应高风险，相应地，在低风险等级时，发出第一告警信息“CPU使用率处于低风险范围，请注意监控系统性能”；在中风险等级时，发出第一告警信息“CPU使用率处于中风险范围，请及时关注系统性能并进行适当的优化”；在高风险等级时，发出第一告警信息“CPU使用率处于高风险范围，请立即采取紧急措施优化系统性能”。

针对不同的性能指标数据根据其目标性能阈值区间确定对应的风险等级，根据风险等级设置不同的级别的告警提示信息，实现了多级告警机制，从而允许运维团队更加灵活、有针对性地响应并处理各种情况，提高响应的效率和准确性。

为了实现对未来一段时间内的性能指标数据的预测，以评估集群可能存在的风险，本申请实施例还引入了数据预测大模型，通过数据预测大模型对第二性能指标数据序列进行分析处理，可以得到容器集群在未来目标时刻的目标维度的第三性能指标数据。

其中，数据预测大模型可以通过如下方式训练得到：构建用于数据预测的大语言模型；获取多个历史时间段的目标维度的性能指标数据序列，并对每个性能指标数据序列进行目标预处理操作，得到多个训练样本；将多个训练样本划分为训练集和验证集；利用训练集对大语言模型进行迭代训练，并利用验证集对模型训练结果进行验证，直至得到满足预设要求的数据预测大模型；周期性利用新获取的性能指标数据序列重新对数据预测大模型进行训练，更新数据预测大模型的模型参数。

需要说明的是，除了训练集和验证集外，还可以划分一个测试集，即利用训练集对数据预测大模型进行迭代训练，同时利用验证集对数据预测大模型进行验证，根据验证结果不断调整模型的参数，如准确率、召回率和F1分数等，并选择最佳模型，最后利用测试集对最终的模型进行评估，得到需求数据预测大模型，并不断利用新增数据进行迭代训练，从而自适应调整优化模型。利用数据预测大模型可以学习和捕获更加复杂的集群系统行为模式，进而动态地根据集群的实际状态和行为进行预测和告警，可以更好地适应变化的环境和需求，同时及时监控集群系统，保证其正常、稳定和高效的运行。

得到预测的第三性能指标数据后，就可以通过如下方式对容器集群未来的性能状态进行评估，并生成对应的告警提示信息：将第三性能指标数据与目标性能指标阈值中的多个性能指标阈值区间进行匹配，若第三性能指标数据属于目标性能指标阈值区间，确定目标性能指标阈值区间对应的目标风险等级，并生成第二告警提示信息，其中，第二告警提示信息用于提示容器集群可能发生目标风险等级的问题。

依然以上述CPU使用率为例，当数据预测大模型预测的CPU使用率在0-25％范围内的低风险等级时，无需发送第二告警信息；当数据预测大模型预测的CPU使用率在25-50％范围内的低风险等级时，发出第二告警提示信息“CPU使用率处于低风险等级，可能导致CPU性能下降，请注意监控系统性能”；当数据预测大模型预测的CPU使用率在50-75％范围内的中风险等级时，发出第二告警信息“CPU使用率处于中风险等级，可能导致CPU性能严重下降，请及时关注系统性能并进行适当的优化”；当数据预测大模型预测的CPU使用率在75-100％范围内的高风险等级时，发出第二告警信息“CPU使用率处于高风险等级，可能导致系统崩溃，请立即采取措施优化系统性能”。

需要说明的是，上述目标性能指标阈值均是针对预处理后的性能指标数据进行设置，在某些场景中，为了提升可视性，目标性能指标阈值也可以针对原始性能指标数据进行设置，此时，在对容器集群当前的性能状态进行评估时，需要将第一性能指标数据与目标性能指标阈值进行比较；在对容器集群未来的性能状态进行评估时，则需要先对第三性能指标数据进行反离散化、反归一化等处理，将其转换为原始的尺度和单位后，再与目标性能指标阈值进行比较。

实施例2

根据本申请实施例，还提供了一种用于实现实施例1中的容器集群的监控告警方法的容器集群的监控告警装置，如图3所示，该容器集群的监控告警装置中至少包括：获取模块31，预处理模块32，预测模块33和告警模块34，其中：

获取模块31可以获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；

预处理模块32可以对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；

预测模块33可以利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；

告警模块34可以分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

以下结合具体的实施过程对容器集群的监控告警装置各模块的功能进行说明。

作为一种可选的实施方式，获取模块可以通过如下方式获取容器集群在目标维度的第一性能指标数据序列：利用目标性能监控工具获取容器集群在预设历史时间段和当前的目标维度的第一性能指标数据序列，其中，容器集群可以是Kubernetes容器集群，目标性能监控工具可以采用：Prometheus工具、Elasticsearch工具、InfluxDB工具、集群应用程序接口服务，目标维度则可以设置为：CPU使用率、内存使用率、磁盘输入输出、网络带宽、Pod启动时间、应用程序接口服务的请求延迟等。

可选地，获取模块可以通过如下方式确定目标维度对应的目标性能指标阈值：确定容器集群当前已部署的微服务的类型和数量；依据预设函数关系对已部署的微服务的类型和数量进行计算，得到目标性能指标阈值，其中，目标性能指标阈值中包括：对应不同风险等级的多个性能指标阈值区间。

为方便后续的数据分析处理，预处理模块可以先通过如下方式对第一性能指标数据序列进行预处理操作：首先，可以对第一性能指标数据序列进行数据清洗操作，得到第三性能指标数据序列，其中，数据清洗操作包括以下至少之一：异常数据和噪声数据的检测及清理，缺失数据的插值处理，对不同性能监控工具采集的数据的时间对齐处理。

需要说明的是，本申请实施例中的容器集群的监控告警装置中的各模块与实施例1中的容器集群的监控告警方法的各实施步骤一一对应，由于实施例1中已经进行了详尽的描述，本实施例中部分未体现的细节可以参考实施例1，在此不再过多赘述。

实施例3

根据本申请实施例，还提供了一种非易失性存储介质，该非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行该计算机程序执行实施例1中的容器集群的监控告警方法。

具体地，非易失性存储介质所在设备通过运行该计算机程序执行实现以下步骤：获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

根据本申请实施例，还提供了一种处理器，该处理器用于运行计算机程序，其中，计算机程序运行时执行实施例1中的容器集群的监控告警方法。

具体地，计算机程序运行时执行实现以下步骤：获取容器集群在目标维度的第一性能指标数据序列，并确定目标维度对应的目标性能指标阈值，其中，第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；对第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，第二性能指标数据序列中包括：与第一性能指标数据对应的第二性能指标数据；利用预训练的数据预测大模型对第二性能指标数据序列进行分析处理，得到容器集群在未来目标时刻的目标维度的第三性能指标数据；分别将第二性能指标数据和第三性能指标数据与目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

根据本申请实施例，还提供了一种电子设备，该电子设备包括：存储器和处理器，其中，存储器中存储有计算机程序，处理器被配置为通过计算机程序执行实施例1中的容器集群的监控告警方法。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种容器集群的监控告警方法，其特征在于，包括：

获取容器集群在目标维度的第一性能指标数据序列，并确定所述目标维度对应的目标性能指标阈值，其中，所述第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；

对所述第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，所述第二性能指标数据序列中包括：与所述第一性能指标数据对应的第二性能指标数据；

利用预训练的数据预测大模型对所述第二性能指标数据序列进行分析处理，得到所述容器集群在未来目标时刻的所述目标维度的第三性能指标数据；

分别将所述第二性能指标数据和所述第三性能指标数据与所述目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

2.根据权利要求1所述的方法，其特征在于，获取容器集群在目标维度的第一性能指标数据序列，包括：

利用目标性能监控工具获取所述容器集群在所述预设历史时间段和当前的所述目标维度的第一性能指标数据序列，其中，所述目标性能监控工具包括以下至少之一：Prometheus工具、Elasticsearch工具、InfluxDB工具、集群应用程序接口服务，所述目标维度包括以下至少之一：CPU使用率、内存使用率、磁盘输入输出、网络带宽、Pod启动时间、应用程序接口服务的请求延迟。

3.根据权利要求1所述的方法，其特征在于，确定所述目标维度对应的目标性能指标阈值，包括：

确定所述容器集群当前已部署的微服务的类型和数量；

依据预设函数关系对所述已部署的微服务的类型和数量进行计算，得到所述目标性能指标阈值，其中，所述目标性能指标阈值中包括：对应不同风险等级的多个性能指标阈值区间。

4.根据权利要求2所述的方法，其特征在于，对所述第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，包括：

对所述第一性能指标数据序列进行数据清洗操作，得到第三性能指标数据序列，其中，所述数据清洗操作包括以下至少之一：异常数据和噪声数据的检测及清理，缺失数据的插值处理，对不同性能监控工具采集的数据的时间对齐处理；

对所述第三性能指标数据序列进行归一化处理，得到第四性能指标数据序列，其中，若所述第三性能指标数据序列中的离群值数量超过预设阈值，对所述第三性能指标数据序列进行Robust标准化处理，若所述第三性能指标数据序列呈正态分布，对所述第三性能指标数据序列进行Z-Score标准化处理，否则，对所述第三性能指标数据序列进行min-max标准化处理；

将所述第四性能指标数据序列作为所述第二性能指标数据序列。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定与所述目标维度对应的多个数值分段区间；

将所述第四性能指标数据序列中的每个指标数据用所述指标数据对应的数值分段区间进行离散化表示，得到所述第二性能指标数据序列。

6.根据权利要求1所述的方法，其特征在于，所述数据预测大模型的训练过程包括：

构建用于数据预测的大语言模型；

获取多个历史时间段的所述目标维度的性能指标数据序列，并对每个性能指标数据序列进行所述目标预处理操作，得到多个训练样本；

将所述多个训练样本划分为训练集和验证集；

利用所述训练集对所述大语言模型进行迭代训练，并利用所述验证集对模型训练结果进行验证，直至得到满足预设要求的所述数据预测大模型；

周期性利用新获取的性能指标数据序列重新对所述数据预测大模型进行训练，更新所述数据预测大模型的模型参数。

7.根据权利要求3述的方法，其特征在于，分别将所述第二性能指标数据和所述第三性能指标数据与所述目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息，包括：

将所述第二性能指标数据与所述目标性能指标阈值中的多个性能指标阈值区间进行匹配，若所述第二性能指标数据属于目标性能指标阈值区间，确定所述目标性能指标阈值区间对应的目标风险等级，并生成第一告警提示信息，其中，所述第一告警提示信息用于提示所述容器集群存在所述目标风险等级的问题需要处理；

将所述第三性能指标数据与所述目标性能指标阈值中的多个性能指标阈值区间进行匹配，若所述第三性能指标数据属于目标性能指标阈值区间，确定所述目标性能指标阈值区间对应的目标风险等级，并生成第二告警提示信息，其中，所述第二告警提示信息用于提示所述容器集群可能发生所述目标风险等级的问题。

8.一种容器集群的监控告警装置，其特征在于，包括：

获取模块，用于获取容器集群在目标维度的第一性能指标数据序列，并确定所述目标维度对应的目标性能指标阈值，其中，所述第一性能指标数据序列中包括：按时序排列的预设历史时间段内的多个性能指标数据和当前的第一性能指标数据；

预处理模块，用于对所述第一性能指标数据序列进行目标预处理操作，得到第二性能指标数据序列，其中，所述第二性能指标数据序列中包括：与所述第一性能指标数据对应的第二性能指标数据；

预测模块，用于利用预训练的数据预测大模型对所述第二性能指标数据序列进行分析处理，得到所述容器集群在未来目标时刻的所述目标维度的第三性能指标数据；

告警模块，用于分别将所述第二性能指标数据和所述第三性能指标数据与所述目标性能指标阈值进行比较，并依据比较结果生成对应的告警提示信息。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的计算机程序，其中，所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的容器集群的监控告警方法。

10.一种电子设备，其特征在于，包括：存储器和处理器，其中，所述存储器中存储有计算机程序，所述处理器被配置为通过所述计算机程序执行权利要求1至7中任意一项所述的容器集群的监控告警方法。