CN113821416A

CN113821416A - 监测告警方法、装置、存储介质及电子设备

Info

Publication number: CN113821416A
Application number: CN202111101703.XA
Authority: CN
Inventors: 谭晓敏; 徐雄; 方艾; 赵华; 袁立宇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-21

Abstract

本公开的实施方式提供了一种监测告警方法、装置、介质及电子设备，涉及计算机技术领域。该方法包括：获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；对待监测指标进行数据预测处理，生成对应的预测指标值；获取待监测指标对应的历史指标值；根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。本公开可以根据待监测指标的历史数据动态更新告警阈值，使其更契合指标真实变化情况；另外，根据预测指标值与历史指标值生成告警判定指标，可以有利于异常告警的可视化，进一步确认告警的准确性。

Description

监测告警方法、装置、存储介质及电子设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及监测告警方法、监测告警装置、计算机可读存储介质及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

Prometheus系统是存储和告警时序指标的云原生监控系统，适合以机器为中心的监控，也适合高度动态的面向服务架构的监控。当出现故障时，Prometheus系统能够快速诊断问题。

目前业界采用Prometheus监控主要采用告警组件(Alert Manager)根据告警策略进行告警。告警策略由表达式和固定阈值组成，固定阈值适用于CPU、磁盘等直观的运维指标，经验值可作为固定阈值，如CPU占比超过70％、磁盘使用量达到80％等则告警。另外，可采用Prometheus内置预测模型对指标进行预测，参考预测值告警指标。

发明内容

然而，仅采用固定阈值进行监控可能造成大量的漏报和误报，并且，内置预测模型难以通用于各类指标的告警需求，导致告警准确性较低。

为此，本公开提出一种改进的监测告警方法，可以根据待监测指标的历史数据动态更新告警阈值，使其更契合指标真实变化情况；另外，根据预测指标值与历史指标值生成告警判定指标，以进一步确认告警的准确性

在本上下文中，本公开的实施方式期望提供一种监测告警方法、监测告警装置、计算机可读存储介质及电子设备。

在本公开实施方式的第一方面中，提供了一种监测告警方法，包括：获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；对待监测指标进行数据预测处理，生成对应的预测指标值；获取待监测指标对应的历史指标值；根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

在本公开的一个实施例中，上述方法还包括：确定异常监控需求，根据异常监控需求确定对应的原始指标；对原始指标进行表达式生成处理，以生成对应的预处理指标表达式；确定预处理指标表达式对应的预处理指标名称；将预处理指标名称或预处理指标表达式推送至指标队列，以生成待监测指标。

在本公开的一个实施例中，获取待监测指标，包括：确定与指标队列对应的接口参数；根据接口参数与预处理指标名称获取待监测指标；和/或根据接口参数与预处理指标表达式获取待监测指标；和/或获取指标标签映射关系，以根据指标标签映射关系获取待监测指标；指标标签映射关系包括待监测指标与监测标签之间的映射关系。

在本公开的一个实施例中，对待监测指标进行数据预测处理，生成对应的预测指标值，包括：获取数据预测处理对应的全量历史数据，并确定全量历史数据对应的时间序列信息；获取数据预测模型，将全量历史数据输入至数据预测模型；数据预测模型包括自定义时序预测算法；由数据预测模型根据时间序列信息对全量历史数据进行数据预测处理，以确定待监测指标的预测指标值与置信区间。

在本公开的一个实施例中，获取数据预测处理对应的全量历史数据，包括：确定全量历史数据的数据量；全量历史数据的数据量根据数据获取时间确定；确定数据块尺寸，根据数据块尺寸确定每个数据块对应的起始标记与终止标记，以分批获取全量历史数据。

在本公开的一个实施例中，根据预测指标值与历史指标值生成告警判定指标，包括：根据历史指标值确定动态指标阈值范围；获取待监测指标对应的实际监测值，确定预测指标值与实际监测值之间的指标差值；如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常；如果指标差值未处于动态指标阈值范围内，则确定告警判定指标对应的告警异常类别，以根据告警异常类别进行异常告警。

在本公开的一个实施例中，确定告警判定指标对应的告警异常类别，包括：获取预测指标值的置信区间的区间上界最大值和区间下界最小值；如果指标差值未处于动态指标阈值范围内，且处于区间上界最大值与区间下界最小值之间，则将告警异常类别确定为第一异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值大于区间上界最大值，则将告警异常类别确定为第二异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值小于区间下界最小值，则将告警异常类别确定为第三异常类别。

在本公开实施方式的第二方面中，提供了一种监测告警装置，包括：指标获取模块，用于获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；指标预测模块，用于对待监测指标进行数据预测处理，生成对应的预测指标值；历史值获取模块，用于获取待监测指标对应的历史指标值；告警模块，用于根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

在本公开的一个实施例中，监测告警装置还包括指标生成模块，用于确定异常监控需求，根据异常监控需求确定对应的原始指标；对原始指标进行表达式生成处理，以生成对应的预处理指标表达式；确定预处理指标表达式对应的预处理指标名称；将预处理指标名称或预处理指标表达式推送至指标队列，以生成待监测指标。

在本公开的一个实施例中，指标获取模块包括指标获取单元，用于确定与指标队列对应的接口参数；根据接口参数与预处理指标名称获取待监测指标；和/或根据接口参数与预处理指标表达式获取待监测指标；和/或获取指标标签映射关系，以根据指标标签映射关系获取待监测指标；指标标签映射关系包括待监测指标与监测标签之间的映射关系。

在本公开的一个实施例中，指标预测模块包括指标预测单元，用于获取数据预测处理对应的全量历史数据，并确定全量历史数据对应的时间序列信息；获取数据预测模型，将全量历史数据输入至数据预测模型；数据预测模型包括自定义时序预测算法；由数据预测模型根据时间序列信息对全量历史数据进行数据预测处理，以确定待监测指标的预测指标值与置信区间。

在本公开的一个实施例中，指标预测单元包括数据获取子单元，用于确定全量历史数据的数据量；全量历史数据的数据量根据数据获取时间确定；确定数据块尺寸，根据数据块尺寸确定每个数据块对应的起始标记与终止标记，以分批获取全量历史数据。

在本公开的一个实施例中，告警模块包括告警单元，用于根据历史指标值确定动态指标阈值范围；获取待监测指标对应的实际监测值，确定预测指标值与实际监测值之间的指标差值；如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常；如果指标差值未处于动态指标阈值范围内，则确定告警判定指标对应的告警异常类别，以根据告警异常类别进行异常告警。

在本公开的一个实施例中，告警单元包括异常类别确定单元，用于获取预测指标值的置信区间的区间上界最大值和区间下界最小值；如果指标差值未处于动态指标阈值范围内，且处于区间上界最大值与区间下界最小值之间，则将告警异常类别确定为第一异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值大于区间上界最大值，则将告警异常类别确定为第二异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值小于区间下界最小值，则将告警异常类别确定为第三异常类别。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的监测告警方法。

在本公开实施方式的第四方面中，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述所述的监测告警方法。

根据本公开实施方式的技术方案，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；对待监测指标进行数据预测处理，生成对应的预测指标值；获取待监测指标对应的历史指标值；根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。一方面，根据历史指标值生成告警判定指标时，可以动态更新告警阈值，使其更契合指标真实变化情况，有效提高告警的正确率和真阳率；另一方面，根据预测指标值与历史指标值生成告警判定指标，可以有利于异常告警的可视化，进一步确认告警的准确性。又一方面，由于可以根据原始指标生成待监测指标，可以进一步贴合监测需求。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开的一些实施例的示例性应用场景的系统架构的示意框图；

图2示意性地示出了根据本公开的一些实施例的监测告警方法的流程示意图；

图3示意性地示出了根据本公开的一些实施例的Prometheus指标告警系统的流程时序图；

图4示意性地示出了根据本公开的一些实施例的指标的全量历史数据的数据分块的示意图；

图5示意性地示出了根据本公开的一些实施例的对全量历史数据分批次获取的示意图；

图6示意性地示出了根据本公开的一些实施例的Prometheus指标告警系统的组件示意图；

图7示意性地示出了根据本公开的一些实施例的指标告警系统的示意图；

图8示意性地示出了根据本公开的一些实施例的数据转换的示意图；

图9示意性地示出了根据本公开的一些实施例的监测告警装置的示意框图；

图10示意性地示出了根据本公开的示例实施例的存储介质的示意图；以及

图11示意性地示出了根据发明的示例实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种监测告警方法、监测告警装置、介质和电子设备。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

目前业界采用Prometheus监控主要采用告警组件根据告警策略进行告警。告警策略由表达式和固定阈值组成，固定阈值适用于CPU、磁盘等直观的运维指标，经验值可作为固定阈值，如CPU占比超过70％、磁盘使用量达到80％等则告警。另外，可采用Prometheus内置预测模型对指标进行预测，参考预测值告警指标。

然而，对于稍微复杂的或与实际事件密切相关的应用监控指标，采用固定阈值对其进行监控很大可能会造成大量的漏报和误报。另外，内置预测模型有限，难以通用于各种趋势的指标并满足各类指标的告警需求，通过预测指标值实现告警的准确性较低。

基于上述内容，本公开的基本思想在于，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；对待监测指标进行数据预测处理，生成对应的预测指标值；获取待监测指标对应的历史指标值；根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。本公开可以根据待监测指标的历史数据动态更新告警阈值，使其更契合指标真实变化情况；另外，根据预测指标值与历史指标值生成告警判定指标，可以有利于异常告警的可视化，进一步确认告警的准确性。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

首先参考图1，图1示出了可以应用本公开实施例的一种监测告警方法及装置的示例性应用场景的系统架构的示意框图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的监测告警方法一般由服务器105执行，相应地，监测告警装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的监测告警方法也可以由终端设备101、102、103执行，相应的，监测告警装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是工作人员通过终端设备101、102、103将根据原始指标生成的待监测指标上传至服务器105，服务器通过本公开实施例所提供的监测告警方法获取待监测指标，根据待监测指标的预测指标值和历史指标值生成告警判定指标，根据告警判定指标进行异常告警，将异常告警结果传输给终端设备101、102、103。

应该理解的是，图1所示的应用场景仅是本公开的实施例可以在其中得以实现的一个示例。本公开实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的监测告警方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开首先提供了一种监测告警方法，该方法执行主体可以是终端设备，也可以是服务器，本公开对此不做特殊限定，本示例实施例中以服务器执行该方法为例进行说明。

参照图2所示，该监测告警方法可以包括以下步骤S210至步骤S240：

步骤S210，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到。

在一些示例实施例中，待监测指标可以是监控系统所要进行监控的监测指标。原始指标可以是监控系统所抓取的原始机器指标。预处理指标可以是对原始指标进行预处理操作后得到的监控指标，例如，预处理操作可以是表达式生成处理。表达式生成处理可以是基于原始指标进行的表达式生成处理，以生成新的预处理指标的过程。

举例而言，以监控系统以Prometheus系统为例对监测告警方法进行详细说明。Prometheus系统在进行监测告警时，可以先获取待监测指标，待监测指标可以包括Prometheus系统监测的原始指标以及根据原始指标生成的预处理指标。当Prometheus系统对某些指标有监控需求时，可以对一些原始指标进行表达式生成处理等预处理操作，生成预处理指标，将原始指标和预处理指标共同确定为待监测指标。

步骤S220，对待监测指标进行数据预测处理，生成对应的预测指标值。

在一些示例实施例中，数据预测处理可以是根据待监测指标的相关历史数据(如指标原始数据)对指标值进行预测处理的过程。预测指标值可以是对待监测指标进行数据预测处理后得到的指标值。

在确定出待监测指标后，可以根据与待监测指标对应的全量历史数据对待监测指标进行数据预测处理，确定出待监测指标对应的预测指标值。以Prometheus系统为例，Prometheus系统可以获取与待监测指标对应的三个月的指标原始数据作为全量历史数据，对待监测指标进行数据预测处理，生成对应的预测指标值。

步骤S230，获取待监测指标对应的历史指标值。

在一些示例实施例中，历史指标值可以是监控系统对待监测指标进行监控所得到的历史真实数据值。

当存在监控需求时，监控系统可以持续对待监测指标进行监控，且存储监控到的历史指标值，监控系统可以获取待监测指标对应的历史指标值，以进行生成告警判定指标的操作。

步骤S240，根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

在一些示例实施例中，告警判定指标可以是监控系统进行异常告警时所依据的判定指标。异常告警可以是对系统中的待监测指标发生异常情况时所进行的报警操作。

监控系统在获取到历史指标值后，可以根据历史指标值设定动态阈值，根据预测指标值与动态阈值生成告警判定指标。在得到生成的告警判定指标后，监控系统可以对待监测指标进行监测，根据相应的告警规则进行异常告警。具体的，用户可以预先设定告警规则，如告警规则可以设定为待监测指标的监测结果满足某一特定的告警判定指标后进行异常告警。

在本示例实施方式所提供的监测告警方法，一方面，根据历史指标值生成告警判定指标时，可以动态更新告警阈值，使其更契合指标真实变化情况，有效提高告警的正确率和真阳率；另一方面，根据预测指标值与历史指标值生成告警判定指标，可以有利于异常告警的可视化，进一步确认告警的准确性。又一方面，由于可以根据原始指标生成待监测指标，可以进一步贴合监测需求。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在本公开的一个实施例中，确定异常监控需求，根据异常监控需求确定对应的原始指标；对原始指标进行表达式生成处理，以生成对应的预处理指标表达式；确定预处理指标表达式对应的预处理指标名称；将预处理指标名称或预处理指标表达式推送至指标队列，以生成待监测指标。

其中，异常监控需求可以是监控系统根据系统的执行任务确定出的监控需求，例如，监控系统当前需要对CPU的相关指标进行监控，则异常监控需求可以是对CPU的相关指标进行监控，以确定是否存在异常。原始指标可以是监控系统可以直接抓取到的监控指标。预处理指标表达式可以是用于表达某一预处理指标的计算表达式。预处理指标名称可以是某一预处理指标对应的指标名称。指标队列可以是用于存储待监测指标的存储队列。

监控系统在确定出异常监控需求后，可以根据异常监控需求确定出对应的原始指标，并对原始指标进行表达式生成处理，如对原始指标进行二元运算、聚合运算或对多个原始指标进行多指标连接(join)运算等表达式生成处理操作，生成预处理指标表达式。以Prometheus系统为例，Prometheus系统提供了一种自行开发的Prometheus数据查询语句(Prometheus Query Language，PromQL)，是一种领域专用语言(Domain SpecificLanguage，DSL)。

参考图3，图3示意性地示出了根据本公开的一些实施例的Prometheus指标告警系统的流程时序图。在步骤S310中，定义监控指标表达式和指标名称。Prometheus系统可以配置记录规则(recoding rule)预定义预处理指标的预处理指标表达式和预处理指标名称。

举例而言，Prometheus系统监控超文本传输协议(Hypertext TransferProtocol，http)请求每秒变化率，获取对应的原始指标http_requests_total，对该原始指标进行表达式生成处理，可以设置表达式为rate(http_requests_total[5m])，该表达式的含义可以是http请求每5秒的变化率，可以将该指标设置对应的记录规则保存在Prometheus服务器(Prometheus server)中；另外，可以设置该预处理指标的预处理指标名称为“job:http_requests_total:rate5m”，将预处理指标名称或预处理指标表达式推送至Prometheus server的指标队列中，生成预处理指标，后续Prometheus系统即可通过指标名job:http_requests_total:rate5m或表达式查询该预处理指标的指标数据。

在其他一些实施例中，可以通过表达式实时计算原始指标，该情况适用于临时的监控需求，该指标并未在Prometheus系统中预定义而没有历史存储，此时只需定义指标表达式即可，例如expr＝rate(http_requests_total[5m])，则可以直接通过预处理指标表达式获取待监测指标的相关数据。待监测指标均可以存储在Prometheus server中。

在本公开的一个实施例中，确定与指标队列对应的接口参数；根据接口参数与预处理指标名称获取待监测指标；和/或根据接口参数与预处理指标表达式获取待监测指标；和/或获取指标标签映射关系，以根据指标标签映射关系获取待监测指标；指标标签映射关系包括待监测指标与监测标签之间的映射关系。

其中，接口参数可以是监控系统与Prometheus server之间的接口的连接参数。监测标签可以是用户指定的用于筛选指标的标签。指标标签映射关系可以是根据预处理指标与监测标签之间的映射关系。

继续参考图3，在步骤S320中，配置连接信息，获取指标。监控系统可以与Prometheus server之间建立连接，并配置连接信息(如接口参数)，以获取待监测指标，待监测指标可以包括原始指标和预处理指标。接口参数包括但不限于：统一资源定位器(Uniform Resource Locator，URL)地址、带有授权(Authorization)的头文件、指标名称、标签名称、总数据大小data_size、数据块大小chunk_size、起始时间、查询表达式、step等。用户可以在接口参数中填写预处理指标名称或预处理指标表达式，以使用接口参数以及预处理指标名称或预处理指标表达式获取待监测指标。

例如，可以通过HTTP API(Application Programming Interface，应用程序接口)获取原始数据，对于预处理指标job:http_requests_total:rate5m指标，生成的http请求可以为GET--header Authorization token url/api/vi/query？query＝job:http_requests_total:rate5m&start＝2021-01-14T15:22:25.479Z&end＝2021-01-14T15:23:25.479Z。又例如，对于某一预处理指标的指标表达式expr，对应的http请求为GET–headerAuthorization token url/api/vi/query？query＝expr。

另外，还指定待监测指标的监测标签用于筛选指标，例如，http_requests_total指标可以表示包含所有标签，通过配置标签label＝a，上述表达式等同于expr＝http_requests_total{label＝a}，在获取到监测标签后，可以确定监测指标与待监测指标之间的指标标签映射关系，例如，label＝a可以表示映射标签为a的机器，即获取标签为a的机器的http请求。

在本公开的一个实施例中，获取数据预测处理对应的全量历史数据，并确定全量历史数据对应的时间序列信息；获取数据预测模型，将全量历史数据输入至数据预测模型；数据预测模型包括自定义时序预测算法；由数据预测模型根据时间序列信息对全量历史数据进行数据预测处理，以确定待监测指标的预测指标值与置信区间。

其中，全量历史数据可以是对待监测指标进行预测处理时所使用的全量历史数据。时间序列信息可以是全量历史数据中所有数据之间存在的关联时序信息。数据预测模型可以是对待监测指标进行数据预测处理所采用的模型。自定义时序预测算法可以是为了适应各种不同变化趋势的指标的告警需求所采用的数据时序预测算法。待监测指标的置信区间可以是待监测指标的指标样本统计量所构造的总体参数的估计区间。

在对待监测指标进行数据预测处理之前，可以先确定对应的全量历史数据，例如，在对某一待监测指标进行数据预测处理时，需要该指标对应的6个月的历史数据，则可以获取当前时间之前的前6个月数据作为全量历史数据。在获取到全量历史数据后，可以确定全量历史数据中包含的时间序列信息。

在步骤S330中，预测指标值。获取数据预测模型，将全量历史数据输入数据预测模型，由数据预测模型对待监测指标进行数据预测处理，以计算出待监测指标的预测指标值与置信区间。具体的，数据预测模型库中可以包含但不限于各类时间序列预测模型，如线性回归模型、移动平均(moving average)模型、指数平滑(holt-winter)模型、Arima模型、Prophet模型以及基于统计的预测模型等等；用户还可以根据待监测指标的指标变化趋势自定义各类时序预测算法，以满足指标预测需求。

根据全量历史数据的历史趋势，可以从模型库中选择合适的预测模型对待监测指标进行一定范围的预测。例如：针对指标job:http_requests_total:rate5m，可以采用Prophet模型，以15秒(second，s)为粒度，预测未来10分钟(minute，min)的值。

在本公开的一个实施例中，确定全量历史数据的数据量；全量历史数据的数据量根据数据获取时间确定；确定数据块尺寸，根据数据块尺寸确定每个数据块对应的起始标记与终止标记，以分批获取全量历史数据。

其中，全量历史数据的数据量可以是全量历史数据对应的数据大小。数据获取时间可以是获取全量历史数据所采用的起始时间和截止时间。数据块尺寸可以是当全量历史数据的数据量较大时，对全量历史数据进行数据分割处理后得到的数据块的大小。起始标记可以是每个数据块对应的开始时间标记。终止标记可以是每个数据块对应的终止标记。

在确定出全量历史数据后，可以获取全量历史数据，由于不同的全量历史数据的数据量不同，有些全量历史数据的数据量可能很大，为了解决全量历史数据的数据量太大导致的API查询负载问题，通过设置数据块尺寸(chunk_size)分批次依次多次获取全量数据。参考图4，图4示意性地示出了根据本公开的一些实施例的指标的全量数据的数据分块的示意图。

参考图4，图4示意性地示出了根据本公开的一些实施例的指标的全量历史数据的数据分块的示意图。全量历史数据的数据量可以采用data_size表示，数据块尺寸可以采用chunk_size表示。在图5中，当前时间可以记为now，确定获取全量历史数据的开始时间(start time)，根据start time可以确定出全量历史数据的数据量，进而根据数据块尺寸分块获取全量历史数据。

参考图5，图5示意性地示出了根据本公开的一些实施例的对全量历史数据分批次获取的示意图。数据块的个数可以标记为chunk_num，则chunk_num＝data_size/chunk_size。以获取待监测数据当前时间点对应的前6个小时(hour，h)的数据为例，则data_size＝6h，当chunk_size＝1h时，chunk_num＝6，因此，分为6个批次获取数据，每个批次时间大小为1h的数据。进一步地，为了避免数据获取过程中可能产生的数据获取错误，可以设置请求最大重试次数以避免获取指标的错误。

本公开中提取预处理指标对应的全量历史数据的伪代码如下：

代码中示出了循环遍历每个数据块，在未达到最大重试次数前，通过控制每个chunk的start和end获取该chunk的数据，当前批次数据追加到上一批次数据中。本公开通过设定数据块大小分批次获取指标原始数据，解决全量数据太大导致超时的问题，使得原始指标数据获取的成功率得到提升

在本公开的一个实施例中，根据历史指标值确定动态指标阈值范围；获取待监测指标对应的实际监测值，确定预测指标值与实际监测值之间的指标差值；如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常；如果指标差值未处于动态指标阈值范围内，则确定告警判定指标对应的告警异常类别，以根据告警异常类别进行异常告警。

其中，动态指标阈值范围可以是根据历史指标值动态确定出的阈值范围。实际监测值可以是待监测指标对应的实际数据值。指标差值可以是预测指标值与历史指标值之间的差值。告警异常类别可以是所发生的的异常对应的具体类别。

继续参考图3，在步骤S340中，在确定出预测指标值后，暴露预测指标值。根据获取到的待监测指标的历史指标值设定动态指标阈值范围，以生成告警判定指标。例如，动态指标阈值范围可根据实际监控需求设定，例如，动态指标阈值范围可以是实际监测到的历史指标值的方差的3倍。

在步骤S350中，对比预测指标值与实际监测值，得到告警判定指标，并暴露告警判定指标。如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常，则可以将其告警判定值确定为0。如果指标差值未处于动态指标阈值范围内，则进一步确定告警判定指标对应的告警异常类别。由于部分数据预测模型在进行数据预测处理后，未能确定出待监测指标的置信区间，因此，在确定告警判定指标对应的告警异常类别时，可以对应两种确定方式：(1)当数据预测模型在进行数据预测处理且未确定出待监测指标的置信区间时，如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常；如果指标差值未处于动态指标阈值范围内，则将告警异常类别确定为第一异常类别。(2)当数据预测模型在进行数据预测处理且得到待监测指标的置信区间时，如果指标差值处于动态指标阈值范围内，则将告警判定指标确定为无异常；如果指标差值未处于动态指标阈值范围内，则结合置信区间进一步确定具体的告警异常类别。

例如，将生成的新指标统一形成告警判定指标target，新指标包括预测指标值、置信区间和告警判定值等，采用HTTP接口暴露Prometheus数据类型指标，形成统一target。如：predicted_metric_name＝"predicte d_"+metric_name，预测指标采用Gauge类型，PREDICTED_VALUES_PROPHET＝Gauge(predicted_metric_name+'_prophet',illustration)；置信区间指标PREDICTED_VALUES_PROPHET_UPPER＝Gauge(predicted_metric_name+'_prophet_yhat_upper',illustration)和PREDICTED_VAL UES_PROPHET_LOWER＝Gauge(predicted_metric_name+'_prophet_yhat_lower',illustration)；告警判定指标PREDICTED_ANOMALY_PROPHET＝Gauge(predicted_metric_name+'_prophet_anomaly',illustration)。

在步骤S360中，获取告警规则(即告警指标)。例如，告警策略可以配置为：当PREDICTED_ANOMALY_PROPHET＝＝1时，触发Alert Manager进行告警通知。在步骤S370中，告警管理组件可以根据设定的告警规则进行异常告警。在步骤S380中，用户还可以根据实际需求对现有模型进行调优或扩充模型库等，根据调优或扩充得到的模型库对待监测指标进行数据预测处理。

在本公开的一个实施例中，获取预测指标值的置信区间的区间上界最大值和区间下界最小值；如果指标差值未处于动态指标阈值范围内，且处于区间上界最大值与区间下界最小值之间，则将告警异常类别确定为第一异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值大于区间上界最大值，则将告警异常类别确定为第二异常类别；如果指标差值未处于动态指标阈值范围内，且实际监测值小于区间下界最小值，则将告警异常类别确定为第三异常类别。

其中，区间上界最大值可以是预测指标值对应的置信区间中区间上界的最大值。区间下界最小值可以是预测指标值对应的置信区间中区间下界的最小值。第一异常类别可以是待监测指标中有异常值产生，但异常值没有超出置信区间尖峰的异常类别。第二异常类别可以是待监测指标的指标异常值超过置信区间的尖峰的异常情况。第三异常类别可以是待监测指标的指标异常值低于置信区间的低谷的异常情况。

如果指标差值未处于动态指标阈值范围内，且实际监测值处于区间上界最大值与区间下界最小值之间，则将告警异常类别确定为第一异常类别，即告警判定值确定为1。如果指标差值未处于动态指标阈值范围内，且实际监测值大于区间上界最大值，则该值很有可能为脉冲尖峰，将告警异常类别确定为第二异常类别，并将告警判定值确定为2。如果指标差值未处于动态指标阈值范围内，且实际监测值小于区间下界最小值，则该值很有可能为低谷，将告警异常类别确定为第三异常类别，并将告警判定值确定为3。

参考图6，图6示意性地示出了根据本公开的一些实施例的Prometheus指标告警系统的组件示意图。图6中，Prometheus服务器(server)中存储有原始指标，对原始指标进行预加工处理可以生成预处理指标表达式，生成的预处理指标表达式与连接参数可以存储至Prometheus server中。接下来，Prometheus server可以将待监测指标推送至监控指标序列中，监控系统可以通过HTTP接口从Prometheus server中获取待监测指标，并将待监测指标输入至预测模型中，可以得到待监测指标对应的预测指标序列。根据得到预测指标序列和监控指标序列进行差值对比，得到指标差值，如果指标差值大于动态告警阈值，则进行告警处理。

综上所述，本公开的监测告警方法，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；对待监测指标进行数据预测处理，生成对应的预测指标值；获取待监测指标对应的历史指标值；根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。一方面，根据历史指标值生成告警判定指标时，可以动态更新告警阈值，使其更契合指标真实变化情况，有效提高告警的正确率和真阳率；另一方面，根据预测指标值与历史指标值生成告警判定指标，可以有利于异常告警的可视化，进一步确认告警的准确性。又一方面，由于可以根据原始指标生成待监测指标，可以进一步贴合监测需求。再一方面，通过个性化扩展时间预测模型，可以提高指标预测值的准确性，减少告警漏报、误报问题，更好地满足不同类型、不同趋势、不同分布的指标监控告警需求。

示例性系统

进一步地，本公开还提供了一种监控告警系统，参考图7，图7示意性地示出了根据本公开的一些实施例的指标告警系统的示意图。指标告警系统可以包括服务器710、解析模块720、指标收集模块730、预测模块740、指标告警模块750、数据转换模块760以及存储模块770。

具体的，以Prometheus指标告警系统为例，指标告警系统700可以包括Prometheus服务器710，Prometheus服务器710包括预处理模块701，具体的，预处理模块701可以用于对原始指标进行预处理以生成预处理指标，例如，对原始指标进行表达式生成处理，预定义新的预处理指标名称与预处理指标表达式，得到预处理指标。

解析模块720可以用于对预处理指标表达式的表达式语法进行有效性检查，例如，表达式语法需要符合PromQL语法；可以减少指标复杂运算的PromQL语法错误，进而确保监控指标的正确性。指标收集模块730可以用于连接参数的设定，连接Prometheus server提取预处理后的监控指标数据，例如，可以采用Prometheus的HTTP API接口获取待监测指标。存储模块770可以用于存储预测模块740和指标告警模块750生成的数据。存储介质可以包括但不限于本地存储、云存储、分布式存储等。

数据转换模块760可以用于转换预测模块740和指标告警模块750生成的数据的数据格式。参考图8，图8示意性地示出了根据本公开的一些实施例的数据转换的示意图。在图8中，将预测模块输出的预测指标值与实际指标值，按照一定大小转换为适合存储模块存储的数据格式，并生成对应的文件进行存储。进一步的，该模块还用于统一转换预测模块和告警模块数据为Prometheus数据格式。

预测模块740内置时间序列预测方法，可以用于预测监控指标值；通过参数调优、新增预测方法维护和扩展算法库。指标告警模块750可以用于分析实际指标值和预测指标值之间的指标差值，根据动态阈值生成告警判定进行告警。告警模块主要由告警组件(Alert Manager)实现告警通知。

示例性装置

在介绍了本公开示例性实施方式的方法之后，接下来，参考图9对本公开示例性实施例的监测告警装置进行说明。

在图9中，监测告警装置900可以包括：指标获取模块910、指标预测模块920、历史值获取模块930以及告警模块940。其中：

指标获取模块910，用于获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；指标预测模块920，用于对待监测指标进行数据预测处理，生成对应的预测指标值；历史值获取模块930，用于获取待监测指标对应的历史指标值；告警模块940，用于根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

由于本公开的示例实施例的监测告警装置的各个功能模块与上述监测告警方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的监测告警方法的实施例，此处不再赘述。

应当注意，尽管在上文详细描述中提及了监测告警装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的监测告警方法。

示例性介质

在介绍了本公开示例性实施方式的装置之后，接下来，参考图10对本公开示例性实施例的存储介质进行说明。

在一些实施例中，本公开的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的监测告警方法中的步骤。

例如，所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S210，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；步骤S220，对待监测指标进行数据预测处理，生成对应的预测指标值；步骤S230，获取待监测指标对应的历史指标值；步骤S240，根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

参考图10所示，描述了根据本公开的实施例的用于实现上述监测告警方法或者实现上述监测告警方法的程序产品1000，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本公开示例性实施方式的监测告警方法、监测告警系统、监测告警装置以及存储介质之后，接下来，参考图11对本公开示例性实施方式的电子设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施例中，根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的监测告警方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S210，获取待监测指标；待监测指标包括预处理指标，预处理指标通过对原始指标进行表达式生成处理得到；步骤S220，对待监测指标进行数据预测处理，生成对应的预测指标值；步骤S230，获取待监测指标对应的历史指标值；步骤S240，根据预测指标值与历史指标值生成告警判定指标，以根据告警判定指标进行异常告警。

下面参照图11来描述根据本公开的示例实施例的电子设备1100。图11所示的电子设备1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于：上述至少一个处理单元1101、上述至少一个存储单元1102、连接不同系统组件(包括存储单元1102和处理单元1101)的总线1103、显示单元1107。

总线1103表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元1102可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储单元1102还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125，这样的程序模块1124包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1100也可以与一个或多个外部设备1104(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与电子设备1100交互的设备通信，和/或与使得电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且，电子设备1100还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1106通过总线1103与电子设备1100的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了监测告警装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种监测告警方法，其特征在于，包括：

获取待监测指标；所述待监测指标包括预处理指标，所述预处理指标通过对原始指标进行表达式生成处理得到；

对所述待监测指标进行数据预测处理，生成对应的预测指标值；

获取所述待监测指标对应的历史指标值；

根据所述预测指标值与所述历史指标值生成告警判定指标，以根据所述告警判定指标进行异常告警。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定异常监控需求，根据所述异常监控需求确定对应的原始指标；

对所述原始指标进行表达式生成处理，以生成对应的预处理指标表达式；

确定所述预处理指标表达式对应的预处理指标名称；

将所述预处理指标名称或所述预处理指标表达式推送至指标队列，以生成所述待监测指标。

3.根据权利要求2所述的方法，其特征在于，获取待监测指标，包括：

确定与所述指标队列对应的接口参数；

根据所述接口参数与所述预处理指标名称获取所述待监测指标；和/或

根据所述接口参数与所述预处理指标表达式获取所述待监测指标；和/或

获取指标标签映射关系，以根据所述指标标签映射关系获取所述待监测指标；所述指标标签映射关系包括所述待监测指标与监测标签之间的映射关系。

4.根据权利要求1所述的方法，其特征在于，对所述待监测指标进行数据预测处理，生成对应的预测指标值，包括：

获取所述数据预测处理对应的全量历史数据，并确定所述全量历史数据对应的时间序列信息；

获取数据预测模型，将所述全量历史数据输入至所述数据预测模型；所述数据预测模型包括自定义时序预测算法；

由所述数据预测模型根据所述时间序列信息对所述全量历史数据进行数据预测处理，以确定所述待监测指标的预测指标值与置信区间。

5.根据权利要求4所述的方法，其特征在于，获取所述数据预测处理对应的全量历史数据，包括：

确定全量历史数据的数据量；所述全量历史数据的数据量根据数据获取时间确定；

确定数据块尺寸，根据所述数据块尺寸确定每个数据块对应的起始标记与终止标记，以分批获取所述全量历史数据。

6.根据权利要求1所述的方法，其特征在于，根据所述预测指标值与所述历史指标值生成告警判定指标，包括：

根据所述历史指标值确定动态指标阈值范围；

获取所述待监测指标对应的实际监测值，确定所述预测指标值与所述实际监测值之间的指标差值；

如果所述指标差值处于所述动态指标阈值范围内，则将所述告警判定指标确定为无异常；

如果所述指标差值未处于所述动态指标阈值范围内，则确定所述告警判定指标对应的告警异常类别，以根据所述告警异常类别进行所述异常告警。

7.根据权利要求6所述的方法，其特征在于，确定所述告警判定指标对应的告警异常类别，包括：

获取所述预测指标值的置信区间的区间上界最大值和区间下界最小值；

如果所述指标差值未处于所述动态指标阈值范围内，且处于所述区间上界最大值与所述区间下界最小值之间，则将所述告警异常类别确定为第一异常类别；

如果所述指标差值未处于所述动态指标阈值范围内，且所述实际监测值大于所述区间上界最大值，则将所述告警异常类别确定为第二异常类别；

如果所述指标差值未处于所述动态指标阈值范围内，且所述实际监测值小于所述区间下界最小值，则将所述告警异常类别确定为第三异常类别。

8.一种监测告警装置，其特征在于，包括：

指标获取模块，用于获取待监测指标；所述待监测指标包括预处理指标，所述预处理指标通过对原始指标进行表达式生成处理得到；

指标预测模块，用于对所述待监测指标进行数据预测处理，生成对应的预测指标值；

历史值获取模块，用于获取所述待监测指标对应的历史指标值；

告警模块，用于根据所述预测指标值与所述历史指标值生成告警判定指标，以根据所述告警判定指标进行异常告警。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的监测告警方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述的监测告警方法。