CN111147596A

CN111147596A - Prometheus集群部署方法、装置、设备及介质

Info

Publication number: CN111147596A
Application number: CN201911397066.8A
Authority: CN
Inventors: 王娟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12
Anticipated expiration: 2039-12-30
Also published as: CN111147596B

Abstract

本发明实施例提供一种Prometheus集群部署方法、装置、设备及介质。该方法应用于监控系统，监控系统包括至少一个Prometheus集群，每个Prometheus集群包括至少两个Prometheus服务器，至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器，在至少两个Prometheus服务器中每个Prometheus服务器注册时生成一个临时顺序标识，临时顺序标识用于监控系统确定临时顺序标识对应的Prometheus服务器获取监控系统分配的任务，该方法包括：分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识；标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。本发明能够解决采集工作过程中的单点故障、数据脑裂问题。

Description

Prometheus集群部署方法、装置、设备及介质

技术领域

本发明涉及监控部署技术领域，尤其涉及一种Prometheus集群部署方法、装置、设备和计算机可读存储介质。

背景技术

Prometheus是一种基于时序列数据库(Time Series Database，TSDB)的监控报警系统，其支持通过超文本传输协议(Hyper Text Transfer Protocol，HTTP)协议周期性抓取被监控组件状态，由于其即保持了非常低的业务侵入性又在记录基于时间序列的纯数字方面性能表现优异，这使得它既适用于面向服务器等硬件指标的监控，也适用于高动态的面向服务架构的监控。

目前，在部署于集群的单实例进行采集，易产生单点故障。另外在大规模监控场景下，复杂拓扑导致集群整体恢复、重启时间较长，易导致采集中断，因此不适用持续性和精准度高的场景。

发明内容

本发明实施例提供了一种Prometheus集群部署方法、装置、设备和计算机可读存储介质，能够解决采集工作过程中的单点故障、数据脑裂问题，实现了重启的平滑过渡，提高了资源使用率。

第一方面，本发明提供一种Prometheus集群部署方法，应用于监控系统，监控系统包括至少一个Prometheus集群，每个Prometheus集群包括至少两个Prometheus服务器，至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器，在至少两个Prometheus服务器中每个Prometheus服务器注册时生成一个临时顺序标识，临时顺序标识用于监控系统确定临时顺序标识对应的Prometheus服务器获取监控系统分配的任务，该方法包括：分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识；标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

在第一方面的一些可实现方式中，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之前，该方法还包括：基于服务注册中心构建Prometheus集群的集群节点；构建Prometheus集群中第一Prometheus服务器的临时顺序标识，以及标记第一Prometheus服务器为注册成功的Prometheus服务器，其中，第一Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联；构建Prometheus集群中第二Prometheus服务器的临时顺序标识，以及标记第二Prometheus服务器为未注册成功的Prometheus服务器，其中，第二Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联，且排在第一Prometheus服务器的临时顺序标识之后。

在第一方面的一些可实现方式中，构建Prometheus集群中第一Prometheus服务器的临时顺序标识，包括：检测第一Prometheus服务器的空闲资源；当第一Prometheus服务器的空闲资源不低于第一预设阈值时，构建Prometheus集群中第一Prometheus服务器的临时顺序标识；构建Prometheus集群中第二Prometheus服务器的临时顺序标识，包括：检测第二Prometheus服务器的空闲资源；当第二Prometheus服务器的空闲资源不低于第二预设阈值时，构建Prometheus集群中第二Prometheus服务器的临时顺序标识。

在第一方面的一些可实现方式中，在构建Prometheus集群中第二Prometheus服务器的临时顺序标识之后，该方法还包括：构建第一监测节点，其中，第一监测节点用于监测是否存在临时顺序标识处于第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器。

在第一方面的一些可实现方式中，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之后，该方法还包括：检测第三Prometheus服务器的空闲资源，其中，第三Prometheus服务器为已删除自身对应的临时顺序标识的Prometheus服务器；当第三Prometheus服务器的空闲资源不低于第三预设阈值时，构建第三Prometheus服务器的临时顺序标识；检测第三Prometheus服务器的临时顺序标识的顺序；当检测到第三Prometheus服务器的临时顺序标识的排序不是最靠前时，构建第二监测节点，其中，第二监测节点用于监测是否存在临时顺序标识处于第三Prometheus服务器的临时顺序标识之前的Prometheus服务器。

在第一方面的一些可实现方式中，当任务删除和/或执行任务的Prometheus服务器异常时，该方法还包括：更新Prometheus集群的任务配置、Prometheus集群的注册队列。

在第一方面的一些可实现方式中，当执行任务的Prometheus服务器的空闲资源低于第四预设阈值时，该方法还包括：增加Prometheus集群部署，以及重新分配任务。

第二方面，本发明提供一种Prometheus集群部署装置，应用于监控系统，监控系统包括至少一个Prometheus集群，每个Prometheus集群包括至少两个Prometheus服务器，至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器，在至少两个Prometheus服务器中每个Prometheus服务器注册时生成一个临时顺序标识，临时顺序标识用于监控系统确定临时顺序标识对应的Prometheus服务器获取监控系统分配的任务，该装置包括：分配模块，用于分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识；标记模块，用于标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

在第二方面的一些可实现方式中，该装置还包括：构建模块，用于在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之前，基于服务注册中心构建Prometheus集群的集群节点；构建Prometheus集群中第一Prometheus服务器的临时顺序标识，以及标记第一Prometheus服务器为注册成功的Prometheus服务器，其中，第一Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联；构建Prometheus集群中第二Prometheus服务器的临时顺序标识，以及标记第二Prometheus服务器为未注册成功的Prometheus服务器，其中，第二Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联，且排在第一Prometheus服务器的临时顺序标识之后。

在第二方面的一些可实现方式中，构建模块还用于：检测第一Prometheus服务器的空闲资源；当第一Prometheus服务器的空闲资源不低于第一预设阈值时，构建Prometheus集群中第一Prometheus服务器的临时顺序标识；检测第二Prometheus服务器的空闲资源；当第二Prometheus服务器的空闲资源不低于第二预设阈值时，构建Prometheus集群中第二Prometheus服务器的临时顺序标识。

在第二方面的一些可实现方式中，构建模块还用于：在构建Prometheus集群中第二Prometheus服务器的临时顺序标识之后，构建第一监测节点，其中，第一监测节点用于监测是否存在临时顺序标识处于第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器。

在第二方面的一些可实现方式中，该装置还包括：检测模块，用于在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之后，检测第三Prometheus服务器的空闲资源，其中，第三Prometheus服务器为已删除自身对应的临时顺序标识的Prometheus服务器；当第三Prometheus服务器的空闲资源不低于第三预设阈值时，构建第三Prometheus服务器的临时顺序标识，其中第三Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联；检测第三Prometheus服务器的临时顺序标识的顺序；当检测到第三Prometheus服务器的临时顺序标识的排序不是最靠前时，构建第二监测节点，其中，第二监测节点用于监测是否存在临时顺序标识处于第三Prometheus服务器的临时顺序标识之前的Prometheus服务器。

在第二方面的一些可实现方式中，该装置还包括：更新模块，用于当任务删除和/或执行任务的Prometheus服务器异常时，更新Prometheus集群的任务配置、Prometheus集群的注册队列。

在第二方面的一些可实现方式中，该装置还包括：增加模块，用于当执行任务的Prometheus服务器的空闲资源低于第四预设阈值时，增加Prometheus集群部署，以及重新分配任务。

第三方面，本发明提供一种Prometheus集群部署设备，该设备包括：处理器以及存储有计算机程序指令的存储器；处理器执行计算机程序指令时实现第一方面或者第一方面任一些可实现方式中所述的Prometheus集群部署方法。

第四方面，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或者第一方面任一些可实现方式中所述的Prometheus集群部署方法。

本发明实施例提供的一种Prometheus集群部署方法、装置、设备和计算机可读存储介质，通过分配任务至Prometheus集群中注册成功的Prometheus服务器，并且在获取任务之后删除注册成功的Prometheus服务器对应的临时顺序标识，将已获取任务的Prometheus服务器移除注册队列，标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器注册成功，等待任务分配，不仅能够解决工作过程中的单点故障、数据脑裂问题，还能够提高水平扩展能力和灾难恢复能力，实现了重启的平滑过渡，提高了资源使用率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种Prometheus集群部署方法的流程示意图；

图2是本发明实施例提供的一种Prometheus架构示意图；

图3是本发明实施例提供的一种Prometheus服务器注册流程示意图；

图4是本发明实施例提供的一种监控系统分配任务的流程示意图；

图5是本发明实施例提供的一种Prometheus集群部署装置的结构示意图；

图6是本发明实施例提供的一种Prometheus集群部署设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

目前，根据不同的监控集群场景，主要使用单机部署、多机部署、联邦部署，部署Prometheus服务器。其中，单机部署主要是通过单台Prometheus服务器采集所有的监控指标；多机部署主要是通过部署多台Prometheus服务器，单节点采集所有的指标数据，单节点故障不影响数据采集；联邦部署主要是通过部署多台Prometheus服务器并建立主从拓扑(中心节点+从属节点)，主节点对从属服务器检索并收集汇总监控数据。

但是，采用单机部署、多机部署、联邦部署都存在一定的缺陷和弊端。例如，单机部署易产生单点故障，不适用于采集数据量规模较大的情况；多机部署虽然提供了一定可用性保障，但由于无法进行动态集群扩展，使得数据冗余且存在数据不一致风险(脑裂)，不适用于监控规模较大且监控集群频繁发生迁移的情况；联邦部署中单指标(Metric)采集在部署于集群的单实例进行采集，导致存在指标单点故障的风险。另外在大规模监控场景下，复杂拓扑导致集群整体恢复、重启时间较长，易导致采集中断，因此不适用持续性和精准度高的场景。

针对于此，本发明实施例提供了一种Prometheus集群部署方法、装置、设备和计算机可读存储介质，通过分配任务至Prometheus集群中注册成功的Prometheus服务器，并且在获取任务之后删除注册成功的Prometheus服务器对应的临时顺序标识，将已获取任务的Prometheus服务器移除注册队列，标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器注册成功，等待任务分配，不仅能够提高水平扩展能力和灾难恢复能力，还能够实现资源使用率的提高，重启的平滑过渡，解决工作过程中的单点故障、数据脑裂问题。

在本发明的实施例中，Prometheus集群部署方法可以应用于监控系统。监控系统可以包括至少一个Prometheus集群，可选地，监控系统可以包括多个分布式的Prometheus集群，每个Prometheus集群可以包括至少两个Prometheus服务器，至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器。其中，在至少两个Prometheus服务器中的每个Prometheus服务器注册时都可以生成一个临时顺序标识，临时顺序标识可以用于监控系统确定该临时顺序标识对应的Prometheus服务器获取监控系统分配的任务。

下面结合附图对本发明实施例所提供的Prometheus集群部署方法进行介绍。

图1是本发明实施例提供的一种Prometheus集群部署方法的流程示意图。如图1所示，该Prometheus集群部署方法100可以包括S110至S120。

S110，分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识。

具体地，任务可以由监控系统分配，具体分配过程如下：首先，可以获取待采集指标，对待采集指标进行统一管理并划分为至少一个待采集指标任务，即依据待采集指标的数据特征将待采集指标划分成至少一个待采集指标任务。其中，数据特征可以包括以下选项中至少一项：系统特征、业务特征、应用特征。其次，可以将每个待采集指标任务根据每个待采集指标任务中每个待采集指标的分数权重划分为至少一个目标任务存放在目标任务队列中，由监控系统将目标任务队列中每个目标任务在监控系统的全部Prometheus集群中动态发布、执行、回收。可选地，可以由监控系统的服务注册中心根据智能调度算法将目标任务队列中每个目标任务在监控系统的全部Prometheus集群中分配。换句话说，Prometheus集群中注册成功的Prometheus服务器通过分配得到的任务就是目标任务。

同时，删除注册成功的Prometheus服务器对应的临时顺序标识，可以理解为，在注册成功的Prometheus服务器得到分配的任务后，将该注册成功的Prometheus服务器从Prometheus集群的注册队列中移除。

在一些实施例中，当任务删除和/或执行任务的Prometheus服务器异常时，更新Prometheus集群的任务配置、Prometheus集群的注册队列。

具体地，当任务删除和/或执行任务的Prometheus服务器异常时，则更新Prometheus集群的任务配置，刷新后继续采集指标数据，同时更新Prometheus集群的注册队列。

例如，监控到某个Prometheus服务器异常，则将该Prometheus服务器对应的任务设置为未分配，然后将该任务重新分配。

此外，当执行任务的Prometheus服务器的空闲资源低于第四预设阈值时，增加Prometheus集群部署，以及重新分配任务。可以理解，第四预设阈值可以根据实际情况灵活调整。换句话说，当目前Prometheus集群的注册成功的Prometheus服务器监控指标数据过大，性能出现瓶颈时，增加其他Prometheus集群部署，可以理解，其他Prometheus集群与当前的Prometheus集群类似。然后，将该注册成功的Prometheus服务器上的任务回收并重新分配。

S120，标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

具体地，这里的标记为注册成功的Prometheus服务器为当前临时顺序标识排序最靠前的未注册成功的Prometheus服务器。

作为一个具体的示例，在删除Prometheus集群A中注册成功的Prometheus服务器B的临时顺序标识之后，Prometheus集群A此时包括Prometheus服务器C、Prometheus服务器D、Prometheus服务器E。Prometheus服务器C、D、E三者的临时顺序标识排序为标识C-标识D-标识E，可知，Prometheus服务器C的标识C排在首位。此时将Prometheus服务器C标记为当前注册成功的Prometheus服务器，等待监控系统分配任务。

本发明实施例的Prometheus集群部署方法，通过分配任务至Prometheus集群中注册成功的Prometheus服务器，并且在获取任务之后删除注册成功的Prometheus服务器对应的临时顺序标识，将已获取任务的Prometheus服务器移除注册队列，标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器注册成功，等待任务分配，如此一来，不仅能够解决工作过程中的单点故障、数据脑裂问题，还能够提高水平扩展能力和灾难恢复能力，实现了重启的平滑过渡，提高了资源使用率。

在一些实施例中，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之前，需要将Prometheus集群中的Prometheus服务器基于服务注册中心尝试注册，也就是说，在服务注册中心注册Prometheus服务器的服务能力，进而获取注册成功的Prometheus服务器和未注册成功的Prometheus服务器。

首先，可以基于服务注册中心构建Prometheus集群的集群节点。其中，服务注册中心可以通过分布式程序协调服务Consul集群来实现。

其次，第一Prometheus服务器尝试注册，具体地，可以构建Prometheus集群中第一Prometheus服务器的临时顺序标识，以及标记第一Prometheus服务器为注册成功的Prometheus服务器。其中，第一Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联。也就是说，第一Prometheus服务器在服务注册中心注册成功，可以等待监控系统分配任务，可选地，由监控系统的服务注册中心分配任务。具体地，构建Prometheus集群中第一Prometheus服务器的临时顺序标识可以先检测第一Prometheus服务器的空闲资源，当第一Prometheus服务器的空闲资源不低于第一预设阈值时，构建Prometheus集群中第一Prometheus服务器的临时顺序标识。可以理解，第一预设阈值可以根据实际情况灵活调整。

再次，第二Prometheus服务器尝试注册，具体来说，可以构建Prometheus集群中第二Prometheus服务器的临时顺序标识，以及标记第二Prometheus服务器为未注册成功的Prometheus服务器。其中，第二Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联，且排在第一Prometheus服务器的临时顺序标识之后。也就是说，第二Prometheus服务器在服务注册中心注册失败。具体地，构建Prometheus集群中第二Prometheus服务器的临时顺序标识可以先检测第二Prometheus服务器的空闲资源，当第二Prometheus服务器的空闲资源不低于第二预设阈值时，构建Prometheus集群中第二Prometheus服务器的临时顺序标识。可以理解，第二预设阈值可以根据实际情况灵活调整。值得注意的是，在构建Prometheus集群中第二Prometheus服务器的临时顺序标识之后，可以构建第一监测节点。其中，第一监测节点可以用于监测是否存在临时顺序标识处于第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器，当不存在时，第二Prometheus服务器可以被启用，等待监控系统分配任务。

可以理解，Prometheus集群中可以包括多个Prometheus服务器，第一、第二Prometheus服务器尝试注册之后，第一、第二Prometheus服务器之外的其他Prometheus服务器的尝试注册过程与第二Prometheus服务器的尝试注册过程类似，为了简洁，在此不作赘述，从而获取Prometheus集群的注册队列。

如此一来，能够实现同一任务在同一时间只能被一个注册成功的Prometheus服务器成功执行，从而提高了监控系统的高可用性，以及资源利用率。

在一些实施例中，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之后，可以检测第三Prometheus服务器的空闲资源，当第三Prometheus服务器的空闲资源不低于第三预设阈值时，构建第三Prometheus服务器的临时顺序标识。其中，第三Prometheus服务器为已删除自身对应的临时顺序标识的Prometheus服务器，也就是说，第三Prometheus服务器在之前已经从Prometheus集群的注册队列中移除。可以理解，第三预设阈值可以根据实际情况灵活调整。

接着，可以检测第三Prometheus服务器的临时顺序标识的顺序，当检测到第三Prometheus服务器的临时顺序标识的排序不是最靠前时，也就是说在第三Prometheus服务器的临时顺序标识之前还存在其他的临时顺序标识，此时，可以构建第二监测节点。其中，第二监测节点可以用于监测是否存在临时顺序标识处于第三Prometheus服务器的临时顺序标识之前的Prometheus服务器。当不存在时，第三Prometheus服务器可以被启用，等待监控系统分配任务。

如此一来，能够使从注册队列移除的Prometheus服务器重新加入注册队列，提高了监控系统的水平扩展能力和恢复能力，具有较好的稳定性。

图2是本发明实施例提供的一种Prometheus架构示意图，如图所示，Prometheus主要包括：Prometheus服务器(Prometheus server)，服务注册中心，任务/出口者(Jobs/exporters)，推送网关(Push gateway)，Prometheus查询语言(Prometheus QueryLanguage，PromQL)，报警管理(Alert manager)，以及数据可视化(Data Visualization)。

在监控系统中，Prometheus集群作为共享资源，需要建立互斥机制来控制访问，这里，是通过服务注册中心实现，进一步，服务注册中心可以通过分布式程序协调服务Consul集群来实现。监控系统中每个Prometheus集群中的Prometheus服务器通过定期向Consul集群注册自己的服务能力，经服务注册程序的智能调度算法，以安全的方式向监控系统的分布式Prometheus集群提供可靠服务协调能力。分布式Prometheus集群中的服务注册、服务注销策略使得同一任务在同一时间只能被一个Prometheus服务器成功执行，从而实现了具备高可用、高性能的分布式锁，该锁具备可重入特性和防死锁机制。

图3是本发明实施例提供的一种Prometheus服务器注册流程示意图。下面以Prometheus集群1为例，结合图3，介绍下Prometheus集群1中的Prometheus服务器1、2、3的初始注册流程。

首先，在服务注册中心里创建PromCluster1，其中，PromCluster1表示Prometheus集群1的集群节点(支持多个Prometheus集群共享注册服务)。当Prom1判断自身资源充足时，为了获得注册调度权利，可以在PromCluster1这个节点下创建一个Prom1的临时顺序标识。其中，Prom1表示Prometheus服务器1。可选地，Prom1的临时顺序标识可以为临时顺序节点Lock1。可以理解，注册调度权利就是获得分配任务的权利。Prom1可以查找PromCluster1下面所有的临时顺序节点并排序，判断自己所创建的节点Lock1是不是顺序最靠前的一个。如果是第一个节点，则成功注册并等待任务分配。也就是说，Prom1为注册成功的服务器，获得了注册调度权利并被启用，当任务分配过来时，就可以展开工作。

其次，Prom2为了获得注册调度权利，则在PromCluster1下再创建一个Prom2的临时顺序标识。其中，Prom2表示Prometheus服务器2。可选地，Prom2的临时顺序标识可以为临时顺序节点Lock2。Prom2可以查找PromCluster1下面所有临时顺序节点并排序，判断自身所创建节点Lock2是否顺序最靠前，结果发现节点Lock2并非最小，则Prom2向排序仅比它靠前的节点Lock1注册监测节点1。可选地，监测节点1可以为Watcher1，用于监听Lock1节点是否存在。返回Prom2注册失败，进入了等待状态。也就是说，Prom2为未注册成功的服务器，未获得注册调度权利并未被启用。

再次，Prom3为了获得注册调度权利，与Prom2类似注册类似，参考Prom2执行，同样发现节点Lock3并不是最小的，则Prom3向排序仅比它靠前的节点Lock2注册Watcher2，用于监听Lock2节点是否存在。这意味着Prom3同样注册失败，进入了等待状态。可以理解，当Prometheus集群1包括不止3个Prometheus服务器时，注册过程也与之类似。

初始注册完成后，Prom1成功注册到服务中心，成为热节点，即启用的服务器，为任务提供抓取(Pull)服务。Prom2监听了Lock1，Prom3监听了Lock2，形成了分布式等待队列，由于服务注册过程中如未获得注册调度权利将直接返回获取注册调度权利失败，所以该服务注册可以看作非阻塞的高性能锁，具有高可用性，高性能性，而且能够通过热节点性能冗余解决了副本模式的过度冗余和任务切换带来的服务持续中断。

在一些实施例中，可以根据任务执行现状(例如任务量)的繁忙程度来动态调整热节点的储备(自动扩展，有增有减)，可以由监控系统的服务注册中心根据智能调度算法将任务队列中每个任务在监控系统的全部Prometheus集群中分配。可选地，服务注册中心也可以将任务队列中每个任务在监控系统的全部Prometheus集群中动态发布、执行、回收。这里，任务指的就是目标任务。

具体地，监控任务队列，可选地，可以由调度程序监控，当有新任务生成时，读取任务信息，动态适配到服务注册中心中优先级最高的注册成功的Prometheus服务器，同时锁定任务记录中该任务和该注册成功的Prometheus服务器对应关系、将该注册成功的Prometheus服务器移除注册队列，若运行一段时间后该Prometheus服务器资源占用小，则可再次进入注册队列。这里，由于监控系统包括至少一个Prometheus集群，每个Prometheus集群包括一个注册成功的Prometheus服务器，所以服务注册中心中存在至少一个注册成功的Prometheus服务器。可以根据服务注册中心中每个注册成功的Prometheus服务器的采集能力进行排序，设置优先级。

可选地，可以在预设时间间隔监控任务队列和Prometheus服务器的状态，例如，每隔30s监控任务队列和Prometheus服务器的状态。可以理解，预设时间间隔可以根据实际情况灵活调整。

图4是本发明实施例提供的一种监控系统分配任务的流程示意图，下面结合图4，介绍下监控系统如何分配任务。

如图4所示，任务队列中有任务1、2、3，注册成功的Prometheus服务器的队列注册成功的Prometheus服务器4、5、6，此时，读取任务1、2、3的信息，然后基于服务注册中心、任务1、2、3的信息以及注册成功的Prometheus服务器4、5、6的优先级确定任务1、2、3的归属，进而执行任务。

如此一来，基于服务中心，以及资源采集的任务化抽象，实现了Prometheus集群的自动扩展与容错恢复，从而解决了大规模监控Prometheus集群部署过程常见的高可用问题。

图5是本发明实施例提供的一种Prometheus集群部署装置的结构示意图，该装置应用于监控系统，如图5所示，该Prometheus集群部署装置200可以包括：分配模块210、标记模块220。

其中，分配模块210用于分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识。

标记模块220用于标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

在一些实施例中，该装置200还包括构建模块230，用于在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之前，基于服务注册中心构建Prometheus集群的集群节点。构建Prometheus集群中第一Prometheus服务器的临时顺序标识，以及标记第一Prometheus服务器为注册成功的Prometheus服务器。其中，第一Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联。构建Prometheus集群中第二Prometheus服务器的临时顺序标识，以及标记第二Prometheus服务器为未注册成功的Prometheus服务器。其中，第二Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联，且排在第一Prometheus服务器的临时顺序标识之后。

在一些实施例中，构建模块230还用于检测第一Prometheus服务器的空闲资源。当第一Prometheus服务器的空闲资源不低于第一预设阈值时，构建Prometheus集群中第一Prometheus服务器的临时顺序标识。检测第二Prometheus服务器的空闲资源。当第二Prometheus服务器的空闲资源不低于第二预设阈值时，构建Prometheus集群中第二Prometheus服务器的临时顺序标识。

在一些实施例中，构建模块230还用于在构建Prometheus集群中第二Prometheus服务器的临时顺序标识之后，构建第一监测节点。其中，第一监测节点用于监测是否存在临时顺序标识处于第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器。

在一些实施例中，该装置200还包括检测模块240，用于在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除注册成功的Prometheus服务器对应的临时顺序标识之后，检测第三Prometheus服务器的空闲资源。其中，第三Prometheus服务器为已删除自身对应的临时顺序标识的Prometheus服务器。当第三Prometheus服务器的空闲资源不低于第三预设阈值时，构建第三Prometheus服务器的临时顺序标识，其中第三Prometheus服务器的临时顺序标识与Prometheus集群的集群节点关联。检测第三Prometheus服务器的临时顺序标识的顺序。当检测到第三Prometheus服务器的临时顺序标识的排序不是最靠前时，构建第二监测节点。其中，第二监测节点用于监测是否存在临时顺序标识处于第三Prometheus服务器的临时顺序标识之前的Prometheus服务器。

在一些实施例中，该装置200还包括更新模块250用于当任务删除和/或执行任务的Prometheus服务器异常时，更新Prometheus集群的任务配置、Prometheus集群的注册队列。

在一些实施例中，该装置200还包括增加模块260，用于当执行任务的Prometheus服务器的空闲资源低于第四预设阈值时，增加Prometheus集群部署，以及重新分配任务。

本发明实施例的Prometheus集群部署装置，通过分配任务至Prometheus集群中注册成功的Prometheus服务器，并且在获取任务之后删除注册成功的Prometheus服务器对应的临时顺序标识，将已获取任务的Prometheus服务器移除注册队列，标记Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器注册成功，等待任务分配，不仅能够提高水平扩展能力和灾难恢复能力，还能够实现资源使用率的提高，重启的平滑过渡，解决工作过程中的单点故障、数据脑裂问题。

可以理解的是，本发明实施例的Prometheus集群部署装置200，可以对应于本发明实施例图1中的Prometheus集群部署方法的执行主体，Prometheus集群部署装置200的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例图1的Prometheus集群部署方法中的相应部分的描述，为了简洁，在此不再赘述。

图6是本发明实施例提供的一种Prometheus集群部署设备的硬件结构示意图。

如图6所示，本实施例中的Prometheus集群部署设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中，输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接，输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接，进而与Prometheus集群部署设备300的其他组件连接。

具体地，输入设备301接收来自外部的输入信息，并通过输入接口302将输入信息传送到中央处理器303；中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器304中，然后通过输出接口305将输出信息传送到输出设备306；输出设备306将输出信息输出到Prometheus集群部署设备300的外部供用户使用。

在一个实施例中，图6所示的Prometheus集群部署设备300包括：存储器304，用于存储程序；处理器303，用于运行存储器中存储的程序，以执行图1所示实施例提供的Prometheus集群部署方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现图1所示实施例提供的Prometheus集群部署方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory，ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种Prometheus集群部署方法，其特征在于，应用于监控系统，所述监控系统包括至少一个Prometheus集群，每个Prometheus集群包括至少两个Prometheus服务器，所述至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器，在所述至少两个Prometheus服务器中每个Prometheus服务器注册时生成一个临时顺序标识，临时顺序标识用于所述监控系统确定所述临时顺序标识对应的Prometheus服务器获取所述监控系统分配的任务，所述方法包括：

分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除所述注册成功的Prometheus服务器对应的临时顺序标识；

标记所述Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

2.根据权利要求1所述的方法，其特征在于，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除所述注册成功的Prometheus服务器对应的临时顺序标识之前，所述方法还包括：

基于服务注册中心构建所述Prometheus集群的集群节点；

构建所述Prometheus集群中第一Prometheus服务器的临时顺序标识，以及标记所述第一Prometheus服务器为注册成功的Prometheus服务器，其中，第一Prometheus服务器的临时顺序标识与所述Prometheus集群的集群节点关联；

构建所述Prometheus集群中第二Prometheus服务器的临时顺序标识，以及标记所述第二Prometheus服务器为未注册成功的Prometheus服务器，其中，第二Prometheus服务器的临时顺序标识与所述Prometheus集群的集群节点关联，且排在第一Prometheus服务器的临时顺序标识之后。

3.根据权利要求2所述的方法，其特征在于，

所述构建所述Prometheus集群中第一Prometheus服务器的临时顺序标识，包括：

检测所述第一Prometheus服务器的空闲资源；

当所述第一Prometheus服务器的空闲资源不低于第一预设阈值时，构建所述Prometheus集群中第一Prometheus服务器的临时顺序标识；

所述构建所述Prometheus集群中第二Prometheus服务器的临时顺序标识，包括：

检测所述第二Prometheus服务器的空闲资源；

当所述第二Prometheus服务器的空闲资源不低于第二预设阈值时，构建所述Prometheus集群中第二Prometheus服务器的临时顺序标识。

4.根据权利要求2所述的方法，其特征在于，在构建所述Prometheus集群中第二Prometheus服务器的临时顺序标识之后，所述方法还包括：

构建第一监测节点，其中，所述第一监测节点用于监测是否存在临时顺序标识处于所述第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器。

5.根据权利要求1-4任意一项所述的方法，其特征在于，在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除所述注册成功的Prometheus服务器对应的临时顺序标识之后，所述方法还包括：

检测第三Prometheus服务器的空闲资源，其中，所述第三Prometheus服务器为已删除自身对应的临时顺序标识的Prometheus服务器；

当所述第三Prometheus服务器的空闲资源不低于第三预设阈值时，构建所述第三Prometheus服务器的临时顺序标识，其中第三Prometheus服务器的临时顺序标识与所述Prometheus集群的集群节点关联；

检测所述第三Prometheus服务器的临时顺序标识的顺序；

当检测到所述第三Prometheus服务器的临时顺序标识的排序不是最靠前时，构建第二监测节点，其中，所述第二监测节点用于监测是否存在临时顺序标识处于所述第三Prometheus服务器的临时顺序标识之前的Prometheus服务器。

6.根据权利要求1所述的方法，其特征在于，当所述任务删除和/或执行所述任务的Prometheus服务器异常时，所述方法还包括：

更新所述Prometheus集群的任务配置、所述Prometheus集群的注册队列。

7.根据权利要求1所述的方法，其特征在于，当执行所述任务的Prometheus服务器的空闲资源低于第四预设阈值时，所述方法还包括：

增加Prometheus集群部署，以及重新分配所述任务。

8.一种Prometheus集群部署装置，其特征在于，应用于监控系统，所述监控系统包括至少一个Prometheus集群，每个Prometheus集群包括至少两个Prometheus服务器，所述至少两个Prometheus服务器包括一个注册成功的Prometheus服务器，余下的Prometheus服务器为未注册成功的Prometheus服务器，在所述至少两个Prometheus服务器中每个Prometheus服务器注册时生成一个临时顺序标识，临时顺序标识用于所述监控系统确定所述临时顺序标识对应的Prometheus服务器获取所述监控系统分配的任务，所述装置包括：

分配模块，用于分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除所述注册成功的Prometheus服务器对应的临时顺序标识；

标记模块，用于标记所述Prometheus集群中与排序最靠前的临时顺序标识对应的未注册成功的Prometheus服务器为注册成功的Prometheus服务器。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

构建模块，用于在分配任务至Prometheus集群中注册成功的Prometheus服务器，以及删除所述注册成功的Prometheus服务器对应的临时顺序标识之前，基于服务注册中心构建所述Prometheus集群的集群节点；

10.根据权利要求9所述的装置，其特征在于，所述构建模块还用于：

检测所述第一Prometheus服务器的空闲资源；

检测所述第二Prometheus服务器的空闲资源；

11.根据权利要求9所述的装置，其特征在于，所述构建模块还用于：

在构建所述Prometheus集群中第二Prometheus服务器的临时顺序标识之后，构建第一监测节点，其中，所述第一监测节点用于监测是否存在临时顺序标识处于所述第二Prometheus服务器的临时顺序标识之前的第一Prometheus服务器。

12.一种Prometheus集群部署设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的Prometheus集群部署方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的Prometheus集群部署方法。