CN115580522A

CN115580522A - 一种容器云平台运行状态的监控方法及装置

Info

Publication number: CN115580522A
Application number: CN202211217933.7A
Authority: CN
Inventors: 曾勇; 李瑜; 吴鹏毅
Original assignee: Tongfang Technology of Yunnan Power Grid Co Ltd
Current assignee: Tongfang Technology of Yunnan Power Grid Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-06

Abstract

本申请提供了一种容器云平台运行状态的监控方法及装置，其中，该方法包括：获取与容器云平台关联的性能监控数据；基于性能监控数据确定容器云平台的健康度；在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警。通过本申请，解决了现有技术中无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

Description

一种容器云平台运行状态的监控方法及装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种容器云平台运行状态的监控方法及装置。

背景技术

Kubernetes是一个用于管理云平台中多个主机上的容器化的应用，它支持自动化部署、大规模可伸缩、应用容器化管理。现有的Kubernetes系统容器云平台状态监控方法对性能监控数据进行监控，而无法对容器云平台的异常状态进行识别与预警，在硬件资源足够充分的情况下Kubernetes系统发生异常后具备自我修复的功能，但在硬件资源不充分的情况下则具有系统崩溃的风险。现有技术中的容器云平台状态的监控方法存在无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

发明内容

本申请实施例的目的在于提供一种容器云平台运行状态的监控方法及装置，解决了现有技术中存在的无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种容器云平台运行状态的监控方法，所述方法包括：获取与容器云平台关联的性能监控数据；基于性能监控数据确定容器云平台的健康度；在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警。

在本申请实施的第二方面，还提供了一种容器云平台运行状态的监控装置，所述装置包括：获取模块，用于获取与容器云平台关联的性能监控数据；确定模块，用于基于性能监控数据确定容器云平台的健康度；预警模块，用于在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警。

在本申请实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

在本申请实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的容器云平台运行状态的监控方法。

本申请实施例提供的容器云平台运行状态的监控方法及装置，通过获取与容器云平台关联的性能监控数据；基于性能监控数据确定容器云平台的健康度；在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警；也就是说，基于健康度确认容器云平台是否处于异常运行状态，在容器云平台处于异常运行状态下发出预警，从而解决了现有技术中无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例中容器云平台运行状态的监控方法流程图之一；

图2为本申请实施例中容器云平台运行状态的监控方法流程图之二；

图3为本申请实施例中容器云平台运行状态的监控方法流程图之三；

图4为本申请实施例中容器云平台运行状态的监控方法流程图之四；

图5为本申请实施例中容器云平台运行状态的监控方法流程图之五；

图6为本申请实施例中容器云平台运行状态的监控装置结构示意图之一；

图7为本申请实施例中容器云平台运行状态的监控装置结构示意图之二；

图8为本申请实施例中容器云平台运行状态的监控装置结构示意图之三；

图9为本申请实施例中电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述地实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“单元”的后缀仅为了有利于本申请的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。本申请实施例提供了一种容器云平台运行状态的监控方法，如图1所示，该方法包括以下步骤：

步骤102:获取与容器云平台关联的性能监控数据；

其中，需要说明的是，容器云平台指的是依靠容器技术，结合云原生技术和无服务等技术构建的一种轻量化平台即服务(Platform as a Service，缩写为PaaS)。容器云平台融合传统云计算的基础设施即服务层(Infrastructure as a Service,缩写为IaaS)和PaaS层，给应用从开发、编排、发布、治理和运维等方面提供全生命周期管理(ApplicationLifecycle Management，缩写为ALM)的能力。容器云平台的整体架构，自下而上包括交互(User Interface，缩写为UI)层、应用程序接口(Application Programming Interface，缩写为API)层、PaaS服务层、基础层。本申请中的容器云平台是指由Kubernetes管理的集群式容器云平台。性能监控数据包括：中央处理器(CPU)数据、内存数据、存储空间数据、网络情况数据、应用程序接口服务器(API Server)状态数据、管理控制器(ControllerManager)状态数据、存储系统(Etcd)状态数据、核心域名系统(CoreDNS)状态数据、节点控制器(Nodes)状态数据、在线Pods状态数据、关键Pods启停情况数据、部署资源(Deployment)状态数据、状态集(StatefulSet)状态数据、守护进程集(DaemonSets)状态数据、服务(Service)资源状态数据、关键服务启停情况数据、Pods的剩余容量数据、分布均匀度数据、日志报错信息。在具体的实施例中，基于用户需求确定所需要获取的性能监控数据。在一示范例中，获取与容器云平台关联的性能监控数据包括：获取中央处理器(CPU)数据、内存数据、存储空间数据、日志报错信息。

步骤104:基于性能监控数据确定容器云平台的健康度；

其中，需要说明的是，容器云平台的健康度用于表征系统运行的状态，基于性能监控数据中每一条数据的得分权重值与对应的健康分值、每一条错误数据的扣分权重值与对应的错误分值确定。

步骤106:在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警。

其中，需要说明的是，在具体的实施例中，基于用户需求确定健康度的预设阈值。在一示范例中，健康度的范围为0-100分，预设阈值为90分，在健康度小于90分的情况下，确定容器云平台处于异常运行状态并发出预警。

通过本申请实施例的上述步骤102至步骤106，通过获取与容器云平台关联的性能监控数据；基于性能监控数据确定容器云平台的健康度；在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警；也就是说，基于健康度确认容器云平台是否处于异常运行状态，本申请实施例所提供的容器云平台运行状态的监控方法可以在容器云平台处于异常运行状态下发出预警，从而解决了现有技术中存在的无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

在本申请实施例的可选实施方式中，本申请步骤102中涉及到的获取与容器云平台关联的性能监控数据，进一步可以包括：

步骤202：通过内置在容器云平台的应用容器引擎所对应的应用程序接口获取性能监控数据；其中，应用容器引擎包括第一监控模块和第二监控模块；第一监控模块用于监控性能监控数据中的动态数据；第二监控模块用于监控性能监控数据中的静态数据。

其中,需要说明的是，应用容器引擎(Docker)让开发者可以打包应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows操作系统的机器上。第一监控模块为普罗米修斯(Prometheus)监控模块。在一示范例中，第二监控模块为资源监控模块(Kubelet-cAdvisor)；在另一示范例中，第二监控模块为节点监控模块(node-exporter)。

可见，本申请实施例提供的容器云平台运行状态的监控方法通过应用容器引擎获取容器云平台的性能监控数据，进而可以用于确定容器云平台的运行状态。

在本申请实施例的可选实施方式中，如图2所示，本申请步骤202中涉及到的性能监控数据中的动态数据包括：性能数据；性能监控数据中的静态数据包括：运行状态数据、集群静态数据。

其中，需要说明的是，动态数据包括应用程序接口服务器(API Server)状态数据、管理控制器(Controller Manager)状态数据、存储系统(Etcd)状态数据、核心域名系统(CoreDNS)状态数据、节点控制器(Nodes)状态数据、在线Pods状态数据、关键Pods启停情况数据、部署资源(Deployment)状态数据、状态集(StatefulSet)状态数据、守护进程集(DaemonSets)状态数据、服务(Service)资源状态数据、关键服务启停情况数据、Pods的剩余容量数据、分布均匀度数据、日志报错信息。静态数据包括中央处理器(CPU)数据、内存数据、存储空间数据、网络情况数据。

可见，本申请实施例提供的容器云平台运行状态的监控方法可以通过静态数据和动态数据对容器云平台的运行状态进行监控。

在本申请实施例的可选实施方式中，本申请步骤202中涉及到的通过内置在容器云平台的应用容器引擎所对应的应用程序接口获取性能监控数据，如图3所示，包括：

步骤302：基于应用容器引擎所对应的应用程序接口获取主机的互联网协议地址；其中，主机用于部署容器云平台；

其中，需要说明的是，应用程序接口(Application Programming Interface，缩写为API)又称为应用编程接口，是软件系统不同组成部分衔接的约定。互联网协议地址即IP(Internet Protocol)地址，是IP协议提供的一种统一的地址格式。

步骤304：基于互联网协议地址，调用第一监控模块所对应的应用程序接口获取性能数据；

步骤306：基于互联网协议地址，调用第二监控模块所对应的应用程序接口获取运行状态数据和集群静态数据。

可见，本申请实施例提供的容器云平台运行状态的监控方法通过第一监控模块和第二监控模块获取容器云平台的性能数据、运行状态数据和集群静态数据，进而可以用于确定容器云平台的运行状态。

本申请实施例提供的容器云平台运行状态的监控方法，在本申请步骤104涉及到的基于性能监控数据确定容器云平台的健康度，如图4所示，包括：

步骤402：确定性能监控数据中每一条性能监控数据的得分权重值与对应的健康分值的乘积，得到每一条性能监控数据的健康加分值；

其中，需要说明的是，性能监控数据的得分权重值与健康分值基于用户需求确定。在第一示范例中，性能监控数据包括CPU数据、内存数据，CPU数据的得分权重值为40％，CPU数据的健康分值为80分，则CPU数据的健康加分值为32分；内存数据的得分权重值为60％，内存数据的健康分值为90分，则内存数据的健康加分值为48分。

步骤404：确定性能监控数据中每一条错误数据的扣分权重值与对应的错误分值的乘积，得到每一条错误数据的错误扣分值；

其中，需要说明的是，性能监控数据中错误数据的扣分权重值与错误分值基于用户需求确定。在上述第一示范例中，CPU数据为错误数据，CPU数据的扣分权重值为20％，CPU数据的错误分值为30分，则CPU数据的错误扣分值为6分。

步骤406：将所有性能监控数据的健康加分值之和减去所有错误数据的错误扣分值之和的结果确定为容器云平台的健康度。

其中，需要说明的是，在上述第一示范例中，所有性能监控数据的健康加分值之和为80分，所有错误数据的错误扣分值之和为6分，容器云平台的健康度为74分。

容器云平台的健康度计算公式如下所示：

Healthy Scores为容器云平台的健康度，n为性能监控数据的数量，Weight_i为第i个性能监控数据的得分权重值，Data_i为第i个性能监控数据的健康分值，Weight_i与Data_i的乘积为第i个性能监控数据的健康加分值；m为错误数据的数量，Weight_j为第j个错误数据的扣分权重值，Error_j为第j个错误数据的错误分值，Weight_j与Error_j的乘积为第j个错误数据的错误扣分值；将所有性能监控数据的健康加分值之和减去所有错误数据的错误扣分值之和的结果确定为容器云平台的健康度。

可见，本申请实施例提供的容器云平台运行状态的监控方法容器云平台的健康度基于性能监控数据在运行过程中是否发生错误而确定，在错误数据过多导致健康度小于预设阈值的情况下确定容器云平台处于异常运行状态并发出预警，防止错误数据过多导致系统崩溃。

本申请实施例提供的容器云平台运行状态的监控方法，步骤106涉及到的发出预警，包括：通过容器云平台的客户端系统内的即时通讯软件发出预警。

其中，需要说明的是，发出预警还可以包括通过企业内网通讯软件发出预警、通过邮件发出预警、通过短信发出预警、通过电话发出预警、通过微信发出预警、通过钉钉发出预警。

可见，本申请实施例提供的容器云平台运行状态的监控方法的预警方式多样，可以根据用户需求进行确定。

本申请实施例提供的容器云平台运行状态的监控方法，在一示范例中，如图5所示，包括：

步骤501：用户客户端设置需要监控的性能监控数据；

步骤502：用户客户端设置健康度的预设阈值；

步骤503：调用应用容器引擎所对应的应用程序接口；

步骤504：获取与容器云平台关联的性能监控数据；

步骤505：基于性能监控数据确定容器云平台的健康度；

步骤506：在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警；

步骤507：在健康度大于预设阈值的情况下，继续监控。

可以基于健康度确认容器云平台是否处于异常运行状态，在容器云平台处于异常运行状态下发出预警，从而解决现有技术中存在的无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

本申请实施例提供了一种容器云平台运行状态的监控装置，如图6所示，该装置包括：

获取模块62，用于获取与容器云平台关联的性能监控数据；

确定模块64，用于基于性能监控数据确定容器云平台的健康度；

预警模块66，用于在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警。

通过本申请实施例提供的容器云平台运行状态的监控装置，通过获取模块获取与容器云平台关联的性能监控数据，通过确定模块基于性能监控数据确定容器云平台的健康度，通过预警模块在健康度小于预设阈值的情况下，确定容器云平台处于异常运行状态并发出预警；也就是说，基于健康度确认容器云平台是否处于异常运行状态，在容器云平台处于异常运行状态下发出预警，从而解决了现有技术中存在的无法对容器云平台的异常状态进行识别与预警导致系统崩溃风险高的技术问题。

在本申请实施例的可选实施方式中，本申请实施例提供的获取模块62，进一步可以包括：获取单元，用于通过内置在容器云平台的应用容器引擎所对应的应用程序接口获取性能监控数据；其中，应用容器引擎包括第一监控模块和第二监控模块；第一监控模块用于监控性能监控数据中的动态数据；第二监控模块用于监控性能监控数据中的静态数据。

在本申请实施例的可选实施方式中，本申请实施例提供的获取单元，如图7所示，进一步可以包括：

第一获取子单元72，用于基于应用容器引擎所对应的应用程序接口获取主机的互联网协议地址；其中，主机用于部署容器云平台；

第二获取子单元74，用于基于互联网协议地址，调用第一监控模块所对应的应用程序接口获取性能数据；

第三获取子单元76，用于基于互联网协议地址，调用第二监控模块所对应的应用程序接口获取运行状态数据和集群静态数据。

在本申请实施例的可选实施方式中，本申请实施例提供的确定模块64，如图8所示，进一步可以包括：

第一处理单元82，用于确定性能监控数据中每一条性能监控数据的得分权重值与对应的健康分值的乘积，得到每一条性能监控数据的健康加分值；

第二处理单元84，用于确定性能监控数据中每一条错误数据的扣分权重值与对应的错误分值的乘积，得到每一条错误数据的错误扣分值；

第三处理单元86，用于将所有性能监控数据的健康加分值之和减去所有错误数据的错误扣分值之和的结果确定为容器云平台的健康度。

在本申请实施例的可选实施方式中，本申请实施例提供的预警模块66，进一步可以包括：预警单元，用于通过容器云平台的客户端系统内的即时通讯软件发出预警。

本申请实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现图1中的方法步骤，其所起到的作用与图1中的方法步骤一样，在此不再赘述。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的容器云平台运行状态的监控方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的容器云平台运行状态的监控方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种容器云平台运行状态的监控方法，其特征在于，包括：

获取与所述容器云平台关联的性能监控数据；

基于所述性能监控数据确定所述容器云平台的健康度；

在所述健康度小于预设阈值的情况下，确定所述容器云平台处于异常运行状态并发出预警。

2.根据权利要求1所述的方法，其特征在于，所述获取与所述容器云平台关联的性能监控数据，包括：

通过内置在所述容器云平台的应用容器引擎所对应的应用程序接口获取所述性能监控数据；其中，所述应用容器引擎包括第一监控模块和第二监控模块；所述第一监控模块用于监控所述性能监控数据中的动态数据；所述第二监控模块用于监控所述性能监控数据中的静态数据。

3.根据权利要求2所述的方法，其特征在于，

所述性能监控数据中的动态数据包括：性能数据；

所述性能监控数据中的静态数据包括：运行状态数据、集群静态数据。

4.根据权利要求3所述的方法，其特征在于，所述通过内置在所述容器云平台的应用容器引擎所对应的应用程序接口获取所述性能监控数据，包括：

基于所述应用容器引擎所对应的应用程序接口获取主机的互联网协议地址；其中，所述主机用于部署所述容器云平台；

基于所述互联网协议地址，调用所述第一监控模块所对应的应用程序接口获取所述性能数据；

基于所述互联网协议地址，调用所述第二监控模块所对应的应用程序接口获取所述运行状态数据和所述集群静态数据。

5.根据权利要求1所述的方法，其特征在于，所述基于所述性能监控数据确定所述容器云平台的健康度，包括：

确定所述性能监控数据中每一条所述性能监控数据的得分权重值与对应的健康分值的乘积，得到每一条所述性能监控数据的健康加分值；

确定所述性能监控数据中每一条错误数据的扣分权重值与对应的错误分值的乘积，得到每一条所述错误数据的错误扣分值；

将所有所述性能监控数据的健康加分值之和减去所有所述错误数据的错误扣分值之和的结果确定为所述容器云平台的健康度。

6.根据权利要求1所述的方法，其特征在于，所述发出预警包括：

通过所述容器云平台的客户端系统内的即时通讯软件发出预警。

7.一种容器云平台运行状态的监控装置，其特征在于，包括：

获取模块，用于获取与所述容器云平台关联的性能监控数据；

确定模块，用于基于所述性能监控数据确定所述容器云平台的健康度；

预警模块，用于在所述健康度小于预设阈值的情况下，确定所述容器云平台处于异常运行状态并发出预警。

8.根据权利要求7所述的装置，其特征在于，所述获取模块包括：

获取单元，用于通过内置在所述容器云平台的应用容器引擎所对应的应用程序接口获取所述性能监控数据；其中，所述应用容器引擎包括第一监控模块和第二监控模块；所述第一监控模块用于监控所述性能监控数据中的动态数据；所述第二监控模块用于监控所述性能监控数据中的静态数据。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。