CN117421994A

CN117421994A - 一种边缘应用健康度的监测方法和监测系统

Info

Publication number: CN117421994A
Application number: CN202311560924.2A
Authority: CN
Inventors: 陈雪儿; 才振功; 蒋咪; 程心媛; 王羽中; 吉梁茜; 王翱宇
Original assignee: Hangzhou Harmonycloud Technology Co Ltd
Current assignee: Hangzhou Harmonycloud Technology Co Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-01-19

Abstract

本发明公开了一种边缘应用健康度的监测方法和监测系统，属于电数字数据处理技术领域，所述方法包括以下步骤：通过健康评估模型对边缘应用的监测数据进行分析，获得边缘应用的健康度；训练方法包括：获取数据集，基于时间序列度量距离，获得指标与健康度的距离；根据距离，从指标中筛选建模指标；根据建模指标和数据集，获得训练集；基于机器学习的方法，对训练集进行训练，获得健康评估模型。利用指标与健康度的距离，筛选建模指标，减少健康评估模型训练的计算量和健康分析的计算量；提高健康度评估的普适性；实现对海量监测数据的高效利用，可及时感知边缘应用存在的健康隐患，减少人工运维成本，有效提高边缘应用异常风险的识别能力。

Description

一种边缘应用健康度的监测方法和监测系统

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种边缘应用健康度的监测方法和监测系统。

背景技术

随着物联网、人工智能、工业自动化等技术领域的快速发展，边缘计算和云边协同已进入到各个领域。边缘计算使得计算和数据存储更加接近于数据产生源头，从而实现对数据的实时处理，同时减少对云平台的依赖性。根据Gartner预测，2025年超过75％的数据将在边缘侧进行分析、处理与储存。

边缘计算的快速发展，使得部署在边缘侧的边缘应用数量随之增加，然而面对迅速扩增的边缘应用还缺少一套科学合理的应用健康状况评估体系，无法对边缘侧应用进行科学运维管理。边缘应用出现问题时无法及时、准确地发现应用潜在的问题，这可成为阻碍边缘应用快速、健康发展的绊脚石。

当前针对边缘应用的运维管理，主要还是基于传统运维，而传统运维存在如下缺陷：传统运维主要是直接对单个指标进行监控，只能反映各指标数据是否在正常范围内，同时监控静态阈值的配置方式工作量庞大，且容易出现误告警现象。并且仅对指标数据波动趋势以及告警情况分析，难以评估应用整体运行情况，还需要对多维度多指标进行综合分析，进而评定应用的整体健康度。

目前应用健康度通常基于单一的指标评价体系，对于规模较大、结构复杂、功能繁多、故障模态多样的复杂边缘应用不具有普适性。对某一应用适用的健康度评估体系通常不适用于其他应用，这对应用健康度模型的实际应用与推广带来了极大的阻碍。

另一种健康度监测的方法为：基于复杂庞大的深度学习模型。该方法需要消耗大量的计算资源和存储资源，同时过于复杂的模型计算一次耗时过长，不满足边缘应用场景以及运维场景对实时性的高要求。

因此目前对于边缘应用的健康度评估的方法还不够完善，存在过于依赖人工、误告和漏告频繁，不适用于复杂系统，难以实现自适应业务变化，以及不适用于边缘设备等问题。

发明内容

针对现有技术中存在的上述技术问题，本发明提供一种边缘应用健康度的监测方法和监测系统，从复杂的监测数据中筛选建模指标，基于建模指标，训练健康度评估模型，降低计算成本、提高健康度分析的普适性。

本发明公开了一种边缘应用健康度的监测方法，包括以下步骤：获得健康评估模型；通过健康评估模型对边缘应用的监测数据进行分析，获得边缘应用的健康度；其中，健康评估模型的训练方法包括：获取数据集，所述数据集包括多个指标的监测数据及其健康度；基于时间序列度量距离的方法，获得指标与健康度的距离；根据所述距离，从所述指标中筛选建模指标；根据所述建模指标和数据集，获得训练集；基于机器学习的方法，对训练集进行训练，获得健康评估模型。

优选的，时间序列度量距离的方法包括基于形态距离的方法，

基于形态距离的方法包括以下步骤：

对数据集的监测数据进行预处理；

根据预处理后的监测数据，计算所述指标与健康度的互相关距离：

对互相关距离从大到小排序，取前k个指标作为建模指标，其中，k为自然数；即最大的k个指标作为建模指标。

优选的，互相关距离的计算方式为：

SBD(T_i,H)＝1-NCC(T_i,H) (3)

其中，T_i表示为第i个指标的监测序列，t_j表示为监测序列的第j个值，H表示为健康度序列，hj表示为健康度序列的第j个健康度值，s表示为相位偏差，CCs(T_i,H)表示为互相关系数，NCC(T_i,H)为标准化互相关系数，SBD(T_i,H)为互相关距离。

优选的，所述预处理包括：数据清洗和数据变换，所述数据清洗包括缺失值处理和离群点检测；

缺失值处理包括：取滑动窗口的平均值插补缺失值；

离群点检测包括：采用3-sigma算法计算阈值；将超出阈值的数据作为缺失值；

数据变换包括数据的归一化。

优选的，所述机器学习的方法包括概率神经网络，

概率神经网络包括输入层、模式层、求和层和输出层；

输入层接收来自训练样本的特征量，并把这些特征量转递给模式层；

求和层用于将各个类的模式层单元连接起来，将属于所述类的概率进行累计计算；

输出层根据求和层输出值的大小，输出得分最高的类。

优选的，输入层和模式层通过高斯函数连接：

其中，φ(X)为高斯函数，n为特征的个数，σ表示平滑参数，X为样本输入向量，X_ij表示第i个神经元的第j个数据；

累计计算的计算公式如下：

其中，acc_i为第i类的数据，K为第i类是对应的神经元个数，φ(ij)为模式层中第i组第j个神经元的输出值。

优选的，根据所述健康度和预设的健康度区间，获得边缘应用的健康度评价；

根据健康度评价，生成健康报告或健康告警。

优选的，所述边缘应用为容器化应用，通过代理容器采集应用实例的监测数据；

所述健康评估模型部署在k8s集群中；

云边协同的方法包括：

边缘端接收由云端下发的健康评估模型，并根据健康评估模型和采集到的监测数据，计算边缘应用的健康度评分；

根据健康度和健康度阈值，获得边缘应用的健康状态；

若边缘应用的健康状态为正常，向云端上传时间戳和健康度评分；

若边缘应用的健康状态为异常，对建模指标进行异常检测，获得异常的建模指标；并向云端上传健康度评分和异常建模指标；

各边缘端对数据进行存储和聚合，云端定期利用聚合的数据进行健康评估模型的重训练。

本发明还提供一种用于实现上述监测方法的监测系统，包括：监测模块和评估模块，所述监测模块用于获得边缘应用的监测数据；所述评估模块用于通过健康评估模型对边缘应用的监测数据进行分析，获得边缘应用的健康度。

优选的，所述监测系统还包括指标选取模块、训练模块、告警模块、数据聚合模块和应用健康存储模块，

所述指标选取模块用于基于时间序列度量距离的方法，获得指标与健康度的距离；根据所述距离，从所述指标中筛选建模指标；

所述训练模块用于基于机器学习的方法，对训练集进行训练，获得健康评估模型；

所述告警模块用于根据所述健康度和预设的健康度区间，获得边缘应用的健康度评价；并根据健康度评价，生成健康报告或健康告警；

数据聚合模块用于对监测数据进行聚合；

应用健康存储模块用于存储边缘应用的健康度数据。

与现有技术相比，本发明的有益效果为：利用指标与健康度的距离，筛选建模指标，利于减少健康评估模型训练的计算量和健康分析的计算量；提高健康度评估的普适性；健康评估模型易于训练、收敛速度快；实现对海量监测数据的高效利用，可及时感知边缘应用存在的健康隐患，减少人工运维成本，有效提高边缘应用异常风险的识别能力。

附图说明

图1是本发明的边缘应用健康度的监测方法流程图；

图2是本发明的监测系统逻辑框图；

图3是PNN的网络结构图；

图4是健康评估模型的训练方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

一种边缘应用健康度的监测方法，如图1所示，包括以下步骤：

步骤S1：获得健康评估模型。

步骤S2：通过健康评估模型对边缘应用的监测数据进行评估，获得边缘应用的健康度。

步骤S3：根据所述健康度和预设的健康度区间，获得边缘应用的健康度评价。

步骤S4：根据健康度评价或健康度，生成健康报告或健康告警。

其中，如图4，健康评估模型的训练方法包括：

步骤101：获取数据集，所述数据集包括多个指标的监测数据及其健康度。

监测数据可以通过在kubernetes应用容器的节点中部署Agent容器，并通过代理容器采集。Agent容器中的程序会与应用容器进行通信，获取应用的业务指标数据、数据库指标数据、网络指标、操作系统指标等。业务指标数据采集的维度包括：每秒请求数、HTTP状态码、平均响应时间等，数据库数据采集的指标包括：CPU、连接数、每秒查询数(qps)和慢查询等；同时Agent容器会调用cadvisor、perf等工具采集应用运行时内核指标的数据，采集的维度包括CPI、L3 Cache、内存带宽、CPU利用率、内用利用率等。更具体的，所采集的各个维度的数据共包含120个指标，采集的周期大小可配置，默认周期为1s。

在一个具体的部署中，Agent窗口将采集的数据存放在文件中，并采用覆盖的方式只保存最新一次采集的数据。此外Agent会对外暴露rpc接口，数据汇聚存储组件Promethues会定期调用各个节点上Agent的rpc接口获取最近的监控数据，并将数据保存到influxDB时序数据库中。Promethues的拉取周期可配置，默认为1s，influxDB中保存的历史数据时常也可配置，默认为30天。

从历史监测数据中获取最新的c天数据作为备选指标集{i₁,i₂,…,i_m}，所述备选指标集为指标及其数据构成的集合，即指标的监测序列，其中i_m表示各监控指标，m表示监控指标的个数，m的大小可根据实际情况配置。

步骤102：基于时间序列度量距离的方法，获得指标与健康度的距离。

步骤103：根据所述距离，从所述指标中筛选建模指标。所筛选的建模指标可全面、真实地反映应用实际运行情况。

步骤104：根据所述建模指标和数据集，获得训练集。

步骤105：基于机器学习的方法，对训练集进行训练，获得健康评估模型。

利用指标与健康度的距离，筛选建模指标，利于减少健康评估模型训练的计算量和健康分析的计算量；对不同类型的边缘应用具有不同的建模指标，提高健康度分析的普适性；健康评估模型易于训练、收敛速度快；实现对海量监测数据的高效利用，可及时感知边缘应用存在的健康隐患，减少人工运维成本，有效提高边缘应用异常风险的识别能力。

步骤102中，时间序列度量距离的方法包括基于形态距离(SBD，Shape-baseddistance)的方法，基于形态距离的方法包括以下步骤：

步骤201：对数据集的监测数据进行预处理。

其中，所述预处理包括：数据清洗和数据变换，所述数据清洗包括缺失值处理和离群点检测。

缺失值处理包括：取滑动窗口(window)的平均值插补缺失值。即取缺失值前后数据的平均值，作为插补数据。假设第d_i为缺失数据，则其对应的填充值计算公式如下：

ave(d_i-win,…,d_i-2,d_i-1,d_i+1,d_i+2,…,d_i+win)

其中，ave为求均值函数，win为窗口大小，默认为3。

离群点检测包括：采用3-sigma算法计算阈值；将超出阈值的数据作为缺失值(即离群点)。数据变换包括数据的归一化。3-sigma算法计算阈值的公式如下：

(μ-3σ,μ+3σ)

其中，μ表示平均数，σ表示标准差。

数据变换主要是对数据进行归一化处理，目的是解决不同量纲对后续模型训练产生的影响，本发明中采用最大最小归一化方法，计算公式如下：

其中，I^*为最终归一化后结果，I_min是对应序列的最小值，I_max是对应序列的最大值。通过最大最小归一化的方法将所有指标数据范围变成[0,1]之间。

步骤202：根据预处理后的监测数据，计算所述指标与健康度的互相关距离。

其中，互相关距离的计算方式为：

SBD(T_i,H)＝1-NCC(T_i,H) (3)

其中，T_i表示为第i个指标的监测序列，即监测数据的时间序列，t_j表示为监测序列的第j个值，H表示为健康度序列，hj表示为健康度序列的第j个健康度值，s表示为相位偏差，CCs(T_i,H)表示为互相关系数，NCC(T_i,H)为标准化互相关系数，SBD(T_i,H)为互相关距离。健康度序列中的健康度评分是根据专业运维人员的经验，按照应用的实际运行状况对边缘应用打标处理后获得，即健康度评分作为标签。

互相关SBD距离是时间序列度量距离的方法之一，它能够在不确定延迟的情况下找到两组特征的相关性。SBD是一种基于互相关距离度量来比较曲线形状的相似性的方法。通过傅立叶变换，能够将计算两条长度为n的时间序列的时间复杂度下降到O(nlogn)，提高算法的时间效率，使之更适用于边缘场景下对应用健康度的分析。

步骤203：对互相关距离从大到小排序，取前k个指标作为建模指标，其中k为自然数。这些指标与应用健康度的相关性较高，能够准确地反映应用健康状况。

步骤105中，所述机器学习的方法包括概率神经网络(PNN)。如图3，概率神经网络包括输入层、模式层、求和层和输出层。经过概率神经网络各层级训练即可得到最终的基于概率神经网络的健康度评估模型。

其中，输入层接收来自训练样本的特征量，并把这些特征量转递给模式层。训练样本包括建模指标的监测数据、以及相应的健康度标签。可以将数据集按7：3的比例划分成训练集和测试集。

输入层和模式层之间的连接是通过一个高斯函数：

其中，φ(X)为高斯函数，n为特征的个数，σ表示平滑参数，X为样本输入向量，X_ij表示第i个神经元的第j个数据。

求和层负责各个类的模式层单元连接起来，将属于所述类的概率进行累计计算。

累计计算的计算公式如下：

输出层用于接收求和层的输出，并根据求和层输出值的大小，输出得分最高的类。

利用概率神经网络(PNN)拟合各应用关键指标集和目标序列健康度之间存在的关系，实现将实时采集的应用运行监控数据输入到评估模型中来实时、综合地获取应用的健康状况。最后，根据不同应用的实际情况设定阈值，进而及时向运维人员发出告警，提升发现故障的能力，达到降低运维成本的目标。

PNN(概率神经网络)，是在人工神经网络的基础上被提出来的结构简单的基于贝叶斯决策规则的神经网络技术，在故障诊断、故障检测和故障预测领域被广泛应用。其训练容易、收敛速度快、适合实时处理、分类能力强等优点，十分符合在边缘应用场景下对算法“易部署”、“易使用”，“低延迟”的要求。

步骤S3中，可将健康度划分为四个等级，分别为：不可用、一般、良好和优秀四种状态，以便直观地展示应用的健康状况，当边缘应用处于不可用状态时，及时给运维人员发出告警，以便及时发现并处理故障。健康度区间划分示例见表1。

表1

健康度(Health)	健康评价	备注
			0<Health<50	不可用	应用异常，存隐患问题，需要及时解决问题
50≦Health<75	一般	应用基本可运行，但存在一定隐患
			75≦Health<85	良好	应用健康度良好
85≦Health<100	优秀	应用健康度优秀

在一个具体实施例中，所述边缘应用为容器化应用，通过代理容器(Agent)采集应用实例的监测数据。所述健康评估模型部署在k8s集群中。实时采集的边缘应用监控数据输入到健康评估模型中即可输出对应应用当前的健康度。该健康度可用于数字化大屏进行可视化展示数据中心所有应用的健康状况。具体的云边协同的方法包括：

步骤301：边缘端接收由云端下发的健康评估模型，并根据健康评估模型和采集到的监测数据，计算边缘应用的健康度。

步骤302：根据健康度和健康度阈值，获得健康状态。例如健康度大于50，健康状态为正常，反之为异常。

步骤303：若边缘应用的健康状态为正常，向云端上传健康度。具体的，上传时间戳和健康度评分。

步骤304：若边缘应用的健康状态为异常，对建模指标进行异常检测，获得异常的建模指标；并向云端上传健康状态和异常建模指标。更具体的，上传数据包括：时间戳、健康度评分、以及一个或多个异常建模指标。

步骤305：各边缘端对数据进行存储和聚合，云端定期利用聚合的数据进行健康评估模型的重训练。其中，在重训练过程中，可执行步骤102-105，先筛选建模指标，再进行重训练。

通常情况下，大规模集群中有海量部署在边缘节点的应用，通过云端拉取各边缘端的健康分数，能够统一在运维大盘上进行展示。运维人员还可以根据异常健康度数据集合进行运维分析，并结合专家经验获取故障处理解决方案，后续出现相似异常情况时能够更加及时准确地定位故障，快速解决异常。

通过结合云边协同技术，在数据产生的边缘侧进行实时处理，减少了数据传输到云端的延迟，提高数据处理的效率。可以在边缘侧进行数据聚合和模型推理的工作，只将重要的结果传输到云端，减少网络带宽的消耗，降低了数据传输的成本，同时避免了将敏感数据传输到云端，增加了数据的安全性。

本发明还提供一种用于实现上述监测方法的监测系统，如图2所示，包括监测模块1和评估模块2，

所述监测模块1用于获得边缘应用的监测数据；

所述评估模块2用于利用健康评估模型，对边缘应用的监测数据进行分析，获得边缘应用的健康度。

所述监测系统还包括指标选取模块5、训练模块6、告警模块7、数据聚合模块8和应用健康存储模块9。监测模块1、评估模块2、指标选取模块5、告警模块7、数据聚合模块8存储在边缘端；训练模块6和应用健康存储模块9部署在云端。

所述指标选取模块5用于基于时间序列度量距离的方法，获得指标与健康度的距离；根据所述距离，从所述指标中筛选建模指标；

所述训练模块6用于基于机器学习的方法，对训练集进行训练，获得健康评估模型；

所述告警模块7用于根据所述健康度和预设的健康度区间，获得边缘应用的健康度评价；并根据健康度评价，生成健康报告或健康告警。

数据聚合模块8用于对监测数据进行聚合。

应用健康存储模块9用于存储边缘应用的健康度数据。

本发明通过选取边缘应用的建模指标，实现对海量应用运维数据进行关键指标的选取。其中，不同的应用可选出不同的建模指标，减少单一指标体系所带来的低普适性的问题，使得应用健康度评估能够适用于目前规模较大、结构复杂的系统。并且当系统规模不断扩大或系统发生改变时，能够为边缘应用重新选取建模指标，自适应应用变化，使得应用健康度评估模型能够更实际更广泛地运用。

通过对关键指标的特征进行学习，从全局的角度获得应用的健康度。能够实时、直观地反映应用的健康状况。具有训练简单、时间效率高的特点，适合在边缘场景下的部署和使用，在保证准确率的同时，节省了边缘节点的计算资源。

通过对应用健康状态进行实时监控和评估，能够从整体上提高应用的稳定性、安全性，为应用良好运行提供可靠的保障。基于深度学习的模型效果表现较为优秀，在检测速度和精度方面均能满足实际应用需求。

本发明可弥补传统运维方式过于依赖专业技术人员，耗费大量人力和资源成本进行运维的局限性。通过应用关键指标选取算法和深度学习模型，使得应用健康度评估完全自动化的同时能够适配当前各种复杂的应用。通过对应用健康度进行多维度的评估，整体、全局地获取应用真实的健康状况，帮助运维人员及时响应应用问题，提高运维效率，降低运维成本。

本发明将智能运维的思想运用到边缘侧，通过建立一个科学合理的边缘应用健康度评估方法，实时反映应用的健康状况，对推进边缘应用稳定、健康发展起到至关重要的作用。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种边缘应用健康度的监测方法，其特征在于，包括以下步骤：

获得健康评估模型；

通过健康评估模型对边缘应用的监测数据进行分析，获得边缘应用的健康度；

其中，健康评估模型的训练方法包括：

获取数据集，所述数据集包括多个指标的监测数据及其健康度；

基于时间序列度量距离的方法，获得指标与健康度的距离；

根据所述距离，从所述指标中筛选建模指标；

根据所述建模指标和数据集，获得训练集；

基于机器学习的方法，对训练集进行训练，获得健康评估模型。

2.根据权利要求1所述的监测方法，其特征在于，时间序列度量距离的方法包括基于形态距离的方法，

基于形态距离的方法包括以下步骤：

对数据集的监测数据进行预处理；

对互相关距离从大到小排序，取前k个指标作为建模指标，其中，k为自然数。

3.根据权利要求2所述的监测方法，其特征在于，互相关距离的计算方式为：

SBD(T_i,H)＝1-NCC(T_i,H) (3)

4.根据权利要求2所述的监测方法，其特征在于，所述预处理包括：数据清洗和数据变换，所述数据清洗包括缺失值处理和离群点检测；

缺失值处理包括：取滑动窗口的平均值插补缺失值；

数据变换包括数据的归一化。

5.根据权利要求1所述的监测方法，其特征在于，所述机器学习的方法包括概率神经网络，

概率神经网络包括输入层、模式层、求和层和输出层；

输出层根据求和层输出值的大小，输出得分最高的类。

6.根据权利要求5所述的监测方法，其特征在于，输入层和模式层通过高斯函数连接：

累计计算的计算公式如下：

7.根据权利要求1所述的监测方法，其特征在于，根据所述健康度和预设的健康度区间，获得边缘应用的健康度评价；

根据健康度评价，生成健康报告或健康告警。

8.根据权利要求1所述的监测方法，其特征在于，所述边缘应用为容器化应用，通过代理容器采集应用实例的监测数据；

所述健康评估模型部署在k8s集群中；

云边协同的方法包括：

根据健康度和健康度阈值，获得边缘应用的健康状态；

9.一种监测系统，其特征在于，用于实现如权利要求1-8任一项所述的监测方法，所述监测系统包括：监测模块和评估模块，

所述监测模块用于获得边缘应用的监测数据；

所述评估模块用于通过健康评估模型对边缘应用的监测数据进行分析，获得边缘应用的健康度。

10.根据权利要求9所述的所述监测系统，其特征在于，还包括指标选取模块、训练模块、告警模块、数据聚合模块和应用健康存储模块，

所述数据聚合模块用于对监测数据进行聚合；

所述应用健康存储模块用于存储边缘应用的健康度数据。