CN116955076A

CN116955076A - 一种基于智能运维的异常数据检测方法及系统

Info

Publication number: CN116955076A
Application number: CN202310919646.9A
Authority: CN
Inventors: 朱文进
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-27

Abstract

本发明公开了一种基于智能运维的异常数据检测方法及系统，属于数据处理技术领域，方法包括：获取运行数据，其中，运行数据包括具有时间连续性的波动数据和不具有时间连续性的异常数据；利用k均值聚类算法对运行数据进行分类，得到多个KPI指标；基于95分位法设定异常流量范围；基于二层日志分析法设定异常数据范围；根据异常流量范围和异常数据范围对运行数据进行过滤，得到目标波动数据；结合目标波动数据，根据KPI指标，确定故障类型并发出相应的故障报警信息。有效提取出目标波动数据，快速的将难以确定异常类型的运行数据确定出来，提升异常数据检测速度，避免运行数据增加或降低数倍时出现频繁误报的情况。

Description

一种基于智能运维的异常数据检测方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于智能运维的异常数据检测方法及系统。

背景技术

异常检测或异常诊断/发现，是智能运维中首先需要解决的问题，通过业务、系统、产品直接关联的KPI指标进行分析诊断。KPI指标主要包括用户感知类(如页面打开时延)、服务性能(如用户点击量)、服务器硬件健康状况(如CPU利用率、内存使用率)等关键性能指标。

不同场景的异常检测分析的指标种类差异较大，但都具备时序性特点，KPI指标，以毫秒、秒、分钟、小时、天为时间间隔的数据序列都会出现，有些复杂场景的业务，往往会混合多个时间间隔的数据，但均为随时间变化而变化的时序数据。

现有技术中，具有时间连续性的波动数据与不具时间连续性的波动数据难以区分，在波动数据增加或降低数倍时，导致现有异常数据检测算法无法识别，频繁出现误报，增加运维人员工作难度，影响设备的正常运行，降低设备运行效率。

发明内容

为了解决现有技术存在的具有时间连续性的波动数据与不具时间连续性的异常数据难以区分，在运行数据增加或降低数倍时，导致现有异常数据检测算法无法识别是波动数据还是异常数据，进而频繁出现误报，增加了运维人员工作难度，影响设备的正常运行，降低设备运行效率的技术问题，本发明提供一种基于智能运维的异常数据检测方法及系统。

第一方面

本发明提供了一种基于智能运维的异常数据检测方法，包括：

S101：S101：获取运行数据，其中，运行数据包括具有时间连续性的波动数据和不具有时间连续性的异常数据；

S102：利用k均值聚类算法对运行数据进行分类，得到多个KPI指标，其中，KPI指标包括异常波动数据单指标、异常数据单指标和异常数据多指标；

S103：基于95分位法设定异常流量范围；

S104：基于二层日志分析法设定异常数据范围；

S105：根据异常流量范围和异常数据范围对运行数据进行过滤，得到目标波动数据；

S106：结合目标波动数据，根据KPI指标，确定故障类型并发出相应的故障报警信息。

第二方面

本发明提供了一种基于智能运维的异常数据检测系统，用于执行第一方面中的基于智能运维的异常数据检测方法。

与现有技术相比，本发明至少具有以下有益技术效果：

在本发明中，引入了k均值聚类算法对运行数据自动进行聚类分析，得到可以体现设备运行状态的多个KPI指标，之后结合95分位法和二层日志分析法确定异常流量范围和异常数据范围，并利用其对运行数据进行过滤，有效提取出目标波动数据，快速的将难以确定异常类型的运行数据确定出来，提升异常数据检测速度，避免运行数据增加或降低数倍时出现频繁误报的情况，进而结合目标波动数据和KPI指标，自动确定设备运行过程是否出现异常，将异常数据检测智能化，减少人工参与，减轻运维人员工作量和工作难度，保证设备正常运行，提升设备运行效率。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于智能运维的异常数据检测方法的流程示意图；

图2是本发明提供的一种波动数据和异常数据的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的基于智能运维的异常数据检测方法的流程示意图。参考说明书附图2，示出了本发明提供的一种波动数据和异常数据的结构示意图。

图2中，波动数据的检测过程为异常波动检测，异常数据的检测过程为异常诊断过程，二者不易区分，图2中，异常检测是找出数据中与大多数数值不同的个别数值，从异常的定义上就知道，异常的数量相对正常数量一定是极少的，且往往在时间上是不连续的，如图1中两个虚线方框选中的点为异常数据点，这种数据是异常检测中得到的不具有时间连续性的异常数据。在T时刻前，数据分布基本维持在0～1之间稳定波动，到T时刻之后，突增到5～6之间波动，在T时刻出现了一次增长，且增长后维持了较长一段时间，此为异常波动数据。

本发明提供的一种基于智能运维的异常数据检测方法，包括：

S101：获取运行数据。

其中，运行数据包括具有时间连续性的波动数据和不具有时间连续性的异常数据。

需要说明的是，这里采集到的运行数据为设备运行数据，运行数据区分不出是波动数据和异常数据，但是运行数据中如果设备异常，则可能存在波动数据和异常数据。异常波动数据出现的数值变动幅度，与异常诊断找出的异常值与正常值的差异，没有绝对大小关系，不能通过某一个数值的大小来判断是异常波动还是异常值，但可以通过连续多个数值的大小来判断是否出现异常波动。

在实际应用过程中，异常波动数据的检测场景，常见于修复前期件或设备BUG、提升性能、增加需求等目的。软件或设备更新部署后，服务性能上会出现一定波动。原有的异常诊断算法的参数是基于历史数据分布进行的，当发生异常波动数据增加或降低数倍，异常诊断算法会出现误报，如基于专家规则的异常诊断法，原有的阈值肯定不适用于发生剧烈波动后的数值，其他基于统计学、机器学习的算法同样也会受到影响，均需要相应修改参数。

S102：利用k均值聚类算法对运行数据进行分类，得到多个KPI指标。

其中，KPI指标包括异常波动数据单指标、异常数据单指标和异常数据多指标。

其中，k均值聚类算法是用于对获取的运行数据进行分类的一种无监督学习算法。采用k最近邻分类器对KPI指标的异常数据进行关键字提取后进行AI精确分类，它将运行数据分成多个类别簇，k均值聚类是无监督学习算法，不需要事先标记或分类数据，适用于设备运行数据中未知类别的数据集。而且k均值聚类算法的时间复杂度较低，对大规模数据集也具有较好的效率，k均值聚类算法分类过程简单，易于理解和实现，可以处理具有时间连续性的波动数据和不具有时间连续性的异常数据，适用于各种类型的运行数据。

在本场景中，通过将运行数据进行聚类，可以将异常波动数据和异常数据分成不同的簇，从而更好地进行异常诊断和故障报警，可以提高故障诊断的准确性和效率。

其中，KPI指标主要包括用户感知类(如页面打开时延)、服务性能(如用户点击量)、服务器硬件健康状况(如CPU利用率、内存使用率)等关键性能指标。不同场景的异常检测分析的指标种类差异较大，但都具备时序性特点。

具体地，异常波动数据单指标的检测称为单指标异常波动检测，指为了实现修复BUG、满足新特性、提升性能等需求，对软件进行升级、扩容、迁移或配置更新，导致KPI指标出现突然增大或降低这种剧烈波动，需要在系统中及时发现此类波动，以免影响其他算法产生错误结果。

异常数据单指标的诊断称为单指标异常诊断，指发现那些超出正常取值范围的数值点，与异常波动检测不同的是，异常诊断是在日常指标数值变化中找出异常数值点，此类异常在时间上并不连续，可能只在个别时刻发生，且在数值大小上与正常值相差不一定很大。

异常数据多指标的诊断称为多指标异常诊断，是针对某类软件、系统、服务器、基站等事物的异常诊断，这类事物是由多个KPI指标组成，此问题又被称为N个事物M维指标T时刻的综合评价问题，与单指标异常诊断不同的是，它是通过多个指标累计体现出的数值差异来反映事物的异常程度。

举例来说，历史上国内外互联网公司均发生过由子软件变更导致的Web服务受损甚至中断的事例。在MirosofAzure的一次软件升级导致AzureStorage的服务受损，因此，运维人员需要通过KPI指标及时评估，发现Web服务受损并止损是非常重要的运维工作，通常在软件变更版本正式部署上线前，会在单机或临时服务器上进行灰度测试，并评估部署后KPI指标的变化情况，符合预期后才正式部署，否则将回滚调试直至符合上线条件。

在一种可能的实施方式中，S102具体包括：

S1021：将运行数据作为k均值聚类算法的样本集，确定k均值聚类算法的距离函数、组合函数和k值。

具体地，距离函数为聚类分析算法中的相似性度量公式，组合函数包括无加权投票函数和加权投票函数，通过启发式算法确定k值。

在一种可能的实施方式中，无加权投票函数和加权投票函数分别为：

无加权投票函数：

加权投票函数：

其中，η表示计数函数，C_j表示类别簇，x_i表示样本集中的待分类样本，若x_i∈C_j，则η(x_i∈C_j)＝1，否则η(x_i∈C_j)＝0，w_i＝1/d(x,x_i)²表示权值，其中，d(x,x_i)表示待分类样本之间的距离。

在一种可能的实施方式中，在计数函数得到的计数值相同的情况下，为待分类样本随机选取一个类别簇。

S1022：根据距离函数计算样本集中所有样本之间的距离。

S1023：将大于预设距离的样本作为近邻样本。

需要说明的是，本领域技术人员可以根据实际需要设置预设距离的大小，本发明在此不做限定。

S1024：结合组合函数，将近邻样本中数量最多的作为一个类别簇，最终将样本集划分为k个类别簇。

需要说明的是，利用聚类算法能够自动地对大量运行数据进行分类，无需人工干预，节省时间和人力成本。通过选择合适的距离函数和组合函数，可以更准确地对运行数据进行分类和诊断，通过调整k值和设置预设距离的大小，可以适应不同的场景和需求，以便能够及时发现故障情况，帮助运维团队快速响应并解决问题，提高系统的稳定性和性能。

S103：基于95分位法设定异常流量范围。

其中，95分位法是一种统计方法，常用于数据分析中。它是一种基于数据分布的数值划分方式，用于确定数据集中的一个临界点，该临界点将数据分为两个部分：前95％的数据和后5％的数据。在异常数据处理中，95分位法可以用来设定异常数据的阈值范围，通过基于95分位法设定异常数据的上界和下界，可以过滤掉一部分极端值或异常值，从而更好地识别和处理真正的异常情况。

可以理解的是，在圈定的异常流量范围内过滤掉异常诊断现象数据，保留异常波动数据，异常的数量相对正常数量一定是极少的，且往往在时间上是不连续的。

在一种可能的实施方式中，S103具体包括：

S1031：间隔第一预设时长提取一个流量点。

S1032：统计第二预设时长范围内流量点的数量。

其中，第二预设时长大于第一预设时长。

S1033：将流量值最高的百分之五比例的流量点作为异常流量范围。

需要说明的是，本领域技术人员可以根据实际需要设置第一预设时长和第二预设时长的大小，本发明在此不做限定。

举例来说，每5分钟取一个点，1个小时12个点，1天12*24个点，一个月按30天算12*24*30＝8640个点，然后把数值最高的百分之五的流量去掉，剩下的95％为正常流量范围。采集点数是8208个点，有432个点组成异常范围。

S104：基于二层日志分析法设定异常数据范围。

其中，二层日志分析法是一种对日志数据进行分析的方法，用于从大量原始日志中提取有用信息，并进行进一步的处理和分析。这种方法主要包括两个层次的处理：第一层是对原始日志数据进行预处理和清洗，以提取关键信息；第二层是对提取出的信息进行进一步的分析和挖掘。二层日志分析法在运维和监控中具有重要的应用价值。通过对日志数据的深入分析，可以帮助运维团队及时发现问题和异常，快速响应，并对系统进行优化和改进。这种方法在大规模分布式系统和复杂网络环境下尤其有用，有助于提高系统的可靠性和稳定性。设备基础属性异常波动特征提取，板卡及板卡所属CPU、内存的二层日志分析，保证了监测数据完整性，过滤掉异常诊断现象数据，保留异常波动数据。

在一种可能的实施方式中，S104具体包括：

S1041：通过日志服务应用数据库中的关联关系，提取核心应用服务拓扑，其中，日志服务应用数据库包括数据库、中间件、服务器基础监控指标，核心应用服务拓扑记录有数据库、中间件和服务器的CPU、内存、磁盘、进程三类数据之间的关系。

需要说明的是，通过分析这些数据，可以建立数据库、中间件和服务器之间的关系记录，形成核心应用服务的拓扑结构，即它们之间的连接和依赖关系。

S1042：提取基于核心应用服务拓扑中数据关系的数据集合，得到拓扑数据集合，其中，拓扑数据集合记录有不同时间维度，服务器与数据库、中间件和服务器的CPU、内存、磁盘、进程之间的监测数据及运行健康状况。

需要说明的是，在这一步中，根据建立的核心应用服务拓扑结构，抽取相关的监测数据和运行健康状况，包括不同时间维度下服务器与数据库、中间件、服务器之间的CPU、内存、磁盘、进程等数据。这样形成了拓扑数据集合，它记录了各个组件之间的运行状态和相互影响的信息。

S1043：根据拓扑数据集合中的运行健康状况设定异常数据范围。

需要说明的是，通过分析拓扑数据集合中的数据，确定正常运行的范围和异常情况的临界值。将这些异常数据范围设定后，系统可以在运行时监测实际数据，并根据预设的异常范围来识别潜在的问题或故障。通过日志服务应用数据库中的关联关系来构建核心应用服务拓扑，然后基于拓扑数据集合中的运行数据设定异常范围，帮助实现对核心应用服务的运行状态进行监测和异常检测。这样的流程可以帮助运维团队快速识别和解决潜在的问题，提高系统的稳定性和性能。

S105：根据异常流量范围和异常数据范围对运行数据进行过滤，得到目标波动数据。

需要说明的是，在软件升级、配置更新等变化时导致某些指标在变化前后当分类数据集合中存在异常波动，，出现数值剧烈波动的现象，可以是剧烈增长也可以是剧烈降低，从而体现出在软件升级前后，指标数值的分布、均值会出现较大变动，也可以理解成数据发生了集合异常，属于异常诊断，当发生异常波动数据增加或降低数倍的情况时，异常诊断算法可能会频繁出现误报，采用异常流量和设备基础监测指标的异常数据范围来设定异常范围，然后过滤掉异常诊断数据，可以减少异常诊断算法对异常数据的误报，避免频繁维护，提升设备运行效率和稳定性。

在一种可能的实施方式中，S105具体包括：

S1051：根据异常流量范围和异常数据范围，确定运行数据中的不具有时间连续性的异常数据；

S1052：将运行数据中具有时间连续性的波动数据作为目标波动数据进行保留。

在S106之前还包括：

S106A：将故障类型的重叠数据进行归并。

可以理解的是，在运行数据的检测过程中，可能会出现多个相同的故障类型，即同一种故障在不同的时间或位置发生了多次。为了减少重复的故障报警，可以将这些重叠的故障数据进行合并，合并后只发出一次性的故障报警信息，减少重复的故障报警，提高报警信息的准确性和有效性。这样运维团队可以更好地聚焦于解决实际的故障和问题，减少了不必要的工单处理负担，同时，也有助于提高系统运维的效率和响应速度。

需要说明的是，这里的故障类型可以是KPI指标中的用户感知类(如页面打开时延)、服务性能(如用户点击量)、服务器硬件健康状况(如CPU利用率、内存使用率)等关键性能指标，以帮助运维人员及时快速的发现问题进行处理，提高问题解决效率。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，本发明提供的一种基于智能运维的异常数据检测系统，用于执行实施例1中的基于智能运维的异常数据检测方法。

本发明提供的一种基于智能运维的异常数据检测系统可以实现上述实施例1中的基于智能运维的异常数据检测方法的步骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于智能运维的异常数据检测方法，其特征在于，包括：

S101：获取运行数据，其中，所述运行数据包括具有时间连续性的波动数据和不具有时间连续性的异常数据；

S102：利用k均值聚类算法对所述运行数据进行分类，得到多个KPI指标，其中，所述KPI指标包括异常波动数据单指标、异常数据单指标和异常数据多指标；

S103：基于95分位法设定异常流量范围；

S104：基于二层日志分析法设定异常数据范围；

S105：根据所述异常流量范围和所述异常数据范围对所述运行数据进行过滤，得到目标波动数据；

S106：结合所述目标波动数据，根据所述KPI指标，确定故障类型并发出相应的故障报警信息。

2.根据权利要求1所述的基于智能运维的异常数据检测方法，其特征在于，所述S102具体包括：

S1021：将所述运行数据作为所述k均值聚类算法的样本集，确定所述k均值聚类算法的距离函数、组合函数和k值；

S1022：根据所述距离函数计算所述样本集中所有样本之间的距离；

S1023：将大于预设距离的样本作为近邻样本；

S1024：结合所述组合函数，将所述近邻样本中数量最多的作为一个类别簇，最终将所述样本集划分为k个类别簇。

3.根据权利要求2所述的基于智能运维的异常数据检测方法，其特征在于，所述距离函数为聚类分析算法中的相似性度量公式，所述组合函数包括无加权投票函数和加权投票函数，通过启发式算法确定所述k值。

4.根据权利要求3所述的基于智能运维的异常数据检测方法，其特征在于，所述无加权投票函数和所述加权投票函数分别为：

无加权投票函数：

加权投票函数：

其中，η表示计数函数，C_j表示所述类别簇，x_i表示所述样本集中的待分类样本，若x_i∈C_j，则η(x_i∈C_j)＝1，否则η(x_i∈C_j)＝0，w_i＝1/d(x,x_i)²表示权值，其中，d(x,x_i)表示所述待分类样本之间的距离。

5.根据权利要求4所述的基于智能运维的异常数据检测方法，其特征在于，在所述计数函数得到的计数值相同的情况下，为所述待分类样本随机选取一个所述类别簇。

6.根据权利要求1所述的基于智能运维的异常数据检测方法，其特征在于，所述S103具体包括：

S1031：间隔第一预设时长提取一个流量点；

S1032：统计第二预设时长范围内所述流量点的数量，其中，所述第二预设时长大于所述第一预设时长；

S1033：将所述流量值最高的百分之五比例的流量点作为异常流量范围。

7.根据权利要求1所述的基于智能运维的异常数据检测方法，其特征在于，所述S104具体包括：

S1041：通过日志服务应用数据库中的关联关系，提取核心应用服务拓扑，其中，所述日志服务应用数据库包括数据库、中间件、服务器基础监控指标，所述核心应用服务拓扑记录有数据库、中间件和服务器的CPU、内存、磁盘、进程三类数据之间的关系；

S1042：提取基于所述核心应用服务拓扑中数据关系的数据集合，得到拓扑数据集合，其中，所述拓扑数据集合记录有不同时间维度，服务器与所述数据库、所述中间件和所述服务器的CPU、内存、磁盘、进程之间的监测数据及运行健康状况；

S1043：根据所述拓扑数据集合中的运行健康状况设定异常数据范围。

8.根据权利要求1所述的基于智能运维的异常数据检测方法，其特征在于，所述S105具体包括：

S1051：根据所述异常流量范围和所述异常数据范围，确定所述运行数据中的不具有时间连续性的异常数据；

S1052：将所述运行数据中具有时间连续性的波动数据作为目标波动数据进行保留。

9.根据权利要求1所述的基于智能运维的异常数据检测方法，其特征在于，在所述S106之前还包括：

S106A：将所述故障类型的重叠数据进行归并。

10.一种基于智能运维的异常数据检测系统，其特征在于，用于执行权利要求1至9中任一项所述的基于智能运维的异常数据检测方法。