CN117216713A

CN117216713A - 故障定界方法、装置、电子设备和存储介质

Info

Publication number: CN117216713A
Application number: CN202311113611.2A
Authority: CN
Inventors: 刘苗苗; 郭岳; 章清云; 叶晓龙; 傅建新; 胡林熙; 杜悦
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd; China Mobile Zhejiang Innovation Research Institute Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd; China Mobile Zhejiang Innovation Research Institute Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-12

Abstract

本申请涉及人工智能技术领域，提供了一种故障定界方法、装置、电子设备和存储介质，包括获取指标数据，确定所述指标数据对应的层级；确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；根据所述异常指标数据和所述层级标签，确定训练集数据；根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；根据所述故障定界模型，确定故障定界层级。本申请通过对指标数据进行分层，覆盖层级的各种异常数据，提高模型训练准确度，近而提高故障定界的准确性。

Description

故障定界方法、装置、电子设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种故障定界方法、装置、电子设备和存储介质。

背景技术

在传统IT系统运维模式中，运维人员通过告警或业务报障判定故障，但目前的系统业务数据变化快，涉及的应用系统范围广，一个异常有可能引发其他多个相关策略的告警，出现批量关联告警，一旦人工处理效率不高就会直接导致故障产生或范围扩大。

通过零散的告警无法准确定位故障原因，尤其是出现批量告警且数据不断变化的情况下，即使不断更新设定告警优先级、保证告警高效派单处理，人工识别告警关联性并发布故障预警的难度很大，导致维护处理滞后，故障预警成功率差。

目前的故障定界方法是通过对故障定界特征指标的历史数据进行波动性检测，从而来确定特征指标。但在实际场景使用中，历史数据并不一定覆盖层级的各种异常数据，会导致模型训练准确度下降，近而降低故障定界的准确性。

发明内容

本申请实施例提供一种故障定界方法、装置、电子设备和存储介质，用以解决现有技术中历史数据并不一定覆盖层级的各种异常数据，会导致模型训练准确度下降，近而降低故障定界的准确性的缺陷。

第一方面，本申请实施例提供一种故障定界方法，包括：

获取指标数据，确定所述指标数据对应的层级；

确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；

根据所述异常指标数据和所述层级标签，确定训练集数据；

根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；

根据所述故障定界模型，确定故障定界层级。

在一个实施例中，确定所述目标融合模型，包括：

将预设类型的至少一神经网络模型按照预设比例进行融合，得到目标融合模型；

对应的，所述根据所述训练集数据对目标融合模型进行训练，得到故障定界模型，包括：

根据所述训练集数据对目标融合模型进行训练，调整每一所述神经网络模型的参数，得到所述故障定界模型。

在一个实施例中，所述神经网络模型的类型包括深度神经网络模型、卷积神经网络模型和循环神经网络模型。

在一个实施例中，还包括：

获取历史异常指标数据，确定所述历史异常指标数据对应的层级权重评分；

根据所述层级权重评分和所述目标融合模型的模型参数，基于梯度下降算法对所述训练集数据进行优化。

在一个实施例中，所述确定每一层级的所述指标数据中的异常指标数据，包括：

将每一层级的所述指标数据输入对应的指标数据异常检测模型，得到所述指标数据异常检测模型输出的所述异常指标数据；

其中，所述指标数据异常检测模型基于时间序列算法得到。

在一个实施例中，所述根据所述异常指标数据和所述层级标签，确定训练集数据，包括：

从所述异常指标数据和所述层级标签中选取预设时间段内的数据，得到样本集；

基于指标基尼系数对所述样本集进行降噪处理，确定所述训练集数据。

在一个实施例中，在所述基于指标基尼系数对所述样本集进行降噪处理之后，还包括：

基于过采样算法对降噪处理后的所述样本集进行数据均衡。

第二方面，本申请实施例还提供了一种故障定界装置，包括：

标签确定模块，用于获取指标数据，确定所述指标数据对应的层级；

异常检测模块，用于确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；

模型训练模块，用于根据所述异常指标数据和所述层级标签，确定训练集数据；根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；

故障定界模块，用于根据所述故障定界模型，确定故障定界层级。

第三方面，本申请实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述故障定界方法。

第四方面，本申请实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述故障定界方法。

本申请实施例提供的故障定界方法、装置、电子设备和存储介质，获取指标数据，确定所述指标数据对应的层级；确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；根据所述异常指标数据和所述层级标签，确定训练集数据；根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；根据所述故障定界模型，确定故障定界层级。本申请实施例通过对指标数据进行分层，覆盖层级的各种异常数据，提高模型训练准确度，近而提高故障定界的准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的故障定界方法的流程示意图；

图2是本申请实施例提供的图1中步骤S110的流程示意图；

图3是本申请实施例提供的图1中步骤S130的流程示意图；

图4是本申请实施例提供的训练集数据优化的流程示意图；

图5是本申请实施例提供的故障定界装置的原理框图之一；

图6是本申请实施例提供的故障定界装置的原理框图之二；

图7是本申请实施例提供的故障定界模型的训练流程示意图；

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的故障定界方法的流程示意图，如图1所示，本申请实施例提供了一种故障定界方法，包括：

S110，获取指标数据，确定所述指标数据对应的层级；

S120，确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；

S130，根据所述异常指标数据和所述层级标签，确定训练集数据；

S140，根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；

S150，根据所述故障定界模型，确定故障定界层级。

在步骤S110中，指标数据来自现有的运维中心，IT系统会将所有告警数据和日志数据等运维相关的数据发送至运维中心。本申请实施例从运维中心获取预设时间段内预设数据量大小的指标数据，并对指标数据进行分类，指标数据的层级包括应用层、业务层和平台层，确定故障定界层级即确定发出告警数据的故障点属于应用层、业务层和平台层中的哪一层。

图2是本申请实施例提供的图1中步骤S110的流程示意图，如图2所示，可选的，步骤S110包括四个小步骤，分别为梳理架构、定义指标KPI、指标筛选和指标归类。

梳理架构：将系统层级分为应用层、业务层和平台层三个层级，所有的指标数据分别源自应用层、业务层和平台层。

定义指标KPI(Key Performance Indicator，关键绩效指标)：分别确定应用层、业务层和平台层每个层级中的关键指标，比如业务层的关键指标包括进程指标、应用性能指标等；应用层的关键指标包括数据库指标、中间件指标等；平台层的关键指标包括主机指标、网络指标、存储指标等。

指标筛选：根据历史故障涉及的常见指标所在层级对定义完成的关键指标进行筛选，确定目标指标并对目标指标所在层级出现的故障次数进行频次计算。

通过梳理架构、定义指标KPI、指标筛选和指标归类四个小步骤，可以对减少指标数据的数据量，提高数据处理效率。对应的，步骤S120为确定每一层级的目标指标数据中的异常指标数据以及异常指标数据对应的层级标签。

可选的，在步骤S120中，可通过预先设置每一层级的指标数据的阈值，若超过该阈值则认定指标数据为异常数据。在其他实施例中，还可构建异常指标数据识别模型，用于从指标数据中筛选得到异常指标数据。

可选的，在步骤S130中，可将所有的异常指标数据和异常指标数据对应的层级标签作为训练集数据，也可将异常指标数据和层级标签按照自定义的条件划分为多个子样本集，对多个子样本集进行去噪处理后作为训练集数据。

可选的，在步骤S140中，目标融合模型包括三种类型的模型，每一类型的模型对应一种层级的指标数据，因应用层、业务层和平台层三个层级的指标之间具有较强的关联性，若不进行关联定界处理，会导致单指标异常告警频繁出现，严重影响运维总控的预警处理效率。因此，本申请实施例对三种识别单一层级告警数据的模型进行融合，提高运维总控的预警处理效率。

可选的，在步骤S150中，将新进的故障告警数据输入至故障定界模型，得到故障定界模型输出的故障定界层级，比如应用层(标识符：-1)、业务层(标识符：0)、平台层(标识符：1)。

可以理解的是，本申请实施例通过对指标数据进行分层，覆盖层级的各种异常数据，提高模型训练准确度，近而提高故障定界的准确性。

在上述实施例的基础上，作为一个可选的实施例，所述确定每一层级的所述指标数据中的异常指标数据，包括：

其中，所述指标数据异常检测模型基于时间序列算法得到。

指标数据异常检测模型利用时间序列算法进行训练学习后，对未来一段时间内的每个时间点的指标数值进行精准预测，以预测值作为基线，将目标监控值与基线变化情况进行对比，判断指标数据是否存在异常。

可以理解的是，本申请通过时间序列算法训练得到指标数据异常检测模型，可以批量预测异常指标数据，识别准确率高。

图3是本申请实施例提供的图1中步骤S130的流程示意图，如图3所示，在上述实施例的基础上，作为一个可选的实施例，所述根据所述异常指标数据和所述层级标签，确定训练集数据，包括：

S310，从所述异常指标数据和所述层级标签中选取预设时间段内的数据，得到样本集；比如选取6个月的告警数据，数据集大小约5G。

S320，基于指标基尼系数对所述样本集进行降噪处理，确定所述训练集数据。

可选的，步骤S310中获取的样本集包括应用层、业务层和平台层三个不同层级的异常指标数据，将异常指标数据分成三个子样本集，确定每一子样本集对应的指标基尼系数，并根据指标基尼系数对子样本集进行降噪处理，得到包括单一层级的异常指标数据的子训练集。

指标基尼系数用于表示从子样本集中随机抽取两个样本，两个样本的层级标签不一致的概率，指标基尼系数越小，表示子样本集的纯度越高，因此优先选择可以使划分后指标基尼系数最小的属性作为最优划分属性。比如一个子样本集中，应用层、业务层和平台层三个不同层级的异常指标数据对应的指标基尼系数分别为a₁、a₂、a₃，其中，a₁最小，则剔除该子样本集中业务层和平台层对应的异常指标数据，使得子该样本集中的异常指标数据为应用层对应的异常指标数据。

可选的，步骤S310中获取的样本集包括应用层、业务层和平台层三个不同层级的异常指标数据，所有层级的异常指标数据仅构成一个样本集，基于指标基尼系数判断样本集中是否出现其他层级异常指标数据，若是，则剔除，将剔除后的样本集作为训练集数据。

可以理解的是，本申请实施例通过指标基尼系数对所述样本集进行降噪处理，可以剔除干扰数据，提高模型训练准确性。

基于过采样算法对降噪处理后的所述样本集进行数据均衡。

过采样算法为CURE-SMOTE算法，CURE-SMOTE算法的思路为将小类样本点经过CURE聚类，保留聚类后的点、若干个代表点和中心点，然后应用SMOTE公式产生新样本。

可以理解的是，CURE-SMOTE的主要思想是通过在少样本的数据中寻找一些位置相近的数据来新形成一些数据，从而达到数据平衡的目的。不是简单的重复采样少数样本，可以在一定程度上降低模型的过拟合效果。

在上述实施例的基础上，作为一个可选的实施例，确定所述目标融合模型，包括：

将预设类型的至少一神经网络模型按照预设比例进行融合，得到目标融合模型；所述神经网络模型的类型包括深度神经网络模型、卷积神经网络模型和循环神经网络模型。

依托深度学习平台训练资源(比如python深度学习平台)，引入融合神经网络算法按照DNN(深度神经网络)+CNN(卷积神经网络)+RNN(循环神经网络)的融合模型，进行调参训练，融合比例经调整测试择优后，选择比例为1:3:1。

可以理解的是，本申请实施例对深度神经网络模型、卷积神经网络模型和循环神经网络模型进行关联融合，更加适应实际运维情景，提高运维总控的预警处理效率。

图4是本申请实施例提供的训练集数据优化的流程示意图，如图4所示，在上述实施例的基础上，作为一个可选的实施例，还包括：

S410，获取历史异常指标数据，确定所述历史异常指标数据对应的层级权重评分；具体的，每一层级的历史异常指标数据均可分为日志类、主机类、域名流量类、HA组合异动类，层级权重评分可如下表所示：

层级权重评分	类型	故障持续时间	触发故障次数
				>90分	日志类	<5s	<3次
80-90分	主机类	5-10s	3-5次
				70-80分	域名流量	10-100s	5-7次
<70分	HA组合异动	>100s	>7次

S420，根据所述层级权重评分和所述目标融合模型的模型参数，基于梯度下降算法对所述训练集数据进行优化。

具体的，本申请实施例为提高各层级中异常指标数据中的异常点的检测准确率，剔除非异常干扰，分类定级梳理各层级异常点，分析异常点对系统产生影响，提出设置层级权重评分β，将层级权重评分融入小批量梯度下降优化机制中，形成层级梯度下降算法，将触发系统故障次数少、持续时间短的异常点作为干扰噪点从训练集数据中剔除，提高训练集数据的准确率，近而提高模型训练的准确率。具体的。层级梯度下降算法的公式如下：

其中，θ_i表示目标融合模型的模型参数，x_i,y_i为某一层级的历史异常指标数据，β_i表示层级权重评分，层级权重评分是根据历史故障数据统计得出的经验评分，α表示目标融合模型的初始学习率，一般可设置为0.1，h_θ为泰勒展开式的代表符。

目标融合模型的训练次数较多，本申请实施例提供的训练集数据优化方法可以在目标融合模型开始训练之前执行，也可在目标融合模型开始训练后执行，若在目标融合模型开始训练之前执行，则公式中的模型参数为初始模型参数，若在目标融合模型开始训练后执行，公式中的模型参数为上一轮训练后的模型参数。

可以理解的是，本申请实施例设置层级权重评分，将触发系统故障次数少、持续时间短的异常点作为干扰噪点剔除，提高模型训练的准确率。

下面对本申请实施例提供的故障定界方法进行举例说明。

步骤1：依据运维数据中心梳理IT系统的架构层级，为架构层级建立标签规范；

步骤2：梳理各架构层级的指标数据，标记已有异常指标类型，基于ARIMA学习算法训练模型，实现自动判定异常指标，异常指标发现准确率可达90％；

步骤3：确定模型训练所需的初始数据集，依据指标基尼系数对初始数据集进行数据降噪处理；

步骤4：由于数据集存在层级数据不平衡的现象，利用CURE-SMOTE算法均衡数据类型间的差异，确定训练集数据；

步骤5：依据DNN(深度神经网络)+CNN(卷积神经网络)+RNN(循环神经网络)的融合模型，按照融合比例1:3:1开始训练目标融合模型；

步骤6：对目标融合模型的训练参数进行调优，利用层级梯度下降算法，将触发系统故障次数少、持续时间短的异常点作为干扰噪点剔除，从而提升定界准确性；

步骤7：将训练完成后的目标融合模型作为故障定界模型，故障定界模型对输入的告警数据进行定界，判断告警数据故障点所在的层级。

下面对本申请实施例提供的故障定界装置进行描述，下文描述的故障定界装置与上文描述的故障定界方法可相互对应参照。

图5是本申请实施例提供的故障定界装置的原理框图之一，如图5所示，本申请实施例还提供了一种故障定界装置，包括：

标签确定模块510，用于获取指标数据，确定所述指标数据对应的层级；

异常检测模块520，用于确定每一层级的所述指标数据中的异常指标数据以及所述异常指标数据对应的层级标签；

模型训练模块530，用于根据所述异常指标数据和所述层级标签，确定训练集数据；根据所述训练集数据对目标融合模型进行训练，得到故障定界模型；

故障定界模块540，用于根据所述故障定界模型，确定故障定界层级。

在一个实施例中，所述模型训练模块530还用于：

在一个实施例中，所述异常检测模块520还用于：

其中，所述指标数据异常检测模型基于时间序列算法得到。

在一个实施例中，所述模型训练模块530还用于：

基于过采样算法对降噪处理后的所述样本集进行数据均衡。

图6是本申请实施例提供的故障定界装置的原理框图之二，图7是本申请实施例提供的故障定界模型的训练流程示意图，如图6和图7所示，故障定界装置包括标签确定模块、异常检测模块、模型训练模块和优化模块，标签确定模块依据智慧运维平台的数据中心提供定界模型的基础指标数据。异常检测模块依据指标标签，发现异常指标，标记异常数据，为模型训练模块提供异常指标数据特征；模型训练模块提供故障定界的数据集特征筛选机制和训练模型迭代装置；优化模块提供层级筛选异常点的评分装置、通过设置分层权重评分并融合小批量梯度算法模型剔除噪点，从而达到定界层级优化的目的。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行故障定界方法，该方法包括：

获取指标数据，确定所述指标数据对应的层级；

根据所述异常指标数据和所述层级标签，确定训练集数据；

根据所述故障定界模型，确定故障定界层级。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的故障定界方法，该方法包括：

获取指标数据，确定所述指标数据对应的层级；

根据所述异常指标数据和所述层级标签，确定训练集数据；

根据所述故障定界模型，确定故障定界层级。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的故障定界方法，该方法包括：

获取指标数据，确定所述指标数据对应的层级；

根据所述异常指标数据和所述层级标签，确定训练集数据；

根据所述故障定界模型，确定故障定界层级。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种故障定界方法，其特征在于，包括：

获取指标数据，确定所述指标数据对应的层级；

根据所述异常指标数据和所述层级标签，确定训练集数据；

根据所述故障定界模型，确定故障定界层级。

2.根据权利要求1所述的故障定界方法，其特征在于，确定所述目标融合模型，包括：

3.根据权利要求2所述的故障定界方法，其特征在于，所述神经网络模型的类型包括深度神经网络模型、卷积神经网络模型和循环神经网络模型。

4.根据权利要求1所述的故障定界方法，其特征在于，还包括：

5.根据权利要求1所述的故障定界方法，其特征在于，所述确定每一层级的所述指标数据中的异常指标数据，包括：

其中，所述指标数据异常检测模型基于时间序列算法得到。

6.根据权利要求1所述的故障定界方法，其特征在于，所述根据所述异常指标数据和所述层级标签，确定训练集数据，包括：

7.根据权利要求6所述的故障定界方法，其特征在于，在所述基于指标基尼系数对所述样本集进行降噪处理之后，还包括：

基于过采样算法对降噪处理后的所述样本集进行数据均衡。

8.一种故障定界装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述故障定界方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述故障定界方法。