CN114091930B

CN114091930B - 业务指标预警方法、装置、电子设备和存储介质

Info

Publication number: CN114091930B
Application number: CN202111411292.4A
Authority: CN
Inventors: 梁永富; 熊刚; 江旻
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2024-06-18
Anticipated expiration: 2041-11-25
Also published as: CN114091930A

Abstract

本申请实施例提供了一种业务指标预警方法、装置、电子设备和存储介质，该方法包括：获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；指标预测模型是根据业务指标的历史时序数据训练得到的；采用指标预测模型根据实时运行数据获取业务指标在第i+1时段的预测数据；根据预设指标范围和业务指标在第i+1时段的预测数据，生成业务指标的预警信息。基于本申请提供的业务指标预警方法，可以提高对业务指标进行预警的实时性。

Description

业务指标预警方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及网络安全技术领域，尤其涉及一种业务指标预警方法、装置、电子设备和计算机存储介质。

背景技术

在分布式系统(Distributed System)中，业务指标(Indicator)反映了分布式系统中的业务系统的运行状况。随着业务系统发展成熟，分布式系统的网络架构越来越复杂，业务系统的业务指标呈现种类繁多、关系复杂的特点。分布式系统的管理体系，主要涉及异常预警(Early Warning)、告警触达、故障定位和故障恢复。其中，异常预警依赖指标预测、异常检测和故障预测等方面。

在相关技术中，根据分布式系统中业务指标的实时运行数据和业务指标的正常指标范围，识别分布式系统中业务指标出现异常波动的情况，对出现业务指标异常波动的子系统进行故障定位和故障恢复。由于识别业务指标异常波动的过程存在滞后性，导致分布式系统故障定位和故障恢复存在较长的时间延迟。因此，业务指标预警对分布式系统管理存在重要意义，如何提高对业务指标进行预警的实时性成为亟待解决的重要问题。

发明内容

本申请实施例提供了一种业务指标预警方法、装置、电子设备和计算机存储介质，可以提高对业务指标进行预警的实时性。

本申请实施例提供的一种业务指标预警方法，包括：

获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；所述指标预测模型是根据所述业务指标的历史时序数据训练得到的；

采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据；

根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息。

在一种实现方式中，所述获取业务系统的指标预测模型，包括：

获取所述业务指标的历史时序数据；对所述历史时序数据进行预处理得到训练数据；所述历史时序数据包括所述业务指标在至少一个时段的运行数据；

提取所述训练数据中的时间序列特征和所述时间序列特征的特征权重；根据所述时间序列特征和所述特征权重，得到所述训练数据的显著性特征；

根据所述显著性特征对长短期记忆网络进行训练，得到所述业务系统的指标预测模型。

在一种实现方式中，所述提取所述训练数据中的时间序列特征和所述时间序列特征的特征权重，包括：

采用注意力网络对所述训练数据进行特征提取，得到所述时间序列特征的特征权重。

在一种实现方式中，所述对所述历史时序数据进行预处理，包括以下至少一项：

对所述历史时序数据中两个不同时段的运行数据的进行互换；

识别所述历史时序数据中的异常样本数据，将所述历史时序数据中的至少一个样本数据修改为所述异常样本数据；

识别所述历史时序数据中的异常样本数据，根据所述异常样本数据对所述历史时序数据对应的波形特征进行变换。

在一种实现方式中，所述业务系统包括主系统和M个层级的子系统；每个层级包括至少一个子系统；所述根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息，包括：

根据预设指标范围和所述主系统的业务指标在第i+1时段的预测数据确定第一区间，所述第一区间用于指示所述主系统在所述第i+1时段内异常数据的时间区间；

根据预设指标范围和所述子系统的业务指标在第i+1时段的预测数据确定第二区间，所述第二区间用于指示所述子系统在所述第i+1时段内异常数据的时间区间；

确定所述第一区间和每个所述子系统对应的所述第二区间的重合度信息；根据所述重合度信息在所述主系统的子系统中确定目标子系统，所述目标子系统为在所述第i+1时段内处于异常运行状态的子系统。

在一种实现方式中，所述根据所述重合度信息在所述主系统的子系统中确定目标子系统，包括：

确定依赖关系信息；所述依赖关系信息用于指示所述主系统的子系统中父节点和子节点的依赖关系；

根据所述依赖关系信息和所述重合度信息，依次在所述主系统的第1层子系统至第M层子系统中确定目标子系统。

在一种实现方式中，所述采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据，包括：

确定所述业务系统的业务指标对应的至少一个预测模型；获取所述每个预测模型对所述业务指标在第i+1时段的预测结果；

根据所述每个预测模型对所述业务指标在第i+1时段的预测结果的加权计算结果，获取所述业务指标在第i+1时段的预测数据。

在一种实现方式中，所述方法还包括：

获取所述业务指标在第i+1时段的实时运行数据和所述业务指标在所述第i+1时段的预测数据；

获取所述第i+1时段的实时运行数据和所述第i+1时段的预测数据的误差信息；根据所述误差信息对所述指标预测模型进行参数调节。

本申请实施例提供的一种业务指标预警装置，包括：

获取模块，用于获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；所述指标预测模型是根据所述业务指标的历史时序数据训练得到的；

处理模块，用于采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据；

预警模块，用于根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息。

在一种实现方式中，所述获取模块用于获取业务系统的指标预测模型，包括：

在一种实现方式中，所述获取模块，用于提取所述训练数据中的时间序列特征和所述时间序列特征的特征权重，包括：

在一种实现方式中，所述获取模块，用于对所述历史时序数据进行预处理，包括以下至少一项：

在一种实现方式中，所述预警模块，用于根据所述重合度信息在所述主系统的至少一个子系统中确定目标子系统，包括：

确定依赖关系信息；所述依赖关系信息用于指示所述至少一个子系统中父节点和子节点的依赖关系；

在一种实现方式中，所述预警模块，用于采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据，包括：

在一种实现方式中，所述预警模块，还用于：

本申请实施例提供一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述一个或多个技术方案提供的业务指标预警方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后能够实现前述一个或多个技术方案提供的业务指标预警方法。

基于本申请提供的业务指标预警方法，获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；指标预测模型是根据业务指标的历史时序数据训练得到的；因此，指标预测模型可以关联历史时序数据和实时运行数据在相同时段的时间序列特征，预测业务指标在目标时段的变化趋势，根据实时运行数据获取业务指标在第i+1时段的预测数据。因此，可以在业务指标的异常波动情况前，根据预设指标范围和业务指标在第i+1时段的预测数据，生成业务指标的预警信息，从而，提高对业务指标进行预警的实时性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

图1为本申请实施例提供的一种业务指标预警方法的网络架构图；

图2为本申请实施例提供的一种业务指标预警方法的流程示意图；

图3为本申请实施例提供的一种获取业务系统的指标预测模型的流程示意图；

图4为本申请实施例提供的一种注意力网络的结构示意图；

图5为本申请实施例提供的一种长短期记忆网络的结构示意图；

图6为本申请实施例提供的一种记忆单元的结构示意图；

图7为本申请实施例提供的一种历史时序数据的波形示意图一；

图8为本申请实施例提供的一种历史时序数据的波形示意图二；

图9为本申请实施例提供的一种卷积神经网络的波形示意图三；

图10为本申请实施例提供的一种卷积神经网络的结构示意图；

图11为本申请实施例提供的一种在主系统的子系统中确定目标子系统的流程示意图一；

图12为本申请实施例提供的两个时间区间的重合区间的示意图；

图13为本申请实施例提供的一种在主系统的子系统中确定目标子系统的流程示意图二；

图14为本申请实施例提供的不同层级子系统间的节点依赖关系的示意图；

图15为本申请实施例提供的获取业务指标在第i+1时段的预测数据的流程示意图；

图16为本申请实施例提供的一种业务指标预警装置的示意图；

图17为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本申请，不用于限定本申请。另外，以下所提供的实施例是用于实施本申请的部分实施例，而非提供实施本申请的全部实施例，在不冲突的情况下，本申请实施例记载的技术方案可以任意组合的方式实施。

图1示出了本申请实施例提供的一种业务指标预警方法的网络架构图。参见图1，离线网络，可以对历史时序数据进行学习，获取历史时序数据对应的多个同比数据，分别训练得到每个同比数据对应的指标预测模型，同时，生成每个指标预测模型的预测通道。

在示例中，指标预测模型的标识记作T-x，当前日期为Dcurrent，模型T-x表示采用日期Dcurrent-x的[t_c-n，t_c+m]时段的运行数据作为训练数据，训练得到的指标预测模型。这里，t_c表示时间的一个参考点，例如，当前日期Dcurrent的t_c时刻。

在示例中，参见图1，模型T-1可以采用T-1数据作为历史时序数据；模型T-7可以采用T-7数据作为历史时序数据；模型T-14可以采用T-14数据作为历史时序数据；模型T-30可以采用T-30数据作为历史时序数据。

在示例中，T-1数据为日期Dcurrent-1的[t_c-n，t_c+m]时段的运行数据；T-7数据为日期Dcurrent-7的[t_c-n，t_c+m]时段的运行数据；T-14数据为日期Dcurrent-14的[t_c-n，t_c+m]时段的运行数据；T-30数据为日期Dcurrent-30的[t_c-n，t_c+m]时段的运行数据。

在示例中，在对业务指标进行预警时，实时网络可以调用离线网络训练得到的多个指标预测模型，根据多个指标预测模型和业务指标在第i时段的运行数据，对业务指标在第i+1时段的运行数据进行预警。

这里，第i时段的时间范围可以是[t_c-n，t_c]，t_c表示当前时刻的情况下，[t_c-n，t_c]对应的实时运行数据，即业务指标在当前时刻t_c前n分钟的运行数据。

以下，对本申请实施例在训练得到指标预测模型过程中涉及的网络进行详细介绍。

在示例中，参见图1，长短期记忆网络(Long Short-Term Memory，LSTM)是由循环神经网络衍生而来的网络，可以解决循环神经网络产生的梯度爆炸、梯度消失问题。

在示例中，参见图1，采用卷积神经网络(Convolutional Neural Networks，CNN)网络的短序列特征抽象能力提取短序列高维特征，由LSTM网络综合短序列高维特征进行时序预测。

应理解，CNN网络是一种实现卷积计算且具有深度结构的前馈神经网络，具有表征学习能力，按照阶层结构对输入信息进行平移不变分类，提取历史时序数据中的时间序列特征。

在示例中，参见图1，基于CNN-LSTM搭建编码器-解码器结构的指标预测模型。CNN网络作为编码器-解码器结构中的编码器。其中，LSTM网络作为编码器-解码器结构中的解码器。

应理解，LSTM是一种解决循环神经网络长期依赖问题而专门设计的时间循环神经网络，具有长距离时序数据的信息挖掘能力，可预测时间序列中间隔和延迟较长的事件。

图2示出了本申请实施例提供的业务指标预警方法的示意性流程图。参见图2，本申请实施例提供的业务指标预警方法，可以包括以下步骤：

步骤A201：获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；指标预测模型是根据业务指标的历史时序数据训练得到的。

这里，第i时段的时间范围可以是业务系统在当前时刻t_c的前n分钟到当前时刻t_c。实时运行数据的时间范围为[t_c-n，t_c]，对应业务系统在当前时刻t_c的前n分钟到当前时刻t_c的运行数据。

在示例中，历史时序数据可以包含业务指标在多个不同时段的运行数据。这里，多个不同时段可以是多个不同日期内的同一时段。

例如，历史时序数据可以包含业务指标在日期Dcurrent-x的[t_c-n，t_c+m]时段的运行数据和日期Dcurrent-x-V的[t_c-n，t_c+m]时段的运行数据。

在示例中，x、v为大于1的整数，日期Dcurrent和日期Dcurrent-x可以间隔至少一个工作日，日期Dcurrent-x和日期Dcurrent-x-_V可以间隔至少一个工作日。

这样，日期Dcurrent-x的[t_c-n，t_c+m]时段的运行数据和日期Dcurrent-x-V的[t_c-n，t_c+m]时段的运行数据，可以作为当前日期Dcurrent的同比数据。

应理解，在历史时序数据中，业务指标在多个不同日期、同一时段的运行数据存在一定的差异。采用多个不同日期、同一时段的运行数据对指标预测模型进行训练，可以提高指标预测模型的泛用性。

步骤A202：采用指标预测模型根据实时运行数据获取业务指标在第i+1时段的预测数据。

在示例中，采用指标预测模型识别实时运行数据的时段信息，确认实时运行数据属于第i时段，第i时段的时间范围可以是业务系统在当前时刻t_c的前n分钟到当前时刻t_c。

在示例中，指标预测模型根据实时运行数据的时段信息，匹配第i时段对应的历史时序数据的时间序列特征，根据第i时段对应的历史时序数据的时间序列特征，获取第i+1时段对应的历史时序数据的时间序列特征。

进一步地，根据第i+1时段对应的历史时序数据的时间序列特征，确定业务指标在第i+1时段的变化趋势信息，根据业务指标在第i时段的实时运行数据和业务指标在第i+1时段的变化趋势信息，获取业务指标在第i+1时段的预测数据。

步骤A203：根据预设指标范围和业务指标在第i+1时段的预测数据，生成业务指标的预警信息。

在示例中，获取业务指标的历史时序数据；历史时序数据包括业务指标在至少一个同比日期的运行数据；根据历史时序数据确定业务指标的预设指标范围。

在示例中，业务指标的预设指标范围为[x-x*a，x+x*a]，这里，x为基准值。例如，业务指标的预设指标范围为[x-x*10％，x+x*10％]。

应理解，业务指标在第i+1时段的预测数据应与同比日期的运行数据接近，因此，可以根据同比日期的运行数据，确定业务指标的预设指标范围，设定业务指标的实时运行数据的告警规则。

在示例中，设定业务指标的告警规则，在业务指标在第i+1时段的预测数据在预设指标范围外，确定业务指标在第i+1时段的预测数据将处于异常波动状态，生成业务指标的预警信息。

在示例中，根据业务指标的指标类型，匹配对应的告警规则。根据告警规则判定业务指标处于异常情况，则生成业务指标的预警信息。

在示例中，生成业务指标的预警信息，预警信息包含业务指标在第i+1时段的预测数据和/或业务指标所属的子系统。

应理解，生成业务指标的预警信息后，用户可以在分布式系统中关注业务指标处于异常波动状态的子系统，根据子系统的实时运行数据确认异常波动状态，及时对处于异常波动状态的子系统进行故障恢复。

在实际应用中，上述步骤A201至步骤A203可以采用处理器实现，上述处理器可以为专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal ProcessingDevice，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

在一种实现方式中，在上述步骤A201中，获取业务系统的指标预测模型，参见图3，可以包括以下步骤：

步骤A301：获取业务指标的历史时序数据；对历史时序数据进行预处理得到训练数据；历史时序数据包括业务指标在至少一个时段的运行数据。

这里，业务系统的类型可以包括以下任一项：交易系统、客户关系管理系统、供应链系统、财务系统、工单系统、企业资源计划系统、邮件系统、人力资源系统、即时通讯系统。

在示例中，业务系统的类型为交易系统，在此业务场景下，业务指标可以包括以下任一项：交易量、交易成功率、交易耗时。

在示例中，对历史时序数据进行预处理得到训练数据包括以下任一种预处理方法：数据增强、缺失值处理、方差标准化。

应理解，在历史时序数据中，异常时序特征可以反映网络异常事件，然而，异常时序特征往往在某一时间段内的随机时间点发生。对历史时序数据进行数据增强得到训练数据，可以提高训练数据的可靠性。

在示例中，历史时序数据包括业务指标在至少一个同比日期的运行数据。加载不同日期的历史时序数据，作为实时运行数据的同比日期的运行数据。

这里，同比日期的运行数据和实时运行数据可以间隔至少一个工作日，例如，1个工作日，7个工作日，14个工作日，31个工作日。

在示例中，参见表1，同比日期的运行数据的时间范围为[t_c-n，t_c+m]，其中，t_c-n用于指示预设时刻t_c的前n分钟，t_c+m用于指示预设时刻t_c的后m分钟。

在示例中，参见表1，通过预设时刻t_c的前n分钟的指标数据，预测预设时刻t_c的后m分钟的指标数据。每个同比数据可以作为指标预测模型的一个数据数据通道。

在示例中，n值为80，m值为10，即通过前80分钟预测后10分内的业务指标数值。

表1历史时序数据中的同比数据

在实际应用中，历史时序数据中存在异常时序特征，异常时序特征对应异常时刻的指标数据。异常时刻的指标数据、正常时刻的指标数据分别呈现短时间序列、长时间序列的特点。历史时序数据中时序特征的重要程度存在差异性，忽略短期特征的重要程度，容易导致异常时序特征的丢失。

步骤A302：提取训练数据中的时间序列特征和时间序列特征的特征权重；根据时间序列特征和特征权重，得到训练数据的显著性特征。

在示例中，采用CNN网络通过多次卷积、池化操作，分层提取历史时序数据中的时间序列特征。即，基于CNN网络对历史时序数据进行特征提取，提取历史时序数据中相对稳定的特征。

在实际应用中，CNN网络可以对预构建模型进行训练，采用预构建模型提取历史时序数据中的时间序列特征；或者，通过LSTM网络从多个输入中反向传播到CNN网络中训练，以提取时间序列数据中的时间序列特征。

在示例中，参见图4，将CNN网络输出的时间序列特征和注意力网络输出的上下文特征相乘，得到训练数据的显著性特征。其中，上下文特征用于指示时间序列特征的特征权重。

应理解，注意力网络通过深度卷积网络和池化处理堆积，可以覆盖CNN网络输入的时间序列特征，扩大特征提取的感受区域。注意力网络输出的上行文特征可以作用于时间序列特征，控制异常时序特征对指标预测结果的影响程度。

由于上下文特征反映了时间序列特征的特征权重，使得指标预测模型在低解析度的历史时序数据上，更为关注具有高辨识度与解析度的时序特征。

在示例中，根据时间序列特征和特征权重的大小，在空间或通道上进行加权计算，得到时间序列数据的显著性特征，由CNN网络将显著性特征输出传递给LSTM网络。

步骤A303：根据显著性特征对LSTM网络进行训练，得到业务系统的指标预测模型。

在示例中，监控业务指标的实时运行数据，将业务指标的实时运行数据作为指标预测模型的输入数据，由指标预测模型输出业务指标在目标时段的预测数据。

以下，对本申请实施例中LSTM网络实现的功能进行详细介绍。

在示例中，参见图5，由LSTM网络的结构示意图可知，t时刻输入为当前时刻网络输入值X_t，上一时刻LSTM网络输出值h_t-1，当前时刻记忆单元状态C_t。C为记忆单元，是LSTM网络的核心，通过门函数信息的传递。

在示例中，参见图6，遗忘门决定上一时刻的单元状态C_t-1有多少保留到当前时刻单元状态C_t；输入门决定当前时刻网络的输入X_t有多少保存到单元状态C_t；输出门决定了控制单元状态C_t有多少输出到LSTM网络的当前输出值h_t。

应理解，参见图6，在LSTM网络中引入门函数，可以挖掘时间序列中相对较长间隔和延迟等的时序变化规律，提取数据序列数据中时间维度的依赖信息。

在示例中，在记忆单元构建时，门函数为全连接层，接收向量输入，输出0到1之间实数向量。在W为门函数的权重向量，b为偏重项时，门函数可表示为g(x)＝σ(wx+b)。其中，σ为sigmoid函数，值域为[0，1]。

在示例中，经门函数处理后，记忆单元中输入门i_t＝σ(W_xix_t+W_hih_t-1+b_i)。其中，W_xi为输入层到输入门的权重向量，W_hi为隐藏层到输入门的权重向量，b_i为输入门的偏重项。

在示例中，遗忘门f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)。其中，W_xf为输入层到遗忘门的权重向量，W_hf为隐藏层到遗忘门的权重向量，b_f为遗忘门的偏重项。

在示例中，输出门o_t＝σ(W_xox_t+W_hoh_t-1+b_o)。其中，W_xo为输入层到输出门的权重向量，W_ho为隐藏层到输出门的权重向量，b_o为输出门的偏重项。

在示例中，当前输入的单元状态C_t'＝tanh(W_xcx_t+W_hch_t-1+b_c)。其中，W_xc为输入层到记忆单元的权重向量，W_hc为隐藏层到记忆单元的权重向量，b_c为记忆单元的偏重项。

在示例中，当前时刻的单元状态LSTM网络的最终输出h_t＝o_ttanh。

在示例中，在输入LSTM网络时，设定激活函数为relu，输出层维度为200，return_sequence＝True以返回时间序列。通过两个全连接层输出业务指标在目标时段的预测数据。

在示例中，输入层、输出层的维度分别为100和10，业务指标在目标时段的预测数据包括当前时刻后10分钟业务指标的指标数值。

在本申请实施例中，时间序列特征可以体现业务指标在一段时间内的波动特性，反映历史时序数据中相对较长间隔和延迟等的时序变化规律。以下，对如何获取时间序列特征和时间序列特征的特征权重进行详细介绍。

在一种实现方式中，在上述步骤A302中，提取训练数据中的时间序列特征和时间序列特征的特征权重，可以包括以下步骤：

采用CNN网络对训练数据进行特征提取，得到时间序列特征。

在示例中，基于python的神经网络框架keras构建CNN网络，采用历史时序数据27*80的二维训练集作为CNN网络的输入；通过Keras Model模型添加Conv1D层的方式，对历史时序数据进行第一层卷积运算、第二层卷积运算。

其中，第一层卷积运算可以读取输入的历史时序数据，将结果投影到特征图上。第二层卷积运算在第一层创建的特征图上执行相同的操作，提取历史时序数据中的时间序列特征。

应理解，通过CNN网络的卷积操作，实现神经网络的局部连接和权重共享，减少CNN网络中的连接数量和训练参数。

在示例中，CNN网络可以由一系列的卷积层、池化层构成，从全局感受野上去捕获时间序列特征。其中，卷积层作为CNN网络的核心，本质上来只处理局部相关性的时序数据。

在示例中，每个卷积层可以使用32个特征图，提取历史时序数据中不同的特征属性，以10个时间步长的内核大小处理历史时序数据，生成32*27*62的特征图集。

在示例中，对历史时序数据经卷积运算后输出特征图(Feature Map)，数值计算公式如下：

其中，D是卷积深度，即卷积核filters的个数；F表示卷积核的大小，W_d,m,n表示filter的第d层第m行第n列权重；a_d,m,n表示特征图的第d层第m行第n列像素。

在示例中，为了确保神经网络的稀疏性，选择relu函数作为Conv1D卷积层中的激活函数，指定Conv1D的activation参数为relu。这里，relu函数的表达式为f(x)＝max(0，x)。

应理解，采用sigmoid函数构建人工神经网络时激活率约是50％，理想的激活率为15％-30％的激活率。relu函数在输入小于0时是完全不激活的，因此，选择relu函数作为Conv1D卷积层中的激活函数，可获得更低的激活率。

在相关技术中，采用sigmoid函数构建CNN网络，在反向传播算法进行梯度下降计算时，每经过一层sigmoid神经元，需在梯度上乘上sigmoid导数。由于sigmoid函数的导数最大值为1/4，将导致梯度越来越小。

在示例中，为了减轻梯度消失问题，提高指标预测模型的收敛速度，将relu函数导数为定值1，在深度学习网络训练时计算代价小，同时，可以避免梯度消失问题。

在示例中，采用Keras Model模型添加MaxPooling1D层的方式，对卷积层输出进行下采样，减少特征图的尺寸。在池化方法上选择最大池化，设定池化核长度pool_size为3，获得池化输出32*27*20的特征图。

在示例中，在卷积及池化操作后，对提取的特征图展平为一个长向量，将其用作解码过程的输入。采用Keras Model模型添加Flatten层的方式进行参数展开，形成1*640的全连接层。

在相关技术中，在对业务指标进行预警时，要求指标预测模型的输入为平稳性数据，因此，指标预测模型仅适合进行短期预测。

在本申请实施例中，采用CNN网络对训练数据进行特征提取，得到时间序列特征。因此，可以将非平稳数据作为指标预测模型的输入，适用于长周期预测。

采用注意力网络对训练数据进行特征提取，得到时间序列特征的特征权重。

在示例中，采用端到端的学习方式，构建基于软注意力的一维CNN网络，采用注意力网络对训练数据进行特征提取，得到时间序列特征的特征权重。

应理解，为输入的每个时间序列特征添加特征权重，因此，可以关注特定权重大小的时间序列特征，实现时序维度细粒度的特征提取功能。

在示例中，通过神经网络算出梯度并且前向传播和后向反馈来学习得到时间序列特征的特征权重。

应理解，在时序预测领域，硬注意力更为关注序列点延伸出的特征信息，难以明确定位并去除输入子序列中具有重要信息的序列点，在实际模型训练中容易丢失时间序列特征。

在示例中，将CNN网络的输出特征与注意力网络输出的显著性特征相乘，CNN网络模块的输出特征重要度越高，注意力网络输出的显著特征越趋向于1，反之趋向于0。

在示例中，原始业务指标时序输入拆分为两个不同尺度，每个CNN网络输入长度为t_cnn的子序列(t_cnn为80)，与之对应的注意力网络输入长度为t_att。

应理解，为使注意力网络更全面捕获CNN网络输入尺度的上下文，令t_att＞t_cnn，可以实现注意力网络的跨尺度输入。

在示例中，注意力网络结构主要由特征聚合与尺度恢复两部分组成。特征聚合经卷积及池化操作处理，通过1*1的卷积核从跨尺度子序列中提取关键特征。

应理解，尺度恢复则将关键特征尺度恢复为CNN网络输出特征大小，运用sigmod函数将输出值约束于0-1之间。

在相关技术中，单一神经网络对指标预测模型进行训练，要求训练数据的数据量较大，对指标预测模型的训练需要较长时间。在指标预测模型的输入特征数多时，难以满足业务指标预警的实时性。

在本申请实施例中，采用注意力网络对训练数据进行特征提取，得到时间序列特征的特征权重，因此，可以关注历史时序数据中的重要特征，抑制非重要特征对指标预测模型的干扰，提高指标预测模型的运行效率，满足业务指标预警的实时性。

以下，对如何对历史时序数据进行预处理进行详细介绍。

在一种实现方式中，在上述步骤A301中，对历史时序数据进行预处理，可以包括以下步骤：

对历史时序数据中两个不同时段的运行数据的进行互换。

在示例中，在对历史时序数据中两个不同时段的运行数据的进行互换时，可以对同比7天数据d₇的数据通道与同比14天数据d₁₄的数据通道进行交换。

即，使用d₇数据训练同比14天的模型，使用d₁₄数据训练同比7天模型。

识别历史时序数据中的异常样本数据，将历史时序数据中的至少一个样本数据修改为异常样本数据。

在示例中，参见图7，参考历史时序数据中的异常时序值，随机修改少量正常数据样本的序列值，将正常数据样本的序列值修改为异常时序值。这里，异常时序值可以为固定阈值之上的数值。

应理解，在历史时序数据中注入异常样本数据，可以降低历史时序数据的平滑性。

识别历史时序数据中的异常样本数据，根据异常样本数据对历史时序数据对应的波形特征进行变换。

在示例中，参见图8，识别历史时序数据中的异常样本数据，修改异常样本在实时运行数据通道中的向量方向，向量整体做负向平移。

在示例中，参见图9，识别历史时序数据中的异常样本数据，修改异常样本在实时运行数据通道中的向量方向，将正向异常样本转变为负向异常样本。

应理解，对历史时序数据对应的波形特征进行变换，可以提高历史时序数据的波形特征的多样性。

在一种实现方式中，在上述步骤A301中，对历史时序数据进行预处理，可以包括以下步骤：对历史时序数据中的缺失值进行预处理。

在示例中，对历史时序数据中的缺失值进行预处理，可以包括以下任一项：删除历史时序数据中含有缺失值的特征、对历史时序数据中的缺失值进行填充、对历史时序数据中的缺失值进行均值填充。

应理解，数据采集过程中产生的数值缺失是不可避免的。上述缺失值处理方式，会破坏历史时序数据的时序特性。为不影响历史时序数据的时序特征，提高预测模型的准确率，可以采用均值填充的方式处理缺失值。

在一种实现方式中，在上述步骤A301中，对历史时序数据进行预处理，可以包括以下步骤：对历史时序数据进行标准化。

在示例中，在对历史时序数据进行标准化时，可以采用以下标准化处理公式：x'＝(x-μ)/σ。其中，x'为标准化随机变量，x为原始数值，μ为原始序列的均值，σ为原始序列的标准差。

应理解，历史时序数据中最大值和最小值未知，且可能有超出正常取值的离群点。对历史时序数据进行标准化，加速神经网络的训练时的收敛速度。

在示例中，在对历史时序数据进行标准化时，可以将历史时序数据转换成具有输入和输出分量的样本。

对历史时序数据进行滑动窗口重组，和/或，对历史时序数据进行数据增强。

在示例中，在对历史时序数据经缺失值填充、方差标准化处理后，可以通过滑动窗口重组和数据增强，将历史时序数据转化为监督学习数据。

应理解，历史时序数据为一维的时间序列数据，经过变换可以作为拟合监督型的深度学习神经网络的训练数据。

在示例中，在对历史时序数据进行滑动窗口重组时，为了使数据适合CNN网络或LSTM网络，可以采用滑动窗口的方式，将历史时序数据重组为二维数据集。

在示例中，在对历史时序数据进行滑动窗口重组时，处理方式如下：

p＝(1440-l)/d,s'＝s[t:t+d] (2)

其中，s为拆分前原始数据序列，s’为拆分后数据序列，t为历史时序数据中t时刻的数值。p为拆分后数据样本数，l为滑动窗口宽度，d为滑动窗口的步长。

在示例中，在对历史时序数据进行滑动窗口重组时，对于历史时序数据为分钟级采集，前80分钟数值为输入时间步x，后10分钟数值为训练预测值y。

在示例中，参见图10，单天时间序列长度为1440，采用滑动窗口宽度为90，滑动窗口步长为50重组原始数据序列，以27*80的二维训练集为模型输入。

应理解，在历史时序数据中，异常时序特征的波形较少，指标序列趋向正常波形的情更为普遍。对历史时序数据重组后，在模型训练中捕获更多异常时序特征。

在一种实现方式中，在上述指标预警方法中，还可以包括以下步骤：

获取业务指标的历史时序数据；历史时序数据包括业务指标在至少一个同比日期的运行数据；根据历史时序数据确定业务指标的预设指标范围。

在示例中，历史时序数据包括业务指标在以下至少一个同比日期的运行数据：1个工作日前的日期、7个工作日前的日期、14个工作日前的日期、31个工作日前的日期。

在示例中，根据历史时序数据确定业务指标在同比日期的均值，根据业务指标在同比日期的均值，确定业务指标的基准值x，根据业务指标的基准值x，确定预设指标范围为[x-x*a，x+x*a]。

在相关技术中，由用户结合运维经验配置告警规则，根据检测规则判断业务指标中的异常指标，需要针对不同业务场景构建不同的告警规则。随着业务指标的形态特征不断变化，业务指标的指标数量指数式增长，告警规则的检测维度低，导致对业务指标进行预警的效率较低。

在本申请实施例中，根据历史时序数据确定业务指标的预设指标范围，由于历史时序数据可以反映业务指标在同比日期的变化幅度和均值水平，因此，可以根据历史时序数据设置业务指标的基准值，从而，根据业务指标的基准值灵活设置业务指标的告警规则。

以下，对如何在主系统的子系统中确定目标子系统进行详细介绍。

在一种实现方式中，在上述步骤A203中，根据预设指标范围和业务指标在第i+1时段的预测数据，生成业务指标的预警信息，参见图11，可以包括以下步骤：

步骤A1101：根据预设指标范围和主系统的业务指标在第i+1时段的预测数据确定第一区间，第一区间用于指示主系统在第i+1时段内异常数据的时间区间。

在示例中，业务系统包括主系统和M个层级的子系统；每个层级包括至少一个子系统，1≤j≤M。

在实际应用中，业务系统可以包括主系统和M个层级的子系统。在子系统的业务指标产生异常时，主系统的业务指标将产生抖动。

然而，在分布式架构中，交易链路复杂分支过多且应用实例较多，单指标单实例的下游异常反馈传递到上游业务指标并产生业务影响需一定的时间。

步骤A1102：根据预设指标范围和子系统的业务指标在第i+1时段的预测数据确定第二区间，第二区间用于指示子系统在第i+1时段内异常数据的时间区间。

在示例中，参见图12，在计算异常区间的重合度信息，重合度信息l的计算公式如下所示：

l＝a/(a1+a2-a) (3)

其中，a为主系统的异常区间，a1为子系统1的异常区间1，a2为子系统2的异常区间2。

应理解，异常区间的重合度信息越趋向于1，业务指标异常的关联性越强。

步骤A1103：确定第一区间和每个子系统对应的第二区间的重合度信息；根据重合度信息在主系统的子系统中确定目标子系统。

在示例中，目标子系统为在第i+1时段内处于异常运行状态的子系统。

在示例中，根据重合度信息对节点树进行逐级分析，在主系统的子系统中确定目标子系统，实现异常节点的根因分析。

应理解，对异常节点进行根因分析，可以缩小业务系统的监控范围。

在示例中，在对节点树进行逐级分析时，可以从主系统直接依赖的子系统，逐级下探分析到最下游子系统，重新加载数据中心、应用实例级别预测引擎，定位异常数据中心、异常应用实例。

应理解，异常节点下探判断根据预测模型构建异常规则，最先捕获的往往是全行级别或业务链路入口的指标异常。

即，通过计算异常区间重合度信息，下探判断异常节点是否存在子系统聚合、数据中心聚合或应用实例聚合。

在一种实现方式中，根据重合度信息在主系统的至少一个子系统中确定目标子系统，参见图13，可以包括以下步骤：

步骤A1301：确定依赖关系信息；依赖关系信息用于指示主系统的子系统中父节点和子节点的依赖关系。

在示例中，参见图14，主系统的子节点包括子系统A和子系统B，其中子系统B的子节点包括子系统C和子系统D；子系统D的子节点包括IDC1和IDC2，IDC2的子节点包括应用示例1和应用实例2。

在示例中，参见图14，通过子系统调用接口区分交易类型，借助业务流水经过的子系统联机交易链路，以及子系统的部署架构，确定依赖关系信息。

进一步地，根据依赖关系信息，确定异常下探节点树。根据异常下探节点树，下探分析交易链路节点，定位最下游异常子系统。

步骤A1302：根据依赖关系信息和重合度信息，依次在主系统的第1层子系统至第M层子系统中确定目标子系统。

在示例中，参见图14，对于主系统的异常区间[9:10-9:30]，根据依赖关系信息，依次在主系统的各个子系统、子系统中的各个数据中心、数据中心中的各个应用实例中确定目标子系统。

在上述实施例中，自上而下加载子系统级别预测模型，获取各子系统的异常区间，计算主系统和子系统的异常区间的重合度信息。基于异常节点下探分析，可以快速判断异常业务指标在时间维度的聚合情况。通过异常关联区间的传递性对节点树进行剪枝，减少预测引擎的加载次数及计算量，提高业务指标异常的定位速度。

在一种实现方式中，在上述步骤A202中，采用指标预测模型根据实时运行数据获取业务指标在第i+1时段的预测数据，参见图15，可以包括以下步骤：

步骤A1501：确定业务系统的业务指标对应的至少一个预测模型；获取每个预测模型对业务指标在第i+1时段的预测结果。

在示例中，参见表2，实时网络加载经历史时序数据训练得到的预测模型T-1、预测模型T-7、预测模型T-14、预测模型T-30。

表2指标预测模型和训练数据

模型的标识	T-1	T-7	T-14	T-30
					模型的训练数据	T-1数据	T-7数据	T-14数据	T-30数据

在示例中，实时网络获取监控采集系统上报的业务指标在第i时段的实时运行数据，获取模型T-1、模型T-7、模型T-14、模型T-30中每个预测模型对业务指标在第i+1时段的预测结果。

步骤A1502：根据每个预测模型对业务指标在第i+1时段的预测结果的加权计算结果，获取业务指标在第i+1时段的预测数据。

在示例中，确定每一个预测模型的权重系数。参见表3，模型T-1，模型T-7，模型T-14，模型T-30的权重系数分别为40％、30％、20％、10％。

表3预测模型的权重系数

模型的标识	T-1	T-7	T-14	T-30
					模型的权重系数	40％	30％	20％	10％

在实际应用中，基于每一个预测模型的权重系数，为多同比预测模型分配不同权重，根据加权计算结果判断业务指标在第i+1时段的异常波动状态。

在示例中，参见表4，模型T-1、模型T-7、模型T-14、模型T-30的预测结果分别为0.3、0.7、0.5、0.6。根据每一个预测模型的权重系数，获取每个预测模型对业务指标在第i+1时段的预测结果的加权计算结果，得到业务指标在第i+1时段的预测数据。

表4对业务指标在第i+1时段的预测结果

模型的标识	T-1	T-7	T-14	T-30
					模型的预测结果	0.3	0.7	0.5	0.6

应理解，在模型训练过程中，模型T-1、模型T-7、模型T-14、模型T-30分别对应多个不同日期的历史时序数据；在指标预测时，可以输出每个模型对应的预测结果，作为不同模型的同比预测数据。

在示例中，根据不同模型的预测结果，对每个模型的预测结果和权重系数进行加权计算，得到业务指标的最终预测结果。

应理解，不同模型的同比预测数据的均值存在差异，经过对每个模型的预测结果进行加权计算处理，可以消除数据抖动幅度差异带来的影响。

在一种实现方式中，在上述业务指标预警方法中，还可以包括以下步骤：

根据预设指标范围和业务指标在第i+1时段的预测数据，确定业务指标在第i+1时段处于异常波动状态的概率。

在示例中，根据预设指标范围和业务指标在第i+1时段的预测数据，确定预设数据偏离业务指标的基准值x的幅度，根据预设数据偏离业务指标的基准值x的幅度，确定业务指标在第i+1时段处于异常波动状态的概率。

在实际应用中，可以根据业务指标在第i+1时段的预测数据的均值，确定预设数据的均值偏离业务指标的基准值x的幅度，将预设数据的均值偏离业务指标的基准值x的幅度，确定为预设数据偏离业务指标的基准值x的幅度。

在示例中，确定业务系统的业务指标对应的至少一个预测模型；获取每个预测模型预测得到的业务指标在第i+1时段处于异常波动状态的概率。

在示例中，对每个预测模型预测得到的业务指标在第i+1时段处于异常波动状态的概率进行加权计算，得到加权计算结果，根据加权计算结果确定业务指标在第i+1时段处于异常波动状态的概率。

在示例中，业务指标在第i+1时段处于异常波动状态的概率大于预设概率，确定业务指标在第i+1时段处于异常波动状态。

例如，业务指标在第i+1时段处于异常波动状态的概率大于60％，确定业务指标在第i+1时段处于异常波动状态。

获取业务指标在第i+1时段的实时运行数据和业务指标在第i+1时段的预测数据；获取第i+1时段的实时运行数据和第i+1时段的预测数据的误差信息；根据误差信息对指标预测模型进行参数调节。

在示例中，将第i+1时段的实时运行数据和第i+1时段的预测数据进行比较，获取第i+1时段的实时运行数据和第i+1时段的预测数据的误差信息。在误差信息大于预设值的情况下，确定指标预测模型存在误判。

在示例中，统计指标预测模型在预设时长内的误判次数，得到指标预测模型的误判率。对于误判率大于预设值的指标类型，可以调整指标预测模型的参数中的至少一项，重新训练LSTM网络得到指标预测模型。

例如，调整指标预测模型的输入维度n，重新训练训练LSTM网络，以优化指标预测模型的准确率。

在示例中，指标预测模型的参数包括以下至少一项：指标预测模型的输入维度n、指标预测模型的预测输出维度m、CNN网络的超参数卷积核大小、CNN网络生成特征图数量。

基于前述实施例相同的技术构思，参见图16，本申请实施例提供的业务指标预警装置，可以包括：

获取模块1601，用于获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；所述指标预测模型是根据所述业务指标的历史时序数据训练得到的；

处理模块1602，用于采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据；

预警模块1603，用于根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息。

在一种实现方式中，所述获取模块1601用于获取业务系统的指标预测模型，包括：

在一种实现方式中，所述获取模块1601，用于提取所述训练数据中的时间序列特征和所述时间序列特征的特征权重，包括：

在一种实现方式中，所述获取模块1601，用于对所述历史时序数据进行预处理，包括以下至少一项：

在一种实现方式中，所述业务系统包括主系统和M个层级的子系统；每个层级包括至少一个子系统；所述预警模块1603用于根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息，包括：

在一种实现方式中，所述预警模块1603，用于根据所述重合度信息在所述主系统的至少一个子系统中确定目标子系统，包括：

在一种实现方式中，所述预警模块1603，用于采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据，包括：

在一种实现方式中，所述预警模块1603，还用于：

在实际应用中，获取模块1601、处理模块1602和预警模块1603均可以采用电子设备的处理器实现，上述处理器可以是ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种，本申请实施例对此不作限制。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于前述实施例相同的技术构思，参见图17，本申请实施例提供的电子设备1700，可以包括：存储器1710和处理器1720；其中，

存储器1710，用于存储计算机程序和数据；

处理器1720，用于执行存储器中存储的计算机程序，以实现前述实施例中的任意一种业务指标预警方法。

在实际应用中，上述第一存储器1010、第二存储器1110可以是易失性存储器(volatile memory)或者非易失性存储器(non-volatile memory)。

基于前述实施例相同的技术构思，本申请实施例提供一种可读存储介质，以存储上述设备控制方法对应的计算机程序，计算机程序可由电子设备的处理器执行，以完成前述方法所述步骤。

在实际应用中，可读存储介质包括不限于相变内存(Phase-Change Memory，PCM)、可编程随机存取存储器(Programmable Random Access Memory，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccessMemory，DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(Programmable Read-Only Memory，EPROM)。

上文对各个实施例的描述倾向于强调各个实施例间的不同处，其相同或相似处可以互相参考，为了简洁，本文不再赘述

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，示例性地，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网格单元上；可以根据实际的可以选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

以上，仅为本申请的具体实施方式，但本申请的保护范围不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种业务指标预警方法，其特征在于，包括：

根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息；

所述获取业务系统的指标预测模型，包括：

采用CNN网络提取所述训练数据中的时间序列特征和采用注意力网络提取所述时间序列特征的特征权重；根据所述时间序列特征和所述特征权重，得到所述训练数据的显著性特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述历史时序数据进行预处理，包括以下至少一项：

3.根据权利要求1所述的方法，其特征在于，所述业务系统包括主系统和M个层级的子系统；每个层级包括至少一个子系统；

所述根据预设指标范围和所述业务指标在第i+1时段的预测数据，生成所述业务指标的预警信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述重合度信息在所述主系统的子系统中确定目标子系统，包括：

5.根据权利要求1所述的方法，其特征在于，所述采用所述指标预测模型根据所述实时运行数据获取所述业务指标在第i+1时段的预测数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种业务指标预警装置，其特征在于，包括：

获取模块，用于获取业务系统的指标预测模型和业务指标在第i时段的实时运行数据；所述指标预测模型是根据所述业务指标的历史时序数据训练得到的；所述获取业务系统的指标预测模型，包括：获取所述业务指标的历史时序数据；对所述历史时序数据进行预处理得到训练数据；所述历史时序数据包括所述业务指标在至少一个时段的运行数据；采用CNN网络提取所述训练数据中的时间序列特征和采用注意力网络提取所述时间序列特征的特征权重；根据所述时间序列特征和所述特征权重，得到所述训练数据的显著性特征；根据所述显著性特征对长短期记忆网络进行训练，得到所述业务系统的指标预测模型；

8.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至6中任一项所述的业务指标预警方法。

9.一种计算机存储介质，所述存储介质存储有计算机程序；其特征在于，所述计算机程序被执行后能够实现权利要求1至6中任一项所述的业务指标预警方法。