CN114064396A

CN114064396A - 一种kpi数据异常分数确定方法、异常检测方法及系统

Info

Publication number: CN114064396A
Application number: CN202111251415.2A
Authority: CN
Inventors: 徐丽燕; 徐康; 翟明玉; 李熠轩; 秦银川; 林志诚; 王纪立; 黄鑫健; 陈子韵; 彭程; 王宇冬; 季惠英; 沙一川; 季学纯
Original assignee: NARI Group Corp; Nari Technology Co Ltd
Current assignee: NARI Group Corp; Nari Technology Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-18

Abstract

本发明公开了一种KPI数据异常分数确定方法、异常检测方法及系统，利用编码器、解码器的自注意力机制与编码‑解码注意力机制，对含有故障信息的时序KPI数据进行异常检测，得到每一时刻的异常分数；最后，使用高斯先验分布生成得到正常分数，计算出其均值与方差，并依此对输出的异常分数进行异常判定，得到异常分析结果。本发明对时序KPI数据进行异常检测，便于运维人员快速获得KPI数据中的异常信息。

Description

一种KPI数据异常分数确定方法、异常检测方法及系统

技术领域

本发明属于智能运维技术领域，涉及一种KPI数据异常分数确定方法，还涉及一种KPI数据异常检测方法及系统。

背景技术

随着网络的不断发展，互联网业务的安全显得尤为重要，在维护网络服务器时，KPI指标(即关键业务指标)，通常为包含采集时间与各项指标的时序序列，可以反映系统的关键运行数据，是运维人员的主要业务监测指标。KPI如果发生异常，往往意味着与其相关的服务产生问题。由于系统数据逐渐庞大，人力监管已经不能满足日益增长的监控需求，所以产生了智能监测等智能运维相关技术。异常检测技术在智能运维领域非常重要，对比传统阈值监测，有着人力成本低、维护成本低、效果更稳定等优点，可以自动发现其反常数据，有助于运维人员探测异常、快速定位、辅助决策，可以显著地提高故障处理效率。

注意力机制最初被应用于机器翻译，目前已经成为深度学习的一个重要概念，并在不同的应用领域证明了其优秀的成效，它有着运算效率高、长序列信息适应强等优点。

目前常见的KPI异常检测的方法有如下几种：

1)基于统计回归的方法，如线性回归及其各种变种算法，缺点是不具有普适性，面对形态各异的KPI时，很难用固定的回归解决，而且其拟合效果也不够好。

2)基于机器学习的方法，如随机森林等，缺点是对噪声较大的数据会产生过拟合，并且检测出的异常结果缺乏可解释性。

3)基于深度学习的方法，缺点是网络结构复杂时会导致计算量大，缺乏实时性等问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种KPI数据异常分数确定方法、异常检测方法及系统，有助于运维人员快速获取KPI数据中的异常信息。

为达到上述技术效果，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种KPI数据异常分数确定方法，包括：

按照指定时间长度对KPI数据进行特征提取，以得到多组长度相同的时序序列；

将所述时序序列输入至训练好的网络模型：

通过网络模型的位置编码层对时序序列中每个时间点的数据进行位置编码，以获取位置编码向量；

分别采用网络模型的编码器自注意力层、解码器自注意力层对位置编码向量进行处理，并对处理后的数据各自进行全连接运算以对应获取编码输出向量、解码输出向量；

采用网络模型的编码-解码注意力层对编码输出向量、解码输出向量进行处理，经全连接运算后获得KPI数据异常分数。

结合第一方面，进一步的，所述编码器自注意力层对位置编码向量进行处理的方法包括：

将位置编码向量乘以预确定的三个不同权重矩阵，以对应获取编码器的查询向量、键向量和值向量；其中，所述查询向量用于查询时序数据中特征的属性；所述键向量用于表示特征属性；所述值向量用于表示特征所包含的内容；

将所述查询向量与键向量进行点积运算，并输入至归一化指数函数得到每个特征的权重；

将所有特征的值向量进行加权求和，得到编码器自注意力层融合所有特征的输出结果。

结合第一方面，进一步的，所述解码器自注意力层对位置编码向量进行处理的方法包括：

通过产生一个上三角全为0的矩阵对位置编码向量进行遮掩操作，以使解码器仅能对当前时刻之前的时序序列进行解码。

结合第一方面，进一步的，采用编码-解码注意力层对编码输出向量、解码输出向量进行处理的方法包括：

将解码输出向量作为编码-解码注意力层的查询向量、将编码输出向量输入两个全连接网络，输出结果分别作为编码-解码注意力层的键向量与值向量，对同一编/解码输出向量进行多次注意力运算以得到多组结果。

结合第一方面，进一步的，所述网络模型的训练方法包括：

使用随机失活结构进行概率为0.5的随机失活，对编码器自注意力层和解码器自注意力层进行残差操作及标准化操作；

使用Adam优化器动态调整学习率，设计基于对比损失的损失函数，选取预构建的数据集进行网络模型训练直至完全收敛。

结合第一方面，进一步的，对所述编码器自注意力层、解码器自注意力层及编码-解码注意力层的输出结果在进行全连接运算前，进行标准化处理。

第二方面，本发明提供一种KPI数据异常检测方法，包括：

采用第一方面任一项所述的方法确定KPI数据的异常分数；

根据所述异常分数及预确定的正常分数进行异常判定，得到异常检测结果。

结合第二方面，进一步的，根据所述异常分数及预确定的正常分数进行异常判定的方法包括：

选取高斯分布作为先验分布，按照高斯分布随机生成正常分数，并计算正常分数的均值与标准差；

对异常分数进行3σ检测，若异常分数处于正常分数的均值加减标准差的3倍区间内，则对应的KPI数据为正常数据；否则，则对应的KPI数据为异常数据。

第三方面，本发明提供了一种KPI数据异常检测系统，包括：

特征提取模块：用于按照指定时间长度对KPI数据进行特征提取，以得到多组长度相同的时序序列；

网络模型：用于确定KPI数据的异常分数；

判定模块：用于根据所述异常分数及预确定的正常分数进行异常判定，得到异常检测结果；

其中，所述网络模型包括：

位置编码层：用于对时序序列中每个时间点的数据进行位置编码，以获取位置编码向量；

编码器：用于采用编码器自注意力层对位置编码向量进行处理后，通过编码全连接层运算获取编码输出向量；

解码器：用于采用解码器自注意力层对位置编码向量进行处理后，通过解码全连接层运算获取解码输出向量；

编码-解码注意力层：用于对编码输出向量、解码输出向量进行处理；

编码-解码全连接层：用于对编码-解码注意力层的输出经全连接运算，以获取所述异常分数。

与现有技术相比，本发明所达到的有益效果是：

本发明将注意力机制用于KPI数据的异常分数确定中，可以更好地学习到时序序列的特征信息，同时结合与KPI数据对应的整个长序列的信息进行异常检测，相比传统的方法，能够提取更多的有效特征信息，从而提高了检测精度；

本发明考虑到KPI异常检测的实时性，网络模型使用随机失活结构进行概率为0.5的随机失活，对自注意力层前后进行残差操作，使用Adam优化器动态调整学习率，设计基于对比损失的损失函数，能够以更少的参数和更浅的网络深度来提取更有表现意义的特征，能有效防止模型过拟合，注意力机制可以进行并行运算，提高了模型的运行速度；

本发明具有良好的灵活性与扩展性，可以在本发明基础上，通过调整更适合某种工作环境下的网络参数，进一步提高预测精度或提升运行效率；

实验证明，对于形态各异的KPI数据，本发明提供的异常检测方法具有普适性。

附图说明

图1为本发明实施例提供的一种KPI数据异常检测方法的流程图；

图2是本发明实施例提供的网络模型的架构示意图；

图3是根据一示例性实施例示出的网络输入格式样例；

图4是根据一示例性实施例示出的输出结果格式样例。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：

本发明实施例提供了一种KPI数据异常分数确定方法，包括：

将所述时序序列输入至训练好的网络模型，以确定时序序列中每个时间点对应的异常分数。

所述网络模型包括位置编码层、编码器、解码器、编码-解码注意力层、编码-解码和编码-解码全连接层。其中，编码器包括编码器自注意力层和编码器全连接层，解码器包括解码器自注意力层和解码器全连接层。

网络模型用于处理时序序列之前，首先应当通过选取适当的样本集进行训练，以得到合适的网络参数。样本集可以按时序排列的含有异常的KPI数据，每条KPI数据包含对应时刻的多种指标信息与异常标签。将KPI数据按合适的时间间隔进行切分，时间间隔可根据具体实验效果调整，将时间间隔内包含的所有KPI数据的指标信息按时序添加入一个序列中，得到多组时序序列，所有时序序列将作为网络模型的输入；

训练网络模型时，为了防止过拟合，随机失活结构可以采取概率为0.5的随机失活；为防止梯度弥散，对编码器自注意力层和解码器自注意力层进行残差操作，即将该层的输入前数据与输出数据进行相加；为了提高训练速度，对编码器自注意力层和解码器自注意力层输出的数据进行标准化处理，网络模型使用Adam优化器，动态调整学习率，设计基于对比损失的损失函数，选取预构建的数据集进行网络模型训练直至完全收敛。至此，网络模型构建完毕，整体如附图2所示。

对于输入至训练好的网络模型的时序序列，网络模型通过执行下述操作步骤确定异常分数：

采用位置编码层对时序序列中每个时间点的数据进行位置编码，以获取位置编码向量；

采用编码器自注意力层对位置编码向量进行处理，经编码器全连接层进行全连接运算后，获取编码输出向量；

采用解码器自注意力层对位置编码向量进行处理，经解码器全连接层进行全连接运算后，获得解码输出向量；

采用编码-解码注意力层对编码输出向量、解码输出向量进行处理，经编码-解码全连接层进行全连接运算后获得所述异常分数。

本发明将注意力机制用于KPI数据的异常分数确定中，可以更好地学习到时序序列的特征信息，同时结合与KPI数据对应的整个长序列的信息进行异常检测，相比传统的方法，能够提取更多的有效特征信息，从而提高了检测精度。

作为本发明的一种实施例，所述编码器自注意力层对位置编码向量进行处理的方法包括：

将位置编码向量乘以预确定的三个不同权重矩阵，以对应获取编码器的查询向量、键向量和值向量；其中，所述查询向量用于查询时序数据的特征属性；所述键向量用于表示特征属性；所述值向量用于表示特征所包含的内容；

作为本发明的一种实施例，所述解码器自注意力层对位置编码向量进行处理的方法包括：通过产生一个上三角全为0的矩阵对位置编码向量进行遮掩操作，以使解码器仅能对当前时刻之前的时序序列进行解码。

采用编码-解码注意力层对编码输出向量、解码输出向量进行处理的方法包括：

实施例2：

参见图1，本发明实施例提供一种基于注意力机制的KPI异常检测方法，可以采用实施例一所述的方法确定KPI数据的异常分数；根据所述异常分数及预确定的正常分数进行异常判定，得到异常检测结果。

网络模型的位置编码层时序序列进行映射升维，输出包含位置信息的位置编码向量，编码自注意力层与解码自注意力层分别对位置编码层输出的位置编码向量进行注意力运算，得到编码与解码的数据；编码-解码注意力层将编码与解码后的数据进行综合的注意力运算。

编码器与解码器都包含自注意力层与全连接层，将编码与解码的输出与编/解码前的数据相加并进行标准化处理，结果经过全连接层后得到输出向量；

将编码器的输出向量和解码器的输出向量投入编码-解码注意力层，编码-解码注意力层对编码器与解码器的运算结果进行综合的注意力运算，运算的输出通过全连接层后作为模型输出，即得到异常分数；

计算数据集的均值与方差，通过先验分布生成相应的正常分数，计算正常分数的均值与标准差，对模型输出进行异常判定，若模型输出与正常分数的均值相差超过三个正常分数的标准差，则判定其为异常，从而得到异常分析结果。

为了观察模型训练过程中可能出现的过拟合和欠拟合现象，对于经过预处理的原数据集(即样本集)，按照8:2的比例划分训练集和测试集，对于训练集，再按照8:2的比例划分训练集和验证集。

对KPI数据集进行预处理，将数据集中的KPI数据按时序划分，将KPI数据中的每种指标信息作为向量的一个维度，将处理得到的向量排列成等长序列作为输入，如附图3所示。

网络模型主要包含位置编码层、编码器、解码器与编码-解码注意力层。

位置编码层对每个时间点的数据进行位置编码，将时间信息从一维映射为多维向量，每次训练会调整映射函数的运算参数，使时间相关性强的向量之间的内积更小，从而强化其位置信息。

编码自注意力层对位置编码层的输出向量序列进行编码注意力运算，得到维度相同的向量序列作为输出，编码自注意力层将输入向量序列中的每个向量乘以三个不同权重的矩阵以生成三个向量，三个向量分别为查询、键与值向量用于运算，查询向量用于查询与自身相匹配的向量的属性，键向量表示向量自身的属性，值向量表示当前向量包含的自身内容，将该向量的查询向量与所有向量的键向量进行点积，将卷积结果映射到(0,1)区间内得到权重，将所有向量的值向量进行加权求和，得到该向量在向量序列对应位置的输出，将所有位置的输出结果经过全连接层作为编码器的输出。

解码自注意力层输入为位置编码层的输出向量序列，进行解码注意力运算后得到维度相同的输出向量序列，每一条输入序列对应一次输入时刻，需要进行遮掩操作以逐步使用序列信息，遮掩操作使得解码器不能使用未来的信息，只能利用时序序列中对应时刻之前的信息进行解码，可以通过产生一个上三角为0的矩阵，将其乘以向量序列构成的矩阵，从而得到仅包含对应时刻信息的向量用于运算，以隐藏对应时刻之后的信息。

编码-解码注意力层结合解码器与编码器的输出向量做一次综合的注意力运算，其输出通过全连接层作为模型输出，该层同样包含查询、键与值向量，而其查询向量使用解码器的输出，键与值向量来自编码器，并行地将编码器与解码器的输出结果分别输入到全连接层，对输出的多组降维后的向量进行注意力运算，即将向量的查询向量与所有向量的键向量进行点积，将卷积结果映射到(0，1)区间内得到权重，将所有向量的值向量进行加权求和，按时序拼接后得到一条输出序列，将所有输出序列输入全连接层得到模型输出，以获得来自不同位置更加全面的信息。

设计基于Z-分数与对比损失的损失函数进行训练，损失函数通过计算使与异常标签不符的模型输出对应的损失值尽可能的大，通过神经网络的优化器进行反向传播以降低损失值，从而使模型输出结果更加接近数据集的异常标签，首先计算正常分数：通过高斯分布选取n个正常点，可选用均值μ＝0，标准差σ＝1的标准正态分布，样本数量n取10000，从这些正常点的得分中计算出均值μ_R和标准差σ_R：

r₁，r₂，...，r_n～N(μ，σ²)

设计类似Z分数的偏差函数表示数据与先验分布的偏差大小，其中模型的输出为pre，偏差函数dev为：

异常标签为y，设置一个边界常数a＝5用于计算损失值，损失函数loss为：

loss＝(1-y)|dev|+y max(0，a-dev)

正常样本的标签y＝0，异常时y＝1，由函数可见，若数据为正常，则损失函数的值为偏差值的绝对值，优化器会使正常数据更加接近先验分布；若数据为异常，则损失函数的值为a-dev与0中的较大者，则优化器会使偏差函数的值尽可能接近我们设置的边界常数a，也就是尽可能使损失值变大，起到了优化的效果。

选取适当的样本集进行训练直到网络完全收敛，保存网络权重，使用时读取网络权重，将预处理后的数据输入网络模型后，即可输出KPI预测得分和对应准确率。

模型的输出为对应时刻的异常分数，如附图4所示，对异常分数进行3σ检测，若异常分数处于样本均值加减标准差的3倍区间内，则为正常数据，若异常分数大于样本均值加减标准差的3倍，则判定其为异常。

应当提到的是，一些示例性实施例被描述成为流程图描绘的处理或方法，虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。

实施例3

本发明实施例提供一种KPI数据异常检测系统，可以用于实现实施例一和实施例二所述的方法，具体包括：

网络模型：用于确定KPI数据的异常分数；

其中，所述网络模型包括：

本领域内的技术人员应明白，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种KPI数据异常分数确定方法，其特征在于，包括：

将所述时序序列输入至训练好的网络模型：

分别采用网络模型的编码器自注意力层、解码器自注意力层对位置编码向量进行处理，并对处理后的数据各自进行全连接运算，以对应获取编码输出向量、解码输出向量；

2.根据权利要求1所述的KPI数据异常分数确定方法，其特征在于，所述编码器自注意力层对位置编码向量进行处理的方法包括：

3.根据权利要求1或2所述的KPI数据异常分数确定方法，其特征在于，所述解码器自注意力层对位置编码向量进行处理的方法包括：

4.根据权利要求3所述的KPI数据异常分数确定方法，其特征在于，采用编码-解码注意力层对编码输出向量、解码输出向量进行处理的方法包括：

5.根据权利要求1所述的KPI数据异常分数确定方法，其特征在于，所述网络模型的训练方法包括：

6.根据权利要求1所述的KPI数据异常分数确定方法，其特征在于，对所述编码器自注意力层、解码器自注意力层及编码-解码注意力层的输出结果在进行全连接运算前，进行标准化处理。

7.一种KPI数据异常检测方法，其特征在于，包括：

采用权利要求1至6任一项所述的方法确定KPI数据的异常分数；

8.根据权利要求7所述的KPI数据异常检测方法，其特征在于，根据所述异常分数及预确定的正常分数进行异常判定的方法包括：

对异常分数进行

检测，若异常分数处于正常分数的均值加减标准差的3倍区间内，则对应的KPI数据为正常数据；否则，则对应的KPI数据为异常数据。

9.一种KPI数据异常检测系统，其特征在于，包括：

网络模型：用于确定KPI数据的异常分数；

其中，所述网络模型包括：