CN116244199A

CN116244199A - 一种基于多神经网络的运维数据异常检测方法

Info

Publication number: CN116244199A
Application number: CN202310234902.0A
Authority: CN
Inventors: 汤骁宇; 朱琎; 郭诚刚; 陈翔; 徐思佳; 秦岭; 马国军; 周楠
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-09

Abstract

本发明公开了一种基于多神经网络的运维数据异常检测方法，它涉及标记神经网络和相关长短期记忆神经网络相结合的算法。它的自学习性能使得其能适应大数据异常检测场景，解决了网络数据异常集群问题。步骤如下：(1)通过窗口遍历数据集，并压缩数据，四分位法初步为样本打上异常点、异常周期标记，构建第一代训练集；(2)人工选择异常周期，提高训练集样本标签合理性；(3)滑动窗口结合标记神经网络，学习异常数据特征；(4)滑动窗口移动，标记神经网络对每个窗口中的数据进行异常标记形成第二代训练集；(5)第二代训练集训练相关长短期记忆神经网络，最终利用多神经网络直接对为标记网络数据进行检测。

Description

一种基于多神经网络的运维数据异常检测方法

技术领域

本发明涉及基于深度学习的网络运维数据异常检测方法，尤其涉及一种基于多神经网络的运维数据异常检测方法，属于网络数据分析技术领域。

背景技术

网络数据监控是信息系统运维环节中的重要组成部分，网络数据监控的目的是为了检测出网络异常数据。网络运维数据异常检测是无线网络数据分析和管理中的重要任务,旨在发现数据中的异常行为或异常状态，对网络数据的实时异常检测有利于提高网络的智能运维水平，实现网络资源的优化分配和按需调度。准确的异常检测可以触发及时的故障排除，帮助避免收入损失，从而维护公司的声誉和品牌，例如，公司运维部门可以通过某时间段“平均用户激活数”(这是网络运维数据的一种)辅助企业决策，该异常检测方法可以及时反映区域内用户数据的巨大变动，从而警示公司调整决策。许多大型网络公司都建立了自己的异常检测服务来监控其业务、产品和服务的健康状况。在网络运维数据指标(以下简称为“网络KPI”)监测场景中，异常检测任务在距离数据源最近的位置——基站进行计算，以减少移动业务交付的端到端时延，挖掘无线网络的内在能力，从而提升用户体验。当检测到异常时，监测软件将会把网络警报数据发送给操作员，以便及时做出与事故相关的决策。然而，网络KPI的异常检测是一个典型的大数据环境，异常数据藏匿于海量正常数据中，故而难以区分。更加严重的是，现阶段异常检测需要运维人员对某个异常数据段进行手工标记，因而导致运维异常数据无法被及时识别，这使得企业备受损失。并且，网络KPI表现为时间序列数据的形式，这使得它们不同于在非时间序列数据和图像中的检测。

目前网络运营商面临如下挑战，一、数据缺乏异常标记点(即异常数据与正常数据混淆在一起，无法区分)，在为单个业务场景提供异常检测服务时，异常检测系统将面临处理数百万个时间序列的情况。此时，操作员不可能通过手动标记的方法为每个时间序列型数据标记异常点位，并且如果全部进行手动标记也将受到效率的影响而无法适用于大数据的运维环境。此外，一个有效的异常检测系统不仅需要能够准确识别已知类型的异常情况，还需要对未知情况的异常有一定的检测能力。二、检测缺乏专业性，操作员通常会根据专业知识与他们自己对KPI的理解来确定异常情况。目前异常检测方法主要分为两种：非监督异常检测方法、有监督异常检测方法。非监督异常检测方法指的是单纯从数学角度确定异常值(例如通过设定上下限值，将超越限值的数据判定为异常)，但这种方法只从统计学的角度去进行异常检测，而忽略了网络数据中的隐藏特征，没有任何异常检测专业知识的支撑，从而效果很差。有监督学习异常检测方法指的是，在原有数据集被全部打上异常标记后，通过人工智能学习异常数据特征，从而自动判断异常数据。但这种方法有以下弊端：(1)人工异常标记成本昂贵(2)时效性差(3)不能及时更新网络(4)难以识别全新的异常。三、检测缺乏效率，目前的异常检测方法往往计算量巨大，已有的有监督类型的异常检测方法面临极大挑战。例如，现有异常检测技术“基于神经网络的网络入侵异常检测方法”要求样本数量大；现有异常检测技术“基于支持向量机的网络异常检测”耗时较长。这些都意味着，有监督的异常检测模型即使能在准确性方面做的很好，但是由于他们庞大的时间复杂度和空间复杂度使得它们在在线场景的时效性较差。

对于传统探测器来说，由于异常数据相对较少，这些探测器相对很难获得较高的精确率。对于样本少问题，有人提出数据过采样的方法，这是一种根据数据发展规律去生成更多数据样本的方法。虽然数据过采样尝试扩增异常样本，但是其并未增加异常数据的数据特征，只是从原来的异常数据的基础上进行采样扩增，并不能扩增出新型异常，只不过是将原有类型的异常点扩增了而已。总体来说，异常数据标识少问题，并未得到很好解决。除此以外，当面对“异常点集群”(即大量异常点在某一时间段疯狂出现、又在某一时间段忽然全部消失)问题时，传统的非监督机器学习算法将失效，“异常点集群”可能会形成一个聚集群，从而导致其很难与正常集群进行区分。

发明内容

本发明为了解决现有网络KPI数据异常检测过程中异常点聚集、异常标记点缺失、操作工作量庞大、检测效率低下的问题，提供了一种基于多神经网络的运维数据异常检测方法。

本发明公开了一种基于多神经网络的运维数据异常检测方法，包括以下步骤：

步骤一：网络服务终端层数据被当地基站捕获，数据样本x轴为时间，y轴为运维数值(如

“平均用户激活数”数据)，没有任何异常标记点。收集到原始数据样本后，将有两个并行的子步骤：

(1)并行子步骤一：异常点检测，直接用四分位法对整个数据序列进行初步检测，并标记异常数据点。四分位法是统计学中一种现有的异常检测方法，即把所有数据由小到大排列并分成四等份，处于三个分割点位置的数据就是四分位数；

(2)并行子步骤二：异常周期检测，通过定长压缩窗口(定长压缩窗口可根据不同场景调节长度)遍历整个数据序列，压缩窗口长度默认值为24小时(若以1小时的数据值为1个检测点位的话，即有24个点位)，确定以天为单位的异常检测周期并进行数据压缩，

数据压缩算法具体为：在压缩窗口中找到一个与其他所有其他点的欧氏距离之和最短的点，并用这个点作为压缩点；

其中C_i是第i个压缩窗口内的数据点集合，X_k为第i个压缩窗口内第k个数据点的运维指标数值，X为遍历过程中的某一个随机点，目的在于寻找压缩点。

E为目标函数，Min是规划模型中的目标，即最小化；

数据压缩完成以后，再次运用四分位法为压缩后的数据序列上标记异常点，然后异常点在后续工作中被解压，形成异常周期。

(3)上述两个子步骤完成以后，对两种步骤检测出来的异常点位取并集(即：一旦上述有一个子步骤检测出某点为异常，该点就为异常)，从而构建第一代训练集；

步骤二：在第一代训练集的基础上，通过人工选择“罕见”异常(如频率异常、波动异常)，这类数据的异常往往只与特定企业的战略、业务需求相关。提高在训练集异常样本标记过程中，时间周期选取的科学性。最终构建第二代训练集；在该阶段中，将人工标记的“罕见”异常进行存储，以作为训练集供标记神经网络学习。人工标记的目的是为了在缺少该类型异常训练样本的情况下，排除这些无法通过时间序列分析直接检测出来的“罕见”异常。异常检测周期的选取是为了解决异常点连续出现的“异常点集群”问题；

步骤三：选取固定长压缩窗口结合标记神经网络LNN，压缩窗口与滑动窗口长度保持一致，学习异常数据特征，构建高精度标记神经网络；LNN是滑动窗口+传统神经网络的新型组成结构；

步骤四：通过滑动窗口移动，用标记神经网络LNN对新数据的每个窗口中的数据样本进行异常标记形成第三代训练集；

步骤五：将第三代训练集输入到相关长短期记忆神经网络RLSTM架构中，多神经异常检测网络学习数据，直到网络中各神经元参数调配完成，则结束构建；RLSTM是在LSTM的基础上加入相关门计算步骤，从而解决窗口之间上下文关系的问题；

步骤六：利用多神经网络直接对为标记网络数据进行检测。

前述一种基于多神经网络的运维数据异常检测方法，确定压缩窗口大小后，对窗口内的数据进行压缩，这是为了解决“异常点集群”问题，即异常点连续在某一时间段出现；压缩窗口通过选取窗口内到其他所有点欧式距离最短的点作为数据压缩点，使用数据压缩点的数值作为窗口中数据的压缩值进行降维，即：用数据压缩点的值代表整个压缩窗口内数据KPI值的平均水平，具体公式如下：

其中C_i是第i个压缩窗口内的数据点集合，X_k为第i个压缩窗口内第k个数据点的运维指标数值。

前述一种基于多神经网络的运维数据异常检测方法，标记神经网络结构是一种具有错误反向传播学习算法的多层前向型神经网络，在这个神经网络模型中，它包含输入层、输出层和中间层。中间层可以有单层或多个层，并且因为它们没有直接与外部世界相连，这些中间层也被称为隐藏层；在网络的每一层中，神经元之间没有反馈连接；神经元之间没有连接在同一层；以及相邻层的神经元之间的完整连接；由于同一层的神经元之间没有耦合，因此每一层的神经元只接收来自前一层神经元的输入，而每一层的输出只影响下一层神经元的输出值；标记神经网络结构是一种滑动窗口+传统神经网络的新型组成结构，传统神经网络在滑动窗口的帮助下得以对时间序列数据进行“逐段”预测，包括下面设计步骤：

步骤一：初始化神经网络，设置输入层、中间层和输出层；

输入层：设输入模式向量有n个输入x_i，(i＝1,2…n)；

中间层：设有n_i个神经元，输入为x，输出为h，隐含层的权值为w_ij，阈值为θ_j；

输出层：设有m个神经元，输出为y_l，本层的权值为w_jl，阈值为θ_i；

/>

步骤二：读入输入样本：

设置训练样本集合，记为{(X^p,t^p)||p＝1,...,T}；

在此，X_p＝(-1，x_1p，x_2p,…,x_np)为第p个样本输入；

t_p＝(-1,t_1p,t_2p,…,t_mp)为X_p的标准输出；y_p＝(y_1p,y_2p,…,y_mp)为X_p的实际输出；

未经训练的网络，一般t_p-y_p≠0，而LNN可以调整网络权值W，使得t_p-t_y趋近于0；

步骤三：正向计算求误差函数：

样本总量是T，第P个样本表示为X，在X进入网络之后，计算输出与期望的误差：

所有t个样本的总误差：

误差函数e与网络权值W，示数信号t，输入样本x有关；

步骤四：误差反向传递正权值：

设w是训练网络中其中两个神经元值间的连接权值，这两个神经元是随机组合的；利用E关于w的梯度值，得出W的改变对E的作用，

因此，对每个W_sq的修正值为

其中n是迭代次数；

步骤五：输入值的权值修正：

输出样本为y_i ^p，输出层的神经元为：

定义样本误差函数见上式，则

容易推导出：

/>

令

则/>

得到输出层权值修正公式

其中，η为学习步长，n为迭代学习次数；

步骤六：隐含层权值修正：

计算LNN神经网络隐含层的梯度值，隐含层连接权值修正公式如下：

其中，

其中,上述过程中，主要是对δ_jl ^p和δ_ij ^p的计算，误差信息影响对δ^p的计算；为了求解δ_jl ^p,必须先计算误差函数E_A，然后才能计算出δ_ij ^p的值，也就是E_A趋近于δ_jl ^p趋近于δ_ij ^p，也就体现了误差值反向传递权值的过程；判断误差是否达到要求，如果没有，则重复步骤三，如果到达则停止。

前述一种基于多神经网络的运维数据异常检测方法，RLSTM神经网络是一种具有连续训练的递归神经网络模型，可以解决窗口之间上下文关系的问题；RLSTM将从整体数据集层面学习时间序列数据特征，更具有训练连续性，其中每个时间戳的神经元计算步骤如下：

步骤一：计算更新门，以存储新的有用信息；

U_t＝σ(W_u[a^＜t-1＞,x^＜t＞]+b_u)

步骤二：计算遗忘门，忘记多余的旧信息；

f_t＝σ(W_f[a^＜t-1＞,x^＜t＞]+b_f)

步骤三：计算相关门，以确定时间序列前后的相关性；

r_t＝σ(W_r[a^＜t-1＞,x^＜t＞]+b_r)

步骤四：计算要更新的内存单元的状态；

步骤五：计算并更新单元的状态；

步骤六：计算输出门；

O_t＝σ(W_o[a^＜t-1＞,X^＜t＞]+b_o)

步骤七：输出下一个内存单元的状态：

公式中，C^<t-1>作为记忆单元的输入，C^<t>为记忆单元状态，C^～<t>为更新的记忆单元状态，O^<t>为t时刻输出门的值，W_f，W_c，W_u，W_r，W_o是权重矩阵，b_f，b_c，b_u，b_r，b_o是偏差向量。

前述一种基于多神经网络的运维数据异常检测方法，压缩窗口的大小取决于数据变化的周期性特征；选定24为压缩窗口和标记神经网络输入层的大小。

本发明的有益技术效果：本发明采用标记神经网络和相关长短期记忆神经网络相结合的算法，它的自学习性能使得其能适应大数据异常检测场景，解决了网络数据异常集群问题。

附图说明

图1是本发明方法的流程图；

图2(a)是网络上下行流量总值数据集的整体分布图，PDCP是网络上下行流量总值的简称；

图2(b)是平均用户激活数数据集的整体分布图，Average number of users是指平均用户激活数；

图2(c)是平均活跃用户数数据集的整体分布图，Average number of activeusers是指平均活跃用户数；

图3(a)是多神经网络模型异常检测网络上下行流量总值数据集的结果图；

图3(b)是多神经网络模型异常检测平均用户激活数数据集的结果图；

图3(c)是多神经网络模型异常检测平均活跃用户数数据集的结果图；

图4(a)是本异常算法架构与传统方法在网络上下行流量总值数据集上的实验结果指标比较图；

图4(b)是本异常算法架构与传统方法在平均用户激活数数据集上的实验结果指标比较图；

图4(c)是本异常算法架构与传统方法在平均活跃用户数数据集上的实验结果指标比较图；

图4(d)是本异常算法架构与传统方法的实验结果指标综合比较图；

图5是数据集异常检测统计描述；

图6是压缩窗口的结构图；

图7是四分位法的效果图；

图8是标记神经网络的结构图；

图9是相关长短期记忆神经元结构图。

具体实施方式

由于网络KPI具有时间周期波动特性，基于此，我们提出“异常周期检测”的概念(即某一个确定周期内数据均为异常)，并试图运用多神经网络架构、压缩窗口解决异常集群问题，通过将多种深度学习算法结合提高检测效率，本网络运维数据异常检测方法具有以下特点：(1)时效性优(2)能够识别新型异常(3)自动标记异常数据(4)运用人工智能学习异常检测专业知识。本发明专利创新了标记神经网络的概念，简称：Labeling NeuralNetwork(LNN)，这是一种滑动窗口+传统神经网络的新型组成结构，传统神经网络在滑动窗口的帮助下得以对时间序列数据进行“逐段”预测。但是滑动窗口之间的上下文关系会因传统神经网络的输入大小固定性而丢失，故本发明还创新了相关长短期记忆人工神经网络的概念，简称：Relevant Long Short Term Memory Neural Network(RLSTM)以用于存储分析窗口与窗口之间的上下文关系，并将两者结合，是首个运用半监督双神经网络算法(简称：“LNN-RLSTM双神经网络”)解决异常检测问题的方案，也是首个运用标记神经网络标记异常数据的方法，兼顾了企业IT部门的操作需求。

本发明公开了一种基于多神经网络的KPI数据异常检测架构，该方法流程图如图1所示，包括以下步骤：

步骤1、网络服务终端层数据被当地基站捕获，数据上传至云计算中心后提取未标注数据样本，通过定长压缩窗口遍历，确定合适的异常检测周期并进行数据压缩，选取四分位法初步为样本打上异常点、异常周期标签构建第一代训练集；

具体的，当数据点集相对于整个KPI系列在一定的时间段内出现异常时，就会出现“异常点集群”的现象。为了有效地解决了“异常点集群”的问题，压缩窗口通过选取窗口内到其余点欧式距离最短的点作为数据压缩点，如图6所示，包括两个并行流程，主要步骤如下：

异常点检测(并行流程1)：

步骤1):运用四分位法则，设定上下域值，标记异常数据点

如图7所示，四分位法是统计学中分位数的一种，即把所有数据由小到大排列并分成四等份，处于三个分割点位置的数据就是四分位数。

Step1:对数据从小到大排序

Step2:计算第一四分位数Q₁，等于该样本中所有数据由小到大排列后1/4处的数据；第二四分位数Q₂，等于该样本中所有数据由小到大排列后1/2处数据；第三四分位数Q₃，等于该样本中所有数据由小到大排列后3/4处的数据。

Step3:计算四分位距IQR＝Q₃-Q₁

Step4:正常数据上界为UpperLimit＝Q₃+1.5*IQR，

下界为LowerLimit＝Q₃-1.5*IQR，

超出范围的为数值意义上的异常值。

异常周期检测(并行流程2)：

步骤2):根据某一场景下数据波动周期的跨度大小，确定压缩窗口大小

步骤3):在压缩窗口中找到一个与其他所有其他点的欧氏距离之和最短的点，并用这个点作为压缩点，压缩技术如图6所示；

其中C_i是第i个压缩窗口内的数据点集合，X_k为第i个压缩窗口内第k个数据点的运维指标数值，X为遍历过程中的某一个随机点，目的在于寻找压缩点。E为目标函数，Min是规划模型中的目标(即最小化)

注：欧式距离是两点之间的距离公式(在不同维度)。例如，在二维平面上，欧式距离就是两点之间x、y坐标差的平方和。

步骤4):使用压缩点的KPI值作为窗口中数据的压缩值进行降维；即：用压缩点的KPI数值来代表整个压缩窗口内数据的整体水平。

步骤5):利用四分位法对压缩后的数据序列进行新一轮异常检测，并标记异常数据点(这里的点是压缩点)，简称：异常压缩数据点

步骤6):解压缩检测到的异常压缩数据点，每个周期的解压缩数据将携带父压缩点的标记。即：以压缩长度为24为例，1个异常压缩数据点解压后，将出现24个异常数据点，该异常压缩数据点是这24个异常数据点的父压缩点。

步骤7):将上述两个并行异常检测的结果取并集，形成第一代训练集。

步骤2、在第一代训练集的基础上，通过人工选择“罕见”异常(如频率异常、波动异常)，这类数据的异常往往只与特定企业的战略、业务需求相关。提高在训练集异常样本标记过程中，时间周期选取的科学性。最终构建第二代训练集；在该阶段中，将人工标记的“罕见”异常进行存储，以作为训练集供标记神经网络学习。人工标记的目的是为了在缺少该类型异常训练样本的情况下，排除这些无法通过时间序列分析直接检测出来的“罕见”异常。异常检测周期的选取是为了解决异常点连续出现的“异常点集群”问题。

步骤3、选取固定长压缩窗口结合标记神经网络LNN，学习异常数据特征，构建高精度标记神经网络；

具体的，标记神经网络结构是一种具有错误反向传播学习算法的多层前向型神经网络.在这个神经网络模型中，它包含输入层、输出层和中间层。中间层可以有单层或多个层，并且因为它们没有直接与外部世界相连，这些中间层也被称为隐藏层。在网络的每一层中，神经元之间没有反馈连接；神经元之间没有连接在同一层；以及相邻层的神经元之间的完整连接。由于同一层的神经元之间没有耦合，因此每一层的神经元只接收来自前一层神经元的输入，而每一层的输出只影响下一层神经元的输出值，如图8所示，计算步骤如下：

步骤1)：初始化神经网络，设置输入层、中间层和输出层。

输入层：设输入模式向量有n个输入x_i，(i＝1,2…n)；

步骤2)：读入输入样本。

设置训练样本集合，记为{(X^p,t^p)||p＝1,…,T}；

在此，X_p＝(-1，x_1p，x_2p,…,x_np)为第p个样本输入；tp＝(-1,t_1p,t_2p,…,t_mp)为X_p的标准输出；y_p＝(y_1p,y_2p,…,y_mp)为X_p的实际输出。

未经训练的网络，一般t_p-y_p≠0，而LNN可以调整网络权值W，使得t_p-t_y趋近于0。

步骤3)：正向计算求误差函数。

所有t个样本的总误差：

/>

误差函数e与网络权值W，示数信号t，输入样本x有关。

步骤4)：误差反向传递正权值。

设w是训练网络中其中两个神经元值间的连接权值，这两个神经元是随机组合的。利用E关于w的梯度值，得出W的改变对E的作用。

因此，对每个Wsq的修正值为

其中n是迭代次数。

步骤5)：输入值的权值修正。

输出样本为y_i ^p，输出层的神经元为：

定义样本误差函数见上式，则

容易推导出：

令

则/>

得到输出层权值修正公式

其中，η为学习步长，n为迭代学习次数

步骤6)：隐含层权值修正。

其中，

其中,上述过程中，主要是对δ_jl ^p和δ_ij ^p的计算，误差信息影响对δ^p的计算。为了求解δ_jl ^p,必须先计算误差函数E_A，然后才能计算出δ_ij ^p的值，也就是E_A趋近于δ_jl ^p趋近于δ_ij ^p，也就体现了误差值反向传递权值的过程。判断误差是否达到要求，如果没有，则重复步骤三，如果到达则停止。

步骤4、通过滑动窗口移动，用标记神经网络LNN对新数据的每个窗口中的数据样本进行异常标记形成第三代训练集；

步骤5、将第三代训练集输入到相关长短期记忆神经网络RLSTM架构中，多神经异常检测网络学习数据，直到网络中各神经元参数调配完成，则结束构建；

具体的，我们让C^<t-1>作为记忆单元的输入，C^<t>为记忆单元状态，C～^<t>为更新的记忆单元状态，O^<t>为t时刻输出门的值，W_f，W_c，W_u，W_r，W_o是权重矩阵，b_f，b_c，b_u，b_r，b_o是偏差向量.RLSTM网络的关键是运用记忆单元状态添加或删除信息，这是由被称为“更新门”和“遗忘门”的结构调节的。事实上，我们在传统LSTM神经网络的基础上进行了改进，通过加入“相关门”，将前后的时间序列相关性作为权重系数加入到C～^<t>的计算过程中。门的作用类似于过滤器，让可选的信息通过。它们由一个sigmoid神经层组成，其输出值在0到1之间。如图9所示，其中每个时间戳的神经元计算步骤如下：

步骤1)：计算更新门，以存储新的有用信息；

U_t＝σ(W_u[a^＜t-1＞,x^＜t＞]+b_u)

步骤2)：计算遗忘门，忘记多余的旧信息；

f_t＝σ(W_f[a^＜t-1＞,x^＜t＞]+b_f)

步骤3)：计算相关门，以确定时间序列前后的相关性；

r_t＝σ(W_r[a^＜t-1＞,x^＜t＞]+b_r)

步骤4)：计算要更新的内存单元的状态；

步骤5)：计算并更新单元的状态；

步骤6)：计算输出门；

O_t＝σ(W_o[a^＜t-1＞,X^＜t＞]+b_o)

步骤7)：输出下一个内存单元的状态。

步骤6、利用多神经网络直接对为标记网络数据进行检测。该算法考虑了数据层、业务层的多种异常，进一步提高异常检测准确性。

实施例

本实施例使用了来自全国高校大数据竞赛的2021年8月28日0时至9月25日23时共29天5个基站覆盖的58个小区对应的67个KPI指标数据集进行实验。

1.数据集

本实验使用的数据集来自全国高校大数据竞赛的2021年8月28日0时至9月25日23时共29天5个基站覆盖的58个小区对应的67个KPI指标，并且它们都有相应的手动标签。我们选择三个具有不同特征的KPI，他们在两次观察之间具有相同的1小时间隔。如图2三个KPI数据分布图所示。

2.模型参数设置

为了比较结果的客观性，将LNN网络的隐藏层设置为两层，第一层24个单元，第二层12个单元。每个滑动窗口的大小被设置为24。并选择0.00001的训练目标最小误差。RLSTM神经网络训练选择初始学习率为0.005的Adam optimizer。作为本文提出的模型的重要组成部分之一，LNN-RLSTM有两个重要参数InitialLearnRate和LearnRateDropFactor。如果InitialLearnRate太低，则训练将花费很长时间，但是如果学习率太高，则训练可能会陷入次优的结果。LearnRateDropFactor每次经过一定数量的纪元时，它就会应用于学习率，降低过旧的历史数据对未来数据的影响。经实验，InitialLearnRate选取0.005，LearnRateDropFactor选取0.2，模型准确性较高。

3.性能评估

基于时间序列数据的异常检测算法性能评估除了最好的F-Score之外，我们还采用了召回率、精确率和准确率。如图2所示，我们比较了三个KPI不同模型下基于四个指标的性能。如图4所示，实验结果表明，LNN-RLSTM模型优于其他三个模型。在三个数据集中，平均激活用户数的异常特征比较突出，所以F-Score比较高。小区平均用户数异常频率在异常数据中占比较大，可以解释小区PDCP数据“异常聚集”的现象(异常点4.48％，异常窗口1.38％)但其F-Score最小。

事实上，由于数据异常的复杂性和多样性，除非数据特征的异常表示的极其明显(数值上明显的高峰或者低谷)，否则，以极高的准确率完成异常频率的检测仍然是具有挑战性的。

4.LNN-RLSTM多神经网络异常检测技术的影响

与其他模型相比较，LNN-RLSTM由三点改进:(1)用四分位法从数值上直观判断异常数据(2)利用LNN神经网络训练数据识别异常数据和异常周期(3)利用RLSTM神经网络训练数据可以识别异常频率。我们用这三种技术对我们的模型和实验进行了优化。把这三个改进逐步加起来，就可以得到LNN-RLSTM模型。

5.LNN-RLSTM的标签和真实的标签

四分位法只适合排除特征最突出的异常，对于LNN-RLSTM来说，这个任务的完成是非常有意义的。LNN-RLSTM通过训练描述真实数据特征分布，具有很好的抗噪声能力。在训练过程中，虽然异常数据的比例很小，但每个异常都可能显著影响模型的参数，从而提高模型对异常的敏感性。

6.数据标签的真正异常

四分位法只适合检验最明显的异常数据，而随机森林和LightGBM不能有效的检查到异常频率。如图4中所示，对于小区平均用户数四分位法对数据集的检测效果最差，在其他数据集上表现较好，在一定程度上也可以解释为什么LNN-RLSTM在之前的实验中对平均用户数数据集的F-Score最小。再者，我们可以看到四分位法的局限性，所以其仅可以作为辅LNN-RLSTM训练的工具。最终检测结果如图3所示。

异常检测结果统计

运维数据指标	平均用户数	平均激活用户数	小区PDCP流量
				数据总数	3480	3480	3480
异常点	156/4.48％	100/2.87％	178/4.91％
				数据窗口总数	145	145	145
异常窗口总数	2/1.38％	1/0.69％	2/1.38％
				平均数	16.2898	1.7046	1.7133e+10

Claims

1.一种基于多神经网络的运维数据异常检测方法，其特征在于以下步骤：

步骤一：网络服务终端层数据被当地基站捕获，数据样本x轴为时间，y轴为运维数值，没有任何异常标记点，收集到原始数据样本后，将有两个并行的子步骤：

(1)并行子步骤一：异常点检测，直接用四分位法对整个数据序列进行初步检测，

并标记异常数据点；四分位法是统计学中一种现有的异常检测方法，即把所有数据由小到大排列并分成四等份，处于三个分割点位置的数据就是四分位数；

(2)并行子步骤二：异常周期检测，通过定长压缩窗口遍历整个数据序列，压缩窗口长度默认值为24小时。若以1小时的数据值为1个检测点位的话，即有24个点位，确定以天为单位的异常检测周期并进行数据压缩数据压缩算法具体为：在压缩窗口中找到一个与其他所有其他点的欧氏距离之和最短的点，并用这个点作为压缩点；

其中C_i是第i个压缩窗口内的数据点集合，X_k为第i个压缩窗口内第k个数据点的运维指标数值，X为遍历过程中的某一个随机点，目的在于寻找压缩点；

E为目标函数，Min是规划模型中的目标；数据压缩完成以后，再次运用四分位法为压缩后的数据序列上标记异常点，然后异常点在后续工作中被解压，形成异常周期；

(3)上述两个子步骤完成以后，对两种步骤检测出来的异常点位取并集，从而构建第一代训练集；

步骤二：在第一代训练集的基础上，通过人工选择“罕见”异常，如频率异常、波动异常，这类数据的异常往往只与特定企业的战略、业务需求相关；提高在训练集异常样本标记过程中，时间周期选取的科学性；最终构建第二代训练集；在该阶段中，将人工标记的“罕见”异常进行存储，以作为训练集供标记神经网络学习；人工标记的目的是为了在缺少该类型异常训练样本的情况下，排除这些无法通过时间序列分析直接检测出来的“罕见”异常；异常检测周期的选取是为了解决异常点连续出现的“异常点集群”问题；

步骤六：利用多神经网络直接对为标记网络数据进行检测。

2.根据权利要求1所述的一种基于多神经网络的运维数据异常检测方法，其特征在于，在确定压缩窗口大小后，对窗口内的数据进行压缩，这是为了解决“异常点集群”问题，即异常点连续在某一时间段出现；压缩窗口通过选取窗口内到其他所有点欧式距离最短的点作为数据压缩点，使用数据压缩点的数值作为窗口中数据的压缩值进行降维，即：用数据压缩点的值代表整个压缩窗口内数据KPI值的平均水平，具体公式如下：

3.根据权利要求1所述的一种基于多神经网络的运维数据异常检测方法，其特征在于，标记神经网络结构是一种具有错误反向传播学习算法的多层前向型神经网络，在这个神经网络模型中，它包含输入层、输出层和中间层。中间层可以有单层或多个层，并且因为它们没有直接与外部世界相连，这些中间层也被称为隐藏层；在网络的每一层中，神经元之间没有反馈连接；神经元之间没有连接在同一层；以及相邻层的神经元之间的完整连接；由于同一层的神经元之间没有耦合，因此每一层的神经元只接收来自前一层神经元的输入，而每一层的输出只影响下一层神经元的输出值；标记神经网络结构是一种滑动窗口+传统神经网络的新型组成结构，传统神经网络在滑动窗口的帮助下得以对时间序列数据进行“逐段”预测，包括下面设计步骤：

步骤一：初始化神经网络，设置输入层、中间层和输出层；

输入层：设输入模式向量有n个输入x_i，(i＝1,2…n)；