CN109635921A

CN109635921A - 一种基于深度学习的无监督异常识别方法

Info

Publication number: CN109635921A
Application number: CN201811377829.8A
Authority: CN
Inventors: 张义强
Original assignee: Yangzhou Ladder Educational Technology Development Co Ltd
Current assignee: Yangzhou Ladder Educational Technology Development Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-04-16

Abstract

对于工业生产等领域数据，样本的异常度与样本分布比例呈反比，样本分布比例越小，异常度越大。对于模型拟合，样本分布比例越大，拟合数据的能力越好，拟合误差也越小，而那些分布比例比较小的样本，其拟合误差也较大。基于这个前提，本发明提出一种基于深度学习的无监督异常识别方法，训练集只需要正常的生产数据，正常样本数据占多数即可，无需任何标签数据。

Description

一种基于深度学习的无监督异常识别方法

技术领域

本发明属于人工智能领域，具体涉及深度学习领域的异常识别。

背景技术

传统的异常识别识别方法分两种，有监督方式和无监督方式。

有监督的异常识别，需要有大量的异常训练样本，但是在实际的生产中，各种系统的故障发生通常占整个生命周期的比例非常小，异常样本也因此很难收集，因此在很多场景下，无监督的异常识别更加通用。目前基于无监督的异常识别算法只要分几类：

1)基于统计的方法，一般假定数据符合某种分布，然后使用相应的统计模型去拟合这种分布的数据，异常数据一般在分布的边缘位置。比如高斯混合模型，就是拟合符合高斯分布的数据，样本分布越远离均值mu，其异常度也越大。基于统计的方法，需要对数据分布的判断准确。对于实际生产中的数据分布，往往较复杂，很难用某种统计模型去拟合。

2)基于距离的方法，直接度量当前样本与其他样本的距离，当当前样本为异常样本时，则当前样本距离其他样本的平均距离较大。该方法最有代表性的是交叉角异常检测。基于距离的方法，在如何能够合理度量样本之间的距离是一个难点，尤其对于高维样本数据。

3)基于PCA投影的方式，样本变换投影到另一个空间，异常样本在PCA降维后，非主成分维度的方差较大。另一种方式PCA反投影回到原空间，由于参与反投影的是主成分维度，因此异常样本反投影回去丢失信息较多，与原数据的误差也较大。这是一种线性投影，但许多样本的异常，需要一些非线性的变换。

4)基于隔离森林，随机选择特征和随机分割特征，异常样本较容易被分割出来，具体在分割树上，异常节点距离根节点较近。隔离森林每次只能切割一个维度，对于有些多维特征之间较复杂的异常，隔离森林很难发现。并且隔离森林由于随机性太强，尽管是多棵树bagging，但结果还是不太稳定。

发明内容

本发明属于人工智能领域，具体涉及深度学习领域的异常识别。针对传统方法的种种不足，本发明提出一种新的基于深度学习的异常识别方法，具有对高维特征非线性的变换能力，同时还具有较强的数据拟合能力和稳定性。

本发明的异常识别方法基于这样一种假设前提：样本的异常度与样本分布比例呈反比，样本分布比例越小，异常度越大，如fig.1；对于模型拟合，样本分布比例越大，拟合数据的能力越好，拟合误差也越小，而那些分布比例比较小的样本，其拟合误差也较大，如fig.2。

本章节将从异常识别的模型训练和测试两个阶段来阐述。

模型训练

1.训练集，要求从生产环境等采集的系统真实数据集，正常样本占大多数，异常样本占少数。

2.模型的输入为训练集中的每一个样本的特征集合或者每一个时间序列的N个样本的特征集合，模型训练的输出为一维数据P，所有的预测输出标签都为L。

3.设置异常阈值为T。假如模型的输出误差为loss(P，L)，当loss(P，L)＞T，则当前输入样本是异常样本。一种预估调整阈值的方式是，基于对整个训练数据集中异常样本比例预估，调整阈值T，直至该模型检出的异常样本比例与整个训练数据集中异常样本比例大小相近时为止。

模型测试

输入测试样本，当模型的输出误差loss(P，L)＞T时，该样本为异常样本，否则为正常样本。

其它设置

1、输出标签L可以设置为0，1，100等任意标量。

2、输出误差为loss(P，L)可以是MAE loss MSE LOSS或者其它loss的一种。

3、深度学习模型的神经网络可以是全连接神经网络DNN，也可是循环神经网络RNN，也可以卷积神经网络CNN，神经网络类型不限。

4、模型的学习算法可以是经典的BP反向传播，也可以是时间序列的BPTT或者其他学习算法。

附图说明

图1为本发明创造的Fig.1模型网络结构图。

图2为本发明创造的Fig.1样本分布与异常度关系图。

图3为本发明创造的Fig.1样本分布与拟合误差关系图。

具体实施方式

如Fig.1，模型网络结构有N层网络，输入为M维的特征数据，数据为一维数据，输出标签为固定值L，基于MSE loss误差，使用BP等学习算法更新拟合模型。当模型训练完毕，异常样本的输出值与标签L的误差较大，正常样本与标签L的误差较小。调整异常阈值T，寻找一个合理阈值，保持在能以极高的准确率识别正常样本的同时，尽可能的检出异常样本。

Claims

1.基于特定训练数据集，使用深度学习方法对其进行拟合，模型训练的输入为某个时间点的一条样本的特征集合或者时间序列的N个样本的特征集合，模型训练的输出为一维数据P，所有的预测输出标签为L。模型的输出误差为loss(P，L)，异常阈值为T，当loss(P，L)＞T，则当前输入样本是异常样本。

2.基于权利要求1，输出标签L可以设置为0，1，100等任意标量。

3.基于权利要求1，输出误差为loss(P，L)可以是MAE loss MSE LOSS或者其它loss的一种。

4.基于权利要求1，异常阈值T的设置可以动态的基于预估来调整。

5.基于权利要求4，一种预估调整阈值的方式是，基于对整个训练数据集中异常样本比例，调整阈值T，直至该模型检出的异常样本比例与整个训练数据集中异常样本比例大小相近。