CN113569920B

CN113569920B - 基于自动编码的第二近邻异常检测方法

Info

Publication number: CN113569920B
Application number: CN202110764065.3A
Authority: CN
Inventors: 武志超; 白建明; 张远平; 原佩君
Original assignee: Shanghai Dunfei Information Technology Co ltd
Current assignee: Shanghai Dunfei Information Technology Co ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2024-05-31
Anticipated expiration: 2041-07-06
Also published as: CN113569920A

Abstract

本发明公开了一种基于自动编码的第二近邻异常检测方法，其中，包括：针对数据集，基于自动编码提出数据关键信息，计算数据的第二K近邻距离；取D_K到D_2K之间的距离的集合D^2K为此样本点的第二局部信息，即第二K近邻距离信息；基于孤立森林对数据点的第二K近邻距离信息进行异常检测；利用相似度矩阵筛选基检测器，得到异常结果。本发明基于自动编码获取数据中重要特征的信息，通过第二K近邻于数据异常信息进行表达，然后借助孤立森林进行数据信息进行异常检测，最后通过相似度矩阵筛选基检测器或，获得异常结果。

Description

基于自动编码的第二近邻异常检测方法

技术领域

本发明涉及一种异常检测方法，尤其涉及一种基于自动编码的第二近邻异常检测方法。

背景技术

异常检测是机器学习与人工智能领域的一个重要问题，是寻找或识别异常值的方法或过程。文献表明，异常检测在保险欺诈、网络入侵、声音/图像异常识别、页面模块异常识别等方面具有重要的应用。例如：

发现异常驾驶车辆对交通系统的正常运行起到辅助作用、异常股票交易识别有利于股市的健康发展、桥梁裂缝异常检测对工程安全起到关键作用、异常网络入侵识别可以保证用户安全、欺诈识别有助于保障金融交易的安全性等。

Barnett and Lewis(1994)从统计角度给出了异常值的定义，认为异常值是与大多数数据分布不一致的值。在此基础上，众多研究者从不同视角对异常值进行各种描述：Hodge and Austin(2003)认为异常值是不符合预期行为的数据，Shekhar et al(2001)则认为异常值是一种偏离预期行为的数据模式。总体而言，我们在分析真实数据集时，一个常见的问题是确定哪些数据与众不同，它们可以是与大部分观察值不一样的值，也可以是由不同机制产生的数据。

异常检测的经典方法主要包括参数化方法、非参数化方法、基于聚类的方法以及神经网络异常检测方法等。

参数化方法根据数据的描述统计量如均值、方差等来拟合数据总体分布(Rousseeuw and Hubert，2011)，偏离均值和方差一定阈值的值被认为是异常值，主要包括由Chou and Telaga(2014)提出的2σ算法、由Rosner(1983)提出的GESD(Generalizedextreme studentized deviate)算法、由Habib et al(2015)提出的K-均值聚类算法以及Cotrufo(2016)的基于主成分分析的检测算法等。该类方法的主要问题，一是异常值对于统计量非常敏感(Barnett and Lewis，1994)，导致拟合出的分布容易偏离正常数据的分布，出现部分异常程度比较小的值被检测为正常的情况；二是在据分布不均匀条件下的检测效果不好(Hadi，2009)。

非参数化方法一般基于密度或者距离定义异常，并建立孤立森林达到孤立异常值的目的。基于密度的代表算法为LOF(局部密度异常检测；Breunig et al，2000)，异常识别依赖于密度可达定义展开，但有时会忽略距离信息；同时，k近邻依据欧氏距离，相当于假定数据以球形的方式分布在样本周围，对于流线形数据的检测效果不够理想。基于距离的代表性算法为KNN(Ramaswamy et al，2000；Angiulli et al，2002)，利用样本点周围最近的k个点来衡量样本点之间的异常程度，但可能存在着忽略局部外围信息的缺陷。LOF和KNN两类算法的输出结果均为异常值得分，但缺少一个衡量标准来判定异常值。为解决这一问题，LoOP算法(Kriegel et al，2009)利用概率值对不同样本的异常程度进行比较。为了将异常值得分转化为概率，此算法使用归一化函数和高斯误差函数。

与基于距离和密度的算法不同，孤立森林(Liu et al，2008)利用二叉树对样本点搜索的过程达到孤立异常值的目的，其中异常值是根据样本点的路径长度与二叉树的平均路径长度对比来定义的。

此外，还有基于聚类的异常检测方法。如LDCOF(基于局部密度聚类的离群因子；Amer and Goldstein，2012)将聚类的思想应用到异常检测，借助k-means将样本分割为小簇和大簇，对于每个集群计算所有集群成员到其对应簇的中心的平均距离，通过将样本到其集群中心的距离除以平均距离来计算LDCOF得分。

神经网络异常检测的典型算法是基于自动编码进行异常检测(Rumelhart et al，1986)，其思想是借助编码函数将数据映射到新空间，再通过解码还原数据，将误差较高的数据定义为异常。

由于自动编码会陷入局部最优解，Hinton et al(2006)调整原来的自动编码架构，产生了DAE算法。DAE算法的主要步骤为对隐含层采用无监督算法来训练，接着借助BP算法调整参数优化。这样操作的好处是避免算法偶尔局部最优解，改善算法效果。

然而在实际应用中，DAE往往学习不到特殊数据的分布。为此，Goodfellow et al(2014)提出了GAN(对抗生成网络)算法，利用博弈思想、使用生成和对抗两个网络进行持续学习判断，进而达到学习原来数据结构、分离正常样本和异常样本的目的。

参数化和非参数化方法都是从统计角度出发，主要区别为分布已知和未知。参数化方法假设整体分布是已知的(通常假设为正态分布)，核心思想是利用分布的均值和方差来识别异常值。但异常值会影响均值和方差的计算，导致计算的分布偏离正常分布，部分异常值会被识别为正常。参数化方法在整体数据变化比较平稳时检测效果较为理想，但对于波动较大的数据则不尽人意。非参数化方法相比于参数化方法改善很多，其思想主要为基于密度、距离等定义异常，但可能会忽略局部邻近的信息，算法的敏感度低，尤其在异常值种类复杂的情况下，算法效果不是很理想。另外，由于异常检测属于无监督学习问题，故无法提前训练模型，不同参数下的算法结果变化也大，参数选择往往带有强烈的主观性。

基于神经网络的异常检测方法基本思想较为类似，通过计算数据的重构误差并设定阈值来定义异常值，缺点是阈值的选取具有主观性。此外，该类方法对于较为明显、单一的异常值识别效果较好，而在异常值种类复杂的情况下，重构误差的算法很不理想。

总体来说，在不同行业的现实数据集中，异常值通常具有两个显著的特点：一是数量很少，且以各种形式隐藏于正常数据中；二是异常类型很不一致，这是由于造成异常情况的原因复杂多样、异常表现具有显著的差异，从而导致异常类型的复杂化与多样化。目前，各类传统算法一般将异常值视为一类数据进行处理，忽略了异常值虽然很少、但类型并不单一的特点，导致处理复杂数据时的效果不佳，无法满足现实问题的需要。

因此，本发明致力于提供一种采用全新的第二K近邻算法处理自动编码提取出的数据，并结合孤立森林和基检测器获取异常结果的方法。

发明内容

本发明的上述目的是通过以下技术方案实现的：

一种基于自动编码的第二近邻异常检测方法，其中，包括：

针对数据集，基于自动编码提出数据关键信息，计算数据的第二K近邻距离；

第二K近邻距离为：对于一个样本点x_ij,i＝1,2,…,n,j＝1,2,…,m；其中n为样本点的数量，m为数据特征的数量，此样本点与其他样本点的欧氏距离排序的集合为：

D＝{D₁,…,D_K,D_K+1,…,D_2K,D_2K+1,…,D_n-1}

取D_K到D_2K之间的距离的集合D^2K为此样本点的第二局部信息，即第二K近邻距离信息；

基于孤立森林对数据点的第二K近邻距离信息进行异常检测；

利用相似度矩阵筛选基检测器，得到异常结果。

如上所述的基于自动编码的第二近邻异常检测方法，其中，利用相似度矩阵筛选基检测器，得到异常结果包括：根据样本点异常检测得分的排名结果建立相似度矩阵；基分类器筛选，选取相似度矩阵中一致性高的基分类器，进行异常集成投票，获取样本点异常情况。

如上所述的基于自动编码的第二近邻异常检测方法，其中，数据获取模块获取数据集后，基于自动编码提出数据关键信息。

如上所述的基于自动编码的第二近邻异常检测方法，其中，利用加权Kendall-Tau相似度测量对异常值得分排名建立相似度矩阵。

如上所述的基于自动编码的第二近邻异常检测方法，其中，集成规则为：对于一个数据，如果60％的基检测器判断的结果为异常值，则此数据的值就为-1即异常值，否则相反。

如上所述的基于自动编码的第二近邻异常检测方法，其中，基分类器筛选包括：

步骤一：K值的筛选：假设相似度矩阵为

L＝{L_ij},i,j＝1,2,…,n

其中n＝p×q，p为第二近邻参数k的个数，q为异常值比例β参数个数；

根据L的最小值量级设定阈值α，假设L的最小值为0.7，则α的值为在最小值基础上加一个量级0.1；然后，将L中小于α的值设定为0，统计每个参数k下出现0的个数，将出现0最多的k值去掉得到新的相似度矩阵L^new；

步骤二：异常比例参数β的确定：将L^new按照行求和，挑选每个参数k下最大值对应的参数β。

如上所述的基于自动编码的第二近邻异常检测方法，其中，将样本点异常情况进行输出。

如上所述的基于自动编码的第二近邻异常检测方法，其中，数据模块获取的数据包括：

data k＝{4,5,6,7,8},par＝{0.04,0.06,0.08,0.10,0.12}。

如上所述的基于自动编码的第二近邻异常检测方法，其中，将不同的K和par值组合执行step3得到下标i代表par，K为每个点的第二近邻点数量；利用加权Kendall-Tau相似度测量对异常值得分排名建立/>之间的相似度矩阵，选择相似度一致的几个/>然后进行集成投票。

如上所述的基于自动编码的第二近邻异常检测方法，其中，对进行异常集成投票作为最终结果y。

综上所述，由于采用了上述技术方案，本发明基于自动编码获取数据中重要特征的信息，通过第二K近邻于数据异常信息进行表达，然后借助孤立森林进行数据信息进行异常检测，最后通过相似度矩阵筛选基检测器或，获得异常结果。第二K近邻距离是本发明首先提出的概念，使用本发明的方法进行异常检测，能够有效提升检测的性能。在平均准确度(AP)、调整的平均准确度(Adj-AP)两个性能指标上有非常显著的提升；在准确度(p@n)及调整的准确度(Adj-p@n)两个指标上的提升也很明显；本发明的ROC-AUC指标，在三个数据集上也较之于传统检测方法的结果略有提升。

附图说明

图1是本发明基于自动编码的第二近邻异常检测方法的自动编码的原理图。

具体实施方式

下面对本发明做进一步描述：

本发明公开了一种基于自动编码的第二近邻异常检测方法，其中，包括：

第二K近邻距离定义为：对于一个样本点x_ij,i＝1,2,…,n,j＝1,2,…,m；其中n为样本点的数量，m为数据特征的数量，此样本点与其他样本点的欧氏距离排序的集合为：

D＝{D₁,…,D_K,D_K+1,…,D_2K,…D_2K+1,…,D_n-1}

基于孤立森林对数据点的第二K近邻距离信息进行异常检测；

利用相似度矩阵筛选基检测器，得到异常结果。

本发明采用第二近邻距离来衡量样本之间的异常信息，便于将点距离信息和点的密度连通性同时考虑进去。

本发明的输入数据和输出数据可以表述为：

Input:X←data k＝{4,5,6,7,8},par＝{0.04,0.06,0.08,0.10,0.12}

Output:y←predict

具体的，本发明的实施方法可以采用以下步骤：

第一阶段：首先，自动编码进提取数据关键信息，然后计算第二K近邻距离，借助孤立森林对数据点的第二近邻信息进行异常检测。

step1:X^new←X←autoencoder

step2:计算X^new的第二K近邻距离信息，即D^2K＝{d_ij},i＝n,j＝K

(其中i为样本点，j为每个样本点的K个距离)

step3:y^K←D^2K←Isolated forest

第二阶段：将不同的K和par值组合执行step3得到下标i代表par(异常值比例)，K为每个点的第二近邻点数量；利用加权Kendall-Tau相似度测量对异常值得分排名建立/>之间的相似度矩阵，选择相似度一致的几个/>然后进行集成投票。

Step1:for i,j in collection(k,par)

利用加权Kendall Tau相似度建立之间相似度矩阵，进一步筛选最为相似评价结果子集/>

Step2:对进行异常集成投票作为最终结果y。

具体的，图1是本发明基于自动编码的第二近邻异常检测方法的自动编码的原理图，请参见图1，自动编码是一种无监督的学习算法，主要用于剔除数据噪声，对数据的特征及关键信息进行提取。

图中X表示数据原型(输入)；中间的y为关键信息提取过程，y＝f(x)为编码结果；x^new＝g(y)＝g(f(x))为数据重构过程，代表算法的输出结果。

进一步的，本发明的中的关键信息指现实中我们关注的、能够表达或反映数据本质特征的信息。例如在保险欺诈识别中，关键信息主要是数据中以较大概率指向欺诈的特征或交叉特征；在图像处理中，关键信息指反映图像重要特征的像素点集合。在本发明中，我们借助自动编码的去噪能力对数据进行预处理，以剔除次要信息，保留重要信息，为后续关键步骤(集成投票、第二近邻)的实现提供技术支持。

进一步的，利用相似度矩阵筛选基检测器，得到异常结果包括：根据样本点异常检测得分的排名结果建立相似度矩阵；基分类器筛选，选取相似度矩阵中一致性高的基分类器，进行异常集成投票，获取样本点异常情况。由于无监督学习条件下，标签的缺失使参数的选择变得非常困难，参数的主观选择对结果影响很大。将基检测器集成应用到异常值结果判断，根据参数不同对于异常检测排名变化敏感性，可以找到评价较为一致的排名基检测器。

进一步的，数据获取模块获取数据集后，基于自动编码提出数据关键信息。本发明的方法可以针对不同领域的数据进行异常检测。本发明针对外部模块或者硬件进行数据的获取，包括但不限于以下领域：保险欺诈、网络入侵、声音/图像异常识别、页面模块异常识别等。

进一步的，利用加权Kendall-Tau相似度测量对异常值得分排名建立相似度矩阵。加权的Kendall-Tau相似度测量是针对信息的排名一种非常好的测量方法，在本发明中，对不同参数下的异常检测得分结果分别进行排名，然后计算不同排名之间的相似度。

具体的，相似度选择可以包括：随着第二阶段step1中参数的变化，如果每个样本的异常值排名程度变化越来越小，说明参数之间具有一致性，也说明使用这些参数进行异常检测的结果比较可靠(比如对10个未知的人进行评价，如果大多数群体对这10人评价结果都差不多，则表明这些人可以作为评价的标准)。

进一步的，集成规则为：对于一个数据，如果百分之60的基检测器判断的结果为异常值，则此数据的值就为-1即异常值，否则相反。

进一步的，基分类器筛选包括：

步骤一：K值的筛选：假设相似度矩阵为

L＝{L_ij},i,j＝1,2,…,n

进一步的，将样本点异常情况进行输出。通过本发明的方法获取样本点异常情况后，本发明可以对获得的数据进行输出，从而使得外部模块可以得到数据，以及进行进一步的分析。

进一步的，数据模块获取的数据包括：

data k＝{4,5,6,7,8},par＝{0.04,0.06,0.08,0.10,0.12}。

进一步的，将不同的K和par值组合执行step3得到下标i代表par，K为每个点的第二近邻点数量；利用加权Kendall-Tau相似度测量对异常值得分排名建立/>之间的相似度矩阵，选择相似度一致的几个/>然后进行集成投票。

本发明借助Stacking的思想，通过不同分类器进行投票的选择，这样可减少主观选取K造成的偶然性影响，保证检测结果更为合理。

进一步的，对进行异常集成投票作为最终结果y。

为了证明本发明的技术效果，设计以下三个实验从各方面评价本发明技术方案的有益效果。

第一，利用公开数据集，将本发明与7种传统的异常检测方法(包括孤立森林、LOF、KNN、LoOP、FastABOD、INFLO、COF)进行效果对比，说明方法的有效性。

第二，对比采用异常检测的5个主要性能指标，包括准确度(p@n)、调整的准确度(Adj-p@n)、平均准确度(AP)、调整的平均准确度(Adj-AP)、平均AUC值(ROC-AUC)，这些指标从各个侧面综合反映了检测的效果。

准确度：

其中O为全部数据中的异常样本，n为检测结果排名最高的对象。

调整的准确度：

其中，|O|为全部数据中异常值的大小，N为全部数据的大小。

平均准确度：

调整的平均准确度：

平均AUC值：

选取公开数据库DAMI(https://www.dbs.ifi.lmu.de/research/outlier-evaluation/DAMI/)中的三个数据集：

1)声音波形数据集(Waveform)：3343条记录，包含100个异常值，数据维度为21。

2)页面模块分类数据集(Pagblock)：5474条记录，包含540个异常值，数据维度10。

3)垃圾邮件数据集(Spambase)，2845条记录，包含56个异常值，数据维度为57。

利用上述5个性能指标(准确度p@n、调整准确度Adj-p@n、平均准确度AP、调整的平均准确度Adj-AP以及平均AUC值ROC-AUC)，将本发明提出的方法与7种传统的异常检测方法进行效果对比，对比结果如表1、表2、表3所示(其中“新方法”为本发明提出的方法)。

表1 Waveform数据集对比结果

表2 Pagblock数据集对比结果

表3 SpamBase数据集对比结果

上述结果表明，在三个公开数据集上，与7种传统方法相比，本发明的5个检测性能指标值几乎总是处于最高水平，说明本发明的方法具有明显的优势。

具体表现为：第一，本发明在平均准确度(AP)、调整的平均准确度(Adj-AP)两个性能指标上有非常显著的提升；与7种传统方法中的最优结果相比，本发明的AP与Adj-AP在三个数据集上分别提升了250％-317％以上(Waveform数据集)、约130％以上(Pagblock数据集)、约150％以上(SpamBase数据集)。第二，本发明在准确度(p@n)及调整的准确度(Adj-p@n)两个指标上的提升也很明显；与7种传统方法中的最好结果相比，本发明的p@n与Adj-p@n在三个数据集上分别增加了45％(Waveform数据集)、约5％(Pagblock数据集)、约1％(SpamBase数据集)。第三，本发明的ROC-AUC指标，在三个数据集上也比7种传统方法的结果略有提升。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于自动编码的第二近邻异常检测方法，其特征在于，

首先进行如下步骤：

step1，数据模块获取数据集后，基于自动编码提出数据关键信息；

step2，计算数据的第二 K 近邻距离，即D^2k={d_ij},i=n,j=K ,其中 i 为样本点，j 为每个样本点的 K个距离；

step3，用孤立森林对数据点的第二 K 近邻距离信息进行异常检测；

其中，数据模块获取的数据包括：

data k={4,5,6,7,8}, par={0.04,0.06,0.08,0.10,0.12}；

其次，将不同的 K 和 par 值组合执行 step3 得到y_i ^K，下标 i 代表 par，K 为每个点的第二近邻点数量；

利用加权 Kendall-Tau 相似度测量对异常值得分排名建立y_i ^K之间的相似度矩阵，进一步筛选最为相似评价结果子集y_i ^m，然后进行集成投票；

第二K近邻距离信息为：对于一个样本点 x_ij , i = 1, 2,…, n, j =1, 2,…, m；其中 n为样本点的数量，m为数据特征的数量，此样本点与其他样本点的欧氏距离排序的集合为：

D = {D₁,…, D_K, D_K+1 ,…, D_2K ,D_{2K +1} ,…,D_n-1}；

取D_K到D_2K之间的距离的集合D^2K为此样本点的第二局部信息，即第二 K近邻距离信息；

最后，利用相似度矩阵筛选基检测器，得到异常结果。

2.根据权利要求1所述的基于自动编码的第二近邻异常检测方法，其特征在于，基检测器利用相似度矩阵进行筛选，得到的异常结果包括：根据样本点异常检测得分的排名结果建立相似度矩阵；基检测器筛选，选取相似度矩阵中一致性高的基检测器，进行异常集成投票，获取样本点异常情况。

3.根据权利要求 1 所述的基于自动编码的第二近邻异常检测方法，其特征在于，集成规则为：对于一个数据，如果 60% 的基检测器判断的结果为异常值，则此数据的值就为-1即异常值，否则相反。

4.根据权利要求 2 所述的基于自动编码的第二近邻异常检测方法，其特征在于，基检测器筛选包括：

步骤一：K 值的筛选：假设相似度矩阵为

L= {L_ij}，i,j=1,2,…, n ，

其中 n = p ×q ，p 为第二近邻参数 k 的个数，q 为异常值比例参数β的个数；

根据 L 的最小值量级设定阈值α，当L 的最小值为0.7，则α的值为在最小值基础上加一个量级 0.1；然后，将 L 中小于 α 的值设定为 0，统计每个参数 k下出现 0 的个数，将出现 0 最多的 k 值去掉得到新的相似度矩阵L^new；

步骤二：异常值比例参数 β的确定：将 L^new 按照行求和，挑选每个参数 k 下最大值对应的异常值比例参数β。

5.根据权利要求 1 所述的基于自动编码的第二近邻异常检测方法，其特征在于，将样本点异常情况进行输出。

6.根据权利要求1 所述的基于自动编码的第二近邻异常检测方法，其特征在于，对y_i ^m进行异常集成投票作为最终结果 y。