CN107292350A

CN107292350A - 大规模数据的异常检测方法

Info

Publication number: CN107292350A
Application number: CN201710660033.2A
Authority: CN
Inventors: 罗光春; 殷光强; 田玲; 闫科
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2017-10-24

Abstract

本发明涉及大规模数据的异常检测方法，包括：A.数据预处理和特征提取；B.基于孪生支持向量机的超平面计算，构造出划分数据空间的超平面标准函数；C.形成隔离树：通过孪生支持向量机的超平面的划分标准，建立一棵隔离树；D.形成隔离森林：重复步骤C，构建多个隔离树形成隔离森林；E.遍历隔离森林计算异常得分：通过待异常检测的数据对隔离森林的遍历，计算出异常得分作为评判异常程度的标准，并根据所述标准判断原始数据中是否存在异常数据。本发明能够有效减少检测的数据量，降低了其计算的工作量，并且在提高异常检测准确率的同时没有显著增加时间消耗，大幅度提高了对高维数据时候的异常检测性能。

Description

大规模数据的异常检测方法

技术领域

本发明涉及数据挖掘的方法，具体的讲是大规模数据的异常检测方法。

背景技术

异常检测指的是通过相应的技术手段发现与寻找那些明显有别于其他大多数数据的数据对象。通常而言，这些数据相比于正常数据都非常少。异常检测的对象被称为异常点，或者孤立点、离群点。虽然这些数据往往藏匿于正常数据之间，不能直接发现，但是这些数据背后可能隐藏着很重要的信息，有着很大的研究价值。1980年Hawkins首次将异常点定义成一种明显异于其他值而使人质疑它是否因不同的、未知的机制而产生。从此异常点不再是数据挖掘领域的噪声，不再是预处理阶段需要抛弃的数据。随着近三十年的发展，异常检测领域涌现出了各种不同的、基于不同机制的检测算法。

根据数据输入的类型可以分为点数据检测，时空数据检测；根据监督性可以分为有监督、无监督和半监督算法；根据异常点类型可以分为点异常、簇异常、上下文异常检测算法；根据异常得分输出类型可以分为数值型和标签型。根据算法不同，现有的最常用的异常检测算法主要分为四大类，分别是基于统计的、基于聚类的、基于距离和基于密度的异常检测算法。

近几年有学者提出了基于隔离的异常检测算法IFOREST，这种算法基于重心估计理论，主要思想是通过随机选择特征来划分数据空间，最终训练出一棵二叉树作为基分类器，之后引入了集成学习的方法将弱分类器升级为强分类器。在异常检测的过程中，测试数据遍历基分类器将数据落点离根节点的距离作为路径长度，通常来说路径长度越短数据越异常。之后又有学者提出了基于IFOREST算法的异常检测算法SCIFOREST，这种算法提出了一种划分数据的随机超平面函数作为数据空间划分标准。但是由于SCIFOREST算法仅仅考虑和测试了实验数据，在实际工作当中，在面对不平衡、混合、高维的大规模数据环境下算法检测性能不佳，容易受到复杂数据的影响。

发明内容

本发明提供了一种大规模数据的异常检测方法，以提高异常检测的准确率，以及提高在对高维数据时候的异常检测性能。

本发明的大规模数据的异常检测方法，包括：

A.数据预处理和特征提取：对原始数据进行必要的数据预处理，得到预处理后的数据集和样本子集，对预处理过后的数据进行特征提取；

B.基于孪生支持向量机(TWSVM)的超平面计算，构造出划分数据空间的超平面标准函数，根据所述的超平面标准函数进行超平面选择；

C.形成隔离树：通过孪生支持向量机的超平面的划分标准，建立一棵隔离树；

D.形成隔离森林：重复执行步骤C，构建多个隔离树形成隔离森林；

E.遍历隔离森林计算异常得分：通过待异常检测的数据对隔离森林的遍历，计算出异常得分作为评判异常程度的标准，并根据所述标准判断原始数据中是否存在异常数据。

具体的，步骤A中所述的数据预处理包括数据集成，数据归约和数据清洗，所述的特征提取包括：

A1.数据重采样：通过预先设定的正负类比例将预处理后的数据的样本平衡化，降低负类样本对特征提取的影响；

A2.信息增益率的计算：通过多个样本子集的数据计算特征的信息增益率，将计算结果排序形成多个特征集合；

A3.特征子空间选择：通过将上述多个特征集合进行汇总形成特征总集，并根据预设的特征数量选择出信息增益率最大的特征。

具体的步骤B包括：

B1.随机无放回采样：根据预设的特征数量和预处理后的数据的样本子集的大小，对预处理后的数据和特征进行随机无放回采样形成多个不同特征子空间下的样本子集；

B2.数据归一化：通过Z-score(Z分数)表转化方法，利用原始数据的均值和标准差进行数据归一化，使处理后的数据属于标准正态分布；

B3.孪生支持向量机的参数优化：采用遗传算法对孪生支持向量机算法进行参数优化；

B4.计算孪生超平面：基于孪生支持向量机，计算出两个非平行的超平面函数；

B5.选择超平面：在孪生非平行超平面函数中选择角平分面作为新的超平面。

在此基础上，步骤B3中所述的对孪生支持向量机算法进行参数优化包括：种群初始化、设置适应度函数和设置算法终止条件。

具体的，步骤C包括：

C1.随机无放回采样：通过对步骤A中经过数据预处理但是未经过特征提取的待测试数据进行无放回采样，形成多个样本子集；

C2.初始化隔离树；

C3.随机选择特征：根据预设的数量值随机选择特征，并在这些特征子空间下根据步骤B计算出基于孪生支持向量机的超平面作为划分数据空间的超平面标准函数；

C4.划分数据空间：将步骤C1得到的样本子集分别代入所述的超平面函数中，根据计算结果分别判断各数据点属于左子树或右子树；

C5.返回节点信息：循环步骤C3和C4，直到数据划分结束，使所有的训练数据都分布在隔离树中，完成隔离树的构建。

具体的，步骤D包括：

D1.随机无放回采样：根据预设的森林规模和步骤A得到的样本子集的规模，对数据集进行随机无放回采样；

D2.构建隔离森林：通过对不同样本集采用相同的隔离树构建方法，形成具有多样性的隔离森林。

具体的，步骤E包括：

E1.遍历隔离树：通过待异常检测的数据对所有隔离树进行遍历，得到各测试数据在隔离树中的位置，计算出测试数据的路径长度；

E2.路径长度归一化：通过归一化公式将计算出的路径长度归一化；

E3.判断异常数据：将测试数据遍历整个森林后得到的所有异常得分做均值，通过直接投票模型计算出所述均值的异常得分，根据异常得分判断出原始数据中是否有异常点。

本发明的大规模数据的异常检测方法，有效减少了检测的数据量，降低了其计算的工作量，并且在提高异常检测准确率的同时没有显著增加时间消耗，大幅度提高了对高维数据时候的异常检测性能。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明大规模数据的异常检测方法的流程图。

具体实施方式

如图1所示本发明大规模数据的异常检测方法，包括：

A.数据预处理和特征提取：对原始数据进行必要的数据预处理，包括数据集成，数据归约和数据清洗，进而得到预处理后的数据集和样本子集。然后对预处理过后的数据进行特征提取，包括：

A2.信息增益率的计算：通过多个样本子集的数据计算特征的信息增益率，将计算结果排序形成多个特征集合；其中计算特征的信息增益率的方法为：

假设数据集为D，特征为A_i(i＝1,...,k)，首先计算计算D的墒H(D)，其计算公式为：其中训练数据集总个数是|D|，某个特征分类的个数为|C_k|，则某个分类的概率为|C_k|/|D|，特征为A_i(i＝1,...,k)，K表示了不同的特征，K的取值范围为1到k。然后根据古典概率算法计算选定的特征A_i的条件墒表示选定的特征A_i的条件墒H(D|A_i)，其中根据特征A_i将D划分为n个子集D₁,D₂...D_n。记D_i中属于C_k的样本集合为D_ik，即交集。n的大小取决于数据集，对于连续数据，n的大小为样本总数N-1，对于分类数据，n的大小为样本的类别多少。最后计算特征的信息增益率：其中分母表示分裂信息度量，计算公式为：公式表示分裂信息度量，其中|S|表示数据样本总数，|S_i|表示了特征A的第i个分类下的样本数量，c表示了特征A的不同取值(对于连续数据)或不同分类(对于分类数据)，c的大小范围为特征A下的分类数量。重复计算得到所有特征的信息增益率。

B.基于孪生支持向量机(TWSVM)的超平面计算，构造出划分数据空间的超平面标准函数，根据所述的超平面标准函数进行超平面选择。孪生支持向量机(TWSVM)的核心思想是通过构造两个超平面来进行分类，两个超平面分别代表两类样本，一类极大限度地远离另一类样本。由于它将传统的一个大规模二次规划问题转化为两个小规模的二次规划问题，因此在训练速度方面比传统支持向量机有了很大改善。而两个不平行的超平面的这种设计极有利于算法对异或问题进行处理，使其在识别率上比之前的传统支持向量机更具优势。同时孪生支持向量机拥有更快的处理时间，具有较强的鲁棒性和容错性，并且具有自学习、自适应性以及自组织性的特性。但是在面对高维数据下，其处理速度和准确率仍受较大影响。因此本发明采用了基于重采样的方式来计算特征子空间下的孪生支持向量机。

具体步骤包括：

B2.数据归一化：通过Z-score(Z分数)表转化方法，利用原始数据的均值和标准差进行数据归一化，使处理后的数据属于标准正态分布。

具体的归一化公式函数为x^*＝(x-μ)/σ，其中μ为未归一化数据的均值，σ为未归一化数据的标准差，x表示了一个待归一化的数据。

B3.孪生支持向量机的参数优化：采用遗传算法对孪生支持向量机算法进行参数优化，包括种群初始化、设置适应度函数和设置算法终止条件。具体的参数优化过程为：

B31.种群初始化：将遗传算法中的最大迭代次数设置为50，种群的数量设置为10，将选择概率和编译概率分别设置为0.8和0.7，将TWSVM的参数c的检索空间设置为[0,500]，将高斯核函数的搜索空间设置为[0,200]。

B32.设置适应度函数：设置交叉验证分类准确率作为遗传算法的适应度函数，交叉验证折数设置为5。

B33.设置算法终止条件：本实施例中只用两种终止条件，第一种是适应度函数的值达到95％的预定值；第二种是迭代次数达到最大的50次。

B4.计算孪生超平面：基于孪生支持向量机，计算出两个非平行的超平面函数。由于异常检测是一个二分类问题，假设在Rⁿ这样的空间中有l₊个训练数据集的样本属于正类，用矩阵来表示，而有l_-个训练数据集的样本属于负类，用矩阵来表示，孪生支持向量机在这两类样本上寻找两个不平行的孪生超平面f₊(x)＝k(x,X)w₊+b₊＝0和f-(x)＝k(x,X)w_-+b_-＝0。其中+和-分别表示了正类超平面和负类超平面。本实施例中，负类指的是异常数据。公式中，w表示超平面的法向量，x表示空间的任意向量，b表示实数。每个超平面需要本类的样本距离本类的超平面极大可能的近，而极大可能地远离它类的样本点。判断一个新的输入x∈Rⁿ的类别需要根据这个输入与两个超平面距离的远近来断定。为了获得这两个不平行的分类超平面，通过TWSVM建立了以下最优化问题原始优化模型：

s.t-(k(X_-,X)w₊+e_-b₊)+ξ_-≥e_-,

ξ_-≥0

和

s.t(k(X₊,X)w_-+e₊b_-)+ξ₊≥e₊,

ξ₊≥0

其中c₁,c₂＞0是惩罚参数，ξ₊，ξ_-是松弛变量，e₊，e_-是分别为l₊，l_-维数的单位的列向量。X₊表示正类数据在空间上任意向量，X_-表示负类数据在空间上任意向量，X是数据在空间上任意向量。引入拉格朗日乘子向量可以获得TWSVM原始优化的对偶表达式：

s.t 0≤α≤c₁e_-

和

s.t 0≤β≤c₂e₊

其中H＝[k(X₊,X),e₊]，G＝[k(X_-,X),e_-]。为了避免矩阵H^TH、G^TG不可逆，通常人为的将λE(λ＞0)添加到TWSVM的参数中。其中E表示了单位矩阵，λ是常数。将对偶表达式中的矩阵H^TH、G^TG被替换为H^TH+λE、G^TG+λE。因此TWSVM的对偶表达式被修正为：

s.t 0≤α≤c₁e_-

和

s.t 0≤β≤c₂e₊

记由KKT条件(Karush-Kuhn-Tucker Conditions)得出u₊＝-(H^TH+λE)^-1G^Tα和u_-＝(G^TG+λE)^-1H^Tβ。KKT条件能够保证在满足不等式约束的条件下，所优化的问题能

有最优解法。

至此，得到了两个非平行超平面函数。孪生支持向量机与本发明的关系是通过孪生支持向量机计算得到的两个非平行超平面函数，随机生成一个夹在二者之间的随机超平面作为后续算法数据划分的分割标准函数。

C.形成隔离树：通过孪生支持向量机的超平面的划分标准，建立一棵隔离树，具体为：

C1.随机无放回采样：通过对步骤A中经过数据预处理但是未经过特征提取的待测试数据进行无放回采样，形成多个样本子集，本实施例中采样大小和集群大小两个参数分别定为256和150。

C2.初始化隔离树：隔离树是一棵满二叉树，其定义为假定T是隔离树的一个节点，那么T满足且仅能满足下面两个条件的一条：(1)T是一个叶子节点；(2)T是非叶子节点且有2个子节点(T_l,T_r)。

C3.随机选择特征：根据预设的数量值随机选择特征，并在这些特征子空间下根据步骤B计算出基于孪生支持向量机的超平面作为划分数据空间的超平面标准函数。

C4.划分数据空间：将步骤C1得到的样本子集分别代入所述的超平面函数中，如果超平面函数的计算结果小于0那么该数据点分为左子树，反之划分到右子树。如果数据空间可以划分，则根据数据将超平面函数的计算结果划分到不同的子节点中，若小于0，该数据划分到左子节点；反之，该数据划分到右子节点。划分完毕后再随机选择q个特征计算子节点的随机超平面，直到数据空间无法划分。

D.形成隔离森林：重复执行步骤C，构建多个隔离树形成隔离森林，具体为：

E.遍历隔离森林计算异常得分：通过测试数据对隔离森林的遍历，计算出异常得分作为评判异常程度的标准，并根据所述标准判断原始数据中是否存在异常数据。具体为：

E2.路径长度归一化：通过归一化公式将计算出的路径长度归一化。

E3.判断异常数据：将测试数据遍历整个森林后得到的所有异常得分做均值，通过直接投票模型计算出所述均值的异常得分，如果异常得分越接近于1，那么原始数据越存在异常；反之，异常得分越接近于0，那么原始数据越不异常；如果所有数据的异常得分都在0.5附近，那么整个原始数据无异常点。

Claims

1.大规模数据的异常检测方法，其特征包括：

B.基于孪生支持向量机的超平面计算，构造出划分数据空间的超平面标准函数，根据所述的超平面标准函数进行超平面选择；

2.如权利要求1所述的大规模数据的异常检测方法，其特征为：步骤A中所述的数据预处理包括数据集成，数据归约和数据清洗，所述的特征提取包括：

3.如权利要求1所述的大规模数据的异常检测方法，其特征为：步骤B包括：

B2.数据归一化：通过Z-score表转化方法，利用原始数据的均值和标准差进行数据归一化，使处理后的数据属于标准正态分布；

4.如权利要求3所述的大规模数据的异常检测方法，其特征为：步骤B3中所述的对孪生支持向量机算法进行参数优化包括：种群初始化、设置适应度函数和设置算法终止条件。

5.如权利要求1所述的大规模数据的异常检测方法，其特征为：步骤C包括：

C2.初始化隔离树；

6.如权利要求1所述的大规模数据的异常检测方法，其特征为：步骤D包括：

7.如权利要求1所述的大规模数据的异常检测方法，其特征为：步骤E包括：