CN104462184A

CN104462184A - 一种基于双向抽样组合的大规模数据异常识别方法

Info

Publication number: CN104462184A
Application number: CN201410535911.4A
Authority: CN
Inventors: 张玉超; 邓波; 彭甫阳; 李海龙
Original assignee: Beijing System Engineering Research Institute
Current assignee: Beijing System Engineering Research Institute
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-03-25
Anticipated expiration: 2034-10-13
Also published as: CN104462184B

Abstract

本发明提供一种基于双向抽样组合的大规模数据异常识别方法，包括以下步骤：对样本数据集进行横向抽样，得到子样本数据集；对子样本数据集进行属性抽样，得到条带数据集；对条带数据集进行异常程度打分；重复执行上述步骤；组合异常程度分数，并计算异常程度分数的期望值。本发明通过双向抽样方法，既解决了样本量大时间复杂度高，又解决了维灾难的问题；利用抽样方法将数据集进行切分，提高了本发明方法的扩展性。

Description

一种基于双向抽样组合的大规模数据异常识别方法

技术领域

本发明涉及一种异常识别方法，具体涉及一种基于双向抽样组合的大规模数据异常识别方法。

背景技术

异常识别(Outlier Detection)，是一种针对数据集中离群样本点的检测方法。异常的内涵丰富，可能是噪音、误差、或是稀有值。在数据挖掘领域，其普遍认可的定义是，一种由其它机制产生，且与大多数观测值(Observation)相偏离的点。在本文中，与“异常点(Outlier)”相对的点称为“正常点(Inlier)”。

异常识别作为一种重要的研究方向，已经广泛在信用卡欺诈识别、疾病诊断和预防、网络入侵检测、测量误差检验、稀有价值识别等现实应用中。

(1)基于统计的异常识别方法

从20世纪80年代起，异常识别问题就在统计学领域里得到广泛研究，通常用户用某个统计分布对数据点进行建模，再以假定的模型，根据点的分布来确定是否异常。许许多多针对不同分布的异常测试(Discordancy Test)方法发展起来，它们分别适用于不同的情形：①数据分布状况；②数据分布参数是否已知；③异常数据数量；④异常数据类型(高于或低于一般抽样值)。这方面比较有代表性的有1967年Mikey，Dunn&Clark提出的基于“均数漂移”模型的单点诊断量，1970年Gentleman&Wilk提出的群组诊断量，1972年Tietjen&Moore提出的单样本k个离群点的统计量E_k，1985年Marasinghe提出的改进的E_k统计量F_k，1989年Rosner提出的单样本多个离群检测方法ESD(Generalized Extreme Studentized Deviate)方法，1991年Paul&Fung改进了ESD方法参数k选择的主观性，提出了回归分析的GESR(Generalized Extreme Studentized DeviateResi2dual)方法。近年来，多样本的离群检测方法也得到了一定的发展，总的思路是先尽量得到一个不含离群点的“干净集”，然后在此基础上对剩余的其他数据点进行逐步离群检测。

目前利用统计学研究异常点数据有了一些新的方法，如通过分析统计数据的散度情况，即数据变异指标，来对数据的总体特征有更进一步的了解，对数据的分布情况有所了解，进而通过数据变异指标来发现数据中的异常点数据。常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等，变异指标的值大表示变异大、散布广；值小表示离差小，较密集。

基于统计的方法识别出来的离群点很可能被不同的分布模型检测出来，可以说产生这些离群点的机制可能不唯一，解释离群点的意义时经常发生多义性，这是基于统计方法的一个缺陷。其次，基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型，模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义，而确定这些参数通常都比较困难。为克服这一问题，一些人提出对数据集进行分布拟合，但分布拟合存在两个问题：①给出的分布可能不适合任一标准分布。②即使存在一个标准分布，分布拟合的过程耗时太长。此外，基于统计的离群识别方法大多只适合于挖掘单变量的数值型数据，目前几乎没有多元的不一致检验，对于大多数的应用来说，例如图像和地理数据，数据集的维数却可能是高维的。实际生活中，以上缺陷都大大限制了基于统计的方法的应用，使得它主要局限于科研计算，方法的可移植性较差。

(2)基于距离的异常识别方法

用什么标准判定一个数据对象是孤立点呢？即便是对给定的距离量度函数，对孤立点也有不同的定义，以下是使用较多的几个：

1)基于距离的离群点最早是由Knorr和Ng提出的，他们把记录看作高维空间中的点，离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点，通常被描述为DB(pct，d_min)，数据集T中一个记录O称为离群点，当且仅当数据集T中至少有pct部分的数据与O的距离大于d_min。换一种角度考虑，记M＝N×(l-pct)，离群检测即判断与点O距离小于d_min的点是否多于M。若是，则O不是离群点，否则O是离群点。

2)孤立点是数据集中到第k个最近邻居的距离最大的n个对象；

3)孤立点是数据集中与其k个最近邻居的平均距离最大的n个对象。

基于距离的离群点定义包含并拓展了基于统计的思想，即使数据集不满足任何特定分布模型，它仍能有效地发现离群点，特别是当空间维数比较离时，方法的效率比基于密度的方法要高得多。方法具体实现时，首先给出记录间距离的度量，常用的是绝对距离(曼哈顿距离)、欧氏距离和马氏距离。在给出了距离的度量并对数据进行一定的预处理以后，任意给定参数pct和d_min就可以根据离群的定义来识别离群点。Rastogi和Ramaswamy在上面基于距离的离群点定义的基础上，提出改进的基于距离的k最近邻(k-NN)离群检测方法。

基于距离的离群检测方法中，方法需要事先确定参数pct和d_min，对于不同的数据集这往往是一件比较困难的事情，特别是d_min，不同聚类密度的数据集d_min会有很大的差异，而这一般没有规律可循，因此，对于给定的不同d_min，异常识别结果通常具有很大的不稳定性。另一方面，基于距离的方法理论上能处理任意维任意类型的数据，当属性数据为区间标度等非数值属性时，记录之间的距离不能直接确定，通常需要把属性转换为数值型，再按定义计算记录之间的距离。当空间的维数大于三维时，由于空间的稀疏性，距离不再具有常规意义，因此很难为异常给出合理的解释。针对这个问题，一些人通过将高维空间映射转换到子空间的办法来解决数据稀疏的问题，此方法在聚类方法中用得比较多，Agarwal R等人曾试着用这种投影变换的方法来挖掘离群。总的来说，基于距离的离群检测方法具有比较直观的意义，方法比较容易理解，因此在实际中应用得比较多。

目前比较成熟的基于距离的异常识别的方法有：

1).基于索引的方法(Index-based)：给定一个数据集合，基于索引的方法采用多维索引结构R-树，k-d树等，来查找每个对象在半径d范围内的邻居。假设M为异常点数据的d领域内的最大对象数目。如果对象O的M+1个邻居被发现，则对象O就不是异常点。这个方法在最坏情况下的复杂度为O(k*n²)，k为维数，n为数据集合中对象的数目。当k增加时，基于索引的方法具有良好的扩展性。

2).嵌套循环方法(Nested-loop)：嵌套一循环方法和基于索引的方法有相同的计算复杂度，但是它避免了索引结构的构建，试图最小化I/O的次数。它把内存的缓冲空间分为两半，把数据集合分为若干个逻辑块。通过精心选择逻辑块装入每个缓冲区域的顺序，I/O效率能够改善。

3).基于单元的方法(cell-based)：在该方法中，数据空间被划为边长等于d/(2*k^1/2)的单元。每个单元有两个层围绕着它。第一层的厚度是一个单元，而第二层的厚度是[2*k^1/2-1]。该方法逐个单元地对异常点计数，而不是逐个对象地进行计数。对于一个给定的单元，它累计三个计数：单元中对象的数目(cell_count)、单元和第一层中对象的数目(cell_+_1_layer_count)单元和两个层次中的对象的数目(cell_+_2_layers_count)。该方法将对数据集的每一个元素进行异常点数据的检测改为对每一个单元进行异常点数据的检测，它提高了方法的效率。它的方法复杂度是O(c^k+n)，这里的c是依赖于单元数目的常数，k是维数。它是这样进行异常检识别的：

若cell_+_1_layer_count＞M，单元中的所有对象都不是异常；若cell_+_2_layers_count＜＝M，单元中的所有对象都是异常；否则，单元中的某一些数据可能是异常。为了识别这些异常点，需要逐个对象加入处理。基于距离的异常识别方法要求用户设置参数P和d，而寻找这些参数的合活设置可能涉及多次试探和错误。

基于距离的方法与基于统计的方法相比，不需要用户拥有任何领域知识，与序列异常相比，在概念上更加直观。更重要的是，距离异常接近Hawkins的异常本质定义。然而，三种类型的基于距离的离群检测方法中，基于索引的方法和循环——嵌套方法需要O(k*n²)的时间开销，因此在大数据集中还有待于改进；而基于单元的方法，虽然与n具有线性的时间关系，但是它与k成指数关系，这限制了它在高维空间中的应用，此外，基于单元的方法还需要事先确定参数pct，d_min以及单元的大小，这使得方法的可行性比较差；高维空间中，基于索引的方法由于需要事先建立数据集的索引，建立与维护索引也要花大量的时间。因此三种方法对于高维空间中的大数据集，方法的效率都不高。

(3)基于密度的异常识别方法

基于密度的离群检测方法一般都建立在距离的基础上，某种意义上可以说基于密度的方法是基于距离的方法中的一种，但基于密度的异常观点比基于距离的异常观点更贴近Hawkins的异常定义，因此能够检测出基于距离的异常方法所不能识别的一类异常数据——局部异常。基于密度的方法主要思想是将记录之间的距离和某一给定范围内记录数这两个参数结合起来，从而得到“密度”的概念，然后根据密度判定记录是否为离群点。

Breunig等人提出的基于局部离群因子的异常识别方法LOF是基于密度方法的一个典型例子。它首先产生所有点的MinPts邻域及MinPts距离，并计算到其中每个点的距离；对低维数据，利用网格进行k-NN查询，计算时间为O(n)；对中维或中高维数据，采用如X2树等索引结构，使得进行k2NN查询的时间为O(logn)，整个计算时间为O(nlogn)；对特高维数据，索引结构不再有效，时间复杂度提高到O(n²)。然后计算每个点的局部异常因子，最后根据局部异常因子来挖掘离群。LOF方法中，离群点被定义为相对于全局的局部离群点，这与传统离群的定义不同，离群不再是一个二值属性(要么是离群点，要么是正常点)，它摈弃了以前所有的异常定义中非此即彼的绝对异常观念，更加符合现实生活中的应用。LOF方法中充分体现了“局部”的概念，每个点都给出了一个离群程度，离群程度最强的那几个点被标记为离群点。此外，Aggarwal也提出了一个结合子空间投影变换的基于密度的高维离群检测方法。

然而，随着大数据时代的到来，数据样本量呈现爆炸式增长，数据的维度也不断增大，诸如，银行每天产生的信用记录数量积在TB规模，且与信用卡记录相关联的属性就超过100个。有些视频、文本数据的维度更高，可以达到十万以上。因此，在如此大规模的数据中进行异常识别，往往面临巨大的挑战。

首先，样本量的增大增加了计算的时间开销。传统的异常识别方法针对小样本数据集，时间复杂度多在O(n²)或O(n³)。而大规模数据下，这种时间开销可能难以接受；其次，维度的增大也带来了“维灾难”(Curse of Dimension)问题，即数据在其所占据的空间中越来越稀疏，样本点之间的距离几乎相等，导致很多基于距离和基于密度的计算指标失去了意义；第三，大规模数据产生的速度往往比较快，在数据的采集过程中存在“缺失数据”，有些正常点可能因此被误判为异常点。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于双向抽样组合的大规模数据异常识别方法，通过双向抽样方法，既解决了样本量大时间复杂度高，又解决了维灾难的问题；利用抽样方法将数据集进行切分，提高了方法的扩展性。

为了实现上述发明目的，本发明采取如下技术方案：

本发明提供一种基于双向抽样组合的大规模数据异常识别方法，设样本数据集D中样本点数量为n，属性个数为m，所述方法包括以下步骤：

步骤1：对样本数据集D进行横向抽样，得到子样本数据集D_r；

步骤2：对子样本数据集D_r进行纵向抽样，得到条带数据集D_rc；

步骤3：对条带数据集D_rc进行异常程度打分；

步骤4：重复执行上述步骤1-3；

步骤5：组合异常程度分数值，并计算异常程度分数的平均值。

所述步骤1中，从样本数据集D的n个样本点中，以横向抽样率λ，按照随机方式抽取nλ个样本点，得到子样本数据集D_r，即可完成对样本数据集D的横向抽样。

对样本数据集D进行横向抽样时，横向抽样率λ取0.1。

所述步骤2中，从子样本数据集D_r的m个属性中，以纵向抽样率，按照随机方式抽取个属性，得到条带数据集D_rc，即可完成对子样本数据集D_r的纵向抽样。

对子样本数据集D_r进行纵向抽样时，纵向抽样率取0.1。

所述步骤2中，经过纵向抽样所得到的条带数据集D_rc的样本点数量为nλ，即0.1n，属性个数为，即0.1m。

所述步骤3中，利用基于密度的异常识别方法对条带数据集D_rc进行异常程度打分，打分得到的异常程度分数值按照异常程度降低而递减。

基于密度的异常识别方法为基于密度的LOF方法。

所述步骤4中，重复执行上述步骤1-3共t次，满足，即t≥100，保证覆盖完整的样本数据集D。

所述步骤5中，针对每个样本点，取t次的异常程度分数值，计算其平均值作为该样本点最终的异常程度得分值。

与现有技术相比，本发明的有益效果在于：

1.本发明先通过双向抽样策略生成不同的基础识别结果，后再经过组合方法加以融合；

2.在面向大规模数据的异常识别问题时，可以利用基于密度方法的优势，通过抽样组合来提高数据处理的效率和准确性；

3.通过抽样的方法不仅可以减小数据的规模，加速并行计算的时间，还能降低数据的维度，克服维灾难问题；

4.组合方法能够增加识别结果的多样性，降低噪音的影响，提高异常识别的效果；

5.利用抽样方法将数据集进行切分，提高了本发明方法的扩展性。

附图说明

图1是基于双向抽样组合的大规模数据异常识别方法示意图；

图2是本发明实施例中样本数据集中样本点数量n＝1000时AUC与属性个数关系示意图；

图3是本发明实施例中样本数据集中样本点数量n＝10000时AUC与属性个数关系示意图；

图4是本发明实施例中样本数据集中样本点数量n＝50000时AUC与属性个数关系示意图；

图5是本发明实施例中属性个数m＝20时AUC与样本点个数关系示意图；

图6是本发明实施例中属性个数m＝200时AUC与样本点个数关系示意图；

图7是本发明实施例中属性个数m＝2000时AUC与样本点个数关系示意图；

图8是本发明实施例中真实数据集AUC变化情况示意图；

图9是本发明实施例中covertype数据集稳定性分析示意图；

图10是本发明实施例中susy数据集稳定性分析示意图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

异常识别具有重要的研究价值，并广泛应用在诸多领域。随着大数据时代的到来，数据样本量和维度呈现爆炸式增长趋势，传统的异常识别方法已不足以应对如此大规模数据的异常识别问题。本文以基于密度的异常识别方法为基础，利用无监督式的双向抽样组合策略，将大规模数据集异常识别问题转化为任务独立的若干小数据集的异常识别问题，本发明提出的基于双向抽样组合的大规模数据异常识别方法能解决大规模数据样本量大和维度高的问题，不仅扩展性强，还具有重要的理论依据。通过与其他异常识别方法，分别在仿真数据集和真实数据集上进行对比，验证了双向抽样组合方法高效性和准确性。

步骤3：对条带数据集D_rc进行异常程度打分；

步骤4：重复执行上述步骤1-3；

对样本数据集D进行横向抽样时，横向抽样率λ取0.1。

对子样本数据集D_r进行纵向抽样时，纵向抽样率取0.1。

基于密度的异常识别方法为基于密度的LOF方法(local outlier factor，LOF，记载于M.M.Breunig，H.-P.Kriegel，R.Ng，and J.Sander.LOF：Identifying density-based local outliers//In Proc.ofthe SIGMOD，2000：93-104.)。

所述步骤4中，重复执行上述步骤1-3共t次，满足即t≥100，保证覆盖完整的样本数据集D。

实施例1

下面以由多元高斯分布模拟生成的仿真数据集为例，说明本发明方法的效果：

首先通过多元高斯分布模拟生成仿真数据集，每个样本数据集的样本点数量n分别为1000，2000，5000，10000，50000，100000，样本的维度m分别为20，100，200，500，1000，2000，共计42个仿真数据集。每个样本数据集D由c个聚类组成，聚类的个数c取值范围为5到10之间。假设在仿真数据集中，每个聚类的样本点D_c均服从m-元的高斯分布，即

D_{c} : N ({\overset{r}{μ}}_{c}, Σ_{c}), {\overset{r}{μ}}_{c} = (μ_{c}^{1}, μ_{c}^{2}, . . ., μ_{c}^{m}), Σ_{c} = {(σ_{c}^{ij})}^{m \times m}

且高斯分布中的参数是由均匀分布随机生成，即那么，每个样本点D_c到其聚类中心点的马氏距离同时也服从自由度为m的卡方分布，即χ²(m)。因此，标记每个聚类中马氏距离在0.975分位点之后的样本为异常点。

在该实施例中，参数设定为抽样率λ＝0.1，，t＝100。为了与其它方法进行性能对比分析，这里将本发明方法简记为“BI-LOF”。特别地，当样本抽样率λ＝1，时，相当于只对属性进行抽样，该方法可记为“FB-LOF”；同理，当属性抽样率λ＝0.1，时，相对对于只对样本进行抽样，该方法可记为“SUB-LOF”；当双向抽样率λ＝1且时，相当于没有进行抽样，该方法等同于“LOF”。

该实施例利用ROC曲线下方的面积(AUC)来评价不同本发明方法的效果。

图2-图4描述了在样本点数量不变的条件下，仿真数据集的AUC随属性数量的变化情况。当样本点数量n固定时，随着属性个数m的增加，FB-LOF方法性能逐渐增加，其它方法则相对稳定，这是由属性抽样的性质所决定的。当属性个数达到最大值2000时，四种方法的AUC均略有下降，若属性个数再有增加，将出现维灾难现象。图5-图7描述了在属性数量不变的条件性，仿真数据集的AUC随样本点数量的变化情况。当属性数量n固定时，四种方法几乎不受样本点数量变化的影响，相对较为稳定。

综合图2-图7可以得出，在仿真数据集上，双向抽样方法BI-LOF和样本抽样方法SUB-LOF效果最优，LOF次之，属性抽样方法FB-LOF效果最差。但由于本发明方法BI-LOF可以进一步通过属性抽样降低数据集的计算开销，因此，更适合于大规模数据的异常识别。

实施例2

下面以真实数据集为例，说明本发明方法的效果：

真实数据集全部选自UCI数据库，表1给出了关于实验中所涉及全部数据集的特征描述。为了模拟数据集中的异常情况，文中随机从每个数据集的最小类中选取s∈[10，100]个点标记为该数据集的异常点，其余点则标记为正常点。由于本发明方法不适用于离散属性的分析，因此需剔除部分真实数据集中的离散属性。与实施例1相同，该实施例利用ROC曲线下方的面积(AUC)来评价不同本发明方法的效果。

表1

数据集名称	样本点数	属性数	类数	最小类	最大类
						iris	150	4	3	50	50
harber	306	3	2	81	225
						bupa	345	6	2	145	200
diabetes	768	20	8	50	120
						pima	768	8	2	268	500
cmc	1473	9	3	333	629
						yeast	1484	8	10	5	463
satimage	4436	36	6	415	1072
						pageblock	5445	10	5	28	4913
pendigit	10992	16	10	1055	1144
						letter	20000	16	26	734	813
covertype	581012	54	6	10000	250000
						susy	200000	18	2	20000	180000

图8给出了实施例1中所述四种方法在不同规模的真实数据集下，AUC的变化情况。从图中可以看出，四种方法在不同的数据集上表现的趋势大致相同，且BI-LOF和SUB-LOF对于原始的LOF方法具有显著的提升作用。

为了探究本发明所述方法的稳定性，分别从covertype和susy真实数据集中，抽取一定量的样本点生成新的数据集，抽取量分别为0.1，0.2，0.3，...，1，样本规模从十万级到百万级不等。图9和10给出了不同样本量情况下，ROC曲线下方的面积AUC(area under the curve)的变化情况。从图中可以看出，在上述两个大规模数据集中，随着样本点数量的增加，方法性能相对稳定，并没有出现较大波动，能够较好地处理大规模数据的异常识别问题。

本发明所述的双向抽样组合方法不仅能解决大规模数据样本量大、维度高等问题，而且对于异常识别具有显著的提升效果、扩展性强。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于双向抽样组合的大规模数据异常识别方法，其特征在于：设样本数据集D中样本点数量为n，属性个数为m，所述方法包括以下步骤：

步骤3：对条带数据集D_rc进行异常程度打分；

步骤4：重复执行上述步骤1-3；

2.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤1中，从样本数据集D的n个样本点中，以横向抽样率λ，按照随机方式抽取nλ个样本点，得到子样本数据集D_r，即可完成对样本数据集D的横向抽样。

3.根据权利要求1或2所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：对样本数据集D进行横向抽样时，横向抽样率λ取0.1。

4.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤2中，从子样本数据集D_r的m个属性中，以纵向抽样率，按照随机方式抽取个属性，得到条带数据集D_rc，即可完成对子样本数据集D_r，的纵向抽样。

5.根据权利要求1或4所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：对子样本数据集D_r进行纵向抽样时，纵向抽样率取0.1。

6.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤2中，经过纵向抽样所得到的条带数据集D_rc的样本点数量为nλ，即0.1n，属性个数为，即0.1m。

7.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤3中，利用基于密度的异常识别方法对条带数据集D_rc进行异常程度打分，打分得到的异常程度分数值按照异常程度降低而递减。

8.根据权利要求7所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：基于密度的异常识别方法为基于密度的LOF方法。

9.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤4中，重复执行上述步骤1-3共t次，满足即t≥100，保证覆盖完整的样本数据集D。

10.根据权利要求1所述的基于双向抽样组合的大规模数据异常识别方法，其特征在于：所述步骤5中，针对每个样本点，取t次的异常程度分数值，计算其平均值作为该样本点最终的异常程度得分值。