CN111198979A

CN111198979A - 一种用于对输变电可靠性评估大数据进行清洗的方法及系统

Info

Publication number: CN111198979A
Application number: CN201911417323.XA
Authority: CN
Inventors: 高波; 陈颖; 张萌萌; 吴磊; 葛磊蛟; 于之虹; 吕颖; 鲁广明; 史冬宇; 侯金秀; 王兵; 张璐路; 魏亚威; 贾育培; 解梅; 戴红阳; 蔡顺友
Original assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-26

Abstract

本发明公开了一种用于对输变电可靠性评估大数据进行清洗的方法及系统，其中方法包括：通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇；基于正常样本数据的聚类簇选取边界样本数据；根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据；对识别出的异常数据在所述待测试样本数据中的位置进行标注；根据所述异常数据的标注的位置，对所述异常数据应用指数加权移动平均数法进行修正，获取所述异常数据的修正结果；利用所述修正结果替换所述样本数据中的异常数据。

Description

一种用于对输变电可靠性评估大数据进行清洗的方法及系统

技术领域

本发明涉及电网企业对输变电可靠性评估技术领域，更具体地，涉及一种用于对输变电可靠性评估大数据进行清洗的方法及系统。

背景技术

随着《中国电力大数据发展白皮书》的发布，带动了电力行业内对输变电可靠性评估大数据研究热潮，准确、可靠是保证输变电可靠性评估大数据分析处理精准性的基本要求，因此对输变电可靠性评估大数据质量提出了更高的要求，输变电可靠性评估大数据清洗可有效保证输变电可靠性评估大数据质量的正确性、完整性、一致性、可靠性。

输变电可靠性评估大数据具有数量大、维度高，数据模式繁多等特征，在输变电可靠性评估大数据的采集过程中，其不可避免的存在异常数据，对输变电可靠性评估大数据清洗有很强的必要性。国内外对输变电可靠性评估大数据清洗研究主要有聚类和关联分析、条件函数依赖、马尔科夫模型、DS证据理论。大部分数据清洗技术都需要依赖数据模型本身构建异常数据识别规则，对检测到的异常数据做删除或均值填充处理，破坏了数据的连续性、完整性、准确性。综合国内外研究，输变电可靠性评估大数据清洗难点表现在以下几点：(1)输变电可靠性评估大数据数据模型繁多，数据种类各异，不宜直接构建输变电可靠性评估大数据异常数据识别规则；(2)正常数据多，异常数据少，不同类型的输变电可靠性评估大数据很难通过设定阈值来进行简单异常识别；(3)异常识别将异常数据剔除，破坏了数据的连续性；(4)对异常数据进行重构时，需要依赖外源数据。

因此，需要一种技术，以实现用于对输变电可靠性评估大数据进行清洗的技术。

发明内容

本发明技术方案提供了一种用于对输变电可靠性评估大数据进行清洗的方法及系统，以解决如何基于输变电可靠性评估大数据进行清洗的问题。

为了解决上述问题，本发明提供了一种用于对输变电可靠性评估大数据进行清洗的方法，所述方法包括：

通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇；

基于正常样本数据的聚类簇选取边界样本数据；

根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据；

对识别出的异常数据在所述待测试样本数据中的位置进行标注；

根据所述异常数据的标注的位置，对所述异常数据应用指数加权移动平均数法进行修正，获取所述异常数据的修正结果；

利用所述修正结果替换所述样本数据中的异常数据。

优选地，通过层次聚类CURE算法在对待测试的样本数据进行聚类时，消除离群点，包括：

将所述待测试的样本数据划分为数据块，对每个划分的数据块进行聚类，得到的数据簇表示为p_i(mp_i，w_i)，其中p_i表示块中第i个簇，以及第i个簇的中心点，mp_i表示每个中心点的权重值，w_i是每个簇中数据的个数，每个划分的数据块包括多个代表点；

设多个代表点的集合为P，其中每个代表点的中心点到数据簇外任意一点的偏差距离表示为代表点的离群程度：

n为数据的总维数，j表示数据的第j维，x_ji，y_ji为数据的两个属性；

用欧氏距离表示一个点的偏离程度，当某点离簇中心点越远，则离群程度值越大；

设离群程度集为D，定义离群程度判定值为：

D为所有d_i组成的集合，m为簇中点的个数。

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

对于离群程度集D中任意d_i，若d_i所对应的代表点p_i为离群点，其所在的数据簇中的数据为离群数据。

优选地，将所述待测试的样本数据存储在分布式文件系统HDFS中；

基于分布式文件系统HDFS读取所述待测试的样本数据，执行cache操作生成弹性分布式数据集，将所述样本数据读取入内存。

优选地，所述根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据，还包括：

异常数据识别是对输变电可靠性评估的数据中历史数据或实时流数据中的异常数据进行检测的过程，是建立在正常样本数据的聚类簇的边界样本的基础上，正常样本数据的聚类簇的边界样本数据的选择过程：

步骤1:计算正常样本数据的聚类簇的中心点(n₁+n₂+…+n_n)/m，n_i为聚类簇的点，m为聚类簇的点个数；

步骤2：选取的第一个边界样本点为距离中心点最远的点，选取的第二个边界样本点为距离第一样本点最远的点；

步骤3：继续选取的边界样本点为距离选取的前两个边界样本点距离之和最大的点，直到选取的边界样本点能够代表聚类簇，则选择停止边界样本点；聚类簇的边界样本的选择过程，为已经选取出的边界样本点。

优选地，所述正常样本数据的聚类簇的边界样本为：距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。

基于本发明的另一方面，提供一种用于对输变电可靠性评估大数据进行清洗的系统，所述系统包括：

获取单元，用于通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇；

选取单元，用于基于正常样本数据的聚类簇选取边界样本数据；

识别单元，用于根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据；

标注单元，用于对识别出的异常数据在所述待测试样本数据中的位置进行标注；

修正单元，用于根据所述异常数据的标注的位置，对所述异常数据应用指数加权移动平均数法进行修正，获取所述异常数据的修正结果；

替换单元，用于利用所述修正结果替换所述样本数据中的异常数据。

优选地，所述获取单元，用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时，消除离群点，还用于：

将所述待测试的样本数据划分为数据块，对每个划分的数据块进行聚类，得到的数据簇表示为p_i(mp_i,w_i)，其中p_i表示块中第i个簇，以及第i个簇的中心点，mp_i表示每个中心点的权重值，w_i是每个簇中数据的个数，每个划分的数据块包括多个代表点；

n为数据的总维数，j表示数据的第j维，x_ji,y_ji为数据的两个属性。

设离群程度集为D，定义离群程度判定值为：

D为所有d_i组成的集合，m为簇中点的个数。

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

优选地，还包括初始单元，用于将所述待测试的样本数据存储在分布式文件系统HDFS中；

优选地，所述识别单元，用于根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据，还用于：

本发明技术方案提供一种用于对输变电可靠性评估大数据进行清洗的方法及系统，其中方法包括：通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇；基于正常样本数据的聚类簇选取边界样本数据；根据基于边界样本的异常数据识别算法，对待测试样本数据中的异常数据进行识别，识别出异常数据；对识别出的异常数据在待测试样本数据中的位置进行标注；根据异常数据的标注的位置，对异常数据应用指数加权移动平均数法进行修正，获取异常数据的修正结果；利用修正结果替换样本数据中的异常数据。本发明技术方案针对以上输变电可靠性评估大数据清洗难点，提出一种基于Spark框架的输变电可靠性评估大数据清洗方法。本发明技术方案的基本思想是：首先，用改进的CURE聚类算法对测试样本进行聚类，剔除掉测试样本中的离群点，获取样本点正常的簇，并根据边界样本获取方法获取边界样本集；然后设计边界样本的异常识别算法检测历史或实时流输变电可靠性评估大数据中的异常数据；最后通过指数加权移动平均数对检测出的异常数据进行修正，从而达到对输变电可靠性评估大数据中异常数据清洗目的。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法流程图；

图2为根据本发明优选实施方式的一种基于Spark框架的输变电可靠性评估大数据清洗模型示意图；

图3为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法流程图。本申请提供的输变电可靠性评估大数据具有数量大、维度高，数据模式繁多等特征，在输变电可靠性评估大数据的采集过程中，其不可避免的存在异常数据，对输变电可靠性评估大数据清洗有很强的必要性。本申请针对以上输变电可靠性评估大数据清洗难点，提出一种基于Spark框架的输变电可靠性评估大数据清洗模型方法。首先，用改进的CURE聚类算法对测试样本进行聚类，剔除掉测试样本中的离群点，获取样本点正常的簇，并根据边界样本获取方法获取边界样本集；然后设计边界样本的异常识别算法检测历史或实时流输变电可靠性评估大数据中的异常数据；最后通过指数加权移动平均数对检测出的异常数据进行修正，从而达到对输变电可靠性评估大数据中异常数据清洗目的。本申请提供一种用于对输变电可靠性评估大数据进行清洗的方法，方法包括：

优选地，在步骤101：通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇。

将待测试的样本数据划分为数据块，对每个划分的数据块进行聚类，得到的数据簇表示为p_i(mp_i,w_i)，其中p_i表示块中第i个簇，以及第i个簇的中心点，mp_i表示每个中心点的权重值，w_i是每个簇中数据的个数，每个划分的数据块包括多个代表点；

设离群程度集为D，定义离群程度判定值为：

D为所有d_i组成的集合，m为簇中点的个数。

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

优选地，将待测试的样本数据存储在分布式文件系统HDFS中；

基于分布式文件系统HDFS读取待测试的样本数据，执行cache操作生成弹性分布式数据集，将样本数据读取入内存。cache操作为将数据存入高速缓冲存储器。

本申请输变电可靠性评估大数据清洗是对检测到的输变电可靠性评估大数据中异常数据进行修正的过程，利用Spark框架构建输变电可靠性评估大数据清洗模型时分为以下几个阶段：数据准备、正常簇样本获取、异常数据识别、异常数据修正、修正数据存储。基于Spark框架的输变电可靠性评估大数据清洗模型的清洗步骤如下：数据准备：将数据存储在分布式文件系统HDFS中；从分布式文件系统上读取数据并执行cache操作生成弹性分布式数据集，将数据读入到内存。cache操作为将数据存入高速缓冲存储器。

本申请利用改进的并行CURE聚类算法获取正常簇；

CURE聚类算法在对测试样本进聚类时通过消除离群点降低对聚类结果的影响，可通过CURE聚类算法对测试样本进行聚类获取正常样本的聚类簇，如表1所示。

表1基于改进CURE算法正常簇样本获取算法

Tab1 Sample acquisition algorithm basedon improved CURE normalclustering algOrithm

针对CURE聚类算法剔除异常点时存在的问题，本文使用离群程度用于判定离群点，可有效解决增长缓慢的离群类难界定及局部离群点被淹没的现象。相关定义如下：

定义1：对每个划分的数据块进行聚类，得到的数据簇表示为，其中表示块中第i个簇，以及第i个簇的中心点，表示每个中心点的权重值，是每个簇中数据的个数。因此每个划分的数据块可以使用若干个代表，称为代表点。

定义2：设代表点的集合为P，每个代表点的中心点到簇外任意一点的偏差距离表示为离群程度：

用欧氏距离表示一个点的偏离程度，当某点离簇中心点越远，则离群程度值越大。

定义3：设离群程度集为D，定义离群程度判定值为：

定义4:设离群参数为δ，离群程度最小值为：

定义5：对于离群程度集D中任意d_i，若d_i所对应的代表点p_i为离群点，其所在的簇中的数据即为离群数据。

优选地，在步骤102：基于正常样本数据的聚类簇选取边界样本数据。优选地，正常样本数据的聚类簇的边界样本为：距离正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。

优选地，在步骤103：根据基于边界样本的异常数据识别算法，对待测试样本数据中的异常数据进行识别，识别出异常数据。

优选地，根据基于边界样本的异常数据识别算法，对待测试样本数据中的异常数据进行识别，识别出异常数据，还包括：

本申请从正常簇中选取边界样本数据，本申请设计基于边界样本的异常数据识别算法，并对测试样本识别异常数据；

异常数据识别是对输变电可靠性评估大数据中历史或实时流数据中的异常数据检测的过程，是建立在正常簇的边界样本的基础上。每个正常簇的边界样本必须具有以下特点：(1)距离质心最远；(2)分散在正常样本的四周；(3)能够代表正常样本的形状。下面给出边界样本的选择过程：

步骤1:计算簇的中心点(n₁+n₂+…+n_n)/m，n_i为簇的点，m为簇的点个数；

步骤2：第一个边界样本点为离中心点最远的点，第二个边界样本点为离第一样本点最远的点。

步骤3：接下来选择的边界样本为离前两个样本点距离之和最大的点，直到选取的样本点能够代表聚类簇，则选择停止。正常簇的边界样本选择过程，为每步选出的边界样本点。

本申请通过边界样本异常识别算法，在进行异常识别时，不必设置异常识别的阈值，同时可以避免因使用数据模式带来的复杂性，可以提高异常识别的效率。

优选地，在步骤104：对识别出的异常数据在待测试样本数据中的位置进行标注。本申请标记异常数据所在检测样本中的位置。

优选地，在步骤105：根据异常数据的标注的位置，对异常数据应用指数加权移动平均数法进行修正，获取异常数据的修正结果。

优选地，在步骤106：利用修正结果替换样本数据中的异常数据。

本申请对异常数据应用指数加权移动平均数进行修正，在对异常数据进行修正时，可以采用的方法是使用该异常数据所在序列的平均数进行代替。但是，某一序列值对后面序列值的影响作用是衰减的，因此对异常数据进行修正采用指数加权移动平均数:

最后对形成的修正数据集进行保存。

本申请实施方式与Apriori算法相比，本申请算法在检测率相似的情况下，误检率较低。较低误报率有利于保证获取的正常样本质量，保证构建基于正常样本的边界样本异常识别算法的准确性。同原始CURE聚类算法比较，本申请所改进CURE聚类算法在检测率和误检率都有所提高。

本申请为了验证输变电可靠性评估大数据异常识别算法的检测异常数据正确性，实验保持集群节点数固定，不断调整测试数据样本大小，检测算法的准确率，可以看出模型检测到了大部分的异常数据。

本申请为了验证输变电可靠性评估大数据清洗模型的高效性，测试了传统单机数据清洗与基于Spark框架的输变电可靠性评估大数据清洗模型不同数量的清洗所需要的时间，基于Spark的输变电可靠性评估大数据清洗在效率上高于传统单机数据清洗，但执行效率与实验中算法、集群的节点及数据量有关。

输变电可靠性评估大数据清洗是对检测到的输变电可靠性评估大数据中异常数据进行修正的过程，利用Spark框架构建输变电可靠性评估大数据清洗模型时分为以下几个阶段：数据准备、正常簇样本获取、异常数据识别、异常数据修正、修正数据存储。数据准备即将存储在传统关系型数据库中的数据转存在适合于大数据处理的非关系型数据库中，然后加载到Spark的弹性分布式数据集(RDD)中；通过抽取一定数量的大数据样本，应用层次聚类算法将其中的异常点抽取，获取可用于实现边界样本异常识别算法的正常样本簇；异常数据识别是建立在边界样本的基础上，通过边界样本异常识别算法完成对输变电可靠性评估大数据中的异常数据检测；异常数据修正完成对检测到的大数据中的异常数据的修复。

图2为根据本发明优选实施方式的一种基于Spark框架的输变电可靠性评估大数据清洗模型示意图。SparkStreaming是一套框架。SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。Spark SQL是Spark用来处理结构化数据的一个模块。MLlib(machine learning library)是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具。YARN是Hadoop集群的资源管理系统。

本申请以某风电场风力发电监测数据作为数据清洗研究对象进行举例说明。该风力发电监测数据大小为5GB，分别从5台风力发电机采集，采集间隔为1s，记录了从2018年10月1日到2019年9月30日风力发电监测数据。本申请将从异常识别的准确性、异常修正的效率对输变电可靠性评估大数据清洗模型进行验证分析。

(1)实验1：针对正常样本获取过程中离群点删除算法，本申请测试了几种离群点检测算法的检测率和误检率，测试结果见表2。与Apriori算法相比，本申请算法在检测率相似的情况下，误检率较低。较低误报率有利于保证获取的正常样本质量，保证构建基于正常样本的边界样本异常识别算法的准确性。同原始CURE聚类算法比较，本申请所改进CURE聚类算法在检测率和误检率都有所提高。

表2离群点检测算法比较

Tab2 Comparison of outlier detection algorithm

(2)实验2：为了验证输变电可靠性评估大数据异常识别算法的检测异常数据正确性，实验保持集群节点数固定，不断调整测试数据样本大小，检测算法的准确率，结果如表3，可以看出模型检测到了大部分的异常数据。

表3输变电可靠性评估大数据异常识别算法的准确率测试

Tab3 Accuracy test of energy big dataanomaly identification algorithm

(3)实验3：为了验证输变电可靠性评估大数据清洗模型的高效性，测试了传统单机数据清洗与基于Spark框架的输变电可靠性评估大数据清洗模型不同数量的清洗所需要的时间。集群节点数固定，不断调整待清洗数据样本大小，测试数据清洗时间，测试结果见表4。排除节点间的网络通信以及任务调度的开销等因素，基于Spark的输变电可靠性评估大数据清洗在效率上高于传统单机数据清洗，但执行效率与实验中算法、集群的节点及数据量有关。

表4单机及并行数据清洗清洗时间比较

Tab4 Comparison of cleaning time betweensingle machine and paralleldata

图3为根据本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统结构图。如图3所示，本申请提供一种用于对输变电可靠性评估大数据进行清洗的系统，系统包括：

获取单元301，用于通过层次聚类CURE算法对待测试的样本数据进行聚类，获取正常样本数据的聚类簇。优选地，正常样本数据的聚类簇的边界样本为：距离正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。

优选地，系统的获取单元，用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时，消除离群点，还用于：

将待测试的样本数据划分为数据块，对每个划分的数据块进行聚类，得到的数据簇表示为p_i(mp_i，w_i)，其中p_i表示块中第i个簇，以及第i个簇的中心点，mp_i表示每个中心点的权重值，w_i是每个簇中数据的个数，每个划分的数据块包括多个代表点；

n为数据的总维数，j表示数据的第j维，x_ji，y_ji为数据的两个属性。

设离群程度集为D，定义离群程度判定值为：

D为所有d_i组成的集合，m为簇中点的个数。

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

选取单元302，用于基于正常样本数据的聚类簇选取边界样本数据。

识别单元303，用于根据基于边界样本的异常数据识别算法，对待测试样本数据中的异常数据进行识别，识别出异常数据。优选地，系统识别单元，用于根据基于边界样本的异常数据识别算法，对待测试样本数据中的异常数据进行识别，识别出异常数据，还用于：

标注单元304，用于对识别出的异常数据在待测试样本数据中的位置进行标注。

修正单元305，用于根据异常数据的标注的位置，对异常数据应用指数加权移动平均数法进行修正，获取异常数据的修正结果。

替换单元306，用于利用修正结果替换样本数据中的异常数据。

优选地，系统还包括初始单元，用于将待测试的样本数据存储在分布式文件系统HDFS中；

基于分布式文件系统HDFS读取待测试的样本数据，执行cache操作生成弹性分布式数据集，将样本数据读取入内存。

cache操作为将数据存入高速缓冲存储器。

本发明优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的系统300与本发明另一优选实施方式的一种用于对输变电可靠性评估大数据进行清洗的方法100相对应，在此不再进行赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

Claims

1.一种用于对输变电可靠性评估大数据进行清洗的方法，所述方法包括：

基于正常样本数据的聚类簇选取边界样本数据；

利用所述修正结果替换所述样本数据中的异常数据。

2.根据权利要求1所述的方法，通过层次聚类CURE算法在对待测试的样本数据进行聚类时，消除离群点，包括：

其中，n为数据的总维数，j表示数据的第j维，x_ji，y_ji为数据的两个属性；

设离群程度集为D，定义离群程度判定值AD为：

D为所有d_i组成的集合，m为簇中点的个数。

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

3.根据权利要求1所述的方法，将所述待测试的样本数据存储在分布式文件系统HDFS中；

4.根据权利要求1所述的方法，所述根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据，还包括：

5.根据权利要求1所述的方法，所述正常样本数据的聚类簇的边界样本为：距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。

6.一种用于对输变电可靠性评估大数据进行清洗的系统，所述系统包括：

7.根据权利要求6所述的系统，所述获取单元，用于通过层次聚类CURE算法在对待测试的样本数据进行聚类时，消除离群点，还用于：

设离群程度集为D，定义离群程度判定值AD为：

D为所有d_i组成的集合，m为簇中点的个数；

设离群参数为δ，离群程度最小值为：

AD为离群程度判定值，d_i为代表点的离群程度。

8.根据权利要求6所述的系统，还包括初始单元，用于将所述待测试的样本数据存储在分布式文件系统HDFS中；

9.根据权利要求6所述的系统，所述识别单元，用于根据基于边界样本的异常数据识别算法，对所述待测试样本数据中的异常数据进行识别，识别出异常数据，还用于：

10.根据权利要求6所述的系统，所述正常样本数据的聚类簇的边界样本为：距离所述正常样本数据的聚类簇的质心最远、分散在正常样本数据的聚类簇的四周以及能够代表正常样本数据的形状。