CN104881735A

CN104881735A - 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法

Info

Publication number: CN104881735A
Application number: CN201510243729.6A
Authority: CN
Inventors: 金鹏; 刘鑫蕊; 郭昆亚; 孙秋野; 邵枫; 陈斯; 张化光; 王智良; 刘爽
Original assignee: State Grid Corp of China SGCC; Northeastern University China; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Northeastern University China; Shenyang Power Supply Co of State Grid Liaoning Electric Power Co Ltd
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2015-09-02

Abstract

一种用于支撑智慧城市运行管理的电网大数据挖掘系统及方法；从智能电网数据库中提取出所需的数据；对提取的数据进行分类整合处理得到所需的数据集；输入数据集和城市运行管理部门的运行任务目标；对运行任务目标进行分析；根据运行任务目标，基于云计算的MapReduce-APS方法、改进的关联规则方法和改进的离群分析方法，确定数据挖掘工作模式，选用其中一种方法单独执行数据挖掘的独立工作模式或者选用其中至少两种方法联合进行数据挖掘的联合工作模式；根据不同挖掘方法进行数据挖掘，得到的有用信息输出到数据可视化模块进行显示。不同的运行管理部门可以根据运行目标任务不同，进行不同挖掘方法和工作模式选择，从而得到具有针对性的有用信息，具有通用性。

Description

用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法

技术领域

本发明属于数据挖掘领域，特别涉及一种适用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法。

背景技术

智慧城市是城市可持续发展需求与新一代信息技术应用相结合的产物，是通过综合运用现代科学技术，统筹业务应用系统，整合信息通信资源，集城市运行管理、能源供需、公共服务、产业优化、环境监测等为一体的城市科学发展新实践，智能电网与智慧城市紧密结合,能够促进城市绿色发展，保障城市用电安全，完善城市通信信息网络，带动城市产业发展，丰富城市服务内涵。智慧城市的高效运转离不开智能电网，智能电网是智慧城市的关键基础和客观需要。

智慧城市的本质是对数据的智慧处理。大数据改变了城市的管理方式、运行模式，让人们享受智慧的生活体验。在智慧城市建设的过程中，大数据的收集、存储、分析挖掘及使用是智慧城市面临的挑战。又由于智能电网对智慧城市的支撑作用，对智能电网的大数据挖掘则显得尤其重要。

大数据是智能电网的典型特点，要实现智能电网支撑智慧城市必须掌握数据处理的关键技术即大数据挖掘技术。目前存在多种数据挖掘方法和技术，基本上按挖掘任务分属五类：预测、分类、关联规则、聚类分析、离群分析。通过这些技术方法来进行数据挖掘，得到有用信息。但是数据挖掘模型的建立没有通用性，一般现在大多数的做法是根据需要的一个任务目标来建立相应模型进行数据挖掘，然而这个模型在其他的任务上却没有适用性。

发明内容

针对现有方法存在的不足，本发明提出一种用于支撑智慧城市运行管理的电网大数据挖掘系统及方法。

本发明所采用的技术方案是这样实现的：

一种用于支撑智慧城市运行管理的智能电网大数据挖掘系统，包括：

数据提取模块：用于提取智慧城市运行管理所需的智能电网数据；

数据处理模块：用于对数据提取模块提取的智能电网数据进行分类整合处理；

数据挖掘模块：具有基于云计算的数据聚类分析方法(即，基于云计算的MapReduce-APS方法)、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法，并具有独立工作模式和联合工作模式；能够根据不同运行任务目标，进行工作模式选择后，对数据处理模块处理后的智能电网数据进行挖掘得到有用信息；所述独立工作模式，指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择一种数据挖掘方法进行数据挖掘的工作模式；所述联合工作模式指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择至少两种挖掘方法联合进行数据挖掘的工作模式；

数据可视化模块：用于可视化数据挖掘模块的智能电网大数据挖掘后得到的有用信息；

一种用于支撑智慧城市运行管理的电网大数据挖掘方法，包括如下步骤：

步骤1：各城市运行管理部门从智能电网数据库中提取出所需的智能电网数据；

步骤2：对步骤1提取的智能电网数据进行分类整合处理得到所需的数据集；

步骤3：将数据集和城市运行管理部门的运行任务目标输入到数据挖掘模块；

步骤4：数据挖掘模块对运行任务目标进行分析；

步骤5：在对输入的运行任务目标分析后，根据所输入的运行任务目标的个数，数据挖掘模块决定其数据挖掘的工作模式：当所选的运行目标任务为一个时，则数据挖掘模块进行独立工作模式；当所选的运行目标任务为多个时，则数据挖掘模块进行联合工作模式；

步骤6：在不同的工作模式下，根据不同挖掘方法进行数据挖掘，得到的有用信息输出到数据可视化模块进行显示。

所述的基于云计算的数据聚类分析方法的运行环境由两种不同类型的数据节点组成：在从节点上负责数据的处理，在主节点上负责运行目标任务调度及不同节点之间的数据共享；具体包括如下步骤：

步骤A01：首先采用AP算法(即，近邻传播聚类算法)确定最佳聚类数的搜索范围，并选择合适的有效性分析指标，评估该搜索范围内各聚类结果的质量，根据评估结果得到数据集聚类数l_op，从而得到最佳聚类数范围[2,l_op]，并将数据集聚类数l_op作为基于云计算的数据聚类分析方法的输入；

步骤A02：基于并行框架的方法，将输入的数据集进行随机划分，划分结果标记为数据片split₁、split₂、split₃、...、和并将各随机划分的数据片均转化为<key,value>形式，作为各map函数的输入；

步骤A03：Map阶段：根据步骤A01中输入的数据集聚类数l_op对输入的数据片运用C均值聚类算法(又称FCM聚类算法)进行分析，得到初始聚类中心，根据密度指标将数据集中每个数据点划分到数据点附近的聚类中，直到所有的数据点都划分完毕；

步骤A04：取所有map函数的输出，对输出结果进行汇总：对map函数输出的数据节点，以key值为索引进行分组和排序，将属于同一聚类的数据点进行汇总，汇总之后输出至Reduce阶段；

步骤A05：Reduce阶段：读取步骤A04的输出结果并进行汇总处理，处理结束后输出聚类中心点及隶属于这个聚类中心的数据至下一步的验证环节；

步骤A06：对Reduce阶段的输出结果进行验证：采用Silhouette指标对输出结果进行有效性分析，符合指标则作为最终结果进行输出并显示，否则返回到步骤A01，同时改变输入最佳聚类数为l_op+1。

所述的改进的关联规则方法，是通过将DIC算法与DHP算法结合，相比于DIC算法能够进一步减少扫描数据库的次数，提高效率，高效找出事物中的全部频集，并且精确度又比DHP算法高。按如下步骤进行：

步骤B01：用户设定最小支持度和最小置信度，输入待处理数据事物库；

步骤B02：基于分层划分技术的方法，对给定的数据事物库进行DIC算法分区，将数据库划分为N片表区；

步骤B03：计算每个表区内项目集的最小支持度；

步骤B04：统计每个表区内的局部频繁项目集形成候选项目集，其中每个表区内最小支持度大于设定的最小支持度的项目集为频繁项目集，i表示频繁项目集中的项目个数；k表示频繁项目集中第k个项目；

步骤B05：在上一步的基础上进一步采用DHP算法，将每个表区的候选项目集中含有i-1个公共项目的局部频繁项目集进行两两合并；

步骤B06：对每个表区重复执行步骤B03至步骤B04，得到全局项目频繁集；

步骤B07：执行Apriori算法第二步，计算全局频繁项目集的最小置信度，进而得到关联规则。

所述的改进的离群分析方法，为首先根据用户需要的检测方向(例如，检测电压)，确定检测属性(例如，电压)从而进行相应的子空间选择；选择了子空间后在各子空间中运用聚类密度算法检测子空间中差异性较大的离群数据点；在此基础之上，通过计算多个子空间的离群程度的加权和来定义一个离群对象；按如下步骤进行：

步骤C01：用户根据检测方向从原始输入数据中决定最终输入数据(例如原始输入数据含有电压，电流，功率等等数据，但是用户现在的检测方向只是检测电压，那么只选取电压数据作为最终的输入数据)，并基于检测属性(电压)选择子空间；

步骤C02：在子空间中运用基于密度的聚类算法来检测子空间中差异性较大的离群数据点；

步骤C03：计算多个子空间属性的边际密度概率和子空间的联合密度分布概率来判断子空间属性之间的相关性；

步骤C04：选取相关性较大的子空间，并计算被怀疑的离群数据点相对于前述相关性较大的子空间的离群偏差程度的加权和；

步骤C05：将步骤C04得到的计算结果与设定好的离群偏差加权和阈值比较，大于阈值的则被认为是离群数据点；

步骤C06：统计由步骤C05中得到的相对于相关程度大的子空间检测出的离群数据点和个别独立的子空间中检测出的离群数据点作为最终结果输出并显示。

本发明的优点：本发明的用于支撑智慧城市运行管理的电网大数据挖掘系统及方法中的数据挖掘模块基于云计算的MapReduce-APS算法、改进的关联规则算法和改进的离群分析算法，具有采用其中之一的算法单独执行数据挖掘的独立工作模式和具有采用其中至少两种算法联合进行数据挖掘的联合工作模式，可以运用到城市的运行管理的方方面面。该模块解决了以往据挖掘模型的局限性，不仅仅只是针对某一个部门或某一个模型，不同的运行管理部门可以根据运行目标任务不同，进行不同挖掘方法和工作模式选择，从而得到具有针对性的有用信息，具有通用性。

附图说明

图1为本发明一种实施方式的用于支撑智慧城市运行管理的电网大数据挖掘系统的结构示意图；

图2为本发明一种实施方式的用于支撑智慧城市运行管理的电网大数据挖掘方法流程图；

图3为本发明一种实施方式的基于云计算的MapReduce-APS算法原理图

图4为本发明一种实施方式的基于云计算的MapReduce-AFS算法流程图；

图5为本发明一种实施方式通过实验仿真得到的两种类别的用电规律趋势图；

图6为本发明一种实施方式的改进的关联规则原理图；

图7为本发明一种实施方式的改进的关联规则算法流程图；

图8为本发明一种实施方式的改进的离群分析算法原理图；

图9为本发明一种实施方式的改进的离群分析算法流程图；

图10为一种实施方式通过实验仿真得到的三种算法精确度对比图；

图11为一种实施方式的联合工作模式下数据挖掘流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本实施方式中的适用于用于支撑智慧城市运行管理的智能电网大数据挖掘系统如图1所示，包括：

数据提取模块：用于从智能电网数据库中提取智慧城市运行管理所需的智能电网数据；

数据挖掘模块：具有基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法，并具有独立工作模式和联合工作模式；能够根据不同运行任务目标，进行工作模式选择后，对数据处理模块处理后的智能电网数据进行挖掘得到有用信息；所述独立工作模式，指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择一种数据挖掘方法进行数据挖掘的工作模式；所述联合工作模式指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择至少两种挖掘方法联合进行数据挖掘的工作模式；

本实施方式的用于支撑智慧城市运行管理的电网大数据挖掘方法，如图2所示，包括如下步骤：

步骤4：数据挖掘模块对输入的数据及运行任务目标进行分析；

步骤6：在不同的工作模式下根据不同挖掘方法得到有用信息并输入到数据可视化模块进行显示。所述独立工作模式，指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择一种数据挖掘方法进行数据挖掘的工作模式；所述联合工作模式指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择至少两种挖掘方法联合进行数据挖掘的工作模式；

由前述，独立工作模式指的是基于云计算的MapReduce-APS方法、改进的关联规则算法和改进的离群分析算法这三种数据挖掘方法同时存在于数据挖掘模块中，根据运行任务目标选择其中一种挖掘方法进行数据挖掘的工作模式；则可以得知数据挖掘模块中的独立工作模式存在3种，即第一种独立工作模式为选择基于云计算的MapReduce-APS方法(即，基于云计算的聚类分析方法)进行数据挖掘的工作模式；第二种独立工作模式为选择改进的关联规则方法(即，基于云计算的聚类分析方法)进行数据挖掘的工作模式；第三种独立工作模式为选择改进的离群分析方法(即，基于云计算的聚类分析方法)进行数据挖掘的工作模式。

不同城市运行管理部门的任务要求不同，第一种独立工作模式则是专门针对那些重视数据趋势走向的部门。

结合图3和图4对基于云计算的聚类分析方法(本实施方式中将其命名为MapReduce-APS方法)的设计及实施流程进行如下说明:

步骤A01：首先采用近邻传播聚类算法(简称AP算法)确定最佳聚类数的搜索范围，并选择合适的有效性分析指标，评估该搜索范围内各聚类结果的质量，根据评估结果得到数据集聚类数l_op，从而得到最佳聚类数范围[2,l_op]，并将数据集聚类数l_op作为基于云计算数据聚类分析方法的输入；

为了在聚类搜索范围内选择合适的有效性分析指标并评估该搜索范围内各聚类结果的质量得到最佳聚类数引入了AP算法(即，近邻传播聚类算法)，AP算法不需要事先确定聚类个数，最初将所有样本点都看作潜在的类代表，通过迭代竞争类代表，达到理想的聚类结果。AP算法的计算速度快，较样本数N有效的减少了搜索范围，并且较传统最大聚类数lmax等于n的开平方的经验选择方式更具科学性。具体工作过程如下：先计算N个点之间的相似度值，将计算出的相似度值放在S矩阵中，再选取数据点能否成为聚类中心的判断标准，即参考度P值(一般取S的中值)，同时设置一个最大迭代次数，迭代过程开始后，计算每一次的R值和A值，根据R(k,k)+A(k,k)值来判断是否为聚类中心，当(R(k,k)+A(k,k))＞0时认为是一个聚类中心。其中，R(k,k)用来描述点k适合作为数据点的聚类中心的程度；A(k,k)用来描述数据点选取k点作为聚类中心的适合程度。当迭代次数超过最大值或者当聚类中心连续多次迭代不发生改变时终止计算。通过AP算法为后面的FCM算法提供了输入。

步骤A02：基于并行框架的方法，对输入的数据集进行随机分片，分片结果标记为数据片split₁、split₂、split₃、...、和并将各数据片均转化为<key,value>形式，分别作为各map函数的输入；

根据前面的AP算法得到的聚类数lop，对输入的数据片进行FCM算法分析。此处的FCM算法把n个向量x_i(i＝1,2,…n)划分为c个模糊组，c的取值范围为[2,lop]。

具体步骤为：

步骤A03.1：用值在0,1间的随机数初始化隶属矩阵U，使其满足

步骤A03.2：聚类中心个数c属于[2,lop]，首先令c＝2；

步骤A03.3：利用公式计算c个聚类中心c_i(i＝1,….c)

步骤A03.4：根据计算价值函数；其中u_ij介于0,1之间；c_i为模糊组I的聚类中心；d_ij＝||c_i-x_j||为第i个聚类中心与第j个数据点间的欧几里德距离；如果计算的价值函数值小于设定的阀值，或当前计算的价值函数值相对前一次计算的价值函数值的改变量小于设置的阀值，则结束；否则，则执行步骤A03.5；

步骤A03.5：根据公式计算新的矩阵U，返回步骤A03.3；

运用以上方法将每个数据点划分到距离最近的聚类中，并将得到的聚类中心和隶属于它的数据点进行输出。

步骤A04：取所有map函数的输出，对输出结果进行汇总：对map函数输出的数据节点，以key值为索引进行分组和排序，将属于同一聚类的数据点进行汇总，汇总之后输出结果<c_i,list(x_j)>至Reduce阶段；其中c_i表示聚类中心，list(x_j)表示隶属于c_i的数据点集合。

读取输出的<c_i,list(x_j)>，对输入的所有<c_i,list(x_j)>进行汇总处理，处理结束后输出c个聚类中心点及各个聚类中心点所包含的数据。

本实施方式使用沈阳某电网公司用户的24小时用电数据作为输入数据，对所采集的数据运用提出的基于云计算的MapReduce-APS算法按照上面的方法进行处理，最后聚成两类，仿真结果如附图5所示，对这两类数据进行分析，得到两种用电规律。根据图5可知，仿真结果验证了本方法的有效性。电网企业可以依据此算法获取用户的用电行为，对其进行分析，并制定相应策略，从而进行智能化管理。

第二种独立工作模式则主要针对的是那些想要发现不同项目集或属性之间的关联性以及探索某些特定组合的事件反复发生的规则的部门。

本实施方式结合图6与图7对改进的关联规则算法的设计及实施流程进行如下说明:

数据事物库D中的规则是受支持度(support)和置信度(confidence)约束的。支持度表示规则的频度，置信度表示规则的强度。

DIC算法将数据库划分为N片表区D₁,D₂......D_n，通过下面的公式：

\begin{matrix} support (X &DoubleRightArrow; Y) = \frac{| {T : X \cup Y &SubsetEqual; T, T &Element; D_{i}} |}{| {D_{i}} |} & (i = 1,2 \cdot \cdot \cdot n) \end{matrix}

\begin{matrix} confidence (X &DoubleRightArrow; Y) = \frac{| {T : X \cup Y &SubsetEqual; T, T &Element; D_{i}} |}{| {T : X &SubsetEqual; T, T &Element; D_{i}} |} & (i = 1,2 \cdot \cdot \cdot n) \end{matrix}

来计算规则在事务库D中的支持度和置信度。项集A在数据库D_i中的支持度为在数据库D_i中的支持度且有X∪Y＝A，记为support(A)。

\begin{matrix} support (A) = \frac{| {T : A &SubsetEqual; T, T &Element; D_{i}} |}{| {D_{i}} |} \end{matrix};;

步骤B03：计算每个表区内项目集的最小支持度；

在确定了所有的局部频繁项目集之后，进一步合并有i-1个公共项的两个L_i频繁项目集，进一步减少扫描次数，使处理时间更短。在上一步的基础上，先对每个数据库D_i先设定一个最小支持数，然后将每个分块的数据库D_i中得到的所有的频繁项目集进行分解，得到所有的项目集，并对得到的所有项目及应用哈希函数(哈希函数为h{{x,y}}＝((order of x)*10+(order of y))mod7其中，order of x为x在所有取值序列中的序号)。首先生成候选1-项目集，统计1-项目集的支持度以生成L₁，并读取每行事物，根据要构造的候选集合的长度对读取的每行事物进行组合分解，为1-项目集建立用于快速统计的哈希表H₁。然后采用DHP算法检测1-项目集中的每个项是否在哈希表H₁中，如果在哈希表H₁中，则把该项的支持数加1。否则，向哈希表中插入该项并将支持数置为1。统计后得到结果位向量。接下来进行L₁×L₁，将L₁×L₁中的2-项目集带入哈希函数，得到每个2-项目集对应的哈希地址并以同样的方法放到哈希表H₂中。然后根据位向量取值，从L₁×L₁过滤2-项目集，对应位向量为0的2-项目集组合被删掉，得到新的频繁项目集。

步骤B06：对每个表区均执行步骤B04至步骤B05后，得到全局频繁项目集；

步骤B07：执行Apriori算法第二步，计算得到的频繁项目集的最小置信度，得到关联规则。

为了说明本实施方式的改进的关联规则方法的性能，利用了UCI数据库提供的机器学习的标准数据集进行实验测试。实验环境的PC配置为Intel 2.30GHz CPU，内存为2.3GB，操作系统为Windows 7professinonal，采用Visual Studio 2010进行算法的编写。

将支持度阈值和置信度阈值分别设置为1％和50％，分别采用三种算法进行分类准确性测试，结果如表1所示。

表1 三种算法的分类正确率对比表

由表1的正确率数据对比可以看出，改进的关联规则方法的正确率相比于Aprior算法和DIC算法并没有显著的下降，而改进的关联规则方法减少了扫描次数，在操作复杂度和处理时间上占有很大优势。

第三种独立工作模式适用于智能电网支撑智慧城市运行管理的离群分析方法。离群点是那些被怀疑由其他未知机制产生的与绝大多数正常数据有很强差异性的数据。越来越多的领域注重离群点检测，针对这一目标，设计了适应于智能电网支持智慧城市建设的离群分析方法。

本实施方式结合图8与图9对这种适应于智能电网支撑智慧城市运行管理的离群分析方法的设计及实施流程进行如下说明：

步骤C01：用户根据检测方向，从原始输入数据中决定最终输入数据，并基于检测属性选择子空间；从智能电网数据库中提取出的数据作为原始的输入数据；各运行管理部门根据检测方向即需求来确定属性，选择子空间。例如：节点电压大小就可以是一个属性，从而确定出一个子空间。

步骤C02：在子空间中运用基于密度的聚类算法来检测子空间中差异性较大的离群数据点；在根据属性选择出了不同的子空间后运用基于密度的聚类算法来分析数据点特性从而检测出子空间中差异性较大的离群数据点。

步骤C03：计算多个子空间属性的边际密度概率和子空间的联合密度分布概率来判断属性之间的相关性；对子空间进行处理，比较子空间属性的边际密度、分布概率和子空间的联合密度分布概率来判断子空间属性之间是否相关。划分出两类子空间：相关性较大的相关子空间和“独立的”子空间。

步骤C04：选取相关性较大的子空间，并计算被怀疑的离群数据点相对于前述相关性较大的子空间的离群偏差程度的加权和；对于相关性较大的多个离群子空间的离群偏差程度进行加权处理，并统计出相关性较小的“独立的”子空间的离群数据点。

基于密度的聚类算法分析：考虑到邻居点的距离值并同时考虑与领域内的密度对比，通过距离检测加上密度检测来最终检测出离群数据点。(a)基于距离的检测方法：策略就是将与大部分数据点间的距离大于指定的阈值的数据点检测出来，并将这些检测出的数据点列为离群数据点。实际计算时用的方法就是以该数据点为圆心，以制定距离为半径画圆。在圆内的邻居个数少于邻居数据集总个数的一定比例时，将这个数据点列为被怀疑的离群数据点。根据该方法能够先检测出一部分被怀疑的离群数据点。对于全局离群点可以用基于距离的方法检测出来，局部离群点则运用基于密度的方法检测。(b)基于密度的检测方法：对于正整数k，对象p的第k距离可记为k-distance(p)。当满足以下两个条件时则认为k-distance(p)＝d(p，o)。

依据局部密度公式：对象x的局部密度用k最近邻计算

density (x, k) = {(\frac{Σ_{y &Element; N (x, k)} dis \tan ce (x, y)}{N (x, k)})}^{- 1}

相对密度公式：

reativedensity (x, k) = \frac{density (x, k)}{Σ_{y &Element; N (x, k)} density (y, k) / | N (x, k) |}

其中，N(x,k)是包含x的k-最近邻集合，|N(x,k)|是该集合的大小，y是x的一个最近邻。通过以上两个公式可检测出与邻居密度差异很大的离群点。最终整合两种方法检测出的离群点作为最终检测结果。

为了验证本实施方式的改进的离群分析方法的有效性，选取具有代表性的KDD CUP99数据集作为实验数据，因该数据集中收录了很多攻击数据，正常的只占20％左右，所以必须先对该数据集进行必要的筛选和处理，使数据集中正常连接的数据占大多数，以符合离群点的定义。

为了测试数据集规模及检测改进的离群分析方法，构建了记录数分别为10000,20000,30000,40000的四个数据集，这四个数据集均是从KDD CUP99数据集中随机抽取的，并控制攻击比例，使数据集正常连接数的比例在98％左右。数据集中包含了四种攻击型数据：探测攻击、拒绝服务攻击、本地用户权限提升攻击和远程攻击。下面是数据集中的一条记录：

0,tcp,private,SF,432,386,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,105,276,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal.

通过在给定的数据集上运行该改进的离群分析方法并与基于密度的检测方法和基于距离的检测方法进行对比来评价改进的离群分析方法好坏。并计算正确找到的离群数和离群点总数做比例得到精确度。仿真结果见附图10。

由实验结果可知改进的离群分析方法的精确度明显高于其他两种算法。

对于实际城市运行管理中，有的部门可能具有多个运行任务目标要求，因此本系统的数据挖掘模块中不仅仅只是上述三种独立工作模式，还具有联合工作模式，联合工作模式指的是基于云计算的MapReduce-APS方法、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法同时存在数据挖掘模块中，根据需要选择其中至少两种挖掘方法联合进行数据挖掘的工作模式。由于联合工作模式的情况较多，本实施方式以一种联合工作模式为例进行说明，该联合工作模式如图11所示，该联合工作模式同时选择了基于云计算的MapReduce-APS方法和改进的离群分析方法进行数据挖掘。

Claims

1.一种用于支撑智慧城市运行管理的智能电网大数据挖掘系统，其特征在于：包括：

数据挖掘模块：具有基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法，并具有独立工作模式和联合工作模式；能够根据不同运行任务目标，进行工作模式选择后，对数据处理模块处理后的智能电网数据进行挖掘得到有用信息；所述独立工作模式，指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法中选择一种进行数据挖掘的工作模式；所述联合工作模式指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法这三种数据挖掘方法中选择至少两种数据挖掘方法联合进行数据挖掘的工作模式；

数据可视化模块：用于可视化数据挖掘模块的智能电网大数据挖掘后得到的有用信息。

2.采用权利要求1所述系统的用于支撑智慧城市运行管理的智能电网大数据挖掘方法，其特征在于：包括如下步骤：

步骤4：数据挖掘模块对运行任务目标进行分析；

步骤5：在对输入的运行任务目标分析后，根据所输入的运行任务目标的个数，数据挖掘模块决定其数据挖掘的工作模式：当所选的运行目标任务为一个时，则数据挖掘模块进行独立工作模式；当所选的运行目标任务为多个时，则数据挖掘模块进行联合工作模式；所述独立工作模式，指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择一种数据挖掘方法进行数据挖掘的工作模式；所述联合工作模式指的是根据运行任务目标从基于云计算的数据聚类分析方法、改进的关联规则方法和改进的离群分析方法中选择至少两种联合进行数据挖掘的工作模式；

3.根据权利要求2所述的用于支撑智慧城市运行管理的智能电网大数据挖掘方法，其特征在于：所述的基于云计算的数据聚类分析方法的运行环境由两种不同类型的数据节点组成：在从节点上负责数据的处理，在主节点上负责运行目标任务调度及不同节点之间的数据共享；具体包括如下步骤：

步骤A01：首先采用AP算法确定最佳聚类数的搜索范围，并利用有效性分析指标评估该搜索范围内各聚类结果的质量，根据评估结果得到数据集聚类数l_op，从而得到最佳聚类数范围[2,l_op]，并将数据集聚类数l_op作为基于云计算的数据聚类分析方法的输入；

步骤A02：基于并行框架的方法，将输入的数据集进行随机划分，划分结果标记为数据片split₁、split₂、split₃、...、和并将各数据片均转化为<key,value>形式，作为各map函数的输入；

步骤A03：Map阶段：根据步骤A01中输入的数据集聚类数l_op对输入的数据片运用C均值聚类算法进行分析，得到初始聚类中心，根据密度指标将数据集中每个数据点划分到数据点附近的聚类中，直到所有的数据点都划分完毕；

步骤A04：取所有map函数的输出，对输出结果进行汇总，并将汇总结果输出至Reduce阶段，汇总方法为：对map函数输出的数据节点，以key值为索引进行分组和排序，将属于同一聚类的数据点进行汇总；

步骤A05：Reduce阶段：读取步骤A04的输出结果并进行汇总处理，处理结束后输出聚类中心点及隶属于这个聚类中心的数据；

4.根据权利要求2所述的用于支撑智慧城市运行管理的智能电网大数据挖掘方法，其特征在于：所述的改进的关联规则方法，具体包括如下步骤：

步骤B03：计算每个表区内项目集的最小支持度；

步骤B05：进一步采用DHP算法，将每个表区的候选项目集中含有i-1个公共项目的局部频繁项目集进行两两合并；

步骤B07：执行Apriori算法第二步，计算全局频繁项目集的最小置信度，得到关联规则。

5.根据权利要求2所述的用于支撑智慧城市运行管理的智能电网大数据挖掘方法，其特征在于：所述的改进的离群分析方法，具体包括如下步骤：

步骤C01：根据用户的检测方向选择相应的子空间；

步骤C03：计算多个子空间属性的边际密度概率和子空间的联合密度分布概率来判断子空间属性之间的相关性，划分出两类子空间：相关性较大的相关子空间和“独立的”子空间；