CN112465014B

CN112465014B - 一种面向配电物联网的海量安全数据在线聚合方法

Info

Publication number: CN112465014B
Application number: CN202011346272.9A
Authority: CN
Inventors: 栾奇麒; 宋庆武; 张腾飞; 蒋峰; 刘海姣; 李春鹏; 官国飞; 王昕平; 田昕泽
Original assignee: Nanjing University of Posts and Telecommunications; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Nanjing University of Posts and Telecommunications; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-06-14
Anticipated expiration: 2040-11-26
Also published as: CN112465014A

Abstract

本发明提出一种面向配电物联网的海量安全数据在线聚合方法，能够解决海量数据信息孤立以及实时新增在线数据无法得到准确聚合分类的问题，提高了对配电物联网新增在线安全数据的聚合准确度，保证配电物联网的计算效率和数据处理的时效性，实现配电物联网的安全可靠运行。

Description

一种面向配电物联网的海量安全数据在线聚合方法

技术领域

本发明涉及配电物联网海量安全数据处理的技术领域，尤其涉及一种面向配电物联网的海量安全数据在线聚合方法

背景技术

配电物联网作为泛在电力物联网在配电领域的成功实践，实现了物联网和配电网的融合，成为了泛在电力物联网建设的主战场，然而，配电物联网终端监测和采集到的海量安全数据，却存在以下问题：数据信息较为孤立，难以得到综合全面的利用，信息孤岛问题严重；各个监测系统或装置间缺乏横向沟通，信息交互存在困难；信息的纵向联系不深入，原始离线数据的剖析不到位，对新增的在线数据处理不及时等等。

现有针对配电物联网海量安全数据在线聚合的方法比较匮乏，无法实现对新增在线数据的精准聚合分类，因而造成了配电终端对海量安全数据的聚合准确度不高，对海量安全数据信息处理效率较低，降低了在线数据的利用深度。配电网物联网中的海量安全数据受到多种因素制约，若无法对其离线和在线数据进行准确的聚合分类，将会导致输入到计算中心的信息错误，从而影响配电物联网的安全可靠运行。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，本发明提出一种面向配电物联网的海量安全数据在线聚合方法，能够解决海量数据信息孤立以及实时新增在线数据无法得到准确聚合分类的问题，提高了对配电物联网新增在线安全数据的聚合准确度，保证配电物联网的计算效率和数据处理的时效性，实现配电物联网的安全可靠运行。

本发明所述的一种面向配电物联网的海量安全数据在线聚合方法，包括，

S1：获取海量安全数据并利用Map映射机制对其进行划分，得到等分容量大小的子数据集；

S2：利用MapReduce编程模型对传统的K-means算法进行改进，并将其建立在Hadoop分布式集群上，得到优化的K-means算法；

S3：对于配电物联网的离线海量安全数据，运用优化的K-means算法进行训练，得到种类性质各不相同的类簇；

S4：对于配电物联网的在线新增数据，利用模糊K-means增量算法对其进行聚合；

S5：基于训练后的模糊K-means增量算法模型对在线新增数据进行处理，判定新增在线数据所属的类簇；

S6：利用Reduce机制，对配电物联网离线数据聚合处理和新增在线数据聚合得到的类簇进行合并处理并得到最终结果。

进一步的，S1中，对海量安全数据进行划分还包括，

S1-1：对获取到的海量安全数据进行离散化处理，得到离散化数据；

S1-2：将离散化数据进行矩阵化处理，得到与时间相关的数据矩阵；

S1-3：利用与时间相关的数据矩阵，将获取到的海量安全数据分为海量离线安全数据和新增在线安全数据两部分。

进一步的，所述优化的K-means算法利用离线数据样本与类簇中心的距离计算离线数据样本归属于不同类簇的隶属度，进一步描述了不同的离线数据样本对于类簇中心迭代计算的不同贡献度，且离线样本对于类簇簇心的贡献度与样本和簇心的距离成反比。

进一步的，所述的模糊K-means增量算法定义了相似性和差异性，对于新增在线数据x_new，对其划分完之后，比较x_new插入后的类簇i的类内相似性 cohesion(V_i)'与未插入x_ne之前的类内相似性cohesion(V_i)的变化，若 |cohesion(V_i)'-cohesion(V_i)|＜α(α为常数)，则不对类簇i进行分裂；否则，对类簇i 进行分裂。

进一步的，所述隶属度计算公式为，

其中，μ_ij是样本X_j对于第i个类簇的隶属度；d_ij是样本X_j与簇心v_i的欧氏距离；m是模糊系数；k是聚类的类簇个数。

进一步的，所述优化的K-means算法具体包括如下步骤，

S2-1：定义类簇个数k；初始化聚类中心v_i；距离判断阈值

模糊系数m；上下近似加权系数ω_l和ω_b；

S2-2：对每个对象X_j，计算X_j到各个类簇中心点v_i的欧氏距离d_ij，选择 o＝{i|d_ij＝min({d_ij})，i＝1,2...,k，如果

则

且

否则x_j∈C_i ，对于所有类簇，

其中，o表示欧式距离最小值的类簇集合、o′表示两个不同的类簇欧式距离中较小的类簇集合，C_i 和C_i'表示两个不同的，

和

表示类簇C_i 和C_i'的边界区域，

为类簇C_i 及其边界区域的并集；

S2-3：利用公式1计算每个样本的对于每个类簇的隶属度；

S2-4：利用公式2迭代计算每个类簇的簇心；

其中，μ_ij是样本X_j对于第i个类簇的隶属度；

S2-5：如果簇心不再发生变化或者达到设定的迭代次数，则算法终止，否则返回S2-2。

进一步的，所述对海量离线安全数据的处理还包括，将经过优化的K-means 算法处理的各子数据集的结果进行识别并输出类型，得到不同的类簇结果。

进一步的，所述相似性是指同一类簇内数据之间的相似性，差异性是指不同类簇数据之间的差异性，相似性和差异性分别是由凝聚度(cohesion)和分离度(separation)公式来体现，凝聚度和分离度公式如下，

separation(V_i,V_j)＝d(v_i,v_j) 公式4

其中，V_i和V_j表示不同的类簇，v_i和v_j分别为类簇V_i、V_j的中心，x表示类簇V_i的某一中心，cohesion(V_i)表示类簇V_i内数据的相似性，separation(V_i,V_j)表示类簇V_i和V_j之间的差异性。

进一步的，所述采用模糊K-means增量算法对配电物联网新增在线数据的划分步骤如下，

S5-1：计算当前离线数据样本中任意2个类簇间的分离度separation(V_i,V_j)；

S5-2：计算新增在线数据点x_new与各类簇中心点之间的距离：D_i＝d(x_new,v_i)。取阈值

S5-3：如果D_i＞maxdist，则以x_new为中心点形成一个新的类簇。

S5-4：如果D_i＜maxdist，则x_new属于第i类。

S5-5：如果D_i＜maxdist且D_j＜maxdist，则合并类簇i和类簇j，此时x_new属于合并后的类簇。

本发明的有益效果：本发明借助Hadoop平台，通过MapReduce并行编程模型，将K-means聚类算法进行优化，并将其建立在Hadoop分布式集群上，基于分布式存储和并行计算对海量离线安全数据进行处理，实现了对离线数据的准确聚合和分类，而后采用模糊K-means增量聚类算法，对配电物联网中的时时新增在线数据进行聚合，提高了数据的聚合准确度，满足了对新增在线数据的聚合实时处理要求，使得配电物联网海量安全数据的利用率和准确度更高，为配电物联网的安全运行提供了可靠的保证。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1表示：配电物联网海量安全数据在线聚合过程图

图2表示：改进的K-means聚类算法示意图

图3表示：模糊K-means增量算法对新增在线数据的处理流程图

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1的示意，示意为本实施例提出的面向配电物联网的海量安全数据在线聚合方法，该方法包括以下步骤，

具体的，根据目标要求，需要获得的海量安全数据包括电流、电压、功率等，利用Map映射机制将海量安全数据的集合按照等分的容量大小划分为子数据集1、子数据集2，...，子数据n，并通过任务分配节点分配到各任务执行节点。

其中，对海量安全数据进行划分还包括以下步骤，

对获取到的海量安全数据进行离散化处理，得到离散化数据；其中，离散化处理的方法包括等距、等频处理方法，对于采集时即为离散化的数据则不需要进行离散化处理，例如开关量。

将离散化数据进行矩阵化处理，得到与时间相关的数据矩阵。具体的，假设向量N为某一设备在某一时刻采集并离散化处理后的数据，且 N＝(n₁,n₂,Kni,K,n_m,t)。其中，m表示维数，n_i表示第i维样本数据取值，t表示采集时刻，可以得到该时刻采集到的数据矩阵N_q为：

则可以得到在某一时间段内多个设备所收集到的数据矩阵M：

进而，以t时刻为分界点，则t时刻以前获得的所有数据即为离线数据，t 时刻后的每一个数据量都可看作在线新增数据。

S2：对传统的K-means聚类算法进行改进，并将其建立在Hadoop分布式集群上；

参照图2的示意，为改进的K-means聚类算法示意图，其中，将能够确定归属于一个类簇的数据样本划分到该类簇对应的下近似集，而将具有不确定归属关系的数据样本划分到两个或以上类簇的边界区域。在优化的K-means算法中，对聚类对象做如下规定：

待聚类对象最多只能确定属于一个类簇的下近似集；

处于边界区域的聚类对象可以属于两个或多个类簇的上近似集；

每个类簇由下近似集和边界区域两部分组成；

下近似集和边界区域构成每个类簇的上近似集。

S3：对优化的K-means算法应用到配电物联网的海量离线安全数据样本子集中进行训练；

S4：基于训练后的模型对经过Map划分的子数据集进行处理，判定数据的类簇；

具体的，所述优化的K-means算法对子数据集进行处理流程包括，

设定类簇个数k；初始化聚类中心v_i；距离判断阈值

模糊系数m；上下近似加权系数ω_l和ω_b。

对每个对象X_j，计算X_j到各个类簇中心点v_i的欧氏距离d_ij。选择 o＝{i|d_ij＝min({d_ij})}，i＝1,2...,k，如果

则

且

否则x_j∈C_i 。对于所有类簇，

利用公式1计算每个样本的对于每个类簇的隶属度。

利用公式2迭代计算每个类簇的簇心。

如果簇心不再发生变化或者达到设定的迭代次数，则算法终止，否则返回重新计算X_j到各个类簇中心点v_i的欧氏距离d_ij。

将经过模型处理的各子数据集的结果进行识别并输出类型，得到不同的类簇结果。

S5：对于新增的在线数据，使用模糊K-means增量算法进行划分；

参照图3的示意，为模糊K-means增量算法对新增在线数据的处理流程图，具体步骤如下，

计算当前离线数据样本中任意2个类簇间的分离度separation(V_i,V_j)；

计算新增在线数据点x_new与各类簇中心点之间的距离：D_i＝d(x_new,v_i)。取阈值

如果D_i＞maxdist，则以x_new为中心点形成一个新的类簇。

如果D_i＜maxdist，则x_new属于第i类。

如果D_i＜maxdist且D_j＜maxdist，则合并类簇i和类簇j，此时x_new属于合并后的类簇。

S6：利用Reduce机制，对离线聚合和在线聚合进行合并处理并得到最终结果。

通过多个Reduce函数可以把每一个节点计算处理得到的类簇进行汇总并得到最终的结果。

Claims

1.一种面向配电物联网的海量安全数据在线聚合方法，其特征在于：包括，

S6：利用Reduce机制，对配电物联网离线数据聚合处理和新增在线数据聚合得到的类簇进行合并处理并得到最终结果；

所述优化的K-means算法利用离线数据样本与类簇中心的距离计算离线数据样本归属于不同类簇的隶属度，进一步描述了不同的离线数据样本对于类簇中心迭代计算的不同贡献度，且离线样本对于类簇簇心的贡献度与样本和簇心的距离成反比；

所述隶属度计算公式为，

其中，μ_ij是样本X_j对于第i个类簇的隶属度；d_ij是样本X_j与簇心v_i的欧氏距离；m是模糊系数；k是聚类的类簇个数；

所述优化的K-means算法具体包括如下步骤，

S2-1：定义类簇个数k；初始化聚类中心v_i；距离判断阈值

模糊系数m；上下近似加权系数ω_l和ω_b；

S2-2：对每个对象X_j，计算X_j到各个类簇中心点v_i的欧氏距离d_ij，选择o＝{i|d_ij＝min({d_ij})，i＝1,2...,k，如果

则

且

否则x_j∈C_i ，对于所有类簇，

和

表示类簇C_i 和C_i'的边界区域，

为类簇C_i 及其边界区域的并集；

S2-3：利用公式1计算每个样本的对于每个类簇的隶属度；

S2-4：利用公式2迭代计算每个类簇的簇心；

其中，μ_ij是样本X_j对于第i个类簇的隶属度；

2.如权利要求1所述的一种面向配电物联网的海量安全数据在线聚合方法，其特征在于：S1中，对海量安全数据进行划分还包括，

3.如权利要求1或2所述的一种面向配电物联网的海量安全数据在线聚合方法，其特征在于：所述的模糊K-means增量算法定义了相似性和差异性，对于新增在线数据x_new，对其划分完之后，比较x_new插入后的类簇i的类内相似性cohesion(V_i)′与未插入x_new之前的类内相似性cohesion(V_i)的变化，若|cohesion(V_i)'-cohesion(V_i)|＜α，α为常数，则不对类簇i进行分裂；否则，对类簇i进行分裂。

4.如权利要求1所述的一种面向配电物联网的海量安全数据在线聚合方法，其特征在于：对海量离线安全数据的处理还包括，将经过优化的K-means算法处理的各子数据集的结果进行识别并输出类型，得到不同的类簇结果。

5.如权利要求3所述的一种面向配电物联网的海量安全数据在线聚合方法，其特征在于：所述相似性是指同一类簇内数据之间的相似性，差异性是指不同类簇数据之间的差异性，相似性和差异性分别是由凝聚度cohesion和分离度separation公式来体现，凝聚度和分离度公式如下，

separation(V_i,V_j)＝d(v_i,v_j) 公式4

其中，V_i和V_j表示不同的类簇，v_i和v_j分别为类簇V_i、V_j的中心，x表示数据样本，cohesion(V_i)表示类簇V_i内数据的相似性，separation(V_i,V_j)表示类簇V_i和V_j之间的差异性。

6.如权利要求3所述的面向配电物联网的海量安全数据在线聚合方法，其特征在于：采用模糊K-means增量算法对配电物联网新增在线数据的划分步骤如下，

S5-2：计算新增在线数据点x_new与各类簇中心点之间的距离：D_i＝d(x_new,v_i)，取阈值

S5-3：如果D_i＞maxdist，则以x_new为中心点形成一个新的类簇；

S5-4：如果D_i＜maxdist，则x_new属于第i类；