CN113469500A

CN113469500A - 一种行业用电大数据特征分析方法及装置

Info

Publication number: CN113469500A
Application number: CN202110629487.XA
Authority: CN
Inventors: 方力谦; 严玉婷; 钟田勇; 罗陆宁; 黄媚; 李扬; 张月英; 李燕; 李志华; 罗益会; 潘柳; 石龙燕; 姜琳杰
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-10-01

Abstract

本发明公开一种行业用电大数据特征分析方法及装置，其中，行业用电大数据特征分析方法包括：步骤S1，确定行业用电负荷数据；步骤S2，对所述行业用电负荷数据进行预处理和标准化，获得行业用电负荷数据的标准化数据样本；步骤S3，根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取，分析行业用电特性。本发明采用AP聚类算法对行业用电数据进行相似度度量、特征分析及聚类，并与传统k‑means聚类算法进行结果比对，从测试结果显示AP聚类算法应用于行业用电大数据特征提取和数据分析中优于传统的k‑means聚类算法，具有实用价值和广泛应用前景。

Description

一种行业用电大数据特征分析方法及装置

技术领域

本发明涉及大数据分析及其聚类技术领域，尤其涉及一种行业用电大数据特征分析方法及装置。

背景技术

随着社会的不断发展与进步，各类能源用户不断增加，用电信息量巨大，而且一般存在错误的异常数据相比之下非常少，若对每一个数据都进行距离计算，所涉及的计算量十分庞大。因此，在对数据进行距离计算前，通过区域划分将数据集划分为若干个不相交的子数据集，然后对这些子数据集进行数据分析、特征提取和判定，对于明显不含有异常数据的子集则将其剪枝，不进行后续的距离计算。

聚类分析是基于相似性对数据进行分类的一种方法，利用聚类分析可将数据集划分为若干个区域。但是对于大部分聚类算法，其算法的复杂度通常与输入数据集的数据总量的平方正相关，而此处分析的数据总量很大，如此一来，会在聚类分析这一步消耗大量时间和存储空间，节省计算量的效果将会大打折扣。

特征提取，具体来说，样品指标(变量)之间存在程度不同的相似性，根据一批样品的多个观测指标(变量)，具体找出一些能够度量指标(变量)之间相似程度的统计量，以这些统计量为划分类型的依据。把一些相似程度较大指标(变量)的样品聚合为一类，把另外一些彼此之间相似程度较大的样品又聚合为另一类，直到把所有的样品聚合完毕。

目前常用的聚类分析方法主要有以下四种分类，(1)基于聚类特征概括的方法：对规模庞大到不能一次性读入内存的原始数据集，可以先识别，归纳出其中的某些数据对象，降低其对内存的占用，从而完成大规模数据的聚类分析，经典的方法有利用层次法的平衡迭代归纳聚类算法；(2)基于密度聚类的方法：判断哪个区域中的点很密，其密度超过了设定的阈值，那么就把这个区域中的点归为一类。这种算法的优点是可以找到任意形状的簇，并且对噪声不敏感。DBSCAN是一种典型的基于密度聚类的算法，不仅能够消除数据集中的噪声，也能够发现任意几何结构的簇。(3)基于采样聚类的方法：如果不能一次完全读原始数据到内存中，那么可以以某种方式采样对原始数据集进行处理，用样本点代表原始数据集，利用样本点聚类大规模数据。(4)基于约束信息的半监督聚类方法：一种用约束信息来监督聚类的搜索过程，根据半监督的思想，用少量的标签数据或部分约束信息指引聚类过程的进行，从而高效地完成大规模数据的聚类。

应用聚类技术来获得一组“集群化”和有代表性的场景是非常必要的。具体来说，k-means算法非常简单，在实际问题中得到了广泛应用，比如风电预测和负荷估计等。但是，它对初始分区非常敏感，并且非常依赖于聚类的数量。

发明内容

本发明所要解决的技术问题在于，提供一种行业用电大数据特征分析方法及装置，以提高数据特征分析的性能。

为了解决上述技术问题，本发明实施例提供一种行业用电大数据特征分析方法，包括：

步骤S1，确定行业用电负荷数据；

步骤S2，对所述行业用电负荷数据进行预处理和标准化，获得行业用电负荷数据的标准化数据样本；

步骤S3，根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取，分析行业用电特性。

进一步地，所述步骤S2对所述行业用电负荷数据进行预处理和标准化具体包括：

步骤S21，对生成的行业用电负荷数据样本按下述方式进行标准化处理：

其中，x_max＝max(x_i),i＝1,2,...,n，x_max表示某一组数据中的最大值，x_i表示某一组数据的第i个样本数据，n表示某组样本的总数量，max(·)表示取最大值函数，z_i表示经过标准化处理后的某组数据的第i个标准化样本；

步骤S22，对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。

进一步地，所述步骤S3具体包括：

步骤S31，根据步骤S2得到的标准化数据样本，计算相似矩阵s(i,k)，s(i,k)表示数据点k适合作为数据点i的榜样的程度：

s(i,k)＝-||z_i-z_k‖²

步骤S32，生成职责矩阵r(i,k)和可用性矩阵a(i,k)，r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度，a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度；

步骤S33，根据步骤S31获得的相似矩阵s(i,k)以及上一代的可用性矩阵a_t(i,k′)，更新下一代的职责矩阵r_t+1(i,k)：

步骤S34，根据步骤S33获得的职责矩阵r_t+1(i,k)更新下一代的可用性矩阵a_t+1(i,k)：

步骤S35，在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ：

r_t+1(i,k)←(1-λ)r_t+1(i,k)+λr_t(i,k)

a_t+1(i,k)←(1-λ)a_t+1(i,k)+λa_t(i,k)

步骤S36，重复步骤S33-S35，直到r(i,k)和a(i,k)稳定，或者达到最大迭代次数。

本发明还提供一种行业用电大数据特征分析装置，包括：

确定模块，用于确定行业用电负荷数据；

预处理和标准化模块，用于对所述行业用电负荷数据进行预处理和标准化，获得行业用电负荷数据的标准化数据样本；

聚类模块，用于根据近邻传播AP聚类算法对所述标准化数据样本进行数据分析和特征提取，分析行业用电特性。

进一步地，所述预处理和标准化模块对所述行业用电负荷数据进行预处理和标准化的具体方式为：

对生成的行业用电负荷数据样本按下述方式进行标准化处理：

对标准化数据样本中每一类行业用电负荷数据进行降序排列处理。

进一步地，所述聚类模块具体包括：

第一计算单元，用于根据标准化数据样本计算相似矩阵s(i,k)，s(i,k)表示数据点k适合作为数据点i的榜样的程度：

s(i,k)＝-‖z_i-z_k‖²

生成单元，用于生成职责矩阵r(i,k)和可用性矩阵a(i,k)，r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度，a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度；

第一更新单元，用于根据相似矩阵s(i,k)以及上一代的可用性矩阵a_t(i,k′)，更新下一代的职责矩阵r_t+1(i,k)：

第二更新单元，用于根据下一代的职责矩阵r_t+1(i,k)更新下一代的可用性矩阵a_t+1(i,k)：

衰减因子单元，用于在迭代计算r(i,k)和a(i,k)的过程中引入衰减因子λ：

r_t+1(i,k)←(1-λ)r_t+1(i,k)+λr_t(i,k)

a_t+1(i,k)←(1-λ)a_t+1(i,k)+λa_t(i,k)

迭代计算单元，用于迭代计算，直到r(i,k)和a(i,k)稳定，或者达到最大迭代次数。

本发明实施例的有益效果在于：本发明以邻近传播聚类方法为理论基础，是一种科学而且易行的聚类分析方案，具有显著的工程实用价值和广泛的应用前景；本发明相比于k-means聚类，基于相同的指标，其分组数少于k-means聚类方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一一种行业用电大数据特征分析方法的流程示意图。

图2是本发明实施例一一种行业用电大数据特征分析方法的具体流程示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例一提供一种行业用电大数据特征分析方法，包括：

步骤S1，确定行业用电负荷数据；

步骤S3，根据近邻传播(Affinity Propagation，AP)聚类算法对所述标准化数据样本进行数据分析和特征提取，分析行业用电特性。

具体地，请结合图2所示，步骤S2中预处理及标准化样本具体过程如下：

步骤S21，对生成的行业用电负荷数据样本进行标准化处理，其数学描述如下：

其中，x_max＝max(x_i),i＝1,2,...,n，x_max表示某一组数据中的最大值，x_i表示某一组数据的第i个样本数据，n表示某组样本的总数量，max(·)表示取最大值函数，z_i表示经过标准化处理后的某组数据的第i个标准化样本。

进一步地，步骤S3具体包括：

步骤S31，根据步骤S2得到的标准化数据样本，计算相似矩阵s(i,k)，s(i,k)表示数据点k适合作为数据点i的榜样的程度，通常设置为负的平方误差(欧氏距离)，其数学描述如下：

s(i,k)＝-||z_i-z_k‖²

步骤S32，初始化算法：生成职责矩阵r(i,k)和可用性矩阵a(i,k)，r(i,k)表示每个数据点i对候选榜样k比对其他候选榜样k'的偏爱程度；a(i,k)表示每个候选榜样k作为数据点i的集群中心的可用程度。

步骤S33，更新职责矩阵：步骤S31所获得的s(i,k)以及上一代的可用性矩阵a_t(i,k′)用于更新下一代的职责矩阵r_t+1(i,k)，其数学描述如下所示：

步骤S34，更新可用性矩阵：根据步骤S33所获得的职责矩阵r_t+1(i,k)更新下一代的可用性矩阵a_t+1(i,k)，计算过程如下：

步骤S35，引入衰减因子λ：为避免在迭代计算过程中r(i,k)和a(i,k)出现震荡现象，故引入衰减因子λ，其数学描述如下所示：

r_t+1(i,k)←(1-λ)r_t+1(i,k)+λr_t(i,k)

a_t+1(i,k)←(1-λ)a_t+1(i,k)+λa_t(i,k)

进一步地，步骤S3基于AP聚类算法获得最终的聚类结果，并进行各类行业用电数据的特征提取及数据分析，分析各行业的用电特性。

以下以某地区电网两种类型的真实数据为仿真对象来具体说明本实施例的行业用电大数据特征分析方法。

首先确定行业用电负荷数据，两组数据分别是：一组为8760个小时的某一真实负荷数据，一组为8760个小时的某一风力发电站的真实出力数据。

然后对用电负荷数据进行预处理和标准化。

对预处理和标准化后的数据样本，根据AP聚类算法对数据进行数据分析和特征提取：

首先，根据样本数据计算s(i,k)，通常设置为负的平方误差(欧氏距离)，其计算方式如下：

s(i,k)＝-‖z_i-z_k‖²

其次，初始化r(i,k)和a(i,k)，然后利用相似矩阵s(i,k)和上一代的a_t(i,k′)来更新下一代的职责矩阵r_t+1(i,k)，以及基于r_t+1(i,k)更新下一代的可用性矩阵a_t+1(i,k)。更新的数学表达式如下所示：

接着，为了避免在迭代计算过程中出现震荡现象，引入衰减因子λ，具体实现如下所示：

r_t+1(i,k)←(1-λ)r_t+1(i,k)+λr_t(i,k)

a_t+1(i,k)←(1-λ)a_t+1(i,k)+λa_t(i,k)

继续循环步骤S3的过程，直至达到最大收敛次数或者r(i,k)和a(i,k)稳定。

本实施例中基于AP聚类算法的行业用电大数据特征分析方法与传统的基于k-means聚类方法进行比对，其中基于k-means聚类方法在本实施例中设置为120组。而计算结果显示，两组样本共2×8760数据被本实施例基于AP聚类算法的行业用电大数据特征分析方法分为82组。

为了评估AP聚类的表现，从MATLAB的evalclusters函数中选取三个评估指标作为对比，如表1所示。不失一般性，基于k-means聚类方法增加了两个算例比对，分别为组数82组算例(与本发明方法分类组数相同)和分组组数为60组的算例(少于与本发明方法分类组数)。结果如表1所示：

表1 AP聚类和k-means聚类的对比结果

指标CH等于簇间距离除以簇内邻近度。因此，CH越大，簇内元素越接近，簇间元素越分散。指标DB计算数据簇间的相似度，DB越低，聚类结果越好。指标Sil度量元素与其集群之间的相似性。较高的Sil表明元素更强烈地倾向于它们当前的集群。如表1所示，k-means聚类分组为120组是k-means聚类结果中最优的，而AP聚类的分组数目仅为82组，且无需提前确定聚类数目。由上可知，本发明的基于AP聚类算法的行业用电大数据特征分析方法的性能优于k-means。

相应于本发明实施例一一种行业用电大数据特征分析方法，本发明实施例二提供一种行业用电大数据特征分析装置，包括：

确定模块，用于确定行业用电负荷数据；

进一步地，所述聚类模块具体包括：

s(i,k)＝-||z_i-z_k||²

r_t+1(i,k)←(1-λ)r_t+1(i,k)+λr_t(i,k)

a_t+1(i,k)←(1-λ)a_t+1(i,k)+λa_t(i,k)

有关本实施例的工作原理及过程，请参照前述实施例一的说明，此处不再赘述。

综上所述，相比于现有技术，本发明实施例带来的有益效果在于：本发明以邻近传播聚类方法为理论基础，是一种科学而且易行的聚类分析方案，具有显著的工程实用价值和广泛的应用前景；本发明相比于k-means聚类，基于相同的指标，其分组数少于k-means聚类方法。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。