CN111476316A

CN111476316A - 一种基于云计算下电力负荷特征数据均值聚类的方法及系统

Info

Publication number: CN111476316A
Application number: CN202010347852.3A
Authority: CN
Inventors: 易鹏; 李继国; 张亦辰; 陈宇; 杨书略
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-07-31
Anticipated expiration: 2040-04-28
Also published as: CN111476316B

Abstract

本发明涉及一种基于云计算下电力负荷特征数据均值聚类的方法及系统，首先将负荷样本分解为K个类；计算第Z类均值初始向量，接着随机指定第Z类的聚类中心；计算第Z类负荷中第j个负荷向量和第h个负荷向量之间的空间距离；然后计算两个电力负荷特征数据点之间的平均距离，然后设置一阈值，针对第Z类负荷，计算该类中每一个负荷向量到随机指定的该类的聚类中心的距离，如果每个负荷向量到该随机设定的聚类中心的距离都小于阈值，表明当前聚类中心选取合适，以该聚类中心表示这个类的用电级别和层次，否则再次随机设定一个聚类中心，重复上述计算。本发明聚类效果好，并且聚类效率高。

Description

一种基于云计算下电力负荷特征数据均值聚类的方法及系统

技术领域

本发明涉及电力系统与云计算技术领域，特别是一种基于云计算下电力负荷特征数据均值聚类的方法及系统。

背景技术

有效的电力负荷特征的聚类能及时了解电力负荷的变化规律，可以为智能电网提供电力负荷预测、智能电价、错峰、统筹管理等精准的数据支撑。

对于电力负荷聚类问题，传统的方法是选取固定的聚类数目，使用较为经典的算法进行聚类。诸如在层次聚类算法中，需要在不同层次上对电力负荷特征数据集进行分类任务操作，将所有的电力负荷样本视为单独个类，每个样本各自分到一个类，之后将相距最近的两类合并，建立一个新的类，通过相似性不断聚合，直至达到预期的聚类个数。

当前，传统的聚类算法针对电力负荷特征数据而言，存在如下不足之处：(1)对于阈值的选取往往不能真实反映出电力负荷特征数据的特点；(2)电力负荷特征数据的聚类样本与样本中心的欧式距离存在契合不好的情况；(3)传统聚类算法需要初始聚类中心来进行分类任务，如果初始值的选取不太合适，不会得到较好的聚类效果；(4)真实的电力负荷特征数据是庞大的基础电气参数数据，传统聚类算法无法较好地进行分析处理。

发明内容

有鉴于此，本发明的目的是提出一种基于云计算下电力负荷特征数据均值聚类的方法及系统，聚类效果好，并且聚类效率高。

本发明采用以下方案实现：一种基于云计算下电力负荷特征数据均值聚类的方法，具体包括以下步骤，

步骤S1：将负荷样本分解为K个类；其中，第Z类负荷Γ_Z中第j个负荷向量表示为Y_j，Y_j∈Γ_Z，Y_j＝[l_j1,l_j2,l_j3,…,l_ji,…,l_jM]，Z∈{1,2,…,K}；其中，l_ji表示第j个负荷向量Y_j中第i个负荷节点的负荷向量，j＝1,2,…,n_Z，i＝1,2,…,M，n_Z为第Z类负荷Γ_Z中的负荷个数，M为负荷节点个数；

步骤S2：计算第Z类均值初始向量

其中

的计算如下：

式中，

表示第Z类负荷Γ_Z中第i个负荷节点的均值初始值；

步骤S3：随机指定第Z类的聚类中心；

步骤S4：计算第Z类负荷Γ_Z中第j个负荷向量Y_j和第h个负荷向量Y_h之间的空间距离D(Y_j,Y_h)：

步骤S5：计算第Z类负荷中两个电力负荷特征数据点之间的平均距离：

式中，

表示表示从第Z类负荷Γ_Z中随机选取两个数据点的组合数；

步骤S6：将聚集在一起的数据点规定一个空间距离范围，并令该空间距离范围作为阈值U，采用下式计算阈值U：

U＝|D_avg-D(Y_j,Y_h)|；

步骤S7：针对第Z类负荷，计算该类中每一个负荷向量到随机指定的该类的聚类中心的距离，如果每个负荷向量到该随机设定的聚类中心的距离都小于阈值U，表明当前聚类中心选取合适，将当前随机指定的聚类中心输出，以该聚类中心表示这个类的用电级别和层次；若存在负荷向量到该随机指定的聚类中心的距离大于该阈值U，则表明当前聚类中心的选取不合适，则返回步骤S3，再次随机设定一个聚类中心；其中，第j个负荷向量Y_j与该随机指定的类中心的欧几里得距离

计算如下：

进一步地，在步骤S1之前还包括对数据进行预处理的步骤，该预处理包括以下步骤：

步骤S11：将原始采集的功率数据进行格式统一，将其转换为[0,1]之间的数：

式中，s[i]表示采样值即瞬时有功功率，c为电力负荷类型，sa为处理后的功率测量值；

步骤S12：将步骤S11处理后的功率数据进行去电压化影响：

式中，Voltage_nominal表示额定电压，Voltage_observed表示电压测量值，power_observed表示经过步骤S11处理后的功率测量值sa。

进一步地，采用MapReduce框架来对步骤S1-步骤S7进行分布式的计算处理。

进一步地，所述采用MapReduce框架来对步骤S1-步骤S7进行分布式的计算处理具体包括以下步骤：

将全体电力负荷数据作为MapReduce的作业输入，将负荷样本分解为K个类，即分为K个分片，为每一个分片分配一个MapTask任务；

Map函数执行并提取第Z类负荷中的负荷向量，计算第Z类均值初始向量，输入键值对<Key,Value>，其中Key为类名，Value为负荷向量；

在Map函数中构建Job₁任务，计算第Z类负荷中第j个负荷向量Y_j和第h个负荷向量Y_h之间的空间距离D(Y_j,Y_h)；构建Job₂任务，计算第Z类负荷中两个电力负荷特征数据点之间的平均距离；构建Job₃任务，将聚集在一起的数据点规定一个空间距离范围，计算阈值；

在Reduce函数中将键值对合并，即进行格式统一，将其转换为[0,1]之间的数；将功率数据进行归一化操作，计算功率测量值；

将Reduce接收到的不同Job任务进行并行处理，直接存储在内存中，同时将合并的键值对输出并将数据溢写到磁盘中。

进一步地，采用Hadoop系统来运行MapReduce框架。

本发明还提供了一种基于上文所述的基于云计算下电力负荷特征数据均值聚类的方法的系统，包括处理器、存储器以及存储于存储器上的计算机程序，当处理器在运行该计算机程序时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明基于改进后的负荷聚类算法，将随机选取的对象看做每个类的的聚类中心，每个聚类中心代表一个类，通过计算每个对象与聚类中心的欧式距离来用以对聚类的阈值进行比较得到最优的阈值，划分频率较高的电力负荷特征数据归为一类，其聚类中心可以表示这个类的用电级别和层次，进而可以很好地将电力负荷特征进行聚类，同时，本发明在云计算背景下，利用MapReduce在大规模数据集的并行运算的优势，可以较好地将并行运算任务分为映射(Map)和归约(Reduce)两大块，通过映射将数据划分成若干份，同时分配给高性能工作站进行分布式计算，具备高计算效率性、整合性、安全性和可靠性。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的电力数据分布图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于云计算下电力负荷特征数据均值聚类的方法，具体包括以下步骤，

步骤S2：计算第Z类均值初始向量

其中

的计算如下：

式中，

表示第Z类负荷Γ_Z中第i个负荷节点的均值初始值；

步骤S3：随机指定第Z类的聚类中心；

式中，

表示从第Z类负荷Γ_Z中随机选取两个数据点的组合数；

U＝|D_avg-D(Y_j,Y_h)|；

计算如下：

在本实施例中，在步骤S1之前还包括对数据进行预处理的步骤，该预处理包括以下步骤：

式中，s[i]表示采样值即瞬时有功功率，c为电力负荷类型，sa为处理后的功率测量值；由于原始数据集格式并不统一，需要提取每个电力负荷数据集的特征进行评估，同时也是归一化的操作，即转化为[0，1]之间的；

步骤S12：将步骤S11处理后的功率数据进行去电压化影响：

式中，Voltage_nominal表示额定电压，Voltage_observed表示电压测量值，power_observed表示经过步骤S11处理后的功率测量值sa。由于国内外电压取值范围都不尽相同，在我国，标准电压为220V，由于存在波动影响，即电压会随着不同因素的影响而发生波动并且在一定区间范围内变化，例如，同一电力负荷特征数据集中显示电压为180-250V变化，而在美国，电压在118-123V范围内变化。由于电压的波动会明显影响功耗，所以，必须考虑这些电压波动带来的影响，需要进行电压归一化处理。

较佳的，电力负荷特征数据往往是CSV文件数据，当创建完数据集并生成CSV文件导入后，数据会驻留在内存数据结构中，该结构可以在整个电力负荷特征聚类过程中使用，同时，当存在部分仪器设备数据因不同时间戳存在数据不完整、格式不统一、数据丢失等等的情况，本实施例通过采取一系列的预处理工作来完成数据清洗的任务，预处理工作除了上述的步骤S11与步骤S22之外，还包括以下几个方面：

考虑的大功耗设备：一般来说，电力负荷特征的聚类需要考虑大功耗设备，原因有以下三点：首先，大功耗设备在电力数据集中占有相当大的比重，其次，这些设备具有较为明显的谐波特征，再次，精准的电力负荷数据聚类会大大提高数据的可靠性。

检测间隙：当今很多算法都假设每个数据采集装置的通讯是连续的，然而，实际情况是，有时候会发生数据采集装置断开或发生故障等情况，如果设定一个参数值，当发生断开或故障的时间大于设定的参数值，那么，可以认为一个连续电力数据样本中会存在“间隙”。

考虑丢弃率：丢弃率是记录样本的总数除以预期样本的数量，为了考虑到某些不确定因素干扰而丢弃样本的情况，首先需要去除大间隙，然后计算得出剩余连续部分的丢弃率，在得到丢弃率之后，需要对设备传感器未报告读数、小数据缺失、去除异常数值(如观察到的电压超过额定电压的两倍)、主电源数据丢失数据等等进行评估。

计算正常运行时间：正常运行时间是传感器记录的总时间。总时间往往是一个周期的字符序列，它被表达为唯一标识某一刻的时间，由于采集电力负荷特征数据之时，存在时间周期不连续等因素，所以需要得到正常运行时间，它是最后一个时间戳，减去第一个时间戳，减去所有存在的间隙后所得到的持续时间。

在本实施例中，采用MapReduce框架来对步骤S1-步骤S7进行分布式的计算处理。Map-Reduce的并行计算能够根据任务节点的增多而迅速分配任务并进行快速的计算。云计算实质是分布式计算处理，Map-Reduce依靠其强大的分布式处理能力以及并行计算的优势，迅速获得全球的广泛关注，Map-Reduce的并行计算能够根据任务节点的增多而快速分配任务并且同时计算，这也是Map-Reduce分配处理的优势，即可以将庞大的电力负荷特征数据集分配成多个“容易处理”的任务，“容易处理”表现在以下几个方面：1、针对庞大的电力负荷特征数据集，在Map-Reduce的分配处理下，数据的规模、数据计算量等等都会大幅度降低；2、根据不同节点的计算能力和属性，Map-Reduce会将原始电力负荷特征数据“按需分配”，即把不同类型的数据交给不同的节点去处理；3、在Map-Reduce的分配处理下，各个节点可以较为均衡地进行并行计算，即便某个节点因为某种原因而不能运算，也不会影响到其他节点。

在本实施例中，所述采用MapReduce框架来对步骤S1-步骤S7进行分布式的计算处理具体包括以下步骤：

在本实施例中，采用Hadoop系统来运行MapReduce框架。Hadoop在分布式计算处理中表现尤为明显，其分布式文件管理系统最为擅长的就是数据分析，同时提供低成本的海量的存储能力和高冗余度的可靠性。具体包括配置JDK，SSH协议，Hadoop接口设计，认证机制，Secret key，构造Hadoop以及测试Hadoop的步骤。具体步骤说明如下：

步骤SA，集群；

在数据分析中，本实施例构建由一个Msater节点和slave1-4个节点组成的集群，用于分布计算Map函数和Reduce函数；

步骤SB，配置JDK；

配置JDK(Java SE Development kit)，基于标准的Java应用程序开发包，需要对其进行设置、编译等操作，同时，还需要对JDK进行环境变量的设置，以便后续Job任务的开展；

步骤SC，SSH协议；

Map-Reduce需要频繁进行键值对的处理操作，构造和配置SSH安全协议，可以将Job任务并行处理于分布式的环境中。

步骤SD，Hadoop接口设计；

构建接口InputForma键值对<Key,Value>，其子接口包括InputFormat<Key₁,Value₁>和InputFormat〈Key₂,Value₂〉，用以实现Hadoop文本文件和序列文件的读取。

步骤SE，认证机制；

对于新的作业的输入，即把将负荷样本分解为K个类，即分为K个分片，为每一个分片分配一个MapTask任务，在各个MapTask任务之间构造一个免密互认脚本文件存放于Master节点上，以便于各个MapTask任务之间协同运作；

步骤SF，Secret key；

在MapTask任务的安全性方面，设计和构造Secret key存放于免密互认脚本文件之中，在Master节点上通过命令“ssh-keygen–t rsa–P”执行文件；

步骤SG，构造Hadoop；

通过对Hadoop环境变量、Master节点以及Slaves节点的设计、构造以及配置，用以搭建Hadoop测试平台；

步骤SH，测试Hadoop；

通过初始化Hadoop分布式文件系统之后，测试Msater节点和slave1-4个节点。

在本实施例中，处理庞大的电力负荷特征数据时，根据Map-Reduce的计算能力，在以windows系统的计算机上进行单机版的黑盒测试，同时，针对于Hadoop平台全面支持并兼容Linux操作系统，分布式研究实验将在Linux操作系统上完成，搭载Hadoop平台的5个节点，Hadoop版本为2.7.6，Hbase版本为1.2.6，JDK版本为JDK-7，网络带宽为100Mbit/s。

本实施例还提供了一种基于上文所述的基于云计算下电力负荷特征数据均值聚类的方法的系统，包括处理器、存储器以及存储于存储器上的计算机程序，当处理器在运行该计算机程序时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

本实施例选取某房屋的电力负荷特征数据为例，电力负荷特征情况如下：

将数据样本导入本实施例的系统计算后，通过负荷聚类改进算法得到如下数据：

从实验结果可以看出，经过改进后的负荷聚类改进算法可以得到K值计算结果为4，即把电力负荷特征数据分为了四大类，聚类效果较为理想，对应每一个时刻的数据既体现了固定的差距，也能够体现出数据之间的联系，同时，能够反映出数据类别之间的差异，即每类的数据都具备能反映出用户的行为特征和习惯，例如在18:00时，是电网的用电高峰，能够较为直观地反应出居民用电情况，电力数据分布图如图2所示，其中，Hadoop集群的处理效率如下表：

综上，采用本实施例的方法，能够使得具有相同或者相似特性的电力数据可以归为一个大类的电力负荷特征数据，同时采用MapReduce框架能够使得计算的效率大大提升。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于云计算下电力负荷特征数据均值聚类的方法，其特征在于，包括以下步骤，

步骤S1：将负荷样本分解为K个类；其中，第Z类负荷Γ_Z中第j个负荷向量表示为Y_j，Y_j∈Γ_Z，Y_j＝[l_j1,l_j2,l_j3,···,l_ji,···,l_jM]，Z∈{1,2,···,K}；其中，l_ji表示第j个负荷向量Y_j中第i个负荷节点的负荷向量，j＝1,2,···,n_Z，i＝1,2,···,M，n_Z为第Z类负荷Γ_Z中的负荷个数，M为负荷节点个数；

步骤S2：计算第Z类均值初始向量