CN113159087A

CN113159087A - 基于海量负荷数据的居民用电行为辨识分析和管理方法

Info

Publication number: CN113159087A
Application number: CN202011643499.XA
Authority: CN
Inventors: 吴博; 郑卫东; 张庶; 杜九菊
Original assignee: Nanyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Current assignee: Nanyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-07-23

Abstract

本发明属于用电分析及管理技术领域，具体涉及一种基于大数据的居民用电行为分析及管理方法，包括如下步骤：S1.对海量负荷数据的体量分解和数据处理算法的解耦，实现对海量负荷数据的处理；S2.基于高性能分布式计算框架及分布式计算模型，设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法；S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿，提升用电行为类别和典型用电模式辨识算法数据分析精度；S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。该发明解决了传统数据处理方法在面对海量负荷数据时效率较低、精度较差的问题。

Description

基于海量负荷数据的居民用电行为辨识分析和管理方法

技术领域

本发明属于用电分析及管理技术领域，具体涉及一种基于海量负荷数据的居民用电行为辨识分析和管理方法。

背景技术

随着我国智能电网的飞速发展，用户负荷快速增长。我国逐步推进电力行业的工作重心转移，从单一需求侧管理向用户侧资源主动参与电力系统供需平衡的过程转移。现阶段电力系统负荷数据具有高密度和多样性的特点，深度挖掘负荷数据的需求响应潜力和网荷互动能力，对提高电网运行的安全性和经济性具有十分重要的意义。因此，针对用户用电行为，前瞻性地开展相关研究，科学评估其行为特征，依托海量数据采集、存储、传输等技术优势，形成有效的用户用电模式精细化辨识方法，实现海量用户负荷数据的高效处理，制定合理的需求侧响应方案与优化用电策略是近未来能源应用策略制定中应重点研究的问题。

目前，随着用电信息采集系统和高级量测技术体系的逐渐发展和完善，体量庞大、种类繁多、结构复杂的用户负荷数据信息为相关负荷研究工作提供了坚实的数据基础，同时也带来了新的挑战。一是面对体量庞大、结构复杂、种类繁多的负荷数据信息时，现有用户用电行为分析方法往往由于辨识过程中样本体量过大导致效率低下。且海量负荷数据由于其复杂性和多样性，往往还存在有潜在的数据类别不平衡问题，会进一步影响用户用电行为分析模型的辨识效果，使得电网侧无法对海量负荷数据中深层次的用户用电行为特征等信息进行准确分析和有效利用。二是现有用户用电模式提取技术仍存在一定的局限性。传统聚类算法和分类算法受限于算法性能，面对海量负荷数据呈现出的数据种类繁多、结构复杂等特点，传统分析方法数据适应性较差，难以深入挖掘提取用户的潜在用电行为特性，且海量负荷数据的数据缺失和数据异常等问题仍需要更加有效的解决方法。三是在电力市场化进程的不断推进过程中，用户需求多元化的发展对现有电网运行也提出了新的挑战。现有需求响应方案和用电优化策略难以适应愈加复杂多样的用户用电需求，电网公司需要在用户用电行为精细化分析的基础上深入挖掘用户需求响应潜力，制定合理的需求响应方案；并通过充分地挖掘用户互动能力，提升优化用电的效果。

综上，有必要开展基于大数据的居民用电行为智能辨识分析及智慧用电管理策略研究，进一步拓展至用户需求侧响应潜力的感知，提出基于大数据分析结论的需求响应方案和用电优化策略，支撑负荷精细化管理，实现用户优化用电并提升其效果，为电网未来安全、经济运行提供理论支撑。

发明内容

本发明的目的在于针对现有技术中存在的问题提供一种基于海量负荷数据的居民用电行为辨识分析和管理方法，使用该方法以海量负荷数据信息为基础，建立了基于海量负荷数据的高性能计算框架和集成学习模型，并提出了负荷数据类别不平衡处理方法，解决了传统数据处理方法在面对海量负荷数据时效率较低、精度较差的问题。

本发明的技术方案是：

基于大数据的居民用电行为分析及管理方法，包括如下步骤：

S1.对海量负荷数据的体量分解和数据处理算法的解耦，实现对海量负荷数据的处理；

S2.基于高性能分布式计算框架及分布式计算模型，设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法；

S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿，提升用电行为类别和典型用电模式辨识算法数据分析精度；

S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。

具体的，所述的步骤S1中采用分布式计算模型MapReduce，MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集，首先，MapReduce 作业会把输入的海量负荷数据集切分为若干个独立的数据块，并由Mapper以完全并行的方式处理；然后，Mapper的中间输出被分区排序后复制给相应的 Reducer，Reducer收集Mapper的中间输出并生成最终输出结果。

具体的，所述的步骤S2中对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算，负荷数据聚类分析、分类分析和回归分析，海量负荷数据用电行为类别和电性用电模式辨识算法处理。

具体的，步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理，所述的集成学习算法使用Bagging、Boosting和Stacking 中的其中一种。

具体的，所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集，该方法根据负荷曲线间的欧氏距离，找出少数类训练样本中与多数类相邻的边界元素，对该边界集使用SMOTE算法随机合成新训练样本，调整数据合成比例，使多数类与少数类样本数大致平衡，从而解决由于训练样本类别不平衡造成的训练精度下降的问题。

具体的，所述的步骤S4中试验采用如下方法进行：类别不平衡处理方法对比试验、分布式计算效率对比试验、集成学习精度对比试验。

在数据分析算法方面，数据分析算法研究主要集中在无监督聚类和有监督分类算法方面。研究较为成熟的聚类算法包括K-means、模糊C均值聚类算法以及层次聚类算法等。相较无监督聚类难以利用标签信息的缺点，以BP神经网络和支持向量机为代表的有监督分类算法可有效利用先验知识，在数据分类领域取得较好效果。

在大数据分析算法方面，国内外多从两方面来提高处理数据处理的效能。有研究通过改进数据分析算法性能来提高其对大数据的处理能力。有文献公开了针对新接入用户用电模式的辨识问题，采用模糊C均值聚类提取历史负荷数据若干模型建立负荷特征库，利用决策树对新接入用户进行负荷模式识别；文献[5]基于用户心理学原理构建了峰谷分时电价的负荷转移率模型，并以此为基础构建用户调节潜力指标，通过该指标对用户用电数据进行聚类分析，所提方法与传统聚类方法相比聚类效果更佳。有文献公开使用密度参数方法对K-means 算法进行优化，获得较高的聚类精度；有文献公开提出一种改进的自适应模糊C 聚类方法，取得较为准确的牵引负荷分类结果。还有研究通过数据降维的方式来提高大数据的处理效能。苏格兰邓迪大学引入截断离散傅里叶变换系数降低数据维度，以此提高K-means算法对某用户区典型日负荷曲线的聚类效果。有文献公开为应对日负荷曲线高维特性，通过奇异值分解方法将日负荷曲线降维处理，再以奇异值指标权重，采用加权欧式距离的K-means算法对日负荷曲线聚类处理，其聚类方法具有较高的准确性和良好的鲁棒性；有文献公开研究多种数据降维技术，对降维后的数据进行重采样、划分聚类、层次聚类，并对比各种方法表明结合主成分分析降维的集成聚类算法效果最佳。有文献公开通过智能电表的海量数据建立混合高斯模型以得到不同负荷曲线特征，然后基于频谱分析的降维特征得到较好的聚类结果。但数据降维算法并没有解决面对海量负荷数据时运算效率低下的问题。

在海量用户负荷数据处理分析算法方面，国内外学者主要在数据分析算法性能改良以及数据降维方面进行研究。随着负荷数据呈现爆炸式增长趋势，传统聚类或分类算法面临着计算效率低下或无法处理的问题。虽然数据降维可以有效改善高维负荷数据的聚类效果，但面对高维、海量的用户负荷数据时，依然无法有效解决算法处理效率低、数据处理难度大的问题。当前，也有少量研究针对海量负荷数据提出基于hadoop分布式计算平台的并行分类算法，但是其在分类算法方面依然局限于机器学习层面，受限于算法学习能力的瓶颈，难以满足海量高维的负荷数据特征深度挖掘和用电行为模式精细化辨识的需要。

总体来看，传统负荷数据分析算法在应对海量负荷数据时，存在包括算法效率低下，算法学习能力不足等在内的诸多问题，有必要针对海量用户用电行为数据建立高效普适的大数据处理分析架构，从而深度掌握电力用户用电特性，为电网公司的错峰管理、分时电价的制定、有序用电指导提供基础。

本发明的有益效果是：该方法针对现有负荷数据处理技术在面对海量负荷数据时存在的效率低、精度差等问题，首先提出MapReduce分布式计算模型，作为针对大数据处理的理论基础；结合当前大数据分析的实际应用平台，提出基于Spark的分布式计算框架，作为针对海量负荷数据处理的计算框架，并通过集成学习方法解耦由于分布式计算数据分割带来的计算误差；最后针对海量负荷数据广泛存在的类别不平衡问题，提出Borderline-SMOTE过采样方法，对负荷数据进行平衡化处理，进一步提升算法处理的精度。

本发明中使用的MapReduce通过Map和Reduce两个步骤来并行处理大规模的数据集，可以把大规模计算工作自动地并发和分布执行。MapReduce作业通常会把输入的数据集切分为若干个独立的数据块，并由Mapper以完全并行的方式处理；随后，Mapper的中间输出被分区排序后复制给相应的Reducer，Reducer 收集Mapper的中间输出并生成最终输出结果。

Spark平台是一种高效的分布式计算平台，不仅可应用Hadoop框架下的分布式文件系统，具有MapReduce模型的优点，而且采用弹性分布式数据集将集群分布式计算数据缓存在各个节点内存中，避免大量I/O过程，在处理迭代问题时效率优于Hadoop数倍，具有计算更加高效的优点。以分类分析为例，其基本思想是:抽样获得原训练数据集的多个训练样本子集，通过分类算法并行化实现单独学习各子集，形成性能差异的基分类器，最终通过多个基分类器共同决定测试样本集的分类结果。Spark平台为各种算法的分布式化提供了基本编程框架，可极大提高海量数据分析算法的运算效率，不足之处是算法分布式化后由于数据分割导致计算误差增大。提出适用于海量负荷数据用电行为类别和典型用电模式辨识算法的高性能分布式计算框架，并在此编程框架基础上实现海量负荷数据用电行为类别的聚类分析、分类分析以及回归分析。

集成学习算法将算法并行化的处理结果通过一定组合策略结合以得到更优结果，可有效解耦由于分布式计算数据分割带来的计算误差。目前，集成学习算法主要包括Bagging、Boosting和Stacking三种，相较Boosting和Stacking， Bagging具有并行化学习器生成特性，更适合对算法分布式化运行结果进行优化，海量负荷数据潜在的类别不平衡问题会对模型分类准确率造成较大的影响，采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集:该方法根据负荷曲线间的欧氏距离，找出少数类训练样本中与多数类相邻的边界元素，对该边界集使用SMOTE算法随机合成新训练样本，调整数据合成比例，使多数类与少数类样本数大致平衡，从而解决由于训练样本类别不平衡造成的训练精度下降的问题。

附图说明

图1是本发明的结构示意图；

图2是MapReduce结构示意图；

图3是基于Spark的分布式计算分类模型示意图；

图4是Bagging集成算法原理结构示意图。

具体实施方式

下面结合附图及具体实施方式对本发明的技术方案进行详细的描述。

如图1所示为本发明提供的基于海量负荷数据的居民用电行为辨识分析和管理方法的结构示意图，包括如下步骤：

实施例1

本实施例针对步骤S1对于处理大规模的负荷数据集采用分布式计算模型MapReduce，MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集，首先，MapReduce作业会把输入的海量负荷数据集切分为若干个独立的数据块，并由Mapper以完全并行的方式处理；然后，Mapper的中间输出被分区排序后复制给相应的Reducer，Reducer收集Mapper的中间输出并生成最终输出结果，如图2所示。

实施例2

本实施例针对步骤S2对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算，负荷数据聚类分析、分类分析和回归分析，海量负荷数据用电行为类别和电性用电模式辨识算法处理，其中本实施例提供了具体采用Spark平台的特点，Spark平台是一种高效的分布式计算平台，不仅可应用 Hadoop框架下的分布式文件系统(Hadoopdistributed file system,HDFS)，具有MapReduce模型的优点，而且采用弹性分布式数据集(resilient distributed dataset,RDD)将集群分布式计算数据缓存在各个节点内存中，避免大量I/O过程，在处理迭代问题时效率优于Hadoop数倍，具有计算更加高效的优点。基于Spark的分布式计算平台还具有普适性的优点，可用于聚类分析、分类分析、预测分析等多种数据挖掘工作；以分类分析为例，其基本思想是:抽样获得原训练数据集的多个训练样本子集，通过分类算法并行化实现单独学习各子集，形成性能差异的基分类器，最终通过多个基分类器共同决定测试样本集的分类结果。

实施例3

步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理，所述的集成学习算法使用Bagging、Boosting和Stacking中的其中一种。

本实施例在所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集，该方法根据负荷曲线间的欧氏距离，找出少数类训练样本中与多数类相邻的边界元素，对该边界集使用SMOTE算法随机合成新训练样本，调整数据合成比例，使多数类与少数类样本数大致平衡，从而解决由于训练样本类别不平衡造成的训练精度下降的问题。该平台具有普适性的优点，可用于聚类分析、分类分析、预测分析等多种数据挖掘工作；以分类分析为例，其基本思想是:抽样获得原训练数据集的多个训练样本子集，通过分类算法并行化实现单独学习各子集，形成性能差异的基分类器，最终通过多个基分类器共同决定测试样本集的分类结果，如图3所示。

实施例4

Spark平台为各种算法的分布式化提供了基本编程框架，可极大提高海量数据分析算法的运算效率，不足之处是算法分布式化后由于数据分割导致计算误差增大。集成学习算法将算法并行化的处理结果通过一定组合策略结合以得到更优结果，可有效解耦由于分布式计算数据分割带来的计算误差。目前，集成学习算法主要包括Bagging、Boosting和Stacking三种，相较Boosting和 Stacking，Bagging具有并行化学习器生成特性，更适合对算法分布式化运行结果进行优化，因此发明在步骤S3中采用更适用于分布式并行计算的Bagging集成学习算法。

下面对Bagging集成学习算法进行详解。

Bagging算法的基本思想是:抽样获得原训练数据集多个子集，分别独立学习各子集形成性能差异的弱学习器，最终通过多个弱学习器进行集成学习组合共同决定输出结果。由于其多个弱学习器间没有依赖关系，因此可适用于上述研究的分布式计算框架。具体操作步骤如图4所示。

常用的集成学习组合策略包括平均法和投票法两类:平均法通过对若干个弱学习器的输出取平均值得到最终的输出,主要用于连续型变量决策，如回归预测工作。投票法主要用于离散型变量决策，如数据分类工作，其中多数投票机制是最常用的投票方法，其主要思想如下：将所有弱学习器对同一数据的分类结果按照式(1)进行多数表决投票，将得票数最多的分类类型确定为其所属类别。

式(1)中，M为分类器数，N为类别数，m＝1,2,...,M，n＝1,2,...,N，R_mn为基分类器m对某一数据分为第n类的结果，R_mn∈{0,1}，当基分类器m将该数据分类为第n类时R_ij＝1，否则R_ij＝0。

负荷数据类别不平衡处理方法

海量负荷数据潜在的类别不平衡问题会对模型分类准确率造成较大的影响，本研究采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集：该方法根据负荷曲线间的欧氏距离，找出少数类训练样本中与多数类相邻的边界元素，对该边界集使用SMOTE算法随机合成新训练样本，调整数据合成比例，使多数类与少数类样本数大致平衡。Borderline-SMOTE训练样本类别不平衡处理方法的具体步骤如下：

1、在全体训练集T中计算少数类P中的每一个样本点p_i(i＝1,...,pnum)的m 近邻点集(“距离”最近的m个点)，其中属于多数类的样本点数为m′(0≤m′≤m)；

2、如果m′＝m，即样本点p_i的m近邻全部属于多数类，p_i将被视作噪声点而忽略；如果0≤m′≤m/2，p_i被视作少数类内点不做处理；如果m/2≤m′≤m， p_i将被视作边界点而继续后续处理，得到边界点集E＝{p′₁,p′₂,...,p′_dnum}， 0≤dnum≤pnum；

3、对边界点集E中的每个样本点p′_i计算其在少数类P中的k近邻点集，从中随机选择s个k近邻点与p′_i进行线性插值，合成新样本 synthetic_j＝p′_i+r_j×(p′_i-p′_j)，其中r_j为[0-1]内的随机数，p′_j为选取的样本点。

该算法较好识别了两个类别的主要边界，并以少数类样本的边界点为基础，随机合成数据点，通过调整合成比例，可以有效降低类别不平衡程度，为海量负荷数据的精细化识别提供基础。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.基于大数据的居民用电行为分析及管理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于大数据的居民用电行为分析及管理方法，其特征在于，所述的步骤S1中采用分布式计算模型MapReduce，MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集，首先，MapReduce作业会把输入的海量负荷数据集切分为若干个独立的数据块，并由Mapper以完全并行的方式处理；然后，Mapper的中间输出被分区排序后复制给相应的Reducer，Reducer收集Mapper的中间输出并生成最终输出结果。

3.根据权利要求1所述基于大数据的居民用电行为分析及管理方法，其特征在于，所述的步骤S2中对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算，负荷数据聚类分析、分类分析和回归分析，海量负荷数据用电行为类别和电性用电模式辨识算法处理。

4.根据权利要求1所述基于大数据的居民用电行为分析及管理方法，其特征在于，步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理，所述的集成学习算法使用Bagging、Boosting和Stacking中的其中一种。

5.根据权利要求4所述基于大数据的居民用电行为分析及管理方法，其特征在于，所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集，该方法根据负荷曲线间的欧氏距离，找出少数类训练样本中与多数类相邻的边界元素，对该边界集使用SMOTE算法随机合成新训练样本，调整数据合成比例，使多数类与少数类样本数大致平衡，从而解决由于训练样本类别不平衡造成的训练精度下降的问题。

6.根据权利要求1所述基于大数据的居民用电行为分析及管理方法，其特征在于，所述的步骤S4中试验采用如下方法进行：类别不平衡处理方法对比试验、分布式计算效率对比试验、集成学习精度对比试验。