CN113159087A - 基于海量负荷数据的居民用电行为辨识分析和管理方法 - Google Patents
基于海量负荷数据的居民用电行为辨识分析和管理方法 Download PDFInfo
- Publication number
- CN113159087A CN113159087A CN202011643499.XA CN202011643499A CN113159087A CN 113159087 A CN113159087 A CN 113159087A CN 202011643499 A CN202011643499 A CN 202011643499A CN 113159087 A CN113159087 A CN 113159087A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- load data
- analysis
- electricity consumption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000007726 management method Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000003672 processing method Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 32
- 230000006399 behavior Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010224 classification analysis Methods 0.000 claims description 9
- 239000003638 chemical reducing agent Substances 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 4
- 238000000611 regression analysis Methods 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 claims 1
- 230000005612 types of electricity Effects 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 11
- 238000011160 research Methods 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于用电分析及管理技术领域,具体涉及一种基于大数据的居民用电行为分析及管理方法,包括如下步骤:S1.对海量负荷数据的体量分解和数据处理算法的解耦,实现对海量负荷数据的处理;S2.基于高性能分布式计算框架及分布式计算模型,设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法;S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿,提升用电行为类别和典型用电模式辨识算法数据分析精度;S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。该发明解决了传统数据处理方法在面对海量负荷数据时效率较低、精度较差的问题。
Description
技术领域
本发明属于用电分析及管理技术领域,具体涉及一种基于海量负荷数据的居民用电行为辨识分析和管理方法。
背景技术
随着我国智能电网的飞速发展,用户负荷快速增长。我国逐步推进电力行业的工作重心转移,从单一需求侧管理向用户侧资源主动参与电力系统供需平衡的过程转移。现阶段电力系统负荷数据具有高密度和多样性的特点,深度挖掘负荷数据的需求响应潜力和网荷互动能力,对提高电网运行的安全性和经济性具有十分重要的意义。因此,针对用户用电行为,前瞻性地开展相关研究,科学评估其行为特征,依托海量数据采集、存储、传输等技术优势,形成有效的用户用电模式精细化辨识方法,实现海量用户负荷数据的高效处理,制定合理的需求侧响应方案与优化用电策略是近未来能源应用策略制定中应重点研究的问题。
目前,随着用电信息采集系统和高级量测技术体系的逐渐发展和完善,体量庞大、种类繁多、结构复杂的用户负荷数据信息为相关负荷研究工作提供了坚实的数据基础,同时也带来了新的挑战。一是面对体量庞大、结构复杂、种类繁多的负荷数据信息时,现有用户用电行为分析方法往往由于辨识过程中样本体量过大导致效率低下。且海量负荷数据由于其复杂性和多样性,往往还存在有潜在的数据类别不平衡问题,会进一步影响用户用电行为分析模型的辨识效果,使得电网侧无法对海量负荷数据中深层次的用户用电行为特征等信息进行准确分析和有效利用。二是现有用户用电模式提取技术仍存在一定的局限性。传统聚类算法和分类算法受限于算法性能,面对海量负荷数据呈现出的数据种类繁多、结构复杂等特点,传统分析方法数据适应性较差,难以深入挖掘提取用户的潜在用电行为特性,且海量负荷数据的数据缺失和数据异常等问题仍需要更加有效的解决方法。三是在电力市场化进程的不断推进过程中,用户需求多元化的发展对现有电网运行也提出了新的挑战。现有需求响应方案和用电优化策略难以适应愈加复杂多样的用户用电需求,电网公司需要在用户用电行为精细化分析的基础上深入挖掘用户需求响应潜力,制定合理的需求响应方案;并通过充分地挖掘用户互动能力,提升优化用电的效果。
综上,有必要开展基于大数据的居民用电行为智能辨识分析及智慧用电管理策略研究,进一步拓展至用户需求侧响应潜力的感知,提出基于大数据分析结论的需求响应方案和用电优化策略,支撑负荷精细化管理,实现用户优化用电并提升其效果,为电网未来安全、经济运行提供理论支撑。
发明内容
本发明的目的在于针对现有技术中存在的问题提供一种基于海量负荷数据的居民用电行为辨识分析和管理方法,使用该方法以海量负荷数据信息为基础,建立了基于海量负荷数据的高性能计算框架和集成学习模型,并提出了负荷数据类别不平衡处理方法,解决了传统数据处理方法在面对海量负荷数据时效率较低、精度较差的问题。
本发明的技术方案是:
基于大数据的居民用电行为分析及管理方法,包括如下步骤:
S1.对海量负荷数据的体量分解和数据处理算法的解耦,实现对海量负荷数据的处理;
S2.基于高性能分布式计算框架及分布式计算模型,设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法;
S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿,提升用电行为类别和典型用电模式辨识算法数据分析精度;
S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。
具体的,所述的步骤S1中采用分布式计算模型MapReduce,MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集,首先,MapReduce 作业会把输入的海量负荷数据集切分为若干个独立的数据块,并由Mapper以完全并行的方式处理;然后,Mapper的中间输出被分区排序后复制给相应的 Reducer,Reducer收集Mapper的中间输出并生成最终输出结果。
具体的,所述的步骤S2中对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算,负荷数据聚类分析、分类分析和回归分析,海量负荷数据用电行为类别和电性用电模式辨识算法处理。
具体的,步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理,所述的集成学习算法使用Bagging、Boosting和Stacking 中的其中一种。
具体的,所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集,该方法根据负荷曲线间的欧氏距离,找出少数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样本,调整数据合成比例,使多数类与少数类样本数大致平衡,从而解决由于训练样本类别不平衡造成的训练精度下降的问题。
具体的,所述的步骤S4中试验采用如下方法进行:类别不平衡处理方法对比试验、分布式计算效率对比试验、集成学习精度对比试验。
在数据分析算法方面,数据分析算法研究主要集中在无监督聚类和有监督分类算法方面。研究较为成熟的聚类算法包括K-means、模糊C均值聚类算法以及层次聚类算法等。相较无监督聚类难以利用标签信息的缺点,以BP神经网络和支持向量机为代表的有监督分类算法可有效利用先验知识,在数据分类领域取得较好效果。
在大数据分析算法方面,国内外多从两方面来提高处理数据处理的效能。有研究通过改进数据分析算法性能来提高其对大数据的处理能力。有文献公开了针对新接入用户用电模式的辨识问题,采用模糊C均值聚类提取历史负荷数据若干模型建立负荷特征库,利用决策树对新接入用户进行负荷模式识别;文献[5]基于用户心理学原理构建了峰谷分时电价的负荷转移率模型,并以此为基础构建用户调节潜力指标,通过该指标对用户用电数据进行聚类分析,所提方法与传统聚类方法相比聚类效果更佳。有文献公开使用密度参数方法对K-means 算法进行优化,获得较高的聚类精度;有文献公开提出一种改进的自适应模糊C 聚类方法,取得较为准确的牵引负荷分类结果。还有研究通过数据降维的方式来提高大数据的处理效能。苏格兰邓迪大学引入截断离散傅里叶变换系数降低数据维度,以此提高K-means算法对某用户区典型日负荷曲线的聚类效果。有文献公开为应对日负荷曲线高维特性,通过奇异值分解方法将日负荷曲线降维处理,再以奇异值指标权重,采用加权欧式距离的K-means算法对日负荷曲线聚类处理,其聚类方法具有较高的准确性和良好的鲁棒性;有文献公开研究多种数据降维技术,对降维后的数据进行重采样、划分聚类、层次聚类,并对比各种方法表明结合主成分分析降维的集成聚类算法效果最佳。有文献公开通过智能电表的海量数据建立混合高斯模型以得到不同负荷曲线特征,然后基于频谱分析的降维特征得到较好的聚类结果。但数据降维算法并没有解决面对海量负荷数据时运算效率低下的问题。
在海量用户负荷数据处理分析算法方面,国内外学者主要在数据分析算法性能改良以及数据降维方面进行研究。随着负荷数据呈现爆炸式增长趋势,传统聚类或分类算法面临着计算效率低下或无法处理的问题。虽然数据降维可以有效改善高维负荷数据的聚类效果,但面对高维、海量的用户负荷数据时,依然无法有效解决算法处理效率低、数据处理难度大的问题。当前,也有少量研究针对海量负荷数据提出基于hadoop分布式计算平台的并行分类算法,但是其在分类算法方面依然局限于机器学习层面,受限于算法学习能力的瓶颈,难以满足海量高维的负荷数据特征深度挖掘和用电行为模式精细化辨识的需要。
总体来看,传统负荷数据分析算法在应对海量负荷数据时,存在包括算法效率低下,算法学习能力不足等在内的诸多问题,有必要针对海量用户用电行为数据建立高效普适的大数据处理分析架构,从而深度掌握电力用户用电特性,为电网公司的错峰管理、分时电价的制定、有序用电指导提供基础。
本发明的有益效果是:该方法针对现有负荷数据处理技术在面对海量负荷数据时存在的效率低、精度差等问题,首先提出MapReduce分布式计算模型,作为针对大数据处理的理论基础;结合当前大数据分析的实际应用平台,提出基于Spark的分布式计算框架,作为针对海量负荷数据处理的计算框架,并通过集成学习方法解耦由于分布式计算数据分割带来的计算误差;最后针对海量负荷数据广泛存在的类别不平衡问题,提出Borderline-SMOTE过采样方法,对负荷数据进行平衡化处理,进一步提升算法处理的精度。
本发明中使用的MapReduce通过Map和Reduce两个步骤来并行处理大规模的数据集,可以把大规模计算工作自动地并发和分布执行。MapReduce作业通常会把输入的数据集切分为若干个独立的数据块,并由Mapper以完全并行的方式处理;随后,Mapper的中间输出被分区排序后复制给相应的Reducer,Reducer 收集Mapper的中间输出并生成最终输出结果。
Spark平台是一种高效的分布式计算平台,不仅可应用Hadoop框架下的分布式文件系统,具有MapReduce模型的优点,而且采用弹性分布式数据集将集群分布式计算数据缓存在各个节点内存中,避免大量I/O过程,在处理迭代问题时效率优于Hadoop数倍,具有计算更加高效的优点。以分类分析为例,其基本思想是:抽样获得原训练数据集的多个训练样本子集,通过分类算法并行化实现单独学习各子集,形成性能差异的基分类器,最终通过多个基分类器共同决定测试样本集的分类结果。Spark平台为各种算法的分布式化提供了基本编程框架,可极大提高海量数据分析算法的运算效率,不足之处是算法分布式化后由于数据分割导致计算误差增大。提出适用于海量负荷数据用电行为类别和典型用电模式辨识算法的高性能分布式计算框架,并在此编程框架基础上实现海量负荷数据用电行为类别的聚类分析、分类分析以及回归分析。
集成学习算法将算法并行化的处理结果通过一定组合策略结合以得到更优结果,可有效解耦由于分布式计算数据分割带来的计算误差。目前,集成学习算法主要包括Bagging、Boosting和Stacking三种,相较Boosting和Stacking, Bagging具有并行化学习器生成特性,更适合对算法分布式化运行结果进行优化,海量负荷数据潜在的类别不平衡问题会对模型分类准确率造成较大的影响,采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集:该方法根据负荷曲线间的欧氏距离,找出少数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样本,调整数据合成比例,使多数类与少数类样本数大致平衡,从而解决由于训练样本类别不平衡造成的训练精度下降的问题。
附图说明
图1是本发明的结构示意图;
图2是MapReduce结构示意图;
图3是基于Spark的分布式计算分类模型示意图;
图4是Bagging集成算法原理结构示意图。
具体实施方式
下面结合附图及具体实施方式对本发明的技术方案进行详细的描述。
如图1所示为本发明提供的基于海量负荷数据的居民用电行为辨识分析和管理方法的结构示意图,包括如下步骤:
S1.对海量负荷数据的体量分解和数据处理算法的解耦,实现对海量负荷数据的处理;
S2.基于高性能分布式计算框架及分布式计算模型,设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法;
S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿,提升用电行为类别和典型用电模式辨识算法数据分析精度;
S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。
实施例1
本实施例针对步骤S1对于处理大规模的负荷数据集采用分布式计算模型MapReduce,MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集,首先,MapReduce作业会把输入的海量负荷数据集切分为若干个独立的数据块,并由Mapper以完全并行的方式处理;然后,Mapper的中间输出被分区排序后复制给相应的Reducer,Reducer收集Mapper的中间输出并生成最终输出结果,如图2所示。
实施例2
本实施例针对步骤S2对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算,负荷数据聚类分析、分类分析和回归分析,海量负荷数据用电行为类别和电性用电模式辨识算法处理,其中本实施例提供了具体采用Spark平台的特点,Spark平台是一种高效的分布式计算平台,不仅可应用 Hadoop框架下的分布式文件系统(Hadoopdistributed file system,HDFS),具有MapReduce模型的优点,而且采用弹性分布式数据集(resilient distributed dataset,RDD)将集群分布式计算数据缓存在各个节点内存中,避免大量I/O过程,在处理迭代问题时效率优于Hadoop数倍,具有计算更加高效的优点。基于Spark的分布式计算平台还具有普适性的优点,可用于聚类分析、分类分析、预测分析等多种数据挖掘工作;以分类分析为例,其基本思想是:抽样获得原训练数据集的多个训练样本子集,通过分类算法并行化实现单独学习各子集,形成性能差异的基分类器,最终通过多个基分类器共同决定测试样本集的分类结果。
实施例3
步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理,所述的集成学习算法使用Bagging、Boosting和Stacking中的其中一种。
本实施例在所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集,该方法根据负荷曲线间的欧氏距离,找出少数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样本,调整数据合成比例,使多数类与少数类样本数大致平衡,从而解决由于训练样本类别不平衡造成的训练精度下降的问题。该平台具有普适性的优点,可用于聚类分析、分类分析、预测分析等多种数据挖掘工作;以分类分析为例,其基本思想是:抽样获得原训练数据集的多个训练样本子集,通过分类算法并行化实现单独学习各子集,形成性能差异的基分类器,最终通过多个基分类器共同决定测试样本集的分类结果,如图3所示。
实施例4
Spark平台为各种算法的分布式化提供了基本编程框架,可极大提高海量数据分析算法的运算效率,不足之处是算法分布式化后由于数据分割导致计算误差增大。集成学习算法将算法并行化的处理结果通过一定组合策略结合以得到更优结果,可有效解耦由于分布式计算数据分割带来的计算误差。目前,集成学习算法主要包括Bagging、Boosting和Stacking三种,相较Boosting和 Stacking,Bagging具有并行化学习器生成特性,更适合对算法分布式化运行结果进行优化,因此发明在步骤S3中采用更适用于分布式并行计算的Bagging集成学习算法。
下面对Bagging集成学习算法进行详解。
Bagging算法的基本思想是:抽样获得原训练数据集多个子集,分别独立学习各子集形成性能差异的弱学习器,最终通过多个弱学习器进行集成学习组合共同决定输出结果。由于其多个弱学习器间没有依赖关系,因此可适用于上述研究的分布式计算框架。具体操作步骤如图4所示。
常用的集成学习组合策略包括平均法和投票法两类:平均法通过对若干个弱学习器的输出取平均值得到最终的输出,主要用于连续型变量决策,如回归预测工作。投票法主要用于离散型变量决策,如数据分类工作,其中多数投票机制是最常用的投票方法,其主要思想如下:将所有弱学习器对同一数据的分类结果按照式(1)进行多数表决投票,将得票数最多的分类类型确定为其所属类别。
式(1)中,M为分类器数,N为类别数,m=1,2,...,M,n=1,2,...,N,Rmn为基分类器m对某一数据分为第n类的结果,Rmn∈{0,1},当基分类器m将该数据分类为第n类时Rij=1,否则Rij=0。
负荷数据类别不平衡处理方法
海量负荷数据潜在的类别不平衡问题会对模型分类准确率造成较大的影响,本研究采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集:该方法根据负荷曲线间的欧氏距离,找出少数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样本,调整数据合成比例,使多数类与少数类样本数大致平衡。Borderline-SMOTE训练样本类别不平衡处理方法的具体步骤如下:
1、在全体训练集T中计算少数类P中的每一个样本点pi(i=1,...,pnum)的m 近邻点集(“距离”最近的m个点),其中属于多数类的样本点数为m′(0≤m′≤m);
2、如果m′=m,即样本点pi的m近邻全部属于多数类,pi将被视作噪声点而忽略;如果0≤m′≤m/2,pi被视作少数类内点不做处理;如果m/2≤m′≤m, pi将被视作边界点而继续后续处理,得到边界点集E={p′1,p′2,...,p′dnum}, 0≤dnum≤pnum;
3、对边界点集E中的每个样本点p′i计算其在少数类P中的k近邻点集,从中随机选择s个k近邻点与p′i进行线性插值,合成新样本 syntheticj=p′i+rj×(p′i-p′j),其中rj为[0-1]内的随机数,p′j为选取的样本点。
该算法较好识别了两个类别的主要边界,并以少数类样本的边界点为基础,随机合成数据点,通过调整合成比例,可以有效降低类别不平衡程度,为海量负荷数据的精细化识别提供基础。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (6)
1.基于大数据的居民用电行为分析及管理方法,其特征在于,包括如下步骤:
S1.对海量负荷数据的体量分解和数据处理算法的解耦,实现对海量负荷数据的处理;
S2.基于高性能分布式计算框架及分布式计算模型,设计适用于海量负荷数据用电行为类别和典型用电模式辨识算法;
S3.对补偿负荷数据集分割以及算法解耦导致的分类精度损失问题进行分布式算法处理精度补偿,提升用电行为类别和典型用电模式辨识算法数据分析精度;
S4.使用智能电表实测用户用电数据对标准数据集进行模拟实验。
2.根据权利要求1所述基于大数据的居民用电行为分析及管理方法,其特征在于,所述的步骤S1中采用分布式计算模型MapReduce,MapReduce通过Map和Reduce两个作业步骤来并行处理海量负荷数据集,首先,MapReduce作业会把输入的海量负荷数据集切分为若干个独立的数据块,并由Mapper以完全并行的方式处理;然后,Mapper的中间输出被分区排序后复制给相应的Reducer,Reducer收集Mapper的中间输出并生成最终输出结果。
3.根据权利要求1所述基于大数据的居民用电行为分析及管理方法,其特征在于,所述的步骤S2中对于海量负荷数据的处理包括采用Spark分布式计算平台进行的分布式计算,负荷数据聚类分析、分类分析和回归分析,海量负荷数据用电行为类别和电性用电模式辨识算法处理。
4.根据权利要求1所述基于大数据的居民用电行为分析及管理方法,其特征在于,步骤S3中分布式算法包括集成学习算法、集成学习组合、符合数据类别不平衡处理,所述的集成学习算法使用Bagging、Boosting和Stacking中的其中一种。
5.根据权利要求4所述基于大数据的居民用电行为分析及管理方法,其特征在于,所述的步骤S3中采用Borderline-SMOTE类别不平衡处理方法处理负荷训练数据集,该方法根据负荷曲线间的欧氏距离,找出少数类训练样本中与多数类相邻的边界元素,对该边界集使用SMOTE算法随机合成新训练样本,调整数据合成比例,使多数类与少数类样本数大致平衡,从而解决由于训练样本类别不平衡造成的训练精度下降的问题。
6.根据权利要求1所述基于大数据的居民用电行为分析及管理方法,其特征在于,所述的步骤S4中试验采用如下方法进行:类别不平衡处理方法对比试验、分布式计算效率对比试验、集成学习精度对比试验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643499.XA CN113159087A (zh) | 2020-12-30 | 2020-12-30 | 基于海量负荷数据的居民用电行为辨识分析和管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643499.XA CN113159087A (zh) | 2020-12-30 | 2020-12-30 | 基于海量负荷数据的居民用电行为辨识分析和管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113159087A true CN113159087A (zh) | 2021-07-23 |
Family
ID=76878335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643499.XA Pending CN113159087A (zh) | 2020-12-30 | 2020-12-30 | 基于海量负荷数据的居民用电行为辨识分析和管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159087A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221980A (zh) * | 2022-09-16 | 2022-10-21 | 之江实验室 | 一种基于特征提取和改进K-means算法的负荷聚类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582657A (zh) * | 2018-11-28 | 2019-04-05 | 国家电网有限公司 | 基于机器学习与大数据分析的电容器故障预测方法 |
US20200021134A1 (en) * | 2018-07-16 | 2020-01-16 | Cable Television Laboratories, Inc. | System and method for distributed, secure, power grid data collection, consensual voting analysis, and situational awareness and anomaly detection |
CN111681132A (zh) * | 2020-06-17 | 2020-09-18 | 四川大学 | 适用于海量类别不平衡负荷数据的典型用电模式提取方法 |
-
2020
- 2020-12-30 CN CN202011643499.XA patent/CN113159087A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200021134A1 (en) * | 2018-07-16 | 2020-01-16 | Cable Television Laboratories, Inc. | System and method for distributed, secure, power grid data collection, consensual voting analysis, and situational awareness and anomaly detection |
CN109582657A (zh) * | 2018-11-28 | 2019-04-05 | 国家电网有限公司 | 基于机器学习与大数据分析的电容器故障预测方法 |
CN111681132A (zh) * | 2020-06-17 | 2020-09-18 | 四川大学 | 适用于海量类别不平衡负荷数据的典型用电模式提取方法 |
Non-Patent Citations (2)
Title |
---|
刘洋: "计及数据类别不平衡的海量用户负荷典型特征高性能提取方法", 《中国电机工程学报》, 20 July 2019 (2019-07-20), pages 4093 - 4103 * |
刘洋: "适用于海量负荷数据分类的高性能反向传播神经网络算法", 《电力系统自动化》, 10 November 2018 (2018-11-10), pages 96 - 101 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221980A (zh) * | 2022-09-16 | 2022-10-21 | 之江实验室 | 一种基于特征提取和改进K-means算法的负荷聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779087B (zh) | 一种通用机器学习数据分析平台 | |
US7889914B2 (en) | Automated learning of model classifications | |
CN109461025B (zh) | 一种基于机器学习的电能替代潜在客户预测方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN112561156A (zh) | 基于用户负荷模式分类的短期电力负荷预测方法 | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN110363354B (zh) | 风场风功率预测方法、电子装置及存储介质 | |
CN111681132B (zh) | 适用于海量类别不平衡负荷数据的典型用电模式提取方法 | |
CN108805193A (zh) | 一种基于混合策略的电力缺失数据填充方法 | |
Fan et al. | Generalized and heuristic-free feature construction for improved accuracy | |
CN111950620A (zh) | 基于DBSCAN和K-means算法的用户筛选方法 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN116340006A (zh) | 一种基于深度学习的算力资源空闲预测方法和存储介质 | |
Orouskhani et al. | Multi-objective evolutionary clustering with complex networks | |
Guo et al. | Harris hawks optimization algorithm based on elite fractional mutation for data clustering | |
CN113159087A (zh) | 基于海量负荷数据的居民用电行为辨识分析和管理方法 | |
Zhou et al. | Imbalanced Multi-Fault Diagnosis via Improved Localized Feature Selection | |
Gong | In-depth data mining method of network shared resources based on k-means clustering | |
CN116150687A (zh) | 一种基于多分类g-wlstsvm模型的流体管道泄漏识别方法 | |
Qin | Software reliability prediction model based on PSO and SVM | |
CN114595742A (zh) | 一种燃料电池故障数据采样方法及系统 | |
CN115048987A (zh) | 基于流形结构的多源自适应迁移学习的电机振动预测方法 | |
CN114510552A (zh) | 一种基于分词技术的工业互联网产业链分类方法及系统 | |
Han et al. | Self-organizing broad network using information evaluation method | |
Chen | Brain Tumor Prediction with LSTM Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |
|
RJ01 | Rejection of invention patent application after publication |