CN111724278A - 一种面向电力多元负荷用户的精细分类方法及系统 - Google Patents

一种面向电力多元负荷用户的精细分类方法及系统 Download PDF

Info

Publication number
CN111724278A
CN111724278A CN202010531623.7A CN202010531623A CN111724278A CN 111724278 A CN111724278 A CN 111724278A CN 202010531623 A CN202010531623 A CN 202010531623A CN 111724278 A CN111724278 A CN 111724278A
Authority
CN
China
Prior art keywords
data
load
users
classification
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010531623.7A
Other languages
English (en)
Inventor
李振元
孙勇
李宝聚
熊健
李德鑫
吕项羽
刘畅
刘姝秀
张海锋
王佳蕊
张家郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co ELECTRIC POWER RESEARCH INSTITUTE
State Grid Corp of China SGCC
State Grid Jilin Electric Power Corp
Original Assignee
STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co ELECTRIC POWER RESEARCH INSTITUTE
State Grid Corp of China SGCC
State Grid Jilin Electric Power Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co ELECTRIC POWER RESEARCH INSTITUTE, State Grid Corp of China SGCC, State Grid Jilin Electric Power Corp filed Critical STATE GRID JILINSHENG ELECTRIC POWER SUPPLY Co ELECTRIC POWER RESEARCH INSTITUTE
Priority to CN202010531623.7A priority Critical patent/CN111724278A/zh
Publication of CN111724278A publication Critical patent/CN111724278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Strategic Management (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)

Abstract

本发明公开了一种面向电力多元负荷用户的精细分类方法及系统,该方法包括以下步骤:获取电力多元负荷用户的历史用电数据,进行预处理;对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。本发明通过数据预处理,可提高数据的可靠性及准确性;聚类分析得到的聚类效果更准确;所生成分类预测模型,能够为电力决策提供更科学的数据参考;最终对待分类的用户,可实现准确、快速、精细的划分用户类别。

Description

一种面向电力多元负荷用户的精细分类方法及系统
技术领域
本发明涉及电力大数据技术领域,特别涉及一种面向电力多元负荷用户的精细分类方法及系统。
背景技术
当今信息技术领域中数据挖掘技术、机器学习等方法深入挖掘电力企业在“数字电力”建设中所累积的“数据海洋”,实现对电力企业中的问题进行智能化预判和处理。目前,用电用户分类的研究主要是为了提高电网的稳定性,提升电力资源的利用率。随着数据挖掘技术、机器学习技术等广泛应用,不断优化的用电用户分类算法会相继产生。结合深度学习和聚类方法对负荷数据进行深入挖掘,已然成为必然趋势。
随着经济快速发展,人们用电方式愈来愈多元化,传统电力用户分类标准与当下用户用电模式存在较大差异。针对电力用户分类研究还存在负荷侧运行价值发现不够充分的问题,电力用户分类标准若不贴合当下情况,会影响未来电网规划和决策。传统用户负荷分类方法主要结合模式识别对用户行业进行分类,因此,常常出现同一类别中一些用户的用电行为与该类别的负荷特征存在相差较大的情况。
现有技术中,公开号为CN 106022976 A的发明专利《一种面向需求侧的电力用户分类方法及系统》,公开了具体的数据获取、及聚类分析步骤。但其技术方案具有两点不足:(1)该系统的数据获取模块是直接获取用户用电功率。该方法的缺点在于一般用户负荷数据存在维度过大,在获取过程中还存在由于大规模停电、电表故障、传输过程中的数据遗漏等问题;(2)该系统的聚类分析模块基于预设聚类方法,以用电功率需求量的大小等级和用电功率需求量的变化率等级作为聚类指标,对用户进行精细化分。该方法没有考虑用户负荷本身属性与负荷用户类别间的关系;并且采用聚类方法对负荷用户进行分类,忽略了聚类过程中的误差率,难以解决负荷用户分类预测问题。
因此,如何提供一种给电力企业更可靠更精细的多元负荷用户分类方法,是从业人员亟待解决的问题。
发明内容
鉴于上述问题,本发明提供一种至少解决上述部分技术问题的面向电力多元负荷用户的精细分类方法及系统,可以实现更加准确、快速、精细的划分用户类别。
第一方面,本发明实施例提供一种面向电力多元负荷用户的精细分类方法,包括以下步骤:
S10、获取电力多元负荷用户的历史用电数据,进行预处理;
S20、对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
S30、根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
S40、将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
在一个实施例中,所述步骤S10,包括:
S101、选取横纵异常值处理方法,对历史用电数据进行修正;
S102、利用z-score数据标准化按照预设比例对修正后的历史用电数据进行缩放,落入指定区间;其中:所述z-score数据标准化转化函数为:
Figure BDA0002535448970000021
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure BDA0002535448970000022
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
S103、采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值的属性保留;其中,贡献率计算公式为:
Figure BDA0002535448970000031
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
在一个实施例中,所述步骤S20,包括:利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心。
在一个实施例中,利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心,包括:
S201、确定K值:利用簇内误差平方和以及数据可视化确定K值;
S202、选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
S203、迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
S204、循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
S205、负荷特征提取:对分类结果做特征提取;
S206、用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;
S207、精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤S201至步骤S206,获取用户精细划分后的标签。
在一个实施例中,所述步骤S40中,输入所述分类预测模型前,还包括:将待分类的用户历史用电数据进行预处理。
第二方面,本发明实施例还提供一种面向电力多元负荷用户的精细分类系统,包括:
预处理模块,用于获取电力多元负荷用户的历史用电数据,进行预处理;
聚类分析模块,用于对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
分类训练模块,用于根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
用户分类模块,用于将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
在一个实施例中,所述预处理模块,包括:
异常值处理单元,用于选取横纵异常值处理方法,对历史用电数据进行修正;
数据标准化单元,利用z-score数据标准化按照预设比例对修正后的历史用电数据进行缩放,落入指定区间;其中:所述z-score数据标准化转化函数为:
Figure BDA0002535448970000041
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure BDA0002535448970000042
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
PCA降维单元,采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值的属性保留;其中,贡献率计算公式为:
Figure BDA0002535448970000043
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
在一个实施例中,所述聚类分析模块,具体利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心。
在一个实施例中,所述聚类分析模块,具体用于:
S201、确定K值:利用簇内误差平方和以及数据可视化确定K值;
S202、选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
S203、迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
S204、循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
S205、负荷特征提取:对分类结果做特征提取;
S206、用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;
S207、精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤S201至步骤S206,获取用户精细划分后的标签。
在一个实施例中,所述用户分类模块中,具体用于将待分类的用户历史用电数据进行预处理;经预处理后的数据输入所述分类预测模型,得到输出的分类结果。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的一种面向电力多元负荷用户的精细分类方法,该方法包括以下步骤:获取电力多元负荷用户的历史用电数据,进行预处理;对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。本发明通过数据预处理,可提高数据的可靠性及准确性;聚类分析得到的聚类效果更准确;所生成分类预测模型,能够为电力决策提供更科学的数据参考;最终对待分类的用户,可实现准确、快速、精细的划分用户类别。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的一种面向电力多元负荷用户的精细分类方法的流程图;
图2为本发明实施例提供的步骤S10的具体实施步骤流程图;
图3为本发明实施例提供的步骤S20的具体实施步骤流程图;
图4为本发明实施例提供的步骤S30的具体实施步骤流程图;
图5为本发明实施例提供的步骤S40的具体实施步骤流程图;
图6为本发明实施例提供的面向电力多元负荷用户的精细分类系统的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了更清楚的表达本发明的技术方案,首先对一些相关术语进行解释:
1)负荷特性:电力负荷通常会有一定特性,比较显著的特性有区域性、季节性、时序性等;
2)负荷曲线:负荷曲线能够呈现出负荷的变化过程、用电模式、用电结构的差别,为电力系统需求侧管理提供了重要依据;
3)系统聚类:是将样本依照它们的相似性用图形树进行呈现的算法,不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系;
4)动态聚类:是一种基于某种最优原则进行分类修改的聚类算法;
5)初始聚类中心:把对象聚成给定数目K类的一种动态聚类方法;
6)有监督分类:首先对一个类的训练集创建模型;其次用该模型预测类别未知的数据的过程;
7)平滑处理:去除数据中的噪声;
8)标准化:按照一定比例对数据进行缩放,从而使得数据处理后的数据落入一个较小的指定区间;
9)特征向量:它通过坐标和密度描述了某一密集空间,以较少的数据量反映站点数据的分布特性;
10)SSE:簇内误差平方和;
11)K-means算法:为计算所有样本到个聚类中心的距离,将其划分到就近的聚类中心所属类中;接下来分别调整各个类中的样本平均值作为新类的聚类中心,通过迭代的运算方式,重复计算样本到聚类中心的距离;如果相邻两次聚类中心不再改变或者准则函数收敛,算法迭代结束;
12)聚类:将相似的对象归到同一个簇中,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大;
13)召回率:是覆盖面的度量,度量有多个正例被分为正例;
14)F值:准确率和召回率加权调和平均;
15)最大负荷:一天中的负荷数据的最大值。
16)最小负荷:一天中的负荷数据的最小值。
17)峰谷差:一天中的负荷数据的最大值与最小值的差值。
参照图1所示,本发明实施例提供的一种面向电力多元负荷用户的精细分类方法,包括:
S10、获取电力多元负荷用户的历史用电数据,进行预处理;
S20、对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
S30、根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
S40、将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
该方法通过获取电力多元负荷用户的历史用电数据,预处理后进行聚类分析,得到精细划分不同类型的负荷特征曲线,利用SVM分类器进行训练获取分类预测模型。经上述过程后,分类时用户只需提供历史负荷数据,使用已获取的SVM分类预测模型就可以准确的区分出负荷用户的类别从而达到用户分类的目的。其中,历史用电数据,比如可以是过去某天的多个用电数据、过去某周、某月、或某年的用电数据。该历史用电数据是从电力公司获得,比如以每天为例,同一用户共具有96个功率数据;间隔相同时间采集的功率值;比如P1=0.6019、P2=0.601、P3=0.6005、…P95=0、P96=0.5827;从精细化分类角度考虑,时间段越短越好。本公开实施例对此不做限定。
下面分别对上述各个步骤进行详细说明:
在一个实施例中,上述步骤S10中利用“横-纵”异常值处理方法和数据标准化对获取到的用户负荷数据进行数据预处理,对修正异常用电数据;再利用数据标准化按照一定比例对数据进行缩放;
如图2所示,数据预处理的具体实施步骤如下:
1)首先选取了“横-纵”异常值处理方法,利用电力数据在横向具有相似性,纵向无突变性的特点,修正异常用电数据。该步骤中“横-纵”异常值处理方法即为:数据横向和纵向比较法,多是利用负荷相似性,对异常数据进行修正。横向表示其他时间采集点的负荷记录,即:在负荷数据异常处理过程中横向比较是以两个时间点的负荷数据作为判别依据。纵向表示不同用户的同一时间点,即:纵向比较则是根据不同用户的同一时间点进行阈值判别。相似性是指同一用户在不同时间点的负荷数据不会存在过大程度的变化,具有连贯性和平滑性。突变性是指负荷的突然变化,同一时间点突然激增比如100倍用电量,类似这种情况一般是不存在的。
2)再利用z-score数据标准化按照预设比例,对修正后的历史用电数据进行缩放,落入一个较小的指定区间;其中:z-score数据标准化转化函数为:
Figure BDA0002535448970000091
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure BDA0002535448970000092
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
比如,经过变换后的数据,大多落入0.3-1.3范围内,而原数据在标准化之前存在较大差异,如有的用户用电负荷为0.0015,有的用户用电负荷为2.4892;而经过变换后负荷数据为0.314624和0.820359。变化前数据存在10倍以上的差异,而变换后数据落入0.3-1.3范围,数值差异仅为0.1倍。经过标准化后数据的大体走势不会变化,因此不会对之后的聚类结果产生影响。
3)由于获取到的负荷数据属于高维数据,为了便于计算分析需要通过特征的线性组合降维。采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值,比如可设置为80%的属性保留;其中,贡献率计算公式为:
Figure BDA0002535448970000093
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
本实施例中,利用数据标准化、“横-纵”异常数据方法以及PCA降维算法对数据进行预处理。与最接近的技术方案利用用户用电需求量不同,数据预处理首先在获取用户负荷数据时不设置过高的输入要求,通过利用“纵-横”异常值处理方法,先对缺失的负荷数据进行了平滑处理;之后再利用数据标准化统一数据格式,并且对负荷数据设定了阈值;利用PCA降维方法,针对无用以及低贡献率的数据进行清理,使得负荷数据在进行划分前,具有较高可靠性和准确性。
在一个实施例中,上述步骤S20通过基于改进K-means算法对负荷数据进行类别划分,利用二次聚类实现负荷用户的精细划分;参照图3所示,具体实现步骤如下:
1)确定K值:利用簇内误差平方和(SSE)以及数据可视化确定K值;
2)选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
3)迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
4)循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
5)负荷特征提取:对分类结果做特征提取;
6)用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;其中标签即为用户类别,比如,用数字1、2、3、4、5…表示第一类大工业用户、第二类普通工业用户、第三类非工业用户、第四类居民照明用户、第五类非居民照明用户…
7)精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤1)至步骤6),获取用户精细划分后的标签。
本实施例中,利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心,通过二次聚类,划分出更精细的负荷用户类别。与最接近的技术方案根据欧氏距离,随机生成聚类中心,进行相应二次聚类相比;本发明实施例具有更好的分类准确性。
进一步地,上述步骤S30,参照图4所示,利用SVM算法建立有监督训练模型,获得的模型用于进行负荷用户分类,能够为电力决策提供更科学的数据参考。
在一个实施例中,上述步骤S40,参照图5所示,具体实施步骤如下:
1)获取输入用户负荷数据;比如获取电网提供的2019年7、8月份的用户数据。
2)对负荷数据数据标准化及预处理;该步骤与上述步骤S10中的预处理方式相同;
3)经过处理后的数据,通过SVM分类模型,对输入用户进行分类,并输出结果;将该用户划分为:比如大工业用户、普通工业用户、非工业用户、居民照明用户或非居民照明用户。本实施例中,可获得更加准确、快速、精细的划分用户类别,该用户类别并不局限于上述五种类别。
基于同一发明构思,本发明实施例还提供了一种面向电力多元负荷用户的精细分类系统,由于该系统所解决问题的原理与一种面向电力多元负荷用户的精细分类方法相似,因此该系统的实施可以参见前述方法的实施,重复之处不再赘述。
第二方面,本发明实施例还提供一种面向电力多元负荷用户的精细分类系统,参照图6所示,包括:
预处理模块61,用于获取电力多元负荷用户的历史用电数据,进行预处理;
聚类分析模块62,用于对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
分类训练模块63,用于根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
用户分类模块64,用于将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
在一个实施例中,所述预处理模块61,包括:
异常值处理单元611,用于选取横纵异常值处理方法,对历史用电数据进行修正;
数据标准化单元612,利用z-score数据标准化按照预设比例对修正后的历史用电数据进行缩放,落入指定区间;其中:所述z-score数据标准化转化函数为:
Figure BDA0002535448970000121
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure BDA0002535448970000122
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
PCA降维单元613,采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值的属性保留;其中,贡献率计算公式为:
Figure BDA0002535448970000123
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
在一个实施例中,所述聚类分析模块,具体利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心。
在一个实施例中,所述聚类分析模块,具体用于:
S201、确定K值:利用簇内误差平方和以及数据可视化确定K值;
S202、选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
S203、迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
S204、循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
S205、负荷特征提取:对分类结果做特征提取;
S206、用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;
S207、精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤S201至步骤S206,获取用户精细划分后的标签。
在一个实施例中,所述用户分类模块中,具体用于将待分类的用户历史用电数据进行预处理;经预处理后的数据输入所述分类预测模型,得到输出的分类结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向电力多元负荷用户的精细分类方法,其特征在于,包括以下步骤:
S10、获取电力多元负荷用户的历史用电数据,进行预处理;
S20、对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
S30、根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
S40、将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
2.如权利要求1所述的一种面向电力多元负荷用户的精细分类方法,其特征在于,所述步骤S10,包括:
S101、选取横纵异常值处理方法,对历史用电数据进行修正;
S102、利用z-score数据标准化按照预设比例对修正后的历史用电数据进行缩放,落入指定区间;其中:所述z-score数据标准化转化函数为:
Figure FDA0002535448960000011
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure FDA0002535448960000012
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
S103、采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值的属性保留;其中,贡献率计算公式为:
Figure FDA0002535448960000013
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
3.如权利要求2所述的一种面向电力多元负荷用户的精细分类方法,其特征在于,所述步骤S20,包括:利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心。
4.如权利要求3所述的一种面向电力多元负荷用户的精细分类方法,其特征在于,利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心,包括:
S201、确定K值:利用簇内误差平方和以及数据可视化确定K值;
S202、选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
S203、迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
S204、循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
S205、负荷特征提取:对分类结果做特征提取;
S206、用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;
S207、精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤S201至步骤S206,获取用户精细划分后的标签。
5.如权利要求1-4任一项所述的一种面向电力多元负荷用户的精细分类方法,其特征在于,所述步骤S40中,输入所述分类预测模型前,还包括:将待分类的用户历史用电数据进行预处理。
6.一种面向电力多元负荷用户的精细分类系统,其特征在于,包括:
预处理模块,用于获取电力多元负荷用户的历史用电数据,进行预处理;
聚类分析模块,用于对预处理后的数据进行聚类分析,得到划分不同类型的负荷特征曲线;
分类训练模块,用于根据所述不同类型的负荷特征曲线,利用SVM分类器进行训练,生成分类预测模型;
用户分类模块,用于将待分类的用户历史用电数据,输入所述分类预测模型,得到输出的分类结果。
7.如权利要求6所述的一种面向电力多元负荷用户的精细分类系统,其特征在于,所述预处理模块,包括:
异常值处理单元,用于选取横纵异常值处理方法,对历史用电数据进行修正;
数据标准化单元,利用z-score数据标准化按照预设比例对修正后的历史用电数据进行缩放,落入指定区间;其中:所述z-score数据标准化转化函数为:
Figure FDA0002535448960000031
(1)式中,xij表示原数据;sj表示第j组数据的方差;
Figure FDA0002535448960000032
表示第j组数据的均值;x′ij表示经过zscore标准化后的数据;i表示横向采集点的个数,最大值为m;j表示纵向用户的序号,最大值为n;
PCA降维单元,采用PCA降维定义第i个主成分的贡献率βi,将贡献率大于预设阈值的属性保留;其中,贡献率计算公式为:
Figure FDA0002535448960000033
(2)式中,λi表示标准化后数据的协方差矩阵的特征值;k表示1到m之间的参数,用来计算全部方差;λk表示方差。
8.如权利要求7所述的一种面向电力多元负荷用户的精细分类系统,其特征在于,所述聚类分析模块,具体利用改进K-means算法,优化初始K值以及选取最佳初始聚类中心。
9.如权利要求8所述的一种面向电力多元负荷用户的精细分类系统,其特征在于,所述聚类分析模块,具体用于:
S201、确定K值:利用簇内误差平方和以及数据可视化确定K值;
S202、选取初始聚类中心:从预处理后的数据集中随机选取一个样本xi作为初始聚类中心C;
S203、迭代选取K个聚类中心:对于数据集中的每一个样本点xi,D(x)表示xi与当前聚类中心A的最短距离;选择D(x)较大的点B作为新的聚类中心;重复该步骤直至选出K个聚类中心;
S204、循环迭代聚类:根据计算每一类得到的均值,计算每个样本与中心样本间的距离,并依照最小距离原则重新划分样本;对于有变化的聚类均值进行重新计算,循环该步骤,直至聚类不再变化;
S205、负荷特征提取:对分类结果做特征提取;
S206、用户类别标注:将聚类结果给原数据集加标签,形成标注的数据集;
S207、精细划分:对第一次分类后的结果,做二次聚类精细划分负荷用户;提取第一次聚类后同一类别的用户,重复步骤S201至步骤S206,获取用户精细划分后的标签。
10.如权利要求6-9所述的一种面向电力多元负荷用户的精细分类系统,其特征在于,所述用户分类模块中,具体用于将待分类的用户历史用电数据进行预处理;经预处理后的数据输入所述分类预测模型,得到输出的分类结果。
CN202010531623.7A 2020-06-11 2020-06-11 一种面向电力多元负荷用户的精细分类方法及系统 Pending CN111724278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010531623.7A CN111724278A (zh) 2020-06-11 2020-06-11 一种面向电力多元负荷用户的精细分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010531623.7A CN111724278A (zh) 2020-06-11 2020-06-11 一种面向电力多元负荷用户的精细分类方法及系统

Publications (1)

Publication Number Publication Date
CN111724278A true CN111724278A (zh) 2020-09-29

Family

ID=72568072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010531623.7A Pending CN111724278A (zh) 2020-06-11 2020-06-11 一种面向电力多元负荷用户的精细分类方法及系统

Country Status (1)

Country Link
CN (1) CN111724278A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112528113A (zh) * 2020-12-16 2021-03-19 国网经济技术研究院有限公司 基于供电可靠性多维大数据的终端用户划分方法及系统
CN112579721A (zh) * 2020-12-22 2021-03-30 北京市腾河智慧能源科技有限公司 构建人群分布图的方法及系统、终端设备、存储介质
CN112989501A (zh) * 2021-05-10 2021-06-18 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
CN113159180A (zh) * 2021-04-22 2021-07-23 北京交通大学 基于城市能源大数据的负荷及其可调潜力协同聚类方法
CN113377881A (zh) * 2021-06-04 2021-09-10 国网辽宁省电力有限公司 一种配电网负荷的纵横混合聚类多维度分析方法
CN113743977A (zh) * 2021-06-28 2021-12-03 国网上海市电力公司 一种基于用户行为的用电数据特征提取方法及系统
CN114399098A (zh) * 2021-12-30 2022-04-26 昆明能讯科技有限责任公司 一种高适用性和高精准工业用电用户分类错峰用电方法
CN114756722A (zh) * 2022-04-25 2022-07-15 珠海市鸿瑞信息技术股份有限公司 一种多元数据集中管理控制系统及方法
CN114841832A (zh) * 2022-07-04 2022-08-02 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法
CN115630831A (zh) * 2022-12-06 2023-01-20 北京华联电力工程监理有限公司 一种电力需求侧管理辅助决策支持系统
CN117932311B (zh) * 2024-03-21 2024-05-31 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629356A (zh) * 2017-03-21 2018-10-09 全球能源互联网研究院 一种面向用电负荷分类应用的数据存储方法和装置
CN108681973A (zh) * 2018-05-14 2018-10-19 广州供电局有限公司 电力用户的分类方法、装置、计算机设备和存储介质
CN109034241A (zh) * 2018-07-24 2018-12-18 南京千智电气科技有限公司 基于支持向量机的负荷集群控制方法和系统
CN109063721A (zh) * 2018-06-05 2018-12-21 中国电子科技集团公司电子科学研究院 一种行为特征数据提取的方法及装置
CN109445972A (zh) * 2018-09-21 2019-03-08 深圳供电局有限公司 数据修复方法、装置、设备和存储介质
CN109492048A (zh) * 2019-01-21 2019-03-19 国网河北省电力有限公司经济技术研究院 一种电力用户用电特性的提取方法、系统及终端设备
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN111126429A (zh) * 2019-11-10 2020-05-08 国网浙江省电力有限公司 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法
CN111144440A (zh) * 2019-11-28 2020-05-12 中国电力科学研究院有限公司 一种专变用户日电力负荷特征的分析方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629356A (zh) * 2017-03-21 2018-10-09 全球能源互联网研究院 一种面向用电负荷分类应用的数据存储方法和装置
CN108681973A (zh) * 2018-05-14 2018-10-19 广州供电局有限公司 电力用户的分类方法、装置、计算机设备和存储介质
CN109063721A (zh) * 2018-06-05 2018-12-21 中国电子科技集团公司电子科学研究院 一种行为特征数据提取的方法及装置
CN109034241A (zh) * 2018-07-24 2018-12-18 南京千智电气科技有限公司 基于支持向量机的负荷集群控制方法和系统
CN109445972A (zh) * 2018-09-21 2019-03-08 深圳供电局有限公司 数据修复方法、装置、设备和存储介质
CN109492048A (zh) * 2019-01-21 2019-03-19 国网河北省电力有限公司经济技术研究院 一种电力用户用电特性的提取方法、系统及终端设备
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN111126429A (zh) * 2019-11-10 2020-05-08 国网浙江省电力有限公司 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法
CN111144440A (zh) * 2019-11-28 2020-05-12 中国电力科学研究院有限公司 一种专变用户日电力负荷特征的分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴勇 等: "基于语境和语义的中文文本聚类算法研究", 《科技信息》, vol. 2010, no. 35, 15 December 2010 (2010-12-15), pages 677 - 678 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215490A (zh) * 2020-10-12 2021-01-12 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112215490B (zh) * 2020-10-12 2022-09-30 国网重庆市电力公司电力科学研究院 一种基于相关性系数改进K-means的电力负荷聚类分析方法
CN112528113A (zh) * 2020-12-16 2021-03-19 国网经济技术研究院有限公司 基于供电可靠性多维大数据的终端用户划分方法及系统
CN112579721A (zh) * 2020-12-22 2021-03-30 北京市腾河智慧能源科技有限公司 构建人群分布图的方法及系统、终端设备、存储介质
CN112579721B (zh) * 2020-12-22 2023-10-27 北京市腾河智慧能源科技有限公司 构建人群分布图的方法及系统、终端设备、存储介质
CN113159180B (zh) * 2021-04-22 2023-09-19 北京交通大学 基于城市能源大数据的负荷及其可调潜力协同聚类方法
CN113159180A (zh) * 2021-04-22 2021-07-23 北京交通大学 基于城市能源大数据的负荷及其可调潜力协同聚类方法
CN112989501A (zh) * 2021-05-10 2021-06-18 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
CN112989501B (zh) * 2021-05-10 2022-02-01 中国标准化研究院 平衡车安全性评估方法、装置、终端设备
CN113377881A (zh) * 2021-06-04 2021-09-10 国网辽宁省电力有限公司 一种配电网负荷的纵横混合聚类多维度分析方法
CN113377881B (zh) * 2021-06-04 2024-06-07 国网辽宁省电力有限公司 一种配电网负荷的纵横混合聚类多维度分析方法
CN113743977A (zh) * 2021-06-28 2021-12-03 国网上海市电力公司 一种基于用户行为的用电数据特征提取方法及系统
CN114399098A (zh) * 2021-12-30 2022-04-26 昆明能讯科技有限责任公司 一种高适用性和高精准工业用电用户分类错峰用电方法
CN114756722B (zh) * 2022-04-25 2022-10-04 珠海市鸿瑞信息技术股份有限公司 一种多元数据集中管理控制系统及方法
CN114756722A (zh) * 2022-04-25 2022-07-15 珠海市鸿瑞信息技术股份有限公司 一种多元数据集中管理控制系统及方法
CN114841832B (zh) * 2022-07-04 2023-01-24 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法
CN114841832A (zh) * 2022-07-04 2022-08-02 国网湖北省电力有限公司营销服务中心(计量中心) 一种基于用电负荷二次聚类的电力用户画像标签建立方法
CN115630831A (zh) * 2022-12-06 2023-01-20 北京华联电力工程监理有限公司 一种电力需求侧管理辅助决策支持系统
CN117932311B (zh) * 2024-03-21 2024-05-31 杭州可当科技有限公司 基于5g网络的智能上网终端的用户智能识别方法

Similar Documents

Publication Publication Date Title
CN111724278A (zh) 一种面向电力多元负荷用户的精细分类方法及系统
Rajabi et al. A comparative study of clustering techniques for electrical load pattern segmentation
US11043808B2 (en) Method for identifying pattern of load cycle
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
Li et al. Classification of energy consumption in buildings with outlier detection
CN112561156A (zh) 基于用户负荷模式分类的短期电力负荷预测方法
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
Al Khafaf et al. A novel clustering index to find optimal clusters size with application to segmentation of energy consumers
Park et al. A novel load image profile-based electricity load clustering methodology
CN111177216B (zh) 综合能源消费者行为特征的关联规则生成方法及装置
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
CN111709554A (zh) 一种配电网净负荷联合预测的方法及系统
CN110866841A (zh) 基于双聚类法的电力用户行业维度用电模式辨识分析方法及系统
CN110543889A (zh) 电力负荷分层聚类方法、装置、计算机设备及存储介质
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
CN114372835B (zh) 综合能源服务潜力客户识别方法、系统及计算机设备
CN111898857A (zh) 基于BEMD和kmeans电力用户特征分析方法及系统
Wang et al. Application of clustering technique to electricity customer classification for load forecasting
CN114330440B (zh) 基于模拟学习判别的分布式电源负荷异常识别方法及系统
Nahid et al. Home occupancy classification using machine learning techniques along with feature selection
CN114417972A (zh) 一种基于主成分分析和密度峰值聚类的用户用电行为分析方法
CN114722098A (zh) 一种基于正态云模型和密度聚类算法的典型负荷曲线辨识方法
CN113344073A (zh) 一种基于融合进化算法的日负荷曲线聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929

RJ01 Rejection of invention patent application after publication