CN113743977A - 一种基于用户行为的用电数据特征提取方法及系统 - Google Patents

一种基于用户行为的用电数据特征提取方法及系统 Download PDF

Info

Publication number
CN113743977A
CN113743977A CN202110720759.7A CN202110720759A CN113743977A CN 113743977 A CN113743977 A CN 113743977A CN 202110720759 A CN202110720759 A CN 202110720759A CN 113743977 A CN113743977 A CN 113743977A
Authority
CN
China
Prior art keywords
user
consumption data
bic
clustering
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110720759.7A
Other languages
English (en)
Inventor
朱征
田英杰
苏运
郭乃网
吴裔
李凡
赵莹莹
阮静娴
金妍斐
沈泉江
冯楠
杨洪山
吴元庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Transwarp Technology Shanghai Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Transwarp Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd, Transwarp Technology Shanghai Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202110720759.7A priority Critical patent/CN113743977A/zh
Publication of CN113743977A publication Critical patent/CN113743977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明涉及一种基于用户行为的用电数据特征提取方法及系统,所述方法包括以下步骤:S1:获取用户用电数据;S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;S3:根据选择的特征进行一次聚类,获取一次聚类结果;S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。与现有技术相比,本发明提高聚类结果的可靠性和准确性,实现用户用电数据特征的有效提取,可以准确发现用电高峰。

Description

一种基于用户行为的用电数据特征提取方法及系统
技术领域
本发明涉及电力大数据领域,尤其是涉及一种基于用户行为的用电数据特征提取方法及系统。
背景技术
随着智能电网、物联网和云计算等技术的迅猛发展,电力部门成为大数据的重要生产部门,其发、输、配、售各个环节都产生大量高频数据,为提升电力供应的安全稳定性、提高可再生能源的接入比例、强化需求侧管理等需求提供了新的技术手段。
了解不同用户的用电行为,发现在不同应用场景中有特殊价值的用户群,进而为配用电方面的管理和决策提供依据。但是用户的社会属性、行为偏好等的多样性导致了用户用电行为的复杂性,这使得精确的用户用电的管理和需求响应非常困难。以往的研究主要基于行为科学与社会实验方法、利用各类离散选择模型对居民用电行为的偏好特征进行研究,在用电行为的动因研究方面往往基于消费者行为理论,利用各种时间序列和面板数据模型。这种分析中所使用的数据量偏小、数据指标偏宏观和片面,数据获取的难度很大,这使得分析结果往往只能给出区域性的、长期的用户行为偏好,无法对每个用户进行分类分析,给出微观尺度高频结果,更无法给出短期甚至实时的用户反馈。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于用户行为的用电数据特征提取方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于用户行为的用电数据特征提取方法,包括以下步骤:
S1:获取用户用电数据;
S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
S3:根据选择的特征进行一次聚类,获取一次聚类结果;
S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
优选地,所述的基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
优选地,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
优选地,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
优选地,所述的一次聚类采用K-means算法进行聚类,其相似性度量使用欧氏距离。
优选地,所述的二次聚类采用凝聚层次聚类算法进行聚类。
一种基于用户行为的用电数据特征提取系统,包括以下模块:
数据获取模块,用于获取用户用电数据;
特征选择模块,用于对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
一次聚类模块,用于根据选择的特征进行一次聚类,获取一次聚类结果;
二次聚类模块,用于对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
优选地,所述的基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
优选地,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
优选地,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
与现有技术相比,本发明基于BIC特征提取的聚类算法,应用于高维用电负荷数据,可以准确发现用电高峰。在时序聚类方面,提出了基于加权皮尔逊距离的曲线聚类方法,弥补了特征聚类无法分辨相同用电量不同模式的缺点,提高了聚类的细粒度,成功识别出各种特殊节假日用电模式这种细粒度用电模式。结合两种方法,进行多步骤的聚类分析,对每个步骤的聚类结果进行人工标记,研究半监督学习的用户聚类分析方法,提高聚类结果的可靠性和准确性。和传统聚类模型进行对比,本发明可以将聚类结果和季节、日期类型进行关联。另外,本发明基于用户不同时段的用户行为,利用K-means算法、凝聚层次聚类算法进行两次聚类,提高聚类结果的可靠性和准确性,实现用户用电数据特征的有效提取。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于用户行为的用电数据特征提取方法,包括以下步骤:
S1:获取用户用电数据。
本实施例中,获取用户一年内的用电数据,用电数据的参数类型包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果。
基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
获取各参数类型的BIC值,BIC值越小,则说明模型的质量越好,该菜蔬类型越重要,
因此将问题转化为求BIC最小的最优解问题:
Figure BDA0003136793280000041
最终,按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。本实施例中,计算得到的重要性排序为:最高温>日最低负荷>日最高负荷>日平均负荷>最低温>天气>日类型>风力。选取前五个参数类型:最高温、日最低负荷、日最高负荷、日平均负荷、最低温作为特征选择结果。
S3:根据选择的特征进行一次聚类,获取一次聚类结果;
本实施例中,一次聚类采用K-means算法进行聚类,其相似性度量使用欧氏距离。K-means算法是一种属于划分方法的聚类算法,通常采用欧氏距离作为2个样本相似程度的评价指标,其基本思想是:随机选取数据集中的k个点作为初始聚类中心,根据数据集中的各个样本到k个中心的距离将其归到距离最小的类中,然后计算所有归到各个类中的样本的平均值,更新每个类中心,直到平方误差准则函数稳定在最小值。本实施例中,首先对居民用电数据进行统计分析,了解其分布特征和质量检查;然后检验数据起始日期,对数据的完整度进行检查和分割,选取适合进行聚类的部分数据;之后对数据进行降维,降维过程中采取有监督的特征值提取方法,对每一个用户进行分析,提取用电量波动点位置、波动点之间用电绝对值和涨落值;最终对提取的特征变量进行聚类。特征值提取和聚类过程均采用分布式平台并行运算方法,提高了运算效率和结果的准确性。
本实施例中,根据第一次聚类的结果,得到夏季的7、8月是用电高峰期,其用电模式和其他月份有很大的差异。因此通过一次聚类得到的类别能够非常明显地区分夏季用电模式和非夏季用电模式,作为第一次聚类的两个类型。
S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。二次聚类采用凝聚层次聚类算法进行聚类,目的是从粗分的数据集中进一步细化负荷样本聚类集,强调负荷趋势变化的相似性。第二次聚类的相似性度量分别使用皮尔逊距离和加权皮尔逊距离作对比。最后,将对比实验的聚类结果应用于相同的负荷预测算法。由于SVM预测模型的预测效果依赖于训练数据的相似性,聚类质量的改善将有助于提高SVM的预测质量。
本实施例中,分别对夏季用电模式、非夏季用电模式作为第二次聚类的两个类型,实现第二次聚类。
与本发明的一种基于用户行为的用电数据特征提取方法对应,本实施例中还提供了一种基于用户行为的用电数据特征提取系统,包括以下模块:
数据获取模块,用于获取用户用电数据;
特征选择模块,用于对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
一次聚类模块,用于根据选择的特征进行一次聚类,获取一次聚类结果;
二次聚类模块,用于对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
其中,基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数,用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力,步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于用户行为的用电数据特征提取方法,其特征在于,包括以下步骤:
S1:获取用户用电数据;
S2:对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
S3:根据选择的特征进行一次聚类,获取一次聚类结果;
S4:对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
2.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
3.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
4.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
5.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的一次聚类采用K-means算法进行聚类,其相似性度量使用欧氏距离。
6.根据权利要求1所述的一种基于用户行为的用电数据特征提取方法,其特征在于,所述的二次聚类采用凝聚层次聚类算法进行聚类。
7.一种基于用户行为的用电数据特征提取系统,其特征在于,包括以下模块:
数据获取模块,用于获取用户用电数据;
特征选择模块,用于对用户用电数据进行基于BIC的特征选择,获取用户用电数据的参数重要性排序,并确认特征选择结果;
一次聚类模块,用于根据选择的特征进行一次聚类,获取一次聚类结果;
二次聚类模块,用于对一次聚类结果的不同类型分别进行第二次聚类,获取用电数据特征。
8.根据权利要求7所述的一种基于用户行为的用电数据特征提取系统,其特征在于,所述的基于BIC的特征选择中的BIC模型的表达式为:
BIC=2*lnN*p-2*lnφ
其中,BIC为参数的BIC值,p为模型参数个数,N为用户用电数据样本数量,φ为似然函数。
9.根据权利要求7所述的一种基于用户行为的用电数据特征提取系统,其特征在于,所述的用户用电数据的参数包括最高温、日最低负荷、日最高负荷、日平均负荷、最低温、天气、日类型、风力。
10.根据权利要求7所述的一种基于用户行为的用电数据特征提取系统,其特征在于,所述的步骤S2中按照参数重要性从大到小选取多个用户用电数据参数作为特征选择结果。
CN202110720759.7A 2021-06-28 2021-06-28 一种基于用户行为的用电数据特征提取方法及系统 Pending CN113743977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110720759.7A CN113743977A (zh) 2021-06-28 2021-06-28 一种基于用户行为的用电数据特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110720759.7A CN113743977A (zh) 2021-06-28 2021-06-28 一种基于用户行为的用电数据特征提取方法及系统

Publications (1)

Publication Number Publication Date
CN113743977A true CN113743977A (zh) 2021-12-03

Family

ID=78728548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110720759.7A Pending CN113743977A (zh) 2021-06-28 2021-06-28 一种基于用户行为的用电数据特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN113743977A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN117874497A (zh) * 2024-03-11 2024-04-12 国网北京市电力公司 一种负荷特征提取方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776939A (zh) * 2018-06-07 2018-11-09 上海电气分布式能源科技有限公司 用户用电行为的分析方法及系统
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN110825723A (zh) * 2019-10-09 2020-02-21 上海电力大学 一种基于用电负荷分析的居民用户分类方法
CN110866841A (zh) * 2019-11-20 2020-03-06 江苏方天电力技术有限公司 基于双聚类法的电力用户行业维度用电模式辨识分析方法及系统
CN111724278A (zh) * 2020-06-11 2020-09-29 国网吉林省电力有限公司 一种面向电力多元负荷用户的精细分类方法及系统
CN112800148A (zh) * 2021-02-04 2021-05-14 国网福建省电力有限公司 一种基于聚类特征树和离群度量化的散乱污企业研判方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776939A (zh) * 2018-06-07 2018-11-09 上海电气分布式能源科技有限公司 用户用电行为的分析方法及系统
CN110825723A (zh) * 2019-10-09 2020-02-21 上海电力大学 一种基于用电负荷分析的居民用户分类方法
CN110781332A (zh) * 2019-10-16 2020-02-11 三峡大学 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN110866841A (zh) * 2019-11-20 2020-03-06 江苏方天电力技术有限公司 基于双聚类法的电力用户行业维度用电模式辨识分析方法及系统
CN111724278A (zh) * 2020-06-11 2020-09-29 国网吉林省电力有限公司 一种面向电力多元负荷用户的精细分类方法及系统
CN112800148A (zh) * 2021-02-04 2021-05-14 国网福建省电力有限公司 一种基于聚类特征树和离群度量化的散乱污企业研判方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾兴东: "用户用电行为挖掘系统设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》, no. 11, pages 19 - 21 *
陈光宇: "《大数据驱动下同期线损精细化管理技术与案例分析》", vol. 1, 31 December 2020, 机械工业出版社, pages: 104 - 108 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310879A (zh) * 2022-10-11 2022-11-08 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN115310879B (zh) * 2022-10-11 2022-12-16 浙江浙石油综合能源销售有限公司 一种基于半监督聚类算法的多加油站用电量能耗管控方法
CN117874497A (zh) * 2024-03-11 2024-04-12 国网北京市电力公司 一种负荷特征提取方法、装置、设备及介质
CN117874497B (zh) * 2024-03-11 2024-05-07 国网北京市电力公司 一种负荷特征提取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN106022528B (zh) 一种基于密度峰值层次聚类的光伏电站短期功率预测方法
CN112561156A (zh) 基于用户负荷模式分类的短期电力负荷预测方法
CN113743977A (zh) 一种基于用户行为的用电数据特征提取方法及系统
Dou et al. Hybrid model for renewable energy and loads prediction based on data mining and variational mode decomposition
CN111832861A (zh) 基于大数据平台的居民负荷变尺度画像方法和系统
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN112186761B (zh) 一种基于概率分布的风电功率场景生成方法及系统
Pinto et al. Short-term wind speed forecasting using support vector machines
CN110717610A (zh) 一种基于数据挖掘的风电功率预测方法
CN116911806B (zh) 基于互联网+的电力企业能源信息管理系统
CN112330078A (zh) 用电量预测方法、装置、计算机设备和存储介质
Pinceti et al. Synthetic time-series load data via conditional generative adversarial networks
CN110991689A (zh) 基于LSTM-Morlet模型的分布式光伏发电系统短期预测方法
Putra et al. Modeling of high uncertainty photovoltaic generation in quasi dynamic power flow on distribution systems: A case study in Java Island, Indonesia
CN111553434A (zh) 一种电力系统负荷分类方法及系统
CN116070458A (zh) 基于rac-gan的新建风电场场景生成方法
CN116108963A (zh) 一种基于集成学习模块的电力碳排放预测方法及设备
CN113988161B (zh) 一种用户用电行为模式识别方法
CN115149528A (zh) 一种基于大数据非侵入技术的智能电能表分布式预测方法
Liu et al. A novel stochastic modeling method of wind power time series considering the fluctuation process characteristics
Long et al. Power quality disturbance identification and optimization based on machine learning
Ceresa et al. Verification and upgrades of an advanced technique to model forecast uncertainties in large power systems
Tian et al. Research on clustering based meteorological data mining methods
Liu et al. A clustering-based feature enhancement method for short-term natural gas consumption forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination