一种基于用电信息的用户用电行为分析方法
技术领域
本发明涉及一种基于用电信息的用户用电行为分析方法,属于用电信息采集系统应用技术领域。
背景技术
智能电能表是智能电网的基础性、关键性资产,既是获取用户用电信息的源头,也是获得配网运行数据的重要来源。目前河北省电力公司已基本实现智能表的“全采集、全覆盖、全费控”,并依托用电信息采集系统深入开展了远程抄表核算及费控管理工作,以上两项功能均基于智能表的计量及控制功能。除此之外,智能表还具有信息存储及处理、实时监测、信息交互、异常事件判别等多项高级功能。依托智能表的多项功能,用电信息采集系统已积累了智能表中包括电量数据、负荷数据以及各类事件在内的海量数据资源。
随着智能电表的大规模推广和用电信息采集系统的建设完成,河北南网用电信息采集系统已经积累了包括电量数据、负荷数据及各类事件在内的海量数据资源,“一户一表”模式保证了数据涵盖用户范围的广阔性。并且近两年国网公司大力推广HPLC模块建设与安装使用,专公变用户、低压用户每日96点准实时数据采集得以实现,这都为用电行为分析提供了可能。
用电行为作为电力系统里重要的组成部分,对其进行分析的最终目的之一就是对用电负荷进行调整,根据不同时间段对用户用电进行分析,得到一个分析模型,对用户的未来用电量进行预测,并将其结果反馈给调度中心和用户,让用户进行用电时段的选择,以避免谷峰冲突。
用户的用电行为对制定电价有重要的营销,特别是阶梯电价和实施电价正在推广,国网公司可以根据用户的负荷预测数据制定出具有市场竞争力的电价,同时还要保证电网公司能够收到较高的盈利回报。
发明内容
本发明所要解决的技术问题是提供一种基于用电信息的用户用电行为分析方法,具有用户分类准确、用电行为判别精准的特点。
为解决上述问题,本发明所采取的技术方案是:
一种基于用电信息的用户用电行为分析方法,依据用户的底码和负荷数据,进行实现用户用电行为分析,计算分析某一个时段内用户的用电情况并进行聚类分析,通过建立模型实现对用户不同时间段的电量计算分析,通过聚类算法对用户用电行为特征进行归类处理,将用户分为不同的用电类型;
用户用电行为分析的流程为:数据的清洗,对底码、负荷数据的空值进行补全,对异常值进行替换;低压用户用电行为习惯的分类,因为不同用户的用电规律的差异,对用户用电行为习惯进行聚类分析,然后对同种用电行为习惯的用户进行分类;建模识别,运用熵权法分析用户电力数据的特点以及各部分数据的权重,根据求得的数据特点在电力大数据中找到相应特点的数据,确定该部分数据的用户类别;建立不同负荷类型的用户模型,对用户用电行为进行分析预测。
作为本发明的进一步改进,定义标准用户数据格式,如表1所示:
表1:标准用户数据表
序号 |
数据表代码 |
数据表名 |
1 |
A_CALC_HOUR_POWER |
电表小时级电量统计表 |
2 |
A_CALC_HOUR_POWER_ORG |
供电单位小时级电量统计表 |
3 |
A_CONS_CUR_CURVE |
用户电流曲线数据统计表 |
4 |
A_CONS_VOL_CURVE |
用户电压曲线数据统计表 |
5 |
A_CONS_POWER_CURVE |
用户负荷曲线数据统计表 |
。
作为本发明的进一步改进,包括数据缺漏或坏数据的数据修复方法;该数据修复方法针对负荷数据的横向相似性,利用K-means算法对每个用户的日负荷曲线进行聚类,得到聚类中心即负荷特征曲线,以此为基准对日24/96点负荷曲线数据进行坏数据的位置识别与处理。
作为本发明的进一步改进,包括数据级不同用户负荷曲线数据的归一化处理方法,该归一化处理方法考虑到数量级不同用户负荷曲线模式相同的情况,采用极大值标准化方法对数据进行归一化处理。
作为本发明的进一步改进,包括根据用户用电行为的启停方式不同以及所受到的影响因素不同进行用户用电行为影响因子分类的方法;用户用电行为影响因子有三大类:自我影响因子、自然环境影响因子和社会环境影响因子。
作为本发明的进一步改进,包括基于用电曲线的形状特征以及统计特征的聚类方法;该聚类方法对具有时序数据进行聚类挖掘,根据电力系统的领域知识提取用电特征,然后使用K-means算法对得到的特征向量进行聚类。
作为本发明的进一步改进,所述用户用电行为影响因子分类的方法利用数据平滑将用电数据的随机波动成分剥离出来。
作为本发明的进一步改进,所述用户用电行为影响因子分类的方法对用电曲线的形状特征提取,其过程为:对移动平滑之后的用电数据,取数据斜率变化最大的N个点,并将数据分为N+1段;提取N个点处的用电绝对值,计算N+l段中每段的均值和方差;经过特征提取工作,得到3N+2个特征,刻画时序数据曲线的形状特征。
作为本发明的进一步改进,所述用户用电行为影响因子分类的方法基于SparkR的并行化k-means算法处理电力大数据。
作为本发明的进一步改进,对所述K-means算法做出优化,消除聚类数目初始值的选择对聚类效果的影响。
采用上述技术方案所产生的有益效果在于:
本发明提出了一种基于用电数据的用户用电行为分析方法,以用户电量信息、负荷信息为基础,结合营销业务系统的用户基础信息,通过分析用电客户的社会属性、生活习惯和消费行为等信息,抽象出标签化的客户信息,建立用户用电行为分析模型及增值服务模型,开展针对性增值服务,提升客户用电满意度。基于电力大数据的用户分类方法更具科学性,分类结果更加准确,具有坚强的理论支撑。对电力用户进行恰当的分类,可以使电网公司根据用户分类不同提供更具针对性的服务,有助于实现电力行业的资源优化配置,此外对用户的准确分类使用户用电行为分析更加准确,用户特征更具代表性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于SparkR并行化k-means算法的用户行为分析框架;
图2是用户用电行为分析对比图;
图3是单用户用电行为分析6-8月图形展示区;
图4是单用户用电行为分析1-6月及8-12月图形展示区;
图5是供电单位整体用户行为分析的图形展示区。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。
因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
一种基于用电信息的用户用电行为分析方法,依据用户的底码和负荷数据,计算分析某一个时段内用户的用电情况并进行聚类分析,如果依靠数据库的计算,工作量较大,且存在较大的误差。这里需要通过一定的算法模型进行实现用户用电行为分析技术,通过建立模型实现对用户不同时间段的电量计算分析,通过聚类算法对用户用电行为特征进行归类处理,将用户分为不同的用电类型。
用户用电行为分析技术流程主要有数据的清洗,对底码、负荷数据的空值进行补全,对异常值进行替换;低压用户用电行为习惯的分类,因为不同用户的用电规律的差异,因此需要对用户用电行为习惯进行聚类分析,然后对同种用电行为习惯的用户进行分类;建模识别,运用熵权法分析用户电力数据的特点以及各部分数据的权重,最后根据求得的数据特点在电力大数据中找到相应特点的数据,确定该部分数据的用户类别。建立不同负荷类型的用户模型,对用户用电行为进行全面分析预测。
作为本发明的进一步改进,定义标准用户数据格式,如表1所示:
表1:标准用户数据表
序号 |
数据表代码 |
数据表名 |
1 |
A_CALC_HOUR_POWER |
电表小时级电量统计表 |
2 |
A_CALC_HOUR_POWER_ORG |
供电单位小时级电量统计表 |
3 |
A_CONS_CUR_CURVE |
用户电流曲线数据统计表 |
4 |
A_CONS_VOL_CURVE |
用户电压曲线数据统计表 |
5 |
A_CONS_POWER_CURVE |
用户负荷曲线数据统计表 |
。
作为本发明的进一步改进,提出了数据缺漏或坏数据的一种数据修复方法。针对负荷数据的横向相似性,利用K-means算法对每个用户的日负荷曲线进行聚类,得到聚类中心即负荷特征曲线,以此为基准对日24/96点负荷曲线数据进行坏数据的位置识别与处理。
采用式(1)对坏数据修正,经过处理后的负荷曲线有效提高了负荷数据的准确度。
i=p,p+1,...q
式中Xd为待修正曲线;Xc为特征曲线;X为经过修正后曲线;i为用户曲线某点。
作为本发明的进一步改进,提出了数据级不同用户负荷曲线数据的归一化处理方法,考虑到数量级不同用户负荷曲线模式可能相同的情况,采用极大值标准化方法对数据进行归一化处理。最大负荷Pmax,Ph为h时刻负荷,那么Xh=Ph/Pmax。
作为本发明的进一步改进,提出了根据用户用电行为的启停方式不同以及所受到的影响因素不同进行用户用电行为影响因子分类的方法。用户用电行为影响因子主要有三大类:自我影响因子、自然环境影响因子和社会环境影响因子。自我影响因子主要是指由于用户自身原因对用户用电行为产生影响的影响因子,一般涉及用户的用电计划变化、自身重大用电事故等,这类影响因子可以根据用户的历史用电数据变化或用户的用电计划变化分析得出。自然环境影响因子是指用户的用电行为受到自然环境变化的影响,主要包括温度、湿度、风力、天气以及季节的变化对用户用电行为的影响。社会环境影响因子主要包括国内节假日以及重大国家事件对用户用电行为的影响。
作为本发明的进一步改进,提出了基于用电曲线的形状特征以及统计特征的聚类。对具有时序数据进行聚类挖掘,根据电力系统的领域知识提取用电特征,然后使用K-means算法对得到的特征向量进行聚类。
作为本发明的进一步改进,提出了利用数据平滑将用电数据的随机波动成分剥离出来的概念。用电数据是一种时序数据,包含了随机波动成分。简单的特征值提取会存在较大的误差性,为了更好地展现数据中的规律,需要将时序数据中的随机波动成分剥离出来。利用移动平均,假设时间序列数据x=[x1,x2,…,xT],其中T为样本长度,则在时间t上的k项移动平均值为:
对末端欠缺的后个值,使用差值法补全。
作为本发明的进一步改进,提出了用电曲线的形状特征提取的概念。对移动平滑之后的用电数据,取数据斜率变化最大的N个点,并将数据分为N+1段。提取N个点处的用电绝对值,计算N+l段中每段的均值和方差。经过这样的特征提取工作,可以得到3N+2个特征,基本可以刻画时序数据曲线的形状特征。本方法提取了表2所示的14个统计特征。
表2:用电行为特征
特征ID |
特征定义 |
特征ID |
特征定义 |
x1 |
用户用电总量 |
x8 |
峰时耗电率 |
x2 |
平均用电量 |
x9 |
平段用电量 |
x3 |
用电量方差 |
x10 |
平段耗电量 |
x4 |
用电量极大值 |
x11 |
尖峰时段用电量 |
x5 |
用电量极小值 |
x12 |
尖段耗电率 |
x6 |
未用电天数 |
x13 |
低谷时段用电量 |
x7 |
峰时用电量 |
x14 |
谷时耗电率 |
作为本发明的进一步改进,如图1所示,提出了基于SparkR的并行化k-means算法处理电力大数据的概念。该概念可以解决Hadoop频繁读写时容易造成设备性能出现问题的困扰,它以Hadoop的电力大数据群作为数据引擎结合k-means算法充分发挥电力大数据内存计算和R语言的特征,将数据分析能力大大提高。具体分析架构如图1所示,其过程大致可分为数据清洗、数据计算、归一化处理和聚类分析用户用电行为。
作为本发明的进一步改进,提出了改进的k-means算法进行用户用电行为聚类的方法。由于K-means算法存在聚类数目初始值的选择影响聚类效果的缺点,考虑此影响因素,对K-means算法做出优化。
采用KL指数来确定最优K值,通过计算评价准则函数,以其最大时对应的聚类数目作为最佳聚类数。
k=argmax[KL(h)] (2)
式中p为数据维数;h为聚类数目;Wh为聚类数目为h时类内距离平方和;DIEF为对p维数据聚类,计量数目由h-1变为h时类内距的变化。
通过计算数据密度参数来选择初始聚类中心。其基本思想如下:
用户日24/96点负荷曲线集合:S={x1,x2,…xn},Z1,Z2,…Zk为k个初始聚类中心。
定义:负荷曲线间的平均距离
式中n为负荷曲线;
为n条负荷曲线的组合数;d(X
i,X
j)为X
i与X
j间的欧式距离。本发明提出了一种基于用电数据的用户用电行为分析方法,以用户电量信息、负荷信息为基础,结合营销业务系统的用户基础信息,通过分析用电客户的社会属性、生活习惯和消费行为等信息,抽象出标签化的客户信息,建立用户用电行为分析模型及增值服务模型,开展针对性增值服务,提升客户用电满意度。如图2所示,相较于传统用户用电行为分析方式,基于电力大数据的用户分类方法更具科学性,分类结果更加准确,具有坚强的理论支撑。对电力用户进行恰当的分类,可以使电网公司根据用户分类不同提供更具针对性的服务,有助于实现电力行业的资源优化配置,此外对用户的准确分类使用户用电行为分析更加准确,用户特征更具代表性。
具体案例
1.采用2018年某地全部专变用户的电量信息、负荷信息、电价等数据,以日、月、季、年为维度进行训练建模,最后输出用户用电分布情况。
对专变用户的电量信息、负荷信息进行模型运算,判断用电客户的社会属性、研究用电客户的生活习惯和消费行为等信息,根据用电情况判断何时为用户的用电高峰期,指导用户使用何种电价,也可以提供多种针对性增值服务。
2.单用户用电行为分析
(1)页面展示区分图形和数据两大展示区。
(2)图形区,如图3和4所示,展示每小时的用电量,小时级电量与日用电量占比,小日用电量平均到每小时的小时电量,以及小时级电量发生在哪个时段。时段按照所选日期的月份做判断,6/7/8月有峰/谷/尖/平段,图形区域分为6段。其他月份,没有尖段,只有峰/谷/平段,图形区域分为8段。
3.供电单位整体用户行为分析
(1)页面展示区分图形和数据两大展示区。
(2)图形区和数据区的内容相对应。图形区有行业类别的切换,默认展示全部行业的用电情况。选择切换到某一个行业,图形区和数据区的内容同步更新。
(3)图形区,如图5所示,展示每小时的用电量,小时级电量与日用电量占比,小日用电量平均到每小时的小时电量,以及小时级电量发生在哪个时段。时段按照所选日期的月份做判断,6/7/8月有峰/谷/尖/平段,图形区域分为6段。其他月份,没有尖段,只有峰/谷/平段,图形区域分为8段。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;作为本领域技术人员对本发明的多个技术方案进行组合是显而易见的。而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。