CN111860574A

CN111860574A - 电网用户分组方法、装置、存储介质及电子设备

Info

Publication number: CN111860574A
Application number: CN202010502136.8A
Authority: CN
Inventors: 吴辉; 宋小松; 刘爱锋; 肖胡颖; 朱超; 张锦霞; 张柏松
Original assignee: High Beam Energy Internet Industry Development Hengqin Co ltd; Yuanguang Software Co Ltd
Current assignee: High Beam Energy Internet Industry Development Hengqin Co ltd; Yuanguang Software Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-30

Abstract

本申请实施例公开了一种基于模糊K均值聚类算法的电网用户分组方法、装置、存储介质及电子设备，本申请针对不同属性对聚类贡献度不同的问题，提出了引入信息增益加权属性的层次聚类算法，该算法利用层次聚类算法优点，通过对负荷数据的各个属性加权，从而提高了聚类算法的性能。

Description

电网用户分组方法、装置、存储介质及电子设备

技术领域

本申请涉及机器学习领域，尤其涉及一种基于模糊K均值聚类算法的电网用户分组方法、装置、存储介质及电子设备。

背景技术

随着智能电表的大量安装部署和用电信息采集系统的广泛应用，电力公司与用户间的交流逐步加强，用户可以实时的了解用电和缴费信息，通过对数据的挖掘与分析，不但可以对电力客户的用电特性深入了解，而且可以设计更加安全、可靠的电力需求响应系统和短期负荷预测系统等。居民的日常生活负荷数据中隐藏着用户的用电行为习惯，对这些负荷数据进行分析与挖掘并研究用户类型，可以帮助电力公司准确地了解用户的个性化、差异化服务需求，从而使电力公司加强业务拓展的深度和广度，为未来的电力需求侧响应政策的制定提供强有力的数据支撑。

发明内容

本申请实施例提供了一种基于模糊K均值聚类算法的电网用户分组方法、装置、存储介质及电子设备，可以针对不同属性对聚类贡献度不同的问题，提出了引入信息增益加权属性的层次聚类算法，提高聚类算法的性能。所述技术方案如下：

第一方面，本申请实施例提供了一种基于模糊K均值聚类算法的电网用户分组方法，所述方法包括：

获取多个电网用户的负荷数据；其中，所述负荷数据包括多个属性；

计算多个属性中各个属性的权重；

基于模糊K均值聚类算法和权重对所述多个电网用户的负荷数据进行聚类分析得到多个分组；

其中，负荷数据x_i和负荷数据x_j之间的相异度为：

模糊K均值聚类算法的目标函数为

n为负荷数据的数量，c为分组的数量，u_ki为第i个负荷数据隶属于第k个分组的程度，参数

为模糊因子，v_k为第k个分组的质心；

计算隶属度u_ki的公式为：

迭代时，对于第k个质心v_k的第j(1≤j≤p)个连续属性A_kj的公式为：

组内属性离散度

|c_k|表示第k个分组中负荷数据的数量；

组间属性离散度

c表示分组的数量；

第i个属性的权重为：

所述多个分组的信息熵为：

X表示多个电网用户的负荷数据，p_i为X中的负荷数据属于第i分组C_i的概率。

第二方面，本申请实施例提供了一种基于模糊K均值聚类算法的电网用户分组装置，所述装置包括：

获取单元，用于获取多个电网用户的负荷数据；其中，所述负荷数据包括多个属性；

计算单元，用于计算多个属性中各个属性的权重；

分组单元，用于基于模糊K均值聚类算法和权重对所述多个电网用户的负荷数据进行聚类分析得到多个分组；

其中，负荷数据x_i和x_j之间的相异度为：

模糊K均值聚类算法的目标函数为

为模糊因子，v_k为第k个分组的质心；

计算隶属度u_ki的公式为：

组内属性离散度

|c_k|表示第k个分组中负荷数据的数量；

组间属性离散度

c表示分组的数量；

第i个属性的权重为：

所述多个分组的信息熵为：

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

对现有的K-means聚类算法进行改进，该K-means聚类算法具有基于簇内不平衡度量和针对不同属性对聚类贡献度不同的问题，本申请提出引入信息增益加权属性的层次聚类算法，本申请的聚类算法利用层次聚类算法优点，通过对负荷数据的各个属性加权，从而提高了聚类算法的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的网络架构图；

图2是本申请实施例提供的一种基于模糊K均值聚类算法的电网用户分组方法的流程示意图；

图3是本申请实施例提供的一种基于模糊K均值聚类算法的电网用户分组装置的结构示意图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

参见图1，为本申请实施例提供的一种网络架构图，本申请的网络架构包括终端设备10和服务器11，终端设备1和服务器11之间可以通过无线方式或有线方式连接，服务器11的数量可以是一个或多个，服务器11包括的6个模块为：负荷数据的采集与预处理、基于聚类算法的用电行为分析、基于多智能的电价响应分析、面向供需互动的智能用电优化分析、用户权限管理、以及数据备份与恢复，各个模块的主要功能如下：

1、负荷数据采集与预处理。

本模块主要用于部署实时数据采集组件，该功能主要实现能够自动采集用户实时的负荷数据，还可以导入批量用户的历史负荷数据，此外，还应实现对负荷数据的预处理，主要包括去除冗余、删除噪音数据以及检测异常数据采集等预处理。

1.1、数据采集方式。

基于底层数据交换的数据直接采集方式。

1.2、去噪方式。

采用Grubbs检验进行去噪处理。

2、基于聚类算法的用电行为分析

本模块主要通过特定聚类算法对选定的负荷数据进行聚类分析，包括根据时间范围、用户地址等筛选条件选择负荷数据。

2.1、聚类算法。

(1)采用最小-最大规范化方法，将原始的负荷数据的各个属性进行数据转换，将其值映射到[0,1]的区间中；

(2)随机选择c个负荷数据作为初始质心的集合V⁽⁰⁾，初始化目标函数值J⁽⁰⁾＝0，初始化连续属性的权值矩阵

和负荷数据的各个属性的权值矩阵

使得各个权值数等于1，令迭代次数j＝1；

(3)计算第j次迭代的模糊划分矩阵U^(j)；

(4)更新质心V^(j)，计算第j次迭代的连续属性的权值矩阵

计算第j次迭代的分类属性的权值矩阵

(5)计算第j次迭代的目标函数值J^(j)，若|J^(j)-J^(j-1)|≤ε，则迭代过程结束，否则跳转第(3)步。

3.基于多智能的电价响应分析

该功能主要实现通过输入供电侧、用户侧、系统测的参数要求，及特定的用户负荷数据。

3.1、数据源接入与用户响应度曲线拟合。

(1)获取负荷数据。k＝0时，表示未实施峰谷分时电价，可获取未实施峰谷电价前的实测负荷值L₀；

(2)估计k＝1时的负荷，设定负荷转移率初始值γ₁，带入估算L₁，输出。判断是否需要修正并处理，形成点集。带下一次电价调整。

(3)第k+1次峰谷电价实施后，获取实施后的实测负荷数据，估算修正值γ_i+1，并将点置于点集中，重新拟合用户响应度曲线，并修正。

4、面向供互动的智能用电优化分析。

本模块主要实现通过输入用户侧参与需求响应的智能家电的详细参数

4.1、数据接入单元。

(1)使用rapid scada平台来进行数据的采集于写入第三方数据库

4.2、家电优化中应用Round Robin算法

接入数据采用Round Robin依次请求调度不同的服务器

5、用户权限管理。

本模块主要用于用户权限管理。

5.1、供电侧。

(1)查看实时与历史负荷数据

备份还原msdb，查询数据库中的DML记录。

(2)管理维护聚类算法库

对所创建的数据库进行完整、差异、日志备份。

(3)查看用户的负荷类型

采用慢查询日志进行数据库日志更新。

5.2、系统侧。

(1)可以查看用户负荷的实时与历史负荷数据。

采用lnnoDB引擎，使用sql语句进行查询。

(2)管理维护用户电价响应模型参数

实时模型使用exponential family distribution压缩数据,设置惩罚因子默认值为1。

5.3、用户侧。

(1)查看风电输出曲线。

备份还原msdb，查询数据库中的DML记录。

(2)管理维护用户电价响应模型

接入实时Evaluate Modlel后更新模型参数。

(3)查看智能家电优化运行结果

使用sql语句进行查询。

6、数据备份与恢复。

本模块主要用于实现数据库的备份与恢复

6.1、数据存储单元。

(1)历史负荷数据采集采集模块产生的数据，无需计算加工。

(2)实时计算模块产生的计算结果，可根据需要，构建数据模型后存入。

6.2.数据查询单元。

(1)对外提供统一的数据查询接口，可查询历史及实时相关指标化的数据。

(2)对传统依靠SQL聚合查询模型的报表提供一般查询支持。

请参见图2，为本申请实施例提供的一种基于模糊K均值聚类算法的电网用户分组方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S201、获取多个电网用户的负荷数据。

其中，负荷数据包括多个属性，例如：多个属性为：用户标识、用户地址、用电量、用电时间、用电价格中的一种或多种，每个负荷数据对应一个电网用户。

S202、计算多个属性中各个属性的权重。

其中，权重表示负荷数据中各个属性的重要程度，不同的属性在进行聚类分组时具有不同的重要性，因此基于权重对负荷数据进行聚类分组可以提高分组的准确性。

S203、基于模糊K均值聚类算法和权重对所述多个电网用户的负荷数据进行聚类分析得到多个分组。

1、在聚类算法方面，该算法利用信息论中信息增益的计算方法间接计算聚类结果中类间的分离性指标，将权值加入到相异度的计算中。在分析过程中，采用了模糊理论，从而使得本申请的聚类算法具有一定的处理模糊问题的能力，具有较好的抗干扰性。

(1)模糊K均值聚类算法。

负荷数据x_i和负荷数据x_j之间的相异度为：

模糊K均值的目标函数为

其中，u_ki∈[0,1]，n为负荷数据的数量；c为分组(聚类)的数量；u_ki为第i个对象隶属于第k个分组(聚类)的程度；参数

为模糊因子；v_k为第k个分组(聚类)的质心。

模糊迭代过程中，计算隶属度u_ki的方法如下：

迭代时，对于第k个分组的质心v_k的第j(1≤j≤p)个连续属性A_kj的计算方式如下：

(2)连续属性的信息增益及相异度。

信息论中，通过计算属性的信息熵来获得该属性的信息增益，但计算信息熵时需知道此属性的概率分布情况，对于连续属性来说，其概率分布情况是很难获得的。而在统计学中，常用标准差来表示数据值于均值之间的差异程度，即数据值的离散程度。

组内属性离散度

其中，

|c_k|表示分组第k个分组(聚类)中负荷数据的数量。组内属性离散度越小越符合聚类分组的定义。

组间属性离散度

其中，

c表示分组的总数量，组间属性离散度越大越符合聚类分组的定义。

根据信息论的定义，属性的信息增益越大，说明选择此属性对于分类提供的信息越多。当某属性A_j具有较大的组间离散度和较小的组内离散度时，有利于聚类分析。因此给出连续属性的信息增益。

连续属性的信息增益为：

其中，Num_Gain(X,A_j)越大，说明此属性A_j对于聚类分析越重要。

根据Num_Gain(X,A_j)可以得到各个连续属性的信息增益，从而获得计算相异度时各属性相应的权值，权值计算如下：

根据信息论，将多个电网用户的负荷数据X划分为C个分组(聚类)的信息熵的计算方法如下：

其中，p_i为X中的负荷数据属于第i分组C_i的概率。

2、在居民电价响应模型层面，提出基于消费者心理学原理研究用户响应曲线，利用最小二乘法估计响应曲线的各个参数。该响应模型不依赖于实际中峰谷分时电价政策是否实施，巧妙地利用计算机多智能体模拟系统演示了用户对不同峰谷分时电价水平的负荷调整过程及供点方、电网系统的目标优化过程，较好地解决了峰谷分时电价实施的滞后效应，模型最终得出了用户对不同价差水平的响应曲线。

(1)用户响应度曲线及数学模型。

根据消费者心理学原理，对用户的刺激有一个最小可觉差(差别阈值)在这个差别阈值的范围内，用户基本上无响应或响应非常小，即不敏感期；超过这个差别阈值的范围时，用户将有所响应，且与刺激的程度有关；用户对刺激也有一个饱和值，超过这个数值，用户就没有更进一步的响应了，即响应极限期。引入负荷转移率的概念，定义负荷转移率为实施峰谷电价后，用户负荷从高电价时段向低电价时段转移量与高时段电价负荷之比。基于负荷转移率的用户响应度模型可以近似拟合成分段线性函数：

式中，j表示第j类用户；γ_pv为峰时段到谷时段的转移率；Δpv为峰时段电价p_p与谷时段电价p_v之差；a_pvj为死区阈值；

为在峰谷电价差变化下峰时段到谷时段的最大负荷转移率；K_pvj为分段线性峰谷时段转移率曲线线性区的斜率。

(2)响应度曲线参数的加权最小二乘法拟合。

其思想时选取最佳的可以确定用户响应度曲线的3个参数，使得在该曲线的作用下所产生的计算评估结果与过去的历史负荷曲线最接近，从而产生近似的曲线模型。

峰谷时分电价下用户峰、平、谷时段的真实负荷转移率函数即用户响应度曲线表示为：γ＝KΔh+B，其中K为用户响应度曲线的斜率；B为用户响应度曲线对应的纵轴截距。

基于最小二乘法的响应度曲线参数拟合模型：

拟合的响应度曲线应受饱和区拐点、死区拐点的限制，需要在响应度曲线的拟合过程中进行修正。

除电价因素外，响应用户用电特性的其他因素主要有行业类型、生产班制、电费支出占总成本的比例及用户意愿。对于商业及居民用户，空调及照明负荷占比较大，一般这2类用户的节电意识较强，虽然可转移或可消减的负荷量不大，但由于用户数量较大，峰谷电价下具有可观的负荷响应潜力。对应的最大负荷转移率比较大，死区阈值、饱和区阈值会比较大。

在居民智能家电的用电模型及优化层面，分析了当前风电发展的现状及智能家电的用电特性，将发电侧弃风量结合设定的惩罚因子与用户的用电成本进行综合考虑，提出了以供需双侧最优的智能家电用电方式模型。该模型考虑了家电的启停时间及其合理运行等约束，该模型既降低了居民用户的用电成本，又增加了风电的消纳，取得了较好的综合效益。

本申请实施例得到的技术效果的对比如下所示：

1、改进的K-means聚类算法(IG-F-K-means)，现有的聚类算法的存在簇内不平衡度量。针对不同属性对聚类贡献度不同的问题，提出了引入信息增益加权属性的层次聚类算法，该算法利用层次聚类算法优点，并提出一种属性加权的新方法，从而提高了聚类算法的性能。

IG-F-K-means于其他算法(K-means、Fuzzy-K-means)的比较，数据集为Credit、Acute、Heart、Zoo。

表1三种聚类算法的平均正确率比较。

表2三种聚类算法的平均迭代次数比较。

本申请的IG-F-K-means聚类算法的正确率明显高于其他两个聚类算法，而且其收敛速度也明显高于另外两个算法。从定性上分析IG-F-K-means聚类算法有两个比较明显的优势：

首先，IG-F-K-means算法在计算负荷数据的相异度时，引入了信息论的概念，而不是一刀切地平等对待各个属性。

其次，IG-F-K-means算法使用了模糊理论的概率从而更有利于处理模糊性问题。在背景知识模糊的、不确定、不完整或者有噪音干扰时，也能做出较好的分析处理，适用于处理用电人群的聚类分析。

2、基于消费者心理学理论及加权最小二乘法建立了峰谷分时电价下的用户响应度模型及响应参数识别、校正模型。对基于负荷转移率的用户响应度曲线参数的获取进行全面分析，解决了用户响应度曲线的斜率核拐点的获取问题。

表3负荷转移率曲线拟合结果。

拟合的标准差为0.612远大于4×10^-7显示出该评估模型的优越性。

居民智能家电的用电建模及优化方法分析了当前风电发展的现状及智能家电的用电特性，实现供需双侧的综合最优，将发电侧弃风量结合设定的惩罚因子与用户的用电成本进行综合考虑。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图3，其示出了本申请一个示例性实施例提供的基于模糊K均值聚类算法的电网用户分组装置的结构示意图。该基于模糊K均值聚类算法的电网用户分组装置可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。该装置3包括获取单元30、计算单元31和分组单元32。

获取单元30，用于获取多个电网用户的负荷数据；其中，所述负荷数据包括多个属性；

计算单元31，用于计算多个属性中各个属性的权重；

分组单元32，用于基于模糊K均值聚类算法和权重对所述多个电网用户的负荷数据进行聚类分析得到多个分组；

其中，负荷数据x_i和负荷数据x_j之间的相异度为：

模糊K均值聚类算法的目标函数为

为模糊因子，v_k为第k个分组的质心；

计算隶属度u_ki的公式为：

组内属性离散度

|c_k|表示第k个分组中负荷数据的数量；

组间属性离散度

c表示分组的数量；

第i个属性的权重为：

所述多个分组的信息熵为：

在一个或多个实施例中，所述获取多个电网用户的负荷数据，包括：

根据指定的筛选条件对采集的多个负荷数据进行筛选得到多个电网用户的负荷数据；其中，所述筛选条件包括时间范围筛选条件和/或用户地址筛选条件。

在一个或多个实施例中，装置3还包括：

去噪单元，用于基于Grubbs检验对采集到的多个负荷数据进行去噪处理。

在一个或多个实施例中，装置3还包括：

拟合单元，用于基于所述多个电网用户的负荷数据拟合用户响应度曲线；其中，所述用户响应度曲线使用如下的分段线性函数表示：

式中，j表示第个分组的电网用户；γ_pv为峰时段到谷时段的转移率；Δpv为峰时段电价p_p与谷时段电价p_v之差；a_pvj为死区阈值；

在一个或多个实施例中，所述响应度曲线表示为：γ＝KΔh+B，其中K为用户响应度曲线的斜率；B为用户响应度曲线对应的纵轴截距，基于最小二乘法的响应度曲线参数拟合模型：

在一个或多个实施例中，装置3还包括：

转换单元，用于采用最小-最大规范化方法，将所述负荷数据的各个属性进行数据转换以将值映射到[0，1]的区间中。

在一个或多个实施例中，装置3还包括：

查询单元，用于通过数据查询接口接收SQL查询请求，响应于所述SQL查询请求查询所述多个分组中各个分组的统计信息，所述统计信息包括分组数量、分组标识、组内负荷数据的数量中的一种或多种。

需要说明的是，上述实施例提供的基于模糊K均值聚类算法的电网用户分组装置在执行基于模糊K均值聚类算法的电网用户分组方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于模糊K均值聚类算法的电网用户分组装置与基于模糊K均值聚类算法的电网用户分组方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图2所示实施例的方法步骤，具体执行过程可以参见图1-图2所示实施例的具体说明，在此不进行赘述。

请参见图4，为本申请实施例提供了一种电子设备的结构示意图。如图4所示，电子设备可以是图1中的计算端，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及应用程序。

在图4所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的配置应用程序接口的应用程序，并具体执行以下图2所述的方法，具体过程和技术效果可参照图2实施例的描述，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。