CN116894687A

CN116894687A - 一种基于机器学习的用电量分析方法及系统、电子设备

Info

Publication number: CN116894687A
Application number: CN202310717458.8A
Authority: CN
Inventors: 周贤富; 陈炜; 吴恒超; 温尚龙; 沈亚萍; 侯加庆; 丁玲; 王春; 王义达; 吴旭亮; 王珏
Original assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-17

Abstract

本发明公开一种基于机器学习的用电量分析方法及系统、电子设备，属于电力数据处理技术领域。本发明通过构建时间序列分解模型对输入的用电量数据序列进行时序关系建模，提取用电量数据特征进行预测，获取每个时刻对应的用电量预测值作为异常识别的比对值；计算各时刻比对值和用电量数据实际值的残差，利用改进的K‑means聚类算法对残差进行聚类分析；对异常数据的离群点进行分析评价；根据正常数据进行用电量分群预测。本发明针对用电量数据的时序相关性进行建模，能较好地保存历史数据的变化趋势，周期特征等相关信息，使得正常和异常数据通过数据聚类分析更容易区分，聚类效果好，预测精度高，使其适合电力系统用电量分析预测的实际需求。

Description

一种基于机器学习的用电量分析方法及系统、电子设备

技术领域

本发明涉及电力数据处理技术领域，尤其涉及基于机器学习的用电量分析方法及系统、电子设备。

背景技术

对于用户的用电量进行分析，为电力系统网络的调度提供科学依据，合理利用资源，满足用户用电量的不断增长需求。大量用电信息数据对未来负荷发展趋势的预测具有重大意，基于大数据分析的预测有利于电力系统运行状态估计。根据用电量预测结果能够确定电网资源投入，对电力装机分布有很大的帮助，有利于不同地区间电量协调的科学运行。

如何对用电量数据动态分析是电力系统调度的重要基础。根据已公开文献检索，如专利文献CN110795610B的一种基于聚类的电力负荷分析方法，虽然通过针对不同的用电单位或部门以及不同的用电设备对电力的需求量，使用聚类的电力负荷分析，但是无法解决用电量数据采集异常的问题，不能直接应用于电力需求侧的分析场景。

发明内容

本发明所要解决的技术问题是解决电力系统需求侧用电量分析的问题，本发明的目的旨在提供一种基于机器学习的用电量分析方法，包括：构建时间序列分解模型对输入的用电量数据序列进行时序关系建模，提取用电量数据特征进行预测，获取每个时刻对应的用电量预测值作为异常识别的比对值；计算各时刻比对值和用电量数据实际值的残差，利用改进的K-means聚类算法对残差进行聚类分析；对异常数据的离群点进行分析评价；根据正常数据进行用电量分群预测。

通过充分挖掘电量数据中的趋势性、周期性和季节性特征，进而推导出区域当前时刻用电量的比对值，计算各时刻比对值和实际值的残差，接着利用K-means聚类算法对残差进行聚类，从而识别出异常数据中的离群点，最后验证有效性。

在本方案中，进一步地，所述时间序列分解模型以影响用电量变化的长期趋势因素和季度变动因素、循环变动因素和不规则变动因素为整体，所述长期趋势因素为排除因季节变动因素和循环变动因素所引起的随机波动曲线。

更进一步地，所述时间序列分解模型为：

Y_t＝f(T_t,S_t,C_t,I_t)

式中，Y为时间序列预测值，T为长期趋势因素；S为季节变动因素，C为循环变动因素，I为不规则变动因素。

更进一步地，所述时间序列分解模型的分解步骤包括：针对季节变动因素的分解，具体为：使用移动平均法去除长期趋势因素和循环变动因素，再使用移动平均法计算季节变动因素；测定长期趋势因素；求取循环变动因素；求取不规则变动因素。

更进一步地，所述改进的K-means聚类算法为采用DPC密度峰值算法对原始K-means聚类算法的初始聚类中心优化改进后得到的模型。

K-means聚类算法能够对用电量进行一定程度的研究，但其初始聚类中心随机问题一直存在，通过改进后的K-means聚类算法，更有利于勾画出用电量特征图，更有利于分析。DPC密度峰值算法能有效地实现离群点的剔除和样本点的分配，具有快速发现任意形状数据集的聚类中心，且参数据容易确定。

更进一步地，所述残差的模型由获得的每个历史时刻的用电量预测值与实际用电量作差，得到残差项，为：

res(t)＝|y(t)-x(t)|

其中，res(t)为第t时刻的残差项，y(t)和x(t)分别为第t时刻的预测值和实际值，t＝1,2,…,T。

本发明还提供另一种方案：一种基于机器学习的用电量分析系统，包括：用电信息获取模块，以获取用户设备的用电量数据；用电特征提取模块，以提取各设备的用电特征信息；时间序列分解模型，对用电量数据序列进行时序关系建模；改进的K-means聚类算法，对各时刻比对值和用电量数据实际值的残差进行聚类分析。

本方案通过用电信息获取模块、用电特征提取模块、时间序列分解模型和改进的K-means聚类算法构成的系统，聚类效果好，更有利于对用电量的分析应用，可更好地解决电力系统需求侧用电量分析的问题。

本发明还提供另一种方案：一种电子设备，包括存储器和处理器以及存储在存储器内并在处理器中运行的计算机指令，所述计算机指令被处理器运行时，运行用电量分析步骤。

相对现有技术，本发明的有益效果在于：

本发明一方面通过时间序列分解模型针对用电量数据的时序相关性进行建模，能较好地保存历史数据的变化趋势，周期特征等相关信息，使得正常和异常数据通过数据聚类分析更容易区分。另一方面，运用改进的K-means算法对于检测非正态分布的异常点具备优势，对异常识别具有稳定性，聚类效果好，对不同区域的用电量数据都能较好地检测出异常数据，使其适合电力系统用电量分析预测的实际需求，提高预测精度。

附图说明

图1为本发明用电量分析方法的流程示意图。

图2为本发明时间序列分解模型的分解流程示意图。

图3为本发明异常数据的分析步骤示意图。

图4为本发明长期趋势指标图。

图5为本发明循环指标图。

具体实施方式

下面通过实施例，对本发明的技术方案作进一步具体的说明。

实施例1。

如图1所示，本实施例提供一种基于机器学习的用电量分析方法，包括以下步骤：

步骤一：构建时间序列分解模型对输入的用电量数据序列进行时序关系建模，提取用电量数据特征进行预测，获取每个时刻对应的用电量预测值作为异常识别的比对值。

有很多因素会导致用电量发生改变，部分因素是引起用电量变化的主要原因，这些因素让用电量的发展趋势具有规律性，部分因素是为随机的非基本因素数，对用电量的改变不起重要作用，但是会让用电量产生不稳定波动现象。长期趋势，季节变化，循环变动和不规则变动是主要原因。

时间序列分解模型以影响用电量变化的长期趋势因素和季度变动因素、循环变动因素和不规则变动因素为整体，所述长期趋势因素为排除因季节变动因素和循环变动因素所引起的随机波动曲线。

所以在实际计算中，将影响因素进行区分，本实施例分为4个主要因素：长期趋势因素T、季节变化因素S、循环变动因素C和不规则变动因素I。

本实施例首先依次确定测定季节变化因素、长期趋势因素、循环变动因素，然后使用趋势外推法预测出各因数目标年的预测值，最后通过建立的时间序列分解模型对预测值进行计算，得到目标年各月的预测值。

本实施例的长期趋势因素使用线性方程拟合，为：

y＝a+bt

式中：y为时间序列的长期趋势，t为时间序列中指标所属的时间；a、b为待定系数，用最小二乘法来估计式中参数a、b。

循环变动因素遵循着波浪形的样式，从高值降到低值，然后再回复到高值。

季节变动因素关系到一定周期内的波动，季节变动可能是每几个月或每七天重复一次，而循环变动要在更长的一段时间，或许是二至五年才重复一次。

不规则变动因素由于临时性、随机性的因素导致时间序列的非周期性或趋势性的随机变动。不规则变动因素通常在零附近波动。

本实施例适用于受多因素影响的非线性变化趋势的时间序列趋势分析，由于电量数据中的趋势性和季节性特征对用电量数据的影响分别呈平稳和非平稳的特征。

时间序列分解模型可以表示为：

Y_t＝f(T_t,S_t,C_t,I_t)

式中：Y为时间序列预测值，T为长期趋势因素；S为季节变动因素，C为循环变动因素，I为不规则变动因素。

如图2所示，在对时间序列进行分解时，季节变动因素的求取结果称为季节指数，长期趋势因素的求取结果称为长期趋势，循环变动因素的求取结果称为循环指数，不规则变动因素的求取结果称为不规则指数，时间序列的分解是先分解季节指数，然后计算长期趋势和循环指数，最后得出不规则指数，我们以月度数据为例进行说明。

细分步骤一：针对季节指数的分解。首先计算移动平均数，其次计算中心化移动平均数，再次计算季节指数和不规则指数，然后除去不规则变动因素，获得季节指数。

首先，计算移动平均数：对于季节指数，其计算过程是首先使用移动平均法去除长期趋势因素和循环变动因素，其次再使用月移动平均法计算季节指数。因为一年有12个月，所以取12作为移动平均项数，须作两次移动。

MA_i＝(Y_i+Y_i+1+…+Y_i+11)

MA′_i＝(MA_i+MA_i+1)/2

其中，MA_i为一个全年按月的平均数，MA′_i为移动后的平均数。

其次，计算中心化移动平均数：

经上述步骤移动后的移动平均数没有季节性波动及不规则波动，所以它反映了长期趋势及循环指数，移动平均值表示为T×C。

再次，计算季节指数和不规则指数：

将时间序列Y除以MA′_i，即可获得只有季节指数和不规则指数的序列SI。

其中，SI为一组只包含季节变动和不规则变动因素的数值。这些比值包含着识别季节性所必要的数据。将这些数值乘以100，如果一个比值在100以上，那就意味着实际值Y大于移动平均值T×C，但是因为实际值包含了季节变动因素和不规则变动因素，而移动平均值却没有，这就表示这一季节性和不规则波动大于平均水平。

然后，除去不规则变动因素，获得季节指数：

由于不规则变动是一些无法控制和难以解释的因素，因而不规则变动指的是偶然性，其变化也没有规律，但不规则变动一直围绕着零上下波动，其平均数为零。因此把同一月份的全部数值进行平均，就消去了大部分的不规则变动因素。得到的这些数值等同于季节指数的数学表达式

细分步骤二：测定长期趋势指数。

由于移动平均值T×C表示的是一组序列的长期趋势与循环变动因素的乘积值，因此需要把长期趋势与循环指数分离开来。把时间序列中的季节指数去除，获得去除季节指数的数据。

其中，T×C×I为包括不规则变动因素，对多个数据值取平均，常用3×3移动平均数从数据中去除随机因素，即根据已消除季节性的数据取得三期移动平均数后再取得另一个三期移动平均数，这样所得的数就称为3×3移动平均数。这种方法可以使数据中消去大部分不规则变动因素，能较好的显示现存的长期趋势、循环变动因素。3×3移动平均数序列反映长期趋势和循环变动因素，现从中分离出长期趋势。长期趋势以线性函数表示，因此拟合出该线性函数，这个线性函数就是反映长期趋势的函数。

回归方程式为：

T＝a+bt

其中：a、b为常数，第一期时间t为1，依次类推。

细分步骤三：求取循环指数。

将序列T×C除以T即可得到循环指数C。

细分步骤四：求取不规则指数。

把T、S、C从时间序列中分解出来，其余的部分就是不规则指数。

由于不规则变动因素是一些无法控制和难以解释的因素，因而消去随机性以确定季节性因素是有益的，随机值绕零波动，其平均数为零。由于不规则变动因素服从一个随机正态分布，是不可预测的，因此在预测中不予考虑。

根据上述分析，可得预测模型。

运用上述时间序列分解法可以有效地分解出各种因素，并利用各因素的变化趋势来预测，从而得到目标年的预测值。

步骤二：计算各时刻比对值和用电量数据实际值的残差，利用K-means聚类算法对残差进行聚类分析。

为了对原始数据进行异常辨识，在通过时间序列分解模型获得每个历史时刻的用电量比对值的基础上，与原数据中的实际用电量作差，得到t时刻的残差项：

res(t)＝|y(t)-x(t)|

式中，res(t)为第t时刻的残差项；y(t)和x(t)分别为第t时刻的预测值和实际值；t＝1,2,…,T。

步骤三：对异常数据的离群点进行分析评价。

如图3所示，利用K-means聚类算法对res进行聚类分析，聚类的结果将这些数据划分成若干个簇和离群点，包含在簇中的点为正常采集的数据，而在簇外的离群点就是K-means聚类算法所识别出的异常数据。

根据K-means算法的聚类结果，将所有簇内所包含的数据点标记为正常数据，将离群点标记为异常数据。

最后将K-means聚类所标记的结果与区域用电量数据的真实标签进行对比，计算评价指标，以此作为衡量不同识别方法性能的标准。

在异常数据处理前需进行数据清洗转换，高质量的电力用户数据能够保证数据挖掘高效、可靠，数据完整性好、数据冗余少、属性之间的相关性小等条件才能保证分析的质量。然而实际中由于人为的原因，设备的故障异常，使得原始数据会出现数据缺失、错误、重复或矛盾等不同情况，如果直接对这样的原始数据进行分析，会严重影响数据分析算法的执行效率，导致出现杂乱性、重复性、不完整性等数据对象常见问题。

本实施例由于电力用户数据集的基数大，异常数据、重复数据所占比例小，故对异常数据、重复数据作删除处理。

步骤四：根据正常数据进行用电量分群预测。

采用改进的K-means聚类算法进行用电量分群预测。改进的K-means聚类算法为采用DPC密度峰值算法对原始K-means聚类算法的初始聚类中心优化改进后得到的模型。

改进的K-means聚类算法是基于加权欧氏距离的相似度矩阵的计算，通过计算所有样本点的局部密度和高密度距离以获得簇中心选择指数来确定初始簇中心点及K值的选取。

首先利用加权法对欧氏距离进行加权，得到一种新的样本点间相似度度量方法，进而得到相似度矩阵。由于相似度矩阵中对角线元素均为0，所以取相似度矩阵对角线上部进行升序排列，假设有n个样本点的样本集。

设定数据集的簇数K为2，计算样本点间的相似度从而得到矩阵S，取相似度矩阵S对角线以上部分元素进行升序排列，选定第个相似度值作为截断距离d_c，得到各样本点的局部密度ρ′_i，得到各样本点的高密度距离δ′_i，得到各样本点的簇中心选择指数γ′_i，将各样本点的簇中心选取指数γ′_i进行降序排列，选取具有最大簇中心选择指数的K个样本点确定为聚类初始簇中心并将其添加到初始簇中心点集合中，K-means算法进行聚类，将DPC密度峰值中其余样本点进行分配，计算新的簇中心，将各样本点分配到与其相似度最高的簇中心对应的簇中，直到簇中心点不再发生变化，计算加权平均簇半径，以步长为1增加数据集簇数，并重复，直到数据集的族数为E，计算簇数评判值，将首次小于簇数评判值的簇平均半径增长量中的增长前簇数作为最终确定的K值，进而得到该K值对应的聚类簇集。

最后输出聚类结果集，对聚类结果进行分析，得到符合不同特征的用电量分群预测。

实施例2。

本实施例提供一种基于机器学习的用电量分析系统，其系统包括：用电信息获取模块，以获取用户设备的用电量数据；用电特征提取模块，以提取各设备的用电特征信息；时间序列分解模型，对用电量数据序列进行时序关系建模；改进的K-means聚类算法，对各时刻比对值和用电量数据实际值的残差进行聚类分析。本实施例2可通过实施例1所述的基于机器学习的用电量分析方法进行运行。

本实施例通过用电信息获取模块、用电特征提取模块、时间序列分解模型和改进的K-means聚类算法构成的系统，聚类效果好，更有利于对用电量的分析应用，可更好地解决电力系统需求侧用电量分析的问题。

实施例3。

本实施例提供一种电子设备，应用于实施例2的用电量分析系统，采用实施例1的用电量分析方法的场景，其包括存储器和处理器以及存储在存储器内并在处理器中运行的计算机指令。

实施例4。

本实施例提供一种基于机器学习的用电量分析方法，根据某地2018-2021年用电量历史数据，结合实施例1的基础上，得到的3×3移动平均数线性回归图。

如图4所示，得到的长期趋势的函数表达式为：T＝0.229x+30.516，从中可看出用电量的长期趋势。

如图5所示，得到用电量的循环指数图，从中可看到循环指数的变化情况。根据季节指数、循环指数、长期趋势可以预测出目标年各指标的大小，根据实施例的分析，目标年月度用电量与实际用电量间相对误差平均值为6.27％，误差较小。

本实施例通过使用时间序列法进行用电量的分析预测可以提高用电量预测的准确性，从而保证了电力系统有效可靠运行。

从以上实施例可以看出，本发明通过构建时间序列分解模型对输入的用电量数据序列进行时序关系建模，提取用电量数据特征进行预测，获取每个时刻对应的用电量预测值作为异常识别的比对值；计算各时刻比对值和用电量数据实际值的残差，利用改进的K-means聚类算法对残差进行聚类分析；对异常数据的离群点进行分析评价；根据正常数据进行用电量分群预测。本发明针对用电量数据的时序相关性进行建模，能较好地保存历史数据的变化趋势，周期特征等相关信息，使得正常和异常数据通过数据聚类分析更容易区分，聚类效果好，预测精度高，使其适合电力系统用电量分析预测的实际需求。

Claims

1.一种基于机器学习的用电量分析方法，其特征在于，包括：

构建时间序列分解模型对输入的用电量数据序列进行时序关系建模，提取用电量数据特征进行预测，获取每个时刻对应的用电量预测值作为异常识别的比对值；

计算各时刻比对值和用电量数据实际值的残差，利用改进的K-means聚类算法对残差进行聚类分析；

对异常数据的离群点进行分析评价；

根据正常数据进行用电量分群预测。

2.根据权利要求1所述的基于机器学习的用电量分析方法，其特征在于，所述时间序列分解模型以影响用电量变化的长期趋势因素和季度变动因素、循环变动因素和不规则变动因素为整体，所述长期趋势因素为排除因季节变动因素和循环变动因素所引起的随机波动曲线。

3.根据权利要求2所述的基于机器学习的用电量分析方法，其特征在于，所述时间序列分解模型为：

Y_t＝f(T_t,S_t,C_t,I_t)

4.根据权利要求2所述的基于机器学习的用电量分析方法，其特征在于，所述时间序列分解模型包括以下分解步骤：

针对季节变动因素的分解，具体为：使用移动平均法去除长期趋势因素和循环变动因素，再使用移动平均法计算季节变动因素；

测定长期趋势因素；

求取循环变动因素；

求取不规则变动因素。

5.根据权利要求1所述的基于机器学习的用电量分析方法，其特征在于，所述改进的K-means聚类算法为采用DPC密度峰值算法对原始K-means聚类算法的初始聚类中心优化改进后得到的模型。

6.根据权利要求1所述的基于机器学习的用电量分析方法，其特征在于，所述残差的模型由获得的每个历史时刻的用电量预测值与实际用电量作差，得到残差项，为：

res(t)＝|y(t)-x(t)|

7.一种基于机器学习的用电量分析系统，其特征在于，包括：

用电信息获取模块，以获取用户设备的用电量数据；

用电特征提取模块，以提取各设备的用电特征信息；

时间序列分解模型，对用电量数据序列进行时序关系建模；

改进的K-means聚类算法，对各时刻比对值和用电量数据实际值的残差进行聚类分析。

8.一种电子设备，包括存储器和处理器以及存储在存储器内并在处理器中运行的计算机指令，其特征在于，所述计算机指令被处理器运行时，完成如权利要求1至6任一权利要求所述的分析方法。