CN108805193A

CN108805193A - 一种基于混合策略的电力缺失数据填充方法

Info

Publication number: CN108805193A
Application number: CN201810559065.8A
Authority: CN
Inventors: 曾瑛; 李星南; 李伟坚; 林斌; 刘新展; 张正峰
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-13
Anticipated expiration: 2038-06-01
Also published as: CN108805193B

Abstract

本发明涉及电力数据清洗的技术领域，更具体地，涉及一种基于混合策略的电力缺失数据填充方法。包括如下步骤：S1、采用改进的k‑Means聚类算法对含有缺失数据的数据集进行聚类；S2、根据聚类结果改进并构造RBF神经网络；S3、训练RBF神经网络，并对缺失数据进行填充检验。此方法较好地解决了含有缺失属性的数据集聚类问题，并结合聚类结果设计RBF神经网络对缺失值进行预测填充。此方法提高了缺失数据填充的精确度，并且实现简便，计算开销适当，针对电力系统在运行与维护的过程中产生的大量数据由于物理与软件等因素影响而缺失损坏的问题，具有很高的实用价值。

Description

一种基于混合策略的电力缺失数据填充方法

技术领域

本发明涉及电力数据清洗的技术领域，更具体地，涉及一种基于混合策略的电力缺失数据填充方法。

背景技术

随着计算机科学的发展，越来越多的传统行业与计算机应用结合起来。在大数据与人工智能的发展趋势下，电力行业的研究产生了更多新的思路。电力系统在运行与维护的过程中会产生大量数据，而在采集数据、存储数据、分析分类等过程中会由于物理因素与软件因素等影响而产生数据缺失的问题。数据丢失在许多研究领域都是一个复杂的问题。对数据挖掘来说，缺失值的存在，造成了以下影响：系统丢失了大量的有用信息；系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握；包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。在电力系统中，缺失值的大量涌现也会影响电力监测建模和统计等任务。

传统的缺失数据处理主要是基于统计学方法的。如平均值填充法，将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值；如果空值是非数值型的，就根据统计学中的众数原理，用该属性在其他所有对象中出现频率最高的值来填补缺失值。回归填充法是基于完整的数据集，建立回归方程。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。这些方法的优势是操作简便，计算量小，但是在电力生产和电能使用的发电、输电、用电、调度和统计等各个环节，采集到的数据集比较复杂，变量之间不是线性相关，会存在很大误差。对此，更多地使用基于机器学习的方法来处理缺失数据。如使用聚类算法对数据进行分类，将与缺失数据样本处于同一分类的完整数据作加权平均来估计缺失值；使用人工神经网络(Artificial Neural Network)可以将变量映射到高维，以解决在低维中线性不可分的问题。

为了解现有技术的发展状况，对已有的专利和文献进行了检索、比较和分析，筛选出如下与本发明相关度比较高的技术信息：

专利方案1：201410344391.9一种面向智能电网的缺失数据填充方法

该专利提出一种面向智能电网的缺失数据填充方法。首先将源系统数据集中不完整数据打回源系统，由源系统重新生成数据集，再将其分成完整数据子集和缺失数据子集两部分。然后，对完整数据子集采用基于动态建模的k-Means聚类算法进行聚类，通过聚类结果对缺失数据子集中的缺失值进行填充。该发明能够在存在噪声和离群点的情况下，有效聚类空间数据，将其应用与缺失值填充中，提升了数据填充的准确性，为电力公司实现对业务系统数据的智能管理奠定了基础。

专利方案2：201510274616.2一种不完整数据混合填充方法

该专利提出了一种不完整数据混合填充方法，首先对数据集中缺失数据进行特殊值填充预处理，然后利用栈式自动编码机提取数据特征，并基于特征对填充后的数据集进行增量聚类，最后在聚类簇中利用与缺失数据对象相似的属性值进行加权填充，重复填充过程，比较相邻次填充值的差异，直到满足填充值收敛条件。该方法考虑了数据集中数据的局部相似性以及算法实际应用的非监督性与时效性，并利用特殊值填充、栈式自动编码机、增量聚类等思想保证填充结果的精确度和填充算法的速度。

上述专利方案1的缺陷：该方法针对缺失数据填充的问题设计了基于传统k-Means算法的解决方案，一定程度上解决了问题，但是没有克服k-Means算法本身的一些缺陷，并且单独使用聚类进行数据填充没有办法学习数据的内在规律，填充准确率有待提高。

上述专利方案2的缺陷：该方法设计了一种基于k-Means聚类和深度自动编码机的不完整数据填充方案，一定程度上解决了问题，但是在数据填充的时候仅考虑了取聚类得到的完整数据加权平均值，并没有对数据本身进行建模。并且，采用深度的自动编码机和反向传播计算会增加算法的计算量。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于混合策略的电力缺失数据填充方法，此方法提高了缺失数据填充的精确度，并且实现简便，计算消耗适当，具有很高的实用价值。

本发明的技术方案如下：一种基于混合策略的电力缺失数据填充方法，包括如下步骤：

S1、采用改进的k-Means聚类算法对含有缺失数据的数据集进行聚类；

S2、根据聚类结果改进并构造RBF神经网络；

S3、训练RBF神经网络，并对缺失数据进行填充检验。

进一步地，步骤S1具体包括：

S11、在k-Means聚类算法的聚类簇数k值确定的情况下，采用基于密度的方式确定k个初始聚类中心。首先选择一个数据样本点作为初始中心，然后以某个给定的正数d₁为半径，计算落入该半径内其它样本点的个数即为该样本点的密度。在求出所有数据样本点的密度之后，选取密度最大的数据点作为第一个初始中心。然后再给定一个正数d₂，选取与第一个初始中心距离d₂之外的次大密度样本点作为第二个聚类中心，可以避免选择的中心点过于密集。以此类推，可以选择出k个初始聚类中心。

S12、定义加权部分距离作为改进k-Means聚类算法的计算标准。设数据集C中有n个数据{X_i∈C，i＝1，2，...，m}，每个数据有m维属性，对任意两个数据样本X_i和X_j，定义加权部分距离如下：

其中，x_ik是第i个数据的第k维属性，w_k是第k维属性的权重值，I_k是第k维属性缺失的度量，如果x_ik与x_jk有一方数据缺失，即令I_k＝0，否则I_k＝1，使用m/I来按比例扩展未包含缺失属性的欧氏距离。

S13、权重初始化，对于m维的数据集，每个维度属性的权重初始赋值1/m。

S14、按照k-Means聚类的标准方式，根据S12中定义的加权部分距离对数据集进行k划分，并重新计算k个聚类中心。

S15、根据当前划分调整各个维度属性的权重值。调整公式如下：

其中，

式中，K表示聚类数，c_jk表示第j类的聚类中心的第k维属性值，m_k表示整个数据集第k维属性的均值，n_j表示第j类的数据数量，I表示第j类在第k维属性上的完整值个数，d_k是数据集的第k维属性权重的度量值，其值越大，所代表的属性的权重值也越大，反之亦然。

S16、重复S14到S15的过程，直到聚类的代价函数收敛，可以认为聚类过程结束，得到聚类的结果和最终的k个聚类中心。

进一步地，步骤S2具体包括：

S21、构造RBF神经网络，RBF神经网络是由输入层、隐含层和输出层组成的三层结构。其输入层只作传输信号使用，每个隐含层节点维持一个径向基函数，处理输入信号。隐含层的输出信号经加权求和得到输出值。RBF神经网络需要调整的参数有三组，即隐含层神经元基函数的中心向量，基函数的扩展常数与隐含层到输出层的权值w与偏置b。隐含层神经元的径向基函数采用高斯函数：

其中，x是输入向量，c_i是第i个隐含层神经元基函数的中心向量，σ_i是基函数的扩展常数。神经网络的输出如下：

其中，p是隐含层神经元的个数。

S22、根据S1步骤的聚类结果设计合适的RBF神经网络隐含层神经元个数，并将相应的聚类中心作为径向基函数的中心。设在S1中得到了k个聚类簇，数据集的维数m＞k。隐含层神经元的个数需要大于m，把向量映射到高维才能解决在低维条件下的线性不可分问题。采用对每个簇进行二分裂的方式增加聚类中心数，直到中心数为p＞m，则停止分裂，选取这p个中心为径向基函数中心，此时完成了RBF神经网络的构造。

进一步地，步骤S3具体包括：

S31、将数据集分成完整数据子集和含有缺失数据的子集，完整数据子集用于训练RBF神经网络，含有缺失数据的子集使用训练后的RBF神经网络进行填充。

S32、初始化RBF神经网络的权值，代入数据集进行训练，使用梯度下降算法调整输出层的权值、隐含层的基函数中心与扩展常数等参数，直到RBF神经网络收敛。

S33、将含有缺失属性的数据项代入RBF神经网络，并输出预测填充值。

与现有技术相比，有益效果是：对k-Means聚类算法进行了深度的优化，采用基于密度的方式选取初始聚类中心可以降低噪声等对聚类结果的影响，并引入权重的思想，提高了聚类的准确率；定义了加权部分距离，可以直接对含有缺失数据的数据集进行聚类，很大地简化了计算难度；与k-Means聚类结果结合，构造RBF神经网络作缺失值的预测，提高了填充精确度，并且RBF神经网络对于输入空间的某个局部区域只有少数几个连接权值影响输出，称为局部逼近网络，其训练收敛速度要优于一般的人工神经网络。

附图说明

图1是本发明整体流程图。

图2是本发明中改进的k-Means聚类算法流程图。

图3是本发明中RBF神经网络结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

图1是本发明的整体流程图，包括如下步骤：

S2、根据聚类结果改进并构造RBF神经网络；

S3、训练RBF神经网络，并对缺失数据进行填充检验。

将本发明应用于某电力数据集中，首先应对数据集进行数据预处理。一般而言，用较小的单位表示属性将导致该属性具有较大值域，因此趋向于使这样的属性具有较大的影响或较高的权重。为了帮助避免对度量单位选择的依赖性，应首先将各属性的数值进行规范化处理。本发明实例方案采用最小-最大规范化方法对原始数据进行线性变换，又称range scaling。变换方式如下：

式中，min_A和max_A分别是属性A的最小与最大数据样本值，α_i是第i条属性的实际值，α′_i是规范化后的值，规范化之后的数据样本属性值域都是[0，1]，可以避免数据值域对后续分配属性权重的影响。

为模拟数据缺失的情况，分别随机选择数据集中5％、10％和20％的数据剔除目标属性，然后执行步骤S1，步骤S1的聚类算法流程图如图2所示。

在执行完S1之后，开始执行步骤S2，比较S1的最终聚类中心数与数据集的维度数，如果数据集的维度数更大，即执行步骤S22中的分裂算法得到可行的RBF神经网络隐含层神经元基函数中心，完成RBF神经网络的构造。RBF神经网络结构如图3所示。

RBF神经网络构造完成后，执行步骤S3，使用完整数据子集对神经网络进行训练，在神经网络收敛后，代入含有缺失属性的数据子集，对缺失值进行预测填充。为了验证本发明的有效性，使用两个著名的标准来衡量算法的缺失数据填充精度。d₂标准用于衡量填充值与真实值的匹配程度，RMSE(Root Mean Squared Error)标准用于衡量填充值与真实值之间的平均误差。如下：

式中，n代表缺失值的数量，r_i代表第i个缺失值的真实值，e_i代表其填充值，R代表所有真实值的平均值，E代表所有填充值的平均值。由公式定义可知，d₂越大表示填充精度越高，相反，RMSE越小表示填充精度越高。

综上，本发明提出一种基于混合策略的电力缺失数据填充方法，并在k-Means聚类与RBF神经网络建模方面作出了创新，计算简便，在实例检验中，本发明有效提高了填充精确度。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于混合策略的电力缺失数据填充方法，其特征在于，包括如下步骤：S1、采用改进的k-Means聚类算法对含有缺失数据的数据集进行聚类；S2、根据聚类结果改进并构造RBF神经网络；S3、训练RBF神经网络，并对缺失数据进行填充检验。

2.根据权利要求1所述的基于混合策略的电力缺失数据填充方法，其特征在于，步骤S1具体包括：

S11、在k-Means聚类算法的聚类簇数k值确定的情况下，采用基于密度的方式确定k个初始聚类中心；首先选择一个数据样本点作为初始中心，然后以某个给定的正数d₁为半径，计算落入该半径内其它样本点的个数即为该样本点的密度；在求出所有数据样本点的密度之后，选取密度最大的数据点作为第一个初始中心；然后再给定一个正数d₂，选取与第一个初始中心距离d₂之外的次大密度样本点作为第二个聚类中心，可以避免选择的中心点过于密集；以此类推，可以选择出k个初始聚类中心；

S12、定义加权部分距离作为改进k-Means聚类算法的计算标准；设数据集C中有n个数据{X_i∈C，i＝1，2，...，m}，每个数据有m维属性，对任意两个数据样本X_i和X_j，定义加权部分距离如下：

其中，x_ik是第i个数据的第k维属性，w_k是第k维属性的权重值，I_k是第k维属性缺失的度量，如果x_ik与x_jk有一方数据缺失，即令I_k＝0，否则I_k＝1，使用m/I来按比例扩展未包含缺失属性的欧氏距离；

S13、权重初始化，对于m维的数据集，每个维度属性的权重初始赋值1/m；

S14、按照k-Means聚类的标准方式，根据S12中定义的加权部分距离对数据集进行k划分，并重新计算k个聚类中心；

S15、根据当前划分调整各个维度属性的权重值；调整公式如下：

其中，

式中，K表示聚类数，c_jk表示第j类的聚类中心的第k维属性值，m_k表示整个数据集第k维属性的均值，n_j表示第j类的数据数量，I表示第j类在第k维属性上的完整值个数，d_k是数据集的第k维属性权重的度量值，其值越大，所代表的属性的权重值也越大，反之亦然；

3.根据权利要求1所述的基于混合策略的电力缺失数据填充方法，其特征在于，步骤S2具体包括：

S21、构造RBF神经网络，RBF神经网络是由输入层、隐含层和输出层组成的三层结构；其输入层只作传输信号使用，每个隐含层节点维持一个径向基函数，处理输入信号；隐含层的输出信号经加权求和得到输出值；RBF神经网络需要调整的参数有三组，即隐含层神经元基函数的中心向量，基函数的扩展常数与隐含层到输出层的权值w与偏置b；隐含层神经元的径向基函数采用高斯函数：

其中，x是输入向量，c_i是第i个隐含层神经元基函数的中心向量，σ_i是基函数的扩展常数；神经网络的输出如下：

其中，p是隐含层神经元的个数；

S22、根据S1步骤的聚类结果设计合适的RBF神经网络隐含层神经元个数，并将相应的聚类中心作为径向基函数的中心；设在S1中得到了k个聚类簇，数据集的维数m＞k；隐含层神经元的个数需要大于m，把向量映射到高维才能解决在低维条件下的线性不可分问题；采用对每个簇进行二分裂的方式增加聚类中心数，直到中心数为p＞m，则停止分裂，选取这p个中心为径向基函数中心，此时完成了RBF神经网络的构造。

4.根据权利要求1所述的基于混合策略的电力缺失数据填充方法，其特征在于，步骤S3具体包括：

S31、将数据集分成完整数据子集和含有缺失数据的子集，完整数据子集用于训练RBF神经网络，含有缺失数据的子集使用训练后的RBF神经网络进行填充；

S32、初始化RBF神经网络的权值，代入数据集进行训练，使用梯度下降算法调整输出层的权值、隐含层的基函数中心与扩展常数等参数，直到RBF神经网络收敛；