CN111309718A

CN111309718A - 一种配网电压数据缺失填补方法及装置

Info

Publication number: CN111309718A
Application number: CN202010102454.5A
Authority: CN
Inventors: 林跃欢; 黄彦璐; 袁智勇; 雷金勇; 罗俊平; 陈柔伊; 徐全; 白浩; 史训涛
Original assignee: China South Power Grid International Co ltd; China Southern Power Grid Co Ltd
Current assignee: China South Power Grid International Co ltd; China Southern Power Grid Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-19
Anticipated expiration: 2040-02-19
Also published as: CN111309718B

Abstract

本申请公开了一种配网电压数据缺失填补方法及装置，方法包括：对获取的历史断面数据进行预处理，得到无量纲断面数据集；采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集；通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集；根据第二聚类数据集与当前缺失数据构建时间序列组，时间序列组包括历史数据序列和当前缺失数据序列；通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。本申请解决了现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性，不能满足电网发展需求的技术问题。

Description

一种配网电压数据缺失填补方法及装置

技术领域

本申请涉及电网技术领域，尤其涉及一种配网电压数据缺失填补方法及装置。

背景技术

近年来，世界各地掀起了大数据的研究热潮，大数据技术为智能电网的发展注入了新鲜的血液，并取得了一定的成绩，数据库技术也趋于完善，但由于人工录入的问题或机器发生故障，数据库中不可避免会有数据缺失的现象。

当前的电网中的数据缺失，尤其是电压数据的缺失多是采用传统机器学习的方法，构造复杂的经验模型或者核函数，方法复杂不易进行实际操作，并且没有考虑实际数据的特性和相关性，不能满足电网的发展需求。

发明内容

本申请提供了一种配网电压数据缺失填补方法及装置，用于解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性，不能满足电网发展需求的技术问题。

有鉴于此，本申请第一方面提供了一种配网电压数据缺失填补方法，包括：

对获取的历史断面数据进行预处理，得到无量纲断面数据集；

采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集；

通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核，得到第二聚类数据集；

根据所述第二聚类数据集与当前缺失数据构建时间序列组，所述时间序列组包括历史数据序列和当前缺失数据序列；

通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。

优选地，所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集，包括：

判断所述无量纲断面数据集是否均为数值型，若是，则采用欧氏距离算法进行聚类分析，否则，采用对数似然距离算法进行聚类分析；

判定聚类结构是否满足预置显著条件，若是，则聚类成功，得到所述第一聚类数据集，否则，聚类失败，重新进行聚类分析。

优选地，所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核，得到第二聚类数据集，包括：

根据获取的所述历史断面数据设定最小支持度阈值，并由所述预置Apriori算法求得频繁项集：

其中support(A→B)为A到B的支持度，P(A∪B)为A和B的总支持度，sup_min为所述最小支持度阈值；

根据获取的所述历史断面数据设定最小置信度阈值，并由所述预置Apriori算法求得强关联规则：

其中，confidence(A→B)为A到B的置信度，conf_min为所述最小置信度阈值，P(B|A)为B在A发生的情况下的条件概率，所述强关联规则框架包括所述频繁项集和所述强关联规则；

根据所述强关联规则框架对所述第一聚类数据集进行校核，得到所述第二聚类数据集。

优选地，所述根据所述第二聚类数据集与当前缺失数据构建时间序列组，所述时间序列组包括历史数据序列和当前缺失数据序列，还包括：

根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。

优选地，所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补，包括：

从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组，并计算每组弯曲距离路径序列之间的新型DTW距离值，所述新型DTW距离值越小，所述相似度越大，两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组；

选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。

本申请第二方面提供了一种配网电压数据缺失填补装置，包括：

预处理模块，用于对获取的历史断面数据进行预处理，得到无量纲断面数据集；

聚类分析模块，用于采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集；

强关联模块，用于通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核，得到第二聚类数据集；

时间序列模块，用于根据所述第二聚类数据集与当前缺失数据构建时间序列组，所述时间序列组包括历史数据序列和当前缺失数据序列；

缺失填补模块，用于通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。

优选地，所述聚类分析模块包括：

第一判断模块，用于判断所述无量纲断面数据集是否均为数值型，若是，则采用欧氏距离算法进行聚类分析，否则，采用对数似然距离算法进行聚类分析；

第二判断模块，用于判定聚类结构是否满足预置显著条件，若是，则聚类成功，得到所述第一聚类数据集，否则，聚类失败，重新进行聚类分析。

优选地，所述强关联模块具体用于：

优选地，所述时间序列模块还用于：

优选地，所述缺失填补模块具体用于：

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种配网电压数据缺失填补方法，包括：对获取的历史断面数据进行预处理，得到无量纲断面数据集；采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集；通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集；根据第二聚类数据集与当前缺失数据构建时间序列组，时间序列组包括历史数据序列和当前缺失数据序列；通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。

本申请提供的配网电压数据缺失填补方法，对历史数据进行聚类分析，得到聚类数据集，然后用Apriori算法构建强关联规则框架，该框架可以校核得到的聚类数据集；将经过处理的历史数据，即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组，该时间序列组包括历史数据序列和当前缺失数据序列，判断二者之间的相似度，用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发，评估电压缺失的数据，寻找历史数据与缺失数据之间的特性和关联性，使得填补的缺失数据更加符合实际情况，更能满足电网的发展需求。因此，本申请提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性，不能满足电网发展需求的技术问题。

附图说明

图1为本申请实施例提供的一种配网电压数据缺失填补方法的一个流程示意图；

图2为本申请实施例提供的一种配网电压数据缺失填补方法的另一个流程示意图；

图3为本申请实施例提供的一种配网电压数据缺失填补装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种区块链快速共识方法的实施例一，包括：

步骤101、对获取的历史断面数据进行预处理，得到无量纲断面数据集。

需要说明的是，获取的历史断面数据是电能质量的原始数据，为了便于后续统一的处理，需要将这些量纲不同的断面数据进行预处理操作，得到无量纲断面数据，以备后续计算使用；进行无量纲化的预处理方法可以是归一化处理技术。

步骤102、采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集。

需要说明的是，对无量纲断面数据集进行聚类分析的目的是增大数据的类间差异，聚类操作可以根据预置的条件不断进行，直至聚类成功，得到第一聚类数据集；如果聚类的数据为数值型，就直接使用欧氏距离进行聚类，如果不是，就需要同时考虑数值型和分类型的数据计算，采用对数似然距离进行聚类。对数似然函数能够反映类的内部变量的总体差异性，聚类分析过程中不在考虑模型的复杂程度，得到类间差距显著的聚类数据集，用于后续的填补操作，增强了缺失数据填补的可靠性。

步骤103、通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集。

需要说明的是，Apriori算法是第一个关联规则挖掘算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，然后形成规则，其过程由连接与剪枝组成，连接是类矩阵运算，剪枝是去掉没必要的中间结果；该算法中项集的概念即为项的集合，包含k个项的集合为k项集，项集出现的频率是包含项集的事务数，称为项集的频率。如果某项集满足最小支持度，则称它为频繁项集。通过Apriori算法构建的强关联规则框架，可以校核第一聚类数据集，过滤掉数据集中的错误的，干扰性的噪声记录，得到第二聚类数据集。

步骤104、根据第二聚类数据集与当前缺失数据构建时间序列组，时间序列组包括历史数据序列和当前缺失数据序列。

需要说明的是，历史数据和当前缺失数据确定的序列是时间属性的序列，在时间上是对应的，并且在时间上存在一定关联性，所以能够组建这样的序列组，进行关联性探讨，更有有利于挖掘二者之间关系。

步骤105、通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。

需要说明的是，时间序列组中包括历史数据序列和当前数据序列，需要根据这两种序列确相似度，相似度越大，说明该时刻对应的历史数据与当前缺失的数据最相似，就可以利用此时刻对应的数据进行电压缺失填补。具体的相似度的确定可以用数据间的距离衡量，距离相距最近的即为最佳的历史数据序列；也可以通过其他方法选择最佳相似度的历史数据序列，具体不作限制，可以根据实际情况选择。

本实施例提供的配网电压数据缺失填补方法，对历史数据进行聚类分析，得到聚类数据集，然后用Apriori算法构建强关联规则框架，该框架可以校核得到的聚类数据集；将经过处理的历史数据，即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组，该时间序列组包括历史数据序列和当前缺失数据序列，判断二者之间的相似度，用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发，评估电压缺失的数据，寻找历史数据与缺失数据之间的特性和关联性，使得填补的缺失数据更加符合实际情况，更能满足电网的发展需求。因此，本实施例提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性，不能满足电网发展需求的技术问题。

为了便于理解，请参阅图2，本申请实施例中提供了一种区块链快速共识方法的实施例二，包括：

步骤201、对获取的历史断面数据进行预处理，得到无量纲断面数据集。

需要说明的是，本实施例采用预处理公式对无量纲断面数据集进行预处理操作，预处理公式如下：

其中，X_i为需要进行处理的历史断面数据的序列，

为基准值，基准值是从序列中挑选的，n为序列中元素的个数。

步骤202、判断无量纲断面数据集是否均为数值型，若是，则采用欧氏距离算法进行聚类分析，否则，采用对数似然距离算法进行聚类分析。

需要说明的是，无量纲断面数据集如果均为数值型，那么直接采用欧氏距离进行聚类，否则，就要同时考虑数值型和分类型的数据计算，用对数似然距离进行聚类分析，设有k个聚类变量V₁,V₂,......,V_k，其中数值型的聚类变量服从正态分布，在此不作过多描述，分类型聚类变量服从联合正态分布。如果聚类成J类，则对数似然函数定义为：

其中，ι为对数似然函数，I_j是第j类样本集合，θ_j是第j类的参数向量，V_i是第i个聚类，ι_j是第j类的对数似然函数，聚类是一个增大类间距离的过程，将相似的类别合并为同类，记第j类和第s类合并后为＜j,s＞，则它们的对数似然距离定义为两类合并之前的对数似然函数

与合并后的对数似然

即：

其中，H(j,s)为第j类和第s类之间的对数似然距离，

和

分别是第j类的对数似然函数、第s类的对数似然函数和二者之间的对数似然函数；对数似然函数能够反映类间变量取值的总体差异性，数值型变量以方法为量度，分类型离散变量以信息熵为量度。要使聚类的变量数不断减少，从而提高类间的差异，需要不断修正粗略估计值J，具体的优修正公式如下：

其中，H_min(C_J)表示C_J类别和J类别间的最小距离，H_min(C_J+1)表示C_J+1类别和J类别间的最小距离；依据对数似然距离，在2,3,4,……，J类中选择一个恰当值，不在考虑模型的复杂程度。

步骤203、判定聚类结构是否满足预置显著条件，若是，则聚类成功，得到第一聚类数据集，否则，聚类失败，重新进行聚类分析。

需要说明的是，聚类有可能不是一次成功，需要进行多次聚类分析，所以需要判断聚类是否成功，校验聚类的方法是卡方校验法，假设各聚类变量的类别分布无显著差异，而检验统计量的概率值小于预置显著条件，一般预置显著条件设为0.05，那么就认为该相应聚类变量的均值在各类间存在显著差异，则拒绝原假设；如果检验统计量的概率值大于预置显著条件，则接受假设，说明聚类的各变量确实不存在显著的差异，聚类失败，重新进行聚类分析，直到聚类成功，得到第一集聚类数据集。

步骤204、根据获取的历史断面数据设定最小支持度阈值，并由预置Apriori算法求得频繁项集。

其中support(A→B)为A到B的支持度，P(A∪B)为A和B的总支持度，sup_min为最小支持度阈值；

步骤205、根据获取的历史断面数据设定最小置信度阈值，并由预置Apriori算法求得强关联规则。

其中，confidence(A→B)为A到B的置信度，conf_min为最小置信度阈值，P(B|A)为B在A发生的情况下的条件概率。

需要说明的是，强关联规则框架包括频繁项集和强关联规则构建的强关联规则框架能够深入挖掘数据之间的关联性，找到数据之间存在的潜在规则，能够更好的利用数据之间的关系进行数据相关操作。

步骤206、根据强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集。

需要说明的是，构建的强关联规则框架能反映出配网电压数据之间的关联，且能校核第一聚类数据集，过滤掉错误的、干扰性的噪声数据，得到更加可靠的第二聚类数据集。

步骤207、根据第二聚类数据集与当前缺失数据构建时间序列组，时间序列组包括历史数据序列和当前缺失数据序列。

步骤208、根据历史数据序列和当前缺失数据序列构建距离平方矩阵。

需要说明的是，假设历史数据序列为X＝{x₁,x₂,......,x_m}，当前缺失数据序列为Y＝{y₁,y₂,......,y_n}，其中m，n分别表示两个序列中的元素个数，构建一个m×n的距离平方矩阵如下：

其中d(x_i,y_i)＝(x_i-y_i)²，即序列点x_i和y_i的距离的平方值。

步骤209、从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组，并计算每组弯曲距离路径序列之间的新型DTW距离值。

步骤210、选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。

需要说明的是，其中，新型DTW距离值越小，相似度越大，两个弯曲距离路径序列为一组弯曲距离路径序列组。用l＝{l₁,l₂,...,l_k,...,l_w}表示一条弯曲距离路径，w是序列中的元素个数，满足条件的弯曲距离路径不止一条，可以定义一个弯曲距离路径序列组，该序列组包括序列V和序列U，该序列组的新型DTW距离可以表示为：

其中，l_k表示弯曲距离路径中第k个元素。另外，弯曲距离路径l满足如下约束条件：

(1)边界性：l₁＝d(x₁,y₁)表示路径l的起点，l_ss＝d(x_m,y_n)表示路径l的终点；

(2)单调性：对于起点和终点外的任意元素l_α＝d(x_i,y_j)，其前一个元素l_α-1＝d(x_a,y_b)满足i≥a,j≥b；

(3)连续性：i-a≤1,j-b≤1。

需要说明的是，最佳历史数据序列是通过D_TW选择的，当得到的D_TW最小的时候，说明相似度最高，用此时对应的历史数据序列进行电压缺失数据的填补，结果更加可靠。本实施例从配网数据库中的历史数据出发，充分利用历史数据之间的相关性，选择具有强相关的属性数据作为电压缺失数据填补的参考依据，同时通过动态时间弯曲距离来衡量各属性缺失时刻数据与历史数据的相似程度，找到与电压缺失时刻最相似时刻的数据替代缺失时刻数据，从而提高了电压缺失数据填补的准确性。

为了便于理解，请参与图3，本申请中还提供了一种区块链快速共识装置的实施例，包括：

预处理模块301，用于对获取的历史断面数据进行预处理，得到无量纲断面数据集；

聚类分析模块302，用于采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集；

强关联模块303，用于通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集；

时间序列模块304，用于根据第二聚类数据集与当前缺失数据构建时间序列组，时间序列组包括历史数据序列和当前缺失数据序列；

缺失填补模块305，用于用于通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。

进一步地，聚类分析模块302包括：

第一判断模块3021，用于判断无量纲断面数据集是否均为数值型，若是，则采用欧氏距离算法进行聚类分析，否则，采用对数似然距离算法进行聚类分析；

第二判断模块3022，用于判定聚类结构是否满足预置显著条件，若是，则聚类成功，得到第一聚类数据集，否则，聚类失败，重新进行聚类分析。

进一步地，强关联模块303具体用于：

根据获取的历史断面数据设定最小支持度阈值，并由预置Apriori算法求得频繁项集：

根据获取的历史断面数据设定最小置信度阈值，并由预置Apriori算法求得强关联规则：

其中，confidence(A→B)为A到B的置信度，conf_min为最小置信度阈值，P(B|A)为B在A发生的情况下的条件概率，强关联规则框架包括频繁项集和强关联规则；

根据强关联规则框架对第一聚类数据集进行校核，得到第二聚类数据集。

进一步地，时间序列模块304还用于：

根据历史数据序列和当前缺失数据序列构建距离平方矩阵。

进一步地，缺失填补模块305具体用于：

从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组，并计算每组弯曲距离路径序列之间的新型DTW距离值，新型DTW距离值越小，相似度越大，两个弯曲距离路径序列为一组弯曲距离路径序列组；

选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种配网电压数据缺失填补方法，其特征在于，包括：

2.根据权利要求1所述的配网电压数据缺失填补方法，其特征在于，所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析，得到聚类成功后的第一聚类数据集，包括：

3.根据权利要求1所述的配网电压数据缺失填补方法，其特征在于，所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核，得到第二聚类数据集，包括：

4.根据权利要求1所述的配网电压数据缺失填补方法，其特征在于，所述根据所述第二聚类数据集与当前缺失数据构建时间序列组，所述时间序列组包括历史数据序列和当前缺失数据序列，还包括：

5.根据权利要求4所述的配网电压数据缺失填补方法，其特征在于，所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补，包括：

6.一种配网电压数据缺失填补装置，其特征在于，包括：

7.根据权利要求6中所述的配网电压数据缺失填补装置，其特征在于，所述聚类分析模块包括：

8.根据权利要求6中所述的配网电压数据缺失填补装置，其特征在于，所述强关联模块具体用于：

9.根据权利要求6中所述的配网电压数据缺失填补装置，其特征在于，所述时间序列模块还用于：

10.根据权利要求9中所述的配网电压数据缺失填补装置，其特征在于，所述缺失填补模块具体用于：