CN110837855B

CN110837855B - 一种对电网业务协同监控系统中异构数据集的处理方法

Info

Publication number: CN110837855B
Application number: CN201911043525.2A
Authority: CN
Inventors: 张志生; 路辉; 徐兵元; 王明乙; 王宇平; 朱海; 周洁
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-02-21
Anticipated expiration: 2039-10-30
Also published as: CN110837855A

Abstract

本发明涉及一种对电网业务协同监控系统中异构数据集的处理方法，属于电网系统业务监控领域。首先对电网业务协同监控系统采集的数据集进行标准化处理，将数据映射到同一个特定区间，将其转化为无量纲的纯数值；通过拟合数据值使用连续外推剔除法对异常数据进行删除，然后定义约束容差集合差异度，从集合的角度计算不完备数据集的总体差异度，由差异度对数据集聚类后，再对每个类簇计算平均平方残基，判断为0时，使用簇内数据值波动一致性原理对缺失值进行填补，反之采用拉格朗日插值法对其中缺失值进行填补。本发明通过对数据集聚类后填补数据的方法相比于传统的概率统计学数据填补方法提高了时效，并提高了填补数据的正确率。

Description

一种对电网业务协同监控系统中异构数据集的处理方法

技术领域

本发明涉及一种对电网业务协同监控系统中异构数据集的处理方法，属于电网系统业务监控领域。

背景技术

电网业务协同监控系统是一种针对不同业务平台数据监控系统，而这些不同业务平台上的数据属性往往不同，导致异构数据集的产生。在电网业务协同监控系统数据中，异构数据是影响运行分析时的主要障碍。然而传统时域波形分析模型对数据处理时无法去除噪声产生的数据异常值，导致获取数据潜在规律的难度加大，数据分析时输出结果不可靠。

发明内容

本发明提供了一种对电网业务协同监控系统中异构数据集的处理方法，首先考虑到电网业务协同监控系统中数据值具有连续变化的内在规律性，通过拟合数据值使用连续外推剔除法对异常数据进行删除，然后通过聚类将相似的样本归为一个类簇，并对数据删除后的缺失部位进行数据填补，从而改善数据分析过程结果的精度，本发明考虑了数据之间的约束容错集合的差异性对数据集聚类后，再根据类簇的平均平方残基判断，采用不同的方式来填补缺失部位数据。

本发明采用的技术方案是：一种对电网业务协同监控系统中异构数据集的处理方法，所述方法步骤如下：

Step1、首先，对异构数据集中所有数据进行标准化，然后将标准化后当前t时刻数据值中的异常数据删除，具体为运用连续外推剔除法得到标准化后t时刻数据拟合值，与设定的标准估计值δ_x校验数据，并对判断为异常的数据值删除，得到预处理后数据集U；

Step2、通过上一步预处理后的数据集U，进行初始化为数据集U中第1个数据创建一个类簇X₁＝{x₁}，标定类的数目C＝1；

Step3、依次提取数据集U＝{x₁,x₂,...,x_n}中第i个数据x_i,i＝2,....,n，此时创建好的类簇为X_t,t＝1,2,...,C，再根据约束容差交运算公式S(X_t)∩x_i，计算创建好的类簇集合S(X_t)与提取的第i个数据x_i交集，若结果为空集合，则在原先已经创建好的类簇X_t的基础上再创建一个类簇X_C+1＝{x_i}，标定类的数目变为C＝C+1，执行Step5，若约束容差交运算公式计算的交集结果不为空集合，执行下一步；

Step4、将创建好的类簇X_t依次与提取的第i个数据x_i之间计算约束容差数据集合差异度，通过遍历约束容差的差异度的结果，找到一个最小的差异度Γ，若Γ小于等于阈值u＝0.5，则计算数据x_i与最小的差异度Γ对应的类簇X_β中杰卡德相似系数是否在设定阈值范围内，达到范围内将x_i归并入类X_β＝{X_β,x_i}，否则在原先类X_t的基础上创建新类簇X_C+1＝{x_i}，标定类的数目为C＝C+1；若Γ大于阈值u＝0.5，则同样在原先类X_t的基础上创建新类X_C+1＝{x_i}，标定类的数目为C＝C+1；

Step5、当i+1<n时，从数据集U中提取第i+1个数据转至Step3，否则转至Step6；

Step6、对数据集U进行聚类后，计算类簇X_t的平均平方残基，若含有缺失值的类簇其平均平方残基为0时，通过簇内数据值波动一致性的原理对缺失值进行填补，否则通过拉格朗日插值法对每个类中具有缺失值位置的数据进行填补。

具体地，所述的Step1的具体步骤为：

使用Z-score标准将异构数据集中所有数据

转为高斯分布，

为异构数据集中数据的个数，设定数据标准化阈值Z_t，Z_t＝3.5，再对每个数据ε_i进行归一化处理，对每个数据ε_i用如下公式进行标准化处理：

其中u是异构数据集中所有数据ε计算得到的平均值，σ是计算得到的标准偏差，x′_i为对每个数据ε_i标准化后的数据值，对标准化后数据值x′_i由时域上的连续性进行线性最小二乘法拟合得到a₀，a₁，a₂，...，a_m，进而得到连续外推剔除法的验证方程

可以求得数据值x′_i对应的拟合值

通过计算标注偏差估计值δ_x，当

时，则判断x′_i为异常数据值将其剔除，再用拟合值

代替x′_i更新标注偏差估计值：

其中

为对应拟合曲线上的函数值，m为拟合多项式的阶数，然后继续对剩余数据ε_i值进行循环计算逐一检测。

具体地，所述的Step3中，约束容差交运算公式为：

在Step1预处理后的数据集U＝{x₁,x₂,...,x_n}中，若创建好的类簇集合S(X_t)不为空集合，提取的数据x_i不为空值，根据公式：

S(X_t)∩x_i＝{(d,SSD(X_t,x_i),S(X_t),x_i)|(d,X_t)∈S(X_t)∧(d,x_i)＝x_i∧S(X_t)＝空集合∧SSD(X_t,x_i)＝空集合)}

其中d为类簇集合S(X_t)的元素个数，SSD(X_t,x_i)为类簇的容差属性和提取数据

x_i容差属性合并后的规约值：

其中，a_k(X_t)和a_k(x_i)分别为类簇X_t的容差属性规约值与提取第i个数据x_i的容差属性规约值。

具体地，所述的Step4中，数据类之间约束容差数据集合差异度计算公式为：

在数据集U＝{x₁,x₂,...,x_n}中，若X_t∩x_i等于空集，且S(X_t)不为空集合，当

也不为空集，从而得到约束容差的差异度：

其中S(X_t)∩x_i为约束容差交运算的结果，在计算差异度时需要用到约束容差属性数目λ，然后取得约束容差交运算的结果之间最小的差异度D(X_t∪x_i)＝Γ，选择杰卡德相似系数，计算杰卡德相似系数：

当计算的相似系数在0.8-1之间，则认为数据x_i与最小差异度Γ对应的类簇相关性强，将x_i归入类簇X_β中。

具体地，所述的Step6中，缺失数据填补为：

5.1簇内数据值波动一致性的原理对缺失值进行填补

Step1预处理后的数据集为U，θ为容差属性规约对应的数据集，对数据集U中得到的类簇建立相应的类簇矩阵A，b_ij为类簇矩阵A中的元素，设I，J分别为U，θ中的子集，则类簇子矩阵A_ij的平均平方残基γ为:

其中，

分别为类簇子矩阵A_ij的第i行平均值，第j列的平均值，子矩阵A_ij的平均值，令子矩阵A_ij平均平方残基满足H(I,J)≤γ，当平均平方残基γ的值越小，则子矩阵A_ij内的数据相似性高，当γ的值为0时，则类簇子矩阵A_ij的平均平方残基为0，子矩阵A_ij内的数据在属性集上波动一致，然后对于缺失值进行填补：

其中k为类簇矩阵A中数据个数，将计算得到的

作为最终填补值；

5.2拉格朗日插值法对缺失值进行填补

若类簇子矩阵的平均平方残基不为0，根据拉格朗日插值中无缺失值的f个样本来构建一条光滑的曲线，使曲线通过所有的f个样本点，然后将含有缺失值的样本对应的数据ξ_i,i＝1,2,...,τ，τ为缺失值样本的数据个数，带入这条曲线，即获得缺失值的近似值后进行填补，拟合得到f个样本的n-1次多项式：

y＝c₀+c₁ξ_i+c₂ξ_i ²+...+c_e-1ξ_i ^e-1

其中e为拟合后的阶数，将缺失值的样本对应的数据ξ_i,i＝1,2,...,τ的坐标(ξ₁,ξ₁)，(ξ₂,ξ₂)...(ξ_τ,ξ_τ)代入多项式函数，得到

.........

从而解出拉格朗日插值多项式为：

然后将缺失的函数值对应的数据ξ_i代入插值多项式得到缺失值的近似值L(X)，用此近似值进行填补。

本发明的有益效果是：本发明考虑到电网业务协同监控系统中数据值连续变化的内在规律性，通过拟合数据值使用连续外推剔除法对异常数据进行预处理，提高处理精度高；本发明通过定义约束容差数据集合差异度，从集合的角度判断不完备数据集的总体差异度，由差异度对数据集聚类后，再对每个类簇计算平均平方残基，判断为0时，使用簇内数据值波动一致性的原理对缺失值进行填补，反之采用拉格朗日插值法对其中缺失值进行填补，该方法填补数据相比于传统的概率统计学方法提高了效率，并提高了填补数据的质量；本发明根据创建好的类簇中数据之间相似度很高，选择杰卡德相似系数达到更优的数据区分效果。

附图说明

图1为本发明的流程图；

图2为异构数据集预处理图；

图3为数据缺失值的填补正确率图；

图4为数据缺失值填补消耗的平均时间图。

具体实施方式

实施例1：如图1所示，一种对电网业务协同监控系统中异构数据集的处理方法，包括如下步骤：

进一步地，所述的Step1的具体步骤为：

使用Z-score标准将异构数据集中所有数据

转为高斯分布，

为异构数据集中数据的个数，设定数据标准化阈值Z_t，其中数据高斯分布在-3.5-3.5之外数据表现力低下，所以本申请中Z_t＝3.5，再对每个数据ε_i进行归一化处理，对每个数据ε_i用如下公式进行标准化处理：

可以求得数据值x′_i对应的拟合值

通过计算标注偏差估计值δ_x，当

时，则判断x′_i为异常数据值将其剔除，再用拟合值

代替x′_i更新标注偏差估计值：

其中

进一步地，所述的Step3中，约束容差交运算公式为：

x_i容差属性合并后的规约值：

进一步地，所述的Step4中，数据类之间约束容差数据集合差异度计算公式为：

在数据集U＝{x₁,x₂,...,x_n}中，若X_t∩x_i等于空集，且S(X_t)不为空集合，当S(X_t)∩x_i也不为空集，从而得到约束容差的差异度：

进一步地，所述的Step6，缺失数据填补为：

5.1簇内数据值波动一致性的原理对缺失值进行填补

其中，

其中k为类簇矩阵A中数据个数，将计算得到的

作为最终填补值；

5.2拉格朗日插值法对缺失值进行填补

y＝c₀+c₁ξ_i+c₂ξ_i ²+...+c_e-1ξ_i ^e-1

.........

从而解出拉格朗日插值多项式为：

本发明通过UCI机器学习数据集中仿真，与经典的MEANS算法进行数据填补后实验对比。共选取了10000个数据对象x_i，经过数据标准化处理后使用连续外推剔除法对异常数据进行删除，具体结果如图2箱型图，数据预处理得到均值为1.395048100，标准差为101.476776；然后对处理后数据集U进行聚类，计算类簇平均平方残基γ，根据判断使用簇内数据值波动一致性的原理或者拉格朗日插值法填补缺失数据，实验验证本发明方案相较于经典MEANS算法在填补正确率和平均时间两个方面的优势。实验结果如图3、图4所示。

由图3可以看出，本发明算法与经典MEANS算法在的趋势总体一致，但是在填补正确率指标上本发明算法明显优于MEANS算法，主要是MEANS使用均值填补数据，算法鲁棒性不强，而本发明算法考虑对数据拟合，得到更精确的近似值进行填补，在15％-45％时明显看出本发明算法在正确率更高于MEANS算法的处理效果；随着缺失比率增多，在65％时两算法相差不大，主要是由于数据缺失值过多，从而破坏了算法的数据模型，导致结果都不精确。

从图4看出，本发明算法在实时性上也优于经典MEANS算法，MEANS算法根据属性纵向计算数据然后进行填补，需要进行复杂数据的迭代过程，而本发明算法根据聚类分层，在对类簇进行缺失值填补，避免了迭代处理数据，导致算法的时间处理更短。在10％两算法的差距不明显，由于数据缺失值不多，数据迭代也相应减少，随着数据缺失比率增多，本发明算法在实时性优势增大。

本发明的工作原理是：首先对采集的异构数据集进行Z-score标准化处理，对数据值x′_i使用连续外推剔除法将异常数据值进行删除，然后再取预处理后数据集U中的第一个数据x₁对象，初始化创建一个新类X₁，再对第二个数据对象由约束容差集合交运公式得到计算结果，若结果为没有交集则创建一个新的类X_C+1，否则，计算与之前创建的类X_t之间的差异度Γ，经过差异度阈值u判断，若大于阈值对这一次数据x_i归类为先前类X_t中，反之，则创建一个新的类X_C+1，当所有数据都归好类，则对于每个类簇计算平均平方残基γ，判断为0时，使用簇内数据值波动一致性的原理对缺失的数据进行填补，反之采用拉格朗日插值法对其中缺失的数据进行填补，该聚类后填补数据的方法相比于传统的概率统计学方法提高了效率，并提高了填补数据的质量。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。