CN110837855B - 一种对电网业务协同监控系统中异构数据集的处理方法 - Google Patents

一种对电网业务协同监控系统中异构数据集的处理方法 Download PDF

Info

Publication number
CN110837855B
CN110837855B CN201911043525.2A CN201911043525A CN110837855B CN 110837855 B CN110837855 B CN 110837855B CN 201911043525 A CN201911043525 A CN 201911043525A CN 110837855 B CN110837855 B CN 110837855B
Authority
CN
China
Prior art keywords
data
value
cluster
data set
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911043525.2A
Other languages
English (en)
Other versions
CN110837855A (zh
Inventor
张志生
路辉
徐兵元
王明乙
王宇平
朱海
周洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201911043525.2A priority Critical patent/CN110837855B/zh
Publication of CN110837855A publication Critical patent/CN110837855A/zh
Application granted granted Critical
Publication of CN110837855B publication Critical patent/CN110837855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种对电网业务协同监控系统中异构数据集的处理方法,属于电网系统业务监控领域。首先对电网业务协同监控系统采集的数据集进行标准化处理,将数据映射到同一个特定区间,将其转化为无量纲的纯数值;通过拟合数据值使用连续外推剔除法对异常数据进行删除,然后定义约束容差集合差异度,从集合的角度计算不完备数据集的总体差异度,由差异度对数据集聚类后,再对每个类簇计算平均平方残基,判断为0时,使用簇内数据值波动一致性原理对缺失值进行填补,反之采用拉格朗日插值法对其中缺失值进行填补。本发明通过对数据集聚类后填补数据的方法相比于传统的概率统计学数据填补方法提高了时效,并提高了填补数据的正确率。

Description

一种对电网业务协同监控系统中异构数据集的处理方法
技术领域
本发明涉及一种对电网业务协同监控系统中异构数据集的处理方法,属于电网系统业务监控领域。
背景技术
电网业务协同监控系统是一种针对不同业务平台数据监控系统,而这些不同业务平台上的数据属性往往不同,导致异构数据集的产生。在电网业务协同监控系统数据中,异构数据是影响运行分析时的主要障碍。然而传统时域波形分析模型对数据处理时无法去除噪声产生的数据异常值,导致获取数据潜在规律的难度加大,数据分析时输出结果不可靠。
发明内容
本发明提供了一种对电网业务协同监控系统中异构数据集的处理方法,首先考虑到电网业务协同监控系统中数据值具有连续变化的内在规律性,通过拟合数据值使用连续外推剔除法对异常数据进行删除,然后通过聚类将相似的样本归为一个类簇,并对数据删除后的缺失部位进行数据填补,从而改善数据分析过程结果的精度,本发明考虑了数据之间的约束容错集合的差异性对数据集聚类后,再根据类簇的平均平方残基判断,采用不同的方式来填补缺失部位数据。
本发明采用的技术方案是:一种对电网业务协同监控系统中异构数据集的处理方法,所述方法步骤如下:
Step1、首先,对异构数据集中所有数据进行标准化,然后将标准化后当前t时刻数据值中的异常数据删除,具体为运用连续外推剔除法得到标准化后t时刻数据拟合值,与设定的标准估计值δx校验数据,并对判断为异常的数据值删除,得到预处理后数据集U;
Step2、通过上一步预处理后的数据集U,进行初始化为数据集U中第1个数据创建一个类簇X1={x1},标定类的数目C=1;
Step3、依次提取数据集U={x1,x2,...,xn}中第i个数据xi,i=2,....,n,此时创建好的类簇为Xt,t=1,2,...,C,再根据约束容差交运算公式S(Xt)∩xi,计算创建好的类簇集合S(Xt)与提取的第i个数据xi交集,若结果为空集合,则在原先已经创建好的类簇Xt的基础上再创建一个类簇XC+1={xi},标定类的数目变为C=C+1,执行Step5,若约束容差交运算公式计算的交集结果不为空集合,执行下一步;
Step4、将创建好的类簇Xt依次与提取的第i个数据xi之间计算约束容差数据集合差异度,通过遍历约束容差的差异度的结果,找到一个最小的差异度Γ,若Γ小于等于阈值u=0.5,则计算数据xi与最小的差异度Γ对应的类簇Xβ中杰卡德相似系数是否在设定阈值范围内,达到范围内将xi归并入类Xβ={Xβ,xi},否则在原先类Xt的基础上创建新类簇XC+1={xi},标定类的数目为C=C+1;若Γ大于阈值u=0.5,则同样在原先类Xt的基础上创建新类XC+1={xi},标定类的数目为C=C+1;
Step5、当i+1<n时,从数据集U中提取第i+1个数据转至Step3,否则转至Step6;
Step6、对数据集U进行聚类后,计算类簇Xt的平均平方残基,若含有缺失值的类簇其平均平方残基为0时,通过簇内数据值波动一致性的原理对缺失值进行填补,否则通过拉格朗日插值法对每个类中具有缺失值位置的数据进行填补。
具体地,所述的Step1的具体步骤为:
使用Z-score标准将异构数据集中所有数据
Figure BDA0002253507340000022
转为高斯分布,
Figure BDA0002253507340000023
为异构数据集中数据的个数,设定数据标准化阈值Zt,Zt=3.5,再对每个数据εi进行归一化处理,对每个数据εi用如下公式进行标准化处理:
Figure BDA0002253507340000021
其中u是异构数据集中所有数据ε计算得到的平均值,σ是计算得到的标准偏差,x′i为对每个数据εi标准化后的数据值,对标准化后数据值x′i由时域上的连续性进行线性最小二乘法拟合得到a0,a1,a2,...,am,进而得到连续外推剔除法的验证方程
Figure BDA0002253507340000031
可以求得数据值x′i对应的拟合值
Figure BDA0002253507340000032
通过计算标注偏差估计值δx,当
Figure BDA0002253507340000033
时,则判断x′i为异常数据值将其剔除,再用拟合值
Figure BDA0002253507340000034
代替x′i更新标注偏差估计值:
Figure BDA0002253507340000035
其中
Figure BDA0002253507340000036
为对应拟合曲线上的函数值,m为拟合多项式的阶数,然后继续对剩余数据εi值进行循环计算逐一检测。
具体地,所述的Step3中,约束容差交运算公式为:
在Step1预处理后的数据集U={x1,x2,...,xn}中,若创建好的类簇集合S(Xt)不为空集合,提取的数据xi不为空值,根据公式:
S(Xt)∩xi={(d,SSD(Xt,xi),S(Xt),xi)|(d,Xt)∈S(Xt)∧(d,xi)=xi∧S(Xt)=空集合∧SSD(Xt,xi)=空集合)}
其中d为类簇集合S(Xt)的元素个数,SSD(Xt,xi)为类簇的容差属性和提取数据
xi容差属性合并后的规约值:
Figure BDA0002253507340000037
其中,ak(Xt)和ak(xi)分别为类簇Xt的容差属性规约值与提取第i个数据xi的容差属性规约值。
具体地,所述的Step4中,数据类之间约束容差数据集合差异度计算公式为:
在数据集U={x1,x2,...,xn}中,若Xt∩xi等于空集,且S(Xt)不为空集合,当
Figure BDA0002253507340000041
也不为空集,从而得到约束容差的差异度:
Figure BDA0002253507340000042
其中S(Xt)∩xi为约束容差交运算的结果,在计算差异度时需要用到约束容差属性数目λ,然后取得约束容差交运算的结果之间最小的差异度D(Xt∪xi)=Γ,选择杰卡德相似系数,计算杰卡德相似系数:
Figure BDA0002253507340000043
当计算的相似系数在0.8-1之间,则认为数据xi与最小差异度Γ对应的类簇相关性强,将xi归入类簇Xβ中。
具体地,所述的Step6中,缺失数据填补为:
5.1簇内数据值波动一致性的原理对缺失值进行填补
Step1预处理后的数据集为U,θ为容差属性规约对应的数据集,对数据集U中得到的类簇建立相应的类簇矩阵A,bij为类簇矩阵A中的元素,设I,J分别为U,θ中的子集,则类簇子矩阵Aij的平均平方残基γ为:
Figure BDA0002253507340000044
其中,
Figure BDA0002253507340000045
分别为类簇子矩阵Aij的第i行平均值,第j列的平均值,子矩阵Aij的平均值,令子矩阵Aij平均平方残基满足H(I,J)≤γ,当平均平方残基γ的值越小,则子矩阵Aij内的数据相似性高,当γ的值为0时,则类簇子矩阵Aij的平均平方残基为0,子矩阵Aij内的数据在属性集上波动一致,然后对于缺失值进行填补:
Figure BDA0002253507340000046
其中k为类簇矩阵A中数据个数,将计算得到的
Figure BDA0002253507340000047
作为最终填补值;
5.2拉格朗日插值法对缺失值进行填补
若类簇子矩阵的平均平方残基不为0,根据拉格朗日插值中无缺失值的f个样本来构建一条光滑的曲线,使曲线通过所有的f个样本点,然后将含有缺失值的样本对应的数据ξi,i=1,2,...,τ,τ为缺失值样本的数据个数,带入这条曲线,即获得缺失值的近似值后进行填补,拟合得到f个样本的n-1次多项式:
y=c0+c1ξi+c2ξi 2+...+ce-1ξi e-1
其中e为拟合后的阶数,将缺失值的样本对应的数据ξi,i=1,2,...,τ的坐标(ξ11),(ξ22)...(ξττ)代入多项式函数,得到
Figure BDA0002253507340000051
Figure BDA0002253507340000052
.........
Figure BDA0002253507340000053
从而解出拉格朗日插值多项式为:
Figure BDA0002253507340000054
然后将缺失的函数值对应的数据ξi代入插值多项式得到缺失值的近似值L(X),用此近似值进行填补。
本发明的有益效果是:本发明考虑到电网业务协同监控系统中数据值连续变化的内在规律性,通过拟合数据值使用连续外推剔除法对异常数据进行预处理,提高处理精度高;本发明通过定义约束容差数据集合差异度,从集合的角度判断不完备数据集的总体差异度,由差异度对数据集聚类后,再对每个类簇计算平均平方残基,判断为0时,使用簇内数据值波动一致性的原理对缺失值进行填补,反之采用拉格朗日插值法对其中缺失值进行填补,该方法填补数据相比于传统的概率统计学方法提高了效率,并提高了填补数据的质量;本发明根据创建好的类簇中数据之间相似度很高,选择杰卡德相似系数达到更优的数据区分效果。
附图说明
图1为本发明的流程图;
图2为异构数据集预处理图;
图3为数据缺失值的填补正确率图;
图4为数据缺失值填补消耗的平均时间图。
具体实施方式
实施例1:如图1所示,一种对电网业务协同监控系统中异构数据集的处理方法,包括如下步骤:
Step1、首先,对异构数据集中所有数据进行标准化,然后将标准化后当前t时刻数据值中的异常数据删除,具体为运用连续外推剔除法得到标准化后t时刻数据拟合值,与设定的标准估计值δx校验数据,并对判断为异常的数据值删除,得到预处理后数据集U;
Step2、通过上一步预处理后的数据集U,进行初始化为数据集U中第1个数据创建一个类簇X1={x1},标定类的数目C=1;
Step3、依次提取数据集U={x1,x2,...,xn}中第i个数据xi,i=2,....,n,此时创建好的类簇为Xt,t=1,2,...,C,再根据约束容差交运算公式S(Xt)∩xi,计算创建好的类簇集合S(Xt)与提取的第i个数据xi交集,若结果为空集合,则在原先已经创建好的类簇Xt的基础上再创建一个类簇XC+1={xi},标定类的数目变为C=C+1,执行Step5,若约束容差交运算公式计算的交集结果不为空集合,执行下一步;
Step4、将创建好的类簇Xt依次与提取的第i个数据xi之间计算约束容差数据集合差异度,通过遍历约束容差的差异度的结果,找到一个最小的差异度Γ,若Γ小于等于阈值u=0.5,则计算数据xi与最小的差异度Γ对应的类簇Xβ中杰卡德相似系数是否在设定阈值范围内,达到范围内将xi归并入类Xβ={Xβ,xi},否则在原先类Xt的基础上创建新类簇XC+1={xi},标定类的数目为C=C+1;若Γ大于阈值u=0.5,则同样在原先类Xt的基础上创建新类XC+1={xi},标定类的数目为C=C+1;
Step5、当i+1<n时,从数据集U中提取第i+1个数据转至Step3,否则转至Step6;
Step6、对数据集U进行聚类后,计算类簇Xt的平均平方残基,若含有缺失值的类簇其平均平方残基为0时,通过簇内数据值波动一致性的原理对缺失值进行填补,否则通过拉格朗日插值法对每个类中具有缺失值位置的数据进行填补。
进一步地,所述的Step1的具体步骤为:
使用Z-score标准将异构数据集中所有数据
Figure BDA0002253507340000078
转为高斯分布,
Figure BDA0002253507340000079
为异构数据集中数据的个数,设定数据标准化阈值Zt,其中数据高斯分布在-3.5-3.5之外数据表现力低下,所以本申请中Zt=3.5,再对每个数据εi进行归一化处理,对每个数据εi用如下公式进行标准化处理:
Figure BDA0002253507340000071
其中u是异构数据集中所有数据ε计算得到的平均值,σ是计算得到的标准偏差,x′i为对每个数据εi标准化后的数据值,对标准化后数据值x′i由时域上的连续性进行线性最小二乘法拟合得到a0,a1,a2,...,am,进而得到连续外推剔除法的验证方程
Figure BDA0002253507340000072
可以求得数据值x′i对应的拟合值
Figure BDA0002253507340000073
通过计算标注偏差估计值δx,当
Figure BDA0002253507340000074
时,则判断x′i为异常数据值将其剔除,再用拟合值
Figure BDA0002253507340000075
代替x′i更新标注偏差估计值:
Figure BDA0002253507340000076
其中
Figure BDA0002253507340000077
为对应拟合曲线上的函数值,m为拟合多项式的阶数,然后继续对剩余数据εi值进行循环计算逐一检测。
进一步地,所述的Step3中,约束容差交运算公式为:
在Step1预处理后的数据集U={x1,x2,...,xn}中,若创建好的类簇集合S(Xt)不为空集合,提取的数据xi不为空值,根据公式:
S(Xt)∩xi={(d,SSD(Xt,xi),S(Xt),xi)|(d,Xt)∈S(Xt)∧(d,xi)=xi∧S(Xt)=空集合∧SSD(Xt,xi)=空集合)}
其中d为类簇集合S(Xt)的元素个数,SSD(Xt,xi)为类簇的容差属性和提取数据
xi容差属性合并后的规约值:
Figure BDA0002253507340000081
其中,ak(Xt)和ak(xi)分别为类簇Xt的容差属性规约值与提取第i个数据xi的容差属性规约值。
进一步地,所述的Step4中,数据类之间约束容差数据集合差异度计算公式为:
在数据集U={x1,x2,...,xn}中,若Xt∩xi等于空集,且S(Xt)不为空集合,当S(Xt)∩xi也不为空集,从而得到约束容差的差异度:
Figure BDA0002253507340000082
其中S(Xt)∩xi为约束容差交运算的结果,在计算差异度时需要用到约束容差属性数目λ,然后取得约束容差交运算的结果之间最小的差异度D(Xt∪xi)=Γ,选择杰卡德相似系数,计算杰卡德相似系数:
Figure BDA0002253507340000083
当计算的相似系数在0.8-1之间,则认为数据xi与最小差异度Γ对应的类簇相关性强,将xi归入类簇Xβ中。
进一步地,所述的Step6,缺失数据填补为:
5.1簇内数据值波动一致性的原理对缺失值进行填补
Step1预处理后的数据集为U,θ为容差属性规约对应的数据集,对数据集U中得到的类簇建立相应的类簇矩阵A,bij为类簇矩阵A中的元素,设I,J分别为U,θ中的子集,则类簇子矩阵Aij的平均平方残基γ为:
Figure BDA0002253507340000091
其中,
Figure BDA0002253507340000092
分别为类簇子矩阵Aij的第i行平均值,第j列的平均值,子矩阵Aij的平均值,令子矩阵Aij平均平方残基满足H(I,J)≤γ,当平均平方残基γ的值越小,则子矩阵Aij内的数据相似性高,当γ的值为0时,则类簇子矩阵Aij的平均平方残基为0,子矩阵Aij内的数据在属性集上波动一致,然后对于缺失值进行填补:
Figure BDA0002253507340000093
其中k为类簇矩阵A中数据个数,将计算得到的
Figure BDA0002253507340000094
作为最终填补值;
5.2拉格朗日插值法对缺失值进行填补
若类簇子矩阵的平均平方残基不为0,根据拉格朗日插值中无缺失值的f个样本来构建一条光滑的曲线,使曲线通过所有的f个样本点,然后将含有缺失值的样本对应的数据ξi,i=1,2,...,τ,τ为缺失值样本的数据个数,带入这条曲线,即获得缺失值的近似值后进行填补,拟合得到f个样本的n-1次多项式:
y=c0+c1ξi+c2ξi 2+...+ce-1ξi e-1
其中e为拟合后的阶数,将缺失值的样本对应的数据ξi,i=1,2,...,τ的坐标(ξ11),(ξ22)...(ξττ)代入多项式函数,得到
Figure BDA0002253507340000095
Figure BDA0002253507340000096
.........
Figure BDA0002253507340000097
从而解出拉格朗日插值多项式为:
Figure BDA0002253507340000098
然后将缺失的函数值对应的数据ξi代入插值多项式得到缺失值的近似值L(X),用此近似值进行填补。
本发明通过UCI机器学习数据集中仿真,与经典的MEANS算法进行数据填补后实验对比。共选取了10000个数据对象xi,经过数据标准化处理后使用连续外推剔除法对异常数据进行删除,具体结果如图2箱型图,数据预处理得到均值为1.395048100,标准差为101.476776;然后对处理后数据集U进行聚类,计算类簇平均平方残基γ,根据判断使用簇内数据值波动一致性的原理或者拉格朗日插值法填补缺失数据,实验验证本发明方案相较于经典MEANS算法在填补正确率和平均时间两个方面的优势。实验结果如图3、图4所示。
由图3可以看出,本发明算法与经典MEANS算法在的趋势总体一致,但是在填补正确率指标上本发明算法明显优于MEANS算法,主要是MEANS使用均值填补数据,算法鲁棒性不强,而本发明算法考虑对数据拟合,得到更精确的近似值进行填补,在15%-45%时明显看出本发明算法在正确率更高于MEANS算法的处理效果;随着缺失比率增多,在65%时两算法相差不大,主要是由于数据缺失值过多,从而破坏了算法的数据模型,导致结果都不精确。
从图4看出,本发明算法在实时性上也优于经典MEANS算法,MEANS算法根据属性纵向计算数据然后进行填补,需要进行复杂数据的迭代过程,而本发明算法根据聚类分层,在对类簇进行缺失值填补,避免了迭代处理数据,导致算法的时间处理更短。在10%两算法的差距不明显,由于数据缺失值不多,数据迭代也相应减少,随着数据缺失比率增多,本发明算法在实时性优势增大。
本发明的工作原理是:首先对采集的异构数据集进行Z-score标准化处理,对数据值x′i使用连续外推剔除法将异常数据值进行删除,然后再取预处理后数据集U中的第一个数据x1对象,初始化创建一个新类X1,再对第二个数据对象由约束容差集合交运公式得到计算结果,若结果为没有交集则创建一个新的类XC+1,否则,计算与之前创建的类Xt之间的差异度Γ,经过差异度阈值u判断,若大于阈值对这一次数据xi归类为先前类Xt中,反之,则创建一个新的类XC+1,当所有数据都归好类,则对于每个类簇计算平均平方残基γ,判断为0时,使用簇内数据值波动一致性的原理对缺失的数据进行填补,反之采用拉格朗日插值法对其中缺失的数据进行填补,该聚类后填补数据的方法相比于传统的概率统计学方法提高了效率,并提高了填补数据的质量。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种对电网业务协同监控系统中异构数据集的处理方法,其特征在于:包括如下步骤:
Step1、首先,对异构数据集中所有数据进行标准化,然后将标准化后当前t时刻数据值中的异常数据删除,具体为运用连续外推剔除法得到标准化后t时刻数据拟合值,与设定的标准估计值δx校验数据,并对判断为异常的数据值删除,得到预处理后数据集U;
Step2、通过上一步预处理后的数据集U,进行初始化为数据集U中第1个数据创建一个类簇X1={x1},标定类的数目C=1;
Step3、依次提取数据集U={x1,x2,...,xn}中第i个数据xi,i=2,....,n,此时创建好的类簇为Xt,t=1,2,...,C,再根据约束容差交运算公式S(Xt)∩xi,计算创建好的类簇集合S(Xt)与提取的第i个数据xi交集,若结果为空集合,则在原先已经创建好的类簇Xt的基础上再创建一个类簇XC+1={xi},标定类的数目变为C=C+1,执行Step5,若约束容差交运算公式计算的交集结果不为空集合,执行下一步;
Step4、将创建好的类簇Xt依次与提取的第i个数据xi之间计算约束容差数据集合差异度,通过遍历约束容差的差异度的结果,找到一个最小的差异度Γ,若Γ小于等于阈值u=0.5,则计算数据xi与最小的差异度Γ对应的类簇Xβ中杰卡德相似系数是否在设定阈值范围内,达到范围内将xi归并入类Xβ={Xβ,xi},否则在原先类Xt的基础上创建新类簇XC+1={xi},标定类的数目为C=C+1;若Γ大于阈值u=0.5,则同样在原先类Xt的基础上创建新类XC+1={xi},标定类的数目为C=C+1;
Step5、当i+1<n时,从数据集U中提取第i+1个数据转至Step3,否则转至Step6;
Step6、对数据集U进行聚类后,计算类簇Xt的平均平方残基,若含有缺失值的类簇其平均平方残基为0时,通过簇内数据值波动一致性的原理对缺失值进行填补,否则通过拉格朗日插值法对每个类中具有缺失值位置的数据进行填补。
2.根据权利要求1所述的一种对电网业务协同监控系统中异构数据集的处理方法,其特征在于:所述的Step1的具体步骤为:
使用Z-score标准将异构数据集中所有数据
Figure FDA0002253507330000029
转为高斯分布,
Figure FDA0002253507330000028
为异构数据集中数据的个数,设定数据标准化阈值Zt,Zt=3.5,再对每个数据εi进行归一化处理,对每个数据εi用如下公式进行标准化处理:
Figure FDA0002253507330000021
其中u是异构数据集中所有数据ε计算得到的平均值,σ是计算得到的标准偏差,x′i为对每个数据εi标准化后的数据值,对标准化后数据值x′i由时域上的连续性进行线性最小二乘法拟合得到a0,a1,a2,...,am,进而得到连续外推剔除法的验证方程
Figure FDA0002253507330000022
可以求得数据值x′i对应的拟合值
Figure FDA0002253507330000023
通过计算标注偏差估计值δx,当
Figure FDA0002253507330000024
时,则判断x′i为异常数据值将其剔除,再用拟合值
Figure FDA0002253507330000025
代替x′i更新标注偏差估计值:
Figure FDA0002253507330000026
其中
Figure FDA0002253507330000027
为对应拟合曲线上的函数值,m为拟合多项式的阶数,然后继续对剩余数据εi值进行循环计算逐一检测。
3.根据权利要求1所述的一种对电网业务协同监控系统中异构数据集的处理方法,其特征在于:所述的Step3中,约束容差交运算公式为:
在Step1预处理后的数据集U={x1,x2,...,xn}中,若创建好的类簇集合S(Xt)不为空集合,提取的数据xi不为空值,根据公式:
S(Xt)∩xi={(d,SSD(Xt,xi),S(Xt),xi)|(d,Xt)∈S(Xt)∧(d,xi)=xi∧S(Xt)=空集合∧SSD(Xt,xi)=空集合)}
其中d为类簇集合S(Xt)的元素个数,SSD(Xt,xi)为类簇的容差属性和提取数据xi容差属性合并后的规约值:
Figure FDA0002253507330000031
其中,ak(Xt)和ak(xi)分别为类簇Xt的容差属性规约值与提取第i个数据xi的容差属性规约值。
4.根据权利要求3所述的一种对电网业务协同监控系统中异构数据集的处理方法,其特征在于:所述的Step4中,数据类之间约束容差数据集合差异度计算公式为:
在数据集U={x1,x2,...,xn}中,若Xt∩xi等于空集,且S(Xt)不为空集合,当S(Xt)∩xi也不为空集,从而得到约束容差的差异度:
Figure FDA0002253507330000032
其中S(Xt)∩xi为约束容差交运算的结果,在计算差异度时需要用到约束容差属性数目λ,然后取得约束容差交运算的结果之间最小的差异度D(Xt∪xi)=Γ,选择杰卡德相似系数,计算杰卡德相似系数:
Figure FDA0002253507330000033
当计算的相似系数在0.8-1之间,则认为数据xi与最小差异度Γ对应的类簇相关性强,将xi归入类簇Xβ中。
5.根据权利要求1所述的一种对电网业务协同监控系统中异构数据集的处理方法,其特征在于:所述的Step6中,缺失数据填补为:
5.1簇内数据值波动一致性的原理对缺失值进行填补
Step1预处理后的数据集为U,θ为容差属性规约对应的数据集,对数据集U中得到的类簇建立相应的类簇矩阵A,bij为类簇矩阵A中的元素,设I,J分别为U,θ中的子集,则类簇子矩阵Aij的平均平方残基γ为:
Figure FDA0002253507330000041
其中,
Figure FDA0002253507330000042
Figure FDA0002253507330000043
分别为类簇子矩阵Aij的第i行平均值,第j列的平均值,子矩阵Aij的平均值,令子矩阵Aij平均平方残基满足H(I,J)≤γ,当平均平方残基γ的值越小,则子矩阵Aij内的数据相似性高,当γ的值为0时,则类簇子矩阵Aij的平均平方残基为0,子矩阵Aij内的数据在属性集上波动一致,然后对于缺失值进行填补:
Figure FDA0002253507330000044
其中k为类簇矩阵A中数据个数,将计算得到的
Figure FDA0002253507330000049
作为最终填补值;
5.2拉格朗日插值法对缺失值进行填补
若类簇子矩阵的平均平方残基不为0,根据拉格朗日插值中无缺失值的f个样本来构建一条光滑的曲线,使曲线通过所有的f个样本点,然后将含有缺失值的样本对应的数据ξi,i=1,2,...,τ,τ为缺失值样本的数据个数,带入这条曲线,即获得缺失值的近似值后进行填补,拟合得到f个样本的n-1次多项式:
y=c0+c1ξi+c2ξi 2+...+ce-1ξi e-1
其中e为拟合后的阶数,将缺失值的样本对应的数据ξi,i=1,2,...,τ的坐标(ξ11),(ξ22)...(ξττ)代入多项式函数,得到
Figure FDA0002253507330000045
Figure FDA0002253507330000046
.........
Figure FDA0002253507330000047
从而解出拉格朗日插值多项式为:
Figure FDA0002253507330000048
然后将缺失的函数值对应的数据ξi代入插值多项式得到缺失值的近似值L(X),用此近似值进行填补。
CN201911043525.2A 2019-10-30 2019-10-30 一种对电网业务协同监控系统中异构数据集的处理方法 Active CN110837855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911043525.2A CN110837855B (zh) 2019-10-30 2019-10-30 一种对电网业务协同监控系统中异构数据集的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043525.2A CN110837855B (zh) 2019-10-30 2019-10-30 一种对电网业务协同监控系统中异构数据集的处理方法

Publications (2)

Publication Number Publication Date
CN110837855A CN110837855A (zh) 2020-02-25
CN110837855B true CN110837855B (zh) 2023-02-21

Family

ID=69576178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043525.2A Active CN110837855B (zh) 2019-10-30 2019-10-30 一种对电网业务协同监控系统中异构数据集的处理方法

Country Status (1)

Country Link
CN (1) CN110837855B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111833990A (zh) * 2020-07-17 2020-10-27 电子科技大学 一种心理测评量表缺失项填充方法
CN112202742B (zh) * 2020-09-23 2022-01-11 航天云网数据研究院(广东)有限公司 基于5g网络的轧机设备的数据处理方法及相关设备
CN115345319B (zh) * 2022-08-11 2023-12-08 黑龙江大学 基于缺失率与异常度度量的不完备数据集建模及处理方法
CN116109176B (zh) * 2022-12-21 2024-01-05 成都安讯智服科技有限公司 一种基于协同聚类的报警异常预测方法和系统
CN116340305B (zh) * 2023-04-24 2023-10-20 上海叁零肆零科技有限公司 一种燃气管网拓扑中点表线表唯一性的修复方法与系统
CN116503705B (zh) * 2023-06-28 2023-10-13 成都市数字城市运营管理有限公司 一种数字城市多源数据的融合方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN109472343A (zh) * 2018-10-16 2019-03-15 上海电机学院 一种基于gknn的改进样本数据缺失值的填补算法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法
CN104866578A (zh) * 2015-05-26 2015-08-26 大连理工大学 一种不完整数据混合填充方法
CN109472343A (zh) * 2018-10-16 2019-03-15 上海电机学院 一种基于gknn的改进样本数据缺失值的填补算法
CN109816017A (zh) * 2019-01-24 2019-05-28 电子科技大学 基于模糊聚类和拉格朗日插值的电网缺失数据填补方法

Also Published As

Publication number Publication date
CN110837855A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN110837855B (zh) 一种对电网业务协同监控系统中异构数据集的处理方法
US10956779B2 (en) Multi-distance clustering
US10073906B2 (en) Scalable tri-point arbitration and clustering
WO2018045642A1 (zh) 一种母线负荷预测方法
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
US20160283533A1 (en) Multi-distance clustering
CN109949176B (zh) 一种基于图嵌入的社交网络中异常用户检测方法
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
WO2024036709A1 (zh) 一种异常数据检测方法及装置
CN114114039A (zh) 一种电池系统的单体电芯一致性的评估方法和装置
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN111209611A (zh) 一种基于双曲几何的有向网络空间嵌入方法
CN114186518A (zh) 一种集成电路良率估算方法及存储器
CN114200245A (zh) 一种配电网的线损异常识别模型的构建方法
CN113553442A (zh) 一种无监督事件知识图谱构建方法及系统
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
Calabrese Data cleaning
CN110941542B (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
CN111709460A (zh) 基于相关系数的互信息特征选择方法
CN110955811B (zh) 基于朴素贝叶斯算法的电力数据分类方法及系统
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN109933579B (zh) 一种局部k近邻缺失值插补系统与方法
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
Feng et al. A genetic k-means clustering algorithm based on the optimized initial centers
CN111027612A (zh) 基于加权熵fcm的能源计量数据特征约简方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant