CN106155985B - 一种基于相邻数据特征的数据缺失填充方法 - Google Patents

一种基于相邻数据特征的数据缺失填充方法 Download PDF

Info

Publication number
CN106155985B
CN106155985B CN201610397552.XA CN201610397552A CN106155985B CN 106155985 B CN106155985 B CN 106155985B CN 201610397552 A CN201610397552 A CN 201610397552A CN 106155985 B CN106155985 B CN 106155985B
Authority
CN
China
Prior art keywords
data
shortage
sequence
adjacent
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610397552.XA
Other languages
English (en)
Other versions
CN106155985A (zh
Inventor
王有元
陈伟根
杜林�
李剑
周湶
刘玉
王飞鹏
周立玮
杜修明
杨祎
朱孟兆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
State Grid Shandong Electric Power Co Ltd
Original Assignee
Chongqing University
State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University, State Grid Shandong Electric Power Co Ltd filed Critical Chongqing University
Priority to CN201610397552.XA priority Critical patent/CN106155985B/zh
Publication of CN106155985A publication Critical patent/CN106155985A/zh
Application granted granted Critical
Publication of CN106155985B publication Critical patent/CN106155985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明的目的是为解决利用数据对设备进行故障诊断时出现数据缺失的问题,公开了一种基于相邻数据特征的数据缺失填充方法。其过程中,找到缺失值位置,利用系统在线监测数据不能骤然变化并具有一定周期性的特点,挖掘缺失值与其相邻数据、与相邻数据相等的数据之间的关系,进而对缺失值进行填充。

Description

一种基于相邻数据特征的数据缺失填充方法
技术领域
本发明属于设备状态诊断领域。
背景技术
在线监测数据反映了设备运行状态,常被用来诊断设备故障情况,但由于监测设备在受到外界干扰或设备损坏时,会不可避免地出现数据缺失问题。数据缺失破坏了原数据的完整性和真实性,很多的统计工具直接将缺失数据缺省,这种处理方法虽然效率高,但当使用处理过的数据集进行数据挖掘时,将会使聚类模型产生倾斜,从而使挖掘结果产生偏差。
目前比较好的缺失值处理方法是对不完整的数据记录进行填充。数据填充常见算法有KNN、贝叶斯网络、神经网络等。KNN算法计算量较大;贝叶斯网络需要的数据多,分析计算比较复杂,特别在解决复杂问题时,这个矛盾就更为突出;神经网络算法常常会出现局部最优的问题,而且无法用神经网络直观地解释推理过程和推理依据。
发明内容
本发明的目的是为解决利用数据对设备进行故障诊断时出现数据缺失的问题。
为实现本发明目的而采用的技术方案是这样的,一种基于相邻数据特征的数据缺失填充方法,其特征在于:
读取一段按照时间顺序排列的数据序列;所述数据序列中,存在n个数据,所述数据序列为data(x1)、data(x2)……data(xn)表示,x1、x2……xn为时间序列Q,n为自然数;所述数据序列中,缺失了编号为i的数据,即data(i),i为等差数列Q中的一个值;
填充编号为i的数据,包括以下步骤:
1)读取与编号为i的数据相邻的数据data(i-1);在所述数据序列中,从头开始寻找与data(i-1)之差的绝对值小于0.02的数据;
如果没有找到这样的数据,则下一步直接进入步骤5);
如果找到这样的一个或多个数据,令其中一个数据的序列号为k-1,即该数据记为data(k-1),并进入下一步,k为时间序列Q中的一个值;
如果1<i<4,即缺失值处于数据序列左边界位置,则下一步直接进入步骤3)。
2)读取data(k)和data(i)左边的三个数据,将data(k-3)、data(k-2)和data(k-1)进行一次拟合,data(i-3)、data(i-2)和data(i-1)进行一次拟合;如果data(k-3)、data(k-2)和data(k-1)的变化趋势与data(i-3)、data(i-2)和data(i-1)的变化趋势相同,则进入下一步;否则,回到步骤1),重新选取data(k-1),但无法通过步骤1)选取data(k-1)时,则进入步骤5);
如果i>n-3,即缺失值处于数据序列右边界位置,则下一步直接进入步骤4)。
3)读取data(k)和data(i)右边的三个数据,将data(k+3)、data(k+2)和data(k+1)进行一次拟合,data(i+3)、data(i+2)和data(i+1)进行一次拟合;如果data(k+3)、data(k+2)和data(k+1)的变化趋势与data(i+3)、data(i+2)和data(i+1)的变化趋势相同,则进入下一步;否则,回到步骤1),重新选取data(k-1),但无法通过步骤1)选取data(k-1)时,则进入步骤5);
4)将data(k)保存到数据集K中,回到步骤1),重新选取data(k-1),直到无法通过步骤1)选取data(k-1)时,进入下一步;
5)若被保存数据只有1个数据data(k),则若没有数据被保存下来,则取缺失值data(i)左右两侧数据的平均值。由于这两种情况出现概率较小,在流程图中舍去对这两种情况的介绍。
如果数据集K存在j-1(j>2)个数据,则将数据集K里面的数据拟合为f(x),令M=f(j)。
6)将数值M填充到data(i)的位置上。
进一步,步骤1)开始前,对data(x1)、data(x2)……data(xn)归一化处理。
本发明的技术效果是毋庸置疑的,利用此方法,不必知道数据的具体周期,不仅有效得到非边界缺失值的填充值,也有效得到其他方法不易得到的边界缺失值的填充值。
附图说明
图1为本发明的流程图,部分流程省略。
图2实施例中的某地区变压器A相油温归一化数据。
图3实施例中的有缺失值的某地区变压器A相油温数据。
图4实施例中的填充缺失值后的油温曲线与原始油温曲线对比图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本说明书以某地区变压器A相温度油温120个数据为例,现将数据归一化,如图2所示。分别剔除了第3、53、61、85、117位数据,模拟缺失值问题,如图3所示。
在本实施例中,采用了上述基于相邻数据特征的缺失值填充方法,具体计算过程如下:
1、读取数据,检测出第3、53、61、85、117位数据缺失,最大值为50.21。
2、将数据都除以50.21,进行归一化。
3、以处于第3位的缺失值为例,第17、18、30、35、36、38、51、52、54、69、72、86、90、100、108位数据与之近似相等,但符合要求的是第36、69、90位数据,目标数据为第37、70、91位数据,分别是0.90565624、0.90517825、0.86108345,横坐标数量级太小就会致使拟合效果很差,所以,横坐标第一个数据为1,第二个数据为400,第j个数据为398+j的形式。用最小二乘法拟合得到f(x)=-5.659×10-5x+0.9058,可预测出归一化后的第四个数据为f(402)=0.88305082,还原得44.33798。
4、得到上述缺失值对应填充值分别为(44.32205,43.13566,50.2100,43.34584,43.22929)。
5、将填充值放回对应缺失位置上,如图4所示,红色为原数据,绿色为填充值数据。
利用此方法计算的填充值与原数据对比,求出的误差如表1所示。由表1可以看出,本方法计算误差普遍较小,验证了算法的可行性。
表1缺失值计算值及其误差
原数据 位置序号 <u>缺失值</u>计算值 绝对误差 相对误差
44.8470 3 44.33798 -0.50902 -0.01135
43.0320 53 43.13566 1.30598 0.00241
50.1210 61 50.2100 -5.78302 -0.00177
44.3209 85 43.34584 0.01708 0.01131
42.3810 117 43.22929 1.95698 0.020016

Claims (3)

1.一种基于相邻数据特征的数据缺失填充方法,其特征在于:
读取一段按照时间顺序排列的数据序列;所述数据序列中,存在n个数据,所述数据序列为data(x1)、data(x2)……data(xn)表示,x1、x2……xn为时间序列Q,n为自然数;所述数据序列中,缺失了编号为i的数据,即data(i),i为等差数列Q中的一个值;所述数据序列为data(x1)、data(x2)……data(xn)为每间隔1个小时测得的变压器油温;
填充编号为i的数据,包括以下步骤:
1)读取与编号为i的数据相邻的数据data(i-1);在所述数据序列中,从头开始寻找与data(i-1)之差的绝对值小于0.02的数据;
如果没有找到这样的数据,则下一步直接进入步骤5);
如果找到这样的一个或多个数据,令其中一个数据的序列号为k-1,即该数据记为data(k-1),并进入下一步,k为时间序列Q中的一个值;
2)读取data(k)和data(i)左边的三个数据,将data(k-3)、data(k-2)和data(k-1)进行一次拟合,data(i-3)、data(i-2)和data(i-1)进行一次拟合;如果data(k-3)、data(k-2)和data(k-1)的变化趋势与data(i-3)、data(i-2)和data(i-1)的变化趋势相同,则进入下一步;否则,回到步骤1),重新选取data(k-1),但无法通过步骤1)选取data(k-1)时,则进入步骤5);
3)读取data(k)和data(i)右边的三个数据,将data(k+3)、data(k+2)和data(k+1)进行一次拟合,data(i+3)、data(i+2)和data(i+1)进行一次拟合;如果data(k+3)、data(k+2)和data(k+1)的变化趋势与data(i+3)、data(i+2)和data(i+1)的变化趋势相同,则进入下一步;否则,回到步骤1),重新选取data(k-1),但无法通过步骤1)选取data(k-1)时,则进入步骤5);
4)将data(k)保存到数据集K中,回到步骤1),重新选取data(k-1),直到无法通过步骤1)选取data(k-1)时,进入下一步;
5)若被保存数据只有1个数据data(k),则若没有数据被保存下来,则取缺失值data(i)左右两侧数据的平均值;如果数据集K存在j-1(j&gt;2)个数据,则将数据集K里面的数据拟合为f(x),令M=f(j);
6)将数值M填充到data(i)的位置上。
2.根据权利要求1所述的一种基于相邻数据特征的数据缺失填充方法,其特征在于:步骤1)开始前,对data(x1)、data(x2)……data(xn)归一化处理。
3.根据权利要求1所述的一种基于相邻数据特征的数据缺失填充方法,其特征在于:若第一个数据缺失,则直接忽略该数据,从第二个缺失值开始填充。
CN201610397552.XA 2016-06-02 2016-06-02 一种基于相邻数据特征的数据缺失填充方法 Active CN106155985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610397552.XA CN106155985B (zh) 2016-06-02 2016-06-02 一种基于相邻数据特征的数据缺失填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610397552.XA CN106155985B (zh) 2016-06-02 2016-06-02 一种基于相邻数据特征的数据缺失填充方法

Publications (2)

Publication Number Publication Date
CN106155985A CN106155985A (zh) 2016-11-23
CN106155985B true CN106155985B (zh) 2019-01-18

Family

ID=57353217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610397552.XA Active CN106155985B (zh) 2016-06-02 2016-06-02 一种基于相邻数据特征的数据缺失填充方法

Country Status (1)

Country Link
CN (1) CN106155985B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228896B (zh) * 2018-02-05 2019-02-05 清华大学 一种基于密度的缺失数据填补方法及装置
CN110794227B (zh) * 2018-08-02 2022-09-02 阿里巴巴集团控股有限公司 故障检测方法、系统、设备及存储介质
CN109543769A (zh) * 2018-11-30 2019-03-29 国网山东省电力公司电力科学研究院 一种基于函数型主成分分析和小波变换的变压器运行数据缺失点修补方法
CN111611231A (zh) * 2019-02-25 2020-09-01 新奥数能科技有限公司 设备运行数据的清洗方法、装置、可读介质及电子设备
CN112541634B (zh) * 2020-12-16 2024-03-15 国网江苏省电力有限公司检修分公司 一种顶层油温预测、误报火警判别方法、装置和存储介质
CN114691666B (zh) * 2022-04-18 2023-04-07 西安电子科技大学 基于小波去噪优化的飞行试验数据缺失值填补方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521268A (zh) * 2011-11-22 2012-06-27 浪潮电子信息产业股份有限公司 一种缺失数据项自动填充的方法
CN102651116A (zh) * 2012-03-31 2012-08-29 上海市电力公司 一种电力负荷数据精细化处理方法
CN103942615A (zh) * 2014-04-15 2014-07-23 广东电网公司信息中心 噪点剔除方法
CN104217260A (zh) * 2014-09-19 2014-12-17 南京信息工程大学 一种风场邻近多台风电机测量风速缺损值的组合填充系统
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
CN104461772A (zh) * 2014-11-07 2015-03-25 沈阳化工大学 一种对缺失数据进行恢复处理的方法
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法
CN104902509A (zh) * 2015-05-19 2015-09-09 浙江农林大学 基于top-k(σ)算法的异常数据检测方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集系统的数据处理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521268A (zh) * 2011-11-22 2012-06-27 浪潮电子信息产业股份有限公司 一种缺失数据项自动填充的方法
CN102651116A (zh) * 2012-03-31 2012-08-29 上海市电力公司 一种电力负荷数据精细化处理方法
CN103942615A (zh) * 2014-04-15 2014-07-23 广东电网公司信息中心 噪点剔除方法
CN104217260A (zh) * 2014-09-19 2014-12-17 南京信息工程大学 一种风场邻近多台风电机测量风速缺损值的组合填充系统
CN104318101A (zh) * 2014-10-23 2015-01-28 轻工业环境保护研究所 一种厌氧数学建模过程缺失数据的预处理方法
CN104461772A (zh) * 2014-11-07 2015-03-25 沈阳化工大学 一种对缺失数据进行恢复处理的方法
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法
CN104902509A (zh) * 2015-05-19 2015-09-09 浙江农林大学 基于top-k(σ)算法的异常数据检测方法
CN105488736A (zh) * 2015-12-02 2016-04-13 国家电网公司 一种用于光伏电站数据采集系统的数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
以箱壁温度为判据的油浸式变压器绕组热点温度计算模型及试验分析;李剑等;《高电压技术》;20111031;第37卷(第10期);全文
采用 Kalman滤波算法预测变压器绕组热点温度;苏小平等;《高电压技术》;20120831;第38卷(第8期);全文

Also Published As

Publication number Publication date
CN106155985A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106155985B (zh) 一种基于相邻数据特征的数据缺失填充方法
WO2016101690A1 (zh) 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN102682348B (zh) 复杂装备部件维修级别优化系统及其建立方法
CN106121622B (zh) 一种基于示功图的有杆泵抽油井的多故障诊断方法
CN107370147A (zh) 一种基于ami数据分析的配电网拓扑修正方法
CN107591001B (zh) 基于在线标定的快速路交通流数据填补方法及系统
CN103716187B (zh) 网络拓扑结构确定方法和系统
CN105548744A (zh) 一种基于运检大数据的变电设备故障识别方法及其系统
CN105871634A (zh) 检测集群异常的方法及应用、管理集群的系统
CN107588906B (zh) 用于液冷循环系统的液体泄漏预警方法及装置
JP2016103972A (ja) 電力網内の負荷をモデリングするためのシステムおよび方法
CN104281779A (zh) 一种异常数据判定与处理方法及装置
CN104021303B (zh) 一种基于实测载荷谱的弧齿锥齿轮修形齿面的修形方法
CN103729444A (zh) 一种基于设备监测数据间潜在关系的异常数据检测方法
Yeh A sequential decomposition method for estimating flow in a multi-commodity, multistate network
CN110889630A (zh) 一种主动配电网分布式状态估计方法
CN105977968B (zh) 一种环状多源配电网的电能质量监测器优化配置方法
CN104850711B (zh) 一种机电产品设计标准选择方法
KR101932286B1 (ko) 풍력 발전을 고려한 순간전압강하 평가 방법 및 장치
CN111350638A (zh) 计算风力发电机组的发电量损失的方法及其装置
CN114154277B (zh) 集输系统布局优化方法、装置及设备
CN106202717A (zh) 一种基于多状态树的退化系统风险概率计算方法
WO2020009655A1 (en) Method and system for chiller performance anomaly diagnosis
JP6466463B2 (ja) 技術試験方法
CN104159245A (zh) 面向无线数据传输设备的间接健康因子获得方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant