CN103020079A - 一种工业数据增补方法 - Google Patents

一种工业数据增补方法 Download PDF

Info

Publication number
CN103020079A
CN103020079A CN201110286150XA CN201110286150A CN103020079A CN 103020079 A CN103020079 A CN 103020079A CN 201110286150X A CN201110286150X A CN 201110286150XA CN 201110286150 A CN201110286150 A CN 201110286150A CN 103020079 A CN103020079 A CN 103020079A
Authority
CN
China
Prior art keywords
sequence
data
value
canonical
deletion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110286150XA
Other languages
English (en)
Other versions
CN103020079B (zh
Inventor
吉琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA REALTIME DATABASE CO LTD
State Grid Corp of China SGCC
Original Assignee
CHINA REALTIME DATABASE Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA REALTIME DATABASE Co Ltd, State Grid Corp of China SGCC filed Critical CHINA REALTIME DATABASE Co Ltd
Priority to CN201110286150.XA priority Critical patent/CN103020079B/zh
Publication of CN103020079A publication Critical patent/CN103020079A/zh
Application granted granted Critical
Publication of CN103020079B publication Critical patent/CN103020079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘技术领域,本发明结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。

Description

一种工业数据增补方法
技术领域
本发明属于数据挖掘技术领域,特别是涉及一种基于期望最大化和聚类分析的数据增补方法。
背景技术
随着计算机技术的发展以及自动化水平的提高,数据的存取速度不断增快,随之而来出现了大量的数据缺失。近年来,数据挖掘技术在各行各业得到了广泛的应用,为商业智能提供了辅助决策的能力。但在对实际环境的调查中发现,信息系统是不完备的,或者说存在某种程度上的不完备,从而导致工业数据存在缺失的现象。在实际的工业系统运营中,数据缺失的现象大量存在,而造成数据不完备的原因多种多样,可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障或者其他一些人为因素等等。处理缺失数据的方法有很多种而且各有其优缺点,最简单的方法就是删除含缺失值的记录,这种方法比较突兀,针对电力系统中的关键数据此方法不适用。另外就是为缺失值确定一个合理的估计值替换缺失的部分,称之为数据增补方法。
在增补数据时,主要常用以下方法:期望最大化算法简单易用,但是与历史数据关联不紧密,丧失了前后数据的关联性,从而导致估算数据与历史数据不吻合,而且算法收敛的进程相当慢;灰色聚类分析增强了数据的关联性,但是其反复迭代后无法保证的数据准确性。
一种基于期望最大化和聚类分析的缺失数据增补技术,结合了期望最大化算法简单易用和聚类高关联度的特性,通过二者的综合加快了算法的收敛速度,增强了缺失数据与完整数据的紧密程度,提高了增补数据的精确度。本发明正是为了实现一种高效的数据增补技术而开发实现的。
发明内容
为解决上述问题,本发明旨在提供一种基于期望最大化和聚类分析的数据增补技术,该技术在工业数据缺失的情况下,保证了增补数据的收敛速度、与历史数据的紧密度以及增补数据的精确度。本发明所针对的数据是工业生产中产生的缺失数据,此类缺失数据与真实历史数据具有较强的相关性、相似性,因此在使用本发明前,应存在一定量的历史数据。
本发明采用方法为:
步骤A:确定参照序列、缺失序列。记序列                                                
Figure 201110286150X100002DEST_PATH_IMAGE001
为完整的参照序列,记序列为缺失序列,其中
步骤B:初始化序列。调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列
Figure 160093DEST_PATH_IMAGE004
,记为。序列
Figure 609529DEST_PATH_IMAGE006
称为序列
Figure 201110286150X100002DEST_PATH_IMAGE007
的始点零化像,记为
Figure 526801DEST_PATH_IMAGE008
步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积,临时参照序列的面积
Figure 682976DEST_PATH_IMAGE010
,缺失序列的面积
Figure 201110286150X100002DEST_PATH_IMAGE011
;计算序列1与序列i之间的灰色关联度,记
Figure 542347DEST_PATH_IMAGE012
为序列1与序列i之间的相似程度, 计算所有参照序列
Figure 201110286150X100002DEST_PATH_IMAGE013
之间以及
Figure 964233DEST_PATH_IMAGE013
与缺失序列
Figure 137725DEST_PATH_IMAGE014
之间的相似程度,将所有的参照序列组合成上三角矩阵;
根据临界值r对所有的
Figure 201110286150X100002DEST_PATH_IMAGE015
进行聚类分析,将所有的序列按照聚类划分;
进行灰色关联分析,确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列,做均值化处理,得出唯一的均值完整参照序列
Figure 210723DEST_PATH_IMAGE016
,记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value;
步骤D:计算缺失数据;
根据EM算法利用缺失数据的序列
Figure 991728DEST_PATH_IMAGE014
计算出要被估计的参数;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;
极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。
将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列
Figure 87860DEST_PATH_IMAGE018
进行关联度分析得到
Figure 201110286150X100002DEST_PATH_IMAGE019
,取
Figure 596202DEST_PATH_IMAGE019
的极大值对应的数据作为最终的增补数据。
本发明方法的有益效果是,可以在具有历史数据的条件下,缩短了估算周期,提高了估算的精度,提高了缺失数据的估算效率。
本发明结合了期望最大化算法和灰色聚类分析的优点,提供一种结合了期望最大化方法和聚类分析方法的数据增补技术,在反复估算的基础上又保证数据的关联性,完整地将数据增补到缺失序列中,使得缺失数据的计算效率增加,收敛的周期缩短,并且使其估算精度提高。
附图说明
图1是基于期望最大化和聚类分析的数据增补技术的流程图。
具体实施方式
本发明具体实施例如下:
其中方案流程图如附图1所示。该技术方案包括如下步骤:
步骤A:确定参照序列、缺失序列。记序列
Figure DEST_PATH_IMAGE021
为完整的参照序列,记序列
Figure 675946DEST_PATH_IMAGE022
为缺失序列,其中
Figure DEST_PATH_IMAGE023
步骤B:初始化序列。由于完整的参照序列和缺失序列中元素的个数不同,无法进行下一步的估算,因此调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列
Figure 321691DEST_PATH_IMAGE024
,记为
Figure 571407DEST_PATH_IMAGE013
。序列
Figure DEST_PATH_IMAGE025
称为序列
Figure 369730DEST_PATH_IMAGE013
的始点零化像,记为
Figure 741805DEST_PATH_IMAGE026
步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类。首先根据公式计算出序列的面积
Figure DEST_PATH_IMAGE027
Figure 625579DEST_PATH_IMAGE028
临时参照序列与缺失序列的面积可用同样的方法计算得出。然后计算序列1与序列i之间的灰色关联度,记
Figure DEST_PATH_IMAGE029
为序列1与序列i之间的相似程度,计算方法如下所示:
Figure 678985DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 581082DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
同理可以计算出所有参照序列
Figure 874792DEST_PATH_IMAGE013
之间以及与缺失序列
Figure 167233DEST_PATH_IMAGE014
之间的相似程度,将所有的参照序列组合成上三角矩阵。最后根据临界值r对所有的
Figure 86647DEST_PATH_IMAGE015
进行聚类分析,将所有的序列分成若干聚类。经过灰色关联分析,可以确定与缺失序列相似程度较高的不完整序列集合,将这个不完整序列的集合恢复为完整的序列,并做均值化处理,得出唯一的均值完整参照序列
Figure 780934DEST_PATH_IMAGE034
,同时记录下完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value。
步骤D:计算缺失数据。首先根据EM算法利用缺失数据的序列
Figure 432495DEST_PATH_IMAGE014
计算出要被估计的参数
Figure 293790DEST_PATH_IMAGE017
;然后可以利用之前得出的最大值max_value和最小值min_value缩小范围,由于缺失数据的序列与相似的序列在同一聚类中,因此缺失的数据必定在最大值max_value和最小值min_value之间。将最小值min_value增补到缺失数据的序列中形成临时的完整序列,并计算完整数据的对数似然函数的期望值。再极大化对数似然函数以确定参数的值,进过反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。
将计算出的缺失数据初步估计值逐一代入到缺失数据的序列中,并与之前计算出的均值完整参照序列
Figure 688999DEST_PATH_IMAGE018
进行关联度分析得到
Figure 300109DEST_PATH_IMAGE019
,取其中的极大值对应的数据作为最终的增补数据。
本发明按照优选实施例进行了说明,应当理解,但上述实施例不以任何形式限定本发明,凡采用等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。

Claims (1)

1.一种工业数据增补方法,其特征在于包括如下步骤:
步骤A:确定参照序列、缺失序列;
记序列                                                
Figure 201110286150X100001DEST_PATH_IMAGE001
为完整的参照序列,记序列
Figure 503952DEST_PATH_IMAGE002
为缺失序列,其中
Figure 201110286150X100001DEST_PATH_IMAGE003
步骤B:初始化序列;
调整完整参照序列的元素个数,将其中与缺失序列中相对缺失的数据删除,形成临时的参照序列
Figure 805752DEST_PATH_IMAGE004
,记为
Figure 201110286150X100001DEST_PATH_IMAGE005
序列
Figure 870660DEST_PATH_IMAGE006
称为序列
Figure 201110286150X100001DEST_PATH_IMAGE007
的始点零化像,记为
Figure 207094DEST_PATH_IMAGE008
步骤C:分析缺失序列与参照序列的关系,计算灰色关联度,划分聚类;首先根据公式计算出序列的面积
Figure 201110286150X100001DEST_PATH_IMAGE009
,临时参照序列的面积
Figure 433676DEST_PATH_IMAGE010
,缺失序列的面积
Figure 201110286150X100001DEST_PATH_IMAGE011
;计算序列1与序列i之间的灰色关联度,记
Figure 675302DEST_PATH_IMAGE012
为序列1与序列i之间的相似程度, 计算所有参照序列
Figure DEST_PATH_IMAGE013
之间以及
Figure 26124DEST_PATH_IMAGE013
与缺失序列
Figure 466333DEST_PATH_IMAGE014
之间的相似程度,将所有的参照序列组合成上三角矩阵;
根据临界值r对所有的
Figure DEST_PATH_IMAGE015
进行聚类分析,将所有的序列按照聚类划分;
进行灰色关联分析,确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列,做均值化处理,得出唯一的均值完整参照序列
Figure 67078DEST_PATH_IMAGE016
,记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value;
步骤D:计算缺失数据;
根据EM算法利用缺失数据的序列
Figure 343470DEST_PATH_IMAGE014
计算出要被估计的参数;取最大值max_value和最小值min_value之间为缺失数据,将最小值min_value增补到缺失数据的序列中形成临时的完整序列,计算完整数据的对数似然函数的期望值;
极大化对数似然函数以确定参数的值,经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值;
将缺失数据初步估计值逐一代入缺失数据的序列中,与均值完整参照序列
Figure 750180DEST_PATH_IMAGE018
进行关联度分析得到,取
Figure 248158DEST_PATH_IMAGE019
的极大值
Figure 567275DEST_PATH_IMAGE020
对应的数据作为最终的增补数据。
CN201110286150.XA 2011-09-24 2011-09-24 一种工业数据增补方法 Active CN103020079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110286150.XA CN103020079B (zh) 2011-09-24 2011-09-24 一种工业数据增补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110286150.XA CN103020079B (zh) 2011-09-24 2011-09-24 一种工业数据增补方法

Publications (2)

Publication Number Publication Date
CN103020079A true CN103020079A (zh) 2013-04-03
CN103020079B CN103020079B (zh) 2017-03-08

Family

ID=47968694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110286150.XA Active CN103020079B (zh) 2011-09-24 2011-09-24 一种工业数据增补方法

Country Status (1)

Country Link
CN (1) CN103020079B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886195A (zh) * 2014-03-14 2014-06-25 浙江大学 数据缺失下时间序列相似性度量方法
CN103886747A (zh) * 2014-03-14 2014-06-25 浙江大学 路段交通运行相似度度量方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794508A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 交通信息填补方法、装置及系统
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN102110302A (zh) * 2009-12-25 2011-06-29 东软飞利浦医疗设备系统有限责任公司 Ct扫描中缺失数据的补偿方法
US20110225042A1 (en) * 2010-03-11 2011-09-15 Yahoo! Inc. Maximum likelihood estimation under a covariance constraint for predictive modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110302A (zh) * 2009-12-25 2011-06-29 东软飞利浦医疗设备系统有限责任公司 Ct扫描中缺失数据的补偿方法
CN101794508A (zh) * 2009-12-30 2010-08-04 北京世纪高通科技有限公司 交通信息填补方法、装置及系统
US20110225042A1 (en) * 2010-03-11 2011-09-15 Yahoo! Inc. Maximum likelihood estimation under a covariance constraint for predictive modeling
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吉琨等: ""一种基于灰色系统理论的主观信任评估方法"", 《计算机技术与发展》 *
杨军等: ""抽样调查中缺失数据的插补方法"", 《数理统计与管理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886195A (zh) * 2014-03-14 2014-06-25 浙江大学 数据缺失下时间序列相似性度量方法
CN103886747A (zh) * 2014-03-14 2014-06-25 浙江大学 路段交通运行相似度度量方法
CN103886747B (zh) * 2014-03-14 2016-03-09 浙江大学 路段交通运行相似度度量方法

Also Published As

Publication number Publication date
CN103020079B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN107463604A (zh) 一种基于重要点的时间序列固定分段算法
CN103020423B (zh) 基于copula函数获取风电场出力相关特性的方法
CN105426954A (zh) 一种基于多策略协同作用的粒子群优化的方法
CN111210432B (zh) 一种基于多尺度多级注意力机制的图像语义分割方法
CN102832617B (zh) 一种基于精确化模式判别的大电网暂态稳定分析方法
CN104134219A (zh) 基于直方图的彩色图像分割算法
CN107563400A (zh) 一种基于网格的密度峰值聚类方法及系统
CN105631068A (zh) 一种非结构网格cfd计算的网格边界条件处理方法
CN105930128B (zh) 一种利用浮点数计算指令实现大整数乘法计算加速方法
CN103427791B (zh) 一种基于粒子群优化的信号分离方法
Djauhari et al. Minimal spanning tree problem in stock networks analysis: An efficient algorithm
CN104392458A (zh) 基于空间限制邻域混合模型的图像分割方法
CN104834709B (zh) 一种基于负载均衡的并行余弦模式挖掘方法
CN104217013A (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及系统
CN103020079A (zh) 一种工业数据增补方法
Pan et al. Afinet: Attentive feature integration networks for image classification
CN104318046A (zh) 增量式的高维数据转换为低维数据的系统及方法
CN103544328A (zh) 一种基于Hadoop的并行k均值聚类方法
Gajawada et al. Projected clustering using particle swarm optimization
CN107784015B (zh) 一种基于电力系统在线历史数据的数据约简方法
CN106845799B (zh) 一种电池储能系统典型工况的评估方法
CN103514589A (zh) 图像恢复中的滤波方法
CN104021563B (zh) 基于多目标模糊聚类和反对学习的噪声图像分割方法
CN104966131A (zh) 季风气候明显区域的平坦地形风机优化布置方法
CN105653615A (zh) 基于大数据的计算机数据挖掘探索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Patentee after: STATE GRID CORPORATION OF CHINA

Patentee after: CHINA REALTIME DATABASE Co.,Ltd.

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Patentee before: State Grid Corporation of China

Patentee before: CHINA REALTIME DATABASE Co.,Ltd.

CP01 Change in the name or title of a patent holder