CN103020079A

CN103020079A - 一种工业数据增补方法

Info

Publication number: CN103020079A
Application number: CN201110286150XA
Authority: CN
Inventors: 吉琨
Original assignee: CHINA REALTIME DATABASE Co Ltd; State Grid Corp of China SGCC
Current assignee: CHINA REALTIME DATABASE CO LTD; State Grid Corp of China SGCC
Priority date: 2011-09-24
Filing date: 2011-09-24
Publication date: 2013-04-03
Anticipated expiration: 2031-09-24
Also published as: CN103020079B

Abstract

本发明属于数据挖掘技术领域，本发明结合了期望最大化算法和灰色聚类分析的优点，提供一种结合了期望最大化方法和聚类分析方法的数据增补技术，在反复估算的基础上又保证数据的关联性，完整地将数据增补到缺失序列中，使得缺失数据的计算效率增加，收敛的周期缩短，并且使其估算精度提高。

Description

一种工业数据增补方法

技术领域

本发明属于数据挖掘技术领域，特别是涉及一种基于期望最大化和聚类分析的数据增补方法。

背景技术

随着计算机技术的发展以及自动化水平的提高，数据的存取速度不断增快，随之而来出现了大量的数据缺失。近年来，数据挖掘技术在各行各业得到了广泛的应用，为商业智能提供了辅助决策的能力。但在对实际环境的调查中发现，信息系统是不完备的，或者说存在某种程度上的不完备，从而导致工业数据存在缺失的现象。在实际的工业系统运营中，数据缺失的现象大量存在，而造成数据不完备的原因多种多样，可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障或者其他一些人为因素等等。处理缺失数据的方法有很多种而且各有其优缺点，最简单的方法就是删除含缺失值的记录，这种方法比较突兀，针对电力系统中的关键数据此方法不适用。另外就是为缺失值确定一个合理的估计值替换缺失的部分，称之为数据增补方法。

在增补数据时，主要常用以下方法：期望最大化算法简单易用，但是与历史数据关联不紧密，丧失了前后数据的关联性，从而导致估算数据与历史数据不吻合，而且算法收敛的进程相当慢；灰色聚类分析增强了数据的关联性，但是其反复迭代后无法保证的数据准确性。

一种基于期望最大化和聚类分析的缺失数据增补技术，结合了期望最大化算法简单易用和聚类高关联度的特性，通过二者的综合加快了算法的收敛速度，增强了缺失数据与完整数据的紧密程度，提高了增补数据的精确度。本发明正是为了实现一种高效的数据增补技术而开发实现的。

发明内容

为解决上述问题，本发明旨在提供一种基于期望最大化和聚类分析的数据增补技术，该技术在工业数据缺失的情况下，保证了增补数据的收敛速度、与历史数据的紧密度以及增补数据的精确度。本发明所针对的数据是工业生产中产生的缺失数据，此类缺失数据与真实历史数据具有较强的相关性、相似性，因此在使用本发明前，应存在一定量的历史数据。

本发明采用方法为：

步骤A：确定参照序列、缺失序列。记序列

Figure 201110286150X100002DEST_PATH_IMAGE001

为完整的参照序列，记序列为缺失序列，其中；

步骤B：初始化序列。调整完整参照序列的元素个数，将其中与缺失序列中相对缺失的数据删除，形成临时的参照序列

，记为。序列

称为序列

Figure 201110286150X100002DEST_PATH_IMAGE007

的始点零化像，记为

；

步骤C：分析缺失序列与参照序列的关系，计算灰色关联度，划分聚类；首先根据公式计算出序列的面积，临时参照序列的面积

，缺失序列的面积

Figure 201110286150X100002DEST_PATH_IMAGE011

；计算序列1与序列i之间的灰色关联度，记

为序列1与序列i之间的相似程度，计算所有参照序列

Figure 201110286150X100002DEST_PATH_IMAGE013

之间以及

与缺失序列

之间的相似程度，将所有的参照序列组合成上三角矩阵；

根据临界值r对所有的

Figure 201110286150X100002DEST_PATH_IMAGE015

进行聚类分析，将所有的序列按照聚类划分；

进行灰色关联分析，确定与缺失序列相似程度较高的不完整序列集合并恢复为完整的序列，做均值化处理，得出唯一的均值完整参照序列

，记录完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value；

步骤D：计算缺失数据；

根据EM算法利用缺失数据的序列

计算出要被估计的参数；取最大值max_value和最小值min_value之间为缺失数据，将最小值min_value增补到缺失数据的序列中形成临时的完整序列，计算完整数据的对数似然函数的期望值；

极大化对数似然函数以确定参数的值，经反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。

将缺失数据初步估计值逐一代入缺失数据的序列中，与均值完整参照序列

进行关联度分析得到

Figure 201110286150X100002DEST_PATH_IMAGE019

，取

的极大值对应的数据作为最终的增补数据。

本发明方法的有益效果是，可以在具有历史数据的条件下，缩短了估算周期，提高了估算的精度，提高了缺失数据的估算效率。

本发明结合了期望最大化算法和灰色聚类分析的优点，提供一种结合了期望最大化方法和聚类分析方法的数据增补技术，在反复估算的基础上又保证数据的关联性，完整地将数据增补到缺失序列中，使得缺失数据的计算效率增加，收敛的周期缩短，并且使其估算精度提高。

附图说明

图1是基于期望最大化和聚类分析的数据增补技术的流程图。

具体实施方式

本发明具体实施例如下：

其中方案流程图如附图1所示。该技术方案包括如下步骤：

步骤A：确定参照序列、缺失序列。记序列

为完整的参照序列，记序列

为缺失序列，其中

。

步骤B：初始化序列。由于完整的参照序列和缺失序列中元素的个数不同，无法进行下一步的估算，因此调整完整参照序列的元素个数，将其中与缺失序列中相对缺失的数据删除，形成临时的参照序列

，记为

。序列

称为序列

的始点零化像，记为

。

步骤C：分析缺失序列与参照序列的关系，计算灰色关联度，划分聚类。首先根据公式计算出序列的面积

临时参照序列与缺失序列的面积可用同样的方法计算得出。然后计算序列1与序列i之间的灰色关联度，记

为序列1与序列i之间的相似程度，计算方法如下所示：

同理可以计算出所有参照序列

之间以及与缺失序列

之间的相似程度，将所有的参照序列组合成上三角矩阵。最后根据临界值r对所有的

进行聚类分析，将所有的序列分成若干聚类。经过灰色关联分析，可以确定与缺失序列相似程度较高的不完整序列集合，将这个不完整序列的集合恢复为完整的序列，并做均值化处理，得出唯一的均值完整参照序列

，同时记录下完整序列集合中对应缺失数据位置的最大值max_value和最小值min_value。

步骤D：计算缺失数据。首先根据EM算法利用缺失数据的序列

计算出要被估计的参数

；然后可以利用之前得出的最大值max_value和最小值min_value缩小范围，由于缺失数据的序列与相似的序列在同一聚类中，因此缺失的数据必定在最大值max_value和最小值min_value之间。将最小值min_value增补到缺失数据的序列中形成临时的完整序列，并计算完整数据的对数似然函数的期望值。再极大化对数似然函数以确定参数的值，进过反复的迭代可以得出多个介于max_value与min_value之间的缺失数据初步估计值。

将计算出的缺失数据初步估计值逐一代入到缺失数据的序列中，并与之前计算出的均值完整参照序列

进行关联度分析得到

，取其中的极大值对应的数据作为最终的增补数据。

本发明按照优选实施例进行了说明，应当理解，但上述实施例不以任何形式限定本发明，凡采用等同替换或等效变换的形式所获得的技术方案，均落在本发明的保护范围之内。