CN104679868A

CN104679868A - 一种基于数据间关联关系的遗漏数据填补方法

Info

Publication number: CN104679868A
Application number: CN201510098877.3A
Authority: CN
Inventors: 王淋铱; 文有庆; 刘聪
Original assignee: Sichuan Depth Information Technology Ltd
Current assignee: Chengdu Comsys Information Technology Co., Ltd.
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2015-06-03
Anticipated expiration: 2035-03-06
Also published as: CN104679868B

Abstract

本发明公开了一种基于数据间关联关系的遗漏数据填补方法，包括以下步骤：S1、对数据之间的关联关系进行分析，得到数据之间的关联规律；S2、找到数据之间关联关系最强的关联规律；S3、根据步骤S2中得到的最强关联规律对数据进行分组；S4、对数据中的遗漏数据进行预填补；S5、进行BP神经网络的设计；S6、循环应用步骤S5中得到的BP神经网络进行数据填补，直到所有的数据填补完成。本发明利用数据之间的关联关系，通过设计BP神经网络解决了遗漏数据的填补问题，为后期的数据分析提供了高质量的数据，具有简单、高效、精确等优点。

Description

一种基于数据间关联关系的遗漏数据填补方法

技术领域

本发明属于数据预处理技术领域，具体涉及一种基于数据间关联关系的遗漏数据填补方法的设计。

背景技术

当前，由于计算机管理信息系统普遍应用于各行各业，积累的数据量日益增大，为使这些数据发挥其应有的作用，为相关行业的管理决策提供强有力的支持，提高经济和社会效益，由此诞生了数据挖掘、知识发现，其方法技术强调面向应用，因此，其应用效果日渐彰显，越来越受到业内人士的注意和重视。

参与数据挖掘和知识发现的数据质量是挖掘出的知识精确实用的前提，在虚假劣质数据泛滥的数据集上很难发现有用的知识和规则，因此在进行数据挖掘前，对数据进行相关的处理(例如：填补空缺数据项、平滑噪声数据、识别或去除异常数据和解决不一致数据等过程)对于提高数据质量，为随后的数据挖掘、知识发现提供优质的数据，是一个非常必要的步骤，一般称其为数据预处理。

目前，在数据预处理中填补遗漏数据的技术有：1、从相关信息中提取填补空缺值所需数据；2、利用同类别均值填补空缺值；3、利用决策树技术填补空缺值。这些技术在一定程度上解决了遗漏数据填补的问题，然而这些技术都没有很好的利用数据之间的关联关系，为数据分析提供较为精确的数据。

因此，针对上述现有技术在数据预处理中填补遗漏数据方面存在的缺陷，实有必要进行研究，以提供一种基于数据间关联关系的遗漏数据填补方法，用以为后期的数据分析提供高质量的数据。

发明内容

本发明的目的是为了解决现有技术在数据预处理中填补遗漏数据方面不够精确的问题，提出了一种基于数据间关联关系的遗漏数据填补方法。

本发明的技术方案为：一种基于数据间关联关系的遗漏数据填补方法，包括以下步骤：

S1、对数据之间的关联关系进行分析，得到数据之间的关联规律；

S2、找到数据之间关联关系最强的关联规律；

S3、根据步骤S2中得到的最强关联规律对数据进行分组；

S4、对数据中的遗漏数据进行预填补；

S5、进行BP神经网络的设计；

S6、循环应用步骤S5中得到的BP神经网络进行数据填补，直到所有的数据填补完成。

进一步地，步骤S1中的数据是现实社会的信息描述。

进一步地，步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。

进一步地，步骤S5包括以下分步骤：

S51、根据步骤S3中的分组情况，将每组数据中的80％作为训练集，20％作为测试集；

S52、假设训练集共有k列数据，则选择其中一列作为输出，其他作为输入，重复选择k次；

S53、在输入层设计n个神经元，n为步骤S3中分组个数，输出层设计一个神经元；在输入层与输出层之间设计一个隐层，隐层中的初始神经元个数为k-1个，根据实验情况的好坏，可能改变隐层神经元的个数，以寻找误差最小的神经元个数，以此构建BP神经网络；

S54、确定训练函数对BP神经网络的正向训练与反向学习，不断的缩小误差，最后达到误差很小的状态。

进一步地，步骤S54包括以下分步骤：

S541、权值初始化；

S542、给定输入变量和期望输出；

S543、正向训练：根据给定的输入变量计算得到神经网络的实际输出，并将其与期望输出比较，如果存在误差则进入步骤S544，否则结束；

S544、反向学习：计算同一层单元的误差，求出误差梯度，修正权值与阀值，判断误差是否满足要求，若满足要求则结束，否则返回步骤S542。

本发明的有益效果是：本发明利用数据之间的关联关系，通过设计BP神经网络解决了遗漏数据的填补问题，为后期的数据分析提供了高质量的数据，具有简单、高效、精确等优点。此外，本发明在设计BP神经网络之前设计了相关算法对遗漏数据进行了预填补，能够得到更好的神经网络模型和更精确的数据。

附图说明

图1为大数据的矩阵示意图。

图2为矩阵中数据遗失示意图。

图3为本发明提供的基于数据间关联关系的遗漏数据填补方法步骤流程图。

图4为本发明实施例的寻找MovieLens评分数据集中最强关联规律的流程图。

图5为本发明实施例的采用slope one算法进行遗漏值的预填补的步骤流程图。

图6为本发明步骤S5的分步骤流程图。

图7为本发明实施例的BP神经网络结构示意图。

图8为本发明步骤S54的分步骤流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

大数据一般采用矩阵的方式表达，如图1所示。其中可能会出现数据遗漏的情况，如图2所示，图中画X的地方表示此值遗失，这些遗失的数据可能包含很多的信息和知识，对数据挖掘和知识发现等会有很大负面影响，因此需要对这些遗失数据进行填补。

本发明提供了一种基于数据间关联关系的遗漏数据填补方法，如图3所示，包括以下步骤：

这里的数据是现实社会的信息描述，现实社会总是会存在各种关联现象，那么数据之间也存在或多或少的关联关系，找出这种关系会对遗漏数据的填补提供更多的支持。

S2、找到数据之间关联关系最强的关联规律；

为了找到数据之间关联关系最强的关联规律，需要对数据进行相关性计算，对数据的相关性计算可分为基于属性的相关性计算和基于数据值的相关性计算。

本实施例以MovieLens评分数据集为例，其中包含了不同用户对不同电影的评价。

如图4所示，在对评分数据进行相关性计算时，若采用基于属性的相关性计算，即从进行评分的用户入手，则首先应将所有电影进行分类，比如：喜剧，爱情，悬疑，科幻，悲剧，言情，武术等20种类别，如果某个用户喜爱某类电影，则在该类电影的位置标识为1，否则标识为0。然后任意选取两个用户的评分数据表示如下：

P1＝{1,0,0,1,0,0,1,1,1,1,0,1,0,0,1,0,1,0,1,1}

P2＝{0,0,1,1,0,1,0,0,1,1,0,0,1,0,1,0,1,1,0,0}

计算P1，P2的相似性Sum(P1,P2)：若两组数据第R位上的值相同(0<R<21，R为整数)，则Sum(P1,P2)的值加1，那么上述两组数据的Sum(P1,P2)＝10。

找出Sum(P1,P2)值最大的两组数据，即为具有最强关联关系的数据。

若采用基于数据值的相关性计算，即从评分数据入手，则对同一部电影评分相近，说明两者可能存在某种关联关系，将所有电影的评价进行总体分析，如果结果越相近，表明两者关联关系越紧密，具体的计算公式如公式(1)所示：

Sim (u, v) = \frac{\underset{i &Element; I (u) \cap I (v)}{Σ} (R_{u, i} - {\overset{&OverBar;}{R}}_{u}) (R_{v, i} - {\overset{&OverBar;}{R}}_{v})}{\sqrt{\underset{i &Element; I (u) \cap I (v)}{Σ} {(R_{u, i} - {\overset{&OverBar;}{R}}_{u})}^{2}} \sqrt{\underset{i &Element; I (u) \cap I (v)}{Σ} {(R_{v, i} - {\overset{&OverBar;}{R}}_{v})}^{2}}} - - - (1)

式中I(u)∩I(v)表示用户u和用户v共同评分的项目集合，R_u,i和R_v,i分别表示用户u和用户v对电影i的评分值，和分别表示用户u和用户v的评分均值。

找出Sim(u,v)值最大的两组数据，即为具有最强关联关系的数据。

S3、根据步骤S2中得到的最强关联规律对数据进行分组；

这里根据步骤S2中得到的最强关联规律，将具有最强关联关系的数据分为一组。

S4、对数据中的遗漏数据进行预填补；

经过步骤S3中的分组，已经将具有最强关联关系的数据分为了一组，此时，为了得到更好的神经网络模型，得到更精确的数据，需要对每一组数据中的遗漏数据进行预填补。在本实施例中我们采用改进的简单高效的slope one算法进行遗漏值的预填补，如图5所示，其具体步骤如下：

A1、选定一组需要进行预填补的数据；

A2、对该组数据进行扫描，选择第一个遗漏值点作为预填补点，假设该点为D(a,b)；

A3、搜索第a行，如果存在遗漏值的点，则在计算的时候排除该点对结果的影响，并将该点记为空，假设存在不为空的值c个；

A4、搜索第b列，如果存在遗漏值的点，则在计算的时候排除该点对结果的影响，并将该点记为空，假设存在不为空的值d个；

A5、删除各遗漏值的所在行和所在列，建立新的矩阵，假设新的矩阵有e行f列；

A6、根据公式(2)计算平均差值p(a,b)：

p (a, b) = \frac{Σ_{i = 1}^{a - 1} (\frac{Σ_{j = 1}^{b - 1} | D (i, j) - D (i, b) |}{b - 1} + \frac{Σ_{j = b + 1}^{f} | D (i, j) - D (i, b) |}{f - b})}{a - 1} + \frac{Σ_{i = a + 1}^{e} (\frac{Σ_{j = 1}^{b - 1} | D (i, j) - D (i, b) |}{b - 1} + \frac{Σ_{j = b + 1}^{f} | D (i, j) - D (i, b) |}{f - b})}{e - a} - - - (2);

A7、根据公式(3)计算当前a行的评分值q(a,b)：

q (a, b) = \frac{Σ_{i = 1}^{b - 1} D (a, i)}{b - 1} + \frac{Σ_{i = b + 1}^{f} D (a, i)}{f - b} - - - (3);

A8、根据公式(4)计算得到当前遗漏值点的预填补值D(a,b)：

D(a,b)＝p(a,b)+q(a,b) (4)；

A9、重复步骤A1-A8，计算得到该组所有遗漏值点的预填补值；

A10、重复步骤A1-A9，直到所有分组的遗漏值预填补完毕。

S5、进行BP神经网络的设计；

如图6所示，该步骤具体包括如下分步骤：

构建的BP神经网络结构如图7所示，输入层有n个神经元，隐含层的神经元个数根据具体的情况进行调节，输出层有一个神经元；每个神经元点均使用sigmoid型函数作为激励函数，并用w(k,i)来表示输入层与隐含层之间的连接权系数，而用v(j,k)来表示隐含层与输出层之间的连接权系数。

如图8所示，该步骤具体包括如下分步骤：

S541、权值初始化：随机给w(k,i)和v(j,k)赋予一组较小的非零数值；

S542、给定输入变量和期望输出；

假设输入变量为X_k＝[X_k1,X_k2,...,X_kn](k＝1,2,…,m，m为该神经网络训练集个数)。选择每个训练集的最后一列作为期望输出，设为d_k(l)(l为BP神经网络的迭代次数)。

在计算神经网络的实际输出时，需要结合输入变量与w(k,i)和v(j,k)进行计算，假设实际输出为Y_k(l)＝y_k(l)(l为BP神经网络的迭代次数)，将Y_k(l)与d_k(l)进行比较。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于数据间关联关系的遗漏数据填补方法，其特征在于，包括以下步骤：

S2、找到数据之间关联关系最强的关联规律；

S3、根据步骤S2中得到的最强关联规律对数据进行分组；

S4、对数据中的遗漏数据进行预填补；

S5、进行BP神经网络的设计；

2.根据权利要求1所述的遗漏数据填补方法，其特征在于，所述步骤S1中的数据是现实社会的信息描述。

3.根据权利要求1所述的遗漏数据填补方法，其特征在于，所述步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。

4.根据权利要求1所述的遗漏数据填补方法，其特征在于，所述步骤S5包括以下分步骤：

5.根据权利要求4所述的遗漏数据填补方法，其特征在于，所述步骤S54包括以下分步骤：

S541、权值初始化；

S542、给定输入变量和期望输出；