CN104679868A - 一种基于数据间关联关系的遗漏数据填补方法 - Google Patents

一种基于数据间关联关系的遗漏数据填补方法 Download PDF

Info

Publication number
CN104679868A
CN104679868A CN201510098877.3A CN201510098877A CN104679868A CN 104679868 A CN104679868 A CN 104679868A CN 201510098877 A CN201510098877 A CN 201510098877A CN 104679868 A CN104679868 A CN 104679868A
Authority
CN
China
Prior art keywords
data
neural network
error
missing
incidence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510098877.3A
Other languages
English (en)
Other versions
CN104679868B (zh
Inventor
王淋铱
文有庆
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Comsys Information Technology Co., Ltd.
Original Assignee
Sichuan Depth Information Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Depth Information Technology Ltd filed Critical Sichuan Depth Information Technology Ltd
Priority to CN201510098877.3A priority Critical patent/CN104679868B/zh
Publication of CN104679868A publication Critical patent/CN104679868A/zh
Application granted granted Critical
Publication of CN104679868B publication Critical patent/CN104679868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据间关联关系的遗漏数据填补方法,包括以下步骤:S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;S2、找到数据之间关联关系最强的关联规律;S3、根据步骤S2中得到的最强关联规律对数据进行分组;S4、对数据中的遗漏数据进行预填补;S5、进行BP神经网络的设计;S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。本发明利用数据之间的关联关系,通过设计BP神经网络解决了遗漏数据的填补问题,为后期的数据分析提供了高质量的数据,具有简单、高效、精确等优点。

Description

一种基于数据间关联关系的遗漏数据填补方法
技术领域
本发明属于数据预处理技术领域,具体涉及一种基于数据间关联关系的遗漏数据填补方法的设计。
背景技术
当前,由于计算机管理信息系统普遍应用于各行各业,积累的数据量日益增大,为使这些数据发挥其应有的作用,为相关行业的管理决策提供强有力的支持,提高经济和社会效益,由此诞生了数据挖掘、知识发现,其方法技术强调面向应用,因此,其应用效果日渐彰显,越来越受到业内人士的注意和重视。
参与数据挖掘和知识发现的数据质量是挖掘出的知识精确实用的前提,在虚假劣质数据泛滥的数据集上很难发现有用的知识和规则,因此在进行数据挖掘前,对数据进行相关的处理(例如:填补空缺数据项、平滑噪声数据、识别或去除异常数据和解决不一致数据等过程)对于提高数据质量,为随后的数据挖掘、知识发现提供优质的数据,是一个非常必要的步骤,一般称其为数据预处理。
目前,在数据预处理中填补遗漏数据的技术有:1、从相关信息中提取填补空缺值所需数据;2、利用同类别均值填补空缺值;3、利用决策树技术填补空缺值。这些技术在一定程度上解决了遗漏数据填补的问题,然而这些技术都没有很好的利用数据之间的关联关系,为数据分析提供较为精确的数据。
因此,针对上述现有技术在数据预处理中填补遗漏数据方面存在的缺陷,实有必要进行研究,以提供一种基于数据间关联关系的遗漏数据填补方法,用以为后期的数据分析提供高质量的数据。
发明内容
本发明的目的是为了解决现有技术在数据预处理中填补遗漏数据方面不够精确的问题,提出了一种基于数据间关联关系的遗漏数据填补方法。
本发明的技术方案为:一种基于数据间关联关系的遗漏数据填补方法,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
S2、找到数据之间关联关系最强的关联规律;
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
S4、对数据中的遗漏数据进行预填补;
S5、进行BP神经网络的设计;
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
进一步地,步骤S1中的数据是现实社会的信息描述。
进一步地,步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。
进一步地,步骤S5包括以下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,可能改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
进一步地,步骤S54包括以下分步骤:
S541、权值初始化;
S542、给定输入变量和期望输出;
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阀值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
本发明的有益效果是:本发明利用数据之间的关联关系,通过设计BP神经网络解决了遗漏数据的填补问题,为后期的数据分析提供了高质量的数据,具有简单、高效、精确等优点。此外,本发明在设计BP神经网络之前设计了相关算法对遗漏数据进行了预填补,能够得到更好的神经网络模型和更精确的数据。
附图说明
图1为大数据的矩阵示意图。
图2为矩阵中数据遗失示意图。
图3为本发明提供的基于数据间关联关系的遗漏数据填补方法步骤流程图。
图4为本发明实施例的寻找MovieLens评分数据集中最强关联规律的流程图。
图5为本发明实施例的采用slope one算法进行遗漏值的预填补的步骤流程图。
图6为本发明步骤S5的分步骤流程图。
图7为本发明实施例的BP神经网络结构示意图。
图8为本发明步骤S54的分步骤流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
大数据一般采用矩阵的方式表达,如图1所示。其中可能会出现数据遗漏的情况,如图2所示,图中画X的地方表示此值遗失,这些遗失的数据可能包含很多的信息和知识,对数据挖掘和知识发现等会有很大负面影响,因此需要对这些遗失数据进行填补。
本发明提供了一种基于数据间关联关系的遗漏数据填补方法,如图3所示,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
这里的数据是现实社会的信息描述,现实社会总是会存在各种关联现象,那么数据之间也存在或多或少的关联关系,找出这种关系会对遗漏数据的填补提供更多的支持。
S2、找到数据之间关联关系最强的关联规律;
为了找到数据之间关联关系最强的关联规律,需要对数据进行相关性计算,对数据的相关性计算可分为基于属性的相关性计算和基于数据值的相关性计算。
本实施例以MovieLens评分数据集为例,其中包含了不同用户对不同电影的评价。
如图4所示,在对评分数据进行相关性计算时,若采用基于属性的相关性计算,即从进行评分的用户入手,则首先应将所有电影进行分类,比如:喜剧,爱情,悬疑,科幻,悲剧,言情,武术等20种类别,如果某个用户喜爱某类电影,则在该类电影的位置标识为1,否则标识为0。然后任意选取两个用户的评分数据表示如下:
P1={1,0,0,1,0,0,1,1,1,1,0,1,0,0,1,0,1,0,1,1}
P2={0,0,1,1,0,1,0,0,1,1,0,0,1,0,1,0,1,1,0,0}
计算P1,P2的相似性Sum(P1,P2):若两组数据第R位上的值相同(0<R<21,R为整数),则Sum(P1,P2)的值加1,那么上述两组数据的Sum(P1,P2)=10。
找出Sum(P1,P2)值最大的两组数据,即为具有最强关联关系的数据。
若采用基于数据值的相关性计算,即从评分数据入手,则对同一部电影评分相近,说明两者可能存在某种关联关系,将所有电影的评价进行总体分析,如果结果越相近,表明两者关联关系越紧密,具体的计算公式如公式(1)所示:
Sim ( u , v ) = &Sigma; i &Element; I ( u ) &cap; I ( v ) ( R u , i - R &OverBar; u ) ( R v , i - R &OverBar; v ) &Sigma; i &Element; I ( u ) &cap; I ( v ) ( R u , i - R &OverBar; u ) 2 &Sigma; i &Element; I ( u ) &cap; I ( v ) ( R v , i - R &OverBar; v ) 2 - - - ( 1 )
式中I(u)∩I(v)表示用户u和用户v共同评分的项目集合,Ru,i和Rv,i分别表示用户u和用户v对电影i的评分值,分别表示用户u和用户v的评分均值。
找出Sim(u,v)值最大的两组数据,即为具有最强关联关系的数据。
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
这里根据步骤S2中得到的最强关联规律,将具有最强关联关系的数据分为一组。
S4、对数据中的遗漏数据进行预填补;
经过步骤S3中的分组,已经将具有最强关联关系的数据分为了一组,此时,为了得到更好的神经网络模型,得到更精确的数据,需要对每一组数据中的遗漏数据进行预填补。在本实施例中我们采用改进的简单高效的slope one算法进行遗漏值的预填补,如图5所示,其具体步骤如下:
A1、选定一组需要进行预填补的数据;
A2、对该组数据进行扫描,选择第一个遗漏值点作为预填补点,假设该点为D(a,b);
A3、搜索第a行,如果存在遗漏值的点,则在计算的时候排除该点对结果的影响,并将该点记为空,假设存在不为空的值c个;
A4、搜索第b列,如果存在遗漏值的点,则在计算的时候排除该点对结果的影响,并将该点记为空,假设存在不为空的值d个;
A5、删除各遗漏值的所在行和所在列,建立新的矩阵,假设新的矩阵有e行f列;
A6、根据公式(2)计算平均差值p(a,b):
p ( a , b ) = &Sigma; i = 1 a - 1 ( &Sigma; j = 1 b - 1 | D ( i , j ) - D ( i , b ) | b - 1 + &Sigma; j = b + 1 f | D ( i , j ) - D ( i , b ) | f - b ) a - 1 + &Sigma; i = a + 1 e ( &Sigma; j = 1 b - 1 | D ( i , j ) - D ( i , b ) | b - 1 + &Sigma; j = b + 1 f | D ( i , j ) - D ( i , b ) | f - b ) e - a - - - ( 2 ) ;
A7、根据公式(3)计算当前a行的评分值q(a,b):
q ( a , b ) = &Sigma; i = 1 b - 1 D ( a , i ) b - 1 + &Sigma; i = b + 1 f D ( a , i ) f - b - - - ( 3 ) ;
A8、根据公式(4)计算得到当前遗漏值点的预填补值D(a,b):
D(a,b)=p(a,b)+q(a,b)          (4);
A9、重复步骤A1-A8,计算得到该组所有遗漏值点的预填补值;
A10、重复步骤A1-A9,直到所有分组的遗漏值预填补完毕。
S5、进行BP神经网络的设计;
如图6所示,该步骤具体包括如下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,可能改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
构建的BP神经网络结构如图7所示,输入层有n个神经元,隐含层的神经元个数根据具体的情况进行调节,输出层有一个神经元;每个神经元点均使用sigmoid型函数作为激励函数,并用w(k,i)来表示输入层与隐含层之间的连接权系数,而用v(j,k)来表示隐含层与输出层之间的连接权系数。
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
如图8所示,该步骤具体包括如下分步骤:
S541、权值初始化:随机给w(k,i)和v(j,k)赋予一组较小的非零数值;
S542、给定输入变量和期望输出;
假设输入变量为Xk=[Xk1,Xk2,...,Xkn](k=1,2,…,m,m为该神经网络训练集个数)。选择每个训练集的最后一列作为期望输出,设为dk(l)(l为BP神经网络的迭代次数)。
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
在计算神经网络的实际输出时,需要结合输入变量与w(k,i)和v(j,k)进行计算,假设实际输出为Yk(l)=yk(l)(l为BP神经网络的迭代次数),将Yk(l)与dk(l)进行比较。
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阀值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.一种基于数据间关联关系的遗漏数据填补方法,其特征在于,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
S2、找到数据之间关联关系最强的关联规律;
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
S4、对数据中的遗漏数据进行预填补;
S5、进行BP神经网络的设计;
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
2.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S1中的数据是现实社会的信息描述。
3.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。
4.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S5包括以下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,可能改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
5.根据权利要求4所述的遗漏数据填补方法,其特征在于,所述步骤S54包括以下分步骤:
S541、权值初始化;
S542、给定输入变量和期望输出;
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阀值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
CN201510098877.3A 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法 Active CN104679868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510098877.3A CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510098877.3A CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Publications (2)

Publication Number Publication Date
CN104679868A true CN104679868A (zh) 2015-06-03
CN104679868B CN104679868B (zh) 2017-09-26

Family

ID=53314910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510098877.3A Active CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Country Status (1)

Country Link
CN (1) CN104679868B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125A (zh) * 2016-09-19 2017-02-22 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN107463628A (zh) * 2017-07-12 2017-12-12 北京京东尚科信息技术有限公司 数据填充方法及其系统
CN109033454A (zh) * 2018-08-27 2018-12-18 广东电网有限责任公司 基于属性相似度的数据填补方法、装置、设备及存储介质
CN109902812A (zh) * 2017-12-11 2019-06-18 北京中科寒武纪科技有限公司 板卡和神经网络运算方法
CN115169284A (zh) * 2022-09-07 2022-10-11 浙江爱信诺航天信息技术有限公司 基于视觉化分析的凭证信息遗漏填补方法
US11550766B2 (en) 2019-08-14 2023-01-10 Oracle International Corporation Data quality using artificial intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104392400A (zh) * 2014-12-10 2015-03-04 国家电网公司 一种电力营销缺失数据补全方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104392400A (zh) * 2014-12-10 2015-03-04 国家电网公司 一种电力营销缺失数据补全方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张其文, 李明: "一种缺失数据的填补方法", 《兰州理工大学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125A (zh) * 2016-09-19 2017-02-22 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN106446125B (zh) * 2016-09-19 2019-12-24 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN107463628A (zh) * 2017-07-12 2017-12-12 北京京东尚科信息技术有限公司 数据填充方法及其系统
CN109902812A (zh) * 2017-12-11 2019-06-18 北京中科寒武纪科技有限公司 板卡和神经网络运算方法
CN109902812B (zh) * 2017-12-11 2020-10-09 中科寒武纪科技股份有限公司 板卡和神经网络运算方法
US11657258B2 (en) 2017-12-11 2023-05-23 Cambricon Technologies Corporation Limited Neural network calculation apparatus and method
US11803735B2 (en) 2017-12-11 2023-10-31 Cambricon Technologies Corporation Limited Neural network calculation apparatus and method
CN109033454A (zh) * 2018-08-27 2018-12-18 广东电网有限责任公司 基于属性相似度的数据填补方法、装置、设备及存储介质
US11550766B2 (en) 2019-08-14 2023-01-10 Oracle International Corporation Data quality using artificial intelligence
CN115169284A (zh) * 2022-09-07 2022-10-11 浙江爱信诺航天信息技术有限公司 基于视觉化分析的凭证信息遗漏填补方法
CN115169284B (zh) * 2022-09-07 2022-11-29 浙江爱信诺航天信息技术有限公司 基于视觉化分析的凭证信息遗漏填补方法

Also Published As

Publication number Publication date
CN104679868B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN104679868A (zh) 一种基于数据间关联关系的遗漏数据填补方法
CN108415953B (zh) 一种基于自然语言处理技术的不良资产经营知识管理方法
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
US20110022590A1 (en) Method of performing database search using relevance feedback and storage medium having program recorded thereon for executing the same
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN104866578A (zh) 一种不完整数据混合填充方法
CN106951498A (zh) 文本聚类方法
CN104346440A (zh) 一种基于神经网络的跨媒体哈希索引方法
CN105659225A (zh) 使用路径受约束的随机游走的查询扩展和查询-文档匹配
CN102982107A (zh) 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN105631519A (zh) 一种基于预决策的卷积神经网络加速方法及系统
CN103150383B (zh) 一种短文本数据的事件演化分析方法
CN105158761A (zh) 基于枝切法和曲面拟合的雷达合成相位解缠方法
CN102831129B (zh) 一种基于多示例学习的检索方法及系统
CN104285224A (zh) 用于对文本进行分类的方法
CN106777402A (zh) 一种基于稀疏神经网络的图像检索文本方法
CN103093247B (zh) 一种植物图片的自动分类方法
CN110503508A (zh) 一种层级多粒度矩阵分解的物品推荐方法
CN105808689A (zh) 一种基于人工神经网络的水系实体语义相似性度量方法
CN106897776A (zh) 一种基于名义属性的连续型特征构造方法
Sugiharti et al. Predictive evaluation of performance of computer science students of unnes using data mining based on naÏve bayes classifier (NBC) algorithm
CN106997488A (zh) 一种结合马尔科夫决策过程的动作知识提取方法
CN109299357B (zh) 一种老挝语文本主题分类方法
Nalatissifa et al. Customer decision prediction using deep neural network on telco customer churn data
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190111

Address after: 610000 8th Floor, 159 East Section, First Ring Road, Chengdu City, Sichuan Province

Patentee after: Chengdu Comsys Information Technology Co., Ltd.

Address before: 610000 Room 5, 8th Floor, 3rd Dake Jiaxiang, Jinjiang District, Chengdu City, Sichuan Province

Patentee before: Sichuan depth information technology Ltd