CN104679868B - 一种基于数据间关联关系的遗漏数据填补方法 - Google Patents

一种基于数据间关联关系的遗漏数据填补方法 Download PDF

Info

Publication number
CN104679868B
CN104679868B CN201510098877.3A CN201510098877A CN104679868B CN 104679868 B CN104679868 B CN 104679868B CN 201510098877 A CN201510098877 A CN 201510098877A CN 104679868 B CN104679868 B CN 104679868B
Authority
CN
China
Prior art keywords
data
incidence relation
error
missing
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510098877.3A
Other languages
English (en)
Other versions
CN104679868A (zh
Inventor
王淋铱
文有庆
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Comsys Information Technology Co., Ltd.
Original Assignee
Sichuan Depth Information Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Depth Information Technology Ltd filed Critical Sichuan Depth Information Technology Ltd
Priority to CN201510098877.3A priority Critical patent/CN104679868B/zh
Publication of CN104679868A publication Critical patent/CN104679868A/zh
Application granted granted Critical
Publication of CN104679868B publication Critical patent/CN104679868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据间关联关系的遗漏数据填补方法,包括以下步骤:S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;S2、找到数据之间关联关系最强的关联规律;S3、根据步骤S2中得到的最强关联规律对数据进行分组;S4、对数据中的遗漏数据进行预填补;S5、进行BP神经网络的设计;S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。本发明利用数据之间的关联关系,通过设计BP神经网络解决了遗漏数据的填补问题,为后期的数据分析提供了高质量的数据,具有简单、高效、精确等优点。

Description

一种基于数据间关联关系的遗漏数据填补方法
技术领域
本发明属于数据预处理技术领域,具体涉及一种基于数据间关联关系的遗漏数据填补方法的设计。
背景技术
当前,由于计算机管理信息系统普遍应用于各行各业,积累的数据量日益增大,为使这些数据发挥其应有的作用,为相关行业的管理决策提供强有力的支持,提高经济和社会效益,由此诞生了数据挖掘、知识发现,其方法技术强调面向应用,因此,其应用效果日渐彰显,越来越受到业内人士的注意和重视。
参与数据挖掘和知识发现的数据质量是挖掘出的知识精确实用的前提,在虚假劣质数据泛滥的数据集上很难发现有用的知识和规则,因此在进行数据挖掘前,对数据进行相关的处理(例如:填补空缺数据项、平滑噪声数据、识别或去除异常数据和解决不一致数据等过程)对于提高数据质量,为随后的数据挖掘、知识发现提供优质的数据,是一个非常必要的步骤,一般称其为数据预处理。
目前,在数据预处理中填补遗漏数据的技术有:1、从相关信息中提取填补空缺值所需数据;2、利用同类别均值填补空缺值;3、利用决策树技术填补空缺值。这些技术在一定程度上解决了遗漏数据填补的问题,然而这些技术都没有很好的利用数据之间的关联关系,为数据分析提供较为精确的数据。
因此,针对上述现有技术在数据预处理中填补遗漏数据方面存在的缺陷,实有必要进行研究,以提供一种基于数据间关联关系的遗漏数据填补方法,用以为后期的数据分析提供高质量的数据。
发明内容
本发明的目的是为了解决现有技术在数据预处理中填补遗漏数据方面不够精确的问题,提出了一种基于数据间关联关系的遗漏数据填补方法。
本发明的技术方案为:一种基于数据间关联关系的遗漏数据填补方法,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
S2、找到数据之间关联关系最强的关联规律;
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
S4、对数据中的遗漏数据进行预填补;
S5、进行BP神经网络的设计;
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
进一步地,步骤S1中的数据是现实社会的信息描述。
进一步地,步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。
进一步地,步骤S5包括以下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,可能改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
进一步地,步骤S54包括以下分步骤:
S541、权值初始化;
S542、给定输入变量和期望输出;
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阀值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
本发明的有益效果是:本发明利用数据之间的关联关系,通过设计BP神经网络解决了遗漏数据的填补问题,为后期的数据分析提供了高质量的数据,具有简单、高效、精确等优点。此外,本发明在设计BP神经网络之前设计了相关算法对遗漏数据进行了预填补,能够得到更好的神经网络模型和更精确的数据。
附图说明
图1为大数据的矩阵示意图。
图2为矩阵中数据遗失示意图。
图3为本发明提供的基于数据间关联关系的遗漏数据填补方法步骤流程图。
图4为本发明实施例的寻找MovieLens评分数据集中最强关联规律的流程图。
图5为本发明实施例的采用slope one算法进行遗漏值的预填补的步骤流程图。
图6为本发明步骤S5的分步骤流程图。
图7为本发明实施例的BP神经网络结构示意图。
图8为本发明步骤S54的分步骤流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
大数据一般采用矩阵的方式表达,如图1所示。其中可能会出现数据遗漏的情况,如图2所示,图中画X的地方表示此值遗失,这些遗失的数据可能包含很多的信息和知识,对数据挖掘和知识发现等会有很大负面影响,因此需要对这些遗失数据进行填补。
本发明提供了一种基于数据间关联关系的遗漏数据填补方法,如图3所示,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
这里的数据是现实社会的信息描述,现实社会总是会存在各种关联现象,那么数据之间也存在或多或少的关联关系,找出这种关系会对遗漏数据的填补提供更多的支持。
S2、找到数据之间关联关系最强的关联规律;
为了找到数据之间关联关系最强的关联规律,需要对数据进行相关性计算,对数据的相关性计算可分为基于属性的相关性计算和基于数据值的相关性计算。
本实施例以MovieLens评分数据集为例,其中包含了不同用户对不同电影的评价。
如图4所示,在对评分数据进行相关性计算时,若采用基于属性的相关性计算,即从进行评分的用户入手,则首先应将所有电影进行分类,比如:喜剧,爱情,悬疑,科幻,悲剧,言情,武术等20种类别,如果某个用户喜爱某类电影,则在该类电影的位置标识为1,否则标识为0。然后任意选取两个用户的评分数据表示如下:
P1={1,0,0,1,0,0,1,1,1,1,0,1,0,0,1,0,1,0,1,1}
P2={0,0,1,1,0,1,0,0,1,1,0,0,1,0,1,0,1,1,0,0}
计算P1,P2的相似性Sum(P1,P2):若两组数据第R位上的值相同(0<R<21,R为整数),则Sum(P1,P2)的值加1,那么上述两组数据的Sum(P1,P2)=10。
找出Sum(P1,P2)值最大的两组数据,即为具有最强关联关系的数据。
若采用基于数据值的相关性计算,即从评分数据入手,则对同一部电影评分相近,说明两者可能存在某种关联关系,将所有电影的评价进行总体分析,如果结果越相近,表明两者关联关系越紧密,具体的计算公式如公式(1)所示:
式中I(u)∩I(v)表示用户u和用户v共同评分的项目集合,Ru,i和Rv,i分别表示用户u和用户v对电影i的评分值,分别表示用户u和用户v的评分均值。
找出Sim(u,v)值最大的两组数据,即为具有最强关联关系的数据。
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
这里根据步骤S2中得到的最强关联规律,将具有最强关联关系的数据分为一组。
S4、对数据中的遗漏数据进行预填补;
经过步骤S3中的分组,已经将具有最强关联关系的数据分为了一组,此时,为了得到更好的神经网络模型,得到更精确的数据,需要对每一组数据中的遗漏数据进行预填补。在本实施例中我们采用改进的简单高效的slope one算法进行遗漏值的预填补,如图5所示,其具体步骤如下:
A1、选定一组需要进行预填补的数据;
A2、对该组数据进行扫描,选择第一个遗漏值点作为预填补点,假设该点为D(a,b);
A3、搜索第a行,如果存在遗漏值的点,则在计算的时候排除该点对结果的影响,并将该点记为空,假设存在不为空的值c个;
A4、搜索第b列,如果存在遗漏值的点,则在计算的时候排除该点对结果的影响,并将该点记为空,假设存在不为空的值d个;
A5、删除各遗漏值的所在行和所在列,建立新的矩阵,假设新的矩阵有e行f列;
A6、根据公式(2)计算平均差值p(a,b):
A7、根据公式(3)计算当前a行的评分值q(a,b):
A8、根据公式(4)计算得到当前遗漏值点的预填补值D(a,b):
D(a,b)=p(a,b)+q(a,b) (4);
A9、重复步骤A1-A8,计算得到该组所有遗漏值点的预填补值;
A10、重复步骤A1-A9,直到所有分组的遗漏值预填补完毕。
S5、进行BP神经网络的设计;
如图6所示,该步骤具体包括如下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,可能改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
构建的BP神经网络结构如图7所示,输入层有n个神经元,隐含层的神经元个数根据具体的情况进行调节,输出层有一个神经元;每个神经元点均使用sigmoid型函数作为激励函数,并用w(k,i)来表示输入层与隐含层之间的连接权系数,而用v(j,k)来表示隐含层与输出层之间的连接权系数。
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
如图8所示,该步骤具体包括如下分步骤:
S541、权值初始化:随机给w(k,i)和v(j,k)赋予一组较小的非零数值;
S542、给定输入变量和期望输出;
假设输入变量为Xk=[Xk1,Xk2,...,Xkn](k=1,2,…,m,m为该神经网络训练集个数)。选择每个训练集的最后一列作为期望输出,设为dk(l)(l为BP神经网络的迭代次数)。
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
在计算神经网络的实际输出时,需要结合输入变量与w(k,i)和v(j,k)进行计算,假设实际输出为Yk(l)=yk(l)(l为BP神经网络的迭代次数),将Yk(l)与dk(l)进行比较。
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阀值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.一种基于数据间关联关系的遗漏数据填补方法,其特征在于,包括以下步骤:
S1、对数据之间的关联关系进行分析,得到数据之间的关联规律;
S2、找到数据之间关联关系最强的关联规律;
S3、根据步骤S2中得到的最强关联规律对数据进行分组;
S4、对数据中的遗漏数据进行预填补;
S5、进行BP神经网络的设计;
S6、循环应用步骤S5中得到的BP神经网络进行数据填补,直到所有的数据填补完成。
2.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S1中的数据是现实社会的信息描述。
3.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S2具体为通过基于属性的相关性计算或者基于数据值的相关性计算找到数据之间关联关系最强的关联规律。
4.根据权利要求1所述的遗漏数据填补方法,其特征在于,所述步骤S5包括以下分步骤:
S51、根据步骤S3中的分组情况,将每组数据中的80%作为训练集,20%作为测试集;
S52、假设训练集共有k列数据,则选择其中一列作为输出,其他作为输入,重复选择k次;
S53、在输入层设计n个神经元,n为步骤S3中分组个数,输出层设计一个神经元;在输入层与输出层之间设计一个隐层,隐层中的初始神经元个数为k-1个,根据实验情况的好坏,改变隐层神经元的个数,以寻找误差最小的神经元个数,以此构建BP神经网络;
S54、确定训练函数对BP神经网络的正向训练与反向学习,不断的缩小误差,最后达到误差很小的状态。
5.根据权利要求4所述的遗漏数据填补方法,其特征在于,所述步骤S54包括以下分步骤:
S541、权值初始化;
S542、给定输入变量和期望输出;
S543、正向训练:根据给定的输入变量计算得到神经网络的实际输出,并将其与期望输出比较,如果存在误差则进入步骤S544,否则结束;
S544、反向学习:计算同一层单元的误差,求出误差梯度,修正权值与阈值,判断误差是否满足要求,若满足要求则结束,否则返回步骤S542。
CN201510098877.3A 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法 Active CN104679868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510098877.3A CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510098877.3A CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Publications (2)

Publication Number Publication Date
CN104679868A CN104679868A (zh) 2015-06-03
CN104679868B true CN104679868B (zh) 2017-09-26

Family

ID=53314910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510098877.3A Active CN104679868B (zh) 2015-03-06 2015-03-06 一种基于数据间关联关系的遗漏数据填补方法

Country Status (1)

Country Link
CN (1) CN104679868B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446125B (zh) * 2016-09-19 2019-12-24 广东中标数据科技股份有限公司 提升数据质量的方法及装置
CN107463628B (zh) * 2017-07-12 2021-05-25 北京京东尚科信息技术有限公司 数据填充方法及其系统
CN109902811B (zh) * 2017-12-11 2020-03-10 中科寒武纪科技股份有限公司 神经网络运算设备和方法
CN109033454A (zh) * 2018-08-27 2018-12-18 广东电网有限责任公司 基于属性相似度的数据填补方法、装置、设备及存储介质
US11550766B2 (en) 2019-08-14 2023-01-10 Oracle International Corporation Data quality using artificial intelligence
CN115169284B (zh) * 2022-09-07 2022-11-29 浙江爱信诺航天信息技术有限公司 基于视觉化分析的凭证信息遗漏填补方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104392400A (zh) * 2014-12-10 2015-03-04 国家电网公司 一种电力营销缺失数据补全方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118610A (zh) * 2007-09-10 2008-02-06 东北大学 稀疏数据过程建模方法
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103246702A (zh) * 2013-04-02 2013-08-14 大连理工大学 一种基于分段形态表示的工业序列数据缺失的填补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104392400A (zh) * 2014-12-10 2015-03-04 国家电网公司 一种电力营销缺失数据补全方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种缺失数据的填补方法;张其文, 李明;《兰州理工大学学报》;20060430(第2006年02期);全文 *

Also Published As

Publication number Publication date
CN104679868A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN104679868B (zh) 一种基于数据间关联关系的遗漏数据填补方法
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN106228185B (zh) 一种基于神经网络的通用图像分类识别系统及方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
EP2164025A1 (en) Detecting device of special shot object and learning device and method thereof
CN113407759B (zh) 一种基于自适应特征融合的多模态实体对齐方法
CN110390561B (zh) 基于动量加速随机梯度下降的用户-金融产品选用倾向高速预测方法和装置
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN109975250B (zh) 一种叶面积指数反演方法及装置
CN103093247B (zh) 一种植物图片的自动分类方法
CN106997484A (zh) 一种优化用户信用模型建模过程的方法及装置
CN110457470A (zh) 一种文本分类模型学习方法及装置
Conde-Clemente et al. New types of computational perceptions: Linguistic descriptions in deforestation analysis
CN110176050B (zh) 文本生成图像的美学优化方法
Nalatissifa et al. Customer decision prediction using deep neural network on telco customer churn data
CN115204967A (zh) 一种融入用户长短期兴趣表征隐式反馈的推荐方法
JP3896868B2 (ja) パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
CN109657779A (zh) 基于dnn的模型数据处理方法、数据处理模型及电子装置
CN110019563A (zh) 一种基于多维数据的肖像建模方法和装置
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN116935057A (zh) 目标评价方法、电子设备和计算机可读存储介质
CN113191450B (zh) 一种基于动态标签调整的弱监督目标检测算法
CN111353525A (zh) 一种不均衡不完整数据集的建模及缺失值填补方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190111

Address after: 610000 8th Floor, 159 East Section, First Ring Road, Chengdu City, Sichuan Province

Patentee after: Chengdu Comsys Information Technology Co., Ltd.

Address before: 610000 Room 5, 8th Floor, 3rd Dake Jiaxiang, Jinjiang District, Chengdu City, Sichuan Province

Patentee before: Sichuan depth information technology Ltd