CN108197080A - 一种基于多种算法融合的缺失值插补方法 - Google Patents
一种基于多种算法融合的缺失值插补方法 Download PDFInfo
- Publication number
- CN108197080A CN108197080A CN201611123384.1A CN201611123384A CN108197080A CN 108197080 A CN108197080 A CN 108197080A CN 201611123384 A CN201611123384 A CN 201611123384A CN 108197080 A CN108197080 A CN 108197080A
- Authority
- CN
- China
- Prior art keywords
- missing values
- data
- interpolating method
- test set
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Abstract
本发明提供一种基于多种算法融合的缺失值插补方法,其包括:步骤S1:对所有数据进行层次聚类;步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;步骤S3:将完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;步骤S4:运用得到的样本集训练神经网络得出神经网络模型;步骤S5:运用神经网络模型对含有缺失值的类进行插补,得出最后的插补值;步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;步骤S7:结束。本发明运用现有多种方法得出的缺失值,解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于多种算法融合的缺失值插补方法。
背景技术
在许多需要收集数据的研究中,数据缺失是很常见的,缺失原因多种多样,主要有机械原因和人为原因。前者是由于机械原因导致的数据的收集或者保存失败,如数据存储的失败,存储器损坏等;后者是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,如在问卷调查中被访人员拒绝透露有关问题的答案,或者回答的问题是无效的,录入人员失误漏录了数据。在调查前,做好规划,对一些重要的数据注重避免数据缺失是极有必要的,但对于已经缺失的数据,为了充分利用进行研究,寻找适合的插补方法对缺失值进行插补显得尤为重要。现阶段,已经出现的缺失值的插补方法有:均值替换法、热卡填充法、回归替换法、多重替代法等。在对数据的分布和缺失情况没有较为全面的了解时,无法得知哪种方法对缺失值的插补效果较好,此时,人们往往根据以往经验或者随意在众多的插补方法中选择一种进行插补,对缺失值插补的合理性难以掌控,尤其是对于一些较为关键的变量,用不同的插补方法得出的插补值可能相差甚远,进而得到的结果和研究结论可能会完全不同。由此,运用一种合理的插补方法是至关重要的,若是将各种插补方法的融合起来,进而得到插补值,是一种不错的想法。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供了一种基于多种算法融合的缺失值插补方法,该方法包括以下步骤:
步骤S1:对所有数据进行层次聚类;
步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;
步骤S3:将所述完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;
步骤S4:运用得到的样本集训练神经网络得出神经网络模型;
步骤S5:运用所述神经网络模型对含有缺失值的类进行插补,得出最后的插补值;
步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;
步骤S7:结束。
较佳的,所述步骤S3具体包括以下步骤:
步骤S31:在所述完全数据组中随机挑选一定数量记录作为训练集,挑选一定数量的记录作为测试集,其中,测试集的数据条数小于训练集的数据条数;
步骤S32:运用n种现有插补方法结合训练集得出n个模型,用模型预测测试集,得出测试集的预测值,将不同方法得出的预测值和真实值记为一个样本;
步骤S33:重复步骤S32,得出一定数量的样本集。
与现有技术相比,本发明提供的一种基于多种算法融合的缺失值插补方法,先对所有数据进行层次聚类,一定程度上保证了相似性较大的完整数据和缺失数据聚集在一起进行分析,更加合理以及便于构造适合缺失值插补的模型。此外,运用现有的多种方法得出的缺失值,结合神经网络给予一定的权重,进而得到的缺失值会更稳定,误差更小,且与直接将原有数据进行神经网络训练相比,减少了神经网络训练的变量数,提高效率且保证插补值的准确性和合理性,解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于多种算法融合的缺失值插补方法的流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
人工神经网络(ANNs),简称神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂度通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
如图1所示,为本发明提供的一种基于多种算法融合的缺失值插补方法的流程图,该方法包括以下步骤:
步骤S1:对所有数据进行层次聚类。
这样能够在一定程度上保证同类型的完整数据和缺失数据聚到一起进行分析,更加合理以及便于构造适合缺失值插补的模型。
步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组m2和完全数据组m1。
步骤S3:将完全数据组m1中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集。
具体的,包括以下步骤:
步骤S31:在完全数据组m1中随机挑选一定数量记录作为训练集,挑选一定数量的记录作为测试集,其中,测试集的数据条数远小于训练集的数据条数。
步骤S32:运用n种现有插补方法结合训练集得出n个模型H1,H2,…,Hn,然后用模型预测测试集,得出测试集的预测值xij,j=1,…,n,将不同方法得出的预测值和真实值记为一个样本Xi=(xi1,xi2,…,xin,yi),其中yi为测试集的真实值。n种现有插补方法包括:均值替换法、热卡填充法、回归替换法和多重替代法。
步骤S33:重复步骤S32,得出一定数量的样本集X=(X1,X2,…,Xg)。
步骤S4:运用得到的样本集X=(X1,X2,…,Xg)训练神经网络得出神经网络模型。
步骤S5:运用神经网络模型对含有缺失值的类进行插补,得出最后的插补值。
步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7。
步骤S7:结束。
以插补随机生成的带有缺失值的正态分布数据集为例。不妨假定只有一个变量含有缺失值,称为缺失值变量,首先将所有数据进行层次聚类,然后针对有缺失值的类,在完整数据中随机抽取一些作为训练集其余作为测试集,然后结合训练集采用均值替换法、热卡填充法、回归替换法、多重替代法对测试集中的缺失值变量进行预测,由此测试集中每个样本都得出4个预测值,与真实值构成一个含有5个变量的样本,不断重复改变训练集和测试集,得到足够多的含有5个变量的样本,然后用样本集训练神经网络做回归得出神经网络模型,最后,处理原数据中该类的缺失值,运用上述4种方法预测缺失值,将该4个值作为神经网络模型的解释变量,预测出的结果即为插补的最后值。
本发明提供的一种基于多种算法融合的缺失值插补方法,先对所有数据进行层次聚类,一定程度上保证了相似性较大的完整数据和缺失数据聚集在一起进行分析,更加合理以及便于构造适合缺失值插补的模型。此外,运用现有的多种方法得出的缺失值,结合神经网络给予一定的权重,进而得到的缺失值会更稳定,误差更小,且与直接将原有数据进行神经网络训练相比,减少了神经网络训练的变量数,提高效率且保证插补值的准确性和合理性,解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (2)
1.一种基于多种算法融合的缺失值插补方法,其特征在于,该方法包括以下步骤:
步骤S1:对所有数据进行层次聚类;
步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;
步骤S3:将所述完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;
步骤S4:运用得到的样本集训练神经网络得出神经网络模型;
步骤S5:运用所述神经网络模型对含有缺失值的类进行插补,得出最后的插补值;
步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;
步骤S7:结束。
2.根据权利要求1所述的基于多种算法融合的缺失值插补方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:在所述完全数据组中随机挑选一定数量记录作为训练集,挑选一定数量的记录作为测试集,其中,测试集的数据条数小于训练集的数据条数;
步骤S32:运用n种现有插补方法结合训练集得出n个模型,用模型预测测试集,得出测试集的预测值,将不同方法得出的预测值和真实值记为一个样本;
步骤S33:重复步骤S32,得出一定数量的样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611123384.1A CN108197080A (zh) | 2016-12-08 | 2016-12-08 | 一种基于多种算法融合的缺失值插补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611123384.1A CN108197080A (zh) | 2016-12-08 | 2016-12-08 | 一种基于多种算法融合的缺失值插补方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108197080A true CN108197080A (zh) | 2018-06-22 |
Family
ID=62572727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611123384.1A Pending CN108197080A (zh) | 2016-12-08 | 2016-12-08 | 一种基于多种算法融合的缺失值插补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197080A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446185A (zh) * | 2018-08-29 | 2019-03-08 | 广西大学 | 基于用户聚类的协同过滤缺失数据处理方法 |
CN110456026A (zh) * | 2019-08-13 | 2019-11-15 | 北京农业信息技术研究中心 | 一种土壤墒情监测方法及装置 |
CN111401553A (zh) * | 2020-03-12 | 2020-07-10 | 南京航空航天大学 | 一种基于神经网络的缺失数据填充方法及系统 |
CN111694827A (zh) * | 2020-05-31 | 2020-09-22 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN111737463A (zh) * | 2020-06-04 | 2020-10-02 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机程序 |
CN112364910A (zh) * | 2020-11-05 | 2021-02-12 | 长安大学 | 基于峰值聚类高速公路收费数据异常事件检测方法及装置 |
-
2016
- 2016-12-08 CN CN201611123384.1A patent/CN108197080A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446185A (zh) * | 2018-08-29 | 2019-03-08 | 广西大学 | 基于用户聚类的协同过滤缺失数据处理方法 |
CN109446185B (zh) * | 2018-08-29 | 2021-07-13 | 广西大学 | 基于用户聚类的协同过滤缺失数据处理方法 |
CN110456026A (zh) * | 2019-08-13 | 2019-11-15 | 北京农业信息技术研究中心 | 一种土壤墒情监测方法及装置 |
CN111401553A (zh) * | 2020-03-12 | 2020-07-10 | 南京航空航天大学 | 一种基于神经网络的缺失数据填充方法及系统 |
CN111694827A (zh) * | 2020-05-31 | 2020-09-22 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN111694827B (zh) * | 2020-05-31 | 2023-04-07 | 重庆大学 | 一种电力设备状态监测数据缺失值分类插补方法和系统 |
CN111737463A (zh) * | 2020-06-04 | 2020-10-02 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机程序 |
CN111737463B (zh) * | 2020-06-04 | 2024-02-09 | 江苏名通信息科技有限公司 | 大数据缺失值填充方法、装置和计算机可读存储器 |
CN112364910A (zh) * | 2020-11-05 | 2021-02-12 | 长安大学 | 基于峰值聚类高速公路收费数据异常事件检测方法及装置 |
CN112364910B (zh) * | 2020-11-05 | 2022-10-28 | 长安大学 | 基于峰值聚类高速公路收费数据异常事件检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197080A (zh) | 一种基于多种算法融合的缺失值插补方法 | |
Nan et al. | Unifying the role of IT in hyperturbulence and competitive advantage via a multilevel perspective of IS strategy | |
CN106326585B (zh) | 基于贝叶斯网络推理的预测分析方法以及装置 | |
Hsu et al. | A new hybrid case-based architecture for medical diagnosis | |
O’Malley | When integration fails: Prokaryote phylogeny and the tree of life | |
Dormann et al. | Package ‘bipartite’ | |
CN108416535A (zh) | 基于深度学习的专利价值评估的方法 | |
Minku et al. | How to make best use of cross-company data for web effort estimation? | |
Intisar et al. | Classification of online judge programmers based on rule extraction from self organizing feature map | |
CN105991401A (zh) | 一种网络问答方法和系统 | |
Li et al. | Discovering and ranking important rules | |
CN113486586B (zh) | 设备健康状态评估方法、装置、计算机设备及存储介质 | |
US20220284315A1 (en) | Apparatus and system for training knowledge tracking model based on data augmentation and operation method thereof | |
Zhou et al. | Incorporating external data into the analysis of clinical trials via Bayesian additive regression trees | |
CN109039698A (zh) | 工业互联网智能服务处理方法、可读存储介质、终端 | |
Ho et al. | Discovering communities of users on social networks based on topic model combined with Kohonen network | |
CN113313615A (zh) | 一种对企业司法风险进行量化评分定级的方法及装置 | |
Doshi et al. | Graphical models for online solutions to interactive pomdps | |
Peng et al. | A hybrid particle swarm optimizer for curriculum sequencing problem | |
Mejtoft et al. | Creative Capabilities of Machine Learning: Evaluating music created by algorithms | |
Petkov | Visualising the Topological Structure of Health-Related Message Board User Networks | |
Simpson et al. | Entropy metrics for system identification and analysis | |
Doctor et al. | A fuzzy based agent for group decision support of applicants ranking within recruitment systems | |
CN114826967B (zh) | 一种信息共享能力评估方法及装置 | |
CN117408342B (zh) | 基于神经元尖峰序列数据的神经元网络推断方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180622 |
|
RJ01 | Rejection of invention patent application after publication |