CN112817954A - 一种基于多种方法集成学习的缺失值插补方法 - Google Patents
一种基于多种方法集成学习的缺失值插补方法 Download PDFInfo
- Publication number
- CN112817954A CN112817954A CN202110113055.3A CN202110113055A CN112817954A CN 112817954 A CN112817954 A CN 112817954A CN 202110113055 A CN202110113055 A CN 202110113055A CN 112817954 A CN112817954 A CN 112817954A
- Authority
- CN
- China
- Prior art keywords
- missing
- algorithm
- variables
- interpolation
- missing value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000007637 random forest analysis Methods 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000002790 cross-validation Methods 0.000 abstract description 3
- 238000012217 deletion Methods 0.000 abstract 2
- 230000037430 deletion Effects 0.000 abstract 2
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种基于多种方法集成学习的缺失值插补方法,其包括:步骤S1:提取原始数据;步骤S2:筛选部分缺失变量;步骤S3:缺失值的简单插补;步骤S4:缺失值的特征变量筛选;步骤S5:10折交叉验证;步骤S6:缺失值的多重插补;步骤S7‑S8:迭代覆盖原来的简单插补数据;步骤S9:分别预测缺失比例大的变量。本发明运用多种方法进行缺失值的预测,尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息,增加缺失数据预测的准确性和预测的效率。
Description
技术领域
本发明涉及缺失数据填补领域,特别是一种基于多种方法集成学习的缺失值插补算法。
背景技术
目前大数据相关研究已广泛应用在诸多领域,然后再实际的数据提取过程中常常存在部分数据的缺失。由于目前大多数基于统计方法或机器学习算法构建模型时需要所有数据均完整,因此缺失数据的存在使研究无法顺利进行。一方面如果简单粗暴地剔除缺失数据变量将会遗漏模型相关信息,另一方面如果通过简单的插补直接影响着后期预测模型的准确性。
发明目的:为解决上述技术问题,尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息,增加缺失数据预测的准确性和预测的效率,本发明提供一种基于多种方法集成学习后的缺失数据填补算法。
鉴于上述缺陷,本发明创作者经过长时间的研究和时间终于获得了本发明。
发明内容
为实现上述技术效果,本发明提出的技术方案为:一种基于多种方法集成学习后的缺失值插补方法,该算法包括步骤:
步骤S1:提取原始数据,将其标记为全特征数据集。
步骤S2:识别全特征数据集中的缺失值变量(分类变量或连续性变量),将所有缺失值变量记录为变量集1,将缺失值小于或等于50%的变量记录为变量集2,将缺失值超过50%的变量记录为变量集3。剔除全特征数据集中缺失值超过50%的缺失值变量,识别缺失值变量并记录为数据集1。
步骤S3:依次对数据集1中存在缺失值的分类变量进行随机变量插补,连续性变量进行均值插补,并标记为数据集2。
步骤S4:基于数据集2中的简单插补数据,选择数据集1中的N个缺失变量利用随机森林(Random Forest,RF)算法进行特征变量筛选,并分别记录为N个特征变量数据集(1,2,...,N)。
步骤S5:对N个特征变量数据集依次通过10折交叉验证标记数据,并依次记录为N个模型集。
步骤S6:对N个模型集基于编号依次分为10个训练集和测试集,依次对训练集进行多种方法的建模后通过测试集验证,其算法包括:数值型变量首先计算95%置信区间,然后通过多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法依次构建模型预测缺失值,接着剔除预测值中超过95%置信区间的潜在异常值,最终缺失值的预测值为剩余模型预测值的均值;分类变量首先分别基于K最近邻(K-Nearest Neighbors,KNN)算法、支持向量机(Support Vector Machines,SVM)算法、随机森林(Random Forest,RF)算法、极限剔除提升(eXtreme Gradient Boosting,xgboost)算法和深度神经网络(Deep Neural Network,DNN)算法对缺失值进行分类预测,然后剔除ROC曲线下面积(AreaUnder Curve,AUC)小于0.7的模型,最后基于剩余模型预测值再次通过RF集成学习后得到最终缺失值的预测值。
步骤S7:基于步骤S6中的N个插补模型,依次对数据集2中的缺失值变量进行多种插补后合并数据集,并记录为多重插补数据集1。
步骤S8:基于多重插补数据集1,重复步骤S4-S7两次,得到迭代的多重插补数据集2和多重插补数据3。
步骤S9:依次提取X个变量集3中的缺失值变量,基于多重插补数据集3,重复步骤S4-S7,得到完整的插补数据集。
本发明提供的一种基于统计学方法和机器学习方法集成学习的缺失值插补方法,首先剔除了缺失值过多的变量,先对所有缺失值简单插补后,然后依次筛选特征变量,接着多种插补后迭代简单插补,最后实现所有缺失值变量的预测。
与现有技术先比,本技术更好地利用了原始的真实数据,更能削弱了缺失值对模型预测性能的干扰,
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于多种方法集合的缺失值插补方法流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
随机森林(Random Forest,RF)指的是利用多棵决策树对样本进行训练并预测的一种分类,其中每一棵决策树之间是没有关联的。随机森林通过随机有放回地选择训练数据然后构造分类器,最后组合学习得到模型来增加整体的效果。随机森林通过整体计算每个特征的重要性并进行降序排序,然后依据特征重要性剔除部分特征,得到一个新的特征集后,接着再次进行重要性排序和剔除部分特征,如此反复迭代;最终根据得到的不同的特征集及其对应的袋外误差率。因变量的特征就是在最低的袋外误差率对应的特征集中。
如图1所示,为本发明提供的一种基于多种方法集成学习后的缺失值插补方法的流程图,该方法包括以下步骤:
步骤S1-S2:提取原始数据,并分类整理含有缺失值的变量。
步骤S3:对含有部分缺失值的变量进行简单插补。这样为下一步的特征变量筛选提供足够多的数据样本。
步骤S4:对缺失变量进行前期基于RF算法的特征变量筛选。
步骤S5:建立交叉验证数据集。这样为分类变量的多重插补时筛选出预测性能好的模型便于后续的集成学习。
步骤S6:基于不同的统计学模型和机器学习算法构建缺失值的预测模型,并剔除潜在的异常值。数值型变量的预测方法包括:多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法。分类变量的预测方法包括:KNN算法、SVM算法、RF算法、xgboost算法和DNN算法。数值型变量的预测剔除了预测值置信区间95%以外的潜在异常值,然后取模型的均值;分类变量采用多种方法的集成学习后的预测值。
由于不同数据可能具备不同的特点,为了更加的精确地预测变量值,采用不同统计学方法和计算机算法预测能更加贴合实际的应用。
步骤S7:通过预测模型值对
基于步骤S6中的N个插补模型,依次对数据集2中的缺失值变量进行多种插补后合并数据集,并记录为多重插补数据集1。
步骤S8:通过再次迭代预测进行变量预测,形成的多重插补数据集更准确。
步骤S9:对缺失值比例较大的变量进行变量预测。
本发明提供的一种基于多种方法整合后的缺失值插补方法,先对部分缺失值变量进行简单插补,然后筛选特征变量,基于特征变量数据构建不同方法的预测模型预测缺失值,最后依次对缺失值较多的变量进行分别预测。
运用本发明提供的多重插补方法得到的插补数据集误差更小,预测效率更高,同时解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其他各种相应的改变以及形变,而所有的这些改变以及形变都应该属于发明权利要求的保护范围之内。
Claims (3)
1.一种基于多种方法集成学习的缺失值插补方法,其特征在于,该方法主要包括以下步骤:
(1)缺失值变量识别;
(2)缺失值的简单插补;
(3)特征变量的筛选;
(4)多重插补并迭代原来简单插补的数据。
2.根据权利要求1所述的一种基于多种方法集成学习的缺失值插补方法,其特征在于,还包括:数值型变量采用多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法;分类变量包括K最近邻算法、支持向量机算法、随机森林算法、极限剔除提升算法和深度神经网络算法。
3.根据权利要求2所述的一种基于多种方法集成学习的缺失值插补方法,其特征在于,还包括:数值型变量预测时剔除超过预测95%置信区间的预测值,分类变量预测时剔除ROC曲线下面积小于0.7的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113055.3A CN112817954A (zh) | 2021-01-27 | 2021-01-27 | 一种基于多种方法集成学习的缺失值插补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110113055.3A CN112817954A (zh) | 2021-01-27 | 2021-01-27 | 一种基于多种方法集成学习的缺失值插补方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112817954A true CN112817954A (zh) | 2021-05-18 |
Family
ID=75859742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110113055.3A Pending CN112817954A (zh) | 2021-01-27 | 2021-01-27 | 一种基于多种方法集成学习的缺失值插补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112817954A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515896A (zh) * | 2021-08-06 | 2021-10-19 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN114611706A (zh) * | 2022-02-21 | 2022-06-10 | 河南大学 | 基于Stacking多模型融合设计的空气污染物缺失值补充方法 |
CN116012334A (zh) * | 2023-01-04 | 2023-04-25 | 南京大学 | 一种领域知识约束的建设用地非监督变化检测方法 |
-
2021
- 2021-01-27 CN CN202110113055.3A patent/CN112817954A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515896A (zh) * | 2021-08-06 | 2021-10-19 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN113515896B (zh) * | 2021-08-06 | 2022-08-09 | 红云红河烟草(集团)有限责任公司 | 用于卷烟实时数采的数据缺失值填充方法 |
CN114611706A (zh) * | 2022-02-21 | 2022-06-10 | 河南大学 | 基于Stacking多模型融合设计的空气污染物缺失值补充方法 |
CN116012334A (zh) * | 2023-01-04 | 2023-04-25 | 南京大学 | 一种领域知识约束的建设用地非监督变化检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833172A (zh) | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 | |
CN110213222B (zh) | 基于机器学习的网络入侵检测方法 | |
CN112817954A (zh) | 一种基于多种方法集成学习的缺失值插补方法 | |
US20230300159A1 (en) | Network traffic anomaly detection method and apparatus, and electronic apparatus and storage medium | |
CN111414942A (zh) | 一种基于主动学习和卷积神经网络的遥感图像分类方法 | |
CN109684673B (zh) | 一种电力系统暂态稳定结果的特征提取和聚类分析方法 | |
CN115021679B (zh) | 一种基于多维离群点检测的光伏设备故障检测方法 | |
CN109446804B (zh) | 一种基于多尺度特征连接卷积神经网络的入侵检测方法 | |
CN108197647B (zh) | 一种汽车起动机耐久测试数据的快速聚类方法 | |
CN114386514B (zh) | 基于动态网络环境下的未知流量数据识别方法及装置 | |
CN112199670B (zh) | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 | |
CN109145685B (zh) | 基于集成学习的果蔬高光谱品质检测方法 | |
CN112836735B (zh) | 一种优化的随机森林处理不平衡数据集的方法 | |
CN103780588A (zh) | 数字家庭网络中用户异常行为检测方法 | |
CN116400168A (zh) | 一种基于深度特征聚类的电网故障诊断方法及系统 | |
CN108805295A (zh) | 一种基于决策树算法的故障诊断方法 | |
CN110837874A (zh) | 基于时间序列分类的业务数据异常检测方法 | |
CN111275136A (zh) | 基于小样本下的故障预测系统及其预警方法 | |
CN114301719B (zh) | 一种基于变分自编码器的恶意更新检测方法及系统 | |
CN117349786B (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
CN113241117B (zh) | 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法 | |
JP2024070250A (ja) | ネットワークログデータの欠測値処理およびこれを通じての通信欠陥の根本分類方法 | |
CN112651424A (zh) | 基于lle降维和混沌算法优化的gis绝缘缺陷识别方法及系统 | |
CN110191081A (zh) | 基于学习自动机的网络流量攻击检测的特征筛选系统及方法 | |
CN117520741A (zh) | 一种基于大数据的半导体厂良率预测与提升的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210518 |