CN112817954A

CN112817954A - 一种基于多种方法集成学习的缺失值插补方法

Info

Publication number: CN112817954A
Application number: CN202110113055.3A
Authority: CN
Inventors: 胡安民; 吴超然; 李镇
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-18

Abstract

本发明提供一种基于多种方法集成学习的缺失值插补方法，其包括：步骤S1：提取原始数据；步骤S2：筛选部分缺失变量；步骤S3：缺失值的简单插补；步骤S4：缺失值的特征变量筛选；步骤S5：10折交叉验证；步骤S6：缺失值的多重插补；步骤S7‑S8：迭代覆盖原来的简单插补数据；步骤S9：分别预测缺失比例大的变量。本发明运用多种方法进行缺失值的预测，尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息，增加缺失数据预测的准确性和预测的效率。

Description

一种基于多种方法集成学习的缺失值插补方法

技术领域

本发明涉及缺失数据填补领域，特别是一种基于多种方法集成学习的缺失值插补算法。

背景技术

目前大数据相关研究已广泛应用在诸多领域，然后再实际的数据提取过程中常常存在部分数据的缺失。由于目前大多数基于统计方法或机器学习算法构建模型时需要所有数据均完整，因此缺失数据的存在使研究无法顺利进行。一方面如果简单粗暴地剔除缺失数据变量将会遗漏模型相关信息，另一方面如果通过简单的插补直接影响着后期预测模型的准确性。

发明目的：为解决上述技术问题，尽量削弱插补数据对模型带来的潜在不确定性影响同时最大化地利用真实存在的残缺的变量信息，增加缺失数据预测的准确性和预测的效率，本发明提供一种基于多种方法集成学习后的缺失数据填补算法。

鉴于上述缺陷，本发明创作者经过长时间的研究和时间终于获得了本发明。

发明内容

为实现上述技术效果，本发明提出的技术方案为：一种基于多种方法集成学习后的缺失值插补方法，该算法包括步骤：

步骤S1：提取原始数据，将其标记为全特征数据集。

步骤S2：识别全特征数据集中的缺失值变量(分类变量或连续性变量)，将所有缺失值变量记录为变量集1，将缺失值小于或等于50％的变量记录为变量集2，将缺失值超过50％的变量记录为变量集3。剔除全特征数据集中缺失值超过50％的缺失值变量，识别缺失值变量并记录为数据集1。

步骤S3：依次对数据集1中存在缺失值的分类变量进行随机变量插补，连续性变量进行均值插补，并标记为数据集2。

步骤S4：基于数据集2中的简单插补数据，选择数据集1中的N个缺失变量利用随机森林(Random Forest,RF)算法进行特征变量筛选，并分别记录为N个特征变量数据集(1,2,...,N)。

步骤S5：对N个特征变量数据集依次通过10折交叉验证标记数据，并依次记录为N个模型集。

步骤S6：对N个模型集基于编号依次分为10个训练集和测试集，依次对训练集进行多种方法的建模后通过测试集验证，其算法包括：数值型变量首先计算95％置信区间，然后通过多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法依次构建模型预测缺失值，接着剔除预测值中超过95％置信区间的潜在异常值，最终缺失值的预测值为剩余模型预测值的均值；分类变量首先分别基于K最近邻(K-Nearest Neighbors,KNN)算法、支持向量机(Support Vector Machines,SVM)算法、随机森林(Random Forest,RF)算法、极限剔除提升(eXtreme Gradient Boosting,xgboost)算法和深度神经网络(Deep Neural Network,DNN)算法对缺失值进行分类预测，然后剔除ROC曲线下面积(AreaUnder Curve,AUC)小于0.7的模型，最后基于剩余模型预测值再次通过RF集成学习后得到最终缺失值的预测值。

步骤S7：基于步骤S6中的N个插补模型，依次对数据集2中的缺失值变量进行多种插补后合并数据集，并记录为多重插补数据集1。

步骤S8：基于多重插补数据集1，重复步骤S4-S7两次，得到迭代的多重插补数据集2和多重插补数据3。

步骤S9：依次提取X个变量集3中的缺失值变量，基于多重插补数据集3，重复步骤S4-S7，得到完整的插补数据集。

本发明提供的一种基于统计学方法和机器学习方法集成学习的缺失值插补方法，首先剔除了缺失值过多的变量，先对所有缺失值简单插补后，然后依次筛选特征变量，接着多种插补后迭代简单插补，最后实现所有缺失值变量的预测。

与现有技术先比，本技术更好地利用了原始的真实数据，更能削弱了缺失值对模型预测性能的干扰，

附图说明

为了更清楚地说明本发明各实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明的一种基于多种方法集合的缺失值插补方法流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

随机森林(Random Forest,RF)指的是利用多棵决策树对样本进行训练并预测的一种分类，其中每一棵决策树之间是没有关联的。随机森林通过随机有放回地选择训练数据然后构造分类器，最后组合学习得到模型来增加整体的效果。随机森林通过整体计算每个特征的重要性并进行降序排序，然后依据特征重要性剔除部分特征，得到一个新的特征集后，接着再次进行重要性排序和剔除部分特征，如此反复迭代；最终根据得到的不同的特征集及其对应的袋外误差率。因变量的特征就是在最低的袋外误差率对应的特征集中。

如图1所示，为本发明提供的一种基于多种方法集成学习后的缺失值插补方法的流程图，该方法包括以下步骤:

步骤S1-S2：提取原始数据，并分类整理含有缺失值的变量。

步骤S3：对含有部分缺失值的变量进行简单插补。这样为下一步的特征变量筛选提供足够多的数据样本。

步骤S4：对缺失变量进行前期基于RF算法的特征变量筛选。

步骤S5：建立交叉验证数据集。这样为分类变量的多重插补时筛选出预测性能好的模型便于后续的集成学习。

步骤S6：基于不同的统计学模型和机器学习算法构建缺失值的预测模型，并剔除潜在的异常值。数值型变量的预测方法包括：多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法。分类变量的预测方法包括：KNN算法、SVM算法、RF算法、xgboost算法和DNN算法。数值型变量的预测剔除了预测值置信区间95％以外的潜在异常值，然后取模型的均值；分类变量采用多种方法的集成学习后的预测值。

由于不同数据可能具备不同的特点，为了更加的精确地预测变量值，采用不同统计学方法和计算机算法预测能更加贴合实际的应用。

步骤S7：通过预测模型值对

基于步骤S6中的N个插补模型，依次对数据集2中的缺失值变量进行多种插补后合并数据集，并记录为多重插补数据集1。

步骤S8：通过再次迭代预测进行变量预测，形成的多重插补数据集更准确。

步骤S9：对缺失值比例较大的变量进行变量预测。

本发明提供的一种基于多种方法整合后的缺失值插补方法，先对部分缺失值变量进行简单插补，然后筛选特征变量，基于特征变量数据构建不同方法的预测模型预测缺失值，最后依次对缺失值较多的变量进行分别预测。

运用本发明提供的多重插补方法得到的插补数据集误差更小，预测效率更高，同时解决人为主观的选择缺失值插补方法的不足，比较客观有效地插补缺失值。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其他各种相应的改变以及形变，而所有的这些改变以及形变都应该属于发明权利要求的保护范围之内。

Claims

1.一种基于多种方法集成学习的缺失值插补方法，其特征在于，该方法主要包括以下步骤：

(1)缺失值变量识别；

(2)缺失值的简单插补；

(3)特征变量的筛选；

(4)多重插补并迭代原来简单插补的数据。

2.根据权利要求1所述的一种基于多种方法集成学习的缺失值插补方法，其特征在于，还包括：数值型变量采用多元线性回归、主成分分析回归、偏最小二乘回归、随机森林算法、xgboost算法；分类变量包括K最近邻算法、支持向量机算法、随机森林算法、极限剔除提升算法和深度神经网络算法。

3.根据权利要求2所述的一种基于多种方法集成学习的缺失值插补方法，其特征在于，还包括：数值型变量预测时剔除超过预测95％置信区间的预测值，分类变量预测时剔除ROC曲线下面积小于0.7的模型。