CN114595213A

CN114595213A - 一种关于土壤数据集的多重插补方法

Info

Publication number: CN114595213A
Application number: CN202210200658.1A
Authority: CN
Inventors: 程小辉; 张皓然
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-07

Abstract

本发明提供了一种基于改进的K近邻多重土壤无机盐占比数据集插补方法。缺失值大量存在于现实数据库中，这不仅严重影响了信息查询的质量，还会扭曲数据挖掘与数据分析的结果，进而误导工作人员决策。解决这一问题的最佳方法是预先填充这些丢失的数据。多重插补已被证明是处理数据缺失问题和解决插补不确定性的有效策略，在处理高维数据的情况下，数据的缺失会引发更严重的问题。在这种情况下，本发明提供了一种基于改进的K近邻多重插补方法，通过使用目标和候选预测因子之间的相关信息来计算距离，由于只有相关的预测因子有助于计算距离，该方法也适用于高维数据缺失的情况下。

Description

一种关于土壤数据集的多重插补方法

技术领域

本发明涉及大数据数据集填补领域，具体为一种基于改进的K近邻多重插补方法。

背景技术

随着信息时代的发展，大数据逐渐渗透到各个行业当中，由于存储设备损坏，数据录取违反规则或者数据采集不规范，数据采集设备能力限制等问题多种主客观原因造成数据缺失，对于缺失值，数据库中的数据存在不同程度的缺失，降低了数据的可用性。同时，现有的数据分析工具大多是基于完整数据集提出的，无法直接处理含有缺失数据的不完整数据集，传统的处理方法就是仅保留完整的记录用于分析查询，直接丢弃缺失数据简单易行，但当缺失数据比例较大时，此方法会造成原始数据失真，损害推理能力，大量信息的丢失会使数据分布产生偏斜并误导数据分析结论。因此，对缺失数据进行填充是一种更合理且非常必要的方法，对缺失值进行填充，尽可能恢复丢失信息。

(1)K近邻插补(K nearest neighbor imputation,KNNNI)

K近邻插补是Olga Troyanskaya提出的一种基于数据局部相似性的填充算法。KNNI的基本思想是，对于含缺失值的样本，其缺失的数据可参考与它最类似的K个样本。具体地说，KNNI将数据集划分为两个集合，一个集合包含所有的完全样本(即不含缺失值的样本)，另外一个集合包含所有的不完全样本(即存在缺失值的样本)。对于每个不完全样本，求其在完全样本集中的K近邻，对于缺失值是分类属性，则填充K近邻样本该属性值的众数；对于缺失值是数值属性的，则填充K近邻样本该属性值的平均数。由于不完全样本的缺失值是根据“相邻”样本求得，因此KNNI算法不会增加过多的新样本信息。

K近邻插补算法是通过计算缺失数据样本与完整数据样本之间的欧氏距离，选出距离最小的k个样本作为缺失样本的最近邻，再通过距离的反比加权平均而得到缺少数据的填充值，K近邻插补算法具体步骤如下：

(i)初始化数据矩阵X_m×n，m为样本数量，n为属性维度；

(ii)计算每个缺失样本与完整样本之间的欧式距离d

(iii)从完整样本中选出最小的k个距离作为缺失数据的k个近邻；

(iv)计算k个近邻的权值ω_i，

(v)用k个近邻属性值乘以相应权重，得到填充值

(2)多重插补方法

插补法是对缺失数据的填充方法，目前，已经有了许多填补缺失值的方法，它们可以大致分为两支：单一插补和多重插补。在单一插补中，每个缺失的值被一个值替代。在对完整的数据统计分析中，估算值被视为真实值，就像实际观察检测到的一样。单一插补方法有均值替代法、回归插补法、K最近邻插补法等，单一插补不考虑插补过程中造成的不确定性。但如果缺失的数据超出了完全随机缺失的范围，则通过单一插补获得的数据就不再那么准确了。而多重插补弥补了单一插补的这一缺点，考虑了缺失数据的不确定性，提出了处理缺失数据的另一种有用的策略。美国哈佛大学统计学系的Rubin教授70年代末首先提出多重插补的思想。它是给每个缺失值都构造m个插补值(m>1),这样就产生出m个完全数据集，对每个完全数据集分别使用相同的方法进行处理，再综合处理结果，最终得到对目标变量的估计。由于多重插补的灵活性及其在各种缺失数据场景中的适应性，它是数据分析师的首选。多重插补为数据中的每个缺失值生成了一个似是而非的值。多重插补的插补过程包括以下三个阶段：

(1)插补，即对数据的每个缺失值进行插补数M≥2次，这个阶段产生了M个数据集。

(2)分析，即使用完整数据的标准统计技术独立分析每个完整的插补数据集。

(3)池化，即将M个分析的估计合并为一组参数估计。在合并估计值时，需要考虑缺失数据的不确定性和抽样的不确定性。

发明内容

缺失值问题是数据分析研究中的一个主要问题，由于完整的数据分析丢失了有用的信息，估算和推理也有可能受到严重的影响。而多重插补是公认的处理缺失数据问题的有效方法，考虑到在土壤数据集存在高维数据(p＞＞n)的情况下，缺失值会引发更严重的问题。本文提出了一种基于最近邻的多重插补方法，通过使用目标和候选预测因子之间的相关信息来计算距离，因此只有相关的预测因子有助于计算距离。

设矩阵X＝(x_is)是一个n*p的数据矩阵，由p个协变量上的n个观测值组成，其中x是第s个变量的第i个观测值。令O＝(o_is)表示相应的n*p矩阵，如下所示：

观测向量x_i是数据矩阵中的第i行，计算观测值x_i和x_j之间的距离，计算距离公式如下：

其中I(.)表示指标函数，

表示距离计算中有效分量的数量。根据上述公式进行优化，得到如下公式：

其中r_sl为协变量，s，l和C(.)是定义在区间[-1，1]上的凸函数，它将相关度转化为权重，并由选定的协变量来计算观测值之间的距离。其中第s个协变量具有更高的相关性，当值为s时，协变量取得最优解。如果|r_sl|>c，则绝对相关的线性函数为

当|r_sl|≤c时，协变量s对距离没有影响。另一个线性函数为C(r_sl)＝|r_sl|^m。函数C(r_sl)＝|r_sl|^m中的幂m和线性函数中的c是调整参数，通过交叉验证进行选择。

基于由公式(3)计算的距离，观测值按升序进行排列为X₍₁₎，...，X_(k)和d(X_i，X₍₁₎)≤...d(X_i，X_(k))，其中

表示第j个最近的相邻观测值。

其中x_is的估值公式如下：

其中W(.)重力因子公式为：

其中k(.)为内核函数，k为调整参数。

本发明的技术方案为：

基于顺序输入缺失值，使用基于改进的K近邻多重插补方法进行一次估算一个缺失值。在估算一个缺失值后，可以认为获得了一个更新的矩阵，用于估算下一个缺失值。因此每个估算值的价值都有助于其他估值的计算。对于每个数据集，随机选择要估算的第一个值，因此可以获得不同的估算数据集。技术方案流程如下：

步骤1：使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X，获得参数k和m；

步骤2：在数据矩阵X中随机选择一个缺失值，即x_is；

步骤3：使用基于改进的K近邻多重插补方法计算缺失值的插补估算值，通过公式(4)得到插补估算值，即

步骤4：将缺失值x_is替换为插补估算值

将矩阵X更新为矩阵X^*；

步骤5：随机选择矩阵X^*中的下一个缺失值，重复该过程，直到原始数据中矩阵X的所有缺失值已被估算过。

步骤6：重复步骤2-步骤5，得到M个估算的数据集。

附图说明

图1 K近邻算法流程图

图2算法流程图

具体实施方式

步骤2：在数据矩阵X中随机选择一个缺失值，即x_is；

步骤4：将缺失值x_is替换为插补估算值

将矩阵X更新为矩阵X^*；

步骤6：重复步骤2-5，得到M个估算的数据集。