CN114595213A - 一种关于土壤数据集的多重插补方法 - Google Patents

一种关于土壤数据集的多重插补方法 Download PDF

Info

Publication number
CN114595213A
CN114595213A CN202210200658.1A CN202210200658A CN114595213A CN 114595213 A CN114595213 A CN 114595213A CN 202210200658 A CN202210200658 A CN 202210200658A CN 114595213 A CN114595213 A CN 114595213A
Authority
CN
China
Prior art keywords
data
missing
matrix
interpolation
interpolation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210200658.1A
Other languages
English (en)
Inventor
程小辉
张皓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN202210200658.1A priority Critical patent/CN114595213A/zh
Publication of CN114595213A publication Critical patent/CN114595213A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于改进的K近邻多重土壤无机盐占比数据集插补方法。缺失值大量存在于现实数据库中,这不仅严重影响了信息查询的质量,还会扭曲数据挖掘与数据分析的结果,进而误导工作人员决策。解决这一问题的最佳方法是预先填充这些丢失的数据。多重插补已被证明是处理数据缺失问题和解决插补不确定性的有效策略,在处理高维数据的情况下,数据的缺失会引发更严重的问题。在这种情况下,本发明提供了一种基于改进的K近邻多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,由于只有相关的预测因子有助于计算距离,该方法也适用于高维数据缺失的情况下。

Description

一种关于土壤数据集的多重插补方法
技术领域
本发明涉及大数据数据集填补领域,具体为一种基于改进的K近邻多重插补方法。
背景技术
随着信息时代的发展,大数据逐渐渗透到各个行业当中,由于存储设备损坏,数据录取违反规则或者数据采集不规范,数据采集设备能力限制等问题多种主客观原因造成数据缺失,对于缺失值,数据库中的数据存在不同程度的缺失,降低了数据的可用性。同时,现有的数据分析工具大多是基于完整数据集提出的,无法直接处理含有缺失数据的不完整数据集,传统的处理方法就是仅保留完整的记录用于分析查询,直接丢弃缺失数据简单易行,但当缺失数据比例较大时,此方法会造成原始数据失真,损害推理能力,大量信息的丢失会使数据分布产生偏斜并误导数据分析结论。因此,对缺失数据进行填充是一种更合理且非常必要的方法,对缺失值进行填充,尽可能恢复丢失信息。
(1)K近邻插补(K nearest neighbor imputation,KNNNI)
K近邻插补是Olga Troyanskaya提出的一种基于数据局部相似性的填充算法。KNNI的基本思想是,对于含缺失值的样本,其缺失的数据可参考与它最类似的K个样本。具体地说,KNNI将数据集划分为两个集合,一个集合包含所有的完全样本(即不含缺失值的样本),另外一个集合包含所有的不完全样本(即存在缺失值的样本)。对于每个不完全样本,求其在完全样本集中的K近邻,对于缺失值是分类属性,则填充K近邻样本该属性值的众数;对于缺失值是数值属性的,则填充K近邻样本该属性值的平均数。由于不完全样本的缺失值是根据“相邻”样本求得,因此KNNI算法不会增加过多的新样本信息。
K近邻插补算法是通过计算缺失数据样本与完整数据样本之间的欧氏距离,选出距离最小的k个样本作为缺失样本的最近邻,再通过距离的反比加权平均而得到缺少数据的填充值,K近邻插补算法具体步骤如下:
(i)初始化数据矩阵Xm×n,m为样本数量,n为属性维度;
(ii)计算每个缺失样本与完整样本之间的欧式距离d
Figure BDA0003526976650000011
(iii)从完整样本中选出最小的k个距离作为缺失数据的k个近邻;
(iv)计算k个近邻的权值ωi
Figure BDA0003526976650000012
(v)用k个近邻属性值乘以相应权重,得到填充值
Figure BDA0003526976650000021
(2)多重插补方法
插补法是对缺失数据的填充方法,目前,已经有了许多填补缺失值的方法,它们可以大致分为两支:单一插补和多重插补。在单一插补中,每个缺失的值被一个值替代。在对完整的数据统计分析中,估算值被视为真实值,就像实际观察检测到的一样。单一插补方法有均值替代法、回归插补法、K最近邻插补法等,单一插补不考虑插补过程中造成的不确定性。但如果缺失的数据超出了完全随机缺失的范围,则通过单一插补获得的数据就不再那么准确了。而多重插补弥补了单一插补的这一缺点,考虑了缺失数据的不确定性,提出了处理缺失数据的另一种有用的策略。美国哈佛大学统计学系的Rubin教授70年代末首先提出多重插补的思想。它是给每个缺失值都构造m个插补值(m>1),这样就产生出m个完全数据集,对每个完全数据集分别使用相同的方法进行处理,再综合处理结果,最终得到对目标变量的估计。由于多重插补的灵活性及其在各种缺失数据场景中的适应性,它是数据分析师的首选。多重插补为数据中的每个缺失值生成了一个似是而非的值。多重插补的插补过程包括以下三个阶段:
(1)插补,即对数据的每个缺失值进行插补数M≥2次,这个阶段产生了M个数据集。
(2)分析,即使用完整数据的标准统计技术独立分析每个完整的插补数据集。
(3)池化,即将M个分析的估计合并为一组参数估计。在合并估计值时,需要考虑缺失数据的不确定性和抽样的不确定性。
发明内容
缺失值问题是数据分析研究中的一个主要问题,由于完整的数据分析丢失了有用的信息,估算和推理也有可能受到严重的影响。而多重插补是公认的处理缺失数据问题的有效方法,考虑到在土壤数据集存在高维数据(p>>n)的情况下,缺失值会引发更严重的问题。本文提出了一种基于最近邻的多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,因此只有相关的预测因子有助于计算距离。
设矩阵X=(xis)是一个n*p的数据矩阵,由p个协变量上的n个观测值组成,其中x是第s个变量的第i个观测值。令O=(ois)表示相应的n*p矩阵,如下所示:
Figure BDA0003526976650000022
观测向量xi是数据矩阵中的第i行,计算观测值xi和xj之间的距离,计算距离公式如下:
Figure BDA0003526976650000031
其中I(.)表示指标函数,
Figure BDA0003526976650000032
表示距离计算中有效分量的数量。根据上述公式进行优化,得到如下公式:
Figure BDA0003526976650000033
其中rsl为协变量,s,l和C(.)是定义在区间[-1,1]上的凸函数,它将相关度转化为权重,并由选定的协变量来计算观测值之间的距离。其中第s个协变量具有更高的相关性,当值为s时,协变量取得最优解。如果|rsl|>c,则绝对相关的线性函数为
Figure BDA0003526976650000034
当|rsl|≤c时,协变量s对距离没有影响。另一个线性函数为C(rsl)=|rsl|m。函数C(rsl)=|rsl|m中的幂m和线性函数中的c是调整参数,通过交叉验证进行选择。
基于由公式(3)计算的距离,观测值按升序进行排列为X(1),...,X(k)和d(Xi,X(1))≤...d(Xi,X(k)),其中
Figure BDA0003526976650000035
表示第j个最近的相邻观测值。
其中xis的估值公式如下:
Figure BDA0003526976650000036
其中W(.)重力因子公式为:
Figure BDA0003526976650000037
其中k(.)为内核函数,k为调整参数。
本发明的技术方案为:
基于顺序输入缺失值,使用基于改进的K近邻多重插补方法进行一次估算一个缺失值。在估算一个缺失值后,可以认为获得了一个更新的矩阵,用于估算下一个缺失值。因此每个估算值的价值都有助于其他估值的计算。对于每个数据集,随机选择要估算的第一个值,因此可以获得不同的估算数据集。技术方案流程如下:
步骤1:使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X,获得参数k和m;
步骤2:在数据矩阵X中随机选择一个缺失值,即xis
步骤3:使用基于改进的K近邻多重插补方法计算缺失值的插补估算值,通过公式(4)得到插补估算值,即
Figure BDA0003526976650000038
步骤4:将缺失值xis替换为插补估算值
Figure BDA0003526976650000039
将矩阵X更新为矩阵X*
步骤5:随机选择矩阵X*中的下一个缺失值,重复该过程,直到原始数据中矩阵X的所有缺失值已被估算过。
步骤6:重复步骤2-步骤5,得到M个估算的数据集。
附图说明
图1 K近邻算法流程图
图2算法流程图
具体实施方式
步骤1:使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X,获得参数k和m;
步骤2:在数据矩阵X中随机选择一个缺失值,即xis
步骤3:使用基于改进的K近邻多重插补方法计算缺失值的插补估算值,通过公式(4)得到插补估算值,即
Figure BDA0003526976650000041
步骤4:将缺失值xis替换为插补估算值
Figure BDA0003526976650000042
将矩阵X更新为矩阵X*
步骤5:随机选择矩阵X*中的下一个缺失值,重复该过程,直到原始数据中矩阵X的所有缺失值已被估算过。
步骤6:重复步骤2-5,得到M个估算的数据集。

Claims (1)

1.一种基于改进的K近邻多重插补方法,通过使用目标和候选预测因子之间的相关信息来计算距离,由于只有相关的预测因子有助于计算距离,该方法也适用于高维数据缺失的情况下,其特征步骤如下:
步骤1:使用基于改进的K近邻多重插补方法估算不完整的数据矩阵X,获得参数k和m;
步骤2:在数据矩阵X中随机选择一个缺失值,即xis
步骤3:使用基于改进的K近邻多重插补方法计算缺失值的插补估计值,通过公式
Figure FDA0003526976640000011
得到插补估算值,即
Figure FDA0003526976640000012
步骤4:将缺失值xis替换为插补估算值
Figure FDA0003526976640000013
将矩阵X更新为矩阵X*
步骤5:随机选择矩阵X*中的下一个缺失值,重复该过程,直到原始数据中矩阵X的所有缺失值已被估算过;
步骤6:重复步骤2-步骤5,得到M个估算的数据集。
CN202210200658.1A 2022-03-02 2022-03-02 一种关于土壤数据集的多重插补方法 Pending CN114595213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210200658.1A CN114595213A (zh) 2022-03-02 2022-03-02 一种关于土壤数据集的多重插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210200658.1A CN114595213A (zh) 2022-03-02 2022-03-02 一种关于土壤数据集的多重插补方法

Publications (1)

Publication Number Publication Date
CN114595213A true CN114595213A (zh) 2022-06-07

Family

ID=81814834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210200658.1A Pending CN114595213A (zh) 2022-03-02 2022-03-02 一种关于土壤数据集的多重插补方法

Country Status (1)

Country Link
CN (1) CN114595213A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Similar Documents

Publication Publication Date Title
CN110413494B (zh) 一种改进贝叶斯优化的LightGBM故障诊断方法
CN110149237B (zh) 一种Hadoop平台计算节点负载预测方法
Huang et al. Forecasting container throughput of Qingdao port with a hybrid model
CN107229876B (zh) 一种满足差分隐私的协同过滤推荐方法
CN110610225A (zh) 一种基于kriging代理模型加点策略的多目标粒子群优化算法
CN116402825B (zh) 轴承故障红外诊断方法、系统、电子设备及存储介质
JP7419955B2 (ja) データ解析システム、データ解析方法、およびプログラム
CN114595213A (zh) 一种关于土壤数据集的多重插补方法
JP5889759B2 (ja) 欠損値予測装置、欠損値予測方法、欠損値予測プログラム
CN115018545A (zh) 基于用户画像与聚类算法的相似用户分析方法及系统
Bogdanov et al. Sktr: Trace recovery from stochastically known logs
CN116611552B (zh) 一种基于目标监测数据的船舶交通流量预测方法及系统
CN107067397A (zh) 一种基于红外图像复杂度的图像分级方法
CN115935817A (zh) 一种基于扩散模型的快速模型生成方法
CN115937540A (zh) 基于Transformer编码器的图像匹配方法
Mukhtar et al. An improved regression type mean estimator using redescending M-estimator
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN112036353A (zh) 一种基于内存的协同过滤轴承电流损伤故障识别方法
CA3101842A1 (en) A method of digital signal feature extraction comprising multiscale analysis
JP5051223B2 (ja) 事例生成プログラム、事例生成装置、事例生成方法
JP3771809B2 (ja) 材料寿命の評価システム
CN117496118B (zh) 一种目标检测模型的窃取脆弱性分析方法和系统
CN113345538B (zh) 一种基于动态选取训练集的材料性能预测方法
CN117540277B (zh) 一种基于WGAN-GP-TabNet算法的井漏预警方法
Zheng et al. Meta Learning for Blind Image Quality Assessment Via Adaptive Sample Re-Weighting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination