CN117116386A - 一种土壤重金属Cr和Ni的空间预测方法及系统 - Google Patents

一种土壤重金属Cr和Ni的空间预测方法及系统 Download PDF

Info

Publication number
CN117116386A
CN117116386A CN202311067486.6A CN202311067486A CN117116386A CN 117116386 A CN117116386 A CN 117116386A CN 202311067486 A CN202311067486 A CN 202311067486A CN 117116386 A CN117116386 A CN 117116386A
Authority
CN
China
Prior art keywords
data
soil
spatial prediction
hyperspectral
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311067486.6A
Other languages
English (en)
Inventor
肖荣波
唐长城
王鹏
刘彦辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202311067486.6A priority Critical patent/CN117116386A/zh
Publication of CN117116386A publication Critical patent/CN117116386A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/24Earth materials
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Remote Sensing (AREA)
  • Geology (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Mathematical Physics (AREA)
  • Processing Of Solid Wastes (AREA)

Abstract

本发明提供了一种土壤重金属Cr和Ni的空间预测方法及系统,包括以下步骤:步骤S1、空间预测点位的选取;步骤S2、通过高光谱数据和土壤数据对土壤样品进行采集分析;步骤S3、通过地统计学进行空间数据的整理;步骤S4、根据空间数据构建AdaBoost模型和CdBoost模型;步骤S5、基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测;步骤S6、基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;步骤S7、根据最优高光谱空间预测数据和污染源空间预测数据结合,得到重金属组合空间预测结果。本发明能快捷方便获得高维数据,提高了光谱数据响应特征及模型预测精度。

Description

一种土壤重金属Cr和Ni的空间预测方法及系统
技术领域
本发明涉及土壤重金属空间预测技术领域,尤其涉及一种土壤重金属Cr和Ni的空间预测方法及系统。
背景技术
准确识别土壤重金属空间分布特征是精准治污的关键支撑。大量研究表明,土壤重金属分布具有突出的空间异致性,导致传统统计学方法难以全面、快速的掌握土壤重金属污染的“区位精准”问题。一方面,土壤中重金属污染来源复杂,包括工业污染排放、污水灌溉、大气沉降,以及农药、肥料、农膜、地膜和成土母岩等多种来源,不同的污染强度、排放方式、污染物质存在显著差异。
传统多元统计方法和地理信息系统空间插值方法是土壤重金属污染空间预测实际工作中的常用方法。但是,通常这类方法依赖于数据土壤取样样本,而野外土壤样本采集存在离散、耗时、成本高等问题。同时,在考虑污染源时,需要假设来自于同一污染源的重金属之间具有相关性,通过识别具有相似数据分布特征,定性判定重金属来源,即数据独立性、正态分布和线性相关是其重要前提。同时,传统线性模型难以有效解释土壤重金属与环境要素之间的复杂非线性关系。鉴于此,近年来基于Boost类的机器学习,如AdaBoost和GdBoost的土壤重金属源解析研究受到学界重点关注,该类模型具有极强的非线性挖掘能力,能够对模型影响因素的贡献进行量化和排序,但是在低维数据中很难发挥机器学习强大的非线性挖掘能力,因此可以考虑引入高维的外源数据以提高模型数据挖掘和拟合能力。
然而,应用350nm-2500nm高维高光谱数据遥感技术测量土壤物化属性含量已经成为传统方法的一种可行的替代方法。并且人们为了提高高光谱土壤重金属的预测精度,进行了许多研究,由此产生了不同的样品处理方法和模型,例如高光谱数据的不同预处理方式:Savitzky-Golay平滑滤波函数(SG)、连续去除(CR)、一阶导数(FD)、二阶导数(SD)、标准归一化向量(SNV)、多重散射校正(MSC)方法或其组合方案的最佳处理的影响。
然而,在光谱预处理后建模方法的探索中,相关研究进展显著,其中以Boost类的机器学习模型尤为突出。但是其也有一定的局限性,数据过于冗余,很难提取出特征波段,模型预测精度低。
发明内容
针对以上相关技术的不足,本发明提出一种能快捷方便获得高维数据,提高光谱数据响应特征及模型预测精度的土壤重金属Cr和Ni的空间预测方法。
为了解决上述技术问题,本发明实施例提供了一种土壤重金属Cr和Ni的空间预测方法,所述空间预测方法包括以下步骤:
步骤S1、空间预测点位的选取;
步骤S2、获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;
步骤S3、通过地统计学进行空间数据的整理;
步骤S4、根据所述空间数据构建AdaBoost模型和CdBoost模型;
步骤S5、基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;
步骤S6、基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;
步骤S7、根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
优选的,所述步骤S2具体以下子步骤:
步骤S21、从采集点收集总共预设重量的表层土样本;其中,每个所述样本的所述预设重量的一半用于测定土壤组分和重金属含量,所述预设重量的另一半用于高光谱反射数据的测量;
步骤S22、通过标准火焰原子吸收分光光度法测定重金属Cr和Ni,并测量所述样本的PH值;
步骤S23、通过K2Cr2O7-H2SO4氧化法测量所述样本的有机物;通过分散X射线荧光光谱法测定所述样本的无机物,获得所述样本的所述有机物和所述无机物的测量结果。
优选的,所述步骤S3具体包括以下子步骤:
步骤S31、通过地理空间数据云获取高程数据;
步骤S32、通过地理信息系统软件对水系、道路及工业企业进行空间数据的欧氏距离分析,得到样点分别与附近水系、道路及工业企业的欧式距离。
优选的,所述步骤S4具体包括以下子步骤:
步骤S41、结合高光谱数据、土壤重金属因数数据或其组合数据,基于十倍交叉验证对所述AdaBoost模型和所述CdBoost模型进行训练测试;其中,将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;每次试验都会得出相应的正确率或差错率,将10次的结果的正确率或差错率的平均值作为对算法精度的估计,再求其均值;
步骤S42、当前CdBoost模型中损失函数负梯度的值作为回归问题提升树算法中残差的近似值来拟合一棵回归树;
其中,定义训练数据xi,yi,在第m-th轮中,首先计算xi的残差rmi为fm-1(x)作为第m轮中的拟合数据(xi,rmi),其表达式如下:
其中,fm-L(x)为第m-1轮获得的累积模型,即采用平方损失函数Loss=fm-L(x)的偏导,得到的结果为损失函数负梯度rmi;i和j表示样本数据集的代号,m-th表示第m轮,fm-L(x)为第m轮前面m-1轮获得的累计残差模型;i、j和m均为正整数。
优选的,所述步骤S5具体包括以下子步骤:
步骤S51、将高光谱原始数据数据反射率通过滤波拟合算法的滤波函数平滑处理;
步骤S52、然后利用多重散射校正和标准归一化向量消除所述土壤样品之间由于光散射和光路长度引起的误差;
步骤S53、将一阶导数、二阶导数和连续谱去除应用于处理过后的反射率数据,以消除光谱数据收集产生的环境和采样噪声;
步骤S54、根据所述步骤S51-步骤S53进行预处理,得到组合为6种预处理方式并建模预测评估,以选择所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合。
优选的,所述步骤S6具体包括以下子步骤:
步骤S61、确定所述土壤重金属Cr和Ni的环境影响因素,得到相应的指标;其中,所述指标包括酸碱度、有机质、氧化铁、氧化铝、高程、河流运移、交通及工业;
步骤S62、根据所述酸碱度、所述有机质、所述氧化铁及所述氧化铝的数据为数值数据,并将其直接应用于机器学习模型中,将所述河流运移、所述交通及所述工业为矢量数据,需在地理信息系统软件上转换为栅格数据,最后多值提取到点,转化为数值数据,最后应用于机器学习模型中;
步骤S63、利用所得土壤重金属污染源数据结合机器学习模型预测土壤重金属Cr和Ni的含量。
优选的,所述步骤S7具体包括以下子步骤:
通过筛选出所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合,将所述指标作为Boost模型的回归因子,进行预测回归处理,得到重金属组合空间预测结果。
第二方面,本发明实施例提供一种土壤重金属Cr和Ni的空间预测系统,所述空间预测系统包括:
选取模块,用于空间预测点位的选取;
分析模块,用于获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;
整理模块,用于通过地统计学进行空间数据的整理;
构建模块,用于根据所述空间数据构建AdaBoost模型和CdBoost模型;
预处理模块,用于基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;
预测模块,用于基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;
获得模块,用于根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
与相关技术相比,本发明通过对空间预测点位的选取;获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;通过地统计学进行空间数据的整理;根据所述空间数据构建AdaBoost模型和CdBoost模型;基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。该方法快捷方便,能提供高维数据供机器学习模型进行数据的非线性挖掘,通过可以将其与传统环境要素污染源数据相结合,提高光谱数据响应特征,以提高模型预测精度。
附图说明
下面结合附图详细说明本发明。通过结合以下附图所作的详细描述,本发明的上述或其他方面的内容将变得更清楚和更容易理解。附图中:
图1为本发明土壤重金属Cr和Ni的空间预测方法的流程图;
图2为本发明土壤重金属Cr和Ni的空间预测方法的总流程图;
图3为本发明步骤S2的具体流程图;
图4为本发明步骤S3的具体流程图;
图5为本发明步骤S4的具体流程图;
图6为本发明步骤S5的具体流程图;
图7为本发明步骤S6的具体流程图;
图8为本发明土壤样品采集点位示意图;
图9为本发明土壤样品原始光谱数据图;
图10为本发明高光谱数据结合土壤重金属污染源的预测结果图;
图11为本发明土壤重金属Cr和Ni的空间预测系统的模块图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式。
在此记载的具体实施方式/实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括采用对在此记载的实施例的做出任何显而易见的替换和修改的技术方案,都在本发明的保护范围之内。
实施例一
如图1-图10所示,本发明提供一种土壤重金属Cr和Ni的空间预测方法,所述空间预测方法包括以下步骤:
步骤S1、空间预测点位的选取。
其中,研究区域位于广东省东北部。研究区东部包括发电厂和矿区,受工业污染源影响较大,重金属污染严重。西部地区受自然污染源影响大,污染较低。因此,根据土壤重金属污染的严重程度,从东到西进行采样。
步骤S2、获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析。
其中,土壤数据的统计描述:Cr含量范围在0-139mg/kg之间,平均浓度为47.35mg/kg,与广东省土壤背景值(铬:34.80mg/kg,镍:8.80mg/kg)相比,超标率为62%;镍含量的范围在0-50mg/k之间,平均浓度为13.95mg/kg,超标率为68.4%。所有土壤重金属的变异系数都在0.6左右,表明土壤异质性大,污染分布不均匀。此外,该区域铬的总体超标率为34.2%,镍的总体超标率为32.9%(以当地市背景值计算(铬:54.91mg/kg,镍:16.53mg/kg)。总体而言,该地区铬和镍污染相对较重并且污染异质性大。
高光谱数据采集:土壤样品风干、研磨并通过100目筛进行筛选土壤粉末颗粒。将10g土壤置于覆盖有纯黑色棉布的90mm塑料培养皿上,压实并压平,用于测量室内光谱数据。将照明度为垂直方向30°的室内光源COFAN(1.21W)置于样品上方30cm处。光谱测量探头垂直放置在土壤表面上方,距离土壤表面5cm。测量前,仪器(SR 4500)预热30分钟,然后用白板校准。每个土样在4个方向测量(旋转3次,每次90°),每个方向采集10条光谱曲线;将总共40条光谱曲线的算术平均值作为每个土壤样品的光谱数据,样本数据集如图9所示。
步骤S3、通过地统计学进行空间数据的整理。
步骤S4、根据所述空间数据构建AdaBoost模型和CdBoost模型。
其中,AdaBoost是一种分类器算法。分类后,被前一个基本分类器错误分类的样本的权重会增加,而被正确分类的样本的权重会减少,并再次用于训练下一个基本分类器。同时,在每次迭代中,增加一个新的弱分类器,直到预定的错误率足够小或者达到预设的最大迭代次数,才确定最终的强分类器。AdaBoost的优点是充分考虑了每个学习者的权重,参数少,实际应用中不需要调整太多参数,但是其对数据纬度有一定的要求,在高维数据中表现出较好的拟合度,此外AdaBoost使用指数损失作为其损失函数。这种损失函数的缺点是对异常值非常敏感,因此通常在噪声较多的数据集上表现不佳。前人在GdBoost对于这方面做了改进,任何损失函数都可以使用(只要损失函数连续可控)。关键是用当前模型中损失函数负梯度的值作为回归问题提升树算法中残差的近似值来拟合一棵回归树。
步骤S5、基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据。通过预处理能消除土壤样品之间由于光散射和光路长度引起的误差,预处理方式并建模预测评估,以选择最优预处理方案。
步骤S6、基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据。
其中,选取对土壤重金属分布的重要影响因素。土壤重金属不仅受自然因素影响,还受人为因素影响,自然因素包括风化和成土过程演变,如地形地貌、土壤类型等,人为因素包括工业,交通活动等,因此本发明选取了8种指标来完成Cr、Ni空间预测的反演。其中,利用地理信息系统软件(ArcGIS10.8软件)中对水系、道路、工业企业进行欧氏距离分析,得到样点与附近水系、道路和工业企业的欧式距离数据。
步骤S7、根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
具体的,本发明通过对空间预测点位的选取;获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;通过地统计学进行空间数据的整理;根据所述空间数据构建AdaBoost模型和CdBoost模型;基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。该方法快捷方便,能提供高维数据供机器学习模型进行数据的非线性挖掘,通过可以将其与传统环境要素污染源数据相结合,提高光谱数据响应特征,以提高模型预测精度。
本实施例中,所述步骤S2具体以下子步骤:
步骤S21、从采集点收集总共预设重量的表层土样本;其中,每个所述样本的所述预设重量的一半用于测定土壤组分和重金属含量,所述预设重量的另一半用于高光谱反射数据的测量;
步骤S22、通过标准火焰原子吸收分光光度法测定重金属Cr和Ni,并测量所述样本的PH值;
步骤S23、通过K2Cr2O7-H2SO4氧化法测量所述样本的有机物;通过分散X射线荧光光谱法测定所述样本的无机物,获得所述样本的所述有机物和所述无机物的测量结果。
具体的,从采样点收集了总共200克表层土(0至20厘米)。每个样本分为两部分:100克用于测定土壤组分和重金属含量,100克用于高光谱反射数据的测量。镍和铬的测定符合土壤和沉积物中铜、锌、铅、镍和铬测定的标准火焰原子吸收分光光度法(HJ 491-2019);使用pH计在1∶2.5(W/V)的去离子水中测量土壤pH值。土壤有机质使用K2Cr2O7-H2SO4氧化法测量。氧化铁和氧化铝的测定符合分散X射线荧光光谱法测定土壤和沉积物中无机元素的标准(HJ 780–2015)。
本实施例中,所述步骤S3具体包括以下子步骤:
步骤S31、通过地理空间数据云获取高程数据;分辨率为30m。
步骤S32、通过地理信息系统软件对水系、道路及工业企业进行空间数据的欧氏距离分析,得到样点分别与附近水系、道路及工业企业的欧式距离。
具体的,高程(Elevation)数据来自于地理空间数据云,分辨率为30m。在ArcGIS10.8软件中对水系、道路、工业企业进行空间数据的欧氏距离分析,得到样点与附近水系、道路和工业企业的欧式距离。
本实施例中,所述步骤S4具体包括以下子步骤:
步骤S41、结合高光谱数据、土壤重金属因数数据或其组合数据,基于十倍交叉验证对所述AdaBoost模型和所述CdBoost模型进行训练测试;其中,将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;每次试验都会得出相应的正确率或差错率,将10次的结果的正确率或差错率的平均值作为对算法精度的估计,再求其均值;作为对算法准确性的估计,是最为科学的模型数据验证方法。
步骤S42、当前CdBoost模型中损失函数负梯度的值作为回归问题提升树算法中残差的近似值来拟合一棵回归树;
其中,定义训练数据xi,yi,在第m-th轮中,首先计算xi的残差rmi为fm-1(x)作为第m轮中的拟合数据(xi,rmi),其表达式如下:
其中,fm-L(x)为第m-1轮获得的累积模型,即采用平方损失函数Loss=fm-L(x)的偏导,得到的结果为损失函数负梯度rmi;i和j表示样本数据集的代号,m-th表示第m轮,fm-L(x)为第m轮前面m-1轮获得的累计残差模型;i、j和m均为正整数。
通过调用python软件中AdaBoost包和GdBoost包进行机器学习建模,模型建立方便,模型训练效果好。
本实施例中,所述步骤S5具体包括以下子步骤:
步骤S51、将高光谱原始数据数据反射率通过滤波拟合算法的滤波函数(SG)平滑处理;
步骤S52、然后利用多重散射校正(MSC)和标准归一化向量(SNV)消除所述土壤样品之间由于光散射和光路长度引起的误差;
步骤S53、将一阶导数(FD)、二阶导数(SD)和连续谱去除(CR)应用于处理过后的反射率数据,以消除光谱数据收集产生的环境和采样噪声;
步骤S54、根据所述步骤S51-步骤S53进行预处理,得到组合为6种预处理方式并建模预测评估,以选择所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合。
具体的,高光谱原始数据数据反射率(R)通过滤波拟合算法(Savitzky-Golay)滤波函数平滑处理(拟合时间:2,窗宽:17),然后利用多重散射校正(MSC)和标准归一化向量消除土壤样品之间由于光散射和光路长度引起的误差。最后,将一阶导数(FD)、二阶导数(SD)和连续谱去除(CR)应用于处理过后的反射率数据,以消除光谱数据收集产生的环境和采样噪声,通过这些噪声突出光谱响应特征,并增强光谱中土壤成分和重金属的响应。根据上述预处理方法,组合为6种预处理方式并建模预测评估,以选择最优预处理方案。
其中,6种预处理方式组合为R+SG+MSC+CR,R+SG+MSC+FD,R+SG+MSC+SD,R+SG+SNV+CR,R+SG+SNV+FD,R+SG+SNV+SD。利用AdaBoost和GdBoost机器学习方法作为预测模型对土壤Cr、Ni进行预测,并分别利用R2和RMSE对他们进行评估,以选出Cr、Ni最优的高光谱预处理预测模型方式的组合。
具体的,土壤高光谱数据预测结果示意表1所示;
表1-土壤高光谱数据预测结果示意
然后结合AdaBoost和GdBoost机器学习模型对高光谱预处理之后的数据建模预测Cr,Ni含量,训练集和测试集严格按照十倍交叉验证方法进行,最后对测试集预测精度进行评估,评估效果显示,综合AdaBoost和GdBoost两种模型预测结果来看,Cr的高光谱最优预处理方式是:R+SG+SNV+FD,最好的预测效果AdaBoost,其R2是0.67,RMSE是15.62mg·kg-1;Ni的高光谱最优预处理方式是:R+SG+MSC+CR,最好的预测效果AdaBoost,其R2是0.59,RMSE是5.42mg·kg-1。后续涉及Cr、Ni重金属高光谱数据参与建模都是基于这两种预处理方式。
本实施例中,所述步骤S6具体包括以下子步骤:
步骤S61、确定所述土壤重金属Cr和Ni的环境影响因素,得到相应的指标;其中,所述指标包括酸碱度、有机质、氧化铁、氧化铝、高程、河流运移、交通及工业。
其中,土壤重金属环境影响因素包括PH、SOM、Fe2O3、Al2O3、DEM、DW、DR及DI。
步骤S62、根据所述酸碱度、所述有机质、所述氧化铁及所述氧化铝的数据为数值数据,并将其直接应用于机器学习模型中,将所述河流运移、所述交通及所述工业为矢量数据,需在地理信息系统软件上转换为栅格数据,最后多值提取到点,转化为数值数据,最后应用于机器学习模型中;
步骤S63、利用所得土壤重金属污染源数据结合机器学习模型预测土壤重金属Cr和Ni的含量。
具体的,确定土壤重金属Cr、Ni的环境形成影响因素,本发明明确了8项指标,分别为酸碱度,有机质,氧化铁,氧化铝,高程,河流运移,交通,工业;将所得的酸碱度,有机质,氧化铁,氧化铝数据为数值数据,可直接应用于机器学习模型中,河流运移,交通,工业为矢量数据,需在Arcgis上转换为栅格数据,如高程数据一样的格式,最后多值提取到点,转化为数值数据,最后应用于机器学习模型中;最后利用所得土壤重金属污染源数据结合机器学习模型预测土壤重金属Cr、Ni含量,预测精度高。
选取对土壤重金属分布的重要影响因素。土壤重金属不仅受自然因素影响,还受人为因素影响,自然因素包括风化和成土过程演变,如地形地貌、土壤类型等,人为因素包括工业,交通活动等,因此本发明选取了8种指标来完成Cr、Ni空间预测的反演。其中,利用ArcGIS10.8软件中对水系、道路、工业企业进行欧氏距离分析,得到样点与附近水系、道路和工业企业的欧式距离数据。
具体的,土壤重金属污染源的空间预测结果如下;
Cr采用AdaBoost模型和GdBoost模型空间预测结果的RMSE值分别为12.01、12.61;拟合系数R2分别为0.80、0.78。
Ni采用GdBoost模型和AdaBoost模型空间预测结果的RMSE值分别为5.87、6.86;拟合系数R2分别为0.50、0.35。
因此,采用GdBoost和AdaBoost模型利用上述8种指标预测土壤Cr和Ni的空间分布,利用十倍交叉验证划分测试集和训练集,结果表示。Cr和Ni的最优模型AdaBoost的RMSE值分别为12.01、5.87mg·kg-1,拟合系数R2分别为0.80和0.52,Cr的预测效果表明模型预测性能良好,其空间分布预测效果理想,但是Ni的预测效果不理想,比高光谱模型效果还差,分析是Boost在低维数据中泛化能力差导致的。
本实施例中,所述步骤S7具体包括以下子步骤:
通过筛选出所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合,将所述指标作为Boost模型的回归因子,进行预测回归处理,得到重金属组合空间预测结果。
具体的,高光谱数据结合土壤重金属污染源的预测结果如下;
Cr采用AdaBoost模型和GdBoost模型空间预测结果的RMSE值分别为10.31、11.31;拟合系数R2分别为0.85、0.83。
Ni采用GdBoost模型和AdaBoost模型空间预测结果的RMSE值分别为4.47、4.84;拟合系数R2分别为0.74、0.67。
因此,基于高光谱数据结合土壤重金属污染源的机器学习技术的重金属组合空间预测。将高光谱数据和土壤重金属污染源空间数据结合,采用GdBoost和AdaBoost模型预测土壤Cr和Ni的空间分布,也是利用十倍交叉验证划分测试集和训练,如结果所示,Cr和Ni的最优模型AdaBoost的RMSE值分别为10.31、4.47mg·kg-1,拟合系数R2分别为0.85和0.74,Cr和Ni预测效果相较于单纯高光谱数据或单纯土壤重金属污染源数据预测都具有优势,表明高光谱数据结合土壤重金属污染源的机器学习技术的重金属空间预测方案可行。
实施例二
如图11所示,本发明实施例提供一种土壤重金属Cr和Ni的空间预测系统200,所述空间预测系统200包括:
选取模块201,用于空间预测点位的选取;
分析模块202,用于获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;
整理模块203,用于通过地统计学进行空间数据的整理;
构建模块204,用于根据所述空间数据构建AdaBoost模型和CdBoost模型;
预处理模块205,用于基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;
预测模块206,用于基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;
获得模块207,用于根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
具体的,通过选取模块201用于空间预测点位的选取;分析模块202用于获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;整理模块203用于通过地统计学进行空间数据的整理;构建模块204用于根据所述空间数据构建AdaBoost模型和CdBoost模型;预处理模块205用于基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;预测模块206用于基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;获得模块207用于根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。该空间预测系统200快捷方便,能提供高维数据供机器学习模型进行数据的非线性挖掘,通过可以将其与传统环境要素污染源数据相结合,提高光谱数据响应特征,以提高模型预测精度。
本实施例中,本发明实施例二的一种土壤重金属Cr和Ni的空间预测系统200实现的原理与上述的实施例一的一种土壤重金属Cr和Ni的空间预测方法的原理相同,产生的技术效果相同,此处不再一一描述。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何纂改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种土壤重金属Cr和Ni的空间预测方法,其特征在于,所述空间预测方法包括以下步骤:
步骤S1、空间预测点位的选取;
步骤S2、获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;
步骤S3、通过地统计学进行空间数据的整理;
步骤S4、根据所述空间数据构建AdaBoost模型和CdBoost模型;
步骤S5、基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;
步骤S6、基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;
步骤S7、根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
2.如权利要求1所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S2具体以下子步骤:
步骤S21、从采集点收集总共预设重量的表层土样本;其中,每个所述样本的所述预设重量的一半用于测定土壤组分和重金属含量,所述预设重量的另一半用于高光谱反射数据的测量;
步骤S22、通过标准火焰原子吸收分光光度法测定重金属Cr和Ni,并测量所述样本的PH值;
步骤S23、通过K2Cr2O7-H2SO4氧化法测量所述样本的有机物;通过分散X射线荧光光谱法测定所述样本的无机物,获得所述样本的所述有机物和所述无机物的测量结果。
3.如权利要求1所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S31、通过地理空间数据云获取高程数据;
步骤S32、通过地理信息系统软件对水系、道路及工业企业进行空间数据的欧氏距离分析,得到样点分别与附近水系、道路及工业企业的欧式距离。
4.如权利要求1所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S4具体包括以下子步骤:
步骤S41、结合高光谱数据、土壤重金属因数数据或其组合数据,基于十倍交叉验证对所述AdaBoost模型和所述CdBoost模型进行训练测试;其中,将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;每次试验都会得出相应的正确率或差错率,将10次的结果的正确率或差错率的平均值作为对算法精度的估计,再求其均值;
步骤S42、当前CdBoost模型中损失函数负梯度的值作为回归问题提升树算法中残差的近似值来拟合一棵回归树;
其中,定义训练数据xi,yi,在第m-th轮中,首先计算xi的残差rmi为fm-L(x)作为第m轮中的拟合数据(xi,rmi),其表达式如下:
其中,fm-L(x)为第m-1轮获得的累积模型,即采用平方损失函数Loss=fm-L(x)的偏导,得到的结果为损失函数负梯度rmi;i和j表示样本数据集的代号,m-th表示第m轮,fm-L(x)为第m轮前面m-1轮获得的累计残差模型;i、j和m均为正整数。
5.如权利要求4所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S5具体包括以下子步骤:
步骤S51、将高光谱原始数据数据反射率通过滤波拟合算法的滤波函数平滑处理;
步骤S52、然后利用多重散射校正和标准归一化向量消除所述土壤样品之间由于光散射和光路长度引起的误差;
步骤S53、将一阶导数、二阶导数和连续谱去除应用于处理过后的反射率数据,以消除光谱数据收集产生的环境和采样噪声;
步骤S54、根据所述步骤S51-步骤S53进行预处理,得到组合为6种预处理方式并建模预测评估,以选择所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合。
6.如权利要求5所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S6具体包括以下子步骤:
步骤S61、确定所述土壤重金属Cr和Ni的环境影响因素,得到相应的指标;其中,所述指标包括酸碱度、有机质、氧化铁、氧化铝、高程、河流运移、交通及工业;
步骤S62、根据所述酸碱度、所述有机质、所述氧化铁及所述氧化铝的数据为数值数据,并将其直接应用于机器学习模型中,将所述河流运移、所述交通及所述工业为矢量数据,需在地理信息系统软件上转换为栅格数据,最后多值提取到点,转化为数值数据,最后应用于机器学习模型中;
步骤S63、利用所得土壤重金属污染源数据结合机器学习模型预测土壤重金属Cr和Ni的含量。
7.如权利要求6所述的土壤重金属Cr和Ni的空间预测方法,其特征在于,所述步骤S7具体包括以下子步骤:
通过筛选出所述土壤重金属Cr和Ni的最优的高光谱预处理预测模型方式的组合,将所述指标作为Boost模型的回归因子,进行预测回归处理,得到重金属组合空间预测结果。
8.一种土壤重金属Cr和Ni的空间预测系统,其特征在于,所述空间预测系统包括:
选取模块,用于空间预测点位的选取;
分析模块,用于获取土壤样品,并通过高光谱数据和土壤数据对所述土壤样品进行采集分析;
整理模块,用于通过地统计学进行空间数据的整理;
构建模块,用于根据所述空间数据构建AdaBoost模型和CdBoost模型;
预处理模块,用于基于高光谱数据机器学习方法的重金属最优高光谱预处理空间预测,得到最优高光谱空间预测数据;
预测模块,用于基于土壤重金属污染源的机器学习方法的重金属污染源数据空间预测,得到污染源空间预测数据;
获得模块,用于根据所述最优高光谱空间预测数据和所述污染源空间预测数据结合,得到重金属组合空间预测结果。
CN202311067486.6A 2023-08-23 2023-08-23 一种土壤重金属Cr和Ni的空间预测方法及系统 Pending CN117116386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311067486.6A CN117116386A (zh) 2023-08-23 2023-08-23 一种土壤重金属Cr和Ni的空间预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311067486.6A CN117116386A (zh) 2023-08-23 2023-08-23 一种土壤重金属Cr和Ni的空间预测方法及系统

Publications (1)

Publication Number Publication Date
CN117116386A true CN117116386A (zh) 2023-11-24

Family

ID=88797777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311067486.6A Pending CN117116386A (zh) 2023-08-23 2023-08-23 一种土壤重金属Cr和Ni的空间预测方法及系统

Country Status (1)

Country Link
CN (1) CN117116386A (zh)

Similar Documents

Publication Publication Date Title
Dikshit et al. Long lead time drought forecasting using lagged climate variables and a stacked long short-term memory model
CN110174359B (zh) 一种基于高斯过程回归的航空高光谱影像土壤重金属浓度评估方法
Xu et al. Data fusion for the measurement of potentially toxic elements in soil using portable spectrometers
CN112785450B (zh) 一种土壤环境质量分区方法及系统
CN101915753A (zh) 基于遗传神经网络的激光诱导击穿光谱定量分析方法
CN111126511B (zh) 一种基于植被指数融合的lai定量模型建立的方法
Giannico et al. Contributions of landscape heterogeneity within the footprint of eddy-covariance towers to flux measurements
CN108596085A (zh) 基于卷积神经网络的土壤重金属含量检测模型的建立方法
CN107895136B (zh) 一种煤矿区域识别方法及系统
CN111678969A (zh) 利用土壤剖面表层重金属累积比例解析重金属污染来源的方法
Sun et al. Prediction of soil organic carbon in a coal mining area by Vis-NIR spectroscopy
Dhaubanjar et al. Climate futures for Western Nepal based on regional climate models in the CORDEX‐SA
CN114814167B (zh) 融合多源环境变量与光谱信息的土壤重金属含量反演方法
CN114821296A (zh) 地下病害探地雷达图像识别方法、系统、存储介质及终端
CN109557080B (zh) 一种基于机器学习的光谱数据回归方法
Sotomayor et al. Implications of macroinvertebrate taxonomic resolution for freshwater assessments using functional traits: The Paute River Basin (Ecuador) case
Yang et al. Prediction of soil heavy metal concentrations in copper tailings area using hyperspectral reflectance
Hemann et al. Assessing positive matrix factorization model fit: a new method to estimate uncertainty and bias in factor contributions at the measurement time scale
Qi et al. Prediction of soil calcium carbonate with soil visible-near-infrared reflection (Vis-NIR) spectral in Shaanxi province, China: soil groups vs. spectral groups
Zhao et al. Spectral features of Fe and organic carbon in estimating low and moderate concentration of heavy metals in mangrove sediments across different regions and habitat types
Li et al. Estimation of metal elements content in soil using x-ray fluorescence based on multilayer perceptron
Zhang et al. Support vector machine modeling using particle swarm optimization approach for the retrieval of atmospheric ammonia concentrations
Bian et al. Estimation of multi-media metal (loid) s around abandoned mineral processing plants using hyperspectral technology and extreme learning machine
Zhou et al. Spectral response feature bands extracted from near standard soil samples for estimating soil Pb in a mining area
CN117116386A (zh) 一种土壤重金属Cr和Ni的空间预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination