CN114970934A - 一种基于特征集成学习的土壤厚度类型预测方法 - Google Patents

一种基于特征集成学习的土壤厚度类型预测方法 Download PDF

Info

Publication number
CN114970934A
CN114970934A CN202210185325.6A CN202210185325A CN114970934A CN 114970934 A CN114970934 A CN 114970934A CN 202210185325 A CN202210185325 A CN 202210185325A CN 114970934 A CN114970934 A CN 114970934A
Authority
CN
China
Prior art keywords
soil
soil thickness
data
prediction model
thickness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210185325.6A
Other languages
English (en)
Inventor
陈玉蓝
王勇
罗琳
江连强
凌爱芬
朱先州
宋效东
李德成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN TOBACCO Corp LIANGSHANZHOU BRANCH
Institute of Soil Science of CAS
Original Assignee
SICHUAN TOBACCO Corp LIANGSHANZHOU BRANCH
Institute of Soil Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN TOBACCO Corp LIANGSHANZHOU BRANCH, Institute of Soil Science of CAS filed Critical SICHUAN TOBACCO Corp LIANGSHANZHOU BRANCH
Priority to CN202210185325.6A priority Critical patent/CN114970934A/zh
Publication of CN114970934A publication Critical patent/CN114970934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/23Design optimisation, verification or simulation using finite element methods [FEM] or finite difference methods [FDM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于特征集成学习的土壤厚度类型预测方法,有效地利用了影响土壤厚度变化的环境变量来构建预测模型,通过最优环境变量集合的筛选,构建连续型土壤厚度集成预测模型、土壤深度区间集成预测模型,并最终获得覆盖目标区域的土壤厚度区间空间分布,比传统的空间插值技术具有更高的预测精度,在未来面向山地区域或偏远地区缺乏足够多土壤厚度观测数据时,本发明能够降低土壤厚度观测点的数量需求,在保证土壤厚度空间分布预测精度的同时节约野外调查成本。

Description

一种基于特征集成学习的土壤厚度类型预测方法
技术领域
本发明涉及一种基于特征集成学习的土壤厚度类型预测方法,属于面向土壤水文学与计量土壤学中土壤厚度的技术领域。
背景技术
土壤厚度是土壤的一种物理属性,通常用来表示土壤物质自地表至某个特定界面的深度。因此,土壤厚度能够有效表示土壤物质中营养元素或可使用水分的存储深度,对土壤侵蚀、作物长势、生物多样性、土壤碳储量估算与土壤水分周转的准确模拟具有重要的意义。因此,获取区域高精度土壤厚度的空间分布图对生态系统评估、农业生产、水土保持、植被恢复、石漠化治理具有重要的实际指导作用。
不同的学科背景的科研工作者与不同应用部门的技术人员对土壤厚度的定义不尽相同。土壤厚度的划分存在不同的标准,部分学者将土壤厚度定义为土壤表面到土壤母质层的垂直深度;也有学者将土壤厚度定义为土壤养分或植物根系能够接触到的最大深度;有关部门技术人员也有将土壤厚度定义为耕作层厚度。无论土壤厚度在具体应用的定义有何不同,土壤厚度空间分布的预测往往作为同一类技术进行研究与应用。
土壤是一个时空维均连续的物质,存在着复杂的空间异质性。即使在同一时间,在田块尺度、流域尺度或国家尺度上,土壤厚度均呈现复杂的变化特征,难以使用一个常量来代表该地区土壤厚度的变化。有别于常规的地表植被覆盖度调查,土壤厚度难以直接观测。传统的土壤调查是使用剖面挖掘、钻井或自然出露基岩调查等方式在野外记录特定位置土壤的厚度。大区域土壤厚度调查,尤其是山地区域的道路可达性较低,土壤调查难度较大,需要耗费大量的人力、物力、时间与经费,效率低下,仅能获取离散位置的土壤厚度样点数据。因此,传统的土壤调查往往使用一个样点或多个样点观测到的平均土壤厚度值代表该区域的土壤厚度情况。
由于土壤物质与岩石具有不同的密度、导电性与磁性,部分技术人员尝试使用地球物理勘探技术进行土壤厚度探测,较为常用的技术包括高密度电阻率法、地质雷达法、地震勘探法、大地电磁、伽马射线检测法等。地球物理勘探技术具有无损检测的优势,不需要破坏原来土壤的物理结构,土壤物理信息采集速度快、效率高、精度高。例如,相关研究表明使用 EM38电磁感应仪器反演的土壤厚度精度较高,其决定系数可达0.7-0.8。但由于地球物理勘探技术无法获取土壤厚度的真实数值,往往需要跟野外钻井等传统土壤调查相结合,根据野外观测到的土壤厚度数值对地球物理勘探模型进行校正与检验。由于不同地球物理勘探设备的技术特点,不同的技术方法往往具有特定的作业环境或适用范围的要求,例如在土壤含水率较高、地下水位较浅的地区,探地雷达的振幅很容易受到含水率变化的影响。另外,地球物理勘探往往以测线的形式进行野外作业,仅能获取到该测线覆盖区域的土壤厚度分布数值。
为了获取覆盖更大区域的土壤厚度空间分布图,技术人员经常使用地理信息系统技术对离散的土壤厚度样点数据进行空间插值。该方法假设土壤厚度在空间上的分布具有一定的规律性,也即量化土壤厚度空间变异特征。常用的地统计方法包括普通克里格、简单克里格、泛克里格与协同克里格。然而,研究学者开展的案例结果表明空间插值方法预测精度在不同的地区不尽相同,在最优预测方法方面没有形成统一的结论。
近年来,随着数字土壤制图的迅速发展,国内外学者与技术人员更倾向于使用基于“土壤景观模型”进行土壤厚度的空间预测。该模型假设土壤属性受到地形、成土母质、植被、气候等成土因素的影响,使用这些环境变量作为协变量构建的预测模型能够更准确地获取土壤厚度空间分布图。较为成熟的空间预测技术包括支持向量机、随机森林、地理加权回归、深度学习、模糊C均值聚类等。相关研究也表明这种预测模型的整体预测精度要显著高于地统计或统计模型。
由于土壤厚度呈现的高度的空间变化特征及受到地形、气候等环境因素的综合影响,土壤厚度的空间预测精度较低,不同预测技术难以高效地直接应用在目标区域土壤厚度的预测上。归纳起来,现有技术主要存在以下几个方面的技术问题:
(1)无论是传统的土壤剖面挖掘还是地质钻井,野外土壤调查仅能获取到调查土壤深度的信息。部分地区(例如黄土高原)土壤厚度高达上百米,如果调查的深度小于土壤的实际厚度,工作人员往往只记录实际的观测深度,例如将土壤厚度标识为“>2m”或“2m”。在实际的空间预测过程中,使用这种低于实际土壤厚度的观测数据构建预测模型,很容易低估部分地区的土壤厚度。
(2)传统的土壤调查方式效率低下,无法获取大量的观测数据。地球物理勘探技术虽然作业效率较高,但仅能获取测线序列下土壤厚度的数值。这两种作业方式获取到的“点”、“线”状的土壤厚度信息数据量非常有限,而且在偏远地区、山地区域作业难度较高。
(3)由于山地区域地形变化复杂,土壤厚度的空间分布异质性非常高。由于土壤厚度的物理形成机制非常复杂,涉及到土壤风化速率与土壤侵蚀过程的土壤再分配,因此,土壤厚度与环境变量(协变量)的相关性往往较低,这直接导致地统计、基于土壤景观模型的数字土壤制图技术的预测精度往往较为低下。部分容易获取到的环境变量,例如遥感因子、土地利用、植被覆盖度等难以有效表征土壤厚度的空间变化特征。
(4)目前可用的空间预测技术在稳健性方面存在显著不足。不同的空间预测技术往往基于特定的模型假设。虽然预测模型的整体精度存在显著差异,但不同的技术在作业区域的不同局部地区可能取得不同的预测精度,如何准确识别并有效集成这些准确预测的结果是现有技术的显著缺陷。
综上所述,对于上述分析的技术不足,同样出现在部分土壤物理、化学性质的空间预测方面。
发明内容
本发明所要解决的技术问题是提供一种基于特征集成学习的土壤厚度类型预测方法,涵盖了连续型土壤厚度集成学习和不同种类土壤厚度数据集成学习两个关键技术环节,能够有效地提升现有土壤厚度预测中不确定性较高与预测精度低的问题。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于特征集成学习的土壤厚度类型预测方法,按如下步骤A至步骤F,获得目标区域所对应的土壤厚度集成预测模型、及相应精度,以及获得目标区域所对应的土壤深度区间集成预测模型、及相应精度;然后按步骤i至步骤iii,获得目标区域所对应的土壤厚度区间空间分布;
步骤A.基于目标区域中对应不同土地类型的预设各样点位置,由各样点位置的土壤厚度数值,分别构成各样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度数据特征向量,构成连续型土壤厚度数据集ConDep;
同时基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集 DisDep;然后进入步骤B;
步骤B.获得覆盖目标区域的预设各环境变量的数据,并采用重采样方法,获得目标区域在各样点位置分布所对应分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C;
步骤C.基于目标区域中各网格分别对应各环境变量的数据,即获得各样点位置分别对应各环境变量的数据,依据各环境变量与土壤厚度数值之间的相关性,确定各环境变量中与土壤厚度数值相关的各个最优环境变量,组成目标环境变量组,然后进入步骤D;
步骤D.基于目标区域中各网格分别对应各环境变量的数据,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤厚度数据特征向量中进行更新,进而更新连续型土壤厚度数据集ConDep;
同时,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤深度区间特征向量中进行更新,进而更新离散型土壤深度区间数据集 DisDep,然后进入步骤E;
步骤E.分别针对预设各类型待训练模型,基于连续型土壤厚度数据集ConDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤厚度数值为输出,针对待训练模型进行训练,获得连续型土壤厚度预测模型PreTch_i(dep),并获得该土壤厚度预测模型的决定系数R2_i;其中,1≤i≤I,I表示各类型待训练模型的数量, PreTch_i(dep)表示第i个连续型土壤厚度预测模型,R2_i表示第i个土壤厚度预测模型的决定系数;
同时,分别针对预设各类型待训练模型,基于离散型土壤深度区间数据集DisDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤深度区间为输出,针对待训练模型进行训练,获得土壤深度区间预测模型ClaTch_i(dep),并获得该土壤深度区间预测模型的精度Accu_i;ClaTch_i(dep)表示第i个土壤深度区间预测模型,Accu_i 表示第i个土壤深度区间预测模型的精度;
然后进入步骤F;
步骤F.基于各连续型土壤厚度预测模型PreTch_i(dep),以及相应的决定系数R2_i,构建连续型土壤厚度集成预测模型如下:
Figure BDA0003523038250000041
其中,fcon(dep)表示土壤厚度数值,并根据连续型土壤厚度数据集ConDep,获得土壤厚度集成预测模型的精度Con_R2;
同时,基于各土壤深度区间预测模型ClaTch_i(dep),以及相应的精度Accu_i,构建土壤深度区间集成预测模型如下:
Figure BDA0003523038250000042
其中,fdis(dep)表示土壤深度区间,并根据离散型土壤深度区间数据集DisDep,获得土壤深度区间集成预测模型的精度DisAccu;
步骤i.获得目标区域对应目标环境变量组中各最优环境变量的数据分布,然后进入步骤 ii;
步骤ii.根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用土壤深度区间集成预测模型,获得覆盖目标区域的土壤厚度区间第一空间分布Map_Dis1;
同时根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用连续型土壤厚度集成预测模型,获得覆盖目标区域的土壤厚度数值空间分布;并结合步骤A中基于各土壤厚度阈值所划分的各个土壤深度区间,获得覆盖目标区域的土壤厚度数值空间分布所对应的土壤厚度区间第二空间分布Map_Dis2;然后进入步骤iii;
步骤iii.按如下公式:
Figure BDA0003523038250000051
获得覆盖目标区域的土壤厚度区间空间分布fcd(dep)。
作为本发明的一种优选技术方案,所述步骤A包括步骤A1至步骤A3如下:
步骤A1.分别针对目标区域中对应不同土地类型的预设各样点位置,获得样点位置的土壤厚度数值,构成该样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度数据特征向量,构成连续型土壤厚度数据集ConDep={cp_1,…,cp_m,…,cp_M},然后进入步骤A2;其中,1≤m≤M,M表示样点位置的数量,cp_m表示第m个样点位置的土壤厚度数据特征向量;
步骤A2.针对连续型土壤厚度数据集ConDep进行处理,使得连续型土壤厚度数据集 ConDep符合正态分布,然后进入步骤A3;
步骤A3.基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集DisDep={dp_1,…,dp_m,…,dp_M},然后进入步骤D;其中,dp_m表示第m个样点位置的土壤深度区间特征向量。
作为本发明的一种优选技术方案:所述步骤A1中,分别针对目标区域中对应不同土地类型的预设各样点位置,获得样点位置的土壤厚度数值、坐标经度信息、坐标纬度信息、土地利用类型,构成该样点位置的土壤厚度数据特征向量;
所述步骤A3中,基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,结合各样点位置的坐标经度信息、坐标纬度信息、土地利用类型,构成各样点位置的土壤深度区间特征向量。
作为本发明的一种优选技术方案:所述步骤A2中,应用自然对数函数,针对连续型土壤厚度数据集ConDep进行处理,使得连续型土壤厚度数据集ConDep符合正态分布。
作为本发明的一种优选技术方案:所述步骤B包括如下步骤B1至步骤B2;
步骤B1.获得覆盖目标区域的预设各环境变量的数据,并分别针对各环境变量,应用 Z-Score标准化方法分别针对各环境变量,执行数据标准化处理,更新各环境变量的数据,然后进入步骤B2;
步骤B2.统一各环境变量的数据的地理坐标系、以及数据格式,针对各环境变量的数据进行更新,并采用重采样方法,获得目标区域在分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C。
作为本发明的一种优选技术方案:所述步骤i中,获得目标区域对应目标环境变量组中各最优环境变量的数据分布,并按步骤B1的操作、以及步骤B2统一各环境变量的数据的地理坐标系、以及数据格式,针对该各最优环境变量的数据分布进行更新,然后进入步骤ii。
作为本发明的一种优选技术方案:所述预设各环境变量包括地形因子、遥感因子、气候变量、生物因子、地质因子;
其中,地形因子:高程、坡度、坡向、地形湿度指数、平面曲率、坡面曲率、坡位、坡形、坡长、地形起伏度、地表粗糙度、地表切割深度;
遥感因子:遥感影像的各波段、叶面积指数、比值植被指数、差值环境植被指数、绿度植被指数、垂直植被指数、归一化植被指数;
气候变量:年均降雨、年均气温、平均日照时数、平均风速;
生物因子:植被类型、土地利用;
地质因子:成土母质、水文地质图。
作为本发明的一种优选技术方案:所述重采样方法为双线性插值方法、最邻近分配法、三次卷积插值法、众数法中的任意一种。
作为本发明的一种优选技术方案:所述步骤E中预设各类型待训练模型包括地理加权回归、随机森林、支持向量机、深度学习、决策树、k-近邻算法、贝叶斯分类、分类树。
作为本发明的一种优选技术方案:所述步骤E中各土壤厚度预测模型精度的计算、各土壤深度区间预测模型精度的计算,以及所述步骤F中土壤厚度集成预测模型精度的计算、土壤深度区间集成预测模型精度的计算,所采用的精度计算方法为十折交叉验证、五折交叉验证、三折交叉验证、留一法验证中的任意一种,并且采用均方根误差、性能偏差比、误差平方和、校正决定系数中的任意一种作为精度标准。
本发明所述一种基于特征集成学习的土壤厚度类型预测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明所设计基于特征集成学习的土壤厚度类型预测方法,有效地利用了影响土壤厚度变化的环境变量来构建预测模型,通过最优环境变量集合的筛选,构建连续型土壤厚度集成预测模型、土壤深度区间集成预测模型,并最终获得覆盖目标区域的土壤厚度区间空间分布,比传统的空间插值技术具有更高的预测精度,在未来面向山地区域或偏远地区缺乏足够多土壤厚度观测数据时,本发明能够降低土壤厚度观测点的数量需求,在保证土壤厚度空间分布预测精度的同时节约野外调查成本;
(2)本发明所设计基于特征集成学习的土壤厚度类型预测方法,有别于传统的连续型土壤厚度预测,提出了面向具体业务需求的土壤厚度类型预测,也即离散型土壤厚度数据预测,能够充分地挖掘分类模型的预测优势,避免了传统预测技术仅关注于连续型预测模型的泛化能力的不足,能够最大程度上提升分类模型在土壤厚度的预测能力;
(3)本发明所设计基于特征集成学习的土壤厚度类型预测方法,能够有效地将弱学习器进行集成,非常灵活,同时又能够有效地规避各子模型的过拟合问题。构建的多类型集成学习模型泛化错误率较低,精度高,用户在实际使用过程中不需要调整过多的模型参数,最大程度上提升了计算结果的准确性。
附图说明
图1是本发明所设计基于特征集成学习的土壤厚度类型预测方法的主要流程图;
图2是实施案例土壤厚度采样点空间分布;
图3是实施案例地区环境变量高程的空间分布图;
图4是实施案例地区环境变量坡度的空间分布图;
图5是实施案例地区环境变量地形湿度指数的空间分布图;
图6是实施案例地区环境变量年均降雨的空间分布图;
图7是实施案例地区环境变量年均气温的空间分布图;
图8是实施案例地区环境变量归一化植被指数的空间分布图;
图9是实施案例地区预测的土壤厚度区间空间分布图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明所设计一种基于特征集成学习的土壤厚度类型预测方法,实际应用当中,如图1 所示,按如下步骤A至步骤F,获得目标区域所对应的土壤厚度集成预测模型、及相应精度,以及获得目标区域所对应的土壤深度区间集成预测模型、及相应精度。
步骤A.基于目标区域中对应不同土地类型的预设各样点位置,由各样点位置的土壤厚度数值,分别构成各样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度,数据特征向量,构成连续型土壤厚度数据集ConDep。
同时基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集 DisDep;然后进入步骤B。这里所划分的各个土壤深度区间,在实际应用当中,诸如将土壤厚度分为0-20cm、20-50cm、50-100cm与>100cm四个区间,这里各土壤厚度阈值为20cm、 50cm、100cm。
实际应用当中,上述步骤A具体执行如下步骤A1至步骤A3。
步骤A1.分别针对目标区域中对应不同土地类型的预设各样点位置,获得样点位置的土壤厚度数值、坐标经度信息、坐标纬度信息、土地利用类型,构成该样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度数据特征向量,构成连续型土壤厚度数据集 ConDep={cp_1,…,cp_m,…,cp_M},然后进入步骤A2;其中,1≤m≤M,M表示样点位置的数量, cp_m表示第m个样点位置的土壤厚度数据特征向量。
实际应用中,对于各样点位置的土壤厚度数据特征向量,若其中土地利用类型为水体,则水体所对应的土壤厚度数值为0,并且在实际应用中,对于不存在土壤厚度数值、坐标经度信息、坐标纬度信息、土地利用类型四个信息的样点位置,则予以删除,不参与进一步的分析。
步骤A2.应用自然对数函数,针对连续型土壤厚度数据集ConDep进行处理,使得连续型土壤厚度数据集ConDep符合正态分布,然后进入步骤A3。
步骤A3.基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,结合各样点位置的坐标经度信息、坐标纬度信息、土地利用类型,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集DisDep={dp_1,…, dp_m,…,dp_M},然后进入步骤D;其中,dp_m表示第m个样点位置的土壤深度区间特征向量。
步骤B.获得覆盖目标区域的预设各环境变量的数据,并采用重采样方法,获得目标区域在各样点位置分布所对应分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C。
上述步骤B在实际应用中,具体执行如下步骤B1至步骤B2。
步骤B1.获得覆盖目标区域的预设各环境变量的数据,并分别针对各环境变量,应用 Z-Score标准化方法分别针对各环境变量,执行数据标准化处理,更新各环境变量的数据,使其数据符合标准正态分布,即均值为0,标准差为1,然后进入步骤B2。
步骤B2.统一各环境变量的数据的地理坐标系、以及数据格式,针对各环境变量的数据进行更新,并采用双线性插值方法、最邻近分配法、三次卷积插值法、众数法中的任意一种重采样方法,获得目标区域在分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C。
实际应用当中,根据业务部门的地理环境数据收集与共享数据下载,获取覆盖研究区影响土壤厚度、不同分辨率的环境变量数据,各环境变量包括地形因子、遥感因子、气候变量、生物因子、地质因子。
其中,地形因子:高程、坡度、坡向、地形湿度指数、平面曲率、坡面曲率、坡位、坡形、坡长、地形起伏度、地表粗糙度、地表切割深度。
遥感因子:遥感影像的各波段、叶面积指数、比值植被指数、差值环境植被指数、绿度植被指数、垂直植被指数、归一化植被指数。
气候变量:年均降雨、年均气温、平均日照时数、平均风速。
生物因子:植被类型、土地利用。
地质因子:成土母质、水文地质图。
栅格数据的格式可以为Esri Grid、GIF、IMG、JPEG、TIFF、MRF、CRF等。
步骤C.基于目标区域中各网格分别对应各环境变量的数据,即获得各样点位置分别对应各环境变量的数据,依据各环境变量与土壤厚度数值之间的相关性,确定各环境变量中与土壤厚度数值相关的各个最优环境变量,组成目标环境变量组,然后进入步骤D。
步骤D.基于目标区域中各网格分别对应各环境变量的数据,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤厚度数据特征向量中进行更新,进而更新连续型土壤厚度数据集ConDep。
同时,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤深度区间特征向量中进行更新,进而更新离散型土壤深度区间数据集 DisDep,然后进入步骤E。
步骤E.分别针对预设各类型待训练模型,基于连续型土壤厚度数据集ConDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤厚度数值为输出,针对待训练模型进行训练,获得连续型土壤厚度预测模型PreTch_i(dep),并获得该土壤厚度预测模型的决定系数R2_i;其中,1≤i≤I,I表示各类型待训练模型的数量, PreTch_i(dep)表示第i个连续型土壤厚度预测模型,R2_i表示第i个土壤厚度预测模型的决定系数。
实际应用当中,这里的预设各类型待训练模型包括地理加权回归、随机森林、支持向量机、深度学习、决策树、k-近邻算法、贝叶斯分类、分类树。
同时,分别针对预设各类型待训练模型,基于离散型土壤深度区间数据集DisDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤深度区间为输出,针对待训练模型进行训练,获得土壤深度区间预测模型ClaTch_i(dep),并获得该土壤深度区间预测模型的精度Accu_i;ClaTch_i(dep)表示第i个土壤深度区间预测模型,Accu_i 表示第i个土壤深度区间预测模型的精度;然后进入步骤F。
步骤F.基于各连续型土壤厚度预测模型PreTch_i(dep),以及相应的决定系数R2_i,构建连续型土壤厚度集成预测模型如下:
Figure BDA0003523038250000101
其中,fcon(dep)表示土壤厚度数值,并根据连续型土壤厚度数据集ConDep,获得土壤厚度集成预测模型的精度Con_R2。
同时,基于各土壤深度区间预测模型ClaTch_i(dep),以及相应的精度Accu_i,构建土壤深度区间集成预测模型如下:
Figure BDA0003523038250000102
其中,fdis(dep)表示土壤深度区间,并根据离散型土壤深度区间数据集DisDep,获得土壤深度区间集成预测模型的精度DisAccu。
上述设计在实际应用当中,步骤E中各土壤厚度预测模型精度的计算、各土壤深度区间预测模型精度的计算,以及所述步骤F中土壤厚度集成预测模型精度的计算、土壤深度区间集成预测模型精度的计算,所采用的精度计算方法为十折交叉验证、五折交叉验证、三折交叉验证、留一法验证中的任意一种,并且采用均方根误差、性能偏差比、误差平方和、校正决定系数中的任意一种作为精度标准。
基于上述获得目标区域所对应的土壤厚度集成预测模型、及相应精度,以及获得目标区域所对应的土壤深度区间集成预测模型、及相应精度;进一步按步骤i至步骤iii,获得目标区域所对应的土壤厚度区间空间分布。
步骤i.获得目标区域对应目标环境变量组中各最优环境变量的数据分布,并按步骤B1 的操作、以及步骤B2统一各环境变量的数据的地理坐标系、以及数据格式,针对该各最优环境变量的数据分布进行更新,然后进入步骤ii。
步骤ii.根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用土壤深度区间集成预测模型,获得覆盖目标区域的土壤厚度区间第一空间分布Map_Dis1。
同时根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用连续型土壤厚度集成预测模型,获得覆盖目标区域的土壤厚度数值空间分布;并结合步骤A中基于各土壤厚度阈值所划分的各个土壤深度区间,获得覆盖目标区域的土壤厚度数值空间分布所对应的土壤厚度区间第二空间分布Map_Dis2;然后进入步骤iii。
步骤iii.按如下公式:
Figure BDA0003523038250000111
获得覆盖目标区域的土壤厚度区间空间分布fcd(dep)。
将本发明所设计基于特征集成学习的土壤厚度类型预测方法,应用于实际当中,以四川省南部地区的土壤厚度预测为例,在该作业区域,土壤厚度定义为地表至弱风化层或新鲜基岩的深度,以四川省南部的凉山州与攀枝花地区的土壤厚度预测为例。
具体按本发明设计实施当中,各样点位置的空间分布如图2所示,步骤A中,基于各土壤厚度阈值60cm、100cm,划分为3个土壤厚度区间,即第一个土壤厚度区间为0cm-60cm深度区间,第二个土壤厚度区间为60cm-100cm深度区间,第三个土壤厚度区间为大于100cm深度区间,进而获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集DisDep。
执行步骤B,获得覆盖目标区域的预设各环境变量的数据,包括高程、坡度、坡向、地形湿度指数、地表粗糙度、归一化植被指数、差值环境植被指数、土地利用、年均降雨、年均气温、平均日照时数、成土母质,且栅格数据的格式为Esri Grid或TIFF;并使用Z-score标准化方法标准化每一种环境变量,以及使用地理信息系统软件,将所有的环境变量数据设置为统一的地理坐标系(WGS_1984_Albers);然后采用重采样方法,获得目标区域在各样点位置分布所对应分辨率1km网格划分下、各网格分别对应各环境变量的数据,格式为TIFF。
基于步骤C的执行,确定各环境变量中与土壤厚度数值相关的各个最优环境变量,包括高程、坡度、地形湿度指数、年均降雨、年均气温、归一化植被指数,分别如图3-8所示,进而组成目标环境变量组,进一步执行步骤D至步骤E。
继续执行步骤F中,构建连续型土壤厚度集成预测模型、以及土壤深度区间集成预测模型,最后在实施例的应用中,执行步骤i至步骤iii,获得覆盖目标区域的土壤厚度区间空间分布fcd(dep),如图9所示。
通过本发明所设计方案的实际实施,能够有效地将连续型土壤厚度预测子模型、离散型土壤厚度预测子模型进行整合,最大程度上提升土壤厚度预测的稳健性,并且基于特征的集成学习方法具有较高的普适性,不仅能够应用在土壤厚度类型的空间预测方面,还可以计算类似的地理实体的空间分布,如冰川厚度、基岩深度等。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (10)

1.一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:按如下步骤A至步骤F,获得目标区域所对应的土壤厚度集成预测模型、及相应精度,以及获得目标区域所对应的土壤深度区间集成预测模型、及相应精度;然后按步骤i至步骤iii,获得目标区域所对应的土壤厚度区间空间分布;
步骤A.基于目标区域中对应不同土地类型的预设各样点位置,由各样点位置的土壤厚度数值,分别构成各样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度数据特征向量,构成连续型土壤厚度数据集ConDep;
同时基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集DisDep;然后进入步骤B;
步骤B.获得覆盖目标区域的预设各环境变量的数据,并采用重采样方法,获得目标区域在各样点位置分布所对应分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C;
步骤C.基于目标区域中各网格分别对应各环境变量的数据,即获得各样点位置分别对应各环境变量的数据,依据各环境变量与土壤厚度数值之间的相关性,确定各环境变量中与土壤厚度数值相关的各个最优环境变量,组成目标环境变量组,然后进入步骤D;
步骤D.基于目标区域中各网格分别对应各环境变量的数据,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤厚度数据特征向量中进行更新,进而更新连续型土壤厚度数据集ConDep;
同时,将各样点位置分别对应目标环境变量组中各最优环境变量的数据,分别添加至对应样点位置的土壤深度区间特征向量中进行更新,进而更新离散型土壤深度区间数据集DisDep,然后进入步骤E;
步骤E.分别针对预设各类型待训练模型,基于连续型土壤厚度数据集ConDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤厚度数值为输出,针对待训练模型进行训练,获得连续型土壤厚度预测模型PreTch_i(dep),并获得该土壤厚度预测模型的决定系数R2_i;其中,1≤i≤I,I表示各类型待训练模型的数量,PreTch_i(dep)表示第i个连续型土壤厚度预测模型,R2_i表示第i个土壤厚度预测模型的决定系数;
同时,分别针对预设各类型待训练模型,基于离散型土壤深度区间数据集DisDep,以样点位置对应目标环境变量组中各最优环境变量的数据为输入,样点位置所对应土壤深度区间为输出,针对待训练模型进行训练,获得土壤深度区间预测模型ClaTch_i(dep),并获得该土壤深度区间预测模型的精度Accu_i;ClaTch_i(dep)表示第i个土壤深度区间预测模型,Accu_i表示第i个土壤深度区间预测模型的精度;
然后进入步骤F;
步骤F.基于各连续型土壤厚度预测模型PreTch_i(dep),以及相应的决定系数R2_i,构建连续型土壤厚度集成预测模型如下:
Figure FDA0003523038240000021
其中,fcon(dep)表示土壤厚度数值,并根据连续型土壤厚度数据集ConDep,获得土壤厚度集成预测模型的精度Con_R2;
同时,基于各土壤深度区间预测模型ClaTch_i(dep),以及相应的精度Accu_i,构建土壤深度区间集成预测模型如下:
Figure FDA0003523038240000022
其中,fdis(dep)表示土壤深度区间,并根据离散型土壤深度区间数据集DisDep,获得土壤深度区间集成预测模型的精度DisAccu;
步骤i.获得目标区域对应目标环境变量组中各最优环境变量的数据分布,然后进入步骤ii;
步骤ii.根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用土壤深度区间集成预测模型,获得覆盖目标区域的土壤厚度区间第一空间分布Map_Dis1;
同时根据目标区域对应目标环境变量组中各最优环境变量的数据分布,应用连续型土壤厚度集成预测模型,获得覆盖目标区域的土壤厚度数值空间分布;并结合步骤A中基于各土壤厚度阈值所划分的各个土壤深度区间,获得覆盖目标区域的土壤厚度数值空间分布所对应的土壤厚度区间第二空间分布Map_Dis2;然后进入步骤iii;
步骤iii.按如下公式:
Figure FDA0003523038240000023
获得覆盖目标区域的土壤厚度区间空间分布fcd(dep)。
2.根据权利要求1所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤A包括步骤A1至步骤A3如下:
步骤A1.分别针对目标区域中对应不同土地类型的预设各样点位置,获得样点位置的土壤厚度数值,构成该样点位置的土壤厚度数据特征向量,进而由各样点位置的土壤厚度数据特征向量,构成连续型土壤厚度数据集ConDep={cp_1,…,cp_m,…,cp_M},然后进入步骤A2;其中,1≤m≤M,M表示样点位置的数量,cp_m表示第m个样点位置的土壤厚度数据特征向量;
步骤A2.针对连续型土壤厚度数据集ConDep进行处理,使得连续型土壤厚度数据集ConDep符合正态分布,然后进入步骤A3;
步骤A3.基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,构成各样点位置的土壤深度区间特征向量,进而由各样点位置的土壤深度区间特征向量,构成离散型土壤深度区间数据集DisDep={dp_1,…,dp_m,…,dp_M},然后进入步骤D;其中,dp_m表示第m个样点位置的土壤深度区间特征向量。
3.根据权利要求2所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤A1中,分别针对目标区域中对应不同土地类型的预设各样点位置,获得样点位置的土壤厚度数值、坐标经度信息、坐标纬度信息、土地利用类型,构成该样点位置的土壤厚度数据特征向量;
所述步骤A3中,基于预设由小至大或由大至小依次排序各土壤厚度阈值、所划分的各个土壤深度区间,获得各样点位置土壤厚度数值所对应的土壤深度区间,结合各样点位置的坐标经度信息、坐标纬度信息、土地利用类型,构成各样点位置的土壤深度区间特征向量。
4.根据权利要求2所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤A2中,应用自然对数函数,针对连续型土壤厚度数据集ConDep进行处理,使得连续型土壤厚度数据集ConDep符合正态分布。
5.根据权利要求1所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤B包括如下步骤B1至步骤B2;
步骤B1.获得覆盖目标区域的预设各环境变量的数据,并分别针对各环境变量,应用Z-Score标准化方法分别针对各环境变量,执行数据标准化处理,更新各环境变量的数据,然后进入步骤B2;
步骤B2.统一各环境变量的数据的地理坐标系、以及数据格式,针对各环境变量的数据进行更新,并采用重采样方法,获得目标区域在分辨率Res网格划分下、各网格分别对应各环境变量的数据,然后进入步骤C。
6.根据权利要求5所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤i中,获得目标区域对应目标环境变量组中各最优环境变量的数据分布,并按步骤B1的操作、以及步骤B2统一各环境变量的数据的地理坐标系、以及数据格式,针对该各最优环境变量的数据分布进行更新,然后进入步骤ii。
7.根据权利要求1或5所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述预设各环境变量包括地形因子、遥感因子、气候变量、生物因子、地质因子;
其中,地形因子:高程、坡度、坡向、地形湿度指数、平面曲率、坡面曲率、坡位、坡形、坡长、地形起伏度、地表粗糙度、地表切割深度;
遥感因子:遥感影像的各波段、叶面积指数、比值植被指数、差值环境植被指数、绿度植被指数、垂直植被指数、归一化植被指数;
气候变量:年均降雨、年均气温、平均日照时数、平均风速;
生物因子:植被类型、土地利用;
地质因子:成土母质、水文地质图。
8.根据权利要求1或5所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述重采样方法为双线性插值方法、最邻近分配法、三次卷积插值法、众数法中的任意一种。
9.根据权利要求1所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤E中预设各类型待训练模型包括地理加权回归、随机森林、支持向量机、深度学习、决策树、k-近邻算法、贝叶斯分类、分类树。
10.根据权利要求1所述一种基于特征集成学习的土壤厚度类型预测方法,其特征在于:所述步骤E中各土壤厚度预测模型精度的计算、各土壤深度区间预测模型精度的计算,以及所述步骤F中土壤厚度集成预测模型精度的计算、土壤深度区间集成预测模型精度的计算,所采用的精度计算方法为十折交叉验证、五折交叉验证、三折交叉验证、留一法验证中的任意一种,并且采用均方根误差、性能偏差比、误差平方和、校正决定系数中的任意一种作为精度标准。
CN202210185325.6A 2022-02-28 2022-02-28 一种基于特征集成学习的土壤厚度类型预测方法 Pending CN114970934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210185325.6A CN114970934A (zh) 2022-02-28 2022-02-28 一种基于特征集成学习的土壤厚度类型预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210185325.6A CN114970934A (zh) 2022-02-28 2022-02-28 一种基于特征集成学习的土壤厚度类型预测方法

Publications (1)

Publication Number Publication Date
CN114970934A true CN114970934A (zh) 2022-08-30

Family

ID=82975556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210185325.6A Pending CN114970934A (zh) 2022-02-28 2022-02-28 一种基于特征集成学习的土壤厚度类型预测方法

Country Status (1)

Country Link
CN (1) CN114970934A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908735A (zh) * 2022-11-28 2023-04-04 浙江财经大学 融合有限剖面及表层土壤样点的精细三维土壤制图方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908735A (zh) * 2022-11-28 2023-04-04 浙江财经大学 融合有限剖面及表层土壤样点的精细三维土壤制图方法
CN115908735B (zh) * 2022-11-28 2023-09-08 浙江财经大学 融合有限剖面及表层土壤样点的精细三维土壤制图方法

Similar Documents

Publication Publication Date Title
Dobarco et al. Uncertainty assessment of GlobalSoilMap soil available water capacity products: A French case study
Morari et al. Application of multivariate geostatistics in delineating management zones within a gravelly vineyard using geo-electrical sensors
Borujeni et al. Assessing geopedological soil mapping approach by statistical and geostatistical methods: a case study in the Borujen region, Central Iran
Bai et al. Estimation of surface soil moisture with downscaled land surface temperatures using a data fusion approach for heterogeneous agricultural land
CN109063657B (zh) 面向均质地域光谱单元的地上生物量估算和尺度转换方法
Kim et al. Scale-dependent predictability of DEM-based landform attributes for soil spatial variability in a coastal dune system
Lambin et al. Time series of remote sensing data for land change science
Chen et al. Digital mapping of the soil thickness of loess deposits over a calcareous bedrock in central France
Wiese et al. An approach to soil carbon accounting and mapping using vertical distribution functions for known soil types
Hengl et al. Geomorphometry—a key to landscape mapping and modelling
CN105528523B (zh) 一种基于遥感数据的土壤厚度反演方法
CN114169161A (zh) 一种土壤有机碳时空变异和固碳潜力估计方法和系统
Skaugen et al. Modeling the snow depth variability with a high‐resolution lidar data set and nonlinear terrain dependency
Kumari et al. Application of multi-criteria decision making (MCDM) and electrical resistivity tomography (ERT) techniques for identification of groundwater recharge zone (s) in granitic hard rock aquifer
Levavasseur et al. Spatial modeling of man-made drainage density of agricultural landscapes
CN114970934A (zh) 一种基于特征集成学习的土壤厚度类型预测方法
Chang et al. Optimal site selection of watershed hydrological monitoring stations using remote sensing and grey integer programming
Bock et al. XV. Methods for creating functional soil databases and applying digital soil mapping with SAGA GIS
Pan et al. Remote sensing inversion of soil organic matter by using the subregion method at the field scale
Tunçay Comparison quality of interpolation methods to estimate spatial distribution of soil moisture content
Liu et al. Soil polygon disaggregation through similarity-based prediction with legacy pedons
Fontaine et al. Application of electromagnetic induction to develop a precision irrigation framework to facilitate smallholder dry season farming in the Nasia-Kparigu area of northern Ghana
Yue et al. Soil moisture assessment through the SSMMI and GSSIM algorithm based on SPOT, WorldView-2, and Sentinel-2 images in the Daliuta Coal Mining Area, China
Feng et al. Predicting soil depth in a large and complex area using machine learning and environmental correlations
Wasee et al. Classification based on spectral characterization and analysis of land cover change in Dhaka

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination