CN111275072A - 一种基于聚类采样的山区土壤厚度预测方法 - Google Patents

一种基于聚类采样的山区土壤厚度预测方法 Download PDF

Info

Publication number
CN111275072A
CN111275072A CN202010013200.6A CN202010013200A CN111275072A CN 111275072 A CN111275072 A CN 111275072A CN 202010013200 A CN202010013200 A CN 202010013200A CN 111275072 A CN111275072 A CN 111275072A
Authority
CN
China
Prior art keywords
cluster
cluster center
data
sampling
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010013200.6A
Other languages
English (en)
Other versions
CN111275072B (zh
Inventor
王玮
赵宇
王锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010013200.6A priority Critical patent/CN111275072B/zh
Publication of CN111275072A publication Critical patent/CN111275072A/zh
Application granted granted Critical
Publication of CN111275072B publication Critical patent/CN111275072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据挖掘和地质测绘技术,旨在提供一种基于聚类采样的山区土壤厚度预测方法。包括:获取研究区内DEM,选取土壤厚度影响因子和各栅格点坐标,构建预测模型的输入数据库;确定DEM栅格的最佳分辨率,利用基于SDW‑FMS聚类方法对整个研究区的数据进行聚类分析;在每个分区内实地采样,对样本按照3∶1的比例进行训练集和测试集划分;建立地理加权回归模型以预测土壤厚度;对各分区的GWR模型进行性能测试,预测该分区其他栅格处的土层厚度。本发明采样均匀、其预测结果合理可靠、可拓展性高,可根据其他研究区地形和环境的特点随时更改影响要素,即可完成对土壤厚度的准确预测;能为其他地理空间情报的预测工作提供一定的借鉴作用。

Description

一种基于聚类采样的山区土壤厚度预测方法
技术领域
本发明涉及到数据挖掘和地质测绘技术领域,更具体地说,是在GIS的平台下,通过采用机器学习的方法对大范围山区内的地质、地貌信息进行挖掘,从而实现土壤厚度的高精度预测,这是一种基于多学科交叉融合的新方法。
背景技术
土壤厚度一般指从地表到基岩竖直方向上的深度,是土壤的一个重要属性,对多数地表及地下过程如地表演化、土壤运移、泥沙沉积等起着控制作用,也决定着土壤的持水和保水能力,对区域内植物的生长有着重要的影响。此外,土壤厚度还与滑坡等地质灾害的发育有着密切的关系,是浅层滑坡地质灾害的重要评价指标之一。所以,土壤厚度的有效预测,对区域地表演化过程、植被发育情况以及地质灾害评价均具有十分重要的意义。
为了扩大土壤厚度预测的应用范围,各国学者陆续推出了土壤厚度的空间模拟方法,其中点采样插值方法和土壤一景观模型外推法应用较广。点采样插值方法是通过野外实地探查得到单点上的土壤厚度实测值,然后再通过插值处理分析得到整个研究区域内的土壤厚度;而土壤-景观模型外推法是以土壤发生学为理论依据,结合数学方法和3S技术的一种定量预测方法,该方法假设相同的土壤环境能发育出相同类型的土壤,从样本出发建立土壤与景观单元的对应关系,通过这些景观单元的特征来预测土壤的属性。无论是点采样插值法还是土壤-景观模型外推法对样本的采集要求较高。
目前,采样方式大多以经典采样(随机和系统采样)、地统计采样和目的采样为主。经典采样往往需要大量样本才能获得高精度的地理要素空间分布,受人力、物理限制难以大范围应用;地统计采样不但需要大量样本来构造空间变异函数,还要求变异函数满足二阶平稳假设和其它内在假设,而地形地貌复杂多变的山区通常难以满足这些假设;目的采样是根据研究目的和先验知识,做少量具有代表性或平均性的状态样本抽样,但样本能否正确反映总体特征取决于研究者的主观判断,缺少客观的误差评估。
因此,为了实现大型山区内土壤厚度的准确预测,提出一种科学、高效、便捷的采样方法和预测方法是十分必要的。
发明内容
本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于聚类采样的山区土壤厚度预测方法。
为解决技术问题,本发明的解决方案是:
提供一种基于聚类采样的山区土壤厚度预测方法,包括以下步骤:
(1)获取研究区内数字高程模型(Digital elevation model,DEM);
(2)选取土壤厚度影响因子和各栅格点坐标,构建预测模型的输入数据库;
(3)确定DEM栅格的最佳分辨率;
(4)利用基于SDW-FMS(空间距离加权的快速均值漂移,Spatial distanceweighting-Fast mean shift)聚类方法对整个研究区的数据进行聚类分析,即对整个区域按相似属性进行分区;
(5)分别在每个分区内进行土壤厚度实地采样;
(6)对每个分区的样本按照3∶1的比例进行训练集和测试集划分;
(7)利用每个分区的训练集样本建立各自的地理加权回归(geographicallyweighed regression,GWR)模型以预测土壤厚度;
(8)利用分区的测试集样本对各自分区的GWR模型进行性能测试;
(9)利用各分区性能良好的GWR模型预测该分区其他栅格处的土层厚度。
本发明中,所述土壤厚度影响因子包括地形因子和环境因子。
本发明中,在所述步骤(3)中,采用试凑法确定DEM栅格最佳分辨率:分别对DEM中采样分辨率为10m、15m、20m、25m和30m所对应的影响因子进行聚类分析,根据聚类的效果选择最佳栅格分辨率。
本发明中,所述步骤(4)具体包括:
给定大数据集V={vi|vi=[xi×1,xi×2,...,xi×k,pi×1,pi×2]T∈Rk+2,i=1,2,…,n}其中,n为整个研究区栅格点个数;vi表示研究区内第i个栅格点数据,同时包含了k个影响因子和经纬度坐标值pi×1,pi×2
(1)空间距离加权(Spatial distance weighting,SDW)算法
对每个栅格点的各变量进行加权处理,其加权欧式距离如下:
Figure BDA0002357718700000021
通过每个变量的熵值确定其权值,具体计算步骤如下:
I.标准化栅格点数据
Figure BDA0002357718700000031
II.各变量的熵值计算
Figure BDA0002357718700000032
其中,
Figure BDA0002357718700000033
各变量的比值
Figure BDA0002357718700000034
III.各变量权值计算
Figure BDA0002357718700000035
(2)快速均值漂移(Fast mean shift,FMS)算法
根据“最近邻一致性”原则,采用序贯采样方式对原始大数据集初划分,在此基础上采用快速均值漂移方法对初划分簇心聚类;其具体步骤如下:
I.原始数据集划分
设最终划分的初始簇心集合为C={cj|j=1,2,...,m},各簇心所对应的簇记为Dataj(j=1,2,...,m),且每个簇含有nj个栅格点数据;数据划分具体操作如下:
通过SS方式从给定大数据集V中随机选取一个栅格点数据v作为第一个初始簇心c1,然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离distSDW(·);当遍历到点vi(i=1,2,...n)时,若distSDW(vi,cj)≤r,则将点vi与簇心cj归为一类,并添加进Dataj内,然后令i=i+1,继续遍历;而如果vi对所有的cj∈C都有distSDW(vi,cj)>r,则将该点vi作为新的簇心,将其添进集合C中;然后令i=i+1,继续遍历。直到V中所有的点都遍历一遍;最后对每个簇的所有栅格点数据取平均,以之作为最终的初始簇心,即
Figure BDA0002357718700000036
值得一提的是,参数r的选取应适当小于固定带宽h;
II.初始簇心更新
采用MS聚类算法对初始簇心集合进行迭代更新,当簇心cj迭代至收敛时,即
Figure BDA0002357718700000041
q为迭代次数,则停止该簇心的更新;转而继续更新簇心cj+1,如此依次进行,直至所有簇心都得到更新;MS簇心更新计算公式如下:
Figure BDA0002357718700000042
其中,
Figure BDA0002357718700000043
表示为distSDW(·)的平方;
Figure BDA0002357718700000044
g(·)为K(·)的影子核,即核函数K(·)求导的负方向,而核函数一般采用高斯核函数;
对于固定带宽h,其计算公式:
Figure BDA0002357718700000045
d为数据维度;σl为标准误差;
上式中迭代收敛计算以
Figure BDA0002357718700000046
开始,并将更新后的簇心记为
Figure BDA0002357718700000047
III.相似簇融合
对任意
Figure BDA0002357718700000048
Figure BDA0002357718700000049
则表示a,b簇为相似簇,并将两簇的栅格点集合dataa,datab合并成一个新的簇;否则划分为不同的簇。而误差ε2=10-3
本发明中,所述步骤(5)具体包括:根据聚类结果,找到各分区的簇心或簇心邻近区域进行土壤厚度的实地采样,并同时以各簇簇心或近似簇心为起点,以距离簇心为半径,分别在其周围进行适量采样;另根据分区大小决定是否需要进行多轮采样,即每轮采样以R的倍数N×R为半径进行,N=1,2,……,n。
发明原理描述:
本发明是在对整个研究区的地形、环境要素以及地理坐标做相似性聚类的基础上,进行有计划、有针对性的少量采样,之后在各类子区域内单独建立性能良好的预测模型以实现从采样点(土壤厚度已测得)出发逐步向该区其他未栅格点进行外延预测。主要包括:研究区数据库的建立、栅格分辨率的选取、各变量SDW权值计算、Mean Shift聚类、分区采样、分区GWR建模、分区GWR性能检验、分区GWR外延预测等内容。本发明的区域土壤厚度预测方法是从整个研究区的地形、地貌、环境因子和地理坐标等属性出发,将研究区内各栅格数据按照彼此之间的相似性进行分区,相似性高的数据点归为一类,组成一个分区,如此便将整个研究区域分割成多个子区域,且各子区域之间相似性较低,然后再分别对各子区域进行单独采样和预测。
与现有技术相比,本发明的有益效果是:
1、较之常规的基于采样方法所面临的采样不均(有些地形采集的多,有些采集的少,甚至漏采)的问题,本发明所采集到的样本足以涵盖整个研究区的特征属性,确保采样均匀;也避免了常规方法为确保预测准确率而需要大量采样所带来的高昂时间、经济、人力和物力等成本问题;此外,
2、就聚类效果而言,由于研究区地形复杂多变,栅格点的各变量对聚类结果的贡献程度有所差异。与常规的用于图像处理的FMS聚类算法相比,SDW-FMS通过计算相应的权值来强化相关性较强的变量和弱化相关性较弱的变量对聚类的影响,更适用于地形地貌特征复杂多变的地理空间信息处理。
3、就预测效果而言,研究区域之大,环境之复杂,本发明方法在各分区根据其数据特点独自建模、调参和外延预测,其预测结果合理可靠,且能完成大面积的准确预测。
4、本发明交叉融合了地质学、应用数学和信息科学等多学科知识,具有较高的理论深度和研究价值;而且其可拓展性较高,可根据其他研究区地形和环境的特点随时更改影响要素,即可完成对土壤厚度的准确预测;
5、本发明中针对大型区域的采样方式也能为其他地理空间情报的预测工作提供一定的借鉴作用。
附图说明
图1为本发明研究技术路线图;
图2为浙江省瑞安市湖岭地区(27°54′7"~27°59′16"N,120°19′30"~120°26′46″E)高程数据图;
图3为本研究采用的采样方式示意图(图中所使用分区边界线只为描述采样方式所用,并非实际聚类后的结果)。
具体实施方式
首先需要说明的是,本发明涉及大数据技术,是计算机技术在地理信息技术领域的一种应用。在本发明的实现过程中,会涉及到多种现有算法的应用,这些算法在相关领域已得到成功应用,如SDW算法的熵值法求权重在多元统计分析中得到广泛应用;FMS聚类算法也成功应用于聚类、跟踪和图像处理等技术;GWR算法也常见于空间地理信息领域和环境科学领域。本发明所涉及的现有算法包括但不限于:SDW算法、FMS聚类算法、和GWR算法等,中请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的技能实现本发明。凡本发明申请文件提及的均属此范畴,申请人不再一一列举。
下面结合附图和具体实施方式对本发明做进一步详细说明。
本发明提供一种基于聚类采样的区域土壤厚度预测方法,其实施步骤如下:
(1)获取研究区内数字高程模型(DEM);(2)提取土壤影响因子和栅格点坐标(即经、纬度),构建预测模型的输入数据库;(3)确定DEM的栅格大小,即分辨率;(4)利用SDW-FMS算法对整个研究区的栅格数据进行聚类分析,即对整个区域按相同属性进行分区;(5)根据聚类结果,分别对每个分区进行单独采样;(6)将每个分区所采集到的样本按3∶1的比例随机划分为训练集和测试集:(7)各分区在其训练集的基础上建立地理加权回归(geographically weighed regression,GWR)定量预测模型;(8)运用测试集数据对各分区已建的模型进行性能检测;(9)利用各分区性能良好的GWR模型对该分区其他未知结果的栅格数据进行预测。其中:
土壤影响因子主要分为地形影响因子和环境影响因子。其中,地形影响因子(高程、曲率、坡长和坡位等)数据是利用ArcGIS从DEM中获得,而环境影响因子包括植被覆盖度由Landsat 8OLI数据计算NDVI值得到。
DEM栅格大小的选取是通过试凑法从栅格尺寸为10m、15m、20m、25m和30m的栅格数据选择聚类效果最好的作为最佳尺寸。
聚类分析通过和轮廓系数(Silhouette Coefficient,SC)、各类间间隔性(Compactness,CP)和同类间紧凑性(Separation,SP)等指标进行评价。由于研究区面积很大,其所含栅格数据过多,且地形地貌等环境特征复杂多变,各变量的相对重要程度也会所有差异,而单纯地聚类不仅计算量过大而且聚类效果也欠佳(如表1所示)。因此,本发明将SDW算法和FMS聚类算法相结合,可实现快速高效的聚类。
表1为SDW-FMS联合算法与FMS算法对不同采样分辨率分别计算10次取平均的聚类结果
Figure BDA0002357718700000071
R&:CP/SP,该值越大聚类效果越佳;而SC则越接近1表示效果越好。
注:表1结果显示除采样分辨率为30m的聚类外,SDW-FMS的整体聚类效果要优于FMS。而造成这一差异的原因可能是由于30m的采样间隔过大,掩盖了该区间内的一些局部特征,使之倾向于均一化,更有利于FMS聚类。
分区采样按照每个分区的大小采集相应的样本量。此外,由于聚类计算是针对栅格数据进行的,因此聚类结果可能会出现同属一类的栅格数据在地理位置上被其他类的区域割裂成多个小块的现象。那么在对该类采样时,应该对同属于该类的每个小块区域分别进行采样。
预测模型的性能检测是通过预测均方根误差(Root Mean Squared ErrorofPrediction,RMSEP)、相关系数(R2)和相对分析误差(residual predictive deviation,RPD)进行界定。
下面将结合本发明实施的附图一,对本发明实施的技术方案进行清楚、完整地描述,其主要技术流程如下:
1、获取研究区内数字高程模型(Digital elevation model,DEM);
2、选取土壤厚度影响因子,构建预测模型的输入数据库;
土壤厚度是地形地貌、风化剥蚀和地表径流等多种因子共同作用下的结果,而影响因子的选择,是决定土壤厚度预测精度的重要因素。本发明通过分析土壤形成的物理过程,再结合前人的研究基础和专家经验选择的地形影响因子有:高程、曲率、坡度、坡向和地形湿度指数;选择的环境因子为植被覆盖度。其中,高程影响着土壤的垂直分布;坡度和坡向分别影响着地表物质和能量的强度和方向;平面曲率影响着地表物质和能量在地表上集中或分散方向;剖面曲率影响着物质和能量的加速或减速运动;地形湿度指数能有效地指示土壤内水分运动和土壤相对含水量;而植被覆盖度表示区域内植物对地面的垂直投影面积于该区域面积之比,为土壤的形成发育提高有机介质,增强土壤的水分和养分,对土壤厚度的形成有重要的影响。各影响因子的计算公式如下:
Figure BDA0002357718700000081
3、确定DEM栅格的最佳分辨率;
大量研究表明,DEM栅格分辨率对地形指数的精度有显著的影响,并且这些研究结果表明,随着分辨率的下降,地形湿度指数、坡度和曲率均值都将减小,一些细微的变化也将被忽略。这些结果将给以地形因子为输入变量的模型造成影响。此外,也有研究表明高分辨率的DEM也并不意味着能预测较好的结果。为此,在对区域土壤厚度建模预测前,需先选取最佳的栅格分辨率。
本发明采用试凑法分别对分辨率为10m、15m、20m、25m和30m的栅格数据进行聚类分析,根据聚类性能,选取最佳栅格分辨率。其中,聚类性能可通过类内紧凑性、类间间隔性、戴维森堡丁指数(Davies-Bouldin Index,DBI)和邓恩指数(Dunn Validity Index,DVI)进行评价。
4、利用SDW-FMS聚类方法对整个研究区的数据进行聚类分析,即对整个区域按相似属性进行分区;
给定大数据集V={vi|vi=[xi×1,xi×2,...,xi×k,pi×1,pi×2]T∈Rk+2,i=1,2,…,n}其中,n为整个研究区栅格点个数;vi表示研究区内第i个栅格点数据,同时包含了k个影响因子和经纬度坐标值pi×1,pi×2
(3)空间距离加权(Spatial distance weighting,SDW)算法
对每个栅格点的各变量进行加权处理,其加权欧式距离如下:
Figure BDA0002357718700000091
通过每个变量的熵值确定其权值,具体计算步骤如下:
IV.标准化栅格点数据
Figure BDA0002357718700000092
V.各变量的熵值计算
Figure BDA0002357718700000093
其中,
Figure BDA0002357718700000094
各变量的比值
Figure BDA0002357718700000095
VI.各变量权值计算
Figure BDA0002357718700000096
(4)快速均值漂移(Fast mean shift,FMS)算法
根据“最近邻一致性”原则,采用序贯采样方式对原始大数据集初划分,在此基础上采用快速均值漂移方法对初划分簇心聚类;其具体步骤如下:
II.原始数据集划分
设最终划分的初始簇心集合为C={cj|j=1,2,...,m},各簇心所对应的簇记为Dataj(j=1,2,...,m),且每个簇含有nj个栅格点数据。数据划分具体操作如下:
通过SS方式从给定大数据集V中随机选取一个栅格点数据v作为第一个初始簇心c1,然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离distSDW(·)。当遍历到点vi(i=1,2,...n)时,若distSDW(vi,cj)≤r,则将点vi与簇心cj归为一类,并添加进Dataj内,然后令i=i+1,继续遍历;而如果vi对所有的cj∈C都有distSDW(vi,cj)>r,则将该点vi作为新的簇心,将其添进集合C中。然后令i=i+1,继续遍历。直到V中所有的点都遍历一遍;最后对每个簇的所有栅格点数据取平均,以之作为最终的初始簇心,即
Figure BDA0002357718700000101
值得一提的是,参数r的选取应适当小于固定带宽h(在本示例中r=0.9h,但不仅限于0.9h,在其它实操案例中可以根据实际的聚类效果进行调整);
IV.初始簇心更新
采用MS聚类算法对初始簇心集合进行迭代更新,当簇心cj迭代至收敛时,即
Figure BDA0002357718700000102
(本示例中ε1=10-3)q为迭代次数,则停止该簇心的更新。转而继续更新簇心cj+1,如此依次进行,直至所有簇心都得到更新。MS簇心更新计算公式如下:
Figure BDA0002357718700000103
其中,
Figure BDA0002357718700000104
表示为distSDW(·)的平方;
Figure BDA0002357718700000105
g(·)为K(·)的影子核,即核函数K(·)求导的负方向,而核函数一般采用高斯核函数;
对于固定带宽h,其计算公式:
Figure BDA0002357718700000111
d为数据维度(本示例中d=k+2);σl为标准误差;
上式中达代收敛计算以
Figure BDA0002357718700000112
开始,并将更新后的簇心记为
Figure BDA0002357718700000113
V.相似簇融合
对任意
Figure BDA0002357718700000114
Figure BDA0002357718700000115
则表示a,b簇为相似簇,并将两簇的栅格点集合dataa,datab合并成一个新的簇;否则划分为不同的簇,而误差ε2=10-3
5、分别在每个分区内进行土壤厚度实地采样;
根据聚类结果,以各簇(各分区)的簇心或近似簇心为起点(采样位置由簇心地理坐标确定)在研究区进行采样,并以簇心距离R为半径,分别在其周围做适量采样。另可根据分区的大小,决定是否需要进行多轮采样,即每轮采样以R的倍数N×R(N=1,2,……,n)为半径进行,如图2所示。
由于簇心更新后,新簇心可能不再是原栅格中的某点,在此可通过计算各簇中与新簇心之间的加权欧式距离,选择距离最近的栅格点作为近似簇心点。
6、对每个分区的样本按照3∶1的比例进行训练集和测试集划分,利用每个分区的训练集样本建立各自的GWR模型以预测土壤厚度;利用分区的测试集样本对各自分区的GWR模型进行性能测试。
根据各簇(分区)采集的土壤厚度样本,分别将其按3∶1随机分成训练集和测试集。其中,训练集用于GWR的建模和调参,测试集用于对已建模型的性能测试,性能检测是通过预测均方根误差(Root Mean Squared Error of Prediction,RMSEP)、相关系数(R2)和相对分析误差(residual predictive deviation,RPD)进行评价。
7、利用各分区性能良好的GWR模型预测该分区其他栅格处的土层厚度,即各分区GWR模型的外延预测。
以上所述,已经示出和描述了本发明的实施例,却并非对本发明作任何形式上的限制。本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (5)

1.一种基于聚类采样的山区土壤厚度预测方法,其特征在于,包括以下步骤:
(1)获取研究区内数字高程模型;
(2)选取土壤厚度影响因子和各栅格点坐标,构建预测模型的输入数据库;
(3)确定DEM栅格的最佳分辨率;
(4)利用基于SDW-FMS聚类方法对整个研究区的数据进行聚类分析,即对整个区域按相似属性进行分区;
(5)分别在每个分区内进行土壤厚度实地采样;
(6)对每个分区的样本按照3∶1的比例进行训练集和测试集划分;
(7)利用每个分区的训练集样本建立各自的地理加权回归模型以预测土壤厚度;
(8)利用分区的测试集样本对各自分区的GWR模型进行性能测试;
(9)利用各分区性能良好的GWR模型预测该分区其他栅格处的土层厚度。
2.根据权利要求1所述的方法,其特征在于,所述土壤厚度影响因子包括地形因子和环境因子。
3.根据权利要求1所述的方法,其特征在于,在所述步骤(3)中,采用试凑法确定DEM栅格最佳分辨率:分别对DEM中采样分辨率为10m、15m、20m、25m和30m所对应的影响因子进行聚类分析,根据聚类的效果选择最佳栅格分辨率。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)具体包括:
给定大数据集V={υii=[xi×1,xi×2,...,xi×k,pi×1,pi×2]T∈Rk+2,i=1,2,…,n}其中,n为整个研究区栅格点个数;υi表示研究区内第i个栅格点数据,同时包含了k个影响因子和经纬度坐标值pi×1,pi×2
(1)空间距离加权算法
对每个栅格点的各变量进行加权处理,其加权欧式距离如下:
Figure FDA0002357718690000011
通过每个变量的熵值确定其权值,具体计算步骤如下:
I.标准化栅格点数据
Figure FDA0002357718690000012
II.各变量的熵值计算
Figure FDA0002357718690000021
其中,
Figure FDA0002357718690000022
各变量的比值
Figure FDA0002357718690000023
III.各变量权值计算
Figure FDA0002357718690000024
(2)快速均值漂移算法
根据“最近邻一致性”原则,采用序贯采样方式对原始大数据集初划分,在此基础上采用快速均值漂移方法对初划分簇心聚类;其具体步骤如下:
I.原始数据集划分
设最终划分的初始簇心集合为C={cj|j=1,2,...,m},各簇心所对应的簇记为Dataj(j=1,2,...,m),且每个簇含有nj个栅格点数据;数据划分具体操作如下:
通过SS方式从给定大数据集V中随机选取一个栅格点数据υ作为第一个初始簇心c1,然后计算大数据集V中剩余各点与初始簇心之间的加权欧式距离distSDW(·);当遍历到点υi(i=1,2,...n)时,若distSDWi,cj)≤r,则将点υi与簇心cj归为一类,并添加进Dataj内,然后令i=i+1,继续遍历;如果υi对所有的cj∈C都有distSDW(vi,cj)>r,则将该点υi作为新的簇心,将其添进集合C中;然后令i=i+1,继续遍历,直到V中所有的点都遍历一遍;最后对每个簇的所有栅格点数据取平均,以之作为最终的初始簇心,即
Figure FDA0002357718690000025
υi∈Dataj;参数r的选取应适当小于固定带宽h;
II.初始簇心更新
采用MS聚类算法对初始簇心集合进行迭代更新,当簇心cj迭代至收敛时,即
Figure FDA0002357718690000026
q为迭代次数,则停止该簇心的更新;转而继续更新簇心cj+1,如此依次进行,直至所有簇心都得到更新;MS簇心更新计算公式如下:
Figure FDA0002357718690000031
其中,
Figure FDA0002357718690000032
表示为distSDW(·)的平方;
Figure FDA0002357718690000033
g(·)为K(·)的影子核,即核函数K(·)求导的负方向,而核函数一般采用高斯核函数;
对于固定带宽h,其计算公式:
Figure FDA0002357718690000034
d为数据维度;σl为标准误差;
上式中迭代收敛计算以
Figure FDA0002357718690000035
开始,并将更新后的簇心记为
Figure FDA0002357718690000036
III.相似簇融合
对任意
Figure FDA0002357718690000037
Figure FDA0002357718690000038
则表示a,b簇为相似簇,并将两簇的栅格点集合dataa,datab合并成一个新的簇;否则划分为不同的簇,而误差ε2=10-3
5.根据权利要求1所述的方法,其特征在于,所述步骤(5)具体包括:根据聚类结果,找到各分区的簇心或簇心邻近区域进行土壤厚度的实地采样,并同时以各簇簇心或近似簇心为起点,以距离簇心为半径,分别在其周围进行适量采样;另根据分区大小决定是否需要进行多轮采样,即每轮采样以R的倍数N×R为半径进行,N=1,2,……,n。
CN202010013200.6A 2020-01-07 2020-01-07 一种基于聚类采样的山区土壤厚度预测方法 Active CN111275072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010013200.6A CN111275072B (zh) 2020-01-07 2020-01-07 一种基于聚类采样的山区土壤厚度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010013200.6A CN111275072B (zh) 2020-01-07 2020-01-07 一种基于聚类采样的山区土壤厚度预测方法

Publications (2)

Publication Number Publication Date
CN111275072A true CN111275072A (zh) 2020-06-12
CN111275072B CN111275072B (zh) 2023-12-22

Family

ID=71000100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010013200.6A Active CN111275072B (zh) 2020-01-07 2020-01-07 一种基于聚类采样的山区土壤厚度预测方法

Country Status (1)

Country Link
CN (1) CN111275072B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802085A (zh) * 2021-01-18 2021-05-14 北京理工大学重庆创新中心 一种基于地貌参数的土层厚度估算方法
CN115310719A (zh) * 2022-09-16 2022-11-08 中国科学院地理科学与资源研究所 基于三阶段k-means的农田土壤采样方案设计方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308544A (zh) * 2008-07-11 2008-11-19 中国科学院地理科学与资源研究所 一种基于栅格的空间异质模式识别方法及分层方法
JP2011085970A (ja) * 2009-10-13 2011-04-28 Nippon Steel Corp 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN105528523A (zh) * 2015-12-18 2016-04-27 中国科学院遥感与数字地球研究所 一种基于遥感数据的土壤厚度反演方法
CN107748736A (zh) * 2017-10-13 2018-03-02 河海大学 一种基于随机森林的多因子遥感地表温度空间降尺度方法
CN109063895A (zh) * 2018-06-27 2018-12-21 李林 基于土壤类型归并与土壤中有益生物含量预测方法
CN109343125A (zh) * 2018-09-03 2019-02-15 中国科学院南京土壤研究所 一种基于探地雷达的红壤关键带地下结构空间预测方法
US20190316309A1 (en) * 2018-04-17 2019-10-17 One Concern, Inc. Flood monitoring and management system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308544A (zh) * 2008-07-11 2008-11-19 中国科学院地理科学与资源研究所 一种基于栅格的空间异质模式识别方法及分层方法
JP2011085970A (ja) * 2009-10-13 2011-04-28 Nippon Steel Corp 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN105528523A (zh) * 2015-12-18 2016-04-27 中国科学院遥感与数字地球研究所 一种基于遥感数据的土壤厚度反演方法
CN107748736A (zh) * 2017-10-13 2018-03-02 河海大学 一种基于随机森林的多因子遥感地表温度空间降尺度方法
US20190316309A1 (en) * 2018-04-17 2019-10-17 One Concern, Inc. Flood monitoring and management system
CN109063895A (zh) * 2018-06-27 2018-12-21 李林 基于土壤类型归并与土壤中有益生物含量预测方法
CN109343125A (zh) * 2018-09-03 2019-02-15 中国科学院南京土壤研究所 一种基于探地雷达的红壤关键带地下结构空间预测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KAI ZHANG: "Applying Neighborhood Consistency for Fast Clustering and Kernel Density Estimation", pages 1001 - 1007 *
KUO-PINGWU: "Choosing thekernelparametersforsupportvectormachinesbytheinter-cluster distance inthefeaturespace", pages 710 *
XIDONG WANG: "Lithology identification using an optimized KNN clustering method based on entropy-weighed cosine distance in Mesozoic strata of Gaoqing field, Jiyang depression", pages 157 *
王改粉: "流域尺度土壤厚度的模糊聚类与预测制图研究", pages 835 *
王海起: "空间加权距离的GIS数据Fuzzy C-means 聚类方法与应用分析", pages 854 - 860 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802085A (zh) * 2021-01-18 2021-05-14 北京理工大学重庆创新中心 一种基于地貌参数的土层厚度估算方法
CN112802085B (zh) * 2021-01-18 2023-07-11 北京理工大学重庆创新中心 一种基于地貌参数的土层厚度估算方法
CN115310719A (zh) * 2022-09-16 2022-11-08 中国科学院地理科学与资源研究所 基于三阶段k-means的农田土壤采样方案设计方法
CN115310719B (zh) * 2022-09-16 2023-04-18 中国科学院地理科学与资源研究所 基于三阶段k-means的农田土壤采样方案设计方法

Also Published As

Publication number Publication date
CN111275072B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
Marjanović et al. Landslide susceptibility assessment using SVM machine learning algorithm
CN110276160B (zh) 一种平原区土壤有机碳三维空间分布模拟方法
Moore et al. Soil attribute prediction using terrain analysis
CN114936957B (zh) 基于移动监测数据的城市pm25浓度分布模拟及场景解析模型
Lu et al. An integrated method of selecting environmental covariates for predictive soil depth mapping
CN112699959B (zh) 基于能量泛函模型的多源多尺度降水数据融合方法和装置
CN103529189A (zh) 一种基于定性和定量辅助变量的土壤有机质空间分布预测方法
CN108171375A (zh) 基于最大熵模型的地址灾害生态安全评价模型的构建方法
CN114723149A (zh) 土壤墒情预测方法、装置、电子设备及存储介质
CN112733310B (zh) 一种基于复合类型单元的县域土壤属性调查样点布设方法
Wu et al. Storage, patterns, and environmental controls of soil organic carbon stocks in the permafrost regions of the Northern Hemisphere
CN111275072B (zh) 一种基于聚类采样的山区土壤厚度预测方法
Verbovšek et al. Morphometric properties of dolines in Matarsko podolje, SW Slovenia
Möller et al. Effective map scales for soil transport processes and related process domains—Statistical and spatial characterization of their scale-specific inaccuracies
CN108733952B (zh) 一种基于序贯模拟的土壤含水量空间变异性三维表征方法
Abdulmanov et al. Comparison of the effectiveness of GIS-based interpolation methods for estimating the spatial distribution of agrochemical soil properties
CN115049053B (zh) 基于TabNet网络的黄土地区滑坡易发性评估方法
CN115345069A (zh) 一种基于最大水深记录和机器学习的湖泊水量估算方法
Ismail et al. Digital soil map using the capability of new technology in Sugar Beet area, Nubariya, Egypt
Zhang et al. Spatial patterns and controlling factors of the evolution process of karst depressions in Guizhou province, China
Sangawongse et al. Urban growth and land cover change in Chiang Mai and Taipei: results from the SLEUTH model
CN116183868A (zh) 一种复杂生态系统土壤有机碳遥感估算方法及系统
Moharana et al. Digital soil mapping for precise land management
Niu et al. Developing novel ensemble models for predicting soil hydraulic properties in China’s arid region
Siervo et al. Geomorphic analysis and semi-automated landforms extraction in different natural landscapes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhao Yu

Inventor after: Wang Wei

Inventor after: Wang Rui

Inventor before: Wang Wei

Inventor before: Zhao Yu

Inventor before: Wang Rui

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant