CN115345069A - 一种基于最大水深记录和机器学习的湖泊水量估算方法 - Google Patents

一种基于最大水深记录和机器学习的湖泊水量估算方法 Download PDF

Info

Publication number
CN115345069A
CN115345069A CN202210896820.8A CN202210896820A CN115345069A CN 115345069 A CN115345069 A CN 115345069A CN 202210896820 A CN202210896820 A CN 202210896820A CN 115345069 A CN115345069 A CN 115345069A
Authority
CN
China
Prior art keywords
lake
lakes
model
data
water
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210896820.8A
Other languages
English (en)
Inventor
宋春桥
詹鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Geography and Limnology of CAS
Original Assignee
Nanjing Institute of Geography and Limnology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Geography and Limnology of CAS filed Critical Nanjing Institute of Geography and Limnology of CAS
Priority to CN202210896820.8A priority Critical patent/CN115345069A/zh
Publication of CN115345069A publication Critical patent/CN115345069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于最大水深记录和机器学习的湖泊水量估算方法,分析和挖掘一定数量样本的实测湖泊建立其最大水深测量结果和周边地形地貌、空间形态等参数与对应的湖泊总水量的内在关系,利用XGBoost机器学习模型,构建了区域尺度湖泊水量估算的有效方法。本发明方法通过仅利用湖泊最大水深记录和可公开获取数据源产生的空间参数来估算湖泊水量信息不仅具有较高的模型精度,还极大地降低了对全湖实测的时间和经济成本。本发明尤其适用于空间尺度大、自然环境条件复杂、难以到达以及资料匮乏地区的湖泊的测量工作,有望为湖泊水量预测提供一种有效的方法,并有利于区域湖泊水资源管理。

Description

一种基于最大水深记录和机器学习的湖泊水量估算方法
技术领域
本发明属于湖泊水文学及机器学习算法领域,特别涉及一种基于最大水深记录、多类型地理空间参数和机器学习的湖泊水量估算方法。
背景技术
湖泊作为地球表面液态淡水的最大组成部分,在提供生产、生活用水以及生态系统服务功能维系方面发挥着关键作用(Downing et al., 2006;Woolway et al., 2020)。进入21世纪以来,受气候变化和人为活动的影响,全球许多湖泊已经发生或正在发生显著变化,对人类用水和生态环境稳定构成了重大威胁。因此,准确量化湖泊水储量对于水资源的有效管理至关重要。
定量估算湖泊水储量的前提是掌握湖泊的详细水下地形信息或平均深度,但目前全球大多数湖泊仍然缺乏完整的测深信息以及相关水深记录。一般而言,借助船载声纳进行野外实地测量是获取湖泊水下地形最直接的方法。然而全湖测量的时间与经济成本很高,难以开展大范围、多湖泊测量,特别是处于偏远地区或高寒高海拔恶劣环境下的湖泊。为了克服传统测量的缺点,一些研究人员尝试使用光学影像、激光雷达等遥感数据实现湖泊水深的反演,但现有方法主要针对深度较浅且具有较高透明度水体,如海岸带或岛礁周边水体,在应用于内陆湖泊时存在较大限制(Ma et al., 2020; Pereira et al., 2019)。对于大多数自然湖泊,水下地形可以认为是湖泊周边地形的延伸,因此湖泊周边裸露的地形特征可以用来预测湖泊水深、水量。部分学者基于全球已实测的水下地形或水深数据,构建了湖泊周边地形参数与湖泊深度、水量之间的统计模型,实现了全球尺度的湖泊水储量估算(Cael et al., 2017; Messageret al., 2016)。此类空间统计模型虽然能够实现大区域尺度的湖泊水深与水量的有效估算,但受样本数量、分布及代表性的影响,个体湖泊以及部分区域的湖泊水量估算结果仍存在较大的不确定性。
综上所述,野外实测和空间推测方法均有各自缺陷,无法兼顾精度和效率。此外,相比全球湖泊总体数量,当前具有完整水下地形信息的湖泊比例很低,这限制了区域乃至全球湖泊水资源量的评估和管理,是当前水科学领域研究的热点问题。然而传统的全湖测量方法,耗时耗力,难以在大区域尺度湖泊调查中予以推广。
发明内容
本发明的目的在于克服上述现有技术存在的问题,提供一种基于最大水深记录和机器学习的湖泊水量估算方法,利用机器学习算法挖掘一定数量实测湖泊样本的总水量与其最大水深记录及其周边地形、形态等参数和的内在联系,构建定量估算模型从而预测其他仅有最大水深记录、未进行全湖测量湖泊的水量,通过该方法不仅能够获得较高的模型精度,还能显著降低对全湖实测所需的时间和经济成本,大幅降低了野外测量的工作量。
为实现上述技术目的,本发明采用如下技术方案:
一种基于最大水深记录和机器学习的湖泊水量估算方法,以湖泊水下地形参数特征变量、湖泊几何特征变量以及湖泊周边地形特征参数作为输入特征变量,湖泊实测水量数据作为输出,利用机器学习XGBoost算法构建水量估算模型;
通过随机实验构建基于不同训练集训练的模型,选用经精度评估后最优的模型作为湖泊水量估算模型,用于湖泊水量估算;
其中,所述水下地形参数特征变量选用湖泊最大水深数据。
作为一种优选的实施方式,根据各湖泊的面积数据、水深数据对湖泊进行筛选,剔除平均深度与其他相近面积大小的湖泊有显著差异的湖泊,利用剩余湖泊的特征变量数据用于模型训练及测试。优选的,将湖泊按照面积大小划分为若干面积等级,对于属于同一面积等级的湖泊,分析其平均深度并剔除平均深度与其他湖泊有显著差异的湖泊。水深与相近面积湖泊差异显著的特殊湖泊本身数量较小,用于模型训练可能导致难以构建出用于此类特殊湖泊的有效泛化模型;此外,本发明设计的模型是应用于区域湖泊,保留这类特殊湖泊会严重影响模型的普适性。本发明的技术方案是基于湖泊特征参数实现湖泊水量的估算,预先从训练数据中剔除这类数据有利于获取普适性的模型。
作为一种优选的实施方式,所述湖泊几何特征变量基于湖泊空间分布矢量数据和GIS空间分析软件获取;所述湖泊周边地形特征变量基于可公开获取来源的湖泊空间分布矢量数据和数字高程模型数据获取。
作为一种优选的实施方式,所述湖泊几何特征变量包括湖泊面积、湖泊周长、岸线发育系数、湖泊外接多边形相距最远顶点的距离、湖泊外接多边形相距最远顶点的垂线长度。
作为一种优选的实施方式,所述湖泊周边地形特征变量包括湖泊海拔差异、缓冲区平均海拔、缓冲区平均坡度;
所述湖泊海拔差异为缓冲区平均海拔与湖面最低海拔之差。
作为一种优选的实施方式,所述通过随机实验构建基于不同训练集训练的模型包括:
将输入、输出数据随机分割为训练和测试数据,进行重复实验,构建基于不同训练集训练的模型。
作为一种优选的实施方式,基于决定系数(R2),平均绝对误差(MAE),均方根误差(RMSE)和平均绝对百分比误差(MAPE)四个统计指标对模型进行精度评价,并基于模型精度评价结果选取最优的模型作为湖泊水量估算模型。进一步的,还包括,依据训练集精度评价结果剔除部分过拟合模型,并从剩余模型中选择测试集精度效果最好的作为最终模型。
作为一种优选的实施方式,所述方法还包括,基于模型训练过程进行参数调整,从而确定XGBoost机器学习模型普适性结构参数,采用确定的普适性结构参数进行随机实验。在不考虑运算时间的前提下,获取一个普适性的模型结构参数,趋向于尽可能提高模型预测精度以及泛化能力。优选的,调整参数包括学习率、决策树的数量、树的最大深度、最小叶子节点样本权重和随机采样比例和正则化参数。
作为一种优选的实施方式,依据9:1的比例将样本数据集随机分割为训练和测试数据,通过500次随机实验,构建基于不同训练集训练的模型。
本发明具有以下两点优势:
(1)本发明提出的湖泊水量估算方法,大幅简化了野外实测工作量,特别适合于进行大范围、多湖泊野外测量工作;
(2)本发明算法实施简单,能够高精度、有效估算区域湖泊水量,可为区域湖泊调查、湖泊水资源管理、湖泊科学相关研究等提供方法支撑。此外,该发明可推广至大区域乃至全球尺度研究,为全球变化背景下大尺度湖泊水量评估以及水资源管理等提供方法支撑。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过研究案例并参考附图来描述本发明的各个步骤,其中:
图1是本发明实施例中湖泊实测深度数据集空间分布。
图2是本发明实施例中湖泊实测深度样本集统计:(a)湖泊平均深度的数量分布(平均深度大于25 m的36个湖泊未作显示),(b)不同面积等级的湖泊平均深度统计。
图3是本发明实施例中湖泊几何特征变量、湖泊周边地形特征变量以及不同变量差异对湖泊深度的影响的示意图。
图4是本发明实施例中发明方法主体流程图。
图5是本发明实施例中基于最优模型估计的湖泊水量分别在训练集(a)和测试集(b)的精度评估结果。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施案例用于说明本发明,但不用来限制本发明的范围。
本实施例以美国本土大陆包含最大水深记录和水量的6137个湖泊为例,对本发明的技术方案作进一步描述。本次实验数据选择了美国湖泊研究数据汇编平台的湖泊深度数据模块LAGOS-US DEPTH,以及空间分辨率为30米的SRTM DEM。
作为示例性的描述,下面结合附图所示,对前述方法的实施进行具体说明。
步骤一、基于湖泊深度数据集进行初始数据检查与筛选。
首先基于湖泊面积数据,剔除了4个面积大于500 km2的湖泊,其余6133个湖泊作为初始数据集;绝大多数全球面积大于500 km2的湖泊拥有完整的水深测量数据,且面积大于500 km2的湖泊数量较少,参与模型训练时会因为处于这个面积等级的湖泊数据不足导致模型精度降低,此外,这类大型湖泊的水量数值较大,模型估算误差对于区域水量的评估影响很大。因此实施例中基于湖泊面积数据仅选用面积小于500 km2的湖泊作为初始数据集;
如图2所示,将湖泊按照面积大小划分为若干面积等级,对于属于同一面积等级的湖泊,分析其平均深度(基于现有湖泊水下地形实测数据集得到)并剔除平均深度与其他湖泊有显著差异的湖泊并剔除。本实施例中通过统计奇异值的方式判断同一面积等级湖泊中与其他湖泊有显著差异的湖泊,从初始数据集中剔除了1个平均深度(144.48 m)显著高于其他相近面积大小(>100km2等级)的湖泊(Lake Chelan),最终选定剩余的6132个湖泊作为样本数据集。
本实施例最终确定的湖泊样本集空间分布如图1所示,结合图2可以看出样本集充分体现了形态、大小、空间分布、深度等方面的差异性,具有较好的研究代表性。
步骤二、地理空间参数主要包括湖泊几何特征变量以及湖泊周边地形特征变量两类,结合图3可以看出本实施例使用的相关特征变量是湖泊深度存在差异的关键因素。
首先借助ArcGIS投影工具将初始湖泊空间分布矢量数据投影到统一参考,借助ArcGIS等地理空间分析软件,计算每个湖泊的面积、周长、岸线发育系数、外接多边形相距最远顶点距离以及外接多边形相距最远顶点的垂线距离。
其次,通过结合湖泊空间分布矢量数据和SRTM DEM数据,提取了湖泊水域范围内5%分位数高程值作为湖面最低海拔,并计算了宽度为100 m的缓冲区内平均坡度、平均海拔。此外,以缓冲区平均海拔与湖面最低海拔之差作为海拔差异。
步骤三、基于XGBoost的湖泊水量估算方法构建流程如图4所示,借助python的XGBoost包实现,XGBoost机器学习模型结构参数的确定方式为:基于模型训练过程进行参数调整,调整参数包括学习率、决策树的数量、树的最大深度、最小叶子节点样本权重和随机采样比例和正则化参数。在不考虑运算时间的前提下,获取一个普适性的模型结构参数,趋向于尽可能提高模型预测精度以及泛化能力。
本实施例中,通过上述的方法原理训练得到的模型参数分别是,学习率为0.1,决策树的数量为500,树的最大深度是10层,最小叶子节点样本权重是1,随机采样比例是0.9。
步骤四、采用上述步骤三确定的普适性结构参数,依据9:1的比例将样本数据集随机分割为训练和测试数据,通过500次随机实验,构建基于不同训练集训练的模型。
步骤五、基于决定系数(R2),平均绝对误差(MAE),均方根误差(RMSE)和平均绝对百分比误差(MAPE)对500次试验模型性能进行评价,首先依据训练集精度评价结果剔除部分过拟合模型,并从剩余模型中选择测试集精度效果最好的作为最终模型。
本实施例中基于最优模型估计的湖泊水量精度结果如图5所示。结果显示:选取的XGBoost最优模型在训练集和测试集上都取得了较高精度(训练集验证:R2=1.00,MAE=0.02×106 m3,MAPE=31.03%,RMSE=7.94×106 m3;测试集验证:R2=0.99,MAE=1.92×106 m3,MAPE=31.03%,RMSE=7.94×106 m3)。综上所述,本发明在大幅降低野外实测数据工作量的前提下,能够保证所构建的湖泊水量估算模型具有较高精度,在大尺度湖泊水量建模和预测中具有巨大的应用潜力,有望为偏远和数据稀缺地区的湖泊水量估算提供实用的方法,促进区域湖泊水资源管理。

Claims (10)

1.一种基于最大水深记录和机器学习的湖泊水量估算方法,其特征在于,包括:
以湖泊水下地形参数特征变量、湖泊几何特征变量以及湖泊周边地形特征参数作为输入特征变量,湖泊实测水量数据作为输出,利用机器学习XGBoost算法构建水量估算模型;
通过随机实验构建基于不同训练集训练的模型,选用经精度评估后最优的模型作为湖泊水量估算模型,用于湖泊水量估算;
其中,所述水下地形参数特征变量选用湖泊最大水深数据。
2.根据权利要求1所述的方法,其特征在于,根据各湖泊的面积数据、水深数据对湖泊进行筛选,剔除平均深度与其他相近面积大小的湖泊有显著差异的湖泊,利用剩余湖泊的特征变量数据用于模型训练及测试。
3.根据权利要求2所述的方法,其特征在于,将湖泊按照面积大小划分为若干面积等级,对于属于同一面积等级的湖泊,分析其平均深度并剔除平均深度与其他湖泊有显著差异的湖泊。
4.根据权利要求1所述的方法,其特征在于,所述湖泊几何特征变量基于湖泊空间分布矢量数据和GIS空间分析软件获取;所述湖泊周边地形特征变量基于可公开获取来源的湖泊空间分布矢量数据和数字高程模型数据获取。
5.根据权利要求1或4所述的方法,其特征在于,所述湖泊几何特征变量包括湖泊面积、湖泊周长、岸线发育系数、湖泊外接多边形相距最远顶点的距离、湖泊外接多边形相距最远顶点的垂线长度。
6.根据权利要求1或4所述的方法,其特征在于,所述湖泊周边地形特征变量包括湖泊海拔差异、缓冲区平均海拔、缓冲区平均坡度;
所述湖泊海拔差异为缓冲区平均海拔与湖面最低海拔之差。
7.根据权利要求1所述的方法,其特征在于,所述通过随机实验构建基于不同训练集训练的模型包括:
将输入、输出数据随机分割为训练和测试数据,进行重复实验,构建基于不同训练集训练的模型。
8.根据权利要求1所述的方法,其特征在于,基于决定系数,平均绝对误差,均方根误差和平均绝对百分比误差四个统计指标对模型进行精度评价,并基于模型精度评价结果选取最优的模型作为湖泊水量估算模型。
9.根据权利要求1所述的方法,其特征在于,还包括,基于模型训练过程进行参数调整,从而确定XGBoost机器学习模型普适性结构参数,采用确定的普适性结构参数进行随机实验。
10.根据权利要求9所述的方法,其特征在于,调整参数包括学习率、决策树的数量、树的最大深度、最小叶子节点样本权重和随机采样比例和正则化参数。
CN202210896820.8A 2022-07-28 2022-07-28 一种基于最大水深记录和机器学习的湖泊水量估算方法 Pending CN115345069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210896820.8A CN115345069A (zh) 2022-07-28 2022-07-28 一种基于最大水深记录和机器学习的湖泊水量估算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210896820.8A CN115345069A (zh) 2022-07-28 2022-07-28 一种基于最大水深记录和机器学习的湖泊水量估算方法

Publications (1)

Publication Number Publication Date
CN115345069A true CN115345069A (zh) 2022-11-15

Family

ID=83950710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210896820.8A Pending CN115345069A (zh) 2022-07-28 2022-07-28 一种基于最大水深记录和机器学习的湖泊水量估算方法

Country Status (1)

Country Link
CN (1) CN115345069A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908998A (zh) * 2022-11-17 2023-04-04 北京星天科技有限公司 水深数据识别模型的训练方法、水深数据识别方法及装置
CN116625328A (zh) * 2023-07-24 2023-08-22 新兴际华(北京)智能装备技术研究院有限公司 湖泊水量确定方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908998A (zh) * 2022-11-17 2023-04-04 北京星天科技有限公司 水深数据识别模型的训练方法、水深数据识别方法及装置
CN116625328A (zh) * 2023-07-24 2023-08-22 新兴际华(北京)智能装备技术研究院有限公司 湖泊水量确定方法、装置、电子设备和存储介质
CN116625328B (zh) * 2023-07-24 2023-10-20 新兴际华(北京)智能装备技术研究院有限公司 湖泊水量确定方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US20210375034A1 (en) Method and system for inversion of high-resolution aquifer storage coefficient based on gravity satellite data
CN110276160B (zh) 一种平原区土壤有机碳三维空间分布模拟方法
CN115345069A (zh) 一种基于最大水深记录和机器学习的湖泊水量估算方法
CN104764868B (zh) 一种基于地理加权回归的土壤有机碳预测方法
Wang et al. The spatial statistic trinity: A generic framework for spatial sampling and inference
CN114254802B (zh) 气候变化驱动下植被覆盖时空变化的预测方法
CN108733952B (zh) 一种基于序贯模拟的土壤含水量空间变异性三维表征方法
CN113704693B (zh) 一种高精度的有效波高数据估计方法
CN108764527B (zh) 一种土壤有机碳库时空动态预测最优环境变量筛选方法
CN115758074A (zh) 基于多源数据的高空间分辨率海水二氧化碳分压重构方法
CN115775634A (zh) 一种基于多变量核密度估计的虫媒疾病预测方法及系统
CN113901348A (zh) 一种基于数学模型的钉螺分布影响因素识别与预测方法
CN116796799A (zh) 无水文资料地区中小流域洪水降雨量阈值模型创建方法
González‐Abad et al. Using explainability to inform statistical downscaling based on deep learning beyond standard validation approaches
Jarzyna et al. Accounting for the space‐varying nature of the relationships between temporal community turnover and the environment
CN111275072B (zh) 一种基于聚类采样的山区土壤厚度预测方法
CN116401962A (zh) 水质模型最优特征方案的推求方法
Guo-an et al. Evaluation on the accuracy of digital elevation models
CN115797501A (zh) 一种结合森林干扰与恢复事件的时间序列林龄制图方法
Hou et al. Historical reconstruction of aquatic vegetation of typical lakes in Northeast China based on an improved CA-Markov model
Shi et al. Determination of the effective utilization coefficient of irrigation water based on geographically weighted regression
CN114971097B (zh) 土壤墒情数据重建方法及预报方法
CN117892983B (zh) 近岸海域陆源污染负荷分配确定方法及系统
CN117010274B (zh) 一种基于集成增量学习的地下水有害元素智能预警方法
CN117875219B (zh) 运河通航影响下河口湿地植被时空变化的模拟方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination