CN117493475A - 一种基于机器学习重构缺资料地区月径流的方法及系统 - Google Patents
一种基于机器学习重构缺资料地区月径流的方法及系统 Download PDFInfo
- Publication number
- CN117493475A CN117493475A CN202311400895.3A CN202311400895A CN117493475A CN 117493475 A CN117493475 A CN 117493475A CN 202311400895 A CN202311400895 A CN 202311400895A CN 117493475 A CN117493475 A CN 117493475A
- Authority
- CN
- China
- Prior art keywords
- month
- runoff
- model
- machine learning
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 43
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 title claims abstract description 38
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical class O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 30
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000004088 simulation Methods 0.000 claims abstract description 20
- 230000007812 deficiency Effects 0.000 claims abstract description 11
- 238000007637 random forest analysis Methods 0.000 claims description 20
- 230000001932 seasonal effect Effects 0.000 claims description 15
- 238000001556 precipitation Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000005855 radiation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000009834 vaporization Methods 0.000 claims description 3
- 230000008016 vaporization Effects 0.000 claims description 3
- 230000031864 metaphase Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008033 biological extinction Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于机器学习重构缺资料地区月径流的方法及系统,通过搜集大尺度气候因子及流域出口断面水文测站的径流观测数据集合;推求长系列的饱和水汽压亏缺和比湿;推求各变量的流域月平均系列,优选影响流域月径流量的关键因子;基于所述优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;基于所述机器学习模型的模拟结果,推求各优选机器学习模型的权重参数;采用长系列关键因子数据集驱动机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;并率定长短时记忆模型的参数,将率定好的长短时记忆模型,用于重构长系列月径流系列。用以解决现有技术中针对月径流重构没有考虑植被和下垫面变化影响的缺陷。
Description
技术领域
本发明涉及数据预测处理技术领域,尤其涉及一种基于机器学习重构缺资料地区月径流的方法及系统。
背景技术
高质量的长系列径流数据是流域风险评估、农业生产管理、生态保护、水文模拟以及水利工程规划设计的重要基础资料。传统的径流数据主要依赖于站点观测,但是水文站网通常密度较小且空间布设不均,难以准确反映水文变量的时空变化特性,不能满足高精度水文模拟等工程应用需要。
近年来,卫星遥测技术和数据反演算法快速发展,基于卫星遥感反演的气象观测产品具有较宽的覆盖范围和更高的时空分辨率,有效弥补了气象站点布设不足的缺陷,并为无资料地区提供了新的数据参考。随着人类观测手段和数据同化技术日渐成熟,学者们对多种来源(地面、船舶、无线电探空、测风气球、飞机、卫星等)的观测资料进行质量控制,提出利用数值天气预报的数据同化技术来重构长期历史气候过程,即所谓的再分析数据集,它同化了数值天气预报和大量的地面观测数据与卫星遥感信息,具有时空分辨率精度高、时间跨度长等优点。同时,随着全球气候模式(Global climate models)的发展,GCMs能够提供时间序列较长的格点化气象数据,但是GCMs模式输出的数据一般存在较大的系统偏差,且空间分辨率较低,难以直接用于流域水文模拟。
随着遥感技术的发展,采用气象数据反演或重构径流系列已成为一条新途径,部分学者采用卫星降水和再分析气温数据应用于流域水文模拟,从而重构长系列径流数据。但是卫星和再分析气象数据往往存在一定的偏差,国内外学者评估了反演数据集在不同气候区气象、农业和水文等领域的适用性,少量研究校正了降水气温数据集的系统偏差。但是,不同偏差校正方法存在一定差异,对径流模拟带来较大的不确定性,现有方法的模拟效果欠佳。少量研究采用机器学习模型开展水文模拟,尤其是用于模拟或重构月径流系列,但是现在研究较少同时考虑陆地植被信息和气候因子对径流过程的综合影响,也未能融合观测数据和GCMs模拟输出,限制了长系列流域月径流重构的精度。
发明内容
针对现有技术中存在的技术问题,本发明提供一种基于机器学习重构缺资料地区月径流的方法及系统,用以解决现有技术中针对月径流重构没有考虑植被和下垫面变化影响的缺陷。
根据本发明的第一方面,本发明提供一种基于机器学习重构缺资料地区月径流的方法,包括以下步骤:
步骤100:采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据;
步骤200:采用克劳修斯-克拉珀龙热力学方程推求长系列的饱和水汽压亏缺和比湿;
步骤300:采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
步骤400:基于优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;
步骤500:基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
步骤600:采用长系列关键因子数据集驱动所述机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;
步骤700:将反演数据集、全球气候模式输出的气象变量、实测径流输入长短时记忆模型,生成校准后的月径流数据集。
在上述技术方案的基础上,本发明还可以作出如下改进。
优选的,步骤100中,所述采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据包括:
首先采集1940年以来的气象、水文、植被、社会经济、和土地利用数据集合;包括欧洲中期天气预报中心的第五代大气再分析数据集的月尺度气象、水文、植被数据;
和采集采用国内外学者发布的全球0.25°陆地水储量数据集;
根据采集的上述数据集获取研究区域的人口和经济发展指数数据,该数据为年尺度,将其转化为月尺度数据;
搜集全球气候模式输出的月尺度气象数据,主要包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射的八个变量;
获取大尺度气候因子中的ENSO指数、大气环流指数、印度洋偶极子;
搜集流域出口断面水文站观测的径流系列,并将上述数据均集成为月尺度数据集。
优选的,步骤200中,所述克劳修斯-克拉珀龙热力学方程可定量描述饱和水汽压esat与气温T的非线性关系:
其中,T0和es0为第一积分常数和第二积分常数;Lv为汽化潜热常数;Rv为水汽气体常数;
将第五代大气再分析数据集2m气温(T2m)和露点温度(Tdew)分别代入公式(1),计算得到近饱和水汽压亏缺VPD=VPD=esat(T2m)-esat(Tdew);
采用第五代大气再分析数据集近地气压p和露点温度(Tdew)推求比湿q,公式如下:
优选的,步骤300包括:
采用泰森多边形方法推求气象、水文、植被、经济、土地利用资料的流域月平均系列;采用随机森林算法构建上流域的各驱动因子与水文测站观测的月径流的关系模型,优选影响流域月径流量的关键因子。
优选的,所述优选影响流域月径流量的关键因子包括:
对每一个月份,选取该月份及之前1-3个月份的驱动因子均作为随机森林模型的输入,对共有4个变量作为模型输入;
随机森林模型对各输入变量对模拟变量的重要性进行排序,并设置阈值,选取排名阈值前的变量作为关键因子。
优选的,步骤400包括:
基于所述优选的关键因子和流域水文测站的径流观测数据,构建八种机器学习模型;所述八种机器学习模型为:人工神经网络、支持向量机、长短期记忆模型、随机森林、高斯广义加性模型、决策树、多元自适应回归样条模型、高斯线性回归模型;
采用所述构建的机器学习模型,模拟水文测站建站以来的月径流系列,表示为:
Qk(t)=Fk[QM(t),QM(t-1),QM(t-2),QM(t-3)] (3)
其中,Qk(t)表示t时刻第k个机器学习模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;Fj表示第k个机器学习模型,k=1,2,…,8。
优选的,步骤500包括:
对每一个季节均构建一套贝叶斯模型平均模型,推求各机器学习模型在模拟月径流方面的权重参数,即构建季节性贝叶斯模型平均模型;所述季节性贝叶斯模型平均模型表示为:
式中:表示均值为fk,方差为/>的正态分布;E表示函数期望值,wk为第k个机器学习模型的权重,K取值=8。
优选的,步骤600包括:
基于步骤400优选的关键因子,采用1940年以来的长系列数据集驱动步骤500建立的机器学习模型,得到长系列月径流的重构数据集;
考虑所述季节性贝叶斯模型得到的权重参数,生成1940年以来的长系列月径流重构数据集;表示如下:
Q(t,i)=ωk(i)·Qk(t,i) (6)
式中:Q(t,i)为第i个季节(i=1,2,3,4)第t时刻的各模型加权得到的模拟月径流;ωk(i)为第k个机器学习模型在第i个季节的权重;Qk(t,i)为第k个机器学习模型在第i个季节第t时刻的模拟月径流。
优选的,步骤700中,所述全球气候模式输出的长系列气象变量包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射;所述长短时记忆模型表示为:
QLSTM(t)=LSTM[QM(t),QM(t-1),QM(t-2),QM(t-3)] (7)
其中,QLSTM(t)表示t时刻长短时记忆模型模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;LSTM为构建的长短时记忆模型。
根据本发明的第二方面,提供一种基于机器学习重构缺资料地区月径流的系统,包括:
数据采集模块,用于采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据;
关键因子计算模块:用于采用克劳修斯-克拉珀龙热力学方程推求长系列的饱和水汽压亏缺和比湿;采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
模型构建模块,用于基于优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;
权重参数计算模块,用于基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
反演数据集计算模块,用于采用长系列关键因子数据集驱动所述机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;
长短时记忆模型率定模块,用于将反演数据集、全球气候模式输出的气象变量、实测径流输入长短时记忆模型,生成校准后的月径流数据集。
本发明的技术效果和优点:
本发明提供的一种基于机器学习重构缺资料地区月径流的方法及系统,通过多种机器学习模型刻画影响流域月径流的气象、水文、植被、下垫面和大尺度气候信息,为气候变化情景下全球及区域水资源风险评估、预警提供重要且可操作性强的参考依据,为应对未来气候灾害、科学制定减排战略提供工程参考价值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
图1是本发明实施例提供的基于机器学习重构缺资料地区月径流的流程示意图;
图2为本发明实施例提供的长短时记忆模型的示意图;
图3是本发明实施例提供的观测和重构的月径流系列的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种基于机器学习重构缺资料地区月径流的方法,图1是本发明实施例提供的基于机器学习重构缺资料地区月径流的流程示意图,如图1所示,所述方法包括以下步骤:
步骤100:采集气象、水文、植被、社会经济、土地利用数据,搜集全球气候模式输出、大尺度气候因子及流域出口断面水文测站的径流数据;
基于上述实施例,步骤100包括:
首先采集1940年以来的气象、水文、植被、社会经济、和土地利用数据集合,包括欧洲中期天气预报中心的第五代大气再分析数据集(ERA5)再分析数据集的月尺度气象、水文、植被数据,具体包括2m气温、露点温度、气压、降水量、土壤湿度、水汽通量散度、云层覆盖率、径流深、短波辐射和叶片面积指数(leaf area index,LAI);土地利用数据集采用国际和国内学者发布的土地利用数据集,本发明通过谷歌地球引擎技术提取出各格点月尺度的不透水面积(记为impervious surface area,ISA)。
进一步采用国内外学者近期发布的全球0.25°陆地水储量数据集,该数据集名称为:Machine learning-reconstructed TWS estimates(GTWS-MLrec)。该数据集采用机器学习框架反演了1940年以来的全球陆地水储量,与全球径流站观测系列具有良好的相关性,数据链接为:https://zenodo.org/record/8187432。
进一步获取研究区域的人口和经济发展指数(GDP)数据,该数据为年尺度,将其转化为月尺度数据(即每年的12个月数据相等),主要是用于刻画人类社会经济发展对工农业取用水的可能影响;
进一步搜集全球气候模式输出的月尺度气象数据,主要包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射等八个变量;具体地,本实施例采用5个全球气候模式:分别为M6A-LR,GFDL-ESM4,MPI-ESM1-2-HR,MRI-ESM2-0和UKESM1-0-LL。
进一步获取大尺度气候因子中的ENSO指数、大气环流指数、印度洋偶极子等;进一步搜集流域出口断面水文站观测的径流系列,并将上述数据均集成为月尺度数据集。所述ENSO指数表示为厄尔尼诺-南方涛动指数。
步骤200:采用克劳修斯-克拉珀龙热力学方程推求长系列的相对湿度、饱和水汽压亏缺和比湿;
基于上述实施例,步骤200包括:
克劳修斯-克拉珀龙热力学方程可定量描述饱和水汽压esat与气温T的非线性关系:
其中,T0和es0为第一积分常数和第二积分常数,分别取273.16K和611Pa;Lv为汽化潜热常数,取2.5×106J kg-1;Rv为水汽气体常数,取461J kg-1K-1。
露点温度表征空气在水汽含量和气压不变条件下,冷却到水汽饱和时的温度,代入克劳修斯-克拉珀龙方程可度量实际水汽压。将ERA5 2m气温(T2m)和露点温度(Tdew)分别代入公式(1),推求近饱和水汽压亏缺VPD=VPD=esat(T2m)-esat(Tdew);进一步可以推求得到相对湿度RH=esat(Tdew)/esat(T2m)。
比湿q为水汽质量与空气团总质量的比值,采用ERA5近地气压p和露点温度推求,公式如下:
步骤300:采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
基于上述实施例,步骤300包括:
采用泰森多边形方法推求气象、水文、植被、经济、土地利用资料的流域月平均系列,泰森多边形方法为本领域常规技术,其主要思想在于将格点数据集转化为流域面平均数据集;
采用随机森林算法构建上流域的各驱动因子与水文测站观测的月径流的关系模型,所述驱动因子包括气温、比湿、饱和水汽压亏缺、降水量、土壤湿度、水汽通量散度、云层覆盖率、径流深、短波辐射、叶片面积指数、不透水面积、人口、GDP、陆地水储量等14个气象/水文/植被/经济/下垫面因子,以及若干个大尺度气候因子(共计M个驱动因子);所述随机森林模型的输入数据均为水文测站有观测径流的时期,并考虑各驱动因子对月径流的时滞影响,对每一个月份,选取该月份及之前1-3个月份的驱动因子均作为随机森林模型的输入,对本实施例共有4M个变量作为模型输入。
随机森林模型可以对各输入变量对模拟变量的重要性进行排序,故基于上述随机森林模型,优选出影响月径流的重要因子,本实施例设置50%为阈值,即对4M个变量进行排序后,选取排名前2M的变量作为关键因子。
步骤400:基于所述优选的关键因子和流域水文测站的径流观测数据,构建八种机器学习模型;
基于上述实施例,步骤400包括:
基于所述优选的关键因子和流域水文测站的径流观测数据,构建八种机器学习模型;
所述八种机器学习模型为:人工神经网络、支持向量机、长短期记忆模型、随机森林、高斯广义加性模型、决策树、多元自适应回归样条模型、高斯线性回归模型。所述八种机器学习模型均为本领域常规技术。
采用所述构建的机器学习模型,模拟水文测站建站以来的月径流系列,表示为:
Qk(t)=Fk[QM(t),QM(t-1),QM(t-2),QM(t-3)] (3)
其中,Qk(t)表示t时刻第k个机器学习模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;Fj表示第k个机器学习模型,k=1,2,…,8。
步骤500:基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
基于上述实施例,步骤500包括:
对每一个季节均构建一套贝叶斯模型平均模型,推求各机器学习模型在模拟月径流方面的权重参数,即构建季节性贝叶斯模型平均模型。
对每一个季节,令S为月径流模拟系列,R=[D,O]表征模型输入数据(其中D为各机器学习模型模拟的月径流,O为水文测站观测的月径流系列),f=[f1,f2,…,fK]为K个不同机器学习模型的输出结果,由贝叶斯全概率公式得到S的概率密度函数如下:
式中:pk(S|fk,R)为第j个机器学习模型模拟结果;fk在给定数据R条件下模拟值S的概率密度函数;p(fk|R)为给定训练数据R时第k个机器学习模型的后验概率密度函数。
根据各机器学习模型模拟效果的相对贡献确定相应权重,从而建立贝叶斯模式平均校正模型;
具体来说,首先通过Box-Cox函数将水文站点的观测月径流和各机器学习模型得到的模拟系列进行正态转换,再基于正态线性分布假设对多种模式估计结果进行加权平均:
式中:表示均值为fk,方差为/>的正态分布;E表示函数期望值,wk为第k个机器学习模型的权重。
进一步地,本实施例取K=8。
步骤600:采用长系列关键因子数据集驱动所述机器学习模型和季节性贝叶斯模型,生成长系列的流域月径流初步反演数据集;
基于上述实施例,步骤600包括:
基于步骤400优选的关键因子,采用1940年以来的长系列数据集驱动步骤500建立的8个机器学习模型,得到长系列月径流的重构数据集;进一步考虑所述季节性贝叶斯模型得到的权重参数,生成一套1940年以来的长系列月径流重构数据集。
Q(t,i)=ωk(i)·Qk(t,i) (6)
式中:Q(t,i)为第i个季节(i=1,2,3,4)第t时刻的各模型加权得到的模拟月径流;ωk(i)为第k个机器学习模型在第i个季节的权重;Qk(t,i)为第k个机器学习模型在第i个季节第t时刻的模拟月径流。
步骤700:将步骤600初步反演的径流数据集、GCMs输出的气象变量、实测径流输入长短时记忆模型,生成校准后的月径流数据集。
基于上述实施例,步骤700具体包括:
将站点观测的月径流、同时期的步骤600初步反演的径流数据和GCMs输出的气象变量(含月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射)输入长短时记忆模型,率定长短时记忆模型的参数。
图2为长短时记忆模型的示意图,长短期记忆网络是人工神经网络的一种变体,人工神经网络由于梯度消失的原因只能有短期记忆,长短时记忆模型通过精妙的门控制将短期记忆与长期记忆结合起来,并且一定程度上解决了梯度消失的问题,包括记忆门、输入门和输出门。
将步骤600初步反演的长系列月径流过程、GCMs输出的长系列气象变量(包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射)输入率定好的长短时记忆模型,用于重构长系列月径流系列;所述长短时记忆模型表示为:
QLSTM(t)=LSTM[QM(t),QM(t-1),QM(t-2),QM(t-3)] (7)
其中,QLSTM(t)表示t时刻长短时记忆模型模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;LSTM为构建的长短时记忆模型。如图3所示,展示了水文站观测的月径流和本发明重构的长系列月径流过程的示意图。图中实线表征站点观测系列,该系列资料比较短;虚线表征本发明的模拟系列,能够提供长系列日径流。
另外地,本发明实施例还提供一种基于机器学习重构缺资料地区月径流的系统,包括:
数据采集模块,用于采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据;
关键因子计算模块:用于采用克劳修斯-克拉珀龙热力学方程推求长系列的饱和水汽压亏缺和比湿;采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
模型构建模块,用于基于优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;
权重参数计算模块,用于基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
反演数据集计算模块,用于采用长系列关键因子数据集驱动所述机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;
长短时记忆模型率定模块,用于将站点观测的月径流以及同时期生成的月径流反演数据集、全球气候模式输出的气象变量输入长短时记忆模型,率定长短时记忆模型的参数,将率定好的长短时记忆模型,用于重构长系列月径流系列。
可以理解的是,本发明提供的一种基于机器学习重构缺资料地区月径流的系统与前述各实施例提供的一种基于机器学习重构缺资料地区月径流的方法相对应,一种基于机器学习重构缺资料地区月径流的系统的相关技术特征可参考一种基于机器学习重构缺资料地区月径流的方法的相关技术特征,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于机器学习重构缺资料地区月径流的方法,其特征在于,包括以下步骤:
步骤100:采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据;
步骤200:采用克劳修斯-克拉珀龙热力学方程推求长系列的饱和水汽压亏缺和比湿;
步骤300:采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
步骤400:基于优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;
步骤500:基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
步骤600:采用长系列关键因子数据集驱动所述机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;
步骤700:将反演数据集、全球气候模式输出的气象变量、实测径流输入长短时记忆模型,生成校准后的月径流数据集。
2.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,所述采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据包括:
首先采集1940年以来的气象、水文、植被、社会经济、和土地利用数据集合;包括欧洲中期天气预报中心的第五代大气再分析数据集的月尺度气象、水文、植被数据;
和采集采用国内外学者发布的全球0.25°陆地水储量数据集;
根据采集的上述数据集获取研究区域的人口和经济发展指数数据,该数据为年尺度,将其转化为月尺度数据;
搜集全球气候模式输出的月尺度气象数据,主要包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射的八个变量;
获取大尺度气候因子中的ENSO指数、大气环流指数、印度洋偶极子;
搜集流域出口断面水文站观测的径流系列,并将上述数据均集成为月尺度数据集。
3.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤200中,所述克劳修斯-克拉珀龙热力学方程可定量描述饱和水汽压esat与气温T的非线性关系:
其中,T0和es0为第一积分常数和第二积分常数;Lv为汽化潜热常数,;Rv为水汽气体常数;
将第五代大气再分析数据集2m气温(T2m)和露点温度(Tdew)分别代入公式(1),计算得到近饱和水汽压亏缺VPD=VPD=esat(T2m)-esat(Tdew);
采用第五代大气再分析数据集近地气压p和露点温度(Tdew)推求比湿q,公式如下:
4.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤300包括:
采用泰森多边形方法推求气象、水文、植被、经济、土地利用资料的流域月平均系列;采用随机森林算法构建上流域的各驱动因子与水文测站观测的月径流的关系模型,优选影响流域月径流量的关键因子。
5.根据权利要求4所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,所述优选影响流域月径流量的关键因子包括:
对每一个月份,选取该月份及之前1-3个月份的驱动因子均作为随机森林模型的输入,对共有4个变量作为模型输入;
随机森林模型对各输入变量对模拟变量的重要性进行排序,并设置阈值,选取排名阈值前的变量作为关键因子。
6.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤400包括:
基于所述优选的关键因子和流域水文测站的径流观测数据,构建八种机器学习模型;所述八种机器学习模型为:人工神经网络、支持向量机、长短期记忆模型、随机森林、高斯广义加性模型、决策树、多元自适应回归样条模型、高斯线性回归模型;
采用所述构建的机器学习模型,模拟水文测站建站以来的月径流系列,表示为:
Qk(t)=Fk[QM(t),QM(t-1),QM(t-2),QM(t-3)] (3)
其中,Qk(t)表示t时刻第k个机器学习模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;Fj表示第k个机器学习模型,k=1,2,…,8。
7.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤500包括:
对每一个季节均构建一套贝叶斯模型平均模型,推求各机器学习模型在模拟月径流方面的权重参数,即构建季节性贝叶斯模型平均模型;所述季节性贝叶斯模型平均模型表示为:
式中:表示均值为fk,方差为/>的正态分布;E表示函数期望值,wk为第k个机器学习模型的权重,K取值=8。
8.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤600包括:
基于步骤400优选的关键因子,采用1940年以来的长系列数据集驱动步骤500建立的机器学习模型,得到长系列月径流的重构数据集;
考虑所述季节性贝叶斯模型得到的权重参数,生成1940年以来的长系列月径流重构数据集;表示如下:
Q(t,i)=ωk(i)·Qk(t,i) (6)
式中:Q(t,i)为第i个季节(i=1,2,3,4)第t时刻的各模型加权得到的模拟月径流;ωk(i)为第k个机器学习模型在第i个季节的权重;Qk(t,i)为第k个机器学习模型在第i个季节第t时刻的模拟月径流。
9.根据权利要求1所述的一种基于机器学习重构缺资料地区月径流的方法,其特征在于,步骤700中,所述全球气候模式输出的长系列气象变量包括月均气温、月最高气温、月最低气温、相对湿度、降水量、径流深和短波辐射;所述长短时记忆模型表示为:
QLSTM(t)=LSTM[QM(t),QM(t-1),QM(t-2),QM(t-3)] (7)
其中,QLSTM(t)表示t时刻长短时记忆模型模型模拟的月径流,QM(t)表示t时刻的输入变量,QM(t-1)表示t-1时刻的输入变量,QM(t-2)表示t-2时刻的输入变量,QM(t-3)表示t-3时刻的输入变量;LSTM为构建的长短时记忆模型。
10.一种基于机器学习重构缺资料地区月径流的系统,其特征在于,包括:
数据采集模块,用于采集气象、水文、植被、土地利用数据,搜集大尺度气候因子及流域出口断面水文测站的径流观测数据;
关键因子计算模块:用于采用克劳修斯-克拉珀龙热力学方程推求长系列的饱和水汽压亏缺和比湿;采用泰森多边形方法推求各变量的流域月平均系列,并采用随机森林模型,优选影响流域月径流量的关键因子;
模型构建模块,用于基于优选的关键因子和流域水文测站的径流观测数据,构建机器学习模型;
权重参数计算模块,用于基于所述机器学习模型的模拟结果,采用季节性贝叶斯模型推求各优选机器学习模型的权重参数;
反演数据集计算模块,用于采用长系列关键因子数据集驱动所述机器学习模型和月尺度贝叶斯模型,生成长系列的流域月径流反演数据集;
长短时记忆模型率定模块,用于将反演数据集、全球气候模式输出的气象变量、实测径流输入长短时记忆模型,生成校准后的月径流数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311400895.3A CN117493475A (zh) | 2023-10-25 | 2023-10-25 | 一种基于机器学习重构缺资料地区月径流的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311400895.3A CN117493475A (zh) | 2023-10-25 | 2023-10-25 | 一种基于机器学习重构缺资料地区月径流的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493475A true CN117493475A (zh) | 2024-02-02 |
Family
ID=89671757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311400895.3A Pending CN117493475A (zh) | 2023-10-25 | 2023-10-25 | 一种基于机器学习重构缺资料地区月径流的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493475A (zh) |
-
2023
- 2023-10-25 CN CN202311400895.3A patent/CN117493475A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jahani et al. | A comparison between the application of empirical and ANN methods for estimation of daily global solar radiation in Iran | |
Block et al. | Interannual variability and ensemble forecast of Upper Blue Nile Basin Kiremt season precipitation | |
Linares-Rodríguez et al. | Generation of synthetic daily global solar radiation data based on ERA-Interim reanalysis and artificial neural networks | |
Zhang et al. | Accessible remote sensing data based reference evapotranspiration estimation modelling | |
Vazifedoust et al. | Assimilation of satellite data into agrohydrological models to improve crop yield forecasts | |
Gasset et al. | A 10 km North American precipitation and land-surface reanalysis based on the GEM atmospheric model | |
Bonan et al. | An ensemble square root filter for the joint assimilation of surface soil moisture and leaf area index within the Land Data Assimilation System LDAS-Monde: application over the Euro-Mediterranean region | |
Kwon et al. | A spatial downscaling of soil moisture from rainfall, temperature, and AMSR2 using a Gaussian-mixture nonstationary hidden Markov model | |
CN116341724B (zh) | 基于全球气候模式驱动碳循环机理模型的碳吸收预估方法 | |
Möller et al. | Adjustment of regional climate model output for modeling the climatic mass balance of all glaciers on Svalbard | |
CN112861072A (zh) | 一种星地多源降水自适应动态融合方法 | |
CN117493476A (zh) | 一种融合物理机制和人工智能的径流回溯模拟方法及系统 | |
Duhan et al. | Effect of projected climate change on potential evapotranspiration in the semiarid region of central India | |
CN116341841A (zh) | 径流预报误差校正方法、装置、设备、介质和程序产品 | |
Yin et al. | Evaluation of ORCHIDEE-MICT-simulated soil moisture over China and impacts of different atmospheric forcing data | |
Yin et al. | GTWS-MLrec: global terrestrial water storage reconstruction by machine learning from 1940 to present | |
CN117057490A (zh) | 湿胁迫热浪-洪水复合灾害的预测方法、系统及电子设备 | |
Gebeyehu et al. | Reliability-weighted approach for streamflow prediction at ungauged catchments | |
CN117010546A (zh) | 一种云南省次季节尺度温度异常的预测方法和装置 | |
Maurer et al. | Optimizing spatial distribution of watershed-scale hydrologic models using Gaussian Mixture Models | |
Lauwaet et al. | The effect of vegetation changes on precipitation and Mesoscale Convective Systems in the Sahel | |
CN117493475A (zh) | 一种基于机器学习重构缺资料地区月径流的方法及系统 | |
CN117610434B (zh) | 一种融合人工智能的干旱指数重构方法及计算机可读介质 | |
Bai et al. | Calibrating a remote sensing evapotranspiration model using the Budyko framework | |
Airey et al. | Evaluating climate model simulations of precipitation: methods, problems and performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |