CN110346844A - Nriet基于云分类和机器学习的定量降水估测方法 - Google Patents
Nriet基于云分类和机器学习的定量降水估测方法 Download PDFInfo
- Publication number
- CN110346844A CN110346844A CN201910634781.2A CN201910634781A CN110346844A CN 110346844 A CN110346844 A CN 110346844A CN 201910634781 A CN201910634781 A CN 201910634781A CN 110346844 A CN110346844 A CN 110346844A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- radar
- reflectivity
- precipitation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/95—Radar or analogous systems specially adapted for specific applications for meteorological use
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/14—Rainfall or precipitation gauges
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Hydrology & Water Resources (AREA)
- Electromagnetism (AREA)
- Computing Systems (AREA)
- Atmospheric Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明公开了一种NRIET基于云分类和机器学习的定量降水估测方法,本发明采用了基于云分类和机器学习的定量降水估测,首先进行雷达数据和雨量计数据预处理,并基于站点匹配雷达反射率和雨量计降水数据;根据雷达反射率强度识别层云和对流云等不同云系;然后使用机器学习回归算法实时进行拟合训练,得到累计降水量和雷达组合反射率的关系模型;最后实时将累计降水量和雷达组合反射率的关系模型作用于雷达组合反射率格点场数据,即可得到准实时的定量降水估测场。
Description
技术领域
本发明涉及一种NRIET基于云分类和机器学习的定量降水估测方法,属于一种降水反演技术领域。
背景技术
随着灾害性天气近年来的频繁发生,高时空分辨率的雷达定量降水估测(QPE:Quantitive Precipation Estimation)信息,在暴雨、台风、洪水等灾害性天气的短时临近和精细化预警预报等工作中发挥越来越重要的作用。
基于雷达三维组网拼图数据的定量降水估测算法已在业务中得到初步应用,但Z-R关系、雷达-雨量计融合方法等因素,限制了雷达QPE的精度,在降水估测中,这些算法环节均待进一步优化改进。
目前,基于雷达和雨量计资料的联合定量降水估测算法,主要采用先雷达组网拼图,再降水估测的研究方案:首先,基于单部雷达的复合扫描平面,根据区域内多部雷达资料,进行组网拼图,得到覆盖全区域的完整组网拼图数据;然后,使用概率匹配的气候Z-R关系反演雷达估测雨量,并采用多种方法校准雷达估测雨量;最后,采用滑动窗口法,根据雨量计位置,设置一个一定大小的窗口,选择与雨量计观测雨量相关性好的校准估测雨量,作为该窗口的估测雨量。
作为传统算法核心的Z-R指数关系,即雷达反射率数据与降水数据之间的经典的指数关系式:
Z=ARb (1)
其中,R为单位时间内降水量,Z为基本反射率因子,可由雷达回波强度dBz根据下式进行转换计算:
Z=10dBz/10 (2)
根据历史雷达反射强度和雨量计降水量观测数据,可通过统计方法确定参数A和b。然后将确定的Z-R指数关系式应用于定量降水估测。
根据雷达反射率数据与降水数据之间的经典的指数关系,可由雷达反射率进行定量降水估测。但降雨系统常为积云混合云降水(指在大片层状云降水嵌有对流云降水),暴雨时的对流云区是形成强对流天气的主要原因,而层状云区对暴雨的降水量和时间有直接的作用。层状云和对流云产生机理不同,降水的机制也不同。Z-R关系依赖于特定的雨滴谱分布,而雨滴谱分布则与降水过程、降水类型以及降水的地区差异等因素均相关,参数A和b在较大范围内变动。而且雷达方程假定雨滴谱在雷达波束采样体积内均匀分布的假设,对小尺度的天气过程而言通常并不成立,即使在很小的范围内,雨滴谱仍然会表现出较大的空间变化。因此Z-R关系随着地理位置,降水强度而变化,不同风暴单体,甚至同一个风暴单体的不同区域,Z-R关系亦会发生变化,这种变化不可避免地影响到雷达降水估测的精度。
发明内容
针对以上问题,本发明利用新一代多普勒天气雷达回波强度识别混合型降水过程中层状云和对流云,使用机器学习算法对不同类型的云体分别建立与降水之间的回归关系,进而应用于雷达定量降水估测,以提高估测精度。
为了解决以上问题,本发明采用了基于云分类和机器学习的定量降水估测,首先进行雷达数据和雨量计数据预处理,并基于站点匹配雷达反射率和雨量计降水数据;根据雷达反射率强度识别层云和对流云等不同云系;然后使用机器学习回归算法实时进行拟合训练,得到累计降水量和雷达组合反射率的关系模型;最后实时将累计降水量和雷达组合反射率的关系模型作用于雷达组合反射率格点场数据,即可得到准实时的定量降水估测场。具体技术方案如下:一种NRIET基于云分类和机器学习的定量降水估测方法,包括以下步骤:
步骤一、雷达数据预处理包括单站雷达数据处理和雷达三维组网拼图:
1)单站数据处理
单站数据处理负责基数据压缩包的解压、质量控制和格点化处理;单部雷达的质量控制算法基于模糊逻辑的原理,根据回波强度纹理、垂直变化、径向方向变号、径向库间变化程度;径向速度区域平均值和方差,速度谱宽区域平均值共计7个物理量,结合超折射地物回波识别的梯形隶属函数,通过分步识别的方式剔除超折射地物杂波;单站格点化数据的处理,采用近邻和垂直插值相结合的方法,将质量控制后的雷达体扫数据,从球坐标系转换到笛卡尔坐标系;
2)雷达三维组网拼图
设置组网数据时间、空间分辨率,联合多部雷达的单站格点数据进行三维组网拼图;雷达三维组网拼图算法,根据雷达回波概率特征识别得到的单部雷达部分遮挡区域,先剔除单部雷达部分遮挡区域内的弱回波,然后再参照公式(3)计算高度层H内的组合反射率因子;
其中,ZH(k,l)是高度层H上的组网反射率因子,Zi(k,l)是第i个雷达在(k,l)坐标处的反射率因子,wi(k,l)是相应的加权权重系数;第m个雷达在坐标(k,l)处的反射率因子受到部分遮挡效应的影响,因而不参与该格点的雷达组网拼图;这样处理,在多部雷达重叠探测范围内,可以有效去除部分遮挡造成的条带状雷达弱回波,提高组网拼图数据的连续性;
步骤二、雨量计数据预处理:
使用区域内分钟级雨量计数据,以雷达组网数据时间为标尺,累积雨量计观测雨量;在此基础上,采用空间一致性评估方法,通过对比目标站点观测要素的估计值(由周边站点的观测值计算得到)和实际观测值,对目标站点观测资料进行质量评估;在剔除估计值和实际观测值之差大于0.1mm/5分钟的观测资料的同时,允许空间差异性在0.1mm/5分钟之内的观测资料的存在;
步骤三、云分类
根据雷达反射率数据,区分层云和对流云,以针对不同降水类型训练反射率和降水量关系模型;
(1)找出对流云点:
定义对流阈值,凡是反射率因子大于等于对流阈值的点识别为对流云点;
在反射率因子小于对流阈值的所有点中,判别这些点在3~5公里内是否存在达到对流阈值的点,如果有,则这一点也被识别为对流云点;如果没有,以该点为中心,取10~15公里范围内的点作为背景场,计算背景场平均反射率因子bg,如果该中心点的反射率因子大于背景场均值并超过38dBZ或10-bg2/180,也认为该点为对流云点;
(2)找出对流云点的影响区域
针对不同反射率因子等级,确定不同大小的影响半径,确定标准如下表所示,影响半径内的非对流云点判定为对流点影响区域;
反射率因子等级 | 影响半径 |
25dBZ | 1km |
30dBZ | 2km |
35dBZ | 3km |
40dBZ | 4km |
步骤四、雨量计数据和雷达组合反射率数据匹配
基于区域内雨量计站点,逐个将雨量计降水量数据和对应位置的雷达组合反射率数据、云分类标签进行匹配,形成用于关系模型训练和评估的样本数据集;主要包括:
根据每个雨量计的坐标,查询对应位置上的雷达组合反射率数据,建立降水量-组合反射性数据对;
分析数据异常值,根据数据实际分布范围查看数据异常值,在此基础上根据变量规则去除异常值;
分析数据分布情况,查看降水量和组合反射率数据分布情况,并根据数据分布类型采用标准化算法,将数据进行归一化处理为标准正态分布,以便机器学习方法处理数据;
根据实际样本量划分样本集,将整合好的样本集划分为训练集(约50%,可根据实际样本量调整)、验证集(30%,可根据实际样本量调整)和测试集(20%,可根据实际样本量调整),训练集用于模型训练,验证集用于训练过程中模型调参,测试集用于最终预报模型性能测试;
步骤五、对于不同类型云,分别使用机器学习算法训练Z-R关系模型
本发明将机器学习算法应用于定量降水估测问题,并根据定量降水估测中的应用调整参数,训练回归关系模型。
本发明涉及的问题,是对于有明确物理含义的观测量的统计推断,通过多种基于机器学习的回归算法的检验比较,选择基于决策树的xgboost回归算法对雨量计-组合反射率数据集进行回归拟合,训练Z-R关系模型;
使用xgboost回归算法训练Z-R关系模型的步骤包括:
1)将经过数据预处理的降雨量-组合反射率数据对样本集转换为xgboost需要的数据格式;
2)初步设置模型参数,包括训练轮数、提前终止轮数、损失函数、有效数据评价方法、分类权重、学习步长、最大深度、最小子节点权重、节点分裂所需的最小损失函数下降值、每棵树随机采样比例、每棵树随机采样特征量比例、权重的L1正则化项;
3)使用训练集和验证集数据,采用xgboost算法训练Z-R关系模型;
4)用测试集对预测模型的预报性能进行验证,分析预测正确率、预测准确率和召回率、PR曲线和AP性能评价指标,其中PR曲线的含义为准确率-召回率曲线,AP的含义为平均准确率;
5)模型调参
为了使xgboost回归模型表现最好,首先使用xgboost中的sklearn接口对模型参数进行调整;在选择参数的过程中,均在验证集上对模型进行检验;xgboost中可以调整的部分参数如下表所示,需要分步进行调整;
5-1):固定learning_rate,选取最优的n_estimator;
5-2):固定learning_rate,n_estimator,选取最优的max_depth和min_child_weight;
5-3):固定learning_rate,n_estimator,max_depth,min_child_weight,选取最优的gamma;
5-4):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,选取最优的subsample和colsample_bytree;
5-5):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,选取最优的reg_alpha;
5-6):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,reg_alpha,降低learning_rate并增加n_estimator。
经过调参得到最优参数,使用测试集对预测结果进行验证,分析预测正确率、各等级预测准确率和召回率、各等级PR曲线和AP性能评价指标;
6)集成学习
集成学习是机器学习中把多种模型融合在一起得到一个分类结果的过程;在集成学习的过程中,不仅充分地利用了数据进行交叉验证,而且通过两层模型集成学习的方法融合了多种分类器的结果,而不是简单地把多种分类器的结果取平均或投票。
集成学习流程包括:将训练集和验证集数据分成5份,用于使用交叉验证进行模型迭代;使用交叉验证数据集迭代训练模型,每轮迭代用在其中的4份数据上训练,对剩下的1份训练数据和所有测试数据进行测试,并将预测的概率保存下来,5轮过后,测试数据上的预测结果取平均,则得到了所有训练和测试数据上预测的概率,这个预测值作为第二层的数据;训练stacking模型,即在第一层的预测概率的基础上训练模型,对比进行集成学习前后的模型在测试集上的预测性能;调整集成学习模型参数,其调整方法和xgboost模型相同,进一步调参优化集成学习模型预测性能。
步骤六、定量降水估测
将使用xgboost回归算法训练的Z-R关系模型实时作用于整个组合反射率格点场数据,即可实时得到高精度的定量降水估测场。
本发明与最接近的现有技术相比,具有以下有益效果:本发明基于云分类算法分别建立雷达反射率和降水量之间的关系模型,可有效区分积云混合云降水过程中的不同类型云系,针对不同降水机制的不同云系分别建立雷达反射率和降水量之间的回归关系模型,对估测降水的精度会有积极作用。
相比于依赖确定Z-R统计关系式的传统方法,使用机器学习回归算法训练Z-R关系模型进而进行定量降水估测具有一定的优越性:机器学习方法具有很强的自学习能力和拟合高度非线性函数的能力,具有优于传统关系式的结构和性能,具备更好的解决非线性问题的能力,可以更加高效的得到精准的累计降水量和雷达组合反射率间的关系模型,不受限于单一的经验关系式,从而得到准实时的、覆盖全区域的高精度定量降水估测产品。
由于关系模型实时拟合建立于相同时间相同区域的同一次降水过程,并对同一次降水过程中的不同降水云系进行分类,关系模型能更加准确的反映当前降水过程中的特定降水类型和性质,使得模型对当前过程中具有更强的推广能力,进而提高雷达定量降水估测的准确率。
使用基于云识别和机器学习回归算法智能建立雷达组合反射率和降水量之间的关系模型,降低过程累计降水误差,将反演的定量降水和实际降水之间的相关性提升至0.9以上,可准实时生成雷达覆盖区域内全覆盖的高精度、高分辨率定量降水估测产品,时空分辨率与雷达组网拼图数据一致。
附图说明
图1为NRIET基于云分类和机器学习的定量降水估测方法流程图;
图2为雨量计实况6分钟累计降水量(a)和定量降水估测(b)对比图;
图3为雷达组合反射率和降水的拟合关系图;
图4为自动站实况观测降水和QPE分布图。
具体实施方式
如图1所示,以2018年5月25日苏南至上海地区的一次强降水过程为例,实时进行定量降水估测。
1.数据预处理
使用江苏省和上海市以及周边安徽、浙江等省市的16部多普勒气象雷达反射率数据,经质量控制后进行数据组网,并计算组合反射率,形成120°E-123°E,30°N-33°N范围区域0.02°间隔的笛卡尔坐标下的组合反射率格点场数据,数据时间间隔6分钟。
2.雨量计数据预处理:使用江苏省和上海市2千余个雨量计逐分钟降水量数据,经质量控制后,根据雷达时间间隔计算6分钟累计降水量。
3.云分类
云分类算法相关参数设置如下:
对流阈值:40dBz;
对流周围半径:5km;
背景场半径:12km;
对流影响区域半径:25dBz-1km;30dBz-2km;35dBz-3km;40dBz-4km。
使用对流识别算法,生成云标签:
0-晴空或卷云;
1-层云;
2-对流影响区域;
3-对流云;
4.降水量数据和组合反射率数据匹配
逐个站点匹配累计降水量数据和最近格点的组合反射率数据、云分类标签,分析并处理缺测等异常数据,形成不同云类型的降水量-组合反射率数据对;将数据进行归一化处理,并划分为训练集、验证集和测试集。
5.Z-R关系模型训练
使用xgboost回归算法,分别针对不同的云类型,在训练集上训练雷达反射率和降水之间的回归关系模型,并在验证集上检验并迭代训练。
初步设置模型参数:训练轮数epochs=100、提前终止轮数early_stopping_rounds=10、损失函数objective=multi:softmax、有效数据评价方法eval_metric=merror、分类权重scale_pos_weight=1、学习步长eta=0.1、最大深度max_depth=10、最小子节点权重min_child_weight=5、节点分裂所需的最小损失函数下降值gamma=0.9、每棵树随机采样比例subsample=1、每棵树随机采样特征量比例colsample_bytree=1、权重的L1正则化项alpha=0。
经调参得到最优参数组合:n_estimators=100,leaming_rate=0.1,max_depth=10,min_child_weight=5,gamma=0.9,subsample=1,colsample_bytree=1,reg_alpha=0。
进一步进行stacking训练,将训练数据分成5份,用于使用交叉验证进行模型迭代;使用交叉验证数据集迭代训练模型,每轮迭代用多种模型在其中的4份数据上训练,对剩下的1份训练数据和所有测试数据进行预测,并将预测的概率保存下来,5轮过后,测试数据上的预测结果取平均,则得到了多种模型在所有训练和测试数据上预测的概率,这个预测值作为第二层的数据;训练stacking模型,即在第一层的预测概率的基础上进行预测,对比分析进行集成学习前后的模型在测试集上的预测性能,最终得到不同云类型的最优集成回归关系模型。
6、定量降水估测
将使用xgboost回归算法训练的Z-R关系模型实时作用于整个组合反射率格点场数据,即可实时得到与雷达组合反射率相同时空分辨率的高精度的定量降水估测场。定量降水估测场与同时段雨量计累计降水量分布对比如图2所示。
如图3所示,QPE强度和分布形态均与雨量计的实况观测一致,均方根误差为1.71mm。
定量降水估测和雷达组合反射率的拟合关系如下图所示,黑点为雨量计实况观测的6分钟累计降水及对应位置的雷达回波强度分布关系,蓝点表示通过机器学习算法训练得到的雷达反射率和降水分布。可以看出机器学习定量降水估测技术对非线性关系有较强的处理能力。
对比各个雨量计实况观测的6分钟累计降水量和其对应位置的QPE,如图4所示,二者基本分布于45°斜率线附近,表明QPE和实际降水差别不大,二者相关系数达0.93,机器学习定量降水估测技术具有较强的降水反演能力。
以上所述仅为本发明的优选实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (4)
1.一种NRIET基于云分类和机器学习的定量降水估测方法,其特征在于,
包括以下步骤:
步骤一、雷达数据预处理包括单站雷达数据处理和雷达三维组网拼图:
1)单站数据处理
单站数据处理负责基数据压缩包的解压、质量控制和格点化处理;单部雷达的质量控制算法基于模糊逻辑的原理,根据回波强度纹理、垂直变化、径向方向变号、径向库间变化程度;径向速度区域平均值和方差,速度谱宽区域平均值共计7个物理量,结合超折射地物回波识别的梯形隶属函数,通过分步识别的方式剔除超折射地物杂波;单站格点化数据的处理,采用近邻和垂直插值相结合的方法,将质量控制后的雷达体扫数据,从球坐标系转换到笛卡尔坐标系;
2)雷达三维组网拼图
设置组网数据时间、空间分辨率,联合多部雷达的单站格点数据进行三维组网拼图;雷达三维组网拼图算法,根据雷达回波概率特征识别得到的单部雷达部分遮挡区域,先剔除单部雷达部分遮挡区域内的弱回波,然后再参照公式(3)计算高度层H内的组合反射率因子;
其中,ZH(k,l)是高度层H上的组网反射率因子,Zi(k,l)是第i个雷达在(k,l)坐标处的反射率因子,wi(k,l)是相应的加权权重系数;第m个雷达在坐标(k,l)处的反射率因子受到部分遮挡效应的影响,因而不参与该格点的雷达组网拼图;
步骤二、雨量计数据预处理:
使用区域内分钟级雨量计数据,以雷达组网数据时间为标尺,累积雨量计观测雨量;在此基础上,采用空间一致性评估方法,通过对比目标站点观测要素的估计值(由周边站点的观测值计算得到)和实际观测值,对目标站点观测资料进行质量评估;在剔除估计值和实际观测值之差大于0.1mm/5分钟的观测资料的同时,允许空间差异性在0.1mm/5分钟之内的观测资料的存在;
步骤三、云分类
根据雷达反射率数据,区分层云和对流云,以针对不同降水类型训练反射率和降水量关系模型;
(1)找出对流云点:
定义对流阈值,凡是反射率因子大于等于对流阈值的点识别为对流云点;
在反射率因子小于对流阈值的所有点中,判别这些点在3~5公里内是否存在达到对流阈值的点,如果有,则这一点也被识别为对流云点;
如果没有,以该点为中心,取10~15公里范围内的点作为背景场,计算背景场平均反射率因子bg,如果该中心点的反射率因子大于背景场均值并超过38dBZ或10-bg2/180,也认为该点为对流云点;
(2)找出对流云点的影响区域
针对不同反射率因子等级,确定不同大小的影响半径,确定标准如下所示,影响半径内的非对流云点判定为对流点影响区域;
当反射率因子等级为25dBZ时,影响半径为1km;
当反射率因子等级为30dBZ时,影响半径为2km;
当反射率因子等级为35dBZ时,影响半径为3km;
当反射率因子等级为40dBZ时,影响半径为4km;
步骤四、雨量计数据和雷达组合反射率数据匹配
基于区域内雨量计站点,逐个将雨量计降水量数据和对应位置的雷达组合反射率数据、云分类标签进行匹配,形成用于关系模型训练和评估的样本数据集;主要包括:
根据每个雨量计的坐标,查询对应位置上的雷达组合反射率数据,建立降水量-组合反射性数据对;
分析数据异常值,根据数据实际分布范围查看数据异常值,在此基础上根据变量规则去除异常值;
分析数据分布情况,查看降水量和组合反射率数据分布情况,并根据数据分布类型采用标准化算法,将数据进行归一化处理为标准正态分布,以便机器学习方法处理数据;
根据实际样本量划分样本集,将整合好的样本集划分为训练集、验证集和测试集,训练集用于模型训练,验证集用于训练过程中模型调参,测试集用于最终预报模型性能测试;
步骤五、对于不同类型云,分别使用机器学习算法训练Z-R关系模型
本发明涉及的问题,是对于有明确物理含义的观测量的统计推断,通过多种基于机器学习的回归算法的检验比较,选择基于决策树的xgboost回归算法对雨量计-组合反射率数据集进行回归拟合,训练Z-R关系模型;
使用xgboost回归算法训练Z-R关系模型的步骤包括:
1)将经过数据预处理的降雨量-组合反射率数据对样本集转换为xgboost需要的数据格式;
2)初步设置模型参数,包括训练轮数、提前终止轮数、损失函数、有效数据评价方法、分类权重、学习步长、最大深度、最小子节点权重、节点分裂所需的最小损失函数下降值、每棵树随机采样比例、每棵树随机采样特征量比例、权重的L1正则化项;
3)使用训练集和验证集数据,采用xgboost算法训练Z-R关系模型;
4)用测试集对预测模型的预报性能进行验证,分析预测正确率、预测准确率和召回率、PR曲线和AP性能评价指标,其中PR曲线的含义为准确率-召回率曲线,AP的含义为平均准确率;
5)模型调参
为了使xgboost回归模型表现最好,首先使用xgboost中的skleam接口对模型参数进行调整;在选择参数的过程中,均在验证集上对模型进行检验;xgboost中可以调整的部分参数如下所示,需要分步进行调整;
参数learning_rate,含义及作用为:学习步长,梯度下降中的学习步长,决定模型的学习速率;影响:调参过程中逐步下降,可以使模型更鲁棒;
参数n_estimator,含义及作用为:模型中含提升树的个数;影响:树的个数越多,模型拟合结果越准确,但过多的树可能导致过拟合;
参数max_depth,含义及作用为:单个树的最大深度;影响:树越深,模型拟合结果越准确,但过深的树可能导致过拟合;
参数min_child_weight,含义及作用为:一个树节点包含的样本权重之和的最小值,若权重之和小于此值,节点不再分裂;影响:用于控制过拟合,较高的数值可以避免过拟合,但过高的数值也可能导致欠拟合;
参数gamma,含义及作用为:树节点分裂需导致分裂后损失函数下降,此参数控制损失函数下降的最小值;影响:此参数越大,模型越保守;
参数subsample,含义及作用为:每棵树只使用部分随机数据训练,此部分占全体数据的比例;影响:稍低的取值可以让模型更鲁棒(类似随机森林原理),过低的取值可能导致欠拟合;
参数colsample_bytree,含义及作用为:在树节点分裂时,只随机考虑部分特征,此考虑范围占全体特征的比例;影响:稍低的取值可以让模型更鲁棒,过低的取值可能导致欠拟合;
参数reg_alpha,含义及作用为:损失函数中,权重的L1正则项的系数;影响:当特征的维数很高时,可以采用此参数来提高算法运行速度;
5-1):固定learning_rate,选取最优的n_estimator;
5-2):固定learning_rate,n_estimator,选取最优的max_depth和min_child_weight;
5-3):固定learning_rate,n_estimator,max_depth,min_child_weight,选取最优的gamma;
5-4):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,选取最优的subsample和colsample_bytree;
5-5):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,选取最优的reg_alpha;
5-6):固定learning_rate,n_estimator,max_depth,min_child_weight,gamma,subsample,colsample_bytree,reg_alpha,降低learning_rate并增加n_estimator。
经过调参得到最优参数,使用测试集对预测结果进行验证,分析预测正确率、各等级预测准确率和召回率、各等级PR曲线和AP性能评价指标;
6)集成学习
集成学习是机器学习中把多种模型融合在一起得到一个分类结果的过程;在集成学习的过程中,不仅充分地利用了数据进行交叉验证,而且通过两层模型集成学习的方法融合了多种分类器的结果;
集成学习流程包括:将训练集和验证集数据分成5份,用于使用交叉验证进行模型迭代;使用交叉验证数据集迭代训练模型,每轮迭代用在其中的4份数据上训练,对剩下的1份训练数据和所有测试数据进行测试,并将预测的概率保存下来,5轮过后,测试数据上的预测结果取平均,则得到了所有训练和测试数据上预测的概率,这个预测值作为第二层的数据;训练stacking模型,即在第一层的预测概率的基础上训练模型,对比进行集成学习前后的模型在测试集上的预测性能;调整集成学习模型参数,进一步调参优化集成学习模型预测性能;
步骤六、定量降水估测
将使用xgboost回归算法训练的Z-R关系模型实时作用于整个组合反射率格点场数据,即可实时得到高精度的定量降水估测场。
2.根据权利要求1所述的NRIET基于云分类和机器学习的定量降水估测方法,其特征在于,步骤三(1)中所述的定义的对流阈值为40dBZ;所述的设定范围I为5km所述的设定半径为12km;所述的设定范围II为38dBZ。
3.根据权利要求1所述的NRIET基于云分类和机器学习的定量降水估测方法,其特征在于,步骤四所述的训练集取50%、验证集取30%、测试集取20%。
4.根据权利要求1所述的NRIET基于云分类和机器学习的定量降水估测方法,其特征在于,步骤五中(6)所述的;调整集成学习模型参数的调整方法和xgboost模型相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634781.2A CN110346844A (zh) | 2019-07-15 | 2019-07-15 | Nriet基于云分类和机器学习的定量降水估测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634781.2A CN110346844A (zh) | 2019-07-15 | 2019-07-15 | Nriet基于云分类和机器学习的定量降水估测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110346844A true CN110346844A (zh) | 2019-10-18 |
Family
ID=68176206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910634781.2A Pending CN110346844A (zh) | 2019-07-15 | 2019-07-15 | Nriet基于云分类和机器学习的定量降水估测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110346844A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110794485A (zh) * | 2019-10-22 | 2020-02-14 | 成都信息工程大学 | 基于集成学习的强对流天气持续时间预报方法 |
CN110826526A (zh) * | 2019-11-19 | 2020-02-21 | 上海无线电设备研究所 | 一种测云雷达识别云类的方法 |
CN110824478A (zh) * | 2019-10-23 | 2020-02-21 | 成都信息工程大学 | 基于多样化3d雷达回波特征的降水云类型自动分类方法及装置 |
CN111291903A (zh) * | 2020-01-20 | 2020-06-16 | 上海眼控科技股份有限公司 | 降水量预估方法、装置、计算机设备及可读存储介质 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112232674A (zh) * | 2020-10-16 | 2021-01-15 | 中国气象局气象探测中心 | 一种气象灾害评估方法、装置和系统 |
CN112363140A (zh) * | 2020-11-05 | 2021-02-12 | 南京叁云科技有限公司 | 一种基于循环神经网络的热力约束外推客观订正方法 |
CN112418500A (zh) * | 2020-11-16 | 2021-02-26 | 中科星图股份有限公司 | 一种基于多源数据及复杂模型融合对山区降雨天气预警方法 |
CN113311416A (zh) * | 2021-05-10 | 2021-08-27 | 中国科学院地理科学与资源研究所 | 山地小流域雷达定量降水估计技术 |
CN113447724A (zh) * | 2021-03-09 | 2021-09-28 | 中国气象科学研究院 | 闪电活动判别方法和系统 |
CN113534158A (zh) * | 2021-06-10 | 2021-10-22 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于深度学习的静止轨道气象卫星雷达反射率因子反演方法 |
CN113608223A (zh) * | 2021-08-13 | 2021-11-05 | 国家气象信息中心(中国气象局气象数据中心) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 |
CN113779784A (zh) * | 2021-08-30 | 2021-12-10 | 天津大学 | 基于位置高影响天气服务产品交互评估方法 |
CN113780585A (zh) * | 2021-11-12 | 2021-12-10 | 江苏铨铨信息科技有限公司 | 一种基于卫星云图的对流云机器学习识别方法 |
CN114252871A (zh) * | 2021-12-13 | 2022-03-29 | 中国西安卫星测控中心 | 一种基于机器学习的雷达测量精度补偿方法 |
CN114742206A (zh) * | 2022-04-20 | 2022-07-12 | 南京信息工程大学 | 综合多时空尺度多普勒雷达数据的降雨强度估计方法 |
CN115792847A (zh) * | 2022-11-08 | 2023-03-14 | 江西师范大学 | 一种基于神经网络和回波垂直信息的定量降水估测方法 |
CN116719519A (zh) * | 2023-06-15 | 2023-09-08 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN117805826A (zh) * | 2023-12-12 | 2024-04-02 | 浙江省气象台 | 基于mim网络和雷达拼图的分钟降水估测方法及系统 |
CN117805826B (zh) * | 2023-12-12 | 2024-06-04 | 浙江省气象台 | 基于mim网络和雷达拼图的分钟降水估测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127242A (zh) * | 2016-06-21 | 2016-11-16 | 河海大学 | 基于集成学习的年极端降水预测系统及其预测方法 |
CN107064937A (zh) * | 2017-06-07 | 2017-08-18 | 孝感市青谷信息科技有限公司 | 一种双线偏振雷达系统及强雨的测量方法 |
CN108375808A (zh) * | 2018-03-12 | 2018-08-07 | 南京恩瑞特实业有限公司 | Nriet基于机器学习的大雾预报方法 |
-
2019
- 2019-07-15 CN CN201910634781.2A patent/CN110346844A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127242A (zh) * | 2016-06-21 | 2016-11-16 | 河海大学 | 基于集成学习的年极端降水预测系统及其预测方法 |
CN107064937A (zh) * | 2017-06-07 | 2017-08-18 | 孝感市青谷信息科技有限公司 | 一种双线偏振雷达系统及强雨的测量方法 |
CN108375808A (zh) * | 2018-03-12 | 2018-08-07 | 南京恩瑞特实业有限公司 | Nriet基于机器学习的大雾预报方法 |
Non-Patent Citations (4)
Title |
---|
仲凌志等: "层状云和对流云的雷达识别及在估测雨量中的应用", 《高原气象》 * |
勾亚彬等: "基于雷达组网拼图的定量降水估测算法业务应用及效果评估", 《气象学报》 * |
高晓荣等: "雷达定量降水估计技术及效果评估", 《热带气象学报》 * |
齐晶等: "《基于多源降水信息的洪水预报技术研究》", 31 December 2017, 河海大学出版社 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110794485A (zh) * | 2019-10-22 | 2020-02-14 | 成都信息工程大学 | 基于集成学习的强对流天气持续时间预报方法 |
CN110824478A (zh) * | 2019-10-23 | 2020-02-21 | 成都信息工程大学 | 基于多样化3d雷达回波特征的降水云类型自动分类方法及装置 |
CN110826526A (zh) * | 2019-11-19 | 2020-02-21 | 上海无线电设备研究所 | 一种测云雷达识别云类的方法 |
CN111291903A (zh) * | 2020-01-20 | 2020-06-16 | 上海眼控科技股份有限公司 | 降水量预估方法、装置、计算机设备及可读存储介质 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN111832828B (zh) * | 2020-07-17 | 2023-12-19 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112232674B (zh) * | 2020-10-16 | 2021-12-07 | 中国气象局气象探测中心 | 一种气象灾害评估方法、装置和系统 |
CN112232674A (zh) * | 2020-10-16 | 2021-01-15 | 中国气象局气象探测中心 | 一种气象灾害评估方法、装置和系统 |
CN112363140A (zh) * | 2020-11-05 | 2021-02-12 | 南京叁云科技有限公司 | 一种基于循环神经网络的热力约束外推客观订正方法 |
CN112363140B (zh) * | 2020-11-05 | 2024-04-05 | 南京叁云科技有限公司 | 一种基于循环神经网络的热力约束外推客观订正方法 |
CN112418500A (zh) * | 2020-11-16 | 2021-02-26 | 中科星图股份有限公司 | 一种基于多源数据及复杂模型融合对山区降雨天气预警方法 |
CN113447724A (zh) * | 2021-03-09 | 2021-09-28 | 中国气象科学研究院 | 闪电活动判别方法和系统 |
CN113447724B (zh) * | 2021-03-09 | 2022-07-29 | 中国气象科学研究院 | 闪电活动判别方法和系统 |
CN113311416B (zh) * | 2021-05-10 | 2024-05-28 | 中国科学院地理科学与资源研究所 | 山地小流域雷达定量降水估计方法 |
CN113311416A (zh) * | 2021-05-10 | 2021-08-27 | 中国科学院地理科学与资源研究所 | 山地小流域雷达定量降水估计技术 |
CN113534158A (zh) * | 2021-06-10 | 2021-10-22 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于深度学习的静止轨道气象卫星雷达反射率因子反演方法 |
CN113608223A (zh) * | 2021-08-13 | 2021-11-05 | 国家气象信息中心(中国气象局气象数据中心) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 |
CN113608223B (zh) * | 2021-08-13 | 2024-01-05 | 国家气象信息中心(中国气象局气象数据中心) | 基于双分支双阶段深度模型的单站多普勒天气雷达强降水估算方法 |
CN113779784A (zh) * | 2021-08-30 | 2021-12-10 | 天津大学 | 基于位置高影响天气服务产品交互评估方法 |
CN113780585A (zh) * | 2021-11-12 | 2021-12-10 | 江苏铨铨信息科技有限公司 | 一种基于卫星云图的对流云机器学习识别方法 |
CN114252871A (zh) * | 2021-12-13 | 2022-03-29 | 中国西安卫星测控中心 | 一种基于机器学习的雷达测量精度补偿方法 |
CN114742206B (zh) * | 2022-04-20 | 2023-07-25 | 南京信息工程大学 | 综合多时空尺度多普勒雷达数据的降雨强度估计方法 |
CN114742206A (zh) * | 2022-04-20 | 2022-07-12 | 南京信息工程大学 | 综合多时空尺度多普勒雷达数据的降雨强度估计方法 |
CN115792847A (zh) * | 2022-11-08 | 2023-03-14 | 江西师范大学 | 一种基于神经网络和回波垂直信息的定量降水估测方法 |
CN116719519A (zh) * | 2023-06-15 | 2023-09-08 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN116719519B (zh) * | 2023-06-15 | 2024-01-30 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN117805826A (zh) * | 2023-12-12 | 2024-04-02 | 浙江省气象台 | 基于mim网络和雷达拼图的分钟降水估测方法及系统 |
CN117805826B (zh) * | 2023-12-12 | 2024-06-04 | 浙江省气象台 | 基于mim网络和雷达拼图的分钟降水估测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110346844A (zh) | Nriet基于云分类和机器学习的定量降水估测方法 | |
CN106324709B (zh) | 微波链路、雨滴谱仪、雨量计与天气雷达多源联合的降雨场重构方法 | |
CN111308581B (zh) | 一种基于时空局部模型的雷达-雨量计联合降水估测方法 | |
CN102628944B (zh) | 一种基于多普勒雷达资料的层云与对流云自动识别方法 | |
CN109214581B (zh) | 一种考虑风向和置信区间的铁路沿线风速预测方法 | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
CN110261857B (zh) | 一种天气雷达空间插值方法 | |
CN110967695A (zh) | 一种基于深度学习的雷达回波外推短临预报方法 | |
CN106912105A (zh) | 基于pso_bp神经网络的三维定位方法 | |
CN106598917A (zh) | 一种基于深度信念网络的上层海洋热结构预测方法 | |
CN111680870B (zh) | 目标运动轨迹质量综合评估方法 | |
CN111289983B (zh) | 一种雷达垂直累积液态水含量反演方法 | |
CN110389087B (zh) | 一种污染天气下的pm2.5浓度卫星遥感估算方法 | |
CN113267834A (zh) | 一种基于多模型集成的融合降水预报方法 | |
CN111352113A (zh) | 一种强对流天气短临预报方法及系统、存储介质和终端 | |
CN113740934A (zh) | 一种基于s波段双偏振天气雷达降水估测方法 | |
CN115691049A (zh) | 一种基于深度学习的对流初生预警方法 | |
CN110824478B (zh) | 基于多样化3d雷达回波特征的降水云类型自动分类方法及装置 | |
Wardah et al. | Radar rainfall estimates comparison with kriging interpolation of gauged rain | |
CN110095437B (zh) | 一种区域海水透明度实时计算方法 | |
CN104899464B (zh) | 一种适应噪声条件下的抽样学习机遥感定量反演方法 | |
CN113642785B (zh) | 基于先验信息的空间碎片轨道长期预报方法、系统及设备 | |
CN116012618A (zh) | 一种基于雷达回波图的天气辨识方法、系统、设备及介质 | |
CN115166874A (zh) | 基于机器学习的气象干旱指数spi构建方法 | |
CN114004426B (zh) | 一种短时暴雨预报释用模型的动态调整方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191018 |
|
WD01 | Invention patent application deemed withdrawn after publication |