CN117111181B - 一种短时强降水概率预报方法及系统 - Google Patents
一种短时强降水概率预报方法及系统 Download PDFInfo
- Publication number
- CN117111181B CN117111181B CN202311136811.XA CN202311136811A CN117111181B CN 117111181 B CN117111181 B CN 117111181B CN 202311136811 A CN202311136811 A CN 202311136811A CN 117111181 B CN117111181 B CN 117111181B
- Authority
- CN
- China
- Prior art keywords
- precipitation
- short
- prediction
- machine learning
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001556 precipitation Methods 0.000 title claims abstract description 220
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 79
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000007613 environmental effect Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013077 scoring method Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000013277 forecasting method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- WWVKQTNONPWVEL-UHFFFAOYSA-N caffeic acid phenethyl ester Natural products C1=C(O)C(O)=CC=C1C=CC(=O)OCC1=CC=CC=C1 WWVKQTNONPWVEL-UHFFFAOYSA-N 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- SWUARLUWKZWEBQ-UHFFFAOYSA-N phenylethyl ester of caffeic acid Natural products C1=C(O)C(O)=CC=C1C=CC(=O)OCCC1=CC=CC=C1 SWUARLUWKZWEBQ-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/02—Instruments for indicating weather conditions by measuring two or more variables, e.g. humidity, pressure, temperature, cloud cover or wind speed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Environmental & Geological Engineering (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Environmental Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Atmospheric Sciences (AREA)
- Mathematical Physics (AREA)
- Ecology (AREA)
- Automation & Control Theory (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Fuzzy Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于短时强降水概率预报技术领域,公开了一种基于机器学习算法和模式预报的短时强降水概率预报方法及系统,计算对流参数等物理因子,分析短时强降水和环境物理因子的关系,建立基于机器学习算法的分级短时强降水预报模型;利用全球模式EC细网格模式实时预报数据计算物理因子,根据分级短时强降水机器学习预报模型,预报短时强降水有无;融合中尺度模式降水预报和基于EC细网格的机器学习模型预报结果,得到分级别短时强降水概率预报。该方法根据EC细网格全球模式预报的对流参数预报未来短时强降水有无,结合中尺度数值模式降水预报,采用模糊逻辑算法,计算权重,得到短时强降水概率;预报不同等级强降水概率,为强降水预报提供有效参考。
Description
技术领域
本发明属于短时强降水概率预报技术领域,尤其涉及基于机器学习算法和模式预报的短时强降水概率预报方法。
背景技术
短时强降水是天气预报中的难点问题。6小时以上时效的短时强降水客观预报方法,主要为数值模式和基于要素的客观预报技术。欧洲数值预报中心全球模式,是目前短中期时段,形势预报准确性最高的模式,然后由于全球模式采用静力平衡模式,分辨率较粗,对对流性降水预报效果不佳。中尺度模式(如CMA_SH9,CMA_MESO等)采用非静力框架,拥有更高分辨率,在强降水预报上优于前者。已有一些研究表明基于多家中尺度数值模式降水预报的集成预报技术,可改善模式对强降水的预报。如赵明渊和漆梁波(2021)基于分位数频率匹配法进行动态权重多模式集成预报,改善了强降水的短时预报。然而,1)这些订正技术往往缺乏天气学物理意义。2)全球模式对天气趋势的预报能力没有得到应用。
基于物理因子的客观预报技术,来源于“配料”思想,即综合分析强降水所需的能量、水汽、抬升等条件的强度,判断强降水出现的可能性。曾明剑等(2018)在统计分析大量历史个例的基础上,结合中尺度模式输出的对流参数预报,提出一种客观对流参数筛选和权重分配方案,构建分类强对流天气概率预报模型。韩丰等(2021)利用探空数据物理量和对流参数,采用XGboost建立模型,预报短时强降水事件。然而,基于探空的客观预报模型时间和空间分辨率较差,基于单一模式数据的预报模型依赖于模式的预报性能,可能出现较大的偏差。从统计上说、短时强降水有很强的日变化特征和地形、海陆分布等密切相关(吴梦雯和罗亚丽2019)。浙江东临大海,内陆多山,地形复杂,统计表明短时强降水分布有很强的地域特征(陶局等,2021;吕劲文等,2019)。然而目前,基于物理因子的预报技术对地理特征的提取和应用较少。
通过上述分析,现有技术存在的问题及缺陷为:1)短时强降水的预报准确性还有待提高;2)基于探空的客观预报模型时间和空间分辨率较差,基于单一模式数据的预报模型依赖于模式的预报性能,可能出现较大的偏差。3)大多数12小时以上时效的短时强降水预报技术,仅考虑落区,未考虑短时强降水的等级。4)客观预报技术对地形和地理特征信息的提取和应用较少。
发明内容
针对现有技术存在的问题,本发明提供了基于机器学习算法和模式预报的短时强降水概率预报方法。
本发明是这样实现的,本发明公开了一种基于机器学习和多尺度数值模式的短时强降水概率预报方法,包括利用长时间序列再分析资料,计算对流参数等物理因子,分析短时强降水和环境物理因子的关系,建立基于机器学习算法的分级短时强降水预报模型。利用全球模式EC细网格模式实时预报数据计算物理因子,根据分级短时强降水机器学习预报模型,预报短时强降水有无。采用模糊逻辑思想,融合中尺度模式降水预报和基于EC细网格的机器学习模型预报结果,得到分级别短时强降水概率预报。
进一步,基于机器学习算法和模式预报的短时强降水概率预报方法,所述基于机器学习算法和模式预报的短时强降水概率预报方法具体包括:
步骤一,建立分级别短时强降水机器学习预报模型;
步骤二,基于EC细网格模式实时预报资料,根据步骤一建立的分级短时强降水机器学习预报模型,预报不同级别短时强降水有无。
步骤三,采用模糊逻辑思想,融合中尺度模式降水预报和基于EC细网格的机器学习模型预报结果,得到分级别短时强降水概率预报。
进一步,所述步骤一包括:
步骤11,根据自动站小时雨量观测,获取不同级别降水样本时间和落区;
步骤12,遍历每个时次所有自动站降水数据Ak,根据最临近原则将数据插值到0.25°×0.25°网格上,被插值站点数据Ak大于原网格点的数据Gi,j,则网格点数据Gi,j=Ak,否则Gi,j=Gi,j;根据R1给出的降水量级标准,给格点划定降水级别;
步骤13,利用ERA5再分析资料,计算各个格点的环境物理因子,得到建模所需格点样本;其中为了考虑气候特征对强降水的影响,引入气候频率指数 为一段较长历史时期(10年)格点j出现Li级别的短时强降水总次数,/>为所有格点中出现Li级别短时强降水最多的次数。
步骤14,进行不同级别降水的物理因子概率密度分布分析,找到物理量在各级别概率最大的值,计算不同级别概率最大值的差别,剔除差别最小的20%的变量;
步骤15,利用随机森林算法计算因子重要性贡献,选择贡献最大的16个预报因子;
步骤16,利用随机森林建立基于ERA5环境物理因子的不同级别短时强降水预报模型,保存模型,其中不同级别包括L2和L3。
进一步,所述步骤11中不同级别包括,L1:降水量级为<20mm/h;L2:20mm/h≤降水量级<50mm/h;L3:降水量级为≥50mm/h。
进一步,所述步骤13中建模所需格点样本为降水级别标签,出现时间,出现位置和各物理因子。
进一步,所述步骤14中计算代表不同样本中物理因子出现概率,其中下标v代表不同物理因子,上标Li代表不同降水级别,计算得到不同级别概率最大时物理因子的值/>
计算20毫米以上降水和20毫米以下的降水的概率密度分布差别:
计算小时雨量50毫米以上强降水和50毫米以下降水的概率密度分布差别:
式中进行了归一化处理,Vmax为物理因子的最大值,Vmin为物理因子的最小值。
进一步,所述步骤二包括:
步骤21,根据EC细网格预报输出未来0-36小时内逐3小时的物理量,计算步骤15中确定的预报因子;
步骤22,预报因子归一化,输入机器学习模型,得到未来0-36小时逐3小时的20mm/h和50mm/h强降水可能落区。
进一步,所述步骤三包括:
步骤31,计算中尺度模式小时雨量预报不同阈值时TS评分,确定模糊逻辑隶属函数;
步骤32,确定机器学习模型、中尺度模式权重;
步骤33,根据隶属度函数和权重,计算不同级别强降水的出现概率。
进一步,所述步骤31中先把中尺度模式的分辨率降低为0.25°×0.25°;
计算TS评分方法为:
当降水阈值i取0,1,2,3.....,对于实况降水等级为Li时的TS评分,其中,NA为命中数,NB为漏报数,NC为空报数,并求出最大的TS评分,/>和TS评分最大时,模式的降水阈值/>
采用阶梯式隶属度函数,等级分为0.2,0.4,0.6,0.8,1.0。
进一步,步骤32中统计较长一段时间,机器学习模型预报TS评分和中尺度模式最大TS评分,根据模式TS评分优劣,确定不同模式和机器学习模型的权重。
进一步,步骤33中概率计算公式:其中wi为权重,fi为模型或模式预报。
本发明的另一目的在于提供一种基于机器学习算法和模式预报的短时强降水概率预报方法的基于机器学习算法和模式预报的短时强降水概率预报系统,该系统包括:
预报模型建立模块,用于建立不同级别短时强降水的机器学习预报模型;
降水有无预报模块,用于进行机器学习分级别短时强降水有无预报;
短时强降水概率预报模块,用于建立分级别短时强降水概率预报。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,本发明建立不同级别的短时强降水的机器学习模型。在建立机器学习的模型过程中,采用不同等级降水的物理因子概率密度分布法,通过计算最大概率密度差来剔除低效因子,另外采用机器学习因子重要性排序法,两种方法筛选有效的预报因子。
地形和地理特征等长期稳定的因素对强降水的发生有重要影响,表现为气候统计上不同位置强降水出现概率存在差异。为了考虑气候特征对强降水的影响,引入气候频率指数 为一段较长历史时期(10年)格点j出现Li级别的短时强降水总次数,/>为所有格点中出现Li级别短时强降水最多的次数。将气候频率指数作为预报因子之一,使模型能够考虑地理分布等稳定不变因素对强降水的影响。
根据EC细网格全球模式预报的对流参数和机器学习模型预报未来短时强降水有无。利用EC细网格模式环境场预报较准确的优势,预报不同级别短时强降水潜在出现位置。
机器学习模型预报结果,结合多个中尺度数值模式降水预报,采用模糊逻辑算法,计算权重,得到短时强降水概率。其中通过计算不同降水阈值时,模式预报的TS评分和成功率,将中尺度数值模式预报降水量转化为模糊逻辑的隶属度。根据机器学习预报和各模式降水预报的TS评分,确定机器学习和各模式的权重。该技术为如何将全球模式和多个中尺度模式的优势相结合进行短时强降水预报,提供了新的思路。
第二,随机森林等机器学习算法有较强的分类能力,建立基于不同级别短时强降水机器学习模型。利用EC全球模式较准确的物理因子预报,进行不同级别短时强降水有无预报。机器学习模型预报结果,结合多个中尺度数值模式降水预报,采用模糊逻辑算法,计算权重,得到短时强降水概率。该技术为如何将全球模式和多个中尺度模式的优势相结合进行短时强降水预报,提供了新的思路。
第三,本发明的技术方案转化后的预期收益和商业价值为:本发明提供的技术方案可以提高短时强降水落区的预报能力,通过充分挖掘有效物理因子建立较为可靠的机器学习模型。将全球模式环境场的机器学习模型预报和多个中尺度模式预报融合,提取有效信息,得到更准确的短时强降水潜在落区预报。
本发明提供的技术方案可以提高短时强降水强度的预报能力,通过建立不同级别的机器学习预报模型和模式降水隶属度函数和权重,建立不同级别短时强降水概率预报,减少短时强降水漏报、提高短时强降水强度的预报能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于机器学习算法和模式预报的短时强降水概率预报方法流程图;
图2是本发明实施例提供的基于2023年7月30日20时起报的EC细网格资料和机器学习模型得到的L2和L3级别短时强降水落区图;
图2a为基于2023年7月30日20时起报的EC细网格资料得到的2023年7月31日15时的20-50mm/h的短时强降水落区图,图2b为基于2023年7月30日20时起报的EC细网格资料得到的2023年7月31日15时的≥50mm/h的短时强降水落区图;
图3是本发明实施例提供的CMA_MESO模式不同阈值时的成功率和TS评分的分布图;
图3a为CMA_MESO模式不同阈值时对20-50mm/h的短时强降水的TS评分和成功率图,图3b为CMA_MESO模式不同阈值时对≥50mm/h的短时强降水的TS评分和成功率图;
图4是本发明实施例提供的CMA_MESO模式不同阈值时的短时强降水的隶属度函数图;
图4a为CMA_MESO模式对20-50mm/h的短时强降水的隶属度函数,图4b为CMA_MESO模式对≥50mm/h的短时强降水的隶属度函数;
图5是本发明实施例提供的2023年7月21日16时短时强降水分级预报和实况对比图;
图5a为2023年7月21日16时L2级(20-50mm/h)短时强降水概率预报(阴影)和叠加实况短时强降水(圆点)落区图,图5b为2023年7月21日16时L3级(≥50mm/h)短时强降水概率预报(阴影)和叠加实况短时强降水(圆点)落区图。
图6a为2023年8月14日16时L2级(20-50mm/h)短时强降水概率预报(阴影)和叠加实况短时强降水(空心圆点)落区图,图6b为2023年8月14日16时中央气象台强天气中心研发的短时强降水概率预报产品L2级(20-50mm/h)短时强降水概率预报(阴影)和叠加实况短时强降水(空心圆点)落区图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了基于机器学习算法和模式预报的短时强降水概率预报方法。
如图1所示,本发明实施例提供的基于机器学习算法和模式预报的短时强降水概率预报方法,所述基于机器学习算法和模式预报的短时强降水概率预报方法具体包括:
步骤一,建立不同级别短时强降水的机器学习预报模型;
步骤二,基于EC细网格模式输出资料,进行机器学习分级别短时强降水有无预报;
步骤三,基于中尺度数值模式预报和基于EC的机器学习模型建立分级别短时强降水概率预报。
进一步,所述步骤一包括:
步骤11,根据自动站小时雨量观测,获取不同级别降水样本时间和落区;
步骤12,遍历每个时次所有自动站降水数据Ak,根据最临近原则将数据插值到0.25°×0.25°网格上,被插值站点数据Ak大于原网格点的数据Gi,j,则网格点数据Gi,j=Ak,否则Gi,j=Gi,j;根据R1给出的降水量级标准,给格点划定降水级别;
步骤13,利用ERA5再分析资料,计算各个格点的环境物理因子,得到建模所需格点样本;
步骤14,进行不同级别降水的物理因子概率密度分布分析,找到物理量在各级别概率最大的值,计算不同级别概率最大值的差别,剔除差别最小的20%的变量;
步骤15,利用随机森林算法计算因子重要性贡献,选择贡献最大的16个预报因子;
步骤16,利用随机森林建立基于ERA5环境物理因子的不同级别短时强降水预报模型,保存模型,其中不同级别包括L2和L3。
进一步,所述步骤11中不同级别包括,L1:降水量级为<20mm/h;L2:20mm/h≤降水量级<50mm/h;L3:降水量级为≥50mm/h。
进一步,所述步骤13中建模所需格点样本为降水级别标签,出现时间,出现位置和各物理因子。
进一步,所述步骤14中计算代表不同样本中物理因子出现概率,其中下标v代表不同物理因子,上标Li代表不同降水级别,计算得到不同级别概率最大时物理因子的值/>
计算20毫米以上降水和20毫米以下的降水的概率密度分布差别:
计算小时雨量50毫米以上强降水和50毫米以下降水的概率密度分布差别:
式中进行了归一化处理,Vmax为物理因子的最大值,Vmin为物理因子的最小值。
进一步,所述步骤二包括:
步骤21,根据EC细网格预报输出未来0-36小时内逐3小时的物理量,计算步骤15中确定的预报因子;
步骤22,预报因子归一化,输入机器学习模型,得到未来0-36小时逐3小时的20mm/h和50mm/h强降水可能落区。
进一步,所述步骤三包括:
步骤31,计算中尺度模式小时雨量预报不同阈值时TS评分,确定模糊逻辑隶属函数;
步骤32,确定机器学习模型、中尺度模式权重;
步骤33,根据隶属函数和权重,计算不同级别强降水的出现概率。
进一步,所述步骤31中先把中尺度模式的分辨率降低为0.25°×0.25°;
计算TS评分方法为:
当降水阈值i取0,1,2,3.....,对于实况降水等级为Li时的TS评分,其中,NA为命中数,NB为漏报数,NC为空报数,并求出最大的TS评分,/>和TS评分最大时,模式的降水阈值/>
采用阶梯式隶属度函数,等级分为0.2,0.4,0.6,0.8,1.0。
进一步,步骤32中统计较长一段时间,机器学习模型预报TS评分和中尺度模式最大TS评分,根据模式TS评分优劣,确定不同模式和机器学习模型的权重。
进一步,步骤33中概率计算公式:其中wi为权重,fi为模型或模式预报。
本发明的另一目的在于提供一种基于机器学习算法和模式预报的短时强降水概率预报方法的基于机器学习算法和模式预报的短时强降水概率预报系统,该系统包括:
预报模型建立模块,用于建立不同级别短时强降水的机器学习预报模型;
降水有无预报模块,用于进行机器学习分级别短时强降水有无预报;
短时强降水概率预报模块,用于建立分级别短时强降水概率预报。
为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
步骤1,建立基于机器学习算法的短时强降水模型。
1.1根据自动站小时雨量观测,获取不同级别降水样本时间和落区;
本实施例中,选取2015-2021年浙江省自动站逐小时的雨量观测数据,将降水级别分为:L1<20mm/h;20mm/h≤L2<50mm/h;L3≥50mm/h。
1.2遍历每个时次所有自动站降水数据Ak,根据最临近原则将数据插值到0.25°×0.25°网格上,被插值站点数据Ak大于原网格点的数据Gi,j,则网格点数据Gi,j=Ak,否则Gi,j=Gi,j;根据1.1给出的降水量级标准,给格点划定降水级别。
1.3利用2015-2021年ERA5再分析资料,计算各个格点的环境物理因子;
物理因子包括:对流有效位能CAPE,最佳抬升指数BLI,气柱总水汽含量PW,KI指数,0-3公里垂直风切变shear3,0-6公里垂直风切变shear6,中低层(1000hPa,925hPa,850hPa,700hPa,500hPa)比湿q、相对湿度Rh,U、V,风速Spd、假相当位温、位势高度Hgt、高低空温差、垂直速度Ω、散度div、涡度vor、水汽通量散度qdiv、零度层高度Lev0、湿球零度高度Levb0、海平面气压msl、气候频率指数LOCI、时间T等,共68个参数;得到建模所需格点样本,包括降水级别标签,出现时间,经纬度和各物理因子;2015-2020年为测试数据集,2021年为验证数据集。
1.4进行不同级别降水的物理因子概率密度分布分析,找到物理量在各级别概率最大的值,计算不同级别概率最大值的差别;
计算代表不同样本中物理因子出现概率,下标v代表不同物理因子,上标Li代表不同降水级别,得到不同级别概率最大时物理因子的/>
计算20毫米以上降水和20毫米以下的降水的概率密度分布差别:
计算小时雨量50毫米以上强降水和50毫米以下降水的概率密度分布差别:
式中进行了归一化处理,Vmax为物理因子的最大值,Vmin为物理因子的最小值;
剔除概率密度分布差别最小的物理因子,包括中低层(1000hPa、925hPa、850hPa、700hPa、500hPa)温度、涡度、散度,0-3公里垂直风切变。
1.5利用随机森林模型,计算物理因子的重要性,筛选出用于建模的物理因子;
将物理因子归一化处理,由于强降水为小概率事件,负样本数远远大于正样本数,首先需要解决样本不平衡的问题,对于利用Python程序包sklearn的随机下采样剔除过多的负样本,SMOT算法构造部分正样本,使正负样本最终为1:1.1;利用随机森林算法计算物理因子贡献,选出贡献最大的16个因子;L2级别的降水贡献大的物理因子有:整层可降水量,925百帕露点温度,900百帕比湿,不稳定能量CAPE,最佳抬升指数,700百帕假相当位温,700百帕比湿,500百帕垂直速度,500-700百帕平均垂直速度,海平面气压,零度层高度,925百帕U风,850百帕U风,925百帕高度场,气候频率指数,月份;
对于L3级别强降水物理因子重要的前16项为:500-700百帕平均垂直速度,不稳定能量CAPE,整层水汽含量PW,BLI,925百帕露点,零度层高度,500-700百帕平均速度,850百帕露点温度,1000百帕水汽通量散度,700百帕U,850百帕U,500百帕U,气候频率指数,小时,海平面气压,850百帕高度;作为预报因子。
1.6根据1.5得到的预报因子,利用随机森林模型,预报未来1-3小时出现L2和L3级别强降水的落区;通过模型超参数调整,找到在测试集上预报效果较好的参数组合,并保存模型。
步骤2,基于EC细网格模式输出资料,进行机器学习分级别短时强降水有无预报。
2.1利用EC细网格数模输出的逐3小时物理量,计算1.5节中确定的预报因子。
2.2预报因子输入1.6节得到的预报模型,预报未来1-3小时L2、L3级别强降水的落区。图2为基于2023年7月30日20时起报的EC细网格资料和预报模型得到的L2和L3级别短时强降水落区。
步骤3,基于中尺度数值模式预报和基于EC的机器学习模型建立分级别短时强降水概率预报。
3.1评估中尺度模式CMA_SH9和CMA_MESO对浙江省短时强降水的预报质量,采用TS评分和成功率,确定模糊逻辑隶属度函数A(x);下面以CMA_MESO模式为例,附图说明隶属度函数确定过程。
针对2022年6-8月的模式降水预报进行评分,为了便于和机器学习算法结果对比,首先把中尺度模式的降水预报分辨率降低为0.25°×0.25°,将自动站雨量按1.2节中方法插值到同样的网格上;
针对L2等级强降水,降水评分阈值Q遍历2~25mm,间隔1毫米,对比模式预报降水和实况L2等级降水落区,计算取不同阈值时的TS评分和成功率。其中,成功率=命中数/预报数。图3a给出2022年6-8月,针对L2级别降水CAM_MESO模式不同阈值Q时的TS评分;
针对L3等级强降水,降水评分阈值Q遍历2~55mm,间隔1毫米,对比模式预报降水和实况L3等级降水落区,计算取不同阈值时的TS评分和成功率。图3b给出2022年6-8月,针对L3级别降水CAM_MESO模式不同阈值Q时的TS评分;
根据图3中成功率和TS评分的分布,确定模式降水量的隶属度函数A(x),采用阶梯式隶属度函数,等级分为0.2,0.4,0.6,0.8,1.0,CMA_MESO的隶属度函数见图4,图4a为CMA_MESO模式对20-50mm/h的短时强降水的隶属度函数,图4b为CMA_MESO模式对≥50mm/h的短时强降水的隶属度函数;
对于CMA_SH9模式预报降水量采用同样的方法统计成功率和TS评分的分布,确定隶属度函数。
3.2确定机器学习模型、中尺度模式权重。统计2022年6-8月,机器学习模型预报TS评分和中尺度模式最大TS评分,和TS最大时的降水阈值/>根据模式TS评分优劣,确定不同模式和机器学习模型的权重。表1为根据2022年6-8月降水过程的统计结果,表明机器学习模式在L2和L3级别降水表现都比模式好,因此机器学习权重>CAM_MESO权重>CMA_SH9权重。本实例中L2级权重分别为0.5,0.3,0.2,L3级分别为为0.6,0.3,0.1。
表1机器学习和模式对短时强降水评分
3.3根据隶属函数和权重,计算不同级别强降水的出现概率。
概率计算公式:wi为权重,fi为模型预报或模糊化后的模式预报,Li代表不同等级,所有wi和为1。
图5为2023年7月21日16时短时强降水分级预报和实况对比。可以看到L2级别短时强降水高概率区和实况基本吻合,但嘉兴、丽水、湖州、台州地区存在较明显空报,台州东部、丽水南部有漏报;L3级短时强降水较好地报出了强降水落区,但是台州、丽水、湖州等地区的空报较明显。可见本发明能较好预报不同等级强降水概率,可以为强降水预报提供有效参考。
本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
本发明的技术方案已在浙江省气象台实现实时业务化,取得了较好的应用效果。为了进一步说明本发明的实施效果,选取2023年8月14日16时短时强降水个例,和从中央气象台强天气中心引进的短时强降水概率预报产品(以下简称CMA_HRAINP)做对比检验。CMA_HRAINP基于CMA_MESO模式预报物理因子,利用配料法建立强对流预报模型。从图6可见,由于CMA_MESO分辨率较高,因此CMA_HRAINP分辨率明显高于本发明的产品,但是由于基于单一模式,由于模式预报的偏差导致强降水落区预报偏差较大,对台州地区出现的短时强降水完全漏报。而本发明的产品由于综合了多家数值模式的预报信息,能够较好的报出绝大部分的短时强降水。
实施例1:使用决策树算法进行短时强降水概率预报
步骤一:
1.收集长时间序列的再分析资料,计算对流参数、湿度、温度等物理因子。
2.通过决策树算法分析历史数据,建立分级别的短时强降水预报模型。
步骤二:
1.利用全球模式EC细网格模式的实时预报数据,计算物理因子。
2.将计算出的物理因子输入到决策树模型中,预报短时强降水有无。
步骤三:
1.利用中尺度数值模式预报降水量。
2.将中尺度模型和EC细网格模式的决策树预报结果进行加权融合,得到分级别的短时强降水概率预报。
实施例2:使用神经网络算法进行短时强降水概率预报
步骤一:
1.收集长时间序列再分析资料,计算例如CAPE(对流有效位能)、风速等物理因子。
2.使用深度神经网络算法,基于历史数据建立分级别短时强降水预报模型。
步骤二:
1.利用全球模式EC细网格模式的实时预报数据,计算相关物理因子。
2.将这些物理因子输入到神经网络模型中,预测短时强降水有无。
步骤三:
1.利用中尺度数值模式预报降水量。
2.将中尺度模型预报和基于EC细网格的神经网络模型预报结果进行加权融合,得到分级别的短时强降水概率预报。
通过这两个实施例,基于不同的机器学习算法,都能实现短时强降水的精准预报,而且这些模型可以进一步融合其他数值模型,提高预报的准确性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (8)
1.基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,利用长时间序列再分析资料,计算对流参数物理因子,分析短时强降水和环境物理因子的关系,建立基于机器学习算法的分级短时强降水预报模型;利用全球模式EC细网格模式实时预报数据计算物理因子,根据分级短时强降水机器学习预报模型,预报短时强降水有无;融合中尺度模式降水预报和基于EC细网格的机器学习模型预报结果,得到分级别短时强降水概率预报;
包括:
步骤一,建立不同级别短时强降水的机器学习预报模型;
步骤二,基于EC细网格模式输出资料,进行机器学习分级别短时强降水有无预报;
步骤三,基于中尺度数值模式预报和基于EC的机器学习模型建立分级别短时强降水概率预报;
所述步骤一包括:
步骤11,根据自动站小时雨量观测,获取不同级别降水样本时间和落区;
步骤12,遍历每个时次所有自动站降水数据Ak,根据最临近原则将数据插值到0.25°×0.25°网格上,被插值站点数据Ak大于原网格点的数据Gi,j,则网格点数据Gi,j=Ak,否则Gi,j=Gi,j;根据R1给出的降水量级标准,给格点划定降水级别;
步骤13,利用ERA5再分析资料,计算各个格点的环境物理因子,得到建模所需格点样本;
步骤14,进行不同级别降水的物理因子概率密度分布分析,找到物理量在各级别概率最大的值,计算不同级别概率最大值的差别,剔除差别最小的20%的变量;
步骤15,利用随机森林算法计算因子重要性贡献,选择贡献最大的16个预报因子;
步骤16,利用随机森林建立基于ERA5环境物理因子的不同级别短时强降水预报模型,保存模型,其中不同级别包括L2和L3。
2.如权利要求1所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,所述步骤11中不同级别包括,L1:降水量级为<20mm/h;L2:20mm/h≤降水量级<50mm/h;L3:降水量级为≥50mm/h;
所述步骤13中建模所需格点样本为降水级别标签,出现时间,出现位置和各物理因子。
3.如权利要求1所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,所述步骤14中计算代表不同样本中物理因子出现概率,其中下标v代表不同物理因子,上标li代表不同降水级别,计算得到不同级别概率最大时物理因子的值
计算20毫米以上降水和20毫米以下的降水的概率密度分布差别:
计算小时雨量50毫米以上强降水和50毫米以下降水的概率密度分布差别:
式中进行了归一化处理,Xmax为物理因子的最大值,Xmin为物理因子的最小值。
4.如权利要求1所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,所述步骤二包括:
步骤21,根据EC细网格预报输出未来0-36小时内逐3小时的物理量,计算步骤15中确定的预报因子;
步骤22,预报因子归一化,输入机器学习模型,得到未来0-36小时逐3小时的20mm/h和50mm/h强降水可能落区。
5.如权利要求1所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,所述步骤三包括:
步骤31,计算中尺度模式小时雨量预报不同阈值时TS评分,确定模糊逻辑隶属函数;
步骤32,确定机器学习模型、中尺度模式权重;
步骤33,根据隶属函数和权重,计算不同级别强降水的出现概率。
6.如权利要求5所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,所述步骤31中先把中尺度模式的分辨率降低为0.25°×0.25°;
计算TS评分方法为:
当降水阈值i取0,1,2,3.....,对于实况降水等级为li时的TS评分,其中,NA为命中数,NB为漏报数,NC为空报数,并求出最大的TS评分,/>和TS评分最大时,模式的降水阈值/>
采用阶梯式隶属度函数,等级分为0.2,0.4,0.6,0.8,1.0。
7.如权利要求5所述基于机器学习算法和模式预报的短时强降水概率预报方法,其特征在于,步骤32中统计较长一段时间,机器学习模型预报TS评分和中尺度模式最大TS评分,根据模式TS评分优劣,确定不同模式和机器学习模型的权重;步骤33中概率计算公式:其中wi为权重,fi为模型或模式预报。
8.一种如权利要求1~7任一项所述的基于机器学习算法和模式预报的短时强降水概率预报方法的基于机器学习算法和模式预报的短时强降水概率预报系统,该系统包括:
预报模型建立模块,用于建立不同级别短时强降水的机器学习预报模型;
降水有无预报模块,用于进行机器学习分级别短时强降水有无预报;
短时强降水概率预报模块,用于建立分级别短时强降水概率预报。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311136811.XA CN117111181B (zh) | 2023-09-05 | 2023-09-05 | 一种短时强降水概率预报方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311136811.XA CN117111181B (zh) | 2023-09-05 | 2023-09-05 | 一种短时强降水概率预报方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117111181A CN117111181A (zh) | 2023-11-24 |
CN117111181B true CN117111181B (zh) | 2024-04-09 |
Family
ID=88801981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311136811.XA Active CN117111181B (zh) | 2023-09-05 | 2023-09-05 | 一种短时强降水概率预报方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117111181B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290810B (zh) * | 2023-11-27 | 2024-02-02 | 南京气象科技创新研究院 | 基于循环卷积神经网络的短时强降水概率预报融合方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111665575A (zh) * | 2020-05-27 | 2020-09-15 | 长江水利委员会水文局 | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 |
CN112053005A (zh) * | 2020-09-15 | 2020-12-08 | 江苏省气象台 | 一种主客观降水预报的机器学习融合方法 |
CN113267834A (zh) * | 2020-11-30 | 2021-08-17 | 武汉超碟科技有限公司 | 一种基于多模型集成的融合降水预报方法 |
CN113742327A (zh) * | 2021-09-02 | 2021-12-03 | 中国水利水电科学研究院 | 一种基于测雨雷达数据的自动雨量站异常值筛选方法 |
-
2023
- 2023-09-05 CN CN202311136811.XA patent/CN117111181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111665575A (zh) * | 2020-05-27 | 2020-09-15 | 长江水利委员会水文局 | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 |
CN112053005A (zh) * | 2020-09-15 | 2020-12-08 | 江苏省气象台 | 一种主客观降水预报的机器学习融合方法 |
CN113267834A (zh) * | 2020-11-30 | 2021-08-17 | 武汉超碟科技有限公司 | 一种基于多模型集成的融合降水预报方法 |
CN113742327A (zh) * | 2021-09-02 | 2021-12-03 | 中国水利水电科学研究院 | 一种基于测雨雷达数据的自动雨量站异常值筛选方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的数值模式降水产品降尺度方法;程文聪;史小康;张文军;王志刚;邢平;;热带气象学报;20200615(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117111181A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Evans et al. | Evaluating the performance of a WRF physics ensemble over South-East Australia | |
Olsson et al. | Neural networks for rainfall forecasting by atmospheric downscaling | |
WO2021077729A1 (zh) | 一种雷电预测方法 | |
CN108375808A (zh) | Nriet基于机器学习的大雾预报方法 | |
CN112285807B (zh) | 一种气象信息预测方法及装置 | |
CN117111181B (zh) | 一种短时强降水概率预报方法及系统 | |
CN112180472A (zh) | 一种基于深度学习的大气能见度集成预报方法 | |
Li et al. | Evaluating the MJO prediction skill from different configurations of NCEP GEFS extended forecast | |
Yamaguchi et al. | Increase in the number of tropical cyclones approaching Tokyo since 1980 | |
Vassallo et al. | Utilizing physics-based input features within a machine learning model to predict wind speed forecasting error | |
CN116882587A (zh) | 一种基于雷电灾害情况下电力电网系统故障预测分析方法 | |
Seo et al. | Genetic feature selection for very short-term heavy rainfall prediction | |
Li et al. | The area prediction of western North Pacific Subtropical High in summer based on Gaussian Naive Bayes | |
CN113935228A (zh) | 一种基于机器学习的l波段粗糙海面辐射亮温模拟方法 | |
CN117370813A (zh) | 一种基于k线模式匹配算法的大气污染深度学习预测方法 | |
Vuyyuru et al. | Rainfall Prediction Using Machine Learning Based Ensemble Model | |
CN112200363A (zh) | 一种滑坡的预测方法、装置、设备和存储介质 | |
CN109636194B (zh) | 一种输变电项目重大变动多源协同检测方法与系统 | |
CN111427101A (zh) | 雷雨大风分级预警方法、系统、存储介质、计算机程序 | |
Otto et al. | Crown snow load outage risk model for overhead lines | |
CN109583095B (zh) | 基于混合统计动力模型的西北太平洋台风延伸期预报方法 | |
CN115345245A (zh) | 一种基于随机森林和迁移学习的热带气旋快速加强预报方法 | |
Vaughan et al. | Climatology and analysis of high-impact, low predictive skill severe weather events in the northeast United States | |
Li et al. | A new hybrid machine learning model for short-term climate prediction by performing classification prediction and regression prediction simultaneously | |
Hinrichs et al. | The Baltic and North Seas Climatology (BNSC)—A Comprehensive, Observation-Based Data Product of Atmospheric and Hydrographic Parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |