CN117574134B - 基于机器学习和智能预报因子预报台风远距离降水的方法 - Google Patents
基于机器学习和智能预报因子预报台风远距离降水的方法 Download PDFInfo
- Publication number
- CN117574134B CN117574134B CN202410045183.2A CN202410045183A CN117574134B CN 117574134 B CN117574134 B CN 117574134B CN 202410045183 A CN202410045183 A CN 202410045183A CN 117574134 B CN117574134 B CN 117574134B
- Authority
- CN
- China
- Prior art keywords
- typhoon
- precipitation
- typhoons
- data
- china
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001556 precipitation Methods 0.000 title claims abstract description 282
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000010801 machine learning Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 49
- 238000012360 testing method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000004088 simulation Methods 0.000 claims abstract description 11
- 230000009467 reduction Effects 0.000 claims abstract description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 86
- 238000012937 correction Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 26
- 238000003745 diagnosis Methods 0.000 claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 238000010206 sensitivity analysis Methods 0.000 claims description 14
- 238000013135 deep learning Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000007418 data mining Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000004907 flux Effects 0.000 claims description 8
- 230000005855 radiation Effects 0.000 claims description 8
- 238000000611 regression analysis Methods 0.000 claims description 8
- 101100366707 Arabidopsis thaliana SSL11 gene Proteins 0.000 claims description 7
- 101100366710 Arabidopsis thaliana SSL12 gene Proteins 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 101100366562 Panax ginseng SS12 gene Proteins 0.000 claims description 4
- 101100366563 Panax ginseng SS13 gene Proteins 0.000 claims description 4
- 230000008033 biological extinction Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 101100366711 Arabidopsis thaliana SSL13 gene Proteins 0.000 claims description 2
- 101100001677 Emericella variicolor andL gene Proteins 0.000 claims description 2
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 2
- 101100366561 Panax ginseng SS11 gene Proteins 0.000 claims description 2
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000009833 condensation Methods 0.000 claims description 2
- 230000005494 condensation Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000001704 evaporation Methods 0.000 claims description 2
- 230000008020 evaporation Effects 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000004451 qualitative analysis Methods 0.000 claims description 2
- 238000004445 quantitative analysis Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000002265 prevention Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 206010002198 Anaphylactic reaction Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036783 anaphylactic response Effects 0.000 description 1
- 208000003455 anaphylaxis Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Environmental & Geological Engineering (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于机器学习和智能预报因子预报台风远距离降水的方法,该方法通过收集整理多源气象观测资料,利用台风降水过程主客观相结合的识别方法构建我国北方地区台风远距离强降水数据集,使用基于机器学习的算法对台风远距离强降水的时空分布特征、影响机理和主要类型进行分析,基于高分辨率数值模拟试验对典型个例进行诊断分析,从暖湿空气活动角度构建适用于我国北方地区台风远距离强降水的隐含台风影响的智能季风涌指数IMI,并将其作为智能预报因子,实现对北方地区台风远距离强降水的预报。本发明通过利用机器学习等技术,提高对我国北方地区台风远距离强降水的预报精度和稳定性,为北方地区城市安全运行及防灾减灾提供科学支持。
Description
技术领域
本发明属于机器学习技术以及气象预报技术领域,涉及台风远距离强降水的预报方法。具体而言,是一种基于机器学习和智能预报因子预报台风远距离降水的方法,通过利用机器学习等技术并通过构建智能预报因子,实现对我国北方地区台风远距离强降水的时空分布特征、影响机理和预报因子的深入分析,提高对北方地区台风远距离强降水的预报精度和稳定性。
背景技术
我国北方地区(指淮河、秦岭一线以北的区域)的气候特征是旱涝交替频繁,夏季(6-8月)是该地区的雨季,占全年总降水量的70%以上。在低槽、低涡、冷锋、切变线以及台风远距离影响等复杂因素的作用下,目前还无法对我国北方地区强降水做出精准预报。尽管夏季强降水的多寡与暴雨强降水日数直接相关,但这些暴雨事件往往在短时间内集中爆发,增加了预报的难度,缺乏有效的预报因子是主要原因。
台风对我国北方地区强降水的影响可概括为直接影响和间接影响两类。直接影响指登陆我国的台风北上,其螺旋雨带或内核对流给我国北方地区带来强降水。间接影响指台风中心离我国北方地区尚远,但其与中纬度天气系统协同作用,给我国北方地区带来强降水。这种降水常被称为台风远距离降水(Typhoon Remote Precipitation,TRP)或热带气旋前期降水(Predecessor Rain ahead of tropical cyclone,PRE)。值得注意的是,只有少部分台风能产生TRP,这增加了预报的难度。
目前,台风远距离强降水的研究主要集中于以下几个方面:(1)台风向降水区输送水汽的机制。例如,台风与西太副高的配合、台风与副高之间低空急流的形成等对华北地区水汽输送的影响;(2)台风调整降水区大气环流及锋生过程。例如,台风与副高、西风槽、高空急流等的相互作用对降水区大气环流的影响;(3)台风向降水区频散能量激发对流。例如,台风激发的大气波动对中纬度地区中尺度对流的影响。
虽然现有研究已取得一定进展,但因台风远距离降水涉及的天气系统多、过程复杂、地域性特征明显等,针对北方地区的具体气候特征和影响机理的认识尚不充分。首先,我国北方地区台风远距离强降水的气候特征缺乏全面研究。目前只有针对部分地区的台风远距离降水气候特征研究,而对整个北方地区的台风远距离降水的发生频率、影响台风的特征、地理分布、路径和强度变化、环境场大尺度环流相互作用类型等尚不清楚。其次,我国北方地区台风远距离强降水影响机理的定量研究不足。北方地区强降水的发生与干冷空气的异常活动密切相关,而台风远距离影响下,暖湿空气和台风外围暖湿气流通过东亚夏季风水汽输送带建立直接联系且其变化又受到台风路径、强度等的影响,目前针对台风对北方地区强降水的远距离影响程度和可能性的定量评估、东亚夏季风水汽输送带的天气尺度扰动季风涌的定量表征、不同台风对北方地区强降水的时空分布和强度的影响的定量预测,以及暖湿空气总体活动特征方面的业务预报因子的定量构建等的研究尚不充分。
综上所述,在台风远距离影响的复杂天气形势下,目前还无法对我国北方地区强降水做出精准预报,缺乏有效的预报因子是主要原因,开发基于机器学习和智能预报因子预报台风远距离降水的方法,利用机器学习等技术并通过构建有效的预报因子,以提高预报的精度和稳定性,对于提高预报准确性和时效性具有重大意义,是当前气象科学领域亟待解决的技术问题。
发明内容
(一)发明目的
针对现有技术的上述缺陷和不足,为解决在台风远距离影响下因缺乏有效的预报因子而无法对我国北方地区强降水做出精准预报的技术难题,本发明旨在提供一种基于机器学习和智能预报因子预报台风远距离降水的方法,通过利用机器学习技术并通过构建有效的预报因子,实现对北方地区台风远距离强降水的时空分布特征、影响机理和预报因子的深入分析,提高对北方地区台风远距离强降水的预报精度和稳定性,为北方地区城市安全运行及防灾减灾提供科学支持。本发明通过提出隐含台风影响的智能季风涌指数,从暖湿空气活动特征建立适用于北方地区台风远距离强降水的智能预报因子,填补了该领域的技术空白。
(二)技术方案
为实现该发明目的,解决其技术问题,本发明采用如下技术方案:
一种基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,所述方法至少包括如下实施步骤:
SS1. 收集整理多源气象观测资料,至少包括1960年以来我国北方地区国家级地面气象站记录的日降水气象数据、台风最佳路径集气象数据、再分析气象数据以及卫星气象数据,并使用基于机器学习的数据挖掘方法对所收集的多源气象观测资料至少进行降维和特征提取,以减少数据的冗余和噪声并提高数据的质量和效率;
SS2. 利用台风降水过程主客观相结合识别方法,根据台风中心与我国北方地区各国家站平均位置点的距离确定出可能的台风远距离降水样本,由此构建1960年以来的我国北方地区的长时间序列台风远距离强降水数据集,并在此基础上,采用机器学习算法自动提取和选择与台风远距离强降水相关的特征;
SS3. 使用基于机器学习的K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类,统计分析我国北方地区台风远距离强降水的时空分布气候特征,并重点关注其中引起我国北方地区强降水的台风活动特征以及这些特征与台风远距离强降水的相关性和影响程度,并分析连接台风与降水区之间的关键天气系统以及这些天气系统与台风远距离强降水的相互作用和影响机理,其中,所述台风活动特征至少包括台风的地理位置、路径特征、强度特征和/或尺度特征,所述关键天气系统至少包括东亚夏季风、副热带高压、西风槽、切变线和/或锋面;
SS4. 在步骤SS3气候特征分析的基础上,基于台风远距离强降水的强度和范围、台风远距离强降水的时空分布特征、和/或台风远距离强降水的影响机理和类型,从步骤SS2所构建的1960年以来我国北方地区的长时间序列台风远距离强降水数据集中选取若干我国北方地区台风远距离强降水典型个例,之后基于高分辨率数值模拟试验对所选取的典型个例进行包括控制试验和敏感性试验的诊断分析,并根据试验结果,使用基于机器学习的数据分析方法计算分析台风对我国北方地区强降水落区和强度、台风对东亚夏季风水汽输送带、台风对天气尺度季风涌的影响的相关系数和显著性水平,并基于回归分析建立台风影响下季风涌与我国北方地区强降水的定量关系;
SS5. 在步骤SS3气候特征分析、步骤SS4典型个例诊断分析的基础上,从台风特征对东亚夏季风水汽输送带的影响以及东亚夏季风水汽输送带对我国北方地区强降水的影响两个暖湿空气活动角度构建适用于我国北方地区台风远距离强降水的隐含台风影响的智能季风涌指数IMI并将其作为智能预报因子,其表达式为:
式中,Ps为地表气压,q表示比湿,V表示经向风,n、N分别表示在给定时间段内影响我国北方地区强降水的台风编号、台风数量,tcx、tcy分别表示台风影响特征经度、台风影响特征纬度,tcx~116.5°E、tcy~39.2°N分别表示台风影响特征经度到116.5°E的经度范围、台风影响特征纬度到39.2°N的纬度范围,并且tcx、tcy由台风的强度和7级风圈半径决定:
其中,tcx0和tcy0分别表示台风中心经度、台风中心纬度,R 7为台风7级风圈半径,P min 为台风中心海平面最低气压,α 1、α 2为根据步骤SS3气候特征分析以及步骤SS4典型个例诊断分析结果修正后得到的修正系数,用于调整tcx和tcy的经度范围和纬度范围,以适应不同台风远距离强降水的时空分布特征、影响机理和类型;
SS6. 将步骤SS5所构建的智能季风涌指数IMI应用于我国北方地区的台风远距离强降水预报业务中,根据实时或预报的台风特征信息计算出智能季风涌指数IMI的实时或预报值,根据智能季风涌指数IMI的阈值判断我国北方地区是否有台风远距离强降水的可能性,以及台风远距离强降水的强度和范围。
(三)技术效果
同现有技术相比,本发明的基于机器学习和智能预报因子预报台风远距离降水的方法,具有以下有益且显著的技术效果:
(1)本发明通过综合运用统计分析、动力-热力学诊断分析及高分辨率数值模拟,提供了对台风远距离影响机理及其对北方地区强降水影响的全面理解。这一方法比现有技术更全面地考虑了台风远距离影响的复杂性,有助于提高对北方地区台风远距离强降水的预报精准度。
(2)本发明利用长时间序列的实况观测资料和台风降水过程主客观相结合识别方法,建立了北方地区台风远距离强降水的数据集,并深入分析了其气候特征。这种方法较之于传统方法,能更准确地界定和分析台风远距离强降水事件,为研究和预报提供了强有力的数据支持。
(3)针对台风对北方地区远距离强降水的影响,本发明聚焦于暖湿季风涌的动态演变,并通过高分辨率数值敏感性试验来揭示其影响机理。这种方法能更细致地分析不同距离、不同强度、不同尺度台风对季风涌的影响,从而为提升预报准确率提供了新的视角。
(4)本发明提出的隐含台风影响的智能季风涌指数IMI,是一个具有创新性的预报因子。它不仅包含了台风的位置、路径、强度和尺度等特征,还结合了东亚夏季风水汽输送带的影响。这种指数的应用能够显著提高对北方地区台风远距离强降水的预报准确率和时效性。
(5)本发明的智能季风涌指数IMI在预报业务中的应用,为实时或预报的台风特征信息的利用提供了新的方法。通过计算IMI值,可以及时判断台风远距离强降水的可能性及其强度和范围。
附图说明
图1所示为本发明的基于机器学习和智能预报因子预报台风远距离降水的方法的实施流程示意图;
图2所示为本发明的步骤SS1中对所收集整理的各类气象数据进行数据挖掘的流程示意图;
图3所示为本发明的步骤SS2中利用台风降水过程主客观相结合识别方法判定北方地区的台风远距离降水样本的流程示意图;
图4所示为本发明的子步骤SS26中采用机器学习算法提取和选择与台风远距离强降水相关特征的流程示意图;
图5所示为本发明的步骤SS3中使用K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类的流程示意图;
图6所示为本发明的步骤SS4中基于回归分析建立台风与季风涌影响下的强降水定量关系的流程示意图;
图7所示为本发明的步骤SS5中应用深度学习技术进行tcx、tcy的修正系数α 1、α 2优化修正的流程示意图;
图8所示为本发明的步骤SS5中应用敏感度分析法优化修正tcx、tcy的阈值选择的流程示意图。
具体实施方式
为了更好的理解本发明,下面结合实施例进一步阐明本发明的内容。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的结构、技术方案作进一步的具体描述,给出本发明的一个实施例。
实施例1
如图1所示,本发明的基于机器学习和智能预报因子预报台风远距离降水的方法,其在实施时主要包括如下实施步骤:
SS1. 收集整理多源气象观测资料,至少包括1960年以来我国北方地区国家级地面气象站记录的日降水气象数据、台风最佳路径集气象数据、再分析气象数据以及卫星气象数据,并使用基于机器学习的数据挖掘方法对所收集的多源气象观测资料至少进行降维和特征提取,以减少数据的冗余和噪声并提高数据的质量和效率;
SS2. 利用台风降水过程主客观相结合识别方法,根据台风中心与我国北方地区各国家站平均位置点的距离确定出可能的台风远距离降水样本,由此构建1960年以来的我国北方地区的长时间序列台风远距离强降水数据集,并在此基础上,采用机器学习算法自动提取和选择与台风远距离强降水相关的特征;
SS3. 使用基于机器学习的K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类,统计分析我国北方地区台风远距离强降水的时空分布气候特征,并重点关注其中引起我国北方地区强降水的台风活动特征以及这些特征与台风远距离强降水的相关性和影响程度,并分析连接台风与降水区之间的关键天气系统以及这些天气系统与台风远距离强降水的相互作用和影响机理,其中,所述台风活动特征至少包括台风的地理位置、路径特征、强度特征和/或尺度特征,所述关键天气系统至少包括东亚夏季风、副热带高压、西风槽、切变线和/或锋面;
SS4. 在步骤SS3气候特征分析的基础上,基于台风远距离强降水的强度和范围、台风远距离强降水的时空分布特征、和/或台风远距离强降水的影响机理和类型,从步骤SS2所构建的1960年以来我国北方地区的长时间序列台风远距离强降水数据集中选取若干我国北方地区台风远距离强降水典型个例,之后基于高分辨率数值模拟试验对所选取的典型个例进行包括控制试验和敏感性试验的诊断分析,并根据试验结果,使用基于机器学习的数据分析方法计算分析台风对我国北方地区强降水落区和强度、台风对东亚夏季风水汽输送带、台风对天气尺度季风涌的影响的相关系数和显著性水平,并基于回归分析建立台风影响下季风涌与我国北方地区强降水的定量关系;
SS5. 在步骤SS3气候特征分析、步骤SS4典型个例诊断分析的基础上,从台风特征对东亚夏季风水汽输送带的影响以及东亚夏季风水汽输送带对我国北方地区强降水的影响两个暖湿空气活动角度构建适用于我国北方地区台风远距离强降水的隐含台风影响的智能季风涌指数IMI并将其作为智能预报因子,其表达式为:
式中,Ps为地表气压,q表示比湿,V表示经向风,n、N分别表示在给定时间段内影响我国北方地区强降水的台风编号、台风数量,tcx、tcy分别表示台风影响特征经度、台风影响特征纬度,tcx~116.5°E、tcy~39.2°N分别表示台风影响特征经度到116.5°E的经度范围、台风影响特征纬度到39.2°N的纬度范围,并且tcx、tcy由台风的强度和7级风圈半径决定:
其中,tcx0和tcy0分别表示台风中心经度、台风中心纬度,R 7为台风7级风圈半径,P min 为台风中心海平面最低气压,α 1、α 2为根据步骤SS3气候特征分析以及步骤SS4典型个例诊断分析结果修正后得到的修正系数,用于调整tcx和tcy的经度范围和纬度范围,以适应不同台风远距离强降水的时空分布特征、影响机理和类型;
SS6. 将步骤SS5所构建的智能季风涌指数IMI应用于我国北方地区的台风远距离强降水预报业务中,根据实时或预报的台风特征信息计算出智能季风涌指数IMI的实时或预报值,根据智能季风涌指数IMI的阈值判断我国北方地区是否有台风远距离强降水的可能性,以及台风远距离强降水的强度和范围。
本发明的基于机器学习和智能预报因子预报台风远距离降水的方法,其工作原理为:
首先,本发明通过收集整理多源气象观测资料,利用机器学习技术对数据进行处理和分析,构建我国北方地区台风远距离强降水的长时间序列数据集,并从中提取与台风远距离强降水相关的特征,包括台风的位置、路径、强度、尺度等,以及与台风相互作用的关键天气系统,如东亚夏季风、副热带高压、西风槽、切变线和锋面等。本发明进一步对台风远距离强降水的时空分布特征进行聚类分析,得出其气候特征和影响机理,以及不同类型的台风远距离强降水的特点。同时,本发明还通过选取典型个例,开展高分辨率数值模拟试验,定量评估台风不同位置、强度和尺度对我国北方地区强降水的影响,以及台风对东亚夏季风水汽输送带和天气尺度季风涌的影响,建立台风影响下季风涌与我国北方地区强降水的定量关系。
本发明最后从暖湿空气活动角度,构建了隐含台风影响的智能季风涌指数,作为预报台风远距离强降水的智能预报因子,该指数综合考虑了台风的位置、路径、强度、尺度等因素对东亚夏季风水汽输送带的影响,以及东亚夏季风水汽输送带对我国北方地区强降水的影响,能够有效反映台风对我国北方地区强降水的远距离影响程度和可能性,以及台风远距离强降水的强度和范围。本发明将智能季风涌指数应用于我国北方地区的台风远距离强降水预报业务中,根据实时或预报的台风特征信息计算出智能季风涌指数的值,并根据其阈值进行预报判断,从而提高了预报的精度和稳定性。
实施例2
在实施例1的基础上,本实施例重点对本发明的基于机器学习和智能预报因子预报台风远距离降水的方法中的步骤SS1中进行深入说明。
如图2所示,本发明的步骤SS1中,所述基于机器学习的数据挖掘方法为基于主成分分析(PCA)的特征提取法,其在对所收集整理的各类气象数据进行数据挖掘时至少包括如下子步骤:
SS11. 对所收集整理的各类气象数据进行至少包括缩放、中心化以及归一化在内的预处理,以消除数据的偏移并确保不同变量的平等贡献度,避免某些特征因其尺度较大而对结果产生不成比例的影响;
SS12. 计算各类气象数据的协方差矩阵,所述协方差矩阵用以反映气象数据各个维度之间的相关性以及数据的方差大小,并通过协方差矩阵识别各类气象数据中的主要变化方向,从而使得数据降维后仍保留最多的变异性;
SS13. 对上述子步骤SS12中的协方差矩阵进行特征值分解并由此提取特征值和特征向量,按照特征值由大到小的顺序进行降序排列,选择前若干个排序靠前的较大特征值对应的特征向量作为主成分的方向向量,构成一个变换矩阵;
SS14. 将各类气象数据乘以上述子步骤SS13中得到的变换矩阵以得到降维后的主成分得分重构数据,表示原始数据在主成分方向上的投影,从而在保留原始气象数据主要特征和结构的同时减少了数据的维度和噪声;
SS15. 对降维后的数据进行至少包括归一化、离散化、和/或编码的后处理,以适应后续的分析和应用的需求。
在本实施例中,步骤SS1关键地采用了主成分分析(PCA)作为数据挖掘方法,旨在高效处理和分析收集到的各类气象数据。通过这一系列步骤,能够有效减少数据的复杂性和维度,同时保留气象数据的关键信息,为后续的机器学习分析和台风远距离降水的预报提供了坚实的数据基础。
实施例3
在实施例1的基础上,本实施例重点对本发明的基于机器学习和智能预报因子预报台风远距离降水的方法中的步骤SS2中进行深入说明。
如图3所示,本发明的步骤SS2中,利用台风降水过程主客观相结合的识别方法判定北方地区的台风远距离降水样本时至少包括如下子步骤:
SS21. 基于步骤SS1收集并处理后的台风最佳路径集气象数据,至少确定每一台风事件的生成时间、消亡时间、中心位置、移动速度、移动方向、最大风速、最低气压及7级风圈半径参数,并计算出每一台风事件在其影响期间内每一天的台风中心位置以及台风中心位置与我国北方地区各国家站平均位置点A之间的距离D,其中,台风的影响期间定义为每一台风事件从其生成到消亡的时间段;
SS22. 基于步骤SS1收集并处理后的我国北方地区国家级地面气象站的日降水数据,构建对应每一台风事件影响期间内我国北方地区的每一天的日降水场,所述日降水场反映在台风事件影响期间我国北方地区每一天内的降水分布和强度;
SS23. 根据子步骤SS21所计算出的每一台风事件在其影响期间内每一天的台风中心位置与我国北方地区各国家站平均位置点A之间的距离D,筛选出满足空间距离条件的所有台风事件,将所筛选出的所有台风事件作为可能引起我国北方地区远距离强降水的台风事件,并将所筛选出的所有台风事件对应的日降水场作为可能的台风远距离降水样本;
SS24. 对于子步骤SS23所筛选出的每一个可能的台风远距离降水样本,将其日降水场分解为若干条独立的自然雨带和一些离散的降水台站,然后根据各自然雨带与台风中心之间的空间位置关系,确定出可能的台风雨带;
SS25. 对于每一个可能的台风雨带中的每一个降水台站,根据其是否隶属于可能台风雨带的关系以及其与台风中心之间的距离大小,并通过将其与台风中心之间的距离与参数D0及D1的大小比较,判断其降水是否为台风降水,进而将所有台风降水台站组合成为台风降水雨带,其中,参数D0为绝对台风降水影响距离,参数D1为可能台风降水影响距离;
SS26. 根据台风降水雨带的降水量和范围,确定出台风远距离强降水的阈值,将超过阈值的台风降水雨带作为台风远距离强降水样本,将其对应的台风事件和日降水场进行记录,并由此构建1960年以来的我国北方地区的长时间序列台风远距离强降水数据集。
进一步地,选择位置点(39.2 °N,116.5 °E)作为我国北方地区各国家站平均位置点A,所述空间距离条件为500 km≤D≤2000 km,参数D0取500km,参数D1取台风外围流系半径的上限值。
进一步地,如图4所示,对于子步骤SS26所构建的1960年以来我国北方地区的长时间序列台风远距离强降水数据集,采用机器学习算法自动提取和选择与台风远距离强降水相关的特征,以降低特征的维度和复杂度并增强特征的表达能力和区分能力,其在实施时至少包括如下子步骤:
SS261. 针对每一台风远距离强降水样本的特征向量进行标准化处理,以消除不同特征之间的量纲和尺度差异;
SS262. 针对每个样本的特征向量进行主成分分析,通过线性变换将高维的特征向量投影到低维的空间中,同时保留数据中的最大方差以消除数据中的冗余信息,提取数据的主要特征;
SS263. 根据主成分分析的结果,选择累计贡献率达到一定阈值的前若干个主成分作为新的特征向量并作为随机森林的输入数据,以降低特征的维度和复杂度,增强特征的表达能力和区分能力;
SS264. 基于所得到的新的特征向量,使用随机森林算法构建多个决策树,每个决策树均基于随机样本和随机特征进行构建;
SS265. 对每一决策树的训练过程,使用基尼不纯度、信息增益或均方误差指标来评估特征的重要性,根据特征的重要性对特征进行排序,选择重要性较高的特征作为随机森林的最优特征;
SS266. 针对每个决策树的预测结果,使用交叉验证、网格搜索或贝叶斯优化调整随机森林的参数和超参数,以提高随机森林的准确性和泛化能力,为后续的预报业务提供更可靠的模型。
在本实施例中,步骤SS2是利用台风降水过程主客观相结合的识别方法判定我国北方地区的台风远距离降水样本的过程。该过程从多源气象数据中筛选出可能引起我国北方地区远距离强降水的台风事件和降水场,并构建长时间序列的台风远距离强降水数据集,为后续的分析和预报提供数据基础。该过程的原理是根据台风中心位置与我国北方地区各国家站平均位置点A之间的距离D,以及台风降水雨带的降水量和范围,确定出台风远距离强降水的阈值,将超过阈值的台风降水雨带作为台风远距离强降水样本。
实施例4
在实施例1的基础上,本实施例重点对本发明的基于机器学习和智能预报因子预报台风远距离降水的方法中的步骤SS3中进行深入说明。
如图5所示,本发明的步骤SS3中,在使用基于机器学习的K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类时主要包括:
SS31. 基于步骤SS2所构建的长时间序列台风远距离强降水数据集以及从中所提取和选择的与台风远距离强降水相关的关键特征,采用K-均值聚类算法对所提取的关键特征进行聚类分析,并确定最佳的聚类数目K使得聚类结果的误差平方和或Gap值达到最优;
SS32. 随机选择一个初始聚类中心,然后根据每个数据点与已选择的聚类中心的距离,按照概率分布选择下一个聚类中心,直到选择出K个聚类中心,避免初始聚类中心的选择对聚类结果的影响;
SS33. 根据每个数据样本点与K个聚类中心的距离,将每个数据样本点分配给最近的聚类中心以形成K个簇,然后重新计算每个簇的均值并将其作为新的聚类中心,重复这一过程,直到聚类中心不再变化或达到最大迭代次数,得到最终的聚类结果;
SS34. 对聚类结果进行分析,识别每个聚类的特征和属性,包括不同簇的特征向量的均值、方差和/或分布以及不同簇之间的差异和相似性,继而得出我国北方地区台风远距离强降水的时空分布特征;
SS35. 使用相关系数或回归分析法进行量化和评估,分析各聚类结果中的台风活动特征及其与台风远距离强降水的相关性,并评估不同台风特征对降水事件的影响程度,其中,所述台风活动特征至少包括台风的地理位置、路径特征、强度特征和/或尺度特征;
SS36. 使用气候诊断分析、动力诊断分析和/或水汽输送分析方法进行定性和定量的分析,分析连接台风与降水区之间的关键天气系统及其与台风远距离强降水的相互作用和影响机理,其中,所述关键天气系统至少包括东亚夏季风、副热带高压、西风槽、切变线和/或锋面。
在本实施例中,步骤SS3是使用K-均值聚类算法对台风远距离强降水的时空分布特征进行分组和分类的过程。该过程的原理是根据台风远距离强降水的关键特征,将数据划分为K个簇,使得同一簇内的数据相似度高,不同簇之间的数据相似度低,从而反映出数据的内在结构和规律。该过程的效果是能够识别出我国北方地区台风远距离强降水的不同类型和特征,以及台风活动特征和关键天气系统对台风远距离强降水的影响程度和机理。
实施例5
在实施例1的基础上,本实施例重点对本发明的基于机器学习和智能预报因子预报台风远距离降水的方法中的步骤SS4中进行深入说明。
本发明的步骤SS4中,所述控制试验是指在不改变台风的位置、强度和尺度的情况下,通过稳定再现台风远距离影响下典型个例的降水落区和降水强度以得出试验系统模式的最优参数化方案配置;所述敏感性试验是指在控制试验的基础上,分别改变台风的位置、强度和尺度,观察台风对我国北方地区强降水落区和强度、台风对东亚夏季风水汽输送带、台风对天气尺度季风涌的影响的变化。所述敏感性试验中,台风的位置、强度和尺度的改变至少包括以下三种情况:(1)台风中心距离我国北方地区各国家站平均位置点的距离在500km-2000 km之间变化;(2)台风的中心海平面最低气压在850 hPa-980 hPa之间变化;(3)台风的7级风圈半径在50 km-300 km之间变化。
此外,在步骤SS4中,对所选取的典型个例进行敏感性试验时,使用整层水汽通量Q及其散度C来分析和评估东亚夏季风水汽输送带对我国北方地区水汽输送的影响,其中,
所述整层水汽通量Q表示整个大气柱中水汽含量的积累和运动趋势并用以表征东亚夏季风水汽输送带,其定义式为:
式中,q和V分别表示该单位气柱各层大气的比湿和矢量风,u和v分别为纬向风和经向风,Ps为地表气压,g为重力加速度;
所述整层水汽通量散度C用于量化水汽的辐合或辐散趋势并用以表征东亚夏季风水汽输送带在我国北方地区水汽的输送,若C>0,表示水汽辐合即水汽输送汇,若C<0,表示水汽辐散即水汽输送源,其定义式为:
式中,为风场辐合项,/>为水汽平流项,当风场辐合项为正时代表湿平流,有利于水汽辐合,当风场辐合项为负时代表干平流,则不有利于水汽辐合。
对所选取的典型个例进行敏感性试验时,通过计算区域边界的水汽通量和水汽净收支以定量分析和评估台风对我国北方地区强降水区域水汽输送的贡献和影响,其中区域平均水汽收支方程定义为:
式中σ为所选定的区域面积,hs、hu分别为积分的底层高度和顶层高度,、和/>分别代表水汽的局地变化、水汽通量散度和水汽垂直输送,m为水汽凝结项,Es是蒸发项。
此外,在步骤SS4中,基于回归分析建立台风影响下季风涌与我国北方地区强降水的定量关系,其在实施时至少包括如下子步骤,如图6所示:
SS41. 收集整理典型个例敏感性试验过程中的台风特征数据、季风涌参数数据以及我国北方地区强降水的特征数据,其中,所述台风特征数据至少包括台风的位置、强度、和/或尺度信息,所述季风涌参数数据至少包括季风涌的强度、范围、方向、水汽输送量、和/或水汽通量散度信息,所述强降水的特征数据至少包括强降水的强度、范围、分布、类型、和/或持续时间信息;
SS42. 对所收集的台风特征数据、季风涌参数数据以及我国北方地区强降水的特征数据进行标准化处理,以消除不同数据之间的量纲和尺度差异;
SS43. 使用多元线性回归或非线性回归方法,以台风特征数据和季风涌参数数据为自变量、以我国北方地区强降水的特征数据为因变量构建回归模型,分析计算各自变量的回归系数和显著性水平;
SS44. 利用子步骤SS43所构建的回归模型,根据台风的实时或预报的特征数据和季风涌的实时或预报的参数数据,预测出我国北方地区的强降水的特征数据,并评估其预测结果的误差和可信度。
在本实施例中,步骤SS4是对所选取的典型个例进行控制试验和敏感性试验的过程。该过程的原理是通过高分辨率数值模拟试验,分析台风的位置、强度和尺度对我国北方地区强降水的影响,以及台风对东亚夏季风水汽输送带和天气尺度季风涌的影响。该过程的效果是能够定量评估台风对我国北方地区强降水落区和强度、水汽输送和季风涌的贡献和影响,以及建立台风影响下季风涌与我国北方地区强降水的定量关系。
实施例6
在实施例1的基础上,本实施例重点对本发明的基于机器学习和智能预报因子预报台风远距离降水的方法中的步骤SS5中进行深入说明。
本发明的步骤SS5中,所述智能季风涌指数IMI的计算公式中,还包括一个考虑台风对东亚夏季风水汽输送带强度和位置的影响的修正因子β、一个考虑台风对天气尺度季风涌的影响的修正因子γ,其表达式为:
其中,修正因子β、γ的计算公式如下:
式中,ΔV表示台风对东亚夏季风水汽输送带的经向风速的影响,即台风与东亚夏季风水汽输送带的相对运动速度,ΔL表示台风对东亚夏季风水汽输送带的纬向位置的影响,即台风与东亚夏季风水汽输送带的相对距离,V 0和L 0分别表示东亚夏季风水汽输送带的平均经向风速和平均纬向位置,ΔP表示台风对天气尺度季风涌的气压场的影响,即台风与天气尺度季风涌的气压差,ΔT表示台风对天气尺度季风涌的温度场的影响,即台风与天气尺度季风涌的温度差,P 0和T 0分别表示天气尺度季风涌的平均气压和平均温度。
同时,在本步骤SS5中,基于步骤SS3的气候特征分析和步骤SS4的典型个例诊断分析,应用深度学习技术进行tcx、tcy的修正系数α 1、α 2的优化修正,具体步骤如下,如图7所示:
首先,根据步骤SS3的气候特征分析,将台风远距离强降水的时空分布特征作为输入特征,将tcx、tcy的修正系数α 1、α 2作为输出特征,构建一个监督式的深度学习数据集;
其次,根据步骤SS4的典型个例诊断分析,将高分辨率数值模拟试验的结果作为标签,表示不同的台风远距离强降水的强度和范围,构建一个多分类的深度学习问题;
然后,选择合适的深度学习算法,例如卷积神经网络、循环神经网络、变分自编码器等,对数据集进行训练和验证,得到一个能够根据台风远距离强降水的时空分布特征,预测tcx、tcy的修正系数α 1、α 2,以及台风远距离强降水的强度和范围的深度学习模型;
最后,将深度学习模型应用于实际的台风远距离强降水的预报中,根据实时的台风远距离强降水的时空分布特征,使用深度学习模型预测tcx、tcy的修正系数α 1、α 2,以及台风远距离强降水的强度和范围,从而优化智能季风涌指数IMI的计算公式。
在本步骤SS5中,应用敏感度分析法优化修正tcx、tcy的阈值选择,如图8所示,其具体方法如下:
首先,根据步骤SS3的气候特征分析,将台风远距离强降水的时空分布特征作为输入变量,将智能季风涌指数IMI作为输出变量,构建一个敏感度分析模型;
然后,根据步骤SS4的典型个例诊断分析,将高分辨率数值模拟试验的结果作为评价指标,计算输入变量和输出变量之间的敏感度系数,表示不同的台风远距离强降水的强度和范围与智能季风涌指数IMI之间的敏感性;
接着,基于蒙特卡罗法对敏感度分析模型进行求解,得到一个能够根据台风远距离强降水的时空分布特征,以优化修正tcx、tcy的阈值选择以及最大化智能季风涌指数IMI的敏感度分析模型;
最后,将敏感度分析模型应用于实际的台风远距离强降水的预报中,根据实时的台风远距离强降水的时空分布特征,使用敏感度分析模型优化修正tcx、tcy的阈值选择以及最大化智能季风涌指数IMI。
在本实施例中,步骤SS5关注于智能季风涌指数IMI的计算及其优化。IMI的计算包含修正因子β和γ,分别考虑台风对东亚夏季风水汽输送带和天气尺度季风涌的影响,以反映台风的动态效应。此外,本步骤应用深度学习技术进行tcx、tcy的修正系数α 1、α 2的优化,结合气候特征分析和典型个例诊断分析,构建监督式的深度学习数据集。通过训练和验证,深度学习模型能够预测tcx、tcy的修正系数以及台风远距离强降水的强度和范围。同时,通过敏感度分析法进一步优化tcx、tcy的阈值选择,最大化智能季风涌指数IMI,以提高台风远距离强降水的预报精准度。这些步骤结合深度学习与敏感度分析,使IMI计算更加精准,有助于提高预报效果。
通过上述实施例,完全有效地实现了本发明的目的。该领域的技术人员可以理解本发明包括但不限于附图和以上具体实施方式中描述的内容。虽然本发明已就目前认为最为实用且优选的实施例进行说明,但应知道,本发明并不限于所公开的实施例,任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。
Claims (14)
1.一种基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,所述方法至少包括如下实施步骤:
SS1. 收集整理多源气象观测资料,至少包括1960年以来我国北方地区国家级地面气象站记录的日降水气象数据、台风最佳路径集气象数据、再分析气象数据以及卫星气象数据,并使用基于机器学习的数据挖掘方法对所收集的多源气象观测资料至少进行降维和特征提取,以减少数据的冗余和噪声并提高数据的质量和效率;
SS2. 利用台风降水过程主客观相结合识别方法,根据台风中心与我国北方地区各国家站平均位置点的距离确定出可能的台风远距离降水样本,由此构建1960年以来的我国北方地区的长时间序列台风远距离强降水数据集,并在此基础上,采用机器学习算法自动提取和选择与台风远距离强降水相关的特征;
SS3. 使用基于机器学习的K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类,统计分析我国北方地区台风远距离强降水的时空分布气候特征,并重点关注其中引起我国北方地区强降水的台风活动特征以及这些特征与台风远距离强降水的相关性和影响程度,并分析连接台风与降水区之间的关键天气系统以及这些天气系统与台风远距离强降水的相互作用和影响机理,其中,所述台风活动特征至少包括台风的地理位置、路径特征、强度特征和/或尺度特征,所述关键天气系统至少包括东亚夏季风、副热带高压、西风槽、切变线和/或锋面;
SS4. 在步骤SS3气候特征分析的基础上,基于台风远距离强降水的强度和范围、台风远距离强降水的时空分布特征、和/或台风远距离强降水的影响机理和类型,从步骤SS2所构建的1960年以来我国北方地区的长时间序列台风远距离强降水数据集中选取若干我国北方地区台风远距离强降水典型个例,之后基于高分辨率数值模拟试验对所选取的典型个例进行包括控制试验和敏感性试验的诊断分析,并根据试验结果,使用基于机器学习的数据分析方法计算分析台风对我国北方地区强降水落区和强度、台风对东亚夏季风水汽输送带、台风对天气尺度季风涌的影响的相关系数和显著性水平,并基于回归分析建立台风影响下季风涌与我国北方地区强降水的定量关系;
SS5. 在步骤SS3气候特征分析、步骤SS4典型个例诊断分析的基础上,从台风特征对东亚夏季风水汽输送带的影响以及东亚夏季风水汽输送带对我国北方地区强降水的影响两个暖湿空气活动角度构建适用于我国北方地区台风远距离强降水的隐含台风影响的智能季风涌指数IMI并将其作为智能预报因子,其表达式为:
式中,Ps为地表气压,q表示比湿,V表示经向风,n、N分别表示在给定时间段内影响我国北方地区强降水的台风编号、台风数量,tcx、tcy分别表示台风影响特征经度、台风影响特征纬度,tcx~116.5°E、tcy~39.2°N分别表示台风影响特征经度到116.5°E的经度范围、台风影响特征纬度到39.2°N的纬度范围,并且tcx、tcy由台风的强度和7级风圈半径决定:
其中,tcx0和tcy0分别表示台风中心经度、台风中心纬度,R 7为台风7级风圈半径,P min 为台风中心海平面最低气压,α 1、α 2为根据步骤SS3气候特征分析以及步骤SS4典型个例诊断分析结果修正后得到的修正系数,用于调整tcx和tcy的经度范围和纬度范围,以适应不同台风远距离强降水的时空分布特征、影响机理和类型;
SS6. 将步骤SS5所构建的智能季风涌指数IMI应用于我国北方地区的台风远距离强降水预报业务中,根据实时或预报的台风特征信息计算出智能季风涌指数IMI的实时或预报值,根据智能季风涌指数IMI的阈值判断我国北方地区是否有台风远距离强降水的可能性,以及台风远距离强降水的强度和范围。
2.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS1中,所述基于机器学习的数据挖掘方法为基于主成分分析的特征提取法,其在对所收集整理的各类气象数据进行数据挖掘时至少包括如下子步骤:
SS11. 对所收集整理的各类气象数据进行至少包括缩放、中心化以及归一化在内的预处理,以消除数据的偏移并确保不同变量的平等贡献度,避免某些特征因其尺度较大而对结果产生不成比例的影响;
SS12. 计算各类气象数据的协方差矩阵,所述协方差矩阵用以反映气象数据各个维度之间的相关性以及数据的方差大小,并通过协方差矩阵识别各类气象数据中的主要变化方向,从而使得数据降维后仍保留最多的变异性;
SS13. 对上述子步骤SS12中的协方差矩阵进行特征值分解并由此提取特征值和特征向量,按照特征值由大到小的顺序进行降序排列,选择前若干个排序靠前的较大特征值对应的特征向量作为主成分的方向向量,构成一个变换矩阵;
SS14. 将各类气象数据乘以上述子步骤SS13中得到的变换矩阵以得到降维后的主成分得分重构数据,表示原始数据在主成分方向上的投影,从而在保留原始气象数据主要特征和结构的同时减少了数据的维度和噪声;
SS15. 对降维后的数据进行至少包括归一化、离散化、和/或编码的后处理,以适应后续的分析和应用的需求。
3.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS2中,利用台风降水过程主客观相结合的识别方法判定北方地区的台风远距离降水样本时至少包括如下子步骤:
SS21. 基于步骤SS1收集并处理后的台风最佳路径集气象数据,至少确定每一台风事件的生成时间、消亡时间、中心位置、移动速度、移动方向、最大风速、最低气压及7级风圈半径参数,并计算出每一台风事件在其影响期间内每一天的台风中心位置以及台风中心位置与我国北方地区各国家站平均位置点A之间的距离D,其中,台风的影响期间定义为每一台风事件从其生成到消亡的时间段;
SS22. 基于步骤SS1收集并处理后的我国北方地区国家级地面气象站的日降水数据,构建对应每一台风事件影响期间内我国北方地区的每一天的日降水场,所述日降水场反映在台风事件影响期间我国北方地区每一天内的降水分布和强度;
SS23. 根据子步骤SS21所计算出的每一台风事件在其影响期间内每一天的台风中心位置与我国北方地区各国家站平均位置点A之间的距离D,筛选出满足空间距离条件的所有台风事件,将所筛选出的所有台风事件作为可能引起我国北方地区远距离强降水的台风事件,并将所筛选出的所有台风事件对应的日降水场作为可能的台风远距离降水样本;
SS24. 对于子步骤SS23所筛选出的每一个可能的台风远距离降水样本,将其日降水场分解为若干条独立的自然雨带和一些离散的降水台站,然后根据各自然雨带与台风中心之间的空间位置关系,确定出可能的台风雨带;
SS25. 对于每一个可能的台风雨带中的每一个降水台站,根据其是否隶属于可能台风雨带的关系以及其与台风中心之间的距离大小,并通过将其与台风中心之间的距离与参数D0及D1的大小比较,判断其降水是否为台风降水,进而将所有台风降水台站组合成为台风降水雨带,其中,参数D0为绝对台风降水影响距离,参数D1为可能台风降水影响距离;
SS26. 根据台风降水雨带的降水量和范围,确定出台风远距离强降水的阈值,将超过阈值的台风降水雨带作为台风远距离强降水样本,将其对应的台风事件和日降水场进行记录,并由此构建1960年以来的我国北方地区的长时间序列台风远距离强降水数据集。
4.根据权利要求3所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,选择位置点(39.2 °N,116.5 °E)作为我国北方地区各国家站平均位置点A,所述空间距离条件为500 km≤D≤2000 km,参数D0取500km,参数D1取台风外围流系半径的上限值。
5.根据权利要求3所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,对于子步骤SS26所构建的1960年以来我国北方地区的长时间序列台风远距离强降水数据集,采用机器学习算法自动提取和选择与台风远距离强降水相关的特征,以降低特征的维度和复杂度并增强特征的表达能力和区分能力,其在实施时至少包括如下子步骤:
SS261. 针对每一台风远距离强降水样本的特征向量进行标准化处理,以消除不同特征之间的量纲和尺度差异;
SS262. 针对每个样本的特征向量进行主成分分析,通过线性变换将高维的特征向量投影到低维的空间中,同时保留数据中的最大方差以消除数据中的冗余信息,提取数据的主要特征;
SS263. 根据主成分分析的结果,选择累计贡献率达到一定阈值的前若干个主成分作为新的特征向量并作为随机森林的输入数据,以降低特征的维度和复杂度,增强特征的表达能力和区分能力;
SS264. 基于所得到的新的特征向量,使用随机森林算法构建多个决策树,每个决策树均基于随机样本和随机特征进行构建;
SS265. 对每一决策树的训练过程,使用基尼不纯度、信息增益或均方误差指标来评估特征的重要性,根据特征的重要性对特征进行排序,选择重要性较高的特征作为随机森林的最优特征;
SS266. 针对每个决策树的预测结果,使用交叉验证、网格搜索或贝叶斯优化调整随机森林的参数和超参数,以提高随机森林的准确性和泛化能力,为后续的预报业务提供更可靠的模型。
6.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS3中,使用基于机器学习的K-均值聚类分析算法对台风远距离强降水的时空分布特征进行分组和分类时至少包括如下子步骤:
SS31. 基于步骤SS2所构建的长时间序列台风远距离强降水数据集以及从中所提取和选择的与台风远距离强降水相关的关键特征,采用K-均值聚类算法对所提取的关键特征进行聚类分析,并确定最佳的聚类数目K使得聚类结果的误差平方和/或Gap值达到最优;
SS32. 随机选择一个初始聚类中心,然后根据每个数据点与已选择的聚类中心的距离,按照概率分布选择下一个聚类中心,直到选择出K个聚类中心,避免初始聚类中心的选择对聚类结果的影响;
SS33. 根据每个数据样本点与K个聚类中心的距离,将每个数据样本点分配给最近的聚类中心以形成K个簇,然后重新计算每个簇的均值并将其作为新的聚类中心,重复这一过程,直到聚类中心不再变化或达到最大迭代次数,得到最终的聚类结果;
SS34. 对聚类结果进行分析,识别每个聚类的特征和属性,包括不同簇的特征向量的均值、方差和/或分布以及不同簇之间的差异和相似性,继而得出我国北方地区台风远距离强降水的时空分布特征;
SS35. 使用相关系数或回归分析法进行量化和评估,分析各聚类结果中的台风活动特征及其与台风远距离强降水的相关性,并评估不同台风特征对降水事件的影响程度,其中,所述台风活动特征至少包括台风的地理位置、路径特征、强度特征和/或尺度特征;
SS36. 使用气候诊断分析、动力诊断分析和/或水汽输送分析方法进行定性和定量的分析,分析连接台风与降水区之间的关键天气系统及其与台风远距离强降水的相互作用和影响机理,其中,所述关键天气系统至少包括东亚夏季风、副热带高压、西风槽、切变线和/或锋面。
7.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS4中,所述控制试验是指在不改变台风的位置、强度和尺度的情况下,通过稳定再现台风远距离影响下典型个例的降水落区和降水强度以得出试验系统模式的最优参数化方案配置;所述敏感性试验是指在控制试验的基础上,分别改变台风的位置、强度和尺度,观察台风对我国北方地区强降水落区和强度、台风对东亚夏季风水汽输送带、台风对天气尺度季风涌的影响的变化。
8.根据权利要求7所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,所述敏感性试验中,台风的位置、强度和尺度的改变至少包括以下三种情况:(1)台风中心距离我国北方地区各国家站平均位置点的距离在500 km-2000 km之间变化;(2)台风的中心海平面最低气压在850 hPa-980 hPa之间变化;(3)台风的7级风圈半径在50km-300 km之间变化。
9.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS4中,对所选取的典型个例进行敏感性试验时,使用整层水汽通量Q及其散度C来分析和评估东亚夏季风水汽输送带对我国北方地区水汽输送的影响,其中,
所述整层水汽通量Q表示整个大气柱中水汽含量的积累和运动趋势并用以表征东亚夏季风水汽输送带,其定义式为:
式中,q和V分别表示单位气柱各层大气的比湿和矢量风,u和v分别为纬向风和经向风,Ps为地表气压,g为重力加速度;
所述整层水汽通量散度C用于量化水汽的辐合或辐散趋势并用以表征东亚夏季风水汽输送带在我国北方地区水汽的输送,若C>0,表示水汽辐合即水汽输送汇,若C<0,表示水汽辐散即水汽输送源,其定义式为:
式中,为风场辐合项,/>为水汽平流项,当风场辐合项为正时代表湿平流,有利于水汽辐合,当风场辐合项为负时代表干平流,则不有利于水汽辐合。
10.根据权利要求9所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS4中,对所选取的典型个例进行敏感性试验时,通过计算区域边界的水汽通量和水汽净收支以定量分析和评估台风对我国北方地区强降水区域水汽输送的贡献和影响,其中区域平均水汽收支方程定义为:
式中σ为所选定的区域面积,hs、hu分别为积分的底层高度和顶层高度,、/>和分别代表水汽的局地变化、水汽通量散度和水汽垂直输送,m为水汽凝结项,Es是蒸发项。
11.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS4中,基于回归分析建立台风影响下季风涌与我国北方地区强降水的定量关系,其在实施时至少包括如下子步骤:
SS41. 收集整理典型个例敏感性试验过程中的台风特征数据、季风涌参数数据以及我国北方地区强降水的特征数据,其中,所述台风特征数据至少包括台风的位置、强度、和/或尺度信息,所述季风涌参数数据至少包括季风涌的强度、范围、方向、水汽输送量、和/或水汽通量散度信息,所述强降水的特征数据至少包括强降水的强度、范围、分布、类型、和/或持续时间信息;
SS42. 对所收集的台风特征数据、季风涌参数数据以及我国北方地区强降水的特征数据进行标准化处理,以消除不同数据之间的量纲和尺度差异;
SS43. 使用多元线性回归或非线性回归方法,以台风特征数据和季风涌参数数据为自变量、以我国北方地区强降水的特征数据为因变量构建回归模型,分析计算各自变量的回归系数和显著性水平;
SS44. 利用子步骤SS43所构建的回归模型,根据台风的实时或预报的特征数据和季风涌的实时或预报的参数数据,预测出我国北方地区的强降水的特征数据,并评估其预测结果的误差和可信度。
12.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS5中,所述智能季风涌指数IMI的计算公式中,还包括一个考虑台风对东亚夏季风水汽输送带强度和位置的影响的修正因子β、一个考虑台风对天气尺度季风涌的影响的修正因子γ,其表达式为:
其中,修正因子β、γ的计算公式如下:
式中,ΔV表示台风对东亚夏季风水汽输送带的经向风速的影响,即台风与东亚夏季风水汽输送带的相对运动速度,ΔL表示台风对东亚夏季风水汽输送带的纬向位置的影响,即台风与东亚夏季风水汽输送带的相对距离,V 0和L 0分别表示东亚夏季风水汽输送带的平均经向风速和平均纬向位置,ΔP表示台风对天气尺度季风涌的气压场的影响,即台风与天气尺度季风涌的气压差,ΔT表示台风对天气尺度季风涌的温度场的影响,即台风与天气尺度季风涌的温度差,P 0和T 0分别表示天气尺度季风涌的平均气压和平均温度。
13.根据权利要求1所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS5中,基于步骤SS3的气候特征分析和步骤SS4的典型个例诊断分析,应用深度学习技术进行tcx、tcy的修正系数α 1、α 2的优化修正,具体步骤如下:
首先,根据步骤SS3的气候特征分析,将台风远距离强降水的时空分布特征作为输入特征,将tcx、tcy的修正系数α 1、α 2作为输出特征,构建一个监督式的深度学习数据集;
其次,根据步骤SS4的典型个例诊断分析,将高分辨率数值模拟试验的结果作为标签,表示不同的台风远距离强降水的强度和范围,构建一个多分类的深度学习问题;
然后,选择合适的深度学习算法,所述深度学习算法为卷积神经网络、循环神经网络或变分自编码器,对数据集进行训练和验证,得到一个能够根据台风远距离强降水的时空分布特征,预测tcx、tcy的修正系数α 1、α 2,以及台风远距离强降水的强度和范围的深度学习模型;
最后,将深度学习模型应用于实际的台风远距离强降水的预报中,根据实时的台风远距离强降水的时空分布特征,使用深度学习模型预测tcx、tcy的修正系数α 1、α 2,以及台风远距离强降水的强度和范围,从而优化智能季风涌指数IMI的计算公式。
14.根据权利要求13所述的基于机器学习和智能预报因子预报台风远距离降水的方法,其特征在于,上述步骤SS5中,基于步骤SS3的气候特征分析和步骤SS4的典型个例诊断分析,应用敏感度分析法优化修正tcx、tcy的阈值选择,具体方法如下:
首先,根据步骤SS3的气候特征分析,将台风远距离强降水的时空分布特征作为输入变量,将智能季风涌指数IMI作为输出变量,构建一个敏感度分析模型;
然后,根据步骤SS4的典型个例诊断分析,将高分辨率数值模拟试验的结果作为评价指标,计算输入变量和输出变量之间的敏感度系数,表示不同的台风远距离强降水的强度和范围与智能季风涌指数IMI之间的敏感性;
接着,基于蒙特卡罗法对敏感度分析模型进行求解,得到一个能够根据台风远距离强降水的时空分布特征,以优化修正tcx、tcy的阈值选择以及最大化智能季风涌指数IMI的敏感度分析模型;
最后,将敏感度分析模型应用于实际的台风远距离强降水的预报中,根据实时的台风远距离强降水的时空分布特征,使用敏感度分析模型优化修正tcx、tcy的阈值选择以及最大化智能季风涌指数IMI。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410045183.2A CN117574134B (zh) | 2024-01-12 | 2024-01-12 | 基于机器学习和智能预报因子预报台风远距离降水的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410045183.2A CN117574134B (zh) | 2024-01-12 | 2024-01-12 | 基于机器学习和智能预报因子预报台风远距离降水的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574134A CN117574134A (zh) | 2024-02-20 |
CN117574134B true CN117574134B (zh) | 2024-03-22 |
Family
ID=89864534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410045183.2A Active CN117574134B (zh) | 2024-01-12 | 2024-01-12 | 基于机器学习和智能预报因子预报台风远距离降水的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574134B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046959A1 (ko) * | 2010-10-07 | 2012-04-12 | 서울대학교산학협력단 | 군집별 태풍 개수 예측 방법 및 여름철 태풍 진로 예측 방법 |
CN112883635A (zh) * | 2021-01-24 | 2021-06-01 | 浙江大学 | 一种基于随机森林算法的热带气旋全路径模拟方法 |
-
2024
- 2024-01-12 CN CN202410045183.2A patent/CN117574134B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046959A1 (ko) * | 2010-10-07 | 2012-04-12 | 서울대학교산학협력단 | 군집별 태풍 개수 예측 방법 및 여름철 태풍 진로 예측 방법 |
CN112883635A (zh) * | 2021-01-24 | 2021-06-01 | 浙江大学 | 一种基于随机森林算法的热带气旋全路径模拟方法 |
Non-Patent Citations (6)
Title |
---|
"0806号‘风神’台风暴雨的数值模拟及诊断分析";李彩玲;《中国优秀硕士学位论文全文数据库 基础科学辑》;20140215;全文 * |
"2018年赤峰地区罕见台风暴雨大暴雨过程诊断分析";徐丽娇;《赤峰学院学报(自然科学版)》;20200630;第36卷(第6期);全文 * |
"8·23-24"上海远距离台风大暴雨影响分析";曹晓岗 等;《气象》;20161031;第42卷(第10期);全文 * |
"Cloud Macro- and Microphysical Properties in Extreme Rainfall Induced by Landfalling Typhoons over China";Zhao Dajun 等;《Remote Sensing》;20220826;全文 * |
"Geosciences and Human Survival, Environment, and Natural Hazards";A.G.Rozanov;《Abstracts of 30th International Geological Congress(Volume 1 of 3)》;19960801;全文 * |
"登陆台风影响下离地300m高度内的强风特征";常蕊 等;《大气科学》;20220930;第46卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574134A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728411B (zh) | 一种基于卷积神经网络的高低空区域联合降雨预测方法 | |
Ohba et al. | Impacts of synoptic circulation patterns on wind power ramp events in East Japan | |
Sanz Rodrigo et al. | Evaluation of the Antarctic surface wind climate from ERA reanalyses and RACMO2/ANT simulations based on automatic weather stations | |
CN109165693B (zh) | 一种适用于露、霜和结冰的天气现象的自动判识方法 | |
Körner et al. | Introducing Gradient Boosting as a universal gap filling tool for meteorological time series | |
CN112907113B (zh) | 一种考虑空间相关性的植被变化成因识别方法 | |
Shafer et al. | Evaluation of WRF model simulations of tornadic and nontornadic outbreaks occurring in the spring and fall | |
Fragoso et al. | Classification of daily abundant rainfall patterns and associated large-scale atmospheric circulation types in Southern Portugal | |
CN117556197B (zh) | 一种基于人工智能的台风涡旋初始化方法 | |
Pinheiro et al. | Sensitivity of identifying cut-off lows in the Southern Hemisphere using multiple criteria: Implications for numbers, seasonality and intensity | |
Gómez et al. | Characterization of the wind speed variability and future change in the Iberian Peninsula and the Balearic Islands | |
Wu et al. | Effects of surface friction and turbulent mixing on long-term changes in the near-surface wind speed over the Eastern China Plain from 1981 to 2010 | |
Cheng et al. | A synoptic weather-typing approach to project future daily rainfall and extremes at local scale in Ontario, Canada | |
El Rafei et al. | Analysis of extreme wind gusts using a high-resolution Australian regional reanalysis | |
Solari et al. | Relationship between frontal systems and extreme precipitation over southern South America | |
CN117574134B (zh) | 基于机器学习和智能预报因子预报台风远距离降水的方法 | |
Rodríguez et al. | How important are socioeconomic factors for hurricane performance of power systems? An analysis of disparities through machine learning | |
Bartok et al. | Data mining for fog prediction and low clouds detection | |
Verellen et al. | Using data-driven models to estimate the energy use of buildings based on a building stock model | |
Jemai et al. | Spatial and temporal rainfall variability and its controlling factors under an arid climate condition: case of Gabes Catchment, Southern Tunisia | |
Zhao et al. | Characteristics of large-scale atmospheric circulation patterns conducive to severe spring and winter wind events over beijing in china based on a machine learning categorizing method | |
Bass* et al. | Downscaling procedures as a tool for integration of multiple air issues | |
Yang et al. | Radar‐Derived Quantitative Precipitation Estimation Based on Precipitation Classification | |
Erfani et al. | Automated synoptic typing of freezing rain events for hazard analysis | |
Singh et al. | Prognosis for crop yield production by data mining techniques in agriculture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |