CN116609858A - 一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 - Google Patents
一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 Download PDFInfo
- Publication number
- CN116609858A CN116609858A CN202310503117.0A CN202310503117A CN116609858A CN 116609858 A CN116609858 A CN 116609858A CN 202310503117 A CN202310503117 A CN 202310503117A CN 116609858 A CN116609858 A CN 116609858A
- Authority
- CN
- China
- Prior art keywords
- tropical cyclone
- atmospheric waveguide
- atmospheric
- xgboost
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于大气波导判断技术领域,具体提供了一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统,其中方法包括:将气象参数、热带气旋参数及位置参数分别对应不同特征,结合各自标签,组合成数据集;使用网格搜索算法在训练集上调节XGBoost算法的超参数,对训练集进行交叉验证训练得到最优参数组合;使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。通过本方案得到了大气波导形成与特征之间的关系,对热带风暴地区的大气波导形成预测具有指导作用,有利于作战指挥和提前预警。
Description
技术领域
本发明涉及大气波导判断技术领域,更具体地,涉及一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统。
背景技术
蒸发波导作为一种特殊的大气折射结构,对船载雷达系统和无线电通讯系统的表现有着重要的影响。由于蒸发波导对通讯系统的重要性,人们已经对世界上很多地区蒸发波导的特性做了一些研究。张琪等在2016年研究了亚丁湾蒸发波导高度的时空变化并且发现变化主要的影响因素为季节性反向季风。赵小峰等在2013年分析了南海和东印度洋热带地区的蒸发波导统计特性,但是由于数据点的局限性以及观测时间的不连续性,波导气候学的研究较难开展。因此,由于数据集较低的时间分辨率,过去的研究主要集中在对蒸发波导的月变化和季节变化特性上。
蒸发波导模型是可以通过较少且较易探测的参数方便地计算蒸发波导高度(EDH,EvaporationDuctHeight)的理论模型。EDH是用来判断蒸发波导出现并衡量其强度的一个关键特征参数。
为了更好的了解大气波导的规律,不仅仅需要研究其自身的时空变化,还需要研究大气波导和各种天气系统之间的关系,因此,如何得到天气与大气波导之间的关系是判断大气波导的关键因素。目前还没有能根据天气变化预测大气波导变化的相关技术,尤其是各个影响因素对热带气旋大气波导形成的确定亟待解决。
发明内容
本发明针对现有技术中存在的如何判断天气与大气波导之间的关系的技术问题。
本发明提供了一种基于可解释性XGBoost模型的热带气旋大气波导预测方法,包括:
S1,将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
S2,取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
S3,使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
S4,利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
优选地,所述S2具体包括:
采用损失函数为二进制交叉熵,在调节参数值的时候,首先每个参数都根据先验知识被设定在一个固定范围内;然后使用网格搜索算法,得到在给定范围内所有的参数组合后,在训练集上用交叉验证的方法计算出每种参数组合的表现。
优选地,所述S3中XGBoost算法中超参数包括:
learning_rate,用来控制学习速度;
max_depth,决策树的最大深度;
n_estimators,决策树的最大数量;
min_child_weight,一个子对象所需的最小权重之和;
reg_lambda,L2正则化项;
reg_alpha,L1正则化项;
subsample,控制随机采样的比例;
colsample_bytree,控制随机抽取特征的比例;
gamma,节点分割所需的损失函数最小下降。
优选地,所述S2还包括选择Kappa系数和分类准确率作为评价指标,Kappa系数的表达式如下:
其中p0是每个类别中被正确分类的样本占样本总数的百分比,a1,a2分别代表每个类别的真实样本数,b1,b2代表被预测为两个标签类别的样本数,Kappa系数的值与一致性程度的关系如下:
优选地,所述S1具体包括:通过GPS下投式探测仪获取特征的参数;
其中,所述气象参数包括比湿、温度、经向风及纬向风;热带气旋参数包括热带气旋等级、热带气旋最大风速半径、探测仪位置象限、探测仪与热带气旋中心距离;位置参数包括经度和纬度。
优选地,所述标签为0或1,其中1代表特征下无大气波导,而0则反之,且采用过采样方式,将标签值为0的样本类别中随机人工复制点,使两个类别的标签对应的样本数量相同。
优选地,所述S3具体包括:利用寻找热带气旋大气波导和不同特征之间的关系,Shapely值就是分配给数据集中的特征的预测值,Shapley值的公式如下:
zi=zbase+h(xi1)+h(xi2)+...+h(xij)
其中xi j代表第i个样本的第j个特征,zi代表第i个样本预测值,zbase是模型基准值,h(xij)是第j个特征对第i个样本最终预测结果的贡献值。
本发明还提供了一种基于可解释性XGBoost模型的热带气旋大气波导预测系统,所述系统用于实现基于可解释性XGBoost模型的热带气旋大气波导预测方法,包括:
特征获取模块,用于将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
特征训练模块,用于取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
特征重要性排序模块,用于使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
预测模块,用于利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于可解释性XGBoost模型的热带气旋大气波导预测方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于可解释性XGBoost模型的热带气旋大气波导预测方法的步骤。
有益效果:本发明提供的一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统,其中方法包:将气象参数、热带气旋参数及位置参数分别对应不同特征,结合各自标签,组合成数据集;取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。通过本方案得到了大气波导形成与特征之间的关系,对热带风暴地区的大气波导形成预测具有指导作用,有利于作战指挥和提前预警。
附图说明
图1为本发明提供的一种基于可解释性XGBoost模型的热带气旋大气波导预测方法流程图;
图2为本发明提供的一种可能的电子设备的硬件结构示意图;
图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图;
图4为本发明提供的1996-2020年间在东太平洋和北大西洋出现的164个热带气旋的轨迹图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种基于可解释性XGBoost模型的热带气旋大气波导预测方法,包括:
S1,将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;利用GPS下投式探测仪探测得到的温度、压强和湿度廓线,来计算修正折射率的廓线。由于某些探测仪位置在陆地,因此高程变化也被考虑在内。由于湍流和随机噪声的存在,首先用美国国家大气研究中心(NCAR)发布的大气探测处理环境(ASPEN)软件(http://www.eol.ucar.edu/software/aspen,ASPEN可以分析数据,进行平滑处理,传感器时间相应修正和消除可疑数据点)对原始数据进行预处理。计算出修正折射率廓线以后,每个潜在的波导层对应着一个截止波长,这个量是衡量波导捕获电磁波能力的参量。波长越长,波导层越稳定。截止波长可以用以下的公式计算:
其中λmax是截止波长(米),d是波导层的厚度(米),δM是波导强度(M)。而常数C的取值,对于悬空波导值为5.66×10-3,对于表面波导值为3.773×10-3。本发明中认为λmax≥0.5的潜在波导层为有效波导层。把这个指标作为限制条件的原因是考虑到了波导的两个特征参数,当强度太小或者厚度太小,都有可能是由仪器误差和随机干扰误差所引起的不真实波导。通过设置这个条件,可以滤掉这些不真实的波导。通过上述步骤,消除了负面的影响,得到了真正的波导层。最后,计算得到1996年至2020年164个热带气旋的15216条廓线如图4所示。
S2,取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
S3,使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
S4,利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
其中,本发明在进行热带气旋与大气波导联系的研究时,温度,压强和湿度数据来源于GPS下投式探测仪。下投式探测仪是由美国国家大气海洋管理局(NOAA)从1996年至2020年间发射的专门用于热带气旋研究的飞行器投放,共有超过20000次探测(https://www.aoml.noaa.gov/hrd/data_sub/dropsonde.html)。数据中包括温度,湿度,风速和风向等变量,时间分辨率为0.5秒,垂直分辨率约为5-15米。除此外,本发明使用的高程数据是来自美国国家航空和宇宙航行局(NASA)和美国国家测绘局(NIMA)的SRTM15数字高程模型数据(DEM)。该数据集的水平分辨率是450m,覆盖范围为全球。结合温度、压强、湿度以及高程数据,可以算出修正折射率的垂直廓线。
热带气旋相关资料来自美国国家大气海洋管理局(NOAA)发布的国际气候管理最佳跟踪档案(IBTrACS)(ncdc.noaa.gov/ibtracs/index.php)[81]。数据集时间分辨率为3个小时,并且根据先验知识和简单数据分析,选取以下四个变量作为波导相关特征:热带气旋等级(一共分为11个等级,从-5到0分别是未知类型,后热带气旋,微扰动,亚热带气旋,热带低压和热带风暴,从1到5是使用辛普森等级(Saffir-Simpsonscale)划分,划分依据是逐10分钟平均最大持续风速)、热带气旋最大风速半径、探测仪与气旋中心之间的距离以及探测仪与气旋中心之间的位置关系(探测仪的位置可以是四种:热带气旋左前方、左后方、右前方以及右后方,在本发明分别用1,2,3,4来表示,称其为探测仪象限)。在选取探测仪对应的热带气旋路径数据点时,选取与探测仪投放时间最接近的时间点对应的数据点作为某条大气折射率廓线的特征。
其次,本研究中所用的标准气压层气象参数是从ECMWF的ERA-5数据集中获得的。根据Kursinski等在2001年的研究,波导的最高高度一般不超过5000米,因此仅考虑5000米以下的标准气压层。因此,根据气压与高度对应关系,本发明选取了1000,975,950,925,900,875,850,825,800,775,750,700,650,600,550和500hPa总共16个气压层。为了方便后文叙述,这些气压层总共分为三部分:上层(500-600hPa),中层(600-750hPa)和低层(775-1000hPa)。特征变量为这些气压层的比湿,温度和经纬向风分量。至于对应探测仪数据的网格点选取,参考舒守娟和彭犁然在2010年的研究,即使在超级台风“龙王”期间,下投式探空仪的水平移动范围也远小于10km。由于研究范围仅限5000米高度,且热带气旋等级较低,探测仪的水平移动距离就更小。因此在分辨率为0.25°×0.25°的网格中,可以基本认为探测仪一直在一个相对固定的位置,即释放时的经纬度。因此认为探测仪可以比较精确的探测到局地的气象参数。再分析数据的时间选取上,选取距离探测仪释放时间最近的整点数据。
综上所述,将局地气象参数、热带气旋信息参数以及探测仪位置合并起来形成一个特征集,以此来预测热带气旋大气波导的产生,见表1。
表1用来预测热带气旋波导存在的特征
其中,XGBoost是一种梯度下降树算法的变体,通过往损失函数中添加正则化项避免了过拟合。它的基本理论如下:
其中t是基本树模型的个数,ft(xi)是第t棵树对第i个样本的预测结果,是t棵树对第i个样本预测结果的综合结果。这个算法的目的是使集成的模型达到最佳的表现,即意味着使损失函数达到极小:
其中l是二阶可微凸函数,用来衡量真实值yi和预测值之间的误差。T是决策树上的节点数目,w是在所有叶子节点中第j个节点的权重。γ和λ分别是节点分割难度和正则化系数。Ω(f)是t棵树的复杂度之和,用作惩罚函数。
由于XGBoost使用前向迭代,当注意第t棵树时,前t-1棵树的预测结果可以被看成是常数:
然后,将损失函数进行泰勒级数展开,原始的损失函数被改写成如下:
其中gi代表一阶导数而hi代表二阶导数。联立各式,得到:
为了得到权重wj,损失函数关于wj求一阶导数,得到wj和ζ的表达式如下:
本发明所用的XGBoost算法中超参数包括:learning_rate(用来控制学习速度),max_depth(决策树的最大深度),n_estimators(决策树的最大数量),min_child_weight(一个子对象所需的最小权重之和),reg_lambda(L2正则化项),reg_alpha(L1正则化项),subsample(控制随机采样的比例),colsample_bytree(控制随机抽取特征的比例)和gamma(节点分割所需的损失函数最小下降)。
至于特征和标签,这些特征用来预测大气波导的产生与否。标签则使用0和1,其中1代表该特征下无大气波导,而0则反之。数据集共有5727个标签为0的样本和9489个标签为1的样本,两个类别样本数量存在较大的差距,因此,本发明使用的采样方法为过采样,即在标签值为0的样本类别中随机人工复制点,使两个类别的样本数量相同。
随后,将整个数据集分为训练集(占总样本数量的70%)和测试集(占总样本数量的30%)。损失函数为二进制交叉熵。在调节参数值的时候,首先每个参数都根据先验知识被设定在一个固定范围内。使用网格搜索算法,得到在给定范围内所有的参数组合后,在训练集上用交叉验证的方法计算出每种参数组合的表现。经过大量的计算机实验,得到最佳的参数组合见表2。
表2 XGBoost模型表现最佳的超参数组合
选择Kappa系数和分类准确率作为评价指标。Kappa系数是衡量观测数据和模拟数据之间一致性的一种手段。它在机器学习领域中是一种比较常用的指标,特别是在空间数据匹配领域。Kappa系数的表达式如下:
其中p0是每个类别中被正确分类的样本占样本总数的百分比。a1,a2分别代表每个类别的真实样本数,b1,b2代表被预测为这两个类别的样本数。Kappa系数的值与一致性程度的关系如下:
Shapely附加解释(SHAP)是一个用Python开发的“模型解释”包,它解释任何机器学习模型的输出。SHAP可以定量分析机器学习算法预测与输入变量之间的关系。每个变量的SHAP值表示其对预测的影响和重要性。SHAP可以根据变量对预测结果的重要性对变量进行排序,因此,SHAP可以用于特征选择。此外,与原有的XGBoost排名相比,SHAP有两大优势,分别是一致性和准确性。一致性是指当特征数量发生变化时,原有特征重要性排序顺序的变化尽可能小。准确性是指当某些特征从特征集中删除时,每个特征对总重要性的贡献保持不变。SHAP的基本理论是Shapely在1953年提出的Shapely值法,它解决合作过程中利益分配所引起的矛盾,属于合作博弈领域。应用Shapely值法的一个优点是根据成员对联盟的边际贡献率来分配利益,即成员i享受的利益等于成员为其参与联盟所创造的边际效益的平均值。基本理论如下:
其中n是合作系统中成员个数,N={1,2,...,n}。S是包含不同子成员的N的子集。v(S)代表联盟S的总效益,代表联盟S中由成员i获得的效益。|S|表示联盟成员的个数。n!代表n的阶乘,S\{i}代表将元素i从S中移除后的集合。成员i参与不同联盟S所创造的边际效益记为[v(S)-v(S\{i})]。成员i创造的效益在整个联盟中所占比重记为
Shapely值法的基本原理被运用在SHAP中,在机器学习中,每个特征集中的特征都是联盟中的一个成员。机器学习算法对每个样本都有一个预测值,Shapely值就是分配给数据集中的特征的预测值。Shapley值的公式如下:
zi=zbase+h(xi1)+h(xi2)+...+h(xij) (10)
其中xij代表第i个样本的第j个特征,zi代表第i个样本预测值。zbase是模型基准值,h(xij)意思是第j个特征对第i个样本最终预测结果的贡献值。
在本发明中,SHAP被用来寻找热带气旋大气波导和不同特征之间的关系。更进一步地,将各种特征的重要性进行排序来找到最重要的特征。除此之外,每个廓线出现热带气旋大气波导的主要原因也可以由此分析得出。
使用测试集测试训练完毕的模型,其Kappa系数和准确率可分别可以达到0.6258和81.30%。可以认为选取的特征和热带气旋大气波导存在有很高的一致性。为了凸显本发明算法的有效性,用Logistic回归作为基准模型。Logistic回归是一种广义的线性回归分析模型,属于有监督学习。其推导过程和计算方法与回归方法相似。然而,它主要用于解决二分法的问题。这里将其作为基准模型,与XGBoost算法的性能进行比较。Logistic回归有以下参数:正则化参数(C),惩罚项,优化方法。同上使用网格搜索算法在训练集上进行交叉验证,得到最佳参数组合是C=0.1,惩罚项=L2,优化方法="lbfgs"。该模型的测试精度约为69.5%,测试Kappa系数约为0.391。测试结果证明,与Logistic回归相比,XGBoost模型的性能提高很多。
本发明通过不同特征与自定义标签构成数据集,然后构建XGBoost模型来预测热带气旋中波导的存在。使用网格搜索算法在训练集上进行交叉验证得出表现最优的XGBoost模型参数组合,并且在测试集上测试模型的表现,测试得到最优的准确率为81.30%。
然后使用SHAP解释XGBoost模型预测热带气旋大气波导的结果,得到热带气旋特征、局地气象参数和地理位置参数的特征重要性排序,并具体分析每个比较重要的特征对波导形成的具体影响。
利用本发明方案,对一个热带气旋Nestor的实例进行探究,分析其中出现波导的主要影响因素以及各影响因素的具体作用。得到的主要结论如下:
(1)形成热带气旋的最重要因素是探测仪和热带气旋中心之间的距离。局地的气象参数排在其次,其中上层的湿度和温度是最关键的。
(2)热带气旋波导在热带气旋中心容易形成,而离开热带气旋中心,波导形成概率则很低。之后随着探测仪和热带气旋中心的距离增加,波导形成概率逐渐升高,当距离增加到250公里左右以后,波导出现的概率基本保持不变。其次,该概率与最大风速半径呈正相关。此外,热带气旋波导更有可能在热带气旋轨道的右后方形成。
(3)中间层湿度的增加抑制大气波导的形成。此外,中层温度在270-275K之间的情况对大气波导的存在最为有利。
本发明实施例还提供了一种基于可解释性XGBoost模型的热带气旋大气波导预测系统,所述系统用于实现基于可解释性XGBoost模型的热带气旋大气波导预测方法,包括:
特征获取模块,用于将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
特征训练模块,用于取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
特征重要性排序模块,用于使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
预测模块,用于利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
S2,取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
S3,使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
S4,利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
S2,取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
S3,使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
S4,利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,包括:
S1,将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
S2,取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
S3,使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
S4,利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
2.根据权利要求1所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述S2具体包括:
采用损失函数为二进制交叉熵,在调节参数值的时候,首先每个参数都根据先验知识被设定在一个固定范围内;然后使用网格搜索算法,得到在给定范围内所有的参数组合后,在训练集上用交叉验证的方法计算出每种参数组合的表现。
3.根据权利要求2所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述S3中XGBoost算法中超参数包括:
learning_rate,用来控制学习速度;
max_depth,决策树的最大深度;
n_estimators,决策树的最大数量;
min_child_weight,一个子对象所需的最小权重之和;
reg_lambda,L2正则化项;
reg_alpha,L1正则化项;
subsample,控制随机采样的比例;
colsample_bytree,控制随机抽取特征的比例;
gamma,节点分割所需的损失函数最小下降。
4.根据权利要求2所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述S2还包括选择Kappa系数和分类准确率作为评价指标,Kappa系数的表达式如下:
其中p0是每个类别中被正确分类的样本占样本总数的百分比,a1,a2分别代表每个类别的真实样本数,b1,b2代表被预测为两个标签类别的样本数,Kappa系数的值与一致性程度的关系如下:
5.根据权利要求1所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述S1具体包括:通过GPS下投式探测仪获取特征的参数;
其中,所述气象参数包括比湿、温度、经向风及纬向风;热带气旋参数包括热带气旋等级、热带气旋最大风速半径、探测仪位置象限、探测仪与热带气旋中心距离;位置参数包括经度和纬度。
6.根据权利要求1所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述标签为0或1,其中1代表特征下无大气波导,而0则反之,且采用过采样方式,将标签值为0的样本类别中随机人工复制点,使两个类别的标签对应的样本数量相同。
7.根据权利要求1所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,其特征在于,所述S3具体包括:利用寻找热带气旋大气波导和不同特征之间的关系,Shapely值就是分配给数据集中的特征的预测值,Shapley值的公式如下:
zi=zbase+h(xi1)+h(xi2)+...+h(xij)
其中xij代表第i个样本的第j个特征,zi代表第i个样本预测值,zbase是模型基准值,h(xij)是第j个特征对第i个样本最终预测结果的贡献值。
8.一种基于可解释性XGBoost模型的热带气旋大气波导预测系统,其特征在于,所述系统用于实现如权利要求1-7任一项所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法,包括:
特征获取模块,用于将气象参数、热带气旋参数及位置参数分别对应不同特征xi,结合各自标签yi,组合成数据集(xi,yi),i为自然数;
特征训练模块,用于取数据集中的70%作为训练集,使用网格搜索算法在训练集上调节XGBoost算法的超参数,将剩余30%的数据集作为测试集,对训练集进行交叉验证训练得到最优参数组合;
特征重要性排序模块,用于使用SHAP来解释XGBoost算法的预测结果,并且分析热带气旋大气波导和不同特征之间的关系,进行特征重要性排序;
预测模块,用于利用最优参数组合的XGBoost模型,根据特征重要性对应权重输入待测特征,预测大气波导形成概率。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于可解释性XGBoost模型的热带气旋大气波导预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310503117.0A CN116609858A (zh) | 2023-05-06 | 2023-05-06 | 一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310503117.0A CN116609858A (zh) | 2023-05-06 | 2023-05-06 | 一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116609858A true CN116609858A (zh) | 2023-08-18 |
Family
ID=87681021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310503117.0A Pending CN116609858A (zh) | 2023-05-06 | 2023-05-06 | 一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116609858A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609738A (zh) * | 2024-01-19 | 2024-02-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 集合多因素的大气能见度预测方法、计算机设备及介质 |
CN117908166A (zh) * | 2024-03-18 | 2024-04-19 | 南京气象科技创新研究院 | 基于机器学习的强降水超级单体识别预警方法 |
CN117908166B (zh) * | 2024-03-18 | 2024-05-24 | 南京气象科技创新研究院 | 基于机器学习的强降水超级单体识别预警方法 |
-
2023
- 2023-05-06 CN CN202310503117.0A patent/CN116609858A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609738A (zh) * | 2024-01-19 | 2024-02-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 集合多因素的大气能见度预测方法、计算机设备及介质 |
CN117908166A (zh) * | 2024-03-18 | 2024-04-19 | 南京气象科技创新研究院 | 基于机器学习的强降水超级单体识别预警方法 |
CN117908166B (zh) * | 2024-03-18 | 2024-05-24 | 南京气象科技创新研究院 | 基于机器学习的强降水超级单体识别预警方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10474770B2 (en) | Simulation device, simulation method, and memory medium | |
Fanos et al. | A hybrid model using machine learning methods and GIS for potential rockfall source identification from airborne laser scanning data | |
Huang et al. | An analytical comparison of four approaches to modelling the daily variability of solar irradiance using meteorological records | |
CN107918166B (zh) | 多卫星融合降水方法及系统 | |
CN109946762A (zh) | 一种基于概率分布短时预报降水的方法及系统 | |
CN108896021B (zh) | 基于航空摄影测量点云提取人工林林分结构参数的方法 | |
CN111366617A (zh) | 半监督模糊识别模型及基于该模型的土壤湿度测量方法 | |
CN116609858A (zh) | 一种基于可解释性XGBoost模型的热带气旋大气波导预测方法及系统 | |
BR102012010659B1 (pt) | Processo para identificação e classificação de áreas de exsudações de óleo no fundo do mar através de modelagem inversa | |
CN114005048A (zh) | 基于多时相数据的土地覆盖变化与热环境影响研究方法 | |
CN114048944A (zh) | 一种暴雨诱发地质灾害下应撤离人口及损毁房屋的预估方法 | |
Phuong et al. | Remote sensing for monitoring surface water quality in the Vietnamese Mekong delta: the application for estimating chemical oxygen demand in river reaches in Binh Dai, Ben Tre | |
CN113553766A (zh) | 一种使用机器学习反演北极积雪深度的方法 | |
Fan et al. | A comparative study of four merging approaches for regional precipitation estimation | |
CN114139819B (zh) | 基于地统计加权随机森林的地球化学变量空间预测方法 | |
Mai et al. | Using improved XGBoost algorithm to obtain modified atmospheric refractive index | |
Chacon-Murguía et al. | Dust storm detection using a neural network with uncertainty and ambiguity output analysis | |
US20220308260A1 (en) | Data analysis apparatus, data analysis method, and computer-readable recording medium | |
Sen Roy et al. | Optimization of Nowcast Software WDSS-II for operational application over the Indian region | |
Zhang et al. | Improved Forest Signal Detection for Space-borne Photon-counting LiDAR Using Automatic Machine Learning | |
Sun et al. | Construction of a spatially gridded heat flux map based on airborne flux Measurements using remote sensing and machine learning methods | |
Qing-Dao-Er-Ji et al. | Research on data mining algorithm of meteorological observation based on data quality control algorithm | |
CN116226675B (zh) | 云垂直结构数据构建方法、系统、设备及介质 | |
Mitra et al. | A quantitative analysis of KALPANA-1 derived water vapor winds and its impact on NWP model | |
Pricope et al. | Constructing a coastal plains wetland delineation model using hyperspatial LiDAR data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |