CN116738322A - 一种基于GA-XGBoost的日降水等级分类方法 - Google Patents
一种基于GA-XGBoost的日降水等级分类方法 Download PDFInfo
- Publication number
- CN116738322A CN116738322A CN202310858889.6A CN202310858889A CN116738322A CN 116738322 A CN116738322 A CN 116738322A CN 202310858889 A CN202310858889 A CN 202310858889A CN 116738322 A CN116738322 A CN 116738322A
- Authority
- CN
- China
- Prior art keywords
- precipitation
- data
- xgboost
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001556 precipitation Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 230000002068 genetic effect Effects 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 210000000349 chromosome Anatomy 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Environmental & Geological Engineering (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Atmospheric Sciences (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Environmental Sciences (AREA)
- Ecology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于深度学习及气象预测技术领域,尤其涉及一种基于GA‑XGBoost的日降水等级分类方法。其实现了自主学习降水的时序特征,降低降水数据的非稳定性,并对日降水量进行准确分类预测。其包括:对原始降水数据进行预处理,包括数据筛选、数据清洗、数据分类和smote方法平衡数据集;建立XGBoost模型,初始化超参数;使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析结果。
Description
技术领域
本发明属于深度学习及气象预测技术领域,尤其涉及一种基于GA-XGBoost的日降水等级分类方法。
背景技术
降水是一个高度复杂的非线性过程,具有随机性、突发性、局地性等特点,且易受风速、温度、气压、地势等因素影响,导致预测准确率不高,进行准确的降水等级分类对水资源利用和存储、城市建设等都具有重要意义。
因降水发生的天气学条件非常复杂,加上易受地形、海拔等各种因素的影响,因此对于降水的预测难度很大,预测的准确率一直也是研究人员们关注的焦点之一。目前,在人工智能技术迅速发展的背景下,因为深度学习算法能够高效处理庞大数据的特征信息,学习到气象要素间的作用规律,更能准确描述降水的非线性变化过程,众多研究人员已经将深度学习算法应用到降水分类预测方向上。
在降水预测领域中,因为传统的预测方法大多基于数学模型来描述气象变化,所以具有较强的模式化、公式化等特点,没有考虑到降水的非线性演变过程,没有较好的泛化能力,难以达到理想的预测效果。其次,传统的预测方法在处理海量、复杂、多维的气象数据上能力明显不足,因此使用人工智能技术辅助或者替代传统的预测方法已经成为大势所趋。
发明内容
本发明为解决目前在日降水量等级分类过程中,挖掘降水数据的时序特征的片面性和不充分性,以及人工设定网络参数的局限性等问题,提供一种基于GA-XGBoost的日降水等级分类方法,实现自主学习降水的时序特征,降低降水数据的非稳定性,并对日降水量进行准确分类预测。
本发明以日降水量为研究对象,首先,采用smote方法对降水数据的训练集进行过采样操作,增大少数类样本数量,平衡数据集,测试集不做过采样。其次,建立XGBoost模型,初始化超参数。最后,由于遗传算法有变异机制,可以降低模型训练时陷入局部最优的风险,且参数更新具有随机性,鲁棒性更强,更适合较复杂的求解过程,所以采用遗传算法优化XGBoost超参数。从而建立基于GA-XGBoost的日降水量分类预测模型,并与RF、GBDT和XGBoost进行实验对比,总结模型的优势和不足。
为实现上述目的,本发明采用如下技术方案,其特征在于,包括:
对(原始)降水数据进行预处理,包括数据筛选、数据清洗、数据分类和smote方法平衡数据集。
建立XGBoost模型,初始化超参数。
使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析结果。
进一步地,所述数据筛选包括:获得降水数据中各特征对降水量的贡献度,将贡献度排名靠后的特征舍弃。
进一步地,所述数据清洗包括:针对数据中存在缺省值的特征,处理时逐列检索缺省值并使用fillna函数和mean方法利用平均值进行替换。
进一步地,所述数据分类包括:将降水划分为无雨、小雨、中雨、大雨、暴雨、大暴雨、特大暴雨七类(划分标准见表1)。因为所用数据集是日尺度,所以根据24小时时段的等级划分标准进行等级分类并贴标签,标签类别为:0、1、2、3、4、5、6。
表1降水等级划分标准(mm)
进一步地,所述smote方法平衡数据集包括:
(因为降水数据各类之间存在数量不平衡,会导致模型对少数类样本类别关注度低,影响模型性能;)使用smote过采样方法增大少数类样本数量,导入SMOTE函数库对训练集进行过采样。
进一步地,所述使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析结果包括:
构建BiLSTM网络模型:初始化BiLSTM模型的网络参数,包括正向层和反向层的神经元数量、学习率、全连接层神经元数量;设置网络结构,包括输入层、BiLSTM层、平铺层和全连接层。
1)在遗传算法中,定义染色体编码方式、初始化种群、设置适应度函数和遗传操作(包括选择、交叉和变异)过程;在遗传算法优化过程中,优化的参数包括:迭代次数、树的最大深度、L1正则化、L2正则化、模型复杂度惩罚度、每次选择的训练样本占训练集的百分比;定义参数优化空间,设置遗传种群,并在每次的迭代中,使用更新的种群初始化XGBoost模型。
2)将降水数据中划分好的训练集输入XGBoost模型进行训练,使用训练准确率作为遗传算法的适应度函数值,进行个体适应度值比较,更新并保存最优个体。
3)将降水数据中划分好的测试集输入GA-XGBoost模型进行预测,输出日降水等级分类结果。
与现有技术相比本发明有益效果。
本发明对日降水量分类预测研究方向具有重要的学术意义和应用参考价值。本发明针对日降水量数据不具有平稳性,会导致模型提取时序特征不充分的问题,且经典XGBoost模型需要人工设置超参数,效率较低且繁琐。本方法以辽宁省朝阳市朝阳区观测站逐日降水量数据为研究对象,首先采用smote方法对降水数据的训练集进行过采样操作,增大少数类样本数量,平衡数据集,测试集不做过采样。然后建立XGBoost模型,初始化超参数,最后结合遗传算法优化超参数,建立了基于GA-XGBoost的日降水等级分类模型,经过与XGBoost、RF和GBDT进行对比分析,实验结果表明,遗传算法能够获得更适合的网络参数,提高了预测精度,增强了模型的鲁棒性,验证了遗传算法优化XGBoost的有效性和可行性,提升了模型分类预测精度。
本发明给出的GA-XGBoost模型与其他模型相比,准确率更高,达到0.793,相较于RF、GBDT、XGBoost分别提升约32.83%、18.18%、10.14%。F1值分别达到0.789,相较于前三者分别提升约16.54%、8.98%、5.34%,GA-XGBoost模型能够在提高召回率的同时,精准率没有下降太多,说明本发明模型可以提升分类准确率,为日降水量分类预测提供了新思路。
附图说明
下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。
图1为XGBoost的特征贡献度排名。
图2为RF的特征贡献度排名。
图3为GBDT的特征贡献度。
图4为朝阳市朝阳区观测站模型分类结果的混淆矩阵。
具体实施方式
以下结合实施例,对本发明进行进一步详细说明。
基于GA-XGBoost的日降水等级分类方法,实现过程分三个步骤。
第一步骤:数据的预处理:数据筛选、数据清洗、数据分类和smote方法平衡数据集。
第二步骤:建立XGBoost模型,初始化超参数。
第三步骤:使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析实验结果。
具体过程如下:
第一步骤,数据来源为辽宁省气象局提供的地面观测降水资料,朝阳市朝阳区观测站数据为实验对象,共15313条数据,划分训练集和测试集分别占总体数据集的70%和30%,训练集有10719条,测试集有4594条。实验通过输入多种气象要素,学习各气象要素间作用机制从而进行了日降水等级分类研究对该降水数据进行预处理。
1)数据筛选:因为某些气象要素与降水不存在明显相关性,如果全部输入模型,会造成信息冗余,消耗计算资源,影响训练效率,所以需要获得各个特征对降水量的贡献度,来判断哪些特征需要舍弃。本发明使用XGBoost、RF、GBDT三种模型输出数据集中各个特征的贡献度排名。因为在python的sklearn框架中包含了该三种模型的函数库,该库中均内置了feature_importances_方法,可以可视化特征贡献度排名,所以在实验中调用该方法,输出各个气象要素对降水的贡献度。以辽宁省朝阳区观测站数据为例,得到的特征贡献度见图1-图3。通过综合比较三种模型的输出结果,发现每种模型中SNDP特征贡献度都极小,所以将其剔除。其他站点数据均使用该方法,经判断,实验中选取的其他站点,均将SNDP特征剔除。
2)数据清洗,数据中有些特征存在缺省值,例如GUST特征数值为999.9表示缺省值。处理时逐列检索缺省值并使用fillna函数和mean方法利用平均值进行替换。
3)数据分类,根据辽宁省气象台提供的降水等级划分方法,通常将降水划分为无雨、小雨、中雨、大雨、暴雨、大暴雨和特大暴雨七类。因为所用数据集是日尺度,所以根据24小时时段的等级划分标准进行等级分类并贴标签,标签类别为:0、1、2、3、4、5、6。以辽宁省朝阳区观测站数据为例,因为该站点最大降水量没有超过250毫米,所以共分六类。
4)smote方法平衡数据集。
因为降水数据各类之间存在数量不平衡,会导致模型对少数类样本类别关注度低,影响模型性能。本发明使用smote过采样方法增大少数类样本数量,导入SMOTE函数库对训练集进行过采样。该算法的基本思想是对于每个少数类样本,以欧式距离为标准计算k邻域中所有少数类样本的距离,然后在两个样本之间连线上随机选择一点作为新生成的少数类样本。
第二步骤,建立XGBoost模型,初始化超参数。
XGBoost是集成学习算法的一种,本质是基于梯度提升算法,采用决策树作为弱分类器,是对梯度提升决策树(GBDT)算法的实现和扩展。主要过程是使用一般损失函数的梯度来拟合残差的近似值。核心思想是:在已经训练好的T1~Tt-1棵树后不再调整前Tt-1棵树,只调整当前第t棵树来拟合残差。
XGBoost算法的损失函数表示见式(1)。
式(1)中,表示真实值yi与预测值/>之间训练误差总和。/>表示树模型的复杂度总和,作为正则化项加入损失函数中,防止过拟合。两者共同构成算法的整体优化目标,即损失函数。
因为XGBoost算法是boosting族的算法,所以遵循前向分步加法,即每棵树的预测值为前面所有树求得的预测值与当前这棵树预测值之和,换言之,XGBoost专注于第t棵树的优化,模型对第t棵树的预测值表示见式(2)。
式(2)中,预测过程为前Tt-1棵树训练结束后获得的预测值与当前第t棵树在输入特征变量x后获得的函数关系ft(x)之和,其中ft(x)表示第t棵树的预测值。所以第t棵树的优化目标表示见式(3)。
式(3)中最后一项表示前t-1棵树的模型复杂度,为确定值,因此在下一步训练中,无需对此项进行优化。将上式采用二阶泰勒展开的方式来近似目标函数,因此可以改写表达式见式(4)。
式(4)中,表示目标函数的一阶导,/>表示目标函数的二阶导,因为在式中/>表示前t-1棵树的真实值与预测值之间的损失误差总和,是确定值,所以在后面的推导中删掉可视为常数的项。上式简化后见式(5)。
然后定义第t棵树的模型为:ft(x)=wq(x),整合所有叶子节点:Ij={i|q(xi)=j}。w代表叶子节点的权重。q代表当前树的结构,在输入特征变量x后,q可以将其映射到某个叶子节点。再定义模型复杂度的正则项见式(6)。
式(6)中,γ和λ为惩罚系数,T为叶子节点数,wj为叶子节点j的输出向量。由此,可以得到目标函数见式(7)。
定义得到目标函数见式(8)。
式(8)相当于二次函数形式,在处取得最小值。因此,当/>时,得到最小损失函数见式(9)。
损失函数越小,代表模型性能越好。在实际训练过程中,当建立第t棵树时,需要确定叶子节点的最佳分裂点。采用贪心算法进行节点分裂[37]。
从树的深度为0开始按以下步骤进行。
(1)枚举每个叶子节点的所有可用特征;
(2)针对每个特征,根据特征值的大小,将该节点的训练样本进行升序排列,通过遍历选择出特征的最佳分裂点,并保存该特征的分裂收益;
(3)选取收益最大的特征作为分割特征,并以该特征的最佳分裂点作为分割位置,分裂出两个新的叶子节点,并在每个新节点上添加对应的样本数据;
(4)重回第1步,继续递归执行直到满足特定条件为止。
在对某个叶子节点进行分裂时,分裂前的目标函数见式(10)。
式(10)中,GL、GR表示左、右子树节点对应的目标函数一阶导,HL、HR表示左、右子树节点对应的目标函数二阶导。
分裂后的目标函数见式(11)。
目标函数分裂后的收益gain见式(12)。
该分裂收益也是判断特征重要性的依据。
第三步骤,使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析实验结果。
在遗传算法中,优化的参数分别是:迭代次数、树的最大深度、L1正则化、L2正则化、模型复杂度惩罚度、每次选择的训练样本占训练集的百分比。定义参数优化空间,设置遗传种群,并在每次的迭代中,使用更新的种群初始化XGBoost模型。使用遗传算法优化XGBoost的超参数、超参数介绍、优化时设置的范围以及优化后参数值见表2。
表2模型参数设置
遗传操作内容如下:
在选择操作中,采用联赛选择算法,主要思想为随机挑选k个竞争者,在交配池中竞争每一位基因遗传,适应性最好的将获得该基因的遗传权;
在交叉操作中,采用模拟二元交叉算法(SBX),即单点交叉。在两条具有二进制编码的染色体基因位中随机选择一个位置,进行分割并交换右侧部分,由此得到两条新染色体。假设两个父代个体和/>则采用SBX算子产生两个后代个体和/>的过程如下:
式中,rand∈U(0,1),η是分布因子,为自定义参数,η越大表示产生的后代个体越接近父代个体的概率越大。
在变异操作中,选用多项式突变方式,其与SBX算子具有相同的概率分布。定义变异的形式是:
v′k=vk+δ×(uk-lk)(14)
式中,u∈U(0,1),δ1=(vk-lk)/(uk-lk),δ2=(uk-vk)/(uk-lk),ηm是分布指数。
为客观评估本发明模型的准确性和有效性,选择准确率(accuracy)、召回率(recall)、精准率(precision)和F1值(F1 score)从多角度评估模型的性能,其中召回率代表正样本被分类为正样本占总体正样本的比例,精准率代表分类为正样本中真实正样本的数量,F1值为调和平均值,同时平衡精准率和召回率。以二分类为例,讲述评价指标的定义。正样本P和负样例N,将正样本分类为正样本定义为True Positive(TP),正样本分类为负样本定义为False Negative(FN),负样本分类为正样本定义为False Positive(FP),负样本分类为负样本定义为True Negative(TN),其对应的混淆矩阵见表3。
表3混淆矩阵
Tab.3Confusion matrix
其表达式分别为:
本发明实验中使用RF、GBDT、XGBoost和GA-XGBoost模型对上述数据进行训练和测试,得到模型评价指标对比见表4,测试集分类结果的混淆矩阵见图4。
实验结果表明:
从表4可知,GA-XGBoost模型的准确率达到0.811,相较于RF、GBDT、XGBoost分别提升约37.69%、17.03%、9.30%。虽然精准率相较于GBDT、XGBoost略低,但是F1值分别达到0.810,相较于RF、GBDT、XGBoost分别提升约19.29%、8.29%、3.85%。由于召回率有所提升,所以精准率会对应降低,而本发明GA-XGBoost模型的F1值较好,说明使用遗传算法优化XGBoost超参数可以有效获得适合的超参数组合,对模型性能有一定提升作用。
从图4可知,GA-XGBoost模型提高了对于小降水量的分类准确率,且整体分类正确的数量大于XGBoost、RF、GBDT模型。但是四种模型对大降水量的分类准确率均偏低,这可能由于大降水量样本占比小,虽然在训练过程中使用过采样方法平衡了数据集,但是训练集类别4、5的样本中存在较多插值数据,而测试集中该类别样本同样很少,与训练集该类别的样本不具有较大的相似性,可能导致模型在此类别的测试误差较大。
表4模型评价指标
综上所述,RF、GBDT、XGBoost和GA-XGBoost的准确率均依次递增,说明基于boosting集成策略的模型更适合本发明研究内容。本发明的GA-XGBoost模型在各个站点中的准确率、召回率、F1值上均表现更好,整体分类效果更好。验证了遗传算法优化XGBoost超参数的可行性和有效性,以及GA-XGBoost模型在日降水等级分类方面的泛化性。但是GA-XGBoost对于4、5类别分类正确的数量有所下降,且其他基模型对于该类别分类准确率也有待提高,可能由于样本之间数量相差过大,对模型性能有一定影响,虽然进行了数据平衡的操作,但是可能由于采用smote方法对训练集样本进行了过采样操作,使小样本数量增加了大量的插值数据,此类数据与测试集样本没有较大相关性,所以模型对该类别的分类准确率较低,后续可以深入研究改进模型提升分类准确率。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;因而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (6)
1.一种基于GA-XGBoost的日降水等级分类方法,其特征在于:对降水数据进行预处理,包括数据筛选、数据清洗、数据分类和smote方法平衡数据集;
建立XGBoost模型,初始化超参数;
使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析结果。
2.根据权利要求1所述的一种基于GA-XGBoost的日降水等级分类方法,其特征在于:所述数据筛选包括:获得降水数据中各特征对降水量的贡献度,将贡献度排名靠后的特征舍弃。
3.根据权利要求1所述的一种基于GA-XGBoost的日降水等级分类方法,其特征在于:所述数据清洗包括:针对数据中存在缺省值的特征,处理时逐列检索缺省值并使用fillna函数和mean方法利用平均值进行替换。
4.根据权利要求1所述的一种基于GA-XGBoost的日降水等级分类方法,其特征在于:所述数据分类包括:将降水划分为无雨、小雨、中雨、大雨、暴雨、大暴雨、特大暴雨七类。因为所用数据集是日尺度,所以根据24小时时段的等级划分标准进行等级分类并贴标签,标签类别为:0、1、2、3、4、5、6。
5.根据权利要求1所述的一种基于GA-XGBoost的日降水等级分类方法,其特征在于:所述smote方法平衡数据集包括:使用smote过采样方法增大少数类样本数量,导入SMOTE函数库对训练集进行过采样。
6.根据权利要求1所述的一种基于GA-XGBoost的日降水等级分类方法,其特征在于:所述使用遗传算法优化网络参数,将各个子序列输入模型进行训练和预测并对比分析结果包括:
构建BiLSTM网络模型:初始化BiLSTM模型的网络参数,包括正向层和反向层的神经元数量、学习率、全连接层神经元数量;设置网络结构,包括输入层、BiLSTM层、平铺层和全连接层;
1)在遗传算法中,定义染色体编码方式、初始化种群、设置适应度函数和遗传操作过程;在遗传算法优化过程中,优化的参数包括:迭代次数、树的最大深度、L1正则化、L2正则化、模型复杂度惩罚度、每次选择的训练样本占训练集的百分比;定义参数优化空间,设置遗传种群,并在每次的迭代中,使用更新的种群初始化XGBoost模型;
2)将降水数据中划分好的训练集输入XGBoost模型进行训练,使用训练准确率作为遗传算法的适应度函数值,进行个体适应度值比较,更新并保存最优个体;
3)将降水数据中划分好的测试集输入GA-XGBoost模型进行预测,输出日降水等级分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858889.6A CN116738322A (zh) | 2023-07-13 | 2023-07-13 | 一种基于GA-XGBoost的日降水等级分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858889.6A CN116738322A (zh) | 2023-07-13 | 2023-07-13 | 一种基于GA-XGBoost的日降水等级分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116738322A true CN116738322A (zh) | 2023-09-12 |
Family
ID=87913424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310858889.6A Pending CN116738322A (zh) | 2023-07-13 | 2023-07-13 | 一种基于GA-XGBoost的日降水等级分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738322A (zh) |
-
2023
- 2023-07-13 CN CN202310858889.6A patent/CN116738322A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340273B (zh) | 一种基于GEP参数优化XGBoost的电力系统短期负荷预测方法 | |
CN110135630B (zh) | 基于随机森林回归和多步寻优的短期负荷需求预测方法 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN113282122B (zh) | 一种商用建筑能耗预测优化方法及系统 | |
CN112733996B (zh) | 基于GA-PSO优化XGBoost的水文时间序列预测方法 | |
Yuan et al. | Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search | |
CN110969290A (zh) | 一种基于深度学习的径流概率预测方法及系统 | |
CN113361761A (zh) | 一种基于误差修正的短期风电功率集成预测方法及系统 | |
CN116721537A (zh) | 基于gcn-ipso-lstm组合模型的城市短时交通流预测方法 | |
CN115689008A (zh) | 基于集合经验模态分解的CNN-BiLSTM短期光伏功率预测方法及其系统 | |
CN112330487A (zh) | 一种光伏发电短期功率预测方法 | |
CN116128150B (zh) | 一种基于两级优化的光伏智能出力预测方法 | |
CN114282646B (zh) | 基于两阶段特征提取和改进BiLSTM的光功率预测方法及系统 | |
CN116702937A (zh) | 一种基于K-means均值聚类及优化BP神经网络的光伏出力日前预测方法 | |
CN113627070A (zh) | 一种短期光伏功率预测方法 | |
CN113515540A (zh) | 一种数据库的查询重写方法 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN116826737A (zh) | 一种光伏功率的预测方法、装置、存储介质及设备 | |
CN115579068A (zh) | 一种基于预训练和深度聚类的宏基因组物种重建方法 | |
CN113282747B (zh) | 一种基于自动机器学习算法选择的文本分类方法 | |
CN112749211B (zh) | 一种基于电力大数据的茶叶产量预测新方法 | |
CN116883057A (zh) | 一种基于XGBoost的高精度电力客户营销渠道偏好预测系统 | |
CN116805035A (zh) | 一种基于VMD-BO-BiLSTM的月降水量预测方法 | |
CN111310974A (zh) | 一种基于ga-elm的短期需水预测方法 | |
CN116865232A (zh) | 一种基于风速误差修正的中长期风电功率预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |