CN114386697A - 一种基于改进随机森林的船舶主机备件预测方法 - Google Patents

一种基于改进随机森林的船舶主机备件预测方法 Download PDF

Info

Publication number
CN114386697A
CN114386697A CN202210031090.5A CN202210031090A CN114386697A CN 114386697 A CN114386697 A CN 114386697A CN 202210031090 A CN202210031090 A CN 202210031090A CN 114386697 A CN114386697 A CN 114386697A
Authority
CN
China
Prior art keywords
random forest
optimal
particle
prediction
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210031090.5A
Other languages
English (en)
Inventor
孟冠军
杨思平
钱晓飞
曹先怀
郑文剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210031090.5A priority Critical patent/CN114386697A/zh
Publication of CN114386697A publication Critical patent/CN114386697A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进随机森林的船舶主机备件预测方法,首先采集船舶主机备件原始的历史数据,按照一定的比例划分为训练集和测试集,再运用全局粒子群算法对通过集成学习形成的随机森林模型中的参数进行第一次调优,获得局部最优参数值;然后在局部最优参数值附近重新选定合适区间进行小步长的网格搜索算法,对随机森林参数进行第二次精细寻优,并且不断缓慢扩大区间,逐步跳出局部最优情况,获取最优参数;使用改进后的随机森林模型对船舶主机备件的历史数据进行训练,得到预测模型,并利用测试集进行回归预测,以获得最佳的预测效果。本发明方法可以有效为船舶公司中长期主机备件需求的预测提供新途径,从而优化公司内部库存管理。

Description

一种基于改进随机森林的船舶主机备件预测方法
技术领域
本发明属于船舶主机备件预测技术领域,具体涉及一种基于改进随机森林的船舶主机备件预测方法。
背景技术
近年来,船舶行业逐渐朝着一个新的态势往前发展,中国船舶制造业在市场中所占的比重也明显提升。由此,便涉及到船舶相关的装备备件规划问题,船舶备件需求规划策略的优劣将会对装备备件维修保障费用和战备完好性产生显著影响。
在船舶行业中,船舶主机备件是为保障船舶装备日常使用和维修而备用的各种重要零部件。备件的需求和预测是进行备件筹措、供应、储运等各项管理工作的基础。合理的备件规划可以优化库存、降低备件管理的难度,从而进一步降低成本,因此科学合理的装备备件规划技术是非常重要的。
对于船舶主机备件而言,备件需求呈现出数据量小、规律性不强、需求间隔期不确定等特点,而备件的消耗又会受到船舶航行环境、设备维护、设备故障等多种因素影响,因此很难进行科学性的预测。现在流行的一些备件需求预测的方法主要有指数平滑法、灰色预测法等,上述的预测方法都有其优劣,但在进行船舶主机备件预测时预测效果都不大明显。
随机森林(Random Forest)的原理是从原始的训练数据集中采用bootstrap自助采样的方式选择K个数据集,重复m次得到m个决策树。再将这m个不同的决策树通过bagging集成学习,实现多个弱学习器转换成一个强学习器,避免了部分随机误差,能够产生较好的预测效果。传统的随机森林算法预测结果受自身参数:子树的数量(n_estimators)、最小样本叶片数量(min_sample_leaf)影响较大。合适的参数设置会产生最佳的预测效果,从而使得预测误差降到最低。针对此类参数优化的问题,已经提出不少优化算法,包括网格搜索法(Grid Research,GS)、粒子群算法((Particle Swarm Optimization,PSO)、遗传算法(Genetic Algorithm,GA)等。但网格搜索算法消耗时间过长、搜索速度慢;粒子群算法容易陷入局部最优。这些算法在一定程度上都提升了随机森林的预测性能,但仍然存在一些不足。本文提出了一种基于改进的随机森林船舶主机备件预测方法,将基于粒子群算法优化改进后的网格搜索算法应用到随机森林的参数调优,进而更为精准地预测出船舶主机维修更换备件的需求量。
发明内容
为更好地实现船舶主机备件需求预测规划,本发明提供了一种基于改进的随机森林船舶主机备件预测方法。
一种基于改进随机森林的船舶主机备件预测方法,具体步骤如下:
步骤1:采集近T年内船舶主机备件的维修更换数据,按照一定的比例生成训练集Ntrain和测试集Ntest
步骤2:通过训练集数据Ntrain采用bootstrap自助采样法方法构建随机森林船舶主机备件预测模型;运用粒子群算法对随机森林的参数进行优化,粒子个体代表随机森林中的两个参数:子树的数量(n_estimators)、最小样本叶片数量(min_sample_leaf);把初始的随机森林预测误差作为个体粒子的适应度函数;通过粒子种群中粒子的位置和速度的不断迭代更新,动态地搜索到粒子群中的局部最优值,即随机森林的局部最优参数值;
步骤3:以步骤2的局部最优参数值为目标点,在局部最优参数值附近选择合适的区间;即在粒子群算法优化后,重新选定较为“优秀”的范围更小的参数搜索区间。在这个小区间中使用网格搜索法以小步长进行第二次精细化的随机森林参数寻优,并采用K-cv交叉验证。以随机森林预测的结果和实际值之间的均方误差作为评判标准。直至达到最优条件则搜索结束;
步骤4:若不满足最优条件,则继续以步骤2输出的局部最优参数组合作为目标点,并且不断缓慢扩大搜索范围,重复步骤3进行网格遍历,逐步跳出粒子群算法所在的局部最优,直至满足最优条件,输出全局最优的参数组合;
步骤5:将船舶主机历史维修备件训练集数据作为改进的随机森林的输入,对历史数据进行训练,利用测试集进行回归预测,获取主机备件需求预测结果。
进一步,所述步骤2的构建随机森林船舶主机备件预测模型具体包括:
1)从样本集中有放回的随机选择出N个样本;
2)从所有特征中随机选择k个特征,对选出的样本进行建立决策树;
3)重复以上两个步骤m次,即生成m棵决策树,形成随机森林;
4)通过Bagging集成学习将m个决策树集成,即随机森林集成了各个决策树的分类结果。
5)对m个决策树的形成的m个预测结果取平均值,作为一次随机森林算法的预测结果。
进一步,所述步骤2的粒子群算法具体包括:
1)初始化粒子种群:在一个2维的搜索目标中,假设粒子种群规模为M,给定随机森林的参数(n_estimators,min_sample_leaf)的范围,即n_estimators∈(n0,n1),min_sample_leaf∈(l0,l1)。第i个粒子的初始速度为
Figure BDA0003466468300000041
设第i个粒子的位置表示为
Figure BDA0003466468300000042
其中k表示迭代次数,i=1,2,3…,M,表示在这个2维空间中第i个粒子的位置坐标为
Figure BDA0003466468300000043
其对应点速度坐标为
Figure BDA0003466468300000044
Figure BDA0003466468300000045
的横纵坐标的初始值由分别(n_estimators,min_sample_leaf)随机产生。
2)评价粒子的适应度,并计算出来。将种群粒子个体的位置的横纵坐标作为随机森林的输入参数,进行随机森林算法预测,将初始的随机森林函数预测出来的船舶主机备件数量为yi,而备件的实际需求量为
Figure BDA0003466468300000046
因此可以选择均方误差(Mean Square Error,MSE)为适应度函数为:
Figure BDA0003466468300000047
其中yi是预测值,
Figure BDA0003466468300000048
是实际值,n为输入数据样本个数。MSE的值越小,对应的适应度函数就越小,则准确率越高。
3)对每一个粒子种群,将其适应度函数值与其经过的位置进行对比,选出较好者作为个体最优位置:
Figure BDA0003466468300000049
搜索全局中适应度函数值最小的,即准确率最高的位置,设全局最优个体的位置为:
gbestk=(g1,g2)
4)更新粒子种群中每个粒子的速度和位置,对粒子的速度和位置按照如下公式进行迭代计算:
Figure BDA00034664683000000410
其中,wk表示惯性因子,取值需大于等于0;
Figure BDA00034664683000000411
表示第k次迭代第i个粒子的速度和位置,c1、c2为学习因子,前者控制粒子个体的步长,后者则控制全局粒子的步长。
Figure BDA0003466468300000051
在[0,1]中随机生成;
Figure BDA0003466468300000052
gbestk分别是第i个粒子的个体最优和全局最优位置。
5)判断是否达到迭代次数,若达到了则进行下一步,否则跳转到(2)
6)粒子群算法结束,输出最优适应度函数值,以及全局最优个体粒子的位置和速度,即经粒子群寻优后随机森林的最优参数,可即为Nbest,LBest)。
进一步,所述步骤3的网格搜索法具体步骤如下:
1)以粒子群算法优化后的随机森林最优参数(Nbest,LBest)为目标点,定义n_estimators∈(nmin,nmax),min_sample_leaf∈(lmin,lmax),参数n_estimators的搜索步长为Nstep,min_sample_leaf的搜索步长为Lstep,Nstep、Lstep的取值应尽可能使得网格搜索更为精细化,故不宜取大。T、t为系统变量,遵循一定的变化规律。其中nmin,nmax,lmin,lmax满足如下关系:
Figure BDA0003466468300000053
Figure BDA0003466468300000054
2)将训练集样本Ntrain划分为K个子集,任意取其中一个作为测试集,其余的k-1个作为训练集,利用训练集训练出来的模型对这一子集做预测,并计算测试结果的均方误差(Mean Square Error,MSE);
3)选择下一组子集为测试集重复(2)的步骤,如此迭代,最后取K组数据的均方误差的平均值
Figure BDA0003466468300000055
作为一个网格点的预测误差。
4)在参数范围内对所有网格点进行遍历,重复(2)(3)的步骤,选择
Figure BDA0003466468300000057
最小的一组作为一次网格搜索法输出的最优参数组合。
进一步,步骤3所述的最优条件具体是指:
一次网格搜索法的最小预测误差值
Figure BDA0003466468300000056
满足以下关系:
Figure BDA0003466468300000061
其中δ是预测值和实际值之间允许的最大均方误差值。若改进后的网格搜索法的预测误差满足此最优条件则输出最优随机森林参数组合。否则缓慢扩大搜索区间,直至达到最优条件。
进一步,步骤4的所述的不断缓慢扩大搜索范围,直至达到最优条件的具体包括:
网格搜索法扩大搜索区间的规则如下:
nmin′=nmin-L nmax′=nmax+L
lmin=lmin-l lmax=lmax+l
其中,L、l为常数。缓慢扩大区间后,重新进行网格搜索,输出最小的预测误差
Figure BDA0003466468300000062
直至满足最优条件。
附图说明
图1为本发明提供的基于改进的随机森林船舶主机备件预测模型流程图;
图2为本发明的提供的随机森林的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅时本发明一部分实施例,而不是全部实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护范围。
如图1所示,本发明是一种基于改进随机森林的船舶主机备件预测方法,包括以下步骤:
步骤1:采集近T年内船舶主机备件的维修更换数据,按照8∶2的比例生成训练集Ntrain和测试集Ntest
步骤2:使用训练集Ntrain构件m个决策树,形成随机森林船舶主机备件预测模型,如图2所示,具体步骤如下:
1)从样本集中有放回的随机选择出N个样本;
2)从所有特征中随机选择k个特征,对选出的样本进行建立决策树;
3)重复以上两个步骤m次,即生成m棵决策树,形成随机森林;
4)通过Bagging集成学习将m个决策树集成,即随机森林集成了各个决策树的分类结果;
5)若对m个决策树的形成的m个预测结果取平均值,则作为一次随机森林算法的预测结果,即为船舶主机备件的预测需求量。
步骤3:使用粒子群算法优化随机森林船舶主机备件预测模型参数,步骤如下:
1)初始化粒子种群:在一个2维的搜索目标中,假设粒子种群规模为M,给定随机森林的参数(n_estimators,min_sample_leaf)的范围,即n_estimators∈(n0,n1),min_sample_leaf∈(l0,l1)。第i个粒子的初始速度为
Figure BDA0003466468300000071
设第i个粒子的位置表示为
Figure BDA0003466468300000072
其中k表示迭代次数,i=1,2,3…,M,表示在这个2维空间中第i个粒子的位置坐标为
Figure BDA0003466468300000073
其对应点速度坐标为
Figure BDA0003466468300000074
Figure BDA0003466468300000075
的横纵坐标的初始值由分别(n_estimators,min_sample_leaf)随机产生。
2)评价粒子的适应度,并计算出来。将种群粒子个体的位置的横纵坐标作为随机森林的输入参数,进行随机森林算法预测,将初始的随机森林函数预测出来的船舶主机备件数量为yi,而备件的实际需求量为
Figure BDA0003466468300000076
因此可以选择均方误差(Mean Square Error,MSE)为适应度函数为:
Figure BDA0003466468300000081
其中yi是预测值,
Figure BDA0003466468300000082
是实际值,n为输入数据样本个数。MSE的值越小,对应的适应度函数就越小,则准确率越高。
3)对每一个粒子种群,将其适应度函数值与其经过的位置进行对比,选出较好者作为个体最优位置:
Figure BDA0003466468300000083
搜索全局中适应度函数值最小的,即准确率最高的位置,设全局最优个体的位置为:
gbestk=(g1,g2)
4)更新粒子种群中每个粒子的速度和位置,对粒子的速度和位置按照如下公式进行迭代计算:
Figure BDA0003466468300000084
其中,wk表示惯性因子,取值需大于等于0;
Figure BDA0003466468300000085
表示第k次迭代第i个粒子的速度和位置,c1、c2为学习因子,前者控制粒子个体的步长,后者则控制全局粒子的步长。
Figure BDA0003466468300000086
在[0,1]中随机生成;
Figure BDA0003466468300000087
gbestk分别是第i个粒子的个体最优和全局最优位置。
5)判断是否达到迭代次数,若达到了则进行下一步,否则跳转到(2)
6)粒子群算法结束,输出最优适应度函数值,以及全局最优个体粒子的位置和速度,即经粒子群寻优后随机森林的最优参数,可即为(Nbest,LBest)。
步骤4:以步骤3的局部最优参数值为目标点,在局部最优参数值附近选择合适的区间;即在粒子群算法优化后,重新选定较为“优秀”的范围更小的参数搜索区间。在这个小区间中使用网格搜索法以小步长进行第二次精细化的随机森林参数寻优,并采用K-cv交叉验证。步骤如下:
1)以粒子群算法优化后的随机森林最优参数(Nbest,LBest)为目标点,定义n_estimators∈(nmin,nmax),min_sample_leaf∈(lmin,lmax),参数n_estimators的搜索步长为Nstep,min_sample_leaf的搜索步长为Lstep,Nstep、Lstep的取值应尽可能使得网格搜索更为精细化,故不宜取大。T、t为系统变量,遵循一定的变化规律。其中nmin,nmax,lmin,lmax满足如下关系:
Figure BDA0003466468300000091
Figure BDA0003466468300000092
2)将训练集样本Ntrain划分为K个子集,任意取其中一个作为测试集,其余的k-1个作为训练集,利用训练集训练出来的模型对这一子集做预测,并计算测试结果的均方误差(Mean Square Error,MSE)。
3)选择下一组子集为测试集重复(2)的步骤,如此迭代,最后取K组数据的均方误差的平均值
Figure BDA0003466468300000093
作为一个网格点的预测误差。
4)在参数范围内对所有网格点进行遍历,重复(2)(3)的步骤,选择
Figure BDA0003466468300000094
最小的一组作为一次网格搜索法输出的最优参数组合。
步骤5:对改进后的随机森林船舶备件预测模型的预测误差进行判断,是否达到最优条件。具体步骤如下:
1)若进行一次随机森林船舶备件预测模型的的最小预测误差值
Figure BDA0003466468300000095
满足以下关系:
Figure BDA0003466468300000096
其中δ是预测值和实际值之间允许的最大均方误差值。若改进后的网格搜索法的预测误差满足此最优条件则输出最优随机森林参数组合。
2)否则缓慢扩大搜索区间,直至达到最优条件。网格搜索法扩大搜索区间的规则如下:
nmin′=nmin-L nmax′=nmax+L
lmin=lmin-l lmax=lmax+l
其中,L、l为常数。缓慢扩大区间后,重复步骤4、5,重新进行网格搜索,输出最小的预测误差
Figure BDA0003466468300000101
直至满足最优条件,输出最优随机森林参数组合以及最优预测结果。
步骤6:利用已经训练好并获得最优参数组合的随机森林船舶主机备件预测模型进行回归预测。将船舶主机历史维修备件训练集数据作为改进的随机森林的输入,对历史数据进行训练,利用测试集进行回归预测,获取主机备件需求预测结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于改进随机森林的船舶主机备件预测方法,其特征在于,包括以下步骤:
步骤1:采集近T年内船舶主机备件的维修更换数据,按照一定的比例生成训练集Ntrain和测试集Ntest
步骤2:通过训练集数据Ntrain采用bootstrap自助采样法方法构建随机森林船舶主机备件预测模型;运用粒子群算法对随机森林的参数进行优化,粒子个体代表随机森林中的两个参数:子树的数量(n_estimators)、最小样本叶片数量(min_sample_leaf);把初始的随机森林预测误差作为个体粒子的适应度函数;通过粒子种群中粒子的位置和速度的不断迭代更新,动态地搜索到粒子群中的局部最优值,即随机森林的局部最优参数值;
步骤3:以步骤2的局部最优参数值为目标点,在局部最优参数值附近选择合适的区间;即在粒子群算法优化后,重新选定较为“优秀”的范围更小的参数搜索区间;在这个小区间中使用网格搜索法以小步长进行第二次精细化的随机森林参数寻优,并采用K-cv交叉验证,以随机森林预测的结果和实际值之间的均方误差作为评判标准,直至达到最优条件则搜索结束;
步骤4:若不满足最优条件,则继续以步骤2输出的局部最优参数组合作为目标点,并且不断缓慢扩大搜索范围,重复步骤3进行网格遍历,逐步跳出粒子群算法所在的局部最优,直至满足最优条件,输出全局最优的参数组合;
步骤5:将船舶主机历史维修备件训练集数据作为改进的随机森林的输入,对历史数据进行训练,利用测试集进行回归预测,获取主机备件需求预测结果。
2.根据权利要求1所述的一种基于改进随机森林的船舶主机备件预测方法,其特征在于,所述步骤2的构建随机森林船舶主机备件预测模型随机具体包括:
(1)从样本集中有放回的随机选择出N个样本;
(2)从所有特征中随机选择k个特征,对选出的样本进行建立决策树;
(3)重复以上两个步骤m次,即生成m棵决策树,形成随机森林;
(4)通过Bagging集成学习将m个决策树集成,即随机森林集成了各个决策树的分类结果;
(5)对m个决策树的形成的m个预测结果取平均值,作为一次随机森林算法的预测结果。
3.根据权利要求1所述的一种基于改进随机森林的船舶主机备件预测方法,其特征在于,所述步骤2的粒子群算法具体包括:
(1)初始化粒子种群:在一个2维的搜索目标中,假设粒子种群规模为M,给定随机森林的参数(n_estimators,min_sample_leaf)的范围,即n_estimators∈(n0,n1),min_sample_leaf∈(l0,l1);第i个粒子的初始速度为
Figure FDA0003466468290000021
设第i个粒子的位置表示为
Figure FDA0003466468290000022
其中k表示迭代次数,i=1,2,3…,M,表示在这个2维空间中第i个粒子的位置坐标为
Figure FDA0003466468290000023
其对应点速度坐标为
Figure FDA0003466468290000024
Figure FDA0003466468290000025
Figure FDA0003466468290000026
的横纵坐标的初始值由分别(n_estimators,min_sample_leaf)随机产生;
(2)评价粒子的适应度,并计算出来;将种群粒子个体的位置的横纵坐标作为随机森林的输入参数,进行随机森林算法预测,将初始的随机森林函数预测出来的船舶主机备件数量为yi,而备件的实际需求量为
Figure FDA0003466468290000027
因此可以选择均方误差(Mean Square Error,MSE)为适应度函数为:
Figure FDA0003466468290000031
其中yi是预测值,
Figure FDA0003466468290000032
是实际值,n为输入数据样本个数;MSE的值越小,对应的适应度函数就越小,则准确率越高;
(3)对每一个粒子种群,将其适应度函数值与其经过的位置进行对比,选出较好者作为个体最优位置:
Figure FDA0003466468290000033
搜索全局中适应度函数值最小的,即准确率最高的位置,设全局最优个体的位置为:
gbestk=(g1,g2)
(4)更新粒子种群中每个粒子的速度和位置,对粒子的速度和位置按照如下公式进行迭代计算:
Figure FDA0003466468290000034
其中,wk表示惯性因子,取值需大于等于0;
Figure FDA0003466468290000035
表示第k次迭代第i个粒子的速度和位置,c1、c2为学习因子,前者控制粒子个体的步长,后者则控制全局粒子的步长;
Figure FDA0003466468290000036
在[0,1]中随机生成;
Figure FDA0003466468290000037
gbestk分别是第i个粒子的个体最优和全局最优位置;
(5)判断是否达到迭代次数,若达到了则进行下一步,否则跳转到(2);
(6)粒子群算法结束,输出最优适应度函数值,以及全局最优个体粒子的位置和速度,即经粒子群寻优后随机森林的最优参数,可即为(Nbest,LBest)。
4.根据权利要求1所述的一种基于改进随机森林的船舶主机备件预测方法,其特征在于,所述步骤3的网格搜索法具体步骤如下:
(1)以粒子群算法优化后的随机森林最优参数(Nbest,LBest)为目标点,定义n_estimators∈(nmin,nmax),min_sample_leaf∈(lmin,lmax),参数n_estimators的搜索步长为Nstep,min_sample_leaf的搜索步长为Lstep,Nstep、Lstep的取值应尽可能使得网格搜索更为精细化,故不宜取大;T、t为系统变量,遵循一定的变化规律,其中nmin,nmax,lmin,lmax满足如下关系:
Figure FDA0003466468290000041
Figure FDA0003466468290000042
(2)将训练集样本Ntrain划分为K个子集,任意取其中一个作为测试集,其余的k-1个作为训练集,利用训练集训练出来的模型对这一子集做预测,并计算测试结果的均方误差(MeanSquare Error,MSE);
(3)选择下一组子集为测试集重复(2)的步骤,如此迭代,最后取K组数据的均方误差的平均值
Figure FDA0003466468290000043
作为一个网格点的预测误差;
(4)在参数范围内对所有网格点进行遍历,重复(2)(3)的步骤,选择
Figure FDA0003466468290000044
最小的一组作为一次网格搜索法输出的最优参数组合。
5.根据权利要求1所述的一种基于改进随机森林的船舶主机备件预测方法,其特征在于,步骤3所述的最优条件具体是指:一次网格搜索法的最小预测误差值
Figure FDA0003466468290000045
满足以下关系:
Figure FDA0003466468290000046
其中,δ是预测值和实际值之间允许的最大均方误差值;若改进后的网格搜索法的预测误差满足此最优条件则输出最优随机森林参数组合,否则缓慢扩大搜索区间,直至达到最优条件。
6.根据权利要求1所述的一种基于改进随机森林的船舶主机备件预测方法,其特征在于,步骤4的所述的不断缓慢扩大搜索范围,直至达到最优条件的具体包括:
网格搜索法扩大搜索区间的规则如下:
nmin′=nmin-L nmax′=nmax+L
lmin′=lmin-l lmax′=lmax+l
其中,L、l为常数;缓慢扩大区间后,重新进行网格搜索,输出最小的预测误差
Figure FDA0003466468290000051
直至满足最优条件。
CN202210031090.5A 2022-01-12 2022-01-12 一种基于改进随机森林的船舶主机备件预测方法 Pending CN114386697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031090.5A CN114386697A (zh) 2022-01-12 2022-01-12 一种基于改进随机森林的船舶主机备件预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031090.5A CN114386697A (zh) 2022-01-12 2022-01-12 一种基于改进随机森林的船舶主机备件预测方法

Publications (1)

Publication Number Publication Date
CN114386697A true CN114386697A (zh) 2022-04-22

Family

ID=81202180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031090.5A Pending CN114386697A (zh) 2022-01-12 2022-01-12 一种基于改进随机森林的船舶主机备件预测方法

Country Status (1)

Country Link
CN (1) CN114386697A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115032720A (zh) * 2022-07-15 2022-09-09 国网上海市电力公司 基于随机森林的多模式集成预报在地面气温预报中的应用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115032720A (zh) * 2022-07-15 2022-09-09 国网上海市电力公司 基于随机森林的多模式集成预报在地面气温预报中的应用

Similar Documents

Publication Publication Date Title
CN111914944B (zh) 基于动态样本选择和损失一致性的物体检测方法和系统
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110782658B (zh) 一种基于LightGBM算法的交通量预测方法
CN111899254A (zh) 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN114662780A (zh) 碳排放量预测方法、装置、电子设备及存储介质
CN116596044B (zh) 基于多源数据的发电负荷预测模型训练方法及装置
CN111932039A (zh) 一种列车到站晚点预测方法、装置、电子设备及存储介质
CN103294928A (zh) 一种碳排放组合预测方法
CN115374995A (zh) 一种分布式光伏、小风电场站功率预测方法
CN108647772B (zh) 一种用于边坡监测数据粗差剔除的方法
CN111368900A (zh) 一种图像目标物识别方法
CN108509727B (zh) 数据建模中的模型选择处理方法及装置
CN113391894A (zh) 一种基于rbp神经网络的最优超任务网优化方法
CN113673679A (zh) 一种基于粒子群优化神经网络的烘丝工艺参数选取方法
CN114386697A (zh) 一种基于改进随机森林的船舶主机备件预测方法
CN114880806A (zh) 基于粒子群优化的新能源汽车销量预测模型参数优化方法
CN116629431A (zh) 一种基于变分模态分解和集成学习的光伏发电量预测方法及装置
CN114912741A (zh) 一种作战体系结构效能评估方法、装置以及存储介质
CN114004153A (zh) 一种基于多源数据融合的侵彻深度预测方法
CN113282747A (zh) 一种基于自动机器学习算法选择的文本分类方法
CN116452904B (zh) 图像美学质量确定方法
CN111832787B (zh) 教师风格预测模型的训练方法及计算机存储介质
CN115345303A (zh) 卷积神经网络权重调优方法、装置、存储介质和电子设备
CN113222234A (zh) 基于集成模态分解的用气需求预测方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination