CN115577873A - 一种基于选择性集成学习的海上事故类型预测方法 - Google Patents

一种基于选择性集成学习的海上事故类型预测方法 Download PDF

Info

Publication number
CN115577873A
CN115577873A CN202211169984.7A CN202211169984A CN115577873A CN 115577873 A CN115577873 A CN 115577873A CN 202211169984 A CN202211169984 A CN 202211169984A CN 115577873 A CN115577873 A CN 115577873A
Authority
CN
China
Prior art keywords
individual
model
learner
learners
marine accident
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211169984.7A
Other languages
English (en)
Inventor
马晓雪
兰赫
乔卫亮
马来好
邓婉怡
沈俊
刘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202211169984.7A priority Critical patent/CN115577873A/zh
Publication of CN115577873A publication Critical patent/CN115577873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于选择性集成学习的海上事故类型预测方法,针对海上事故数据时效性强、涉及风险因素较多等特点,考虑到海上事故类型预测模型所需的准确性和普适性,采用选择性集成学习技术,提出了一个两阶段模型选择方法,该方法同时考虑模型准确性与多样性,通过选择一组性能优异的个体学习器构建海上事故类型预测模型,提高了模型的泛化能力和预测精度,实现海上事故类型的快速可靠预测,提升海上事故预防的针对性。

Description

一种基于选择性集成学习的海上事故类型预测方法
技术领域
本发明涉及海上事故类型预测领域,具体涉及一种基于选择性集成学习的海上事故类型预测方法。
背景技术
随着经济全球化的快速发展,航运在国际贸易中发挥着重要作用,海上安全一直是国际航运业关注的问题。然而,海上运输受到复杂的不确定的风险因素影响,极易导致海上事故的发生,造成严重的经济损失、人员伤亡和海洋污染。为了预防海上事故的发生,有必要对海上事故类型进行准确可靠的预测。海上事故类型预测根据历史事故数据推测未来可能发生的海上事故类型,有助于完善海上事故预警机制,主动预防海上事故的发生,对于提高海上交通运输的安全水平具有重要意义。
机器学习技术为解决多变量、非线性和复杂问题提供了一种有效的方法,并广泛应用于风险预测的多个领域。
目前,单一的机器学习方法虽然能够分析海上事故中涉及的多因素耦合问题,但是由于海事大数据时效性强,所涉及的风险因素具有动态不确定性的特点,单一的机器学习方法无法适应快速变化的海事新数据且模型鲁棒性较差。
发明内容
本发明提出了一种基于选择性集成学习的海上事故类型预测方法,以填补在海上事故预测中选择性集成学习技术的缺失,进一步提高海上事故类型预测模型的精度和泛化能力。
为此,本发明提供了以下技术方案:
本发明提供了一种基于选择性集成学习的海上事故类型预测方法,包括以下步骤:
梳理海上事故调查报告,建立海上事故数据集;
对海上事故数据集进行数据预处理,并将数据集随机划分为训练集和测试集;
确定个体学习器算法,在训练集上优化超参数,建立多个个体学习器,并形成个体学习器集;
采用两阶段模型选择方法选择使得集成模型的预测性能达到最优的前预设个体学习器进行集成学习;所述两阶段模型选择方法包括:模型准确性选择阶段和模型多样性选择阶段;
对集成学习的前预设个个体学习器采用stacking组合策略构建海上事故类型预测模型,在训练集上训练集成模型,在测试集上评估模型性能;
利用训练好的集成模型对海上事故类型进行预测。
进一步地,所述模型准确性选择阶段,包括:
从所述个体学习器集中移除在测试集上预测准确率低于预设值的个体学习器;
所述模型多样性选择阶段,包括:
从所述个体学习器集的剩余个体学习器中选择第一个体学习器,所述第一个体学习器为具有最佳预测性能的个体学习器;并将所述第一个体学习器添加到集成模型的个体学习器子集;所述最佳预测性能的个体学习器为多项评价指标之和最高的个体学习器;
从所述个体学习器集的剩余个体学习器中选择第二个体学习器,所述第二个体学习器为与所述第一个体学习器差异最大的个体学习器,将所述第二个体学习器添加到个体学习器子集,并计算基于所述个体学习器子集所构建的集成学习模型的预测性能;
从所述个体学习器集的剩余个体学习器中选择第三个体学习器,所述第三个体学习器为与所述第一个体学习器和所述第二个体学习器基于bagging组合策略构建的集成模型差异最大的个体学习器,将所述第三个体学习器添加到个体学习器子集,并计算基于所述个体学习器子集所构建的集成学习模型的预测性能;所述模型差异为不同模型在同一测试集上得到的分类结果的差异度;
重复所述模型多样性选择阶段的步骤,直到所述个体学习器集在所述个体学习器子集中重新排列成新序列。
进一步地,海上事故数据集包括事故类型、事故时间、船舶属性以及事故风险因素。
进一步地,对海上事故数据集进行数据预处理,包括:
将连续性变量转化为类别变量;
删除频率小于5%的变量。
进一步地,超参数优化使用30次迭代和10折交叉验证进行随机搜索,以确定具有最佳模型准确度的超参数集。
进一步地,所述评价指标包括:准确率、精准率、召回率和F1-score。
进一步地,集成模型的差异利用Q统计和双次失败度量两个多样性度量方法确定。
进一步地,两个不同的学习器Li和Lj的Q统计计算公式如下:
Figure BDA0003859835390000031
两个不同的学习器Li和Lj的双次失败度量计算公式如下:
Figure BDA0003859835390000032
其中,N11是Li和Lj正确分类的样本数,N00是两个学习器Li和Lj错误分类的样本数;N10代表Li分类正确但是Lj分类错误的样本数;N01代表Lj分类正确但是Li分类错误的样本数;N代表样本总数。
本发明的有益效果是:
(1)、本发明采用集成学习技术,与传统的单一机器学习技术相比,可以减少陷入局部最优解和误分类的风险,从而提高预测模型的准确性和泛化能力。
(2)、本发明提出一个两阶段模型选择方法,引入选择性集成学习技术,删除冗余的个体学习器,为快速、准确、可靠地预测海上事故类型提供了新途径。
(3)、本发明利用选择性集成学习技术挖掘海上事故数据,可以快速预测出可能发生的海上事故类型,有助于主动预防海上事故的发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于选择性集成学习的海上事故类型预测方法的流程图;
图2为本发明实施例中海上事故历史数据集的柱状图;
图3为本发明实施例中个体学习器数量对集成模型预测性能的影响示意图;
图4为本发明实施例中模型性能的结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
集成学习是机器学习中最重要的研究方向之一,Bagging,Boosting和Stacking是三种经典的集成学习方法,通过组合多个个体学习器,可以提高模型预测表现和泛化性能,减少单一机器学习模型造成的计算误差。虽然集成学习模型在进行风险预测方面具有优势,但随着个体学习器数量的增加,集成模型的预测速度显著降低、存储空间增大。由此,选择性集成学习方法应运而生。选择性集成学习通过移除表现不佳的个体学习器,并且只选择一组差异化大、准确度高的个体学习器来构建集成模型,以期获得更好的预测性能并提高模型的泛化能力。选择性集成学习作为一种性能优异、前景广阔的新型机器学习技术,在海上事故预测领域尚未得到研究。基于此,本发明提供了一种基于选择性集成学习的海上事故类型预测方法,以适应快速变化的海事新数据,并提高模型的泛化能力。
如图1所示,本发明提供的一种基于选择性集成学习的海上事故类型预测方法包括以下步骤:
S1、梳理海上事故调查报告,建立海上事故数据集。
其中,海上事故数据集包括事故类型,事故时间,船舶属性以及事故风险因素。
本实施例使用的海上事故数据集是由8家海事调查机构官方网站上发布的海事调查报告汇编而成,包括2011年至2020年发生的492起海上事故,如图2所示。该数据集包含五种最常见的海上事故类型,即碰撞、搁浅/搁浅、接触、沉没和火灾/爆炸。原始数据中共包含78个变量,涉及事故类型,事故时间,船舶类型,以及不安全行为等,海上事故原始数据集中部分变量如表1所示。
表1
Figure BDA0003859835390000051
Figure BDA0003859835390000061
S2、对海上事故数据集进行数据预处理,并将数据集随机划分为训练集和测试集。
本实施例对海上事故数据集进行数据预处理,将时间、总吨、船长和船龄等连续变量转变为类别变量。然后,本实施例删除数据集中频率小于5%的变量,海上事故数据的变量减少到39个。按照将数据集随机划分为训练集(80%)和测试集(20%)。
S3、确定个体学习器算法,在训练集上优化超参数以开发具有良好预测性能的多个个体学习器,并形成个体学习器集L。
其中,确定个体学习器算法要考虑到算法的预测性能以及算法之间的差异性,选择异构的个体学习器算法。
本实施例确定了7种异构的机器学习算法,分别是多项式逻辑回归(MLR)、前馈神经网络(FNN)、支持向量机(SVM)、K近邻(KNN)、分类和回归树(CART)、随机森林(RF)和极端梯度增强算法(XGBoost)。本实施例使用随机搜索方法,通过10折交叉验证和30次迭代进行超参数优化。其过程如下:将训练数据分成10个子集,依次选择每个子集作为验证集,将其余9个子集合并为训练集,得到10个训练集和验证集。在此基础上,超参数优化使用30次迭代构建了10个具有不同超参数组合的模型,并计算了这10个模型的平均准确率作为模型优化准则。搜索平均准确率最高的超参数集作为最优超参数,构建具有良好预测性能的个体学习器。
最终,个体学习器集L={MLR,FNN,SVM,KNN,CART,RF,XGBoost}。
S4、从L中移除在测试集上预测准确率低于75%的个体学习器。
本实施例分别计算个体学习器集L中7个个体学习器在测试集上的准确率,其中,FNN(70.71%)和XGBoost(74.75%)的准确率低于75%,从L中移除,以避免表现不佳的个体学习器带来的消极影响,此时,L={MLR,SVM,KNN,CART,RF}。
S5、从L的剩余个体学习器中选择第一个体学习器,并将其添加到集成模型的个体学习器子集Ei中作为初始个体学习器E1
其中,第一个体学习器是具有最佳预测性能的个体学习器。选择具有最佳预测性能的个体学习器,需要使用准确率(accuracy)、精准率(precision)、召回率(recall)和F1-score四个评价指标。最佳预测性能的个体学习器为多项评价指标之和最高的个体学习器。
为了理解所用指标的基本含义,表2提供了一个三分类的混淆矩阵的示例。矩阵中的列和行分别表示预测类别和观测类别。例如,N11表示实际为类别1,预测结果也是类别1的数据的数量,N12表示实际为类别1,预测结果是类别2的数据的数量,N13表示实际为类别1,预测结果是类别3的数据的数量,N21表示实际为类别2,预测结果是类别1的数据的数量;N22表示实际为类别2,预测结果是类别2的数据的数量;N23表示实际为类别2,预测结果是类别3的数据的数量;N31表示实际为类别3,预测结果是类别1的数据的数量;N32表示实际为类别3,预测结果是类别2的数据的数量;N33表示实际为类别3,预测结果是类别3的数据的数量。
表2
Figure BDA0003859835390000081
准确率(accuracy)指的是正确预测的观测值与总观测值(TN)的比率,计算公式如下:
Figure BDA0003859835390000082
精准率(precision)指的是特定类别中正确预测的观测值与该类别中所有预测值的比率,计算公式如下:
Figure BDA0003859835390000083
Figure BDA0003859835390000084
召回率(recall)指的是特定类别下正确预测的观测值与该类别中所有实际观测值的比率,计算公式如下:
Figure BDA0003859835390000085
Figure BDA0003859835390000086
F1-score值是根据精确率和召回率计算的指标,用于表示模型的泛化能力,其计算公式如下:
Figure BDA0003859835390000087
本实施例使用准确率(accuracy)、精准率(precision)、召回率(recall)和F1-score四个评价指标对L中剩余5个个体学习器进行性能评估,结果见表3。从表3中可以看出,RF具有最高的预测准确率,但与SVM相比,RF在F1-score方面表现不佳。综合考虑四个评价指标的结果,本实施例选择在测试集上准确率为83.84%、F1-score为76.14%的SVM模型作为初始个体学习器E1。此时,L={MLR,KNN,CART,RF},Ei={SVM}。
表3
Figure BDA0003859835390000091
S6、从L的剩余个体学习器中选择第二个体学习器,第二个体学习器为与E1差异最大的个体学习器E2,加入Ei,并计算此时基于Ei中的个体学习器所构建的集成学习模型的预测性能。
本实施例分别计算L中剩余4个个体学习器与SVM模型之间的成对差异性,利用Q统计和双次失败度量(DF)确定CART模型和SVM模型之间存在最大程度的差异。因此,将CART添加到Ei记录为E2。此时,L={MLR,KNN,RF},Ei={SVM,CART}。
S7、从L的剩余个体学习器中选择第三个体学习器,第三个体学习器为与E1和E2基于bagging组合策略构建的集成模型差异最大的个体学习器E3,加入Ei,并计算此时基于Ei中的个体学习器所构建的集成学习模型的预测性能。
本实施例将CART和SVM进行bagging集成,然后计算L中剩余3个个体学习器与此集成模型之间的Q统计值和DF值,结果显示,KNN与此集成模型存在最大程度的差异。因此,将KNN添加到Ei记录为E3。此时,L={MLR,RF},Ei={SVM,CART,KNN}。
假设有L个学习器,Li和Lj(i,j=1,2,...,L,i≠j)。对于两个不同的学习器,N11(N00)是两个学习器Li和Lj正确(错误)分类的样本数,N10(N01)代表Li(Lj)分类正确但是Lj(Li)分类错误的样本数,如表4所示。
表4
Figure BDA0003859835390000092
Figure BDA0003859835390000101
两个学习器Li和Lj的Q统计计算公式如下:
Figure BDA0003859835390000102
两个学习器Li和Lj的双次失败度量(DF)计算公式如下:
Figure BDA0003859835390000103
S8、重复该过程直到L在Ei中重新排列成新序列。
本实施例重复上述过程,直到L在Ei中重新排列成新序列。在该过程中,个体学习器之间的Q统计值和DF值可见表5。最终,Ei={SVM,CART,KNN,RF,MLR}。
表5
Figure BDA0003859835390000104
上述步骤S4-S8为模型选择过程,模型选择主要包括两个阶段:模型准确性(S4)和模型多样性(S5-S8)。
S9、选择可以使得集成模型的预测性能达到最优的前预设个个体学习器进行集成学习,采用stacking组合策略构建海上事故类型预测模型,在训练集上训练集成模型,在测试集上评估模型性能。
本实施例中,按照个体学习器在Ei={SVM,CART,KNN,RF,MLR}中的顺序,分别计算个体学习器数量对集成模型的影响,结果如图3所示。当选择前2个个体学习器(SVM和CART)进行组合时,基于stacking的集成模型的准确率为88.89%,F1-score为82.35%。与最优个体学习器SVM相比,选择性集成模型的准确率提高了5.05%,F1-score提高了6.21%,表明组合多个个体学习器可以提高模型的预测性能。然而,当对5个个体学习器进行组合时,该模型的预测性能并不令人满意,准确率为83.84%,F1-score为73.61%,这揭示了个体学习器过多导致的过度拟合问题,一些个体学习器的性能较差影响了集成模型的可靠性。
因此,在工程应用中,前2个个体学习器的集成将得到更准确和可靠的海上事故类型的预测结果,这表明本发明所提出的方法不仅消除了大量冗余个体学习器,从而显著减少了集成规模,还进一步提升了海上事故类型预测的表现。
为了更好地评估本发明所提方法在测试集上的预测表现,表6提供了该选择性集成学习模型的混淆矩阵结果。从表6中可以看出,没有错误分类的碰撞事故记录,这意味着该模型可以有效预测碰撞事故。这一结果也反映在图4中,碰撞事故的预测精确率达到100%,其次是自沉事故(85.71%)和搁浅事故(81.25%)。然而,火灾事故的预测精确率相对较差,为63.64%,而火灾事故的召回率达到100%,表明所有火灾事故都得到了成功预测。值得注意的是,研究中使用的数据是手动整理的,在这个过程中可能存在主观问题,这可能会导致错误分类。
表6
Figure BDA0003859835390000111
上述实施例的有益效果是:
(1)、本发明实施例中采用集成学习技术,与传统的单一机器学习技术相比,可以减少陷入局部最优解和误分类的风险,从而提高预测模型的准确性和泛化能力。
(2)、本发明实施例中提出一个两阶段模型选择方法,引入选择性集成学习技术,删除冗余的个体学习器,为快速、准确、可靠地预测海上事故类型提供了新途径。
(3)、本发明实施例中利用选择性集成学习技术挖掘海上事故数据,可以快速预测出可能发生的海上事故类型,有助于主动预防海上事故的发生。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于选择性集成学习的海上事故类型预测方法,其特征在于,包括以下步骤:
梳理海上事故调查报告,建立海上事故数据集;
对海上事故数据集进行数据预处理,并将数据集随机划分为训练集和测试集;
确定个体学习器算法,在训练集上优化超参数,建立多个个体学习器,并形成个体学习器集;
采用两阶段模型选择方法选择使得集成模型的预测性能达到最优的前预设个体学习器进行集成学习;所述两阶段模型选择方法包括:模型准确性选择阶段和模型多样性选择阶段;
对集成学习的前预设个个体学习器采用stacking组合策略构建海上事故类型预测模型,在训练集上训练集成模型,在测试集上评估模型性能;
利用训练好的集成模型对海上事故类型进行预测。
2.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,所述模型准确性选择阶段,包括:
从所述个体学习器集中移除在测试集上预测准确率低于预设值的个体学习器;
所述模型多样性选择阶段,包括:
从所述个体学习器集的剩余个体学习器中选择第一个体学习器,所述第一个体学习器为具有最佳预测性能的个体学习器;并将所述第一个体学习器添加到集成模型的个体学习器子集;所述最佳预测性能的个体学习器为多项评价指标之和最高的个体学习器;
从所述个体学习器集的剩余个体学习器中选择第二个体学习器,所述第二个体学习器为与所述第一个体学习器差异最大的个体学习器,将所述第二个体学习器添加到个体学习器子集,并计算基于所述个体学习器子集所构建的集成学习模型的预测性能;
从所述个体学习器集的剩余个体学习器中选择第三个体学习器,所述第三个体学习器为与所述第一个体学习器和所述第二个体学习器基于bagging组合策略构建的集成模型差异最大的个体学习器,将所述第三个体学习器添加到个体学习器子集,并计算基于所述个体学习器子集所构建的集成学习模型的预测性能;所述模型差异为不同模型在同一测试集上得到的分类结果的差异度;
重复所述模型多样性选择阶段的步骤,直到所述个体学习器集在所述个体学习器子集中重新排列成新序列。
3.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,海上事故数据集包括事故类型、事故时间、船舶属性以及事故风险因素。
4.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,对海上事故数据集进行数据预处理,包括:
将连续性变量转化为类别变量;
删除频率小于5%的变量。
5.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,超参数优化使用30次迭代和10折交叉验证进行随机搜索,以确定具有最佳模型准确度的超参数集。
6.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,所述评价指标包括:准确率、精准率、召回率和F1-score。
7.根据权利要求1所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,集成模型的差异利用Q统计和双次失败度量两个多样性度量方法确定。
8.根据权利要求7所述的一种基于选择性集成学习的海上事故类型预测方法,其特征在于,两个不同的学习器Li和Lj的Q统计计算公式如下:
Figure FDA0003859835380000021
两个不同的学习器Li和Lj的双次失败度量计算公式如下:
Figure FDA0003859835380000031
其中,N11是Li和Lj正确分类的样本数,N00是两个学习器Li和Lj错误分类的样本数;N10代表Li分类正确但是Lj分类错误的样本数;N01代表Lj分类正确但是Li分类错误的样本数;N代表样本总数。
CN202211169984.7A 2022-09-22 2022-09-22 一种基于选择性集成学习的海上事故类型预测方法 Pending CN115577873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211169984.7A CN115577873A (zh) 2022-09-22 2022-09-22 一种基于选择性集成学习的海上事故类型预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211169984.7A CN115577873A (zh) 2022-09-22 2022-09-22 一种基于选择性集成学习的海上事故类型预测方法

Publications (1)

Publication Number Publication Date
CN115577873A true CN115577873A (zh) 2023-01-06

Family

ID=84581774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211169984.7A Pending CN115577873A (zh) 2022-09-22 2022-09-22 一种基于选择性集成学习的海上事故类型预测方法

Country Status (1)

Country Link
CN (1) CN115577873A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307273A (zh) * 2023-05-17 2023-06-23 华中科技大学 一种基于XGBoost算法的船舶运动实时预报方法及系统

Similar Documents

Publication Publication Date Title
CN111444247B (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
CN113098723A (zh) 一种故障根因定位方法、装置、存储介质及设备
CN111506637B (zh) 一种基于kpi指标的多维异常检测方法、装置及存储介质
CN111160329A (zh) 一种根因分析的方法及装置
CN115577873A (zh) 一种基于选择性集成学习的海上事故类型预测方法
Brandsæter et al. An application of sensor-based anomaly detection in the maritime industry
Albora et al. Machine learning to assess relatedness: the advantage of using firm-level data
US11373285B2 (en) Image generation device, image generation method, and image generation program
CN111400964B (zh) 一种故障发生时间预测方法及装置
CN112380763A (zh) 一种基于数据挖掘的堆内构件可靠性分析系统及方法
CN111934903B (zh) 一种基于时序演化基因的Docker容器故障智能预测方法
Khoshgoftaar et al. Assessment of a new three-group software quality classification technique: An empirical case study
CN115729761B (zh) 一种硬盘故障预测方法、系统、设备及介质
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN116777281A (zh) 一种基于arima模型的电力设备质量趋势预测方法及装置
US9589212B2 (en) Methods and systems for recording and recalling events
Gao et al. The use of ensemble-based data preprocessing techniques for software defect prediction
US20230214668A1 (en) Hyperparameter adjustment device, non-transitory recording medium in which hyperparameter adjustment program is recorded, and hyperparameter adjustment program
Sheraz et al. Extreme value analysis and risk assessment: a case of Pakistan stock market
Rueda et al. SVM sensitivity analysis: an application to currency crises aftermaths
Majid et al. A systematic literature review of failure prediction in production environment using machine learning technique
Awadalla et al. Classification of faults in nuclear power plant
Ebrahimi et al. Parametric OSV Design Studies–precision and quality assurance via updated statistics
Wang et al. Analysis of the K12 education of United States using machine learning and data mining techniques
Boyko et al. Methodology for Estimating the Cost of Construction Equipment Based on the Analysis of Important Characteristics Using Machine Learning Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination