CN113743662B - 一种基于机器学习的船舶关键技术参数预测方法及系统 - Google Patents
一种基于机器学习的船舶关键技术参数预测方法及系统 Download PDFInfo
- Publication number
- CN113743662B CN113743662B CN202111016948.2A CN202111016948A CN113743662B CN 113743662 B CN113743662 B CN 113743662B CN 202111016948 A CN202111016948 A CN 202111016948A CN 113743662 B CN113743662 B CN 113743662B
- Authority
- CN
- China
- Prior art keywords
- ship
- key technical
- prediction model
- technical parameter
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000010801 machine learning Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000012795 verification Methods 0.000 claims abstract description 18
- 238000013461 design Methods 0.000 claims description 61
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 12
- 238000010295 mobile communication Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000002759 z-score normalization Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 22
- 239000013589 supplement Substances 0.000 abstract description 3
- 238000005265 energy consumption Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013505 freshwater Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于机器学习的船舶关键技术参数预测方法,包括构建关键技术参数预测模型和船舶技术参数数据库;根据船舶技术参数数据库中的数据建立关键技术参数的特征样本集并从中获取关键技术参数预测模型的输入特征;利用输入特征和对应关键技术参数对关键技术参数预测模型进行训练测试,直至关键技术参数预测模型符合训练要求;将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测。本发明通过训练完成的关键技术参数预测模型有效解决船舶关键技术参数缺失的问题,过程简单、精度高,可以快速预测得到多种类型船舶关键技术参数,提高了船舶关键技术参数补充的精度和效率。
Description
技术领域
本发明涉及船舶和机器学习应用技术领域,特别是涉及一种基于机器学习的船舶关键技术参数预测方法及系统。
背景技术
船舶带来的大气污染问题是关注的热点,建立船舶排放清单进行排放特征分析是探查船舶排放情况的重要方式。建立内河船舶排放清单的过程中有几个非常关键的技术参数是估算内河船舶大气污染排放量的基础数据,如主机额定功率和设计最大航速。内河船舶的关键技术参数很难查询获得或者没有记录,缺失情况严重。缺失关键技术参数无法完成对内河船舶大气污染排放量的估算,所以需要补充内河船舶缺失的关键技术参数。目前常见的关键技术参数补充方法过程比较复杂,或者精度不够高。主机额定功率和设计最大航速的估算方法一般可分为三种:一种是基于船舶阻力模型的估算方法,第二种是根据相似船型、船舶尺度参数和载重吨或总吨等分级近似选取,第三种是根据船舶技术参数回归拟合得到数学关系式。
第一种方法是通过计算船舶阻力得到有效功率,再结合推进系数估算主机功率,如刘芳然等人在海区船舶废气排放评估方法研究中对主机功率的估算。基于船舶阻力模型的估算过程需要大量的经验参数和图形,计算过程也较为复杂,一旦参数选择不合适就可能会导致估算精度的严重下降。
第二种方法是根据船型、船长等参数分等级进行划分,计算各等级关键技术参数的平均值或中位数,再根据船型和船长等确定所在等级获得相应的关键技术参数估计值。这种方法是较为粗略的估算方法,方法过程简单但估算精度不高。
第三种方法是利用船长船宽、总吨和载重吨等技术参数与关键技术参数回归拟合得到数学关系式。周春辉等人基于大数据的内河船舶主机功率估算方法,拟合大量数据获得货船和油船两种船型船长和船宽乘积与主机额定功率的数学关系式。该回归拟合方式过程考虑的影响参数较少,拟合过程使用了大量的数据,估算精度不够高,并且只可估算两种船型的主机额定功率,缺少其他船型的拟合公式。
公开号为CN111369077A的中国发明专利申请于2020年7月3日亦公开了一种基于机器学习的在港船舶能耗预测方法,具体包括以下过程:收集船舶相关数据和港口相关数据,包括港口航道数据、泊位数据及船舶属性数据;船舶主机、辅机功率等相关参数的确定以及船舶类型、船舶吨级的构成和在港船舶能耗值的分布分析,确定每一艘船舶在锚地、港内航道和泊位中的能耗功率;构建预测模型,包括选择机器学习算法、模型验证方法和模型预测准确度评价指标;计算预测特征在船舶能耗预测中的重要性,改变工况,分别预测港口在不同装卸作业效率和不同船舶到港时间间隔下的在港船舶能耗值。虽然可准确地预测特定港口在未来的在港船舶能耗情况,为可再生能源在港口的应用提供决策支持,有利于实现港口的节能减排,但该技术仅适用于能耗的预测,并未能解决针对主机额定功率估算精度不够高且无法实现对最大航速估算的技术问题。
发明内容
本发明为了解决以上至少一种技术缺陷,提供一种基于机器学习的船舶关键技术参数预测方法及系统,完成对内河船舶关键技术参数的预测,有效解决内河船舶关键技术参数缺失的问题。
为解决上述技术问题,本发明的技术方案如下:
一种基于机器学习的船舶关键技术参数预测方法,包括以下步骤:
S1:基于机器学习算法构建关键技术参数预测模型;
S2:获取船舶的技术参数信息数据,构建船舶技术参数数据库;
S3:对船舶技术参数数据库中的数据进行预处理,建立关键技术参数的特征样本集;
S4:根据海军部系数法获取关键技术参数的影响因素,从特征样本集中获取关键技术参数预测模型的输入特征;
S5:将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
S6:使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
S7:将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
上述方案中,不需要经过船舶阻力模型复杂的计算过程和经验参数的选取过程,在使用时直接将所需要的特征输入关键技术参数预测模型中即可快速预测得到多种类型船舶的主机额定功率和设计最大航速等关键技术参数,使用方便快捷,预测精度高。
上述方案中,通过训练完成的关键技术参数预测模型有效解决船舶关键技术参数缺失的问题,过程简单、精度高,可以快速预测得到多种类型船舶关键技术参数,提高了船舶关键技术参数补充的精度和效率。
其中,在所述步骤S3中,对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
其中,在所述步骤S4中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速。
其中,在所述步骤S4中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性不符合要求的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征不能作为预测模型的输入特征,对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性,得到离散型特征为船舶类型和是否为海船。
其中,在所述步骤S5中,所述数据结构转换为采用独热编码将离散型特征的数据结构转换为连续型;所述归一化处理具体为将所述的连续型特征采用Z-score归一化方法进行归一化处理。
其中,在所述步骤S1中,关键技术参数预测模型主机额定功率采用XGBoost算法构建预测模型,设计最大航速采用GBRT算法构建预测模型,通过交叉验证训练和测试关键技术参数预测模型的预测精度,其评估指标具体为:
决定系数:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数,/>为特征数,/>是校正决定系数,用于抵消样本数量对/>的影响;
均方根误差RMSE:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数。
本发明提供一种基于机器学习的船舶关键技术参数预测系统,用于实现一种基于机器学习的船舶关键技术参数预测方法,包括预测模型构建模块、数据库构建模块、预处理模块、特征样本集建立模块、影响因素获取模块、输入特征获取模块、数据集划分模块、预测模型训练测试模块和验证模块;其中:
预测模型构建模块基于机器学习算法构建关键技术参数预测模型;
数据库构建模块用于获取船舶的技术参数信息数据,构建船舶技术参数数据库;
预处理模块用于对船舶技术参数数据库中的数据进行预处理;
特征样本集建立模块用于根据预处理后的数据建立关键技术参数的特征样本集;
影响因素获取模块用于根据海军部系数法获取关键技术参数的影响因素;
输入特征获取模块根据影响因素从特征样本集中获取关键技术参数预测模型的输入特征;
数据集划分模块用于将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
预测模型训练测试模块用于使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
验证模块用于将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
其中,在预处理模块中对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
其中,在影响因素获取模块中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速。
其中,在影响因素获取模块中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性不符合要求的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征不能作为预测模型的输入特征,对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性,得到离散型特征为船舶类型和是否为海船。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出了一种基于机器学习的船舶关键技术参数预测方法和系统,通过训练完成的关键技术参数预测模型有效解决船舶关键技术参数缺失的问题,过程简单、精度高,可以快速预测得到多种类型船舶关键技术参数,提高了船舶关键技术参数补充的精度和效率。
附图说明
图1为本发明所述方法流程示意图;
图2为本发明所述系统连接示意图;
图3为一实施例中主机额定功率预测值和真实值比较示意图;
图4为一实施例中设计最大航速预测值和真实值比较示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,基于两个关键技术参数提出一种基于机器学习的船舶关键技术参数预测方法,用于快速有效地预测得到多种类型船舶的关键技术参数,具体包括以下步骤:
一种基于机器学习的船舶关键技术参数预测方法,包括以下步骤:
S1:基于机器学习算法构建关键技术参数预测模型;
S2:获取船舶的技术参数信息数据,构建船舶技术参数数据库;
S3:对船舶技术参数数据库中的数据进行预处理,建立关键技术参数的特征样本集;
S4:根据海军部系数法获取关键技术参数的影响因素,从特征样本集中获取关键技术参数预测模型的输入特征;
S5:将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
S6:使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
S7:将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
在具体实施过程中,不需要经过船舶阻力模型复杂的计算过程和经验参数的选取过程,在使用时直接将所需要的特征输入关键技术参数预测模型中即可快速预测得到多种类型船舶的主机额定功率和设计最大航速等关键技术参数,使用方便快捷,预测精度高。
在具体实施过程中,通过训练完成的关键技术参数预测模型有效解决船舶关键技术参数缺失的问题,过程简单、精度高,可以快速预测得到多种类型船舶关键技术参数,提高了船舶关键技术参数补充的精度和效率。
更具体的,在所述步骤S2中,通过网站查询搜集船舶技术参数信息,构建的船舶技术参数数据库包含的数据字段的结构及含义如下表:
将数据分为离散型和连续型两种数据类型,关键技术参数为主机额定功率和设计最大航速两个连续型数据。
更具体的,在所述步骤S3中,对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
更具体的,在所述步骤S4中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度(),海水一般为1.025,淡水为1.0;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速。
在具体实施过程中,根据海军部系数法获取关键技术参数的影响因素,结合最大信息系数从样本集中选择相关性较高的连续型特征,统计分析离散型特征去除不相关或相关性低的特征,采用箱型图具体分析剩余离散型特征与关键技术参数的相关性,选择相关的离散型特征,得到预测模型的输入特征。
更具体的,在所述步骤S4中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性较低的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征对预测性能没有影响或者影响很小,不能作为预测模型的输入特征。对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性。按照用途划分的船舶类型分为干货船、液货船、客船、工作船和工程船,不同类型的船舶的主机额定功率和设计最大航速有较大的差别;是否为海船分为沿海船和内河船,沿海船和内河船的主机额定功率差别很大,设计最大航速也差别较大,得到关键技术参数预测模型输入的离散型特征为船舶类型和是否为海船。
在具体实施过程中,MIC的计算公式如下:
其中表示变量/>和/>的最大信息系数;数据点集/>,网格划分方式为数据点集/>分别根据/>和/>的值分割成/>个块,/>为/>轴被划分的格子数,/>为/>轴被划分的格子数;/>为限制条件, Reshef 等人建议/>,/>为样本数目;表示/>和/>的互信息。
得到连续型特征与关键技术参数的MIC值,见下表:
根据MIC值的大小选择相关性高的特征,得到主机额定功率预测模型输入的连续型特征为L、B、D、DWT、GT、NT、T;设计最大航速预测模型输入的连续型特征为L、B、D、DWT、GT、NT、T、MCR。
更具体的,在所述步骤S5中,所述数据结构转换为采用独热编码将离散型特征的数据结构转换为连续型,如船舶类型中每个类型转换为一个新的特征,这个新的特征中只包含0和1两种数字;所述归一化处理具体为将所述的连续型特征采用Z-score归一化方法进行归一化处理。
在具体实施过程中,Z-score归一化是通过给定原始数据的均值和标准差,对其进行归一化处理,使处理后的数据满足标准正态分布。归一化的计算公式为:
其中为原始数据的均值,/>为原始数据的标准差。
在本实施例中,使用10折交叉验证的方式将数据集随机平均划分为10份,其中9份作为训练集,1份作为测试集,通过10次训练和测试的平均结果确定预测精度。
更具体的,在所述步骤S1中,关键技术参数预测模型主机额定功率采用XGBoost算法构建预测模型,设计最大航速采用GBRT算法构建预测模型,通过10折交叉验证训练和测试关键技术参数预测模型的预测精度,其评估指标具体为:
决定系数:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数,/>为特征数,/>是校正决定系数,用于抵消样本数量对/>的影响;
均方根误差RMSE:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数。
在具体实施过程中,需要先确定机器学习算法的超参数值,主机额定功率预测模型调整参数过程具体为:先设置参数的初始值,如主机额定功率预测模型XGBoost算法的初始值设置如下:
n_estimators=100,learning_rate=0.1,max_depth=6,min_child_weight=1,subsample=1,colsample_bytree=1,gamma=0,reg_alpha=1,reg_lambda=1, random_state=0。
然后按照n_estimators、max_depth、min_child_weight、subsample、colsample_bytree、gamma、reg_alpha、reg_lambda的顺序依次进行参数调整。调整时首先设置参数值的范围,在范围中逐个迭代运行,计算和RMSE,最后选择使预测精度最高的参数取值。
关键技术参数预测模型算法的超参数设置和预测精度如下表:
主机额定功率预测模型的决定系数达到0.957,设计最大航速预测模型的决定系数为0.855,主机额定功率预测模型的预测效果较好。在实际应用中,交叉验证的折数、超参数的设置和评价指标可以根据数据集的改变可以进行调整。
实施例2
更具体的,在实施例1的基础上,如图2所示,本发明提供一种基于机器学习的船舶关键技术参数预测系统,用于实现一种基于机器学习的船舶关键技术参数预测方法,包括预测模型构建模块、数据库构建模块、预处理模块、特征样本集建立模块、影响因素获取模块、输入特征获取模块、数据集划分模块、预测模型训练测试模块和验证模块;其中:
预测模型构建模块基于机器学习算法构建关键技术参数预测模型;
数据库构建模块用于获取船舶的技术参数信息数据,构建船舶技术参数数据库;
预处理模块用于对船舶技术参数数据库中的数据进行预处理;
特征样本集建立模块用于根据预处理后的数据建立关键技术参数的特征样本集;
影响因素获取模块用于根据海军部系数法获取关键技术参数的影响因素;
输入特征获取模块根据影响因素从特征样本集中获取关键技术参数预测模型的输入特征;
数据集划分模块用于将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
预测模型训练测试模块用于使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
验证模块用于将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
更具体的,在预处理模块中对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
更具体的,在影响因素获取模块中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速。
更具体的,在影响因素获取模块中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性不符合要求的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征不能作为预测模型的输入特征,对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性,得到离散型特征为船舶类型和是否为海船。
通过本实例验证了预测模型在内河船舶上的预测效果。在实际应用中内河船舶的关键技术参数缺失最为严重且现有的方法估算精度不够高。
选择150艘船舶作为主机额定功率预测模型的验证集,50艘船舶作为设计最大航速预测模型的验证集。使用训练好的关键技术参数预测模型预测验证集内河船舶的关键技术参数,其预测结果和真实值的比较如图3和4所示。在验证集中,主机额定功率预测值和真实值之间的决定系数为0.975,设计最大航速预测值和真实值之间的决定系数为0.729。由此可见,船舶主机额定功率的预测结果和真实值十分接近,而对于设计最大航速的预测效果相对较差,可能原因是设计最大航速预测模型的样本太少。本方法在验证集上是可行的,可以用于船舶关键技术参数的预测。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于机器学习的船舶关键技术参数预测方法,其特征在于,包括以下步骤:
S1:基于机器学习算法构建关键技术参数预测模型;在所述步骤S1中,关键技术参数预测模型主机额定功率采用XGBoost算法构建预测模型,设计最大航速采用GBRT算法构建预测模型,通过交叉验证训练和测试关键技术参数预测模型的预测精度,其评估指标具体为:
决定系数:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数,/>为特征数,/>是校正决定系数,用于抵消样本数量对/>的影响;
均方根误差RMSE:
其中,为真实值,/>为预测值,/>为平均值,/>为样本数;
S2:获取船舶的技术参数信息数据,构建船舶技术参数数据库;
S3:对船舶技术参数数据库中的数据进行预处理,建立关键技术参数的特征样本集;
S4:根据海军部系数法获取关键技术参数的影响因素,从特征样本集中获取关键技术参数预测模型的输入特征;在所述步骤S4中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速;
在所述步骤S4中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性不符合要求的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征不能作为预测模型的输入特征,对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性,得到离散型特征为船舶类型和是否为海船;
S5:将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
S6:使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
S7:将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
2.根据权利要求1所述的一种基于机器学习的船舶关键技术参数预测方法,其特征在于,在所述步骤S3中,对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
3.根据权利要求2所述的一种基于机器学习的船舶关键技术参数预测方法,其特征在于,在所述步骤S5中,所述数据结构转换为采用独热编码将离散型特征的数据结构转换为连续型;所述归一化处理具体为将所述的连续型特征采用Z-score归一化方法进行归一化处理。
4.一种基于机器学习的船舶关键技术参数预测系统,应用权利要求1-3任一项所述的方法,其特征在于,包括预测模型构建模块、数据库构建模块、预处理模块、特征样本集建立模块、影响因素获取模块、输入特征获取模块、数据集划分模块、预测模型训练测试模块和验证模块;其中:
预测模型构建模块基于机器学习算法构建关键技术参数预测模型;
数据库构建模块用于获取船舶的技术参数信息数据,构建船舶技术参数数据库;
预处理模块用于对船舶技术参数数据库中的数据进行预处理;
特征样本集建立模块用于根据预处理后的数据建立关键技术参数的特征样本集;
影响因素获取模块用于根据海军部系数法获取关键技术参数的影响因素;在影响因素获取模块中,海军部系数法具体表示为:
其中,为海军常数;/>为设计最大航速,单位knot;/>为主机额定功率,单位/>;/>为船舶总长;/>为船舶型宽;/>为设计吃水;/>为方形系数;/>为水的质量密度;船舶在型线确定的情况下,根据实际航速和主机实际功率计算得到海军常数;由于不同类型船舶的型线不同,则海军系数和方形系数也不同,因此,推算得到设计最大航速的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和主机额定功率;主机额定功率的相关特征包括:船舶类型、船舶总长、船舶型宽、设计吃水和设计最大航速;
在影响因素获取模块中,根据海军部系数法公式推导只能得到特征样本集中的部分相关特征,还需要结合两种方法分别分析离散型特征和连续型特征与关键技术参数的相关性,选择出相关性符合要求的特征,具体为:
连续型特征通过最大信息系数,即MIC系数衡量连续型特征之间的相关性得到;MIC值的范围为[0,1],值越大表示相关性越高;根据计算得到的MIC值,去除相关性不符合要求的特征,选择出相关性符合要求的连续型特征;
离散型特征则需要先进行统计分析,只有唯一值的特征和特征中某个值所占比例超过90%的这些特征不能作为预测模型的输入特征,对于比例差距较大的特征,采用箱型图分析该特征与关键技术参数的相关性,得到离散型特征为船舶类型和是否为海船;
输入特征获取模块根据影响因素从特征样本集中获取关键技术参数预测模型的输入特征;
数据集划分模块用于将输入特征和对应关键技术参数进行数据结构转换和归一化处理,划分出训练集和测试集;
预测模型训练测试模块用于使用训练集对关键技术参数预测模型进行训练,测试集测试关键技术参数预测模型的预测效果,直至关键技术参数预测模型符合训练要求;
验证模块用于将待预测的船舶关键技术参数作为验证集输入训练好的关键技术参数预测模型中,完成船舶关键技术参数的预测;
其中,关键技术参数为主机额定功率和设计最大航速两个连续性数据。
5.根据权利要求4所述的一种基于机器学习的船舶关键技术参数预测系统,其特征在于,在预处理模块中对数据进行预处理包括对缺失值、异常值和重复值进行处理;其中:
缺失值处理为直接删除有缺失的数据;
异常值处理为删除船舶型宽大于船舶总长、设计吃水大于船舶型深的不符合船舶设计原则的数据;
重复值处理则先筛选出船检登记号和海事移动通信业务标识码相同的数据,然后直接删除;
其中,船舶型宽、船舶总长、设计吃水、船舶型深、船检登记号和海事移动通信业务标识码均存储于船舶技术参数数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016948.2A CN113743662B (zh) | 2021-08-31 | 2021-08-31 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016948.2A CN113743662B (zh) | 2021-08-31 | 2021-08-31 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743662A CN113743662A (zh) | 2021-12-03 |
CN113743662B true CN113743662B (zh) | 2024-04-16 |
Family
ID=78734506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016948.2A Active CN113743662B (zh) | 2021-08-31 | 2021-08-31 | 一种基于机器学习的船舶关键技术参数预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743662B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113968315B (zh) * | 2021-12-14 | 2022-10-21 | 中国地质大学(武汉) | 一种基于机器学习的集装箱船纵倾优化方法 |
CN117634317A (zh) * | 2023-12-26 | 2024-03-01 | 华中科技大学 | 基于最佳纵倾的龙舟运动员智能排位方法、装置及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447248A (zh) * | 2015-11-24 | 2016-03-30 | 中国环境科学研究院 | 基于金属定量构效关系的海水急性基准预测方法 |
CN107358048A (zh) * | 2017-07-14 | 2017-11-17 | 广东省环境科学研究院 | 一种基于ais数据的高精度船舶污染物排放量计算方法 |
CN108960421A (zh) * | 2018-06-05 | 2018-12-07 | 哈尔滨工程大学 | 改进基于bp神经网络的水面无人艇航速在线预报方法 |
CN110503270A (zh) * | 2019-08-30 | 2019-11-26 | 哈尔滨工程大学 | 一种船舶能耗与排放预评估系统 |
CN111597195A (zh) * | 2020-05-07 | 2020-08-28 | 交通运输部水运科学研究所 | 一种船舶大气污染排放清单缺失信息处理方法及装置 |
CN111612260A (zh) * | 2020-05-27 | 2020-09-01 | 华东师范大学 | 基于集成学习模型的轨道交通车载数据预测方法 |
CN113240201A (zh) * | 2021-06-08 | 2021-08-10 | 兰州大学 | 一种基于gmm-dnn混合模型预测船舶主机功率方法 |
CN113297293A (zh) * | 2021-05-21 | 2021-08-24 | 南京大学 | 一种基于约束优化进化算法的自动化特征工程方法 |
-
2021
- 2021-08-31 CN CN202111016948.2A patent/CN113743662B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447248A (zh) * | 2015-11-24 | 2016-03-30 | 中国环境科学研究院 | 基于金属定量构效关系的海水急性基准预测方法 |
CN107358048A (zh) * | 2017-07-14 | 2017-11-17 | 广东省环境科学研究院 | 一种基于ais数据的高精度船舶污染物排放量计算方法 |
CN108960421A (zh) * | 2018-06-05 | 2018-12-07 | 哈尔滨工程大学 | 改进基于bp神经网络的水面无人艇航速在线预报方法 |
CN110503270A (zh) * | 2019-08-30 | 2019-11-26 | 哈尔滨工程大学 | 一种船舶能耗与排放预评估系统 |
CN111597195A (zh) * | 2020-05-07 | 2020-08-28 | 交通运输部水运科学研究所 | 一种船舶大气污染排放清单缺失信息处理方法及装置 |
CN111612260A (zh) * | 2020-05-27 | 2020-09-01 | 华东师范大学 | 基于集成学习模型的轨道交通车载数据预测方法 |
CN113297293A (zh) * | 2021-05-21 | 2021-08-24 | 南京大学 | 一种基于约束优化进化算法的自动化特征工程方法 |
CN113240201A (zh) * | 2021-06-08 | 2021-08-10 | 兰州大学 | 一种基于gmm-dnn混合模型预测船舶主机功率方法 |
Non-Patent Citations (3)
Title |
---|
基于LS-SVM的TBM掘进参数预测模型;张哲铭等;河海大学学报(自然科学版)(第4期);第373-379页 * |
基于神经网络的拖网渔船主机功率估算技术研究;黄温赟等;中国渔业质量与标准(第4期);第65-69页 * |
玻璃钢渔船参数化分舱设计及软件开发研究;宫明慧;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑(第9期);第25-26页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113743662A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113743662B (zh) | 一种基于机器学习的船舶关键技术参数预测方法及系统 | |
Soner et al. | Statistical modelling of ship operational performance monitoring problem | |
CN111369077A (zh) | 一种基于机器学习的在港船舶能耗预测方法 | |
EP3795464A1 (en) | Actual-sea-area propulsion performance evaluation method, actual-sea-area propulsion performance evaluation program, and actual-sea-area propulsion performance evaluation system for ships | |
CN115878603A (zh) | 基于k近邻算法与gan网络的水质缺失数据插补算法 | |
CN113283155A (zh) | 一种近地表气温估算方法、系统、存储介质及设备 | |
CN112434948A (zh) | 一种海上打捞作业海气环境风险评估系统 | |
CN112650110A (zh) | 一种船舶污染物排放综合智能监控系统与监控方法 | |
Zeng et al. | A novel big data collection system for ship energy efficiency monitoring and analysis based on BeiDou system | |
Taghavi et al. | Multiple Model Adaptive Estimation Coupled With Nonlinear Function Approximation and Gaussian Mixture Models for Predicting Fuel Consumption in Marine Engines | |
CN116611552B (zh) | 一种基于目标监测数据的船舶交通流量预测方法及系统 | |
CN114239426A (zh) | 基于水流资料同化的长江干线船舶排放清单生成方法 | |
Ünlügençoğlu et al. | Estimation of shipping emissions via novel developed data collecting and calculation software: a case study for the Region of Ambarli Port | |
CN113205123A (zh) | 一种区域船舶大气污染物排放清单计算方法 | |
Li et al. | Ship traffic flow prediction based on AIS data mining | |
CN113887119A (zh) | 一种基于sarima-lstm的河流水质预测方法 | |
KR102500944B1 (ko) | 해양 수질 데이터의 변동성을 이용한 기후변화 취약해역 평가 방법 | |
JP6846896B2 (ja) | 船舶の推進性能の解析 | |
Filippopoulos et al. | Multi-sensor data fusion for the vessel trim analyzer and optimization platform | |
Chen et al. | Short-term forecasting for ship fuel consumption based on deep learning | |
Zhang et al. | Autoencoder and Deep Neural Network based Energy Consumption Analysis of Marine Diesel Engine | |
CN114755387B (zh) | 基于假设检验法的水体监测点位优化方法 | |
CN115456451B (zh) | 一种基于ais的船舶油耗估算方法及系统 | |
CN114781762B (zh) | 一种基于寿命消耗的装备故障预测方法 | |
CN116108726B (zh) | 一种海洋固定式平台检验方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |