CN114882293A - 基于ais数据特征优选的随机森林船舶目标分类方法 - Google Patents
基于ais数据特征优选的随机森林船舶目标分类方法 Download PDFInfo
- Publication number
- CN114882293A CN114882293A CN202210615198.9A CN202210615198A CN114882293A CN 114882293 A CN114882293 A CN 114882293A CN 202210615198 A CN202210615198 A CN 202210615198A CN 114882293 A CN114882293 A CN 114882293A
- Authority
- CN
- China
- Prior art keywords
- random forest
- ship
- speed
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000005457 optimization Methods 0.000 title claims abstract description 13
- 230000001133 acceleration Effects 0.000 claims abstract description 43
- 230000033001 locomotion Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 26
- 238000003066 decision tree Methods 0.000 claims description 24
- 239000012535 impurity Substances 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于船舶轨迹分类方法领域,具体涉及一种基于AIS数据特征优选的随机森林船舶目标分类方法。该方法以AIS数据作为数据源,首先对AIS数据进行预处理,并根据船舶运动特点从预处理后的轨迹段中提取与速度、加速度、航向以及距离相关的18维特征;然后在随机森林模型的框架下,采用平均不纯度减少的方法评估特征的重要性,根据船舶的总体分类精度对特征进行组合;最后,采用优选的特征组合及随机森林算法对船舶目标进行分类识别。该方法可以高效利用AIS数据蕴含的丰富信息、降低模型的复杂度并且能够较好地区分不同类型的船舶,分类效率优于基于原始特征的随机森林,能够满足船舶目标准确高效的分类识别需求。
Description
技术领域
本发明属于船舶轨迹分类方法领域,具体涉及一种基于AIS数据特征优选的随机森林船舶目标分类方法。
背景技术
随着移动互联网、卫星定位等技术的快速更新的广泛普及,全球的海运事业蓬勃发展,船舶轨迹数据也与日俱增。AIS作为一种应用于船和船、船和岸之间的新型开放式船舶数据传输系统,是船舶轨迹数据的重要来源。在海量AIS数据的基础上,对船舶目标进行分类识别不仅能够研究各类型船舶的运动特征及规律,为识别异常船舶奠定基础,保证海上交通安全,还可以挖掘船舶间的内在联系,为航运分析、船舶调度提供决策支持,有效促进海上智能交通发展,具有重要的应用价值。但是,海上水域宽阔,船舶轨迹复杂多变,加大了船舶目标分类识别的难度,因此选取合适的特征并构建有效的分类模型是该领域的主要挑战之一。
在众多基于轨迹数据的模式识别研究中,人工智能领域的机器学习算法受到越来越多的学者青睐,这为船舶目标的分类识别提供了新思路。传统方法主要通过构造复杂且高维的船舶运动特征,借助随机森林、逻辑回归模型、BP神经网络和XGBoost模型等机器学习算法对船舶目标进行分类识别。分类精度由数据来源、特征选取、分类模型以及分类对象等多方面因素共同决定。立足于数据驱动的船舶目标分类任务,当从AIS数据提取丰富的船舶运动特征时,可选择丰富多样的多个特征,但是,不同特征之间存在相关性,如若选择特征个数极易造成特征冗余,必定造成分类精度降低,而且,通常情况下,过多的特征容易导致分类精度不增反降。
发明内容
本发明的目的在于提供一种基于AIS数据特征优选的随机森林船舶目标分类方法,用以解决现有技术中直接利用丰富的多维度空间特征进行分类造成分类精度和效率均不高的问题。
为解决上述技术问题,本发明提供了一种基于AIS数据特征优选的随机森林船舶目标分类方法,包括如下步骤:
1)获取AIS数据集,并从中提取AIS数据集的多个船舶运动特征;
2)利用多个特征构建CART树随机森林模型,训练多个特征构建CART树随机森林模型过程中,利用平均不纯度减少法评估多个特征中每个特征的重要性,从中优选得到最佳特征;其中,特征的重要性为:
式中,VIMB表示特征B的重要性;Ginii(D)表示第i棵决策树划分前数据集D的基尼指数;Ginii(D,B)表示第i棵决策树在特征B下划分后数据集D的基尼指数;K表示构建的CART随机森林模型中决策树的数量;M表示样本类别数量;pm表示数据集D中随机选取的样本属于类别m的比例;1-pm表示样本被错分的比例;数据集D根据特征B是否取某一可能值b被分割成D1和D2两部分,|D|、|D1|和|D2|分别代表数据集D、D1和D2的样本数;
3)利用最佳特征构建CART树随机森林模型,并利用所述最佳特征构建的CART树随机森林模型进行船舶目标分类。
其有益效果为:本发明首先提取AIS数据集中丰富的船舶运动特征,在随机森林模型的框架下,采用平均不纯度减少的方法评估特征的重要性,根据船舶的总体分类精度对特征进行组合并优选出最佳特征,从而降低了特征的个数,进而利用优选的最佳特征构建CART树随机森林模型,以对船舶目标进行分类。优选的最佳特征避免了特征信息冗余的情况出现,利用其构建的CART树随机森林模型可以降低最终分类模型的复杂度,减少了模型训练以及分类时间,且在去除冗余信息的情况下高效利用AIS数据蕴含的丰富信息,能够较好地区分不同类型的船舶,试验证明总体分类准确率达86.2%,分类效率优于基于原始特征的随机森林,满足船舶目标准确高效的分类识别需求。
进一步地,所述多个船舶运动特征包括航速特征、加速度特征、航向特征和距离特征中的至少两类特征;所述航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布,分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V中的至少两个特征;所述加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度中的至少两个特征;所述航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值中的至少两个特征;所述距离特征包括航行总路程。
其有益效果为:提取4类中的至少2类特征涵盖了船舶的运动特征,可以高效利用AIS数据中蕴含的丰富信息,以保证船舶目标分类的准确性。
进一步地,所述多个船舶运动特征包括18个特征,18个特征包括航速特征、加速度特征、航向特征和距离特征,航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V,加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度,航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值,距离特征包括航行总路程;则步骤2)中,从18个特征中优选得到14个特征作为最佳特征。
其有益效果为:从18个特征中优选出的14个特征可以在保证分类精度的前提下提高分类效率。
进一步地,步骤1)中提取AIS数据集的多个船舶运动特征前,还需对获取的AIS数据集进行数据清洗处理,所述数据清洗处理包括剔除时间重复、关键属性缺失以及超出正常范围的轨迹点数据。
其有益效果为:对AIS数据集进行数据清洗以去除AIS数据中的噪声,提高船舶目标分类的准确性。
进一步地,步骤1)中提取AIS数据集的多个船舶运动特征前还需对获取的AIS数据集进行轨迹分段处理,所述轨迹分段处理的过程包括:按照船舶唯一编码分段,获取每艘船对应的轨迹段;提取处于运动状态的且含有L个数据点以上的轨迹段,L为数据点个数阈值。
其有益效果为:对AIS数据集进行轨迹提取,为后续船舶分类提供连续且可靠的数据。
进一步地,船舶分类包括船、客船、游艇、拖船和渔船。
进一步地,步骤3)中,训练利用最佳特征构建的CART树随机森林模型时,利用训练集和10折交叉验证法对CART树随机森林模型中的参数进行调整,参数包括子树的最大迭代次数、CART决策树的最大深度和最大特征个数。
进一步地,利用多个特征构建的CART树随机森林模型中,采用Bootstrap抽样法从AIS数据集中随机生成K个数据集。
进一步地,利用多个特征构建的CART树随机森林模型中,在得到K棵CART决策树组成的随机森林后,利用投票法判断船舶目标类型。
附图说明
图1是本发明的基于AIS数据特征优选的随机森林船舶目标分类方法的整体流程图;
图2是本发明的所使用的CART随机森林模型结构图;
图3是本发明所使用的实验数据可视化示意图;
图4是本发明所使用的各类船舶速度分布示意图;
图5是本发明所使用的18维特征变量重要性排序示意图;
图6是本发明的不同特征组合的模型分类准确率示意图;
图7(a)是本发明的特征优选随机森林模型中子树的最大迭代次数的训练过程示意图;
图7(b)是本发明的特征优选随机森林模型中CART决策树的最大深度的训练过程示意图;
图7(c)是本发明的特征优选随机森林模型中最大特征个数的训练过程示意图;
图8是本发明的不同特征组合的分类精度和效率对比示意图;
图9是本发明的特征优选随机森林方法的船舶目标分类识别混淆矩阵示意图。
具体实施方式
本发明针对现有技术中船舶目标分类精度和效率较低的问题,提出一种基于AIS数据特征优选的随机森林船舶目标分类方法,该方法首先使用18种特征构建CART树随机森林模型,利用平均不纯度减少的方法评估18个特征的重要性并优选最佳特征,在此基础上,使用最佳特征构建的CART树随机森林模型对船舶目标进行分类识别,从而可以高效利用AIS数据蕴含的丰富信息、降低模型的复杂度并且能够较好地区分不同类型的船舶,分类效率优于基于原始特征的随机森林,能够满足船舶目标准确高效的分类识别需求。
下面结合附图和实施例,对本发明进行进一步的详细说明。
基于AIS数据特征优选的随机森林船舶目标分类方法实施例:
本发明的一种基于AIS数据特征优选的随机森林船舶目标分类方法实施例,其整体流程如图1所示。过程如下:
步骤一,获取AIS数据集,并对获取的AIS数据集进行预处理,包括数据清洗和轨迹分段。
AIS数据是一种具有时间、位置等信息的采样序列,主要由船舶动态信息,船舶静态信息和船舶航程信息组成。为了保证数据源的准确性,需要清洗AIS数据,删除由于设备故障、人为干扰等原因产生的噪声。在此基础上,对轨迹进行分段,即将同一艘船舶中对分类起决定性作用的轨迹点进行截取,从而获得多条包括了船舶运动信息的行程轨迹段。具体步骤如下:
1、数据清洗。剔除时间重复、关键属性缺失以及超出正常范围的轨迹点数据。
2、轨迹分段。首先,按照船舶唯一编码分段,获取每艘船对应的轨迹段;然后,提取处于运动状态的轨迹段参与船舶目标分类识别;最后,筛选出含有L个数据点(本实施例中L=30)及以上的轨迹段,保证每段运动轨迹包含足够的信息。
步骤二,对进行预处理后的AIS数据进行船舶运动特征提取,包括18个特征。
为了更好地描述船舶轨迹特点和降低随机森林模型的计算成本,需要为轨迹数据构建一个特征空间。根据该区域船舶的运动轨迹信息,从轨迹段中提取18个特征变量,具体包括以下4大类特征:①航速特征:速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度以及根据各类型船舶的速度分布,分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V;②加速度特征:加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度;③航向特征:航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值;④距离特征:航行总路程。
步骤三,利用提取的18个特征构建CART树随机森林模型,训练多个特征构建CART树随机森林模型过程中,利用平均不纯度减少法评估多个特征中每个特征的重要性,从中优选得到最佳特征。最佳特征个数根据重要性排序选择,从中选择平衡准确率和特征个数两个要求的最佳特征。
基于CART树的随机森林是一种集成算法,通过组合多棵决策树和投票形式产生最终结果,确保模型具有较高的分类精度和较好的泛化性能。随机使它具备抗过拟合的能力,有效保证了分类精度;Bagging集成思想使它支持并行化处理高维数据,保证了分类速度,因此随机森林算法常用于多分类任务。随机森林构建的基本过程如图2所示,首先,利用Bootstrap抽样法,从原始数据集中随机生成K个相同的数据集;然后,随机选取p个特征为每个数据集构造一棵CART决策树;最后,由K棵不同的CART树组成随机森林,并利用投票法判断船舶的类别。
训练随机森林的过程中需要特别关注的3个重要参数分别是:①最大迭代次数,通过组合多棵决策树可以有效降低过拟合,从而获得鲁棒性更好的集成模型;②最大特征个数,为了确保每棵子树彼此不同,提升分类效果,需要确定最大特征个数来控制子树每次分裂过程中随机选择的特征数量;③决策树的最大深度,可以避免决策树过于复杂,产生过拟合。
随机森林中CART决策树通过计算每个特征减少了多少不纯度确定分支结点,决策树的结点纯度越高表明结点包含的样本尽可能属于同一类别。其中,平均不纯度减少的方法指的是计算每个特征在森林中不纯度减少的平均值来比较特征贡献的大小,这个贡献由基尼指数(Gini index),也称为基尼不纯度作为衡量指标。数据集D的基尼指数计算公式为:
式中,M表示样本类别数量;pm表示数据集D中随机选取的样本属于类别m的比例;1-pm表示样本被错分的比例。基尼指数越小,数据集D的不纯度越低,反之则不纯度越高。
如果数据集D根据特征B是否取某一可能值b被分割成D1和D2两部分,则在特征B下,数据集D的基尼指数计算公式为:
式中,|D|、|D1|和|D2|分别表示数据集D、D1和D2的样本数。若经过特征B划分后数据集D的不纯度变得越小,则说明该特征在分类任务中的重要性越大。
在随机森林训练的整个过程中,特征条件B的平均不纯度减少,即重要性计算公式为:
式中,K表示随机森林中决策树的数量,Ginii(D)为第i棵决策树划分前数据集D的基尼指数;Ginii(D,B)为第i棵决策树在特征条件B下划分后数据集D的基尼指数。
步骤四,利用步骤三中优选得到的最佳特征构建CART树随机森林模型,并利用最佳特征构建的CART树随机森林模型进行船舶目标分类。
训练利用最佳特征构建的CART树随机森林模型过程中,可训练集和10折交叉验证法对CART树随机森林模型中的3个重要参数进行调整。
下面结合具体的实例来说明本发明方法的有效性和可行性。
本实例以北美洲西侧位于114°~132°W、16°~56°N之间的局部海洋为研究区域,实验数据集选用来自美国国家海洋和大气管理局NOAA(National Oceanic andAtmospheric Administration)2015年全年的AIS数据,部分数据可视化如图3所示。该地区的船舶类型主要包括货船、客船、拖船、游艇和渔船,因此将船舶划分为以上5种类型。从地理空间分布来看,大多数货船和客船沿直线航行,航线较为固定;渔船、拖船和游艇基本都在港口和海岸附近活动,其中渔船轨迹显得更为分散。此外,AIS覆盖率低或未准确采集信息都可能会导致轨迹点出现不连续的情况,因此下一步需要对AIS数据进行预处理。
AIS原始数据经过预处理后获得19969段船舶轨迹,其中货船、客船、游艇、拖船和渔船分别占总量的25.2%、21.1%、16.1%、20.4%和17.2%。将样本数据按7:3划分为训练集和测试集,用于特征的优选、分类器的构建和分类精度及效率的验证。实验运行环境为Windows10 Intel i9-10900k,主频为3.7GHz。在python平台下调用scikit-learn库中的随机森林分类器,分别利用18个原始特征和优选特征构建随机森林模型,对5种船舶目标进行分类识别,并对分类结果对比分析。
进一步地,在上述方法实施例的基础上提取特征并评估特征的重要性。
对经过数据预处理的船舶速度进行可视化,如图4所示。根据各类型船舶速度的分布特点,分别将3个不同阈值内速度占比率设为:①K1V:轨迹点速度大于等于9m/s的占比率,为了将游艇与渔船、拖船区分;②K2V:轨迹点速度位于4~8m/s的占比率,为了将货船与其它船舶区分;③K3V:轨迹点速度小于等于0.1m/s的占比率,为了将游艇、渔船与其它船舶区分。进一步,对所有船舶轨迹段提取18个运动特征,获得代表各轨迹段的航行特点。
利用平均不纯度减少的方法计算随机森林模型中18个特征的重要性,计算结果如图5所示。由图5可得,特征的重要性存在一定的差异,其中航行总路程的重要性最高为9.67%,50%分位点加速度的重要性最低为1.24%。排名前9位的特征中,包含5个速度特征、2个加速度特征、1个航向特征和1个距离特征,分别占各类型特征总量的55.6%、50%、25%和100%,说明距离特征和速度特征对船舶目标分类具有较大的贡献度,而加速度特征和航向特征在船舶目标分类中重要性则相对较低。
随后对各类特征的重要性分析可得,9个速度特征中的95%分位点速度、低速点占比率、75%分位点速度、速度均值和速度方差重要性高,达到7.86%、7.24%、6.91%、6.31%和5.92%,分别列第4、第5、第6、第8和第9;50%分位点速度、速度最大值、轨迹点速度在4~8m/s的占比率以及速度大于等于9m/s的占比率的重要性则相对较低并依次递减,说明从AIS数据中提取速度的高分位点、低速点占比、均值和方差对船舶分类识别的贡献度较大,同时验证了根据船舶速度分布特征构建的低速点占比率可以将渔船和游艇与其它类型的船舶进行有效区分。4个加速度特征中,加速度最大值和加速度均值的重要性较高,达到8.35%和6.72%,分别列第3和第7;75%和50%分位点加速度的重要性则较低,考虑到加速度的分布区间较小,加速度特征间的关联性较大,最大值和均值在区分船舶中表现更佳,因此重要性更高。4个航向特征中,航向变化均值的重要性高达9.07%,位列第2;航向变化率均值、航向变化最大值和航向变化率最大值在船舶分类识别中发挥的作用较小。唯一的距离特征的贡献度最高为9.67%,位列第1,可以看出距离特征对分类的作用很大。
为了呈现不同的特征组合与船舶目标分类准确率之间的关系,绘制如图6所示的折线图。由图6可得,特征数量从1增加到4时,因为特征重要性较高,特征之间的相关性小,所以模型的分类精度急速上升;特征数量从4增加到14时,因为存在相关特征,所以相关特征的重要度会降低,但分类精度依旧呈现小幅度增加的趋势;特征数量从14增加到18时,特征存在冗余现象,即增加的特征与之前的特征存在高相关性,模型没有从中学习到有助于分类的新知识反而加大了复杂度,导致分类精度没有明显提高,甚至有小幅度降低。
值得注意的是,模型的分类准确率为测试集样本中正确分类样本数与所有测试集样本总数之比,该指标能最直观地评价模型的分类效果。虽然根据上述分析,可以推断特征重要性列前14位的特征为最佳特征组合,但是综合考虑到3个重要参数对模型分类精度的影响以及不同特征组合下模型训练效率之间的差异,本文会从重要性前8位特征变量、前10位特征变量、前12位特征变量、前14位特征变量、前16位特征变量和全部18个特征变量,共6个方案中优选出最佳特征组合及其对应的随机森林模型。
进一步地,在上述方法实施例的基础上分析船舶目标分类结果。
为了获得不同特征组合下的最优随机森林模型以及对应的模型训练时间,首先利用训练集和10折交叉验证法依次对随机森林中的3个重要参数:子树的最大迭代次数、决策树的最大深度和最大特征个数进行调整,然后记录模型训练的总时长,最后用测试集验证各个特征组合下随机森林模型的总体分类准确率。以基于前14位特征变量的随机森林模型训练为例,图7(a)示了子树迭代次数的训练过程,可得迭代次数为299时,模型的准确率最高;在此基础上,图7(b)和图7(c)分别显示决策树的最大深度为35及最大特征个数为5时,模型的分类效果达到最佳。
6种组合方案得到的实验结果如表1(表1中n表示各组合中的特征数量)和图8所示。从表1可得,前14位特征变量对应的特征组合分类准确率基本达到最高,随着特征数量的增加,分类准确率仅有极小幅度的增加甚至不变,但模型的训练时间却递增。其中子树的最大迭代次数、决策树的最大深度和最大特征个数都会影响训练速度并且3个参数之间相互影响,所以特征数量与模型训练花费的时间并非呈现线性关系,然而特征组合中所有特征变量都会被随机森林用于训练,因此增加特征数量必然会加大模型复杂度,增加训练时间。说明冗余的特征变量对分类精度没有贡献,反而增加了模型的训练时长,降低了船舶目标的分类识别效率。可以看出,基于特征优选的随机森林方法在对货船、客船、渔船、拖船和游艇分类时,分类精度可达到基于原始特征随机森林的效果,并且分类效率更佳。
表1不同特征组合的分类精度和效率对比
经过训练得到特征优选随机森林后,将测试集的预测结果以混淆矩阵的形式呈现,混淆矩阵是监督学习中有效评价分类算法性能的一种可视化形式。如图9所示为一个(5×5)的矩阵,每一列代表预测类别,每一行代表实际类别。可以看出,总体上各类别的预测结果沿混淆矩阵的对角线分布,说明特征优选随机森林基本能将船型准确识别。但在所选区域中,游艇、渔船和拖船三者之间容易混淆,与客船、货船基本沿固定的航线和均匀速度前行的航行习惯不同,从速度和航向特征角度来看,它们的共同特点是运动较为灵活,航向变化大、速度普遍较低,但离散程度高,与图3呈现的船舶空间分布规律基本一致;从加速度和距离特征角度来看,渔船和拖船的动力较小,加速度不大,但航行的总路程会因为船舶的工作特点偏大,以上原因都会给船舶分类识别带来一定的困难和造成混淆。
为了进一步对比分析特征优选随机森林和原始特征随机森林2种方法的分类效果,采用精确率P、召回率R、F分数F这3项评价指标来评估模型的性能。在分类任务中会出现4种分类结果:将正类预测为正类的数量(Tpositive)、将负类预测为负类的数量(Tnegative)、将正类预测为负类的数量(Fnegative)、预测为正类的数量(Fpositive),由这些参数定义的评价指标计算公式为:
从表2的评估结果可以得出:
(1)从整体分类情况来看,特征优选随机森林的分类效果较好,能够准确识别不同类型的船舶目标。总体分类准确率与原始随机森林一致为86.2%;客船、拖船、渔船和货船的各类指标均在80%以上,其中客船和货船的F分数可达90%及以上。
(2)从局部分类情况来看,特征优选随机森林在除去航向变化率最大值、75%和50%分位点加速度以及轨迹点大于等于9m/s的占比率这4个冗余特征变量后,客船的召回率和f分数、拖船的精度以及游艇的召回率相比于原始随机森林提高了1%。
表2各类型船舶目标的分类识别效果
从本发明的整个流程可得,基于特征优选的随机森林保留了在船舶分类识别中重要的速度、加速度、航向和距离特征,去除了冗余成分,可以有效区分多种船舶类型,并且分类效率优于原始特征的随机森林,进一步验证了重要性列前14位的特征为最佳特征组合;同时,也说明高效利用了AIS数据中蕴含的丰富信息,从中提取的4类特征基本涵盖了船舶的运动特点,在船舶目标分类识别中具有较好的适用性。
Claims (9)
1.一种基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,包括如下步骤:
1)获取AIS数据集,并从中提取AIS数据集的多个船舶运动特征;
2)利用多个特征构建CART树随机森林模型,训练多个特征构建CART树随机森林模型过程中,利用平均不纯度减少法评估多个特征中每个特征的重要性,从中优选得到最佳特征;其中,特征的重要性为:
式中,VIMB表示特征B的重要性;Ginii(D)表示第i棵决策树划分前数据集D的基尼指数;Ginii(D,B)表示第i棵决策树在特征B下划分后数据集D的基尼指数;K表示构建的CART随机森林模型中决策树的数量;M表示样本类别数量;pm表示数据集D中随机选取的样本属于类别m的比例;1-pm表示样本被错分的比例;数据集D根据特征B是否取某一可能值b被分割成D1和D2两部分,|D|、|D1|和|D2|分别代表数据集D、D1和D2的样本数;
3)利用最佳特征构建CART树随机森林模型,并利用所述最佳特征构建的CART树随机森林模型进行船舶目标分类。
2.根据权利要求1所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,所述多个船舶运动特征包括航速特征、加速度特征、航向特征和距离特征中的至少两类特征;所述航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布,分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V中的至少两个特征;所述加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度中的至少两个特征;所述航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值中的至少两个特征;所述距离特征包括航行总路程。
3.根据权利要求2所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,所述多个船舶运动特征包括18个特征,18个特征包括航速特征、加速度特征、航向特征和距离特征,航速特征包括速度最大值、速度均值、速度方差、50%分位点速度、75%分位点速度、95%分位点速度、以及根据各类型船舶的速度分布分别构建3个速度位于指定阈值内的轨迹点占比率K1V、K2V和K3V,加速度特征包括加速度最大值、加速度均值、50%分位点加速度和75%分位点加速度,航向特征包括航向变化最大值、航向变化均值、航向变化率最大值和航向变化率均值,距离特征包括航行总路程;则步骤2)中,从18个特征中优选得到14个特征作为最佳特征。
4.根据权利要求1所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,步骤1)中提取AIS数据集的多个船舶运动特征前,还需对获取的AIS数据集进行数据清洗处理,所述数据清洗处理包括剔除时间重复、关键属性缺失以及超出正常范围的轨迹点数据。
5.根据权利要求1所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,步骤1)中提取AIS数据集的多个船舶运动特征前还需对获取的AIS数据集进行轨迹分段处理,所述轨迹分段处理的过程包括:按照船舶唯一编码分段,获取每艘船对应的轨迹段;提取处于运动状态的且含有L个数据点以上的轨迹段,L为数据点个数阈值。
6.根据权利要求1~5任一项所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,船舶分类包括船、客船、游艇、拖船和渔船。
7.根据权利要求1~5任一项所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,步骤3)中,训练利用最佳特征构建的CART树随机森林模型时,利用训练集和10折交叉验证法对CART树随机森林模型中的参数进行调整,参数包括子树的最大迭代次数、CART决策树的最大深度和最大特征个数。
8.根据权利要求1~5任一项所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,利用多个特征构建的CART树随机森林模型中,采用Bootstrap抽样法从AIS数据集中随机生成K个数据集。
9.根据权利要求1~5任一项所述的基于AIS数据特征优选的随机森林船舶目标分类方法,其特征在于,利用多个特征构建的CART树随机森林模型中,在得到K棵CART决策树组成的随机森林后,利用投票法判断船舶目标类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615198.9A CN114882293A (zh) | 2022-05-31 | 2022-05-31 | 基于ais数据特征优选的随机森林船舶目标分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210615198.9A CN114882293A (zh) | 2022-05-31 | 2022-05-31 | 基于ais数据特征优选的随机森林船舶目标分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882293A true CN114882293A (zh) | 2022-08-09 |
Family
ID=82678877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210615198.9A Pending CN114882293A (zh) | 2022-05-31 | 2022-05-31 | 基于ais数据特征优选的随机森林船舶目标分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882293A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116364178A (zh) * | 2023-04-18 | 2023-06-30 | 哈尔滨星云生物信息技术开发有限公司 | 一种体细胞序列数据分类方法及相关设备 |
TWI837899B (zh) * | 2022-10-25 | 2024-04-01 | 財團法人工業技術研究院 | 基於樹的機器學習模型的縮減方法與使用該方法的電子裝置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533089A (zh) * | 2019-08-19 | 2019-12-03 | 三峡大学 | 基于随机森林的自适应非侵入式负荷识别方法 |
WO2020048183A1 (zh) * | 2018-09-04 | 2020-03-12 | 上海海事大学 | 一种级联式由粗到精的卷积神经网络船舶类型识别方法 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
-
2022
- 2022-05-31 CN CN202210615198.9A patent/CN114882293A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048183A1 (zh) * | 2018-09-04 | 2020-03-12 | 上海海事大学 | 一种级联式由粗到精的卷积神经网络船舶类型识别方法 |
CN110533089A (zh) * | 2019-08-19 | 2019-12-03 | 三峡大学 | 基于随机森林的自适应非侵入式负荷识别方法 |
CN111860576A (zh) * | 2020-06-05 | 2020-10-30 | 温州大学 | 一种基于随机森林的子宫内膜肿瘤分类标记方法 |
Non-Patent Citations (4)
Title |
---|
YITAO WANG 等: "Ship classification based on random forest using static information from AIS data", 《MCTE 2021》, 1 November 2021 (2021-11-01), pages 1 - 6 * |
王宇君 等: "基于轨迹数据的移动对象分类识别研究", 《测绘与空间地理信息》, vol. 45, no. 4, 25 April 2022 (2022-04-25), pages 18 - 26 * |
邱景诚: "网络借贷个人信用评估模型", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》, no. 2016, 15 June 2018 (2018-06-15), pages 162 - 17 * |
钟翰杨 等: "基于机器学习的天基 AIS 数据挖掘", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, no. 2022, 15 February 2022 (2022-02-15), pages 036 - 55 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI837899B (zh) * | 2022-10-25 | 2024-04-01 | 財團法人工業技術研究院 | 基於樹的機器學習模型的縮減方法與使用該方法的電子裝置 |
CN116364178A (zh) * | 2023-04-18 | 2023-06-30 | 哈尔滨星云生物信息技术开发有限公司 | 一种体细胞序列数据分类方法及相关设备 |
CN116364178B (zh) * | 2023-04-18 | 2024-01-30 | 哈尔滨星云生物信息技术开发有限公司 | 一种体细胞序列数据分类方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dinkel et al. | Towards duration robust weakly supervised sound event detection | |
CN114882293A (zh) | 基于ais数据特征优选的随机森林船舶目标分类方法 | |
CN109191922B (zh) | 一种大规模四维航迹动态预测方法及装置 | |
CN112906830B (zh) | 一种基于ais大数据的船舶最优航线自动生成方法 | |
CN110807465A (zh) | 一种基于通道损失函数的细粒度图像识别方法 | |
CN112613664A (zh) | 基于水上交通事故风险预测与评估的预警方法和系统 | |
CN110619369A (zh) | 基于特征金字塔与全局平均池化的细粒度图像分类方法 | |
CN111476285B (zh) | 一种图像分类模型的训练方法及图像分类方法、存储介质 | |
CN111753985A (zh) | 基于神经元覆盖率的图像深度学习模型测试方法与装置 | |
CN110610165A (zh) | 一种基于yolo模型的船舶行为分析方法 | |
CN115512152B (zh) | 一种cnn和lstm神经网络组合的船舶轨迹分类方法及系统 | |
CN115063676A (zh) | 一种基于ais数据的船舶目标分类方法 | |
CN109871872A (zh) | 一种基于壳向量式svm增量学习模型的流量实时分类方法 | |
Elyassami et al. | Road crashes analysis and prediction using gradient boosted and random forest trees | |
CN114972918B (zh) | 基于集成学习与ais数据的遥感图像舰船目标识别方法 | |
CN111142538A (zh) | 一种水环境监测的无人船运行策略实时决策方法 | |
CN115730263A (zh) | 一种船舶行为模式侦测方法及装置 | |
Henriques et al. | Spatial clustering using hierarchical SOM | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN113609480A (zh) | 基于大规模网络流的多路学习入侵检测方法 | |
CN117743487A (zh) | 一种rf和lstm组合的船舶轨迹预测模型 | |
CN117237937A (zh) | 一种基于PointNet++网络的无序零件识别方法 | |
Yang et al. | A data-driven method for flight time estimation based on air traffic pattern identification and prediction | |
CN114638277A (zh) | 一种基于判别决策树的工业部件分类方法 | |
CN113434617B (zh) | 一种基于船舶轨迹的行为自动划分方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |