CN113239025B - 基于特征选择和超参数优化的船舶轨迹分类方法 - Google Patents

基于特征选择和超参数优化的船舶轨迹分类方法 Download PDF

Info

Publication number
CN113239025B
CN113239025B CN202110445422.XA CN202110445422A CN113239025B CN 113239025 B CN113239025 B CN 113239025B CN 202110445422 A CN202110445422 A CN 202110445422A CN 113239025 B CN113239025 B CN 113239025B
Authority
CN
China
Prior art keywords
track
data
ship
tracks
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110445422.XA
Other languages
English (en)
Other versions
CN113239025A (zh
Inventor
温婷婷
时宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110445422.XA priority Critical patent/CN113239025B/zh
Publication of CN113239025A publication Critical patent/CN113239025A/zh
Application granted granted Critical
Publication of CN113239025B publication Critical patent/CN113239025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种基于特征选择和超参数优化的船舶轨迹分类方法。针对船舶轨迹分类问题中原始数据不平衡的问题,首先对船舶自动识别系统的多条轨迹数据进行数据清洗和预处理,再把所有轨迹用matplotlib绘制出来,删除不可用的轨迹,然后对特征进行计算得到附加特征,并对速度、航向、轨迹坐标进行降维处理,并通过随机森林(Random Forest,RF)对降维处理后的所有特征进行后向特征选择,最后利用随机森林进行超参数优化,并通过模型训练和性能评价,对其进行分类预测而不依赖外部信息源。该发明具有较高的性能且较稳健,可有效应用于实际船舶轨迹分类。

Description

基于特征选择和超参数优化的船舶轨迹分类方法
技术领域
本发明涉及轨迹分类技术,尤其涉及一种基于特征选择和超参数优化的船舶轨迹分类方法。
背景技术
随着海上卫星导航定位技术的飞速发展,海上运输的安全和效率变得非常重要,全球海洋运输中的船舶数量达到前所未有的水平,并呈现高速化,大型化、智能化的发展趋势,2021年3月苏伊士运河意外拥堵断航,货运市场的紧张情绪不断上升,相关经济影响正在开始显现,这显示出轨迹分类具有重要的价值。船舶自动识别系统(AutomaticIdentification System,AIS)是工作在甚高频波段的新一代海上通信和导航系统,AIS消息提供了丰富的船只信息,主要包括动态信息(即地面速度(SOG)、地面航向(COG)、经度、纬度)、静态信息(即船只的长度和宽度,海上移动服务标识(MMSI)、基准日期时间、船首向,海事组织标识符、无线电呼号、名称、船舶尺寸、吃水深度、船舶和货物类型)和航行信息(即船只的目的港),这些数据完整性和位置精度很高,是研究船舶轨迹分类的最佳信息来源。
采集到的到船舶数据需要经过特定算法得到船舶出行研究所需要的信息,对船舶轨迹的分类就是最为关键的一步。目前国内外学者对轨迹分类展开过大量的研究,轨迹分类已经被应用与许多移动性应用中,在陆地交通的轨迹分类研究上,通过提取GPS数据的特征,并且使用支持向量机、决策树和随机森林等机器学习算法对人们的轨迹进行分类对人们的轨迹进行分类,并对他们的出行方式进行研究。在对海洋领域的轨迹分类研究中,AIS数据已经广泛应用于海事监视、海事态势感知和污染监测,有一些基于机器学习的方法被应用到AIS数据挖掘中,并取得了良好的性能。但是这些研究都只是将船舶的运行轨迹归类到特定的船只操作中,并没有对多种船舶进行轨迹分类,也没有把轨迹等动态特征和静态特征结合起来,也没有对特征进行计算得到附加的特征来对轨迹分类,同时也没有解决AIS数据集不平衡的问题。
发明内容
为了解决上述问题,本发明公开了一种基于特征选择和超参数优化的船舶轨迹分类方法。
本发明是通过以下技术方案实现的:
步骤S1:对多条航海轨迹数据和静态特征进行数据清洗和预处理,得到用于轨迹分类的船舶轨迹数据库;
步骤S2:候选数据清理,利用matplotlib把所有的轨迹绘制出来,删除不可用的轨迹;
步骤S3:对特征进行计算得到附加特征,并对速度、航向、轨迹坐标进行降维处理,并利用随机森林(Random Forest,RF)对降维处理后的所有特征进行后向特征选择;
步骤S4:利用随机森林进行超参数优化,并通过模型训练和性能评价,对其进行分类预测,为每个轨迹预测一个标签yi;
进一步的,所述步骤S1包括:
对多条航海轨迹数据利用数据清洗规则进行清理并进行预处理,得到用于轨迹分类的船舶轨迹数据库;
其中,所述数据预处理规则包括:
(1)清洗空值。清洗掉船舶类型为空的值,空值没有意义;
(2)将原始数据重新排序。将整个原始数据按照递增的时间顺序进行排序,再按照MMSI(海上移动服务标识)进行排序;
(3)合成轨迹数据。将MMSI号相同的SOG,COG,和经纬度提取出来放在三个数组当中,这样一条轨迹可以在excel中通过一行显示出来;
(4)清理候选轨迹数据。由于最终得到的轨迹数据有很多不能用,通过以下的数据清洗规则进行筛选:
①删除SOG为0或0.1的轨迹点数超过总轨迹点数80%的轨迹;
②删除轨迹点数少于20的轨迹;
③删除轨迹条数少的船舶类型的轨迹;
④删除距离不超过2km的轨迹,本发明计算轨迹长度用的是半正矢公式,使用半正矢公式把两点的坐标的距离计算出来,在通过相加就可以得到整条轨迹的长度。
进一步的,在清洗规则④中,所述两点之间距离的求解过程包括:
Figure BDA0003035672710000031
Figure BDA0003035672710000032
Figure BDA0003035672710000033
半正矢公式是一种根据两点的经度和纬度来确定大圆上两点之间距离的计算方法,对于任何球面上的两点,圆心角的半正矢值可以通过公式1计算:在公式1中,hav是半正矢函数的缩写,如公式2所示,其中d是两点已知经纬度之间的距离,r是球的半径,θ1θ2代表点1的纬度和点2的纬度,以弧度制度量,λ1λ2代表点1的经度和点2的经度,以弧度制度量。
Figure BDA0003035672710000034
是圆心角,以弧度来度量。然后通过半正矢公式的变换,通过反正弦函数来解出d,即两点之间的距离,如公式3所示。
进一步的,在步骤S2中,步骤S1得到候选数据之后,需要对轨迹做进一步的选择。候选数据的所有轨迹都由matplotlib绘制,在所有轨迹中,本发明定义了如下三种噪声轨迹类型,然后将把它们全部删除:
(1)不连续的轨迹;
(2)松散的轨迹;
(3)纠缠的轨迹。
进一步的,在步骤S2之后,在步骤S3之前,候选轨迹清理之后,本发明将筛选出以下特征,这些特征会用来船舶轨迹分类的训练和测试:
1)MMSI。这是每条航行轨迹的唯一标识符;
2)VesselType。船舶类型;
3)SOG。这是船只在地面上的速度,以节为单位;
4)COG。这是船在地面上的航向;
5)Heading。船首向,是指船舶在航行中船首的指向,该特征以度为单位表示船舶的航向,0对应于北;
进一步的,所述步骤S3包括:
基于航海数据中的所有属性,本发明为了更好地进行船舶轨迹分类的训练和测试,计算出以下附加特征,并对速度、航向、轨迹坐标进行降维处理:
1)SOGAve。SOG(対地速度)的平均速度;
2)SOGDev。这是一条轨迹中所有SOG(対地速度)的标准偏差,标准差能反映一个数据集的离散程度;
3)SOGCoeffs。这是拟合一条轨迹中速度的多项式,包含了四个系数。本发明将一条轨迹中所有的SOG(対地速度)拟合成一个三次多项式,并使用其系数作为特征;
4)COGAve。COG(地面航向)的平均航向;
5)COGDev。COG(地面航向)的标准偏差;
6)COGCoeffs。这是拟合的一条轨迹中航向的多项式,包含了四个系数。本发明将使用其系数作为特征;
7)Grids。这是一条轨迹的所有地理位置,一个经纬度代表一个点,本发明将对代表地理位置的经纬度进行降维,把数据数值化。
在对特征值进行提取和处理后,就开始用随机森林进行后向特征选择,用到的方法是特征重要性得分,特征重要性评分是一种为输入特征评分的手段,其依据是输入特征在预测目标变量过程中的有用程度,特征重要性在预测建模项目中起着重要作用,包括提供对数据、模型的见解,以及如何降维和选择特征,可以用于变量选择,我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征),从而提高预测模型的的效率和有效性。
进一步的,所述步骤S4包括:
对模型进行超参数优化,超参数优化是一组超参数的机器学习模型,它的目标就是通过验证误差目标函数,找到在验证集上产生最小误差的一组超参数,并且能够很好地应用于测试集。在本发明中,主要考虑三个最重要的参数:
(1)n_estimators。对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个数;
(2)max_features。每个决策树的随机选择的特征数目。每个决策树在随机选择的这max_features特征里找到某个“最佳”特征,使得模型在该特征的某个值上分裂之后得到的收益最大化。max_features越少,方差就会减少,但同时偏差就会增加;
(3)max_depth。决策树最大深度,默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。
在对模型进行超参数优化之后,就可以使用分类器对船舶轨迹数据集进行分类了,而对于模型的性能评估,对于分类预测问题,基本的性能衡量指标为混淆矩阵。
对于分类任务常见的评价指标准确率(Accuracy)、精确率(Precision)、召回率(Recall)、(F1 score)计算公式如下:
Accuracy=(TP+TN)/(TP+FP+FN+TN) (公式4)
Precision=TP/(TP+FP) (公式5)
Recall=TP/(TP+FN) (公式6)
Figure BDA0003035672710000051
其中,FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。另外,TP+FP表示所有被预测为正的样本数量,同理FN+TN为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。Accuracy是分类正确的样本占总样本个数的比例,准确率时分类问题中最简单直观的评价指标,但存在明显的缺陷。Precision是预测为正的样本的比例,体现了模型对负样本的区分能力,得分越高,模型对负样本的区分能力越强。Recall是实际为正的样本所占实际为正的样本的比例,体现了模型对正样本的识别能力,得分越高,模型对正样本的识别能力越强,F1 score是精确率和召回率的调和平均值,F1 score是精确率和召回率的综合,F1 score越高,说明模型越稳健。
与现有技术相比,本发明包括以下优点:
本发明提出的一种基于特征选择和超参数优化的船舶轨迹分类方法具有较高的性能,且较稳健,通用性高,分类结果准确可靠,可有效应用于实际船舶轨迹分类中。
轨迹分类数量上,对多种船舶进行轨迹分类,而不只是将船舶的运行轨迹归类到特定的船只中;特征参数方面,对速度、航向、坐标进行降维处理,把数据数值化,有易于机器学习,把轨迹等动态特征和静态特征结合起来,对特征进行计算得到附加的特征,并用随机森林算法对其进行后向特征选择,防止相关参数过拟合或参数不显著导致识别精度下降;算法方面,提出了超参数优化,克服了船舶轨迹数据的不平衡问题。
该方法适用于基于AIS轨迹数据的识别,有利于推动航海交通的发展。
附图说明
图1是基于特征选择和超参数优化的船舶轨迹分类方法的步骤流程图;
图2是不连续的轨迹样例图;
图3是松散的轨迹样例图;
图4是纠缠的轨迹样例图;
图5是保存下来的完整轨迹样例图。
图6是所有特征重要性得分图;
图7是后向特征的重要性得分图;
图8是n_estimators参数值选择图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,示出了本发明一种基于特征选择和超参数优化的船舶轨迹分类方法的步骤流程图,所述方法具体可以包括以下步骤:
第一步,航海轨迹数据准备,对航海轨迹数据进行数据清洗与预处理,得到航海轨迹数据的候选数据:
本发明实例采用的自动识别系统(AIS)数据,AIS数据是工作在甚高频波段的新一代海上通信和导航系统。AIS消息提供了丰富的船只信息,主要包括动态信息(即地面速度(SOG)、地面航向(COG)、经度、纬度)、静态信息(即船只的长度和宽度,海上移动服务标识(MMSI)、基准日期时间、船首向,海事组织标识符、无线电呼号、名称、船舶尺寸、吃水深度、船舶和货物类型)和航行信息(即船只的目的港)。现在有众多AIS数据提供方,如MarineC可以免费下载,并且数据完整性和位置精度很高,具有良好的数据质量。所以本发明选择了MarineC进行AIS数据的在线采集,MarineC包含了2009年至2019历年来美国沿海水域的每隔三分钟发送一次的记录。我们可以选择下载特定日期和特定兴趣领域的AIS数据文件。由于数据量巨大,本发明下载了2019年12月31日的包含6296596条记录的688M的AIS数据用于研究。由于数据中存在许多空数据,所以为了达到有效信息的提取综合及无用信息的摈弃之目的,本发明首先对原始数据进行数据清洗和预处理,提取出有效的候选数据。
其中,所述数据预处理规则包括:
(1)清洗空值。清洗掉VesselType(船舶类型)为空的值,VesselType为空值的数据没有意义;
(2)将原始数据重新排序。将整个原始数据按照递增的时间顺序进行排序,再按照MMSI(海上移动服务标识)进行排序。一个MMSI号代表着一艘船的一条轨迹;
(3)合成轨迹数据。将MMSI号相同的地面速度(SOG)、地面航向(COG)和经纬度提取出来放在三个数组当中,这样一条轨迹可以在excel中通过一行显示出来。合成数据文件中总共包含了12893条轨迹数据,这样不仅把数据量缩小了,也方便计算SOG,COG和经纬度的相关特征属性,还方便绘制出轨迹,并删除不能用的轨迹;
(4)清理候选轨迹数据。由于最终得到的轨迹数据有很多不能用,通过以下的清洗条件进行筛选,从最开始的12893条轨迹数据,删除掉8976条轨迹,最终得到了3917条候选轨迹:
①删除SOG为0或0.1的数量超过总数量80%的轨迹。一条独立的航线应该包含大量的信息,而SOG作为轨迹的地面速度属性,因为数据中有轨迹的大量SOG都为0.1,而0.1的航行速度基本可以忽略不计,如果有大量的地面速度都为0或0.1,说明航行的持续时间短,而持续时间短的路线包含的数据不足以进行船舶轨迹分类算法的训练和测试;
②删除轨迹点数少于20的轨迹。AIS数据是每隔三分钟发送一次记录,所以20个点就是1个小时,根据实际情况,航行小于一个小时的轨迹包含数据信息太少,不足以进行船舶轨迹分类算法的训练和测试,本发明以SOG的个数来表示轨迹点数;
③删除轨迹条数少的VesselType。处理过的AIS数据中一共有33种船舶类型,以及各个船舶类型的轨迹条数,最终删除28种船舶类型轨迹,选取了轨迹条数排名前五的船舶来进行算法的训练和测试轨迹的条数,排名前五的船舶代码及轨迹数量如表1所示;
表1轨迹数量前五的船舶类型
Figure BDA0003035672710000081
④删除距离不超过2km的轨迹。根据经验,小于2km的轨迹包含的数据不足以进行轨迹分类算法的训练和测试。本发明计算轨迹长度用的是半正矢公式,使用半正矢公式把两点的坐标计算出来,在通过相加就可以得到整条轨迹的长度。半正矢公式是一种根据两点的经度和纬度来确定大圆上两点之间距离的计算方法,对于任何球面上的两点,圆心角的半正矢值可以通过公式1计算:在公式1中,hav是半正矢函数的缩写,如公式2所示,其中d是两点已知经纬度之间的距离,r是球的半径,θ1θ2代表点1的纬度和点2的纬度,以弧度制度量,λ1λ2代表点1的经度和点2的经度,以弧度制度量。
Figure BDA0003035672710000085
是圆心角,以弧度来度量。然后通过半正矢公式的变换,通过反正弦函数来解出d,即两点之间的距离,如公式3所示。
Figure BDA0003035672710000082
Figure BDA0003035672710000083
Figure BDA0003035672710000084
第二步,对候选数据进行清理,用matplotlib把轨迹绘制出来,删除不可用轨迹。在获得候选数据之后,需要对轨迹做进一步的选择在所有轨迹中,本发明定义了如下三种噪声轨迹类型(从图2到图4所示,横轴是经度,纵轴是纬度),然后将把它们全部删除:
(1)图2显示了不连续的轨迹。
(2)图3显示了松散的轨迹。
(3)图4显示了纠缠的轨迹。
因为这些有噪音的轨迹都会有一些固有的缺点,不利于船舶轨迹分类算法的学习。噪音轨迹的形状也不典型一旦识别出有噪音的轨迹,就应该将其清除。最终在3917条轨迹中删除了569条噪音轨迹,保存了3348条有用轨迹用于研究。图5显示了一些在有用轨迹中的典型轨迹(横轴是经度,纵轴是纬度)。
第三步,候选轨迹清理之后,本发明将筛选出以下特征,这些特征会用来船舶轨迹分类的训练和测试:
1)MMSI。这是每条航行轨迹的唯一标识符。
2)VesselType。船舶类型,是一个对应的两位数代码。
3)SOG。这是船只在地面上的速度,以节为单位。这是有着一条轨迹所有対地速度的一维数组,在第一步中已经阐述过将为同一个MMSI号的SOG度提取出来放在数组当中。
4)COG。这是船在地面上的航向。这是有着一条轨迹所有地面航向的一维数组,在1.2节中已经阐述过将为同一个MMSI号的COG度提取出来放在数组当中。
5)Heading。船首向,是指船舶在航行中船首的指向,该特征以度为单位表示船舶的航向,0对应于北。
本发明基于AIS数据中的所有属性,为了更好地进行船舶轨迹分类的训练和测试,计算出以下附加特征,并对速度、航向、轨迹坐标进行降维处理,降维处理是现有文本分类处理的常用方法,通过借助特征抽取来提取,以得到该特征维度的文本信息,降维处理算法的原理阐述在此不多赘述:
1)SOGAve。SOG(対地速度)的平均速度;
2)SOGDev。这是一条轨迹中所有SOG(対地速度)的标准偏差,标准差能反映一个数据集的离散程度;
3)SOGCoeffs。这是拟合一条轨迹中速度的多项式,包含了四个系数。本发明将一条轨迹中所有的SOG(対地速度)拟合成一个三次多项式,并使用其系数作为特征,这样可以看到速度的变化过程,某些船只的速度更加稳定;
4)COGAve。COG(地面航向)的平均航向;
5)COGDev。COG(地面航向)的标准偏差;
6)COGCoeffs。这是拟合的一条轨迹中航向的多项式,包含了四个系数。本发明将一条轨迹中所有的COG(地面航向)拟合成一个三次多项式,并使用其系数作为特征,这样可以看到角度的变化过程,也许某些船只是“直线形”,也许某些船只是“锯齿形”;
7)Grids。这是一条轨迹的所有地理位置,一个经纬度代表一个点,本来应该是二维数组来表示,为了更好地训练和测试,本发明将对代表地理位置的经纬度进行降维,把二维数组转换为文本的形式,然后再对数据进行数值化。
在对特征值进行提取和处理后,就开始用随机森林进行后向特征选择,用到的方法是特征重要性得分,特征重要性评分是一种为输入特征评分的手段,其依据是输入特征在预测目标变量过程中的有用程度,特征重要性在预测建模项目中起着重要作用,包括提供对数据、模型的见解,以及如何降维和选择特征,可以用于变量选择,我们可以通过特征重要性得分来选择要删除的特征(即得分最低的特征)或者需要保留的特征(即得分最高的特征),从而提高预测模型的的效率和有效性。该值越大表示该变量的重要性越大。所有特征分数相加等于1,所有特征分数如图6所示。通过实验发现不是特征越多,预测准确率就越高,所以把得分不太高的不太重要的特征去掉,发现预测准确率有所提高,从78.60%提高到79.04%,后向特征重要性得分如图7所示。
第四步,对模型进行超参数优化,并使用随机森林分类器对航海轨迹进行分类。超参数优化是一组超参数的机器学习模型,它的目标就是通过验证误差目标函数,找到在验证集上产生最小误差的一组超参数,并且能够很好地应用于测试集,本发明采用的Sklearn提供了两种通用的超参数优化方法:网格搜索(gridsearch)与随机采样(RandomizedSearch),本发明运用sklearn中用于超参数优化的gridsearchcv(网格化寻优),我们只需为所有超参数的可能构建独立的模型,评估每个模型的性能,并选择产生最佳结果的模型和超参数。在本发明中,主要考虑三个最重要的参数:
(1)n_estimators。对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个数。n_estimators的参数调整如图8所示,最终为140;
(2)max_features。每个决策树的随机选择的特征数目。每个决策树在随机选择的这max_features特征里找到某个“最佳”特征,使得模型在该特征的某个值上分裂之后得到的收益最大化。max_features越少,方差就会减少,但同时偏差就会增加。如果是回归问题,则max_features=n_features,如果是分类问题,则max_features=sqrt(n_features),本发明实例用的sqrt(n_features);
(3)max_depth。决策树最大深度,默认可以不输入,如果不输入的话,决策树在建立子树的时候不会限制子树的深度。一般来说,数据少或者特征少的时候可以不管这个值。由于本发明实例最后用到的特征值只有13个,所以这个参数默认不输入。
在对模型进行超参数优化之后,就可以使用分类器对船舶轨迹数据集进行分类了,为了对轨迹模型进行更好的评估,本发明实例使用了三种分类器来对模型进行评估,分别是随机森林,DT和bagging。而对于模型的性能评估,对于分类预测问题,基本的性能衡量指标为混淆矩阵,如表2所示。Positive,即正例或者阳性,Negative,即负例或者阴性。FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。另外,TP+FP=Positive表示所有被预测为正的样本数量,同理FN+TN=Negative为所有被预测为负的样本数量,TP+FN=Positive’为实际为正的样本数量,FP+TN=Negative’为实际为负的样本数量。
表2混淆矩阵
Figure BDA0003035672710000111
对于分类任务常见的评价指标准确率(Accuracy)、精确率(Precision)、召回率(Recall)、(F1 score)计算公式如下:
Accuracy=(TP+TN)/(TP+FP+FN+TN) (公式4);
Precision=TP/(TP+FP) (公式5);
Recall=TP/(TP+FN) (公式6);
Figure BDA0003035672710000112
其中,Accuracy是分类正确的样本占总样本个数的比例,准确率时分类问题中最简单直观的评价指标,但存在明显的缺陷。比如如果样本中有99%的样本为正样本,那么分类器只需要一直预测为正,就可以得到99%的准确率,但其实际性能是非常低下的。也就是说,当不同类别样本的比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。Precision是预测为正的样本的比例,体现了模型对负样本的区分能力,得分越高,模型对负样本的区分能力越强。Recall是实际为正的样本所占实际为正的样本的比例,体现了模型对正样本的识别能力,得分越高,模型对正样本的识别能力越强,F1 score是精确率和召回率的调和平均值,F1 score是精确率和召回率的综合,F1 score越高,说明模型越稳健。
特征和参数选好后,用kfold交叉验证进行实验,数据集被反复划分为训练集和测试集。划分过程重复10次(即10倍交叉验证),kfold交叉验证法是缓解数据不平衡问题的常用方法。实验会把数据集分为10份,并且每次验证选择的测试集都选择十份中不同的一份,训练集就选择剩余的九份,就这样进行十次训练和预测。最后的预测正确率用所有十次实验的平均值。然后用上述四个性能评价指标来评价分类模型的性能,不同算法的预测正确率、精确率、召回率和F1 score如表3、表4、表5、表6所示,从表中可以看出随机森林算法要优于其它两种算法,从实验结果也可以看出,使用随机森林和bagging算法的四个性能评价指标的平均值都是76%以上,说明模型有较高的性能较稳健。
表3不同算法预测准确率
Figure BDA0003035672710000121
表4不同算法预测精确率
Figure BDA0003035672710000122
Figure BDA0003035672710000131
表5不同算法预测召回率
Figure BDA0003035672710000132
表6不同算法预测F1 score
Figure BDA0003035672710000133
Figure BDA0003035672710000141
以上对本发明所提供基于特征选择和超参数优化的船舶轨迹分类方法进行了详细介绍,本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (7)

1.一种基于特征选择和超参数优化的船舶轨迹分类方法,其特征在于,所述方法包括:
步骤S1:对多条航海轨迹数据和静态特征进行数据清洗和预处理,得到用于轨迹分类的船舶轨迹数据库;
步骤S2:候选数据清理,用matplotlib把所有轨迹绘制出来,删除不可用轨迹;
步骤S3:对轨迹的速度、航向、轨迹坐标特征进行计算,得到附加特征平均速度、速度的标准偏差、速度拟合的三次多项式以及平均航向、航向的标准偏差、航向拟合的三次多项式和轨迹经纬度坐标的数值化表示,在对特征值进行降维处理后,用随机森林的特征重要性评分进行后向特征选择,提高预测模型的效率和有效性;
步骤S4:利用sklearn中的gridsearchcv(网格化寻优)进行超参数优化,为超参数的所有可能构建独立的模型,并选择产生最佳结果的模型和超参数, 并通过模型训练,对其进行分类预测,为每个轨迹预测一个标签yi,最后用分类任务的评价指标进行性能评估。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
对航海轨迹原始数据进行数据清洗和预处理,提取出有效的候选数据;
其中,所述数据预处理规则包括:
(1)清洗空值,清洗掉船舶类型为空的值;
(2)将原始数据重新排序,将整个原始数据按照递增的时间顺序进行排序,再按照MMSI(海上移动服务标识)进行排序;
(3)合成轨迹数据,将MMSI号相同的SOG,COG,和经纬度提取出来放在三个数组中;
(4)清理候选轨迹数据,由于最终得到的轨迹数据有很多不能用,通过以下的数据清洗规则进行筛选:
①删除SOG为0或0.1的轨迹点数超过总轨迹点数80%的轨迹;
②删除轨迹点数少于20的轨迹;
③删除轨迹条数少的船舶类型的轨迹;
④计算两点之间的距离,把轨迹所有点之间的距离加起来,删除距离不超过2km的轨迹。
3.根据权利要求2所述的方法,其特征在于,在清洗规则第④步中,所述两点之间的距离求解过程包括:
Figure FDA0003695345970000021
Figure FDA0003695345970000022
Figure FDA0003695345970000023
在公式1~3中,hav是半正矢函数的缩写,其中d是两点已知经纬度之间的距离,r是球的半径,θ1θ2代表点1的纬度和点2的纬度,以弧度制度量,λ1λ2代表点1的经度和点2的经度,以弧度制度量,
Figure FDA0003695345970000024
是圆心角,以弧度来度量,然后通过半正矢公式的变换,通过反正弦函数来解出d,即两点之间的距离,如公式3所示。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
清理候选数据,候选数据的所有轨迹都由matplotlib绘制,在所有轨迹中,定义了如下三种噪声轨迹类型,然后将它们全部删除:
(1)不连续的轨迹;
(2)松散的轨迹;
(3)纠缠的轨迹。
5.根据权利要求1所述的方法,其特征在于,在步骤S3之前,所述方法包括:
候选轨迹清理之后,筛选出以下特征:
1)MMSI,这是每条航行轨迹的唯一标识符;
2)VesselType,船舶类型;
3)SOG,这是船只在地面上的速度,以节为单位;
4)COG,这是船在地面上的航向;
5)Heading,船首向,是指船舶在航行中船首的指向,该特征以度为单位表示船舶的航向,0对应于北。
6.根据权利要求1所述的方法,其特征在于,所述步骤S4的超参数优化主要考虑三个最重要的参数:
(1)n_estimators,对数据集进行有放回抽样生成的子数据集个数,即决策树的个数;
(2)max_features,每个决策树的随机选择的特征数目;
(3)max_depth,决策树最大深度。
7.根据权利要求1所述的方法,其特征在于,在步骤S4中,所述分类任务的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、(F1 score),计算过程包括:
Accuracy=(TP+TN)/(TP+FP+FN+TN) (公式4);
Precision=TP/(TP+FP) (公式5);
Recall=TP/(TP+FN) (公式6);
Figure FDA0003695345970000031
在公式4~7中,所述FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量,另外,TP+FP表示所有被预测为正的样本数量,同理FN+TN为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。
CN202110445422.XA 2021-04-23 2021-04-23 基于特征选择和超参数优化的船舶轨迹分类方法 Active CN113239025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445422.XA CN113239025B (zh) 2021-04-23 2021-04-23 基于特征选择和超参数优化的船舶轨迹分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445422.XA CN113239025B (zh) 2021-04-23 2021-04-23 基于特征选择和超参数优化的船舶轨迹分类方法

Publications (2)

Publication Number Publication Date
CN113239025A CN113239025A (zh) 2021-08-10
CN113239025B true CN113239025B (zh) 2022-08-19

Family

ID=77128997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445422.XA Active CN113239025B (zh) 2021-04-23 2021-04-23 基于特征选择和超参数优化的船舶轨迹分类方法

Country Status (1)

Country Link
CN (1) CN113239025B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569491B (zh) * 2021-08-13 2023-08-18 江苏集萃智能光电系统研究所有限公司 一种轮对尺寸检测数据的分析和校正方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298611A (zh) * 2019-05-16 2019-10-01 重庆瑞尔科技发展有限公司 基于随机森林与深度学习的船舶货运效率调控方法及系统
CN111079590A (zh) * 2019-12-04 2020-04-28 东北大学 一种无人驾驶车辆的周边车辆行为预判方法
CN111980688A (zh) * 2020-09-01 2020-11-24 中国石油集团渤海钻探工程有限公司 一种基于集成学习算法的井斜角度预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846361B (zh) * 2016-12-16 2019-12-20 深圳大学 基于直觉模糊随机森林的目标跟踪方法及装置
US11898846B2 (en) * 2018-02-13 2024-02-13 Wärtsilä Finland Oy Apparatus, device and computer implemented method for providing marine vessel data of marine vessel with plurality of sensor devices
CN108540451A (zh) * 2018-03-13 2018-09-14 北京理工大学 一种用机器学习技术对网络攻击行为进行分类检测的方法
CN113935434A (zh) * 2018-06-19 2022-01-14 北京九章云极科技有限公司 一种数据分析处理系统及自动建模方法
CN109447099B (zh) * 2018-08-28 2022-01-07 西安理工大学 一种基于pca降维的多分类器融合方法
CN109214107B (zh) * 2018-09-26 2020-05-05 大连海事大学 一种船舶航行行为在线预测方法
CN110942086B (zh) * 2019-10-30 2024-04-23 平安科技(深圳)有限公司 数据预测优化方法、装置、设备及可读存储介质
CN111914664A (zh) * 2020-07-06 2020-11-10 同济大学 基于重识别的车辆多目标检测和轨迹跟踪方法
CN111949750A (zh) * 2020-07-30 2020-11-17 智慧航海(青岛)科技有限公司 一种船舶轨迹模型建立及异常轨迹检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298611A (zh) * 2019-05-16 2019-10-01 重庆瑞尔科技发展有限公司 基于随机森林与深度学习的船舶货运效率调控方法及系统
CN111079590A (zh) * 2019-12-04 2020-04-28 东北大学 一种无人驾驶车辆的周边车辆行为预判方法
CN111980688A (zh) * 2020-09-01 2020-11-24 中国石油集团渤海钻探工程有限公司 一种基于集成学习算法的井斜角度预测方法

Also Published As

Publication number Publication date
CN113239025A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
Rathore et al. A scalable framework for trajectory prediction
Wang et al. Application of real-coded genetic algorithm in ship weather routing
CN108595414B (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
DK1377849T3 (en) SEISMIC Marine Research
CN110188093A (zh) 一种基于大数据平台针对ais信息源的数据挖掘系统
Lv et al. Outlier trajectory detection: A trajectory analytics based approach
CN114936332A (zh) 一种风电场水域船舶交通流分析的方法、装置和存储介质
CN109960692B (zh) 船舶航向模型的数据可视化方法、设备及计算机存储介质
CN113239025B (zh) 基于特征选择和超参数优化的船舶轨迹分类方法
Zhao et al. An adaptive hierarchical clustering method for ship trajectory data based on DBSCAN algorithm
Ayhan et al. Analysis of image classification methods for remote sensing
CN112907632A (zh) 一种单拖船只目标的识别方法及装置
CN113888867A (zh) 一种基于lstm位置预测的车位推荐方法及系统
Ren et al. A novel high-dimensional trajectories construction network based on multi-clustering algorithm
Lucena Exploiting categorical structure using tree-based methods
CN114239426A (zh) 基于水流资料同化的长江干线船舶排放清单生成方法
Sumner et al. A hybrid MCDM approach to transshipment port selection
Ware et al. A system for cleaning high volume bathymetry
Wiegmans et al. Big data of the past: Analysis of historical freight shipping corridor data in the period 1662–1855
Rodriguez iapesca, a R-package for manipulating and interpretating high resolution geospatial data from fishing vessels
Satvika et al. Determination of the best vehicle pathway with classification of data mining Twitter using k-nearest neighbor
Li et al. The parallel and precision adaptive method of marine lane extraction based on QuadTree
CN114047508A (zh) 一种对海雷达探测范围统计评估方法及系统
CN111881125A (zh) 一种海上非作战目标实时清洗方法及系统
CN110853139A (zh) 一种多波束测深数据化简方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wen Tingting

Inventor after: Shi Hongwei

Inventor after: Wang Yini

Inventor before: Wen Tingting

Inventor before: Shi Hongwei

CB03 Change of inventor or designer information