CN112287468B - 一种船舶碰撞危险度判别方法及系统 - Google Patents

一种船舶碰撞危险度判别方法及系统 Download PDF

Info

Publication number
CN112287468B
CN112287468B CN202011589195.XA CN202011589195A CN112287468B CN 112287468 B CN112287468 B CN 112287468B CN 202011589195 A CN202011589195 A CN 202011589195A CN 112287468 B CN112287468 B CN 112287468B
Authority
CN
China
Prior art keywords
data
ship
training
support vector
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011589195.XA
Other languages
English (en)
Other versions
CN112287468A (zh
Inventor
刘烨
文婷
杨凌波
段泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HIGHLANDR DIGITAL TECHNOLOGY Co.,Ltd.
Sansha Highlander marine Mdt InfoTech Ltd.
Original Assignee
Beijing Highlandr Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Highlandr Digital Technology Co ltd filed Critical Beijing Highlandr Digital Technology Co ltd
Priority to CN202011589195.XA priority Critical patent/CN112287468B/zh
Publication of CN112287468A publication Critical patent/CN112287468A/zh
Application granted granted Critical
Publication of CN112287468B publication Critical patent/CN112287468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G3/00Traffic control systems for marine craft
    • G08G3/02Anti-collision systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Ocean & Marine Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种船舶碰撞危险度判别方法,包括:获取待处理船舶航行数据;对所述待处理船舶数据进行数据预处理,得到处理后的数据;通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度。本发明公开了一种船舶碰撞危险度判别系统。本发明的一种船舶碰撞危险度判别方法及系统,在提高分类精度的同时可应用于海量数据。

Description

一种船舶碰撞危险度判别方法及系统
技术领域
本发明涉及船舶技术领域,具体而言,涉及一种船舶碰撞危险度判别方法及系统。
背景技术
现有技术中,在船舶碰撞危险度进行判别时,大多通过建立几何模型,基于几何模型建立危险评判模型,以此来对碰撞危险进行评估。这种方式需要量化多个模型,计算过程复杂,且在评估过程中需要使用阈值进行判断,然而阈值具体数值大多通过主观因素人为制定,使得判别的结果不够准确。
发明内容
为解决上述问题,本发明的目的在于提供一种船舶碰撞危险度判别方法及系统,在提高分类精度的同时可应用于海量数据。
本发明提供了一种船舶碰撞危险度判别方法,所述方法包括:
获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练。
作为本发明进一步的改进,所述对所述待处理船舶数据进行数据预处理,得到处理后的数据,包括:
对所述待处理船舶航行数据进行数据清洗,得到第一数据,其中,所述数据清洗包括噪声平滑、缺失值填充和异常值插补;
对所述第一数据进行数据变换,得到第二数据,其中,所述数据变换包括采用one-hot编码对数据进行变换;
对所述第二数据进行特征选择,得到所述处理后的数据,其中,所述特征选择通过随机森林算法实现。
作为本发明进一步的改进,所述多个特征参数包括本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性。
作为本发明进一步的改进,所述方法还包括:获取原始数据集和新数据集,通过所述原始数据集获取所述训练数据集,通过所述新数据集获取所述新训练数据集;
其中,所述原始数据集包括:各个目标船历史运动数据、本船历史运动数据以及相应的历史判别数据,其中,所述相应的历史判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述原始数据集获取所述训练数据集包括:将所述数据集中的数据进行数据清洗、数据变换和特征选择,得到所述训练数据集;
其中,所述新数据集包括:各个目标船运动数据、本船运动数据以及相应的判别数据,其中,所述相应的判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述新数据集获取所述新训练数据集包括:将所述新数据集中的数据进行数据清洗、数据变换和特征选择,得到所述新训练数据集。
作为本发明进一步的改进,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,其中,所述分类结果用于表征本船与目标船的碰撞危险度。
作为本发明进一步的改进,所述本船与目标船的碰撞危险度包括多个分类类别,
所述从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,包括:
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,通过所述第一分类器对所述训练数据集进行第一层两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的集合中。
作为本发明进一步的改进,所述训练数据集包括多个子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行训练,包括:
将对各个子集分别训练得到的各个第一支持向量进行组合,得到第一全局支持向量,并将所述多个子集合并;
将对合并后多个子集训练得到的第二支持向量与所述第一全局支持向量进行组合,得到第二全局支持向量;
迭代上述过程,直至满足收敛条件;
其中,所述新训练数据集包括多个新子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行更新训练,包括:
将对各个新子集分别更新训练得到的各个第三支持向量进行组合,得到第三全局支持向量,并将所述多个新子集合并;
将对合并后多个新子集训练得到的第四支持向量与所述第三全局支持向量进行组合,得到第四全局支持向量;
迭代上述过程,直至满足收敛条件。
本发明还提供了一种船舶碰撞危险度判别系统,所述系统包括:
数据获取模块,用于获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
数据处理模块,用于对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
数据识别模块,用于通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练。
作为本发明进一步的改进,所述数据获取模块包括:
对所述待处理船舶航行数据进行数据清洗,得到第一数据,其中,所述数据清洗包括噪声平滑、缺失值填充和异常值插补;
对所述第一数据进行数据变换,得到第二数据,其中,所述数据变换包括采用one-hot编码对数据进行变换;
对所述第二数据进行特征选择,得到所述处理后的数据,其中,所述特征选择通过随机森林算法实现。
作为本发明进一步的改进,所述多个特征参数包括本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性。
作为本发明进一步的改进,所述系统还包括:
获取原始数据集和新数据集,通过所述原始数据集获取所述训练数据集,通过所述新数据集获取所述新训练数据集;
其中,所述原始数据集包括:各个目标船历史运动数据、本船历史运动数据以及相应的历史判别数据,其中,所述相应的历史判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述原始数据集获取所述训练数据集包括:将所述数据集中的数据进行数据清洗、数据变换和特征选择,得到所述训练数据集;
其中,所述新数据集包括:各个目标船运动数据、本船运动数据以及相应的判别数据,其中,所述相应的判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述新数据集获取所述新训练数据集包括:将所述新数据集中的数据进行数据清洗、数据变换和特征选择,得到所述新训练数据集。
作为本发明进一步的改进,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,其中,所述分类结果用于表征本船与目标船的碰撞危险度。
作为本发明进一步的改进,所述本船与目标船的碰撞危险度包括多个分类类别,
所述从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,包括:
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,从所述决策树根节点出发,自顶向下,通过所述第一分类器对所述训练数据集进行第一层两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的集合中。
作为本发明进一步的改进,所述训练数据集包括多个子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行训练,包括:
将对各个子集分别训练得到的各个第一支持向量进行组合,得到第一全局支持向量,并将所述多个子集合并;
将对合并后多个子集训练得到的第二支持向量与所述第一全局支持向量进行组合,得到第二全局支持向量;
迭代上述过程,直至满足收敛条件;
其中,所述新训练数据集包括多个新子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行更新训练,包括:
将对各个新子集分别更新训练得到的各个第三支持向量进行组合,得到第三全局支持向量,并将所述多个新子集合并;
将对合并后多个新子集训练得到的第四支持向量与所述第三全局支持向量进行组合,得到第四全局支持向量;
迭代上述过程,直至满足收敛条件。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现所述的方法。
本发明的有益效果为:无需使用传统的几何模型,无需通过人为制定阈值进行评估,减少人为主管因素的影响。可以适用于海量数据,通过分布式训练方法,并行对数据进行训练处理,可以大大提高计算速度和模型精度。该模型可以通过船舶运行过程中的数据对模型进行自适应调节,对模型进行修正,以使模型更加贴合船舶实际航行数据,提高模型精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一示例性实施例所述的一种船舶碰撞危险度判别方法的流程示意图;
图2为本发明一示例性实施例所述的非线性支持向量机决策树模型的结构示意图;
图3为本发明一示例性实施例所述的分布式训练法的示意图;
图4为本发明一示例性实施例所述的对所述非线性支持向量机决策树模型的训练流程示意图;
图5为本发明一示例性实施例所述的对所述非线性支持向量机决策树模型的更新训练流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明的描述中,所用术语仅用于说明目的,并非旨在限制本发明的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在,但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件,不代表顺序,且不对这些元件起限定作用。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图,这些和/或其他方面变得显而易见,并且,本领域普通技术人员更容易理解关于本发明所述实施例的说明。附图仅出于说明的目的用来描绘本发明所述实施例。本领域技术人员将很容易地从以下说明中认识到,在不背离本发明所述原理的情况下,可以采用本发明所示结构和方法的替代实施例。
本发明实施例所述的一种船舶碰撞危险度判别方法,如图1所示,所述方法包括:
获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练。
船舶碰撞危险度是目标船与本船的碰撞危险程度的度量,现有技术中对船舶碰撞危险度的量化评估大多通过建立几何模型,基于几何模型建立危险评判模型,以此来对碰撞危险进行评估。这种方式需要量化多个模型,计算过程复杂,且在评估过程中需要使用阈值进行判断,然而阈值具体数值大多通过主观因素人为制定,使得判别的结果不够准确。相关技术中也有采用K近邻算法确定会遇船舶碰撞危险类别,这种方法模型数据量相对较小,模型精度不够,评估结果不够准确。且无法实现实时数据累积累修正,以致模型无法扩展,而无法获取实时识别结果。
本发明所述方法通过非线性支持向量机决策树模型判别本船与目标船的碰撞危险度,无需使用传统的几何模型,无需通过人为制定阈值进行评估,减少人为主管因素的影响。所述方法可以适用于海量数据,通过分布式训练方法,并行对数据进行训练处理,可以大大提高计算速度和模型精度。该模型可以通过船舶运行过程中的数据对模型进行自适应调节,对模型进行修正,以使模型更加贴合船舶实际航行数据,提高模型精度。
一种可选的实施方式,所述对所述待处理船舶数据进行数据预处理,得到处理后的数据,包括:
对所述待处理船舶航行数据进行数据清洗,得到第一数据,其中,所述数据清洗包括噪声平滑、缺失值填充和异常值插补;
对所述第一数据进行数据变换,得到第二数据,其中,所述数据变换包括采用one-hot编码对数据进行变换;
对所述第二数据进行特征选择,得到所述处理后的数据,其中,所述特征选择通过随机森林算法实现。
本发明所述方法对数据清洗、数据变换等操作,提高输入模型的数据质量。数据清洗主要是平滑噪声数据,处理缺失值、异常值等。
其中,(1)噪声平滑、处理异常值例如采用以下方法:S1,分箱:通过考察数据的“近邻”(即周围的值)来光滑有序的数据值;S2,聚类:将类似的数据值组织成群或“簇”,落在簇集合之外的数据值被视为离群点,保留簇集合内的数据值;S3,回归:用一个函数拟合数据来光滑数据。(2)缺失值处理:在缺失率低(≤5%)且属性重要程度低时,若属性为数值型数据则根据数据分布情况简单的填充即可,例如:若数据分布均匀,则使用均值对数据进行填充;若数据分布倾斜,使用中位数填充。当缺失率高(>95%)且属性重要程度低时,可直接删除该属性。当缺失率高(>95%)且属性程度较高时,由于直接删除该属性对于网络的结果会造成不好的影响,可以使用插补法与建模法。
(2)数据变换主要采用定性特征哑编码:one-hot编码。one-hot编码是一种一位代表一种状态的编码方式,主要对于离散的、无序的特征值进行处理。对于船舶碰撞危险度进行判别时,特征之间的距离计算或相似度计算非常重要。距离或相似度的计算通常是在欧式空间的相似度计算,计算余弦相似性。使用one-hot编码,将离散特征的取值扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,无需对不同类别的会遇局面分别计算模型,实现了模型和数据的统一,可以使特征之间的距离计算更加合理。例如,目标船会遇属性,其值为{1,2,3,4,5,6},采用one-hot编码进行处理为{000001,000010,000100,001000,010000,100000}。
一种可选的实施方式,所述多个特征参数包括本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性。
其中,特征选择的过程,就是评估特征的过程,哪一个特征对输出变量的影响大,就选择哪一个。本发明采用随机森林算法,进行特征的重要性度量,选择重要性较高的特征。可采用如下方法:
1、特征重要性度量,计算某个特征X的重要性:
1)对每一颗决策树,选择相应的袋外数据计算袋外数据误差,记为err1,其中,袋外数据是指每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差;
2)随机对袋外数据所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为err2;
3)假设森林中有N棵树,则特征X的重要性=∑(err2-err1)/N。
2、特征选择:
1)计算每个特征的重要性,并按降序排序;
2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集
3)用新的特征集重复上述过程,直到剩下m个特征(m为预设值);
4)根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。例如本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性的特征集。如前述所述,在进行所述特征选择时,可根据模型、使用环境、船舶类型等对上述特征进行适当增加或减少,本发明对多个特征参数的选取不做具体限定。
一种可选的实施方式,所述方法还包括:获取原始数据集和新数据集,通过所述原始数据集获取所述训练数据集,通过所述新数据集获取所述新训练数据集;
其中,所述原始数据集包括:各个目标船历史运动数据、本船历史运动数据以及相应的历史判别数据,其中,所述相应的历史判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述原始数据集获取所述训练数据集包括:将所述数据集中的数据进行数据清洗、数据变换和特征选择,得到所述训练数据集;
其中,所述新数据集包括:各个目标船运动数据、本船运动数据以及相应的判别数据,其中,所述相应的判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述新数据集获取所述新训练数据集包括:将所述新数据集中的数据进行数据清洗、数据变换和特征选择,得到所述新训练数据集。
原始数据集可以理解为船舶航行的历史数据构成的数据集,新数据集可以理解为船舶航行的实时数据构成的数据集。还可以理解的是,由于海量的原始数据集中可能会存在大量不完整、不一致、重复、有异常的数据,会影响模型分类的结果,使得判别结果出现偏差。因此,训练数据集中的数据是原始数据集经过上述数据清洗、数据变换和特征选择所获得的,新训练数据集中的数据是新数据集经过上述数据清洗、数据变换和特征选择所获得的。其中的数据清洗、数据变换和特征选择的方法如前述所述,这里不再赘述。
一种可选的实施方式,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,其中,所述分类结果用于表征本船与目标船的碰撞危险度。
其中,非线性支持向量机模型结构如下:
输入:训练数据集
Figure 959484DEST_PATH_IMAGE001
,其中,
Figure 204521DEST_PATH_IMAGE002
表示特征向量,
Figure 984258DEST_PATH_IMAGE003
Figure 192517DEST_PATH_IMAGE004
表示特征向量的类标记,
Figure 6889DEST_PATH_IMAGE005
Figure 626089DEST_PATH_IMAGE006
Figure 470286DEST_PATH_IMAGE007
为+1表示为正例,
Figure 669186DEST_PATH_IMAGE004
为-1表示为负例;
输出:分离超平面和分类决策函数。
在训练过程中,选取适当的核函数
Figure 400382DEST_PATH_IMAGE008
和惩罚参数C,其中,
Figure 393746DEST_PATH_IMAGE009
,构造并求解凸二次规划问题。
关于目标函数
Figure 961124DEST_PATH_IMAGE010
的函数:
Figure 698136DEST_PATH_IMAGE011
其中,
Figure 283838DEST_PATH_IMAGE012
Figure 713683DEST_PATH_IMAGE013
为支持向量,
Figure 18891DEST_PATH_IMAGE014
Figure 621911DEST_PATH_IMAGE015
为支持向量的类标记,对应的优化量为
Figure 265382DEST_PATH_IMAGE016
Figure 413598DEST_PATH_IMAGE017
Figure 142519DEST_PATH_IMAGE018
Figure 283651DEST_PATH_IMAGE019
Figure 781628DEST_PATH_IMAGE006
得到最优解:
Figure 864859DEST_PATH_IMAGE020
选择
Figure 877815DEST_PATH_IMAGE021
的一个分量
Figure 760320DEST_PATH_IMAGE022
满足条件
Figure 925853DEST_PATH_IMAGE023
,计算
Figure 930719DEST_PATH_IMAGE024
分类决策函数为:
Figure 680238DEST_PATH_IMAGE025
高斯函数为:
Figure 100855DEST_PATH_IMAGE026
对应的非线性支持向量机模型是高斯径向基函数分类器,在此情况下,分类决策函数为:
Figure 635741DEST_PATH_IMAGE027
本发明可针对不同的训练集训练一个个基本分类器(弱分类器),然后集成而构成一个更强的最终的分类器(强分类器)。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。
一种可选的实施方式,所述本船与目标船的碰撞危险度包括多个分类类别,
所述从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,包括:
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,通过所述第一分类器对所述训练数据集进行第一层两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的两个集合中。。
本发明所述方法,将支持向量机与二叉树的结合,通过对训练数据集逐层两类划分后训练分类器,并以树结构组合策略进行未知样本分类。举例说明,如图2所示,本发明所述非线性支持向量机决策树模型可以实现碰撞危险度四个类别的分类(安全无危险局面、安全潜在危险局面、危险紧迫局面、危险极度紧迫局面)。通过第一分类器两类划分后,得到类别3和第一集合,类别3归于第一类别集合中,训练数据集中除去类别3的数据构成第一集合,通过第二分类器两类划分后,得到类别1和第二集合,类别1归于第二类别集合中,第一集合中除去类别1的数据构成第二集合,通过第三分类器两类划分后,得到类别2和类别4,类别2和类别4分别归于第三类别集合和第四类别集合中。上述为示例说明,本发明对类别的数量不做具体限定。
本发明中非线性支持向量机可以忽略异常值,找到具有最大边界的超平面,对异常值具有较强的鲁棒性。非线性支持向量机决策树模型可以适用于多分类情况,既保留了传统非线性支持向量机的优点、又可以进行准确的多类别划分。
一种可选的实施方式,所述训练数据集包括多个子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行训练,包括:
将对各个子集分别训练得到的各个第一支持向量进行组合,得到第一全局支持向量,并将所述多个子集合并;
将对合并后多个子集训练得到的第二支持向量与所述第一全局支持向量进行组合,得到第二全局支持向量;
迭代上述过程,直至满足收敛条件;
其中,所述新训练数据集包括多个新子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行更新训练,包括:
将对各个新子集分别更新训练得到的各个第三支持向量进行组合,得到第三全局支持向量,并将所述多个新子集合并;
将对合并后多个新子集训练得到的第四支持向量与所述第三全局支持向量进行组合,得到第四全局支持向量;
迭代上述过程,直至满足收敛条件。
如图3所示,本发明所述方法采用分布式训练法,训练后获得的支持向量合并,迭代以上两个过程直到收敛。可以理解的是,训练数据集和新训练数据集可以分为几个部分,训练得到的支持向量是全局支持向量。所述方法在针对训练数据集大的情况下,可分为几个子集,然后将子集的训练结果组合在一起。
可以理解的是,如图4所示,本发明对所述非线性支持向量机决策树模型的训练过程,需要收集船舶航行历史数据作为原始数据集,再进行数据处理,再采用分布式训练法进行模型训练,最后将训练好的模型和支持向量存储。如图5所示,本发明对对所述非线性支持向量机决策树模型的更新训练过程,需要收集船舶航行实时数据作为新数据集,再进行数据处理,再采用分布式训练法进行模型更新训练,最后将训练好的模型和全局支持向量存储,即完成一个更新周期的更新。实时数据收集各阶段取一段时间,例如一天内的数据作为更新周期,即在每一天进行一次模型更新,使用更新时刻之前24小时内数据,更新周期可以随模型需要进行更改。
本发明实施例所述的一种船舶碰撞危险度判别系统,所述系统包括:
数据获取模块,用于获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
数据处理模块,用于对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
数据识别模块,用于通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练。
船舶碰撞危险度是目标船与本船的碰撞危险程度的度量,现有技术中对船舶碰撞危险度的量化评估大多通过建立几何模型,基于几何模型建立危险评判模型,以此来对碰撞危险进行评估。这种方式需要量化多个模型,计算过程复杂,且在评估过程中需要使用阈值进行判断,然而阈值具体数值大多通过主观因素人为制定,使得判别的结果不够准确。相关技术中也有采用K近邻算法确定会遇船舶碰撞危险类别,这种方法模型数据量相对较小,模型精度不够,评估结果不够准确。且无法实现实时数据累积累修正,以致模型无法扩展,而无法获取实时识别结果。
本发明所述系统通过非线性支持向量机决策树模型判别本船与目标船的碰撞危险度,无需使用传统的几何模型,无需通过人为制定阈值进行评估,减少人为主管因素的影响。所述系统可以适用于海量数据,通过分布式训练方法,并行对数据进行训练处理,可以大大提高计算速度和模型精度。该模型可以通过船舶运行过程中的数据对模型进行自适应调节,对模型进行修正,以使模型更加贴合船舶实际航行数据,提高模型精度。
一种可选的实施方式,所述数据获取模块包括:
对所述待处理船舶航行数据进行数据清洗,得到第一数据,其中,所述数据清洗包括噪声平滑、缺失值填充和异常值插补;
对所述第一数据进行数据变换,得到第二数据,其中,所述数据变换包括采用one-hot编码对数据进行变换;
对所述第二数据进行特征选择,得到所述处理后的数据,其中,所述特征选择通过随机森林算法实现。
本发明所述系统对数据清洗、数据变换等操作,提高输入模型的数据质量。数据清洗主要是平滑噪声数据,处理缺失值、异常值等。
其中,(1)噪声平滑、处理异常值例如采用以下方法:S1,分箱:通过考察数据的“近邻”(即周围的值)来光滑有序的数据值;S2,聚类:将类似的数据值组织成群或“簇”,落在簇集合之外的数据值被视为离群点,保留簇集合内的数据值;S3,回归:用一个函数拟合数据来光滑数据。(2)缺失值处理:在缺失率低(≤5%)且属性重要程度低时,若属性为数值型数据则根据数据分布情况简单的填充即可,例如:若数据分布均匀,则使用均值对数据进行填充;若数据分布倾斜,使用中位数填充。当缺失率高(>95%)且属性重要程度低时,可直接删除该属性。当缺失率高(>95%)且属性程度较高时,由于直接删除该属性对于网络的结果会造成不好的影响,可以使用插补法与建模法。
(2)数据变换主要采用定性特征哑编码:one-hot编码。one-hot编码是一种一位代表一种状态的编码方式,主要对于离散的、无序的特征值进行处理。对于船舶碰撞危险度进行判别时,特征之间的距离计算或相似度计算非常重要。距离或相似度的计算通常是在欧式空间的相似度计算,计算余弦相似性。使用one-hot编码,将离散特征的取值扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,无需对不同类别的会遇局面分别计算模型,实现了模型和数据的统一,可以使特征之间的距离计算更加合理。例如,目标船会遇属性,其值为{1,2,3,4,5,6},采用one-hot编码进行处理为{000001,000010,000100,001000,010000,100000}。
一种可选的实施方式,所述多个特征参数包括本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性。
其中,特征选择的过程,就是评估特征的过程,哪一个特征对输出变量的影响大,就选择哪一个。本发明采用随机森林算法,进行特征的重要性度量,选择重要性较高的特征。可采用如下方法:
1、特征重要性度量,计算某个特征X的重要性:
1)对每一颗决策树,选择相应的袋外数据计算袋外数据误差,记为err1,其中,袋外数据是指每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差;
2)随机对袋外数据所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值),再次计算袋外数据误差,记为err2;
3)假设森林中有N棵树,则特征X的重要性=∑(err2-err1)/N。
2、特征选择:
1)计算每个特征的重要性,并按降序排序;
2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集
3)用新的特征集重复上述过程,直到剩下m个特征(m为预设值);
4)根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。例如本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性的特征集。如前述所述,在进行所述特征选择时,可根据模型、使用环境、船舶类型等对上述特征进行适当增加或减少,本发明对多个特征参数的选取不做具体限定。
一种可选的实施方式,所述系统还包括:
获取原始数据集和新数据集,通过所述原始数据集获取所述训练数据集,通过所述新数据集获取所述新训练数据集;
其中,所述原始数据集包括:各个目标船历史运动数据、本船历史运动数据以及相应的历史判别数据,其中,所述相应的历史判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述原始数据集获取所述训练数据集包括:将所述数据集中的数据进行数据清洗、数据变换和特征选择,得到所述训练数据集;
其中,所述新数据集包括:各个目标船运动数据、本船运动数据以及相应的判别数据,其中,所述相应的判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述新数据集获取所述新训练数据集包括:将所述新数据集中的数据进行数据清洗、数据变换和特征选择,得到所述新训练数据集。
原始数据集可以理解为船舶航行的历史数据构成的数据集,新数据集可以理解为船舶航行的实时数据构成的数据集。还可以理解的是,由于海量的原始数据集中可能会存在大量不完整、不一致、重复、有异常的数据,会影响模型分类的结果,使得判别结果出现偏差。因此,训练数据集中的数据是原始数据集经过上述数据清洗、数据变换和特征选择所获得的,新训练数据集中的数据是新数据集经过上述数据清洗、数据变换和特征选择所获得的。其中的数据清洗、数据变换和特征选择的方法如前述所述,这里不再赘述。
一种可选的实施方式,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,其中,所述分类结果用于表征本船与目标船的碰撞危险度。
其中,非线性支持向量机模型结构如下:
输入:训练数据集
Figure 562240DEST_PATH_IMAGE001
,其中,
Figure 487471DEST_PATH_IMAGE002
表示特征向量,
Figure 774096DEST_PATH_IMAGE003
Figure 835592DEST_PATH_IMAGE028
表示特征向量的类标记,
Figure 431528DEST_PATH_IMAGE005
Figure 906371DEST_PATH_IMAGE006
Figure 934370DEST_PATH_IMAGE028
为+1表示为正例,
Figure 929002DEST_PATH_IMAGE028
为-1表示为负例;
输出:分离超平面和分类决策函数。
在训练过程中,选取适当的核函数
Figure 118675DEST_PATH_IMAGE008
和惩罚参数C,其中,
Figure 80815DEST_PATH_IMAGE009
,构造并求解凸二次规划问题。
关于目标函数
Figure 646925DEST_PATH_IMAGE010
的函数:
Figure 266038DEST_PATH_IMAGE011
其中,
Figure 626612DEST_PATH_IMAGE012
Figure 76048DEST_PATH_IMAGE013
为支持向量,
Figure 258898DEST_PATH_IMAGE014
Figure 149494DEST_PATH_IMAGE015
为支持向量的类标记,对应的优化量为
Figure 8866DEST_PATH_IMAGE016
Figure 929286DEST_PATH_IMAGE017
Figure 102778DEST_PATH_IMAGE018
Figure 175777DEST_PATH_IMAGE019
Figure 143733DEST_PATH_IMAGE006
得到最优解:
Figure 52914DEST_PATH_IMAGE020
选择
Figure 764518DEST_PATH_IMAGE021
的一个分量
Figure 692023DEST_PATH_IMAGE029
满足条件
Figure 830880DEST_PATH_IMAGE023
,计算
Figure 725893DEST_PATH_IMAGE024
分类决策函数为:
Figure 975608DEST_PATH_IMAGE025
高斯函数为:
Figure 23199DEST_PATH_IMAGE026
对应的非线性支持向量机模型是高斯径向基函数分类器,在此情况下,分类决策函数为:
Figure 146007DEST_PATH_IMAGE027
本发明可针对不同的训练集训练一个个基本分类器(弱分类器),然后集成而构成一个更强的最终的分类器(强分类器)。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。
一种可选的实施方式,所述本船与目标船的碰撞危险度包括多个分类类别,
所述从所述决策树根节点出发,自顶向下,在所述决策树的每个节点处,分别采用一个非线性支持向量机模型作为分类器,对所述训练数据集逐层两类划分,获取最终的分类结果,包括:
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,通过所述第一分类器对所述训练数据集进行两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的两个集合中。
本发明所述系统,将支持向量机与二叉树的结合,通过对训练数据集逐层两类划分后训练分类器,并以树结构组合策略进行未知样本分类。举例说明,如图2所示,本发明所述非线性支持向量机决策树模型可以实现碰撞危险度四个类别的分类(安全无危险局面、安全潜在危险局面、危险紧迫局面、危险极度紧迫局面)。通过第一分类器两类划分后,得到类别3和第一集合,通过第二分类器两类划分后,得到类别1和第二集合,通过第三分类器两类划分后,得到类别2和类别4。上述为示例说明,本发明对类别的数量不做具体限定。
本发明中非线性支持向量机可以忽略异常值,找到具有最大边界的超平面,对异常值具有较强的鲁棒性。非线性支持向量机决策树模型可以适用于多分类情况,既保留了传统非线性支持向量机的优点、又可以进行准确的多类别划分。
一种可选的实施方式,所述训练数据集包括多个子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行训练,包括:
将对各个子集分别训练得到的各个第一支持向量进行组合,得到第一全局支持向量,并将所述多个子集合并;
将对合并后多个子集训练得到的第二支持向量与所述第一全局支持向量进行组合,得到第二全局支持向量;
迭代上述过程,直至满足收敛条件;
其中,所述新训练数据集包括多个新子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行更新训练,包括:
将对各个新子集分别更新训练得到的各个第三支持向量进行组合,得到第三全局支持向量,并将所述多个新子集合并;
将对合并后多个新子集训练得到的第四支持向量与所述第三全局支持向量进行组合,得到第四全局支持向量;
迭代上述过程,直至满足收敛条件。
如图3所示,本发明所述系统采用分布式训练法,训练后获得的支持向量合并,迭代以上两个过程直到收敛。可以理解的是,训练数据集和新训练数据集可以分为几个部分,训练得到的支持向量是全局支持向量。所述系统在针对训练数据集大的情况下,可分为几个子集,然后将子集的训练结果组合在一起。
可以理解的是,如图4所示,本发明对所述非线性支持向量机决策树模型的训练过程,需要收集船舶航行历史数据作为原始数据集,再进行数据处理,再采用分布式训练法进行模型训练,最后将训练好的模型和支持向量存储。如图5所示,本发明对对所述非线性支持向量机决策树模型的更新训练过程,需要收集船舶航行实时数据作为新数据集,再进行数据处理,再采用分布式训练法进行模型更新训练,最后将训练好的模型和全局支持向量存储,即完成一个更新周期的更新。实时数据收集各阶段取一段时间,例如一天内的数据作为更新周期,即在每一天进行一次模型更新,使用更新时刻之前24小时内数据,更新周期可以随模型需要进行更改。
本公开还涉及一种电子设备,包括服务器、终端等。该电子设备包括:至少一个处理器;与至少一个处理器通信连接的存储器;以及与存储介质通信连接的通信组件,所述通信组件在处理器的控制下接收和发送数据;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行以实现上述实施例中的方法。
在一种可选的实施方式中,存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器中,当被一个或者多个处理器执行时,执行上述任意方法实施例中的方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本公开还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域普通技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本领域技术人员应理解,尽管已经参考示例性实施例描述了本发明,但是在不脱离本发明的范围的情况下,可进行各种改变并可用等同物替换其元件。另外,在不脱离本发明的实质范围的情况下,可进行许多修改以使特定情况或材料适应本发明的教导。因此,本发明不限于所公开的特定实施例,而是本发明将包括落入所附权利要求范围内的所有实施例。

Claims (8)

1.一种船舶碰撞危险度判别方法,其特征在于,所述方法包括:
获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练;
所述本船与目标船的碰撞危险度包括多个分类类别,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,通过所述第一分类器对所述训练数据集进行第一层两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的集合中。
2.如权利要求1所述的方法,其中,所述对所述待处理船舶数据进行数据预处理,得到处理后的数据,包括:
对所述待处理船舶航行数据进行数据清洗,得到第一数据,其中,所述数据清洗包括噪声平滑、缺失值填充和异常值插补;
对所述第一数据进行数据变换,得到第二数据,其中,所述数据变换包括采用one-hot编码对数据进行变换;
对所述第二数据进行特征选择,得到所述处理后的数据,其中,所述特征选择通过随机森林算法实现。
3.如权利要求1所述的方法,其中,所述多个特征参数包括本船和目标船之间的相对距离、本船速度、目标船速度、目标船航向、本船和目标船之间的相对航向、本船和目标船之间的相对方位、本船船长、目标船船长、最近会遇距离以及目标船会遇属性。
4.如权利要求1所述的方法,其中,所述方法还包括:获取原始数据集和新数据集,通过所述原始数据集获取所述训练数据集,通过所述新数据集获取所述新训练数据集;
其中,所述原始数据集包括:各个目标船历史运动数据、本船历史运动数据以及相应的历史判别数据,其中,所述相应的历史判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述原始数据集获取所述训练数据集包括:将所述数据集中的数据进行数据清洗、数据变换和特征选择,得到所述训练数据集;
其中,所述新数据集包括:各个目标船运动数据、本船运动数据以及相应的判别数据,其中,所述相应的判别数据包括本船与目标船的碰撞危险度;
其中,所述通过所述新数据集获取所述新训练数据集包括:将所述新数据集中的数据进行数据清洗、数据变换和特征选择,得到所述新训练数据集。
5.如权利要求1所述的方法,其中,所述训练数据集包括多个子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行训练,包括:
将对各个子集分别训练得到的各个第一支持向量进行组合,得到第一全局支持向量,并将所述多个子集合并;
将对合并后多个子集训练得到的第二支持向量与所述第一全局支持向量进行组合,得到第二全局支持向量;
迭代上述过程,直至满足收敛条件;
其中,所述新训练数据集包括多个新子集,
所述采用分布式训练法对所述非线性支持向量机决策树模型进行更新训练,包括:
将对各个新子集分别更新训练得到的各个第三支持向量进行组合,得到第三全局支持向量,并将所述多个新子集合并;
将对合并后多个新子集训练得到的第四支持向量与所述第三全局支持向量进行组合,得到第四全局支持向量;
迭代上述过程,直至满足收敛条件。
6.一种船舶碰撞危险度判别系统,其特征在于,所述系统包括:
数据获取模块,用于获取待处理船舶航行数据,其中,所述待处理船舶航行数据包括待处理本船航行数据和待处理目标船航行数据;
数据处理模块,用于对所述待处理船舶数据进行数据预处理,得到处理后的数据,其中,所述处理后的数据包括船舶航行特征,所述船舶航行特征包括多个特征参数;
数据识别模块,用于通过非线性支持向量机决策树模型对所述船舶航行特征进行识别,确定本船与目标船的碰撞危险度;
其中,通过训练数据集对所述非线性支持向量机决策树模型进行训练,通过新训练数据集对所述非线性支持向量机决策树模型进行更新训练,以根据实时船舶航行数据对所述非线性支持向量机决策树模型进行修正,实现对船舶航行特征的实时识别,其中,采用分布式训练法对所述非线性支持向量机决策树模型进行训练和更新训练;
所述本船与目标船的碰撞危险度包括多个分类类别,所述通过训练数据集对所述非线性支持向量机决策树模型进行训练,包括:
构建多个非线性支持向量机模型以及决策树;
在所述决策树根节点处,将第一非线性支持向量机模型作为第一分类器,通过所述第一分类器对所述训练数据集进行第一层两类划分,获取第一层分类结果,其中,所述第一层分类结果包括第一类别和第一集合,所述第一类别归于第一类别集合中;
在所述决策树叶节点处,将第二非线性支持向量机模型作为第二分类器,通过所述第二分类器对所述第一集合进行第二层两类划分,获取第二层分类结果,其中,所述第二层分类结果包括第二类别和第二集合,所述第二类别归于第二类别集合中;
逐层两类划分,直至通过第n-1分类器对第n-2集合进行最后一层两类划分,得到第n-1类别和第n类别,所述第n-1类别归于第n-1类别集合中,所述第n类别归于第n类别集合中;
其中,在所述决策树的每个节点处进行两类划分时,通过确定类别中心欧氏距离最大的两个分类,将所述两个分类分别归于所述两个分类对应的集合中。
7.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如权利要求1-5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1-5中任一项所述的方法。
CN202011589195.XA 2020-12-29 2020-12-29 一种船舶碰撞危险度判别方法及系统 Active CN112287468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011589195.XA CN112287468B (zh) 2020-12-29 2020-12-29 一种船舶碰撞危险度判别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011589195.XA CN112287468B (zh) 2020-12-29 2020-12-29 一种船舶碰撞危险度判别方法及系统

Publications (2)

Publication Number Publication Date
CN112287468A CN112287468A (zh) 2021-01-29
CN112287468B true CN112287468B (zh) 2021-03-26

Family

ID=74426602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011589195.XA Active CN112287468B (zh) 2020-12-29 2020-12-29 一种船舶碰撞危险度判别方法及系统

Country Status (1)

Country Link
CN (1) CN112287468B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449792A (zh) * 2021-06-28 2021-09-28 四创电子股份有限公司 一种无损快速检测食品质量的方法
CN114117724B (zh) * 2021-09-10 2022-09-06 大连海事大学 基于非线性速度障碍法的船舶碰撞危险度建模方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844663B (zh) * 2017-01-23 2020-01-17 中国石油大学(华东) 一种基于数据挖掘的船舶碰撞风险评估方法及系统
CN107289939B (zh) * 2017-06-09 2020-08-25 武汉理工大学 基于svm算法的无人船路径规划方法
EP3495220B1 (en) * 2017-12-11 2024-04-03 Volvo Car Corporation Path prediction for a vehicle
CN109263826B (zh) * 2018-08-30 2019-10-01 武汉理工大学 基于操纵性建模的船舶智能避碰系统及方法
CN111613094A (zh) * 2020-05-26 2020-09-01 江苏海事职业技术学院 一种港口水域船舶交通风险预警方法

Also Published As

Publication number Publication date
CN112287468A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN106951825B (zh) 一种人脸图像质量评估系统以及实现方法
US8725660B2 (en) Applying non-linear transformation of feature values for training a classifier
CN112287468B (zh) 一种船舶碰撞危险度判别方法及系统
CN108898479B (zh) 信用评价模型的构建方法及装置
CN109271958B (zh) 人脸年龄识别方法及装置
Hu et al. Classification of wine quality with imbalanced data
CN115525068B (zh) 基于迭代优化的无人机集群协同任务分配方法
CN111401339B (zh) 识别人脸图像中的人的年龄的方法、装置及电子设备
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN108154186B (zh) 一种模式识别方法和装置
CN115331752B (zh) 一种能够自适应预测石英形成环境的方法
CN115113168A (zh) 一种基于神经网络的雷达杂波抑制方法
CN111783866B (zh) 一种基于改进foa-svm的生产物流预警信息多分类方法
Meng et al. Vigilance adaptation in adaptive resonance theory
CN116206208B (zh) 一种基于人工智能的林业病虫害快速分析系统
CN116662832A (zh) 一种基于聚类和主动学习的训练样本选择方法
CN113537339B (zh) 一种基于多标签图像分类的识别共生或伴生矿物的方法与系统
CN112201340B (zh) 一种基于贝叶斯网络过滤的心电图病症确定方法
CN114662568A (zh) 数据分类方法、装置、设备和存储介质
CN111984842A (zh) 银行客户数据处理方法及装置
CN113468936A (zh) 一种食材识别方法、装置和设备
Tóth et al. On classification confidence and ranking using decision trees
Patel et al. Enhanced CNN for Fruit Disease Detection and Grading Classification using SSDAE-SVM for Postharvest Fruits
CN114896479B (zh) 一种在线学习方法、系统及计算机可读存储介质
CN111860567B (zh) 叶片图像识别模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210413

Address after: Room 501, 5th floor, building 10, yard 7, Dijin Road, Haidian District, Beijing 100095

Patentee after: BEIJING HIGHLANDR DIGITAL TECHNOLOGY Co.,Ltd.

Patentee after: Sansha Highlander marine Mdt InfoTech Ltd.

Address before: Room 501, 5th floor, building 10, yard 7, Dijin Road, Haidian District, Beijing 100095

Patentee before: BEIJING HIGHLANDR DIGITAL TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right