CN113836118B - 船舶静态数据补充方法和装置、电子设备和可读存储介质 - Google Patents
船舶静态数据补充方法和装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN113836118B CN113836118B CN202111400612.6A CN202111400612A CN113836118B CN 113836118 B CN113836118 B CN 113836118B CN 202111400612 A CN202111400612 A CN 202111400612A CN 113836118 B CN113836118 B CN 113836118B
- Authority
- CN
- China
- Prior art keywords
- data
- ship
- model
- feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种船舶静态数据补充方法和装置、电子设备和可读存储介质。船舶静态数据补充方法包括:获取样本船舶集合;获取样本特征数据;构建特征有效性判断模型;采用特征有效性判断模型对样本特征数据进行有效性判断;构建静态数据补充模型;获取目标船舶信息;获取目标特征数据;采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。本发明能够提高目标船舶静态信息补充数据的准确性。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种船舶静态数据补充方法和装置、电子设备和可读存储介质。
背景技术
相关技术中对船舶静态数据进行补充通常采用的是均值补充,或者学习需补充静态特征与船长之间的单变量回归关系,利用回归函数进行补充。采用均值进行补充,会导致补充的数据准确率低的情况。单变量回归的方法不能充分利用AIS数据中的其他信息,也会导致补充准确率过低的情况。
发明内容
本发明旨在解决或改善上述技术问题的至少之一。
为此,本发明的第一目的在于提供一种船舶静态数据补充方法。
本发明的第二目的在于提供一种船舶静态数据补充装置。
本发明的第三目的在于提供一种电子设备。
本发明的第四目的在于提供一种可读存储介质。
为实现本发明的第一目的,本发明的技术方案提供了一种船舶静态数据补充方法,包括:获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;对样本船舶集合进行处理,得到样本特征数据;基于样本特征数据,构建特征有效性判断模型;采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,得到第一数据;通过第一数据,构建静态数据补充模型;获取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;对目标船舶信息进行处理,得到目标特征数据;采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
本实施例中,首先构建特征有效性判断模型、静态数据补充模型,通过目标船舶信息,得到目标特征数据,采用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数据,基于第二数据,通过静态数据补充模型对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
另外,本发明提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,对样本船舶集合进行处理,得到样本特征数据,具体包括:采用目标变量编码方法对类别特征进行编码;对船舶历史轨迹数据进行处理,生成轨迹特征。
本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
上述任一技术方案中,基于样本特征数据,构建特征有效性判断模型,具体包括:基于样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。
本实施例中,采用半监督的方式,通过异常检测算法构建特征有效性判断模型,通过特征有效性判断模型可以有效地识别特征变量值是否为无效值,提高识别准确率,进而使补充的船舶静态数据的数据准确率增高。
上述任一技术方案中,半监督的异常检测算法,具体包括:设样本特征数据服从高斯分布,采用最小协方差行列式估计器估计样本特征数据的均值估计量和协方差估计量,基于协方差估计量,获取样本特征数据中的特征变量值与均值估计量的马氏距离,拟合出样本特征数据的椭圆形包络,椭圆形包络之内的特征变量值为有效值,椭圆形包络外的特征变量值为无效值。
本实施例中,给出了椭圆包络模型的具体计算公式,通过公式可以快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
上述任一技术方案中,特征有效性判断模型包括:对样本特征数据中每个特征分别建立模型;和/或对样本特征数据中多个相关特征建立联合模型。
本实施例中,提供了两种建模形式,可以根据具体实际情况,进行选择,通过构建特征有效性判断模型,快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
上述任一技术方案中,通过第一数据,构建静态数据补充模型,具体包括:基于加权分类回归树模型,通过第一数据,构建静态数据补充模型。
本实施例中,加权分类回归树模型的可解释性强并且所需计算代价低,可以很好地解决样本量足够大并且特征个数较少的静态数据补充问题。
上述技术方案中,加权分类回归树模型为基于分类回归树模型的改进,加权分类回归树模型对第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,得到回归树,回归树即为静态数据补充模型。
本实施例中,给出了加权分类回归树模型的具体计算公式,通过公式可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
为实现本发明的第二目的,本发明的技术方案提供了一种船舶静态数据补充装置,包括:第一获取模块、第一特征生成模块、第一构建模块、第一预处理模块、第二构建模块、第二获取模块、第二特征生成模块、第二预处理模块和预测模块,第一获取模块获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;第一特征生成模块对样本船舶集合进行处理,得到样本特征数据;第一构建模块基于样本特征数据,构建特征有效性判断模型;第一预处理模块采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第一数据;第二构建模块通过第一数据,构建静态数据补充模型;第二获取模块获取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;第二特征生成模块对目标船舶信息进行处理,得到目标特征数据;第二预处理模块采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第二数据;预测模块将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
本实施例中,第一构建模块构建特征有效性判断模型,第二构建模块构建静态数据补充模型,通过第二获取模块获取目标船舶信息,得到目标特征数据,第二预处理模块采用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数据,基于第二数据,预测模块通过静态数据补充模型对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
为实现本发明的第三目的,本发明的技术方案提供了一种电子设备,包括:存储器和处理器,存储器存储有程序或指令,处理器执行程序或指令;其中,处理器在执行程序或指令时,实现如本发明任一技术方案的船舶静态数据补充方法的步骤。
本技术方案提供的电子设备实现如本发明任一技术方案的船舶静态数据补充方法的步骤,因而其具有如本发明任一技术方案的船舶静态数据补充方法的全部有益效果,在此不再赘述。
为实现本发明的第四目的,本发明的技术方案提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一技术方案的船舶静态数据补充方法的步骤。
本技术方案提供的可读存储介质实现如本发明任一技术方案的船舶静态数据补充方法的步骤,因而其具有如本发明任一技术方案的船舶静态数据补充方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的船舶静态数据补充方法流程图之一;
图2为根据本发明一个实施例的船舶静态数据补充方法流程图之二;
图3为根据本发明一个实施例的船舶静态数据补充方法流程图之三;
图4为根据本发明一个实施例的船舶静态数据补充方法流程图之四;
图5为根据本发明一个实施例的船舶静态数据补充方法流程图之五;
图6为根据本发明一个实施例的船舶静态数据补充方法流程图之六;
图7为根据本发明一个实施例的船舶静态数据补充方法流程图之七;
图8为根据本发明一个实施例的船舶静态数据补充装置组成示意框图;
图9为根据本发明一个实施例的电子设备组成示意框图;
图10为根据本发明一个实施例的船舶静态数据补充方法流程图之八;
图11为根据本发明一个实施例的货船类型船长船宽有效性判断示意图。
其中,图8和图9中附图标记与部件名称之间的对应关系为:
100:船舶静态数据补充装置,110:第一获取模块,120:第一特征生成模块,130:第一构建模块,140:第一预处理模块,150:第二构建模块,160:第二获取模块,170:第二特征生成模块,180:第二预处理模块,190:预测模块,200:电子设备,210:存储器,220:处理器。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图11描述本发明一些实施例的船舶静态数据补充方法和装置、电子设备和可读存储介质。
船舶自动识别系统(Automatic Identification System,简称AIS系统)由岸基设施和船载设备共同组成,是一种新型的集网络技术、现代通讯技术、计算机技术、电子信息显示技术为一体的数字助航系统和设备。AIS数据包含船舶静态数据和船舶动态数据,其中静态数据包含船名、呼号、MMSI(水上移动通信业务标识码,Maritime Mobile ServiceIdentify,简称“MMSI”)、IMO(国际海事组织,International Maritime Organization,简称“IMO”)、船舶类型、船长、船宽、左舷距、船尾舷距、ETA(预计到达时间,Estimated Timeof Arrival,简称“ETA”)、吃水、目的地等;动态数据包含实时信息上报的UTC(世界标准时间,Universal Time Coordinated,简称“UTC”)时间、航线状态、旋转角速度、对地速度、对地航向、船艏向、经度、纬度等。
AIS系统详实的动静态信息可被用来获取某个港口的船舶数量以及船舶作业时间等进行港口吞吐量估计和港口作业效率评估;也可被用来获取某个船舶的航行轨迹、实时船位以及实时速度等对船舶进行实时跟踪。但是对于某些同样重要的海运业务,AIS所包含的数据是不够的。例如计算船舶实际航行过程中的大气污染物排放量所需的关键特征,主机功率、辅机功率、锅炉功率以及船舶设计最大速度等无法从AIS系统中获得。IHS档案数据库包含船舶注册信息、船舶所属公司及联系方式、船舶吨位/尺寸/建造信息、以及主机功率、辅机功率等详细的船舶设备信息,可以提供船舶大气污染物排放量计算所需特征。然而,IHS档案数据库仅包含总吨在300GT以上的国际航行船舶,并不包括对中国沿海污染物排放计算非常重要的非档案船舶。
相关技术中对船舶静态数据进行补充通常采用的是均值补充,或者学习需补充静态特征与船长之间的单变量回归关系,利用回归函数进行补充。例如,当补充船舶主机功率时,根据船舶主机功率有效的船舶样本数据集,学习主机功率与船长之间的拟合关系式。利用待补充船舶的船长,根据拟合关系式得到船舶的主机功率。然而,单变量回归的方法仅利用船舶的船长信息,没有充分利用AIS数据中的其他信息,补充的准确率往往过低。
综上,本实施例的目的在于解决以上问题的至少之一,本实施例充分利用AIS数据中的静态信息和船舶历史轨迹信息,相比通常采用的均值补充方法或者仅利用船长信息的单变量回归补充方法,大幅提升数据补充的准确性。
实施例1:
如图1所示,本实施例提供了一种船舶静态数据补充方法,包括以下步骤:
步骤S102,获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;
步骤S104,对样本船舶集合进行处理,得到样本特征数据;
步骤S106,基于样本特征数据,构建特征有效性判断模型;
步骤S108,采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,得到第一数据;
步骤S110,通过第一数据,构建静态数据补充模型;
步骤S112,获取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;
步骤S114,对目标船舶信息进行处理,得到目标特征数据;
步骤S116,采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;
步骤S118,将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
本实施例中,对于样本船舶集合的每一个样本船舶,通过IHS船舶档案获取其所有静态信息,通过AIS(船舶自动识别系统,Automatic Identification System,简称AIS系统)数据获取船舶历史轨迹数据,船舶历史轨迹数据可以为2021年1月1日以来的船舶历史轨迹数据。静态信息可以包括船舶MMSI(水上移动通信业务标识码,Maritime MobileService Identify,简称“MMSI”)、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度、船舶主机功率以及船舶吃水(此处的静态信息需要是完整的,包括需要进行补充数据参数)。船舶历史轨迹数据中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转角速度。
本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
本实施例中,采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,有效值替换,可以是采用基于船舶类型的类别中位数替换无效值。举例而言,可以采用货船的船长中位数替换无效的货船船长。通过采用基于船舶类型的类别中位数替换无效值,可以使替换后得到的第一数据更加符合要求。
本实施例通过构建特征有效性判断模型,可以有效的识别特征变量值是否为无效值,提高识别准确率,进而使补充的船舶静态数据的数据准确率增高。
本实施例可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
本实施例中,获取目标船舶信息的具体方式为:对于目标船舶,通过AIS数据获取其所有静态信息以及船舶历史轨迹数据。其中目标船舶静态信息可以包括船舶MMSI、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度、船舶主机功率以及船舶吃水等(此时目标船舶静态信息缺少需要进行补充的数据参数)。船舶历史轨迹中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转角速度。
本实施例中,获取目标特征数据时,样本特征数据与目标特征数据的特征生成的逻辑一致。
本实施例中,采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据。第一有效值替换和第二有效值替换的替换逻辑一致,第一有效值替换或第二有效值替换都可以采用基于船舶类型的类别中位数替换无效值。
本实施例中,首先构建特征有效性判断模型、静态数据补充模型,通过目标船舶信息,得到目标特征数据,采用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数据,基于第二数据,通过静态数据补充模型对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
本实施例充分利用AIS数据中的静态信息和船舶历史轨迹信息,相比通常采用的均值补充方法或者仅利用单一信息的单变量回归补充方法,大幅提升数据补充的准确性。
实施例2:
如图2所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
对样本船舶集合进行处理,得到样本特征数据,具体包括以下步骤:
步骤S202,采用目标变量编码方法对类别特征进行编码;
步骤S204,对船舶历史轨迹数据进行处理,生成轨迹特征。
本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
本实施例可以通过特征工程实现,特征工程包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹数据进行处理,生成轨迹特征。轨迹特征可以包括船舶历史最大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大旋转角速度、船舶对地速度变化率的最大值、船舶旋转角速度变化率的最大值,船舶对地航向变化率的最大值。
实施例3:
如图3所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
基于样本特征数据,构建特征有效性判断模型,具体包括以下步骤:
步骤S302,基于样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。
本实施例中,采用半监督的方式,通过异常检测算法构建特征有效性判断模型,通过特征有效性判断模型可以有效地识别特征变量值是否为无效值,提高识别准确率,进而使补充的船舶静态数据的数据准确率增高。
实施例4:
如图4所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
半监督的异常检测算法,具体包括以下步骤:
步骤S402,设样本特征数据服从高斯分布,采用最小协方差行列式估计器估计样本特征数据的均值估计量和协方差估计量,基于协方差估计量,获取样本特征数据中的特征变量值与均值估计量的马氏距离,拟合出样本特征数据的椭圆形包络,椭圆形包络之内的特征变量值为有效值,椭圆形包络外的特征变量值为无效值。
本实施例中,半监督异常检测算法可以选择椭圆包络模型(EllipticEnvelope)。EllipticEnvelope模型中,假设特征数据服从高斯分布,采用最小协方差行列式估计器(The Minimum Covariance Determinant estimator,MCD)估计样本特征数据的均值估计量和协方差估计量,进而根据特征变量值与均值估计量的马氏距离(MahalanobisDistance)判断样本特征数据的有效性。从几何意义来看,EllipticEnvelope模型为样本数据拟合出椭圆形包络,椭圆之内的特征变量值为有效值,椭圆外的特征变量值为无效值。
进一步地,最小协方差行列式估计器(MCD)计算的均值估计量和协方差估计量,具有更好的鲁棒性,避免了由于离群值造成的估计量偏移。均值估计量的公式为:
其中,表示均值估计量,表示样本特征数据子集的样本量,表示样本特征数据中每个样本的下标,表示样本量为的样本特征数据子集,且在所有样本量为h的样本特征数据子集中,该样本特征数据子集的协方差矩阵的行列式最小,表示样本特征数据中的第个样本。
协方差估计量的公式为:
特征变量值与均值估计量之间的马氏距离为:
本实施例中,给出了椭圆包络模型的具体计算公式,通过公式可以快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
实施例5:
如图5和图6所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
特征有效性判断模型包括以下步骤:
步骤S502,对样本特征数据中每个特征分别建立模型;和/或
步骤S504,对样本特征数据中多个相关特征建立联合模型。
本实施例中,特征有效性判断模型可以是对样本特征数据的每个特征分别建立模型,也可以是对多个相关特征建立联合模型。举例而言,建立船舶历史最大对地速度的有效性判断模型,即是根据样本船舶的历史最大对地速度拟合出一个椭圆,在单个特征的情况下,椭圆退化为线段,则处于线段内部的速度为有效速度,反之,速度无效;建立船舶长度和船舶宽度的联合有效性判断模型,货船类型船长船宽有效性判断如图11所示,既是根据样本船舶的船舶长度和船舶宽度数据拟合出一个椭圆,则椭圆内部的船长和船宽为有效值,椭圆外部的船长船宽无效,图中横坐标为船长,纵坐标为船宽,·表示船长和船宽无效值,×表示船长和船宽有效值。
本实施例中,提供了两种建模形式,可以根据具体实际情况,进行选择,通过构建特征有效性判断模型,快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
实施例6:
如图7所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
通过第一数据,构建静态数据补充模型,具体包括以下步骤:
步骤S602,基于加权分类回归树模型,通过第一数据,构建静态数据补充模型。
本实施例中,加权分类回归树模型是基于分类回归树模型(Classification AndRegression Tree, CART)的改进。加权分类回归树模型的可解释性强并且所需计算代价低,可以很好地解决样本量足够大并且特征个数较少的静态数据补充问题。
实施例7:
本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
加权分类回归树模型为基于分类回归树模型的改进,加权分类回归树模型对第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,得到回归树,回归树即为静态数据补充模型。
本实施例中,加权分类回归树模型可以根据实际业务规律,灵活地给不同的特征进行赋权,其采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件为止,算法描述如下:
本实施例中,给出了加权分类回归树模型的具体计算公式,通过公式可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
实施例8:
如图8所示,本实施例提供了一种船舶静态数据补充装置100,包括:第一获取模块110、第一特征生成模块120、第一构建模块130、第一预处理模块140、第二构建模块150、第二获取模块160、第二特征生成模块170、第二预处理模块180和预测模块190。第一获取模块110获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合。第一特征生成模块120对样本船舶集合进行处理,得到样本特征数据。第一构建模块130基于样本特征数据,构建特征有效性判断模型。第一预处理模块140采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第一数据。第二构建模块150通过第一数据,构建静态数据补充模型。第二获取模块160获取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据。第二特征生成模块170对目标船舶信息进行处理,得到目标特征数据。第二预处理模块180采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第二数据。预测模块190将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
举例而言,本实施例中第一获取模块110用于获取样本船舶集合。样本船舶集合,指的是船舶静态特征和历史轨迹都完整的船舶集合。对于样本船舶集合的每一个样本船舶,通过IHS档案获取其所有静态信息,通过AIS数据获取其某天(可以为2021年1月1日)以来的船舶历史轨迹数据。
第一特征生成模块120用于基于业务背景对所获取的样本集进行处理形成适应机器学习模型的特征集。特征工程包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。
第一构建模块130用于基于预处理后的样本特征数据通过半监督异常检测算法构建特征有效性判断模型。有效性判断模型可以是对样本的每个特征分别建立模型,也可以是对多个相关特征建立联合模型。
第一预处理模块140用于基于特征有效性判断模型对样本特征进行有效性判断,并对无效数据进行有效值替换。
第二构建模块150用于基于加权分类回归树模型构建静态数据补充模型。加权分类回归树模型,是基于分类回归树模型(Classification And Regression Tree, CART)的改进,可以根据实际业务规律,灵活地给不同的特征进行赋权。
第二获取模块160用于获取目标船舶信息。对于目标船舶,通过AIS数据获取其所有静态信息以及某天(可以为2021年1月1日)以来的船舶历史轨迹数据。
第二特征生成模块170用于基于业务背景对所获取的目标船舶信息进行处理形成适应机器学习模型的特征集。特征生成包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。其中,特征生成的逻辑与特征工程模块的一致。
第二预处理模块180用于基于特征有效性判断模型对目标船舶的特征集进行有效性判断,并对无效数据进行有效值替换。有效值替换,与样本特征预处理模块的替换逻辑一致。
预测模块190用于将处理后的数据送入静态数据补充模型进行静态数据补充,得到完整的静态数据。
本实施例中,第一构建模块130构建特征有效性判断模型,第二构建模块150构建静态数据补充模型,通过第二获取模块160获取目标船舶信息,得到目标特征数据,第二预处理模块180采用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数据,基于第二数据,预测模块190通过静态数据补充模型对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
实施例9:
如图9所示,本实施例提供了一种电子设备200,包括:存储器210和处理器220,存储器210存储有程序或指令,处理器220执行程序或指令;其中,处理器220在执行程序或指令时,实现如本发明任一实施例的船舶静态数据补充方法的步骤。
实施例10:
本实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被处理器执行时,实现上述任一实施例的船舶静态数据补充方法的步骤。
实施例11:
针对相关技术中船舶静态数据补充准确率过低的问题,本实施例提供一种船舶静态数据补充方法,基于机器学习算法,实现了对船舶缺失的静态数据的补充。实施例通过获取目标船舶信息,将目标船舶信息输入至静态数据补充模型,输出待补充的船舶静态特征。船舶静态数据补充模型以样本船舶信息为样本,以与样本船舶信息对应的样本船舶的待补充静态特征为样本标签训练得到。本实施例的船舶静态数据补充方法,通过利用经过训练后的静态数据补充模型根据目标船舶信息预测出目标船舶静态特征,充分利用船舶的静态信息和历史轨迹信息,大幅提升数据补充的准确性。
如图10所示,一种船舶静态数据补充方法,用于补充船舶主机功率,包括以下步骤:
步骤S702,获取样本船舶集合;
步骤S704,对样本船舶集合的信息进行预处理,形成适应模型输入的训练数据集;
步骤S706,基于预处理后的样本特征数据通过半监督异常检测算法,构建特征有效性判断模型;
步骤S708,基于决策树构建船舶主机功率补充模型;
步骤S710,利用交叉验证的方法对补充模型进行验证,调整模型中的超参数并进行特征选择;
步骤S712,获取目标船舶信息;
步骤S714,对所获取目标船舶信息进行预处理形成适应模型输入的数据;
步骤S716,利用特征有效性判断模型对预处理后的目标船舶特征进行有效性判断;
步骤S718,将处理后的数据以及特征有效性指标送入验证准确的补充模型进行主机功率数据补充。
应用本实施例的船舶静态数据补充方法,可以准确地补充船舶主机功率。
实施例12:
本发明实施例提供一种船舶静态数据补充装置100,用于补充船舶主机功率,包括:
第一获取模块110(即样本集获取模块),用于获取样本船舶集合。样本船舶集合,指的是船舶静态特征和历史轨迹都完整的船舶集合。对于样本船舶集合的每一个样本船舶,通过IHS档案获取其所有静态信息,通过AIS数据获取其2021年1月1日以来的船舶历史轨迹数据。其中静态信息可以包括船舶MMSI、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度以及船舶吃水,必须包括船舶主机功率。船舶历史轨迹中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转角速度。
第一特征生成模块120(即特征工程模块),用于基于业务背景对所获取的样本集进行处理形成适应机器学习模型的特征集。特征工程包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。轨迹特征可以包括船舶历史最大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大旋转角速度、船舶对地速度变化率的最大值、船舶旋转角速度变化率的最大值,船舶对地航向变化率的最大值。
第一构建模块130(即特征有效性判断模型构建模块),用于基于预处理后的样本特征数据通过半监督异常检测算法构建特征有效性判断模型。
半监督异常检测算法可以选择椭圆包络模型(EllipticEnvelope)。EllipticEnvelope模型。
第一预处理模块140(即样本特征预处理模块),用于基于特征有效性判断模型对样本特征进行有效性判断,并对无效数据进行有效值替换。有效值替换,可以是采用基于船舶类型的类别中位数替换无效值。例如,采用货船的船长中位数替换无效的货船船长。
第二构建模块150(即补充模型构建模块)用于基于加权分类回归树模型构建主机功率补充模型。
第二获取模块160(即获取模块),用于获取目标船舶信息。对于目标船舶,通过AIS数据获取其所有静态信息以及2021年1月1日以来的船舶历史轨迹数据。其中静态信息可以包括船舶MMSI、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度以及船舶吃水。船舶历史轨迹中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转角速度。
第二特征生成模块170(即特征生成模块),用于基于业务背景对所获取的目标船舶信息进行处理形成适应机器学习模型的特征集。特征生成包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。轨迹特征可以包括船舶历史最大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大旋转角速度、船舶最大对地速度变化率、船舶最大旋转角速度变化率,船舶最大对地航向变化率。其中,特征生成的逻辑与特征生成模块的一致。
第二预处理模块180(即特征预处理模块),用于基于特征有效性判断模型对目标船舶的特征集进行有效性判断,并对无效数据进行有效值替换。有效值替换,与样本特征预处理模块的替换逻辑一致。
预测模块190,用于将通过预处理模块处理后的数据送入主机功率补充模型进行数据补充,得到目标船舶的主机功率。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种船舶静态数据补充方法,其特征在于,包括:
获取样本船舶集合,所述样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;
对所述样本船舶集合进行处理,得到样本特征数据;
基于所述样本特征数据,构建特征有效性判断模型;
采用所述特征有效性判断模型对所述样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,得到第一数据;
通过所述第一数据,构建静态数据补充模型;
获取目标船舶信息,所述目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;
对所述目标船舶信息进行处理,得到目标特征数据;
采用所述特征有效性判断模型对所述目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;
将所述第二数据输入至所述静态数据补充模型,对所述目标船舶静态信息进行静态数据补充,得到完整的所述目标船舶静态信息;
所述特征有效性判断模型包括:
对所述样本特征数据中每个特征分别建立模型;和/或
对所述样本特征数据中多个相关特征建立联合模型;
所述通过所述第一数据,构建静态数据补充模型,具体包括:
基于加权分类回归树模型,通过所述第一数据,构建静态数据补充模型。
2.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述对所述样本船舶集合进行处理,得到样本特征数据,具体包括:
采用目标变量编码方法对类别特征进行编码;
对所述船舶历史轨迹数据进行处理,生成轨迹特征。
3.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述基于所述样本特征数据,构建特征有效性判断模型,具体包括:
基于所述样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。
4.根据权利要求3所述的船舶静态数据补充方法,其特征在于,所述半监督的异常检测算法,具体包括:
设所述样本特征数据服从高斯分布,采用最小协方差行列式估计器估计所述样本特征数据的均值估计量和协方差估计量,基于所述协方差估计量,获取所述样本特征数据中的特征变量值与所述均值估计量的马氏距离,拟合出所述样本特征数据的椭圆形包络,所述椭圆形包络之内的特征变量值为有效值,所述椭圆形包络外的特征变量值为无效值。
5.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述加权分类回归树模型为基于分类回归树模型的改进,所述加权分类回归树模型对所述第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,得到回归树,所述回归树即为所述静态数据补充模型。
6.一种船舶静态数据补充装置(100),其特征在于,包括:
第一获取模块(110),所述第一获取模块(110)获取样本船舶集合,所述样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;
第一特征生成模块(120),所述第一特征生成模块(120)对所述样本船舶集合进行处理,得到样本特征数据;
第一构建模块(130),所述第一构建模块(130)基于所述样本特征数据,构建特征有效性判断模型;
所述特征有效性判断模型包括:
对所述样本特征数据中的每个特征分别建立模型;和/或
对所述样本特征数据中的多个相关特征建立联合模型;
第一预处理模块(140),所述第一预处理模块(140)采用所述特征有效性判断模型对所述样本特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第一数据;
第二构建模块(150),所述第二构建模块(150)基于加权分类回归树模型,通过所述第一数据,构建静态数据补充模型;
第二获取模块(160),所述第二获取模块(160)获取目标船舶信息,所述目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;
第二特征生成模块(170),所述第二特征生成模块(170)对所述目标船舶信息进行处理,得到目标特征数据;
第二预处理模块(180),所述第二预处理模块(180)采用所述特征有效性判断模型对所述目标特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第二数据;
预测模块(190),所述预测模块(190)将所述第二数据输入至所述静态数据补充模型,对所述目标船舶静态信息进行静态数据补充,得到完整的所述目标船舶静态信息。
7.一种电子设备(200),其特征在于,包括:
存储器(210),存储有程序或指令;
处理器(220),执行所述程序或指令;
其中,所述处理器(220)在执行所述程序或指令时,实现如权利要求1至5中任一项所述的船舶静态数据补充方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时,实现如权利要求1至5中任一项所述的船舶静态数据补充方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400612.6A CN113836118B (zh) | 2021-11-24 | 2021-11-24 | 船舶静态数据补充方法和装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111400612.6A CN113836118B (zh) | 2021-11-24 | 2021-11-24 | 船舶静态数据补充方法和装置、电子设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836118A CN113836118A (zh) | 2021-12-24 |
CN113836118B true CN113836118B (zh) | 2022-03-08 |
Family
ID=78971549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111400612.6A Active CN113836118B (zh) | 2021-11-24 | 2021-11-24 | 船舶静态数据补充方法和装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836118B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600102B (zh) * | 2022-04-26 | 2023-11-21 | 南京天洑软件有限公司 | 基于船舶数据的异常点检测方法及装置、电子设备、介质 |
CN115630348A (zh) * | 2022-12-13 | 2023-01-20 | 亿海蓝(北京)数据技术股份公司 | 船舶物理身份聚类匹配方法及系统、电子设备、存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202515A (zh) * | 2016-07-22 | 2016-12-07 | 浙江大学 | 一种基于排序学习的移动应用推荐方法及其推荐系统 |
CN111937001A (zh) * | 2017-12-01 | 2020-11-13 | 齐默尔根公司 | 将未经监督参数学习用于离群值检测以识别生产用生物体 |
CN110210352B (zh) * | 2019-05-23 | 2021-07-27 | 中国人民解放军海军工程大学 | 基于航道模型的船舶轨迹异常检测方法 |
WO2020253933A1 (en) * | 2019-06-17 | 2020-12-24 | Wärtsilä Netherlands B.V. | Apparatus and computer implemented method for detecting anomaly in marine vessel data system using neural network |
CN113254428A (zh) * | 2020-02-11 | 2021-08-13 | 北京信息科技大学 | 一种基于决策树的缺失数据填充方法及系统 |
CN111860980A (zh) * | 2020-07-03 | 2020-10-30 | 上海积成能源科技有限公司 | 一种电力负荷预测中应用分类回归树插补补充缺失值的方法 |
CN112465041B (zh) * | 2020-12-01 | 2024-01-05 | 大连海事大学 | 一种基于层次分析法的ais数据质量评估方法 |
CN113283653B (zh) * | 2021-05-27 | 2024-03-26 | 大连海事大学 | 一种基于机器学习和ais数据的船舶轨迹预测方法 |
-
2021
- 2021-11-24 CN CN202111400612.6A patent/CN113836118B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113836118A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113836118B (zh) | 船舶静态数据补充方法和装置、电子设备和可读存储介质 | |
CN111091105B (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN108460382B (zh) | 基于深度学习单步检测器的光学遥感图像舰船检测方法 | |
CN108230323B (zh) | 一种基于卷积神经网络的肺结节假阳性筛选方法 | |
CN110135522B (zh) | 一种检测与标注遥感图像小目标一体化的智能方法 | |
CN110796048B (zh) | 一种基于深度神经网络的船舰目标实时检测方法 | |
CN113033073A (zh) | 一种基于数据驱动的无人船能效数字孪生方法及系统 | |
CN114415168A (zh) | 一种无人水面艇航迹融合方法及装置 | |
CN114266977B (zh) | 基于超分辨可选择网络的多auv的水下目标识别方法 | |
CN108052707B (zh) | 一种基于聚类分析的船舶航行工况划分方法 | |
CN115660137B (zh) | 一种船舶风浪航行能耗精准估算方法 | |
CN112907027A (zh) | 基于大数据分析和云计算的智慧物流全周期跟踪管理方法及云管理平台 | |
CN113076969B (zh) | 基于混合高斯损失函数的图像目标检测方法 | |
CN111694913A (zh) | 一种基于卷积自编码器的船舶ais轨迹聚类方法和装置 | |
CN114092793A (zh) | 适用于复杂水下环境的端到端生物目标检测方法 | |
CN117036993A (zh) | 一种基于无人机的船舶水尺远程测量方法 | |
CN112347218A (zh) | 无人船艇的环境地图生成方法及无人船艇感知系统 | |
CN114549909A (zh) | 一种基于自适应阈值的伪标签遥感图像场景分类方法 | |
CN109799513B (zh) | 一种基于二维激光雷达数据中直线特征的室内未知环境定位方法 | |
CN111666953B (zh) | 一种基于语义分割的潮汐带测绘方法及设备 | |
CN116630907A (zh) | 一种基于遥感的船舶航行数字孪生方法、系统、终端及存储介质 | |
CN113011376B (zh) | 海上船舶遥感分类方法、装置、计算机设备及存储介质 | |
CN114047508B (zh) | 一种对海雷达探测范围统计评估方法及系统 | |
CN114005045A (zh) | 基于轻量级深度神经网络的旋转框遥感目标检测方法 | |
CN114091578A (zh) | 一种基于曲线长度距离的船舶轨迹聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |