CN112465041B - 一种基于层次分析法的ais数据质量评估方法 - Google Patents
一种基于层次分析法的ais数据质量评估方法 Download PDFInfo
- Publication number
- CN112465041B CN112465041B CN202011386465.7A CN202011386465A CN112465041B CN 112465041 B CN112465041 B CN 112465041B CN 202011386465 A CN202011386465 A CN 202011386465A CN 112465041 B CN112465041 B CN 112465041B
- Authority
- CN
- China
- Prior art keywords
- data
- ais
- ship
- time
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 title claims abstract description 31
- 238000001303 quality assessment method Methods 0.000 title claims abstract description 11
- 230000003068 static effect Effects 0.000 claims abstract description 52
- 238000011156 evaluation Methods 0.000 claims abstract description 45
- 238000013441 quality evaluation Methods 0.000 claims abstract description 25
- 238000012217 deletion Methods 0.000 claims abstract description 6
- 230000037430 deletion Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000013210 evaluation model Methods 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 41
- 238000004891 communication Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000032683 aging Effects 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005538 encapsulation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于层次分析法的AIS数据质量评估方法,包括:获取船舶的AIS数据,并将其进行分类得到船舶动态数据、船舶静态数据和船舶航次数据;根据导致AIS数据产生质量问题的原因,确定获取的AIS数据是否存在数据重复、数据缺失或数据错误;根据AIS数据的特点,确定AIS数据质量指标的评标标准;基于确定的AIS数据质量指标的评标标准,利用层次分析法建立AIS数据质量评价指标体系;确定AIS数据质量评价指标的相对权重值,建立综合评价函数,得出数据质量综合得分。本发明方法能够定性、定量地评估AIS数据的质量水平,以供其使用者根据实际情况选用。
Description
技术领域
本发明涉及一种船舶数据质量评估方法,具体而言,尤其涉及一种基于层次分析法的AIS数据质量评估方法。
背景技术
自动识别系统(AIS)是保障船舶航行安全的重要信息系统。它包括VHF收发器、定位系统(如GPS)和其他电子导航传感器(如陀螺罗经、转速指示器),能够向外广播与船舶本身相关的信息数据。AIS数据由27种AIS报文组成,信息包括船舶静态信息、船舶动态信息和航次相关信息三种,其中船舶静态信息需要设备工程师在安装设备的时候输入,包括:船名、呼号、船舶类型、天线位置、吃水深度等。船舶动态信息不需要输入,其信息来源于所连接的相关传感器,包括:经度、纬度、对地速度、转向率、位置精度、对地航向、船艏向等。航次相关信息则是由操作人员视具体情况而进行输入,包括预计到达时间、目的地、航行状态等。
位置报告(1、2、3、18号报文)和船舶静态及航次相关信息报告(5、19号报文)包含了最主要的船舶信息。在这些报文中,以下字段被视为用来构成船舶轨迹点的基础信息,水上移动通信业务识别码、经度、纬度、对地速度、时、分、秒。船舶类型、船舶长度等静态信息字段及航次相关信息字段则提供对应轨迹的补充信息。AIS的一条位置报告能够产生一个AIS轨迹点,而AIS轨迹则为同一艘船舶的一系列连续轨迹点集合。根据IMO规定,大多船舶需要强制安装AIS设备,且位置报告在航行时的播发频率为2-30s,因此AIS轨迹数据能够高精度地还原水域内船舶的运动情况。AIS数据作为良好的大数据研究对象,蕴藏着海上交通流的客观规律,具备较高的研究价值。
但是,在获取AIS轨迹数据的过程中需要历经生成、封装、传输、接收、解码等过程,难以保证在海量的原始数据中不存在错误信息。
发明内容
根据上述提出的技术问题,而提供一种基于层次分析法的AIS数据质量评估方法。本发明以船舶的AIS数据为基础,从唯一性、完整性、正确性、一致性和有效性五个方面对船舶数据的原始质量进行检验评估,从一致性、完整性和有效性三个方面对船舶数据的使用质量进行检验评估,再通过建立AIS数据质量评价指标体系,利用层次分析法计算各评价指标的相对权重值,经综合评价函数得出数据质量综合得分。本发明定性、定量地评估AIS数据的质量水平,以供其使用者根据实际情况选用。
本发明采用的技术手段如下:
一种基于层次分析法的AIS数据质量评估方法,包括如下步骤:
S1、获取船舶的AIS数据,并将其进行分类得到船舶动态数据、船舶静态数据和船舶航次数据;
S2、根据导致所述AIS数据产生质量问题的原因,确定所述获取的AIS数据是否存在数据重复、数据缺失或数据错误;
S3、根据AIS数据的特点,确定AIS数据质量指标的评标标准;
S4、基于所述确定的AIS数据质量指标的评标标准,利用层次分析法建立AIS数据质量评价指标体系;
S5、确定AIS数据质量评价指标的相对权重值,建立综合评价函数,得出数据质量综合得分。
进一步地,所述船舶动态数据主要包括船位、国际协调时、对地航向、对地航速、航迹向、航行状态、转向率、横倾角、纵倾和横摆;所述船舶静态数据主要包括IMO编码、呼号和船名、船的长度和宽度、船的类型、定位天线在船上的位置;所述船舶航次数据主要包括船舶吃水、危险货物类型、目的港和预计到达时间、航行计划、简明的安全信息。
进一步地,所述步骤S2中导致所述AIS数据产生质量问题的原因包括设备问题、AIS系统自身局限性、环境因素、不同来源数据进行融合时出现的问题以及人为因素。
进一步地,所述步骤S3具体包括:
S31、假设AIS数据集T中共有n条AIS数据,将AIS数据集表示为T={P1,P2,…,Pn},其中Pi为每一条AIS数据,AIS数据共有m个特征,表示为Ci={K1,V1,K2,V2,…,Km,Vm},其中,K表示特征的属性;V表示特征的值;m个特征中包含md个动态信息,ms个静态信息,则航次信息数量为m-md-ms;
S32、根据AIS数据特点,对AIS数据集T进行第一次抽样;
第一次抽样以船舶海上移动业务识别码(MMSI)为单位,不放回地随机抽取AIS数据集T中整条船舶的数据,直到抽取的数据量达到第一次抽样比率R1为止,共抽样j条船舶的数据,得到样本数据集T1;所述第一次抽样比率按照如下公式确定:
其中,R1表示第一次抽样比率,ni表示第i条船舶MMSI包含的数据量;
S33、对AIS数据集T进行第二次抽样;
第二次抽样先将AIS数据集T中的动态数据全部删除,再以单条数据为单位,不放回地随机抽取数据,直到抽取的数据量达到第二次抽样比率R2为止,共抽样n'条船舶的数据,得到样本数据集T2;所述第二次抽样比率按照如下公式确定:
其中,R2表示第二次抽样比率;
S34、建立数据质量评估标准,确定度量方式;
从唯一性、完整性、正确性、一致性和有效性五个大方面对数据进行评估,具体数据质量评估标准和指标评估模型如下:
唯一性指标包括每条数据唯一和MMSI唯一;所述每条数据唯一是指在AIS数据的生成过程中,每条数据的接收与生成都有一定的时间间隔,不可能存在两条或多条完全相同的数据,若存在,判断为数据重复;所述MMSI唯一是指MMSI是AIS船台的唯一识别码,不会因为船舶买卖而变更,AIS系统采集数据时依靠船载AIS船载终端内人工输入的MMSI号码,只有输入MMSI号码,AIS船台才能传输信息,如果输入有误的MMSI号码,会导致水域内出现2艘及以上的船舶MMSI一致的情况,若存在,判断为数据重复或数据错误;
所述每条数据唯一的评估模型如下:
所述MMSI唯一的评估模型如下:
其中,所述每条数据唯一的评估模型和所述MMSI唯一的评估模型均使用样本数据集T1,Udata表示非完全重复数据所占的比例;UMMSI表示船舶与MMSI能正确一一对应所占的比例;ni'表示对第j条船的i条数据去重后剩余的数据量;F1(Uk)为判断每条数据与船舶MMSI是否正确对应的函数,若正确,则为1,若不正确,则为0;
完整性指标包括数据集完整和船舶轨迹记录完整;所述数据集完整是指正常情况下,AIS数据集中各个字段的内容都是完整的,若为空,判断为数据缺失;所述船舶轨迹记录完整是指一条高质量的船舶轨迹包含完整的轨迹记录,严格按照操纵情况对数据进行等间隔采样,若时动态信息报告时间超过标准时间,说明在此期间船舶的若干条AIS信息是缺失的;
所述数据集完整的评估模型如下:
所述船舶轨迹记录完整的评估模型如下:
其中,所述数据集完整的评估模型和所述船舶轨迹记录完整的评估模型均使用样本数据集T1,Cset表示完整数据所占的比例,Ctarjectory表示未记录数据与所有数据的比例;F2(Vk)为判断Ci内特征值Vk非空的函数,若非空,则为1,若为空,则为0;F3(Skx)为计算该数据时间戳与前一数据时间戳的差值函数;Skx(x=0,1,…,6)表示操纵情况;tx(x=0,1,…,6)表示操纵情况对应的采样频率;
正确性指标包括动态信息正确、静态信息正确、航次信息正确和时间正确;所述动态信息正确是指动态数据本身的范围限制或规范,若内容超出了理论范围,判断为数据错误;所述静态信息正确是指静态数据本身有固定格式,若内容不符合规范,判断为数据错误;所述航次信息正确是指航次数据有固定格式,若内容不符合规范,判断为数据错误;所述时间正确是指从AIS接收站收集的AIS数据标有外部时间戳,称为记录时间;在生成AIS报告的过程中,通信时间戳会被编码到部分位置报告中,称为生成时间;记录时间标记每条位置报告的时间,但是存在延迟现象,延迟大会导致数据错误,设定时间偏差超过3s,判断为数据错误;
所述动态信息正确的评估模型如下:
所述静态信息正确的评估模型如下:
所述航次信息正确的评估模型如下:
所述时间正确的评估模型如下:
其中,所述动态信息正确的评估模型和所述时间正确的评估模型使用样本数据集T1,并于T1中分离出动态信息和时间;所述静态信息正确的评估模型和航次信息正确的评估模型使用样本数据集T2,并将T2中静态信息和航次信息分离;Adynamic表示动态信息正确率;Astatic表示静态信息正确率;Avoyage表示航次信息正确率;Atime表示时间正确率;F4(Vk)为判断动态数据是否正确的函数,若正确,则为1,若不正确,则为0;F5(Vk)为判断静态数据是否正确的函数,若正确,则为1,若不正确,则为0;F6(Vk)为判断航次信息是否正确的函数,若正确,则为1,若不正确,则为0;F7(Vk)为判断时间偏差是否超过阈值的函数,若没超过,则为1,若超过,则为0;
一致性指标包括规范一致、字段内容一致和轨迹点来源一致;所述规范一致是指AIS语句在不同设备间转发时,若导航及通讯设备的协议语句不相同,产生语句标识符封装错乱,判断为不一致;所述字段内容一致性是指AIS报文格式与EMEA0183传输通信协议的一致性情况,区别于判断数据的正确性,若纬度和经度的特征值出现了船舶类型,则判断为报文字段不一致;所述轨迹点来源一致是指轨迹数据在同一个实验周期内被采集,显示时船舶在海图的不同位置上呈现反复跳跃,在一条AIS轨迹数据中,若轨迹数据不属于同一条船舶,判断该船舶轨迹不具备轨迹一致性;
所述规范一致的评估模型如下:
所述字段内容一致的评估模型如下:
所述轨迹点来源一致的评估模型如下:
其中,所述规范一致的评估模型、所述字段内容一致的评估模型以及所述轨迹点来源一致的评估模型均使用样本数据集T1,Istandard表示使用最多的规范数量占所有规范的比例;Icontent是指字段内容一致的数据与所有数据的比例,区别于数据的正确性;Isource表示轨迹点来源一致的轨迹数占轨迹总数的比例;sum(S)计算所有规范的数量;max(S)计算使用最多的规范数量;F8(Vk)为判断字段内容是否一致的函数,若一致,则为1,若不一致,则为0;F9(Vj)为判断轨迹内是否有外来数据的函数,若没有,则为1,若有,则为0;
有效性指标包括轨迹段相关性和时间有效性;所述轨迹段相关性是指在AIS轨迹中,所有连续的轨迹点处于相同时空背景,每个轨迹因为船舶运动彼此关联,同一数据集内的轨迹之间都存在关联性,即如果存在轨迹段彼此不相关的情况,则认为该船舶轨迹不具备轨迹段相关性;所述时间有效性是指AIS规则和国际标准每过几年就会进行一定的优化或修改,若使用的AIS数据的国际标准与当前国际标准不符,判断超过时间有效期,数据无效;
所述轨迹段相关性的评估模型如下:
所述时间有效性的评估模型如下:
其中,所述轨迹段相关性的评估模型和所述时间有效性的评估模型均使用样本数据集T1,R为j条轨迹间通过Hausdorff距离两两比较相关性形成的矩阵;Erelate为矩阵中相关轨迹所占的比例;Eaging表示数据集时间上是否有效;F10(h)为通过判断轨迹间是否符合相关性的函数;Td为当前年份Tnow与数据产生年份Tdata的年份差值;ω3为AIS数据集在使用时间上符合规范的时间阈值。
进一步地,所述步骤S4具体包括:
S41、构建一个四层的层次结构模型,其中,第一层是目标层,是数据质量评估的总体目标;第二层和第三层是中间层,代表数据质量评估的准则,是对总目标的分解;第四层是准则层,代表影响目标实现的具体因素;
S42、构建判断矩阵,对所述层次结构模型中每一层指标之间的相对重要性进行判断和比较,按照规则进行量化,形成判断矩阵;所述判断矩阵包括原始质量与使用质量的判断矩阵、原始质量唯一性、完整性和正确性的判断矩阵、使用质量一致性和有效性的判断矩阵、唯一性的判断矩阵、完整性的判断矩阵、正确性的判断矩阵、一致性的判断矩阵以及有效性的判断矩阵;
假设A层的指标Am与下层指标构成元素B1,B2,···,Bn有关联,各元素的判断矩阵如下:
其中bij*bji=1。
进一步地,所述步骤S5具体包括:
S51、计算特征向量和最大特征值得到权重系数,采用方根法求解判断矩阵B的特征向量近似解和最大特征值,计算得到每层指标的权重,具体求解过程如下:
计算每一行元素的乘积,再对乘积求n次方根,其中n为矩阵阶数:
计算每行乘积n次方根与方根和的商,构成特征向量Wi=(w1,w2,···,wn)T:
计算判断矩阵B的最大特征值λmax:
根据计算得到的特征向量进行一致性检验:其中,RI为同阶平均随机一致性指标;若CR<0.1,则B通过一致性检验;
S52、设建立的三级四层评价模型中的第四层对第三层为一级评价,第三层对第二层为二级评价,第二层对第一层为三级评价,且三级评价得分为:
其中,L表示三级评价得分,即最终得分,ri表示二层各指标得分,wi表示第二层各指标的权重值,且wi∈[0,1],
由于上级评价得分均由下级计算得出,故确定出第四层各指标得分,自下而上逐层计算即得到公共安全大数据质量的综合评价得分,综合评价得分采用百分制对各类指标进行评分,评分结果分五等,分别是差[0~40]、较差[40~60]、一般[60~80]、较高[80~90]、高[90~100]。
较现有技术相比,本发明具有以下优点:
本发明提供的基于层次分析法的AIS数据质量评估方法,以船舶的AIS数据为基础,从唯一性、完整性、正确性、一致性和有效性五个方面对船舶数据的原始质量进行检验评估,从一致性、完整性和有效性三个方面对船舶数据的使用质量进行检验评估,再通过建立AIS数据质量评价指标体系,利用层次分析法计算各评价指标的相对权重值,经综合评价函数得出数据质量综合得分。本发明方法能够实现定性、定量地评估AIS数据的质量水平,以供其使用者根据实际情况选用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明实施例提供的数据错误示意图。
图3为本发明抽样过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种基于层次分析法的AIS数据质量评估方法,包括如下步骤:
S1、获取船舶的AIS数据,并将其进行分类得到船舶动态数据、船舶静态数据和船舶航次数据;所述船舶动态数据包括船位、国际协调时、对地航向、对地航速、航迹向、航行状态、转向率、横倾角、纵倾和横摆;所述船舶静态数据包括IMO编码、呼号和船名、船的长度和宽度、船的类型、定位天线在船上的位置;所述船舶航次数据包括船舶吃水、危险货物类型、目的港和预计到达时间、航行计划、简明的安全信息。
具体实施时,在确定带评估AIS数据集后,对该AIS数据集进行解码,并对解码后的数据建立船舶动态信息、船舶静态信息和船舶航次信息以及完整数据信息的数据库。将船位、国际协调时、对地航向、对地航速、航迹向、航行状态、转向率、横倾角(选用项)、纵倾和横摆(选用项)导入船舶动态信息数据库;将IMO编码(如有)、呼号和船名、船的长度和宽度、船的类型、定位天线在船上的位置导入船舶静态信息数据库;将船舶吃水、危险货物类型、目的港和预计到达时间、航行计划(选用项)、简明的安全信息导入船舶航次信息数据库;将所有信息导入完整信息数据库。在解码和导入过程中,避免人为因素产生数据错误。
S2、根据导致所述AIS数据产生质量问题的原因,确定所述获取的AIS数据是否存在数据重复、数据缺失或数据错误;其中:
数据重复:船舶状态数据中存在重复数据是一个常见问题,需要说明的是,船舶数据中存在的重复问题不仅仅是完全重复问题,也有代表着同一信息的相似重复问题,这些数据对于数据挖掘,数据分析工作来说不仅毫无意义,还会占用大量的空间和资源,对数据挖掘、分析工作造成不利影响;
数据缺失:正常情况下,数据集中各个字段的内容都应该是完整的。缺失数据问题分布的很散,有些是静态属性方面的缺失,有些则是数值型数据的缺失,对缺失数据的修复方法也不尽相同,对于每一种缺失数据,都需要运用相应的船舶领域专业知识来进行修复;
数据错误:错误数据也是船舶状态数据中经常出现的问题,例如数据中的纬度信息(LAT)超出范围和位置错误等,如图2所示。
所述导致AIS数据产生质量问题的原因包括设备问题、AIS系统自身问题、环境因素、不同来源数据融合时出现的问题以及人为因素。具体实施时:
设备问题,由于设备长期运行,缺少维护等原因,可能会造成AIS设备出现问题甚至损坏,导致在发送或者接收数据时出现延迟,错误以及某段时间内重复地发送或接收数据等问题。
AIS系统自身局限性,首先,由于AIS系统的工作频段是在无线电甚高频段(VHF87B和88B频道)上,在信号发射机功率不变的条件下,信号的有效作用范围会受到地球表面曲率和设备高度等因素的制约。天气恶劣、航行环境中有高山遮挡等因素都有可能使设备受到影响,从而致使有效监控范围减小。即便船舶处在可被监控到的区域内,但是如果该区域内船舶的数量过多,超过了信号传输通道的承载极限,也会造成数据的丢失。其次,通过卫星AIS监控船舶也容易受到船舶数量影响,还有受到通信时隙的制约,在船多的区域内不可避免地会出现数据丢失的情况。
环境因素,由于船舶航行环境复杂,天气突变,航道变化等原因,会造成船舶通信不畅,数据传输出现问题,不可避免地会造成接收到的数据出现重复,缺失,错误等问题。
不同来源的数据进行融合时出现的问题,由于船舶AIS数据来源于不同的监控设备,以及这些数据存储在不同的下级监管机构,最终需要汇集到上级部门,不同来源的数据在进行数据融合的过程中不可避免地会出现各种问题,其中最为常见的就是重复问题。
人为因素,其涉及到工作人员没有按规范进行操作。分为两个方面,一是在应用层面上,工作人员没有按照操作规范来对数据进行操作,导致输入或修改的数据存在问题,船舶监控系统软件存在缺陷也会导致应用层面上出现问题数据;另一方面是在数据库层面上,也是由于工作人员在处理数据库中的数据时进行了不恰当的操作。
S3、根据AIS数据的特点,确定AIS数据质量指标的评标标准;所述步骤S3具体包括:
S31、假设AIS数据集T中共有n条AIS数据,将AIS数据集表示为T={P1,P2,…,Pn},其中Pi为每一条AIS数据,AIS数据共有m个特征,表示为Ci={K1,V1,K2,V2,…,Km,Vm},其中,K表示特征的属性;V表示特征的值;m个特征中包含md个动态信息,ms个静态信息,则航次信息数量为m-md-ms;
AIS数据存在以下特点:数据量及其庞大,在进行指标评估时如果对所有数据都进行处理,会极大增加计算成本和时间成本;分析过程为“冷启动”,即海事大数据的背景分步缺乏先验信息,分析过程是从单纯的数据出发;AIS数据存在数据的“稀疏性”,相对于其数据量,有用信息相对稀少,即“大数据不等于总体”。
从统计学角度看,面对AIS数据分析中的上述问题,随机抽样是最直接有效的解决方法,可以利用抽样技术从同一AIS数据集中获得相对较小的随机样本,再对评估指标进行分析。所述的抽样技术,显然不同于传统的统计数据,AIS数据分析属于海事大数据分析,但大数据中的数据量也有不同的规模,在随机抽样中不同的数据规模下需要抽取不同的样本量。对于规模较小的总体,需要比较大的抽样比率才能保证较高的精确性;而由于大数据“稀疏性”的存在,对于中等规模的总体,要达到同样的精度,抽样比率可大大降低;如果是规模非常大的总体,只需要极小比率的样本就能够得出精确的结果。相比于其他大数据,AIS数据具有其特殊性,如果直接在AIS数据集中随机抽取样本,用样本绘制而成的轨迹会丢失大量的关键特征点,失去AIS数据评估的意义。不同AIS数据信息的更新速率因信息内容的不同而不同,其中动态信息更新速率取决于航速和航向的变更,更新速率较快;静态信息和航次相关信息每6分钟或修改数据后根据请求更新,更新速率很慢。如果以相同的抽样比率分析动态数据、静态数据和航次数据,得到的结果一定是存在相当大的误差的。因此,在第一次总体抽样结束后,还需对静态数据和航次数据单独抽样以减少误差。
S32、如图3所示,根据AIS数据特点,对AIS数据集T进行第一次抽样;第一次抽样以船舶海上移动业务识别码(MMSI)为单位,不放回地随机抽取AIS数据集T中整条船舶的数据,直到抽取的数据量达到第一次抽样比率R1为止,共抽样j条船舶的数据,得到样本数据集T1;所述第一次抽样比率按照如下公式确定:
其中,R1表示第一次抽样比率,ni表示第i条船舶MMSI包含的数据量;
S33、对AIS数据集T进行第二次抽样;
第二次抽样先将AIS数据集T中的动态数据全部删除,再以单条数据为单位,不放回地随机抽取数据,直到抽取的数据量达到第二次抽样比率R2为止,共抽样n'条船舶的数据,得到样本数据集T2;所述第二次抽样比率按照如下公式确定:
其中,R2表示第二次抽样比率;
基于上述规则,本评估方法先根据AIS数据规模进行抽样,再用样本对评估指标进行分析,数据规模与抽样比率的对应关系具体如下表所示:
数据规模(条) | 抽样比率范围(R1) | 抽样比率范围(R2) |
<100万 | 30%±2% | 100% |
100万~500万 | 20%±2% | 100% |
100万~1000万 | 10%±1% | 100% |
1000万~1亿 | 1%±0.1% | 10% |
>1亿 | 0.1%±0.01% | 1% |
S34、建立数据质量评估标准,确定度量方式;
从唯一性、完整性、正确性、一致性和有效性五个大方面对数据进行评估,具体数据质量评估标准和指标评估模型如下:
唯一性指标包括每条数据唯一和MMSI唯一;所述每条数据唯一是指在AIS数据的生成过程中,每条数据的接收与生成都有一定的时间间隔,不可能存在两条或多条完全相同的数据,若存在,判断为数据重复;所述MMSI唯一是指MMSI是AIS船台的唯一识别码,不会因为船舶买卖而变更,AIS系统采集数据时依靠船载AIS船载终端内人工输入的MMSI号码,只有输入MMSI号码,AIS船台才能传输信息,如果输入有误的MMSI号码,会导致水域内出现2艘及以上的船舶MMSI一致的情况,若存在,判断为数据重复或数据错误;
所述每条数据唯一的评估模型如下:
所述MMSI唯一的评估模型如下:
其中,所述每条数据唯一的评估模型和所述MMSI唯一的评估模型均使用样本数据集T1,Udata表示非完全重复数据所占的比例;UMMSI表示船舶与MMSI能正确一一对应所占的比例;ni'表示对第j条船的i条数据去重后剩余的数据量;F1(Uk)为判断每条数据与船舶MMSI是否正确对应的函数,若正确,则为1,若不正确,则为0;
完整性指标包括数据集完整和船舶轨迹记录完整;所述数据集完整是指正常情况下,AIS数据集中各个字段的内容都是完整的,若为空,判断为数据缺失;所述船舶轨迹记录完整是指一条高质量的船舶轨迹包含完整的轨迹记录,严格按照操纵情况对数据进行等间隔采样,若时动态信息报告时间超过标准时间,说明在此期间船舶缺失若干条AIS信息;其中的采样标准如下表所示:
表1来自AIS的可变数据的采样率
所述数据集完整的评估模型如下:
所述船舶轨迹记录完整的评估模型如下:
其中,所述数据集完整的评估模型和所述船舶轨迹记录完整的评估模型均使用样本数据集T1,Cset表示完整数据所占的比例,Ctarjectory表示未记录数据与所有数据的比例;F2(Vk)为判断Ci内特征值Vk非空的函数,若非空,则为1,若为空,则为0;F3(Skx)为计算该数据时间戳与前一数据时间戳的差值函数;Skx(x=0,1,…,6)表示操纵情况;tx(x=0,1,…,6)表示操纵情况对应的采样频率;
正确性指标包括动态信息正确、静态信息正确、航次信息正确和时间正确;所述动态信息正确是指动态数据本身的范围限制或规范,若内容超出了理论范围,判断为数据错误;所述静态信息正确是指静态数据本身有固定格式,若内容不符合规范,判断为数据错误;所述航次信息正确是指航次数据有固定格式,若内容不符合规范,判断为数据错误;所述时间正确是指从AIS接收站收集的AIS数据标有外部时间戳,称为记录时间;在生成AIS报告的过程中,通信时间戳会被编码到部分位置报告中,称为生成时间;记录时间标记每条位置报告的时间,但是存在延迟现象,延迟大会导致数据错误,设定时间偏差超过3s,判断为数据错误。
所述动态信息正确的评估模型如下:
所述静态信息正确的评估模型如下:
所述航次信息正确的评估模型如下:
所述时间正确的评估模型如下:
其中,所述动态信息正确的评估模型和所述时间正确的评估模型使用样本数据集T1,并于T1中分离出动态信息和时间;所述静态信息正确的评估模型和航次信息正确的评估模型使用样本数据集T2,并将T2中静态信息和航次信息分离;Adynamic表示动态信息正确率;Astatic表示静态信息正确率;Avoyage表示航次信息正确率;Atime表示时间正确率;F4(Vk)为判断动态数据是否正确的函数,若正确,则为1,若不正确,则为0;F5(Vk)为判断静态数据是否正确的函数,若正确,则为1,若不正确,则为0;F6(Vk)为判断航次信息是否正确的函数,若正确,则为1,若不正确,则为0;F7(Vk)为判断时间偏差是否超过阈值的函数,若没超过,则为1,若超过,则为0;
一致性指标包括规范一致、字段内容一致和轨迹点来源一致;所述规范一致是指AIS语句在不同设备间转发时,若导航及通讯设备的协议语句不相同,产生语句标识符封装错乱,判断为不一致;所述字段内容一致性是指AIS报文格式与EMEA0183传输通信协议的一致性情况,区别于判断数据的正确性,若纬度和经度的特征值出现了船舶类型,则判断为报文字段不一致;所述轨迹点来源一致是指轨迹数据在同一个实验周期内被采集,显示时船舶在海图的不同位置上呈现反复跳跃,在一条AIS轨迹数据中,若轨迹数据不属于同一条船舶,判断该船舶轨迹不具备轨迹一致性;
所述规范一致的评估模型如下:
所述字段内容一致的评估模型如下:
所述轨迹点来源一致的评估模型如下:
其中,所述规范一致的评估模型、所述字段内容一致的评估模型以及所述轨迹点来源一致的评估模型均使用样本数据集T1,Istandard表示使用最多的规范数量占所有规范的比例;Icontent是指字段内容一致的数据与所有数据的比例,区别于数据的正确性;Isource表示轨迹点来源一致的轨迹数占轨迹总数的比例;sum(S)计算所有规范的数量;max(S)计算使用最多的规范数量;F8(Vk)为判断字段内容是否一致的函数,若一致,则为1,若不一致,则为0;F9(Vj)为判断轨迹内是否有外来数据的函数,若没有,则为1,若有,则为0;
有效性指标包括轨迹段相关性和时间有效性;所述轨迹段相关性是指在AIS轨迹中,所有连续的轨迹点处于相同时空背景,每个轨迹因为船舶运动彼此关联,同一数据集内的轨迹之间都存在关联性,即如果存在轨迹段彼此不相关的情况,则认为该船舶轨迹不具备轨迹段相关性;所述时间有效性是指AIS规则和国际标准每过几年就会进行一定的优化或修改,若使用的AIS数据的国际标准与当前国际标准不符,判断超过时间有效期,数据无效;
所述轨迹段相关性的评估模型如下:
所述时间有效性的评估模型如下:
其中,所述轨迹段相关性的评估模型和所述时间有效性的评估模型均使用样本数据集T1,R为j条轨迹间比较Hausdorff距离相关性形成的矩阵;Erelate为矩阵中相关轨迹所占的比例;Eaging表示数据集时间上是否有效;F10(h)为通过判断轨迹间是否符合相关性的函数;Td为当前年份Tnow与数据产生年份Tdata的年份差值;ω3为AIS数据集在使用时间上符合规范的时间阈值。
S4、基于所述确定的AIS数据质量指标的评标标准,利用层次分析法建立AIS数据质量评价指标体系;所述步骤S4具体包括:
S41、构建一个四层的层次结构模型,其中,第一层是目标层,是数据质量评估的总体目标;第二层和第三层是中间层,代表数据质量评估的准则,是对总目标的分解;第四层是准则层,代表影响目标实现的具体因素;如下表所示,为中间层和指标信息:
表2中间层与指标
S42、构建判断矩阵,对所述层次结构模型中每一层指标之间的相对重要性进行判断和比较,1-9标度方法如表3所示,按照规则进行量化,形成判断矩阵;
表3 1-9标度方法
序号 | 重要性程度 | 标度赋值 |
1 | 因素相比较具有相同重要性 | 1 |
2 | 因素相比较,一个因素比另一个稍微重要 | 3 |
3 | 因素相比较,一个因素比另一个明显重要 | 5 |
4 | 因素相比较,一个因素比另一个强烈重要 | 7 |
5 | 因素相比较,一个因素比另一个极端重要 | 9 |
6 | 上述相邻判断的中间值 | 2、4、6、8 |
假设A层的指标Am与下层指标构成元素B1,B2,···,Bn有关联,各元素的判断矩阵如下:
其中bij*bji=1。
所述判断矩阵包括原始质量与使用质量的判断矩阵、原始质量唯一性、完整性和正确性的判断矩阵、使用质量一致性和有效性的判断矩阵、唯一性的判断矩阵、完整性的判断矩阵、正确性的判断矩阵、一致性的判断矩阵以及有效性的判断矩阵;具体的:
原始质量与使用质量的判断矩阵,原始数据的数据质量直接影响了使用质量,且最大程度地限制了使用质量,所以原始数据质量相对于使用数据质量是极端重要的,从而得出判断矩阵如下:
表4目标层判断矩阵
L1 | L2 | |
L1 | 1 | 9 |
L2 | 1/9 | 1 |
原始质量唯一性、完整性和正确性的判断矩阵,AIS数据原始数据的质量问题主要包括数据重复、数据缺失和数据错误,这些问题都有其解决办法,而其中最难解决的问题的便是数据错误。对于数据重复问题,一般采用去重的方式直接删除重复数据,缺失数据一般联系前后数据通过内插法等方式解决,而对错误数据,一般是删除错误数据然后再当成缺失数据处理。而在原始质量中,对应数据重复的是唯一性,对应数据缺失的是完整性,对应数据错误的是正确性。综上所述,正确性相对于唯一性和完整性都是明显重要,而完整性对于唯一性是稍微重要的,从而得出判断矩阵如下:
表5原始质量判断矩阵
使用质量一致性和有效性的判断矩阵,当使用者在使用AIS数据时,首先要考虑AIS数据是否能用于自己的研究,是否能通过这些数据有效地解决当前的问题,而一致性只是在使用过程中可能影响使用质量的一个小因素,不是影响使用者使用数据的关键因素。综上所述,有效性相对于一致性是接近极端重要的,从而得出判断矩阵如下:
表6使用质量判断矩阵
L21 | L22 | |
L21 | 1 | 8 |
L22 | 1/8 | 1 |
唯一性的判断矩阵,在唯一性指标中,虽然数据重复会影响数据质量,但解决方法较为简单。MMSI作为船舶的唯一识别码,一旦由于人为失误导致MMSI不唯一,会直接影响数据的质量,且解决方法非常困难。综上所述,MMSI唯一相对于每条数据唯一极端重要,从而得出判断矩阵如下:
表7使用质量判断矩阵
完整性的判断矩阵,在完整性指标中,整体的AIS数据集是由单条船舶的AIS数据集组成,即单条船舶的轨迹记录是AIS大数据的基础。综上所述,船舶轨迹记录相对于数据集完整明显重要,从而得出判断矩阵如下:
表8使用质量判断矩阵
正确性的判断矩阵,在正确性指标中,动态数据和静态数据直接影响了数据的质量,航次数据对数据质量的影响则没有那么明显,而时间信息作为动态信息中及其特殊的一项,对数据质量是高于航次信息的。对于动态和静态数据而言,动态数据中包含的重要信息更多,所产生的影响也更大。综上所述,得出正确性的判断矩阵如下:
表9使用质量判断矩阵
一致性的判断矩阵,在一致性指标中,不同导航及通信设备间协议语句的相同与否直接决定了整体数据的使用感受,其重要性远胜于其他两项指标。而字段内容相比于轨迹点来源,其影响偏弱。综上所述,得出一致性的判断矩阵如下:
表10原始质量判断矩阵
有效性的判断矩阵,在有效性指标中,时间有效与否直接决定了数据的研究价值,若是超过时效的历史AIS数据,则已经不适用现代的航行规范,没有研究价值,因此,相比于轨迹段相关性,时间有效性极为重要。综上所述,得出有效性的判断矩阵如下:
表11使用质量判断矩阵
S5、确定AIS数据质量评价指标的相对权重值,建立综合评价函数,得出数据质量综合得分。所述步骤S5具体包括:
S51、计算特征向量和最大特征值得到权重系数,采用方根法求解判断矩阵B的特征向量近似解和最大特征值,计算得到每层指标的权重,具体求解过程如下:
计算每一行元素的乘积,再对乘积求n次方根,其中n为矩阵阶数:
计算每行乘积n次方根与方根和的商,构成特征向量Wi=(w1,w2,···,wn)T:
计算判断矩阵B的最大特征值λmax:
根据计算得到的特征向量进行一致性检验:其中,RI为同阶平均随机一致性指标;若CR<0.1,则B通过一致性检验;在层次分析法判断矩阵的语境下,“一致性”概念包含两种直观含义,一种是若干因素之间的两两的重要性排序有传递性;另一种是若干因素之间的两两重要性排序值要符合乘法数量关系。
由表4得,判断矩阵的特征向量近似解W=(0.90,0.10)T,最大特征值λmax=2。计算得到CR=0<0.1,满足一致性检验。
由表5得,判断矩阵的特征向量近似解W=(0.12,0.20,0.68)T,最大特征值λmax=3.021。计算得到R=0.0192<0.1,满足一致性检验。
由表6得,判断矩阵的特征向量近似解W=(0.89,0.11)T,最大特征值λmax=2。计算得到CR=0<0.1,满足一致性检验。
由表7得,判断矩阵的特征向量近似解W=(0.90,0.10)T,最大特征值λmax=2。计算得到CR=0<0.1,满足一致性检验。
由表8得,判断矩阵的特征向量近似解W=(0.83,0.17)T,最大特征值λmax=2。计算得到CR=0<0.1,满足一致性检验。
由表9得,判断矩阵的特征向量近似解W=(0.49,0.30,0.06,0.15)T,最大特征值λmax=4.04。计算得到CR=0.015<0.1,满足一致性检验。
由表10得,判断矩阵的特征向量近似解W=(0.74,0.09,0.17)T,最大特征值λmax=3.014。计算得到CR=0.0135<0.1,满足一致性检验。
由表11得,判断矩阵的特征向量近似解W=(0.89,0.11)T,最大特征值λmax=2。计算得到CR=0<0.1,满足一致性检验。
综上所述,计算得到每层指标的权重:
表12第二层各指标的权重值
指标 | L1 | L2 |
权重 | 0.90 | 0.10 |
表13第三层各指标的权重值
指标 | L11 | L12 | L13 | L21 | L22 |
权重 | 0.12 | 0.20 | 0.68 | 0.89 | 0.11 |
表14第四层各指标的权重值
S52、设建立的三级四层评价模型中的第四层对第三层为一级评价,第三层对第二层为二级评价,第二层对第一层为三级评价,且三级评价得分为:
其中,L表示三级评价得分,即最终得分,ri表示二层各指标得分,wi表示第二层各指标的权重值,且wi∈[0,1],
由于上级评价得分均由下级计算得出,故确定出第四层各指标得分,自下而上逐层计算即得到公共安全大数据质量的综合评价得分,综合评价得分采用百分制对各类指标进行评分,评分结果分五等,分别是差[0~60]、一般[60~70]、中等[70~80]、良好[80~90]、优秀[90~100]。其中,数据质量评估得分为差和较差的数据不建议使用;得分为一般的数据建议先进行数据清洗后再进行使用;而得分为较高和高的数据则可以直接使用。数据清洗一般包含以下几个方面:
重复数据的处理:直接删除重复的数据;
缺失数据的处理:对大范围缺失的数据全部删除,而对部分缺失的数据,利用插值法来填补缺失数据;
错误数据的处理:对于错误数据,先将错误数据删除,再按照缺失数据进行处理。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (5)
1.一种基于层次分析法的AIS数据质量评估方法,其特征在于,包括如下步骤:
S1、获取船舶的AIS数据,并将其进行分类得到船舶动态数据、船舶静态数据和船舶航次数据;
S2、根据导致所述AIS数据产生质量问题的原因,确定所述获取的AIS数据是否存在数据重复、数据缺失或数据错误;
S3、根据AIS数据的特点,确定AIS数据质量指标的评标标准;所述步骤S3具体包括:
S31、假设AIS数据集T中共有n条AIS数据,将AIS数据集表示为T={P1,P2,···,Pn},其中Pi为每一条AIS数据,AIS数据共有m个特征,表示为Ci={K1,V1,K2,V2,···,Km,Vm},其中,K表示特征的属性;V表示特征的值;m个特征中包含md个动态信息,ms个静态信息,则航次信息数量为m-md-ms;
S32、根据AIS数据特点,对AIS数据集T进行第一次抽样;
第一次抽样以船舶海上移动业务识别码MMSI为单位,不放回地随机抽取AIS数据集T中整条船舶的数据,直到抽取的数据量达到第一次抽样比率R1为止,共抽样j条船舶的数据,得到样本数据集T1;所述第一次抽样比率按照如下公式确定:
其中,R1表示第一次抽样比率,ni表示第i条船舶MMSI包含的数据量;
S33、对AIS数据集T进行第二次抽样;
第二次抽样先将AIS数据集T中的动态数据全部删除,再以单条数据为单位,不放回地随机抽取数据,直到抽取的数据量达到第二次抽样比率R2为止,共抽样n'条船舶的数据,得到样本数据集T2;所述第二次抽样比率按照如下公式确定:
其中,R2表示第二次抽样比率;
S34、建立数据质量评估标准,确定度量方式;
从唯一性、完整性、正确性、一致性和有效性五个大方面对数据进行评估,具体数据质量评估标准和指标评估模型如下:
唯一性指标包括每条数据唯一和MMSI唯一;所述每条数据唯一是指在AIS数据的生成过程中,每条数据的接收与生成都有一定的时间间隔,不可能存在两条或多条完全相同的数据,若存在,判断为数据重复;所述MMSI唯一是指MMSI是AIS船台的唯一识别码,不会因为船舶买卖而变更,AIS系统采集数据时依靠船载AIS船载终端内人工输入的MMSI号码,只有输入MMSI号码,AIS船台才能传输信息,如果输入有误的MMSI号码,会导致水域内出现2艘及以上的船舶MMSI一致的情况,若存在,判断为数据重复或数据错误;
所述每条数据唯一的评估模型如下:
所述MMSI唯一的评估模型如下:
其中,所述每条数据唯一的评估模型和所述MMSI唯一的评估模型均使用样本数据集T1,Udata表示非完全重复数据所占的比例;UMMSI表示船舶与MMSI能正确一一对应所占的比例;ni'表示对第j条船的i条数据去重后剩余的数据量;F1(Uk)为判断每条数据与船舶MMSI是否正确对应的函数,若正确,则为1,若不正确,则为0;
完整性指标包括数据集完整和船舶轨迹记录完整;所述数据集完整是指正常情况下,AIS数据集中各个字段的内容都是完整的,若为空,判断为数据缺失;所述船舶轨迹记录完整是指一条高质量的船舶轨迹包含完整的轨迹记录,严格按照操纵情况对数据进行等间隔采样,若时动态信息报告时间超过标准时间,说明在此期间船舶缺失若干条AIS信息;
所述数据集完整的评估模型如下:
所述船舶轨迹记录完整的评估模型如下:
其中,所述数据集完整的评估模型和所述船舶轨迹记录完整的评估模型均使用样本数据集T1,Cset表示完整数据所占的比例,Ctarjectory表示未记录数据与所有数据的比例;F2(Vk)为判断Ci内特征值Vk非空的函数,若非空,则为1,若为空,则为0;F3(Skx)为计算该数据时间戳与前一数据时间戳的差值函数;Skx(x=0,1,···,6)表示操纵情况;tx(x=0,1,···,6)表示操纵情况对应的采样频率;
正确性指标包括动态信息正确、静态信息正确、航次信息正确和时间正确;所述动态信息正确是指动态数据本身的范围限制或规范,若内容超出了理论范围,判断为数据错误;所述静态信息正确是指静态数据本身有固定格式,若内容不符合规范,判断为数据错误;所述航次信息正确是指航次数据有固定格式,若内容不符合规范,判断为数据错误;所述时间正确是指从AIS接收站收集的AIS数据标有外部时间戳,称为记录时间;在生成AIS报告的过程中,通信时间戳会被编码到部分位置报告中,称为生成时间;记录时间标记每条位置报告的时间,但是存在延迟现象,延迟大会导致数据错误,设定时间偏差超过3s,判断为数据错误;
所述动态信息正确的评估模型如下:
所述静态信息正确的评估模型如下:
所述航次信息正确的评估模型如下:
所述时间正确的评估模型如下:
其中,所述动态信息正确的评估模型和所述时间正确的评估模型使用样本数据集T1,并于T1中分离出动态信息和时间;所述静态信息正确的评估模型和航次信息正确的评估模型使用样本数据集T2,并将T2中静态信息和航次信息分离;Adynamic表示动态信息正确率;Astatic表示静态信息正确率;Avoyage表示航次信息正确率;Atime表示时间正确率;F4(Vk)为判断动态数据是否正确的函数,若正确,则为1,若不正确,则为0;F5(Vk)为判断静态数据是否正确的函数,若正确,则为1,若不正确,则为0;F6(Vk)为判断航次信息是否正确的函数,若正确,则为1,若不正确,则为0;F7(Vk)为判断时间偏差是否超过阈值的函数,若没超过,则为1,若超过,则为0;
一致性指标包括规范一致、字段内容一致和轨迹点来源一致;所述规范一致是指AIS语句在不同设备间转发时,若导航及通讯设备的协议语句不相同,产生语句标识符封装错乱,判断为不一致;所述字段内容一致性是指AIS报文格式与EMEA0183传输通信协议的一致性情况,区别于判断数据的正确性,若纬度和经度的特征值出现了船舶类型,则判断为报文字段不一致;所述轨迹点来源一致是指轨迹数据在同一个实验周期内被采集,显示时船舶在海图的不同位置上呈现反复跳跃,在一条AIS轨迹数据中,若轨迹数据不属于同一条船舶,判断该船舶轨迹不具备轨迹一致性;
所述规范一致的评估模型如下:
所述字段内容一致的评估模型如下:
所述轨迹点来源一致的评估模型如下:
其中,所述规范一致的评估模型、所述字段内容一致的评估模型以及所述轨迹点来源一致的评估模型均使用样本数据集T1,Istandard表示使用最多的规范数量占所有规范的比例;Icontent是指字段内容一致的数据与所有数据的比例,区别于数据的正确性;Isource表示轨迹点来源一致的轨迹数占轨迹总数的比例;sum(S)计算所有规范的数量;max(S)计算使用最多的规范数量;F8(Vk)为判断字段内容是否一致的函数,若一致,则为1,若不一致,则为0;F9(Vj)为判断轨迹内是否有外来数据的函数,若没有,则为1,若有,则为0;
有效性指标包括轨迹段相关性和时间有效性;所述轨迹段相关性是指在AIS轨迹中,所有连续的轨迹点处于相同时空背景,每个轨迹因为船舶运动彼此关联,同一数据集内的轨迹之间都存在关联性,即如果存在轨迹段彼此不相关的情况,则认为该船舶轨迹不具备轨迹段相关性;所述时间有效性是指AIS规则和国际标准每过几年就会进行一定的优化或修改,若使用的AIS数据的国际标准与当前国际标准不符,判断超过时间有效期,数据无效;
所述轨迹段相关性的评估模型如下:
所述时间有效性的评估模型如下:
其中,所述轨迹段相关性的评估模型和所述时间有效性的评估模型均使用样本数据集T1,R为j条轨迹间比较Hausdorff距离相关性形成的矩阵;Erelate为矩阵中相关轨迹所占的比例;Eaging表示数据集时间上是否有效;F10(h)为通过判断轨迹间是否符合相关性的函数;Td为当前年份Tnow与数据产生年份Tdata的年份差值;ω3为AIS数据集在使用时间上符合规范的时间阈值;
S4、基于所述确定的AIS数据质量指标的评标标准,利用层次分析法建立AIS数据质量评价指标体系;
S5、确定AIS数据质量评价指标的相对权重值,建立综合评价函数,得出数据质量综合得分。
2.根据权利要求1所述的基于层次分析法的AIS数据质量评估方法,其特征在于,所述船舶动态数据主要包括船位、国际协调时、对地航向、对地航速、航迹向、航行状态、转向率、横倾角、纵倾和横摆;所述船舶静态数据主要包括IMO编码、呼号和船名、船的长度和宽度、船的类型、定位天线在船上的位置;所述船舶航次数据主要包括船舶吃水、危险货物类型、目的港和预计到达时间、航行计划、简明的安全信息。
3.根据权利要求1所述的基于层次分析法的AIS数据质量评估方法,其特征在于,所述步骤S2中导致所述AIS数据产生质量问题的原因包括设备问题、AIS系统自身局限性、环境因素、不同来源数据进行融合时出现的问题以及人为因素。
4.根据权利要求1所述的基于层次分析法的AIS数据质量评估方法,其特征在于,所述步骤S4具体包括:
S41、构建一个四层的层次结构模型,其中,第一层是目标层,是数据质量评估的总体目标;第二层和第三层是中间层,代表数据质量评估的准则,是对总目标的分解;第四层是准则层,代表影响目标实现的具体因素;
S42、构建判断矩阵,对所述层次结构模型中每一层指标之间的相对重要性进行判断和比较,按照规则进行量化,形成判断矩阵;所述判断矩阵包括原始质量与使用质量的判断矩阵、原始质量唯一性、完整性和正确性的判断矩阵、使用质量一致性和有效性的判断矩阵、唯一性的判断矩阵、完整性的判断矩阵、正确性的判断矩阵、一致性的判断矩阵以及有效性的判断矩阵;
假设A层的指标Am与下层指标构成元素B1,B2,···,Bn有关联,各元素的判断矩阵如下:
其中bij*bji=1。
5.根据权利要求1所述的基于层次分析法的AIS数据质量评估方法,其特征在于,所述步骤S5具体包括:
S51、计算特征向量和最大特征值得到权重系数,采用方根法求解判断矩阵B的特征向量近似解和最大特征值,计算得到每层指标的权重,具体求解过程如下:
计算每一行元素的乘积,再对乘积求n次方根,其中n为矩阵阶数:
计算每行乘积n次方根与方根和的商,构成特征向量Wi=(w1,w2,···,wn)T:
计算判断矩阵B的最大特征值λmax:
根据计算得到的特征向量进行一致性检验:
其中,RI为同阶平均随机一致性指标;若CR<0.1,则B通过一致性检验;
S52、设建立的三级四层评价模型中的第四层对第三层为一级评价,第三层对第二层为二级评价,第二层对第一层为三级评价,且三级评价得分为:
其中,L表示三级评价得分,即最终得分,ri表示二层各指标得分,wi表示第二层各指标的权重值,且wi∈[0,1],
由于上级评价得分均由下级计算得出,故确定出第四层各指标得分,自下而上逐层计算即得到公共安全大数据质量的综合评价得分,综合评价得分采用百分制对各类指标进行评分,评分结果分五等,分别是差[0~40]、较差[40~60]、一般[60~80]、较高[80~90]、高[90~100]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386465.7A CN112465041B (zh) | 2020-12-01 | 2020-12-01 | 一种基于层次分析法的ais数据质量评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386465.7A CN112465041B (zh) | 2020-12-01 | 2020-12-01 | 一种基于层次分析法的ais数据质量评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465041A CN112465041A (zh) | 2021-03-09 |
CN112465041B true CN112465041B (zh) | 2024-01-05 |
Family
ID=74805147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011386465.7A Active CN112465041B (zh) | 2020-12-01 | 2020-12-01 | 一种基于层次分析法的ais数据质量评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465041B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113448955B (zh) * | 2021-08-30 | 2021-12-07 | 上海观安信息技术股份有限公司 | 数据集质量评估方法、装置、计算机设备及存储介质 |
CN113836118B (zh) * | 2021-11-24 | 2022-03-08 | 亿海蓝(北京)数据技术股份公司 | 船舶静态数据补充方法和装置、电子设备和可读存储介质 |
CN115047889B (zh) * | 2022-08-15 | 2022-11-04 | 北京海兰信数据科技股份有限公司 | 一种确定自动舵航向控制效果的方法及系统 |
CN115855065B (zh) * | 2023-02-17 | 2023-09-05 | 亿海蓝(北京)数据技术股份公司 | 航路动态规划方法及系统、可读存储介质 |
CN116341290B (zh) * | 2023-05-29 | 2023-08-01 | 北京航空航天大学 | 一种长贮装备可靠性抽样检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050329A (zh) * | 2014-06-25 | 2014-09-17 | 哈尔滨工程大学 | 一种检测船舶碰撞危险度的方法 |
CN105005796A (zh) * | 2015-08-10 | 2015-10-28 | 中国人民解放军国防科学技术大学 | 基于层次分析的星载sar图像舰船目标分类方法 |
CA3067576A1 (en) * | 2019-01-14 | 2020-07-14 | Harbin Engineering University | Cooperative autonomous navigation systems and methods for multiple unmanned surface vehicles considering communication |
CN111949750A (zh) * | 2020-07-30 | 2020-11-17 | 智慧航海(青岛)科技有限公司 | 一种船舶轨迹模型建立及异常轨迹检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9036861B2 (en) * | 2010-04-22 | 2015-05-19 | The University Of North Carolina At Charlotte | Method and system for remotely inspecting bridges and other structures |
-
2020
- 2020-12-01 CN CN202011386465.7A patent/CN112465041B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050329A (zh) * | 2014-06-25 | 2014-09-17 | 哈尔滨工程大学 | 一种检测船舶碰撞危险度的方法 |
CN105005796A (zh) * | 2015-08-10 | 2015-10-28 | 中国人民解放军国防科学技术大学 | 基于层次分析的星载sar图像舰船目标分类方法 |
CA3067576A1 (en) * | 2019-01-14 | 2020-07-14 | Harbin Engineering University | Cooperative autonomous navigation systems and methods for multiple unmanned surface vehicles considering communication |
CN111949750A (zh) * | 2020-07-30 | 2020-11-17 | 智慧航海(青岛)科技有限公司 | 一种船舶轨迹模型建立及异常轨迹检测方法 |
Non-Patent Citations (1)
Title |
---|
单向水道船舶进出港排序权重分析;徐国裕;刘人杰;吴兆麟;;中国航海(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112465041A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465041B (zh) | 一种基于层次分析法的ais数据质量评估方法 | |
Zhao et al. | Ship trajectories pre-processing based on AIS data | |
CN113553682B (zh) | 一种数据驱动的多层次船舶航路网络构建方法 | |
Mazaheri et al. | Assessing grounding frequency using ship traffic and waterway complexity | |
CN111179638A (zh) | 一种基于时间序列的船舶ais目标航行监控方法 | |
Sun | Open aircraft performance modeling: based on an analysis of aircraft surveillance data | |
CN115660137B (zh) | 一种船舶风浪航行能耗精准估算方法 | |
CN112541161B (zh) | 一种区域多源降水数据质量控制方法及系统 | |
CN114511718B (zh) | 一种建筑施工用物料智能管理方法及系统 | |
US12057019B2 (en) | Method for vessel traffic pattern recognition via data quality control and data compression | |
CN116308958A (zh) | 基于移动终端的碳排放在线检测预警系统及方法 | |
CN115100819B (zh) | 基于大数据分析的滑坡灾害预警方法、装置及电子设备 | |
CN113284369A (zh) | 一种基于ads-b实测航路数据的预测方法 | |
Li et al. | Incorporating multi-scenario underreporting rates into MICE for underreported maritime accident record analysis | |
CN110502526B (zh) | 一种适用于结冰现象的资料序列插补的方法 | |
CN115691049A (zh) | 一种基于深度学习的对流初生预警方法 | |
CN115857056A (zh) | 一种强对流快速更新循环同化的天气预报方法及系统 | |
Kelly | Direct standard errors for regressions with spatially autocorrelated residuals | |
CN114490913A (zh) | 一种船舶进港状态的确定方法、确定装置和电子设备 | |
CN113985406A (zh) | 一种海上雷达目标航迹拼接方法 | |
CN117475584A (zh) | 一种山区道路崩塌灾害气象风险预警系统和计算机设备 | |
CN116932679A (zh) | 一种基于gis技术多模式行业气象服务检验应用方法 | |
US20230169681A1 (en) | Quantitative evaluation method and system for prediction result of remote sensing inversion | |
CN113689081B (zh) | 基于正态云模型的自动驾驶道路测试数据质量确定方法 | |
Zarembski et al. | Relationship Between Track Geometry Defects and Measured Track Subsurface Condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |