CN115759033A - 一种轨迹数据的处理方法、装置及设备 - Google Patents
一种轨迹数据的处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115759033A CN115759033A CN202211455386.6A CN202211455386A CN115759033A CN 115759033 A CN115759033 A CN 115759033A CN 202211455386 A CN202211455386 A CN 202211455386A CN 115759033 A CN115759033 A CN 115759033A
- Authority
- CN
- China
- Prior art keywords
- track
- preset
- data
- trained
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 107
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 8
- 230000003111 delayed effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 235000004919 Ariocarpus fissuratus Nutrition 0.000 description 1
- 244000176187 Ariocarpus fissuratus Species 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种轨迹数据的处理方法、装置及设备,所述方法包括:获取待测目标船只的一预设时间段内的轨迹数据集;对轨迹数据集进行网格化处理,得到轨迹文本集合;将轨迹文本集合输入训练好的预设词向量模型,得到与轨迹文本集合对应的目标维度特征向量;将目标维度特征向量输入训练好的预设分类模型进行处理,得到待测目标船只在预设时间段内的轨迹与预设目标轨迹的偏差;训练好的预设分类模型是基于训练好的预设词向量模型训练得到的;根据偏差,对待测目标船只进行轨迹偏航预警;本发明的方案可以准确地提前预测船只行为,不需要人工设置阈值,准确率较高,实时性较好。
Description
技术领域
本发明涉及数据处理技术领域,特别是一种轨迹数据的处理方法、装置及设备。
背景技术
随着沿海地区的海洋渔业及运输业得到长足的发展,海上船只数据上升到了一个新的高度,与此同时,船只的不法行为或危险行为也在同步上升,为了及时制止危险的船只行为,保证安全以及海洋生态的持续发展,对船只的轨迹特征挖掘研究已经刻不容缓。
现有技术中,船只行为预警方案对要处理数据的准确性要求较高,当数据中存在异常噪声点时,会对识别结果造成很大的影响;根据较小规模数据量进行的研究,在实际生产环境中,数据量较大时可能会出现数据积压问题,导致延迟报警;根据速度阈值进行抛锚风险报警,当速度阈值设置过高容易发生误报警,阈值设置过低则会事后报警。阈值选取需根据经验,误报率较高。
发明内容
本发明要解决的技术问题是提供一种轨迹数据的处理方法、装置及设备,解决了识别结果准确率低、延迟报警以及误报率高的问题,可以准确地提前预测船只行为,不需要人工设置阈值,准确率较高,实时性较好。
为解决上述技术问题,本发明的技术方案如下:
一种轨迹数据的处理方法,包括:
获取待测目标船只的一预设时间段内的轨迹数据集;
对所述轨迹数据集进行网格化处理,得到轨迹文本集合;
将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;
将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;
根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
可选的,获取待测目标船只的一预设时间段内的轨迹数据集,包括:
获取待测目标船只的一预设时间段内的实时轨迹数据流;
对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集。
可选的,对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集,包括:
对所述实时轨迹数据流进行卡尔曼滤波处理,得到第一中间轨迹数据集;
将所述第一中间轨迹数据集进行中值滤波处理,得到第二中间轨迹数据集;
通过聚类算法检测所述第二中间轨迹数据集中的异常数据,并对所述异常数据进行修正处理,得到所述轨迹数据集。
可选的,对所述轨迹数据集进行网格化处理,得到轨迹文本集合,包括:
获取所述轨迹数据集中每个轨迹数据的第一坐标信息;
根据每个轨迹数据的所述第一坐标信息,确定每个轨迹数据的在预设网格坐标系内的第二坐标信息;
将每个轨迹数据的所述第二坐标信息,按照预设转换规则转换为轨迹文本,得到轨迹文本集合。
可选的,训练好的所述预设词向量模型通过以下过程训练得到:
获取历史轨迹数据集;
对所述历史轨迹数据集进行数据清洗处理,得到待训练数据集;
对所述待训练数据集进行网格化处理,得到待训练文本库;
将所述待训练文本库输入词向量模型进行训练,得到训练好的所述预设词向量模型,并输出预设维度特征向量集合。
可选的,训练好的所述预设分类模型通过以下过程训练得到:
根据所述预设维度特征向量集合和待训练目标轨迹,确定第一预设数量的正样本数据;
对所述第一预设数量的正样本数据进行数据增强处理,得到第二预设数量的正样本数据;
根据第二预设数量的所述正样本数据,确定第三预设数量的负样本数据;
将第二预设数量的所述正样本数据和第三预设数量的所述负样本数据输入分类模型进行训练,得到训练好的预设分类模型。
可选的,根据所述预设维度特征向量集合和所述待训练数据集,确定第一预设数量的正样本数据,包括:
计算所述预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度,得到相似度值;
根据所述相似度值,确定满足预设条件的第一预设数量的正样本数据。
本发明还提供一种轨迹数据的处理装置,包括:
获取模块,用于获取待测目标船只的一预设时间段内的轨迹数据集;
处理模块,用于对所述轨迹数据集进行网格化处理,得到轨迹文本集合;将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
本发明还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。
本发明还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取待测目标船只的一预设时间段内的轨迹数据集;对所述轨迹数据集进行网格化处理,得到轨迹文本集合;将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;根据所述偏差,对所述待测目标船只进行轨迹偏航预警;解决了识别结果准确率低、延迟报警以及误报率高的问题,可以准确地提前预测船只行为,不需要人工设置阈值,准确率较高,实时性较好。
附图说明
图1是本发明实施例的轨迹数据的处理方法的流程示意图;
图2是本发明提供的具体的实施例中轨迹数据的处理方法的流程示意图;
图3是本发明实施例的轨迹数据的处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提出一种轨迹数据的处理方法,包括:
步骤11,获取待测目标船只的一预设时间段内的轨迹数据集;
步骤12,对所述轨迹数据集进行网格化处理,得到轨迹文本集合;
步骤13,将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;
步骤14,将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;
步骤15,根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
该实施例中,将待测目标船只的一预设时间段内的轨迹数据集处理成轨迹文本集合,即将所有轨迹数据集中的轨迹数据当作文本处理,一条轨迹可作为一个句子,轨迹数据的点可作为词,通过训练好的预设词向量模型进行处理,将轨迹数据集中的轨迹数据转化为目标维度特征向量,该目标维度为一固定维度,然后将目标维度特征向量输入训练好的预设分类模型,可以得到待测目标船只在预设时间段内的轨迹与预设目标轨迹的偏差,基于该偏差值,可以对待测目标船只进行轨迹偏航预警;可以解决对待测目标船只的轨迹识别结果准确率低、延迟报警以及误报率高的问题,可准确地提前预测船只行为,不需要人工设置阈值,准确率较高,实时性较好;另外,基于训练好的预设词向量模型训练得到的预设分类模型对船只轨迹的匹配,明显提高了准确率及召回率,本申请的方案适用于各种具有明显轨迹特征的预警模型。
本发明一可选的实施例中,步骤11包括:
步骤111,获取待测目标船只的一预设时间段内的实时轨迹数据流;
步骤112,对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集。
本实施例中,一预设时间段内的实时轨迹数据流为流式数据,由于待测目标船只对轨迹偏航预警的实时性要求较高,当延时较大或轨迹数据的数据量较大时都可能会发生数据积压的情况,而导致预警不及时的问题,因而优选基于Flink流式计算框架对实时轨迹数据流进行处理,可支持极大的数据量,实时性较强;
由于雷达对待测目标船只的轨迹数据的采集可能会存在跳点、毛刺、噪声等现象,为避免影响准确性,对实时轨迹数据流进行滤波处理,得到轨迹数据集,以解决轨迹不平滑和准确率低的问题;
需要说明的是,待测目标船只在一预设时间段内的实时轨迹数据流优选是基于Flink流式计算框架下的处理得到的,其中,Flink为一框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算,可通过Flink的窗口功能每累积一预设时间段(如30min)内的轨迹数据可生成实时轨迹数据流,这样可以实现对流式数据的低延迟处理。
本发明一可选的实施例中,步骤112包括:
步骤1121,对所述实时轨迹数据流进行卡尔曼滤波处理,得到第一中间轨迹数据集;
步骤1122,将所述第一中间轨迹数据集进行中值滤波处理,得到第二中间轨迹数据集;
步骤1123,通过聚类算法检测所述第二中间轨迹数据集中的异常数据,并对所述异常数据进行修正处理,得到所述轨迹数据集。
本实施例中,对实时轨迹数据流进行滤波处理,具体的,通过对实时轨迹数据流进行卡尔曼滤波处理,得到第一中间轨迹数据集,对第一中间轨迹数据集进行中值滤波处理,得到第二中间轨迹数据集,使得轨迹平滑,去除毛刺和跳点等,提高预警结果的准确率;
通过聚类算法(DBSCAN)对第二中间轨迹数据集进行异常数据的检测,对异常数据进行修正处理,这里的修正优选为通过该异常数据的异常值的前后点的平均值代替异常数据的异常值,得到轨迹数据集;
其中,DBSCAN是一种基于密度的噪声应用空间的无监督的聚类算法,不需要预先确定集群的数量,对异常值不敏感,能将高密度数据分离成小集群,可以大大减少异常数据对预警结果的准确率的影响。
本发明一可选的实施例中,步骤12包括:
步骤121,获取所述轨迹数据集中每个轨迹数据的第一坐标信息;
步骤122,根据每个轨迹数据的所述第一坐标信息,确定每个轨迹数据的在预设网格坐标系内的第二坐标信息;
步骤123,将每个轨迹数据的所述第二坐标信息,按照预设转换规则转换为轨迹文本,得到轨迹文本集合。
本实施例中,由于待测目标船只的轨迹数据的点可能对应不同的经纬度值,考虑到文本处理时的便利性,对轨迹数据集中每个轨迹数据的第一坐标信息进行网格化处理,这里的第一坐标信息优选为经纬度值,还可以是其他用于表示轨迹点位置信息的数据信息,本申请不以此为限制;
将轨迹数据集中每个轨迹数据的第一坐标信息对应地确定为预设网格坐标系内的第二坐标信息,该预设网格坐标系为二维坐标系,因此该第二坐标信息优选包括横坐标和纵坐标;另外,需要说明的是,这里将第一坐标信息对应至预设网格坐标系内的第二坐标信息需要满足任意两个轨迹数据对应的点之间的相对位置关系不变,且欧氏距离呈同一比例;如,在原有的坐标系下,任意两点为第一轨迹点和第二轨迹点,第一轨迹点的第一坐标信息原先位于第二轨迹点的第一坐标信息的第一轴方向的10英尺,则在预设网格坐标系内,第一轨迹点的第二坐标信息也应位于第二轨迹点的第二坐标信息的第二轴方向(A×10)英尺处,其中,A为一比例常数;
将每个轨迹数据的第二坐标信息按照预设转换规则转换为轨迹文本,得到轨迹文本集合;这里的预设转换规则优选为:将每个第二坐标信息的横坐标和纵坐标之间通过第一预设符号连接,相邻的每个第二坐标信息之间通过第二预设符号连接。
一个具体的实施例中,第一轨迹数据集为S={(x1,y1),(x2,y2),(x3,y3)},确定将第一轨迹数据集S在预设网格坐标系内的第二轨迹数据集为S'={(x'1,y'1),(x'2,y'2),(x'3,y'3)},第一轨迹数据集S和第二轨迹数据集S'中对应的轨迹数据的点满足任意两个轨迹数据对应的点之间的相对位置关系不变,且欧氏距离呈同一比例的原则;
将每个轨迹数据视为文本中的一个词,按照预设转换规则:将每个第二坐标信息的横坐标和纵坐标之间通过下划线“_”连接,相邻的每个第二坐标信息之间通过逗号“,”连接,得到轨迹文本集合为[x'1_y'1,x'2_y'2,x'3_y'3],该轨迹文本集合可视作一条文本语句。
本发明一可选的实施例中,步骤13中的训练好的所述预设词向量模型通过以下过程训练得到:
步骤131,获取历史轨迹数据集;
步骤132,对所述历史轨迹数据集进行数据清洗处理,得到待训练数据集;
步骤133,对所述待训练数据集进行网格化处理,得到待训练文本库;
步骤134,将所述待训练文本库输入词向量模型进行训练,得到训练好的所述预设词向量模型,并输出预设维度特征向量集合。
本实施例中,历史轨迹数据集优选可以从数据集合starRocks中提取,历史轨迹数据集包括多条轨迹,对所述历史轨迹数据集进行数据清洗处理,得到待训练数据集,这里是数据清洗处理包括:卡尔曼滤波处理、中值滤波处理以及异常数据处理中的至少一项,其中,卡尔曼滤波处理和中值滤波处理可以去除历史轨迹数据集中轨迹数据的毛刺和跳点等,异常数据处理优选通过聚类算法检测每条数据中是否存在异常值,将存在异常值的异常数据通过该异常值前后的平均值替代,以提高预警准确率低的问题;
待训练数据集进行网格化处理,得到待训练文本库,这里的网格化处理与步骤12相同,即将每个轨迹数据的第一坐标信息对应到预设网格坐标系内的第二坐标信息,将每个轨迹数据的第二坐标信息,按照预设转换规则转换为轨迹文本,得到轨迹文本集合,多条轨迹的轨迹文本集合组成待训练文本库;
基于该待训练文本库对词向量模型进行训练,这里的词向量模型优选为fasttext模型(快速文本分类模型),用于词向量计算和文本分类,可以将输入的句子文本处理为固定维度的预设维度特征向量,预设维度特征向量间的距离可反映不同句子文本的相似度;另外,需要说明的是,通过训练好的预设词向量模型可以将原有的流数据(非结构化数据)转换为固定维度的预设维度特征向量(结构化数据),大大提高了训练分类模型时的寻找样本的效率。
本发明一可选的实施例中,步骤14中的训练好的所述预设分类模型通过以下过程训练得到:
步骤141,根据所述预设维度特征向量集合和待训练目标轨迹,确定第一预设数量的正样本数据;
步骤142,对所述第一预设数量的正样本数据进行数据增强处理,得到第二预设数量的正样本数据;
步骤143,根据第二预设数量的所述正样本数据,确定第三预设数量的负样本数据;
步骤144,将第二预设数量的所述正样本数据和第三预设数量的所述负样本数据输入分类模型进行训练,得到训练好的预设分类模型。
本实施例中,训练好的所述预设分类模型是基于训练好的所述预设词向量模型而产生的样本训练得到的,计算预设词向量模型的待训练目标轨迹的目标轨迹向量集合和预设维度特征向量集合的余弦相似度,选取第一预设数量个最相似(即余弦相似度越大)的预设维度特征向量集合对应的轨迹作为正样本数据,对第一预设数量个正样本数据进行数据增强处理,这里的数据增强处理可以是将正样本数据进行三个方向的反转处理,这里的三个方向是由于正样本数据的轨迹是在二维坐标系下的,基于正样本数据的轨迹对于第一轴进行对称,得到第一正样本数据,基于第一正样本数据和正样本数据对于第二轴进行对称,分别得到第二正样本数据和第三正样本数据,这样,正样本数据、第一正样本数据、第二正样本数据以及第三正样本数据即为第二预设数量的正样本数据;
基于第二预设数量的正样本数据选取第三预设数量个不具有相同轨迹特征的样本作为负样本数据,将第二预设数量的正样本数据和第三预设数量的负样本数据输入分类模型进行训练,得到训练好的预设分类模型,其中,分类模型为二分类模型,在训练过程中,将正样本数据标记为0,负样本数据标记为1,将正样本数据和负样本数据的预设维度特征向量集合输入至二分类模型,二分类模型训练完成后,可得到0或1的结果,其中,0表示为与目标轨迹具有相同轨迹特征,反之则输出1。
其中,二分类模型优选为SVM(support vectormachines,支持向量机)模型。
本发明一可选的实施例中,步骤141包括:
步骤1411,计算所述预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度,得到相似度值;
步骤1412,根据所述相似度值,确定满足预设条件的第一预设数量的正样本数据。
本实施例中,通过两个向量的夹角余弦值(余弦相似度)评估预设维度特征向量集合和目标轨迹向量集合之间的相似度程度;
具体的,由于待测目标船只的运动轨迹为二维空间内的,因而对预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度计算可以通过下列公式计算得到:
其中,cos(θ)为相似度值,xi为预设维度特征向量集合中的第i个预设维度特征向量,yi为目标轨迹向量集合中的第i个待训练数据;
遍历历史轨迹数据集中每条历史轨迹数据对应的预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度,确定相似度值最高的作为第一预设数量的正样本数据。
如图2所示,一个具体的实施例中,对目标船只的轨迹数据的处理方法包括:
步骤221,使用Flink流式计算框架对Kafka(一种开源流处理平台)中目标船只的流式数据进行处理,使用Flink的窗口功能采集每30分钟的实时轨迹数据流(流式数据);
步骤222,对窗口中的实时轨迹数据流依次按照卡尔曼滤波处理、中值滤波处理以及通过聚类算法DBSCAN去除异常点的方式进行数据清洗,得到轨迹数据集;
步骤223,对轨迹数据集进行网格化处理,即将轨迹数据集中的每条轨迹转换为轨迹文本,得到轨迹文本集合;通过步骤2231获取余先保存的训练好的fasttext模型;将轨迹文本集合输入至训练好的fasttext模型中进行轨迹向量化处理,得到300维特征向量;
步骤224,调用训练好的SVM模型,判断该窗口内的轨迹是否与目标轨迹具有相同的轨迹特征,即判断是否存在目标轨迹行为;
步骤225,将判断结果输出至Kafka,进行预警。
其中,通过离线模块21训练得到训练好的fasttext模型:
步骤211,从starRocks(一种开源数据库)中提取1个月的历史轨迹数据,根据船只的id(Identity document,身份标识号)区分为不同的轨迹;
步骤212,依次使用卡尔曼滤波处理、中值滤波对轨迹进行平滑处理,去除毛刺、跳点,然后使用聚类DBSCAN算法检测每条历史轨迹数据中是否存在异常数据,若存在异常数据,则将该异常数据的异常值用前后点的平均值替代,以实现对数据的清洗,得到清洗后的历史数据;
步骤213,对清洗后的历史数据的第一坐标信息进行网格化处理,确定每个轨迹数据的在预设网格坐标系内的第二坐标信息,网格化后每个数据点对应的坐标文本值“x1_y1”可视作文本中的一个词,其中,x1为网格转换后的横坐标,y1为网格转换后的纵坐标,一段轨迹为[x1_y1,x2_y2,x3_y3......],视为文本中的一个句子,将所有清洗后的历史数据的轨迹转换成句子形式,形成文本库;
将文本库输入fasttext模型,fasttext模型是一个词向量计算和文本分类工具,可输出固定维度的向量,向量间的距离可反应不同句子的相似度,得到每条轨迹的一个长度为300维的特征向量;
至此,可以将fasttext模型作为训练好的fasttext模型;
进一步的,通过离线模块21训练得到训练好的SVM模型:
步骤215,计算fasttext模型转换后的300维的特征向量及目标轨迹的轨迹向量之间的余弦相似度;
步骤216,选取最相似的n条(如1000条)轨迹作为正样本数据;并对正样本数据进行3个不同方向的反转,达到数据增强的效果,以增加3n条(如3000条)正样本数据,并选取4n条(如4000条)不是目标轨迹特征的样本作为负样本数据;
步骤217,经过数据增强后分别得到4n条(如4000条)与目标轨迹具有相同轨迹特征的轨迹,以及4n条(如4000条)不同的轨迹,每条轨迹用fasttext模型输出的300维特征向量表示,并将正样本数据的标签label标为0,负样本数据的标签label标为1;将正负样本数据的轨迹特征向量作为训练数据输入至SVM模型中进行训练,得到训练好的SVM模型;
得到训练好的SVM模型可用于对输入的轨迹特征向量进行分类,得到0或1的结果,其中,0表示为与目标轨迹具有相同轨迹特征,反之则输出1;
上述对目标船只的轨迹数据的处理方法可以提前将轨迹数据通过fasttext模型转换为固定维度的特征向量,不需要对流式数据进行去将数据结构化处理,避免了损失数据精度,向量间的距离可以反映轨迹相似度,通过相似度值来找到匹配目标轨迹特征的正样本数据,减少大量的人力及时间成本,且使用轨迹特征向量作为SVM分类模型的训练数据准确率更高。
本发明的实施例通过获取待测目标船只的一预设时间段内的轨迹数据集;对所述轨迹数据集进行网格化处理,得到轨迹文本集合;将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;根据所述偏差,对所述待测目标船只进行轨迹偏航预警,从而解决了识别结果准确率低、延迟报警以及误报率高的问题,可以准确地提前预测船只行为,不需要人工设置阈值,准确率较高,实时性较好。
如图3所示,本发明的实施例还提供一种轨迹数据的处理装置30,包括:
获取模块31,用于获取待测目标船只的一预设时间段内的轨迹数据集;
处理模块32,用于对所述轨迹数据集进行网格化处理,得到轨迹文本集合;将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
可选的,获取待测目标船只的一预设时间段内的轨迹数据集,包括:
获取待测目标船只的一预设时间段内的实时轨迹数据流;
对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集。
可选的,对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集,包括:
对所述实时轨迹数据流进行卡尔曼滤波处理,得到第一中间轨迹数据集;
将所述第一中间轨迹数据集进行中值滤波处理,得到第二中间轨迹数据集;
通过聚类算法检测所述第二中间轨迹数据集中的异常数据,并对所述异常数据进行修正处理,得到所述轨迹数据集。
可选的,对所述轨迹数据集进行网格化处理,得到轨迹文本集合,包括:
获取所述轨迹数据集中每个轨迹数据的第一坐标信息;
根据每个轨迹数据的所述第一坐标信息,确定每个轨迹数据的在预设网格坐标系内的第二坐标信息;
将每个轨迹数据的所述第二坐标信息,按照预设转换规则转换为轨迹文本,得到轨迹文本集合。
可选的,训练好的所述预设词向量模型通过以下过程训练得到:
获取历史轨迹数据集;
对所述历史轨迹数据集进行数据清洗处理,得到待训练数据集;
对所述待训练数据集进行网格化处理,得到待训练文本库;
将所述待训练文本库输入词向量模型进行训练,得到训练好的所述预设词向量模型,并输出预设维度特征向量集合。
可选的,训练好的所述预设分类模型通过以下过程训练得到:
根据所述预设维度特征向量集合和待训练目标轨迹,确定第一预设数量的正样本数据;
对所述第一预设数量的正样本数据进行数据增强处理,得到第二预设数量的正样本数据;
根据第二预设数量的所述正样本数据,确定第三预设数量的负样本数据;
将第二预设数量的所述正样本数据和第三预设数量的所述负样本数据输入分类模型进行训练,得到训练好的预设分类模型。
可选的,根据所述预设维度特征向量集合和所述待训练数据集,确定第一预设数量的正样本数据,包括:
计算所述预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度,得到相似度值;
根据所述相似度值,确定满足预设条件的第一预设数量的正样本数据。
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种轨迹数据的处理方法,其特征在于,包括:
获取待测目标船只的一预设时间段内的轨迹数据集;
对所述轨迹数据集进行网格化处理,得到轨迹文本集合;
将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;
将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;
根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
2.根据权利要求1所述的轨迹数据的处理方法,其特征在于,获取待测目标船只的一预设时间段内的轨迹数据集,包括:
获取待测目标船只的一预设时间段内的实时轨迹数据流;
对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集。
3.根据权利要求2所述的轨迹数据的处理方法,其特征在于,对所述实时轨迹数据流进行滤波处理,得到所述轨迹数据集,包括:
对所述实时轨迹数据流进行卡尔曼滤波处理,得到第一中间轨迹数据集;
将所述第一中间轨迹数据集进行中值滤波处理,得到第二中间轨迹数据集;
通过聚类算法检测所述第二中间轨迹数据集中的异常数据,并对所述异常数据进行修正处理,得到所述轨迹数据集。
4.根据权利要求1所述的轨迹数据的处理方法,其特征在于,对所述轨迹数据集进行网格化处理,得到轨迹文本集合,包括:
获取所述轨迹数据集中每个轨迹数据的第一坐标信息;
根据每个轨迹数据的所述第一坐标信息,确定每个轨迹数据的在预设网格坐标系内的第二坐标信息;
将每个轨迹数据的所述第二坐标信息,按照预设转换规则转换为轨迹文本,得到轨迹文本集合。
5.根据权利要求1所述的轨迹数据的处理方法,其特征在于,训练好的所述预设词向量模型通过以下过程训练得到:
获取历史轨迹数据集;
对所述历史轨迹数据集进行数据清洗处理,得到待训练数据集;
对所述待训练数据集进行网格化处理,得到待训练文本库;
将所述待训练文本库输入词向量模型进行训练,得到训练好的所述预设词向量模型,并输出预设维度特征向量集合。
6.根据权利要求5所述的轨迹数据的处理方法,其特征在于,训练好的所述预设分类模型通过以下过程训练得到:
根据所述预设维度特征向量集合和待训练目标轨迹,确定第一预设数量的正样本数据;
对所述第一预设数量的正样本数据进行数据增强处理,得到第二预设数量的正样本数据;
根据第二预设数量的所述正样本数据,确定第三预设数量的负样本数据;
将第二预设数量的所述正样本数据和第三预设数量的所述负样本数据输入分类模型进行训练,得到训练好的预设分类模型。
7.根据权利要求6所述的轨迹数据的处理方法,其特征在于,根据所述预设维度特征向量集合和所述待训练数据集,确定第一预设数量的正样本数据,包括:
计算所述预设维度特征向量集合和待训练目标轨迹的目标轨迹向量集合之间的余弦相似度,得到相似度值;
根据所述相似度值,确定满足预设条件的第一预设数量的正样本数据。
8.一种轨迹数据的处理装置,其特征在于,包括:
获取模块,用于获取待测目标船只的一预设时间段内的轨迹数据集;
处理模块,用于对所述轨迹数据集进行网格化处理,得到轨迹文本集合;将所述轨迹文本集合输入训练好的预设词向量模型,得到与所述轨迹文本集合对应的目标维度特征向量;将所述目标维度特征向量输入训练好的预设分类模型进行处理,得到所述待测目标船只在所述预设时间段内的轨迹与预设目标轨迹的偏差;训练好的所述预设分类模型是基于训练好的所述预设词向量模型训练得到的;根据所述偏差,对所述待测目标船只进行轨迹偏航预警。
9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211455386.6A CN115759033A (zh) | 2022-11-21 | 2022-11-21 | 一种轨迹数据的处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211455386.6A CN115759033A (zh) | 2022-11-21 | 2022-11-21 | 一种轨迹数据的处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759033A true CN115759033A (zh) | 2023-03-07 |
Family
ID=85333498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211455386.6A Pending CN115759033A (zh) | 2022-11-21 | 2022-11-21 | 一种轨迹数据的处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759033A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052482A (zh) * | 2023-04-03 | 2023-05-02 | 中航信移动科技有限公司 | 一种航空器轨迹偏航预警的方法、电子设备及存储介质 |
CN116978259A (zh) * | 2023-06-19 | 2023-10-31 | 武汉大海信息系统科技有限公司 | 一种船舰航行轨迹预测方法、装置及存储介质 |
CN118469043B (zh) * | 2024-07-12 | 2024-11-12 | 哈尔滨工程大学三亚南海创新发展基地 | 船舶运行模型训练方法和船舶运行控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104792A (zh) * | 2019-12-13 | 2020-05-05 | 浙江工业大学 | 基于主题模型的交通轨迹数据语义分析与可视化方法 |
CN111311637A (zh) * | 2020-02-10 | 2020-06-19 | 上海明略人工智能(集团)有限公司 | 告警事件的处理方法及装置、存储介质、电子装置 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
CN112598128A (zh) * | 2020-12-16 | 2021-04-02 | 北京三快在线科技有限公司 | 一种模型训练以及联机分析处理方法及装置 |
JP6873519B1 (ja) * | 2020-04-24 | 2021-05-19 | 中国人民解放軍国防科技大学 | 軌跡予測方法及びシステム |
CN113393707A (zh) * | 2021-06-21 | 2021-09-14 | 广州嘉航通信科技有限公司 | 基于光电联动的船舶监测方法、系统、设备及存储介质 |
-
2022
- 2022-11-21 CN CN202211455386.6A patent/CN115759033A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
CN111104792A (zh) * | 2019-12-13 | 2020-05-05 | 浙江工业大学 | 基于主题模型的交通轨迹数据语义分析与可视化方法 |
CN111311637A (zh) * | 2020-02-10 | 2020-06-19 | 上海明略人工智能(集团)有限公司 | 告警事件的处理方法及装置、存储介质、电子装置 |
JP6873519B1 (ja) * | 2020-04-24 | 2021-05-19 | 中国人民解放軍国防科技大学 | 軌跡予測方法及びシステム |
CN112598128A (zh) * | 2020-12-16 | 2021-04-02 | 北京三快在线科技有限公司 | 一种模型训练以及联机分析处理方法及装置 |
CN113393707A (zh) * | 2021-06-21 | 2021-09-14 | 广州嘉航通信科技有限公司 | 基于光电联动的船舶监测方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨明泽: "基于航迹数据的小型无人机航迹预测方法研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》, 15 February 2020 (2020-02-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052482A (zh) * | 2023-04-03 | 2023-05-02 | 中航信移动科技有限公司 | 一种航空器轨迹偏航预警的方法、电子设备及存储介质 |
CN116978259A (zh) * | 2023-06-19 | 2023-10-31 | 武汉大海信息系统科技有限公司 | 一种船舰航行轨迹预测方法、装置及存储介质 |
CN116978259B (zh) * | 2023-06-19 | 2024-01-26 | 武汉大海信息系统科技有限公司 | 一种船舰航行轨迹预测方法、装置及存储介质 |
CN118469043B (zh) * | 2024-07-12 | 2024-11-12 | 哈尔滨工程大学三亚南海创新发展基地 | 船舶运行模型训练方法和船舶运行控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710651A (zh) | 一种大规模客户投诉数据自动分类方法 | |
CN115759033A (zh) | 一种轨迹数据的处理方法、装置及设备 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN112307820B (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN110599200B (zh) | Ota酒店的虚假地址的检测方法、系统、介质及设备 | |
CN108710907B (zh) | 手写体数据分类方法、模型训练方法、装置、设备及介质 | |
CN112907632A (zh) | 一种单拖船只目标的识别方法及装置 | |
CN110796210A (zh) | 一种标签信息的识别方法及装置 | |
CN112464951B (zh) | 一种基于物联网的渔业安全应急处置系统及方法 | |
CN112069039A (zh) | 人工智能开发平台的监控预知告警方法、装置及存储介质 | |
CN110956278A (zh) | 重新训练机器学习模型的方法和系统 | |
CN115034315A (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN115240037A (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN114328095A (zh) | 一种任务异常告警方法及装置 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN115705413A (zh) | 异常日志的确定方法及装置 | |
CN106033546A (zh) | 基于自上而下学习的行为分类方法 | |
CN115758153A (zh) | 一种目标对象航迹数据的处理方法、装置及设备 | |
CN116432835A (zh) | 客户流失预警归因方法、装置、计算机设备及存储介质 | |
CN114758418A (zh) | 水质评价方法、装置、设备及存储介质 | |
CN114281939A (zh) | 文本分类模型的训练方法、文本分类方法、装置和设备 | |
CN110968690B (zh) | 词语的聚类划分方法和装置、设备以及存储介质 | |
CN114238740A (zh) | 一种确定代理主体代理品牌的方法及装置 | |
CN113128568A (zh) | 一种挖掘机活动识别方法、系统、装置及存储介质 | |
CN115659282B (zh) | 基于ga-knn的预警目标有效运动特征智能提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |