CN116524723B

CN116524723B - 一种货车轨迹异常识别方法及系统

Info

Publication number: CN116524723B
Application number: CN202310763295.7A
Authority: CN
Inventors: 李璐; 陈燎; 贾宁; 崔润邦; 未伟; 杨淼; 杨凌霄
Original assignee: Qingdao Fantike Technology Co ltd; Tianjin University
Current assignee: Qingdao Fantike Technology Co ltd; Tianjin University
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-12
Anticipated expiration: 2043-06-27
Also published as: CN116524723A

Abstract

本申请公开了一种货车轨迹异常识别方法及系统。根据本申请的技术方案，该方法包括：根据待识别货车运行的GPS数据得到运行轨迹T；对运行轨迹T采用轨迹压缩算法得到压缩后的轨迹集合C；采用基于密度的聚类算法并按设定的时间段分组，对于每个时间段得到表示其运动轨迹的一张网络图；将网络图输入预先建立和训练好的轨迹嵌入模型，得到每张网络图对应的一个显式的嵌入向量；根据向量之间的距离确定稳定度，将稳定度低于设定阈值的点划分为异常轨迹；所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现。

Description

一种货车轨迹异常识别方法及系统

技术领域

本申请涉及轨迹异常识别技术领域，更具体地说，涉及一种货车轨迹异常识别方法及系统，用于面向货车贷款风险管理。

背景技术

随着全球定位、云计算等技术的发展，大量带有时空位置信息的移动轨迹数据得以收集、存储和计算，基于轨迹大数据的异常检测成为了热点问题，已经有国内外学者进行了一定的研究。传统的轨迹异常检测方法包括基于对象间距离的孤立点检测和基于历史轨迹相似度计算的异常检测等。传统的异常检测技术往往忽略了轨迹时间维度的特征，难以在贷后监测中用于动态评估用户的异常行为。随着机器学习的发展，出现了基于分类或聚类算法的异常轨迹识别方法，这类算法仍然难以考虑轨迹的时空相关性，而且这类方法很大程度上依赖于特征工程，对专家经验或实验的要求较高。

货车预装的GPS能够以一定的时间间隔采集车辆的经纬度坐标、时间戳、瞬时速度、方向等信息，大量相互关联的轨迹点组成了车辆轨迹序列。如何从这类多维度的时空序列中挖掘出轨迹的特征并以结构化数据的方式表达，是识别异常轨迹的关键问题。

此外，货车GPS轨迹往往具有移动范围广、偏态分布性、数据规模大且更新快速的特点。不同于私家车或出租车，货车往往在全国范围内移动，已有的模型很难通过一个网络模型表示全国范围的高密度轨迹图。同时，货车的移动轨迹通常具有周期性和不均匀分布的偏态分布性特征。商用车还具有长时间运营的特征，导致其数据规模大且更新速度快，这对算法的空间复杂度和时间复杂度提出了较高的要求。

发明内容

有鉴于此，本申请提出了一种货车轨迹异常识别方法及系统，以适应数据规模大及更新速度快的复杂度要求并提高方法的通用性。

根据本申请的一个方面，提供了一种货车轨迹异常识别方法，所述方法包括：

步骤S1）根据待识别货车运行的GPS数据得到运行轨迹T；

步骤S2）对运行轨迹T采用轨迹压缩算法得到压缩后的轨迹集合C；

步骤S3）采用基于密度的聚类算法并按设定的时间段分组，对于每个时间段得到表示其运动轨迹的一张网络图；

步骤S4）将网络图输入预先建立和训练好的轨迹嵌入模型，得到每张网络图对应的一个显式的嵌入向量；

步骤S5）根据向量之间的距离确定稳定度，将稳定度低于设定阈值的点划分为异常轨迹；

所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现。

优选的，所述步骤S1）的运行轨迹T满足下式：

其中，为运动轨迹的总点数，/>为第n点的数据，包括四个维度，/>分别是经度、纬度、时间和瞬时速度。

优选的，所述步骤S2）具体包括：

步骤S2-1）设定距离阈值，压缩后的轨迹集合/>，并将轨迹的两个端点/>和/>加入集合/>；设定线段/>；

步骤S2-2）遍历线段之间的所有点，找到距线段/>距离最远的点/>和对应的最大距离/>，若/>，则将/>加入集合/>；否则，停止循环，输出压缩后的轨迹集合/>；

步骤S2-3）点将原轨迹分为两段，以/>作为端点，得到两段子轨迹/>和/>，先后设定/>以及/>为线段x，分别转至步骤S2-2），直至所有子轨迹中最大距离d都小于距离阈值D，得到压缩后的轨迹集合/>，其中，/>为第m采样点，/>为轨迹压缩后的总采样点数。

优选的，所述步骤S3）具体包括：

步骤S3-1）设置为邻域内的最少点数，/>为邻域半径；

步骤S3-2）随机选取轨迹集合中的点/>，若/>的邻域半径/>内有其他的点，且数量大于/>-1，则创建一个新组别/>并将/>归入，否则将/>归为噪声点，转至步骤S3-2）重新选点；

步骤S3-3）遍历领域内的所有点，若其邻域半径/>内有其他的点，且数量大于-1，则归入新组别/>，转至步骤S3-3），直至邻域内没有符合要求的点；

步骤S3-4）转至步骤S3-2）再次重新随机选点，直至轨迹集合中所有点均有所属组别或识别为噪声点；

步骤S3-5）根据识别的组别，将同属于一个组别的所有子轨迹划分为一簇，记为一个节点，节点集合为，车辆在不同的子轨迹之间运动，记入图的边集合/>，边为有向边，同时计算节点的度，由此形成表示对应时间段运动轨迹的一张网络图/>。

优选的，所述步骤S4）的轨迹嵌入模型的处理过程具体包括：

从一张网络图中提取出各节点的有根子图，使用Skipgram模型进行向量嵌入，使用随机梯度下降算法优化输出结果。

优选的，所述从一张网络图中提取出各节点的有根子图；具体包括：

确定有根子图最大深度；

从到/>中的每一个深度/>，采用广度优先的算法寻找某个节点RN的邻居节点，再对每个邻居节点搜索深度为/>的全部子图，记入集合/>，再找到以节点RN为根节点、深度为/>的子图/>；其中，下标z表示第z个节点；

使用Weisfeiler-Lehman算法对中的子图重标签，再与/>合并成深度为的子图作为输出；

重复上述步骤，直至得到所有节点的子图。

优选的，所述Skipgram模型包括输入层、隐藏层和输出层，其中，输出层是一个softmax回归分类器；所述Skipgram模型的输入为一个网络图的各节点的子图，输出为子图集合的概率分布，进而得到对应网络图/>的嵌入向量。

优选的，所述步骤S5）具体包括：

采用余弦距离计算前后两个时间段的嵌入向量之间的相似性，对所有余弦距离求取平均值以量化得到轨迹的稳定性；

将稳定度低于设定阈值的点划分为异常轨迹。

优选的，所述方法还包括轨迹嵌入模型的训练步骤，具体包括：

采用负采样的方式进行训练，选择待训练的训练图，/>的子图集合为/>，从与相邻的几组图中随机选取它们的根子图组成一个样本集/>，使得/>，每次训练只更新样本集/>，根据设定的学习率/>进行训练，直至满足训练要求，得到训练好的轨迹嵌入模型，其中/>表示空集。

根据本申请的再一方面，提供了一种货车轨迹异常识别系统，所述系统包括：运行轨迹获取模块、压缩模块、聚类算法模块、向量输出模块和异常识别模块；其中，

所述运行轨迹获取模块，用于根据待识别货车运行的GPS数据得到运行轨迹T；

所述压缩模块，用于对运行轨迹T采用轨迹压缩算法得到压缩后的轨迹集合C；

所述聚类算法模块，用于采用基于密度的聚类算法并按设定的时间段分组，对于每个时间段得到表示其运动轨迹的一张网络图；

所述向量输出模块，用于将网络图输入预先建立和训练好的轨迹嵌入模型，得到每张网络图对应的一个显式的嵌入向量；

所述异常识别模块，用于根据向量之间的距离确定稳定度，将稳定度低于设定阈值的点划分为异常轨迹；

所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现。

根据本申请的技术方案，提出了一种基于图表示学习的货车轨迹异常识别模型。该模型能够将大量的时空轨迹序列转化为轨迹网络图，并通过神经网络的训练将轨迹网络嵌入为向量，通过向量的计算可以量化轨迹的稳定性，并通过设定稳定性阈值识别异常轨迹。

根据本申请的技术方案，该方法对于非均匀和有噪声的样本具有较强的鲁棒性，同时，可以通过轨迹压缩、轨迹聚类的方式简化网络，提高算法运行效率；

本申请将复杂的轨迹网络结构学习为能够运用结构化数据表达的向量，为后续轨迹分析方法提供了可能；

本申请考虑了轨迹的时空关联性，能够更好地处理具有周期性特征的轨迹序列；

使用真实商用货车贷款数据集进行实验，验证了模型的有效性。

本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施方式及其说明用于解释本申请。在附图中：

图1为根据本申请的货车轨迹异常识别方法流程示意图；

图2为原始轨迹图示；

图3为压缩后轨迹图示；

图4为聚类后轨迹图示；

图5为轨迹可视化图示意，图5（a）为判定正常，图5（b）为判定异常。

具体实施方式

本技术方案是基于图表示学习的轨迹异常识别方法。

目的是识别异常的货车轨迹，关键问题是将包含时空特征的轨迹序列表示为的特征向量，因此，使用了graph2cev算法对轨迹进行表示学习，思路是将用户的轨迹按照某一固定周期划分，把每个周期的轨迹表示为一个向量，通过向量之间的距离计算其稳定性，将稳定性低于某一阈值的点划分为异常轨迹。

为了将时空轨迹网络转化为图结构，对轨迹序列中的点进行聚类作为图的节点，对于二维经纬度坐标的聚类，选择基于密度的DBSCAN聚类方法效果较好，但DBSCAN算法的空间复杂度较高，难以处理海量的轨迹数据，因此，需要在聚类前对轨迹进行压缩处理。

下面将参考附图并结合实施方式来详细说明本申请的技术方案。

实施例1

如图1所示，本发明的实施例1提出了一种货车轨迹异常识别方法，包含了轨迹网络图建立、轨迹嵌入模型和度量指标输出三个部分。具体来说有以下步骤：

步骤S1）根据待识别货车运行的GPS数据得到运行轨迹T；

步骤S3）采用基于密度的聚类算法，得到表示整体运动轨迹的网络图；

步骤S4）将网络图输入预先建立和训练好的轨迹嵌入模型，得到显式的嵌入向量；

（1）轨迹网络图建立

为降低算法的时间复杂度，本申请使用了Douglas-Peuker轨迹压缩算法，降低轨迹的密度并保留关键节点。使用基于密度聚类的DBSCAN算法，将轨迹中较为密集的点归为一簇，使模型具有更好的抗干扰性。聚类后依照时间顺序形成用户轨迹网络图。

对于步骤S1），具体是：

本方法的输入为车载GPS数据，使用表示某个用户的时空轨迹序列，轨迹的总点数记为/>，即/>，其中/>为该点在时间序列中出现的次序，序列中的每一个点有四个维度，分别是经度、纬度、时间和瞬时速度，即/>。如按照月份把一年的轨迹分为12段，也就是12张图。

对于步骤S2）采用轨迹压缩算法具体是：

在实践中，轨迹压缩一般可以采用时间间隔取点、距离间隔取点或基于速度取点等方式，但这些方式可能会丢失一些关键数据，为了更好地保留其基本特征、同时尽可能地降低算法复杂度，本申请采用了经典的Douglas-Peuker轨迹压缩算法。该算法能够从原来密集的点中提取出一些较为突出的点，且这些点连成的轨迹与原轨迹轮廓大致相似，从而实现代替原轨迹的功能。

为将货车轨迹输入轨迹嵌入模型进行训练，需要将时空轨迹序列转化为图/>，，其中/>表示节点的集合，/>表示边的集合。确定节点集合/>的方法是对整条轨迹上的轨迹点进行聚类，将一簇点视为一个节点，但由于货车GPS数据采集频率高、样本量大，为提高算法运行效率，可以先通过轨迹压缩方法对轨迹上的点进行抽稀处理，再使用聚类的方法确定节点。

本申请中，对于轨迹，轨迹压缩的步骤如下：

（1）定义变量与参数：确定距离阈值，定义压缩后的轨迹集合/>，并将轨迹的两个端点/>和/>加入集合/>。

（2）寻找分割点：遍历轨迹中的所有点，找到距线段/>距离最远的点/>和最大距离/>，若/>，则将/>加入集合/>。

（3）递归循环：点将原轨迹分为两段，将/>作为端点，两段轨迹分别重复步骤（2），直至所有子轨迹中最大距离d都小于距离阈值D。

通过以上步骤可以得到轨迹压缩后的轨迹集合/>，其压缩率取决于参数距离阈值/>，/>越小，保留的原始数据越多，/>越大，压缩后的点集越小，但失真率也会增高，需要根据实际情况调整参数，尽可能在保留原始数据特征的基础上压缩数据量。

对于步骤S3）采用聚类算法。

在压缩轨迹之后，为了形成适合输入深度学习模型的图，需要进一步对轨迹点聚类。由于轨迹点具有明显的形状特征，且维度较低，本申请选取了DBSCAN聚类算法，该算法是一种基于密度的聚类算法，它能够识别出任意形状的高密度区域，具有良好的抗干扰性，在轨迹数据的处理上具有十分显著的作用。

本申请中，对于轨迹，（其中/>为轨迹压缩后采样点的总数量），轨迹聚类的步骤如下：

（1）设置参数：为邻域内的最少点数，/>为邻域半径。

（2）创建组别：随机选取一个点，若/>的邻域半径/>内有其他的点，且数量大于-1，则创建一个新组别/>并将/>归为此类，否则将/>归为噪声点，重新选点。

（3）扩展组别：遍历领域内的所有点，若其邻域半径/>内有其他的点，且数量大于/>-1，则归入新组别/>，继续递归使用该方法，直到邻域内没有符合要求的点。

（4）循环分组：再次重新随机选点，并重复以上过程直到所有点均有所属组别或识别为噪声点。

该方法能够识别密度较高的一片区域，由此可以将同属于一片区域的所有子轨迹划分为一簇，记为一个节点，节点集合为，车辆在不同的子轨迹之间运动，记入图的边集合/>，该边为有向边，同时可以计算节点的度，由此形成表示整体运动轨迹的网络图/>。

轨迹嵌入模型：

由于直接使用图进行计算存在运行效率的问题，为对比轨迹图之间的相似性，需要借助图嵌入模型，将图映射为一个维度为的向量，其中/>远小于原图中节点的个数，使下一步的研究能够以低维向量的形式对图使用机器学习、深度学习等方法进行分析。

本申请使用了graph2vec算法，该算法是一种基于图核的无监督学习表示方法，通过神经网络的训练，将整张轨迹图嵌入并得到可以进行相似度计算的显式的嵌入向量，该算法思路上借鉴了自然语言处理中的文档嵌入方法，graph2vec相对于doc2vec，是将整张图视为一个文档，从图中提取出的有根子图视为一个词，有根子图构成图的形式可以视为词汇构成句子或段落的形式。graph2vec算法的基本流程是：首先从整张图中提取出各节点的有根子图，然后使用Skipgram模型进行向量嵌入，最后使用随机梯度下降算法（SDG）优化输出结果。

具体步骤：

有根子图的抽取

有根子图是指以图中的某个节点为根节点、最大深度为指定参数的子图，有根子图是一种高阶子结构，相比于低阶或线性子结构，能够更好地保留原图的结构特征。抽取有根子图的步骤如下：

（1）确定参数:确定有根子图最大深度。

（2）搜索节点：从到/>中的每一个深度/>,采用广度优先的算法寻找节点/>的邻居节点，再对每个邻居节点搜索深度为/>的全部子图，记入集合/>。找到以节点为根节点、深度为/>的子图/>。

（3）重排序与合并：使用Weisfeiler-Lehman算法对中的子图重标签，然后与/>合并成深度为/>的子图作为输出。

通过上述步骤我们可以得到图中所有节点的有根子图并为所有子图分配了唯一标签。

负采样的Skipgram模型

Skipgram模型是一种前馈神经网络模型，在gragh2vec算法中，其功能是通过一个给定的子图预测其前后可能出现的子图，即求最大似然估计。如给出一句整张图中的个子图：/>，确定窗口长度为cw，即需要预测的子图为，为使预测概率最大化，采用最大似然估计的方法，计算方式如公式3-1所示。

（1）

其中表示在/>出现的情况下各子图出现的概率的乘积，其计算公式为公式3-2。

（2）

表示子图/>出现的情况下，子图/>出现的概率，由于在子图的集合字典/>中，每个子图出现的概率属于独立分布，/>可以用公式3-3表示。

Skipgram模型是一个包括输入层、隐藏层和输出层的浅层神经网络；选取需要嵌入的网络图，其所有子图的集合为/>，确定窗口长度为cw，依次选择子图/>作为神经网络的输入，输出层是一个softmax回归分类器，它的每个结点将会输出一个0-1之间的值，表示子图集合/>的概率分布，所有值表示的概率之和为1。目标函数是最大化/>，其中/>表示在子图/>出现的情况下各子图出现的概率的乘积，即/>，其中表示子图/>出现的情况下，子图/>出现的概率，计算公式为，V是全体子图组成的字典，该模型最终输出为一个表示图/>的向量。

由于graph2vec中全部子图构成的词库数据量过大，直接采用Skipgram模型耗费成本过高，graph2vec算法采取了负采样的训练方式，减少Skipgram模型中字典所包含元素的个数。具体方式为：若我们选择训练图/>，/>的子图集合为/>从与/>相邻的几组图中随机选取它们的根子图组成一个样本集/>，则/>且/>，/>表示空集，/>中子图的个数应远小于中/>子图的个数，且这个参数应该根据实际需要进行调整，每次训练只需要更新样本集/>即可。如果两个图由相似的有根子图组成，则这两张图的嵌入结果在向量空间中更为相近。

优化输出结果

由于样本量较大，该算法选取了随机梯度下降的方法优化输出向量，随机选取部分样本进行训练，以保证算法运行效率，其中学习率需要根据实际情况调整。

对于步骤S5），稳定性指标输出

通过余弦相似度衡量不同周期间的轨迹是否具有相似性，以分析用户行为的稳定性，识别异常轨迹。

所有轨迹图将共同组合成一个向量空间，可以通过计算该空间中向量之间的距离来比较两条轨迹的相似度。衡量向量之间的距离一般有两种方式，分别是欧氏距离和余弦距离，其中余弦距离更适用于计算两个向量之间的相似性，即，得到的越大，表明两条轨迹关联性越大。将整条轨迹按照时间周期划分为多段轨迹进行嵌入，计算所有余弦距离的平均值以量化其轨迹的稳定性。

实施例2

本发明的实施例2提出了一种货车轨迹异常识别系统，该系统基于实施例1的方法实现，包括：运行轨迹获取模块、压缩模块、聚类算法模块、向量输出模块和异常识别模块；其中，

所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现。

实验效果

1.本实验研究选用数据集包含了206辆货车轨迹的GPS轨迹数据，每辆车的轨迹数据由十万数量级的轨迹点组成。

2.轨迹压缩的效果，如图2所示为原始轨迹，图3为轨迹压缩后的轨迹。

3.按月对轨迹进行分组，然后对每组轨迹聚类，其中一组的效果如图4所示，每一个点表示聚类后的簇心。对处理好的轨迹进行向量嵌入，每张图表示为一个128维的向量。

4. 使用计算得到余弦相似度表示每辆车的稳定性量化指标，对比轨迹可视化图，设定稳定性阈值。效果如图5所示，图5（a）表示的用户稳定性指标高于阈值，判定正常，图5（b）表示的用户稳定性指标低于设定阈值，判定异常。图中三维坐标分别表示经度、维度和时间，每个点表示车辆在某一时间的地理位置，其中时间采用基于1970年1月1日8点的积秒，单位为1e9，表示科学计数法10的9次方。

5. 检验实验效果，采用自相似度检验的方法。将某个用户的轨迹序列按行序号的奇偶性拆分为两个子序列，比较这两个子序列嵌入向量的相似度，若相似度高，则说明该模型有效。本实验随机选取了20个用户进行实验，13个自相似度超过0.95，其余均在0.8以上，远高于稳定性阈值。因此可说明该模型对量化用户行为稳定性、识别异常用户有效。

以上详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。

此外，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种货车轨迹异常识别方法，所述方法包括：

步骤S1）根据待识别货车运行的GPS数据得到运行轨迹T；

所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现；

所述步骤S1）的运行轨迹T满足下式：

，/>，

其中，为运动轨迹的总点数，/>为第n点的数据，包括四个维度，/>分别是经度、纬度、时间和瞬时速度；

所述步骤S2）具体包括：

步骤S2-1）设定距离阈值，压缩后的轨迹集合/>，并将轨迹的两个端点/>和/>加入集合；设定线段/>；

步骤S2-3）点将原轨迹分为两段，以/>作为端点，得到两段子轨迹/>和/>，先后设定以及/>为线段x，分别转至步骤S2-2），直至所有子轨迹中最大距离d都小于距离阈值D，得到压缩后的轨迹集合/>，其中，/>为第m采样点，/>为轨迹压缩后的总采样点数；

所述步骤S3）具体包括：

步骤S3-1）设置为邻域内的最少点数，/>为邻域半径；

步骤S3-3）遍历邻域内的所有点，若其邻域半径/>内有其他的点，且数量大于/>-1，则归入新组别/>，转至步骤S3-3），直至邻域内没有符合要求的点；

步骤S3-5）根据识别的组别，将同属于一个组别的所有子轨迹划分为一簇，记为一个节点，节点集合为，车辆在不同的子轨迹之间运动，记入图的边集合/>，边为有向边，同时计算节点的度，由此形成表示对应时间段运动轨迹的一张网络图/>；

所述Skipgram模型包括输入层、隐藏层和输出层，其中，输出层是一个softmax回归分类器；所述Skipgram模型的输入为一个网络图的各节点的子图，输出为子图集合的概率分布，进而得到对应网络图/>的嵌入向量；

所述步骤S5）具体包括：

将稳定度低于设定阈值的点划分为异常轨迹。

2.根据权利要求1所述的货车轨迹异常识别方法，其特征在于，所述步骤S4）的轨迹嵌入模型的处理过程具体包括：

从一张网络图中提取出各节点的有根子图，使用 Skipgram模型进行向量嵌入，使用随机梯度下降算法优化输出结果。

3.根据权利要求2所述的货车轨迹异常识别方法，其特征在于，所述从一张网络图中提取出各节点的有根子图；具体包括：

确定有根子图最大深度；

使用Weisfeiler-Lehman算法对中的子图重标签，再与/>合并成深度为/>的子图作为输出；

重复上述步骤，直至得到所有节点的子图。

4.根据权利要求1所述的货车轨迹异常识别方法，其特征在于，所述方法还包括轨迹嵌入模型的训练步骤，具体包括：

采用负采样的方式进行训练，选择待训练的训练图，/>的子图集合为/>，从与/>相邻的几组图中随机选取它们的根子图组成一个样本集/>，使得/>，每次训练只更新样本集/>，根据设定的学习率/>进行训练，直至满足训练要求，得到训练好的轨迹嵌入模型，其中/>表示空集。

5.一种基于权利要求1-4任一所述的货车轨迹异常识别方法的识别系统，其特征在于，所述系统包括：运行轨迹获取模块、压缩模块、聚类算法模块、向量输出模块和异常识别模块；其中，

所述轨迹嵌入模型基于graph2vec算法，采用Skipgram模型实现。