CN116842285A

CN116842285A - 基于时空轨迹数据的目标伴随模式挖掘方法

Info

Publication number: CN116842285A
Application number: CN202310932500.8A
Authority: CN
Inventors: 王睿; 王真; 张文宇; 陈涵
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-10-03
Anticipated expiration: 2043-07-27
Also published as: CN116842285B

Abstract

本发明公开了时空轨迹数据挖掘邻域的一种基于时空轨迹数据的目标伴随模式挖掘方法，旨在解决DBSCAN算法运行效率低的技术问题。其包括：提取时空轨迹数据中所有轨迹点进行分组，将第一分组内轨迹的最大时长划分为连续等长的时间片，采用DBSCAN算法将所述每个时间片内的轨迹的起点进行聚类处理，获取每个时间片内至少一个类簇，并将所有时间片内对应的类簇组合在一起；通过将所有时间片内对应的第一类簇进行排序，以及遍历各个类簇，获取类簇对应的目标集合，根据所述目标集合获取不同的群目标，通过群目标对应的时间长度判断是否添加到伴随模式挖掘结果中。本发明能够根据分组结果提取起点对应的轨迹，后续的挖掘工作也能在同组内的轨迹中独立进行。

Description

基于时空轨迹数据的目标伴随模式挖掘方法

技术邻域

本发明涉及一种基于时空轨迹数据的目标伴随模式挖掘方法，属于数据处理技术领域。

背景技术

通常数据资源池的人、车、畜、船等各种目标的时空轨迹数据可以分析不同目标的时空轨迹变化规律，从这些海量的时空轨迹数据中发现隐藏的知识和轨迹模式，分析得到各种对象之间的伴生规律。而挖掘伴随模式是一种有效的分析时空轨迹模式的方法，即挖掘一起运动的超过设定时间长度阈值的移动目标群体。时空轨迹伴随模式是时空数据轨迹模式中重要的组成部分，其在挖掘具有相同或相似运动模式的移动对象群体等方面有着广泛的应用。

但是，伴随模式在第一步寻找空间距离相近的目标时，需要计算每个目标间的距离，在大规模数据集下同一时刻存在大量目标，因此这个过程将产生巨大的计算量。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于时空轨迹数据的目标伴随模式挖掘方法，解决在大规模数据集下和同一时刻存在大量目标，进而产生巨大的计算量的技术问题

为达到上述目的/为解决上述技术问题，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于时空轨迹数据的目标伴随模式挖掘方法，包括：

提取时空轨迹数据中所有轨迹的起点进行分组，获取多个分组，所述多个分组包括第一分组和除第一分组外的其它分组；

基于预先设置的时间T，将第一分组内轨迹的最大时长划分为连续等长的时间片，且每个时间片的时长为T；

采用DBSCAN算法将所述每个时间片内的轨迹点进行聚类处理，获取每个时间片内至少一个类簇，并将所有时间片内对应的类簇组合在一起；

通过将所述所有时间片内对应的类簇进行排序，以及遍历各个类簇，获取所述第一分组内第一类簇对应的目标集合，根据所述目标集合获取不同的群目标，

设置第一时间阈值，通过所述群目标对应的时间片长度是否大于所述第一时间阈值，判断所述群目标是否添加到目标伴随模式挖掘结果中。

结合第一方面，进一步地，所述时空轨迹数据中所有轨迹的起点分组过程包括：

遍历起点集合中的每一个点P，计算所述点P的eps值，以及点P的eps邻域半径内包含的点的数量；

设置最小数目成群阈值MinPts，根据所述点P的eps邻域半径内包含的点的数量与小数目成群阈值MinPts比较，判断所述点P的类型。

结合第一方面，进一步地，所述点P的eps值计算公式如下：

eps＝(Δt-η)*v

其中，Δt为起点为点P的轨迹跨越时间；η为预先设置的时间阈值，v为点P的轨迹所属目标的最大速度。

结合第一方面，进一步地，述点P的eps邻域半径内包含的点的数量计算过程包括：

遍历所述起点集合中除点P外的每一个其它点P'，计算以点P为起点的轨迹与以点P'为起点的轨迹之间的分组距离，所述表达式如下：

dist＝eps(P)+(Δt-η)*v＇＝(Δt-η)*(v+v＇)

其中，v'为以点P'为起点的轨迹所属目标的最大速度；dist为分组距离。

设置分组距离阈值，根据所述计算得出的分组距离，判断分组距离是否小于预先设置的分组距离阈值，若分组距离小于预先设置的分组距离阈值，则点P'在点P的eps邻域半径之内；若分组距离大于预先设置的分组距离阈值，则点P'没有落在点P的eps邻域半径之内；

遍历完毕所述起点集合中除点P外的每一个其它点P'，并统计所述在点P的eps邻域半径之内的所有点的数量。

结合第一方面，进一步地所述统计的点P的eps邻域半径之内的所有点的数量是否大于小数目成群阈值MinPts判断点P类型的过程如下：

若点P的eps邻域半径内包含的点的数量小于最小数目成群阈值MinPts，则点P为噪声点；若点P的eps邻域半径内包含的点的数量不小于最小数目成群阈值MinPts，则点P为核心点，并创建一个以点P为核心点的聚类簇。

结合第一方面，进一步地，所述创建一个以点P为核心点的聚类簇的过程如下：

将点P加入到所述聚类簇中，以及遍历所述点P的eps邻域半径内每个点P'，判断P'是否为核心点，若P'的eps邻域半径内点的数量大于或等于最小成群阈值MinPts，则将点P'的eps邻域与点P的eps邻域合并，不断更新形成新的聚类簇。

结合第一方面，进一步地，所述添加到伴随模式挖掘结果中的过程如下：

遍历所述同一分组内的每一条轨迹，确定所述每一条轨迹上轨迹点所属的类簇，以及确定各个类簇对应的目标数量，根据所述目标数量按从大到小的顺序进行排列，基于所述目标数量的排序，依次遍历各个类簇，获取所述第一分组内第一类簇对应的目标集合；

将所述目标集合中的任意数量的目标进行随机组合，获取不同的群目标，根据预先设置的第一时间阈值，判断群目标对应的时间片长度是否大于第一时间阈值，若群目标对应的时间片长度不小于第一时间阈值，则将所述群目标添加到目标伴随模式挖掘结果中，若群目标对应的时间片长度小于第一时间阈值，则删除所述群目标。

第二方面，本发明提供了一种基于时空轨迹数据的目标伴随模式挖掘设备，包括：

处理器及存储介质；

所述处理器用于根据所述指令进行操作以执行前述任一项所述方法的步骤。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

根据时空轨迹数据将所有轨迹的起点划分为第一分组和除了第一分组外的其它分组，本发明仅仅对第一分组内的轨迹进行处理，其它分组内的轨迹与第一分组处理方式相同。首先通过在同一时间片上进行聚类操作，获得同一时间片上的多个类簇，进而将所有时间片上对应得类簇组合在一起，达到轨迹点聚类的效果；然后通过在不同时间片上挖掘群目标，将群目标添加到目标伴随模式挖掘结果中，这样基于时空轨迹数据的目标伴随方法以及基于聚类操作的轨迹分组，能够大幅度提高计算速度和效率。

附图说明

图1是本发明实施例提供的DBSCAN算法的示意图；

图2是本发明实施例提供的一种基于时空轨迹数据的目标伴随模式挖掘方法的流程图；

图3是本发明实施例提供的一种基于时空轨迹数据的目标伴随模式挖掘设备的示意框图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符"/"，一般表示前后关联对象是一种“或”的关系。

实施例一

图1是本发明实施例一中的一种DBSCAN算法的原理图。本流程图仅仅示出了本实施例所述方法的逻辑顺序，在互不冲突的前提下，在本发明其它可能的实施例中，可以以不同于图1所示的顺序完成所示出或描述的步骤。

参见图1，本发明实施例以DBSCAN算法为基础进行时空轨迹数据的挖掘，能够发现任意形状的类簇，并且具备抗噪声能力，通过DBSCAN算法中两个重要参数eps和MinPts分别确定轨迹点的邻域半径和最小数目成群阈值(给定距离内最小的对象点数目)来判断轨迹点的类型。

其中，轨迹点的类型包括核心点、边界点和噪声点。

在本发明实施例中，以图1为例，点A表示为核心点，点C表示为边界点，点B表示为边界点，点N表示为噪声点，因为点A分别到点C、点B是密度相连的，因此点A分别到点C、点B之间构成类簇，点N是噪声点可以删除。

参见图2，本发明提供了一种基于时空轨迹数据的目标伴随模式挖掘方法，包括：

需要说明的是，本发明实施例仅对第一分组内的轨迹进行处理，对于多个分组中的其它分组均可以参照第一分组相同的方式进行处理，在此不再赘述。；

其中，该T值可以根据本发明实施例的实际情况确定。

通过将所述所有时间片内对应的类簇进行排序，以及遍历各个类簇，获取所述第一分组内第一类簇对应的目标集合，根据所述目标集合获取不同的群目标；

需要说明的是，提取的时空轨迹数据包括经度、维度、时间戳、速度和方向等，可以用TR＝{P₁,P₂,…,P_i,…,P_n}来表示，此处的时空轨迹数据的目标是行人、车辆、船舶等各种移动目标。

其中，轨迹点P_i＝{t_i，x_i，y_i，v_i，d_i}；t_i为时间戳；x_i为经度；y_i为维度；v_i为速度；d_i为方向。

具体的，时空轨迹数据中所有轨迹的起点分组过程包括：

根据组成的起点集合遍历起点集合中的每一个点P，计算点P的eps值，以及点P的eps邻域半径内包含的点的数量；

所述点P的eps值计算公式如下：

eps＝(Δt-η)*v

其中，Δt为起点为点P的轨迹跨越时间；η为预设置的时间阈值，v为该轨迹所述目标的最大速度。

需要说明的是，为预设置的时间阈值η与第一时间阈值可以相同，也可以不同，依据本发明实施例实际情况而定。

进一步地，点P的eps邻域半径内包含的点的数量计算过程如下：

遍历所述起点集合中除点P外其它的点P'，计算以点P为起点的轨迹与以点P'为起点的轨迹之间的分组距离，所述表达式如下：

dist＝eps(P)+(Δt-η)*v＇＝(Δt-η)*(v+v＇)

需要说明的是，在时间阈值为η的情况下，如果两个目标点从轨迹起点开始分别用最大速度v和v＇相向而行，经过Δt-η个时间都无法相遇，剩下的η必然无法满足距离相近的判断条件，因此无法构成目标群，需要将相向而行的情况直接剔除。

进一步地，根据预先设置分组距离阈值thrd与分组距离的大小判断eps邻域半径之内的点的数量，在本实施例中可以将分组距离阈值thrd设置为0，根据计算得出的分组距离，判断分组距离是否小于预先设置的分组距离阈值thrd，若分组距离小于预先设置的分组距离阈值thrd，则点P'在点P的eps邻域半径之内；组距离大于预先设置的分组距离阈值，则点P'没有落在点P的eps邻域半径之内；

然后，在遍历完毕起点集合中除点P外的每一个其它点P'后，统计在点P的eps邻域半径之内的所有点的数量。

最后，通过预先设置最小数目成群阈值MinPts，基于点P的eps邻域半径内包含的点的数量进行分类，分为核心点和噪声点。判断统计的点P的eps邻域半径之内的所有点的数量是否大于小数目成群阈值MinPts，若点P的eps邻域半径内包含的点的数量小于最小数目成群阈值MinPts，则点P为噪声点；若点P的eps邻域半径内包含的点的数量不小于最小数目成群阈值MinPts，则点P为核心点，并创建一个以点P为核心点的聚类。

需要说明的是，本发明重点研究噪声点和核心点的判断方法，边界点由于与核心点密度相连，必定与核心点共同存在于轨迹中，在此不作赘述，以及本发明实施例涉及到的最小数目成群阈值与目标数量，即点P的eps邻域半径之内的所有点的数量可以相同，也可以不相同。

具体的，创建一个以点P为核心点的聚类簇的过程如下：

将点P加入到所述聚类簇中；

遍历所述点P的eps邻域半径内每个点P'，判断P'是否为核心点，若P'的eps邻域半径内点的数量大于或等于最小成群阈值MinPts，则将点P'的eps邻域与点P的eps邻域合并，不断更新形成新的聚类簇。

最终，根据起点的分组结果提取起点对应的轨迹，同时后续的伴随模式挖掘工作也在第一分组内的轨迹中独立进行，由于在分组中甄别出了核心点和噪声点，对于噪声点可以删除，从而大大减少了轨迹的数量，工作量降低，提高了伴随模式算法的运行效率。

在本发明实施例中，采用伴随模式算法对第一分组内的轨迹进行挖掘的过程主要分为两个部分：同一时间片上的聚类处理以及不同时间片上挖掘群目标。

具体的，同一时间片上聚类处理的过程包括：

首先根据预设时间T，将第一分组内轨迹的最大时长划分为多个连续等长的时间片，每个时间片规定的时长也为T，基于每一个时间片，采用DBSCAN算法将该时间片内的轨迹点进行聚类处理，得到该时间片内的多个类簇，在对所有时间片处理完成后，将所有时间片内的类簇组合在一起。

需要说明的是，DBSCAN算法中的两个参数eps邻域半径和最小数目成群阈值MinPts可以预先设置，只有类簇中的目标数量不小于最小数目成群阈值，得到的类簇才有意义，并且每个类簇都有唯一的标识cluster_ID，否则得到的是噪声点。

不同时间片上挖掘群目标的过程包括：

遍历所述同一分组内的每一条轨迹，确定所述每一条轨迹上轨迹点所属的类簇，以及确定各个类簇对应的目标数量，根据所述目标数量按从大到小的顺序进行排列，基于所述目标数量的排序，依次遍历各个类簇，获取第一分组内第一类簇对应的目标数量集合；

将所述目标数量集合中的任意数量的目标进行随机组合，获取不同的群目标，不同的群目标组成群目标字典集合。

根据预设置的时间阈值，判断群目标对应的时间片长度是否大于第一时间阈值，若群目标对应的时间片长度不小于第一时间阈值，则将所述群目标添加到目标伴随模式挖掘结果中，若群目标对应的时间片长度小于第一时间阈值，则删除所述群目标。

其中，一条轨迹上有多个轨迹点，一条轨迹对应多个类簇，一个类簇包含多个点，每个点对应一个目标，则一个类簇对应多个目标，这样经过轨迹到目标的细致划分，可以统计出一个类簇对应的目标数量。

需要说明的是，群目标包含多个目标，以及至少一个时间片。群目标字典集合采用key：value格式进行存储，key用于保存群目标中的多个目标，value用于保存至少一个时间片。

如果群目标字典集合中已经存在包含完全相同的群目标，只需要更新群目标字典集合中对应的群目标所包含的时间片即可。例如以待添加群目标{(A，B，C，D)，TT1}，群目标字典集合中已经存在群目标{(A，B，C，D)，TT2}，由此可见多个目标(A，B，C，D)已经存在于群目标字典集合中，因此只需要更新时间片即可，无需再一次将多个目标(A，B，C，D)放入群目标字典集合中，防止了重复进行计算，计算机的缓存压力大大减少，因此只需要将群目标更新为{(A，B，C，D)，TT1，TT2}在添加到群目标字典集合中。

最后通过判断当前群目标的时间片长度t是否大于该轨迹对应的类簇数量的时间阈值η-(len(trajectory)-t)判断是否将该群目标添加到目标伴随模式挖掘结果Result中，如果t>η-(len(trajectory)-t)，则将该该群目标添加到目标伴随模式挖掘结果Result中，如果t<η-(len(trajectory)-t)，则该类簇数量所在的轨迹都不考虑，删除该轨迹。

需要说明的是，群目标的时间片长度为群目标包含的时间片的数量，也可以认为是群目标包含的时间片的总时长。同样的，在将群目标添加到目标伴随模式挖掘结果Result中时，如果目标伴随模式挖掘结果Result中已经存在包含完全相同目标的群目标，以上述添加群目标{(A，B，C，D)，TT1}为例，仅仅只需要更新Result中群目标包含的时间片即可。

通过上述的目标伴随模式挖掘方法的两个过程，最终得到了目标伴随模式挖掘结果Result，通过目标伴随模式挖掘结果Result可以获得哪些目标及轨迹在哪一个或者哪一些时间片内处于伴随模式，大幅度提高了计算速度和效率，因此目标伴随模式的挖掘十分必要。

实施例二

参见图3，本发明实施例提供了一种目标伴随模式挖掘设备的硬件结构示意图，包括处理器410、存储介质420、输入/输出接口430、通信接口440和总线450，所述处理器410用于根据所述指令进行操作以执行实施例一所述方法的步骤。

其中，处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。

处理器410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例一所提供的技术方案。

存储器420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序，在通过软件或者固件来实现本申请实施例所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。

输入/输出接口430用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口440用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如，USB、网线等)实现通信，也可以通过无线方式(例如，移动网络、WIFI、蓝牙等)实现通信。

总线450包括一通路，在设备的各个组件(例如，处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本邻域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请实施例一方案所必需的组件，而不必包含图中所示的全部组件。

实施例三

计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行实施例一所述方法的步骤。

本邻域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术邻域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，包括：

采用DBSCAN算法将所述每个时间片内的轨迹点进行聚类处理，获取每个时间片内至少一个类簇，并将第一分组内所有时间片内对应的类簇组合在一起；

2.根据权利要求1所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述时空轨迹数据中所有轨迹的起点分组过程包括：

设置最小数目成群阈值MinPts，根据所述点P的eps邻域半径内包含的点的数量与最小数目成群阈值MinPts比较，判断所述点P的类型。

3.根据权利要求2所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述点P的eps值计算公式如下：

eps＝(Δt-η)*v

4.根据权利要求2所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述点P的eps邻域半径内包含的点的数量计算过程包括：

dist＝eps(P)+(Δt-η)*v＇＝(Δt-η)*(v+v＇)

其中，v'为以点P'为起点的轨迹所属目标的最大速度；dist为分组距离；

遍历完毕所述起点集合中除点P外的每一个其它点，并统计所述在点P的eps邻域半径之内的所有点的数量。

5.根据权利要求4所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述统计的点P的eps邻域半径之内的所有点的数量是否大于最小数目成群阈值MinPts判断点P类型的过程如下：

6.根据权利要求5所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述创建一个以点P为核心点的聚类簇的过程如下：

7.根据权利要求1所述的基于时空轨迹数据的目标伴随模式挖掘方法，其特征在于，所述添加到目标伴随模式挖掘结果中的过程如下：

遍历所述第一分组内的每一条轨迹，确定所述每一条轨迹上轨迹点所属的类簇，以及确定各个类簇对应的目标数量，根据所述目标数量按从大到小的顺序进行排列，基于所述目标数量的排序，依次遍历各个类簇，获取所述第一分组内第一类簇对应的目标集合；

8.一种基于时空轨迹数据的目标伴随模式挖掘设备，其特征在于，包括处理器及存储介质；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。