CN108108407A

CN108108407A - 基于时空轨迹的群体运动移动簇模式排序方法

Info

Publication number: CN108108407A
Application number: CN201711306853.8A
Authority: CN
Inventors: 吉根林; 张玉洁; 赵斌
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-06-01
Anticipated expiration: 2037-12-11
Also published as: CN108108407B

Abstract

本发明公开一种基于时空轨迹的群体运动移动簇模式排序方法，包括以下步骤：构建移动簇‑兴趣点二部图和基于重启式随机游走模型进行排序。本发明移动簇基于重启式随机游走模型对移动簇进行重要性排序问题可以转换为“移动簇‑兴趣点”图中顶点的重要性计算问题，每个顶点的概率值代表该顶点的重要性，概率值越大说明该顶点越重要，利用该模型对移动簇进行重要性排序易于实现，不需要用户设置过多的参数便可以自动完成排序过程。

Description

基于时空轨迹的群体运动移动簇模式排序方法

技术领域

本发明涉及时空数据的轨迹模式挖掘领域，具体涉及一种基于时空轨迹的群体运动移动簇模式排序方法。

背景技术

随着移动对象轨迹数据量的快速增长，轨迹数据的分析挖掘需求明显增强。通过挖掘轨迹数据，可以发现大量时空轨迹模式。作为时空轨迹模式的重要组成部分，群体运动移动簇模式能够发现轨迹大数据中有价值的信息，从而用于分析移动对象群体的运动趋势和运动规律。对于群体运动移动簇模式而言，如何从大量挖掘结果中找出有价值的、重要的结果，涉及到模式的排序问题。由于群体运动移动簇模式多种多样，问题的定义各不相同,导致挖掘出的模式的表现形式也各不相同，然而它们都面临一个共同的问题，即从大量挖掘结果中找出用户感兴趣的少数部分。

目前，群体运动移动簇模式主要包括成群模式(Flock)、护航模式(Convoy)、蜂群模式(Swarm)、汇聚模式(Convergence)、聚合模式(Gathering)等，它们大多借助经验人为地挑选出少数重要结果。这种方法虽然可行，但是人为地从大量结果中找出用户感兴趣的少数结果并非易事。

为此需要找到一个统一的排序方法，帮助用户从众多挖掘结果中挑选出用户关心的少数结果。现有的研究工作中，关于时空轨迹模式挖掘结果的排序问题并不多。2011年，Zhijun Yin等人提出轨迹模式排序方法，但是该方法只针对频繁模式的挖掘结果进行排序，并不适用于群体运动移动簇模式。

目前，仍然没有针对群体运动移动簇模式挖掘结果进行排序的研究工作。究其原因，是由于群体运动移动簇模式挖掘结果所包含的属性各不相同，导致很难找到一种传统的排序方法来适用于所有群体运动移动簇模式的排序问题。

对于群体运动移动簇模式排序问题而言，最简单的方法就是按照移动簇的持续时间或对象规模来进行排序。这种方法虽然简单，但存在很大缺陷。例如交管部门通常对一些热门区域(商业圈、车站、机场等)发生的事件更感兴趣，然而这些区域的移动簇并不一定具有较长的持续时间或者较大的对象规模，如果使用上述方法对这样的移动簇进行排序，则它们并不一定能被排在前面。因此，需要找到一个更有效的排序方法,帮助用户找出与重要地理位置相关的移动簇。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于时空轨迹的群体运动移动簇模式排序方法，解决对轨迹模式挖掘出的大量移动簇进行重要性排序的问题。

技术方案：本发明一种基于时空轨迹的群体运动移动簇模式排序方法，包括以下步骤：

(1)构建移动簇-兴趣点二部图，具体包括以下方法

(1.1)获取移动簇的集合MC，MC＝{mc₁,…,mc_n}；

(1.2)获取挖掘移动簇所使用的数据集的兴趣点集合POI，POI＝{poi₁,…,poi_l}；

(1.3)构建二部图；

(1.4)二部图构建成功，采用邻接矩阵M_MC·POI的形式来存储构建好的二部图；

(2)基于重启式随机游走模型进行排序，具体方法如下：

(2.1)对于步骤(1)中产生的邻接矩阵M_MC·POI，计算得到其相应的转置矩阵

(2.2)利用M_MC·POI和构建方阵

(2.3)对M进行行归一化处理，对每一条边e_ij，行归一化后的值为

其中，w(e_ij)表示边e_ij上的权重，∑_kw(e_kj)表示所有边e_kj的权重之和，1≤k≤n+l，1≤i≤n+l，1≤j≤n+l；k为矩阵M的第k行；

(2.4)初始化列向量p和q，p向量中的每个元素置为0，q中的元素置为其中，向量p和q的长度均为n+l，n为所有移动簇的数目，l为兴趣点的数目；

(2.5)利用公式p^(t+1)＝(1-α)·M·p^(t)+α·q进行迭代计算，其中t为迭代次数，此处迭代终止的条件为||p^(t+1)||₁-||p^(t)||₁<ε；

其中，p^(t)、p^(t+1)和q是列向量，p^(t)表示第t步图中的顶点概率分布，列向量q中设置目标用户顶点值为1，其余为0，M是转移概率矩阵；α为直接回到出发顶点的概率即重启概率；

(2.6)将迭代终止后向量p中兴趣点的重要性得分去掉，剩下的即为每个移动簇的重要性得分，以重要性得分由高到低进行排序，所得结果即为移动簇的重要性排序结果。

进一步的，所述步骤(1.3)的具体方法为：

所构建二部图为MC-POI二部图G＝{MC∪POI,E}，

其中，MC＝{mc₁,…,mc_n}，代表移动簇模式挖掘算法所挖掘出结果中的所有移动簇的集合,POI＝{poi₁,…,poi_l}为挖掘算法所使用数据集中的兴趣点的集合，E＝{(mc,poi)|mc∈MC,poi∈POI}，是移动簇和兴趣点之间关系的有穷集合；令e_ij∈E表示移动簇mc_i到兴趣点poi_j的一条边；

对于每一个移动簇mc_i，其空间属性中包含一个中心点或多个中心点的序列，若一个移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖，则认为该移动簇是重要的，且该移动簇和这些被覆盖的poi兴趣点有联系，在二部图上它们之间有一条边；

若某个poi兴趣点在邻域半径γ范围内，覆盖很多移动簇的中心点，则认为该poi兴趣点是重要的，且该poi兴趣点和这些移动簇有联系；在二部图的表示形式中，它们之间也存在一条边；

上述MC-POI二部图存储于矩阵M_MC·POI中，且二部图所有边上的权重都为1，即为RWR-Ranking方法的排序方法。

进一步的，所述步骤(1.3)具体方法为：

所构建二部图为MC-POI二部图G，G＝{MC∪POI,E}；

其中MC＝{mc₁,…,mc_n}，代表移动簇模式挖掘算法所挖掘出结果中的所有移动簇的集合,POI＝{poi₁,…,poi_l}为挖掘算法所使用数据集中的兴趣点的集合，E＝{(mc,poi)|mc∈MC,poi∈POI}，是移动簇和兴趣点之间关系的有穷集合。令e_ij∈E表示移动簇mc_i到兴趣点poi_j的一条边；

上述MC-POI二部图存储于矩阵M_MC·POI，且将每一个移动簇的持续时间作为权重赋值给予与该移动簇有关联的POI所连成的边，所述持续时间即一个移动簇它在某个POI附近停留的时间，该停留的时间越长，其在二部图的边上所占的权重就越大。即为WRWR-Ranking方法的排序方法。

进一步的，所述步骤(2.5)中ε取值为0.0001。

有益效果：本发明建立“移动簇-兴趣点”的图模型，结合移动簇的时空属性和兴趣点三个重要因素，对移动簇进行建模，通过移动簇的空间属性和兴趣点之间的联系生成“移动簇-兴趣点”二部图，并将移动簇所包含的时间属性以权重的方式赋值给二部图的边。由于图的特殊结构，使得该方法可以将移动簇基于重启式随机游走模型对移动簇进行重要性排序问题，每个顶点的概率值代表该顶点的重要性，概率值越大说明该顶点越重要，利用该模型对移动簇进行重要性排序易于实现，不需要用户设置过多的参数便可以自动完成排序过程。

综上所述，现有技术的时空轨迹模式挖掘过程中产生大量移动簇，然而用户感兴趣的只是其中少数重要的移动簇。本发明针对该问题，能够充分利用移动簇所包含的属性对移动簇进行重要性排序，使得用户感兴趣的结果尽可能排在前面，且具有排序结果稳定、排序效果较好和易于实现等特点，适用于时空轨迹移动簇模式挖掘和分析领域。

附图说明

图1为本发明中不考虑时间因素时的二部图示意图；

图2为考虑时间因素时的二部图示意图；

图3为实施例1中香港海洋公园2014年7月7日移动簇排序结果对比图；

其中，图3(a)为排序前移动簇所处地理位置的可视化结果图；图3(b)为使用单属性排序后排名前10的移动簇所处地理位置的可视化结果图；图3(c)显示使用WRWR方法排序后排名前10的移动簇所处地理位置的可视化结果图；

图4为实施例1中两种模式的排序结果得到的各项评价指标得分。

其中，图4(a)为聚合移动簇排序结果的正确率示意图；图4(b)为蜂群移动簇排序结果的正确率示意图；图4(c)为聚合移动簇排序结果平均精度均值示意图；图4(d)为蜂群移动簇排序结果平均精度均值示意图；图4(e)为聚合移动簇排序结果的归一化折损累积增益示意图；图4(f)图为蜂群移动簇排序结果的归一化折损累积增益示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明一种基于时空轨迹的群体运动移动簇模式排序方法，包括以下步骤：

(1)构建移动簇-兴趣点二部图，具体包括以下方法

(1.1)获取移动簇的集合MC；

(1.2)获取挖掘移动簇所使用的数据集的兴趣点集合POI；

(1.3)构建二部图；

(2)基于重启式随机游走模型进行排序，具体方法如下：

(2.2)利用M_MC·POI和构建方阵

其中，w(e_ij)表示边e_ij上的权重，∑_kw(e_kj)表示所有边e_kj的权重之和，1≤k≤n+l，1≤i≤n+l，1≤j≤n+l；

(2.5)利用公式p^(t+1)＝(1-α)·M·p^(t)+α·q进行迭代计算，其中t为迭代次数，此处迭代终止的条件为||p^(t+1)||₁-||p^(t)||₁<ε；ε可以取值为0.0001；

所述步骤(1.3)的具体方法为：

所构建二部图为MC-POI二部图G，G＝{MC∪POI,E}；其中MC＝{mc₁,…,mc_n}，代表移动簇模式挖掘算法所挖掘出结果中的所有移动簇的集合,POI＝{poi₁,…,poi_l}为挖掘算法所使用数据集中的兴趣点的集合，E＝{(mc,poi)|mc∈MC,poi∈POI}，是移动簇和兴趣点之间关系的有穷集合。令e_ij∈E表示移动簇mc_i到兴趣点poi_j的一条边。

对于每一个移动簇mc_i，其空间属性中包含一个中心点或多个中心点的序列。若一个移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖，则认为该移动簇是重要的，且该移动簇的中心点和这些被覆盖的poi兴趣点有联系，在二部图上它们之间有一条边；若某个poi兴趣点在邻域半径γ范围内，覆盖很多移动簇的中心点，则认为该poi兴趣点是重要的，且该poi兴趣点和这些移动簇的中心点有联系；在二部图的表示形式中，它们之间也存在一条边。

例如，有3个移动簇mc₁、mc₂和mc₃，以及4个兴趣点poi₁、poi₂、poi₃和poi₄，则二部图如图1所示。

以上所有MC-POI二部图均存储于矩阵M_MC·POI，且二部图所有边上的权重都为1。即为RWR-Ranking方法的排序方法。

所述步骤(1.3)具体方法为：

对于每一个移动簇mc_i，其空间属性中包含一个中心点或多个中心点的序列。若一个移动簇的中心点在一定的邻域半径γ范围内被很多poi兴趣点覆盖，则认为该移动簇是重要的，且该移动簇和这些被覆盖的poi兴趣点有联系，在二部图上它们之间有一条边；若某个poi兴趣点在邻域半径γ范围内，覆盖很多移动簇的中心点，则认为该poi兴趣点是重要的，且该poi兴趣点和这些移动簇有联系；在二部图的表示形式中，它们之间也存在一条边。

例如，有3个移动簇mc₁、mc₂和mc₃，以及4个兴趣点poi₁、poi₂、poi₃和poi₄，对于移动簇mc₁来说，其中心点序列中点的邻域半径γ范围内，覆盖了poi₁、poi₂、poi₃三个POI，获取它在兴趣点poi₁、poi₂、poi₃附近的停留时间t₁₁,t₁₂,t₁₃，并分别赋值给mc₁-poi₁，mc₁-poi₂，mc₁-poi₃三条边，则二部图如图2所示。邻接矩阵为：

以上所有MC-POI二部图存储于矩阵M_MC·POI，且将每一个移动簇的持续时间作为权重赋值给予与该移动簇有关联的POI所连成的边，所述持续时间即一个移动簇它在某个POI附近停留的时间，该停留的时间越长，其在二部图的边上所占的权重就越大。即为WRWR-Ranking方法的排序方法。

实施例1：

1、实验设置：

本实施例中使用两个真实的GPS轨迹数据集进行实验。数据集一(HKT)为香港海洋公园2014年7月6日至7月10日五天中每天上午10点至晚上8点的游客移动轨迹数据，数据集二(BJT)为北京市13617辆出租车在2012年11月2日至11月8日的GPS数据。

为了说明本发明的适用性，选取群体运动移动簇模式方向不同的聚合模式和方向相同的蜂群模式作为排序的输入数据。以上两种模式分别为数据库顶级会议关于聚集运动模式和伴随运动模式方面较近的研究工作。由于蜂群模式完全放松对时间的要求，因此挖掘结果中噪声较多，对排序方法的要求也更高，通过蜂群模式可以更好的验证本发明的有效性。聚合模式和蜂群模式的实验参数如表1所示：

其中，eps表示聚类DBSCAN邻域半径阈值，pts表示邻域密度阈值，kc表示群体生命周期，mc表示移动对象群体规模阈值，kp表示参与者生命周期阈值，mp表示聚合参与者数量阈值。

使用上述参数设置，得到两个数据集分别挖掘出的聚合移动簇和蜂群移动簇的集合，并使用本发明分别对其进行排序。移动簇集合中移动簇的个数统计如表2所示。

表1聚合模式和蜂群模式实验参数

表2排序算法输入数据

为了说明本发明的有效性，首先对两个移动簇的集合进行单属性排序，即只按照移动簇的持续时间从大到小对其进行排序。然后将单属性排序结果与本发明中WRWR-Ranking排序方法所得结果进行比较。

2、评价指标

使用信息检索中常用的对于检索结果的评价指标P@N、MAP、NDCG@N来衡量排序结果的好坏。以下分别介绍这三个评价指标：

(1)P@N：现有技术中对于网络搜索引擎而言，由于大部分用户比较多地只查看前一至两页的检索结果，因此提高前十条或者前二十条检索结果中相关文档的比例显得尤为重要。因此，P@5、P@10和P@20的分值能比较真实地反映网络搜索引擎在实际生活检索场景中的检索性能。

(2)MAP(Mean Average Precision)：对所有查询的平均正确率求平均。每个主题的平均准确率是每次查询平均准确率的平均值，主集合的平均准确率是每个主题的平均准确率的平均值。MAP指标可以反映检索系统在全部相关文档上的性能。检索出的相关文档越靠前，MAP值就可能越高。

(3)NDCG(Normalized Discounted Cumulative Gain)：衡量搜索引擎质量指标，利用NDCG进行评价时，每个文档的相关性划分不再是相关和不相关两种，而是具有相关度级别，比如0，1，2，3。级别越高，相关度越高。在检索结果中，相关度级别越高的文档越多，NDCG值就越高。同时，相关度级别越高的文档越靠前NDCG值越高。

3、实验结果与分析

以下对两个数据集分别进行实验分析。

3.1 BJT数据集实验分析

对于BJT数据集，选取工作日早高峰(7:00-9:30)、周末白天(8:00-18:00)、周末夜晚(18:00-22:00)三个容易产生聚合事件的时间段进行实验。对获得的聚合移动簇的集合分别使用单属性排序和WRWR-Ranking方法的排序方法进行排序。由于北京市特殊的城市布局，直接使用北京市的地理特性来辅助说明排序结果的有效性。

对于工作日早高峰的排序结果，选取单属性排序和WRWR-Ranking方法所得结果中排名前25聚合移动簇，发现后者所得到的前25个移动簇中，有2个移动簇的中心点位于三环以内，且都位于中央商务区(Central Business District，CBD)。位于四环和五环以内的分别有3个和7个移动簇。而相比之下，用单属性排序方法，并不能找到位于三环和四环的移动簇。这也就间接说明WRWR-Ranking方法的有效性。

除此之外，本实施例还比较了周末白天和周末夜晚的实验结果，所得结论与上述结论一致。具体数据如表3所示。

表3北京市出租车数据聚合移动簇发现结果

3.2、HKT数据集实验分析

以HKT数据集2014年7月7日产生的聚合移动簇为例，分析单属性和WRWR-Ranking方法的排序结果。

如图1所示，图中图钉表示一个移动簇的中心。观察发现单属性排序排在前面的移动簇发生的地点都集中在海洋剧场周围。海洋剧场作为一个每天定时开放的表演场地，有固定的开放时间和表演时间，且表演持续时间较长，因此这样的地方较容易发生聚合事件。对于以上用户已知的容易发生聚合事件的地点，用户对该地点产生的移动簇的兴趣度较低。而WRWR-Ranking方法的排序结果，不仅能够发现人们经验常识里容易发生聚合事件的地点，该方法还能发现诸如水母万花筒、寻鲨探秘、登山缆车这样的游乐项目附近发生的重要事件。这些项目都是网友推荐指数较高的项目，这说明了本发明与现实生活中实际场景相吻合。而现有技术中的单属性排序并没有找出发生在这些项目附近的聚合事件。

对于HKT数据集而言，可以进一步借助基准排序结果来定量分析三种排序方法的好坏。在实施例中，使用可靠的外部资源作为基准结果对上述排序方法进行有效性评价，统计大众点评网站游客对于香港海洋公园内每个游乐项目的评论数以及评分，然后基于评论数量对园内游乐项目进行排序，评论数越多则该游乐项目排名越靠前。这里的评论数量认为是该游乐项目的热度及受欢迎程度。

以基准排序结果为参照，对三种排序结果进行有效性评价。选用的评价指标为P@15、MAP以及NDCG@25。

图4为两种模式的排序结果得到的各项评价指标得分。Time字段是单属性排序的结果，RWR-Ranking是使用重启式随机游走模型的排序结果，WRWR-Ranking是带时间权重的重启式随机游走模型的排序结果。以聚合模式为例，比较RWR-Ranking方法和单属性排序方法，发现RWR-Ranking方法优于单属性排序方法，P@15、MAP和NDCG@25分别提高17.2％、110.4％和14.4％。对于本文提出的WRWR-Ranking和RWR-Ranking方法，发现相比RWR-Ranking方法，WRWR-Ranking方法P@15、MAP和NDCG@25分别提高了35％、11.4％和41.8％。由此，可得出对于群体运动移动簇模式的排序问题而言，WRWR-Ranking方法优于RWR-Ranking方法，RWR-Ranking方法优于单属性排序方法。此外，发现蜂群模式在7月9日和10日使用RWR-Ranking和WRWR-Ranking方法NDCG@25得分相同。究其原因是在计算NDCG@25时，为每个POI指定一个相关度级别，有很多POI相关度级别是一致的。因此，虽然排序结果不同，但如果对应位置上POI的相关度级别一致，NDCG@25得分就相同。

进一步比较图4中(a)和(b)、(c)和(d)以及(e)和(f)，可以看出聚合模式排序结果优于蜂群模式。其原因在于蜂群模式完全放松对时间的要求，导致其挖掘结果中包含很多噪声，为排序增加难度。但分析蜂群模式的三项评价指标得分，仍然可以得出WRWR-Ranking方法优于单属性排序且不逊于RWR-Ranking方法的结论。

综上所述，对于群体运动移动簇模式排序问题，采用现有技术中的单属性排序时，它所得到的结果较为片面、偶然性较强且排序的结果不稳定。本发明中的RWR-Ranking方法利用移动簇中心点和POI之间的联系，得到每个移动簇的重要性排名；本发明中的WRWR-Ranking方法将时空因素综合考虑，得到较为全面、稳定的排名，对于用户有着较高的参考价值。

Claims

1.一种基于时空轨迹的群体运动移动簇模式排序方法，其特征在于：包括以下步骤：

(1)构建移动簇-兴趣点二部图，具体包括以下方法

(1.1)获取移动簇的集合MC，MC＝{mc₁,…,mc_n}；

(1.3)构建二部图；

(2)基于重启式随机游走模型进行排序，具体方法如下：

(2.2)利用M_MC·POI和构建方阵

其中，w(e_ij)表示边e_ij上的权重，∑_kw(e_kj)表示所有边e_kj的权重之和，k为矩阵M的第k行，1≤k≤n+l，1≤i≤n+l，1≤j≤n+l；

2.根据权利要求1所述的基于时空轨迹的群体运动移动簇模式排序方法，其特征在于：所述步骤(1.3)的具体方法为：

所构建二部图为MC-POI二部图G＝{MC∪POI,E}，

上述MC-POI二部图存储于矩阵M_MC·POI中，且二部图所有边上的权重都为1。

3.根据权利要求1所述的基于时空轨迹的群体运动移动簇模式排序方法，其特征在于：所述步骤(1.3)具体方法为：

所构建二部图为MC-POI二部图G，G＝{MC∪POI,E}；

其中MC＝{mc₁,…,mc_n}代表移动簇模式挖掘算法所挖掘出结果中的所有移动簇的集合,POI＝{poi₁,…,poi_l}为挖掘算法所使用数据集中的兴趣点的集合，E＝{(mc,poi)|mc∈MC,poi∈POI}，是移动簇和兴趣点之间关系的有穷集合；令e_ij∈E表示移动簇mc_i到兴趣点poi_j的一条边；

上述MC-POI二部图存储于矩阵M_MC·PoI，且将每一个移动簇的持续时间作为权重赋值给予与该移动簇有关联的POI所连成的边，所述持续时间即一个移动簇它在某个POI附近停留的时间，该停留的时间越长，其在二部图的边上所占的权重就越大。

4.根据权利要求1所述的基于时空轨迹的群体运动移动簇模式排序方法，其特征在于：所述步骤(2.5)中ε取值为0.0001。