CN113486927A

CN113486927A - 一种基于先验概率的无监督轨迹访问地点标注方法

Info

Publication number: CN113486927A
Application number: CN202110660503.1A
Authority: CN
Inventors: 张显峰; 程俊毅; 孙权; 黄杰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-08
Anticipated expiration: 2041-06-15
Also published as: CN113486927B

Abstract

本发明公开了一种基于先验概率的无监督轨迹访问地点的标注方法。该方法在不依赖标注数据的情况下，建立了综合利用时间信息与空间信息的无监督时空概率模型，对轨迹访问地点进行语义标注。该方法将时空概率分解为访问时刻概率、停留时长概率和空间概率，利用TF‑IDF加权算法计算停留对不同类型地点的潜在访问，通过统计轨迹集中所有停留的潜在访问生成访问不同类型地点时的访问时刻和停留时长的先验概率，再综合利用面地理对象的拓扑特性和点地理对象的分布来计算空间概率，通过计算地点时空概率系统化地对轨迹进行语义标注。本发明方法在实际应用中具有使用便利性和完备性的优势，方便相关部门或者公司通过用轨迹分析用户的出行目标地点和规律。

Description

一种基于先验概率的无监督轨迹访问地点标注方法

技术领域

本发明涉及时空数据分析和地理信息分析领域，具体涉及一种GNSS轨迹访问地点的语义标注方法。通过手机、GNSS等移动终端产生海量时空轨迹后，基于本发明可自动对轨迹进行语义标注，分析用户访问了哪些地方。

背景技术

随着手机、GNSS等移动终端的广泛使用和全球定位技术的发展，人类在日常生活中产生了海量带有语义信息的时空轨迹数据，然而单纯的时空轨迹难以解释出行中蕴含的意图、习惯。如何从时空轨迹大数据中分析和理解用户的出行信息，是时空数据分析、公共安全、个性化服务推荐和预测等领域关注的重点。

根据运动状态的不同，轨迹可以分为不同片段，包括停留和移动片段。其中，停留是指在邻域范围的驻留，通常与用户的活动和出行目的有关。轨迹的语义标注是推断用户在停留片段最可能去的地点，提取用户出行的语义。

目前已有的轨迹标注方法通常利用监督分类的方法基于真实标注轨迹进行训练从而对访问地点进行推断。但获取大规模的标注数据十分困难，且不同区域不同人群的出行规律具有差异，更换区域后需重新训练，因此急需寻求一种无需标注数据的轨迹自动标注方法。现有的不依赖标注数据的方法仅通过对轨迹访问每个地点的空间概率进行建模，忽略了停留的时间信息，包括停留持续时长和停留开始时刻，而时间信息对于推断真实的访问地点具有重要意义。综上所述，目前缺少一个能够有效组合时间信息和空间信息的无监督语义标注模型。

发明内容

针对上述问题，本发明旨在不依赖标注数据的情况下，建立一种综合利用时间信息和空间信息的概率模型对时空轨迹数据的访问地点进行标注，从而提出一种基于时空轨迹数据的语义标注方法，能够突破对真实标注数据依赖的限制，从轨迹数据中学习不同类型地点的访问时间和停留持续时长的先验概率，再综合利用地理对象的拓扑特性和分布计算空间概率，通过建立完善的概率模型来计算访问不同地点的概率，能够系统化地对轨迹进行语义标注，实际应用中具有使用便利性和完备性的先进优势。

本发明提出的基于先验概率的无监督轨迹访问地点标注方法，包括以下步骤：

步骤1：轨迹噪声和漂移去除。通过计算轨迹中各点的速度和夹角，其中夹角是指各点与其前后两点连线所形成的夹角，去除速度大于速度阈值的点和夹角小于角度阈值而形成尖角的点，从而去除轨迹中的噪声和漂移。

在本发明的一个实施例中，速度阈值设为180km/h，夹角的角度阈值设为30°，将速度大于180km/h的轨迹点和夹角小于30°的轨迹点去除。

步骤2：寻找轨迹中的停留。通过密度聚类算法寻找在时空维度中具有明显聚集的高密度簇。传统的密度聚类算法寻找空间上相邻的点，而轨迹具有时间特性，空间相邻而时间不相邻的轨迹点没有实际含义。因此需重新定义密度聚类算法中的邻域和密度的概念并利用DBSCAN算法寻找停留。

具体来说，定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列。轨迹序列的密度不使用最小点的个数表示，而是使用序列的时间长度表示。将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象，反之标记为噪声点，利用DBSCAN算法寻找轨迹中所有的停留。

在本发明的一个实施例中，所述距离阈值设为100米，时间阈值设为10分钟。

步骤3：搜索候选地点。计算每个停留的中心位置，停留半径，停留开始时间，停留时长，并利用现有的地理信息数据搜索每个停留周围的候选地点。

具体来说，停留的中心是通过计算停留中所有时空点的平均位置得到，停留半径为该停留中所有时空点到中心的最大距离。停留区域指以停留中心为圆心，停留半径为半径的圆覆盖的范围。停留开始时间是指该停留中时空点的最小时间。停留时长是指停留中的时空点的最大时间和最小时间之差。地理信息数据包括兴趣点(POI)和兴趣面(ROI)，其中ROI能够反映停留区域与地理对象的拓扑特性，POI能够反映区域内各类型地点的比例。本发明综合利用这两种数据源获取更为完善的地理对象数据库和空间信息。停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象，对于兴趣点来说是指地理对象到停留中心距离小于搜索半径，对于兴趣面来说是指地理对象与停留区域相交。

在本发明的一个实施例中，搜索半径设置为200米。

步骤4：计算停留周围的候选地点的时空概率。停留的属性包括停留中心(x，y)，停留时长dur，停留开始时刻t，依据贝叶斯准则可建立概率公式如下：

其中，O_i表示停留的一个候选地点，P(O_i|(x，y)，t，dur)表示停留中心为(x,y)，停留时长为dur，停留开始时刻为t的条件下，访问地点O_i的概率；P((x，y)，t，dur，O_i)表示停留与候选地点O_i的联合概率；P((x，y)，t，dur)表示停留出现的概率，对于同一个停留为常数。

利用贝叶斯公式，对P((x，y)，t，dur，O_i)计算如下：

将公式(2)带入公式(1)可得：

假设(x,y)和t关于O_i是条件独立事件，(x,y)和dur关于O_i是条件独立事件，则：

其中

对同一个停留的不同候选地点相同，因此只需要考虑P(t|O_i，dur)·P(dur|O_i)·P(O_i|(x，y))三项，将三项分别称为访问时刻概率、停留时长概率和空间概率。对三项依次进行计算，方法如下：

步骤4.1：计算空间概率P(O_i|(x，y))。

空间概率的计算是在依据距离和拓扑关系计算每个候选地点的相对空间概率后，进行归一化得到。本发明同时考虑兴趣点和兴趣面两种数据源。

在本发明的一个实施例中，兴趣点使用POI数据，兴趣面使用OSM数据。

其中，兴趣面的空间概率的计算是依据拓扑特性，候选地理对象与停留区域的拓扑关系包括包含、相交、相离三种。停留区域是指以停留中心为圆心，停留半径为半径的圆，将停留SP的停留区域记为S_SP，面对象O_i的地理范围记为

则地理对象O_i的相对空间概率可表示为：

其中，P_relative(O_i|(x，y))表示候选地点O_i的相对空间概率，contain表示包含，intersect表示相交但不包含，disjoint表示相离，

表示

和S_SP的相交部分的面积，Area_SP表示停留区域的面积，

表示

到SP圆心的最小距离，Searchradius表示在搜索候选地点时的半径，r_SP为停留半径。

兴趣点的相对空间概率的计算是根据二维高斯分布概率密度函数计算，其中相对概率值与兴趣面的相对概率值保持一致，即距离为0时概率为1，距离为停留半径时概率为0.5。计算公式如下：

其中

表示候选地点O_i到停留中心的距离，σ为高斯分布参数，可由约束条件计算得到。

计算完所有候选地点的相对空间概率后，通过归一化计算其空间概率，计算公式如下：

其中，∑_iP_relative(O_i|(x，y))表示停留的所有候选地点的相对空间概率之和。

步骤4.2计算停留时长概率P(dur|O_i)。

具体来说，将一个停留周围的候选地点均看作一次潜在访问，并根据地点对应的地点类型在该停留中的重要性进行加权。一般来说，停留周边某个类型地点的数量越多，访问该类型地点的概率相对越大。同时考虑到每个类型地点在整个区域(例如，整个城市)中的数量不同，因此本发明选择TF-IDF(词频-逆文本频率指数)加权方法对潜在访问进行加权。该方法认为在停留候选地点集中出现频率高而在整个区域出现频率低的类型更有可能是真实情况访问的地点类型，访问权重值更大。

统计时将停留时长划分为不同的区间[dur₁，dur₂...dur_m...]。若停留SP_i的停留时长dur∈dur_m，则停留SP_i对地点类型为C_j的地点的潜在访问次数计算如下：

其中，

代表停留SP_i(停留时长dur∈dur_m)对地点类型为C_j的地点的潜在访问次数，

表示SP_i的候选地理对象中地点类型为C_j的地点数量，

表示SP_i的候选地理对象中各类型地点数量之和，

表示整个区域中地点类型为C_j的地点数量，

表示整个区域中各类型地点数量之和。

利用上述对单个停留的潜在访问次数统计方法，统计轨迹集中停留时长为dur_m的所有停留对类型为C_j的地点的平均潜在访问次数，计算公式如下：

其中，

为停留时长为dur_m的停留个数，

代表停留SP_i(停留时长dur∈dur_m)对地点类型为C_j的地点的潜在访问次数。

分别统计研究区域中不同停留时长的停留对不同类型地点的平均潜在访问次数后，则可计算访问某类型地点的不同停留时长的概率。例如，访问地点类型为C_j的地点时，停留时长dur∈dur_m的概率计算公式如下：

其中，

表示停留时长为dur_m的所有停留对类型为C_j的地点的平均潜在访问次数，

表示不同停留时长区间的停留对类型为C_j的地点的平均潜在访问次数之和，

为带入公式(9)后

的具体计算公式。

若候选地点O_i对应的地点类型为C_j，O_i所属停留的停留时长dur∈dur_m，则O_i的停留时长概率P(dur|O_i)＝P(dur|C_j)＝P(dur∈dur_m|C_j)。

步骤4.3:计算访问时刻概率P(t|O_i，dur)。

同理将访问时刻分为不同的区间[t₁，t₂...t_k...]。若停留SP_i的访问时刻t∈t_k，停留时长dur∈dur_m，则停留SP_i对类型为C_j的地点的潜在访问次数计算如下：

其中，

表示停留SP_i(停留时长dur∈dur_m)的候选地点集中地点类型为C_j的地点个数，值与公式(8)中的

相等，

表示停留SP_i候选地点集中所有地点类型的地点数量之和，值与公式(8)中的

相等；

表示整个区域中地点类型为C_j的地点个数，值与公式(8)中的

相等，

表示整个区域中所有地点类型的数量之和，值与公式(8)中的

相等。

同公式(9)，统计轨迹集中所有访问时刻t∈t_k，停留时长dur∈dur_m的停留对类型为C_j的地点的平均潜在访问次数，计算公式如下：

其中，

表示访问时刻t∈t_k，停留时长dur∈dur_m的停留个数，

表示停留SP_i(访问时刻t∈t_k，停留时长dur∈dur_m)对地点类型为C_j的地点的潜在访问次数。

同公式(10)可计算停留时长已知时访问某类型地点，不同访问时刻的概率。例如，访问地点类型C_j的地点且停留时长dur∈dur_m时，访问时刻t∈t_k的概率计算如下：

其中，

表示访问时刻t∈t_k，停留时长dur∈dur_m的停留个数；

表示所有访问时刻t∈t_k停留时长dur∈dur_m的停留对类型为C_j的地点的平均潜在访问次数；

表示所有停留时长dur∈dur_m的停留在不同访问时刻区间对类型为C_j的地点的平均潜在访问次数之和；

和

分别为上述两项带入公式(12)后的表示，

若候选地点O_i对应的地点类型为C_j，O_i所属停留的停留时长dur∈dur_m，访问时刻t∈t_k，则O_i的访问时刻概率P(t|O_i，dur)＝P(t|C_j，dur)＝P(t∈t_k|C_j，dur_m)。

步骤4.4:计算候选地点的时空概率P(t|O_i，dur)·P(dur|O_i)·P(O_i|(x,y))

步骤5：根据时空概率对所有的停留的访问地点进行标注，每个停留的访问地点为该停留候选地点中时空概率最高的地点。

本发明通过轨迹数据本身提取访问不同类型地点的时间先验概率，结合地理信息系统中的已有的海量地理信息，建立访问每个地点的时空概率对轨迹的访问地点进行推断，从而建立了一种基于先验概率的无监督轨迹访问地点标注方法。该方法将时空概率分解为访问时刻概率、停留时长概率和空间概率，利用TF-IDF加权算法计算停留对不同类型地点的潜在访问，通过统计轨迹集中所有停留的潜在访问生成访问不同类型地点时的访问时刻和停留时长的先验概率，再综合利用面地理对象的拓扑特性和点地理对象的分布来计算空间概率，通过计算地点时空概率系统化地对轨迹进行语义标注。该方法方便相关部门或者公司通过用轨迹分析用户的出行目标地点和规律。

附图说明

图1.本发明基于先验概率的无监督轨迹访问地点标注方法的流程图。

图2.本发明实施例的原始轨迹示意图。

图3.本发明实施例的轨迹点夹角示意图。

图4.本发明实施例去除噪声后的轨迹示意图。

图5.本发明实施例中寻找到的停留示意图。

图6.本发明实施例的停留相关属性示意图。

图7.本发明实施例的停留候选地理对象示意图。

具体实施方式

为了加深对发明的理解，下面将结合实施例和附图对本发明做进一步详述。

步骤1：噪声去除

图2为原始轨迹的示意图，可以看出轨迹的噪声和漂移会形成许多尖角。计算每个轨迹点的速度和夹角，其中夹角是指轨迹点与其前后两点连线所形成的夹角(如图3所示的夹角α)，去除速度大于180km/h的点和夹角小于30°的点。噪声去除后的轨迹如图4所示。

步骤2：寻找轨迹中的停留

时空点邻域定义为距离该点小于100米从该点开始的最大连续子序列，邻域总时间超过10分钟被标记为核心对象，反之为噪声点，利用DBSCAN算法寻找轨迹中的停留。最终寻找到的停留如图5所示。

步骤3：寻找停留的候选地点

计算每个停留的中心位置，停留半径，停留开始时间，停留时长，并利用现有的地理信息数据搜索每个停留周围的候选地点。

如图6所示，图中所有灰色点是利用DBSCAN算法搜索出的一个停留，停留中心(白色点)的坐标是停留中所有时空点的平均坐标，停留半径是停留中的时空点到停留中心的最大距离。t_min是停留中时空点的最小时间，t_max是停留中时空点的最大时间，则t_min为停留开始时间，t_max-t_min为停留时长。本实例中搜索候选地点的搜索半径阈值选择200米。

确定停留相关属性和搜索半径后，可对候选对象进行搜索。以停留中心为圆心，搜索半径为半径，兴趣面与上述圆相交则为候选地理对象，兴趣点在上述圆中则为候选地理对象。如图7所示的停留共有7个候选地理对象，其中兴趣面4个(S₁、S₂、S₃、S₄)，兴趣点3个(S₅、S₆、S₇)。

步骤4：计算各候选地理对象的时空概率。

步骤4.1：计算空间概率

图7中，虚线圆为停留SP的停留区域S_SP，停留半径为80米。对于兴趣面，S₁和S₃与S_SP的拓扑关系为包含，相对空间概率为1。S₂与S_SP相交，相交面积为2000m²。S₄与S_SP相离，距离停留中心最小距离为120米。则依据公式(5)，S₂和S₄的相对空间概率计算如下：

对于兴趣点，距离为0时概率为1，距离为停留半径时概率为0.5，则

可得σ＝67.95，S₅，S₆，S₇到停留中心的距离分别为120米，40米，80米，则依据公式(6)，S₅，S₆，S₇的相对空间概率计算如下：

计算完所有候选地理对象的相对空间概率后，依据公式(7)归一化计算空间概率如下：

则7个地理对象的空间概率分别为0.23,0.13,0.23,0.07,0.05,0.19,0.11。

步骤4.2：计算停留时长概率P(dur|O_i)

将停留时长划分为不同的区间，例如以小时为单位时划分为[0,0.5)，[0.5,1)，[1,2)，[2,4)，[4,24)五个区间。同理将停留开始时刻划分为不同的区间，例如划分为[0,8)，[8-12)，[12-18)，[18-22)，[22,24)五个区间。假设步骤4.1中的停留SP的停留开始时刻为12点10分，停留时长为20分钟，则SP的停留时长dur∈[0,0.5)，停留时刻t∈[12-18)。假设整个区域(例如，全市)中只有学校、商店、餐厅、居民区四种类型地点，共有200个学校，300个商店，500个餐厅，400个居民区。如图7所示，SP的候选地理对象中共有1个学校，2个商店，4个餐厅。利用TF-IDF加权方法计算停留SP中不同类型地点的重要性，并计算潜在访问次数，依据公式(8)，计算如下：

即统计SP访问餐厅的潜在次数时，认为SP访问了0.26次餐厅。

假设轨迹中共有10个停留，每个停留的属性和潜在访问次数如表1所示：

表1.10个停留的属性和对学校、商店、餐厅的潜在访问次数

依据公式(9)依次计算表1中不同停留时长的所有停留对餐厅的平均潜在访问次数，结算如下：

依据公式(10)，计算访问餐厅时不同停留时长的概率：

同样方法计算访问学校和商店时不同停留时长的概率，结果如表2：

表2.本实例中图7所示的停留SP访问餐厅、学习和商店时不同停留时长的概率

停留时长区间	dur∈[0，0.5)	dur∈[0.5，1)	dur∈[1，2)	dur∈[2，4)	dur∈[4，24)
						餐厅	0.32	0.28	0.17	0.13	0.10
学校	0.13	0.13	0.18	0.26	0.29
						商店	0.17	0.23	0.24	0.21	0.15

步骤4.3：计算访问时刻概率P(t|O_i，dur)

同理，根据公式(13)计算访问餐厅且停留时长dur∈[0，0.5)时，不同访问时刻的概率：

本实例为了方便理解和说明，只列举了10个停留，因此会出现无满足条件的时刻，即概率为0。但本发明无需任何标注数据，因此在实际应用时可较为容易地获取大量的停留进行先验概率提取。

同理计算，访问学校和商店且停留时长dur∈[0，0.5)时，不同访问时刻的概率，结果如表3所示：

表3.访问餐厅、学校、商店且停留时长dur∈[0，0.5)时，不同访问时刻的概率

访问时刻	t∈[0，8)	t∈[8，12)	t∈[12，18)	t∈[18，22)	t∈[22，24)
						餐厅，dur∈[0，0.5]	0.49	0	0.51	0	0
学校，dur∈[0，0.5]	0.54	0	0.46	0	0
						商店，dur∈[0，0.5]	0.51	0	0.49	0	0

步骤4.4：计算候选地点的最终时空概率

假设

根据公式(4)计算图7中SP的七个候选地点的时空概率：

P(S₁|(x，y)，t，dur)＝P(t∈[12，18)|商店，dur∈[0，0.5))·P(dur∈[0，0.5)|商店)·P(S₁|(x，y))·M

＝0.49*0.17*0.23*M＝0.019M

P(S₂|(x，y)，t，dur)＝P(t∈[12，18)|餐厅，dur∈[0，0.5))·P(dur∈[0，0.5)|餐厅)·P(S₂|(x，y))·M

＝0.51*0.32*0.13＝0.021M

P(S₃|(x，y)，t，dur)＝P(t∈[12，18)|学校，dur∈[0，0.5))·P(dur∈[0，0.5)|学校)·P(S₃|(x，y))·＝0.46*0.13*0.23

＝0.014M

P(S₄|(x，y)，t，dur)＝P(t∈[12，18)|餐厅，dur∈[0，0.5))·P(dur∈[0，0.5)|餐厅)·P(S₄|(x，y))·M

＝0.51*0.32*0.07＝0.011M

P(S₅|(x，y)，t，dur)＝P(t∈[12，18)|餐厅，dur∈[0，0.5))·P(dur∈[0，0.5)|餐厅)·P(S₅|(x，y))·M

＝0.51*0.32*0.05＝0.008M

P(S₆|(x，y)，t，dur)＝P(t∈[12，18)|餐厅，dur∈[0，0.5))·P(dur∈[0，0.5)|餐厅)·P(S₆|(x，y))·M

＝0.51*0.32*0.19＝0.031M

P(S₇|(x，_y)，t，dur)＝P(t∈[12，18)|商店，dur∈[0，0·5))·P(dur∈[0，0.5)|商店)·P(S₇|(x，y))·M

＝0.49*0.17*0.11＝0.009M

步骤5：对访问地点进行语义标注

从以上示例可以看出在只考虑空间概率时，商店S₁和学校S₃的访问概率均大于餐厅S₆，而在综合考虑了停留时长(小于0.5h)和访问时刻(12点10分)后，本发明得出最有可能访问的是S₆餐厅。

本发明方法能够结合空间分布、停留时长和访问时刻建立概率模型，同时突破了传统方法对标注数据的依赖问题。通过结合TF-IDF加权方法从轨迹本身出发统计先验概率，计算用户访问不同地点的时空概率，对目标行为的理解具有重要作用。

Claims

1.一种无监督轨迹访问地点标注方法，包括以下步骤：

1)去除轨迹中的噪声和漂移：计算轨迹中各点的速度和夹角，去除速度大于速度阈值的点和夹角小于角度阈值的点，其中所述夹角是指各点与其前后两点连线所形成的夹角；

2)寻找轨迹中的停留：定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列，轨迹序列的密度使用序列的时间长度表示；将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象，反之标记为噪声点，利用DBSCAN算法寻找轨迹中所有的停留；

3)搜索候选地点：计算每个停留的中心位置、停留半径、停留开始时间、停留时长，并利用现有的地理信息数据搜索每个停留周围的候选地点；

4)计算候选地点的时空概率：停留的属性包括停留中心(x，y)，停留时长dur，停留开始时刻t，依据贝叶斯准则建立概率公式如下：

公式(1)中O_i表示停留的一个候选地点，P(O_i|(x，y)，t，dur)表示停留中心为(x，y)，停留时长为dur，停留开始时刻为t的条件下，访问地点O_i的概率；P((x，y)，t，dur，O_i)表示停留与候选地点O_i的联合概率；P((x，y)，t，dur)表示表示停留出现的概率，对于同一个停留为常数；

利用贝叶斯公式，对P((x，y)，t，dur，O_i)计算如下：

将公式(2)带入公式(1)可得：

假设(x，y)和t关于O_i是条件独立事件，(x，y)和dur关于O_i是条件独立事件，则：

其叶

5)根据时空概率对所有的停留的访问地点进行标注，每个停留的访问地点为该停留候选地点中时空概率最高的地点。

2.如权利要求1所述的标注方法，其特征在于，步骤1)中所述速度阈值设为180km/h，角度阈值设为30°，将速度大于180km/h的轨迹点和夹角小于30°的轨迹点去除。

3.如权利要求1所述的标注方法，其特征在于，步骤2)中所述距离阈值设为100米，时间阈值设为10分钟。

4.如权利要求1所述的标注方法，其特征在于，步骤3)中通过计算停留中所有时空点的平均位置得到停留的中心点，停留半径为该停留中所有时空点到中心点的最大距离；停留区域指以停留中心为圆心，停留半径为半径的圆覆盖的范围；停留开始时间是指停留中时空点的最小时间；停留时长是指停留中的时空点的最大时间和最小时间之差；地理信息数据包括兴趣点和兴趣面，停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象，对于兴趣点来说是指地理对象到停留中心距离小于搜索半径，对于兴趣面来说是指地理对象与停留区域相交。

5.如权利要求4所述的标注方法，其特征在于，在步骤4)中通过下述方法计算空间概率P(O_i|(x，y))：对于候选地点O_i为兴趣面的情况，候选地点与停留区域的拓扑关系包括包含、相交、相离三种，停留区域记为S_SP，O_i的地理范围记为