CN113486927A - 一种基于先验概率的无监督轨迹访问地点标注方法 - Google Patents
一种基于先验概率的无监督轨迹访问地点标注方法 Download PDFInfo
- Publication number
- CN113486927A CN113486927A CN202110660503.1A CN202110660503A CN113486927A CN 113486927 A CN113486927 A CN 113486927A CN 202110660503 A CN202110660503 A CN 202110660503A CN 113486927 A CN113486927 A CN 113486927A
- Authority
- CN
- China
- Prior art keywords
- dur
- time
- stay
- probability
- location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000012065 filter cake Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 2
- LTXREWYXXSTFRX-QGZVFWFLSA-N Linagliptin Chemical compound N=1C=2N(C)C(=O)N(CC=3N=C4C=CC=CC4=C(C)N=3)C(=O)C=2N(CC#CC)C=1N1CCC[C@@H](N)C1 LTXREWYXXSTFRX-QGZVFWFLSA-N 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于先验概率的无监督轨迹访问地点的标注方法。该方法在不依赖标注数据的情况下,建立了综合利用时间信息与空间信息的无监督时空概率模型,对轨迹访问地点进行语义标注。该方法将时空概率分解为访问时刻概率、停留时长概率和空间概率,利用TF‑IDF加权算法计算停留对不同类型地点的潜在访问,通过统计轨迹集中所有停留的潜在访问生成访问不同类型地点时的访问时刻和停留时长的先验概率,再综合利用面地理对象的拓扑特性和点地理对象的分布来计算空间概率,通过计算地点时空概率系统化地对轨迹进行语义标注。本发明方法在实际应用中具有使用便利性和完备性的优势,方便相关部门或者公司通过用轨迹分析用户的出行目标地点和规律。
Description
技术领域
本发明涉及时空数据分析和地理信息分析领域,具体涉及一种GNSS轨迹访问地点的语义标注方法。通过手机、GNSS等移动终端产生海量时空轨迹后,基于本发明可自动对轨迹进行语义标注,分析用户访问了哪些地方。
背景技术
随着手机、GNSS等移动终端的广泛使用和全球定位技术的发展,人类在日常生活中产生了海量带有语义信息的时空轨迹数据,然而单纯的时空轨迹难以解释出行中蕴含的意图、习惯。如何从时空轨迹大数据中分析和理解用户的出行信息,是时空数据分析、公共安全、个性化服务推荐和预测等领域关注的重点。
根据运动状态的不同,轨迹可以分为不同片段,包括停留和移动片段。其中,停留是指在邻域范围的驻留,通常与用户的活动和出行目的有关。轨迹的语义标注是推断用户在停留片段最可能去的地点,提取用户出行的语义。
目前已有的轨迹标注方法通常利用监督分类的方法基于真实标注轨迹进行训练从而对访问地点进行推断。但获取大规模的标注数据十分困难,且不同区域不同人群的出行规律具有差异,更换区域后需重新训练,因此急需寻求一种无需标注数据的轨迹自动标注方法。现有的不依赖标注数据的方法仅通过对轨迹访问每个地点的空间概率进行建模,忽略了停留的时间信息,包括停留持续时长和停留开始时刻,而时间信息对于推断真实的访问地点具有重要意义。综上所述,目前缺少一个能够有效组合时间信息和空间信息的无监督语义标注模型。
发明内容
针对上述问题,本发明旨在不依赖标注数据的情况下,建立一种综合利用时间信息和空间信息的概率模型对时空轨迹数据的访问地点进行标注,从而提出一种基于时空轨迹数据的语义标注方法,能够突破对真实标注数据依赖的限制,从轨迹数据中学习不同类型地点的访问时间和停留持续时长的先验概率,再综合利用地理对象的拓扑特性和分布计算空间概率,通过建立完善的概率模型来计算访问不同地点的概率,能够系统化地对轨迹进行语义标注,实际应用中具有使用便利性和完备性的先进优势。
本发明提出的基于先验概率的无监督轨迹访问地点标注方法,包括以下步骤:
步骤1:轨迹噪声和漂移去除。通过计算轨迹中各点的速度和夹角,其中夹角是指各点与其前后两点连线所形成的夹角,去除速度大于速度阈值的点和夹角小于角度阈值而形成尖角的点,从而去除轨迹中的噪声和漂移。
在本发明的一个实施例中,速度阈值设为180km/h,夹角的角度阈值设为30°,将速度大于180km/h的轨迹点和夹角小于30°的轨迹点去除。
步骤2:寻找轨迹中的停留。通过密度聚类算法寻找在时空维度中具有明显聚集的高密度簇。传统的密度聚类算法寻找空间上相邻的点,而轨迹具有时间特性,空间相邻而时间不相邻的轨迹点没有实际含义。因此需重新定义密度聚类算法中的邻域和密度的概念并利用DBSCAN算法寻找停留。
具体来说,定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列。轨迹序列的密度不使用最小点的个数表示,而是使用序列的时间长度表示。将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象,反之标记为噪声点,利用DBSCAN算法寻找轨迹中所有的停留。
在本发明的一个实施例中,所述距离阈值设为100米,时间阈值设为10分钟。
步骤3:搜索候选地点。计算每个停留的中心位置,停留半径,停留开始时间,停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点。
具体来说,停留的中心是通过计算停留中所有时空点的平均位置得到,停留半径为该停留中所有时空点到中心的最大距离。停留区域指以停留中心为圆心,停留半径为半径的圆覆盖的范围。停留开始时间是指该停留中时空点的最小时间。停留时长是指停留中的时空点的最大时间和最小时间之差。地理信息数据包括兴趣点(POI)和兴趣面(ROI),其中ROI能够反映停留区域与地理对象的拓扑特性,POI能够反映区域内各类型地点的比例。本发明综合利用这两种数据源获取更为完善的地理对象数据库和空间信息。停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象,对于兴趣点来说是指地理对象到停留中心距离小于搜索半径,对于兴趣面来说是指地理对象与停留区域相交。
在本发明的一个实施例中,搜索半径设置为200米。
步骤4:计算停留周围的候选地点的时空概率。停留的属性包括停留中心(x,y),停留时长dur,停留开始时刻t,依据贝叶斯准则可建立概率公式如下:
其中,Oi表示停留的一个候选地点,P(Oi|(x,y),t,dur)表示停留中心为(x,y),停留时长为dur,停留开始时刻为t的条件下,访问地点Oi的概率;P((x,y),t,dur,Oi)表示停留与候选地点Oi的联合概率;P((x,y),t,dur)表示停留出现的概率,对于同一个停留为常数。
利用贝叶斯公式,对P((x,y),t,dur,Oi)计算如下:
将公式(2)带入公式(1)可得:
假设(x,y)和t关于Oi是条件独立事件,(x,y)和dur关于Oi是条件独立事件,则:
其中对同一个停留的不同候选地点相同,因此只需要考虑P(t|Oi,dur)·P(dur|Oi)·P(Oi|(x,y))三项,将三项分别称为访问时刻概率、停留时长概率和空间概率。对三项依次进行计算,方法如下:
步骤4.1:计算空间概率P(Oi|(x,y))。
空间概率的计算是在依据距离和拓扑关系计算每个候选地点的相对空间概率后,进行归一化得到。本发明同时考虑兴趣点和兴趣面两种数据源。
在本发明的一个实施例中,兴趣点使用POI数据,兴趣面使用OSM数据。
其中,兴趣面的空间概率的计算是依据拓扑特性,候选地理对象与停留区域的拓扑关系包括包含、相交、相离三种。停留区域是指以停留中心为圆心,停留半径为半径的圆,将停留SP的停留区域记为SSP,面对象Oi的地理范围记为则地理对象Oi的相对空间概率可表示为:
其中,Prelative(Oi|(x,y))表示候选地点Oi的相对空间概率,contain表示包含,intersect表示相交但不包含,disjoint表示相离,表示和SSP的相交部分的面积,AreaSP表示停留区域的面积,表示到SP圆心的最小距离,Searchradius表示在搜索候选地点时的半径,rSP为停留半径。
兴趣点的相对空间概率的计算是根据二维高斯分布概率密度函数计算,其中相对概率值与兴趣面的相对概率值保持一致,即距离为0时概率为1,距离为停留半径时概率为0.5。计算公式如下:
计算完所有候选地点的相对空间概率后,通过归一化计算其空间概率,计算公式如下:
其中,∑iPrelative(Oi|(x,y))表示停留的所有候选地点的相对空间概率之和。
步骤4.2计算停留时长概率P(dur|Oi)。
用户在访问同一类型地点时,停留时长和访问时间具有一样的规律。若Oi对应的地点类型为Cj,则候选地点Oi的访问时刻概率P(t|Oi,dur)=P(t|Cj,dur),候选地点Oi的停留时长概率P(dur|Oi)=P(dur|Cj)。过去的研究中,P(t|Cj,dur),P(dur|Cj)的计算是通过统计已知地点类型的停留计算概率。为了解决难以获取真实标注数据的问题,本发明提出了一种先验概率统计方法。
具体来说,将一个停留周围的候选地点均看作一次潜在访问,并根据地点对应的地点类型在该停留中的重要性进行加权。一般来说,停留周边某个类型地点的数量越多,访问该类型地点的概率相对越大。同时考虑到每个类型地点在整个区域(例如,整个城市)中的数量不同,因此本发明选择TF-IDF(词频-逆文本频率指数)加权方法对潜在访问进行加权。该方法认为在停留候选地点集中出现频率高而在整个区域出现频率低的类型更有可能是真实情况访问的地点类型,访问权重值更大。
统计时将停留时长划分为不同的区间[dur1,dur2...durm...]。若停留SPi的停留时长dur∈durm,则停留SPi对地点类型为Cj的地点的潜在访问次数计算如下:
其中,代表停留SPi(停留时长dur∈durm)对地点类型为Cj的地点的潜在访问次数,表示SPi的候选地理对象中地点类型为Cj的地点数量,表示SPi的候选地理对象中各类型地点数量之和,表示整个区域中地点类型为Cj的地点数量,表示整个区域中各类型地点数量之和。
利用上述对单个停留的潜在访问次数统计方法,统计轨迹集中停留时长为durm的所有停留对类型为Cj的地点的平均潜在访问次数,计算公式如下:
分别统计研究区域中不同停留时长的停留对不同类型地点的平均潜在访问次数后,则可计算访问某类型地点的不同停留时长的概率。例如,访问地点类型为Cj的地点时,停留时长dur∈durm的概率计算公式如下:
若候选地点Oi对应的地点类型为Cj,Oi所属停留的停留时长dur∈durm,则Oi的停留时长概率P(dur|Oi)=P(dur|Cj)=P(dur∈durm|Cj)。
步骤4.3:计算访问时刻概率P(t|Oi,dur)。
同理将访问时刻分为不同的区间[t1,t2...tk...]。若停留SPi的访问时刻t∈tk,停留时长dur∈durm,则停留SPi对类型为Cj的地点的潜在访问次数计算如下:
其中,表示停留SPi(停留时长dur∈durm)的候选地点集中地点类型为Cj的地点个数,值与公式(8)中的相等,表示停留SPi候选地点集中所有地点类型的地点数量之和,值与公式(8)中的相等;表示整个区域中地点类型为Cj的地点个数,值与公式(8)中的相等,表示整个区域中所有地点类型的数量之和,值与公式(8)中的相等。
同公式(9),统计轨迹集中所有访问时刻t∈tk,停留时长dur∈durm的停留对类型为Cj的地点的平均潜在访问次数,计算公式如下:
同公式(10)可计算停留时长已知时访问某类型地点,不同访问时刻的概率。例如,访问地点类型Cj的地点且停留时长dur∈durm时,访问时刻t∈tk的概率计算如下:
其中,表示访问时刻t∈tk,停留时长dur∈durm的停留个数;表示所有访问时刻t∈tk停留时长dur∈durm的停留对类型为Cj的地点的平均潜在访问次数;表示所有停留时长dur∈durm的停留在不同访问时刻区间对类型为Cj的地点的平均潜在访问次数之和;和分别为上述两项带入公式(12)后的表示,表示停留SPi(访问时刻t∈tk,停留时长dur∈durm)对地点类型为Cj的地点的潜在访问次数。
若候选地点Oi对应的地点类型为Cj,Oi所属停留的停留时长dur∈durm,访问时刻t∈tk,则Oi的访问时刻概率P(t|Oi,dur)=P(t|Cj,dur)=P(t∈tk|Cj,durm)。
步骤4.4:计算候选地点的时空概率P(t|Oi,dur)·P(dur|Oi)·P(Oi|(x,y))
步骤5:根据时空概率对所有的停留的访问地点进行标注,每个停留的访问地点为该停留候选地点中时空概率最高的地点。
本发明通过轨迹数据本身提取访问不同类型地点的时间先验概率,结合地理信息系统中的已有的海量地理信息,建立访问每个地点的时空概率对轨迹的访问地点进行推断,从而建立了一种基于先验概率的无监督轨迹访问地点标注方法。该方法将时空概率分解为访问时刻概率、停留时长概率和空间概率,利用TF-IDF加权算法计算停留对不同类型地点的潜在访问,通过统计轨迹集中所有停留的潜在访问生成访问不同类型地点时的访问时刻和停留时长的先验概率,再综合利用面地理对象的拓扑特性和点地理对象的分布来计算空间概率,通过计算地点时空概率系统化地对轨迹进行语义标注。该方法方便相关部门或者公司通过用轨迹分析用户的出行目标地点和规律。
附图说明
图1.本发明基于先验概率的无监督轨迹访问地点标注方法的流程图。
图2.本发明实施例的原始轨迹示意图。
图3.本发明实施例的轨迹点夹角示意图。
图4.本发明实施例去除噪声后的轨迹示意图。
图5.本发明实施例中寻找到的停留示意图。
图6.本发明实施例的停留相关属性示意图。
图7.本发明实施例的停留候选地理对象示意图。
具体实施方式
为了加深对发明的理解,下面将结合实施例和附图对本发明做进一步详述。
步骤1:噪声去除
图2为原始轨迹的示意图,可以看出轨迹的噪声和漂移会形成许多尖角。计算每个轨迹点的速度和夹角,其中夹角是指轨迹点与其前后两点连线所形成的夹角(如图3所示的夹角α),去除速度大于180km/h的点和夹角小于30°的点。噪声去除后的轨迹如图4所示。
步骤2:寻找轨迹中的停留
时空点邻域定义为距离该点小于100米从该点开始的最大连续子序列,邻域总时间超过10分钟被标记为核心对象,反之为噪声点,利用DBSCAN算法寻找轨迹中的停留。最终寻找到的停留如图5所示。
步骤3:寻找停留的候选地点
计算每个停留的中心位置,停留半径,停留开始时间,停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点。
如图6所示,图中所有灰色点是利用DBSCAN算法搜索出的一个停留,停留中心(白色点)的坐标是停留中所有时空点的平均坐标,停留半径是停留中的时空点到停留中心的最大距离。tmin是停留中时空点的最小时间,tmax是停留中时空点的最大时间,则tmin为停留开始时间,tmax-tmin为停留时长。本实例中搜索候选地点的搜索半径阈值选择200米。
确定停留相关属性和搜索半径后,可对候选对象进行搜索。以停留中心为圆心,搜索半径为半径,兴趣面与上述圆相交则为候选地理对象,兴趣点在上述圆中则为候选地理对象。如图7所示的停留共有7个候选地理对象,其中兴趣面4个(S1、S2、S3、S4),兴趣点3个(S5、S6、S7)。
步骤4:计算各候选地理对象的时空概率。
步骤4.1:计算空间概率
图7中,虚线圆为停留SP的停留区域SSP,停留半径为80米。对于兴趣面,S1和S3与SSP的拓扑关系为包含,相对空间概率为1。S2与SSP相交,相交面积为2000m2。S4与SSP相离,距离停留中心最小距离为120米。则依据公式(5),S2和S4的相对空间概率计算如下:
对于兴趣点,距离为0时概率为1,距离为停留半径时概率为0.5,则可得σ=67.95,S5,S6,S7到停留中心的距离分别为120米,40米,80米,则依据公式(6),S5,S6,S7的相对空间概率计算如下:
计算完所有候选地理对象的相对空间概率后,依据公式(7)归一化计算空间概率如下:
则7个地理对象的空间概率分别为0.23,0.13,0.23,0.07,0.05,0.19,0.11。
步骤4.2:计算停留时长概率P(dur|Oi)
将停留时长划分为不同的区间,例如以小时为单位时划分为[0,0.5),[0.5,1),[1,2),[2,4),[4,24)五个区间。同理将停留开始时刻划分为不同的区间,例如划分为[0,8),[8-12),[12-18),[18-22),[22,24)五个区间。假设步骤4.1中的停留SP的停留开始时刻为12点10分,停留时长为20分钟,则SP的停留时长dur∈[0,0.5),停留时刻t∈[12-18)。假设整个区域(例如,全市)中只有学校、商店、餐厅、居民区四种类型地点,共有200个学校,300个商店,500个餐厅,400个居民区。如图7所示,SP的候选地理对象中共有1个学校,2个商店,4个餐厅。利用TF-IDF加权方法计算停留SP中不同类型地点的重要性,并计算潜在访问次数,依据公式(8),计算如下:
即统计SP访问餐厅的潜在次数时,认为SP访问了0.26次餐厅。
假设轨迹中共有10个停留,每个停留的属性和潜在访问次数如表1所示:
表1.10个停留的属性和对学校、商店、餐厅的潜在访问次数
依据公式(9)依次计算表1中不同停留时长的所有停留对餐厅的平均潜在访问次数,结算如下:
依据公式(10),计算访问餐厅时不同停留时长的概率:
同样方法计算访问学校和商店时不同停留时长的概率,结果如表2:
表2.本实例中图7所示的停留SP访问餐厅、学习和商店时不同停留时长的概率
停留时长区间 | dur∈[0,0.5) | dur∈[0.5,1) | dur∈[1,2) | dur∈[2,4) | dur∈[4,24) |
餐厅 | 0.32 | 0.28 | 0.17 | 0.13 | 0.10 |
学校 | 0.13 | 0.13 | 0.18 | 0.26 | 0.29 |
商店 | 0.17 | 0.23 | 0.24 | 0.21 | 0.15 |
步骤4.3:计算访问时刻概率P(t|Oi,dur)
同理,根据公式(13)计算访问餐厅且停留时长dur∈[0,0.5)时,不同访问时刻的概率:
本实例为了方便理解和说明,只列举了10个停留,因此会出现无满足条件的时刻,即概率为0。但本发明无需任何标注数据,因此在实际应用时可较为容易地获取大量的停留进行先验概率提取。
同理计算,访问学校和商店且停留时长dur∈[0,0.5)时,不同访问时刻的概率,结果如表3所示:
表3.访问餐厅、学校、商店且停留时长dur∈[0,0.5)时,不同访问时刻的概率
访问时刻 | t∈[0,8) | t∈[8,12) | t∈[12,18) | t∈[18,22) | t∈[22,24) |
餐厅,dur∈[0,0.5] | 0.49 | 0 | 0.51 | 0 | 0 |
学校,dur∈[0,0.5] | 0.54 | 0 | 0.46 | 0 | 0 |
商店,dur∈[0,0.5] | 0.51 | 0 | 0.49 | 0 | 0 |
步骤4.4:计算候选地点的最终时空概率
P(S1|(x,y),t,dur)=P(t∈[12,18)|商店,dur∈[0,0.5))·P(dur∈[0,0.5)|商店)·P(S1|(x,y))·M
=0.49*0.17*0.23*M=0.019M
P(S2|(x,y),t,dur)=P(t∈[12,18)|餐厅,dur∈[0,0.5))·P(dur∈[0,0.5)|餐厅)·P(S2|(x,y))·M
=0.51*0.32*0.13=0.021M
P(S3|(x,y),t,dur)=P(t∈[12,18)|学校,dur∈[0,0.5))·P(dur∈[0,0.5)|学校)·P(S3|(x,y))·=0.46*0.13*0.23
=0.014M
P(S4|(x,y),t,dur)=P(t∈[12,18)|餐厅,dur∈[0,0.5))·P(dur∈[0,0.5)|餐厅)·P(S4|(x,y))·M
=0.51*0.32*0.07=0.011M
P(S5|(x,y),t,dur)=P(t∈[12,18)|餐厅,dur∈[0,0.5))·P(dur∈[0,0.5)|餐厅)·P(S5|(x,y))·M
=0.51*0.32*0.05=0.008M
P(S6|(x,y),t,dur)=P(t∈[12,18)|餐厅,dur∈[0,0.5))·P(dur∈[0,0.5)|餐厅)·P(S6|(x,y))·M
=0.51*0.32*0.19=0.031M
P(S7|(x,y),t,dur)=P(t∈[12,18)|商店,dur∈[0,0·5))·P(dur∈[0,0.5)|商店)·P(S7|(x,y))·M
=0.49*0.17*0.11=0.009M
步骤5:对访问地点进行语义标注
从以上示例可以看出在只考虑空间概率时,商店S1和学校S3的访问概率均大于餐厅S6,而在综合考虑了停留时长(小于0.5h)和访问时刻(12点10分)后,本发明得出最有可能访问的是S6餐厅。
本发明方法能够结合空间分布、停留时长和访问时刻建立概率模型,同时突破了传统方法对标注数据的依赖问题。通过结合TF-IDF加权方法从轨迹本身出发统计先验概率,计算用户访问不同地点的时空概率,对目标行为的理解具有重要作用。
Claims (7)
1.一种无监督轨迹访问地点标注方法,包括以下步骤:
1)去除轨迹中的噪声和漂移:计算轨迹中各点的速度和夹角,去除速度大于速度阈值的点和夹角小于角度阈值的点,其中所述夹角是指各点与其前后两点连线所形成的夹角;
2)寻找轨迹中的停留:定义每个轨迹点的邻域包含距离该点空间距离小于距离阈值的最长连续子序列,轨迹序列的密度使用序列的时间长度表示;将邻域密度超过设定时间阈值的点作为DBSCAN算法中的核心对象,反之标记为噪声点,利用DBSCAN算法寻找轨迹中所有的停留;
3)搜索候选地点:计算每个停留的中心位置、停留半径、停留开始时间、停留时长,并利用现有的地理信息数据搜索每个停留周围的候选地点;
4)计算候选地点的时空概率:停留的属性包括停留中心(x,y),停留时长dur,停留开始时刻t,依据贝叶斯准则建立概率公式如下:
公式(1)中Oi表示停留的一个候选地点,P(Oi|(x,y),t,dur)表示停留中心为(x,y),停留时长为dur,停留开始时刻为t的条件下,访问地点Oi的概率;P((x,y),t,dur,Oi)表示停留与候选地点Oi的联合概率;P((x,y),t,dur)表示表示停留出现的概率,对于同一个停留为常数;
利用贝叶斯公式,对P((x,y),t,dur,Oi)计算如下:
将公式(2)带入公式(1)可得:
假设(x,y)和t关于Oi是条件独立事件,(x,y)和dur关于Oi是条件独立事件,则:
其叶对同一个停留的不同候选地点相同,计算访问时刻概率P(t|Oi,dur)、停留时长概率P(dur|Oi)和空间概率P(Oi|(x,y)),得到候选地点的时空概率P(t|Oi,dur)·P(dur|Oi)·P(Oi|(x,y));
5)根据时空概率对所有的停留的访问地点进行标注,每个停留的访问地点为该停留候选地点中时空概率最高的地点。
2.如权利要求1所述的标注方法,其特征在于,步骤1)中所述速度阈值设为180km/h,角度阈值设为30°,将速度大于180km/h的轨迹点和夹角小于30°的轨迹点去除。
3.如权利要求1所述的标注方法,其特征在于,步骤2)中所述距离阈值设为100米,时间阈值设为10分钟。
4.如权利要求1所述的标注方法,其特征在于,步骤3)中通过计算停留中所有时空点的平均位置得到停留的中心点,停留半径为该停留中所有时空点到中心点的最大距离;停留区域指以停留中心为圆心,停留半径为半径的圆覆盖的范围;停留开始时间是指停留中时空点的最小时间;停留时长是指停留中的时空点的最大时间和最小时间之差;地理信息数据包括兴趣点和兴趣面,停留的候选地点指与停留中心距离小于设定的搜索半径的地理对象,对于兴趣点来说是指地理对象到停留中心距离小于搜索半径,对于兴趣面来说是指地理对象与停留区域相交。
5.如权利要求4所述的标注方法,其特征在于,在步骤4)中通过下述方法计算空间概率P(Oi|(x,y)):对于候选地点Oi为兴趣面的情况,候选地点与停留区域的拓扑关系包括包含、相交、相离三种,停留区域记为SSP,Oi的地理范围记为则Oi的相对空间概率表示为:
其中,Prelative(Oi|(x,y))表示候选地点Oi的相对空间概率,contain表示包含,intersect表示相交但不包含,disjoint表示相离,表示和SSP的相交部分的面积,AreaSP表示停留区域的面积,表示到SP圆心的最小距离,Searchradius表示在搜索候选地点时的半径,rSP为停留半径;
对于候选地点Oi为兴趣点的情况,Oi的相对空间概率计算公式如下:
计算完所有候选地点的相对空间概率后,通过归一化计算各候选地点的空间概率,计算公式如下:
其中,∑iPrelative(Oi|(x,y))表示停留的所有候选地点的相对空间概率之和。
6.如权利要求4所述的标注方法,其特征在于,在步骤4)中计算停留时长概率P(dur|Oi)的方法是:将停留时长划分为不同的区间[dur1,dur2...durm...],若停留SPi的停留时长dur∈durm,则停留SPi对地点类型为Cj的地点的潜在访问次数计算如下::
其中,代表停留时长dur∈durm的停留SPi对地点类型为Cj的地点的潜在访问次数,表示SPi的候选地点中地点类型为Cj的地点数量,表示SPi的候选地点中各类型地点数量之和,表示整个区域中地点类型为Cj的地点数量,表示整个区域中各类型地点数量之和;
统计轨迹集中停留时长为durm的所有停留对类型为Cj的地点的平均潜在访问次数,计算公式如下:
分别统计研究区域中不同停留时长的停留对不同类型地点的平均潜在访问次数后,则可计算访问某类型地点的不同停留时长的概率,以停留时长dur∈durm访问地点类型为Cj的地点的概率计算公式如下:
若候选地点Oi对应的地点类型为Cj,Oi所属停留的停留时长dur∈durm,则Oi的停留时长概率P(dur|Oi)=P(dur|Cj)=P(dur∈durm|Cj)。
7.如权利要求6所述的标注方法,其特征在于,在步骤4)中计算访问时刻概率P(t|Oi,dur)的方法是:将访问时刻分为不同的区间[t1,t2...tk...],若停留SPi的访问时刻t∈tk,停留时长dur∈durm,则停留SPi对类型为Cj的地点的潜在访问次数计算如下:
其中,表示停留时长dur∈durm的停留SPi的候选地点集中地点类型为Cj的地点个数;表示停留SPi候选地点集中所有地点类型的地点数量之和;表示整个区域中地点类型为Cj的地点个数;表示整个区域中所有地点类型的数量之和;
统计轨迹集中所有访问时刻t∈tk,停留时长dur∈durm的停留对类型为Cj的地点的平均潜在访问次数,计算公式如下:
其中,表示访问时刻t∈tk,停留时长dur∈durm的停留个数;表示访问时刻t∈tk,停留时长dur∈durm的停留SPi对地点类型为Cj的地点的潜在访问次数;访问地点类型Cj的地点且停留时长dur∈durm时,访问时刻t∈tk的概率计算如下:
若候选地点Oi对应的地点类型为Cj,Oi所属停留的停留时长dur∈durm,访问时刻t∈tk,则Oi的访问时刻概率P(t|Oi,dur)=P(t|Cj,dur)=P(t∈tk|Cj,durm)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660503.1A CN113486927B (zh) | 2021-06-15 | 2021-06-15 | 一种基于先验概率的无监督轨迹访问地点标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660503.1A CN113486927B (zh) | 2021-06-15 | 2021-06-15 | 一种基于先验概率的无监督轨迹访问地点标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486927A true CN113486927A (zh) | 2021-10-08 |
CN113486927B CN113486927B (zh) | 2024-03-01 |
Family
ID=77934793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110660503.1A Active CN113486927B (zh) | 2021-06-15 | 2021-06-15 | 一种基于先验概率的无监督轨迹访问地点标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486927B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994313A (zh) * | 2023-03-22 | 2023-04-21 | 清华大学 | 基于访问地点聚类的人群移动建模方法及装置 |
CN116684524A (zh) * | 2022-09-30 | 2023-09-01 | 荣耀终端有限公司 | 一种地点标注方法、电子设备及存储介质 |
CN117171605A (zh) * | 2023-11-03 | 2023-12-05 | 山东黄河三角洲国家级自然保护区管理委员会 | 一种基于gps数据的迁徙鸟类轨迹分割方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104931041A (zh) * | 2015-05-03 | 2015-09-23 | 西北工业大学 | 一种基于用户轨迹数据的地点序列预测方法 |
KR101718146B1 (ko) * | 2016-01-11 | 2017-03-20 | 연세대학교 원주산학협력단 | 사용자 방문 장소 제공 시스템 및 방법 |
JP2017091435A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社Nttドコモ | 滞在場所予測装置 |
JP2017106779A (ja) * | 2015-12-08 | 2017-06-15 | 日本電信電話株式会社 | 目的地予測装置、方法、及びプログラム |
US20180075643A1 (en) * | 2015-04-10 | 2018-03-15 | The European Atomic Energy Community (Euratom), Represented By The European Commission | Method and device for real-time mapping and localization |
CN109684384A (zh) * | 2018-12-29 | 2019-04-26 | 太原科技大学 | 一种轨迹数据时空密度分析系统及其分析方法 |
CN110516708A (zh) * | 2019-07-23 | 2019-11-29 | 江苏大学 | 一种基于轨迹与路网匹配的路径预测方法 |
CN110825833A (zh) * | 2019-11-11 | 2020-02-21 | 杭州数澜科技有限公司 | 一种预测用户移动轨迹点的方法 |
CN110888912A (zh) * | 2019-10-15 | 2020-03-17 | 中国人民解放军国防科技大学 | 基于时空大数据的目标行为语义轨迹预测方法 |
CN111770452A (zh) * | 2020-05-27 | 2020-10-13 | 中山大学 | 一种基于个人出行轨迹特征的手机信令停留点识别方法 |
-
2021
- 2021-06-15 CN CN202110660503.1A patent/CN113486927B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075643A1 (en) * | 2015-04-10 | 2018-03-15 | The European Atomic Energy Community (Euratom), Represented By The European Commission | Method and device for real-time mapping and localization |
CN104931041A (zh) * | 2015-05-03 | 2015-09-23 | 西北工业大学 | 一种基于用户轨迹数据的地点序列预测方法 |
JP2017091435A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社Nttドコモ | 滞在場所予測装置 |
JP2017106779A (ja) * | 2015-12-08 | 2017-06-15 | 日本電信電話株式会社 | 目的地予測装置、方法、及びプログラム |
KR101718146B1 (ko) * | 2016-01-11 | 2017-03-20 | 연세대학교 원주산학협력단 | 사용자 방문 장소 제공 시스템 및 방법 |
CN109684384A (zh) * | 2018-12-29 | 2019-04-26 | 太原科技大学 | 一种轨迹数据时空密度分析系统及其分析方法 |
CN110516708A (zh) * | 2019-07-23 | 2019-11-29 | 江苏大学 | 一种基于轨迹与路网匹配的路径预测方法 |
CN110888912A (zh) * | 2019-10-15 | 2020-03-17 | 中国人民解放军国防科技大学 | 基于时空大数据的目标行为语义轨迹预测方法 |
CN110825833A (zh) * | 2019-11-11 | 2020-02-21 | 杭州数澜科技有限公司 | 一种预测用户移动轨迹点的方法 |
CN111770452A (zh) * | 2020-05-27 | 2020-10-13 | 中山大学 | 一种基于个人出行轨迹特征的手机信令停留点识别方法 |
Non-Patent Citations (4)
Title |
---|
周洋;杨超;: "基于时空聚类算法的轨迹停驻点识别研究", 交通运输系统工程与信息, no. 04 * |
周海;陈姚节;陈黎;: "船舶轨迹聚类分析与应用", 计算机仿真, no. 10 * |
范海林;梁明;李佳;段平;王姗姗;王彤: "顾及地理语境的旅游轨迹停留点语义标注", 测绘通报, no. 006 * |
蔡小路;曹阳;董蒲;: "基于速度的轨迹停留点识别算法", 计算机系统应用, no. 04 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116684524A (zh) * | 2022-09-30 | 2023-09-01 | 荣耀终端有限公司 | 一种地点标注方法、电子设备及存储介质 |
CN116684524B (zh) * | 2022-09-30 | 2024-04-05 | 荣耀终端有限公司 | 一种地点标注方法、电子设备及存储介质 |
CN115994313A (zh) * | 2023-03-22 | 2023-04-21 | 清华大学 | 基于访问地点聚类的人群移动建模方法及装置 |
CN115994313B (zh) * | 2023-03-22 | 2023-05-30 | 清华大学 | 基于访问地点聚类的人群移动建模方法及装置 |
CN117171605A (zh) * | 2023-11-03 | 2023-12-05 | 山东黄河三角洲国家级自然保护区管理委员会 | 一种基于gps数据的迁徙鸟类轨迹分割方法 |
CN117171605B (zh) * | 2023-11-03 | 2024-02-20 | 中国林业科学研究院森林生态环境与自然保护研究所(国家林业和草原局世界自然遗产保护研究中心) | 一种基于gps数据的迁徙鸟类轨迹分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113486927B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhai et al. | Beyond Word2vec: An approach for urban functional region extraction and identification by combining Place2vec and POIs | |
Miller | Time geography and space-time prism | |
Lv et al. | The discovery of personally semantic places based on trajectory data mining | |
Cao et al. | Habit2vec: Trajectory semantic embedding for living pattern recognition in population | |
Andrienko et al. | Visual analytics tools for analysis of movement data | |
Parent et al. | Semantic trajectories modeling and analysis | |
Chang et al. | Context-aware taxi demand hotspots prediction | |
Zheng et al. | Computing with spatial trajectories | |
CN113486927A (zh) | 一种基于先验概率的无监督轨迹访问地点标注方法 | |
CN113378891B (zh) | 基于轨迹分布表示的城市区域关系可视分析方法 | |
Bao et al. | An unsupervised approach to modeling personalized contexts of mobile users | |
Yue et al. | Detect: Deep trajectory clustering for mobility-behavior analysis | |
CN105630897A (zh) | 一种内容感知的地理视频多层次关联方法 | |
Lv et al. | Discovering personally semantic places from gps trajectories | |
Sun et al. | Exploring the urban region-of-interest through the analysis of online map search queries | |
Li et al. | A trajectory restoration algorithm for low-sampling-rate floating car data and complex urban road networks | |
Bermingham et al. | Mining place-matching patterns from spatio-temporal trajectories using complex real-world places | |
McKenzie et al. | Measuring urban regional similarity through mobility signatures | |
Cao et al. | Understanding metropolitan crowd mobility via mobile cellular accessing data | |
CN115796331A (zh) | 基于多模态城市知识图谱的城市资源预测方法及系统 | |
Hu et al. | A framework to detect and understand thematic places of a city using geospatial data | |
Cheng et al. | An unsupervised approach for semantic place annotation of trajectories based on the prior probability | |
CN114169771A (zh) | 区域划分方法和装置、电子设备和存储介质 | |
CN115687429A (zh) | 一种社交媒体用户行为模式挖掘方法 | |
Thomason et al. | Context trees: Augmenting geospatial trajectories with context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |