CN114595300A - 一种结合多源时空数据的活动链重建方法及系统 - Google Patents
一种结合多源时空数据的活动链重建方法及系统 Download PDFInfo
- Publication number
- CN114595300A CN114595300A CN202210208596.9A CN202210208596A CN114595300A CN 114595300 A CN114595300 A CN 114595300A CN 202210208596 A CN202210208596 A CN 202210208596A CN 114595300 A CN114595300 A CN 114595300A
- Authority
- CN
- China
- Prior art keywords
- data
- traveler
- activity
- time
- poi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000694 effects Effects 0.000 claims abstract description 127
- 230000011664 signaling Effects 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000004080 punching Methods 0.000 description 3
- 235000018185 Betula X alpestris Nutrition 0.000 description 2
- 235000018212 Betula X uliginosa Nutrition 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 235000021168 barbecue Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种结合多源时空数据的活动链重建方法及系统,该方法包括:步骤1:对原始手机信令数据进行预处理,两次DBSCAN聚类,再构建出行者移动和驻留的轨迹;步骤2:生成具有职住地特征的序列;步骤3:将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源相结合,构建贝叶斯活动类型推断模型;步骤4:推断出行者在活动区域内参与的活动类型,还原出行者活动链。本发明采用三种来源的数据集,充分利用了各个数据源的特点,为活动类型的推断,活动链的还原提出了新思路。
Description
技术领域
本发明涉及一种结合多源时空数据的活动链重建方法及系统,属于数据处理技术领域。
背景技术
轨迹分析的核心内容就是推断用户参与的活动类型以及活动链,出行者的活动安排决定 了出行需求。研究出行者活动类型,归纳总结出行者户的活动特征和出行规律,还原出行者 的日常活动链是城市布局和交通规划中不可或缺的关键步骤。
传统的问卷调查轨迹收集方法费时费力,样本数量少,质量差,很难快速更新。随着各 类移动设备和定位服务的兴起,出行者活动轨迹的收集有了更多的渠道,例如利用手机定位 数据,交通卡消费记录或者社交网络中的打卡定位来追踪出行者的活动轨迹。
基于位置的社交网络数据(LBSN,Location-based Social Network)就来源于人们在社 交网络中分享自己的生活,因此其中包括各种异构数据,蕴含了非常多语义信息,比如活动 目的,心情等。但是由于社交网络数据收集自用户主动打卡,打卡频率和打卡连续性难以保 证。并且社交网络的用户年龄覆盖率较低,对不同活动类型的打卡热情程度也不一致。因为 很难保证用户在每一个活动地点都进行了打卡,因此社交网络数据中前后事件的关联性,活 动链的完整性都难以保证。
运营商为了计费,在拨打电话、发送或接收短信时收集与基站之间交互的时间和位置, 从而产生了手机信令数据。相比于传统收集方法,手机信令数据是被动采集,数据准确且性 价比高,但同时也有定位精度低,时间间隔不等的特点。如何利用大量手机信令数据,实现 高效率识别出行者活动类型,还原出行者日常活动链,这一问题非常具有挑战性。
发明内容
针对现有技术的不足,本发明提供了一种结合多源时空数据的活动链重建方法。该方法 同时考虑时间约束和空间约束,充分考虑不同数据集的优缺点,结合手机信令数据、基于位 置的社交网络数据以及POI数据的三种数据源提出贝叶斯活动类型推断模型。
本发明还提供了结合多源时空数据的活动链重建系统。
术语解释:
1.POI:Point ofInterest的缩写,兴趣点,是地理数据的重要信息,通常包括名称,地址, 类别和经纬度坐标。比如一个店铺,一个公交站等。
本发明的技术方案为:
一种结合多源时空数据的活动链重建方法,该方法包括:
步骤1:先对出行者的原始手机信令数据进行预处理,然后进行两次DBSCAN聚类,再 构建出行者移动和驻留的轨迹;
步骤2:对出行者的居住地和就业地进行判断,生成具有职住地特征的序列;
步骤3:将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源 相结合,分时段的提取活动类型参与概率以及活动区域内参与活动类型概率,构建考虑时间 约束和空间约束的贝叶斯活动类型推断模型,得到出行者访问某类活动的概率;
步骤4:基于步骤3构建的贝叶斯活动类型推断模型,推断出行者在活动区域内参与的 活动类型,还原出行者活动链。
本发明中,采用两次DBSCAN聚类识别用户轨迹中的重要位置,克服了手机信令数据 中呼叫平衡和定位误差的问题,更为高效可靠的检测了驻留和移动状态。考虑到基于位置的 社交网络数据存在稀疏性过高,连续性不强,不同活动类型打卡分布不均的局限性;本方法 中基于位置的社交网络数据仅用来提供活动类型与时间的关联性信息;手机信令数据提供用 户轨迹链,即时间和地点之间的关联信息;POIs数据提供地理位置的语义信息,即地点与活 动类型的关联信息。
根据本发明优选的,步骤1中,先对出行者的原始手机信令数据进行预处理,然后进行 两次DBSCAN聚类,再构建出行者移动和驻留的轨迹;具体包括以下步骤:
步骤1.1:对原始手机信令数据进行数据预处理,具体为:将一天划分为n个等长的时间 间隔,设定采样频率级Sn以及稀疏性阈值ε,Sn为时间间隔数,Sn用来量化时间采样的稀疏性, 每个时间间隔内设备的记录至多记录一次,剔除Sn<ε的数据;
步骤1.2:在大多数情况下,出行者都与最近的基站交互。但是如果最近的基站被完全占 有时,新的连接会在其他的基站中产生(通常是第二近基站)。这种基站之间的呼叫平衡可能 会导致出行者定位的错误偏移。本方法按照时间顺序,在一定时间段内对步骤1.1处理后的 数据进行DBSCAN聚类,并用聚类后聚类中心的位置来更新,从而将清洗过的数据进一步 滤除位置跳跃;
进一步的,DBSCAN聚类的具体过程为:
a,手机信令数据中每个点以半径为r的邻域来搜索簇,如果某个点的邻域中附近点的数 量大于等于设定的minpts值,则创建以该点为核心点的簇;如果某个点的邻域中附近点的数 量小于设定的minpts值,跳出本次循环,寻找下一个点;
b,重复步骤a进行迭代,以相同的方法处理该簇内的其他点,从而对簇进行扩展;
c,当簇的数量以及簇中点不改变时,迭代结束,聚类完成;
步骤1.3:考虑到多个位置可能指向同一个活动地点,为了识别出行者参与的重要地点, 在忽视时间次序的情况下,对步骤1.2处理后的手机信令数据再次使用DBSCAN聚类,并用 聚类后聚类中心的位置来更新;
步骤1.4:将两次DBSCAN聚类后的点按时间阈值T和空间阈值D划分为驻留状态(stay) 和移动状态(pass-by),从而构建出行者移动和驻留的轨迹;具体为:如果聚类后的点在空 间阈值D内的时间超过时间阈值T,则该点被标记为驻留状态;否则,该点被标记为移动状 态。
由于,不同的用户参与的活动数量不同,因此不能采取需要指定聚类簇数量的聚类(如 K-means);用户的轨迹覆盖范围大,各个活动点之间距离不同,采取基于网格的聚类并不可 行(如STING);用户轨迹的层次也并不明显,层次聚类并不适用(如BIRCH)。因此本方 法采用了基于密度聚类中在地理研究中广泛采用的DBSCAN聚类方法。DBSCAN不用预设聚类簇的个数,适用于不规则形状的聚类,并且对噪声不敏感。
两次DBSCAN聚类中第一次是为了滤除手机信令数据本身自带的“乒乓”以及漂移数 据,第二次是为了识别在用户轨迹中的重要位置。通过两次聚类,可以简单方便的从原始的 手机信令数据中取得用户清晰的轨迹链。
根据本发明优选的,步骤2中,对出行者的居住地和就业地进行判断,生成具有职住地 特征的序列;具体包括以下步骤:
步骤2.1:根据出行者日常活动的时间规律性对手机信令数据进行高频分析,居住地的判 断标准为:标记出行者的居住地点dhome为出行者日常居家时间thome1~thome2内访问最多的 驻留地点;
进一步的,考虑到短期访问者的存在,本方法只考虑常驻居民,滤除出行者访问被标识 的居住地点的次数少于阈值δhome的用户;
步骤2.2:就业地的判断标准为:标记出行者的就业地点为在日常工作时间twork1~twork2内访问最频繁的驻留地点;
进一步的,如果标记的就业地到居住地的距离小于阈值ρwork,或者每周访问次数小于阈 值δwork,则将该位置标记为其他地点;
步骤2.3:将既不满足居住地的判断标准,也不满足就业地的判断标准的驻留点标记为其 他地点。
根据本发明优选的,步骤3中,将具有职住地特征的序列、基于位置的社交网络数据及 POI数据这三种数据源相结合,分时段的提取活动类型参与概率以及活动区域内参与活动类 型概率,构建考虑时间约束和空间约束的贝叶斯活动类型推断模型;具体包括以下步骤:
步骤3.1:构建手机信令数据中基站的沃罗诺伊图,确定距离出行者最近的基站,然后以 该基站为圆心,以出行者最大步行距离γ为半径,构建出行者步行范围边界;出行者步行范围 边界与最近的基站的沃罗诺伊图相交范围内的POI作为出行者的候选POI;
本方法用两个地理限制来选择一个基站的候选POI,一是在所有的基站中,这个POI距 离该基站最近,这样可以保证这个POI是在这个基站的覆盖范围内。二是设定最大步行距离 γ来表示出行者的步行活动范围,在活动范围外的POI不会被访问。
步骤3.2:计算在已知活动范围内候选POI的概率分布的情况下,出行者选择其中一类 活动的概率p(Oi|c);
步骤3.3:根据基于位置的社交网络数据中活动类型和时间的关系,设定时间切片长度 timeslot,统计一天内每个时间切片下访问各类活动的占比,计算出行者访问各类活动的时 间概率分布p(t|Oi);
步骤3.4:结合手机信令数据中时间和地点的关系,步骤3.2中得到的POI数据中地点 和活动类型的关系(即p(Oi|c))以及步骤3.3得到的基于位置的社交网络数据中活动类型和 时间的关系(即p(t|Oi)),构建贝叶斯活动类型推断模型,得到出行者访问某类活动的概率 p(Oi|c,t),c为该类POI在候选POI中的数量占比,Oi表示第i类POI,t表示某一时段;根 据贝叶斯原理,p(Oi|c,t)满足:
式(IV)中,p(t)表示时间切片在一天时间中的占比。
一种结合多源时空数据的活动链重建系统,用于实现结合多源时空数据的活动链重建方 法,包括:
数据获取模块,用于手机信令数据,包含有位置信息的社交网络数据及POI数据;
数据分类模块,用于对手机信令数据进行职住地分析;
活动类型模块,用于将具有职住地特征的序列、基于位置的社交网络数据及POI数据这 三种数据源相结合,构建贝叶斯活动类型推断模型,推断出行者在活动区域内参与的活动类 型。
本发明的有益效果为:
1.本发明中,采用两次DBSCAN聚类识别用户轨迹中的重要位置,克服了手机信令数据 中呼叫平衡和定位误差的问题,更为高效可靠的检测了驻留和移动状态。
2.以基站为单位推断用户可能访问的POIs,充分考虑到手机信令数据以基站为单位的特 性。
3.采用三种来源的数据集,具体包括了手机信令数据,基于位置的社交网络数据,以及 POIs信息。有效利用了基于位置的社交网络数据,即只计算了用户参与各个活动类型的时间 关联性,避开了社交网络数据中用户打卡稀疏性,以及先后事件弱关联性的问题。有效的利 用了POI数据中活动类型和空间信息的相关性,以及社交网络数据中活动类型和时间信息的 相关性的重叠,依据贝叶斯模型创新性的提出了计算用户选择活动类型概率的新方法,对手 机信令数据中的用户进行活动推断,对比现有技术具有更好的实用性,充分利用了各个数据 源的特点,为活动类型的推断,活动链的还原提出了新思路。
附图说明
图1为本发明提供的结合多源时空数据的活动链重建方法的流程示意图。
图2为职住地分析的用户活动链实例图。
图3为选取候选POI的方法示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种结合多源时空数据的活动链重建方法,如图1所示,该方法包括:
步骤1:先对出行者的原始手机信令数据进行预处理,然后进行两次DBSCAN聚类,再 构建出行者移动和驻留的轨迹;
步骤1.1:对原始手机信令数据进行数据预处理,具体为:将一天划分为n个等长的时间 间隔,设定采样频率级Sn以及稀疏性阈值ε,Sn为时间间隔数,Sn用来量化时间采样的稀疏性, 每个时间间隔内设备的记录至多记录一次,剔除Sn<ε的数据;
本实施例中,剔除数据的阈值设置为S48<12。
步骤1.2:在大多数情况下,出行者都与最近的基站交互。但是如果最近的基站被完全占 有时,新的连接会在其他的基站中产生(通常是第二近基站)。这种基站之间的呼叫平衡可能 会导致出行者定位的错误偏移。本方法按照时间顺序,在一定时间段内对步骤1.1处理后的 数据进行DBSCAN聚类,并用聚类后聚类中心的位置来更新,从而将清洗过的数据进一步 滤除位置跳跃;
所述DBSCAN聚类的具体过程为:
a,手机信令数据中每个点以半径为r的邻域来搜索簇,如果某个点的邻域中附近点的数 量大于等于设定的minpts值,则创建以该点为核心点的簇;如果某个点的邻域中附近点的数 量小于设定的minpts值,跳出本次循环,寻找下一个点;
b,重复步骤a进行迭代,以相同的方法处理该簇内的其他点,从而对簇进行扩展;
c,簇中点的不改变时,迭代结束,聚类完成;
其中r为搜索的邻域的半径,minpts为设定的簇中最少点的阈值。
本实施例中,DBSCAN聚类中r设为50米,minpts设为3。
步骤1.3:考虑到多个位置可能指向同一个活动地点,为了识别出行者参与的重要地点, 在忽视时间次序的情况下,对步骤1.2处理后的手机信令数据再次使用DBSCAN聚类,并用 聚类后聚类中心的位置来更新;
本实施例中,DBSCAN聚类中r设为50米,minpts设为3。
步骤1.4:将两次DBSCAN聚类后的点按时间阈值T和空间阈值D划分为驻留状态(stay) 和移动状态(pass-by),从而构建出行者移动和驻留的轨迹;具体为:如果聚类后的点在空 间阈值D内的时间超过时间阈值T,则该点被标记为驻留状态;否则,该点被标记为移动状 态。
本实施例中,时间阈值T设为10分钟,空间阈值D设为300米,即在300米范围内驻留超过10分钟就会被标记为驻留状态。
不同的用户参与的活动数量不同,因此不能采取需要指定聚类簇数量的聚类(如K-means);用户的轨迹覆盖范围大,各个活动点之间距离不同,采取基于网格的聚类并不可行(如STING);用户轨迹的层次也并不明显,层次聚类并不适用(如BIRCH)。因此本方 法采用了基于密度聚类中在地理研究中广泛采用的DBSCAN聚类方法。DBSCAN不用预设 聚类簇的个数,适用于不规则形状的聚类,并且对噪声不敏感。
两次DBSCAN聚类中第一次是为了滤除手机信令数据本身自带的“乒乓”以及漂移数 据,第二次是为了识别在用户轨迹中的重要位置。通过两次聚类,可以简单方便的从原始的 手机信令数据中取得用户清晰的轨迹链。
步骤2:根据人类行为规律性,通过用户记录时间活跃性对活动地点进行职住判断,获得 用户的(home)和就业地(work),生成具有职住地特征的序列;
步骤2.1:根据出行者日常活动的时间规律性对手机信令数据进行高频分析。居住地的判 断具体为:标记出行者的居住地点dhome为出行者日常居家时间thome1~thome2内访问最多的 驻留地点。考虑到短期访问者的存在,本方法只考虑常驻居民,滤除出行者访问被标识的居 住地点的次数少于阈值δhome的用户。
本实施例中,时间阈值thome1和thome2设为22:00和6:00,次数阈值δhome设为数据记录天数的30%。即在22:00到早上6点访问最频繁的驻留地点被标记为居住地点。滤除访问被标识居住地点的次数少于数据记录天数的30%的用户。
步骤2.2:就业地的判断具体为:标记出行者的就业地点为在日常工作时间twork1~twork2内访问最频繁的驻留地点。特别地,如果指定的就业地到居住地的距离小于阈值ρwork,或者 每周访问次数小于阈值δwork,不认为该位置为就业地位置。
本实施例中,时间阈值twork1和twork2设定为8:00和18:00,距离阈值和次数阈值δwork分 别设定为0.5千米和2次。即设定就业地为出行者工作日8:00到18:00访问最频繁的驻留地点。如果被标记的就业地点距离该用户居家地点小于0.5千米或每周访问次数小于2次, 标记这个地点为其他地点。
步骤2.2:对于不满足职住地分析的驻留点标记为其他地点。图2为职住地分析后的用户 语义活动链实例。
步骤3:将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源 相结合,分时段的提取活动类型参与概率p(Oi|c)以及活动区域内参与活动类型概率p(t|Oi), 构建考虑时间约束和空间约束的贝叶斯活动类型推断模型,得到出行者访问某类活动的概率; 其中,基于位置的社交网络数据来源于Foursquare中的公开数据,POI数据亦是选用网上的 公开数据集。
步骤3.1:通过手机信令数据和POI数据,计算活动的候选POI的类别概率。具体为:构建基站的沃罗诺伊图,然后基于手机信令数据,确定距离出行者最近的基站,然后以该基站为圆心,以出行者最大步行距离γ为半径,构建出行者步行范围边界;出行者步行范围边界 与最近的基站的沃罗诺伊图相交范围内的POI作为出行者的候选POI;POI的活动类别被划 分为9类,分别为餐饮类,购物类,教育类,休闲娱乐类,日常需求类,交通类,住宅类, 工作类以及其他类。POI类别划分标准如表1所示。本方法用两个地理限制来选择一个基站 的候选POI,如图3所示,一是在所有的基站中,这个POI距离该基站最近,这样可以保证 这个POI是在这个基站的覆盖范围内。二是设定最大步行距离γ来表示出行者的步行活动范围,在活动范围外的POI不会被访问。出行者访问POIOi的概率为p(Oi|c,t),C为该类POI 在候选POI中的数量占比。
本实施例中,γ设定为900米。
表1
编号 | POI类别 | 标准 |
1 | 餐饮类 | 土菜馆,烧烤等餐饮场所 |
2 | 购物类 | 超市,报刊亭,专卖店,农贸市场等购物地点 |
3 | 教育类 | 学校,图书馆等教育地点 |
4 | 休闲娱乐类 | 酒吧,KTV,足疗,棋牌室等休闲娱乐场所 |
5 | 日常需求类 | 政府机关,医疗服务,银行等日常生活所需地点 |
6 | 交通类 | 客运站,地铁站等交通类地点 |
7 | 住宅类 | 小区,住宅等居住场所 |
8 | 工作类 | 公司,工厂等办公地点 |
9 | 其他类 | 公厕,出口,入口等不相关场所 |
步骤3.2:计算在已知活动范围内候选POI的概率分布的情况下,出行者选择其中一类 活动的概率p(Oi|c);
步骤3.3:根据基于位置的社交网络数据中活动类型和时间的关系,设定时间切片长度timeslot,统计一天内每个时间切片下访问各类活动的占比,计算出行者访问各类活动类型 的时间概率分布p(t|Oi);
本实施例中,timeslot设定为15分钟。
步骤3.4:结合手机信令数据中时间和地点的关系,步骤3.2中得到的POI数据中地点 和活动类型的关系(即p(Oi|c)以及步骤3.3得到的基于位置的社交网络数据中活动类型和时 间的关系(即p(t|Oi)),构建贝叶斯活动类型推断模型,得到出行者访问某类活动的概率;具 体为:
出行者访问某类的概率为p(Oi|c,t),c为该类POI在候选POI中的数量占比,Oi表示第i 类POI,t表示某一时段;根据贝叶斯原理,p(Oi|c,t)如式(I)所示:
式(I)中,p(c)表示在该基站邻域中POI数量在全部POI中的占比,即邻域中POI的数量/总POI的数量。p(t|Oi,c)表示在已知邻域内POI占比以及用户参与的活动类型情况下, 参与时间的概率。p(c,t)表示在该基站邻域和时间的联合概率分布。
为了让模型便于计算,假设,出行者活动的时间信息和地理信息是相互独立的,即
p(t|Oi,c)=p(t|Oi) (II),
p(c,t)=p(c)p(t) (III),
式(II)和式(III)中,p(t)表示该时间切片在一天时间中的占比,即timeslot/24小时。 在此实例中,p(t)为15分钟/24小时。
p(Oi|c,t)简化为:
步骤4:基于步骤3构建的贝叶斯活动类型推断模型,推断出行者在活动区域内参与的 活动类型,还原出行者活动链。
步骤4中,按照概率来推断出行者的活动类型。直接推断访问概率最高的活动类型为出 行者参与的活动过于武断,比如即使在参与餐饮活动最高的场景,也会有参与其他活动的用 户。根据POI访问概率p(Oi|c,t)来随机选取Oi作为用户活动类型。
实施例2
一种结合多源时空数据的活动链重建系统,用于实现实施例1提供的一种结合多源时空 数据的活动链重建方法,包括:
数据获取模块,用于手机信令数据,包含有位置信息的社交网络数据及POI数据;
数据分类模块,用于对手机信令数据进行职住地分析;
活动类型模块,用于将具有职住地特征的序列、基于位置的社交网络数据及POI数据这 三种数据源相结合,构建贝叶斯活动类型推断模型,推断出行者在活动区域内参与的活动类 型。
Claims (8)
1.一种结合多源时空数据的活动链重建方法,其特征在于,该方法包括:
步骤1:先对出行者的原始手机信令数据进行预处理,然后进行两次DBSCAN聚类,再构建出行者移动和驻留的轨迹;
步骤2:对出行者的居住地和就业地进行判断,生成具有职住地特征的序列;
步骤3:将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源相结合,分时段的提取活动类型参与概率以及活动区域内参与活动类型概率,构建贝叶斯活动类型推断模型,得到出行者访问某类活动的概率;
步骤4:基于步骤3构建的贝叶斯活动类型推断模型,推断出行者在活动区域内参与的活动类型,还原出行者活动链。
2.根据权利要求1所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤1中,先对出行者的原始手机信令数据进行预处理,然后进行两次DBSCAN聚类,再构建出行者移动和驻留的轨迹;具体包括以下步骤:
步骤1.1:对原始手机信令数据进行数据预处理,具体为:将一天划分为n个等长的时间间隔,设定采样频率级Sn以及稀疏性阈值ε,Sn为时间间隔数,每个时间间隔内设备的记录至多记录一次,剔除Sn<ε的数据;
步骤1.2:按照时间顺序,在一定时间段内对步骤1.1处理后的数据进行DBSCAN聚类,并用聚类后聚类中心的位置来更新;
步骤1.3:在忽视时间次序的情况下,对步骤1.2处理后的手机信令数据再次使用DBSCAN聚类,并用聚类后聚类中心的位置来更新;
步骤1.4:将两次DBSCAN聚类后的点划分为驻留状态和移动状态,从而构建出行者移动和驻留的轨迹;具体为:如果聚类后的点在空间阈值D内的时间超过时间阈值T,则该点被标记为驻留状态;否则,该点被标记为移动状态。
3.根据权利要求2所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤1中,步骤1中,DBSCAN聚类的具体过程为:
a,手机信令数据中每个点以半径为r的邻域来搜索簇,如果某个点的邻域中附近点的数量大于等于设定的minpts值,则创建以该点为核心点的簇;如果某个点的邻域中附近点的数量小于设定的minpts值,跳出本次循环,寻找下一个点;
b,重复步骤a进行迭代,以相同的方法处理该簇内的其他点,从而对簇进行扩展;
c,当簇的数量以及簇中点不改变时,迭代结束,聚类完成。
4.根据权利要求1所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤2中,对出行者的居住地和就业地进行判断,生成具有职住地特征的序列;具体包括以下步骤:
步骤2.1:居住地的判断标准为:标记出行者的居住地点dhome为出行者日常居家时间thome1~thome2内访问最多的驻留地点;
步骤2.2:就业地的判断标准为:标记出行者的就业地点为在日常工作时间内访问最频繁的驻留地点;
步骤2.3:将既不满足居住地的判断标准,也不满足就业地的判断标准的驻留点标记为其他地点。
5.根据权利要求4所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤2.1中,滤除出行者访问被标识的居住地点的次数少于阈值δhome的用户。
6.根据权利要求4所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤2.2中,如果标记的就业地到居住地的距离小于阈值ρwork,或者每周访问次数小于阈值δwork,则将该位置标记为其他地点。
7.根据权利要求1所述的一种结合多源时空数据的活动链重建方法,其特征在于,步骤3中,将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源相结合,分时段的提取活动类型参与概率以及活动区域内参与活动类型概率,构建贝叶斯活动类型推断模型;具体包括以下步骤:
步骤3.1:构建手机信令数据中基站的沃罗诺伊图,确定距离出行者最近的基站,然后以该基站为圆心,以出行者最大步行距离γ为半径,构建出行者步行范围边界;出行者步行范围边界与最近的基站的沃罗诺伊图相交范围内的POI作为出行者的候选POI;
步骤3.2:计算在已知活动范围内候选POI的概率分布的情况下,出行者选择其中一类活动的概率p(Oi|c);
步骤3.3:根据基于位置的社交网络数据中活动类型和时间的关系,设定时间切片长度timeslot,统计一天内每个时间切片下访问各类活动的占比,计算出行者访问各类活动的时间概率分布p(t|Oi);
步骤3.4:结合手机信令数据中时间和地点的关系,步骤3.2中得到的POI数据中地点和活动类型的关系以及步骤3.3得到的基于位置的社交网络数据中活动类型和时间的关系,构建贝叶斯活动类型推断模型,得到出行者访问某类活动的概率p(Oi|c,t),c为该类POI在候选POI中的数量占比,Oi表示第i类POI,t表示某一时段;根据贝叶斯原理,p(Oi|c,t)满足:
式(IV)中,p(t)表示时间切片在一天时间中的占比。
8.一种结合多源时空数据的活动链重建系统,其特征在于,用于实现权利要求1-7任一项所述的结合多源时空数据的活动链重建方法,包括:
数据获取模块,用于手机信令数据,包含有位置信息的社交网络数据及POI数据;
数据分类模块,用于对手机信令数据进行职住地分析;
活动类型模块,用于将具有职住地特征的序列、基于位置的社交网络数据及POI数据这三种数据源相结合,构建贝叶斯活动类型推断模型,推断出行者在活动区域内参与的活动类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208596.9A CN114595300B (zh) | 2022-03-04 | 2022-03-04 | 一种结合多源时空数据的活动链重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210208596.9A CN114595300B (zh) | 2022-03-04 | 2022-03-04 | 一种结合多源时空数据的活动链重建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595300A true CN114595300A (zh) | 2022-06-07 |
CN114595300B CN114595300B (zh) | 2024-10-29 |
Family
ID=81816219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210208596.9A Active CN114595300B (zh) | 2022-03-04 | 2022-03-04 | 一种结合多源时空数据的活动链重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595300B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117119387A (zh) * | 2023-10-25 | 2023-11-24 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 基于手机信令数据的用户出行链的构建方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130226857A1 (en) * | 2012-02-24 | 2013-08-29 | Placed, Inc. | Inference pipeline system and method |
CN108613933A (zh) * | 2018-06-13 | 2018-10-02 | 中南林业科技大学 | 基于多源遥感数据融合的林地干旱时空动态监测方法 |
CN108650632A (zh) * | 2018-04-28 | 2018-10-12 | 广州市交通规划研究院 | 一种基于职住对应关系和时空间核聚类的驻点判断方法 |
CN110324787A (zh) * | 2019-06-06 | 2019-10-11 | 东南大学 | 一种手机信令数据的职住地获取方法 |
CN112020012A (zh) * | 2020-08-18 | 2020-12-01 | 深圳诺地思维数字科技有限公司 | 一种移动轨迹重建及道路匹配方法、存储介质及服务器 |
-
2022
- 2022-03-04 CN CN202210208596.9A patent/CN114595300B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130226857A1 (en) * | 2012-02-24 | 2013-08-29 | Placed, Inc. | Inference pipeline system and method |
CN108650632A (zh) * | 2018-04-28 | 2018-10-12 | 广州市交通规划研究院 | 一种基于职住对应关系和时空间核聚类的驻点判断方法 |
CN108613933A (zh) * | 2018-06-13 | 2018-10-02 | 中南林业科技大学 | 基于多源遥感数据融合的林地干旱时空动态监测方法 |
CN110324787A (zh) * | 2019-06-06 | 2019-10-11 | 东南大学 | 一种手机信令数据的职住地获取方法 |
CN112020012A (zh) * | 2020-08-18 | 2020-12-01 | 深圳诺地思维数字科技有限公司 | 一种移动轨迹重建及道路匹配方法、存储介质及服务器 |
Non-Patent Citations (2)
Title |
---|
陈迪;吴文斌;陆苗;胡琼;周清波;: "基于多源数据融合的地表覆盖数据重建研究进展综述", 中国农业资源与区划, no. 09, 25 September 2016 (2016-09-25) * |
陶洋;陈辉: "一种基于遗传算法的负载均衡选播路由算法", 计算机科学, no. 01, 25 January 2006 (2006-01-25) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117119387A (zh) * | 2023-10-25 | 2023-11-24 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 基于手机信令数据的用户出行链的构建方法和装置 |
CN117119387B (zh) * | 2023-10-25 | 2024-01-23 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 基于手机信令数据的用户出行链的构建方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114595300B (zh) | 2024-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104380293B (zh) | 基于位置从地图历史提供相关元素信息的方法和计算装置 | |
CN112182410B (zh) | 基于时空轨迹知识图谱的用户出行模式挖掘方法 | |
Ahas et al. | Using mobile positioning data to model locations meaningful to users of mobile phones | |
Poonawala et al. | Singapore in motion: Insights on public transport service level through farecard and mobile data analytics | |
ES2427690B1 (es) | Método para la detección y etiquetado automático de puntos de interés de usuario | |
Nurmi et al. | Identifying meaningful places: The non-parametric way | |
CN111737605A (zh) | 一种基于手机信令数据的出行目的识别方法及装置 | |
Falcone et al. | What is this place? Inferring place categories through user patterns identification in geo-tagged tweets | |
CN105894089A (zh) | 一种征信模型的建立方法、征信确定方法及对应装置 | |
CN108495254B (zh) | 一种基于信令数据的交通小区人口特征估计方法 | |
Cao et al. | Understanding metropolitan crowd mobility via mobile cellular accessing data | |
CN107977673A (zh) | 一种基于大数据的经济活动人口识别方法 | |
CN111429220A (zh) | 基于运营商大数据的旅游路线推荐系统及方法 | |
Yuan et al. | Recognition of functional areas based on call detail records and point of interest data | |
Liang et al. | Assessing the validity of SafeGraph data for visitor monitoring in Yellowstone National Park | |
CN114595300B (zh) | 一种结合多源时空数据的活动链重建方法及系统 | |
Birkin et al. | An examination of personal mobility patterns in space and time using twitter | |
Meneses et al. | Using GSM CellID positioning for place discovering | |
Caceres et al. | Supervised land use inference from mobility patterns | |
Chen et al. | Understanding travel patterns of tourists from mobile phone data: A case study in Hainan | |
Frias-Martinez et al. | Sensing urban land use with twitter activity | |
Aung et al. | Identification and classification of land use types in yangon city by using mobile call detail records (cdrs) data | |
Li et al. | Multi-day activity pattern recognition based on semantic embeddings of activity chains | |
Yamamoto et al. | Examining Spatial Movement Patterns of Travelers: Cases in Tourist Destinations | |
CN118245685B (zh) | 一种基于社会网络和时空伴随行为的家庭识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |