CN110399919A - 一种人类出行稀疏轨迹数据插值重构方法 - Google Patents
一种人类出行稀疏轨迹数据插值重构方法 Download PDFInfo
- Publication number
- CN110399919A CN110399919A CN201910672777.5A CN201910672777A CN110399919A CN 110399919 A CN110399919 A CN 110399919A CN 201910672777 A CN201910672777 A CN 201910672777A CN 110399919 A CN110399919 A CN 110399919A
- Authority
- CN
- China
- Prior art keywords
- mobile object
- point
- data set
- data collection
- movable anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种人类出行稀疏轨迹数据插值重构方法,包括:从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M;基于活动锚点数据集M之间的相似度,对移动对象分类,得到移动对象分类数据集F;基于从移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X;利用训练数据集X对插值重构模型训练,得到训练后的插值重构模型;将待重构的稀疏轨迹数据集输入训练后的插值重构模型,输出重构的精细轨迹数据集。本发明通过对移动对象进行聚类,合并相似的轨迹弥补个体建模的数据稀疏性问题;并考虑不同缺失模式的轨迹数据对重构结果的影响;实现了低采样率人类出行轨迹数据的插值重构,提高了人类出行轨迹数据的时空精细尺度。
Description
技术领域
本发明涉及移动位置服务、城市交通、人类移动性研究、出行行为分析、移动互联网络技术领域,尤其涉及一种人类出行稀疏轨迹数据插值重构方法。
背景技术
个体/群体在地理空间的移动出行过程反映着纷繁复杂的区域人地关系,对人类移动出行过程特性的研究形成了地理学、社会学、物理学、流行病学、城市规划与管理等学科共同关注的主题。人类个体/群体在地理空间中具有特定意义的“移动(Movement)”所隐含的社会系统要素时空分布与演化规律。从人类行为和迁移模式,到传染病的演化和疾病的传播,或是理解社会网络的形成机制,人类移动性在许多方面都具有重要的研究价值。
人类出行轨迹数据Traj=<(p1,t1),(p2,t2),…,(pn,tn)>是个体/群体在地理空间的移动有多种表现形式,交通运输工具的位置变化、随身携带设备的位移过程、频率及规模等都是个体/群体空间移动特征的真实写照。现有技术中,人类出行活动研究大多基于观察、访问、调查问卷及出行日志等信息获取方式,信息获取成本高、样本量小、时间跨度短,且易受到问卷设计和主观判断的影响,难以大规模、长时间地观测和记录城市人群的空间移动行为。
近年来,移动定位技术迅猛发展,如导航卫星定位技术、移动通讯网络定位技术、混合定位技术、室内定位技术等,移动终端不断普及,如PDA、智能手机、平板电脑等,网络技术不断进步,位置服务应用不断增多,如在线导航、基于位置的社交网络、基于位置的广告推送、商业物流调度与管理等,获取海量移动对象的时空轨迹成为可能,也为人类出行活动研究、人类移动性研究(Human Mobility)提供了重要支撑。
人类出行轨迹数据是人类移动性研究的基础,但数据稀疏性是目前主要人类出行轨迹数据的通病,目前主要人类出行轨迹数据包括志愿者定位数据、装备卫星导航定位设备的浮动车行驶轨迹、手机终端定位与通讯记录、社交网络签到数据、公交IC卡刷卡记录及共享单车租赁记录等。但这些定位数据存在以下缺陷:
1、公交IC卡、社交网络签到数据等由于受固定传感器事件触发才产生位置信息,采样时间间隔不确定且精度较低,无法实现城市级别精细尺度时空轨迹信息。
2、浮动车仅代表定位设备出租车部分样本,不能代表全样本时空轨迹信息,使其在城市群体性活动研究方面大大受限。
3、手机信令数据虽然是研究城市居民时空移动行为、城市群体性活动重要的数据源,但根据手机信令数据所构建的用户轨迹时间间隔差别较大。
为解决上述问题,国内外研究学者针对人类出行轨迹数据稀疏性问题开展了大量研究,并提出了一系列研究成果,现有技术的方法主要存在以下缺陷:
(1)现有技术忽略了群体轨迹之间的相似性,往往需要对每个移动对象单独建立插值模型,且大多依赖有限人工标注训练数据集来学习单个个体移动出行特征,强调个体轨迹插值重构算法,但受限于人工标注训练数据集的规模,无法实现大范围千万级移动对象轨迹的插值重构。
(2)现有技术没有充分利用人类出行行为的规律特性,没有挖掘出行轨迹数据的缺失模式,导致人类出行稀疏轨迹数据插值重构的精度较低。
发明内容
(一)发明目的
本发明的目的是提供一种人类出行稀疏轨迹数据插值重构方法,用于对由人类出行活动产生的轨迹数据进行处理,从而获得更高时空分辨率的人类出行轨迹,为移动位置服务、城市交通、移动互联网络技术等领域提供支持。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种人类出行稀疏轨迹数据插值重构方法,包括:
从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M;所述活动锚点数据集M包括移动对象标识及其对应的活动锚点标识;
基于所述活动锚点数据集M之间的相似度,对所述移动对象分类,得到移动对象分类数据集F;所述移动对象分类数据集F包括移动对象标识和移动对象所属类别标识;
基于从所述移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X;
利用所述训练数据集X对插值重构模型训练,得到训练后的插值重构模型;
将待重构的稀疏轨迹数据集输入训练后的所述插值重构模型,输出重构的精细轨迹数据集。
进一步地,提取移动对象的活动锚点数据集M包括:
统计所述移动对象在每个停留位置的轨迹点个数;
根据所述停留位置的轨迹点个数,确定所述移动对象的所有停留区域;
对每个停留区域内的所有停留位置的轨迹点个数求和,得到每个停留区域内的轨迹点总数;
若所述轨迹点总数大于第一预设值,则将所述停留区域内轨迹点个数最多的停留位置识别为该移动对象在该停留区域的活动锚点;
识别出所述移动对象所有的活动锚点,得到所述活动锚点数据集M。
进一步地,根据所述停留位置的轨迹点个数,确定所述移动对象的停留区域包括:
按照所述轨迹点个数由多至少,对所述停留位置排序,得到移动对象位置数据集;
以所述移动对象位置数据集中的第一个停留位置为圆心,以第二预设值为半径,得到第一个停留区域;当识别出所述第一个停留区域的活动锚点后,将所述第一个停留区域内的所有停留位置标记为已处理;
依次以所述移动对象位置数据集中未处理的停留位置中排名最前的停留位置为圆心,以所述第二预设值为半径,得到所有停留区域。
进一步地,所述基于所述活动锚点数据集M之间的相似度,对所述移动对象分类,得到移动对象分类数据集F包括:
计算任意两个所述活动锚点数据集M的相似度;
基于所述相似度,构建相似性矩阵;
基于所述相似性矩阵,对所述移动对象进行聚类,得到所述移动对象分类数据集F。
进一步地,在识别出所有的所述活动锚点之后,得到所述活动锚点数据集M之前,还包括:
将所述移动对象的活动锚点投影至相应的行政街道;
以所述行政街道的编号代替所述移动对象的活动锚点,得到所述活动锚点数据集M;
其中,活动锚点数据集M之间的相似度通过所述移动对象的活动锚点所属的行政街道的编号是否匹配确定。
进一步地,所述相似度的计算方法为:
式中,f11表示移动对象P,Q均有的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号匹配的活动锚点个数,f10和f01分别表示移动对象P、Q各自包含而对方不包含的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号不匹配的活动锚点个数。
7.根据权利要求4所述的方法,其特征在于,所述基于所述相似性矩阵,对所述移动对象进行聚类包括:
基于所述相似性矩阵,采用层次聚类法对所述移动对象进行聚类。
进一步地,基于从所述移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X包括:
从所述移动对象分类数据集F中分别提取每个移动对象原始轨迹的轨迹片段;所述轨迹片段带有移动对象标识和移动对象所属类别标识;
提取每条所述轨迹片段的运动特征;
所有移动对象的所有轨迹片段及其对应的运动特征构成所述训练数据集X。
进一步地,所述轨迹片段由起点、重点和所述移动对象原始轨迹内的所有轨迹点构成;提取轨迹片段包括:
确定初始时间间隔;
判断初始时间间隔是否达到第三预设值;
若否,将移动对象原始轨迹内各轨迹点分别作为起点,将与所述起点的时间间隔超过所述初始时间间隔且与所述起点最近的轨迹点作为重点,得到多条轨迹片段。
进一步地,所述提取轨迹片段还包括:
对所述初始时间间隔递进,得到递进时间间隔;
直到所述递进时间间隔超过所述第三预设值后,完成轨迹片段提取,得到所有的轨迹片段。
进一步地,在从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M之前,还包括:
获取所述移动对象原始轨迹数据集;
对所述移动对象原始轨迹数据集进行存储和预处理。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明提供的人类出行稀疏轨迹数据插值重构方法,引入基于活动锚点的相似性度量方法对移动对象进行聚类,通过合并相似的轨迹弥补个体建模的数据稀疏性问题;并引入递增窗滑动窗数据构建方法考虑不同缺失模式的轨迹数据对重构结果的影响;从而实现高效的低采样率人类出行轨迹数据的插值重构。解决了人类出行轨迹数据稀疏性问题,提高了人类出行轨迹数据的时空精细尺度,为人类出行行为特征分析的定量化分析提供了更加准确的数据支撑。
本发明提供的人类出行稀疏轨迹数据插值重构方法,通过充分挖掘群体出行轨迹的共性特征,有效利用移动对象间相似性强化轨迹重构计算,利用群体全局出行特征对单个轨迹插值具有很好的填补作用,也能降低监督类插值重构算法对训练样本规模的要求;通过充分利用人类出行行为的规律特性,挖掘出行轨迹数据的缺失模式,大大提高了人类出行稀疏轨迹数据插值重构的精度。
附图说明
图1是现有技术中根据手机信令数据构建的用户轨迹示意图;
图2是本发明实施例提供的人类出行稀疏轨迹数据插值重构方法的流程示意图;
图3为本发明实施例提供的活动锚点识别示意图;
图4是本发明实施例的对比试验提供的ANN-TR模型示意图;
图5是本发明实施例提供的对比结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在介绍本发明实施例提供的人类出行稀疏轨迹数据插值重构方法之前,先对现有技术中利用手机信令数据构建用户轨迹的方法进行简单介绍。
现有技术中,手机信令数据一般采取Cell-ID方式,所记录的用户位置是基于通信行为发生时所依附路由基站位置的统计推断,并非用户精确经纬度信息。绝大多数运营商只有发生通信行为时才能感知手机用户位置,因此手机信令定位数据所构建的用户轨迹时间间隔差别较大。
手机信令数据如下表1所示:
表1
根据表1中的手机信令数据构建的用户轨迹示意图如图1所示,由图1可知,根据手机信令数据构建的用户轨迹示意图只能以小时级别反应用户一天的出行活动,如“车站→超市→公园→家→公司”。
图2是本发明实施例提供的人类出行稀疏轨迹数据插值重构方法的流程示意图。
请参照图2,本发明实施例提供一种人类出行稀疏轨迹数据插值重构方法,包括:S100、S200、S300、S400和S500。
可选的,在步骤S100之前,还包括:S001和S002。
S001,获取移动对象原始轨迹数据集。
S002,对移动对象原始轨迹数据集进行存储和预处理。
具体地,移动对象原始轨迹数据集即为人类出行原始轨迹数据集,海量稀疏人类出行原始轨迹数据存储方式可以采用关系型数据库(如Oracle、MySQL及PostgreSQL等),也可以采用NoSQL数据库(如MongoDB、CouchDB、HBase等)进行数据逻辑存储与管理;海量稀疏人类出行原始轨迹数据预处理可以采用集中式高性能处理(如CUDA、MPI等),也可以采用分布式集群方式(如MapReduce、BSP等)进行数据分布式处理。移动对象原始轨迹数据集Dcdr的具体数据格式为:数据集Dcdr,且Dcdr={traj1,traj2,…,trajq},traj={gpsfile1,gpsfile2,…,gpsfilen},其中,gpsfilei={pt1,pt2,…,ptn},其中,n是集合中轨迹点的数目,pti是第i个轨迹点,可用一个三元组表示,即,pti={lati,loni,timestampi},表示在某一时刻手机用户的经纬度。Dcdr可以根据需要采用gpx、kml、plt和log等格式。为实现对海量原始轨迹数据分布式存储,在该实施例中采用的数据库为MongoDB集群,实现通过非结构化方式进行数据的逻辑存储与管理。在实际的存储方案中采用了数据库的自动分片策略,分布式集群处理模型采用MapReduce模型,从而实现利用分布式计算环境和存储结构进行手机话单轨迹数据的物理存储与处理。
可选的,后续步骤可以基于预处理后的移动对象原始轨迹数据集进行处理。
S100,从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M;活动锚点数据集M包括移动对象标识及其对应的活动锚点标识。
其中,步骤S100中,提取移动对象的活动锚点数据集M的步骤包括:S101-S105。
S101,统计移动对象在每个停留位置的轨迹点个数,该轨迹点个数反应了移动对象在该停留位置的停留次数。
S102,根据停留位置的轨迹点个数,确定移动对象的所有停留区域。
其中,步骤S102包括:S1021-S1023。
S1021,按照轨迹点个数由多至少,对停留位置排序,得到移动对象位置数据集。
S1022,以移动对象位置数据集中的第一个停留位置为圆心,以第二预设值为半径,得到第一个停留区域;在识别出第一个停留区域的活动锚点后,将第一个停留区域内的所有停留位置标记为已处理。
可选的,第二预设值的范围为搜索半径预设值。阈值设置参考于手机数据定位精度和基站跳变的影响。当阈值设置过小时,无法帮助解决由于基站信号变化带来的基站跳变;当阈值过大时,会无法捕捉用户在空间上的移动。针对本案例数据,由于基站间最短距离的平均值为0.24km,我们选择0.5km作为搜索半径预设值。
S1023,依次以移动对象位置数据集中未处理的停留位置中排名最前的停留位置为圆心,以第二预设值为半径,得到移动对象的所有停留区域。
S103,对每个停留区域内的停留位置的轨迹点个数求和,得到每个停留区域内的轨迹点总数。
S104,若轨迹点总数大于第一预设值,则将停留区域内轨迹点个数最多的停留位置识别为该移动对象在该停留区域的活动锚点。
可选的,第一预设值的范围为通话记录数阈值。阈值设置主要参考用户在家、工作等重要锚点位置通话记录数占总记录数比重。当阈值设置过大时,会导致用户识别锚点个数过少,无法充分概括用户移动特征;当阈值设置过小时,会将并不重要的位置识别为锚点,带来额外的计算开销。针对本案例数据,通过统计在夜间时段和白天时段记录数最多锚点(家/工作地)对应的通话记录数比例,选择20%为模型阈值。
S105,识别出移动对象所有的活动锚点,得到活动锚点数据集M。
其中,步骤105中,在识别出所有的活动锚点之后,得到活动锚点数据集M之前,还包括:
将移动对象的活动锚点投影至相应的行政街道。
以行政街道的编号代替移动对象的活动锚点,得到活动锚点数据集M。
其中,活动锚点数据集M之间的相似度通过移动对象的活动锚点所属的行政街道的编号是否匹配确定。
具体地,移动对象的活动锚点识别采用移动对象在同一区域产生记录数N(即轨迹点总数)是否满足预先设定的频次阈值β(即第一预设值)来判断是否为活动锚点。其中,预先设定的频次阈值β可由在同一位置产生的记录数占该移动对象总记录数的比例确定。
活动锚点数据集M包括:移动对象标识及其对应活动锚点标识、构建活动锚点空间索引(如R树、R*树等)、构建海量手机话单轨迹数据索引(如TB树、TPR树等)。
移动对象标识是指移动对象身份标识,比如ID号。
活动锚点标识是指活动锚点对应的行政街道的编号。
图3为本发明一具体实施方式提供的活动锚点识别示意图。
请参照图3,在一具体实施方式中,从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M的步骤主要包括:
(1)停留位置的停留频次统计即停留位置的轨迹点个数统计(停留位置的停留频次越高代表移动对象原始轨迹数据集中对应该停留位置的轨迹点越多):以移动对象停留位置唯一标识作为主键ID,遍历轨迹中每一个停留位置,统计移动对象经过各停留位置的停留频次并进行排序,构建移动对象位置数据集Loc={loc1,loc2,…,locm},其中,m是移动对象位置数据集中移动对象的停留位置的个数,loci记录移动对象停留第i多的停留位置的空间坐标和停留频次,loci={xi,yi,freqi}。
(2)活动锚点识别:以移动对象的停留位置唯一标识作为主键,依序遍历移动对象的停留位置,并以该停留位置为圆心,以空间范围阈值ε(即第二预设值)为半径,筛选该停留位置圆形范围内的所有停留位置,并对各停留位置的停留频次进行求和。如圆形区域内停留位置的停留频次之和大于频次阈值β(即第一预设值),则将该圆形区域内停留频次最高的停留位置识别为活动锚点,如圆形区域内停留位置的停留频次之和小于频次阈值β,则不识别为活动锚点。同时,将圆形区域内所有移动对象的停留位置标记为已处理。重复以上步骤直至所有停留位置均被标记为已处理。
(3)锚点投影:将活动锚点投影至其所属行政街道,并以行政街道的编号替代活动锚点位置,以便于后续相似性度量。
(4)构建移动对象活动锚点数据集M:M={mresult1,mresult2,…,mresultk},其中,k为数据集M中移动对象个数,mresulti记录第i个移动对象的活动锚点所属的行政街道的编号,即,mresulti={anchor1,anchor2,…,anchork},其中,anchork为移动对象的第k个活动锚点所属的行政街道的编号。
S200,基于活动锚点数据集M之间的相似度,对移动对象分类,得到移动对象分类数据集F;移动对象分类数据集F包括移动对象标识和移动对象所属类别标识。
其中,步骤S200包括:S201-S203。
S201,计算任意两个活动锚点数据集M的相似度。
其中,步骤S201中,相似度的计算方法为:
式中,f11表示移动对象P,Q均有的的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号匹配的活动锚点个数,f10和f01分别表示移动对象P、Q各自包含而对方不包含的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号不匹配的活动锚点个数。
可选的,针对手机定位数据海量特征,对任意两个活动锚点数据集M,采用Dice系数计算相似度。
S202,基于相似度,构建相似性矩阵。
S203,基于相似性矩阵,对移动对象进行聚类,得到包括移动对象标识和移动对象所属类别标识的移动对象分类数据集F。
可选的,基于相似性矩阵,采用层次聚类法对移动对象进行聚类。
具体地,依据移动对象活动锚点数据集M计算各移动对象间相似性可采用各自移动对象活动锚点空间位置点集的Hausdorff距离或Frechet距离;依据相似性矩阵对移动对象分类可采用基于层次的聚类算法(如层次聚类算法、BIRCH算法等),也可以采用基于划分的聚类算法(如K-means算法、ISODATA算法等)。
移动对象分类数据集F包括:移动对象标识、移动对象所属类别标识、构建移动对象标识索引、构建移动对象所属类别索引(如B树、B+树等)。表达式为:F={Fid1,Fid2,…,Fido},其中o为聚类后类别个数,Fidm为第m个类别所包含的移动对象的ID,即Fidm={Uid1,Uid2,…,Uidp}。
S300,基于从移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X。
其中,步骤S300包括:S301-S303。
S301,从移动对象分类数据集F中分别提取每个移动对象原始轨迹的轨迹片段。该轨迹片段带有移动对象标识和移动对象所属类别标识。
其中,轨迹片段由起点、重点和移动对象原始轨迹内的所有轨迹点构成。提取轨迹片段的步骤包括:S3011-S3015。
S3011,确定初始时间间隔。
S3012,判断初始时间间隔是否达到第三预设值;
可选的,第三预设值的范围为最大时间间隔阈值,当初始时间间隔大于阈值时,算法完成,返回所有轨迹片段。阈值设置参考于轨迹数据中任意两点时间间隔的累积分布曲线。如阈值设计过小,将使得重构模型无法获取时间间隔较长的训练数据,使得模型泛化能力受限;如阈值设计过大,将带来额外的计算开销,降低模型效率。针对本案例数据,约有85%的相邻轨迹点间时间间隔小于7小时,因此选择7小时作为模型阈值。
S3013,若否,将移动对象原始轨迹内的各轨迹点分别作为起点,将与起点的时间间隔超过初始时间间隔且与起点最近的轨迹点作为重点,得到多条轨迹片段。
提取轨迹片段的步骤还包括:
S3014,对初始时间间隔递进,得到递进时间间隔。
S3015,直到递进时间间隔超过第三预设值后,完成轨迹片段提取,得到所有的轨迹片段。
在一具体实施方式中,提取轨迹片段的核心思想是设计时间步长和时间滑动窗,通过步长的叠加实现滑动窗口大小的递进,并遍历滑动窗口内各轨迹点,与窗口起点、重点共同组成三元组,从而实现不同模式数据的自动构建。其计算过程如算法1所示。
在算法1中,首先对时间间隔进行初始化(第1行),得到初始时间间隔;判断初始时间间隔是否达到第三预设值(第2行);如未达到第三预设值,则遍历轨迹内各轨迹点依次作为起点,并寻找记录时间为距离起点记录时间超过一个时间间隔初始值且最近的轨迹点作为重点(第3-5行);遍历起点到终点之内所有轨迹点,分别与起点、重点组成三元组,作为一条数据(第6-9行);在遍历过轨迹内所有轨迹点作为起点后,对初始时间间隔进行递进,得到递进时间间隔,重复所有计算过程(第3-11行);直到递进时间间隔超过第三预设值,算法结束并返回数据构建结果。
S302,提取每条轨迹片段的运动特征。
S303,所有移动对象的所有轨迹片段及其对应的运动特征构成训练数据集X。
其中,轨迹片段的运动特征包括前一条记录空间位置、记录时间,后一条记录空间位置、记录时间,待补全记录时间,移动对象轨迹回旋半径,轨迹熵。
S400,利用训练数据集X对插值重构模型训练,得到训练后的插值重构模型。
可选的,插值重构模型包括随机森林、Adaboost、GBDT、SVM中的任意一种。插值重构模型能够利用训练数据集X,学习移动对象的运动特征,进而依据训练好的模型推断缺失数据位置。
S500,将待重构的稀疏轨迹数据集输入训练后的插值重构模型,输出重构的精细轨迹数据集。
具体地,在给定所有轨迹片段(即待重构的稀疏轨迹数据集)和训练后的插值重构模型后,提取各个轨迹的所选特征将形成为具有相同维度的矢量,并采用训练后模型计算缺失数据位置,从而获得高时空分辨率人类出行轨迹重构结果集FD(即重构的精细轨迹数据集)。
下面通过对比试验验证本发明提供的人类出行稀疏轨迹数据插值重构方法的技术效果。
采用某市130万移动通讯用户连续15个工作日的手机定位数据,每个用户每天的出行轨迹为一条完整的轨迹停留点记录,共计150万条真实轨迹数据。与手机话单数据不同,真实轨迹数据集包含手机信令数据和用户其他行为所产生的数据,包括电话通信、定期更新、基站切换、开关机等。为了验证本发明的技术效果,我们从定位数据中提取稀疏手机信令数据,并将其存储在独立的数据集中。因此,每个人的轨迹存在于两种数据集中:稀疏手机信令数据集和手机定位数据集。其中,稀疏手机信令数据集用于模型构建,手机定位数据集用于真值验证。
手机信令数据集如下表2所示:
表2
如图4-5所示,本发明提供的训练后的插值重构模型以及其他模型的平均绝对误差(MAE)以及平均绝对误差的标准差(StDev)的对比结果柱状图。
图5中,第Ⅰ个柱状图表示本发明提供的训练后的插值重构模型MDP-TR的平均绝对误差MAE=0.84km,第Ⅱ个柱状图表示原始机器学习模型Ori-TR的平均绝对误差MAE=2.44km,第Ⅲ个柱状图表示ANN-TR模型的平均绝对误差MAE=2.07km,第Ⅳ个柱状图表示线性插值模型Linear的平均绝对误差MAE=2.11km,第Ⅴ个柱状图表示最接近插值模型Nearest的平均绝对误差MAE=2.42km。由此可知,采用本发明提供的训练后的插值重构模型MDP-TR的平均绝对误差比原始机器学习模型Ori-TR的平均绝对误差低1.60km,比ANN-TR模型的平均绝对误差低1.23km,比线性插值模型Linear的平均绝对误差低1.27km,比最接近插值模型Nearest的平均绝对误差低1.58km。
图5中,第Ⅵ个柱状图表示本发明提供的训练后的插值重构模型MDP-TR的平均绝对误差的标准差,第Ⅶ个柱状图表示原始机器学习模型Ori-TR的平均绝对误差的标准差,第Ⅷ个柱状图表示ANN-TR模型的平均绝对误差的标准差,第Ⅸ个柱状图表示线性插值模型Linear的平均绝对误差的标准差,第Ⅹ个柱状图表示最接近插值模型Nearest的平均绝对误差的标准差;通过比较平均绝对误差的标准差StDev,表明利用本发明提供的人类出行稀疏轨迹数据插值重构方法的结果比对比方法的结果更稳健。
本发明实施例提供的人类出行稀疏轨迹数据插值重构方法,通过考虑移动对象相似性和轨迹缺失模式,能够实现大范围群体出行轨迹的快速插值,显著提升了稀疏人类出行轨迹数据重构的精度,在不具备高采样率数据的情况下,能够有效地反应移动对象出行的真实轨迹,从而为智慧城市、基于位置的服务和交通规划等应用提供更精细可靠的数据源。
本发明旨在保护一种人类出行稀疏轨迹数据插值重构方法,具有如下有益的技术效果:
本发明提供的人类出行稀疏轨迹数据插值重构方法,引入基于活动锚点的相似性度量方法对移动对象进行聚类,通过合并相似的轨迹弥补个体建模的数据稀疏性问题;并引入递增窗滑动窗数据构建方法考虑不同缺失模式的轨迹数据对重构结果的影响;从而实现高效的低采样率人类出行轨迹数据的插值重构。解决了人类出行轨迹数据稀疏性问题,提高了人类出行轨迹数据的时空精细尺度,为人类出行行为特征分析的定量化分析提供了更加准确的数据支撑。
本发明提供的人类出行稀疏轨迹数据插值重构方法,通过充分挖掘群体出行轨迹的共性特征,有效利用移动对象间相似性强化轨迹重构计算,利用群体全局出行特征对单个轨迹插值具有很好的填补作用,也能降低监督类插值重构算法对训练样本规模的要求;通过充分利用人类出行行为的规律特性,挖掘出行轨迹数据的缺失模式,大大提高了人类出行稀疏轨迹数据插值重构的精度。
需要说明的是,本发明实施例的方法适用于所有低采样率人类出行稀疏轨迹插值重构计算过程;本发明不限制具体的城市范围及具体的手机信令数据提供商。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (11)
1.一种人类出行稀疏轨迹数据插值重构方法,其特征在于,包括:
从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M;所述活动锚点数据集M包括移动对象标识及其对应的活动锚点标识;
基于所述活动锚点数据集M之间的相似度,对所述移动对象分类,得到移动对象分类数据集F;所述移动对象分类数据集F包括移动对象标识和移动对象所属类别标识;
基于从所述移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X;
利用所述训练数据集X对插值重构模型训练,得到训练后的插值重构模型;
将待重构的稀疏轨迹数据集输入训练后的所述插值重构模型,输出重构的精细轨迹数据集。
2.根据权利要求1所述的方法,其特征在于,提取移动对象的活动锚点数据集M包括:
统计所述移动对象在每个停留位置的轨迹点个数;
根据所述停留位置的轨迹点个数,确定所述移动对象的所有停留区域;
对每个停留区域内的所有停留位置的轨迹点个数求和,得到每个停留区域内的轨迹点总数;
若所述轨迹点总数大于第一预设值,则将所述停留区域内轨迹点个数最多的停留位置识别为该移动对象在该停留区域的活动锚点;
识别出所述移动对象所有的活动锚点,得到所述活动锚点数据集M。
3.根据权利要求2所述的方法,其特征在于,根据所述停留位置的轨迹点个数,确定所述移动对象的停留区域包括:
按照所述轨迹点个数由多至少,对所述停留位置排序,得到移动对象位置数据集;
以所述移动对象位置数据集中的第一个停留位置为圆心,以第二预设值为半径,得到第一个停留区域;当识别出所述第一个停留区域的活动锚点后,将所述第一个停留区域内的所有停留位置标记为已处理;
依次以所述移动对象位置数据集中未处理的停留位置中排名最前的停留位置为圆心,以所述第二预设值为半径,得到所有停留区域。
4.根据权利要求2所述的方法,其特征在于,所述基于所述活动锚点数据集M之间的相似度,对所述移动对象分类,得到移动对象分类数据集F包括:
计算任意两个所述活动锚点数据集M的相似度;
基于所述相似度,构建相似性矩阵;
基于所述相似性矩阵,对所述移动对象进行聚类,得到所述移动对象分类数据集F。
5.根据权利要求4所述的方法,其特征在于,在识别出所有的所述活动锚点之后,得到所述活动锚点数据集M之前,还包括:
将所述移动对象的活动锚点投影至相应的行政街道;
以所述行政街道的编号代替所述移动对象的活动锚点,得到所述活动锚点数据集M;
其中,活动锚点数据集M之间的相似度通过所述移动对象的活动锚点所属的行政街道的编号是否匹配确定。
6.根据权利要求5所述的方法,其特征在于,所述相似度的计算方法为:
式中,f11表示移动对象P,Q均有的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号匹配的活动锚点个数,f10和f01分别表示移动对象P、Q各自包含而对方不包含的活动锚点个数即移动对象P,Q的活动锚点所属的行政街道的编号不匹配的活动锚点个数。
7.根据权利要求4所述的方法,其特征在于,所述基于所述相似性矩阵,对所述移动对象进行聚类包括:
基于所述相似性矩阵,采用层次聚类法对所述移动对象进行聚类。
8.根据权利要求1所述的方法,其特征在于,基于从所述移动对象分类数据集F中提取到的轨迹片段,构建训练数据集X包括:
从所述移动对象分类数据集F中分别提取每个移动对象原始轨迹的轨迹片段;所述轨迹片段带有移动对象标识和移动对象所属类别标识;
提取每条所述轨迹片段的运动特征;
所有移动对象的所有轨迹片段及其对应的运动特征构成所述训练数据集X。
9.根据权利要求8所述的方法,其特征在于,所述轨迹片段由起点、重点和所述移动对象原始轨迹内的所有轨迹点构成;提取轨迹片段包括:
确定初始时间间隔;
判断初始时间间隔是否达到第三预设值;
若否,将移动对象原始轨迹内各轨迹点分别作为起点,将与所述起点的时间间隔超过所述初始时间间隔且与所述起点最近的轨迹点作为重点,得到多条轨迹片段。
10.根据权利要求9所述的方法,其特征在于,所述提取轨迹片段还包括:
对所述初始时间间隔递进,得到递进时间间隔;
直到所述递进时间间隔超过所述第三预设值后,完成轨迹片段提取,得到所有的轨迹片段。
11.根据权利要求1-10中任一项所述的方法,其特征在于,在从移动对象原始轨迹数据集中分别提取每个移动对象的活动锚点数据集M之前,还包括:
获取所述移动对象原始轨迹数据集;
对所述移动对象原始轨迹数据集进行存储和预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672777.5A CN110399919A (zh) | 2019-07-24 | 2019-07-24 | 一种人类出行稀疏轨迹数据插值重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910672777.5A CN110399919A (zh) | 2019-07-24 | 2019-07-24 | 一种人类出行稀疏轨迹数据插值重构方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399919A true CN110399919A (zh) | 2019-11-01 |
Family
ID=68325999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910672777.5A Pending CN110399919A (zh) | 2019-07-24 | 2019-07-24 | 一种人类出行稀疏轨迹数据插值重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399919A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477339A (zh) * | 2020-04-13 | 2020-07-31 | 深圳前海微众银行股份有限公司 | 传染病接触情况检测方法、设备及可读存储介质 |
CN114372114A (zh) * | 2021-11-18 | 2022-04-19 | 江苏商贸职业学院 | 一种基于矩阵分解模型的出行轨迹还原方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571122A (zh) * | 2014-11-25 | 2015-04-29 | 中国水产科学研究院东海水产研究所 | 一种基于轨迹聚类的船舶互助组救援有效性检验方法 |
CN106383868A (zh) * | 2016-09-05 | 2017-02-08 | 电子科技大学 | 一种基于道路网络的时空轨迹聚类方法 |
-
2019
- 2019-07-24 CN CN201910672777.5A patent/CN110399919A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571122A (zh) * | 2014-11-25 | 2015-04-29 | 中国水产科学研究院东海水产研究所 | 一种基于轨迹聚类的船舶互助组救援有效性检验方法 |
CN106383868A (zh) * | 2016-09-05 | 2017-02-08 | 电子科技大学 | 一种基于道路网络的时空轨迹聚类方法 |
Non-Patent Citations (1)
Title |
---|
MINGXIAO LI等: "Reconstruction of human movement trajectories from large-scale low-frequency mobile phone data", 《COMPUTERS, ENVIRONMENT AND URBAN SYSTEMS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477339A (zh) * | 2020-04-13 | 2020-07-31 | 深圳前海微众银行股份有限公司 | 传染病接触情况检测方法、设备及可读存储介质 |
CN114372114A (zh) * | 2021-11-18 | 2022-04-19 | 江苏商贸职业学院 | 一种基于矩阵分解模型的出行轨迹还原方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Beyond residential segregation: A spatiotemporal approach to examining multi-contextual segregation | |
Ma et al. | Analyzing driving factors of land values in urban scale based on big data and non-linear machine learning techniques | |
Zhong et al. | Inferring building functions from a probabilistic model using public transportation data | |
CN105493109B (zh) | 使用多个数据源的空气质量推断 | |
CN110264709A (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
CN102799897B (zh) | 基于gps定位的交通方式组合出行的计算机识别方法 | |
Nguyen et al. | Reviewing trip purpose imputation in GPS-based travel surveys | |
CN110414732A (zh) | 一种出行未来轨迹预测方法、装置、储存介质及电子设备 | |
Feng et al. | Towards big data analytics and mining for UK traffic accident analysis, visualization & prediction | |
Chang et al. | Understanding user’s travel behavior and city region functions from station-free shared bike usage data | |
CN106931974A (zh) | 基于移动终端gps定位数据记录计算个人通勤距离的方法 | |
CN107656987A (zh) | 一种基于lda模型的地铁站点功能挖掘方法 | |
Sohrabi et al. | Dynamic bike sharing traffic prediction using spatiotemporal pattern detection | |
Fang et al. | Identifying activities and trips with GPS data | |
Smolak et al. | Population mobility modelling for mobility data simulation | |
Breyer et al. | Comparative analysis of travel patterns from cellular network data and an urban travel demand model | |
Yu et al. | Discovering spatiotemporal patterns and urban facilities determinants of cycling activities in Beijing | |
CN111242352A (zh) | 基于车辆轨迹的停等聚集效应预测方法 | |
CN110399919A (zh) | 一种人类出行稀疏轨迹数据插值重构方法 | |
CN113096785B (zh) | 一种疫情时期医疗资源分配方法 | |
Wang et al. | Exploring regional sustainable commuting patterns based on dockless bike-sharing data and POI data | |
Wang et al. | Relationship between urban road traffic characteristics and road grade based on a time series clustering model: a case study in Nanjing, China | |
CN111310340B (zh) | 基于人类移动的城市区域交互异常关系识别方法及设备 | |
Guo et al. | An algorithm for analyzing the city residents' activity information through mobile big data mining | |
CN115510056A (zh) | 一种利用手机信令数据进行宏观经济分析的数据处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191101 |