CN107330088A - 一种基于gps轨迹数据的出行段识别方法 - Google Patents
一种基于gps轨迹数据的出行段识别方法 Download PDFInfo
- Publication number
- CN107330088A CN107330088A CN201710537466.9A CN201710537466A CN107330088A CN 107330088 A CN107330088 A CN 107330088A CN 201710537466 A CN201710537466 A CN 201710537466A CN 107330088 A CN107330088 A CN 107330088A
- Authority
- CN
- China
- Prior art keywords
- trip
- end points
- section
- cluster
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/38—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
- G01S19/39—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/42—Determining position
- G01S19/421—Determining position by combining or switching between position solutions or signals derived from different satellite radio beacon positioning systems; by combining or switching between position solutions or signals derived from different modes of operation in a single system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于GPS轨迹数据的出行段识别方法。主要包括数据清洗与预处理、识别出行端点并去除伪出行端点、合并出行段。该方法在综合基于规则法和聚类法优点的基础上,提出了数据清洗与预处理流程,有效剔除了出行端点识别与出行段合并中的噪声,算法简易、高效、识别结果精准、可靠。用轨迹点相邻区间的距离与时间差计算该点瞬时速度,运用速度对时间的积分来计算出行距离。适用于基于GPS轨迹数据的出行段识别,丰富GPS轨迹数据挖掘算法体系,为大规模基于智能手机的出行调查推广提供理论支撑。
Description
技术领域
本发明涉及计算机识别技术,尤其涉及一种基于GPS轨迹数据的出行段识别方法。
背景技术
传统居民出行调查一般采用面对面访谈、纸质问卷、邮件和电话等形式,这些方法需要受访者填写详细的出行特征,并且是在一天或者更长时间段内出行结束后进行回忆填写,受访者的负担较大,填写的数据存在较大误差。比如,1)出行者通常将出行时间近似为相近的5分钟、10分钟甚至15分钟等,也不提供实际的出行路径等信息;2)出行调查的漏报、误报比例较高,通常处于20%-30%之间,这些都限制了出行数据的精度。
近些年,随着智能手机的快速普及,GPS定位技术的发展完善,使得基于手机GPS轨迹数据的出行调查成为可能。
现有的基于GPS轨迹数据的出行段识别方法主要存在以下不足:
1)由于GPS信号可能存在误差,现有方法直接使用GPS记录数据中的速度值进行相关计算就会出现较大偏差;
2)缺乏完善的原始数据清洗与预处理方法,如信号漂移点的识别与去除;
3)在识别得到出行端点后,缺乏进一步的判定与去除伪端点的方法;
4)没有按照传统的出行定义去合并出行段。
因此,识别得到的出行段与真实的出行之间存在较大偏差,方法实用性不强。
发明内容
为解决上述技术问题,本发明的目的在于提供一种基于GPS轨迹数据的出行段识别方法。
本发明是通过以下技术方案实现的:主要包括数据清洗与预处理、识别出行端点并去除伪出行端点、合并出行段。该方法在综合基于规则法和聚类法优点的基础上,提出了数据清洗与预处理流程,有效剔除了出行端点识别与出行段合并中的噪声。用轨迹点相邻区间的距离与时间差计算该点瞬时速度,运用速度对时间的积分来计算出行距离。适用于基于GPS轨迹数据的出行段识别,丰富GPS轨迹数据挖掘算法体系,为大规模基于智能手机的出行调查推广提供理论支撑。
一种基于GPS轨迹数据的出行段识别方法,其特征在于:包括以下步骤:
第一步、数据清洗与预处理;
1)去除定位卫星数少于4颗的轨迹点;
2)去除海拔高度大于当地最高海拔的轨迹点;
3)信号漂移点识别与剔除:该点与之前5个点的中心距离超过200米,同时与之后5个点的中心距离超过200米;
4)去除瞬时速度超过地面交通工具最大速度的轨迹点;
第二步、识别出行端点并去除伪端点;
根据GPS信号记录情况分两种情形识别出行端点,
1)GPS信号正常记录:出行端点处的轨迹点有点聚集的特征,用K均值聚类法识别此类端点;还有一种端点发生在短暂的接送人情形下,通过计算轨迹点的方向变化以及路段重复长度识别,方向发生180度的改变,且重复路段长度超过50米,即识别为接送人的出行端点;
2)GPS信号缺失:缺失段时间差超过2分钟,且缺失段平均速度(缺失段长度与时间差的比值)小于步行速度最小值0.5m/s,即识别为出行端点;
第三步、合并出行段;
第二步得到的出行端点即活动发生点,去除活动范围小于50米的出行端点,得到所有的出行端点,合并各出行端点之间的出行段。
进一步的,第二步所述的K均值聚类法识别可能的出行端点,定义一个簇并给定簇内最少的点数m=5个和聚类半径d=10米,判断该簇中位点和簇外下一点之间的距离,如果小于d/2,则将该点加入簇中,否则结束该簇,直到所有的点都被遍历到,最终建立的各簇即为可能的出行端点,每一个簇的时间差至少为2分钟,否则作为伪端点并去除。
进一步的,第三步所述的出行段,各出行段需满足:出行段长度大于400米,出行时间超过5分钟,否则该出行段并入上一出行段。
相比现有技术,本发明具有如下有益效果:
本发明有效剔除了出行端点识别与出行段合并中的噪声,算法简易、高效、识别结果精准、可靠。本发明可以丰富GPS轨迹数据挖掘算法体系,为大规模基于智能手机的出行调查推广提供理论支撑。
附图说明
图1一种基于GPS轨迹数据的出行段识别流程图
图2信号漂移点识别与删除
图3轨迹点速度计算示意图
图4出行段距离计算
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程。
一、数据清洗与预处理
采集的GPS轨迹数据一般包括:用户编号、定位时间、经度、纬度、海拔、速度、方向和定位卫星数。
根据用户编号,GPS数据按照时间顺序分配到每个人每天的出行。
根据以下规则进行数据清洗与预处理:
1、去除定位卫星数少于4颗的轨迹点;
2、去除海拔高度大于200米(上海地区)的轨迹点;
3、信号漂移点识别与剔除:该点与之前5个点的中心距离超过200米,同时与之后5个点的中心距离超过200米;详细图例见图2。
4、去除瞬时速度超过150Km/h的轨迹点。
注:
1)轨迹点瞬时速度的计算:vi=(disi-1,i+disi,i+1)/(timei+1-timei-1)其中,disi-1,i表示第i-1个轨迹点与第i个轨迹点之间的距离,timei-1表示第i-1个轨迹点的时刻。详细图例见图3。
2)出行段距离计算:计算出行段距离时,与以往直接累加所有轨迹点间直线距离不同,本方法提出通过轨迹点速度对时间的积分得到出行距离:
如图4所示,速度折线与横轴围成的面积即是该段出行距离。
二、识别出行端点并去除伪端点
根据GPS信号记录情况分两种情形识别出行端点。在GPS信号记录正常时,出行端点处的轨迹点会有点聚集的特征,使用K均值聚类法识别此类端点;还有一种端点发生在短暂的接送人情形下,可以通过计算轨迹点的方向变化以及路段重复长度识别。
GPS信号正常记录:
1)运用K均值聚类法识别可能的出行端点。定义一个簇并给定簇内最少的点数m=5个和聚类半径d=10米,判断该簇中位点和簇外下一点之间的距离,如果小于d/2,则将该点加入簇中,否则结束该簇,直到所有的点都被遍历到,最终建立的各簇即为可能的出行端点。每一个簇的时间差至少为2分钟,否则作为伪端点并去除;
2)方向发生180度的改变,且重复路段长度超过50米,即识别为接送人的出行端点。
GPS信号缺失:缺失段时间差超过2分钟,且缺失段平均速度(缺失段长度与时间差的比值)小于步行速度最小值0.5m/s,即识别为出行端点。三、合并出行段
第二步得到的出行端点即活动发生点,去除活动范围小于50米的出行端点,得到所有的出行端点,合并各出行端点之间的出行段;
根据传统交通意义上出行的定义,各出行段须满足:出行段长度大于400米,出行时间超过5分钟,否则该出行段并入上一出行段。
实例验证:
实验共搜集到125名上海地区用户上传的有效GPS轨迹数据,包括841人·天的2793492个GPS轨迹点。其中,共有7.4%的无效GPS轨迹点在数据清洗和预处理中被剔除,识别的整体正确率达到98.08%,错误率仅为3.22%;共有89个出行段被合并。出行段属性方面,识别的平均出行时长比真实值少88秒(4.3%);对应地,平均出行距离比真实出行距离少336米(3.0%)。由此可见,利用本发明所述方法基于GPS轨迹数据可以实现出行段的精准识别。
表1
表2
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (3)
1.一种基于GPS轨迹数据的出行段识别方法,其特征在于:包括以下步骤:
第一步、数据清洗与预处理;
1)去除定位卫星数少于4颗的轨迹点;
2)去除海拔高度大于当地最高海拔的轨迹点;
3)信号漂移点识别与剔除:该点与之前5个点的中心距离超过200米,同时与之后5个点的中心距离超过200米;
4)去除瞬时速度超过地面交通工具最大速度的轨迹点;
第二步、识别出行端点并去除伪端点;
根据GPS信号记录情况分两种情形识别出行端点,
1)GPS信号正常记录:出行端点处的轨迹点有点聚集的特征,用K均值聚类法识别此类端点;还有一种端点发生在短暂的接送人情形下,通过计算轨迹点的方向变化以及路段重复长度识别,方向发生180度的改变,且重复路段长度超过50米,即识别为接送人的出行端点;
2)GPS信号缺失:缺失段时间差超过2分钟,且缺失段平均速度(缺失段长度与时间差的比值)小于步行速度最小值0.5m/s,即识别为出行端点;
第三步、合并出行段;
第二步得到的出行端点即活动发生点,去除活动范围小于50米的出行端点,得到所有的出行端点,合并各出行端点之间的出行段。
2.根据权利要求1所述的一种基于GPS轨迹数据的出行段识别方法,其特征在于,第二步所述的K均值聚类法识别可能的出行端点,定义一个簇并给定簇内最少的点数m=5个和聚类半径d=10米,判断该簇中位点和簇外下一点之间的距离,如果小于d/2,则将该点加入簇中,否则结束该簇,直到所有的点都被遍历到,最终建立的各簇即为可能的出行端点,每一个簇的时间差至少为2分钟,否则作为伪端点并去除。
3.根据权利要求1所述的一种基于GPS轨迹数据的出行段识别方法,其特征在于,第三步所述的出行段,各出行段需满足:出行段长度大于400米,出行时间超过5分钟,否则该出行段并入上一出行段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710537466.9A CN107330088A (zh) | 2017-07-04 | 2017-07-04 | 一种基于gps轨迹数据的出行段识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710537466.9A CN107330088A (zh) | 2017-07-04 | 2017-07-04 | 一种基于gps轨迹数据的出行段识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107330088A true CN107330088A (zh) | 2017-11-07 |
Family
ID=60197882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710537466.9A Pending CN107330088A (zh) | 2017-07-04 | 2017-07-04 | 一种基于gps轨迹数据的出行段识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330088A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034181A (zh) * | 2018-06-05 | 2018-12-18 | 广州杰赛科技股份有限公司 | 移动轨迹的分类方法和装置、设备、存储介质 |
CN109581445A (zh) * | 2018-11-01 | 2019-04-05 | 北京航空航天大学 | 一种基于北斗星座的araim子集选择方法及系统 |
CN109633716A (zh) * | 2018-12-10 | 2019-04-16 | 东南大学 | 基于gps的城市配送车辆出行链及其特征识别方法与设备 |
CN110337067A (zh) * | 2019-07-25 | 2019-10-15 | 深圳市口袋网络科技有限公司 | 一种运动轨迹生成方法、装置及相关组件 |
CN110826758A (zh) * | 2018-08-14 | 2020-02-21 | 上海能链众合科技有限公司 | 行程类型确定方法及装置、存储介质、终端 |
CN111325993A (zh) * | 2019-04-24 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 通行速度确定方法、装置、电子设备及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1062513A (ja) * | 1996-08-26 | 1998-03-06 | Matsushita Electric Works Ltd | 観測記録装置 |
CN101673460A (zh) * | 2009-08-25 | 2010-03-17 | 北京世纪高通科技有限公司 | 一种交通信息的质量评价方法、装置及系统 |
CN101710449A (zh) * | 2009-12-04 | 2010-05-19 | 吉林大学 | 基于公交车gps数据的交通流运行状态识别方法 |
CN102708680A (zh) * | 2012-06-06 | 2012-10-03 | 北京交通大学 | 基于agps技术的交通出行方式识别方法 |
ES2525034T3 (es) * | 2011-11-30 | 2014-12-16 | Selex Es S.P.A. | Algoritmo antirreflejos de modo S para eliminar falsas derrotas debidas a respuestas reflejadas en sistemas de radar terrestre |
CN104318766A (zh) * | 2014-10-22 | 2015-01-28 | 北京建筑大学 | 一种公交gps轨迹数据的路网匹配方法 |
CN104751631A (zh) * | 2015-03-13 | 2015-07-01 | 同济大学 | 基于gps定位和模糊理论判断出行链交通方式的方法 |
-
2017
- 2017-07-04 CN CN201710537466.9A patent/CN107330088A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1062513A (ja) * | 1996-08-26 | 1998-03-06 | Matsushita Electric Works Ltd | 観測記録装置 |
CN101673460A (zh) * | 2009-08-25 | 2010-03-17 | 北京世纪高通科技有限公司 | 一种交通信息的质量评价方法、装置及系统 |
CN101710449A (zh) * | 2009-12-04 | 2010-05-19 | 吉林大学 | 基于公交车gps数据的交通流运行状态识别方法 |
ES2525034T3 (es) * | 2011-11-30 | 2014-12-16 | Selex Es S.P.A. | Algoritmo antirreflejos de modo S para eliminar falsas derrotas debidas a respuestas reflejadas en sistemas de radar terrestre |
CN102708680A (zh) * | 2012-06-06 | 2012-10-03 | 北京交通大学 | 基于agps技术的交通出行方式识别方法 |
CN104318766A (zh) * | 2014-10-22 | 2015-01-28 | 北京建筑大学 | 一种公交gps轨迹数据的路网匹配方法 |
CN104751631A (zh) * | 2015-03-13 | 2015-07-01 | 同济大学 | 基于gps定位和模糊理论判断出行链交通方式的方法 |
Non-Patent Citations (1)
Title |
---|
肖光年 等: "基于GPS定位数据的出行端点推断", 《吉林大学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034181A (zh) * | 2018-06-05 | 2018-12-18 | 广州杰赛科技股份有限公司 | 移动轨迹的分类方法和装置、设备、存储介质 |
CN110826758A (zh) * | 2018-08-14 | 2020-02-21 | 上海能链众合科技有限公司 | 行程类型确定方法及装置、存储介质、终端 |
CN110826758B (zh) * | 2018-08-14 | 2023-10-13 | 上海零数众合信息科技有限公司 | 行程类型确定方法及装置、存储介质、终端 |
CN109581445A (zh) * | 2018-11-01 | 2019-04-05 | 北京航空航天大学 | 一种基于北斗星座的araim子集选择方法及系统 |
CN109581445B (zh) * | 2018-11-01 | 2021-03-19 | 北京航空航天大学 | 一种基于北斗星座的araim子集选择方法及系统 |
CN109633716A (zh) * | 2018-12-10 | 2019-04-16 | 东南大学 | 基于gps的城市配送车辆出行链及其特征识别方法与设备 |
CN109633716B (zh) * | 2018-12-10 | 2020-10-27 | 东南大学 | 基于gps的城市配送车辆出行链及其特征识别方法与设备 |
CN111325993A (zh) * | 2019-04-24 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 通行速度确定方法、装置、电子设备及计算机存储介质 |
CN110337067A (zh) * | 2019-07-25 | 2019-10-15 | 深圳市口袋网络科技有限公司 | 一种运动轨迹生成方法、装置及相关组件 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330088A (zh) | 一种基于gps轨迹数据的出行段识别方法 | |
CN107241512B (zh) | 基于手机数据的城际交通出行方式判断方法和设备 | |
CN113032502B (zh) | 一种基于改进轨迹段dbscan聚类的船舶异常检测方法 | |
CN107563419B (zh) | 图像匹配和二维码相结合的列车定位方法 | |
CN110008872B (zh) | 一种结合车辆轨迹和遥感图像的路网提取方法 | |
CN107818412B (zh) | 一种基于MapReduce的大规模公交乘客OD并行计算方法 | |
CN105371857B (zh) | 一种基于公交车gnss时空轨迹数据建构路网拓扑的装置及方法 | |
CN102799897B (zh) | 基于gps定位的交通方式组合出行的计算机识别方法 | |
CN101270997B (zh) | 基于gps数据的浮动车动态实时交通信息处理方法 | |
Schüssler et al. | Identifying trips and activities and their characteristics from GPS raw data without further information | |
CN104573116B (zh) | 基于出租车gps数据挖掘的交通异常识别方法 | |
CN106568456B (zh) | 基于gps/北斗定位和云计算平台的不停车收费方法 | |
CN104778274A (zh) | 基于稀疏出租车gps数据的大范围城市路网旅行时间估计方法 | |
CN105096590B (zh) | 交通信息生成方法和交通信息生成设备 | |
CN109147323A (zh) | 一种用于公路客货运输指标统计的车辆gps数据处理方法 | |
CN104990551A (zh) | 一种基于轨迹提取的室内外联合导航方法与系统 | |
CN112511982B (zh) | 一种出行语义自动标注的地铁乘客轨迹实时追溯还原方法 | |
CN114446048B (zh) | 基于手机信令数据的轨道交通出行者全出行链分析方法 | |
CN109492071A (zh) | 一种铁路高精度地图数据处理方法及系统 | |
CN107330469A (zh) | 一种基于gps轨迹数据的出行方式识别方法 | |
CN114440900A (zh) | 改进的隐马尔科夫模型地图匹配方法及装置 | |
CN109031372A (zh) | 一种从卫星定位数据中自动提取行驶线路关键点的方法 | |
CN104537052A (zh) | 基于小波分析模极大值算法的交通出行换乘点识别方法 | |
CN107133236A (zh) | 地理位置轨迹优化的方法和装置 | |
CN113079463A (zh) | 一种基于手机信令数据的旅游景点游客出行活动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171107 |