CN107622467B - 一种通勤出行模式提取方法及装置 - Google Patents

一种通勤出行模式提取方法及装置 Download PDF

Info

Publication number
CN107622467B
CN107622467B CN201710930309.4A CN201710930309A CN107622467B CN 107622467 B CN107622467 B CN 107622467B CN 201710930309 A CN201710930309 A CN 201710930309A CN 107622467 B CN107622467 B CN 107622467B
Authority
CN
China
Prior art keywords
commuting
card
card swiping
data
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710930309.4A
Other languages
English (en)
Other versions
CN107622467A (zh
Inventor
马晓磊
代壮
陈汐
刘剑锋
于海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710930309.4A priority Critical patent/CN107622467B/zh
Publication of CN107622467A publication Critical patent/CN107622467A/zh
Application granted granted Critical
Publication of CN107622467B publication Critical patent/CN107622467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

本发明实施例提供一种通勤出行模式提取方法及装置。所述方法包括在预设的时间阈值范围内获取公交系统的刷卡数据集和导航系统的行程数据集;根据预设的通勤时间阈值在所述刷卡数据集中提取出刷卡数据子集,在所述行程数据集中提取出行程数据子集;根据所述刷卡数据子集获取通勤站台,同时根据所述行程数据子集获取通勤区域;利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。本发明实施例通过分别根据预设的通勤标准对获取的刷卡数据和行程数据进行分析,再将得到的通勤站台和通勤区域结合,从而获得了更加准确,更加全面,更加可靠的通勤模式。

Description

一种通勤出行模式提取方法及装置
技术领域
本发明实施例涉及交通运输技术领域,尤其涉及一种通勤出行模式提取方法及装置。
背景技术
通勤出行是城市公共出行的重要组成部分,据调查,在城市早晚高峰期间,通勤出行人口占所有出行人群的60%-70%;毋庸置疑,通勤出行是城市早晚高峰拥堵的主要原因之一。为了满足大量通勤出行的需要,许多城市都采取了相应的政策,如开通通勤线路、在现有公交线路上加开通勤班车、实施起终点区域直达的定制公交、实施公交地铁接驳的微循环公交等。然而,如何开设新的通勤线路和定制公交线路,以及如何优化公交发车频率以满足通勤需求一直都是公交运营面临的重要难题。
在此背景下,理解城市通勤出行模式,特别是识别通勤乘客起终点OD以及起终点分布就显得尤为重要。理解乘客通勤出行模式是城市公交运营管理和优化的基础性工作,其将为公交运力配置、现有公交站台设置、定制公交线路布设、公交发车频率优化和公交人员排班优化等城市公共交通管理和优化工作提供重要支撑作用。
近年来,一些大城市的公交集团已经开始关注通勤出行,其主要通过公交IC卡的刷卡数据进行统计分析,但是这存在两个主要的缺点:一方面,由于许多城市的IC卡刷卡是上车刷卡制,所得IC卡数据只包含上车站台数据,没有乘客的下车站台信息,乘客的下车站台需要算法进行推断使得现有通勤模式识别方法效率不高,且不够准确。
发明内容
本发明实施例提供一种通勤出行模式提取方法及装置,用以实现通勤出行模式的准确提取。
第一方面,本发明实施例提供了一种通勤出行模式提取方法,包括:
步骤S01、在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
步骤S02、根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
步骤S04、利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
步骤S05、统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
第二方面,本发明实施例提供了一种通勤出行模式提取装置,包括:
获取单元,用于在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
筛选单元,用于根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
处理单元,用于根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
聚类单元,用于利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
统计单元,用于统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
步骤S01、在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
步骤S02、根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
步骤S04、利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
步骤S05、统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
第四方面,本发明实施例还提供了一种计算机程序,包括程序代码,所述程序代码用于执行如下操作:
所述处理器用于调用所述存储器中的逻辑指令,以执行如下方法:
步骤S01、在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
步骤S02、根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
步骤S04、利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
步骤S05、统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
第五方面,本发明实施例还提供了一种存储介质,用于存储如前所述的计算机程序。
本发明实施例提供的通勤出行模式提取方法及装置,通过分别根据预设的通勤标准对获取的刷卡数据和行程数据进行分析,再将得到的通勤站台和通勤区域结合,从而获得了更加准确,更加全面,更加可靠的通勤模式。
附图说明
图1为本发明实施例的通勤出行模式提取方法流程图;
图2为本发明实施例的聚类算法示意图;
图3为本发明实施例的通勤出行模式提取装置结构示意图;
图4为本发明实施例的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的通勤出行模式提取方法流程图,如图1所示,所述方法包括:
步骤S01、在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
随着互联网信息高速公路的快速发展,已经有大量的乘客通过移动端的导航应用进行地点搜索和出行规划,因此,通勤模式识别除了传统的公交系统的IC卡数据外还需要考虑新型的数据来源,以作为IC卡刷卡数据的有效补充。
在本实施例中先是预设一个时间阈值范围,例如2017年8月份的一个月时间内,具体的时长和时间段都可以根据实际的需要来设定。分别从公交系统中获取到在所述时间阈值范围内所有IC卡的刷卡数据,组成刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台。另外还从导航系统,例如高德导航,中获取到在所述时间阈值范围内所有的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域。
步骤S02、根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
由于本发明主要关注于对通勤时段的出行模式的识别,所以需要对上述获取到的数据进行一次筛选。根据预设的通勤时间阈值来对所述刷卡数据集中的刷卡时间和所述行程数据集中的规划时间进行筛选,其中所述通勤时间阈值根据通行行业标准,对通勤时间阈值进行设定,例如上午6:00-10:00,分别提取出与每张卡号相对应的刷卡数据以组成刷卡数据子集和与每个用户ID相对应的行程数据以组成行程数据子集。此时的刷卡数据子集中就只包含了所述卡号在8月份内每天上午6:00-10:00的刷卡信息,而行程数据子集中只包含了所述用户ID在8月份每天上午6:00-10:00规划的导航信息。
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
对于行业的通勤标准,除上所述通勤时间阈值外,还包括通勤频次阈值的设定,例如8次/月或者2次/周,也就是只有在固定时间范围内的固定的出行模式才被认定为通勤行为。所以还需要对上述刷卡数据子集和行程数据子集进行下一步的选择。
在所述刷卡数据子集中根据公交站台的不同,统计每个公交站台的刷卡次数,例如A公交站台10次,B公交站台8次,C公交站台2次,按8次/月的通勤频次阈值的标准,A公交站台和B公交站台都满足条件,但在本实施中,只选择刷卡次数最多的那个公交站台,也就是将A公交站台作为所述卡号的通勤站台。而如果B公交站台的刷卡次数与A公交站台同为10次,则可以随意选择一个作为所述卡号的通勤站台。当然具体如何来进行选择,或者选择多少个,只要在满足所述通勤频次阈值的条件下,可以根据实际的需要来进行设定,在此不作限定。为了表述方便在下面的实施例中都只以选择一个通勤站台为例来进行说明。但是如果没有一个公交站台达到所述通勤频次阈值的要求,则所述卡号不存在通勤站台。
而在所述行程数据子集中根据起点区域的不同,统计每个起点区域的被规划次数,例如a起点区域10次,b起点区域8次,c起点区域2次。与上述选择通勤站台的方式相同,同样在满足所述通勤频次阈值的条件下,将被规划次数最多的a起点区域选为所述用户ID的通勤区域。如果没有一个起点区域达到所述通勤频次阈值的要求,则所述用户ID不存在通勤区域。
在对每个卡号的刷卡数据子集和每个用户ID的行程数据子集完成上述分析后,将所有卡号的通勤站台和所有用户ID的通勤区域进行统计,并记录下每个通勤站台相对应的卡号数量记为所述通勤站台的通勤量和每个通勤区域相对应的用户ID数量记为所述通勤区域的通勤量。
步骤S04、利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
获取每个通勤站台和每个通勤区域的经纬度点,然后利用聚类算法,将经纬度点相互接近的通勤站台和通勤区域划归为一个通勤类,从而在地图上得到了多个与通勤类相对应的区域。
步骤S05、统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
将归为一个通勤类的所有通勤站台和通勤区域的通勤量,也就是该通勤类相对应的卡号和用户ID的数量进行统计,从而得到了每个通勤类的总通勤量,至此就可以在地图上根据每个通勤类相对应区域的总通勤量得到通勤热点分布图。
本发明实施例通过分别根据预设的通勤标准对获取的刷卡数据和行程数据进行分析,再将得到的通勤站台和通勤区域结合,从而获得了更加准确,更加全面,更加可靠的通勤模式。
图2为本发明实施例的聚类算法示意图,如图2所示,所述聚类算法为DBscan算法,相应地,利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类,具体为:
步骤S21、获取所有通勤站台和所有通勤区域中心的经纬度点,并组成聚类点集;
步骤S22、在所述聚类点集中随机选取一个经纬度点,以预设的聚类半径画圈,从所述聚类点集中提取出圈内的经纬度点归为一个通勤类,若所述聚类点集不为空,则继续执行所述步骤S22,直到所述聚类点集为空;
步骤S23、剔除所对应的经纬度点数量不满足预设聚类点数阈值的通勤类。
在上述实施例中采用聚类算法来划分通勤类中,所述的聚类算法可以有很多种具体的实行方式,在此不会具体的限定,在本实施例中也只是其中的一种举例说明。
在传统的聚类算法中由于没有设定一个聚类半径,所以可能会因为各个聚类点相对均比较接收,从而导致聚类成片,根本无法合理划分成多个聚类点。本实施例采用的是预设了聚类半径的Density-Based Spatial Clustering of Applications with Noise(DBscan)算法。
首先在地图上获取上述方法得到的所有通勤站点和通勤区域的中心点的经纬度点,并将这些经纬度点组合成聚类点集。然后在所述聚类点集中随机选择一个经纬度点为圆心,在地图上以所述聚类半径,例如100m,画圈,然后将在圈内的经纬度点定义为该圆心的邻居点。将如果所述邻居点的数量大于预设的聚类点数阈值,则从聚类点集中提取出圈内的所有经纬度点,并标识为一个通勤类。而如果所述邻居点的数量小于预设的聚类点数阈值,则直接标识为噪声类,不计入之后的得到的通勤热点分布图考虑范围内。在所述聚类点集剩下的经纬度点中再次选择一个经纬度点为圆心重复上述过程,直到所有的经纬度点都标注有相对应的通勤类或者噪声类。
本发明实施例采用了有预设聚类半径的DBscan算法来将所述通勤站台和通勤区域划分成通勤类,从而能够更加合理且准确得识别通勤模式。
基于上述实施例,进一步地,所述在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,具体为:
在所述时间阈值范围内获取公交系统的公交信息,其中所述公交信息包括IC卡数据集和公交GPS数据,其中每条IC卡数据包括所述卡号、所述刷卡时间、线路号和车辆编号,所述公交GPS数据包括所述车辆编号相对应的公交车的GPS信息;
根据所述IC卡数据和所述公交车的GPS信息,再结合预存的公交站台静态数据,可以得到与每条IC卡数据相对应的公交站台;
将所述IC卡数据和对应的公交站台组合得到所述刷卡数据,所述刷卡数据至少包括所述卡号、所述刷卡时间和所述公交站台。
要获取的公交系统的刷卡数据集,先要从公交系统中根据预设的时间阈值范围获取公交系统的公交信息,其中所述公交信息主要包括IC卡数据集和公交CPS数据集,每条IC卡数据包括卡号、刷卡时间、线路号和车辆编号,如下表所示:
Figure BDA0001428572520000081
Figure BDA0001428572520000091
而所述公交GPS数据则包括所有车辆的GPS信息。其中所述GPS信息至少包括车辆编号、时间和站台编号。如下表所示:
车辆编号 时间 经度 纬度 速度 站台编号
21119006 2016-11-07 7:09:04 104.1784 30.64912 0 42357
21119006 2016-11-07 7:09:14 104.1784 30.64912 0 42357
21119006 2016-11-07 7:09:25 104.1784 30.64912 0 42357
21119006 2016-11-07 7:09:43 104.1784 30.64887 15.264 42357
21119006 2016-11-07 7:09:46 104.1779 30.6488 0 40158
21119006 2016-11-07 7:09:56 104.1778 30.64874 0 40158
21119006 2016-11-07 7:10:06 104.1778 30.64874 0 40158
21119006 2016-11-07 7:10:16 104.1778 30.64874 0 40158
21119006 2016-11-07 7:10:26 104.1778 30.64874 0 40158
21119006 2016-11-07 7:10:36 104.1777 30.64871 0 40158
21119006 2016-11-07 7:10:56 104.1769 30.64818 0 40158
通过将所述刷卡和GPS信息中的时间进行比对,可以得到与IC卡数据相对应的站台编号。然后再通过站台编号和线路号在预存的公交站台静态数据中查找到与所述IC卡数据相对应的公交站台。将所述IC卡数据和所述公交站台组合,从而可以得到所述刷卡数据,其中所述刷卡数据至少包括所述卡号、所述刷卡时间和所述公交站台。如下表所示:
Figure BDA0001428572520000092
Figure BDA0001428572520000101
上述查找,比对的对程也会根据实际得到的信息量的不同,而不同,具体要根据实际需要来进行设定。
本发明实施例中,通过对公交系统的公交信息的分析,得到所述公交系统的刷卡数据,进而能够更加准确得识别通勤模式。
基于上述实施例,进一步地,所述同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域,具体为:
获取导航系统的导航信息集,其中每条导航信息包括所述用户ID、所述规划时间和起点;
将所述导航信息中的起点的经纬度与预存的AOI区域信息进行比对,获取与所述起点相对应的所述起点区域;
将所述导航信息和对应的起点区域组合得到所述行程数据,所述行程数据至少包括所述用户ID、所述规划时间和所述起点区域。
要获取导航系统的行程数据集,需要先在预设时间阈值范围内从导航系统中获导航信息集,其中所述导航信息至少包括用户ID、所述规划时间和起点。
进一步地,所述导航信息包括规划数据和导航数据。
在导航信息中主要有两类,一类是规划数据,也就是用户仅仅利用导航系统进行了一下路径规划和路径预测,另一类就是导航数据,也就是用户不仅规划了路线还利用导航系统对路线进行了导航服务。虽然两种导航信息采集的数据有一定的差距,但是由于在本发明的实际应用中,并没有太多的差别,所以为了表述方便,在下面的实施例中都不加以区分。
将所述导航信息的起点经纬度点投影到信息面(Area of Interest,AOI)上,其中所述AOI即为根据地图将根据不同的建筑特性进行区域划分,例如小区、餐厅、商业区、工作区等。这是由于导航系统在自动检测起点时不会每次都精确定位,所以需要将所述起点和预存的每个AOI区域进行对比,如果所述起点落在一个AOI区域内,则该AOI区域就为所述起点的起点区域,从而能够更加合理得对导航信息进行分析,而如果所述起点没有落在任何一个AOI区域内,则将与该起点相对应的导航信息删除,不计入下面的统计分析中。然后将所述导航信息和与该导航信息中的起点相对应的起点区域相组合,从而得到所述行程数据,所述行程数据至少包括所述用户ID、所述规划时间和所述起点区域。
本发明实施例,通过对导航系统的导航信息的分析,并得到了与起点相对应的起点区域,从而获取行程数据,进而能够更加准确、合理得识别通勤模式。
基于上述实施例,进一步地,所述通勤时间阈值为早高峰时间阈值或晚高峰时间阈值,相应地,所述通勤热点分布图,分别具体为:早高峰通勤热点分布图或晚高峰通勤热点分布图。
在对于通勤时间阈值的设定时,根据通勤标准可知,所述通勤时间阈值可分为两个一个是早高峰时间阈值,例如6:00-10:00,另一个是晚高峰时间阈值,例如16:00-20:00。其中可以认为在早高峰时间阈值中,人们的通勤规律是居住地赶往工作地,而晚高峰时间阈值中,人们的通勤规律则是由工作地赶往居住地。
所以通过分别将早高峰时间阈值设为通勤时间阈值,最终得到的通勤热点分布图,即为早高峰通勤热点分布图,也是居住地热点分布图。而将晚高峰时间阈值设为通勤时间阈值,最终得到的通勤热点分布图,即为晚高峰热点分布图,也是工作地热点分布图。
本发明实施例,通过将通勤时间阈值设为早高峰时间阈值和晚高峰时间阈值,可以得到早高峰通勤热点分布图和晚高峰通勤热点分布图,从而能够更加全面、合理得识别通勤模式。
基于上述实施例,进一步地,所述行程数据还包括终点区域,相应地,所述步骤S03-S04,具体为:
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的第一通勤区域和第二通勤区域,其中所述第一通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域,所述第二通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的终点区域;
步骤S04、利用聚类算法将所有的通勤站台、第一通勤区域和第二通勤区域划归不同的通勤类。
在获取的导航信息集中,无论是规划数据还导航数据都会包括有终点,同样可以将终点通过对AOI区域的映射得到与终点相对应的终点区域,此时得到的行程数据就会包括用户ID、规划时间、起点区域和终点区域。分别统计每个用户ID满足通勤标准的被规划次数最多的起点区域和终点区域为第一通勤区域和第二通勤区域。从而在接下来的聚类算法中将通勤站台、第一通勤区域和第二通勤区域纳入对于通勤类的划分中。
本发明实施例,能过将终点区域加入到行程数据中,从而能够更加准确、更加合理得识别通勤模式。
图3为本发明实施例的通勤出行模式提取装置结构示意图,如图3所示,所述装置包括获取单元10、筛选单元11、处理单元12、聚类单元13和统计单元14,其中,
所述获取单元10用于在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;所述筛选单元11用于根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;所述处理单元12用于根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;所述聚类单元13用于利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;所述统计单元14,用于统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
在本实施例中所述获取单元10先是预设一个时间阈值范围,例如2017年8月份的一个月时间内。分别从公交系统中获取到在所述时间阈值范围内所有IC卡的刷卡数据,组成刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台。另外还从导航系统中获取到在所述时间阈值范围内所有的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域。并将所述刷卡数据集和所述行程数据集发送给筛选单元11。
所述筛选单元11根据预设的通勤时间阈值来对所述刷卡数据集中的刷卡时间和所述行程数据集中的规划时间进行筛选,其中所述通勤时间阈值根据通行行业标准,对通勤时间阈值进行设定,例如上午6:00-10:00,分别提取出与每张卡号相对应的刷卡数据以组成刷卡数据子集和与每个用户ID相对应的行程数据以组成行程数据子集。并将所述刷卡数据子集和行程数据子集发送给所述处理单元12。
对于行业的通勤标准,除上所述通勤时间阈值外,还包括通勤频次阈值的设定,例如8次/月或者2次/周,也就是只有在固定时间范围内的固定的出行模式才被认定为通勤行为。所以还需要对上述刷卡数据子集和行程数据子集进行下一步的选择。
所述处理单元12在所述刷卡数据子集中根据公交站台的不同,统计每个公交站台的刷卡次数,例如A公交站台10次,B公交站台8次,C公交站台2次,按8次/月的通勤频次阈值的标准,A公交站台和B公交站台都满足条件,但在本实施中,只选择刷卡次数最多的那个公交站台,也就是将A公交站台作为所述卡号的通勤站台。而如果B公交站台的刷卡次数与A公交站台同为10次,则可以随意选择一个作为所述卡号的通勤站台。但是如果没有一个公交站台达到所述通勤频次阈值的要求,则所述卡号不存在通勤站台。
而所述处理单元12在所述行程数据子集中根据起点区域的不同,统计每个起点区域的被规划次数,例如a起点区域10次,b起点区域8次,c起点区域2次。与上述选择通勤站台的方式相同,同样在满足所述通勤频次阈值的条件下,将被规划次数最多的a起点区域选为所述用户ID的通勤区域。如果没有一个起点区域达到所述通勤频次阈值的要求,则所述用户ID不存在通勤区域。所述处理单元将获取的所有通勤站台和所有的通勤区域发送给聚类单元13。
在对每个卡号的刷卡数据子集和每个用户ID的行程数据子集完成上述分析后,将所有卡号的通勤站台和所有用户ID的通勤区域进行统计,并记录下每个通勤站台相对应的卡号数量记为所述通勤站台的通勤量和每个通勤区域相对应的用户ID数量记为所述通勤区域的通勤量。并将所有的通勤量发送给统计单元14。
所述聚类单元13,获取每个通勤站台和每个通勤区域的经纬度点,然后利用聚类算法,将经纬度点相互接近的通勤站台和通勤区域划归为一个通勤类,从而在地图上得到了多个与通勤类相对应的区域。并将每个通勤站台和通勤区域的通勤类发送给统计单元14。
所述统计单元14将归为一个通勤类的所有通勤站台和通勤区域的通勤量,也就是该通勤类相对应的卡号和用户ID的数量进行统计,从而得到了每个通勤类的总通勤量,至此就可以在地图上根据每个通勤类相对应区域的总通勤量得到通勤热点分布图。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过分别根据预设的通勤标准对获取的刷卡数据和行程数据进行分析,再将得到的通勤站台和通勤区域结合,从而获得了更加准确,更加全面,更加可靠的通勤模式。
图4是示出本发明实施例的电子设备结构示意图。如图4所示,所述电子设备,包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601和所述存储器602通过所述总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的显示装置的测试设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种通勤出行模式提取方法,其特征在于,包括:
步骤S01、在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
步骤S02、根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
步骤S04、利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
步骤S05、统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图;
所述在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,具体为:
在所述时间阈值范围内获取公交系统的公交信息,其中所述公交信息包括IC卡数据集和公交GPS数据,其中每条IC卡数据包括所述卡号、所述刷卡时间、线路号和车辆编号,所述公交GPS数据包括所述车辆编号相对应的公交车的GPS信息;
根据所述IC卡数据和所述公交车的GPS信息,再结合预存的公交站台静态数据,可以得到与每条IC卡数据相对应的公交站台;
将所述IC卡数据和对应的公交站台组合得到所述刷卡数据,所述刷卡数据至少包括所述卡号、所述刷卡时间和所述公交站台。
2.根据权利要求1所述的方法,其特征在于,所述聚类算法为DBscan算法,相应地,利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类,具体为:
步骤S21、获取所有通勤站台和所有通勤区域中心的经纬度点,并组成聚类点集;
步骤S22、在所述聚类点集中随机选取一个经纬度点,以预设的聚类半径画圈,从所述聚类点集中提取出圈内的经纬度点归为一个通勤类,若所述聚类点集不为空,则继续执行所述步骤S22,直到所述聚类点集为空;
步骤S23、剔除所对应的经纬度点数量不满足预设聚类点数阈值的通勤类。
3.根据权利要求1所述的方法,其特征在于,所述同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域,具体为:
获取导航系统的导航信息集,其中每条导航信息包括所述用户ID、所述规划时间和起点;
将所述导航信息的起点的经纬度与预存的AOI区域信息进行比对,获取与所述起点相对应的所述起点区域;
将所述导航信息和对应的起点区域组合得到所述行程数据,所述行程数据至少包括所述用户ID、所述规划时间和所述起点区域。
4.根据权利要求1所述的方法,其特征在于,所述通勤时间阈值为早高峰时间阈值或晚高峰时间阈值,相应地,所述通勤热点分布图,分别具体为:早高峰通勤热点分布图或晚高峰通勤热点分布图。
5.根据权利要求3所述的方法,其特征在于,所述导航信息包括规划数据和导航数据。
6.根据权利要求1所述的方法,其特征在于,所述行程数据还包括终点区域,相应地,所述步骤S03-S04,具体为:
步骤S03、根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的第一通勤区域和第二通勤区域,其中所述第一通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域,所述第二通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的终点区域;
步骤S04、利用聚类算法将所有的通勤站台、第一通勤区域和第二通勤区域划归不同的通勤类。
7.一种通勤出行模式提取装置,其特征在于,包括:
获取单元,用于在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,同时获取导航系统的行程数据集,其中每条行程数据至少包括用户ID、规划时间和起点区域;
筛选单元,用于根据预设的通勤时间阈值在所述刷卡数据集中提取出与所述卡号相对应的刷卡数据子集,在所述行程数据集中提取出与所述用户ID相对应的行程数据子集,其中所述刷卡数据子集中的刷卡时间和所述行程数据子集中的规划时间满足所述通勤时间阈值;
处理单元,用于根据所述刷卡数据子集获取与所述卡号相对应的通勤站台,其中所述通勤站台为刷卡次数满足预设的通勤频次阈值且所述刷卡次数最多的公交站台,同时根据所述行程数据子集获取与所述用户ID相对应的通勤区域,其中所述通勤区域为规划次数满足所述通勤频次阈值且所述规划次数最多的起点区域;
聚类单元,用于利用聚类算法将所有的通勤站台和通勤区域划归不同的通勤类;
统计单元,用于统计与每个通勤类相对应的卡号和用户ID的数量,以得到通勤热点分布图;
所述在预设的时间阈值范围内获取公交系统的刷卡数据集,其中每条刷卡数据至少包括卡号、刷卡时间和公交站台,具体为:
在所述时间阈值范围内获取公交系统的公交信息,其中所述公交信息包括IC卡数据集和公交GPS数据,其中每条IC卡数据包括所述卡号、所述刷卡时间、线路号和车辆编号,所述公交GPS数据包括所述车辆编号相对应的公交车的GPS信息;
根据所述IC卡数据和所述公交车的GPS信息,再结合预存的公交站台静态数据,可以得到与每条IC卡数据相对应的公交站台;
将所述IC卡数据和对应的公交站台组合得到所述刷卡数据,所述刷卡数据至少包括所述卡号、所述刷卡时间和所述公交站台。
8.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一所述的方法。
CN201710930309.4A 2017-10-09 2017-10-09 一种通勤出行模式提取方法及装置 Active CN107622467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710930309.4A CN107622467B (zh) 2017-10-09 2017-10-09 一种通勤出行模式提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710930309.4A CN107622467B (zh) 2017-10-09 2017-10-09 一种通勤出行模式提取方法及装置

Publications (2)

Publication Number Publication Date
CN107622467A CN107622467A (zh) 2018-01-23
CN107622467B true CN107622467B (zh) 2020-12-22

Family

ID=61091684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710930309.4A Active CN107622467B (zh) 2017-10-09 2017-10-09 一种通勤出行模式提取方法及装置

Country Status (1)

Country Link
CN (1) CN107622467B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492608A (zh) * 2018-03-12 2018-09-04 北京航空航天大学 一种基于云模型的公交车客流量的分析方法及系统
CN110751831B (zh) * 2019-10-10 2021-01-22 珠海市岭南大数据研究院 出行方式识别方法、装置、计算机设备和存储介质
CN116862097B (zh) * 2023-06-08 2024-05-31 深圳市蕾奥规划设计咨询股份有限公司 一种信息确定方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206048A (zh) * 2015-11-05 2015-12-30 北京航空航天大学 一种基于交通od数据的城市居民群体换乘模式发现系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102097002B (zh) * 2010-11-22 2013-09-18 东南大学 一种基于ic卡数据获取公交站点od的方法及系统
KR101933522B1 (ko) * 2016-02-29 2018-12-31 주식회사 씨엘 셔틀버스 도착예정안내 및 노선 최적화 방법
CN106781467B (zh) * 2016-12-07 2019-05-14 华南理工大学 一种基于协同过滤的公交乘客刷卡站点信息提取方法
CN106844624A (zh) * 2017-01-20 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种可视化的公交大数据分析系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206048A (zh) * 2015-11-05 2015-12-30 北京航空航天大学 一种基于交通od数据的城市居民群体换乘模式发现系统及方法

Also Published As

Publication number Publication date
CN107622467A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
Bachir et al. Inferring dynamic origin-destination flows by transport mode using mobile phone data
Xie et al. Analysis of traffic crashes involving pedestrians using big data: Investigation of contributing factors and identification of hotspots
CN107506864B (zh) 一种客运巴士路线规划方法和装置
CN104167092B (zh) 一种确定出租车上下客热点区域中心的方法以及装置
CN110472999B (zh) 基于地铁和共享单车数据的客流模式分析方法及装置
Qian et al. Characterizing urban dynamics using large scale taxicab data
CN107622467B (zh) 一种通勤出行模式提取方法及装置
CN106815796B (zh) 一种快速查找已办理登机牌没及时登机旅客的方法和系统
Holleczek et al. Detecting weak public transport connections from cellphone and public transport data
US20120218150A1 (en) Management server, population information calculation management server, non-populated area management method, and population information calculation method
CN108549976A (zh) 智慧旅游大数据分析方法
Chen et al. Extracting bus transit boarding stop information using smart card transaction data
CN113282637A (zh) 景区游客识别方法、装置、电子设备及存储介质
Mishalani et al. Use of mobile device wireless signals to determine transit route-level passenger origin–destination flows: Methodology and empirical evaluation
Zhou et al. Monitoring transit-served areas with smartcard data: A Brisbane case study
Kadir et al. Clustering of public transport operation using K-means
Yang et al. Detecting home and work locations from mobile phone cellular signaling data
CN113111271A (zh) 出行od数据扩样方法、装置、计算机设备及存储介质
CN106295868A (zh) 交通出行数据处理方法及装置
CN114820264A (zh) 公共交通工具换乘数据处理方法、装置、设备、存储介质
CN110555473A (zh) 行车线路规划方法、服务器及系统
CN112785865B (zh) 信息处理装置、记录介质以及信息处理方法
CN107644390B (zh) 一种取得轨道站台客流数据的方法及装置
CN117807556A (zh) 一种人群疏散交通方式识别方法、系统
Tian et al. Identifying residential and workplace locations from transit smart card data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant