CN114882693B - 一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 - Google Patents
一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 Download PDFInfo
- Publication number
- CN114882693B CN114882693B CN202210293083.2A CN202210293083A CN114882693B CN 114882693 B CN114882693 B CN 114882693B CN 202210293083 A CN202210293083 A CN 202210293083A CN 114882693 B CN114882693 B CN 114882693B
- Authority
- CN
- China
- Prior art keywords
- station
- passenger
- getting
- swiping
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000005065 mining Methods 0.000 title claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000007405 data analysis Methods 0.000 claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims description 23
- 230000001680 brushing effect Effects 0.000 claims description 5
- 230000003203 everyday effect Effects 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 abstract description 20
- 238000004364 calculation method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/123—Traffic control systems for road vehicles indicating the position of vehicles, e.g. scheduled vehicles; Managing passenger vehicles circulating according to a fixed timetable, e.g. buses, trains, trams
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Devices For Checking Fares Or Tickets At Control Points (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法,包括如下步骤:S1、构建公交数据分析数据库;S2、数据清洗:对步骤S1数据库中的刷卡记录进行清洗,剔除无效数据和异常数据;S3、乘客代刷卡记录识别与标记,并将所有标记为代刷记录的数据移入代刷数据库;S4、乘客上车站点匹配;S5、公交乘客下车站点预测。本发明方法考虑了乘客代刷行为、站点功能类型的识别以及对上车刷卡信息的深度综合利用,对于乘客下车站点的识别将更加的精细,可以提高某些类型乘客的下车站点识别成功率与准确率,得到的数据和建立的OD矩阵将更加合理。本发明识别过程简单,易于操作,且使用成本低,有着较好的实用性、准确性及可推广性。
Description
技术领域
本发明涉及城市交通数据技术领域,具体涉及一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法。
背景技术
随着社会经济发展,居民收入的提高,汽车的保有量也随之越来越大,加上各类用地需求增加,道路用地愈发紧张,较高的出行需求与车辆保有量和有限的道路通行能力带来了出行的拥堵问题。公共交通有着载量大、绿色环保、经济等优点,可以在一定程度上缓解出行供需不平衡导致的拥挤及其它问题。我国各大城市都已大力发展以公共交通为主的出行模式,发展智能公共交通,关键在于结合土地利用原则对公共交通线网的布置,运力分配,发车时刻表等的合理计划。公共交通系统的合理规划包括线路、运量、时刻表等都需要完备的乘客出行数据做支撑,而传统的居民出行人工调查法存在耗时、耗力、耗财等诸多缺陷,其数据的利用周期短,不能可持续获取和利用。在大数据的互联互通时代,我们可用的数据非常之多,如何把现有数据充分利用起来,以高效而准确并且可推广的方法来获得居民出行数据是非常有必要的。
现存的公共交通体系除地铁执行上下车刷卡外,其余方式一般不含下车刷卡,数据中的重要一环“下车点”缺失,现有发明虽已能部分解决该问题,但仍存在一些不足:
首先,现有方法通常是考虑出行的连续性,根据乘客多日的公交出行链进而推算乘客下车站点,这种方法虽然能够实现大部分公交出行的下车站点推断,但距离全样本的推算仍然有较大差距。
其次,推算方法大多数是从时间维度来考虑,并没有考虑到出行的时空二维性,考虑角度不全面,出行的本质其实是社会经济活动的衍生,所以站点的功能所属很大程度影响了乘客的下车位置,本专利就着重结合其站点空间性与功能性来做推算,旨在提升乘客下车站点推算的成功率和可靠性。
最后,传统方法是根据成功推算下车站点的公交出行进行OD汇集,并通过简单的倍数扩样实现全体样本的OD估计,而无法推算下车站点的公交出行实际上也包含了部分信息,例如上车站点、乘车线路、乘车时间。本发明尝试利用这些信息进一步提高乘客下车站点预测的准确性。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法,该方法融合并利用了公交系统中的多个数据源,在乘客连续多天的出行数据基础上,做出合理假设,分阶段性的层层递进推算预测乘客上车站点,匹配站点功能类型,对于首、末、非首末及代刷乘客的下车站点能够做到较好的推算,并获取OD矩阵,划分时段、断面根据不同站点上下车人数做OD扩算,以获得某市全时空的客流分布情况,为规划提供参考依据,解决了上述背景技术中提到的问题。
为实现上述目的,本发明提供如下技术方案:一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法,包括如下步骤:
S1、构建公交数据分析数据库;
S2、数据清洗:对步骤S1数据库中的刷卡记录进行清洗,剔除无效数据和异常数据;
S3、乘客代刷卡记录识别与标记,并将所有标记为代刷记录的数据移入代刷数据库;
S4、乘客上车站点匹配:根据乘客刷卡记录中的GPS设备编号和刷卡时间信息,结合公交车辆GPS轨迹数据以及公交站点位置数据推算乘客上车站点,并在乘客刷卡记录数据中添加上车站点信息和公交线路信息;
S5、公交乘客下车站点预测。
优选的,所述步骤S1中的数据库信息包括乘客刷卡记录、公交车辆GPS轨迹数据、公交站点位置数据和公交线路基本信息。
优选的,所述步骤S3的具体步骤包括:对经步骤S2清洗后的数据,按乘客刷卡时间进行升序排序;当同一个卡编号前后两次相邻刷卡时间间隔小于刷卡判别阈值TD时,则将其中后一次刷卡记录标记为代他人刷卡的记录;考虑一个卡编号在一次乘车行为中可能产生多条连续的代刷记录,对该卡编号在一次乘车行为中的首次刷卡记录以及多条代刷记录统一标记为该卡编号的第m次代刷行为,并假设同一次代刷行为中的刷卡记录起终站点相同;将所有标记为代刷记录的数据移入代刷数据库。
优选的,所述步骤S5中的公交乘客下车站点预测具体包括:
S51、基于乘客闭环出行假设的乘客下车站点预测;
S52、基于站点功能类型识别的乘客下车站点预测;
S53、代刷记录下车站点预测;
S54、利用上车信息和线路OD信息的随机下车站点预测。
优选的,所述步骤S51中基于乘客闭环出行假设的乘客下车站点预测是指:根据步骤S4得到的数据,针对其中个体乘客在一天中公交出行次数大于1次的刷卡记录,按照以下方法预测乘客下车站点,具体包括:
S51-1、针对个体乘客在当日出行链的非末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d,Bi,d表示该乘客在第d天中的第i次刷卡记录中的上车站点编号,确定当前公交线路下游方向站点集合S;核对该乘客当前出行的下一条刷卡记录上车站点编号Bi+1,d,
如果Bi+1,d∈S,则采用下一次出行起点记为该乘客当前出行刷卡记录的下车站点;
S51-2、针对个体乘客在当日出行链中的末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d,确定当前公交线路下游方向站点集合S;核对该乘客当日首次出行刷卡记录的上车站点标号B1,d,
如果B1,d∈S,则乘客当日首次出行起点站即为本次出行下车站点;
如果以上两种情况均未搜索到满足条件的有效下车站点,则以乘客次日首次出行起点B1,d+1替代当日首次出行起点B1,d,继续执行上述预测规则。
优选的,所述步骤S52中基于站点功能类型识别的乘客下车站点预测是指:根据步骤S4得到的数据建立个体乘客出行链,首先识别乘客的一般居住地和主要活动地点,再结合乘客上车时间匹配下车站点,具体识别与匹配方法如下:
根据乘客连续多天的出行链,统计其多日出行中每日首次出行且上车时间位于早高峰时段6:30-9:30之间的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的一般居住地;
统计乘客多日出行中每日上车时间位于晚高峰时段15:30-18:30之间首次出行的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的主要活动地;
对于步骤S51中未成功匹配下车站点的乘客刷卡记录,如果乘客上车时间位于早高峰时段,且该乘客的主要活动地点已被识别,判断主要活动地点是否属于该次上车公交线路下游方向站点集合S或距离站点集合S中最近的站点小于最大步行距离阈值Dm,如果满足条件则以主要活动地点作为该次刷卡记录的下车站点;如果乘客上车时间位于晚高峰时段,且该乘客的一般居住地已被识别,判断一般居住地是否属于该次上车公交线路下游方向站点集合S或距离站点集合S中最近的站点小于最大步行距离阈值Dm,如果满足条件则以一般居住地作为该次刷卡记录的下车站点。
优选的,所述步骤S53中代刷记录下车站点预测是指:搜索代刷数据库中代刷记录对应的原始刷卡记录,若其在步骤S51、步骤S52中已匹配下车站点,则以该下车站点预测结果作为代刷记录的下车站点。
优选的,所述步骤S54中利用上车信息和线路OD信息的随机下车站点预测是指:根据步骤步骤S51、步骤S52、步骤S53中成功匹配下车站点的乘客刷卡记录,按照乘客上车时间分时段统计线路OD矩阵,对仍未成功匹配下车站点的乘客刷卡记录,依据所乘车线路的OD矩阵,采用多项式概率分布随机生成乘客下车站点。
优选的,所述对仍未成功匹配下车站点的乘客刷卡记录,依据所乘车线路的OD矩阵,采用多项式概率分布随机生成乘客下车站点,具体如下:
本发明的有益效果是:
1)本发明方法考虑了乘客代刷行为、站点功能类型的识别以及对上车刷卡信息的深度利用,对于乘客的识别将更加的精细可以提高某些类型乘客的下车站点识别成功率与准确率,得到的数据和建立的OD矩阵将更加合理。本发明识别过程简单,易于操作,且使用成本低,有着较好的实用性、准确性及可推广性。对于多元数据的融合,大数据的处理,快速得到城市全时空客流分布对推动公共交通的使用、政府政策的制定和社会服务方面发挥着重要的作用;
2)本发明方法融合并利用了公交系统中的多个数据源,在乘客连续多天的出行数据基础上,做出合理假设,分阶段性的层层递进预测乘客上车站点,匹配站点功能类型,对于首、末、非首末及代刷乘客的下车站点能够做到较好的预测,并获取OD矩阵,划分时段、断面根据不同站点上下车人数做OD扩算,以获得某市全时空的客流分布情况,为规划提供参考依据。
附图说明
图1为本发明预测方法的步骤流程示意图;
图2本发明实施例早高峰上车站点客运量分布;
图3本发明实施例早高峰下车站点客运量分布。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法,如图1所示,包括如下步骤:
(1)构建公交数据分析数据库:提取乘客刷卡记录、公交车辆GPS轨迹数据、公交站点位置数据、公交线路基本信息,构建公交数据分析数据库。
(2)数据清洗:对步骤(1)数据库中的刷卡记录进行清洗,剔除无效数据和异常数据,确保数据是可用的。
进一步的,对初步获得的粗糙数据,我们需要按照数据清洗原则,结合时空约束,IC卡重复数据,短时间内的不同车次刷卡数据,车辆重复数据,某时刻对应多个车载GPS定位的错误数据,以确保数据的可用性。
进一步的,数据清洗,主要步骤包括剔除系统重复记录、上车站点信息错误、上车时间在非运营时段等异常记录;根据公交站点位置数据中的经纬度信息,计算所有站点之间的空间距离{Di,j}。
(3)乘客代刷卡记录识别与处理:对经步骤(2)清洗后的数据,按乘客刷卡时间进行升序排序;当同一个卡编号前后两次相邻刷卡时间间隔小于刷卡判别阈值TD时,则将其中后一次刷卡记录标记为替代他人刷卡的记录(以下简称代刷记录);考虑一个卡编号在一次乘车行为中可能产生多条连续的代刷记录,对该卡编号在一次乘车行为中的首次刷卡记录(以下称第m次代刷行为原始刷卡记录)以及多条代刷记录统一标记为该卡编号的第m次代刷行为,并假设同一次代刷行为中的刷卡记录起终站点相同;将所有识别为代刷记录的数据添加代刷行为次数标记(即m)并从公交数据分析数据库移入代刷数据库;
按一人一卡原则来说,每一乘客在某一出行行为中,乘坐一班交通工具,刷卡次数为一,若乘客IC卡在时间阈值TD内有超过一次的刷卡记录,这部分数据被判断为代刷行为,移入到代刷数据库。
(4)乘客上车站点匹配:根据乘客刷卡记录中的GPS设备编号和刷卡时间信息,结合公交车辆GPS轨迹数据以及公交站点位置数据推算乘客上车站点,并在乘客刷卡记录数据中添加上车站点信息和公交线路信息(包含上、下行方向);
(5)基于乘客闭环出行假设的乘客下车站点预测:根据步骤(4)得到的数据,针对其中个体乘客在一天中公交出行次数大于1次的刷卡记录,按照以下方法预测乘客下车站点;
所述步骤(5)中针对其中个体乘客在一天中公交出行次数大于1次的刷卡记录,按照以下方法预测乘客下车站点,具体如下:
(5.1)针对个体乘客在当日出行链的非末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d(该乘客在第d天中的第i次刷卡记录中的上车站点编号),确定当前公交线路下游方向站点集合S;核对该乘客当前出行的下一条刷卡记录上车站点编号Bi+1,d,
如果Bi+1,d∈S,则采用下一次出行起点记为该乘客当前出行刷卡记录的下车站点;
(5.2)针对个体乘客在当日出行链中的末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d,确定当前公交线路下游方向站点集合S;核对该乘客当日首次出行刷卡记录的上车站点标号B1,d,
如果B1,d∈S,则乘客当日首次出行起点站即为本次出行下车站点;
如果若站点集合S中的站点距离站点B1,d最近的站点满足两者距离小于最大步行距离阈值Dm,则将该最近站点记为该乘客当前出行刷卡记录的下车站点;即以B1,d站点为中心,1.5千米(步行距离阈值)为半径搜索距离B1,d站点最近且属于备选集合S内的站点作为本次出行的下车站点。
如果前两种情况均未搜索到满足条件的有效下车站点,则以乘客次日首次出行起点B1,d+1替代当日首次出行起点B1,d,继续执行上述(5.2)下车站点预测搜索规则。
(6)基于站点功能类型识别的乘客下车站点预测:根据步骤(4)得到的数据建立个体乘客出行链,首先识别乘客的一般居住地和主要活动地点(如工作地),再结合乘客上车时间匹配下车站点。
所述步骤(6)中首先识别乘客的一般居住地和主要活动地点(如工作地),再结合乘客上车时间匹配下车站点,具体识别与匹配方法如下:
(6.1)根据乘客连续多天的出行链,统计其多日出行中每日首次出行且上车时间位于早高峰时段6:30-9:30之间的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的一般居住地;类似地,统计乘客多日出行中每日上车时间位于晚高峰时段15:30-18:30之间首次出行的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的主要活动地;
(6.2)对于步骤(5)未成功匹配下车站点的乘客刷卡记录,如果乘客上车时间位于早高峰时段,且该乘客的主要活动地点已被识别,判断主要活动地点是否属于该次上车公交线路下游方向站点集合S(或距离站点集合S中最近的站点小于1.5千米),如果满足条件则以主要活动地点作为该次刷卡记录的下车站点;如果乘客上车时间位于晚高峰时段,且该乘客的一般居住地已被识别,判断一般居住地是否属于该次上车公交线路下游方向站点集合S(或距离站点集合S中最近的站点小于1.5千米),如果满足条件则以一般居住地作为该次刷卡记录的下车站点。
(7)代刷记录下车站点预测:搜索代刷数据库中代刷记录对应的原始刷卡记录,若其在步骤(5)、(6)中已匹配下车站点,则以该下车站点预测结果作为代刷记录的下车站点;
(8)利用上车信息和线路OD信息的随机下车站点预测:根据步骤(5)、(6)、(7)成功匹配下车站点的乘客刷卡记录,按照乘客上车时间分时段统计线路OD矩阵,对仍未成功匹配下车站点的乘客刷卡记录,依据所乘车线路的OD矩阵,采用多项式概率分布随机生成乘客下车站点。
进一步的,步骤(8)中分时段的乘客乘车线路OD矩阵。乘客乘车线路记为L,按线路开行方向站点编号列表SL记为(s1,s2,…,sK),线路OD矩阵Qt的元素表示在第t个时段内在站点si上车且最终从sj下车的乘客数量。
进一步的,步骤(8)中对仍未成功匹配下车站点的乘客刷卡记录,依据所乘车线路的OD矩阵,采用多项式概率分布随机生成乘客下车站点。
若一条未成功匹配下车站点的乘客刷卡记录上车时间在第t个时段内,上车站点编号为si,则该乘客可能的下车站点sa=(si+1,si+2,…,sK)服从多项式分布PN(K-i:p1,p2,…,pK-i),其中按照该多项式分布随机生成的站点编号即为该次刷卡记录的下车站点。
所述步骤(5)、(6)、(7)中的预测规则/方法和过程,应首先做出如下假设,假设一:针对乘客前后两个出行阶段,乘客会选择当前线路及方向上距离下一出行阶段上车站点最近,且满足空间距离约束的站点下车;假设二:一天中乘客的最后一个出行阶段,其目的地为当天最早的出发地;假设三:对于乘客未闭环无法识别下车站点的刷卡记录,根据乘客出发时间以及该乘客的站点功能类型匹配该次出行的下车站点;假设四:代刷记录的下车站点相同。
实施例2
结合某市公交系统实际数据对本发明的方法进行实际操作,截止到2020年底,该市公共交通(集团)有限公司共计471条运营线路(区分线路上下行方向),1458个公交站点,本实例采集了该市2020年11月30日至2020年12月31日期间32天的数据。由于该市公交IC卡数据在上传系统时结合车载GPS数据添加上车站点匹配信息(如表1所示),故未采集GPS数据。若在其它城市使用方法,需要参考本专利说明书中步骤(4)给出的方法在数据预处理后结合GPS数据进行上车站点匹配。
1、数据收集与处理
首先,提取公交IC卡刷卡数据,总计2313.8万次刷卡记录,数据内容包括乘车人卡类型(例如成人卡、公交云卡、学生卡、老年卡、员工卡、退休卡)、卡编号、刷卡时间、线路编号、车辆编号、消费金额和站点编号(在刷卡数据中为乘客上车站点所对应的站点编号),下表为部分数据样本。然后,对获得的刷卡记录数据进行清洗处理,主要包括剔除系统重复记录、上车站点记录错误、乘车时间在非运营时段的异常记录。清洗完毕我们获得了2187.7万次有效的刷卡记录。
表1IC卡数据样本
数据字段名称 | 数据样本 |
卡类型 | 成人卡 |
卡编号 | 85E***609 |
刷卡时间 | 2020/12/27 9:13:45 |
线路编号 | 2 |
汽车编号 | 3420 |
消费金额 | 1.8(元) |
站点编号 | 1 |
公交站点位置数据主要包括公交站点编号(站点编号和站点名称一一对应)、站点名称、经度、纬度信息,下表为某个站点的位置信息示例。
表2公交站点数据样本表
数据字段名称 | 数据样本 |
站点编号 | 7 |
站点名称 | 云岩广场 |
经度 | 106.708 |
纬度 | 26.5922 |
公交线路基本信息数据主要包括各个线路的线路编号、站点名称、公交站点编号(站点编号和站点名称一一对应)、行驶方向,下表为部分样本数据。
表3示例为线路编号为3的公交线路上行方向站点信息(站点按车辆行驶方向排序)
线路编号 | 公交站点编号 | 站点名称 | 行驶方向(上行-1,下行-0) |
3 | 17 | 理工学院 | 1 |
3 | 18 | 交警支队 | 1 |
3 | 19 | 枫丹白鹭花园 | 1 |
3 | … | … | … |
3 | 13 | 紫林庵 | 1 |
3 | 6 | 喷水池 | 1 |
3 | 27 | 师大 | 1 |
2、乘客代刷数据识别与处理
当同一个卡编号前后两次相邻刷卡时间间隔小于刷卡判别阈值2分钟时,则将其后一次刷卡行为认为是代刷行为,对该卡编号在一次乘车行为中的首次刷卡记录(以下称第m次代刷行为原始刷卡记录)以及多条代刷记录统一标记为该卡编号的第m次代刷行为,并将所有识别为代刷记录的数据添加代刷行为次数标记(即m)并从公交数据分析数据库移入代刷数据库。下表为部分IC卡代刷样本数据。
表4 IC卡代刷数据样本表
3、基于闭环出行假设乘客下车站点推算/预测
将匹配好的乘客上车站点按刷卡时间升序排列,按序找出相应IC卡出行链信息,根据出行链进一步推算/预测下车站点。
(1)非末次出行链下车站点推算/预测
根据乘客当前出行刷卡记录的上车站点编号Bi,d,确定当前公交线路下游方向站点集合S;核对该乘客当前出行的下一条刷卡记录上车站点编号Bi+1,d,如果Bi+1,d∈S,则采用下一次出行起点记为该乘客当前出行刷卡记录的下车站点;如果若站点集合S中的站点距离站点Bi+1最近的站点满足两者距离小于最大步行距离阈值1.5千米(注:在本实施例中最大步行距离阈值Dm取值为1.5千米),则将该最近站点记为该乘客当前出行刷卡记录的下车站点。
(2)末次出行链下车站点推算/预测
根据乘客当前出行刷卡记录的上车站点编号Bi,d,确定当前公交线路下游方向站点集合S;核对该乘客当日首次出行刷卡记录的上车站点标号B1,d,如果B1,d∈S,则乘客当日首次出行起点站即为本次出行下车站点;如果若站点集合S中的站点距离站点B1,d最近的站点满足两者距离小于最大步行距离阈值1.5千米,则将该最近站点记为该乘客当前出行刷卡记录的下车站点;如果前两种情况均未搜索到满足条件的有效下车站点,则以乘客次日首次出行起点B1,d+1替代当日首次出行起点B1,d,继续执行上述搜索。
其中,步骤3中,搜索邻近站点过程示例如下:
假设当前刷卡记录上车站点为3号上行方向线枫丹白鹭花园站(站点编号19),当天的下一次刷卡记录上车站点为大十字站(站点编号5),则当前上车站点的公交线路下游方向站点集合S包含表5中枫丹白鹭花园之后的所有站点。计算站点集合S中所有站点到大十字站的距离并由近到远排列如表5所示,其中距离大十字站最近的站点为紫林庵站(站点编号13),由于两者距离为728米(小于最大步行距离阈值1.5千米),因此采用紫林庵站(站点编号13)作为当前刷卡记录的下车站点。
表5搜索站点样本表
4、基于站点功能类型乘客下车站点推算/预测
根据已匹配上车站点的数据的多日出行链,按照规则首先识别出乘客的一般居住地站点与主要活动地站点,再将前一阶段未识别出来的乘客按站点功能类型继续识别下车站点。
(1)站点功能类型识别
将乘客连续多日的出行链进行统计分析,包括每日首次上车时间段位于早高峰时段6:30-9:30之间的上车站点及频次,若在其连续多日的出行链中某一站点重复次数大于3次,将该站点标记为待选站点,从待选站点集合当中选取重复次数最高的站点识别为该乘客的一般居住地站点。类似的,统计乘客上车时间位于晚高峰时段15:30-18:30之间的首次出行的上车站点及频次,从其待选站点集合中选取重复次数最高(且大于3次)的站点识别为该乘客的主要活动地站点。
(2)下车站点推算/预测
如果乘客上车时间位于早高峰时段,且该乘客的主要活动地点已被识别,判断主要活动地点是否属于该次上车公交线路下游方向站点集合S(或距离站点集合S中最近的站点小于1.5千米),如果满足条件则以主要活动地点作为该次刷卡记录的下车站点;如果乘客上车时间位于晚高峰时段,且该乘客的一般居住地已被识别,判断一般居住地是否属于该次上车公交线路下游方向站点集合S(或距离站点集合S中最近的站点小于1.5千米),如果满足条件则以一般居住地作为该次刷卡记录的下车站点。
其中,步骤4中基于站点功能类型识别过程以及下车点实例推算样本如下,对某乘客连续多天以来上车时间段分别位于6:30-9:30与15:30-18:30时段的每日首次上车站点的频次统计。
表6某乘客多天连续乘车记录
该乘客一般居住地附近公交站点后坝站(站点编号20),主要活动地附近站点为喷水池(站点编号6)。
5、代刷行为下车站点匹配
根据卡编号以及代刷次数标记m,搜索代刷数据库中代刷记录对应的原始刷卡记录,若其在下车站点推算/预测环节步骤3、4中已匹配下车站点,则以该下车站点预测结果作为相应代刷记录的下车站点。
步骤3、4、5中乘客下车站点实例推算结果样本如下
表7推算结果数据样本表
6、乘客出行OD矩阵获取及利用多项式概率进行下车点推算/预测
对于经过步骤3、4、5仍无法预测下车站点的刷卡记录,将乘客乘车线路记为L,按线路开行方向站点编号列表SL记为(s1,s2,…,sK)。根据步骤3、4、5预测成功的下车站点的刷卡数据,按照乘客上车时间分时段统计线路OD矩阵,线路OD矩阵Qt的元素表示在第t个时段内在站点si上车且最终从sj下车的乘客数量。以一个小时作为时段长度,如时段13表示13:00-14:00。表8为3号线路上行方向部分线路OD样本数据,例如对于该线路OD矩阵元素表示在数据采集32天中在时间段13:00-14:00内从站点17上车且最终在站点20下车的乘客数量为160。
表8线路OD数据样本表
若一条未成功匹配下车站点的乘客刷卡记录上车时间在第t个时段内,上车站点编号为si,则该乘客可能的下车站点sa=(si+1,si+2,…,sK)服从多项式分布PN(K-i:p1,p2,…,pK-i),其中依照该多项式分布随机生成的数字即为该乘客的下车站点。
根据表8已获得的某时段、线路(区分上下行方向)的类似OD数据,根据步骤(6)中多项式分布公式预测获得乘客最有可能下车的站点。
图2和图3是根据某一天该市公交刷卡数据下车站点预测结果绘制的早高峰时段公交乘客上车站点和下车站点客运量分布图。通过上述方法,对2187.7万次有效刷卡记录全部完成下车站点推算,其中步骤3推算1718.1万次,步骤4推算131.2万次,步骤5推算75.4万次,步骤6推算263.0万次,分别占比为78.5%、6.0%、3.4%、12.0%。
本发明方法考虑了乘客代刷行为、站点功能类型的识别以及对上车刷卡信息的深度利用,对于乘客的识别将更加的精细可以提高某些类型乘客的下车站点识别成功率与准确率,得到的数据和建立的OD矩阵将更加合理。本发明识别过程简单,易于操作,且使用成本低,有着较好的实用性、准确性及可推广性。对于多元数据的融合,大数据的处理,快速得到城市全时空客流分布对推动公共交通的使用、政府政策的制定和社会服务方面发挥着重要的作用。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法,其特征在于,包括如下步骤:
S1、构建公交数据分析数据库;
S2、数据清洗:对步骤S1数据库中的刷卡记录进行清洗,剔除无效数据和异常数据;
S3、乘客代刷卡记录识别与标记,并将所有标记为代刷记录的数据移入代刷数据库;
S4、乘客上车站点匹配:根据乘客刷卡记录中的GPS设备编号和刷卡时间信息,结合公交车辆GPS轨迹数据以及公交站点位置数据推算乘客上车站点,并在乘客刷卡记录数据中添加上车站点信息和公交线路信息;
S5、公交乘客下车站点预测;
所述步骤S5中的公交乘客下车站点预测具体包括:
S51、基于乘客闭环出行假设的乘客下车站点预测:根据步骤S4得到的数据,针对其中个体乘客在一天中公交出行次数大于1次的刷卡记录,按照以下方法预测乘客下车站点,具体包括:
S51-1、针对个体乘客在当日出行链的非末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d,Bi,d表示该乘客在第d天中的第i次刷卡记录中的上车站点编号,确定当前公交线路下游方向站点集合S;核对该乘客当前出行的下一条刷卡记录上车站点编号Bi+1,d,
如果Bi+1,d∈S,则采用下一次出行起点记为该乘客当前出行刷卡记录的下车站点;
S51-2、针对个体乘客在当日出行链中的末次出行的下车站点预测:
根据乘客当前出行刷卡记录的上车站点编号Bi,d,确定当前公交线路下游方向站点集合S;核对该乘客当日首次出行刷卡记录的上车站点标号B1,d,
如果B1,d∈S,则乘客当日首次出行起点站即为本次出行下车站点;
如果以上两种情况均未搜索到满足条件的有效下车站点,则以乘客次日首次出行起点B1,d+1替代当日首次出行起点B1,d,继续执行上述预测规则;
S52、基于站点功能类型识别的乘客下车站点预测:根据步骤S4得到的数据建立个体乘客出行链,首先识别乘客的一般居住地和主要活动地点,再结合乘客上车时间匹配下车站点,具体识别与匹配方法如下:
根据乘客连续多天的出行链,统计其多日出行中每日首次出行且上车时间位于早高峰时段6:30-9:30之间的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的一般居住地;
统计乘客多日出行中每日上车时间位于晚高峰时段15:30-18:30之间首次出行的刷卡记录上车站点的出现频次,以其中重复次数最高且大于站点功能识别阈值F的站点记为该乘客的主要活动地;
对于步骤S51中未成功匹配下车站点的乘客刷卡记录,如果乘客上车时间位于早高峰时段,且该乘客的主要活动地点已被识别,判断主要活动地点是否属于该次上车公交线路下游方向站点集合S或距离站点集合S中最近的站点小于最大步行距离阈值Dm,如果满足条件则以主要活动地点作为该次刷卡记录的下车站点;如果乘客上车时间位于晚高峰时段,且该乘客的一般居住地已被识别,判断一般居住地是否属于该次上车公交线路下游方向站点集合S或距离站点集合S中最近的站点小于最大步行距离阈值Dm,如果满足条件则以一般居住地作为该次刷卡记录的下车站点;
S53、代刷记录下车站点预测:搜索代刷数据库中代刷记录对应的原始刷卡记录,若其在步骤S51、步骤S52中已匹配下车站点,则以该下车站点预测结果作为代刷记录的下车站点;
S54、利用上车信息和线路OD信息的随机下车站点预测:根据步骤S51、步骤S52、步骤S53中成功匹配下车站点的乘客刷卡记录,按照乘客上车时间分时段统计线路OD矩阵,对仍未成功匹配下车站点的乘客刷卡记录,依据所乘车线路的OD矩阵,采用多项式概率分布随机生成乘客下车站点。
2.根据权利要求1所述的基于刷卡数据深度挖掘的公交乘客下车站点预测方法,其特征在于:所述步骤S1中的数据库信息包括乘客刷卡记录、公交车辆GPS轨迹数据、公交站点位置数据和公交线路基本信息。
3.根据权利要求1所述的基于刷卡数据深度挖掘的公交乘客下车站点预测方法,其特征在于:所述步骤S3的具体步骤包括:对经步骤S2清洗后的数据,按乘客刷卡时间进行升序排序;当同一个卡编号前后两次相邻刷卡时间间隔小于刷卡判别阈值TD时,则将其中后一次刷卡记录标记为代他人刷卡的记录;考虑一个卡编号在一次乘车行为中可能产生多条连续的代刷记录,对该卡编号在一次乘车行为中的首次刷卡记录以及多条代刷记录统一标记为该卡编号的第m次代刷行为,并假设同一次代刷行为中的刷卡记录起终站点相同;将所有标记为代刷记录的数据移入代刷数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210293083.2A CN114882693B (zh) | 2022-03-23 | 2022-03-23 | 一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210293083.2A CN114882693B (zh) | 2022-03-23 | 2022-03-23 | 一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882693A CN114882693A (zh) | 2022-08-09 |
CN114882693B true CN114882693B (zh) | 2022-11-18 |
Family
ID=82666938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210293083.2A Active CN114882693B (zh) | 2022-03-23 | 2022-03-23 | 一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882693B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105788260A (zh) * | 2016-04-13 | 2016-07-20 | 西南交通大学 | 一种基于智能公交系统数据的公交乘客od推算方法 |
CN106530190A (zh) * | 2016-10-28 | 2017-03-22 | 西安建筑科技大学 | 基于历史出行模式判断公交ic卡乘客下车站点的方法 |
CN107818412A (zh) * | 2017-10-18 | 2018-03-20 | 福州大学 | 一种基于MapReduce的大规模公交乘客OD并行计算方法 |
CN111932867A (zh) * | 2020-06-18 | 2020-11-13 | 东南大学 | 一种基于多源数据的公交ic卡乘客下车站点推导方法 |
CN111985710A (zh) * | 2020-08-18 | 2020-11-24 | 深圳诺地思维数字科技有限公司 | 一种公交乘客出行站点预测方法、存储介质及服务器 |
-
2022
- 2022-03-23 CN CN202210293083.2A patent/CN114882693B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105788260A (zh) * | 2016-04-13 | 2016-07-20 | 西南交通大学 | 一种基于智能公交系统数据的公交乘客od推算方法 |
CN106530190A (zh) * | 2016-10-28 | 2017-03-22 | 西安建筑科技大学 | 基于历史出行模式判断公交ic卡乘客下车站点的方法 |
CN107818412A (zh) * | 2017-10-18 | 2018-03-20 | 福州大学 | 一种基于MapReduce的大规模公交乘客OD并行计算方法 |
CN111932867A (zh) * | 2020-06-18 | 2020-11-13 | 东南大学 | 一种基于多源数据的公交ic卡乘客下车站点推导方法 |
CN111985710A (zh) * | 2020-08-18 | 2020-11-24 | 深圳诺地思维数字科技有限公司 | 一种公交乘客出行站点预测方法、存储介质及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN114882693A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Dynamic cluster-based over-demand prediction in bike sharing systems | |
CN105788260B (zh) | 一种基于智能公交系统数据的公交乘客od推算方法 | |
CN111681421B (zh) | 基于手机信令数据的对外客运枢纽集疏空间分布分析方法 | |
CN102521965B (zh) | 基于车牌识别数据的交通需求管理措施效果评价方法 | |
CN111985710A (zh) | 一种公交乘客出行站点预测方法、存储介质及服务器 | |
CN111653096B (zh) | 一种基于手机信令数据的城市出行方式识别方法 | |
CN107919014B (zh) | 面向多载客里程的出租车运行线路优化方法 | |
CN111653099B (zh) | 基于手机信令数据的公交客流od获取方法 | |
CN109102114B (zh) | 一种基于数据融合的公交出行下车站点估计方法 | |
CN109903553B (zh) | 多源数据挖掘的公交车上下车站点识别和检验方法 | |
CN110704993A (zh) | 一种疏解地铁客流压力的定制公交线路设计方法 | |
CN112784000B (zh) | 基于出租车轨迹数据的寻客方法 | |
CN108062857A (zh) | 用于出租车乘客出行目的的预测方法 | |
CN111340415A (zh) | 一种基于货运轨迹数据的车辆自发编队模式挖掘方法 | |
CN110836675A (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN104282142B (zh) | 一种基于出租车gps数据的公交站台设置方法 | |
CN112036757A (zh) | 基于手机信令和浮动车数据的停车换乘停车场的选址方法 | |
CN114358808A (zh) | 基于多源数据融合的公交od估计及分配方法 | |
Makarova et al. | Decision-making on development of cycling infrastructure through safety assessment at design and operation stages | |
Kato et al. | Latest urban rail demand forecast model system in the Tokyo Metropolitan Area | |
CN116862325A (zh) | 一种城市轨道交通乘客出行链推断方法及系统 | |
CN108681741B (zh) | 基于ic卡和居民调查数据的地铁通勤人群信息融合方法 | |
CN113408833A (zh) | 一种公共交通重点区域识别方法、装置及电子设备 | |
CN114882693B (zh) | 一种基于刷卡数据深度挖掘的公交乘客下车站点预测方法 | |
CN116090785B (zh) | 针对大型活动散场场景两阶段的定制公交规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |