CN109903555B - 一种基于大数据的公交乘客下车数据预测方法及系统 - Google Patents

一种基于大数据的公交乘客下车数据预测方法及系统 Download PDF

Info

Publication number
CN109903555B
CN109903555B CN201910132240.XA CN201910132240A CN109903555B CN 109903555 B CN109903555 B CN 109903555B CN 201910132240 A CN201910132240 A CN 201910132240A CN 109903555 B CN109903555 B CN 109903555B
Authority
CN
China
Prior art keywords
card
station
data
bus
getting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910132240.XA
Other languages
English (en)
Other versions
CN109903555A (zh
Inventor
龙超华
王震坡
陈奕昆
周小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute Of Technology New Source Information Technology Co ltd
Original Assignee
Beijing Institute Of Technology New Source Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute Of Technology New Source Information Technology Co ltd filed Critical Beijing Institute Of Technology New Source Information Technology Co ltd
Priority to CN201910132240.XA priority Critical patent/CN109903555B/zh
Publication of CN109903555A publication Critical patent/CN109903555A/zh
Application granted granted Critical
Publication of CN109903555B publication Critical patent/CN109903555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种基于大数据的公交乘客下车数据预测方法及系统。该方法中针对每个卡号分析历史刷卡数据,从而根据历史刷卡站点的最大频繁项集数确定刷卡站点数,进而确定每个卡号的行程,最后根据行程预测卡号的持卡乘客的下车站点。本发明的基于大数据的公交乘客下车数据预测方法及系统能够摆脱对特殊的车载设备的依赖。

Description

一种基于大数据的公交乘客下车数据预测方法及系统
技术领域
本发明涉及公交运行管理领域,特别是涉及一种基于大数据的公交乘客下车数据预测方法及系统。
背景技术
国内大部分公交线路的刷卡付费规定是上车刷卡下车不刷卡,基于上车刷卡下车不刷卡的公交车载客分析方法有两种,分别为采用公交IC卡与车门踏板相结合的数据采集方法以及采用视频监控自动统计人数的方法。这两种方法均需要依赖于特殊的车载设备(车门踏板或视频监控设备),只能针对具有特殊的车载设备的公交车进行分析,并且分析结果依赖于数据采集的准确度和数据采集装置的性能。
发明内容
本发明的目的是提供一种基于大数据的公交乘客下车数据预测方法及系统,摆脱对特殊的车载设备的依赖。
为实现上述目的,本发明提供了如下方案:
一种基于大数据的公交乘客下车数据预测方法,包括:
获取历史刷卡数据、站点数据和趟次运行数据;
将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集;
从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集;
判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果;
若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录;
若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数;
根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录;
当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点。
可选的,所述根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录,具体包括:
当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;
当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;
当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
可选的,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
可选的,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
根据各卡号的行程,计算乘客乘坐公交的里程。
可选的,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;
根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
本发明还公开一种基于大数据的公交乘客下车数据预测系统,包括:
历史数据获取模块,用于获取历史刷卡数据、站点数据和趟次运行数据;
卡号分类模块,用于将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集;
刷卡数据筛选模块,用于从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集;
第一判断模块,用于判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果;
第一结果执行模块,用于若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录;
第二结果执行模块,用于若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数;
行程确定模块,用于根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录;
下车站点预测模块,用于当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点。
可选的,所述行程确定模块包括:
第一行程确定单元,用于当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
第二行程确定单元,用于当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;
第三行程确定单元,用于当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;
第四行程确定单元,用于当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
关联模块,用于当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
车辆到站时间确定模块,用于根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
乘车时长计算模块,用于根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
里程计算模块,用于根据各卡号的行程,计算乘客乘坐公交的里程。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
记录获取模块,用于按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
下车人数计算模块,用于对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;
乘客数量计算模块,用于根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明所公开的基于大数据的公交乘客下车数据预测方法及系统,利用大数据实现对每个卡号进行分析,从而确定每个卡号的行程,进而实现对每个卡号的下车站点进行预测,从而在不依赖于特殊车载设备和下车刷卡数据的情况下实现乘客下车数据预测,扩宽了适用范围。同时,由于不依赖于特殊车载设备的数据采集,避免了数据采集的误差,有效提高了预测的准确度。再者,由于无需在获取特殊车载设备的数据后再进行数据处理,实现了超前预测,避免获取特殊车载设备的数据后再进行处理所产生的滞后性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1的基于大数据的公交乘客下车数据预测方法的方法流程图;
图2为本发明实施例1的基于大数据的公交乘客下车数据预测方法的频繁项集算法的示意图;
图3为本发明实施例2的基于大数据的公交乘客下车数据预测系统的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于大数据的公交乘客下车数据预测方法及系统,摆脱对特殊的车载设备的依赖。具体思路为:按照单个乘客普遍的乘车点和乘车时间,推断出单个乘客的上下车乘车规律,最后计算出不同站点不同时间的上下车乘客数量。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
图1为本发明实施例1的基于大数据的公交乘客下车数据预测方法的方法流程图。
参见图1,该基于大数据的公交乘客下车数据预测方法,包括:
步骤1:获取历史刷卡数据、站点数据和趟次运行数据。
刷卡数据包含卡号、刷卡线路番号、刷卡站点名称、刷卡时间、运行方向;站点数据包含站点名称、经纬度、停靠线路番号、运行方向;趟次运行数据包含线路番号、每个趟次的站点名称、车辆到站时间、运行方向。
步骤2:将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集。
步骤3:从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集。
步骤4:判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果。
具体检验方式为K-S检验方法,具体过程为:
(1)将每天第一次刷卡的时间去除日期后,计算平均乘车是时间为μ,标准差为σ,则构造出乘车时间概率理论分布函数F0(x)=X~N(μ,σ2);
(2)利用样本数据计算各样本数据点的累计概率得到检验累计概率分布函数Fn(x)。
(3)计算F0(x)与Fn(x)差距的最大值D=max|Fn(x)-F(x)|。
(4)当D>D(n,α)(D(n,α)是显著水平为α,样本容量为n时,D的拒绝临界值,取值参见表1,本方案采用α=0.05)时,刷卡数据中时间(时分秒)是否服从正态分布,否则不服从正太分布。
表1
(5)将每天下午第一条刷卡数据的刷卡时间,执行上述(1)~(4)步骤。
步骤5:若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
步骤6:若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数。
本发明采用的频繁项集算法为Apriori算法,最小支持度(minSupport)=0.5。
具体步骤为:
(1)扫描同一卡号的所有的刷卡记录,以天为单位,获取每天刷卡站点,形成事务集合D。
(2)每个站点都是候选1项集的集合的成员。扫描所有事务,得到每个成员出现过的次数,形成集合C1。然后根据最小支持度从C1中删除不满足的站点,从而获得频繁1项集L1。
(3)任意k个站点的组合都是候选k项集的集合的成员。扫描所有事务,得到每个成员同时出现在一天中的次数,形成集合Ck。然后根据最小支持度从Ck中删除不满足的站点,从而获得频繁k项集Lk。
(4)如果得到的频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束;如果得到的频繁k项集只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束;如果得到的频繁k项集大于一项,则执行(5)步骤。
(5)令k=k+1,返回(3)步骤。
图2为本发明实施例1的基于大数据的公交乘客下车数据预测方法的频繁项集算法的示意图。
参见图2,以2018年11月12日~2018年11月15日连续4天内某一卡号乘坐公交车的刷卡站点数据为例对Apriori算法进行说明。选取的最小支持度为0.5。
第一天2018年11月12日刷卡站点为A站、C站和D站,第二天2018年11月13日刷卡站点为B站、C站和E站,第三天2018年11月14日刷卡站点为A站、B站、C站和E站,第四天2018年11月15日刷卡站点为B站和E站。经计算,所得频繁1项集的个数为4个,频繁2项集的个数为4个,频繁3项集的个数为1个。
步骤7:根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录。步骤7具体为分情况确定行程和下车站点,具体包括:
当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;即从第一个站点上车后,在第二个站点下车,然后在第二个站点换乘另外一趟公交。
当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;即在第一个站点上车后,在第二个站点下车,然后移动到第三个站点上车,再在第四个站点下车。
当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。具体为:
获取每次刷卡的日期、站点名称、线路番号、运行方向。
统计同样日期、站点名称、线路番号、运行方向上车的乘客下车人次最多的站点,即作为该段行程的下车站点。
步骤8:当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点。
作为一种可选的实施方式,在步骤8之后还包括:
当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
作为一种可选的实施方式,在步骤8之后还包括:
根据各卡号的行程,计算乘客乘坐公交的里程。
具体步骤为:
(1)获取公交线路地图数据,可以是互联网地图中的数据,也可以是自行维护的数据。
(2)根据上车站点、下车站点、线路番号,在地图中确定起点位置、终点位置和线路运行路线。
(3)计算起点位置、终点位置之间线路运行路线的长度,即为单次乘客乘坐公交的里程。
(4)根据单次乘客乘坐公交的里程,可分条件统计乘客乘坐公交的里程。
作为一种可选的实施方式,在步骤8之后还包括:
按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;若车辆已经经过下车站点,则判断乘客下车;若车辆没有到达下车站点,则判断乘客没有下车;
根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
本发明还可以将实时计算结果推送给智能公交调度系统,为调度提供辅助决策依据。并将阶段结果进行汇总,为线路规划、公交计划排班提供辅助决策依据。
实施例2:
图3为本发明实施例2的基于大数据的公交乘客下车数据预测系统的系统结构图。
参见图3,该基于大数据的公交乘客下车数据预测系统,包括:
历史数据获取模块301,用于获取历史刷卡数据、站点数据和趟次运行数据;
卡号分类模块302,用于将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集;
刷卡数据筛选模块303,用于从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集;
第一判断模块304,用于判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果;
第一结果执行模块305,用于若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录;
第二结果执行模块306,用于若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数;
行程确定模块307,用于根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录;
下车站点预测模块308,用于当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点。
可选的,所述行程确定模块307包括:
第一行程确定单元,用于当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
第二行程确定单元,用于当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;
第三行程确定单元,用于当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;
第四行程确定单元,用于当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
关联模块,用于当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
车辆到站时间确定模块,用于根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
乘车时长计算模块,用于根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
里程计算模块,用于根据各卡号的行程,计算乘客乘坐公交的里程。
可选的,该基于大数据的公交乘客下车数据预测系统还包括:
记录获取模块,用于按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
下车人数计算模块,用于对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;
乘客数量计算模块,用于根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明所公开的基于大数据的公交乘客下车数据预测方法及系统,利用大数据实现对每个卡号进行分析,从而确定每个卡号的行程,进而实现对每个卡号的下车站点进行预测,从而在不依赖于特殊车载设备和下车刷卡数据的情况下实现乘客下车数据预测,扩宽了适用范围。同时,由于不依赖于特殊车载设备的数据采集,避免了数据采集的误差,有效提高了预测的准确度。再者,由于无需在获取特殊车载设备的数据后再进行数据处理,实现了超前预测,避免获取特殊车载设备的数据后再进行处理所产生的滞后性,提高了效率。并且,省去了特殊车载设备的成本,降低了成本。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于大数据的公交乘客下车数据预测方法,其特征在于,包括:
获取历史刷卡数据、站点数据和趟次运行数据;
将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集;
从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集;
判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果;
若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录;
若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数;
根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录;
当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点;
其中,所述根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录,具体包括:
当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;
当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;
当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
2.根据权利要求1所述的基于大数据的公交乘客下车数据预测方法,其特征在于,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
3.根据权利要求1所述的基于大数据的公交乘客下车数据预测方法,其特征在于,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
根据各卡号的行程,计算乘客乘坐公交的里程。
4.根据权利要求1所述的基于大数据的公交乘客下车数据预测方法,其特征在于,在所述当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点之后,还包括:
按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;
根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
5.一种基于大数据的公交乘客下车数据预测系统,其特征在于,包括:
历史数据获取模块,用于获取历史刷卡数据、站点数据和趟次运行数据;
卡号分类模块,用于将所述历史刷卡数据按卡号分类,使同一卡号的信息归属于一类,得到多个同卡号数据集;
刷卡数据筛选模块,用于从所述同卡号数据集筛选每天第一条刷卡数据和下午第一条刷卡数据,形成每天第一条刷卡数据集和下午第一条刷卡数据集;
第一判断模块,用于判断所述每天第一条刷卡数据集和所述下午第一条刷卡数据集是否服从正态分布,得到第一判断结果;
第一结果执行模块,用于若所述第一判断结果表示所述每天第一条刷卡数据集或所述下午第一条刷卡数据集不符合正态分布,确定相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录;
第二结果执行模块,用于若所述第一判断结果表示所述每天第一条刷卡数据集和所述下午第一条刷卡数据集均服从正态分布,则利用频繁项集算法对所述同卡号数据集中的站点进行频繁项集运算,获取每个卡号对应的最大频繁项集数;
行程确定模块,用于根据所述最大频繁项集数确定对应卡号的刷卡站点数和对应的刷卡站点,进而确定对应卡号的行程并进行记录;
下车站点预测模块,用于当被记录卡号按对应的行程刷卡时,则按对应的行程预测刷卡乘客的下车站点;
其中,所述行程确定模块包括:
第一行程确定单元,用于当所述最大频繁项集数为2时,则记录最大频繁项集数所对应的两个站点互为一段行程,确定持有对应卡号的乘客一天乘坐两次公交,
第二行程确定单元,用于当所述最大频繁项集数为3时,则记录支持度最大的站点为换乘站点,另外两个站点均为与所述换乘站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交直接换乘公交;
第三行程确定单元,用于当所述最大频繁项集数为4时,则将最大频繁项集数所对应的4个站点的每个站点的乘车时间取平均值,并按乘车时间平均值对最大频繁项集数所对应的4个站点进行排序,记录最大频繁项集数所对应的4个站点中排序第一和第四的站点互为一段行程,记录最大频繁项集数所对应的4个站点中排序第二和第三的站点互为一段行程,确定持有对应卡号的乘客一天乘坐四次公交,出行方式为公交间接换成公交;
第四行程确定单元,用于当所述最大频繁项集数小于2或大于4时,则根据最大频繁项集数为2、3和4时预测的相同公交趟次相同站点上车后下车人数最多的站点为下车站点,从而确定对应卡号的行程并进行记录。
6.根据权利要求5所述的基于大数据的公交乘客下车数据预测系统,其特征在于,还包括:
关联模块,用于当刷卡数据中的线路番号、刷卡站点名称、运行方向与趟次运行数据中的线路番号、趟次的站点名称、运行方向对应相同,且刷卡时间与车辆到站时间之差在预设范围内时,则将刷卡数据与趟次运行数据进行关联,得到关联数据;
车辆到站时间确定模块,用于根据所述关联数据和预测得到的刷卡乘客的下车站点,确定乘客上车站点车辆到站时间和下车站点车辆到站时间;
乘车时长计算模块,用于根据所述上车站点车辆到站时间和所述下车站点车辆到站时间计算乘客乘车时长。
7.根据权利要求5所述的基于大数据的公交乘客下车数据预测系统,其特征在于,还包括:
里程计算模块,用于根据各卡号的行程,计算乘客乘坐公交的里程。
8.根据权利要求5所述的基于大数据的公交乘客下车数据预测系统,其特征在于,还包括:
记录获取模块,用于按公交趟次获取各趟公交从发车至当前时刻的上车刷卡记录;
下车人数计算模块,用于对上车刷卡记录上的每个卡号计算下车站点,获取已下车人数;
乘客数量计算模块,用于根据所述上车刷卡记录的条数确定上车人数,利用上车人数减去已下车人数得到各趟公交上当前乘客数量。
CN201910132240.XA 2019-02-22 2019-02-22 一种基于大数据的公交乘客下车数据预测方法及系统 Active CN109903555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910132240.XA CN109903555B (zh) 2019-02-22 2019-02-22 一种基于大数据的公交乘客下车数据预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910132240.XA CN109903555B (zh) 2019-02-22 2019-02-22 一种基于大数据的公交乘客下车数据预测方法及系统

Publications (2)

Publication Number Publication Date
CN109903555A CN109903555A (zh) 2019-06-18
CN109903555B true CN109903555B (zh) 2021-01-05

Family

ID=66945195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910132240.XA Active CN109903555B (zh) 2019-02-22 2019-02-22 一种基于大数据的公交乘客下车数据预测方法及系统

Country Status (1)

Country Link
CN (1) CN109903555B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363591B (zh) * 2019-07-19 2022-05-10 广东工业大学 一种归属站点识别方法、装置、设备及可读存储介质
CN111723871B (zh) * 2020-07-09 2022-05-27 广州市公共交通数据管理中心有限公司 一种公交车实时车厢满载率的估算方法
CN113299106B (zh) * 2021-04-27 2022-07-08 华录智达科技股份有限公司 一种基于物联网的公交到站时间预测系统
CN113658433B (zh) * 2021-08-18 2022-08-30 苏州工业园区测绘地理信息有限公司 一种基于公交刷卡扫码数据提取客流特征的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469602A (zh) * 2015-12-31 2016-04-06 北京航空航天大学 一种基于ic卡数据的公交乘客候车时间范围的预测方法
CN108154342A (zh) * 2017-12-25 2018-06-12 苏州大学 基于云存储的智能公交数据协同方法及其系统
CN109308546A (zh) * 2018-08-31 2019-02-05 江苏智通交通科技有限公司 乘客公交出行下车站点预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180121240A (ko) * 2017-04-28 2018-11-07 주식회사 엘비씨소프트 빅데이터를 활용한 대중교통 통행시간 예측/예보 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469602A (zh) * 2015-12-31 2016-04-06 北京航空航天大学 一种基于ic卡数据的公交乘客候车时间范围的预测方法
CN108154342A (zh) * 2017-12-25 2018-06-12 苏州大学 基于云存储的智能公交数据协同方法及其系统
CN109308546A (zh) * 2018-08-31 2019-02-05 江苏智通交通科技有限公司 乘客公交出行下车站点预测方法及系统

Also Published As

Publication number Publication date
CN109903555A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109903555B (zh) 一种基于大数据的公交乘客下车数据预测方法及系统
CN108242149B (zh) 一种基于交通数据的大数据分析方法
CN109166337B (zh) 公交到站时间生成方法、装置及公交乘客出行od获取方法
CN111310994A (zh) 一种基于数据校准的公交路线预测方法及系统
CN105390013A (zh) 一种利用公交ic卡预测公交到站时间的方法
CN109410568B (zh) 基于用户画像和换乘规律的下车站点推测方法及系统
CN111932925A (zh) 一种公共交通站点的出行客流的确定方法、装置及系统
CN109903553B (zh) 多源数据挖掘的公交车上下车站点识别和检验方法
CN110348614B (zh) 一种获取乘客od的方法及公交客流的预测方法
Zhao et al. Isolating high-priority metro and feeder bus transfers using smart card data
Ma et al. Public transportation big data mining and analysis
CN108242146B (zh) 基于公交卡数据分析乘客乘车站点及时间的方法和系统
CN109887292B (zh) 车辆类型的识别方法及系统
EP3425606B1 (en) Traffic situation estimation system and traffic situation estimation method
CN109615036B (zh) 一种基于公汽ic刷卡系统的细颗粒物暴露风险评估方法
CN105427597A (zh) 一种公交车站点乘客信息采集方法
Song et al. Public transportation service evaluations utilizing seoul transportation card data
CN112465213B (zh) 一种地铁乘客信息服务系统的辅助装置及方法
KR20100084010A (ko) 위치이력 데이터를 이용한 공택시 배치 기법
CN113468243A (zh) 地铁客流分析与预测方法及分析与预测系统
CN110298516B (zh) 一种基于客流od数据的拆分过长公交线路的方法、装置、移动端设备及服务器
Syarif et al. Big data analytics: Estimation of destination for users of bus rapid transit (BRT) public transportation in Jakarta
Chen et al. Extracting bus transit boarding and alighting information using smart card transaction data
CN111754760B (zh) 一种确定公交下车站点的方法、装置及上位机
Hussain et al. Use of smart card data for zonal level public transit OD matrix estimation: literature review and research gaps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant