CN109903553B - 多源数据挖掘的公交车上下车站点识别和检验方法 - Google Patents
多源数据挖掘的公交车上下车站点识别和检验方法 Download PDFInfo
- Publication number
- CN109903553B CN109903553B CN201910123126.0A CN201910123126A CN109903553B CN 109903553 B CN109903553 B CN 109903553B CN 201910123126 A CN201910123126 A CN 201910123126A CN 109903553 B CN109903553 B CN 109903553B
- Authority
- CN
- China
- Prior art keywords
- station
- passenger
- formula
- transaction data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种多源数据挖掘的公交车上下车站点识别和检验方法,包括根据常规公交的IC刷卡及运营车辆数据,进行基于聚类和关联分析的IC刷卡乘客上车站点识别;根据常规公交、BRT和地铁的IC刷卡及运营车辆数据,进行基于常规公交、BRT、地铁组成的IC刷卡乘客出行链下车站点识别;对未识别下车站点的数据进行基于历史乘车记录的IC刷卡乘客下车站点识别;对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别;对匹配上车站点的数据进行基于配对样本t检验的IC刷卡乘客上车站点识别检验;对匹配下车站点的数据进行基于换乘行为识别的IC刷卡乘客下车站点识别检验。本发明方法适用范围广、站点识别精度高。
Description
技术领域
本发明涉及公交信息数据处理领域,特别涉及一种多源数据挖掘的公交车上下车站点识别和检验方法。
背景技术
随着公共交通相关技术与设备的升级和更新、公交卡系统的普及以及IC卡使用量的增加,大量的乘客IC卡刷卡数据和卫星定位信息数据为公共交通数据的分析提供了可行性。基于乘客IC卡刷卡数据中的多源数据挖掘得到的乘客完整出行数据,能够快速、动态地获取公共交通出行乘客的居民出行OD矩阵,而这些OD矩阵可以作为公交线路调整与线网的优化、接驳线设计、换乘政策的研究、客流特征(客流走廊、集散地、客流量等)等方面提供依据,进而提高城市公交服务水平,满足居民出行需求。
目前,各大城市普遍采用一票制IC卡系统,IC卡中的常规公交信息只记录乘客上车刷卡时间及乘坐的车辆编号等信息,没有准确的上车站点名称及下车站点信息。上车站点识别方法的研究,IC卡刷卡数据、车辆GPS数据、AVL数据等成为目前辅助公交IC数据信息识别的有效依据,聚类算法等计算机算法也越来越多的被应用于上车站点判断方法的研究。下车站点识别方面,按照所使用的不同数据分为三类:第一类是应用常规公交乘客IC卡刷卡数据及GPS数据,一些学者基于各个站点对乘客吸引权重公交乘客下车识别方法,优点是使用统一权值、工作量较小,缺点是精度的高低取决于乘客吸引权值的求解;还有一些学者基于单个乘客单次出行链公交乘客下车识别方法,优点是单一乘客进行分析、可知出行规律、精度较高,缺点是处理过程复杂,适用性差。第二类是基于城市居民手机定位数据,同时融合多源交通数据进行居民出行流量分配的方法,推估其道路流量需求并分析交通网络的运行状况。第三类是基于常规公交IC卡、GPS数据和地铁或调查数据,一些学者在公交IC卡数据的基础上加入了地铁数据用以完善居民出行链,提高车辆下车识别的成功率,还有一些学者基于IC卡数据、跟车调查数据和轨道交通调查数据等,针对不同票制线路和有无调查数据情况,将所有线路分为3种类型并分别建立分线路、分方向的站间OD矩阵,在此基础上建立基于IC卡数据的公交出行站群OD矩阵。而在检验时,目前常见的检验方法有:与实际结果比较、客流分步与已知一致与否、任选某IC卡的实际出行行为分析比较判断、匹配得到的数据自身验证、与别人实验的结果对比、公交基本客流数据(站点客流数据、线路客流等)、公交运营指标数据(客流量指标、车辆运营指标、公交乘客出行特征指标等)。
经检索,申请日为2015.06.26,申请号为201510364696.0的中国发明专利公开了一种基于车辆GPS和公交IC卡数据的公交换乘识别方法;申请日为2016.10.28,申请号为201610967221.5的中国发明专利公开了一种基于历史出行模式判断公交IC卡乘客下车站点的方法;申请日为2016.11.12,申请号为201610996132.3的中国发明专利公开了一种公交车辆下车站点识别方法与系统;申请日为2016.11.15,申请号为201611002208.2的中国发明专利公开了一种基于IC卡的公交车辆当日下车站点识别方法与系统;申请日为2018.03.13,申请号为201810203079.6的中国发明专利公开了一种基于历史出行特征的公交乘客实时识别方法。但是,以上发明专利在进行站点识别时,都只融合了常规公交的GPS、常规公交的IC卡数据和公交站点位置数据,且方法单一,这导致乘客对普通公交车上下车站点识别、换乘行为识别和判别的适用范围窄,精度偏低,无法满足实际的工程应用需求。
本发明方法与已有典型下车站点识别方法存在有较大区别,可从方法体系、数据量适用范围以及识别率等方面进行综合分析对比,具体如表1所示:
表1本发明与已有典型下车站点识别方法的不同点分析比对
发明内容
本发明要解决的技术问题,在于提供一种多源数据挖掘的公交车上下车站点识别和检验方法,通过该方法可解决现有技术中存在的对普通公交车上下车站点识别、换乘行为识别和判别的精度偏低,适用范围窄,无法满足实际的工程应用需求的问题。
本发明是这样实现的:多源数据挖掘的公交车上下车站点识别和检验方法,所述方法包括如下步骤:
步骤S1、根据常规公交的IC刷卡数据以及运营车辆数据,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别;
步骤S2、根据常规公交、BRT和地铁的IC刷卡数据以及运营车辆数据,进行基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别;
步骤S3、对未识别下车站点的数据进行基于历史乘车记录的常规公交IC刷卡乘客下车站点识别;
步骤S4、对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别;
步骤S5、对已匹配上车站点的常规公交IC刷卡数据,进行基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验;同时,对已匹配下车站点的常规公交IC刷卡数据,进行基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验。
进一步地,在所述步骤S1中,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:
步骤101、判断第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤102;若否,则进入步骤103;
步骤102、对于第i条交易数据和第i+1条交易数据,判断是否同时满足式(1)和式(2):
JYRQk,i=JYRQk,i+1 (1)
JYSJk,i+1-JYSJk,i<Tqx (2)
在式(1)中,JYRQk,i为第i条交易数据的交易日期,JYRQk,i+1为第i+1条交易数据的交易日期;在式(2)中,JYSJk,i为第i条交易数据的交易时间,JYSJk,i+1为第i+1条交易数据的交易时间,Tqx为最大连续刷卡时间间隔;
若同时满足式(1)和式(2),则删除该第k个乘客的第i+1条交易数据,并进入步骤103;
若不同时满足式(1)和式(2),则不做改动,并进入步骤103;
步骤103、寻找第f辆常规公交的第j条记录,判断第f辆常规公交的第j条记录与第k个乘客的第i条交易数据是否同时满足式(3)、式(4)和式(5):
JYRQk,i=GRQf,j (3)
XLHk,i=GXLHf,j (4)
CPHk,i=GCPHf,j (5)
在式(3)中,JYRQk,i为第k个乘客的第i条交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(4)中,XLHk,i为第k个乘客的第i条交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(5)中,CPHk,i为第k个乘客的第i条交易数据的车牌号,GCPHf,j为第f辆常规公交第j条记录的车牌号;
若同时满足式(3)、式(4)和式(5),则继续判断是否满足式(6):
(min|JYSJk,i-GSJf,j|)>Tys (6)
在式(6)中,JYSJk,i为第k个乘客的第i条交易数据的交易时间,GSJf,j为第f辆常规公交的第j条记录的时间,Tys为最小公交刷卡与公交到站时间差值;
如果满足式(6),则删除该第k个乘客的第i条交易数据,并进入步骤108;
如果不满足式(6),则不做改动,并进入步骤104;
若不同时满足式(3)、式(4)和式(5),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤104、将第k个乘客的第i条交易数据的交易时间JYSJk,i和第f辆常规公交的第j条记录的时间GSJf,j,均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值;
步骤105、对于第f辆常规公交所包括的J条数据,逐一判断每一条数据是否为进站时的值,即满足式(7):
GJCZf,j≠Njcz,j=1,2,…,J (7)
在式(7)中,Njcz为进站时的值,GJCZf,j表示第f辆常规公交的第j条数据的状态取值;
如果是,则保留对应的数据,如果否,则删除对应的数据;且在J条数据都判断完后,进入步骤106;
步骤106、寻找第z个站点的站点信息,判断第z个站点的站点信息与第f辆常规公交的第j条记录是否同时满足式(8)和式(9):
GXLHf,j=ZDXLHZ (8)
GZDBHf,j=ZDBHz (9)
在式(8)中,GXLHf,j为第f辆常规公交的第j条记录的线路号,ZDXLHZ为第z个站点的线路号;在式(9)中,GZDBHf,j为第f辆常规公交的第j条记录的站点编号,ZDBHz为第z个站点的站点编号;
若同时满足式(8)和式(9),则该第j条记录即为到达第z个站点时的记录,将该第j条记录的交易时间记为GSJf,j,z,并进入步骤107;
若不同时满足式(8)和式(9),则从第f辆常规公交的记录中删除该第j条记录,并进入步骤103;
步骤107、对于按照交易先后排序的第k,k+1,...,k+n个乘客的交易数据和第f辆常规公交的第j条记录,判断是否同时满足式(10)、式(11)、式(12)和式(13):
XLHk,i=XLHk+1,i=...=XLHk+n,i=GXLHf,j (10)
CPHk,i=CPHk+1,i=...=CPHk+n,i=GCPHf,j (11)
JYRQk,i=JYRQk+1,i=...=JYRQk+n,i=GRQf,j (12)
|JYSJk,i-JYSJk+1,i|,|JYSJk+1,i-JYSJk+2,i|,…≤Tjl (13)
在式(10)中,XLHk,i=XLHk+1,i=...=XLHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(11)中,CPHk,i=CPHk+1,i=...=CPHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的车牌号,GCPHf,j为第f辆常规公交的第j条记录的车牌号;在式(12)中,JYRQk,i=JYRQk+1,i=...=JYRQk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(13)中,Tjl为两公交站点间的最大运行时间差值;
若同时满足式(10)、式(11)、式(12)和式(13),则说明第k,k+1,...,k+n个乘客均为在同一个站点上车的同一类乘客;
同时,针对常规公交在真实到站后GPS仍未显示到站的情况,分别设置第一缓冲时间Tone和第二缓冲时间Ttwo;
如果第k,k+1,...,k+n个乘客的交易数据的交易时间均处在GSJf,j,z-Ttwo到GSJf,j,z-Tone之间,即满足式(14):
GSJf,j,z+Tone>JYSJk,i,JYSJk+1,i,…>GSJf,j,z-Ttwo (14)
且第i条交易数据的交易时间JYSJk,i与GSJf,j之间的差值最小,即满足式(15):
min{|JYSJk,i-GSJf,j,z|},z=1,2,…,Z (15)
则第z个站点名即为第k个乘客的第i条交易数据的上车站点名,即:
UPstationk,i=ZDMz (16)
同时,同一类的第k+1,...,k+n个乘客的第i条交易数据的上车站点名也为ZDMz,即:
UPstationk+1,i=...=UPstationk+n,i=ZDMz (17)
,之后进入步骤108;
否则,如果不同时满足式(14)和式(15),则说明第k个乘客的交易数据无法匹配上车站点,并进入步骤108;
若不同时满足式(10)、式(11)、式(12)和式(13),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤108、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤109,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤101;
步骤109、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤101。
进一步地,在所述步骤S2中,基于出行链方法进行常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤202;若否,则进入步骤203;
步骤202、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z) (18)
其中有:
L(UPstationk,i+1,z+e)=min{L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z)}
(19)
当式(19)满足式(20)和式(21)时:
L(UPstationk,i+1,z+e)<Lfy (20)
JYSJk,i+1>GYSJz+e (21)
在式(20)中,Lfy为设置的最短距离的阈值;在式(21)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e (22)
之后进入步骤203;
当式(19)不满足式(20)和式(21)时,则直接进入步骤204;
步骤203、此时,第x天第k个乘客的第i条交易数据为第k个乘客在第x天的最后一条交易数据。第x天第k个乘客的第1条交易数据的上车站点UPstationk,1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z) (23)
其中有:
L(UPstationk,1,z+e)=min{L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z)}
(24)
当式(24)满足式(25)时:
L(UPstationk,1,z+e)<Lfy (25)
在式(25)中,Lfy为设置的最短距离的阈值;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e
(26)
之后进入步骤204;
当式(24)不满足式(25)时,则直接进入步骤204;
步骤204、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤205,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤201;
步骤205、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤201。
进一步地,在所述步骤S3中,所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstationk=UPstationk,i的乘车历史记录;
如果是,则乘车历史记录中上车站点UPstationk对应的下车站点DOWNstationk即为第k个乘客的第i条交易数据的下车站点DOWNstationk,i,并进入步骤302;如果否,则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤302、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤303;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤303、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤301。
进一步地,在所述步骤S4中,所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤401、设第x天第k个乘客的第i条交易数据在第f辆常规公交上,且该常规公交在第k个乘客的上车站点UPstationk,i,z后到达的站点分别为z+1,…,z+e,…,Z;通过该常规公交已判断出的上、下车站点的乘客记录,可得:
其中,P(GDOWNstationz+e|GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率;等式右侧部分的分子为第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量;等式右侧部分的分母为第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量。
则第k个乘客的第i条交易数据在之后各站点的下车概率为:
P(DOWNstationk,i,z+e|UPstationk,i,z)=P(GDOWNstationz+e|GUPstationz),e=1,2,…,(Z-z) (28)
相当于第k个乘客在站点z上车后,有P(GDOWNstationz+e|GUPstationz)的概率在第z+e个站点下车;
步骤402、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤403;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤401;
步骤403、判断第k个乘客是否为最后一个有下车站点未匹配交易数据的乘客,如果是,则结束下车站点匹配;如果否,则将下一个有未匹配下车站点交易数据的乘客作为第k个乘客,并返回步骤401。
进一步地,在所述步骤S5中,所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤:
步骤501、在第f辆常规公交的数据中,设该常规公交到达第1,…,z,…,Z个站点的时间分别为GSJ1,…,GSJz,…,GSJZ;
步骤502、对于到达第z个站点,且按照交易先后排序的第kz,k+1z,k+2z,…个乘客的交易数据,如果相邻两个乘客之间的交易时间的差值均小于等于设置的两公交站点间的最大运行时间差值,即:
|JYSJk,z-JYSJk+1,z|,|JYSJk+1,z-JYSJk+2,z,…≤Tjl (29)
在式(29)中,Tjl为两公交站点间的最大运行时间差值;
则第kz,k+1z,k+2z,…个乘客均为在第z个站点上车的同一类乘客,且第一个到达第z个站点的乘客的刷卡时间为JYSJk,z,同理,到达第1,…,z,…,Z个站点的第一个乘客的刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z;
步骤503、计算任意两个相邻站点的第一个乘客的刷卡时间间隔与车辆GPS到站时间间隔之间差值的平均值Tavg:
计算标准偏差Tbzpc:
步骤504、计算Tavg和Tbzpc两个样本的t检验,并转换为差值序列总体均值是否为0的单样本t检验,因此有:
根据计算出的t值,通过SPSS计算出SIG值(即为显著性差异),当SIG<0.05时,则以95%的概率接受上车站点匹配的正确性,否则就不接受上车站点匹配的正确性。
进一步地,在所述步骤S5中,所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤:
步骤601、对所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合,由此确定出随着换乘时间阈值的增大,识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[Thcone,Thctwo],并将换乘时间阈值最终确定为:
步骤602、判断第x天第k个乘客的第i条交易数据在站点编号z上车、站点编号z+e下车的数据之后是否存在第i+1条交易数据,若是,则进入步骤603;若否,则进入步骤604;
步骤603、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstationk,i的曼哈顿距离为:
L(UPstationk,i+1,DOWNstationk,i) (34)
当式(34)满足式(35)和式(36)时:
L(UPstationk,i+1,DOWNstationk,i)<Lfy (35)
JYSJk,i+1-GYSJz+e≤Thc (36)
在式(35)中,Lfy为设置的最短距离的阈值;在式(36)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第x天第k个乘客的第i条交易数据在站点编号z+e的下车时间,即为所乘坐的第f辆常规公交到达站点DOWNstationk,i的时间;
则第x天第k个乘客的第i条交易数据的下车站点匹配正确,之后进入步骤604;
当式(34)不满足式(35)和式(36)时,则第x天第k个乘客的第i条交易数据的下车站点匹配不正确,之后进入步骤604;
步骤604、判断第k个乘客的交易数据是否均已经检验下车站点的正确性,若是,则进入步骤605;若否,则将未检验下车站点的数据作为第i条交易数据,并返回步骤602;
步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客,若否,则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客,并返回步骤602;若是,则结束下车站点正确性的检验。
本发明具有如下优点:
(1)本发明给定了下车站点匹配方法的应用先后顺序。根据对三种方法的理论分析,可以知道基于历史乘车记录的IC刷卡乘客下车站点识别的匹配正确概率大于基于历史乘车记录的IC刷卡乘客下车站点识别,基于历史乘车记录的IC刷卡乘客下车站点识别的匹配正确概率大于基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别,因此在本发明的方法中首先应用基于历史乘车记录的IC刷卡乘客下车站点识别对于下车站点进行匹配,再基于历史乘车记录的IC刷卡乘客下车站点识别对于未匹配下车站点的数据进行的下车站点匹配,最后对于这两种方法都未匹配下车站点的数据进行基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别的下车站点匹配,以此来保证全部的已知上车站点IC卡常规公交刷卡数据可以匹配到下车站点,成功匹配率高,匹配精度高。为常见的三种下车站定匹配方法的使用先后顺序提供了一种新思路。
(2)本发明给定了一种基于三种公共交通出行数据进行多源数据挖掘的下车站点识别方法,对于IC卡数据包括乘坐公共交通(包括常规公交、BRT和地铁)出行乘客的全部交易数据,在BRT和地铁的上、下车站点已知、常规公交的上车站点已知时,根据乘客出行的规律,下一次出行的上车站点(包括常规公交、BRT和地铁),与本次常规公交出行的下车站点距离较近,以此来确定本次常规公交出行的下车站点,进行乘客的常规公交下车站点识别,该方法充分利用了常规公交、地铁、BRT的刷卡数据,常规公交的卫星定位数据、地图,可以实现乘坐常规公交出行乘客IC卡刷卡数据的上车站点识别、下车站点识别,并可以对识别结果进行检验、识别精度高;可为在有常规公交、BRT和地铁的IC卡刷卡数据、卫星定位数据及静态站点信息等数据的情况下,提供了一种新的常规公交IC卡刷卡数据的上下车站点识别方式。
(3)本发明给定了一种没有正确上车站点作对比时的上车站点识别检验方法。对于已经匹配了上车站点的乘客刷卡数据进行聚类,计算相邻两站点最早到站记录的时间差并与公交车到达对应站点的时间差值进行配对样本t检验,并将其转换成与0比较的单样本t检验,以此来验证上车站点匹配的正确性;可为没有正确的上车站点可以作对比的情况提供了一种新的上车站点识别检验方式。
(4)本发明给定了一种在没有已知正确下车站点作对比时的判断乘客每一条IC卡常规公交刷卡数据下车站点识别正确与否的方法。对于IC卡数据包括乘坐公共交通(包括常规公交、BRT和地铁)出行乘客的全部交易数据,并且BRT和地铁的上、下车站点已知、常规公交的上车站点已知时,本发明通过对调查问卷或视频调查得到的所研究地区乘客换乘时间的拟合分析确定换乘行为识别的时间阈值,结合换乘距离阈值进行约束,判断每一条IC卡常规公交刷卡数据的下车站点与下一次IC卡出行的上车站点(包括常规公交、BRT和地铁)之间是否是换乘行为,如果是换乘行为,则认为本次出行的下车站点匹配正确,否则此条IC卡常规公交刷卡数据的下车站点识别不正确。可为没有正确的下车站点可以作对比的情况提供了一种新的下车站点识别检验方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明多源数据挖掘的公交车上下车站点识别和检验方法的原理框图。
图2为本发明中基于聚类和关联分析的常规公交乘客IC刷客乘客上车站点识别的技术路线图;
图3为本发明中常规公交乘客IC刷客乘客下车站点识别的技术路线图;
图4为本发明中基于单个乘客单次出行链的出行情况分析示意图。
具体实施方式
请参照图1至图4所示,本发明多源数据挖掘的公交车上下车站点识别和检验方法,所述方法包括如下步骤:
步骤S1、根据常规公交的IC刷卡数据以及运营车辆数据,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别;
步骤S2、根据常规公交、BRT和地铁的IC刷卡数据以及运营车辆数据,进行基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别;
步骤S3、对未识别下车站点的数据进行基于历史乘车记录的常规公交IC刷卡乘客下车站点识别;
步骤S4、对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别;
步骤S5、对已匹配上车站点的常规公交IC刷卡数据,进行基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验;同时,对已匹配下车站点的常规公交IC刷卡数据,进行基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验。
本发明通过将常规公交IC刷卡数据的上下车站点识别及检验综合成为一体,可为居民公共出行轨迹分析、公交运营调度、城市建设规划等领域提供准确地数据支撑。
在所述步骤S1中,所述基于聚类和关联分析的常规公交IC刷卡乘客上车站点识别主要用于乘坐常规公交出行乘客IC卡刷卡数据的上车站点识别,通过在IC卡常规公交刷卡数据(包括线路号、卡号、车辆编号、交易日期、交易时间)的清洗、转换、抽取的基础上,结合不同乘客在同一上车站点的时间进行聚类,然后与常规公交的卫星定位信息数据、站点信息数据进行关联分析和时间匹配,以此得到乘客每一条IC卡刷卡数据的上车站点记录。对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:
步骤101、判断第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤102;若否,则进入步骤103;
步骤102、对数据进行清洗,对于第i条交易数据和第i+1条交易数据,判断是否同时满足式(1)和式(2):
JYRQk,i=JYRQk,i+1 (1)
JYSJk,i+1-JYSJk,i<Tqx (2)
在式(1)中,JYRQk,i为第i条交易数据的交易日期,JYRQk,i+1为第i+1条交易数据的交易日期;在式(2)中,JYSJk,i为第i条交易数据的交易时间,JYSJk,i+1为第i+1条交易数据的交易时间,Tqx为最大连续刷卡时间间隔;
若同时满足式(1)和式(2),则删除该第k个乘客的第i+1条交易数据,并进入步骤103;
若不同时满足式(1)和式(2),则不做改动,并进入步骤103;
步骤103、寻找第f辆常规公交的第j条记录,判断第f辆常规公交的第j条记录与第k个乘客的第i条交易数据是否同时满足式(3)、式(4)和式(5):
JYRQk,i=GRQf,j (3)
XLHk,i=GXLHf,j (4)
CPHk,i=GCPHf,j (5)
在式(3)中,JYRQk,i为第k个乘客的第i条交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(4)中,XLHk,i为第k个乘客的第i条交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(5)中,CPHk,i为第k个乘客的第i条交易数据的车牌号,GCPHf,j为第f辆常规公交第j条记录的车牌号;
若同时满足式(3)、式(4)和式(5),则继续判断是否满足式(6):
(min|JYSJk,i-GSJf,j|)>Tys (6)
在式(6)中,JYSJk,i为第k个乘客的第i条交易数据的交易时间,GSJf,j为第f辆常规公交的第j条记录的时间,Tys为最小公交刷卡与公交到站时间差值;
如果满足式(6),则删除该第k个乘客的第i条交易数据,并进入步骤108;
如果不满足式(6),则不做改动,并进入步骤104;
若不同时满足式(3)、式(4)和式(5),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤104、将第k个乘客的第i条交易数据的交易时间JYSJk,i和第f辆常规公交的第j条记录的时间GSJf,j,均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值,以方便后续进行计算;
步骤105、因为本发明只用到了进站时的数据,因此,对于第f辆常规公交所包括的J条数据,逐一判断每一条数据是否为进站时的值,即满足式(7):
GJCZf,j≠Njcz,j=1,2,…,J (7)
在式(7)中,Njcz为进站时的值,GJCZf,j表示第f辆常规公交的第j条数据的状态取值;
如果是,则保留对应的数据,如果否,则删除对应的数据;且在J条数据都判断完后,进入步骤106;
步骤106、寻找第z个站点的站点信息,判断第z个站点的站点信息与第f辆常规公交的第j条记录是否同时满足式(8)和式(9):
GXLHf,j=ZDXLHZ (8)
GZDBHf,j=ZDBHz (9)
在式(8)中,GXLHf,j为第f辆常规公交的第j条记录的线路号,ZDXLHZ为第z个站点的线路号;在式(9)中,GZDBHf,j为第f辆常规公交的第j条记录的站点编号,ZDBHz为第z个站点的站点编号;
若同时满足式(8)和式(9),则该第j条记录即为到达第z个站点时的记录,将该第j条记录的交易时间记为GSJf,j,z,并进入步骤107;
若不同时满足式(8)和式(9),则从第f辆常规公交的记录中删除该第j条记录,并进入步骤103;
步骤107、对于按照交易先后排序的第k,k+1,...,k+n个乘客的交易数据和第f辆常规公交的第j条记录,判断是否同时满足式(10)、式(11)、式(12)和式(13):
XLHk,i=XLHk+1,i=...=XLHk+n,i=GXLHf,j (10)
CPHk,i=CPHk+1,i=...=CPHk+n,i=GCPHf,j (11)
JYRQk,i=JYRQk+1,i=...=JYRQk+n,i=GRQf,j (12)
|JYSJk,i-JYSJk+1,i|,|JYSJk+1,i-JYSJk+2,i|,…≤Tjl (13)
在式(10)中,XLHk,i=XLHk+1,i=...=XLHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(11)中,CPHk,i=CPHk+1,i=...=CPHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的车牌号,GCPHf,j为第f辆常规公交的第j条记录的车牌号;在式(12)中,JYRQk,i=JYRQk+1,i=...=JYRQk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(13)中,Tjl为两公交站点间的最大运行时间差值;
若同时满足式(10)、式(11)、式(12)和式(13),则说明第k,k+1,...,k+n个乘客均为在同一个站点上车的同一类乘客;
同时,针对常规公交在真实到站后GPS仍未显示到站的情况,这会导致乘客刷卡时间在GPS到站时间之前,为了解决这一问题,分别设置第一缓冲时间Tone和第二缓冲时间Ttwo,该Tone和Ttwo均为常数;
如果第k,k+1,...,k+n个乘客的交易数据的交易时间均处在GSJf,j,z-Ttwo到GSJf,j,z-Tone之间,即满足式(14):
GSJf,j,z+Tone>JYSJk,i,JYSJk+1,i,…>GSJf,j,z-Ttwo (14)
且第i条交易数据的交易时间JYSJk,i与GSJf,j之间的差值最小,即满足式(15):
min{|JYSJk,i-GSJf,j,z|},z=1,2,…,Z (15)
则第z个站点名即为第k个乘客的第i条交易数据的上车站点名,即:
UPstationk,i=ZDMz (16)
同时,同一类的第k+1,...,k+n个乘客的第i条交易数据的上车站点名也为ZDMz,即:
UPstationk+1,i=...=UPstationk+n,i=ZDMz (17)
,之后进入步骤108;
否则,如果不同时满足式(14)和式(15),则说明第k个乘客的交易数据无法匹配上车站点,并进入步骤108;
若不同时满足式(10)、式(11)、式(12)和式(13),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤108、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤109,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤101;
步骤109、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤101。
在所述步骤S2中,基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别主要用于常规公交的上车站点已知时的下车站点识别,其是根据乘客出行的规律,下一次公共出行的上车站点(包括常规公交、BRT和地铁),与本次常规公交出行的下车站点应该相同或者空间距离较近,以此来确定本次常规公交出行的下车站点,进行乘客的常规公交下车站点识别。所述基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别具体包括如下步骤:
步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据(即判断第i条交易数据是不是第x天最后一条IC卡刷卡数据),若是,则进入步骤202;若否,则进入步骤203;
步骤202、第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstationk,i+1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z) (18)
其中有:
L(UPstationk,i+1,z+e)=min{L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z)}
(19)
当式(19)满足式(20)和式(21)时:
L(UPstationk,i+1,z+e)<Lfy (20)
JYSJk,i+1>GYSJz+e (21)
在式(20)中,Lfy为设置的最短距离的阈值;在式(21)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e (22)
之后进入步骤203;
当式(19)不满足式(20)和式(21)时,则直接进入步骤204;
步骤203、第x天第k个乘客的第1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstationk,1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z) (23)
其中有:
L(UPstationk,1,z+e)=min{L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z)}
(24)
当式(24)满足式(25)时:
L(UPstationk,1,z+e)<Lfy (25)
在式(25)中,Lfy为设置的最短距离的阈值;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e (26)
之后进入步骤204;
当式(24)不满足式(25)时,则直接进入步骤204;
步骤204、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤205,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤201;
步骤205、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤201。
在所述步骤S3中,所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别用于在已有一些但非全部下车站点被识别时的下车站点识别,其是根据常规公交乘客中通勤者比例较大,并且通勤者出行的重复性特点,即为多次出行会在同一站点上车同一站点下车,根据已被识别下车站点的IC卡刷卡数据来推算未被识别出下车站点IC卡数据的下车站点。所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstation k=UPstation k,i的乘车历史记录;
如果是,则乘车历史记录中上车站点UPstationk对应的下车站点DOWNstationk即为第k个乘客的第i条交易数据的下车站点DOWNstatio nk,i,并进入步骤302;如果否,则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤302、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤303;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤303、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤301。
在所述步骤S4中,所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别用于在已有一些但非全部下车站点被识别时的下车站点识别,其是根据常规公交中已有乘客上、下车IC卡刷卡记录的分布可知,从一个站点上车到其往后站点下车的概率,以此来推算未被识别出下车站点IC卡数据的下车站点。所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤401、设第x天第k个乘客的第i条交易数据在第f辆常规公交上,且该常规公交在第k个乘客的上车站点UPstationk,i,z后到达的站点分别为z+1,…,z+e,…,Z;通过该常规公交已判断出的上、下车站点的乘客记录,可得:
其中,P(GDOWNstationz+e|GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率;等式右侧部分的分子为第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量;等式右侧部分的分母为第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量。
则第k个乘客的第i条交易数据在之后各站点的下车概率为:
P(DOWNstationk,i,z+e|UPstationk,i,z)=P(GDOWNstationz+e|GUPstationz),e=1,2,…,(Z-z) (28)
相当于第k个乘客在站点z上车后,有P(GDOWNstationz+e|GUPstationz)的概率在第z+e个站点下车;
步骤402、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤403;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤401;
步骤403、判断第k个乘客是否为最后一个有下车站点未匹配交易数据的乘客,如果是,则结束下车站点匹配;如果否,则将下一个有未匹配下车站点交易数据的乘客作为第k个乘客,并返回步骤401。
在所述步骤S5中,所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验用于对乘坐常规公交已经匹配出上车站点的乘客IC卡刷卡数据进行检验匹配的正确性,其是对已经匹配了上车站点的乘客刷卡数据进行聚类,计算相邻两站点最早到站记录的时间差并与公交车到达对应站点的时间差值进行配对样本t检验,并将其转换成与0比较的单样本t检验,以此来验证上车站点匹配的正确性。所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤:
步骤501、在第f辆常规公交的数据中,设该常规公交到达第1,…,z,…,Z个站点的时间分别为GSJ1,…,GSJz,…,GSJZ;
步骤502、对于到达第z个站点,且按照交易先后排序的第kz,k+1z,k+2z,…个乘客的交易数据,如果相邻两个乘客之间的交易时间的差值均小于等于设置的两公交站点间的最大运行时间差值,即:
|JYSJk,z-JYSJk+1,z|,|JYSJk+1,z-JYSJk+2,z|,…≤Tjl (29)
在式(29)中,Tjl为两公交站点间的最大运行时间差值;
则第kz,k+1z,k+2z,…个乘客均为在第z个站点上车的同一类乘客,且第一个到达第z个站点的乘客的刷卡时间为JYSJk,z,同理,到达第1,…,z,…,Z个站点的第一个乘客的刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z;
步骤503、计算任意两个相邻站点的第一个乘客的刷卡时间间隔与车辆GPS到站时间间隔之间差值的平均值Tavg:
计算标准偏差Tbzpc:
步骤504、计算Tavg和Tbzpc两个样本的t检验,并转换为差值序列总体均值是否为0的单样本t检验,因此有:
根据计算出的t值,通过SPSS计算出SIG值(即为显著性差异),当SIG<0.05时,则有在0.05的显著性水平下两曲线显著相关,即以95%的概率接受上车站点匹配的正确性,否则就不接受上车站点匹配的正确性。
在所述步骤S5中,所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验用于下车站点识别正确性检验,其是在通过对研究地区调查问卷或视频调查的换乘时间分析基础上确定换乘时间阈值,结合换乘距离阈值进行约束,判断每一条IC卡常规公交刷卡数据的下车站点与下一次IC卡出行的上车站点(包括常规公交、BRT和地铁)之间是否是换乘行为,如果是换乘行为,则认为本次出行的下车站点匹配正确,否则此条IC卡常规公交刷卡数据的下车站点识别不正确。所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤:
步骤601、换成行为时间阈值的确定:对于调查问卷或视频调查得到的所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合,可以得到换乘客流累计百分比的增速,并由此确定换乘时间阈值。如果换乘时间阈值设定在[0,Thcone),则所有识别出的换乘为纯换乘;如果换乘时间阈值设定在[Thcone,Thctwo],则随着换乘时间阈值的增大,识别的换乘中包含的偶然活动换乘所占的比例增加;如果换乘时间阈值设定在(Thctwo,+∞],则很多非换乘行为被认为是换乘,将造成大量错误。通过随着换乘时间阈值的增大,识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[Thcone,Thctwo],本发明将换乘时间阈值最终确定为:
步骤602、判断第x天第k个乘客的第i条交易数据在站点编号z上车、站点编号z+e下车的数据之后是否存在第i+1条交易数据,若是,则进入步骤603;若否,则进入步骤604;
步骤603、第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstationk,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstationk,i的曼哈顿距离为:
L(UPstationk,i+1,DOWNstationk,i) (34)
当式(34)满足式(35)和式(36)时:
L(UPstationk,i+1,DOWNstationk,i)<Lfy (35)
JYSJk,i+1-GYSJz+e≤Thc (36)
在式(35)中,Lfy为设置的最短距离的阈值;在式(36)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第x天第k个乘客的第i条交易数据在站点编号z+e的下车时间,即为所乘坐的第f辆常规公交到达站点DOWNstationk,i的时间;
则第x天第k个乘客的第i条交易数据的下车站点匹配正确,之后进入步骤604;
当式(34)不满足式(35)和式(36)时,则第x天第k个乘客的第i条交易数据的下车站点匹配不正确,之后进入步骤604;
步骤604、判断第k个乘客的交易数据是否均已经检验下车站点的正确性,若是,则进入步骤605;若否,则将未检验下车站点的数据作为第i条交易数据,并返回步骤602;
步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客,若否,则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客,并返回步骤602;若是,则结束下车站点正确性的检验,至此可知每一条IC刷卡数据正确性。
另外,需要说明的是,本发明中所涉及到的x、k、i、z、f、j等均为正整数。
下面以一些具体实例来对本发明做进一步说明:
实施例1
本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析,对常规公交的上、下车站点进行识别并检验。常规公交刷卡数据共45,032,397条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由11个字段构成(如表2);卫星定位信息数据共311,080,161条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由22个字段构成(如表3);BRT公交刷卡数据由xx市交通局提供,为xx市2018年1月份的公交刷卡数据,共13,268,640条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由5个字段构成(如表4);地铁刷卡数据由xx市交通局提供,为xx市2018年1月份的公交刷卡数据,共3,252,269条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由10个字段构成(如表5)。
表2公交刷卡数据构成表
名称 | 类型 | 备注 |
SHGSD | VARchar2(15) | |
XLBHZ | VARchar2(10) | 线路号 |
CLBHZ | VARchar2(10) | 车辆编号 |
ZDDMZ | VARchar2(8) | |
CZYSJ | VARchar2(16) | |
KHZZZ | VARchar2(21) | 刷卡卡号 |
ZKLXZ | VARchar2(8) | |
KLXZZ | VARchar2(8) | |
JYRQZ | char(8) | 交易日期 |
JYSJZ | NUMBER | 交易时间 |
JYJEZ | NUMBER(14,2) | 交易金额 |
表3公交卫星定位信息数据构成表
表4BRT刷卡数据构成表
名称 | 类型 | 备注 |
IN_OUT | VARchar2(100) | 进出站标志 |
TSN_TIME | DATE | 交易时间 |
TSN_TYPE | VARchar2(100) | 交易类型 |
STATION | VARchar2(100) | 站点 |
TICKET_ID | char(21) | 卡号 |
表5地铁刷卡数据构成表
根据xx市的实际情况,本实例设置Njcz=1;Tqx=20(秒);Tys=1800(秒);Tjl=20(秒);Tone=120(秒);Ttwo=300(秒);Lfy=1000(米);Tjl=20(秒)。首先进行全部刷卡数据的上车站点识别,然后进行全部刷卡数据下车站点的识别,再进行全部上车站点识别正确性的检验,最后对于每一条刷卡数据进行下车站点识别正确性的检验。
对于第k=2513232357个乘客的第i=1条交易数据,存在下一条第i+1=2条交易数据,当JYRQk,i=JYRQk,i+1=20180105时,JYSJk,i+1-JYSJk,i=31876(秒)-27870(秒)=4006(秒)>20(秒),因此不做改动。对于第k=2513232357个乘客的第i=1条交易数据与第f=5873辆常规公交第j=6条记录,当JYRQk,i=GRQf,j=20180105、XLHk,i=GXLHf,j=32、CPHk,i=GCPHf,j=闽DZ5873时,计算min||YSJk,i-GSJf,j|=6(秒)≤1800(秒),因此不做改动。将第k=2513232357个乘客的第i=1条交易数据的交易时间JYSJk,i=27870(秒)与第f=5873辆常规公交第j=6条记录的时间GSJf,j=27864(秒)转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值。因为本发明只用到了进站时的数据,因此对于第f=5873辆常规公交的J=23条数据,当GJCZf,j≠1,j=1,2,…,23,则删除数据,否则不做改动。第f=5873辆常规公交第j=6条记录与第z=6个站点的站点信息,当GXLHf,j=ZDXLHZ=32、GZDBHf,j=ZDBHz=6时,第f=5873辆常规公交的第j=6条记录即为到达第z=6个站点时的记录,此时的时间表示为GSJf,j,z=27864(秒)。对于按照交易先后排序的乘客交易数据与第f=5873辆常规公交的第j=6条记录,当XLHk,i=XLHk+1,i=XLHk+2,i=…=GXLHf,j=32、CPHk,i=CPHk+1,i=CPHk+2,i=…=GCPHf,j=闽DZ5873、JYRQk,i=JYRQk+1,i=…=GRQf,j=20180105时,计算|JYSJk,i-JYSJk+1,i|=3,|JYSJk+1,i-JYSJk+2,i|=2,…≤20(秒),则这些乘客为在同一个站点上车的一类乘客。根据本发明中步骤107计算可知,第z=6个站点名即是第k=2513232357个乘客的第i=1条交易数据与同一类乘客的上车站点名为UPstationk,i=UPstationk+1,i==UPstationk+2,i=…=ZDMz=第一医院。判断第k=2513232357个乘客的交易数据没有全部都匹配了上车站点,因此将未匹配上车站点的数据按照本发明中步骤108进行,直到全部乘客的全部交易数据都匹配上了上车站点;可得最终一个月的数据预处理结果(如表6)和上车站点匹配结果(如表7)。
表6数据预处理结果表
表7上车站点匹配结果表
下面进行全部刷卡数据的下车站点匹配。对于第x=5天第k=2513232357个乘客的第i=1条交易数据,其不是第x=5天最后一条刷卡数据,存在下一条第i+1=2条交易数据,因此需要进行基于出行链乘客的下车站点识别。第2条交易的上车站点编号15与第x=5天第k=2513232357个乘客的第i=1条交易的线路号XLHx,k,i=32在上车站点编号6以后的各站点曼哈顿距离为1693.49,2306.23,…,1401.06,1511.59米,其中有L(UPstationk,i+1,19)=min{1693.49,…,1511.59},并且L(UPstationk,i+1,19)=320.35<Lfy,则第19个站点名是第x=5天第k=2513232357个乘客的第i=1条交易数据的下车站点名为DOWNstationk,i=ZDMz+e=筼箉街道。判断第k=2513232357个乘客的交易数据没有全部都匹配了下车站点,因此将未匹配下车站点的数据按照本发明中步骤203进行,直到全部乘客全部交易都匹配上了下车站点;可得最终一个月的数据预处理结果(如表8),可知公交使用者中大约有70.7%的人其下车站点可以通过出行链来识别,说明公共交通出行是其日常出行交通方式。
表8下车站点匹配结果表
下面进行全部上车站点识别正确性的检验。第f=1辆常规公交的数据,其到达第1,…,z,…,Z=13个站点的时间以一天的00:00:00为参照以秒为单位数字型的相对数值分别为GSJ1,…,GSJz,…,GSJZ=60390,60696,…,63108,63375。同一类乘客到达第1,…,z,…,13个站点的第一个刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z=60432,60730,…,63111,0,因为第13个站点没有乘客上车,因此本实施例1设置为0。计算任意两个相邻站点的第一个乘客刷卡时间间隔与车辆卫星定位信息到站时间间隔差值的平均值为标准偏差为计算两样本的t检验,并转换为差值序列总体均值是否为0的单样本t检验,因此有根据此值通过SPSS计算SIG值(即为显著性差异),得到结果SIG=0<0.05,则有在0.05的显著性水平下两曲线显著相关,即为以95%的概率接受上车站点匹配的正确性(如表9)。
表9配对T检验相关性表格
个数 | 相关性 | SIG |
13 | 0.989 | 0 |
下面进行每一条刷卡数据进行下车站点识别正确性的检验。根据调查问卷可知Thcone=15(分钟)、Thctwo=25(分钟),则有换乘时间阈值为Thc=20(分钟)。对于第x=5天第k=2513232357个乘客的第i=1条交易数据,其在线路线路号XLHx,k,i=32的下车站点为筼箉街道,并且不是第x=5天最后一条刷卡数据,存在下一条第i+1=2条交易数据。第2条交易的上车站点编号15站点名称为松柏,与第x=5天第k=2513232357个乘客的第i=1条交易的下车站点筼箉街道的曼哈顿距离为L(松柏,筼箉街道)=410(米)<Lfy。以一天的00:00:00为参照以秒为单位数字型相对数值的第2条IC卡交易上车站点(包括常规公交、BRT和地铁)UPstationk,i+1交易时间为31876秒,以一天的00:00:00为参照以秒为单位数字型相对数值的第x=5天第k=2513232357个乘客的第i=1条IC卡交易在下车站点编号19名称为筼箉街道的下车时间为29856秒,因此有JYSJ2513232357,2-GYSJ19=31876-29856=2020(秒)>Thc=20分钟=1200秒,所以本条IC卡刷卡数据下车站点的识别不正确。判断第k=2513232357个乘客的交易数据没有全部都已经检验下车站点识别的正确性,因此将未检验下车站点正确性的数据按照本发明中步骤604进行,直到全部乘客全部交易都已经检验下车站点识别的正确性。
实施例2
本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析,对IC卡常规公交的刷卡数据进行识别上车站点(如图2)。常规公交刷卡数据共45,032,397条记录,数据文件采用dmp格式存储,数据文件由11个字段构成(如表10);卫星定位信息数据共311,080,161条记录,数据文件采用dmp格式存储,数据文件由22个字段构成(如表11)。
表10公交刷卡数据构成表
名称 | 类型 | 备注 |
SHGSD | VARchar2(15) | |
XLBHZ | VARchar2(10) | 线路号 |
CLBHZ | VARchar2(10) | 车辆编号 |
ZDDMZ | VARchar2(8) | |
CZYSJ | VARchar2(16) | |
KHZZZ | VARchar2(21) | 刷卡卡号 |
ZKLXZ | VARchar2(8) | |
KLXZZ | VARchar2(8) | |
JYRQZ | char(8) | 交易日期 |
JYSJZ | NUMBER | 交易时间 |
JYJEZ | NUMBER(14,2) | 交易金额 |
表11公交卫星定位信息数据构成表
根据xx市的实际情况,本实例设置Njcz=1;Tqx=20(秒);Tys=1800(秒);Tjl=20(秒);Tone=120(秒);Ttwo=300(秒)。对于第k=2513232357个乘客的第i=1条交易数据,存在下一条第i+1=2条交易数据,当JYRQk,i=JYRQk,i+1=20180105时,JYSJk,i+1-JYSJk,i=31876(秒)-27870(秒)=4006(秒)>20(秒),因此不做改动。对于第k=2513232357个乘客的第i=1条交易数据与第f=5873辆常规公交第j=6条记录,当JYRQk,i=GRQf,j=20180105、XLHk,i=GXLHf,j=32、CPHk,i=GCPHf,j=闽DZ5873时,计算min|JYSJk,i-GSJf,j|=6(秒)≤1800(秒),因此不做改动。将第k=2513232357个乘客的第i=1条交易数据的交易时间JYSJk,i=27870(秒)与第f=5873辆常规公交第j=6条记录的时间GSJf,j=27864(秒)转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值。因为本发明只用到了进站时的数据,因此对于第f=5873辆常规公交的J=23条数据,当GJCZf,j≠1,j=1,2,…,23则删除数据,否则不做改动。第f=5873辆常规公交第j=6条记录与第z=6个站点的站点信息,当GXLHf,j=ZDXLHZ=32、GZDBHf,j=ZDBHz=6时,第f=5873辆常规公交第j=6条记录即为到达第z=6个站点时的记录,此时的时间表示为GSJf,j,z=27864(秒)。对于按照交易先后排序的乘客交易数据与第f=5873辆常规公交的第j=6条记录,当XLHk,i=XLHk+1,i=XLHk+2,i=…=GXLHf,j=32、CPHk,i=CPHk+1,i=CPHk+2,i=…=GCPHf,j=闽DZ5873、JYRQk,i=JYRQk+1,i=…=GRQf,j=20180105时,计算|JYSJk,i-JYSJk+1,i|=3(秒),|JYSJk+1,i-JYSJk+2,i|=2(秒),…≤20(秒),则这些乘客为在同一个站点上车的一类乘客。根据本发明中步骤107计算可知,第z=6个站点名即是第k=2513232357个乘客的第i=1条交易数据与同一类乘客的上车站点名为UPstationk,i=UPstationk+1,i==UPstationk+2,i=…=ZDMz=第一医院。判断第k=2513232357个乘客的交易数据没有全部都匹配了上车站点,因此将未匹配上车站点的数据按照本发明中步骤108进行,直到全部乘客全部交易都匹配上了上车站点;可得最终一个月的数据预处理结果(如表12)和上车站点匹配结果(如表13)。
表12数据预处理结果表
表13上车站点匹配结果表
实施例3
本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析,对常规公交已知上车站点的记录进行下车站点匹配(如图3)。常规公交刷卡数据共45,032,397条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由11个字段构成(如表14);卫星定位信息数据共311,080,161条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由22个字段构成(如表15);BRT公交刷卡数据由xx市交通局提供,为xx市2018年1月份的公交刷卡数据,共13,268,640条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由5个字段构成(如表16);地铁刷卡数据由xx市交通局提供,为xx市2018年1月份的公交刷卡数据,共3,252,269条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由10个字段构成(如表17)。
表14公交刷卡数据构成表
表15公交卫星定位信息数据构成表
表16 BRT刷卡数据构成表
数据构成表
名称 | 类型 | 备注 |
TICKET_ID | VARchar2(30) | 逻辑卡号 |
TRANS_DATE | VARchar2(30) | 交易日期 |
TRANS_TIME | VARchar2(30) | 交易时间 |
DEV_ID | VARchar2(30) | 交易设备号 |
TICKET_CSN | VARchar2(30) | 物理卡号 |
STATUE | VARchar2(20) | 进出站标志 |
根据xx市的实际情况,本实例设置Lfy=1000(米)。对于第x=5天第k=2513232357个乘客的第i=1条交易数据,其不是第x=5天最后一条刷卡数据,存在下一条第i+1=2条交易数据,因此进行下一步。第2条交易为常规公交交易数据,上车站点在其线路上的编号为15,与第x=5天第k=2513232357个乘客的第i=1条交易的线路号XLHx,k,i=32在上车站点编号6以后的各站点曼哈顿距离为1693.49,2306.23,…,1401.06,1511.59米,其中有L(UPstationk,i+1,19)=min{1693.49,…,1511.59},并且L(UPstationk,i+1,19)=410(米)<Lfy,则第19个站点名是第x=5天第k=2513232357个乘客的第i=1条交易数据的下车站点名为DOWNstationk,i=ZDMz+e=筼箉街道。判断第k=2513232357个乘客的交易数据没有全部都匹配了下车站点,因此将未匹配下车站点的数据按照本发明中步骤203进行,直到全部乘客全部交易都匹配上了下车站点;可得最终一个月的数据预处理结果(如表18),可知全部IC卡数据常规公交公交使用者中大约有70.7%的人其下车站点可以通过出行链(乘客公共交通出行连示意图如图4)来识别。
表18下车站点匹配结果表
实施例4
本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析,对常规公交已知上车站点、部分IC卡刷卡记录已知下车站点的记录进行下车站点匹配。第x=29天第k=2513232357个乘客的第i=1条交易数据在第26天的记录中有上车站点UPstationk=UPstationk,i=人才中心的乘车记录,历史记录中上车站点UPstationk=人才中心对应的下车站点DOWNstatio nk=镇海路口即为第x=29天第k=2513232357个乘客的第i=1条交易数据的下车站点DOWNstatio nk,i=镇海路口。判断第k=2513232357个乘客的交易数据没有全部都匹配了下车站点,因此将未匹配下车站点的数据按照本发明中步骤303进行,直到全部乘客全部交易都匹配上了下车站点;可得最终一个月的数据预处理结果(如表19),可知全部IC卡数据常规公交公交使用者中大约有6.6%的人其下车站点可以通过历史乘车数据来识别。
表19下车站点匹配结果表
实施例5
本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析,对常规公交已知上车站点、部分IC卡刷卡记录已知下车站点的记录进行下车站点匹配。第x=12天第k=2513232357个乘客的第i=1条交易在第f=661辆常规公交上,公交车在其上车编号为16的站点UPstationk,i,z=筼箉街道后可能下车的站点编号为17,18,19,20,21,则由该车已判断出上、下车站点的乘客记录有P(GDOWNstation17|GUPstation16)=0.1、P(GDOWNstation18|GUPstation16)=0.1、P(GDOWNstation19|GUPstation16)=0.2、P(GDOWNstation20|GUPstation16)=0.3、P(GDOWNstation21|GUPstation16)=0.3,则第k=2513232357个乘客的第i=1条交易数据在其后各站点的下车概率为P(DOWNstation2513232357,1,17|UPstation2513232357,1,16)=0.1、P(DOWNstation2513232357,1,18|UPstation2513232357,1,16)=0.1、P(DOWNstation2513232357,1,19|UPstation2513232357,1,16)=0.2、P(DOWNstation2513232357,1,20|UPstation2513232357,1,16)=0.3、P(DOWNstation2513232357,1,21|UPstation2513232357,1,16)=0.3,相当于0.1个第k=2513232357个乘客在第17个站点下车、0.1个第k=2513232357个乘客在第18个站点下车、0.2个第k=2513232357个乘客在第19个站点下车、0.3个第k=2513232357个乘客在第20个站点下车、0.3个第k=2513232357个乘客在第21个站点下车。判断第k=2513232357个乘客的交易数据没有全部都匹配了下车站点,因此将未匹配下车站点的数据按照本发明中步骤402进行,直到全部乘客全部交易都匹配了下车站点;可得最终一个月的数据预处理结果(如表20),可知全部IC卡数据常规公交公交使用者中大约有22.7%的人其下车站点可以通过贝叶斯后验最大似然估计来识别。
表20下车站点匹配结果表
实施例6
本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析,对乘坐常规公交已经匹配出上车站点的乘客IC卡刷卡数据进行检验匹配的正确性。常规公交刷卡数据共45,032,397条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由11个字段构成(如表21);卫星定位信息数据共311,080,161条记录,数据文件采用Orcale数据库的dmp格式存储,数据文件由22个字段构成(如表22)。
表21公交刷卡数据构成表
表22公交卫星定位信息数据构成表
根据xx市的实际情况,本实例设置Tjl=20(秒)。第f=1辆常规公交车的数据,其到达第1,…,z,…,Z=13个站点的时间以一天的00:00:00为参照以秒为单位数字型的相对数值分别为GSJ1,…,GSJz,…,GSJZ=60390,60696,…,63108,63375。根据本发明中步骤502可得,到达第1,…,z,…,13个站点同一类乘客的第一个刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z=60432,60730,…,63111,0,因为第13个站点没有乘客上车,因此本实施例设置为0。计算任意两个相邻站点的第一个乘客刷卡时间间隔与车辆卫星定位信息到站时间间隔差值的平均值为标准偏差为计算两样本的t检验,转换为差值序列总体均值是否为0的单样本t检验,因此有根据此值通过SPSS计算SIG值(即为显著性差异),得到结果SIG=0<0.05,则有在0.05的显著性水平下两曲线显著相关,即为以95%的概率接受上车站点匹配的正确性(如表23)。
表23配对T检验相关性表格
实施例7
本实例采用xx市2018年1月IC卡常规公交刷卡34573853条已经识别上、下车站点的数据(如表24)为例进行分析。
表24已经识别上、下车站点的公交刷卡数据构成表
根据xx市的实际情况,本实例设置Lfy=1000(米)。根据调查问卷可知Thcone=15(分钟)、Thctwo=25(分钟),则有换乘时间阈值为Thc=20(分钟)。对于第x=5天第k=2513232357个乘客的第i=1条交易数据,其在线路线路号XLHx,k,i=32的下车站点为筼箉街道,并且不是第x=5天最后一条刷卡数据,存在下一条第i+1=2条交易数据。第2条交易的上车站点编号15站点名称为松柏,与第x=5天第k=2513232357个乘客的第i=1条交易的下车站点筼箉街道的曼哈顿距离为L(松柏,筼箉街道)=410(米)<Lfy。以一天的00:00:00为参照以秒为单位数字型相对数值的第2条IC卡交易上车站点(包括常规公交、BRT和地铁)UPstationk,i+1交易时间为31876秒,以一天的00:00:00为参照以秒为单位数字型相对数值的第x=5天第k=2513232357个乘客的第i=1条IC卡交易在下车站点编号19名称为筼箉街道的下车时间为29856秒,因此有JYSJ2513232357,2-GYSJ19=31876-29856=2020(秒)>Thc=20分钟=1200秒,所以本条IC卡刷卡数据下车站点的识别不正确。判断第k=2513232357个乘客的交易数据没有全部都已经检验下车站点识别的正确性,因此将未检验下车站点正确性的数据按照本发明中步骤604进行,直到全部乘客全部交易都已经检验下车站点识别的正确性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (7)
1.一种多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:所述方法包括如下步骤:
步骤S1、根据常规公交的IC刷卡数据以及运营车辆数据,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别;
步骤S2、根据常规公交、BRT和地铁的IC刷卡数据以及运营车辆数据,进行基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别;
步骤S3、对未识别下车站点的数据进行基于历史乘车记录的常规公交IC刷卡乘客下车站点识别;
步骤S4、对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别;
步骤S5、对已匹配上车站点的常规公交IC刷卡数据,进行基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验;同时,对已匹配下车站点的常规公交IC刷卡数据,进行基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验。
2.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S1中,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:
步骤101、判断第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤102;若否,则进入步骤103;
步骤102、对于第i条交易数据和第i+1条交易数据,判断是否同时满足式(1)和式(2):
JYRQk,i=JYRQk,i+1 (1)
JYSJk,i+1-JYSJk,i<Tqx (2)
在式(1)中,JYRQk,i为第i条交易数据的交易日期,JYRQk,i+1为第i+1条交易数据的交易日期;在式(2)中,JYSJk,i为第i条交易数据的交易时间,JYSJk,i+1为第i+1条交易数据的交易时间,Tqx为最大连续刷卡时间间隔;
若同时满足式(1)和式(2),则删除该第k个乘客的第i+1条交易数据,并进入步骤103;
若不同时满足式(1)和式(2),则不做改动,并进入步骤103;
步骤103、寻找第f辆常规公交的第j条记录,判断第f辆常规公交的第j条记录与第k个乘客的第i条交易数据是否同时满足式(3)、式(4)和式(5):
JYRQk,i=GRQf,j (3)
XLHk,i=GXLHf,j (4)
CPHk,i=GCPHf,j (5)
在式(3)中,JYRQk,i为第k个乘客的第i条交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(4)中,XLHk,i为第k个乘客的第i条交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(5)中,CPHk,i为第k个乘客的第i条交易数据的车牌号,GCPHf,j为第f辆常规公交第j条记录的车牌号;
若同时满足式(3)、式(4)和式(5),则继续判断是否满足式(6):
(min|JYSJk,i-GSJf,j|)>Tys (6)
在式(6)中,JYSJk,i为第k个乘客的第i条交易数据的交易时间,GSJf,j为第f辆常规公交的第j条记录的时间,Tys为最小公交刷卡与公交到站时间差值;
如果满足式(6),则删除该第k个乘客的第i条交易数据,并进入步骤108;
如果不满足式(6),则不做改动,并进入步骤104;
若不同时满足式(3)、式(4)和式(5),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤104、将第k个乘客的第i条交易数据的交易时间JYSJk,i和第f辆常规公交的第j条记录的时间GSJf,j,均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值;
步骤105、对于第f辆常规公交所包括的J条数据,逐一判断每一条数据是否为进站时的值,即满足式(7):
GJCZf,j≠Njcz,j=1,2,…,J (7)
在式(7)中,Njcz为进站时的值,GJCZf,j表示第f辆常规公交的第j条数据的状态取值;
如果是,则保留对应的数据,如果否,则删除对应的数据;且在J条数据都判断完后,进入步骤106;
步骤106、寻找第z个站点的站点信息,判断第z个站点的站点信息与第f辆常规公交的第j条记录是否同时满足式(8)和式(9):
GXLHf,j=ZDXLHZ (8)
GZDBHf,j=ZDBHz (9)
在式(8)中,GXLHf,j为第f辆常规公交的第j条记录的线路号,ZDXLHZ为第z个站点的线路号;在式(9)中,GZDBHf,j为第f辆常规公交的第j条记录的站点编号,ZDBHz为第z个站点的站点编号;
若同时满足式(8)和式(9),则该第j条记录即为到达第z个站点时的记录,将该第j条记录的交易时间记为GSJf,j,z,并进入步骤107;
若不同时满足式(8)和式(9),则从第f辆常规公交的记录中删除该第j条记录,并进入步骤103;
步骤107、对于按照交易先后排序的第k,k+1,...,k+n个乘客的交易数据和第f辆常规公交的第j条记录,判断是否同时满足式(10)、式(11)、式(12)和式(13):
XLHk,i=XLHk+1,i=...=XLHk+n,i=GXLHf,j (10)
CPHk,i=CPHk+1,i=...=CPHk+n,i=GCPHf,j (11)
JYRQk,i=JYRQk+1,i=...=JYRQk+n,i=GRQf,j (12)
|JYSJk,i-JYSJk+1,i|,|JYSJk+1,i-JYSJk+2,i|,…≤Tjl (13)
在式(10)中,XLHk,i=XLHk+1,i=...=XLHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(11)中,CPHk,i=CPHk+1,i=...=CPHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的车牌号,GCPHf,j为第f辆常规公交的第j条记录的车牌号;在式(12)中,JYRQk,i=JYRQk+1,i=...=JYRQk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(13)中,Tjl为两公交站点间的最大运行时间差值;
若同时满足式(10)、式(11)、式(12)和式(13),则说明第k,k+1,...,k+n个乘客均为在同一个站点上车的同一类乘客;
同时,针对常规公交在真实到站后GPS仍未显示到站的情况,分别设置第一缓冲时间Tone和第二缓冲时间Ttwo;
如果第k,k+1,...,k+n个乘客的交易数据的交易时间均处在GSJf,j,z-Ttwo到GSJf,j,z-Tone之间,即满足式(14):
GSJf,j,z+Tone>JYSJk,i,JYSJk+1,i,…>GSJf,j,z-Ttwo (14)
且第i条交易数据的交易时间JYSJk,i与GSJf,j之间的差值最小,即满足式(15):
min{|JYSJk,i-GSJf,j,z|},z=1,2,…,Z (15)
则第z个站点名即为第k个乘客的第i条交易数据的上车站点名,即:
UPstationk,i=ZDMz (16)
同时,同一类的第k+1,...,k+n个乘客的第i条交易数据的上车站点名也为ZDMz,即:
UPstationk+1,i=...=UPstationk+n,i=ZDMz (17)
,之后进入步骤108;
否则,如果不同时满足式(14)和式(15),则说明第k个乘客的交易数据无法匹配上车站点,并进入步骤108;
若不同时满足式(10)、式(11)、式(12)和式(13),则删除该第k个乘客的第i条交易数据,并进入步骤108;
步骤108、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤109,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤101;
步骤109、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤101。
3.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S2中,基于出行链方法进行常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤202;若否,则进入步骤203;
步骤202、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z) (18)
其中有:
L(UPstationk,i+1,z+e)=min{L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z)}(19)
当式(19)满足式(20)和式(21)时:
L(UPstationk,i+1,z+e)<Lfy (20)
JYSJk,i+1>GYSJz+e (21)
在式(20)中,Lfy为设置的最短距离的阈值;在式(21)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e (22)
之后进入步骤203;
当式(19)不满足式(20)和式(21)时,则直接进入步骤204;
步骤203、第x天第k个乘客的第1条交易数据的上车站点UPstationk,1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:
L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z) (23)
其中有:
L(UPstationk,1,z+e)=min{L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z)}(24)
当式(24)满足式(25)时:
L(UPstationk,1,z+e)<Lfy (25)
在式(25)中,Lfy为设置的最短距离的阈值;
则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:
DOWNstationk,i=ZDMz+e (26)
之后进入步骤204;
当式(24)不满足式(25)时,则直接进入步骤204;
步骤204、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤205,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤201;
步骤205、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤201。
4.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S3中,所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstationk=UPstationk,i的乘车历史记录;
如果是,则乘车历史记录中上车站点UPstationk对应的下车站点DOWNstationk即为第k个乘客的第i条交易数据的下车站点DOWNstationk,i,并进入步骤302;如果否,则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤302、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤303;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;
步骤303、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤301。
5.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S4中,所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:
步骤401、设第x天第k个乘客的第i条交易数据在第f辆常规公交上,且该常规公交在第k个乘客的上车站点UPstationk,i,z后到达的站点分别为z+1,…,z+e,…,Z;通过该常规公交已判断出的上、下车站点的乘客记录,可得:
其中,P(GDOWNstationz+e|GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率;P(GDOWNstationz+e,GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量;P(GUPstationz)表示第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量;
则第k个乘客的第i条交易数据在之后各站点的下车概率为:
P(DOWNstationk,i,z+e|UPstationk,i,z)=P(GDOWNstationz+e|GUPstationz),e=1,2,…,(Z-z) (28)
相当于第k个乘客在站点z上车后,有P(GDOWNstationz+e|GUPstationz)的概率在第z+e个站点下车;
步骤402、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤403;如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤401;
步骤403、判断第k个乘客是否为最后一个有下车站点未匹配交易数据的乘客,如果是,则结束下车站点匹配;如果否,则将下一个有未匹配下车站点交易数据的乘客作为第k个乘客,并返回步骤401。
6.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S5中,所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤:
步骤501、在第f辆常规公交的数据中,设该常规公交到达第1,…,z,…,Z个站点的时间分别为GSJ1,…,GSJz,…,GSJZ;
步骤502、对于到达第z个站点,且按照交易先后排序的第kz,k+1z,k+2z,…个乘客的交易数据,如果相邻两个乘客之间的交易时间的差值均小于等于设置的两公交站点间的最大运行时间差值,即:
|JYSJk,z-JYSJk+1,z|,|JYSJk+1,z-JYSJk+2,z|,…≤Tjl (29)
在式(29)中,Tjl为两公交站点间的最大运行时间差值;
则第kz,k+1z,k+2z,…个乘客均为在第z个站点上车的同一类乘客,且第一个到达第z个站点的乘客的刷卡时间为JYSJk,z,同理,到达第1,…,z,…,Z个站点的第一个乘客的刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z;
步骤503、计算任意两个相邻站点的第一个乘客的刷卡时间间隔与车辆GPS到站时间间隔之间差值的平均值Tavg:
计算标准偏差Tbzpc:
步骤504、计算Tavg和Tbzpc两个样本的t检验,并转换为差值序列总体均值是否为0的单样本t检验,因此有:
根据计算出的t值,通过SPSS计算出SIG值,当SIG<0.05时,则以95%的概率接受上车站点匹配的正确性,否则就不接受上车站点匹配的正确性。
7.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S5中,所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤:
步骤601、对所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合,由此确定出随着换乘时间阈值的增大,识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[Thcone,Thctwo],并将换乘时间阈值最终确定为:
步骤602、判断第x天第k个乘客的第i条交易数据在站点编号z上车、站点编号z+e下车的数据之后是否存在第i+1条交易数据,若是,则进入步骤603;若否,则进入步骤604;
步骤603、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstationk,i的曼哈顿距离为:
L(UPstationk,i+1,DOWNstationk,i) (34)
当式(34)满足式(35)和式(36)时:
L(UPstationk,i+1,DOWNstationk,i)<Lfy (35)
JYSJk,i+1-GYSJz+e≤Thc (36)
在式(35)中,Lfy为设置的最短距离的阈值;在式(36)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第x天第k个乘客的第i条交易数据在站点编号z+e的下车时间,即为所乘坐的第f辆常规公交到达站点DOWNstationk,i的时间;
则第x天第k个乘客的第i条交易数据的下车站点匹配正确,之后进入步骤604;
当式(34)不满足式(35)和式(36)时,则第x天第k个乘客的第i条交易数据的下车站点匹配不正确,之后进入步骤604;
步骤604、判断第k个乘客的交易数据是否均已经检验下车站点的正确性,若是,则进入步骤605;若否,则将未检验下车站点的数据作为第i条交易数据,并返回步骤602;
步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客,若否,则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客,并返回步骤602;若是,则结束下车站点正确性的检验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123126.0A CN109903553B (zh) | 2019-02-19 | 2019-02-19 | 多源数据挖掘的公交车上下车站点识别和检验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123126.0A CN109903553B (zh) | 2019-02-19 | 2019-02-19 | 多源数据挖掘的公交车上下车站点识别和检验方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903553A CN109903553A (zh) | 2019-06-18 |
CN109903553B true CN109903553B (zh) | 2021-07-09 |
Family
ID=66944986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910123126.0A Active CN109903553B (zh) | 2019-02-19 | 2019-02-19 | 多源数据挖掘的公交车上下车站点识别和检验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903553B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276977B (zh) * | 2019-07-29 | 2021-01-26 | 广东工业大学 | 一种公交站点匹配方法、装置、设备及可读存储介质 |
CN111339159B (zh) * | 2020-02-24 | 2023-08-18 | 交通运输部科学研究院 | 一种一票制公交数据的分析挖掘方法 |
CN111310694B (zh) * | 2020-02-26 | 2023-07-14 | 苏州猫头鹰智能科技有限公司 | 基于预测的低帧延迟行为识别方法 |
CN111445145A (zh) * | 2020-03-27 | 2020-07-24 | 北京嘀嘀无限科技发展有限公司 | 一种公交下车站点的确定方法、装置、存储介质和电子设备 |
CN112733891B (zh) * | 2020-12-29 | 2023-08-01 | 华侨大学 | 对出行链断链时公交ic卡乘客进行下车站点识别的方法 |
CN115527361A (zh) * | 2021-06-24 | 2022-12-27 | 北京市交通信息中心 | 识别公交乘客上车站点和下车站点的方法和装置 |
CN115810271B (zh) * | 2023-02-07 | 2023-04-28 | 安徽交欣科技股份有限公司 | 一种基于刷卡数据判断客流走廊位置的方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060087067A (ko) * | 2005-01-28 | 2006-08-02 | 주식회사 아이컨택트 | 실시간 버스 정보를 이용한 승객 하차 지점 알림 서비스 제공 시스템 및 방법 |
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
CN104766473A (zh) * | 2015-02-09 | 2015-07-08 | 北京工业大学 | 基于多模式公交数据匹配的公共交通出行特征提取方法 |
CN105869388A (zh) * | 2016-05-31 | 2016-08-17 | 苏州朗捷通智能科技有限公司 | 一种公交客流数据采集及起讫点的分析方法及系统 |
JP2016207095A (ja) * | 2015-04-27 | 2016-12-08 | 株式会社日本総合研究所 | 情報処理装置、情報処理プログラムおよび情報処理方法 |
CN106530190A (zh) * | 2016-10-28 | 2017-03-22 | 西安建筑科技大学 | 基于历史出行模式判断公交ic卡乘客下车站点的方法 |
CN106570182A (zh) * | 2016-11-12 | 2017-04-19 | 中兴软创科技股份有限公司 | 公交车辆下车站点识别方法与系统 |
CN106875314A (zh) * | 2017-01-31 | 2017-06-20 | 东南大学 | 一种城市轨道交通线网客流od动态估计方法 |
CN107609677A (zh) * | 2017-08-17 | 2018-01-19 | 华侨大学 | 一种基于出租车gps大数据的定制公交线路规划方法 |
CN107767669A (zh) * | 2017-10-24 | 2018-03-06 | 东南大学 | 基于WiFi和蓝牙识别的公交线路客流OD估计方法 |
CN107818412A (zh) * | 2017-10-18 | 2018-03-20 | 福州大学 | 一种基于MapReduce的大规模公交乘客OD并行计算方法 |
CN108009972A (zh) * | 2017-10-24 | 2018-05-08 | 北京交通大学 | 一种基于多源数据校核的多方式出行o-d需求估计方法 |
-
2019
- 2019-02-19 CN CN201910123126.0A patent/CN109903553B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060087067A (ko) * | 2005-01-28 | 2006-08-02 | 주식회사 아이컨택트 | 실시간 버스 정보를 이용한 승객 하차 지점 알림 서비스 제공 시스템 및 방법 |
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
CN104766473A (zh) * | 2015-02-09 | 2015-07-08 | 北京工业大学 | 基于多模式公交数据匹配的公共交通出行特征提取方法 |
JP2016207095A (ja) * | 2015-04-27 | 2016-12-08 | 株式会社日本総合研究所 | 情報処理装置、情報処理プログラムおよび情報処理方法 |
CN105869388A (zh) * | 2016-05-31 | 2016-08-17 | 苏州朗捷通智能科技有限公司 | 一种公交客流数据采集及起讫点的分析方法及系统 |
CN106530190A (zh) * | 2016-10-28 | 2017-03-22 | 西安建筑科技大学 | 基于历史出行模式判断公交ic卡乘客下车站点的方法 |
CN106570182A (zh) * | 2016-11-12 | 2017-04-19 | 中兴软创科技股份有限公司 | 公交车辆下车站点识别方法与系统 |
CN106875314A (zh) * | 2017-01-31 | 2017-06-20 | 东南大学 | 一种城市轨道交通线网客流od动态估计方法 |
CN107609677A (zh) * | 2017-08-17 | 2018-01-19 | 华侨大学 | 一种基于出租车gps大数据的定制公交线路规划方法 |
CN107818412A (zh) * | 2017-10-18 | 2018-03-20 | 福州大学 | 一种基于MapReduce的大规模公交乘客OD并行计算方法 |
CN107767669A (zh) * | 2017-10-24 | 2018-03-06 | 东南大学 | 基于WiFi和蓝牙识别的公交线路客流OD估计方法 |
CN108009972A (zh) * | 2017-10-24 | 2018-05-08 | 北京交通大学 | 一种基于多源数据校核的多方式出行o-d需求估计方法 |
Non-Patent Citations (2)
Title |
---|
《城市公交乘客下车站点推算方法和有效性评价》;李佳怡等;《武汉大学学报.信息科学版》;20180831;第43卷(第8期);1172-1176 * |
《基于公交数据的乘客出行特征分析》;呙娟;《工程科技II辑》;20170215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109903553A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903553B (zh) | 多源数据挖掘的公交车上下车站点识别和检验方法 | |
CN113256987B (zh) | 基于多源数据融合的居民出行链生成方法及共乘查询方法 | |
Wang et al. | Bus passenger origin-destination estimation and related analyses using automated data collection systems | |
Salter et al. | Highway traffic analysis and design | |
Barry et al. | Use of entry-only automatic fare collection data to estimate linked transit trips in New York City | |
CN108922178B (zh) | 基于公交多源数据的公交车辆实时满载率计算方法 | |
CN110853156B (zh) | 融合公交gps轨迹与ic卡数据的乘客od识别方法 | |
CN111932925A (zh) | 一种公共交通站点的出行客流的确定方法、装置及系统 | |
CN110188923B (zh) | 一种基于大数据技术的多模式公交客流推算方法 | |
CN107590239B (zh) | 一种基于ic卡数据测定地铁站点公共自行车接驳半径的方法 | |
CN109637134A (zh) | 一种公交设备匹配方法 | |
CN113627438B (zh) | 基于票据识别和配置引擎自动报销差旅费的方法及系统 | |
Arnone et al. | The potential of e-ticketing for public transport planning: the Piedmont region case study | |
CN114358808A (zh) | 基于多源数据融合的公交od估计及分配方法 | |
CN107578619B (zh) | 基于ic卡数据测定地铁站点公共自行车服务范围的方法 | |
Andrew et al. | Operational evaluation of the bus rapid transit system: Case study of Dar es Salaam city | |
CN113408833A (zh) | 一种公共交通重点区域识别方法、装置及电子设备 | |
CN113468243A (zh) | 地铁客流分析与预测方法及分析与预测系统 | |
CN116090785B (zh) | 针对大型活动散场场景两阶段的定制公交规划方法 | |
CN112488582A (zh) | 一种基于多源数据的地铁列车开行方案设计方法 | |
Tian et al. | Identifying residential and workplace locations from transit smart card data | |
Mosallanejad et al. | Origin-destination estimation of bus users by smart card data | |
CN111339159B (zh) | 一种一票制公交数据的分析挖掘方法 | |
CN111754760B (zh) | 一种确定公交下车站点的方法、装置及上位机 | |
Hussain et al. | Use of smart card data for zonal level public transit OD matrix estimation: literature review and research gaps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |