CN109903553B

CN109903553B - 多源数据挖掘的公交车上下车站点识别和检验方法

Info

Publication number: CN109903553B
Application number: CN201910123126.0A
Authority: CN
Inventors: 王成; 崔紫薇; 陈德蕾
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2021-07-09
Anticipated expiration: 2039-02-19
Also published as: CN109903553A

Abstract

本发明提供一种多源数据挖掘的公交车上下车站点识别和检验方法，包括根据常规公交的IC刷卡及运营车辆数据，进行基于聚类和关联分析的IC刷卡乘客上车站点识别；根据常规公交、BRT和地铁的IC刷卡及运营车辆数据，进行基于常规公交、BRT、地铁组成的IC刷卡乘客出行链下车站点识别；对未识别下车站点的数据进行基于历史乘车记录的IC刷卡乘客下车站点识别；对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别；对匹配上车站点的数据进行基于配对样本t检验的IC刷卡乘客上车站点识别检验；对匹配下车站点的数据进行基于换乘行为识别的IC刷卡乘客下车站点识别检验。本发明方法适用范围广、站点识别精度高。

Description

多源数据挖掘的公交车上下车站点识别和检验方法

技术领域

本发明涉及公交信息数据处理领域，特别涉及一种多源数据挖掘的公交车上下车站点识别和检验方法。

背景技术

随着公共交通相关技术与设备的升级和更新、公交卡系统的普及以及IC卡使用量的增加，大量的乘客IC卡刷卡数据和卫星定位信息数据为公共交通数据的分析提供了可行性。基于乘客IC卡刷卡数据中的多源数据挖掘得到的乘客完整出行数据，能够快速、动态地获取公共交通出行乘客的居民出行OD矩阵，而这些OD矩阵可以作为公交线路调整与线网的优化、接驳线设计、换乘政策的研究、客流特征(客流走廊、集散地、客流量等)等方面提供依据，进而提高城市公交服务水平，满足居民出行需求。

目前，各大城市普遍采用一票制IC卡系统，IC卡中的常规公交信息只记录乘客上车刷卡时间及乘坐的车辆编号等信息，没有准确的上车站点名称及下车站点信息。上车站点识别方法的研究，IC卡刷卡数据、车辆GPS数据、AVL数据等成为目前辅助公交IC数据信息识别的有效依据，聚类算法等计算机算法也越来越多的被应用于上车站点判断方法的研究。下车站点识别方面，按照所使用的不同数据分为三类：第一类是应用常规公交乘客IC卡刷卡数据及GPS数据，一些学者基于各个站点对乘客吸引权重公交乘客下车识别方法，优点是使用统一权值、工作量较小，缺点是精度的高低取决于乘客吸引权值的求解；还有一些学者基于单个乘客单次出行链公交乘客下车识别方法，优点是单一乘客进行分析、可知出行规律、精度较高，缺点是处理过程复杂，适用性差。第二类是基于城市居民手机定位数据，同时融合多源交通数据进行居民出行流量分配的方法，推估其道路流量需求并分析交通网络的运行状况。第三类是基于常规公交IC卡、GPS数据和地铁或调查数据，一些学者在公交IC卡数据的基础上加入了地铁数据用以完善居民出行链，提高车辆下车识别的成功率，还有一些学者基于IC卡数据、跟车调查数据和轨道交通调查数据等，针对不同票制线路和有无调查数据情况，将所有线路分为3种类型并分别建立分线路、分方向的站间OD矩阵，在此基础上建立基于IC卡数据的公交出行站群OD矩阵。而在检验时，目前常见的检验方法有：与实际结果比较、客流分步与已知一致与否、任选某IC卡的实际出行行为分析比较判断、匹配得到的数据自身验证、与别人实验的结果对比、公交基本客流数据(站点客流数据、线路客流等)、公交运营指标数据(客流量指标、车辆运营指标、公交乘客出行特征指标等)。

经检索，申请日为2015.06.26，申请号为201510364696.0的中国发明专利公开了一种基于车辆GPS和公交IC卡数据的公交换乘识别方法；申请日为2016.10.28，申请号为201610967221.5的中国发明专利公开了一种基于历史出行模式判断公交IC卡乘客下车站点的方法；申请日为2016.11.12，申请号为201610996132.3的中国发明专利公开了一种公交车辆下车站点识别方法与系统；申请日为2016.11.15，申请号为201611002208.2的中国发明专利公开了一种基于IC卡的公交车辆当日下车站点识别方法与系统；申请日为2018.03.13，申请号为201810203079.6的中国发明专利公开了一种基于历史出行特征的公交乘客实时识别方法。但是，以上发明专利在进行站点识别时，都只融合了常规公交的GPS、常规公交的IC卡数据和公交站点位置数据，且方法单一，这导致乘客对普通公交车上下车站点识别、换乘行为识别和判别的适用范围窄，精度偏低，无法满足实际的工程应用需求。

本发明方法与已有典型下车站点识别方法存在有较大区别，可从方法体系、数据量适用范围以及识别率等方面进行综合分析对比，具体如表1所示：

表1本发明与已有典型下车站点识别方法的不同点分析比对

发明内容

本发明要解决的技术问题，在于提供一种多源数据挖掘的公交车上下车站点识别和检验方法，通过该方法可解决现有技术中存在的对普通公交车上下车站点识别、换乘行为识别和判别的精度偏低，适用范围窄，无法满足实际的工程应用需求的问题。

本发明是这样实现的：多源数据挖掘的公交车上下车站点识别和检验方法，所述方法包括如下步骤：

步骤S1、根据常规公交的IC刷卡数据以及运营车辆数据，对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类，并进行关联分析确定常规公交IC刷卡乘客上车站点识别；

步骤S2、根据常规公交、BRT和地铁的IC刷卡数据以及运营车辆数据，进行基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别；

步骤S3、对未识别下车站点的数据进行基于历史乘车记录的常规公交IC刷卡乘客下车站点识别；

步骤S4、对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别；

步骤S5、对已匹配上车站点的常规公交IC刷卡数据，进行基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验；同时，对已匹配下车站点的常规公交IC刷卡数据，进行基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验。

进一步地，在所述步骤S1中，对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类，并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:

步骤101、判断第k个乘客的第i条交易数据之后是否存在第i+1条交易数据，若是，则进入步骤102；若否，则进入步骤103；

步骤102、对于第i条交易数据和第i+1条交易数据，判断是否同时满足式(1)和式(2)：

JYRQ_k,i＝JYRQ_k,i+1 (1)

JYSJ_k,i+1-JYSJ_k,i<T_qx (2)

在式(1)中，JYRQ_k,i为第i条交易数据的交易日期，JYRQ_k,i+1为第i+1条交易数据的交易日期；在式(2)中，JYSJ_k,i为第i条交易数据的交易时间，JYSJ_k,i+1为第i+1条交易数据的交易时间，T_qx为最大连续刷卡时间间隔；

若同时满足式(1)和式(2)，则删除该第k个乘客的第i+1条交易数据，并进入步骤103；

若不同时满足式(1)和式(2)，则不做改动，并进入步骤103；

步骤103、寻找第f辆常规公交的第j条记录，判断第f辆常规公交的第j条记录与第k个乘客的第i条交易数据是否同时满足式(3)、式(4)和式(5)：

JYRQ_k,i＝GRQ_f,j (3)

XLH_k,i＝GXLH_f,j (4)

CPH_k,i＝GCPH_f,j (5)

在式(3)中，JYRQ_k,i为第k个乘客的第i条交易数据的交易日期，GRQ_f,j为第f辆常规公交的第j条记录的交易日期；在式(4)中，XLH_k,i为第k个乘客的第i条交易数据的线路号，GXLH_f,j为第f辆常规公交的第j条记录的线路号；在式(5)中，CPH_k,i为第k个乘客的第i条交易数据的车牌号，GCPH_f,j为第f辆常规公交第j条记录的车牌号；

若同时满足式(3)、式(4)和式(5)，则继续判断是否满足式(6)：

(min|JYSJ_k,i-GSJ_f,j|)>T_ys (6)

在式(6)中，JYSJ_k,i为第k个乘客的第i条交易数据的交易时间，GSJ_f,j为第f辆常规公交的第j条记录的时间，T_ys为最小公交刷卡与公交到站时间差值；

如果满足式(6)，则删除该第k个乘客的第i条交易数据，并进入步骤108；

如果不满足式(6)，则不做改动，并进入步骤104；

若不同时满足式(3)、式(4)和式(5)，则删除该第k个乘客的第i条交易数据，并进入步骤108；

步骤104、将第k个乘客的第i条交易数据的交易时间JYSJ_k,i和第f辆常规公交的第j条记录的时间GSJ_f,j，均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值；

步骤105、对于第f辆常规公交所包括的J条数据，逐一判断每一条数据是否为进站时的值，即满足式(7)：

GJCZ_f,j≠N_jcz,j＝1,2,…,J (7)

在式(7)中，N_jcz为进站时的值，GJCZ_f,j表示第f辆常规公交的第j条数据的状态取值；

如果是，则保留对应的数据，如果否，则删除对应的数据；且在J条数据都判断完后，进入步骤106；

步骤106、寻找第z个站点的站点信息，判断第z个站点的站点信息与第f辆常规公交的第j条记录是否同时满足式(8)和式(9)：

GXLH_f,j＝ZDXLH_Z (8)

GZDBH_f,j＝ZDBH_z (9)

在式(8)中，GXLH_f,j为第f辆常规公交的第j条记录的线路号，ZDXLH_Z为第z个站点的线路号；在式(9)中，GZDBH_f,j为第f辆常规公交的第j条记录的站点编号，ZDBH_z为第z个站点的站点编号；

若同时满足式(8)和式(9)，则该第j条记录即为到达第z个站点时的记录，将该第j条记录的交易时间记为GSJ_f,j,z，并进入步骤107；

若不同时满足式(8)和式(9)，则从第f辆常规公交的记录中删除该第j条记录，并进入步骤103；

步骤107、对于按照交易先后排序的第k,k+1,...,k+n个乘客的交易数据和第f辆常规公交的第j条记录，判断是否同时满足式(10)、式(11)、式(12)和式(13)：

XLH_k,i＝XLH_k+1,i＝...＝XLH_k+n,i＝GXLH_f,j (10)

CPH_k,i＝CPH_k+1,i＝...＝CPH_k+n,i＝GCPH_f,j (11)

JYRQ_k,i＝JYRQ_k+1,i＝...＝JYRQ_k+n,i＝GRQ_f,j (12)

|JYSJ_k,i-JYSJ_k+1,i|,|JYSJ_k+1,i-JYSJ_k+2,i|,…≤T_jl (13)

在式(10)中，XLH_k,i＝XLH_k+1,i＝...＝XLH_k+n,i分别为第k,k+1,...,k+n个乘客的交易数据的线路号，GXLH_f,j为第f辆常规公交的第j条记录的线路号；在式(11)中，CPH_k,i＝CPH_k+1,i＝...＝CPH_k+n,i分别为第k,k+1,...,k+n个乘客的交易数据的车牌号，GCPH_f,j为第f辆常规公交的第j条记录的车牌号；在式(12)中，JYRQ_k,i＝JYRQ_k+1,i＝...＝JYRQ_k+n,i分别为第k,k+1,...,k+n个乘客的交易数据的交易日期，GRQ_f,j为第f辆常规公交的第j条记录的交易日期；在式(13)中，T_jl为两公交站点间的最大运行时间差值；

若同时满足式(10)、式(11)、式(12)和式(13)，则说明第k,k+1,...,k+n个乘客均为在同一个站点上车的同一类乘客；

同时，针对常规公交在真实到站后GPS仍未显示到站的情况，分别设置第一缓冲时间T_one和第二缓冲时间T_two；

如果第k,k+1,...,k+n个乘客的交易数据的交易时间均处在GSJ_f,j,z-T_two到GSJ_f,j,z-T_one之间，即满足式(14)：

GSJ_f,j,z+T_one>JYSJ_k,i,JYSJ_k+1,i,…>GSJ_f,j,z-T_two (14)

且第i条交易数据的交易时间JYSJ_k,i与GSJ_f,j之间的差值最小，即满足式(15):

min{|JYSJ_k,i-GSJ_f,j,z|},z＝1,2,…,Z (15)

则第z个站点名即为第k个乘客的第i条交易数据的上车站点名，即：

UPstation_k,i＝ZDM_z (16)

同时，同一类的第k+1,...,k+n个乘客的第i条交易数据的上车站点名也为ZDM_z，即：

UPstation_k+1,i＝...＝UPstation_k+n,i＝ZDM_z (17)

，之后进入步骤108；

否则，如果不同时满足式(14)和式(15)，则说明第k个乘客的交易数据无法匹配上车站点，并进入步骤108；

若不同时满足式(10)、式(11)、式(12)和式(13)，则删除该第k个乘客的第i条交易数据，并进入步骤108；

步骤108、判断第k个乘客的交易数据是否均匹配了上车站点，如果是，则进入步骤109，如果否，则将未匹配上车站点的交易数据作为第i条交易数据，并返回步骤101；

步骤109、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客，如果是，则结束上车站点匹配；如果否，则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客，并返回步骤101。

进一步地，在所述步骤S2中，基于出行链方法进行常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据，若是，则进入步骤202；若否，则进入步骤203；

步骤202、第i+1条交易数据的上车站点UPstation_k,i+1与第x天第k个乘客的第i条交易数据在线路号为XLH_x,k,i、站点编号为z的上车站点UPstation_k,i之后的各站点的曼哈顿距离为：

L(UPstation_k,i+1，z+1),…,L(UPstation_k,i+1，z+e),…,L(UPstation_k,i+1，Z) (18)

其中有：

L(UPstation_k,i+1，z+e)＝min{L(UPstation_k,i+1，z+1),…,L(UPstation_k,i+1，z+e),…,L(UPstation_k,i+1，Z)}

(19)

当式(19)满足式(20)和式(21)时：

L(UPstation_k,i+1，z+e)<L_fy (20)

JYSJ_k,i+1>GYSJ_z+e (21)

在式(20)中，L_fy为设置的最短距离的阈值；在式(21)中，JYSJ_k,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstation_k,i+1的交易时间；GYSJ_z+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间；

则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名，即：

DOWNstation_k,i＝ZDM_z+e (22)

之后进入步骤203；

当式(19)不满足式(20)和式(21)时，则直接进入步骤204；

步骤203、此时，第x天第k个乘客的第i条交易数据为第k个乘客在第x天的最后一条交易数据。第x天第k个乘客的第1条交易数据的上车站点UPstation_k,1与第x天第k个乘客的第i条交易数据在线路号为XLH_x,k,i、站点编号为z的上车站点UPstation_k,i之后的各站点的曼哈顿距离为：

L(UPstation_k,1，z+1),…,L(UPstation_k,1，z+e),…,L(UPstation_k,1，Z) (23)

其中有：

L(UPstation_k,1，z+e)＝min{L(UPstation_k,1，z+1),…,L(UPstation_k,1，z+e),…,L(UPstation_k,1，Z)}

(24)

当式(24)满足式(25)时：

L(UPstation_k,1，z+e)<L_fy (25)

在式(25)中，L_fy为设置的最短距离的阈值；

DOWNstation_k,i＝ZDM_z+e

(26)

之后进入步骤204；

当式(24)不满足式(25)时，则直接进入步骤204；

步骤204、判断第k个乘客的交易数据是否均匹配了上车站点，如果是，则进入步骤205，如果否，则将未匹配上车站点的交易数据作为第i条交易数据，并返回步骤201；

步骤205、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客，如果是，则结束上车站点匹配；如果否，则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客，并返回步骤201。

进一步地，在所述步骤S3中，所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstation_k＝UPstation_k,i的乘车历史记录；

如果是，则乘车历史记录中上车站点UPstation_k对应的下车站点DOWNstation_k即为第k个乘客的第i条交易数据的下车站点DOWNstation_k,i，并进入步骤302；如果否，则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据，并返回步骤301；

步骤302、判断第k个乘客的交易数据是否均匹配了下车站点，如果是，则进入步骤303；如果否，则将未匹配下车站点的交易数据作为第i条交易数据，并返回步骤301；

步骤303、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客，如果是，则结束上车站点匹配；如果否，则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客，并返回步骤301。

进一步地，在所述步骤S4中，所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

步骤401、设第x天第k个乘客的第i条交易数据在第f辆常规公交上，且该常规公交在第k个乘客的上车站点UPstation_k,i,z后到达的站点分别为z+1,…,z+e,…,Z；通过该常规公交已判断出的上、下车站点的乘客记录，可得：

其中，P(GDOWNstation_z+e|GUPstation_z)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率；等式右侧部分的分子为第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量；等式右侧部分的分母为第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量。

则第k个乘客的第i条交易数据在之后各站点的下车概率为：

P(DOWNstation_k,i,z+e|UPstation_k,i,z)＝P(GDOWNstation_z+e|GUPstation_z),e＝1,2,…,(Z-z) (28)

相当于第k个乘客在站点z上车后，有P(GDOWNstation_z+e|GUPstation_z)的概率在第z+e个站点下车；

步骤402、判断第k个乘客的交易数据是否均匹配了下车站点，如果是，则进入步骤403；如果否，则将未匹配下车站点的交易数据作为第i条交易数据，并返回步骤401；

步骤403、判断第k个乘客是否为最后一个有下车站点未匹配交易数据的乘客，如果是，则结束下车站点匹配；如果否，则将下一个有未匹配下车站点交易数据的乘客作为第k个乘客，并返回步骤401。

进一步地，在所述步骤S5中，所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤：

步骤501、在第f辆常规公交的数据中，设该常规公交到达第1,…,z,…,Z个站点的时间分别为GSJ₁,…,GSJ_z,…,GSJ_Z；

步骤502、对于到达第z个站点，且按照交易先后排序的第k_z,k+1_z,k+2_z,…个乘客的交易数据，如果相邻两个乘客之间的交易时间的差值均小于等于设置的两公交站点间的最大运行时间差值，即：

|JYSJ_k,z-JYSJ_k+1,z|,|JYSJ_k+1,z-JYSJ_k+2,z,…≤T_jl (29)

在式(29)中，T_jl为两公交站点间的最大运行时间差值；

则第k_z,k+1_z,k+2_z,…个乘客均为在第z个站点上车的同一类乘客，且第一个到达第z个站点的乘客的刷卡时间为JYSJ_k,z，同理，到达第1,…,z,…,Z个站点的第一个乘客的刷卡时间分别为JYSJ_k,1,…,JYSJ_k,z,…,JYSJ_k,Z；

步骤503、计算任意两个相邻站点的第一个乘客的刷卡时间间隔与车辆GPS到站时间间隔之间差值的平均值T_avg：

计算标准偏差T_bzpc：

步骤504、计算T_avg和T_bzpc两个样本的t检验，并转换为差值序列总体均值是否为0的单样本t检验，因此有：

根据计算出的t值，通过SPSS计算出SIG值(即为显著性差异)，当SIG<0.05时，则以95％的概率接受上车站点匹配的正确性，否则就不接受上车站点匹配的正确性。

进一步地，在所述步骤S5中，所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤：

步骤601、对所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合，由此确定出随着换乘时间阈值的增大，识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[T_hcone,T_hctwo]，并将换乘时间阈值最终确定为：

步骤602、判断第x天第k个乘客的第i条交易数据在站点编号z上车、站点编号z+e下车的数据之后是否存在第i+1条交易数据，若是，则进入步骤603；若否，则进入步骤604；

步骤603、第i+1条交易数据的上车站点UPstation_k,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstation_k,i的曼哈顿距离为：

L(UPstation_k,i+1，DOWNstation_k,i) (34)

当式(34)满足式(35)和式(36)时：

L(UPstation_k,i+1，DOWNstation_k,i)<L_fy (35)

JYSJ_k,i+1-GYSJ_z+e≤T_hc (36)

在式(35)中，L_fy为设置的最短距离的阈值；在式(36)中，JYSJ_k,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstation_k,i+1的交易时间；GYSJ_z+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第x天第k个乘客的第i条交易数据在站点编号z+e的下车时间，即为所乘坐的第f辆常规公交到达站点DOWNstation_k,i的时间；

则第x天第k个乘客的第i条交易数据的下车站点匹配正确，之后进入步骤604；

当式(34)不满足式(35)和式(36)时，则第x天第k个乘客的第i条交易数据的下车站点匹配不正确，之后进入步骤604；

步骤604、判断第k个乘客的交易数据是否均已经检验下车站点的正确性，若是，则进入步骤605；若否，则将未检验下车站点的数据作为第i条交易数据，并返回步骤602；

步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客，若否，则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客，并返回步骤602；若是，则结束下车站点正确性的检验。

本发明具有如下优点：

(1)本发明给定了下车站点匹配方法的应用先后顺序。根据对三种方法的理论分析，可以知道基于历史乘车记录的IC刷卡乘客下车站点识别的匹配正确概率大于基于历史乘车记录的IC刷卡乘客下车站点识别，基于历史乘车记录的IC刷卡乘客下车站点识别的匹配正确概率大于基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别，因此在本发明的方法中首先应用基于历史乘车记录的IC刷卡乘客下车站点识别对于下车站点进行匹配，再基于历史乘车记录的IC刷卡乘客下车站点识别对于未匹配下车站点的数据进行的下车站点匹配，最后对于这两种方法都未匹配下车站点的数据进行基于贝叶斯后验最大似然估计的IC刷卡乘客下车站点识别的下车站点匹配，以此来保证全部的已知上车站点IC卡常规公交刷卡数据可以匹配到下车站点，成功匹配率高，匹配精度高。为常见的三种下车站定匹配方法的使用先后顺序提供了一种新思路。

(2)本发明给定了一种基于三种公共交通出行数据进行多源数据挖掘的下车站点识别方法，对于IC卡数据包括乘坐公共交通(包括常规公交、BRT和地铁)出行乘客的全部交易数据，在BRT和地铁的上、下车站点已知、常规公交的上车站点已知时，根据乘客出行的规律，下一次出行的上车站点(包括常规公交、BRT和地铁)，与本次常规公交出行的下车站点距离较近，以此来确定本次常规公交出行的下车站点，进行乘客的常规公交下车站点识别，该方法充分利用了常规公交、地铁、BRT的刷卡数据，常规公交的卫星定位数据、地图，可以实现乘坐常规公交出行乘客IC卡刷卡数据的上车站点识别、下车站点识别，并可以对识别结果进行检验、识别精度高；可为在有常规公交、BRT和地铁的IC卡刷卡数据、卫星定位数据及静态站点信息等数据的情况下，提供了一种新的常规公交IC卡刷卡数据的上下车站点识别方式。

(3)本发明给定了一种没有正确上车站点作对比时的上车站点识别检验方法。对于已经匹配了上车站点的乘客刷卡数据进行聚类，计算相邻两站点最早到站记录的时间差并与公交车到达对应站点的时间差值进行配对样本t检验，并将其转换成与0比较的单样本t检验，以此来验证上车站点匹配的正确性；可为没有正确的上车站点可以作对比的情况提供了一种新的上车站点识别检验方式。

(4)本发明给定了一种在没有已知正确下车站点作对比时的判断乘客每一条IC卡常规公交刷卡数据下车站点识别正确与否的方法。对于IC卡数据包括乘坐公共交通(包括常规公交、BRT和地铁)出行乘客的全部交易数据，并且BRT和地铁的上、下车站点已知、常规公交的上车站点已知时，本发明通过对调查问卷或视频调查得到的所研究地区乘客换乘时间的拟合分析确定换乘行为识别的时间阈值，结合换乘距离阈值进行约束，判断每一条IC卡常规公交刷卡数据的下车站点与下一次IC卡出行的上车站点(包括常规公交、BRT和地铁)之间是否是换乘行为，如果是换乘行为，则认为本次出行的下车站点匹配正确，否则此条IC卡常规公交刷卡数据的下车站点识别不正确。可为没有正确的下车站点可以作对比的情况提供了一种新的下车站点识别检验方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明多源数据挖掘的公交车上下车站点识别和检验方法的原理框图。

图2为本发明中基于聚类和关联分析的常规公交乘客IC刷客乘客上车站点识别的技术路线图；

图3为本发明中常规公交乘客IC刷客乘客下车站点识别的技术路线图；

图4为本发明中基于单个乘客单次出行链的出行情况分析示意图。

具体实施方式

请参照图1至图4所示，本发明多源数据挖掘的公交车上下车站点识别和检验方法，所述方法包括如下步骤：

本发明通过将常规公交IC刷卡数据的上下车站点识别及检验综合成为一体，可为居民公共出行轨迹分析、公交运营调度、城市建设规划等领域提供准确地数据支撑。

在所述步骤S1中，所述基于聚类和关联分析的常规公交IC刷卡乘客上车站点识别主要用于乘坐常规公交出行乘客IC卡刷卡数据的上车站点识别，通过在IC卡常规公交刷卡数据(包括线路号、卡号、车辆编号、交易日期、交易时间)的清洗、转换、抽取的基础上，结合不同乘客在同一上车站点的时间进行聚类，然后与常规公交的卫星定位信息数据、站点信息数据进行关联分析和时间匹配，以此得到乘客每一条IC卡刷卡数据的上车站点记录。对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类，并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:

步骤102、对数据进行清洗，对于第i条交易数据和第i+1条交易数据，判断是否同时满足式(1)和式(2)：

JYRQ_k,i＝JYRQ_k,i+1 (1)

JYSJ_k,i+1-JYSJ_k,i<T_qx (2)

若不同时满足式(1)和式(2)，则不做改动，并进入步骤103；

JYRQ_k,i＝GRQ_f,j (3)

XLH_k,i＝GXLH_f,j (4)

CPH_k,i＝GCPH_f,j (5)

若同时满足式(3)、式(4)和式(5)，则继续判断是否满足式(6)：

(min|JYSJ_k,i-GSJ_f,j|)>T_ys (6)

如果不满足式(6)，则不做改动，并进入步骤104；

步骤104、将第k个乘客的第i条交易数据的交易时间JYSJ_k,i和第f辆常规公交的第j条记录的时间GSJ_f,j，均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值，以方便后续进行计算；

步骤105、因为本发明只用到了进站时的数据，因此，对于第f辆常规公交所包括的J条数据，逐一判断每一条数据是否为进站时的值，即满足式(7)：

GJCZ_f,j≠N_jcz,j＝1,2,…,J (7)

GXLH_f,j＝ZDXLH_Z (8)

GZDBH_f,j＝ZDBH_z (9)

XLH_k,i＝XLH_k+1,i＝...＝XLH_k+n,i＝GXLH_f,j (10)

CPH_k,i＝CPH_k+1,i＝...＝CPH_k+n,i＝GCPH_f,j (11)

JYRQ_k,i＝JYRQ_k+1,i＝...＝JYRQ_k+n,i＝GRQ_f,j (12)

|JYSJ_k,i-JYSJ_k+1,i|,|JYSJ_k+1,i-JYSJ_k+2,i|,…≤T_jl (13)

同时，针对常规公交在真实到站后GPS仍未显示到站的情况，这会导致乘客刷卡时间在GPS到站时间之前，为了解决这一问题，分别设置第一缓冲时间T_one和第二缓冲时间T_two，该T_one和T_two均为常数；

GSJ_f,j,z+T_one>JYSJ_k,i,JYSJ_k+1,i,…>GSJ_f,j,z-T_two (14)

min{|JYSJ_k,i-GSJ_f,j,z|},z＝1,2,…,Z (15)

UPstation_k,i＝ZDM_z (16)

UPstation_k+1,i＝...＝UPstation_k+n,i＝ZDM_z (17)

，之后进入步骤108；

在所述步骤S2中，基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别主要用于常规公交的上车站点已知时的下车站点识别，其是根据乘客出行的规律，下一次公共出行的上车站点(包括常规公交、BRT和地铁)，与本次常规公交出行的下车站点应该相同或者空间距离较近，以此来确定本次常规公交出行的下车站点，进行乘客的常规公交下车站点识别。所述基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别具体包括如下步骤：

步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据(即判断第i条交易数据是不是第x天最后一条IC卡刷卡数据)，若是，则进入步骤202；若否，则进入步骤203；

步骤202、第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1与第x天第k个乘客的第i条交易数据在线路号为XLH_x,k,i、站点编号为z的上车站点UPstation_k,i之后的各站点的曼哈顿距离为：

其中有：

(19)

当式(19)满足式(20)和式(21)时：

L(UPstation_k,i+1，z+e)<L_fy (20)

JYSJ_k,i+1>GYSJ_z+e (21)

在式(20)中，L_fy为设置的最短距离的阈值；在式(21)中，JYSJ_k,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1的交易时间；GYSJ_z+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间；

DOWNstation_k,i＝ZDM_z+e (22)

之后进入步骤203；

当式(19)不满足式(20)和式(21)时，则直接进入步骤204；

步骤203、第x天第k个乘客的第1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstation_k,1与第x天第k个乘客的第i条交易数据在线路号为XLH_x,k,i、站点编号为z的上车站点UPstation_k,i之后的各站点的曼哈顿距离为：

L(UPstation_k,1，z+1),…,L(UPstation_k,1，z+e),…,L(UPstation_k,1，Z) (23)

其中有：

(24)

当式(24)满足式(25)时：

L(UPstation_k,1，z+e)<L_fy (25)

在式(25)中，L_fy为设置的最短距离的阈值；

DOWNstation_k,i＝ZDM_z+e (26)

之后进入步骤204；

当式(24)不满足式(25)时，则直接进入步骤204；

在所述步骤S3中，所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别用于在已有一些但非全部下车站点被识别时的下车站点识别，其是根据常规公交乘客中通勤者比例较大，并且通勤者出行的重复性特点，即为多次出行会在同一站点上车同一站点下车，根据已被识别下车站点的IC卡刷卡数据来推算未被识别出下车站点IC卡数据的下车站点。所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstation _k＝UPstation _k,i的乘车历史记录；

如果是，则乘车历史记录中上车站点UPstation_k对应的下车站点DOWNstation_k即为第k个乘客的第i条交易数据的下车站点DOWNstatio n_k,i，并进入步骤302；如果否，则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据，并返回步骤301；

在所述步骤S4中，所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别用于在已有一些但非全部下车站点被识别时的下车站点识别，其是根据常规公交中已有乘客上、下车IC卡刷卡记录的分布可知，从一个站点上车到其往后站点下车的概率，以此来推算未被识别出下车站点IC卡数据的下车站点。所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

则第k个乘客的第i条交易数据在之后各站点的下车概率为：

在所述步骤S5中，所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验用于对乘坐常规公交已经匹配出上车站点的乘客IC卡刷卡数据进行检验匹配的正确性，其是对已经匹配了上车站点的乘客刷卡数据进行聚类，计算相邻两站点最早到站记录的时间差并与公交车到达对应站点的时间差值进行配对样本t检验，并将其转换成与0比较的单样本t检验，以此来验证上车站点匹配的正确性。所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤：

|JYSJ_k,z-JYSJ_k+1,z|,|JYSJ_k+1,z-JYSJ_k+2,z|,…≤T_jl (29)

在式(29)中，T_jl为两公交站点间的最大运行时间差值；

计算标准偏差T_bzpc：

根据计算出的t值，通过SPSS计算出SIG值(即为显著性差异)，当SIG<0.05时，则有在0.05的显著性水平下两曲线显著相关，即以95％的概率接受上车站点匹配的正确性，否则就不接受上车站点匹配的正确性。

在所述步骤S5中，所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验用于下车站点识别正确性检验，其是在通过对研究地区调查问卷或视频调查的换乘时间分析基础上确定换乘时间阈值，结合换乘距离阈值进行约束，判断每一条IC卡常规公交刷卡数据的下车站点与下一次IC卡出行的上车站点(包括常规公交、BRT和地铁)之间是否是换乘行为，如果是换乘行为，则认为本次出行的下车站点匹配正确，否则此条IC卡常规公交刷卡数据的下车站点识别不正确。所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤：

步骤601、换成行为时间阈值的确定：对于调查问卷或视频调查得到的所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合，可以得到换乘客流累计百分比的增速，并由此确定换乘时间阈值。如果换乘时间阈值设定在[0,T_hcone)，则所有识别出的换乘为纯换乘；如果换乘时间阈值设定在[T_hcone,T_hctwo]，则随着换乘时间阈值的增大，识别的换乘中包含的偶然活动换乘所占的比例增加；如果换乘时间阈值设定在(T_hctwo,+∞]，则很多非换乘行为被认为是换乘，将造成大量错误。通过随着换乘时间阈值的增大，识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[T_hcone,T_hctwo]，本发明将换乘时间阈值最终确定为：

步骤603、第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstation_k,i的曼哈顿距离为：

L(UPstation_k,i+1，DOWNstation_k,i) (34)

当式(34)满足式(35)和式(36)时：

L(UPstation_k,i+1，DOWNstation_k,i)<L_fy (35)

JYSJ_k,i+1-GYSJ_z+e≤T_hc (36)

在式(35)中，L_fy为设置的最短距离的阈值；在式(36)中，JYSJ_k,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1的交易时间；GYSJ_z+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第x天第k个乘客的第i条交易数据在站点编号z+e的下车时间，即为所乘坐的第f辆常规公交到达站点DOWNstation_k,i的时间；

步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客，若否，则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客，并返回步骤602；若是，则结束下车站点正确性的检验，至此可知每一条IC刷卡数据正确性。

另外，需要说明的是，本发明中所涉及到的x、k、i、z、f、j等均为正整数。

下面以一些具体实例来对本发明做进一步说明：

实施例1

本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析，对常规公交的上、下车站点进行识别并检验。常规公交刷卡数据共45,032,397条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由11个字段构成(如表2)；卫星定位信息数据共311,080,161条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由22个字段构成(如表3)；BRT公交刷卡数据由xx市交通局提供，为xx市2018年1月份的公交刷卡数据，共13,268,640条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由5个字段构成(如表4)；地铁刷卡数据由xx市交通局提供，为xx市2018年1月份的公交刷卡数据，共3,252,269条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由10个字段构成(如表5)。

表2公交刷卡数据构成表

名称	类型	备注
			SHGSD	VARchar2(15)
XLBHZ	VARchar2(10)	线路号
			CLBHZ	VARchar2(10)	车辆编号
ZDDMZ	VARchar2(8)
			CZYSJ	VARchar2(16)
KHZZZ	VARchar2(21)	刷卡卡号
			ZKLXZ	VARchar2(8)
KLXZZ	VARchar2(8)
			JYRQZ	char(8)	交易日期
JYSJZ	NUMBER	交易时间
			JYJEZ	NUMBER(14,2)	交易金额

表3公交卫星定位信息数据构成表

表4BRT刷卡数据构成表

名称	类型	备注
			IN_OUT	VARchar2(100)	进出站标志
TSN_TIME	DATE	交易时间
			TSN_TYPE	VARchar2(100)	交易类型
STATION	VARchar2(100)	站点
			TICKET_ID	char(21)	卡号

表5地铁刷卡数据构成表

根据xx市的实际情况，本实例设置N_jcz＝1；T_qx＝20(秒)；T_ys＝1800(秒)；T_jl＝20(秒)；T_one＝120(秒)；T_two＝300(秒)；L_fy＝1000(米)；T_jl＝20(秒)。首先进行全部刷卡数据的上车站点识别，然后进行全部刷卡数据下车站点的识别，再进行全部上车站点识别正确性的检验，最后对于每一条刷卡数据进行下车站点识别正确性的检验。

对于第k＝2513232357个乘客的第i＝1条交易数据，存在下一条第i+1＝2条交易数据，当JYRQ_k,i＝JYRQ_k,i+1＝20180105时，JYSJ_k,i+1-JYSJ_k,i＝31876(秒)-27870(秒)＝4006(秒)>20(秒)，因此不做改动。对于第k＝2513232357个乘客的第i＝1条交易数据与第f＝5873辆常规公交第j＝6条记录，当JYRQ_k,i＝GRQ_f,j＝20180105、XLH_k,i＝GXLH_f,j＝32、CPH_k,i＝GCPH_f,j＝闽DZ5873时，计算min||YSJ_k,i-GSJ_f,j|＝6(秒)≤1800(秒)，因此不做改动。将第k＝2513232357个乘客的第i＝1条交易数据的交易时间JYSJ_k,i＝27870(秒)与第f＝5873辆常规公交第j＝6条记录的时间GSJ_f,j＝27864(秒)转换为以一天的00：00：00为参照的以秒为单位的数字型的相对数值。因为本发明只用到了进站时的数据，因此对于第f＝5873辆常规公交的J＝23条数据，当GJCZ_f,j≠1,j＝1,2,…,23，则删除数据，否则不做改动。第f＝5873辆常规公交第j＝6条记录与第z＝6个站点的站点信息，当GXLH_f,j＝ZDXLH_Z＝32、GZDBH_f,j＝ZDBH_z＝6时，第f＝5873辆常规公交的第j＝6条记录即为到达第z＝6个站点时的记录，此时的时间表示为GSJ_f,j,z＝27864(秒)。对于按照交易先后排序的乘客交易数据与第f＝5873辆常规公交的第j＝6条记录，当XLH_k,i＝XLH_k+1,i＝XLH_k+2,i＝…＝GXLH_f,j＝32、CPH_k,i＝CPH_k+1,i＝CPH_k+2,i＝…＝GCPH_f,j＝闽DZ5873、JYRQ_k,i＝JYRQ_k+1,i＝…＝GRQ_f,j＝20180105时，计算|JYSJ_k,i-JYSJ_k+1,i|＝3,|JYSJ_k+1,i-JYSJ_k+2,i|＝2,…≤20(秒)，则这些乘客为在同一个站点上车的一类乘客。根据本发明中步骤107计算可知，第z＝6个站点名即是第k＝2513232357个乘客的第i＝1条交易数据与同一类乘客的上车站点名为UPstation_k,i＝UPstation_k+1,i＝＝UPstation_k+2,i＝…＝ZDM_z＝第一医院。判断第k＝2513232357个乘客的交易数据没有全部都匹配了上车站点，因此将未匹配上车站点的数据按照本发明中步骤108进行，直到全部乘客的全部交易数据都匹配上了上车站点；可得最终一个月的数据预处理结果(如表6)和上车站点匹配结果(如表7)。

表6数据预处理结果表

表7上车站点匹配结果表

下面进行全部刷卡数据的下车站点匹配。对于第x＝5天第k＝2513232357个乘客的第i＝1条交易数据，其不是第x＝5天最后一条刷卡数据，存在下一条第i+1＝2条交易数据，因此需要进行基于出行链乘客的下车站点识别。第2条交易的上车站点编号15与第x＝5天第k＝2513232357个乘客的第i＝1条交易的线路号XLH_x,k,i＝32在上车站点编号6以后的各站点曼哈顿距离为1693.49,2306.23,…,1401.06,1511.59米，其中有L(UPstation_k,i+1，19)＝min{1693.49,…,1511.59}，并且L(UPstation_k,i+1，19)＝320.35<L_fy，则第19个站点名是第x＝5天第k＝2513232357个乘客的第i＝1条交易数据的下车站点名为DOWNstation_k,i＝ZDM_z+e＝筼箉街道。判断第k＝2513232357个乘客的交易数据没有全部都匹配了下车站点，因此将未匹配下车站点的数据按照本发明中步骤203进行，直到全部乘客全部交易都匹配上了下车站点；可得最终一个月的数据预处理结果(如表8)，可知公交使用者中大约有70.7％的人其下车站点可以通过出行链来识别，说明公共交通出行是其日常出行交通方式。

表8下车站点匹配结果表

下面进行全部上车站点识别正确性的检验。第f＝1辆常规公交的数据，其到达第1,…,z,…,Z＝13个站点的时间以一天的00：00：00为参照以秒为单位数字型的相对数值分别为GSJ₁,…,GSJ_z,…,GSJ_Z＝60390,60696,…,63108,63375。同一类乘客到达第1,…,z,…,13个站点的第一个刷卡时间分别为JYSJ_k,1,…,JYSJ_k,z,…,JYSJ_k,Z＝60432,60730,…,63111,0，因为第13个站点没有乘客上车，因此本实施例1设置为0。计算任意两个相邻站点的第一个乘客刷卡时间间隔与车辆卫星定位信息到站时间间隔差值的平均值为

标准偏差为

计算两样本的t检验，并转换为差值序列总体均值是否为0的单样本t检验，因此有

根据此值通过SPSS计算SIG值(即为显著性差异)，得到结果SIG＝0<0.05，则有在0.05的显著性水平下两曲线显著相关，即为以95％的概率接受上车站点匹配的正确性(如表9)。

表9配对T检验相关性表格

个数	相关性	SIG
			13	0.989	0

下面进行每一条刷卡数据进行下车站点识别正确性的检验。根据调查问卷可知T_hcone＝15(分钟)、T_hctwo＝25(分钟)，则有换乘时间阈值为T_hc＝20(分钟)。对于第x＝5天第k＝2513232357个乘客的第i＝1条交易数据，其在线路线路号XLH_x,k,i＝32的下车站点为筼箉街道，并且不是第x＝5天最后一条刷卡数据，存在下一条第i+1＝2条交易数据。第2条交易的上车站点编号15站点名称为松柏，与第x＝5天第k＝2513232357个乘客的第i＝1条交易的下车站点筼箉街道的曼哈顿距离为L(松柏，筼箉街道)＝410(米)<L_fy。以一天的00：00：00为参照以秒为单位数字型相对数值的第2条IC卡交易上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1交易时间为31876秒，以一天的00：00：00为参照以秒为单位数字型相对数值的第x＝5天第k＝2513232357个乘客的第i＝1条IC卡交易在下车站点编号19名称为筼箉街道的下车时间为29856秒，因此有JYSJ_2513232357,2-GYSJ₁₉＝31876-29856＝2020(秒)>T_hc＝20分钟＝1200秒，所以本条IC卡刷卡数据下车站点的识别不正确。判断第k＝2513232357个乘客的交易数据没有全部都已经检验下车站点识别的正确性，因此将未检验下车站点正确性的数据按照本发明中步骤604进行，直到全部乘客全部交易都已经检验下车站点识别的正确性。

实施例2

本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析，对IC卡常规公交的刷卡数据进行识别上车站点(如图2)。常规公交刷卡数据共45,032,397条记录，数据文件采用dmp格式存储，数据文件由11个字段构成(如表10)；卫星定位信息数据共311,080,161条记录，数据文件采用dmp格式存储，数据文件由22个字段构成(如表11)。

表10公交刷卡数据构成表

表11公交卫星定位信息数据构成表

根据xx市的实际情况，本实例设置N_jcz＝1；T_qx＝20(秒)；T_ys＝1800(秒)；T_jl＝20(秒)；T_one＝120(秒)；T_two＝300(秒)。对于第k＝2513232357个乘客的第i＝1条交易数据，存在下一条第i+1＝2条交易数据，当JYRQ_k,i＝JYRQ_k,i+1＝20180105时，JYSJ_k,i+1-JYSJ_k,i＝31876(秒)-27870(秒)＝4006(秒)>20(秒)，因此不做改动。对于第k＝2513232357个乘客的第i＝1条交易数据与第f＝5873辆常规公交第j＝6条记录，当JYRQ_k,i＝GRQ_f,j＝20180105、XLH_k,i＝GXLH_f,j＝32、CPH_k,i＝GCPH_f,j＝闽DZ5873时，计算min|JYSJ_k,i-GSJ_f,j|＝6(秒)≤1800(秒)，因此不做改动。将第k＝2513232357个乘客的第i＝1条交易数据的交易时间JYSJ_k,i＝27870(秒)与第f＝5873辆常规公交第j＝6条记录的时间GSJ_f,j＝27864(秒)转换为以一天的00：00：00为参照的以秒为单位的数字型的相对数值。因为本发明只用到了进站时的数据，因此对于第f＝5873辆常规公交的J＝23条数据，当GJCZ_f,j≠1,j＝1,2,…,23则删除数据，否则不做改动。第f＝5873辆常规公交第j＝6条记录与第z＝6个站点的站点信息，当GXLH_f,j＝ZDXLH_Z＝32、GZDBH_f,j＝ZDBH_z＝6时，第f＝5873辆常规公交第j＝6条记录即为到达第z＝6个站点时的记录，此时的时间表示为GSJ_f,j,z＝27864(秒)。对于按照交易先后排序的乘客交易数据与第f＝5873辆常规公交的第j＝6条记录，当XLH_k,i＝XLH_k+1,i＝XLH_k+2,i＝…＝GXLH_f,j＝32、CPH_k,i＝CPH_k+1,i＝CPH_k+2,i＝…＝GCPH_f,j＝闽DZ5873、JYRQ_k,i＝JYRQ_k+1,i＝…＝GRQ_f,j＝20180105时，计算|JYSJ_k,i-JYSJ_k+1,i|＝3(秒),|JYSJ_k+1,i-JYSJ_k+2,i|＝2(秒),…≤20(秒)，则这些乘客为在同一个站点上车的一类乘客。根据本发明中步骤107计算可知，第z＝6个站点名即是第k＝2513232357个乘客的第i＝1条交易数据与同一类乘客的上车站点名为UPstation_k,i＝UPstation_k+1,i＝＝UPstation_k+2,i＝…＝ZDM_z＝第一医院。判断第k＝2513232357个乘客的交易数据没有全部都匹配了上车站点，因此将未匹配上车站点的数据按照本发明中步骤108进行，直到全部乘客全部交易都匹配上了上车站点；可得最终一个月的数据预处理结果(如表12)和上车站点匹配结果(如表13)。

表12数据预处理结果表

表13上车站点匹配结果表

实施例3

本实例采用xx市2018年1月IC卡刷卡数据及常规公交卫星定位信息数据为例进行分析，对常规公交已知上车站点的记录进行下车站点匹配(如图3)。常规公交刷卡数据共45,032,397条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由11个字段构成(如表14)；卫星定位信息数据共311,080,161条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由22个字段构成(如表15)；BRT公交刷卡数据由xx市交通局提供，为xx市2018年1月份的公交刷卡数据，共13,268,640条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由5个字段构成(如表16)；地铁刷卡数据由xx市交通局提供，为xx市2018年1月份的公交刷卡数据，共3,252,269条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由10个字段构成(如表17)。

表14公交刷卡数据构成表

表15公交卫星定位信息数据构成表

表16 BRT刷卡数据构成表

数据构成表

名称	类型	备注
			TICKET_ID	VARchar2(30)	逻辑卡号
TRANS_DATE	VARchar2(30)	交易日期
			TRANS_TIME	VARchar2(30)	交易时间
DEV_ID	VARchar2(30)	交易设备号
			TICKET_CSN	VARchar2(30)	物理卡号
STATUE	VARchar2(20)	进出站标志

根据xx市的实际情况，本实例设置L_fy＝1000(米)。对于第x＝5天第k＝2513232357个乘客的第i＝1条交易数据，其不是第x＝5天最后一条刷卡数据，存在下一条第i+1＝2条交易数据，因此进行下一步。第2条交易为常规公交交易数据，上车站点在其线路上的编号为15，与第x＝5天第k＝2513232357个乘客的第i＝1条交易的线路号XLH_x,k,i＝32在上车站点编号6以后的各站点曼哈顿距离为1693.49,2306.23,…,1401.06,1511.59米，其中有L(UPstation_k,i+1，19)＝min{1693.49,…,1511.59}，并且L(UPstation_k,i+1，19)＝410(米)<L_fy，则第19个站点名是第x＝5天第k＝2513232357个乘客的第i＝1条交易数据的下车站点名为DOWNstation_k,i＝ZDM_z+e＝筼箉街道。判断第k＝2513232357个乘客的交易数据没有全部都匹配了下车站点，因此将未匹配下车站点的数据按照本发明中步骤203进行，直到全部乘客全部交易都匹配上了下车站点；可得最终一个月的数据预处理结果(如表18)，可知全部IC卡数据常规公交公交使用者中大约有70.7％的人其下车站点可以通过出行链(乘客公共交通出行连示意图如图4)来识别。

表18下车站点匹配结果表

实施例4

本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析，对常规公交已知上车站点、部分IC卡刷卡记录已知下车站点的记录进行下车站点匹配。第x＝29天第k＝2513232357个乘客的第i＝1条交易数据在第26天的记录中有上车站点UPstation_k＝UPstation_k,i＝人才中心的乘车记录，历史记录中上车站点UPstation_k＝人才中心对应的下车站点DOWNstatio n_k＝镇海路口即为第x＝29天第k＝2513232357个乘客的第i＝1条交易数据的下车站点DOWNstatio n_k,i＝镇海路口。判断第k＝2513232357个乘客的交易数据没有全部都匹配了下车站点，因此将未匹配下车站点的数据按照本发明中步骤303进行，直到全部乘客全部交易都匹配上了下车站点；可得最终一个月的数据预处理结果(如表19)，可知全部IC卡数据常规公交公交使用者中大约有6.6％的人其下车站点可以通过历史乘车数据来识别。

表19下车站点匹配结果表

实施例5

本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析，对常规公交已知上车站点、部分IC卡刷卡记录已知下车站点的记录进行下车站点匹配。第x＝12天第k＝2513232357个乘客的第i＝1条交易在第f＝661辆常规公交上，公交车在其上车编号为16的站点UPstation_k,i,z＝筼箉街道后可能下车的站点编号为17,18,19,20,21，则由该车已判断出上、下车站点的乘客记录有P(GDOWNstation₁₇|GUPstation₁₆)＝0.1、P(GDOWNstation₁₈|GUPstation₁₆)＝0.1、P(GDOWNstation₁₉|GUPstation₁₆)＝0.2、P(GDOWNstation₂₀|GUPstation₁₆)＝0.3、P(GDOWNstation₂₁|GUPstation₁₆)＝0.3，则第k＝2513232357个乘客的第i＝1条交易数据在其后各站点的下车概率为P(DOWNstation_{2513232357,1,17}|UPstation_{2513232357,1,16})＝0.1、P(DOWNstation_{2513232357,1,18}|UPstation_{2513232357,1,16})＝0.1、P(DOWNstation_{2513232357,1,19}|UPstation_{2513232357,1,16})＝0.2、P(DOWNstation_{2513232357,1,20}|UPstation_{2513232357,1,16})＝0.3、P(DOWNstation_{2513232357,1,21}|UPstation_{2513232357,1,16})＝0.3，相当于0.1个第k＝2513232357个乘客在第17个站点下车、0.1个第k＝2513232357个乘客在第18个站点下车、0.2个第k＝2513232357个乘客在第19个站点下车、0.3个第k＝2513232357个乘客在第20个站点下车、0.3个第k＝2513232357个乘客在第21个站点下车。判断第k＝2513232357个乘客的交易数据没有全部都匹配了下车站点，因此将未匹配下车站点的数据按照本发明中步骤402进行，直到全部乘客全部交易都匹配了下车站点；可得最终一个月的数据预处理结果(如表20)，可知全部IC卡数据常规公交公交使用者中大约有22.7％的人其下车站点可以通过贝叶斯后验最大似然估计来识别。

表20下车站点匹配结果表

实施例6

本实例采用xx市2018年1月IC卡常规公交刷卡数据及常规公交卫星定位信息数据为例进行分析，对乘坐常规公交已经匹配出上车站点的乘客IC卡刷卡数据进行检验匹配的正确性。常规公交刷卡数据共45,032,397条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由11个字段构成(如表21)；卫星定位信息数据共311,080,161条记录，数据文件采用Orcale数据库的dmp格式存储，数据文件由22个字段构成(如表22)。

表21公交刷卡数据构成表

表22公交卫星定位信息数据构成表

根据xx市的实际情况，本实例设置T_jl＝20(秒)。第f＝1辆常规公交车的数据，其到达第1,…,z,…,Z＝13个站点的时间以一天的00：00：00为参照以秒为单位数字型的相对数值分别为GSJ₁,…,GSJ_z,…,GSJ_Z＝60390,60696,…,63108,63375。根据本发明中步骤502可得，到达第1,…,z,…,13个站点同一类乘客的第一个刷卡时间分别为JYSJ_k,1,…,JYSJ_k,z,…,JYSJ_k,Z＝60432,60730,…,63111,0，因为第13个站点没有乘客上车，因此本实施例设置为0。计算任意两个相邻站点的第一个乘客刷卡时间间隔与车辆卫星定位信息到站时间间隔差值的平均值为

标准偏差为

计算两样本的t检验，转换为差值序列总体均值是否为0的单样本t检验，因此有

根据此值通过SPSS计算SIG值(即为显著性差异)，得到结果SIG＝0<0.05，则有在0.05的显著性水平下两曲线显著相关，即为以95％的概率接受上车站点匹配的正确性(如表23)。

表23配对T检验相关性表格

实施例7

本实例采用xx市2018年1月IC卡常规公交刷卡34573853条已经识别上、下车站点的数据(如表24)为例进行分析。

表24已经识别上、下车站点的公交刷卡数据构成表

根据xx市的实际情况，本实例设置L_fy＝1000(米)。根据调查问卷可知T_hcone＝15(分钟)、T_hctwo＝25(分钟)，则有换乘时间阈值为T_hc＝20(分钟)。对于第x＝5天第k＝2513232357个乘客的第i＝1条交易数据，其在线路线路号XLH_x,k,i＝32的下车站点为筼箉街道，并且不是第x＝5天最后一条刷卡数据，存在下一条第i+1＝2条交易数据。第2条交易的上车站点编号15站点名称为松柏，与第x＝5天第k＝2513232357个乘客的第i＝1条交易的下车站点筼箉街道的曼哈顿距离为L(松柏，筼箉街道)＝410(米)<L_fy。以一天的00：00：00为参照以秒为单位数字型相对数值的第2条IC卡交易上车站点(包括常规公交、BRT和地铁)UPstation_k,i+1交易时间为31876秒，以一天的00：00：00为参照以秒为单位数字型相对数值的第x＝5天第k＝2513232357个乘客的第i＝1条IC卡交易在下车站点编号19名称为筼箉街道的下车时间为29856秒，因此有JYSJ_2513232357,2-GYSJ₁₉＝31876-29856＝2020(秒)>T_hc＝20分钟＝1200秒，所以本条IC卡刷卡数据下车站点的识别不正确。判断第k＝2513232357个乘客的交易数据没有全部都已经检验下车站点识别的正确性，因此将未检验下车站点正确性的数据按照本发明中步骤604进行，直到全部乘客全部交易都已经检验下车站点识别的正确性。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S1中，对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类，并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:

JYRQ_k,i＝JYRQ_k,i+1 (1)

JYSJ_k,i+1-JYSJ_k,i<T_qx (2)

若不同时满足式(1)和式(2)，则不做改动，并进入步骤103；

JYRQ_k,i＝GRQ_f,j (3)

XLH_k,i＝GXLH_f,j (4)

CPH_k,i＝GCPH_f,j (5)

若同时满足式(3)、式(4)和式(5)，则继续判断是否满足式(6)：

(min|JYSJ_k,i-GSJ_f,j|)>T_ys (6)

如果不满足式(6)，则不做改动，并进入步骤104；

GJCZ_f,j≠N_jcz,j＝1,2,…,J (7)

GXLH_f,j＝ZDXLH_Z (8)

GZDBH_f,j＝ZDBH_z (9)

XLH_k,i＝XLH_k+1,i＝...＝XLH_k+n,i＝GXLH_f,j (10)

CPH_k,i＝CPH_k+1,i＝...＝CPH_k+n,i＝GCPH_f,j (11)

JYRQ_k,i＝JYRQ_k+1,i＝...＝JYRQ_k+n,i＝GRQ_f,j (12)

|JYSJ_k,i-JYSJ_k+1,i|,|JYSJ_k+1,i-JYSJ_k+2,i|,…≤T_jl (13)

GSJ_f,j,z+T_one>JYSJ_k,i,JYSJ_k+1,i,…>GSJ_f,j,z-T_two (14)

min{|JYSJ_k,i-GSJ_f,j,z|},z＝1,2,…,Z (15)

UPstation_k,i＝ZDM_z (16)

UPstation_k+1,i＝...＝UPstation_k+n,i＝ZDM_z (17)

，之后进入步骤108；

3.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S2中，基于出行链方法进行常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

其中有：

L(UPstation_k,i+1，z+e)＝min{L(UPstation_k,i+1，z+1),…,L(UPstation_k,i+1，z+e),…,L(UPstation_k,i+1，Z)}(19)

当式(19)满足式(20)和式(21)时：

L(UPstation_k,i+1，z+e)<L_fy (20)

JYSJ_k,i+1>GYSJ_z+e (21)

DOWNstation_k,i＝ZDM_z+e (22)

之后进入步骤203；

当式(19)不满足式(20)和式(21)时，则直接进入步骤204；

步骤203、第x天第k个乘客的第1条交易数据的上车站点UPstation_k,1与第x天第k个乘客的第i条交易数据在线路号为XLH_x,k,i、站点编号为z的上车站点UPstation_k,i之后的各站点的曼哈顿距离为：

L(UPstation_k,1，z+1),…,L(UPstation_k,1，z+e),…,L(UPstation_k,1，Z) (23)

其中有：

L(UPstation_k,1，z+e)＝min{L(UPstation_k,1，z+1),…,L(UPstation_k,1，z+e),…,L(UPstation_k,1，Z)}(24)

当式(24)满足式(25)时：

L(UPstation_k,1，z+e)<L_fy (25)

在式(25)中，L_fy为设置的最短距离的阈值；

DOWNstation_k,i＝ZDM_z+e (26)

之后进入步骤204；

当式(24)不满足式(25)时，则直接进入步骤204；

4.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S3中，所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

5.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S4中，所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤：

其中，P(GDOWNstation_z+e|GUPstation_z)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率；P(GDOWNstation_z+e,GUPstation_z)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量；P(GUPstation_z)表示第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量；

则第k个乘客的第i条交易数据在之后各站点的下车概率为：

6.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S5中，所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤：

|JYSJ_k,z-JYSJ_k+1,z|,|JYSJ_k+1,z-JYSJ_k+2,z|,…≤T_jl (29)

在式(29)中，T_jl为两公交站点间的最大运行时间差值；

计算标准偏差T_bzpc：

根据计算出的t值，通过SPSS计算出SIG值，当SIG<0.05时，则以95％的概率接受上车站点匹配的正确性，否则就不接受上车站点匹配的正确性。

7.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法，其特征在于：在所述步骤S5中，所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤：

L(UPstation_k,i+1，DOWNstation_k,i) (34)

当式(34)满足式(35)和式(36)时：

L(UPstation_k,i+1，DOWNstation_k,i)<L_fy (35)

JYSJ_k,i+1-GYSJ_z+e≤T_hc (36)