CN102156732B - 基于特征站点的公交ic卡数据站点匹配方法 - Google Patents
基于特征站点的公交ic卡数据站点匹配方法 Download PDFInfo
- Publication number
- CN102156732B CN102156732B CN2011100896824A CN201110089682A CN102156732B CN 102156732 B CN102156732 B CN 102156732B CN 2011100896824 A CN2011100896824 A CN 2011100896824A CN 201110089682 A CN201110089682 A CN 201110089682A CN 102156732 B CN102156732 B CN 102156732B
- Authority
- CN
- China
- Prior art keywords
- website
- transfer
- bus
- characteristic
- coupling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,包括:确定单车单日班次数步骤;通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;特征站点选取步骤;包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。
Description
技术领域
本发明涉及一种将公交IC卡交易数据与公交站点的匹配方法,属于公交信息数据处理领域。
背景技术
公交IC卡收费系统为公交出行分析提供了低成本的海量数据,但由于系统设计目的是为方便乘客付费与票款清算,未考虑交通领域的应用,故IC卡数据缺少了一些必要的出行信息,在数据处理分析中,首先需要通过技术手段获取缺失信息,才能开展进一步的数据挖掘工作。
由于单次刷卡的公交IC卡数据中缺少乘客上车站点信息,需要找出乘客刷卡记录与站点的对应关系。目前比较常见的匹配方法是利用聚类方法对乘客刷卡数据进行聚类,以站点间运行时间估计值作为相似性判断阈值,与聚类子集间的时间差值进行对比,将满足条件的聚类子集匹配到对应站点。
事实上,由于公交站点间车辆运行时间的不确定,单纯依靠站点间运行时间估计值作为站点匹配的判断依据是不够准确的,当道路交通条件发生变化情况下,匹配结果误差较大。根据公交客流统计结果可知,在某个固定时段内(如早高峰)公交站点客流量具有较强的规律性,这种规律为通过寻找具有客流特征的站点来辅助站点匹配的新技术提供了可能。
发明内容
本发明目的在于,通过提供一种基于站点客流特征的公交IC卡站点匹配方法,提高单次刷卡线路的公交IC卡数据站点匹配精度,准确反映公交乘客出行时站点客流量信息。为基于公交IC卡的数据处理分析提供高质量的数据,获取更真实的公交IC卡数据挖掘结果,为公交规划者与管理者提供决策依据。
本发明是采用以下技术手段实现的:
一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配;
所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤:
步骤1.1:确定单车单日班次数;
即通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数。
对于单车单日IC卡数据而言,连续两个班次之间有较大的时间间隔,通常在5~10分钟以上(环行线路即一端无重点场站线路除外),故单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔。计算单车单日所有相邻交易记录的交易时间差值,ti代表单车IC卡数据中每条交易记录的交易时间,d(ti,ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算:
d(ti,ti+1)=|ti-ti+1|
以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟。统计单车单日班次数,方法如下:
w=w+1,if d(ti,ti+1)>α
步骤1.2:确定初始聚类个数;
单车班次确认后,对单个班次内的交易记录进行聚类分析。由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数。以k代表聚类初始值,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下:
k=k+1,if d(ti,ti+1)>β
步骤1.3:计算初始聚类子集中心及误差平方和准则函数;
设交易记录数据集为T,mi为聚类中心,即每个类中交易时间的平均值,p是数据集中的点,即交易记录中的交易时间。计算初始聚类中心如下:
误差平方和准则函数E计算如下:
步骤1.4:聚类循环计算
增加初始聚类个数k,并重复步骤1.3,直到准则函数E收敛。
对单个班次而言,不是每个站点都有乘客上车,且线路末端至少有一个站点无人上车,故最终聚类子集个数应小于公交线路单程站点数。为避免聚类子集个数超出正常范围或聚类子集间距过小而偏离实际,以n代表线路单程站点数,定义当d(ki,ki+1)<30s,or k=n-1时,聚类停止。
所述的基于特征站点的站点匹配,包括如下步骤:
步骤2.1:特征站点选取;
本发明所述的特征站点,包括客流峰值站点及换乘站点,其余站点为非特征站点。客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点。
特征站点的选取可根据城市居民出行调查数据或公交运营调查数据中统计得到,或基于公交IC卡数据处理分析,获得站点客流或换乘行为识别等数据,来确认特征站点。
步骤2.3客流峰值站点匹配;
按照班次途径站点先后顺序为站点赋予ID,并确认客流峰值站点的ID。选取交易记录数(客流量)最多的聚类子集,按照时间先后顺序与客流峰值站点ID进行匹配。
步骤2.4:换乘站点匹配
按照班次途径站点先后顺序为站点赋予ID,根据目标线路与其他线路接驳及客流换乘情况选择换乘站点,并确定ID。根据聚类子集时间排序与站点ID排序的对应关系,找到可能与换乘站点匹配的聚类子集。若换乘站点ID为x,则定义可能的聚类子集为kx-1,kx,kx+1。
对可能与换乘站点匹配的聚类子集,搜索其中每个IC卡号的全天交易记录,找到由其他线路换乘到目标线路的IC卡号。设乘客在目标线路站点的交易时间为td,前一个交易记录的交易时间为to,若to所属线路与目标线路有换乘站点,则该IC卡号乘客可能为换乘乘客。设变量Transfer为1时表示存在换乘行为,为0时不存在换乘行为,为换乘行为判断阈值,当换乘线路为双次刷卡公交线路或地铁线路时,取值一般小于20分钟,当换乘线路为单次刷卡线路时,取值一般小于1小时。判断是否为换乘行为方法如下:
一旦Transfer=1出现时,则视换乘行为被确定,其他潜在值将不再被计算,将td所在的聚类子集与换乘站点ID匹配。
步骤2.5:非特征站点匹配
以特征站点为基准点,根据相邻站点平均运行时间与聚类子集时间距离的大小关系匹配其余站点。聚类子集时间距离为d(ki,ki+1)=|mi-mi+1|,设Dq-1,q为站点q-1与q的站间距离,为站点间车辆运行平均速度,t为的交通时间段,为站点平均运行时间,则站点间运行时间计算如下:
若聚类子集ki与特征站点q-1匹配,则非特征站点匹配方法如下:
将所有聚类子集匹配到站点后,每个子集中的交易记录数代表站点上车客流量,其余未匹配的站点,客流量为0。
本发明与现有技术相比,具有以下明显的优势和有益效果:
本发明基于特征站点的公交IC卡数据站点匹配方法,以计算机技术、数据挖掘技术为支撑,通过选取公交线路特征站点,与聚类后的公交IC卡数据进行匹配,提高单次刷卡线路的公交IC卡数据站点匹配精度,获得更准确的公交站点客流量信息,为基于公交IC卡的数据处理分析提供更高质量的数据,为公交规划者与管理者提供决策依据。
附图说明
图1基于特征站点公交IC卡数据站点匹配流程;
图2换乘行为识别流程;
图3非特征站点匹配流程;
图4特征站点选取结果。
具体实施方式
本发明以北京市公交线路XX路公交IC卡数据为对象进行了试验,对xx路早高峰时段(7:00~9:00)进行站点客流量调查,调查日期为2009年06月15日至2009年06月19日。特征站点ID为03,08,12(见附图4),其中,客流峰值站点为03,08,换乘站点为12,换乘线路为地铁5号线。所有时间计算均以秒为单位,其中,班次间隔判断阈值α=600s,初始聚类判断阈值β=40s,换乘行为判断阈值为
为检验特征站点匹配方法(Character_Match)效果,同时采用运行时间匹配方法(Travel_time_Match)进行对比,即只根据站点间运行时间与聚类子集时间差值进行匹配。设匹配错位站点数为e,站点匹配准确率ε计算为:
站点匹配结果(见表1)显示,特征站点匹配方法平均准确率达85%,明显好于运行时间匹配方法的76%。
表1 匹配结果
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于特征站点的公交IC卡数据站点匹配方法,包括:基于k-means聚类方法的公交IC卡数据聚类分析、基于特征站点的站点匹配,其特征在于包括如下步骤:
所述的基于k-means聚类方法的公交IC卡数据聚类分析,包括如下步骤:
步骤1.1:确定单车单日班次数;
通过计算单车公交IC数据中每个交易记录的交易时间间隔,获取单车单日行驶班次数;
对于单车前一班次的最末交易时间与后一班次的最初交易时间间隔显著大于同一班次内的相邻交易时间间隔的,作为判断单车单日IC卡数据班次的依据;计算单车单日所有相邻交易记录的交易时间差值,ti代表单车IC卡数据中每条交易记录的交易时间,d(ti,ti+1)代表相邻交易时间间隔,利用曼哈顿距离计算:
d(ti,ti+1)=|ti-ti+1|
以w代表班次数,α为班次间隔判断阈值,根据城市具体交通情况取值,一般高峰可为5分钟,平峰为10分钟;统计单车单日班次数,方法如下:
w=w+1,if d(ti,ti+1)>α
步骤1.2:确定初始聚类个数;
单车班次确认后,对单个班次内的交易记录进行聚类分析,由于在同一站点的交易记录交易时间间隔较小,可通过相邻交易时间间隔判断初始聚类个数,以k代表初始聚类个数,β为初始聚类判断阈值,一般大于30秒,则k的统计方法如下:
k=k+1,if d(ti,ti+1)>β
步骤1.3:计算初始聚类子集中心及误差平方和准则函数;
设交易记录数据集为T,mi为聚类中心,即每个类中交易时间的平均值,p是数据集中的点,即交易记录中的交易时间,计算初始聚类中心如下:
误差平方和准则函数E计算如下:
步骤1.4:聚类循环计算
增加初始聚类个数k,并重复步骤1.3,直到准则函数E收敛;
对单个班次,最终聚类子集个数应小于公交线路单程站点数;以n代表线路单程站点数,定义当d(ki,ki+1)<30s,or k=n-1时,聚类停止;
所述的基于特征站点的站点匹配,包括如下步骤:
步骤2.1:特征站点选取;
特征站点包括客流峰值站点及换乘站点,其余站点为非特征站点;客流峰值站点指固定时段内的单个班次中,沿途站点客流最大的站点,可以为一个或数个;换乘站点指其他线路换乘到目标线路乘车时,交易记录发生的站点;
特征站点的选取可根据城市居民出行调查数据或公交运营调查数据中统计得到,或基于公交IC卡数据处理分析,获得站点客流或换乘行为识别等数据,来确认特征站点;
步骤2.2客流峰值站点匹配;
按照班次途径站点先后顺序为站点赋予ID,并确认客流峰值站点的ID;选取交易记录数最多的聚类子集,按照时间先后顺序与客流峰值站点ID进行匹配;
步骤2.3:换乘站点匹配
按照班次途径站点先后顺序为站点赋予ID,根据目标线路与其他线路接驳及客流换乘情况选择换乘站点,并确定ID;根据聚类子集时间排序与站点ID排序的对应关系,找到可能与换乘站点匹配的聚类子集;若换乘站点ID为x,则定义可能的聚类子集为kx-1,kx,kx+1;
对可能与换乘站点匹配的聚类子集,搜索其中每个IC卡号的全天交易记录,找到由其他线路换乘到目标线路的IC卡号;设乘客在目标线路站点的交易时间为td,前一个交易记录的交易时间为to,若to所属线路与目标线路有换乘站点,则该IC卡号乘客可能为换乘乘客;设变量Transfer为1时表示存在换乘行为,为0时不存在换乘行为, 为换乘行为判断阈值,当换乘线路为双次刷卡公交线路或地铁线路时,取值一般小于20分钟,当换乘 线路为单次刷卡线路时,取值一般小于1小时;判断是否为换乘行为方法如下:
一旦Transfer=1出现时,则视换乘行为被确定,其他潜在值将不再被计算,将td所在的聚类子集与换乘站点ID匹配;
步骤2.4:非特征站点匹配
以特征站点为基准点,根据相邻站点平均运行时间与聚类子集时间距离的大小关系匹配其余站点;聚类子集时间距离为d(ki,ki+1)=mi+1-mi,设Dq-1,q为站点q-1与q的站间距离, 为站点间车辆运行平均速度,t为的交通时间段, 为站点平均运行时间,则站点间运行时间计算如下:
若聚类子集ki与特征站点q-1匹配,则非特征站点匹配方法如下:
2.根据权利要求1所述的一种基于特征站点的公交IC卡数据站点匹配方法,其特征在于:所述基于特征站点的站点匹配,首先从公交线路中选取出包括客流峰值站点及换乘站点在内的特征站点,与对应的聚类子集进行匹配,再根据站点间运行时间与聚类子集时间间距的大小关系完成其他站点与聚类子集的匹配。
3.根据权利要求1所述的一种基于特征站点的公交IC卡数据站点匹配方法,其特征在于:所述基于特征站点的站点匹配,其换乘站点的确认方法为首先找到可能与换乘站点匹配的聚类子集,并搜索聚类子集中每个IC卡号的全天交易记录;对同一IC卡号,若前一个交易记录发生的线路与目标线路有换乘站点,则计算前一个交易记录与属于目标线路的交易记录的交易时间差值,若差值小于判断阈值则认为存在换乘行为,属于目标线路的交易记录所在的聚类子集与换乘站点ID匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100896824A CN102156732B (zh) | 2011-04-11 | 2011-04-11 | 基于特征站点的公交ic卡数据站点匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100896824A CN102156732B (zh) | 2011-04-11 | 2011-04-11 | 基于特征站点的公交ic卡数据站点匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102156732A CN102156732A (zh) | 2011-08-17 |
CN102156732B true CN102156732B (zh) | 2012-11-21 |
Family
ID=44438231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100896824A Expired - Fee Related CN102156732B (zh) | 2011-04-11 | 2011-04-11 | 基于特征站点的公交ic卡数据站点匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102156732B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198104A (zh) * | 2013-03-25 | 2013-07-10 | 东南大学 | 一种基于城市智能公交系统的公交站点od获取方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819885B (zh) * | 2012-08-10 | 2015-03-11 | 北京航空航天大学 | 一种城市公共交通客流信息的统计分析方法及系统 |
CN103824082A (zh) * | 2014-02-25 | 2014-05-28 | 华南理工大学 | 一种行人检测方法及其检测系统 |
CN105185105B (zh) * | 2015-06-26 | 2017-05-03 | 东南大学 | 基于车辆gps和公交ic卡数据的公交换乘识别方法 |
CN105160427B (zh) * | 2015-08-20 | 2019-05-14 | 华南理工大学 | 一种基于乘车诱导的公交站点od数据快速采集方法 |
CN105574137B (zh) * | 2015-12-15 | 2018-12-11 | 华南理工大学 | 一种基于公共交通多源数据融合的ic卡刷卡站点匹配方法 |
CN105718946A (zh) * | 2016-01-20 | 2016-06-29 | 北京工业大学 | 一种基于地铁刷卡数据的乘客出行行为分析方法 |
CN105809292B (zh) * | 2016-03-21 | 2019-11-26 | 广州地理研究所 | 公交ic卡乘客下车站点推算方法 |
CN107832779B (zh) * | 2017-12-11 | 2020-07-14 | 北方工业大学 | 一种轨道站点分类系统 |
CN109523819B (zh) * | 2018-11-20 | 2021-04-06 | 湖南智慧畅行交通科技有限公司 | 一种基于公交到离站的乘客ic卡数据与站点匹配方法 |
CN111680707A (zh) * | 2019-03-11 | 2020-09-18 | 深圳市深圳通电子商务有限公司 | 基于公交系统的刷卡数据分析方法、电子终端及存储装置 |
CN110826943B (zh) * | 2020-01-13 | 2020-05-26 | 武汉元光科技有限公司 | 判断是否需要进行配车及确定公交配车数的方法及相关设备 |
CN111339159B (zh) * | 2020-02-24 | 2023-08-18 | 交通运输部科学研究院 | 一种一票制公交数据的分析挖掘方法 |
CN111476032B (zh) * | 2020-04-07 | 2024-02-02 | 武汉元光科技有限公司 | 一种公交中途站点名称生成方法及装置 |
CN111476494B (zh) * | 2020-04-11 | 2023-05-23 | 重庆交通开投科技发展有限公司 | 基于多源数据精准分析公交人口地理分布的方法 |
CN111753217B (zh) * | 2020-06-24 | 2021-10-08 | 武汉元光科技有限公司 | 一种生成公交站台引导词的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101808339A (zh) * | 2010-04-06 | 2010-08-18 | 哈尔滨工业大学 | 一种应用k-means和先验知识的话务小区自适应分类方法 |
US7792770B1 (en) * | 2007-08-24 | 2010-09-07 | Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. | Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree |
CN101894135A (zh) * | 2009-06-15 | 2010-11-24 | 复旦大学 | 基于线路聚类的gps数据压缩存储方法 |
-
2011
- 2011-04-11 CN CN2011100896824A patent/CN102156732B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7792770B1 (en) * | 2007-08-24 | 2010-09-07 | Louisiana Tech Research Foundation; A Division Of Louisiana Tech University Foundation, Inc. | Method to indentify anomalous data using cascaded K-Means clustering and an ID3 decision tree |
CN101894135A (zh) * | 2009-06-15 | 2010-11-24 | 复旦大学 | 基于线路聚类的gps数据压缩存储方法 |
CN101808339A (zh) * | 2010-04-06 | 2010-08-18 | 哈尔滨工业大学 | 一种应用k-means和先验知识的话务小区自适应分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198104A (zh) * | 2013-03-25 | 2013-07-10 | 东南大学 | 一种基于城市智能公交系统的公交站点od获取方法 |
CN103198104B (zh) * | 2013-03-25 | 2016-05-11 | 东南大学 | 一种基于城市智能公交系统的公交站点od获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102156732A (zh) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102156732B (zh) | 基于特征站点的公交ic卡数据站点匹配方法 | |
Biagioni et al. | Easytracker: automatic transit tracking, mapping, and arrival time prediction using smartphones | |
Zhou et al. | Bus arrival time calculation model based on smart card data | |
CN104064028A (zh) | 基于多元信息数据的公交到站时间预测方法及系统 | |
CN105023437A (zh) | 一种公交od矩阵的构建方法及系统 | |
CN101615207A (zh) | 一种获取公交ic卡持卡乘客上车站点的方法 | |
CN105701180A (zh) | 一种基于公交ic卡数据的通勤乘客特征提取及判定方法 | |
CN105320997A (zh) | 一种基于大数据的公交客流轨迹实时跟踪方法 | |
CN108922178A (zh) | 基于公交多源数据的公交车辆实时满载率计算方法 | |
CN106651027A (zh) | 一种基于社交网络的互联网班车线路优化方法 | |
CN105206040B (zh) | 一种基于ic卡数据的公交串车预测方法 | |
CN102324111B (zh) | 基于公交ic卡数据的车辆运行方向判断方法 | |
CN104318113A (zh) | 基于乘客换乘的时空特征推算乘客上车站点的方法及系统 | |
Ma et al. | Public transportation big data mining and analysis | |
Liu et al. | Exploring the spatially heterogeneous effect of the built environment on ride-hailing travel demand: A geographically weighted quantile regression model | |
Huang et al. | Geographic distribution of firm productivity and production: A “, market access” approach | |
Zou et al. | Measuring retiming responses of passengers to a prepeak discount fare by tracing smart card data: a practical experiment in the Beijing subway | |
Wu et al. | Recognizing real-time transfer patterns between metro and bus systems based on spatial–temporal constraints | |
KR20120068580A (ko) | 교통카드자료를 활용한 대중교통 통행분석 시스템 및 방법 | |
Song et al. | Public transportation service evaluations utilizing seoul transportation card data | |
Hale et al. | Evaluation of data‐driven performance measures for comparing and ranking traffic bottlenecks | |
Wang et al. | A C-DBSCAN algorithm for determining bus-stop locations based on taxi GPS data | |
Pineda et al. | Comparison of passengers' behavior and aggregate demand levels on a subway system using origin-destination surveys and smartcard data | |
Tian et al. | Identifying residential and workplace locations from transit smart card data | |
Zhu et al. | Validating rail transit assignment models with cluster analysis and automatic fare collection data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121121 Termination date: 20130411 |