CN103699801B - 一种时空规律的地铁乘客聚类和边缘检测方法 - Google Patents
一种时空规律的地铁乘客聚类和边缘检测方法 Download PDFInfo
- Publication number
- CN103699801B CN103699801B CN201310750251.7A CN201310750251A CN103699801B CN 103699801 B CN103699801 B CN 103699801B CN 201310750251 A CN201310750251 A CN 201310750251A CN 103699801 B CN103699801 B CN 103699801B
- Authority
- CN
- China
- Prior art keywords
- time
- passenger
- bunch
- space
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于信息数据处理技术领域,提供了一种时空规律的地铁乘客聚类和边缘检测方法,包括如下步骤:S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。本发明基于时空数据挖掘对地铁乘客分类,按照时空规律乘客的规律时段数量将时空规律乘客做聚类,并对每一类时空规律乘客作分析和边缘检测,可以有效了解乘客的生活特征。
Description
技术领域
本发明属于信息数据处理技术领域,具体涉及一种时空规律的地铁乘客聚类和边缘检测方法。
背景技术
相比传统的公共交通付费方式,如现金支付、年卡、月卡,智能卡具有方便性、便捷性、成本低等优点;相比传统的公共交通数据采集、决策服务能力、生活服务能力等方面,智能卡具有数据完整性、一致性、数据采集成本低、分析结果精准性、可靠等优点。
综上,智能卡的使用已经带来了非常明显的方便和好处,智能卡在现代公共交通方面已成为不可或缺的工具,得到了快速普及和广泛的应用。在大数据时代,以交通智能卡消费数据为核心,挖掘市民生活特征及规律已成为智慧城市等领域研究的重要方向之一,目前对智能卡消费数据的分析主要集中在三个方面:1、基础数据分析;2、乘客行为分析、乘客需求预测、个人出行模式分析;3、结合一、二两方面做交通长期规划,策略调整,提高交通质量、生活服务能力和数据决策服务能力。
目前,基于乘客的时空规律对乘客进行分类的相关研究比较少,现有的相关研究主要集中于结合智能卡的类型对乘客做分析,并比较不同类型的乘客特征的差异性。而针对乘客的时空特征对乘客分类的相关研究比较少。
发明内容
本发明要解决的技术问题在于提供一种时空规律的地铁乘客聚类和边缘检测方法,具有高稳定性、可靠性、安全性。
本发明的技术方案包括一种时空规律的地铁乘客聚类和边缘检测方法,包括如下步骤:
S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;
S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;
S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。
进一步地,所述源数据包括智能交通卡消费信息表和地铁线路表;
所述智能交通卡消费信息表包括智能交通卡的卡号、地铁站刷卡终端的终端号、用户的刷卡时间、进站或出站标识;
所述地铁线路表包括线路名称、途经站点、线路类型,所述线路类型包括上行和下行;
所述时空规律的地铁乘客为出行时间和出行地点均比较规律的乘客。
进一步地,所述步骤S1具体包括:
S11、对包含乘客所有乘车记录的源数据进行数据预处理;
S12、以智能交通卡的卡号作为唯一标识,从经过数据预处理后的数据中读取每张卡的乘车记录;
S13、对乘客进行分类,将时空规律乘客的tag值设为一预定值;
S14、对于所述步骤S13中分类后的时空规律乘客,将全天分成n个时间段,计算时空规律乘客乘车各时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段;
S15、对于所述T中的所有时段的乘车天数,通过比较相邻各时段的乘车天数的值,获取满足时间密集概率的各时段峰值;
S16、对所述步骤S15中获取的每一个峰值对应的时间段,判断在所述时间段内乘客出行地点是否规律,若是,则将此峰值的详细信息添加到规律时空详情列表sptmList,所述详细信息包括时间密集概率、空间密集概率、密集的时间段、密集的进出站对;
S17、计算所述规律时空详情列表sptmList中元素的数量并将所述数量赋值给size,size做为这名乘客的中心点;
S18、判断所有乘客是否都被处理并且找到所有的峰值,若是则结束,否则返回执行步骤S11。
进一步地,所述步骤S2具体包括:
S21、以智能交通卡的卡号作为唯一标识,从规律时空详情列表sptmList中读取一张卡的所有时空规律详细信息P;
S22、判断是否有任何簇建立,若没有,则建立新簇C,并将对象P加入簇C,将对象P标识为已处理,簇C的中心值为对象P的峰值数量size;若已经有簇建立,则执行步骤S23;
S23、计算对象P与每个簇中心的距离;若存在某个簇Ci的中心与对象P的峰值数量size相等,则将所述对象P归类到簇Ci;否则,建立新簇Cj,并将对象P加入簇Cj;
S24、重复执行步骤S21-S23,直到所有对象都被处理并归入了某个簇,并按照簇中智能交通卡的卡号的数量对所有簇排序。
进一步地,所述步骤S3具体包括:
S31、基于簇的大小,对所有簇分类,将簇划分为边缘簇abnCluster和非边缘簇nCluster,其中所述边缘簇abnCluster为簇的数量与平均簇的数量的比值小于设定阈值的簇,非边缘簇nCluster为簇的数量与平均簇的数量的比值大于或等于设定阈值的簇;
S32、依次读取非边缘簇nCluster中的每一个簇Ci,建立int[i][n]数组Si,所述n为将全天分成n个时间段;
S33、依次取出簇Ci中一位乘客的规律时空详情列表sptmList,按高峰时段的大小对规律时空详情列表sptmList排序和编号,并将对应的数组Si元素的n值加1;
S34、重复执行步骤S33,直到簇Ci中所有的乘客都处理完;
S35、分析所述数组Si的结果分布情况;
S36、若非边缘簇nCluster中的所有簇都分析完毕,执行步骤S37;否则重复执行步骤S32-S36;
S37、依次读取边缘簇abnCluster中的每一个簇Ci,并按照乘客的时空特征按照步骤S32-S34进行分析;
S8:若边缘簇abnCluster中的所有簇都分析完毕,则结束;否则重复执行步骤S37。
进一步地,所述步骤S11具体包括:
S111、过滤缺失字段的交易记录;
S112、将智能交通卡过滤处理后的所有交易记录按时间排序,并计算智能交通卡中的每一乘车记录;
S113、计算每一智能交通卡的总刷卡天数;
S114、将步骤S112、S113中的数据结果汇总;
S115、对每一智能交通卡执行步骤S111-S114,直到全部智能交通卡均被处理;
S116、对输出结果进行统计,计算乘车天数概率分布。
进一步地,所述步骤S13通过如下方式对乘客进行分类:
S131、提取每一智能交通卡的交易记录;
S132、判断刷卡天数是否小于一预设阈值,是则输出类别1:极少出行乘客,执行步骤S136;否则执行步骤S133;
S133、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,执行步骤S134,否则执行步骤S135;
S134、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后执行步骤S136;
S135、利用基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;
S136、判断全部智能交通卡是否均被处理,是则结束,否则返回执行步骤S131;
其中所述类别4:时间和空间规律性乘客为所述时空规律乘客。
进一步地,所述基于时间的用户出行规律算法Tm-ODCluster包括:
A1、以天为周期、m分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
A2、计算所述每一时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段,n为将全天分成n个时间段;
A3、寻找刷卡最密集的时间段Sm,并计算时间密集概率Pt=Sm/Dnum,其中,Dnum为乘客刷卡总天数;
A4、若Pt大于时间密度阈值Thrt,则为时间规律性乘客;若Pt小于时间密度阈值Thrt,则为时间不规律性乘客。
进一步地,所述基于空间的用户出行规律算法Sp-ODCluster包括:
B1、查询时间段T内所有乘车记录,将所述乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,Daynum为天数,timelst为时间集合;
B2、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:若两站点为相邻站点,则相似性为1,否则为0;
B3、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/Dnum,其中,Dnum为乘客刷卡总天数;
若Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客。
进一步地,所述OD-cluster算法包括,
C1、从所述数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤C2,
否则建立簇,以所述对象P为中心、总天数为所述对象P的天数建立新簇C,将所述对象P加入所述新簇C,并将所述对象P标识为已处理;
C2、计算所述对象P与每个簇中心的距离;
若某个簇Ci的中心与对象P满足相似性标准,则将所述对象P归类到所述簇Ci,所述簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),
否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将所述对象P加入所述新簇C;
C3、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序。
本发明的有益效果在于:基于时空数据挖掘对地铁乘客分类,按照时空规律乘客的规律时段数量将时空规律乘客做聚类,并对每一类时空规律乘客作分析和边缘检测,可以有效了解乘客的生活特征。
附图说明
图1为本发明的地铁乘客聚类和边缘检测方法的总流程图。
图2为本发明一实施例的乘客乘车天数与时段关系图。
图3为本发明一实施例的有1个时空规律时段的乘客分布图。
图4为本发明一实施例的有2个时空规律时段的乘客分布图。
图5为本发明一实施例的有3个时空规律时段的乘客分布图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供了一种时空规律的地铁乘客聚类和边缘检测方法,主要针对时空规律乘客,即出行时间和出行地点比较规律的乘客,例如工作时间和工作地点都比较固定的上班人员、学生等。时空规律的地铁乘客聚类将具有相似特征的时空规律乘客分类,此处的边缘检测主要针乘客数量比较少的类别。本发明提供的方法基于对乘客分类的基础上进行,在对乘客进行分类时,通过对乘客时空特征的分析最终将乘客划分为5类:类1(极少出行乘客或极少乘坐地铁出行的乘客)、类2(单出行时间规律乘客)、类3(单出行空间规律乘客)、类4(时空规律乘客)、类5(时空均不规律乘客),极少出行的乘客主要通过乘客的乘车天数来计算,即乘车天数小于某设定阈值的乘客为类1;单出行时间规律乘客主要针对某些出行时间比较集中,但是出行地点比较分散的乘客,例如,部分销售员、售后服务员等;单地点规律乘客主要针对出行地点比较固定,但是时间比较分散的乘客,例如弹性工作制的公司员工;时空规律乘客指在某一时间段中集中在某些站点出入的,主要包含上班人员、学生等,例如某乘客每天早上8:00-9:00之间从A站到B站;时空均不规律乘客针对时间和空间都不规律的乘客,例如业余生活丰富的退休人员,部分销售人员等。本发明主要针对类别4的乘客做深入挖掘,并将其进一步聚类,对边缘类别做分析等。
图1所示为本发明一实施例的时空规律的地铁乘客聚类和边缘检测方法流程图。其中,输入:乘客所有乘车记录R,时间密度阈值Thrt,空间密度阈值Thrp;输出:乘客是否时空间规律tag,高峰规律时段数量size,规律时空详情列表sptmList。如图1所示,本实施例包括如下步骤:
S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;
S2、根据获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;
S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。
其中,源数据主要由两张表组成,分别为:智能交通卡消费信息表、地铁线路表。智能交通卡消费信息表主要包含四个字段,即:CardID、TrmnlID、TrnsctTime、TrnsctyType,其中CardID是智能交通卡的卡号,也即其唯一标识;TrmnlID是地铁站刷卡终端的终端号,也即其唯一标识,一个地铁站配备多个刷卡终端,每个刷卡终端由终端号唯一标识,即每个终端只属于一个地铁站;TrnsctTime是用户的消费(刷卡)时间,TrnsctTime有两种类型,进站和出站,分别用21,22标识,例如,本实施例中智能交通卡消费信息表包括深圳市2013-07-01~2013-08-29之间631万多张智能交通卡的信息数据。地铁线路表包括三个字段,即:RouteID、PathInfo、Type,其中routeID为线路名称,例如1号线,PathInfo为途径站点,站点之间用逗号隔开,Type为线路类型(上、下行),1为上行,2为下行。
其中,步骤S1从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息具体包括:
S11、对包含乘客所有乘车记录的源数据进行数据预处理;
S12、以智能交通卡的卡号作为唯一标识,从经过数据预处理后的数据中读取每张卡的乘车记录(假设一张卡对应一位乘客);
S13、对乘客进行分类,将时空规律乘客的tag值设为一预定值;本实施例中,如果是时空规律乘客,则将tag的值设置为1,否则设置为0;
S14、对于步骤S13中分类后的时空规律乘客,将全天分成n个时间段,计算时空规律乘客乘车各时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段;
本实施例中,将时间段指定为一个半小时,全天有48个时间段,分别用(T1,T2,T3…,T48)分别为0:00-1:29,0:30-1:59,1:00-2:29…23:30-00:59的乘车天数表示,用计算,ti1为第i天0:00~0:29的乘车状态,ti2为第i天0:30到0:59的乘车状态…,依次类推。各时段的乘车天数如表1所示:
表1
1 | … | 14 | 15 | 16 | 17 | 18 | … | 33 | 34 | … | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | … | 48 |
0 | 1 | 39 | 40 | 39 | 1 | 1 | 0 | 2 | 22 | 28 | 30 | 12 | 7 | 3 | 1 | 0 |
S15、对于T中的所有时段的乘车天数,通过比较相邻各时段的乘车天数的值,获取满足时间密集概率的各时段峰值;
本实施例中,如图2的折线图所示,某乘客的峰值为(16,40),(38,30)。其中(16,40)表示从7:30~9:00之间乘车的天数为40,(38,30)表示从18:30~20:00之间乘车的天数为30,这两个峰值正好对应上下班时段。从图2中可以看出该乘客有两个高峰时段,第二高峰时段的乘车时间相比第一高峰时段比较松散。
S16、对步骤S15中获取的每一个峰值对应的时间段,判断在时间段内乘客出行地点是否规律,若是,则将此峰值的详细信息添加到规律时空详情列表sptmList,详细信息包括时间密集概率、空间密集概率、密集的时间段、密集的进出站对;
本实施例中,例如:步骤S15中(38,30)对应的时间段为38,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律(例如乘客每天在7:00到8:30之间从深圳北站到大学城站)。如果是,则将此峰值的详细信息添加到sptmList,详细信息包括,时间密集概率、空间密集概率、密集的时间段、密集的进出站对。例如:{2,(0.9090909090909091→0.9090909090909091→15→大学城→世界之窗),(0.6818181818181818→0.5→37→世界之窗→大学城)}。
S17、计算规律时空详情列表sptmList中元素的数量并将数量赋值给size,size做为这名乘客的中心点;
S18、判断所有乘客是否都被处理并且找到所有的峰值,若是则结束,否则返回执行步骤S11。
进一步地,步骤S11具体包括:
S111、过滤缺失字段的交易记录;
S112、将智能交通卡过滤处理后的所有交易记录按时间排序,并计算智能交通卡中的每一乘车记录;
S113、计算每一智能交通卡的总刷卡天数;
S114、将步骤S112、S113中的数据结果汇总;
S115、对每一智能交通卡执行步骤S111-S114,直到全部智能交通卡均被处理;
S116、对输出结果进行统计,计算乘车天数概率分布。
进一步地,步骤S13通过如下方式对乘客进行分类:
S131、提取每一智能交通卡的交易记录;
S132、判断刷卡天数是否小于一预设阈值,是则输出类别1:极少出行乘客,执行步骤S136;否则执行步骤S133;
S133、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,执行步骤S134,否则执行步骤S135;
S134、在时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后执行步骤S136;
S135、利用基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;
S136、判断全部智能交通卡是否均被处理,是则结束,否则返回执行步骤S131;
其中类别4:时间和空间规律性乘客为时空规律乘客。
进一步地,基于时间的用户出行规律算法Tm-ODCluster包括:
A1、以天为周期、m分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
A2、计算每一时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段,n为将全天分成n个时间段;本实施例中,n=48;
A3、寻找刷卡最密集的时间段Sm,并计算时间密集概率Pt=Sm/Dnum,其中,Dnum为乘客刷卡总天数;
A4、若Pt大于时间密度阈值Thrt,则为时间规律性乘客;若Pt小于时间密度阈值Thrt,则为时间不规律性乘客。
进一步地,基于空间的用户出行规律算法Sp-ODCluster包括:
B1、查询时间段T内所有乘车记录,将乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,Daynum为天数,timelst为时间集合;
B2、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:若两站点为相邻站点,则相似性为1,否则为0;
B3、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/Dnum,其中,Dnum为乘客刷卡总天数;
若Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客。
进一步地,OD-cluster算法包括,
C1、从数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤C2,
否则建立簇,以对象P为中心、总天数为对象P的天数建立新簇C,将对象P加入新簇C,并将对象P标识为已处理;
C2、计算对象P与每个簇中心的距离;
若某个簇Ci的中心与对象P满足相似性标准,则将对象P归类到簇Ci,簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),
否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将对象P加入新簇C;
C3、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序。
其中,步骤S2根据获取的时空规律详细信息,对时空规律的地铁乘客进行聚类时,输入:时空乘客的所有时空规律详细信息,输出:所有乘客聚类结果。具体包括:
S21、以智能交通卡的卡号作为唯一标识,从规律时空详情列表sptmList中读取一张卡的所有时空规律详细信息P(假设一张卡对应一位乘客);
S22、判断是否有任何簇建立,若没有,则建立新簇C,并将对象P加入簇C,将对象P标识为已处理,簇C的中心值为对象P的峰值数量size;若已经有簇建立,则执行步骤S23;
S23、计算对象P与每个簇中心的距离;若存在某个簇Ci的中心与对象P的峰值数量size相等,则将对象P归类到簇Ci;否则,建立新簇Cj,并将对象P加入簇Cj;
S24、重复执行步骤S21-S23,直到所有对象都被处理并归入了某个簇,并按照簇中智能交通卡的卡号的数量对所有簇排序。
其中,步骤S3对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析,主要基于边缘乘客比非边缘乘客少的原则,例如某些乘客比较少的簇,簇中的边缘乘客等。输入:所有簇C(Ci中i值的另一层含义为高峰规律时段数量);输出:每簇乘客各时段的统计信息S(Si标识Ci的统计信息)。
时空规律乘客的边缘检测主要包括:一、基于簇的大小,寻找比较小的簇,例如有500万乘客,分为5簇,平均每簇为100w,如果某个簇的数量与平均簇的数量的比值小于某个阈值,则将其归类为边缘簇。二、数量比较大的簇,按时空分布特征寻找边缘乘客。
边缘特征分析主要通过对异常簇和非异常簇中乘客分析并比较其特征差异,从而得到无法从经验或者常规思维得到的一些异常现象,这里的异常现象主要是乘客的一些时空异常特征。
本实施例中,步骤S3具体包括:
S31、基于簇的大小,对所有簇分类,将簇划分为边缘簇abnCluster和非边缘簇nCluster,其中边缘簇abnCluster为簇的数量与平均簇的数量的比值小于设定阈值的簇,非边缘簇nCluster为簇的数量与平均簇的数量的比值大于或等于设定阈值的簇;
S32、依次读取非边缘簇nCluster中的每一个簇Ci,建立int[i][n]数组Si,n为将全天分成n个时间段;本实施例中,n=48,建立int[i][48]数组Si;
S33、依次取出簇Ci中一位乘客的规律时空详情列表sptmList,按高峰时段的大小对规律时空详情列表sptmList排序和编号,并将对应的数组Si元素的n值加1;例如某乘客有高峰时段(15,24,37),将其分别编号为(1,2,3),结果为{(1,15),(2,24),(3,37)},并将其对应的数组元素的值加1,即分别对Si[0][14],Si[1][23],Si[2][36]的值加1;
S34、重复执行步骤S33,直到簇Ci中所有的乘客都处理完;
S35、分析数组Si的结果分布情况;
S36、若非边缘簇nCluster中的所有簇都分析完毕,执行步骤S37;否则重复执行步骤S32-S36;
S37、依次读取边缘簇abnCluster中的每一个簇Ci,并按照乘客的时空特征按照步骤S32-S34进行分析;
S8:若边缘簇abnCluster中的所有簇都分析完毕,则结束;否则重复执行步骤S37。
现有技术中的相关研究主要集中于结合智能卡的类型对乘客做分析,并比较不同类型的乘客特征的差异性,例如学生卡、老年人卡、普通卡,并没有结合乘客自身的乘车特征对乘客做聚类,本发明基于时空数据挖掘对地铁乘客进行分类,完成对时空规律乘客的分类和边缘检测,最终按照时空规律乘客的规律时段数量将乘客做聚类,并对每一类时空规律乘客作分析和边缘检测,可以有效了解乘客的生活特征。
实验测试
本发明经过实验测试证明了其可行性,数据来源于深圳市地铁2013-07-01~2013-08-29之间631万多张智能交通卡的消费数据。
测试1,对深圳地铁两个月中所有乘客(假设一张卡对应一个乘客)时空特征做分析和分类,例如将每天只有一个时间段规律的乘客划分为第一类(如:上班时间规律但下班时间不规律,下班时间规律但上班时间不规律等),每天有两个时间段规律的乘客划分为第二类(如:上下班时间都规律的乘客),依次类推。分类结果如表2所示,
表2
1 | 2 | 3 | 4 | 5 | 6 | 7 |
377007 | 159919 | 961 | 344 | 9 | 2 | 1 |
从结果可以看出,大部分乘客有1或2个时间段规律,即第一类乘客和第二类乘客,其他类别的乘客占极少数。
测试2,结合步骤S3对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析的方法中对非边缘乘客的分析方法,计算各时段的规律乘客的数量,图3为有一个时空规律时段的乘客分布图,图4为有两个时段规律的乘客分布图,图5为有三个时段规律的乘客分布图。
从图3可以看出,大部分乘客在7:30~9:00之间最规律,这是因为7:30~9:00之间是上班高峰期,但是这部分乘客在下班时间,没有发现其时空规律性的原因有三种:一、业余生活比较丰富,所以下班后乘车时间和地点都比较分散;二、下班后不乘坐地铁,可能由于地铁的费用高,但下班相对上班,不怕迟到等;三、由于加班,员工下班的时间不固定。
从图4可以看出,有两个时段规律的乘客的上下班时间非常规律,上班高峰期的数量和下班高峰期的数量相差很小,且每个时段的乘客都近似符合正态分布。
从图5可以看出,有三个时段规律的乘客,其每个规律时段的峰值分别对应7:30~9:00,12:00~1:30,5:30~7:00,分别对应上班高峰时间,中午吃饭休息时间,下班高峰时间。
测试3,结合时空规律乘客边缘特征检测与分析算法中对边缘乘客的分析方法对类4,类5,类6,类7乘客做分析。由于类5,类6,类7乘客只有12个乘客,通过观察得到这类乘客的在空间上的规律,其中有9名乘客存在从同一站点进入的规律时段。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (5)
1.一种时空规律的地铁乘客聚类和边缘检测方法,其特征在于,包括如下步骤:
S1、从包含乘客所有乘车记录的源数据中获取时空规律的地铁乘客的时空规律详细信息;所述源数据包括智能交通卡消费信息表和地铁线路表;所述智能交通卡消费信息表包括智能交通卡的卡号、地铁站刷卡终端的终端号、用户的刷卡时间、进站或出站标识;所述地铁线路表包括线路名称、途经站点、线路类型,所述线路类型包括上行和下行;所述时空规律的地铁乘客为出行时间和出行地点均比较规律的乘客;
所述步骤S1具体包括:
S11、对包含乘客所有乘车记录的源数据进行数据预处理;
S12、以智能交通卡的卡号作为唯一标识,从经过数据预处理后的数据中读取每张卡的乘车记录;
S13、对乘客进行分类,将时空规律乘客的tag值设为一预定值;
S14、对于所述步骤S13中分类后的时空规律乘客,将全天分成n个时间段,计算时空规律乘客乘车各时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段;
S15、对于时间段T中的所有时段的乘车天数,通过比较相邻各时段的乘车天数的值,获取满足时间密集概率的各时段峰值;
S16、对所述步骤S15中获取的每一个峰值对应的时间段,判断在所述时间段内乘客出行地点是否规律,若是,则将此峰值的详细信息添加到规律时空详情列表sptmList,所述详细信息包括时间密集概率、空间密集概率、密集的时间段、密集的进出站对;
S17、计算所述规律时空详情列表sptmList中元素的数量并将所述数量赋值给size,size做为这名乘客的中心点;
S18、判断所有乘客是否都被处理并且找到所有的峰值,若是则结束,否则返回执行步骤S11;
S2、根据所述获取的时空规律详细信息,对时空规律的地铁乘客进行聚类;
S3、对聚类后的时空规律的地铁乘客进行边缘检测及边缘特征分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、以智能交通卡的卡号作为唯一标识,从规律时空详情列表sptmList中读取一张卡的所有时空规律详细信息P;
S22、判断是否有任何簇建立,若没有,则建立新簇C,并将对象P加入簇C,将对象P标识为已处理,簇C的中心值为对象P的峰值数量size;若已经有簇建立,则执行步骤S23;
S23、计算对象P与每个簇中心的距离;若存在某个簇Ci的中心与对象P的峰值数量size相等,则将所述对象P归类到簇Ci;否则,建立新簇Cj,并将对象P加入簇Cj;
S24、重复执行步骤S21-S23,直到所有对象都被处理并归入了某个簇,并按照簇中智能交通卡的卡号的数量对所有簇排序。
3.根据权利要求2所述的方法,其特征在于,所述步骤S3具体包括:
S31、基于簇的大小,对所有簇分类,将簇划分为边缘簇abnCluster和非边缘簇nCluster,其中所述边缘簇abnCluster为簇的数量与平均簇的数量的比值小于设定阈值的簇,非边缘簇nCluster为簇的数量与平均簇的数量的比值大于或等于设定阈值的簇;
S32、依次读取非边缘簇nCluster中的每一个簇Ci,建立int[i][n]数组Si,所述n为将全天分成n个时间段;
S33、依次取出簇Ci中一位乘客的规律时空详情列表sptmList,按高峰时段的大小对规律时空详情列表sptmList排序和编号,并将对应的数组Si元素的n值加1;
S34、重复执行步骤S33,直到簇Ci中所有的乘客都处理完;
S35、分析所述数组Si的结果分布情况;
S36、若非边缘簇nCluster中的所有簇都分析完毕,执行步骤S37;否则重复执行步骤S32-S36;
S37、依次读取边缘簇abnCluster中的每一个簇Ci,并按照乘客的时空特征按照步骤S32-S34进行分析;
S8:若边缘簇abnCluster中的所有簇都分析完毕,则结束;否则重复执行步骤S37。
4.根据权利要求1所述的方法,其特征在于,所述步骤S11具体包括:
S111、过滤缺失字段的交易记录;
S112、将智能交通卡过滤处理后的所有交易记录按时间排序,并计算智能交通卡中的每一乘车记录;
S113、计算每一智能交通卡的总刷卡天数;
S114、将步骤S112、S113中的数据结果汇总;
S115、对每一智能交通卡执行步骤S111-S114,直到全部智能交通卡均被处理;
S116、对输出结果进行统计,计算乘车天数概率分布。
5.根据权利要求1所述的方法,其特征在于,所述步骤S13通过如下方式对乘客进行分类:
S131、提取每一智能交通卡的交易记录;
S132、判断刷卡天数是否小于一预设阈值,是则输出类别1:极少出行乘客,执行步骤S136;否则执行步骤S133;
S133、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,执行步骤S134,否则执行步骤S135;所述基于时间的用户出行规律算法Tm-ODCluster包括:
A1、以天为周期、m分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
A2、计算所述每一时间段的乘车天数其中Dnum为乘客刷卡总天数,i为第i天,j为时间段,n为将全天分成n个时间段;
A3、寻找刷卡最密集的时间段Sm,并计算时间密集概率Pt=Sm/Dnum,其中,Dnum为乘客刷卡总天数;
A4、若Pt大于时间密度阈值Thrt,则为时间规律性乘客;若Pt小于时间密度阈值Thrt,则为时间不规律性乘客;
S134、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后执行步骤S136;
S135、利用基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;
所述基于空间的用户出行规律算法Sp-ODCluster包括:
B1、查询时间段T内所有乘车记录,将所述乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,Daynum为天数,timelst为时间集合;
B2、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:若两站点为相邻站点,则相似性为1,否则为0;所述OD-cluster算法包括,C1、从所述数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤C2,否则建立簇,以所述对象P为中心、总天数为所述对象P的天数建立新簇C,将所述对象P加入所述新簇C,并将所述对象P标识为已处理;C2、计算所述对象P与每个簇中心的距离;若某个簇Ci的中心与对象P满足相似性标准,则将所述对象P归类到所述簇Ci,所述簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将所述对象P加入所述新簇C;C3、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序;
B3、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/Dnum,其中,Dnum为乘客刷卡总天数;
若Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客;
S136、判断全部智能交通卡是否均被处理,是则结束,否则返回执行步骤S131;
其中所述类别4:时间和空间规律性乘客为所述时空规律乘客。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310750251.7A CN103699801B (zh) | 2013-12-31 | 2013-12-31 | 一种时空规律的地铁乘客聚类和边缘检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310750251.7A CN103699801B (zh) | 2013-12-31 | 2013-12-31 | 一种时空规律的地铁乘客聚类和边缘检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103699801A CN103699801A (zh) | 2014-04-02 |
CN103699801B true CN103699801B (zh) | 2017-01-11 |
Family
ID=50361328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310750251.7A Active CN103699801B (zh) | 2013-12-31 | 2013-12-31 | 一种时空规律的地铁乘客聚类和边缘检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103699801B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469181B (zh) * | 2015-08-21 | 2020-08-07 | 方正国际软件(北京)有限公司 | 一种用户行为模式分析方法及装置 |
CN105243128B (zh) * | 2015-09-29 | 2018-06-08 | 西华大学 | 一种基于签到数据的用户行为轨迹聚类方法 |
CN108875800B (zh) * | 2018-05-29 | 2022-04-12 | 重庆大学 | 一种基于rfid卡的行为特征提取方法 |
CN110569765B (zh) * | 2019-08-02 | 2022-04-22 | 北京旷视科技有限公司 | 图片识别方法、图片比对方法及装置 |
CN110533483A (zh) * | 2019-09-05 | 2019-12-03 | 中国联合网络通信集团有限公司 | 一种基于出行特征的乘客分类方法及系统 |
CN111833229B (zh) * | 2020-03-28 | 2024-06-18 | 东南大学 | 一种基于地铁依赖度的出行行为时空分析方法及装置 |
CN111885639A (zh) * | 2020-07-24 | 2020-11-03 | 上海应用技术大学 | 地铁人流检测方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731456A (zh) * | 2005-08-04 | 2006-02-08 | 浙江大学 | 基于立体视觉的公交客流统计方法及其系统 |
CN102097002A (zh) * | 2010-11-22 | 2011-06-15 | 东南大学 | 一种基于ic卡数据获取公交站点od的方法及系统 |
CN103020284A (zh) * | 2012-12-28 | 2013-04-03 | 刘建勋 | 一种基于时空聚类的出租车载客点推荐方法 |
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8542916B2 (en) * | 2008-07-09 | 2013-09-24 | Florida Atlantic University | System and method for analysis of spatio-temporal data |
-
2013
- 2013-12-31 CN CN201310750251.7A patent/CN103699801B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731456A (zh) * | 2005-08-04 | 2006-02-08 | 浙江大学 | 基于立体视觉的公交客流统计方法及其系统 |
CN102097002A (zh) * | 2010-11-22 | 2011-06-15 | 东南大学 | 一种基于ic卡数据获取公交站点od的方法及系统 |
CN103020284A (zh) * | 2012-12-28 | 2013-04-03 | 刘建勋 | 一种基于时空聚类的出租车载客点推荐方法 |
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103699801A (zh) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103699801B (zh) | 一种时空规律的地铁乘客聚类和边缘检测方法 | |
CN103699601B (zh) | 基于时空数据挖掘的地铁乘客分类方法 | |
WO2020238631A1 (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN108650632B (zh) | 一种基于职住对应关系和时空间核聚类的驻点判断方法 | |
Egu et al. | Investigating day-to-day variability of transit usage on a multimonth scale with smart card data. A case study in Lyon | |
Zhao et al. | Understanding temporal and spatial travel patterns of individual passengers by mining smart card data | |
CN111126429A (zh) | 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法 | |
CN104036360A (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN103473786A (zh) | 基于多目标模糊聚类的灰度图像分割方法 | |
CN108629000A (zh) | 一种手机轨迹数据聚类的群体行为特征提取方法及系统 | |
CN109684373A (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
CN107644218B (zh) | 基于图像采集功能实现人流密集区域行为分析判断的工作方法 | |
CN109903553A (zh) | 多源数据挖掘的公交车上下车站点识别和检验方法 | |
CN108122131A (zh) | 基于公共自行车刷卡数据的通勤行为和职住地识别方法 | |
CN109214464A (zh) | 一种基于大数据的疑似窃电用户识别装置及识别方法 | |
Guo et al. | Exploring potential travel demand of customized bus using smartcard data | |
He et al. | Space–time classification of public transit smart card users’ activity locations from smart card data | |
Zhou et al. | Variability in individual home-work activity patterns | |
CN107239435B (zh) | 一种基于信息熵的出行周期检测方法 | |
CN106651630A (zh) | 关键用电行业识别方法和系统 | |
Chen et al. | Extracting bus transit boarding and alighting information using smart card transaction data | |
Delibašić et al. | Mining skier transportation patterns from ski resort lift usage data | |
CN113822367B (zh) | 一种基于人脸的区域行为分析方法、系统及介质 | |
Faroqi et al. | Investigating the correlation between activity similarity and trip similarity of public transit passengers using smart card data | |
Chu et al. | Smart card Validation data as a multi-day transit panel survey to investigate individual and aggregate variation in travel behaviour |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200107 Address after: 518000 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A Patentee after: Shenzhen Beidou Intelligent Technology Co., Ltd. Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue Patentee before: Shenzhen Advanced Technology Research Inst. |