CN111833229A - 一种基于地铁依赖度的出行行为时空分析方法及装置 - Google Patents

一种基于地铁依赖度的出行行为时空分析方法及装置 Download PDF

Info

Publication number
CN111833229A
CN111833229A CN202010232612.9A CN202010232612A CN111833229A CN 111833229 A CN111833229 A CN 111833229A CN 202010232612 A CN202010232612 A CN 202010232612A CN 111833229 A CN111833229 A CN 111833229A
Authority
CN
China
Prior art keywords
subway
passenger
travel
time
passengers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010232612.9A
Other languages
English (en)
Inventor
任刚
朱玉霖
宋建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010232612.9A priority Critical patent/CN111833229A/zh
Publication of CN111833229A publication Critical patent/CN111833229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)

Abstract

本发明公开了一种基于地铁依赖度的出行行为时空分析方法及装置,其中方法包括:合并和过滤原始数据,得到有效的地铁乘客出行记录;计算地铁乘客依赖度指标;根据地铁乘客依赖度指标,利用K‑Means算法,对数据集进行聚类获得地铁乘客聚类结果并分析;计算并分析出行时间分布和出行耗时分布;计算并分析全日客流空间分布和客流源汇区分布。装置包括:原始数据预处理模块、地铁依赖度指标选取模块、地铁乘客聚类分析模块、出行时间特征分析模块、出行空间特征分析模块。本发明具有准确性、有效性和可操作性,深入挖掘地铁乘客的出行时空特征,可广泛应用于不同地铁依赖度乘客出行行为的分析中,为地铁运营管理、政策制定提供理论及方法依据。

Description

一种基于地铁依赖度的出行行为时空分析方法及装置
技术领域
本发明涉及智能交通技术领域,具体涉及一种基于地铁依赖度的出行行为时空分析方法及装置。
背景技术
城市轨道交通作为一种电能驱动、快捷便利的公共出行方式受到了众多城市的欢迎,也极大满足了居民的生活需要。在国家政策的推动下,我国城市轨道交通已经进入了快速发展的新时期。自动售检票系统,简称AFC,是实现轨道交通售票、检票、计费、收费、统计、清分、管理等全过程的自动处理系统。AFC系统产生的海量数据记录了每位乘客在地铁内出行起讫点(OD)的时空信息。
通过挖掘AFC数据,对地铁乘客出行行为进行分析,探索在不同空间规模下(如一个城市、地区或一条线路),地铁乘客的时空动态特征(例如持卡人如何使用城市空间、是否有规律性,工作日和周末、不同小时体现的高峰、上下车密度的空间分布等),将为地铁的运营管理、政策制定提供强有力的理论依据,有利于地铁运营公司合理组织客流,营造优质服务,方便市民出行。
研究不同类别地铁乘客的出行规律,是地铁制定运营政策的前提。地铁依赖度能有效区分高价值乘客,对全面了解地铁乘客的出行行为,具有重要的研究意义。以往研究多针对地铁通勤乘客,对其出行行为的挖掘已经比较深入,但是地铁通勤乘客不一定完全等于地铁高依赖乘客。而对于如何衡量乘客对地铁的依赖度,并比较分析不同地铁依赖度乘客出行行为的研究尚不多见。地铁依赖度能有效区分高价值乘客,对全面了解地铁乘客的出行行为,具有重要的研究意义。但目前尚缺乏有效的技术手段对依赖度进行量化分析。
发明内容
为解决上述问题,本发明提供一种基于地铁依赖度的出行行为时空分析方法及装置,具有准确性、有效性和可操作性,可广泛应用于乘客地铁依赖度的衡量以及不同地铁依赖度乘客出行行为的分析中。
为了达到上述目的,本发明提供如下技术方案:
一种基于地铁依赖度的出行行为时空分析方法,包括如下步骤:
(1)原始数据预处理:通过合并和过滤操作,得到有效出行记录;
(2)地铁依赖度指标选取:计算出行强度和出行稳定性两类指标,并得到包含所述两类指标的数据集;
(3)地铁乘客聚类分析:根据地铁乘客依赖度指标,利用K-Means算法,对数据集进行聚类获得地铁乘客聚类结果并分析;
(4)出行时间特征分析:计算并分析出行时间分布和出行耗时分布;
(5)出行空间特征分析:计算并分析全日客流空间分布和客流源汇区分布。
进一步的,所述步骤(1)包括以下子步骤:
(1.1)过滤部分票卡类型的刷卡记录:过滤的票卡类型包括员工票、出站票、普通单程票、纪念计次票、不记名一卡通;
(1.2)合并地铁乘客的进站和出站刷卡记录:对地铁乘客的进站刷卡记录和出站刷卡记录进行合并,删除多余的数据;
(1.3)得到有效的地铁乘客出行记录:每条地铁乘客的有效出行记录包含进站时间、出站时间、进站车站号、出站车站号、一卡通卡面号和票卡类型。
进一步的,所述步骤(2)包括以下子步骤:
(2.1)定义出行强度指标:出行强度指标刻画地铁乘客对地铁的利用程度,包括出行天数和出行次数两个指标,其中出行天数定义为乘客i在统计期内中使用地铁出行的天数,出行次数定义为乘客i在统计期内中使用地铁的次数;
(2.2)定义出行稳定性指标:出行稳定性指标体现地铁乘客的出行规律性,包括首乘时间稳定性和首乘站点稳定性两个指标,其中首乘时间稳定性定义为乘客i的相异首乘时间数除以该乘客的出行天数的比值,通过下式计算:
Figure BDA0002429781650000021
式中,
SSWi——表示乘客i在统计期内的首乘时间稳定性;
YSSi——表示乘客i在统计期内不同的首乘时间的个数;
Ti——表示乘客i在统计期内的出行天数;
SSi——表示乘客i在统计期内的首乘时间个数;
其中首乘站点稳定性:表示为SZWi,定义为乘客i的相异首乘站点数除以该乘客的出行天数的比值,通过下式计算:
Figure BDA0002429781650000022
式中,
SZWi——表示乘客i在统计期内的首乘站点稳定性;
YSZi——表示乘客i在统计期内不同的首乘站点的个数;
Ti——表示乘客i在统计期内的出行天数;
SZi——表示乘客i在统计期内的首乘站点个数;
(2.3)构造新数据集:通过计算每位地铁乘客的两类指标值,构造衡量地铁乘客依赖度的新数据集,数据集中包括各位地铁乘客的出行强度指标和出行稳定性指标。
进一步的,所述步骤(3)包括以下子步骤:
(3.1)采用K-Means算法如下:首先,从数据集中随机选取k个初始聚类中心Ci,其中,1≤i≤k,计算其余数据对象与聚类中心Ci的欧氏距离,找出离目标数据对象最近的聚类中心Ci,并将数据对象分配到聚类中心Ci所对应的簇中;然后,计算每个簇中数据对象的平均值作为新的聚类中心,进行下一次迭代,直到聚类中心不再变化或达到最大的迭代次数停止。;
其中,空间中数据对象与聚类中心间的欧式距离计算公式为:
Figure BDA0002429781650000031
其中,x为数据对象,Ci为第i个聚类中心,m为数据对象的维度,xj,Cij为x和Ci的第j个属性值;
整个数据集的误差平方和SSE计算公式为:
Figure BDA0002429781650000032
其中,SSE的大小表示聚类结果的好坏,k为簇的个数;
(3.2)地铁乘客聚类:根据地铁乘客依赖度指标,利用K-Means算法,进行地铁乘客聚类,获得地铁乘客聚类结果;
(3.3)聚类结果分析:采用箱形图直观地展示地铁乘客分类指标值,进而对地铁乘客聚类结果进行分析。
进一步的,所述k值取为3。
进一步的,所述步骤4具体包括如下子步骤:
(4.1)分析出行时间分布:计算方法为,按每30分钟为一个时段,将一日划分成48个时段,分别统计两周内每个时段内的日均刷卡量,得到各类乘客的出行时间分布信息;
(4.2)分析出行耗时分布:计算方法为,以5分钟为间隔,将出行耗时分为19组,分别统计每组的出行记录数所占比例,得到各类乘客的出行耗时分布信息。
进一步的,所述步骤5具体包括如下子步骤:
(5.1)分析全日客流空间分布:计算方法为,利用数据挖掘提取乘客进站刷卡点的时间空间信息,然后釆用空间叠加分析法,对每个地铁站点的刷卡量进行统计叠加,得到全日乘客地铁出行的空间分布;
(5.2)分析客流源汇区分布:计算方法为,分别统计早高峰和晚高峰时段的各个站点的日均进站量和日均出站量,计算其差值,得到客流源汇区信息。
本发明还提供了一种基于地铁依赖度的出行行为时空分析装置,包括:原始数据预处理模块、地铁依赖度指标选取模块、地铁乘客聚类分析模块、出行时间特征分析模块、出行空间特征分析模块;所述原始数据预处理模块用于对地铁乘客的刷卡记录数据进行预处理,过滤部分票卡类型的刷卡记录,合并进出站刷卡记录,删除多余数据,得到有效的地铁乘客出行记录;所述地铁依赖度指标选取模块用于根据原始数据预处理模块得到的有效地铁乘客出行记录计算地铁依赖度指标,构造并存储新的地铁乘客指标数据集;所述地铁乘客聚类分析模块用于利用K-Means算法对地铁依赖度指标选取模块得到的数据集进行聚类,获得地铁乘客聚类结果并分析,从而得到若干类乘客的出行数据;所述出行时间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的出行时间和出行耗时进行计算和分析;出行空间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的全日客流空间分布和客流源汇区分布进行计算和分析。
进一步的,所述地铁依赖度指标包括出行强度指标和出行稳定性指标,所述出行强度指标包括统计期内乘客在使用地铁的出行天数和使用地铁的次数,所述出行稳定性指标包括首乘时间稳定性和首乘站点稳定性。
与现有技术相比,本发明具有如下优点和有益效果:
本发明提供一种基于地铁依赖度的出行行为时空分析方法,通过运用K-Means聚类算法,提出以出行强度、出行稳定性为衡量指标的聚类方案,将地铁乘客分为了3类,分别为地铁高依赖乘客、地铁中等依赖乘客和地铁低依赖乘客,并研究三类乘客的出行时间分布、出行时耗分布、全日客流分布、客流源汇区分布,深入挖掘地铁乘客的出行时空特征,可为地铁运营管理、政策制定提供理论及方法依据。本发明提供的装置能够实现该方法,计算并获得各类乘客的相关分析数据。
附图说明
图1为本发明的方法流程示意图。
图2为地铁乘客分类指标值箱形图,其中(a)为三类地铁乘客出行次数指标的分布图,(b)为三类地铁乘客出行天数指标的分布图(c)为三类地铁乘客出行稳定性指标的分布图。
图3为出行时间分布图,其中(a)为地铁低依赖乘客出行时间分布图,(b)为地铁高依赖乘客出行时间分布图,(c)为地铁中等依赖乘客出行时间分布图。
图4为出行耗时分布图,其中(a)为工作日三类地铁乘客的出行耗时分布图,(b)为周末三类地铁乘客的出行耗时分布图。
图5为全日客流空间分布图,其中(a)为地铁低依赖乘客客流空间分布图,(b)为地铁高依赖乘客客流空间分布图,(c)为地铁中等依赖乘客客流空间分布图。
图6为客流源汇区分布图,其中(a)为地铁低依赖乘客早高峰客流源汇区分布图,(b)为地铁低依赖乘客晚高峰客流源汇区分布图,(c)为地铁高依赖乘客早高峰客流源汇区分布图,(d)为地铁高依赖乘客晚高峰客流源汇区分布图,(e)为地铁中等依赖乘客早高峰客流源汇区分布图,(f)为地铁中等依赖乘客晚高峰客流源汇区分布图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供一种基于地铁依赖度的出行行为时空分析方法,通过运用K-Means聚类算法,提出以出行强度、出行稳定性为衡量指标的聚类方案,将地铁乘客分为了3类,分别为地铁高依赖乘客、地铁中等依赖乘客和地铁低依赖乘客,并研究三类乘客的出行时间分布、出行时耗分布、全日客流分布、客流源汇区分布,深入挖掘地铁乘客的出行时空特征,可为地铁运营管理、政策制定提供理论及方法依据。
本发明具体流程如图1所示,包括如下步骤:
步骤1:原始数据预处理
在AFC数据产生、传递、接收和存储过程中,会不可避免地产生一些数据冗余现象。同时,地铁工作人员产生的刷卡记录、无法对应具体乘客的刷卡记录等均不在本发明研究范围内,属于无用数据。因此,要得到有效的地铁乘客出行记录,需要对原始数据进行预处理。
数据预处理包括以下内容:
步骤1.1:过滤不在本发明范围内的票卡类型记录
原始AFC数据票卡类型多样,部分票卡类型不在本发明范围内,包括员工票、出站票、普通单程票、纪念计次票、不记名一卡通。原因如下:地铁工作人员进出地铁站刷卡次数较为频繁且不符合常规出行;出站票的进出车站号相同,不体现出行记录;普通单程票、纪念计次票等没有一卡通卡面号,不便对应具体乘客的出行记录;多张不记名一卡通的卡面号相同,不便对应具体乘客的出行记录。故上述票卡类型记录属于无效数据,在本发明中不予考虑,将其过滤。
步骤1.2:合并地铁乘客的进站和出站刷卡记录
原始AFC数据中包括进站刷卡记录和出站刷卡记录。进站刷卡记录中包含进入车站时间和进入车站编号,出站记录则包含进入车站时间、进入车站编号、离开车站时间和离开车站编号。同一乘客的进站信息在进站刷卡记录、出站刷卡记录中被重复记录2次。因此,需要对地铁乘客的进站和出站刷卡记录进行合并,删除多余的数据。
步骤1.3:得到有效的地铁乘客出行记录
本发明所采用的数据来自于南京地铁集团,范围涵盖2017年10月16日至29日两周。对原始数据进行预处理后,得到1681636张地铁卡的有效出行记录。每条出行记录包含进站时间、出站时间、进站车站号、出站车站号、一卡通卡面号和票卡类型。表1为经整理后得到的地铁乘客出行记录示例。
表1出行记录示例
Figure BDA0002429781650000061
步骤2:地铁依赖度指标选取
本发明定义了出行强度和出行稳定性两类指标,以衡量地铁乘客对地铁的依赖度。其中,出行强度指标刻画地铁乘客对地铁的利用程度,出行稳定性指标体现地铁乘客的出行规律性。
步骤2.1:定义出行强度指标
出行强度指标包括乘客在统计期内中使用地铁出行的天数(以下简称为“出行天数”,表示为Ti),以及乘客在统计期内中使用地铁的次数(以下简称为“出行次数”,表示为Ci)。出行天数反映了乘客对地铁需求的稳定性。出行次数反映乘客对地铁使用的频率。出行天数和出行次数越大,表示该乘客对地铁的利用程度越高。
步骤2.2:定义出行稳定性指标
出行稳定性指标包括时间维度和空间维度的两个指标,具体如下:
(1)首乘时间稳定性
首乘时间是指每日首次乘坐地铁的时间。首乘时间稳定性可作为衡量乘客每日出行时间稳定性的一个指标,用乘客相异首乘时间数除以该乘客出行天数的比值来表示,见公式2-1。其中,出行时间在同一时段内(即字段“时间”中的“小时”部分相同),例如“2017/10/256:15:56”和“2017/10/296:45:20”均处于“2017/10/296:00:00”到“2017/10/297:00:00”时间段内(即“小时”部分均为6),则认为是相同时间出行。
Figure BDA0002429781650000071
式中,
SSWi——表示乘客i在统计期内的首乘时间稳定性,个/天;
YSSi——表示乘客i在统计期内不同的首乘时间的个数,单位:个;
Ti——表示乘客i在统计期内的出行天数,单位:天;
SSi——表示乘客i在统计期内的首乘时间个数,单位:个。
(2)首乘站点稳定性
首乘站点是指每日首次乘坐地铁的车站。首乘站点稳定性可作为衡量乘客每日出行空间稳定性的一个指标,用乘客相异首乘站点数除以该乘客出行天数的比值来表示,见公式2-2。其中,不同日期的首乘站点编号必须完全相同,才可认为是相同站点出行。
Figure BDA0002429781650000072
式中,
SZWi——表示乘客i在统计期内的首乘站点稳定性,个/天;
YSZi——表示乘客i在统计期内不同的首乘站点的个数,单位:个;
Ti——表示乘客i在统计期内的出行天数,单位:天;
SZi——表示乘客i在统计期内的首乘站点个数,单位:个。
步骤2.3:构造新数据集
通过计算每位地铁乘客的两类指标值,本发明构造了衡量地铁乘客依赖度的新数据集。其中,数据集中的每一行代表一位地铁乘客的指标值。表2为构造的新数据集示例。
表2数据集示例
Figure BDA0002429781650000073
步骤3:地铁乘客聚类分析
根据地铁乘客依赖度指标,利用K-Means算法,进行地铁乘客聚类,获得地铁乘客聚类结果,并对地铁乘客聚类结果进行分析。其中,聚类方法的有效性通过单因素方差分析进行检验。
步骤3.1:K-Means算法
K-Means算法是是聚类分析的一种经典算法。该方法虽然不能用于类别属性的数据,但对于数值属性的数据,它能很好地体现聚类在几何和统计学上的意义。同时算法易实现且运算速度快,适合处理大数据集。由于南京地铁AFC数据集庞大,故本发明采用K-Means算法,其基本流程如下:
首先,从数据集中随机选取k个初始聚类中心Ci(1≤i≤k),计算其余数据对象与聚类中心Ci的欧氏距离,找出离目标数据对象最近的聚类中心Ci,并将数据对象分配到聚类中心Ci所对应的簇中。然后,计算每个簇中数据对象的平均值作为新的聚类中心,进行下一次迭代,直到聚类中心不再变化或达到最大的迭代次数停止。
空间中数据对象与聚类中心间的欧式距离计算公式为:
Figure BDA0002429781650000081
其中,x为数据对象,Ci为第i个聚类中心,m为数据对象的维度,xj,Cij为x和Ci的第j个属性值。
整个数据集的误差平方和SSE计算公式为:
Figure BDA0002429781650000082
其中,SSE的大小表示聚类结果的好坏,k为簇的个数。
步骤3.2:地铁乘客聚类
运用K-Means算法,将k值取3,对构造的新数据集进行分类,迭代25次后达到收敛,获得最终聚类结果。聚类方法的有效性通过单因素方差分析进行检验,P<0.01,表示三类乘客的出行强度和出行稳定性指标值差异显著。表3为单因素方差分析,表4为聚类指标值。
表3单因素方差分析
Figure BDA0002429781650000083
表4聚类指标值
Figure BDA0002429781650000084
Figure BDA0002429781650000091
注:Q1为第一四分位数,Q3为第三四分位数
步骤3.3:聚类结果分析
为便于分析聚类结果,采用箱形图直观地展示地铁乘客分类指标值,如图2所示。乘客分类结果显示:
(1)类别1乘客数量众多,但出行次数和出行天数均为最小,出行时间和站点稳定性也为最差。该类乘客的出行特点为:偶尔乘坐地铁,且地铁出行不规律。因此,本发明将类别1乘客定义为地铁低依赖乘客。
(2)类别2乘客数量最少,但出行次数和出行天数均为最大,出行时间和站点稳定性也为最好。该类乘客的出行特点为:经常乘坐地铁,且地铁出行规律较强。因此,本发明将类别2乘客定义为地铁高依赖乘客。
(3)类别3乘客数量适中,出行次数和出行天数均为适中,出行时间和站点稳定性也为适中。该类乘客的出行特点为:地铁出行频率中等,且地铁出行有一定规律性。因此,本发明将类别3乘客定义为地铁中等依赖乘客。
(4)三个类别乘客的出行强度和出行稳定性指标值差异显著。其中,地铁高依赖乘客和地铁中等依赖乘客的各指标值波动程度较大,而地铁低依赖乘客的各指标值波动程度最小。在出行稳定性方面,整体而言,地铁高依赖乘客和地铁中等依赖乘客的首乘站点比首乘时间更稳定。
步骤4:出行时间特征分析
通过研究地铁客流的时间分布特征,可以对不同人群进行分流,这将大大提高地铁系统运营效率。本发明通过出行时间分布和出行耗时分布,对三类地铁乘客的出行时间特征进行分析。
步骤4.1:出行时间分布
本发明提取了三类乘客的进站刷卡时间数据,按每30分钟为一个时段,将一日24小时划分成了48个时段,分别统计了两周内每个时段内的日均刷卡量,得到了三类乘客的出行时间分布图,如图3所示。从图中可以看出:
(1)工作日地铁低依赖乘客存在错峰出行特征,而周末该特征减弱。
(2)地铁高依赖乘客通勤属性较强,且夜晚回家时间较早上出行时间更具弹性。
(3)地铁中等依赖乘客除通勤出行外,在白天平峰时期发生的生活性出行也较多。
步骤4.2:出行耗时分布
地铁出行耗时是研究乘客出行时间特征的重要方面。基于此,本发明以5分钟为间隔,将出行耗时分为19组,分别统计每组的出行记录数所占比例,得到了三类乘客的出行耗时分布图,如图4所示。从图中可以看出:
(1)地铁低依赖乘客偏爱周末出行,而地铁高依赖乘客更偏爱工作日出行。
(2)地铁低依赖乘客对出行耗时容忍度最高,而地铁高依赖乘客对出行耗时容忍度最低。
步骤5:出行空间特征分析
通过研究地铁客流的空间分布特征,可以为城市轨道交通及用地系统的规划提供依据。本发明采用可视化方法,将地铁乘客进站量、出站量和站点总客流量展现在高德地图上,通过全日客流空间分布和客流源汇区分布,对地铁乘客的出行时间特征进行分析。
步骤5.1:全日客流空间分布
站点客流量是居民地铁出行在空间上的数量反应,利用数据挖掘将乘客进站刷卡点的时间、经纬度等信息提取出来。然后,在高德地图中釆用空间叠加分析法,对每个地铁站点的刷卡量进行统计叠加,得出南京全日乘客地铁出行的空间分布图,如图5所示。从图中可以看出:
(1)地铁高依赖乘客在居住区及商业区分布较多,如排名靠前的柳州东路站点位于桥北商圈,迈皋桥站点位于迈皋桥商圈,油坊桥、集庆门大街、马群等站点位于大型居住社区。
(2)地铁低依赖乘客在商业区、文娱区及火车站等地分布较多,如排名靠前的夫子庙、下马坊为旅游景点,南京南站、南京站为火车站;地铁中等依赖乘客在居住区、商业区、文娱区及火车站分布均较多。
(3)地铁中等依赖乘客在居住区、商业区、文娱区及火车站分布均较多。
步骤5.2:客流源汇区分布
本发明分别统计了早高峰(6:00-10:00)和晚高峰(16:00-20:00)时段的各个站点的进站量和出站量,计算其差值,并获得了客流源汇区的示意图,如图6所示(圆圈大小表示客运量差值大小)。其中,源区表示进站量大于出站量,客流由该站点向其他站点发散;汇区则表示进站量小于出站量,客流由其他站点向该站点集聚。从图中可以看出:
(1)对于地铁高依赖乘客,早高峰的客流汇区主要围绕在内环、中环的商业区,客流源区主要位于外环及六合区、江宁区和浦口区等地的住宅区。晚高峰的源汇区与早高峰基本相反,且同一站点的客运量与早高峰基本一致。
(2)对于地铁低依赖乘客,早高峰的客流汇区主要围绕在内环的文娱区以及火车站等,客流源区主要位于中环、外环及六合区、江宁区和浦口区等住宅区。晚高峰的部分客流源汇区与早高峰相反,部分与早高峰相同,同时部分站点的客运量与早高峰差异明显,部分与早高峰基本一致。
(3)地铁中等依赖乘客早、晚高峰源汇区基本相反,部分站点的客运量与早高峰略有差异,部分与早高峰基本一致。
本发明还提供一种基于地铁依赖度的出行行为时空分析装置,为在计算机上实现的可执行的软件,能够执行上述方法中的各个步骤。具体的说,本装置包括原始数据预处理模块、地铁依赖度指标选取模块、地铁乘客聚类分析模块、出行时间特征分析模块、出行空间特征分析模块。
其中,原始数据预处理模块用于对地铁乘客的刷卡记录数据进行预处理,过滤不属于本发明研究范围的部分票卡类型的刷卡记录,合并进出站刷卡记录,删除多余数据,得到有效的地铁乘客出行记录。本模块具体用于实现上述步骤1内容。
地铁依赖度指标选取模块用于根据原始数据预处理模块得到的有效地铁乘客出行记录计算地铁依赖度指标,构造并存储新的地铁乘客指标数据集。地铁依赖度指标包括出行强度指标和出行稳定性指标,其中出行强度指标包括统计期内乘客在使用地铁的出行天数,和使用地铁的次数。而出行稳定性指标包括首乘时间稳定性和首乘站点稳定性两个指标,计算方法参见上述公式(1)及公式(2)。地铁乘客指标数据集用于存储各乘客地铁依赖度指标。本模块具体用于实现上述步骤2内容。
地铁乘客聚类分析模块用于利用K-Means算法对地铁依赖度指标选取模块得到的数据集进行聚类,获得地铁乘客聚类结果并分析,本发明中簇的个数取3,从而得到三类乘客(地铁高依赖、中依赖、低依赖)的出行数据。本模块具体用于实现上述步骤3内容。
出行时间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的出行时间和出行耗时进行计算和分析,具体用于实现上述步骤4内容。
出行空间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的全日客流空间分布和客流源汇区分布进行计算和分析,具体用于实现上述步骤5内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种基于地铁依赖度的出行行为时空分析方法,其特征在于,包括如下步骤:
(1)原始数据预处理:通过合并和过滤操作,得到有效出行记录;
(2)地铁依赖度指标选取:计算出行强度和出行稳定性两类指标,并得到包含所述两类指标的数据集;
(3)地铁乘客聚类分析:根据地铁乘客依赖度指标,利用K-Means算法,对数据集进行聚类获得地铁乘客聚类结果并分析;
(4)出行时间特征分析:计算并分析出行时间分布和出行耗时分布;
(5)出行空间特征分析:计算并分析全日客流空间分布和客流源汇区分布。
2.根据权利要求1所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述步骤(1)包括以下子步骤:
(1.1)过滤部分票卡类型的刷卡记录:过滤的票卡类型包括员工票、出站票、普通单程票、纪念计次票、不记名一卡通;
(1.2)合并地铁乘客的进站和出站刷卡记录:对地铁乘客的进站刷卡记录和出站刷卡记录进行合并,删除多余的数据;
(1.3)得到有效的地铁乘客出行记录:每条地铁乘客的有效出行记录包含进站时间、出站时间、进站车站号、出站车站号、一卡通卡面号和票卡类型。
3.根据权利要求1所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)定义出行强度指标:出行强度指标刻画地铁乘客对地铁的利用程度,包括出行天数和出行次数两个指标,其中出行天数定义为乘客i在统计期内中使用地铁出行的天数,出行次数定义为乘客i在统计期内中使用地铁的次数;
(2.2)定义出行稳定性指标:出行稳定性指标体现地铁乘客的出行规律性,包括首乘时间稳定性和首乘站点稳定性两个指标,其中首乘时间稳定性定义为乘客i的相异首乘时间数除以该乘客的出行天数的比值,通过下式计算:
Figure FDA0002429781640000011
式中,
SSWi——表示乘客i在统计期内的首乘时间稳定性;
YSSi——表示乘客i在统计期内不同的首乘时间的个数;
Ti——表示乘客i在统计期内的出行天数;
SSi——表示乘客i在统计期内的首乘时间个数;
其中首乘站点稳定性:表示为SZWi,定义为乘客i的相异首乘站点数除以该乘客的出行天数的比值,通过下式计算:
Figure FDA0002429781640000021
式中,
SZWi——表示乘客i在统计期内的首乘站点稳定性;
YSZi——表示乘客i在统计期内不同的首乘站点的个数;
Ti——表示乘客i在统计期内的出行天数;
SZi——表示乘客i在统计期内的首乘站点个数;
(2.3)构造新数据集:通过计算每位地铁乘客的两类指标值,构造衡量地铁乘客依赖度的新数据集,数据集中包括各位地铁乘客的出行强度指标和出行稳定性指标。
4.根据权利要求1所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述步骤(3)包括以下子步骤:
(3.1)采用K-Means算法如下:首先,从数据集中随机选取k个初始聚类中心Ci,其中,1≤i≤k,计算其余数据对象与聚类中心Ci的欧氏距离,找出离目标数据对象最近的聚类中心Ci,并将数据对象分配到聚类中心Ci所对应的簇中;然后,计算每个簇中数据对象的平均值作为新的聚类中心,进行下一次迭代,直到聚类中心不再变化或达到最大的迭代次数停止;
其中,空间中数据对象与聚类中心间的欧式距离计算公式为:
Figure FDA0002429781640000022
其中,x为数据对象,Ci为第i个聚类中心,m为数据对象的维度,xj,Cij为x和Ci的第j个属性值;
整个数据集的误差平方和SSE计算公式为:
Figure FDA0002429781640000023
其中,SSE的大小表示聚类结果的好坏,k为簇的个数;
(3.2)地铁乘客聚类:根据地铁乘客依赖度指标,利用K-Means算法,进行地铁乘客聚类,获得地铁乘客聚类结果;
(3.3)聚类结果分析:采用箱形图直观地展示地铁乘客分类指标值,进而对地铁乘客聚类结果进行分析。
5.根据权利要求4所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述k值取为3。
6.根据权利要求1所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述步骤4具体包括如下子步骤:
(4.1)分析出行时间分布:计算方法为,按每30分钟为一个时段,将一日划分成48个时段,分别统计两周内每个时段内的日均刷卡量,得到各类乘客的出行时间分布信息;
(4.2)分析出行耗时分布:计算方法为,以5分钟为间隔,将出行耗时分为19组,分别统计每组的出行记录数所占比例,得到各类乘客的出行耗时分布信息。
7.根据权利要求1所述的基于地铁依赖度的出行行为时空分析方法,其特征在于,所述步骤5具体包括如下子步骤:
(5.1)分析全日客流空间分布:计算方法为,利用数据挖掘提取乘客进站刷卡点的时间空间信息,然后釆用空间叠加分析法,对每个地铁站点的刷卡量进行统计叠加,得到全日乘客地铁出行的空间分布;
(5.2)分析客流源汇区分布:计算方法为,分别统计早高峰和晚高峰时段的各个站点的日均进站量和日均出站量,计算其差值,得到客流源汇区信息。
8.一种基于地铁依赖度的出行行为时空分析装置,其特征在于,包括:原始数据预处理模块、地铁依赖度指标选取模块、地铁乘客聚类分析模块、出行时间特征分析模块、出行空间特征分析模块;所述原始数据预处理模块用于对地铁乘客的刷卡记录数据进行预处理,过滤部分票卡类型的刷卡记录,合并进出站刷卡记录,删除多余数据,得到有效的地铁乘客出行记录;所述地铁依赖度指标选取模块用于根据原始数据预处理模块得到的有效地铁乘客出行记录计算地铁依赖度指标,构造并存储新的地铁乘客指标数据集;所述地铁乘客聚类分析模块用于利用K-Means算法对地铁依赖度指标选取模块得到的数据集进行聚类,获得地铁乘客聚类结果并分析,从而得到若干类乘客的出行数据;所述出行时间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的出行时间和出行耗时进行计算和分析;出行空间特征分析模块用于根据地铁乘客聚类分析模块得到的聚类结果,对各类乘客的全日客流空间分布和客流源汇区分布进行计算和分析。
9.根据权利要求8所述的基于地铁依赖度的出行行为时空分析装置,其特征在于,所述地铁依赖度指标包括出行强度指标和出行稳定性指标,所述出行强度指标包括统计期内乘客在使用地铁的出行天数和使用地铁的次数,所述出行稳定性指标包括首乘时间稳定性和首乘站点稳定性。
CN202010232612.9A 2020-03-28 2020-03-28 一种基于地铁依赖度的出行行为时空分析方法及装置 Pending CN111833229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010232612.9A CN111833229A (zh) 2020-03-28 2020-03-28 一种基于地铁依赖度的出行行为时空分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010232612.9A CN111833229A (zh) 2020-03-28 2020-03-28 一种基于地铁依赖度的出行行为时空分析方法及装置

Publications (1)

Publication Number Publication Date
CN111833229A true CN111833229A (zh) 2020-10-27

Family

ID=72913959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010232612.9A Pending CN111833229A (zh) 2020-03-28 2020-03-28 一种基于地铁依赖度的出行行为时空分析方法及装置

Country Status (1)

Country Link
CN (1) CN111833229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988855A (zh) * 2021-05-24 2021-06-18 中国矿业大学(北京) 一种基于数据挖掘的地铁乘客分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699801A (zh) * 2013-12-31 2014-04-02 深圳先进技术研究院 一种时空规律的地铁乘客聚类和边缘检测方法
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
CN110633307A (zh) * 2019-08-19 2019-12-31 北京建筑大学 城市公共自行车接驳地铁时空分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699801A (zh) * 2013-12-31 2014-04-02 深圳先进技术研究院 一种时空规律的地铁乘客聚类和边缘检测方法
CN105718946A (zh) * 2016-01-20 2016-06-29 北京工业大学 一种基于地铁刷卡数据的乘客出行行为分析方法
CN110633307A (zh) * 2019-08-19 2019-12-31 北京建筑大学 城市公共自行车接驳地铁时空分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭晓伟;: "基于智能卡数据的地铁乘客出行时间特征分析", 综合运输, no. 03, 20 March 2020 (2020-03-20) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988855A (zh) * 2021-05-24 2021-06-18 中国矿业大学(北京) 一种基于数据挖掘的地铁乘客分析方法及系统

Similar Documents

Publication Publication Date Title
CN110298500B (zh) 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法
CN106529754B (zh) 基于大数据分析的出租车运营情况评估方法
Zhao et al. Uncovering the spatiotemporal patterns of CO2 emissions by taxis based on Individuals' daily travel
CN108877227B (zh) 一种基于多源交通数据的全局动态出行需求估计方法
CN101694706A (zh) 基于多源数据融合的人口时空动态出行特征建模方法
Song et al. Multidimensional visualization of transit smartcard data using space–time plots and data cubes
CN111291236A (zh) 一种高速路网用户画像信息获取与分析方法及系统
CN112801552A (zh) 基于交通大数据挖掘和智能分析的网约车和巡游车的监管方法
CN112734532A (zh) 基于共享电单车借还车点数据的通勤行为识别方法
Saputra et al. Accessibility model of BRT stop locations using Geographically Weighted regression (GWR): A case study in Banjarmasin, Indonesia
Eisenmann et al. Are cars used differently in Germany than in California? Findings from annual car-use profiles
Yao et al. Analysis of key commuting routes based on spatiotemporal trip chain
Sun et al. Analyzing spatiotemporal daily travel source carbon emissions based on taxi trajectory data
Yuan et al. Taxi high-income region recommendation and spatial correlation analysis
CN111833229A (zh) 一种基于地铁依赖度的出行行为时空分析方法及装置
CN112288472A (zh) 一种基于多源大数据的街道规划需求识别方法
Cheng et al. A cooperative data mining approach for potential urban rail transit demand using probe vehicle trajectories
CN115510056B (zh) 一种利用手机信令数据进行宏观经济分析的数据处理系统
US20230245007A1 (en) User segmentation method based on toll data of expressway electronic toll collection
Tian et al. Identifying residential and workplace locations from transit smart card data
Tian et al. Spatial analysis of commuting carbon emissions in main urban area of Beijing: A GPS trajectory-based approach
Crawford et al. Analysing spatial intrapersonal variability of road users using point-to-point sensor data
Naji et al. Towards understanding the impact of human mobility patterns on taxi drivers' income based on GPS data: A case study in Wuhan—China
CN114742131A (zh) 基于模式挖掘的城市过度旅游区域识别方法
Cheng et al. Analysis on utilization of Beijing local roads using taxi GPS data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination