CN110738244B - 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备 - Google Patents

一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备 Download PDF

Info

Publication number
CN110738244B
CN110738244B CN201910930373.1A CN201910930373A CN110738244B CN 110738244 B CN110738244 B CN 110738244B CN 201910930373 A CN201910930373 A CN 201910930373A CN 110738244 B CN110738244 B CN 110738244B
Authority
CN
China
Prior art keywords
station
function
card swiping
subway
passenger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910930373.1A
Other languages
English (en)
Other versions
CN110738244A (zh
Inventor
张帆
尹凌
刘康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Institute Of Advanced Technology Chinese Academy Of Sciences Co ltd
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201910930373.1A priority Critical patent/CN110738244B/zh
Publication of CN110738244A publication Critical patent/CN110738244A/zh
Application granted granted Critical
Publication of CN110738244B publication Critical patent/CN110738244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本申请涉及一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备。包括:步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。本申请可以快速、低成本、可持续和有效地检测地铁车站和整个城市的功能和吸引力变化情况,有助于从多方面深入了解地铁站点功能。

Description

一种基于刷卡数据的地铁站点功能及其演化识别方法、系统 及电子设备
技术领域
本申请属于时空数据挖掘技术领域,特别涉及一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备。
背景技术
城市地铁系统的迅速发展使其成为城市的骨架。地铁站点不仅承担着交通节点的作用,站点周边地区也承载了城市居民日常生活的各项功能。由于地铁站点周边土地利用的混杂性,站点功能也普遍具有不同的混合特性。地铁站点功能的变化,如工作功能增强和居住功能减弱,被称为地铁站点功能的演化。利用地铁刷卡数据识别地铁站点的功能,研究功能的演化过程,其数据量大、时空分辨率高,可以帮助人们快速、低成本、可持续、有效地理解站点周边乃至整个城市的发展,是政府部门制定更好的、可持续的公共交通和土地利用政策的重要线索,有利于商业选址、房地产投资以及未来地铁规划建设的决策。
现有技术中,关于地铁站点功能的识别大多使用短期地铁刷卡数据(例如,不到一周)来确定某一时间段的地铁站点功能,主要集中在地铁站点功能的分类上,无法识别站点功能的长期演化趋势。因此,有必要提供一种基于刷卡数据的地铁站点功能及其演化识别方法,利用地铁刷卡数据识别出站点不同的功能特性及演化趋势,为政府部门制定公共交通及土地利用政策提供决策依据。
发明内容
本申请提供了一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于刷卡数据的地铁站点功能及其演化识别方法,包括以下步骤:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述根据地铁刷卡数据获取各站点的每小时进出站客运量具体包括:
步骤a1:获取原始地铁刷卡数据;
步骤a2:清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据;
步骤a3:根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签具体包括:
步骤b1:采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
步骤b2:采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
本申请实施例采取的另一技术方案为:一种基于刷卡数据的地铁站点功能及其演化识别系统,包括:
数据处理模块:用于根据地铁刷卡数据获取各站点的每小时进出站客运量;
特征提取模块:用于采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
功能识别模块:用于从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标;
功能演化识别模块:用于计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况。
本申请实施例采取的技术方案还包括数据获取模块,所述数据获取模块用于获取原始地铁刷卡数据;所述数据处理模块还用于清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据,并根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
本申请实施例采取的技术方案还包括:所述特征提取模块包括:
工作日特征提取单元:用于采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
休息日特征提取单元:用于采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
本申请实施例采取的技术方案还包括:所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能。
本申请实施例采取的技术方案还包括:所述功能演化识别模块计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于刷卡数据的地铁站点功能及其演化识别方法的以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备采用长时序的地铁刷卡数据进行站点功能及其演化识别,识别了站点各年度的功能标签和功能的长期变化趋势及幅度,分别从功能类别和功能演化的角度进行了综合分析,可以快速、低成本、可持续和有效地检测地铁车站和整个城市的功能和吸引力变化情况,有助于从多方面深入了解地铁站点功能,采用该方法可以为政府部门制定公共交通及土地利用政策提供决策依据。
附图说明
图1是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别方法的流程图;
图2是基于滑动平均窗口(窗口宽度为12)的地铁站点功能特征时间序列分解示例图;
图3为采用普通最小二乘法提取地铁站点功能特征趋势线的线性拟合斜率示例图;
图4(a)为日均出站客运量表征的站点吸引力演化识别结果,图4(b)为早高峰进站客运量表征的居住功能演化识别结果,图4(c)为早高峰出站客运量表征的工作功能演化识别结果,图4(d)工作日午间时段出站客运量表征的餐饮功能演化识别结果,图4(e)休息日全日出站客运量线性拟合斜率;
图5是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别系统的结构示意图;
图6是本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别方法的流程图。本申请实施例的基于刷卡数据的地铁站点功能及其演化识别方法包括以下步骤:
步骤100:获取原始地铁刷卡数据;
步骤100中,为了便于说明,本申请实施例使用深圳市2014年1月至2018年9月、深圳地铁1号线至第5号线共118个站点的每月1日至7日的地铁刷卡数据作为源数据。获取的地铁刷卡数据内容包括卡号、交易类型、刷卡时间、线路名称、站点名称,地铁刷卡数据的结构如表1所示:
表1地铁刷卡数据结构
Figure BDA0002220093710000081
步骤200:对原始地铁刷卡数据进行预处理;
步骤200中,预处理具体包括:
步骤201:清洗掉原始地铁刷卡数据中存在的字段不完整数据以及异常数据;
步骤202:根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,以此将地铁刷卡数据分为进站刷卡数据集和出站刷卡数据集两个数据集,分别得到各站点的每小时进出站客运量;
步骤202中,为了反映地铁站点的日常功能,需要删除法定节假日和重大事件等特殊日期的数据,并以相邻月份的平均值来补充缺失的数据。聚合后的数据格式如表2所示;
表2聚合后的地铁刷卡数据
Figure BDA0002220093710000082
步骤300:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,分别识别出不同站点的工作日功能标签和休息日功能标签;
步骤300中,站点功能标签识别方法具体包括以下步骤:
步骤301:采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
步骤301中,人们在周五晚上下班后会从事一些休闲活动,使得周五的出行模式与周一至周四略有不同,因此采用周一至周四的进出站客运量平均值识别工作日站点功能。使用2014年至2018年每年8月第1到7日的刷卡数据作为相应年份的代表。首先,计算周一至周四各站的平均进出站客运量,为了从客运量时间序列曲线形态的角度对比各站点的功能模式,采用最小最大归一化法使数据分布于0到1之间。其次,由于数据的时间范围是每天6:00到23:00,将平均后的进出站客运量拼接为一个36维特征向量,用于表征站点工作日的功能。采用k-means聚类算法分别对周一至周四和周日的特征向量进行聚类。通过对周一到周四之间由进站客运量和出站客运量时间序列组成的特征向量进行聚类,得到2014~2018年各年度的地铁站点功能标签。根据客运量时间序列的形态规律,将地铁站点分为居住导向型、工作导向型和混合型三种类型。
步骤302:采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类;
步骤302中,由于周末出站量可能是由站点周边的休闲功能或居住功能引起,因此将站点聚为两类,以提取具有休闲功能的站点,作为对工作日站点识别结果的补充。由于周六存在加班的现象,因此本申请采用周日的进出站客运量进行休息日的站点功能识别。休息日的数据处理方法与上一步骤的工作日数据处理方法相同,此处不再赘述。
步骤303:结合工作日和休息日的站点功能标签共同识别出各站点的功能类别,得到各站点在各年度的功能标签,包括属于工作导向、居住导向、混合类型的哪一种,以及是否具有休闲功能。表3总结了工作日不同功能类型之间的转变情况,各站点的年度功能标签识别结果见附表3:
表3各站点的年度功能标签识别结果
Figure BDA0002220093710000101
步骤400:从长时序的的站点进出站客运量时间序列中提取出每月的用于表征不同站点功能的特征指标,形成表征站点各项功能的特征时间序列;
步骤400中,本申请定义了五项特征指标分别用于表征对应的五种站点功能,具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段(7:00-9:00)的进站客运量,表征站点的居住功能;(3)早高峰时段(7:00-9:00)出站客运量,表征站点的工作功能;(4)工作日午间时段(11:00-13:00)出站客运量,表征站点的餐饮功能;(5)休息日全日出站客运量,表征站点的休闲功能。特征指标具体如表4所示:
表4特征指标及表征功能
Figure BDA0002220093710000111
步骤500:针对站点特征时间序列,采用基于滑动平均窗口的时间序列分解方法提取特征变化的趋势线,进一步采用普通最小二乘法(OLS)提取趋势线的线性拟合斜率,识别各站点的功能演化情况;
步骤500中,站点特征时间序列的时间跨度为2014年1月至2018年9月,时间间隔为月,共57个月。为了识别站点功能的演化,首先通过基于滑动平均窗口(窗口宽度为12)的时间序列分解方法提取各项特征时间序列的变化趋势。具体如图2所示,是基于滑动平均窗口(窗口宽度为12)的地铁站点功能特征时间序列分解示例图。经过处理后的特征时间序列被分解为趋势、季节性和残差三个分量,保留特征时间序列的趋势部分,通过普通最小二乘法(OLS)提取趋势线的线性拟合斜率,具体如图3所示,为采用普通最小二乘法(OLS)提取地铁站点功能特征趋势线的线性拟合斜率示例图。根据五项特征线性拟合斜率定量地描述各功能特征所表征的站点功能的演化(变化程度),具体如4所示,为采用五项特征线性拟合斜率表征的站点功能演化识别结果图,其中,图4(a)为日均出站客运量表征的站点吸引力演化识别结果,图4(b)为早高峰进站客运量表征的居住功能演化识别结果,图4(c)为早高峰出站客运量表征的工作功能演化识别结果,图4(d)工作日午间时段出站客运量表征的餐饮功能演化识别结果,图4(e)休息日全日出站客运量线性拟合斜率。
请参阅图5,是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别系统的结构示意图。本申请实施例的基于刷卡数据的地铁站点功能及其演化识别系统包括数据获取模块、数据处理模块、特征提取模块、功能识别模块、功能演化识别模块。
数据获取模块:用于获取原始地铁刷卡数据;其中,为了便于说明,本申请实施例仅以深圳市2014年1月至2018年9月、深圳地铁1号线至第5号线共118个站点的每月1日至7日的地铁刷卡数据为例。获取的地铁刷卡数据内容包括卡号、交易类型、刷卡时间、线路名称、站点名称,地铁刷卡数据的结构如表1所示:
表1地铁刷卡数据结构
Figure BDA0002220093710000121
数据处理模块:用于对原始地铁刷卡数据进行预处理;其中,数据预处理具体包括:首先,清洗掉原始地铁刷卡数据中存在的字段不完整数据以及异常数据;然后,根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,以此将地铁刷卡数据分为进站刷卡数据集和出站刷卡数据集两个数据集,分别得到各站点的每小时进出站客运量。为了反映地铁站点的日常功能,需要删除法定节假日和重大事件等特殊日期的数据,并以相邻月份的平均值来补充缺失的数据。聚合后的数据格式如表2所示;
表2聚合后的地铁刷卡数据
Figure BDA0002220093710000131
特征提取模块:用于采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,分别识别出不同站点的工作日功能标签和休息日功能标签;具体的,特征提取模块包括:
工作日特征提取单元:用于采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;其中,人们在周五晚上下班后会从事一些休闲活动,使得周五的出行模式与周一至周四略有不同,因此采用周一至周四的进出站客运量平均值识别工作日站点功能。使用2014年至2018年每年8月第1到7日的刷卡数据作为相应年份的代表。首先,计算周一至周四各站的平均进出站客运量,为了从客运量时间序列曲线形态的角度对比各站点的功能模式,采用最小最大归一化法使数据分布于0到1之间。其次,由于数据的时间范围是每天6:00到23:00,将平均后的进出站客运量拼接为一个36维特征向量,用于表征站点工作日的功能。采用k-means聚类算法分别对周一至周四和周日的特征向量进行聚类。通过对周一到周四之间由进站客运量和出站客运量时间序列组成的特征向量进行聚类,得到2014~2018年各年度的地铁站点功能标签。根据客运量时间序列的形态规律,将地铁站点分为居住导向型、工作导向型和混合型三种类型。
休息日特征提取单元:用于采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类;其中,由于周末出站量可能是由站点周边的休闲功能或居住功能引起,因此将站点聚为两类,以提取具有休闲功能的站点,作为对工作日站点识别结果的补充。由于周六存在加班的现象,因此本申请采用周日的进出站客运量进行休息日的站点功能识别。休息日的数据处理方法与上一步骤的工作日数据处理方法相同,此处不再赘述。
功能标签分类单元:用于结合工作日和休息日的站点功能标签共同识别出各站点的功能类别,得到各站点在各年度的功能标签,包括属于工作导向、居住导向、混合类型的哪一种,以及是否具有休闲功能。表3总结了工作日不同功能类型之间的转变情况,各年度站点功能识别结果见附表3:
表3各年度站点功能识别结果
Figure BDA0002220093710000141
Figure BDA0002220093710000151
功能识别模块:用于从长时序的的站点进出站客运量时间序列中提取出每月的用于表征不同站点功能的特征指标,形成表征站点各项功能的特征时间序列;其中,本申请定义了五项特征指标分别用于表征对应的五种站点功能,具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段(7:00-9:00)的进站客运量,表征站点的居住功能;(3)早高峰时段(7:00-9:00)出站客运量,表征站点的工作功能;(4)工作日午间时段(11:00-13:00)出站客运量,表征站点的餐饮功能;(5)休息日全日出站客运量,表征站点的休闲功能。特征指标具体如表4所示:
表4特征指标及表征功能
Figure BDA0002220093710000152
功能演化识别模块:用于针对站点特征时间序列,采用基于滑动平均窗口的时间序列分解方法提取特征变化的趋势线,进一步采用普通最小二乘法(OLS)提取趋势线的线性拟合斜率,识别各站点的功能演化情况;其中,站点特征时间序列的时间跨度为2014年1月至2018年9月,时间间隔为月,共57个月。为了识别站点功能的演化,首先通过基于滑动平均窗口(窗口宽度为12)的时间序列分解方法提取各项特征时间序列的变化趋势。具体如图2所示,是基于滑动平均窗口(窗口宽度为12)的地铁站点功能特征时间序列分解示例图。经过处理后的特征时间序列被分解为趋势、季节性和残差三个分量,保留特征时间序列的趋势部分,通过普通最小二乘法(OLS)提取趋势线的线性拟合斜率,根据五项特征线性拟合斜率定量地描述各功能特征所表征的站点功能的演化(变化程度)。
图6是本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法的硬件设备结构示意图。如图6所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备采用长时序的地铁刷卡数据进行站点功能及其演化识别,识别了站点各年度的功能标签和功能的长期变化趋势及幅度,分别从功能类别和功能演化的角度进行了综合分析,可以快速、低成本、可持续和有效地检测地铁车站和整个城市的功能和吸引力变化情况,有助于从多方面深入了解地铁站点功能,采用该方法可以为政府部门制定公共交通及土地利用政策提供决策依据。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种基于刷卡数据的地铁站点功能及其演化识别方法,其特征在于,包括以下步骤:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况;
在所述步骤c中,所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能;
在所述步骤c中,所述从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
2.根据权利要求1所述的基于刷卡数据的地铁站点功能及其演化识别方法,其特征在于,在所述步骤a中,所述根据地铁刷卡数据获取各站点的每小时进出站客运量具体包括:
步骤a1:获取原始地铁刷卡数据;
步骤a2:清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据;
步骤a3:根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
3.根据权利要求2所述的基于刷卡数据的地铁站点功能及其演化识别方法,其特征在于,在所述步骤b中,所述采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签具体包括:
步骤b1:采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
步骤b2:采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
4.一种基于刷卡数据的地铁站点功能及其演化识别系统,其特征在于,包括:
数据处理模块:用于根据地铁刷卡数据获取各站点的每小时进出站客运量;
特征提取模块:用于采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
功能识别模块:用于从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标;
功能演化识别模块:用于计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况;所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能;
所述功能演化识别模块计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
5.根据权利要求4所述的基于刷卡数据的地铁站点功能及其演化识别系统,其特征在于,还包括数据获取模块,所述数据获取模块用于获取原始地铁刷卡数据;所述数据处理模块还用于清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据,并根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
6.根据权利要求5所述的基于刷卡数据的地铁站点功能及其演化识别系统,其特征在于,所述特征提取模块包括:
工作日特征提取单元:用于采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
休息日特征提取单元:用于采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求1至3任一项所述的基于刷卡数据的地铁站点功能及其演化识别方法。
CN201910930373.1A 2019-09-29 2019-09-29 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备 Active CN110738244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910930373.1A CN110738244B (zh) 2019-09-29 2019-09-29 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910930373.1A CN110738244B (zh) 2019-09-29 2019-09-29 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN110738244A CN110738244A (zh) 2020-01-31
CN110738244B true CN110738244B (zh) 2022-06-21

Family

ID=69269777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930373.1A Active CN110738244B (zh) 2019-09-29 2019-09-29 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN110738244B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033932A (zh) * 2010-12-17 2011-04-27 东南大学 面向一体化设计的城市轨道交通站点分类方法
CN104318113A (zh) * 2014-10-29 2015-01-28 中国科学院深圳先进技术研究院 基于乘客换乘的时空特征推算乘客上车站点的方法及系统
CN104463364A (zh) * 2014-12-04 2015-03-25 中国科学院深圳先进技术研究院 一种地铁乘客实时分布和地铁实时密度预测方法及系统
CN107656987A (zh) * 2017-09-13 2018-02-02 大连理工大学 一种基于lda模型的地铁站点功能挖掘方法
CN108876475A (zh) * 2018-07-12 2018-11-23 青岛理工大学 一种基于兴趣点采集的城市功能区识别方法、服务器及存储介质
CN109034474A (zh) * 2018-07-26 2018-12-18 北京航空航天大学 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及系统
CN109101559A (zh) * 2018-07-12 2018-12-28 青岛理工大学 一种基于poi和公交刷卡数据的城市功能区识别方法
CN109460937A (zh) * 2018-11-23 2019-03-12 东南大学 评价轨道站点周边慢行交通系统接驳水平的流程与方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033932A (zh) * 2010-12-17 2011-04-27 东南大学 面向一体化设计的城市轨道交通站点分类方法
CN104318113A (zh) * 2014-10-29 2015-01-28 中国科学院深圳先进技术研究院 基于乘客换乘的时空特征推算乘客上车站点的方法及系统
CN104463364A (zh) * 2014-12-04 2015-03-25 中国科学院深圳先进技术研究院 一种地铁乘客实时分布和地铁实时密度预测方法及系统
CN107656987A (zh) * 2017-09-13 2018-02-02 大连理工大学 一种基于lda模型的地铁站点功能挖掘方法
CN108876475A (zh) * 2018-07-12 2018-11-23 青岛理工大学 一种基于兴趣点采集的城市功能区识别方法、服务器及存储介质
CN109101559A (zh) * 2018-07-12 2018-12-28 青岛理工大学 一种基于poi和公交刷卡数据的城市功能区识别方法
CN109034474A (zh) * 2018-07-26 2018-12-18 北京航空航天大学 一种基于poi数据和客流数据的地铁站聚类与回归分析方法及系统
CN109460937A (zh) * 2018-11-23 2019-03-12 东南大学 评价轨道站点周边慢行交通系统接驳水平的流程与方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Comparative Examination of Network Clustering Methods for Extracting Community Structures of a City From Public Transportation Smart Card Data";TAKASHI NICHOLAS MAEDA 等;《IEEE》;20190502;第53377-53391页 *

Also Published As

Publication number Publication date
CN110738244A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN107688645B (zh) 一种保单数据处理方法及终端设备
CN102902752B (zh) 一种日志监控方法及系统
CN103425741A (zh) 一种信息展示方法和装置
CN104966172A (zh) 一种用于企业经营数据分析的大数据可视化分析处理系统
CN109523276A (zh) 用户投诉的预警监控方法及装置
CN111427968A (zh) 一种基于知识图谱的重点人员全息档案构建方法及装置
CN110689385A (zh) 一种基于知识图谱的电力客服用户画像构建方法
CN111930868A (zh) 一种基于多维数据采集的大数据行为轨迹分析方法
CN111523527B (zh) 特种运输车辆监控方法、装置、介质及电子设备
CN109741482A (zh) 一种信息共享方法及装置
CN111062562A (zh) 一种社区网格服务联动处置控制方法及系统
CN106022640B (zh) 电量指数核对系统及方法
CN114385609A (zh) 基于标签的政务事件处理系统、方法、设备及存储介质
CN110738244B (zh) 一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备
CN113806370A (zh) 基于大数据的环境数据监管方法、装置、设备及存储介质
CN110909129B (zh) 异常投诉事件的识别方法及装置
CN115567563B (zh) 基于端边云的综合交通枢纽监测预警系统及其控制方法
Sutjarittham et al. Measuring and modeling car park usage: Lessons learned from a campus field-trial
CN115423361A (zh) 风险视图的数据处理方法、装置、存储介质和设备
CN115270947A (zh) 标准化能效服务模型构建方法、系统、终端及存储介质
CN115271514A (zh) 通讯企业的监控方法、装置、电子设备及存储介质
CN116483810A (zh) 一种基于公安大数据处理技术指南的数据治理方法
CN109241363A (zh) 名单清洗方法、系统、计算机设备和存储介质
CN112598499A (zh) 确定授信额度的方法和装置
CN113298310A (zh) 一种基于自定义配置的bi数据分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240227

Address after: 519085 101, Building 5, Longyuan Smart Industrial Park, No. 2, Hagongda Road, Tangjiawan Town, High-tech Zone, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI INSTITUTE OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES Co.,Ltd.

Country or region after: China

Address before: 1068 No. 518055 Guangdong city of Shenzhen province Nanshan District Shenzhen University city academy Avenue

Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES

Country or region before: China