发明内容
本申请提供了一种基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于刷卡数据的地铁站点功能及其演化识别方法,包括以下步骤:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述根据地铁刷卡数据获取各站点的每小时进出站客运量具体包括:
步骤a1:获取原始地铁刷卡数据;
步骤a2:清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据;
步骤a3:根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签具体包括:
步骤b1:采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
步骤b2:采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
本申请实施例采取的另一技术方案为:一种基于刷卡数据的地铁站点功能及其演化识别系统,包括:
数据处理模块:用于根据地铁刷卡数据获取各站点的每小时进出站客运量;
特征提取模块:用于采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
功能识别模块:用于从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标;
功能演化识别模块:用于计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况。
本申请实施例采取的技术方案还包括数据获取模块,所述数据获取模块用于获取原始地铁刷卡数据;所述数据处理模块还用于清洗掉所述原始地铁刷卡数据中存在的字段不完整数据以及异常数据,并根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,分别得到各站点的每小时进出站客运量。
本申请实施例采取的技术方案还包括:所述特征提取模块包括:
工作日特征提取单元:用于采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
休息日特征提取单元:用于采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类。
本申请实施例采取的技术方案还包括:所述用以表征站点功能类别的特征指标具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段的进站客运量,表征站点的居住功能;(3)早高峰时段的出站客运量,表征站点的工作功能;(4)工作日午间时段的出站客运量,表征站点的餐饮功能;(5)休息日全日的出站客运量,表征站点的休闲功能。
本申请实施例采取的技术方案还包括:所述功能演化识别模块计算所述特征指标的线性拟合斜率,根据所述线性拟合斜率识别出各站点功能的演化情况具体包括:首先,通过基于滑动平均窗口的时间序列分解方法提取五项特征指标时间序列的变化趋势,将五项特征指标的时间序列分解为趋势、季节性和残差三个分量,并保留五项特征指标时间序列的趋势部分,通过普通最小二乘法提取趋势线的线性拟合斜率,根据五项特征指标的线性拟合斜率描述各特征指标所表征的站点功能的演化。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于刷卡数据的地铁站点功能及其演化识别方法的以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备采用长时序的地铁刷卡数据进行站点功能及其演化识别,识别了站点各年度的功能标签和功能的长期变化趋势及幅度,分别从功能类别和功能演化的角度进行了综合分析,可以快速、低成本、可持续和有效地检测地铁车站和整个城市的功能和吸引力变化情况,有助于从多方面深入了解地铁站点功能,采用该方法可以为政府部门制定公共交通及土地利用政策提供决策依据。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别方法的流程图。本申请实施例的基于刷卡数据的地铁站点功能及其演化识别方法包括以下步骤:
步骤100:获取原始地铁刷卡数据;
步骤100中,为了便于说明,本申请实施例使用深圳市2014年1月至2018年9月、深圳地铁1号线至第5号线共118个站点的每月1日至7日的地铁刷卡数据作为源数据。获取的地铁刷卡数据内容包括卡号、交易类型、刷卡时间、线路名称、站点名称,地铁刷卡数据的结构如表1所示:
表1地铁刷卡数据结构
步骤200:对原始地铁刷卡数据进行预处理;
步骤200中,预处理具体包括:
步骤201:清洗掉原始地铁刷卡数据中存在的字段不完整数据以及异常数据;
步骤202:根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,以此将地铁刷卡数据分为进站刷卡数据集和出站刷卡数据集两个数据集,分别得到各站点的每小时进出站客运量;
步骤202中,为了反映地铁站点的日常功能,需要删除法定节假日和重大事件等特殊日期的数据,并以相邻月份的平均值来补充缺失的数据。聚合后的数据格式如表2所示;
表2聚合后的地铁刷卡数据
步骤300:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,分别识别出不同站点的工作日功能标签和休息日功能标签;
步骤300中,站点功能标签识别方法具体包括以下步骤:
步骤301:采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;
步骤301中,人们在周五晚上下班后会从事一些休闲活动,使得周五的出行模式与周一至周四略有不同,因此采用周一至周四的进出站客运量平均值识别工作日站点功能。使用2014年至2018年每年8月第1到7日的刷卡数据作为相应年份的代表。首先,计算周一至周四各站的平均进出站客运量,为了从客运量时间序列曲线形态的角度对比各站点的功能模式,采用最小最大归一化法使数据分布于0到1之间。其次,由于数据的时间范围是每天6:00到23:00,将平均后的进出站客运量拼接为一个36维特征向量,用于表征站点工作日的功能。采用k-means聚类算法分别对周一至周四和周日的特征向量进行聚类。通过对周一到周四之间由进站客运量和出站客运量时间序列组成的特征向量进行聚类,得到2014~2018年各年度的地铁站点功能标签。根据客运量时间序列的形态规律,将地铁站点分为居住导向型、工作导向型和混合型三种类型。
步骤302:采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类;
步骤302中,由于周末出站量可能是由站点周边的休闲功能或居住功能引起,因此将站点聚为两类,以提取具有休闲功能的站点,作为对工作日站点识别结果的补充。由于周六存在加班的现象,因此本申请采用周日的进出站客运量进行休息日的站点功能识别。休息日的数据处理方法与上一步骤的工作日数据处理方法相同,此处不再赘述。
步骤303:结合工作日和休息日的站点功能标签共同识别出各站点的功能类别,得到各站点在各年度的功能标签,包括属于工作导向、居住导向、混合类型的哪一种,以及是否具有休闲功能。表3总结了工作日不同功能类型之间的转变情况,各站点的年度功能标签识别结果见附表3:
表3各站点的年度功能标签识别结果
步骤400:从长时序的的站点进出站客运量时间序列中提取出每月的用于表征不同站点功能的特征指标,形成表征站点各项功能的特征时间序列;
步骤400中,本申请定义了五项特征指标分别用于表征对应的五种站点功能,具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段(7:00-9:00)的进站客运量,表征站点的居住功能;(3)早高峰时段(7:00-9:00)出站客运量,表征站点的工作功能;(4)工作日午间时段(11:00-13:00)出站客运量,表征站点的餐饮功能;(5)休息日全日出站客运量,表征站点的休闲功能。特征指标具体如表4所示:
表4特征指标及表征功能
步骤500:针对站点特征时间序列,采用基于滑动平均窗口的时间序列分解方法提取特征变化的趋势线,进一步采用普通最小二乘法(OLS)提取趋势线的线性拟合斜率,识别各站点的功能演化情况;
步骤500中,站点特征时间序列的时间跨度为2014年1月至2018年9月,时间间隔为月,共57个月。为了识别站点功能的演化,首先通过基于滑动平均窗口(窗口宽度为12)的时间序列分解方法提取各项特征时间序列的变化趋势。具体如图2所示,是基于滑动平均窗口(窗口宽度为12)的地铁站点功能特征时间序列分解示例图。经过处理后的特征时间序列被分解为趋势、季节性和残差三个分量,保留特征时间序列的趋势部分,通过普通最小二乘法(OLS)提取趋势线的线性拟合斜率,具体如图3所示,为采用普通最小二乘法(OLS)提取地铁站点功能特征趋势线的线性拟合斜率示例图。根据五项特征线性拟合斜率定量地描述各功能特征所表征的站点功能的演化(变化程度),具体如4所示,为采用五项特征线性拟合斜率表征的站点功能演化识别结果图,其中,图4(a)为日均出站客运量表征的站点吸引力演化识别结果,图4(b)为早高峰进站客运量表征的居住功能演化识别结果,图4(c)为早高峰出站客运量表征的工作功能演化识别结果,图4(d)工作日午间时段出站客运量表征的餐饮功能演化识别结果,图4(e)休息日全日出站客运量线性拟合斜率。
请参阅图5,是本申请实施例的基于刷卡数据的地铁站点功能及其演化识别系统的结构示意图。本申请实施例的基于刷卡数据的地铁站点功能及其演化识别系统包括数据获取模块、数据处理模块、特征提取模块、功能识别模块、功能演化识别模块。
数据获取模块:用于获取原始地铁刷卡数据;其中,为了便于说明,本申请实施例仅以深圳市2014年1月至2018年9月、深圳地铁1号线至第5号线共118个站点的每月1日至7日的地铁刷卡数据为例。获取的地铁刷卡数据内容包括卡号、交易类型、刷卡时间、线路名称、站点名称,地铁刷卡数据的结构如表1所示:
表1地铁刷卡数据结构
数据处理模块:用于对原始地铁刷卡数据进行预处理;其中,数据预处理具体包括:首先,清洗掉原始地铁刷卡数据中存在的字段不完整数据以及异常数据;然后,根据清洗后的地铁刷卡数据将进出站刷卡记录按小时聚合到各站点上,以此将地铁刷卡数据分为进站刷卡数据集和出站刷卡数据集两个数据集,分别得到各站点的每小时进出站客运量。为了反映地铁站点的日常功能,需要删除法定节假日和重大事件等特殊日期的数据,并以相邻月份的平均值来补充缺失的数据。聚合后的数据格式如表2所示;
表2聚合后的地铁刷卡数据
特征提取模块:用于采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,分别识别出不同站点的工作日功能标签和休息日功能标签;具体的,特征提取模块包括:
工作日特征提取单元:用于采用各站点周一至周四的每小时进出站客运量,按天求平均后作为各站点工作日的每小时进出站客运量,并以此为特征向量,用k-means聚类算法结合客运量曲线形态将站点聚为工作导向型、居住导向型、混合型三类;其中,人们在周五晚上下班后会从事一些休闲活动,使得周五的出行模式与周一至周四略有不同,因此采用周一至周四的进出站客运量平均值识别工作日站点功能。使用2014年至2018年每年8月第1到7日的刷卡数据作为相应年份的代表。首先,计算周一至周四各站的平均进出站客运量,为了从客运量时间序列曲线形态的角度对比各站点的功能模式,采用最小最大归一化法使数据分布于0到1之间。其次,由于数据的时间范围是每天6:00到23:00,将平均后的进出站客运量拼接为一个36维特征向量,用于表征站点工作日的功能。采用k-means聚类算法分别对周一至周四和周日的特征向量进行聚类。通过对周一到周四之间由进站客运量和出站客运量时间序列组成的特征向量进行聚类,得到2014~2018年各年度的地铁站点功能标签。根据客运量时间序列的形态规律,将地铁站点分为居住导向型、工作导向型和混合型三种类型。
休息日特征提取单元:用于采用各站点周日的每小时进出站客运量作为特征向量,用k-means聚类算法将站点聚为休闲型和其他型两类;其中,由于周末出站量可能是由站点周边的休闲功能或居住功能引起,因此将站点聚为两类,以提取具有休闲功能的站点,作为对工作日站点识别结果的补充。由于周六存在加班的现象,因此本申请采用周日的进出站客运量进行休息日的站点功能识别。休息日的数据处理方法与上一步骤的工作日数据处理方法相同,此处不再赘述。
功能标签分类单元:用于结合工作日和休息日的站点功能标签共同识别出各站点的功能类别,得到各站点在各年度的功能标签,包括属于工作导向、居住导向、混合类型的哪一种,以及是否具有休闲功能。表3总结了工作日不同功能类型之间的转变情况,各年度站点功能识别结果见附表3:
表3各年度站点功能识别结果
功能识别模块:用于从长时序的的站点进出站客运量时间序列中提取出每月的用于表征不同站点功能的特征指标,形成表征站点各项功能的特征时间序列;其中,本申请定义了五项特征指标分别用于表征对应的五种站点功能,具体包括:(1)日均出站客运量,表征站点的吸引力功能;(2)早高峰时段(7:00-9:00)的进站客运量,表征站点的居住功能;(3)早高峰时段(7:00-9:00)出站客运量,表征站点的工作功能;(4)工作日午间时段(11:00-13:00)出站客运量,表征站点的餐饮功能;(5)休息日全日出站客运量,表征站点的休闲功能。特征指标具体如表4所示:
表4特征指标及表征功能
功能演化识别模块:用于针对站点特征时间序列,采用基于滑动平均窗口的时间序列分解方法提取特征变化的趋势线,进一步采用普通最小二乘法(OLS)提取趋势线的线性拟合斜率,识别各站点的功能演化情况;其中,站点特征时间序列的时间跨度为2014年1月至2018年9月,时间间隔为月,共57个月。为了识别站点功能的演化,首先通过基于滑动平均窗口(窗口宽度为12)的时间序列分解方法提取各项特征时间序列的变化趋势。具体如图2所示,是基于滑动平均窗口(窗口宽度为12)的地铁站点功能特征时间序列分解示例图。经过处理后的特征时间序列被分解为趋势、季节性和残差三个分量,保留特征时间序列的趋势部分,通过普通最小二乘法(OLS)提取趋势线的线性拟合斜率,根据五项特征线性拟合斜率定量地描述各功能特征所表征的站点功能的演化(变化程度)。
图6是本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法的硬件设备结构示意图。如图6所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:根据地铁刷卡数据获取各站点的每小时进出站客运量;
步骤b:采用聚类方法分别对工作日和休息日的每小时进出站客运量进行处理,识别出各站点的工作日功能标签和休息日功能标签,并结合所述工作日功能标签和休息日功能标签得到各站点的功能类别;
步骤c:从长时序的的站点进出站客运量时间序列中提取出用以表征站点功能类别的特征指标,并计算所述特征指标的线性拟合斜率,识别出各站点功能的演化情况。
本申请实施例提供的基于刷卡数据的地铁站点功能及其演化识别方法、系统及电子设备采用长时序的地铁刷卡数据进行站点功能及其演化识别,识别了站点各年度的功能标签和功能的长期变化趋势及幅度,分别从功能类别和功能演化的角度进行了综合分析,可以快速、低成本、可持续和有效地检测地铁车站和整个城市的功能和吸引力变化情况,有助于从多方面深入了解地铁站点功能,采用该方法可以为政府部门制定公共交通及土地利用政策提供决策依据。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本申请所示的这些实施例,而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。