CN109544920A - 基于交易数据的公交出行成本获取、分析方法和系统 - Google Patents
基于交易数据的公交出行成本获取、分析方法和系统 Download PDFInfo
- Publication number
- CN109544920A CN109544920A CN201811397723.4A CN201811397723A CN109544920A CN 109544920 A CN109544920 A CN 109544920A CN 201811397723 A CN201811397723 A CN 201811397723A CN 109544920 A CN109544920 A CN 109544920A
- Authority
- CN
- China
- Prior art keywords
- cost
- trip
- travel time
- model
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000007728 cost analysis Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000002354 daily effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001766 physiological effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000036578 sleeping time Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/30—Payment architectures, schemes or protocols characterised by the use of specific devices or networks
- G06Q20/34—Payment architectures, schemes or protocols characterised by the use of specific devices or networks using cards, e.g. integrated circuit [IC] cards or magnetic cards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G06Q50/40—
Abstract
本发明公开了一种基于交易数据的公交出行成本获取方法,其包括:从公交出行的IC卡交易记录中获取交易数据集合;对所述交易数据集合进行预处理;以目标刷卡区域编码为依据,得到样本集合;根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;创建核密度估计算法模型;对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;得出出行消费成本概率密度和出行时间成本概率密度。本发明还公开了基于交易数据的公交出行成本获取系统以及基于交易数据的公交出行成本分析方法和系统。本发明可客观反映研究区域的交通出行情况。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于交易数据的公交出行成本获取、分析方法和系统。
背景技术
为解决城市交通拥堵的现状,发展公共交通是一条重要的途径。但发展公共交通也需考虑居民的出行成本,以度量发展公共交通方案的合理性,为政府关于公交出行政策的制定提供可参考的数据支持。目前国内关于出行成本的研究是比较少的,而专门针对公共交通的研究更是鲜有看到。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于交易数据的公交出行成本获取方法,其通过交易数据和核密度估计算法对公交出行成本进行建模分析,可客观反映研究区域的交通出行情况。
本发明的目的之二在于提供一种基于交易数据的公交出行成本获取系统,其通过交易数据和核密度估计算法对公交出行成本进行建模分析,可客观反映研究区域的交通出行情况。
本发明的目的之三在于提供一种基于交易数据的公交出行成本分析方法,其通过交易数据和核密度估计算法总结居民出行成本的规律,进而通过对出行成本规律的分析,对公交出行成本的现状提供客观反映。
本发明的目的之四在于提供一种基于交易数据的公交出行成本分析系统,其通过交易数据和核密度估计算法总结居民出行成本的规律,进而通过对出行成本规律的分析,对公交出行成本的现状提供客观反映。
本发明的目的之一采用如下技术方案实现:
一种基于交易数据的公交出行成本获取方法,包括以下步骤:
从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
本发明的目的之二采用如下技术方案实现:
一种基于交易数据的公交出行成本获取系统,其包括:
第一获取模块,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
计算模块,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二获取模块,用于根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
本发明的目的之三采用如下技术方案实现:
一种基于交易数据的公交出行成本分析方法,包括以下步骤:
从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总时间在n-1~n元的出行消费成本概率;Tavg代表出行时间平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
本发明的目的之四采用如下技术方案实现:
一种基于交易数据的公交出行成本分析系统,包括:
获取模块,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
第一计算模块,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二计算模块,用于分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总时间在n-1~n元的出行消费成本概率;Tavg代表出行时间平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
判断模块,用于获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
相比现有技术,本发明的有益效果在于:
1、本发明利用公交IC卡每条交易记录中的卡号、进站时间、出站时间、交易票价等准确信息,通过核密度估计算法对公交出行成本进行建模分析,完成对居民公交出行的费用成本以及时间成本的分析。核密度估计算法完全利用数据本身信息,避免人为主观带入得先验知识,从而能够对样本数据进行最大程度得近似(相对于参数估计)。由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,具有高度的客观性,其模型所反映的公交出行成本规律也能具有较高的可信度。
2、通过核密度估计算法模型总结居民出行成本的规律,进而通过对出行成本规律的分析,对公交出行成本的现状提供客观反映,并为政府关于补助政策、交通管理政策的制定提供参考。
附图说明
图1为本发明实施例一的基于交易数据的公交出行成本获取方法的流程图;
图2为本发明实施例二的基于交易数据的公交出行成本获取系统的结构示意图;
图3为本发明实施例三的基于交易数据的公交出行成本分析方法的流程图;
图4为本发明实施例四的基于交易数据的公交出行成本分析系统的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
本发明实施例一公开了一种基于交易数据的公交出行成本获取方法,该方法可以由硬件或/和软件来执行,请参照图1所示,其包括以下步骤:
110、从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录。
首先,从公交出行的IC卡交易记录中获取交易数据初始集合,所述交易数据初始集合的交易记录在位于所述预设时间范围内,公交出行包括以IC卡交易数据为对象的公交车以及地铁等,预设时间优选任意没有节假日的两周。交易数据主要内容如表1所述的IC卡交易记录表:
表1、IC卡交易记录表
逻辑卡号 | 进站时间 | 交易票价 | 出站时间 | 刷卡区域编码 | 。。。 |
LCN | ETIM | TF | OTIM | Use_area_code | 。。。 |
所有交易数据均以String类型保存,其中进出站时间格式为YYYYmmddHHMMSS,例如:20171021083651。
因交易数据初始集合内的交易记录种类多、字段信息多,需进行一些清理,以获取交易数据初始集合内的有效交易记录,即交易数据集合;筛选的方法为以下的一种或多种(优选以下所有情况均被删除):
1、删除进站时间与出站时间之差小于2分钟的数据,当小于2分钟可能是用户临时决定不乘车或数据记录本身的错误。
2、删除票价超过当地单次最大公交消费的数据,当地单次最大公交消费,是通过刷卡区域编码获取的。
3、删除进站时间与出站时间大于120分钟的数据,一般花费大于两小时的持卡人属于地铁工作人员或维修人员。
4、删除进站地点等于出站地点的数据,此种数据并不属于交易数据;
5、删除卡号或进出站时间或票价或刷卡区域编码记录为空的数据。
120、对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据。
130、根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码。
140、根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间。
其过程如下:
1、计算单次出行时间,用出站时间减进站时间,取整,将单次出行时间编号为TIM,单位为分钟,数值类型为INT;
2、转换票价数值类型,将票价转换为DOUBLE类型;
3、求刷卡日期,将进站时间的日期部分(前8个字符),将刷卡日期编号为Count_Day,格式为YYYYmmdd,数值类型为STRING;
4、计算目标刷卡区域编码每人每天的总消费与总时间,以目标刷卡区域编码、刷卡日期、卡号为分组条件,对TIM与TF进行累加,计算单日内,单个卡号的总票价与总出行时间,将单人单日总票价编号为Price,数值类型为DOUBLE,将单人单日总出行时间编号为Cost_Time,数值类型为DOUBLE;
5、将目标刷卡区域编码、单人单日总票价、单人单日总出行时间、刷卡日期筛选出来组成新的数据表,用于算法模型的训练,如表2所示。
表2、IC卡交易数据处理表
含义 | 列名 | 数值类型 |
目标刷卡区域编码 | Use_area_code | STRING |
单人单日总票价 | Price | DOUBLE |
单人单日总出行时间 | Cost_Time | DOUBLE |
刷卡日期 | Count_Day | STRING |
150、创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型。
160、将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型。
将样本集合分割成两部分,其中一部分的样本集合用于训练模型,称为训练样本集合,一部分的样本集合用于测试模型,称为测试样本集合;
以目标刷卡区域编码所在地区的票价最小单位作为出行消费成本初始模型的带宽,将训练样本集合内的单人单日总票价输入至所述出行消费成本初始模型进行训练,得到出行消费成本模型。通过对票价的观察,可知票价的最小单位是0.1元,而根据各个城市的收费政策不同,相应的票价也不同,以广州为例,存在6折优惠,票价一般为0.6元一个梯度,可考虑出行消费成本初始模型的带宽在0.6附近取值,在验证过程中对其进行调整时,可以将每次的取值增大或者减小0.1。
以1分钟作为出行时间成本初始模型的带宽,将训练样本集合内的单人单日总出行时间输入至所出行时间成本初始模型进行训练,得到出行时间成本模型。时间花费的取值范围一般是比较大的,故考虑时间取值范围的影响,出行时间成本初始模型的带宽可在1附近取值,在验证过程中对其进行调整时,可以将每次的取值增大或者减小1。
确定出行消费成本初始模型和出行时间成本初始模型的带宽后,即可通过核密度估计算法训练得到目标刷卡区域编码也就是目标地区的出行成本模型(即出行消费成本模型和出行时间成本模型)。
得到出行消费成本模型和出行时间成本模型后,需要验证二者的准确性和合理性。通过对测试样本集合中的数据进行统计,计算计算票价或时间出现在各个票价或时间范围内的频率(近似地看为概率),与出行成本模型预测的结果进行对比,以达到验证的目的。对于出行消费成本模型的验证,可先查找出票价的最大值,再将其分为几个小的票价范围,计算票价在该范围内的频率(由于数据集十分庞大,足以将频率近似为概率),例如单人单日总票价最大值为20,则可计算票价在0~4,4~8,…,16~20元范围的概率;而对于出行时间成本模型的验证,可用同样的方法。
对于出行成本模型,给训练得到的出行成本模型输入一个数,就能得到该数的概率密度。而概率密度是较难直接验证的,由于输入值在一定区间内的概率等于这个区间内概率密度曲线的面积,又由于一定区间内概率密度曲线的面积相当于概率密度曲线函数的积分,故可通过计算一定区间概率密度的积分来计算该区间的概率。由于算法模型得到的概率密度曲线的积分是难以直接计算的,故借用推导积分的方法,将一定区间分为很多微小的等长小区间,再用该小区间的长度乘以区间内某一点的概率密度,在对每一个小区间计算得到的值进行累加便得到原来区间的概率。
具体的,对所述出行消费成本模型进行验证包括以下步骤:
A1、获取目标刷卡区域编码所在地区的单人单日总票价最大值,根据所述单人单日总票价最大值将票价划分若干个第一区间,例如上述的单人单日总票价最大值为20,则第一区间可以分别为(0,4]、(4,8]、(8,12]、(12,16]、以及(16,20];
A2、通过测试样本集合内的单人单日总票价获取票价在每个第一区间内的消费测试概率,每个第一区间内的消费测试概率为测试样本集合内的单人单日总票价中票价在每个第一区间内的数量后除以测试样本集合内的单人单日总票价的总数量;
A3、在单人单日总票价最大值内(即0-该单人单日总票价最大值之间)选取多个票价点(例如4000个),相邻两个票价点之间的间隔相同,所述票价点的数量远远大于第一区间的数量,将单人单日总票价最大值除以所述票价点的数量,得到第一间隔值(当票价最大为20,选取4000个票价点时,第一间隔值为0.005);
A4、通过出行消费成本模型得到每个第一区间内每个票价点的出行消费成本概率密度,将每个第一区间内每个点的出行消费成本概率密度相加后再乘以第一间隔值,得到每个第一区间的出行消费概率;
A5、将每个第一区间的消费测试概率和出行消费概率进行比对,获取消费测试概率和出行消费概率之间的消费偏差,当每个第一区间内的消费偏差均小于预设消费阈值时(或者所有第一区间的消费偏差的平均值小于预设消费阈值),另外,出行消费成本模型输出的概率密度曲线较光滑,波动小,则认为出行消费成本模型具有合理性和准确性,验证通过,否则,调整出行消费成本初始模型的带宽,重新对出行消费成本初始模型进行训练。
同理,对所述出行时间成本模型进行验证包括以下步骤:
B1、以每分钟为单元,统计单人单日总时间最大值,根据该单人单日总时间最大值划分若干个第二区间,假设单人单日总时间最大值为240分钟,则所述第二区间分别为(0,20]、(20,40]、...、(220,240]。
B2、通过测试样本集合内的单人单日总出行时间获取总出行时间在每个第二区间内的时间测试概率,每个第二区间内的时间测试概率为测试样本集合内的单人单日总出行时间中总出行时间在每个第二区间内的数量后除以测试样本集合内的单人单日总出行时间的总数量;
B3、在单人单日总时间最大值内(即在0-该单人单日总时间最大值之间)选取多个时间点(例如4000个),相邻两个时间点之间的间隔相同,所述时间点的数量远远大于第二区间的数量,将单人单日总时间最大值除以时间点的数量,得到第二间隔值(时间点为4000个时,第二间隔值为0.06分钟);
B4、通过出行时间成本模型得到每个第二区间内每个时间点的出行时间成本概率密度,将每个第二区间内每个点的出行时间成本概率密度相加后再乘以第二间隔值,得到每个第二区间的出行时间概率;
B5、将每个第二区间的时间测试概率和出行时间概率进行比对,获取时间测试概率和出行时间概率之间的时间偏差,当每个第二区间内的时间偏差均小于预设时间阈值时(或者所有第二区间的时间偏差的平均值小于预设时间阈值),另外,出行时间成本模型输出的概率密度曲线较光滑,波动小,则认为出行时间成本模型具有合理性和准确性,验证通过,否则,调整出行时间成本初始模型的带宽,重新对出行时间成本初始模型进行训练。
170、根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
任意向出行消费成本模型和出行时间成本模型输入一个数字,出行消费成本模型和出行时间成本模型均可输出该数字对应的出行消费成本概率和出行时间成本概率;当输入的数字数量足够大时,则出行消费成本模型和出行时间成本模型均可输出连续的曲线,分别称为出行消费成本概率密度曲线和出行时间成本概率密度曲线,通过该曲线,可以知晓出行消费成本概率和出行时间成本概率的分布情况,为后续研究提供了基础数据。
实施例二
实施例二公开了一种基于交易数据的公交出行成本获取系统,其是实施例一的虚拟装置,请参照图2所示,其包括:
第一获取模块210,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块220,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块230,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
计算模块240,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块250,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块260,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二获取模块270,用于根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
进一步地,第一获取模块210包括:
采集单元,用于从公交出行的IC卡交易记录中获取交易数据初始集合,所述交易数据初始集合的交易记录在位于所述预设时间范围内;
筛选单元,用于对交易数据初始集合内的交易记录进行筛选,以获取交易数据初始集合内的有效交易记录,即交易数据集合;筛选的方法为以下的一种或多种:
删除进站时间和出站时间之差小于2分钟的交易记录;
删除票价超过当地单次最大公交消费的交易记录;
删除进站时间与出站时间之差大于120分钟的交易记录;
删除进站地点和出站地点相同的交易记录;
删除IC卡号或进站时间或出站时间或交易票价或刷卡区域编码为空的交易记录。
进一步地,训练模块260包括:
分割单元,用于将样本集合分割成两部分,其中一部分的样本集合用于训练模型,称为训练样本集合,一部分的样本集合用于测试模型,称为测试样本集合;
出行消费成本模型训练单元,用于以目标刷卡区域编码所在地区的票价最小单位作为出行消费成本初始模型的带宽,将训练样本集合内的单人单日总票价输入至所述出行消费成本初始模型进行训练,得到出行消费成本模型;
出行时间成本模型训练单元,用于以1分钟作为出行时间成本初始模型的带宽,将训练样本集合内的单人单日总出行时间输入至所出行时间成本初始模型进行训练,得到出行时间成本模型。
进一步地,还包括:验证模块,用于对所述出行消费成本模型和出行时间成本模型进行验证;
其中:对所述出行消费成本模型进行验证的方法包括:
获取目标刷卡区域编码所在地区的单人单日总票价最大值,根据所述单人单日总票价最大值将票价划分若干个第一区间;
通过测试样本集合内的单人单日总票价获取票价在每个第一区间内的消费测试概率,每个第一区间内的消费测试概率为测试样本集合内的单人单日总票价中票价在每个第一区间内的数量后除以测试样本集合内的单人单日总票价的总数量;
在单人单日总票价最大值(即0-该单人单日总票价最大值之间)内选取多个票价点,相邻两个票价点之间的间隔相同,所述票价点的数量远远大于第一区间的数量,将单人单日总票价最大值除以所述票价点的数量,得到第一间隔值;
通过出行消费成本模型得到每个第一区间内每个票价点的出行消费成本概率密度,将每个第一区间内每个点的出行消费成本概率密度相加后再乘以第一间隔值,得到每个第一区间的出行消费概率;
将每个第一区间的消费测试概率和出行消费概率进行比对,获取消费测试概率和出行消费概率之间的消费偏差,当每个第一区间内的消费偏差均小于预设消费阈值时,则出行消费成本模型验证通过,否则,调整出行消费成本初始模型的带宽,重新对出行消费成本初始模型进行训练;
对所述出行时间成本模型进行验证的方法包括:
以分钟为单元,统计目标刷卡区域编码所在地区的单人单日总时间最大值,根据该单人单日总时间最大值划分若干个第二区间;
通过测试样本集合内的单人单日总出行时间获取总出行时间在每个第二区间内的时间测试概率,每个第二区间内的时间测试概率为测试样本集合内的单人单日总出行时间中总出行时间在每个第二区间内的数量后除以测试样本集合内的单人单日总出行时间的总数量;
在单人单日总时间最大值(即0-该单人单日总时间最大值之间)内选取多个时间点,相邻两个时间点之间的间隔相同,所述时间点的数量远远大于第二区间的数量,将单人单日总时间最大值除以时间点的数量,得到第二间隔值;
通过出行时间成本模型得到每个第二区间内每个时间点的出行时间成本概率密度,将每个第二区间内每个点的出行时间成本概率密度相加后再乘以第二间隔值,得到每个第二区间的出行时间概率;
将每个第二区间的时间测试概率和出行时间概率进行比对,获取时间测试概率和出行时间概率之间的时间偏差,当每个第二区间内的时间偏差均小于预设时间阈值时,则出行时间成本模型验证通过,否则,调整出行时间成本初始模型的带宽,重新对出行时间成本初始模型进行训练。
实施例三
实施例三是在实施例一的基础上增加了分析步骤,具体的,请参照图3所示,一种基于交易数据的公交出行成本分析方法,包括以下步骤:
310、从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
320、对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
330、根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
340、根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
350、创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
360、将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
步骤310-360与实施例一步骤110-160一致,这里步骤详细描述。
370、分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总票价在n-1~n元的出行消费成本概率;Tavg代表出行消费平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
380、获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
验证通过得到的算法模型已经具有反映居民出行成本规律的能力。对于出行消费成本模型,从当地城镇居民可支配收入分析,当出行消费平均成本占收入的3%-5%时,公共交通出行幸福指数是最好的,居民出行消费成本合理;超过5%指标时,则表明居民出行消费成本较高,公众承受的票价压力较大,建议政府加大票价补贴,惠及大部分人群出行。
对于出行时间成本模型,从人均每日可支配时间占比分析。对于城市大部分居民来说,在工作日:工作时间一般为8小时,睡眠时间大概为8小时,饮食等生理活动时间大概为1.5小时,那么一天剩余的大概时间为6.5小时;非工作日(周末):睡眠时间大概为8小时,饮食等生理活动时间大概为1.5小时,则每日大概剩余时间为14.5小时。
以每月30天,工作日22天进行计算,可以计算得到居民人均每日可支配时间Tm为:
Tm=(22*6.5+8*14.5)/30=8.63小时/日
通过出行时间成本模型,计算居民出行平均时间成本,计算方法与居民出行消费平均成本类似,但由于出行时间成本取值范围较大,故可20分钟一个区间(视出行时间最大值而定)。当居民出行平均时间成本在居民人均每日可支配时间的占比小于25%,说明居民出行时间成本是合理的。同时公共交通出行时间成本在2个小时以内是最合理的,当出行时间超过2小时,说明交通出行环境较差,需要政府加大公共交通治理力度,提升公共交通接驳,解决拥堵问题,提升出行体验。
实施例四
实施例四公开了一种基于交易数据的公交出行成本分析系统,为实施例三的虚拟装置,请参照图4所示,其包括:
获取模块410,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块420,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块430,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
第一计算模块440,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块450,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块460,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二计算模块470,用于分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总票价在n-1~n元的出行消费成本概率;Tavg代表出行消费平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
判断模块480,用于获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种基于交易数据的公交出行成本获取方法,其特征在于,包括以下步骤:
从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
2.如权利要求1所述的基于交易数据的公交出行成本获取方法,其特征在于,从公交出行的IC卡交易记录中获取多组交易数据集合,包括:
从公交出行的IC卡交易记录中获取交易数据初始集合,所述交易数据初始集合的交易记录在位于所述预设时间范围内;
对交易数据初始集合内的交易记录进行筛选,以获取交易数据初始集合内的有效交易记录,即交易数据集合;筛选的方法为以下的一种或多种:
删除进站时间和出站时间之差小于2分钟的交易记录;
删除票价超过当地单次最大公交消费的交易记录;
删除进站时间与出站时间之差大于120分钟的交易记录;
删除进站地点和出站地点相同的交易记录;
删除IC卡号或进站时间或出站时间或交易票价或刷卡区域编码为空的交易记录。
3.如权利要求1所述的基于交易数据的公交出行成本获取方法,其特征在于,分别得到出行消费成本模型和出行时间成本模型,包括:
将样本集合分割成两部分,其中一部分的样本集合用于训练模型,称为训练样本集合,一部分的样本集合用于测试模型,称为测试样本集合;
以目标刷卡区域编码所在地区的票价最小单位作为出行消费成本初始模型的带宽,将训练样本集合内的单人单日总票价输入至所述出行消费成本初始模型进行训练,得到出行消费成本模型;
以1分钟作为出行时间成本初始模型的带宽,将训练样本集合内的单人单日总出行时间输入至所出行时间成本初始模型进行训练,得到出行时间成本模型。
4.如权利要求3所述的基于交易数据的公交出行成本获取方法,其特征在于,分别得到出行消费成本模型和出行时间成本模型之后,还包括:对所述出行消费成本模型和出行时间成本模型进行验证;
其中:对所述出行消费成本模型进行验证的方法包括:
获取目标刷卡区域编码所在地区的单人单日总票价最大值,根据所述单人单日总票价最大值将票价划分若干个第一区间;
通过测试样本集合内的单人单日总票价获取票价在每个第一区间内的消费测试概率,每个第一区间内的消费测试概率为测试样本集合内的单人单日总票价中票价在每个第一区间内的数量后除以测试样本集合内的单人单日总票价的总数量;
在单人单日总票价最大值内选取多个票价点,相邻两个票价点之间的间隔相同,所述票价点的数量远远大于第一区间的数量,将单人单日总票价最大值除以所述票价点的数量,得到第一间隔值;
通过出行消费成本模型得到每个第一区间内每个票价点的出行消费成本概率密度,将每个第一区间内每个点的出行消费成本概率密度相加后再乘以第一间隔值,得到每个第一区间的出行消费概率;
将每个第一区间的消费测试概率和出行消费概率进行比对,获取消费测试概率和出行消费概率之间的消费偏差,当每个第一区间内的消费偏差均小于预设消费阈值时,则出行消费成本模型验证通过,否则,调整出行消费成本初始模型的带宽,重新对出行消费成本初始模型进行训练;
对所述出行时间成本模型进行验证的方法包括:
以分钟为单元,统计目标刷卡区域编码所在地区的单人单日总时间最大值,根据该单人单日总时间最大值划分若干个第二区间;
通过测试样本集合内的单人单日总出行时间获取总出行时间在每个第二区间内的时间测试概率,每个第二区间内的时间测试概率为测试样本集合内的单人单日总出行时间中总出行时间在每个第二区间内的数量后除以测试样本集合内的单人单日总出行时间的总数量;
在单人单日总时间最大值内选取多个时间点,相邻两个时间点之间的间隔相同,所述时间点的数量远远大于第二区间的数量,将单人单日总时间最大值除以时间点的数量,得到第二间隔值;
通过出行时间成本模型得到每个第二区间内每个时间点的出行时间成本概率密度,将每个第二区间内每个点的出行时间成本概率密度相加后再乘以第二间隔值,得到每个第二区间的出行时间概率;
将每个第二区间的时间测试概率和出行时间概率进行比对,获取时间测试概率和出行时间概率之间的时间偏差,当每个第二区间内的时间偏差均小于预设时间阈值时,则出行时间成本模型验证通过,否则,调整出行时间成本初始模型的带宽,重新对出行时间成本初始模型进行训练。
5.一种基于交易数据的公交出行成本获取系统,其特征在于,其包括:
第一获取模块,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
计算模块,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二获取模块,用于根据所述出行消费成本模型和出行时间成本模型分别得出目标刷卡区域编码所在区域的出行消费成本概率密度和出行时间成本概率密度。
6.如权利要求5所述的基于交易数据的公交出行成本获取系统,其特征在于,所述第一获取模块包括:
采集单元,用于从公交出行的IC卡交易记录中获取交易数据初始集合,所述交易数据初始集合的交易记录在位于所述预设时间范围内;
筛选单元,用于对交易数据初始集合内的交易记录进行筛选,以获取交易数据初始集合内的有效交易记录,即交易数据集合;筛选的方法为以下的一种或多种:
删除进站时间和出站时间之差小于2分钟的交易记录;
删除票价超过当地单次最大公交消费的交易记录;
删除进站时间与出站时间之差大于120分钟的交易记录;
删除进站地点和出站地点相同的交易记录;
删除IC卡号或进站时间或出站时间或交易票价或刷卡区域编码为空的交易记录。
7.如权利要求5所述的基于交易数据的公交出行成本获取系统,其特征在于,所述训练模块包括:
分割单元,用于将样本集合分割成两部分,其中一部分的样本集合用于训练模型,称为训练样本集合,一部分的样本集合用于测试模型,称为测试样本集合;
出行消费成本模型训练单元,用于以目标刷卡区域编码所在地区的票价最小单位作为出行消费成本初始模型的带宽,将训练样本集合内的单人单日总票价输入至所述出行消费成本初始模型进行训练,得到出行消费成本模型;
出行时间成本模型训练单元,用于以1分钟作为出行时间成本初始模型的带宽,将训练样本集合内的单人单日总出行时间输入至所出行时间成本初始模型进行训练,得到出行时间成本模型。
8.如权利要求7所述的基于交易数据的公交出行成本获取系统,其特征在于,还包括:验证模块,用于对所述出行消费成本模型和出行时间成本模型进行验证;
其中:对所述出行消费成本模型进行验证的方法包括:
获取目标刷卡区域编码所在地区的单人单日总票价最大值,根据所述单人单日总票价最大值将票价划分若干个第一区间;
通过测试样本集合内的单人单日总票价获取票价在每个第一区间内的消费测试概率,每个第一区间内的消费测试概率为测试样本集合内的单人单日总票价中票价在每个第一区间内的数量后除以测试样本集合内的单人单日总票价的总数量;
在单人单日总票价最大值内选取多个票价点,相邻两个票价点之间的间隔相同,所述票价点的数量远远大于第一区间的数量,将单人单日总票价最大值除以所述票价点的数量,得到第一间隔值;
通过出行消费成本模型得到每个第一区间内每个票价点的出行消费成本概率密度,将每个第一区间内每个点的出行消费成本概率密度相加后再乘以第一间隔值,得到每个第一区间的出行消费概率;
将每个第一区间的消费测试概率和出行消费概率进行比对,获取消费测试概率和出行消费概率之间的消费偏差,当每个第一区间内的消费偏差均小于预设消费阈值时,则出行消费成本模型验证通过,否则,调整出行消费成本初始模型的带宽,重新对出行消费成本初始模型进行训练;
对所述出行时间成本模型进行验证的方法包括:
以分钟为单元,统计目标刷卡区域编码所在地区的单人单日总时间最大值,根据该单人单日总时间最大值划分若干个第二区间;
通过测试样本集合内的单人单日总出行时间获取总出行时间在每个第二区间内的时间测试概率,每个第二区间内的时间测试概率为测试样本集合内的单人单日总出行时间中总出行时间在每个第二区间内的数量后除以测试样本集合内的单人单日总出行时间的总数量;
在单人单日总时间最大值内选取多个时间点,相邻两个时间点之间的间隔相同,所述时间点的数量远远大于第二区间的数量,将单人单日总时间最大值除以时间点的数量,得到第二间隔值;
通过出行时间成本模型得到每个第二区间内每个时间点的出行时间成本概率密度,将每个第二区间内每个点的出行时间成本概率密度相加后再乘以第二间隔值,得到每个第二区间的出行时间概率;
将每个第二区间的时间测试概率和出行时间概率进行比对,获取时间测试概率和出行时间概率之间的时间偏差,当每个第二区间内的时间偏差均小于预设时间阈值时,则出行时间成本模型验证通过,否则,调整出行时间成本初始模型的带宽,重新对出行时间成本初始模型进行训练。
9.一种基于交易数据的公交出行成本分析方法,其特征在于,包括以下步骤:
从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总票价在n-1~n元的出行消费成本概率;Tavg代表出行消费平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
10.一种基于交易数据的公交出行成本分析系统,其特征在于,包括:
获取模块,用于从公交出行的IC卡交易记录中获取交易数据集合,交易数据集合包括了预设时间范围内的所有有效交易记录;
预处理模块,用于对所述交易数据集合进行预处理,以使得每条有效交易记录内均保留IC卡号、进站时间、出站时间、交易票价以及刷卡区域编码五个数据;
分类模块,用于根据所述刷卡区域编码,对每组交易数据集合进行分类;以目标刷卡区域编码为依据,得到样本集合,所述样本集合中的有效交易记录均具有相同的刷卡区域编码,所述相同的刷卡区域编码称为目标刷卡区域编码,即为待获取公交出行成本的刷卡区域编码;
第一计算模块,用于根据所述IC卡号计算样本集合内的单人单日总票价以及单人单日总出行时间;
创建模块,用于创建核密度估计算法模型,所述核密度估计算法模型包括出行消费成本初始模型以及出行时间成本初始模型;
训练模块,用于将所述样本集合内的单人单日总票价和单人单日总出行时间分别输入出行消费成本初始模型以及出行时间成本初始模型,对出行消费成本初始模型和出行时间成本初始模型进行分别训练,分别得到出行消费成本模型和出行时间成本模型;
第二计算模块,用于分别根据所述出行消费成本模型和出行时间成本模型计算目标刷卡区域编码所在区域的出行消费平均成本和出行时间平均成本;
Cavg=[P1*(0+1)+P2*(1+2)+…+Pn*(n-1+n)]/2;
Tavg=[Q1*(0+20)+Q2*(20+40)+…+Qn*(20n-20+20n)]/2;
其中:Cavg代表出行消费平均成本,Pn代表出行总票价在n-1~n元的出行消费成本概率;Tavg代表出行消费平均成本,Qn代表出行总时间在20n-20~20n分钟的出行消费成本概率;
判断模块,用于获取目标刷卡区域编码所在区域的平均收入,如果出行消费平均成本占所述平均收入的3%-5%时,说明出行消费成本合理;计算得到目标刷卡区域编码所在区域的可支配时间,如果出行时间平均成本在所述可支配时间中的占比小于25%,则说明出行时间成本合理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811397723.4A CN109544920B (zh) | 2018-11-22 | 2018-11-22 | 基于交易数据的公交出行成本获取、分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811397723.4A CN109544920B (zh) | 2018-11-22 | 2018-11-22 | 基于交易数据的公交出行成本获取、分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109544920A true CN109544920A (zh) | 2019-03-29 |
CN109544920B CN109544920B (zh) | 2021-10-22 |
Family
ID=65849363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811397723.4A Active CN109544920B (zh) | 2018-11-22 | 2018-11-22 | 基于交易数据的公交出行成本获取、分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109544920B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751630A (zh) * | 2014-12-31 | 2015-07-01 | 浙江工业大学 | 一种基于Kernel-KNN匹配的道路交通状态获取方法 |
CN104766146A (zh) * | 2015-04-24 | 2015-07-08 | 陆化普 | 一种交通需求预测方法及系统 |
US9292040B2 (en) * | 2013-04-30 | 2016-03-22 | Hewlett Packard Enterprise Development Lp | Synthetic time series data generation |
US9349150B2 (en) * | 2013-12-26 | 2016-05-24 | Xerox Corporation | System and method for multi-task learning for prediction of demand on a system |
CN105679021A (zh) * | 2016-02-02 | 2016-06-15 | 重庆云途交通科技有限公司 | 基于交通大数据的行程时间融合预测及查询方法 |
CN105930914A (zh) * | 2016-04-01 | 2016-09-07 | 东南大学 | 基于起讫点距离的城市公交最优收费结构的收费确定方法 |
CN106023588A (zh) * | 2016-06-15 | 2016-10-12 | 重庆云途交通科技有限公司 | 一种基于交通大数据的行程时间提取、预测及查询方法 |
CN106845768A (zh) * | 2016-12-16 | 2017-06-13 | 东南大学 | 基于生存分析参数分布的公交车旅行时间模型构建方法 |
CN107316501A (zh) * | 2017-06-28 | 2017-11-03 | 北京航空航天大学 | 一种基于网格搜索的支持向量机行程时间预测方法 |
CN107563566A (zh) * | 2017-09-18 | 2018-01-09 | 东南大学 | 一种基于支持向量机的公交站间运行时间区间预测方法 |
CN107835486A (zh) * | 2017-10-17 | 2018-03-23 | 南京市城市与交通规划设计研究院股份有限公司 | 交通出行量计算方法及装置 |
CN107909180A (zh) * | 2017-09-30 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 公共交通出行用时的处理方法、设备及可读介质 |
US20180203160A1 (en) * | 2017-01-18 | 2018-07-19 | Board Of Regents, The University Of Texas System | Systems and methods of hierarchical forecasting of solar photovoltaic energy production |
US20180232650A1 (en) * | 2017-02-10 | 2018-08-16 | New York University | Systems and methods for sparse travel time estimation |
CN108776717A (zh) * | 2018-04-25 | 2018-11-09 | 香港中文大学(深圳) | 核函数构造及数据预测方法、装置、设备和存储介质 |
-
2018
- 2018-11-22 CN CN201811397723.4A patent/CN109544920B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292040B2 (en) * | 2013-04-30 | 2016-03-22 | Hewlett Packard Enterprise Development Lp | Synthetic time series data generation |
US9349150B2 (en) * | 2013-12-26 | 2016-05-24 | Xerox Corporation | System and method for multi-task learning for prediction of demand on a system |
CN104751630A (zh) * | 2014-12-31 | 2015-07-01 | 浙江工业大学 | 一种基于Kernel-KNN匹配的道路交通状态获取方法 |
CN104766146A (zh) * | 2015-04-24 | 2015-07-08 | 陆化普 | 一种交通需求预测方法及系统 |
CN105679021A (zh) * | 2016-02-02 | 2016-06-15 | 重庆云途交通科技有限公司 | 基于交通大数据的行程时间融合预测及查询方法 |
CN105930914A (zh) * | 2016-04-01 | 2016-09-07 | 东南大学 | 基于起讫点距离的城市公交最优收费结构的收费确定方法 |
CN106023588A (zh) * | 2016-06-15 | 2016-10-12 | 重庆云途交通科技有限公司 | 一种基于交通大数据的行程时间提取、预测及查询方法 |
CN106845768A (zh) * | 2016-12-16 | 2017-06-13 | 东南大学 | 基于生存分析参数分布的公交车旅行时间模型构建方法 |
US20180203160A1 (en) * | 2017-01-18 | 2018-07-19 | Board Of Regents, The University Of Texas System | Systems and methods of hierarchical forecasting of solar photovoltaic energy production |
US20180232650A1 (en) * | 2017-02-10 | 2018-08-16 | New York University | Systems and methods for sparse travel time estimation |
CN107316501A (zh) * | 2017-06-28 | 2017-11-03 | 北京航空航天大学 | 一种基于网格搜索的支持向量机行程时间预测方法 |
CN107563566A (zh) * | 2017-09-18 | 2018-01-09 | 东南大学 | 一种基于支持向量机的公交站间运行时间区间预测方法 |
CN107909180A (zh) * | 2017-09-30 | 2018-04-13 | 百度在线网络技术(北京)有限公司 | 公共交通出行用时的处理方法、设备及可读介质 |
CN107835486A (zh) * | 2017-10-17 | 2018-03-23 | 南京市城市与交通规划设计研究院股份有限公司 | 交通出行量计算方法及装置 |
CN108776717A (zh) * | 2018-04-25 | 2018-11-09 | 香港中文大学(深圳) | 核函数构造及数据预测方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
孙瑞芬等: "旅客出行成本测度研究", 《价格理论与实践》 * |
龙瀛等: "基于公共交通智能卡数据的城市研究综述", 《城市规划学刊》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109544920B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agard et al. | Mining public transport user behaviour from smart card data | |
Liu et al. | Understanding public transit patterns with open geodemographics to facilitate public transport planning | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
CN109615226A (zh) | 一种运营指标异常监测方法 | |
CN108877227B (zh) | 一种基于多源交通数据的全局动态出行需求估计方法 | |
CN106204106A (zh) | 一种特定用户识别方法及系统 | |
CN111008223A (zh) | 一种基于时空关联规则的区域交通拥堵相关性计算方法 | |
CN109522372A (zh) | 民航领域旅客价值的预测方法 | |
CN115375205B (zh) | 一种用水用户画像的确定方法、装置及设备 | |
Pieroni et al. | Big data for big issues: Revealing travel patterns of low-income population based on smart card data mining in a global south unequal city | |
US20140365253A1 (en) | System for Calculating, Analyzing and Tracking Regulatory Recovery in a Relational Database relating to Regulatory Management | |
CN106528850B (zh) | 基于机器学习聚类算法的门禁数据异常检测方法 | |
Growns et al. | Characterisation of flow in regulated and unregulated streams in eastern Australia | |
CN109101555A (zh) | 一种发票核定方法及系统 | |
Zou et al. | Measuring retiming responses of passengers to a prepeak discount fare by tracing smart card data: a practical experiment in the Beijing subway | |
Chen et al. | Defining urban boundaries by characteristic scales | |
CN109919667A (zh) | 一种用于识别企业ip的方法和装置 | |
CN114398941A (zh) | 一种用户缴费行为分类方法、装置、设备及可读存储介质 | |
CN109544920A (zh) | 基于交易数据的公交出行成本获取、分析方法和系统 | |
CN109858947A (zh) | 零售用户价值分析系统及方法 | |
CN101599165A (zh) | 一种动态金融网络监测分析方法 | |
Jin et al. | Spatio-temporally constrained origin–destination inferring using public transit fare card data | |
CN116629677A (zh) | 一种人力资源工作分析用数据统计系统 | |
CN113052422A (zh) | 风控模型训练方法和用户信用评估方法 | |
CN109670875A (zh) | 一种铁路客票浮动定价优化管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |