CN109840272B - 一种共享电动汽车站点用户需求预测方法 - Google Patents
一种共享电动汽车站点用户需求预测方法 Download PDFInfo
- Publication number
- CN109840272B CN109840272B CN201811566471.3A CN201811566471A CN109840272B CN 109840272 B CN109840272 B CN 109840272B CN 201811566471 A CN201811566471 A CN 201811566471A CN 109840272 B CN109840272 B CN 109840272B
- Authority
- CN
- China
- Prior art keywords
- data
- station
- electric automobile
- shared electric
- travel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000000872 buffer Substances 0.000 claims abstract description 66
- 238000011160 research Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 18
- 230000001419 dependent effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种共享电动汽车站点用户需求预测方法,该方法选择以站点为圆心,方圆一公里范围内的缓冲区为研究对象,建立两个数据获取子系统,一个系统采集缓冲区内的人口经济特征、就业、娱乐、医疗服务及交通模式与道路网络等特征数据,另一个系统采集站点的泊位数数据,连续时间内的共享电动汽车出行数据;对两大块数据进行深度挖掘与融合后形成输入数据,最后建立一整套基于半参数化空间地理加权泊松回归的共享电动汽车站点用户需求预测技术;该技术可以为现有站点布局中的泊位数变化调整方案设计,站点周边建成环境变化对站点用户需求的影响等提供用户需求变化的预测支持。
Description
技术领域
本发明属于城市交通领域,特别涉及一种基于半参数化空间地理加权泊松回归模型的共享电动汽车站点用户需求预测方法。
背景技术
共享电动汽车,是以分钟或小时等为计价单位,利用移动互联网、全球定位等信息技术构建网络服务平台,为用户提供自助式电动车辆预定、车辆取还、费用结算为主要方式的小微型客车租赁服务,是传统小微型客车租赁在服务模式、技术、管理上的创新。
前人研究表明现有的共享电动汽车租赁市场占有率极低,共享电动汽车的站点布局设计,泊位数配置等与用户需求存在一定偏差,但关于共享电动汽车站点用户需求预测方面的研究极为有限。几乎没有相关研究考虑到站点外部因素对站点用户需求的影响并建立模型进行分析。
因此,本方法选择常用的交通分析单元——站点缓冲区作为研究对象,提出有效模型评价人口、就业、交通模式,道路网特征等因素对站点用户需求的影响,并对泊位数变化及和站点缓冲区内外部因素变化对用户需求量的影响进行有效预测。
发明内容
针对上述问题缺陷,本发明提供一种共享电动汽车站点用户需求预测方法,以常用的交通研究区域----站点缓冲区为研究对象,收集站点的坐标数据、泊位数数据以及站点缓冲区范围内的住户情况、就业情况、交通模式等外部因素数据,基于半参数化的空间地理加权泊松回归模型进行建模,为共享电动汽车站点的泊位数设置变化,站点缓冲区内建成环境等外部因素变化对用户需求的影响做出有效预测。
技术方案:本发明提出一种基于半参数化空间地理加权泊松回归模型的共享电动汽车站点用户需求预测方法,包括以下步骤:
(1)通过数据采集子系统获取外部因素数据;
(2)通过数据采集子系统获取共享电动汽车站点实时数据;
(3)将步骤(1)和步骤(2)中得到的外部因素数据和共享电动汽车站点实时数据通过数据初步处理子系统中的Python模块和ArcGIS模块进行初步处理,从而得到缓冲区内外部因素数据、站点泊位数数据和共享电动汽车出行数据;
(4)通过回归建模子系统构建半参数化空间地理加权泊松回归模型;
(5)通过用户需求预测子系统对共享电动汽车站点用户需求进行预测;将得到的结果用于预测站点泊位数变化以及站点缓冲区内建成环境因素变化。如站点缓冲区内住户数改变,地铁与公交线路站点建设对该站点共享电动汽车用户需求的影响。
进一步的,所述步骤(1)中外部因素数据包括区域内土地利用特征变量、住户数数据、就业特征数据、交通模式数据和道路网络数据;其中
就业特征数据为公司企业的信息数据,包括地理坐标、名称和地址;
交通模式数据为地铁站点、公交站点的信息数据,包括地理坐标与名称;
土地利用特征变量包括旅游景区、政府机构、金融服务、商业大厦、零售行业、宾馆酒店、医疗服务、教育服务、休闲娱乐、公园广场、餐饮服务、综合服务的信息数据,包括地理坐标和名称;
道路网络数据包括路网及交叉口数据的矢量图数据。
住户数数据为研究区域内的居民住户数信息数据,包括研究区域内所有住宅单位住户数信息和各住房建筑坐标信息。在后续数据处理中将住宅单位总住户数平均分配至各栋楼房中。
进一步的,所述步骤(2)中共享电动汽车站点实时数据包括时间,站点编号,站点坐标,站点泊位数与站点内现有停放车辆的实时信息,车辆实时信息包括车辆车牌号与剩余电量。
进一步的,所述步骤(3)中将得到的外部因素数据和共享电动汽车站点实时数据通过数据初步处理子系统中的Python模块和ArcGIS模块进行初步处理,从而得到缓冲区内外部因素数据、站点泊位数数据和共享电动汽车出行数据的具体步骤如下:
(3.1)以研究区域内的共享电动汽车站点位置为圆心,站点一公里半径范围内缓冲区为研究对象,利用ArcGIS软件将各个站点的缓冲区位置投影到地图上,形成可视化图像;再利用ArcGIS软件将站点缓冲区图层与目标外部因素的图层相交以统计缓冲区范围内的外部因素数据;
(3.2)提取共享电动汽车出行数据。基于步骤(3.1)所得的站点实时数据,识别连续样本中共享电动汽车的位置变化信息,依据站点变化信息提取研究时间内所有共享电动汽车的所有出行数据;
(3.3)遍历共享电动汽车站点实时数据中的所有样本,提取站点编号和站点泊位数数据,依据站点编号进行去重处理,得到研究区域内所有站点的泊位数数据。
进一步的,所述步骤(3.1)中将得到的外部因素数据通过的Python模块和ArcGIS模块进行初步处理得到缓冲区内外部因素数据的具体步骤如下:
(3.1.1)在现有交通图内导入获取的共享电动汽车站点数据;导入路网数据、交叉口数据、住户数据、以及其他相关的POI(兴趣点)数据,每一类数据保存为一个独立的shapefile图层,原表格中的所有字段结构导入后保持不变,数据也保持不变;
(3.1.2)导入的数据均具有经纬度字段,统一采用GCS_WGS_1984地理坐标系对导入的数据在地图上进行投影;
(3.1.3)以共享电动汽车站点数据图层内所有记录作为输入要素,以缓冲区半径为1000m生成缓冲区,结果保存为新的图层,该缓冲区表示站点所影响的范围;
(3.1.4)将新生成的站点1000m缓冲区与待统计的数个需统计的POI图层逐个做相交操作,得到数个对应不同待统计量的新图层,接下来按照不同变量的需求以不同方法进行统计。
进一步的,所述步骤(3.2)中将得到的共享电动汽车站点实时数据通过Python模块和ArcGIS模块进行初步处理得到共享电动汽车出行数据的具体步骤如下:
(3.2.1)遍历所有样本数据,提取每一条样本数据中的共享电动汽车车牌号信息后进行去重,得到研究区域内所有共享电动汽车的车牌号信息;
(3.2.2)基于Python编程,以每一辆车的车牌号为索引,遍历所有样本数据,当检测到时间连续的样本中车辆所在的站点位置变化时,提取车辆离开与到达的站点以及相应的时间即车辆的出发与到达时间误差在1min内,以每一次出行OD为样本形成JSON格式车辆出行数据;
(3.2.3)基于步骤(3.2.2)所得数据,利用python编程提取所有站点编号,去重后得到研究区域内所有站点的编号数据,然后遍历所有OD出行数据样本,统计共享电动汽车在研究时间内的每个站点的出发量与吸引量,形成xlsx格式数据。
进一步的,所述步骤(4)中通过回归建模子系统构建半参数化空间地理加权泊松回归模型的具体步骤如下:
(4.1)数据清洗整理:利用Python编程将所得数据整理为同一的最终CSV格式文件,第一行为变量名称,往下每一行为一个站点的所有样本数据。形成后续建模子系统的输入数据;
(4.2)基于所得变量CSV文件,首先对于共享电动汽车在研究时间内的出行生成量和吸引量,分别作为因变量,与解释变量之间逐个建立线性回归模型,选择合适的显著性水平α,剔除与共享电动汽车出行生成量与吸引量不相关的变量;其次,在未被剔除的解释变量之间进行相关性分析,依据相关系数r,确保在回归模型建模过程中,相关性强的变量不会同时出现在模型中;其中显著性水平α设为0.1,相关系数r取0.5,r>0.5表示强相关;
(4.3)进行半参数化空间地理加权泊松回归:本方法以每个站点连续时间内的共享电动汽车出行生成量和吸引量为作为因变量,步骤(4.2)所得筛选后的变量作为解释变量建立半参数化空间地理加权泊松回归模型;模型的具体结构为:
半参数化空间地理加权泊松回归是通过混合固定系数与随空间位置变化系数来实现空间地理加权泊松回归的重要扩展;模型中λi是指ith空间地理加权泊松回归的出行生成量与吸引量;Xik表示在第i个空间地理加权泊松回归处具有变化的空间参数的第k个解释变量;βk(ui,vi)表示第k个解释变量的变化系数;βk(ui,vi)为由(ui,vi)建模的空间地理加权泊松回归位置函数;(ui,vi)表示汽车共享站i的二维坐标(即第i个空间地理加权泊松回归的质心),εi是该模型的误差项;P为研究区域内现有站点总量;
在建模过程中,采用逐步回归的方法逐一加入解释变量,选择模型AICc值最小的作为最优解释模型;
R方的计算方法为:
其中代表上述回归模型所得站点m的出行生成量和出行吸引量的期望值,/>代表出行生成量或出行吸引量的总平均值;/>越接近1的模型,其预测精度越高;计算最优解释模型的R方得到模型的预测精度;
进一步的,所述步骤(5)中通过用户需求预测子系统对共享电动汽车站点用户需求进行预测的具体步骤如下:
进一步的,基于步骤(4)所得最优模型的系数,为每一个共享电动汽车站点建立以连续时间内站点出行生成量和出行吸引量为目标函数的回归方程;该方程可用于预测由于站点泊位数变化,站点缓冲区内建成环境变化,住户数改变,就业特征改变等所导致的用户需求变化。
有益效果:
与现有技术相比,本发明的技术方案具有以下有益效果:现有技术中缺少对共享电动汽车站点用户需求变化进行评估的有效方法,本发明选取共享电动汽车站点缓冲区为研究对象,在宏观层面上利用半参数化空间地理加权泊松回归模型分析站点泊位数、人口经济特征、就业、交通模式、道路网密度等因素对站点出行生成量和出行吸引量的影响,建立用户需求预测模型。同时,本发明不需要车辆相关的实时数据,因此数据获取相对简单。最后,利用该方法得到的共享电动汽车用户需求预测模型,可以为站点泊位数设置的变化,以及站点缓冲区内外部因素变化对站点客流需求的影响提供有效的理论依据。
附图说明
图1是本发明的流程框架图
图2是样本数据示意图
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提出一种共享电动汽车站点用户需求预测方法,包括如下步骤:
(1)获取连续时间内共享电动汽车站点实时信息,所提取的每一个样本信息中包括时间,站点编号,站点坐标,站点泊位数与站点内现有停放车辆的实时信息,车辆实时信息包括车辆车牌号与剩余电量。将数据整理为JSON格式进行储存。
(2)获取链家网上研究区域内所有住宅单位住户数信息,并随之记录各住房建筑坐标信息;将数据整理为xlsx格式进行储存。
(3)获取区域内土地利用特征、就业及交通模式与道路网络等外部因素数据。就业特征数据为公司企业的信息数据,包括地理坐标,名称和地址,交通模式数据为地铁站点,公交站点的信息数据,包括地理坐标与名称,土地利用特征变量包括旅游景区、政府机构、金融服务、商业大厦、零售行业、宾馆酒店、医疗服务、教育服务、休闲娱乐、公园广场、餐饮服务、综合服务(不包含在上述类型中的其他类型建筑,如邮局等)的信息数据,包括地理坐标和名称。将以上数据整理为xlsx格式进行储存。道路网络数据包括路网及交叉口数据的矢量图数据(Shapefile文件)。
(4)外部因素数据统计。以研究区域内的站点位置为圆心,站点一公里半径范围内缓冲区为研究对象,利用ArcGIS软件将各个站点的缓冲区位置投影到地图上,形成可视化图像。再利用ArcGIS软件将站点缓冲区图层与目标外部因素的图层相交以统计缓冲区范围内的外部因素数据。
(5)共享电动汽车出行数据提取。基于步骤(1)所得的站点实时数据,识别连续样本中共享电动汽车的位置变化信息,依据站点变化信息提取研究时间内所有共享电动汽车的所有出行数据,相应出行数据包括列车车牌号、出发站点编号及坐标、到达站点编号及坐标、出发时间、到达时间。
(6)数据清洗整理:利用Python编程将步骤(4)~(5)所得数据整理为同一的最终CSV格式文件,第一行为变量名称,往下每一行为一个站点的所有样本数据。形成后续建模子系统的输入数据。
(7)变量相关性分析。基于步骤(6)所得变量,首先对于共享电动汽车在研究时间内的出行生成量和吸引量,分别作为因变量,与解释变量之间逐个建立线性回归模型,选择合适的显著性水平α,剔除与共享电动汽车出行生成量与吸引量不相关的变量。其次,在未被剔除的解释变量之间进行相关性分析,依据相关系数r,确保在回归模型建模过程中,相关性强的变量不会同时出现在模型中。
(8)建模分析。进行半参数化空间地理加权泊松回归:本方法以每个站点连续时间内的共享电动汽车出行生成量和吸引量为作为因变量,步骤(7)所得筛选后的变量作为解释变量建立半参数化空间地理加权泊松回归模型。在建模过程中,采用逐步回归的方法逐一加入解释变量,选择模型AICc值最小的作为最优解释模型。计算最优解释模型的R方得到模型的预测精度。
(9)系数分配。基于步骤(8)所得模型的系数,为每一个站点建立以连续时间内站点出行生成量和出行吸引量为目标函数的回归方程。该方程可用于预测由于站点泊位数变化,站点缓冲区内建成环境变化,住户数改变,道路网特征改变等外部因素变化所导致的用户需求变化。
所述步骤(2)所得数据为各住宅单位所属所有楼房相应的坐标信息和住宅单位总住户数,在后续数据处理中将住宅单位总住户数平均分配至各栋楼房中。
所述步骤(4)外部因素数据统计,其具体操作包括以下步骤:
(4.1)原始数据以excel表格存储。在现有交通图内导入获取的共享电动汽车站点数据;导入路网数据、交叉口数据、住户数据、以及其他相关的POI(兴趣点)数据,每一类数据保存为一个独立的shapefile图层,原表格中的所有字段结构导入后保持不变,数据也保持不变。
(4.2)导入的数据均具有经纬度字段,统一采用GCS_WGS_1984地理坐标系对导入的数据在地图上进行投影。
(4.3)以共享电动汽车站点数据图层内所有记录作为输入要素,以缓冲区半径为1000m生成缓冲区,结果保存为新的图层,该缓冲区表示站点所影响的范围。
(4.4)将新生成的站点1000m缓冲区与待统计的数个需统计的POI图层逐个做相交操作,得到数个对应不同待统计量的新图层,接下来按照不同变量的需求以不同方法进行统计。
所述步骤(4.4)中各变量的统计方法如下:
1)一般特征数据点数量的统计:按站点编号分类相交图层记录,对于只需要求出特征数据个数的项目,直接统计得出每一站点缓冲区范围内的交叉口数量、火车站汽车站等交通站点数量、风景区数量、宾馆酒店数量等特征数据点的个数,分别赋予字段存入站点缓冲区表格中。
2)住户数的统计:同上,按站点编号分类出不同站点下的记录。不过该项计算方法是对表中住宅人口户数(变量名:Households)字段求和,得出最终站点范围内的户数,存储方式同上。
由于统计需要,以下两项记录计算方法较为特别:
3)区域内道路路段长度的统计:按照实际情况筛选出共享汽车能够通行的道路等级,将符合标准的各道路等级合并为一个线图层,数据表结构与记录均保留。将站点缓冲区与该图层做相交,根据不同站点编号分类,得出与各个站点相交的路段线要素,对路段长度字段求和得出结果。
4)是否覆盖CBD地区的判断:为了区分站点是否覆盖CBD地区,在站点缓冲区表内设置“是否为CBD地区”字段,该字段取值为0或1。查阅区域发展规划现状相关资料划分出具体的CBD范围,判断站点缓冲区与CBD区域是否相交,相交则该字段为1,表示站点覆盖了CBD地区;反之为0,表示站点未覆盖到CBD地区。
5)混合土地利用指数值的统计:本专利采用混合土地利用指数来表征站点缓冲区内的混合土地利用情况。
Mixi表示缓冲区i内的混合用地指数,pi,k表示土地利用类型k在站点缓冲区i内所占的比例,N代表缓冲区内土地利用类型的总量,本专利中共考虑11中不同的土地利用类型,因此N值等于11。这11种土地利用类型包括政府机构、金融服务、商业建筑、零售产业、宾馆酒店、医疗服务、教育服务、休闲娱乐、公园广场、综合服务、餐饮服务(不包含在上述类型中的其他类型建筑,如邮局等)。
所述步骤(5)提取共享电动汽车出行数据,其具体操作包括以下步骤:
(5.1)遍历所有样本数据,提取每一条样本数据中的共享电动汽车车牌号信息后进行去重,得到研究区域内所有共享电动汽车的车牌号信息。
(5.2)基于Python编程,以每一辆车的车牌号为索引,遍历所有样本数据,当检测到时间连续的样本中车辆所在的站点位置变化时,提取车辆离开与到达的站点以及相应的时间(车辆的出发与到达时间误差在1min内),以每一次出行OD为样本形成JSON格式车辆出行数据。
(5.3)基于步骤(5.2)所得数据,利用python编程提取所有站点编号,去重后得到研究区域内所有站点的编号数据,然后遍历所有OD出行数据样本,统计共享电动汽车在研究时间内的每个站点的出发量与吸引量,形成JSON格式数据。
所述步骤(7)中,显著性水平α设为0.1,相关系数r取0.5,r>0.5表示强相关。
所述步骤(8)建模原理如下所述:
本方法以每个站点连续时间内的共享电动汽车出行生成量和吸引量为作为因变量,步骤(7)所得筛选后的变量作为解释变量建立半参数化空间地理加权泊松回归模型。模型的具体结构为:
半参数化空间地理加权泊松回归是通过混合固定系数与随空间位置变化系数来实现空间地理加权泊松回归的重要扩展。模型中λi是指ith空间地理加权泊松回归的出行生成量与吸引量;Xik表示在第i个空间地理加权泊松回归处具有变化的空间参数的第k个解释变量;βk(ui,vi)表示第k个解释变量的变化系数;βk(ui,vi)为由(ui,vi)建模的空间地理加权泊松回归位置函数。(ui,vi)表示汽车共享站i的二维坐标(即第i个空间地理加权泊松回归的质心),εi是该模型的误差项。P为研究区域内现有站点总量。
β的表达式说明在空间地理加权泊松回归模型中,允许一些变量的系数在不同的共享电动汽车站点具有差异性。通过在每一个站点变量系数的差异性来体现变量的空间不均匀性。参数β可以用下列矩阵表示:
其中每一行代表每个空间地理加权泊松回归的参数,每列代表解释变量的系数。β(ui,vi)可以通过以下等式估算:
β(ui,vi)=(XTW(ui,vi)X)-1XTW(ui,vi)Y
其中X是解释变量的系数矩阵,XT是X的转置,Y是因变量的n×1向量,W(ui,vi)表示为n×n的空间权重矩阵,如下所示:
其中wij(j=1,2,…n)是在空间地理加权泊松回归第i个建模过程中所得的空间地理加权泊松回归j的权重系数。
在空间地理加权泊松回归中,每个空间地理加权泊松回归的参数β(ui,vi)通过考虑了附近位置站点影响效应的回归模型估计。对于每个站点缓冲区,其附近站点的权重是通过距回归点的距离(即该站点缓冲区的质心)函数来计算。权重表示相邻站点距离衰减的多少。有两种常用的方法来反映加权函数中的距离衰减:
Gaussian function:
Bi-squarefunctio
其中||ui-uj||表示汽车共享站i和j之间的欧几里德距离,G和Gi表示带宽,两个参数起着控制每个回归点周围相邻共享电动汽车站点的数量和加权函数中距离衰减速率的作用。在高斯函数中,带宽G是相同的,并且在不同的共享电动汽车站点之间的回归核是固定的。因此,对于不同的共享电动汽车站点,加权函数的效应是固定的。在双平方函数中,允许带宽Gi在空间上变化,从而产生自适应核。由于已有研究表明固定核方法会造成参数估计不准确的结果,并且前人研究指出自适应核在观测数据的地理密度时即使存在较大变化也是有效的,所以本研究采用双平方函数。
最佳空间核和随后带宽的选择可以基于校正的Akaike信息标准(即,AICc)。前人研究给出的AIC和AICc的计算公式如下:
AIC=D+2K
其中D表示偏差,K表示模型中用于估计的参数数量,N表示观测数量。在泊松回归的情况中,偏差由下式给出:
对于非参数空间地理加权泊松回归,参数数量的概念是没有意义的。但在其他情况下,K的值可以直接被考虑为:
K=trace(S)
其中S被称为帽子矩阵,可由相关站点位置信息数据计算得到。如果参数AICc的有效数量大于2,那么在本方法中认为两种模型的性能存在很大差异。具有较低AICc的模型被认为拟合度更高。
在建模过程中,采用逐步回归的方法逐一加入解释变量,选择模型AICc值最小的作为最优解释模型。计算最优解释模型的R方得到模型的预测精度。
R方的计算方法为:
其中代表上述回归模型所得站点m的出行生成量和出行吸引量的期望值,/>代表出行生成量或出行吸引量的总平均值;/>越接近1的模型,其预测精度越高。
本发明提出了一种基于半参数化空间地理加权泊松回归模型的共享电动汽车站点用户需求预测方法,该方法选择以站点为圆心,方圆一公里范围内的缓冲区为研究对象,建立两个数据采集系统,一个系统采集缓冲区内的人口经济特征、就业、娱乐、医疗服务及交通模式与道路网络等特征数据,另一个系统采集站点的泊位数数据,连续时间内的共享电动汽车出行数据;依托Python、ArcGIS软件对两大块数据进行深度挖掘与融合,建立一整套基于半参数化空间地理加权泊松回归的共享电动汽车站点用户需求预测技术;该技术可以为现有站点布局中的泊位数变化调整方案设计,站点周边建成环境变化对站点用户需求的影响等提供用户需求变化的预测支持。
本实例中构建模型进行用户需求预测,相关操作步骤可分为以下六个阶段:数据采集阶段:获取南京市全市范围内241个EVCARD共享电动汽车站点从2017.10.25到2017.11.9的实时数据,记录每个站点的检索时间、站点编号、泊位数、站点二维坐标、以及站点现有车辆的车牌号,剩余电量,整理为JSON格式。样本数据如图2所示:
之后获取链家网上南京市区所有住宅住户数信息,整理为xlsx格式数据。再获取南京市区内土地利用特征、就业及交通模式与道路网络等外部因素数据。就业特征数据为公司企业的特征数据,包括地理坐标,名称和地址,交通模式数据为地铁站点,公交站点的特征数据,包括地理坐标与名称,土地利用特征变量包括旅游景区、政府机构、金融服务、商业大厦、零售行业、宾馆酒店、医疗服务、教育服务、休闲娱乐、公园广场、餐饮服务、综合服务(不包含在上述类型中的其他类型建筑,如邮局等)的特征数据,包括地理坐标和名称。道路网络数据包括路网及交叉口数据的矢量图数据(整理形成Shapefile文件)。
数据初步处理阶段:利用ArcGIS软件统计南京市区内241个站点缓冲区(BufferZone)内的外部因素数据:以研究区域内的站点位置为圆心,站点一公里半径范围内缓冲区为研究对象,利用ArcGIS软件将各个站点的缓冲区位置投影到地图上,形成可视化图像。再利用ArcGIS软件统计缓冲区范围内的外部因素数据。原始数据以excel表格存储。将每一类数据保存为一个独立的shapefile图层,原表格中的所有字段结构导入后保持不变,数据也保持不变。注意导入的数据均具有经纬度字段,统一采用GCS_WGS_1984地理坐标系对导入的数据在地图上进行投影。将新生成的站点1000m缓冲区与待统计的数个需统计的特征数据图层逐个做相交操作,得到数个对应不同待统计量的新图层,然后按照不同变量的需求以不同方法进行统计。具体统计方法如说明书中所述。
接着提取南京市共享电动汽车出行数据。遍历所有样本数据,提取每一条样本数据中的共享电动汽车车牌号信息后进行去重,得到研究区域内所有共享电动汽车的车牌号信息。以每一辆车的车牌号为索引,遍历所有样本数据,当检测到时间连续的样本中车辆所在的站点位置变化时,提取车辆离开与到达的站点以及相应的时间(车辆的出发与到达时间误差在1min内),以每一次出行OD为样本形成JSON格式车辆出行数据。再利用Python编程提取所有站点编号,去重后得到研究区域内所有站点的编号数据,然后遍历所有OD出行数据样本,统计共享电动汽车在研究时间内的每个站点的出发量与吸引量。
相关变量提取的结果如表1所示:
表1
数据输出阶段:
在本阶段中将所有以上相关数据整理为CSV格式,为后续的变量筛选和建模打下基础。CSV格式数据第一行为变量名称,往下每一行为一个站点的所有样本数据。部分相关数据表格如下所示。(变量不完全显示)
表2
变量筛选阶段:
利用SPSS软件进行变量相关性分析。首先对于共享电动汽车在研究时间内的出行生成量和吸引量,分别作为因变量,与解释变量之间逐个建立线性回归模型,选择合适的显著性水平α,剔除与共享电动汽车出行生成量与吸引量不相关的变量。其次,在未被剔除的解释变量之间进行相关性分析,依据相关系数r,确保在回归模型建模过程中,相关性强的变量不会同时出现在模型中。显著性水平α设为0.1,相关系数r取0.5,r>0.5表示强相关,两个强相关变量不能同时出现在模型中。
回归建模阶段:
进行半参数化空间地理加权泊松回归:本方法以每个站点连续时间内的共享电动汽车出行生成量和吸引量作为因变量,经历变量筛选阶段所得筛选后的变量作为解释变量建立半参数化空间地理加权泊松回归模型。在建模过程中,采用逐步回归的方法逐一加入解释变量,选择模型AICc值最小的作为最优解释模型。计算最优解释模型的R方得到模型的预测精度。
所得以站点出行生成量和站点出行吸引量为目标函数的模型建模结果如表3和表4所示,表中均值为该变量的系数均值,表3和表4中也列出了变量系数的百分位数值。所得模型R方如表5所示。本例中出行生成模型的R方达到0.683,出行吸引模型的R方达到0.692。
表3以出行生成量为目标函数的回归结果
a该变量被设置为常变量
表4以出行吸引量为目标函数的回归结果
a该变量被设置为常变量
表5模型R方计算结果
出行生成模型 | 出行吸引模型 | |
R-square | 0.683 | 0.692 |
用户需求预测阶段:
为每一个站点建立以连续时间内站点出行生成量和出行吸引量为因变量的回归方程。该方程考虑了局部变量的影响在空间上的不均匀性,该方程可用于预测由于站点泊位数变化,站点缓冲区内建成环境变化,住户数改变,道路网特征改变所导致的用户需求变化。
一个典型的站点出行生成量与出行吸引量的回归方程的形式为:
trip_generation=2.59432+0.04426ParkCnt+0.00728BusStop+0.00021Households
+0.00423Enterprise+0.05522RoadLen-0.01323Intersection
-0.05657Landmix+0.77478CBD-0.26649MetroStop
trip_attraction=3.61767+0.05925ParkCnt-0.00373BusStop+0.000012Households
+0.00108Enterprise+0.03491RoadLen-0.00236Intersection
-0.78530Landmix+0.23347CBD-0.33451MetroStop
对每个站点,由于站点泊位数变化,站点缓冲区内建成环境变化,住户数改变,道路网特征改变所导致的用户需求变化,便可将变化后的解释变量数据代入到该回归方程中,因此可由该回归方程对用户需求进行有效预测。
Claims (6)
1.一种共享电动汽车站点用户需求预测方法,其特征在于,包括以下步骤:
(1)通过数据采集子系统获取外部因素数据;
(2)通过数据采集子系统获取共享电动汽车站点实时数据;
(3)将步骤(1)和步骤(2)中得到的外部因素数据和共享电动汽车站点实时数据通过数据初步处理子系统中的Python模块和ArcGIS模块进行初步处理,从而得到缓冲区内外部因素数据、站点泊位数数据和共享电动汽车出行数据;
(4)通过回归建模子系统构建半参数化空间地理加权泊松回归模型;
(5)通过用户需求预测子系统对共享电动汽车站点用户需求进行预测;将得到的结果用于预测站点泊位数变化以及站点缓冲区内建成环境因素变化;
所述步骤(4)中通过回归建模子系统构建半参数化空间地理加权泊松回归模型的具体步骤如下:
(4.1)数据清洗整理:利用Python编程将所得数据整理为同一的最终CSV格式文件,第一行为变量名称,往下每一行为一个站点的所有样本数据形成后续建模子系统的输入数据;
(4.2)基于所得变量CSV文件,首先对于共享电动汽车在研究时间内的出行生成量和吸引量,分别作为因变量,与解释变量之间逐个建立线性回归模型,选择合适的显著性水平α,剔除与共享电动汽车出行生成量与吸引量不相关的变量;其次,在未被剔除的解释变量之间进行相关性分析,依据相关系数r,确保在回归模型建模过程中,相关性强的变量不会同时出现在模型中;其中显著性水平α设为0.1,相关系数r取0.5,r>0.5表示强相关;
(4.3)进行半参数化空间地理加权泊松回归:本方法以每个站点连续时间内的共享电动汽车出行生成量和吸引量为作为因变量,步骤(4.2)所得筛选后的变量作为解释变量建立半参数化空间地理加权泊松回归模型;模型的具体结构为:
半参数化空间地理加权泊松回归是通过混合固定系数与随空间位置变化系数来实现空间地理加权泊松回归的重要扩展;模型中λi是指第i个空间地理加权泊松回归的出行生成量与吸引量;Xik表示在第i个空间地理加权泊松回归处具有变化的空间参数的第k个解释变量;βk(ui,vi)表示第k个解释变量的变化系数;(ui,vi)表示汽车共享站i的二维坐标,即第i个空间地理加权泊松回归的质心;p为研究区域内现有站点总量;
在建模过程中,采用逐步回归的方法逐一加入解释变量,选择模型AICc值最小的作为最优解释模型;
R方的计算方法为:
其中代表上述回归模型所得站点m的出行生成量和出行吸引量的期望值,/>代表出行生成量或出行吸引量的总平均值;/>越接近1的模型,其预测精度越高;计算最优解释模型的R方得到模型的预测精度;
所述步骤(5)中通过用户需求预测子系统对共享电动汽车站点用户需求进行预测的具体步骤如下:
基于步骤(4)所得最优模型的系数,为每一个共享电动汽车站点建立以连续时间内站点出行生成量和出行吸引量为目标函数的回归方程;该方程可用于预测由于站点泊位数变化,站点缓冲区内建成环境变化,住户数改变,就业特征改变所导致的用户需求变化。
2.根据权利要求1所述的一种共享电动汽车站点用户需求预测方法,其特征在于,所述步骤(1)中外部因素数据包括区域内土地利用特征变量、住户数数据、就业特征数据、交通模式数据和道路网络数据;其中
就业特征数据为公司企业的信息数据,包括地理坐标、名称和地址;
交通模式数据为地铁站点、公交站点的信息数据,包括地理坐标与名称;
土地利用特征变量包括旅游景区、政府机构、金融服务、商业大厦、零售行业、宾馆酒店、医疗服务、教育服务、休闲娱乐、公园广场、餐饮服务、综合服务的信息数据,包括地理坐标和名称;
道路网络数据包括路网及交叉口数据的矢量图数据;
住户数数据为研究区域内的居民住户数信息数据,包括研究区域内所有住宅单位住户数信息和各住房建筑坐标信息在后续数据处理中将住宅单位总住户数平均分配至各栋楼房中。
3.根据权利要求1所述的一种共享电动汽车站点用户需求预测方法,其特征在于,所述步骤(2)中共享电动汽车站点实时数据包括时间,站点编号,站点坐标,站点泊位数与站点内现有停放车辆的实时信息,车辆实时信息包括车辆车牌号与剩余电量。
4.根据权利要求1所述的一种共享电动汽车站点用户需求预测方法,其特征在于,所述步骤(3)中将得到的外部因素数据和共享电动汽车站点实时数据通过数据初步处理子系统中的Python模块和ArcGIS模块进行初步处理,从而得到缓冲区内外部因素数据、站点泊位数数据和共享电动汽车出行数据的具体步骤如下:
(3.1)以研究区域内的共享电动汽车站点位置为圆心,站点一公里半径范围内缓冲区为研究对象,利用ArcGIS软件将各个站点的缓冲区位置投影到地图上,形成可视化图像;再利用ArcGIS软件将站点缓冲区图层与目标外部因素的图层相交以统计缓冲区范围内的外部因素数据;
(3.2)提取共享电动汽车出行数据基于步骤(3.1)所得的站点实时数据,识别连续样本中共享电动汽车的位置变化信息,依据站点变化信息提取研究时间内所有共享电动汽车的所有出行数据;
(3.3)遍历共享电动汽车站点实时数据中的所有样本,提取站点编号和站点泊位数数据,依据站点编号进行去重处理,得到研究区域内所有站点的泊位数数据。
5.根据权利要求4所述的一种共享电动汽车站点用户需求预测方法,其特征在于,所述步骤(3.1)中将得到的外部因素数据通过的Python模块和ArcGIS模块进行初步处理得到缓冲区内外部因素数据的具体步骤如下:
(3.1.1)在现有交通图内导入获取的共享电动汽车站点数据;导入路网数据、交叉口数据、住户数据、以及其他相关的POI数据,每一类数据保存为一个独立的shapefile图层,原表格中的所有字段结构导入后保持不变,数据也保持不变;
(3.1.2)导入的数据均具有经纬度字段,统一采用GCS_WGS_1984地理坐标系对导入的数据在地图上进行投影;
(3.1.3)以共享电动汽车站点数据图层内所有记录作为输入要素,以缓冲区半径为1000m生成缓冲区,结果保存为新的图层,该缓冲区表示站点所影响的范围;
(3.1.4)将新生成的站点1000m缓冲区与待统计的数个需统计的POI图层逐个做相交操作,得到数个对应不同待统计量的新图层,接下来按照不同变量的需求以不同方法进行统计。
6.根据权利要求4所述的一种共享电动汽车站点用户需求预测方法,其特征在于,所述步骤(3.2)中将得到的共享电动汽车站点实时数据通过Python模块和ArcGIS模块进行初步处理得到共享电动汽车出行数据的具体步骤如下:
(3.2.1)遍历所有样本数据,提取每一条样本数据中的共享电动汽车车牌号信息后进行去重,得到研究区域内所有共享电动汽车的车牌号信息;
(3.2.2)基于Python编程,以每一辆车的车牌号为索引,遍历所有样本数据,当检测到时间连续的样本中车辆所在的站点位置变化时,提取车辆离开与到达的站点以及相应的时间即车辆的出发与到达时间误差在1min内,以每一次出行OD为样本形成JSON格式车辆出行数据;
(3.2.3)基于步骤(3.2.2)所得数据,利用python编程提取所有站点编号,去重后得到研究区域内所有站点的编号数据,然后遍历所有OD出行数据样本,统计共享电动汽车在研究时间内的每个站点的出发量与吸引量,形成xlsx格式数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566471.3A CN109840272B (zh) | 2018-12-19 | 2018-12-19 | 一种共享电动汽车站点用户需求预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566471.3A CN109840272B (zh) | 2018-12-19 | 2018-12-19 | 一种共享电动汽车站点用户需求预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109840272A CN109840272A (zh) | 2019-06-04 |
CN109840272B true CN109840272B (zh) | 2023-10-27 |
Family
ID=66883285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811566471.3A Active CN109840272B (zh) | 2018-12-19 | 2018-12-19 | 一种共享电动汽车站点用户需求预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109840272B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110660219A (zh) * | 2019-09-29 | 2020-01-07 | 百度在线网络技术(北京)有限公司 | 停车场停车预测方法和装置 |
CN112132622B (zh) * | 2020-09-25 | 2021-07-16 | 北京达佳互联信息技术有限公司 | 数据预估方法及装置 |
CN113393030A (zh) * | 2021-06-11 | 2021-09-14 | 上海钧正网络科技有限公司 | 车辆运营区域潜力站点选址方法、系统、终端及介质 |
CN114676940B (zh) * | 2022-05-27 | 2022-08-26 | 四川瑞康智慧能源有限公司 | 商业旅游区购电量预测方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876056A (zh) * | 2018-07-20 | 2018-11-23 | 广东工业大学 | 一种共享自行车需求量预测方法、装置、设备及存储介质 |
-
2018
- 2018-12-19 CN CN201811566471.3A patent/CN109840272B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876056A (zh) * | 2018-07-20 | 2018-11-23 | 广东工业大学 | 一种共享自行车需求量预测方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
Exploring Spatially Varying Influences on Metro-Bikeshare Transfer: A Geographically Weighted Poisson Regression Approach;Yanjie Ji 等;《Sustainability》;20180511;第10卷(第5期);第1-23页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109840272A (zh) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840272B (zh) | 一种共享电动汽车站点用户需求预测方法 | |
Schirmer et al. | The role of location in residential location choice models: a review of literature | |
CN105677804B (zh) | 权威站点的确定以及权威站点数据库的建立方法和装置 | |
Choi et al. | An analysis of Metro ridership at the station-to-station level in Seoul | |
CN109544690B (zh) | 共享单车出行影响因素识别方法、系统及存储介质 | |
Guo et al. | Efficiency assessment of transit-oriented development by data envelopment analysis: Case study on the Den-en Toshi line in Japan | |
Bao et al. | Spatial analysis of bikeshare ridership with smart card and POI data using geographically weighted regression method | |
CN110134865B (zh) | 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台 | |
Diao et al. | Vehicle miles traveled and the built environment: Evidence from vehicle safety inspection data | |
CN114548811B (zh) | 一种机场可达性的检测方法、装置、电子设备及存储介质 | |
CN112488419B (zh) | 基于od分析的客流分布预测方法、装置、设备及存储介质 | |
Zwick et al. | Ride-pooling efficiency in large, medium-sized and small towns-simulation assessment in the munich metropolitan region | |
Bikdeli et al. | Accessibility modeling for land use, population and public transportation in Mashhad, NE Iran | |
CN115034429A (zh) | 基于深度图神经网络的城市出租车接客点推荐方法 | |
CN110309953B (zh) | 采用目标流动性分布预测的城市安防监控布局系统及方法 | |
CN111008730B (zh) | 基于城市空间结构的人群聚集度预测模型构建方法及装置 | |
CN110659774A (zh) | 大数据方法驱动的停车需求预测方法 | |
CN109447352A (zh) | 一种公交出行od矩阵反推的组合方法 | |
Thamrongsrisook | The Influence of Rapid Transit Systems on Condominium Prices in Bangkok: A Hedonic price model approach | |
CN113380071A (zh) | 一种面向大型综合体的车位级停车需求状态评价方法 | |
Sarsam | Modeling household trip generation for selected zones at Al-Karkh Side of Baghdad City | |
Celiński et al. | Sustainable development of the transport system through rationalization of transport tasks using a specialised travel planner | |
Jonker | Modelling the trip length distribution of shopping trips from GPS data | |
Wilson et al. | Comparing apples with apples: how different are recent residential development patterns in Portland and Charlotte? | |
Berres et al. | Generating traffic-based building occupancy schedules in Chattanooga, Tennessee from a grid of traffic sensors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |