CN117436653A - 一种网约车出行需求的预测模型构建方法和预测方法 - Google Patents

一种网约车出行需求的预测模型构建方法和预测方法 Download PDF

Info

Publication number
CN117436653A
CN117436653A CN202311433600.2A CN202311433600A CN117436653A CN 117436653 A CN117436653 A CN 117436653A CN 202311433600 A CN202311433600 A CN 202311433600A CN 117436653 A CN117436653 A CN 117436653A
Authority
CN
China
Prior art keywords
data
grid
network
prediction
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311433600.2A
Other languages
English (en)
Inventor
曹衍
徐鹏
曾飞翔
苟胜国
王小标
成勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PowerChina Guiyang Engineering Corp Ltd
Original Assignee
PowerChina Guiyang Engineering Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PowerChina Guiyang Engineering Corp Ltd filed Critical PowerChina Guiyang Engineering Corp Ltd
Priority to CN202311433600.2A priority Critical patent/CN117436653A/zh
Publication of CN117436653A publication Critical patent/CN117436653A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种网约车出行需求的预测模型构建方法,包括:样本数据采集,生成多维数据矩阵;其中,样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据;多维数据矩阵的结构为:时段数×基本格网数×变量因子个数,变量因子包括因变量和解释变量;样本数据筛选,从多维数据矩阵中提取候选特征数据集;从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集,构建训练集、测试集和验证集;加载预测模型,用特征数据集和标签数据集进行模型训练,构建网约车出行需求预测模型。通过本发明,可以提高出行预测准确性,摆脱了对前序时间切片数据的过度依赖,增强预测模型的典型性和不同区域适用性。

Description

一种网约车出行需求的预测模型构建方法和预测方法
技术领域
本发明涉及人工智能应用技术领域,具体而言,涉及一种网约车出行需求的预测模型构建方法和预测方法。
背景技术
随着网络通信技术和全球卫星定位技术发展,“互联网+”潮流的冲击对居民的交通出行带来了巨大改变,尤其是智能手机的普及,给网约车行业飞速发展增添了强劲动力。网约车出行以快速、舒适、便捷的特点近年来占据了大量的传统出租车市场份额。同时,由于城市化进程不断加快,交通拥堵、打车难、寻客难等交通城市病问题依然严重,网约车供给与乘客出行需求不匹配问题仍然困扰着供需双方。因此,需要一种技术方案,对不同区域居民网约车的出行需求进行快速、准确预测。
由于城市交通需求量突出的非平稳和非线性特征,简单线性模型在实际预测应用中具有较多的局限性,难以达到理想效果。参数模型基于一定的假设条件,模型参数通过数据计算得来,虽然需要的训练数据更少,但其对大数据中潜在信息挖掘仍然有限。因此,在目前的方案中基本上是基于非参数模型或组合改进模型对交通出行需求进行预测。从具体应用来看,在交通预测领域,长短期记忆(LSTM)网络、门控循环单元(GRU)结构的循环神经网络、时空网络(CSTN)、时空多图卷积网络(ST-MGCN)已应用在交通预测领域。
但由于地区间的差异性,居民的出行影响因素选择对模型预测精度有较大的影响,使区域网约车的出行特征和需求预测具有较大的复杂性和挑战性,现有对此领域的应用中还存在着以下一些问题:一是城市运行中产生了包括网约车轨迹数据、POI、路网交通等在内的海量时空大数据,这些数据较传统的人工统计数据具有更高的精度和适用性,而现有方法对多源数据的使用度不高,仅仅依靠单一的时间序列数据、气象或POI数据,数据价值信息有限,难以满足实际研究需求变量选择;二是在预测模型的特征数据集的处理不足:选择中仅通过相关性分析、普通线性回归等分析来筛选是不够的,城市的结构和不同区域特征对该地区网约车乘客数量有着很大影响,特征数据集的选取还应考虑影响变量间的空间异质性问题;三是现有预测模型训练过程中过度依赖前序时间数据,该方法虽然提高了该地区出行预测的精度和效率,但在不同区域间精度差别较大,导致模型适用性欠佳。
因此,需要一种技术方案,对现有的预测模型和特征数据进行优化,以适应多种复杂的多源时空环境,对多源时空环境的多种因素进行应用,提高出行需求预测模型的精度和适用性。
发明内容
为实现上述目的,本申请提供了一种网约车出行需求预测模型的构建方法,包括以下步骤:
样本数据采集,生成多维数据矩阵;其中,样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据;多维数据矩阵的数据来源为样本数据对应的变量因子,多维数据矩阵的结构为:时段数×基本格网数×变量因子个数,变量因子包括因变量和解释变量,因变量对应历史网约车订单数据的元素,解释变量对应建成环境数据和时序预测特征数据的元素;基本格网为特征统计的基本区域单元;
样本数据筛选,从多维数据矩阵中提取候选特征数据集;
从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集,构建训练集、测试集和验证集;标签数据集包括:用车开始时间段、用车开始经纬度、需求量;
加载预测模型,用网约车出行需求预测特征数据集和标签数据集进行模型训练,构建网约车出行需求预测模型。
其中,历史网约车订单数据包括订单开始时间、订单结束时间、订单开始经纬度、订单结束经纬度;
建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据;
时序预测特征数据包括:时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末。
网约车出行需求预测特征数据集包括:格网内POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水、是否高峰和是否周末。
进一步的,生成多维数据矩阵包括:
确定研究区;
在研究区内划分基本格网,确定基本格网的基础属性,包括:格网标识、格网经纬度;
根据所述样本数据的经纬度,匹配基本格网对应的变量因子;
对研究区的所有基本格网进行数据统计,生成多维数据矩阵;
其中,划分基本格网指根据经纬度从所述研究区内划分百米级的方形格网。
其中,对研究区的所有基本格网进行数据统计,包括数据融合处理;
数据融合包括:时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并;
数据融合用于将格网标识与时间字段、格网统计数据建立关联。
进一步的,样本数据筛选包括:相关性筛选、共线性检验和空间自相关检验;
相关性筛选指:获取所述多维数据矩阵中的解释变量与其他解释变量间的相关系数,从多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量,获取保留解释变量;
共线性检验指:采用方差膨胀因子获取保留解释变量的共线性值,删除共线性值大于指定共线性阈值的解释变量,更新保留解释变量;
空间自相关检验指:获取保留解释变量的全局莫兰指数,删除全局莫兰指数大于指定系数阈值的解释变量,获取保留解释变量,所述保留解释变量构成候选特征数据集。
执行样本数据筛选后,还通过空间分析模型对候选特征数据集执行空间异质性筛选,更新候选特征数据集。
其中,空间分析模型支持MGWR模型和GWR模型;
MGWR模型的公式为:
其中:yi为位置i处的属性值、bwj为第j个变量回归系数使用的带宽、(ui,vi)为位置i处的中心坐标、βbwj(ui,vi)为i处第j个变量的回归系数、β0(ui,vi)和εi分别为模型在i处的截距和误差项。
其中,预测模型为基于Encoder-Decoder框架的混合神经网络模型,由卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建构成。
另一方面,本发明提供了一种网约车出行需求的预测方法,包括:
加载网约车出行需求预测模型,该网约车出行需求预测模型通过本发明提供的预测模型构建方法构建;
指定待测区域格网标识,提取格网标识对应的建成环境数据和时序预测特征数据,构成待测区域的格网统计数据;
向网约车出行需求预测模型输入格网统计数据,获取预测结果,预测结果为指定格网对应的预测时间段、用车起点经纬度、预测需求量。
在本发明中,将城市环境的设施多样性、交通可达性、人口密度、房价等特征加入出行预测要考虑的因素,充分整合多种数据,通过数据清洗、相关性分析、空间自相关检验等预处理操作,划分和关联统计单元,构成预测模型的数据集,加入结构改进后的CNN-LSTM模型,构建网约车出行需求预测模型,由于训练数据的多样性、完整性和数据处理的优化,较现有技术方案,大大提高了出行预测准确性,摆脱了对前序时间切片数据的过度依赖,增强了预测模型的典型性和不同区域适用性。
附图说明
图1是根据本发明实施例提供的网约车出行需求预测模型的构建方法流程图;
图2是根据本发明实施例提供的网约车出行需求预测模型的数据流向示意图;
图3是根据本发明实施例提供的网约车出行需求预测模型处理数据流程图;
图4是根据本发明实施例提供的网约车出行需求预测模型结构示意图;
图5是根据本发明实施例提供的研究区内部分建成环境数据示例图;
图6是根据本发明实施例提供的研究区格网划分示意图;
图7是根据本发明实施例提供的模型真实值与预测值对比示例图;
图8是根据本发明实施例提供的真实值与预测值对比误差分布示例图;
图9是根据本发明实施例提供的某预测时间段网约车需求量预测结果;
图10是根据本发明实施例提供的MGWR模型输入界面示例;
图11是根据本发明实施例提供的MGWR模型输入数据矩阵结构。
具体实施方式
交通流预测的定义,即基于历史和实时交通数据来预测未来时段某一区域的一种交通状态。这些状态包括车辆密度、车辆速度、行车流量和用户行为等,而这些都属于典型的时间序列短时预测问题;相较于交通流预测,出行需求预测主要为预测下一时间段某一区域内的交通需求量,主要解决的是需求调度问题;从预测方法上来说,目前需求预测的模型主要分为三类:简单线性模型(如瞬时旅行时间模型、历史平均值模型等)、参数模型(如卡尔曼滤波、自回归移动平均模型等)和非参数模型(如神经网络模型、支持向量机模型、贝叶斯网络模型等)。
在此基础上,本发明采用城市POI数据,针对城市环境的设施多样性、交通可达性、人口密度、房价等多个建成环境变量作为影响网约车载客出行的候选因素,通过数据清洗、相关性分析、空间自相关检验等预处理工作,划分小尺度研究格网作为网约车需求量和建成环境变量的统计单元,利用多尺度地理加权回归模型(MGWR模型)作为变量筛选器,从中选择对预测结果起最佳作用的建成环境变量、时段特征时序变量,在将其输入到参数改进后的CNN-LSTM模型中,经选取优化器算法训练优化,当模型测试值与验证值间误差最小,即模型评价指标达到最佳值时,成功构建网约车出行需求预测模型,并可通过网约车出行需求预测模型获取网约车需求预测结果。
下面结合说明书附图对本发明的具体实现方式做详细描述。
图1是本发明实施例提供的网约车出行需求预测模型的构建方法流程图,如图所示,包括以下步骤:
步骤S100:样本数据采集,生成多维数据矩阵;样本数据至少包括历史网约车订单数据、建成环境数据和时序预测特征数据;
S101:历史网约车订单数据包括订单号、订单开始时间、订单结束时间、订单开始经纬度和订单结束经纬度;
原始网约车数据量庞大冗杂,在本步骤中,对网约车订单轨迹数据进行预处理,具体包括数据格式转换、数据库存入、冗余与错误数据删除、坐标转换、可视化处理、域外数据删除、时间戳转换与分段等。
预处理完后的样本数据至少包含订单号、订单开始时间、订单结束时间、订单开始经度、订单开始纬度、订单结束经度、订单结束纬度等属性字段;
本申请中提供实施例:某地2016年11月1日至11月30日共30天,网约车原始订单数据,其总量超700万条,订单原始数据范例如下表所示:
其中,订单开始时间、订单结束时间可构成用车开始时间段,订单开始经度、订单开始纬度构成用车开始经纬度,用车开始时间段内的订单数量,可统计为需求量。
S102:建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据;
原始POI数据(互联网电子地图中的点类数据,基本包含名称、地址、坐标、类别四个属性)分类复杂,在建成环境数据的处理过程中,经过冗余数据删除、研究区域内数据提取和坐标转换等工作,对原始POI数据保留餐饮、购物、生活服务、公司企业、金融保险、科教文化、商务住宅、体育休闲、医疗保健、政府机构、风景名胜、住宿服务等POI有效数据,还增加建成环境中的内部交通枢纽数据、外部交通枢纽数据、路网数据、人口数据、房价数据、建筑物平面数据、区域设施多样性数据,对以上数据进行数值计算、坐标转换、缓冲区分析、分区统计等预处理操作。
S103:时序预测特征数据包括:时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末等信息。
在对网约车出行需求预测特征数据集的考虑中,除了建成环境变量对网约车造成空间上的影响外,出行需求预测研究还要考虑具有时序特征的因素,例如,居民出行需求会受到天气状况的影响,恶劣天气情况会降低居民的非刚性出行需求,同时增加居民打车出行的概率。因此,样本数据中除了建成环境变量外,还加入了天气气象信息中的气温、相对湿度、风速、降水变量和是否高峰时段、是否周末等信息。
部分时序预测特征数据如下表所示:
时间id 气温(℃) 相对湿度(%) 风速(m/s) 降水量(mm)
1101_9 15.0 77 0 0
1101_10 16.0 77 1 0
1101_11 16.0 77 1 0
1101_12 17.0 73 2 0
1101_13 17.0 73 3 0
以上三种样本数据构成多维数据矩阵的变量因子,以上数据的采集和处理的样本数据的内容构成多维数据矩阵的数据来源。
进一步的,建立多维数据矩阵的步骤包括:
1)确定研究区,即确定需要进行预测的区域,例如某城市地图的一部分,在研究区内的部分建成环境数据示意如图5所示;
2)在研究区内划分基本格网,确定基本格网的基础属性,包括:格网标识、格网经纬度;
基本格网是为筛选和构建网约车出行预测模型的特征数据集建立的基本区域单元,基本格网与研究区关系,经可视化的展示如图6所示。
基本区域单元的划分可以有多种方式,如邮政编码制表区(ZCTA)和普查块组(CBG)。然而,过大的研究网格与居民出行的真实出行状况并不匹配,容易导致模型结果缺乏真实性。本发明中,根据经纬度从研究区内划分百米级的方形格网,以实现划分基本格网。由于该基本格网通过经纬度划分,该基本格网可基于经纬度进行确定。
在具体实现中,格网的大小可以根据实际需求和数据进行调整;在本发明的范例中,基于建成环境数据和POI数据的粒度考虑,对用户体验格网的划分单位采用百米级,以百米级为单位的数据分析,可精准可靠的捕捉网约车的出行时空特征并消除噪声数据的影响。
3)由于基本格网可基于经纬度进行确定,则可根据样本数据的经纬度,匹配所述基本格网对应的变量因子;
本发明实施例中,在研究区内构建了200m x 200m的研究格网,共计4662个(如图6所示),作为时空特征和影响因素分析研究的基本单元,并对网约车订单量和建成环境变量进行空间格网统计,统计结果如下表所示:
4)对研究区的所有基本格网进行数据统计,生成多维数据矩阵;
本步骤中,单一格网作为建成环境变量和网约车出行订单量的基本单元,进行空间格网统计,得到每个格网在不同时段内网约车订单量及建成环境变量中每个因子的统计量,单格网中因变量、解释变量共计20个。
建成环境数据在研究区中的体现,可如图5所示,在研究区中加入基本格网后,则需要将各格网的对应的建成数据按格网的区域从研究区图层中进行分离、按时间进行分类、按时间和格网位置进行统计和关联等,因此本步骤中对研究区的基本格网的处理,还需要将格网标识与时间字段、格网统计数据建立关联,即进行数据融合处理,具体包括:时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并等。
每个单格网中因变量、解释变量构成多维数据矩阵。
多维数据矩阵的结构为:时段数×基本格网数×变量因子数,变量因子包括因变量和解释变量;具体而言,因变量对应历史网约车订单数据的元素,解释变量对应建成环境数据的元素,如本例中的解释变量包括餐饮、购物、生活服务等项目的具体数据。
步骤S110:样本数据筛选,即:从多维数据矩阵中提取候选特征数据集;样本数据筛选包括:相关性筛选、共线性检验和空间自相关检验;
S111相关性筛选指:获取多维数据矩阵中的解释变量与解释变量间的相关系数,从多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量,被保留解释变量可进入下一步骤的样本数据筛选;
一般来说,由于影响因素的变量间存在一定的相关性,在将这些变量进行多尺度地理加权回归前,需要对已有的变量进行相关性分析,分析其自身与其他变量间的相关性,并对强相关变量进行舍弃。
在本发明中,可采用Pearson相关性分析,将相关系数r的绝对值等于0.7、0.5、0.3时,分别将其划分为强相关、中度相关和相关,并将强相关及以上的元素进行删除,如将相关系数大于等于0.7的强相关变量进行删除,保留其它正常相关的解释变量。本实施例中部分解释变量相关性分析结果如下表所示:
A B C D E F G H
A 1
B .370×× 1
C .639×× .379×× 1
D .211×× .139×× .209×× 1
E .305×× .260×× .318×× .537×× 1
F .334×× .222×× .354×× .446×× .416×× 1
G .480×× .239×× .440×× .298×× .331×× .358×× 1
H .487×× .311×× .444×× .235×× .334×× .443×× .283×× 1
注:A:餐饮;B:购物;C:生活服务;D:公司企业;E:金融保险;F:科教文化;G:商务住宅;H:体育休闲
S112共线性检验:此时,多维数据矩阵中的解释因子已经过相关性筛选,在本步骤中,采用方差膨胀因子(VIF)获取保留的解释变量的共线性值,删除共线性值大于指定共线性阈值的解释变量,经此步骤仍保留解释变量可进入下一步骤筛选;
执行共线性检验时,为进一步检验影响各解释变量间的共线性,需要对剩余解释变量进行回归分析,本发明中,当VIF大于10时,认为该变量与其它变量间存在着较强的共线性,需要对该变量进行去除。
本发明实施例提供解释变量共线性检验示例如下表所示:
S113空间自相关检验:此时,多维数据矩阵中的解释因子已经过相关性筛选和共线性检验,本步骤中,对获取保留解释变量的全局莫兰指数,删除全局莫兰指数大于指定系数阈值的解释变量,在此基础上保留下来的解释变量构成候选特征数据集,实现空间自相关检验。
网约车出行需求的分析基于地理学的建成环境,在地理学中,任何事物与其周围事物都具有一定的相关性,靠的越近的事物相关性越强。因此增加各解释变量间的空间自相关关系进行检验,以判断某一位置的物体与其相邻同类物体之间是否存在相关或依赖关系,通过空间自相关系数量化具有空间位置信息的分析对象之间的相关程度或依赖程度。以分析对象的范围进行划分,空间自相关可分为全局空间自相关和局部空间自相关。根据分析对象在整个研究区域的分布,全局自相关可以判断对象是否存在空间聚集现象,从而确定整个对象是否呈现空间自相关特征。
由于地理位置接近,网约车出行次数的变化与空间存在一定相关性。全局莫兰指数(Moran's I)用于衡量相关性,其中Z值表示变量在空间上呈正相关或负相关的关系,P值则表征所观测的空间分布是由某一随机过程而发生的概率,P值越接近0说明空间分布越有关联,空间的聚集特征就越明显。
在本申请提供的实施例中解释变量空间自相关检验示例如下表所示,结果可知,研究所选的解释变量都具有一定的空间自相关性,且都为空间正相关,空间集聚状态明显,符合模型的构建条件。
变量 莫兰指数 Z值 P值
餐饮 0.3606 34.5900 0.0000
购物 0.1364 13.3458 0.0000
生活服务 0.3846 36.9669 0.0000
公司企业 0.2971 28.6769 0.0000
金融保险 0.2766 26.5892 0.0000
科教文化 0.3256 31.3026 0.0000
商务住宅 0.5910 56.6735 0.0000
体育休闲 0.2748 26.4161 0.0000
医疗保健 0.3467 33.4013 0.0000
政府机构 0.2114 20.3212 0.0000
风景名胜 0.2544 25.8298 0.0000
住宿服务 0.3392 34.6380 0.0000
区域设施多样性 0.1608 15.4217 0.0000
内部交通枢纽 0.0385 3.7094 0.0002
道路 0.3584 34.3704 0.0000
人口 0.6968 67.2401 0.0000
房价 0.9152 87.7172 0.0000
建筑物 0.5797 55.5565 0.0000
S114通过空间分析模型对候选特征数据集执行空间异质性筛选;
将经过相关性分析、共线性检验、空间自相关检验的多维数据矩阵输入到空间分析模型,进行空间异质性筛选;此时模型输入数据集为时段数×格网数×变量个数的多维数据矩阵(如图11所示)。
普通线性模型能够在全局尺度上反映城市建成环境对网约车出行订单量的影响,可以初步验证建成环境与网约车出行的相关关系。但在现实生活中,由于城市各地区的区划、功能等经济水平上的差别,影响因素对因变量的影响程度在每个区域并不一致,同一变量在不同区域上对因变量可能有不同程度甚至相反的影响;因此,在本步骤中捕捉各变量在不同区域空间中的空间异质性作用,得到不同时段的空间分析模型回归结果,并对拟合优度最好的时段模型进行筛选,提取显著的建成环境变量作为预测模型的候选特征数据集。
在地理研究中,空间异质性也是“地理学第二定律”的直接体现。在空间分析模型中,空间异质性表现为在模型的数据样本中融合空间位置信息后,自变量和因变量的系数估计值会随着模型中空间数据的位置不同而拟合出不一样的结果,这种空间过程的异质性也被称为空间非平稳性。一般来说,空间分析模型可采用MGWR(多尺度地理加权回归模型)或者GWR(地理加权回归模型)。
MGWR相较GWR而言,在对空间异质性问题处理过程中,其允许每个解释变量拥有各不相同的空间平滑尺度,使得每个解释变量的带宽可以直接反映各空间过程的空间作用范围,这种多带宽尺度的方法能够产生更接近真实、可靠的空间过程模型,有效避免GWR模型中解释变量都处于同一平滑水平的缺陷,降低了模型估计的误差。
模型参数设置中,由于研究区选用的是固定网格作为研究单元,各网格的区域中心在空间上具有一致的均衡性,所以带宽采用固定带宽、空间权函数采用高斯核函数来对模型进行构建。在其他一些参数设置上,带宽搜寻方法选择黄金分割法,模型选择为高斯函数,模型优化准则指标为AICc,并将残差平方和的变化比例作为收敛准则。
MGWR模型的公式为:
其中:yi为位置i处的属性值、bwj为第j个变量回归系数使用的带宽、(ui,vi)为位置i处的中心坐标、βbwj(ui,vi)为i处第j个变量的回归系数、β0(ui,vi)和εi分别为模型在i处的截距和误差项。
MGWR模型的每个回归系数βbwj都是经过局部回归得到的,这一点与经典GWR模型相同。同时,MGWR模型的核函数和带宽选择与GWR模型一致,本发明采用高斯核函数和更正的赤池信息准则(AICc)。带宽的异质性是MGWR模型与GWR模型主要的差别,可将GWR模型作为广义加性模型(GAM)来实现。GAM采用后退拟合算法来拟合各个平滑项:先对所有的平滑项进行初始化设置,再以经典GWR作为初始估计,再计算出真实值与预测值之间的差值,即得到初始化残差,公式如下:
残差加上第一个加性项/>与第一个自变量x1上进行经典GWR回归,找到最优的带宽bw1和一列新的参数估计/>和/>来替换之前的估计。然后残差加上第二个加性项/>与第一个自变量x2回归并更新第二个变量的参数估计/>和/>以此类推,重复进行直到最后一个自变量xk。以上整体为一步,重复直到估计收敛到收敛准则为止。研究采用经典的残差平方和变化比例(RSS)作为收敛准则:
式中:RSSold代表上一步残差平方和;RSSnew代表这一步残差平方和。
MGWR模型通过R2、AICc、RSS和有效参数量(ENP)4个指标来对比不同时段模型结果的有效性和精确性。其中,AICc、RSS和ENP值越小,说明模型拟合精度更高、模型估计值与真实值间的误差更小,同时也说明模型用更少的参数得到了更接近真实值的回归结果。
本发明中的MGWR模型分析可通过工具实现,具体的,MGWR输入界面如图10所示:Data Files为输入的excel表格数据,ID、x、y分别为单元格网序号、格网中心点经度、格网中心点纬度,选择投影坐标Projected,模型选择MGWR。
在模型回归的核心参数设置中,由于研究区选用的是固定网格作为研究单元,各网格的区域中心在空间上具有一致的均衡性,所以空间核函数Spatial Kernal采用固定带宽的高斯核函数来对模型进行构建。在变量列表中Variable List中列出了表中的所有变量字段,从中选取一个日期时段下的历史网约车订单量作为因变量Y,选择通过模型检验的其它变量作为解释变量Local。在其它参数设置上,带宽搜寻方法Bandwidth Searching选择黄金分割法,模型选择为高斯函数,模型优化准则指标为AICc,并将残差平方和的变化比例作为收敛准则。
MGWR和GWR的分析效果对比,如下表所示:
本步骤中,对回归结果中的显著解释变量进行筛选后,作为网约车出行预测模型的候选特征数据集,如下表所示:
图2提供了本发明的数据从采集、预处理、分析、分类、筛选的完整数据走向过程,简单来说,即收集网约车订单数据、POI数据、交通枢纽数据、路网数据、人口、房屋数据等环境信息,进行时空插值、数据清洗、匹配检查、拓扑查错、坐标转换等叠加分析手段,构成建成环境变量;对建成环境变量进行多次筛选,以保留显著性解释变量,以多维数据矩阵结构的形式,作于本发明预测模型的训练数据集。
步骤S120:从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集,构建训练集、测试集和验证集;标签数据集包括:用车开始时间段、用车开始经纬度、需求量;
经步骤S110最终生成的环境变量、时序特征数据作为网约车出行需求预测特征数据集,包括:格网内各POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水,以及交通高峰期状态和周末状态,特征数据集的含义和定义具体如下表所示:
步骤S130:加载预测模型,用所述训练集、测试集和验证集进行模型训练,构建网约车出行需求预测模型;
首先,如步骤S131所示,设计预测模型结构,并加载该预测模型:
本发明采用的预测模型为基于Encoder-Decoder框架的混合神经网络模型:该模型,将卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建的方法实现研究区内网约车的出行需求预测,该模型不仅能够捕捉网约车受空间变量影响的空间特征,还具备对时序变化数据的模拟预测能力,并实现了对数据的时空变化规律进行更好的捕捉。
具体来说:
1、在CNN模块,除了输入层和输出层,核心结构还包含卷积层、池化层和全连接层:
1)卷积层主要通过控制卷积核的窗口大小对数据进行滑动采样,以此来完成对数据特征的提取,通过卷积核运算可以增强原始数据中的某些特征,降低数据中的噪声对结果的影响。网络中的卷积核特征提取公式如下所示,
其中:表示数据的第j个特征图谱,cj为卷积核,/>为上一层第n个特征图谱作为当前网络的输入,/>为偏置,/>为每一个特征图谱中的特征总数量;
2)池化层的则是负责对卷积后的数据特征进行降维,即用稀疏参数代替特征矩阵中部分数据。在保证特征数据不丢失的情况下,将特征矩阵中的有效信息进行相对融合,很好地解决了模型参数的堆积冗杂问题,有效降低网络的复杂度;
3)全连接层的主要作用是对卷积和池化后的特征向量维度进行调整,将模型的输出向量处理为合适的长度。卷积神经网络的全连接层和全连接神经网络类似,全连接层的输出公式如下所示,
其中:xi为上层神经元的输出同时也时全连接层的输入,Wi为各神经元间连接的权重系数,f()为激活函数,b为神经网络的偏置;
2、在LSTM模块,LSTM神经网络是传统循环神经网络(RNN)的一个改进模型,它通过在神经层中增加单元状态和门控机制来保留长时间序列的信息,克服了RNN训练过程中的梯度消失和梯度爆炸问题。LSTM网络结构的关键在于记忆单元的状态和穿过记忆单元的水平线,数据信息在水平线上传递、处理并随水平线存储在记忆单元中。而记忆单元可作为输入值函数,可以自适应时间的保留自身输出值,使得该单元能记住重要信息而并非最后输出结果。
总体来说,预测模型的结构如图4所示,其中采用CNN网络提取网格特征和标签数据的时空特征实现特征提取;在CNN部分,经过多次试验对比,模型最终由2层卷积层对输入数据的空间特征进行识别,2层卷积层的卷积核大小设置为(3,3),神经元分别为32和64,在两层卷积中,每个神经元间都采用ReLU来作为激活函数;接着,由一个最大池化层对复杂参数进行简化处理,步长为2;压平层将多维的特征数据进行降维,以对数据集中的特征进行精炼提取;最后重复层的作用是将压平后的变量重复输入n次到LSTM层中,作为CNN和LSTM的连接层,以增强LSTM的时序捕捉能力。在时序特征捕捉预测模块,主要由LSTM和FC层组成,内部包含三个隐藏层:第一个隐藏层是LSTM结构,该LSTM层含有64个神经元,门控系统的激活函数采用Sigmoid函数,记忆单元与神经元内部连接部分以Tanh函数作为激活函数;第二、三个隐藏层是全连接层,两个全连接层分别包含64和128个神经元,每个神经元间仍然采用ReLU作为激活函数。为避免神经网络层数过深或神经元数量太多而产生过拟合问题,在两个全连接层后都分别增加了一个Dropout层来防止过拟合问题,以提升模型的泛化能力,两个Dropout比例分别设为0.2和0.3。
预测模型计算过程具体为:
第一步,通过遗忘门来限制无用的隐藏信息,控制对前一历史时刻的哪些隐藏层信息进行遗忘;
遗忘门通过识别t-1时刻的隐藏状态和t时刻的输入Xt,对单元中的每个元素都采用Sigmoid函数作用来控制上一历史时刻哪些信息量需要被遗忘,并对现在的单元状态进行更新保存。
具体体现为:ft=σ(Wf×[ht-1,xt]+bf),其中,ft为遗忘门输出结果,σ为门控函数Sigmoid,Wf为遗忘门神经网络参数矩阵,bf为t时刻的偏置,Xt为t时刻对应特征数据和标签数据;
第二步,输入门来控制添加有用的输入信息,决定着当前时刻输入的有效信息量。
输入门中主要有两个输入:第一个输入由t-1时刻的隐藏状态和t时刻的输入Xt共同作用,再通过Sigmoid函数来决定需要更新哪些信息,即将t-1时刻识别的数据特征和t时刻的数据作为共同输入,进入下一步迭代运算。
输入门的输出状态公式如下所示:
it=σ(Wi×[ht-1,xt]+bi),
其中,it为输入门输出结果,σ为门控函数Sigmoid,Wi为输入门神经网络参数矩阵,bi为t时刻的偏置。
第二个输入由Tanh门生成一个被选进入单元状态信息的向量,决定将输入中的哪些信息添加到当前状态,添加后的当前单元状态Ct公式如下所示:
Ct=Tanh(WC×[ht-1,xt]+bC),同时考虑遗忘门的输出状态ft、输入门的输出转态it和前一历史时刻的单元状态Ct-1,将其进行卷积求和等操作,以对当前的单元状态进行更新。更新后的Ct输出结果公式如下所示:
Ct=ftCt-1+itCt
其中:Ct为当前单元状态,WC为当前单元状态的参数矩阵,bC为当前单元矩阵的偏置,Sigmoid和Tanh均为激活函数,ht-1为t-1时刻的神经网络识别出的数据特征,Xt为网约车出行需求预测特征数据集中t时刻数据;
第三步,输出门通过采用Tanh函数与当前单元状态进行卷积的方式,决定输出哪些有效信息。此处主要有三个过程:首先,通过一个Sigmoid函数来决定输出哪些单元状态信息,然后通过Tanh把单元状态进行转换,最后将其乘以和Sigmoid的输出信息,得到最终的输出ht,计算公式如下所示:
Qt=σ(WO×[ht-1,xt]+bO),ht-1=Ot×Tanh(Ct),其中W和b为对应的神经网络参数矩阵和偏置;
第四步:经过三个门控系统的综合作用,最终得到的输出结果:
f(t)=σ(Wf×(Mt,Xt-1)+bf)×ft-1+Tanh(Wi×(Mt,Xt-1)+bi)×σ(WO×(Mt,Xt-1)+bO)
其中,Xt-1为LSTM前一个历史时刻的反馈信息,Wf、Wi、WO分别为遗忘门、输入门和输出门的参数矩阵,bf、bi、bO为遗忘门、输入门和输出门的偏置。
其次,如步骤S130中,通过网约车出行需求预测特征数据集对网约车出行需求预测模型进行模型训练:
本步骤中,设置训练集、验证集、测试集比例分别为8:1:1,训练优化器选用Adam,初始学习率设置为0.001,batch_size值设为512,训练次数140次,模型预测结果精度评价指标分别为MSE、MAE和R2,其它重要超参数设置如下表所示:
基于训练、测试和验证过程,获取预测模型的最佳参数,网约车出行需求预测模型构建完成。
该模型的预测结果结合基本格网的信息,支持可视化的方式展示,展示结果如图9所示,其中a部分为网约车真实需求量,b部分为预测需求量。
与传统神经网络的模型相比,本发明提供的网约车出行需求预测模型,最后得到模型训练精度与可靠性均有较大的提升,与传统网络模型对比的训练精度比较结果如图7所示,误差分布对比结果如图8所示。
另一方面,本发明提供了一种基于网约车出行需求预测模型实现网约车出行需求预测的方法,包括:
加载网约车出行需求预测模型,该网约车出行需求预测模型通过本发明提供的预测模型构建方法构建;
指定待测区域格网标识,提取格网标识对应的建成环境数据和时序预测特征数据,构成待测区域的格网统计数据;
向网约车出行需求预测模型输入格网统计数据,获取预测结果,预测结果为指定格网对应的预测时间段、用车起点经纬度、预测需求量。
通过本发明提供的网约车出行需求预测的方法,用户仅需输入待测区域的格网统计数据,即可实现网约车短时出行需求的准确预测,降低用户入门门槛;同时,由于网约车出行需求预测的方法所依托的网约车出行需求预测模型在构建过程中对训练数据结构设计、筛选,对预测模型的结构选择,使模型的预测结果更准确。
因此,本发明具有较高的普适性,既能捕捉不同城市区域网约车的出行特征,又能准确、高效的得到网约车出行需求预测结果,具有较强的实用价值,为地方主管部门管理决策和城市交通的协调、高效运行提供参考。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种网约车出行需求的预测模型构建方法,其特征在于,包括以下步骤:
样本数据采集,生成多维数据矩阵;其中,所述样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据;所述多维数据矩阵的数据来源为样本数据对应的变量因子,所述多维数据矩阵的结构为:时段数×基本格网数×变量因子个数,所述变量因子包括因变量和解释变量,所述因变量对应历史网约车订单数据的元素,所述解释变量对应建成环境数据和时序预测特征数据的元素;所述基本格网为特征统计的基本区域单元;
样本数据筛选,从所述多维数据矩阵中提取候选特征数据集;
从所述候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集,构建训练集、测试集和验证集;所述标签数据集包括:用车开始时间段、用车开始经纬度、需求量;
加载预测模型,用所述特征数据集和标签数据集进行模型训练,构建网约车出行需求预测模型。
2.根据权利要求1所述的构建方法,其特征在于,所述历史网约车订单数据包括订单开始时间、订单结束时间、订单开始经纬度、订单结束经纬度;
所述建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据;
所述时序预测特征数据包括:时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末。
3.根据权利要求2所述的的构建方法,其特征在于,所述网约车出行需求预测特征数据集包括:格网内POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水、是否高峰和是否周末。
4.根据权利要求1所述的构建方法,其特征在于,所述生成多维数据矩阵包括:
确定研究区;
在所述研究区内划分基本格网,确定所述基本格网的基础属性,包括:格网标识、格网经纬度;
根据所述样本数据的经纬度,匹配所述基本格网对应的变量因子;
对所述研究区的所有基本格网进行数据统计,生成多维数据矩阵;
所述划分基本格网指根据经纬度从所述研究区内划分百米级的方形格网。
5.根据权利要求4所述的构建方法,其特征在于,
所述对所述研究区的所有基本格网进行数据统计,包括数据融合处理;
所述数据融合包括:时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并;
所述数据融合用于将格网标识与时间字段、格网统计数据建立关联。
6.根据权利要求1所述的构建方法,其特征在于,所述样本数据筛选包括:相关性筛选、共线性检验和空间自相关检验;
所述相关性筛选指:获取所述多维数据矩阵中的解释变量与其他解释变量间的相关系数,从所述多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量,获取保留解释变量;
所述共线性检验指:采用方差膨胀因子获取所述保留解释变量的共线性值,删除所述共线性值大于指定共线性阈值的解释变量,更新所述保留解释变量;
所述空间自相关检验指:获取所述保留解释变量的全局莫兰指数,删除所述全局莫兰指数大于指定系数阈值的解释变量,获取保留解释变量,所述保留解释变量构成候选特征数据集。
7.根据权利要求6所述的构建方法,其特征在于,执行所述样本数据筛选后,还通过空间分析模型对所述候选特征数据集执行空间异质性筛选,构成候选特征数据集。
8.根据权利要求7所述的构建方法,其特征在于,所述空间分析模型支持MGWR模型和GWR模型;
所述MGWR模型的公式为:
其中:yi为位置i处的属性值、bwj为第j个变量回归系数使用的带宽、(ui,vi)为位置i处的中心坐标、βbwj(ui,vi)为i处第j个变量的回归系数、β0(ui,vi)和εi分别为模型在i处的截距和误差项。
9.根据权利要求1所述的构建方法,其特征在于,所述预测模型为基于Encoder-Decoder框架的混合神经网络模型,由卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建构成。
10.一种网约车出行需求的预测方法,其特征在于,包括:
加载网约车出行需求预测模型,所述网约车出行需求预测模型通过如权利要求1所述的预测模型构建方法构建;
指定待测区域格网标识,提取所述格网标识对应的建成环境数据和时序预测特征数据,构成待测区域的格网统计数据;
向所述网约车出行需求预测模型输入所述格网统计数据,获取预测结果,所述预测结果为所述指定格网对应的预测时间段、用车起点经纬度、预测需求量。
CN202311433600.2A 2023-10-31 2023-10-31 一种网约车出行需求的预测模型构建方法和预测方法 Pending CN117436653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311433600.2A CN117436653A (zh) 2023-10-31 2023-10-31 一种网约车出行需求的预测模型构建方法和预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311433600.2A CN117436653A (zh) 2023-10-31 2023-10-31 一种网约车出行需求的预测模型构建方法和预测方法

Publications (1)

Publication Number Publication Date
CN117436653A true CN117436653A (zh) 2024-01-23

Family

ID=89547690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311433600.2A Pending CN117436653A (zh) 2023-10-31 2023-10-31 一种网约车出行需求的预测模型构建方法和预测方法

Country Status (1)

Country Link
CN (1) CN117436653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725764A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725764A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质
CN117725764B (zh) * 2024-02-07 2024-05-03 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质

Similar Documents

Publication Publication Date Title
CN109117883B (zh) 基于长短时记忆网络的sar影像海冰分类方法及系统
CN106951976B (zh) 一种基于模式分类的公交客流预测方法
CN110503104B (zh) 一种基于卷积神经网络的短时剩余车位数量预测方法
CN108986453A (zh) 一种基于情境信息的交通状况预测方法、系统及装置
Zhang et al. Traffic Accident Prediction Based on LSTM‐GBRT Model
Liang et al. A deep spatio-temporal fuzzy neural network for passenger demand prediction
CN111598325A (zh) 基于层次聚类和分层注意力机制的交通速度预测方法
CN113591380A (zh) 基于图高斯过程的交通流预测方法、介质及设备
CN113496314B (zh) 一种神经网络模型预测道路交通流量的方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法
Meng et al. Improving automobile insurance claims frequency prediction with telematics car driving data
CN113205698A (zh) 一种基于igwo-lstm的短时交通流预测的导航提醒方法
CN115564114A (zh) 一种基于图神经网络的空域碳排放短期预测方法及系统
CN105678406A (zh) 一种基于云模型的短期负荷预测方法
CN113988426A (zh) 一种基于fcm聚类和lstm的电动汽车充电负荷预测方法及系统
CN116797274A (zh) 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法
CN117233869B (zh) 一种基于GRU-BiTCN的站点短期风速预测方法
CN108053646B (zh) 基于时间敏感特征的交通特征获取方法、预测方法及系统
CN113988415A (zh) 一种中长期电力负荷预测方法
CN111985731B (zh) 城市公共交通站点人数的预测方法及系统
Niu et al. Precipitation forecast based on multi-channel ConvLSTM and 3d-CNN
CN117494034A (zh) 基于交通拥堵指数和多源数据融合的空气质量预测方法
CN115796030A (zh) 一种基于图卷积的交通流量预测方法
CN115565376A (zh) 融合graph2vec、双层LSTM的车辆行程时间预测方法及系统
CN115456238A (zh) 一种基于动态多视图耦合图卷积的城市出行需求预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination