CN117436653A

CN117436653A - 一种网约车出行需求的预测模型构建方法和预测方法

Info

Publication number: CN117436653A
Application number: CN202311433600.2A
Authority: CN
Inventors: 曹衍; 徐鹏; 曾飞翔; 苟胜国; 王小标; 成勇
Original assignee: PowerChina Guiyang Engineering Corp Ltd
Current assignee: PowerChina Guiyang Engineering Corp Ltd
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-23

Abstract

本发明公开了一种网约车出行需求的预测模型构建方法，包括：样本数据采集，生成多维数据矩阵；其中，样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据；多维数据矩阵的结构为：时段数×基本格网数×变量因子个数，变量因子包括因变量和解释变量；样本数据筛选，从多维数据矩阵中提取候选特征数据集；从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集，构建训练集、测试集和验证集；加载预测模型，用特征数据集和标签数据集进行模型训练，构建网约车出行需求预测模型。通过本发明，可以提高出行预测准确性，摆脱了对前序时间切片数据的过度依赖，增强预测模型的典型性和不同区域适用性。

Description

一种网约车出行需求的预测模型构建方法和预测方法

技术领域

本发明涉及人工智能应用技术领域，具体而言，涉及一种网约车出行需求的预测模型构建方法和预测方法。

背景技术

随着网络通信技术和全球卫星定位技术发展，“互联网+”潮流的冲击对居民的交通出行带来了巨大改变，尤其是智能手机的普及，给网约车行业飞速发展增添了强劲动力。网约车出行以快速、舒适、便捷的特点近年来占据了大量的传统出租车市场份额。同时，由于城市化进程不断加快，交通拥堵、打车难、寻客难等交通城市病问题依然严重，网约车供给与乘客出行需求不匹配问题仍然困扰着供需双方。因此，需要一种技术方案，对不同区域居民网约车的出行需求进行快速、准确预测。

由于城市交通需求量突出的非平稳和非线性特征，简单线性模型在实际预测应用中具有较多的局限性，难以达到理想效果。参数模型基于一定的假设条件，模型参数通过数据计算得来，虽然需要的训练数据更少，但其对大数据中潜在信息挖掘仍然有限。因此，在目前的方案中基本上是基于非参数模型或组合改进模型对交通出行需求进行预测。从具体应用来看，在交通预测领域，长短期记忆(LSTM)网络、门控循环单元(GRU)结构的循环神经网络、时空网络(CSTN)、时空多图卷积网络(ST-MGCN)已应用在交通预测领域。

但由于地区间的差异性，居民的出行影响因素选择对模型预测精度有较大的影响，使区域网约车的出行特征和需求预测具有较大的复杂性和挑战性，现有对此领域的应用中还存在着以下一些问题：一是城市运行中产生了包括网约车轨迹数据、POI、路网交通等在内的海量时空大数据，这些数据较传统的人工统计数据具有更高的精度和适用性，而现有方法对多源数据的使用度不高，仅仅依靠单一的时间序列数据、气象或POI数据，数据价值信息有限，难以满足实际研究需求变量选择；二是在预测模型的特征数据集的处理不足：选择中仅通过相关性分析、普通线性回归等分析来筛选是不够的，城市的结构和不同区域特征对该地区网约车乘客数量有着很大影响，特征数据集的选取还应考虑影响变量间的空间异质性问题；三是现有预测模型训练过程中过度依赖前序时间数据，该方法虽然提高了该地区出行预测的精度和效率，但在不同区域间精度差别较大，导致模型适用性欠佳。

因此，需要一种技术方案，对现有的预测模型和特征数据进行优化，以适应多种复杂的多源时空环境，对多源时空环境的多种因素进行应用，提高出行需求预测模型的精度和适用性。

发明内容

为实现上述目的，本申请提供了一种网约车出行需求预测模型的构建方法，包括以下步骤：

样本数据采集，生成多维数据矩阵；其中，样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据；多维数据矩阵的数据来源为样本数据对应的变量因子，多维数据矩阵的结构为：时段数×基本格网数×变量因子个数，变量因子包括因变量和解释变量，因变量对应历史网约车订单数据的元素，解释变量对应建成环境数据和时序预测特征数据的元素；基本格网为特征统计的基本区域单元；

样本数据筛选，从多维数据矩阵中提取候选特征数据集；

从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集，构建训练集、测试集和验证集；标签数据集包括：用车开始时间段、用车开始经纬度、需求量；

加载预测模型，用网约车出行需求预测特征数据集和标签数据集进行模型训练，构建网约车出行需求预测模型。

其中，历史网约车订单数据包括订单开始时间、订单结束时间、订单开始经纬度、订单结束经纬度；

建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据；

时序预测特征数据包括：时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末。

网约车出行需求预测特征数据集包括：格网内POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水、是否高峰和是否周末。

进一步的，生成多维数据矩阵包括：

确定研究区；

在研究区内划分基本格网，确定基本格网的基础属性，包括：格网标识、格网经纬度；

根据所述样本数据的经纬度，匹配基本格网对应的变量因子；

对研究区的所有基本格网进行数据统计，生成多维数据矩阵；

其中，划分基本格网指根据经纬度从所述研究区内划分百米级的方形格网。

其中，对研究区的所有基本格网进行数据统计，包括数据融合处理；

数据融合包括：时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并；

数据融合用于将格网标识与时间字段、格网统计数据建立关联。

进一步的，样本数据筛选包括：相关性筛选、共线性检验和空间自相关检验；

相关性筛选指：获取所述多维数据矩阵中的解释变量与其他解释变量间的相关系数，从多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量，获取保留解释变量；

共线性检验指：采用方差膨胀因子获取保留解释变量的共线性值，删除共线性值大于指定共线性阈值的解释变量，更新保留解释变量；

空间自相关检验指：获取保留解释变量的全局莫兰指数，删除全局莫兰指数大于指定系数阈值的解释变量，获取保留解释变量，所述保留解释变量构成候选特征数据集。

执行样本数据筛选后，还通过空间分析模型对候选特征数据集执行空间异质性筛选，更新候选特征数据集。

其中，空间分析模型支持MGWR模型和GWR模型；

MGWR模型的公式为：

其中：y_i为位置i处的属性值、bwj为第j个变量回归系数使用的带宽、(u_i,v_i)为位置i处的中心坐标、β_bwj(u_i,v_i)为i处第j个变量的回归系数、β₀(u_i,v_i)和ε_i分别为模型在i处的截距和误差项。

其中，预测模型为基于Encoder-Decoder框架的混合神经网络模型，由卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建构成。

另一方面，本发明提供了一种网约车出行需求的预测方法，包括：

加载网约车出行需求预测模型，该网约车出行需求预测模型通过本发明提供的预测模型构建方法构建；

指定待测区域格网标识，提取格网标识对应的建成环境数据和时序预测特征数据，构成待测区域的格网统计数据；

向网约车出行需求预测模型输入格网统计数据，获取预测结果，预测结果为指定格网对应的预测时间段、用车起点经纬度、预测需求量。

在本发明中，将城市环境的设施多样性、交通可达性、人口密度、房价等特征加入出行预测要考虑的因素，充分整合多种数据，通过数据清洗、相关性分析、空间自相关检验等预处理操作，划分和关联统计单元，构成预测模型的数据集，加入结构改进后的CNN-LSTM模型，构建网约车出行需求预测模型，由于训练数据的多样性、完整性和数据处理的优化，较现有技术方案，大大提高了出行预测准确性，摆脱了对前序时间切片数据的过度依赖，增强了预测模型的典型性和不同区域适用性。

附图说明

图1是根据本发明实施例提供的网约车出行需求预测模型的构建方法流程图；

图2是根据本发明实施例提供的网约车出行需求预测模型的数据流向示意图；

图3是根据本发明实施例提供的网约车出行需求预测模型处理数据流程图；

图4是根据本发明实施例提供的网约车出行需求预测模型结构示意图；

图5是根据本发明实施例提供的研究区内部分建成环境数据示例图；

图6是根据本发明实施例提供的研究区格网划分示意图；

图7是根据本发明实施例提供的模型真实值与预测值对比示例图；

图8是根据本发明实施例提供的真实值与预测值对比误差分布示例图；

图9是根据本发明实施例提供的某预测时间段网约车需求量预测结果；

图10是根据本发明实施例提供的MGWR模型输入界面示例；

图11是根据本发明实施例提供的MGWR模型输入数据矩阵结构。

具体实施方式

交通流预测的定义，即基于历史和实时交通数据来预测未来时段某一区域的一种交通状态。这些状态包括车辆密度、车辆速度、行车流量和用户行为等，而这些都属于典型的时间序列短时预测问题；相较于交通流预测，出行需求预测主要为预测下一时间段某一区域内的交通需求量，主要解决的是需求调度问题；从预测方法上来说，目前需求预测的模型主要分为三类：简单线性模型(如瞬时旅行时间模型、历史平均值模型等)、参数模型(如卡尔曼滤波、自回归移动平均模型等)和非参数模型(如神经网络模型、支持向量机模型、贝叶斯网络模型等)。

在此基础上，本发明采用城市POI数据，针对城市环境的设施多样性、交通可达性、人口密度、房价等多个建成环境变量作为影响网约车载客出行的候选因素，通过数据清洗、相关性分析、空间自相关检验等预处理工作，划分小尺度研究格网作为网约车需求量和建成环境变量的统计单元，利用多尺度地理加权回归模型(MGWR模型)作为变量筛选器，从中选择对预测结果起最佳作用的建成环境变量、时段特征时序变量,在将其输入到参数改进后的CNN-LSTM模型中，经选取优化器算法训练优化，当模型测试值与验证值间误差最小，即模型评价指标达到最佳值时，成功构建网约车出行需求预测模型，并可通过网约车出行需求预测模型获取网约车需求预测结果。

下面结合说明书附图对本发明的具体实现方式做详细描述。

图1是本发明实施例提供的网约车出行需求预测模型的构建方法流程图，如图所示，包括以下步骤：

步骤S100：样本数据采集，生成多维数据矩阵；样本数据至少包括历史网约车订单数据、建成环境数据和时序预测特征数据；

S101：历史网约车订单数据包括订单号、订单开始时间、订单结束时间、订单开始经纬度和订单结束经纬度；

原始网约车数据量庞大冗杂，在本步骤中，对网约车订单轨迹数据进行预处理，具体包括数据格式转换、数据库存入、冗余与错误数据删除、坐标转换、可视化处理、域外数据删除、时间戳转换与分段等。

预处理完后的样本数据至少包含订单号、订单开始时间、订单结束时间、订单开始经度、订单开始纬度、订单结束经度、订单结束纬度等属性字段；

本申请中提供实施例：某地2016年11月1日至11月30日共30天，网约车原始订单数据，其总量超700万条，订单原始数据范例如下表所示：

其中，订单开始时间、订单结束时间可构成用车开始时间段，订单开始经度、订单开始纬度构成用车开始经纬度，用车开始时间段内的订单数量，可统计为需求量。

S102：建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据；

原始POI数据(互联网电子地图中的点类数据,基本包含名称、地址、坐标、类别四个属性)分类复杂，在建成环境数据的处理过程中，经过冗余数据删除、研究区域内数据提取和坐标转换等工作，对原始POI数据保留餐饮、购物、生活服务、公司企业、金融保险、科教文化、商务住宅、体育休闲、医疗保健、政府机构、风景名胜、住宿服务等POI有效数据，还增加建成环境中的内部交通枢纽数据、外部交通枢纽数据、路网数据、人口数据、房价数据、建筑物平面数据、区域设施多样性数据，对以上数据进行数值计算、坐标转换、缓冲区分析、分区统计等预处理操作。

S103：时序预测特征数据包括：时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末等信息。

在对网约车出行需求预测特征数据集的考虑中，除了建成环境变量对网约车造成空间上的影响外，出行需求预测研究还要考虑具有时序特征的因素，例如，居民出行需求会受到天气状况的影响，恶劣天气情况会降低居民的非刚性出行需求，同时增加居民打车出行的概率。因此，样本数据中除了建成环境变量外，还加入了天气气象信息中的气温、相对湿度、风速、降水变量和是否高峰时段、是否周末等信息。

部分时序预测特征数据如下表所示：

时间id	气温(℃)	相对湿度(％)	风速(m/s)	降水量(mm)
					1101_9	15.0	77	0	0
1101_10	16.0	77	1	0
					1101_11	16.0	77	1	0
1101_12	17.0	73	2	0
					1101_13	17.0	73	3	0

以上三种样本数据构成多维数据矩阵的变量因子，以上数据的采集和处理的样本数据的内容构成多维数据矩阵的数据来源。

进一步的，建立多维数据矩阵的步骤包括：

1)确定研究区，即确定需要进行预测的区域，例如某城市地图的一部分，在研究区内的部分建成环境数据示意如图5所示；

2)在研究区内划分基本格网，确定基本格网的基础属性，包括：格网标识、格网经纬度；

基本格网是为筛选和构建网约车出行预测模型的特征数据集建立的基本区域单元，基本格网与研究区关系，经可视化的展示如图6所示。

基本区域单元的划分可以有多种方式，如邮政编码制表区(ZCTA)和普查块组(CBG)。然而，过大的研究网格与居民出行的真实出行状况并不匹配，容易导致模型结果缺乏真实性。本发明中，根据经纬度从研究区内划分百米级的方形格网，以实现划分基本格网。由于该基本格网通过经纬度划分，该基本格网可基于经纬度进行确定。

在具体实现中，格网的大小可以根据实际需求和数据进行调整；在本发明的范例中，基于建成环境数据和POI数据的粒度考虑，对用户体验格网的划分单位采用百米级，以百米级为单位的数据分析，可精准可靠的捕捉网约车的出行时空特征并消除噪声数据的影响。

3)由于基本格网可基于经纬度进行确定，则可根据样本数据的经纬度，匹配所述基本格网对应的变量因子；

本发明实施例中，在研究区内构建了200m x 200m的研究格网，共计4662个(如图6所示)，作为时空特征和影响因素分析研究的基本单元，并对网约车订单量和建成环境变量进行空间格网统计，统计结果如下表所示：

4)对研究区的所有基本格网进行数据统计，生成多维数据矩阵；

本步骤中，单一格网作为建成环境变量和网约车出行订单量的基本单元，进行空间格网统计，得到每个格网在不同时段内网约车订单量及建成环境变量中每个因子的统计量，单格网中因变量、解释变量共计20个。

建成环境数据在研究区中的体现，可如图5所示，在研究区中加入基本格网后，则需要将各格网的对应的建成数据按格网的区域从研究区图层中进行分离、按时间进行分类、按时间和格网位置进行统计和关联等，因此本步骤中对研究区的基本格网的处理，还需要将格网标识与时间字段、格网统计数据建立关联，即进行数据融合处理，具体包括：时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并等。

每个单格网中因变量、解释变量构成多维数据矩阵。

多维数据矩阵的结构为：时段数×基本格网数×变量因子数，变量因子包括因变量和解释变量；具体而言，因变量对应历史网约车订单数据的元素，解释变量对应建成环境数据的元素，如本例中的解释变量包括餐饮、购物、生活服务等项目的具体数据。

步骤S110：样本数据筛选，即：从多维数据矩阵中提取候选特征数据集；样本数据筛选包括：相关性筛选、共线性检验和空间自相关检验；

S111相关性筛选指：获取多维数据矩阵中的解释变量与解释变量间的相关系数，从多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量，被保留解释变量可进入下一步骤的样本数据筛选；

一般来说，由于影响因素的变量间存在一定的相关性，在将这些变量进行多尺度地理加权回归前，需要对已有的变量进行相关性分析，分析其自身与其他变量间的相关性，并对强相关变量进行舍弃。

在本发明中，可采用Pearson相关性分析，将相关系数r的绝对值等于0.7、0.5、0.3时，分别将其划分为强相关、中度相关和相关，并将强相关及以上的元素进行删除，如将相关系数大于等于0.7的强相关变量进行删除，保留其它正常相关的解释变量。本实施例中部分解释变量相关性分析结果如下表所示：

A

B

C

D

E

F

G

H

A

1

B

.370^××

1

C

.639^××

.379^××

1

D

.211^××

.139^××

.209^××

1

E

.305^××

.260^××

.318^××

.537^××

1

F

.334^××

.222^××

.354^××

.446^××

.416^××

1

G

.480^××

.239^××

.440^××

.298^××

.331^××

.358^××

1

H

.487^××

.311^××

.444^××

.235^××

.334^××

.443^××

.283^××

1

注：A：餐饮；B：购物；C：生活服务；D：公司企业；E：金融保险；F：科教文化；G：商务住宅；H：体育休闲

S112共线性检验：此时，多维数据矩阵中的解释因子已经过相关性筛选，在本步骤中，采用方差膨胀因子(VIF)获取保留的解释变量的共线性值，删除共线性值大于指定共线性阈值的解释变量，经此步骤仍保留解释变量可进入下一步骤筛选；

执行共线性检验时，为进一步检验影响各解释变量间的共线性，需要对剩余解释变量进行回归分析，本发明中，当VIF大于10时，认为该变量与其它变量间存在着较强的共线性，需要对该变量进行去除。

本发明实施例提供解释变量共线性检验示例如下表所示：

S113空间自相关检验：此时，多维数据矩阵中的解释因子已经过相关性筛选和共线性检验，本步骤中，对获取保留解释变量的全局莫兰指数，删除全局莫兰指数大于指定系数阈值的解释变量，在此基础上保留下来的解释变量构成候选特征数据集，实现空间自相关检验。

网约车出行需求的分析基于地理学的建成环境，在地理学中，任何事物与其周围事物都具有一定的相关性，靠的越近的事物相关性越强。因此增加各解释变量间的空间自相关关系进行检验，以判断某一位置的物体与其相邻同类物体之间是否存在相关或依赖关系，通过空间自相关系数量化具有空间位置信息的分析对象之间的相关程度或依赖程度。以分析对象的范围进行划分，空间自相关可分为全局空间自相关和局部空间自相关。根据分析对象在整个研究区域的分布，全局自相关可以判断对象是否存在空间聚集现象，从而确定整个对象是否呈现空间自相关特征。

由于地理位置接近，网约车出行次数的变化与空间存在一定相关性。全局莫兰指数(Moran's I)用于衡量相关性，其中Z值表示变量在空间上呈正相关或负相关的关系，P值则表征所观测的空间分布是由某一随机过程而发生的概率，P值越接近0说明空间分布越有关联，空间的聚集特征就越明显。

在本申请提供的实施例中解释变量空间自相关检验示例如下表所示，结果可知，研究所选的解释变量都具有一定的空间自相关性，且都为空间正相关，空间集聚状态明显，符合模型的构建条件。

变量	莫兰指数	Z值	P值
				餐饮	0.3606	34.5900	0.0000
购物	0.1364	13.3458	0.0000
				生活服务	0.3846	36.9669	0.0000
公司企业	0.2971	28.6769	0.0000
				金融保险	0.2766	26.5892	0.0000
科教文化	0.3256	31.3026	0.0000
				商务住宅	0.5910	56.6735	0.0000
体育休闲	0.2748	26.4161	0.0000
				医疗保健	0.3467	33.4013	0.0000
政府机构	0.2114	20.3212	0.0000
				风景名胜	0.2544	25.8298	0.0000
住宿服务	0.3392	34.6380	0.0000
				区域设施多样性	0.1608	15.4217	0.0000
内部交通枢纽	0.0385	3.7094	0.0002
				道路	0.3584	34.3704	0.0000
人口	0.6968	67.2401	0.0000
				房价	0.9152	87.7172	0.0000
建筑物	0.5797	55.5565	0.0000

S114通过空间分析模型对候选特征数据集执行空间异质性筛选；

将经过相关性分析、共线性检验、空间自相关检验的多维数据矩阵输入到空间分析模型，进行空间异质性筛选；此时模型输入数据集为时段数×格网数×变量个数的多维数据矩阵(如图11所示)。

普通线性模型能够在全局尺度上反映城市建成环境对网约车出行订单量的影响，可以初步验证建成环境与网约车出行的相关关系。但在现实生活中，由于城市各地区的区划、功能等经济水平上的差别，影响因素对因变量的影响程度在每个区域并不一致，同一变量在不同区域上对因变量可能有不同程度甚至相反的影响；因此，在本步骤中捕捉各变量在不同区域空间中的空间异质性作用，得到不同时段的空间分析模型回归结果，并对拟合优度最好的时段模型进行筛选，提取显著的建成环境变量作为预测模型的候选特征数据集。

在地理研究中，空间异质性也是“地理学第二定律”的直接体现。在空间分析模型中，空间异质性表现为在模型的数据样本中融合空间位置信息后，自变量和因变量的系数估计值会随着模型中空间数据的位置不同而拟合出不一样的结果，这种空间过程的异质性也被称为空间非平稳性。一般来说，空间分析模型可采用MGWR(多尺度地理加权回归模型)或者GWR(地理加权回归模型)。

MGWR相较GWR而言，在对空间异质性问题处理过程中，其允许每个解释变量拥有各不相同的空间平滑尺度，使得每个解释变量的带宽可以直接反映各空间过程的空间作用范围，这种多带宽尺度的方法能够产生更接近真实、可靠的空间过程模型，有效避免GWR模型中解释变量都处于同一平滑水平的缺陷，降低了模型估计的误差。

模型参数设置中，由于研究区选用的是固定网格作为研究单元，各网格的区域中心在空间上具有一致的均衡性，所以带宽采用固定带宽、空间权函数采用高斯核函数来对模型进行构建。在其他一些参数设置上，带宽搜寻方法选择黄金分割法，模型选择为高斯函数，模型优化准则指标为AICc，并将残差平方和的变化比例作为收敛准则。

MGWR模型的公式为：

MGWR模型的每个回归系数β_bwj都是经过局部回归得到的，这一点与经典GWR模型相同。同时，MGWR模型的核函数和带宽选择与GWR模型一致，本发明采用高斯核函数和更正的赤池信息准则(AICc)。带宽的异质性是MGWR模型与GWR模型主要的差别，可将GWR模型作为广义加性模型(GAM)来实现。GAM采用后退拟合算法来拟合各个平滑项：先对所有的平滑项进行初始化设置，再以经典GWR作为初始估计，再计算出真实值与预测值之间的差值，即得到初始化残差，公式如下：

残差加上第一个加性项/>与第一个自变量x₁上进行经典GWR回归，找到最优的带宽bw1和一列新的参数估计/>和/>来替换之前的估计。然后残差加上第二个加性项/>与第一个自变量x₂回归并更新第二个变量的参数估计/>和/>以此类推，重复进行直到最后一个自变量x_k。以上整体为一步，重复直到估计收敛到收敛准则为止。研究采用经典的残差平方和变化比例(RSS)作为收敛准则：

式中：RSS_old代表上一步残差平方和；RSS_new代表这一步残差平方和。

MGWR模型通过R²、AICc、RSS和有效参数量(ENP)4个指标来对比不同时段模型结果的有效性和精确性。其中，AICc、RSS和ENP值越小，说明模型拟合精度更高、模型估计值与真实值间的误差更小，同时也说明模型用更少的参数得到了更接近真实值的回归结果。

本发明中的MGWR模型分析可通过工具实现，具体的，MGWR输入界面如图10所示：Data Files为输入的excel表格数据，ID、x、y分别为单元格网序号、格网中心点经度、格网中心点纬度，选择投影坐标Projected，模型选择MGWR。

在模型回归的核心参数设置中，由于研究区选用的是固定网格作为研究单元，各网格的区域中心在空间上具有一致的均衡性，所以空间核函数Spatial Kernal采用固定带宽的高斯核函数来对模型进行构建。在变量列表中Variable List中列出了表中的所有变量字段，从中选取一个日期时段下的历史网约车订单量作为因变量Y，选择通过模型检验的其它变量作为解释变量Local。在其它参数设置上，带宽搜寻方法Bandwidth Searching选择黄金分割法，模型选择为高斯函数，模型优化准则指标为AICc，并将残差平方和的变化比例作为收敛准则。

MGWR和GWR的分析效果对比，如下表所示：

本步骤中，对回归结果中的显著解释变量进行筛选后，作为网约车出行预测模型的候选特征数据集，如下表所示：

图2提供了本发明的数据从采集、预处理、分析、分类、筛选的完整数据走向过程，简单来说，即收集网约车订单数据、POI数据、交通枢纽数据、路网数据、人口、房屋数据等环境信息，进行时空插值、数据清洗、匹配检查、拓扑查错、坐标转换等叠加分析手段，构成建成环境变量；对建成环境变量进行多次筛选，以保留显著性解释变量，以多维数据矩阵结构的形式，作于本发明预测模型的训练数据集。

步骤S120：从候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集，构建训练集、测试集和验证集；标签数据集包括：用车开始时间段、用车开始经纬度、需求量；

经步骤S110最终生成的环境变量、时序特征数据作为网约车出行需求预测特征数据集，包括：格网内各POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水，以及交通高峰期状态和周末状态，特征数据集的含义和定义具体如下表所示：

步骤S130：加载预测模型，用所述训练集、测试集和验证集进行模型训练，构建网约车出行需求预测模型；

首先，如步骤S131所示，设计预测模型结构，并加载该预测模型：

本发明采用的预测模型为基于Encoder-Decoder框架的混合神经网络模型：该模型，将卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建的方法实现研究区内网约车的出行需求预测，该模型不仅能够捕捉网约车受空间变量影响的空间特征，还具备对时序变化数据的模拟预测能力，并实现了对数据的时空变化规律进行更好的捕捉。

具体来说：

1、在CNN模块，除了输入层和输出层，核心结构还包含卷积层、池化层和全连接层：

1)卷积层主要通过控制卷积核的窗口大小对数据进行滑动采样，以此来完成对数据特征的提取，通过卷积核运算可以增强原始数据中的某些特征，降低数据中的噪声对结果的影响。网络中的卷积核特征提取公式如下所示，

其中：表示数据的第j个特征图谱，c_j为卷积核，/>为上一层第n个特征图谱作为当前网络的输入，/>为偏置，/>为每一个特征图谱中的特征总数量；

2)池化层的则是负责对卷积后的数据特征进行降维，即用稀疏参数代替特征矩阵中部分数据。在保证特征数据不丢失的情况下，将特征矩阵中的有效信息进行相对融合，很好地解决了模型参数的堆积冗杂问题，有效降低网络的复杂度；

3)全连接层的主要作用是对卷积和池化后的特征向量维度进行调整，将模型的输出向量处理为合适的长度。卷积神经网络的全连接层和全连接神经网络类似，全连接层的输出公式如下所示，

其中：x_i为上层神经元的输出同时也时全连接层的输入，W_i为各神经元间连接的权重系数，f()为激活函数，b为神经网络的偏置；

2、在LSTM模块，LSTM神经网络是传统循环神经网络(RNN)的一个改进模型，它通过在神经层中增加单元状态和门控机制来保留长时间序列的信息，克服了RNN训练过程中的梯度消失和梯度爆炸问题。LSTM网络结构的关键在于记忆单元的状态和穿过记忆单元的水平线，数据信息在水平线上传递、处理并随水平线存储在记忆单元中。而记忆单元可作为输入值函数，可以自适应时间的保留自身输出值，使得该单元能记住重要信息而并非最后输出结果。

总体来说，预测模型的结构如图4所示，其中采用CNN网络提取网格特征和标签数据的时空特征实现特征提取；在CNN部分，经过多次试验对比，模型最终由2层卷积层对输入数据的空间特征进行识别，2层卷积层的卷积核大小设置为(3,3)，神经元分别为32和64，在两层卷积中，每个神经元间都采用ReLU来作为激活函数；接着，由一个最大池化层对复杂参数进行简化处理，步长为2；压平层将多维的特征数据进行降维，以对数据集中的特征进行精炼提取；最后重复层的作用是将压平后的变量重复输入n次到LSTM层中，作为CNN和LSTM的连接层，以增强LSTM的时序捕捉能力。在时序特征捕捉预测模块，主要由LSTM和FC层组成，内部包含三个隐藏层：第一个隐藏层是LSTM结构，该LSTM层含有64个神经元，门控系统的激活函数采用Sigmoid函数，记忆单元与神经元内部连接部分以Tanh函数作为激活函数；第二、三个隐藏层是全连接层，两个全连接层分别包含64和128个神经元，每个神经元间仍然采用ReLU作为激活函数。为避免神经网络层数过深或神经元数量太多而产生过拟合问题，在两个全连接层后都分别增加了一个Dropout层来防止过拟合问题，以提升模型的泛化能力，两个Dropout比例分别设为0.2和0.3。

预测模型计算过程具体为：

第一步，通过遗忘门来限制无用的隐藏信息，控制对前一历史时刻的哪些隐藏层信息进行遗忘；

遗忘门通过识别t-1时刻的隐藏状态和t时刻的输入X_t，对单元中的每个元素都采用Sigmoid函数作用来控制上一历史时刻哪些信息量需要被遗忘，并对现在的单元状态进行更新保存。

具体体现为：f_t＝σ(W_f×[h_t-1,x_t]+b_f)，其中，f_t为遗忘门输出结果，σ为门控函数Sigmoid，W_f为遗忘门神经网络参数矩阵，b_f为t时刻的偏置，X_t为t时刻对应特征数据和标签数据；

第二步，输入门来控制添加有用的输入信息，决定着当前时刻输入的有效信息量。

输入门中主要有两个输入：第一个输入由t-1时刻的隐藏状态和t时刻的输入X_t共同作用，再通过Sigmoid函数来决定需要更新哪些信息，即将t-1时刻识别的数据特征和t时刻的数据作为共同输入，进入下一步迭代运算。

输入门的输出状态公式如下所示：

i_t＝σ(W_i×[h_t-1,x_t]+b_i)，

其中，i_t为输入门输出结果，σ为门控函数Sigmoid，W_i为输入门神经网络参数矩阵，b_i为t时刻的偏置。

第二个输入由Tanh门生成一个被选进入单元状态信息的向量，决定将输入中的哪些信息添加到当前状态，添加后的当前单元状态C_t公式如下所示：

C_t＝Tanh(W_C×[h_t-1,x_t]+b_C)，同时考虑遗忘门的输出状态f_t、输入门的输出转态i_t和前一历史时刻的单元状态C_t-1，将其进行卷积求和等操作，以对当前的单元状态进行更新。更新后的C_t输出结果公式如下所示：

C_t＝f_tC_t-1+i_tC_t，

其中：C_t为当前单元状态，W_C为当前单元状态的参数矩阵，b_C为当前单元矩阵的偏置，Sigmoid和Tanh均为激活函数，h_t-1为t-1时刻的神经网络识别出的数据特征，X_t为网约车出行需求预测特征数据集中t时刻数据；

第三步，输出门通过采用Tanh函数与当前单元状态进行卷积的方式，决定输出哪些有效信息。此处主要有三个过程：首先，通过一个Sigmoid函数来决定输出哪些单元状态信息，然后通过Tanh把单元状态进行转换，最后将其乘以和Sigmoid的输出信息，得到最终的输出h_t，计算公式如下所示：

Q_t＝σ(W_O×[h_t-1,x_t]+b_O)，h_t-1＝O_t×Tanh(C_t)，其中W和b为对应的神经网络参数矩阵和偏置；

第四步：经过三个门控系统的综合作用，最终得到的输出结果：

f_(t)＝σ(W_f×(M_t,X_t-1)+b_f)×f_t-1+Tanh(W_i×(M_t,X_t-1)+b_i)×σ(W_O×(M_t,X_t-1)+b_O)

其中，X_t-1为LSTM前一个历史时刻的反馈信息，W_f、W_i、W_O分别为遗忘门、输入门和输出门的参数矩阵，b_f、b_i、b_O为遗忘门、输入门和输出门的偏置。

其次，如步骤S130中，通过网约车出行需求预测特征数据集对网约车出行需求预测模型进行模型训练：

本步骤中，设置训练集、验证集、测试集比例分别为8:1:1，训练优化器选用Adam，初始学习率设置为0.001，batch_size值设为512，训练次数140次，模型预测结果精度评价指标分别为MSE、MAE和R²，其它重要超参数设置如下表所示：

基于训练、测试和验证过程，获取预测模型的最佳参数，网约车出行需求预测模型构建完成。

该模型的预测结果结合基本格网的信息，支持可视化的方式展示，展示结果如图9所示，其中a部分为网约车真实需求量，b部分为预测需求量。

与传统神经网络的模型相比，本发明提供的网约车出行需求预测模型，最后得到模型训练精度与可靠性均有较大的提升，与传统网络模型对比的训练精度比较结果如图7所示，误差分布对比结果如图8所示。

另一方面，本发明提供了一种基于网约车出行需求预测模型实现网约车出行需求预测的方法，包括：

通过本发明提供的网约车出行需求预测的方法，用户仅需输入待测区域的格网统计数据，即可实现网约车短时出行需求的准确预测，降低用户入门门槛；同时，由于网约车出行需求预测的方法所依托的网约车出行需求预测模型在构建过程中对训练数据结构设计、筛选，对预测模型的结构选择，使模型的预测结果更准确。

因此，本发明具有较高的普适性，既能捕捉不同城市区域网约车的出行特征，又能准确、高效的得到网约车出行需求预测结果，具有较强的实用价值，为地方主管部门管理决策和城市交通的协调、高效运行提供参考。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种网约车出行需求的预测模型构建方法，其特征在于，包括以下步骤：

样本数据采集，生成多维数据矩阵；其中，所述样本数据包括历史网约车订单数据、建成环境数据和时序预测特征数据；所述多维数据矩阵的数据来源为样本数据对应的变量因子，所述多维数据矩阵的结构为：时段数×基本格网数×变量因子个数，所述变量因子包括因变量和解释变量，所述因变量对应历史网约车订单数据的元素，所述解释变量对应建成环境数据和时序预测特征数据的元素；所述基本格网为特征统计的基本区域单元；

样本数据筛选，从所述多维数据矩阵中提取候选特征数据集；

从所述候选特征数据集中划分网约车出行需求预测特征数据集和标签数据集，构建训练集、测试集和验证集；所述标签数据集包括：用车开始时间段、用车开始经纬度、需求量；

加载预测模型，用所述特征数据集和标签数据集进行模型训练，构建网约车出行需求预测模型。

2.根据权利要求1所述的构建方法，其特征在于，所述历史网约车订单数据包括订单开始时间、订单结束时间、订单开始经纬度、订单结束经纬度；

所述建成环境数据包括POI数据、路网数据、交通枢纽数据、人口数据、建筑物数据、房价数据、区域设施多样性数据；

所述时序预测特征数据包括：时间、气温、相对湿度、风速、降水变量、是否高峰时段、是否周末。

3.根据权利要求2所述的的构建方法，其特征在于，所述网约车出行需求预测特征数据集包括：格网内POI数据、格网内路网密度、格网内平均房价、格网内建筑物面积、研究时段内平均气温、研究时段内平均风速、研究时段内平均降水、是否高峰和是否周末。

4.根据权利要求1所述的构建方法，其特征在于，所述生成多维数据矩阵包括：

确定研究区；

在所述研究区内划分基本格网，确定所述基本格网的基础属性，包括：格网标识、格网经纬度；

根据所述样本数据的经纬度，匹配所述基本格网对应的变量因子；

对所述研究区的所有基本格网进行数据统计，生成多维数据矩阵；

所述划分基本格网指根据经纬度从所述研究区内划分百米级的方形格网。

5.根据权利要求4所述的构建方法，其特征在于，

所述对所述研究区的所有基本格网进行数据统计，包括数据融合处理；

所述数据融合包括：时间字段划分、研究区和基本格网的图层分割、格网统计数据展示、图层合并；

所述数据融合用于将格网标识与时间字段、格网统计数据建立关联。

6.根据权利要求1所述的构建方法，其特征在于，所述样本数据筛选包括：相关性筛选、共线性检验和空间自相关检验；

所述相关性筛选指：获取所述多维数据矩阵中的解释变量与其他解释变量间的相关系数，从所述多维数据矩阵中删除相关系数大于指定相关系数阈值的解释变量，获取保留解释变量；

所述共线性检验指：采用方差膨胀因子获取所述保留解释变量的共线性值，删除所述共线性值大于指定共线性阈值的解释变量，更新所述保留解释变量；

所述空间自相关检验指：获取所述保留解释变量的全局莫兰指数，删除所述全局莫兰指数大于指定系数阈值的解释变量，获取保留解释变量，所述保留解释变量构成候选特征数据集。

7.根据权利要求6所述的构建方法，其特征在于，执行所述样本数据筛选后，还通过空间分析模型对所述候选特征数据集执行空间异质性筛选，构成候选特征数据集。

8.根据权利要求7所述的构建方法，其特征在于，所述空间分析模型支持MGWR模型和GWR模型；

所述MGWR模型的公式为：

9.根据权利要求1所述的构建方法，其特征在于，所述预测模型为基于Encoder-Decoder框架的混合神经网络模型，由卷积神经网络(CNN)和长短期记忆(LSTM)神经网络组合搭建构成。

10.一种网约车出行需求的预测方法，其特征在于，包括：

加载网约车出行需求预测模型，所述网约车出行需求预测模型通过如权利要求1所述的预测模型构建方法构建；

指定待测区域格网标识，提取所述格网标识对应的建成环境数据和时序预测特征数据，构成待测区域的格网统计数据；

向所述网约车出行需求预测模型输入所述格网统计数据，获取预测结果，所述预测结果为所述指定格网对应的预测时间段、用车起点经纬度、预测需求量。