CN115600710A

CN115600710A - 预测区域人控交通工具需求量方法、电子设备与存储介质

Info

Publication number: CN115600710A
Application number: CN202110766616.XA
Authority: CN
Inventors: 刘涛; 马新露; 刘伟; 李静; 江恩; 陈坚; 易兵; 张晓庆
Original assignee: Chongqing City Integrated Transportation Hub Group Co ltd; Chongqing Jiaotong University
Current assignee: Chongqing City Integrated Transportation Hub Group Co ltd; Chongqing Jiaotong University
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-01-13

Abstract

本发明提供了一种预测区域人控交通工具需求量的方法，包括：获取研究区域；根据所述研究区域，得到人控交通工具留存率和预测参数集；根据所述人控交通工具留存率和预测参数集构建训练样本集；通过所述训练样本集对区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型；将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测，得到预设时间段人控交通工具需求量。本发明还提供了执行上述方法的电子设备与储存介质。本发明通过在训练样本集中加入留存率指标，解决了传统预测方法预测不够准确的技术问题。

Description

预测区域人控交通工具需求量方法、电子设备与存储介质

技术领域

本发明涉及人控交通工具调度技术领域，尤其涉及一种预测区域人控交通工具需求量方法、电子设备与可读存储介质。

背景技术

近年来，伴随着交通信息化和智能化水平的提升，各城市和区域已实现不同范围和内容的公共交通运行检测，为保障交通系统安全、高效和绿色运行提供了强大的支撑服务。在拥有海量公共交通运行检测数据的前提下，如何由对公共交通需求被动满足转向主动满足的运营方式，成为了公共交通相关管理部门越来越关心的核心问题。

出租车等人控交通工具作为居民日常出行所常用的交通工具，在城市的交通方式构成中占据着重要的位置。且随着居民收入的日益增长，对于出租车等人控交通工具的需求逐渐增加，尤其在重要的商圈及交通枢纽，乘客由于出行的方便以及停车位稀缺的原因，对于出租车等人控交通工具的需求更加强烈，往往在商圈及交通枢纽设置有出租车等人控交通工具固定载客等待区域及载客点，满足乘客的出行需求。因此面向城市综合交通枢纽出租车等人控交通工具需求量的预测研究与实践，将为出租车等人控交通工具运能主动调用提供有力的数据支撑，对行业主管部门及运营调度水平的提升起到有力的助推作用。

对城市的交通需求预测一直是学者以及城市管理者所关心的问题，未来交通需求不仅仅对城市交通状态起着至关重要的作用，其对交通道路规划及城市空间结构的布设同样重要，目前国内外学者在对交通需求的方面有了很多方法和模型，主要有基于统计方法的模型、卡尔曼滤波模型、非参数回归模型、神经网络模型、基于混沌原理的模型等，近几年针对出租车等人控交通工具数据的需求预测渐渐成为了出租车等人控交通工具数据应用的一个重要方向，但大部分出租车等人控交通工具需求预测均从时空特征的角度去构建因素集进行预测，但预测起来，还是会有一定偏差，不够准确。

发明内容

针对现有技术中所存在的不足，本发明提供了预测区域人控交通工具需求量方法、电子设备与储存有指令的存储介质，以解决相关技术中传统技术中预测一定时间段内一定区域车辆需求数量不够准确的技术问题。

根据本发明的实施例，本发明提供了一种预测区域人控交通工具需求量的方法，包括：

获取研究区域；

根据所述研究区域，得到人控交通工具留存率和预测参数集；

根据所述人控交通工具留存率和预测参数集构建训练样本集；

通过所述训练样本集对区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型；

将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测，得到预设时间段人控交通工具需求量。

根据本发明的实施例，本发明还提供了一种电子设备，包括：

至少一个处理模块；以及

与所述至少一个处理模块通信链接的储存模块；其中，

所述储存模块储存有可被所述至少一个处理模块执行的指令，所述指令被所述至少一个处理模块执行，以使所述至少一个处理模块能够执行上述的方法中，

根据本发明的实施例，本发明还提供了一种储存有指令的可读存储介质，其特征在于，所述指令包括利用上述预测区域人控交通工具需求量的方法所构建的目标人控交通工具需求预测模型，以使将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测时，得到预设时间段人控交通工具需求量。

本发明可选、可替换或者进一步的方式，将结合其解决的问题和效果结合具体实施例加以说明。

相比于现有技术，本发明具有如下有益效果：

本发明技术中，发明人创造性的发现，现有的一些预测模型预测不够准确，是因为没有考虑到人控交通工具中人驾驶行为有较强的主观选择偏好。即多从时空特征的角度去构建因素集进行预测，并未考虑出租车等人控交通工具司机的主观意愿。

并且，在利用机器学习时，在设计训练的参数与内容时，也不能够较为独立的体现主观意愿这方面的特征。因此，发明人在用于训练的样本集中，创造性的加入留存率这个指标，用于描述人驾驶行为的这一主观偏好。使得机器学习得以分析驾驶者的主观行为，从而使得预测更加准确。

附图说明

图1为本发明预测区域人控交通工具需求量方法的流程示意图；

图2为本发明一个实施例中研究区域示意图；

图3为Boosting算法计算权重的流程示意图；

图4为XGBoost模型对指标集A、B指标权重排序；

图5为本发明一实施例中的预测区域人控交通工具需求量方法的流程示意图；

图6为本发明一实施例中的预测区域人控交通工具需求量方法的流程示意图；

图7为本发明一实施例中指标集A决策树数量变化曲线图；

图8为本发明一实施例中指标集B决策树数量变化曲线图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本发明的说明书和权利要求书术语“包括”、“具有”、“含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。本例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本例中均不作限定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)，和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

为了使本发明的目的、技术方案及有益效果更加清楚明白，下面结合附图及实施例对本发明中的技术方案进一步说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种预测区域人控交通工具需求量的方法，包括：

获取研究区域；

本发明的提出是由于，发明人创造性的发现，现有的一些参数，比如前段时间的需求量(前1，2，3或4小时的需求量)，上星期相同星期属性需求量，场景属性，降水等级，温度，等等指标，都不能反应人为的主观选择，而人控交通工具的流动和数量，实际上，为了预测需求量，交通工具因人为偏向和选择的影响是很大的(这种巨大影响由后续具体实施例中的实验数据来佐证)，因此，发明人就想到需要引入一个能够反应这种人控交通工具区域选择偏好的参数，即上面提到的留存率。留存率反应人控交通工具中，控制人对该研究区域的粘性，或者说，控制人离开该研究区域后，在后续预测时间段中，仍然选择回到该区域的概率。这样的行为，以出租车为例就很好理解，某些商业区域，人流量大，出租车司机容易招揽客源，因此即使离开该区域，也会很快再次回到该区域揽客。当然，不仅仅是出租车，也可能是滴滴打车，或者甚至共享单车，虽然共享单车并不一定存在驾驶人，但为了招揽商圈的客源，共享单车的出租公司，也可能用人控的方式(比如说运输等等)，将该交通工具又送回到原始区域，因此本发明提到的人控，只是说该交通工具在人的某种控制之下，在这种控制之下，可以根据控制的人的主观选择影响该交通工具的某些行为，而这些行为会影响到该研究区域的需求量。

本方法实际上包括，可以在不同公司完成本方法的一步或几步，分别达到该步骤的小目标，再整合起来达到本发明的目的。本方法的步骤，只是逻辑上的一种划分，并不是严格的时间顺序。

图1为本发明预测区域人控交通工具需求量方法的流程示意图；图5、图6为对图1流程步骤的细化与补充，或者为图1流程提供了一些具体可选的实施方式。

如图1所述，预测区域人控交通工具需求量方法，包括下列步骤：

步骤S1，获取研究区域。

在本例中，为了便于说明，将本步骤标为S1，实际上，获取研究区域，可以是实际上的研究区域，也可以是虚拟的研究区域，可以是实际空间相连的研究区域，也可以是空间不相连，但数据特点较为一致的研究区域，比如一个城市的所有高铁枢纽商圈等等。本部的研究区域，只是为了为提取后续的样本数据，划分的一个范围。为了避免数据量过大，无法计算，需要将数据量控制在一定程度；或者根据特定研究区域的特性，提取数据。

可选的，获取研究区域，包括：

根据人控交通工具位置的分布规律，得到人控交通工具分布的中心枢纽；

根据中心枢纽对周边的范围相关程度，确定中心枢纽的辐射范围；

根据所述中心枢纽和所述辐射范围，得到所述研究区域。

在实施的在出租车订单的例子中，可以根据人工智能，或者计算机算法运算等，将出租车订单信息与时间戳，经纬度等结合，计算出同段时间内，订单位置在区域的密集区域，将这些区域作为中心枢纽。然后，再根据这些订单行为的相关程度，确定中心枢纽的辐射范围，即将围绕一个中心，某些数据变化较为一致的范围作为一个研究范围。例如，如图2所示，确定研究区域面积大小，在考虑站城一体化高铁枢纽商圈的辐射范围时，研究区域面积的大小与中心枢纽对区域影响的辐射范围成正相关。为加强研究区域范围的针对性以及人控交通工具需求，比如出租车需求量预测的准确性，对研究区域内离群点和热点更好的进行分析，提取研究区域的经纬度，并将出租车订单数据的经纬度映射到所属的研究区域内，综合考虑研究区域的用地性质、行政区划、交通构成、道路网结构因素，确定实际研究区域辐射范围。以上区域边缘的划分，可以通过现行的分类学习器达成。

步骤S2，根据所述研究区域，得到人控交通工具留存率和预测参数集。

发明人为了对研究区域人控交通工具需求量做出更加精准的预测，就需要先提取该区域的历史数据，哪些数据，或者说哪些预测参数或者说哪些指标应该被作为提取对象呢？

如图6所示，图6以出租车为例，显示了本发明的步骤，只是一种逻辑的划分，可以由其它的划分方式。图6所示构建训练样本集框图包含本步S2，根据所述研究区域，得到人控交通工具留存率和预测参数集，即图1的S2，S3，只是一种逻辑的划分，可以由其它的划分方式，所以在图6中，图1中的S2和S3可以合并为一个步骤。另外，图6中出租车需求预测，又合并了如下所述S3中XGBoost模型对训练指标集的筛选，图1，S4中一个可选的方式即利用随机森林模型；以及图1，S5中得到预设时间段人控交通工具需求量。

如图6所示，由于区域人控交通需求的变化受多种因素影响，因此首先需要为训练样本集确定因素属性集；发明人决定为研究区域选取的以时间属性、空间属性、高铁站属性和天气属性，选取出预测参数集和留存率构成指标集A(如下表所示由22个指标小集构成) 如表1所示，而现有的预测一般选择的指标集B作为对照组(如下表所示由13个指标小集构成)如表2所示：

表1本例指标因素属性选取结果(指标集A)

表2现有预测影响指标集(指标集B)

对比表1和表2得知，发明人为了优化现有的预测参数集，增加了表1中，6，7，10，11，12，15，16，17，22，这些指标。指标集B作为指标集A的对照组，而在后续的实验中，发明人将证明，这些指标中，留存率这以指标对区域人控交通工具需求预测的权重是最大的，而且通过指标集A训练的模型比通过指标集B训练的模型更加接近现实中真实的数据情况。

可选的，发明人还给出了留存率的定义与公式：

其中，P表示单位时间内区域留存率；M-1表示单位小时研究对象的单位总数；N表示符合留存率概念的总单位数。

区域留存率的概念为，以出租车或网约车为例：每辆车在第一笔订单上车点属于研究区域，下车点不属于研究区域，但下一笔订单的上车点依然属于研究区域的现象的概率。即，以出租车或网约车为例，空车驶回研究区域的概率。

而M指的意思是，以出租车或网约车订单为例：在单位小时内所有订单数中，将每辆车产生的所有订单数分别作为一个集合，每个集合以及集合内的订单按照时间顺序排序，相邻两个时间作为一个单位，因为N的定义需要考察连续的两个订单，因此需要将连续两个订单视为一个单位考察。因此，当M符合上述定义时，则有这样连续两个订单为单位的数量为M-1，即M-1表示单位小时研究区域内按照人控交通工具及其时间排序后相邻两笔订单的单位总数，即此例的单位小时研究对象的单位总数。另外，因为这样巧妙的定义，分母利用了M-1的形式，发明人也很好的避免了数据上溢的发生。当然，本领域技术人员应该知晓，其它的类似或可置换的形式，亦可以表达区域留存率。例如，发明人在上述实施例中，除了利用上述留存率公式，还可以通过其它辅助的指标，比如Movemile上一小时平均行驶距离；Emptymile上一小时平均空驶距离；MoveTime上一小时平均出行时长，与本留存率公式结合，共同反应留存率。

另外，发明人的一些在构建训练样本集前，可以进行数据预处理，如图6所示，如下：

1、对一些数值进行赋值处理：在上表1指标集A中，温度等级，由赋值确定，其换算规则为下表4所示：

表4温度等级赋值对应表

该表根据中国国家标准化管理委员会发布的《气温评价等级》来对研究区域气温所属等级赋值；

在上表2指标集B中，降雨等级，由赋值确定，其换算规则为下表5所示：

表5降雨量等级赋值对应表

该表根据中国气象局发布的国标对降水量进行了等级划分，并进行所属赋值。

2、删除例外的研究时段的数据。比如，在实施例中，发明人删除了如下表6中显示例外月份(2至5月)数据；

表6时间段外处理前的数据

3、通过网约车和出租车的特殊性，删除异常的数据：

即：根据所述人控交通工具留存率和预测参数集构建训练样本集，包括：

检测所述人控交通工具留存率与所述预测参数集中参数是否符合预处理算法，若符合，则继续构建训练样本集；若不符合，删除错误参数。

建立订单行驶里程与价格之间的关系，删除错误数据。其换算公式如下：

日间(6：00—23：00)：

PRICE＝10,k≤3 (2.1)

PRICE＝10+2×(k-3),3≤k≤25 (2.2)

PRICE＝10+2×(25-3)+3×(k-25)＝3k-21,k>25 (2.3)

夜间(23：00—6：00)：

PRICE＝11,k≤3 (2.4)

PRICE＝11+2.3×(k-3),3≤k≤25 (2.5)

PRICE＝10+2.3×22+3.45×(k-25)＝3.45k-25.65,k>25 (2.6)

式中：

PRICE——每笔订单的最终成交价格；

K——为每笔订单的最终行驶里程；

因此最终筛选条件如下：

①当K<3时，去掉不等于10或者11的数据；

②当K≥3时，则将范围确定为2K≤PRICE≤3K；

4、其他预处理，如图6所示，包括修正格式错误数据，比如里程字段格式错误、空值、格式错误以及数据重复等情况，将冗余数据删除。

步骤S3，根据所述人控交通工具留存率和预测参数集构建训练样本集。

将上述指标提取后，就可以用这些数据构建训练样本集了。但是为了训练效果更好，可以对上述指标数据做一些处理，如上文所述，虽然发明人选择了增加了表1中，6，7，10，11，12，15，16，17，22，这些指标。但是人工智能系统中，过多的指标可能会增加系统的学习时间，另外也可能反而影响模型的准确程度，因此发明人设计了将上述指标评估和筛选的方法，在一方面，从结论上来看，证明了留存率的权重位列第一(不论是利用留存率公式计算的指标，还是加上相关的辅助指标)；另一方面，也建立了针对一种预测区域人控交通工具需求量方法中指标筛选时的方法和步骤，即：

预测区域人控交通工具需求量的方法中，根据所述人控交通工具留存率和预测参数集构建训练样本集，包括：

根据指标分类，将所述预测参数集和所述留存率分成多个指标小集；

根据XGBoost算法对每个指标小集进行运算，得到每个指标小集的权重值；

根据每个指标小集的权重值，将所有符合预设权重值的指标小集构建为训练样本集。

如图3所示，图3为Boosting算法计算权重的流程示意图。本实施例用到的XGBoost算法基于Boosting算法，其主要计算思路为首先在训练样本集中，使用初始权重W1训练得到弱学习器1，再以CART决策树为弱学习器，通过得到的学习误差率的数值，将误差率高的样本权重增加，得到权重W2，然后再基于W2训练得到弱学习器2，以此为规律迭代运行至弱学习器数量为指定数量i，并将i个弱学习器结合为强学习器。

XGBoost模型在GBDT的基础上，引入了泰勒二阶函数，因此目标函数相比GBDT有所不同，其公式如下：

式中

——损失函数。

将模型输出和观测结果间的差异量化进行表示，根据实际情况选择，常见的损失函数有Log损失函数、均方误差和绝对值损失函数等。Ω(f_t)为模型正则化项，表征术的复杂度，控制模型的总体复杂度，防止过拟合情况发生。

在本例中，使用权重法的FScore作为重要度评价的方法

权重法：根据特征值在每次迭代过程中，被选中作为决策树节点分裂特征的次数之和作为重要性得分，得分越高的特征值在整个模型中重性越高，指标计算公式如下：

FScore＝|X| (3.2)

式中:

X——所求特征分类到叶子节点的集合。

在得到影响指标集A以及指标集B后，首先使用zscore对离散度较高的数据标准化，再使用XGBoost模型对各指标集内各指标的重要度进行排序，得出结果。

Z-Score标准化：

式中：

x^*——标准化后的数据；

x——原始数据；

——总体数据的均值；

σ——总体数据的标准差。

如图4所示，在得到指标集A以及指标集B后，首先使用zscore对离散度较高的数据标准化，再使用XGBoost模型对各指标集内各指标的权重或称为重要度进行排序。

从重要度排序得分可以看出，在图3指标集A重要度即权重值排序，排在第一位的为留存率，其次为movemile以及emptymile，由此可以看出空间特征所得指标对于需求量影响较大，在时间特征所得指标的排序上，相同星期属性的需求量排在第一，其次为时间序列排序，排在最后的为天气属性中的降雨量以及场景属性。

从指标集B的指标重要度排序得分可以看出，相同周期属性的出发需求量同样排列于前三位其次为时间序列指标，但天气指标则相比场景指标稍高。

在得到两个指标集的重要度排序后，本例对指标集A从时间，空间，高铁，天气四个属性分别提取排名靠前的指标，对指标集B从时间，空间，天气三个属性提取靠前的指标。结合指标集A以及指标集B的指标总数，以及避免线性过拟合现象的发生，因此提取排名靠前的前10指标作为预测指标，如表7所示，排序按照重要度排序从大到小排列。

表7两指标集最终提取预测指标集

步骤S4，通过所述训练样本集对区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型。

在人工智能或机器学习中，可以有各种各样的预测模型供选择，利用深度学习，强化学习，迁移学习，集中学习等等，都可以得出一定的目标预测模型。但因为在区域人控交通工具需求预测这种情况下，如上所述，可能涉及到的指标比较多，指标间是否需要互相组合讨论相关性的情况比较复杂，难以人为设定，因此发明人发现，利用随机森林算法作为预测模型的基础，可以更好针对解决本问题指标较多的符合情况，从而提高预测的准确度。即：

预测区域人控交通工具需求量的方法，通过所述训练样本集对区域人控交通工具需求预测模型进行训练，包括：

根据随机森林算法得到所述区域人控交通工具需求预测模型；

根据人控交通工具留存率和预测参数集得到区域人控交通工具需求预测模型初始超参数；

将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型。

可选地，根据人控交通工具留存率和预测参数集得到区域人控交通工具需求预测模型初始超参数，包括：

根据人控交通工具留存率和预测参数集得到随机森林算法中树的数量，最大深度，以及决策树数量。

可选地，将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型，包括：

将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标超参数。

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。

从直观角度来解释，每棵决策树都是一个运算器，那么对于一个输入样本，N棵树会有N个结果。而随机森林集成了所有的投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的Bagging思想。

本实施例中，运用随机森林算法的有益效果在于：

(1)在当前所有算法中，具有极好的准确率，能够有效地运行在研究对象的大数据集上；

(2)能够处理具有高维特征的输入样本，比如如上所述的多个指标集，而且不需要降维，而且能够通过训练了解适合的维度。

(3)能够评估各个特征在问题上的重要性；

(4)在生成过程中，能够获取到内部生成误差的一种无偏估计；

(5)对于缺省值问题也能够获得很好得结果。

在一个实施例中，如上步骤所述，本发明运用随机森林算法作为预测模型的步骤为：

(1)首先在得到原始数据后，对数据进行预处理；

(2)根据时空特征分析并结合天气数据以及复合形态特有的高铁班次数据构建影响指标；

(3)通过指标重要度评价模型评价指标重要度，提取排名靠前指标；

(4)针对复合形态下出租车需求量预测涉及到的参数，如树的数量，深度以及特征值抽取数量调节，以达到模型最好参数组合；

(5)在确定最好参数组合后，对模型进行训练，并再次修正调整模型的超参数。

每棵树的按照如下规则生成：如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本(这种采样方式称为bootstrap sample方法)，作为该树的训练集；从这里可以知道：每棵树的训练集都是不同的，而且里面包含重复的训练样本。

关于超参数，在随机森林的预测模型中，由于Bagging的随机抽取形成因素集的原理，各因素集即基学习器之间依赖性很弱，且随机森林需要调节的参数较少，因此随机森林模型的参数调节难度较低，主要需要的参数有决策树数量，抽取指标个数以及决策树分类的最大深度。

所述初始超参数包括：max_features，最大深度，以及决策树数量。

(1)随机抽样的指标数目(max_features)

在随机森林的算法中，每棵树都会提取同样数目的指标数用于组成指标集，因此对于抽取的指标数需要确定，即max_features。理论上max_features越大，每个叶子节点上即会有更多指标考虑，从而提高模型预测性能，但实际上并不是这样。若将max_features设置的过大，每一次随机抽取的指标数量都接近于所有指标数，则各个决策树所抽取的特征值则比较相近，从而每个决策树所得到的结果可能相近，出现过拟合的现象，同时过大的 max_features也会增加模型的训练时长，因此选择一个合适的max_features对于模型的合理性有着至关重要的作用。max_features有多中取值的方式，若max_features设置为None，则每次随机抽取时会抽取所有的指标；若max_features设置为log2+1，则代表每次提取指标时，会提取log2+1个指标作为树的指标集；如同上述的选择方式还有很多，本例选择 Breiman所提出的max_features最佳取值方式，即若总共含有N个指标，则最佳提取 max_features数目为int(log2N+1)，如上例所述，在指标数为10时，max_features可以取值 5。

(2)最大深度(max_depth)

决策树在分裂的过程中，会产生很多二叉树，每一次分裂都算一层，而最大深度则是指的层数的多少。深度与指标数类似，理论上层数越多模型的训练效果更好，预测的精确度也会更高，但同样的，多大的深度会使模型运行时间增加，也会增加过拟合现象的概率。但目前有研究发现，若所涉及的指标较少，或数据量不大，则可以不需要设置最大深度的数值，也就是可以将max_depth设置为None，不限制树分裂的层数，结合上例的情况，数据量较小，且特征变量也进行了筛选，因此本实施例中不限制树的最大深度。

(3)决策树数量

在随机森林的计算过程中，每一颗决策树即代表着一次完整的计算过程，而决策树的数量则代表了随机森林模型内部计算的次数。在随机森林的模型参数调整中，可以调整决策树的数量，从而调整随机森林模型内部的计算次数，也就可以调整模型的复杂程度。若决策树数量太小，模型太简单，预测的精度会很低。与其它两个参数不同的是，在以上两个参数确定的情况下，决策树的数量与模型的预测精度是呈正相关的，但若决策树数量取得过大，模型无论是训练时间的过大或者解释度的过低都会成为不合理之处，因此决策树数量的确定依然很重要。

因为随机森林的随机抽样的方式，每次形成训练集的指标不会是所有指标，因此每次抽取都会遗漏部分袋外数据，即OOB(Out of bag)。OOB数据可以通过计算，从而衡量决策树计算过程中的误差，即OOB误差率。OOB误差率目前用于随机森林的参数确定，此方法在多次研究中被证明高于频繁被使用的交叉验证方法，且OOB误差率越小则代表模型精度越高。在此基础上，本例便可通过OOB的表现决定决策树的数量。指标集A以及指标集B的OOB分布曲线图分别如图7和图8所示。

从图7和图8可以看出，在指标集A所构成的模型中，当决策树大于150后，OOB 趋于稳定，所以决策树数目设定为150。对于指标集B，决策树大于220后，OOB趋于稳定，所以决策树数目设定为220。

即：预测区域人控交通工具需求量的方法，将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型，包括：

将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标超参数；

将所述人控交通工具留存率、预测参数集和所述目标超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型。

步骤S5，将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测，得到预设时间段人控交通工具需求量。

在本发明的一个实施例中，具体实施或实验过程如图6所示，即通过研究区域(本例中实验数据来源于重庆市沙坪坝区三峡广场商圈及沙坪坝高铁枢纽站所组成的站城一体化区域)，经过上述实施例中提到的数据处理后，提取指标集A和指标集B数据，再根据XGboost算法，根据重要度综合排序，选出前十的指标小集，如上表7所示，分别重新构建指标集A1和指标集B1，将筛选后的影响因素训练集与预处理后的出租车订单数据进行整合作为随机森林预测模型所需要的训练样本库，根随机森林模型预测的结果如下表8所示。

表8不同指标集预测结果

为了评价预测模型的效果，以均方误差(MSE)、绝对误差(MAE)以及平均绝对误差百分比(MAPE)为评价指标，来对两个指标集所得预测结果进行评价，如下表9所示。

表9预测评价指标值

由三个评价指标的定理可知，三个评价指标的数值越小，则预测精度就越高，预测值就越准。对比表9所得数值，可以发现，指标集A1所得的所有评价参数皆小于指标集B1所得评价参数，三个指标分别相较于指标集B1提升了61.3％，33.1％以及35.8％。因此运用本发明的方法，对预测的准确率有较高的提升。

上面将本发明的方法步骤介绍完毕。值得说明的是，上述提到的具体实施方式，比如 S1提到获取研究区域的实施方式，S2提到的选择留存率与其搭配的一个或多个其它预测参数、比如Movemile上一小时平均行驶距离；Emptymile上一小时平均空驶距离；Train_all 全天各时段高铁到发班次数，S3提到XGBoost算法对权重分析和对指标的选择方式，S4提到的运用的随机森林算法，都有本领域人员不需要创造性劳动即可替换的实施方式，并且这些实施方式在各个步骤都可以任意选择或者不选择，相互组合或结合组成的步骤，比如图5，图6所示，也应在本发明权利的保护范围之内。

另外，本发明的方法，尤其是通过本发明的方法训练的目标预测模型，可以运用于设备或者可储存介质，发挥商业或者其它价值，给人们来带便利，目标模型可以在不同的公司训练，然后直接将利用本发明提到的方法，训练好的目标模型存储在设备或者可读存储介质中，达到预设时间段人控交通工具需求量的目的即：

一种电子设备，其特征在于，包括：

至少一个处理模块；以及

与所述至少一个处理模块通信链接的储存模块；其中，

所述储存模块储存有可被所述至少一个处理模块执行的指令，所述指令被所述至少一个处理模块执行，以使所述至少一个处理模块能够执行权利要求1～8中任一项所述的方法中，

以及：

一种储存有指令的可读存储介质，其特征在于，所述指令包括利用如权利要求1～9任一所述的预测区域人控交通工具需求量的方法所构建的目标人控交通工具需求预测模型，以使将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测时，得到预设时间段人控交通工具需求量。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种预测区域人控交通工具需求量的方法，其特征在于，包括：

获取研究区域；

2.如权利要求1所述的预测区域人控交通工具需求量的方法，其特征在于，所述留存率的计算公式为：

3.如权利要求1所述的预测区域人控交通工具需求量的方法，其特征在于，获取研究区域，包括：

根据所述中心枢纽和所述辐射范围，得到所述研究区域。

4.如权利要求1所述的预测区域人控交通工具需求量的方法，其特征在于，根据所述人控交通工具留存率和预测参数集构建训练样本集，包括：

5.如权利要求1所述的预测区域人控交通工具需求量的方法，其特征在于，根据所述人控交通工具留存率和预测参数集构建训练样本集，包括：

6.如权利要求1～5任一所述的预测区域人控交通工具需求量的方法，其特征在于，

通过所述训练样本集对区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型，包括：

7.如权利要求6所述的预测区域人控交通工具需求量的方法，其特征在于，所述初始超参数包括：max_features，最大深度，以及决策树数量。

8.如权利要求6所述的预测区域人控交通工具需求量的方法，其特征在于，将所述人控交通工具留存率、预测参数集和所述初始超参数输入所述区域人控交通工具需求预测模型进行训练，得到目标人控交通工具需求预测模型，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理模块；以及

与所述至少一个处理模块通信链接的储存模块；其中，

10.一种储存有指令的可读存储介质，其特征在于，所述指令包括利用如权利要求1～8任一所述的预测区域人控交通工具需求量的方法所构建的目标人控交通工具需求预测模型，以使将预设时间段的人控交通工具指标参数输入所述目标人控交通工具需求预测模型进行预测时，得到预设时间段人控交通工具需求量。