CN112949939B - 基于随机森林模型的出租车载客热点预测方法 - Google Patents

基于随机森林模型的出租车载客热点预测方法 Download PDF

Info

Publication number
CN112949939B
CN112949939B CN202110337954.1A CN202110337954A CN112949939B CN 112949939 B CN112949939 B CN 112949939B CN 202110337954 A CN202110337954 A CN 202110337954A CN 112949939 B CN112949939 B CN 112949939B
Authority
CN
China
Prior art keywords
decision tree
features
hot spot
passenger
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337954.1A
Other languages
English (en)
Other versions
CN112949939A (zh
Inventor
张群洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Electronic Information Group Co ltd
Original Assignee
Fuzhou Electronic Information Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Electronic Information Group Co ltd filed Critical Fuzhou Electronic Information Group Co ltd
Priority to CN202110337954.1A priority Critical patent/CN112949939B/zh
Publication of CN112949939A publication Critical patent/CN112949939A/zh
Application granted granted Critical
Publication of CN112949939B publication Critical patent/CN112949939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供的基于随机森林模型的出租车载客热点预测方法,通过根据公交站点构建泰森多边形,并对每个泰森多边形按预设规则构建多变量的预测数据集;根据所述预测数据集构建得到多个训练样本;分别为每个训练样本建立用于分类的决策树,并根据所述决策树得到相应的预测值;根据所有的预测值对出租车载客热点进行预测,综合考虑了历史时间属性、星期属性、空间属性、公交客流、基于随机森林模型的出租车载客热点预测方法天气因素、是否节假日和功能区等影响因素,预测精度高,而且结合max_features的最优值,降低了模型使用的难度和误差。

Description

基于随机森林模型的出租车载客热点预测方法
技术领域
本发明涉及城市交通技术领域,特别涉及基于随机森林模型的出租车载客热点预测方法。
背景技术
公共交通出行方式是缓解城市拥堵的重要的手段,由于城市的复杂性和居民的出行需求不断增加,导致了城市中乘客“打车难”和司机“寻客难”等问题。随着大数据时代的到来和位置服务技术的发展,浮动车轨迹数据成为了研究公共交通出行模式的理想数据源和决策依据。出租车载客热点预测与推荐,为出租车司机提供快速寻客方案和载客热点推荐,对于降低出租车的空驶里程,避免出租车供需不平衡,提高乘客出行效率,提高出租车司机收入和缓解城市的交通拥堵问题具有非常重要的意义。
因此,需要基于随机森林模型的出租车载客热点预测方法,能够提高出租车载客热点预测的精度。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供的基于随机森林模型的出租车载客热点预测方法,能够提高出租车载客热点预测的精度。
(二)技术方案
为了达到上述目的,本发明采用的技术方案为:
基于随机森林模型的出租车载客热点预测方法,其特征在于,包括步骤:
S1、根据公交站点构建泰森多边形,并对每个泰森多边形按预设规则构建多变量的预测数据集;
S2、根据所述预测数据集构建得到多个训练样本;
S3、分别为每个训练样本建立用于分类的决策树,并根据所述决策树得到相应的预测值;
S4、根据所有的预测值对出租车载客热点进行预测。
(三)有益效果
本发明的有益效果在于:通过根据公交站点构建泰森多边形,并对每个泰森多边形按预设规则构建多变量的预测数据集;根据所述预测数据集构建得到多个训练样本;分别为每个训练样本建立用于分类的决策树,并根据所述决策树得到相应的预测值;根据所有的预测值对出租车载客热点进行预测,综合考虑了历史时间属性、星期属性、空间属性、公交客流、天气因素、是否节假日和功能区等影响因素,预测精度高,而且结合max_features的最优值,降低了模型使用的难度和误差。
附图说明
图1为本发明实施例的基于随机森林模型的出租车载客热点预测方法流程图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
请参照图1,基于随机森林模型的出租车载客热点预测方法,包括步骤:
S1、根据公交站点构建泰森多边形,并对每个泰森多边形按预设规则构建多变量的预测数据集;
步骤S1具体为:
根据公交站点构建泰森多边形,并对每个泰森多边形按星期、时段统计每个泰森多边形公交上/下客数量以及出租载客数量构建多变量的预测数据集。
S2、根据所述预测数据集构建得到多个训练样本;
步骤S2具体为:
以有放回抽样方法随机抽取大小为预测数据集2/3的N个训练样本。
S3、分别为每个训练样本建立用于分类的决策树,并根据所述决策树得到相应的预测值;
步骤S3具体为:
S31、分别根据每个训练样本中特征的数目max_features,确定决策树上一个节点的决策结果;
其中max_features表示训练样本的个数,M表示特征的数目,且max_features<M,所述特征具体包括历史时间属性、星期属性、空间属性、公交客流、天气因素、是否节假日和功能区;
S32、根据所述决策结果对于每一个节点,随机选择max_features个特征得到相应的决策树,并根据所述决策树得到相应的预测值。
具体地,在一个构建好的决策树中,通过输入样本的特征数目,可以获得决策结果,整个算法过程就是在执行这个过程来获得预测值。
步骤S3还包括:
S33、从预测数据集中以有放回抽样方式,取样max_features次,形成一个测试集,并根据所述测试集对所述决策树进行评估,判断误差是否小于预设值;
若误差小于预设值,则根据所述决策树得到相应的预测值。
S4、根据所有的预测值对出租车载客热点进行预测。
步骤S4具体包括:
S41、取所有的预测值取的平均值作为最终预测值;
S42、根据所述最终预测值进行载客核密度分析,并根据分析结果提取等值线;
S44、根据所述等值线设定阈值提取载客热点区域和载客热点。
实施例二
本实施例和实施例一的区别在于,本实施例将结合具体的应用场景进一步说明本发明上述基于随机森林模型的出租车载客热点预测方法是如何实现的:
1、根据公交站点构建泰森多边形,并对每个泰森多边形按星期、时段统计每个泰森多边形公交上/下客数量以及出租载客数量构建多变量的预测数据集。
预测数据集的采集方式如表1所示:
表1
Figure BDA0002998337160000041
Figure BDA0002998337160000051
2、以有放回抽样方法随机抽取大小为预测数据集2/3的N个训练样本。
具体地,将选中的2/3的数据作为袋内数据,(In-bag),把剩余的未被选中的数据称为袋外(out of bag,OOB)的数据,OOB数据不参与回归树的训练。
3.1、分别根据每个训练样本中特征的数目max_features,确定决策树上一个节点的决策结果;
其中max_features表示训练样本的个数,M表示特征的数目,且max_features<M,所述特征具体包括历史时间属性、星期属性、空间属性、公交客流、天气因素、是否节假日和功能区;
3.2、根据所述决策结果对于每一个节点,随机选择max_features个特征得到相应的决策树,并根据所述决策树得到相应的预测值。
3.3、从预测数据集中以有放回抽样方式,取样max_features次,形成一个测试集,并根据所述测试集对所述决策树进行评估,判断误差是否小于预设值;
若误差小于预设值,则根据所述决策树得到相应的预测值。
具体地,为每个预测训练集建立用于分类的决策树,建立由N棵CART决策树组成的森林,在每棵树成长过程中,从全部的M个特征变量中随机抽选m个(m≤M)属性,内部节点分支的选择使用Gini系数最小原则。
4.1、取所有的预测值取的平均值作为最终预测值;
4.2、根据所述最终预测值进行载客核密度分析,并根据分析结果提取等值线;
4.4、根据所述等值线设定阈值提取载客热点区域和载客热点。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (2)

1.基于随机森林模型的出租车载客热点预测方法,其特征在于,包括步骤:
S1、根据公交站点构建泰森多边形,并对每个泰森多边形按预设规则构建多变量的预测数据集;
步骤S1具体为:
根据公交站点构建泰森多边形,并对每个泰森多边形按星期、时段统计每个泰森多边形公交上/下客数量以及出租载客数量构建多变量的预测数据集;
S2、根据所述预测数据集构建得到多个训练样本;
S3、分别为每个训练样本建立用于分类的决策树,并根据所述决策树得到相应的预测值;
步骤S3具体为:
S31、分别根据每个训练样本中特征的数目max_features,确定决策树上一个节点的决策结果;
其中M表示特征的总数目,且max_features<M,所述特征具体包括历史时间属性、星期属性、空间属性、公交客流、天气因素、是否节假日和功能区;
S32、根据所述决策结果对于每一个节点,随机选择max_features个特征得到相应的决策树,并根据所述决策树得到相应的预测值;
步骤S3还包括:
S33、从预测数据集中以有放回抽样方式,取样max_features次,形成一个测试集,并根据所述测试集对所述决策树进行评估,判断误差是否小于预设值;
若误差小于预设值,则根据所述决策树得到相应的预测值;
S4、根据所有的预测值对出租车载客热点进行预测;
步骤S4具体包括:
S41、取所有的预测值取的平均值作为最终预测值;
S42、根据所述最终预测值进行载客核密度分析,并根据分析结果提取等值线;
S44、根据所述等值线设定阈值提取载客热点区域和载客热点。
2.根据权利要求1所述的基于随机森林模型的出租车载客热点预测方法,其特征在于,步骤S2具体为:
以有放回抽样方法随机抽取大小为预测数据集2/3的N个训练样本。
CN202110337954.1A 2021-03-30 2021-03-30 基于随机森林模型的出租车载客热点预测方法 Active CN112949939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337954.1A CN112949939B (zh) 2021-03-30 2021-03-30 基于随机森林模型的出租车载客热点预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337954.1A CN112949939B (zh) 2021-03-30 2021-03-30 基于随机森林模型的出租车载客热点预测方法

Publications (2)

Publication Number Publication Date
CN112949939A CN112949939A (zh) 2021-06-11
CN112949939B true CN112949939B (zh) 2022-12-06

Family

ID=76227827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337954.1A Active CN112949939B (zh) 2021-03-30 2021-03-30 基于随机森林模型的出租车载客热点预测方法

Country Status (1)

Country Link
CN (1) CN112949939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239929A (zh) * 2021-11-30 2022-03-25 东南大学 一种基于随机森林的出租车交通需求特征预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304973A (zh) * 2018-02-11 2018-07-20 中国农业大学 基于积温、辐射和土壤含水量的区域作物成熟期预测方法
CN110929926A (zh) * 2019-11-18 2020-03-27 西北工业大学 基于长短期记忆网络和随机森林的短期爆炸客流预测方法
CN111178633A (zh) * 2019-12-31 2020-05-19 上饶市中科院云计算中心大数据研究院 基于随机森林算法预测景区客流量的方法和装置
CN112070529A (zh) * 2020-08-24 2020-12-11 贵州民族大学 载客热点并行预测方法、系统、终端及计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563540B (zh) * 2017-07-25 2021-03-30 中南大学 一种基于随机森林的短时公交上车客流量的预测方法
CN109035770B (zh) * 2018-07-31 2022-01-04 上海世脉信息科技有限公司 一种大数据环境下公交载客量实时分析预测方法
FR3085218B1 (fr) * 2018-08-24 2022-04-08 Thales Sa Procede et systeme de prediction quasi temps reel d'au moins un indicateur de fonctionnement d'un reseau de transport de passagers
CN110322694A (zh) * 2019-07-16 2019-10-11 青岛海信网络科技股份有限公司 一种城市交通控制片区划分的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304973A (zh) * 2018-02-11 2018-07-20 中国农业大学 基于积温、辐射和土壤含水量的区域作物成熟期预测方法
CN110929926A (zh) * 2019-11-18 2020-03-27 西北工业大学 基于长短期记忆网络和随机森林的短期爆炸客流预测方法
CN111178633A (zh) * 2019-12-31 2020-05-19 上饶市中科院云计算中心大数据研究院 基于随机森林算法预测景区客流量的方法和装置
CN112070529A (zh) * 2020-08-24 2020-12-11 贵州民族大学 载客热点并行预测方法、系统、终端及计算机存储介质

Also Published As

Publication number Publication date
CN112949939A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN105788260B (zh) 一种基于智能公交系统数据的公交乘客od推算方法
CN106875670B (zh) Spark平台下基于GPS数据的出租车调配方法
CN110309962A (zh) 基于时间扩展模型的铁路行程路线规划方法及装置
CN110836675A (zh) 一种基于决策树的自动驾驶搜索决策方法
US20220215749A1 (en) Method for predicting at least one profile of the speed of a vehicle on a road network
CN101295326A (zh) 基于gps数据生成od矩阵的方法及其交通仿真的方法
CN112036757A (zh) 基于手机信令和浮动车数据的停车换乘停车场的选址方法
CN112949939B (zh) 基于随机森林模型的出租车载客热点预测方法
CN112419131A (zh) 交通起讫点需求估算方法
CN113642768A (zh) 一种基于工况重构的车辆行驶能耗预测方法
CN112507624A (zh) 一种城际公路出行方式识别模型构建、识别方法及装置
CN113379159B (zh) 基于灰色模型和马尔可夫决策过程的出租车司机寻客路线推荐方法
CN116402420A (zh) 用于运输车辆的智能网络管理与调度方法及系统
CN114723596A (zh) 一种基于多源交通出行数据和主题模型的城市功能区识别方法
CN109117989B (zh) 一种任务匹配时的预测方法及装置
CN110598971A (zh) 一种基于蚁群算法的响应式公交服务规划方法
CN107194505B (zh) 一种基于城市大数据预测公共汽车出行量的方法和系统
CN112258029A (zh) 地铁站周边共享单车的需求预测方法
Ali et al. Reducing CO2 emission using EDA and weighted sum model in smart parking system
CN109741597B (zh) 一种基于改进深度森林的公交车路段运行时间预测方法
CN115713206A (zh) 一种公交个体出行决策模型
CN113449780B (zh) 基于随机森林和lstm神经网络的路内泊位占有率预测方法
CN112926809B (zh) 一种基于聚类和改进的xgboost的航班流量预测方法及系统
CN115565376A (zh) 融合graph2vec、双层LSTM的车辆行程时间预测方法及系统
CN110175656B (zh) 基于城市群白货流量的提高列车编组效率的城市聚类模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant