CN109003128A - 基于改进的随机森林公共自行车站点需求量预测方法 - Google Patents
基于改进的随机森林公共自行车站点需求量预测方法 Download PDFInfo
- Publication number
- CN109003128A CN109003128A CN201810740582.5A CN201810740582A CN109003128A CN 109003128 A CN109003128 A CN 109003128A CN 201810740582 A CN201810740582 A CN 201810740582A CN 109003128 A CN109003128 A CN 109003128A
- Authority
- CN
- China
- Prior art keywords
- website
- random forest
- data
- demand
- demand forecast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
一种基于改进的随机森林公共自行车站点需求量预测方法,属于回归预测和智能优化领域。首先利用统计学习方法对变量进行分析,筛选出核心特征;接下来用分层聚类算法进行时空聚类,降低不同预测模型之间的相关性,然后利用对数优化方法对异常数据进行转换,减少异常数据对预测性能的影响,并利用泛化性能较好的随机森林构建预测模型。利用所建模型对未来一天中不同站点各个时段的自行车需求量进行了预测。经过真实数据验证,该方法对需求量预测具有较好的预测结果,可为实际车辆调度提供参考依据。提升了随机森林中各决策树的预测性能。
Description
技术领域
本发明属于回归预测和智能优化领域,特别涉及一种基于改进的随机森林公共自行车站点需求量预测方法.
背景技术
随着快速城市化和机动化进程的推进促成了国内外城市公共自行车系统的发展,城市公共自行车的出现不仅很大程度上缓解了交通压力,更以方便快捷、低碳环保的优点逐渐被众人欢迎。公共自行车系统是公共交通体系的重要组成部分,有效的解决城市居民出行“最后1公里”的问题.在其迅猛发展,为市民提供交通方便的同时,由于交通的潮汐性以及车辆调度的不及时,也面临着高峰时段的站点间不平衡问题。
无论是系统的布局优化还是系统车辆调度研究都离不开站点需求量,因此准确、高效的对需求量进行预测为系统布局及车辆调度奠定了基础。公共自行车交通不仅在时间和空间方面都是高度动态和相互关联的,而且还受时间和气象等复杂问题的影响,其需求量数据实际上是一个非线性的时间序列,以上研究通过概率回归和非线性拟合等方式得到历史数据的简单映射,但没有探究数据之间存在的时空联系;其次由于用户通常在临时的基础上选择靠近其来源或目的地的站点,所以预测单个站点的需求是困难的。现有的车站级自行车需求预测方法通常具有相对较低的精度。
发明内容
为了提高预测的精确度,本发明提出的基于改进的随机森林公共自行车站点需求量预测方法,对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,运用分层聚类算法和对数优化提升随机森林中各决策树的预测性能。
本发明的技术方案如下:
1、将用户用车数据、站点状态数据和气象数据进行融合处理;所述融合处理步骤是:
(1)删除用户用车数据中的重复数据,只保留一条;
(2)将相同时间间隔的出行记录进行计数,统计相同时间间隔的出行记录数,并与天气数据相对应。
2、对数据进行分析处理,筛选出重要属性特征:对时间因子进行分析,通过图像分析,找出影响需求量的时间因子特征;对气象因子进行分析,通过皮尔森相关系数,找出与需求量关联较大的气象属性特征。
3、对站点的出行数据进行分析,找出预测站点的关联站点:采用数据统计分析方法,统计出与预测站点借还次数最多的站点作为预测站点的相关站点;将相关站点的需求量信息作为输入信息,输入随机森林模型。
4、对站点的地理位置和转换矩阵进行时空聚类:Si为第i个站点,Ci为第i个集群,为站点的转换矩阵,具体步骤如下:首先对地理位置聚类,根据站点经纬度信息将所有站点聚为K1类。接下来生成转换矩阵,在第一步地理位置聚类的基础上,每个站点生成自身的转换矩阵。每一行代表在t时刻从第Si站点出借的自行车还到类Ci站点的可能性。最后是转换矩阵聚类。在生成转换矩阵后,将站点聚为K2类。就是最终的聚类结果。
5、对异常数据进行对数优化处理,消除异常值的影响:首先将原变量(count)加一,确保其不为零;然后取新变量的对数,即new count=log(count+1);
接下来运用新变量建立随机森林模型。最后将预测值返回原格式,即new predictcount=exp(predict count)-1。
6、将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能。
即,将时间因子(月份、周、小时、高峰时刻、工作日、节假日),气象因子(温度,湿度,风速,天气类型)以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能,以预测公共自行车需求量。
本发明以随机森林算法为方法构建自行车需求量预测模型。依托于租赁点日常自行车使用情况的详细统计数据,使用分层聚类算法将站点的两个因素(地理位置和车辆转换)进行聚类,得到站点的相关站点簇,对不同的簇分别建立预测模型,使得模型对同一簇内的数据更有针对性,从而提高预测精度;也对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升了随机森林中各决策树的预测性能。
附图说明
图1是本发明的网络架构图。
图2是本发明需求量时序变化规律。
图3是起始站点为70号站点的关联站点分析图。
图4是终止站点为70号站点的关联站点分析图。
图5是站点间网络关系图。
图6是层次聚类算法流程图。
图7是随机森林参数选择图。
具体实施方式
参照图1,基于随机森林和时空聚类的需求量预测模型方法架构如图所示:本发明对预测站点自行车需求量变化的时空规律,气象因素以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能。
下面通过一个实施例对本发明作进一步说明,其目的仅在于更好地理解本发明的研究内容而非限制本发明的保护范围。具体技术步骤如下:
1)本实例使用的数据为2013年8月至2016年8月加利福尼亚湾区的数据,地理位置及站点分布情况如图7所示。训练数据使用70号站点2013年8月1日至2015年12月31日骑行数据和气象数据,测试数据使用2016年1月1日至2016年8月31日。
2)公共自行车使用量受时间影响,进行时序变化规律分析,结果如图2所示。工作日的交通情况类似:包括早高峰时段,白天时段,晚高峰时段和夜间时段,而周末/假日段的时段相似:包括夜间时段,旅行时段和晚时段。工作日的整个交通量比周末/假日的交通量要大得多,而在高峰时间/旅行时间内的交通量要比其他时间段的要大得多。尽管各站点之间自行车使用情况有所差异,但它们均与时间因素密切相关。因此,星期几,一天中的时间,工作日与否是自行车流量预测的重要特征。
3)自行车是一种受气象影响显著的交通工具。表1所示为2013年至2015年湾区公共自行车系统70号站点需求量与五种气象因子的相关性分析。由表可得,自行车需求量与五种气象因子都存在相关性,与温度、云量、天气情况均呈现显著正相关性,而同湿度、风速呈现负相关性。自行车需求量与风速和天气情况的相关性最高,分别为-0.26与0.36。
表1需求量与气象因子的相关系数
4)用户从某一租赁点租车,若干时间后还至附近另一租赁点,这种流动行为使得租赁点与租赁点之间存在一定的关联:其中一个租赁点当前时刻的还车量与另一租赁点若干时间之前的租车量之间有一定的相关性。具体来讲一个站点的关联站点是通过两站点间的出行次数确定的。因此,预测某站点某时段需求量时,输入变量还应考虑与该站点有关联的其它站点的需求量。如图3、图4所示为美国湾区70号站点与其他站点之间的的关联性。由图3可知,从70号站点开始骑行的用户,大多会在50、55号站点结束骑行;由图4可知,当用户在70号站点结束骑行时,起始站点一般为50、55号站点。
5)自行车需求量不仅受位置的影响,也受相关站点的影响。我们根据67个站点的路径转换信息描述站点间的关系,如图5所示。图5表明,站点间存在复杂网络特性。本文根据站点的地理位置和路径转换信息采用K-means算法进行聚类,图6表示了两次聚类算法的过程,该算法有机的结合了两因素:站点的位置和转换关系。
6)当数据有异常值时,变量的对数是减少数据变异性的有效手段。在构建随机森林模型时,目标变量:自行车需求量(count)具有一些异常值。数据波动较大,使用此类数据会降低模型的准确性。为了解决这个问题,对目标变量应用对数变换。数据的对数优化分为以下四步:将原变量(count)加一,确保其不为零;取加1后变量的对数作为新变量,即log(count+1);运用新变量建立随机森林模型;将预测值返回原格式,即exp(新变量)-1。
7)将时间因子(月份、周、小时、高峰时刻、工作日、节假日),气象因子(温度,湿度,风速,天气类型),关联站点系信息和聚类结果作为预测模型的输入数据,并进行对数优化以预测公共自行车需求量。
8)影响随机森林算法性能最主要有两个,分别是随机森林算法树的数量以及构建树时所用特征的数量,图7展示了使用不同参数构建随机森林预测模型的结果,考虑到时间消耗以及模型的精确度,采用树的数量为180,特征数量为5来构建预测模型。
9)为了验证本实例所选择特征和算法组合的有效性,分别使用特征或算法的组合构建预测模型并使用上述测试集进行测试,结果由表2所示。由表可得,每在模型中加入一个特征或算法,自行车需求量预测结果的均方根误差和均方根对数误差均会得到显著降低。
表2特征与算法选择结果
10)本实施例将改进的随机森林算法与其他机器学习算法进行了比较。结果如表3所示。由表3可得,本文提出的模型在均方根误差、均方根对数误差均比以前的模型有明显的提升,表明本发明所提出的模型与其他预测模型相比,具有更高的预测精度。
表3算法效果对比
综合上述实验结果可以看出,本文所提出的自行车需求量预测模型在真实数据集上得到了良好的运行效果。
Claims (7)
1.一种基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:包括以下步骤:
将用户用车数据、站点状态数据和气象数据进行融合处理;
对数据进行分析处理,筛选出重要属性特征;
对站点的出行数据进行分析,找出预测站点的关联站点;
对站点的地理位置和转换矩阵进行时空聚类;
对异常数据进行对数优化处理,消除异常值的影响;
将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能。
2.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述融合处理步骤是:
(1)删除用户用车数据中的重复数据,只保留一条;
(2)将相同时间间隔的出行记录进行计数,统计相同时间间隔的出行记录数,并与天气数据相对应。
3.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤2)对数据进行分析处理,筛选出重要属性特征的具体步骤如下:
1)对时间因子进行分析,通过图像分析,找出影响需求量的时间因子特征;
2)对气象因子进行分析,通过皮尔森相关系数,找出与需求量关联较大的气象属性特征。
4.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤3)对站点的出行数据进行分析,找出预测站点的关联站点,具体步骤如下:
1)采用数据统计分析方法,统计出与预测站点借还次数最多的站点作为预测站点的相关站点;
2)将相关站点的需求量信息作为输入信息,输入随机森林模型。
5.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法, Si为第i个站点,Ci为第i个集群,为站点的转换矩阵,其特征在于:所述步骤4)对站点的地理位置和转换矩阵进行时空聚类,
具体步骤如下:
1)地理位置聚类;
首先根据站点经纬度信息将所有站点聚为K1类;
2)转换矩阵的生成;
在第一步地理位置聚类的基础上,每个站点生成自身的转换矩阵;
每一行代表在t时刻从第Si站点出借的自行车还到类Ci站点的可能性;
3)转换矩阵聚类;
在生成转换矩阵 后,将站点聚为K2类;
就是最终的聚类结果。
6.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤5)对异常数据进行对数优化处理,消除异常值的影响;,具体步骤如下:
将原变量count加一,确保原变量count不为零;
取新变量的对数,即new count = log(count+1);
运用新变量建立随机森林模型;
将预测值返回原格式,即 new predict count = exp(predict count)- 1。
7.根据权利要求1所述的基于改进的随机森林公共自行车站点需求量预测方法,其特征在于:所述步骤6)将上述分析结果作为随机森林的输入,提升随机森林中各决策树的预测性能,即将时间因子、气象因子以及关联站点数据进行分析并作为特征因子加入预测模型,结合分层聚类算法和对数优化提升随机森林中各决策树的预测性能,以预测公共自行车需求量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810740582.5A CN109003128A (zh) | 2018-07-07 | 2018-07-07 | 基于改进的随机森林公共自行车站点需求量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810740582.5A CN109003128A (zh) | 2018-07-07 | 2018-07-07 | 基于改进的随机森林公共自行车站点需求量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109003128A true CN109003128A (zh) | 2018-12-14 |
Family
ID=64599918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810740582.5A Pending CN109003128A (zh) | 2018-07-07 | 2018-07-07 | 基于改进的随机森林公共自行车站点需求量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109003128A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767291A (zh) * | 2018-12-19 | 2019-05-17 | 东南大学 | 面向弹性停车激励机制的共享停车方法 |
CN110263783A (zh) * | 2019-05-27 | 2019-09-20 | 华东师范大学 | 基于深度学习的多特征充电选址影响因素分析方法及系统 |
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
CN112883564A (zh) * | 2021-02-01 | 2021-06-01 | 中国海洋大学 | 一种基于随机森林的水体温度预测方法及预测系统 |
CN113988488A (zh) * | 2021-12-27 | 2022-01-28 | 上海一嗨成山汽车租赁南京有限公司 | 一种多因子预测车辆通过etc概率的方法 |
CN117455553A (zh) * | 2023-12-08 | 2024-01-26 | 青岛理工大学 | 一种地铁站客流量预测的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045673A (zh) * | 2017-03-31 | 2017-08-15 | 杭州电子科技大学 | 基于堆模型融合的公共自行车流量变化量预测方法 |
CN108038578A (zh) * | 2017-12-28 | 2018-05-15 | 东南大学 | 基于需求预测和中心辐射网络的公共自行车静态调度方法 |
-
2018
- 2018-07-07 CN CN201810740582.5A patent/CN109003128A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107045673A (zh) * | 2017-03-31 | 2017-08-15 | 杭州电子科技大学 | 基于堆模型融合的公共自行车流量变化量预测方法 |
CN108038578A (zh) * | 2017-12-28 | 2018-05-15 | 东南大学 | 基于需求预测和中心辐射网络的公共自行车静态调度方法 |
Non-Patent Citations (2)
Title |
---|
AKSHAY PATIL1等: "Bike Share Demand Prediction using RandomForests", 《INTERNATIONAL JOURNAL OF INNOVATIVE SCIENCE, ENGINEERING & TECHNOLOGY》 * |
CHANGYONG FENG等: "Log-transformation and its implications for data analysis", 《SHANGHAI ARCHIVES OF PSYCHIATRY》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767291A (zh) * | 2018-12-19 | 2019-05-17 | 东南大学 | 面向弹性停车激励机制的共享停车方法 |
CN109767291B (zh) * | 2018-12-19 | 2020-08-25 | 东南大学 | 面向弹性停车激励机制的共享停车方法 |
CN110263783A (zh) * | 2019-05-27 | 2019-09-20 | 华东师范大学 | 基于深度学习的多特征充电选址影响因素分析方法及系统 |
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
CN111242206B (zh) * | 2020-01-08 | 2022-06-17 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
CN112883564A (zh) * | 2021-02-01 | 2021-06-01 | 中国海洋大学 | 一种基于随机森林的水体温度预测方法及预测系统 |
CN113988488A (zh) * | 2021-12-27 | 2022-01-28 | 上海一嗨成山汽车租赁南京有限公司 | 一种多因子预测车辆通过etc概率的方法 |
CN117455553A (zh) * | 2023-12-08 | 2024-01-26 | 青岛理工大学 | 一种地铁站客流量预测的方法 |
CN117455553B (zh) * | 2023-12-08 | 2024-04-30 | 青岛理工大学 | 一种地铁站客流量预测的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109003128A (zh) | 基于改进的随机森林公共自行车站点需求量预测方法 | |
WO2022241802A1 (zh) | 复杂路网下的短时交通流量预测方法、存储介质和系统 | |
CN107767659B (zh) | 基于arima模型的共享单车吸引量和发生量预测方法 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN109448361B (zh) | 居民交通出行流量预测系统及其预测方法 | |
CN102117383A (zh) | 一种河流污染实时诊断的方法 | |
CN105303882A (zh) | 基于时空维度动态停车收费策略的停车管理系统及方法 | |
CN103793795B (zh) | 基于gis技术的水电站水电调度计划生成及仿真方法 | |
CN105184455A (zh) | 一种面向城市电力数据分析的高维可视化分析方法 | |
CN111275965B (zh) | 一种基于互联网大数据的实时交通仿真分析系统与方法 | |
Sun | The correlation between green finance and carbon emissions based on improved neural network | |
CN110956807B (zh) | 基于多源数据与滑动窗口组合的高速公路流量预测方法 | |
CN104320789B (zh) | 一种基于博弈论的车联网rsu最优配置方法 | |
CN106507315A (zh) | 一种基于网络社交媒体数据的城市交通事故预测方法和系统 | |
CN101853290A (zh) | 基于地理信息系统的气象服务效益评估方法 | |
CN107704970A (zh) | 一种基于Spark的需求侧负荷预测方法 | |
CN103050016A (zh) | 一种基于混合推荐的交通信号控制方案实时选取方法 | |
Kong et al. | The method and application of big data mining for mobile trajectory of taxi based on MapReduce | |
CN116681176B (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
CN115204477A (zh) | 一种上下文感知图递归网络的自行车流量预测方法 | |
CN116664095B (zh) | 一种基于深度学习的安保巡检预测方法 | |
CN110070720A (zh) | 提高交叉口占道施工区通行能力模型拟合度的计算方法 | |
US20230369857A1 (en) | Methods and systems for power-supply management in smart urban based on internet of things | |
CN107292413A (zh) | 基于大数据和信息融合的电力负荷分析预测系统 | |
CN110633898A (zh) | 一种考虑交通出行碳排放的县域城镇生活圈划分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181214 |
|
WD01 | Invention patent application deemed withdrawn after publication |