CN116862573B - 基于增量训练的城际网约车短期出行需求预测方法及系统 - Google Patents
基于增量训练的城际网约车短期出行需求预测方法及系统 Download PDFInfo
- Publication number
- CN116862573B CN116862573B CN202311132916.8A CN202311132916A CN116862573B CN 116862573 B CN116862573 B CN 116862573B CN 202311132916 A CN202311132916 A CN 202311132916A CN 116862573 B CN116862573 B CN 116862573B
- Authority
- CN
- China
- Prior art keywords
- time
- training
- data set
- measured
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 235000019580 granularity Nutrition 0.000 claims description 63
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000003203 everyday effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于增量训练的城际网约车短期出行需求预测方法及系统,方法包括:获取城际网约车的历史订单数据集,进行处理及选取所需字段形成初步订单数据;将初步订单数据划分为N个不同的即时单数据集和N个不同的预约单数据集;根据即时单数据集构建待测时刻,构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;基于训练数据集对短期出行需求预测模型进行训练;构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本进行增量训练;将测试数据集输入至所述短期出行需求预测模型得到预测总输出。本发明能有效提高城际网约车出行需求预测的准确性。
Description
技术领域
本发明涉及交通预测技术领域,尤其涉及一种基于增量训练的城际网约车短期出行需求预测方法及系统。
背景技术
交通系统是现代城市最重要的基础设施之一,支撑着数百万人的日常通勤和出行,现在社会的正常运转很大程度上依赖于一个高效的交通系统。随着智能手机的普及和中国城市群的发展,居民城际出行需求快速增长,城际网约车服务逐渐兴起。一方面,包含网约拼车在内的城际网约车服务为居民提供了更多便捷实惠的城际出行选择;另一方面,逐渐增长的城际出行需求和长距离的行驶路程加剧了城际网约车的供需不平衡,影响了乘客等待时间,产生了网约车服务效率底下的问题。对于城际网约车运营商来说,采用优选方法精准预测未来的订单需求量,为针对性制定管理政策和公司运营策略提供了参考,有助于提前了解需求发生的时间和位置,便于提前调度车辆,提高乘客的出行体验。
在现实中,城际网约车的出行需求量有较强的周期性,受时间、节假日、天气、交通状况等多种因素影响,具有复杂的非线性。在时间方面,一天之中存在早高峰、平峰期与晚高峰的区别,一周之中存在工作日与非工作日的区别。在节假日的出行需求量往往较大的波动。除此之外,城际出行需求量还与外部因素如天气状况等之间存在密切联系。因此,准确地预测城际网约车出行需求人数,不仅需要充分考虑自身的历史交通数据,还要考虑城际间的时间相关性以及各种外部因素。
发明内容
有鉴于此,本发明的目的在于提供一种基于增量训练的城际网约车短期出行需求预测方法及系统,以改善上述问题。
本发明实施例提供了一种基于增量训练的城际网约车短期出行需求预测方法,包括:
获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据;
对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集;
根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;所述特征包括多种时间特征以及外部环境特征;
基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练;
构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变;
将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
优选地,对所述历史订单数据集进行处理包括:
对所述历史订单数据集进行清洗,以删除无用的数据;其中,所述无用的数据包括重复数据、缺失数据和货件数据。
优选地,选取的所需字段包括:乘客ID、下单时间、预约出发时间、订单类型、人数、订单状态、线路ID、车型。
优选地,对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集,具体包括:
对所述初步订单数据,以tq、2tq、3tq、4tq这4个不同的时间颗粒度划分为4个不同的即时单数据集和4个不同的预约单数据集;其中,
所述即时单为下单时间和预约出发时间都处于待测时刻到待测时刻加上某个时间颗粒度之间的订单;
所述预约单为下单时间在待测时刻之前,预约出发时间在待测时刻到待测时刻加上某个时间颗粒度之间的订单。
优选地,设定待测时刻从第M天后的每天早上T点开始,每次叠加,直到当天结束,根据待测时刻构建短期出行需求预测模型的所需的特征;所述特征包括:
待测时刻所属日期属于周几的特征;
利用One-Hot编码进行数字化得到的天气信息特征;
待测时刻所属日期的节假日信息特征;
待测时刻一周前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
待测时刻两天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
待测时刻一天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
待测时刻的前tq、前2tq、前3tq、前4tq这4个不同的时间颗粒度内的即时单需求量特征;
待测时刻的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征。
优选地,所述短期出行需求预测模型的参数设置采用网格搜索的局部最优参数。
本发明实施例还提供了一种基于增量训练的城际网约车短期出行需求预测系统,其包括:
数据处理单元,用于获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据;
划分单元,用于对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集;
特征构建单元,用于根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;
训练单元,用于基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练;
增量训练单元,用于构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变;
预测单元,用于将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
综上,本发明实施例能够根据历史乘客订单数据挖掘出行特点,在线实时训练更新模型,优化预测方法,预测得到较为精准的出行需求量,可以为运营企业提供决策支持,为提前调度运营车辆提供参考,降低乘客等待时间,保证乘客的出行体验。此外,本实施例能够在线实时增量训练的模型具有不断学习的特点,与现有方法相比,精度高,稳定性强。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的基于增量训练的城际网约车短期出行需求预测方法的流程示意图;
图2为对数据进行清洗的流程示意图;
图3为对初步订单数据按照N个不同的时间颗粒度进行划分的流程示意图;
图4为增量训练的流程示意图;
图5为本发明第二实施例的基于增量训练的城际网约车短期出行需求预测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种基于增量训练的城际网约车短期出行需求预测方法,其可由基于增量训练的城际网约车短期出行需求预测设备(以下简称预测设备)来执行,特别的,由所述预测设备内的一个或者多个处理器来执行,以实现如下步骤:
S101,获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据。
在本实施例中,所述预测设备可为计算机、工作站、服务器等具有数据运算处理能力的计算设备,本发明不做具体限定。
在本实施例中,城际网约车的历史订单数据集可以通过从各个网约车平台获取。其中,在获取到历史订单数据集后,需要对历史订单数据集进行数据清洗以及字段选取。
其中,如图2所示,对历史订单数据集进行清洗,主要是将无用的数据尽可能删除,以确保数据集的质量。通过对历史订单数据集进行观察,发现主要的数据错误形式主要有三种:重复数据、缺失数据和货件数据。
重复数据是指乘客同一天内多次向平台发出打车需求却只履行一次出行或者无出行,重复数据会影响后期数据处理的准确性。因此对于重复的数据,可根据乘客ID的唯一性,若同一乘客在同一天内存在多次出行失败的订单,只保留首次出现失败的订单数据,其他数据予以删除。
缺失数据是指存在趟补单,即系统补贴单的订单,该类型的订单没有起点和终点,是系统用于补贴司机,一般是低峰期或高峰期的一些补贴措施,无实际出行意义。对于缺失数据,根据乘客ID中的系统特殊标识予以删除。
货件数据,是用户下单用于委托城际网约车运营商跨城派送货件,因其不考虑上下车的时间约束,一般认为非正常订单数据,予以删除。
在本实施例中,选取后的字段为:乘客ID、下单时间、预约出发时间、订单类型、人数、订单状态、线路ID、车型。另外,由于本发明实施例所涉及的模型的输入和输出均是出行需求人数,并不是订单数据量。若订单类型为拼车订单,出行需求人数与“人数”字段相关;若订单类型为包车订单,出行需求人数与“车型”字段相关。
需要说明的是,在本实施例中,数据清洗以及字段选取的步骤可以交换,这些均在本发明的保护范围之内。
S102,对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集。
如图3所示,在本实施例中,例如,可以以tq、2tq、3tq、4tq这4个不同的时间颗粒度将初步订单数据划分为4个不同的即时单数据集和4个不同的预约单数据集。例如,tq=30min,则2tq=60min。
本实施例中,即时单为未知单,具有不构建性,用于本实施例的预测。其中,将即时单定位为下单时间和预约出发时间都处于待测时刻到待测时刻加上某个时间颗粒度之间的订单。以待测时刻为8:00,tq=30min举例,若某订单的下单时间和预约时间都处于[8:00,8:30)这个区间内,则称该订单为即时单。
在本实施例中,预约单为已知单,具有构建性,不需要预测。其中,将所述预约单定义为下单时间在待测时刻之前,预约出发时间在待测时刻到待测时刻加上某个时间颗粒度之间的订单。以待测时刻为8:00,tq=30min举例,若某订单的下单时间在8:00之前,预约时间处于[8:00,8:30)这个区间内,则称该订单为预约单。
S103,根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;所述特征包括多种时间特征以及外部环境特征。
在本实施例中,根据S102划分的即时单构建待测时刻,例如,待测时刻设置为从第8天后的每天早上6点开始,每次叠加tq,直到当天结束。则所需的特征包括:
1、待测时刻所属日期属于周几的特征;
2、利用One-Hot编码进行数字化得到的天气信息特征;
3、待测时刻所属日期的节假日信息特征;
4、待测时刻一周前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
5、待测时刻两天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
6、待测时刻一天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
7、待测时刻的前tq、前2 tq、前3 tq、前4 tq这4个不同的时间颗粒度内的即时单需求量特征;
8、待测时刻的后tq、后2 tq、后3 tq、后4 tq这4个不同的时间颗粒度内的即时单需求量特征。
在本实施例中,遍历N个即时单数据集,将提取到的所有特征构成新的特征数据集,并按比例分为训练数据集和测试数据集。
S104,基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练。
在本实施例中,XGBoost是在 Gradient Boosting 框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决数据处理和训练问题。
其中,在训练时,短期出行需求预测模型的参数设置采取的是网格搜索的局部最优参数。特征1-7为模型的输入,特征8为模型的输出。
S105,构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变。
在本实施例中,如图4所示,增量训练是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学到的知识。新的输入数据不断被用于扩展现有模型。
例如:时间颗粒度tq=30min,当前在线实时待测时刻为8:00,则根据8:00的前4tq也就是6:00去获取S103所提及的所有特征作为最新的训练样本加入现有模型的训练,因为[6:00,8:00]该时间段的出行需求已经发生并构建,据此获取的最新样本进行增量训练有助于模型的不断学习。
S106,将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
为验证本发明所提的模型及模型求解的有效性,下面将以一实际的例子来说明本发明的应用。
其中,选取某公司的城际网约车历史订单数据作为研究对象,订单信息包括2023年1月、2023年2月、2023年3月、2023年4月、2023年5月这5个月期间内,A城市和B城市的订单数据,对A城市的出行需求量和B城市的出行需求量分别建模,时间颗粒度tq=30min。其中,A城市和B城市的5个月的原始历史订单数据量如表1所示。
表1. A城市和B城市历史订单数据量
所选取的所需的字段包括:乘客ID、下单时间、预约出发时间、订单类型、人数、订单状态、线路ID、车型,具体见表2。
表2. A城市和B城市订单数据相关字段
对订单数据进行清洗,清洗后的订单数据量如表3所示。
表3. A城市和B城市数据清洗后订单数据量
对划分后的即时单数据集进行进行数据处理,构建训练模型所需的特征,模型特征描述如表4所示。
表4. A城市和B城市模型特征描述
然后,将提取到的所有特征构成新的特征数据集,采用XGBoost训练短期出行需求预测模型并进行保存,A城市和B城市的模型参数设置如表5所示,模型的参数设置采取的是网格搜索的局部最优参数。在构建在线实时增量训练模型时,增量训练的模型参数设置不变。
表5. A城市和B城市出行需求预测模型参数设置
在完成对城际网约车短期出行需求预测模型的训练后,将测试集的数据输入到模型中进行测试,对总预测结果采用的评价指标为均方根误差(RMSE)和平均绝对误差(MAE),RMSE和MAE的值越低,说明模型的预测精度越好,公式如下所示:
其中,是数据的真实值,/>是预测值,n是数据量。
本发明实施例对比了在线实时增量训练的预测模型和无增量训练模型在预测效果上的表现,如表6所示。
表6 .不同方法在预测效果上的表现
对表6的结果进行分析,通过观察对比不同方法的RMSE和MAE,可以发现本实施例的RMSE和MAE均低于无增量训练模型的RMSE和MAE,说明在线实时增量训练模型在A城市和B城市的预测效果上比无增量训练模型的预测效果好,更为精准。
综上,本发明实施例能够根据历史乘客订单数据挖掘出行特点,在线实时训练更新模型,优化预测方法,预测得到较为精准的出行需求量,可以为运营企业提供决策支持,为提前调度运营车辆提供参考,降低乘客等待时间,保证乘客的出行体验。此外,本实施例能够在线实时增量训练的模型具有不断学习的特点,与现有方法相比,精度高,稳定性强。
请参阅图5,本发明第二实施例还提供了一种基于增量训练的城际网约车短期出行需求预测系统,其包括:
数据处理单元210,用于获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据;
划分单元220,用于对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集;
特征构建单元230,用于根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;
训练单元240,用于基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练;
增量训练单元250,用于构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变;
预测单元260,用于将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于增量训练的城际网约车短期出行需求预测方法,其特征在于,包括:
获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据;
对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集;其中,具体包括:对所述初步订单数据,以tq、2tq、3tq、4tq这4个不同的时间颗粒度划分为4个不同的即时单数据集和4个不同的预约单数据集;所述即时单为下单时间和预约出发时间都处于待测时刻到待测时刻加上某个时间颗粒度之间的订单;所述预约单为下单时间在待测时刻之前,预约出发时间在待测时刻到待测时刻加上某个时间颗粒度之间的订单;
根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;所述特征包括多种时间特征以及外部环境特征;其中,设定待测时刻从第M天后的每天早上T点开始,每次叠加tq,直到当天结束,根据待测时刻构建短期出行需求预测模型的所需的特征;所述特征包括:待测时刻所属日期属于周几的特征;利用One-Hot编码进行数字化得到的天气信息特征;待测时刻所属日期的节假日信息特征;待测时刻一周前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻两天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻一天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻的前tq、前2tq、前3tq、前4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练;
构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变;
将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
2.根据权利要求1所述的基于增量训练的城际网约车短期出行需求预测方法,其特征在于,对所述历史订单数据集进行处理包括:
对所述历史订单数据集进行清洗,以删除无用的数据;其中,所述无用的数据包括重复数据、缺失数据和货件数据。
3.根据权利要求1所述的基于增量训练的城际网约车短期出行需求预测方法,其特征在于,选取的所需字段包括:乘客ID、下单时间、预约出发时间、订单类型、人数、订单状态、线路ID、车型。
4.根据权利要求1所述的基于增量训练的城际网约车短期出行需求预测方法,其特征在于,所述短期出行需求预测模型的参数设置采用网格搜索的局部最优参数。
5.一种基于增量训练的城际网约车短期出行需求预测系统,其特征在于,包括:
数据处理单元,用于获取城际网约车的历史订单数据集,对所述历史订单数据集进行处理后,从所述历史订单数据集中选取所需字段的初步订单数据;
划分单元,用于对所述初步订单数据,以N个不同的时间颗粒度划分为N个不同的即时单数据集和N个不同的预约单数据集;其中,划分单元具体用于,对所述初步订单数据,以tq、2tq、3tq、4tq这4个不同的时间颗粒度划分为4个不同的即时单数据集和4个不同的预约单数据集;其中,所述即时单为下单时间和预约出发时间都处于待测时刻到待测时刻加上某个时间颗粒度之间的订单;所述预约单为下单时间在待测时刻之前,预约出发时间在待测时刻到待测时刻加上某个时间颗粒度之间的订单;
特征构建单元,用于根据所述的N个即时单数据集构建待测时刻,进行数据处理并构建训练模型所需的特征,并根据所有的特征构建特征数据集,将特征数据集按比例分为训练数据集和测试数据集;所述特征包括多种时间特征以及外部环境特征;其中,设定待测时刻从第M天后的每天早上T点开始,每次叠加tq,直到当天结束,根据待测时刻构建短期出行需求预测模型的所需的特征;所述特征包括:待测时刻所属日期属于周几的特征;利用One-Hot编码进行数字化得到的天气信息特征;待测时刻所属日期的节假日信息特征;待测时刻一周前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻两天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻一天前的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;待测时刻的前tq、前2tq、前3tq、前4tq这4个不同的时间颗粒度内的即时单需求量特征;
待测时刻的后tq、后2tq、后3tq、后4tq这4个不同的时间颗粒度内的即时单需求量特征;
训练单元,用于基于所述训练数据集,采用XGBoost算法对短期出行需求预测模型进行训练;
增量训练单元,用于构建在线实时增量训练模型,将待测时刻所属日期已知的出行需求数据作为新的训练样本加入训练后的所述短期出行需求预测模型进行增量训练;其中,增量训练的模型参数设置为保持不变;
预测单元,用于将所述测试数据集输入至所述短期出行需求预测模型,以得到N个不同时间颗粒度的输出,将N个不同时间颗粒度的输出分别与其相同时间颗粒度的预约单相加,得到最终的预测总输出。
6.根据权利要求5所述的基于增量训练的城际网约车短期出行需求预测系统,其特征在于,对所述历史订单数据集进行处理包括:
对所述历史订单数据集进行清洗,以删除无用的数据;其中,所述无用的数据包括重复数据、缺失数据和货件数据。
7.根据权利要求5所述的基于增量训练的城际网约车短期出行需求预测系统,其特征在于,选取的所需字段包括:乘客ID、下单时间、预约出发时间、订单类型、人数、订单状态、线路ID、车型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132916.8A CN116862573B (zh) | 2023-09-05 | 2023-09-05 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132916.8A CN116862573B (zh) | 2023-09-05 | 2023-09-05 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116862573A CN116862573A (zh) | 2023-10-10 |
CN116862573B true CN116862573B (zh) | 2023-12-05 |
Family
ID=88223806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311132916.8A Active CN116862573B (zh) | 2023-09-05 | 2023-09-05 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862573B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458336A (zh) * | 2019-07-23 | 2019-11-15 | 内蒙古工业大学 | 一种基于深度学习的网约车供需预测方法 |
CN110599767A (zh) * | 2019-09-04 | 2019-12-20 | 广东工业大学 | 一种基于网约车出行需求的长短期预测方法 |
CN112150207A (zh) * | 2020-09-30 | 2020-12-29 | 武汉大学 | 基于时空上下文注意力网络的网约车订单需求预测方法 |
CN113034195A (zh) * | 2021-04-07 | 2021-06-25 | 西北工业大学 | 一种基于卷积网络和非局部网络的网约车需求预测方法 |
CN113222287A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 网约车需求预测方法、装置、设备及存储介质 |
CN113538067A (zh) * | 2021-08-17 | 2021-10-22 | 华侨大学 | 一种基于机器学习的城际网约车需求预测方法及系统 |
CN114418606A (zh) * | 2021-12-01 | 2022-04-29 | 武汉大学 | 基于时空卷积网络的网约车订单需求预测方法 |
CN114723125A (zh) * | 2022-04-01 | 2022-07-08 | 华侨大学 | 一种结合深度学习和多任务优化的城际车订单分配方法 |
CN114943356A (zh) * | 2022-06-06 | 2022-08-26 | 南京航空航天大学 | 一种机场到港旅客乘坐出租车短时需求集成预测方法 |
WO2022203597A1 (en) * | 2021-03-26 | 2022-09-29 | Singapore Management University | Method and system for taxi demand prediction using a neural network model |
CN115938112A (zh) * | 2022-11-23 | 2023-04-07 | 华侨大学 | 交通需求预测方法、系统、电子设备及计算机存储介质 |
CN115953186A (zh) * | 2023-02-24 | 2023-04-11 | 北京化工大学 | 一种网约车需求模式识别与短时需求预测方法 |
CN116468469A (zh) * | 2023-04-24 | 2023-07-21 | 北京化工大学 | 一种基于改进emd-lstm的网约车需求预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2345857A1 (en) * | 2001-05-01 | 2002-11-01 | Eric Meunier | System and method for automating a vehicle rental process |
-
2023
- 2023-09-05 CN CN202311132916.8A patent/CN116862573B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458336A (zh) * | 2019-07-23 | 2019-11-15 | 内蒙古工业大学 | 一种基于深度学习的网约车供需预测方法 |
CN110599767A (zh) * | 2019-09-04 | 2019-12-20 | 广东工业大学 | 一种基于网约车出行需求的长短期预测方法 |
CN112150207A (zh) * | 2020-09-30 | 2020-12-29 | 武汉大学 | 基于时空上下文注意力网络的网约车订单需求预测方法 |
WO2022203597A1 (en) * | 2021-03-26 | 2022-09-29 | Singapore Management University | Method and system for taxi demand prediction using a neural network model |
CN113034195A (zh) * | 2021-04-07 | 2021-06-25 | 西北工业大学 | 一种基于卷积网络和非局部网络的网约车需求预测方法 |
CN113222287A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 网约车需求预测方法、装置、设备及存储介质 |
CN113538067A (zh) * | 2021-08-17 | 2021-10-22 | 华侨大学 | 一种基于机器学习的城际网约车需求预测方法及系统 |
CN114418606A (zh) * | 2021-12-01 | 2022-04-29 | 武汉大学 | 基于时空卷积网络的网约车订单需求预测方法 |
CN114723125A (zh) * | 2022-04-01 | 2022-07-08 | 华侨大学 | 一种结合深度学习和多任务优化的城际车订单分配方法 |
CN114943356A (zh) * | 2022-06-06 | 2022-08-26 | 南京航空航天大学 | 一种机场到港旅客乘坐出租车短时需求集成预测方法 |
CN115938112A (zh) * | 2022-11-23 | 2023-04-07 | 华侨大学 | 交通需求预测方法、系统、电子设备及计算机存储介质 |
CN115953186A (zh) * | 2023-02-24 | 2023-04-11 | 北京化工大学 | 一种网约车需求模式识别与短时需求预测方法 |
CN116468469A (zh) * | 2023-04-24 | 2023-07-21 | 北京化工大学 | 一种基于改进emd-lstm的网约车需求预测方法 |
Non-Patent Citations (2)
Title |
---|
"RF-BiLSTM Neural Network Incorporating Attention Mechanism for Online Ride-Hailing Demand Forecasting";Xiangmo zhao等;《SYMMETRY-BASEL》;第15卷(第3期);第1-19页 * |
"基于深度学习的网约车需求预测研究";全煜坤;;《汽车实用技术》;第48卷(第16期);第188-193页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116862573A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20140035921A1 (en) | Analysis and visualization of passenger movement in a transportation system | |
Borucka et al. | Mathematical model of travel times related to a transport congestion: an example of the capital city of Poland–Warsaw | |
CN113538067B (zh) | 一种基于机器学习的城际网约车需求预测方法及系统 | |
CN113223291B (zh) | 停车场空闲车位数量预测系统及方法 | |
Petrik et al. | Uncertainty analysis of an activity-based microsimulation model for Singapore | |
CN106127316A (zh) | 自动化车辆保养预估系统 | |
CN115691125A (zh) | 基于城市轨道交通设施系统的可靠度分析方法及相关装置 | |
Duchrow et al. | Towards electric mobility data mining | |
CN116862573B (zh) | 基于增量训练的城际网约车短期出行需求预测方法及系统 | |
CN110796301B (zh) | 一种基于ic卡数据的乘客流量预测方法及装置 | |
Treboux et al. | A predictive data-driven model for traffic-jams forecasting in smart santader city-scale testbed | |
Tu et al. | Analysis and forecast of passenger flow based on public transportation IC card and GPS data | |
CN116128160A (zh) | 一种铁路车站高峰客流预测方法、系统及设备和介质 | |
CN114524004B (zh) | 机车运用统计方法、装置、设备和存储介质 | |
Nasiboglu et al. | Origin-destination matrix generation using smart card data: Case study for Izmir | |
Jia et al. | Setting scheduled trip time based on AVL data | |
CN115829237A (zh) | 交通运输工具调动方法、装置、设备、介质及产品 | |
CN113420960B (zh) | 一种高速公路收费站工作人员调度方法、系统及存储介质 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
CN111476421B (zh) | 订单预测方法、装置、存储介质及设备 | |
Mattson et al. | Marginal cost pricing and subsidy of small urban transit | |
CN108959596B (zh) | 一种公交阶梯票价预测方法 | |
CN117634788B (zh) | 一种数字城市的电气资源和交通监测管理方法、系统和介质 | |
CN113469739B (zh) | 一种用于网约车的打车需求的预测方法及系统 | |
Wang | Taxi scheduling optimization with incomplete information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |