CN114418606B - 基于时空卷积网络的网约车订单需求预测方法 - Google Patents

基于时空卷积网络的网约车订单需求预测方法 Download PDF

Info

Publication number
CN114418606B
CN114418606B CN202111450423.XA CN202111450423A CN114418606B CN 114418606 B CN114418606 B CN 114418606B CN 202111450423 A CN202111450423 A CN 202111450423A CN 114418606 B CN114418606 B CN 114418606B
Authority
CN
China
Prior art keywords
time
convolution
network
space
order data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111450423.XA
Other languages
English (en)
Other versions
CN114418606A (zh
Inventor
乐鹏
罗啊玲
张明达
杨璨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111450423.XA priority Critical patent/CN114418606B/zh
Publication of CN114418606A publication Critical patent/CN114418606A/zh
Application granted granted Critical
Publication of CN114418606B publication Critical patent/CN114418606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时空卷积网络的网约车订单需求预测方法,包括以下步骤:(1)获取各种数据集并进行预处理;(2)将订单数据利用DPC聚类方法将城市划分为多个虚拟站点;将订单数据集按照指定的时间间隔进行切片,并进行标准化处理;将处理后的数据集划分为训练集、验证集和测试集;(3)构建基于时空卷积网络的订单需求预测模型;使用训练集训练模型,利用验证集选择出表现最好的预测模型;(4)在测试集上利用最优预测模型进行订单需求量预测。本发明能够有效地对影响网约车订单需求的时空因素和外部因素进行建模,提升订单需求预测的精度,同时能够缩短用户的候车时间,提升用户出行体验。

Description

基于时空卷积网络的网约车订单需求预测方法
技术领域
本发明涉及智能交通技术和深度学习交叉技术领域,具体涉及基于时空卷积网络的网约车订单需求预测方法。
背景技术
随着城市化的不断加快,人们对于出行的需求与日俱增,因此“打车难”的问题日益严重,供需矛盾问题日益突出。随着网络技术的发展和智能终端的普及,网约车通过互联网技术将车辆供给和需求连接起来,一方面有效地缓解了打车难、司乘供给和需求之间信息不对称等问题。另一方面,网约车有效地满足了乘客的出行需求,凭借其快速、便捷和优质的服务逐渐成为人们出行的首选方式。
由于乘客的出行需求具有波动性和随机性,网约车司机在道路上搜索乘客的行为也有较大的盲目性,这就导致乘客需求和网约车服务之间存在较大的供需矛盾。供需矛盾一方面导致出行乘客的候车时间较长,另一方面导致网约车司机难以较快地搜寻乘客,使得网约车空驶时间和空驶里程增加。虽然现阶段城市网约车的数量十分庞大,但由于网约车平台并不能根据乘客出行需求合理分布和及时调度,城市网约车的空驶率仍然高居不下,“打车难”的情况还是会经常出现。这不但严重影响网约车平台的运营成本,也进一步加剧了城市交通拥堵。
订单需求预测属于时空任务,是典型的图形表示学习任务,其面临的挑战就是复杂的空间依赖性和时间依赖性建模。近几年主流的时空预测方法都是基于图神经网络和循环神经网络(Recurrent Neural Network,RNN)及其变体长短期记忆网络(Long Short-Term Memory networks,LSTM)或门控循环单元神经网络(Gated Recurrent Unit,GRU)在时空预测任务取得了较好的表现,但是这类模型忽略了图神经网络自身存在的局限性,并且训练时需要耗费大量的资源和时间,计算效率低。
发明内容
本发明的目的在于克服现有的订单需求预测方法存在的忽略图神经网络局限性及模型训练费时、效率低问题,提出了一种基于时空卷积网络的网约车订单需求预测方法,能够有效的对时空依赖关系进行建模。此外,理想情况下,本发明应不仅能够应用于订单需求预测这一课题当中,还可以应用于其他时空预测任务。
为了实现上述目的,本发明所设计的基于时空卷积网络的网约车订单需求预测方法,包括以下步骤:
S1:获取各种数据集:包括网约车平台的历史订单数据集,还有POI数据、天气数据和节假日数据这些外部数据,对获得的历史订单数据集进行预处理;
S2:将经过S1预处理后的历史订单数据进行DPC聚类,将城市划分为多个虚拟站点,并定义虚拟站点网络为一个无向图;
将历史订单数据集按照指定的时间间隔进行时间切片,将一个区域的上车量或下车量定义为在固定的时间间隔内在虚拟站点上车或下车的次数,并对历史订单数据集中的订单数据进行标准化处理,将处理后的数据集划分为训练集、验证集和测试集;
S3:构建基于时空卷积网络的订单需求预测模型:由输入层、时间卷积模块、空间卷积模块和输出层组成;
使用S2的训练集训练模型,对得到的训练后的模型利用S2的验证集进行验证,根据验证的结果选择出表现最优的预测模型;
S4:使用S3得到的最优预测模型对S2的测试集进行预测,得到模型的输出结果,对输出结果进行反标准化获得预测的上车辆和下车量,取其中的上车量为最终预测出的订单需求量。
进一步的,所述的步骤S1具体包括;
S1.1:获得网约车平台的原始历史订单数据,包括用户ID、上车点经纬度、下车点经纬度、上车点时间、下车点时间、里程、费用;
S1.2:基于百度公司提供的地图API,对S1.1原始历史订单数据中的上车点位置和下车点位置进行搜索,从而获得上下车点的POI特征;
S1.3:在历史天气网中爬取订单所在地区的历史天气数据,包含天气特征和温度数据;
S1.4:根据历史日历对历史订单数据是否属于周末和节假日进行搜索查询并标记;
S1.5:对S1.1中得到的历史订单数据进行清除的预处理工作。
进一步的,S1.5具体包括;
(1)当历史订单数据存在空值或者缺失数据时,清除该订单数据;
(2)当历史订单数据中的上车点位置或下车点位置超出该城市所在的经纬度范围时,认为该订单数据异常,删除该订单数据;
(3)当历史订单数据中的上车点时间和下车点时间之间的时间间隔过长,超过一定的阈值后,同样认为该订单数据异常,删除该订单数据;
(4)清除历史订单数据中不需要的信息,每一条订单数据只需要保留其起终点位置和时间。
进一步的,所述的步骤S2具体包括;
S2.1:将S1预处理后的历史订单数据利用密度峰值聚类方法,设定合理阈值,聚类出城市的N个虚拟站点S={s1,s2,...,sN},根据虚拟站点可将城市现实场景中的路网结构进行划分;
S2.2:定义虚拟站点网络为一个无向图,表示为G=(V,E,A),其中V代表图的一系列节点|V|=N,是S2.1中聚类出来的虚拟站点,E是一系列边,表示节点间的连接;A∈RN×N是图的邻接矩阵,由节点间的距离表示,计算虚拟站点之间的成对距离:其中Wij为虚拟站点vi与虚拟站点vj之间的边的权值,dist(vi,vj)表示从vi到vj的“路网”距离,σ为距离的标准差;
S2.3:根据预设的时间间隔将历史订单数据进行时间切片分成分为T个不重叠的时间间隔,并将时间间隔定义为
S2.4:使用二元组(τ,s)定义时空坐标,其中τ代表时间,s代表站点,将任意的一个对象的行程的上车和下车分别定义为:p=(τp,sp),d=(τd,sd),(p,d)表示上下车对,是所有的上下车对;将一个区域的上车量或下车量定义为在固定的时间间隔内在该虚拟站点上车或下车的次数;给定所有的上下车对/>则/>和/>代表虚拟站点i在时间间隔t内的上车量和下车量:
S2.5:采用Z-score标准化方法,通过去除均值和按单位方差缩放来标准化上车量和下车量:x代表上车量或下车量,/>是x的均值,σ=std(x)是x的标准差,x*是经过标准化后的上下车量;
S2.6:将标准化后的订单数据进行划分,得到训练集、验证集、测试集。
进一步的,所述的步骤S3具体包括;
S3.1:输入层将包含了邻近、日周期和周周期时间的订单需求数据与S1中得到的各种外部数据进行拼接,将拼接后的数据输入到时间卷积模块中捕捉时间依赖,其中邻近表示预测时刻的前几个小时,日周期表示每日相对时间间隔,周周期每周相对时间间隔;
S3.2:时间卷积模块由多个时间块组成,每个时间块又由堆叠的时间卷积层组成,时间卷积层是通过门控时间卷积网络TCN实现,用于捕捉不同级别的时间信息;
S3.3:空间卷积模块包括一个空间块,空间块也由堆叠的空间卷积层组成,空间卷积层是通过空间图卷积实现;
S3.4:将S3.3的输出输入到输出层中,为了能够实现多步预测的目标,输出层由多层感知器MLP和两个1×1标准卷积层组成,将输入的时间和通道维度转换为所要预测的输出维度;
S3.5:使用S2中划分好的历史订单数据训练集训练S3.1~S3.4构建的基于时空卷积的订单需求预测模型,最终得到经过训练后的预测模型;
S3.6:对于训练后的预测模型,将S2的验证集输入其中进行验证,当损失函数达到一个新的最小值时,认为此时模型的表现最好;
S3.7:在验证集进行验证的过程中,模型会根据验证计算的最小RMSE提前停止模型的训练算法:当验证的epochs最大达到N个时,还无法再次取得一个新的最小RMSE时,模型就会提前停止训练,将最小RMSE对应的模型保存为表现最优的预测模型。
进一步的,S3的训练和验证过程中,损失函数使用均方根误差,其定义如下:
其中n为所有样本的总数,和/>分别为在时间间隔t所预测的订单需求和相应的真实值。
进一步的,步骤3.2中门控时间卷积网络TCN的具体内容如下;
(1)门控时间卷积网络中使用混合扩张卷积(HDC)替代普通的一维扩张卷积用于减轻网格效应的影响,对比普通的扩张卷积,其包含以下三方面的特征:
(a)叠加的扩张卷积的扩张率dilation rate不能有大于1的公约数;
(b)将扩张率dilation rate设计成了锯齿状结构,即取几层为一组,每个组的扩张率从低向高增加,每个组类似,即扩张率变换类似锯齿波;
(c)扩张率dilation rate需要满足式子:
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]
其中,ri是i层的扩张率dilation rate,而Mi是指在i层的最大扩张率dilationrate,假设总共有n层的话,默认Mn=rn
(2)使用两个时间卷积构成门控TCN结构,每次卷积后只保留部分有效信息,一个时间卷积紧接着一个切线双曲线激活函数,作为滤波器工作;另一个时间卷积则是跟着一个sigmoid激活函数,作为一个门来控制可以流出的信息量;最后将二者的值按元素进行乘积:
Z=tanh(δ1★x+b1)⊙σ(δ2★x+b2)
其中δ1和δ2,b1,b2是可学习的参数,⊙代表按元素相乘,σ(·)是Sigmoid函数,★代表扩张卷积操作;
(3)将时间卷积模块中多个时间块的输出拼接起来一起输入到空间卷积模块中捕捉空间关系。
进一步的,空间图卷积在卷积过程使用一个具有两阶段的图扩散卷积,解决图卷积神经网络自身存在的过度压缩和过度平滑两个局限性;对于一个给定的邻接矩阵,重新定义了卷积的扩散过程以控制节点上的信息流,包括两个阶段:信息扩散阶段和信息控制阶段;
(1)信息扩散阶段的过程如下:
(a)用表示固定的邻接矩阵,/>中的每个值存储两个节点之间的距离,即预先计算得出的无向图中的邻接矩阵,是由原始历史订单数据决定的,是不变的;用/>表示自适应邻接矩阵,定义为:/>其中M1和M2是随机初始化的两个节点的嵌入,二者相乘能够自动捕获隐藏的空间依赖,/>表示新的邻接矩阵,其中SoftMax、ReLU分别表示激活函数;
(b)在信息扩散过程中选择保留一定比例的节点的原始信息,以便在节点信息的扩散过程中,既能够同时保留原始节点的信息,又能有效地加深对邻居节点的探索,解决图卷积网络的过度压缩问题;信息扩散的定义如下:
Xk=αXk-1+(1-α)AXk-1
其中α是一个超参数,用于控制原始节点信息的保留率,A表示邻接矩阵,包括预定义的固定邻接矩阵和自适应邻接矩阵/>Xk表示第k次扩散的输出;
(2)信息控制阶段为了解决图卷积网络的过度平滑问题,有效控制节点产生的信息流,引入了注意力机制,能够将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息:
其中,Conv表示卷积,K为信息扩散的深度,X为经过前一步信息扩散后的输出,其作为下一次信息扩散的输入,W是利用注意力机制自学习出来的权重系数,h表示空间卷积模块的输出。
与现有的网约车订单需求预测方法相比,本发明的优势在于:
1.本发明使用DPC算法聚类出来的虚拟站点作为图的节点,而不是简单地将城市划分为网格区域,更加符合现实场景中的路网结构,有助于模型的工程应用。
2.通过在两阶段图扩散卷积中结合自适应邻接矩阵和固定邻接矩阵,可以有效地捕捉空间依赖关系,解决图卷积神经网络的局限性。此外,模型利用注意机制考虑了空间关联中的动态属性。
3.模型可以通过混合扩张卷积来学习长期的时间依赖性,这种混合扩张卷积通过简单堆叠卷积层就能够指数级地增加时间序列上的感受野,有助于更好地学习到长期的时间信息,还能缩短模型的训练时间。同时,为了获得更准确的预测结果,我们还考虑了时间周期性因素。
本发明能够对影响网约车订单需求的时空因素和外部因素进行建模,提升订单需求预测的精度。高精度的预测结果能够帮助网约车平台更加合理地分配订单和调度车辆,从而缓解供需矛盾,提升用户体验。这不但能减少能源浪费、优化城市的资源配置,还能有效缓解城市交通拥堵问题、提高道路资源利用率,对维护行业稳定具有重要意义。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1为本发明的实施例提供的一种基于时空卷积网络的网约车订单需求预测方法依托的时空卷积网络结构图。
具体实施方式
本发明实施例提供了一种基于时空卷积网络的网约车订单需求预测方法,用于改善现有订单需求预测算法的缺点,提高需求预测的精度。
为使本发明实施例的目的、技术方案及优点更加清楚明白,使本技术领域人员更好地理解本发明,下面结合附图及实施例对本发明作进一步的详细描述。应当理解本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;此处所描述的具体实施例仅仅用于解释本发明,而不是对本发明保护范围的限定。
如图1所示,本发明实施例提供了一种基于时空卷积网络的网约车订单需求预测方法,包括:
S1:获取各种数据集:包括网约车平台的历史订单数据集,还有POI数据、天气数据和节假日数据等外部数据;对获得的历史订单数据集进行预处理。
S2:将经过S1预处理后的历史订单数据进行DPC聚类,将城市划分为多个虚拟站点,并定义虚拟站点网络为一个无向图;将订单数据集按照指定的时间间隔进行时间切片,将一个区域的上车量或下车量定义为在固定的时间间隔内在虚拟站点上车或下车的次数,并对切片后的订单数据进行标准化处理;将处理后的数据集划分为训练集、验证集和测试集。
S3:构建基于时空卷积网络的订单需求预测模型:由输入层、时间卷积模块、空间卷积模块和输出层组成;使用S2的训练集训练模型,对得到的训练后的模型利用S2的验证集进行验证,根据验证的结果选择出表现最好的预测模型。
S4:使用S3得到的最优预测模型对S2的测试集进行预测,得到模型的输出结果,对输出结果进行反标准化获得预测的上车辆和下车量,取其中的上车量为最终预测出的订单需求量。
在一种实施方式中,所述的步骤S1具体包括:
S1.1:获得网约车平台的原始历史订单数据,其内容主要包括用户ID、上车点经纬度、下车点经纬度、上车点时间、下车点时间、里程、费用等;
S1.2:基于百度公司提供的地图API,可对S1.1原始历史订单数据中的上车点位置和下车点位置进行搜索,从而获得上下车点的POI(Point of Interest,兴趣点)特征;
S1.3:在历史天气网中爬取订单所在地区的历史天气数据,包含天气特征和温度数据;
S1.4:根据历史日历对历史订单数据是否属于周末和节假日进行搜索查询并标记;
S1.5:对S1.1中得到的历史订单数据进行清除的预处理工作,主要包括:
(1)当历史订单数据存在空值或者缺失数据时,清除该订单数据;
(2)当历史订单数据中的上车点位置或下车点位置超出该城市所在的经纬度范围时,认为该订单数据异常,删除该订单数据;
(3)当历史订单数据中的上车点时间和下车点时间之间的时间间隔过长,超过一定的阈值后,同样认为该订单数据异常,删除该订单数据;
(4)清除历史订单数据中不需要的信息,每一条订单数据只需要保留其起终点位置和时间。
在一种实施方式中,所述的步骤S2具体包括:
S2.1:将S1预处理后的历史订单数据利用密度峰值聚类(Density PeakClustering,DPC)方法,设定合理阈值,聚类出城市的N个虚拟站点S={s1,s2,...,sN},根据虚拟站点可将城市现实场景中的路网结构进行划分;
S2.2:定义虚拟站点网络为一个无向图,表示为G=(V,E,A),其中V代表图的一系列节点|V|=N,是S2.1中聚类出来的虚拟站点,E是一系列边,表示节点间的连接。A∈RN×N是图的邻接矩阵,由节点间的距离表示。我们计算虚拟站点之间的成对距离:其中Wij为虚拟站点vi与虚拟站点vj之间的边的权值,dist(vi,vj)表示从vi到vj的“路网”距离,σ为距离的标准差。
S2.3:根据预设的时间间隔将历史订单数据进行时间切片分成分为T个不重叠的时间间隔,并将时间间隔定义为
S2.4:使用二元组(τ,s)定义时空坐标,其中τ代表时间,s代表站点。将任意的一个对象的行程的上车和下车分别定义为:p=(τp,sp),d=(τd,sd)。(p,d)表示上下车对,是所有的上下车对。将一个区域的上/下车量定义为在固定的时间间隔内在该虚拟站点上/下车的次数。给定所有的上下车对/>则/>和/>代表虚拟站点i在时间间隔t内的上车量和下车量。
S2.5:采用Z-score标准化方法,通过去除均值和按单位方差缩放来标准化上车量和下车量:x代表上/下车量,/>是x的均值,σ=std(x)是x的标准差,x*是经过标准化后的上下车量。
S2.6:将标准化后的订单数据进行划分,60%~80%划分为训练集,10%~20%划分为验证集,剩下的10%~20%划分为测试集。训练集、验证集和测试集是按时间顺序划分的,确保不会泄露将来的信息。
在一种实施方式中,S3的训练和验证过程中,损失函数使用均方根误差(RootMean Squared Error,RMSE),其定义如下:
其中n为所有样本的总数,和/>分别为在时间间隔t所预测的订单需求和相应的真实值。
在一种实施方式中,所述的步骤S3具体包括:
S3.1:输入层将包含了邻近(预测时刻的前几个小时)、日周期(每日相对时间间隔)和周周期时间(每周相对时间间隔)的订单需求数据与S1中得到的各种外部数据进行拼接,将拼接后的数据输入到时间卷积模块中捕捉时间依赖;
S3.2:时间卷积模块由多个时间块组成,每个时间块又由堆叠的时间卷积层组成,主要由门控时间卷积网络(Temporal Convolutional Network,TCN)组成,能够捕捉到不同级别的时间信息。
(1)门控时间卷积网络中使用混合扩张卷积(HDC)替代普通的一维扩张卷积用于减轻网格效应的影响,对比普通的扩张卷积,其主要包含以下三方面的特征:
(a)叠加的扩张卷积的扩张率dilation rate不能有大于1的公约数。比如[2,4,6]则不是一个好的三层卷积,依然会出现网格效应。
(b)将扩张率dilation rate设计成了锯齿状结构,例如[1,2,5,1,2,5]这样的循环结构,即取几层为一组,每个组的扩张率从低向高增加,每个组类似,即扩张率变换类似锯齿波。
(c)扩张率dilation rate需要满足式子:
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]
其中,ri是i层的dilation rate,而Mi是指在i层的最大扩张率dilation rate,假设总共有n层的话,默认Mn=rn。假设应用于kernel为k×k的话,目标则是M2≤k。
(2)模型使用两个时间卷积构成门控TCN结构,每次卷积后只保留部分有效信息。一个时间卷积紧接着一个切线双曲线激活函数,作为滤波器工作。另一个时间卷积则是跟着一个sigmoid激活函数,作为一个门来控制可以流出的信息量。最后将二者的值按元素进行乘积:
Z=tanh(δ1★x+b1)⊙σ(δ2★x+b2)
其中δ1和δ2,b1,b2是可学习的参数,⊙代表按元素相乘,σ(·)是Sigmoid函数,★代表扩张卷积操作。
(3)将时间卷积模块中多个时间块的输出拼接起来一起输入到空间卷积模块中捕捉空间关系。
S3.3:空间卷积模块包括一个空间块,空间块也由堆叠的空间卷积层组成。空间卷积层是通过空间图卷积实现,卷积过程使用一个具有两阶段的图扩散卷积,可解决图卷积神经网络自身存在的过度压缩和过度平滑两个局限性。对于一个给定的邻接矩阵,我们重新定义了卷积的扩散过程以控制节点上的信息流,主要包括两个阶段:信息扩散阶段和信息控制阶段。
(1)信息扩散阶段的过程如下:
(a)我们用表示固定的邻接矩阵,/>中的每个值存储两个节点之间的距离,即为S2.2中的计算公式预先计算得出的邻接矩阵,其是由原始订单数据决定的,是不变的。用/>表示自适应邻接矩阵,定义为:/>其中M1和M2是随机初始化的两个节点的嵌入,二者相乘能够自动捕获隐藏的空间依赖,/>表示新的邻接矩阵,其中SoftMax、ReLU分别表示激活函数。
(b)在信息扩散过程中选择保留一定比例的节点的原始信息,以便在节点信息的扩散过程中,既能够同时保留原始节点的信息,又能有效地加深对邻居节点的探索,解决图卷积网络的过度压缩问题。信息扩散的定义如下:
Xk=αXk-1+(1-α)AXk-1
其中α是一个超参数,用于控制原始节点信息的保留率,A表示邻接矩阵,包括预定义的固定邻接矩阵和自适应邻接矩阵/>Xk表示第k次扩散的输出。
(2)信息控制阶段为了解决图卷积网络的过度平滑问题,有效控制节点产生的信息流,引入了注意力机制,能够将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息:
其中,Conv表示卷积,K为信息扩散的深度,X为经过前一步信息扩散后的输出,其作为下一次信息扩散的输入,W是利用注意力机制自学习出来的权重系数,h表示空间卷积模块的输出。
S3.4:将S3.3的输出输入到输出层中。为了能够实现多步预测的目标,预测模型的输出层由多层感知器(Multilayer Perceptron,MLP)和两个1×1标准卷积层组成,将输入的时间和通道维度转换为所要预测的输出维度,模型将输出h视为一个整体,有效解决训练和测试的维度不一致问题,我们可以用历史的H个连续时间步去预测未来的P个连续的步骤,只需要将期望输出的时间尺寸设置为P即可。
S3.5:使用S2中划分好的订单数据训练集训练S3.1~S3.4构建的基于时空卷积的订单需求预测模型,模型使用Adam优化器训练,初始学习率为0.0015,每5个epochs以0.2的速率衰减,最终得到经过训练后的预测模型;
S3.6:对于训练后的预测模型,将S2的验证集输入其中进行验证,当损失函数达到一个新的最小值时,认为此时模型的表现最好。
S3.7:在验证集进行验证的过程中,模型会根据验证计算的最小RMSE提前停止模型的训练算法:当验证的epochs最大达到20个时,还无法再次取得一个新的最小RMSE时,模型就会提前停止训练,将最小RMSE对应的模型保存为表现最优的预测模型。
在一种实施方式中,所述的步骤S4具体包括:
S4.1:将S2的测试集输入到S3.7的最优预测模型中,得到模型的输出结果;
S4.2:将S4.1的输出结果进行反标准化获得预测的上/下车量,取其中的上车量为最终预测出的订单需求量。
本发明主要基于智能交通和深度学习领域的相关知识,为了克服现有的订单需求预测方法存在的忽略图神经网络局限性及模型训练费时、效率低问题,提出了一种基于时空卷积网络的网约车订单需求预测方法。本发明能够有效地对影响网约车订单需求的时空因素和外部因素进行建模,提升订单需求预测的精度。
对于平台的司机,本发明能够减少司机在道路上搜索乘客行为的盲目性,降低网约车的空驶时间和空驶距离,帮助司机提升收益;对于平台的用户,本发明能够缩短用户的候车时间,提升用户的出行体验;对于平台而言,本发明能够帮助平台更加合理地分配订单和调度车辆,缓解供需矛盾,吸引更多的司机和用户,为平台带来更多收益;对于城市管理的而言,本发明不但能减少能源浪费、优化城市的资源配置,还能有效缓解城市的交通拥堵问题、提高道路资源利用率。
以上所描述的具体实施例仅仅是为了方便本领域内的技术人员能够理解和应用本发明,而不是用于限制本发明。凡是依据本发明的原理、设计思路所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于时空卷积网络的网约车订单需求预测方法,其特征在于,包括如下步骤:
S1:获取各种数据集:包括网约车平台的历史订单数据集,还有POI数据、天气数据和节假日数据这些外部数据,对获得的历史订单数据集进行预处理;
所述的步骤S1具体包括;
S1.1:获得网约车平台的原始历史订单数据,包括用户ID、上车点经纬度、下车点经纬度、上车点时间、下车点时间、里程、费用;
S1.2:基于百度公司提供的地图API,对S1.1原始历史订单数据中的上车点位置和下车点位置进行搜索,从而获得上下车点的POI特征;
S1.3:在历史天气网中爬取订单所在地区的历史天气数据,包含天气特征和温度数据;
S1.4:根据历史日历对历史订单数据是否属于周末和节假日进行搜索查询并标记;
S1.5:对S1.1中得到的历史订单数据进行清除的预处理工作;
S2:将经过S1预处理后的历史订单数据进行DPC聚类,将城市划分为多个虚拟站点,并定义虚拟站点网络为一个无向图;
将历史订单数据集按照指定的时间间隔进行时间切片,将一个区域的上车量或下车量定义为在固定的时间间隔内在虚拟站点上车或下车的次数,并对历史订单数据集中的订单数据进行标准化处理,将处理后的数据集划分为训练集、验证集和测试集;
所述的步骤S2具体包括;
S2.1:将S1预处理后的历史订单数据利用密度峰值聚类方法,设定合理阈值,聚类出城市的N个虚拟站点S={s1,s2,...,sN},根据虚拟站点可将城市现实场景中的路网结构进行划分;
S2.2:定义虚拟站点网络为一个无向图,表示为G=(V,E,A),其中V代表图的一系列节点|V|=N,是S2.1中聚类出来的虚拟站点,E是一系列边,表示节点间的连接;A∈RN×N是图的邻接矩阵,由节点间的距离表示,计算虚拟站点之间的成对距离:其中Wij为虚拟站点vi与虚拟站点vj之间的边的权值,dist(vi,vj)表示从vi到vj的“路网”距离,σ为距离的标准差;
S2.3:根据预设的时间间隔将历史订单数据进行时间切片分成分为T个不重叠的时间间隔,并将时间间隔定义为
S2.4:使用二元组(τ,s)定义时空坐标,其中τ代表时间,s代表站点,将任意的一个对象的行程的上车和下车分别定义为:p=(τp,sp),d=(τd,sd),(p,d)表示上下车对,是所有的上下车对;将一个区域的上车量或下车量定义为在固定的时间间隔内在虚拟站点上车或下车的次数;给定所有的上下车对/>则/>和/>代表虚拟站点i在时间间隔t内的上车量和下车量:
S2.5:采用Z-score标准化方法,通过去除均值和按单位方差缩放来标准化上车量和下车量:x代表上车量或下车量,/>是x的均值,σ=std(x)是x的标准差,x*是经过标准化后的上车辆或下车量;
S2.6:将标准化后的历史订单数据进行划分,得到训练集、验证集、测试集;
S3:构建基于时空卷积网络的订单需求预测模型:由输入层、时间卷积模块、空间卷积模块和输出层组成;
使用S2的训练集训练模型,对得到的训练后的模型利用S2的验证集进行验证,根据验证的结果选择出表现最优的预测模型;
S4:使用S3得到的最优预测模型对S2的测试集进行预测,得到模型的输出结果,对输出结果进行反标准化获得预测的上车辆和下车量,取其中的上车量为最终预测出的订单需求量。
2.如权利要求1所述的基于时空卷积网络的网约车订单需求预测方法,其特征在于:S1.5具体包括;
(1)当历史订单数据存在空值或者缺失数据时,清除该订单数据;
(2)当历史订单数据中的上车点位置或下车点位置超出该城市所在的经纬度范围时,认为该订单数据异常,删除该订单数据;
(3)当历史订单数据中的上车点时间和下车点时间之间的时间间隔过长,超过一定的阈值后,同样认为该订单数据异常,删除该订单数据;
(4)清除历史订单数据中不需要的信息,每一条订单数据只需要保留其起终点位置和时间。
3.如权利要求1所述的基于时空卷积网络的网约车订单需求预测方法,其特征在于:所述的步骤S3具体包括;
S3.1:输入层将包含了邻近、日周期和周周期时间的订单需求数据与S1中得到的外部数据进行拼接,将拼接后的数据输入到时间卷积模块中捕捉时间依赖,其中邻近表示预测时刻的前几个小时,日周期表示每日相对时间间隔,周周期每周相对时间间隔;
S3.2:时间卷积模块由多个时间块组成,每个时间块又由堆叠的时间卷积层组成,时间卷积层是通过门控时间卷积网络TCN实现,用于捕捉不同级别的时间信息;
S3.3:空间卷积模块包括一个空间块,空间块也由堆叠的空间卷积层组成,空间卷积层是通过空间图卷积实现;
S3.4:将S3.3的输出输入到输出层中,为了能够实现多步预测的目标,输出层由多层感知器MLP和两个1×1标准卷积层组成,将输入的时间和通道维度转换为所要预测的输出维度;
S3.5:使用S2中划分好的历史订单数据训练集训练S3.1~S3.4构建的基于时空卷积的订单需求预测模型,最终得到经过训练后的预测模型;
S3.6:对于训练后的预测模型,将S2的验证集输入其中进行验证,当损失函数达到一个新的最小值时,认为此时模型的表现最好;
S3.7:在验证集进行验证的过程中,模型会根据验证计算的最小RMSE,提前停止模型的训练算法:当验证的epochs最大达到N个时,还无法再次取得一个新的最小RMSE时,模型就会提前停止训练,将最小RMSE对应的模型保存为表现最优的预测模型。
4.如权利要求3所述的基于时空卷积网络的网约车订单需求预测方法,其特征在于:S3的训练和验证过程中,损失函数使用均方根误差,其定义如下:
其中n为所有样本的总数,和/>分别为在时间间隔t所预测的订单需求和相应的真实值。
5.如权利要求3所述的基于时空卷积网络的网约车订单需求预测方法,其特征在于:步骤3.2中门控时间卷积网络TCN的具体内容如下;
(1)门控时间卷积网络中使用混合扩张卷积替代普通的一维扩张卷积用于减轻网格效应的影响,对比普通的扩张卷积,其包含以下三方面的特征:
(a)叠加的扩张卷积的扩张率dilation rate不能有大于1的公约数;
(b)将扩张率dilation rate设计成了锯齿状结构,即取几层为一组,每个组的扩张率从低向高增加,每个组类似,即扩张率变换类似锯齿波;
(c)扩张率dilation rate需要满足式子:
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]
其中,ri是i层的扩张率dilation rate,而Mi是指在i层的最大扩张率dilation rate,假设总共有n层的话,默认Mn=rn
(2)使用两个时间卷积构成门控TCN结构,每次卷积后只保留部分有效信息,一个时间卷积紧接着一个切线双曲线激活函数,作为滤波器工作;另一个时间卷积则是跟着一个sigmoid激活函数,作为一个门来控制可以流出的信息量;最后将二者的值按元素进行乘积:
Z=tanh(δ1★x+b1)⊙σ(δ2*x+b2)
其中δ1和δ2,b1,b2是可学习的参数,⊙代表按元素相乘,σ(·)是Sigmoid函数,★代表扩张卷积操作;
(3)将时间卷积模块中多个时间块的输出拼接起来一起输入到空间卷积模块中捕捉空间关系。
6.如权利要求3所述的基于时空卷积网络的网约车订单需求预测方法,其特征在于:空间图卷积在卷积过程使用一个具有两阶段的图扩散卷积,解决图卷积神经网络自身存在的过度压缩和过度平滑两个局限性;对于一个给定的邻接矩阵,重新定义了卷积的扩散过程以控制节点上的信息流,包括两个阶段:信息扩散阶段和信息控制阶段;
(1)信息扩散阶段的过程如下:
(a)用表示固定的邻接矩阵,/>中的每个值存储两个节点之间的距离,即预先计算得出的无向图中的邻接矩阵,是由原始历史订单数据决定的,是不变的;用/>表示自适应邻接矩阵,定义为:/>其中M1和M2是随机初始化的两个节点的嵌入,二者相乘能够自动捕获隐藏的空间依赖,/>表示新的邻接矩阵,其中SoftMax、ReLU分别表示激活函数;
(b)在信息扩散过程中选择保留一定比例的节点的原始信息,以便在节点信息的扩散过程中,既能够同时保留原始节点的信息,又能有效地加深对邻居节点的探索,解决图卷积网络的过度压缩问题;信息扩散的定义如下:
Xk=αXk-1+(1-α)AXk-1
其中α是一个超参数,用于控制原始节点信息的保留率,A表示邻接矩阵,包括预定义的固定邻接矩阵和自适应邻接矩阵/>Xk表示第k次扩散的输出;
(2)信息控制阶段为了解决图卷积网络的过度平滑问题,有效控制节点产生的信息流,引入注意力机制,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息:
其中,Conv表示卷积,K为信息扩散的深度,X为经过前一步信息扩散后的输出,其作为下一次信息扩散的输入,W是利用注意力机制自学习出来的权重系数,h表示空间卷积模块的输出。
CN202111450423.XA 2021-12-01 2021-12-01 基于时空卷积网络的网约车订单需求预测方法 Active CN114418606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111450423.XA CN114418606B (zh) 2021-12-01 2021-12-01 基于时空卷积网络的网约车订单需求预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111450423.XA CN114418606B (zh) 2021-12-01 2021-12-01 基于时空卷积网络的网约车订单需求预测方法

Publications (2)

Publication Number Publication Date
CN114418606A CN114418606A (zh) 2022-04-29
CN114418606B true CN114418606B (zh) 2024-05-28

Family

ID=81266393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111450423.XA Active CN114418606B (zh) 2021-12-01 2021-12-01 基于时空卷积网络的网约车订单需求预测方法

Country Status (1)

Country Link
CN (1) CN114418606B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862573B (zh) * 2023-09-05 2023-12-05 华侨大学 基于增量训练的城际网约车短期出行需求预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985475A (zh) * 2018-06-13 2018-12-11 厦门大学 基于深度神经网络的网约车召车需求预测方法
WO2020024319A1 (zh) * 2018-08-01 2020-02-06 苏州大学张家港工业技术研究院 用于交通流量预测的卷积神经网络多点回归预测模型
CN112150207A (zh) * 2020-09-30 2020-12-29 武汉大学 基于时空上下文注意力网络的网约车订单需求预测方法
CN112489426A (zh) * 2020-11-26 2021-03-12 同济大学 一种基于图卷积神经网络的城市交通流量时空预测方案
CN112561187A (zh) * 2020-12-22 2021-03-26 武汉理工大学 一种基于cnn-lstm的网约车目标订单预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985475A (zh) * 2018-06-13 2018-12-11 厦门大学 基于深度神经网络的网约车召车需求预测方法
WO2020024319A1 (zh) * 2018-08-01 2020-02-06 苏州大学张家港工业技术研究院 用于交通流量预测的卷积神经网络多点回归预测模型
CN112150207A (zh) * 2020-09-30 2020-12-29 武汉大学 基于时空上下文注意力网络的网约车订单需求预测方法
CN112489426A (zh) * 2020-11-26 2021-03-12 同济大学 一种基于图卷积神经网络的城市交通流量时空预测方案
CN112561187A (zh) * 2020-12-22 2021-03-26 武汉理工大学 一种基于cnn-lstm的网约车目标订单预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Contextualized Spatial–Temporal Graph Networks for Taxi Demand Prediction;Zheren Yan;《2021 9th International Conference on Agro-Geoinformatics: Agro-Geoinformatics》;20210908;全文 *
基于时空多图卷积网络的交通站点流量预测;荣斌;武志昊;刘晓辉;赵苡积;林友芳;景一真;;计算机工程;20200531(05);全文 *
基于移动网络数据的群体移动性预测方法研究;黄贺贺;《万方学位论文》;20210709;全文 *
基于网约车数据的城市区域出行时空特征识别与预测研究;张政;陈艳艳;梁天闻;;交通运输系统工程与信息;20200615(03);全文 *

Also Published As

Publication number Publication date
CN114418606A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
US11657708B2 (en) Large-scale real-time traffic flow prediction method based on fuzzy logic and deep LSTM
CN112330215B (zh) 一种城市用车需求量预测方法、设备及存储介质
CN110599767A (zh) 一种基于网约车出行需求的长短期预测方法
CN113065074B (zh) 一种基于知识图谱和自注意力机制的轨迹目的地预测的方法
CN107919014B (zh) 面向多载客里程的出租车运行线路优化方法
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
Li et al. Deep learning based parking prediction on cloud platform
Liu et al. Control method of urban intelligent parking guidance system based on Internet of Things
CN113159403B (zh) 路口行人轨迹预测的方法及装置
CN112489426A (zh) 一种基于图卷积神经网络的城市交通流量时空预测方案
Huang et al. Eco-routing based on a data driven fuel consumption model
CN110796317B (zh) 一种基于需求预测的城市出租车调度方法
CN113052405B (zh) 基于物联网和人工智能的交通拥堵预测与优化方法
CN106355905A (zh) 一种基于卡口数据的高架信号控制方法
Zhang et al. PewLSTM: Periodic LSTM with Weather-Aware Gating Mechanism for Parking Behavior Prediction.
CN112488185A (zh) 包含时空特性的车辆运行参数预测方法,系统,电子设备及可读存储介质
CN114066503A (zh) 一种基于构建虚拟服务片区进行出租车需求预测的方法
CN114418606B (zh) 基于时空卷积网络的网约车订单需求预测方法
CN110738367A (zh) 一种基于深度残差网络的交通尾气排放量预测方法
CN116798218A (zh) 一种基于数字孪生的城市低碳交通大数据检测方法
CN115830848A (zh) 一种基于lstm模型的共享停车位智能分配系统及方法
CN113140108B (zh) 一种网联智能交通系统中的云端交通态势预测方法
US20230153742A1 (en) Methods for shared bicycle delivery and operation area planning in smart cities and internet of things (iot) systems thereof
CN115631629B (zh) 一种基于轨迹预测的城市动态车辆云构建方法及系统
CN109447352B (zh) 一种公交出行od矩阵反推的组合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant