CN114066503A - 一种基于构建虚拟服务片区进行出租车需求预测的方法 - Google Patents

一种基于构建虚拟服务片区进行出租车需求预测的方法 Download PDF

Info

Publication number
CN114066503A
CN114066503A CN202111178661.XA CN202111178661A CN114066503A CN 114066503 A CN114066503 A CN 114066503A CN 202111178661 A CN202111178661 A CN 202111178661A CN 114066503 A CN114066503 A CN 114066503A
Authority
CN
China
Prior art keywords
virtual service
data
demand
different
taxi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111178661.XA
Other languages
English (en)
Inventor
刘欣惠
郭黎敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202111178661.XA priority Critical patent/CN114066503A/zh
Publication of CN114066503A publication Critical patent/CN114066503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于构建虚拟服务片区进行出租车需求预测的方法,通过构建高需求区域来引导服务车辆提前收敛到这些区域,方便对出租车需求进行高精度预测,来解决在线乘车平台的需求和供应不平衡问题。根据所提出的方法,构建相应的虚拟服务片区;建立图卷积神经网络和长短期记忆网络的混合模型进行时空相关性捕获;考虑外部因素的影响,在4)中模型的基础上添加注意力机制为不同外部因素设置不同的重要性参数;融合前面步骤中得到的时空特征和外部因素特征预测未来时间段出租车需求。本发明构建不规则的虚拟服务片区,充分考虑到城市数据分布的密集性与稀疏性,捕获能够建立准确的片区来进行预测,有助于高效服务乘客出行,降低网约车成本。

Description

一种基于构建虚拟服务片区进行出租车需求预测的方法
技术领域
本发明属于交通需求预测与深度学习交叉领域,具体涉及一种基于构建虚拟服务片区进 行出租车需求预测的方法。
背景技术
人们出行越来越个性化,传统的出租车服务已经不能满足人们多样化、优质化的需求, 网约车用户规模越来越多,每一天都有数以万计的用户发出乘车请求,对于在线打车平台来 说,优质便捷地动态调整网约车车辆来适应不同用户的需求越来越重要。
在线叫车平台在将大规模的乘车请求用户分配给处于空闲状态的网约车时,有效地平衡 需求和供给是实现高效调度分发的关键。日常生活中,往往会发现乘车请求用户准备叫车, 周边区域圈内却没有空闲网约车,存在大量网约车在没有请求用户的地方巡游,若平台将远 区域的空闲网约车重新调度给乘车请求用户时,会导致用户叫车等待时间加剧,网约车运输 成本增加。挖掘热点区域可以增加有效驾驶,从而解决网约车分配不平衡的问题,因此,准 确地构建虚拟服务片区,并预测虚拟服务片区的需求,根据需求量来引导服务车辆提前收敛 不同的区域可以有效提高服务车辆的利润,减少乘客等待时间,提高平台满意度,降低网约 车成本,进一步减轻城市交通拥堵问题。
近些年,需求预测受到了许多研究人员的研究,目前已经提出了大量的交通需求预测方 法。如深度学习的方法,像卷积神经网络(CNN)、图卷积神经网络(GCN)、长短期记忆网 络(LSTM)等,这些方法仅仅只能根据历史需求进行单一的预测,不能同时捕获需求动态变化的时间性和空间性。后来,近几年的研究开始考虑构建联合模型,同时捕获时空数据来进行预测。如DeepST方法、ST-ResNet方法,都是将城市划分网格后,构建神经网络框架, 同时捕获空间和时间的需求来进行预测,但这些模型空间上采用基于网格进行卷积和时间上采用时间序列网络进行简单地组合,难以拟合复杂的出行数据,不能在实质上去描述需求之 间的空间依赖。
发明内容
针对上述尚没有解决的关键问题,本发明提出了一种基于构建虚拟服务片区进行出租车 需求预测的方法,目的是解决城市中需求分布不平衡,导致模型预测时空间捕获存在的误差, 提高需求预测精确度。
为实现上述目的,本发明采用如下的技术方案:
一种基于语义关联网络的启发式查询扩展方法包括以下步骤:
步骤1、提出一种基于密度和距离的分级聚类应用方法(HDDCA),该方法随核心点centCand密度变化而改变半径εi,得到多个不规则簇;
步骤2、预处理出行数据,对出租车出行订单数据进行有效性处理,并对外部因素(天 气数据、节假日数据)进行映射处理,得到应用数据;
步骤3、根据步骤1提出来的方法,结合预处理后的出行订单数据O={o1,o2,o3,…,on}, 构建虚拟服务片区,得到NS个虚拟服务片区集合,即Ψ={S1,S2,…,SNS}。其中,Sj代表第j 个虚拟服务片区;
步骤4、建立基于图卷积神经网络(GCN)和长短期记忆网络(LSTM)的联合模型,使用GCN充分考虑地理位置邻近区域和具有相似需求模式的区域,使用LSTM进行时间相关 性捕获;
步骤5、在步骤4的模型基础上,应用时间序列模型,对外部因素数据进行进一步处理, 添加注意力机制赋予不同外部因素不同的权重;
步骤6:将处理后的时空特征数据与外部因素数据进行融合,通过模型训练与测试,最 终得到不同虚拟服务片区的出租车需求预测结果。
作为优选,步骤1分级聚类应用方法包括如下:
步骤1-1:给定一个含有n个点的数据集X={x1,x2,…xn},使得每个数据点xi在寻找邻居 的过程中都至少能找到另一个数据点xj可以与之互为邻居,将互为邻居的数据点称为自然邻 居,即对任意xi,xj∈X满足
Figure BDA0003296451430000021
其中, KNNr(xj)是数据点xj的前r个邻居做组成的集合;符号
Figure BDA0003296451430000022
表示推出来xj属于xi的自然邻居, 需要满足后面的条件;∧表示取交集。
步骤1-2:对
Figure BDA0003296451430000023
计算(NNii)←findNN(xi),并统计xi的密度density(xi),其中, 函数findNN(xi)用来计算xi的自然邻居NNi和自然邻域εi;←的含义是通过函数findNN(xi) 可以得到xi的自然邻居NNi和自然邻域εi
步骤1-3:令初始簇
Figure BDA0003296451430000024
初始u=1,如果density(xi)>meanDensity(x),计算局部密 度pi,得到局部密度集P,其中,局部密度具体计算被定义为
Figure BDA0003296451430000025
步骤1-4:降序排列局部密度点,得到pi=maxP,此时新簇Cu=Cu∪xi,若xj∈NNi,则Cu=Cu∪xj,同时,若dist(xj,xz)≤εi,xz∈X/(xi∪NNi),则Cu=Cu∪xz,得到完整簇Cu
步骤1-5:令u=u+1,从局部密度集P和数据集X中删除已经聚成簇的点;
步骤1-6:重复步骤1-4和步骤1-5,直到数据集X中无数据点;
步骤1-7:输出聚类结果Φ={C1,C2,…CM}。
作为优选,步骤2数据预处理阶段包括如下:
步骤2-1:对出行订单数据进行有效性处理,将数据中不相关的属性进行删除,并删除空 值和异常值、补充缺失值,其中得到的出行订单可表示为o=(o.id,o.p,o.lng,o.lat,o.t);
步骤2-2:划分时间间隙,将每一天的出行订单数据按照时间间隔10min进行划分,得到 具有时间间隔属性的订单数据;
步骤2-3:将外部因素数据进行预处理,如天气数据、风速等映射为数据。
作为优选,步骤3构建虚拟服务片区过程包括如下:
步骤3-1:基于步骤2-1,有效性处理后的出行订单表示为o=(o.id,o.p,o.lng,o.lat,o.t),其 随机分布在城市中,使用步骤1中提出的HDDCA进行需求划分聚类,得到多个任意形状的 区域,这些区域就是构建的虚拟服务片区;
步骤3-2:构建出来的虚拟服务片区包含多个出行订单,不同片区因为地理位置和出行订 单密度不同,大小也不尽相同,统计得到不同时间段tth不同虚拟服务片区Sj的需求量
Figure BDA0003296451430000031
用于后续模型训练。
作为优选,步骤4基于图卷积神经网络(GCN)和长短期记忆网络(LSTM)的联合模型的建立包括如下:
步骤4-1:基于步骤2-2和步骤3,统计不同时间间隙内不同虚拟服务片区的需求量
Figure BDA0003296451430000032
步骤4-2:捕获空间相关性,首先,根据区域之间的需求订单相似度和近邻程度来定义虚 拟服务片区之间的连接A,其中
Figure BDA0003296451430000033
是判断相似度的阈值,虚拟服务片区之间的邻近性通过
Figure BDA0003296451430000034
判断,不同虚拟服务片区之间的相似性通过历史需求计算皮尔逊系数来表示, 如
Figure BDA0003296451430000035
表示训练数据中区域Sj过去n-1个时间段内的历史需求订单量,涉 及到的公式如下:
Figure BDA0003296451430000041
Figure BDA0003296451430000042
然后将关系矩阵A和统计后的过去时间间 隙内的需求作为空间卷积模块的输入,空间卷积模块由多个GCN组成,GCN可以表示为
Figure BDA0003296451430000043
步骤4-3:捕获时间相关性,将GCN捕获到的过去q时间段内的特征作为LSTM的输入, 即
Figure BDA0003296451430000044
每一个LSTM单元都包含三个输入:GCN的输出
Figure BDA0003296451430000045
上一单元的单元状态
Figure BDA0003296451430000046
上一单元的输出
Figure BDA0003296451430000047
作为单元状态,能够记忆前面q时期的需求,同时,
Figure BDA0003296451430000048
保存前一个时间间隙空间信息,得到LSTM输出(X)Sj
作为优选,步骤5添加注意力机制赋予不同外部因素不同的权重的过程包括如下:
步骤5-1:预处理数据之后得到划分时间间隙的出行数据和外部因素数据,将不同的外部 因素数据存入fit向量中,使用LSTM编码隐含向量输出hit=LSTM(Wefit),t∈[1,n];
步骤5-2:注意力层将LSTM输出通过tanh函数激活,即uit=tanh(Wehit+be),在通过全 连接层和softmax层,得到归一化的权重,即
Figure BDA0003296451430000049
作为优选,步骤6融合特征预测包括如下:
步骤6-1:根据步骤4-3中输出的出行数据和5-2中输出的参数权重,进行融合预测,即
Figure BDA00032964514300000410
步骤6-2:对模型进行多次训练,以MAE、RMSE作为精度评价指标,预测不同虚拟服务片区的需求量。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
针对目前出租车需求分布不均衡,无法准确预测不同区域出租车需求的问题,本发明提出 一种随核心点密度变化而改变半径的计算方法构建虚拟服务片区,解决数据过于密集或稀疏 的问题。同时,采用图卷积神经网络和长短期记忆网络捕获时空相关性,添加注意力机制来 捕获不同外部因素的一影响权重,有效提升了出租车需求预测的精度,有利于后续调度分发。
附图说明
图1为本发明基于构建虚拟服务片区进行出租车需求预测方法的流程图;
图2为本发明基于虚拟服务片区混合神经网络模型预测需求的结构示意图;
图3为本发明中提出的分级聚类应用方法HDDCA算法过程的示意图;
图4为本发明中虚拟服务片区之间相似性的示意图;
图5为本发明中构建得到的虚拟服务片区的示意图;
图6为本发明中所有虚拟服务片区需求预测效果的示意图;
图7为本发明中某高需求区域预测效果的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,本发明的技术路线主要包括6步,分别为提出分级聚类应用方法、预处理 数据、构建虚拟服务片区、建立神经网络模型、添加注意力机制赋予权重、融合特征进行训 练并预测。
本实例使用出行的网约车订单数据进行测试,下面从构建虚拟服务片区、模型建立与训 练以及预测结果三个方面介绍本实例。
1)构建虚拟服务片区
首先,基于订单数据分布分析,出行订单上车点越靠近中间位置,订单量越大,边缘订 单量相较于中间呈指数下降趋势,故本文假设可变步行可达距离,进行虚拟服务片区的构建。 可变步行可达距离与订单密度成反比,当一个区域的订单密度越大时,可变步行可达距离越 小,反之,可变步行可达距离越大。因此,为了满足本文构建虚拟服务片区的要求,本文提 出基于密度和距离的分级聚类应用方法(HDDCA)。所提出的方法基于一个临界假设,即密 度较高的点更容易成为集群的中心。HDDCA算法的改进主要反映在两个方面:一方面,提 出一种随核心点密度变化而改变半径的计算方法;另一方面,通过搜索高密度点和计算高密 度点与上一级别簇之间的距离,来获得中心点。
已知需求订单O={o1,o2,o3,…,on},如果订单O满足以下条件:a)订单组O中存在一个局 部密度高于O中其他订单的订单(聚类中心),b)与其他订单组O聚类中心的距离较远,则O 可以成为一个虚拟服务片区S,即S={o1,o2,o3,…,om},聚类的结果是将订单数据集划分为NS 类,NS是聚类得到簇的数量,聚类得到的结果是Ψ={S1,S2,…,SNS}。聚类过程流程图如图3 所示,具体步骤如下所述:
步骤1:给定出行订单数据集O={o1,o2,o3,…,on},使得每个订单数据oi在寻找邻居的过程 中都至少能找到另一个出行订单oj可以与之互为邻居,即对任意oi,oj∈O满足
Figure BDA0003296451430000061
其中,KNNr(oj)是订单数据oj的前r个邻居做组成的集合;符号
Figure BDA0003296451430000062
表示推出来oj属于oi的自然邻居,需要满足后面的条件;∧表示取交集。
步骤2:对
Figure BDA0003296451430000063
计算(NNii)←findNN(oi),并统计oi的密度density(oi),其中,函 数findNN(oi)用来计算oi的自然邻居NNi和自然邻域εi;←的含义是通过函数findNN(oi)可 以得到oi的自然邻居NNi和自然邻域εi
步骤3:令初始簇
Figure BDA0003296451430000064
初始u=1,如果density(oi)>meanDensity(o),计算局部密度 pi,得到局部密度集P,其中,局部密度具体计算被定义为
Figure BDA0003296451430000065
步骤4:降序排列局部密度点,得到pi=maxP,此时新簇Cu=Cu∪oi,若oj∈NNi,则Cu=Cu∪oj,同时,若dist(oj,oz)≤εi,oz∈O/(oi∪NNi),则Cu=Cu∪oz,得到完整簇Cu
步骤5:令u=u+1,从局部密度集P和出行订单数据集O中删除已经聚成簇的订单;
步骤6:重复步骤4和步骤5,直到出行订单数据集O中无订单数据;
步骤7:输出最终聚类结果Ψ={S1,S2,…,SNS},如图5所示。
2)模型建立与训练
首先,构建的虚拟服务片区存在紧密相连的区域,空间上紧密相连的区域往往存在着相 似的特征,故在进行需求预测的时候,考虑空间相关性的内容,将相邻区域作为一个特征辅 助预测。如图4所示,虚拟站之间的地理位置越邻近,相关性越强。
对于区域空间相似性不仅仅只依赖于地理位置临近的区域,还存在较远位置具有相似需 求模式的区域。在这方面,我们将城市划分完虚拟服务片区之后,即Ψ={S1,S2,…,SNS},根 据区域之间的需求订单相似度和近邻程度来定义虚拟服务片区之间的连接A,其中
Figure BDA0003296451430000066
是判断 相似度的阈值。
Figure BDA0003296451430000067
虚拟服务片区之间的邻近性通过
Figure BDA0003296451430000068
判断,为了获得不同虚拟服务片区之间的 相似性,我们通过历史需求计算皮尔逊系数来表示相似性,其中,
Figure BDA0003296451430000071
表 示训练数据中区域Sj过去n-1个时间段内的历史需求订单量。
Figure BDA0003296451430000072
然后将得到的矩阵A和统计后的过去时间间隙内的需求作为空间卷积模块的输入,空间 卷积模块由多个GCN组成,GCN可以表示为
Figure BDA0003296451430000073
混合模型捕获时空相 关性,将GCN捕获到的过去q时间段内的特征作为LSTM的输入,即
Figure BDA0003296451430000074
每一个LSTM单元都包含三个输入:GCN的输出
Figure BDA0003296451430000075
上一单元的单元状态
Figure BDA0003296451430000076
上一单元的 输出
Figure BDA0003296451430000077
作为单元状态,能够记忆前面q时期的需求,同时,
Figure BDA0003296451430000078
保存前一个时间间隙空 间信息,得到LSTM输出(X)Sj
为了提高预测效果,考虑外部环境因素的影响,将不同的外部因素数据存入fit向量中, 使用LSTM编码隐含向量输出hit=LSTM(Wefit),t∈[1,n],注意力层将LSTM输出通过tanh 函数激活,即uit=tanh(Wehit+be),在通过全连接层和softmax层,得到归一化的权重,即
Figure BDA0003296451430000079
最后,将注意力层输出的外部因素权重和输出的出行数据进行特征融合,来预测不同虚 拟服务片区的需求量,即
Figure BDA00032964514300000710
3)预测结果
首先,采用平均绝对误差(MAE)、均方根误差(RMSE),决定性系数(R2)和对称的 平均绝对百分比误差(SMAPE)来评估预测的性能,具体解释如下:
Figure BDA00032964514300000711
Figure BDA00032964514300000712
Figure BDA0003296451430000081
Figure BDA0003296451430000082
公式中,
Figure BDA0003296451430000083
Figure BDA0003296451430000084
分别是下一个时间点t在虚拟服务片区Sj预测出来的出行需求和真实 需求,
Figure BDA0003296451430000085
是预测值
Figure BDA0003296451430000086
的平均值,
Figure BDA0003296451430000087
是真实值
Figure BDA0003296451430000088
的平均值,θ是样本总数量,|·|表示取 绝对值。在进行预测和评估前的训练时,我们将输入和输出统一进行了归一化处理,预测和 评估时再将预测值重新缩放到正常值。同时,为了避免SMAPE求解时出现分母为零的现象, 我们将
Figure BDA0003296451430000089
Figure BDA00032964514300000810
都加上一个对结果没有影响的值ε,其中ε=1×10-5
本方法对聚类得到的32个虚拟服务片区都进行预测实验,如图6所示,直观地可以看出 不同虚拟服务片区的出行需求量和分布规律。处于海口市主城区中心周围的虚拟服务片区 (S1-S5)需求量较大,主城区边缘的需求量较小。从图5构建的虚拟服务片区来看,虚拟服 务片区S6近邻南渡江,与边缘虚拟服务片区S26隔江相邻,周围主要是高等院校,出行需求 量明显下降。出行需求呈现较明显的趋势,白天需求量大于夜。具体来说,如图7中的虚拟 服务片区S1,可以直观地看到出行需求预测相对准确,预测曲线与真实值曲线极为接近,预 测值较为平滑的反映了真实需求量的波动。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉 本领域的技术人员应当理解,在不超出本发明的精神和实质的范围内,可对本发明做出一定 的修改和变动,但应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,包括以下步骤:
步骤1、提出一种基于密度和距离的分级聚类应用方法HDDCA,该方法随核心点centCand密度变化而改变半径εi,得到多个不规则簇;
步骤2、预处理出行数据,对出租车出行订单数据进行有效性处理,并对外部因素进行映射处理,得到应用数据;
步骤3、根据步骤1提出来的方法,结合预处理后的出行订单数据O={o1,o2,o3,…,on},构建虚拟服务片区,得到NS个虚拟服务片区集合,即Ψ={S1,S2,…,SNS};其中,Sj代表第j个虚拟服务片区;
步骤4、建立基于图卷积神经网络GCN和长短期记忆网络LSTM的联合模型,使用GCN充分考虑地理位置邻近区域和具有相似需求模式的区域,使用LSTM进行时间相关性捕获;
步骤5、在步骤4的模型基础上,应用时间序列模型,对外部因素数据进行进一步处理,添加注意力机制赋予不同外部因素不同的权重;
步骤6:将处理后的时空特征数据与外部因素数据进行融合,通过模型训练与测试,最终得到不同虚拟服务片区的出租车需求预测结果。
2.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤1分级聚类应用方法包括如下:
步骤1-1:给定一个含有n个点的数据集X={x1,x2,…xn},使得每个数据点xi在寻找邻居的过程中都至少能找到另一个数据点xj与之互为邻居,将互为邻居的数据点称为自然邻居,即对任意xi,xj∈X满足
Figure FDA0003296451420000011
其中,KNNr(xj)是数据点xj的前r个邻居做组成的集合;符号
Figure FDA0003296451420000012
表示推出来xj属于xi的自然邻居,需要满足后面的条件;∧表示取交集。
步骤1-2:对
Figure FDA0003296451420000013
计算(NNii)←findNN(xi),并统计xi的密度density(xi),其中,函数findNN(xi)用来计算xi的自然邻居NNi和自然邻域εi;←的含义是通过函数findNN(xi)可以得到xi的自然邻居NNi和自然邻域εi
步骤1-3:令初始簇
Figure FDA0003296451420000014
初始u=1,如果density(xi)>meanDensity(x),计算局部密度pi,得到局部密度集P,其中,局部密度具体计算被定义为
Figure FDA0003296451420000015
步骤1-4:降序排列局部密度点,得到pi=maxP,此时新簇Cu=Cu∪xi,若xj∈NNi,则Cu=Cu∪xj,同时,若dist(xj,xz)≤εi,xz∈X/(xi∪NNi),则Cu=Cu∪xz,得到完整簇Cu
步骤1-5:令u=u+1,从局部密度集P和数据集X中删除已经聚成簇的点;
步骤1-6:重复步骤1-4和步骤1-5,直到数据集X中无数据点;
步骤1-7:输出聚类结果Φ={C1,C2,…CM}。
3.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤2所述数据预处理阶段包括如下:
步骤2-1:对出行订单数据进行有效性处理,将数据中不相关的属性进行删除,并删除空值和异常值、补充缺失值,得到的出行订单表示为o=(o.id,o.p,o.lng,o.lat,o.t),其中o.id表示订单号,o.p表示订单所属产品线类型,o.lng发出请求时上车点的经度,o.lat表示发出请求时上车点的纬度,o.t表示订单请求时间;
步骤2-2:划分时间间隙,将每一天的出行订单数据按照时间间隔10min进行划分,得到具有时间间隔属性的订单数据;
步骤2-3:将外部因素数据进行预处理,如天气数据、风速等映射为数据。
4.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤3所述构建虚拟服务片区过程包括如下:
步骤3-1:基于步骤2-1,有效性处理后的出行订单表示为o=(o.id,o.p,o.lng,o.lat,o.t),其随机分布在城市中,使用步骤1中提出的HDDCA进行需求划分聚类,得到多个任意形状的区域,即虚拟服务片区集合Ψ={S1,S2,…,SNS};
步骤3-2:构建出来的虚拟服务片区包含多个出行订单,不同片区因为地理位置和出行订单密度不同,大小也不尽相同,统计得到不同时间段tth不同虚拟服务片区Sj的需求量
Figure FDA0003296451420000021
用于后续模型训练。
5.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤4所述基于图卷积神经网络(GCN)和长短期记忆网络(LSTM)的联合模型的建立包括如下:
步骤4-1:基于步骤2-2和步骤3,统计不同时间间隙内不同虚拟服务片区的需求量
Figure FDA0003296451420000022
步骤4-2:捕获空间相关性,首先,根据区域之间的需求订单相似度和近邻程度来定义虚拟服务片区之间的连接A,其中
Figure FDA0003296451420000031
是判断相似度的阈值,虚拟服务片区之间的邻近性通过
Figure FDA0003296451420000032
判断,不同虚拟服务片区之间的相似性通过历史需求计算皮尔逊系数来表示,如
Figure FDA0003296451420000033
表示训练数据中区域Sj过去n-1个时间段内的历史需求订单量,涉及到的公式如下:
Figure FDA0003296451420000034
Figure FDA0003296451420000035
然后将关系矩阵A和统计后的过去时间间隙内的需求作为空间卷积模块的输入,空间卷积模块由多个GCN组成,GCN可以表示为
Figure FDA0003296451420000036
步骤4-3:捕获时间相关性,将GCN捕获到的过去q时间段内的特征作为LSTM的输入,即
Figure FDA0003296451420000037
每一个LSTM单元都包含三个输入:GCN的输出
Figure FDA0003296451420000038
上一单元的单元状态
Figure FDA0003296451420000039
上一单元的输出
Figure FDA00032964514200000310
Figure FDA00032964514200000311
作为单元状态,能够记忆前面q时期的需求,同时,
Figure FDA00032964514200000312
保存前一个时间间隙空间信息,得到LSTM输出
Figure FDA00032964514200000313
6.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤5所述添加注意力机制赋予不同外部因素不同的权重的过程包括如下:
步骤5-1:预处理数据之后得到划分时间间隙的出行数据和外部因素数据,将不同的外部因素数据存入fit向量中,使用LSTM编码隐含向量输出hit=LSTM(Wefit),t∈[1,n];
步骤5-2:注意力层将LSTM输出通过tanh函数激活,即uit=tanh(Wehit+be),在通过全连接层和softmax层,得到归一化的权重,即
Figure FDA00032964514200000314
7.如权利要求1所述的基于构建虚拟服务片区进行出租车需求预测的方法,其特征在于,步骤6所述添加注意力机制赋予不同外部因素不同的权重的过程包括如下:
步骤6-1:根据步骤4-3中输出的出行数据和5-2中输出的参数权重,进行融合预测,即
Figure FDA00032964514200000315
步骤6-2:对模型进行多次训练,以MAE、RMSE作为精度评价指标,预测不同虚拟服务片区的需求量。
CN202111178661.XA 2021-10-10 2021-10-10 一种基于构建虚拟服务片区进行出租车需求预测的方法 Pending CN114066503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111178661.XA CN114066503A (zh) 2021-10-10 2021-10-10 一种基于构建虚拟服务片区进行出租车需求预测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111178661.XA CN114066503A (zh) 2021-10-10 2021-10-10 一种基于构建虚拟服务片区进行出租车需求预测的方法

Publications (1)

Publication Number Publication Date
CN114066503A true CN114066503A (zh) 2022-02-18

Family

ID=80234395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111178661.XA Pending CN114066503A (zh) 2021-10-10 2021-10-10 一种基于构建虚拟服务片区进行出租车需求预测的方法

Country Status (1)

Country Link
CN (1) CN114066503A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971803A (zh) * 2022-06-02 2022-08-30 支付宝(杭州)信息技术有限公司 服务处理方法及装置
CN116304393A (zh) * 2023-05-19 2023-06-23 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN117829375A (zh) * 2024-02-29 2024-04-05 华侨大学 城际往返客运的多区域需求预测方法、装置、设备和介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114971803A (zh) * 2022-06-02 2022-08-30 支付宝(杭州)信息技术有限公司 服务处理方法及装置
CN114971803B (zh) * 2022-06-02 2024-05-10 支付宝(杭州)信息技术有限公司 服务处理方法及装置
CN116304393A (zh) * 2023-05-19 2023-06-23 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN116304393B (zh) * 2023-05-19 2023-10-24 北京阿帕科蓝科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN117829375A (zh) * 2024-02-29 2024-04-05 华侨大学 城际往返客运的多区域需求预测方法、装置、设备和介质
CN117829375B (zh) * 2024-02-29 2024-05-28 华侨大学 城际往返客运的多区域需求预测方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110555990B (zh) 一种基于lstm神经网络的有效停车时空资源预测方法
Chen et al. Uncertainty in urban mobility: Predicting waiting times for shared bicycles and parking lots
CN114066503A (zh) 一种基于构建虚拟服务片区进行出租车需求预测的方法
CN103632212B (zh) 一种时变用户均衡动态网络演化客流预测系统和方法
CN110390349A (zh) 基于XGBoost模型的公交车客流量预测建模方法
WO2016127918A1 (zh) 一种运力调度方法及系统
CN108564391B (zh) 一种考虑主客观信息的共享电动汽车需求预测方法及系统
CN107194491A (zh) 一种基于公交客流和站间行程时间预测的动态调度方法
Li et al. Deep learning based parking prediction on cloud platform
CN111242395B (zh) 用于od数据的预测模型构建方法及装置
Xie et al. Multistep prediction of bus arrival time with the recurrent neural network
Hua et al. Forecasting usage and bike distribution of dockless bike‐sharing using journey data
Lin et al. A stacking model for variation prediction of public bicycle traffic flow
Liu et al. Exploring the impact of spatiotemporal granularity on the demand prediction of dynamic ride-hailing
CN114418606B (zh) 基于时空卷积网络的网约车订单需求预测方法
Qin et al. Resgcn: Residual graph convolutional network based free dock prediction in bike sharing system
CN114638434A (zh) 可变公交区域站点优化方法、设备及计算机存储介质
CN116307293B (zh) 一种基于混杂感知与因果去偏的城市时空数据预测方法
Xia et al. A distributed EMDN-GRU model on Spark for passenger waiting time forecasting
CN112990536A (zh) 一种基于分位数卷积网络的公交到站时间预测方法
Faghih et al. Predicting short-term Uber demand using spatio-temporal modeling: A New York City Case Study
Li et al. Multigraph Aggregation Spatiotemporal Graph Convolution Network for Ride‐Hailing Pick‐Up Region Prediction
CN115456238A (zh) 一种基于动态多视图耦合图卷积的城市出行需求预测方法
Guo et al. A prediction-based iterative Kuhn-Munkres approach for service vehicle reallocation in ride-hailing
Bao et al. How do metro station crowd flows influence the taxi demand based on deep spatial-temporal network?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination