CN112906948A - 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 - Google Patents
一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 Download PDFInfo
- Publication number
- CN112906948A CN112906948A CN202110142859.6A CN202110142859A CN112906948A CN 112906948 A CN112906948 A CN 112906948A CN 202110142859 A CN202110142859 A CN 202110142859A CN 112906948 A CN112906948 A CN 112906948A
- Authority
- CN
- China
- Prior art keywords
- distribution
- model
- attraction
- probability density
- private car
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000009826 distribution Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005096 rolling process Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 18
- 238000012417 linear regression Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
Abstract
本发明公开了一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质,方法为:获取城市大规模私家车的轨迹数据,从中提取每个时段私家车停留点信息并预处理;基于分布拟合模型,计算每个时段内私家车停留点的空间概率密度分布,用于表征城市区域在对应时段内的吸引力;使用历史时段内的空间概率密度分布作为训练样本,对预搭建的神经网络模型进行训练,得到城市区域吸引力预测模型;获取当前时段之前若干时段内的空间概率密度分布,使用城市区域吸引力预测模型进行滚动预测,获取得到目标预测时段内私家车停留点的空间概率密度分布,即为城市区域在目标预测时段的吸引力。本发明可以对城市区域未来时段内的吸引力提供有效准确的预测。
Description
技术领域
本发明涉及智能交通领域,尤其涉及一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质。
背景技术
随着世界范围内城市化和机动化的发展,汽车拥有量迅速增长,私家车作为一种便捷的出行方式,越来越多的人选择购买它来满足日常出行的需要,从而形成了大量的私家车行驶轨迹,特别地,出于购物、交易、工作等各种目的,人们开车到达指定区域后会停车一段时间(如熄火),并参与相应的活动,这也暗示了城市区域对人们的吸引力。研究区域吸引力不仅有助于促进功能区管理和城市规划,也为揭示人类驾驶行为与城市生活节奏之间的关系提供了一种有前景的方式。
近年来,车辆轨迹数据吸引了越来越多的研究团体和工业界的兴趣。基于各种轨迹数据的研究,为发现人类旅游行为与城市吸引力之间的联系提供了一种可行的方法。然而,现有的基于出租车轨迹数据和智能卡数据的研究存在以下局限性。首先,为了避免交通拥堵,城市出租车出行通常是随机寻找客户,其目的地并不总是热点地区;其次,公共交通,如公交、地铁等,都有预先设定的路线和时间,停靠在固定的站点(即公交、地铁站点)。公共交通系统的客流统计数据可以描述交通高峰时段等几个特定时段的吸引力值,然而它并不适合所有时段的。此外,对于公交站点相对稀疏的区域,智能卡数据无法提供对城市区域吸引力的细粒度分析。
而驾驶私家车直接反映个人长期出行需求,私家车轨迹中的停等点(PoSs)及伴随停留行为表现出一定的聚集性。从城市空间的角度来看,很多人驾驶私家车前往特定的区域,比如城市中的工作场所或热点,然后停留一段时间,从本质上反映了城市的吸引力。受这些观察的启发,本发明通过研究私家车轨迹来解释城市区域吸引力,利用神经网络来捕获城市吸引力的时空演变。
发明内容
本发明提供一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质,使用私家车停留点的空间概率密度分布来表征城市吸引力,可以对城市区域未来时段内的吸引力提供有效准确的预测,为理解人类移动行为和城市流动性的演变提供了一个新的视角。
为实现上述技术目的,本发明采用如下技术方案:
一种基于私家车轨迹大数据的城市区域吸引力预测方法,包括以下步骤:
步骤1,获取城市大规模私家车的GPS、OBD数据,从中提取每个时段内的私家车停留点信息,并对数据进行预处理;
步骤2,基于预设计的分布拟合模型,将空间自适应地划分网格,计算每个时段内各个网格私家车停留点的空间概率密度分布,用于表征城市区域在对应时段内的吸引力;
步骤3,使用历史时段内的空间概率密度分布作为训练样本,对预搭建的神经网络模型进行训练,得到城市区域吸引力预测模型;
步骤4,获取当前时段之前若干时段内的空间概率密度分布,使用城市区域吸引力预测模型进行滚动预测,获取得到目标预测时段内私家车停留点的空间概率密度分布,即为城市区域在目标预测时段的吸引力。
在更优的技术方案中,步骤1中提取的私家车停留点信息包括车辆ID、车辆启动时间、车辆停车时间、停车经纬度,每个时段内的停留点由车辆上一段轨迹的停车时间确定;对数据预处理包括将停留点进行地图匹配和数据清洗,数据清洗是指删除含有数据缺失或数据异常的停留点信息,包括停车时间少于预设时长、适时内异常移动的轨迹数据。
在更优的技术方案中,所述预设计的分布拟合模型,采用高斯混合模型GMM、核密度估计KDE或者变分贝叶斯高斯混合模型VBGMM。
在更优的技术方案中,所述预设计的分布拟合模型采用变分贝叶斯高斯混合模型VBGMM;
首先,使用K个高斯模型组合得到高斯混合模型,来拟合私家车停留点的空间概率密度分布:
式中,P(x,y|Ωk)表示坐标为(x,y)的停留点PoS在第k个高斯模型N(x,y|μk,Σk)中的概率密度值,Ωk是第k个高斯模型的平均值μk、协方差矩阵Σk、权重ωk这三个参数的简化形式;
然后,采用对数似然函数代替最大似然函数,最大限度地提高参数集的联合概率,得到最优分布模型,故每个时段内私家车停留点的空间概率密度分布的对数似然函数表达式为:
式中,z泛指引入的潜变量zi1,zi2,...zik,zik表示停留点i来自第k个高斯模型的概率,若为真则zik=1,否则zik=0,nk表示所有N个停留点来自第k个高斯模型的概率之和;Ω指代高斯模型的三个参数:平均值μk、协方差矩阵Σk和权重ωk,N(x,y|μk,Σk)为第k个高斯模型,N为停留点的数量;
其中,平均值μk、协方差矩阵Σk和权重ωk这三个参数符合假设先验:权重ωi符合狄利克雷分布权重,均值μk符合高斯分布,精度矩阵Σk符合Wishart分布;
最后,通过变分贝叶斯期望最大化计算出平均值μk、协方差矩阵Σk和权重ωk这三个参数的最优解。
在更优的技术方案中,所述通过变分贝叶斯期望最大化计算出平均值μk、协方差矩阵Σk和权重ωk这三个参数的最优解,包括以下两个步骤:
步骤一:将平均值μk、协方差矩阵Σk和权重ωk这三个参数的分布代入空间概率密度分布的对数似然函数表达式,并计算期望,即得到停留点的后验概率分布为:
式中,α代表狄利克雷分布的参数,βk,εk分别代表高斯分布的超参数和规模因子,νk,ξk分别表示Wishart分布的的可伸缩矩阵和自由度;
步骤二:最大化,即根据假设先验分布更新参数,使空间概率密度分布的对数似然函数收敛:
最后,得到近似后验分布Ωk,即平均值μk、协方差矩阵Σk和权重ωk这三个参数。
在更优的技术方案中,所述预搭建的神经网络模型,采用基于LSTM的循环神经网络模型,具体包括:全连接层、循环神经网络层,dropout层以及输出层,其中循环神经网络层包含两个,dropout层位于输出层之前,比率选为0.5。
在更优的技术方案中,所述预搭建的神经网络模型的相关参数为:优化器为“Adam”;损失为“MSE”;度量采用“accuracy”;选择“ReLU”为激活函数。
一种设备,包括处理器和存储器;其中:所述存储器用于存储计算机指令;所述处理器用于执行所述存储器存储的计算机指令,具体执行上述任一技术方案所述的方法。
一种计算机存储介质,用于存储程序,所述程序被执行时,用于实现上述任一技术方案所述的方法。
有益效果
本发明的有益效果为:(1)预处理私家车轨迹提取停留点PoS数据,设计变分贝叶斯高斯混合模型(VBGMM)来推导PoSs的密度分布,并将其与区域吸引力的变化联系起来。(2)通过在GMM中加入变分贝叶斯推理,避免陷入局部最优,可以有效地计算PoS的概率密度,从而表示城市吸引力。(3)建立了一个基于LSTM网络的深度学习模型,它是一种特殊的递归神经网络(RNN)的实现,避免了RNN的梯度消失和梯度爆炸问题,学习时间上的空间特征从而捕获区域吸引力的演变。
附图说明
图1为本发明的基于私家车轨迹的区域吸引力预测的流程示意图;
图2(a)、(b)分别为PoSs在深圳、广州地区的点分布,(c)、(d)分别为PoSs在深圳、广州地区的基于期望最大化算法的高斯混合模型分布,(e)、(f)分别为PoSs在深圳、广州地区的基于变分贝叶斯期望最大化算法的高斯混合模型分布;
图3表示本发明对于训练集和测试集的选择过程,横轴表示小时,纵轴表示周,一个虚线三角形围成的数据表示一次输入;
图4表示不同方法预测2018年5月31日14:00深圳地区的吸引力3D结果,(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型;
图5表示不同方法预测2018年5月31日14:00深圳地区的吸引力2D结果,(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型,线框为应该注意的部分;
图6表示不同方法预测2018年8月30日14:00广州地区的吸引力3D结果,(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型;
图7表示不同方法预测2018年8月30日14:00广州地区的吸引力2D结果,(a)、(b)、(c)、(d)、(e)、(f)分别表示真实值、线性回归(LR)、多项式回归(PR)、支持向量回归(SVR)、长短时序列(LSTM)以及本发明提出的模型,线框以及圆圈为应该注意的部分。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于私家车轨迹大数据的城市区域吸引力预测方法,参考图1所示,基于私家车轨迹大数据,从中提取了私家车停留点数据,采用高斯混合模型用来拟合停留点PoSs的空间分布,其中加入了变分推断来使高斯混合模型的参数选择达到最优,并且降低计算复杂度,最后得到空间概率密度分布,这里PoSs的空间概率密度分布就是城市区域吸引力。接着本发明利用神经网络算法来捕获吸引力分布的时空演变,即长短期记忆(LTSM)和dropout,首先将数据分割为训练集、验证集和测试集,再按时间步长将训练集和验证集喂入神经网络中,神经网络通过相应的激活函数选择对历史信息进行记忆、对现有信息进行更新和输出来优化模型,再将测试集输入训练好的神经网络中进行预测,输出最终的城市区域吸引力分布结果。具体包括以下步骤:
步骤1,获取城市大规模私家车的GPS、OBD数据,从中提取每个时段内的私家车停留点信息,并对数据进行预处理;
通过使用车辆定位和状态估计技术,将收集到的轨迹数据按单次行程(trip)存储在数据集中,每次行程包含车辆ID、起止时间、起止位置、行程里程、行程时间、油耗等信息。此外,还包括这些行程中的驾驶状态,如车辆速度、转向方向,点火熄火状态,从而可以直接筛选出私家车的停留点。考虑到数据的完整性和可用性,本发明删除了含有缺失ID信息、停车少于三分钟以及短时间内异常移动的轨迹数据,之后根据车辆ID和停车时间进行排序,以一小时为时间间隔,从私家车轨迹数据集中提取PoSs信息。
步骤2,基于预设计的分布拟合模型,将空间自适应地划分网格,计算每个时段内各个网格私家车停留点的空间概率密度分布,用于表征城市区域在对应时段内的吸引力;
城市区域中某地区的停留点PoSs越多,说明该地区对居民的吸引力就越大,即空间概率密度分布密度越大,可以表示为A∝P,A表示吸引力,P表示空间概率密度分布。在空间域中,吸引力区域聚集在功能区的中心,其在功能区的强度从中心向周边边缘递减。此外,根据城市区域的空间关系,将PoSs分布看作是几个不同参数的高斯模型的组合,如商业区和住宅区等。受此启发,本发明使用高斯混合模型(GMM)来拟合城市区域PoSs的密度分布,即表征区域吸引力,它可以表示如下:
假设有K个高斯模型的混合,P(x,y|Ωk)表示坐标为(x,y)的PoS在第k个高斯模型N(x,y|μk,Σk)中的概率密度值,Ωk是第k个高斯模型的三个参数:平均值μk、协方差矩阵Σk、权重ωk的简化形式。为了更加准确的计算Ωk的值并且减少计算量,本发明采用对数似然函数代替最大似然函数,最大限度地提高参数集的联合概率,得到最优分布模型。引入潜变量zi1,zi2,...zik来表示每个停留点i来自第k个高斯模型的概率,若为真则zik=1,否则zik=0。因此包含N个PoSs的数据集,其空间分布的对数似然函数可以表示为:
由于上述对数似然函数的求和,导数的计算非常耗费计算资源。而采用EM迭代算法得到的传统GMM参数极易陷入局部最优。所以本发明将变分贝叶斯推理应用到GMM中,具体来说,假设先验三个参数:权重ωi符合狄利克雷分布权重,均值μk符合高斯分布,精度矩阵Σk符合Wishart分布:
ωi~Dir(ωi|α)
μk~N(μk|βk,(εk∑k)-1)
∑k~W(∑k|νk,ξk)
式中,α代表狄利克雷分布的参数,βk,εk分别代表高斯分布的超参数和规模因子,νk,ξk分别表示Wishart分布的矩阵和自由。然后通过变分贝叶斯期望最大化计算出这些参数的最优解(VBEM),它是EM的扩展,包括以下两个步骤:
步骤一:计算期望,即PoS的后验概率分布:
步骤二:最大化,即根据先验假设分布更新参数,使对数似然函数收敛:
最后,得到近似后验分布Ωk,使模型证据(包括先验)的下界最大化,而不是数据似然函数,从而避免陷入局部最优的情况。
步骤3,使用历史时段内的空间概率密度分布作为训练样本,对预搭建的神经网络模型进行训练,得到城市区域吸引力预测模型;
利用历史已知的数据按步骤1和步骤2进行处理得到历史时段内的空间概率密度分布,作为对预搭建的神经网络模型进行训练的训练样本,以得到城市区域吸引力预测模型。
其中,所述预搭建的神经网络模型,采用基于LSTM的循环神经网络模型,具体包括:全连接层、循环神经网络层,dropout层以及输出层,其中循环神经网络层包含两个,dropout层位于输出层之前,比率选为0.5。
LSTM包括遗忘门、输入门、输出门。遗忘门是根据当前的输入值和以前的输出值来决定是否丢弃当前输入信息。当区域吸引力变化较大时,为了避免对输入数据的依赖,要求以一定的概率遗忘部分的值。输入门决定了需要存储哪些新信息,它包含两个部分。首先它决定哪些值需要更新,其次,它创建新值作为候选值,而不是丢弃的值。另外,基于区域吸引力的不断变化,当前时刻区域吸引力的输出会影响历史区间的输出和输入,所以输出门通过两个激活函数来确定输出值。训练数据集滑动输入T_input和T_output,其中输入步长为n,对应的输出步长为1,滑入步长为5。然后使用递归神经网络对数据进行拟合,包括两层LSTMs和一个稠密层。此外,由于吸引力的变化并不表现为简单的线性关系,本发明选择ReLU为激活函数(AC),它实现的稀疏模型能够更好地挖掘相关特征,对训练数据进行拟合,而且能够识别非线性因素。在使用激活函数之前,该值应该在0到1之间标准化,因为区域吸引力不存在负值。
在将训练样本输入之前进行归一化处理,然后放入LSTM中进行训练。模型的相关参数为:优化器为“Adam”;损失为“MSE”;度量采用“accuracy”;选择“ReLU”为激活函数。
步骤4,获取当前时段之前若干时段内的空间概率密度分布,使用城市区域吸引力预测模型进行滚动预测,获取得到目标预测时段内私家车停留点的空间概率密度分布,即为城市区域在目标预测时段的吸引力。
为了实现多步预测,按照步骤1和步骤2获取当前时段之前n个时段(按照步长n)的空间概率密度分布,构成长度为n的空间概率密度分布序列,并输入训练得到的城市区域吸引力预测模型得到预测值,再将预测值放在输入序列的末尾进行更新,并预测下一个预测值,……,直到预测得到目标时段内私家车停留点的空间概率密度分布,即为城市区域在目标预测时段的吸引力。
本发明选择在深圳市和广州市采集到的数据进行实验。包括2018年4月至5月两个月8:00-18:00之间的私家车轨迹数据,共计56077次出行。先将区域划分为73x 137格,计算每个格的区域吸引力。用于训练的样本为400,040个,用于验证的样本为80,008个,用于测试的样本为60,006个。神经网络的相关参数如下:优化器为“Adam”;损失为“MSE”;度量采用“accuracy”;选择“ReLU”为激活函数,模型训练的批大小为512。实验选用MSE(mean squareerror,均方误差)、RMSE(root mean square error,均方根误差)、MAE(mean absoluteerror,平均绝对误差)、KL(Kullback-Leibler,KL散度)和R2(R-Square,卡方值)五个评价指标对实验结果进行评估:
本发明从三维视图的角度观察城市区域吸引力模型的性能。在图2(c)、(d)中,传统EM算法的高斯混合模型在建模区域吸引力时表现出了更多的尖峰和毛刺,这与现实的分布并不相符。而在图2(d)、(f)中,本发明设计了VBGMM方法来估计代表区域吸引力的PoS的概率密度,通过从参数的分布中寻找最优解,更好地建模了区域吸引力。在此基础上,为了捕获时间特征,即区域吸引力随时间的演化过程,本发明提出了一个LSTM-dropout方法来实现区域吸引力的预测,该方法捕获了区域吸引力的演化。根据可视化结果本发明所提方法均优于其他方法。图4、图5表示了三维可视化深圳市罗湖区的预测结果,在图4(a)中可以看到几个区域的峰值,这是由于火车站、多个大型商业广场之间的区域吸引力存在相互作用。基于LR和PR的吸引力预测结果中,单峰突出,导致周边区域弱化。SVR方法中,由于前区吸引力被后区错误的峰值减弱,误差较大。由于吸引力的分布呈现出复杂的非线性未知关系,LSTM算法和提出的方法包含一个多层神经网络,具有较高的学习记忆能力和快速找到最优解的能力。与其它一些简单的单层神经网络方法相比,它接近于任意非线性函数。但是因为二维分布预测要比典型的一维值预测复杂,大型神经网络耗时长,容易过拟合。因此,由于提出的方法增加了随机删除神经元的dropout,使得网络减少,训练阶段加快,从而获得更好的性能。
本发明所提出的方法在所有设置下均优于其他现有模型,在一系列指标MSE,RMSE,and MAE上对比传统的LSTM模型分别提高了218.40%,78.44%,和53.02%。综上,本发明的模型在可视化和量化分析方面均优于其他方法。
以下表格为本发明实验中所使用的数据样本示例以及指标比较,其中表1为本发明的所使用的私家车轨迹大数据样本示例;表2为本发明的模型在深圳数据集上,与LR、PR、SVR、LSTM的误差比较,其度量标准包括MSE、RMSE、MAE、KL、R2;表3为本发明的模型在广州数据集上,与LR、PR、SVR、LSTM的误差比较,其度量标准包括MSE、RMSE、MAE、KL、R2。
表1
ObjectID | StartTime | StopTime | StopLon | StopLat |
103284 | 2018/4/4 19:24 | 2018/4/5 6:44 | 114.1144 | 22.533 |
104783 | 2018/5/25 10:30 | 2018/5/27 14:27 | 114.0966 | 22.56981 |
104814 | 2018/6/8 11:05 | 2018/6/15 15:14 | 114.0625 | 22.53711 |
表2
MSE | RMSE | MAE | KL | R2 | |
LR | 0.10069 | 0.31732 | 0.21330 | 0.04846 | 0.58228 |
PR | 0.09646 | 0.31058 | 0.20983 | inf | 0.61035 |
SVR | 0.14197 | 0.37679 | 0.28131 | 0.19175 | 0.51853 |
LSTM | 0.07425 | 0.27249 | 0.17426 | 0.02914 | 0.87588 |
Proposed | 0.02332 | 0.15271 | 0.11386 | 0.04204 | 0.93480 |
表3
MSE | RMSE | MAE | KL | R2 | |
LR | 0.01296 | 0.11386 | 0.08632 | inf | 0.68733 |
PR | 0.00729 | 0.08537 | 0.05720 | inf | 0.78611 |
SVR | 0.00835 | 0.09139 | 0.06579 | inf | 0.63921 |
LSTM | 0.00748 | 0.08649 | 0.05868 | inf | 0.79848 |
Proposed | 0.00504 | 0.07099 | 0.04913 | 0.04192 | 0.87757 |
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (9)
1.一种基于私家车轨迹大数据的城市区域吸引力预测方法,其特征在于,包括以下步骤:
步骤1,获取城市大规模私家车的GPS、OBD数据,从中提取每个时段内的私家车停留点信息,并对数据进行预处理;
步骤2,基于预设计的分布拟合模型,将空间自适应地划分网格,计算每个时段内各个网格私家车停留点的空间概率密度分布,用于表征城市区域在对应时段内的吸引力;
步骤3,使用历史时段内的空间概率密度分布作为训练样本,对预搭建的神经网络模型进行训练,得到城市区域吸引力预测模型;
步骤4,获取当前时段之前若干时段内的空间概率密度分布,使用城市区域吸引力预测模型进行滚动预测,获取得到目标预测时段内私家车停留点的空间概率密度分布,即为城市区域在目标预测时段的吸引力。
2.根据权利要求1所述的方法,其特征在于,步骤1中提取的私家车停留点信息包括车辆ID、车辆启动时间、车辆停车时间、停车经纬度,每个时段内的停留点由车辆上一段轨迹的停车时间确定;对数据预处理包括将停留点进行地图匹配和数据清洗,数据清洗是指删除含有数据缺失或数据异常的停留点信息,包括停车时间少于预设时长、适时内异常移动的轨迹数据。
3.根据权利要求1所述的方法,其特征在于,所述预设计的分布拟合模型,采用高斯混合模型GMM、核密度估计KDE或者变分贝叶斯高斯混合模型VBGMM。
4.根据权利要求1所述的方法,其特征在于,所述预设计的分布拟合模型采用变分贝叶斯高斯混合模型VBGMM;
首先,使用K个高斯模型组合得到高斯混合模型,来拟合私家车停留点的空间概率密度分布:
式中,P(x,y|Ωk)表示坐标为(x,y)的停留点PoS在第k个高斯模型N(x,y|μk,Σk)中的概率密度值,Ωk是第k个高斯模型的平均值μk、协方差矩阵Σk、权重ωk这三个参数的简化形式;
然后,采用对数似然函数代替最大似然函数,最大限度地提高参数集的联合概率,得到最优分布模型,故每个时段内私家车停留点的空间概率密度分布的对数似然函数表达式为:
式中,z泛指引入的潜变量zi1,zi2,...zik,zik表示停留点i来自第k个高斯模型的概率,若为真则zik=1,否则zik=0,nk表示所有N个停留点来自第k个高斯模型的概率之和;Ω指代高斯模型的三个参数:平均值μk、协方差矩阵Σk和权重ωk,N(x,y|μk,Σk)为第k个高斯模型,N为停留点的数量;
其中,平均值μk、协方差矩阵Σk和权重ωk这三个参数符合假设先验:权重ωi符合狄利克雷分布权重,均值μk符合高斯分布,精度矩阵Σk符合Wishart分布;
最后,通过变分贝叶斯期望最大化计算出平均值μk、协方差矩阵Σk和权重ωk这三个参数的最优解。
5.根据权利要求4所述的方法,其特征在于,所述通过变分贝叶斯期望最大化计算出平均值μk、协方差矩阵Σk和权重ωk这三个参数的最优解,包括以下两个步骤:
步骤一:将平均值μk、协方差矩阵Σk和权重ωk这三个参数的分布代入空间概率密度分布的对数似然函数表达式,并计算期望,即得到停留点的后验概率分布为:
式中,α代表狄利克雷分布的参数,βk,εk分别代表高斯分布的超参数和规模因子,νk,ξk分别表示Wishart分布的可伸缩矩阵和自由度;
步骤二:最大化,即根据假设先验分布更新参数,使空间概率密度分布的对数似然函数收敛:
最后,得到近似后验分布Ωk,即平均值μk、协方差矩阵Σk和权重ωk这三个参数。
6.根据权利要求1所述的方法,其特征在于,所述预搭建的神经网络模型,采用基于LSTM的循环神经网络模型,具体包括:全连接层、循环神经网络层,dropout层以及输出层,其中循环神经网络层包含两个,dropout层位于输出层之前,比率选为0.5。
7.根据权利要求6所述的方法,其特征在于,所述预搭建的神经网络模型的相关参数为:优化器为“Adam”;损失为“MSE”;度量采用“accuracy”;选择“ReLU”为激活函数。
8.一种设备,其特征在于,包括处理器和存储器;其中:所述存储器用于存储计算机指令;所述处理器用于执行所述存储器存储的计算机指令,具体执行如权利要求1-7任一所述的方法。
9.一种计算机存储介质,其特征在于,用于存储程序,所述程序被执行时,用于实现如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142859.6A CN112906948B (zh) | 2021-02-02 | 2021-02-02 | 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142859.6A CN112906948B (zh) | 2021-02-02 | 2021-02-02 | 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906948A true CN112906948A (zh) | 2021-06-04 |
CN112906948B CN112906948B (zh) | 2023-12-22 |
Family
ID=76121339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110142859.6A Active CN112906948B (zh) | 2021-02-02 | 2021-02-02 | 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906948B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627089A (zh) * | 2021-08-27 | 2021-11-09 | 东南大学 | 一种基于混合密度神经网络的城市车流量仿真方法 |
CN113673749A (zh) * | 2021-07-28 | 2021-11-19 | 广东省科学院智能制造研究所 | 车辆行人地图轨迹预测方法及装置 |
CN114220263A (zh) * | 2021-11-29 | 2022-03-22 | 北京中交兴路信息科技有限公司 | 一种货运车辆通行时长确定方法、装置、存储介质及终端 |
CN116882828A (zh) * | 2023-07-14 | 2023-10-13 | 北京大学 | 一种结合历史及现代游历数据的历史城镇网络构建与分类评估方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270788A1 (en) * | 2010-04-30 | 2011-11-03 | Moore Douglas A | Neural Network For Clustering Input Data Based On A Gaussian Mixture Model |
US20190050948A1 (en) * | 2017-08-08 | 2019-02-14 | Indigo Ag, Inc. | Machine learning in agricultural planting, growing, and harvesting contexts |
US20190180358A1 (en) * | 2017-12-11 | 2019-06-13 | Accenture Global Solutions Limited | Machine learning classification and prediction system |
CN110298500A (zh) * | 2019-06-19 | 2019-10-01 | 大连理工大学 | 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法 |
CN110415523A (zh) * | 2019-08-13 | 2019-11-05 | 东南大学 | 一种基于车辆出行轨迹数据的信号控制子区划分方法 |
CN110472775A (zh) * | 2019-07-26 | 2019-11-19 | 广州大学 | 一种系列案件疑犯落脚点预测方法 |
CN110728305A (zh) * | 2019-09-16 | 2020-01-24 | 南京信息工程大学 | 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法 |
CN111275962A (zh) * | 2019-12-30 | 2020-06-12 | 深圳市麦谷科技有限公司 | 车辆轨迹数据聚集效应预测方法及装置 |
CN111881243A (zh) * | 2020-07-30 | 2020-11-03 | 河北工程大学 | 一种出租车轨迹热点区域分析方法及系统 |
CN112257934A (zh) * | 2020-10-26 | 2021-01-22 | 辽宁工程技术大学 | 一种基于时空动态神经网络的城市人流预测方法 |
CN112598165A (zh) * | 2020-12-11 | 2021-04-02 | 湖南大学 | 基于私家车数据的城市功能区转移流量预测方法及装置 |
-
2021
- 2021-02-02 CN CN202110142859.6A patent/CN112906948B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270788A1 (en) * | 2010-04-30 | 2011-11-03 | Moore Douglas A | Neural Network For Clustering Input Data Based On A Gaussian Mixture Model |
US20190050948A1 (en) * | 2017-08-08 | 2019-02-14 | Indigo Ag, Inc. | Machine learning in agricultural planting, growing, and harvesting contexts |
US20190180358A1 (en) * | 2017-12-11 | 2019-06-13 | Accenture Global Solutions Limited | Machine learning classification and prediction system |
CN110298500A (zh) * | 2019-06-19 | 2019-10-01 | 大连理工大学 | 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法 |
CN110472775A (zh) * | 2019-07-26 | 2019-11-19 | 广州大学 | 一种系列案件疑犯落脚点预测方法 |
CN110415523A (zh) * | 2019-08-13 | 2019-11-05 | 东南大学 | 一种基于车辆出行轨迹数据的信号控制子区划分方法 |
CN110728305A (zh) * | 2019-09-16 | 2020-01-24 | 南京信息工程大学 | 基于网格信息熵聚类算法的出租车载客热点区域挖掘方法 |
CN111275962A (zh) * | 2019-12-30 | 2020-06-12 | 深圳市麦谷科技有限公司 | 车辆轨迹数据聚集效应预测方法及装置 |
CN111881243A (zh) * | 2020-07-30 | 2020-11-03 | 河北工程大学 | 一种出租车轨迹热点区域分析方法及系统 |
CN112257934A (zh) * | 2020-10-26 | 2021-01-22 | 辽宁工程技术大学 | 一种基于时空动态神经网络的城市人流预测方法 |
CN112598165A (zh) * | 2020-12-11 | 2021-04-02 | 湖南大学 | 基于私家车数据的城市功能区转移流量预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
薛佳瑶;陈海勇;周刚;: "基于卷积循环神经网络的城市区域车流量预测模型", 信息工程大学学报, no. 02 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673749A (zh) * | 2021-07-28 | 2021-11-19 | 广东省科学院智能制造研究所 | 车辆行人地图轨迹预测方法及装置 |
CN113673749B (zh) * | 2021-07-28 | 2023-11-21 | 广东省科学院智能制造研究所 | 车辆行人地图轨迹预测方法及装置 |
CN113627089A (zh) * | 2021-08-27 | 2021-11-09 | 东南大学 | 一种基于混合密度神经网络的城市车流量仿真方法 |
CN114220263A (zh) * | 2021-11-29 | 2022-03-22 | 北京中交兴路信息科技有限公司 | 一种货运车辆通行时长确定方法、装置、存储介质及终端 |
CN116882828A (zh) * | 2023-07-14 | 2023-10-13 | 北京大学 | 一种结合历史及现代游历数据的历史城镇网络构建与分类评估方法 |
CN116882828B (zh) * | 2023-07-14 | 2024-02-27 | 北京大学 | 一种结合历史及现代游历数据的历史城镇网络构建与分类评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112906948B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112906948B (zh) | 一种基于私家车轨迹大数据的城市区域吸引力预测方法、设备及介质 | |
James et al. | Online vehicle routing with neural combinatorial optimization and deep reinforcement learning | |
Chen et al. | Understanding ridesplitting behavior of on-demand ride services: An ensemble learning approach | |
CN107169567B (zh) | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
CN106910199B (zh) | 面向城市空间信息采集的车联网众包方法 | |
WO2019056497A1 (zh) | 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质 | |
CN104778508A (zh) | 一种基于多源数据融合的公共自行车租借预测方法 | |
JP7226855B2 (ja) | 列車がトンネルを通過する時間の計算方法、システム及び記憶媒体 | |
US20160125307A1 (en) | Air quality inference using multiple data sources | |
CN108986453A (zh) | 一种基于情境信息的交通状况预测方法、系统及装置 | |
CN110738247A (zh) | 一种基于选择性稀疏采样的细粒度图像分类方法 | |
CN113591380A (zh) | 基于图高斯过程的交通流预测方法、介质及设备 | |
CN116628455B (zh) | 一种城市交通碳排放监测与决策支持方法及系统 | |
CN115564114A (zh) | 一种基于图神经网络的空域碳排放短期预测方法及系统 | |
CN114036135A (zh) | 利用不完全信息估计城市移动源污染排放方法及系统 | |
CN114299607A (zh) | 一种基于自动驾驶汽车的人车碰撞危险度分析方法 | |
Fiosina | Explainable Federated Learning for Taxi Travel Time Prediction. | |
James | Citywide estimation of travel time distributions with Bayesian deep graph learning | |
Sun et al. | Road network metric learning for estimated time of arrival | |
Sudhakar et al. | Ada-SISE: adaptive semantic input sampling for efficient explanation of convolutional neural networks | |
CN117436653A (zh) | 一种网约车出行需求的预测模型构建方法和预测方法 | |
CN112101132A (zh) | 一种基于图嵌入模型和度量学习的交通状况预测方法 | |
CN112052405A (zh) | 一种基于司机经验的寻客区域推荐方法 | |
CN112559909B (zh) | 一种基于gcn嵌入空间聚类模型的商业区发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |