一种高速公路服务区驶入车流量的建模方法
技术领域
本公开涉及交通规划数据分析领域,尤其涉及一种高速公路服务区驶入车流量的建模方法。
背景技术
在城际交通中,高速公路服务区是非常重要的休息区,它为出行的用户提供多种服务,合理的高速公路服务区规划与运营能为来往的乘客提供更多的便利,同时也可以创造更大的收益。衡量服务区运营效果一个非常重要的因素就是服务区一天的驶入车流量变化情况,驶入车流量过多会导致服务区运营负载过重,驶入流量过少会导致资源的浪费。理解服务区驶入车流量变化的模式可以分析出驶入车流量变化的原因,预测之后的车流量变化,为服务区的规划与运营提供重要的参考依据。但就发明人所知,现有的高速公路服务区的研究仅停留在单个时间点的服务区驶入率问题,并没有考虑服务区驶入率随时间变化的情况。
发明内容
为了解决现有技术的不足,本公开提供了一种高速公路服务区驶入车流量的建模方法,充分考虑了服务区驶入车流量的几个重要影响因素,包括服务区所在位置主线断面交通量,服务区功能,服务区间距以及时间因素。
为了实现上述目的,本公开的技术方案如下:
一种高速公路服务区驶入车流量的建模方法,包括:
采集某服务区多日的车辆驶入数量,计算每一天服务区车辆驶入流量变化曲线并对其进行聚类,得到多个服务区车辆驶入流量变化模式;
利用高斯混合模型拟合不同驶入流量变化模式的服务区车辆驶入时间分布,得到多个服务区的驶入量模型;
根据服务区附近主线断面交通量、服务区规模、服务区与前后服务区或者城市的距离对服务区的驶入量模型进行扩样,得到具有每个服务区单独特征的服务区驶入车流量模型。
根据每个服务区不同的服务区驶入车流量模型可以分析该服务区驶入车流量变化的原因,预测之后的车流量变化,为服务区的规划与运营提供重要的参考依据。
进一步的,所述聚类具体包括对服务区的驶入车流量进行归一化,利用k-means算法进行聚类,并根据聚类结果,将每一个服务区的车辆驶入流量变化模式用聚类中心的变化模式替代。
进一步的,所述k-means算法聚类过程具体包括:
根据输入样本和输入长度向量随机选择k个初始的聚类中心;
计算所有样本点到聚类中心点的距离,并将样本点分配到离它最近的聚类中心点;
对划分到同一聚类中心的样本点计算它们的均值点,并用均值点替换原来的聚类中心点;
重新划分样本点,如此迭代,直至收敛。
进一步的,所述高斯混合模型的拟合过程包括:对于每个车辆驶入流量变化模式首先按照人流量日变化曲线确定高斯混合模型中的高斯分量的数量,然后根据每个用户的到达时间,利用EM算法反推出高斯混合模型的参数。
进一步的,所述利用EM算法反推出高斯混合模型的参数过程具体包括:
假设观测到的第j个用户进入时间为xj,依概率πk选择第k个高斯分布模型N(x|μk,σk),然后根据这个高斯分布模型生成观测数据xj,用隐变量γjk表示观测数据xj来自第k个分模型:
根据EM算法,求Q函数:
其中θ表示模型的参数(πk,μk,σk),θ(i)表示第i次迭代的参数,N表示样本的数量,表示当前模型参数下第j个观测数据来自第k个分模型的概率;
求Q函数对参数θ的极大值,将Q函数分别对πk,μk,σk 2求偏导并令其为0,可得到:
重复以上计算,直到对数似然函数值不再有明显的变化为止,即可得到每个时间段的归一化的车流量。
进一步的,假设扩样的统一扩样因子为λ,服务区附近的主线断面交通量为w,整个服务区的功能完整性为f,距离的影响为d,则扩样后的车流量估计值模型为
q″=eλw+f+d·q′
其中q′为由高斯混合模型计算出的归一化车流量。
进一步的,所述服务区内的功能区包括餐厅、超市、卫生间、停车场、加油站和\或客房,因此所述服务区规模可通过整个服务区的功能完整性f进行表示:
式中,fi表示第i种功能区的重要性,μi表示第i种功能区在该服务区中的数量。
进一步的,假设所述服务区所在高速的前后相邻服务区或城市跟它的距离分别为da,db,则可通过指数来拟合距离的影响:
d=τada+τbdb
式中,τa和τb分别表示前后服务区或城市距离对当前服务区的影响权重。
进一步的,所述扩样后的车流量估计值模型q″,其损失函数采用均方损失函数表示,并通过梯度下降的方法训练模型,求解各参数。
进一步的,所述均方损失函数为:
其中qi″表示一天中第i个时间段的输入车流量的估计值,qi表示一天中第i个时间段的输入车流量的真实值,q′i表示高斯混合模型中该服务区在一天的第i个时间段的车流量,τa和τb分别表示前后服务区或城市距离对当前服务区的影响权重,fj表示第j种功能区的重要性。
与现有技术相比,本公开的有益效果是:
1)本公开的高速公路服务区驶入车流量的建模方法,充分考虑了服务区驶入车流量的几个重要影响因素,使得建立的模型可以准确分析出驶入车流量变化的原因,预测之后的车流量变化,为服务区的规划与运营提供重要的参考依据。
2)本公开的高速公路服务区驶入车流量建模方法可以将不同服务区,不同日期的车辆量变化模式进行分类。可以发现相似服务区,分析不同时间比如工作日和周末的不同模式。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开某一实施例的聚类算法流程;
图2为本公开某一实施例的EM算法求解高斯混合模型流程图;
图3为本公开某一实施例的建模系统框架;
图4为本公开某一实施例的不同服务区车辆驶入量变化图。
具体实施方式
下面结合附图与具体实施例对本公开做进一步的说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。
本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。
作为一种或多种实施例,本公开提出了一个高速公路服务区驶入车流量日变化模型,该模型考虑了服务区驶入车流量的几个重要影响因素,包括服务区所在位置主线断面交通量,服务区功能,服务区间距以及时间因素。
具体的,本公开通过一种基于聚类和混合高斯模型方法进行建模。
首先,根据多日多服务区车辆驶入数量分布聚类得到几种典型的流量变化模式。然后,针对每种流量变化模式分别用混合高斯模型拟合。最后,根据其他因素综合估计出服务区车辆驶入量。
具体方案如下:
1输入:
车辆进入服务区数据,如表1所示;
表1
2输出:
服务区车辆驶入模型,由高斯混合模型的参数(πk,μk,σk)表示,以及多种因素相关的扩样系数(λ,w,f,d)。可以根据模型参数估计出每个服务区一天中的驶入车辆流量变化,建立如表2所示的表格。
表2
服务区ID |
时间段 |
驶入车辆 |
001 |
00:00~01:00 |
|
001 |
01:00~02:00 |
|
… |
… |
|
001 |
23:00~24:00 |
|
|
|
|
基于上述分析,本公开的步骤主要包括:
1.按照一天中车辆驶入流量变化曲线聚类;
2.利用高斯混合模型拟合不同驶入规律的服务区的车辆驶入时间分布;
3.根据主线断面交通量、服务区功能、服务区间距以及时间因素等多种因素构建扩样模型。
下面对上述步骤进行具体分析:
步骤1服务区车辆驶入变化模式聚类
在高速公路上,不同的服务区车辆驶入情况存在着区别,同一服务区不同日期的车辆驶入模式也会存在差别。比如具有餐饮功能的服务区,在一天的午餐和晚餐时间的驶入量会呈现两个峰值;大型的综合服务区则在白天都会保持比较高的驶入量;而一些服务区的货车驶入量比较多,可能在夜间,货车流量比较大的时候呈现出峰值。另外,工作日和周末的驶入模式也存在差别。因此,服务区的车辆驶入量模式是存在差别的。如图4所示为几个不同服务区的车流量变化图。本公开中首先利用驶入模式把服务区分类,找出典型的人流量模式,算法流程如图1所示。
1)在聚类的时候不考虑服务区车流量的绝对值,只考虑变化模式,对服务区的驶入车流量进行归一化。
一个服务区一天的驶入车流量按小时变化用S=[n1,n2,n3,...,n24]表示,则归一化之后其中第i项变为S转化为范围为[0,1]的变量的序列S’;
2)利用k-means算法聚类。
输入的样本为S’,长度为24(如果按小时划分时间段,也可以利用其它时间间隔划分)的向量。K-means算法会首先随机选择k个初始的中心(24维空间中的任意k个点),然后计算所有样本点到中心点的距离,将样本点分配到离它最近的中心点,接下来用划分到同一中心的样本点计算它们的均值点,并用均值点替换原来的中心点,然后再重新划分样本点,如此迭代,直至收敛。
本公开中通过选取一段时间(多日)的日车流量变化放在一起聚类,并在经过一段较长时间后,因为交通特征发生变化,重新用新的数据重新聚类,即调整k值,重新训练出合适的簇。
3)根据聚类结果,将每一个服务区的流量变化模式用聚类中心的变化模式替代。
步骤2高斯混合模型拟合流量变化
高斯混合模型(GMM)是指多个高斯分布函数的线型组合,理论上高斯混合模型可以拟合任意类型的分布,通常解决同一数据集中包含多个不同分布的情况。假设有随机变量X,则混合高斯模型可以用下式表示:
其中N(x|μk,σk)是混合高斯模型中的第k个分量,k表示分量的个数,πk表示混合系数。满足
0≤πk≤1 (3)
如图2所示,假设用户进入服务区的时间符合高斯混合分布,对于聚类出来的每一类训练一个高斯混合模型。对于每个聚类结果首先按照人流量日变化曲线确定混合高斯模型中的高斯分量的数量k。然后根据每个用户的到达时间,反推出模型的参数(πk,μk,σk)。具体用EM算法求解。假设观测到的第j个用户进入时间为xj,它是这样产生的,首先依概率πk选择第k个高斯分布模型N(x|μk,σk),然后根据这个高斯分布模型生成观测数据xj。用隐变量γjk表示观测数据xj来自第k个分模型。
根据EM算法:
E步:
求Q函数,
其中,Q函数表示对数似然函数在已有观测变量条件下的期望,θ表示模型的参数(πk,μk,σk),θ(i)表示第i次迭代的参数,N表示样本的数量,表示当前模型参数下第j个观测数据来自第k个分模型的概率,μk表示第k个高斯模型的均值,σk表示第k个高斯模型的标准差。
M步:
求Q函数对参数θ的极大值,只需将Q函数分别对πk,μk,σk 2求偏导并令其为0,可得到:
重复以上计算,直到对数似然函数值不再有明显的变化为止,得到每个时间段的归一化的车流量为q′。
步骤3基于多种因素的扩样
在步骤2中得到了若干种服务区的驶入量模型,但是要估计每一个服务区的车辆驶入量,还需要结合每个服务区单独的特征。在本公开中我们考虑以下几个主要的特征:服务区附近主线断面交通量,服务区规模,服务区与前后服务区或者城市的距离。
1)主线断面交通量
主线断面交通量是指服务区所在高速公路的断面交通量,这个指标的大小直接反应了高速公路的运载状况。如果交通量越大,驶入服务区的车辆数量就越多。交通调查中一个重要的指标“服务区驶入率”就是驶入服务区的车辆数量/主线断面交通量。假设服务区附近的主线断面交通量为w。
2)服务区规模
服务区的规模是车辆是否驶入服务区的重要因素。如果用户想要用餐,那她肯定会选择驶入有餐厅的服务区。为了衡量服务区各种功能的重要性,我们给各种功能区赋予一个重要性的单位值,考虑的功能有餐厅、超市、卫生间、停车场、加油站、客房,它们的单位重要性分别用[f1,f2,f3,f4,f5,f6]表示。整个服务区的功能完整性用
表示。其中μi表示第i种功能区在该服务区中的数量,不同的功能区有不同的单位,比如停车场的单位是车位数,餐厅的单位是面积等。
3)与前后服务区或者城市的距离
车辆进入服务区停留的一个重要原因是长途行驶中间过程中的中途休息过程。所以服务区的间距或者与城市之间的距离是车辆是否进入服务区的一个重要因素。虽然服务区在设计之时就会把距离设置在合适的区域,但是由于建设或者选址的关系,不同服务区之间还是存在着一定的差距。我们考虑服务区所在高速前后相邻服务区或城市跟它的距离。假设分别为da,db,我们用指数来拟合距离的影响。
d=τada+τbdb (9)
式中,τa和τb分别表示前后服务区或城市距离对当前服务区的影响权重。
根据三种影响因素,得到一个统一的扩样因子λ,扩样后的q″=eλw+f+d·q′
需要学习的参数有λ,fj,τa,τb(j=1,2,...,6),损失函数用均方损失函数
其中qi″表示一天中第i个时间段的输入车流量的估计值,qi表示一天中第i个时间段的输入车流量的真实值,损失函数L中剩余的部分为正则项,防止模型过拟合。
然后利用梯度下降的方法训练模型,求解各参数。梯度公式如下所示:
输入的数据为(q′i,qi),其中q′i为高斯混合模型中该服务区在一天的第i个时间段的车流量,qi为该时间段真实的车流量。
本公开首先根据归一化的车辆驶入量变化曲线聚类得到几种典型的流量变化模式,然后用混合高斯模型建模每一类流量模式中用户进入服务区的时间分布,然后建模每个服务区的扩样方式,利用了多种因素如主线断面车流量等,根据本公开的服务区驶入车流量变化的模式可以分析出驶入车流量变化的原因,预测之后的车流量变化,为服务区的规划与运营提供重要的参考依据。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。