发明内容
本发明的技术解决问题:克服现有技术的不足,提供一种基于机动车行驶模式的道路交通能耗量化方法,这种方法准确率及实时性较高、泛化能力及扩展能力强,可在特大城市的复杂路网中推广应用。
本发明的技术解决方案:一种基于机动车行驶模式的道路交通能耗量化方法,通过以下步骤实现:
(1)对原始数据进行预处理,将机动车的一次完整的行驶旅程划分为多个长为3min的行驶片段,不足3min的略去;
(2)以行驶片段为单位,计算机动车在此片段上的中观行驶参数,所述中观是相对瞬时速度微观参数而言的,所述中观行驶参数包括平均速度、加速度噪声、平均加速度、平均减速度、加速时间比例、减速时间比例、怠速时间比例、平均汽车比功率VSP和速度方差9个参数;基于所述中观行驶参数构造量化机动车行驶状态的特征向量,然后通过主成分分析技术来降低特征向量的维度构造出新的特征向量;
所述汽车比功率(Vehicle Specific Power)是一种速度、加速度等变量值的计算量,其物理意义为发动机移动车辆所需要输出的功率,单位为kw/t。其计算公式如下:
VSP=v×(1.1×a+0.132)+0.000302×v3,其中v为瞬时速度,a为瞬时加速度;
(3)以步骤(2)构造的特征向量为输入,以特征向量之间的距离作为相似度度量函数进行聚类分析,聚类分析采用可自动发现聚类数目的XMeans算法,在聚类分析过程中以贝叶斯信息准则为指导,不同类簇的聚类中心即代表不同的行驶模式,以特征向量表示,通过聚类总共得到了10种典型的行驶模式,其中每一种行驶模式都代表一类具有相同能耗水平的行驶状态,行驶模式反映了机动车能耗水平的聚集现象;所述10种典型的行驶模式所对应的特征值如下表:
通过聚类得典型的行驶模式,其中每一种行驶模式都代表一类具有相同能耗水平的行驶状态,行驶模式反映了机动车能耗水平的聚集现象;所述10种典型的行驶模式所对应的特征值如下表:
10种典型的行驶模式所对应的特征值
其中:Pi表示:第i种行驶模式,Fj表示步骤(2)中构造的第j个特征向量;
10种典型的行驶模式对应的油耗率
其中:Pi表示:第i种行驶模式;
(4)分析不同中观行驶参数下的行驶模式分布规律,机动车在不同的道路类型以及速度水平下,各行驶模式虽然所占的比例都不相同,但行驶模式分布都比较集中;当道路类型限定为平直路时,机动车行驶模式的分布有更加集中,尤其当机动车行驶速度低于20Km/h时,行驶在平直路上的机动车不会受信号灯的强制干扰,行驶状态更加顺畅,而信号灯附近的机动车多集中在波动较大的行驶模式上,基于以上行驶模式的分布规律,提取每个特征向量的平均速度以及油耗水平,分析各种道路类型下油耗率随平均速度的变化趋势,发现在平直路和高架桥道路类型下,油耗率和平均速度呈对数变化趋势,在红绿灯道路类型下,油耗率和平均速度呈指数变化趋势,通过拟合的方法建立道路交通能耗量化方程fuel,得到交通能耗量指标,
其中,fuel为油耗率,单位为L/100km;v表示平均速度,单位为km/h。
且各模型的拟合度均达到0.7以上。
所述加速度噪声反映了道路交通流运行的流畅程度,计算公式如(1)所示:
其中,A表示加速度噪声,单位为m/s2;a(ti)表示ti时刻的加速度,单位为m/s2,其中i表示当前行驶片段的第i条行驶记录;u(ti)表示ti时刻的速度,单位为m/s;n表示当前行驶片段包含的记录数。
所述步骤(3)聚类分析的具体实现过程如下:
Step1.指定聚类数目k范围[kmin,kmax],并初始化k=kmin;
Step2.从步骤(2)中提取的数据集EV中随机选取k个数据点u1,u2,u3...uk作为初始聚类中心;
其中EV是步骤(2)中通过主成分分析得到的特征向量的集合;
Step3.对于数据集EV中的每一个数据点xi,根据相似度判定其所属的类簇,其中,s(arg1,arg2)为相似度计算函数;
Step4.重复以上过程,将所有的数据点都指派到最相似的类簇;
Step5.对于每一个类簇,重新计算其聚类中心,
Step6.计算准则函数,
Step7.如果准则函数不再变化转向Step8,否则跳到Step3;
Step8.对已聚出的各个类簇进行进一步划分并计算划分前后的贝叶斯信息准则BICpre,BICpost;
其中对于聚类数目k对应的聚类模型,贝叶斯信息准则的计算公式:
其中,EV为步骤(2)中通过主成分分析得到的特征向量的集合;R为EV中包含的特征向量的个数;p表示参数个数;
Step9.如果BICpre>BICpost转向Step10,否则令k=k+1并跳到Step8;
Step10.如果k>kmax转向Step7,否则令k=k+1并跳到Step2;
Step11.选取BIC最大的划分方式作为聚类结果
假定M为不同聚类数目k对应的模型集合,则有 即为最佳聚类模型;经过以上聚类过程,将(3)中的特征向量聚为10个类簇,不同类簇对应不同的行驶模式,聚类中心如下表所示:
行驶模式的聚类中心
其中P1,P2…P10即为聚出的10个典型行驶模式,F1,F2,F3,F4为各个行驶模式对应四个不同行驶特征。
本发明与现有技术相比的优点在于:
(1)本发明在计算机动车能耗水平时,考虑了多种不同的行驶参数,每种行驶参数都从不同的角度量化机动车当前的行驶状态,相对传统的仅考虑一种参数的方法,本发明所提取的参数不仅反映了机动车行驶速度的快慢,而且也很好的反映了其行驶状态的波动情况,由于各种参数没有进行整合,信息几乎没有损失,所以,准确率高,广泛化能力强。
(2)在不同的道路交通条件下,机动车的行驶模式具有明显不同的分布规律,这种分布规律的差异导致了其对应能耗水平的不同,本发明以此为依据,结合不同行驶模式对应的油耗率,然后借助线性拟合的方法,实现了基于可测交通参数的机动车能耗计算方法。
(3)本发明中的平均加速度、加速时间比例、平均减速度、减速时间比例、怠速时间比例弥补了平均速度在中高速区间下,对机动车能耗变化解释能力弱的缺点。
(4)本发明中的行驶模式分布规律的差异是导致不同道路交通条件下的能耗水平不同的根本原因,也是建立道路能耗计算模型,提升其准确率的参考依据。
具体实施方式
如图1所示,本发明基于机动车行驶模式的道路交通能耗量化方法通过以下步骤实现:
(1)对原始数据进行必要的预处理,并将机动车的一次完整的行驶旅程划分为多个长为3min的行驶片段,不足3min的略去。
本发明所使用的能耗数据采自北京市600辆私家车的日常行驶数据,数据采集时间为2012年4月1号至2012年4月30号,采集范围覆盖了北京市绝大部分的道路类型,采集频率为1Hz,采集设备为CAN(Controller Area Network)卡。
不同车型之间由于自身车重、发动机排量等属性的差异导致其在相同行驶模式下具有不同的油耗水平,直接基于能耗绝对值的分析难以取得一致性结论。为此,本发明以机动车排量与行驶速度为参考依据,对不同车型的能耗数据进行了标准化处理。
分析发现,机动车的能耗与排量、行驶速度均呈正相关关系,但不同排量对机动车能耗的影响在不同的速度区间程度不同,在各速度区间下的油耗与排量均具有较强的线性相关性,且速度越高,由排量引起的油耗差异越大。
不同排量对应的标准化因子如表1所示。
表1部分排量对应的标准化因子
能耗标准化公式如(1)所示。
StandardFule=RawFule(speed,displacement)-StandardFactor(speed,displacement) (1)
其中StandardFule表示标准化后的油耗,单位为μL,RawFule(speed,displacement)表示原始油耗值,单位为μL;StandardFactor(speed,displacement)表示标准化因子。
另一方面,受道路周边环境和机动车自身状况的影响,车载数据采集设备工作状态并不十分稳定,采集到的油耗数据中存在一部分异常值,这一问题对后续能耗规律分析的准确性有至关重要的影响,为此本发明采用基于VSP Bin的方法对异常数据进行了初步的识别与校正,为后续的数据分析奠定基础。
分析发现,能耗异常值主要有两种:①无效值:当前时刻的喷油量未采集到,记录的数值为65535;②极端值:与当前行驶状态不相符的能耗值。其中,能耗值为65535的无效值一般连续出现,且持续时间超过15秒,基于邻近的数据进行校正的难度较大,考虑到这部分值所占的比例不大(3%左右),本文将直接剔除这部分数据,不再对其校正,将包含这部分数据的连续行驶轨迹分割为多个子片段。对于与行驶状态不符的能耗值,本发明采用基于VSP Bin分布的方法对油耗异常值进行识别与校正,VSP反映了机动车在行驶过程在的功率需求,其与机动车的瞬时喷油量具有较强的相关性,皮尔逊相关系数可达0.805。
分析发现,当VSP<0kw/t时,油耗值基本介于0μL到500μL之间,且波动不大,当VSP≥0kw/t时,油耗分布基本服从正态分布,且峰值随VSP的增加而逐渐右移。由正态分布的3σ原则可知,样本落在区间之外为小概率事件,为此本文选定3σ区间作为能耗异常值的判定区间,并以区间的上下界作为校正异常值的参考值。
基于以上讨论,油耗异常值的判定区间如(2)所示。
其中OutlierDetectionInterval是能耗异常值的判断区间,为当前VSP区间下的油耗均值,σ当前VSP区间下的油耗标准差,为了简化计算,本发明取其中S2为样本方差的无偏估计,
对于落在校正区间OutlierDetectionInterval之外的油耗值即视为异常值,小于校正区间左边界的能耗值用区间左边界值作为其校正值,大于校正区间右边界的则用其右边界值作为校正值,各VSP区间对应的校正区间如表2所示。
表2能耗校正区间
由于机动车的一次行驶轨迹较长,其中包含较多的行驶状态,为此需要首先将其划分为多个行驶片段,实验表明,当划分时长为3min时,能耗规律最稳定。
(2)以行驶片段为单位,从不同的角度提取与机动车能耗密切相关的中观行驶参数,进而构造可准确量化机动车行驶状态的特征向量。
平均速度是大部分能耗计算模型的输入参数,但由于在中低速区间下,其与能耗的相关性较弱,导致仅以平均速度为输入的能耗计算方法准确率普遍不高。
加速度噪声的提出是为了量化交通流运行的流畅程度,实验表明,在不同平均速度和加速度噪声下机动车的能耗大体呈斜对角线分布,尤其是当速度低于10m/s时。这说明在给定的能耗水平下会有一个较大的速度区间与之对应,在这个区间内,平均速度的变化并没有引起油耗水平大的波动,而加速度噪声在一定程度上解释了这种现象,在平均速度增大时加速度噪声在不断减小,虽然速度快了但机动车行驶状态趋于稳定,所以能耗不会随平均速度的增加大幅上升。
加速度噪声综合考虑了速度和加速度,弥补了低速区间下平均速度与能耗相关性弱地缺点。
然而,在速度介于10m/s到30m/s时,机动车的能耗在一个较小的速度区间仍有较大的波动,考虑到平均速度只能解释油耗取值的部分变化,本发明将从速度波动的角度来提取影响油耗的行驶特征。
机动车加速度和减速度是度量机动车速度变化最直接的参数,机动车的能耗值在加减速阶段有明显不同的变化规律。在加速的起始阶段,机动车油耗有一个瞬时的急剧上升,上升幅度可超过100%,然后在整个加速阶段随有轻微波动,但一直维持一个较高的水平;在减速阶段,机动车油耗也有一个瞬时的急剧下降,直至接近0,然后一直维持在低油耗状态且几乎无波动。
基于以上分析,本发明提取了基于行驶片段的平均加速度、加速时间比例、平均减速度、减速时间比例、怠速时间比例作为衡量机动车加减速相关的特征参数。
在大部分速度区间内加减速相关参数都与油耗具有较强的相关性,这说明在一个较小的速度区间下,能耗的变化可通过加减速相关参数来解释,且在不同的速度区间所能解释的程度不同,在中速区间可以解释80%的油耗变化,而在低速和高速区间只能解释40%左右的变化。通过对低速区间和高速区间的数据对比分析发现,高速区间的低相关性主要是由机动车行驶状态相对平稳,速度起伏不大引起的,而低速区间则是由于较多的怠速引起的。
为了进一步提高能耗计算的准确性,本发明在此基础上引入了速度方差、平均VSP等参数,并最终构造了一个9维的特征向量,该特征向量可解释至少92%的油耗变化,高于任何单一行驶参数(如平均速度、平均VSP),除去车外温度、车内空调、燃油类型等难测因素的影响,这9个行驶参数可以较为全面地描述机动车与能耗密切相关的中观行驶状态。
考虑到行驶特征向量中包含的各参数之间有信息重合的部分,如加速度噪声、平均VSP、速度方差三者都可以反映加减速度对油耗的影响,所向量必然包含一定的冗余信息。行驶特征向量的各维度之间的相关系数如表3所示。
表3 行驶特征向量各维度之间的相关性
由表3可知,特征向量的各维度之间具有较强的相关性,由此可知,在各特征参数之间必然存在着起支配作用的共同因素,为此,本发明利用主成分分析的方法将原始变量通过线性组合形成几个互不相关的综合指标(主成分),在保留原始变量主要信息的前提下对原始特征向量进行降维处理,以便简化后续分析。
主成分分析(Principal components analysis,PCA)的数学定义是:通过正交线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推[35]。在多元线性统计分析中,主成分分析是一种分析简化数据集的技术,其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值),经常用于在保持原始数据集中大部分信息的同时减少数据集的维数。
对所构造的特征向量的各维度进行主成份分析后的结果如表4所示。
表4 主成分提取分析表
表4给出了每个主成份的方差及特征根,其大小表示对应的主成份能够解释原来所有信息的程度。由于前四个特征值4.204、2.133、1.09、0.622的累积贡献率达89.42%,根据累积贡献率大于85%的原则,本文选取前四个特征值来做后续分析。各特征值与原始变量(9个行驶参数)的相关系数如表5所示。
表5 因子载荷矩阵
表6 因子载荷矩阵(续)
由表6可知,经过线性变换得到的4个主成份在不同程度上反映了9个原始特征参数所包含的信息,每个主成份都可看作是一种新的综合行驶特征参数。其中,第一主成份所代表的行驶特征中各原始参数的载荷系数都比较大,反映了各特征参数对油耗水平的整体影响;第二主成份所代表的行驶特征主要反映了速度的波动对油耗的影响;第三主成份所代表的行驶特征侧重平均速度对油耗的影响;第四主成份所代表的行驶特征主要反映了平均速度以及加减速的综合参数对油耗的影响。
经主成份分析后,各主成份之间的相关系数如表7所示。
表7 主成份的相关系数矩阵
|
F1 |
F2 |
F3 |
F4 |
f1 |
1 |
|
|
|
F2 |
5.02×10-6 |
1 |
|
|
F3 |
1.02×10-5 |
-0.00011 |
1 |
|
F4 |
-2.03×10-5 |
-1.8×10-5 |
-2.2×10—5 |
1 |
由表7可知,各主成份之间的相关性已经接近于0,可视为互不相关,且经主成份分析之后,特征向量由9维降为4维,大大简化了后续分析。
(3)对(2)中得到的特征向量集合,通过聚类分析得到典型的机动车行驶模式,其中每一种行驶模式都代表一类具有相同能耗水平的行驶状态,行驶模式反映了机动车能耗水平的聚集现象。
行驶模式识别的过程就是将由(2)中得到的特征向量表示的行驶状态的集合划分为多个子集合的过程,其中属于同一子集合的行驶状态是相似的,属于不同子集合的行驶状态是不相似的,同一子集合内的任意两个行驶状态的相似度大于不同子集合内的任意两个行驶状态的相似度。形式化描述如下所示:
且对于 有
2)令proximity(x,y)为特征向量(x,y)的相似度的度量函数,则
对于,xt,yt∈Ct,xt≠yt,zt′∈Ct′有:
proximity(xt,yt)>max{proximity(xt′,zt′),proximity(yt′,zt′)}
行驶模式识别常用的方法是聚类分析,聚类是一种无监督的分类,它可以在没有任何先验知识的前提下,对大规模的数据进行类别标定。考虑到本发明所得到的特征向量较多但维度不高,且各维度均为数值型参数,数据的分布规律也难以预先估计,聚类算法将采用XMeans算法,该算法属于划分聚类算法的一种,是对KMeans算法的改进,在聚类过程中引入贝叶斯信息准则削弱了聚类结果对初始聚类数目和初始聚类中心的依赖。
贝叶斯信息准则(Bayesian Information Criterions,BIC)是贝叶斯理论的一个重要组成部分,可以基于后验概率对相同数据集上的不同模型进行评价,适合作为选取复杂度较低且对数据集描述较好的模型的参考依据。
其聚类过程可分为以下三个步骤:
1)Improve-Params
2)Improve-Structure
3)If K>Kmax,算法终止并输出最优模型,否则,跳转至1).
其中,步骤1为传统的KMeans聚类过程,KMeans算法可以基于用户指定的k个聚类中心,通过不断的迭代计算来降低准则函数的误差值,直至准则函数不再发生变化,最终确定k个不同的类簇。
KMeans算法的聚类过程描述如下:
Step1.从数据集中选取k个数据点u1,u2,u3...uk作为初始聚类中心;
Step2.对于数据集中的每一个数据点xi,根据相似度判定其所属的类簇,其中,s(arg1,arg2)为相似度计算函数。
Step3.重复以上过程,将所有的数据点都指派到最相似的类簇;
Step4.对于每一个类簇,重新计算其聚类中心,
其中:c(i)=j指的是:如果数据点xi属于类簇j则(c(i)=j)=1,否则(c(i)=j)=0;m指的是数据集中数据点的个数;
Step5.计算准则函数,
其中xi是数据集中的数据点,uj是类簇j的聚类中心;k指的是聚类中心的个数。
Step6.如果准则函数不再变化则终止,否则跳到Step2。
KMeans算法简单高效,但其应用具有很大的局限性,在算法开始执行时,需要预先由用户指定聚类的数目,不同的聚类数目对最终的聚类有很大的影响,然而聚类中心的选取缺少可靠的依据作为指导,所以仅通过KMeans算法对特征向量进行聚类分析很难保证最终聚类结果的合理性。
为了克服KMeans算法过分依赖用户输入的聚类数目的不足之处,XMeans算法聚类过程中的步骤2在步骤1的基础上引入了贝叶斯信息准则对当前的聚类结果进行合理性验证,并明确是否有进一步划分的必要。对于有必要进行进一步划分类簇,基于KMeans算法进行进一步划分。
对于聚类数目k对应的聚类模型,贝叶斯信息准则的计算公式如(3)式所示:
其中EV为特征向量的集合,R为EV中包含的特征向量的个数;p表示参数个数,在本发明中其计算公式为p=k+k·d,其中,d为EV中特征向量的维度;可看作是对聚类模型复杂度的惩罚;聚类模型Mk在特征向量集合EV上的极大后验对数似然估计,其计算公式如(4)式所示。
其中,u(i)为类簇i的聚类中心;
经过以上聚类过程,本发明总共得到了10个类簇,不同类簇对应不同的行驶模式。各行驶模式对应的油耗率如表8所示。
表8不同行驶模式对应的油耗率
其中,行驶模式1,5对应高速行驶状态,速度一般大于70km/h;行驶模式2,6,7,9,10对应速度波动较明显的行驶状态,行驶模式2,10的波动由于在低速状态下频繁启停引起的;行驶模式3,4,8对应中速且平稳的行驶状态。
在高速区间下行驶模式的分布较为集中,大部分为模式5,随着速度的降低,油耗的分布更加离散,由此可知,高速区间下的速度波动不大,行驶状态较为平稳,而中低速区间下存在较多的行驶状态,对应油耗取值更加离散。行驶模式在不同速度区间下的分布规律也可以解释平均速度越低,其与油耗相关性越差的现象。
(4)分析不同中观行驶参数(如道路路况、道路环境等)下的行驶模式分布规律,进而建立基于这些中观行驶参数的道路交通能耗量化方法。
以下以北京市部分平直路、信号灯以及高架桥(分布如图2、3所示)为例进行说明本发明,确定各行驶片段所经过的路链序列;
1.参考GPS点到路链的距离,基于投票的方式确定当前GPS点所在的路链。
2.参考平直路、信号灯以及高架桥的位置信息,将与之对应的行驶数据提取出来;
3.对提取的行驶数据进行行驶片段划分,计算出每个行驶片段上的平均速度、速度方差、平均加速度、加速时间比例、平均减速度、减速时间比例、怠速时间比例、加速度噪声以及平均VSP。各参数的计算公式如下所示。
1)平均速度:
2)速度方差:
3)平均加速度:
4)加速时间比例:
5)平均减速度:
6)减速时间比例:
7)怠速时间比例:
8)加速度噪声:
9)平均VSP:
符号 |
物理含义 |
vj |
平均速度 |
tacc |
加速时间 |
tdec |
减速时间 |
ttding |
怠速时间 |
ai |
加速度 |
n |
行驶片段上数据点个数 |
4.基于步骤3得到的各个行驶片段上的中观行驶参数构造描述
机动车行驶状态的特征向量,
5.对特征向量做权重调整、冗余信息合并消除等必要的预处理;
6.分道路类型(平直路、信号灯以及高架桥)对特征向量进行聚类分析,确定其对应的行驶模式,进而确定当前特征向量对应的能耗水平,流程图如图4所示。其中,平直路是指封闭的,坡度可忽略不计的一段道路;信号灯路口是指有交通信号灯控制的交叉路口;立交桥是指高架道路与其他公路交汇之处,利用“立体交叉”与数条匝道组成,引导车辆转换不同公路或缓解道路拥堵的交通设施.
不同道路类型下的行驶模式的分布规律如表9,表10,表11所示。由表9可知平直路上的机动车的行驶状态的分布比较离散,而表9所展示的信号灯对行驶模式的分布的影响就比较明显,由表10可知,由于受信号灯的影响,机动车的行驶模式多集中在波动较大的阶段,而由表11可知,天桥上的机动车的行驶速度偏快且较平稳,相对于其他两种类型,所受干扰最小。
7.提取每个特征向量的平均速度以及油耗水平,研究各种道路类型下油耗率随平均速度的变化趋势,发现在平直路和高架桥道路类型下,油耗率和平均速度呈对数变化趋势,而在红绿灯道路类型下,油耗率和平均速度呈指数变化趋势,因此通过拟合的方法建立道路交通能耗量化方法,得到以下能耗计算公式:
其中,fuel为油耗率,单位为L/100km;v表示平均速度,单位为km/h。且各拟合度均达到0.7以上。
表9 表示平直路上不同速度区间下的行驶模式分布
表10 表示信号灯路况不同速度区间下的行驶模式分布
表11 表示立交桥上不同速度区间下的行驶模式分布。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。