CN106682703A

CN106682703A - 一种基于obd数据的驾驶人出行模式识别方法

Info

Publication number: CN106682703A
Application number: CN201710023651.6A
Authority: CN
Inventors: 王云鹏; 尹国浩; 马晓磊; 于海洋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-05-17

Abstract

本发明公开了一种基于OBD数据的驾驶人出行模式识别方法，包括1.数据预处理以及特征参数的提取；2.基于CFSFDP(Clustering by fast search and find of density peaks)算法进行聚类分析；3.采用Baum‑Welch算法训练HMM(Hidden Markov Model)模型，得到状态转移概率矩阵；4.采用Viterbi算法的对驾驶人出行模式进行识别。本发明采用车辆OBD数据，深度挖掘其所表征的出行模式特征并进行建模，具有较高的精度和可靠性。

Description

一种基于OBD数据的驾驶人出行模式识别方法

技术领域

本发明属于智能交通信息处理技术领域，具体地说是一种基于OBD数据的驾驶人出行模式识别方法。

背景技术

随着我国国民经济的快速发展，相对于从前，如今人们对于生活质量的追求越来越高，在出行这个问题上，以公共交通作为主要出行方式的时代早已经一去不复返，很多的家庭如今都选择购买私家车作为出行的工具，这也让汽车工业呈现出空前的繁荣。数据显示，2009年全国的私家车保有量只有4574万辆，然而仅仅过了5年，截至2014年底，全国的私家车保有量就已达到1.23亿辆。伴随着汽车数量的不断增长，我国的交通事业也获得了突飞猛进的发展，不过一些瓶颈问题也随之变得愈发明显，其中最典型的就包括：交通拥堵、汽车动态保价的制定、驾驶人对于更加精细化服务的需求等。要想解决或者改善这些问题，精确的对驾驶人的出行模式进行识别无疑是一个重要的方向。

传统的对于驾驶人出行模式的判定大多都是基于问卷或者调查的方式，这种方法在一定程度上能够获取驾驶人的日常出行模式，但是却存在着主观性太强、覆盖面太低的缺点，已经不适用于当下汽车数量迅猛增长的现状。近年来，基于手机GPS数据的驾驶人出行模式研究逐渐兴起，也取得了很多的成果，相比于传统的问卷调查，手机GPS数据的客观性更强，同时覆盖面也更广，的确在很大程度上弥补了问卷调查数据的不足。但是，由于手机GPS数据无法对驾驶人的出行OD进行精确的识别，这也就降低了对于出行模式识别的准确性，不利于解决上文提出的几种交通问题。因此，必须寻找一种更加精确的驾驶人出行模式识别方法。近年来，随着车联网技术的出现，车载OBD(On-Board Diagnostics)设备得以大范围的装入车辆，这就让大规模的获取车辆的OBD数据成为了现实，相比于传统调查数据以及手机GPS数据，OBD数据能够提供更多的更准确的车辆运行状态数据，同时能够精确的对驾驶人出行的OD进行定位，这就让精确识别驾驶人出行模式成为了可能。

发明内容

本发明的目的是为了解决上述现有技术的不足为目的，提供了一种基于OBD数据的，结合聚类算法CFSFDP(Clustering by fast search and find of density peaks)及建模方法HMM(Hidden Markov Model)的驾驶人出行模式识别方法。这种方法能够为交管部门等提供准确的出行数据，有利于对交通状况的提前预知，以便提前主动应对拥堵问题，同时也能够为动态制定车辆保费、为驾驶人提供更为精细化的订制服务等提供重要的参考标准。

本发明的一种基于OBD数据的驾驶人出行模式识别方法，包括以下几个步骤：

步骤一、数据预处理以及特征参数的提取。

将得到的车辆OBD数据进行预处理，同时提取出能够表征驾驶人出行时空特征的特征参数作为后续步骤的输入。

步骤二、基于CFSFDP算法进行聚类分析。

采用CFSFDP算法对步骤一中提取出的特征参数进行聚类，同时对结果进行分析，得到不同的驾驶人出行模式特点。

步骤三、采用Baum-Welch算法训练HMM模型，得到状态转移概率矩阵。

将步骤一、二中获得的车辆出行特征参数及不同驾驶人的出行模式类型作为输入，使用Baum-Welch算法训练出相对应的HMM模型，得到不同状态之间的状态转移概率矩阵。

步骤四、采用Viterbi算法的对驾驶人出行模式进行识别。

在步骤三将模型建立完成的基础上，采用已知的出行模式类型数据通过Viterbi算法对模型进行检验。

本发明的优点在于：

(1)创造性的使用车辆OBD数据来进行驾驶人的出行模式的识别，相较于其它数据类型，既满足了数据的客观性、广泛性的要求，也提高了出行模式识别精度；

(2)使用CFSFDP算法作为出行模式聚类算法，该算法计算效率高，对不同形状的数据集适应性好，最重要的是无需提前设定类别数目，完全根据数据自身特性进行聚类，最大限度的排除了人为因素的干扰；

(3)由于采用的是车辆OBD数据，这就保证了能够实时的监测各种车辆的状态，这就便于对驾驶人的出行模式特征进行及时的更新，更加有针对性的对驾驶人的出行模式进行评估及提供相关的精细化服务。

附图说明

图1a聚类分析决策图；

图1b聚类结果二维分布图；

图2出行距离分布箱式图；

图3出行天数分布箱式图；

图4a类别1最频首末次出行时段分布图；

图4b类别2最频首末次出行时段分布图；

图4c类别3最频首末次出行时段分布图；

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明是一种基于OBD数据的驾驶人出行模式识别方法，包括以下几个步骤：

步骤一、数据预处理以及特征参数的提取

车辆OBD数据采集过程中会出现数据缺失、重复以及数据错误的现象，数据预处理的中的一个重要步骤就是有针对性的对这些问题进行补全、剔除以及修正。同时，为了后续提取特征参数的方便以及让数据的呈现方式更具规律化，还应该将片段化的trips数据合成车辆的出行链，即tripchain。采取的方式为根据车辆的停车时间进行划分，当车辆的停车时间小于1h时，将相邻的trips合并进同一条出行链中，同一条出行链中不同trips中的各项参数进行加和处理，如果停车时间大于等于1小时，则该点作为新的出行链的起点。

合成出行链以后，为了能够表征出驾驶人出行的时空规律，需要从数据中提取出相应的特征参数。需要说明的是，对于驾驶人出行模式的研究必须是基于长时间的数据统计，所以选取的特征参数也必须能够表征驾驶人一段时间内的出行规律特征。根据OBD数据的特征，为了能够很好的表征出不同驾驶人的出行模式特征，选取了四个特征参数：出行天数(Travel days)、出行日平均出行距离(av-Distance)、最频首次出行时段(First-departure time)、最频末次出行时段(Last-departure time)。以下对四个特征参数进行说明。

出行天数(Travel days)：指的是在一段时间内，有车辆使用记录的天数的总和，用T表示。出行天数能够很好的反应驾驶人的出行对于车辆的依赖程度，是表征驾驶人出行频率的很好的参数。

出行日平均出行距离(av-Distance)：指的是平均每个出行日车辆所行使的距离，用D_a表示。出行日平均出行距离能够反映出驾驶人的出行模式的空间特征。计算公式为：

其中，D_T表示一段时间内车辆行驶的总距离，T表示出行天数。

最频首次出行时段(First-departure time)及最频末次出行时段(Last-departure time)：指的是在一天中车辆的首次和末次出行时，选择最频繁的时间段，分别用F和L表示。这两个参数能够很好的反映出驾驶人出行的时间分布规律。为此，将一天的时间分为了6个时间段，分别是time1：early morning(06:00–9:30),time2：late morning(09:30–12:00),time3：early afternoon(12:00–16:30),time4：late afternoon(16:30–19:30),time5：evening(19:30–22:00),time6：night(22:00–06:00)。则相应的数学表达式为：

F＝{i},i＝argmax n_i (2)

L＝{i},i＝argmax n′_i (3)

式(2)(3)中，n_i,n′_i分别表示车辆的首次和末次出行在时间段time_i的次数。

步骤二、基于CFSFDP算法进行聚类分析

CFSFDP算法是近年被提出的一种新的基于密度的聚类算法，相比于传统的聚类算法，例如k-means，它能够适应不同形状的数据集，同时，与其他的基于密度的聚类算法，例如DBSCAN，CFSFDP算法需要的参数更少且运算的效率更高。值得一提的是，CFSFDP算法在聚类过程中不需要提前设定类别数目，是一种完全自适应的聚类算法。

需要特别注意的是，由于不同的特征参数间的量纲不同，因此需要对参数进行标准化处理，选择的标准化方式如下：

式中，x_ij表示特征参数矩阵中的第i行第j列元素，即第i个驾驶人的j特征参数的值，和s_j分别表示特征参数列x_j的均值与方差。

在CFSFDP算法中，有两个最重要的参数，即局部密度ρ、与密度更高点的距离δ，这两个参数是整个算法能否实现的关键。

局部密度ρ：指的是一定距离内数据点的数量。形式化的定义如下：

ρ_i＝∑_j≠iχ(d_ij-d_c) (5)

式中，ρ_i表示数据点i的局部密度。当x≥0时，χ(x)＝0；当x<0时，χ(x)＝1。d_ij是数据点i与数据点j之间的距离。d_c指的是截断距离，这是算法中唯一一个需要人为设定的参数，通常的取值方法是：将所有的d_ij升序排列，设截断距离d_c与第k个d_ij的值相同，则：

k＝M*t (6)

式中，M表示总的距离的个数，t取1％～2％之间的任意值。

密度更高点的距离δ：指的是与密度比它高的最近点之间的距离。表示如下：

其中，δ_i表示数据点i的与其密度更高点的距离的最小值，需要特别指出的是，如果数据点i本就是该数据集中的密度最高点，若按照式(6)，则δ_i＝0，因此，这里需要对这种情况作特殊处理，定义此时的高密度距离为：

δ_i＝max_j∈datasetd_ij (8)

整个CFSFDP算法主要分为5个步骤进行：

1)计算数据点之间的距离，构建距离矩阵H；

2)根据计算出的距离确定截断距离d_c,然后计算每个数据点的局部密度ρ；

3)计算各个数据点的高密度距离δ；

4)根据局部密度ρ和高密度距离δ作出决策图(decision graph)，从而找到聚类中心；

5)按照密度降序规则对数据集聚类。

在得到聚类结果后，对形成的不同类别中的各项参数依次进行分析，找出不同类别的特点，并由此定义出不同的出行模式类型，为接下来建模做准备。

步骤三、采用Baum-Welch算法训练HMM模型，得到状态转移概率矩阵

基于步骤二中得到的几种出行模式，使用部分数据，运用HMM模型中的Baum-Welch算法进行不同出行模式的建模。HMM是一种基于参数的统计识别方法，通常将其模型定义为：λ(N,M,A,B,π)，也可简写为：λ(A,B,π)。

其中，N代表状态数目，S＝{s₁,s₂,s₃…s_N}为状态集合，在t时刻的状态记为q_t，模型经历的状态序列记为q＝(q₁,q₂,q₃…q_N)。M表示每个状态的观察值的数目，V＝{v₁,v₂,v₃…v_M}表示观察值集合。A＝[a_ij]表示状态转移概率矩阵，a_ij代表从状态s_i转移到状态s_j的概率。B＝[b_ik]表示观察值概率矩阵，b_ik代表在状态s_i下出现观察值v_k的概率。π＝[π_i]表示初始概率矩阵。

根据已构建的模型来确定HMM模型的参数，即训练HMM模型，属于HMM三大经典问题中的“学习问题”，即在一组可观察序列O＝(o₁,o₂,o₃…o_T)(T表示观察值序列的长度)已知的情况下，找到一组最优的HMM参数λ′＝(A′,B′,π′)使得P(O|λ)最大。为了达成上诉目标，需要对以下几个变量进行定义：

前向变量α_t(i)＝P(o₁,o₂,o₃…o_t,q_t＝s_i|λ),表示HMM系统在t时刻状态是s_i，且到t时刻为止产生的所有可见状态序列前t个符号o₁,o₂,o₃…o_t的概率；

后向变量β_t(i)＝P(o_t+1,o_t+2,o_t+3…o_T,q_t＝s_i|λ),表示从t时刻到状态结束时T时刻为止输出的所有可见状态序列o_t+1,o_t+2,o_t+3…o_T的概率；

ξ_t(i,j)＝P(q_t＝s_i,q_t+1＝s_j|O,λ)表示t时刻的状态为s_i，t+1时刻状态为s_j的概率；

γ_t(i)＝P(q_t＝s_i|O,λ)表示t时刻状态为s_i的概率。

最终重估模型λ′＝(A′,B′,π′)的参数估计参数为：

π_i′＝P(q₁＝i|O,λ)＝γ₁(i) (9)

总结下来，整个Baum-Welch算法的步骤可以归结为以下步骤：

1)获取初始HMM模型λ⁰＝(A⁰,B⁰,π⁰)，及观察序列O＝(o₁,o₂,o₃…o_T)。在本发明中，驾驶人出行模式的HMM中，状态与时间无关，输出的观察值也与时间无关，仅与当前状态有关，所以A⁰,B⁰,π⁰采取随机概率分布；

2)计算α_t(i)、β_t(i)、P(O|λ)；

3)由α_t(i)、β_t(i)计算ξ_t(i,j)和γ_t(i)；

4)由ξ_t(i,j)和γ_t(i)重估模型参数λ′＝(A′,B′,π′)；

5)反复迭代第2到第4步，直到P(O|λ)收敛。

步骤四、采用Viterbi算法的对驾驶人出行模式进行识别

基于步骤二所分析出的出行模式以及步骤三所建立的HMM模型，使用整个数据集的部分数据作为测试数据，基于Viterbi算法对驾驶人出行模式进行识别，达到验证模型的目的。对给定观察值序列O＝(o₁,o₂,o₃…o_T)和HMM模型参数λ(A,B,π)，以此来确定一个最佳的状态序列Q(s₁,s₂,s₃…s_T)。这是HMM模型解决的三大问题中的“解码问题”，挖掘出模型的隐藏状态，找出最优的状态序列。问题可以转换为确定一个最优状态序列Q，使得P(O,Q|λ)的值最大。为了完成算法，有如下定义：

δ_t(i)表示t时刻状态为s_i的累积输出概率，表达式为：

δ_t(i)＝maxP(s₁s₂s₃…s_t-1,s_t＝s_i,o₁o₂o₃…o_t|λ) (12)

ψ_t(i)表示t时刻第s_i状态的前序状态。

Viterbi算法求解过程如下：

初始化：

δ_t(i)＝π_tb_i(o₁),ψ_t(i)＝0 (13)

迭代过程：

终止计算：

状态回溯过程：

S_t ^*＝ψ_t+1(S_t+1 ^*) (16)

其中，P^*为最终输出概率，S_t ^*为最优状态序列中t时刻所对应的状态。

实施例

为了验证本发明所诉的基于OBD数据的驾驶人出行模式识别方法的系统性能，采集了北京市1156辆私家车两个月(2015-12-01至2016-02-01)的OBD数据进行实例验证。依照前述四个步骤依次进行。

步骤一、在对数据进行了预处理以及完成了出行链(tripchain)的合成之后，针对这1156辆车，统计出了每辆车2个月的时间里的四个特征参数：出行天数(Travel days)、出行日平均出行距离(av-Distance)、最频首次出行时段(First-departure time)、最频末次出行时段(Last-departure time)。表1展示了数据处理完成后的数据格式。

表1数据处理完成后的数据格式

表中的OBD ID表示数据采集的设备号，每辆车的设备号都是唯一的。

步骤二、将步骤一处理过后得到的数据按照式(4)进行数据标准化处理，消除了不同数据间量纲不同的影响，然后带入CFSFDP算法中进行聚类分析，算法中式(6)用以确定截断距离d_c的参数t取值为1.5％。如图1a所示，获得的聚类决策图中，有三个点具有很高的局部密度以及高密度距离值，这表明整个数据集拥有3个聚类中心点，即算法将整个数据集划分成了3个类别，图1b表示了所有数据点在2维空间的分布情况。表2给出了3个类别中各自的车辆数目。

表2不同类别中的车辆数量

类别	类别1	类别2	类别3	总共
					数量	226	506	424	1156

接下来对三种类别进行分析以定义这3种出行模式。3种出行模式的出行日平均出行距离分布如图2所示，出行频率分布如图3所示，最频的首末次出行时段分别如图4a、4b、4c所示。经过对3中出行模式4个特征参数进行的分析，将类别1驾驶人定义为长距、偶发出行者(long-distance and occasional travelers)，类别2驾驶人定义为高频出行者(high-frequency travelers)，类别3驾驶人定义为通勤出行者(regular commuters)。

步骤三、由于确定了3种驾驶人出行模式，所以HMM参数中的N值为3，且因为算法中将4个特征参数作为了观察值，因此HMM模型中的参数M为4。将3种出行模式的数据按照7:3的比例分为训练数据与测试数据，并将划分出的70％的数据(总共809条)代入Baum-Welch算法用以训练HMM模型。表3展示了用以训练模型的数据输入样本。

表3训练HMM模型的数据输入样本

出行模式	输入的观察值	状态
			长距、偶发出行者	(80,7,2,3)	1
高频出行者	(41,52,1,5)	2
			通勤出行者	(37,25,1,4)	3

表中，输入的观察值按序依次为：出行日平均出行距离、出行天数、最频首次出行时段、最频末次出行时段。

模型训练完成后，3中出行模式之间的状态转移概率矩阵如下所示：

步骤四、经过步骤三，得到了3种出行模式的HMM模型，使用步骤三中划分出的剩余30％数据(总共)作为测试数据，基于Viterbi算法的对驾驶人出行模式进行识别以验证模型准确性。表4展示了最终的测试结果。

表4模型测试结果

测试的结果展示了模型对于驾驶人出行模式识别的较高的准确性，这表明本发明提出的这一整套基于OBD数据的驾驶人出行模式识别方法是具有很高的可行性的。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于OBD数据的驾驶人出行模式识别方法，包括以下几个步骤：

步骤一、数据预处理以及特征参数的提取；

将得到的车辆OBD数据进行预处理，同时提取出能够表征驾驶人出行时空特征的特征参数作为后续步骤的输入；

步骤二、基于CFSFDP算法进行聚类分析；

采用CFSFDP算法对步骤一中提取出的特征参数进行聚类，同时对结果进行分析，得到不同的驾驶人出行模式特点；

步骤三、采用Baum-Welch算法训练HMM模型，得到状态转移概率矩阵；

将步骤一、二中获得的车辆出行特征参数及不同驾驶人的出行模式类型作为输入，使用Baum-Welch算法训练出相对应的HMM模型，得到不同状态之间的状态转移概率矩阵；

步骤四、采用Viterbi算法的对驾驶人出行模式进行识别；

2.根据权利要求1所述的一种基于OBD数据的驾驶人出行模式识别方法，所述的步骤一具体为：

最频首次出行时段(First-departure time)及最频末次出行时段(Last-departuretime)：指的是在一天中车辆的首次和末次出行时，选择最频繁的时间段，分别用F和L表示。这两个参数能够很好的反映出驾驶人出行的时间分布规律。为此，将一天的时间分为了6个时间段，分别是time1：early morning(06:00–9:30),time2：late morning(09:30–12:00),time3：early afternoon(12:00–16:30),time4：late afternoon(16:30–19:30),time5：evening(19:30–22:00),time6：night(22:00–06:00)。则相应的数学表达式为：