CN106682703A - 一种基于obd数据的驾驶人出行模式识别方法 - Google Patents

一种基于obd数据的驾驶人出行模式识别方法 Download PDF

Info

Publication number
CN106682703A
CN106682703A CN201710023651.6A CN201710023651A CN106682703A CN 106682703 A CN106682703 A CN 106682703A CN 201710023651 A CN201710023651 A CN 201710023651A CN 106682703 A CN106682703 A CN 106682703A
Authority
CN
China
Prior art keywords
trip
data
state
driver
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710023651.6A
Other languages
English (en)
Inventor
王云鹏
尹国浩
马晓磊
于海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710023651.6A priority Critical patent/CN106682703A/zh
Publication of CN106682703A publication Critical patent/CN106682703A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于OBD数据的驾驶人出行模式识别方法,包括1.数据预处理以及特征参数的提取;2.基于CFSFDP(Clustering by fast search and find of density peaks)算法进行聚类分析;3.采用Baum‑Welch算法训练HMM(Hidden Markov Model)模型,得到状态转移概率矩阵;4.采用Viterbi算法的对驾驶人出行模式进行识别。本发明采用车辆OBD数据,深度挖掘其所表征的出行模式特征并进行建模,具有较高的精度和可靠性。

Description

一种基于OBD数据的驾驶人出行模式识别方法
技术领域
本发明属于智能交通信息处理技术领域,具体地说是一种基于OBD数据的驾驶人出行模式识别方法。
背景技术
随着我国国民经济的快速发展,相对于从前,如今人们对于生活质量的追求越来越高,在出行这个问题上,以公共交通作为主要出行方式的时代早已经一去不复返,很多的家庭如今都选择购买私家车作为出行的工具,这也让汽车工业呈现出空前的繁荣。数据显示,2009年全国的私家车保有量只有4574万辆,然而仅仅过了5年,截至2014年底,全国的私家车保有量就已达到1.23亿辆。伴随着汽车数量的不断增长,我国的交通事业也获得了突飞猛进的发展,不过一些瓶颈问题也随之变得愈发明显,其中最典型的就包括:交通拥堵、汽车动态保价的制定、驾驶人对于更加精细化服务的需求等。要想解决或者改善这些问题,精确的对驾驶人的出行模式进行识别无疑是一个重要的方向。
传统的对于驾驶人出行模式的判定大多都是基于问卷或者调查的方式,这种方法在一定程度上能够获取驾驶人的日常出行模式,但是却存在着主观性太强、覆盖面太低的缺点,已经不适用于当下汽车数量迅猛增长的现状。近年来,基于手机GPS数据的驾驶人出行模式研究逐渐兴起,也取得了很多的成果,相比于传统的问卷调查,手机GPS数据的客观性更强,同时覆盖面也更广,的确在很大程度上弥补了问卷调查数据的不足。但是,由于手机GPS数据无法对驾驶人的出行OD进行精确的识别,这也就降低了对于出行模式识别的准确性,不利于解决上文提出的几种交通问题。因此,必须寻找一种更加精确的驾驶人出行模式识别方法。近年来,随着车联网技术的出现,车载OBD(On-Board Diagnostics)设备得以大范围的装入车辆,这就让大规模的获取车辆的OBD数据成为了现实,相比于传统调查数据以及手机GPS数据,OBD数据能够提供更多的更准确的车辆运行状态数据,同时能够精确的对驾驶人出行的OD进行定位,这就让精确识别驾驶人出行模式成为了可能。
发明内容
本发明的目的是为了解决上述现有技术的不足为目的,提供了一种基于OBD数据的,结合聚类算法CFSFDP(Clustering by fast search and find of density peaks)及建模方法HMM(Hidden Markov Model)的驾驶人出行模式识别方法。这种方法能够为交管部门等提供准确的出行数据,有利于对交通状况的提前预知,以便提前主动应对拥堵问题,同时也能够为动态制定车辆保费、为驾驶人提供更为精细化的订制服务等提供重要的参考标准。
本发明的一种基于OBD数据的驾驶人出行模式识别方法,包括以下几个步骤:
步骤一、数据预处理以及特征参数的提取。
将得到的车辆OBD数据进行预处理,同时提取出能够表征驾驶人出行时空特征的特征参数作为后续步骤的输入。
步骤二、基于CFSFDP算法进行聚类分析。
采用CFSFDP算法对步骤一中提取出的特征参数进行聚类,同时对结果进行分析,得到不同的驾驶人出行模式特点。
步骤三、采用Baum-Welch算法训练HMM模型,得到状态转移概率矩阵。
将步骤一、二中获得的车辆出行特征参数及不同驾驶人的出行模式类型作为输入,使用Baum-Welch算法训练出相对应的HMM模型,得到不同状态之间的状态转移概率矩阵。
步骤四、采用Viterbi算法的对驾驶人出行模式进行识别。
在步骤三将模型建立完成的基础上,采用已知的出行模式类型数据通过Viterbi算法对模型进行检验。
本发明的优点在于:
(1)创造性的使用车辆OBD数据来进行驾驶人的出行模式的识别,相较于其它数据类型,既满足了数据的客观性、广泛性的要求,也提高了出行模式识别精度;
(2)使用CFSFDP算法作为出行模式聚类算法,该算法计算效率高,对不同形状的数据集适应性好,最重要的是无需提前设定类别数目,完全根据数据自身特性进行聚类,最大限度的排除了人为因素的干扰;
(3)由于采用的是车辆OBD数据,这就保证了能够实时的监测各种车辆的状态,这就便于对驾驶人的出行模式特征进行及时的更新,更加有针对性的对驾驶人的出行模式进行评估及提供相关的精细化服务。
附图说明
图1a聚类分析决策图;
图1b聚类结果二维分布图;
图2出行距离分布箱式图;
图3出行天数分布箱式图;
图4a类别1最频首末次出行时段分布图;
图4b类别2最频首末次出行时段分布图;
图4c类别3最频首末次出行时段分布图;
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明是一种基于OBD数据的驾驶人出行模式识别方法,包括以下几个步骤:
步骤一、数据预处理以及特征参数的提取
车辆OBD数据采集过程中会出现数据缺失、重复以及数据错误的现象,数据预处理的中的一个重要步骤就是有针对性的对这些问题进行补全、剔除以及修正。同时,为了后续提取特征参数的方便以及让数据的呈现方式更具规律化,还应该将片段化的trips数据合成车辆的出行链,即tripchain。采取的方式为根据车辆的停车时间进行划分,当车辆的停车时间小于1h时,将相邻的trips合并进同一条出行链中,同一条出行链中不同trips中的各项参数进行加和处理,如果停车时间大于等于1小时,则该点作为新的出行链的起点。
合成出行链以后,为了能够表征出驾驶人出行的时空规律,需要从数据中提取出相应的特征参数。需要说明的是,对于驾驶人出行模式的研究必须是基于长时间的数据统计,所以选取的特征参数也必须能够表征驾驶人一段时间内的出行规律特征。根据OBD数据的特征,为了能够很好的表征出不同驾驶人的出行模式特征,选取了四个特征参数:出行天数(Travel days)、出行日平均出行距离(av-Distance)、最频首次出行时段(First-departure time)、最频末次出行时段(Last-departure time)。以下对四个特征参数进行说明。
出行天数(Travel days):指的是在一段时间内,有车辆使用记录的天数的总和,用T表示。出行天数能够很好的反应驾驶人的出行对于车辆的依赖程度,是表征驾驶人出行频率的很好的参数。
出行日平均出行距离(av-Distance):指的是平均每个出行日车辆所行使的距离,用Da表示。出行日平均出行距离能够反映出驾驶人的出行模式的空间特征。计算公式为:
其中,DT表示一段时间内车辆行驶的总距离,T表示出行天数。
最频首次出行时段(First-departure time)及最频末次出行时段(Last-departure time):指的是在一天中车辆的首次和末次出行时,选择最频繁的时间段,分别用F和L表示。这两个参数能够很好的反映出驾驶人出行的时间分布规律。为此,将一天的时间分为了6个时间段,分别是time1:early morning(06:00–9:30),time2:late morning(09:30–12:00),time3:early afternoon(12:00–16:30),time4:late afternoon(16:30–19:30),time5:evening(19:30–22:00),time6:night(22:00–06:00)。则相应的数学表达式为:
F={i},i=argmax ni (2)
L={i},i=argmax n′i (3)
式(2)(3)中,ni,n′i分别表示车辆的首次和末次出行在时间段timei的次数。
步骤二、基于CFSFDP算法进行聚类分析
CFSFDP算法是近年被提出的一种新的基于密度的聚类算法,相比于传统的聚类算法,例如k-means,它能够适应不同形状的数据集,同时,与其他的基于密度的聚类算法,例如DBSCAN,CFSFDP算法需要的参数更少且运算的效率更高。值得一提的是,CFSFDP算法在聚类过程中不需要提前设定类别数目,是一种完全自适应的聚类算法。
需要特别注意的是,由于不同的特征参数间的量纲不同,因此需要对参数进行标准化处理,选择的标准化方式如下:
式中,xij表示特征参数矩阵中的第i行第j列元素,即第i个驾驶人的j特征参数的值,和sj分别表示特征参数列xj的均值与方差。
在CFSFDP算法中,有两个最重要的参数,即局部密度ρ、与密度更高点的距离δ,这两个参数是整个算法能否实现的关键。
局部密度ρ:指的是一定距离内数据点的数量。形式化的定义如下:
ρi=∑j≠iχ(dij-dc) (5)
式中,ρi表示数据点i的局部密度。当x≥0时,χ(x)=0;当x<0时,χ(x)=1。dij是数据点i与数据点j之间的距离。dc指的是截断距离,这是算法中唯一一个需要人为设定的参数,通常的取值方法是:将所有的dij升序排列,设截断距离dc与第k个dij的值相同,则:
k=M*t (6)
式中,M表示总的距离的个数,t取1%~2%之间的任意值。
密度更高点的距离δ:指的是与密度比它高的最近点之间的距离。表示如下:
其中,δi表示数据点i的与其密度更高点的距离的最小值,需要特别指出的是,如果数据点i本就是该数据集中的密度最高点,若按照式(6),则δi=0,因此,这里需要对这种情况作特殊处理,定义此时的高密度距离为:
δi=maxj∈datasetdij (8)
整个CFSFDP算法主要分为5个步骤进行:
1)计算数据点之间的距离,构建距离矩阵H;
2)根据计算出的距离确定截断距离dc,然后计算每个数据点的局部密度ρ;
3)计算各个数据点的高密度距离δ;
4)根据局部密度ρ和高密度距离δ作出决策图(decision graph),从而找到聚类中心;
5)按照密度降序规则对数据集聚类。
在得到聚类结果后,对形成的不同类别中的各项参数依次进行分析,找出不同类别的特点,并由此定义出不同的出行模式类型,为接下来建模做准备。
步骤三、采用Baum-Welch算法训练HMM模型,得到状态转移概率矩阵
基于步骤二中得到的几种出行模式,使用部分数据,运用HMM模型中的Baum-Welch算法进行不同出行模式的建模。HMM是一种基于参数的统计识别方法,通常将其模型定义为:λ(N,M,A,B,π),也可简写为:λ(A,B,π)。
其中,N代表状态数目,S={s1,s2,s3…sN}为状态集合,在t时刻的状态记为qt,模型经历的状态序列记为q=(q1,q2,q3…qN)。M表示每个状态的观察值的数目,V={v1,v2,v3…vM}表示观察值集合。A=[aij]表示状态转移概率矩阵,aij代表从状态si转移到状态sj的概率。B=[bik]表示观察值概率矩阵,bik代表在状态si下出现观察值vk的概率。π=[πi]表示初始概率矩阵。
根据已构建的模型来确定HMM模型的参数,即训练HMM模型,属于HMM三大经典问题中的“学习问题”,即在一组可观察序列O=(o1,o2,o3…oT)(T表示观察值序列的长度)已知的情况下,找到一组最优的HMM参数λ′=(A′,B′,π′)使得P(O|λ)最大。为了达成上诉目标,需要对以下几个变量进行定义:
前向变量αt(i)=P(o1,o2,o3…ot,qt=si|λ),表示HMM系统在t时刻状态是si,且到t时刻为止产生的所有可见状态序列前t个符号o1,o2,o3…ot的概率;
后向变量βt(i)=P(ot+1,ot+2,ot+3…oT,qt=si|λ),表示从t时刻到状态结束时T时刻为止输出的所有可见状态序列ot+1,ot+2,ot+3…oT的概率;
ξt(i,j)=P(qt=si,qt+1=sj|O,λ)表示t时刻的状态为si,t+1时刻状态为sj的概率;
γt(i)=P(qt=si|O,λ)表示t时刻状态为si的概率。
最终重估模型λ′=(A′,B′,π′)的参数估计参数为:
πi′=P(q1=i|O,λ)=γ1(i) (9)
总结下来,整个Baum-Welch算法的步骤可以归结为以下步骤:
1)获取初始HMM模型λ0=(A0,B00),及观察序列O=(o1,o2,o3…oT)。在本发明中,驾驶人出行模式的HMM中,状态与时间无关,输出的观察值也与时间无关,仅与当前状态有关,所以A0,B00采取随机概率分布;
2)计算αt(i)、βt(i)、P(O|λ);
3)由αt(i)、βt(i)计算ξt(i,j)和γt(i);
4)由ξt(i,j)和γt(i)重估模型参数λ′=(A′,B′,π′);
5)反复迭代第2到第4步,直到P(O|λ)收敛。
步骤四、采用Viterbi算法的对驾驶人出行模式进行识别
基于步骤二所分析出的出行模式以及步骤三所建立的HMM模型,使用整个数据集的部分数据作为测试数据,基于Viterbi算法对驾驶人出行模式进行识别,达到验证模型的目的。对给定观察值序列O=(o1,o2,o3…oT)和HMM模型参数λ(A,B,π),以此来确定一个最佳的状态序列Q(s1,s2,s3…sT)。这是HMM模型解决的三大问题中的“解码问题”,挖掘出模型的隐藏状态,找出最优的状态序列。问题可以转换为确定一个最优状态序列Q,使得P(O,Q|λ)的值最大。为了完成算法,有如下定义:
δt(i)表示t时刻状态为si的累积输出概率,表达式为:
δt(i)=maxP(s1s2s3…st-1,st=si,o1o2o3…ot|λ) (12)
ψt(i)表示t时刻第si状态的前序状态。
Viterbi算法求解过程如下:
初始化:
δt(i)=πtbi(o1),ψt(i)=0 (13)
迭代过程:
终止计算:
状态回溯过程:
St *=ψt+1(St+1 *) (16)
其中,P*为最终输出概率,St *为最优状态序列中t时刻所对应的状态。
实施例
为了验证本发明所诉的基于OBD数据的驾驶人出行模式识别方法的系统性能,采集了北京市1156辆私家车两个月(2015-12-01至2016-02-01)的OBD数据进行实例验证。依照前述四个步骤依次进行。
步骤一、在对数据进行了预处理以及完成了出行链(tripchain)的合成之后,针对这1156辆车,统计出了每辆车2个月的时间里的四个特征参数:出行天数(Travel days)、出行日平均出行距离(av-Distance)、最频首次出行时段(First-departure time)、最频末次出行时段(Last-departure time)。表1展示了数据处理完成后的数据格式。
表1数据处理完成后的数据格式
表中的OBD ID表示数据采集的设备号,每辆车的设备号都是唯一的。
步骤二、将步骤一处理过后得到的数据按照式(4)进行数据标准化处理,消除了不同数据间量纲不同的影响,然后带入CFSFDP算法中进行聚类分析,算法中式(6)用以确定截断距离dc的参数t取值为1.5%。如图1a所示,获得的聚类决策图中,有三个点具有很高的局部密度以及高密度距离值,这表明整个数据集拥有3个聚类中心点,即算法将整个数据集划分成了3个类别,图1b表示了所有数据点在2维空间的分布情况。表2给出了3个类别中各自的车辆数目。
表2不同类别中的车辆数量
类别 类别1 类别2 类别3 总共
数量 226 506 424 1156
接下来对三种类别进行分析以定义这3种出行模式。3种出行模式的出行日平均出行距离分布如图2所示,出行频率分布如图3所示,最频的首末次出行时段分别如图4a、4b、4c所示。经过对3中出行模式4个特征参数进行的分析,将类别1驾驶人定义为长距、偶发出行者(long-distance and occasional travelers),类别2驾驶人定义为高频出行者(high-frequency travelers),类别3驾驶人定义为通勤出行者(regular commuters)。
步骤三、由于确定了3种驾驶人出行模式,所以HMM参数中的N值为3,且因为算法中将4个特征参数作为了观察值,因此HMM模型中的参数M为4。将3种出行模式的数据按照7:3的比例分为训练数据与测试数据,并将划分出的70%的数据(总共809条)代入Baum-Welch算法用以训练HMM模型。表3展示了用以训练模型的数据输入样本。
表3训练HMM模型的数据输入样本
出行模式 输入的观察值 状态
长距、偶发出行者 (80,7,2,3) 1
高频出行者 (41,52,1,5) 2
通勤出行者 (37,25,1,4) 3
表中,输入的观察值按序依次为:出行日平均出行距离、出行天数、最频首次出行时段、最频末次出行时段。
模型训练完成后,3中出行模式之间的状态转移概率矩阵如下所示:
步骤四、经过步骤三,得到了3种出行模式的HMM模型,使用步骤三中划分出的剩余30%数据(总共)作为测试数据,基于Viterbi算法的对驾驶人出行模式进行识别以验证模型准确性。表4展示了最终的测试结果。
表4模型测试结果
测试的结果展示了模型对于驾驶人出行模式识别的较高的准确性,这表明本发明提出的这一整套基于OBD数据的驾驶人出行模式识别方法是具有很高的可行性的。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (5)

1.一种基于OBD数据的驾驶人出行模式识别方法,包括以下几个步骤:
步骤一、数据预处理以及特征参数的提取;
将得到的车辆OBD数据进行预处理,同时提取出能够表征驾驶人出行时空特征的特征参数作为后续步骤的输入;
步骤二、基于CFSFDP算法进行聚类分析;
采用CFSFDP算法对步骤一中提取出的特征参数进行聚类,同时对结果进行分析,得到不同的驾驶人出行模式特点;
步骤三、采用Baum-Welch算法训练HMM模型,得到状态转移概率矩阵;
将步骤一、二中获得的车辆出行特征参数及不同驾驶人的出行模式类型作为输入,使用Baum-Welch算法训练出相对应的HMM模型,得到不同状态之间的状态转移概率矩阵;
步骤四、采用Viterbi算法的对驾驶人出行模式进行识别;
在步骤三将模型建立完成的基础上,采用已知的出行模式类型数据通过Viterbi算法对模型进行检验。
2.根据权利要求1所述的一种基于OBD数据的驾驶人出行模式识别方法,所述的步骤一具体为:
车辆OBD数据采集过程中会出现数据缺失、重复以及数据错误的现象,数据预处理的中的一个重要步骤就是有针对性的对这些问题进行补全、剔除以及修正。同时,为了后续提取特征参数的方便以及让数据的呈现方式更具规律化,还应该将片段化的trips数据合成车辆的出行链,即tripchain。采取的方式为根据车辆的停车时间进行划分,当车辆的停车时间小于1h时,将相邻的trips合并进同一条出行链中,同一条出行链中不同trips中的各项参数进行加和处理,如果停车时间大于等于1小时,则该点作为新的出行链的起点。
合成出行链以后,为了能够表征出驾驶人出行的时空规律,需要从数据中提取出相应的特征参数。需要说明的是,对于驾驶人出行模式的研究必须是基于长时间的数据统计,所以选取的特征参数也必须能够表征驾驶人一段时间内的出行规律特征。根据OBD数据的特征,为了能够很好的表征出不同驾驶人的出行模式特征,选取了四个特征参数:出行天数(Travel days)、出行日平均出行距离(av-Distance)、最频首次出行时段(First-departure time)、最频末次出行时段(Last-departure time)。以下对四个特征参数进行说明。
出行天数(Travel days):指的是在一段时间内,有车辆使用记录的天数的总和,用T表示。出行天数能够很好的反应驾驶人的出行对于车辆的依赖程度,是表征驾驶人出行频率的很好的参数。
出行日平均出行距离(av-Distance):指的是平均每个出行日车辆所行使的距离,用Da表示。出行日平均出行距离能够反映出驾驶人的出行模式的空间特征。计算公式为:
其中,DT表示一段时间内车辆行驶的总距离,T表示出行天数。
最频首次出行时段(First-departure time)及最频末次出行时段(Last-departuretime):指的是在一天中车辆的首次和末次出行时,选择最频繁的时间段,分别用F和L表示。这两个参数能够很好的反映出驾驶人出行的时间分布规律。为此,将一天的时间分为了6个时间段,分别是time1:early morning(06:00–9:30),time2:late morning(09:30–12:00),time3:early afternoon(12:00–16:30),time4:late afternoon(16:30–19:30),time5:evening(19:30–22:00),time6:night(22:00–06:00)。则相应的数学表达式为:
F={i},i=argmax ni (2)
L={i},i=argmax ni′ (3)
式(2)(3)中,ni,ni′分别表示车辆的首次和末次出行在时间段timei的次数。
3.根据权利要求1所述的一种基于OBD数据的驾驶人出行模式识别方法,所述的步骤二具体为:
CFSFDP算法是近年被提出的一种新的基于密度的聚类算法,相比于传统的聚类算法,例如k-means,它能够适应不同形状的数据集,同时,与其他的基于密度的聚类算法,例如DBSCAN,CFSFDP算法需要的参数更少且运算的效率更高。值得一提的是,CFSFDP算法在聚类过程中不需要提前设定类别数目,是一种完全自适应的聚类算法。
需要特别注意的是,由于不同的特征参数间的量纲不同,因此需要对参数进行标准化处理,选择的标准化方式如下:
式中,xij表示特征参数矩阵中的第i行第j列元素,即第i个驾驶人的j特征参数的值,和sj分别表示特征参数列xj的均值与方差。
在CFSFDP算法中,有两个最重要的参数,即局部密度ρ、与密度更高点的距离δ,这两个参数是整个算法能否实现的关键。
局部密度ρ:指的是一定距离内数据点的数量。形式化的定义如下:
ρi=∑j≠iχ(dij-dc) (5)
式中,ρi表示数据点i的局部密度。当x≥0时,χ(x)=0;当x<0时,χ(x)=1。dij是数据点i与数据点j之间的距离。dc指的是截断距离,这是算法中唯一一个需要人为设定的参数,通常的取值方法是:将所有的dij升序排列,设截断距离dc与第k个dij的值相同,则:
k=M*t (6)
式中,M表示总的距离的个数,t取1%~2%之间的任意值。
密度更高点的距离δ:指的是与密度比它高的最近点之间的距离。表示如下:
其中,δi表示数据点i的与其密度更高点的距离的最小值,需要特别指出的是,如果数据点i本就是该数据集中的密度最高点,若按照式(6),则δi=0,因此,这里需要对这种情况作特殊处理,定义此时的高密度距离为:
δi=maxj∈datasetdij (8)
整个CFSFDP算法主要分为5个步骤进行:
1)计算数据点之间的距离,构建距离矩阵H;
2)根据计算出的距离确定截断距离dc,然后计算每个数据点的局部密度ρ;
3)计算各个数据点的高密度距离δ;
4)根据局部密度ρ和高密度距离δ作出决策图(decision graph),从而找到聚类中心;
5)按照密度降序规则对数据集聚类。
在得到聚类结果后,对形成的不同类别中的各项参数依次进行分析,找出不同类别的特点,并由此定义出不同的出行模式类型,为接下来建模做准备。
4.根据权利要求1所述的一种基于OBD数据的驾驶人出行模式识别方法,所述的步骤三具体为:
基于步骤二中得到的几种出行模式,使用部分数据,运用HMM模型中的Baum-Welch算法进行不同出行模式的建模。HMM是一种基于参数的统计识别方法,通常将其模型定义为:λ(N,M,A,B,π),也可简写为:λ(A,B,π)。
其中,N代表状态数目,S={s1,s2,s3…sN}为状态集合,在t时刻的状态记为qt,模型经历的状态序列记为q=(q1,q2,q3…qN)。M表示每个状态的观察值的数目,V={v1,v2,v3…vM}表示观察值集合。A=[aij]表示状态转移概率矩阵,aij代表从状态si转移到状态sj的概率。B=[bik]表示观察值概率矩阵,bik代表在状态si下出现观察值vk的概率。π=[πi]表示初始概率矩阵。
根据已构建的模型来确定HMM模型的参数,即训练HMM模型,属于HMM三大经典问题中的“学习问题”,即在一组可观察序列O=(o1,o2,o3…oT)(T表示观察值序列的长度)已知的情况下,找到一组最优的HMM参数λ′=(A′,B′,π′)使得P(O|λ)最大。为了达成上诉目标,需要对以下几个变量进行定义:
前向变量αt(i)=P(o1,o2,o3…ot,qt=si|λ),表示HMM系统在t时刻状态是si,且到t时刻为止产生的所有可见状态序列前t个符号o1,o2,o3…ot的概率;
后向变量βt(i)=P(ot+1,ot+2,ot+3…oT,qt=si|λ),表示从t时刻到状态结束时T时刻为止输出的所有可见状态序列ot+1,ot+2,ot+3…oT的概率;
ξt(i,j)=P(qt=si,qt+1=sj|O,λ)表示t时刻的状态为si,t+1时刻状态为sj的概率;
γt(i)=P(qt=si|O,λ)表示t时刻状态为si的概率。
最终重估模型λ′=(A′,B′,π′)的参数估计参数为:
πi'=P(q1=i|O,λ)=γ1(i) (9)
总结下来,整个Baum-Welch算法的步骤可以归结为以下步骤:
1)获取初始HMM模型λ0=(A0,B00),及观察序列O=(o1,o2,o3…oT)。在本发明中,驾驶人出行模式的HMM中,状态与时间无关,输出的观察值也与时间无关,仅与当前状态有关,所以A0,B00采取随机概率分布;
2)计算αt(i)、βt(i)、P(O|λ);
3)由αt(i)、βt(i)计算ξt(i,j)和γt(i);
4)由ξt(i,j)和γt(i)重估模型参数λ′=(A′,B′,π′);
5)反复迭代第2到第4步,直到P(O|λ)收敛。
5.根据权利要求1所述的一种基于OBD数据的驾驶人出行模式识别方法,所述的步骤四具体为:
基于步骤二所分析出的出行模式以及步骤三所建立的HMM模型,使用整个数据集的部分数据作为测试数据,基于Viterbi算法对驾驶人出行模式进行识别,达到验证模型的目的。对给定观察值序列O=(o1,o2,o3…oT)和HMM模型参数λ(A,B,π),以此来确定一个最佳的状态序列Q(s1,s2,s3…sT)。这是HMM模型解决的三大问题中的“解码问题”,挖掘出模型的隐藏状态,找出最优的状态序列。问题可以转换为确定一个最优状态序列Q,使得P(O,Q|λ)的值最大。为了完成算法,有如下定义:
δt(i)表示t时刻状态为si的累积输出概率,表达式为:
δt(i)=maxP(s1s2s3…st-1,st=si,o1o2o3…ot|λ) (12)
ψt(i)表示t时刻第si状态的前序状态。
Viterbi算法求解过程如下:
初始化:
δt(i)=πtbi(o1),ψt(i)=0 (13)
迭代过程:
终止计算:
状态回溯过程:
St *=ψt+1(St+1 *) (16)
其中,P*为最终输出概率,St *为最优状态序列中t时刻所对应的状态。
CN201710023651.6A 2017-01-13 2017-01-13 一种基于obd数据的驾驶人出行模式识别方法 Pending CN106682703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710023651.6A CN106682703A (zh) 2017-01-13 2017-01-13 一种基于obd数据的驾驶人出行模式识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710023651.6A CN106682703A (zh) 2017-01-13 2017-01-13 一种基于obd数据的驾驶人出行模式识别方法

Publications (1)

Publication Number Publication Date
CN106682703A true CN106682703A (zh) 2017-05-17

Family

ID=58858860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710023651.6A Pending CN106682703A (zh) 2017-01-13 2017-01-13 一种基于obd数据的驾驶人出行模式识别方法

Country Status (1)

Country Link
CN (1) CN106682703A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680679A (zh) * 2017-08-22 2018-02-09 浙江工业大学 大数据驱动的学生有氧能力分群方法
CN107729951A (zh) * 2017-11-14 2018-02-23 吉林大学 一种考虑道路与环境特征的驾驶员行为分析装置及方法
CN108629457A (zh) * 2018-05-09 2018-10-09 西南交通大学 预测出行方式以及构建预测模型的方法和装置
WO2019056680A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 出行方式识别方法、装置、终端设备及存储介质
CN109711459A (zh) * 2018-12-24 2019-05-03 广东德诚科教有限公司 用户个性化行为评测方法、装置、计算机设备和存储介质
CN109743382A (zh) * 2018-12-28 2019-05-10 北汽福田汽车股份有限公司 车辆的云服务系统及其交互方法
CN110414587A (zh) * 2019-07-23 2019-11-05 南京邮电大学 基于渐进学习的深度卷积神经网络训练方法与系统
CN113085656A (zh) * 2021-04-25 2021-07-09 北京新能源汽车股份有限公司 一种基于用户习惯大数据的衰减智能预控方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控系统有限公司 一种基于隐马尔科夫模型的出行异常检测方法
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793599A (zh) * 2014-01-17 2014-05-14 浙江远图智控系统有限公司 一种基于隐马尔科夫模型的出行异常检测方法
CN105701180A (zh) * 2016-01-06 2016-06-22 北京航空航天大学 一种基于公交ic卡数据的通勤乘客特征提取及判定方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张文开: "基于密度的层次聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张盈盈等: "基于车辆OBD数据的城市小汽车出行行为特征分析", 《第十一届中国智能交通年会大会论文集》 *
风翼冰舟: "HMM-维特比算法(Viterbi algorithm)", 《CSDN,URL:HTTPS://BLOG.CSDN.NET/ZB1165048017/ARTICLE/DETAILS/48578183/》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680679A (zh) * 2017-08-22 2018-02-09 浙江工业大学 大数据驱动的学生有氧能力分群方法
CN107680679B (zh) * 2017-08-22 2021-05-04 浙江工业大学 大数据驱动的学生有氧能力分群方法
WO2019056680A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 出行方式识别方法、装置、终端设备及存储介质
CN107729951A (zh) * 2017-11-14 2018-02-23 吉林大学 一种考虑道路与环境特征的驾驶员行为分析装置及方法
CN107729951B (zh) * 2017-11-14 2024-02-09 吉林大学 一种考虑道路与环境特征的驾驶员行为分析装置及方法
CN108629457A (zh) * 2018-05-09 2018-10-09 西南交通大学 预测出行方式以及构建预测模型的方法和装置
CN108629457B (zh) * 2018-05-09 2021-09-28 西南交通大学 预测出行方式以及构建预测模型的方法和装置
CN109711459A (zh) * 2018-12-24 2019-05-03 广东德诚科教有限公司 用户个性化行为评测方法、装置、计算机设备和存储介质
CN109743382A (zh) * 2018-12-28 2019-05-10 北汽福田汽车股份有限公司 车辆的云服务系统及其交互方法
CN109743382B (zh) * 2018-12-28 2021-04-20 北汽福田汽车股份有限公司 车辆的云服务系统及其交互方法
CN110414587A (zh) * 2019-07-23 2019-11-05 南京邮电大学 基于渐进学习的深度卷积神经网络训练方法与系统
CN113085656A (zh) * 2021-04-25 2021-07-09 北京新能源汽车股份有限公司 一种基于用户习惯大数据的衰减智能预控方法和装置

Similar Documents

Publication Publication Date Title
CN106682703A (zh) 一种基于obd数据的驾驶人出行模式识别方法
CN111832225B (zh) 一种构建汽车行驶工况的方法
JP7226855B2 (ja) 列車がトンネルを通過する時間の計算方法、システム及び記憶媒体
CN110390349A (zh) 基于XGBoost模型的公交车客流量预测建模方法
CN108629457B (zh) 预测出行方式以及构建预测模型的方法和装置
CN107146013A (zh) 一种基于灰色预测和支持向量机的分类型电动汽车需求时空分布动态预测方法
CN105303197A (zh) 一种基于机器学习的车辆跟车安全自动评估方法
CN110836675A (zh) 一种基于决策树的自动驾驶搜索决策方法
CN107845260B (zh) 一种用户公交出行方式的识别方法
CN108229567B (zh) 驾驶员身份识别方法及装置
CN111931998B (zh) 一种基于移动定位数据的个体出行模式预测方法及系统
CN116628455B (zh) 一种城市交通碳排放监测与决策支持方法及系统
CN107729938A (zh) 一种基于公交接驳辐射区特征的轨道站点分类方法
CN103745110A (zh) 纯电动公交车营运续驶里程估算方法
CN113205698A (zh) 一种基于igwo-lstm的短时交通流预测的导航提醒方法
CN111523562B (zh) 一种基于车牌识别数据的通勤模式车辆识别方法
CN107832779A (zh) 一种轨道站点分类系统
CN114493191A (zh) 一种基于网约车数据的驾驶行为建模分析方法
CN109598931A (zh) 基于交通安全风险的群体划分与差异性分析方法及系统
CN112001521A (zh) 一种基于多峰高斯分布拟合的电动汽车充电需求预测方法
CN116010838A (zh) 一种融合密度值和K-means算法的车辆轨迹聚类方法
CN114723596A (zh) 一种基于多源交通出行数据和主题模型的城市功能区识别方法
Pei et al. Uj-flac: Unsupervised joint feature learning and clustering for dynamic driving cycles construction
CN108681741A (zh) 基于ic卡和居民调查数据的地铁通勤人群信息融合方法
CN117436653A (zh) 一种网约车出行需求的预测模型构建方法和预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170517

WD01 Invention patent application deemed withdrawn after publication