CN113232669A

CN113232669A - 一种基于机器学习的驾驶风格辨识方法

Info

Publication number: CN113232669A
Application number: CN202110555323.7A
Authority: CN
Inventors: 刘迪; 郑建明; 覃斌; 张建军; 张宇飞; 于海军; 王晓非; 付忠显
Original assignee: FAW Group Corp
Current assignee: Changchun Automotive Test Center Co ltd; FAW Group Corp
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-08-10
Anticipated expiration: 2041-05-21
Also published as: CN113232669B

Abstract

本发明涉及一种基于机器学习的驾驶风格辨识方法，包括信息收集平台获取原始数据，数据预处理，基于两种机器学习算法的聚类分析，驾驶风格分析，判断是否有异常结果和输出结论。本发明结合多种影响驾驶风格的因素，选取一批风格迥异的驾驶员进行实车试验，形成原始数据集；对原始数据进行速度切片，以适应驾驶员风格在不同场景下的变化；利用先验结果和统计学方法来提取特征，制定评价指标。并借助相关系数法实现评价指标的降维；对于异常数据、极端数据，采取先细化分类，再合并结果的方法；选取k‑means、层次聚类这2种客观分类方法对数据库样本进行分类，并对分类结果进行比对。经过验证，本文开发的驾驶风格识别模型查准率达到83％。

Description

一种基于机器学习的驾驶风格辨识方法

技术领域

本发明属于汽车驾驶员驾驶风格识别技术领域，具体涉及一种基于机器学习的驾驶风格辨识方法。

背景技术

驾驶风格反映了一个人经常性和持续稳定的动作倾向，能够体现驾驶员的思维模式和行为规律。尽管个体存在差异、驾驶习性千差万别，驾驶员驾驶风格大体上仍可大致分为谨慎型、一般型、激进型三类。深刻研究驾驶员驾驶风格以及表现形式，构建准确的驾驶风格辨识模型，对驾驶库数据平台构建以及高级别自动驾驶算法开发验证，具有重要意义。研究发现，驾驶风格经常会随着驾驶员和驾驶场景的不同而变化。在现有研究中，往往针对少量维度进行主观标定，导致训练样本标签和辨识结果难以保证。同时，原始数据集的维度众多，需要设计一套评价指标筛选法则，以便在不降低辨识精度的前提下简化模型结构。

现有技术公开了一种基于驾驶倾性的汽车行驶特征评价及预警方法，使用时间序列降维算法可以降低数据复杂程度，同时保留数据隐含的时间序列特征；对操作片段进行统计，得到高频操作片段数据库，可以进行详细的驾驶特征行为描述；应用HMM模型进行倾性辨识，辨识结果具有高度可信性；通过进一步计算外倾值，可以比较驾驶博弈各方的操作特征；通过定量和定性评价结果得出的预警信息，其内容便于比较；随着车辆运行不断更新数据，保证评价结果和预警信息的实时性，具有很强的实用性。现有技术公开了一种用于汽车自适应巡航系统的驾驶风格识别和分类方法，使用SOM与K-means算法聚类驾驶员数据，离线识别各驾驶员的驾驶风格，并训练驾驶风格在线分类器，即可对不同驾驶员的进行在线识别；将该训练好的驾驶风格在线分类器与汽车ACC系统相结合，使汽车ACC系统可以针对不同驾驶风格的驾驶员做出相应的调整，从而满足不同驾驶员不同驾驶风格的个性化需求。现有技术还公开了一种驾驶员驾驶风格识别方法及系统，根据采集的驾驶员操作信息和车辆行驶信息，初步识别驾驶员驾驶风格，得到驾驶员驾驶风格初步识别结果；根据得到的驾驶员驾驶风格初步识别结果，改变车辆状态；根据驾驶员适应车辆新状态的操作数据以及对应的车辆行驶数据，进一步识别得到驾驶员驾驶风格结果。但是，上述方法并未以实车数据采集结果作为数据库基础，建立机器学习模型，并对其进行优化和测试，获取最佳驾驶风格辨识模型。

发明内容

本发明的目的就在于提供一种基于机器学习的驾驶风格辨识方法，以解决通过建立并优化和测试机器学习模型，对最佳驾驶风格进行辨识的问题。

本发明的目的是通过以下技术方案实现的：

一种基于机器学习的驾驶风格辨识方法，包括以下步骤：

A、在试验车上搭载IMU惯导装置，用于采集时间信息、本车状态及本车定位；安装高清摄像头和环视激光雷达，用以采集视频数据及点云数据；选取数名驾驶员依次驾驶试验车，在高速/城市道路行驶，IMU惯导装置、高清摄像头和环视激光雷达将获取的发送至信息收集平台，并将数据下载至本地；

B、数据预处理：以下载后的本地数据作为机器学习的样本数据集，每个驾驶员的驾驶数据作为独立样本，评价指标作为特征向量，定义样本数据集，将原始数据进行速度切片，对每段速度分别进行聚类，建立各种分段速度工况下的评价指标，对原始数据进行归一化处理得到归一化后的样本数据集；

C、基于k-means均值聚类和层次聚类的聚类分析；

D、驾驶风格分析：先将驾驶风格细化分类，基于决策融合策略对不同速度下的驾驶风格进行汇总，输出被测者的综合驾驶风格标签，以速度分类评价驾驶风格；

E、判断是否有异常结果，采取高相关性系数筛选阈值，减少评价指标个数和增加驾驶风格组别的方式，提高速度区段下重合度；

F、输出结论。

进一步地，步骤A，所述高清摄像头为8个，环视激光雷达为14个，分别为1个32线激光雷达、1个16线激光雷达、6个4线激光雷达、2个毫米波雷达以及4个角雷达，分别用于获取自车信息、车车相对信息以及驾驶员状态信息。

进一步地，步骤B，所述样本数据集D包括m个样本，每个样本又包含n个特征向量，三者的关系可以表示为：

D＝[x₁,x₂,......，,x_m] (1)

x_i＝[x_i1；x_i2；......；x_in] (2)

假设机器学习将样本数据集划分为k个类，用λ_j∈(1,2,......,k)表示样本x_i的“类坐标”，即x_i∈λ_j，聚类算法的结果可以用涵盖m个样本的类向量λ＝[λ₁；λ₂；......；λ_m]来表示；

原始驾驶数据样本集D为

进一步地，所述速度分段为三段区间，包括低速是30-60km/h，中速是60-90km/h，高速是90-120km/h。

进一步地，所述建立评价指标包括基于先验知识的人工选择和基于相关系数的筛选；所述基于先验知识的人工选择，选择跟驾驶风格强相关的特征用作评价指标；所述基于相关系数的筛选，选择简单相关系数法度量两个变量间的线性关系。

进一步地，步骤C，所述k-means均值聚类分析的步骤为：C1、人为指定分类个数k，随机选取k个聚类中心；C2、根据欧式距离分配数据点，将距离最近的点集合构成一类；C3、更新聚类中心，将数据点重新分配，并计算平均误差；C4、重复步骤C3，直到前后两次的误差在给定范围之内，得出分类结果。

进一步地，步骤C，所述层次聚类的聚类分析的步骤为：找出距离最近的两个采样点，合并成一类，再将这个类和剩余采样点混在一起，重新寻找距离最近的两个点(或者点+类、类+类)，直到将N个数据合并成k类为止。

与现有技术相比，本发明的有益效果是：

1、本发明结合多种影响驾驶风格的因素，选取一批风格迥异的驾驶员进行实车试验，形成原始数据集；

2、对原始数据进行速度切片，分成低、中、高速三段，以适应驾驶员风格在不同场景下的变化；

3、利用先验结果和统计学方法来提取特征，制定评价指标。并借助相关系数法实现评价指标的降维；

4、对于异常数据、极端数据，采取先细化分类，再合并结果的方法；

5、选取k-means、层次聚类这2种客观分类方法对数据库样本进行分类，并对分类结果进行比对。经过验证，本文开发的驾驶风格识别模型查准率达到83％。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1基于机器学习的驾驶风格辨识方法流程图；

图2中速情况下层次聚类图示；

图3 7种驾驶风格标签图。

具体实施方式

下面结合实施例对本发明作进一步说明：

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本发明基于机器学习的驾驶风格辨识方法，包括以下步骤：

A、mySQL获取原始数据；

B、数据预处理；

C、投入算法(基于两种机器学习算法的聚类分析)；

D、驾驶风格分析；

E、判断是否有异常结果；

F、输出结论。

其中，步骤B，所述预处理包括速度分类、人工选择评价指标、利用相关系数降维和数据归一化。在步骤E，“判断是否有异常结果”时，如果存在极端值，那么需要增加风格组别，并且重新执行步骤B-步骤E，直到消除极端值。

mySQL获取原始数据

本发明在试验车上搭载IMU惯导装置，用于采集时间信息、本车状态及本车定位；安装8个高清摄像头和14个环视激光雷达，用以采集视频数据及点云数据；选取数名驾驶员依次驾驶试验车，在高速/城市道路行驶，各传感器将获取的发送至信息收集平台(mySQL)，并将数据下载至本地。所述14个环视激光雷达包括：1个32线激光雷达、1个16线激光雷达、6个4线激光雷达、2个毫米波雷达以及4个角雷达，分别用于获取自车信息、车车相对信息以及驾驶员状态信息。

由于数量庞大，在每天的采集结束后，将数据上传至mySQL数据库。后期统一下载至本地，对数据进行分析。

数据预处理

将下载至本地的数据认为是用于机器学习的样本数据集。每个驾驶员的驾驶数据可看作独立样本，评价指标可看作特征向量。定义样本数据集D包括m个样本，每个样本又包含n个特征向量。三者的关系可以表示为：

D＝[x₁,x₂,......,x_m] (1)

x_i＝[x_i1；x_i2；......；x_in] (2)

每个驾驶员的驾驶风格是唯一的，所以分类结果不可能有交集。假设机器学习将样本数据集划分为k个类，用λ_j∈(1,2,......,k)表示样本x_i的“类坐标”，即x_i∈λ_j，聚类算法的结果可以用涵盖m个样本的类向量λ＝[λ₁；λ₂；......；λ_m]来表示。

在发明中，共有12名驾驶员参与采集工作，即m＝12，编号001-012；拟初步将驾驶风格分为3类，即k＝3。在驾驶场景选择上，特意选择了主车前方有环境车的工况，即主车并不是在毫无约束的道路上自由行驶。这样强行增加环境条件的作用，是为了让样本数据更加真实反映驾驶员在复杂道路条件下的驾驶风格。

绝大多数研究都是直接将数据投入算法，聚类分析简单粗暴。本发明选择速度分段的方法，针对每段速度分别进行聚类。这样的切片方法更细致、更能反映真实情况，因为驾驶风格不会一成不变。司机如果经常跑快速路和高速公路，那么速度提高时，极有可能表现激进，反之亦然。除此之外，应该剔除倒车、急刹车、猛转弯等极端数据，这些数据往往会出现极值，不利于表达真实的驾驶风格。因此未选择0-30km/h的分段区间，而是选择低速(30-60km/h)、中速(60-90km/h)、高速(90-120km/h)三段区间。

评价指标的好坏与模型精确度息息相关，因此选择合适的评价指标对于构建机器学习模型至关重要。本发明拟采用两种方法建立评价指标：第一种是基于先验知识的人工选择，属于初选；第二种是基于相关系数的筛选，属于复筛。二者的目的都是降低数据的维度和复杂程度，以便选出最佳评价指标。

基于先验知识的人工选择：传感器传回的数据有上百条，表述车辆运行过程中的全部状态。基于先验知识，选择跟驾驶风格强相关的特征用作评价指标。需要说明的是，不同速度情况中的评价指标并不相同。比如在高速工况下，最大速度就应该作为评价指标之一，然而中速和低速并不需要，因为所有车辆的最大速度均超过90km/h，却不足120km/h。初步选择以下n＝11个变量作为评价指标：

1、v_max：速度最大值(m/s)。速度上限越高，意味驾驶员突破的范围越大，越趋向于激进型；

2、a_x.max：纵向加速度最大值(m/s²)。a_x.max越大，在某一瞬间汽车纵向速度变化的越猛烈，越趋向于激进型；

3、a_x.avg：纵向加速度平均值(m/s²)。a_x.avg越大，在很长一段时间内汽车纵向速度变化的越猛烈，越趋向于激进型；

4、a_y.max：横向加速度最大值(m/s²)。主要在换道和超车中有所体现，a_y.max值越大，速度变化约迅速，越趋向于激进型；

5、a_y.avg：横向加速度平均值(m/s²)。主要在换道和超车中有所体现，a_y.avg值越大，速度变化约迅速，越趋向于激进型；

6、brake_avg:制动踏板位移百分比的平均值(％)。brake_avg越大，驾驶员踩踏板越深，制动越迅速，越倾向于激进型；

7、throttle_max：节气门开度最大值(％)。在某一时刻，燃油和空气混合程度越高，发动机做功越多，越倾向于激进型；

8、throttle_avg：节气门开度平均值(％)。在一段时间内，燃油和空气混合程度越高，发动机做功越多，越倾向于激进型；

9、x_r.avg：相对距离最大值(m)。在前方有障碍物时(150m内)，距前车越远，安全裕度越大，越不容易与前车相撞，驾驶员越趋向于谨慎型；

10、x_r.avg：相对距离平均值(m)。表示一段时间内的平均值，反映了驾驶员的平均水平，x_r.avg数值越大，越趋向于谨慎型；

11、THW：平均车头时距(s)。主车和前车以当前速度做匀速直线运动时，发生碰撞所需的时间。THW值越大，驾驶员越趋向于谨慎型；

计算a_x.avg、a_y.avg、throttle_avg、x_r.avg时，将原始数据的绝对值加和再平均，而不是直接加和平均。

这11个评价指标分别代表了11个不同的维度，如果数量过少，则不能全方位反映驾驶风格，导致分析结果与实际不符。但是也并不是越多越好，因为这些评价指标并不是完全独立的，而是具有一定的相关性。都用于计算，极有可能出现过拟合情况。另外有些数据与所研究的课题并不相关，可能导致结果发散，得不到预期结果。

基于相关系数的筛选：为了增加数据的关联度和重合度，减少不必要的数据参与，应该对11个评价指标进行进一步筛选。相关系数能够反映两个变量相关关系的密切程度，本发明利用它来实现指标降维。选择简单相关系数法来用来度量两个变量间的线性关系，定义式如(3)所示，其中Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。

以中速场景为例，标注相关ρ≥0.4(中低速)的数据，并且剔除数量少于三个的评价指标，相关性较差的用下划线标注。为阅读方便，最大值用max代替，平均值用avg代替，下同。

随着速度的增大，相关系数的值均有增大，可剔除的维度越来越少，ρ≥0.4(蓝色加粗/总共)的占比分别为33％、55％、62％，稳步提升。如果高速情况中，相关系数阈值仍选0.4，那么只能剔除一个特征。为了保证聚类的准确度，将高速情况中的阈值提升为0.5，即ρ≥0.5。以中速为例，基于相关系数的筛选，见表1。

表1

得到三种工况下的评价指标如表2所示。

表2

得到的原始驾驶数据样本集D为

式中，m＝12，n＝8。

一般情况下，如果评价指标不同，那么它们的量纲单位也不同，导致数据范围差异较大。如果直接用来计算，会导致某些评价指标的权重变小，这显然不是想要的结果。为了统一评价指标的权重，消除量纲影响，统一数量级，特将原始数据进行归一化处理。经过归一化处理的求解寻优过程会趋于缓慢，并且更易于收敛到全局最优解。标准化处理后的样本集为

Y＝(y_ij)_m×n(5)

其中：

即把所有数值归为0-100之间的数据集。式中i＝1、2、……、12，j＝1、2、……、8，x_jmin和x_jmax分别为第j列数据的最大值和最小值。

还是以中速为例，归一化后的样本数据集，见表3。

表3

基于两种机器学习算法的聚类分析

由于缺乏足够的先验知识，而且人工标注的成本过高，本发明聚类属于典型的无监督型机器学习算法。为了增加准确度，本发明选择两种机器学习方法分别进行聚类，再将运算结果进行比对，判断两种算法的合理性和结论的正确率。

a、k-means均值聚类

k-means均值聚类是一种以数据迭代为基础，一步步寻求最佳聚类结果的机器学习方法。操作步骤可表述为：①首先人为指定分类个数k，随机选取k个聚类中心；②根据欧式距离分配数据点，将距离最近的点集合构成一类；③接下来更新聚类中心，将数据点重新分配，并计算平均误差；④重复步骤3，直到前后两次的误差在给定范围之内，得出分类结果。

定量地说，对于数据集D＝[X₁ X₁ … X_m]，k-means将各聚类点λ_j∈(1,2,......,k)的平方误差最小化：

式中

x是μ_i的均值向量。显然E表示各个分类数据与均值向量的紧密程度，E越大表示越紧密。在计算类间距离时，采用欧式距离作为计算方法，公式如式(7)所示。

本次分析拟将驾驶员习性分为谨慎型、一般型和激进型三类，取k＝3。

b、层次聚类法

与k-means均值聚类恰好相反，层次聚类是一种自下而上的聚类方法。首先找出距离最近的两个采样点，合并成一类，再将这个类和剩余采样点混在一起，重新寻找距离最近的两个点(或者点+类、类+类)，直到将N个数据合并成k类为止。还是以中速为例，层次聚类结果如图2所示。

整合三个速度区段、两种聚类算法下的分类结果，结论如表4所示，驾驶风格分析结果(未去除异常值)。

表4

驾驶风格综合分析

驾驶风格是个渐进演化的过程，不存在阶跃式突变。因此为了更符合实际场景，按照算法分类结果，先将驾驶风格细化分成8小类，然后合并成4大类。可根据不同需求，采取不同的细化程度，决定分为8类还是4类。基于决策融合策略对不同速度下的驾驶风格进行汇总，输出被测者的综合驾驶风格标签。

驾驶员不会一直以一种风格驾驶，驾驶风格不可能一成不变，用单一指标进行评价并不合理。天气、速度、道路结构等等都能对驾驶风格带来影响。在本发明中，只分析速度造成的影响。司机如果经常跑快速路和高速公路，那么速度提高时，极有可能表现激进，反之亦然。

共有6项单独评价指标(第2列-第7列)。如果具有相同结果的≥5项，那么依照少数服从多数的原则，直接判定，如编号002、005、009、010、011；如果有3-4项相同，认为介于两种风格之间，如编号001、006、008、012，在结果处用“+”或“-”注明。融合结果记录在表5最后一列。驾驶风格细分为7类，按照“谨慎→谨慎+→一般-→一般→一般+→激进-→激进”层层递进，如图3所示。

数据显示，还有一类驾驶员，在速度提升时，驾驶风格变得越来越激进，如004、005、007。然而与之相对，少有越来越谨慎的情况。分析原因，可能是因为高速道路环境更宽阔，少有环境车和道路设施的限制，驾驶员在放松的状态下更容易激进行驶。“v↑，激进↑”表示速度变大，激进程度增加。

表6为细化分类结果，共计8小类。将含有“+”“-”合并为4大类，表7为合并分类结果。

表6

表7

本发明的另一大创新点在于将速度分类评价驾驶风格。特将其与未进行速度分组直接评价做对比，结果如表8所示。由表可知，重合度仅为7/12＝58％，说明未进行速度分组不能反映驾驶风格，结果无效，而且无法反映速度变化时，驾驶风格的变化情况。

表8

判断是否存在异常结果

结果表明，三个速度区段下的准确度分别为75％、92％和58％。低速和中速效果良好，但高速工况重合度并没有达到预期值，仅为58％。追溯原始数据，发现第009号驾驶员各项数据都非常极端，远远偏离其他数据点，难有相似数据与之结合。最终，导致009号驾驶员自成一类，其他驾驶员被迫分到其它两类，这显然不是我们想要的结果。

基于此，采取两项措施：①减少评价指标个数。具体方法是提高相关性系数筛选阈值，从ρ≥0.4提升为ρ≥0.5，将10个评价指标降为8个；②增加驾驶风格组别k。先聚4类，009号驾驶员必然自成一类，由于009属于谨慎型，那么找出最接近谨慎型的元素，将其与009号驾驶员合并，整合成3类。

通过这两种手段，高速工况下重合度增至83％，准确度显著提升，详情如表5所示，驾驶风格分析结果(最终)。两种算法结果重合度较高，且互相印证。证明了在不同速度区段的表现良好，能反映真实驾驶风格情况，可信度较高。

表5

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于机器学习的驾驶风格辨识方法，其特征在于，包括以下步骤：

C、基于k-means均值聚类和层次聚类的聚类分析；

F、输出结论。

2.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：步骤A，所述高清摄像头为8个，环视激光雷达为14个，分别为1个32线激光雷达、1个16线激光雷达、6个4线激光雷达、2个毫米波雷达以及4个角雷达，分别用于获取自车信息、车车相对信息以及驾驶员状态信息。

3.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：步骤B，所述样本数据集D包括m个样本，每个样本又包含n个特征向量，三者的关系可以表示为：

D＝[x₁,x₂,......,x_m] (1)

x_i＝[x_i1；x_i2；......；x_in] (2)

原始驾驶数据样本集D为

4.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：所述速度分段为三段区间，包括低速是30-60km/h，中速是60-90km/h，高速是90-120km/h。

5.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：所述建立评价指标包括基于先验知识的人工选择和基于相关系数的筛选；所述基于先验知识的人工选择，选择跟驾驶风格强相关的特征用作评价指标；所述基于相关系数的筛选，选择简单相关系数法度量两个变量间的线性关系。

6.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：步骤C，所述k-means均值聚类分析的步骤为：C1、人为指定分类个数k，随机选取k个聚类中心；C2、根据欧式距离分配数据点，将距离最近的点集合构成一类；C3、更新聚类中心，将数据点重新分配，并计算平均误差；C4、重复步骤C3，直到前后两次的误差在给定范围之内，得出分类结果。

7.根据权利要求1所述的一种基于机器学习的驾驶风格辨识方法，其特征在于：步骤C，所述层次聚类的聚类分析的步骤为：找出距离最近的两个采样点，合并成一类，再将这个类和剩余采样点混在一起，重新寻找距离最近的两个点或者点+类、类+类，直到将N个数据合并成k类为止。