CN113942521B

CN113942521B - 一种智能车路系统下驾驶员风格辨识方法

Info

Publication number: CN113942521B
Application number: CN202111370492.XA
Authority: CN
Inventors: 任毅龙; 肖简如; 于海洋; 冯斌; 贾国强
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-06-06
Anticipated expiration: 2041-11-18
Also published as: CN113942521A

Abstract

本发明涉及一种智能车路系统下驾驶员风格辨识方法，包括：获得第一行车数据和行驶车辆的图像信息；对所述第一行车数据进行数据预处理和数据融合，获得预设时间段内的行驶车辆平均车速、行驶时间、驾驶员ID和车辆经纬度信息；对所述行驶图像信息进行DB‑LSTM计算，获得驾驶员的驾驶行为类型；基于所述行驶图像信息对应的驾驶行为类型，获得驾驶员风格特征数据集；基于所述驾驶员风格特征数据集，确定驾驶员风格类型。本发明采用多传感器的数据采集方法，保证了能够获取较大规模的数据，使数据更加真实和有效，提出的数据预处理和数据融合方法，实现了对数据进行一系列处理，使用提取特征算法，提高了驾驶风格辨识的正确性。

Description

一种智能车路系统下驾驶员风格辨识方法

技术领域

本发明涉及智能交通技术领域。具体而言，涉及一种智能车路系统下驾驶员风格辨识方法。

背景技术

随着我国国民生活水平的提高，现有的道路基础设施难以适应高速增长的居民出行需求，交通事故频繁发生。驾驶员作为车辆的操纵者，是智能车路系统中重要的控制因素之一。驾驶员的人为因素是造成交通事故的重要因素。如何对驾驶员驾驶风格进行辨识，从驾驶员角度预防和控制道路事故，是提高行车安全性的重要途径。

现有技术主要采用基于问卷量表的驾驶风格主观度量方法和基于驾驶数据聚类分析的驾驶风格客观度量方法，对驾驶员风格进行辨识，然而，它们所采用的获取数据的方法有实时性差，得到的数据样本规模偏小，主观性较高、调查数据缺少真实性的特点。

现有技术中，对于上述来源所获得的数据进行分析提取行车数据特征的方法主要包括：主成分分析法、层次分析法、用于运动识别的深度学习方法。

基于主成分分析法和层次分析法的特征提取方法的主观性较强，所提取的数据缺乏客观性。基于用于运动识别的深度学习方法通常采用已有的 CNN架构进行静态识别，适用于短期的运动数据特征提取，但动态交通往往是一个长期的过程。

因此，由于现有技术中获取数据方法和对数据进行分析提取特征的方法的不足，可能导致驾驶员风格辨识错误，所以需要提供一种技术方案改善现有技术的不足，提高驾驶员风格辨识的正确性。

发明内容

本发明正是基于现有技术的上述需求而提出的，本发明要解决的技术问题是提供一种智能车路系统下驾驶员风格辨识方法，以提高辨识驾驶员风格的准确性。

为了解决上述技术问题，本发明是采用如下技术方案实现的：

一种智能车路系统下驾驶员风格辨识方法，该方法包括：

步骤一：获得第一行车数据和行驶车辆的图像信息；

所述第一行车数据包括车辆ID、驾驶员ID、数据采集时间、车辆经纬度信息和车辆行驶速度；所述行驶车辆的图像信息包括行驶类型信息以及车辆ID、图像信息标签和图像采集时间，所述行驶类型包括超速、减速和加速；

步骤二：对所述第一行车数据进行数据预处理和数据融合，获得预设时间段内的行驶车辆平均车速、行驶时间、驾驶员ID和车辆经纬度信息；

步骤三：对所述行驶图像信息进行DB-LSTM计算，获得驾驶员的驾驶行为类型；

步骤四：基于所述行驶图像信息对应的驾驶行为类型，获得驾驶员风格特征数据集，执行过程如下：

基于所述行驶图像信息对应的驾驶行为类型，筛选得到行驶类型为超速行为的行驶图像信息，并根据所述超速行为的行驶图像信息包含的车辆 ID和图像采集时间，获得与所述第一行车数据包含的车辆ID和数据采集时间对应的第二行车数据；

基于步骤二中所得到的所述驾驶员ID和所述车辆经纬度信息，从所述第二行车数据中筛选得到对应的第三行车数据，所述第三行车数据包括驾驶员ID、车辆经纬度信息和车辆的行驶时间；

根据所述行驶车辆平均速度获得车速标准差，以及根据所述第三行车数据获得行驶时间占比；

将所述车速标准差、所述行驶时间占比和所述行驶车辆平均速度作为驾驶员风格特征参数；基于所述驾驶员风格特征参数，获得驾驶员风格特征数据集；

步骤五：将驾驶员风格特征数据集划分为一个簇加入到簇集F中后进行孤立树训练；基于iForest算法计算平方和最大簇中各样本的孤立值，并按照升序排序；

步骤六：不放回地选取簇集F中误差平方和最大的簇，计算平均差异度，选取最小孤立值点作为第一个聚类中心；

步骤七：计算孤立值次小点与第一个聚类中心的欧氏距离并判断所述欧氏距离是否大于平均差异度；若是则将孤立值次小点作为第二个聚类中心，执行二分k-means聚类，输出两个簇并加入簇集；否则，选择次小孤立值点，并执行本步骤；

步骤八：判断所述簇集中簇的数目是否满足要求，若是，则确定驾驶员风格类型，否则，执行步骤六。

可选地，获取第一行车数据和行驶车辆的图像信息，包括：

所述第一行车数据和所述行驶车辆的图像信息来自于数据采集系统，其中，所述数据采集系统包括上机位部分、下机位部分和传感器部分，三个部分通过遥控指令进行衔接，当驾驶员行驶车辆经过数据采集系统时，执行以下步骤：将传感器部分收集到的数据通过所述传感器部分包含的中央处理器进行处理，获得按照采集时间整合的数据，并将所述整合的数据发送至所述下机位部分进行接受和检测处理，当接收到所述上机位部分的遥控指令时，控制所述下机位部分处理得到的数据传入所述上机位部分，获得车辆的所述第一行车数据和所述车辆行驶图像信息。

可选地，对所述第一行车数据进行预处理和数据融合是在分布式软件框架中进行，所述分布式软件框架包括分布式存储系统、分布式计算框架和数据仓库，所述分布式软件框架处理数据包括：

基于所述分布式软件框架将所述第一行车数据按照块的大小进行分割；

基于所述分布式计算框架将分割后的数据分发给主节点管理调度下的各个隶属节点共同操作，对每个隶属节点分配Map任务，隶属节点读取驾驶数据片段，并执行Map任务，将输出结果保存到本地。最后分配Reduce 任务，读取Map任务输出合并文件，结果保存至分布式存储系统；

将所述第一行车数据稀疏部分，增加采样频率进行增补数据。

可选地，所述DB-LSTM计算是指将所述行驶图像信息输入到 DB-LSTM模型进行计算，所述DB-LSTM模型包括：

将所述行驶图像信息分为多个DB-LSTM块，每个DB-LSTM块定义为：

其中，

表示DB-LSTM模型在t时刻的输出，/>

和/>

分别表示LSTM 网络在t时刻的正向和反向输出，它们都结合了密集的跳跃连接，[,]表示链接操作，箭头表示方向，输出结果的方向由输入序列的方向决定；

基于公式

获得每个DB-LSTM块在第 l层t时刻的步长输出，

其中，

表示对前一层的拼接，H^L(X)表示LSTM网络中第L层，X＝{x₀,x₁....,x_t-1}为LSTM网络中每层的输入集合，由t时刻的时间步长特征组成，x_t是输入的特征向量，即输入的特征数据集，/>

表示前LSTM层的输出和x_t在t时刻的时间步长输入特征串联，/>

代表LSTM第l层在t时刻的时间步长；第一层的输出表示为：/>

将每个DB-LSTM块的最后一层的最后一个时间长度的输出定义为

其中S代表一个抽样堆栈，F代表骨架卷积网络，W_S和W_L分别代表了SRL和DB-LSTM的骨干网权值；

将

输入至目标函数

获得行驶图像信息对应的驾驶行为类型；

其中，C代表总的车辆的动作类别数量，动作类别根据摄像头采集的行驶类型划定，分别是车辆超速行为、车辆减速行为、车辆加速行为，车辆发生事故行为，y代表输入的图像信息标签，i代表图像信息标签的索引，

为第i个DB-LSTM块的最后一层的最后一个时间长度的输出，j代表车辆的动作类别的索引。

可选地，根据所述行驶车辆平均速度获得车速标准差，以及根据所述第三行车数据获得行驶时间占比，包括：

对所述行驶车辆平均速度根据车速标准差公式

获得车速标准差，

其中，n是样本的个数，

是样本的平均速度，σ_v是车速标准差，v_i是第i个所述行驶车辆平均速度，i是索引；

基于所述第三行车数据，根据行驶时间占比公式

获得特征参数各个驾驶员行驶时间占比，

其中，t_95％与t_80％分别表示车速超过道路限速值95％与80％的行驶时长。

可选地，所述iForest算法包括：将所述驾驶风格特征数据集输入到 iForest模型进行计算，所述iForest模型包括：

对输入的所述驾驶风格特征数据集随机抽样得到子样本，放入到根节点，选择一个外部节点，并随机选取数据维度t，在该节点t维度数据最值范围内取随机值s，对样本点维度进行判断，若样本点维度t数值小于s，则样本点划分到左子节点，否则，划分到右子节点，当子节点只含一个样本或多个相同样本时，则输出孤立树，多棵孤立树组成孤立森林；

遍历孤立森林中的每棵孤立树，找到其所在的外部节点，再根据该数据点的路径长度计算其孤立值，所述孤立值计算公式为：

其中，x为已采集数据的样本点，r为孤立树子采样量，z为构成孤立森林模型的孤立树数，h(x)表示样本x在孤立森林模型中的路径长度， E(h(x))表示样本点x在孤立森林模型中的平均路径长度，φ(r)用于标准化的E(h(x))，其表示r个数据点建立的二叉搜索树的平均路径长度，而ε表示欧拉常数，s(x,r)表示数据点x的孤立值。

可选地，所述平均度算法计算公式包括：

其中，i和j是索引，x_i和x_j分别是数据集X的第i个样本点和第j个样本点，n为样本数量，dist(x_i,x_j)是样本点x_i和x_j的欧式距离，γ_i是样本 x_i的平均差异度，A是数据集的平均差异度。

与现有技术相比，本发明的有益效果是：

本发明的技术方案采用多传感器的数据采集方法，能够保证数据样本规模较大，采集的数据更加精确，保证数据的真实性和有效性。

进一步地，本发明的技术方案所采用的数据预处理和数据融合的方法，有利于数据存储、统计分析和查询修改。

再进一步地，本发明技术方案中的DB-LSTM算法用于提取车辆长期行驶数据的特征时，有利于从正反两个方向提取车辆行驶数据特征、模拟双向时间模式车辆的运动。

并且，使用DB-LSTM算法可以为信号传输提供额外的通道，方便了数据融合，提高了驾驶风格辨识的正确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明具体实施方式提供的一种智能车路系统下驾驶员风格辨识方法的流程图；

图2是本发明具体实施方式提供的一种智能车路系统下驾驶员风格辨识方法的数据采集装置的模块结构示意图；

图3是本发明具体实施方式提供的一种智能车路系统下驾驶员风格辨识方法的DB-LSTM体系结构图；

图4是本发明具体实施方式提供的一种智能车路系统下驾驶员风格辨识方法的确定驾驶员风格类型步骤流程图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

在智能车路系统中，具有多个传感器，通过传感器能够获得车辆的各种数据，并且获取到的数据的时效性强，为智能车路系统辨识驾驶员风格的创造便利条件，然而由于智能车路系统下的传感器的数量较多，获得的数据量庞大，难以提取驾驶员的特征参数，为技术实施带来了挑战。

本具体实施方式提供一种智能车路系统下驾驶员风格辨识方法。

实施例1

本实施例提供了一种智能车路系统下驾驶员风格辨识方法，其流程如图1 所示。具体而言，所述方法包括如下步骤：

S1：获得第一行车数据和行驶车辆的图像信息。所述第一行车数据包括车辆标识(identification，ID)、驾驶员ID、数据采集时间、车辆经纬度信息、车辆行驶速度；所述行驶车辆的图像信息包括行驶类型信息以及车辆ID、图像信息标签和图像采集时间，所述行驶类型包括超速、减速和加速。

在本步骤中可以利用智能车路系统中的数据采集系统来采集获得第一行车数据和车辆行驶图像信息。所述数据采集系统包括上机位部分、下机位部分和传感器部分，并且彼此之间通过遥控指令进行衔接。其中，上机位部分为个人计算机(Personal Computer，PC)端部分，该部分主要涉及完成对下机位遥控指令的发送，接收各个传感器数据并对传感器接收的数据进行实时检测。下机位部分则为数据采集卡，主要是完成对各传感器数据的采集，将采集到的数据发送给上机位，并接受上机位的遥控指令。传感器部分由多个传感器组成。数据采集系统的模块结构具体可参阅图2所示。

除此之外，所述数据采集系统还有硬件设备，至少包括数据采集卡、电机编码器、各类传感器、遥控器、电源。

一种实施本步骤S1的场景包括，当车辆经过路侧传感器时，传感器就会对车辆的速度进行采集。再将采集好的数据传入中央处理器进行处理，中央处理器的作用是将海量不规则的数据按照车辆行驶的时间进行排序和整理，使得生成的数据报表按照从早到晚的时间进行排序。最后将生成的数据报表自下往上传入上机位，最终采集好的数据在计算机上进行显示。所述数据报表包括第一行车数据和行驶车辆的图像信息，所述第一行车数据包括车辆ID、驾驶员ID、数据采集时间、车辆经纬度信息、车辆行驶速度，所述行驶车辆的图像信息包括行驶类型信息以及车辆ID、图像信息标签和图像采集时间，所述行驶类型包括超速、减速和加速，需要说明的是采集的图形必须显示完整的车牌号。

数据采集是本发明实施例中的重要部分，所以必须选择合适的数据采集设备，该设备必须适应智能车路系统的道路条件、周围环境以及当地气候变换等，保证采集数据的准确性和实时性。

一种优选的传感器部分选择激光雷达、毫米波雷达、摄像头和车载全球定位系统(Global Positioning System，GPS)，利用激光雷达和毫米波雷达结合车载GPS对行车数据进行采集，监控摄像头对车辆行驶图像进行采集，以及采集时间间隔都是5秒。

为了对激光雷达和毫米波雷达的移动进行精确控制，必须精确地测出传感器转动的角度和实际位置。并对摄像头的位置进行测量和校准，选择最优的拍摄角度。

另外，需要数据采集系统进行调试，减少数据采集系统采集数据的误差，将误差值缩小到一定范围内，以保证采集数据的准确性。

S2：对第一行车数据进行数据预处理和数据融合，获得预设时间段内的行驶车辆平均车速、行驶时间、驾驶员ID和车辆经纬度信息。

对第一行车数据进行预处理和数据融合是在分布式软件框架中进行，所述分布式软件框架包括分布式存储系统、分布式计算框架和数据仓库，所述分布式软件框架处理数据包括：

基于分布式软件框架将所述第一行车数据按照块的大小进行分割。

基于分布式计算框架将分割后的数据分发给主节点管理调度下的各个隶属节点共同操作，对每个隶属节点分配Map任务，隶属节点读取驾驶数据片段，并执行Map任务，将输出结果保存到本地。最后分配Reduce任务，读取 Map任务输出合并文件，结果保存至分布式存储系统。

将第一行车数据稀疏部分，增加采样频率进行增补数据。

在本发明实施例中，对第一行车数据预处理和数据融合是在分布式软件框架Hadoop中进行的，其中，所述Hadoop是一个能够对大量数据进行分布式处理的软件框架，具有处理海量数据高效、低成本的优点。它包括分布式存储系统HDFS、分布式计算框架MapReduce、数据仓库Hive。

Hadoop进行数据处理场景如下：

首先，HDFS将数据文件的存储单位设计成块，块是存储的最小单位， HDFS定义其大小为64MB。对要处理的第一行车数据首先按照块的大小进行分割，之后通过块来进行存储处理并通过预先设定的优化处理模式对存储的数据进行预处理。其中，所述HDFS是Hadoop系统的底层部分，用于数据的存储。

MapReduce对第一行车数据进行切片，这里将切片大小设置为32MB。其次，利用MapReduce把海量的第一行车数据的操纵分发给主Master节点管理调度下的各个隶属Slave节点共同操作。对每个Slave节点分配Map任务，Slave 节点读取第一行车数据片段，并执行Map任务，将输出结果保存到本地。最后分配Reduce任务，读取Map任务输出文件并归并，结果保存至HDFS。其中，所述MapReduce是Hadoop系统的业务执行层。MapReduce工作路程就是将输入的数据进行分片，交给不同的Map任务进行处理，然后由Reduce 任务合并成最终的解。

进一步地，可利用Hive进行数据的查询工作，有效提高海量数据的处理效率。

在预处理过程中，还需对第一行车数据稀疏部分，使用增加采样频率的方式增补数据，提高第一行车数据的密度。在本发明实施例中，只需增补车速和时间字段数据。为了降低增补数据与原始数据之间的相对异常性，增补后的数据应较为平滑，所以在增补数据时，需要满足实际行驶距离的约束，并且增补数据的两段匀变速运动的加速度的绝对值之和应该保持最小。

数据融合是将预处理后的第一行车数据进行处理获得预设时间段内的第一行驶车辆的行驶时间、平均车速、车辆经纬度的过程，其中，所述数据融合分为数据层、特征层和融合层三个层次，数据层是经过预处理后的数据，特征层是交通状态参数，包括车辆平均行驶车速、行驶时间、车辆经纬度信息，融合层是融合后得到行驶车辆数据。

数据进入融合层后，要进行时间上的匹配，将传感器部分包含的各个传感器的采样时间进行统一，方便进行融合。本发明实施例是将将激光雷达、毫米波雷达、摄像头的采样时间进行统一。最后，采用人工神经网络算法，得到融合结果。人工神经网络算法的非线性处理能力很强，可判断来自不同传感器的数据信息，具有自主学习的能力。从结构上看人工神经网络算法与多传感器信息融合非常相似，因此采用该方法进行数据融合。融合结果为在 300天内行驶车辆平均车速，行驶时间，驾驶员ID和车辆经纬度信息。

S3：对行驶图像信息进行DB-LSTM计算，获得驾驶员的驾驶行为类型。

在本发明实施例中，由于目前识别动作的深度学习方法只适用于短时间的动作特征提取，而长时间的动作识别算法CNN-LSTM虽然可将长期动作切分为多个片段进行识别，但是该方法完全忽略了片段之间潜在的时空关系。因此，本发明实施例提出一种LSTM的变体：DB-LSTM用于长时间的驾驶员驾驶行为动作识别。所述DB-LSTM具有LSTM的密接结构和双向时间特性的特点，能够实现同时向前和向后传递信息，使其结构能够缓解梯度消失的问题，加强特征的传播，并减少参数的数量。

由于采集的数据主要包括第一行车数据和行驶车辆的图形信息，因此本发明实施例从车速运行特征(用到行驶的平均车速)、驾驶员超速行为等与行车安全相关的角度对驾驶风格指标进行提取。对于车速运行特征，可以利用采集的速度进行判别。而对于驾驶员超速行为，仅仅采用车速进行判断有些不准确，因此本发明实施例利用摄像头采集到的动作图像信息结合激光雷达、毫米波雷达以及车载GPS采集到的车速进行特征判别。

具体而言，参阅图3所示的DB-LSTM体系结构图，本步骤中，所述 DB-LSTM计算是指将行驶图像信息输入到DB-LSTM模型进行计算，所述 DB-LSTM模型是：

将行驶图像信息的分为多个DB-LSTM块，每个DB-LSTM块定义为：

/>

其中，

表示DB-LSTM模型在t时刻的输出，/>

和/>

分别表示LSTM网络在t时刻的正向和反向输出，它们都结合了密集的跳跃连接。[,]表示链接操作，箭头表示方向，输出结果的方向由输入序列的方向决定。

基于公式

获得每个DB-LSTM块在第l 层t时刻的步长输出，

其中，

表示对前一层的拼接，H^L(X)表示LSTM网络中第L层，X＝{x₀,x₁....,x_t-1}为LSTM网络中每层的输入集合，由t时刻的时间步长特征组成，x_t是输入的特征向量，即输入的特征数据集，在本发明实施例中指采集到的图像数据，

表示前LSTM层的输出和x_t在t时刻的时间步长输入特征串联，/>

代表了LSTM第l层在t时刻的时间步长。因为没有更前的一层，第一层的输出可表示为：/>

将每个DB-LSTM块的最后一层的最后一个时间长度的输出定义为

其中S代表一个抽样堆栈，F代表骨架卷积网络，W_S和W_L分别代表了SRL和DB-LSTM的骨干网权值。

将

输入至目标函数/>

获得行驶图像信息对应的驾驶行为类型，

S4：基于行驶图像信息对应的驾驶行为类型，获得驾驶员风格特征数据集，执行过程如下：

基于行驶图像信息对应的驾驶行为类型，筛选得到行驶类型为超速行为的行驶图像信息，并根据超速行为的行驶图像信息包含的车辆ID和图像采集时间，获得与第一行车数据包含的车辆ID和数据采集时间对应的第二行车数据；

基于步骤S2中所得到的驾驶员ID和车辆经纬度信息，从第二行车数据中筛选得到对应的第三行车数据，所述第三行车数据包括驾驶员ID、车辆经纬度信息和车辆的行驶时间；

根据行驶车辆平均速度获得车速标准差，以及根据第三行车数据获得行驶时间占比；

将车速标准差、行驶时间占比和行驶车辆平均速度作为驾驶员风格特征参数；基于驾驶员风格特征参数，获得驾驶员风格特征数据集；

具体而言，在一种具体的实施例中，所述步骤S4中根据行驶车辆平均速度获得车速标准差，以及根据第三行车数据获得行驶时间占比可以具体包括如下子步骤：

对行驶车辆平均速度根据车速标准差公式

获得车速标准差，

其中，n是样本的个数，

是样本的平均速度，σ_v是车速标准差，v_i是第 i个所述行驶车辆平均速度，i是索引；

基于第三行车数据，根据行驶时间占比公式

获得各个驾驶员行驶时间占比，

其中，t_95％与t_80％分别表示车速超过道路限速值95％与80％的行驶时长

在本步骤中，由于车辆在低速行驶状态不能准确反映真实驾驶风格，因此选择高速行驶时间占比作为驾驶员风格特征参数。

在执行S4后，获得了驾驶员风格特征数据集，进一步地，需要基于所述驾驶风格特征数据集，通过聚类确定驾驶员风格类型。由于传统的二分K-means聚类过程依赖K-means随机选取初始聚类中心，导致该算法对聚类中心初值比较敏感，不合理的初始聚类中心会使得聚类效果不稳定且产生较差聚类效果。所以本发明实施例使用改进的二分K-means算法进行聚类。

在本发明实施例中，通过利用改进的K-means算法进行聚类以确定驾驶员风格类型。所述改进的K-means算法是在传统的二分K-means聚类加入初始聚类中心优选的方法，定义每个样本与数据集中其他样本的距离均值为该样本的平均差异度，数据集整体的平均差异度则为各样本点平均差异度的均值，取最大平均差异度样本作为首个聚类中心，再选择次大平均差异度且与已有聚类中心的距离大于数据集平均差异度的样本作为另一聚类中心，重复该过程直到获取目标数目聚类中心，该方法消除了聚类中心初选的随机性和盲目性，具有更快的收敛速度和更高的聚类效果。

参阅图4所示的确定驾驶员风格类型步骤流程图，在一种具体的实施例中，基于驾驶员风格特征数据集，确定驾驶员风格类型可以具体包括如下步骤S5-S8：

S5：将驾驶员风格特征数据集划分为一个簇加入到簇集F中后进行孤立树训练；基于iForest算法计算平方和最大簇中各样本的孤立值，并按照升序排序。

本步骤中，所述iForest算法包括：将所述驾驶风格特征数据集输入到 iForest模型进行计算，所述iForest模型包括：

其中，x为已采集数据的样本点，r为孤立树子采样量，z为构成孤立森林模型的孤立树数，h(x)表示样本x在孤立森林模型中的路径长度，E(h(x)) 表示样本点x在孤立森林模型中的平均路径长度，φ(r)用于标准化的E(h(x))，其表示r个数据点建立的二叉搜索树的平均路径长度，而ε表示欧拉常数，s(x,r) 表示数据点x的孤立值。

若算出的s(x,r)趋近于1，则认为离群点的可能性较高；若算出的s(x,r)趋近于0，则认为该点为正常点的可能性大。

在本发明实施例中，所述iForest算法的核心为构建多棵孤立树，孤立树是具有二叉搜索树结构，其外部节点为数据，内部节点表示为一次划分。通过随机选取特征值对数据集进行划分，直到孤立树节点中只存在一个数据或一组相同的数据。每训练一颗孤立树，即产生一组数据划分规则，若干组数据划分规则构成孤立森林模型。

在孤立森林(iForest)中，异常被定义为“容易被孤立的离群点”，可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里，分布稀疏的区域表示事件发生在该区域的概率很低，因而可以认为落在这些区域里的数据是异常的。

利用该算法的目的是判别所采集的第一行车数据中的异常数据。

在利用iForest算法获得各样本的孤立值后，需要引入平均差异度作为不同聚类中心的判定值，选择离群度最小的样本点作为第一个聚类中心，然后，计算离群度第二小的样本点与第一个聚类中心的距离，若该距离小于数据集整体平均差异度，则选取离群度次小的样本点进行判断，直到选出2个初始聚类中心；最后按照传统二分K-means算法进行驾驶风格聚类。

S6：不放回地选取簇集F中误差平方和最大的簇，计算平均差异度，选取最小孤立值点作为第一个聚类中心。

本发明从优化聚类中心初选的角度提高二分K-means驾驶风格聚类的质量，考虑到初始聚类中心应位于点密集区域并且保持的距离应该较远，本发明引用平均差异度作为不同聚类中心的距离判定值。

具体而言，在一种具体的实施例中，所述步骤S6中平均度算法计算公式包括：

其中，i和j是索引，x_i和x_j分别是数据集X的第i个样本点和第j个样本点，n为样本数量，dist(x_i,x_j)是样本点x_i和x_j的欧式距离，γ_i是样本x_i的平均差异度，A是数据集的平均差异度。

S7：计算孤立值次小点与第一个聚类中心的欧氏距离并判断所述欧氏距离是否大于平均差异度；若是则将孤立值次小点作为第二个聚类中心，执行二分k-means聚类，输出两个簇并加入簇集；否则，选择次小孤立值点，并执行本步骤。

S8：判断所述簇集中簇的数目是否满足要求，若是，则确定驾驶员风格类型，否则，执行步骤六。

在本发明实施例中，将驾驶员风格分类类型分为以下四种：超速驾驶、减速驾驶、加速驾驶、稳定驾驶。所以当簇的数目是四时，就会满足本发明实施例的要求，从而能够确定传感器部分采集的数据的驾驶员风格类型。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能车路系统下驾驶员风格辨识方法，其特征在于，包括：

步骤一：获得第一行车数据和行驶车辆的行驶图像信息；

所述第一行车数据包括车辆ID、驾驶员ID、数据采集时间、车辆经纬度信息和车辆行驶速度；所述行驶图像信息包括行驶类型信息以及车辆ID、图像信息标签和图像采集时间，所述行驶类型包括超速、减速和加速；

基于所述行驶图像信息对应的驾驶行为类型，筛选得到行驶类型为超速行为的行驶图像信息，并根据所述超速行为的行驶图像信息包含的车辆ID和图像采集时间，获得与所述第一行车数据包含的车辆ID和数据采集时间对应的第二行车数据；

2.如权利要求1所述的方法，其特征在于，获取第一行车数据和行驶车辆的行驶图像信息，包括：

所述第一行车数据和所述行驶图像信息来自于数据采集系统，其中，所述数据采集系统包括上机位部分、下机位部分和传感器部分，三个部分通过遥控指令进行衔接，当驾驶员行驶车辆经过数据采集系统时，执行以下步骤：将传感器部分收集到的数据通过所述传感器部分包含的中央处理器进行处理，获得按照采集时间整合的数据，并将所述整合的数据发送至所述下机位部分进行接受和检测处理，当接收到所述上机位部分的遥控指令时，控制所述下机位部分处理得到的数据传入所述上机位部分，获得车辆的所述第一行车数据和所述车辆行驶图像信息。

3.如权利要求1所述的方法，其特征在于，对所述第一行车数据进行预处理和数据融合是在分布式软件框架中进行，所述分布式软件框架包括分布式存储系统、分布式计算框架和数据仓库，所述分布式软件框架处理数据包括：

基于所述分布式计算框架将分割后的数据分发给主节点管理调度下的各个隶属节点共同操作，对每个隶属节点分配Map任务，隶属节点读取驾驶数据片段，并执行Map任务，将输出结果保存到本地；最后分配Reduce任务，读取Map任务输出合并文件，结果保存至分布式存储系统；

4.如权利要求1所述的方法，其特征在于，所述DB-LSTM计算是指将所述行驶图像信息输入到DB-LSTM模型进行计算，所述DB-LSTM模型包括：

其中，

表示DB-LSTM模型在t时刻的输出，/>

和/>

分别表示LSTM网络在t时刻的正向和反向输出，它们都结合了密集的跳跃连接，[,]表示链接操作，箭头表示方向，输出结果的方向由输入序列的方向决定；

基于公式

获得每个DB-LSTM块在第l层t时刻的步长输出，

其中，

表示对前一层的拼接，H^L(X)表示LSTM网络中第L层，X{x₀,x₁....,x_t-1}为LSTM网络中每层的输入集合，由t时刻的时间步长特征组成，x_t是输入的特征向量，即输入的特征数据集，/>

表示前LSTM层的输出和x_t在t时刻的时间步长输入特征串联，/>

代表LSTM第l层在t时刻的时间步长；第一层的输出表示为：/>

将每个DB-LSTM块的最后一层的最后一个时间长度的输出定义为

将

输入至目标函数/>

获得行驶图像信息对应的驾驶行为类型；

5.如权利要求1所述的方法，其特征在于，根据所述行驶车辆平均速度获得车速标准差，以及根据所述第三行车数据获得行驶时间占比，包括：

对所述行驶车辆平均速度根据车速标准差公式

获得车速标准差，

其中，n是样本的个数，

基于所述第三行车数据，根据行驶时间占比公式

获得特征参数各个驾驶员行驶时间占比，

6.如权利要求1所述的方法，其特征在于，所述iForest算法包括：将所述驾驶员风格特征数据集输入到iForest模型进行计算，所述iForest模型包括：

对输入的所述驾驶员风格特征数据集随机抽样得到子样本，放入到根节点，选择一个外部节点，并随机选取数据维度t，在该节点t维度数据最值范围内取随机值s，对样本点维度进行判断，若样本点维度t数值小于s，则样本点划分到左子节点，否则，划分到右子节点，当子节点只含一个样本或多个相同样本时，则输出孤立树，多棵孤立树组成孤立森林；

其中，x为已采集数据的样本点，r为孤立树子采样量，z为构成孤立森林模型的孤立树数，h(x)表示样本x在孤立森林模型中的路径长度，E(h(x))表示样本点x在孤立森林模型中的平均路径长度，φ(r)用于标准化的E(h(x))，其表示r个数据点建立的二叉搜索树的平均路径长度，而ε表示欧拉常数，s(x,r)表示数据点x的孤立值。

7.如权利要求1所述的方法，其特征在于，所述平均差异度算法计算公式包括：