CN108491859A

CN108491859A - 基于自动编码机的驾驶行为异质性特征的识别方法

Info

Publication number: CN108491859A
Application number: CN201810156546.4A
Authority: CN
Inventors: 郭静秋; 刘洋泽西
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-09-04

Abstract

本发明公开了一种基于自动编码机的驾驶行为异质性特征的识别方法，涉及智能驾驶分析领域，该基于自动编码机的驾驶行为异质性特征的识别方法考虑通过构建深度学习中的自动编码机模型来捕捉GPS及衍生数据的潜在信息，并通过大规模无监督聚类进行行为模式研判，以实现利用海量GPS数据在对驾驶行为进行建模的效果。本发明针对普遍存在的多源异构驾驶行为数据采集及融合困难的问题，能够以一种可靠、高效、可拓展的方式搭建深度学习网络，具有高容错性、低成本和灵活等特点，可支持如交通安全管理、车辆保险业，特别是智能车辆驾驶行为分析和快速测试系统的开发。

Description

基于自动编码机的驾驶行为异质性特征的识别方法

技术领域

本发明涉及智能驾驶分析领域，特别涉及一种基于自动编码机的驾驶行为异质性特征的识别方法。

背景技术

随着国民经济的持续发展和人民生活物质水平的不断提高，汽车保有量的提高带动了城市机动化的迅速发展，道路交通安全同时面临重大挑战。驾驶人员的驾驶行为直接影响着道路交通安全。中国交通事故频发，其中疲劳驾驶、超速驾驶等不良驾驶状态引发的交通事故比重最为突出。规范驾驶人员的驾驶行为是交通管理部门保障道路交通安全的重要措施。传统驾驶行为研究方法主要面临两大问题：在数据层面，传统方法多数是针对路况数据、车况数据、驾驶行为数据当中的某一种数据源进行处理，或是花费大量精力对多源异构数据进行集成融合。在方法层面，长期以来，因子分析与聚类分析是当前多元统计学科中处理多变量、高维度系统中最常用的数据挖掘技术之一，然而在应对TB甚至是PB级的实时数据时，其模型性能将受极大限制。随着信息技术的快速发展，特别是泛在的传感器和移动设备的广泛使用和普及，使得广泛采集城市道路交通系统数据成为可能。然而目前，驾驶行为研究很少有从引入人工智能对城市交通产生的海量GPS数据进行建模，以此在非线性的数据层面来深度挖掘驾驶行为与道路安全之间的关系。

发明内容

本发明所要解决的技术问题是提供一种基于自动编码机的驾驶行为异质性特征的识别方法，考虑通过构建深度学习中的自动编码机模型来捕捉GPS及衍生数据的潜在信息，并通过大规模无监督聚类进行行为模式研判，以实现利用海量GPS数据在对驾驶行为进行建模的效果。

为实现上述目的，本发明提供以下的技术方案：

该基于自动编码机的驾驶行为异质性特征的识别方法包括如下步骤：

第一步：存储驾驶员在使用手机端导航软件的过程中产生的原始GPS数据。其中，原始GPS数据包括时间、经纬度、用户id、速度、方向角的字段信息；

第二步：根据原始低维度的GPS数据，重新构建以下8大特征以扩充数据信息维度：

(1)速度相关参数

在城市交通里，车速因素对交通安全有较大影响。一般道路最高限速为 v_max＝80km/h；以最高限速的α(0＜α＜1)作为高速行驶阈值v_f；

v_f＝α·v_max

设车辆的车速超过该阈值时则具备超速倾向。车速超过最高限速α的时间比例为：

式中，T为车辆在道路上行驶的总时间；T_lα为车辆在道路上超过速度阈值的时间；δ为车辆速度超过速度阈值的时间比例；

将车速的平均值、标准差纳入决定驾驶行为的重要参数，即

式中，v_m为GPS第m次返回的车辆瞬时车速；n为车速采样量；v_a为车辆在道路上的车速平均值；v_s为车辆车速标准差；

(2)加速度相关参数

加速度参数具体可细分为加速度标准差α_s、正加速度平均值正标准差负加速度平均值和负标准差具体计算方法如下：

式中，a_m为车辆在道路上第m次采集数据所对应的加速度；a_a为车辆在道路上的加速度平均值；

第三步：构建深度学习中的自动编码机，自编码是深度学习中一种快速学习模型，其基本原理利用了人工神经网络的层次结果体系，在构建网络结构时，假设网络模型的输出与输入节点形式同构，模型采用8-6-3-6-8的五层结构的自编码网络，目的在于压缩输入信息，提取出样本的核心特征并用于接下来的步骤分析，在自编码网络中，第一层为输入层，第二至第四层为隐藏层，第五层为输出层，其中，第一隐藏层主要提取各特征参数自身的时变规律，第二隐藏层主要提取特征参数间的时变规律；

在本模型中，激活函数采用tanh函数：

自编码器的迭代目标为：

其中，表示网络输入向量x_i的输出向量。以第二层为例，当加入稀疏约束时，激活度在训练集上的平均值为

其中，表示隐藏神经元j的激活度，则为隐藏神经元j的平均激活度。网络的目标函数为：

其中，s为隐藏层神经元j所在的隐藏层。在BP训练步骤中，对隐藏层的权值更新按下式计算：

导入处理后的8维度GPS数据后，取第二隐藏层输出结果作为自动编码机的降维结果；

第四步：将上述结果导入到K-means聚类算法中，以实现对群体驾驶员的驾驶行为的无监督分析功能；

聚类分析的职能是建立一种分类方法，它是将一批样本或变量，按照它们在性质上的亲疏程度进行分类，对于给定的一个包含n个d维数据点的数据集其中，以要生成的数据子集的数目K，K-means聚类算法将数据对象组织为K个划分C＝{c_k，i＝1，2，...，K}。每个划分代表一个类，每个类c_k有一个类别中心μ，选取欧氏距离作为相似性和距离判断准则，聚类目标则是计算该类内各点到聚类中心μ_i的距离平方和最小，即

其中，

K-means聚类算法从一个初始的K类别划分开始，然后将各数据点指派到各个类别中，以减小总的平方和，因为K-means聚类算法中总的距离平方和随着类别个数K的增加而趋向于减小(当K＝n时，J(C)＝0)。因此，总的距离平方和只能在某个确定的类别个数K下，取得最小值。

采用以上技术方案的有益效果是：该基于自动编码机和K-means聚类的驾驶行为分析算法考虑通过构建深度学习中的自动编码机模型来捕捉GPS及衍生数据的潜在信息，并通过K-means聚类进行类别划分，以期为有效提高GPS数据在驾驶行为建模质量提供科学依据。该基于自动编码机和K-means聚类的驾驶行为分析算法可以更加精确地进行驾驶行为建模，为安全驾驶提供更好地辅助作用。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是该基于自动编码机的驾驶行为异质性特征的识别方法的流程示意图；

图2是K-means聚类算法流程图。

具体实施方式

下面结合附图详细说明本发明基于自动编码机的驾驶行为异质性特征的识别方法的优选实施方式。

图1和图2出示本发明基于自动编码机的驾驶行为异质性特征的识别方法的具体实施方式：

如图1所示，该基于自动编码机的驾驶行为异质性特征的识别方法包括如下步骤：

(1)速度相关参数

v_f＝α·v_max

此外，车速平均值和标准差对事故有着极大影响。车辆行驶过程中速度变化越大、车速分布越离散，事故发生率越高。将车速的平均值、标准差纳入决定驾驶行为的重要参数，即

(2)加速度相关参数

车辆加速度是驾驶人控制踏板、离合器等操纵装置的宏观体现。加速度的大小不仅影响车辆本身的机械性能，而且还会影响车辆行驶速度的变化方向与快慢，因此与交通环境及驾驶行为特征密切相关。加速度参数具体可细分为加速度标准差α_s、正加速度平均值正标准差负加速度平均值和负标准差具体计算方法如下：

在本模型中，激活函数采用tanh函数：

自编码器的迭代目标为：

其中，

K-means聚类算法从一个初始的K类别划分开始，然后将各数据点指派到各个类别中，以减小总的平方和，因为K-means聚类算法中总的距离平方和随着类别个数K的增加而趋向于减小(当K＝n时，J(C)＝0)。因此，总的距离平方和只能在某个确定的类别个数K下，取得最小值。K-means算法流程包括4个步骤，具体流程如图2所示。

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于自动编码机的驾驶行为异质性特征的识别方法，其特征在于：所述基于自动编码机的驾驶行为异质性特征的识别方法包括如下步骤：

(1)速度相关参数

在城市交通里，车速因素对交通安全有较大影响。一般道路最高限速为v_max＝80km/h；以最高限速的α(0＜α＜1)作为高速行驶阈值v_f；

v_f＝α·v_max

将车速的平均值、标准差纳入决定驾驶行为的重要参数，即

(2)加速度相关参数

在本模型中，激活函数采用tanh函数：

自编码器的迭代目标为：

其中，表示网络输入向量x_i的输出向量。以第二层为例，当加入稀疏约束时，激活度在训练集上的平均值为：

其中，

K-means聚类算法从一个初始的K类别划分开始，然后将各数据点指派到各个类别中，以减小总的平方和，因为K-means聚类算法中总的距离平方和随着类别个数K的增加而趋向于减小(当K＝n时，J(C)＝0)，因此，总的距离平方和只能在某个确定的类别个数K下，取得最小值。