CN114971156A

CN114971156A - 一种基于大数据危险场景的驾驶风格分析方法

Info

Publication number: CN114971156A
Application number: CN202210352314.2A
Authority: CN
Inventors: 刘迪; 郑建明; 覃斌; 张宇飞; 张建军; 金鉴; 孙殿喜
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2022-04-04
Filing date: 2022-04-04
Publication date: 2022-08-30

Abstract

本发明属于汽车大数据应用技术领域，涉及一种基于大数据危险场景的驾驶风格分析方法；包括：数据清洗；数据切片；评价指标降维：采用归一法和和主成分分析对初始指标进行降维，经过旋转因子旋转后发现更多未知场景；按照旋转因子矩阵，实现不同场景的分析；建立聚类模型：基于k‑means聚类结果的高斯混合模型输出结果是概率值，有效识别边缘数据；建立分类辨识模型：以k‑means聚类结果作为监督学习样本，训练随机森林模型，辨识未知驾驶员的驾驶风格；本发明避免主观评价；采用归一法和主成分分析进行数据降维，既不降低模型精度、还原原始数据，又能简化模型结构；本发明将聚类结果于概率相结合，得到样本点属于某个簇的概率，正确识别边缘数据。

Description

一种基于大数据危险场景的驾驶风格分析方法

技术领域

本发明属于汽车大数据应用技术领域，涉及一种基于大数据危险场景的驾驶风格分析方法。

背景技术

驾驶风格反映了一个人经常性的和持续稳定的动作倾向，能够体现驾驶员的思维模式和行为规律。深刻研究驾驶员驾驶风格以及表现形式，构建准确的驾驶风格辨识模型，对驾驶库数据平台构建以及高级别自动驾驶算法开发验证，具有重要意义。

在数据采集方面，一般采取填写主观问卷、在驾驶模拟器模拟驾驶、在自然公开道路驾驶等方式。由于数据来源广泛，许多学者对场景进行了切片，进行了更为细致的分析，如按照车流密度切分、研究分时租赁问题、营运车辆等。在数据处理方面，采用信度和效度检验相结合的方法，构建基于标准化驾驶表现和像空间重构的定性评估方法等。

专利文献1(CN108995653B)根据采集的驾驶员操作信息和车辆行驶信息,初步识别驾驶员驾驶风格,得到驾驶员驾驶风格初步识别结果；根据得到的驾驶员驾驶风格初步识别结果,改变车辆状态；根据驾驶员适应车辆新状态的操作数据以及对应的车辆行驶数据,进一步识别得到驾驶员驾驶风格结果。

专利文献2(CN111547064A)使用SOM与K-means算法聚类驾驶员数据, 离线识别各驾驶员的驾驶风格,并训练驾驶风格在线分类器,即可对不同驾驶员的进行在线识别；将该训练好的驾驶风格在线分类器与汽车ACC系统相结合,使汽车ACC系统可以针对不同驾驶风格的驾驶员做出相应的调整,从而满足不同驾驶员不同驾驶风格的个性化需求。

专利文献3(CN111627132A)发明一种基于驾驶倾性的汽车行驶特征评价及预警方法,,使用时间序列降维算法可以降低数据复杂程度,同时保留数据隐含的时间序列特征；对操作片段进行统计,得到高频操作片段数据库,可以进行详细的驾驶特征行为描述；应用HMM模型进行倾性辨识,辨识结果具有高度可信性；通过进一步计算外倾值,可以比较驾驶博弈各方的操作特征；通过定量和定性评价结果得出的预警信息,其内容便于比较；随着车辆运行不断更新数据,保证评价结果和预警信息的实时性,具有很强的实用性。

上述专利与本申请相关度较低。

发明内容

本发明从多维度全方位分析大数据信息，获取更为柔性的聚类结果，并且构建合适的机器学习模型用来预测辨识新的未知数据分类，本发明提供了一种基于大数据危险场景的驾驶风格分析方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

为解决上述技术问题，本发明是采用如下技术方案实现的：

一种基于大数据危险场景的驾驶风格分析方法，包括：

数据清洗：按车辆速度筛选，按道路类型筛选，按前方是否有目标车筛选，减小原始数据行数；

数据切片：依据前方是否有目标车，将数据切片成一个个片段，每个片段聚合出一条统计结果，再将全部片段聚合出最终统计结果，作为清洗后的数据集；

评价指标降维：采用归一法和和主成分分析对初始指标进行降维，经过旋转因子旋转后发现更多未知场景；按照旋转因子矩阵，实现不同场景的分析；

经过降维后的主成分矩阵往往解释性不强，因此每一列元素尽可能地拉开距离，即向0或1两极分化。

清洗后的数据集：用于行筛选。在原始数据集中，每行代表一个采样点(比如：2022-03-21 08:00:01,2022-03-21 08:00:02就代表两个采样点)。清洗数据集可以实现数据压缩，即多行转一行(保留01和02的聚合值)。

初始指标、筛选后的指标：用于列筛选。比如按照先验知识，初始指标为 “速度、加速度、节气门开度”，筛选后只保留“速度”。

建立聚类模型：基于k-means聚类结果的高斯混合模型输出结果是概率值，有效识别边缘数据，结果更为柔性。

高斯混合模型和Gauss混合模型是一个意思。K-means是聚类模型，属于无监督学习(事先无标签)，给数据打标签；高斯混合模型是分类模型，属于监督学习，它必须带有标签。所以，k-means聚类和高斯混合模型分类是递进关系，有了k-means的打标结果，才能训练高斯混合模型。二者是公开的机器学习算法。

k-means、高斯混合模型、随机森林的关系：高斯混合模型用于已知驾驶员的分类，能输出概率，修正k-means聚类结果；随机森林能预测未知驾驶员的驾驶风格。三者是递进关系。

建立分类辨识模型：以k-means聚类结果作为监督学习样本，训练随机森林模型，用来预测辨识新的未知数据分类，辨识未知驾驶员的驾驶风格。

分类辨识模型具体是指高斯混合模型和随机森林模型。一个用于已知样本分类的修正，一个用于未知样本的分类。

进一步地，数据切片方法具体内容如下：

如果在两个连续时间点中，传感器都感知到了同一个前方目标车，则认为这两个时间点属于同一个切片；每个切片输出一个指标向量值；若共有M个切片，每个切片包含N个指标结果，记为N＝[n₁ n₂ …n₁₀]，10是评价指标的维度；

对于1个驾驶员，形成1行*10列的数据向量U,U＝[u₁，u₂,……，u₁₀]；对于U 中的第i个元素，计算式为：

其中，M表示切片数量，x表示样本数据值，i表示样本中第i个特征，和U中的下角标一一对应，j表示遍历序数，取值为1～M间的整数。

进一步地，所述初始指标，是指选择10个分析指标，它们分别是：本车速度v、本车加速度、本车超速比例、制动踏板激活状态、节气门开度、最大节气门大度、相对前车速度、最大相对速度、相对距离、碰撞时间；

归一法是指：不同的评价指标量纲和量纲单位均有不同，如果直接分析，那么量纲大的指标所占权重就大。这样会忽略小量纲指标的存在，等于损失了该特征。归一化的目的，就是使各指标处于同一数量级，进行综合对比评价。计算公式为：

其中，x^*为归一化后的数值，x为原始数值，x_max为原始最大数值，x_min为原始最小数值。

所述主成分分析是指将初始指标组合成综合指标，同时将信息损失降低到最小；

旋转因子RC2代表驾驶过程速度和节气门开度，RC3与发生超速及碰撞等极端工况有关；以RC2和RC3为研究对象，分析驾驶员超速并接近前车的倾向，即危险工况的驾驶风格。

进一步地，所述k-means，是指k-means均值聚类算法，对于给定数据集 D＝[x₁,x₂,……,x_m]，指定分类个数p，使得聚类点λ_j∈(1,2,……,k)的平方误差最小；

以k-means聚类结果为基础，构建高斯混合模型；

高斯混合模型由多个单高斯模型组合而成，高斯混合模型的输出结果是各个样本占据某一分类结果的概率；均值向量和协方差矩阵确定高维度的高斯混合模型，高斯混合模型的概率分布可表示为下式：

其中，ρ_ξ(x)是概率分布，ξ为样本空间，x_i为第i个样本，k是单高斯模型的数量，α_i是元素属于第k个高斯模型的可能性，

是第k个高斯模型的密度函数；μ_i和Σ_i是第i个单高斯模型的均值和方差。

将k-means聚类结果作为初值输入，会获得更为柔性的分类结果。

初值：聚类中心和分类标签。如果不给定聚类中心，那么高斯混合模型极有可能训练出局部最优而非全局最优解，在此处kmeans聚类结果相当于高斯混合模型的先验值；如果不给定分类标签，无法训练高斯混合模型，因为它是监督学习模型，训练集必带标签。

kmeans和基于kmeans结果的Gauss混合模型聚类比对；

高斯混合会识别簇间边缘样本的信息，此时须更多经验判断该样本到底属于哪一种标签。由于样本数量较少，因此每个样本标签都很重要。标签结果会用于训练随机森林模型，直接反映随机森林模型的准确性。

进一步地，所述训练随机森林模型具体构建步骤如下：

步骤1：随机抽样，训练决策树。有放回的随机抽取多个样本，形成样本数据集1；

步骤2：随机选取属性，做节点分类属性；假设训练样本集包含M个属性，随机再每个分裂节点处选择D个属性，并且d＜D，节点分裂属性不可重复；

步骤3：重复步骤2，直到不能再分裂为止；

步骤4：重复步骤1～3，建立多棵决策树，形成森林。

所述k-means聚类结果包含数据和标签信息。

一种基于大数据危险场景的驾驶风格分析方法，还包括采用留一法评估随机森林模型的有效性；具体内容包括：将33名驾驶员样本组成的测试集划分为训练集和验证集，训练集包含32份样本，验证集包含1份样本；更换不同的验证集，进行33次交叉验证，得到组验证结果；比对聚类结果和辨识结果，分别计算三种标签的辨识率，进而得出随机森林模型的综合辨识率；

经评估，基于随机森林模型的辨识策略能正确识别90.9％危险场景的驾驶风格标签。

进一步地，数据初筛条件如下：

选取速度30-150km/h；避免低速和启停倒车等耗时长、意义不大的场景

前方有目标车，且碰撞时间ttc小于10s，增加交通参与者可以激发驾驶员主动行为，如果碰撞时间ttc过大，认为距本车太远，无法激发。

进一步地，所述本车超速比例η计算式如下：

其中t为超速时长，单位为秒；T为总驾驶时长，单位为秒；下角标为道路类型。

进一步地，所述按照旋转因子矩阵，实现不同场景的分析，具体计算原理公式如下：

式中，D_i表示第i个主成分，X_i表示第i个原始数据，i＝1、2、……、m，k为权重系数；任意两个主成分的协方差为零，方向正交；

进一步地，对于给定数据集D＝[x₁ x₂ ...x₃₃]，K-means首先确定聚类数量 N，然后随机选取聚类中心δ_n＝(n＝1,2,...,N)，最后通过迭代计算使x_i与其最近的δ_n的欧氏距离之和最小，采用如下公式：

式中，x_i代表样本点，δ_n代表聚类中心，E代表了聚类结果的聚合程度。E的值越小，聚合效果越好。

与现有技术相比本发明的有益效果是：

1、完全依赖客观数据，避免主观评价。已有的研究中往往依赖主客观对标的方法来评定聚类结果好坏，导致难以获得统一的样本标签和分类标准。即便是主客观结合，也应该是客观为主、主观为辅。

2、由于评价指标条目众多，采用归一法和主成分分析进行数据降维，既不降低模型精度、还原原始数据，又能简化模型结构。

3、采用更为柔性的聚类方法，将聚类结果于概率相结合，得到样本点属于某个簇的概率，正确识别边缘数据。

4、构建合适的机器学习模型，可用来预测辨识新的未知数据。

附图说明

下面结合附图对本发明作进一步的说明：

图1是K-均值和高斯混合聚类结果比对示意图；

图2是高斯混合模型等高线示意图；

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、 “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

下面结合附图对本发明作详细的描述：

1、数据选取与数据切片

驾驶风格研究的是人的行为，它反映了驾驶员本身的驾驶习惯，同时也需要不同路况环境作为激发条件。就分析角度而言，最直观的量化体现就是车辆状态数据。不同于车辆性能、驾驶员姿态、疲劳程度等信息，车辆状态属于结构化数据，由车载传感器直接获得，几乎没有主观评价参与的成分，可信度较高。因此，本发明以车辆状态作为数据源，构建一套大数据分析方法。

虽然本发明是为了研究危险及超速场景，但对大数据的研究往往要从宏观大类出发，而不是直接清洗大量数据，只剩部分“小而精”的数据。这样造成的后果是样本缺乏边缘点，不具备代表性；同时也不利于其它场景分析(如自然驾驶场景、事故场景等)。

依托大数据采集项目，获取包含33名驾驶员、10万千米行车数据，几乎覆盖全部自然场景。数据存储于云端数据库，可进行分布式快速查询。

数据初筛条件如下：

1)选取速度30-150km/h。避免低速和启停倒车等耗时长、意义不大的场景

2)前方有目标车，且碰撞时间ttc小于10s。增加交通参与者可以激发驾驶员主动行为，如果ttc过大，认为距本车太远，无法激发。

基于数据筛选规则，依据前方有目标车存在的连续性，进行场景切片。即如果在两个连续时间点中，传感器都感知到了同一个前方目标车，则认为这两个时间点属于同一个切片。每个切片输出一个指标向量值。若共有M 个切片，每个切片包含N个指标结果，记为N＝[n₁ n₂ …n₁₀]，10是评价指标的维度，下面详细阐述。

对于1个驾驶员，形成1行*10列的数据向量U。对于U中的第i个元素，它的计算式为：

2、选择指标维度及计算方法

依照先验知识和过往经验，初步选择10个分析指标，它们分别是：

1)本车速度v：单位m/s

2)本车加速度a：单位m/s2

3)本车超速比例α：无量纲。计算式如下所示，其中t为超速时长，单位为秒；T为总驾驶时长，单位为秒；下角标为道路类型。设置限速阈值＝限速 *1.2，道路类型及对应限速阈值如表1所示。

表1 道路类型及限速阈值

道路类型	城市道路	快速路	一级公路	高速公路
					限速(km/h)	70	80	100	120
限速阈值(km/h)	84	96	120	144

4)制动踏板激活状态brake：布尔值(即0或1)

5)节气门开度throttle：单位％，值范围0％-100％

6)最大节气门大度throttle_max：单位％，值范围0％-100％

7)相对前车速度vrel：单位m/s，等于本车速度减去前车速度

8)最大相对速度vrel_max：单位m/s，等于本车速度减去前车速度的最大值

9)相对距离pos：单位m，等于本车位置减去前车位置

10)碰撞时间ttc：单位s。等于相对距离除以相对速度

其中，除3)、6)、8)外，其它指标均取平均值。

3、评价指标降维

上述10个指标权重相等，这显然不符合客观规律。为解决指标多重共线问题，加快聚类算法效率，降维过程分两步：1)数据标准归一化，2)利用主成分PCA实现降维。

主成分分析(PCA)能把原始指标组合成综合指标，即主成分PC，同时能把信息损失降低到最小。由于各个主成分正交，互相独立，因此可以选取特定主成分，进行有针对的分析。计算原理如下所示：

D₁＝k₁₁X₁+k₁₂X₂+…+k_1mX_m

D₂＝k₂₁X₁+k₂₂X₂+…+k_2mX_m

D_m＝k_m1X₁+k_m2X₂+…+k_mmX_m

式中，D_i表示第i个主成分，X_i表示第i个原始数据，i＝1、2、……、m，k为权重系数。任意两个主成分的协方差为零，方向正交。

经分析，该样本的主成分分析效度检验指标KMO＝0.718>0.6，Bartlett检验对应值p＝0，比较适合进行主成分分析。一共提取出3个主成分，特征根值均大于1，此3个主成分的方差解释率分别是42.856％,22.293％,13.706％，累积方差解释率为78.856％。一般认为累计解释率达70％-80％即为有效。表2为主成分提取情况。

表2方差解释率

因子旋转能让载荷矩阵值向0或1靠近，让每个因子具有较高或较低的载荷。因此旋转因子能代表的驾驶行为信息比主成分更为明确。由于主成分两两正交，彼此不相关，因此本问题采用最大方差旋转法。

主成分分析和因子旋转后的载荷矩阵如表3所示。如果载荷系数绝对值大于0.4，则说明该项和主成分有对应关系，且载荷系数越大，相关性越强。为方便观看，设置大于0.4的数据底纹为灰色。

主成分PC1、PC2、PC3能代表78.8％的原始数据。旋转因子RC1多与车辆自然状态的平均值有关，旋转因子RC2代表驾驶过程最基本属性(速度和节气门开度)，RC3与发生超速及碰撞等极端工况有关。因此，以RC1和RC2为研究对象，可分析驾驶员在一般工况下的驾驶风格；以RC2和RC3为研究对象，可分析驾驶员超速并接近前车的倾向。本发明重点研究后者，即危险工况的驾驶风格。

表3载荷系数

4、无监督学习-kmeans聚类

本次聚类属于典型的无监督学习。首先采用k-means均值聚类算法，它具有方便快捷、鲁棒性佳、适应性好的优点。对于给定数据集D＝[x₁,x₂,……，x_m]， K-means首先确定聚类数量N，然后随机选取聚类中心δ_n＝(n＝1,2,...,N)，最后通过迭代计算使x_i与其最近的δ_n的欧氏距离之和最小，采用如下公式：

式中，x_i代表样本点，δ_n代表聚类中心，E代表了聚类结果的聚合程度。 E的值越小，聚合效果越好。

5、无监督学习-基于kmeans结果的Gauss混合模型聚类

然而，k-means属于“硬性”聚类方法。分类结果只有是或否，没有边界值。如果数据维度较低，操作者可以观察边缘数据；但是如果数据维度较高，则无法可视化，强行分类可能得不到预期分类结果。因此，以k-means聚类结果为基础，构建高斯混合模型(Gaussian Mixture Modeling，GMM)。

高斯混合模型由多个单高斯模型组合而成，它的输出结果是各个样本占据某一分类结果的概率。正如均值和方差能确定单高斯模型，均值向量和协方差矩阵能确定高维度的高斯混合模型，它的概率分布可表示为下式：

其中，ξ为样本空间，x_i为第i个样本，k是单高斯模型的数量，α_i是元素属于第k个高斯模型的可能性，

是第k个高斯模型的密度函数。μ_i和Σ_i是第i个单高斯模型的均值和方差。

高斯混合模型＝Gauss混合模型＝GMM；

单高斯混合模型＝单Gauss模型；

高斯混合模型受初值影响较大，如果不给定初始状态，可能陷入局部最优。因此，将k-means分类结果作为初值输入，会获得更为柔性的聚类结果。

6、k-means和基于k-means结果的高斯混合模型聚类比对

由于数据是二维的，因此可以绘图表达聚类结果。如图2所示。

对于同一个数据点，内部实心表示k-means聚类结果，外部空心表示基于GMM 的分类结果。将风格标签划分为3类：谨慎型(三角)、一般型(方块)、激进型(圆形)。可以看出两种方法的聚类结果大致相同，，一般型和激进型的概率密度产生了部分重叠。激进型由于有极端值存在，导致方差较大。

等高线图表现了高斯混合模型在二维平面的映射，三种标签等高线迭代结果符合样本，数据均匀地分布在等高线周围。两个出现偏差的样本恰好都在两类等高线边缘，而且概率相差不大。如果可获取更多已知数据之外的信息，则完全可以综合考虑分类结果，高斯混合模型只是提供参考。

7.监督学习-随机森林模型

7.1训练随机森林模型

聚类结果包含数据和标签信息，因此可利用监督学习构建机器学习模型，辨识未知驾驶员的驾驶风格。本发明拟采用随机森林模型作为分类器实现此功能。

由于每棵树的训练特征集合是从全部特征抽取的，因此适合处理高维数据。对于特征较少的样本，随机性降低，可能得不到最佳辨识结果。同时，随机森林能检测特征间的作用，解决共线问题。

随机森林是升级版决策树，每棵树对训练样本进行投票，最后取最高票对应的标签作为分类结果。

具体实现流程如下：

步骤1：随机抽样，训练决策树。有放回的随机抽取多个样本(即可存在重复样本)，形成样本数据集1；

步骤2：随机选取属性，做节点分类属性。假设训练样本集包含M个属性，随机再每个分裂节点处选择D个属性，并且d＜D，节点分裂属性不可重复；

步骤3：重复步骤2，直到不能再分裂为止；

步骤4：重复步骤1～3，建立多棵决策树，形成森林。

7.2交叉验证随机森林模型

采用留一法评估随机森林模型的有效性。将33名驾驶员样本组成的测试集划分为训练集和验证集，训练集包含32份样本，验证集包含1份样本。更换不同的验证集，进行33次交叉验证，得到组验证结果。比对聚类结果和辨识结果，分别计算三种标签的辨识率，进而得出随机森林模型的综合辨识率。表4为随机森林模型交叉验证结果。

表4随机森林模型交叉验证结果

本发明采用：

1数据清洗方法：按车辆速度筛选，按道路类型筛选，按前方是否有目标车筛选。减小原始数据行数。

2数据切片方法：依据前方是否有目标车，将数据切片成一个个片段，每个片段聚合出一条统计结果，再将全部片段聚合出最终统计结果，作为清洗后的数据集。

3评价指标降维方法：采用归一法和和主成分分析对10个初始指标进行降维，经过因子旋转后可发现更多未知场景。按照旋转因子矩阵，可实现不同场景的分析。

4聚类模型的建立：基于k-means结果的高斯混合模型输出结果是概率值，相比于k-means，高斯混合模型可以有效识别边缘数据，结果更为柔性。

5分类辨识模型的建立：以聚类结果作为监督学习样本，训练随机森林模型，可用来预测辨识新的未知数据分类。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。