CN111461185A

CN111461185A - 一种基于改进K-means的驾驶行为分析方法

Info

Publication number: CN111461185A
Application number: CN202010198869.7A
Authority: CN
Inventors: 吴艳霞; 李储岩; 王旭; 王青文
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-28

Abstract

一种基于改进K‑means的驾驶行为分析方法，它属于驾驶行为分析技术领域。本发明解决了现有K‑means方法对驾驶行为聚类结果的科学性、准确性欠佳的问题。本发明为选取最佳的初始中心，提出了DC算法，该算法通过计算数据集中样本密度、类中样本之间平均差异度的倒数以及簇之间差异度三者的乘积作为其中心指标，初始中心由中心指标确定。然后将通过DC算法获取到的初始中心作为默认参数输入K‑means算法中，用以提高K‑means算法对驾驶行为聚类结果的准确率和稳定性，改进的K‑means算法对驾驶行为的聚类结果更加科学。实验结果表明，在对驾驶行为聚类分析的研究上，本发明改进算法的准确率更高、抗干扰能力更强，准确率达到90％。本发明可以应用于驾驶行为分析。

Description

一种基于改进K-means的驾驶行为分析方法

技术领域

本发明属于驾驶行为分析技术领域，具体涉及一种基于改进K-means的驾驶行为分析方法。

背景技术

目前，研究者们对驾驶行为的研究主要从驾驶行为评价和驾驶行为分析两个角度出发。公平、合理地评价驾驶员，以及准确识别驾驶员驾驶行为的目的，对于挖掘出对驾驶行为有重要影响的客观因素，进而为交通运输企业评价驾驶员提供了有力指标和科学依据。

郑恒杰学者基于数据挖掘的方法，运用Isolation Forest算法和SOM算法对交通数据进行预处理并提取特征值，再通过K-means聚类算法和BP神经网络构建分类器，实现对驾驶行为的分类和评价。但是聚类算法得到的聚类结果的精确度不高。

吴紫恒学者在结合道路交通状态的情况下，否定了通过打分机制评价驾驶员以及主观选取驾驶行为特征参数的方案，并提出利用改进的K-means算法结合BP神经网络建立客观、高效的驾驶行为评价模型。但是并没有深入分析驾驶行为特点。

牛增良等学者从不安全驾驶行为角度出发，通过模糊聚类、系统聚类方法对特大交通事故聚类，研究外部客观因素与驾驶行为之间的联系。

孙川等学者基于存储的车联网数据，从中选取了多个与速度、加速度有关的参数。并将研究对象的多个参数降为少数综合参数，这些综合参数能全面地表示原参数的信息。以综合参数为变量通过系统聚类的方法，对驾驶行为进行聚类分析，最终将驾驶行为有效分为加速、减速、超速和变速行为。

任慧君学者提出一种利用车载GPS采集车辆轨迹数据的方法，在轨迹数据中提取与速度和加速度有关的驾驶行为信息，从而评估驾驶行为的安全性。缺点是并未深入挖掘探索不安全驾驶行为背后的信息。

Guo F等学者认为驾驶风险在不同的驾驶员之间存在差异性，他们一方面基于收集到的车辆数据呈现负二项分布的特点，因而采用了负二项回归方法对危险驾驶行为建立识别模型，探索出对驾驶行为有显著影响的多种因子。另一方面利用K-means聚类算法把驾驶员的驾驶行为分为三类，分别为高风险司机组，中等风险司机组，低风险司机组。

OBD、GPS等传感器被广泛应用于车辆信息采集，Meseguer J E等学者通过这两种传感器设备重点采集车辆的速度和加速度信息。首先，创建了神经网络模型并对驾驶行为进行训练，然后，利用经训练后的模型对驾驶员驾驶行为实现快速、准确的分类功能。

Vatikus V等学者认为车辆的加速度信息更能体现一个驾驶员驾驶特点，因此他们利用三轴加速度计收集车辆信息。然后建立了驾驶员风格识别模型，该模型的输入是加速度方差，加速度均值，模型的输出是判别每个驾驶员的驾驶风格是缓和型还是激进型。该模型最大的特点是不需要人工的参与。

Qi G等学者相对与其他研究者而言，在提取驾驶行为信息时，将重点放在跟车距离上，将主题模型(Latent Dirichlet Allocation，LDA)的优点和模糊C均值算法(FuzzyC-Means，FCM)优点相结合，得到驾驶行为分类器，该分类器将驾驶行为分成3类：激进型、适度型和谨慎型。

Eren H等学者在提取车辆信息时，充分考虑到天气对驾驶员驾驶行为的影响，因此它们分别收集了雨、雪、晴天气下的车辆信息，利用贝叶斯网络模型评估驾驶行为。该模型最大的缺点是选取了两名有多年开车经验的司机的驾驶行为信息作为评估该模型的评判标准，这导致该模型评判标准带有强烈的主观性。

目前评价驾驶员驾驶行为的方法有两种，分别是定性评价和定量评价。Li Y等学者从定量角度出发，利用数据挖掘技术提出了驾驶行为评分机制，根据分数定量评估驾驶员的操作是谨慎的还是鲁莽的。由于试验需要非常具体的车载硬件和基础设施传感器(如环路探测器和雷达)，这是昂贵的。

Aljaafreh A等学者选择了与驾驶车辆的加速度、速度有关的参数作为驾驶行为指标，建立了分类决策树模型，该模型可用于区分正常驾驶，异常驾驶，疲劳驾驶和酒后驾驶。

Chen S W等学者认为驾驶员驾驶行为风格很大程度是其自身性格的反映，因此他们在评价驾驶员驾驶行为时充分考虑驾驶员性格对评价的影响，将其纳入评价指标中，虽然该方法在一定程度上提高了评价的准确性，但是实验数据是通过驾驶模拟器获得的，并不是真实的驾驶数据。

CAN总线技术日益完善，给研究者们提供了大量的传感器数据。这使得更可靠，更直接的描述驾驶行为成了可能，越来越多的研究者提出了基于CAN总线的驾驶行为分析研究。

车辆内部传感器记录着车辆的各种工况信息，而利用CAN总线技术可以快速、准确、便捷的将这些信号传输到计算机中。马天宇基于CAN总线技术，对驾驶员是否存在违规驾驶行为做了判断。

李杰利用汽车CAN总线、GPS和GPRS技术，实现对车辆的在线监控，通过海量车载数据，如速度、转速等信息，进行大数据分析，完成驾驶行为分析和汽车故障分析功能。

Fugiglando U等学者基于CAN总线获取的数据，选取了CAN总线记录的制动驾驶踏板、油门踏板位置、每分钟转速、速度等8个信号，并对它们实现聚类。优点在于随机地抽取多组在真实实验中收集到的数据集，然后用来描述驾驶员之间的相似性。

K-means算法是最常用的聚类算法之一，K-means算法从1982年被提出到现在已有近40多年的历史，研究者对K-means算法的研究热情与日俱增，越来越多的学者从不同角度不断地改进、完善此算法。

Zhang L等学者提出了基于密度的K-means算法的改进。该算法采用密度数的概念，从原始数据集中提取高密度数的点集作为新的训练集，并选择高密度数点集中的点作为初始中心。然后，使用几何中心点的方法在高密度点处更新聚类中心点，直到达到收敛条件为止。该方法一定程度上解决了孤立点成为初始聚类中心的问题，但是没有考虑聚类效果，导致离群点很有可能单独归为一类，进而影响聚类准确率。

充分利用海量车联网数据，对驾驶行为进行充分研究，可以有效改善交通安全问题。因此驾驶员驾驶行为分析的研究一直备受关注，但是目前的研究中依然存在以下缺点：

研究者对K-means算法的改进解决的是算法原始的缺点，优化后的算法并不适合驾驶员驾驶行为分析场景，即算法的优化没有考虑驾驶行为数据集本身的特点。优化后的算法虽在公开数据集上取得不错的效果，但将其应用到具体驾驶场景时，发现驾驶行为聚类结果科学性、准确性欠佳。

发明内容

本发明的目的是为解决将目前优化后的K-means方法应用到具体驾驶场景时，存在的对驾驶行为聚类结果的科学性、准确性欠佳的问题，而提出了一种基于改进K-means的驾驶行为分析方法。

本发明为解决上述技术问题采取的技术方案是：一种基于改进K-means的驾驶行为分析方法，该方法包括以下步骤：

步骤一、采集m名驾驶员驾驶行为的原始数据，对采集的原始数据进行预处理，获得预处理后数据；

步骤二、从预处理后数据中提取出若干个特征参数值，再对提取出的特征参数值进行标准化处理，获得标准化处理后的特征参数值；

步骤三、根据标准化处理后的特征参数值提取超速倾向行为因子P1和变速驾驶行为因子P2，并计算各特征参数值在因子P1上的得分系数以及各特征参数值在因子P2上的得分系数；

根据各特征参数值在因子P1上的得分系数以及在因子P2上的得分系数，计算出每名驾驶员在因子P1上的得分以及每名驾驶员在因子P2上的得分，对于驾驶员i，驾驶员i在因子P1上的得分表示为P_1i，驾驶员i在因子P2上的得分表示为P_2i；

步骤四、将驾驶员i的驾驶行为数据表示为X_i，X_i＝{P_1i,P_2i}，则m名驾驶员的驾驶行为数据组成驾驶行为数据集D，D＝{X₁,X₂,···,X_m}；

将每名驾驶员的驾驶行为数据作为数据集D的一个样本点，即驾驶员i的驾驶行为数据为数据集D中的第i个样本点；

步骤五、分别计算出数据集D中每个样本点的密度；

步骤六、选取密度最大的样本点作为第一个聚类中心c₁，将数据集D中与c₁距离小于meanDis(D)的样本点，以及c₁从数据集D中删除，获得新数据集D′，meanDis(D)代表数据集D中所有样本点的平均差异度；

数据集D中与c₁距离小于meanDis(D)的样本点，以及c₁组成第一个子集；

步骤七、分别计算出数据集D′中每个样本点的密度ρ(i′)、每个样本点的类中样本之间的平均差异度a(i′)以及每个样本点的簇间差异度b(i′)；i′＝1,2,…,n，n代表数据集D′中样本点的个数；

步骤八、将ρ(i′)、1/a(i′)和b(i′)的乘积定义为w，选取最大的w对应的样本点作为第二个聚类中心c₂，将数据集D′中与c₂距离小于meanDis(D′)的样本点，以及c₂从数据集D′中删除，获得新数据集D″，meanDis(D′)代表数据集D′中所有样本点的平均差异度；

数据集D′中与c₂距离小于meanDis(D′)的样本点，以及c₂组成第二个子集；

步骤九、分别计算出数据集D″中每个样本点与c₁的距离以及每个样本点与c₂的距离，选取出max(w′(i″,c₁)*w′(i″,c₂))的样本点i″，作为第三个聚类中心c₃；将数据集D″中与c₃距离小于meanDis(D″)的样本点，以及c₃从数据集D″中删除，获得新数据集D″′，meanDis(D″)代表数据集D″中所有样本点的平均差异度；

其中：w′(i″,c₁)代表数据集D″中的第i″样本点与c₁的距离，w′(i″,c₂)代表数据集D″中的第i″样本点与c₂的距离，*代表做乘积；

数据集D″中与c₃距离小于meanDis(D″)的样本点，以及c₃组成第三个子集；

步骤十、重复步骤九的过程，直至获得的新数据集为空集，将数据集D分为若干个子集；

分别计算每个子集中包含的全部样本点的均值，将获得的均值作为初始中心；

步骤十一、对于数据集D中除了初始中心外的其他各个样本点，分别计算其他各个样本点与各个初始中心的距离，将其他各个样本点分别添加到与其距离最小的初始中心所处的类中，即重新将数据集D分成若干个子集，每一个子集为一个聚类；

步骤十二、分别计算每一个聚类中包含的全部样本点的平均距离，将计算出的平均距离作为对应聚类的新聚类中心；

步骤十三、将新聚类中心与初始中心进行比较，若新聚类中心与初始中心相比没有变化，则输出最终的聚类结果；

否则，新聚类中心与初始中心相比有变化，则将新聚类中心作为步骤十一中的初始中心，重复执行步骤十一和步骤十二的过程，直至步骤十二获得的新聚类中心与步骤十一的初始中心相比没有变化时停止迭代，输出最终的聚类结果；

步骤十四、根据输出的聚类结果进行驾驶行为的分析。

本发明的有益效果是：本发明提出了一种基于改进K-means的驾驶行为分析方法，本发明为选取最佳的初始中心，提出了DC算法，该算法通过计算数据集中样本密度、类中样本之间平均差异度的倒数以及簇之间差异度三者的乘积作为其中心指标，初始中心由中心指标确定。然后将通过DC算法获取到的初始中心作为默认参数输入K-means算法中，用以提高K-means算法对驾驶行为聚类结果的准确率和稳定性，改进的K-means算法对驾驶行为的聚类结果更加科学。实验结果表明，在对驾驶行为聚类分析的研究上，本发明改进算法的准确率更高、抗干扰能力更强，准确率达到90％。

分析驾驶员驾驶操作习惯、规律，建立车联网数据、驾驶司机、交通安全三者的关联，能准确评价驾驶员驾驶行为，进而为交通运输业重点监控哪些驾驶员提供参考依据。通过实验分析表明，本发明提出的基于DC的K-means算法在驾驶员行为分析研究中具有较高的实际应用价值。

附图说明

图1是本发明方法的流程图；

图2是各主成分与特征值的对应关系图；

图3是利用中心指标法获得最佳聚类中心的示意图；

图4是改进的K-means算法的流程图；

图5是数据集空间分布图；

图6是采用改进K-means算法进行聚类的效果图；

图7是SPSS主页面的截图。

具体实施方式

具体实施方式一：如图1和图4所示，本实施方式所述的一种基于改进K-means的驾驶行为分析方法，该方法包括以下步骤：

步骤五、分别计算出数据集D中每个样本点的密度；

分别计算每个子集中包含的全部样本点的均值，将获得的均值作为K-means算法的初始中心；

在每步的迭代过程中，分别计算出新数据集中的每个样本点与之前确定的全部聚类中心的距离，再选择出新的聚类中心；

本发明最终将数据集D分为几个子集。分别计算出每个子集中全部样本的均值，将其作为聚类中心，从而确定最佳类别中最合适的聚类中心。此外，本发明方法对嘈杂的数据不敏感。可能的离群值可以通过ρ(i)和b(i)找到并消除。对于离群值，它具有离散，低密度和偏离正常样本的特征。因此，当ρ(i)小而b(i)大时，样本点被认为是异常点。去除异常噪声点，避免异常点成为初始中心既可以保证聚类的准确性，又可以提高聚类的稳定性。获得最佳聚类中心的中心指标法如图3所示。

为对初始中心进行优化，本发明将提出的获取初始聚类中心的方法用于K-means算法的初始化，形成改进的K-means算法，将此算法命名为基于DC的K-means算法。初始聚类中心由DC算法中的中心指标法确定，该指标考虑了所有样本点的分布特点，得到的初始中心更加合理。本发明改进的算法取得的聚类结果更准确，算法迭代次数较少，抗干扰能力更强，实现了聚类的全面优化。

步骤十二、分别计算每一个聚类中包含的全部样本点的平均距离(平均距离是指：在一个聚类中，依次计算出类中每个样本点与其余样本点的距离之和后，再对求得的距离之和进行求和，将求和结果除以该聚类中样本点的总个数，得到该聚类中包含的全部样本点的平均距离，同理，计算出每一个聚类中包含的全部样本点的平均距离)，将计算出的平均距离作为对应聚类的新聚类中心；

步骤十四、根据输出的聚类结果进行驾驶行为的分析。

本实施方式通过CAN总线收集驾驶行为的原始数据，公交车在道路行驶过程中，CAN总线技术可以实时记录驾驶人员、公交车以及周边环境等的信息，信息采集频率是一秒一次。这些信息通过周边公共网络节点传输到云服务器端并存储在指定的数据库中。数据库中的数据集被存放到本地Excel表中，为后序分析驾驶员驾驶行为提供丰富、真实的数据。

本发明重点在于从安全角度出发分析驾驶员驾驶行为，进而达到预防交通事故，为交通安全作出贡献的目的。因此，本发明只列举与安全有关的驾驶行为数据，如表1所示。从表1中除了能获取速度、加速度的信息外，还能进一步得到驾驶里程(km)、车辆未停稳开车门(次)、变道(次)等驾驶行为信息，将后三者统称为其他驾驶行为信息(Other DrivingBehavior Information，ODBI)。

表1部分CAN总线数据项

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中，对采集的原始数据进行预处理，预处理方式包括：填补缺失值、过滤异常数据以及删除停车数据。

车辆在行驶过程中，车载传感器可能受到其他设备干扰，收集的行驶数据存在异常值，因此在分析前需要对收集的数据进行提前处理，即数据预处理。

(1)缺失值的填补

数据在采集、传输、存储的过程中可能会受到各种因素的干扰，造成数据的丢失和不完整，导致Redis和MySQL数据库存在数据丢失的情况。常使用忽略或填补的方式对缺失值进行处理。当数据集中连续出现多个缺失值时，采用忽略缺失值的方法，也就是从数据表中将这些缺失项删除，这会造成有价值数据的丢失。当数据不是连续出现缺失多个数据时，通常采用线性填补的方法。

时间序列(或称动态数列)是指将需要观察的变量的值在时间上按照先后发生的顺序罗列而得到的数列。原始驾驶员驾驶行为信息既符合时间序列特点，也符合局部缺失的特点，因此最好的修补方法是线性插值法。

(2)异常值的检测

从数据库导出的数据中，某些属性的值与整体数据值差异性过大，这些数据被称为异常值。从CAN总线提取的数据包含异常值是一个常见问题，异常值在研究中影响数据收集和数据准备。如果异常值被加入数据计算中，会对计算结果产生较大的消极影响。所以，对异常值进行统计并做出合理可靠的决策是保证研究可靠性的前提。

CAN总线收集到的驾驶员驾驶行为数据集中，异常值的存在形式有以下两种：某个指标值超出数据正常范围；虽然单个指标值在规定的数据范围之内，但是多个指标间的关系和结构与整个数据集中的指标间的关系和结构呈现不同的趋势，对异常值有4种处理方法：分箱、回归、计算机检查和人工检查结合、聚类。

本发明采用第三种方式处理异常值。公交车行驶过程中由于各种客观原因会出现停车的现象，从上一次停车至下一次停车的整个过程中，公交车会经历加速、匀速以及减速等行驶状态，而且这些状态的改变是缓慢的。比如：速度一秒内从28km/h骤变为0km/h，一秒后又立即恢复28km/h，这并不符合正常驾驶行为特征，可见这些是异常值。人工查看是否发生跳变，并作出相应处理。

(3)停车数据的删除

观察CAN总线采集的车辆行驶信息集，不难发现里面存有大量的停车数据，这是因为公交车到站停车、驾驶员中间休息、路遇红绿灯或者突发情况，驾驶员必须停车。本发明是利用车辆行驶过程中的速度和加速度去分析驾驶行为，如果计算指标值时将停车数据包含进来会造成数据不准确性，所以需要将停车数据删除。因为需要根据公交车的行驶速度计算车辆的加速度，所以需要保留车辆在停车那一刻的0值。

具体实施方式三：本实施方式与具体实施方式一不同的是：所述步骤二中，从预处理后数据中提取出若干个特征参数值，所述特征参数值包括车速平均值v_a、速度标准差v_s、超速时间比η、日平均超速次数、加速度标准差a_s、日平均急加速次数和日平均急刹车次数。

(1)车速平均值v_a

车速平均值越高，发生交通事故的概率就越大。

式中：v_m为第m次采集的车速值；n为采集的车速样本总量；v_a为公交车的车速平均值。

(2)速度标准差v_s

车速标准差越大，车速分布离散性就越大，发生交通事故的概率越高。

式中v_m为第m次采集的车速值；n为采集的车速样本量；v_a为车速平均值；v_s为车速标准差。

(3)超速时间比η

公交车质量大，行驶路线固定，车速因素对交通安全有较大影响。设定车速超过50km/h时，车辆有超速倾向。

式中T为车辆行驶的时间总和；T_l50为车辆速度超过50km/h的时间总和，η为车辆速度超过50km/h的时间总和与总时间的比值。

(4)日平均超速次数(overspeed Times)

本发明将求出每位驾驶员一个月内平均每天的超速次数。

(5)加速度标准差a_s

加速度不仅可以反映出驾驶员对制动踏板、加速踏板等重要操纵件的控制，同时也反映出驾驶操作激烈程度。

式中a_m为第m次采集数据所对应的车辆加速度；a_a为车辆的加速度平均值；a_s为车辆的加速度标准差。

(6)日平均急加速次数(suddenly Speed Up Times)

本发明将求出每位驾驶员一个月内平均每天的急加速次数，急加速是指：若后1秒速度与前1秒速度的差值大于等于30km/h，则认为发生一次急加速。

(7)日平均急刹车次数(suddenly Braking Times)

本发明将求出每位驾驶员一个月内平均每天的急刹车次数，急刹车是指：若前1秒速度与后1秒速度的差值大于等于30km/h，则认为发生一次急刹车。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述步骤二中，对提取出的特征参数值进行标准化处理，其具体过程为：

分别对车速平均值v_a、速度标准差v_s、超速时间比η、日平均超速次数、加速度标准差a_s、日平均急加速次数和日平均急刹车次数进行标准化处理；

标准化处理的方式为：

式中，μ代表样本数据的均值，σ代表样本数据的标准差，x代表样本数据值，x^*代表标准化值。

根据选取的驾驶行为参数，得到驾驶员在各个参数的值，组成参数矩阵。由于特征参数的属性不同，量化单位不同，数值差别很大，如果直接对选取的7个特征参数做分析研究，则必然出现“以大吃小”的现象。在实际应用中，大值数据不一定比小值数据重要，因而影响聚类结果的准确性。因此为了消除驾驶行为数据中因量纲不同造成的权重不平衡问题，以及使结果更加客观，我们在进行因子分析之前对参数矩阵进行数据标准化处理。

在数据标准化处理中，最典型的是0-1标准化和Z-score标准化。由于0-1标准化当添加新值时，可能造成最值的变化，这时需要重新计算，因此本发明选择Z-score方法对特征参数矩阵进行标准化处理，将其转化成无量纲的纯数值。

本实施方式分别对车速平均值v_a、速度标准差v_s、超速时间比η、日平均超速次数、加速度标准差a_s、日平均急加速次数和日平均急刹车次数进行标准化处理；在对车速平均值v_a进行标准化处理时，μ代表各驾驶员车速平均值v_a的均值，σ代表各驾驶员车速平均值v_a的标准差，x代表车速平均值v_a，x^*代表标准化值，即标准化后的车速平均值v_a，将每个驾驶员的车速平均值分别代入公式，即可得到每个驾驶员对应的标准化后车速平均值。

同理，进行其他特征参数的标准化处理。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述步骤三中，根据标准化处理后的特征参数值提取超速倾向行为因子P1和变速驾驶行为因子P2，提取因子P1和P2所采用的是主成分分析方法。

通过数据降维的方式，将多维数据转化为少数维度的数据，以提取数据的主要因子，这些因子蕴含了所有原始数据的信息，能客观、全面地反映所有数据的特征。

本发明使用主成分分析提取驾驶行为因子，采用最大方差进行因子正交旋转。使用主成分分析提取驾驶行为因子的目的是以少数的变量来尽可能全面地表示原变量的信息，所以各成分的方差贡献率累加和越高越好。各成分的特征值按照从大到小的顺序排列，抽取的主因子必须满足其特征值大于1的条件。因子旋转的目的是便于对公共因子进行解释和命名。因子分析后的结果如表2所示。并描绘主成分数目与相应特征值之间的关系，如图2所示。

表2特征值及方差贡献率

特征值用来表示主成分影响权重的大小，其值若小于1，说明主成分解释力度较弱。通过表2可以看出，成分P1、成分P2的特征值分别是3.082和2.048，两者值都大于1，所以提取前两个成分作为主因子。同时我们发现P1和P2两个成分的累计贡献率为83.284以上，即前两个主因子提供了原数据83.284％的信息量，可以基本反映所有特征参数的信息。根据旋转后的结果，成分P1和成分P2的方差解释率分别为41.400和41.884，可知其对驾驶行为特性影响显著，贡献较大。

如图2所示，前2个成分位置折线陡峭，到了成分3的位置折线开始变得缓和，所以提取的主成分个数在3个左右，又因为成分3的特征值为0.874小于1，因此我们只提取前2个主成分。

为了对公共因子进行解释和命名，本发明绘制出旋转后的因子载荷系数表格，如表3所示。因子载荷较大的值用加粗字体标志，变量和P1、P2中某一因子的载荷越大，该变量与对应的因子关系就越“亲密”。

表3因子载荷系数表

接下来可以对2个主因子进行命名。

(1)因子P1与速度有关的特征参数(平均速度、速度标准差、超速时间比、日平均超速次数)的载荷率分别是0.833、0.765、0.889、0.472，载荷值均较大。将P1命名为：超速倾向行为因子。

(2)因子P2与加速度有关的特征参数(加速度标准差、日平均加急速次数、日平均急刹车次数)的载荷率分别为0.802、0.902、0.671，明显大于在其他变量的载荷。将因子P2命名为：变速驾驶行为因子。

因子分析的最后也是最关键的一步是计算因子得分。明确因子变量后，需要计算出研究对象的因子得分，即计算出每名驾驶员在因子上的确切值，因子得分值与原变量的得分值一一对应的，即它们之间存在一种线性组合的关系。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述步骤三中，根据各特征参数值在因子P1上的得分系数以及在因子P2上的得分系数，计算出每名驾驶员在因子P1上的得分以及每名驾驶员在因子P2上的得分，其具体过程为：

P_1i＝α_i1x₁+α_i2x₂+α_i3x₃+α_i4x₄+α_i5x₅+α_i6x₆+α_i7x₇，i＝1,2,…,m

式中，P_1i为驾驶员i在因子P1上的得分，α_i1为驾驶员i的车速平均值v_a在因子P1上的得分系数，α_i2为驾驶员i的速度标准差v_s在因子P1上的得分系数，α_i3为驾驶员i的超速时间比η在因子P1上的得分系数，α_i4为驾驶员i的日平均超速次数在因子P1上的得分系数，α_i5为驾驶员i的加速度标准差a_s在因子P1上的得分系数，α_i6为驾驶员i的日平均急加速次数在因子P1上的得分系数，α_i7为驾驶员i的日平均急刹车次数在因子P1上的得分系数，x₁为驾驶员i的标准化处理后车速平均值，x₂为驾驶员i的标准化处理后速度标准差，x₃为驾驶员i的标准化处理后超速时间比η，x₄为驾驶员i的标准化处理后日平均超速次数，x₅为驾驶员i的标准化处理后加速度标准差，x₆为驾驶员i的标准化处理后日平均急加速次数，x₇为驾驶员i的标准化处理后日平均急刹车次数；

P_2i＝α′_i1x₁+α′_i2x₂+α′_i3x₃+α′_i4x₄+α′_i5x₅+α′_i6x₆+α′_i7x₇，i＝1,2,…,m

式中，P_2i为驾驶员i在因子P2上的得分，α′_i1为驾驶员i的车速平均值v_a在因子P2上的得分系数，α′_i2为驾驶员i的速度标准差v_s在因子P2上的得分系数，α′_i3为驾驶员i的超速时间比η在因子P2上的得分系数，α′_i4为驾驶员i的日平均超速次数在因子P2上的得分系数，α′_i5为驾驶员i的加速度标准差a_s在因子P2上的得分系数，α′_i6为驾驶员i的日平均急加速次数在因子P2上的得分系数，α′_i7为驾驶员i的日平均急刹车次数在因子P2上的得分系数。

SPSS是经典的统计分析软件，它能帮助研究者快速，高效地完成数据分析工作。本发明利用SPSS完成驾驶行为因子分析，SPSS主页面如图7所示。

经过因子分析处理后可以获取到成分得分系数矩阵，即获得各特征参数值在因子P1上的得分系数以及在因子P2上的得分系数，如表4所示。

表4成分得分系数矩阵

根据具体实施方式六的公式以及成分得分系数矩阵，计算到每位驾驶员的两个主因子得分表。有了各名驾驶员的因子得分就可以进行下一步的研究。本发明列举了部分驾驶员的因子得分情况，如表5所示。

表5驾驶员各因子得分表

具体实施方式七：本实施方式与具体实施方式六不同的是：所述步骤五的具体过程为：

其中：d(i)代表第i个样本点的平均差异度，d(X_i,X_j)代表第j个样本点与第i个样本点之间的欧氏距离；

其中：meanDis(D)代表数据集D中所有样本点的平均差异度，

则数据集D中第i个样本点的密度ρ(i)为：

ρ(i)是到样本点i的距离小于meanDis(D)的样本点的总个数。符合ρ(i)规则的样本点组成一个类，a(i)为样本点i的类中样本之间的平均差异度。

具体实施方式八：本实施方式与具体实施方式七不同的是：所述步骤七中，分别计算出数据集D′中每个样本点的类中样本之间的平均差异度a(i′)以及每个样本点的簇间差异度b(i′)，其具体计算过程为：

其中：d(X_i′,X_j′)代表数据集D′中第j′个样本点与第i′个样本点之间的欧氏距离，a(i′)代表样本点i′的类中样本之间的平均差异度；

b(i′)＝min(d(i′))

其中：b(i′)为第i′个样本点的簇间差异度，min(d(i′))代表第i′个样本点与具有最小类中样本之间平均差异度的样本点之间的距离。

实验部分

聚类评价指标

(1)外部指标。外部评估方法是一种有监督的学习，需要根据真实标签数据来确定聚类数据与实际标签数据是否吻合，吻合度有多少。外部评估聚类效果由以下两个参数衡量：完成聚类所需的迭代次数(T)，聚类结果的准确性(A)。

用驾驶行为分类的准确率表示聚类结果有效性，其计算公式如下所示。

式中，C_n为正确分类的样本数，S_m为样本总数。A的取值范围为[0，1]，A取值越靠近1表明样本点被正确分类的概率越大，聚类效果越好，A的值越靠近0则聚类效果越差。

(2)内部指标。内部评估法不需要知道样本标签，它从样本数据本身的特点入手进行分析，依据簇内的紧密性，簇间的离散性进行评定的。常用的内部评估方法是聚类结果平方误差总和(E)，它是每个聚类的样本与其聚类中心之间的平方距离之和。E取值越小，数据点就越接近它们的簇中心，簇内相似度越高，聚类效果越好。而且对误差取平方后，会更加重视远离中心的数据点。计算公式如下所示。

实验环境

实验基于PyCharm集成开发环境，使用Python语言编写程序，充分利用Python中的机器学习库scikit-learn来实现驾驶行为主因子的聚类并将聚类结果可视化。最后通过Matlab分析驾驶行为之间的联系，挖掘其他重要因素。实验所需的软件及硬件环境如表6所示。

表6软件和硬件环境

驾驶行为分析

本发明收集了40名公交车驾驶员的2400万条原始信息数据集，将这些数据集存放到本地Excel表中。然后选取了对驾驶行为有影响的7个特征参数：车速平均值、速度标准差、超速时间比、日平均超速次数、加速度标准差、日平均急加速次数和日平均急刹车次数。在进行因子分析时，从原有变量中提取了P1和P2两个主因子，以它们为变量对驾驶员驾驶行为聚类。

公交车驾驶行为分析中按照P1、P2特征的严重程度以及图5，设置聚类个数为4比较合适。采用本发明提出的基于DC的K-means算法对驾驶行为聚类，聚类效果图如图6所示。观察聚类效果图发现，簇与簇之间距离较大且界限清晰，聚类效果良好。得到的驾驶行为聚类结果如表7所示。

表7驾驶行为特征聚类

由表7可知，驾驶员均具有不同程度的超速、变速行为，但是从严重程度来讲不是很高，其中轻、中度比例最高共达65％，而重度为15％。这是由于公交车驾驶员驾驶场景复杂，当驾驶员驾驶意图以及驾驶环境与安全需要发生冲突时，他们会采取不同程度超速、变速行为来达到自己的目的。但是驾驶员由于受过专业岗前培训和定期职业测评，也能很好避免频繁出现超速、急加速、急减速等变速过激行为。频繁且过激的驾驶行为不仅对交通安全造成隐患，而且导致车辆某些器件遭到过度损耗，损坏车辆，违背经济效益。

在驾驶行为方面，类别I为谨慎驾驶行为，无明显变速、超速行为，该类别驾驶行为发生交通事故风险最小。类别II为一般驾驶行为，与类别I相比，此类驾驶行为，有一定的超速、变速行为。类别III为危险驾驶行为，变速行为较严重，此类驾驶行为风险较高。类别IV为激进驾驶行为，超速、变速严重，发生交通事故的概率很高，这类驾驶员性格较急躁，体现在驾驶操作上的不稳定。交通运输业或者相关管理部门应该重点监控IV类驾驶员，及时对他们进行教育和培训。

驾驶行为其他客观因素研究

数据库里存放海量的驾驶员驾驶行为数据集，除了速度、加速度外，还存在某些对分析驾驶行为有着重要影响的信息，而这些信息往往被研究者或公交管理人员所忽略。根据CAN总线传输的数据，还能进一步得到驾驶员日平均驾驶里程(km)、日平均车辆未停稳开车门(次)和日平均变道(次)等信息，将这些信息统称为其他日平均驾驶行为信息(OtherDaily Average Driving Dehavior Information，OADBI)。为了进一步说明对驾驶行为做分类研究的意义，本发明统计出40名驾驶员的OADBI。

不难发现，日变道次数较高的驾驶员大部分属于类别III、IV，如12，40号驾驶员。日变道次数较少者大部分属于类别I、II，如6，7号驾驶员。由此可知加速度和速度驾驶行为的结果与变道结果具有对应关系：轻程度的变速和超速倾向的驾驶行为对应变道次数少。中程度的变速和超速倾向的驾驶行为对应变道比低程度的高一些。重程度的变速和超速倾向的驾驶行为对应变道次数普遍很高。

基于以上分析，总结出变速行为是影响驾驶行为的重要因素的结论。收集的40名驾驶员驾驶行为信息，超速、变速严重的有14人，变道次数超过平均值的有15人，2者都存在的有9人。通过数据挖掘中关联规则的计算，得到{超速、变速→变道}支持度为9/40，{超速、变速→变道}置信度为9/14，{超速、变速→变道}的提升度为1.71，大于1。当提升度大于1，说明变速行为对超速、变速行为的发生有“提升作用”，也就是说超速、变速行为与变道行为之间有“促进关系”，即容易发生超速、变速的驾驶员也容易变道。

因此，从聚类结果中可以挖掘另外一个重要的客观影响因素——变道行为。驾驶员的驾驶行为习惯在一段时间里具有稳定性特点，长期稳定的性格气质对驾驶员驾驶行为有着重要的作用，频繁变速和超速倾向严重的驾驶员性格比较急躁，所以当遇到与其驾驶意图相悖的情况，会采取快速、粗暴、激进的措施，这就解释了为什么这类驾驶员更容易发生变道行为。

通过对驾驶行为做聚类分析，可以给以驾驶员驾驶行为合理评价以及发现驾驶行为背后的潜在规律。同时，不难发现对驾驶行为进行聚类研究，是一项综合指标的研究，如果仅仅从单一指标分析驾驶员驾驶行为特点是不明智的。因为指标与指标之间不存在明确的界限。例如14号驾驶员，其行驶速度较快，但变速程度较小，即各种操作的次数较少，说明其可能行驶在路况较好的地段。

针对以上对驾驶行为的聚类分析，得到以下结论：

(1)速度和加速度是影响交通安全的关键因素，当驾驶员超速倾向严重、频繁变速时，此类驾驶员具有很高的交通安全隐患，必须对其重点监控和引起交通安全部门的重视。

(2)在以后的驾驶员分类以及驾驶技术考评研究中，变道这一客观因素需要得到足够的重视。

聚类结果对比分析

(1)外部评估

聚类结果的有效性由以下两个参数衡量：完成聚类所需的迭代次数(T)，聚类结果的准确性(A)。下面是三种不同的聚类算法(传统的K均值算法，文献1(Likas A,Vlassis N,Verbeek J J.The global k-means clustering algorithm[J].Pattern recognition,2003,36(2):451-461.)提出的方法、基于DC改进的K-means方法即本发明方法)在驾驶员驾驶行为数据集上完成聚类所需要的迭代次数(T)以及聚类结果准确率的比较(A)。如表8所示。

表8各算法外部评估值

传统的K-means算法，需要更多的时间来完成数据聚类。因为该算法选择初始聚类中心是随机的，想要到达稳定状态，所需的迭代次数并不固定且聚类结果准确率也不稳定，因此本发明取了50次实验结果的平均值作为其评估值。文献1算法和本发明改进的K-means算法完成聚类的迭代次数与传统的K-means算法相差不大，但这两者有良好的稳定性。这是因为文献1的算法和本发明改进的算法提前获取了聚类中心，并把它们设置为K-means算法的初始中心导致的，因此它们比传统的K-means算法更稳定。

就准确率而言，传统K-means算法平均正确率为70.3％，本发明的改进算法可以得到稳定其较高的正确率90％，并高于文献1的87.5％，表明聚类结果更加接近实际标签。综合可见，本发明改进的算法聚类结果更准确，迭代次数较少，实现了驾驶行为聚类结果的优化。

(2)内部评估

聚类算法性能由聚类结果平方误差总和(E)参数衡量。三种算法具体的E指标值如表9所示。

表9各算法内部评估值

由表9可知，基于DC的K-means算法的聚类效果最佳。传统的K均值随机选择初始聚类中心，其最大平方误差和最大。

(3)抗干扰性验证

为了更好地说明本发明算法能够一定程度上克服离群点敏感问题，本发明在驾驶员驾驶行为数据集中加入一个离群点X₄₁＝(-0.63，2.3)，使用文献1中的算法选取X₂，X₁₀，X₂₄，X₄₁为初始聚类中心，利用本发明提出的算法选取X₂，X₈，X₁₀，X₂₈为初始聚类中心。可见本发明选取的初始聚类中心分别在不同的簇中，更加符合实际情况。驾驶员驾驶行为数据集加入离群点后，三种聚类算法性能比较如表10所示。

表10各算法聚类评估值

由表10可知，驾驶员驾驶行为数据集加入离群点后，本发明的改进算法依旧可以获得稳定且相对较高的准确率90％，同时其他指标也相对其他两者算法优化很多。可见本发明改进的算法能够克服离群点敏感问题，抗干扰能力更强。

本发明通过密度思想定义了中心指标法并将其应用到DC算法中，DC算法输出的初始中心作为K-means算法的输入值，提出基于DC的K-means算法。该算法考虑了所有样本的分布特征，使聚类更加客观。同时，它解决了传统Canopy算法难以确定阈值T1和T2的问题。因此，本发明改进的算法的聚类结果更准确，收敛速度更快，抗干扰能力更强，实现了聚类的全面优化。

(1)通过观察驾驶行为数据集经过因子分析后得到的P1和P2综合因子的空间分布图，进而选择用K-means聚类算法进行下一步的工作研究。

(2)针对传统k-means算法初始聚类中心的不确定和非最佳问题，提出一种基于DC改进的K-means算法。首先本发明提出DC算法，此算法通过数据集中样本密度、簇中样本之间平均差异度的倒数以及类之间的差异度三者的乘积定义中心指标，初始中心由中心指标确定。该算法执行完后输出的聚类中心，可作为默认参数输入到K-means算法中，用作K-means算法的初始聚类中心，可以提高K-means算法聚类的准确率和抗噪性。

(3)聚类评价指标是评价聚类结果准确率和衡量聚类算法性能的客观依据。本发明对聚类结果有效性和聚类算法性能通过外部与内部指标进行评测。实验结果表明，本发明提出的基于DC的K-means算法与传统K-means算法、文献1的算法相比，具有更好的聚类效果，并且对离群点数据不敏感。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于改进K-means的驾驶行为分析方法，其特征在于，该方法包括以下步骤：

步骤四、将驾驶员i的驾驶行为数据表示为X_i，X_i＝{P_1i,P_2i}，则m名驾驶员的驾驶行为数据组成驾驶行为数据集D，D＝{X₁,X₂,…,X_m}；

步骤五、分别计算出数据集D中每个样本点的密度；

步骤十四、根据输出的聚类结果进行驾驶行为的分析。

2.根据权利要求1所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤一中，对采集的原始数据进行预处理，预处理方式包括：填补缺失值、过滤异常数据以及删除停车数据。

3.根据权利要求1所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤二中，从预处理后数据中提取出若干个特征参数值，所述特征参数值包括车速平均值v_a、速度标准差v_s、超速时间比η、日平均超速次数、加速度标准差a_s、日平均急加速次数和日平均急刹车次数。

4.根据权利要求3所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤二中，对提取出的特征参数值进行标准化处理，其具体过程为：

标准化处理的方式为：

5.根据权利要求4所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤三中，根据标准化处理后的特征参数值提取超速倾向行为因子P1和变速驾驶行为因子P2，提取因子P1和P2所采用的是主成分分析方法。

6.根据权利要求5所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤三中，根据各特征参数值在因子P1上的得分系数以及在因子P2上的得分系数，计算出每名驾驶员在因子P1上的得分以及每名驾驶员在因子P2上的得分，其具体过程为：

7.根据权利要求6所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤五的具体过程为：

其中：meanDis(D)代表数据集D中所有样本点的平均差异度，

则数据集D中第i个样本点的密度ρ(i)为：

8.根据权利要求7所述的一种基于改进K-means的驾驶行为分析方法，其特征在于，所述步骤七中，分别计算出数据集D′中每个样本点的类中样本之间的平均差异度a(i′)以及每个样本点的簇间差异度b(i′)，其具体计算过程为：

b(i′)＝min(d(i′))