CN111783826B

CN111783826B - 一种基于预分类与集成学习的驾驶风格分类方法

Info

Publication number: CN111783826B
Application number: CN202010459852.2A
Authority: CN
Inventors: 郭奕; 王晓兰; 黄永茂; 卿朝进; 代晓天; 刘洋成; 熊雪军; 肖舒予
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2022-07-01
Anticipated expiration: 2040-05-27
Also published as: CN111783826A

Abstract

本发明公开了一种基于预分类与集成学习的驾驶风格分类方法，包括以下步骤：采集若干样本车辆的实际驾驶数据，对实际驾驶数据进行预处理，并通过预处理后的实际驾驶数据提取特征参数，得到样本数据；采用模糊C均值方法和谱聚类方法对样本数据进行预分类，根据预分类结果获取训练样本；通过训练样本对分类器进行训练，获取训练完成的分类器；将待分类样本数据输入分类器进行分类，采用投票的集成策略获取最终的分类结果。本发明提供了一种基于预分类和集成学习思想的驾驶风格分类方法，有效地通过驾驶员的驾驶数据对驾驶员的驾驶风格进行预测和分类。

Description

一种基于预分类与集成学习的驾驶风格分类方法

技术领域

本发明属于数据分类处理技术领域，具体涉及一种基于预分类与集成学习的驾驶风格分类方法。

背景技术

近年来，随着我国经济的快速发展，人民生活水平的不断提高，我国的汽车保有量也不断上涨。在车辆数量过饱和的环境下，驾驶员的不良驾驶行为是导致交通事故和城市拥堵的重要因素。随着车联网技术的普及，从大量的驾驶行为数据中挖掘出有用信息，对提高道路运输过程安全管理水平和运输效率有着重要的意义。因此如何通过已有数据，建立合理有效的车辆综合评价模型逐渐成为车联网数据的研究趋势。

目前对于驾驶员的驾驶风格分类研究的技术方案和技术缺陷如下：

(1)设计危险驾驶的打分模型，通过问卷调查的形式对驾驶员的驾驶习惯进行统计和调查。这种方法主观性较强，且问卷调查的形式收集数据有限，判断准确度较差。

(2)不少研究者采用聚类的方法对驾驶行为数据进行聚类分析，以此将驾驶行为分为不同类别，主要的研究方法包括K-means、DBSCAN、凝聚层次、模糊C均值等。聚类方法可以有效的将已有数据进行划分，但是对于新加入的数据需要重新进行聚类分析，不具备良好的泛化性。同时聚类算法繁多，聚类表现也参差不齐，单一聚类的方法无法区分典型样本，造成分类不准确。

(3)在此基础上，许多研究者引入分类模型，将聚类分析的结果作为训练分类模型的数据样本，有效的解决了对新产生数据的分类问题。主要的分类预测模型有神经网络、决策树、随机森林、支持向量机、贝叶斯分类器、AdaBoost以及D-S证据理论等。其中贝叶斯和神经网络属于传统的统计学习分类模型，需要大量的训练样本，样本数越大，训练结果才越趋近于真实的结果，在实际应用中难以满足。决策树、SVM等虽然适用于小样本分类，但是单一分类器在分类过程中结果不稳定，容易出现过拟合情况，同时还存在分类准确率不高的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于预分类与集成学习的驾驶风格分类方法解决了现有驾驶风格分类方法不准确以及泛化能力差的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于预分类与集成学习的驾驶风格分类方法，包括以下步骤：

S1、采集若干样本车辆的实际驾驶数据，对实际驾驶数据进行预处理，并通过预处理后的实际驾驶数据提取特征参数，得到样本数据；

S2、采用模糊C均值方法和谱聚类方法对样本数据进行预分类，根据预分类结果获取训练样本；

S3、通过训练样本对分类器进行训练，获取训练完成的分类器；

S4、将待分类样本数据输入分类器进行分类，采用投票的集成策略获取最终的分类结果。

进一步地，所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。

进一步地，所述步骤S1中特征参数为车辆不良驾驶行为率，其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例；所述S1中样本数据为X＝{x₁,x₂,...,x_i,...,x_n}，i＝1,2,...,n；x_i表示第i个车辆样本，其包括车辆样本的特征参数；n表示样本车辆总数；

所述车辆不良驾驶行为率的计算公式为：

所述超速时间比例的计算公式为：

其中，Rate表示车辆不良驾驶行为率，C表示不良行为次数，M表示车辆行驶总里程，OS表示超速时间比例，T_over表示超速时间，T_total表示车辆行驶总时间。

进一步地，所述步骤S2中采用模糊C均值方法进行预分类的具体步骤为：

A1、设置最大迭代次数T、收敛精度e和计数器t＝1；

A2、据样本数据，获取聚类损失函数J_FCM为：

其中，j＝1,2,...,k，k表示聚类中心数目，u_j(x_i)表示样本x_i属于第j类聚类中心的隶属度值，u_j(x_i)∈U，u_j(x_i)∈{0,1}，

U表示隶属度矩阵，b表示模糊因子，||x_i-m_j||²表示样本x_i到聚类中心m_j的欧式空间距离，m_j∈M，M表示聚类中心集合；

A3、构建求解函数L(U,M,λ)为：

其中，λ表示拉格朗日乘子；

A4、对求解函数L(U,M,λ)求取隶属度u_j(x_i)和聚类中心m_j的偏导数为：

其中，

表示隶属度u_j(x_i)相对于求解函数L(U,M,λ)的一阶偏导数，

表示聚类中心m_j相对于求解函数L(U,M,λ)的一阶偏导数；

A5、利用拉格朗日乘子法分别对隶属度u_j(x_i)和聚类中心m_j的偏导数进行求解，得到第t次的中间隶属度矩阵U^mid和中间聚类中心集合M^mid；

A6、根据中间隶属度矩阵U^mid和聚类中间中心集合M^mid，对隶属度u_j(x_i)和聚类中心m_j进行更新，更新公式具体为：

其中，

表示第t次更新的聚类中心集合M^t中的第j个聚类中心，u_j(x_i)^t表示第t次更新的隶属度矩阵U^t中的样本x_i属于第j类聚类中心的隶属度值，u_j(x_i)^mid表示中间隶属度矩阵U^mid中的隶属度值，x_i表示第i个样本，m_j ^mid和m_s ^mid均表示聚类中间中心集合M^mid中的中心聚类值，s＝1,2,...,k，k表示聚类中间中心集合M^mid中的聚类中心总数；

A7、以聚类损失函数J_FCM最小为目标，采用步骤A5-A6的方法对隶属度u_j(x_i)和聚类中心m_j进行更新，直至max||U^t-U^t-1||<e或更新次数大于T，将第t次更新的隶属度矩阵U^t作为样本数据的分类结果。

进一步地，所述步骤S2中采用谱聚类方法对样本数据进行预分类的具体方法为：

B1、根据样本数据X＝{x₁,x₂,...,x_i,...,x_n}，使用指定相似矩阵生成方法构建样本相似矩阵S，并通过样本相似矩阵S获取邻接矩阵W；

B2、根据邻接矩阵W构建度矩阵D为：

其中，d_i表示x_i的度，

n表示样本车辆总数，w_il表示样本x_i与样本x_l之间的边权重；

B3、根据度矩阵D和样本相似矩阵S获取拉普拉斯矩阵L为：

其中，I表示单位矩阵；

B4、计算拉普拉斯矩阵L的特征值，且从小到大取前k个特征值组成特征向量V＝(v₁,v₂,...,v_k)；

B5、对特征向量V进行K-means聚类，得到分类结果为A₁,A₂,...,A_k。

进一步地，所述步骤S2中根据预分类结果获取训练样本的具体方法为：将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本，得到训练样本集，所述训练样本的样本标签为聚类结果对应的类别。

进一步地，所述步骤S3中分类器包括CART决策树、支持向量机SVM和K最邻近分类器；

所述CART决策树的训练方法具体为：

C1、设定决策树的训练样本集D_s，并获取训练样本集D_s中每个样本的特征属性值；

C2、根据特征属性A的第s个属性值a，将训练样本集D分为左节点D₁和右节点D₂两部分，并计算特征属性A的第s个属性值a对于训练样本集D_s的基尼系数Gini(D_s,A)为：

所述左节点D₁和右节点D₂基尼系数的计算公式为：

其中，Gini(D_z)表示样本集D_z对应的基尼系数，D_z为D₁或D₂，|C_j|表示第j个类别的数量，j＝1,2,...,k，k表示聚类中心数目，|D₁|表示左节点D₁的样本数，|D₂|表示右节点D₂的样本数，|D_s|表示训练样本集D_s的样本数；

C3、使用步骤C2所述方法计算特征属性A的所有属性值的基尼系数，选取其中最小值作为属性A的最优二分方案；

C4、使用步骤C2-C3的方法，计算所有特征属性的最优二分方案，选取其中最小值作为训练样本集D_s的最优二分方案，得到训练样本集D_s的基尼系数；

C5、分别对左右节点递归调用步骤C2-C4，直至子节点数大于阈值Q、训练样本集的基尼系数小于阈值W或左右子节点中样本数小于阈值E，得到CART决策树。

进一步地，所述支持向量机SVM的训练方法为：

D1、根据样本数据X构建数据集U＝{(x_i,y_i)}，i＝1,2,...,n，y_i∈(1,-1)，构建分离超平面方程为：

ω^Tx_i+B＝0

其中，ω＝(w₁,w₂,...,w_d)，ω表示平面法向量，w₁,w₂,...,w_d均表示平面法向量ω的元素，T表示转置，B表示位移项；

D2、构建SVM优化函数，使两个异类支持向量到超平面的距离之和最大；

所述SVM优化参数为：

所述支持向量符合的条件为：

所述两个异类支持向量到超平面的距离之和γ为：

其中，ξ_i≥0，Z表示惩罚因子，ξ_i表示第i个样本训练点的松弛变量；

D3、对优化函数求解，获取训练完成的分离超平面。

进一步地，所述K最邻近分类器的分类方法为：

E1、通过训练样本集与其对应的分类标签构建数据集；

E2、输入待分类的样本数据，并计算待分类的样本数据与样本数据集中每条数据的欧氏距离；

E3、将欧氏距离从小到大排列，取前G个样本数据，并在数据集中获取前G个样本数据的分类标签；

E4、将前G个样本数据的分类标签中出现次数最多的分类标签作为待分类样本数据的分类结果。

进一步地，所述步骤S4中采用投票的集成策略获取最终的分类结果具体方法为：根据CART决策树、支持向量机SVM和K最邻近分类器的分类结果，选取出现次数最多的分类结果作为待分类样本数据的最终分类结果。

本发明的有益效果为：

(1)本发明提供了一种基于预分类和集成学习思想的驾驶风格分类方法，有效地通过驾驶员的驾驶数据对驾驶员的驾驶风格进行预测和分类。

(2)本发明把聚类问题转化为分类问题，使用多种聚类方法将驾驶数据分为典型风格的标签数据和模糊数据的待分类数据。

(3)本发明基于预分类和分类的驾驶模型框架解决了基于聚类算法的驾驶风格分类模型无法对新产生数据直接分类的缺点，提升了驾驶风格分类方法的泛化能力。

(4)本发明基于集成学习的预分类解决了单一聚类方法对驾驶数据的标记不具备典型性的问题。

(5)本发明在分类阶段采用多模型融合的集成学习方法，可以有效的提升驾驶风格分类的准确性和稳定性。利用驾驶员驾驶的轨迹数据，数据类型易获取，简单方便，解决了传统基于聚类的驾驶风格预测模型泛化能力不足的问题。

(6)本发明能够很好地处理传统方法中预分类结果无区分性、训练数据不典型等问题，引入集成学习思想，解决了传统模型分类结果不稳定，精确度不够等问题。

附图说明

图1为本发明提出的一种基于预分类与集成学习的驾驶风格分类方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于预分类与集成学习的驾驶风格分类方法，包括以下步骤：

在本实施例中，驾驶风格分类结果包括保守型、普通型和激进型。

所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。

所述步骤S1中特征参数为车辆不良驾驶行为率，其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例；所述S1中样本数据为X＝{x₁,x₂,...,x_i,...,x_n}，i＝1,2,...,n；x_i表示第i个车辆样本，其包括车辆样本的特征参数；n表示样本车辆总数；

所述车辆不良驾驶行为率的计算公式为：

所述超速时间比例的计算公式为：

所述步骤S2中采用模糊C均值方法进行预分类的具体步骤为：

A1、设置最大迭代次数T、收敛精度e和计数器t＝1；

A2、据样本数据，获取聚类损失函数J_FCM为：

A3、构建求解函数L(U,M,λ)为：

其中，λ表示拉格朗日乘子；

其中，

表示隶属度u_j(x_i)相对于求解函数L(U,M,λ)的一阶偏导数，

表示聚类中心m_j相对于求解函数L(U,M,λ)的一阶偏导数；

其中，

所述步骤S2中采用谱聚类方法对样本数据进行预分类的具体方法为：

B2、根据邻接矩阵W构建度矩阵D为：

其中，d_i表示x_i的度，

B3、根据度矩阵D和样本相似矩阵S获取拉普拉斯矩阵L为：

其中，I表示单位矩阵；

所述步骤S2中根据预分类结果获取训练样本的具体方法为：将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本，得到训练样本集，所述训练样本的样本标签为聚类结果对应的类别。

所述步骤S3中分类器包括CART决策树、支持向量机SVM和K最邻近分类器；

所述CART决策树的训练方法具体为：

所述左节点D₁和右节点D₂基尼系数的计算公式为：

所述支持向量机SVM的训练方法为：

ω^Tx_i+B＝0

所述SVM优化参数为：

所述支持向量符合的条件为：

所述两个异类支持向量到超平面的距离之和γ为：

其中，ξ_i≥0，Z表示惩罚因子，ξ_i表示第i个样本训练点的松弛变量。

在本实施例中，两个异类支持向量到超平面的距离之和

将支持向量符合的条件代入其中，得到

D3、对优化函数求解，获取训练完成的分离超平面。

所述K最邻近分类器的分类方法为：

E1、通过训练样本集与其对应的分类标签构建数据集；

所述步骤S4中采用投票的集成策略获取最终的分类结果具体方法为：根据CART决策树、支持向量机SVM和K最邻近分类器的分类结果，选取出现次数最多的分类结果作为待分类样本数据的最终分类结果。

本发明的有益效果为：

Claims

1.一种基于预分类与集成学习的驾驶风格分类方法，其特征在于，包括以下步骤：

S4、将待分类样本数据输入分类器进行分类，采用投票的集成策略获取最终的分类结果；

所述步骤S2中根据预分类结果获取训练样本的具体方法为：将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本，得到训练样本集，所述训练样本的样本标签为聚类结果对应的类别；

所述CART决策树的训练方法具体为：

所述左节点D₁和右节点D₂基尼系数的计算公式为：

C5、分别对左右节点递归调用步骤C2-C4，直至子节点数大于阈值Q、训练样本集的基尼系数小于阈值W或左右子节点中样本数小于阈值E，得到CART决策树；

所述支持向量机SVM的训练方法为：

ω^Tx_i+B＝0

所述SVM优化参数为：

所述支持向量符合的条件为：

所述两个异类支持向量到超平面的距离之和γ为：

D3、对优化函数求解，获取训练完成的分离超平面；

所述K最邻近分类器的分类方法为：

E1、通过训练样本集与其对应的分类标签构建数据集；

E4、将前G个样本数据的分类标签中出现次数最多的分类标签作为待分类样本数据的分类结果；

2.根据权利要求1所述的基于预分类与集成学习的驾驶风格分类方法，其特征在于，所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。

3.根据权利要求1所述的基于预分类与集成学习的驾驶风格分类方法，其特征在于，所述步骤S1中特征参数为车辆不良驾驶行为率，其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例；所述S1中样本数据为X＝{x₁,x₂,...,x_i,...,x_n}，i＝1,2,...,n；x_i表示第i个车辆样本，其包括车辆样本的特征参数；n表示样本车辆总数；

所述车辆不良驾驶行为率的计算公式为：