CN111783826B - 一种基于预分类与集成学习的驾驶风格分类方法 - Google Patents

一种基于预分类与集成学习的驾驶风格分类方法 Download PDF

Info

Publication number
CN111783826B
CN111783826B CN202010459852.2A CN202010459852A CN111783826B CN 111783826 B CN111783826 B CN 111783826B CN 202010459852 A CN202010459852 A CN 202010459852A CN 111783826 B CN111783826 B CN 111783826B
Authority
CN
China
Prior art keywords
sample
classification
data
training
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010459852.2A
Other languages
English (en)
Other versions
CN111783826A (zh
Inventor
郭奕
王晓兰
黄永茂
卿朝进
代晓天
刘洋成
熊雪军
肖舒予
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202010459852.2A priority Critical patent/CN111783826B/zh
Publication of CN111783826A publication Critical patent/CN111783826A/zh
Application granted granted Critical
Publication of CN111783826B publication Critical patent/CN111783826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预分类与集成学习的驾驶风格分类方法,包括以下步骤:采集若干样本车辆的实际驾驶数据,对实际驾驶数据进行预处理,并通过预处理后的实际驾驶数据提取特征参数,得到样本数据;采用模糊C均值方法和谱聚类方法对样本数据进行预分类,根据预分类结果获取训练样本;通过训练样本对分类器进行训练,获取训练完成的分类器;将待分类样本数据输入分类器进行分类,采用投票的集成策略获取最终的分类结果。本发明提供了一种基于预分类和集成学习思想的驾驶风格分类方法,有效地通过驾驶员的驾驶数据对驾驶员的驾驶风格进行预测和分类。

Description

一种基于预分类与集成学习的驾驶风格分类方法
技术领域
本发明属于数据分类处理技术领域,具体涉及一种基于预分类与集成学习的驾驶风格分类方法。
背景技术
近年来,随着我国经济的快速发展,人民生活水平的不断提高,我国的汽车保有量也不断上涨。在车辆数量过饱和的环境下,驾驶员的不良驾驶行为是导致交通事故和城市拥堵的重要因素。随着车联网技术的普及,从大量的驾驶行为数据中挖掘出有用信息,对提高道路运输过程安全管理水平和运输效率有着重要的意义。因此如何通过已有数据,建立合理有效的车辆综合评价模型逐渐成为车联网数据的研究趋势。
目前对于驾驶员的驾驶风格分类研究的技术方案和技术缺陷如下:
(1)设计危险驾驶的打分模型,通过问卷调查的形式对驾驶员的驾驶习惯进行统计和调查。这种方法主观性较强,且问卷调查的形式收集数据有限,判断准确度较差。
(2)不少研究者采用聚类的方法对驾驶行为数据进行聚类分析,以此将驾驶行为分为不同类别,主要的研究方法包括K-means、DBSCAN、凝聚层次、模糊C均值等。聚类方法可以有效的将已有数据进行划分,但是对于新加入的数据需要重新进行聚类分析,不具备良好的泛化性。同时聚类算法繁多,聚类表现也参差不齐,单一聚类的方法无法区分典型样本,造成分类不准确。
(3)在此基础上,许多研究者引入分类模型,将聚类分析的结果作为训练分类模型的数据样本,有效的解决了对新产生数据的分类问题。主要的分类预测模型有神经网络、决策树、随机森林、支持向量机、贝叶斯分类器、AdaBoost以及D-S证据理论等。其中贝叶斯和神经网络属于传统的统计学习分类模型,需要大量的训练样本,样本数越大,训练结果才越趋近于真实的结果,在实际应用中难以满足。决策树、SVM等虽然适用于小样本分类,但是单一分类器在分类过程中结果不稳定,容易出现过拟合情况,同时还存在分类准确率不高的问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于预分类与集成学习的驾驶风格分类方法解决了现有驾驶风格分类方法不准确以及泛化能力差的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于预分类与集成学习的驾驶风格分类方法,包括以下步骤:
S1、采集若干样本车辆的实际驾驶数据,对实际驾驶数据进行预处理,并通过预处理后的实际驾驶数据提取特征参数,得到样本数据;
S2、采用模糊C均值方法和谱聚类方法对样本数据进行预分类,根据预分类结果获取训练样本;
S3、通过训练样本对分类器进行训练,获取训练完成的分类器;
S4、将待分类样本数据输入分类器进行分类,采用投票的集成策略获取最终的分类结果。
进一步地,所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。
进一步地,所述步骤S1中特征参数为车辆不良驾驶行为率,其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例;所述S1中样本数据为X={x1,x2,...,xi,...,xn},i=1,2,...,n;xi表示第i个车辆样本,其包括车辆样本的特征参数;n表示样本车辆总数;
所述车辆不良驾驶行为率的计算公式为:
Figure BDA0002510609710000031
所述超速时间比例的计算公式为:
Figure BDA0002510609710000032
其中,Rate表示车辆不良驾驶行为率,C表示不良行为次数,M表示车辆行驶总里程,OS表示超速时间比例,T_over表示超速时间,T_total表示车辆行驶总时间。
进一步地,所述步骤S2中采用模糊C均值方法进行预分类的具体步骤为:
A1、设置最大迭代次数T、收敛精度e和计数器t=1;
A2、据样本数据,获取聚类损失函数JFCM为:
Figure BDA0002510609710000033
其中,j=1,2,...,k,k表示聚类中心数目,uj(xi)表示样本xi属于第j类聚类中心的隶属度值,uj(xi)∈U,uj(xi)∈{0,1},
Figure BDA0002510609710000034
U表示隶属度矩阵,b表示模糊因子,||xi-mj||2表示样本xi到聚类中心mj的欧式空间距离,mj∈M,M表示聚类中心集合;
A3、构建求解函数L(U,M,λ)为:
Figure BDA0002510609710000035
其中,λ表示拉格朗日乘子;
A4、对求解函数L(U,M,λ)求取隶属度uj(xi)和聚类中心mj的偏导数为:
Figure BDA0002510609710000041
其中,
Figure BDA0002510609710000042
表示隶属度uj(xi)相对于求解函数L(U,M,λ)的一阶偏导数,
Figure BDA0002510609710000043
表示聚类中心mj相对于求解函数L(U,M,λ)的一阶偏导数;
A5、利用拉格朗日乘子法分别对隶属度uj(xi)和聚类中心mj的偏导数进行求解,得到第t次的中间隶属度矩阵Umid和中间聚类中心集合Mmid
A6、根据中间隶属度矩阵Umid和聚类中间中心集合Mmid,对隶属度uj(xi)和聚类中心mj进行更新,更新公式具体为:
Figure BDA0002510609710000044
Figure BDA0002510609710000045
其中,
Figure BDA0002510609710000046
表示第t次更新的聚类中心集合Mt中的第j个聚类中心,uj(xi)t表示第t次更新的隶属度矩阵Ut中的样本xi属于第j类聚类中心的隶属度值,uj(xi)mid表示中间隶属度矩阵Umid中的隶属度值,xi表示第i个样本,mj mid和ms mid均表示聚类中间中心集合Mmid中的中心聚类值,s=1,2,...,k,k表示聚类中间中心集合Mmid中的聚类中心总数;
A7、以聚类损失函数JFCM最小为目标,采用步骤A5-A6的方法对隶属度uj(xi)和聚类中心mj进行更新,直至max||Ut-Ut-1||<e或更新次数大于T,将第t次更新的隶属度矩阵Ut作为样本数据的分类结果。
进一步地,所述步骤S2中采用谱聚类方法对样本数据进行预分类的具体方法为:
B1、根据样本数据X={x1,x2,...,xi,...,xn},使用指定相似矩阵生成方法构建样本相似矩阵S,并通过样本相似矩阵S获取邻接矩阵W;
B2、根据邻接矩阵W构建度矩阵D为:
Figure BDA0002510609710000051
其中,di表示xi的度,
Figure BDA0002510609710000052
n表示样本车辆总数,wil表示样本xi与样本xl之间的边权重;
B3、根据度矩阵D和样本相似矩阵S获取拉普拉斯矩阵L为:
Figure BDA0002510609710000053
其中,I表示单位矩阵;
B4、计算拉普拉斯矩阵L的特征值,且从小到大取前k个特征值组成特征向量V=(v1,v2,...,vk);
B5、对特征向量V进行K-means聚类,得到分类结果为A1,A2,...,Ak
进一步地,所述步骤S2中根据预分类结果获取训练样本的具体方法为:将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本,得到训练样本集,所述训练样本的样本标签为聚类结果对应的类别。
进一步地,所述步骤S3中分类器包括CART决策树、支持向量机SVM和K最邻近分类器;
所述CART决策树的训练方法具体为:
C1、设定决策树的训练样本集Ds,并获取训练样本集Ds中每个样本的特征属性值;
C2、根据特征属性A的第s个属性值a,将训练样本集D分为左节点D1和右节点D2两部分,并计算特征属性A的第s个属性值a对于训练样本集Ds的基尼系数Gini(Ds,A)为:
Figure BDA0002510609710000061
所述左节点D1和右节点D2基尼系数的计算公式为:
Figure BDA0002510609710000062
其中,Gini(Dz)表示样本集Dz对应的基尼系数,Dz为D1或D2,|Cj|表示第j个类别的数量,j=1,2,...,k,k表示聚类中心数目,|D1|表示左节点D1的样本数,|D2|表示右节点D2的样本数,|Ds|表示训练样本集Ds的样本数;
C3、使用步骤C2所述方法计算特征属性A的所有属性值的基尼系数,选取其中最小值作为属性A的最优二分方案;
C4、使用步骤C2-C3的方法,计算所有特征属性的最优二分方案,选取其中最小值作为训练样本集Ds的最优二分方案,得到训练样本集Ds的基尼系数;
C5、分别对左右节点递归调用步骤C2-C4,直至子节点数大于阈值Q、训练样本集的基尼系数小于阈值W或左右子节点中样本数小于阈值E,得到CART决策树。
进一步地,所述支持向量机SVM的训练方法为:
D1、根据样本数据X构建数据集U={(xi,yi)},i=1,2,...,n,yi∈(1,-1),构建分离超平面方程为:
ωTxi+B=0
其中,ω=(w1,w2,...,wd),ω表示平面法向量,w1,w2,...,wd均表示平面法向量ω的元素,T表示转置,B表示位移项;
D2、构建SVM优化函数,使两个异类支持向量到超平面的距离之和最大;
所述SVM优化参数为:
Figure BDA0002510609710000071
所述支持向量符合的条件为:
Figure BDA0002510609710000072
所述两个异类支持向量到超平面的距离之和γ为:
Figure BDA0002510609710000073
其中,ξi≥0,Z表示惩罚因子,ξi表示第i个样本训练点的松弛变量;
D3、对优化函数求解,获取训练完成的分离超平面。
进一步地,所述K最邻近分类器的分类方法为:
E1、通过训练样本集与其对应的分类标签构建数据集;
E2、输入待分类的样本数据,并计算待分类的样本数据与样本数据集中每条数据的欧氏距离;
E3、将欧氏距离从小到大排列,取前G个样本数据,并在数据集中获取前G个样本数据的分类标签;
E4、将前G个样本数据的分类标签中出现次数最多的分类标签作为待分类样本数据的分类结果。
进一步地,所述步骤S4中采用投票的集成策略获取最终的分类结果具体方法为:根据CART决策树、支持向量机SVM和K最邻近分类器的分类结果,选取出现次数最多的分类结果作为待分类样本数据的最终分类结果。
本发明的有益效果为:
(1)本发明提供了一种基于预分类和集成学习思想的驾驶风格分类方法,有效地通过驾驶员的驾驶数据对驾驶员的驾驶风格进行预测和分类。
(2)本发明把聚类问题转化为分类问题,使用多种聚类方法将驾驶数据分为典型风格的标签数据和模糊数据的待分类数据。
(3)本发明基于预分类和分类的驾驶模型框架解决了基于聚类算法的驾驶风格分类模型无法对新产生数据直接分类的缺点,提升了驾驶风格分类方法的泛化能力。
(4)本发明基于集成学习的预分类解决了单一聚类方法对驾驶数据的标记不具备典型性的问题。
(5)本发明在分类阶段采用多模型融合的集成学习方法,可以有效的提升驾驶风格分类的准确性和稳定性。利用驾驶员驾驶的轨迹数据,数据类型易获取,简单方便,解决了传统基于聚类的驾驶风格预测模型泛化能力不足的问题。
(6)本发明能够很好地处理传统方法中预分类结果无区分性、训练数据不典型等问题,引入集成学习思想,解决了传统模型分类结果不稳定,精确度不够等问题。
附图说明
图1为本发明提出的一种基于预分类与集成学习的驾驶风格分类方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种基于预分类与集成学习的驾驶风格分类方法,包括以下步骤:
S1、采集若干样本车辆的实际驾驶数据,对实际驾驶数据进行预处理,并通过预处理后的实际驾驶数据提取特征参数,得到样本数据;
S2、采用模糊C均值方法和谱聚类方法对样本数据进行预分类,根据预分类结果获取训练样本;
S3、通过训练样本对分类器进行训练,获取训练完成的分类器;
S4、将待分类样本数据输入分类器进行分类,采用投票的集成策略获取最终的分类结果。
在本实施例中,驾驶风格分类结果包括保守型、普通型和激进型。
所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。
所述步骤S1中特征参数为车辆不良驾驶行为率,其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例;所述S1中样本数据为X={x1,x2,...,xi,...,xn},i=1,2,...,n;xi表示第i个车辆样本,其包括车辆样本的特征参数;n表示样本车辆总数;
所述车辆不良驾驶行为率的计算公式为:
Figure BDA0002510609710000091
所述超速时间比例的计算公式为:
Figure BDA0002510609710000092
其中,Rate表示车辆不良驾驶行为率,C表示不良行为次数,M表示车辆行驶总里程,OS表示超速时间比例,T_over表示超速时间,T_total表示车辆行驶总时间。
所述步骤S2中采用模糊C均值方法进行预分类的具体步骤为:
A1、设置最大迭代次数T、收敛精度e和计数器t=1;
A2、据样本数据,获取聚类损失函数JFCM为:
Figure BDA0002510609710000101
其中,j=1,2,...,k,k表示聚类中心数目,uj(xi)表示样本xi属于第j类聚类中心的隶属度值,uj(xi)∈U,uj(xi)∈{0,1},
Figure BDA0002510609710000102
U表示隶属度矩阵,b表示模糊因子,||xi-mj||2表示样本xi到聚类中心mj的欧式空间距离,mj∈M,M表示聚类中心集合;
A3、构建求解函数L(U,M,λ)为:
Figure BDA0002510609710000103
其中,λ表示拉格朗日乘子;
A4、对求解函数L(U,M,λ)求取隶属度uj(xi)和聚类中心mj的偏导数为:
Figure BDA0002510609710000104
其中,
Figure BDA0002510609710000105
表示隶属度uj(xi)相对于求解函数L(U,M,λ)的一阶偏导数,
Figure BDA0002510609710000106
表示聚类中心mj相对于求解函数L(U,M,λ)的一阶偏导数;
A5、利用拉格朗日乘子法分别对隶属度uj(xi)和聚类中心mj的偏导数进行求解,得到第t次的中间隶属度矩阵Umid和中间聚类中心集合Mmid
A6、根据中间隶属度矩阵Umid和聚类中间中心集合Mmid,对隶属度uj(xi)和聚类中心mj进行更新,更新公式具体为:
Figure BDA0002510609710000111
Figure BDA0002510609710000112
其中,
Figure BDA0002510609710000113
表示第t次更新的聚类中心集合Mt中的第j个聚类中心,uj(xi)t表示第t次更新的隶属度矩阵Ut中的样本xi属于第j类聚类中心的隶属度值,uj(xi)mid表示中间隶属度矩阵Umid中的隶属度值,xi表示第i个样本,mj mid和ms mid均表示聚类中间中心集合Mmid中的中心聚类值,s=1,2,...,k,k表示聚类中间中心集合Mmid中的聚类中心总数;
A7、以聚类损失函数JFCM最小为目标,采用步骤A5-A6的方法对隶属度uj(xi)和聚类中心mj进行更新,直至max||Ut-Ut-1||<e或更新次数大于T,将第t次更新的隶属度矩阵Ut作为样本数据的分类结果。
所述步骤S2中采用谱聚类方法对样本数据进行预分类的具体方法为:
B1、根据样本数据X={x1,x2,...,xi,...,xn},使用指定相似矩阵生成方法构建样本相似矩阵S,并通过样本相似矩阵S获取邻接矩阵W;
B2、根据邻接矩阵W构建度矩阵D为:
Figure BDA0002510609710000114
其中,di表示xi的度,
Figure BDA0002510609710000121
n表示样本车辆总数,wil表示样本xi与样本xl之间的边权重;
B3、根据度矩阵D和样本相似矩阵S获取拉普拉斯矩阵L为:
Figure BDA0002510609710000122
其中,I表示单位矩阵;
B4、计算拉普拉斯矩阵L的特征值,且从小到大取前k个特征值组成特征向量V=(v1,v2,...,vk);
B5、对特征向量V进行K-means聚类,得到分类结果为A1,A2,...,Ak
所述步骤S2中根据预分类结果获取训练样本的具体方法为:将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本,得到训练样本集,所述训练样本的样本标签为聚类结果对应的类别。
所述步骤S3中分类器包括CART决策树、支持向量机SVM和K最邻近分类器;
所述CART决策树的训练方法具体为:
C1、设定决策树的训练样本集Ds,并获取训练样本集Ds中每个样本的特征属性值;
C2、根据特征属性A的第s个属性值a,将训练样本集D分为左节点D1和右节点D2两部分,并计算特征属性A的第s个属性值a对于训练样本集Ds的基尼系数Gini(Ds,A)为:
Figure BDA0002510609710000123
所述左节点D1和右节点D2基尼系数的计算公式为:
Figure BDA0002510609710000131
其中,Gini(Dz)表示样本集Dz对应的基尼系数,Dz为D1或D2,|Cj|表示第j个类别的数量,j=1,2,...,k,k表示聚类中心数目,|D1|表示左节点D1的样本数,|D2|表示右节点D2的样本数,|Ds|表示训练样本集Ds的样本数;
C3、使用步骤C2所述方法计算特征属性A的所有属性值的基尼系数,选取其中最小值作为属性A的最优二分方案;
C4、使用步骤C2-C3的方法,计算所有特征属性的最优二分方案,选取其中最小值作为训练样本集Ds的最优二分方案,得到训练样本集Ds的基尼系数;
C5、分别对左右节点递归调用步骤C2-C4,直至子节点数大于阈值Q、训练样本集的基尼系数小于阈值W或左右子节点中样本数小于阈值E,得到CART决策树。
所述支持向量机SVM的训练方法为:
D1、根据样本数据X构建数据集U={(xi,yi)},i=1,2,...,n,yi∈(1,-1),构建分离超平面方程为:
ωTxi+B=0
其中,ω=(w1,w2,...,wd),ω表示平面法向量,w1,w2,...,wd均表示平面法向量ω的元素,T表示转置,B表示位移项;
D2、构建SVM优化函数,使两个异类支持向量到超平面的距离之和最大;
所述SVM优化参数为:
Figure BDA0002510609710000132
所述支持向量符合的条件为:
Figure BDA0002510609710000141
所述两个异类支持向量到超平面的距离之和γ为:
Figure BDA0002510609710000142
其中,ξi≥0,Z表示惩罚因子,ξi表示第i个样本训练点的松弛变量。
在本实施例中,两个异类支持向量到超平面的距离之和
Figure BDA0002510609710000143
将支持向量符合的条件代入其中,得到
Figure BDA0002510609710000144
D3、对优化函数求解,获取训练完成的分离超平面。
所述K最邻近分类器的分类方法为:
E1、通过训练样本集与其对应的分类标签构建数据集;
E2、输入待分类的样本数据,并计算待分类的样本数据与样本数据集中每条数据的欧氏距离;
E3、将欧氏距离从小到大排列,取前G个样本数据,并在数据集中获取前G个样本数据的分类标签;
E4、将前G个样本数据的分类标签中出现次数最多的分类标签作为待分类样本数据的分类结果。
所述步骤S4中采用投票的集成策略获取最终的分类结果具体方法为:根据CART决策树、支持向量机SVM和K最邻近分类器的分类结果,选取出现次数最多的分类结果作为待分类样本数据的最终分类结果。
本发明的有益效果为:
(1)本发明提供了一种基于预分类和集成学习思想的驾驶风格分类方法,有效地通过驾驶员的驾驶数据对驾驶员的驾驶风格进行预测和分类。
(2)本发明把聚类问题转化为分类问题,使用多种聚类方法将驾驶数据分为典型风格的标签数据和模糊数据的待分类数据。
(3)本发明基于预分类和分类的驾驶模型框架解决了基于聚类算法的驾驶风格分类模型无法对新产生数据直接分类的缺点,提升了驾驶风格分类方法的泛化能力。
(4)本发明基于集成学习的预分类解决了单一聚类方法对驾驶数据的标记不具备典型性的问题。
(5)本发明在分类阶段采用多模型融合的集成学习方法,可以有效的提升驾驶风格分类的准确性和稳定性。利用驾驶员驾驶的轨迹数据,数据类型易获取,简单方便,解决了传统基于聚类的驾驶风格预测模型泛化能力不足的问题。
(6)本发明能够很好地处理传统方法中预分类结果无区分性、训练数据不典型等问题,引入集成学习思想,解决了传统模型分类结果不稳定,精确度不够等问题。

Claims (5)

1.一种基于预分类与集成学习的驾驶风格分类方法,其特征在于,包括以下步骤:
S1、采集若干样本车辆的实际驾驶数据,对实际驾驶数据进行预处理,并通过预处理后的实际驾驶数据提取特征参数,得到样本数据;
S2、采用模糊C均值方法和谱聚类方法对样本数据进行预分类,根据预分类结果获取训练样本;
S3、通过训练样本对分类器进行训练,获取训练完成的分类器;
S4、将待分类样本数据输入分类器进行分类,采用投票的集成策略获取最终的分类结果;
所述步骤S2中根据预分类结果获取训练样本的具体方法为:将使用模糊C均值方法和谱聚类方法聚类结果相同的样本作为训练样本,得到训练样本集,所述训练样本的样本标签为聚类结果对应的类别;
所述步骤S3中分类器包括CART决策树、支持向量机SVM和K最邻近分类器;
所述CART决策树的训练方法具体为:
C1、设定决策树的训练样本集Ds,并获取训练样本集Ds中每个样本的特征属性值;
C2、根据特征属性A的第s个属性值a,将训练样本集D分为左节点D1和右节点D2两部分,并计算特征属性A的第s个属性值a对于训练样本集Ds的基尼系数Gini(Ds,A)为:
Figure FDA0003661645000000011
所述左节点D1和右节点D2基尼系数的计算公式为:
Figure FDA0003661645000000021
其中,Gini(Dz)表示样本集Dz对应的基尼系数,Dz为D1或D2,|Cj|表示第j个类别的数量,j=1,2,...,k,k表示聚类中心数目,|D1|表示左节点D1的样本数,|D2|表示右节点D2的样本数,|Ds|表示训练样本集Ds的样本数;
C3、使用步骤C2所述方法计算特征属性A的所有属性值的基尼系数,选取其中最小值作为属性A的最优二分方案;
C4、使用步骤C2-C3的方法,计算所有特征属性的最优二分方案,选取其中最小值作为训练样本集Ds的最优二分方案,得到训练样本集Ds的基尼系数;
C5、分别对左右节点递归调用步骤C2-C4,直至子节点数大于阈值Q、训练样本集的基尼系数小于阈值W或左右子节点中样本数小于阈值E,得到CART决策树;
所述支持向量机SVM的训练方法为:
D1、根据样本数据X构建数据集U={(xi,yi)},i=1,2,...,n,yi∈(1,-1),构建分离超平面方程为:
ωTxi+B=0
其中,ω=(w1,w2,...,wd),ω表示平面法向量,w1,w2,...,wd均表示平面法向量ω的元素,T表示转置,B表示位移项;
D2、构建SVM优化函数,使两个异类支持向量到超平面的距离之和最大;
所述SVM优化参数为:
Figure FDA0003661645000000022
所述支持向量符合的条件为:
Figure FDA0003661645000000031
所述两个异类支持向量到超平面的距离之和γ为:
Figure FDA0003661645000000032
其中,ξi≥0,Z表示惩罚因子,ξi表示第i个样本训练点的松弛变量;
D3、对优化函数求解,获取训练完成的分离超平面;
所述K最邻近分类器的分类方法为:
E1、通过训练样本集与其对应的分类标签构建数据集;
E2、输入待分类的样本数据,并计算待分类的样本数据与样本数据集中每条数据的欧氏距离;
E3、将欧氏距离从小到大排列,取前G个样本数据,并在数据集中获取前G个样本数据的分类标签;
E4、将前G个样本数据的分类标签中出现次数最多的分类标签作为待分类样本数据的分类结果;
所述步骤S4中采用投票的集成策略获取最终的分类结果具体方法为:根据CART决策树、支持向量机SVM和K最邻近分类器的分类结果,选取出现次数最多的分类结果作为待分类样本数据的最终分类结果。
2.根据权利要求1所述的基于预分类与集成学习的驾驶风格分类方法,其特征在于,所述步骤S1中对实际驾驶数据进行预处理的具体方法为规约属性、去除噪点数据以及填补缺失数据。
3.根据权利要求1所述的基于预分类与集成学习的驾驶风格分类方法,其特征在于,所述步骤S1中特征参数为车辆不良驾驶行为率,其包括疲劳驾驶率、不良怠速预热率、超长怠速率、急变道率、急加速率、急减速率以及超速时间比例;所述S1中样本数据为X={x1,x2,...,xi,...,xn},i=1,2,...,n;xi表示第i个车辆样本,其包括车辆样本的特征参数;n表示样本车辆总数;
所述车辆不良驾驶行为率的计算公式为:
Figure FDA0003661645000000041
所述超速时间比例的计算公式为:
Figure FDA0003661645000000042
其中,Rate表示车辆不良驾驶行为率,C表示不良行为次数,M表示车辆行驶总里程,OS表示超速时间比例,T_over表示超速时间,T_total表示车辆行驶总时间。
4.根据权利要求3所述的基于预分类与集成学习的驾驶风格分类方法,其特征在于,所述步骤S2中采用模糊C均值方法进行预分类的具体步骤为:
A1、设置最大迭代次数T、收敛精度e和计数器t=1;
A2、据样本数据,获取聚类损失函数JFCM为:
Figure FDA0003661645000000043
其中,j=1,2,...,k,k表示聚类中心数目,uj(xi)表示样本xi属于第j类聚类中心的隶属度值,uj(xi)∈U,uj(xi)∈{0,1},
Figure FDA0003661645000000044
U表示隶属度矩阵,b表示模糊因子,||xi-mj||2表示样本xi到聚类中心mj的欧式空间距离,mj∈M,M表示聚类中心集合;
A3、构建求解函数L(U,M,λ)为:
Figure FDA0003661645000000051
其中,λ表示拉格朗日乘子;
A4、对求解函数L(U,M,λ)求取隶属度uj(xi)和聚类中心mj的偏导数为:
Figure FDA0003661645000000052
其中,
Figure FDA0003661645000000053
表示隶属度uj(xi)相对于求解函数L(U,M,λ)的一阶偏导数,
Figure FDA0003661645000000054
表示聚类中心mj相对于求解函数L(U,M,λ)的一阶偏导数;
A5、利用拉格朗日乘子法分别对隶属度uj(xi)和聚类中心mj的偏导数进行求解,得到第t次的中间隶属度矩阵Umid和中间聚类中心集合Mmid
A6、根据中间隶属度矩阵Umid和聚类中间中心集合Mmid,对隶属度uj(xi)和聚类中心mj进行更新,更新公式具体为:
Figure FDA0003661645000000055
Figure FDA0003661645000000056
其中,
Figure FDA0003661645000000057
表示第t次更新的聚类中心集合Mt中的第j个聚类中心,uj(xi)t表示第t次更新的隶属度矩阵Ut中的样本xi属于第j类聚类中心的隶属度值,uj(xi)mid表示中间隶属度矩阵Umid中的隶属度值,xi表示第i个样本,mj mid和ms mid均表示聚类中间中心集合Mmid中的中心聚类值,s=1,2,...,k,k表示聚类中间中心集合Mmid中的聚类中心总数;
A7、以聚类损失函数JFCM最小为目标,采用步骤A5-A6的方法对隶属度uj(xi)和聚类中心mj进行更新,直至max||Ut-Ut-1||<e或更新次数大于T,将第t次更新的隶属度矩阵Ut作为样本数据的分类结果。
5.根据权利要求3所述的基于预分类与集成学习的驾驶风格分类方法,其特征在于,所述步骤S2中采用谱聚类方法对样本数据进行预分类的具体方法为:
B1、根据样本数据X={x1,x2,...,xi,...,xn},使用指定相似矩阵生成方法构建样本相似矩阵S,并通过样本相似矩阵S获取邻接矩阵W;
B2、根据邻接矩阵W构建度矩阵D为:
Figure FDA0003661645000000061
其中,di表示xi的度,
Figure FDA0003661645000000062
n表示样本车辆总数,wil表示样本xi与样本xl之间的边权重;
B3、根据度矩阵D和样本相似矩阵S获取拉普拉斯矩阵L为:
Figure FDA0003661645000000063
其中,I表示单位矩阵;
B4、计算拉普拉斯矩阵L的特征值,且从小到大取前k个特征值组成特征向量V=(v1,v2,...,vk);
B5、对特征向量V进行K-means聚类,得到分类结果为A1,A2,...,Ak
CN202010459852.2A 2020-05-27 2020-05-27 一种基于预分类与集成学习的驾驶风格分类方法 Active CN111783826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010459852.2A CN111783826B (zh) 2020-05-27 2020-05-27 一种基于预分类与集成学习的驾驶风格分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010459852.2A CN111783826B (zh) 2020-05-27 2020-05-27 一种基于预分类与集成学习的驾驶风格分类方法

Publications (2)

Publication Number Publication Date
CN111783826A CN111783826A (zh) 2020-10-16
CN111783826B true CN111783826B (zh) 2022-07-01

Family

ID=72753687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010459852.2A Active CN111783826B (zh) 2020-05-27 2020-05-27 一种基于预分类与集成学习的驾驶风格分类方法

Country Status (1)

Country Link
CN (1) CN111783826B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528559B (zh) * 2020-12-04 2024-04-23 广东省科学院广州地理研究所 一种结合预分类与机器学习的叶绿素a浓度反演方法
CN112622920A (zh) * 2020-12-28 2021-04-09 华北科技学院 一种辅助驾驶系统
CN112734678B (zh) * 2021-01-22 2022-11-08 西华大学 基于深度残差收缩网络和生成对抗网络的去图像运动模糊方法
CN113157816B (zh) * 2021-03-09 2023-05-16 大连海事大学 一种基于网格密度的消费者分类标签融合过滤方法
CN113408576A (zh) * 2021-05-12 2021-09-17 上海师范大学 基于融合标签和堆叠机器学习模型的学习风格识别方法
CN113657432A (zh) * 2021-06-30 2021-11-16 桂林电子科技大学 一种基于车联网数据的商用车驾驶行为风险等级辨识方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101633359A (zh) * 2008-07-24 2010-01-27 通用汽车环球科技运作公司 具有驾驶风格识别的自适应车辆控制系统
CN101633358A (zh) * 2008-07-24 2010-01-27 通用汽车环球科技运作公司 具有集成驾驶风格识别的自适应车辆控制系统
CN110210509A (zh) * 2019-03-04 2019-09-06 广东交通职业技术学院 一种基于mfd+谱聚类+svm的路网交通状态判别方法
CN111000553A (zh) * 2019-12-30 2020-04-14 山东省计算中心(国家超级计算济南中心) 一种基于投票集成学习的心电数据智能分类方法
CN111038485A (zh) * 2019-12-30 2020-04-21 山东大学 基于驾驶风格识别的混合动力汽车控制方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101633359A (zh) * 2008-07-24 2010-01-27 通用汽车环球科技运作公司 具有驾驶风格识别的自适应车辆控制系统
CN101633358A (zh) * 2008-07-24 2010-01-27 通用汽车环球科技运作公司 具有集成驾驶风格识别的自适应车辆控制系统
CN110210509A (zh) * 2019-03-04 2019-09-06 广东交通职业技术学院 一种基于mfd+谱聚类+svm的路网交通状态判别方法
CN111000553A (zh) * 2019-12-30 2020-04-14 山东省计算中心(国家超级计算济南中心) 一种基于投票集成学习的心电数据智能分类方法
CN111038485A (zh) * 2019-12-30 2020-04-21 山东大学 基于驾驶风格识别的混合动力汽车控制方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"基于K近邻和支持向量机的醉酒驾驶识别方法的对比分析";李振龙 等;《交通运输系统工程与信息》;20151030;第15卷(第5期);第246-251页 *
"基于大数据的驾驶风格识别算法研究";吴振昕 等;《汽车技术》;20181031;第10-15页 *
"基于车联网数据的驾驶行为安全性评价方法研究";王晓兰;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20220215;第22-50页 *
"智能汽车决策中的驾驶行为语义解析关键技术";李国法 等;《汽车安全与节能学报》;20191231;第10卷(第4期);第391-412页 *
基于一种多分类半监督学习算法的驾驶风格分类模型;李明俊等;《湖南大学学报(自然科学版)》;20200425(第04期);第10-15页 *

Also Published As

Publication number Publication date
CN111783826A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783826B (zh) 一种基于预分类与集成学习的驾驶风格分类方法
US11960568B2 (en) Model and method for multi-source domain adaptation by aligning partial features
CN107862864B (zh) 基于驾驶习惯和交通路况的行驶工况智能预测估计方法
CN107526785A (zh) 文本分类方法及装置
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN112046489B (zh) 一种基于因子分析和机器学习的驾驶风格辨识算法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
Fan et al. Multi-system fusion based on deep neural network and cloud edge computing and its application in intelligent manufacturing
CN112288465B (zh) 一种基于半监督聚类集成学习的客户细分方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN115092165A (zh) 一种基于聚类模型的不同循环工况下驾驶员风格辨识方法
CN111907523A (zh) 一种基于模糊推理的车辆跟驰寻优控制方法
CN117253093A (zh) 一种基于深度特征和图注意力机制的高光谱影像分类方法
CN117764227A (zh) 一种用于加油站的客户流失预测装置
CN102004801A (zh) 一种信息分类的方法
CN115273645B (zh) 一种室内面要素自动聚类的地图制图方法
CN115774942A (zh) 基于车联网实车数据和svm的驾驶风格辨识模型建模与统计方法
Zhao et al. Detection of crowdedness in bus compartments based on ResNet algorithm and video images
CN116127360A (zh) 一种基于图像识别与topsis综合评价的驾驶风格分类方法
CN112465253B (zh) 一种城市路网中的链路预测方法及装置
Anil et al. Driver behavior analysis using K-means algorithm
CN114248780A (zh) 考虑驾驶员风格的idm-lstm组合型跟车模型建立方法
Chi et al. A Two-stage Clustering Method Combining Ant Colony SOM and K-means.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant