CN114971156A - 一种基于大数据危险场景的驾驶风格分析方法 - Google Patents

一种基于大数据危险场景的驾驶风格分析方法 Download PDF

Info

Publication number
CN114971156A
CN114971156A CN202210352314.2A CN202210352314A CN114971156A CN 114971156 A CN114971156 A CN 114971156A CN 202210352314 A CN202210352314 A CN 202210352314A CN 114971156 A CN114971156 A CN 114971156A
Authority
CN
China
Prior art keywords
data
model
driving style
result
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210352314.2A
Other languages
English (en)
Inventor
刘迪
郑建明
覃斌
张宇飞
张建军
金鉴
孙殿喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202210352314.2A priority Critical patent/CN114971156A/zh
Publication of CN114971156A publication Critical patent/CN114971156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明属于汽车大数据应用技术领域,涉及一种基于大数据危险场景的驾驶风格分析方法;包括:数据清洗;数据切片;评价指标降维:采用归一法和和主成分分析对初始指标进行降维,经过旋转因子旋转后发现更多未知场景;按照旋转因子矩阵,实现不同场景的分析;建立聚类模型:基于k‑means聚类结果的高斯混合模型输出结果是概率值,有效识别边缘数据;建立分类辨识模型:以k‑means聚类结果作为监督学习样本,训练随机森林模型,辨识未知驾驶员的驾驶风格;本发明避免主观评价;采用归一法和主成分分析进行数据降维,既不降低模型精度、还原原始数据,又能简化模型结构;本发明将聚类结果于概率相结合,得到样本点属于某个簇的概率,正确识别边缘数据。

Description

一种基于大数据危险场景的驾驶风格分析方法
技术领域
本发明属于汽车大数据应用技术领域,涉及一种基于大数据危险场景 的驾驶风格分析方法。
背景技术
驾驶风格反映了一个人经常性的和持续稳定的动作倾向,能够体现驾 驶员的思维模式和行为规律。深刻研究驾驶员驾驶风格以及表现形式,构 建准确的驾驶风格辨识模型,对驾驶库数据平台构建以及高级别自动驾驶 算法开发验证,具有重要意义。
在数据采集方面,一般采取填写主观问卷、在驾驶模拟器模拟驾驶、 在自然公开道路驾驶等方式。由于数据来源广泛,许多学者对场景进行了 切片,进行了更为细致的分析,如按照车流密度切分、研究分时租赁问题、 营运车辆等。在数据处理方面,采用信度和效度检验相结合的方法,构建 基于标准化驾驶表现和像空间重构的定性评估方法等。
专利文献1(CN108995653B)根据采集的驾驶员操作信息和车辆行驶信 息,初步识别驾驶员驾驶风格,得到驾驶员驾驶风格初步识别结果;根据得 到的驾驶员驾驶风格初步识别结果,改变车辆状态;根据驾驶员适应车辆新 状态的操作数据以及对应的车辆行驶数据,进一步识别得到驾驶员驾驶风 格结果。
专利文献2(CN111547064A)使用SOM与K-means算法聚类驾驶员数据, 离线识别各驾驶员的驾驶风格,并训练驾驶风格在线分类器,即可对不同驾 驶员的进行在线识别;将该训练好的驾驶风格在线分类器与汽车ACC系统相 结合,使汽车ACC系统可以针对不同驾驶风格的驾驶员做出相应的调整,从而满 足不同驾驶员不同驾驶风格的个性化需求。
专利文献3(CN111627132A)发明一种基于驾驶倾性的汽车行驶特征评价及 预警方法,,使用时间序列降维算法可以降低数据复杂程度,同时保留数据隐含 的时间序列特征;对操作片段进行统计,得到高频操作片段数据库,可以进行详 细的驾驶特征行为描述;应用HMM模型进行倾性辨识,辨识结果具有高度可信性; 通过进一步计算外倾值,可以比较驾驶博弈各方的操作特征;通过定量和定性评 价结果得出的预警信息,其内容便于比较;随着车辆运行不断更新数据,保证评 价结果和预警信息的实时性,具有很强的实用性。
上述专利与本申请相关度较低。
发明内容
本发明从多维度全方位分析大数据信息,获取更为柔性的聚类结果,并且 构建合适的机器学习模型用来预测辨识新的未知数据分类,本发明提供了一种 基于大数据危险场景的驾驶风格分析方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些 实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包 含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素 的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的 其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
为解决上述技术问题,本发明是采用如下技术方案实现的:
一种基于大数据危险场景的驾驶风格分析方法,包括:
数据清洗:按车辆速度筛选,按道路类型筛选,按前方是否有目标车筛选, 减小原始数据行数;
数据切片:依据前方是否有目标车,将数据切片成一个个片段,每个片段 聚合出一条统计结果,再将全部片段聚合出最终统计结果,作为清洗后的数据 集;
评价指标降维:采用归一法和和主成分分析对初始指标进行降维,经过旋 转因子旋转后发现更多未知场景;按照旋转因子矩阵,实现不同场景的分析;
经过降维后的主成分矩阵往往解释性不强,因此每一列元素尽可能地拉开 距离,即向0或1两极分化。
清洗后的数据集:用于行筛选。在原始数据集中,每行代表一个采样点(比 如:2022-03-21 08:00:01,2022-03-21 08:00:02就代表两个采样点)。清洗 数据集可以实现数据压缩,即多行转一行(保留01和02的聚合值)。
初始指标、筛选后的指标:用于列筛选。比如按照先验知识,初始指标为 “速度、加速度、节气门开度”,筛选后只保留“速度”。
建立聚类模型:基于k-means聚类结果的高斯混合模型输出结果是概率值, 有效识别边缘数据,结果更为柔性。
高斯混合模型和Gauss混合模型是一个意思。K-means是聚类模型,属于无 监督学习(事先无标签),给数据打标签;高斯混合模型是分类模型,属于监 督学习,它必须带有标签。所以,k-means聚类和高斯混合模型分类是递进关系, 有了k-means的打标结果,才能训练高斯混合模型。二者是公开的机器学习算法。
k-means、高斯混合模型、随机森林的关系:高斯混合模型用于已知驾驶员 的分类,能输出概率,修正k-means聚类结果;随机森林能预测未知驾驶员的驾 驶风格。三者是递进关系。
建立分类辨识模型:以k-means聚类结果作为监督学习样本,训练随机森林 模型,用来预测辨识新的未知数据分类,辨识未知驾驶员的驾驶风格。
分类辨识模型具体是指高斯混合模型和随机森林模型。一个用于已知样本 分类的修正,一个用于未知样本的分类。
进一步地,数据切片方法具体内容如下:
如果在两个连续时间点中,传感器都感知到了同一个前方目标车,则认为 这两个时间点属于同一个切片;每个切片输出一个指标向量值;若共有M个切片, 每个切片包含N个指标结果,记为N=[n1 n2 …n10],10是评价指标的维度;
对于1个驾驶员,形成1行*10列的数据向量U,U=[u1,u2,……,u10];对于U 中的第i个元素,计算式为:
Figure BDA0003581178120000041
其中,M表示切片数量,x表示样本数据值,i表示样本中第i个特征,和U中 的下角标一一对应,j表示遍历序数,取值为1~M间的整数。
进一步地,所述初始指标,是指选择10个分析指标,它们分别是:本车速 度v、本车加速度、本车超速比例、制动踏板激活状态、节气门开度、最大节气 门大度、相对前车速度、最大相对速度、相对距离、碰撞时间;
归一法是指:不同的评价指标量纲和量纲单位均有不同,如果直接分析, 那么量纲大的指标所占权重就大。这样会忽略小量纲指标的存在,等于损失了 该特征。归一化的目的,就是使各指标处于同一数量级,进行综合对比评价。 计算公式为:
Figure BDA0003581178120000042
其中,x*为归一化后的数值,x为原始数值,xmax为原始最大数值,xmin为原始 最小数值。
所述主成分分析是指将初始指标组合成综合指标,同时将信息损失降低到 最小;
旋转因子RC2代表驾驶过程速度和节气门开度,RC3与发生超速及碰撞等极 端工况有关;以RC2和RC3为研究对象,分析驾驶员超速并接近前车的倾向,即 危险工况的驾驶风格。
进一步地,所述k-means,是指k-means均值聚类算法,对于给定数据集 D=[x1,x2,……,xm],指定分类个数p,使得聚类点λj∈(1,2,……,k)的平方误差最小;
以k-means聚类结果为基础,构建高斯混合模型;
高斯混合模型由多个单高斯模型组合而成,高斯混合模型的输出结果是各 个样本占据某一分类结果的概率;均值向量和协方差矩阵确定高维度的高斯混 合模型,高斯混合模型的概率分布可表示为下式:
Figure BDA0003581178120000051
其中,ρξ(x)是概率分布,ξ为样本空间,xi为第i个样本,k是单高斯模型的 数量,αi是元素属于第k个高斯模型的可能性,
Figure BDA0003581178120000052
是第k个高斯模型的密 度函数;μi和Σi是第i个单高斯模型的均值和方差。
将k-means聚类结果作为初值输入,会获得更为柔性的分类结果。
初值:聚类中心和分类标签。如果不给定聚类中心,那么高斯混合模型极 有可能训练出局部最优而非全局最优解,在此处kmeans聚类结果相当于高斯混 合模型的先验值;如果不给定分类标签,无法训练高斯混合模型,因为它是监 督学习模型,训练集必带标签。
kmeans和基于kmeans结果的Gauss混合模型聚类比对;
高斯混合会识别簇间边缘样本的信息,此时须更多经验判断该样本到底属 于哪一种标签。由于样本数量较少,因此每个样本标签都很重要。标签结果会 用于训练随机森林模型,直接反映随机森林模型的准确性。
进一步地,所述训练随机森林模型具体构建步骤如下:
步骤1:随机抽样,训练决策树。有放回的随机抽取多个样本,形成样本数 据集1;
步骤2:随机选取属性,做节点分类属性;假设训练样本集包含M个属性, 随机再每个分裂节点处选择D个属性,并且d<D,节点分裂属性不可重复;
步骤3:重复步骤2,直到不能再分裂为止;
步骤4:重复步骤1~3,建立多棵决策树,形成森林。
所述k-means聚类结果包含数据和标签信息。
一种基于大数据危险场景的驾驶风格分析方法,还包括采用留一法评估随 机森林模型的有效性;具体内容包括:将33名驾驶员样本组成的测试集划分为 训练集和验证集,训练集包含32份样本,验证集包含1份样本;更换不同的验 证集,进行33次交叉验证,得到组验证结果;比对聚类结果和辨识结果,分别 计算三种标签的辨识率,进而得出随机森林模型的综合辨识率;
经评估,基于随机森林模型的辨识策略能正确识别90.9%危险场景的驾驶风 格标签。
进一步地,数据初筛条件如下:
选取速度30-150km/h;避免低速和启停倒车等耗时长、意义不大的场景
前方有目标车,且碰撞时间ttc小于10s,增加交通参与者可以激发驾驶员 主动行为,如果碰撞时间ttc过大,认为距本车太远,无法激发。
进一步地,所述本车超速比例η计算式如下:
Figure BDA0003581178120000071
其中t为超速时长,单位为秒;T为总驾驶时长,单位为秒;下角标为 道路类型。
进一步地,所述按照旋转因子矩阵,实现不同场景的分析,具体计算原理 公式如下:
Figure BDA0003581178120000072
式中,Di表示第i个主成分,Xi表示第i个原始数据,i=1、2、……、m,k为 权重系数;任意两个主成分的协方差为零,方向正交;
进一步地,对于给定数据集D=[x1 x2 ...x33],K-means首先确定聚类数量 N,然后随机选取聚类中心δn=(n=1,2,...,N),最后通过迭代计算使xi与其最近 的δn的欧氏距离之和最小,采用如下公式:
Figure BDA0003581178120000073
式中,xi代表样本点,δn代表聚类中心,E代表了聚类结果的聚合程 度。E的值越小,聚合效果越好。
与现有技术相比本发明的有益效果是:
1、完全依赖客观数据,避免主观评价。已有的研究中往往依赖主客 观对标的方法来评定聚类结果好坏,导致难以获得统一的样本标签和分类 标准。即便是主客观结合,也应该是客观为主、主观为辅。
2、由于评价指标条目众多,采用归一法和主成分分析进行数据降维, 既不降低模型精度、还原原始数据,又能简化模型结构。
3、采用更为柔性的聚类方法,将聚类结果于概率相结合,得到样本 点属于某个簇的概率,正确识别边缘数据。
4、构建合适的机器学习模型,可用来预测辨识新的未知数据。
附图说明
下面结合附图对本发明作进一步的说明:
图1是K-均值和高斯混合聚类结果比对示意图;
图2是高斯混合模型等高线示意图;
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。在附图中, 自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。所描述的实施例是本发明一部分实施例,而不是全部的实施例。下面通过 参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本 发明的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性 劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附 图对本发明的实施例进行详细说明。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、 “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系, 仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必 须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护 范围的限制。
下面结合附图对本发明作详细的描述:
1、数据选取与数据切片
驾驶风格研究的是人的行为,它反映了驾驶员本身的驾驶习惯,同时 也需要不同路况环境作为激发条件。就分析角度而言,最直观的量化体现 就是车辆状态数据。不同于车辆性能、驾驶员姿态、疲劳程度等信息,车 辆状态属于结构化数据,由车载传感器直接获得,几乎没有主观评价参与 的成分,可信度较高。因此,本发明以车辆状态作为数据源,构建一套大 数据分析方法。
虽然本发明是为了研究危险及超速场景,但对大数据的研究往往要从 宏观大类出发,而不是直接清洗大量数据,只剩部分“小而精”的数据。 这样造成的后果是样本缺乏边缘点,不具备代表性;同时也不利于其它场 景分析(如自然驾驶场景、事故场景等)。
依托大数据采集项目,获取包含33名驾驶员、10万千米行车数据,几 乎覆盖全部自然场景。数据存储于云端数据库,可进行分布式快速查询。
数据初筛条件如下:
1)选取速度30-150km/h。避免低速和启停倒车等耗时长、意义不大 的场景
2)前方有目标车,且碰撞时间ttc小于10s。增加交通参与者可以激 发驾驶员主动行为,如果ttc过大,认为距本车太远,无法激发。
基于数据筛选规则,依据前方有目标车存在的连续性,进行场景切片。 即如果在两个连续时间点中,传感器都感知到了同一个前方目标车,则认 为这两个时间点属于同一个切片。每个切片输出一个指标向量值。若共有M 个切片,每个切片包含N个指标结果,记为N=[n1 n2 …n10],10是评价指标 的维度,下面详细阐述。
对于1个驾驶员,形成1行*10列的数据向量U。对于U中的第i个元素, 它的计算式为:
Figure BDA0003581178120000101
2、选择指标维度及计算方法
依照先验知识和过往经验,初步选择10个分析指标,它们分别是:
1)本车速度v:单位m/s
2)本车加速度a:单位m/s2
3)本车超速比例α:无量纲。计算式如下所示,其中t为超速时长,单 位为秒;T为总驾驶时长,单位为秒;下角标为道路类型。设置限速阈值=限速 *1.2,道路类型及对应限速阈值如表1所示。
Figure BDA0003581178120000102
表1 道路类型及限速阈值
道路类型 城市道路 快速路 一级公路 高速公路
限速(km/h) 70 80 100 120
限速阈值(km/h) 84 96 120 144
4)制动踏板激活状态brake:布尔值(即0或1)
5)节气门开度throttle:单位%,值范围0%-100%
6)最大节气门大度throttle_max:单位%,值范围0%-100%
7)相对前车速度vrel:单位m/s,等于本车速度减去前车速度
8)最大相对速度vrel_max:单位m/s,等于本车速度减去前车速度的最大 值
9)相对距离pos:单位m,等于本车位置减去前车位置
10)碰撞时间ttc:单位s。等于相对距离除以相对速度
其中,除3)、6)、8)外,其它指标均取平均值。
3、评价指标降维
上述10个指标权重相等,这显然不符合客观规律。为解决指标多重共线问 题,加快聚类算法效率,降维过程分两步:1)数据标准归一化,2)利用主成 分PCA实现降维。
主成分分析(PCA)能把原始指标组合成综合指标,即主成分PC,同时能把信 息损失降低到最小。由于各个主成分正交,互相独立,因此可以选取特定主成 分,进行有针对的分析。计算原理如下所示:
D1=k11X1+k12X2+…+k1mXm
D2=k21X1+k22X2+…+k2mXm
Figure BDA0003581178120000111
Dm=km1X1+km2X2+…+kmmXm
式中,Di表示第i个主成分,Xi表示第i个原始数据,i=1、2、……、m,k为 权重系数。任意两个主成分的协方差为零,方向正交。
经分析,该样本的主成分分析效度检验指标KMO=0.718>0.6,Bartlett检验 对应值p=0,比较适合进行主成分分析。一共提取出3个主成分,特征根值均大 于1,此3个主成分的方差解释率分别是42.856%,22.293%,13.706%,累积方差解 释率为78.856%。一般认为累计解释率达70%-80%即为有效。表2为主成分提取 情况。
表2方差解释率
Figure BDA0003581178120000112
因子旋转能让载荷矩阵值向0或1靠近,让每个因子具有较高或较低的载荷。 因此旋转因子能代表的驾驶行为信息比主成分更为明确。由于主成分两两正交, 彼此不相关,因此本问题采用最大方差旋转法。
主成分分析和因子旋转后的载荷矩阵如表3所示。如果载荷系数绝对值大 于0.4,则说明该项和主成分有对应关系,且载荷系数越大,相关性越强。为方 便观看,设置大于0.4的数据底纹为灰色。
主成分PC1、PC2、PC3能代表78.8%的原始数据。旋转因子RC1多与车辆自然 状态的平均值有关,旋转因子RC2代表驾驶过程最基本属性(速度和节气门开 度),RC3与发生超速及碰撞等极端工况有关。因此,以RC1和RC2为研究对象, 可分析驾驶员在一般工况下的驾驶风格;以RC2和RC3为研究对象,可分析驾驶 员超速并接近前车的倾向。本发明重点研究后者,即危险工况的驾驶风格。
表3载荷系数
Figure BDA0003581178120000121
4、无监督学习-kmeans聚类
本次聚类属于典型的无监督学习。首先采用k-means均值聚类算法,它具 有方便快捷、鲁棒性佳、适应性好的优点。对于给定数据集D=[x1,x2,……,xm], K-means首先确定聚类数量N,然后随机选取聚类中心δn=(n=1,2,...,N),最后 通过迭代计算使xi与其最近的δn的欧氏距离之和最小,采用如下公式:
Figure BDA0003581178120000122
式中,xi代表样本点,δn代表聚类中心,E代表了聚类结果的聚合程度。 E的值越小,聚合效果越好。
5、无监督学习-基于kmeans结果的Gauss混合模型聚类
然而,k-means属于“硬性”聚类方法。分类结果只有是或否,没有边界值。 如果数据维度较低,操作者可以观察边缘数据;但是如果数据维度较高,则无 法可视化,强行分类可能得不到预期分类结果。因此,以k-means聚类结果为基 础,构建高斯混合模型(Gaussian Mixture Modeling,GMM)。
高斯混合模型由多个单高斯模型组合而成,它的输出结果是各个样本占据 某一分类结果的概率。正如均值和方差能确定单高斯模型,均值向量和协方差 矩阵能确定高维度的高斯混合模型,它的概率分布可表示为下式:
Figure BDA0003581178120000131
其中,ξ为样本空间,xi为第i个样本,k是单高斯模型的数量,αi是元素 属于第k个高斯模型的可能性,
Figure BDA0003581178120000132
是第k个高斯模型的密度函数。μi和Σi是第i个单高斯模型的均值和方差。
高斯混合模型=Gauss混合模型=GMM;
单高斯混合模型=单Gauss模型;
高斯混合模型受初值影响较大,如果不给定初始状态,可能陷入局部最优。 因此,将k-means分类结果作为初值输入,会获得更为柔性的聚类结果。
6、k-means和基于k-means结果的高斯混合模型聚类比对
由于数据是二维的,因此可以绘图表达聚类结果。如图2所示。
对于同一个数据点,内部实心表示k-means聚类结果,外部空心表示基于GMM 的分类结果。将风格标签划分为3类:谨慎型(三角)、一般型(方块)、激进 型(圆形)。可以看出两种方法的聚类结果大致相同,,一般型和激进型的概 率密度产生了部分重叠。激进型由于有极端值存在,导致方差较大。
等高线图表现了高斯混合模型在二维平面的映射,三种标签等高线迭代结 果符合样本,数据均匀地分布在等高线周围。两个出现偏差的样本恰好都在两 类等高线边缘,而且概率相差不大。如果可获取更多已知数据之外的信息,则 完全可以综合考虑分类结果,高斯混合模型只是提供参考。
7.监督学习-随机森林模型
7.1训练随机森林模型
聚类结果包含数据和标签信息,因此可利用监督学习构建机器学习模型, 辨识未知驾驶员的驾驶风格。本发明拟采用随机森林模型作为分类器实现此功 能。
由于每棵树的训练特征集合是从全部特征抽取的,因此适合处理高维数据。 对于特征较少的样本,随机性降低,可能得不到最佳辨识结果。同时,随机森 林能检测特征间的作用,解决共线问题。
随机森林是升级版决策树,每棵树对训练样本进行投票,最后取最高票对 应的标签作为分类结果。
具体实现流程如下:
步骤1:随机抽样,训练决策树。有放回的随机抽取多个样本(即可存在重 复样本),形成样本数据集1;
步骤2:随机选取属性,做节点分类属性。假设训练样本集包含M个属性, 随机再每个分裂节点处选择D个属性,并且d<D,节点分裂属性不可重复;
步骤3:重复步骤2,直到不能再分裂为止;
步骤4:重复步骤1~3,建立多棵决策树,形成森林。
7.2交叉验证随机森林模型
采用留一法评估随机森林模型的有效性。将33名驾驶员样本组成的测试集 划分为训练集和验证集,训练集包含32份样本,验证集包含1份样本。更换不同 的验证集,进行33次交叉验证,得到组验证结果。比对聚类结果和辨识结果, 分别计算三种标签的辨识率,进而得出随机森林模型的综合辨识率。表4为随 机森林模型交叉验证结果。
表4随机森林模型交叉验证结果
Figure BDA0003581178120000151
经评估,基于随机森林模型的辨识策略能正确识别90.9%危险场景的驾驶风 格标签。
本发明采用:
1数据清洗方法:按车辆速度筛选,按道路类型筛选,按前方是否有目标 车筛选。减小原始数据行数。
2数据切片方法:依据前方是否有目标车,将数据切片成一个个片段,每 个片段聚合出一条统计结果,再将全部片段聚合出最终统计结果,作为清洗后 的数据集。
3评价指标降维方法:采用归一法和和主成分分析对10个初始指标进行降 维,经过因子旋转后可发现更多未知场景。按照旋转因子矩阵,可实现不同场 景的分析。
4聚类模型的建立:基于k-means结果的高斯混合模型输出结果是概率值, 相比于k-means,高斯混合模型可以有效识别边缘数据,结果更为柔性。
5分类辨识模型的建立:以聚类结果作为监督学习样本,训练随机森林模 型,可用来预测辨识新的未知数据分类。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明 的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的 保护范围之内。同时本说明书中未作详细描述的内容均属于本领域技术人员公 知的现有技术。

Claims (10)

1.一种基于大数据危险场景的驾驶风格分析方法,其特征在于,包括:
数据清洗:按车辆速度筛选,按道路类型筛选,按前方是否有目标车筛选,减小原始数据行数;
数据切片:依据前方是否有目标车,将数据切片成一个个片段,每个片段聚合出一条统计结果,再将全部片段聚合出最终统计结果,作为清洗后的数据集;
评价指标降维:采用归一法和和主成分分析对初始指标进行降维,经过旋转因子旋转后发现更多未知场景;按照旋转因子矩阵,实现不同场景的分析;
建立聚类模型:基于k-means聚类结果的高斯混合模型输出结果是概率值,有效识别边缘数据,结果更为柔性;
建立分类辨识模型:以k-means聚类结果作为监督学习样本,训练随机森林模型,用来预测辨识新的未知数据分类,辨识未知驾驶员的驾驶风格。
2.根据权利要求1所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于,
所述数据切片方法具体内容如下:
如果在两个连续时间点中,传感器都感知到了同一个前方目标车,则认为这两个时间点属于同一个切片;每个切片输出一个指标向量值;若共有M个切片,每个切片包含N个指标结果,记为N=[n1 n2…n10],10是评价指标的维度;
对于1个驾驶员,形成1行*10列的数据向量U,U=[u1,u2,......,u10];对于U中的第i个元素,计算式为:
Figure FDA0003581178110000021
其中,M表示切片数量,x表示样本数据值,i表示样本中第i个特征,和U中的下角标一一对应,j表示遍历序数,取值为1~M间的整数。
3.根据权利要求2所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
所述初始指标,是指选择10个分析指标,它们分别是:本车速度v、本车加速度、本车超速比例、制动踏板激活状态、节气门开度、最大节气门大度、相对前车速度、最大相对速度、相对距离、碰撞时间;
归一化使各指标处于同一数量级,进行综合对比评价,计算公式为:
Figure FDA0003581178110000022
其中,x*为归一化后的数值,x为原始数值,xmax为原始最大数值,xmin为原始最小数值;
所述主成分分析是指将初始指标组合成综合指标,同时将信息损失降低到最小;
旋转因子RC2代表驾驶过程速度和节气门开度,RC3与发生超速及碰撞等极端工况有关;以RC2和RC3为研究对象,分析驾驶员超速并接近前车的倾向,即危险工况的驾驶风格。
4.根据权利要求3所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
所述k-means,是指k-means均值聚类算法,对于给定数据集D=[x1,x2,……,xm],指定分类个数p,使得聚类点λj∈(1,2,......,k)的平方误差最小;
以k-means聚类结果为基础,构建高斯混合模型;
高斯混合模型由多个单高斯模型组合而成,高斯混合模型的输出结果是各个样本占据某一分类结果的概率;均值向量和协方差矩阵确定高维度的高斯混合模型,高斯混合模型的概率分布可表示为下式:
Figure FDA0003581178110000031
其中,ρξ(x)是概率分布,ξ为样本空间,xi为第i个样本,k是单高斯模型的数量,αi是元素属于第k个高斯模型的可能性,
Figure FDA0003581178110000032
是第k个高斯模型的密度函数;μi和Σi是第i个单高斯模型的均值和方差;
将k-means聚类结果作为初值输入,会获得更为柔性的分类结果。
5.根据权利要求4所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于,
所述训练随机森林模型具体构建步骤如下:
步骤1:随机抽样,训练决策树。有放回的随机抽取多个样本,形成样本数据集1;
步骤2:随机选取属性,做节点分类属性;假设训练样本集包含M个属性,随机再每个分裂节点处选择D个属性,并且d<D,节点分裂属性不可重复;
步骤3:重复步骤2,直到不能再分裂为止;
步骤4:重复步骤1~3,建立多棵决策树,形成森林。
6.根据权利要求5所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
还包括采用留一法评估随机森林模型的有效性;具体内容包括:将33名驾驶员样本组成的测试集划分为训练集和验证集,训练集包含32份样本,验证集包含1份样本;更换不同的验证集,进行33次交叉验证,得到组验证结果;比对聚类结果和辨识结果,分别计算三种标签的辨识率,进而得出随机森林模型的综合辨识率;
经评估,基于随机森林模型的辨识策略能正确识别90.9%危险场景的驾驶风格标签。
7.根据权利要求1所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
数据初筛条件如下:
选取速度30-150km/h;
前方有目标车,且碰撞时间ttc小于10s。
8.根据权利要求3所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
所述本车超速比例η计算式如下:
Figure FDA0003581178110000041
其中t为超速时长,单位为秒;T为总驾驶时长,单位为秒;下角标为道路类型。
9.根据权利要求1所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:所述按照旋转因子矩阵,实现不同场景的分析,具体计算原理公式如下:
Figure FDA0003581178110000042
式中,Di表示第i个主成分,Xi表示第i个原始数据,i=1、2、……、m,k为权重系数;任意两个主成分的协方差为零,方向正交。
10.根据权利要求4所述的一种基于大数据危险场景的驾驶风格分析方法,其特征在于:
对于给定数据集D=[x1 x2...x33],K-means首先确定聚类数量N,然后随机选取聚类中心δn=(n=1,2,...,N),最后通过迭代计算使xi与其最近的δn的欧氏距离之和最小,采用如下公式:
Figure FDA0003581178110000051
式中,xi代表样本点,δn代表聚类中心,E代表了聚类结果的聚合程度。
CN202210352314.2A 2022-04-04 2022-04-04 一种基于大数据危险场景的驾驶风格分析方法 Pending CN114971156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210352314.2A CN114971156A (zh) 2022-04-04 2022-04-04 一种基于大数据危险场景的驾驶风格分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210352314.2A CN114971156A (zh) 2022-04-04 2022-04-04 一种基于大数据危险场景的驾驶风格分析方法

Publications (1)

Publication Number Publication Date
CN114971156A true CN114971156A (zh) 2022-08-30

Family

ID=82978067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210352314.2A Pending CN114971156A (zh) 2022-04-04 2022-04-04 一种基于大数据危险场景的驾驶风格分析方法

Country Status (1)

Country Link
CN (1) CN114971156A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010370A (zh) * 2023-03-28 2023-04-25 太仓市律点信息技术有限公司 结合边缘计算的数字业务信息处理方法及服务器
CN116968744A (zh) * 2023-09-20 2023-10-31 北京理工大学 一种驾驶模式实时切换方法、系统、电子设备及介质
CN117035311A (zh) * 2023-08-09 2023-11-10 上海智租物联科技有限公司 一种通过向量网络连接强度计算换电柜撤柜需求的方法
CN117184103A (zh) * 2023-11-08 2023-12-08 北京理工大学 一种驾驶风格识别方法、系统及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010370A (zh) * 2023-03-28 2023-04-25 太仓市律点信息技术有限公司 结合边缘计算的数字业务信息处理方法及服务器
CN117035311A (zh) * 2023-08-09 2023-11-10 上海智租物联科技有限公司 一种通过向量网络连接强度计算换电柜撤柜需求的方法
CN116968744A (zh) * 2023-09-20 2023-10-31 北京理工大学 一种驾驶模式实时切换方法、系统、电子设备及介质
CN116968744B (zh) * 2023-09-20 2023-12-26 北京理工大学 一种驾驶模式实时切换方法、系统、电子设备及介质
CN117184103A (zh) * 2023-11-08 2023-12-08 北京理工大学 一种驾驶风格识别方法、系统及设备
CN117184103B (zh) * 2023-11-08 2024-01-09 北京理工大学 一种驾驶风格识别方法、系统及设备

Similar Documents

Publication Publication Date Title
CN114971156A (zh) 一种基于大数据危险场景的驾驶风格分析方法
CN112508392B (zh) 一种山区双车道公路隐患路段交通冲突风险动态评估方法
CN111753985B (zh) 基于神经元覆盖率的图像深度学习模型测试方法与装置
CN102663100B (zh) 一种两阶段混合粒子群优化聚类方法
CN104007431B (zh) 基于dpLVSVM模型的雷达HRRP的目标识别方法
CN113232669B (zh) 一种基于机器学习的驾驶风格辨识方法
CN109840612A (zh) 用户驾驶行为分析方法及系统
CN109635830B (zh) 用于估算汽车质量的有效数据的筛选方法
CN110705582B (zh) 一种基于改进K-Means聚类算法的船舶过桥行为特征提取方法
CN108229567B (zh) 驾驶员身份识别方法及装置
CN108985327A (zh) 一种基于因子分析的地形匹配区自组织优化分类方法
Puig et al. Application-independent feature selection for texture classification
CN110633729A (zh) 一种面向智能网联车辆群组测试的驾驶风险分级聚类方法
CN102945553A (zh) 基于自动差分聚类算法的遥感图像分割方法
CN115422747A (zh) 一种机动车尾气污染物排放量的计算方法和计算装置
CN113297795A (zh) 一种纯电动汽车行驶工况构建方法
CN109002858A (zh) 一种用于用户行为分析的基于证据推理的集成聚类方法
Liu et al. Real-time traffic status classification based on Gaussian mixture model
CN110826785A (zh) 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法
Li et al. Unsupervised driving style analysis based on driving maneuver intensity
Yang et al. Driving behavior safety levels: Classification and evaluation
Yuan et al. Improved random forest classification approach based on hybrid clustering selection
US7272583B2 (en) Using supervised classifiers with unsupervised data
Hu et al. A trimmed mean approach to finding spatial outliers
CN112948965A (zh) 一种基于机器学习和统计验证的汽车行驶工况的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination