CN114818981A - 一种驾驶行为的模仿学习方法 - Google Patents

一种驾驶行为的模仿学习方法 Download PDF

Info

Publication number
CN114818981A
CN114818981A CN202210583928.1A CN202210583928A CN114818981A CN 114818981 A CN114818981 A CN 114818981A CN 202210583928 A CN202210583928 A CN 202210583928A CN 114818981 A CN114818981 A CN 114818981A
Authority
CN
China
Prior art keywords
driving track
driving
track
enhanced
track data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210583928.1A
Other languages
English (en)
Inventor
张学锋
王冠
杨根科
褚健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Original Assignee
Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University filed Critical Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority to CN202210583928.1A priority Critical patent/CN114818981A/zh
Publication of CN114818981A publication Critical patent/CN114818981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种驾驶行为的模仿学习方法,涉及人工智能模仿学习技术领域,包括以下步骤:S100、原始轨迹数据处理;S200、驾驶轨迹数据集数据增强;S300、增强驾驶轨迹数据集聚类;S400、模仿学习模型训练。本发明打通了从原始轨迹数据到驾驶行为学习的全流程,对不同的驾驶行为进行模拟学习,在交通流模拟仿真时提高了交通状况还原的真实性。

Description

一种驾驶行为的模仿学习方法
技术领域
本发明涉及人工智能模仿学习技术领域,尤其涉及一种对驾驶行为的模仿学习方法。
背景技术
驾驶员行为的分类结果是其驾驶行为的综合体现,可以通过车辆的运动状况以及驾驶员对驾驶环境变化率的敏感度进行驾驶员分类,特别是通过驾驶员的加速度变化率、跟车时的车头时距和车头间距、换道的频率、是否发生违规行为等指标进行界定。一般情况,根据驾驶行为的综合体现,驾驶员的行为往往被分为普通型,保守型,激进型。
在交通场景中,保守型驾驶员对环境中发生的微小变化感知最强,如若前方车辆的速度减缓,保守型驾驶员会产生较强的减速意识甚至产生刹车行为;若前方车辆发生并道行为,保守型驾驶员会剧烈减速以让行,交通安全意识强,倾向于保持最大的安全距离。相反,激进型驾驶员对交通安全意识不强,如若前方车辆的速度减缓,激进型驾驶员往往倾向于进行换道;若前方车辆发生并道行为,激进型驾驶员往往在并道完成前加速超车而不是减速、让行。激进驾驶员还会做出违背交通驾驶规则的行为,如在城市快速路中加塞、强制并道,连续换道。这样的交通行为对于其它车辆的驾驶行为会产生巨大的影响,严重时甚至会导致道路堵塞或者交通事故出现。普通型驾驶员的驾驶行为介于保守型和激进型之间,将非保守,非激进型的驾驶员记为普通型驾驶员。学习不同类型驾驶员在不同交通场景状态下采取不同驾驶行为的概率,有助于在交通流模拟仿真时更加真实地还原交通情况。
现有的驾驶行为模型学习方法主要有强化学习和模仿学习两类。强化学习方法将车辆看作是由一个驾驶模型控制的智能体,智能体是设计者设计的拥有一定属性和行为特性的对象。智能体和环境进行交互,采取动作进而获取反馈。通过设计合适的奖励函数,更新驾驶模型,驾驶模型能够获得最好的长期回报。但是使用强化学习方式进行建模,要求研究人员手动针对不同的场景设计复杂的奖励,这些奖励的主观依赖程度大,回报函数的好坏取决于研究人员的经验和能力。平衡各种特征需求,需要进行费时费力的手工调试,并且即使是同一个场景,不同的需求也会带来驾驶特征的变化。
传统的学习方式往往采用相机、激光雷达等传感器的采集数据进行学习,由于经济、社会因素,这样的数据是难以获取的;没有针对性地对驾驶数据稀少的问题提出有效解决,因此造成了模型难以拟合的问题;传统的强化学习或者模仿学习方法,仅仅是对整体的车流进行学习,没有针对性地对交通场景中不同类型的驾驶行为进行学习。
专利《基于模仿学习算法的高速公路车辆跟驰行为重构方法》(CN114328448A)公开了一种基于模仿学习的高速公路跟驰行为,主要使用仿真数据模拟高速公路上的车辆驾驶,并读取每个时间的状态作为输入,仿真车辆输出的加速度作为标签进行学习。但是该方法只学习了车辆的跟驰行为,没有涉及换道行为;使用的数据为仿真数据,不具备模仿真实驾驶行为的能力;没有针对性地学习出不同类型驾驶员的驾驶行为。
因此,本领域的技术人员致力于开发一种驾驶行为的模拟学习方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何对不同的驾驶行为进行模拟学习,在交通流模拟仿真时真实地还原交通情况。
发明人考虑到获取真实世界海量的驾驶数据是难以实现的,从数据形式简单,获取途径广泛的原始轨迹数据出发,通过数据增强算法,构建进行模仿学习的增强驾驶轨迹数据集。再通过驾驶行为分类算法,将增强驾驶轨迹数据集中的数据分为普通行为型,保守行为型,激进行为型。最后构造三个模仿学习模型,分别使用三种数据对三个模型进行训练,获得普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型。
本发明的一个实施例中,提供了一种驾驶行为的模拟学习方法,包括以下步骤:
S100、原始轨迹数据处理,获取原始轨迹数据,使用轨迹数据处理算法对原始轨迹数据进行处理获得驾驶轨迹数据;
S200、驾驶轨迹数据集数据增强,使用数据增强算法对驾驶轨迹数据集进行数据增强,获得增强驾驶轨迹数据集;
S300、增强驾驶轨迹数据集聚类,使用驾驶行为分类算法对增强驾驶轨迹数据集进行聚类,得到普通行为型增强驾驶轨迹数据集、保守行为型增强驾驶轨迹数据集、激进行为型增强驾驶轨迹数据;
S400、模仿学习模型训练,使用模仿学习模型对普通行为型增强驾驶轨迹数据集、保守行为型增强驾驶轨迹数据集、激进行为型增强驾驶轨迹数据集分别进行模仿学习,获得普通行为型模仿学习模型,保守行为型模仿学习模型,激进行为型模仿学习模型。
可选地,在上述实施例的驾驶行为的模拟学习方法中,步骤S100包括以下步骤:
S110、获取原始轨迹数据,原始轨迹数据的格式使用每一条轨迹的时间-位置表示;
S120、计算状态信息和动作信息,通过轨迹数据处理算法,计算每一个时刻车辆的状态信息和动作信息,得到驾驶轨迹数据;
S130、保存驾驶轨迹数据,驾驶轨迹数据包括车辆的时间信息、位置信息、状态信息、动作信息。
进一步地,在上述实施例的驾驶行为的模拟学习方法中,原始轨迹数据通过采样摄像头对交通道路进行拍摄获得,采样摄像头一秒内产生的图像的张数称为帧数(FPS),采样时间间隔(T)为帧数的倒数,即
Figure BDA0003665094550000031
T为一个定值,对于一条总时长为t的轨迹,轨迹间隔个数(N)的定义为
Figure BDA0003665094550000032
原始轨迹数据的格式表示为:
{(t0T,p0T),(t1T,p1T),……,(tiT,piT),……,(tNT,pNT)},
其中,元组(tiT,piT)代表轨迹在第i个时间间隔的时间tiT以及位置piT
进一步地,在上述实施例的驾驶行为的模拟学习方法中,驾驶轨迹数据集的格式表示为:
{(t0T,p0T,s0T,a0T),(t1T,p1T,s1T,a1T),……,(tiT,piT,siT,aiT),……,(tNT,pNT,sNT,aNT)},
其中,元组(tiT,piT,siT,aiT)代表驾驶轨迹在第i个时间间隔的时间信息tiT,位置信息piT,状态信息siT,以及动作信息aiT
进一步地,在上述实施例的驾驶行为的模拟学习方法中,状态信息包括驾驶轨迹状态信息和驾驶轨迹环境状态信息,其中驾驶轨迹状态信息包括速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数;驾驶轨迹环境状态信息包括驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息。
进一步地,在上述实施例的驾驶行为的模拟学习方法中,动作信息包括加速度、转向角。
进一步地,在上述实施例的驾驶行为的模拟学习方法中,步骤S120中的轨迹数据处理算法包括以下步骤:
S121、计算驾驶轨迹状态信息,根据驾驶轨迹的位置、时间信息,计算出驾驶轨迹在每一个时刻下的速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数,获得驾驶轨迹状态信息;
S122、计算驾驶轨迹环境状态信息,判断出距离该驾驶轨迹最近的车辆,计算出驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息,获得驾驶轨迹环境状态信息;
S123、计算驾驶轨迹的动作信息,计算出驾驶轨迹在每一个时刻下采取的动作信息,即加速度和转向角。
可选地,在上述任一实施例的驾驶行为的模拟学习方法中,步骤S200中的数据增强算法包括以下步骤:
S210、设置期望轨迹数量,设置增强驾驶轨迹数据集中期望包含的轨迹数量;
S220、修改轨迹信息,随机从驾驶轨迹数据集中挑选一个驾驶轨迹,将该驾驶轨迹的状态信息中的任一条信息随机进行修改,修改方式为随机赋值;
S230、判断轨迹是否合理,判断修改驾驶轨迹的状态信息后,该驾驶轨迹是否会出现危险行为,危险行为包括撞墙、撞车,若不发生危险行为,则认为驶轨迹合理,数据增强成功,否则返回步骤S220;
S240、生成增强驾驶轨迹数据集,重复步骤S220和步骤S230,直至驾驶轨迹个数达到期望轨迹数量,即得到增强驾驶轨迹数据集。
可选地,在上述任一实施例的驾驶行为的模拟学习方法中,步骤S300中的驾驶行为分类算法包括以下步骤:
S310、保存时空特征向量,将增强驾驶轨迹数据集中每一条驾驶轨迹的时间和位置保存到一个特征向量中,该特征向量称为时空特征向量,并保存该时空特征向量对应的增强驾驶轨迹的ID,所有的时空特征向量的集合称为时空特征向量集合;
S320、确定聚类半径E、簇类型的个数m、最小阈值点数MinPts;聚类是将具有相似性特征属性的样本归为一类的过程,经过聚类后产生的具有相似特征属性的数据对象的集合,称为簇;其中,簇类型的个数m代表生成的簇的个数,最小阈值点数MinPts代表每一个簇的最小样本个数;
S330、查找核心轨迹段,核心轨迹段拥有簇内大多数样本的共同属性,遍历时空特征向量集合中的时空特征向量,如果时空特征向量的聚类半径E邻域内的时空特征向量个数大于最小阈值点数MinPts,认为是核心轨迹段,则以核心轨迹段为中心,聚类半径E为半径作轨迹簇生成,如果不是核心轨迹段,则继续寻找新的时空特征向量;当寻找到的核心轨迹段个数和簇类型的个数m相同时结束本步骤;
S340、时空特征向量聚类,遍历时空特征向量集合中的非核心轨迹段的时空特征向量,计算出该非核心轨迹段与m个核心轨迹段的距离,将该时空特征向量聚类至最近的核心轨迹段簇内;重复上述过程直至所有的非核心轨迹段都完成聚类,获得m个时空特征向量簇;
S350、增强驾驶轨迹数据集分类,根据每一条增强驾驶轨迹的ID,将每个时空特征向量簇的时空特征向量替换为对应的增强驾驶轨迹,获得m个增强驾驶轨迹簇,按照分类规则对增强驾驶轨迹数据集进行分类。
进一步地,在上述任一实施例的驾驶行为的模拟学习方法中,步骤S320中,簇类型的个数m=3。
进一步地,在上述任一实施例的驾驶行为的模拟学习方法中,S350中的分类规则为:分别统计三个增强驾驶轨迹簇中所有车辆的车辆制动踏板开度次数并相加,得到车辆制动踏板开度总次数,把车辆制动踏板开度总次数最小的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为保守行为型增强驾驶轨迹集,把车辆制动踏板开度总次数最大的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为激进行为型增强驾驶轨迹集,其他数据定义为普通行为型增强驾驶轨迹集。
可选地,在上述任一实施例的驾驶行为的模拟学习方法中,步骤S400包括以下步骤:
S410、初始化三个全连接神经网络,分别记为普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型,三个全连接神经网络的隐含层层数为3,隐含层的节点个数分别为128、256、64,初试化节点参数,将所有参数设置为0;
S420、使用普通行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对普通行为型模仿学习模型进行模仿学习训练;
S430、使用保守行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对保守行为型模仿学习模型进行模仿学习训练;
S440、使用激进行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对激进行为型模仿学习模型进行模仿学习训练。
可选地,在上述任一实施例的驾驶行为的模拟学习方法中,普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型的损失函数定义为:
Figure BDA0003665094550000061
其中,N代表训练集中一条轨迹数据的时间间隔数,对于不同长度的轨迹数据,其时间间隔个数不同,对于一条总时长为t的轨迹,
Figure BDA0003665094550000062
ai是轨迹数据中第i个时刻的动作信息,si是轨迹数据中第i个时刻的状态信息,π(si)为将si输入后的输出结果。
本发明从只包含时间位置信息的原始轨迹数据出发,通过轨迹数据处理算法计算出驾驶轨迹的状态信息与动作信息,获得驾驶轨迹数据集,通过驾驶轨迹数据的数据增强算法,生成增强轨迹数据集,通过驾驶行为分类算法,将增强驾驶轨迹数据集中的轨迹数据分为普通行为型、保守行为型、激进行为型,分别对增强驾驶轨迹数据集中的普通行为型、保守行为型、激进行为型数据进行训练,获得普通行为型模仿学习模型、保守行为型模仿学习模型、激进行为型模仿学习模型。本发明提出的轨迹数据处理算法能够有效计算出状态信息和动作信息,有助于深入挖掘影响驾驶行为的特征;本发明提出的驾驶数据增强集增强方法,有效解决了获取大量驾驶轨迹数据困难的问题;本发明的驾驶轨迹数据集聚类方法,能够将不同的驾驶轨迹数据进行分类,有助于分析不同类型数据的驾驶特性。本发明打通了从原始轨迹数据到驾驶行为学习的全流程,对不同的驾驶行为进行模拟学习,在交通流模拟仿真时提高了交通状况还原的真实性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是图示根据示例性实施例的一种驾驶行为的模仿学习方法流程图;
图2是图示根据示例性实施例的原始轨迹数据处理流程图;
图3是图示根据示例性实施例的驾驶轨迹数据集增强流程图;
图4是图示根据示例性实施例的增强驾驶轨迹数据集聚类流程图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方示意性地适当夸大了部件的厚度。
发明人设计了一种驾驶行为的模仿学习方法,如图1所示,包括以下步骤:
S100、原始轨迹数据处理,获取原始轨迹数据,使用轨迹数据处理算法对原始轨迹数据进行处理获得驾驶轨迹数据;具体包括:
S110、获取原始轨迹数据,原始轨迹数据的格式使用每一条轨迹的时间-位置表示;原始轨迹数据通过采样摄像头对交通道路进行拍摄获得,采样摄像头一秒内产生的图像的张数称为帧数(FPS),采样时间间隔(T)为帧数的倒数,即
Figure BDA0003665094550000071
T为一个定值,对于一条总时长为t的轨迹,轨迹间隔个数(N)的定义为
Figure BDA0003665094550000072
原始轨迹数
据的格式表示为:
{(t0T,p0T),(t1T,p1T),……,(tiT,piT),……,(tNT,pNT)},
其中,元组(tiT,piT)代表轨迹在第i个时间间隔的时间tiT以及位置piT
S120、计算状态信息和动作信息,通过轨迹数据处理算法,计算每一个时刻车辆的状态信息和动作信息,得到驾驶轨迹数据;驾驶轨
迹数据集的格式表示为:
{(t0T,p0T,s0T,a0T),(t1T,p1T,s1T,a1T),……,(tiT,piT,siT,aiT),……,(tNT,pNT,sNT,aNT)},
其中,元组(tiT,piT,siT,aiT)代表驾驶轨迹在第i个时间间隔的时间信息tiT,位置信息piT,状态信息siT,以及动作信息aiT;轨迹数据处
理算法包括以下步骤:
S121、计算驾驶轨迹状态信息,根据驾驶轨迹的位置、时间信息,计算出驾驶轨迹在每一个时刻下的速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数,获得驾驶轨迹状态信息;
S122、计算驾驶轨迹环境状态信息,判断出距离该驾驶轨迹最近的车辆,计算出驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息,获得驾驶轨迹环境状态信息;
S123、计算驾驶轨迹的动作信息,计算出驾驶轨迹在每一个时刻下采取的动作信息,即加速度和转向角。
S130、保存驾驶轨迹数据,驾驶轨迹数据包括车辆的时间信息、位置信息、状态信息、动作信息;状态信息包括驾驶轨迹状态信息和驾驶轨迹环境状态信息,其中驾驶轨迹状态信息包括速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数;驾驶轨迹环境状态信息包括驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息;动作信息包括加速度、转向角。
S200、驾驶轨迹数据集数据增强,使用数据增强算法对驾驶轨迹数据集进行数据增强,获得增强驾驶轨迹数据集;数据增强算法包括以下步骤:
S210、设置期望轨迹数量,设置增强驾驶轨迹数据集中期望包含的轨迹数量;
S220、修改轨迹信息,随机从驾驶轨迹数据集中挑选一个驾驶轨迹,将该驾驶轨迹的状态信息中的任一条信息随机进行修改,修改方式为随机赋值;
S230、判断轨迹是否合理,判断修改驾驶轨迹的状态信息后,该驾驶轨迹是否会出现危险行为,危险行为包括撞墙、撞车,若不发生危险行为,则认为驶轨迹合理,数据增强成功,否则返回步骤S220;
S240、生成增强驾驶轨迹数据集,重复步骤S220和步骤S230,直至驾驶轨迹个数达到期望轨迹数量,即得到增强驾驶轨迹数据集。
S300、增强驾驶轨迹数据集聚类,使用驾驶行为分类算法对增强驾驶轨迹数据集进行聚类,得到普通行为型增强驾驶轨迹数据集、保守行为型增强驾驶轨迹数据集、激进行为型增强驾驶轨迹数据;驾驶行为分类算法包括以下步骤:
S310、保存时空特征向量,将增强驾驶轨迹数据集中每一条驾驶轨迹的时间和位置保存到一个特征向量中,该特征向量称为时空特征向量,并保存该时空特征向量对应的增强驾驶轨迹的ID,所有的时空特征向量的集合称为时空特征向量集合;
S320、确定聚类半径E、簇类型的个数m、最小阈值点数MinPts;聚类是将具有相似性特征属性的样本归为一类的过程,经过聚类后产生的具有相似特征属性的数据对象的集合,称为簇;其中,簇类型的个数m代表生成的簇的个数,m=3,最小阈值点数MinPts代表每一个簇的最小样本个数;
S330、查找核心轨迹段,核心轨迹段拥有簇内大多数样本的共同属性,遍历时空特征向量集合中的时空特征向量,如果时空特征向量的聚类半径E邻域内的时空特征向量个数大于最小阈值点数MinPts,认为是核心轨迹段,则以核心轨迹段为中心,聚类半径E为半径作轨迹簇生成,如果不是核心轨迹段,则继续寻找新的时空特征向量;当寻找到的核心轨迹段个数和簇类型的个数m相同时结束本步骤;
S340、时空特征向量聚类,遍历时空特征向量集合中的非核心轨迹段的时空特征向量,计算出该非核心轨迹段与m个核心轨迹段的距离,将该时空特征向量聚类至最近的核心轨迹段簇内;重复上述过程直至所有的非核心轨迹段都完成聚类,获得m个时空特征向量簇;
S350、增强驾驶轨迹数据集分类,根据每一条增强驾驶轨迹的ID,将每个时空特征向量簇的时空特征向量替换为对应的增强驾驶轨迹,获得m个增强驾驶轨迹簇,按照分类规则对增强驾驶轨迹数据集进行分类;分类规则为:分别统计三个增强驾驶轨迹簇中所有车辆的车辆制动踏板开度次数并相加,得到车辆制动踏板开度总次数,把车辆制动踏板开度总次数最小的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为保守行为型增强驾驶轨迹集,把车辆制动踏板开度总次数最大的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为激进行为型增强驾驶轨迹集,其他数据定义为普通行为型增强驾驶轨迹集。
S400、模仿学习模型训练,使用模仿学习模型对普通行为型增强驾驶轨迹数据集、保守行为型增强驾驶轨迹数据集、激进行为型增强驾驶轨迹数据集分别进行模仿学习,获得普通行为型模仿学习模型,保守行为型模仿学习模型,激进行为型模仿学习模型;具体包括:
S410、初始化三个全连接神经网络,分别记为普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型,三个全连接神经网络的隐含层层数为3,隐含层的节点个数分别为128、256、64,初试化节点参数,将所有参数设置为0;普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型的损失函数定义为:
Figure BDA0003665094550000101
其中,N代表训练集中一条轨迹数据的时间间隔数,对于不同长度的轨迹数据,其时间间隔个数不同,对于一条总时长为t的轨迹,
Figure BDA0003665094550000102
ai是轨迹数据中第i个时刻的动作信息,si是轨迹数据中第i个时刻的状态信息,π(si)为将si输入后的输出结果;
S420、使用普通行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对普通行为型模仿学习模型进行模仿学习训练;
S430、使用保守行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对保守行为型模仿学习模型进行模仿学习训练;
S440、使用激进行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对激进行为型模仿学习模型进行模仿学习训练。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种驾驶行为的模仿学习方法,其特征在于,包括以下步骤:
S100、原始轨迹数据处理,获取原始轨迹数据,使用轨迹数据处理算法对所述原始轨迹数据进行处理获得驾驶轨迹数据;
S200、驾驶轨迹数据集数据增强,使用数据增强算法对所述驾驶轨迹数据集进行数据增强,获得增强驾驶轨迹数据集;
S300、增强驾驶轨迹数据集聚类,使用驾驶行为分类算法对所述增强驾驶轨迹数据集进行聚类,得到普通行为型增强驾驶轨迹数据集、保守行为型增强驾驶轨迹数据集、激进行为型增强驾驶轨迹数据集;
S400、模仿学习模型训练,使用模仿学习模型对所述普通行为型增强驾驶轨迹数据集、所述保守行为型增强驾驶轨迹数据集、所述激进行为型增强驾驶轨迹数据集分别进行模仿学习,获得普通行为型模仿学习模型,保守行为型模仿学习模型,激进行为型模仿学习模型。
2.如权利要求1所述的驾驶行为的模仿学习方法,其特征在于,所述步骤S100包括以下步骤:
S110、获取原始轨迹数据,所述原始轨迹数据的格式使用每一条轨迹的时间-位置表示;
S120、计算状态信息和动作信息,通过所述轨迹数据处理算法,计算每一个时刻车辆的状态信息和动作信息,得到所述驾驶轨迹数据;
S130、保存驾驶轨迹数据,所述驾驶轨迹数据包括车辆的时间信息、位置信息、状态信息、动作信息。
3.如权利要求2所述的驾驶行为的模仿学习方法,其特征在于,所述状态信息包括驾驶轨迹状态信息和驾驶轨迹环境状态信息,所述驾驶轨迹状态信息包括速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数;所述驾驶轨迹环境状态信息包括驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息。
4.如权利要求3所述的驾驶行为的模仿学习方法,其特征在于,所述动作信息包括加速度、转向角。
5.如权利要求4所述的驾驶行为的模仿学习方法,其特征在于,所述轨迹数据处理算法包括以下步骤:
S121、计算驾驶轨迹状态信息,根据驾驶轨迹的位置、时间信息,计算所述驾驶轨迹在每一个时刻下的速度、是否换道、是否超车,每一条驾驶轨迹的加速踏板开度最大值、车辆制动踏板开度次数与变化率、车辆速度最大值、车辆加速度平均值、换道次数,获得所述驾驶轨迹状态信息;
S122、计算驾驶轨迹环境状态信息,判断出距离该驾驶轨迹最近的车辆,计算出驾驶轨迹的车头时距、车头间距、横向位移、与周围车辆的距离、周围车辆的速度信息,获得所述驾驶轨迹环境状态信息;
S123、计算驾驶轨迹的动作信息,计算出驾驶轨迹在每一个时刻下采取的动作信息,即加速度和转向角。
6.如权利要求5所述的驾驶行为的模仿学习方法,其特征在于,所述数据增强算法包括以下步骤:
S210、设置期望轨迹数量,设置所述增强驾驶轨迹数据集中期望包含的轨迹数量;
S220、修改轨迹信息,随机从所述驾驶轨迹数据集中挑选一个驾驶轨迹,将所述驾驶轨迹的状态信息中的任一条信息随机进行修改,修改方式为随机赋值;
S230、判断轨迹是否合理,判断修改所述驾驶轨迹的状态信息后,所述驾驶轨迹是否会出现危险行为,所述危险行为包括撞墙、撞车,若不发生所述危险行为,则认为所述驾驶轨迹合理,数据增强成功,否则返回步骤S220;
S240、生成增强驾驶轨迹数据集,重复步骤S220和步骤S230,直至驾驶轨迹个数达到所述期望轨迹数量,即得到所述增强驾驶轨迹数据集。
7.如权利要求5所述的驾驶行为的模仿学习方法,其特征在于,所述驾驶行为分类算法包括以下步骤:
S310、保存时空特征向量,将所述增强驾驶轨迹数据集中每一条驾驶轨迹的时间和位置保存到一个特征向量中,所述特征向量称为时空特征向量,并保存所述时空特征向量对应的增强驾驶轨迹的ID,所有的时空特征向量的集合称为时空特征向量集合;
S320、确定聚类半径E、簇类型的个数m、最小阈值点数MinPts;聚类是将具有相似性特征属性的样本归为一类的过程,经过聚类后产生的具有相似特征属性的数据对象的集合,称为簇;其中,所述簇类型的个数m代表生成的簇的个数,所述最小阈值点数MinPts代表每一个簇的最小样本个数;
S330、查找核心轨迹段,核心轨迹段拥有簇内大多数样本的共同属性,遍历所述时空特征向量集合中的时空特征向量,如果时空特征向量的所述聚类半径E邻域内的时空特征向量个数大于所述最小阈值点数MinPts,认为是核心轨迹段,则以所述核心轨迹段为中心,所述聚类半径E为半径作轨迹簇生成,如果不是核心轨迹段,则继续寻找新的时空特征向量;当寻找到的核心轨迹段个数和所述簇类型的个数m相同时结束本步骤;
S340、时空特征向量聚类,遍历所述时空特征向量集合中的非核心轨迹段的时空特征向量,计算出所述非核心轨迹段与m个核心轨迹段的距离,将所述时空特征向量聚类至最近的核心轨迹段簇内;重复上述过程直至所有的非核心轨迹段都完成聚类,获得m个时空特征向量簇;
S350、增强驾驶轨迹数据集分类,根据每一条增强驾驶轨迹的ID,将每个时空特征向量簇的时空特征向量替换为对应的增强驾驶轨迹,获得m个增强驾驶轨迹簇,按照分类规则对所述增强驾驶轨迹数据集进行分类。
8.如权利要求5所述的驾驶行为的模仿学习方法,其特征在于,所述簇类型的个数m=3。
9.如权利要求5所述的驾驶行为的模仿学习方法,其特征在于,所述分类规则为:分别统计三个增强驾驶轨迹簇中所有车辆的车辆制动踏板开度次数并相加,得到车辆制动踏板开度总次数,把车辆制动踏板开度总次数最小的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为保守行为型增强驾驶轨迹集,把车辆制动踏板开度总次数最大的增强驾驶轨迹簇中的所有增强驾驶轨迹定义为激进行为型增强驾驶轨迹集,其他数据定义为普通行为型增强驾驶轨迹集。
10.如权利要求5所述的驾驶行为的模仿学习方法,其特征在于,所述步骤S400包括:
S410、初始化三个全连接神经网络,分别记为普通行为型模仿学习模型、保守行为型模仿学习模型和激进行为型模仿学习模型,三个全连接神经网络的隐含层层数为3,隐含层的节点个数分别为128、256、64,初试化节点参数,将所有参数设置为0;
S420、使用普通行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对所述普通行为型模仿学习模型进行模仿学习训练;
S430、使用保守行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对所述保守行为型模仿学习模型进行模仿学习训练;
S440、使用激进行为型增强驾驶轨迹数据集,以状态信息为模型的输入,动作信息作为模型的标签,对所述激进行为型模仿学习模型进行模仿学习训练。
CN202210583928.1A 2022-05-27 2022-05-27 一种驾驶行为的模仿学习方法 Pending CN114818981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210583928.1A CN114818981A (zh) 2022-05-27 2022-05-27 一种驾驶行为的模仿学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210583928.1A CN114818981A (zh) 2022-05-27 2022-05-27 一种驾驶行为的模仿学习方法

Publications (1)

Publication Number Publication Date
CN114818981A true CN114818981A (zh) 2022-07-29

Family

ID=82518953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210583928.1A Pending CN114818981A (zh) 2022-05-27 2022-05-27 一种驾驶行为的模仿学习方法

Country Status (1)

Country Link
CN (1) CN114818981A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024124906A1 (zh) * 2022-12-13 2024-06-20 中南大学 车辆跟驰运行风险状态判定方法、系统及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024124906A1 (zh) * 2022-12-13 2024-06-20 中南大学 车辆跟驰运行风险状态判定方法、系统及设备

Similar Documents

Publication Publication Date Title
CN110647839B (zh) 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110750877B (zh) 一种Apollo平台下的车辆跟驰行为预测方法
CN107169567B (zh) 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN110196587A (zh) 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN112418237A (zh) 车辆驾驶决策方法、装置及电子设备
CN114354219A (zh) 自动驾驶车辆的测试方法及装置
CN112141098B (zh) 一种智能驾驶汽车避障决策方法及装置
CN112201070B (zh) 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN109992886A (zh) 一种基于社会力的混合交通仿真方法
CN113255054A (zh) 一种基于异构融合特征的强化学习自动驾驶方法
CN114818981A (zh) 一种驾驶行为的模仿学习方法
CN118228612B (zh) 一种基于强化学习的自然性自动驾驶场景生成方法及装置
CN114162145A (zh) 车辆自动驾驶方法、装置及电子设备
Yang et al. A time-efficient approach for decision-making style recognition in lane-changing behavior
CN114495486B (zh) 一种基于层次强化学习的微观交通流预测系统及方法
CN115601954A (zh) 一种智能网联车队的换道判断方法、装置、设备及介质
CN115062202A (zh) 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质
CN115123159A (zh) 一种基于ddpg深度强化学习的aeb控制方法及系统
Koenig et al. Bridging the gap between open loop tests and statistical validation for highly automated driving
Islam et al. Enhancing Longitudinal Velocity Control With Attention Mechanism-Based Deep Deterministic Policy Gradient (DDPG) for Safety and Comfort
Chen et al. Human-Like Control for Automated Vehicles and Avoiding “Vehicle Face-Off” in Unprotected Left Turn Scenarios
CN110390398A (zh) 在线学习方法
CN112896166A (zh) 车辆换道方法、装置和电子设备
Hao et al. Aggressive lane-change analysis closing to intersection based on UAV video and deep learning
Chen et al. Platoon separation strategy optimization method based on deep cognition of a driver’s behavior at signalized intersections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination