CN114492157A - 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法 - Google Patents

一种基于个性化驾驶员模型的自动驾驶测试场景生成方法 Download PDF

Info

Publication number
CN114492157A
CN114492157A CN202111579203.7A CN202111579203A CN114492157A CN 114492157 A CN114492157 A CN 114492157A CN 202111579203 A CN202111579203 A CN 202111579203A CN 114492157 A CN114492157 A CN 114492157A
Authority
CN
China
Prior art keywords
vehicle
driver model
driver
longitudinal
reward function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111579203.7A
Other languages
English (en)
Inventor
陈君毅
马依宁
吴建峰
吴靖宇
熊璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202111579203.7A priority Critical patent/CN114492157A/zh
Publication of CN114492157A publication Critical patent/CN114492157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,包括:基于遗传与进化思想、结合强化学习,模拟人类驾驶员在驾驶经历中的各个阶段,逐级训练得到不同成长阶段的驾驶员模型,包括新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型;基于不同成长阶段的驾驶员模型,根据人类驾驶员的不同个性化驾驶特性,进一步训练得到个性化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;根据测试需求,将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按对应的需求比例,组合生成相应的目标测试场景。与现有技术相比,本发明能够有效提高生成测试场景的真实性和复杂性、提升测试效果和准确性。

Description

一种基于个性化驾驶员模型的自动驾驶测试场景生成方法
技术领域
本发明涉及自动驾驶技术领域,尤其是涉及一种基于个性化驾驶员模型的自动驾驶测试场景生成方法。
背景技术
随着自动驾驶等级的提高,面向传统汽车的测试工具与测试方法已不能满足自动驾驶汽车测试的需要。基于场景的虚拟测试方法在测试效率、测试成本等方面具有巨大的技术优势,是未来自动驾驶汽车测试验证的重要手段,已成为当前的研究热点。
目前自动驾驶车辆测试有实车测试和虚拟仿真测试两种,实车测试需要花费大量的人力和时间,随着驾驶自动化水平的提高,实车测试的局限性越来越明显,人们开始将更多的目光投向虚拟仿真测试,虚拟仿真测试能够高效地测试自动驾驶系统的安全性能,但现有的虚拟仿真技术生成的测试场景往往是固定的,场景中其他车辆的行为也都是固定的,车辆之间缺乏交互性,这就使得通过测试的自动驾驶系统可能只对特定的测试行为有正确的反应,导致测试结果可信度不高、测试准确性较低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,通过将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按需求组合,以生成目标测试场景,进而保证后续测试的准确性、提高测试效果。
本发明的目的可以通过以下技术方案来实现:一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,包括以下步骤:
S1、基于遗传与进化思想、结合强化学习,模拟人类驾驶员在驾驶经历中的各个阶段,逐级训练得到不同成长阶段的驾驶员模型,所述不同成长阶段的驾驶员模型包括新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型;
S2、基于不同成长阶段的驾驶员模型,根据人类驾驶员的不同个性化驾驶特性,进一步训练得到个性化驾驶员模型,所述个性化驾驶员模型包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;
S3、根据测试需求,将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按照对应的需求比例,以组合生成相应的目标测试场景。
进一步地,所述步骤S1具体包括以下步骤:
S11、定义并构建安全型驾驶员模型;
S12、根据安全型驾驶员模型,基于遗传与进化思想、结合强化学习,逐级训练得到新手驾驶员模型、经验驾驶员模型以及熟练驾驶员模型。
进一步地,所述安全型驾驶员模型的驾驶策略具体为:
Figure BDA0003426477660000021
时,自车采取“急减速”动作;
Figure BDA0003426477660000022
时,自车采取“减速”动作;
Figure BDA0003426477660000023
时,自车采取“减速”动作;
其中,drel_front为自车与同车道前车的相对距离,vrel_front为自车与同车道前车的相对速度、vego为自车速度。
进一步地,所述新手驾驶员模型的动作空间只有纵向动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速以及纵向急减速共五种动作;
所述新手驾驶员模型根据自车与他车的纵向相对距离drel、纵向相对速度vrel、自车速度vego以及车道信息来定义状态集,所述他车包括与本车处于不同车道的车,当他车在自车前方时,他车的纵向速度记为vf,当他车在自车后方时,他车的纵向速度记为vr,则纵向相对速度定义如下:
Figure BDA0003426477660000024
其中,drel包括drel_front、drel_crear、drel_left_front、drel_left_rear、drel_rigth_front和drel_right_rear,它们分别为本车与同车道前方车辆的相对距离、本车与同车道后方车辆的相对距离、本车与左侧车道前方车辆的相对距离、本车与左侧车道后方车辆的相对距离、本车与右侧车道前方车辆的相对距离以及本车与右侧车道后方车辆的相对距离;vrel包括vrel_front、vrel_crear、vrel_left_front、vrel_left_rear、vrel_rigth_front和vrel_right_rear,它们分别为本车与同车道前方车辆的相对速度、本车与同车道后方车辆的相对速度、本车与左侧车道前方车辆的相对速度、本车与左侧车道后方车辆的相对速度、本车与右侧车道前方车辆的相对速度以及本车与右侧车道后方车辆的相对速度;
所述新手驾驶员模型根据所在车道来定义车道编号line_id,根据自车的速度与前车的相对距离计算得到
Figure BDA0003426477660000031
并将其分为三个状态,具体包括:
Figure BDA0003426477660000032
根据自车速度与相对速度来计算
Figure BDA0003426477660000033
并将其分为三个状态,具体包括:
Figure BDA0003426477660000034
Figure BDA0003426477660000035
Figure BDA0003426477660000036
所述新手驾驶员模型中,自车在车道内相对车道中心线的偏移量被量化为:
“偏左”,即自车位于车道中心线左侧;
“居中”,即自车位于车道中心线上;
“偏右”,即自车位于车道中心线右侧。
进一步地,所述步骤S12中训练新手驾驶员模型的具体过程为:
首先建立车辆随时间的运动模型,并选取合适的时间步,同时初始化参数、生成仿真环境,其中,所述初始化参数包括仿真车辆总数nc、允许的最大初始化距离
Figure BDA0003426477660000037
以及仿真时长tf
再利用安全型驾驶员模型作为背景车进行训练,得到新手驾驶员模型雏形;
然后以新手驾驶员模型雏形代替安全型驾驶员模型作为背景车进行训练,得到新手驾驶员模型;
所述新手驾驶员模型训练过程中的奖励函数具体为:
R1=ωsRsafetyeRefficiency
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,所述责任判别机制具体为:当发生车辆碰撞时,若两辆车均无变道,则前车无交通事故责任,而后车担负全部交通事故责任;若一车有变道行为,则具有变道行为的车负全责;若两车均变道,则两车均摊责任;
Refficiency为考虑通行效率的奖励函数;
在训练过程中,新手驾驶员模型通过与环境交互,获取环境信息,新手驾驶员模型在获得当前时刻t的状态量st之后,选择一个和当前状态量st对应的最具价值动作
Figure BDA0003426477660000041
具体训练时新手驾驶员模型在st状态下,根据
Figure BDA0003426477660000042
选择执行的动作at之后,得到一个奖励rt+1,并进入下一个状态st+1,根据下一个状态的对应的
Figure BDA0003426477660000043
和rt+1来更新Q(st,at),通过不断迭代训练,使新手驾驶员模型最终可以做出对应于当前环境状态下的最优动作。
进一步地,所述经验驾驶员模型的动作空间遗传有新手驾驶员模型的五种动作,并将横向匀速与五种纵向动作组合进化得到新的五种变道动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速、纵向匀速横向匀速、纵向加速横向匀速、纵向急加速横向匀速、纵向减速横向匀速以及纵向急减速横向匀速共十种动作;
所述经验驾驶员模型的状态集与新手驾驶员模型的状态集相一致;
所述步骤S12中训练检验驾驶员模型的具体过程为:
首先用安全型驾驶员模型作为背景车进行训练,得到经验驾驶员模型雏形;
然后用已训练的新手驾驶员模型和经验驾驶员模型雏形等比例代替安全型驾驶员模型,以作为背景车进行训练,得到经验驾驶员模型;
所述经验驾驶员模型训练过程中的奖励函数具体为:
R2=ωsRsafetyeRefficiencyrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离和驾驶经验;
Refficiency为考虑通行效率的奖励函数;
Rriding_comfort为考虑乘车舒适性的奖励函数。
进一步地,所述熟练驾驶员模型的动作空间遗传有经验驾驶员模型的十种动作,并将横向加速、横向减速分别与五种纵向动作组合进化得到新的十种变道动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速、纵向匀速横向匀速、纵向加速横向匀速、纵向急加速横向匀速、纵向减速横向匀速、纵向急减速横向匀速、纵向匀速横向减速、纵向加速横向减速、纵向急加速横向减速、纵向减速横向减速、纵向急减速横向减速、纵向匀速横向加速、纵向加速横向加速、纵向急加速横向加速、纵向减速横向加速以及纵向急减速横向加速共二十种动作;
所述熟练驾驶员模型的状态集与新手驾驶员模型的状态集相一致;
所述步骤S12中训练熟练驾驶员模型的具体过程为:
先用安全型驾驶员模型作为背景车进行训练,得到熟练驾驶员模型雏形;
然后用已训练的新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型雏形等比例代替安全型驾驶员模型,以作为背景车进行训练,生成熟练驾驶员模型;
所述熟练驾驶员模型训练过程中的奖励函数具体为:
R3=ωsRsafetyeRefficiencyrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离;
Refficiency为考虑通行效率的奖励函数;
Rriding_comfort为考虑乘车舒适性的奖励函数。
进一步地,所述步骤S2具体包括以下步骤:
S21、确定待训练的个性化驾驶员模型的类别,使该个性化驾驶员模型继承熟练驾驶员模型的动作空间,同时该个性化驾驶员类型的状态集与新手驾驶员模型的状态集相一致,其中,个性化驾驶员模型的类别包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;
S22、采用安全型驾驶员模型作为背景车进行训练,得到个性化驾驶员模型雏形,再将新手驾驶员模型、经验驾驶员模型以及熟练驾驶员模型等比例代替安全型驾驶员模型,以作为背景车进行训练,生成相应的个性化驾驶员模型。
进一步地,所述个性化驾驶员模型的训练过程中,激进型驾驶员模型的奖励函数具体为:
R4=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性因素的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制;
Rdriving_feeling为考虑驾驶体验的奖励函数,该部分奖励函数的设计需要考虑自车一定范围内交通流密度以及车速相关的驾驶体验;
Refficiency为考虑通行效率的奖励函数;
保守型驾驶员模型的奖励函数具体为:
R5=ωsRsafetyrRriding_comforteRefficiency
其中,ωs为安全性因素的权重,ωr为乘车舒适性因素的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rriding_comfort为考虑乘车舒适性的奖励函数;
Refficiency为考虑通行效率的奖励函数;
挑衅型驾驶员模型的奖励函数具体为:
R6=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rdriving_feeling为考虑驾驶体验的奖励函数;
Refficiency为考虑通行效率的奖励函数;
合作型驾驶员模型的奖励函数具体为:
R7=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rdriving_feeling为考虑驾驶体验的奖励函数;
Refficiency为考虑通行效率的奖励函数。
与现有技术相比,本发明提出一种基于遗传与进化思想、结合强化学习,以训练得到驾驶员模型的方案,通过定义安全型驾驶员模型,首先生成新手驾驶员模型、再逐级生成具有一定经验的经验驾驶员模型、最后生成熟练驾驶员模型,之后在熟练驾驶员模型的基础上赋予人类个性化驾驶特性,以训练得到个性化驾驶员模型,最后将生成的驾驶员模型按测试需求以一定比例组合,从而生成相应的测试场景。
本发明充分考虑了现实中的不同驾驶员驾驶熟练程度不同的特点以及熟练驾驶员中不同驾驶员之间驾驶风格各异的特点,训练得到多种驾驶员模型,使得生成的测试场景具有较强的真实性。
本发明中由于生成的测试场景中背景车的驾驶风格和驾驶熟练程度不相同,同时由于训练各驾驶员模型时背景车中的驾驶员模型各异,从而使得最终生成的测试场景具有较高的复杂性。
本发明利用强化学习方法训练驾驶员模型,使得训练出的驾驶员模型具有较高的自主性、交互性和演化性,从而使生成的测试场景中背景车的行为具有较高的不确定性,能较好地反映被测自动驾驶系统的性能,提高测试效果。
本发明在训练每个目标驾驶员模型时,均首先用安全型驾驶员模型作为背景车训练出目标驾驶员模型雏形,目标驾驶员模型的雏形是指当前得到的驾驶员模型初步具有目标驾驶员的行为特点,但对行为的控制还不够精确,再用已经训练好的驾驶员模型和训练的目标驾驶员模型雏形替代安全型驾驶员模型,以作为背景车进行训练,以此能够更快、更准确地训练得到目标驾驶员模型。
本发明生成的测试场景中背景车所用的驾驶员模型可以根据需要从已经训练的个性化驾驶员模型中进行选择,使得测试场景具有较强的泛化性。
附图说明
图1为本发明的方法流程示意图;
图2为实施例的应用过程示意图;
图3为实施例中不同成长阶段的驾驶员模型训练过程示意图;
图4为实施例中个性化驾驶员模型训练过程示意图;
图5为实施例中具有一定挑战性的测试场景生成示意图;
图6为实施例中应用本发明方法进行自动驾驶系统测试的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,包括以下步骤:
S1、基于遗传与进化思想、结合强化学习,模拟人类驾驶员在驾驶经历中的各个阶段,逐级训练得到不同成长阶段的驾驶员模型,所述不同成长阶段的驾驶员模型包括新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型;
S2、基于不同成长阶段的驾驶员模型,根据人类驾驶员的不同个性化驾驶特性,进一步训练得到个性化驾驶员模型,所述个性化驾驶员模型包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;
S3、根据测试需求,将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按照对应的需求比例,以组合生成相应的目标测试场景。
其中,在开始驾驶员模型训练的前期,需要设计一个安全型驾驶员模型作为背景车用于训练,本发明提出的安全型驾驶员模型的策略为:
Figure BDA0003426477660000081
时,自车采取“急减速”动作;
Figure BDA0003426477660000082
时,自车采取“减速”动作;
Figure BDA0003426477660000083
时,自车采取“减速”动作;
其中,drel_front表示自车与同车道前车的相对距离、vrel_front表示自车与同车道前车的相对速度、vego表示自车速度。
而为了有效提高模型训练的效率和准确性,本发明在训练每个目标驾驶员模型时,都先用安全型驾驶员模型作为背景车训练出目标驾驶员模型雏形(这里所说的目标驾驶员模型雏形是指当前得到的驾驶员模型初步具有目标驾驶员的行为特点,但对行为的控制还不够精确),再用已经训练好的驾驶员模型(训练新手驾驶员模型时没有已训练好的驾驶员模型)和训练的目标驾驶员模型雏形替代安全型驾驶员模型,以作为背景车进行训练,该方法与一直用安全型驾驶员模型作为背景车训练或一直用已训练好的驾驶员模型做背景车(训练新手驾驶员模型时除外)训练相比,能更快地得到目标驾驶员模型。
此外,本发明还在构建用于驾驶员模型训练的强化学习奖励函数时,提出了一种责任判定机制:当发生车辆碰撞时,若两辆车均无变道,则前车无交通事故责任,而后车担负全部交通事故责任;若一车有变道行为,则具有变道行为的车负全责;若两车均变道,则两车均摊责任。
本发明基于对驾驶经验不同的考虑,将不同成长阶段的驾驶员模型设计为新手驾驶员、具有一定经验的经验驾驶员和熟练驾驶员,其中,新手驾驶员驾驶经验不足,不主观变道,很注重行驶的安全性,适度追求通行效率;具有一定经验的经验驾驶员则注重安全性,在必要情况下才会变道,适度追求乘坐舒适性;熟练驾驶员注重驾驶的安全性、乘坐舒适性和通行效率,会熟练执行各种变道等动作。
具体的,驾驶员模型通过选择离散的动作,来与交通状态信息进行交互,训练出符合要求的决策网络。根据车辆的横纵向运动定义车辆的动作空间,新手驾驶员模型的动作空间(只有纵向动作)包括:“纵向匀速”、“纵向加速”、“纵向急加速”、“纵向减速”、“纵向急减速”;
具有一定经验的驾驶员模型,除了遗传上述纵向动作之外,将“横向匀速”与上述纵向动作组合进化形成新的变道动作,具体包括“纵向匀速横向匀速”、“纵向加速横向匀速”、“纵向急加速横向匀速”、“纵向减速横向匀速”和“纵向急减速横向匀速”;
熟练驾驶员模型除了遗传上述纵向动作和变道动作之外,又将“横向加速”与“横向减速”与上述纵向动作组合进化形成新的变道动作,具体包括“纵向匀速横向减速”、“纵向加速横向减速”,“纵向急加速横向减速”,“纵向减速横向减速”,“纵向急减速横向减速”“纵向匀速横向加速”、“纵向加速横向加速”、“纵向急加速横向加速”、“纵向减速横向加速”和“纵向急减速横向加速”。
除了以上所述的动作集合,新手驾驶员模型、经验驾驶员以及熟练驾驶员还具有相一致的状态集,该状态集具体是根据自车与他车的纵向相对距离drel(drel包括drel_front、drel_crear、drel_left_front、drel_left_rear、drel_rigth_front和drel_right_rear,它们分别代表本车与同车道前方车辆的相对距离、本车与同车道后方车辆的相对距离、本车与左侧车道前方车辆的相对距离、本车与左侧车道后方车辆的相对距离、本车与右侧车道前方车辆的相对距离以及本车与右侧车道后方车辆的相对距离)、纵向相对速度vrel(vrel包括vrel_front、vrel_crear、vrel_left_front、vrel_left_rear、vrel_rigth_front和vrel_right_rear,符号规则与drel部分类似)、自车速度vego以及车道信息来定义,其中,当他车(包括与本车处于不同车道的车)在自车前方时,他车的纵向速度记为vf,当他车在自车后方时,他车的纵向速度记为vr,纵向相对速度定义如下:
Figure BDA0003426477660000101
根据所在车道来定义车道编号line_id;
根据自车的速度与前车的相对距离计算
Figure BDA0003426477660000102
并将其分为三个状态:
Figure BDA0003426477660000103
根据自车速度与相对速度来计算
Figure BDA0003426477660000104
并将其分为三个状态:
Figure BDA0003426477660000105
自车在车道内相对车道中心线的偏移量则被量化为“偏左”(自车位于车道中心线左侧),“居中”(自车位于车道中心线上)以及“偏右”(自车位于车道中心线右侧)。
本发明基于对不同驾驶风格的考虑,提出个性化驾驶员模型,具体是根据自车驾驶员是否考虑自车行为对周围车辆的影响,将驾驶风格分为单模态驾驶风格和多模态驾驶风格,所谓单模态驾驶风格是指自车驾驶员只考虑自车行为对自己的影响,不考虑自车行为对他车的影响,包括激进型和保守型两种;所谓多模态驾驶风格是指自车驾驶员驾驶过程中会考虑自车行为对他车的影响,包括合作型和挑衅型两种,其中合作型指自车在驾驶过程中会配合其他车行为,尽量给他车创造良好的行驶环境使他车利益最大化;挑衅型则指自车在驾驶过程中喜欢阻碍周围车辆,使他车陷入恶劣的驾驶环境中,阻止他车利益最大化。
本发明根据目标驾驶员类型对应的驾驶动机和驾驶经验来设计奖励函数,其中驾驶动机反映驾驶员在驾驶中追求的目标,具体的目标包括安全性、通行效率、乘坐舒适性和驾驶体验,乘坐舒适性指的是保持汽车在行驶过程中产生的振动和冲击环境对乘员的舒适性影响在一定界限内,主要通过驾乘人员的主观舒适性感觉进行评价,驾驶体验则侧重于驾驶员的主观感觉,不同风格驾驶员之间追求的驾驶体验差别较大,不同驾驶员模型对应的奖励函数如下:
训练新手驾驶员的奖励函数:新手驾驶员驾驶经验不足,不主观变道,很注重行驶的安全性,适度追求通行效率,注重安全性体现在避免有责事故发生以及保持较远跟车距离,基于此,设计训练新手驾驶员的奖励函数为:
R1=ωsRsafetyeRefficiency
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,Refficiency为考虑通行效率的奖励函数;
训练具有一定经验的经验驾驶员模型:具有一定经验的驾驶员,仍然注重安全性,在必要情况下才会变道,适度追求舒适性,同时为了提高通行效率,也会注意提高车速,基于此,设计奖励函数为:
R2=ωsRsafetyeRefficiencyrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离和驾驶经验,Refficiency为考虑通行效率的奖励函数,Rriding_comfort为考虑乘车舒适性的奖励函数;
训练熟练驾驶员模型:熟练驾驶员注重驾驶的安全性、舒适性和通行效率,会熟练执行各种变道等动作,基于此,设计奖励函数为:
R3=ωsRsafetyeRefficiencyrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离,Refficiency为考虑通行效率的奖励函数,Rriding_comfort为考虑乘车舒适性的奖励函数;
训练激进型驾驶员模型:激进驾驶员除了具有熟练的驾驶技能外,喜欢高速和车速变化带来的驾驶体验,不希望在拥堵路段过多停留,基于此,设计奖励函数为:
R4=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性因素的权重,ωd为驾驶体验的权重,ωe为通行效率的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制,Rdriving_feeling为考虑驾驶体验的奖励函数,该部分奖励函数的设计需要考虑自车一定范围内交通流密度以及车速相关的驾驶体验,Refficiency为考虑通行效率的奖励函数;
训练保守型驾驶员模型:保守型驾驶员在驾驶过程中注重安全性和舒适性,会避免频繁变速和变道,同时会保证较远的跟车距离,如下设置奖励函数:
R5=ωsRsafetyrRriding_comforteRefficiency
其中,ωs为安全性因素的权重,ωr为乘车舒适性因素的权重,ωe为通行效率的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,Rriding_comfort为考虑乘车舒适性的奖励函数,Refficiency为考虑通行效率的奖励函数;
训练挑衅型驾驶员模型:挑衅型驾驶员除了具有熟练驾驶员的一些特点之外,最明显的特征是喜欢阻碍周围车辆,尤其是后方车辆的行驶,并从中获取驾驶体验,基于此,设计奖励函数为:
R6=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,Rdriving_feeling为考虑驾驶体验的奖励函数,Refficiency为考虑通行效率的奖励函数;
训练合作型驾驶员模型:合作型驾驶员除了具有熟练驾驶员的一些特点之外,最明显的特点是会尽量给他车创造良好的行驶环境,并从中获取驾驶体验,基于此,设计奖励函数为:
R7=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重,Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,Rdriving_feeling为考虑驾驶体验的奖励函数,Refficiency为考虑通行效率的奖励函数。
本实施例应用上述技术方案,其具体应用流程如图2所示:将强化学习与遗传与进化思想相结合,先生成新手驾驶员模型,再逐级生成具有一定经验的驾驶员模型和熟练驾驶员模型,之后在熟练驾驶员模型的基础上赋予人类个性化驾驶特性,使之成为个性化驾驶员模型,最后将生成的驾驶员模型按需求以一定比例组合生成相应的测试场景。
图3所示为实施例中训练生成不同成长阶段的驾驶员模型的过程示意图,包括:
(1)训练新手驾驶员模型(该驾驶员模型只会进行纵向控制):在训练新手驾驶员之前,需要定义一个安全型驾驶员模型,之后定义新手驾驶员模型的动作空间和状态集。具体的动作空间包含“纵向匀速”、“纵向加速”、“纵向急加速”、“纵向减速”、“纵向急减速”;
具体的状态集要根据自车与他车的纵向相对距离(drel,drel可被替换为drel_front、drel_rear、drel_left_front、drel_left_rear、drel_rigth_front和drel_right_rear,它们分别代表本车与同车道前方车辆的相对距离、本车与同车道后方车辆的相对距离、本车与左侧车道前方车辆的相对距离、本车与左侧车道后方车辆的相对距离、本车与右侧车道前方车辆的相对距离以及本车与右侧车道后方车辆的相对距离)、纵向相对速度(vrel,vrel的替换规则与drel相同)、自车速度(vego)以及车道信息来定义状态集,其中,当他车(包括与本车处于不同车道的车)在自车前方时,他车的纵向速度记为vf;当他车在自车后方时,他车的纵向速度记为vr;纵向相对速度定义如下:
Figure BDA0003426477660000131
根据自车所在车道来定义车道编号line_id,根据自车的速度与前车的相对距离计算
Figure BDA0003426477660000132
并将其分为三个状态,具体包括
Figure BDA0003426477660000133
Figure BDA0003426477660000134
根据自车速度与相对速度来计算
Figure BDA0003426477660000135
并将其分为三个状态,包括
Figure BDA0003426477660000136
Figure BDA0003426477660000137
Figure BDA0003426477660000138
自车在车道内相对车道中心线的偏移量被量化为“偏左”(自车位于车道中心线左侧),“居中”(自车位于车道中心线上)以及“偏右”(自车位于车道中心线右侧)。
在具体训练新手驾驶员模型时,要先建立车辆随时间的运动模型,并选取合适的时间步,同时初始化参数(仿真车辆总数nc;允许的最大初始化距离
Figure BDA0003426477660000139
仿真时长tf),然后生成仿真环境;再利用安全型驾驶员作为背景车进行训练,得到控制不够精细的新手驾驶员模型雏形,然后用新手驾驶员模型雏形代替安全型驾驶员模型作为背景车进行训练,结合新手驾驶员模型对应的奖励函数,得到新手驾驶员模型。新手驾驶员模型通过与环境交互,获取环境信息。新手驾驶员模型在获得当前时刻t的状态量st之后,选择一个和当前状态量st对应的最具价值动作
Figure BDA0003426477660000141
Figure BDA0003426477660000142
具体训练时新手驾驶员模型在st状态下,根据
Figure BDA0003426477660000143
选择执行的动作at之后,得到一个奖励rt+1,并进入下一个状态st+1,根据下一个状态的对应的
Figure BDA0003426477660000144
和rt+1来更新Q(st,at),通过不断迭代使新手驾驶员模型最终可以做出对应于当前环境状态下的最优动作。
(2)训练具有一定经验的经验驾驶员模型(该驾驶员模型能熟练进行纵向控制,但会谨慎变道):在训练具有一定经验的驾驶员模型之前,让该驾驶员模型继承新手驾驶员模型的动作空间,并进行扩展,具体包括“纵向匀速”、“纵向加速”、“纵向急加速”、“纵向减速”、“纵向急减速”、“纵向匀速横向匀速”、“纵向加速横向匀速”、“纵向急加速横向匀速”、“纵向减速横向匀速”和“纵向急减速横向匀速”;该模型的状态集与新手驾驶员模型的一样。
训练具有一定经验的驾驶员模型时,先用安全型驾驶员模型作为背景车进行训练,得到控制不够精细的具有一定经验的驾驶员模型雏形,然后用已训练的新手驾驶员模型和具有一定经验的驾驶员模型雏形等比例代替安全型驾驶员模型作为背景车进行训练,结合经验驾驶员模型对应的奖励函数,得到具有一定经验的驾驶员模型。
(3)训练熟练驾驶员模型(该驾驶员模型能熟练进行纵向控制和变道):在训练熟练驾驶员模型之前,让该驾驶员模型继承具有一定经验的驾驶员模型的动作空间,并进行扩展,具体包括“纵向匀速”、“纵向加速”、“纵向急加速”、“纵向减速”、“纵向急减速”、“纵向匀速横向匀速”、“纵向加速横向匀速”、“纵向急加速横向匀速”、“纵向减速横向匀速”、“纵向急减速横向匀速”、“纵向匀速横向减速”、“纵向加速横向减速”,“纵向急加速横向减速”,“纵向减速横向减速”,“纵向急减速横向减速”“纵向匀速横向加速”、“纵向加速横向加速”、“纵向急加速横向加速”、“纵向减速横向加速”和“纵向急减速横向加速”;该模型的状态集与新手驾驶员模型的一样。
训练熟练驾驶员模型时,先用安全型驾驶员模型作为背景车进行训练,得到控制不够精细的熟练驾驶员模型雏形,然后用已训练的新手驾驶员模型、具有一定经验的驾驶员模型和熟练驾驶员模型雏形等比例代替安全型驾驶员模型作为背景车进行训练,结合熟练驾驶员模型对应的奖励函数,生成熟练驾驶员模型。
图4所示为个性化驾驶员模型的训练过程示意图,本实施例基于遗传与进化思想训练了激进型和挑衅性两种个性化驾驶员模型:
(1)训练激进型驾驶员模型:在训练激进型驾驶员模型之前,让该驾驶员模型继承熟练驾驶员模型的动作空间,同时该模型的状态集与新手驾驶员模型的一样。训练激进型驾驶员模型时,先用安全型驾驶员模型作为背景车进行训练,得到控制不够精细的激进型驾驶员模型雏形,然后用已训练的新手驾驶员模型、具有一定经验的驾驶员模型和熟练驾驶员模型等比例代替安全型驾驶员模型作为背景车进行训练,结合激进型驾驶员模型对应的奖励函数,生成激进型驾驶员模型。
(2)训练挑衅型驾驶员模型:挑衅型驾驶员除了具有熟练驾驶员的一些特点之外,最明显的特征是喜欢阻碍周围车辆,尤其是后方车辆的行驶,并从中获取驾驶体验。在训练挑衅型驾驶员模型之前,让该驾驶员模型继承熟练驾驶员模型的动作空间,同时该模型的状态集与新手驾驶员模型的一样。训练挑衅型驾驶员模型时,先用安全型驾驶员模型作为背景车进行训练,得到控制不够精细的挑衅型驾驶员模型雏形,然后用已训练的新手驾驶员模型、具有一定经验的驾驶员模型和熟练驾驶员模型等比例代替安全型驾驶员模型作为背景车进行训练,结合挑衅型驾驶员模型对应的奖励函数,生成挑衅型驾驶员模型。
最后再利用训练得到的各驾驶员模型,根据测试需求,将不同的驾驶员模型按比例组合生成对应的测试场景。本实施例利用已训练的驾驶员模型生成一种具有挑战性的测试场景,来测试被测自动驾驶系统的安全性、舒适性和通行效率,如图5所示,以背景车中激进型驾驶员模型和挑衅性驾驶员模型各占百分之五十来生成测试场景。在实际应用中,若想生成复杂的测试场景,则可在背景车中将新手驾驶员模型、具有一定经验的驾驶员模型占、熟练驾驶员模型、合作型驾驶员模型、挑衅型驾驶员模型以及保守型驾驶员模型设置为各占百分之十四,激进型驾驶员模型则设置为占百分之十六。
本实施例还基于生成的挑战性测试场景进行自动驾驶系统的测试,如图6所示:
步骤1:对模拟环境中的道路信息进行初始化,具体包括车道数目nline=3、车道宽度d=3.5m和车道长度l=400m;
步骤2:确定环境中背景车的数目ncar=16,确定背景车的初始速度范围为[70,120]km/h,给百分之五十的背景车赋予挑衅型驾驶员模型的驾驶策略,给另外百分之五十的背景车赋予激进型驾驶员模型的驾驶策略;
步骤3:确定目标车辆的初速度v0和初始横向位置x0,初始化循环次数nloop=1。目标车辆装有被测自动驾驶系统,目标车辆根据随机数被随机分配至某一车道中心处,根据[70,120]范围内的均匀分布随机给出目标的初始纵向速度;
步骤4:放置目标车辆。依据目标车辆的初速度v0和初位置(x0,0)在测试场景中放置目标车辆,其中0表示目标车辆的初始纵向位置在0m处;
步骤5:确定背景车初速度和初位置。背景车根据随机数被随机分配至某一车道,车辆在指定车道内的纵向位置根据[0,400]中的均匀分布随机确定,车辆的横向位置均为车道中心线处,根据[70,120]范围内的均匀分布随机给出汽车的初始纵向速度,形成测试场景;
步骤6:测试并记录目标车辆行驶过程中的相关参数和碰撞次数;
步骤7:当目标车辆行驶至400m处或发生碰撞时,保存目标车辆的横向位置x1和速度v1
步骤8:判断nloop>100是否成立,若未大于100,则令x0=x1,v0=v1,然后再进入步骤3;若大于100,则测试结束,进行评价。
步骤9:根据测试过程中目标车辆的碰撞次数来评价被测自动驾驶系统的安全性,根据目标车辆在测试过程中的平均速度来评价被测自动驾驶系统的通行效率,根据目标车辆在测试过程中的加速度绝对值的平均数来评价被测自动驾驶系统的舒适性。
综上所述,本实施例首先生成新手驾驶员模型,再逐级生成具有一定经验的驾驶员模型和熟练驾驶员模型,之后在熟练驾驶员模型的基础上赋予人类个性化驾驶特性,使之成为个性化驾驶员模型,最后将生成的驾驶员模型按需求以一定比例组合生成相应的测试场景。以生成一种具有挑战性的测试场景为例,将生成的激进型驾驶员模型和挑衅型驾驶员模型等比例组合作为背景车,模拟出一种具有挑战性的交通流,将被测的自动驾驶系统放入该交通流中,通过测试该系统在该场景中的运行效率(通行时间、平均速度)、舒适性(加速度绝对值的平均数)和安全性(发生碰撞的次数)来评价被测自动驾驶系统。
本技术方案与其他自动驾驶测试场景生成方法相比,所训练出的驾驶员模型具有智能性和自主交互的能力,个性化的驾驶员模型显著提升场景的测试效果,同时由于其独特的训练过程,使得最终生成的测试场景具有较好的真实性、复杂性以及鲁棒性,同时可拓展性较强,具有强泛化性。

Claims (10)

1.一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,包括以下步骤:
S1、基于遗传与进化思想、结合强化学习,模拟人类驾驶员在驾驶经历中的各个阶段,逐级训练得到不同成长阶段的驾驶员模型,所述不同成长阶段的驾驶员模型包括新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型;
S2、基于不同成长阶段的驾驶员模型,根据人类驾驶员的不同个性化驾驶特性,进一步训练得到个性化驾驶员模型,所述个性化驾驶员模型包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;
S3、根据测试需求,将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按照对应的需求比例,以组合生成相应的目标测试场景。
2.根据权利要求1所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述步骤S1具体包括以下步骤:
S11、定义并构建安全型驾驶员模型;
S12、根据安全型驾驶员模型,基于遗传与进化思想、结合强化学习,逐级训练得到新手驾驶员模型、经验驾驶员模型以及熟练驾驶员模型。
3.根据权利要求2所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述安全型驾驶员模型的驾驶策略具体为:
Figure FDA0003426477650000011
时,自车采取“急减速”动作;
Figure FDA0003426477650000012
时,自车采取“减速”动作;
Figure FDA0003426477650000013
时,自车采取“减速”动作;
其中,drel_front为自车与同车道前车的相对距离,vrel_front为自车与同车道前车的相对速度、vego为自车速度。
4.根据权利要求3所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述新手驾驶员模型的动作空间只有纵向动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速以及纵向急减速共五种动作;
所述新手驾驶员模型根据自车与他车的纵向相对距离drel、纵向相对速度vrel、自车速度vego以及车道信息来定义状态集,所述他车包括与本车处于不同车道的车,当他车在自车前方时,他车的纵向速度记为vf,当他车在自车后方时,他车的纵向速度记为vr,则纵向相对速度定义如下:
Figure FDA0003426477650000021
其中,drel包括drel_front、drel_crear、drel_left_front、drel_left_rear、drel_rigth_front和drel_right_rear,它们分别为本车与同车道前方车辆的相对距离、本车与同车道后方车辆的相对距离、本车与左侧车道前方车辆的相对距离、本车与左侧车道后方车辆的相对距离、本车与右侧车道前方车辆的相对距离以及本车与右侧车道后方车辆的相对距离;vrel包括vrel_front、vrel_crear、vrel_left_front、vrel_left_rear、vrel_rigth_front和vrel_right_rear,它们分别为本车与同车道前方车辆的相对速度、本车与同车道后方车辆的相对速度、本车与左侧车道前方车辆的相对速度、本车与左侧车道后方车辆的相对速度、本车与右侧车道前方车辆的相对速度以及本车与右侧车道后方车辆的相对速度;
所述新手驾驶员模型根据所在车道来定义车道编号line_id,根据自车的速度与前车的相对距离计算得到
Figure FDA0003426477650000022
并将其分为三个状态,具体包括:
Figure FDA0003426477650000023
Figure FDA0003426477650000024
Figure FDA0003426477650000025
根据自车速度与相对速度来计算
Figure FDA0003426477650000026
并将其分为三个状态,具体包括:
Figure FDA0003426477650000027
Figure FDA0003426477650000028
Figure FDA0003426477650000029
所述新手驾驶员模型中,自车在车道内相对车道中心线的偏移量被量化为:
“偏左”,即自车位于车道中心线左侧;
“居中”,即自车位于车道中心线上;
“偏右”,即自车位于车道中心线右侧。
5.根据权利要求4所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述步骤S12中训练新手驾驶员模型的具体过程为:
首先建立车辆随时间的运动模型,并选取合适的时间步,同时初始化参数、生成仿真环境,其中,所述初始化参数包括仿真车辆总数nc、允许的最大初始化距离
Figure FDA0003426477650000034
以及仿真时长tf
再利用安全型驾驶员模型作为背景车进行训练,得到新手驾驶员模型雏形;
然后以新手驾驶员模型雏形代替安全型驾驶员模型作为背景车进行训练,得到新手驾驶员模型;
所述新手驾驶员模型训练过程中的奖励函数具体为:
R1=ωsRsafetyeRefficiency
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离,所述责任判别机制具体为:当发生车辆碰撞时,若两辆车均无变道,则前车无交通事故责任,而后车担负全部交通事故责任;若一车有变道行为,则具有变道行为的车负全责;若两车均变道,则两车均摊责任;
Refficiency为考虑通行效率的奖励函数;
在训练过程中,新手驾驶员模型通过与环境交互,获取环境信息,新手驾驶员模型在获得当前时刻t的状态量st之后,选择一个和当前状态量st对应的最具价值动作
Figure FDA0003426477650000031
具体训练时新手驾驶员模型在st状态下,根据
Figure FDA0003426477650000032
选择执行的动作at之后,得到一个奖励rt+1,并进入下一个状态st+1,根据下一个状态的对应的
Figure FDA0003426477650000033
和rt+1来更新Q(st,at),通过不断迭代训练,使新手驾驶员模型最终可以做出对应于当前环境状态下的最优动作。
6.根据权利要求4所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述经验驾驶员模型的动作空间遗传有新手驾驶员模型的五种动作,并将横向匀速与五种纵向动作组合进化得到新的五种变道动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速、纵向匀速横向匀速、纵向加速横向匀速、纵向急加速横向匀速、纵向减速横向匀速以及纵向急减速横向匀速共十种动作;
所述经验驾驶员模型的状态集与新手驾驶员模型的状态集相一致;
所述步骤S12中训练检验驾驶员模型的具体过程为:
首先用安全型驾驶员模型作为背景车进行训练,得到经验驾驶员模型雏形;
然后用已训练的新手驾驶员模型和经验驾驶员模型雏形等比例代替安全型驾驶员模型,以作为背景车进行训练,得到经验驾驶员模型;
所述经验驾驶员模型训练过程中的奖励函数具体为:
R2sRsafetyeRefficiencyrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离和驾驶经验;
Refficiency为考虑通行效率的奖励函数;
Rriding_comfort为考虑乘车舒适性的奖励函数。
7.根据权利要求4所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述熟练驾驶员模型的动作空间遗传有经验驾驶员模型的十种动作,并将横向加速、横向减速分别与五种纵向动作组合进化得到新的十种变道动作,包括:纵向匀速、纵向加速、纵向急加速、纵向减速、纵向急减速、纵向匀速横向匀速、纵向加速横向匀速、纵向急加速横向匀速、纵向减速横向匀速、纵向急减速横向匀速、纵向匀速横向减速、纵向加速横向减速、纵向急加速横向减速、纵向减速横向减速、纵向急减速横向减速、纵向匀速横向加速、纵向加速横向加速、纵向急加速横向加速、纵向减速横向加速以及纵向急减速横向加速共二十种动作;
所述熟练驾驶员模型的状态集与新手驾驶员模型的状态集相一致;
所述步骤S12中训练熟练驾驶员模型的具体过程为:
先用安全型驾驶员模型作为背景车进行训练,得到熟练驾驶员模型雏形;
然后用已训练的新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型雏形等比例代替安全型驾驶员模型,以作为背景车进行训练,生成熟练驾驶员模型;
所述熟练驾驶员模型训练过程中的奖励函数具体为:
R3=ωsRsafetyeRefficiencyxωrRriding_comfort
其中,ωs为安全性因素的权重,ωe为通行效率因素的权重,ωr为乘车舒适性因素的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制、跟车距离;
Refficiency为考虑通行效率的奖励函数;
Rriding_comfort为考虑乘车舒适性的奖励函数。
8.根据权利要求4所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、确定待训练的个性化驾驶员模型的类别,使该个性化驾驶员模型继承熟练驾驶员模型的动作空间,同时该个性化驾驶员类型的状态集与新手驾驶员模型的状态集相一致,其中,个性化驾驶员模型具体是根据自车驾驶员是否考虑自车行为对周围车辆的影响,将驾驶风格分为单模态驾驶风格和多模态驾驶风格,所述单模态驾驶风格是指自车驾驶员只考虑自车行为对自己的影响,不考虑自车行为对他车的影响,包括激进型和保守型两种;所述多模态驾驶风格是指自车驾驶员驾驶过程中会考虑自车行为对他车的影响,包括合作型和挑衅型两种,合作型驾驶员模型指自车在驾驶过程中会配合其他车行为,尽量给他车创造良好的行驶环境使他车利益最大化;挑衅型驾驶员模型则指自车在驾驶过程中喜欢阻碍周围车辆,使他车陷入恶劣的驾驶环境中,阻止他车利益最大化;
S22、采用安全型驾驶员模型作为背景车进行训练,得到个性化驾驶员模型雏形,再将新手驾驶员模型、经验驾驶员模型以及熟练驾驶员模型等比例代替安全型驾驶员模型,以作为背景车进行训练,生成相应的个性化驾驶员模型。
9.根据权利要求8所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述个性化驾驶员模型的训练过程中,激进型驾驶员模型的奖励函数具体为:
R4=ωsRsafetydRariving_feelingeRefficiency
其中,ωs为安全性因素的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制;
Rdriving_feeling为考虑驾驶体验的奖励函数,该部分奖励函数的设计需要考虑自车一定范围内交通流密度以及车速相关的驾驶体验;
Refficiency为考虑通行效率的奖励函数;
保守型驾驶员模型的奖励函数具体为:
R5sRsafetyrRriding_comforteRefficiency
其中,ωs为安全性因素的权重,ωr为乘车舒适性因素的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rriding_comfort为考虑乘车舒适性的奖励函数;
Refficiency为考虑通行效率的奖励函数。
10.根据权利要求8所述的一种基于个性化驾驶员模型的自动驾驶测试场景生成方法,其特征在于,所述个性化驾驶员模型的训练过程中,挑衅型驾驶员模型的奖励函数具体为:
R6=ωsRsafetydRariving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rdriving_feeling为考虑驾驶体验的奖励函数;
Refficiency为考虑通行效率的奖励函数;
合作型驾驶员模型的奖励函数具体为:
R7=ωsRsafetydRdriving_feelingeRefficiency
其中,ωs为安全性的权重,ωd为驾驶体验的权重,ωe为通行效率的权重;
Rsafety为考虑安全性的奖励函数,该部分奖励函数的设计需要考虑责任判别机制和跟车距离;
Rdriving_feeling为考虑驾驶体验的奖励函数;
Refficiency为考虑通行效率的奖励函数。
CN202111579203.7A 2021-12-22 2021-12-22 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法 Pending CN114492157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111579203.7A CN114492157A (zh) 2021-12-22 2021-12-22 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111579203.7A CN114492157A (zh) 2021-12-22 2021-12-22 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法

Publications (1)

Publication Number Publication Date
CN114492157A true CN114492157A (zh) 2022-05-13

Family

ID=81493198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111579203.7A Pending CN114492157A (zh) 2021-12-22 2021-12-22 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法

Country Status (1)

Country Link
CN (1) CN114492157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879377A (zh) * 2022-12-27 2023-03-31 清华大学 一种智能飞行汽车模态切换的决策网络的训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115879377A (zh) * 2022-12-27 2023-03-31 清华大学 一种智能飞行汽车模态切换的决策网络的训练方法
CN115879377B (zh) * 2022-12-27 2023-11-28 清华大学 一种智能飞行汽车模态切换的决策网络的训练方法

Similar Documents

Publication Publication Date Title
CN109709956B (zh) 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN111795832B (zh) 一种智能驾驶车辆测试方法、装置及设备
CN109002595B (zh) 模拟动态换道行为的双车道元胞自动机微观交通仿真方法
CN113010967B (zh) 一种基于混合交通流模型的智能汽车在环仿真测试方法
CN111539087B (zh) 自动驾驶系统仿真测试平台和自动驾驶系统评价方法
CN110686906B (zh) 车辆自动驾驶测试方法及装置
CN113253739B (zh) 一种用于高速公路的驾驶行为决策方法
Heilmeier et al. A race simulation for strategy decisions in circuit motorsports
CN110956851B (zh) 一种智能网联汽车协同调度换道方法
CN113665593B (zh) 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN112201070B (zh) 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
CN114492157A (zh) 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN115204455A (zh) 适用于高速与环路交通场景的长时域驾驶行为决策方法
US20230394896A1 (en) Method and a system for testing a driver assistance system for a vehicle
CN117242438A (zh) 用于测试车辆的驾驶员辅助系统的方法
CN115176297A (zh) 用于训练用于机动车的控制器的至少一个算法的方法、计算机程序产品以及机动车
CN116562175B (zh) 车辆配置对自动驾驶系统安全性影响的评估方法
CN114954498A (zh) 基于模仿学习初始化的强化学习换道行为规划方法及系统
CN114896869A (zh) 基于个性化驾驶员模型的自动驾驶测试场景生成方法
CN117413257A (zh) 用于测试车辆用司机辅助系统的方法和系统
Tang et al. Research on decision-making of lane-changing of automated vehicles in highway confluence area based on deep reinforcement learning
CN117746639B (zh) 基于自动驾驶的背景交通流模型构建方法及系统
Webster et al. Driver model for traffic simulation, with tactical lane changing behavior
CN115339516B (zh) 转向盘旋转角度确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination