CN117348415B - 一种基于有限状态机的自动驾驶决策方法 - Google Patents
一种基于有限状态机的自动驾驶决策方法 Download PDFInfo
- Publication number
- CN117348415B CN117348415B CN202311485787.0A CN202311485787A CN117348415B CN 117348415 B CN117348415 B CN 117348415B CN 202311485787 A CN202311485787 A CN 202311485787A CN 117348415 B CN117348415 B CN 117348415B
- Authority
- CN
- China
- Prior art keywords
- driving
- driving vehicle
- lane
- vehicle
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008569 process Effects 0.000 claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000012423 maintenance Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims description 23
- 230000007704 transition Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000003825 pressing Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000002787 reinforcement Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- OKUGPJPKMAEJOE-UHFFFAOYSA-N S-propyl dipropylcarbamothioate Chemical compound CCCSC(=O)N(CCC)CCC OKUGPJPKMAEJOE-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
本发明属于自动驾驶技术领域,具体涉及一种基于有限状态机的自动驾驶决策方法;该方法包括:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整;对三种驾驶子任务分别进行马尔可夫建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略;根据驾驶过程中的任务切换过程构建有限状态机模型;根据有限状态机模型和驾驶动作策略得到驾驶决策并执行;本发明可解决DRL在自动驾驶决策任务中存在的稀疏回报问题,提高自动驾驶车在多样化驾驶环境中的适应能力,从而增强自动驾驶的可靠性和安全性。
Description
技术领域
本发明属于自动驾驶技术领域,具体涉及一种基于有限状态机的自动驾驶决策方法。
背景技术
深度强化学习(DRL)融合了深度神经网络的表征能力和强化学习的决策推理能力,广泛应用于自动驾驶汽车的驾驶决策任务。在现实的驾驶场景中,智能体需要在快速变化的交通情境中做出决策,例如超车、躲避障碍物等。然而,在密集交通中,传统的DRL方法受到稀疏奖励问题的影响,使得智能体难以掌握复杂的交通决策策略。稀疏奖励限制了强化学习的学习效率,使得智能体难以快速获得正向反馈来引导策略的优化。
自动驾驶汽车在密集交通中的决策需要兼顾安全性、效率和舒适性,这使得奖励函数的设计变得复杂而困难。而传统的奖励设计方法无法充分引导智能体学习高质量的驾驶策略。在现有的研究中,虽然多目标强化学习、Reward Shaping、Inverse ReinforcementLearning等方法在一定程度上解决了稀疏奖励问题,但仍存在着无法适应多样驾驶情景、难以处理多目标权衡等问题。
综上所述,亟需一种自动驾驶决策方法,可缓解稀疏奖励问题,同时可适应多样驾驶情景,可在复杂动态的交通环境下取得有效性和鲁棒性。
发明内容
针对现有技术存在的不足,本发明提出了一种基于有限状态机的自动驾驶决策方法,该方法包括:
S1:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整;
S2:对三种驾驶子任务分别进行马尔可夫建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略;
S3:根据驾驶过程中的任务切换过程构建有限状态机模型;
S4:根据有限状态机模型和驾驶动作策略得到驾驶决策并执行。
优选的,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:
为每个驾驶子任务定义马尔可夫决策过程的状态空间和动作空间;
搭建密集交通的仿真驾驶场景作为马尔可夫决策过程的状态转移概率矩阵;
分别为变道和姿态调整子任务设计奖励函数。
进一步的,马尔可夫决策过程的状态空间表示为:
S={Spos_ego,Svelocity_ego,Shead_ego,Spos_ob,Svelocity_ob}
其中,S表示状态空间,Spos_ego表示驾驶车在地图坐标系中的位置坐标,Svelocity_ego表示驾驶车的纵向和横向速度,Shead_ego表示驾驶车的车身转向角,Spos_ob表示驾驶车的位置偏移,Svelocity_ob表示障碍车的纵向和横向速度;
马尔可夫决策过程的动作空间表示为:
A={LTL,LTS,S,RTS,RTL}
其中,A表示动作空间,LTL和RTL分别表示大角度的左、右转向动作,LTS和RTS分别代表小角度的左、右转向动作,S代表直行动作。
进一步的,变道的奖励函数为:
其中,r1表示变道的奖励值,η表示位置奖励的修正系数,rpos表示变道过程中的实时位置奖励,θ表示成功变道奖励值,ob_c表示当前车道内是否有障碍车,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞。
进一步的姿态调整的奖励函数为:
其中,r2表示姿态调整的奖励值,φ表示成功姿态调整奖励值,δ表示位置奖励的修正系数,表示姿态调整过程中的实时奖励,ε表示角度奖励的修正系数,rangle表示姿态调整过程中的角度奖励,ldhv表示智能驾驶车的横向位置,ldcenter表示车道中心的横向位置,α表示预定义的横向位置阈值,head表示驾驶车的车身转向角,β表示预定义的转向角阈值,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞。
优选的,构建有限状态机模型的过程包括:
确定有限状态机模型的所有状态;
根据有限状态机模型的状态和可行切换过程定义状态迁移路径集合;
定义状态迁移路径集合中所有状态迁移路径的触发条件。
进一步的,状态迁移路径的触发条件包括:
当驾驶车处于任务开始状态时,若驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到变道子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态切换子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态调整子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到保持子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于变道子任务状态时,如果驾驶车所在车道前方一定距离内不存在障碍车,则驾驶车切换到姿态调整子任务状态;
驾驶车处于保持、姿态调整或变道子任务状态时,若发生了压线、碰撞,或驾驶车到达目标地点,则驾驶车切换到任务结束状态。
优选的,根据有限状态机模型和驾驶动作策略得到驾驶决策的过程包括:
获取驾驶车的实时状态参数;
根据驾驶车的实时状态参数和有限状态机模型中状态迁移路径的触发条件确定驾驶车需要完成的子任务;
选择驾驶车需要完成的子任务对应的驾驶动作策略作为驾驶决策。
本发明的有益效果为:
本发明提出了一种基于有限状态机的自动驾驶决策方法,缓解了Sparse Reward为基于深度强化学习的驾驶决策任务带来的性能瓶颈;
本发明单独为每一个子任务进行马尔科夫决策过程建模,缩短了智能车的探索路径。子任务的奖励信号得以更高效地向前传播,在一定程度上缓解了深度强化学习的的贡献度分配困难问题;
本发明提供了一种和方式,将无需驾驶员干预的驾驶场景单独建模为一个Wheel-Holding子任务,实现了只在需要时做决策的目的。这一点,更符合真实的人类驾驶逻辑。
附图说明
图1为本发明中基于有限状态机的自动驾驶决策方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于有限状态机的自动驾驶决策方法,如图1所示,所述方法包括以下内容:
S1:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整。
基于先验知识,定义密集交通场景下的3中驾驶行为:Lane-Changing(变道)、Posture-Adjustment(姿态调整)和Wheel-Holding(保持);将3种驾驶行为作为密集交通场景下的三种驾驶子任务。
S2:对三种驾驶子任务分别进行马尔可夫建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略。
对三种驾驶子任务分别进行马尔可夫建模的过程包括:
为每个驾驶子任务定义马尔可夫决策过程的状态空间,表示为:
S={Spos_ego,Svelocity_ego,Shead_ego,Spos_ob,Svelocity_ob}
其中,S表示状态空间;Spos_ego=(xpos_ego,ypos_ego)表示驾驶车在地图坐标系中的位置坐标,xpos_ego表示横坐标,ypos_ego表示纵坐标;Svelocity_ego=(xvelocity_ego,yvelocity_ego)表示驾驶车的纵向和横向速度,xvelocity_ego为横向速度,yvelocity_ego为纵向速度;Shead_ego表示驾驶车的车身转向角;Spos_ob=(xpos_ob,ypos_ob)表示障碍车相对于驾驶车的位置偏移,xpos_ob表示位置横向偏移,ypos_ob表示位置纵向偏移;
Svelocity_ob=(xvelocity_ob,yvelocity_ob)表示障碍车的纵向和横向速度。
马尔可夫决策过程的动作空间表示为:
A={LTL,LTS,S,RTS,RTL}
其中,A表示动作空间,LTL和RTL分别表示大角度的左、右转向动作,LTS和RTS分别代表小角度的左、右转向动作,S代表直行动作。
搭建密集交通的仿真驾驶场景作为马尔可夫决策过程的状态转移概率矩阵。
Wheel-Holding子任务代表真实驾驶情景中“无需驾驶员干预”的情形。这一状态下的驾驶决策不需要学习,只需保持原有的驾驶决策即可(无需驾驶员干预),当驾驶车为保持状态时,其状态参数始终保持在预设范围内,优选的,保持预定义的横向位置和预定义的转向角均不超过阈值。
分别为变道和姿态调整子任务设计奖励函数;具体的:
变道子任务的奖励函数设计需要考虑三种情况:成功、失败、其他;变道的奖励函数为:
其中,r1表示变道的奖励值,η表示位置奖励的修正系数;rpos表示变道过程中的实时位置奖励,是驾驶车与目标横向位置距离成负相关的实数值;θ表示成功变道奖励值,ob_c表示当前车道内是否有障碍车,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞,ldhv表示智能驾驶车的横向位置,dtarget-center表示变道时的目标车道的车道中心横向位置。
当驾驶车完成了变道子任务时,获取一个正向的奖励θ。反之,当驾驶车因压线或碰撞而导致变道子任务失败时,获取一个负向的惩罚-θ;其他情况获得奖励ηrpos,其他情况指正在变道过程中,既尚未完成变道,也并未压线或撞车的情形。
姿态调整子任务的奖励函数设计同样需要考虑三种情况:成功、失败、其他(正在姿态调整过程中,既尚未完成姿态调整,也并未压线或撞车的情形);姿态调整的奖励函数为:
其中,r2表示姿态调整的奖励值,φ表示成功姿态调整奖励值,δ表示位置奖励的修正系数,表示姿态调整过程中的实时奖励,ε表示角度奖励的修正系数,rangle表示姿态调整过程中的角度奖励,ldhv表示智能驾驶车的横向位置,ldcenter表示车道中心的横向位置,α表示预定义的横向位置阈值,head表示驾驶车的车身转向角,β表示预定义的转向角阈值,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞;ω表示预定义的车身转向角阈值,超过这个阈值奖励信号是负数,表示惩罚,在这个阈值内,奖励信号是正数,表示奖励;d表示预定义的偏离车道中心横向距离阈值,超过这个阈值奖励信号是负数,表示惩罚,在这个阈值内,奖励信号是正数,表示奖励;w表示预定义第一权重系数,目的是保证w-|ldhv-ldcenter|是一个正数;χ表示第二预定义权重系数,目的是保证χ-|head|是一个正数。
当驾驶车完成了姿态调整子任务时,获取一个正向的奖励φ。反之,当驾驶车因压线或碰撞而导致姿态调整子任务失败时,获取一个负向的惩罚-φ;rpos表示姿态调整子任务过程中其他情况的位置实时奖励。当驾驶车横向位置与车道中心距离小于预定义阈值d时,rpos表现为一个正向的实值奖励。当智能车横向位置与车道中心距离超过预定义阈值d时,rpos表现为一个负向的实值惩罚。
采用DQN(Deep Q-Learning)算法求解马尔可夫决策过程,可得到三种驾驶子任务的驾驶动作策略。
S3:根据驾驶过程中的任务切换过程构建有限状态机模型。
构建有限状态机模型的过程包括:
确定有限状态机模型的所有状态,表示为:
其中,S0表示驾驶任务的开始状态,S1、S2、S3分别表示驾驶车处于保持、姿态调整、变道的子任务状态,S4表示驾驶任务的结束状态。
根据有限状态机模型的状态和可行切换过程定义状态迁移路径集合T:
T={T01,T02,T03,T12,T13,T21,T23,T32,T14,T24,T43}
例如,T12表示从保持子任务到姿态调整子任务的状态迁移。
定义状态迁移路径集合中所有状态迁移路径的触发条件,包括:
当驾驶车处于任务开始状态时,若驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到变道子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态切换子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态调整子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到保持子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于变道子任务状态时,如果驾驶车所在车道前方一定距离内不存在障碍车,则驾驶车切换到姿态调整子任务状态;
驾驶车处于保持、姿态调整或变道子任务状态时,若发生了压线、碰撞,或驾驶车到达目标地点,则驾驶车切换到任务结束状态。
S4:根据有限状态机模型和驾驶动作策略得到驾驶决策并执行。
获取驾驶车的实时状态参数。
根据驾驶车的实时状态参数和有限状态机模型中状态迁移路径的触发条件确定驾驶车需要完成的子任务;具体的:将获取的驾驶车实时状态参数作为输入事件输入到有限状态机模型中,有限状态机模型根据其状态迁移的触发规则,得到驾驶车需要完成的实时子任务。
选择驾驶车需要完成的子任务对应的驾驶动作策略作为驾驶决策。
选择驾驶车需要完成的子任务对应的驾驶动作策略,获取该驾驶动作策略下的驾驶车控制参数,根据驾驶车控制参数执行,以使得驾驶车转移到新的状态,完成驾驶子任务。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于有限状态机的自动驾驶决策方法,其特征在于,包括:
S1:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整;
S2:对三种驾驶子任务分别进行马尔可夫决策过程建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略;
S3:根据驾驶过程中的任务切换过程构建有限状态机模型;构建有限状态机模型的过程包括:
确定有限状态机模型的所有状态;
根据有限状态机模型的状态和可行切换过程定义状态迁移路径集合;
定义状态迁移路径集合中所有状态迁移路径的触发条件;状态迁移路径的触发条件包括:
当驾驶车处于任务开始状态时,若驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到变道子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内没有障碍车,并且驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态切换子任务状态;
当驾驶车处于任务开始状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车偏离车道中心的距离或车身转向角超过了预定义范围,则驾驶车切换到姿态调整子任务状态;
当驾驶车处于保持子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车偏离车道中心的距离与车身转向角都在预定义范围内,则驾驶车切换到保持子任务状态;
当驾驶车处于姿态调整子任务状态时,如果驾驶车所在车道前方一定距离内存在障碍车,并且另一车道中一定范围内不存在障碍车,则驾驶车切换到变道子任务状态;
当驾驶车处于变道子任务状态时,如果驾驶车所在车道前方一定距离内不存在障碍车,则驾驶车切换到姿态调整子任务状态;
驾驶车处于保持、姿态调整或变道子任务状态时,若发生了压线、碰撞,或驾驶车到达目标地点,则驾驶车切换到任务结束状态;
S4:根据有限状态机模型和驾驶动作策略得到驾驶决策并执行。
2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:
为每个驾驶子任务定义马尔可夫决策过程的状态空间和动作空间;
搭建密集交通的仿真驾驶场景作为马尔可夫决策过程的状态转移概率矩阵;
分别为变道和姿态调整子任务设计奖励函数。
3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,马尔可夫决策过程的状态空间表示为:
S={Spos_ego,Svelocity_ego,Shead_ego,Spos_ob,Svelocity_ob}
其中,S表示状态空间,Spos_ego表示驾驶车在地图坐标系中的位置坐标,Svelocity_ego表示驾驶车的纵向和横向速度,Shead_ego表示驾驶车的车身转向角,Spos_ob表示驾驶车的位置偏移,Svelocity_ob表示障碍车的纵向和横向速度;
马尔可夫决策过程的动作空间表示为:
A={LTL,LTS,S,RTS,RTL}
其中,A表示动作空间,LTL和RTL分别表示大角度的左、右转向动作,LTS和RTS分别代表小角度的左、右转向动作,S代表直行动作。
4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,变道的奖励函数为:
其中,r1表示变道的奖励值,η表示位置奖励的修正系数,rpos表示变道过程中的实时位置奖励,θ表示成功变道奖励值,ob_c表示当前车道内是否有障碍车,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞。
5.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,姿态调整的奖励函数为:
其中,r2表示姿态调整的奖励值,φ表示成功姿态调整奖励值,δ表示位置奖励的修正系数,表示姿态调整过程中的实时奖励,ε表示角度奖励的修正系数,rangle表示姿态调整过程中的角度奖励,ldhv表示智能驾驶车的横向位置,ldcenter表示车道中心的横向位置,α表示预定义的横向位置阈值,head表示驾驶车的车身转向角,β表示预定义的转向角阈值,lane_in表示驾驶车是否发生了压线,colli表示驾驶车是否发生了碰撞。
6.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,根据有限状态机模型和驾驶动作策略得到驾驶决策的过程包括:
获取驾驶车的实时状态参数;
根据驾驶车的实时状态参数和有限状态机模型中状态迁移路径的触发条件确定驾驶车需要完成的子任务;
选择驾驶车需要完成的子任务对应的驾驶动作策略作为驾驶决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485787.0A CN117348415B (zh) | 2023-11-08 | 一种基于有限状态机的自动驾驶决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485787.0A CN117348415B (zh) | 2023-11-08 | 一种基于有限状态机的自动驾驶决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117348415A CN117348415A (zh) | 2024-01-05 |
CN117348415B true CN117348415B (zh) | 2024-06-04 |
Family
ID=
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN113253739A (zh) * | 2021-06-24 | 2021-08-13 | 深圳慧拓无限科技有限公司 | 一种用于高速公路的驾驶行为决策方法 |
CN113581182A (zh) * | 2021-09-07 | 2021-11-02 | 上海交通大学 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
CN113753034A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防碰撞决策方法 |
CN114104005A (zh) * | 2022-01-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN115257746A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种考虑不确定性的自动驾驶汽车换道决策控制方法 |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN115402319A (zh) * | 2022-09-14 | 2022-11-29 | 中南大学 | 一种自动驾驶变道速度控制方法、计算机设备及存储介质 |
CN116142188A (zh) * | 2023-04-14 | 2023-05-23 | 禾多科技(北京)有限公司 | 一种基于人工智能的自动驾驶车辆控制决策确定方法 |
CN116176616A (zh) * | 2022-12-06 | 2023-05-30 | 电子科技大学 | 一种基于增强感知的自动驾驶车行为决策系统 |
CN116300944A (zh) * | 2023-03-24 | 2023-06-23 | 安徽工程大学 | 基于改进Double DQN的自动驾驶决策方法及系统 |
CN116389041A (zh) * | 2023-01-16 | 2023-07-04 | 西北工业大学 | 基于深度强化学习的自动驾驶系统后门攻击方法及相关装置 |
CN116588138A (zh) * | 2023-05-18 | 2023-08-15 | 重庆邮电大学 | 一种基于区块链的分布式智能辅助自动驾驶方法 |
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
CN111275249A (zh) * | 2020-01-15 | 2020-06-12 | 吉利汽车研究院(宁波)有限公司 | 基于dqn神经网络和高精度定位的驾驶行为优化方法 |
CN112622886A (zh) * | 2020-12-20 | 2021-04-09 | 东南大学 | 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法 |
CN113253739A (zh) * | 2021-06-24 | 2021-08-13 | 深圳慧拓无限科技有限公司 | 一种用于高速公路的驾驶行为决策方法 |
CN113581182A (zh) * | 2021-09-07 | 2021-11-02 | 上海交通大学 | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 |
CN113753034A (zh) * | 2021-10-21 | 2021-12-07 | 东南大学 | 一种考虑路面附着条件的大型营运车辆防碰撞决策方法 |
CN114104005A (zh) * | 2022-01-26 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN115257746A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种考虑不确定性的自动驾驶汽车换道决策控制方法 |
CN115257745A (zh) * | 2022-07-21 | 2022-11-01 | 同济大学 | 一种基于规则融合强化学习的自动驾驶换道决策控制方法 |
CN115402319A (zh) * | 2022-09-14 | 2022-11-29 | 中南大学 | 一种自动驾驶变道速度控制方法、计算机设备及存储介质 |
CN116176616A (zh) * | 2022-12-06 | 2023-05-30 | 电子科技大学 | 一种基于增强感知的自动驾驶车行为决策系统 |
CN116389041A (zh) * | 2023-01-16 | 2023-07-04 | 西北工业大学 | 基于深度强化学习的自动驾驶系统后门攻击方法及相关装置 |
CN116300944A (zh) * | 2023-03-24 | 2023-06-23 | 安徽工程大学 | 基于改进Double DQN的自动驾驶决策方法及系统 |
CN116142188A (zh) * | 2023-04-14 | 2023-05-23 | 禾多科技(北京)有限公司 | 一种基于人工智能的自动驾驶车辆控制决策确定方法 |
CN116588138A (zh) * | 2023-05-18 | 2023-08-15 | 重庆邮电大学 | 一种基于区块链的分布式智能辅助自动驾驶方法 |
Non-Patent Citations (4)
Title |
---|
MDP及PROLOG在自动驾驶中的应用;班兵;杨志刚;杨航;;汽车实用技术(第24期);全文 * |
基于MARKOV决策过程的驾驶员行为模型;许骏;李一兵;汽车工程;20081231(第001期);全文 * |
基于有限状态机的车辆自动驾驶行为决策分析;冀杰;黄岩军;李云伍;吴飞;;汽车技术;20181211(第12期);全文 * |
结构化道路中动态车辆的轨迹预测;谢辉;高斌;熊硕;王悦;;汽车安全与节能学报;20191215(第04期);全文 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN108919795B (zh) | 一种自动驾驶汽车换道决策方法及装置 | |
CN109213148B (zh) | 一种基于深度强化学习的车辆低速跟驰决策方法 | |
CN109501799B (zh) | 一种车联网条件下的动态路径规划方法 | |
Zhang et al. | Adaptive decision-making for automated vehicles under roundabout scenarios using optimization embedded reinforcement learning | |
EP3667556A1 (en) | Autonomous lane change | |
CN113954837B (zh) | 一种基于深度学习的大型营运车辆车道变换决策方法 | |
CN114013443B (zh) | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 | |
Zhang et al. | Multi-agent DRL-based lane change with right-of-way collaboration awareness | |
JP2022515083A (ja) | 自動車車両のための可能な走行経路を決定するハイブリッドアプローチのための制御システムおよび制御方法 | |
CN112201070B (zh) | 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法 | |
CN114516331B (zh) | 车辆换道控制方法、装置和电子设备 | |
CN113253739A (zh) | 一种用于高速公路的驾驶行为决策方法 | |
CN114475608B (zh) | 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质 | |
Chen et al. | Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization | |
CN114488799B (zh) | 汽车自适应巡航系统控制器参数优化方法 | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN117348415B (zh) | 一种基于有限状态机的自动驾驶决策方法 | |
CN117348415A (zh) | 一种基于有限状态机的自动驾驶决策方法 | |
CN116127853A (zh) | 融合时序信息的基于ddpg的无人驾驶超车决策方法 | |
CN115700626A (zh) | 用于车辆的奖励函数 | |
CN114537435B (zh) | 一种自动驾驶中的实时整车轨迹规划方法 | |
Goto et al. | Design of Reward Function on Reinforcement Learning for Automated Driving | |
CN115688861B (zh) | 一种用于混合交通环境行为决策的模块化图强化学习系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |