CN110363295A - 一种基于dqn的智能车多车道换道方法 - Google Patents

一种基于dqn的智能车多车道换道方法 Download PDF

Info

Publication number
CN110363295A
CN110363295A CN201910574458.0A CN201910574458A CN110363295A CN 110363295 A CN110363295 A CN 110363295A CN 201910574458 A CN201910574458 A CN 201910574458A CN 110363295 A CN110363295 A CN 110363295A
Authority
CN
China
Prior art keywords
neural network
intelligent vehicle
deep neural
state
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910574458.0A
Other languages
English (en)
Inventor
胡江平
吕维
李咏章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910574458.0A priority Critical patent/CN110363295A/zh
Publication of CN110363295A publication Critical patent/CN110363295A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于DQN的智能车多车道换道方法,通过原始传感器高维数据作为状态集合输入,以离散有限驾驶行为动作作为动作集合,考虑驾驶任务的需求,设计立即回报集合,再通过基于长短时记忆的深度神经网络的拟合,能充分考虑环境的不确定性,通过训练基于长短时记忆的深度神经网络完成智能车安全行为驾驶的策略性学习,最后使用训练所得的深度神经网络对无人驾驶进行决策。

Description

一种基于DQN的智能车多车道换道方法
技术领域
本发明属于深度强化学习技术领域,更为具体地讲,涉及一种基于DQN的智能车多车道换道方法。
背景技术
近年来,伴随人工智能的新一轮热潮,国内外许多大型厂商和研究机构已经着手打造面向智慧城市的自动驾驶车辆。决策系统则扮演者“大脑”的角色,综合感知系统得到的环境信息和车身信息,产生使得自动驾驶汽车安全、合理的的决策行为,并指导车辆运动控制系统完成车辆的底层控制。自动驾驶中的决策规划技术作为智能车安全保障的重要环节,也成为各公司及专家学者研究的热点。
智能车决策问题有时候缺少有监督信号,而深度增强学习又擅长于策略性问题的学习。智能车决策的输入为原始传感器信息,数据维度高,需要借助神经网络进行特征提取。基于DQN(Deep Q Network,深度Q网络)的学习方式有助于智能车在加速、减速、均速、左转、右转的离散动作空间内寻找最优的策略,对先验规则依赖较少,通过环境和智能体的交互与奖惩方式进行建模,通过神经网络的深度学习工具,能充分考虑环境的不确定性,最终完成智能体“趋利避害”的策略性学习。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于DQN的智能车多车道换道方法,在离散动作空间内直接通过高维状态信息作为输入,实现无人驾驶系统的有效决策。
为实现上述发明目的,本发明一种基于DQN的智能车多车道换道方法,其特征在于,包括以下步骤:
(1)、构建驾驶行为的MDP(Markov Decision Processes,马可夫决策过程)过程的状态集合S,包括:智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息;
(2)、构建驾驶行为的MDP过程的动作集合A,包括:不采取行动,加速,减速,向左变更车道,向右变更车道;
(3)、构建驾驶行为的MDP过程的回报集合R,包括:
rsum=rv(v)+rcol+rlc+rovertake
其中,v为智能车当前速度,vmax、vmin为智能车符合规则下的最大速度和最小速度,rv,max为最大速度下所对应的奖赏值,rcollision为对于车辆碰撞的惩罚值,rlanechange为对车辆进行换道的基础惩罚,rovertake为智能车成功超越其他车辆的奖赏值;
(4)、训练基于长短时记忆的深度神经网络;
(4.1)、初始化深度神经网络的权重,初始化深度神经网络的输入神经元个数对应着状态集合S的维度,输出神经元个数对应着动作集合A的维度;
(4.2)、对状态集合S中的当前状态st进行归一化,得到深度神经网络的输入特征;
(4.3)、智能车在当前状态st下,采用ε-greedy贪婪策略探索环境,并选取一定的动作at
其中,ε为智能车随机探索的概率,表示以st作为输入,深度神经网络Q所得到的最大值所对应的动作at
(4.4)、记录当前状态st下得到回报rt,并将智能车迁移到下一个状态st+1
(4.5)、智能车在当前状态st+1下,重复步骤(4.2)~(4.4),并将各状态值形成元组tuple(st,at,rt,st+1),将其存入至深度神经网络的经验回放记忆池D中;
(4.6)、当经验回放记忆池D中的元组个数大于n个后,在经验回放记忆池D中随机采样一个样本tuple(si,ai,ri,si+1),i=1,2,…,n;
判断采样样本是否为终止状态,如果不是,则将采样样本的数据标签记为:否则记为:ri
(4.7)、计算误差损失函数值;
其中,γ为折扣因子;
(4.8)、采用随机梯度下降法SGD完成神经网络的参数θi的更新;
(4.9)、重复步骤(4.6)~(4.8),直到重复迭代次数达到预设次数或深度神经网络收敛,则迭代停止,得到训练好的深度神经网络;
(5)、利用训练好的深度神经网络完成智能车的最优策略选择
将智能车的当前状态进行归一化后输入至训练好的深度神经网络,深度神经网络输出该状态下一个最优动作的选择argmaxaQ(s,a)。
本发明的发明目的是这样实现的:
本发明基于DQN的智能车多车道换道方法,通过原始传感器高维数据作为状态集合输入,以离散有限驾驶行为动作作为动作集合,考虑驾驶任务的需求,设计立即回报集合,再通过基于长短时记忆的深度神经网络的拟合,能充分考虑环境的不确定性,通过训练基于长短时记忆的深度神经网络完成智能车安全行为驾驶的策略性学习,最后使用训练所得的深度神经网络对无人驾驶进行决策。
同时,本发明基于DQN的智能车多车道换道方法还具有以下有益效果:
(1)、输入传感器数据,通过神经网络,直接输出决策指令,是一种端到端的驾驶策略方法。
(2)、换道过程对先验信息依赖较少,不需要细致的换道行为分析,反映了智能车与环境的交互过程。
(3)、使用训练好的深度神经网络,在保障安全的情况下,智能车能以较快速度,进行合理的安全变道策略。
附图说明
图1是本发明基于DQN的智能车多车道换道方法流程图;
图2是雷达测距示意图;
图3是ADAS预警信息示意图;
图4是智能车平均车速变化曲线;
图5是智能车平均变道频次变化曲线;
图6是智能车安全超车频次变化曲线;
图7是智能车成功完成完整行驶次数的变化曲线。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于DQN的智能车多车道换道方法流程图。
在本实施例中,如图1所示,本发明一种基于DQN的智能车多车道换道方法,包括以下步骤:
S1、构建驾驶行为的MDP过程的状态集合S,包括:智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息,其具体元素如表1所示:
表1
在本实施例中,智能车传感器检测的距离状态为高维状态输入,如图2所示,通过360度雷达点云信息,在传感器检测范围内,可以得到每隔一度方向上离障碍物的距离。
高级驾驶辅助系统(ADAS)预警信息为为车辆提供了车距预警监测和车辆碰撞检测,如图3所示,本系统考虑了智能车前向、左右两侧作用范围的预警信号作为状态集合输入。另外,前方车辆速度、纵向距离、本车车速都也是状态集合参考因素。
S2、构建驾驶行为的MDP过程的动作集合A;
动作集合A考虑了智能车换道策略的动作空间采用离散的动作空间。智能车在多车道上行驶,驾驶员的驾驶动作涉及到加减速、向左向右变更车道、车速保持、车辆跟随等复杂细节动作。在纵向方向上,有三种动作:速度为v+vcc的巡航控制,其中vcc为额外目标速度;当前速度为v的巡航控制;速度巡航控制v-vcc。这些纵向动作将涵盖自动紧急制动(AEB)和自适应巡航控制(ACC)。在横向方向上,还有三种动作:保持车道;向左转换车道;向右转换车道。作为自主车辆纵向和横向动作应该同时被驱动,可定义下列5个离散动作:不采取行动,加速,减速,向左变更车道,向右变更车道。
S3、构建驾驶行为的MDP过程的回报集合R;
回报集合R的设计需要与对智能车行为期望一致。当车辆在多车道上行驶时,它应满足以下几个条件:
①车辆需要避免交通阻塞,因此设定一定的纵向速度奖励机制,并鼓励车辆在安全行驶的基础上快行找到使车辆高速行驶的策略。
②为了防止智能车在正常交通流情况下频繁的变更车道,故需要对变道过程设定一定的基础惩罚。
③以无碰撞为原则,智能车运行过程中,需要保证其安全性,不管是何种情况,智能车在道路行驶出现与其他静止障碍物或运动车辆发生碰撞或者擦挂时,均认定发生碰撞惩罚。
④为了鼓励在前方车辆过慢需要超车变道的实际情况是,我们需要设定超车奖赏。
综上,具体回报值设计如下:
rsum=rv(v)+rcol+rlc+rovertake
其中,v为智能车当前速度,vmax、vmin为智能车符合规则下的最大速度和最小速度,rv,max为最大速度下所对应的奖赏值,rcollision为对于车辆碰撞的惩罚值,rlanechange为对车辆进行换道的基础惩罚,rovertake为智能车成功超越其他车辆的奖赏值;
S4、训练基于长短时记忆的深度神经网络;
S4.1、初始化深度神经网络的权重,初始化深度神经网络的输入神经元个数对应着状态集合S的维度,输出神经元个数对应着动作集合A的维度;
S4.2、对状态集合S中的当前状态st进行归一化,得到深度神经网络的输入特征;
S4.3、智能车在当前状态st下,采用ε-greedy贪婪策略探索环境,并选取一定的动作at
其中,π(at|st)表示智能车的驾驶策略,即基于当前状态st,所采取的动作at,ε为智能车随机探索的概率,表示以st作为输入,深度神经网络Q所得到的最大值所对应的动作at
S4.4、记录当前状态st下得到回报rt,并将智能车迁移到下一个状态st+1
S4.5、智能车在当前状态st+1下,重复步骤S4.2~S4.4,并将各状态值形成元组tuple(st,at,rt,st+1),将其存入至深度神经网络的经验回放记忆池D中;
S4.6、当经验回放记忆池D中的元组个数大于n个后,在经验回放记忆池D中随机采样一个样本tuple(si,ai,ri,si+1),i=1,2,…,n;
判断采样样本是否为终止状态,如果不是,则将采样样本的数据标签记为:否则记为:ri
S4.7、计算误差损失函数值;
其中,γ为折扣因子;
S4.8、采用随机梯度下降法SGD完成神经网络的权重参数θi的更新;
S4.9、重复步骤S4.6~S4.8,直到重复迭代次数达到预设次数或深度神经网络收敛,则迭代停止,得到训练好的深度神经网络;
S5、利用训练好的深度神经网络完成智能车的最优策略选择
将智能车的当前状态进行归一化后输入至训练好的深度神经网络,深度神经网络输出该状态下一个最优动作的选择argmaxaQ(s,a)。
图4是智能车平均车速变化曲线;
图5是智能车平均变道频次变化曲线;
图6是智能车安全超车频次变化曲线;
图7是智能车成功完成完整行驶次数的变化曲线。
在本实施例中,图4—7反应了智能车的安全性能在深度神经网络训练过程的变化趋势,智能车已经逐渐掌握了趋于合理的安全行车策略。其中,图4反应了智能车的速度在不断提高,最后趋于能保证安全驾驶的最高速,避免交通阻塞;如图5所示,变道频次在不断减小,逐渐避免了频繁的换道行为,最后趋于合理必要的换道;如图6所示,安全超车频次在不断增加,智能车能逐渐掌握正确的超车策略;最后,如图7所示,智能车成功完成路段行驶的次数也是不断增加。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于DQN的智能车多车道换道方法,其特征在于,包括以下步骤:
(1)、构建驾驶行为的MDP过程的状态集合S,包括:智能车传感器检测的距离状态、高级驾驶辅助系统ADAS的预警信息和智能车前向、左右两侧的车辆信息;
(2)、构建驾驶行为的MDP过程的动作集合A,包括:不采取行动,加速,减速,向左变更车道,向向右变更车道;
(3)、构建驾驶行为的MDP过程的回报集合R,包括:
rsum=rv(v)+rcol+rlc+rovertake
其中,v为智能车当前速度,vmax、vmin为智能车符合规则下的最大速度和最小速度,rv,max为最大速度下所对应的奖赏值,rcollision为对于车辆碰撞的惩罚值,rlanechange为对车辆进行换道的基础惩罚,rovertake为智能车成功超越其他车辆的奖赏值;
(4)、训练基于长短时记忆的深度神经网络;
(4.1)、初始化深度神经网络的权重,初始化深度神经网络的输入神经元个数对应着状态集合S的维度,输出神经元个数对应着动作集合A的维度;
(4.2)、对状态集合S中的当前状态st进行归一化,得到深度神经网络的输入特征;
(4.3)、智能车在当前状态st下,采用ε-greedy贪婪策略探索环境,并选取一定的动作at
其中,表示以st作为输入,深度神经网络Q所得到的最大值所对应的动作at
(4.4)、记录当前状态st下得到回报rt,并将智能车迁移到下一个状态st+1
(4.5)、智能车在当前状态st+1下,重复步骤(4.2)~(4.4),并将各状态值形成元组tuple(st,at,rt,st+1),将其存入至深度神经网络的经验回放记忆池D中;
(4.6)、当经验回放记忆池D中的元组个数大于n个后,在经验回放记忆池D中随机采样一个样本tuple(si,ai,ri,si+1),i=1,2,…,n;
判断采样样本是否为终止状态,如果不是,则将采样样本的数据标签记为:否则记为:ri
(4.7)、计算误差损失函数值;
其中,γ为折扣因子;
(4.8)、采用随机梯度下降法SGD完成神经网络的参数θi的更新;
(4.9)、重复步骤(4.6)~(4.8),直到重复迭代次数达到预设次数或深度神经网络收敛,则迭迭代停止,得到训练好的深度神经网络;
(5)、利用训练好的深度神经网络完成智能车的最优策略选择
将智能车的当前状态进行归一化后输入至训练好的深度神经网络,深度神经网络输出该状态下一个最优动作的选择argmaxaQ(s,a)。
CN201910574458.0A 2019-06-28 2019-06-28 一种基于dqn的智能车多车道换道方法 Pending CN110363295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910574458.0A CN110363295A (zh) 2019-06-28 2019-06-28 一种基于dqn的智能车多车道换道方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910574458.0A CN110363295A (zh) 2019-06-28 2019-06-28 一种基于dqn的智能车多车道换道方法

Publications (1)

Publication Number Publication Date
CN110363295A true CN110363295A (zh) 2019-10-22

Family

ID=68216190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910574458.0A Pending CN110363295A (zh) 2019-06-28 2019-06-28 一种基于dqn的智能车多车道换道方法

Country Status (1)

Country Link
CN (1) CN110363295A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112721929A (zh) * 2021-01-11 2021-04-30 成都语动未来科技有限公司 一种基于搜索技术的自动驾驶车辆变道行为决策方法
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113807503A (zh) * 2021-09-28 2021-12-17 中国科学技术大学先进技术研究院 适用于智能汽车的自主决策方法及系统、装置、终端
CN114360290A (zh) * 2021-12-08 2022-04-15 四川智慧高速科技有限公司 一种基于强化学习的交叉口前车辆群体车道选择方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108594804A (zh) * 2018-03-12 2018-09-28 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108944940A (zh) * 2018-06-25 2018-12-07 大连大学 基于神经网络的驾驶员行为建模方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
US20190113929A1 (en) * 2017-10-12 2019-04-18 Honda Motor Co., Ltd. Autonomous vehicle policy generation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930625A (zh) * 2016-06-13 2016-09-07 天津工业大学 Q学习结合神经网络的智能驾驶行为决策系统的设计方法
CN107169567A (zh) * 2017-03-30 2017-09-15 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
US20190113929A1 (en) * 2017-10-12 2019-04-18 Honda Motor Co., Ltd. Autonomous vehicle policy generation
CN108427985A (zh) * 2018-01-02 2018-08-21 北京理工大学 一种基于深度强化学习的插电式混合动力车辆能量管理方法
CN108594804A (zh) * 2018-03-12 2018-09-28 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108944940A (zh) * 2018-06-25 2018-12-07 大连大学 基于神经网络的驾驶员行为建模方法
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109298712A (zh) * 2018-10-19 2019-02-01 大连海事大学 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNJIE WANG等: "Lane Change Decision-making through Deep Reinforcement Learning with Rule-based Constraints", 《ARXIV:1904.00231V2》 *
王立群等: "基于深度Q值网络的自动小车控制方法", 《电子测量技术》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956851A (zh) * 2019-12-02 2020-04-03 清华大学 一种智能网联汽车协同调度换道方法
CN110956851B (zh) * 2019-12-02 2020-11-24 清华大学 一种智能网联汽车协同调度换道方法
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
CN112406867A (zh) * 2020-11-19 2021-02-26 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112721929A (zh) * 2021-01-11 2021-04-30 成都语动未来科技有限公司 一种基于搜索技术的自动驾驶车辆变道行为决策方法
CN112721929B (zh) * 2021-01-11 2022-11-22 成都语动未来科技有限公司 一种基于搜索技术的自动驾驶车辆变道行为决策方法
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113734170B (zh) * 2021-08-19 2023-10-24 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113807503A (zh) * 2021-09-28 2021-12-17 中国科学技术大学先进技术研究院 适用于智能汽车的自主决策方法及系统、装置、终端
CN113807503B (zh) * 2021-09-28 2024-02-09 中国科学技术大学先进技术研究院 适用于智能汽车的自主决策方法及系统、装置、终端
CN114360290A (zh) * 2021-12-08 2022-04-15 四川智慧高速科技有限公司 一种基于强化学习的交叉口前车辆群体车道选择方法

Similar Documents

Publication Publication Date Title
CN110363295A (zh) 一种基于dqn的智能车多车道换道方法
CN113291308B (zh) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
CN110745136B (zh) 一种驾驶自适应控制方法
CN112133089B (zh) 一种基于周围环境与行为意图的车辆轨迹预测方法、系统及装置
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
US10703370B2 (en) Vehicle action control
KR102166811B1 (ko) 심층강화학습과 운전자보조시스템을 이용한 자율주행차량의 제어 방법 및 장치
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN113253739B (zh) 一种用于高速公路的驾驶行为决策方法
Wang et al. Cooperative lane changing via deep reinforcement learning
CN109835339B (zh) 一种换道决策方法及装置
CN113173163A (zh) 学习驾驶员偏好并使车道居中控制适应驾驶员行为的系统和方法
US11364934B2 (en) Training a generator unit and a discriminator unit for collision-aware trajectory prediction
CN115578876A (zh) 一种车辆的自动驾驶方法、系统、设备及存储介质
WO2023230740A1 (zh) 一种异常驾驶行为识别的方法、装置和交通工具
CN116382297A (zh) 基于深度强化学习策略的带约束的混合车辆编队控制方法
Zhao et al. Supervised adaptive dynamic programming based adaptive cruise control
Koenig et al. Bridging the gap between open loop tests and statistical validation for highly automated driving
CN117877245A (zh) 一种新型异质混合交通流模型分级评价与构建方法
WO2024049925A1 (en) Trajectory prediction based on a decision tree
CN114779764B (zh) 基于行车风险分析的车辆强化学习运动规划方法
CN115973156A (zh) 一种基于近端策略优化算法的无人驾驶变道决策控制方法
CN116300853A (zh) 具有驾驶激进性的期望水平的自动化驾驶系统
Zhang et al. Lane Change Decision Algorithm Based on Deep Q Network for Autonomous Vehicles
Nugroho et al. Exploring DQN-Based Reinforcement Learning in Autonomous Highway Navigation Performance Under High-Traffic Conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022

RJ01 Rejection of invention patent application after publication