CN115257809A - 一种人在环的自动驾驶车辆交互学习控制方法及设备 - Google Patents
一种人在环的自动驾驶车辆交互学习控制方法及设备 Download PDFInfo
- Publication number
- CN115257809A CN115257809A CN202210900448.3A CN202210900448A CN115257809A CN 115257809 A CN115257809 A CN 115257809A CN 202210900448 A CN202210900448 A CN 202210900448A CN 115257809 A CN115257809 A CN 115257809A
- Authority
- CN
- China
- Prior art keywords
- human
- loop
- value
- mpc
- dqn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0004—In digital systems, e.g. discrete-time systems involving sampling
- B60W2050/0005—Processor details or data handling, e.g. memory registers or chip architecture
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种人在环的自动驾驶车辆交互学习控制方法及设备,所述方法包括以下步骤:采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN‑MPC双层控制模型获得下一刻的期望加速度和方向盘转角;所述DQN‑MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。此外,本发明具有人类反馈预测功能,当可信度达到设置标准时,模型在环控制模块将代替长时间的人在环控制,解放驾驶员。与现有技术相比,本发明具有提高驾驶安全性和舒适性等优点。
Description
技术领域
本发明涉及自动驾驶汽车的行为决策、控制领域和人工智能的机器学习算法领域,涉及一种车辆控制方法,尤其是涉及一种人在环的自动驾驶车辆交互学习控制方法及设备。
背景技术
近年来,随着人工智能算法的不断发展,自动驾驶汽车技术得到了飞速提升。在基于学习的驾驶系统研究方面,强化学习算法能使自动驾驶汽车在行驶环境中自主搜索可行的控制措施并优化决策策略,具有广泛的应用前景。然而,尽管强化学习算法已经在解决简单交通场景案例中有所成效,但实际的车辆行驶道路类型多样,交通流复杂多变,极可能出现智能体对场景认知有限,学习能力和泛化性能显著下降的情况。此外,强化学习算法在神经网络训练的探索过程中,难免做出不适合目前行驶状态的决策指令,得到不合理的状态-动作对,从而影响神经网络的参数更新。因此,确保自动驾驶汽车行驶过程中的安全舒适,提高智能体学习过程的回放经验质量和多场景移植泛化能力是本领域技术人员亟待解决的技术难点。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高驾驶安全性和舒适性的人在环的自动驾驶车辆交互学习控制方法及设备。
本发明的目的可以通过以下技术方案来实现:
一种人在环的自动驾驶车辆交互学习控制方法,包括以下步骤:
采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角;
所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
进一步地,所述DQN-MPC双层控制模型的训练过程包括:
获取一段时间内的自动驾驶车辆的状态感知信息,形成状态-动作-奖励值的数据对,存储入经验回放池;
进一步地,自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。
若存在所述惩罚因子,则ri替换为rieH,其中,eH为惩罚因子。
进一步地,所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。
进一步地,所述模型在环控制神经网络训练时,基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。
进一步地,所述模型在环控制神经网络的可信度大于设定值时,由模型在环控制神经网络产生所述驾驶员指令。
进一步地,所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。
进一步地,所述MPC层利用PID控制器进行加速度跟踪。
本发明还提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述人在环的自动驾驶车辆交互学习控制方法的指令。
本发明针对复杂多变的道路环境,引入驾驶员交互信息以训练安全可靠的价值神经网络,使自动驾驶汽车能根据不同的车辆间距、相对速度、道路曲率等状态选择合适的决策指令,从而控制车辆安全行驶。与现有技术相比,本发明具有以下有益效果:
1、本发明将驾驶员必要时的决策判断放入深度Q网络(Deep Q-Learning Net,DQN)的价值网络训练过程中,并采用模型预测控制(Model Predictive Control,MPC)方法实现下层控制,充分利用了人类在面临复杂驾驶场景时的鲁棒性和适应性,提高了自动驾驶汽车智能体的学习能力和泛化能力,其MPC控制器的约束条件确保了自动驾驶过程中的安全和舒适。
2、本发明还设置有用于学习真人驾驶指令的模型在环控制神经网络,保证可靠性的同时,减少人工操作。
附图说明
图1为本发明的原理示意图;
图2为本发明MPC层的控制流程示意图;
图3为本发明人在环控制的流程示意图;
图4为本发明反馈预测的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种人在环的自动驾驶车辆交互学习控制方法,包括以下步骤:采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
具体地,上述方法包括:
1)产生决策指令,基于决策指令获得期望加速度和方向盘转角,实现自动驾驶车辆控制。
自动驾驶汽车在行驶过程中采集当前时刻状态集合s,并将状态集合s的信息传递给收敛的Q价值网络;Q价值网络根据自动驾驶汽车所处的状态s和可能做出的换道、车道保持指令aQ计算Q值,并根据ε-greedy算法按概率选取Q值最大动作指令或随机指令作为决策指令;决策指令将作为MPC层的输入,以得到自动驾驶汽车下一刻的期望加速度和方向盘转角,并利用PID控制器进行加速度跟踪,如图2所示。其中,MPC控制器不仅作为执行上层决策的下层控制器,还要确保自动驾驶汽车行驶的安全性和舒适性,其具体结构设计如下:
纵向运动学模型为:
其中,x为自车的纵向位移,vx为自车纵向速度,Δxz为相对速度,选取x、vx、Δxz为状态变量,ax为输入变量,ylon=Δxz为输出变量,其成本函数可以定义为:
约束设置为:
(i=1,2,…,N1;j=0,1,…,N1-1)
横向动力学模型为:
其中,r表示自车在重心处的横摆率,lf和lr表示重心到前轴和后轴的距离,Fyf和Fyr的表达式如下:
约束可设置为:
(i=1,2,…,N2;j=0,1,…,N2-1)
2)基于驾驶员指令的模型更新。
驾驶员需要在自动驾驶汽车行驶过程中实时观察道路环境、周车行驶状态和自车做出的行为决策。若自车在t时刻做出了不合理或不必要的动作决策,人在环控制模块接收驾驶员通过车内的内嵌操控屏幕在t+1时刻提供合理的换道或车道保持指令aH覆盖自动驾驶汽车的自动控制决策指令aQ,进行汽车行为矫正,与此同时,相应的状态-动作-奖励值信息(s,aH,r,s′)将存储进经验回放池中;当自动驾驶汽车运行至Q网络更新步骤时,驾驶员指令信息(s,aH,r,s′)将作为候选信息对Q网络的更新进行修正。除此之外,人在环控制机制还相当于一个向后预测惩罚模块,当驾驶员存在接管自动驾驶汽车的行为时,目标值Y估计函数中奖励值ri将乘以惩罚因数eH,以进一步修正Q网络参数的更新,如图3所示。由此可见,人在环机制不仅提高了经验回放池中的经验质量,还进一步提高了DQN算法中价值Q神经网络的鲁棒性和适应性。其中,ri为从经验回放池中采样后所得集合的奖励值。
上述方法在模型训练时引入人在环控制信息,能对不够准确、不合理的决策进行修正,从而对模型参数的更新过程进行修正,提高模型可靠性,从而提高自动驾驶车辆控制的可靠性和安全性。
本实施例中,DQN-MPC双层控制模型中,DQN层包括Q价值网络和经验回放池,其训练过程包括:
2)获取一段时间内的自动驾驶车辆的状态感知信息,形成状态-动作-奖励值的数据对,表示为(s,aQ,r,s′),s表示状态,aQ表示动作,r表示奖励值,s′为下一时刻状态,奖励值r由奖励函数计算获得,r包括限速奖励、撞击奖励、越线奖励、舒适驾驶奖励、停止奖励和礼让奖励,将数据对存储入经验回放池。
通过车载传感器观测目前t时刻所处的道路环境和交通流情况,将自车位移x、y,自车速度vx、vy,自车与中心线的距离d1,周车位移xz、yz,周车速度vxz、vyz,与周车的相对位置Δxz、Δyz和相对速度Δvxz、Δvyz打包为t时刻的状态s;利用Q神经网络计算动作值Q(s,a);根据ε-greedy算法选取换道和车道保持指令aQ,aQ作用于MPC层,从而控制自动驾驶汽车t至t+1时刻的加速度大小和方向盘角度,并获取下一时刻环境观测状态s′和对应的奖励函数值r。
3)从所述经验回放池采样,构建训练数据集,基于前一次更新的目标动作值函数网络的估计目标值Y,执行梯度下降法,更新参数θ。设置自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。采用均方误差计算损失L=(Y-Q)2,然后执行梯度下降法,更新参数θ。
若存在所述惩罚因子,则ri替换为rieH,其中,eH为惩罚因子。
上述驾驶员指令可通过输入设备获取或由模型在环控制神经网络产生。在另一实施方式中,引入有人类反馈预测机制,通过设置人反馈预测模型可信度模块和模型在环监督控制模块对通过输入设备获取的驾驶员指令进行学习,以替代长时间的人在环控制,解放驾驶员。如图4所示,在训练时,自动驾驶汽车感知的状态s,决策行为aQ和驾驶员的干预决策aH将作为神经网络的输入并由此训练LSTM神经网络以使其能模拟驾驶员的监督行为;当人反馈预测模型可信度模块判断模型在环监督控制模块的可信度大于ξ时,模型在环监督控制模块将代替人在环控制模块,在必要时输出合适的决策指令,进行人类反馈的预测和自动驾驶汽车不良决策行为的补偿。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种人在环的自动驾驶车辆交互学习控制方法,其特征在于,包括以下步骤:
采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角;
所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
3.根据权利要求2所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。
5.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。
6.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述模型在环控制神经网络训练时,基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。
7.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述模型在环控制神经网络的可信度大于设定值时,由模型在环控制神经网络产生所述驾驶员指令。
8.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。
9.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述MPC层利用PID控制器进行加速度跟踪。
10.一种电子设备,其特征在于,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-9任一所述人在环的自动驾驶车辆交互学习控制方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900448.3A CN115257809A (zh) | 2022-07-28 | 2022-07-28 | 一种人在环的自动驾驶车辆交互学习控制方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210900448.3A CN115257809A (zh) | 2022-07-28 | 2022-07-28 | 一种人在环的自动驾驶车辆交互学习控制方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115257809A true CN115257809A (zh) | 2022-11-01 |
Family
ID=83771331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210900448.3A Pending CN115257809A (zh) | 2022-07-28 | 2022-07-28 | 一种人在环的自动驾驶车辆交互学习控制方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115257809A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
CN116069014A (zh) * | 2022-11-16 | 2023-05-05 | 北京理工大学 | 一种基于改进型深度强化学习的车辆自动控制方法 |
CN116238544A (zh) * | 2023-05-12 | 2023-06-09 | 禾多科技(北京)有限公司 | 一种自动驾驶车辆的行驶控制方法及控制系统 |
CN116822659A (zh) * | 2023-08-31 | 2023-09-29 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
-
2022
- 2022-07-28 CN CN202210900448.3A patent/CN115257809A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069014A (zh) * | 2022-11-16 | 2023-05-05 | 北京理工大学 | 一种基于改进型深度强化学习的车辆自动控制方法 |
CN116069014B (zh) * | 2022-11-16 | 2023-10-10 | 北京理工大学 | 一种基于改进型深度强化学习的车辆自动控制方法 |
CN115841163A (zh) * | 2023-02-20 | 2023-03-24 | 浙江吉利控股集团有限公司 | 一种模型预测控制mpc的训练方法、装置及电子设备 |
CN116238544A (zh) * | 2023-05-12 | 2023-06-09 | 禾多科技(北京)有限公司 | 一种自动驾驶车辆的行驶控制方法及控制系统 |
CN116238544B (zh) * | 2023-05-12 | 2023-07-14 | 禾多科技(北京)有限公司 | 一种自动驾驶车辆的行驶控制方法及控制系统 |
CN116822659A (zh) * | 2023-08-31 | 2023-09-29 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
CN116822659B (zh) * | 2023-08-31 | 2024-01-23 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶运动技能学习方法、系统、设备及计算机介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115257809A (zh) | 一种人在环的自动驾驶车辆交互学习控制方法及设备 | |
US20200216094A1 (en) | Personal driving style learning for autonomous driving | |
CN112052776B (zh) | 无人车自主驾驶行为优化方法、装置和计算机设备 | |
US20200372822A1 (en) | Training system for autonomous driving control policy | |
CN112162555A (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN112232490A (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN117227758A (zh) | 多层次人类智能增强的自动驾驶车辆决策控制方法及系统 | |
CN111661045B (zh) | 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元 | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
CN114399743A (zh) | 一种障碍物未来轨迹的生成方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
JP2023017703A (ja) | 車両のビークルダイナミックコントロールシステムを最適にパラメータ化するための方法および装置 | |
CN110281949A (zh) | 一种自动驾驶统一分层决策方法 | |
CN114817989B (zh) | 模型生成方法、运行控制方法、装置、设备及存储介质 | |
CN110879595A (zh) | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 | |
CN117325865A (zh) | 一种lstm轨迹预测的智能车辆换道决策方法及系统 | |
CN117719535A (zh) | 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法 | |
Basile et al. | Ddpg based end-to-end driving enhanced with safe anomaly detection functionality for autonomous vehicles | |
Gutiérrez-Moreno et al. | Hybrid decision making for autonomous driving in complex urban scenarios | |
CN117789502A (zh) | 用于模块化自主车辆控制的分布感知目标预测的系统和方法 | |
CN117032208A (zh) | 融合人类反馈信息和深度强化学习的履带车自动驾驶方法 | |
CN116300850A (zh) | 基于数据机理融合的自动驾驶类人安全自进化方法和系统 | |
CN115629608A (zh) | 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |