CN115257809A - 一种人在环的自动驾驶车辆交互学习控制方法及设备 - Google Patents

一种人在环的自动驾驶车辆交互学习控制方法及设备 Download PDF

Info

Publication number
CN115257809A
CN115257809A CN202210900448.3A CN202210900448A CN115257809A CN 115257809 A CN115257809 A CN 115257809A CN 202210900448 A CN202210900448 A CN 202210900448A CN 115257809 A CN115257809 A CN 115257809A
Authority
CN
China
Prior art keywords
human
loop
value
mpc
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210900448.3A
Other languages
English (en)
Inventor
黄岩军
唐昕月
袁康
杨硕
杜嘉彤
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210900448.3A priority Critical patent/CN115257809A/zh
Publication of CN115257809A publication Critical patent/CN115257809A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0004In digital systems, e.g. discrete-time systems involving sampling
    • B60W2050/0005Processor details or data handling, e.g. memory registers or chip architecture
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种人在环的自动驾驶车辆交互学习控制方法及设备,所述方法包括以下步骤:采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN‑MPC双层控制模型获得下一刻的期望加速度和方向盘转角;所述DQN‑MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。此外,本发明具有人类反馈预测功能,当可信度达到设置标准时,模型在环控制模块将代替长时间的人在环控制,解放驾驶员。与现有技术相比,本发明具有提高驾驶安全性和舒适性等优点。

Description

一种人在环的自动驾驶车辆交互学习控制方法及设备
技术领域
本发明涉及自动驾驶汽车的行为决策、控制领域和人工智能的机器学习算法领域,涉及一种车辆控制方法,尤其是涉及一种人在环的自动驾驶车辆交互学习控制方法及设备。
背景技术
近年来,随着人工智能算法的不断发展,自动驾驶汽车技术得到了飞速提升。在基于学习的驾驶系统研究方面,强化学习算法能使自动驾驶汽车在行驶环境中自主搜索可行的控制措施并优化决策策略,具有广泛的应用前景。然而,尽管强化学习算法已经在解决简单交通场景案例中有所成效,但实际的车辆行驶道路类型多样,交通流复杂多变,极可能出现智能体对场景认知有限,学习能力和泛化性能显著下降的情况。此外,强化学习算法在神经网络训练的探索过程中,难免做出不适合目前行驶状态的决策指令,得到不合理的状态-动作对,从而影响神经网络的参数更新。因此,确保自动驾驶汽车行驶过程中的安全舒适,提高智能体学习过程的回放经验质量和多场景移植泛化能力是本领域技术人员亟待解决的技术难点。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高驾驶安全性和舒适性的人在环的自动驾驶车辆交互学习控制方法及设备。
本发明的目的可以通过以下技术方案来实现:
一种人在环的自动驾驶车辆交互学习控制方法,包括以下步骤:
采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角;
所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
进一步地,所述DQN-MPC双层控制模型的训练过程包括:
初始化经验回放池的容量为N,随机初始化动作值函数Q网络的权重值θ和目标动作值函数
Figure BDA0003770667280000021
网络的权重值
Figure BDA0003770667280000028
获取一段时间内的自动驾驶车辆的状态感知信息,形成状态-动作-奖励值的数据对,存储入经验回放池;
从所述经验回放池采样,构建训练数据集,基于前一次更新的目标动作值函数
Figure BDA0003770667280000022
网络的估计目标值,执行梯度下降法,更新参数θ。
进一步地,自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。
进一步地,前一次更新的目标动作值函数
Figure BDA0003770667280000023
网络的估计目标值具体为:
判断下一步自动驾驶汽车是否到达终点,若是,则计目标值Y=ri,否则,
Figure BDA0003770667280000029
其中,γ为奖励折扣系数,
Figure BDA00037706672800000210
指根据下一状态s′选取的最大
Figure BDA0003770667280000026
值,此
Figure BDA0003770667280000027
值与下一时刻动作a′对应;
若存在所述惩罚因子,则ri替换为rieH,其中,eH为惩罚因子。
进一步地,所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。
进一步地,所述模型在环控制神经网络训练时,基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。
进一步地,所述模型在环控制神经网络的可信度大于设定值时,由模型在环控制神经网络产生所述驾驶员指令。
进一步地,所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。
进一步地,所述MPC层利用PID控制器进行加速度跟踪。
本发明还提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述人在环的自动驾驶车辆交互学习控制方法的指令。
本发明针对复杂多变的道路环境,引入驾驶员交互信息以训练安全可靠的价值神经网络,使自动驾驶汽车能根据不同的车辆间距、相对速度、道路曲率等状态选择合适的决策指令,从而控制车辆安全行驶。与现有技术相比,本发明具有以下有益效果:
1、本发明将驾驶员必要时的决策判断放入深度Q网络(Deep Q-Learning Net,DQN)的价值网络训练过程中,并采用模型预测控制(Model Predictive Control,MPC)方法实现下层控制,充分利用了人类在面临复杂驾驶场景时的鲁棒性和适应性,提高了自动驾驶汽车智能体的学习能力和泛化能力,其MPC控制器的约束条件确保了自动驾驶过程中的安全和舒适。
2、本发明还设置有用于学习真人驾驶指令的模型在环控制神经网络,保证可靠性的同时,减少人工操作。
附图说明
图1为本发明的原理示意图;
图2为本发明MPC层的控制流程示意图;
图3为本发明人在环控制的流程示意图;
图4为本发明反馈预测的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种人在环的自动驾驶车辆交互学习控制方法,包括以下步骤:采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
具体地,上述方法包括:
1)产生决策指令,基于决策指令获得期望加速度和方向盘转角,实现自动驾驶车辆控制。
自动驾驶汽车在行驶过程中采集当前时刻状态集合s,并将状态集合s的信息传递给收敛的Q价值网络;Q价值网络根据自动驾驶汽车所处的状态s和可能做出的换道、车道保持指令aQ计算Q值,并根据ε-greedy算法按概率选取Q值最大动作指令或随机指令作为决策指令;决策指令将作为MPC层的输入,以得到自动驾驶汽车下一刻的期望加速度和方向盘转角,并利用PID控制器进行加速度跟踪,如图2所示。其中,MPC控制器不仅作为执行上层决策的下层控制器,还要确保自动驾驶汽车行驶的安全性和舒适性,其具体结构设计如下:
纵向运动学模型为:
Figure BDA0003770667280000041
Figure BDA0003770667280000042
Figure BDA0003770667280000043
其中,x为自车的纵向位移,vx为自车纵向速度,Δxz为相对速度,选取x、vx、Δxz为状态变量,ax为输入变量,ylon=Δxz为输出变量,其成本函数可以定义为:
Figure BDA0003770667280000044
约束设置为:
Figure BDA0003770667280000045
Figure BDA0003770667280000046
Figure BDA0003770667280000047
Figure BDA0003770667280000048
Figure BDA0003770667280000049
(i=1,2,…,N1;j=0,1,…,N1-1)
横向动力学模型为:
Figure BDA0003770667280000051
Figure BDA0003770667280000052
Figure BDA00037706672800000512
Figure BDA0003770667280000053
其中,r表示自车在重心处的横摆率,lf和lr表示重心到前轴和后轴的距离,Fyf和Fyr的表达式如下:
Figure BDA0003770667280000054
Figure BDA0003770667280000055
选取vy
Figure BDA0003770667280000056
r、y为状态变量,ulat=δ为输入变量,ylat=y为输出变量,成本函数可以定义为:
Figure BDA0003770667280000057
约束可设置为:
Figure BDA0003770667280000058
Figure BDA0003770667280000059
Figure BDA00037706672800000510
Figure BDA00037706672800000511
(i=1,2,…,N2;j=0,1,…,N2-1)
2)基于驾驶员指令的模型更新。
驾驶员需要在自动驾驶汽车行驶过程中实时观察道路环境、周车行驶状态和自车做出的行为决策。若自车在t时刻做出了不合理或不必要的动作决策,人在环控制模块接收驾驶员通过车内的内嵌操控屏幕在t+1时刻提供合理的换道或车道保持指令aH覆盖自动驾驶汽车的自动控制决策指令aQ,进行汽车行为矫正,与此同时,相应的状态-动作-奖励值信息(s,aH,r,s′)将存储进经验回放池中;当自动驾驶汽车运行至Q网络更新步骤时,驾驶员指令信息(s,aH,r,s′)将作为候选信息对Q网络的更新进行修正。除此之外,人在环控制机制还相当于一个向后预测惩罚模块,当驾驶员存在接管自动驾驶汽车的行为时,目标值Y估计函数中奖励值ri将乘以惩罚因数eH,以进一步修正Q网络参数的更新,如图3所示。由此可见,人在环机制不仅提高了经验回放池中的经验质量,还进一步提高了DQN算法中价值Q神经网络的鲁棒性和适应性。其中,ri为从经验回放池中采样后所得集合的奖励值。
上述方法在模型训练时引入人在环控制信息,能对不够准确、不合理的决策进行修正,从而对模型参数的更新过程进行修正,提高模型可靠性,从而提高自动驾驶车辆控制的可靠性和安全性。
本实施例中,DQN-MPC双层控制模型中,DQN层包括Q价值网络和经验回放池,其训练过程包括:
1)初始化经验回放池的容量为N,随机初始化动作值函数Q网络的权重值θ和目标动作值函数
Figure BDA0003770667280000062
网络的权重值
Figure BDA0003770667280000063
2)获取一段时间内的自动驾驶车辆的状态感知信息,形成状态-动作-奖励值的数据对,表示为(s,aQ,r,s′),s表示状态,aQ表示动作,r表示奖励值,s′为下一时刻状态,奖励值r由奖励函数计算获得,r包括限速奖励、撞击奖励、越线奖励、舒适驾驶奖励、停止奖励和礼让奖励,将数据对存储入经验回放池。
通过车载传感器观测目前t时刻所处的道路环境和交通流情况,将自车位移x、y,自车速度vx、vy,自车与中心线的距离d1,周车位移xz、yz,周车速度vxz、vyz,与周车的相对位置Δxz、Δyz和相对速度Δvxz、Δvyz打包为t时刻的状态s;利用Q神经网络计算动作值Q(s,a);根据ε-greedy算法选取换道和车道保持指令aQ,aQ作用于MPC层,从而控制自动驾驶汽车t至t+1时刻的加速度大小和方向盘角度,并获取下一时刻环境观测状态s′和对应的奖励函数值r。
3)从所述经验回放池采样,构建训练数据集,基于前一次更新的目标动作值函数
Figure BDA0003770667280000064
网络的估计目标值Y,执行梯度下降法,更新参数θ。设置自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。采用均方误差计算损失L=(Y-Q)2,然后执行梯度下降法,更新参数θ。
其中,前一次更新的目标动作值函数
Figure BDA0003770667280000061
网络的估计目标值具体为:
判断下一步自动驾驶汽车是否到达终点,若是,则计目标值Y=ri,否则,
Figure BDA0003770667280000075
其中,γ为奖励折扣系数,
Figure BDA0003770667280000076
指根据下一状态s′选取的最大
Figure BDA0003770667280000073
值,此
Figure BDA0003770667280000074
值与下一时刻动作a′对应。
若存在所述惩罚因子,则ri替换为rieH,其中,eH为惩罚因子。
上述驾驶员指令可通过输入设备获取或由模型在环控制神经网络产生。在另一实施方式中,引入有人类反馈预测机制,通过设置人反馈预测模型可信度模块和模型在环监督控制模块对通过输入设备获取的驾驶员指令进行学习,以替代长时间的人在环控制,解放驾驶员。如图4所示,在训练时,自动驾驶汽车感知的状态s,决策行为aQ和驾驶员的干预决策aH将作为神经网络的输入并由此训练LSTM神经网络以使其能模拟驾驶员的监督行为;当人反馈预测模型可信度模块判断模型在环监督控制模块的可信度大于ξ时,模型在环监督控制模块将代替人在环控制模块,在必要时输出合适的决策指令,进行人类反馈的预测和自动驾驶汽车不良决策行为的补偿。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种人在环的自动驾驶车辆交互学习控制方法,其特征在于,包括以下步骤:
采集自动驾驶车辆当前时刻的状态感知信息,基于训练好的DQN-MPC双层控制模型获得下一刻的期望加速度和方向盘转角,其中,所述DQN-MPC双层控制模型包括DQN层和MPC层,DQN层基于所述状态感知信息通过Q价值网络获得决策指令,MPC层基于所述决策指令进行纵向规划跟踪和侧向规划跟踪,获得所述期望加速度和方向盘转角;
所述DQN-MPC双层控制模型基于人在环控制实现更新,在接收到驾驶员指令时,将所述驾驶员指令替换当前的决策指令,更新作为训练数据集的经验回放池,同时生成惩罚因子,该惩罚因子用于修正Q价值网络参数的更新。
2.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述DQN-MPC双层控制模型的训练过程包括:
初始化经验回放池的容量为N,随机初始化动作值函数Q网络的权重值θ和目标动作值函数
Figure FDA0003770667270000011
网络的权重值
Figure FDA0003770667270000012
获取一段时间内的自动驾驶车辆的状态感知信息,形成状态-动作-奖励值的数据对,存储入经验回放池;
从所述经验回放池采样,构建训练数据集,基于前一次更新的目标动作值函数
Figure FDA0003770667270000013
网络的估计目标值,执行梯度下降法,更新参数θ。
3.根据权利要求2所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,自动驾驶汽车每行动M步更新一次所述DQN-MPC双层控制模型,每次更新从经验回放池中均匀随机抽取M个数据对,构建训练数据集。
4.根据权利要求2所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,前一次更新的目标动作值函数
Figure FDA0003770667270000014
网络的估计目标值具体为:
判断下一步自动驾驶汽车是否到达终点,若是,则计目标值Y=ri,否则,
Figure FDA0003770667270000015
其中,γ为奖励折扣系数,
Figure FDA0003770667270000016
指根据下一状态s′选取的最大
Figure FDA0003770667270000017
值,此
Figure FDA0003770667270000018
值与下一时刻动作a′对应;
若存在所述惩罚因子,则ri替换为rieH,其中,eH为惩罚因子。
5.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述驾驶员指令通过输入设备获取或由模型在环控制神经网络产生。
6.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述模型在环控制神经网络训练时,基于自动驾驶过程中的状态感知信息、决策指令信息以及通过输入设备获取的驾驶员指令构建训练数据集。
7.根据权利要求5所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述模型在环控制神经网络的可信度大于设定值时,由模型在环控制神经网络产生所述驾驶员指令。
8.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述DQN层根据ε-greedy算法按概率选取Q值最大的指令或随机指令作为所述决策指令。
9.根据权利要求1所述的人在环的自动驾驶车辆交互学习控制方法,其特征在于,所述MPC层利用PID控制器进行加速度跟踪。
10.一种电子设备,其特征在于,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-9任一所述人在环的自动驾驶车辆交互学习控制方法的指令。
CN202210900448.3A 2022-07-28 2022-07-28 一种人在环的自动驾驶车辆交互学习控制方法及设备 Pending CN115257809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210900448.3A CN115257809A (zh) 2022-07-28 2022-07-28 一种人在环的自动驾驶车辆交互学习控制方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210900448.3A CN115257809A (zh) 2022-07-28 2022-07-28 一种人在环的自动驾驶车辆交互学习控制方法及设备

Publications (1)

Publication Number Publication Date
CN115257809A true CN115257809A (zh) 2022-11-01

Family

ID=83771331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210900448.3A Pending CN115257809A (zh) 2022-07-28 2022-07-28 一种人在环的自动驾驶车辆交互学习控制方法及设备

Country Status (1)

Country Link
CN (1) CN115257809A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备
CN116069014A (zh) * 2022-11-16 2023-05-05 北京理工大学 一种基于改进型深度强化学习的车辆自动控制方法
CN116238544A (zh) * 2023-05-12 2023-06-09 禾多科技(北京)有限公司 一种自动驾驶车辆的行驶控制方法及控制系统
CN116822659A (zh) * 2023-08-31 2023-09-29 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069014A (zh) * 2022-11-16 2023-05-05 北京理工大学 一种基于改进型深度强化学习的车辆自动控制方法
CN116069014B (zh) * 2022-11-16 2023-10-10 北京理工大学 一种基于改进型深度强化学习的车辆自动控制方法
CN115841163A (zh) * 2023-02-20 2023-03-24 浙江吉利控股集团有限公司 一种模型预测控制mpc的训练方法、装置及电子设备
CN116238544A (zh) * 2023-05-12 2023-06-09 禾多科技(北京)有限公司 一种自动驾驶车辆的行驶控制方法及控制系统
CN116238544B (zh) * 2023-05-12 2023-07-14 禾多科技(北京)有限公司 一种自动驾驶车辆的行驶控制方法及控制系统
CN116822659A (zh) * 2023-08-31 2023-09-29 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质
CN116822659B (zh) * 2023-08-31 2024-01-23 浪潮(北京)电子信息产业有限公司 自动驾驶运动技能学习方法、系统、设备及计算机介质

Similar Documents

Publication Publication Date Title
CN115257809A (zh) 一种人在环的自动驾驶车辆交互学习控制方法及设备
US20200216094A1 (en) Personal driving style learning for autonomous driving
CN112052776B (zh) 无人车自主驾驶行为优化方法、装置和计算机设备
US20200372822A1 (en) Training system for autonomous driving control policy
CN112162555A (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN117227758A (zh) 多层次人类智能增强的自动驾驶车辆决策控制方法及系统
CN111661045B (zh) 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元
CN113901718A (zh) 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN114399743A (zh) 一种障碍物未来轨迹的生成方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
JP2023017703A (ja) 車両のビークルダイナミックコントロールシステムを最適にパラメータ化するための方法および装置
CN110281949A (zh) 一种自动驾驶统一分层决策方法
CN114817989B (zh) 模型生成方法、运行控制方法、装置、设备及存储介质
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN117325865A (zh) 一种lstm轨迹预测的智能车辆换道决策方法及系统
CN117719535A (zh) 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法
Basile et al. Ddpg based end-to-end driving enhanced with safe anomaly detection functionality for autonomous vehicles
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios
CN117789502A (zh) 用于模块化自主车辆控制的分布感知目标预测的系统和方法
CN117032208A (zh) 融合人类反馈信息和深度强化学习的履带车自动驾驶方法
CN116300850A (zh) 基于数据机理融合的自动驾驶类人安全自进化方法和系统
CN115629608A (zh) 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination