CN112356830A - 一种基于模型强化学习的智能泊车方法 - Google Patents

一种基于模型强化学习的智能泊车方法 Download PDF

Info

Publication number
CN112356830A
CN112356830A CN202011336997.XA CN202011336997A CN112356830A CN 112356830 A CN112356830 A CN 112356830A CN 202011336997 A CN202011336997 A CN 202011336997A CN 112356830 A CN112356830 A CN 112356830A
Authority
CN
China
Prior art keywords
parking
model
network
strategy
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011336997.XA
Other languages
English (en)
Other versions
CN112356830B (zh
Inventor
陈慧
宋绍禹
孙宏伟
刘美岑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202011336997.XA priority Critical patent/CN112356830B/zh
Publication of CN112356830A publication Critical patent/CN112356830A/zh
Application granted granted Critical
Publication of CN112356830B publication Critical patent/CN112356830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/06Automatic manoeuvring for parking
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • B60W2050/0034Multiple-track, 2D vehicle model, e.g. four-wheel model

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于模型强化学习的智能泊车方法,使用蒙特卡罗树搜索、车辆运动学模型、动作分类网络和状态值拟合网络,具体包括以下步骤:S1.蒙特卡罗树搜索结合动作分类网络和车辆运动学模型获取泊车数据预训练模型;S2.根据泊车预训练模型生成的泊车数据训练状态值拟合网络;S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合,构成在线驾驶策略模型;S4.泊车在线驾驶策略模型以滚动时域方式,接收库位和车辆运动信息,在每个时间间隔产生一个控制指令,并发送至车辆运动控制模块来控制目标车辆完成泊车。与现有技术相比,本发明具有更好的最终泊车航向角和成功率、减少车辆模型的精确度对最终泊车效果的影响等优点。

Description

一种基于模型强化学习的智能泊车方法
技术领域
本发明涉及自动泊车技术领域,尤其是涉及一种基于模型强化学习的智能泊车方法。
背景技术
自动泊车系统(APS)是重要的智能辅助驾驶系统,因为它们具有减少在狭窄城市中发生事故的巨大潜力,并增加了泊车位的使用率。对于所有APS平台,所述智能车辆必须由车载传感器系统检测库位并生成其运动的泊车空间,如环视相机(AVM)和激光雷达(LIDAR)。APS的常规运动规划方法是路径速度分解方法,将泊车任务分解为运动学子问题和动力学子问题,分别通过路径规划和路径跟踪方法解决,但是不能灵活地处理实时感知信息,同时不能使用历史泊车数据来提高其自身的能力。
目前已有数据驱动的强化学习(RL)的APS来解决上述问题。强化学习包括基于模型的方法和无模型方法。无模型的RL已为APS取得了可接受的控制性能,通过直接尝试操作来获得最大的累积奖励,从而学会倒车。但是需要进行多次真正的交互才能应用。数据效率低下使无模型的RL变得不切实际,并限制了其在泊车场景中的应用,因为在泊车场景中,车辆需要快速掌握驾驶技能。基于模型的强化学习用于实现多目标优化并摆脱人类经验,但是由于动作的回报是通过在线仿真结果确定的,因此该方法在很大程度上依赖于车辆模型的准确性。为了获得和验证车辆模型,需要进行大量试验。此外,该方法不能利用有限的泊车数据对未知模型的被控对象进行连续学习,以进一步提高泊车能力。数据效率在强化学习中是指获得稳定性能所需的数据数量。在保持持续学习能力的同时,很少有研究聚焦基于RL的APS尤其是基于模型的RL的APS数据效率问题。关于基于模型的RL技术,AlphaGo利用围棋游戏中的基本规则和函数逼近来获得状态值函数,并通过自我博弈击败了人类玩家,激发了和状态值函数的结合,克服基于模型的RL的自动泊车系统的缺点。
通过拟合状态值函数来实现连续学习,比如将近似修改策略迭代(AMPI)用来利用状态转换函数来利用车辆运动学的先验知识来构造状态值函数,从而显示出高数据效率。蒙特卡罗树搜索(MCTS)在泊车设置中,会在试验结束时给予奖励,比提供即时奖励更简单,更客观,可以通过限制在搜索过程中使用模拟来减少对车辆模型准确性的要求。MCTS使用状态值的估计和候选动作的概率分布来实现探索与开发之间的平衡。除了用于学习具有高奖励的动作的概率分布的人工神经网络(ANN),另一个值ANN用于预测状态值。ANN的更新方向可以通过添加加权系数和泊车轨迹的回报值来增强。
发明内容
本发明的目的就是为了克服上述现有技术存在的过度依赖于车辆模型的准确性、信息处理不够灵活、不能有效利用现有数据的缺陷而提供一种基于模型强化学习的智能泊车方法。
本发明的目的可以通过以下技术方案来实现:
一种基于模型强化学习的智能泊车方法,使用蒙特卡罗树搜索、动作分类网络和状态值拟合网络,具体包括以下步骤:
S1.所述蒙特卡罗树搜索结合所述动作分类网络和车辆运动学模型获取泊车数据预训练模型;
S2.根据泊车预训练模型生成的泊车数据训练所述状态值拟合网络;
S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合,构成在线驾驶策略模型;
S4.所述泊车在线驾驶策略模型以滚动时域方式,接收库位和车辆运动信息,在每个时间间隔产生一个控制指令,并发送至车辆运动控制模块,由控制模块控制目标车辆完成泊车。
所述蒙特卡罗树搜索设有记忆链,通过叶节点的多步仿真获得状态值。
所述动作分类网络的输入为泊车状态,输出为泊车动作概率分布,所述泊车动作概率分布根据人工神经网络计算得到,在蒙特卡罗树在搜索中选择动作时,通过系统识别提高模型的准确性,并通过将MCTS与纵向和横向策略相结合,实现多目标最优性。
在每个控制指令的时间间隔,基于实时状态计算车辆底盘控制系统扭矩请求与方向盘角度指令。
所述泊车方法的制定过程中使用马尔可夫决策过程,所述马尔可夫决策的具体过程为优化多个步骤的累积回报,获得最优策略作为泊车指令生成器。
进一步地,所述多个步骤的累积回报的计算公式具体如下:
Figure BDA0002797534890000031
其中,K为步骤数量,t为当前时刻,r为奖励函数,γ为折扣因子,范围为(0,1],sk和ak分别是k时刻的泊车状态和泊车动作;
所述最优策略的计算公式如下所示:
Figure BDA0002797534890000032
其中,*表示最优,Vπ(s)为状态值函数,π为用于泊车动作选择的驾驶策略模型;
所述状态值函数的计算公式具体如下:
Vπ(s)=Eπ[R(τ)|St=s]
其中,E为求期望,Vπ(s)为状态的期望回报,S为状态。。
进一步地,所述泊车状态和泊车状态-动作的值函数之间关联关系如下所示:
Figure BDA0002797534890000033
其中,A为动作,
Figure BDA0002797534890000034
为泊车状态-动作的值函数;
所述泊车指令的生成过程中设有奖励函数,泊车的主要指标是汽车的最终位置,平行泊车的理想终点位置平行于前后障碍车辆的连接线,同时应确保一定的泊车深度,以避免车轮撞到泊车位的边缘,随着泊车深度和方向接近目标值,奖励应该增加,所述奖励函数具体如下所示:
r(k)=Ry+Rθ+Ra+Rsafe
其中:
Figure BDA0002797534890000035
Figure BDA0002797534890000036
Figure BDA0002797534890000037
Rsafe={0,Csafe}
Ry和Rθ是具有有界函数值的sigmoid型函数S曲线,c1、c2和c3是比例因子,数值为常数,前两个系数分别决定了关于泊车深度误差和角度误差的奖励的下降速率,ai–ai–1用于鼓励以相对较小的转向动作完成任务,Ra决定方向盘动作的权重,Cy、Cθ和Csafe是奖励项权重,Cy=Cθ=20000,Csafe=–10000,在发生碰撞时奖励值将受到-10000的处罚;
前轮转向单轨运动学车辆模型广泛用于低速泊车,此时侧滑可以忽略,所述泊车状态的状态转移函数具体如下所示:
x’=v(t)cosθ(t)
y’=v(t)sinθ(t)
Figure BDA0002797534890000041
其中,v(t)为t时刻的车速,l为车辆轴距,x’为后轴中心x方向变化率,y’为后轴中心y方向变化率,θ’为航向角变化率,
Figure BDA0002797534890000042
是前轮转角;前轮简化为一个转向角度,在没有滑动时给定转向角,阿克曼转向几何方法确保目标车辆将在后中心轴和前轮垂直线的交点为中心的圆内行驶。
进一步地,所述步骤S3中通过近似修正策略迭代方法,由截断蒙特卡罗树搜索算法实现策略评估和策略提高,所述近似修正策略空间逼近相应的状态值函数,得到策略估计和策略改进,并根据策略改进,通过贪婪步骤计算最优策略,所述策略估计和策略改进估计的计算公式如下所示:
Vπk(s)=Eπk[rt+1+γV’πk(St+1)|St=s]
πk+1(s)=arg maxa Qπk(s,a)=arg maxa E[rt+γVπk(St+1)|St=s,At=a]
其中,Vπk(s)为状态值函数,arg maxa()表示使括号内部值取得最大时所对应的动作a选取方式,从初始值V0和初始策略π1开始,在k迭代中,通过Vk使用Vk-1上的贝尔曼算子建立新的状态值函数,然后使用状态值函数获得动作值;通过选择一个更强的动作a得到一个新的策略,如果满足策略改进定理Qπk(s,πk+1(s))≥Vπ(k),则新策略πk+1收敛到最优策略;对于每个策略对和状态值函数的估计,需要使用上一步迭代生成的训练样本{st,at,rt+V(st+1)}。
进一步地,所述蒙特卡罗树搜索在搜索过程中根据状态值拟合网络和动作分类网络生成所述策略估计和策略改进进行实施;当目标车辆遇到新状态时,前向采样序列s、a和r用于估计值函数,目标车辆的状态s被视为一个节点,而边缘(s,a)存储状态-动作对的统计信息。基于采样评价结果向树中添加有希望的节点,从根节点到目标状态按照增量式的方式构建蒙特卡罗树搜索,具体公式如下:
Figure BDA0002797534890000051
其中,N(s,a)是来自状态的动作的访问次数,
Figure BDA0002797534890000052
是指示a是否被选中的布尔变量,zi是第i次采样的奖励值;
所述蒙特卡罗树搜索的边缘存储统计值如下:
{P(s,a),N(s,a),W(s,a),Q(s,a),UCT}
每次采样从根节点选择一条边进行搜索,具体公式如下:
Figure BDA0002797534890000053
其中,μ为自适应系数,用于调控动作分类网络输出分布,μ值越小,P(s,a)的作用越强,当蒙特卡罗树搜索遍历到一个叶节点时,子节点被添加到树中,新节点由值网络v(s)=V’μ’(s)来评估,总访问次数N(s,a)和来自根节点的动作链的总值更新为N(s,a)=N(s,a)+1和W(s,a)=W(s,a)+v(s);
所述蒙特卡罗树搜索在实际动作选择时根据以下公式进行:
Figure BDA0002797534890000054
其中,τ是温度系数,b是根节点的子节点;
所述状态值拟合网络计算当前车辆状态关于最终整体性能的值,动作分类网络学习训练迭代中获得的即时泊车反应经验,共同向蒙特卡罗树搜索提供信息,状态值V对于估计真实的动作状态值Q至关重要,以便确定向树中添加节点的优先级,并进而最终影响实际执行,策略迭代的效果依赖于参数为μ’的值网络的拟合精度,状态值拟合网络采用列文伯格-马夸特方法进行训练,并按如下公式进行最小化处理:
Figure BDA0002797534890000055
其中,Vest为状态值拟合网络的输出值;
所述动作分类网络推荐动作概率分布,使用交叉熵损失如下所示:
Figure BDA0002797534890000056
其中,H(p,q)为交叉熵损失,p为动作的概率。
进一步地,所述动作分类网络根据轨迹回报加权探索进行策略学习,对于整个策略迭代根据如下公式判断是否收敛:
Vπ(st)≤Qπ(s,π'(st))
其中,Vπ(st)为旧策略的状态值,Qπ(s,π'(st))为新策略的状态-动作值;
所有轨迹的预期总回报具体如下:
Figure BDA0002797534890000061
其中,pπk)是策略π下轨迹τk的概率分布,对于原始策略迭代,所有轨迹都用于评估策略;若将轨迹回报的新分布p’(τk)应用于τ,新的总预期回报可将会高于原总预期回报,具体如下所示:
Figure BDA0002797534890000062
更新与加权因子相关联的网络的规则如下所示:
Figure BDA0002797534890000063
其中,θ为神经网络参数,l为神经网络更新次数,α’为学习率,
Figure BDA0002797534890000064
为网络参数更新的计算梯度方向。
本发明将目标策略和行为策略分开,记录目标车辆的所有历史泊车轨迹,并通过历史收益最高的Ks试验用来改进现有策略。
在泊车应用中,进一步抽象出目标车辆的动作,包括增加角度、减少角度和无动作。
为了容易调试并提高网络训练的收敛性,采用分阶段获得泊车数据并训练神经网络的方式。首先利用车辆运动学模型,将动作分类网络和蒙特卡洛树搜索结合,在泊车仿真环境迭代地产生仿真数据-筛选样本-训练动作分类网络。动作分类网络收敛过后,再仿真生成用于泊车状态评估的数据,进而训练状态值值网络。
与现有技术相比,本发明具有以下有益效果:
1.本发明采用截断蒙特卡罗树搜索算法,通过设计自适应的探索激励因子和加权策略学习来提高数据效率,引导网络向高回报轨迹方向的更新,并减少了车辆模型的精确度对最终泊车效果的影响,相比现有基于模型强化学习方法,具备较好的持续学习的能力。
2.本发明持续规划和控制运动,对初始泊车位置的感知系统要求较低,并且由于其数据驱动的特性,将姿态估计器给出的泊车轨迹用来改善系统的性能。
3.本发明包括两个学习阶段:第一阶段学习用于搜索动作概率指导的分类网络,第二阶段学习用于泊车状态值估计的拟合网络。在自动泊车系统训练的全过程不需要人工输入。
4.本发明在全尺寸车辆上得到验证,用标定的车辆运动学参数,显示出无需在真实平台上进行耗时的倒车入库控制训练即可实现可接受的性能。
附图说明
图1为本发明的流程示意图;
图2为本发明蒙特卡罗树搜索的流程示意图;
图3为本发明整体框架的结构示意图;
图4为本发明截断蒙特卡罗树搜索的流程示意图;
图5为本发明动作分类网络的结构示意图;
图6为本发明状态值拟合网络的结构示意图;
图7为本发明泊车数据增广的流程示意图;
图8为本发明预训练动作分类网络的流程示意图;
图9为本发明通过训练得到状态值拟合网络的流程示意图;
图10为本发明实施例中模拟泊车场景的示意图;
图11为本发明实施例中预训练模型的结果示意图,其中图11(a)为总回报的示意图,图11(b)为转角平滑项回报的示意图,图11(c)为方向盘转角增量预测误差的示意图,图11(d)为25×25隐藏层的预测精准度的示意图;
图12为本发明实施例中状态值拟合网络训练结果的示意图;
图13为本发明实施例中蒙特卡罗树搜索在不同参数下的平均回报的示意图;
图14为本发明实施例中不同算法的平均奖励值的示意图;
图15为本发明实施例中采用曲线的路径规划与强化学习的泊车轨迹的对比图,其中图15(a)为采用曲线的路径规划的泊车轨迹示意图,图15(b)为强化学习的泊车轨迹示意图,图15(c)为规划路径的曲率对比图,图15(d)为强化学习的车速曲线示意图;
图16为本发明实施例中不同算法在训练学习过程的示意图;
图17为本发明在每次迭代中初始位姿的变化示意图;
图18为本发明实施例中无重新加权的蒙特卡罗树搜索在每次迭代中初始位姿的变化示意图;
图19为本发明实施例中初始位姿(3.5,1.5,0°)的实验控制量和状态量曲线的变化示意图,其中图19(a)为轨迹的变化示意图,图19(b)为车速的变化示意图,图19(c)为方向盘转角的变化示意图,图19(d)为航向角的变化示意图,图19(e)为加速度的变化示意图,图19(f)为方向盘速度的变化示意图;
图20为本发明实施例中初始位姿(2.5,1.75,-10°)的实验控制量和状态量曲线的变化示意图,其中图20(a)为轨迹的变化示意图,图20(b)为车速的变化示意图,图20(c)为方向盘转角的变化示意图,图20(d)为航向角的变化示意图,图20(e)为加速度的变化示意图,图20(f)为方向盘速度的变化示意图;
图21为本发明实施例中初始位姿(2.5,1.75,10°)的实验控制量和状态量曲线的变化示意图,其中图21(a)为轨迹的变化示意图,图21(b)为车速的变化示意图,图21(c)为方向盘转角的变化示意图,图21(d)为航向角的变化示意图,图21(e)为加速度的变化示意图,图21(f)为方向盘速度的变化示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,一种基于模型强化学习的智能泊车方法,使用蒙特卡罗树搜索、动作分类网络和状态值拟合网络,具体包括以下步骤:
S1.蒙特卡罗树搜索结合动作分类网络和车辆运动学模型获取泊车数据预训练模型;
S2.根据泊车预训练模型生成的泊车数据训练状态值拟合网络;
S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合,构成在线驾驶策略模型;
S4.泊车在线驾驶策略模型以滚动时域方式,接收库位和车辆运动信息,在每个时间间隔产生一个控制指令,并发送至车辆运动控制模块,由控制模块控制目标车辆完成泊车。
泊车预训练模型根据超声波传感器和激光雷达来适应障碍物的形状,在泊车期间结合激光雷达和航位推算,将车辆的定位和地图绘制限制在厘米级。
如图2所示,蒙特卡罗树搜索包括选择、扩展、模拟和备份步骤,蒙特卡罗树搜索设有记忆链,通过叶节点的多步仿真获得状态值。
动作分类网络的输入为泊车状态,输出为泊车动作概率分布,泊车动作概率分布根据人工神经网络计算得到,在蒙特卡罗树在搜索中选择动作时,策略的权重设置为0,通过系统识别提高模型的准确性,并通过将MCTS与纵向和横向策略相结合,实现多目标最优性。
如图3所示,目标车辆的输入是运动状态,输出是方向盘角度命令,在每个控制指令的时间间隔,基于实时状态计算车辆底盘控制系统扭矩请求与方向盘角度指令,通过卡尔曼滤波处理运动传感器数据。
泊车指令的制定过程中使用马尔可夫决策过程,马尔可夫决策的具体过程为优化多个步骤的累积回报,获得最优策略作为泊车指令生成器。
多个步骤的累积回报的计算公式具体如下:
Figure BDA0002797534890000091
其中,K为步骤数量,t为当前时刻,r为奖励函数,γ为折扣因子,范围为(0,1],sk和ak分别是k时刻的泊车状态和泊车动作;
最优策略的计算公式如下所示:
Figure BDA0002797534890000092
其中,*表示最优,Vπ(s)为状态值函数,π为用于泊车动作选择的驾驶策略模型;
状态值函数的计算公式具体如下:
Vπ(s)=Eπ[R(τ)|St=s]
其中,E为求期望,Vπ(s)为状态的期望回报,S为状态。
泊车状态和泊车状态-动作的值函数关联函数如下所示:
Figure BDA0002797534890000093
其中,A为动作,
Figure BDA0002797534890000094
为泊车状态-动作值函数;
泊车指令的生成过程中设有奖励函数,泊车的主要标准是汽车的最终位置,平行泊车的理想终点位置平行于前后障碍车辆的连接线,同时应确保一定的泊车深度,以避免车轮撞到泊车位的边缘,随着泊车深度和方向接近目标值,奖励应该增加,奖励函数具体如下所示:
r(k)=Ry+Rθ+Ra+Rsafe
其中:
Figure BDA0002797534890000095
Figure BDA0002797534890000101
Figure BDA0002797534890000102
Rsafe={0,–10000}
Ry和Rθ是具有有界函数值的sigmoid型函数S曲线,c1、c2和c3是比例因子,数值为常数,前两个系数分别决定了关于泊车深度误差和角度误差的奖励的下降速率,ai–ai–1用于鼓励以相对较小的转向动作完成任务,Ra决定方向盘动作的权重,在发生碰撞时安全项Rsafe奖励值将收到–10000的处罚;
前轮转向单轨运动学车辆模型广泛用于低速泊车,此时侧滑可以忽略,泊车状态的状态转移函数具体如下所示:
x’=v(t)cosθ(t)
y’=v(t)sinθ(t)
Figure BDA0002797534890000103
其中,v(t)为t时刻的车速,l为轴距,x’为后轴中心的x方向变化率,y’为后轴中心的y方向变化率,θ’为航向角变化率,
Figure BDA0002797534890000104
是前轮转角;前轮简化为一个转向角度,在没有滑动时给定转向角,阿克曼转向几何方法确保目标车辆将在后轴中心和前轮垂直线的交点为中心的圆内行驶。
步骤S3中通过近似修正策略迭代方法的截断蒙特卡罗树搜索实现,如图4所示,近似修正策略空间逼近相应的状态值函数,得到策略估计和策略改进,并根据策略改进,通过贪婪步骤计算最优策略,策略估计和策略改进估计的计算公式如下所示:
Vπk(s)=Eπk[rt+1+γV’πk(St+1)|St=s]
πk+1(s)=arg maxa Qπk(s,a)=arg maxa E[rt+γVπk(St+1)|St=s,At=a]
其中,Vπk(s)为状态值函数,arg maxa()表示使括号内部值取得最大时所对应的动作a选取方式,从初始值V0和初始策略π1开始,在k迭代中,通过Vk使用Vk-1上的贝尔曼算子建立新的状态值函数,然后使用状态值函数获得动作值;通过选择一个更强的动作a得到一个新的策略,如果满足策略改进定理Qπk(s,πk+1(s))≥Vπ(k),则新策略πk+1收敛到最优策略;对于每个策略对和状态值函数的估计,需要使用上一步迭代生成的训练样本{st,at,rt+V(st+1)}。
蒙特卡罗树搜索在截断过程中根据状态值拟合网络和动作分类网络生成策略估计和策略改进进行实施,状态值拟合网络和动作分类网络如图5和图6所示;当目标车辆遇到新状态时,前向采样序列s、a和r用于估计值函数,目标车辆的状态s被视为一个节点,而边缘(s,a)存储状态-动作对的统计信息。基于采样评价结果向树中添加有希望的节点,从根节点到目标状态按照增量式的方式构建蒙特卡罗树搜索,具体公式如下:
Figure BDA0002797534890000111
其中,N(s,a)是来自状态的动作的访问次数,
Figure BDA0002797534890000112
是指示a是否被选中的布尔变量,zi是第i次采样的奖励值;
蒙特卡罗树搜索的边缘存储统计值如下:
{P(s,a),N(s,a),W(s,a),Q(s,a),UCT}
每次采样从根节点选择一条边进行搜索,具体公式如下:
Figure BDA0002797534890000113
其中,μ为自适应系数,,用于调控动作分类网络输出分布,μ值越小,P(s,a)的作用越强,当蒙特卡罗树搜索遍历到一个叶节点时,子节点被添加到树中,新节点由值网络v(s)=V’μ’(s)来评估,总访问次数N(s,a)和来自根节点的动作链的总值更新为N(s,a)=N(s,a)+1和W(s,a)=W(s,a)+v(s),在泊车应用中,目标车辆的动作进一步离散化,包括增加角度、减少角度和无动作,自适应因子μ的选取原则根据当前动作方向是否与动作分类网络的根节点推荐方向一致而定。
蒙特卡罗树搜索在实际动作选择时根据以下公式进行:
Figure BDA0002797534890000114
其中,τ是温度系数,b是根节点的子节点;
状态值拟合网络计算当前车辆状态关于最终整体性能的值,动作分类网络学习训练迭代中获得的即时泊车反应经验,共同向蒙特卡罗树搜索提供信息,状态值V对于估计真实的动作状态值Q至关重要,以便确定向树中添加节点的优先级,进而最终影响实际执行,策略迭代的效果依赖于参数为μ’的值网络的拟合精度,状态值拟合网络采用列文伯格-马夸特方法进行训练,并按如下公式进行最小化处理:
Figure BDA0002797534890000115
其中,Vest为状态值拟合网络的输出值;
动作分类网络推荐动作概率分布,使用的交叉熵损失如下所示:
Figure BDA0002797534890000121
其中,H(p,q)为交叉熵损失,p为动作的概率。
动作分类网络根据轨迹回报加权探索进行策略学习,对于整个策略迭代根据如下公式判断是否收敛:
Vπ(st)≤Qπ(s,π'(st))
其中,Vπ(st)为旧策略的状态值,Qπ(s,π'(st))为新策略的状态-动作值;
所有轨迹的预期总回报具体如下:
Figure BDA0002797534890000122
其中,pπk)是策略π下轨迹τk的概率分布,对于原始策略迭代,所有轨迹都用于评估策略;若将轨迹回报的新分布p’(τk)应用于τ,新的总预期回报可将会高于原总预期回报,具体如下所示:
Figure BDA0002797534890000123
更新与加权因子相关联的网络的规则如下所示:
Figure BDA0002797534890000124
本发明将目标策略和行为策略分开,记录目标车辆的所有历史泊车轨迹,并通过历史收益最高的Ks试验用来改进现有策略。
如图7所示,泊车预训练模型根据交互环境的先验信息进行训练,状态值拟合网络的训练样本生成过程中,奖励在执行结束时给予,真实轨迹生成后,兄弟节点作为根节点,蒙特卡罗树搜索使用分支点执行模拟,直到算法终止,多次模拟的最终rT做数学期望获得真实回报的无偏估计;由于泊车期间车速和控制间隔很小,较小的动作差异很难产生显著的值分布差异,因此从根节点开始的每个移动被重复采样多次,通过考虑计算机线程的数量来选择用于获得状态值的无偏估计的仿真数量,如图8和图9所示,根据图8中计算得到的收敛动作分类网络,来虚拟泊车,进而训练网络获得9中状态值拟合网络的参数。
如图10所示,在模拟场景中对本发明进行仿真,泊车的初始姿势是固定的,均匀分布在x=[1.5m,3.5m],y=[1.25m,2.25m]的25个位置,泊车位长度为5.5m,在泊车位坐标系中,目标泊车最终位姿y和θ的值分别为-0.85m和0°,对于每个人工神经网络,在训练的10个网络中选择测试集中损失函数最小的一个作为最终的人工神经网络,模拟车辆的基础数据和算法参数如表1所示,具体如下:
表1车辆基础数据和算法参数表
Figure BDA0002797534890000131
使用动作分类网络和MCTS对应的预先训练模型用于获得动作分类网络,在奖励函数中,Ry加Rθ的范围是0到20000,而收敛-Ra的实验值是600到1000,模型预训练的学习过程如图11所示,由于网络参数过多导致训练不足,50×50网络收敛缓慢,尺寸相对较小的网络拥有收敛更快的预测误差。在学习初期,奖励增长很快,接近19000,尽管预测误差可以进一步减小,但预训练模型的回报在大约20次迭代中收敛。考虑到实验的实时性,最终动作分类网络的隐藏层尺寸设计为25×25。
动作分类网络的预测误差如图11(c)和图11(d)所示,对于每个精确动作(分辨率为5度),动作分类网络的最终预测误差超过30%,为了更有效地使用动作分类网络的学习信息,车辆转向动作被模糊动作集合{增加角度,减少角度,无动作},若相应精确动作的预测结果之和大于0.5,则划分到动作集合中对应模糊动作。动作方向启发式信息的预测精度如图11(d)所示,由图11(d)的结果可知模糊化处理后的预测精度很高。
获得动作分类网络后,生成数据{st,at,rt+V(st+1)},并训练状态值拟合网络,过程中同时训练了10个网络,其中数据集被随机分成80%用于训练,10%用于验证,10%用于测试,最终选择了测试误差最小的网络,如图12所示,70%训练样本和69.9%测试样本的误差均低于1000。
如图13所示,通过Carsim车辆评估本发明的方法在具有不同蒙特卡洛采样时间cmax和权重项cpuct的所有25个初始姿态上的性能,包括动作分类网络的11个不同cpuct值(从0到10000)的平均回报以及相应的采样时间cmax(从10到100),其中奖励上限是2万;当cpuct≥6000,cmax≥30时,大部分回报在18120以上;扣除600的平均行动惩罚,剩余奖励在Rθ为1230(对应0.82度)和Ry为50(对应0.9厘米)的区间之中。对于每个cmax值,当cpuct=0时,始终出现最低奖励,表明采样优先级受动作分类网络的影响,动作分类网络是状态值拟合网络的重要补充,但状态值拟合网络的价值预测误差是不可避免的。
如图14所示,为了评估本发明所提方法对改进组合模型的影响,将参数设置为cpuct=6000和cmax=30,在25个初始位置上,本发明所提的数据高效型强化学习获得了较高的平均回报;相比之下,单独动作分类网络的表现最差;自适应搜索过程μ是数据高效型强化学习的关键组成部分,当缺乏自适应μ时,需要进行数据增强DA,在根节点增加与推荐动作方向相同的动作方向的权重可以显著提高整体性能,本发明所提方法受益于预先提取的信息,当没有预先提取的信息,状态值拟合网络的重要性将会提升。
如图15所示,对基于曲线的路径规划和本发明提出的方法进行比较,连续曲率路径规划的圆弧过渡部分采用回旋曲线,在用于平行泊车的传统路径规划方法中,从泊车位反向规划如图15(a)所示,圆弧1的半径最小,圆弧2的半径大于或等于最小半径,回旋曲线和直线用作过渡曲线,连续曲率路径规划的目标姿态为ygoal=–0.85m,而θ由检索过程能否找到该参数进行决定。最初的目标姿势位于泊车位的中心。如果不能满足检索安全性,则减少xgoal,增加θgoal。基于曲线的路径规划和基于逆向规划的方法的安全距离在泊车位中为0.25米,在障碍车的拐角处为0.15米。初始位姿是(1.5米,1.25米,0),连续曲率路径和强化学习的最终姿态分别为(–4.60米,0.85米,4.56度)和(–4.70米,0.86米,0.73度),连续曲率路径规划方法和本发明提出的方法都满足安全性要求,但是强化学习的最终角度明显小于连续曲率路径规划方法最终得到的角度。
如图15(c)中路径曲率的对比所示,在泊车的早期阶段,本发明所提强化学习方法曲率变化率大于连续曲率方法;在传统方法中,使用1米/秒的速度设计路径,使得路径跟随时只要车速低于1米/秒就能理论上实现,但连续曲率方法未能最大化系统性能。如图15(d)所示的加速阶段,速度小于1米/秒,由于强化学习的动作与时间耦合,方向盘在时域中的动作导致在距离域中更快速地转向到第一个曲率变化点,如图15(c)所示强化学习的路径长度比使用连续曲率曲线的计划路径短,验证了以滚动优化方式进行集成规划和控制的优势。
车辆动力学模型在低速时具有很强的非线性,将运动学模型训练的强化学习模型转移到控制高保真Carsim车辆,检测车辆参数变化对于自动泊车的影响。从方向盘转动角度到前轮的传动比从15.88变为可变传动比,表示可变车辆模型,如表2所示,与真实系统类似,小方向盘角度时转向传动比更高,表2具体如下所示:
表2转向传动比变化表
Figure BDA0002797534890000151
如图16所示,本发明所提方法仅需最少的泊车样本量来达到相同的性能水平,虚拟数据的加入和自适应的系数μ有助于本方法;没有重新加权的基本MCTS没有重复使用历史泊车经验,对于所选参数的训练是不稳定的;相比之下,由于在所有过去的经验中具有高权重的训练数据是从由不同策略生成的数据集中连续选择的,脱离策略的重新加权过程平滑了学习过程;若本方法中取消自适应μ和数据增强,需要更多的交互进行学习。与模糊行动预测提供的指导相比,通过想象力拓展增强泊车体验具有更强的影响力,该方法的标准差低于基本的MCTS和没有重新加权的MCTS,数据扩充和自适应策略指导有助于提升方法的稳健性。
本发明所提的强化学习模型每次迭代的转向角输出如图17所示,没有重新加权过程的基本MCTS在第二次迭代时向不可靠的方向更新,导致不一致的方向盘动作改变,如图18所示;相比之下,本发明所提方法的每一代都具有较好的稳定性,表明该方法中状态值函数的拟合对网络训练的不确定性具有更强的鲁棒性;移除重新加权的结果显示,来自过去与环境互动的数据也有利于本方法;与基本MCTS相比,本方法的数据扩增奖励收敛更快。
通过实车实验对本发明所提方法的有效性进行验证,初始训练位置与图10相同,使用900MHz处理器的dSpace MicroAutoBoxⅡ1401/1513进行在线运算,转向由电动动力转向系统控制,采用联邦卡尔曼滤波估计算法进行泊车车速估计,泊车时定位精度的最大误差约为0.1m,由于低速行驶扭矩难以克服静摩擦,开始和结束速度指令被设置为–0.2米/秒和0米/秒的阶跃信号,测试平台配备AVM系统和单声道摄像机、激光雷达、雷达和车轮速度传感器,AVM系统对人体周围进行监控,构建鸟瞰图,用于检测泊车位线和远程监控,单目摄像机被用来检测行人和其他车辆,雷达被用来探测短程障碍物,激光雷达估计车辆姿态。
实验由两组姿态的实验构成:首先,初始位置被设置为如图10所示的训练位置(25次测试),以验证算法对真实车辆动力学的适应性;第二,在(2.5米,1.75米,0)处的初始方向从0度改变为[–10,10],间隔为1度,以测试20次测试中对未训练过的初始泊车姿势的泛化能力。第一组实验结果如表3和表4所示:
表3训练位姿的25×3次泊车均值和标准差测试结果表
Figure BDA0002797534890000161
Figure BDA0002797534890000171
表4训练位姿的25×3次泊车极值结果表
Figure BDA0002797534890000172
其中,泊车成功与否的定义为深度误差不大于10cm,无碰撞,且最终航向角在3°之内。车辆纵轴和道路边缘之间的平均最终角度δθ小于1°,标准差为0.0728°,符合ISO-16787(–3°到3°,1.5°)的要求。和预训练模型(MCTS+动作分类网络)和预训练模型结合精确的车辆模型的泊车相比,本发明所提方法的最终姿态在y偏差、最终角度和成功率方面更好。在这三种方法中,由于存在显著的模型误差累积,使用MCTS+动作分类网络和简单运动学车辆模型表现最差;结果表明,直接应用MCTS搜索的泊车动作序列进行控制需要一个高精度的车辆模型,与只使用策略神经网络和改进的车辆模型获取奖励相比,本发明提出方法没有对车辆转向和驱动系统的响应特性建模,对车辆模型的精度要求较低。然而,由于引入具有更多的超参数的状态值拟合网络,本方法的潜在缺点是其运行时间更长(本实施例中约长3毫秒)和更复杂的结构。
初始位置(3.5米,1.5米,0度)的泊车控制和状态曲线如图19所示,结果显示驱动和转向系统有不可避免的时间延迟,但是由于在每个控制时间间隔内的滚动规划和控制特性,本发明所提方法的模型误差不会累积,验证了本方法对车辆动力学的适应性。
改变初始位姿后的实验结果如表5和表6所示,表5和表6具体如下:
表5改变初始位姿后的20×3次泊车均值和标准差测试结果表
Figure BDA0002797534890000181
表6改变初始位姿后的20×3次泊车极值结果表
Figure BDA0002797534890000182
与表3的结果相似,本发明的最终位姿精度和稳定性优于其他方法给出的泊车轨迹,树搜索起到了局部优化器的作用,MCTS将动作分类网络的反应经验和状态值拟合网络对预测性长期回报结合起来,从而最大化其整体性能。如图19(b)和图19(c)所示,与表3中提供的结果类似,由于底盘响应的偏差,仅使用车辆运动学模型的动作分类网络的MCTS表现最差。
如图20和21所示的测试控制和状态配置的测试结果,验证了本发明所提方法的泛化能力,数据高效型强化学习模型DERL和广泛使用的DDPG都使用离策略强化学习,但是本方法使用车辆模型来提取状态值信息的无偏估计,DERL能够将真实的泊车信息与想象的泊车信息结合起来。规划算法和机器学习的集成更具可扩展性和有效性,若不用值函数网络,则需要依赖于大量数据来建立和验证车辆模型的准确性。作为对比,本方法使用的运动学车辆模型不需要进行系统辨识。
此外,需要说明的是,本说明书中所描述的具体实施例子,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于模型强化学习的智能泊车方法,其特征在于,使用蒙特卡罗树搜索、车辆运动学模型、动作分类网络和状态值拟合网络,具体包括以下步骤:
S1.所述蒙特卡罗树搜索结合所述动作分类网络和车辆运动学模型获取泊车数据预训练模型;
S2.根据泊车预训练模型生成的泊车数据训练所述状态值拟合网络;
S3.训练完成的状态值拟合网络与蒙特卡罗树搜索、动作分类网络相结合,构成在线驾驶策略模型;
S4.所述泊车在线驾驶策略模型以滚动时域方式,接收库位和车辆运动信息,在每个时间间隔产生一个控制指令,并发送至车辆运动控制模块,由车辆运动控制模块控制目标车辆完成泊车。
2.根据权利要求1所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述蒙特卡罗树搜索设有记忆链,通过叶节点的多步仿真获得状态值。
3.根据权利要求1所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述动作分类网络的输入为泊车状态,输出为泊车动作概率分布,所述泊车动作概率分布根据人工神经网络计算得到。
4.根据权利要求1所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述泊车方法的制定过程中使用马尔可夫决策过程,所述马尔可夫决策的具体过程为优化多个步骤的累积回报,获得最优策略作为泊车在线驾驶策略模型。
5.根据权利要求4所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述多个步骤的累积回报的计算公式具体如下:
Figure FDA0002797534880000011
其中,K为步骤数量,t为当前时刻,r为奖励函数,γ为折扣因子,范围为(0,1],sk和ak分别是k时刻的泊车状态和泊车动作;
所述最优策略的计算公式如下所示:
Vπ*(s)=maxπVπ(s)
其中,*表示最优,Vπ(s)为状态值函数,π为用于泊车动作选择的驾驶策略模型;
所述状态值函数的计算公式具体如下:
Vπ(s)=Eπ[R(τ)|St=s]
其中,E为求期望,Vπ(s)为状态的期望回报,S为状态。
6.根据权利要求5所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述最优策略的动作价值与泊车状态-动作值函数的关联关系为:
Qπ*(s,a)=E[rt+γVπ*(st+1)|St=s,At=a]
其中,A为动作,Qπ*(s,a)为泊车状态-动作的值函数;
所述泊车指令的生成过程中设有奖励函数,所述奖励函数具体如下所示:
r(k)=Ry+Rθ+Ra+Rsafe
其中:
Figure FDA0002797534880000021
Figure FDA0002797534880000022
Figure FDA0002797534880000023
Rsafe={0,Csafe}
Ry和Rθ是具有有界函数值的sigmoid型函数S曲线,c1、c2和c3是比例因子,Cy、Cθ和Csafe是奖励项权重,数值为常数;
所述泊车状态的状态转移函数具体如下所示:
x’=v(t)cosθ(t)
y’=v(t)sinθ(t)
Figure FDA0002797534880000024
其中,v(t)为t时刻的车速,l为轴距,x’为后轴中心x方向变化率,y’为后轴中心y方向变化率,θ’为转向角变化率,
Figure FDA0002797534880000025
为前轮转角。
7.根据权利要求6所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述步骤S3中通过近似修正策略迭代算法的截断蒙特卡罗树搜索实现,所述近似修正策略空间逼近相应的状态值函数,得到策略估计和策略改进,并根据策略改进,通过贪婪步骤计算最优策略,所述策略估计和策略改进估计的计算公式如下所示:
Vπk(s)=Eπk[rt+1+γV’πk(St+1)|St=s]
πk+1(s)=arg maxa Qπk(s,a)=arg maxa E[rt+γVπk(St+1)|St=s,At=a]
其中,arg maxa()表示使括号内部值取得最大时所对应的动作a选取方式,Vπk(s)为状态值函数。
8.根据权利要求7所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述蒙特卡罗树搜索在搜索过程中根据状态值拟合网络和动作分类网络动作分类网络生成所述策略估计和策略改进进行实施,基于采样评估结果向树中添加有希望的节点,从根节点到目标状态按照增量式的方式构建蒙特卡罗树搜索,具体公式如下:
Figure FDA0002797534880000031
其中,N(s,a)是状态-动作的访问次数,
Figure FDA0002797534880000032
是指示a是否被选中的布尔变量,zi是第i次采样的奖励值;
所述蒙特卡罗树搜索的边缘存储统计值如下:
{P(s,a),N(s,a),W(s,a),Q(s,a),UCT}
每次采样从根节点选择一条边进行搜索,具体公式如下:
Figure FDA0002797534880000033
其中,μ为自适应系数;
所述蒙特卡罗树搜索在实际动作选择时根据以下公式进行:
Figure FDA0002797534880000034
其中,τ是温度系数,b是根节点的子节点;
所述状态值拟合网络采用列文伯格-马夸特方法进行训练,并按如下公式进行最小化处理:
Figure FDA0002797534880000035
其中,Vest为状态值拟合网络计算值;
所述动作分类网络推荐动作概率分布,使用交叉熵损失如下所示:
Figure FDA0002797534880000036
其中,H(p,q)为交叉熵损失,p为动作的概率。
9.根据权利要求8所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述动作分类网络根据轨迹回报加权探索进行策略学习,对于整个策略迭代根据如下公式判断是否收敛:
Vπ(st)≤Qπ(s,π'(st))
其中,Vπ(st)为旧策略的状态值,Qπ(s,π'(st))为新策略的状态-动作值;
所有轨迹预期总回报具体如下:
Figure FDA0002797534880000041
其中,pπk)是策略π下轨迹τk的概率分布,通过加强高回报轨迹在网络梯度更新中的权重,使网络更新实现以下效果:
Figure FDA0002797534880000042
其中,θ为神经网络参数,l为神经网络更新次数,α’为学习率,
Figure FDA0002797534880000043
为网络参数更新的计算梯度方向。
10.根据权利要求1所述的一种基于模型强化学习的智能泊车方法,其特征在于,所述泊车预训练模型根据交互环境的先验信息首先得到收敛的动作分类网络,然后生成用于状态值拟合网络训练的数据,进而训练得到状态值拟合网络。
CN202011336997.XA 2020-11-25 2020-11-25 一种基于模型强化学习的智能泊车方法 Active CN112356830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011336997.XA CN112356830B (zh) 2020-11-25 2020-11-25 一种基于模型强化学习的智能泊车方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011336997.XA CN112356830B (zh) 2020-11-25 2020-11-25 一种基于模型强化学习的智能泊车方法

Publications (2)

Publication Number Publication Date
CN112356830A true CN112356830A (zh) 2021-02-12
CN112356830B CN112356830B (zh) 2021-11-09

Family

ID=74534213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011336997.XA Active CN112356830B (zh) 2020-11-25 2020-11-25 一种基于模型强化学习的智能泊车方法

Country Status (1)

Country Link
CN (1) CN112356830B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113008256A (zh) * 2021-02-18 2021-06-22 恒大新能源汽车投资控股集团有限公司 自动泊车路径的规划方法、规划装置以及存储介质
CN113353066A (zh) * 2021-06-30 2021-09-07 中汽创智科技有限公司 一种障碍物触碰识别方法、装置、设备及存储介质
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113673672A (zh) * 2021-07-08 2021-11-19 哈尔滨工业大学 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法
CN113759717A (zh) * 2021-08-20 2021-12-07 中国航空工业集团公司西安飞行自动控制研究所 一种近实时机动轨迹生成与跟踪的控制方法
CN113859226A (zh) * 2021-11-04 2021-12-31 赵奕帆 一种基于强化学习的运动规划与自动泊车方法
CN113887060A (zh) * 2021-10-13 2022-01-04 英博超算(南京)科技有限公司 一种新型的自动泊车系统车辆定位算法
CN113984403A (zh) * 2021-09-13 2022-01-28 惠州市德赛西威智能交通技术研究院有限公司 一种Autobox端实时泊车试验台及泊车测试方法
CN114815801A (zh) * 2021-12-30 2022-07-29 复旦大学 一种基于策略-价值网络及mcts的自适应环境路径规划方法
CN115330276A (zh) * 2022-10-13 2022-11-11 北京云迹科技股份有限公司 基于强化学习的机器人自动选择电梯的方法及装置
CN115472038A (zh) * 2022-11-01 2022-12-13 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和系统
CN116533992A (zh) * 2023-07-05 2023-08-04 南昌工程学院 基于深度强化学习算法的自动泊车路径规划方法及其系统
EP4349691A1 (en) * 2022-10-06 2024-04-10 Samsung Electronics Co., Ltd. Method and apparatus with parking path determination

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
US20190101919A1 (en) * 2017-03-01 2019-04-04 Zoox, Inc. Trajectory Generation Using Temporal Logic and Tree Search
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法
CN111645673A (zh) * 2020-06-17 2020-09-11 西南科技大学 一种基于深度强化学习的自动泊车方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190101919A1 (en) * 2017-03-01 2019-04-04 Zoox, Inc. Trajectory Generation Using Temporal Logic and Tree Search
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法
CN111645673A (zh) * 2020-06-17 2020-09-11 西南科技大学 一种基于深度强化学习的自动泊车方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张继仁等: "基于强化学习的自动泊车运动规划", 《同济大学学报(自然科学版)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113008256A (zh) * 2021-02-18 2021-06-22 恒大新能源汽车投资控股集团有限公司 自动泊车路径的规划方法、规划装置以及存储介质
CN113353066A (zh) * 2021-06-30 2021-09-07 中汽创智科技有限公司 一种障碍物触碰识别方法、装置、设备及存储介质
CN113673672B (zh) * 2021-07-08 2024-03-29 哈尔滨工业大学 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法
CN113673672A (zh) * 2021-07-08 2021-11-19 哈尔滨工业大学 一种基于蒙特卡洛强化学习的冰壶比赛策略生成方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113759717A (zh) * 2021-08-20 2021-12-07 中国航空工业集团公司西安飞行自动控制研究所 一种近实时机动轨迹生成与跟踪的控制方法
CN113984403A (zh) * 2021-09-13 2022-01-28 惠州市德赛西威智能交通技术研究院有限公司 一种Autobox端实时泊车试验台及泊车测试方法
CN113984403B (zh) * 2021-09-13 2024-06-07 惠州市德赛西威智能交通技术研究院有限公司 一种Autobox端实时泊车试验台及泊车测试方法
CN113887060A (zh) * 2021-10-13 2022-01-04 英博超算(南京)科技有限公司 一种新型的自动泊车系统车辆定位算法
CN113887060B (zh) * 2021-10-13 2024-05-10 英博超算(南京)科技有限公司 一种新型的自动泊车系统车辆定位方法
CN113859226A (zh) * 2021-11-04 2021-12-31 赵奕帆 一种基于强化学习的运动规划与自动泊车方法
CN114815801A (zh) * 2021-12-30 2022-07-29 复旦大学 一种基于策略-价值网络及mcts的自适应环境路径规划方法
EP4349691A1 (en) * 2022-10-06 2024-04-10 Samsung Electronics Co., Ltd. Method and apparatus with parking path determination
CN115330276B (zh) * 2022-10-13 2023-01-06 北京云迹科技股份有限公司 基于强化学习的机器人自动选择电梯的方法及装置
CN115330276A (zh) * 2022-10-13 2022-11-11 北京云迹科技股份有限公司 基于强化学习的机器人自动选择电梯的方法及装置
CN115472038B (zh) * 2022-11-01 2023-02-03 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和系统
CN115472038A (zh) * 2022-11-01 2022-12-13 南京杰智易科技有限公司 一种基于深度强化学习的自动泊车方法和系统
CN116533992A (zh) * 2023-07-05 2023-08-04 南昌工程学院 基于深度强化学习算法的自动泊车路径规划方法及其系统
CN116533992B (zh) * 2023-07-05 2023-09-22 南昌工程学院 基于深度强化学习算法的自动泊车路径规划方法及其系统

Also Published As

Publication number Publication date
CN112356830B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN109866752B (zh) 基于预测控制的双模式并行车辆轨迹跟踪行驶系统的方法
Rempe et al. Trace and pace: Controllable pedestrian animation via guided trajectory diffusion
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
CN107065890A (zh) 一种无人车智能避障方法及系统
CN107479547B (zh) 基于示教学习的决策树行为决策算法
Wang et al. A learning-based personalized driver model using bounded generalized Gaussian mixture models
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN115933641A (zh) 基于模型预测控制指导深度强化学习的agv路径规划方法
CN113311828A (zh) 一种无人车局部路径规划方法、装置、设备及存储介质
Li et al. Simulation of vehicle interaction behavior in merging scenarios: A deep maximum entropy-inverse reinforcement learning method combined with game theory
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN114543831B (zh) 基于驾驶风格的路径规划方法、装置、设备及存储介质
Evans et al. Comparing deep reinforcement learning architectures for autonomous racing
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Lei et al. Kb-tree: Learnable and continuous monte-carlo tree search for autonomous driving planning
CN116300850A (zh) 基于数据机理融合的自动驾驶类人安全自进化方法和系统
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
Hjaltason Predicting vehicle trajectories with inverse reinforcement learning
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning
Jaafra et al. Seeking for robustness in reinforcement learning: application on Carla simulator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant