CN111098852B - 一种基于强化学习的泊车路径规划方法 - Google Patents

一种基于强化学习的泊车路径规划方法 Download PDF

Info

Publication number
CN111098852B
CN111098852B CN201911211533.3A CN201911211533A CN111098852B CN 111098852 B CN111098852 B CN 111098852B CN 201911211533 A CN201911211533 A CN 201911211533A CN 111098852 B CN111098852 B CN 111098852B
Authority
CN
China
Prior art keywords
state
value
target
function
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911211533.3A
Other languages
English (en)
Other versions
CN111098852A (zh
Inventor
王忠立
蔡伯根
王浩
王剑
陆德彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201911211533.3A priority Critical patent/CN111098852B/zh
Publication of CN111098852A publication Critical patent/CN111098852A/zh
Application granted granted Critical
Publication of CN111098852B publication Critical patent/CN111098852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/06Automatic manoeuvring for parking
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Feedback Control In General (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

传统规划需要大量迭代,计算量较大,时间长;而智能规划算法随着数据量的增大,复杂度越来越大。本申请提供了一种基于强化学习的泊车路径规划方法,包括1:建立车位环境的状态模型;2:建立车辆的单线模型;3:定义状态奖励值函数和动作值函数,得到状态和行为函数的贝尔曼方程;4:确定贝尔曼方程中的奖励函数;5:结合奖励确定从某一个当前状态到目标状态的方程;6:结合深度Q学习网络,输出所有动作的Q值向量;7:确定起始状态到目标状态的最优路径;8:生成路径曲线,发送到车辆的跟踪控制模块中,提供路径数据。能快速获得泊车路径,实现方法简单高效,同时能保证路径跟踪控制连续性好的效果。

Description

一种基于强化学习的泊车路径规划方法
技术领域
本申请属于人工智能技术领域,特别是涉及一种基于强化学习的泊车路径规划方法。
背景技术
随着相关领域技术的进步,极大地推动了汽车向智能化、自主化方向快速发展。目前汽车已成为集成自动控制理论、人工智能理论、传感器技术、通信技术、信息融合技术等多领域技术于一体的复杂机电系统。随着人民生活水平的提高,人们对汽车的舒适性、安全性、智能性和效率的需求日益增加,在这种趋势下,高级辅助驾驶系统迅速发展使汽车智能化的程度越来越高,泊车辅助系统作为高级辅助驾驶系统的一部分,可以帮助人们保证停车安全,提高停车效率。现有的辅助驾驶系统在停车效率和准确性还存在不足。
自动泊车过程中,需要根据车位空间进行规划路径,容易受到车位空间和停车初始位置的影响,对车辆速度和角度的调整还存在受到人为因素和控制不连续的问题。现有的泊车系统规划出的路径在实际控制中存在控制不连续等问题,导致泊车过程中路径跟踪能力差,停车效果不佳。
目前国内外关于自动泊车的研究,基于人工智能的泊车控制方法或者进行运动状态规划和运动状态跟踪的控制方法,直接建立多种曲线连续的路径,从路径的连续性方面解决控制器参数不连续的问题,但是适用性较窄。现在在路径规划方面做了大量工作,包括传统规划方法和智能规划方法,传统规划包括最优控制,动态规划,这类方法需要大量迭代,计算量较大,时间长;而智能规划算法,A*算法,Dijkstra算法,D*算法等,这些随着数据量的增大,复杂度越来越大。
发明内容
1.要解决的技术问题
基于目前国内外关于自动泊车的研究,基于人工智能的泊车控制方法或者进行运动状态规划和运动状态跟踪的控制方法,直接建立多种曲线连续的路径,从路径的连续性方面解决控制器参数不连续的问题,但是适用性较窄。现在在路径规划方面做了大量工作,包括传统规划方法和智能规划方法,传统规划包括最优控制,动态规划,这类方法需要大量迭代,计算量较大,时间长;而智能规划算法,A*算法,Dijkstra算法,D*算法等,这些随着数据量的增大,复杂度越来越大的问题,本申请提供了一种基于强化学习的泊车路径规划方法。
2.技术方案
为了达到上述的目的,本申请提供了一种基于强化学习的泊车路径规划方法,所述方法包括如下步骤:
步骤1:建立车位环境的状态模型,初始化全局状态,确定车位环境的起始点状态和目标点状态;
步骤2:建立车辆的单线模型,使用速度和前后角度来描述车辆的在每个点的车辆运动情况,ct=(xs,ys,sinθ,cosθ),在连续弯曲的道路上,定义在曲线某一个点的的曲率角度代表着期望车辆的航向;
步骤3:初始化全局的车辆状态,选择起始车辆状态,定义状态奖励值函数和动作值函数,得到状态和行为函数的贝尔曼方程;
步骤4:确定贝尔曼方程中的奖励函数,确定对于Q学习过程中的奖励函数;
步骤5:结合奖励确定从某一个当前状态到目标状态的方程;
步骤6:结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量;
步骤7:从固定的回旋曲线训练数据,训练的数据输入包括目标和起始的车辆状态,确定起始状态到目标状态的最优路径;
步骤8:选取平行场景和垂直场景进行生成路径曲线,利用生成的曲线发送到车辆的跟踪控制模块中,为车辆跟踪控制模块提供路径数据。
本申请提供的另一种实施方式为:所述步骤1中的车辆状态模型包括车辆的出发状态,目标状态和车位环境的目标点状态。
本申请提供的另一种实施方式为:所述步骤3中贝尔曼方程为:
Figure BDA0002298275710000021
其中,Q(sk,ak)表示状态的动作值函数,表示由状态Sk选择行为ak对应的动作值,r(sk,a,sk+1)表示奖励值函数表示由状态Sk选择行为ak对应的回报价值,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为。
本申请提供的另一种实施方式为:所述步骤4中确定贝尔曼方程中的奖励函数,确定对于Q学习过程中的奖励函数,在节点扩展中,选择以ε-贪心法确定最优策略,搜索函数h选取所有状态节点中的最小值到下一个状态。
本申请提供的另一种实施方式为:所述步骤4中贝尔曼方程中奖励函数为:
Figure BDA0002298275710000031
本申请提供的另一种实施方式为:所述步骤5中结合奖励确定从某一个当前状态到目标状态的方程,确定当前整个优化过程中的从初始状态到当前状态的函数,确定当前状态到最终状态的搜索启发函数。
本申请提供的另一种实施方式为:所述启发函数为:
Figure BDA0002298275710000032
式中的L表示从Sk到目标状态的步数,方程中Q(sk,ak)表示状态的动作值函数,表示由状态Sk选择行为ak对应的动作值,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为,ak+1表示k+1时刻的行为,(0<γ<1)表示返还值对于每个时刻回报值的影响因子,Esk+1表示在Sk+1状态的回报值的期望值,r(sk,a,sk+1)表示奖励值函数,代表由状态Sk选择行为ak对应的回报价值得到Sk+1
h(splan)=L·Cost表示当前状态到目标状态成本值,rg表示奖励值,具体是指从Sk执行动作ak到达Sk+1并且Sk+1在目标状态的范围内。
f(splan)=g(splan)+h(splan),g()表示从出发状态到当前状态成本值,h(splan)=L·Cost表示当前状态到目标状态成本值。
本申请提供的另一种实施方式为:所述步骤6中结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量,利用DQN中的两个神经网络,一个使用正向传播预测Q的目标的数值,一种使用反向传播预测Q估计的数值,如图1所示Q_target网络用于预测前向传播获取Q的目标的数值,Q_eval用于预测Q估计的数值。
本申请提供的另一种实施方式为:所述步骤7中从固定的回旋曲线训练数据,训练的数据输入包括目标和起始的车辆状态,采取100条回旋曲线进行训练,对于目标的回旋曲线进行采样等距点,计算每个点的Reeds-Shepp曲线路径,选取最小的路径作为搜索成本值,利用Q-Network训练好的结果来指导下一步的经验搜索算法,将前一个时刻的状态(也就是代表这个状态的马尔科夫过程)代入DQN中进行正向传播网络,获取Q目标的状态动作数值,在每个状态节点扩展进行增量搜索,然后对所有展开的节点进行搜索评估,最终确定起始状态到目标状态的最优路径。
3.有益效果
与现有技术相比,本申请提供的一种基于强化学习的泊车路径规划方法的有益效果在于:
本申请提供的基于强化学习的泊车路径规划方法,基于深度强化学习网络,训练好的深度Q学习网络与启发式搜索相互结合,通过建立泊车环境的状态模型,设立目标点和终点后生成一条连续无碰撞的路径,满足复杂情况条件下的泊车路径规划,提高泊车路径的连续性、适用性。
本申请所提的基于强化学习的泊车路径规划方法,通过利用深度Q学习网络与路径规划的启发式搜索相互结合的方式,能快速获得泊车路径,实现方法简单高效,同时能保证路径跟踪控制连续性好的效果。
本申请提出的基于强化学习的泊车路径规划方法,基于强化学习Q_Learning算法训练好的经验,将其与启发搜索相互结合,利用Q_Learing的先有经验,获取Q目标值,再对现有状态的子节点进行分析判断,输出最优点,利用最优的加入Q网络中迭代计算,获取最优路径。
附图说明
图1是现有技术采用的路径规划原理示意图;
图2是本申请的深度Q学习网络和启发搜索原理示意图;
图3是本申请的深度Q学习的目标和评估的网络原理示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
强化学习作为机器学习的方法之一,又称再励学习、增强学习,来源于生物学中的条件反射理论,其基本思想是对所希望的结果予以奖励,对不希望的结果予以惩罚,逐渐形成一种趋向于好结果的条件反射。强化学习的目的是寻找最优策略序列决策问题被表述为马尔可夫决策过程(MDP)。使用强化学习生成起始点到目标点的最优轨迹,同时还需要考虑到车辆非完整性约束。
DQN是第一个将深度学习模型与强化学习结合在一起从而成功地直接从高维的输入学习控制策略。DQN不用Q表记录Q值,而是用神经网络来预测Q值,并通过不断更新神经网络从而学习到最优的行动路径。
Q学习算法步骤如下:
设置gamma参数以及矩阵R;初始化矩阵Q;对于每次episode:随机选择一个初始状态;目标状态没有到达:从当前状态的所有行为中选择一个转移到下一状态;计算;将下一状态设为当前状态;Agent通过以上算法进行学习,每次episode相当于一次训练。在每一次训练中,agent探索环境(矩阵R表示),接受奖励直到到达目标状态。训练的目的是增强agent的大脑,即矩阵Q。训练越多,Q结果越好。通过这种方式,如果Q被加强了,而不是反复探索,不断回到同一房间,就能快速找到目标状态。
参数gamma的取值范围是0~1,如果gamma趋近于0,则agent趋向于考虑瞬时奖励,如果接近1,则趋向于未来的奖励,延迟奖励。
参见图1~3,本申请提供一种基于强化学习的泊车路径规划方法,所述方法包括如下步骤:
步骤1:建立车位环境的状态模型,初始化全局状态,确定车位环境的起始点状态和目标点状态;需要首先确定车辆的单线模型描述车辆每个点的运动状态,建立车辆的状态模型,指明车辆的出发状态和目标状态,确定车位环境目标点状态。
步骤2:建立车辆的单线模型,使用速度和前后角度来描述车辆的在每个点的车辆运动情况,ct=(xs,ys,sinθ,cosθ),ct表示车辆某个一时刻t的状态,(x,y)表示车辆的坐标系中的坐标,θ表示车辆的航向角;
在连续弯曲的道路上,定义在曲线某一个特殊点的的曲率角度代表着期望车辆的航向;
步骤3:初始化全局的车辆状态,选择起始车辆状态,定义状态奖励值函数和动作值函数(Q函数),得到状态和行为函数的贝尔曼方程;
步骤4:确定贝尔曼方程中的奖励函数,确定对于Q学习过程中的奖励函数;
步骤5:结合奖励确定从某一个当前状态到目标状态的方程;
步骤6:结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量;
步骤7:从固定的回旋曲线训练数据,训练的数据输入包括目标和起始的车辆状态,确定起始状态到目标状态的最优路径;
步骤8:选取平行泊车场景和垂直泊车场景选取起始点和目标点进行生成路径曲线,将生成的曲线供后续的车辆的跟踪控制模块使用,为车辆跟踪控制模块提供路径数据。
进一步地,所述步骤1中的车辆状态模型包括车辆的出发状态,目标状态和车位环境的目标点状态。
进一步地,所述步骤3中贝尔曼方程为:
Figure BDA0002298275710000061
式中Q(sk,ak)表示状态的动作值函数,表示由状态Sk选择行为ak对应的动作值,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为,ak+1表示k+1时刻的行为,(0<γ<1)表示返还值对于每个时刻回报值的影响因子,Esk+1表示在Sk+1状态的回报值的期望值,r(sk,a,sk+1)表示奖励值函数,代表由状态Sk选择行为ak对应的回报价值得到Sk+1
进一步地,所述步骤4中确定贝尔曼方程中的奖励函数,确只有距离目标状态较近的时候是获得奖励值,其他情况奖励值为0,确定对于Q学习过程中的奖励函数,具体的贝尔曼方程奖励函数定义为
Figure BDA0002298275710000062
(其中Sk表示k时刻的状态,ak表示k时刻的行为,目标状态t(Sg),rg表示奖励值,具体是指从Sk执行动作ak到达Sk+1并且Sk+1在目标状态的范围内),始终在进入目标状态时候获得非零值,其他的状态获得零值,在节点扩展中,选择以ε-greedy算法确定最优策略,搜索函数h()选取所有状态节点中的最小值到下一个状态。
进一步地,所述步骤5中结合奖励确定从某一个当前状态到目标状态的方程,确定当前整个优化过程中的从初始状态到当前状态的g(),确定当前状态到最终状态的搜索启发函数h(),f(splan)=g(splan)+h(splan),splan表示在规划时的状态,g(splan)表示从出发状态到当前状态splan的成本值函数,h(splan)表示当前状态到目标状态的估计的成本值函数,也称为度量函数和启发函数,启发式函数的计算同时结合奖励Q函数的可以表示为:
Figure BDA0002298275710000063
式中Q(sk,ak)表示状态的动作值函数,表示由状态Sk选择行为ak对应的动作值,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为,ak+1表示k+1时刻的行为,(0<γ<1)表示返还值对于每个时刻回报值的影响因子,Esk+1表示在Sk+1状态的回报值的期望值,r(sk,a,sk+1)表示奖励值函数,γ代表由状态Sk选择行为ak对应的回报价值得到Sk+1
公式中的L表示从Sk到目标状态的步数,rg表示奖励值,具体是指从Sk执行动作ak到达Sk+1并且Sk+1在目标状态的范围内,h(splan)=L·Cost表示当前状态到目标状态成本值。
进一步地,所述步骤6中结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量,利用DQN中的两个神经网络,一个使用正向传播预测Q的目标的数值q_target,一种使用反向传播预测Q估计的数值q_eval,训练神经网络时候的损失函数值loss=q_target-q_eval,反向传播训练的真正网络是eval_net,target_net只进行正向传播得到q_target,q_target=r+γ·maxQ(s,a),公式中Q(s,a)是若干个经过target_net正向传播的结果,r表示回报值,(0<γ<1)表示返还值对于每个时刻回报值的影响因子。target_net是eval_net的一个历史版本,拥有eval_net网络中很久之前的一组参数,而且这组参数被固定一段时间,然后再被eval_net的新参数所替换,而eval_net这个神经网络拥有最新的神经网络参数。
进一步地,所述步骤7中从固定的回旋曲线训练数据,数据输入目标和起始的车辆状态和其中的障碍物的位置,采取100条回旋曲线进行训练,对于目标的回旋曲线进行采样等距点,计算每个点的Reeds-Shepp曲线路径,选取最小的路径作为搜索成本。利用Q-Network训练好的结果来指导下一步的经验搜索算法,将前一个时刻的状态(也就是代表这个状态的马尔科夫过程)代入DQN中进行正向传播网络,获取Q目标的状态动作数值,在每个状态节点扩展进行增量搜索,然后对所有展开的节点进行搜索评估,最终确定起始状态到目标状态的最优路径,结构示意如图2所示。
搭建深度Q学习网络使用回旋曲线的数据训练,作为作为预先有的神经网络与启发式搜索算法相结合,利用深度Q学习网络正向传播网络,预测Q目标的数值,使用扩展节点方法对每个状态的子节点进行增量搜索,然后对子节点进行评估,确定是否碰撞和到达目标点,选择最优的节点构成最优路径,为实际的平行泊车场景和垂直泊车场景提供路径曲线,发送到控制模块,为车辆跟踪控制模块提供路径数据。
通过将当前的状态代入到前向网络计算Q目标的值,然后使用扩展节点的方法,对当前状态后的子节点状态进行评估,获取最优的子状态,通过判断最优的子状态是否发生碰撞和到达目标点来决定是否进行再次搜索子节点,通过如此迭代,最终获得到达目标点的最优路径。
本申请提供的基于强化学习的泊车路径规划方法,基于深度强化学习网络,训练好的深度Q学习网络与启发式搜索相互结合,通过建立泊车环境的状态模型,设立目标点和终点后生成一条连续无碰撞的路径,满足复杂情况条件下的泊车路径规划,提高泊车路径的连续性、适用性。
尽管在上文中参考特定的实施例对本申请进行了描述,但是所属领域技术人员应当理解,在本申请公开的原理和范围内,可以针对本申请公开的配置和细节做出许多修改。本申请的保护范围由所附的权利要求来确定,并且权利要求意在涵盖权利要求中技术特征的等同物文字意义或范围所包含的全部修改。

Claims (9)

1.一种基于强化学习的泊车路径规划方法,其特征在于:所述方法包括如下步骤:
步骤1:建立车位环境的状态模型,初始化全局状态,确定车位环境的起始点状态和目标点状态;
步骤2:建立车辆的单线模型,使用速度和航向角度来描述车辆的在每个点的车辆运动情况;
步骤3:初始化全局的车辆状态,选择起始车辆状态,定义状态奖励值函数和动作值函数,得到状态和行为函数的贝尔曼方程;
步骤4:确定贝尔曼方程中的奖励函数,确定对于Q学习过程中的奖励函数;
步骤5:结合奖励确定从某一个当前状态到目标状态的方程;
步骤6:结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量;
步骤7:从固定的回旋曲线训练数据,训练的数据输入包括目标和起始的车辆状态,利用Q-Network训练好的结果来指导下一步的经验搜索算法,将前一个时刻的状态代入DQN中进行正向传播网络,获取Q目标的状态动作数值,在每个状态节点扩展进行增量搜索,然后对所有展开的节点进行搜索评估,确定起始状态到目标状态的最优路径;
步骤8:选取平行场景和垂直场景进行生成路径曲线,发送到车辆的跟踪控制模块中,为车辆跟踪控制模块提供路径数据。
2.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤1中的车位环境的状态模型包括车辆的出发状态,目标状态和车位环境的目标点状态。
3.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤3中贝尔曼方程为:
Figure FDA0002847687060000011
Q(sk,ak)表示状态的动作值函数,表示由状态Sk选择行为ak对应的动作值,
Figure FDA0002847687060000012
表示sk+1时刻的设计的奖励期望值,r(sk,a,sk+1)表示奖励值函数表示由状态Sk选择行为ak对应的回报价值,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为,ak+1表示k+1时刻的行为,
Figure FDA0002847687060000013
表示在Sk+1状态的回报值的期望值,γ表示sk,ak到达sk+1,ak+1时刻回报值的比例折扣因子,
a表示状态sk到达状态sk+1执行的某一个行为动作,
Figure FDA0002847687060000014
表示sk,ak到达sk+1,ak+1选择动作ak+1时刻回报值。
4.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤4中确定贝尔曼方程中的奖励函数,确定对于Q学习过程中的奖励函数,在节点扩展中,选择以ε-贪心法确定最优策略,搜索函数选取所有状态节点中的最小值到下一个状态。
5.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤4中贝尔曼方程中奖励函数为:
Figure FDA0002847687060000021
其中r表示回报值函数,rg表示在状态在期望目标t(Sg)集合里面的奖励值,其中Sk表示k时刻的状态,t(Sg)为期望的轨迹点目标状态,Sk+1表示k+1时刻轨迹点的状态,a表示状态sk到达状态sk+1的某一个行为动作。
6.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤5中结合奖励确定从某一个当前状态到目标状态的方程,确定当前整个优化过程中的从初始状态到当前状态的函数,确定当前状态到最终状态的搜索启发函数。
7.如权利要求6所述的基于强化学习的泊车路径规划方法,其特征在于:所述启发函数为:
Figure FDA0002847687060000022
式中的L表示从Sk到目标状态的步数;rg表示奖励值,
Figure FDA0002847687060000023
表示在Sk+1状态的回报值的期望值,r(sk,a,sk+1)表示奖励值函数,ak表示状态sk到达状态sk+1的k时刻的行为动作,γ代表由状态Sk选择行为ak对应的回报价值得到Sk+1,sk+1表示k+1时刻轨迹点的状态,sk表示k时刻轨迹点的状态;
f(splan)=g(splan)+h(splan),g()表示从出发状态到当前状态成本值,h(splan)=L·Cost表示当前状态到目标状态成本值,g(splan)表示从出发状态到当前状态splan的成本值函数,Sk表示k时刻的状态,Sk+1表示k+1时刻的状态,ak表示k时刻的行为,ak+1表示k+1时刻的行为,a表示状态sk到达状态sk+1执行的某一个动作,
Figure FDA0002847687060000024
表示sk,ak到达sk+1,ak+1选择动作ak+1时刻回报值,f(splan)表示包含成本的启发式函数,g(splan)是从开始状态到当前状态splan的成本,h(splan)从当前状态splan到目标状态集Sg的启发式,L是从状态sk到最终目标的处于目标状态集Sg的步数,Cost表示不同动作的成本值。
8.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤6中结合深度Q学习网络,采用标准的神经网络架构DQN,输出所有动作的Q值向量,利用DQN中的两个神经网络,一个使用正向传播预测Q的目标的数值,一种使用反向传播预测Q估计的数值。
9.如权利要求1所述的基于强化学习的泊车路径规划方法,其特征在于:所述步骤7中从固定的回旋曲线训练数据,训练的数据输入包括目标和起始的车辆状态,采取100条回旋曲线进行训练,对于目标的回旋曲线进行采样等距点,计算每个点的Reeds-Shepp曲线路径,选取最小的路径作为搜索成本值,利用Q-Network训练好的结果来指导下一步的经验搜索算法,将前一个时刻的状态代入DQN中进行正向传播网络,获取Q目标的状态动作数值,在每个状态节点扩展进行增量搜索,然后对所有展开的节点进行搜索评估,最终确定起始状态到目标状态的最优路径。
CN201911211533.3A 2019-12-02 2019-12-02 一种基于强化学习的泊车路径规划方法 Active CN111098852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911211533.3A CN111098852B (zh) 2019-12-02 2019-12-02 一种基于强化学习的泊车路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911211533.3A CN111098852B (zh) 2019-12-02 2019-12-02 一种基于强化学习的泊车路径规划方法

Publications (2)

Publication Number Publication Date
CN111098852A CN111098852A (zh) 2020-05-05
CN111098852B true CN111098852B (zh) 2021-03-12

Family

ID=70421029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911211533.3A Active CN111098852B (zh) 2019-12-02 2019-12-02 一种基于强化学习的泊车路径规划方法

Country Status (1)

Country Link
CN (1) CN111098852B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111824131B (zh) * 2020-07-10 2021-10-12 广州小鹏自动驾驶科技有限公司 一种自动泊车的方法和车辆
CN111563489A (zh) * 2020-07-14 2020-08-21 浙江大华技术股份有限公司 一种目标跟踪方法、装置以及计算机存储介质
CN112068515A (zh) * 2020-08-27 2020-12-11 宁波工程学院 一种基于深度强化学习的全自动停车场调度方法
CN112201078B (zh) * 2020-09-30 2021-08-10 中国人民解放军军事科学院国防科技创新研究院 一种基于图神经网络的自动泊车停车位检测方法
CN112507520A (zh) * 2020-11-12 2021-03-16 深圳慧拓无限科技有限公司 一种基于强化学习的路径规划方法及装置
CN112356830B (zh) * 2020-11-25 2021-11-09 同济大学 一种基于模型强化学习的智能泊车方法
CN112434440A (zh) * 2020-12-02 2021-03-02 武汉工程大学 基于多Agent自适应在线验证的智能泊车方法及系统
CN112572417B (zh) * 2020-12-11 2022-01-18 武汉乐庭软件技术有限公司 自动泊车控制系统中的挡位预判方法、设备及存储设备
CN112784481B (zh) * 2021-01-15 2023-04-07 中国人民解放军国防科技大学 一种用于中继充电路径规划的深度强化学习方法及系统
CN113008256A (zh) * 2021-02-18 2021-06-22 恒大新能源汽车投资控股集团有限公司 自动泊车路径的规划方法、规划装置以及存储介质
CN113156940B (zh) * 2021-03-03 2022-08-30 河北工业职业技术学院 基于好奇心-贪婪奖励函数的机器人路径规划的方法
DE102021206588A1 (de) 2021-06-25 2022-12-29 Continental Autonomous Mobility Germany GmbH Verfahren zur Trajektorienoptimierung
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN113420942B (zh) * 2021-07-19 2023-04-25 郑州大学 一种基于深度q学习的环卫车实时路线规划方法
CN113561995B (zh) * 2021-08-19 2022-06-21 崔建勋 一种基于多维奖励架构深度q学习的自动驾驶决策方法
CN113859226B (zh) * 2021-11-04 2023-05-23 赵奕帆 一种基于强化学习的运动规划与自动泊车方法
CN114518758B (zh) * 2022-02-08 2023-12-12 中建八局第三建设有限公司 基于q学习的室内测量机器人多目标点移动路径规划方法
CN114527759A (zh) * 2022-02-25 2022-05-24 重庆大学 一种基于分层强化学习的端到端驾驶方法
CN115031753B (zh) * 2022-06-09 2024-07-12 合肥工业大学 基于安全势场和dqn算法的行车工况局部路径规划方法
CN115357022B (zh) * 2022-08-26 2024-08-20 湖南大学 一种基于深度强化学习的越野车三维路径规划方法
CN118131628A (zh) * 2024-03-12 2024-06-04 南通大学 一种基于多目标点信息融合的移动机器人跟踪控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107792062B (zh) * 2017-10-16 2019-11-05 北方工业大学 一种自动泊车控制系统
CN108407805B (zh) * 2018-03-30 2019-07-30 中南大学 一种基于dqn的车辆自动泊车方法
US11613249B2 (en) * 2018-04-03 2023-03-28 Ford Global Technologies, Llc Automatic navigation using deep reinforcement learning
CN109492763B (zh) * 2018-09-17 2021-09-03 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110136481B (zh) * 2018-09-20 2021-02-02 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略

Also Published As

Publication number Publication date
CN111098852A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
JP7532615B2 (ja) 自律型車両の計画
Rehder et al. Pedestrian prediction by planning using deep neural networks
Bouton et al. Cooperation-aware reinforcement learning for merging in dense traffic
CN110646009B (zh) 一种基于dqn的车辆自动驾驶路径规划的方法及装置
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
Kosuru et al. Developing a deep Q-learning and neural network framework for trajectory planning
Xia et al. Neural inverse reinforcement learning in autonomous navigation
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
CN112937564A (zh) 换道决策模型生成方法和无人车换道决策方法及装置
CN107479547B (zh) 基于示教学习的决策树行为决策算法
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
Sefati et al. Towards tactical behaviour planning under uncertainties for automated vehicles in urban scenarios
CN113311828B (zh) 一种无人车局部路径规划方法、装置、设备及存储介质
CN114519433A (zh) 多智能体强化学习、策略执行方法及计算机设备
Feher et al. Q-learning based reinforcement learning approach for lane keeping
Gritschneder et al. Adaptive learning based on guided exploration for decision making at roundabouts
Li et al. Simulation of vehicle interaction behavior in merging scenarios: A deep maximum entropy-inverse reinforcement learning method combined with game theory
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios
Liang et al. Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation
CN115204455A (zh) 适用于高速与环路交通场景的长时域驾驶行为决策方法
Arbabi et al. Planning for autonomous driving via interaction-aware probabilistic action policies
Lienke et al. Core components of automated driving–algorithms for situation analysis, decision-making, and trajectory planning
JP2023531927A (ja) 運転意思決定方法および運転意思決定装置ならびにチップ
CN117789502A (zh) 用于模块化自主车辆控制的分布感知目标预测的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant