CN115542733A - 基于深度强化学习的自适应动态窗口法 - Google Patents

基于深度强化学习的自适应动态窗口法 Download PDF

Info

Publication number
CN115542733A
CN115542733A CN202211163167.0A CN202211163167A CN115542733A CN 115542733 A CN115542733 A CN 115542733A CN 202211163167 A CN202211163167 A CN 202211163167A CN 115542733 A CN115542733 A CN 115542733A
Authority
CN
China
Prior art keywords
intelligent vehicle
reward
network
state
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211163167.0A
Other languages
English (en)
Inventor
张卫波
黄赐坤
黄晓军
温珍林
封士宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202211163167.0A priority Critical patent/CN115542733A/zh
Publication of CN115542733A publication Critical patent/CN115542733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Abstract

本发明公开了一种基于深度强化学习的自适应动态窗口法,首先构建面向DWA算法的深度强化学习模型,具体包括智能体、环境、动作与状态空间、奖励函数、网络架构等要素;之后根据DWA算法原理,模拟智能车在随机生成的障碍物地图中运动,以获得用于神经网络梯度下降的训练集;随后根据近端策略优化(PPO)算法思想进行梯度下降以最大化强化学习奖励;训练最终结果得到一个收敛的神经网络,将该神经网络与DWA算法评价函数融合,完成自适应DWA算法的构建。

Description

基于深度强化学习的自适应动态窗口法
技术领域
本发明涉及无人驾驶路径规划和自主导航技术领域,具体涉及一种基于深度强化学习的自适应动态窗口法。具体为一种针对当前动态窗口法(DWA)其评价函数的三个权重(速度权重、障碍物权重、朝向角权重)在面对不同障碍物环境时,其取值并不会随着智能车所处的环境及其自身的运动状态做出动态调整,而导致的智能体在面对不同障碍物环境往往不能够寻至终点或者算出最优路径缺陷的解决方法。
背景技术
路径规划是自动驾驶智能车的重要组成部分,路径规划技术可归结为在任务区域选择出可从起点连接至终点的最优避障路径,本质为几个约束条件下的最优解,路径规划是智能车无人导航技术的关键部分。路径规划算法又可分为基于完整区域信息理解的全局规划与基于局部区域信息理解的局部规划。动态窗口法(Dynamic Window Approach,DWA)作为考虑智能车运动性能的局部路径规划方法,广泛应用于智能车路径导航。
动态窗口法速度-角速度组合指令驱动智能车行进,工作流程为:考虑t时刻的各条件对速度-角速度空间的约束,得出t时刻智能车所能到达的速度-角速度范围;将其离散化;对离散后的速度-角速度进行组合;智能车遍历所有组合并按照给定运动模型模拟前行m个Δt时长,获得模拟轨迹集τ;评价函数给出模拟轨迹集τ中的所有模拟轨迹的得分,选取评分最高轨迹对应的组合;以该组合驱动智能车前进时长Δt到达t+1以此循环直至终点。m为DWA算法模拟轨迹采样步数,Δt为采样时间间隔。起决策作用的为其评价函数,包括朝向角函数、障碍物函数、速度函数等三部分,评价函数为这三个子函数的加权求和,原DWA算法中该三个函数所对应的权重为固定值,然而智能车在探索终点过程,其周围的障碍物环境是复杂多变的,不同障碍物分布需要不同的权重,导致原DWA算法固定权重值方法容易使智能车陷入局部最优或目标不可达。
发明内容
本发明目的在于针对现有DWA算法路径规划算法,其评价函数中的权重参数为固定值或无法根据智能车运动状态,结合周围障碍物环境实时调整出适用于当前时刻的最优评价函数的问题,提供一种基于深度强化学习(Deep Reinforcement Learning)方法的自适应动态调节DWA算法评价函数的方法。
本发明首先构建面向DWA算法的深度强化学习模型,具体包括智能体、环境、动作与状态空间、奖励函数、网络架构等要素;之后根据DWA算法原理,模拟智能车在随机生成的障碍物地图中运动,以获得用于神经网络梯度下降的训练集;随后根据近端策略优化(PPO)算法思想进行梯度下降以最大化强化学习奖励;训练最终结果得到一个收敛的神经网络,将该神经网络与DWA算法评价函数融合,完成自适应DWA算法的构建。最后通过Python3平台仿真,验证算法的有效性。
为实现上述目的,本发明采取如下技术方案:
一种基于深度强化学习的自适应动态窗口法,其特征在于,包括以下步骤:
步骤S1:建立DWA算法模型,根据阿克曼智能车确定包括:速度范围[vmin,vmax]、角速度范围[wmin,wmax]、加速度范围
Figure BDA0003860710910000021
角加速度范围
Figure BDA0003860710910000022
的参数及DWA算法的要素;
步骤S2:构建面向DWA算法的深度强化学习模型,具体包括智能体、环境、动作与状态空间、奖励函数、深度强化学习架构;
步骤S3:随机初始化障碍物地图环境,初始化智能车速度v0、角速度w0、朝向角θ0为0,将智能车置于起点p0,终点设置为g;
步骤S4:训练集收集阶段:模拟智能体在随机生成的障碍物地图中运动,收集用于神经网络梯度下降的轨迹集ψ;
步骤S5:网络参数更新阶段:利用步骤S4收集到的轨迹集ψ更新各个网络架构参数;步骤S6:判断当前网络架构下智能体的回合平均分是否大于阈值,如果是则终止循环,否则重新进入步骤S3进行新一代训练。
进一步地,步骤S1中,所述DWA算法核心要素包括:速度空间约束、运动模型、评价函数:
速度空间约束Vv
(1)极限速度约束Vm:智能车可行速度不得超过极限范围:
Vm={v,w|v∈vmin,vmax∧w∈wmin,wmax}
式中[vmin,vmax]线速度范围,[wmin,wmax]为角速度范围;
(2)加速度约束Vd:相邻时刻的智能车速度、角速度增量受到加速度、角加速度约束:
Figure BDA0003860710910000023
vc、wc为当前线速度、角速度,
Figure BDA0003860710910000031
为线加速度范围,
Figure BDA0003860710910000032
为角加速度范围,Δt为运动时间间隔,也为模拟轨迹采样时间间隔;
(3)制动距离约束Va:智能车应能够在与障碍物碰撞前减速至0:
Figure BDA0003860710910000033
dist(v,w)为速度-角速度组合(v,w)对应轨迹离障碍物的最近距离;
(4)最小转弯半径约束wa:智能车转向过程其转弯半径不得小于最小转弯半径:
Figure BDA0003860710910000034
v为智能车速度,αlim为智能车最大转角,rmin为智能车最小转弯半径;综上,速度空间约束Vv表示为:
Vv=Vm∩Vd∩Va∩wa
运动模型
当运动时间间隔足够小时,将相邻两点之间的运动轨迹近匀速直线运动,具体公式如下:
Figure BDA0003860710910000035
xt、yt表示t时刻智能车的横纵坐标,
Figure BDA0003860710910000036
表示t时刻的航向角,vt、wt表示t时刻的速度-角速度组合,Δt为运动时间间隔;
评价函数
G(v,w)=σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))
式中σ()为平滑函数,
Figure BDA0003860710910000038
Figure BDA0003860710910000037
表示智能车航向角,φ为智能车位置与目标点连线与x轴正方向夹角,dist(v,w)为模拟轨迹到最近障碍物的欧氏距离,vel(v,w)表示智能车的线速度大小,α、ζ、γ为三个权重系数。
进一步地,步骤S2当中:
所述智能体具体为阿克曼智能车,环境具体为虚拟障碍物环境;
所述动作与状态空间具体为:
定义神经网络的输出动作空间A为[α,ζ,γ],经过激活函数式f(x)=max(0.01,x)变换得到最终输出,与所述评价函数G(v,w)中的heading(v,w)、dist(v,w)、vel(v,w)三个子函数的权重参数相对应;状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(xt,yt)的相对横纵坐标,及智能车的朝向角
Figure BDA0003860710910000048
的组合,如图2所示,将其数值归一化,S为11维空间,如下式所示:
Figure BDA0003860710910000041
式中xm、xn为障碍物横坐标的上下界,ym、yn为障碍物纵坐标的上下界;
所述奖励函数具体为:
智能车t时刻奖励函数包括8部分,定义如下:
Rt=Rt goal+Rt obs+Rt step+Rt cost+Rt p+Rt vel+Rt θ+Rt ob
Rt goal是智能车是否到达目标点给与的奖励:
Figure BDA0003860710910000042
Rt obs是与智能车碰撞相关的奖励:
Figure BDA0003860710910000043
Rt step是与智能车花费的步数(step)相关的奖励:
Figure BDA0003860710910000044
Rt p是与智能车位置变化相关的奖励:
Figure BDA0003860710910000045
Rt vel是与智能车线速度相关的奖励:
Figure BDA0003860710910000046
Figure BDA0003860710910000049
是与智能车朝向角相关的奖励:
Figure BDA0003860710910000047
Rt ob是与智能车到最近障碍物距离相关的奖励:
Figure BDA0003860710910000051
式中Rt cost为-1,表示智能车每走一步需要的花费,pt表示t时刻智能车坐标,g表示终点坐标,obt表示t时刻距离智能车最近障碍物的坐标,dt表示t时刻智能车与终点的距离,dt-1表示t-1时刻智能车与终点的距离,vt表示t时刻智能车的线速度,Φt表示t时刻智能车和终点连线与自身朝向角之间的夹角;
所述网络架构具体包括:智能体、环境、评论家模块、演员模块;
所述评论家模块包括价值网络目标函数L(ω)、价值网络q(s,a;ω)、目标价值网络qT(s,a;ω);
所述演员模块包括策略网络π(a|s;θ)、策略网络目标函数J(θ);
所述智能体为智能车,t时刻智能车利用感知与定位系统从环境中观测到状态st,策略网络π(a|s;θ)接收st后输出一个关于动作At的高斯概率分布π(at|st;θ),之后从该概率分布随机抽取确定动作at,动作at信息传递给价值网络q(s,a;ω),与从环境中观测到的状态st组成形成q(s,a;ω)的输入;π(a|s;θ)确定的动作at信息同样传递给目标价值网络qT(s,a;ω),与从环境中观测到的状态st形成qT(s,a;ω)的输入;根据高斯概率分布π(At|st;θ)与动作at信息计算出状态st下执行动作at的概率pθ(at|st),该概率参与演员模块的目标函数J(θ)的计算;π(a|s;θ)确定的动作at信息同样传递至智能车,得到t时刻窗口缩减的DWA算法的评价函数Gt(v,w),Gt(v,w)完成对t时刻DWA算法的模拟轨迹集τt的评价,选出评分最高的模拟轨迹对应的速度-角速度组合(vt,wt),速度-角速度信息传递至智能车运动控制模块,驱动智能车运动;至此,智能车位置、朝向角、周围障碍物分布的信息发生改变,环境转换至状态st+1,奖励函数也根据改变的信息反馈给评论家模块奖励rt;L(ω)、J(θ)两个目标函数的作用为更新q(s,a;ω)、π(a|s;θ)的网络参数。
进一步地,在步骤S4和步骤S5中的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下:
完成价值网络q(s,a;ω)、目标价值网络qT(s,a;ω)、策略网络π(a|s;θ)的搭建后,利用多步时序差分算法MTD更新价值网络参数ω,利用近端策略优化算法PPO更新策略网络参数θ;设当前参数为ωnow
Figure BDA0003860710910000061
θnow,重复以下步骤更新q(s,a;ω)、π(a|s;θ)网络参数:
(1)实际观测到初始状态s0,π(a|s;θ)输出一个关于动作A0的高斯概率分布π(A0|s0;θ),之后从该概率分布随机抽取确定动作a0,智能车执行动作a0,观测到奖励r0、s1,如此反复,直到观测到终止状态sn,生成数据χ0:[s0 0,a0 0,r0 0…,sn-1 0,an-1 0,rn-1 0,sn 0],如此循环,直至生成i条数据集合χ=[χ01,…,χi],i表示回合;
(2)在指定更新次数(Z)内,重复执行以下步骤:
从数据集合χ内随机抽取出MI(最小批次大小)个状态sN I,之后遍历该MI个状态sN I:用目标价值网络qT(s,a;ω)计算出状态sN I为起点的K步时序差分(TD)误差GN I
Figure BDA0003860710910000062
用价值网络q(s,a;ω)计算出状态sN I时的动作价值估计qt
qt=q(sN I,aN I;ωnow)
根据下式计算出L(ω):
Figure BDA0003860710910000063
根据下计算出J(θ):
Figure BDA0003860710910000064
更新价值网络、策略网络、目标价值网络的参数:
Figure BDA0003860710910000065
Figure BDA0003860710910000066
Figure BDA0003860710910000067
Aθk(sN I,aN I)为优势函数,用于衡量在状态sN I下执行动作aN I相较于其他动作的优越程度:
Figure BDA0003860710910000071
δN I=rN I+γq(sN+1 I,aN+1 I;ωnow)-q(sN I,aN I;ωnow)
sN I表示回合I的第N步状态,nI表示回合I的最大步数,α、β、μ、λ、κ为超参数,pθ(aN I|sN I)表示为新策略网络在状态sN I下执行aN I的概率;pθk(aN I|sN I)则表示旧策略网络下的概率,clip(a,b,c)表示,当a∈[b,c],输出a;当a<b,输出b;当a>c,输出c。
进一步地,步骤S6中所指的回合平均分具体为:智能车从起点开始探索终点的过程中,每走一步所获得的密集奖励与最终的稀疏奖励累计和,密集奖励具体包括奖励函数中的Rt cost、Rt p、Rt vel、Rt θ、Rt ob五项,其中,密集奖励为智能车每走一步获得的反馈,稀疏奖励具体包括奖励函数中的Rt goal、Rt obs、Rt step,稀疏奖励为智能车到达终止状态时给出的奖励;所述终止状态包括:到达终点、与障碍物碰撞或超出回合最大步数。
相比于现有技术,本发明及其优选方案所提出的自适应DWA算法能够有效避开局部最优且到达终点,最优固定权重参数DWA算法陷入局部最优。
附图说明
图1为本发明实施例障碍物环境示意图;
图2为本发明实施例状态向量示意图;
图3为本发明实施例自适应DWA算法结果图;
图4为本发明实施例最优固定权重参数DWA算法结果图;
图5为本发明实施例自适应DWA算法参数变化曲线示意图;
图6为本发明实施例深度强化学习架构模型示意图;
图7为本发明实施例方法总体流程示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图7所示,本实施例提供的方案的步骤和流程如下:
步骤S1:建立DWA算法模型,根据阿克曼智能车确定速度范围、角速度范围、加速度范围、角加速度范围等参数及DWA算法核心要素。
步骤S1所述的DWA算法核心要素包括速度空间约束、运动模型、评价函数:
速度空间约束Vv
(1)极限速度约束Vm:智能车可行速度不得超过极限范围:
Vm={(v,w)|v∈[vmin,vmax]∧w∈[wmin,wmax]}
式中[vmin,vmax]线速度范围,[wmin,wmax]为角速度范围;
(2)加速度约束Vd:相邻时刻的智能车速度、角速度增量受到加速度、角加速度约束:
Figure BDA0003860710910000081
vc、wc为当前线速度、角速度,
Figure BDA0003860710910000082
为线加速度范围,
Figure BDA0003860710910000083
为角加速度范围,Δt为运动时间间隔,也为模拟轨迹采样时间间隔;
(3)制动距离约束Va:智能车应能够在与障碍物碰撞前减速至0:
Figure BDA0003860710910000084
dist(v,w)为速度-角速度组合(v,w)对应轨迹离障碍物的最近距离;
(4)最小转弯半径约束wa:智能车转向过程其转弯半径不得小于最小转弯半径:
Figure BDA0003860710910000085
v为智能车速度,αlim为智能车最大转角,rmin为智能车最小转弯半径;综上,速度空间约束Vv表示为:
Vv=Vm∩Vd∩Va∩wa
运动模型
当运动时间间隔足够小时,将相邻两点之间的运动轨迹近匀速直线运动,具体公式如下:
Figure BDA0003860710910000091
xt、yt表示t时刻智能车的横纵坐标,
Figure BDA0003860710910000094
表示t时刻的航向角,vt、wt表示t时刻的速度-角速度组合,Δt为运动时间间隔;
评价函数
G(v,w)=σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))
式中σ()为平滑函数,
Figure BDA0003860710910000095
Figure BDA0003860710910000096
表示智能车航向角,φ为智能车位置与目标点连线与x轴正方向夹角,dist(v,w)为模拟轨迹到最近障碍物的欧氏距离,vel(v,w)表示智能车的线速度大小,α、ζ、γ为三个权重系数。
步骤S2:步骤S2:构建面向DWA算法的深度强化学习模型,具体包括智能体(Agent)、环境(Environment)、动作(Action)与状态空间(State)、奖励函数(Reward)、网络架构等要素。
步骤S2中所述的智能体具体为阿克曼智能车,环境具体为虚拟障碍物环境,如图1所示。
步骤S2中所述的动作与状态空间具体为:
本发明旨在使DWA算法能够在面临不同障碍物环境时,自适应调节评价函数中的三个权重参数,使智能车选取出当前状态下的最优解,故定义神经网络的输出动作空间A为[α,ζ,γ],经过激活函数式f(x)=max(0.01,x)变换得到最终输出,与所述评价函数G(v,w)中的heading(v,w)、dist(v,w)、vel(v,w)三个子函数的权重参数相对应;状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(xt,yt)的相对横纵坐标,及智能车的朝向角
Figure BDA0003860710910000093
的组合,如图2所示,将其数值归一化,S为11维空间,如下式所示:
Figure BDA0003860710910000092
式中xm、xn为障碍物横坐标的上下界,ym、yn为障碍物纵坐标的上下界。
步骤S2中所述的奖励函数具体为:
智能车t时刻奖励函数包括8部分,定义如下:
Rt=Rt goal+Rt obs+Rt step+Rt cost+Rt p+Rt vel+Rt θ+Rt ob
Rt goal是智能车是否到达目标点给与的奖励:
Figure BDA0003860710910000101
Rt obs是与智能车碰撞相关的奖励:
Figure BDA0003860710910000102
Rt step是与智能车花费的步数(step)相关的奖励:
Figure BDA0003860710910000103
Rt p是与智能车位置变化相关的奖励:
Figure BDA0003860710910000104
Rt vel是与智能车线速度相关的奖励:
Figure BDA0003860710910000105
Figure BDA0003860710910000108
是与智能车朝向角相关的奖励:
Figure BDA0003860710910000106
Rt ob是与智能车到最近障碍物距离相关的奖励:
Figure BDA0003860710910000107
式中Rt cost为-1,表示智能车每走一步需要的花费,pt表示t时刻智能车坐标,g表示终点坐标,obt表示t时刻距离智能车最近障碍物的坐标,dt表示t时刻智能车与终点的距离,dt-1表示t-1时刻智能车与终点的距离,vt表示t时刻智能车的线速度,Φt表示t时刻智能车和终点连线与自身朝向角之间的夹角。
步骤S2中所述的网络架构具体为:
本发明所指的深度强化学习架构模型如图6,包括智能体、环境、评论家模块、演员模块。
评论家模块包括价值网络目标函数L(ω)、价值网络q(s,a;ω)、目标价值网络qT(s,a;ω);演员模块包括策略网络π(a|s;θ)、策略网络目标函数J(θ);智能体为智能车,t时刻智能车利用感知与定位系统从环境中观测到状态st,策略网络π(a|s;θ)接收st后输出一个关于动作At的高斯概率分布π(at|st;θ),之后从该概率分布随机抽取确定动作at,动作at信息传递给价值网络q(s,a;ω),与从环境中观测到的状态st组成形成q(s,a;ω)的输入;π(a|s;θ)确定的动作at信息同样传递给目标价值网络qT(s,a;ω),与从环境中观测到的状态st形成qT(s,a;ω)的输入;根据高斯概率分布π(At|st;θ)与动作at信息计算出状态st下执行动作at的概率pθ(at|st),该概率参与演员模块的目标函数J(θ)的计算;π(a|s;θ)确定的动作at信息同样传递至智能车,得到t时刻窗口缩减的DWA算法的评价函数Gt(v,w),Gt(v,w)完成对t时刻DWA算法的模拟轨迹集τt的评价,选出评分最高的模拟轨迹对应的速度-角速度组合(vt,wt),速度-角速度信息传递至智能车运动控制模块,驱动智能车运动;至此,智能车位置、朝向角、周围障碍物分布等信息发生改变,环境转换至状态st+1,奖励函数也会根据改变的信息反馈给评论家模块奖励rt;L(ω)、J(θ)两个目标函数的作用为更新q(s,a;ω)、π(a|s;θ)的网络参数。
步骤S4:训练集收集阶段:模拟智能体在随机生成的障碍物地图中运动,收集用于神经网络梯度下降的轨迹集ψ。
步骤S5:网络参数更新阶段:利用步骤S4收集到的轨迹集ψ更新各个网络架构参数。
步骤S4、S5中所指的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下:完成价值网络q(s,a;ω)、目标价值网络qT(s,a;ω)、策略网络π(a|s;θ)的搭建后,利用多步时序差分算法(MTD)更新价值网络参数ω,利用近端策略优化算法(PPO)更新策略网络参数θ;设当前参数为ωnow
Figure BDA0003860710910000111
θnow,重复以下步骤更新q(s,a;ω)、π(a|s;θ)网络参数:
(1)实际观测到初始状态s0,π(a|s;θ)输出一个关于动作A0的高斯概率分布π(A0|s0;θ),之后从该概率分布随机抽取确定动作a0,智能车执行动作a0,观测到奖励r0、s1,如此反复,直到观测到终止状态sn,生成数据χ0:[s0 0,a0 0,r0 0…,sn-1 0,an-1 0,rn-1 0,sn 0],如此循环,直至生成i条数据集合χ=[χ01,…,χi],i表示回合;
(2)在指定更新次数(Z)内,重复执行以下步骤:
从数据集合χ内随机抽取出MI(最小批次大小)个状态sN I,之后遍历该MI个状态sN I:用目标价值网络qT(s,a;ω)计算出状态sN I为起点的K步时序差分(TD)误差GN I
Figure BDA0003860710910000121
用价值网络q(s,a;ω)计算出状态sN I时的动作价值估计qt
qt=q(sN I,aN I;ωnow)
根据下式计算出L(ω):
Figure BDA0003860710910000122
根据下计算出J(θ):
Figure BDA0003860710910000123
更新价值网络、策略网络、目标价值网络的参数:
Figure BDA0003860710910000124
Figure BDA0003860710910000125
Figure BDA0003860710910000126
Aθk(sN I,aN I)为优势函数,用于衡量在状态sN I下执行动作aN I相较于其他动作的优越程度:
Figure BDA0003860710910000127
δN I=rN I+γq(sN+1 I,aN+1 I;ωnow)-q(sN I,aN I;ωnow)
sN I表示回合I的第N步状态,nI表示回合I的最大步数,α、β、μ、λ、κ为超参数,pθ(aN I|sN I)表示为新策略网络在状态sN I下执行aN I的概率;pθk(aN I|sN I)则表示旧策略网络下的概率,clip(a,b,c)表示,当a∈[b,c],输出a;当a<b,输出b;当a>c,输出c。
步骤S6:判断当前网络架构下智能体的回合平均分是否大于阈值,如果是则终止循环,否则重新进入步骤S3进行新一代训练。
步骤S6中所指的回合平均分具体为:智能车从起点开始探索终点的过程中,每走一步所获得的密集奖励与最终的稀疏奖励累计和,密集奖励具体包括奖励函数中的Rt cost、Rt p、Rt vel、Rt θ、Rt ob五项,其中,密集奖励为智能车每走一步都会获得的反馈,稀疏奖励具体包括奖励函数中的Rt goal、Rt obs、Rt step,稀疏奖励为智能车到达终止状态(到达终点、与障碍物碰撞、超出回合最大步数)时给出的奖励。
为了验证本发明提出算法的有效性,将基于python3语言平台,随机初始化复杂静态障碍物环境具体如图1所示,智能车起点设置为(-25,25),终点设置为(30,30),黑色圆圈为随机初始化的障碍物,障碍物自身半径为0.5m,进行一系列对比实验包括:本发明所提出的自适应DWA算法、随机权重参数DWA算法、最优固定权重参数DWA算法,每种算法均在随机生成的地图环境测试6000次。
表1静态障碍物环境仿真实验表
Figure BDA0003860710910000131
可以看出自适应DWA算法的到达率相较于最优固定权重参数、随机权参数DWA算法分别提升了14.89%、37.57%;路径效率分别提升了2.79%、0.41%;时间效率分别提升了6.60%、2.36%。图3为自适应DWA算法随机静态障碍物环境下的一次仿真,图5为其相应的权重参数变化曲线。图4为最优固定权重参数DWA算法在相同环境下的仿真。本发明所提出的自适应DWA算法有效避开局部最优且到达终点,最优固定权重参数DWA算法陷入局部最优
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于深度强化学习的自适应动态窗口法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (5)

1.一种基于深度强化学习的自适应动态窗口法,其特征在于,包括以下步骤:
步骤S1:建立DWA算法模型,根据阿克曼智能车确定包括:速度范围[vmin,vmax]、角速度范围[wmin,wmax]、加速度范围
Figure FDA0003860710900000011
角加速度范围
Figure FDA0003860710900000012
的参数及DWA算法的要素;
步骤S2:构建面向DWA算法的深度强化学习模型,具体包括智能体、环境、动作与状态空间、奖励函数、深度强化学习架构;
步骤S3:随机初始化障碍物地图环境,初始化智能车速度v0、角速度w0、朝向角θ0为0,将智能车置于起点p0,终点设置为g;
步骤S4:训练集收集阶段:模拟智能体在随机生成的障碍物地图中运动,收集用于神经网络梯度下降的轨迹集ψ;
步骤S5:网络参数更新阶段:利用步骤S4收集到的轨迹集ψ更新各个网络架构参数;
步骤S6:判断当前网络架构下智能体的回合平均分是否大于阈值,如果是则终止循环,否则重新进入步骤S3进行新一代训练。
2.根据权利要求1所述的基于深度强化学习的自适应动态窗口法,其特征在于:步骤S1中,所述DWA算法核心要素包括:速度空间约束、运动模型、评价函数:
速度空间约束Vv
(1)极限速度约束Vm:智能车可行速度不得超过极限范围:
Vm={(v,w)|v∈[vmin,vmax]∧w∈[wmin,wmax]}
式中[vmin,vmax]线速度范围,[wmin,wmax]为角速度范围;
(2)加速度约束Vd:相邻时刻的智能车速度、角速度增量受到加速度、角加速度约束:
Figure FDA0003860710900000013
vc、wc为当前线速度、角速度,
Figure FDA0003860710900000014
为线加速度范围,
Figure FDA0003860710900000015
为角加速度范围,Δt为运动时间间隔,也为模拟轨迹采样时间间隔;
(3)制动距离约束Va:智能车应能够在与障碍物碰撞前减速至0:
Figure FDA0003860710900000016
dist(v,w)为速度-角速度组合(v,w)对应轨迹离障碍物的最近距离;
(4)最小转弯半径约束wa:智能车转向过程其转弯半径不得小于最小转弯半径:
Figure FDA0003860710900000021
v为智能车速度,αlim为智能车最大转角,rmin为智能车最小转弯半径;综上,速度空间约束VV表示为:
Vv=Vm∩Vd∩Va∩wa
运动模型
当运动时间间隔足够小时,将相邻两点之间的运动轨迹近匀速直线运动,具体公式如下:
Figure FDA0003860710900000022
xt、yt表示t时刻智能车的横纵坐标,
Figure FDA0003860710900000023
表示t时刻的航向角,vt、wt表示t时刻的速度-角速度组合,Δt为运动时间间隔;
评价函数
G(v,w)=σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))
式中σ()为平滑函数,
Figure FDA0003860710900000024
Figure FDA0003860710900000025
表示智能车航向角,φ为智能车位置与目标点连线与x轴正方向夹角,dist(v,w)为模拟轨迹到最近障碍物的欧氏距离,vel(v,w)表示智能车的线速度大小,α、ζ、γ为三个权重系数。
3.根据权利要求2所述的基于深度强化学习的自适应动态窗口法,其特征在于:步骤S2当中:
所述智能体具体为阿克曼智能车,环境具体为虚拟障碍物环境;
所述动作与状态空间具体为:
定义神经网络的输出动作空间A为[α,ζ,γ],经过激活函数式f(x)=max(0.01,x)变换得到最终输出,与所述评价函数G(v,w)中的heading(v,w)、dist(v,w)、vel(v,w)三个子函数的权重参数相对应;状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(xt,yt)的相对横纵坐标,及智能车的朝向角
Figure FDA0003860710900000026
的组合,如图2所示,将其数值归一化,S为11维空间,如下式所示:
Figure FDA0003860710900000031
式中xm、xn为障碍物横坐标的上下界,ym、yn为障碍物纵坐标的上下界;
所述奖励函数具体为:
智能车t时刻奖励函数包括8部分,定义如下:
Figure FDA0003860710900000032
Figure FDA0003860710900000033
是智能车是否到达目标点给与的奖励:
Figure FDA0003860710900000034
Figure FDA0003860710900000035
是与智能车碰撞相关的奖励:
Figure FDA0003860710900000036
Figure FDA0003860710900000037
是与智能车花费的步数(step)相关的奖励:
Figure FDA0003860710900000038
Figure FDA0003860710900000039
是与智能车位置变化相关的奖励:
Figure FDA00038607109000000310
Figure FDA00038607109000000311
是与智能车线速度相关的奖励:
Figure FDA00038607109000000312
Figure FDA00038607109000000313
是与智能车朝向角相关的奖励:
Figure FDA00038607109000000314
Figure FDA00038607109000000315
是与智能车到最近障碍物距离相关的奖励:
Figure FDA00038607109000000316
式中
Figure FDA00038607109000000317
为-1,表示智能车每走一步需要的花费,pt表示t时刻智能车坐标,g表示终点坐标,obt表示t时刻距离智能车最近障碍物的坐标,dt表示t时刻智能车与终点的距离,dt-1表示t-1时刻智能车与终点的距离,vt表示t时刻智能车的线速度,Φt表示t时刻智能车和终点连线与自身朝向角之间的夹角;
所述网络架构具体包括:智能体、环境、评论家模块、演员模块;
所述评论家模块包括价值网络目标函数L(ω)、价值网络q(s,a;ω)、目标价值网络qT(s,a;ω);
所述演员模块包括策略网络π(a|s;θ)、策略网络目标函数J(θ);
所述智能体为智能车,t时刻智能车利用感知与定位系统从环境中观测到状态st,策略网络π(a|s;θ)接收st后输出一个关于动作At的高斯概率分布π(at|st;θ),之后从该概率分布随机抽取确定动作at,动作at信息传递给价值网络q(s,a;ω),与从环境中观测到的状态st组成形成q(s,a;ω)的输入;π(a|s;θ)确定的动作at信息同样传递给目标价值网络qT(s,a;ω),与从环境中观测到的状态st形成qT(s,a;ω)的输入;根据高斯概率分布π(At|st;θ)与动作at信息计算出状态st下执行动作at的概率pθ(at|st),该概率参与演员模块的目标函数J(θ)的计算;π(a|s;θ)确定的动作at信息同样传递至智能车,得到t时刻窗口缩减的DWA算法的评价函数Gt(v,w),Gt(v,w)完成对t时刻DWA算法的模拟轨迹集τt的评价,选出评分最高的模拟轨迹对应的速度-角速度组合(vt,wt),速度-角速度信息传递至智能车运动控制模块,驱动智能车运动;至此,智能车位置、朝向角、周围障碍物分布的信息发生改变,环境转换至状态st+1,奖励函数也根据改变的信息反馈给评论家模块奖励rt;L(ω)、J(θ)两个目标函数的作用为更新q(s,a;ω)、π(a|s;θ)的网络参数。
4.根据权利要求3所述的基于深度强化学习的自适应动态窗口法,其特征在于:在步骤S4和步骤S5中的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下:
完成价值网络q(s,a;ω)、目标价值网络qT(s,a;ω)、策略网络π(a|s;θ)的搭建后,利用多步时序差分算法MTD更新价值网络参数ω,利用近端策略优化算法PPO更新策略网络参数θ;设当前参数为ωnow
Figure FDA0003860710900000041
θnow,重复以下步骤更新q(s,a;ω)、π(a|s;θ)网络参数:
(1)实际观测到初始状态s0,π(a|s;θ)输出一个关于动作A0的高斯概率分布π(A0|s0;θ),之后从该概率分布随机抽取确定动作a0,智能车执行动作a0,观测到奖励r0、s1,如此反复,直到观测到终止状态sn,生成数据x0:[s0 0,a0 0,r0 0…,sn-1 0,an-1 0,rn-1 0,sn 0],如此循环,直至生成i条数据集合x=[x0,x1,…,xi],i表示回合;
(2)在指定更新次数(Z)内,重复执行以下步骤:
从数据集合x内随机抽取出MI(最小批次大小)个状态sN I,之后遍历该MI个状态sN I
用目标价值网络qT(s,a;ω)计算出状态sN I为起点的K步时序差分(TD)误差GN I
Figure FDA0003860710900000051
用价值网络q(s,a;ω)计算出状态sN I时的动作价值估计qt
qt=q(sN I,aN I;ωnow)
根据下式计算出L(ω):
Figure FDA0003860710900000052
根据下计算出J(θ):
Figure FDA0003860710900000053
更新价值网络、策略网络、目标价值网络的参数:
Figure FDA0003860710900000054
Figure FDA0003860710900000055
Figure FDA0003860710900000056
Figure FDA0003860710900000057
为优势函数,用于衡量在状态sN I下执行动作aN I相较于其他动作的优越程度:
Figure FDA0003860710900000058
δN I=rN I+γq(sN+1 I,aN+1 I;ωnow)-q(sN I,aN I;ωnow)
sN I表示回合I的第N步状态,nI表示回合I的最大步数,α、β、μ、λ、κ为超参数,pθ(aN I|sN I)表示为新策略网络在状态sN I下执行aN I的概率;
Figure FDA0003860710900000061
则表示旧策略网络下的概率,clip(a,b,c)表示,当a∈[b,c],输出a;当a<b,输出b;当a>c,输出c。
5.根据权利要求4所述的基于深度强化学习的自适应动态窗口法,其特征在于:步骤S6中所指的回合平均分具体为:智能车从起点开始探索终点的过程中,每走一步所获得的密集奖励与最终的稀疏奖励累计和,密集奖励具体包括奖励函数中的
Figure FDA0003860710900000062
Figure FDA0003860710900000063
五项,其中,密集奖励为智能车每走一步获得的反馈,稀疏奖励具体包括奖励函数中的
Figure FDA0003860710900000064
稀疏奖励为智能车到达终止状态时给出的奖励;所述终止状态包括:到达终点、与障碍物碰撞或超出回合最大步数。
CN202211163167.0A 2022-09-23 2022-09-23 基于深度强化学习的自适应动态窗口法 Pending CN115542733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211163167.0A CN115542733A (zh) 2022-09-23 2022-09-23 基于深度强化学习的自适应动态窗口法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211163167.0A CN115542733A (zh) 2022-09-23 2022-09-23 基于深度强化学习的自适应动态窗口法

Publications (1)

Publication Number Publication Date
CN115542733A true CN115542733A (zh) 2022-12-30

Family

ID=84730330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211163167.0A Pending CN115542733A (zh) 2022-09-23 2022-09-23 基于深度强化学习的自适应动态窗口法

Country Status (1)

Country Link
CN (1) CN115542733A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020056875A1 (zh) * 2018-09-20 2020-03-26 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN114564016A (zh) * 2022-02-24 2022-05-31 江苏大学 一种结合路径规划和强化学习的导航避障控制方法、系统及模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
祁文凯;桑国明;: "基于延迟策略的最大熵优势演员评论家算法", 小型微型计算机系统, no. 08, 15 August 2020 (2020-08-15), pages 90 - 98 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116429137A (zh) * 2023-03-22 2023-07-14 上海知而行科技有限公司 用于清扫装置的遍历路径生成方法及设备

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
US11900797B2 (en) Autonomous vehicle planning
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN107063280A (zh) 一种基于控制采样的智能车辆路径规划系统及方法
Eiffert et al. Path planning in dynamic environments using generative rnns and monte carlo tree search
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN114020013B (zh) 一种基于深度强化学习的无人机编队避撞方法
CN113296523A (zh) 一种移动机器人避障路径规划方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116300909A (zh) 一种基于信息预处理和强化学习的机器人避障导航方法
CN114037050B (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN116551703B (zh) 一种复杂环境下基于机器学习的运动规划方法
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN115586774A (zh) 基于改进动态窗口法的移动机器人避障方法
CN111413974B (zh) 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination