CN115542733A

CN115542733A - 基于深度强化学习的自适应动态窗口法

Info

Publication number: CN115542733A
Application number: CN202211163167.0A
Authority: CN
Inventors: 张卫波; 黄赐坤; 黄晓军; 温珍林; 封士宇
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-30

Abstract

本发明公开了一种基于深度强化学习的自适应动态窗口法，首先构建面向DWA算法的深度强化学习模型，具体包括智能体、环境、动作与状态空间、奖励函数、网络架构等要素；之后根据DWA算法原理，模拟智能车在随机生成的障碍物地图中运动，以获得用于神经网络梯度下降的训练集；随后根据近端策略优化(PPO)算法思想进行梯度下降以最大化强化学习奖励；训练最终结果得到一个收敛的神经网络，将该神经网络与DWA算法评价函数融合，完成自适应DWA算法的构建。

Description

基于深度强化学习的自适应动态窗口法

技术领域

本发明涉及无人驾驶路径规划和自主导航技术领域，具体涉及一种基于深度强化学习的自适应动态窗口法。具体为一种针对当前动态窗口法(DWA)其评价函数的三个权重(速度权重、障碍物权重、朝向角权重)在面对不同障碍物环境时，其取值并不会随着智能车所处的环境及其自身的运动状态做出动态调整，而导致的智能体在面对不同障碍物环境往往不能够寻至终点或者算出最优路径缺陷的解决方法。

背景技术

路径规划是自动驾驶智能车的重要组成部分，路径规划技术可归结为在任务区域选择出可从起点连接至终点的最优避障路径，本质为几个约束条件下的最优解，路径规划是智能车无人导航技术的关键部分。路径规划算法又可分为基于完整区域信息理解的全局规划与基于局部区域信息理解的局部规划。动态窗口法(Dynamic Window Approach,DWA)作为考虑智能车运动性能的局部路径规划方法，广泛应用于智能车路径导航。

动态窗口法速度-角速度组合指令驱动智能车行进，工作流程为：考虑t时刻的各条件对速度-角速度空间的约束，得出t时刻智能车所能到达的速度-角速度范围；将其离散化；对离散后的速度-角速度进行组合；智能车遍历所有组合并按照给定运动模型模拟前行m个Δ_t时长，获得模拟轨迹集τ；评价函数给出模拟轨迹集τ中的所有模拟轨迹的得分，选取评分最高轨迹对应的组合；以该组合驱动智能车前进时长Δ_t到达t+1以此循环直至终点。m为DWA算法模拟轨迹采样步数，Δ_t为采样时间间隔。起决策作用的为其评价函数，包括朝向角函数、障碍物函数、速度函数等三部分，评价函数为这三个子函数的加权求和，原DWA算法中该三个函数所对应的权重为固定值，然而智能车在探索终点过程，其周围的障碍物环境是复杂多变的，不同障碍物分布需要不同的权重，导致原DWA算法固定权重值方法容易使智能车陷入局部最优或目标不可达。

发明内容

本发明目的在于针对现有DWA算法路径规划算法，其评价函数中的权重参数为固定值或无法根据智能车运动状态，结合周围障碍物环境实时调整出适用于当前时刻的最优评价函数的问题，提供一种基于深度强化学习(Deep Reinforcement Learning)方法的自适应动态调节DWA算法评价函数的方法。

本发明首先构建面向DWA算法的深度强化学习模型，具体包括智能体、环境、动作与状态空间、奖励函数、网络架构等要素；之后根据DWA算法原理，模拟智能车在随机生成的障碍物地图中运动，以获得用于神经网络梯度下降的训练集；随后根据近端策略优化(PPO)算法思想进行梯度下降以最大化强化学习奖励；训练最终结果得到一个收敛的神经网络，将该神经网络与DWA算法评价函数融合，完成自适应DWA算法的构建。最后通过Python3平台仿真，验证算法的有效性。

为实现上述目的，本发明采取如下技术方案：

一种基于深度强化学习的自适应动态窗口法，其特征在于，包括以下步骤：

步骤S1：建立DWA算法模型，根据阿克曼智能车确定包括:速度范围[v_min,v_max]、角速度范围[w_min,w_max]、加速度范围

角加速度范围

的参数及DWA算法的要素；

步骤S2：构建面向DWA算法的深度强化学习模型，具体包括智能体、环境、动作与状态空间、奖励函数、深度强化学习架构；

步骤S3：随机初始化障碍物地图环境，初始化智能车速度v₀、角速度w₀、朝向角θ₀为0，将智能车置于起点p₀，终点设置为g；

步骤S4：训练集收集阶段：模拟智能体在随机生成的障碍物地图中运动，收集用于神经网络梯度下降的轨迹集ψ；

步骤S5：网络参数更新阶段：利用步骤S4收集到的轨迹集ψ更新各个网络架构参数；步骤S6：判断当前网络架构下智能体的回合平均分是否大于阈值，如果是则终止循环，否则重新进入步骤S3进行新一代训练。

进一步地，步骤S1中，所述DWA算法核心要素包括：速度空间约束、运动模型、评价函数：

速度空间约束V_v

(1)极限速度约束V_m：智能车可行速度不得超过极限范围：

V_m＝{v,w|v∈v_min,v_max∧w∈w_min,w_max}

式中[v_min,v_max]线速度范围，[w_min,w_max]为角速度范围；

(2)加速度约束V_d：相邻时刻的智能车速度、角速度增量受到加速度、角加速度约束：

v_c、w_c为当前线速度、角速度，

为线加速度范围，

为角加速度范围，Δ_t为运动时间间隔，也为模拟轨迹采样时间间隔；

(3)制动距离约束V_a：智能车应能够在与障碍物碰撞前减速至0：

dist(v，w)为速度-角速度组合(v,w)对应轨迹离障碍物的最近距离；

(4)最小转弯半径约束w_a：智能车转向过程其转弯半径不得小于最小转弯半径：

v为智能车速度，α_lim为智能车最大转角，r_min为智能车最小转弯半径；综上，速度空间约束V_v表示为：

V_v＝V_m∩V_d∩V_a∩w_a

运动模型

当运动时间间隔足够小时，将相邻两点之间的运动轨迹近匀速直线运动，具体公式如下：

x_t、y_t表示t时刻智能车的横纵坐标，

表示t时刻的航向角，v_t、w_t表示t时刻的速度-角速度组合，Δ_t为运动时间间隔；

评价函数

G(v,w)＝σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))

式中σ()为平滑函数,

表示智能车航向角，φ为智能车位置与目标点连线与x轴正方向夹角，dist(v,w)为模拟轨迹到最近障碍物的欧氏距离，vel(v,w)表示智能车的线速度大小，α、ζ、γ为三个权重系数。

进一步地，步骤S2当中：

所述智能体具体为阿克曼智能车，环境具体为虚拟障碍物环境；

所述动作与状态空间具体为：

定义神经网络的输出动作空间A为[α,ζ,γ]，经过激活函数式f(x)＝max(0.01,x)变换得到最终输出，与所述评价函数G(v,w)中的heading(v,w)、dist(v,w)、vel(v,w)三个子函数的权重参数相对应；状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(x^t,y^t)的相对横纵坐标，及智能车的朝向角

的组合，如图2所示,将其数值归一化，S为11维空间，如下式所示：

式中x_m、x_n为障碍物横坐标的上下界，y_m、y_n为障碍物纵坐标的上下界；

所述奖励函数具体为：

智能车t时刻奖励函数包括8部分，定义如下：

R_t＝R_t ^goal+R_t ^obs+R_t ^step+R_t ^cost+R_t ^p+R_t ^vel+R_t ^θ+R_t ^ob

R_t ^goal是智能车是否到达目标点给与的奖励：

R_t ^obs是与智能车碰撞相关的奖励：

R_t ^step是与智能车花费的步数(step)相关的奖励：

R_t ^p是与智能车位置变化相关的奖励：

R_t ^vel是与智能车线速度相关的奖励：

是与智能车朝向角相关的奖励：

R_t ^ob是与智能车到最近障碍物距离相关的奖励：

式中R_t ^cost为-1,表示智能车每走一步需要的花费，p_t表示t时刻智能车坐标，g表示终点坐标，ob_t表示t时刻距离智能车最近障碍物的坐标，d_t表示t时刻智能车与终点的距离，d_t-1表示t-1时刻智能车与终点的距离，v_t表示t时刻智能车的线速度，Φ_t表示t时刻智能车和终点连线与自身朝向角之间的夹角；

所述网络架构具体包括：智能体、环境、评论家模块、演员模块；

所述评论家模块包括价值网络目标函数L(ω)、价值网络q(s,a；ω)、目标价值网络q^T(s,a；ω)；

所述演员模块包括策略网络π(a|s；θ)、策略网络目标函数J(θ)；

所述智能体为智能车，t时刻智能车利用感知与定位系统从环境中观测到状态s_t，策略网络π(a|s；θ)接收s_t后输出一个关于动作A_t的高斯概率分布π(a_t|s_t；θ)，之后从该概率分布随机抽取确定动作a_t，动作a_t信息传递给价值网络q(s,a；ω)，与从环境中观测到的状态s_t组成形成q(s,a；ω)的输入；π(a|s；θ)确定的动作a_t信息同样传递给目标价值网络q^T(s,a；ω)，与从环境中观测到的状态s_t形成q^T(s,a；ω)的输入；根据高斯概率分布π(A_t|s_t；θ)与动作a_t信息计算出状态s_t下执行动作a_t的概率p_θ(a_t|s_t)，该概率参与演员模块的目标函数J(θ)的计算；π(a|s；θ)确定的动作a_t信息同样传递至智能车，得到t时刻窗口缩减的DWA算法的评价函数G_t(v,w)，G_t(v,w)完成对t时刻DWA算法的模拟轨迹集τ_t的评价，选出评分最高的模拟轨迹对应的速度-角速度组合(v_t,w_t)，速度-角速度信息传递至智能车运动控制模块，驱动智能车运动；至此，智能车位置、朝向角、周围障碍物分布的信息发生改变，环境转换至状态s_t+1，奖励函数也根据改变的信息反馈给评论家模块奖励r_t；L(ω)、J(θ)两个目标函数的作用为更新q(s,a；ω)、π(a|s；θ)的网络参数。

进一步地，在步骤S4和步骤S5中的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下：

完成价值网络q(s,a；ω)、目标价值网络q^T(s,a；ω)、策略网络π(a|s；θ)的搭建后，利用多步时序差分算法MTD更新价值网络参数ω，利用近端策略优化算法PPO更新策略网络参数θ；设当前参数为ω_now、

θ_now,重复以下步骤更新q(s,a；ω)、π(a|s；θ)网络参数：

(1)实际观测到初始状态s₀，π(a|s；θ)输出一个关于动作A₀的高斯概率分布π(A₀|s₀；θ)，之后从该概率分布随机抽取确定动作a₀，智能车执行动作a₀，观测到奖励r₀、s₁，如此反复，直到观测到终止状态s_n，生成数据χ⁰：[s₀ ⁰,a₀ ⁰,r₀ ⁰…,s_n-1 ⁰,a_n-1 ⁰,r_n-1 ⁰,s_n ⁰]，如此循环，直至生成i条数据集合χ＝[χ⁰,χ¹,…,χⁱ]，i表示回合；

(2)在指定更新次数(Z)内，重复执行以下步骤：

从数据集合χ内随机抽取出M_I(最小批次大小)个状态s_N ^I，之后遍历该M_I个状态s_N ^I：用目标价值网络q^T(s,a；ω)计算出状态s_N ^I为起点的K步时序差分(TD)误差G_N ^I：

用价值网络q(s,a；ω)计算出状态s_N ^I时的动作价值估计q_t：

q_t＝q(s_N ^I,a_N ^I；ω_now)

根据下式计算出L(ω)：

根据下计算出J(θ)：

更新价值网络、策略网络、目标价值网络的参数：

A^θk(s_N ^I,a_N ^I)为优势函数，用于衡量在状态s_N ^I下执行动作a_N ^I相较于其他动作的优越程度：

δ_N ^I＝r_N ^I+γq(s_N+1 ^I,a_N+1 ^I；ω_now)-q(s_N ^I,a_N ^I；ω_now)

s_N ^I表示回合I的第N步状态，n^I表示回合I的最大步数，α、β、μ、λ、κ为超参数，p_θ(a_N ^I|s_N ^I)表示为新策略网络在状态s_N ^I下执行a_N ^I的概率；p_θk(a_N ^I|s_N ^I)则表示旧策略网络下的概率，clip(a,b,c)表示，当a∈[b,c]，输出a；当a<b，输出b；当a>c，输出c。

进一步地，步骤S6中所指的回合平均分具体为：智能车从起点开始探索终点的过程中，每走一步所获得的密集奖励与最终的稀疏奖励累计和，密集奖励具体包括奖励函数中的R_t ^cost、R_t ^p、R_t ^vel、R_t ^θ、R_t ^ob五项，其中，密集奖励为智能车每走一步获得的反馈，稀疏奖励具体包括奖励函数中的R_t ^goal、R_t ^obs、R_t ^step，稀疏奖励为智能车到达终止状态时给出的奖励；所述终止状态包括：到达终点、与障碍物碰撞或超出回合最大步数。

相比于现有技术，本发明及其优选方案所提出的自适应DWA算法能够有效避开局部最优且到达终点,最优固定权重参数DWA算法陷入局部最优。

附图说明

图1为本发明实施例障碍物环境示意图；

图2为本发明实施例状态向量示意图；

图3为本发明实施例自适应DWA算法结果图；

图4为本发明实施例最优固定权重参数DWA算法结果图；

图5为本发明实施例自适应DWA算法参数变化曲线示意图；

图6为本发明实施例深度强化学习架构模型示意图；

图7为本发明实施例方法总体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图7所示，本实施例提供的方案的步骤和流程如下：

步骤S1：建立DWA算法模型，根据阿克曼智能车确定速度范围、角速度范围、加速度范围、角加速度范围等参数及DWA算法核心要素。

步骤S1所述的DWA算法核心要素包括速度空间约束、运动模型、评价函数：

速度空间约束V_v

(1)极限速度约束V_m：智能车可行速度不得超过极限范围：

V_m＝{(v,w)|v∈[v_min,v_max]∧w∈[w_min,w_max]}

式中[v_min,v_max]线速度范围，[w_min,w_max]为角速度范围；

v_c、w_c为当前线速度、角速度，

为线加速度范围，

V_v＝V_m∩V_d∩V_a∩w_a

运动模型

x_t、y_t表示t时刻智能车的横纵坐标，

评价函数

G(v,w)＝σ(αheading(v,w)+ζdist(v,w)+γvel(v,w))

式中σ()为平滑函数,

步骤S2：步骤S2：构建面向DWA算法的深度强化学习模型，具体包括智能体(Agent)、环境(Environment)、动作(Action)与状态空间(State)、奖励函数(Reward)、网络架构等要素。

步骤S2中所述的智能体具体为阿克曼智能车，环境具体为虚拟障碍物环境，如图1所示。

步骤S2中所述的动作与状态空间具体为：

本发明旨在使DWA算法能够在面临不同障碍物环境时，自适应调节评价函数中的三个权重参数，使智能车选取出当前状态下的最优解，故定义神经网络的输出动作空间A为[α,ζ,γ]，经过激活函数式f(x)＝max(0.01,x)变换得到最终输出，与所述评价函数G(v,w)中的heading(v,w)、dist(v,w)、vel(v,w)三个子函数的权重参数相对应；状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(x^t,y^t)的相对横纵坐标，及智能车的朝向角

式中x_m、x_n为障碍物横坐标的上下界，y_m、y_n为障碍物纵坐标的上下界。

步骤S2中所述的奖励函数具体为：

智能车t时刻奖励函数包括8部分，定义如下：

R_t＝R_t ^goal+R_t ^obs+R_t ^step+R_t ^cost+R_t ^p+R_t ^vel+R_t ^θ+R_t ^ob

R_t ^goal是智能车是否到达目标点给与的奖励：

R_t ^obs是与智能车碰撞相关的奖励：

R_t ^step是与智能车花费的步数(step)相关的奖励：

R_t ^p是与智能车位置变化相关的奖励：

R_t ^vel是与智能车线速度相关的奖励：

是与智能车朝向角相关的奖励：

R_t ^ob是与智能车到最近障碍物距离相关的奖励：

式中R_t ^cost为-1,表示智能车每走一步需要的花费，p_t表示t时刻智能车坐标，g表示终点坐标，ob_t表示t时刻距离智能车最近障碍物的坐标，d_t表示t时刻智能车与终点的距离，d_t-1表示t-1时刻智能车与终点的距离，v_t表示t时刻智能车的线速度，Φ_t表示t时刻智能车和终点连线与自身朝向角之间的夹角。

步骤S2中所述的网络架构具体为：

本发明所指的深度强化学习架构模型如图6，包括智能体、环境、评论家模块、演员模块。

评论家模块包括价值网络目标函数L(ω)、价值网络q(s,a；ω)、目标价值网络q^T(s,a；ω)；演员模块包括策略网络π(a|s；θ)、策略网络目标函数J(θ)；智能体为智能车，t时刻智能车利用感知与定位系统从环境中观测到状态s_t，策略网络π(a|s；θ)接收s_t后输出一个关于动作A_t的高斯概率分布π(a_t|s_t；θ)，之后从该概率分布随机抽取确定动作a_t，动作a_t信息传递给价值网络q(s,a；ω)，与从环境中观测到的状态s_t组成形成q(s,a；ω)的输入；π(a|s；θ)确定的动作a_t信息同样传递给目标价值网络q^T(s,a；ω)，与从环境中观测到的状态s_t形成q^T(s,a；ω)的输入；根据高斯概率分布π(A_t|s_t；θ)与动作a_t信息计算出状态s_t下执行动作a_t的概率p_θ(a_t|s_t)，该概率参与演员模块的目标函数J(θ)的计算；π(a|s；θ)确定的动作a_t信息同样传递至智能车，得到t时刻窗口缩减的DWA算法的评价函数G_t(v,w)，G_t(v,w)完成对t时刻DWA算法的模拟轨迹集τ_t的评价，选出评分最高的模拟轨迹对应的速度-角速度组合(v_t,w_t)，速度-角速度信息传递至智能车运动控制模块，驱动智能车运动；至此，智能车位置、朝向角、周围障碍物分布等信息发生改变，环境转换至状态s_t+1，奖励函数也会根据改变的信息反馈给评论家模块奖励r_t；L(ω)、J(θ)两个目标函数的作用为更新q(s,a；ω)、π(a|s；θ)的网络参数。

步骤S4：训练集收集阶段：模拟智能体在随机生成的障碍物地图中运动，收集用于神经网络梯度下降的轨迹集ψ。

步骤S5：网络参数更新阶段：利用步骤S4收集到的轨迹集ψ更新各个网络架构参数。

步骤S4、S5中所指的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下：完成价值网络q(s,a；ω)、目标价值网络q^T(s,a；ω)、策略网络π(a|s；θ)的搭建后，利用多步时序差分算法(MTD)更新价值网络参数ω，利用近端策略优化算法(PPO)更新策略网络参数θ；设当前参数为ω_now、

θ_now,重复以下步骤更新q(s,a；ω)、π(a|s；θ)网络参数：

(2)在指定更新次数(Z)内，重复执行以下步骤：

用价值网络q(s,a；ω)计算出状态s_N ^I时的动作价值估计q_t：

q_t＝q(s_N ^I,a_N ^I；ω_now)

根据下式计算出L(ω)：

根据下计算出J(θ)：

更新价值网络、策略网络、目标价值网络的参数：

δ_N ^I＝r_N ^I+γq(s_N+1 ^I,a_N+1 ^I；ω_now)-q(s_N ^I,a_N ^I；ω_now)

步骤S6：判断当前网络架构下智能体的回合平均分是否大于阈值，如果是则终止循环，否则重新进入步骤S3进行新一代训练。

步骤S6中所指的回合平均分具体为：智能车从起点开始探索终点的过程中，每走一步所获得的密集奖励与最终的稀疏奖励累计和，密集奖励具体包括奖励函数中的R_t ^cost、R_t ^p、R_t ^vel、R_t ^θ、R_t ^ob五项，其中，密集奖励为智能车每走一步都会获得的反馈，稀疏奖励具体包括奖励函数中的R_t ^goal、R_t ^obs、R_t ^step，稀疏奖励为智能车到达终止状态(到达终点、与障碍物碰撞、超出回合最大步数)时给出的奖励。

为了验证本发明提出算法的有效性，将基于python3语言平台，随机初始化复杂静态障碍物环境具体如图1所示，智能车起点设置为(-25,25)，终点设置为(30,30)，黑色圆圈为随机初始化的障碍物，障碍物自身半径为0.5m，进行一系列对比实验包括：本发明所提出的自适应DWA算法、随机权重参数DWA算法、最优固定权重参数DWA算法，每种算法均在随机生成的地图环境测试6000次。

表1静态障碍物环境仿真实验表

可以看出自适应DWA算法的到达率相较于最优固定权重参数、随机权参数DWA算法分别提升了14.89％、37.57％；路径效率分别提升了2.79％、0.41％；时间效率分别提升了6.60％、2.36％。图3为自适应DWA算法随机静态障碍物环境下的一次仿真，图5为其相应的权重参数变化曲线。图4为最优固定权重参数DWA算法在相同环境下的仿真。本发明所提出的自适应DWA算法有效避开局部最优且到达终点,最优固定权重参数DWA算法陷入局部最优

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于深度强化学习的自适应动态窗口法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于深度强化学习的自适应动态窗口法，其特征在于，包括以下步骤：

步骤S1：建立DWA算法模型，根据阿克曼智能车确定包括：速度范围[v_min，v_max]、角速度范围[w_min，w_max]、加速度范围

角加速度范围

的参数及DWA算法的要素；

步骤S5：网络参数更新阶段：利用步骤S4收集到的轨迹集ψ更新各个网络架构参数；

2.根据权利要求1所述的基于深度强化学习的自适应动态窗口法，其特征在于：步骤S1中，所述DWA算法核心要素包括：速度空间约束、运动模型、评价函数：

速度空间约束V_v

(1)极限速度约束V_m：智能车可行速度不得超过极限范围：

V_m＝{(v，w)|v∈[v_min，v_max]∧w∈[w_min，w_max]}

式中[v_min，v_max]线速度范围，[w_min，w_max]为角速度范围；

v_c、w_c为当前线速度、角速度，

为线加速度范围，

dist(v，w)为速度-角速度组合(v，w)对应轨迹离障碍物的最近距离；

V_v＝V_m∩V_d∩V_a∩w_a

运动模型

x_t、y_t表示t时刻智能车的横纵坐标，

评价函数

G(v，w)＝σ(αheading(v，w)+ζdist(v，w)+γvel(v，w))

式中σ()为平滑函数，

表示智能车航向角，φ为智能车位置与目标点连线与x轴正方向夹角，dist(v，w)为模拟轨迹到最近障碍物的欧氏距离，vel(v，w)表示智能车的线速度大小，α、ζ、γ为三个权重系数。

3.根据权利要求2所述的基于深度强化学习的自适应动态窗口法，其特征在于：步骤S2当中：

所述动作与状态空间具体为：

定义神经网络的输出动作空间A为[α，ζ，γ]，经过激活函数式f(x)＝max(0.01，x)变换得到最终输出，与所述评价函数G(v，w)中的heading(v，w)、dist(v，w)、vel(v，w)三个子函数的权重参数相对应；状态空间S定义为与智能车距离由近及远的5个障碍物与智能车t时刻位置坐标(x^t，y^t)的相对横纵坐标，及智能车的朝向角

的组合，如图2所示，将其数值归一化，S为11维空间，如下式所示：

所述奖励函数具体为：

智能车t时刻奖励函数包括8部分，定义如下：

是智能车是否到达目标点给与的奖励：

是与智能车碰撞相关的奖励：

是与智能车花费的步数(step)相关的奖励：

是与智能车位置变化相关的奖励：

是与智能车线速度相关的奖励：

是与智能车朝向角相关的奖励：

是与智能车到最近障碍物距离相关的奖励：

式中

为-1，表示智能车每走一步需要的花费，p_t表示t时刻智能车坐标，g表示终点坐标，ob_t表示t时刻距离智能车最近障碍物的坐标，d_t表示t时刻智能车与终点的距离，d_t-1表示t-1时刻智能车与终点的距离，v_t表示t时刻智能车的线速度，Φ_t表示t时刻智能车和终点连线与自身朝向角之间的夹角；

所述评论家模块包括价值网络目标函数L(ω)、价值网络q(s，a；ω)、目标价值网络q^T(s，a；ω)；

所述智能体为智能车，t时刻智能车利用感知与定位系统从环境中观测到状态s_t，策略网络π(a|s；θ)接收s_t后输出一个关于动作A_t的高斯概率分布π(a_t|s_t；θ)，之后从该概率分布随机抽取确定动作a_t，动作a_t信息传递给价值网络q(s，a；ω)，与从环境中观测到的状态s_t组成形成q(s，a；ω)的输入；π(a|s；θ)确定的动作a_t信息同样传递给目标价值网络q^T(s，a；ω)，与从环境中观测到的状态s_t形成q^T(s，a；ω)的输入；根据高斯概率分布π(A_t|s_t；θ)与动作a_t信息计算出状态s_t下执行动作a_t的概率p_θ(a_t|s_t)，该概率参与演员模块的目标函数J(θ)的计算；π(a|s；θ)确定的动作a_t信息同样传递至智能车，得到t时刻窗口缩减的DWA算法的评价函数G_t(v，w)，G_t(v，w)完成对t时刻DWA算法的模拟轨迹集τ_t的评价，选出评分最高的模拟轨迹对应的速度-角速度组合(v_t，w_t)，速度-角速度信息传递至智能车运动控制模块，驱动智能车运动；至此，智能车位置、朝向角、周围障碍物分布的信息发生改变，环境转换至状态s_t+1，奖励函数也根据改变的信息反馈给评论家模块奖励r_t；L(ω)、J(θ)两个目标函数的作用为更新q(s，a；ω)、π(a|s；θ)的网络参数。

4.根据权利要求3所述的基于深度强化学习的自适应动态窗口法，其特征在于：在步骤S4和步骤S5中的训练集收集过程、轨迹集ψ、网络架构参数更新具体如下：

完成价值网络q(s，a；ω)、目标价值网络q^T(s，a；ω)、策略网络π(a|s；θ)的搭建后，利用多步时序差分算法MTD更新价值网络参数ω，利用近端策略优化算法PPO更新策略网络参数θ；设当前参数为ω_now、

θ_now，重复以下步骤更新q(s，a；ω)、π(a|s；θ)网络参数：

(1)实际观测到初始状态s₀，π(a|s；θ)输出一个关于动作A₀的高斯概率分布π(A₀|s₀；θ)，之后从该概率分布随机抽取确定动作a₀，智能车执行动作a₀，观测到奖励r₀、s₁，如此反复，直到观测到终止状态s_n，生成数据x⁰：[s₀ ⁰，a₀ ⁰，r₀ ⁰…，s_n-1 ⁰，a_n-1 ⁰，r_n-1 ⁰，s_n ⁰]，如此循环，直至生成i条数据集合x＝[x⁰，x¹，…，xⁱ]，i表示回合；

(2)在指定更新次数(Z)内，重复执行以下步骤：

从数据集合x内随机抽取出M_I(最小批次大小)个状态s_N ^I，之后遍历该M_I个状态s_N ^I：

用目标价值网络q^T(s，a；ω)计算出状态s_N ^I为起点的K步时序差分(TD)误差G_N ^I：