CN113985870B

CN113985870B - 一种基于元强化学习的路径规划方法

Info

Publication number: CN113985870B
Application number: CN202111217714.4A
Authority: CN
Inventors: 杜刚; 周小林; 张永刚; 姜晓媛; 邹卓; 郑立荣
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2023-10-03
Anticipated expiration: 2041-10-19
Also published as: CN113985870A

Abstract

本发明属于人工智能算法技术领域，具体为一种基于元强化学习的路径规划方法。本发明方法包括：用matlab模拟环境，生成起始点、障碍物、目标点，为模型训练提供模拟环境；将元学习与强化学习结合构成元强化学习模型，设计经验池、卷积神经网络、目标值函数、损失函数等；对元强化学习模型进行训练，用reptile算法进行参数更新。仿真结果表明，基于元强化学习的模型能快速找出最佳路径。

Description

一种基于元强化学习的路径规划方法

技术领域

本发明属于自动驾驶技术领域，具体涉及一种基于元强化学习的路径规划方法。

背景技术

自动驾驶是当前研究的热点，也是未来汽车发展的趋势。自动驾驶汽车是传感器，网络通信，导航定位，人工智能等学科综合体，其中导航走位、路径规划、行为决策和车辆控制是自动驾驶的关键技术。例如路径规划就是运动控制领域的研究热点之一。针对路径规划问题，已经提出多种方法，如遗传算法、蚁群算法、粒子群算法等。这些算法虽然相对于传统算法来说，克服后者操作复杂、求解效率低的缺点，但仍然不能满足路径规划的操作和求解高效率要求。

元学习算法具有强大的泛化能力，能够利用有限的先验知识，实现在新任务上的快速泛化。强化学习能通过智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标。本发明结合二者的这两个特点，研发出一种元强化学习算法，并将其应用于路径规划，可以在更少的时间内寻找出最佳路径。

发明内容

本发明的目的在于提出一种能快速寻找出最佳路径的基于元强化学习的路径规划方法，

本发明提出的基于元强化学习的路径规划方法，具体步骤为：

S1、将经验池D和Q网络的参数w初始化，目标Q-target网络(王鼎新.基于改进Q-learning算法的AGV路径规划[J].电子设计工程,2021,29(04):7-10+15.)的参数设为随机值，其中经验池D用来存放经验。

S2、用matlab进行仿真(封硕,舒红,谢步庆.基于改进深度强化学习的三维环境路径规划[J].计算机应用与软件,2021,38(01):250-255.)，生成环境，障碍物和目标点。

S3、Q网络和目标Q-target网络采用相同结构的卷积神经网络CNN进行计算f(s,a,w^*)≈Q^*(s,a)，其中f(s,a,w^*)表示卷积神经网络的计算函数，Q^*(s,a)表示Q网络或目标Q-target网，络，w^*表示参数w或参数s和a表示当前状态和当前状态对应的动作，输出向量为Q^*(s,a)。

S4、采用ε-greedy策略(A.Ray and H.Ray,"Proposingε-greedy ReinforcementLearning Technique to Self-Optimize Memory Controllers,"2021 2ndInternational Conference on Secure Cyber Computing and Communications(ICSCCC),2021,pp.318-323)：以1-ε的概率选择最优动作a_t＝max_a Q(S_t,a),S_t为当前状态，以ε的概率选取随机动作a_t。

S5、执行动作a_t，得到当前奖励r_t，下一时刻状态S_t+1，将(S_t,a_t,r_t,S_t+1)加入经验池，更新经验池，其中奖励函数r(S)根据不同应用场景设定。

S6、从经验池中随机采样一批数据，计算变更函数和目标值，包括以下子步骤：

S61、采样的一批数据即为一批(S_t,a_t,r_t,S_t+1)四元组；

S62、为了克服深度强化学习的过估计问题，改进目标值，增大最优值与次优值的差距；为了详细表达，定义了变更函数来建模，变更函数表示如下：

S63、用目标网络Q-target计算目标值V(s)，S_T为最终的状态：

其中，γ为折扣因子，可以根据实际情况设置成合适的常数；一般地，选取γ＝0.1-0.5；实施例中选取γ＝0.1；

S64、计算目标值公式如下：

y_t＝V(s)×B(S_t,a_t,r_t,S_t+1)。

S7、构建损失函数与梯度更新，包括以下子步骤：

S71、构建损失函数：

式中，为目标网络输出，Q(s,a,w)是当前网络输出，计算当前状态-动作对的值函数；

S72、对损失函数loss求导，进行梯度下降，采用元学习中的reptile算法更新参数w和从而训练网络，公式如下：

这里使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新，得到第一步更新后的权重参数/>然后进行第二步梯度更新：/>其中ε为一个较小的可设置的超参数；一般地，取ε＝0.01-0.2，实施例中取ε＝0.1。

本发明优点：将元学习与强化学习结合成的元强化学习，充分利用了元学习泛化能力强，能快速适应新任务的特点，能快速寻找出最佳路径，为解决汽车路径规划提供了新方案。

附图说明

图1是一种基于元强化学习的模型构建流程示意图。

图2是一种基于元强化学习的路径规划流程图。

具体实施方式

下面结合实施例进一步说明本发明的技术方案。

本实施例选取自动导引车(AutomatedGuided Vehicle，AGV)，AGV找到一条从起始位置到达预定目标位置的最优路径且AGV在行进过程中不与障碍物发生碰撞，包括以下步骤：

S1、将经验池D和Q网络的参数w初始化，目标Q-target网络的参数设为随机值，其中经验池D用来存放经验。

S2、用matlab进行仿真，生成环境，障碍物和目标点。

S31、本实施例采用的卷积神经网络CNN具有3个完全相同的卷积模块，每个卷积模块有卷积层，批量归一化层和池化层，卷积层有64个卷积核，卷积核尺寸是3×3，批量归一化层采用BatchNorm2d进行数据的归一化处理，避免因为数据过大而导致网络性能的不稳定，接着采用Relu激活函数，池化层的池化窗口尺寸为2×2，步长为2，按这种方式设计3个完全相同的卷积模块并连接在一起，在完成第一个卷积神经网络状态提取之后将第一个提取的特征输入第二个进一步进行状态提取，依次类推到第3层完成状态提取。

S4、采用ε-greedy策略：以1-ε的概率选择最优动作a_t＝max_a Q(S_t,a),S_t为当前状态，以ε的概率选取随机动作a_t，这里ε＝0.1。

S5、执行动作a_t，得到当前奖励r_t，下一时刻状态S_t+1，将(S_t,a_t,r_t,S_t+1)加入经验池，更新经验池，其中奖励函数r(S)在该场景下为：

S61、采样的一批数据即为一批(S_t,a_t,r_t,S_t+1)四元组；

式中，选取b＝0.8；

S63、用目标网络Q-target计算目标值V(s)，S_T为最终的状态：

式中，选取γ＝0.1；

S64、计算目标值公式如下：

y_t＝V(s)×B(S_t,a_t,r_t,S_t+1)。

S7、构建损失函数与梯度更新，包括以下子步骤：

S71、构建损失函数：

S72、对损失函数loss求导，进行梯度下降，采用元学习中的reptile算法更新参数w和公式如下：

这里使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新，得到第一步更新后的权重参数/>然后进行第二步梯度更新：/>其中ε＝0.1；仿真结果表明，基于元强化学习的路径规划方法，能较好地为AGV规划出最佳路径。

以上所述地实施例仅是为了更好地阐述本发明提出地方法与装置，从而帮助读者更好地理解本发明原理，该实施例以及参数设置应被理解为本发明地保护范围并不局限于这样地特例称述和实施例。本领域的技术工作人员可以根据本发明公开的以上技术做出其它各种不脱离本发明实质范围的其它各种具体变形与组合，这些变形与组合仍然属于本发明的保护范围之内。

Claims

1.一种基于元强化学习的路径规划方法，其特征在于，具体步骤如下：

S1、将经验池D和Q网络的参数w初始化，目标Q-target网络的参数设为随机值，其中经验池D用来存放经验；

S2、用matlab进行仿真，生成环境、障碍物和目标点；

S3、Q网络和目标Q-target网络采用相同结构的卷积神经网络CNN进行计算f(s，a，w^*)≈Q^*(s，a)，其中f(s，a，w^*)表示卷积神经网络的计算函数，Q^*(s，a)表示Q网络或目标Q-target网，络，w^*表示参数w或参数s和a表示当前状态和当前状态对应的动作，输出向量为Q^*(s，a)；

S4、采用ε-greedy策略：以1-ε的概率选择最优动作a_t＝max_a Q(S_t，a)，S_t为当前状态，以ε的概率选取随机动作a_t；

S5、执行动作a_t，得到当前奖励r_t，下一时刻状态S_t+1，将(S_t，a_t，r_t，S_t+1)加入经验池，更新经验池，其中奖励函数r(S)根据不同应用场景设定；

S61、采样的一批数据即为一批(S_t，a_t，r_t，S_t+1)四元组；

S62、为了克服深度强化学习的过估计问题，改进目标值，增大最优值与次优值的差距；定义变更函数来建模，变更函数表示如下：

S63、用目标网络Q-target计算目标值V(s)，S_T为最终的状态：

其中，γ为折扣因子，根据实际情况设置成合适的常数；

S63、计算目标值公式如下：

y_t＝V(s)×B(S_t，a_t，r_t，S_t+1)；

S7、构建损失函数与梯度更新，包括以下子步骤：

S71、构建损失函数：

式中，为目标网络输出，Q(s，a，w)是当前网络输出，计算当前状态-动作对的值函数；

使用φ代表w或利用SGD或Adam对loss函数求导进行梯度更新，得到第一步更新后的权重参数/>然后进行第二步梯度更新：/>其中，ε为一个较小的可设置的超参数。

2.根据权利要求1所述的基于元强化学习的路径规划方法，其特征在于，采用的卷积神经网络CNN具有3个完全相同的卷积模块，每个卷积模块有卷积层、批量归一化层和池化层；卷积层有64个卷积核，卷积核尺寸是3×3；批量归一化层采用BatchNorm2d进行数据的归一化处理，接着采用Relu激活函数；池化层的池化窗口尺寸为2×2，步长为2，按这种方式设计3个完全相同的卷积模块并连接在一起，在完成第一个卷积神经网络状态提取之后将第一个提取的特征输入第二个进一步进行状态提取，依次类推到第3层完成状态提取。