CN114489059B

CN114489059B - 基于d3qn-per移动机器人路径规划方法

Info

Publication number: CN114489059B
Application number: CN202210038938.7A
Authority: CN
Inventors: 袁帅; 高治军; 张莉莉; 张凤; 吕佳琪
Original assignee: Shenyang Jianzhu University
Current assignee: Shenyang Jianzhu University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2024-02-02
Anticipated expiration: 2042-01-13
Also published as: CN114489059A

Abstract

本发明公开了基于D3QN‑PER移动机器人路径规划方法，首先进行环境建模，设计完整实验环境；利用移动机器人上的单线激光雷达对所处于当前环境进行观察，并提取出移动机器人所处于当前环境中的所有障碍物信息S_o；利用移动机器人运动学模型，将全局坐标系下的移动机器人自身状态信息S_R、目标位置以及步骤S_1.1提取的所有障碍物信息S_o变换到局部坐标系下；移动机器人及障碍物质点处理，设计完整的实验环境；搭建深度强化学习方法的框架；将获取的环境状态s描述为24维向量；最后进行训练模型，获取路径规划策略，本发明即提升移动机器人自主避障的能力，有利于降低移动机器人全局运动规划难度，同时也延伸了移动机器人的应用范围，具备较强的科研和应用价值。

Description

基于D3QN-PER移动机器人路径规划方法

技术领域

本发明涉及应用深度学习和强化学习结合实现未知场景的路径规划技术领域，具体为基于D3QN-PER移动机器人路径规划方法。

背景技术

目前室内移动机器人主要采用基于已知室内环境模型的路径规划方法，如果环境模型和实际环境存在较大的误差会导致在路径规划过程中出现无法估计的影响，并且对环境建模需要耗费更多的资源。因此，研究对环境模型依赖程度低、自主学习适应室内环境的路径规划方法成为研究热点。

现今，人工智能领域取得一定进展，深度学习、增强学习、深度增强学习等各类人工智能方法被不断提出，并且逐步应用于实际工程领域。其中，深度增强学习结合了深度学习感知抽象能力与强化学习策略寻优能力，能通过端对端的学习方式来实现观测状态(激光雷达)作为算法的输入到决策动作输出的直接控制，训练机器人学习自主避障能力，在很多传统方法无法解决的问题上表现优异。这种端对端的方式对于自动控制系统、移动机器人控制、自动驾驶、游戏博弈等诸多问题的求解，具有天然的适用性。

发明内容

本发明的目的在于提供基于D3QN-PER移动机器人路径规划方法，

本发明是这样实现的：

基于D3QN-PER移动机器人路径规划方法，具体按以下步骤：

分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段，其特征在于：具体按以下步骤：

S₁:环境建模，设计完整实验环境；

S_1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察，并提取出移动机器人所处于当前环境中的所有障碍物信息S_o；

S_1.2:利用移动机器人运动学模型，将全局坐标系下的移动机器人自身状态信息S_R、目标位置以及步骤S_1.1提取的所有障碍物信息S_o变换到局部坐标系下；

S_1.3:移动机器人及障碍物质点处理，设计完整的实验环境；

在步骤S₁中，环境建模和设计完整实验场景的具体过程为：

S_1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S_1.1提取的所有障碍物状态信息变换到局部坐标系下，局部坐标系是以移动机器人自身为坐标原点，以移动机器人指向目标位置的方向为x轴正方向，垂直于x轴方向。

S_1.1.2:状态信息表示为一个数组[v_t，ω_t，d_t，θ_t]，其中，v_t和ω_t为t时刻移动机器人的速度和角速度信息，d_t和θ_t为t时刻移动机器人相对终点的距离和角度信息；

S_1.1.3:对移动机器人和障碍物做质点处理，设置安全距离。设计完整的实验场景，其中包括移动机器人和多个障碍物。开始训练时，初始化移动机器人、障碍物的位置，要求移动机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地，实现路径规划,在完整实验场景其中：d_o代表障碍物的半径大小，d_r代表机器人的半径大小，d_g代表目标点的半径大小；d_rg为移动机器人到目标位置的距离,且如式(1)和式(2)所示：

d_rg＝||d_r-d_g||₂ 式(1)

d_ro为移动机器人到障碍物的距离

d_ro＝||d_r-d_o||₂ 式(2)

(v_rx，v_ry)为移动机器人速度的x、y轴分量；θ_r代表移动机器人航向夹角。

进一步，S₂:搭建深度强化学习方法的框架；

S_2.1:将获取的环境状态s描述为24维向量；

S_2.2:将移动机器人的连续动作空间中对应的动作进行离散化，设计D3QN网络输出的决策离散动作空间A(s)；

S_2.3:设计移动机器人的学习目标，其内容为躲避当前环境中的障碍物，朝着目标前进，直到抵达目标停止,通过奖励函数R(s，a)评估是否完成学习目标，奖励回报函数R(s，a)由到达目标位置奖励、碰撞障碍物惩罚两部分组成；

S_2.4:确定探索策略，首先，Q值网络输出步骤2.2设置的动作对应的动作值函数Q(s，a)，通过相应的探索规则选择当前时刻的决策动作；

S_2.5:评价函数可以评估当下决策动作的好坏，指导移动机器人进行决策；利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数Q(s，a)，从而评估决策动作的累积奖励，获取最优的状态价值函数Q^*(s，a)；

在步骤S₂中搭建深度强化学习框架的具体过程为，将环境中障碍物状态信息s_o描述为24维向量；

S_2.1.1:决策离散动作空间a的集合为A，离散动作空间A由航向角θ_r和速度组成，航向角则集合A中有5个动作，包括向前移动，向左移动或左转，向右移动或右转；速度是包括角速度和线速度，设定前向动作v＝1.0m/s，ω＝0.3rad/s，其余四个动作的v＝0.03m/s，ω＝0.1rad/s。

S_2.1.2:设计学习框架及学习目标，通过奖励函数进行评估是否完成学习目标D3QN网络的奖励函数R(s，a)的形式如式(3)所示：

R(s，a)＝R₁+R₂ 式(3)

其中：

其中，R₁指到达目标点，K为安全检测阈值，K＝0.4m。若移动机器人执行动作a后未遇到障碍物与目标点的距离p_rg在0.4m范围之内，认定移动机器人到达目标点，给予+200奖励值；否则不给予任何奖励；

其中：

其中，R₂指碰撞障碍物，A为碰撞检测阈值，A＝0.2m，若移动机器人执行动作a后与障碍物的之间距离p_ro在0.2m范围之内，认定移动机器人与障碍物发生碰撞，给与-200的惩罚值；否则不给予任何惩罚，

S_2.1.3:本发明采用的探索策略是ε-greedy，将ε设定为0.3，如式(4)和式(5)所示：

ε_final＝0.1 式(5)

其中：epsilon初始值为1.0，随着时间递减，当epsilon＜0.1,结束贪婪策略；当epsilon＜0.3，随机选择动作，当0.3＜epsilon＜0.99，计算出当前状态对应的动作Q值，并选择最大Q(state，action)对应的动作a作为最优动作a；

S_2.1.4:评价函数可以评估当下决策动作的好坏，指导移动机器人进行决策。基于马尔可夫决策过程，可以得到评价函数Q(s，a)，如公式(6)；

由于上述算法会出现过度估计问题，因此利用Double DQN的思想，预测网络负责选择动作，目标网络计算目标Q值，得到新的状态价值函数Q(s，a)，评估决策动作的累积奖励，获取最优的状态价值函数Q^*(s，a)，如公式(7)最优状态价值函数：

在Double DQN基础上，为了解决奖励偏置问题，将神经内部中原本的状态价值函数Q(s，a)修改为两路，上路为状态价值函数V(s；θ，β),表示自身状态价值；下路为动作优势函数A(s，a；θ，a)，表示评价动作a好坏程度，最后将两个合并得到每个动作的Q(s，a；θ，α，β)；基于上述网络结构，可以得到更加精确的状态价值函数，其公式(8)如下：

一般将优势动作值函数A(s，a；θ，α)减去某个状态下的平均值，提高算法稳定性。

进一步，S₃:训练模型，获取路径规划策略

S_3.1:处理移动机器人自身状态信息及环境障碍物状态信息；

S_3.2:将训练过程中获取的数据作为四元组(s，s′，a，r)存储到经验回放池中，作为数据备份；

S_3.3:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样；

S_3.4:将S_3.3中数据送入S₂:搭建的D3QN模型中进行，计算目标Q值和时间差分误差TD-error，进而更新优先回放经验机制中优先级P；

S_3.5:通过随机梯度下降法计算损失函数，不断更新D3QN网络的权重参数；

S_3.6:循环训练，满足完成学习目标和设置回合数，获取训练好的路径规划策略，可以应用于在未知环境移动机器人的路径规划。

在步骤S₃中，训练模型，获取路径规划策略具体按以下步骤；

移动机器人自身状态信息和环境障碍物状态信息进行处理

S_3.1.1:将步骤S_1.1中提取的障碍物信息S_o，依次送入长短时记忆网络(Long ShortTerm Memory,LSTM)，使用遗忘门f_t进行重要信息筛选，然后输出门O_t将重要信息保存到隐藏层h中，在所有障碍物的状态信息(S_O1，S_O2，…S_On)输入后，转换为统一大小的状态向量s_o，再与移动机器人自身状态信息S_R合并为状态集s，输送至D3QN模型的输入端；

S_3.1.2:将训练过程中获取的数据作为四元组(s，s′，a，r)存储到经验回放池中移动机器人根据当前状态s，利用步骤1.3中探索策略ε-greedy在步骤设计的离散动作空间A(s)选择动作a，然后采用步骤四中奖励函数R(s，a)获取奖励值r进行动作评估，移动机器人切换到下一个状态s′，并将四元组信息(s，s′，a，r)存储到回放经验池中；

S_3.1.3:改进的优先回放机制采样对经验回放池进行小批量采样，然后通过改进的均匀采样和优先采样结合的优先经验回放机制选取mini-batch样本进行训练，优先级采样公式如式(9)：

确保样本的优先级与TD-error相关，确保最低优先级的转移概率也是非零的，如式(10)、式(11)和式(12)；

P_j＝|ε_j|+σ 式(11)

其中，指数α决定使用优先级的多少，当α等于0时是随机均匀采样；σ是防止TD接近为0时，缓存采样记忆单元的概率为0。

其中，ω_i为转移样本i的权重，β用于调节偏差程度，且线性递减。通过调节权重ω的大小保证优先更新重要性高的转移样本，同时能够保证以一些概率更新重要性较低的转移样本，保证样本的多样性，提高网络的学习效率；

S_3.1.4:计算目标Q值和时间差分误差，从而更新优先经验回放的优先级P，将采用步骤S_3.1.2提取的四元组信息(s，s′，a，r)输入到D3QN-PER模型进行训练，首先，利用DoubleDQN思想，预测网络负责选择动作，目标网络计算目标Q值，计算时间差分误差TD-error，进而更新优先级P，初始化时预测神经网络θ和目标神经网络参数θ^-相同，即θ^-＝θ；如式(13)和式(14)所示；

目标Q值：

时间差分误差TD-error：

S_3.1.5:计算损失函数，更新D3QN网络权重参数，根据预测网络和目标网络的输出Q值计算时间差分误差，搭建损失函数L(θ)如公式(10)下，采用随机梯度下降法迭代更新权重，预测网络中θ^-实时更新，目标网络中θ每隔C步更新；

其中，E表示数学期望，γ表示折损因子；

S_3.1.6:循环训练，完成学习目标和设置回合数，获取路径规划策略，不断循环以上过程，以累积奖励值reward最大化为目标，完成设计的学习目标，更新机器人的路径规划策略，直至设定回合数训练完成，得到最优动作值函数Q^*(s，a)对应的最优动作，获取训练好的移动机器人路径规划策略。

与现有技术相比，本发明的有益效果是：

1、本文采用DRL算法在室内移动机器人导航中的应用方法和提高其学习效率，随着移动机器人的广泛应用，如何让移动机器人面临存有静态障碍的未知室内场景下进行路径规划，提高其收敛速度和避障成功率，即提升移动机器人自主避障的能力，有利于降低移动机器人全局运动规划难度，同时也延伸了移动机器人的应用范围，具备较强的科研和应用价值。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是环境建模的流程图；

图2是移动机器人运动学模型图；

图3是移动机器人的完整实验环境图；

图4是搭建深度强化学习框架流程图；

图5是离散动作空间；

图6是Double DQN框架原理图；

图7是D3QN模型结构图；

图8是训练模型整体流程图；

图9是D3QN路径规划流程图；

图10是移动机器人状态信息处理图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，基于D3QN-PER移动机器人路径规划方法，具体按以下步骤：

S₁:环境建模，设计完整实验环境；如图1，

S_1.3:移动机器人及障碍物质点处理，设计完整的实验环境；

在步骤S₁中，环境建模和设计完整实验场景的具体过程为：

S_1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S_1.1提取的所有障碍物状态信息变换到局部坐标系下，局部坐标系是以移动机器人自身为坐标原点，以移动机器人指向目标位置的方向为x轴正方向，垂直于x轴方向。如图2；

d_rg＝||d_r-d_g||₂ 式(1)

d_ro为移动机器人到障碍物的距离

d_ro＝||d_r-d_o||₂ 式(2)

本实施例中，S₂:搭建深度强化学习方法的框架；如图4

S_2.1:将获取的环境状态s描述为24维向量；

R(s，a)＝R₁+R₂ 式(3)

其中：

ε_final＝0.1 式(5)

在Double DQN基础上，为了解决奖励偏置问题，将神经内部中原本的状态价值函数Q(s，a)修改为两路，上路为状态价值函数V(s；θ，β),表示自身状态价值；下路为动作优势函数A(s，a；θ，α)，表示评价动作a好坏程度，最后将两个合并得到每个动作的Q(s，a；θ，α，β)；基于上述网络结构，可以得到更加精确的状态价值函数，其公式(8)如下：

本实施例中，S₃:训练模型，获取路径规划策略

S_3.1:处理移动机器人自身状态信息及环境障碍物状态信息；

在步骤S₃中，训练模型，获取路径规划策略具体按以下步骤；如图8-图9；

移动机器人自身状态信息和环境障碍物状态信息进行处理

P_j＝|ε_j|+σ 式(11)

目标Q值：时间差分误差TD-error：

其中，E表示数学期望，γ表示折损因子；

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于D3QN-PER移动机器人路径规划方法，分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段，其特征在于：具体按以下步骤：

S₁:环境建模，设计完整实验环境;

S_1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察，并提取出移动机器人所处于当前环境中的所有障碍物信息；

S_1.2:利用移动机器人运动学模型，将全局坐标系下的移动机器人自身状态信息、目标位置以及步骤S_1.1提取的所有障碍物信息/>变换到局部坐标系下;

S_1.3:移动机器人及障碍物质点处理，设计完整的实验环境；

S₂:搭建深度强化学习方法的框架;

S_2.1:将获取的环境状态s描述为24维向量；

S_2.2:将移动机器人的连续动作空间中对应的动作进行离散化，设计D3QN网络输出的决策离散动作空间；

S_2.3:设计移动机器人的学习目标，其内容为躲避当前环境中的障碍物，朝着目标前进，直到抵达目标停止,通过奖励函数评估是否完成学习目标，奖励函数/>由到达目标位置奖励、碰撞障碍物惩罚两部分组成；

S_2.4:确定探索策略，首先，Q值网络输出步骤2.2设置的动作对应的去拟合状态价值函数，通过相应的探索规则选择当前时刻的决策动作；

S_2.5:评价函数可以评估当下决策动作的好坏，指导移动机器人进行决策;利用DoubleDQN的思想和Dueling DQN的结构搭建D3QN网络去拟合状态价值函数，从而评估决策动作的累积奖励，获取最优的状态价值函数/>；

S₃:训练模型，获取路径规划策略；

S_3.1:处理移动机器人自身状态信息及环境障碍物状态信息；

S_3.2:将训练过程中获取的数据作为四元组存储到经验回放池中，作为数据备份；

S_3.4:将 S_3.3中数据送入 S₂搭建的D3QN模型中进行，计算目标Q值和时间差分误差TD-error，进而更新优先回放经验机制中优先级P；

2.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法，其特征在于，在步骤S₁中，环境建模和设计完整实验场景的具体过程为：

S_1.1.1:将全局坐标系下的移动机器人自身状态、目标位置以及步骤S_1.1提取的所有障碍物状态信息变换到局部坐标系下，局部坐标系是以移动机器人自身为坐标原点，以移动机器人指向目标位置的方向为x轴正方向，垂直于x轴方向；

S_1.1.2:状态信息表示为一个数组，其中，/>和/>为t 时刻移动机器人的速度和角速度信息，/>和/>为t 时刻移动机器人相对终点的距离和角度信息;

S_1.1.3:对移动机器人和障碍物做质点处理，设置安全距离，设计完整的实验场景，其中包括移动机器人和多个障碍物，开始训练时，初始化移动机器人、障碍物的位置，要求移动机器人在当前场景下能避免互相碰撞和避开障碍物到达对应目的地，实现路径规划,在完整实验场景其中：代表障碍物的半径大小，/>代表机器人的半径大小，/>代表目标点的半径大小；/>为移动机器人到目标位置的距离,且如式（1）和式（2）所示：

式（1）

为移动机器人到障碍物的距离；

式（2）

为移动机器人速度的x、y轴分量；/>代表移动机器人航向夹角。

3.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法，其特征在于，在步骤S₂中搭建深度强化学习框架的具体过程为，将环境中障碍物状态信息描述为24维向量;

S_2.1.1:决策离散动作空间a的集合为A，离散动作空间A由航向角和速度组成，航向角，则集合A中有5个动作，包括向前移动，向左移动或左转，向右移动或右转；速度是包括角速度和线速度，设定前向动作/>=1.0m/s，/>=0.3rad/s，其余四个动作的/>=0.03m/s，/>=0.1rad/s；

S_2.1.2:设计学习框架及学习目标，通过奖励函数进行评估是否完成学习目标，D3QN网络的奖励函数的形式如式（3）所示：

式（3）

其中：；

其中，指到达目标点，K为安全检测阈值，K=0.4m，若移动机器人执行动作/>后未遇到障碍物与目标点的距离/>在0.4m范围之内，认定移动机器人到达目标点，给予+200奖励值；否则不给予任何奖励；

其中：

其中，指碰撞障碍物，A为碰撞检测阈值，A=0.2m，若移动机器人执行动作/>后与障碍物的之间距离/>在0.2m范围之内，认定移动机器人与障碍物发生碰撞，给与-200的惩罚值；否则不给予任何惩罚，

S_2.1.3:采用的探索策略是，将 /> 设定为 0.3 ，如式（4）和式（5）所示：

式（4）

式（5）

其中：epsilon初始值为1.0，随着时间递减，当,结束贪婪策略；当/>，随机选择动作，当/>，计算出当前状态对应的动作Q值，并选择最大对应的动作/>作为最优动作/>；

S_2.1.4:评价函数可以评估当下决策动作的好坏，指导移动机器人进行决策，基于马尔可夫决策过程，可以得到状态价值函数，如公式（6）；

式（6）

由于上述算法会出现过度估计问题，因此利用Double DQN的思想，预测网络负责选择动作，目标网络计算目标 Q 值，得到新的状态价值函数，评估决策动作的累积奖励，获取最优的状态价值函数/>，如公式（7）最优状态价值函数：

式（7）

在Double DQN基础上，为了解决奖励偏置问题，将神经内部中原本的状态价值函数修改为两路，上路为状态价值函数/>,表示自身状态价值;下路为动作优势函数，表示评价动作a好坏程度，最后将两个合并得到每个动作的/>；基于上述网络结构，可以得到更加精确的状态价值函数，其公式（8）如下：

式（8）

一般将优势动作值函数减去某个状态下的平均值，提高算法稳定性。

4.根据权利要求1所述的基于D3QN-PER移动机器人路径规划方法，其特征在于：在步骤S₃中，训练模型，获取路径规划策略具体按以下步骤；

移动机器人自身状态信息和环境障碍物状态信息进行处理

S_3.1.1:将步骤S_1.1中提取的障碍物信息，依次送入长短时记忆网络（Long Short TermMemory , LSTM），使用遗忘门/>进行重要信息筛选，然后输出门/>将重要信息保存到隐藏层/>中，在所有障碍物的状态信息/>输入后，转换为统一大小的状态向量/>，再与移动机器人自身状态信息/>合并为状态集/>，输送至D3QN模型的输入端；

S_3.1.2:将训练过程中获取的数据作为四元组存储到经验回放池中移动机器人根据当前状态/>，利用步骤1.3中探索策略/>在步骤设计的离散动作空间/>选择动作/>，然后采用步骤四中奖励函数/>获取奖励值/>进行动作评估，移动机器人切换到下一个状态/>，并将四元组信息/>存储到回放经验池中；

S_3.1.3:改进的优先回放机制采样对经验回放池进行小批量采样，然后通过改进的均匀采样和优先采样结合的优先经验回放机制选取 mini-batch 样本进行训练，优先级采样公式如式（9）：

式（9）

确保样本的优先级与TD-error相关，确保最低优先级的转移概率也是非零的，如式（10）、式（11）和式（12）；

式（10）

式（11）

其中，指数决定使用优先级的多少，当/>等于 0 时是随机均匀采样；/>是防止TD 接近为0时，缓存采样记忆单元的概率为0，

式（12）

其中，为转移样本/>的权重，/>用于调节偏差程度，且线性递减，通过调节权重/>的大小保证优先更新重要性高的转移样本，同时能够保证以一些概率更新重要性较低的转移样本，保证样本的多样性，提高网络的学习效率；

S_3.1.4:计算目标Q值和时间差分误差，从而更新优先经验回放的优先级P，将采用步骤S_3.1.2提取的四元组信息输入到D3QN-PER模型进行训练，首先，利用Double DQN思想，预测网络负责选择动作，目标网络计算目标 Q 值，计算时间差分误差TD-error，进而更新优先级P，初始化时预测神经网络/>和目标神经网络参数/>相同，即/>；如式（13）和式（14）所示；

目标Q值：式（13）

时间差分误差TD-error：

式（14）

S_3.1.5:计算损失函数，更新D3QN网络权重参数，根据预测网络和目标网络的输出Q值计算时间差分误差，搭建损失函数如公式（10）下，采用随机梯度下降法迭代更新权重，预测网络中/>实时更新，目标网络中/>每隔C步更新；

式（15）

其中，E表示数学期望，表示折损因子；

S_3.1.6:循环训练，完成学习目标和设置回合数，获取路径规划策略，不断循环以上过程，以累积奖励值reward最大化为目标，完成设计的学习目标，更新机器人的路径规划策略，直至设定回合数训练完成，得到最优状态价值函数对应的最优动作，获取训练好的移动机器人路径规划策略。