CN111141300A

CN111141300A - 基于深度强化学习的智能移动平台无地图自主导航方法

Info

Publication number: CN111141300A
Application number: CN201911312270.5A
Authority: CN
Inventors: 裴必超; 夏秀炎; 魏扬帆
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-12

Abstract

本发明公开了一种基于深度强化学习的智能移动平台无地图自主导航方法，在AI2‑THOR仿真框架中选取导航场景；构建基于Actor‑Critic框架的深度强化学习模型；根据动作概率分布进行移动平台与导航场景的动作交互，更新奖励值和当前观测信息，若当前观测信息与目标图像信息匹配，或达到最大移动步数，或连续采取动作数达到设定步数，则更新模型参数，否则继续动作交互；构建Actor‑Critic网络的损失函数，采用异步优势算法A3C训练更新深度强化学习模型；重复训练，直至训练步数达到设定阈值；获取实际导航场景的初始观测信息与目标图像，利用训练好的模型进行导航，规划智能移动平台的导航路径。本发明无需提前构建环境模型，即可实现显示环境的导航。

Description

基于深度强化学习的智能移动平台无地图自主导航方法

技术领域

本发明涉及视觉导航领域，特别涉及一种基于深度强化学习的智能移动平台无地图自主导航方法。

背景技术

导航是智能移动平台的基本能力之一，是智能移动平台能够在环境中实现自主移动的前提。传统的导航技术往往要求移动平台携带大量的传感器去感知环境，预先构建导航场景的全局地图，该方法在环境发生变化时需要重新建立连通模型，实用性不强。结合深度神经网络的强化学习作为一种自学习能力较强的机器学习方法，相较于传统的导航策略，非常符合智能移动平台合理处理各种环境情况的需求。但采用深度强化学习策略的问题在于两个方面。首先，尽管一些论文认为在真实环境中使用深度强化学习对模型进行训练是可行的，但这种方法代价高昂，因为在真实环境中训练智能移动平台实体是非常耗时的，且有效数据集采集难度大。其次，视觉导航领域的标准强化学习算法往往针对某一个目标来训练模型的，在更换导航目标时，模型失效，需要重新训练，即目标被硬编码为网络参数的一部分，这种做法时间成本高，且通用性低。

发明内容

本发明的目的在于提供一种基于深度强化学习的智能移动平台无地图自主导航方法。

实现本发明目的的技术解决方案为：一种基于深度强化学习的智能移动平台无地图自主导航方法，包括如下步骤：

步骤1，在AI2-THOR仿真框架中选取导航场景，并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制；

步骤2，以移动平台对导航环境的观测信息与目标图像信息为输入，以在动作空间上的概率分布与当前状态的价值为输出，构建基于Actor-Critic框架的深度强化学习模型，进行动作预测；

步骤3，根据动作概率分布进行移动平台与导航场景的动作交互，更新奖励值和当前观测信息，若当前观测信息与目标图像信息匹配，或达到最大移动步数，或连续采取动作数达到设定步数，则进入步骤4；否则转至步骤2；

步骤4，根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数，采用异步优势算法A3C训练更新深度强化学习模型；

步骤5，重复步骤2～4，继续针对该目标图像进行训练，直至训练步数达到设定阈值；

步骤6，获取实际导航场景的初始观测信息与目标图像，利用训练好的模型进行导航，规划智能移动平台的导航路径。

与现有技术相比，本发明的显著优点在于：1)通过将导航目标作为网络输入，避免了导航目标更换时模型的重训练问题，且训练好的模型对未经过训练的目标有较高的泛化性能；2)采用AI2-THOR仿真环境训练模型，训练样本的采集更高效，且训练好的模型经过少量参数微调后能直接应用于现实环境，模型的迁移性迁移性与实用性更高；3)采用LSTM层记录历史决策，提升了模型的收敛能力，训练好的模型能以更少的步数到达导航目标。

附图说明

图1为本发明基于Actor-Critic框架的深度强化学习模型的结构图。

图2为本发明智能移动平台执行动作后当前观测信息改变的示意图。

图3为本发明基于深度强化学习的无地图自主导航方法的流程图。

具体实施方式

下面结合附图和具体实施例，对本发明方案作进一步的说明。

基于深度强化学习的智能移动平台无地图自主导航方法，包括如下步骤：

步骤1，在AI2-THOR仿真框架中选取导航场景，并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制，具体步骤包括：

步骤11，在仿真框架中选取导航场景，网格化该导航场景，设置移动平台的初始位置为导航场景中的任一网格点；

步骤12，利用移动平台上搭载的RGB相机拍摄图片，将该图片作为初始观测信息；

步骤13，从导航场景中选取导航的目标图像；

步骤14，设置移动平台的动作空间，包括：前进、后退、左转、右转，其中前进步长、后退步长与网格单位尺寸相关，假设网格单位尺寸为0.5米，则前进步长、后退步长均为0.5米，而左转、右转角度均设置为90°；

步骤15，设置移动平台与导航环境交互时的奖惩机制，移动平台在规定步数内到达导航目标，则奖励值为10.0分；发生碰撞时，奖励值为-0.1分；除这两种情况外，每一时间步奖励值为-0.01分。

步骤2，以移动平台对导航环境的观测信息与目标图像信息为输入，以在动作空间上的概率分布与当前状态的价值为输出，构建基于Actor-Critic框架的深度强化学习模型，如图1所示；

步骤21，将当前状态观测信息与目标图像信息，分别输入到两个通道，这两个通道构成网络结构、参数完全一致的孪生层，每一通道包含深度神经网络ResNet-50与一个全连接层，对全连接层输出的两个特征向量进行堆叠，再输入一个全连接层得到融合特征向量；

步骤22，将融合特征向量输入到Actor-Critic网络，所述Actor-Critic网络包含两个全连接层、一个LSTM层与一个softmax层，融合特征向量经过一个全连接层、一个LSTM层后分别输入到一个softmax层与一个全连接层，得到动作概率分布与当前状态的价值，其中得到动作概率分布的是softmax层，得到当前状态价值的是全连接层。

步骤3，根据贪心算法在动作概率分布中选取概率值最大的动作，作为移动平台的执行动作，对移动平台与导航场景进行交互，根据步骤1中设计的奖惩机制计算奖励值，同时更新当前观测信息，如图2所示，若当前观测信息与目标图像信息匹配，或达到最大移动步数，或连续采取动作数达到设定步数t_max，则进入步骤4；否则转至步骤2，预测下一步的动作概率分布和状态价值。

步骤4，根据步骤3最终获得的奖励值和状态价值计算优势值，进而确定Actor-Critic网络的损失函数，然后计算损失函数对网络参数的梯度，并采用异步优势算法A3C来训练并更新深度强化学习模型的参数；

步骤41，计算优势值Advantage，公式为：

Advantage＝R_t-V(s_t,g_t|θ_v)

其中，s_t、g_t、r_t为离散时刻t下移动平台的当前观测值、导航目标、获取的奖励值，θ_v为Critic网络的参数，V(s_t,g_t|θ_v)为Critic网络输出的当前状态的价值，R_t表示从时间步t开始直到移动平台到达目标或累计时间步达到t_max步的累计奖励，s_t+1为执行动作a_t后的下一时刻状态观测值，s_t+k为执行k步动作后更新的状态观测值，且k不大于t_max，γⁱ为采取第i步动作获得奖励的折扣率；

步骤42，构建Actor网络与Critic网络的损失函数分别为loss_π、loss_v，进而确定总损失函数loss_total；

loss_π＝lnπ(s_t,g_t|θ_π)(R_t-V(s_t,g_t|θ_v))+βH(π(s_t,g_t|θ_π))

loss_v＝(R_t-V(s_t,g_t|θ_v))²

loss_total＝loss_π+loss_v

H(π(s_t,g_t|θ_π))＝-∑π(s_t,g_t|θ_π).ln(clip(π(s_t,g_t|θ_π)，10^-20，1))

其中θ_π为Actor网络参数，π(s_t,g_t|θ_π)为在离散时刻t下Actor网络输出的概率值最大的动作，为防止过早地收敛到局部最优，强化学习方法通常将策略π的交叉熵H加入到待优化的损失函数中，其中β用于控制熵正则项的强度，clip函数用于将π(s_t,g_t|θ_π)的值限制在10^-20～1的范围内；

步骤43，计算Actor网络与Critic网络的损失函数loss_π、loss_v对θ_π、θ_v的梯度Δ_π与Δ_v：

步骤44，采用异步优势算法A3C训练更新深度强化学习模型的参数，更新公式为：

累积局部策略网络梯度dθ_π：

dθ_π←dθ_π+ηΔ_π

累积局部价值网络梯度dθ_v：

dθ_v←dθ_v+ηΔ_v

其中η为学习率，使用上述累积梯度，更新拥有相同结构的全局神经网络的模型参数，同时局部网络再从全局网络中获取最新的模型参数值。

实施例

为了验证本发明方案的有效性，在图3中给出了本发明的基于深度强化学习的视觉导航方法工作流程图，并基于AI2-THOR仿真框架进行了如下仿真实验，具体工作步骤如下：

1)选取导航场景living_room_08.h5，在该场景的导航目标集中选取目标号为92、135、193、228共计4个目标，分别在4个线程上进行训练，每个线程上的训练在多核CPU上同时进行，随机初始化移动平台的初始位置，并获取该位置上的初始观测信息，按步骤14、步骤15对奖惩机制与动作空间进行设置；

2)构建基于Actor-Critic框架的深度强化学习模型，模型网络参数信息如下，首先，当前观测信息与目标图像信息尺寸均为300*400*3，通过在ImageNet数据集上预训练的深度神经网络ResNet-50提取图像特征，截断ResNet-50的softmax层，输出为2048维的特征向量，再输入到512维的全连接层；其次，在特征融合层对两个512维特征进行维度叠加，经特征融合层输出512维特征融合向量；然后，将融合特征送入场景特定层，场景特定层中，包含512维的全连接层、512维的LSTM层，将LSTM层生成的512维特征同时输入两个网络层，维度为4的softmax层与维度为1的全连接层，其中softmax层用于产生动作，它输出的是在动作空间上的概率分布，在动作选择上采用贪心策略，而维度为1的全连接层输出的当前状态的价值，则用于衡量从任意状态到达给定目标的能力；

3)按步骤3、4、5对基于Actor-Critic框架的深度强化学习模型进行训练，设置最大移动步数为5000步，设置连续采取动作数t_max为5，设置奖励折扣率γ为0.99，设置用于控制熵正则项的强度β为0.01，设置学习率η在10^-4～10^-2之间按训练步数线性递减，设置最大训练步数阈值为3000000，RMSProp优化器α值、ε值分别为0.99与0.1，优化器延迟率设置为0.9；

4)深度强化学习模型训练完成后，模型能根据真实场景中的目标图像与当前观测图像输出智能移动平台应该采取的动作，移动平台在真实场景中采取该动作，获得奖励，且当前观测值变为新观测值，若新观测值与目标图像不匹配，则重复上述过程，直至导航到目标图像；

在使用4个线程训练完模型后，在训练目标与不在训练集上的未见目标(254号)上的评估结果如表1所示：

表1训练完成后的模型在五个目标上的评估结果

表1显示，在异步优势算法A3C的基础上添加LSTM层的算法性能在到达每一个评估目标所需平均步数为14.88，比采用原始A3C算法获得的数据16.95低，因此算法性能也更优越。