CN113609786B

CN113609786B - 一种移动机器人导航方法、装置、计算机设备和存储介质

Info

Publication number: CN113609786B
Application number: CN202110992812.9A
Authority: CN
Inventors: 方强; 王熙童; 徐昕; 曾宇俊
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-08-19
Anticipated expiration: 2041-08-27
Also published as: CN113609786A

Abstract

本申请涉及一种移动机器人导航方法、装置、计算机设备和存储介质。所述方法包括：通过特征提取模块对目标点图像和场景图像提取特征得到当前状态的状态特征；通过逆强化学习模块解算预先给定的专家轨迹，得到奖励函数；通过A3C强化学习网络中的策略网络输出机器人的预测执行动作，通过值网络得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；对A3C强化学习网络和奖励网络进行训练，得到训练好的移动机器人导航模型用于导航。本发明可提高机器人室内导航的准确率和效率，泛化能力强。

Description

一种移动机器人导航方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于奖励网络和逆强化学习的移动机器人导航方法、装置、计算机设备和存储介质。

背景技术

移动机器人导航是机器人最基础的任务之一，各种机器人要能投入实际应用，必须具备完善的导航能力。传统导航任务下的机器人会配备RGB相机或深度相机、雷达、GPS等多种传感器，有的甚至依赖于高精度的先验地图等，需要耗费较大的人力物力成本，近年来通过强化学习实现的机器人导航只需要视觉传感器就能达到较好的效果，降低了对其它传感器的依赖，已经成为研究的热点问题。然而，环境的复杂性与不确定性、强化学习自身的数据低利用与难泛化性、任务的多样性都对强化学习的机器人导航提出了挑战。

传统的机器人导航技术主建立在在对整个环境场景理解的基础上，需要通过利用外部的辅助设备与自身的传感器来实现精确地位姿求解，但是一般需要依赖设备且复杂度和代价较大，同时难以适应环境的变化。

利用强化学习的机器人导航技术又带有强化学习本身的一些阻碍，训练效率偏低，对数据的利用率较为低下，需要与环境进行大量的交互才能得到较好的模型；对未知的环境很难对奖励函数进行较好的设置，对不同场景的泛化性能较弱。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高训练效率和泛化能力的基于奖励网络和逆强化学习的移动机器人导航方法、装置、计算机设备和存储介质。

一种移动机器人导航方法，所述方法包括：

获取机器人的目标点图像和当前采集的场景图像，将所述目标点图像和所述场景图像输入到移动机器人导航模型中；所述移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3C强化学习网络；所述A3C强化学习网络包括策略网络和值网络；

通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征；

通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到所述奖励函数；所述最优策略为预先给定的专家轨迹，所述奖励函数中包括权值参数；

将所述状态特征输入所述奖励网络，得到网络奖励值；

将所述网络奖励值和所述状态特征输入所述A3C强化学习网络，通过所述策略网络根据所述状态特征输出机器人的预测执行动作，通过所述值网络根据所述状态特征和所述预测执行动作得到预测值函数，在执行动作得到下一状态后，根据所述当前状态、所述下一状态和所述预测执行动作计算TD误差，得到第一损失函数；

根据所述状态特征和所述权值参数，得到专家奖励值，根据所述网络奖励值和所述专家奖励值得到第二损失函数；

根据所述第一损失函数对所述A3C强化学习网络进行训练，根据所述第一损失函数和所述第二损失函数对所述奖励网络进行训练，得到训练好的移动机器人导航模型；

通过训练好的移动机器人导航模型进行移动机器人的导航。

在其中一个实施例中，还包括：所述特征提取模块包括两个ResNet-50网络层，一个混合层和一个全连接层；

通过两个所述ResNet-50网络层分别对所述目标点图像和所述场景图像进行特征提取；

将所述ResNet-50网络层输出的向量输入所述混合层，通过所述混合层进行混合得到混合向量；

将所述混合向量输入所述全连接层，通过所述全连接层处理后得到当前状态的状态特征。

在其中一个实施例中，还包括：通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型为：

max_R[min_a{(P_s,π*(s)-P_s,a)(I-γP_π*)R}-λ|R|]

s.t.(P_s,π*(s)-P_s,a)(I-γP_π*)R≥0

|R|≤R_max

其中，R表示奖励函数；P_s,a表示由p(s′|s,a)所组成的向量，p(s′|s,a)表示在状态s下采取动作a到达状态s′的概率；π*表示所述最优策略；I-γP_π*为中间变量；λ为预设的系数参数；R_max为所述奖励函数的值的预设阈值。

在其中一个实施例中，还包括：将所述状态特征输入所述奖励网络，得到网络奖励值为：

r(s)＝(F(φ(s))|θ_r)

其中，r(s)表示所述网络奖励值，φ(s)表示所述状态特征；θ_r表示奖励网络的参数；F(·)表示将状态映射到奖励值的函数。

在其中一个实施例中，还包括：根据所述状态特征和所述权值参数，得到专家奖励值为：

r_e(s)＝φ(s)·w

其中，r_e(s)表示所述专家奖励值；w表示所述权值参数。

在其中一个实施例中，还包括：根据所述网络奖励值和所述专家奖励值，采用Huber损失计算得到第二损失函数。

在其中一个实施例中，还包括：所述奖励网络为一个三层神经网络。

一种移动机器人导航装置，所述装置包括：

状态采集模块，用于获取机器人的目标点图像和当前采集的场景图像，将所述目标点图像和所述场景图像输入到移动机器人导航模型中；所述移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3C强化学习网络；所述A3C强化学习网络包括策略网络和值网络；

特征提取模块，用于通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征；

逆强化学习模块，用于通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到所述奖励函数；所述最优策略为预先给定的专家轨迹，所述奖励函数中包括权值参数；

奖励网络模块，用于将所述状态特征输入所述奖励网络，得到网络奖励值；

A3C强化学习网络模块，用于将所述网络奖励值和所述状态特征输入所述A3C强化学习网络，通过所述策略网络根据所述状态特征输出机器人的预测执行动作，通过所述值网络根据所述状态特征和所述预测执行动作得到预测值函数，在执行动作得到下一状态后，根据所述当前状态、所述下一状态和所述预测执行动作计算TD误差，得到第一损失函数；

训练和使用模块，用于根据所述状态特征和所述权值参数，得到专家奖励值，根据所述网络奖励值和所述专家奖励值得到第二损失函数；根据所述第一损失函数对所述A3C强化学习网络进行训练，根据所述第一损失函数和所述第二损失函数对所述奖励网络进行训练，得到训练好的移动机器人导航模型；通过训练好的移动机器人导航模型进行移动机器人的导航。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将所述状态特征输入所述奖励网络，得到网络奖励值；

通过训练好的移动机器人导航模型进行移动机器人的导航。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述状态特征输入所述奖励网络，得到网络奖励值；

通过训练好的移动机器人导航模型进行移动机器人的导航。

上述移动机器人导航方法、装置、计算机设备和存储介质，通过特征提取模块对目标点图像和场景图像进行特征提取得到当前状态的状态特征；通过逆强化学习模块解算预先给定的专家轨迹，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到奖励函数；将状态特征输入奖励网络，得到网络奖励值输入A3C强化学习网络，通过A3C强化学习网络中的策略网络输出机器人的预测执行动作，通过值网络得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；根据第一损失函数对A3C强化学习网络进行训练，根据第一损失函数和第二损失函数对奖励网络进行训练，得到训练好的移动机器人导航模型；通过训练好的移动机器人导航模型进行移动机器人的导航。本发明利用最大边际的逆强化学习，根据当前状态的状态特征和奖励函数的权值参数，得到专家奖励值，在尽可能减小计算量的同时将方法从低维表格式状态空间进行扩展，从而能够适用于大规模状态空间与动作空间的任务，提高机器人室内导航的准确率和效率；同时提出采用奖励网络的方法对奖励函数进行估计，以提升算法的泛化能力。

附图说明

图1为一个实施例中移动机器人导航方法的流程示意图；

图2为一个实施例中移动机器人导航方法的整体框架图；

图3为另一个实施例中移动机器人导航方法训练log对比，其中a为log整体趋势图，b为稳定后局部放大图；

图4为一个实施例中成功率和实际路径长度随迭代次数变化曲线，其中a为导航成功率随迭代次数变化曲线，b为实际路径步数随迭代次数变化曲线；

图5为一个实施例中移动机器人导航装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的移动机器人导航方法，可以应用于如下应用环境中。其中，终端执行一种移动机器人导航方法，通过特征提取模块对目标点图像和场景图像进行特征提取得到当前状态的状态特征；通过逆强化学习模块解算预先给定的专家轨迹，得到奖励函数；通过A3C强化学习网络中的策略网络输出机器人的预测执行动作，通过值网络得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；对A3C强化学习网络和奖励网络进行训练，得到训练好的移动机器人导航模型用于导航。其中，终端可以但不限于是各种个人计算机、笔记本电脑和平板电脑。

在一个实施例中，如图1所示，提供了一种移动机器人导航方法，包括以下步骤：

步骤102，获取机器人的目标点图像和当前采集的场景图像，将目标点图像和场景图像输入到移动机器人导航模型中。

移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3C强化学习网络；A3C强化学习网络包括策略网络和值网络。

本发明的框架主要由三部分组成:第一部分是通用的特征提取部分，采用resnet-50对训练场景进行特征提取；第二部分是奖励网络和逆强化学习部分，通过当前状态计算奖励反馈，作为强化学习网络的一部分输入；第三部分是一个A3C网络，通过强化学习的训练得到智能体的行动策略。整个流程如图2所示，以机器人当前所在位置为图2中所示的起始点。

步骤104，通过特征提取模块对目标点图像和场景图像分别进行特征提取后混合得到当前状态的状态特征。

网络的特征提取部分主要作用是对当前状态图像进行特征提取。此部分由两个ResNet-50网络层，一个混合层，一个全连接层所构成，残差网络利用'shortcutconnection'的结构，有效解决了深层网络中梯度在传递中下降为0而导致的网络难以训练的问题，能有效地提取图像的特征。ResNet-50网络的输入是3*224*224像素的图像，经过不断的卷积、池化、非线性激活等操作得到2048维的向量；两个ResNet-50网络得到的2048维向量通过混合层合并为一个4096维的向量；再经过全连接层后得到特征向量作为当前状态。其中，ResNet-50网络提前在ImageNet上进行了预训练，在特征提取过程中参数进行固定。

步骤106，通过逆强化学习模块，根据目标点图像和场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到奖励函数。

最优策略为预先给定的专家轨迹，奖励函数中包括权值参数。

逆强化学习通过专家示教数据来学习奖励函数。对于一个简单的任务场景，我们假设其状态空间和动作空间已知，状态转移概率确定，且有确定的最优策略π*(专家策略)。于是，根据强化学习与最优策略的定义可知，对于状态空间的任意一点，最优策略π*所对应的状态值函数和状态-动作值函数都是最大的，即不低于其它任何策略的值。

在实际计算时，如果考虑每一个不同的策略，将会带来巨大的计算量，造成规划难以快速响应；另一方面，不同的策略本身之间具有较大的性能差异，如果以相同的权重考虑之也并不合理，因此合适的解决方案是只考虑次优策略，即除去最优策略以外的所有策略中效果最好的策略。通过比较最优与次优之间的差距并最大化，就能为线性规划提供额外的约束。

步骤108，将状态特征输入奖励网络，得到网络奖励值。

逆强化学习的算法存在一定局限性，能够准确导航到的目标点都以提供相应的专家轨迹通过逆强化学习解算奖励函数为基础，对于没有专家轨迹的其他目标点，难以应用奖励函数得到同样的较好的导航结果，即模型的泛化能力不强。针对基于逆强化学习的室内机器人导航算法存在的泛化性能不足的问题设计添加了奖励网络，研究了以监督学习的方式学习奖励函数参数的解算方法，从而能够仅从图像中获取较为准确的奖励函数，进一步提升模型在不同场景和不同目标点下的导航能力，加强模型的泛化性能。

奖励网络可以视为一个简单的三层神经网络，将从混合层提取的混合特征直接作为奖励网络的输入，而网络的输出即为一个奖励值，策略网络和值网络利用奖励值评估当前状态与动作，计算误差损失更新自身参数的同时，将loss损失函数返回作为奖励网络更新梯度的一部分，而来自专家轨迹所解算的参数w和当前状态的积即为专家奖励值，与网络的奖励值的差距同样作为网络更新的一部分损失。

步骤110，将网络奖励值和状态特征输入A3C强化学习网络，通过策略网络根据状态特征输出机器人的预测执行动作，通过值网络根据状态特征和预测执行动作得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数。

强化学习部分采用A3C(Asynchronous advantage actor-critic)网络为主体。A3C网络结构分为全局网络与子网络，两部分网络完全一致且共享一个网络模型。A3C网络在训练时采用异步训练的策略，每一个线程分配一个任务，多个线程同时开启训练，相互之间互不干扰，独立运行，每个线程利用梯度更新自身参数，完成一个批次的训练后，所有梯度再相加来更新全局网络的参数。这种训练方式能够消除数据的相关性，同时还能提升训练速度。对于每一个单独的子网络，也就是一个分线程，其网络构成是基本的Actor-Critic网络，由一个值网络与一个策略网络组成，值网络估计每一个状态动作的价值，策略网络则根据当前状态选择最优的动作，训练中以TD误差来更新两个网络的参数。

步骤112，根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数。

TD误差传给奖励网络作为loss损失的一部分；另一方面，来自专家轨迹的w参数和当前状态特征φ(s)的乘积即为此状态下的专家奖励值。评估网络奖励值和专家奖励值的误差，将作为奖励网络的另一部分损失。

步骤114，根据第一损失函数对A3C强化学习网络进行训练，根据第一损失函数和第二损失函数对奖励网络进行训练，得到训练好的移动机器人导航模型。

步骤116，通过训练好的移动机器人导航模型进行移动机器人的导航。

上述移动机器人导航方法中，通过特征提取模块对目标点图像和场景图像进行特征提取得到当前状态的状态特征；通过逆强化学习模块解算预先给定的专家轨迹，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到奖励函数；将状态特征输入奖励网络，得到网络奖励值输入A3C强化学习网络，通过A3C强化学习网络中的策略网络输出机器人的预测执行动作，通过值网络得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；根据第一损失函数对A3C强化学习网络进行训练，根据第一损失函数和第二损失函数对奖励网络进行训练，得到训练好的移动机器人导航模型；通过训练好的移动机器人导航模型进行移动机器人的导航。本发明利用最大边际的逆强化学习，根据当前状态的状态特征和奖励函数的权值参数，得到专家奖励值，在尽可能减小计算量的同时将方法从低维表格式状态空间进行扩展，从而能够适用于大规模状态空间与动作空间的任务，提高机器人室内导航的准确率和效率；同时提出采用奖励网络的方法对奖励函数进行估计，以提升算法的泛化能力。

在其中一个实施例中，还包括：特征提取模块包括两个ResNet-50网络层，一个混合层和一个全连接层；通过两个ResNet-50网络层分别对目标点图像和场景图像进行特征提取；将ResNet-50网络层输出的向量输入混合层，通过混合层进行混合得到混合向量；将混合向量输入全连接层，通过全连接层处理后得到当前状态的状态特征。

在其中一个实施例中，还包括：通过逆强化学习模块，根据目标点图像和场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型为：

max_R[min_a{(P_s,π*(s)-P_s,a)(I-γP_π*)R}-λ|R|]

s.t.(P_s,π*(s)-P_s,a)(I-γP_π*)R≥0

|R|≤R_max

其中，R表示奖励函数；P_s,a表示由p(s′|s,a)所组成的向量，p(s′|s,a)表示在状态s下采取动作a到达状态s′的概率；π*表示最优策略；I-γP_π*为中间变量；λ为预设的系数参数；R_max为奖励函数的值的预设阈值。

在实际的算法设计求解时，采用python下的cvxopt库来进行求解，这是在研究中常用的用于解决凸优化或线性规划的方法。针对不同的任务，只需要提供当前的专家策略或是在专家策略下产生的专家轨迹，即可得到不同状态下的奖励值。

在其中一个实施例中，还包括：将状态特征输入奖励网络，得到网络奖励值为：

r(s)＝(F(φ(s))|θ_r)

其中，r(s)表示网络奖励值，φ(s)表示状态特征；θ_r表示奖励网络的参数；F(·)表示将状态映射到奖励值的函数。

在其中一个实施例中，还包括：根据状态特征和权值参数，得到专家奖励值为：

r_e(s)＝φ(s)·w

其中，r_e(s)表示专家奖励值；w表示权值参数。

在其中一个实施例中，还包括：根据网络奖励值和专家奖励值，采用Huber损失计算得到第二损失函数。

在其中一个实施例中，还包括：奖励网络为一个三层神经网络。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体实施例中，奖励网络的具体计算过程如下：首先采样不同场景下目标点的少量专家轨迹，然后选择随机的起始点与确定的目标点开启训练，训练时随机初始化所有网络层的参数。图像经resnet-50提取后在混合层进行组合，混合层的特征φ(s)再输入A3C网络，策略网络根据当前状态选择动作a，值函数对当前状态s和动作a做出状态-动作值估计V。同时，混合层的特征φ(s)输入奖励网络，网络根据当前状态特征φ(s)输出奖励值

r(s)＝(F(φ(s))|θ_r)

当智能体执行动作a得到下一状态s’后，可以计算td误差：

δ(s)＝Q(s,a)-V(s)＝r+γV(s′)-V(s)

策略网络更新公式为：

值网络更新公式为：

同时，td误差传给奖励网络作为loss损失的一部分；另一方面，来自专家轨迹的w参数和当前状态特征φ(s)的乘积即为此状态下的专家奖励值：

r_e(s)＝φ(s)·w

评估r和r_e的误差，将作为奖励网络的另一部分损失：

loss₂＝L(r(s)，r_e(s))

此部分损失可以通过以下几种选择设计：

1.L2损失，即均方误差(mean square error，MSE)，是神经网络训练的常用损失函数：

L(r(s)，r_e(s))＝||r(s)-r_e(s)||

2.Huber损失，是一个带参损失函数，能增强L2损失对离群点的鲁棒性：

3.标准差损失：

L(r(s)，r_e(s))＝stdev(r(s)-r_e(s))

经实验验证，采用Huber损失计算loss2，能够具有较好的鲁棒性，其中δ取1，则奖励网络的整体loss损失为：

loss_r＝loss₁+loss₂＝η·δ(s)+L(r(s)，r_e(s))

奖励网络更新公式为：

在另一个具体实施例中，在AI2-Thor室内仿真环境中进行实验验证。如图3是通过tensorboard可视化的深度学习算法训练log。其中，带点曲线、虚线和实线曲线分别代表普通强化学习、基于逆强化学习的算法、结合奖励网络的逆强化学习算法。曲线代表了在训练过程中，智能体每个批次下实际经历的路径步数，从图3a可以直观的看出，基于逆强化学习的算法所用步数一直最少，且最快趋于稳定，而普通强化学习最慢。从图3b观察稳定后的曲线，可以看出基于奖励网络的导航算法虽然在前期训练过程中步数比单一的基于逆强化学习的算法长，然而最终模型趋于稳定后两者的效果几乎一致，且都要优于基于普通强化学习的方法，同样证明了奖励网络模型的有效性。

如图4所示是在训练过程中每隔一定次数保存的模型所进行的实验，绘制的智能体导航成功率与实际路径长度随训练迭代次数变化的关系曲线。其中，带点曲线是逆强化学习方法的结果，普通实线是强化学习的结果。可以看出，随着迭代次数的增加，模型的导航能力逐渐提升，无论在导航成功率还是路径长度上效果都越来越好，且相比来看，结合逆强化学习的算法在实际训练时学习的速度越快，能在更少的训练次数下就得到比普通强化学习效果更好的模型。同时它能更早地达到收敛，且收敛后的效果更好，无论是在导航成功率方面，还是实际所需的最大步数方面都比强化学习的baseline效果好，证明了基于逆强化学习的算法通过专家轨迹解算奖励函数，能够给智能体在策略决策时提供更好的指导，有利于机器人高效的完成导航任务。

为验证模型的泛化能力，在训练时采用的场景环境下，针对未训练过的目标点，用训练好的普通强化学习模型和结合奖励网络的逆强化学习模型分别对其进行导航测试。目标点的选取通过采样抽取，选取的目标点分布在训练点周围，距离训练点不同的距离，同时基本涵盖场景的各个区域和方位以及场景中的主要物体。

表1结合奖励网络导航模型泛化能力测试

如表1所示是基于奖励网络的导航模型在训练场景下的泛化能力测试结果，其中，step loss是测试实际路径步数与最优路径的步数之间的差距，SPL是一个综合了成功率和路径误差的综合值，值越大，说明模型的导航效果越好。可以看出，在新的任务环境下，相比普通强化学习方法，奖励网络的逆强化学习方法无论是在导航成功率、与最优路径的误差步数、SPL值上都表现更好，都有5％—10％左右的提升，证明了算法在提升模型泛化能力方面的有效性。

在一个实施例中，如图5所示，提供了一种移动机器人导航装置，包括：状态采集模块502、特征提取模块504、逆强化学习模块506、奖励网络模块508、A3C强化学习网络模块510和训练和使用模块512，其中：

状态采集模块502，用于获取机器人的目标点图像和当前采集的场景图像，将目标点图像和场景图像输入到移动机器人导航模型中；移动机器人导航模型包括特征提取模块、逆强化学习模块、奖励网络和A3C强化学习网络；A3C强化学习网络包括策略网络和值网络；

特征提取模块504，用于通过特征提取模块对目标点图像和场景图像分别进行特征提取后混合得到当前状态的状态特征；

逆强化学习模块506，用于通过逆强化学习模块，根据目标点图像和场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型，求解得到奖励函数；最优策略为预先给定的专家轨迹，奖励函数中包括权值参数；

奖励网络模块508，用于将状态特征输入奖励网络，得到网络奖励值；

A3C强化学习网络模块510，用于将网络奖励值和状态特征输入A3C强化学习网络，通过策略网络根据状态特征输出机器人的预测执行动作，通过值网络根据状态特征和预测执行动作得到预测值函数，在执行动作得到下一状态后，根据当前状态、下一状态和执行动作计算TD误差，得到第一损失函数；

训练和使用模块512，用于根据状态特征和权值参数，得到专家奖励值，根据网络奖励值和专家奖励值得到第二损失函数；根据第一损失函数对A3C强化学习网络进行训练，根据第一损失函数和第二损失函数对奖励网络进行训练，得到训练好的移动机器人导航模型；通过训练好的移动机器人导航模型进行移动机器人的导航。

特征提取模块504还用于通过两个ResNet-50网络层分别对目标点图像和场景图像进行特征提取；将ResNet-50网络层输出的向量输入混合层，通过混合层进行混合得到混合向量；将混合向量输入全连接层，通过全连接层处理后得到当前状态的状态特征。

逆强化学习模块506还用于通过逆强化学习模块，根据目标点图像和场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，最优策略动作的值函数不低于其他任一动作的值函数、奖励函数的值在预设阈值内为约束条件，构建线性规划模型为：

max_R[min_a{(P_s,π*(s)-P_s,a)(I-γP_π*)R}-λ|R|]

s.t.(P_s,π*(s)-P_s,a)(I-γP_π*)R≥0

|R|≤R_max

奖励网络模块508还用于将状态特征输入奖励网络，得到网络奖励值为：

r(s)＝(F(φ(s))|θ_r)

训练和使用模块512还用于根据状态特征和权值参数，得到专家奖励值为：

r_e(s)＝φ(s)·w

其中，r_e(s)表示专家奖励值；w表示权值参数。

训练和使用模块512还用于根据网络奖励值和专家奖励值，采用Huber损失计算得到第二损失函数。

关于移动机器人导航装置的具体限定可以参见上文中对于移动机器人导航方法的限定，在此不再赘述。上述移动机器人导航装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种移动机器人导航方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种移动机器人导航方法，其特征在于，所述方法包括：

将所述状态特征输入所述奖励网络，得到网络奖励值；

通过训练好的移动机器人导航模型进行移动机器人的导航。

2.根据权利要求1所述的方法，其特征在于，通过所述特征提取模块对所述目标点图像和所述场景图像分别进行特征提取后混合得到当前状态的状态特征包括：

所述特征提取模块包括两个ResNet-50网络层，一个混合层和一个全连接层；

3.根据权利要求1所述的方法，其特征在于，通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型包括：

通过所述逆强化学习模块，根据所述目标点图像和所述场景图像，以奖励函数对应的最优策略与次优策略的差距最大化为优化目标，所述最优策略动作的值函数不低于其他任一动作的值函数、所述奖励函数的值在预设阈值内为约束条件，构建线性规划模型为：

max_R[min_a{(P_s,π*(s)-P_s,a)(I-γP_π*)R}-λ|R|]

s.t.(P_s,π*(s)-P_s,a)(I-γP_π*)R≥0

|R|≤R_max

其中，R表示奖励函数；P_s,a表示由p(s′|s,a)所组成的向量，p(s′|s,a)表示在状态s下采取动作a到达状态s′的概率；π*表示所述最优策略；I为单位矩阵，I-γP_π*为中间变量，是值函数V的一部分；λ为预设的系数参数；R_max为所述奖励函数的值的预设阈值。

4.根据权利要求3所述的方法，其特征在于，将所述状态特征输入所述奖励网络，得到网络奖励值包括：

将所述状态特征输入所述奖励网络，得到网络奖励值为：

r(s)＝(F(φ(s))|θ_r)

5.根据权利要求4所述的方法，其特征在于，根据所述状态特征和所述权值参数，得到专家奖励值包括：

根据所述状态特征和所述权值参数，得到专家奖励值为：

r_e(s)＝φ(s)·w

其中，r_e(s)表示所述专家奖励值；w表示所述权值参数。

6.根据权利要求5所述的方法，其特征在于，根据所述网络奖励值和所述专家奖励值得到第二损失函数包括：

根据所述网络奖励值和所述专家奖励值，采用Huber损失计算得到第二损失函数。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述奖励网络为一个三层神经网络。

8.一种移动机器人导航装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。