CN115805595A

CN115805595A - 机器人导航方法、装置及杂物清理机器人

Info

Publication number: CN115805595A
Application number: CN202310089889.4A
Authority: CN
Inventors: 张天楚; 刘岱远
Original assignee: Baiyang Times Beijing Technology Co ltd
Current assignee: Baiyang Times Beijing Technology Co ltd
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-03-17
Anticipated expiration: 2043-02-09
Also published as: CN115805595B

Abstract

本申请公开一种机器人导航方法、装置及杂物清理机器人，本申请预先采用端到端强化学习算法训练并构建实现机器人导航所需的决策模型，当对机器人导航时，获取环境图像信息，将环境图像信息输入决策模型，由决策模型根据环境图像信息输出运动参数，并将运动参数传输至机器人的运动控制部件，由运动控制部件控制机器人的运动执行部件执行与运动参数相匹配的运动，相应使机器人趋近基于环境图像信息所确定的视野范围内的导航目标。申请人发现，在视觉导航领域，端到端暗含着可以摒除传统模块化的建图、识别、规划的方式，本申请基于端到端强化学习算法本质是将这些功能相互融合并包含在模型网络的隐藏空间中，因此可提升导航系统的鲁棒性及准确度。

Description

机器人导航方法、装置及杂物清理机器人

技术领域

本申请属于人工智能应用技术领域，尤其涉及一种机器人导航方法、装置及杂物清理机器人。

背景技术

目前，机器人导航解决方案通过模块化的方式，将基于SLAM（SimultaneousLocalization and Mapping，同步定位与建图）等技术的建图，以及路径规划、目标检测等分开，其中，SLAM具体为无给定定位情况下构建环境地图的技术。

这样的方式会导致导航系统缺少鲁棒性，每个模块都有其准确度的上限，如果多个模块串联起来，那么整个系统的准确度上限将会是每个模块准确度上限的乘积，就会大打折扣。其次，建图是为导航服务的，然而申请人发现，在模块化的实现方式中，建图模块输出的是人们认为地图应该有的样子（如俯视布局图），但是这种形态并不一定是对导航最有利的形态，例如，在一条笔直的走廊里，用SLAM方法建立的地图缺乏特征点，导致导航过程中依赖于特征点匹配结果的定位容易偏移，从而使得导航任务失败或准确度不足。

发明内容

有鉴于此，本申请提供一种机器人导航方法、装置及杂物清理机器人，用于通过采用端到端强化学习算法训练机器人的智能体，提升导航的鲁棒性和准确度，并通过对机器人进行结构改进，使其达到更好的杂物清理效果。具体技术方案如下：

一种机器人导航方法，包括：

获取基于环境感知所得的环境图像信息；

将所述环境图像信息输入预先构建的决策模型，由所述决策模型根据所述环境图像信息输出以对所述机器人进行导航为目标的运动参数；其中，所述决策模型通过预先采用端到端强化学习算法进行模型训练而得到；

将所述运动参数传输至所述机器人的运动控制部件，以由所述运动控制部件控制所述机器人的运动执行部件执行与所述运动参数相匹配的运动，相应使所述机器人趋近基于所述环境图像信息所确定的视野范围内的导航目标。

可选的，所述获取基于环境感知所得的环境图像信息，包括：

获取设置于所述机器人上的RGB相机所采集的环境图像信息。

可选的，所述决策模型根据所述环境图像信息输出以对所述机器人进行导航为目标的运动参数，包括：

将所述环境图像信息所体现的当前环境状态的状态空间映射到观测空间；

将所述观测空间包括的环境状态参数输入至策略函数；

所述策略函数根据状态转移函数确定当前动作采用动作空间中各个可选动作时分别触发的下一步环境状态，根据奖励函数确定当前动作采用动作空间中各个可选动作触发相应的下一步环境状态时分别对应的奖励，并基于确定的奖励，输出当前动作采用动作空间中各个可选动作的概率分布；

其中，所述策略函数、所述状态转移函数和所述奖励函数分别为所述决策模型提供的函数。

可选的，所述机器人的机身包括机械小车和机械臂，所述机械臂用于在所述机器人运动至导航目标时，基于抓取算法抓取所述导航目标，并将抓取的导航目标放入所述机械小车提供的容纳空间内；

所述运动参数包括所述机械小车的车轮转速、机器人转向角度、机器人前进速度和目标运动位置中的至少部分参数。

可选的，采用端到端强化学习算法进行模型训练得到所述决策模型的过程，包括：

在仿真环境中采用端到端强化学习算法进行模型训练，得到所述决策模型。

可选的，所述在仿真环境中采用端到端强化学习算法进行模型训练，得到所述决策模型，包括：

构建所述机器人的工作环境的仿真模型；

基于所述机器人的智能体与所述仿真环境的交互，根据设定的奖励函数训练所述机器人的智能体，以拟合所述智能体的策略函数，完成训练的所述智能体作为所述决策模型。

可选的，所述机器人的工作环境为室内场景的杂物清理环境；

所述构建所述机器人的工作环境的仿真模型，包括：

通过三维扫描方式或三维建模方式，分别构建室内场景模型和杂物模型；

基于机器人描述文件构建机器人模型；

根据预设的室内场景、机器人、杂物间的空间位置关系，将所述室内场景模型、所述杂物模型和所述机器人模型分别表征的室内场景、杂物和机器人进行关联，得到所述机器人的工作环境的仿真模型。

一种机器人导航装置，包括：

获取模块，用于获取基于环境感知所得的环境图像信息；

导航决策模块，用于将所述环境图像信息输入预先构建的决策模型，由所述决策模型根据所述环境图像信息输出以对所述机器人进行导航为目标的运动参数；其中，所述决策模型通过预先采用端到端强化学习算法进行模型训练而得到；

导航实施模块，用于将所述运动参数传输至所述机器人的运动控制部件，以由所述运动控制部件控制所述机器人的运动执行部件执行与所述运动参数相匹配的运动，相应使所述机器人趋近基于所述环境图像信息所确定的视野范围内的导航目标。

一种杂物清理机器人，包括：

机身，所述机身包括用于基于导航带动所述机器人进行运动的机械小车，和与所述机械小车相连用于清理环境中杂物的机械臂；

环境感应部件，用于基于环境感知输出环境图像信息；

运动执行部件，设置于所述机身上，用于执行与运动参数相匹配的运动以带动所述机器人在所处环境内运动；

运动控制部件，设置于所述机身上，用于接收运动参数并基于接收的运动参数控制所述运动执行部件执行与所述运动参数相匹配的运动；

存储器，设置于所述机身上，用于至少存储一组计算机指令集；

处理器，设置于所述机身上，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集实现如上文任一项所述的机器人导航方法。

可选的，所述环境感应部件包括设置于所述机械臂上的RGB相机，所述运动控制部件包括设置于所述机械小车的控制器。

本申请提供的机器人导航方法、装置及杂物清理机器人，预先采用端到端强化学习算法训练并构建实现机器人导航所需的决策模型，当对机器人进行导航时，获取基于环境感知所得的环境图像信息，将环境图像信息输入决策模型，由决策模型根据环境图像信息输出以对机器人进行导航为目标的运动参数，并将运动参数传输至机器人的运动控制部件，由运动控制部件控制机器人的运动执行部件执行与运动参数相匹配的运动，相应使机器人趋近基于环境图像信息所确定的视野范围内的导航目标。申请人研究发现，在视觉导航领域，端到端暗含着可以摒除传统模块化的建图、识别（目标检测）、规划的方式，本申请基于端到端强化学习算法本质是将导航所涉及的建图、识别、规划等各方面功能相互融合并包含在模型网络的隐藏空间中，且包含于隐藏空间的建图以对导航最有利的形态为目标，因此可有效提升导航系统的鲁棒性及准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请提供的仿真模型中仿真环境的一个示例性截图；

图2是本申请提供的模型训练时智能体与仿真环境的交互流程示意图；

图3是本申请提供的对机器人进行软硬件部署的部署方式示例图；

图4是本申请提供的机器人导航方法的流程示意图；

图5是本申请提供的机器人导航装置的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请人研究发现，现有的导航解决方案会导致导航系统缺少鲁棒性且导航准确度不足。另外，当前的杂物清理机器人（如，家用垃圾清理机器人）仅有小车底盘，没有更复杂的执行机构，针对室内地面环境比较复杂的情况，例如有儿童的家庭地面上常常会堆放大量杂物，当前的杂物清理机器人遇到地面上体积稍大的杂物时只能绕行，不能起到有效的清理杂物的作用。且当前的杂物清理机器人一般采用雷达建图，然而单线雷达只能探测到一个二维平面上的障碍物信息，对于纵向不规则形状的物体（如家具）会造成误判，而多线雷达又价格昂贵，因此现有导航解决方案对于建图的解决并不理想。

基于此，本申请实施例公开一种机器人导航方法、装置及杂物清理机器人，以克服现有导航解决方案或杂物清理机器人存在的至少部分不足，该方法、装置及杂物清理机器人，可以但不限于应用于室内地面的杂物清理场景。

本申请的机器人导航方法，基于预先构建的决策模型来对机器人进行导航，其中，该决策模型通过预先采用端到端强化学习算法进行模型训练而得到。

优选的，本申请实施例通过在仿真环境中，采用端到端强化学习算法进行模型训练，来得到所述决策模型。

不同于监督学习训练中需使用提前标注好的大批量样本，强化学习的过程要求智能体用当前策略网络和环境互动来获得样本，一般训练一个智能体需要几千甚至上万局的数据，而如果是让真实机器人去和真实环境互动来产生这些数据，将会非常低效而且成本高昂。基于此，本申请将室内场景与机器人一并映射到仿真引擎中来交互，以提升模型训练效率并降低成本。

在仿真环境中，本申请实施例采用端到端强化学习算法训练得到决策模型的过程，进一步包括：

（一）构建机器人工作环境的仿真模型。

其中，可通过如下处理过程，实现构建机器人工作环境的仿真模型：

11）通过三维扫描方式或三维建模方式，分别构建室内场景模型和杂物模型；

12）基于机器人描述文件构建机器人模型；

13）根据预设的室内场景、机器人、杂物间的空间位置关系，将所述室内场景模型、所述杂物模型和所述机器人模型分别表征的室内场景、杂物和机器人进行关联，得到所述机器人的工作环境的仿真模型。

以下提供构建机器人工作环境的仿真模型的一个示例：

该示例采用3D扫描仪扫描当前的室内场景，生成mesh文件（即表征室内场景模型）。同时给机器人建立URDF文件，作为机器人模型，其中，URDF文件，全称是Unified RobotDescription Format，为一种机器人描述文件。杂物的模型通过3D建模软件生成。

在此基础上，在仿真软件中分别加载室内场景、机器人及杂物各自的模型文件，并通过指定室内场景、机器人及杂物之间的空间位置关系，将它们联系起来，构建为一个整体的仿真模型，即机器人工作环境的仿真模型。

（二）基于机器人的智能体与仿真环境的交互，根据设定的奖励函数训练智能体，以拟合智能体的策略函数，完成训练的智能体作为所述决策模型。

如图1所示，示例性提供了仿真模型中仿真环境的一张截图，展示了3D扫描的办公室场景、机器人模型、地面杂物及相互间的交互。

本申请中，机器人的机身包括机械小车和机械臂，其中，机械小车的小车底盘赋予机械臂更灵活的空间移动能力，机械臂赋予小车更强大的（杂物清理）执行能力，采用这种形态的机器人可有效应对大部分家庭地面的杂物情况，能够达到更好地清理地面杂物的效果。

在对机器人的智能体进行训练，以得到实现导航所需的决策模型时，本申请将机器人导航任务（如地面杂物清理场景下的导航任务）建模为一个部分可观测的马尔科夫决策过程，其状态空间S包含环境的室内场景，杂物的位置，机器人的位置、速度和朝向等，动作空间包含小车左右轮的转速、机器人转向角度，机器人前进速度等中的部分或全部信息。

其中，决策模型提供有奖励函数、策略函数和状态转移函数。

奖励函数用于根据机器人当前状态和下一步状态以及当前动作，给予智能体一个奖励，是人为设计的，不是环境的固有属性，目的是让智能体朝着奖励增大的方向学习。示例性的，在本申请中奖励函数r(s,a,s')被设计为：机器人每一步的r(s,a,s')值为一个较小的负数，作为该步花费/耗费时间所付出的代价，奖励函数值为负数相当于是一个时间惩罚项，目的在于期望智能体不仅能完成任务，还能在最短的时间内完成；而当s'为机器人走到地面杂物附近时，则将r(s,a,s')的取值赋予为一个较大的正数，作为完成部分任务时的积极奖励。

策略函数P(a|O(s))则是指在当前观测O(s)下，智能体决定执行动作a的概率，用来描述智能体的策略，以用于在导航时对机器人运动过程需采用的每一步动作进行决策。由于是部分可观测，输入给策略函数的并不是状态空间中的全部状态，而是将状态空间进行观测后所映射到的观测空间O（s），即O（s）具体表示在当前环境状态s下做出观测后得到的观测空间。策略函数P(a|O(s))可以通过神经网络来拟合，也是强化学习算法将要求得的解。可选的，训练算法可以采用PPO（Proximal Policy Optimization，近端策略优化）算法，其是一种策略梯度求解算法。

状态转移函数T(s'|s,a)用于体现机器人与场景在仿真引擎中的交互，即在当前状态下执行某动作会怎么改变状态，具体表示在执行动作a后，环境从状态s转移到状态s’的概率。

训练时智能体与仿真环境的交互流程如图2所示，其中，智能体（代表机器人）与仿真环境的交互，具体为智能体与场景的仿真模型在仿真引擎中的交互，本实施例中，仿真引擎包含渲染引擎和物理引擎，具体采用渲染引擎的渲染功能对任务输入如环境的RGB图像进行渲染，输出则是机械小车的左右轮转速等运动参数，需要物理引擎来执行与运动参数匹配的运动并且计算小车在环境中的位移和旋转量。

在完成对机器人智能体的训练得到实现导航所需的决策模型后，可通过进一步执行相关部署工作，使得机器人具备地面杂物清理等场景下的导航功能，部署时，可选的，结合参见图3提供的部署方式的一个示例，可以通过ROS（Robot Operating System，机器人操作系统）软件及相关ROS接口实现硬件之间的通信协同，涉及到的硬件可以包括RGB相机（如realsense相机），机械臂（如6自由度机械臂），机器小车（如可采用搭载了Nvidia板卡的麦克纳姆四轮小车的小车底盘）。其中，相机可以安装在机械臂上，机械臂底座安装在机器小车上。训练好的策略网络（即决策模型）部署在机器小车上的Nvidia板卡里。在此基础上，导航过程中，小车真实RGB相机采集的图像被输送给智能体决策模型的神经网络，由其输出小车的左右轮转速等运动参数并通过ROS接口发送给小车底盘，小车底盘中的控制器会发送相应信号将这些参数同步给电机，以使机器人达到所指示转速等需要的运动状态。

进一步参见图4示出的机器人导航方法，本申请实施例公开的机器人导航方法，具体包括如下的各处理步骤：

步骤401、获取基于环境感知所得的环境图像信息。

具体可获取设置于机器人上的RGB相机（如设置于机器人机械臂上的RGB相机）所采集的环境图像信息，以便后续基于环境图像信息执行实现导航所需的相关处理（如，建图、目标识别等）。

与现有技术采用雷达进行环境感知及相关处理的方式相比，本申请采用RGB相机感知环境并进行建图、目标识别等处理，信息更为丰富而且价格低廉，以此克服现有技术采用单线雷达或多线雷达进行环境感知及相关处理所存在的缺陷。

步骤402、将获取的环境图信息像输入预先构建的决策模型，由决策模型根据输入的环境图像信息输出以对机器人进行导航为目标的运动参数。

具体的，决策模型根据输入的环境图像信息输出以对机器人进行导航为目标的运动参数的过程，可进一步实现为：

21）将环境图像信息所体现的当前环境状态的状态空间映射到观测空间；

22）将观测空间包括的环境状态参数输入至策略函数；

23）策略函数根据状态转移函数确定当前动作采用动作空间中各个可选动作时分别触发的下一步环境状态，根据奖励函数确定当前动作采用动作空间中各个可选动作触发相应的下一步环境状态时分别对应的奖励，并基于确定的奖励，输出当前动作采用动作空间中各个可选动作的概率分布。

决策模型输出的运动参数具体体现为机器人的当前动作采用动作空间中各个可选动作（动作值）的概率分布。后续可根据概率分布为每种参数选取最高概率的参数值来控制机器人的当前步动作。

可选的，输出的运动参数包括机械小车的车轮转速，机器人转向角度，机器人前进速度、目标运动位置中的至少部分参数。

步骤403、将所述运动参数传输至机器人的运动控制部件，以由运动控制部件控制机器人的运动执行部件执行与该运动参数相匹配的运动，相应使机器人趋近基于环境图像信息所确定的视野范围内的导航目标。

其中，运动控制部件可以为设置于机器人的机械小车（如小车底盘部位）上的控制器；运动执行部件可以为，由设置于机器人机械小车（如小车底盘部位）上的电机以及小车车轮构成的综合执行体。导航目标则可以为杂物清理场景下室内地面上的杂物。

RGB相机采集的图像在被输送给决策模型的神经网络后，决策模型具体可输出小车左右轮的转速等运动参数，并通过ROS发送给设置于小车底盘的控制器，小车底盘中的控制器会发送相应信号将这些参数同步给电机，并借助电机驱动车轮来达到所指示的转速等目标运动状态，从而控制机器人以趋近视野范围内的导航目标为目的进行运动，相应实现在室内地面杂物清理等场景下对机器人的导航。

通过上述处理，使得本质上，基于端到端强化学习算法，将导航所涉及的建图、识别、规划等各方面功能相互融合并包含在模型网络的隐藏空间中，且包含于隐藏空间的建图以对导航最有利的形态为目标。

本申请提供的机器人导航方法，预先采用端到端强化学习算法训练并构建实现机器人导航所需的决策模型，当对机器人进行导航时，获取基于环境感知所得的环境图像信息，将环境图像信息输入决策模型，由决策模型根据环境图像信息输出以对机器人进行导航为目标的运动参数，并将运动参数传输至机器人的运动控制部件，由运动控制部件控制机器人的运动执行部件执行与运动参数相匹配的运动，相应使机器人趋近基于环境图像信息所确定的视野范围内的导航目标。申请人研究发现，在视觉导航领域，端到端暗含着可以摒除传统模块化的建图、识别（目标检测）、规划的方式，本申请基于端到端强化学习算法本质是将导航所涉及的建图、识别、规划等各方面功能相互融合并包含在模型网络的隐藏空间中，且包含于隐藏空间的建图以对导航最有利的形态为目标，因此可有效提升导航系统的鲁棒性及准确度。

为便于理解，以下进一步提供本申请方法的一应用示例。具体如下：

（一）动作空间与奖励函数设计

该示例中，机器人的动作空间包括两类动作，分别为机器人左边两个轮子的转速和右边两个轮子的转速，其中单边轮子转速相同，每类动作的动作空间维度是5，可选的，具体采取[-5，-2，0， 2， 8]这5个维度转速值，单位为rad/s。其中，负数表示车轮往后转，如果左右两边车轮均为负数，则体现为机器人后退，如果一边正一边负，则会导致机器人转圈。

策略网络每决策一步，奖励函数值为-0.01（负数相当于是一个时间惩罚项），在此基础上，如果当前机器人坐标系原点到达杂物附近预设范围内（如1m内），则获得+10的奖励。

（二）策略网络设计

可选的，图像的编码网络采用ResNet50。ResNet50输出的embedding再通过一层LSTM（Long-Short Term Memory Network，长短期记忆网络）网络加三层全连接网络，即构成策略网络。策略网络的输出分流到两个ActionHead的解码器里，每个ActionHead对应着一类动作，经过两层全连接输出逻辑值，再通过一层softmax输出归一化后的动作空间中的概率分布。

其中，策略网络输出的是一个固定长度的向量，这个长度可以自定义设置，如1024。这个向量可以被称做神经网络的隐藏状态。ActionHead也是由神经网络构成，分流即是把这个隐藏状态向量作为输入传给两个不同的ActionHead。

（三）基于导航的任务实施

机器人基于导航进行杂物清理的全流程如下：

打开开关，RGB相机开始工作，以设定频率（如10HZ）获取图像，每帧图像输入至小车搭载的策略神经网络中，再由神经网络输出小车左右两边轮子的转速等运动参数，并发送给小车底盘执行。当机器人视野中发现杂物，策略网络会让小车运动到杂物附近，并使杂物到达机械臂的工作范围内。这时机械臂会通过自身的抓取算法，结合臂上的相机输入，将工作范围区域内的杂物抓起并放入小车提供的容纳空间（如小车上的篮子）内。从打开开关开始，经过一定时长（如30分钟）或基于环境感知检测到地面杂物清理完毕后，默认本次任务执行完毕，之后，可将小车导航到最近的靠墙位置并停机。

对应于上文的机器人导航方法，本申请实施例还公开一种机器人导航装置，该装置可通过集成于具身机器人上，来实现在室内地面杂物清理等场景下对机器人进行导航，该装置的组成结构如图5所示，具体包括：

获取模块10，用于获取基于环境感知所得的环境图像信息；

导航决策模块20，用于将所述环境图像信息输入预先构建的决策模型，由所述决策模型根据所述环境图像信息输出以对机器人进行导航为目标的运动参数；其中，所述决策模型通过预先采用端到端强化学习算法进行模型训练而得到；

导航实施模块30，用于将所述运动参数传输至所述机器人的运动控制部件，以由所述运动控制部件控制所述机器人的运动执行部件执行与所述运动参数相匹配的运动，相应使所述机器人趋近基于所述环境图像信息所确定的视野范围内的导航目标。

在一实施方式中，获取模块10，具体用于：获取设置于机器人上的RGB相机所采集的环境图像信息。

在一实施方式中，决策模型在根据输入的环境图像信息输出以对机器人进行导航为目标的运动参数时，具体用于：

将所述观测空间包括的环境状态参数输入至策略函数；

所述策略函数根据状态转移函数确定当前动作采用动作空间中各个可选动作时分别触发的下一步环境状态，根据奖励函数确定当前动作采用动作空间中各个可选动作触发相应的下一步环境状态时分别对应的奖励，并基于确定的奖励，输出当前动作采用动作空间中各可选动作的概率分布；

在一实施方式中，机器人的机身包括机械小车和机械臂，所述机械臂用于在所述机器人运动至导航目标时，基于抓取算法抓取所述导航目标，并将抓取的导航目标放入所述机械小车提供的容纳空间内；

所述运动参数包括所述机械小车的车轮转速，机器人转向角度，机器人前进速度、目标运动位置中的至少部分参数。

在一实施方式中，上述装置还包括模型构建模块，用于采用端到端强化学习算法进行模型训练得到所述决策模型；

其中，模型构建模块采用端到端强化学习算法进行模型训练得到所述决策模型的过程，包括：

在一实施方式中，模型构建模块在仿真环境中采用端到端强化学习算法进行模型训练，得到所述决策模型时，具体用于：

构建所述机器人的工作环境的仿真模型；

基于所述机器人的智能体与所述仿真环境的交互，根据设定的奖励函数训练所述机器人的智能体，以拟合所述智能体的策略函数，完成训练的智能体作为所述决策模型。

在一实施方式中，机器人工作环境为室内场景的杂物清理环境；

模型构建模块在构建所述机器人的工作环境的仿真模型时，具体用于：

基于机器人描述文件构建机器人模型；

对于本申请实施例公开的机器人导航装置而言，由于其与上文方法实施例公开的机器人导航方法相对应，所以描述的比较简单，相关相似之处请参见上文方法实施例的说明即可，此处不再详述。

本申请实施例还公开一种杂物清理机器人，该机器人包括：

环境感应部件，用于基于环境感知输出环境图像信息；

处理器，设置于所述机身上，用于调用并执行所述存储器中的所述计算机指令集，通过执行所述计算机指令集实现如上文实施例公开的机器人导航方法。

可选的，环境感应部件包括设置于机械臂上的RGB相机，运动控制部件包括设置于机械小车的控制器，运动执行部件包括由设置于机器人机械小车（如小车底盘部位）上的电机以及小车车轮构成的综合执行体。

机械小车的小车底盘赋予机械臂更灵活的空间移动能力，机械臂赋予小车更强大的执行能力，本申请采用“机械小车+机械臂”这种形态的机器人来应对大部分家庭地面情况，达到较好的清理地面杂物的效果。

综上所述，本申请实施例公开的机器人导航方法、装置及杂物清理机器人，与现有技术相比，至少具备以下技术优势：

a）提出了基于端到端强化学习的方式训练导航智能体，有利于智能体充分利用环境中对导航有用的特征，同时忽略对导航影响较小、不够重要的特征。

这里，环境中对导航有用的特征，更多是指环境中比较抽象的语义层面的特征。传统的导航方式依赖于精确的环境地图以及导航过程中在地图中的精确定位，然而实际上完成清理杂物这个任务不需要精准知道这两者，机器人只需要知道，如何避开障碍物，哪些地方是可通过的（如门），哪些地方是已经到访过的。在和环境不断交互的过程中，机器人能学到从当前输入图像以及记忆中提取哪些特征来提炼出以上的信息。而一些干扰因素，例如光照变化，走动的人，电视机的画面等等，机器人则学会忽略它们。

b）决策模型的策略网络中添加了LSTM作为记忆模块，从而可以编码时空记忆信息并进行有用信息提取，便于更精准的导航；

c）提出了基于环境的仿真模型结合仿真引擎中的小车一并训练的方法，有效解决了在现实场景中训练时数据不足的问题；

d）提出了“车+臂”的机器人形态来用于室内地面清洁，可有效应对大面积的地面杂物清理需求。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种机器人导航方法，其特征在于，包括：

获取基于环境感知所得的环境图像信息；

2.根据权利要求1所述的方法，其特征在于，所述获取基于环境感知所得的环境图像信息，包括：

获取设置于所述机器人上的RGB相机所采集的环境图像信息。

3.根据权利要求1所述的方法，其特征在于，所述决策模型根据所述环境图像信息输出以对所述机器人进行导航为目标的运动参数，包括：

将所述观测空间包括的环境状态参数输入至策略函数；

4.根据权利要求1所述的方法，其特征在于，所述机器人的机身包括机械小车和机械臂，所述机械臂用于在所述机器人运动至导航目标时，基于抓取算法抓取所述导航目标，并将抓取的导航目标放入所述机械小车提供的容纳空间内；

5.根据权利要求1所述的方法，其特征在于，采用端到端强化学习算法进行模型训练得到所述决策模型的过程，包括：

6.根据权利要求5所述的方法，其特征在于，所述在仿真环境中采用端到端强化学习算法进行模型训练，得到所述决策模型，包括：

构建所述机器人的工作环境的仿真模型；

7.根据权利要求6所述的方法，其特征在于，所述机器人的工作环境为室内场景的杂物清理环境；

所述构建所述机器人的工作环境的仿真模型，包括：

基于机器人描述文件构建机器人模型；

8.一种机器人导航装置，其特征在于，包括：

获取模块，用于获取基于环境感知所得的环境图像信息；

9.一种杂物清理机器人，其特征在于，包括：

环境感应部件，用于基于环境感知输出环境图像信息；

处理器，设置于所述机身上，用于调用并执行所述存储器中的所述指令集，通过执行所述指令集实现如权利要求1-7任一项所述的机器人导航方法。

10.根据权利要求9所述的杂物清理机器人，其特征在于，所述环境感应部件包括设置于所述机械臂上的RGB相机，所述运动控制部件包括设置于所述机械小车的控制器。