CN116679710A

CN116679710A - 一种基于多任务学习的机器人避障策略训练与部署方法

Info

Publication number: CN116679710A
Application number: CN202310717190.8A
Authority: CN
Inventors: 张建明; 姜朋; 徐韩; 朱骞; 夏钰婷
Original assignee: Zhejiang Runchen Technology Co ltd
Current assignee: Zhejiang Runchen Technology Co ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-01

Abstract

一种基于多任务学习的机器人避障策略训练与部署方法，将机器人的避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务，并将伪激光雷达数据作为两个任务之间的共同数据形式，将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络，在仿真环境中直接采集伪激光雷达数据完成避障任务，在真实环境中引入传感器信息预处理任务作为辅助任务，通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务，得到伪激光雷达数据后，利用共享隐藏层网络完成后续的避障动作；通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系。本发明改善机器人在真实环境中的避障效果。

Description

一种基于多任务学习的机器人避障策略训练与部署方法

技术领域

本发明涉及智能机器人导航领域，具体涉及基于多任务学习的机器人避障策略训练与部署方法。

背景技术

对于各个领域的移动机器人来说，自主导航是移动机器人一项非常基本并且关键的能力。根据应用场景与导航目标，可以主要可以分为四种问题，分别是局部避障、室内导航、多机导航与社会导航。局部避障问题指的是在未知环境中，无碰撞地躲避障碍物并到达目标点的导航过程，作为其他三种问题的基础，逐渐成为研究热点。

常见的避障方式有两种，分别是基于地图的避障方式和无地图的避障方式。基于地图的避障方式中的算法较为成熟，但是需要得到全局先验地图，并且从一个环境换到另一个环境中后，常常需要重新调整算法参数，难以适应人流量大且复杂多变的环境。无地图避障导航是基于数据驱动的方式进行的端到端避障策略，使用神经网络拟合出从传感器的原始信息输入到机器人动作的映射关系，将传感器信息作为规划器的输入，动作信息作为规划器的输出，从而实现避障。其中，深度强化学习有效地将深度学习的表征能力与强化学习的决策能力结合在一起，可以从传感器的数据中自动提取有效特征，并且在与环境的交互过程中学习到避障策略，实现端到端的避障，从而具有了无需全局先验地图、部署简单、无需调整参数的优点，并因此逐渐受到人们的关注。

但是深度强化学习算法仍然存在一些共有的问题，如策略迁移能力差等。对于在线强化学习算法，机器人需要通过与环境交互获取数据，为了避免训练过程中可能出现的碰撞等情况对机器人本体造成损害，常常需要在仿真环境中完成避障策略的训练，之后再迁移到真实环境中，但是由于仿真环境和真实环境存在差别，所以将避障策略从仿真环境迁移到真实环境后往往会出现较大程度的性能下降，所以如何减小仿真环境和真实环境之间的差别就是重要的事情。

现有解决方案根据入手角度可以分为三种，第一种是建立真实环境的完美逼近模拟仿真，第二种是减小仿真环境和真实环境之间差异对传感器信息的影响，第三种是增加仿真环境的复杂性。第一种方案需要使得仿真系统对真实世界进行差异极小的完美逼近仿真，从而保证移动机器人在仿真环境中产生的训练数据和现实世界中所产生的数据之间保持极高的数据一致性，此时搭建仿真环境的难度已经不低于训练策略的难度，导致基于强化学习的移动机器人避障策略难以实现工程化应用；第二种方案是只使用对环境鲁棒性较好的激光雷达作为传感器，但是在室内环境下平面激光雷达纵向视野范围较小，使机器人难以避让椅子等不规则障碍物，若引入视觉传感器会导致策略迁移效果下降。第三种方案是通过域随机化技术增加环境的多样性，并对传感器信息添加噪声，使得训练环境更加复杂，降低环境差异对策略的影响，但同时也降低了网络收敛速度，增加了训练难度。

多任务学习根据学习模式可分为传统的结构化学习方法和深度多任务学习方法，结构化学习以结构约束的形式体现任务联系，深度多任务学习方法则使用抽象后的特征进行学习，通过改变不同任务层之间的连接方式进行任务关系表述，通过处理特定网络层中的参数达到信息共享的目的，根据参数共享方式与任务层之间的连接方式可以分为基于任务层面的硬参数共享、软参数共享和张量网络方法与基于特征层面的自适应层连接和自适应层分堆等方法。

发明内容

为了解决现有的避障策略迁移技术中存在的问题，本发明提出了一种基于多任务学习的室内机器人避障策略训练与部署方法，根据该方法进行的训练部署策略通过单一模态的信息降低仿真环境与真实环境之间的差别，通过多模态信息之间的互补实现有效信息的获取，在不同场景下使用不同模态的信息，从而提高基于深度强化学习的移动机器人避障策略的迁移能力，更好地从训练环境迁移到真实环境中，且不出现明显的避障性能下降。

本发明解决其技术问题所采用的技术方案是：

一种基于多任务学习的机器人避障策略训练与部署方法，将机器人避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务，并将伪激光雷达数据作为两个任务之间的共同数据形式，将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络，在仿真环境中直接采集伪激光雷达数据完成避障任务，在真实环境中引入传感器信息预处理任务作为辅助任务，通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务，得到伪激光雷达数据后，利用共享隐藏层网络完成后续的避障动作。通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系，从而完成机器人在实际环境中的避障任务。

进一步，所述方法包括以下步骤：

步骤1：完成仿真环境的建立，使用二维环境进行搭建，用于后续进行机器人避障策略的训练；

步骤2：完成移动机器人决策模块的建立，利用深度强化学习算法，建立相应的神经网络模型，采用近端策略优化算法(PPO)，根据奖励进行等价的优势函数计算，从而直接对选择行为的可能性进行调整；使用Actor-Critic架构，Critic网络负责估计状态价值函数，Actor网络负责输出动作概率，输出动作采用连续动作空间，PPO算法采用重要性采样，使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正，并通过预设参数对其进行限制；

步骤3：搭载待训练的决策模块，将仿真小车放置在不同的仿真环境中进行训练，并且充分利用仿真环境可并行训练的优势，设置多种不同类型的环境，把仿真小车视作智能体，随机初始化智能体位置与导航目标点，之后智能体根据获取的信息进行相应动作，获取环境给予的对应奖励和新的传感器信息，从而完成一次与环境的交互，把交互数据存入经验回放池，重复如上过程直至到达目标点或与障碍物发生碰撞后，本轮交互结束，回到起点，进行下一轮交互；待经验回放池中的数据达到一定数量后，取出每次导航过程中的完整序列数据，首先计算状态价值和优势函数，以最大化Actor网络动作输出的优势为目的，计算Actor网络的损失函数，并使用梯度下降法更新网络参数，然后以最小化Critic网络的输出与折扣回报之间的差距为目的，计算Critic网络的损失函数，使用梯度下降法更新网络参数，之后使用新的网络参数输出动作，与环境继续交互，直至训练结束。训练完毕后，得到训练好的决策模块，在训练过程中，环境给予的奖励是人为进行设置的；

步骤4：在真实环境中进行避障任务，将构建多传感器信息融合框架，把视觉信息和激光雷达信息转化为伪激光雷达信息的过程作为辅助任务进行单独训练，在小车上安装激光雷达与RGB-D视觉传感器，激光雷达与视觉传感器均安装在小车前方，将机器人放在真实场景中，对机器人施加目标点的导航指令，机器人的目标点信息处理模块对指令加以处理，得到目标点向量；

步骤5：机器人根据每个时刻获取的RGB-D图像信息、激光雷达点云信息，将传感器获取的如上信息和导航目标信息输入到训练好的感知模块中，利用步骤4中通过完成辅助任务得到的多传感器信息融合框架进行信息融合，获取环境特征向量；

步骤6：将步骤5中得到的环境特征输入训练好的决策模块，PPO算法会根据输入的特征向量输出该时刻机器人的动作指令，直至机器人到达终点，完成导航任务。

进一步，所述步骤1中，在二维仿真环境中进行训练，得到从激光雷达信息到避障策略的决策模块；所述步骤5中，在三维真实环境中进行避障，使用单一模态信息减小虚拟环境和真实环境之间的差距对传感器信息的影响，使用多模态信息的互补实现有效信息的获取，充分利用激光雷达的鲁棒性改善基于强化学习的避障策略的迁移问题。

所述步骤2中，为了提高强化学习策略网络的效果，使用Beta分布作为采样动作来源，使用LSTM网络和注意力机制提升网络的特征提取能力，改善避障效果。

所述步骤3中，采用的奖励函数包括安全性能指标、效率性指标和轨迹优化性能指标，所述安全性能指标包括碰撞障碍物负奖励和与障碍物的距离负奖励，所述效率性指标包括到达终点正奖励和相邻时刻与终点距离差分的正奖励，所述轨迹优化性能指标包括加速度大小的负奖励和相邻时刻间的角速度方向差值的负奖励，以避免奖励稀疏问题，改善训练效果。

所述步骤3中，利用二维仿真环境无需物理计算、计算资源要求低和可并行训练等优点，搭建多种不同复杂程度和不同障碍物特征的避障环境，提高训练得到的避障策略的避障性能。

所述步骤4中，将真实环境中的感知模块搭建作为在真实环境中避障任务的辅助任务，使用视觉传感器扩展平面激光雷达的纵向视角范围，对图像信息和激光雷达信息采用多阶段融合，将深度图像与配准后的彩色图像进行融合，只考虑不可行区域的深度，作为后续得到伪激光雷达数据的基础。将伪激光雷达数据与激光雷达数据进行融合，对深度摄像头视角范围内的激光雷达数据进行校正，使得校正后的二维激光雷达数据具有避障所需的三维环境的特征用于后续避障。

所述步骤4中，传感器融合模块作为辅助任务可以独立于在真实环境中进行避障的主任务而完成，以统一的传感器信息形式实现多传感器信息的融合，可以为后续引入其他可以转化为伪激光雷达信息的传感器奠定基础，便于后续的移动机器人系统升级和迭代开发。

本发明的有益效果主要表现在：

1)通过将机器人的避障情境下的任务分解为在仿真环境中避障与在真实环境中避障两个相关任务，并将伪激光雷达数据作为两个任务之间的共同数据形式，将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络，通过利用多种任务之间的联系，改善机器人在真实环境中的避障效果，实现避障策略的迁移；

2)通过在真实环境中引入传感器信息预处理任务作为辅助任务，使用室内物品数据集和伪激光雷达数据处理模块完成辅助任务，得到伪激光雷达数据，使得二维数据中带有三维环境特征，从而可以使用在二维环境中训练得到的避障策略，二维环境是对三维环境的抽象，具有设置简单、训练资源要求低的优点，使得避障问题的整体解决方案适用于平面移动机器人避障这个2.5维的问题；

3)将避障策略训练过程与感知效果提升过程分离开，使用鲁棒性好、通用性强的单一模态信息作为两个过程之间的联系，使其模块化与规范化。

4)在真实避障场景中，使用多种传感器得到多模态信息，从中提取互补信息后转化为单模态信息，为之后引入其余传感器并进一步提升避障效果留下改进空间。

附图说明

图1是训练与部署框架图。

图2是小车避障算法的动作策略网络结构图。

图3是小车在实际环境中的图像信息处理流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于多任务学习的机器人避障策略训练与部署方法，将机器人的避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务，并将伪激光雷达数据作为两个任务之间的共同数据形式，将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络，在仿真环境中直接采集伪激光雷达数据完成避障任务，在真实环境中引入传感器信息预处理任务作为辅助任务，通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务，得到伪激光雷达数据后，利用共享隐藏层网络完成后续的避障动作。通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系，从而完成机器人在实际环境中的避障任务。

进一步，所述方法包括以下步骤：

步骤1：完成仿真环境的建立，基于强化学习训练避障策略，需要大量的机器人与环境的交互数据，考虑到环境搭建难度、获取信息难易程度和模型在实车上部署难度等因素，仿真环境可使用二维环境进行搭建，用于后续进行机器人避障策略的训练。

步骤2：完成移动机器人的决策模块的建立，利用深度强化学习算法，建立相应的神经网络模型，采用近端策略优化算法(Proximal Policy Optimization algorithm，PPO)，这是一种适用于高维连续动作空间的on-policy的策略梯度算法，根据奖励进行等价的优势函数计算，从而直接对选择行为的可能性进行调整。使用Actor-Critic架构，Critic网络负责估计状态价值函数，在本方法中，输出动作采用连续动作空间，所以Actor网络负责输出动作概率，为了提高对于采样数据的利用率，PPO算法采用重要性采样，使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正，并通过预设参数对其进行限制，从而避免更新后的新策略过度远离旧策略。

步骤3：搭载待训练的决策模块，将仿真小车放在不同的仿真环境中进行训练，并且充分利用仿真环境可并行训练的优势，设置多种不同类型的环境(包括空旷型环境、密集型环境和狭缝类环境等)，把仿真小车视作智能体，随机初始化智能体位置与导航目标点，之后智能体根据获取的信息进行相应动作，获取环境给予的对应奖励和新的传感器信息，从而完成一次与环境的交互，把交互数据存入经验回放池，重复如上过程直至到达目标点或与障碍物发生碰撞后，本轮交互结束，回到起点，进行下一轮交互。待经验回放池中的数据达到一定数量后，取出每次导航过程中的完整序列数据，首先计算状态价值和优势函数，以最大化Actor网络动作输出的优势为目的，计算Actor网络的损失函数，并且使用梯度下降法更新网络参数，以最小化Critic网络的输出与折扣回报之间的差距为目的，计算Critic网络的损失函数，使用梯度下降法更新网络参数，然后使用新的网络参数输出动作，与环境继续交互，直至训练结束。训练完毕后，得到训练好的决策模块。在训练过程中，环境给予的奖励是人为进行设置的，主要考虑安全性(与障碍物碰撞得到负奖励)、效率性(到达目标点得到正奖励、相邻时刻之间距离差分的正奖励)和轨迹平滑性(相邻时刻之间角速度相差过大的负奖励)。

步骤4：在真实环境中进行避障任务，将构建多传感器信息融合框架，把视觉信息和激光雷达信息转化为伪激光雷达信息的过程作为辅助任务进行单独训练，在小车上安装激光雷达与RGB-D视觉传感器，激光雷达与视觉传感器均安装在小车前方，将机器人放在真实场景中，对机器人施加目标点的导航指令，机器人的目标点信息处理模块对指令加以处理，得到目标点向量。

步骤5：机器人根据每个时刻获取的RGB-D图像信息、激光雷达点云信息，将传感器获取的如上信息和导航信息输入到训练好的感知模块中，利用之前通过完成辅助任务得到的多传感器信息融合框架进行信息融合，获取环境特征向量；

本实施例应用于基于多任务学习的室内机器人避障策略训练与部署方法，该发明的流程图如图1所示，包括以下步骤：

步骤1：基于OpenCV建立二维仿真环境，基于像素点是否占用实现机器人碰撞与否判别情况的判断，基于布雷森汉姆直线算法获取机器人与周围360°范围内障碍物的距离数组作为平面激光雷达数据，设置代表小车的圆形的驱动方式为差速驱动方式，运动学方程如式(1)所示：

式中，(x',y',θ')表示下一时刻的小车位置与朝向，(x,y,θ)表示当前时刻的小车位置与朝向，(v,ω)分别表示小车当前的线速度与角速度，单位分别为m/s和rad/s，Δt表示速度控制周期，即当前时刻与下一时刻之间的时间间隔。

由于不需要类似于Gazebo等平台进行复杂的物理计算，该环境在小车的运动过程中计算量小、速度快、对实验设备的资源占用程度低，并且搭建环境时可以使用图片进行地图绘制。得到的二维环境是对三维环境的抽象，图片中的圆形和矩形对应三维环境中的圆柱体和立方体障碍物，不含三维世界中的不规则障碍物。

步骤2：完成如图2所示的移动机器人的决策模块的建立，利用深度强化学习算法，建立相应的神经网络模型，采用近端策略优化算法(Proximal Policy Optimizationalgorithm，PPO)，这是一种适用于高维连续动作空间的on-policy的策略梯度算法，根据奖励进行等价的优势函数计算，从而直接对选择行为的可能性进行调整，优势函数计算式如式(2)所示：

A_t＝δ_t+(γλ)δ_t+1+…+…+(γλ)^T-t+1δ_T-1 (2)

其中，δ_t＝r_t+γV(s_t+1)-V(s_t)，λ为衰减因子，取值在0到1之间，此处取为0.95，γ表示环境奖励随时间的衰减因子，取值在0到1之间，此处取为0.99，r_t表示t时刻的环境奖励，V(s_t)和V(s_t+1)分别表示当前时刻和下一时刻的环境状态价值。

PPO使用Actor-Critic架构，Critic网络负责估计状态价值函数，目的是为了估计状态价值函数更加准确。在本方法中，输出动作采用连续动作空间，所以Actor网络负责输出动作分布参数，目的是输出的动作可以获得最大的优势函数值，在训练时可以通过对上述分布进行采样得到动作以增强探索性，测试时根据输出的动作分布参数中的均值直接输出动作数值。为了提高对于采样数据的利用率，PPO算法采用重要性采样，使用当前优化的策略和探索环境的策略之间的差距对进行更新的损失函数进行校正，并通过预设参数对其进行限制，从而避免更新后的新策略过度远离旧策略。

本发明对PPO算法针对含有动态障碍物的室内场景进行了如下改进：

1)奖励函数重构：奖励函数是强化学习中驱动智能体学习策略的重要信号，包括安全性能指标(碰撞障碍物负奖励、到达终点正奖励、与障碍物的距离负奖励)和轨迹优化性能指标(线速度的加速度大小的负奖励、角速度变化量大小的负奖励)等。

2)添加LSTM网络层：PPO的actor和critic网络本身是多层感知机(MLP)结构，使用三层全连接层，不具备对序列数据进行长短期分别建模的能力，本发明对多层感知机进行修改，把中间的全连接层修改为LSTM层，用LSTM网络的单元状态(cell state)拟合部分可观马尔科夫决策过程中的隐藏状态(hidden state)，从而实现求解。

3)添加注意力机制层：将注意力机制加入到处理局部地图的卷积层之间，使用掩码(mask)来实现注意力机制，掩码的原理在于通过另一层新的权重，将图片数据中关键的特征标识出来，通过前向传播过程对掩码生成网络进行学习训练，利用局部地图得到的特征图学习权重矩阵生成网络的参数，再用训练得到的权重矩阵施加在原特征图之上，让决策网络提取到每一张局部地图中更需要关注的区域中的特征信息，也就形成了注意力。

4)输出多个动作分布参数：原有导航算法输出下一时刻的动作，适用于环境变化不大、无需对未来状态进行推测的情况。本发明输出多个动作分布参数，代表未来3s内的动作序列，体现出对未来3s时间窗内周围环境状态的预测，并且将动作序列作为下一个规划时刻的状态输入的一部分，改善预测效果和轨迹平滑性。

状态空间由三部分构成：校正后的激光雷达信息、目标点与小车的相对位置和小车动作，校正后的激光雷达信息和目标信息由感知模块生成，小车动作表示小车上一时刻输出的线速度与角速度序列。

动作空间采用连续动作空间，虽然离散动作更容易收敛，但是相应解空间较小，可能导致陷入局部最优，并且会导致小车轨迹不够平滑，考虑到强化学习算法PPO可适用于连续状态空间，本发明采用连续动作空间，线速度v范围是[0,1.8]m/s，角速度ω范围是[-π/3,π/3]rad/s。

步骤3：搭载待训练的决策模块，将仿真小车放在不同的仿真环境中进行训练，为了避免训练初期环境过于复杂导致的网络收敛速度过慢，探索成功率过低导致训练过程太慢等问题，采用由浅入深，逐步增加环境复杂度的设计思想，由最简单的20*20环境中的静态障碍物，逐步增大环境面积和环境复杂度，逐渐完成决策模块的强化学习算法模型的训练。在模型训练后期，充分利用仿真环境可并行训练的优势，设置多种不同类型的环境(包括空旷型环境、密集型环境和狭缝类环境等)，把仿真小车视作智能体，初始化大小为4000的经验回放池用于存放交互数据进行强化学习模型参数更新，经验回放池可以存储智能体与环境的交互过程的信息，提高样本的利用效率，避免在线交互对于硬件性能的过高要求。并且回放池可以按照完整的交互数据进行存取，从而可以得到完整的交互序列用于训练含有LSTM层的PPO网络。PPO算法对于经验池中的同一批样本分成多个微小批次(Mini-batch)并重复利用多次，同时在计算策略梯度时限制参数更新幅度，从而避免产生训练不稳定性，在本发明中，把一批样本中的同一个完整导航过程中的交互数据划分为同一个微小批次，从而保持对应数据的时序相关性。随机初始化智能体位置与导航目标点，之后智能体根据获取的信息进行相应动作，获取环境给予的对应奖励和新的传感器信息，从而完成一次与环境的交互，把交互数据存入经验回放池，重复如上过程直至到达目标点或与障碍物发生碰撞后，本轮交互结束，回到起点，进行下一轮交互。

具体训练过程如下，首先初始化Critic网络Q_θ和Actor网络对应参数分别为初始化经验回放池。把感知模块输出的环境特征向量、目标点信息向量和小车上一时刻规划得到的线速度与角速度向量拼接，作为状态输入s_t，经过Actor网络，得到智能体动作分布参数，在本发明中，使用Beta分布作为智能体动作采样的依据，其概率密度表达式如式(3)所示。

其中，x表示概率取值，取值范围为0到1，α和β是形状参数。

Γ(·)是Gamma函数，表达式为：

Γ(n)＝(n-1)！,n∈N^* (4)

所以Actor网络得到的是动作分布的两个分布曲线形状相关参数α和β，对上述分布进行采样得到动作指令向量记为a_t，即线速度与角速度，本发明输出6个动作分布，从而可以得到按时序排列的未来3s内的动作序列，之后智能体根据动作指令进行第一个动作，获取环境给予的对应奖励r_t和新的传感器信息，经过地图处理模块可得到下一时刻的状态输入s_t+1，从而完成一次与环境的交互，把交互数据和结束标志(s_t,a_t,t_r,s_t+1,done)存入经验回放池，重复如上过程至到达目标点或与障碍物发生碰撞后，本轮交互结束，回到起点，进行下一轮交互。待经验回放池中的数据达到一定数量后，取出数据更新智能体的网络参数。从中随机取出8条完整导航序列中的所有交互数据，之后开始更新网络。

更新Actor网络，Actor网络的目的是输出的动作优势尽可能大，取出交互数据后，首先利用Critic网络计算得到各时刻所处状态的状态价值，之后使用式(2)计算得到每个状态下的优势函数使用式(5)作为Loss函数，使用梯度下降法更新多步梯度。

L^CLIP(θ)＝E_t[min(r_t(θ)A_t,clip(r_t(θ),1-∈,1+∈)A_t)] (5)

其中，表示新旧策略之间差异程度，a_t表示选取动作，s_t表示状态，π表示策略映射函数。

更新Critic网络，基于多步TD方法，使用式(6)，从当前状态开始，用每一步环境返回的奖励与折扣因子相乘后累加，得到折扣回报G_t，使用G_t和Critic网络预测的当前状态价值v(s_t)之间的均方损失函数作为loss函数进行梯度下降训练。

G_t＝r_t+1+γr_t+2+…+γ^T-tr_T+1+γ^T+1-tv(s_T+1) (6)

其中，G_t表示折扣回报，γ表示奖励折扣参数，v(s_T+1)表示Critic网络输出的T+1时刻的状态价值，r_t+1、r_t+2和r_T+1分别表示对应时刻的环境奖励。

之后清空缓存池数据，使用新的网络参数输出动作，与环境继续交互，直至训练结束。训练完毕后，得到在二维仿真环境中训练好的决策模块。

步骤4：将由视觉信息和激光雷达信息得到伪激光雷达信息作为辅助任务进行单独训练，具体步骤如下。

视觉信息包括彩色图像信息和深度图像信息，选择轻量化的MobileNet V2网络作为语义分割网络的主干网络，在MIT开源的经典语义分割数据集ADE20k室内物品数据集中进行语义分割模型训练，实现对彩色图像中的不同像素点打上代表类别的标签，之后使用可通行与不可通行区域的掩码图层和人类区域与非人类区域的掩码图层对分割后的图像进行依次处理，得到含有对应三种标签指示类别，包括可通行区域、不可通行区域和人类区域，并且从真实环境中拍摄100张图片组成测试集，使用网络更复杂、准确度更高但是实时性较差的ResNet网络作为主干网络的语义分割网络的分割结果作为真值，进行测试。得到语义分割图后，将同一时刻的深度图像与彩色图像进行配准，由于深度摄像头的视角范围小于RGB图像，所以配准过程是把深度图像的像素点附着上对应的RGB数据，得到配准后的图像，利用分割后的彩色图像将深度图像进行降维处理，只考虑不可通行区域的距离数值，并且对于人类区域的距离数值进行膨胀层处理，得到伪激光雷达数据。对于激光雷达传感器，激光雷达传感器获取的点云图可以提供深度信息，但是计算量较大。因此需要对其进行投影处理，在常见的前向视角投影和鸟瞰视角投影中，基于前向视角的极点栅格映射可以不丢失点云图中的点，所以采用极点栅格映射方法处理点云图数据，得到以自车为中心的全向距离数组。之后使用伪激光雷达数据对相近时刻的激光雷达数据进行校正，得到校正后的激光雷达数据。辅助任务完成后，可以得到传感器信息处理模块，之后将激光雷达和RGB-D视觉传感器安装在自动导引小车(本发明采用Turtlebot 2小车作为实验车辆)上，激光雷达和RGB-D视觉传感器都安装在小车前方，并给激光雷达(水平面360°范围)预留出扫描的空间，避免遮挡，视觉传感器指向前进方向，本发明使用Kinect V2作为视觉传感器。将机器人放在真实场景中，真实场景可以与虚拟环境不同，用于测试导航方法的泛化性能。对机器人施加目标点的导航指令，即目标位置相对于机器人的位置向量，机器人的目标点信息处理模块对指令加以处理，得到目标点向量(x_t,y_t)。

步骤5：在真实环境中进行避障任务，机器人每个时刻由安装好的视觉传感器与激光雷达传感器获取RGB-D图像信息、激光雷达点云信息，将其和导航目标点信息输入到训练好的感知模块中，利用步骤4得到的感知信息处理模块进行信息处理，获取环境特征向量，将得到的环境特征向量和小车当前线速度与角速度向量拼接后，分为以机器人为中心的局部栅格地图和特征向量两种信息，通过两种通路输入由步骤3中完成在仿真环境中的避障任务而得到的决策模块，PPO算法会根据输入的特征向量输出该时刻机器人的动作指令，直至机器人到达终点，完成导航任务。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于多任务学习的机器人避障策略训练与部署方法，其特征在于，将机器人避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务，并将伪激光雷达数据作为两个任务之间的共同数据形式，将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络，在仿真环境中直接采集伪激光雷达数据完成避障任务，在真实环境中引入传感器信息预处理任务作为辅助任务，通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务，得到伪激光雷达数据后，利用共享隐藏层网络完成后续的避障动作；通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系，从而完成机器人在实际环境中的避障任务。

2.如权利要求1所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述方法包括以下步骤：

步骤2：完成移动机器人决策模块的建立，利用深度强化学习算法，建立相应的神经网络模型，采用近端策略优化算法，根据奖励进行等价的优势函数计算，从而直接对选择行为的可能性进行调整；使用Actor-Critic架构，Critic网络负责估计状态价值函数，Actor网络负责输出动作概率，输出动作采用连续动作空间，PPO算法采用重要性采样，使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正，并通过预设参数对其进行限制；

步骤3：搭载待训练的决策模块，将仿真小车放置在不同的仿真环境中进行训练，并且充分利用仿真环境可并行训练的优势，设置多种不同类型的环境，把仿真小车视作智能体，随机初始化智能体位置与导航目标点，之后智能体根据获取的信息进行相应动作，获取环境给予的对应奖励和新的传感器信息，从而完成一次与环境的交互，把交互数据存入经验回放池，重复如上过程直至到达目标点或与障碍物发生碰撞后，本轮交互结束，回到起点，进行下一轮交互；待经验回放池中的数据达到一定数量后，取出每次导航过程中的完整序列数据，首先计算状态价值和优势函数，以最大化Actor网络的动作输出的优势为目的，计算Actor网络的损失函数，并且使用梯度下降法更新网络参数，然后以最小化Critic网络的输出与折扣回报之间的差距为目的，计算Critic网络的损失函数，使用梯度下降法更新网络参数，之后使用新的网络参数输出动作，与环境继续交互，直至训练结束；训练完毕后，得到训练好的决策模块，在训练过程中，环境给予的奖励是人为进行设置的；

步骤5：机器人根据每个时刻获取的RGB-D图像信息、激光雷达点云信息，将传感器获取的如上信息和导航信息输入到训练好的感知模块中，利用步骤4中通过完成辅助任务得到的多传感器信息融合框架进行信息融合，获取环境特征向量；

3.如权利要求2所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤1中，在二维仿真环境中进行训练，得到从激光雷达信息到避障策略的决策模块；所述步骤5中，在三维真实环境中进行避障，使用单一模态信息减小虚拟环境和真实环境之间的差距对传感器信息的影响，使用多模态信息的互补实现有效信息的获取，充分利用激光雷达的鲁棒性改善基于强化学习的避障策略的迁移问题。

4.如权利要求2或3所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤2中，使用Beta分布作为采样动作来源，使用LSTM网络和注意力机制提升网络的特征提取能力。

5.如权利要求2或3所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤3中，采用的奖励函数包括安全性能指标、效率性指标和轨迹优化性能指标，所述安全性能指标包括碰撞障碍物负奖励和与障碍物的距离负奖励，所述效率性指标包括到达终点正奖励和相邻时刻与终点距离差分的正奖励，所述轨迹优化性能指标包括加速度大小的负奖励和相邻时刻间的角速度方向差值的负奖励，以避免奖励稀疏问题。

6.如权利要求2或3所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤3中，利用二维仿真环境无需物理计算、计算资源要求低和可并行训练优点，搭建多种不同复杂程度和不同障碍物特征的避障环境。

7.如权利要求2或3所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤4中，将真实环境中的感知模块搭建作为在真实环境中避障任务的辅助任务，使用视觉传感器扩展平面激光雷达的纵向视角范围，对图像信息和激光雷达信息采用多阶段融合，将深度图像与配准后的彩色图像进行融合，只考虑不可行区域的深度，作为后续得到伪激光雷达数据的基础，将伪激光雷达数据与激光雷达数据进行融合，对深度摄像头视角范围内的激光雷达数据进行校正，使得校正后的二维激光雷达数据具有避障所需的三维环境的特征用于后续避障。

8.如权利要求7所述的基于多任务学习的机器人避障策略训练与部署方法，其特征在于，所述步骤4中，传感器融合模块作为辅助任务可以独立于在真实环境中进行避障的主任务而完成，以统一的传感器信息形式实现多传感器信息的融合，可以为后续引入其他可以转化为伪激光雷达信息的传感器奠定基础，便于后续的移动机器人系统升级和迭代开发。