CN111596668B

CN111596668B - 基于逆向强化学习的移动机器人拟人化路径规划方法

Info

Publication number: CN111596668B
Application number: CN202010556856.2A
Authority: CN
Inventors: 迟文政; 丁智宇; 陈国栋; 孙立宁
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-12-21
Anticipated expiration: 2040-06-17
Also published as: CN111596668A

Abstract

本发明涉及一种基于逆向强化学习的移动机器人拟人化路径规划方法，包括：创建运动规划场景，作为地图，根据机器人在所述地图上的信息采集数据集；规定一个训练轮回的场景数，所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同；计算当前场景的代价地图；在所述代价地图中机器人自主重复规划多次路径，计算规划路径的特征和以及所述数据集中示范路径的特征和；判断示范路径与规划路径是否同伦，根据同伦结果结合两条路径的长度判断是否引入惩罚函数增加规划路径的特征和。本发明有利于形成更为安全可靠、自然舒适的路径。

Description

基于逆向强化学习的移动机器人拟人化路径规划方法

技术领域

本发明涉及人工智能技术的技术领域，尤其是指一种基于逆向强化学习的移动机器人拟人化路径规划方法。

背景技术

人工智能技术的突破给移动型服务机器人研究带来了巨大的机遇，目前，引导机器人、扫地机器人、导购机器人、货物搬运机器人等移动型服务机器人已经成功应用到了机场、超市、博物馆、家庭等多种环境。移动型机器人路径规划是指在无人干预的条件下，在给定的初始和目标点之间找到一条无碰撞且满足规定的各种约束的路径。相比于工业机器人，人机共融环境下的移动机器人工作环境更加复杂，如何在复杂的动态人机共存环境中高效快速地找到拟人化的最优运动轨迹是移动机器人要研究的重要问题之一。

然而，目前的大多数路径规划算法仅仅将周围行人看作动态障碍物，使得机器人缺乏社会意识，忽视行人的感受，无法像人一样和其他行人交互，容易打断人们的交谈。因此如何在路径规划过程中引入行人运动规则是拟人化路径规划算法要研究的重要问题，通过专家示范路径学习行人运动规则是解决这一问题的有效手段。通过结合逆向强化学习与路径规划器(path planner)，实现行人运动特征的提取，进一步指导机器人路径规划。

当前，主要的路径规划算法可以大致分为以下五类：基于前向搜索的路径规划算法、基于势场的路径规划算法、基于人工智能的路径规划算法、基于机器学习的路径规划算法和基于随机采样的运动规划算法。其中，基于随机采样的路径规划算法避免了对状态空间的建模，极大地减少了规划时间和内存成本，更适用于解决动态环境的路径规划问题。因此逆向强化学习结合基于采样的路径规划算法能够更好地将行人的社会规范与路径规划算法有机结合，准确高效地应用于动态人机共融环境中。

对于较为简单以及部分的复杂场景，逆向强化学习能够训练出一组收敛的权重指导RRTS规划出与示范路径较为相符的路径。如图1a所示两个行人在相互接近，示范路径和通过学习之后规划出的路径都能够避开行人，不打断行人之间的社交活动。

然而，随着场景中行人数量的增多、行人间运动情况更为复杂时，通过大规模场景数量训练得到的权重规划出的路径会打断行人的行走和行人之间的社交活动，无法适用于部分复杂场景。如图1b所示，行人1在向行人2前进的过程中，会被机器人规划出的路径所阻碍，打断两人接近，而示范路径虽然较长，但是能够确保行人的行动不被干扰。相比而言，如图1b所示，规划路径的表现较为僵硬，缺乏社会意识，忽视行人的感受，无法像人一样和其他行人交互，容易打断人们的交谈，干扰行人原有的运动轨迹，行人往往需要对机器人的运动进行妥协，缺乏自然舒适的交互体验。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中易干扰行人正常行走与活动，导致形成的轨迹路径不安全及舒适的问题，从而提供一种形成的轨迹路径安全及舒适的基于逆向强化学习的移动机器人拟人化路径规划方法。

为解决上述技术问题，本发明的一种基于逆向强化学习的移动机器人拟人化路径规划方法，包括如下步骤：步骤S1：创建运动规划场景，作为地图，根据机器人在所述地图上的信息采集数据集；步骤S2：规定一个训练轮回的场景数，所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同；步骤S3：计算当前场景的代价地图；步骤S4：在所述代价地图中机器人自主重复规划多次路径，计算规划路径的特征和以及所述数据集中示范路径的特征和；步骤S5：判断示范路径与规划路径是否同伦，若同伦，进入步骤S7，若否，则继续判断示范路径是否比规划路径长，若是，进入步骤S6，若否，进入步骤S7；步骤S6：引入惩罚函数增加规划路径的特征和；步骤S7：计算规划路径的平均特征和；步骤S8：判断是否训练完一个轮回，若是，计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和，进入步骤S9；若否，计算下一个场景的代价地图，返回步骤S4；步骤S9：计算梯度，根据梯度下降算法更新特征权重，判断各个特征的权重是否收敛，若是，终止训练过程，返回逆向强化学习最终学习到的特征权重，若否，计算下一个场景的代价地图，返回步骤S4。

在本发明的一个实施例中，所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。

在本发明的一个实施例中，根据机器人在所述地图上的信息采集数据集的方法为：在所述地图中设定机器人的起点和终点坐标，将终点坐标标注在地图上；控制机器人从起点运行到终点，并记录机器人在运行过程中的数据。

在本发明的一个实施例中，所述数据包括传感器采集的环境信息、行人的坐标与方向、机器人的初始位置、目标点的坐标。

在本发明的一个实施例中，所述传感器为激光雷达。

在本发明的一个实施例中，所述数据集还包括验证集。

在本发明的一个实施例中，所述代价地图的计算方法为：计算地图中每一个点的各个特征对应的特征值，包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值，遍历地图，计算得到特征代价地图。

在本发明的一个实施例中，机器人自主重复规划多次路径的方法为：每个场景重复用RRT*算法产生多条规划路径。

在本发明的一个实施例中，所述惩罚函数为：

l_demo、l_makeplan分别表示示范路径和规划路径的长度。

在本发明的一个实施例中，终止训练过程，返回逆向强化学习最终学习到的特征权重后，根据获得的特征权重进行路径规划，验证机器人在人机共融环境中的导航效果。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于逆向强化学习的移动机器人拟人化路径规划方法，在逆向强化学习的梯度计算中引入了惩罚函数对特征和之差进行惩罚，使训练得到的权重能够正确地综合衡量路径长度、行人舒适度模型、到最近障碍物的距离，减少由于原本有所偏置的权重产生干扰行人正常行走与活动的轨迹，形成更为安全可靠、自然舒适的路径。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1a是两条路径关于行人同伦的示意图；

图1b是两条路径关于行人不同伦的示意图；

图2是本发明基于逆向强化学习的移动机器人拟人化路径规划方法流程图；

图3a是静态环境地图示意图；

图3b是添加行人、起点(机器人所在的位置)、终点之后的训练用图；

图4是本发明数据集的采集示意图；

图5是人机共融环境模型的示意图；

图6a是导入逆向强化学习的原始数据集的示意图；

图6b是代价地图的示意图；

图7是非同伦检测原理示意图；

图8a是引入惩罚函数前的特征权重的收敛情况；

图8b是引入惩罚函数后的特征权重的收敛情况；

图9是引入惩罚函数改进后的通过逆向强化学习生成的路径。

具体实施方式

如图2所示，本实施例提供一种基于逆向强化学习的移动机器人拟人化路径规划方法，包括如下步骤：步骤S1：创建运动规划场景，作为地图，根据机器人在所述地图上的信息采集数据集；步骤S2：规定一个训练轮回的场景数，所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同；步骤S3：计算当前场景的代价地图；步骤S4：在所述代价地图中机器人自主重复规划多次路径，计算规划路径的特征和以及所述数据集中示范路径的特征和；步骤S5：判断示范路径与规划路径是否同伦，若同伦，进入步骤S7，若否，则继续判断示范路径是否比规划路径长，若是，进入步骤S6，若否，进入步骤S7；步骤S6：引入惩罚函数增加规划路径的特征和；步骤S7：计算规划路径的平均特征和；步骤S8：判断是否训练完一个轮回，若是，计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和，进入步骤S9；若否，计算下一个场景的代价地图，返回步骤S4；步骤S9：计算梯度，根据梯度下降算法更新特征权重，判断各个特征的权重是否收敛，若是，终止训练过程，返回逆向强化学习最终学习到的特征权重，若否，计算下一个场景的代价地图，返回步骤S4。

本实施例所述基于逆向强化学习的移动机器人拟人化路径规划方法，所述步骤S1中，创建运动规划场景，作为地图，根据机器人在所述地图上的信息采集数据集，从而有利于为机器人提供训练场景和对比路径；所述步骤S2中，规定一个训练轮回的场景数，所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同，从而有利于减小权重的更新频率，并且使得确定的下降方向更准，引起的训练震荡更小；所述步骤S3中，计算当前场景的代价地图，从而有利于机器人自主规划路径，进行评判；所述步骤S4中，在所述代价地图中机器人自主重复规划多次路径，计算规划路径的特征和以及所述数据集中示范路径的特征和，从而有利于计算梯度；所述步骤S5中，判断示范路径与规划路径是否同伦，若同伦，进入步骤S7，若否，则继续判断示范路径是否比规划路径长，若是，进入步骤S6，若否，进入步骤S7，从而有利于保证规划路径符合拟人化；所述步骤S6中，引入惩罚函数增加规划路径的特征和，从而有利于使训练得到的权重能够正确地综合衡量路径长度、行人舒适度模型、到最近障碍物的距离；所述步骤S7中，计算规划路径的平均特征和，从而有利于计算梯度；所述步骤S8中，判断是否训练完一个轮回，若是，计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和，进入步骤S9；若否，计算下一个场景的代价地图，返回步骤S4；所述步骤S9中，计算梯度，根据梯度下降算法更新特征权重，判断各个特征的权重是否收敛，若是，终止训练过程，返回逆向强化学习最终学习到的特征权重，若否，计算下一个场景的代价地图，返回步骤S4，本发明减少了由于原本有所偏置的权重产生干扰行人正常行走与活动的轨迹，因此有利于形成更为安全可靠、自然舒适的路径。

所述步骤S1中，所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。如图3a所示，所述静态地图中包括障碍物。通过线下方式完成训练场景的设计，对于同一幅静态地图来说，通过更改行人的位置即可完成相似场景的训练地图的绘制，提高训练场景设计的效率和静态地图的可复用性。

所述地图采用二维静态障碍物栅格地图，具体地，在机器人操作系统(RobotOperating System，简称ROS)下，通过发布话题在地图中加入行人的坐标和行走方向并在rviz里可视化行人在环境中的位置，如图3b所示。

根据机器人在所述地图上的信息采集数据集的方法为：在所述地图中设定机器人的起点和终点坐标，将终点坐标标注在地图上，有利于实现终点坐标可视化；控制机器人从起点运行到终点，并记录机器人在运行过程中的数据。具体地，志愿者通过遥控手柄就可以控制机器人。

所述数据包括传感器采集的环境信息、示范路径、行人的坐标与方向、机器人的初始位置、目标点的坐标。所述传感器为激光雷达。在本实施例中，上述数据信息通过ROS的rosbag指令来记录，并在之后的训练过程中通过话题的形式发布出来。

所述数据集还包括验证集，用于根据得到的权重进行路径规划，验证机器人在人机共融环境中的导航效果。

如图4所示，使用遥控手柄控制仿真环境中的机器人走出一条示范路径，为了缩小数据集的大小，用简单的圆柱体和箭头表示行人和愚运动方向方向，通过ROS(RobotOperating System，机器人操作系统)的rosbag功能记录起点、终点、示范路径、行人坐标和方向、障碍物等相关信息形成bag文件一数据集。其中传感器的数据通过数据转换(LaserScan->PointCloud2)以备兼容训练场景的环境描述格式，机器人的当前位置合并成一条有序的含时间序列的示范路径，将场景数目扩充至25(如15组训练集，10组验证集)，至此完成数据集的采集。

所述步骤S3中，所述代价地图的计算方法为：计算地图中每一个点的各个特征对应的特征值，包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值，遍历地图，计算得到特征代价地图。

如图5所示，f₁表示点到目标点的距离，f₂表示点到最近障碍物的距离，f_3-5分别表示点关于行人的前、后、右三个方向的高斯模型的代价值。以点x_k为例，f₁(x_k)＝||x_k，x_goal||，

相比于以最短路径到达目标点，蜿蜒平滑的虚线路径更能够准确地避开行人，与行人自然舒适地进行交互。

如图6a所示，基于训练集的话题，计算障碍物膨胀层、行人周围三个方向的高斯模型、点到目标的距离，配合这三大模块对应的五组特征于特征权重计算得到代价地图，如图6b所示。

下面详细说明代价地图的具体计算方法：

以地图中的某个点为例：点到目标点距离f₁、点到最近障碍物的距离f₂、点在行人模型的位置对应的高斯模型代价值(模型前面f₃、模型后面f₄、模型右面f₅)，构成了一组某个点的特征值向量f＝[f₁，f₂，f₃，f₄，f₅]^T。

点x_k各个特征对应的特征值的计算方法分别为：

f₁(x_k)＝||x_k，x_goal||

其中，γ表示正则化参数，a1，a2表示函数的调节参数，d_jk表示节点到第j个行人的距离，α_jk表示节点与第j个行人的角度，||.||表示两点间的欧氏距离。

以单个点x_k的成本函数为例：

遍历地图，计算得到特征代价地图。f表示节点的特征值，w表示特征值对应的权重。

机器人自主重复规划多次路径的方法为：每个场景重复用RRT*算法产生多条规划路径。

所述RRT*算法中路径ζ的成本函数为：

f(ζ)＝[f(ζ)₁，f(ζ)₂，f(ζ)₃，f(ζ)₄，f(ζ)₅]^T

路径ζ一共有N个节点，x_i表示第i个节点，||x_i+1-x_i||表示第i与i+1个节点之间的欧氏距离，f(ζ)表示规划路径的特征和(路径ζ所有节点的各个特征值之和)，f(ζ)_j表示路径ζ所有节点的第j个特征的特征值之和，f_j(x_i)表示路径中第i个节点的第j个特征的特征值。

所述步骤S4中，计算当前场景i的规划路径和所述数据集中示范路径的特征和f_{RRT*_i_j}(j＝1，...，r)、f_{demo_i}。其中，每个场景重复用RRT＊算法产生r条规划路径，j表示该场景的第j条规划路径。

所述步骤S5中，两条路径同伦是指一条路径能够平滑地变为另外一条路径，且变形的过程中不遇到任何障碍物。如果示范路径和规划路径相对于行人在同一侧，那么称这两条路径关于行人同伦，如图1a；否则，不同伦，如图1b。一般地，规划路径与示范路径同伦时，规划路径较能符合本申请的预期，训练效果较好。相反，当规划路径与示范路径不同伦时，认为规划路径缺乏拟人性。

如图7所示，为了以示区分，节点稀疏的路径是示范路径，节点稠密的路径是规划路径，若某个节点对之间的线段穿过行人的部分区域，则证明两条路径非同伦，如果此时示范路径的长度大于规划路径，那么引入惩罚函数。否则，直接执行步骤S7。具体的判定两条路径是否同伦的方法如下：

为了加快检测速率，从起始点开始，以各自的路径总结点数为基数，按相同比例在示范路径和自主规划路径上各选取检测点，组成节点对，连接检测点对形成节点对线段，通过节点对线段判断示范路径与规划路径之间是否有行人。示范路径上第k个节点的坐标表示为：(x_{k_demo}，y_{k_demo})，规划路径上第k个节点的坐标表示为(x_{k_makeplan}，y_{k_makeplan})，其计算方式为：

其中demo、makeplan分别表示存储示范路径与规划路径有序节点的容器。

节点对组成的线段斜率(1)

根据计算的斜率以及节点对求出线段(若斜率不存在，每隔RRT＊的最小扩展步长沿着节点对取点)，以RRT＊的节点最小扩展距离为步长遍历线段，判断线段上是否存在某个点出现在行人附近的区域，判断方法如下：

is_homotopy＝max(dist(i，p_j))＞r_j？

其中，dist表示线段上的第i个节点到第j个行人的距离，r_j表示第j个行人的区域半径。若上式成立，则两条路径非同伦，否则，两条路径同伦。

所述步骤S6中，所述惩罚函数为：

l_demo、l_makeplan分别表示示范路径和规划路径的长度。

具体地，通过惩罚函数项P(w)可以增加原来的规划路径的行人对应的特征和。具体计算方式如下：

f_{RRT*_i_j}＝f_{RRT*_i_j}+cP(w)

c＝(c₁，c₂，c₃，c₄，c₅)

其中，两条路径同伦时，nohomotopy＝0，否则nohomotopy＝1，l_demo、l_makeplan分别表示示范路径和规划路径的长度，c_i是对规划路径的特征和f_i的惩罚力度，根据不同的训练效果设定。

所述步骤S7中，计算规划路径的平均特征和的方法为：

所述步骤S8中，计算所述训练轮回场景数中所有规划路径的平均特征和的方法为：计算一个轮回S个场景的规划路径的平均特征和

计算所述训练轮回场景数中所有示范路径的平均特征和的方法为：计算一个轮回S个场景的示范路径的平均特征和

所述步骤S9中，计算梯度的公式为：

梯度下降更新权重

其中，λ是调节因子，

是递增的稳定参数，

表示特征f_i的梯度，w_i表示特征f_i的权重。

另外，返回逆向强化学习最终学习到的特征权重最终交由实际场景的机器人进行RRT＊算法规划路径。

如图8a和图8b所示，训练到后期，常规逆向强化学习和引入惩罚函数的逆向强化学习都能使权重收敛，且特征和之差也趋于稳定。值得注意的是，后者关于行人的特征权重较高于前者，也因此弥补了常规的逆向强化学习方法在部分复杂场景中的不足。如图9所示，基于惩罚函数的逆向强化学习能够配合RRT＊算法产生充分尊重行人心理舒适感的路径，给予行人间正常交流与活动充分便利。

本实施例中，所述步骤S2至所述步骤S9形成一个逆向学习框架，在施具体应用时，将采集的数据集输入至所述逆向学习框架中，就可以输出结果，得到最终学习到的特征权重。

终止训练过程，返回逆向强化学习最终学习到的特征权重后，根据获得的特征权重进行路径规划，验证机器人在人机共融环境中的导航效果。其中人机共融环境来源于所述数据集中的验证集。在验证集中验证步骤S9返回的权重的效果。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于，包括如下步骤：

步骤S1：创建运动规划场景，作为地图，根据机器人在所述地图上的信息采集数据集，根据机器人在所述地图上的信息采集数据集的方法为：在所述地图中设定机器人的起点和终点坐标，将终点坐标标注在地图上；控制机器人从起点运行到终点，并记录机器人在运行过程中的数据；

步骤S2：规定一个训练轮回的场景数，所述训练轮回的场景数的数量与所述数据集中的训练集中场景数的数量相同；

步骤S3：计算当前场景的代价地图，所述代价地图的计算方法为：计算地图中每一个点的各个特征对应的特征值，包括该点到目标点距离、该点到最近障碍物的距离、该点在行人模型的位置对应的高斯模型代价值，遍历地图，计算得到特征代价地图，点到目标点距离f₁、点到最近障碍物的距离f₂、点在行人模型的位置对应的高斯模型代价值，模型前面f₃、模型后面f₄、模型右面f₅，构成了一组某个点的特征值向量f＝[f₁，f₂，f₃，f₄，f₅]^T，点x_k各个特征对应的特征值的计算方法分别为：f₁(x_k)＝||x_k，x_goal||、

其中，Y表示正则化参数，a1，a2表示函数的调节参数，d_jk表示节点到第j个行人的距离，α_jk表示节点与第j个行人的角度，||·||表示两点间的欧氏距离，对单个点x_k的成本函数

遍历地图，计算得到特征代价地图，f表示节点的特征值，w表示特征值对应的权重；

步骤S4：在所述代价地图中机器人自主重复规划多次路径，计算规划路径的特征和以及所述数据集中示范路径的特征和；

步骤S5：判断示范路径与规划路径是否同伦，若同伦，进入步骤S7，若否，则继续判断示范路径是否比规划路径长，若是，进入步骤S6，若否，进入步骤S7；

步骤S6：引入惩罚函数增加规划路径的特征和；

步骤S7：计算规划路径的平均特征和；

步骤S8：判断是否训练完一个轮回，若是，计算所述训练轮回场景数中所有规划路径的平均特征和以及示范路径的平均特征和，进入步骤S9；若否，计算下一个场景的代价地图，返回步骤S4；

步骤S9:计算梯度，根据梯度下降算法更新特征权重，判断各个特征的权重是否收敛，若是，终止训练过程，返回逆向强化学习最终学习到的特征权重，若否，计算下一个场景的代价地图，返回步骤S4。

2.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：所述场景包括静态地图和行人位置、机器人的出发点以及目标点、行人运动方向。

3.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：所述数据包括传感器采集的环境信息、行人的坐标与方向、机器人的初始位置、目标点的坐标。

4.根据权利要求3所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：所述传感器为激光雷达。

5.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：所述数据集还包括验证集。

6.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：机器人自主重复规划多次路径的方法为：每个场景重复用RRT*算法产生多条规划路径。

7.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：所述惩罚函数为：

l_demo、l_makeplan分别表示示范路径和规划路径的长度。

8.根据权利要求1所述的基于逆向强化学习的移动机器人拟人化路径规划方法，其特征在于：终止训练过程，返回逆向强化学习最终学习到的特征权重后，根据获得的特征权重进行路径规划，验证机器人在人机共融环境中的导航效果。