CN115309164B

CN115309164B - 基于生成对抗网络的人机共融移动机器人路径规划方法

Info

Publication number: CN115309164B
Application number: CN202211034628.4A
Authority: CN
Inventors: 迟文政; 孔宇琦; 王耀; 陈鼎峰; 陈国栋; 孙立宁
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2023-06-27
Anticipated expiration: 2042-08-26
Also published as: CN115309164A

Abstract

本发明涉及一种基于生成对抗网络的人机共融移动机器人路径规划方法，包括S1：初始化行人避障区域；S2：机器人向终点导航；S3：判断机器人是否到达终点，若到达，则结束，若未到达，则执行S4；S4：对行人进行检测；S5：判断行人是否在避障区域内，若是，则执行S6，若否，则返回S2；S6：生成临时终点；S7：生成避障点；S8：机器人向避障点导航；S9：判断机器人是否到达终点，若到达，则结束，若未到达，则执行S10；S10：判断机器人是否到达避障点，若到达，则执行S2，若未到达，则执行S8。本发明综合考虑行人的信息生成避障点，引导机器人规划出一条连续、自然、安全且满足行人舒适度的路径。

Description

基于生成对抗网络的人机共融移动机器人路径规划方法

技术领域

本发明涉及人工智能技术领域，尤其是指一种基于生成对抗网络的人机共融移动机器人路径规划方法。

背景技术

近年来，人工智能技术的突破给移动型服务机器人研究带来了巨大的机遇，目前，引导机器人、扫地机器人、导购机器人、货物搬运机器人等移动型服务机器人已经成功应用到了机场、超市、博物馆、家庭等人机共融环境。这就要求机器人不仅要避开普通的障碍物，还要充分关注行人的感受，与行人保持合适的距离。目前主流导航框架中的动态避障算法如动态窗口法通常将行人视为动态障碍物，而忽略了行人的感受，使得移动机器人在导航过程中有时候会过于靠近行人，闯入行人的私人空间[2]，导致行人心理的不舒适。在拥挤的环境中，当前方法会导致机器人采取不自然、短视和不安全的运动，当行人的运动速度较快时，甚至会与行人发生碰撞，导致路径规划失败。例如，人机共融环境下，当机器人检测到迎面走来的行人时，它并不会提前考虑绕过行人的运动方向，而是在导航至行人附近时才考虑，但是由于导航目的地的吸引力，机器人无法停止路径规划，因此输出非常不连续的轨迹，导致机器人停滞，旋转或摇晃，从而影响行人的正常通行。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于生成对抗网络的人机共融移动机器人路径规划方法，其将深度学习与导航动态避障相结合，针对行人和障碍物进行区分，训练出了充分考虑行人心理感受的模型，在机器人识别到将会引起导航冲突的行人后，综合考虑行人的位置、移动方向、密度、障碍物信息以及终点信息生成避障点，引导机器人规划出一条连续、自然、安全且满足行人舒适度的路径。

为解决上述技术问题，本发明提供一种基于生成对抗网络的人机共融移动机器人路径规划方法，包括以下步骤：

S1、以当前位置的机器人为中心初始化行人避障区域，接收终点信息；

S2、机器人从当前位置向终点导航；

S3、判断机器人是否到达终点，若到达，则导航结束，若未到达，则执行步骤S4；

S4、机器人对行人进行检测并获取行人位姿信息；

S5、根据行人的位置判断行人是否在避障区域内，若是，则执行步骤S6，若否，则返回步骤S2；

S6、根据行人避障区域以及全局路径生成临时终点；

S7、将避障区域内的行人移动方向、行人相对机器人的位置以及临时终点相对机器人的位置输入至训练好的生成对抗网络的生成器中，生成坐标形式的避障点；

S8、机器人从当前位置向避障点导航；

S9、判断机器人是否到达终点，若到达，则导航结束，若未到达，则执行步骤S10；

S10、判断机器人是否到达避障点，若到达，则执行步骤S2，若未到达，则执行步骤S8。

在本发明的一个实施例中，所述步骤S2中以A*算法作为全局路径规划算法，以DWA算法作为局部路径规划算法，将两者相结合引导机器人向终点导航并更新地图。

在本发明的一个实施例中，所述步骤S3中判断机器人是否到达终点的方法包括：

将机器人在世界坐标系下的实时位置坐标与世界坐标系下的终点坐标进行比较，若两坐标距离小于等于设定的阈值，则表示到达终点，否则表示没有到达终点。

在本发明的一个实施例中，所述步骤S4中对行人进行检测并获取行人位姿信息的方法包括：

S41：通过机器人搭载的深度相机实时捕获周围图像；

S42：使用智能算法对周围图像内的行人进行检测；

S43：当检测到行人后，获取行人在像素平面下的坐标信息，并将行人的坐标信息从图像坐标系转换到世界坐标系；

S44：根据行人在世界坐标系下相邻时间位置的变化，计算出行人的移动方向。

在本发明的一个实施例中，所述步骤S43中将行人的坐标信息从图像坐标系转换到世界坐标系的方法包括：

设输出的启发式物体的中心点P在图像坐标系下的坐标为(u,v)，其在相机坐标系下的坐标为(x_c,y_c,z_c)，在世界坐标系下的坐标为(x,y,z)，三者之间存在如下映射关系:

使用齐次坐标表示相机参数，二维点到三维点的转换表示为:

其中f_x,f_y,c_x,c_y表示相机内参，R,T分别表示世界坐标系转换到相机坐标系的旋转矩阵和平移矢量。

在本发明的一个实施例中，所述步骤S5中根据行人的位置判断行人是否在避障范围内的方法包括：

S51：根据行人在世界坐标系下的位置，计算其在横坐标和纵坐标下分别到机器人所在位置的距离d_x和d_y；

S52：判断d_x和d_y是否都小于行人避障区域边长的一半，若是，则表示行人在避障区域内，若否，则表示行人不在避障区域内，其中所述行人避障区域是在栅格地图中以机器人为中心的正方形区域。

在本发明的一个实施例中，所述步骤S6中根据行人避障区域以及全局路径生成临时终点的方法包括：

S61：以设定的距离间隔逐个提取出步骤S2中规划出的全局路径的离散点；

S62：计算行人避障区域内每个离散点与最近的行人避障区域边缘的距离；

S63：筛选出与最近的行人避障区域边缘距离最小的点为临时终点。

在本发明的一个实施例中，所述步骤S7中将避障区域内的行人移动方向、行人相对机器人的位置以及临时终点相对机器人的位置输入至训练好的生成对抗网络的生成器中，生成坐标形式的避障点的方法包括：

S71：获得机器人在世界坐标系的位置；

S72：将行人在世界坐标系中的位置减去机器人在世界坐标系的位置即为行人相对机器人的位置；

S73：将临时终点在世界坐标系中的位置减去机器人在世界坐标系的位置即为临时终点相对机器人的位置。

S74：避障区域内的行人移动方向、行人相对机器人的位置及临时终点相对机器人的位置输入至生成器生成坐标形式的避障点。

此外，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述方法的步骤。

并且，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明将深度学习与导航动态避障相结合，针对行人和障碍物进行区分，训练出了充分考虑行人心理感受的模型，在机器人识别到将会引起导航冲突的行人后，综合考虑行人的位置、移动方向、密度、障碍物信息以及终点信息生成避障点，引导机器人规划出一条连续、自然、安全且满足行人舒适度的路径。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明实施例所提出的一种基于生成对抗网络的人机共融移动机器人路径规划方法的流程图。

图2为本发明实施例方法生成临时终点的示意图。

图3为本发明实施例方法生成器网络结构的示意图。

图4为本发明实施例方法判别器网络结构的示意图。

图5为本发明实施例方法训练生成对抗网络的方法流程图。

图6为本发明实施例方法生成避障点的示意图。

图7为本发明实施例方法与采用DWA算法的仿真对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参考图1所示，本发明实施例提供一种基于生成对抗网络的人机共融移动机器人路径规划方法，其包括如下步骤：

S2、机器人从当前位置向终点导航；

S4、机器人对行人进行检测并获取行人位姿信息；

S6、根据行人避障区域以及全局路径生成临时终点；

S8、机器人从当前位置向避障点导航；

具体的，所述步骤S1中的行人避障区域是在栅格地图中以机器人为中心的正方形区域，大小可以根据地图分辨率以及用户希望机器人对行人的敏感程度来调节，作为优选地，在本实例中栅格地图的大小为121×121，分辨率为0.5m。

具体的，所述步骤S2中导航以A*算法作为全局路径规划算法，以DWA算法作为局部路径规划算法，将两者相结合引导机器人向终点导航并更新地图。

具体的，所述步骤S3中判断机器人是否到达终点，将ROS订阅机器人在世界坐标系下的实时位置坐标与世界坐标系下的终点坐标进行比较，若两坐标距离小于等于设定的阈值，则表示到达终点，否则表示没有到达终点。作为优选地，本实施例中设置的坐标差阈值为0.3。

具体的，所述步骤S4中的行人检测及获取位姿信息包括以下步骤：

步骤S41：通过机器人搭载的深度相机实时捕获周围图像；

步骤S42：应用YOLOV7_tiny算法对周围图像内的行人进行检测；

步骤S43：当使用以上网络检测到行人后，就可以获取到行人(中心点P及两侧位置)在像素平面下的坐标信息。接下来实现从图像坐标系到相机坐标系再到世界坐标系的转换，我们假设输出的启发式物体的中心点P(以点P为例说明)在图像坐标系下的坐标为(u,v)，其在相机坐标系下的坐标为(x_c,y_c,z_c)，在世界坐标系下的坐标为(x,y,z)，它们之间存在如下映射关系:

为了方便实际转换计算，我们用齐次坐标表示相机参数，所以二维点到三维点的转换可表示为:

其中相机内参(f_x,f_y,c_x,c_y)可通过订阅深度相机在ROS下发布的话题得到，R,T分别表示世界坐标系转换到相机坐标系的旋转矩阵和平移矢量。

步骤S44：根据行人在世界坐标系下相邻时间位置的变化，计算出行人的移动方向。

具体的，所述步骤S5中的行人位置判断包括以下步骤：

步骤S51：根据步骤S4中输出的行人世界坐标系下的位置以及ROS订阅机器人在世界坐标系下的位置，计算行人在横坐标和纵坐标下分别到机器人所在位置的距离d_x和d_y；

步骤S52：判断dx和dy是否都小于行人避障区域边长L的一半，如果都小于则表示行人出现在避障区域内否则没有出现。作为优选地，本实施例中L的大小设置为6.05m；

具体的，所述步骤S6中的生成临时终点如图2所示，包括以下步骤：

步骤S61：以一定的距离间隔逐个提取出步骤S2中规划出的全局路径的离散点。作为优选地，本实施例中距离间隔的大小设置为0.1m；

步骤S62：计算行人避障区域内每个离散点与最近的行人避障区域边缘的距离；

步骤S63：筛选出与最近的行人避障区域边缘距离最小的点为临时终点。

具体的，所述步骤S7中的生成对抗网络是一种新的生成模型，主要分为生成器G和判别器D两个部分，将行人避障区域内行人移动方向、行人相对机器人的位置及临时终点相对机器人的位置作为条件y，避障点的坐标作为标签x。生成器根据条件y重构出标签x’；判别器分别根据条件y与标签x或者标签x’输出一个0-1的概率值，该值代表判别器对标签与条件相符合的程度的打分。

具体的，所述步骤S7中的生成对抗网络，其中生成器部分由全连接层、ReLU层和Dropout层组成，一共有五个全连接层，隐层神经元个数均为256，前四层的激活函数均为Relu，并采用丢弃率为0.5的Dropout层，它能够很好地增强生成器的泛化性能，最后一层的输出神经元个数为2，即输出避障点的坐标。生成器网络结构如图3所示。判别器的结构与生成器类似，由五个全连接层组成，隐层神经元个数均为256，前四层的激活函数均为Relu，但不采用Dropout层，最后一层的输出神经元个数为1，并使用Sigmoid激活函数后输出值为0-1的值。判别器网络结构如图4所示。

具体的，所述步骤S7中训练生成对抗网络过程为对生成器和判别器进行交替训练，训练流程如图5所示。通过最小化目标函数E_x，y[log(1-D(G(y)|y))]对生成器进行训练，通过最大化目标函数E_x，y[logD(x|y)]+E_y[log(1-D(G(y)|y))]对判别器进行训练，生成对抗网络的参数为θ，则训练过程可表示为寻找最优参数

θ^*＝arg min_G max_D E_x，y[logD(x|y)]+E_x，y[log(1-D(G(y)|y))]。

具体的，所述步骤S7中运行训练好的生成对抗网络中的生成器包括以下步骤：

步骤S71：通过ROS系统中的AMCL定位模块获得机器人在世界坐标系的位置；

步骤S72：将行人在世界坐标系中的位置减去机器人在世界坐标系的位置即为行人相对机器人的位置；

步骤S73：将临时终点在世界坐标系中的位置减去机器人在世界坐标系的位置即为临时终点相对机器人的位置；

步骤S74：将避障区域内的行人移动方向、行人相对机器人的位置及临时终点相对机器人的位置输入至训练好的生成对抗网络中的生成器，生成坐标形式的避障点，如图6所不。

具体的，所述步骤S8中的机器人从当前位置向避障点导航包括以下步骤：

步骤S81：机器人以ROS中话题的形式接收避障点；

步骤S82：机器人打断原来的导航；

步骤S83：机器人从当前位置向避障点导航。

具体的，所述步骤S9中判断机器人是否到达终点，将ROS订阅机器人在世界坐标系下的实时位置坐标与世界坐标系下的终点坐标进行比较，若两坐标距离小于等于设定的阈值，则表示到达终点，否则表示没有到达终点。作为优选地，本实施例中设置的坐标差阈值为0.3。

具体的，所述步骤S10中判断机器人是否到达避障点，将ROS订阅机器人在世界坐标系下的实时位置坐标并与世界坐标系下避障点坐标进行比较，若两坐标距离小于等于设定的阈值，则表示到达避障点，否则表示没有到达避障点。作为优选地，本实施例中设置的坐标差阈值为0.3。

为充分证明本发明的有效性，本发明与基于机器人速度采样的动态避障算法(以下用“DWA算法”表示)在仿真场景下进行了对比实验如图7所示。对同一场景总共进行了10次实验。包括5次使用DWA算法，5次使用本发明提出的方法。其中图7(a)和(c)分别为DWA算法和本发明方法在仿真至t＝23s时机器人及行人轨迹的汇总情况，图7(b)和(d)分别为DWA算法和本发明方法在仿真至机器人到达终点时机器人及行人轨迹的汇总情况。实验对比的指标是机器人导航过程中所花的时间、轨迹长度、侵入行人私人空间次数(即机器人与行人间距离小于1.2m)以及导航失败次数(即机器人在导航过程中撞向行人或障碍物)。

实验数据显示(如表1所示)，本发明方法相比于DWA算法，导航时间减少了19.1％，导航失败和侵入行人私人空间情况得到明显的改善。

表1实验数据

算法	平均导航时间(s)	平均导航轨迹长度(m)	侵入私人空间次数	导航失败次数
					DWA	42.80	14.00	2	3
本发明	34.62	15.44	1	0

相应于上面的方法实施例，本发明实施例还提供了一种计算机设备，包括：

存储器，其用于存储计算机程序；

处理器，其用于执行计算机程序时实现上述基于生成对抗网络的人机共融移动机器人路径规划方法的步骤。

在本发明实施例中，处理器可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器可以调用存储器中存储的程序，具体的，处理器可以执行基于生成对抗网络的人机共融移动机器人路径规划方法的实施例中的操作。

存储器中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令。

此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述基于生成对抗网络的人机共融移动机器人路径规划方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于，包括以下步骤：

S2、机器人从当前位置向终点导航；

S4、机器人对行人进行检测并获取行人位姿信息；

S6、根据行人避障区域以及全局路径生成临时终点；

S8、机器人从当前位置向避障点导航；

S10、判断机器人是否到达避障点，若到达，则执行步骤S2，若未到达，则执行步骤S8；

所述步骤S6中根据行人避障区域以及全局路径生成临时终点的方法包括：

S63：筛选出与最近的行人避障区域边缘距离最小的点为临时终点；

所述步骤S7中的生成对抗网络分为生成器G和判别器D两个部分，将行人避障区域内行人移动方向、行人相对机器人的位置及临时终点相对机器人的位置作为条件y，避障点的坐标作为标签x，生成器根据条件y重构出标签x’；判别器分别根据条件y与标签x或者标签x’输出一个0-1的概率值，该值代表判别器对标签与条件相符合的程度的打分；

步骤S7中的生成对抗网络，其中生成器部分由全连接层、ReLU层和Dropout层组成，一共有五个全连接层，隐层神经元个数均为256，前四层的激活函数均为Relu，并采用丢弃率为0.5的Dropout层，最后一层的输出神经元个数为2，即输出避障点的坐标；判别器由五个全连接层组成，隐层神经元个数均为256，前四层的激活函数均为Relu，但不采用Dropout层，最后一层的输出神经元个数为1，并使用Sigmoid激活函数后输出值为0-1的值；

所述步骤S7中训练生成对抗网络过程为对生成器和判别器进行交替训练，训练过程通过最小化目标函数E_x，y[log(1-D(G(y)|y))]对生成器进行训练，通过最大化目标函数E_x，y[logD(x|y)]+E_y[log(1-D(G(y)|y))]对判别器进行训练，生成对抗网络的参数为θ，则训练过程可表示为寻找最优参数：

θ^*＝arg min_Gmax_DE_x，y[logD(x|y)]+E_x，y[log(1-D(G(y)|y))]；

所述步骤S7中运行训练好的生成对抗网络中的生成器包括以下步骤：

步骤S74：将避障区域内的行人移动方向、行人相对机器人的位置及临时终点相对机器人的位置输入至训练好的生成对抗网络中的生成器，生成坐标形式的避障点。

2.如权利要求1所述的基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于：所述步骤S2中以A*算法作为全局路径规划算法，以DWA算法作为局部路径规划算法，将两者相结合引导机器人向终点导航并更新地图。

3.如权利要求1所述的基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于：所述步骤S3中判断机器人是否到达终点的方法包括：

4.如权利要求1所述的基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于：所述步骤S4中对行人进行检测并获取行人位姿信息的方法包括：

S41：通过机器人搭载的深度相机实时捕获周围图像；

S42：使用智能算法对周围图像内的行人进行检测；

5.如权利要求4所述的基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于：所述步骤S43中将行人的坐标信息从图像坐标系转换到世界坐标系的方法包括：

使用齐次坐标表示相机参数，二维点到三维点的转换表示为:

6.如权利要求4所述的基于生成对抗网络的人机共融移动机器人路径规划方法，其特征在于：所述步骤S5中根据行人的位置判断行人是否在避障范围内的方法包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。