CN113096161A

CN113096161A - 一种密集行人环境下强化学习移动机器人的导航方法及装置

Info

Publication number: CN113096161A
Application number: CN202110353618.6A
Authority: CN
Inventors: 刘奇; 李衍杰; 牟涌金; 许运鸿; 刘悦丞; 高建琦
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-09

Abstract

本发明公开了一种基于空间‑时间图注意力神经网络的密集行人环境下强化学习移动机器人的导航方法，首先使用了三维多物体跟踪JRMOT技术进行2D和3D的行人轨迹追踪技术，对行人的位置进行实时追踪，在让机器人使用空间‑时间图注意力STGAT模型，根据行人历史轨迹预测未来轨迹，当机器人在行人环境中有了各个行人的轨迹后，再使用蒙特卡洛树搜索和价值估计网络，做出最优决策，进行导航任务。本发明能够在密集行人环境下快速做出避障决策，拓展了移动机器人的应用场景。

Description

一种密集行人环境下强化学习移动机器人的导航方法及装置

技术领域

本发明属于移动机器人导航领域，涉及一种密集行人环境下强化学习移动机器人的导航方法及装置，尤其涉及一种基于空间-时间图注意力神经网络的密集行人环境下强化学习移动机器人的导航方法及装置。

背景技术

近些年，移动机器人越来越多的应用于各个领域，作为机器人的核心功能，移动机器人的导航是人们重点研究的方向。面对机器人在复杂的动态环境中，如何快速有效的导航并且能与环境无碰撞是一个急需解决的问题。当前移动机器人可以在静态环境中高效的解决导航避障问题，然而面对现实的人类生活环境，需要机器人在执行导航任务时，根据瞬息变化的环境，做出有效的决策，传统的导航算法并不能解决此问题，随着人工智能技术的飞速发展，将其应用到机器人导航的过程中，已经是不约而同的做法，对移动机器人导航发展具有重大意义。

发明内容

本发明为了解决现有技术中的问题，提出了一种密集行人环境下强化学习移动机器人的导航方法，该方法基于空间-时间图注意力神经网络，该方法能够在密集行人环境下快速做出避障决策，拓展了移动机器人的应用场景。

为了达到上述目的，本发明的实施例提供了一种密集行人环境下强化学习移动机器人的导航方法，包括以下步骤：

S101：采用JRMOT技术对行人轨迹进行实时追踪，所述JRMOT技术在多目标跟踪MOT的基础上，引入3D检测；

S102：基于获取到的行人轨迹信息，采用空间-时间图注意力模型对行人轨迹进行预测；

S103：基于行人的历史轨迹和预测轨迹，采用蒙特卡洛树搜索方法和价值估计网络进行决策，获得机器人的导航方案。

进一步地，所述JRMOT技术包括输入、检测、追踪三个部分；

在输入部分，包括2DRGB图像和3D点云信息；对于2D检测器，其输入周围环境2DRGB图像，采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合

对于3D检测器，其采集周围环境的3D点云信息，然后采用F-PointNet算法对其进行检测和特征提取得到

对于提取到的

和

进行特征耦合，使二者经过一个三层的全连接神经网络，输出一个新的融合特征；在追踪轨迹时，对t-1时刻和t时刻的轨迹关联起来。

进一步地，采用卡尔曼滤波器对追踪轨迹的输出进行滤波，以此来估计一条平滑的3D轨迹，以此来输出每一个追踪对象的轨迹。

进一步地，采用空间-时间图注意力STGAT模型进行行人轨迹预测，具体包括：

采用LSTM捕捉每个行人的历史运动状态，并且用M-LSTM和G-LSTM来表示对行人的运动状态进行编码过程；在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后，将这二者进行结合，以此实现空间-时间信息融合；采用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理；使用D-LSTM作为解码器；对模型训练后，机器人可以预测出行人的未来轨迹。

进一步地，采用蒙特卡洛树搜索方法和价值估计网络决策，具体为：使用状态价值预测网络对推演的状态进行价值估计，根据每个状态的价值，不断地优化出最优策略，机器人根据以此策略选择执行的动作。

本发明实施例还提供了一种密集行人环境下强化学习移动机器人的导航装置，包括以下模块：

行人轨迹实时追踪模块，采用JRMOT技术对行人轨迹进行实时追踪，所述JRMOT技术在多目标跟踪MOT的基础上，引入3D检测；

行人轨迹预测模块，基于获取到的行人轨迹信息，采用空间-时间图注意力模型对行人轨迹进行预测；

决策模块，基于行人的历史轨迹和预测轨迹，采用蒙特卡洛树搜索方法和价值估计网络进行决策，获得机器人的导航方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的密集行人环境下强化学习移动机器人的导航方法流程图；

图2为本发明的基于2D和3D信息检测行人轨迹系统框图；

图3为本发明的用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理示意图；

图4为本发明的基于时间与空间预测行人轨迹的系统框图；

图5为本发明的机器人基于行人轨迹进行蒙特卡洛树搜索优化策略示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的密集行人环境下强化学习移动机器人的导航方法，流程图如图1所示，包括：在机器人执行导航任务时，面对复杂的行人环境，使用2D与3D行人检测及追踪技术，实时追踪行人位置，再根据历史轨迹构建空间-时间图注意力(STGAT)模型进行行人轨迹预测，根据预测的轨迹，机器人使用蒙特卡洛树搜索和价值估计网络，选择最优动作进行决策导航。

具体的实现步骤如下：

S101，首先对行人轨迹进行实时追踪，采用JRMOT技术，在多目标跟踪(multi-object tracking，MOT)基础上，加入了3D检测技术。JRMOT技术参见非专利文献1。

JRMOT技术包括输入、检测、追踪三个部分。

在输入部分，分为2DRGB图像和3D点云信息两个输入信息部分。

对于2D检测器，其输入周围环境2DRGB图像，输出一个参数集合：

本发明优选采用最先进的图像分割Mask R-CNN(参见非专利文献2)或目标检测器YOLO(参见非专利文献3)架构作为2D检测器。

对于3D检测器，其采集周围环境的3D点云信息，然后对其进行检测和特征提取得到

本发明优选采用F-PointNet算法(参见非专利文献4)作为3D检测器。

对于提取到的

和

进行特征耦合，使二者经过一个三层的全连接神经网络，输出一个新的融合特征。

在第三部分追踪轨迹时，需要对t-1时刻和t时刻的轨迹关联起来。本发明优选采用JPDA(参见非专利文献5)，它对杂波具有很强的抗噪性。

并且构造特征和3D IoU两个成本矩阵，通过熵测量的方法选择需要哪个成本矩阵，对每一个轨迹的阈值范围内的检测进行JPDA式的关联。

由于2D检测与3D检测通常是有噪声的，因此，采用卡尔曼滤波器对输出进行滤波，以此来估计一条平滑的3D轨迹，以此来输出每一个追踪对象的轨迹，具体流程如图2所示。

S102，在机器人得到周围行人的轨迹信息后，需要对行人未来的轨迹进行预测，因此采用空间-时间图注意力(Spatial-Temporal Graph Attention，STGAT)模型进行行人轨迹预测。空间-时间图注意力模型可参见非专利文献6。

若机器人周围环境中有N个行人，分别表示为p₁，p₂，...，p_N，第i个行人在t时刻的位置为

给定每一位行人在前t时刻t＝1，...，T_obs的位置，要预测出行人t＝T_obs+1，...，T_pred的位置。

采用长短期记忆人工神经网络(Long Short-Term Memory，LSTM)捕捉每个行人的历史运动状态。LSTM可参见非专利文献7。

并且用M-LSTM来表示对行人的运动状态进行编码过程，在此之前需要计算每个行人与前一个时间步长的相对位置，即：

然后将计算好的相对位置嵌入到每一个时间步长的固定长度向量

中，将这些向量作为LSTM单元的输入，即：

其中函数

为嵌入函数，W_ee为嵌入权值，

是M-LSTM在时刻t的隐状态，W_m是M-LSTM单元的权重。

预测行人的轨迹，不仅要用M-LSTM对每个行人轨迹进行编码，还要考虑行人之间交互的影响，因此采用GNNs(Graph neural networks)和GAT(Graph Attention Network)方法对每个时刻即每一层的行人轨迹进行处理，具体如图3所示。

每一层输入集合为

其中

N是节点的个数，F是每一个节点的特征维度，则输出为

其中

F与F′可能不相等。

前面提到机器人观测到的历史轨迹为

作为输入信息，节点之间的注意力系数可用下式计算：

上式中||是拼接操作，

是节点j到节点i在时刻t的注意力系数，

是节点i所关联的节点个数，W∈R^F′×F是一个加权矩阵，a∈R^2F′为单层前馈神经网络的权值向量，LeakyReLU为激活函数。

在得到归一化的系数后，则在节点i在时刻t的输出为：

其中σ为非线性函数。为了明确行人轨迹的时间关联性，采用G-LSTM：

在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后，将这二者进行结合，以此实现空间-时间信息融合。

在T_obs中，使用M-LSTM和G-LSTM对每个行人的轨迹进行编码后可以得到

在将二者进行结合前需要将其输入进多层感知器δ₁(·)、δ₂(·)，然后可得：

然后再添加噪声z：

使用D-LSTM作为解码器，

作为D-LSTM的初始隐状态，则预测的相对位置为：

其中W_d是权重，δ₃(·)是线性函数，得到T_obs+1的相对位置后，可以计算出后续的行人的绝对位置，并且D-LSTM的后续输入位置也可易得。

更新网络参数，计算损失函数，对于每个行人，模型通过从

(标准正态分布)中随机抽样z个预测轨迹(可参见非专利文献8)，然后选择距离真实值最小的轨迹作为模型输出，计算损失函数：

上式中Y_i为行人的真实轨迹，

为模型预测轨迹，k为超参数。

通过对模型训练后，机器人可以预测出行人的未来轨迹，预测轨迹总流程如图4所示。

S103，在得到行人的历史轨迹和预测的轨迹后，机器人需要使用蒙特卡洛树搜索方法和价值估计网络，以此选择最优动作进行决策导航(蒙特卡洛树搜索方法和价值估计网络参见非专利文献9)。

根据每个行人的当前时刻位置和预测的未来位置p＝[p_x，p_y]，速度v＝[v_x，v_y]与半径r(一个抽象的用来测量的标准)，还有期望的目标位置pg与速度vpref，分别用

和

表示时间t时机器人的状态和第i个人的观察状态。

则机器人的输入状态定义为

最大化的得到最优策略：

上式中(S^t，a^t)是在t时刻接收的奖励，γ∈(0，1)为折扣因子，V^*是最优价值函数，P(S^t，a^t，S^t+Δt)表示概率，遵循非专利文献10中定义的奖励函数公式：

上式中d^t为机器人距离行人的最小距离，使用蒙特卡洛树搜索的方法进行d步推演.

使用状态价值预测网络对推演的状态进行价值估计，根据每个状态的价值，不断地优化出最优策略，机器人根据以此策略选择执行的动作，如附图5所示。

本发明引用的非专利文献如下：

非专利文献1：Shenoi A，Patel M，Gwak J Y，et al.Jrmot：A real-time 3dmulti-object tracker and a new large-scale dataset[J].arXiv preprint arXiv：2002.08397.2020.

非专利文献2：K.He，G.Gkioxari，P.Dollár，and R.Girshick，“Mask r-cnn，”inProceedings of the IEEE ICCV，2017.

非专利文献3：J.Redmon，S.Divvala，R.Girshick，and A.Farhadi，“You onlylook once：Unified，real-time object detection，”in IEEE CVPR.

非专利文献4：C.R.Qi，W.Liu，C.Wu，H.Su，and L.J.Guibas，“Frustum pointnetsfor 3d object detection from RGB-D data，”CoRR，vol.abs/1711.08488，2017.[Online].Available：http：//arxiv.org/abs/1711.08488

非专利文献5：T.Fortmann，Y.Bar-Shalom，and M.Scheffe，“Sonar tracking ofmul-tiple targets using joint probabilistic data association，”IEEE journal ofOceanic Engineering，vol.8，no.3，pp.173-184，1983.

非专利文献6：Huang Y，Bi H，Li Z，et a1.Stgat：Modeling spatial-temporalinteractions for human trajectory prediction[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019：6272-6281.

非专利文献7：Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.Social lstm：Humantrajectory prediction in crowded spaces.In Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 961-971，2016.

非专利文献8：Agrim Gupta，Justin Johnson，Li Fei-Fei，Silvio Savarese，andAlexandre Alahi.Social gan：Socially acceptable trajectories with generativeadversarial networks.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 2255-2264，2018.

非专利文献9：Chen C，Hu S，Nikdel P，et al.Relational graph learningforcrowd navigation[J].arXiv preprint arXiv：1909.13165，2019.

非专利文献10：C.Chen，Y.Liu，S.Kreiss，and A.Alahi，“Crowd-robotinteraction：Crowd-aware robot navigation with attention-based deepreinforcement learning.”[Online].Available：http：//arxiv.org/abs/1809.08835.

所属领域的技术人员可以清楚的了解到，为了描述的方便和简洁，上述描述的装置、模块和单元的具体工作过程，可以参考前述方法实施例的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分，包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是，框图和流程图中的每个方框或方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明，上述实施例仅是为说明所作的举例，而并非对实施方式的限定。对于本领域技术人员来说，在上述说明的基础上，还可以做出其它不同形式的变化或变动，而这些变化或变动将是显而易见的，处于本发明的保护范围之中。