CN113282093B

CN113282093B - 机器人导航方法、装置、电子设备及存储介质

Info

Publication number: CN113282093B
Application number: CN202110822386.4A
Authority: CN
Inventors: 丘腾海; 张天乐; 蒲志强; 刘振; 易建强; 常红星
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-12-10
Anticipated expiration: 2041-07-21
Also published as: CN113282093A

Abstract

本发明提供一种机器人导航方法、装置、电子设备及存储介质，所述方法包括：获取机器人状态和机器人所处环境状态；通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；基于所述高层策略层时空状态特征获得机器人的高层策略动作；基于所述高层策略动作计算获得子目标位置的误差状态；基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；基于所述低层策略动作进行机器人导航。本方法能够高效地实现机器人无障碍导航。

Description

机器人导航方法、装置、电子设备及存储介质

技术领域

本发明涉及智能机器人技术领域，具体涉及一种机器人导航方法、装置、电子设备及存储介质。

背景技术

近年来，随着科学技术发展，如服务机器人、扫地机器人、物流机器人等的自主移动机器人在各种生活场景中的应用越来越多。而在这些应用中，机器人导航技术起到重要的作用。机器人导航通常是指：在动态拥挤的障碍物环境中，实现对机器人从起始位置到目标位置的导航决策，避免机器人与静态或动态障碍物产生碰撞。

需要说明的是，此中的动态障碍物通常都拥有自主的机动策略和意图，且其可以自主决策。可是机器人与障碍物之间通常不存在可以实现协同避障的通信，同时，大部分机器人都面临着大量障碍物密集分布的复杂动态环境。因此，在复杂动态环境下，为机器人找到无碰撞最优路径以实现机器人导航具有深远意义。

现有的机器人导航技术大致分为基于模型和基于学习的方法。基于模型的方法，通常需要使用导航领域专业知识。比如，采用反映式导航方法，其原理是采用基于几何或物理学的一步式交互规则来避免机器人与障碍物碰撞，但是，此方法容易使机器人产生振荡和不自然行为。再比如，采用基于轨迹的导航方法，此方法可以从长远角度计算以生成更平滑的路径，但是，该方法计算过程复杂耗时且因其需要更多不可观测的状态知识导致计算难度大、准确率低。基于学习的方法，主要采用深度强化学习方法学习机器人导航行为。且为了更好地感知环境，甚至在此方法中采用长短时记忆统一处理环境中所有障碍物对机器人的影响，但是，统一处理的方法忽略了不同障碍物的自主特性差异。或者，在此方法中引入注意力机制以标记机器人与不同障碍物间的关系，但此方法仍然是仅以最终目标位置作为引导，仅考虑机器人当前步骤的障碍状态，这样容易使机器人为快速达到最终目标位置而采取短视的激进行为，从而导致机器人与障碍物产生碰撞而陷入危险。

综上所述，现有方法虽然能够实现简单场景下的机器人导航，但其往往存在导航行为振荡、计算过程复杂耗时、未考虑不同障碍物的自主特性差异，或者，仅以最终目标位置为引导且仅考虑当前步骤障碍状态等问题。

发明内容

本发明提供一种机器人导航方法、装置、电子设备及存储介质，用以克服现有技术中导航行为振荡、计算过程复杂耗时、导航过程仅以最终目标位置为引导且仅考虑当前步骤状态等缺陷，能够高效地实现机器人无障碍导航。

本发明提供一种机器人导航方法，包括：

获取机器人状态和机器人所处环境状态；

通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；

基于所述高层策略层时空状态特征获得机器人的高层策略动作；

基于所述高层策略动作计算获得子目标位置的误差状态；

基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；

基于所述低层策略动作进行机器人导航。根据本发明提供的机器人导航方法，所述获取机器人状态和机器人所处环境状态，包括：

获取初始的机器人状态和机器人所处环境状态；

基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态；

其中，所述机器人状态包括机器人的目标位置和机器人的瞬时位置。

根据本发明提供的机器人导航方法，所述获取机器人状态和机器人所处环境状态，包括：

根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小，确定第一时刻机器人的状态；

根据第一时刻机器人所处环境中的多个动态障碍物状态，确定第一时刻机器人所处环境状态；

和，所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态，包括：

根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态，确定第一时刻的机器人观测状态。

根据本发明提供的机器人导航方法，所述通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，包括：

将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态，均输入至时空图注意力网络中，分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态；

分别计算各个过程状态的查询目标特征、值目标特征和键目标特征，并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征；

基于长短时记忆网络和各个时刻的机器人的图注意力特征，分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。

根据本发明提供的机器人导航方法，所述基于所述高层策略层时空状态特征获得机器人的高层策略动作，包括：

将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量；

将所述第一组合向量输入至第一多层全连接层网络层，获得高层策略层值函数；

基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。

根据本发明提供的机器人导航方法，所述基于所述高层策略动作计算获得子目标位置的误差状态，包括：

基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置；

基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。

根据本发明提供的机器人导航方法，所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作，包括：

将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量；

将所述第二组合向量输入至第二多层全连接层网络层，获得低层策略层值函数；

基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。

本发明还提供一种机器人导航装置，所述装置包括：

状态获取模块，用于获取机器人状态和机器人所处环境状态；

特征编码模块，用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；

高层动作获取模块，用于基于所述高层策略层时空状态特征获得机器人的高层策略动作；

状态更新模块，基于所述高层策略动作计算获得子目标位置的误差状态；

低层动作获取模块，用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；

导航模块，用于基于所述低层策略动作进行机器人导航。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现根据如上任一项所述机器人导航方法的全部或部分步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据如上任一项所述机器人导航方法的全部或部分步骤。

本发明提供一种机器人导航方法、装置、电子设备及存储介质，所述方法利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，还分别获得高层策略动作和低层策略动作，利用高层策略动作获得导航过程中的子目标位置，以及利用低层策略动作再将机器人由子目标位置导航至目标位置，整体采用了高低双层策略结构，提取机器人与周围各动态的障碍物之间环境状态和行为特征等，充分挖掘出机器人与周围障碍物的深层关系特征，计算出导航过程中的子目标位置，以子目标位置作为机器人导航短时空视角的第一目标，再与导航长时空视角的最终的目标位置相结合，最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航，充分考虑了不同障碍物的自主特性差异，并优化了导航计算过程，可以安全快速地将机器人导航至目标位置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本发明提供的机器人导航方法的流程示意图之一；

图2是本发明提供的机器人导航方法的流程示意图之二；

图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原理图；

图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图；

图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时间步长示意图；

图6是本发明提供的机器人导航方法中机器人导航路径规划示意图；

图7是本发明提供的机器人导航装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

附图标记：

710：状态获取模块；720：特征编码模块；730：高层动作获取模块；740：状态更新模块；750：低层动作获取模块；760：导航模块；810：处理器；820：通信接口；830：存储器 840：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明的技术方案进行清除完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图1-8描述本发明提供的一种机器人导航方法、装置、电子设备及存储介质。

本发明提供一种机器人导航方法，图1是本发明提供的机器人导航方法的流程示意图之一，如图1所示，所述方法包括：

100、获取机器人状态和机器人所处环境状态；

200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；

300、基于所述高层策略层时空状态特征获得机器人的高层策略动作；

400、基于所述高层策略动作计算获得子目标位置的误差状态；

500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；

600、基于所述低层策略动作进行机器人导航。

本方法中，获取机器人状态和机器人所处环境状态，其中，机器人状态中包括初始的机器人状态，或者说机器人位于原位置的状态；通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；基于所述高层策略层时空状态特征获得机器人的高层策略动作；基于所述高层策略动作计算获得子目标位置，并获得子目标位置的误差状态，具体是获得机器人在到达子目标位置之前的子目标位置的预测状态，且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得，以将机器人由原位置准确地导航至子目标位置；基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；基于所述低层策略动作进行机器人由子目标位置到目标位置的导航。

本发明提供的机器人导航方法，利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，还分别获得高层策略动作和低层策略动作，利用高层策略动作获得导航过程中的子目标位置，以及利用低层策略动作再将机器人由子目标位置导航至目标位置，整体采用了高低双层策略结构，提取机器人与周围各动态的障碍物之间环境状态和行为特征等，充分挖掘出机器人与周围障碍物的深层关系特征，计算出导航过程中的子目标位置，以子目标位置作为机器人导航短时空视角的第一目标，再与导航长时空视角的最终的目标位置相结合，最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航，充分考虑了不同障碍物的自主特性差异，并优化了导航计算过程，可以安全快速地将机器人导航至目标位置。

根据本发明提供的机器人导航方法，图2是本发明提供的机器人导航方法的流程示意图之二，结合图2所示，该方法中，步骤100、获取机器人状态和机器人所处环境状态，具体包括：

110、获取初始的机器人状态和机器人所处环境状态；

120、基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态；

机器人状态是指初始的或者第一时刻的机器人的状态，而机器人所述环境状态，主要是指其所处环境中的各个动态的障碍物的状态。

根据本发明提供的机器人导航方法，在上述实施例的基础上，步骤110、获取机器人状态和机器人所处环境状态，包括：

111、根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小，确定第一时刻机器人的状态；

112、根据第一时刻机器人所处环境中的多个动态障碍物状态，确定第一时刻机器人所处环境状态。

获取第

时刻的机器人状态

（第

时刻即第一时刻，其作为初始的时刻，也是机器人在原位置时对应的时刻）：

其中，

表示机器人的目标位置，

表示机器人的最大速度，

表示第

时刻机器人的瞬时位置，

为第

时刻机器人的瞬时速度，

为第

时刻机器人的体积半径大小。

再获取第

时刻机器人所处环境状态

：

其中，

分别表示第

时刻机器人所处环境中的

个动态障碍物状态，且

表示第

个障碍物。

121、根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态，确定第一时刻的机器人观测状态。

基于第

时刻的机器人状态

和第

时刻机器人所处环境状态

计算获得第

时刻的机器人观测状态

：

其中，

表示第

时刻机器人所处环境状态，且

表示选取前后

个时刻的机器人所处环境状态。

具体地，比如

，即表示选取前后3个时刻的机器人所处环境状态，也即，此时第

时刻的机器人观测状态

。

而

为第

时刻机器人的本身体积的半径大小。机器人和各障碍物之间的障碍物控制策略采用最佳互易避碰法（optimal reciprocal collision avoidance，简称ORCA 法），且默认设置为初始时刻机器人的扫描半径大小为4m，初始时刻各动态的障碍物则在机器人初始位置以机器人自身为原点半径4m的环境范围内随机生成，障碍物和机器人均采用运动学完整约束模型，且均可以实现向任意方向的移动动作。进一步地，本发明实施例还将机器人设置为对障碍物不可见，即，每一个障碍物只对所处环境中其他各个障碍物作出反应，但不能识别到机器人，而机器人可以识别所有障碍物，由此创造出机器人需要全面考虑所有障碍物的状态才可能实现避障的复杂动态障碍物环境。由此，在机器人所处环境中的所有动态的障碍物的状态，共同组成了机器人所处环境状态。且上述步骤111和步骤112，其与步骤121之间是和的关系，也即，既可以仅进行步骤111、步骤112，也可以进行步骤111、步骤112、步骤121，具体根据实际情况设置。

具体地，图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原理图，结合图3所示，将所述第

时刻的机器人观测状态

中第

时刻的机器人状态

和第

各个时刻的机器人所处环境状态

，均输入至时空图注意力网络中，具体是通过单层全连接神经网络，分别对应获得第

时刻的机器人过程状态

和第

各个时刻的机器人所处环境过程状态

。并最终基于高层策略层和低层策略层分别获取所述高层策略层时空状态特征

和低层策略层时空状态特征

。在高层策略层，将高层策略层时空状态特征

与第

时刻的机器人状态

等进行融合以及后续组合，最终结合外部奖惩函数，获得子目标位置及子目标位置的误差状态

，并将其输入到低层策略层，在低层策略层中与低层策略层时空状态特征

和第

时刻的机器人状态进行融合以及后续组合，最终结合外部奖惩函数和内部奖惩函数等，综合获得向最终的目标位置的导航规划，以据其将机器人由子目标位置导航至最终的目标位置。

根据本发明提供的机器人导航方法，该方法中，步骤200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，具体包括：

211、将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态，均输入至时空图注意力网络中，分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态；

212、分别计算各个过程状态的查询目标特征、值目标特征和键目标特征，并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征；

213、基于长短时记忆网络和各个时刻的机器人的图注意力特征，分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。

图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图，结合图4所示，本方法中，步骤200具体包括：

将所述第

时刻的机器人观测状态

中第

时刻的机器人状态

和第

各个时刻的机器人所处环境状态

，均输入至时空图注意力网络中，分别对应获得第

时刻的机器人过程状态

和第

各个时刻的机器人所处环境过程状态

。

分别计算各个过程状态

的查询目标特征

、值目标特征

和键目标特征

，具体计算过程如下：

其中，

，

表示各个过程状态

；

表示可学习的参数矩阵。

并根据对各个过程状态

的查询目标特征

、值目标特征

和键目标特征

进行加权求和的计算方法，分别计算获得各个时刻的机器人的图注意力特征

。

再基于长短时记忆网络和所述各个时刻的机器人的图注意力特征

，根据实际应用场景的计算需求结合加权求和计算法，分别基于高层策略层和低层策略层的处理后，分别获取所述高层策略层时空状态特征

和低层策略层时空状态特征

。

还需要说明的是，高层策略层和低层策略层属于同类型神经网络层，而二者的区别在于对于参与计算的各个时刻的机器人的图注意力特征

等各项因子的加权权重的设定不同（具体根据实际需求预先设定），因此其计算结果也不相同。由此，高层策略层网络用于计算子目标位置和子目标位置的误差状态，而低层策略层网络则用于根据最终的目标位置计算机器人最后的导航指令，并告知机器人导航路径。

根据本发明提供的机器人导航方法，同样结合图2所示，该方法中，步骤300、基于所述高层策略层时空状态特征获得机器人的高层策略动作，包括：

310、将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量；

320、将所述第一组合向量输入至第一多层全连接层网络层，获得高层策略层值函数；

330、基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。

即步骤300具体包括：

将所述高层策略层时空状态特征

与第

时刻的机器人状态

混合组成第一组合向量

，即第一组合向量是一个混合向量。

将所述第一组合向量

输入至第一多层全连接层网络层，此时输入至M层的全连接网络层，优选地取M=3，以获得高层策略层值函数

。

再基于所述高层策略层值函数

和所述外部奖惩函数

获得机器人的高层策略动作

。

例如，高层策略动作

可由6个离散动作组成，即高层策略动作表达式为

，其中，

分别取值

和

，六个

取值分别得出6个离散的高层策略动作，共同引导机器人进行相应动作。

并且，需要说明的是，其中的外部奖惩函数，可以理解为外部环境对于机器人导航的影响因素，且外部奖惩函数主要与第

时刻机器人的瞬时位置

与机器人的目标位置

是否相同，以及与机器人与各障碍物之间距离中的最小值

所处的具体取值范围有关。外部奖惩函数

可通过如下公式进行计算：

其中，

表示低层策略动作，

表示机器人与各障碍物的距离最小值，

表示机器人与各障碍物的距离阈值，

表示前后两个时刻的时间间隔。需要说明的是，表示低层策略动作

在此处仅作为外部奖惩函数的表示符号，其并不影响外部奖惩函数计算值的大小。

根据本发明提供的机器人导航方法，同样结合图2所示，该方法中，步骤400、基于所述高层策略动作计算获得子目标位置的误差状态，包括：

410、基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置；

420、基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。

即，步骤400具体包括：

基于所述高层策略动作

计算第

时刻机器人的子目标位置

以将机器人导航至子目标位置

，所述第

时刻机器人的子目标位置

为：

其中，

表示高层策略层的执行周期，

表示取余，

表示第

时刻机器人的子目标位置。

再基于所述第

时刻子目标位置

和所述瞬时位置

获得子目标位置的误差状态

为：

。

具体地，

表示高层策略层的执行周期，也可以理解为是指高层策略层的执行时间步长，其取值大于等于1。

也即，其基于所述高层策略动作计算获得子目标位置，并获得子目标位置的误差状态，具体是获得机器人在到达子目标位置之前的子目标位置的预测状态，且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得，以将机器人由原位置准确地导航至子目标位置。换言之，对于步骤410和步骤420，既可以按顺序进行，也可以两步骤交叉进行。即，既可以在获取到子目标位置后先将机器人导航至子目标位置后，再获取子目标位置的误差状态；又可以在机器人在到达子目标位置之前获取子目标位置的误差状态。

图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时间步长示意图，结合图5所示，当高层策略层的执行周期

时，若假定低层策略层的控制流每步执行时间为1个单位时间，则高层策略层的控制流的每步执行时间则为2个单位时间。

根据本发明提供的机器人导航方法，同样结合图2所示，该方法中，步骤500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作，包括：

510、将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量；

520、将所述第二组合向量输入至第二多层全连接层网络层，获得低层策略层值函数；

530、基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。

即步骤500具体包括：

将所述子目标位置的误差状态

、所述第

时刻机器人状态

和所述低层策略层时空状态特征

相结合形成第二组合向量

，第二组合向量

为一个联合向量。

再将所述第二组合向量

输入至第二多层全连接层网络层，具体输入至N层的全连接网络层，且N=3，以获得低层策略层值函数

。

再基于所述低层策略层值函数

和所述低层奖惩函数

获得机器人的低层策略动作

。

机器人的低层策略动作

可由81个可能的离散动作组成，即：在

范围内的5个速度，在

范围内的16个角度方向，以及机器人的停止动作。且在每个回合中，终止状态均存在三种：到达目标位置、碰到障碍物和运动超时。

还需要说明的是，其中的所述低层奖惩函数可以基于所述外部奖惩函数

确定，且所述低层奖惩函数

为：

其中，

表示超参数，

表示内部奖惩函数，且所述内部奖惩函数

为：

其中，clip( )表示截断函数。

整个导航过程以子目标位置作为机器人导航短时空视角的目标，以最终的目标位置作为机器人导航长时空视角的最终目标，将二者相结合，并且分别基于高层策略动作和低层策略动作以及结合内外环境奖惩函数引导机器人进行导航训练学习。且导航训练时，总的回合长度为100k个回合，学习速率均为0.00001，高层策略层的折扣因子为

，低层策略层的折扣因子为

，且整个过程是通过Adam分类优化器进行训练的。

还可以针对本发明提供的机器人导航方法，应用于不同的导航场景进行对比分析，比如可以研究两个不同导航场景，进一步分析各个导航场景下的仿真波形图等仿真信息。比如第一导航场景中障碍物分布较为分散，由仿真信息中机器人的方向箭头可知，机器人先导航到子目标位置，避免机器人进入机器人与最终目标位置之间的危险区域，提高了机器人的导航效率，对应地在该导航场景的动作取值信息中，雷达颜色越浅即动作取值越大的方向，则为机器人的移动方向，也进一步证明了机器人是朝子目标位置方向移动的。第二导航场景中障碍物分布较为密集，其他与第一导航场景同理，但两个导航场景的仿真波形图以及动作取值存在差异。本发明提供的方法，能够实现机器人快速安全无障碍的导航，且导航成功的概率非常大。

图6是本发明提供的机器人导航方法中机器人导航路径规划示意图，结合图6所示，图中黑色圆形表示机器人，而各个带角型标志的圆形表示各个障碍物，图中对于左下角第一个障碍物还标示出了其坐标系及坐标值，其意义在于表示第一个障碍物为动态障碍物，其他障碍物同理。且图中黑色五角星表示最终的目标位置，灰色五角星表示子目标位置。如图6所示，机器人在确定出子目标位置后，先根据高层策略动作由起始位置向目标位置进行移动，具体地如图中黑色圆形上所标示的坐标系及坐标值，并沿着该坐标向量向灰色五角星的子目标位置处进行移动。随后，机器人可以根据本方法获得的低层策略动作，再由子目标位置向最终的目标位置进行导航，最终到达目标位置，完成导航。

下面对本发明提供的一种机器人导航装置进行描述，所述机器人导航装置可以理解为是执行上述机器人导航方法的装置，二者应用原理相同，可以相互参照，此处不作赘述。

本发明还提供一种机器人导航装置，图7是本发明提供的机器人导航装置的结构示意图，如图7所示，所述装置包括：状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760，其中，

所述状态获取模块710，用于获取机器人状态和机器人所处环境状态；

所述特征编码模块720，用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征；

所述高层动作获取模块730，用于基于所述高层策略层时空状态特征获得机器人的高层策略动作；

所述状态更新模块740，基于所述高层策略动作计算获得子目标位置的误差状态；

所述低层动作获取模块750，用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作；

所述导航模块760，用于基于所述低层策略动作进行机器人导航。

本发明提供的机器人导航装置，包括状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760，各模块相互配合工作，使得该装置利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，还分别获得高层策略动作和低层策略动作，利用高层策略动作获得导航过程中的子目标位置，以及利用低层策略动作再将机器人由子目标位置导航至目标位置，整体采用了高低双层策略结构，提取机器人与周围各动态的障碍物之间环境状态和行为特征等，充分挖掘出机器人与周围障碍物的深层关系特征，计算出导航过程中的子目标位置，以子目标位置作为机器人导航短时空视角的第一目标，再与导航长时空视角的最终的目标位置相结合，最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航，充分考虑了不同障碍物的自主特性差异，并优化了导航计算过程，可以安全快速地将机器人导航至目标位置。

本发明还提供一种电子设备，图8是本发明提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行所述机器人导航方法的全部或部分步骤，该方法包括：

获取机器人状态和机器人所处环境状态；

基于所述高层策略动作计算获得子目标位置的误差状态；

基于所述低层策略动作进行机器人导航。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述机器人导航方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所述机器人导航方法的全部或部分步骤，该方法包括：

获取机器人状态和机器人所处环境状态；

基于所述高层策略动作计算获得子目标位置的误差状态；

基于所述低层策略动作进行机器人导航。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上各实施例所述机器人导航方法的全部或部分步骤，该方法包括：

获取机器人状态和机器人所处环境状态；

基于所述高层策略动作计算获得子目标位置的误差状态；

基于所述低层策略动作进行机器人导航。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的机器人导航方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器人导航方法，其特征在于，包括：

获取机器人状态和机器人所处环境状态，具体包括：获取机器人状态和机器人所处环境状态；基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态；其中，所述机器人状态包括机器人的目标位置和机器人的瞬时位置；根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小，确定第一时刻机器人的状态；根据第一时刻机器人所处环境中的多个动态障碍物状态，确定第一时刻机器人所处环境状态；和，所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态，包括：根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态，确定第一时刻的机器人观测状态；

通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，具体包括：将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态，均输入至时空图注意力网络中，分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态；分别计算各个过程状态的查询目标特征、值目标特征和键目标特征，并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征；基于长短时记忆网络和各个时刻的机器人的图注意力特征，分别获取所述高层策略层时空状态特征和低层策略层时空状态特征；

基于所述高层策略动作计算获得子目标位置的误差状态；

基于所述低层策略动作进行机器人导航。

2.根据权利要求1所述的机器人导航方法，其特征在于，所述基于所述高层策略层时空状态特征获得机器人的高层策略动作，包括：

3.根据权利要求2所述的机器人导航方法，其特征在于，所述基于所述高层策略动作计算获得子目标位置的误差状态，包括：

4.根据权利要求3所述的机器人导航方法，其特征在于，所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征，获得机器人的低层策略动作，包括：

5.一种机器人导航装置，其特征在于，所述装置包括：

状态获取模块，用于获取机器人状态和机器人所处环境状态，具体包括：获取机器人状态和机器人所处环境状态；基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态；其中，所述机器人状态包括机器人的目标位置和机器人的瞬时位置；根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小，确定第一时刻机器人的状态；根据第一时刻机器人所处环境中的多个动态障碍物状态，确定第一时刻机器人所处环境状态；和，所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态，包括：根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态，确定第一时刻的机器人观测状态；

特征编码模块，用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码，以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征，具体包括：将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态，均输入至时空图注意力网络中，分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态；分别计算各个过程状态的查询目标特征、值目标特征和键目标特征，并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征；基于长短时记忆网络和各个时刻的机器人的图注意力特征，分别获取所述高层策略层时空状态特征和低层策略层时空状态特征；

导航模块，用于基于所述低层策略动作进行机器人导航。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现根据权利要求1-4任一项所述机器人导航方法的全部或部分步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1-4任一项所述机器人导航方法的全部或部分步骤。