CN114485673A

CN114485673A - 基于深度强化学习的服务机器人人群感知导航方法及系统

Info

Publication number: CN114485673A
Application number: CN202210122517.2A
Authority: CN
Inventors: 周风余; 薛秉鑫; 冯震; 夏英翔; 尹磊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-13
Anticipated expiration: 2042-02-09
Also published as: CN114485673B

Abstract

本发明公开了基于深度强化学习的服务机器人人群感知导航方法及系统，包括：获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；根据智能体的可观测状态和不可观测状态，找到服务机器人在每个时间步的最优导航策略，以实现机器人在n个行人之间导航，并在没有任何碰撞的情况下到达目标所在地；最优导航策略以满足最大化期望累积奖赏为目标；所述最优导航策略包括服务机器人在每个时间步的动作指令，即在每个时间步服务机器人需实现的速度。本发明能够有效预测行人的未来运动轨迹，进而提升机器人决策水平，实现机器人在人群环境中的可靠导航。

Description

基于深度强化学习的服务机器人人群感知导航方法及系统

技术领域

本发明涉及机器人导航技术领域，特别是涉及基于深度强化学习的服务机器人人群感知导航方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着感知和计算技术的迅速发展，机器人的应用场景逐渐从孤立环境扩展到与人共融的社会空间。这要求机器人在人群中安全可靠地导航，具有以下两个方面的挑战：首先，由于智能体之间的通信并非广泛存在，每个智能体的意图对于机器人来说是未知的且难以在线预测；其次，行人通常遵循难以量化的微妙社会规范，这使得机器人更难在人群中导航。尽管存在挑战，但相关机器人导航问题已得到广泛研究，并涌现出许多有价值的成果。相关研究方法可分为基于反应方法、基于轨迹方法和基于学习方法。

在基于反应方法中，一项开创性工作是社会力模型(SFM)，它使用吸引力和排斥力来建模人群中的交互行为。其他方法例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)是将周围智能体视为速度障碍，以在互惠假设下获取最优无碰撞速度。然而，上述算法都存在冻结机器人问题。此外，这些算法仅采用当前状态作为输入，经常导致短视且不自然的行为，因此难以适用于现实世界的人机交互。

基于轨迹方法采用最大熵学习技术从行人数据中学习潜在的合作特征。该方法允许机器人展望未来并做出有远见的决策。然而，基于轨迹方法具有以下缺点：首先，在线预测周围智能体的运动轨迹并从宽阔的状态空间中搜索可行路径的计算成本高且难以保证实时性；其次，预测的轨迹可能占据大部分状态空间，使得机器人的行为过于保守。

最近，基于学习方法备受关注。一部分基于学习方法利用模仿学习从所需行为的演示中学习策略。另一部分基于学习方法将机器人人群感知导航视为马尔可夫决策过程，并利用深度强化学习来解决相关问题。给定所有智能体的状态转移，规划器首先从价值网络中计算所有可能的下一个状态值，然后根据价值网络估计的最大状态值选择最优动作。然而，当前基于学习方法并未充分考虑人机交互中行人的安全性和舒适性。

发明内容

为了解决现有技术的不足，本发明提供了基于深度强化学习的服务机器人人群感知导航方法及系统；提出了一个新的价值网络用于机器人决策，该网络联合推理了行人的空间关系和他们运动的时间关系。考虑行人实时行为，设计机器人的危险区域，并制定新的奖励函数，以进一步保证行人在人机交互中的安全性和舒适性。

第一方面，本发明提供了基于深度强化学习的服务机器人人群感知导航方法；

基于深度强化学习的服务机器人人群感知导航方法，包括：

获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；所述可观测状态，包括：当前智能体的位置、速度和半径；所述不可观测状态，包括：目标、偏好速度和朝向角；

根据智能体的可观测状态和不可观测状态，找到服务机器人在每个时间步的最优导航策略，以实现机器人在n个行人之间导航，并在没有任何碰撞的情况下到达目标所在地；其中，n为正整数；所述最优导航策略以满足最大化期望累积奖赏为目标；所述最优导航策略包括服务机器人在每个时间步的动作指令，即在每个时间步服务机器人需实现的速度。

第二方面，本发明提供了基于深度强化学习的服务机器人人群感知导航系统；

基于深度强化学习的服务机器人人群感知导航系统，包括：

获取模块，其被配置为：获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；所述可观测状态，包括：当前智能体的位置、速度和半径；所述不可观测状态，包括：目标、偏好速度和朝向角；

导航模块，其被配置为：根据智能体的可观测状态和不可观测状态，找到服务机器人在每个时间步的最优导航策略，以实现机器人在n个行人之间导航，并在没有任何碰撞的情况下到达目标所在地；其中，n为正整数；所述最优导航策略以满足最大化期望累积奖赏为目标；所述最优导航策略包括服务机器人在每个时间步的动作指令，即在每个时间步服务机器人需实现的速度。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

1、提出一种新的价值网络，该网络通过联合推理行人的空间关系和他们运动的时间关系来对人群交互进行建模，从而能够有效预测行人的未来运动轨迹，进而提升机器人决策水平，实现机器人在人群环境中的可靠导航。

2、考虑行人实时运动行为，利用行人速度信息和行人可接受的安全距离设计机器人危险区域，并根据惩罚判断条件完成奖励函数设计。机器人在训练阶段将学习躲避危险区域的能力，从而保证行人在人机交互中的安全性和舒适性，实现机器人在现实社会环境中的安全导航。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的值网络结构；

图2为实施例一的空间映射示意图；

图3为实施例一的危险区域初始几何形状；

图4为实施例一的危险区域最终几何形状；

图5为实施例一的判断机器人是否在危险区域示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于深度强化学习的服务机器人人群感知导航方法；

基于深度强化学习的服务机器人人群感知导航方法，包括：

S101：获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；所述可观测状态，包括：当前智能体的位置、速度和半径；所述不可观测状态，包括：目标、偏好速度和朝向角；

S102：根据智能体的可观测状态和不可观测状态，找到服务机器人在每个时间步的最优导航策略，以实现机器人在n个行人之间导航，并在没有任何碰撞的情况下到达目标所在地；其中，n为正整数；

所述最优导航策略以满足最大化期望累积奖赏为目标；

所述最优导航策略包括服务机器人在每个时间步的动作指令，即在每个时间步服务机器人需实现的速度。

进一步地，所述S101：获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；所述可观测状态，包括：当前智能体的位置、速度和半径；所述不可观测状态，包括：目标、偏好速度和朝向角；

其中，可观测状态为当前智能体的位置p＝[p_x,p_y]，速度v＝[v_x,v_y]和半径r；不可观测状态为目标的位置g＝[g_x,g_y]，偏好速度v_pref和朝向角θ。

进一步地，所述最优导航策略为：

其中，

表示最优导航策略；

为t时刻获得的奖赏；A为动作空间，其中包含机器人可达到的速度集合；γ∈(0,1)为折扣因子；偏好速度v_pref被用作折扣因子中的归一化项；

为执行动作a_t时从

到

的转移概率；V^*为最优值函数；

表示t+Δt时刻最优联合状态值；

表示t时刻最优联合状态值；

表示t时刻联合状态；

表示t+Δt时刻联合状态。

进一步地，服务机器人每个时间步对应的执行动作a_t通过值网络结构来预测。

进一步地，所述值网络结构，包括：

若干个并联支路；

每一个支路，包括：依次连接的空间映射单元和循环神经网络；

每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接；第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接，注意力模块的输出端与第三多层感知器的输入端连接，第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。

进一步地，每一个支路与一个行人对应；所述空间映射单元的输入值为当前行人的可观测状态；所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量；所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态；所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。

进一步地，当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征；

当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重；

对服务机器人与当前行人的成对交互特征，和不同行人的注意力权重输入到注意力模块中进行加权线性组合，得到人群的最终表示；

将人群的最终表示，输入到第三多层感知器中，得到最终的服务机器人每个时间步对应的最优状态值估计。

进一步地，空间映射单元，工作原理包括：

给定大小为L的邻域，构建以每个行人为中心的维度为L×L×3的映射张量Ξi_t来编码周围行人的位置和速度：

其中，

表示行人i空间关系的映射张量；

为行人i的周围行人集合；

为周围行人j的状态向量，其中

为周围行人j在x轴方向上的速度，

为周围行人j在y轴方向上的速度；

为指示函数，仅当相对位置(Δx,Δy)位于单元(m,n)中时

的数值为1，否则

的数值为0。

进一步地，所述循环神经网络的工作原理包括：

行人i状态、包含行人i空间关系特征的映射张量Ξi_t和机器人状态被输入到RNN模块：

其中，

为t时刻行人i的隐含状态，RNN为循环神经网络，

为t-1时刻行人i的隐含状态，

为t时刻行人i的可观测状态，

为t时刻行人i空间关系的映射张量，

为t时刻机器人状态，W_r为RNN权重。

由于机器人周围行人数量在不同的场景中可能会有较大差异，因此利用注意力模块将任意数量的输入处理成固定大小的输出。此外，注意力模块可以计算每个行人的相对重要性，并为他们分配注意力权重。

进一步地，当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征；具体包括：

隐含状态

被输入到多层感知器以获取服务机器人与行人i的成对交互特征：

其中，

为含有ReLU非线性的全连接层，

为网络权重，

表示服务机器人与行人i的成对交互特征。

进一步地，当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重；具体包括：

将隐含状态

转化为注意力权重

其中，

为含有ReLU非线性的全连接层，

为网络权重。

进一步地，对服务机器人与当前行人的成对交互特征，和不同行人的注意力权重输入到注意力模块中进行加权线性组合，得到人群的最终表示；具体包括：

基于行人i的成对交互特征

和注意力权重

人群的最终表示Θ_t为所有对的加权线性组合：

进一步地，将人群的最终表示，输入到第三多层感知器中，得到最终的服务机器人每个时间步对应的最优状态值估计；具体包括：

根据人群的最终表示Θ_t，相应的状态值ζ_t估计如下：

其中，

为机器人状态，Ψ_ζ(·)为含有ReLU非线性的全连接层，W_ζ为网络权重。

该工作可以描述为强化学习框架中的序列决策问题，且假设行人在行走过程中不会避开或故意阻碍机器人。智能体(机器人和行人)的状态分为可观测状态和不可观测状态。在每个时间步，智能体可以获得自身状态以及其他智能体的可观测状态。

t时刻机器人状态被定义为

t时刻行人i的可观测状态被表示为

采用以机器人为中心的坐标系，其中原点为机器人当前位置p_t，x轴指向目标位置g。使d_g＝||p_t-g||₂表示机器人p_t与目标g之间的距离，

表示机器人p_t与第i个行人

之间的距离。

经转换，状态

和

改写为：

因此，通过结合机器人状态与所有行人的可观测状态，得到t时刻的联合状态，即

假设机器人在每个时间步都能根据导航策略确定的动作指令及时调整自身速度，即

所提值网络结构如图1所示，其中空间映射和循环神经网络(RNN)分别获取行人的空间关系和他们运动的时间关系。此外，注意力模块用于计算人群中每个人的相对重要性。空间映射示意图如图2所示。

进一步地，所述

为t时刻获得的奖赏；其中

的公式表达为：

其中，d_g＝||p_t-g||₂表示机器人p_t与目标g之间的距离；

为时间区间Δt内机器人与行人的最小间隔距离；

为扇形半径；r^h为行人半径；d_c为行人可接受的最小舒适距离。

其中，扇形半径

和扇形角α由行人速度决定：

其中，m_v为速度权重，v^h为行人速度，r_static＝r^h+d_c为行人静止时的扇形半径，r^h为行人半径，d_c为行人可接受的最小舒适距离。

进一步地，所述危险区和不适区是指：建立直角坐标系，x轴指向目标位置g，以行人所在点A为中心；以行人运动方向为扇形对称轴，以α为扇形角，以

为扇形半径，得到扇形ABC；

以点A为圆心，以行人静止时的扇形半径r_static为半径画圆，将圆与扇形ABC的交点定义为点D和点E；

区域ABC为危险区；区域ADE为不适区。

考虑行人实时行为，设计机器人的危险区域，并制定新的奖励函数，以进一步保证行人在人机交互中的安全性和舒适性。

在行人运动方向上，危险区域的初始几何形状被构造为扇形，即图3中的区域ABC，命名为危险区。圆形表示行人，点A为行人中心。所有角度均参考正x轴测量，逆时针角度为正，顺时针角度为负。β表示行人运动方向相对于参考轴的角度。

随后，以点A为中心，r_static为半径画圆交区域ABC于点D和E，如图4所示，圆环区域DE命名为不适区。此时，危险区域的最终几何形状确定为区域BCDE。

为确定机器人是否在危险区，需要同时满足两个条件。如图5所示，一为距离条件，表示为

其中

为时间区间Δt内机器人与行人的最小间隔距离；二为角度条件，表示为

其中δ为机器人位置相对于参考轴的角度。此外，为确定机器人是否在不适区，仅需验证一个条件，即d<d_c且机器人不在危险区。基于上述危险区域描述，所提奖赏函数，即奖励任务完成，惩罚碰撞和使人感到危险或不适的行为。

实施例二

本实施例提供了基于深度强化学习的服务机器人人群感知导航系统；

基于深度强化学习的服务机器人人群感知导航系统，包括：

此处需要说明的是，上述获取模块和导航模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度强化学习的服务机器人人群感知导航方法，其特征是，包括：

2.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，获取智能体的可观测状态和不可观测状态；所述智能体，包括服务机器人和行人；所述可观测状态，包括：当前智能体的位置、速度和半径；所述不可观测状态，包括：目标、偏好速度和朝向角；

3.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，所述最优导航策略为：

其中，

表示最优导航策略；

为执行动作a_t时从

到

的转移概率；V^*为最优值函数；

表示t+Δt时刻最优联合状态值；

表示t时刻最优联合状态值；

表示t时刻联合状态；

表示t+Δt时刻联合状态。

4.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，服务机器人每个时间步对应的执行动作a_t通过值网络结构来预测；

所述值网络结构，包括：若干个并联支路；

5.如权利要求4所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，每一个支路与一个行人对应；所述空间映射单元的输入值为当前行人的可观测状态；所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量；所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态；所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。

6.如权利要求5所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征；

7.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法，其特征是，所述