CN114485673A - 基于深度强化学习的服务机器人人群感知导航方法及系统 - Google Patents

基于深度强化学习的服务机器人人群感知导航方法及系统 Download PDF

Info

Publication number
CN114485673A
CN114485673A CN202210122517.2A CN202210122517A CN114485673A CN 114485673 A CN114485673 A CN 114485673A CN 202210122517 A CN202210122517 A CN 202210122517A CN 114485673 A CN114485673 A CN 114485673A
Authority
CN
China
Prior art keywords
pedestrian
state
service robot
robot
time step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210122517.2A
Other languages
English (en)
Other versions
CN114485673B (zh
Inventor
周风余
薛秉鑫
冯震
夏英翔
尹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210122517.2A priority Critical patent/CN114485673B/zh
Publication of CN114485673A publication Critical patent/CN114485673A/zh
Application granted granted Critical
Publication of CN114485673B publication Critical patent/CN114485673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Abstract

本发明公开了基于深度强化学习的服务机器人人群感知导航方法及系统,包括:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。本发明能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。

Description

基于深度强化学习的服务机器人人群感知导航方法及系统
技术领域
本发明涉及机器人导航技术领域,特别是涉及基于深度强化学习的服务机器人人群感知导航方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着感知和计算技术的迅速发展,机器人的应用场景逐渐从孤立环境扩展到与人共融的社会空间。这要求机器人在人群中安全可靠地导航,具有以下两个方面的挑战:首先,由于智能体之间的通信并非广泛存在,每个智能体的意图对于机器人来说是未知的且难以在线预测;其次,行人通常遵循难以量化的微妙社会规范,这使得机器人更难在人群中导航。尽管存在挑战,但相关机器人导航问题已得到广泛研究,并涌现出许多有价值的成果。相关研究方法可分为基于反应方法、基于轨迹方法和基于学习方法。
在基于反应方法中,一项开创性工作是社会力模型(SFM),它使用吸引力和排斥力来建模人群中的交互行为。其他方法例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)是将周围智能体视为速度障碍,以在互惠假设下获取最优无碰撞速度。然而,上述算法都存在冻结机器人问题。此外,这些算法仅采用当前状态作为输入,经常导致短视且不自然的行为,因此难以适用于现实世界的人机交互。
基于轨迹方法采用最大熵学习技术从行人数据中学习潜在的合作特征。该方法允许机器人展望未来并做出有远见的决策。然而,基于轨迹方法具有以下缺点:首先,在线预测周围智能体的运动轨迹并从宽阔的状态空间中搜索可行路径的计算成本高且难以保证实时性;其次,预测的轨迹可能占据大部分状态空间,使得机器人的行为过于保守。
最近,基于学习方法备受关注。一部分基于学习方法利用模仿学习从所需行为的演示中学习策略。另一部分基于学习方法将机器人人群感知导航视为马尔可夫决策过程,并利用深度强化学习来解决相关问题。给定所有智能体的状态转移,规划器首先从价值网络中计算所有可能的下一个状态值,然后根据价值网络估计的最大状态值选择最优动作。然而,当前基于学习方法并未充分考虑人机交互中行人的安全性和舒适性。
发明内容
为了解决现有技术的不足,本发明提供了基于深度强化学习的服务机器人人群感知导航方法及系统;提出了一个新的价值网络用于机器人决策,该网络联合推理了行人的空间关系和他们运动的时间关系。考虑行人实时行为,设计机器人的危险区域,并制定新的奖励函数,以进一步保证行人在人机交互中的安全性和舒适性。
第一方面,本发明提供了基于深度强化学习的服务机器人人群感知导航方法;
基于深度强化学习的服务机器人人群感知导航方法,包括:
获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
第二方面,本发明提供了基于深度强化学习的服务机器人人群感知导航系统;
基于深度强化学习的服务机器人人群感知导航系统,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
1、提出一种新的价值网络,该网络通过联合推理行人的空间关系和他们运动的时间关系来对人群交互进行建模,从而能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。
2、考虑行人实时运动行为,利用行人速度信息和行人可接受的安全距离设计机器人危险区域,并根据惩罚判断条件完成奖励函数设计。机器人在训练阶段将学习躲避危险区域的能力,从而保证行人在人机交互中的安全性和舒适性,实现机器人在现实社会环境中的安全导航。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的值网络结构;
图2为实施例一的空间映射示意图;
图3为实施例一的危险区域初始几何形状;
图4为实施例一的危险区域最终几何形状;
图5为实施例一的判断机器人是否在危险区域示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于深度强化学习的服务机器人人群感知导航方法;
基于深度强化学习的服务机器人人群感知导航方法,包括:
S101:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
S102:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;
所述最优导航策略以满足最大化期望累积奖赏为目标;
所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
进一步地,所述S101:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
其中,可观测状态为当前智能体的位置p=[px,py],速度v=[vx,vy]和半径r;不可观测状态为目标的位置g=[gx,gy],偏好速度vpref和朝向角θ。
进一步地,所述最优导航策略为:
Figure BDA0003499020310000061
Figure BDA0003499020310000062
其中,
Figure BDA0003499020310000063
表示最优导航策略;
Figure BDA0003499020310000064
为t时刻获得的奖赏;A为动作空间,其中包含机器人可达到的速度集合;γ∈(0,1)为折扣因子;偏好速度vpref被用作折扣因子中的归一化项;
Figure BDA0003499020310000065
为执行动作at时从
Figure BDA0003499020310000066
Figure BDA0003499020310000067
的转移概率;V*为最优值函数;
Figure BDA0003499020310000068
表示t+Δt时刻最优联合状态值;
Figure BDA0003499020310000069
表示t时刻最优联合状态值;
Figure BDA00034990203100000610
表示t时刻联合状态;
Figure BDA00034990203100000611
表示t+Δt时刻联合状态。
进一步地,服务机器人每个时间步对应的执行动作at通过值网络结构来预测。
进一步地,所述值网络结构,包括:
若干个并联支路;
每一个支路,包括:依次连接的空间映射单元和循环神经网络;
每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。
进一步地,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
进一步地,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;
当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;
对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;
将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计。
进一步地,空间映射单元,工作原理包括:
给定大小为L的邻域,构建以每个行人为中心的维度为L×L×3的映射张量Ξit来编码周围行人的位置和速度:
Figure BDA0003499020310000071
其中,
Figure BDA0003499020310000072
表示行人i空间关系的映射张量;
Figure BDA0003499020310000073
为行人i的周围行人集合;
Figure BDA0003499020310000074
为周围行人j的状态向量,其中
Figure BDA0003499020310000075
为周围行人j在x轴方向上的速度,
Figure BDA0003499020310000081
为周围行人j在y轴方向上的速度;
Figure BDA0003499020310000082
为指示函数,仅当相对位置(Δx,Δy)位于单元(m,n)中时
Figure BDA0003499020310000083
的数值为1,否则
Figure BDA0003499020310000084
的数值为0。
进一步地,所述循环神经网络的工作原理包括:
行人i状态、包含行人i空间关系特征的映射张量Ξit和机器人状态被输入到RNN模块:
Figure BDA0003499020310000085
其中,
Figure BDA0003499020310000086
为t时刻行人i的隐含状态,RNN为循环神经网络,
Figure BDA0003499020310000087
为t-1时刻行人i的隐含状态,
Figure BDA0003499020310000088
为t时刻行人i的可观测状态,
Figure BDA0003499020310000089
为t时刻行人i空间关系的映射张量,
Figure BDA00034990203100000810
为t时刻机器人状态,Wr为RNN权重。
由于机器人周围行人数量在不同的场景中可能会有较大差异,因此利用注意力模块将任意数量的输入处理成固定大小的输出。此外,注意力模块可以计算每个行人的相对重要性,并为他们分配注意力权重。
进一步地,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;具体包括:
隐含状态
Figure BDA00034990203100000811
被输入到多层感知器以获取服务机器人与行人i的成对交互特征:
Figure BDA00034990203100000812
其中,
Figure BDA00034990203100000813
为含有ReLU非线性的全连接层,
Figure BDA00034990203100000814
为网络权重,
Figure BDA00034990203100000815
表示服务机器人与行人i的成对交互特征。
进一步地,当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;具体包括:
将隐含状态
Figure BDA00034990203100000816
转化为注意力权重
Figure BDA00034990203100000817
Figure BDA0003499020310000091
其中,
Figure BDA00034990203100000910
为含有ReLU非线性的全连接层,
Figure BDA00034990203100000911
为网络权重。
进一步地,对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;具体包括:
基于行人i的成对交互特征
Figure BDA0003499020310000092
和注意力权重
Figure BDA0003499020310000093
人群的最终表示Θt为所有对的加权线性组合:
Figure BDA0003499020310000094
进一步地,将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计;具体包括:
根据人群的最终表示Θt,相应的状态值ζt估计如下:
Figure BDA0003499020310000095
其中,
Figure BDA0003499020310000096
为机器人状态,Ψζ(·)为含有ReLU非线性的全连接层,Wζ为网络权重。
该工作可以描述为强化学习框架中的序列决策问题,且假设行人在行走过程中不会避开或故意阻碍机器人。智能体(机器人和行人)的状态分为可观测状态和不可观测状态。在每个时间步,智能体可以获得自身状态以及其他智能体的可观测状态。
t时刻机器人状态被定义为
Figure BDA0003499020310000097
t时刻行人i的可观测状态被表示为
Figure BDA0003499020310000098
采用以机器人为中心的坐标系,其中原点为机器人当前位置pt,x轴指向目标位置g。使dg=||pt-g||2表示机器人pt与目标g之间的距离,
Figure BDA0003499020310000099
表示机器人pt与第i个行人
Figure BDA0003499020310000101
之间的距离。
经转换,状态
Figure BDA0003499020310000102
Figure BDA0003499020310000103
改写为:
Figure BDA0003499020310000104
Figure BDA0003499020310000105
因此,通过结合机器人状态与所有行人的可观测状态,得到t时刻的联合状态,即
Figure BDA0003499020310000106
假设机器人在每个时间步都能根据导航策略确定的动作指令及时调整自身速度,即
Figure BDA0003499020310000107
所提值网络结构如图1所示,其中空间映射和循环神经网络(RNN)分别获取行人的空间关系和他们运动的时间关系。此外,注意力模块用于计算人群中每个人的相对重要性。空间映射示意图如图2所示。
进一步地,所述
Figure BDA0003499020310000108
为t时刻获得的奖赏;其中
Figure BDA0003499020310000109
的公式表达为:
Figure BDA00034990203100001010
其中,dg=||pt-g||2表示机器人pt与目标g之间的距离;
Figure BDA00034990203100001011
为时间区间Δt内机器人与行人的最小间隔距离;
Figure BDA00034990203100001012
为扇形半径;rh为行人半径;dc为行人可接受的最小舒适距离。
其中,扇形半径
Figure BDA00034990203100001013
和扇形角α由行人速度决定:
Figure BDA00034990203100001014
Figure BDA0003499020310000111
其中,mv为速度权重,vh为行人速度,rstatic=rh+dc为行人静止时的扇形半径,rh为行人半径,dc为行人可接受的最小舒适距离。
进一步地,所述危险区和不适区是指:建立直角坐标系,x轴指向目标位置g,以行人所在点A为中心;以行人运动方向为扇形对称轴,以α为扇形角,以
Figure BDA0003499020310000112
为扇形半径,得到扇形ABC;
以点A为圆心,以行人静止时的扇形半径rstatic为半径画圆,将圆与扇形ABC的交点定义为点D和点E;
区域ABC为危险区;区域ADE为不适区。
考虑行人实时行为,设计机器人的危险区域,并制定新的奖励函数,以进一步保证行人在人机交互中的安全性和舒适性。
在行人运动方向上,危险区域的初始几何形状被构造为扇形,即图3中的区域ABC,命名为危险区。圆形表示行人,点A为行人中心。所有角度均参考正x轴测量,逆时针角度为正,顺时针角度为负。β表示行人运动方向相对于参考轴的角度。
随后,以点A为中心,rstatic为半径画圆交区域ABC于点D和E,如图4所示,圆环区域DE命名为不适区。此时,危险区域的最终几何形状确定为区域BCDE。
为确定机器人是否在危险区,需要同时满足两个条件。如图5所示,一为距离条件,表示为
Figure BDA0003499020310000113
其中
Figure BDA0003499020310000114
为时间区间Δt内机器人与行人的最小间隔距离;二为角度条件,表示为
Figure BDA0003499020310000115
其中δ为机器人位置相对于参考轴的角度。此外,为确定机器人是否在不适区,仅需验证一个条件,即d<dc且机器人不在危险区。基于上述危险区域描述,所提奖赏函数,即奖励任务完成,惩罚碰撞和使人感到危险或不适的行为。
实施例二
本实施例提供了基于深度强化学习的服务机器人人群感知导航系统;
基于深度强化学习的服务机器人人群感知导航系统,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
此处需要说明的是,上述获取模块和导航模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于深度强化学习的服务机器人人群感知导航方法,其特征是,包括:
获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
2.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
其中,可观测状态为当前智能体的位置p=[px,py],速度v=[vx,vy]和半径r;不可观测状态为目标的位置g=[gx,gy],偏好速度vpref和朝向角θ。
3.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,所述最优导航策略为:
Figure FDA0003499020300000011
Figure FDA0003499020300000012
其中,
Figure FDA0003499020300000013
表示最优导航策略;
Figure FDA0003499020300000014
为t时刻获得的奖赏;A为动作空间,其中包含机器人可达到的速度集合;γ∈(0,1)为折扣因子;偏好速度vpref被用作折扣因子中的归一化项;
Figure FDA0003499020300000015
为执行动作at时从
Figure FDA0003499020300000016
Figure FDA0003499020300000017
的转移概率;V*为最优值函数;
Figure FDA0003499020300000021
表示t+Δt时刻最优联合状态值;
Figure FDA0003499020300000022
表示t时刻最优联合状态值;
Figure FDA0003499020300000023
表示t时刻联合状态;
Figure FDA0003499020300000024
表示t+Δt时刻联合状态。
4.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,服务机器人每个时间步对应的执行动作at通过值网络结构来预测;
所述值网络结构,包括:若干个并联支路;
每一个支路,包括:依次连接的空间映射单元和循环神经网络;
每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。
5.如权利要求4所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
6.如权利要求5所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;
当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;
对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;
将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计。
7.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,所述
Figure FDA0003499020300000031
为t时刻获得的奖赏;其中
Figure FDA0003499020300000032
的公式表达为:
Figure FDA0003499020300000033
其中,dg=||pt-g||2表示机器人pt与目标g之间的距离;
Figure FDA0003499020300000034
为时间区间Δt内机器人与行人的最小间隔距离;
Figure FDA0003499020300000035
为扇形半径;rh为行人半径;dc为行人可接受的最小舒适距离;
其中,扇形半径
Figure FDA0003499020300000036
和扇形角α由行人速度决定:
Figure FDA0003499020300000037
Figure FDA0003499020300000038
其中,mv为速度权重,vh为行人速度,rstatic=rh+dc为行人静止时的扇形半径,rh为行人半径,dc为行人可接受的最小舒适距离;
所述危险区和不适区是指:建立直角坐标系,x轴指向目标位置g,以行人所在点A为中心;以行人运动方向为扇形对称轴,以α为扇形角,以r为扇形半径,得到扇形ABC;
以点A为圆心,以行人静止时的扇形半径rstatic为半径画圆,将圆与扇形ABC的交点定义为点D和点E;
区域ABC为危险区;区域ADE为不适区。
8.基于深度强化学习的服务机器人人群感知导航系统,其特征是,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
CN202210122517.2A 2022-02-09 2022-02-09 基于深度强化学习的服务机器人人群感知导航方法及系统 Active CN114485673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210122517.2A CN114485673B (zh) 2022-02-09 2022-02-09 基于深度强化学习的服务机器人人群感知导航方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210122517.2A CN114485673B (zh) 2022-02-09 2022-02-09 基于深度强化学习的服务机器人人群感知导航方法及系统

Publications (2)

Publication Number Publication Date
CN114485673A true CN114485673A (zh) 2022-05-13
CN114485673B CN114485673B (zh) 2023-11-03

Family

ID=81479408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210122517.2A Active CN114485673B (zh) 2022-02-09 2022-02-09 基于深度强化学习的服务机器人人群感知导航方法及系统

Country Status (1)

Country Link
CN (1) CN114485673B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN117191046A (zh) * 2023-11-03 2023-12-08 齐鲁工业大学(山东省科学院) 基于深度强化学习和图神经网络的人群导航方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363393A (zh) * 2018-02-05 2018-08-03 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
CN108733062A (zh) * 2018-06-25 2018-11-02 山东大学 家庭陪护机器人自主充电系统及方法
CN108931250A (zh) * 2018-05-04 2018-12-04 北京空间飞行器总体设计部 一种基于相对导航可观测度优化的脉冲机动自主规划方法
US20210123741A1 (en) * 2019-10-29 2021-04-29 Loon Llc Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning
CN113359717A (zh) * 2021-05-26 2021-09-07 浙江工业大学 一种基于深度强化学习的移动机器人导航避障方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363393A (zh) * 2018-02-05 2018-08-03 腾讯科技(深圳)有限公司 一种智能运动设备及其导航方法和存储介质
CN108931250A (zh) * 2018-05-04 2018-12-04 北京空间飞行器总体设计部 一种基于相对导航可观测度优化的脉冲机动自主规划方法
CN108733062A (zh) * 2018-06-25 2018-11-02 山东大学 家庭陪护机器人自主充电系统及方法
US20210123741A1 (en) * 2019-10-29 2021-04-29 Loon Llc Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning
CN113359717A (zh) * 2021-05-26 2021-09-07 浙江工业大学 一种基于深度强化学习的移动机器人导航避障方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶俊: "移动机器人的传感器导航控制系统", 《电子技术》, vol. 49, no. 5, pages 34 - 35 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN117191046A (zh) * 2023-11-03 2023-12-08 齐鲁工业大学(山东省科学院) 基于深度强化学习和图神经网络的人群导航方法及系统
CN117191046B (zh) * 2023-11-03 2024-01-26 齐鲁工业大学(山东省科学院) 基于深度强化学习和图神经网络的人群导航方法及系统

Also Published As

Publication number Publication date
CN114485673B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
Sombolestan et al. Optimal path-planning for mobile robots to find a hidden target in an unknown environment based on machine learning
Jesus et al. Deep deterministic policy gradient for navigation of mobile robots in simulated environments
Qiao et al. Pomdp and hierarchical options mdp with continuous actions for autonomous driving at intersections
CN114485673B (zh) 基于深度强化学习的服务机器人人群感知导航方法及系统
Bai et al. Learning-based multi-robot formation control with obstacle avoidance
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Wenzel et al. Vision-based mobile robotics obstacle avoidance with deep reinforcement learning
Mishra et al. Design of mobile robot navigation controller using neuro-fuzzy logic system
Al Dabooni et al. Heuristic dynamic programming for mobile robot path planning based on Dyna approach
Dubrawski et al. Learning locomotion reflexes: A self-supervised neural system for a mobile robot
CN113515131A (zh) 基于条件变分自动编码器的移动机器人避障方法及系统
Parasuraman Sensor fusion for mobile robot navigation: Fuzzy Associative Memory
CN115903773A (zh) 移动体控制装置、移动体、学习装置及方法、及存储介质
CN114964247A (zh) 基于高阶图卷积神经网络的人群感知导航方法及系统
Laouici et al. Hybrid method for the navigation of mobile robot using fuzzy logic and spiking neural networks
Demir et al. Motion planning and control with randomized payloads on real robot using deep reinforcement learning
Li et al. Q-learning based method of adaptive path planning for mobile robot
Raj et al. Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning
Panigrahi et al. Path planning and control of autonomous robotic agent using mamdani based fuzzy logic controller and arduino uno micro controller
US20230101162A1 (en) Mobile body control device, mobile body, mobile body control method, program, and learning device
CN113807460B (zh) 智能体动作的确定方法和装置、电子设备和介质
Kubota et al. Development of a New Intelligent Mobile Robot Path Planning Algorithm Based on Deep Reinforcement Learning Considering Pedestrian Traffic Rules
Kubota et al. Cooperative formation of multi-robot based on spring model
Do et al. Deep reinforcement learning based socially aware mobile robot navigation framework
Gouko et al. An action generation model using time series prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant