CN114485673A - 基于深度强化学习的服务机器人人群感知导航方法及系统 - Google Patents
基于深度强化学习的服务机器人人群感知导航方法及系统 Download PDFInfo
- Publication number
- CN114485673A CN114485673A CN202210122517.2A CN202210122517A CN114485673A CN 114485673 A CN114485673 A CN 114485673A CN 202210122517 A CN202210122517 A CN 202210122517A CN 114485673 A CN114485673 A CN 114485673A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- state
- service robot
- robot
- time step
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 230000008447 perception Effects 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 15
- 230000033001 locomotion Effects 0.000 claims abstract description 10
- 230000001186 cumulative effect Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 231100001261 hazardous Toxicity 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
Abstract
本发明公开了基于深度强化学习的服务机器人人群感知导航方法及系统,包括:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。本发明能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。
Description
技术领域
本发明涉及机器人导航技术领域,特别是涉及基于深度强化学习的服务机器人人群感知导航方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
随着感知和计算技术的迅速发展,机器人的应用场景逐渐从孤立环境扩展到与人共融的社会空间。这要求机器人在人群中安全可靠地导航,具有以下两个方面的挑战:首先,由于智能体之间的通信并非广泛存在,每个智能体的意图对于机器人来说是未知的且难以在线预测;其次,行人通常遵循难以量化的微妙社会规范,这使得机器人更难在人群中导航。尽管存在挑战,但相关机器人导航问题已得到广泛研究,并涌现出许多有价值的成果。相关研究方法可分为基于反应方法、基于轨迹方法和基于学习方法。
在基于反应方法中,一项开创性工作是社会力模型(SFM),它使用吸引力和排斥力来建模人群中的交互行为。其他方法例如互惠速度障碍(RVO)和最优互惠碰撞避免(ORCA)是将周围智能体视为速度障碍,以在互惠假设下获取最优无碰撞速度。然而,上述算法都存在冻结机器人问题。此外,这些算法仅采用当前状态作为输入,经常导致短视且不自然的行为,因此难以适用于现实世界的人机交互。
基于轨迹方法采用最大熵学习技术从行人数据中学习潜在的合作特征。该方法允许机器人展望未来并做出有远见的决策。然而,基于轨迹方法具有以下缺点:首先,在线预测周围智能体的运动轨迹并从宽阔的状态空间中搜索可行路径的计算成本高且难以保证实时性;其次,预测的轨迹可能占据大部分状态空间,使得机器人的行为过于保守。
最近,基于学习方法备受关注。一部分基于学习方法利用模仿学习从所需行为的演示中学习策略。另一部分基于学习方法将机器人人群感知导航视为马尔可夫决策过程,并利用深度强化学习来解决相关问题。给定所有智能体的状态转移,规划器首先从价值网络中计算所有可能的下一个状态值,然后根据价值网络估计的最大状态值选择最优动作。然而,当前基于学习方法并未充分考虑人机交互中行人的安全性和舒适性。
发明内容
为了解决现有技术的不足,本发明提供了基于深度强化学习的服务机器人人群感知导航方法及系统;提出了一个新的价值网络用于机器人决策,该网络联合推理了行人的空间关系和他们运动的时间关系。考虑行人实时行为,设计机器人的危险区域,并制定新的奖励函数,以进一步保证行人在人机交互中的安全性和舒适性。
第一方面,本发明提供了基于深度强化学习的服务机器人人群感知导航方法;
基于深度强化学习的服务机器人人群感知导航方法,包括:
获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
第二方面,本发明提供了基于深度强化学习的服务机器人人群感知导航系统;
基于深度强化学习的服务机器人人群感知导航系统,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
第四方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
第五方面,本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
与现有技术相比,本发明的有益效果是:
1、提出一种新的价值网络,该网络通过联合推理行人的空间关系和他们运动的时间关系来对人群交互进行建模,从而能够有效预测行人的未来运动轨迹,进而提升机器人决策水平,实现机器人在人群环境中的可靠导航。
2、考虑行人实时运动行为,利用行人速度信息和行人可接受的安全距离设计机器人危险区域,并根据惩罚判断条件完成奖励函数设计。机器人在训练阶段将学习躲避危险区域的能力,从而保证行人在人机交互中的安全性和舒适性,实现机器人在现实社会环境中的安全导航。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的值网络结构;
图2为实施例一的空间映射示意图;
图3为实施例一的危险区域初始几何形状;
图4为实施例一的危险区域最终几何形状;
图5为实施例一的判断机器人是否在危险区域示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于深度强化学习的服务机器人人群感知导航方法;
基于深度强化学习的服务机器人人群感知导航方法,包括:
S101:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
S102:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;
所述最优导航策略以满足最大化期望累积奖赏为目标;
所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
进一步地,所述S101:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
其中,可观测状态为当前智能体的位置p=[px,py],速度v=[vx,vy]和半径r;不可观测状态为目标的位置g=[gx,gy],偏好速度vpref和朝向角θ。
进一步地,所述最优导航策略为:
其中,表示最优导航策略;为t时刻获得的奖赏;A为动作空间,其中包含机器人可达到的速度集合;γ∈(0,1)为折扣因子;偏好速度vpref被用作折扣因子中的归一化项;为执行动作at时从到的转移概率;V*为最优值函数;表示t+Δt时刻最优联合状态值;表示t时刻最优联合状态值;表示t时刻联合状态;表示t+Δt时刻联合状态。
进一步地,服务机器人每个时间步对应的执行动作at通过值网络结构来预测。
进一步地,所述值网络结构,包括:
若干个并联支路;
每一个支路,包括:依次连接的空间映射单元和循环神经网络;
每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。
进一步地,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
进一步地,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;
当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;
对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;
将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计。
进一步地,空间映射单元,工作原理包括:
给定大小为L的邻域,构建以每个行人为中心的维度为L×L×3的映射张量Ξit来编码周围行人的位置和速度:
其中,表示行人i空间关系的映射张量;为行人i的周围行人集合;为周围行人j的状态向量,其中为周围行人j在x轴方向上的速度,为周围行人j在y轴方向上的速度;为指示函数,仅当相对位置(Δx,Δy)位于单元(m,n)中时的数值为1,否则的数值为0。
进一步地,所述循环神经网络的工作原理包括:
行人i状态、包含行人i空间关系特征的映射张量Ξit和机器人状态被输入到RNN模块:
由于机器人周围行人数量在不同的场景中可能会有较大差异,因此利用注意力模块将任意数量的输入处理成固定大小的输出。此外,注意力模块可以计算每个行人的相对重要性,并为他们分配注意力权重。
进一步地,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;具体包括:
进一步地,当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;具体包括:
进一步地,对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;具体包括:
进一步地,将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计;具体包括:
根据人群的最终表示Θt,相应的状态值ζt估计如下:
该工作可以描述为强化学习框架中的序列决策问题,且假设行人在行走过程中不会避开或故意阻碍机器人。智能体(机器人和行人)的状态分为可观测状态和不可观测状态。在每个时间步,智能体可以获得自身状态以及其他智能体的可观测状态。
所提值网络结构如图1所示,其中空间映射和循环神经网络(RNN)分别获取行人的空间关系和他们运动的时间关系。此外,注意力模块用于计算人群中每个人的相对重要性。空间映射示意图如图2所示。
其中,mv为速度权重,vh为行人速度,rstatic=rh+dc为行人静止时的扇形半径,rh为行人半径,dc为行人可接受的最小舒适距离。
以点A为圆心,以行人静止时的扇形半径rstatic为半径画圆,将圆与扇形ABC的交点定义为点D和点E;
区域ABC为危险区;区域ADE为不适区。
考虑行人实时行为,设计机器人的危险区域,并制定新的奖励函数,以进一步保证行人在人机交互中的安全性和舒适性。
在行人运动方向上,危险区域的初始几何形状被构造为扇形,即图3中的区域ABC,命名为危险区。圆形表示行人,点A为行人中心。所有角度均参考正x轴测量,逆时针角度为正,顺时针角度为负。β表示行人运动方向相对于参考轴的角度。
随后,以点A为中心,rstatic为半径画圆交区域ABC于点D和E,如图4所示,圆环区域DE命名为不适区。此时,危险区域的最终几何形状确定为区域BCDE。
为确定机器人是否在危险区,需要同时满足两个条件。如图5所示,一为距离条件,表示为其中为时间区间Δt内机器人与行人的最小间隔距离;二为角度条件,表示为其中δ为机器人位置相对于参考轴的角度。此外,为确定机器人是否在不适区,仅需验证一个条件,即d<dc且机器人不在危险区。基于上述危险区域描述,所提奖赏函数,即奖励任务完成,惩罚碰撞和使人感到危险或不适的行为。
实施例二
本实施例提供了基于深度强化学习的服务机器人人群感知导航系统;
基于深度强化学习的服务机器人人群感知导航系统,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
此处需要说明的是,上述获取模块和导航模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于深度强化学习的服务机器人人群感知导航方法,其特征是,包括:
获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
2.如权利要求1所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
其中,可观测状态为当前智能体的位置p=[px,py],速度v=[vx,vy]和半径r;不可观测状态为目标的位置g=[gx,gy],偏好速度vpref和朝向角θ。
4.如权利要求3所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,服务机器人每个时间步对应的执行动作at通过值网络结构来预测;
所述值网络结构,包括:若干个并联支路;
每一个支路,包括:依次连接的空间映射单元和循环神经网络;
每一个支路的循环神经网络输出端均分别与第一多层感知器的输入端和第二多层感知器的输入端连接;第一多层感知器的输出端和第二多层感知器的输出端均与注意力模块的输入端连接,注意力模块的输出端与第三多层感知器的输入端连接,第三多层感知器的输出端用于输出服务机器人每个时间步对应的最优状态值估计。
5.如权利要求4所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,每一个支路与一个行人对应;所述空间映射单元的输入值为当前行人的可观测状态;所述空间映射单元的输出值为当前行人当前时间步的空间关系特征的映射张量;所述循环神经网络的输入值为空间映射单元的输出值、当前时间步下行人的可观测状态以及当前时间步下机器人的状态;所述循环神经网络的输出值为当前时间步下当前行人的隐含状态。
6.如权利要求5所述的基于深度强化学习的服务机器人人群感知导航方法,其特征是,当前时间步下当前行人的隐含状态输入到第一多层感知器中得到服务机器人与当前行人的成对交互特征;
当前时间步下当前行人的隐含状态输入到第二多层感知器中得到不同行人的注意力权重;
对服务机器人与当前行人的成对交互特征,和不同行人的注意力权重输入到注意力模块中进行加权线性组合,得到人群的最终表示;
将人群的最终表示,输入到第三多层感知器中,得到最终的服务机器人每个时间步对应的最优状态值估计。
其中,mv为速度权重,vh为行人速度,rstatic=rh+dc为行人静止时的扇形半径,rh为行人半径,dc为行人可接受的最小舒适距离;
所述危险区和不适区是指:建立直角坐标系,x轴指向目标位置g,以行人所在点A为中心;以行人运动方向为扇形对称轴,以α为扇形角,以r为扇形半径,得到扇形ABC;
以点A为圆心,以行人静止时的扇形半径rstatic为半径画圆,将圆与扇形ABC的交点定义为点D和点E;
区域ABC为危险区;区域ADE为不适区。
8.基于深度强化学习的服务机器人人群感知导航系统,其特征是,包括:
获取模块,其被配置为:获取智能体的可观测状态和不可观测状态;所述智能体,包括服务机器人和行人;所述可观测状态,包括:当前智能体的位置、速度和半径;所述不可观测状态,包括:目标、偏好速度和朝向角;
导航模块,其被配置为:根据智能体的可观测状态和不可观测状态,找到服务机器人在每个时间步的最优导航策略,以实现机器人在n个行人之间导航,并在没有任何碰撞的情况下到达目标所在地;其中,n为正整数;所述最优导航策略以满足最大化期望累积奖赏为目标;所述最优导航策略包括服务机器人在每个时间步的动作指令,即在每个时间步服务机器人需实现的速度。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210122517.2A CN114485673B (zh) | 2022-02-09 | 2022-02-09 | 基于深度强化学习的服务机器人人群感知导航方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210122517.2A CN114485673B (zh) | 2022-02-09 | 2022-02-09 | 基于深度强化学习的服务机器人人群感知导航方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114485673A true CN114485673A (zh) | 2022-05-13 |
CN114485673B CN114485673B (zh) | 2023-11-03 |
Family
ID=81479408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210122517.2A Active CN114485673B (zh) | 2022-02-09 | 2022-02-09 | 基于深度强化学习的服务机器人人群感知导航方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114485673B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN117191046A (zh) * | 2023-11-03 | 2023-12-08 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363393A (zh) * | 2018-02-05 | 2018-08-03 | 腾讯科技(深圳)有限公司 | 一种智能运动设备及其导航方法和存储介质 |
CN108733062A (zh) * | 2018-06-25 | 2018-11-02 | 山东大学 | 家庭陪护机器人自主充电系统及方法 |
CN108931250A (zh) * | 2018-05-04 | 2018-12-04 | 北京空间飞行器总体设计部 | 一种基于相对导航可观测度优化的脉冲机动自主规划方法 |
US20210123741A1 (en) * | 2019-10-29 | 2021-04-29 | Loon Llc | Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning |
CN113359717A (zh) * | 2021-05-26 | 2021-09-07 | 浙江工业大学 | 一种基于深度强化学习的移动机器人导航避障方法 |
-
2022
- 2022-02-09 CN CN202210122517.2A patent/CN114485673B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363393A (zh) * | 2018-02-05 | 2018-08-03 | 腾讯科技(深圳)有限公司 | 一种智能运动设备及其导航方法和存储介质 |
CN108931250A (zh) * | 2018-05-04 | 2018-12-04 | 北京空间飞行器总体设计部 | 一种基于相对导航可观测度优化的脉冲机动自主规划方法 |
CN108733062A (zh) * | 2018-06-25 | 2018-11-02 | 山东大学 | 家庭陪护机器人自主充电系统及方法 |
US20210123741A1 (en) * | 2019-10-29 | 2021-04-29 | Loon Llc | Systems and Methods for Navigating Aerial Vehicles Using Deep Reinforcement Learning |
CN113359717A (zh) * | 2021-05-26 | 2021-09-07 | 浙江工业大学 | 一种基于深度强化学习的移动机器人导航避障方法 |
Non-Patent Citations (1)
Title |
---|
叶俊: "移动机器人的传感器导航控制系统", 《电子技术》, vol. 49, no. 5, pages 34 - 35 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN114779792B (zh) * | 2022-06-20 | 2022-09-09 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN117191046A (zh) * | 2023-11-03 | 2023-12-08 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
CN117191046B (zh) * | 2023-11-03 | 2024-01-26 | 齐鲁工业大学(山东省科学院) | 基于深度强化学习和图神经网络的人群导航方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114485673B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sombolestan et al. | Optimal path-planning for mobile robots to find a hidden target in an unknown environment based on machine learning | |
Jesus et al. | Deep deterministic policy gradient for navigation of mobile robots in simulated environments | |
Qiao et al. | Pomdp and hierarchical options mdp with continuous actions for autonomous driving at intersections | |
CN114485673B (zh) | 基于深度强化学习的服务机器人人群感知导航方法及系统 | |
Bai et al. | Learning-based multi-robot formation control with obstacle avoidance | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
Wenzel et al. | Vision-based mobile robotics obstacle avoidance with deep reinforcement learning | |
Mishra et al. | Design of mobile robot navigation controller using neuro-fuzzy logic system | |
Al Dabooni et al. | Heuristic dynamic programming for mobile robot path planning based on Dyna approach | |
Dubrawski et al. | Learning locomotion reflexes: A self-supervised neural system for a mobile robot | |
CN113515131A (zh) | 基于条件变分自动编码器的移动机器人避障方法及系统 | |
Parasuraman | Sensor fusion for mobile robot navigation: Fuzzy Associative Memory | |
CN115903773A (zh) | 移动体控制装置、移动体、学习装置及方法、及存储介质 | |
CN114964247A (zh) | 基于高阶图卷积神经网络的人群感知导航方法及系统 | |
Laouici et al. | Hybrid method for the navigation of mobile robot using fuzzy logic and spiking neural networks | |
Demir et al. | Motion planning and control with randomized payloads on real robot using deep reinforcement learning | |
Li et al. | Q-learning based method of adaptive path planning for mobile robot | |
Raj et al. | Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning | |
Panigrahi et al. | Path planning and control of autonomous robotic agent using mamdani based fuzzy logic controller and arduino uno micro controller | |
US20230101162A1 (en) | Mobile body control device, mobile body, mobile body control method, program, and learning device | |
CN113807460B (zh) | 智能体动作的确定方法和装置、电子设备和介质 | |
Kubota et al. | Development of a New Intelligent Mobile Robot Path Planning Algorithm Based on Deep Reinforcement Learning Considering Pedestrian Traffic Rules | |
Kubota et al. | Cooperative formation of multi-robot based on spring model | |
Do et al. | Deep reinforcement learning based socially aware mobile robot navigation framework | |
Gouko et al. | An action generation model using time series prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |