CN113282093B - 机器人导航方法、装置、电子设备及存储介质 - Google Patents

机器人导航方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113282093B
CN113282093B CN202110822386.4A CN202110822386A CN113282093B CN 113282093 B CN113282093 B CN 113282093B CN 202110822386 A CN202110822386 A CN 202110822386A CN 113282093 B CN113282093 B CN 113282093B
Authority
CN
China
Prior art keywords
robot
state
moment
level
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110822386.4A
Other languages
English (en)
Other versions
CN113282093A (zh
Inventor
丘腾海
张天乐
蒲志强
刘振
易建强
常红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110822386.4A priority Critical patent/CN113282093B/zh
Publication of CN113282093A publication Critical patent/CN113282093A/zh
Application granted granted Critical
Publication of CN113282093B publication Critical patent/CN113282093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/027Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means comprising intertial navigation means, e.g. azimuth detector

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法包括:获取机器人状态和机器人所处环境状态;通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;基于所述高层策略层时空状态特征获得机器人的高层策略动作;基于所述高层策略动作计算获得子目标位置的误差状态;基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;基于所述低层策略动作进行机器人导航。本方法能够高效地实现机器人无障碍导航。

Description

机器人导航方法、装置、电子设备及存储介质
技术领域
本发明涉及智能机器人技术领域,具体涉及一种机器人导航方法、装置、电子设备及存储介质。
背景技术
近年来,随着科学技术发展,如服务机器人、扫地机器人、物流机器人等的自主移动机器人在各种生活场景中的应用越来越多。而在这些应用中,机器人导航技术起到重要的作用。机器人导航通常是指:在动态拥挤的障碍物环境中,实现对机器人从起始位置到目标位置的导航决策,避免机器人与静态或动态障碍物产生碰撞。
需要说明的是,此中的动态障碍物通常都拥有自主的机动策略和意图,且其可以自主决策。可是机器人与障碍物之间通常不存在可以实现协同避障的通信,同时,大部分机器人都面临着大量障碍物密集分布的复杂动态环境。因此,在复杂动态环境下,为机器人找到无碰撞最优路径以实现机器人导航具有深远意义。
现有的机器人导航技术大致分为基于模型和基于学习的方法。基于模型的方法,通常需要使用导航领域专业知识。比如,采用反映式导航方法,其原理是采用基于几何或物理学的一步式交互规则来避免机器人与障碍物碰撞,但是,此方法容易使机器人产生振荡和不自然行为。再比如,采用基于轨迹的导航方法,此方法可以从长远角度计算以生成更平滑的路径,但是,该方法计算过程复杂耗时且因其需要更多不可观测的状态知识导致计算难度大、准确率低。基于学习的方法,主要采用深度强化学习方法学习机器人导航行为。且为了更好地感知环境,甚至在此方法中采用长短时记忆统一处理环境中所有障碍物对机器人的影响,但是,统一处理的方法忽略了不同障碍物的自主特性差异。或者,在此方法中引入注意力机制以标记机器人与不同障碍物间的关系,但此方法仍然是仅以最终目标位置作为引导,仅考虑机器人当前步骤的障碍状态,这样容易使机器人为快速达到最终目标位置而采取短视的激进行为,从而导致机器人与障碍物产生碰撞而陷入危险。
综上所述,现有方法虽然能够实现简单场景下的机器人导航,但其往往存在导航行为振荡、计算过程复杂耗时、未考虑不同障碍物的自主特性差异,或者,仅以最终目标位置为引导且仅考虑当前步骤障碍状态等问题。
发明内容
本发明提供一种机器人导航方法、装置、电子设备及存储介质,用以克服现有技术中导航行为振荡、计算过程复杂耗时、导航过程仅以最终目标位置为引导且仅考虑当前步骤状态等缺陷,能够高效地实现机器人无障碍导航。
本发明提供一种机器人导航方法,包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。根据本发明提供的机器人导航方法,所述获取机器人状态和机器人所处环境状态,包括:
获取初始的机器人状态和机器人所处环境状态;
基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;
其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置。
根据本发明提供的机器人导航方法,所述获取机器人状态和机器人所处环境状态,包括:
根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;
根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态;
和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:
根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态。
根据本发明提供的机器人导航方法,所述通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,包括:
将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;
分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;
基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
根据本发明提供的机器人导航方法,所述基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
根据本发明提供的机器人导航方法,所述基于所述高层策略动作计算获得子目标位置的误差状态,包括:
基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
根据本发明提供的机器人导航方法,所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
本发明还提供一种机器人导航装置,所述装置包括:
状态获取模块,用于获取机器人状态和机器人所处环境状态;
特征编码模块,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
高层动作获取模块,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
状态更新模块,基于所述高层策略动作计算获得子目标位置的误差状态;
低层动作获取模块,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
导航模块,用于基于所述低层策略动作进行机器人导航。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据如上任一项所述机器人导航方法的全部或部分步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据如上任一项所述机器人导航方法的全部或部分步骤。
本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明提供的机器人导航方法的流程示意图之一;
图2是本发明提供的机器人导航方法的流程示意图之二;
图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原理图;
图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图;
图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时间步长示意图;
图6是本发明提供的机器人导航方法中机器人导航路径规划示意图;
图7是本发明提供的机器人导航装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
附图标记:
710:状态获取模块;720:特征编码模块;730:高层动作获取模块;740:状态更新模块;750:低层动作获取模块;760:导航模块;810:处理器;820:通信接口;830:存储器 840:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明的技术方案进行清除完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图1-8描述本发明提供的一种机器人导航方法、装置、电子设备及存储介质。
本发明提供一种机器人导航方法,图1是本发明提供的机器人导航方法的流程示意图之一,如图1所示,所述方法包括:
100、获取机器人状态和机器人所处环境状态;
200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
300、基于所述高层策略层时空状态特征获得机器人的高层策略动作;
400、基于所述高层策略动作计算获得子目标位置的误差状态;
500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
600、基于所述低层策略动作进行机器人导航。
本方法中,获取机器人状态和机器人所处环境状态,其中,机器人状态中包括初始的机器人状态,或者说机器人位于原位置的状态;通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;基于所述高层策略层时空状态特征获得机器人的高层策略动作;基于所述高层策略动作计算获得子目标位置,并获得子目标位置的误差状态,具体是获得机器人在到达子目标位置之前的子目标位置的预测状态,且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得,以将机器人由原位置准确地导航至子目标位置;基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;基于所述低层策略动作进行机器人由子目标位置到目标位置的导航。
本发明提供的机器人导航方法,利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
根据本发明提供的机器人导航方法,图2是本发明提供的机器人导航方法的流程示意图之二,结合图2所示,该方法中,步骤100、获取机器人状态和机器人所处环境状态,具体包括:
110、获取初始的机器人状态和机器人所处环境状态;
120、基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;
其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置。
机器人状态是指初始的或者第一时刻的机器人的状态,而机器人所述环境状态,主要是指其所处环境中的各个动态的障碍物的状态。
根据本发明提供的机器人导航方法,在上述实施例的基础上,步骤110、获取机器人状态和机器人所处环境状态,包括:
111、根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;
112、根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态。
获取第
Figure 631539DEST_PATH_IMAGE001
时刻的机器人状态
Figure 520998DEST_PATH_IMAGE002
(第
Figure 400092DEST_PATH_IMAGE003
时刻即第一时刻,其作为初始的时刻,也是机 器人在原位置时对应的时刻):
Figure 247962DEST_PATH_IMAGE004
其中,
Figure 806814DEST_PATH_IMAGE005
表示机器人的目标位置,
Figure 968805DEST_PATH_IMAGE006
表示机器人的最大速度,
Figure 30302DEST_PATH_IMAGE007
表示第
Figure 986757DEST_PATH_IMAGE003
时刻 机器人的瞬时位置,
Figure 336967DEST_PATH_IMAGE008
为第
Figure 801184DEST_PATH_IMAGE001
时刻机器人的瞬时速度,
Figure 654870DEST_PATH_IMAGE009
为第
Figure 47806DEST_PATH_IMAGE003
时刻机器人的体积半径 大小。
再获取第
Figure 682049DEST_PATH_IMAGE001
时刻机器人所处环境状态
Figure 684378DEST_PATH_IMAGE010
Figure 658150DEST_PATH_IMAGE011
其中,
Figure 221987DEST_PATH_IMAGE012
分别表示第
Figure 281210DEST_PATH_IMAGE003
时刻机器人所处环境中的
Figure 821650DEST_PATH_IMAGE013
个动态 障碍物状态,且
Figure 915508DEST_PATH_IMAGE014
表示第
Figure 650246DEST_PATH_IMAGE014
个障碍物。
和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:
121、根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态。
基于第
Figure 196765DEST_PATH_IMAGE015
时刻的机器人状态
Figure 546756DEST_PATH_IMAGE002
和第
Figure 291858DEST_PATH_IMAGE003
时刻机器人所处环境状态
Figure 197497DEST_PATH_IMAGE010
计算获得第
Figure 231312DEST_PATH_IMAGE003
时刻的机器人观测状态
Figure 615020DEST_PATH_IMAGE016
Figure 182005DEST_PATH_IMAGE017
其中,
Figure 258546DEST_PATH_IMAGE018
表示第
Figure 514078DEST_PATH_IMAGE019
时刻机器人所处环境状态,且
Figure 763793DEST_PATH_IMAGE020
表示选取前后
Figure 185285DEST_PATH_IMAGE020
个时 刻的机器人所处环境状态。
具体地,比如
Figure 432727DEST_PATH_IMAGE021
,即表示选取前后3个时刻的机器人所处环境状态,也即,此时 第
Figure 175555DEST_PATH_IMAGE003
时刻的机器人观测状态
Figure 901066DEST_PATH_IMAGE022
Figure 177064DEST_PATH_IMAGE023
为第
Figure 595407DEST_PATH_IMAGE015
时刻机器人的本身体积的半径大小。机器人和各障碍物之间的障碍物 控制策略采用最佳互易避碰法(optimal reciprocal collision avoidance,简称ORCA 法),且默认设置为初始时刻机器人的扫描半径大小为4m,初始时刻各动态的障碍物则在机 器人初始位置以机器人自身为原点半径4m的环境范围内随机生成,障碍物和机器人均采用 运动学完整约束模型,且均可以实现向任意方向的移动动作。进一步地,本发明实施例还将 机器人设置为对障碍物不可见,即,每一个障碍物只对所处环境中其他各个障碍物作出反 应,但不能识别到机器人,而机器人可以识别所有障碍物,由此创造出机器人需要全面考虑 所有障碍物的状态才可能实现避障的复杂动态障碍物环境。由此,在机器人所处环境中的 所有动态的障碍物的状态,共同组成了机器人所处环境状态。且上述步骤111和步骤112,其 与步骤121之间是和的关系,也即,既可以仅进行步骤111、步骤112,也可以进行步骤111、步 骤112、步骤121,具体根据实际情况设置。
具体地,图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原 理图,结合图3所示,将所述第
Figure 887848DEST_PATH_IMAGE015
时刻的机器人观测状态
Figure 151470DEST_PATH_IMAGE024
中第
Figure 49019DEST_PATH_IMAGE003
时刻的机器人状态
Figure 466877DEST_PATH_IMAGE025
和第
Figure 184297DEST_PATH_IMAGE026
各个时刻的机器人所处环境状态
Figure 517189DEST_PATH_IMAGE027
,均输入至时空图注意 力网络中,具体是通过单层全连接神经网络,分别对应获得第
Figure 269245DEST_PATH_IMAGE015
时刻的机器人过程状态
Figure 324663DEST_PATH_IMAGE028
和第
Figure 529379DEST_PATH_IMAGE026
各个时刻的机器人所处环境过程状态
Figure 400383DEST_PATH_IMAGE029
。并最终基于 高层策略层和低层策略层分别获取所述高层策略层时空状态特征
Figure 6945DEST_PATH_IMAGE030
和低层策略层时空状 态特征
Figure 436527DEST_PATH_IMAGE031
。在高层策略层,将高层策略层时空状态特征
Figure 925278DEST_PATH_IMAGE030
与第
Figure 865552DEST_PATH_IMAGE003
时刻的机器人状态
Figure 61041DEST_PATH_IMAGE025
等 进行融合以及后续组合,最终结合外部奖惩函数,获得子目标位置及子目标位置的误差状 态
Figure 162989DEST_PATH_IMAGE032
,并将其输入到低层策略层,在低层策略层中与低层策略层时空状态特征
Figure 637570DEST_PATH_IMAGE031
和第
Figure 115956DEST_PATH_IMAGE003
时刻的机器人状态进行融合以及后续组合,最终结合外部奖惩函数和内部奖惩函数等, 综合获得向最终的目标位置的导航规划,以据其将机器人由子目标位置导航至最终的目标 位置。
根据本发明提供的机器人导航方法,该方法中,步骤200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,具体包括:
211、将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;
212、分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;
213、基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图,结合图4所示,本方法中,步骤200具体包括:
将所述第
Figure 165952DEST_PATH_IMAGE001
时刻的机器人观测状态
Figure 704381DEST_PATH_IMAGE033
中第
Figure 902144DEST_PATH_IMAGE003
时刻的机器人状态
Figure 688615DEST_PATH_IMAGE002
和第
Figure 858696DEST_PATH_IMAGE034
各个时刻的机器人所处环境状态
Figure 302447DEST_PATH_IMAGE035
,均输入至时空图注意力网络 中,分别对应获得第
Figure 987506DEST_PATH_IMAGE003
时刻的机器人过程状态
Figure 306230DEST_PATH_IMAGE036
和第
Figure 330818DEST_PATH_IMAGE034
各个时刻的机器人所处 环境过程状态
Figure 211049DEST_PATH_IMAGE037
分别计算各个过程状态
Figure 586667DEST_PATH_IMAGE038
Figure 7284DEST_PATH_IMAGE039
的查询目标特征
Figure 650493DEST_PATH_IMAGE040
、值目标特征
Figure 701625DEST_PATH_IMAGE041
和键目标特征
Figure 298960DEST_PATH_IMAGE042
,具体计算过程如下:
Figure 460951DEST_PATH_IMAGE043
Figure 20983DEST_PATH_IMAGE044
Figure 977438DEST_PATH_IMAGE045
其中,
Figure 327648DEST_PATH_IMAGE046
Figure 27750DEST_PATH_IMAGE047
表示各个过程状态
Figure 639692DEST_PATH_IMAGE048
Figure 32627DEST_PATH_IMAGE049
Figure 401291DEST_PATH_IMAGE050
表示可学习的参数矩阵。
并根据对各个过程状态
Figure 905085DEST_PATH_IMAGE051
Figure 878857DEST_PATH_IMAGE052
的查询目标特征
Figure 737967DEST_PATH_IMAGE053
、值目标特征
Figure 797190DEST_PATH_IMAGE054
和键目标特征
Figure 104674DEST_PATH_IMAGE055
进行加权求和的计算方法,分别计算获得各个时刻的机器人的图注 意力特征
Figure 932953DEST_PATH_IMAGE056
再基于长短时记忆网络和所述各个时刻的机器人的图注意力特征
Figure 166226DEST_PATH_IMAGE057
, 根据实际应用场景的计算需求结合加权求和计算法,分别基于高层策略层和低层策略层的 处理后,分别获取所述高层策略层时空状态特征
Figure 712745DEST_PATH_IMAGE058
和低层策略层时空状态特征
Figure 355079DEST_PATH_IMAGE059
还需要说明的是,高层策略层和低层策略层属于同类型神经网络层,而二者的区 别在于对于参与计算的各个时刻的机器人的图注意力特征
Figure 303443DEST_PATH_IMAGE060
等各项因子的加 权权重的设定不同(具体根据实际需求预先设定),因此其计算结果也不相同。由此,高层策 略层网络用于计算子目标位置和子目标位置的误差状态,而低层策略层网络则用于根据最 终的目标位置计算机器人最后的导航指令,并告知机器人导航路径。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤300、基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
310、将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
320、将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
330、基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
即步骤300具体包括:
将所述高层策略层时空状态特征
Figure 209082DEST_PATH_IMAGE058
与第
Figure 475853DEST_PATH_IMAGE003
时刻的机器人状态
Figure 125140DEST_PATH_IMAGE061
混合组成第一组 合向量
Figure 928011DEST_PATH_IMAGE062
,即第一组合向量是一个混合向量。
将所述第一组合向量
Figure 801289DEST_PATH_IMAGE063
输入至第一多层全连接层网络层,此时输入至M层的全 连接网络层,优选地取M=3,以获得高层策略层值函数
Figure 826795DEST_PATH_IMAGE064
再基于所述高层策略层值函数
Figure 14194DEST_PATH_IMAGE064
和所述外部奖惩函数
Figure 671571DEST_PATH_IMAGE065
获得机器人 的高层策略动作
Figure 919013DEST_PATH_IMAGE066
例如,高层策略动作
Figure 724158DEST_PATH_IMAGE066
可由6个离散动作组成,即高层策略动作表达式为
Figure 213783DEST_PATH_IMAGE067
,其中,
Figure 725667DEST_PATH_IMAGE068
分别取值
Figure 940748DEST_PATH_IMAGE069
Figure 436451DEST_PATH_IMAGE070
,六个
Figure 464188DEST_PATH_IMAGE068
取 值分别得出6个离散的高层策略动作,共同引导机器人进行相应动作。
并且,需要说明的是,其中的外部奖惩函数,可以理解为外部环境对于机器人导航 的影响因素,且外部奖惩函数主要与第
Figure 830578DEST_PATH_IMAGE003
时刻机器人的瞬时位置
Figure 685402DEST_PATH_IMAGE007
与机器人的目标位置
Figure 402822DEST_PATH_IMAGE005
是否相同,以及与机器人与各障碍物之间距离中的最小值
Figure 532452DEST_PATH_IMAGE071
所处的具体取值范围有 关。外部奖惩函数
Figure 783042DEST_PATH_IMAGE065
可通过如下公式进行计算:
Figure 543188DEST_PATH_IMAGE072
其中,
Figure 482325DEST_PATH_IMAGE073
表示低层策略动作,
Figure 415646DEST_PATH_IMAGE074
表示机器人与各障碍物的距离最小值,
Figure 538321DEST_PATH_IMAGE075
表示机 器人与各障碍物的距离阈值,
Figure 469368DEST_PATH_IMAGE076
表示前后两个时刻的时间间隔。需要说明的是,表示低层 策略动作
Figure 895801DEST_PATH_IMAGE077
在此处仅作为外部奖惩函数的表示符号,其并不影响外部奖惩函数计算值的 大小。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤400、基于所述高层策略动作计算获得子目标位置的误差状态,包括:
410、基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
420、基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
即,步骤400具体包括:
基于所述高层策略动作
Figure 570496DEST_PATH_IMAGE078
计算第
Figure 530100DEST_PATH_IMAGE003
时刻机器人的子目标位置
Figure 897627DEST_PATH_IMAGE079
以将机器人导 航至子目标位置
Figure 76936DEST_PATH_IMAGE080
,所述第
Figure 86480DEST_PATH_IMAGE003
时刻机器人的子目标位置
Figure 402055DEST_PATH_IMAGE081
为:
Figure 173440DEST_PATH_IMAGE082
其中,
Figure 840044DEST_PATH_IMAGE083
表示高层策略层的执行周期,
Figure 856542DEST_PATH_IMAGE084
表示取余,
Figure 292202DEST_PATH_IMAGE085
表示第
Figure 500068DEST_PATH_IMAGE086
时刻机 器人的子目标位置。
再基于所述第
Figure 388389DEST_PATH_IMAGE003
时刻子目标位置
Figure 5315DEST_PATH_IMAGE087
和所述瞬时位置
Figure 295482DEST_PATH_IMAGE088
获得子目标位置的误 差状态
Figure 680108DEST_PATH_IMAGE089
为:
Figure 790147DEST_PATH_IMAGE090
具体地,
Figure 148447DEST_PATH_IMAGE083
表示高层策略层的执行周期,也可以理解为是指高层策略层的执行时 间步长,其取值大于等于1。
也即,其基于所述高层策略动作计算获得子目标位置,并获得子目标位置的误差状态,具体是获得机器人在到达子目标位置之前的子目标位置的预测状态,且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得,以将机器人由原位置准确地导航至子目标位置。换言之,对于步骤410和步骤420,既可以按顺序进行,也可以两步骤交叉进行。即,既可以在获取到子目标位置后先将机器人导航至子目标位置后,再获取子目标位置的误差状态;又可以在机器人在到达子目标位置之前获取子目标位置的误差状态。
图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时 间步长示意图,结合图5所示,当高层策略层的执行周期
Figure 558700DEST_PATH_IMAGE091
时,若假定低层策略层的控制 流每步执行时间为1个单位时间,则高层策略层的控制流的每步执行时间则为2个单位时 间。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
510、将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
520、将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
530、基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
即步骤500具体包括:
将所述子目标位置的误差状态
Figure 108367DEST_PATH_IMAGE092
、所述第
Figure 971281DEST_PATH_IMAGE003
时刻机器人状态
Figure 133272DEST_PATH_IMAGE093
和所述低层策 略层时空状态特征
Figure 929190DEST_PATH_IMAGE059
相结合形成第二组合向量
Figure 151224DEST_PATH_IMAGE062
,第二组合向量
Figure 734390DEST_PATH_IMAGE062
为一个联合向量。
再将所述第二组合向量
Figure 700072DEST_PATH_IMAGE062
输入至第二多层全连接层网络层,具体输入至N层的 全连接网络层,且N=3,以获得低层策略层值函数
Figure 819337DEST_PATH_IMAGE094
再基于所述低层策略层值函数
Figure 946693DEST_PATH_IMAGE094
和所述低层奖惩函数
Figure 79472DEST_PATH_IMAGE095
获得机 器人的低层策略动作
Figure 583266DEST_PATH_IMAGE096
机器人的低层策略动作
Figure 822617DEST_PATH_IMAGE096
可由81个可能的离散动作组成,即:在
Figure 855295DEST_PATH_IMAGE097
范 围内的5个速度,在
Figure 672773DEST_PATH_IMAGE098
范围内的16个角度方向,以及机器人的停止动作。且在每个回 合中,终止状态均存在三种:到达目标位置、碰到障碍物和运动超时。
还需要说明的是,其中的所述低层奖惩函数可以基于所述外部奖惩函数
Figure 980258DEST_PATH_IMAGE065
确定,且所述低层奖惩函数
Figure 808536DEST_PATH_IMAGE099
为:
Figure 340012DEST_PATH_IMAGE100
其中,
Figure 588328DEST_PATH_IMAGE101
表示超参数,
Figure 699504DEST_PATH_IMAGE102
表示内部奖惩函数,且所述内部奖惩函数
Figure 647868DEST_PATH_IMAGE103
为:
Figure 350245DEST_PATH_IMAGE104
其中,clip( )表示截断函数。
整个导航过程以子目标位置作为机器人导航短时空视角的目标,以最终的目标位 置作为机器人导航长时空视角的最终目标,将二者相结合,并且分别基于高层策略动作和 低层策略动作以及结合内外环境奖惩函数引导机器人进行导航训练学习。且导航训练时, 总的回合长度为100k个回合,学习速率均为0.00001,高层策略层的折扣因子为
Figure 384060DEST_PATH_IMAGE105
, 低层策略层的折扣因子为
Figure 266303DEST_PATH_IMAGE106
,且整个过程是通过Adam分类优化器进行训练的。
还可以针对本发明提供的机器人导航方法,应用于不同的导航场景进行对比分析,比如可以研究两个不同导航场景,进一步分析各个导航场景下的仿真波形图等仿真信息。比如第一导航场景中障碍物分布较为分散,由仿真信息中机器人的方向箭头可知,机器人先导航到子目标位置,避免机器人进入机器人与最终目标位置之间的危险区域,提高了机器人的导航效率,对应地在该导航场景的动作取值信息中,雷达颜色越浅即动作取值越大的方向,则为机器人的移动方向,也进一步证明了机器人是朝子目标位置方向移动的。第二导航场景中障碍物分布较为密集,其他与第一导航场景同理,但两个导航场景的仿真波形图以及动作取值存在差异。本发明提供的方法,能够实现机器人快速安全无障碍的导航,且导航成功的概率非常大。
图6是本发明提供的机器人导航方法中机器人导航路径规划示意图,结合图6所示,图中黑色圆形表示机器人,而各个带角型标志的圆形表示各个障碍物,图中对于左下角第一个障碍物还标示出了其坐标系及坐标值,其意义在于表示第一个障碍物为动态障碍物,其他障碍物同理。且图中黑色五角星表示最终的目标位置,灰色五角星表示子目标位置。如图6所示,机器人在确定出子目标位置后,先根据高层策略动作由起始位置向目标位置进行移动,具体地如图中黑色圆形上所标示的坐标系及坐标值,并沿着该坐标向量向灰色五角星的子目标位置处进行移动。随后,机器人可以根据本方法获得的低层策略动作,再由子目标位置向最终的目标位置进行导航,最终到达目标位置,完成导航。
下面对本发明提供的一种机器人导航装置进行描述,所述机器人导航装置可以理解为是执行上述机器人导航方法的装置,二者应用原理相同,可以相互参照,此处不作赘述。
本发明还提供一种机器人导航装置,图7是本发明提供的机器人导航装置的结构示意图,如图7所示,所述装置包括:状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760,其中,
所述状态获取模块710,用于获取机器人状态和机器人所处环境状态;
所述特征编码模块720,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
所述高层动作获取模块730,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
所述状态更新模块740,基于所述高层策略动作计算获得子目标位置的误差状态;
所述低层动作获取模块750,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
所述导航模块760,用于基于所述低层策略动作进行机器人导航。
本发明提供的机器人导航装置,包括状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760,各模块相互配合工作,使得该装置利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
本发明还提供一种电子设备,图8是本发明提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述机器人导航方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上各实施例所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的机器人导航方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种机器人导航方法,其特征在于,包括:
获取机器人状态和机器人所处环境状态,具体包括:获取机器人状态和机器人所处环境状态;基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置;根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态;和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,具体包括:将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
2.根据权利要求1所述的机器人导航方法,其特征在于,所述基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
3.根据权利要求2所述的机器人导航方法,其特征在于,所述基于所述高层策略动作计算获得子目标位置的误差状态,包括:
基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
4.根据权利要求3所述的机器人导航方法,其特征在于,所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
5.一种机器人导航装置,其特征在于,所述装置包括:
状态获取模块,用于获取机器人状态和机器人所处环境状态,具体包括:获取机器人状态和机器人所处环境状态;基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置;根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态;和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态;
特征编码模块,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,具体包括:将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征;
高层动作获取模块,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
状态更新模块,基于所述高层策略动作计算获得子目标位置的误差状态;
低层动作获取模块,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
导航模块,用于基于所述低层策略动作进行机器人导航。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-4任一项所述机器人导航方法的全部或部分步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-4任一项所述机器人导航方法的全部或部分步骤。
CN202110822386.4A 2021-07-21 2021-07-21 机器人导航方法、装置、电子设备及存储介质 Active CN113282093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110822386.4A CN113282093B (zh) 2021-07-21 2021-07-21 机器人导航方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110822386.4A CN113282093B (zh) 2021-07-21 2021-07-21 机器人导航方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113282093A CN113282093A (zh) 2021-08-20
CN113282093B true CN113282093B (zh) 2021-12-10

Family

ID=77286796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110822386.4A Active CN113282093B (zh) 2021-07-21 2021-07-21 机器人导航方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113282093B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534669B (zh) * 2021-09-17 2021-11-30 中国人民解放军国防科技大学 基于数据驱动的无人车控制方法、装置和计算机设备
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090062958A1 (en) * 2007-08-31 2009-03-05 Morris Aaron C Autonomous mobile robot
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108803615B (zh) * 2018-07-03 2021-03-23 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
CN111506063B (zh) * 2020-04-13 2021-08-13 中国科学技术大学 一种基于分层强化学习框架的移动机器人无图导航方法
CN111832393B (zh) * 2020-05-29 2024-05-07 东南大学 一种基于深度学习的视频目标检测方法与装置
CN112797995B (zh) * 2020-12-17 2023-02-28 北京工业大学 具有时空特性态势信息的车辆应急导航方法

Also Published As

Publication number Publication date
CN113282093A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
EP3507771B1 (en) Image depth prediction neural networks
WO2018120739A1 (zh) 路径规划方法、装置及机器人
Chernova et al. Confidence-based policy learning from demonstration using gaussian mixture models
CN113282093B (zh) 机器人导航方法、装置、电子设备及存储介质
Mishra et al. Design of mobile robot navigation controller using neuro-fuzzy logic system
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Williams et al. Redirected walking in static and dynamic scenes using visibility polygons
CN113253738B (zh) 多机器人协作围捕方法、装置、电子设备及存储介质
Yan et al. Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions
He et al. A novel model predictive artificial potential field based ship motion planning method considering COLREGs for complex encounter scenarios
KR20230035403A (ko) 준-지도된(semi-supervised) 키포인트 기반 모델
Lu et al. A two-stage dynamic collision avoidance algorithm for unmanned surface vehicles based on field theory and COLREGs
Xu et al. A learning method for AUV collision avoidance through deep reinforcement learning
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Zheng et al. Regulation aware dynamic path planning for intelligent ships with uncertain velocity obstacles
Sivaranjani et al. Artificial Potential Field Incorporated Deep-Q-Network Algorithm for Mobile Robot Path Prediction.
Teitgen et al. Dynamic trajectory planning for ships in dense environment using collision grid with deep reinforcement learning
Wang et al. Deep reinforcement learning based collision avoidance system for autonomous ships
Pereira et al. Navigation of semi-autonomous service robots using local information and anytime motion planners
Quek et al. Deep Q‐network implementation for simulated autonomous vehicle control
CN115309164B (zh) 基于生成对抗网络的人机共融移动机器人路径规划方法
Radmard et al. Resolving occlusion in active visual target search of high-dimensional robotic systems
Kim et al. Active object tracking using context estimation: handling occlusions and detecting missing targets
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN114964247A (zh) 基于高阶图卷积神经网络的人群感知导航方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant