CN113282093A - 机器人导航方法、装置、电子设备及存储介质 - Google Patents
机器人导航方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113282093A CN113282093A CN202110822386.4A CN202110822386A CN113282093A CN 113282093 A CN113282093 A CN 113282093A CN 202110822386 A CN202110822386 A CN 202110822386A CN 113282093 A CN113282093 A CN 113282093A
- Authority
- CN
- China
- Prior art keywords
- robot
- state
- level
- low
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 128
- 230000009471 action Effects 0.000 claims abstract description 104
- 238000010586 diagram Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000003920 environmental process Methods 0.000 claims description 5
- 239000010410 layer Substances 0.000 description 117
- 238000004364 calculation method Methods 0.000 description 14
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010001488 Aggression Diseases 0.000 description 1
- 230000016571 aggressive behavior Effects 0.000 description 1
- 208000012761 aggressive behavior Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0268—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
- G05D1/027—Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means comprising intertial navigation means, e.g. azimuth detector
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法包括:获取机器人状态和机器人所处环境状态;通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;基于所述高层策略层时空状态特征获得机器人的高层策略动作;基于所述高层策略动作计算获得子目标位置的误差状态;基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;基于所述低层策略动作进行机器人导航。本方法能够高效地实现机器人无障碍导航。
Description
技术领域
本发明涉及智能机器人技术领域,具体涉及一种机器人导航方法、装置、电子设备及存储介质。
背景技术
近年来,随着科学技术发展,如服务机器人、扫地机器人、物流机器人等的自主移动机器人在各种生活场景中的应用越来越多。而在这些应用中,机器人导航技术起到重要的作用。机器人导航通常是指:在动态拥挤的障碍物环境中,实现对机器人从起始位置到目标位置的导航决策,避免机器人与静态或动态障碍物产生碰撞。
需要说明的是,此中的动态障碍物通常都拥有自主的机动策略和意图,且其可以自主决策。可是机器人与障碍物之间通常不存在可以实现协同避障的通信,同时,大部分机器人都面临着大量障碍物密集分布的复杂动态环境。因此,在复杂动态环境下,为机器人找到无碰撞最优路径以实现机器人导航具有深远意义。
现有的机器人导航技术大致分为基于模型和基于学习的方法。基于模型的方法,通常需要使用导航领域专业知识。比如,采用反映式导航方法,其原理是采用基于几何或物理学的一步式交互规则来避免机器人与障碍物碰撞,但是,此方法容易使机器人产生振荡和不自然行为。再比如,采用基于轨迹的导航方法,此方法可以从长远角度计算以生成更平滑的路径,但是,该方法计算过程复杂耗时且因其需要更多不可观测的状态知识导致计算难度大、准确率低。基于学习的方法,主要采用深度强化学习方法学习机器人导航行为。且为了更好地感知环境,甚至在此方法中采用长短时记忆统一处理环境中所有障碍物对机器人的影响,但是,统一处理的方法忽略了不同障碍物的自主特性差异。或者,在此方法中引入注意力机制以标记机器人与不同障碍物间的关系,但此方法仍然是仅以最终目标位置作为引导,仅考虑机器人当前步骤的障碍状态,这样容易使机器人为快速达到最终目标位置而采取短视的激进行为,从而导致机器人与障碍物产生碰撞而陷入危险。
综上所述,现有方法虽然能够实现简单场景下的机器人导航,但其往往存在导航行为振荡、计算过程复杂耗时、未考虑不同障碍物的自主特性差异,或者,仅以最终目标位置为引导且仅考虑当前步骤障碍状态等问题。
发明内容
本发明提供一种机器人导航方法、装置、电子设备及存储介质,用以克服现有技术中导航行为振荡、计算过程复杂耗时、导航过程仅以最终目标位置为引导且仅考虑当前步骤状态等缺陷,能够高效地实现机器人无障碍导航。
本发明提供一种机器人导航方法,包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。根据本发明提供的机器人导航方法,所述获取机器人状态和机器人所处环境状态,包括:
获取初始的机器人状态和机器人所处环境状态;
基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;
其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置。
根据本发明提供的机器人导航方法,所述获取机器人状态和机器人所处环境状态,包括:
根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;
根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态;
和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:
根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态。
根据本发明提供的机器人导航方法,所述通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,包括:
将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;
分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;
基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
根据本发明提供的机器人导航方法,所述基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
根据本发明提供的机器人导航方法,所述基于所述高层策略动作计算获得子目标位置的误差状态,包括:
基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
根据本发明提供的机器人导航方法,所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
本发明还提供一种机器人导航装置,所述装置包括:
状态获取模块,用于获取机器人状态和机器人所处环境状态;
特征编码模块,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
高层动作获取模块,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
状态更新模块,基于所述高层策略动作计算获得子目标位置的误差状态;
低层动作获取模块,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
导航模块,用于基于所述低层策略动作进行机器人导航。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据如上任一项所述机器人导航方法的全部或部分步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据如上任一项所述机器人导航方法的全部或部分步骤。
本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明提供的机器人导航方法的流程示意图之一;
图2是本发明提供的机器人导航方法的流程示意图之二;
图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原理图;
图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图;
图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时间步长示意图;
图6是本发明提供的机器人导航方法中机器人导航路径规划示意图;
图7是本发明提供的机器人导航装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
附图标记:
710:状态获取模块;720:特征编码模块;730:高层动作获取模块;740:状态更新模块;750:低层动作获取模块;760:导航模块;810:处理器;820:通信接口;830:存储器 840:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明的技术方案进行清除完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图1-8描述本发明提供的一种机器人导航方法、装置、电子设备及存储介质。
本发明提供一种机器人导航方法,图1是本发明提供的机器人导航方法的流程示意图之一,如图1所示,所述方法包括:
100、获取机器人状态和机器人所处环境状态;
200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
300、基于所述高层策略层时空状态特征获得机器人的高层策略动作;
400、基于所述高层策略动作计算获得子目标位置的误差状态;
500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
600、基于所述低层策略动作进行机器人导航。
本方法中,获取机器人状态和机器人所处环境状态,其中,机器人状态中包括初始的机器人状态,或者说机器人位于原位置的状态;通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;基于所述高层策略层时空状态特征获得机器人的高层策略动作;基于所述高层策略动作计算获得子目标位置,并获得子目标位置的误差状态,具体是获得机器人在到达子目标位置之前的子目标位置的预测状态,且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得,以将机器人由原位置准确地导航至子目标位置;基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;基于所述低层策略动作进行机器人由子目标位置到目标位置的导航。
本发明提供的机器人导航方法,利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
根据本发明提供的机器人导航方法,图2是本发明提供的机器人导航方法的流程示意图之二,结合图2所示,该方法中,步骤100、获取机器人状态和机器人所处环境状态,具体包括:
110、获取初始的机器人状态和机器人所处环境状态;
120、基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;
其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置。
机器人状态是指初始的或者第一时刻的机器人的状态,而机器人所述环境状态,主要是指其所处环境中的各个动态的障碍物的状态。
根据本发明提供的机器人导航方法,在上述实施例的基础上,步骤110、获取机器人状态和机器人所处环境状态,包括:
111、根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;
112、根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态。
和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:
121、根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态。
而为第时刻机器人的本身体积的半径大小。机器人和各障碍物之间的障碍物
控制策略采用最佳互易避碰法(optimal reciprocal collision avoidance,简称ORCA
法),且默认设置为初始时刻机器人的扫描半径大小为4m,初始时刻各动态的障碍物则在机
器人初始位置以机器人自身为原点半径4m的环境范围内随机生成,障碍物和机器人均采用
运动学完整约束模型,且均可以实现向任意方向的移动动作。进一步地,本发明实施例还将
机器人设置为对障碍物不可见,即,每一个障碍物只对所处环境中其他各个障碍物作出反
应,但不能识别到机器人,而机器人可以识别所有障碍物,由此创造出机器人需要全面考虑
所有障碍物的状态才可能实现避障的复杂动态障碍物环境。由此,在机器人所处环境中的
所有动态的障碍物的状态,共同组成了机器人所处环境状态。且上述步骤111和步骤112,其
与步骤121之间是和的关系,也即,既可以仅进行步骤111、步骤112,也可以进行步骤111、步
骤112、步骤121,具体根据实际情况设置。
具体地,图3是本发明提供的机器人导航方法中对机器人进行导航的整体逻辑原
理图,结合图3所示,将所述第时刻的机器人观测状态中第时刻的机器人状态和第各个时刻的机器人所处环境状态,均输入至时空图注意
力网络中,具体是通过单层全连接神经网络,分别对应获得第时刻的机器人过程状态和第各个时刻的机器人所处环境过程状态。并最终基于
高层策略层和低层策略层分别获取所述高层策略层时空状态特征和低层策略层时空状
态特征。在高层策略层,将高层策略层时空状态特征与第时刻的机器人状态等
进行融合以及后续组合,最终结合外部奖惩函数,获得子目标位置及子目标位置的误差状
态,并将其输入到低层策略层,在低层策略层中与低层策略层时空状态特征和第时刻的机器人状态进行融合以及后续组合,最终结合外部奖惩函数和内部奖惩函数等,
综合获得向最终的目标位置的导航规划,以据其将机器人由子目标位置导航至最终的目标
位置。
根据本发明提供的机器人导航方法,该方法中,步骤200、通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,具体包括:
211、将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;
212、分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;
213、基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
图4是本发明提供的机器人导航方法中对机器人观测状态进行特征编码过程的示意图,结合图4所示,本方法中,步骤200具体包括:
再基于长短时记忆网络和所述各个时刻的机器人的图注意力特征
,根据实际应用场景的计算需求结合加权求和计算法,分别基于高层策略层和低层策略层
的处理后,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
还需要说明的是,高层策略层和低层策略层属于同类型神经网络层,而二者的区
别在于对于参与计算的各个时刻的机器人的图注意力特征等各项因子的加
权权重的设定不同(具体根据实际需求预先设定),因此其计算结果也不相同。由此,高层策
略层网络用于计算子目标位置和子目标位置的误差状态,而低层策略层网络则用于根据最
终的目标位置计算机器人最后的导航指令,并告知机器人导航路径。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤300、基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
310、将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
320、将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
330、基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
即步骤300具体包括:
并且,需要说明的是,其中的外部奖惩函数,可以理解为外部环境对于机器人导航
的影响因素,且外部奖惩函数主要与第时刻机器人的瞬时位置与机器人的目标位置是否相同,以及与机器人与各障碍物之间距离中的最小值所处的具体取值范围有
关。外部奖惩函数可通过如下公式进行计算:
其中,表示低层策略动作,表示机器人与各障碍物的距离最小值,表示机
器人与各障碍物的距离阈值,表示前后两个时刻的时间间隔。需要说明的是,表示低层
策略动作在此处仅作为外部奖惩函数的表示符号,其并不影响外部奖惩函数计算值的
大小。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤400、基于所述高层策略动作计算获得子目标位置的误差状态,包括:
410、基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
420、基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
即,步骤400具体包括:
也即,其基于所述高层策略动作计算获得子目标位置,并获得子目标位置的误差状态,具体是获得机器人在到达子目标位置之前的子目标位置的预测状态,且该预测状态可以根据计算获得的子目标位置与机器人的瞬时位置的差值来获得,以将机器人由原位置准确地导航至子目标位置。换言之,对于步骤410和步骤420,既可以按顺序进行,也可以两步骤交叉进行。即,既可以在获取到子目标位置后先将机器人导航至子目标位置后,再获取子目标位置的误差状态;又可以在机器人在到达子目标位置之前获取子目标位置的误差状态。
图5是本发明提供的机器人导航方法中高层策略层和低层策略层控制流的执行时
间步长示意图,结合图5所示,当高层策略层的执行周期时,若假定低层策略层的控制
流每步执行时间为1个单位时间,则高层策略层的控制流的每步执行时间则为2个单位时
间。
根据本发明提供的机器人导航方法,同样结合图2所示,该方法中,步骤500、基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
510、将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
520、将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
530、基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
即步骤500具体包括:
其中,clip( )表示截断函数。
整个导航过程以子目标位置作为机器人导航短时空视角的目标,以最终的目标位
置作为机器人导航长时空视角的最终目标,将二者相结合,并且分别基于高层策略动作和
低层策略动作以及结合内外环境奖惩函数引导机器人进行导航训练学习。且导航训练时,
总的回合长度为100k个回合,学习速率均为0.00001,高层策略层的折扣因子为,
低层策略层的折扣因子为,且整个过程是通过Adam分类优化器进行训练的。
还可以针对本发明提供的机器人导航方法,应用于不同的导航场景进行对比分析,比如可以研究两个不同导航场景,进一步分析各个导航场景下的仿真波形图等仿真信息。比如第一导航场景中障碍物分布较为分散,由仿真信息中机器人的方向箭头可知,机器人先导航到子目标位置,避免机器人进入机器人与最终目标位置之间的危险区域,提高了机器人的导航效率,对应地在该导航场景的动作取值信息中,雷达颜色越浅即动作取值越大的方向,则为机器人的移动方向,也进一步证明了机器人是朝子目标位置方向移动的。第二导航场景中障碍物分布较为密集,其他与第一导航场景同理,但两个导航场景的仿真波形图以及动作取值存在差异。本发明提供的方法,能够实现机器人快速安全无障碍的导航,且导航成功的概率非常大。
图6是本发明提供的机器人导航方法中机器人导航路径规划示意图,结合图6所示,图中黑色圆形表示机器人,而各个带角型标志的圆形表示各个障碍物,图中对于左下角第一个障碍物还标示出了其坐标系及坐标值,其意义在于表示第一个障碍物为动态障碍物,其他障碍物同理。且图中黑色五角星表示最终的目标位置,灰色五角星表示子目标位置。如图6所示,机器人在确定出子目标位置后,先根据高层策略动作由起始位置向目标位置进行移动,具体地如图中黑色圆形上所标示的坐标系及坐标值,并沿着该坐标向量向灰色五角星的子目标位置处进行移动。随后,机器人可以根据本方法获得的低层策略动作,再由子目标位置向最终的目标位置进行导航,最终到达目标位置,完成导航。
下面对本发明提供的一种机器人导航装置进行描述,所述机器人导航装置可以理解为是执行上述机器人导航方法的装置,二者应用原理相同,可以相互参照,此处不作赘述。
本发明还提供一种机器人导航装置,图7是本发明提供的机器人导航装置的结构示意图,如图7所示,所述装置包括:状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760,其中,
所述状态获取模块710,用于获取机器人状态和机器人所处环境状态;
所述特征编码模块720,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
所述高层动作获取模块730,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
所述状态更新模块740,基于所述高层策略动作计算获得子目标位置的误差状态;
所述低层动作获取模块750,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
所述导航模块760,用于基于所述低层策略动作进行机器人导航。
本发明提供的机器人导航装置,包括状态获取模块710、特征编码模块720、高层动作获取模块730、状态更新模块740、低层动作获取模块750和导航模块760,各模块相互配合工作,使得该装置利用时空图注意力网络以基于分层深度强化学习过程对机器人的相关状态进行特征编码后获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,还分别获得高层策略动作和低层策略动作,利用高层策略动作获得导航过程中的子目标位置,以及利用低层策略动作再将机器人由子目标位置导航至目标位置,整体采用了高低双层策略结构,提取机器人与周围各动态的障碍物之间环境状态和行为特征等,充分挖掘出机器人与周围障碍物的深层关系特征,计算出导航过程中的子目标位置,以子目标位置作为机器人导航短时空视角的第一目标,再与导航长时空视角的最终的目标位置相结合,最后实现复杂动态障碍物环境下的机器人无碰撞的最优导航,充分考虑了不同障碍物的自主特性差异,并优化了导航计算过程,可以安全快速地将机器人导航至目标位置。
本发明还提供一种电子设备,图8是本发明提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述机器人导航方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上各实施例所述机器人导航方法的全部或部分步骤,该方法包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的机器人导航方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种机器人导航方法,其特征在于,包括:
获取机器人状态和机器人所处环境状态;
通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
基于所述高层策略层时空状态特征获得机器人的高层策略动作;
基于所述高层策略动作计算获得子目标位置的误差状态;
基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
基于所述低层策略动作进行机器人导航。
2.根据权利要求1所述的机器人导航方法,其特征在于,所述获取机器人状态和机器人所处环境状态,包括:
获取初始的机器人状态和机器人所处环境状态;
基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态;
其中,所述机器人状态包括机器人的目标位置和机器人的瞬时位置。
3.根据权利要求2所述的机器人导航方法,其特征在于,所述获取机器人状态和机器人所处环境状态,包括:
根据机器人的目标位置、机器人的最大速度、第一时刻机器人的瞬时位置、第一时刻机器人的瞬时速度和第一时刻机器人的体积半径大小,确定第一时刻机器人的状态;
根据第一时刻机器人所处环境中的多个动态障碍物状态,确定第一时刻机器人所处环境状态;
和,所述基于所述机器人状态和所述机器人所处环境状态计算获得机器人观测状态,包括:
根据第一时刻所述机器人的状态和第一时刻所述机器人所处环境状态以及第一时刻前若干个时刻的机器人所处环境状态,确定第一时刻的机器人观测状态。
4.根据权利要求3所述的机器人导航方法,其特征在于,所述通过时空图注意力网络对所述机器人状态和所述机器人所处环境状态共同进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征,包括:
将所述第一时刻的机器人观测状态中第一时刻的机器人状态和第一时刻及第一时刻前若干个时刻的机器人所处环境状态,均输入至时空图注意力网络中,分别对应获得第一时刻的机器人过程状态和第一时刻及第一时刻前若干个时刻的机器人所处环境过程状态;
分别计算各个过程状态的查询目标特征、值目标特征和键目标特征,并根据所述各个过程状态的查询目标特征、值目标特征和键目标特征计算获得各个时刻的机器人的图注意力特征;
基于长短时记忆网络和各个时刻的机器人的图注意力特征,分别获取所述高层策略层时空状态特征和低层策略层时空状态特征。
5.根据权利要求2至4任一项所述的机器人导航方法,其特征在于,所述基于所述高层策略层时空状态特征获得机器人的高层策略动作,包括:
将所述高层策略层时空状态特征与所述机器人状态融合获得第一组合向量;
将所述第一组合向量输入至第一多层全连接层网络层,获得高层策略层值函数;
基于所述高层策略层值函数和预设的外部奖惩函数获得机器人的高层策略动作。
6.根据权利要求5所述的机器人导航方法,其特征在于,所述基于所述高层策略动作计算获得子目标位置的误差状态,包括:
基于所述高层策略动作计算机器人的子目标位置以将机器人导航至子目标位置;
基于所述子目标位置和所述瞬时位置获得子目标位置的误差状态。
7.根据权利要求6所述的机器人导航方法,其特征在于,所述基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作,包括:
将所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征融合获得第二组合向量;
将所述第二组合向量输入至第二多层全连接层网络层,获得低层策略层值函数;
基于所述低层策略层值函数与预设的低层奖惩函数获得机器人的低层策略动作。
8.一种机器人导航装置,其特征在于,所述装置包括:
状态获取模块,用于获取机器人状态和机器人所处环境状态;
特征编码模块,用于通过时空图注意力网络对由所述机器人状态和所述机器人所处环境状态组成的机器人观测状态进行特征编码,以获得机器人的高层策略层时空状态特征和低层策略层时空状态特征;
高层动作获取模块,用于基于所述高层策略层时空状态特征获得机器人的高层策略动作;
状态更新模块,基于所述高层策略动作计算获得子目标位置的误差状态;
低层动作获取模块,用于基于所述子目标位置的误差状态、所述机器人状态和所述低层策略层时空状态特征,获得机器人的低层策略动作;
导航模块,用于基于所述低层策略动作进行机器人导航。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-7任一项所述机器人导航方法的全部或部分步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-7任一项所述机器人导航方法的全部或部分步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822386.4A CN113282093B (zh) | 2021-07-21 | 2021-07-21 | 机器人导航方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822386.4A CN113282093B (zh) | 2021-07-21 | 2021-07-21 | 机器人导航方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282093A true CN113282093A (zh) | 2021-08-20 |
CN113282093B CN113282093B (zh) | 2021-12-10 |
Family
ID=77286796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110822386.4A Active CN113282093B (zh) | 2021-07-21 | 2021-07-21 | 机器人导航方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282093B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113534669A (zh) * | 2021-09-17 | 2021-10-22 | 中国人民解放军国防科技大学 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090062958A1 (en) * | 2007-08-31 | 2009-03-05 | Morris Aaron C | Autonomous mobile robot |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN111506063A (zh) * | 2020-04-13 | 2020-08-07 | 中国科学技术大学 | 一种基于分层强化学习框架的移动机器人无图导航方法 |
CN111832393A (zh) * | 2020-05-29 | 2020-10-27 | 东南大学 | 一种基于深度学习的视频目标检测方法与装置 |
CN112797995A (zh) * | 2020-12-17 | 2021-05-14 | 北京工业大学 | 具有时空特性态势信息的车辆应急导航方法 |
-
2021
- 2021-07-21 CN CN202110822386.4A patent/CN113282093B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090062958A1 (en) * | 2007-08-31 | 2009-03-05 | Morris Aaron C | Autonomous mobile robot |
CN107463609A (zh) * | 2017-06-27 | 2017-12-12 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN111506063A (zh) * | 2020-04-13 | 2020-08-07 | 中国科学技术大学 | 一种基于分层强化学习框架的移动机器人无图导航方法 |
CN111832393A (zh) * | 2020-05-29 | 2020-10-27 | 东南大学 | 一种基于深度学习的视频目标检测方法与装置 |
CN112797995A (zh) * | 2020-12-17 | 2021-05-14 | 北京工业大学 | 具有时空特性态势信息的车辆应急导航方法 |
Non-Patent Citations (1)
Title |
---|
胡学敏 等: "基于深度时空Q网络的定向导航自动驾驶运动规划", 《计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113534669A (zh) * | 2021-09-17 | 2021-10-22 | 中国人民解放军国防科技大学 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
CN113534669B (zh) * | 2021-09-17 | 2021-11-30 | 中国人民解放军国防科技大学 | 基于数据驱动的无人车控制方法、装置和计算机设备 |
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN114779792B (zh) * | 2022-06-20 | 2022-09-09 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113282093B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mishra et al. | Design of mobile robot navigation controller using neuro-fuzzy logic system | |
EP3507771A1 (en) | Image depth prediction neural networks | |
WO2018120739A1 (zh) | 路径规划方法、装置及机器人 | |
CN113282093B (zh) | 机器人导航方法、装置、电子设备及存储介质 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
Park et al. | Fast and bounded probabilistic collision detection for high-DOF trajectory planning in dynamic environments | |
CN113253738B (zh) | 多机器人协作围捕方法、装置、电子设备及存储介质 | |
Yan et al. | Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions | |
Wang et al. | A fuzzy logic path planning algorithm based on geometric landmarks and kinetic constraints | |
CN117590867B (zh) | 基于深度强化学习的水下自主航行器接驳控制方法和系统 | |
KR20230035403A (ko) | 준-지도된(semi-supervised) 키포인트 기반 모델 | |
Xu et al. | A learning method for AUV collision avoidance through deep reinforcement learning | |
Lu et al. | A two-stage dynamic collision avoidance algorithm for unmanned surface vehicles based on field theory and COLREGs | |
Zheng et al. | Regulation aware dynamic path planning for intelligent ships with uncertain velocity obstacles | |
Wang et al. | Deep reinforcement learning based collision avoidance system for autonomous ships | |
Li et al. | A model predictive obstacle avoidance method based on dynamic motion primitives and a Kalman filter | |
Teitgen et al. | Dynamic trajectory planning for ships in dense environment using collision grid with deep reinforcement learning | |
Pereira et al. | Navigation of semi-autonomous service robots using local information and anytime motion planners | |
CN117519160A (zh) | 智能体路径规划方法、装置、电子装置和存储介质 | |
CN115309164B (zh) | 基于生成对抗网络的人机共融移动机器人路径规划方法 | |
CN116358559A (zh) | 基于深度强化学习的人群感知导航方法及系统 | |
Raj et al. | Dynamic Obstacle Avoidance Technique for Mobile Robot Navigation Using Deep Reinforcement Learning | |
Radmard et al. | Resolving occlusion in active visual target search of high-dimensional robotic systems | |
Kim et al. | Active object tracking using context estimation: handling occlusions and detecting missing targets | |
CN113959446B (zh) | 一种基于神经网络的机器人自主物流运输导航方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |