CN113253738B - 多机器人协作围捕方法、装置、电子设备及存储介质 - Google Patents

多机器人协作围捕方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113253738B
CN113253738B CN202110689055.8A CN202110689055A CN113253738B CN 113253738 B CN113253738 B CN 113253738B CN 202110689055 A CN202110689055 A CN 202110689055A CN 113253738 B CN113253738 B CN 113253738B
Authority
CN
China
Prior art keywords
robot
determining
distance
state information
robots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110689055.8A
Other languages
English (en)
Other versions
CN113253738A (zh
Inventor
刘振
周志明
张天乐
蒲志强
丘腾海
易建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110689055.8A priority Critical patent/CN113253738B/zh
Publication of CN113253738A publication Critical patent/CN113253738A/zh
Application granted granted Critical
Publication of CN113253738B publication Critical patent/CN113253738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种多机器人协作围捕方法、装置、电子设备及存储介质,其中方法包括:基于任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定任一机器人的障碍状态信息;基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;基于每一机器人的运动控制策略,控制各个机器人对所述目标物体进行围捕。本发明提供的方法、装置、电子设备及存储介质,提高了多机器人系统的安全性,围捕目标不易于逃脱,提高了围捕效果。

Description

多机器人协作围捕方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多机器人协作围捕方法、装置、电子设备及存储介质。
背景技术
近年来,多机器人系统的目标围捕问题因其具有广阔的应用前景而越来越受到关注,如锁定控制、捕获敌方目标、侦察监视等。这些应用的关键问题是通过适当的方法控制多机器人系统以期望的队形协同围捕特定目标。特别是,每个具有局部通信功能的机器人不仅要包围一个目标,而且还要避免与其他机器人和障碍物的碰撞。此外,被围捕目标可能具有高度智能的逃跑策略。考虑上述限制,多机器人协作围捕动态逃逸目标问题具有很大的挑战性。
现有的多机器人协作围捕方法,虽然是针对动态目标的围捕问题展开,但存在很多显而易见的缺点:一是需要基于控制理论建立精确的数学模型,这在实际应用中难于实现;二是机器人之间或者机器人与障碍物之间碰撞严重,这使得多机器人系统处于不安全的境地;三是围捕目标处于动态逃逸状态,多机器人协作围捕缺乏灵活应对能力。现有的多机器人协作围捕方法,围捕目标易于逃脱,围捕效果差。
发明内容
本发明提供一种多机器人协作围捕方法、装置、电子设备及存储介质,用于解决现有技术中多机器人协作围捕时围捕目标易于逃脱,围捕效果差的技术问题。
本发明提供一种多机器人协作围捕方法,包括:
基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息;
基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定所述任一机器人的障碍状态信息;
基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;
基于每一机器人的运动控制策略,控制各个机器人对所述目标物体进行围捕。
根据本发明提供的多机器人协作围捕方法,所述基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息,包括:
基于任一机器人的运动状态,以及所述任一机器人与目标物体之间的距离,确定所述任一机器人的目标追踪信息;
基于所述任一机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的协作状态信息;
基于所述任一机器人的目标追踪信息和协作状态信息,确定所述任一机器人的围捕状态信息。
根据本发明提供的多机器人协作围捕方法,所述基于所述任一机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的协作状态信息,包括:
基于预设通信距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人与其余各个机器人之间的通信连接关系;
基于所述任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的通信连接关系,确定所述任一机器人的协作状态信息。
根据本发明提供的多机器人协作围捕方法,所述基于所述任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的通信连接关系,确定所述任一机器人的协作状态信息,包括:
基于所述任一机器人与其余各个机器人之间的通信连接关系,确定与所述任一机器人进行通信的协作机器人;
基于自注意力机制,所述任一机器人的目标追踪信息,以及各个协作机器人的目标追踪信息,确定所述任一机器人与各个协作机器人之间的注意力权重;
基于各个协作机器人的目标追踪信息,以及所述任一机器人与各个协作机器人之间的注意力权重,确定所述任一机器人的协作状态信息。
根据本发明提供的多机器人协作围捕方法,所述基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态信息,确定所述任一机器人的障碍状态信息,包括:
基于所述任一机器人与各个障碍物体之间的距离,将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中,确定所述任一机器人的障碍状态信息。
根据本发明提供的多机器人协作围捕方法,所述基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略,包括:
基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数;所述预设围捕距离为围捕成功时每一机器人与所述目标物体之间的距离;所述预设间隔距离为围捕成功时各个机器人之间的距离;
采用近端策略优化算法,基于每一机器人的围捕状态信息和障碍状态信息,以及每一机器人的围捕奖励函数,确定每一机器人的运动控制策略。
根据本发明提供的多机器人协作围捕方法,所述基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数,包括:
基于每一机器人的位置,以及预设碰撞距离和预设碰撞警告距离,确定每一机器人的防碰撞奖励函数;
基于每一机器人的位置,目标物体的位置,以及预设围捕距离,确定每一机器人的围捕距离奖励函数;
基于每一机器人的位置,以及预设间隔距离,确定每一机器人的间隔距离奖励函数;
基于每一机器人的防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数中的至少一种,确定每一机器人的围捕奖励函数。
本发明提供一种多机器人协作围捕装置,包括:
围捕状态确定单元,用于基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息;
障碍状态确定单元,用于基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态信息,确定所述任一机器人的障碍状态信息;
控制策略确定单元,用于基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;
协作围捕单元,用于基于每一机器人的运动控制策略,控制各个机器人对所述目标物体进行围捕。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述多机器人协作围捕方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述多机器人协作围捕方法的步骤。
本发明提供的多机器人协作围捕方法、装置、电子设备及存储介质,根据任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;根据任一机器人与各个障碍物体之间的距离,确定任一机器人的障碍状态信息;根据每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略,从而控制各个机器人对目标物体进行围捕,在协作围捕过程中,同时考虑了各个机器人与目标物体之间的距离变化,各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化,能够有效避免机器人、目标物体和障碍物体之间的碰撞,提高了多机器人系统的安全性,同时,由于充分考虑了各个机器人之间的距离变化,提高了各个机器人之间的协作水平,围捕目标不易于逃脱,提高了围捕效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的多机器人协作围捕方法的流程示意图;
图2为本发明提供的基于深度强化学习的多机器人协作围捕动态逃逸目标方法的流程示意图;
图3为本发明提供的多机器人协作围捕装置的结构示意图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的多机器人协作围捕方法的流程示意图,如图1所示,该方法包括:
步骤110,基于任一机器人的运动状态,该机器人与目标物体之间的距离,以及该机器人与其余各个机器人之间的距离,确定该机器人的围捕状态信息。
具体地,多机器人协作围捕就是以机器人为追捕者,以目标物体为被追捕者,追捕者对目标物体进行包围,使得目标物体被围困在多个机器人围成的区域中无法逃出。在本发明实施例中,目标物体为智能体,能够实现自主控制,进行动态逃逸。此外,本发明实施例中的方法也适用于静止目标,只需将目标物体的移动位置设置为固定值即可。机器人和目标物体均为智能体,可以为无人驾驶车辆、水下机器人、陆地机器人等。机器人和目标物体可以为同一类型的智能体,在本发明实施例中,机器人为用于围猎的智能体,目标物体为用于逃逸的智能体。
任一机器人的运动状态可以用一组描述运动情况的物理量来描述,例如,运动状态可以包括任一机器人在当前时刻的位置、速度大小和运动方向等。
任一机器人与目标物体之间的距离,是指该机器人在空间位置上与目标物体相隔的距离。例如,若多机器人协作围捕是在二维平面中进行的,则可以建立平面直角坐标系,得到目标物体和该机器人的位置坐标,根据坐标运算得到该机器人与目标物体之间的距离。
任一机器人与其余各个机器人之间的距离,指该机器人在空间位置上与其余各个机器人相隔的距离。例如,可以根据每一机器人的位置坐标,计算得到任一机器人与其余各个机器人之间的距离。
任一机器人的围捕状态信息,用来表示该机器人在围捕过程中表现出来的形态,可以从两个方面来体现,其一是该机器人作为围捕者对于目标物体的追踪情况,可以根据任一机器人的运动状态以及该机器人与目标物体之间的距离来体现;其二是该机器人与其他机器人之间的协作围捕情况,可以根据任一机器人的运动状态以及该机器人与其余各个机器人之间的距离来体现。
步骤120,基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定所述任一机器人的障碍状态信息。
具体地,在多机器人协作围捕目标物体的过程中,每一机器人除了需要对目标物体进行追踪和对其余机器人进行避让外,还要需要避让可能遇到的障碍物体,防止与障碍物体发生碰撞。各个障碍物体的状态,可以包括障碍物体的具体位置、形状大小、运动状态等中的至少一种。
任一机器人的障碍状态信息,用来表示各个障碍物体对该机器人在围捕过程中的运动状态的影响。一般地,距离该机器人越近的障碍物体对该机器人的影响越大,距离该机器人越远的障碍物体对该机器人的影响越小。相应地,可以根据任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,来确定该机器人的障碍状态信息。
步骤130,基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略。
具体地,运动控制策略,为机器人在协作围捕目标物体中的运动方法或者运动策略,用来控制机器人的运动。例如,运动控制策略可以用运动加速度来表示,加速度的大小表示机器人的运动变化快慢,加速度的方向表示机器人的运动改变方向。通过输出机器人在每一时刻的运动加速度,从而控制机器人的运动状态。
根据任一机器人的围捕状态信息,可以得到该机器人相对于目标物体和其余各个机器人的位置变化特征;根据任一机器人的障碍状态信息,可以得到该机器人相对于各个障碍物的位置变化特征;综合上述两个方面的位置变化特征,可以得到该机器人在整个协作围捕过程中的位置变化特征。协作围捕是一个动态过程,根据每一机器人在当前时刻的位置变化特征,以协作围捕成功时各个机器人与目标物体之间的位置关系为最优目标,可以得到每一机器人在当前时刻的运动控制策略,从而指导每一机器人向着最优目标进行运动控制。
步骤140,基于每一机器人的运动控制策略,控制各个机器人对目标物体进行围捕。
具体地,在当前时刻得到每一机器人的运动控制策略之后,控制各个机器人改变当前时刻的运动状态,朝着围捕目标物体的方向进行运动。在经历多个时刻的运动控制之后,各个机器人与目标物体之间的位置关系逐渐逼近理想状态,则可以确定各个机器人对目标物体实现了围捕成功。此处的理想状态可以为各个机器人与目标物体之间的距离以及各个机器人之间的距离均达到设定目标值。
例如,在一个有m个障碍物的二维空间中,n个机器人协同围捕一个动态移动的目标,围捕成功的条件是n个机器人形成特定编队,该编队应能满足以下条件:队形应为一个环绕目标的凸多边形,且凸多边形中相邻顶点之间的距离应尽可能相同;在队形中,凸多边形的每个顶点都可以被任何机器人占据。
本发明实施例提供的多机器人协作围捕方法,根据任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;根据任一机器人与各个障碍物体之间的距离,确定任一机器人的障碍状态信息;根据每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略,从而控制各个机器人对目标物体进行围捕,在协作围捕过程中,同时考虑了各个机器人与目标物体之间的距离变化,各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化,能够有效避免机器人、目标物体和障碍物体之间的碰撞,提高了多机器人系统的安全性,同时,由于充分考虑了各个机器人之间的距离变化,提高了各个机器人之间的协作水平,围捕目标不易于逃脱,提高了围捕效果。
基于上述实施例,步骤110包括:
基于任一机器人的运动状态,以及该机器人与目标物体之间的距离,确定该机器人的目标追踪信息;
基于该机器人的目标追踪信息,以及该机器人与其余各个机器人之间的距离,确定该机器人的协作状态信息;
基于该机器人的目标追踪信息和协作状态信息,确定该机器人的围捕状态信息。
具体地,目标追踪信息用来表示任一机器人在围捕过程中作为一个独立的智能体对于目标物体的追踪信息。可以根据任一机器人的运动状态,以及任一机器人与目标物体之间的距离进行确定。
例如,第
Figure 591640DEST_PATH_IMAGE001
个机器人的目标追踪信息记为
Figure 412835DEST_PATH_IMAGE002
,表示机器人
Figure 385470DEST_PATH_IMAGE001
对自身状态和环境信息 的理解,自身状态包括位置和运动速度,环境信息包括与目标物体的相对位置,但不包含机 器人
Figure 342930DEST_PATH_IMAGE001
与其余机器人的任何协作信息。
协作状态信息用来表示任一机器人在围捕过程中与其余机器人进行协作,对目标物体进行围捕的信息。可以根据任一机器人的目标追踪信息,以及该机器人与其余各个机器人之间的距离,确定该机器人的协作状态信息。例如,可以根据该机器人与其余各个机器人之间的距离,确定其余各个机器人相对于该机器人的协作重要性。距离该机器人越近的机器人,对该机器人而言,协作重要性越大,越需要给予更多的关注。距离该机器人越远的机器人,对该机器人而言,协作重要性越小,应给予更少的关注或者不关注。
根据任一机器人的目标追踪信息和协作状态信息,可以确定任一机器人的围捕状 态信息。例如,对于第
Figure 624876DEST_PATH_IMAGE001
个机器人,目标追踪信息为
Figure 684099DEST_PATH_IMAGE002
,协作状态信息为
Figure 444113DEST_PATH_IMAGE003
,则第
Figure 521660DEST_PATH_IMAGE001
个机 器人的围捕状态信息
Figure 725239DEST_PATH_IMAGE004
可以表示为:
Figure 255446DEST_PATH_IMAGE005
式中,
Figure 84731DEST_PATH_IMAGE006
为神经网络,用于对第
Figure 767516DEST_PATH_IMAGE001
个机器人的目标追踪信息
Figure 391265DEST_PATH_IMAGE002
和协作状态信息
Figure 408768DEST_PATH_IMAGE003
进行非线性转换。
基于上述任一实施例,基于任一机器人的目标追踪信息,以及该机器人与其余各个机器人之间的距离,确定该机器人的协作状态信息,包括:
基于预设通信距离,以及任一机器人与其余各个机器人之间的距离,确定该机器人与其余各个机器人之间的通信连接关系;
基于该机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及该机器人与其余各个机器人之间的通信连接关系,确定该机器人的协作状态信息。
具体地,各个机器人之间需要进行通信才能够相互传递信息。围捕过程中,只有当两个机器人之间的距离小于等于预设通信距离时,才能够建立通信连接关系,才能够进行相互协作。任一机器人应当关注建立通信连接关系的其余机器人。预设通信距离可以根据需要进行设置。
例如,可以将各个机器人之间的通信拓扑关系构建为图网络结构,可以表示为:
定义一个图
Figure 510585DEST_PATH_IMAGE007
,其中,
Figure 313456DEST_PATH_IMAGE008
为顶点集合,表示
Figure 373685DEST_PATH_IMAGE009
个机器人,
Figure 612905DEST_PATH_IMAGE010
为边集合,表示多机器人之间可以沿着图的边进行通信,
Figure 534725DEST_PATH_IMAGE011
为建立的通信 连接关系的数量。如果两个机器人能够相互通信,则两个机器人之间存在一条边
Figure 441370DEST_PATH_IMAGE012
Figure 406921DEST_PATH_IMAGE013
。 图网络结构中,机器人之间的通信是局部的,即只有当两个机器人之间的距离小于预先定 义的阈值时,两个机器人才能相互通信。图网络结构中,
Figure 149749DEST_PATH_IMAGE014
是图的邻接矩阵,如果第
Figure 858948DEST_PATH_IMAGE001
个机器人和第
Figure 620099DEST_PATH_IMAGE015
个机器人之间可以通信,
Figure 507284DEST_PATH_IMAGE016
,否则
Figure 721096DEST_PATH_IMAGE017
基于上述任一实施例,基于任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及该机器人与其余各个机器人之间的通信连接关系,确定该机器人的协作状态信息,包括:
基于任一机器人与其余各个机器人之间的通信连接关系,确定与该机器人进行通信的协作机器人;
基于自注意力机制,该机器人的目标追踪信息,以及各个协作机器人的目标追踪信息,确定该机器人与各个协作机器人之间的注意力权重;
基于各个协作机器人的目标追踪信息,以及该机器人与各个协作机器人之间的注意力权重,确定该机器人的协作状态信息。
具体地,协作机器人为与任一机器人建立通信连接关系的机器人。由于围捕过程 是一个动态的过程,协作机器人总是动态更新的,可以根据当前时刻任一机器人与其余各 个机器人之间的通信连接关系,确定与该机器人进行通信的协作机器人。例如,可以根据上 述实例中图网络的邻接矩阵,确定任一机器人的协作机器人。
Figure 233986DEST_PATH_IMAGE016
,则表明第
Figure 600376DEST_PATH_IMAGE001
个机器人和 第
Figure 196746DEST_PATH_IMAGE015
个机器人互为协作机器人,
Figure 163434DEST_PATH_IMAGE017
,则表明第
Figure 965168DEST_PATH_IMAGE001
个机器人和第
Figure 435333DEST_PATH_IMAGE015
个机器人之间无通信 连接关系,两个机器人不是对方的协作机器人。
根据自注意力机制,任一机器人的目标追踪信息,以及各个协作机器人的目标追 踪信息,可以确定任一机器人与各个协作机器人之间的注意力权重。例如,对于任一机器人 的目标追踪信息
Figure 179167DEST_PATH_IMAGE002
进行变换,得到编码信息
Figure 118304DEST_PATH_IMAGE018
,用公式表示为:
Figure 972996DEST_PATH_IMAGE019
式中,
Figure 563246DEST_PATH_IMAGE020
是一个待学习的参数矩阵,例如,可以用于对目标追踪信息中的部分信 息进行增强。
根据自注意力机制,确定任一机器人与各个协作机器人之间的注意力权重,可以用公式表示为:
Figure 228714DEST_PATH_IMAGE021
式中,
Figure 373257DEST_PATH_IMAGE022
表示机器人
Figure 31640DEST_PATH_IMAGE001
对机器人
Figure 227129DEST_PATH_IMAGE015
的信息应该赋予的注意力权重,
Figure 47186DEST_PATH_IMAGE023
是一个待学 习的参数向量,
Figure 210183DEST_PATH_IMAGE024
表示向量拼接,
Figure 422990DEST_PATH_IMAGE025
是一个非线性激活函数,
Figure 456674DEST_PATH_IMAGE026
代表可以跟机器人
Figure 978791DEST_PATH_IMAGE001
通 信的机器人集合,也就是说,
Figure 97925DEST_PATH_IMAGE027
为机器人
Figure 114423DEST_PATH_IMAGE001
的协作机器人集合
Figure 533772DEST_PATH_IMAGE028
中机器人的标号。
根据各个协作机器人的目标追踪信息,以及任一机器人与各个协作机器人之间的 注意力权重,确定任一机器人的协作状态信息。例如,将机器人的编码信息和相对应的注意 力权重相乘,并经激活函数处理,得到任一机器人
Figure 711944DEST_PATH_IMAGE001
的协作状态信息,用公式表示为:
Figure 849533DEST_PATH_IMAGE029
式中,
Figure 387830DEST_PATH_IMAGE003
表示机器人
Figure 412418DEST_PATH_IMAGE001
的协作状态信息。
基于上述任一实施例,步骤120包括:
基于任一机器人与各个障碍物体之间的距离,将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中,确定该机器人的障碍状态信息。
具体地,任一机器人的障碍状态信息不仅跟当前时刻任一机器人相对于各个障碍物体的位置关系有关,还跟当前时刻的前后时刻任一机器人相对于各个障碍物体的位置关系有关。可以利用长短期记忆神经网络,对任一机器人与各个障碍物体之间的距离进行学习,学习各个障碍物体之间的位置关系特征,以及任一机器人相对于各个障碍物体之间的位置变化特征。
例如,针对机器人
Figure 10759DEST_PATH_IMAGE001
,将上述模型中的障碍物信息按距离机器人
Figure 370065DEST_PATH_IMAGE001
的距离由远及近 输入到长短期记忆网络中,即最近的障碍物对机器人
Figure 462785DEST_PATH_IMAGE001
的影响最大,然后将长短期记忆网络 的输出
Figure 325568DEST_PATH_IMAGE030
用作障碍物相对于机器人
Figure 94810DEST_PATH_IMAGE001
的障碍状态信息。
基于上述任一实施例,步骤130包括:
基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数;预设围捕距离为围捕成功时每一机器人与目标物体之间的距离;预设间隔距离为围捕成功时各个机器人之间的距离;
采用近端策略优化算法,基于每一机器人的围捕状态信息和障碍状态信息,以及每一机器人的围捕奖励函数,确定每一机器人的运动控制策略。
具体地,对多机器人协作围捕动态逃逸的目标物体进行建模,则可以得到:
Figure 675833DEST_PATH_IMAGE031
其中,
Figure 572245DEST_PATH_IMAGE032
Figure 820692DEST_PATH_IMAGE033
Figure 760835DEST_PATH_IMAGE034
时刻第
Figure 579887DEST_PATH_IMAGE001
个机器人在二维空间中 的位置,
Figure 529257DEST_PATH_IMAGE035
Figure 366632DEST_PATH_IMAGE034
时刻目标物体在二维空间中的位置,
Figure 493988DEST_PATH_IMAGE036
为 第
Figure 315182DEST_PATH_IMAGE001
个机器人与目标物体之间的距离,
Figure 802664DEST_PATH_IMAGE037
为第
Figure 245278DEST_PATH_IMAGE001
个机器人与第
Figure 792803DEST_PATH_IMAGE015
个机器人之 间的距离,
Figure 835714DEST_PATH_IMAGE038
为围捕成功时第
Figure 877620DEST_PATH_IMAGE001
个机器人与目标物体之间的预设围捕距离,
Figure 955166DEST_PATH_IMAGE039
为 围捕成功时第
Figure 408013DEST_PATH_IMAGE001
个机器人与第
Figure 688953DEST_PATH_IMAGE015
个机器人之间的预设间隔距离,
Figure 518237DEST_PATH_IMAGE009
为机器人的数量。
可以设计围捕奖励函数,以每一机器人的围捕状态信息和障碍状态信息为观测信息,以实现围捕奖励函数取得最大值为目标,采用深度强化学习算法,确定每一机器人的运动控制策略。
例如,深度强化学习算法可以采用近端策略优化(Proximal PolicyOptimization,PPO)算法,以每一机器人的围捕状态信息和障碍状态信息作为算法中的状态,以每一机器人的运动控制策略为算法中的动作,以每一机器人的围捕奖励函数为奖励回报,通过强化学习,实现多机器人相互协作,共同实现对目标物体的围捕。
基于上述任一实施例,基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数,包括:
基于每一机器人的位置,以及预设碰撞距离和预设碰撞警告距离,确定每一机器人的防碰撞奖励函数;
基于每一机器人的位置,目标物体的位置,以及预设围捕距离,确定每一机器人的围捕距离奖励函数;
基于每一机器人的位置,以及预设间隔距离,确定每一机器人的间隔距离奖励函数;
基于每一机器人的防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数中的至少一种,确定每一机器人的围捕奖励函数。
具体地,每一机器人的围捕奖励函数可以由防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数组成,用公式表示为:
Figure 201022DEST_PATH_IMAGE040
其中,
Figure 848208DEST_PATH_IMAGE041
为第
Figure 865712DEST_PATH_IMAGE001
个机器人的围捕奖励函数,
Figure 249419DEST_PATH_IMAGE042
为第
Figure 35979DEST_PATH_IMAGE001
个机器人的防碰撞奖励函 数,
Figure 96207DEST_PATH_IMAGE043
为第
Figure 69849DEST_PATH_IMAGE001
个机器人的围捕距离奖励函数,
Figure 257247DEST_PATH_IMAGE044
为第
Figure 163892DEST_PATH_IMAGE001
个机器人的间隔距离奖励函数。
防碰撞奖励函数,用于对机器人在围捕过程中因避免与其余机器人、目标物体或 者障碍物体之间的碰撞而给予的奖励,可以根据每一机器人的位置,以及预设碰撞距离和 预设碰撞警告距离进行确定。第
Figure 129443DEST_PATH_IMAGE001
个机器人的防碰撞奖励函数
Figure 606692DEST_PATH_IMAGE042
用公式表示为:
Figure 315891DEST_PATH_IMAGE045
其中,
Figure 77043DEST_PATH_IMAGE046
为自定义调节系数,
Figure 229806DEST_PATH_IMAGE047
为多机器人围捕目标的机器人之间的最 小距离,
Figure 443619DEST_PATH_IMAGE048
为机器人之间以及机器人与障碍物之间的预设碰撞距离,
Figure 956509DEST_PATH_IMAGE049
为机器人之间的 预设碰撞警告距离。预设碰撞距离和预设碰撞警告距离可以根据实际情况进行设置。
围捕距离奖励函数,用于进行协作围捕时机器人与目标物体之间的距离达到预设 围捕距离时的奖励。可以根据机器人的位置,目标物体的位置,以及预设围捕距离进行确 定。第
Figure 322899DEST_PATH_IMAGE001
个机器人的围捕距离奖励函数
Figure 145099DEST_PATH_IMAGE043
可以用公式表示为:
Figure 846208DEST_PATH_IMAGE050
其中,
Figure 647942DEST_PATH_IMAGE051
表示限制
Figure 383686DEST_PATH_IMAGE043
的值在0到1之间。
间隔距离奖励函数,用于进行协作围捕时机器人与机器人之间的距离达到预设间 隔距离时的奖励。可以根据机器人的位置,以及预设间隔距离,确定机器人的间隔距离奖励 函数。第
Figure 127519DEST_PATH_IMAGE001
个机器人的间隔距离奖励函数
Figure 66657DEST_PATH_IMAGE044
可以用公式表示为:
Figure 186928DEST_PATH_IMAGE052
其中,
Figure 511599DEST_PATH_IMAGE051
表示限制
Figure 177067DEST_PATH_IMAGE044
的值在0到1之间。
基于上述任一实施例,本发明还提供一种用于确定目标物体的逃逸方向的方法,该方法包括:
计算两个相邻机器人与目标物体之间的角度,选择与最大角度相对应的两个相邻机器人的中间位置作为目标物体的逃逸方向。
基于上述任一实施例,图2为本发明提供的基于深度强化学习的多机器人协作围捕动态逃逸目标方法的流程示意图,如图2所示,该方法包括:
步骤一、多机器人协作围捕动态逃逸目标的问题建模;
步骤二、将上述模型中的多智能体之间的通信拓扑关系构建为图网络结构,并基于自注意力机制融合不同智能体之间的信息;
步骤三、采用长短期记忆网络对上述模型中的障碍物信息进行处理;
步骤四、将步骤二中多智能体信息和步骤三中障碍物信息作为观测信息,设计复合奖励函数,采用近端策略优化的强化学习方法进行策略优化;
步骤五、基于最大逃逸角度设计目标动态逃逸算法。
本发明实施例提供的一种基于深度强化学习的多机器人协作围捕动态逃逸目标的方法,为多机器人协作围捕动态逃逸目标提供一种准确高效的控制方法。本发明将多机器人之间的交互行为建模为一个图,机器人在图中形成节点,边存在于两个通信机器人之间。考虑到机器人之间的距离越近,对彼此的影响就越大,本发明设计了自注意力机制使机器人有选择地关注来自相邻机器人的信息。除此以外,本发明设计了一个复合奖赏函数来引导多机器人系统学会合作围捕目标,同时避免碰撞。
基于上述任一实施例,图3为本发明提供的多机器人协作围捕装置的结构示意图,如图3所示,该装置包括:
围捕状态确定单元310,用于基于任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;
障碍状态确定单元320,用于基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态信息,确定任一机器人的障碍状态信息;
控制策略确定单元330,用于基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;
协作围捕单元340,用于基于每一机器人的运动控制策略,控制各个机器人对目标物体进行围捕。
本发明实施例提供的多机器人协作围捕装置,根据任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;根据任一机器人与各个障碍物体之间的距离,确定任一机器人的障碍状态信息;根据每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略,从而控制各个机器人对目标物体进行围捕,在协作围捕过程中,同时考虑了各个机器人与目标物体之间的距离变化,各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化,能够有效避免机器人、目标物体和障碍物体之间的碰撞,提高了多机器人系统的安全性,同时,由于充分考虑了各个机器人之间的距离变化,提高了各个机器人之间的协作水平,围捕目标不易于逃脱,提高了围捕效果。
基于上述任一实施例,围捕状态确定单元310包括:
目标追踪信息确定子单元,用于基于任一机器人的运动状态,以及任一机器人与目标物体之间的距离,确定任一机器人的目标追踪信息;
协作状态信息确定子单元,用于基于任一机器人的目标追踪信息,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的协作状态信息;
围捕状态信息确定子单元,用于基于任一机器人的目标追踪信息和协作状态信息,确定任一机器人的围捕状态信息。
基于上述任一实施例,协作状态信息确定子单元包括:
连接关系确定模块,用于基于预设通信距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人与其余各个机器人之间的通信连接关系;
协作状态信息确定模块,用于基于任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及任一机器人与其余各个机器人之间的通信连接关系,确定任一机器人的协作状态信息。
基于上述任一实施例,协作状态信息确定模块具体用于:
基于任一机器人与其余各个机器人之间的通信连接关系,确定与任一机器人进行通信的协作机器人;
基于自注意力机制,任一机器人的目标追踪信息,以及各个协作机器人的目标追踪信息,确定任一机器人与各个协作机器人之间的注意力权重;
基于各个协作机器人的目标追踪信息,以及任一机器人与各个协作机器人之间的注意力权重,确定任一机器人的协作状态信息。
基于上述任一实施例,障碍状态确定单元320用于:
基于任一机器人与各个障碍物体之间的距离,将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中,确定任一机器人的障碍状态信息。
基于上述任一实施例,控制策略确定单元330包括:
奖励确定子单元,用于基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数;预设围捕距离为围捕成功时每一机器人与目标物体之间的距离;预设间隔距离为围捕成功时各个机器人之间的距离;
策略确定子单元,用于采用近端策略优化算法,基于每一机器人的围捕状态信息和障碍状态信息,以及每一机器人的围捕奖励函数,确定每一机器人的运动控制策略。
基于上述任一实施例,奖励确定子单元具体用于:
基于每一机器人的位置,以及预设碰撞距离和预设碰撞警告距离,确定每一机器人的防碰撞奖励函数;
基于每一机器人的位置,目标物体的位置,以及预设围捕距离,确定每一机器人的围捕距离奖励函数;
基于每一机器人的位置,以及预设间隔距离,确定每一机器人的间隔距离奖励函数;
基于每一机器人的防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数中的至少一种,确定每一机器人的围捕奖励函数。
基于上述任一实施例,图4为本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(Processor)410、通信接口(Communications Interface)420、存储器(Memory)430和通信总线(Communications Bus)440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令,以执行如下方法:
基于任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定任一机器人的障碍状态信息;基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;基于每一机器人的运动控制策略,控制各个机器人对目标物体进行围捕。
此外,上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
基于任一机器人的运动状态,任一机器人与目标物体之间的距离,以及任一机器人与其余各个机器人之间的距离,确定任一机器人的围捕状态信息;基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定任一机器人的障碍状态信息;基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;基于每一机器人的运动控制策略,控制各个机器人对目标物体进行围捕。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种多机器人协作围捕方法,其特征在于,包括:
基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息;
基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态,确定所述任一机器人的障碍状态信息;
基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;
基于每一机器人的运动控制策略,控制各个机器人对所述目标物体进行围捕;
所述基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息,包括:
基于任一机器人的运动状态,以及所述任一机器人与目标物体之间的距离,确定所述任一机器人的目标追踪信息;
基于所述任一机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的协作状态信息;
基于所述任一机器人的目标追踪信息和协作状态信息,确定所述任一机器人的围捕状态信息;
所述基于所述任一机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的协作状态信息,包括:
基于预设通信距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人与其余各个机器人之间的通信连接关系;
基于所述任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的通信连接关系,确定所述任一机器人的协作状态信息;
所述基于所述任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的通信连接关系,确定所述任一机器人的协作状态信息,包括:
基于所述任一机器人与其余各个机器人之间的通信连接关系,确定与所述任一机器人进行通信的协作机器人;
基于自注意力机制,所述任一机器人的目标追踪信息,以及各个协作机器人的目标追踪信息,确定所述任一机器人与各个协作机器人之间的注意力权重;
基于各个协作机器人的目标追踪信息,以及所述任一机器人与各个协作机器人之间的注意力权重,确定所述任一机器人的协作状态信息。
2.根据权利要求1所述的多机器人协作围捕方法,其特征在于,所述基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态信息,确定所述任一机器人的障碍状态信息,包括:
基于所述任一机器人与各个障碍物体之间的距离,将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中,确定所述任一机器人的障碍状态信息。
3.根据权利要求1所述的多机器人协作围捕方法,其特征在于,所述基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略,包括:
基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数;所述预设围捕距离为围捕成功时每一机器人与所述目标物体之间的距离;所述预设间隔距离为围捕成功时各个机器人之间的距离;
采用近端策略优化算法,基于每一机器人的围捕状态信息和障碍状态信息,以及每一机器人的围捕奖励函数,确定每一机器人的运动控制策略。
4.根据权利要求3所述的多机器人协作围捕方法,其特征在于,所述基于每一机器人的位置,以及目标物体的位置,以及预设围捕距离和预设间隔距离,确定每一机器人的围捕奖励函数,包括:
基于每一机器人的位置,以及预设碰撞距离和预设碰撞警告距离,确定每一机器人的防碰撞奖励函数;
基于每一机器人的位置,目标物体的位置,以及预设围捕距离,确定每一机器人的围捕距离奖励函数;
基于每一机器人的位置,以及预设间隔距离,确定每一机器人的间隔距离奖励函数;
基于每一机器人的防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数中的至少一种,确定每一机器人的围捕奖励函数。
5.一种多机器人协作围捕装置,其特征在于,包括:
围捕状态确定单元,用于基于任一机器人的运动状态,所述任一机器人与目标物体之间的距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的围捕状态信息;
障碍状态确定单元,用于基于任一机器人与各个障碍物体之间的距离,以及各个障碍物体的状态信息,确定所述任一机器人的障碍状态信息;
控制策略确定单元,用于基于每一机器人的围捕状态信息和障碍状态信息,确定每一机器人的运动控制策略;
协作围捕单元,用于基于每一机器人的运动控制策略,控制各个机器人对所述目标物体进行围捕;
所述围捕状态确定单元包括:
目标追踪信息确定子单元,用于基于任一机器人的运动状态,以及所述任一机器人与目标物体之间的距离,确定所述任一机器人的目标追踪信息;
协作状态信息确定子单元,用于基于所述任一机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人的协作状态信息;
围捕状态信息确定子单元,用于基于所述任一机器人的目标追踪信息和协作状态信息,确定所述任一机器人的围捕状态信息;
所述协作状态信息确定子单元包括:
连接关系确定模块,用于基于预设通信距离,以及所述任一机器人与其余各个机器人之间的距离,确定所述任一机器人与其余各个机器人之间的通信连接关系;
协作状态信息确定模块,用于基于所述任一机器人的目标追踪信息,其余各个机器人的目标追踪信息,以及所述任一机器人与其余各个机器人之间的通信连接关系,确定所述任一机器人的协作状态信息;
所述协作状态信息确定模块具体用于:
基于所述任一机器人与其余各个机器人之间的通信连接关系,确定与所述任一机器人进行通信的协作机器人;
基于自注意力机制,所述任一机器人的目标追踪信息,以及各个协作机器人的目标追踪信息,确定所述任一机器人与各个协作机器人之间的注意力权重;
基于各个协作机器人的目标追踪信息,以及所述任一机器人与各个协作机器人之间的注意力权重,确定所述任一机器人的协作状态信息。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述多机器人协作围捕方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述多机器人协作围捕方法的步骤。
CN202110689055.8A 2021-06-22 2021-06-22 多机器人协作围捕方法、装置、电子设备及存储介质 Active CN113253738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110689055.8A CN113253738B (zh) 2021-06-22 2021-06-22 多机器人协作围捕方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110689055.8A CN113253738B (zh) 2021-06-22 2021-06-22 多机器人协作围捕方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113253738A CN113253738A (zh) 2021-08-13
CN113253738B true CN113253738B (zh) 2021-10-01

Family

ID=77189009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110689055.8A Active CN113253738B (zh) 2021-06-22 2021-06-22 多机器人协作围捕方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113253738B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115097816B (zh) * 2022-05-20 2023-05-23 深圳市大族机器人有限公司 一种模块化多机器人协作控制方法
CN115629600B (zh) * 2022-08-01 2023-12-12 北方工业大学 一种基于缓冲维诺图的复杂动态安保环境下多机协同围捕方法
CN116430865A (zh) * 2023-04-17 2023-07-14 北方工业大学 一种概率不确定框架下的多机协同围捕方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104942807B (zh) * 2015-04-16 2017-02-22 上海大学 基于扩展式合作博弈的多机器人围捕目标方法
CN108115685B (zh) * 2017-12-01 2020-03-13 中国科学院自动化研究所 多机器人围捕方法
WO2019237351A1 (zh) * 2018-06-15 2019-12-19 深圳前海达闼云端智能科技有限公司 机器人运动控制方法、装置、存储介质及机器人
US11338438B2 (en) * 2019-01-25 2022-05-24 Bear Robotics, Inc. Method, system and non-transitory computer-readable recording medium for determining a movement path of a robot
CN110377059A (zh) * 2019-08-29 2019-10-25 哈尔滨工程大学 一种基于狮群算法的多auv围捕者协同控制方法
CN111240332A (zh) * 2020-01-18 2020-06-05 湖南科技大学 一种复杂凸环境下群机器人协同作业的多目标围捕方法
CN111240333A (zh) * 2020-01-18 2020-06-05 湖南科技大学 一种复杂非凸环境下群机器人协同作业的多目标围捕方法
CN112684700B (zh) * 2020-11-30 2022-12-06 汕头大学 一种群体机器人的多目标搜索与围捕控制方法及系统

Also Published As

Publication number Publication date
CN113253738A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113253738B (zh) 多机器人协作围捕方法、装置、电子设备及存储介质
CN110147101B (zh) 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110554709A (zh) 一种分布式的仿生的多智能体自主集群控制方法
Cai et al. Safe multi-agent reinforcement learning through decentralized multiple control barrier functions
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN110561417B (zh) 一种多智能体无碰撞轨迹规划方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
Chen et al. Three-dimensional path planning for unmanned aerial vehicle based on linear programming
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Al Hilli et al. Optimal path finding in stochastic quasi-dynamic environments using particle swarm optimization
Mohanty et al. Application of deep Q-learning for wheel mobile robot navigation
Jin et al. Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning
CN113282093B (zh) 机器人导航方法、装置、电子设备及存储介质
Lu et al. A two-stage dynamic collision avoidance algorithm for unmanned surface vehicles based on field theory and COLREGs
Xu et al. A learning method for AUV collision avoidance through deep reinforcement learning
CN115617036A (zh) 一种多模态信息融合的机器人运动规划方法及设备
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
Li et al. A model predictive obstacle avoidance method based on dynamic motion primitives and a Kalman filter
Teitgen et al. Dynamic trajectory planning for ships in dense environment using collision grid with deep reinforcement learning
Hellström Robot navigation with potential fields
Jacinto et al. Navigation of autonomous vehicles using reinforcement learning with generalized advantage estimation
Huang et al. An artificial swan formation using the finsler measure in the dynamic window control
Peng et al. Moving object grasping method of mechanical arm based on deep deterministic policy gradient and hindsight experience replay
Zhang et al. DRL-based target interception strategy design for an underactuated USV without obstacle collision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant