CN113253738A

CN113253738A - 多机器人协作围捕方法、装置、电子设备及存储介质

Info

Publication number: CN113253738A
Application number: CN202110689055.8A
Authority: CN
Inventors: 刘振; 周志明; 张天乐; 蒲志强; 丘腾海; 易建强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-08-13
Anticipated expiration: 2041-06-22
Also published as: CN113253738B

Abstract

本发明提供一种多机器人协作围捕方法、装置、电子设备及存储介质，其中方法包括：基于任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态，确定任一机器人的障碍状态信息；基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略；基于每一机器人的运动控制策略，控制各个机器人对所述目标物体进行围捕。本发明提供的方法、装置、电子设备及存储介质，提高了多机器人系统的安全性，围捕目标不易于逃脱，提高了围捕效果。

Description

多机器人协作围捕方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多机器人协作围捕方法、装置、电子设备及存储介质。

背景技术

近年来，多机器人系统的目标围捕问题因其具有广阔的应用前景而越来越受到关注，如锁定控制、捕获敌方目标、侦察监视等。这些应用的关键问题是通过适当的方法控制多机器人系统以期望的队形协同围捕特定目标。特别是，每个具有局部通信功能的机器人不仅要包围一个目标，而且还要避免与其他机器人和障碍物的碰撞。此外，被围捕目标可能具有高度智能的逃跑策略。考虑上述限制，多机器人协作围捕动态逃逸目标问题具有很大的挑战性。

现有的多机器人协作围捕方法，虽然是针对动态目标的围捕问题展开，但存在很多显而易见的缺点：一是需要基于控制理论建立精确的数学模型，这在实际应用中难于实现；二是机器人之间或者机器人与障碍物之间碰撞严重，这使得多机器人系统处于不安全的境地；三是围捕目标处于动态逃逸状态，多机器人协作围捕缺乏灵活应对能力。现有的多机器人协作围捕方法，围捕目标易于逃脱，围捕效果差。

发明内容

本发明提供一种多机器人协作围捕方法、装置、电子设备及存储介质，用于解决现有技术中多机器人协作围捕时围捕目标易于逃脱，围捕效果差的技术问题。

本发明提供一种多机器人协作围捕方法，包括：

基于任一机器人的运动状态，所述任一机器人与目标物体之间的距离，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的围捕状态信息；

基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态，确定所述任一机器人的障碍状态信息；

基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略；

基于每一机器人的运动控制策略，控制各个机器人对所述目标物体进行围捕。

根据本发明提供的多机器人协作围捕方法，所述基于任一机器人的运动状态，所述任一机器人与目标物体之间的距离，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的围捕状态信息，包括：

基于任一机器人的运动状态，以及所述任一机器人与目标物体之间的距离，确定所述任一机器人的目标追踪信息；

基于所述任一机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的协作状态信息；

基于所述任一机器人的目标追踪信息和协作状态信息，确定所述任一机器人的围捕状态信息。

根据本发明提供的多机器人协作围捕方法，所述基于所述任一机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的协作状态信息，包括：

基于预设通信距离，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人与其余各个机器人之间的通信连接关系；

基于所述任一机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的通信连接关系，确定所述任一机器人的协作状态信息。

根据本发明提供的多机器人协作围捕方法，所述基于所述任一机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的通信连接关系，确定所述任一机器人的协作状态信息，包括：

基于所述任一机器人与其余各个机器人之间的通信连接关系，确定与所述任一机器人进行通信的协作机器人；

基于自注意力机制，所述任一机器人的目标追踪信息，以及各个协作机器人的目标追踪信息，确定所述任一机器人与各个协作机器人之间的注意力权重；

基于各个协作机器人的目标追踪信息，以及所述任一机器人与各个协作机器人之间的注意力权重，确定所述任一机器人的协作状态信息。

根据本发明提供的多机器人协作围捕方法，所述基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态信息，确定所述任一机器人的障碍状态信息，包括：

基于所述任一机器人与各个障碍物体之间的距离，将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中，确定所述任一机器人的障碍状态信息。

根据本发明提供的多机器人协作围捕方法，所述基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略，包括：

基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数；所述预设围捕距离为围捕成功时每一机器人与所述目标物体之间的距离；所述预设间隔距离为围捕成功时各个机器人之间的距离；

采用近端策略优化算法，基于每一机器人的围捕状态信息和障碍状态信息，以及每一机器人的围捕奖励函数，确定每一机器人的运动控制策略。

根据本发明提供的多机器人协作围捕方法，所述基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数，包括：

基于每一机器人的位置，以及预设碰撞距离和预设碰撞警告距离，确定每一机器人的防碰撞奖励函数；

基于每一机器人的位置，目标物体的位置，以及预设围捕距离，确定每一机器人的围捕距离奖励函数；

基于每一机器人的位置，以及预设间隔距离，确定每一机器人的间隔距离奖励函数；

基于每一机器人的防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数中的至少一种，确定每一机器人的围捕奖励函数。

本发明提供一种多机器人协作围捕装置，包括：

围捕状态确定单元，用于基于任一机器人的运动状态，所述任一机器人与目标物体之间的距离，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的围捕状态信息；

障碍状态确定单元，用于基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态信息，确定所述任一机器人的障碍状态信息；

控制策略确定单元，用于基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略；

协作围捕单元，用于基于每一机器人的运动控制策略，控制各个机器人对所述目标物体进行围捕。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述多机器人协作围捕方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述多机器人协作围捕方法的步骤。

本发明提供的多机器人协作围捕方法、装置、电子设备及存储介质，根据任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；根据任一机器人与各个障碍物体之间的距离，确定任一机器人的障碍状态信息；根据每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略，从而控制各个机器人对目标物体进行围捕，在协作围捕过程中，同时考虑了各个机器人与目标物体之间的距离变化，各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化，能够有效避免机器人、目标物体和障碍物体之间的碰撞，提高了多机器人系统的安全性，同时，由于充分考虑了各个机器人之间的距离变化，提高了各个机器人之间的协作水平，围捕目标不易于逃脱，提高了围捕效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的多机器人协作围捕方法的流程示意图；

图2为本发明提供的基于深度强化学习的多机器人协作围捕动态逃逸目标方法的流程示意图；

图3为本发明提供的多机器人协作围捕装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的多机器人协作围捕方法的流程示意图，如图1所示，该方法包括：

步骤110，基于任一机器人的运动状态，该机器人与目标物体之间的距离，以及该机器人与其余各个机器人之间的距离，确定该机器人的围捕状态信息。

具体地，多机器人协作围捕就是以机器人为追捕者，以目标物体为被追捕者，追捕者对目标物体进行包围，使得目标物体被围困在多个机器人围成的区域中无法逃出。在本发明实施例中，目标物体为智能体，能够实现自主控制，进行动态逃逸。此外，本发明实施例中的方法也适用于静止目标，只需将目标物体的移动位置设置为固定值即可。机器人和目标物体均为智能体，可以为无人驾驶车辆、水下机器人、陆地机器人等。机器人和目标物体可以为同一类型的智能体，在本发明实施例中，机器人为用于围猎的智能体，目标物体为用于逃逸的智能体。

任一机器人的运动状态可以用一组描述运动情况的物理量来描述，例如，运动状态可以包括任一机器人在当前时刻的位置、速度大小和运动方向等。

任一机器人与目标物体之间的距离，是指该机器人在空间位置上与目标物体相隔的距离。例如，若多机器人协作围捕是在二维平面中进行的，则可以建立平面直角坐标系，得到目标物体和该机器人的位置坐标，根据坐标运算得到该机器人与目标物体之间的距离。

任一机器人与其余各个机器人之间的距离，指该机器人在空间位置上与其余各个机器人相隔的距离。例如，可以根据每一机器人的位置坐标，计算得到任一机器人与其余各个机器人之间的距离。

任一机器人的围捕状态信息，用来表示该机器人在围捕过程中表现出来的形态，可以从两个方面来体现，其一是该机器人作为围捕者对于目标物体的追踪情况，可以根据任一机器人的运动状态以及该机器人与目标物体之间的距离来体现；其二是该机器人与其他机器人之间的协作围捕情况，可以根据任一机器人的运动状态以及该机器人与其余各个机器人之间的距离来体现。

步骤120，基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态，确定所述任一机器人的障碍状态信息。

具体地，在多机器人协作围捕目标物体的过程中，每一机器人除了需要对目标物体进行追踪和对其余机器人进行避让外，还要需要避让可能遇到的障碍物体，防止与障碍物体发生碰撞。各个障碍物体的状态，可以包括障碍物体的具体位置、形状大小、运动状态等中的至少一种。

任一机器人的障碍状态信息，用来表示各个障碍物体对该机器人在围捕过程中的运动状态的影响。一般地，距离该机器人越近的障碍物体对该机器人的影响越大，距离该机器人越远的障碍物体对该机器人的影响越小。相应地，可以根据任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态，来确定该机器人的障碍状态信息。

步骤130，基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略。

具体地，运动控制策略，为机器人在协作围捕目标物体中的运动方法或者运动策略，用来控制机器人的运动。例如，运动控制策略可以用运动加速度来表示，加速度的大小表示机器人的运动变化快慢，加速度的方向表示机器人的运动改变方向。通过输出机器人在每一时刻的运动加速度，从而控制机器人的运动状态。

根据任一机器人的围捕状态信息，可以得到该机器人相对于目标物体和其余各个机器人的位置变化特征；根据任一机器人的障碍状态信息，可以得到该机器人相对于各个障碍物的位置变化特征；综合上述两个方面的位置变化特征，可以得到该机器人在整个协作围捕过程中的位置变化特征。协作围捕是一个动态过程，根据每一机器人在当前时刻的位置变化特征，以协作围捕成功时各个机器人与目标物体之间的位置关系为最优目标，可以得到每一机器人在当前时刻的运动控制策略，从而指导每一机器人向着最优目标进行运动控制。

步骤140，基于每一机器人的运动控制策略，控制各个机器人对目标物体进行围捕。

具体地，在当前时刻得到每一机器人的运动控制策略之后，控制各个机器人改变当前时刻的运动状态，朝着围捕目标物体的方向进行运动。在经历多个时刻的运动控制之后，各个机器人与目标物体之间的位置关系逐渐逼近理想状态，则可以确定各个机器人对目标物体实现了围捕成功。此处的理想状态可以为各个机器人与目标物体之间的距离以及各个机器人之间的距离均达到设定目标值。

例如，在一个有m个障碍物的二维空间中，n个机器人协同围捕一个动态移动的目标，围捕成功的条件是n个机器人形成特定编队，该编队应能满足以下条件：队形应为一个环绕目标的凸多边形，且凸多边形中相邻顶点之间的距离应尽可能相同；在队形中，凸多边形的每个顶点都可以被任何机器人占据。

本发明实施例提供的多机器人协作围捕方法，根据任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；根据任一机器人与各个障碍物体之间的距离，确定任一机器人的障碍状态信息；根据每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略，从而控制各个机器人对目标物体进行围捕，在协作围捕过程中，同时考虑了各个机器人与目标物体之间的距离变化，各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化，能够有效避免机器人、目标物体和障碍物体之间的碰撞，提高了多机器人系统的安全性，同时，由于充分考虑了各个机器人之间的距离变化，提高了各个机器人之间的协作水平，围捕目标不易于逃脱，提高了围捕效果。

基于上述实施例，步骤110包括：

基于任一机器人的运动状态，以及该机器人与目标物体之间的距离，确定该机器人的目标追踪信息；

基于该机器人的目标追踪信息，以及该机器人与其余各个机器人之间的距离，确定该机器人的协作状态信息；

基于该机器人的目标追踪信息和协作状态信息，确定该机器人的围捕状态信息。

具体地，目标追踪信息用来表示任一机器人在围捕过程中作为一个独立的智能体对于目标物体的追踪信息。可以根据任一机器人的运动状态，以及任一机器人与目标物体之间的距离进行确定。

例如，第

个机器人的目标追踪信息记为

，表示机器人

对自身状态和环境信息的理解，自身状态包括位置和运动速度，环境信息包括与目标物体的相对位置，但不包含机器人

与其余机器人的任何协作信息。

协作状态信息用来表示任一机器人在围捕过程中与其余机器人进行协作，对目标物体进行围捕的信息。可以根据任一机器人的目标追踪信息，以及该机器人与其余各个机器人之间的距离，确定该机器人的协作状态信息。例如，可以根据该机器人与其余各个机器人之间的距离，确定其余各个机器人相对于该机器人的协作重要性。距离该机器人越近的机器人，对该机器人而言，协作重要性越大，越需要给予更多的关注。距离该机器人越远的机器人，对该机器人而言，协作重要性越小，应给予更少的关注或者不关注。

根据任一机器人的目标追踪信息和协作状态信息，可以确定任一机器人的围捕状态信息。例如，对于第

个机器人，目标追踪信息为

，协作状态信息为

，则第

个机器人的围捕状态信息

可以表示为：

式中，

为神经网络，用于对第

个机器人的目标追踪信息

和协作状态信息

进行非线性转换。

基于上述任一实施例，基于任一机器人的目标追踪信息，以及该机器人与其余各个机器人之间的距离，确定该机器人的协作状态信息，包括：

基于预设通信距离，以及任一机器人与其余各个机器人之间的距离，确定该机器人与其余各个机器人之间的通信连接关系；

基于该机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及该机器人与其余各个机器人之间的通信连接关系，确定该机器人的协作状态信息。

具体地，各个机器人之间需要进行通信才能够相互传递信息。围捕过程中，只有当两个机器人之间的距离小于等于预设通信距离时，才能够建立通信连接关系，才能够进行相互协作。任一机器人应当关注建立通信连接关系的其余机器人。预设通信距离可以根据需要进行设置。

例如，可以将各个机器人之间的通信拓扑关系构建为图网络结构，可以表示为：

定义一个图

，其中，

为顶点集合，表示

个机器人，

为边集合，表示多机器人之间可以沿着图的边进行通信，

为建立的通信连接关系的数量。如果两个机器人能够相互通信，则两个机器人之间存在一条边

，

。图网络结构中，机器人之间的通信是局部的，即只有当两个机器人之间的距离小于预先定义的阈值时，两个机器人才能相互通信。图网络结构中，

是图的邻接矩阵，如果第

个机器人和第

个机器人之间可以通信，

，否则

。

基于上述任一实施例，基于任一机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及该机器人与其余各个机器人之间的通信连接关系，确定该机器人的协作状态信息，包括：

基于任一机器人与其余各个机器人之间的通信连接关系，确定与该机器人进行通信的协作机器人；

基于自注意力机制，该机器人的目标追踪信息，以及各个协作机器人的目标追踪信息，确定该机器人与各个协作机器人之间的注意力权重；

基于各个协作机器人的目标追踪信息，以及该机器人与各个协作机器人之间的注意力权重，确定该机器人的协作状态信息。

具体地，协作机器人为与任一机器人建立通信连接关系的机器人。由于围捕过程是一个动态的过程，协作机器人总是动态更新的，可以根据当前时刻任一机器人与其余各个机器人之间的通信连接关系，确定与该机器人进行通信的协作机器人。例如，可以根据上述实例中图网络的邻接矩阵，确定任一机器人的协作机器人。

，则表明第

个机器人和第

个机器人互为协作机器人，

，则表明第

个机器人和第

个机器人之间无通信连接关系，两个机器人不是对方的协作机器人。

根据自注意力机制，任一机器人的目标追踪信息，以及各个协作机器人的目标追踪信息，可以确定任一机器人与各个协作机器人之间的注意力权重。例如，对于任一机器人的目标追踪信息

进行变换，得到编码信息

，用公式表示为：

式中，

是一个待学习的参数矩阵，例如，可以用于对目标追踪信息中的部分信息进行增强。

根据自注意力机制，确定任一机器人与各个协作机器人之间的注意力权重，可以用公式表示为：

式中，

表示机器人

对机器人

的信息应该赋予的注意力权重，

是一个待学习的参数向量，

表示向量拼接，

是一个非线性激活函数，

代表可以跟机器人

通信的机器人集合，也就是说，

为机器人

的协作机器人集合

中机器人的标号。

根据各个协作机器人的目标追踪信息，以及任一机器人与各个协作机器人之间的注意力权重，确定任一机器人的协作状态信息。例如，将机器人的编码信息和相对应的注意力权重相乘，并经激活函数处理，得到任一机器人

的协作状态信息，用公式表示为：

式中，

表示机器人

的协作状态信息。

基于上述任一实施例，步骤120包括：

基于任一机器人与各个障碍物体之间的距离，将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中，确定该机器人的障碍状态信息。

具体地，任一机器人的障碍状态信息不仅跟当前时刻任一机器人相对于各个障碍物体的位置关系有关，还跟当前时刻的前后时刻任一机器人相对于各个障碍物体的位置关系有关。可以利用长短期记忆神经网络，对任一机器人与各个障碍物体之间的距离进行学习，学习各个障碍物体之间的位置关系特征，以及任一机器人相对于各个障碍物体之间的位置变化特征。

例如，针对机器人

，将上述模型中的障碍物信息按距离机器人

的距离由远及近输入到长短期记忆网络中，即最近的障碍物对机器人

的影响最大，然后将长短期记忆网络的输出

用作障碍物相对于机器人

的障碍状态信息。

基于上述任一实施例，步骤130包括：

基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数；预设围捕距离为围捕成功时每一机器人与目标物体之间的距离；预设间隔距离为围捕成功时各个机器人之间的距离；

具体地，对多机器人协作围捕动态逃逸的目标物体进行建模，则可以得到：

其中，

，

为

时刻第

个机器人在二维空间中的位置，

为

时刻目标物体在二维空间中的位置，

为第

个机器人与目标物体之间的距离，

为第

个机器人与第

个机器人之间的距离，

为围捕成功时第

个机器人与目标物体之间的预设围捕距离，

为围捕成功时第

个机器人与第

个机器人之间的预设间隔距离，

为机器人的数量。

可以设计围捕奖励函数，以每一机器人的围捕状态信息和障碍状态信息为观测信息，以实现围捕奖励函数取得最大值为目标，采用深度强化学习算法，确定每一机器人的运动控制策略。

例如，深度强化学习算法可以采用近端策略优化（Proximal PolicyOptimization，PPO）算法，以每一机器人的围捕状态信息和障碍状态信息作为算法中的状态，以每一机器人的运动控制策略为算法中的动作，以每一机器人的围捕奖励函数为奖励回报，通过强化学习，实现多机器人相互协作，共同实现对目标物体的围捕。

基于上述任一实施例，基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数，包括：

具体地，每一机器人的围捕奖励函数可以由防碰撞奖励函数、围捕距离奖励函数和间隔距离奖励函数组成，用公式表示为：

其中，

为第

个机器人的围捕奖励函数，

为第

个机器人的防碰撞奖励函数，

为第

个机器人的围捕距离奖励函数，

为第

个机器人的间隔距离奖励函数。

防碰撞奖励函数，用于对机器人在围捕过程中因避免与其余机器人、目标物体或者障碍物体之间的碰撞而给予的奖励，可以根据每一机器人的位置，以及预设碰撞距离和预设碰撞警告距离进行确定。第

个机器人的防碰撞奖励函数

用公式表示为：

其中，

为自定义调节系数，

为多机器人围捕目标的机器人之间的最小距离，

为机器人之间以及机器人与障碍物之间的预设碰撞距离，

为机器人之间的预设碰撞警告距离。预设碰撞距离和预设碰撞警告距离可以根据实际情况进行设置。

围捕距离奖励函数，用于进行协作围捕时机器人与目标物体之间的距离达到预设围捕距离时的奖励。可以根据机器人的位置，目标物体的位置，以及预设围捕距离进行确定。第

个机器人的围捕距离奖励函数

可以用公式表示为：

其中，

表示限制

的值在0到1之间。

间隔距离奖励函数，用于进行协作围捕时机器人与机器人之间的距离达到预设间隔距离时的奖励。可以根据机器人的位置，以及预设间隔距离，确定机器人的间隔距离奖励函数。第

个机器人的间隔距离奖励函数

可以用公式表示为：

其中，

表示限制

的值在0到1之间。

基于上述任一实施例，本发明还提供一种用于确定目标物体的逃逸方向的方法，该方法包括：

计算两个相邻机器人与目标物体之间的角度，选择与最大角度相对应的两个相邻机器人的中间位置作为目标物体的逃逸方向。

基于上述任一实施例，图2为本发明提供的基于深度强化学习的多机器人协作围捕动态逃逸目标方法的流程示意图，如图2所示，该方法包括：

步骤一、多机器人协作围捕动态逃逸目标的问题建模；

步骤二、将上述模型中的多智能体之间的通信拓扑关系构建为图网络结构，并基于自注意力机制融合不同智能体之间的信息；

步骤三、采用长短期记忆网络对上述模型中的障碍物信息进行处理；

步骤四、将步骤二中多智能体信息和步骤三中障碍物信息作为观测信息，设计复合奖励函数，采用近端策略优化的强化学习方法进行策略优化；

步骤五、基于最大逃逸角度设计目标动态逃逸算法。

本发明实施例提供的一种基于深度强化学习的多机器人协作围捕动态逃逸目标的方法，为多机器人协作围捕动态逃逸目标提供一种准确高效的控制方法。本发明将多机器人之间的交互行为建模为一个图，机器人在图中形成节点，边存在于两个通信机器人之间。考虑到机器人之间的距离越近，对彼此的影响就越大，本发明设计了自注意力机制使机器人有选择地关注来自相邻机器人的信息。除此以外，本发明设计了一个复合奖赏函数来引导多机器人系统学会合作围捕目标，同时避免碰撞。

基于上述任一实施例，图3为本发明提供的多机器人协作围捕装置的结构示意图，如图3所示，该装置包括：

围捕状态确定单元310，用于基于任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；

障碍状态确定单元320，用于基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态信息，确定任一机器人的障碍状态信息；

控制策略确定单元330，用于基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略；

协作围捕单元340，用于基于每一机器人的运动控制策略，控制各个机器人对目标物体进行围捕。

本发明实施例提供的多机器人协作围捕装置，根据任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；根据任一机器人与各个障碍物体之间的距离，确定任一机器人的障碍状态信息；根据每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略，从而控制各个机器人对目标物体进行围捕，在协作围捕过程中，同时考虑了各个机器人与目标物体之间的距离变化，各个机器人之间的距离变化和各个机器人与障碍物体之间的距离变化，能够有效避免机器人、目标物体和障碍物体之间的碰撞，提高了多机器人系统的安全性，同时，由于充分考虑了各个机器人之间的距离变化，提高了各个机器人之间的协作水平，围捕目标不易于逃脱，提高了围捕效果。

基于上述任一实施例，围捕状态确定单元310包括：

目标追踪信息确定子单元，用于基于任一机器人的运动状态，以及任一机器人与目标物体之间的距离，确定任一机器人的目标追踪信息；

协作状态信息确定子单元，用于基于任一机器人的目标追踪信息，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的协作状态信息；

围捕状态信息确定子单元，用于基于任一机器人的目标追踪信息和协作状态信息，确定任一机器人的围捕状态信息。

基于上述任一实施例，协作状态信息确定子单元包括：

连接关系确定模块，用于基于预设通信距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人与其余各个机器人之间的通信连接关系；

协作状态信息确定模块，用于基于任一机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及任一机器人与其余各个机器人之间的通信连接关系，确定任一机器人的协作状态信息。

基于上述任一实施例，协作状态信息确定模块具体用于：

基于任一机器人与其余各个机器人之间的通信连接关系，确定与任一机器人进行通信的协作机器人；

基于自注意力机制，任一机器人的目标追踪信息，以及各个协作机器人的目标追踪信息，确定任一机器人与各个协作机器人之间的注意力权重；

基于各个协作机器人的目标追踪信息，以及任一机器人与各个协作机器人之间的注意力权重，确定任一机器人的协作状态信息。

基于上述任一实施例，障碍状态确定单元320用于：

基于任一机器人与各个障碍物体之间的距离，将各个障碍物体的状态信息按照从远到近的顺序输入至长短期记忆神经网络中，确定任一机器人的障碍状态信息。

基于上述任一实施例，控制策略确定单元330包括：

奖励确定子单元，用于基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数；预设围捕距离为围捕成功时每一机器人与目标物体之间的距离；预设间隔距离为围捕成功时各个机器人之间的距离；

策略确定子单元，用于采用近端策略优化算法，基于每一机器人的围捕状态信息和障碍状态信息，以及每一机器人的围捕奖励函数，确定每一机器人的运动控制策略。

基于上述任一实施例，奖励确定子单元具体用于：

基于上述任一实施例，图4为本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器（Processor）410、通信接口（Communications Interface）420、存储器（Memory）430和通信总线（Communications Bus）440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑命令，以执行如下方法：

基于任一机器人的运动状态，任一机器人与目标物体之间的距离，以及任一机器人与其余各个机器人之间的距离，确定任一机器人的围捕状态信息；基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态，确定任一机器人的障碍状态信息；基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略；基于每一机器人的运动控制策略，控制各个机器人对目标物体进行围捕。

此外，上述的存储器430中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多机器人协作围捕方法，其特征在于，包括：

2.根据权利要求1所述的多机器人协作围捕方法，其特征在于，所述基于任一机器人的运动状态，所述任一机器人与目标物体之间的距离，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的围捕状态信息，包括：

3.根据权利要求2所述的多机器人协作围捕方法，其特征在于，所述基于所述任一机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的距离，确定所述任一机器人的协作状态信息，包括：

4.根据权利要求3所述的多机器人协作围捕方法，其特征在于，所述基于所述任一机器人的目标追踪信息，其余各个机器人的目标追踪信息，以及所述任一机器人与其余各个机器人之间的通信连接关系，确定所述任一机器人的协作状态信息，包括：

5.根据权利要求1至4任一项所述的多机器人协作围捕方法，其特征在于，所述基于任一机器人与各个障碍物体之间的距离，以及各个障碍物体的状态信息，确定所述任一机器人的障碍状态信息，包括：

6.根据权利要求1至4任一项所述的多机器人协作围捕方法，其特征在于，所述基于每一机器人的围捕状态信息和障碍状态信息，确定每一机器人的运动控制策略，包括：

7.根据权利要求6所述的多机器人协作围捕方法，其特征在于，所述基于每一机器人的位置，以及目标物体的位置，以及预设围捕距离和预设间隔距离，确定每一机器人的围捕奖励函数，包括：

8.一种多机器人协作围捕装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述多机器人协作围捕方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述多机器人协作围捕方法的步骤。