CN115019185A

CN115019185A - 类脑连续学习协同围捕方法、系统及介质

Info

Publication number: CN115019185A
Application number: CN202210924583.1A
Authority: CN
Inventors: 胡滨; 李圳萍
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-09-06
Anticipated expiration: 2042-08-03
Also published as: CN115019185B

Abstract

本发明公开了一种类脑连续学习协同围捕方法、系统及介质，属于类脑智能与机器人领域，方法包括：获取相机拍摄的图像数据并识别图像数据中的其它智能体，将识别到的其它智能体划分为其它围捕智能体和猎物智能体；对于每一其它智能体，为其在图像数据中对应区域的各像素赋予设定值，根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角；获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离，根据第二距离更新当前的避障测度；将第一距离、方位角以及当前的避障测度输入MADDPG模型，得到相应的动作策略以控制围捕智能体。提高智能体的决策避障能力，增加障碍环境下围捕效率。

Description

类脑连续学习协同围捕方法、系统及介质

技术领域

本发明属于类脑智能与机器人领域，更具体地，涉及一种类脑连续学习协同围捕方法、系统及介质。

背景技术

为实现机器人协同围捕，机器人设备终端通常配有多种传感器和控制器，传感器采集环境状态信息，控制器处理各类传感信息并给出运动控制命令。然而，复杂障碍环境下，传感器信息输入不完全，机器人的感知、决策和控制过程分散，难以支撑机器人围捕所需的连续学习能力，导致围捕效率低下。

许多基于网络一致性的控制方法被提出，以解决确定环境下多智能体跟踪围捕问题。然而，这些方法大多依赖确定的环境信息，并且假定捕食机器人能直接获取猎物目标的位置、速度及转向等信息，这在猎物相对灵活，如具有逃逸能力时是难以执行的，因此难适用于障碍环境围捕。基于多智能体强化学习的围捕方法一定程度上解决了上述逃逸猎物跟踪难、围捕难等问题。然而，大多强化学习围捕方法存在障碍环境下感知决策不完全、围捕成功率不高等缺陷。如何构建基于类脑连续学习的、实现感知、决策与控制一体化的围捕方法，对提升障碍环境围捕效率具有重要意义。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种类脑连续学习协同围捕方法、系统及介质，其目的在于解决现有协同控制围捕方法依赖确定的环境状态信息的局限，导致障碍环境下围捕效率低的问题。

为实现上述目的，按照本发明的一个方面，提供了一种类脑连续学习协同围捕方法，用于围捕智能体，所述围捕智能体配置有相机和多个超声波传感器，方法包括：获取相机拍摄的图像数据并识别所述图像数据中的其它智能体，将识别到的其它智能体划分为其它围捕智能体和猎物智能体；对于每一其它智能体，为其在图像数据中对应区域的各像素赋予设定值，根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角；获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离，并在任一超声波传感器探测到的第二距离小于距离阈值，或者，所有超声波传感器探测到的第二距离均不小于距离阈值时，更新当前的避障测度；将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型，得到相应的动作策略，并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。

更进一步地，所有超声波传感器探测到的第二距离均不小于距离阈值时，更新后的避障测度为0；任一超声波传感器探测到的第二距离小于距离阈值时，更新后的避障测度为：

其中，

为更新后的避障测度，

为更新前的避障测度，

为与奖励函数相适配的系数，

为第二距离，

为距离阈值。

更进一步地，所述第一距离与值为设定值的所有像素的个数负相关。

更进一步地，所述MADDPG模型采用Actor-Critic框架，方法还包括：采用基于多个不同子策略的训练方法，以整体目标函数关于各子策略的策略参数的梯度收敛为目标，训练所述MADDPG模型。

更进一步地，整体目标函数关于第

个子策略的策略参数的梯度为：

其中，

为第

个子策略的策略参数，

，

为子策略的总个数，

为整体目标函数，

为各子策略集成的连续策略，

为

关于

的梯度，

为状态空间，

为动作空间，

为第

个子策略的经验池，

为满足

状态-动作对条件的奖励函数期望，

为第

个子策略，

为状态信息，

为状态信息

确定的情况下

选择动作

的概率，

为

关于

的梯度；

为连续策略

下的中心化动作价值函数，其输入为

，

表示识别到的其它智能体的动作；

为以

为输入时子策略

输出的动作，

为

关于

的梯度。

更进一步地，所述动作策略包括：前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止，所述第一角度小于所述第二角度。

更进一步地，所述MADDPG模型的奖励策略为：当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时，基础奖励值加h；当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时，基础奖励值加n*h；当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时，M个围捕智能体的基础奖励值均加M*h*h；当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时，基础奖励值减n′*h；其中，h为正整数，n和n′均为小于h的正整数，M≥1。

更进一步地，所述MADDPG模型的奖励函数的最终奖励值为：

其中，

为最终奖励值，

为所述基础奖励值，

为更新后的避障测度。

按照本发明的另一个方面，提供了一种类脑连续学习协同围捕系统，包括多个围捕智能体，每一围捕智能体执行如上所述的类脑连续学习协同围捕方法。

按照本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的类脑连续学习协同围捕方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：提出一种类脑连续学习协同围捕方法，为围捕智能体配置相机和多个超声波传感器，通过相机图像感知视野内其它智能体的位置，通过超声波传感器实时更新避障测度，并结合多通道感知机制和强化学习算法，使得围捕智能体具备类脑多通道感知优势，能够完整实时地识别环境状态；通过感知-决策-控制过程的融合，使得围捕智能体能够凭借相机图像数据和超声波测距数据，在状态空间完成对猎物和障碍物的识别、策略优化以及运动控制等一系列过程，提高了智能体的决策避障能力，增加了障碍环境下的围捕效率，适用于用来制备具有自适应于复杂环境、混合协作（兼具合作协同与竞争躲避）等能力的智能机器人系统。

附图说明

图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。

图2为本发明实施例提供的多机器人协同围捕系统的感知-决策-控制一体化框架。

图3为本发明实施例提供的类脑多通道融合环境感知和类脑连续学习的过程图。

图4为本发明实施例提供的利用MADDPG模型生成动作策略的过程图。

图5A、图5B分别为本发明实施例提供的多机器人协同围捕仿真环境、智能体原型。

图6A、图6B、图6C分别为图5所示仿真环境中三个围捕智能体学习到的动作策略。

图7A、图7B、图7C分别为图5所示仿真环境在场景一中的围捕结束位置、运动轨迹、包围圈。

图8A、图8B、图8C分别为图5所示仿真环境在场景二中的围捕结束位置、运动轨迹、包围圈。

图9A、图9B、图9C分别为图5所示仿真环境在场景三中的围捕结束位置、运动轨迹、包围圈。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。参阅图1，结合图2-图9C，对本实施例中类脑连续学习协同围捕方法进行详细说明。

类脑连续学习协同围捕方法的应用场景如图5A所示，用于多个围捕智能体围捕猎物智能体的场景。以图5A所示应用场景为例，初始围捕场景是将正方形围捕区域分为四个部分，随机生成四组位置坐标及朝向角度，分配给三个围捕智能体和一个猎物智能体（如机器人）。每一围捕智能体中配置有相机和多个超声波传感器，如图5B所示。优选地，各智能体车身前方设置多个（如8个）超声波传感器，除此之外，围捕智能体正前方设置一个相机，在各智能体的机身分别配置不同颜色的柱体以进行区分。该类脑连续学习协同围捕方法用于任一围捕智能体，为其构建的感知-决策-控制一体化框架如图2所示，整体执行过程如图3所示，方法包括操作S1-操作S4。

操作S1，获取相机拍摄的图像数据并识别图像数据中的其它智能体，将识别到的其它智能体划分为其它围捕智能体和猎物智能体。

通过相机和超声波传感器耦合，构成类脑多通道融合感知。每个围捕智能体配置有一个相机和多个超声波传感器，可以有效感知环境。围捕智能体例如为智能车等设备。基于相机采集的图像数据，设计目标识别网络识别同伴机器人（即其它围捕智能体）及围捕目标（即猎物智能体），获取其方位信息和距离信息；基于超声波传感器的测距数据，设计避障紧急性测度，进行避障设置；基于图像数据的方位信息和距离信息，以及基于超声波传感器的避障信息，在围捕智能体的状态空间进行融合。

本实施例中，例如在各围捕智能体的机身分别配置不同颜色的柱体以进行区分，操作S1中，获取到相机拍摄的图像数据后，识别图像数据中存在的其它智能体（即围捕智能体视野范围内的其它智能体），并根据颜色不同将识别到的其它智能体划分为其它围捕智能体和猎物智能体。需要说明的是，某一时刻，围捕智能体视野范围内可能不存在其它智能体，或者仅存在某一种其它智能体。也可以采用其它方式如卷积神经网络，识别图像数据中的其它智能体并将识别到的其它智能体划分为其它围捕智能体和猎物智能体。

操作S2，对于每一其它智能体，为其在图像数据中对应区域的各像素赋予设定值，根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角。

以由N个围捕智能体和1个猎物智能体形成的实际围捕场景为例，N为不小于3的正整数，对于任一围捕智能体而言，其从相机的图像数据和超声波传感器的测距数据中提取环境状态变量，构建其它各围捕智能体和猎物智能体的观察空间。对于相机的图像数据而言，构建目标识别器以分类不同智能体，并衡量其它各智能体在该围捕智能体自身视野中的距离远近和角度偏向。

对于图像数据中不存在的其它围捕智能体或猎物智能体，相应的状态量例如赋值为-1。对于图像中存在的其它智能体，假设图像数据的像素大小为[128，256]，为RGB图像，对于每一其它智能体，为其在图像数据中对应区域的各像素赋予设定值，设定值例如为255，根据值为255的像素的个数确定该其它智能体相对于围捕智能体的第一距离，根据值为255的像素的中心列位置分别确定其它智能体相对于围捕智能体的方位角。

根据本发明的实施例，第一距离与值为设定值的所有像素的个数负相关，值为设定值的所有像素的个数越大，第一距离越小。具体地，对于图像中存在的其它智能体，例如将其值为255的像素的个数除以5000作为第一距离的衡量，比值越大，第一距离越小。另外，对于任一其它智能体而言，可以获得值为255的像素的行列位置，其中心列位置相当于该颜色其它智能体在视野中的方位。由此，获得其它智能体的2N个状态量。

操作S3，获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离，并在任一超声波传感器探测到的第二距离小于距离阈值，或者，所有超声波传感器探测到的第二距离均不小于距离阈值时，更新当前的避障测度。

对于超声波测距数据，可以直接采用距离函数进行避障。超声波传感器例如通过距离函数可以直接获取其所在围捕智能体的前方有无障碍物的判断标志，以及到障碍物的最近距离。

优选地，操作S3中，循环读取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离，只有当探测距离小于距离阈值时才考虑避障。避障测度越小，意味着围捕智能体离障碍物越近，越需要改变方向进行避障。

根据本发明的实施例，避障测度的具体更新方式为：当所有超声波传感器探测到的第二距离均不小于距离阈值时，将避障测度更新为0；当任一超声波传感器探测到的第二距离小于距离阈值时，将避障测度更新为：

其中，

为更新后的避障测度，

为更新前的避障测度，

为与奖励函数相适配的系数，

为第二距离，

为距离阈值。该避障测度为围捕智能体获得的第2N+1个状态量。基于上述操作S1-操作S3，每个围捕智能体的状态空间为2N+1维，前2N维为围捕智能体到其它智能体的距离和方位，最后一维为围捕智能体避障紧急性测度。

操作S4，将各其它智能体相对于围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型，得到相应的动作策略，并根据动作策略控制围捕智能体动作以围捕猎物智能体。

围捕智能体的动作策略由上述基于多通道感知的类脑连续学习到的状态空间计算得到。具体地，围捕智能体将获得的2N+1个状态量输入训练好的MADDPG模型，输出相应的动作策略。根据本发明的实施例，MADDPG模型采用Actor-Critic框架，在执行围捕任务之前，需要对MADDPG模型进行训练，具体地：采用基于多个不同子策略的训练方法，以整体目标函数关于各子策略的策略参数的梯度收敛为目标，训练MADDPG模型。MADDPG模型的训练过程如图4所示。

本实施例中，结合避障行为构建动作空间，形成动作策略。根据本发明的实施例，动作策略包括：前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止，构成智能体的六维动作空间，第一角度小于第二角度。需要说明的是，智能体的前进动作不是单纯往前走，而是包含避障行为的动作，即，当离障碍物很近时，智能体进行该动作会产生避障效果，当检测不到障碍物时，智能体进行该动作会产生前进效果。优选地，第一角度例如为30º，第二角度例如为50 º。

本实施例中，综合动作策略和避障测度为MADDPG模型设置奖励函数。一方面，在围捕过程中设置许多小额度奖励，引导围捕智能体移动并寻找猎物智能体。基于此，为MADDPG模型设计的奖励策略为：当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时，基础奖励值加h；当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时，基础奖励值加n*h；当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时，M个围捕智能体的基础奖励值均加M*h*h；当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时，基础奖励值减n′*h；其中，h为正整数，n和n′均为小于h的正整数，M≥1。

具体地，例如当围捕智能体的视野中出现猎物智能体，且选择前进策略时，基础奖励值加10；当猎物智能体在围捕智能体视野中偏左，且围捕智能体选择左转策略，基础奖励值加10；当猎物智能体在围捕智能体视野中偏右，且围捕智能体选择右转策略，基础奖励值加10；当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时，基础奖励值加8*10；当猎物智能体在M（M=1,2,…,N）个围捕智能体视野中心位置，且距离均不超过距离阈值时，这M个围捕智能体的基础奖励值均加M*h*h，如果M=N，围捕成功；如果猎物智能体不在围捕智能体视野中，且围捕智能体执行动作策略后视野中仍没有猎物智能体时，基础奖励值减2*10，作为惩罚。

另一方面，考虑障碍物情况，每一步动作后，围捕智能体的奖励在上述基础奖惩策略基础上，加上避障测度。为了匹配上述基础奖励值，一般采用避障测度*10的形式，由此，为MADDPG模型的奖励函数的最终奖励值为：

其中，

为最终奖励值，

为基础奖励值，

为更新后的避障测度。

对于MADDPG模型中的Action网络，当前状态

下，围捕智能体i根据决策（即动作策略）

选择行为

，环境生成一个奖励

反馈给围捕智能体i，同时根据状态转移函数生成下一个状态

。每一个围捕智能体i的更新目标是最大化耦合累计奖励

，其中，

为折扣因子，

为回合步长，奖励

为上述最终奖励值计算方式得到的。围捕智能体i期望回报

的梯度为：

其中，

表示期望算子，

为一个集中式动作价值函数，输入包含一些状态信息

和智能体的动作

，输出为围捕智能体i的

值，其中，

可由所有智能体的观察状态组成。

对于MADDPG模型中的Critic网络，将上述梯度构造法与确定性策略结合，设置N个连续的策略

，回报梯度为：

其中，经验池D包含元组

，记录所有智能体的经验数据。通过最小化误差函数

，学习获得集中式动作价值函数

：

其中，

表示带有滞后参数

的目标策略集合。

为实现信息交互，每个围捕智能体i保留对邻居围捕智能体j的真实策略

的估计，记为估计

，其中

是

待估计的参数。这个估计策略是通过最大化下列目标函数

得到，

由围捕智能体j行为的对数概率和熵正则项构成：

其中，

是策略分布的交叉熵函数。再使用下列估计值

替代之前的

：

其中，

表示估计策略

的目标网络。根据上述

的表达式，可以在线优化

，即从经验池获得智能体j的最新采样信息，用于计算梯度来更新

，

值由每一个智能体的行为对数概率直接输入得到，无需依赖采样获得。

为克服竞争智能体策略变化的影响，使用基于

个不同子策略的训练方法，增加智能体的鲁棒性。在每一个回合中，智能体i随机选取一个特定的子策略去执行。假设策略

由

个不同子策略组成，记作

。智能体i学习的目标是最大化下列整体目标函数：

因为不同的子策略会在不同的回合中执行，需要为智能体i的每一个子策略

保留一个经验池

。整体目标函数关于

的梯度计算如下：

对于本发明实施例中用于任一围捕智能体的类脑连续学习协同围捕方法而言，其 MADDPG模型整体目标函数关于第

个子策略的策略参数的梯度为：

其中，

为第

个子策略的策略参数，

，

为子策略的总个数，

为整体目标函数，

为各子策略集成的连续策略，

为

关于

的梯度，

为状态空间，

为动作空间，

为第

个子策略的经验池，

为满足

状态-动作对条件的奖励函数期望，

为第

个子策略，

为状态信息，

为状态信息

确定的情况下

选择动作

的概率，

为

关于

的梯度；

为连续策略

下的中心化动作价值函数，其输入为

，

表示识别到的其它智能体的动作；

为以

为输入时子策略

输出的动作，

为

关于

的梯度。

本实施例中，例如采用Paddle/PARL/MADDPG框架实现。训练模型中，假定三个围捕智能体的速度相等，且与猎物智能体的速度相同，训练实验含4500个回合，每个回合步数为25步。MADDPG算法训练相关参数为：critic模型的学习率critic_lr = 0.01；actor模型的学习率actor_lr=0.01；奖励折扣因子gamma=0.95、batch_size=128；一个回合的最大步数为25，每一步的仿真时间为1s。另外，训练用到贪心算法（epsilon-greedy），参数设置为epsilon=0.8。当随机数小于epsilon时，根据决策网络输出的概率分布采样动作；否则，等概率采样动作，增加智能体的探索性。

本实施例中，采用MADDPG算法中的Actor-Critic框架和集中训练-分散执行的模式，每个智能体设置集中式Critic网络，用于接受全局信息。其优点是无需建立现实通信规则，能够解决环境非平稳性问题，且算法容易收敛至全局最优解，适用于有限场景下多智能体协同围捕任务。

图6A、图6B、图6C分别示出了通过本实施例中类脑连续学习协同围捕方法，三个围捕智能体获得的最优动作策略。参阅图6A，围捕智能体1学习到的动作策略为：当视野中没有猎物智能体时，执行第一角度右转动作，当视野中出现猎物智能体时，执行前进动作。参阅图6B，围捕智能体2学习到的动作策略则是几乎一直执行第一角度左转动作。参阅图6C，围捕智能体3学习到的动作策略是：当视野中没有猎物智能体时，执行第二角度右转动作，当视野中出现猎物智能体时，执行前进动作。测试仿真运行50个回合，围捕智能体1的平均奖励为-63.23251736，围捕智能体2的平均奖励为-380.0931714，围捕智能体3的平均奖励为33.20684717，总奖励平均值为-410.1188416，可见围捕智能体3的策略相对更优。

场景一：围捕智能体速度为猎物智能体速度的3倍，且猎物智能体运行策略为直行不避障，此测试场景记为3speed_forward。采用本发明实施例中类脑连续学习协同围捕方法，围捕成功率约为90%。实验50个回合，每个回合平均步数为23.22。某次围捕成功时四个智能体的结束位置和运动轨迹如图7A和图7B所示；将每次围捕成功智能体的结束位置画在一起，如图7C所示，三个围捕智能体近似分布在以猎物智能体为中心、半径不超过1.0m的圆周以内，形成了一个包围圈。

场景二：围捕智能体速度为猎物智能体速度的3倍，但猎物智能体更灵活，其运行策略为直行且能避障，此测试场景记为3speed_ actuation。采用本发明实施例中类脑连续学习协同围捕方法，实验50个回合，围捕成功率约为78%。某次围捕成功时四个智能体的结束位置和运动轨迹如图8A和图8B所示；将每次围捕成功智能体的结束位置画在一起，如图8C所示，可见围捕成功。相比场景一，猎物智能体更具灵活性，可以自主躲避，增加了围捕难度，导致围捕成功率变低。

场景三：围捕智能体速度为猎物智能体速度的2倍，猎物智能体运行策略为直行，此测试场景记为2speed_forward。采用本发明实施例中类脑连续学习协同围捕方法，同样实验50个回合，围捕成功率约为50%。某次围捕成功时四个智能体的结束位置和运动轨迹如图9A和图9B所示；将每次围捕成功智能体的结束位置画在一起，如图9C所示，可见围捕成功。但相比场景一，由于围捕智能体速度变慢，围捕成功率变低。

综合上述实验结果可见，猎物智能体的动作策略越“智能”，如能自主避障，或围捕智能体的速度越慢，都会导致围捕成功率降低，这些现象与人类的先验知识相符。另外，三个包围圈示意图表明，不同场景围捕成功时，围捕智能体的结束位置都在以猎物智能体为中心的特定圆周内，验证了本实施例中类脑连续学习协同围捕方法的合理性，及其在不同场景下的可扩展性。

本发明实施例还提供了一种类脑连续学习协同围捕系统，包括多个围捕智能体。每个围捕智能体执行如图1-图9C所示的类脑连续学习协同围捕方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序。该程序被处理器执行时实现如图1-图9C所示的类脑连续学习协同围捕方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种类脑连续学习协同围捕方法，用于围捕智能体，其特征在于，所述围捕智能体配置有相机和多个超声波传感器，方法包括：

获取相机拍摄的图像数据并识别所述图像数据中的其它智能体，将识别到的其它智能体划分为其它围捕智能体和猎物智能体；

对于每一其它智能体，为其在图像数据中对应区域的各像素赋予设定值，根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角；

获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离，并在任一超声波传感器探测到的第二距离小于距离阈值，或者，所有超声波传感器探测到的第二距离均不小于距离阈值时，更新当前的避障测度；

将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型，得到相应的动作策略，并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。

2.如权利要求1所述的类脑连续学习协同围捕方法，其特征在于，所有超声波传感器探测到的第二距离均不小于距离阈值时，更新后的避障测度为0；任一超声波传感器探测到的第二距离小于距离阈值时，更新后的避障测度为：

其中，

为更新后的避障测度，

为更新前的避障测度，

为与奖励函数相适配的系数，

为第二距离，

为距离阈值。

3.如权利要求1所述的类脑连续学习协同围捕方法，其特征在于，所述第一距离与值为设定值的所有像素的个数负相关。

4.如权利要求1所述的类脑连续学习协同围捕方法，其特征在于，所述MADDPG模型采用Actor-Critic框架，方法还包括：采用基于多个不同子策略的训练方法，以整体目标函数关于各子策略的策略参数的梯度收敛为目标，训练所述MADDPG模型。

5.如权利要求4所述的类脑连续学习协同围捕方法，其特征在于，整体目标函数关于第

个子策略的策略参数的梯度为：

其中，

为第

个子策略的策略参数，

，

为子策略的总个数，

为整体目标函数，

为各子策略集成的连续策略，

为

关于

的梯度，

为状态空间，

为动作空间，

为第

个子策略的经验池，

为满足

状态-动作对条件的奖励函数期望，

为第

个子策略，

为状态信息，

为状态信息

确定的情况下

选择动作

的概率，

为

关于

的梯度；

为连续策略

下的中心化动作价值函数，其输入为

，

表示识别到的其它智能体的动作；

为以

为输入时子策略

输出的动作，

为

关于

的梯度。

6.如权利要求1所述的类脑连续学习协同围捕方法，其特征在于，所述动作策略包括：前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止，所述第一角度小于所述第二角度。

7.如权利要求1-6任一项所述的类脑连续学习协同围捕方法，其特征在于，所述MADDPG模型的奖励策略为：当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时，基础奖励值加h；当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时，基础奖励值加n*h；当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时，M个围捕智能体的基础奖励值均加M*h*h；当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时，基础奖励值减n′*h；其中，h为正整数，n和n′均为小于h的正整数，M≥1。

8.如权利要求7所述的类脑连续学习协同围捕方法，其特征在于，所述MADDPG模型的奖励函数的最终奖励值为：

其中，

为最终奖励值，

为所述基础奖励值，

为更新后的避障测度。

9.一种类脑连续学习协同围捕系统，包括多个围捕智能体，其特征在于，每一围捕智能体执行如权利要求1-8任一项所述的类脑连续学习协同围捕方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一项所述的类脑连续学习协同围捕方法。