CN110442129A

CN110442129A - 一种多智能体编队的控制方法和系统

Info

Publication number: CN110442129A
Application number: CN201910682131.5A
Authority: CN
Inventors: 李勇刚; 石雄涛; 朱红求; 周灿; 李繁飙; 阳春华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-12
Anticipated expiration: 2039-07-26
Also published as: CN110442129B

Abstract

本发明公开了一种多智能体编队的控制方法和系统，在获取多智能体中各个智能体的历史状态数据和历史动作数据，并通过DDPG算法构建能较好的跟环境交互，具有自学习功能，适应不确定系统的动态特性的编队优化模型，利用编队优化模型中获得对各个智能体的最优控制力，并根据所述各个智能体的最优控制力实现对所述多智能体的优化编队，相比起现有技术而言，本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性，在不同的实际场景下实现更精确编队。

Description

一种多智能体编队的控制方法和系统

技术领域

本发明属于智能体编队控制领域，尤其涉及一种多智能体编队的控制方法和系统。

背景技术

多智能体控制是人们效仿自然界中群体现象而提出的问题。例如生物界昆虫、鸟和鱼群等协作捕食。共同抵御入侵者等行为，都显示出某种群体特质。随着嵌入式计算和通信能力的提高，以及分布式思想的发展，人们开始意识到多智能体系统的合作能够以更小的代价完成更复杂的任务。相比于单个智能体，多智能体系统，尤其是分布式多智能体系统，具有很多明显的优点。

编队控制是当前多智能体系统研究的热点问题，它指多个智能体组成的团队在向某个特定的目标运动的过程中，既要保持预定的几何队形，同时又要避开障碍。一般而言，编队控制借助智能体的局部邻居智能体信息实现多智能体系统的群体行为，从而解决全局性的任务。编队控制在军事、航天、工业等各个领域具有广阔的应用前景。在众多的实际应用场景中，比如卫星导航、机器人控制、搜索救援，多智能体的编队和跟踪控制是实现典型任务的必要技术。

传统的多智能体编队控制方法需要精确的环境模型，但由于环境的模型未知性、不精确性、非线性、复杂性，时变性等特征，造成现有的多智能体编队控制方法并不能对多智能体进行精确编队，从而导致智能体邻居数量改变造成的状态维度改变。

因此，亟需一种新的多智能体编队控制方法来解决现有的多智能体不能进行精确编队的技术问题。

发明内容

本发明提供了一种多智能体编队的控制方法和系统，获取多智能体中各个智能体的历史状态数据和历史动作数据，并通过DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)算法构建编队优化模型，从而解决现有的多智能体不能进行精确编队的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种多智能体编队的控制方法，包括以下步骤，

获取多智能体中各个智能体的历史状态数据和历史动作数据；

通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量，以各个智能体的最优动作数据为输出量的编队优化模型；

获取待编队的多智能体的实时状态数据，并输入所述编队优化模型中求解获得各个智能体的最优动作数据；

根据所述各个智能体的最优动作数据对所述多智能体进行优化编队。

优选的，所述状态数据包括各个智能体的目标点和测量点的位置偏差数据及速度偏差数据；

所述动作数据包括对各个智能体的控制力数据，其中所述控制力数据包括导航控制力数据和编队控制力数据；

优选的，所述控制力数据计算公式如下：

其中，k_α，k_γ分别为编队控制力参数和导航控制力参数，且k_γ＜＜k_α、是编队控制力、是导航控制力。

优选的，所述目标点包括导航目标点和编队目标点，获取所述目标点和测量点之间的位置偏差数据和速度偏差数据，包括，

获取多智能体中各个智能体的位置数据、速度数据以及各个智能体间的连接强度数据，确定多智能体编队的目标半径，并通过目标点位置偏差计算公式和目标点速度偏差计算公式计算各个智能体的目标点和测量点之间的位置偏差数据和速度偏差数据；

其中，所述位置偏差数据计算公式为：

q_{error，i，γ}＝q_r-q_i；

其中，所述目标点速度偏差数据计算公式为：

p_{error，i，y}＝p_r-p_i；

其中，q代表位置，p代表速度，i代表第i个智能体，j代表第j个智能体，代表

智能体i的邻居集合数据，a_ij(q)代表智能体i和j之间的连接强度数据，c代表多智能

体编队的目标半径数据，q_r代表导航目标点位置数据，p_r代表导航目标点速度，q_{error，i，γ}代

表智能体i和导航目标点之间的位置偏差数据，p_{error，i，γ}代表智能体i和导航目标点之间的速度偏差数据，q_{error，i，α}代表智能体i和编队目标点之间的位置偏差数据，p_{error，i，α}代表智能体i和编队目标点之间的速度偏差数据。

优选的，构建编队优化模型，包括以下步骤：

构建actor、critic、target actor和target critic网络；其中，所述actor网络以状态数据为输入量，通过动作网络函数计算出输入的状态数据所对应的动作数据作为输出量；所述critic以状态数据以及以该状态数据下的动作数据为输入量，并通过价值网络函数计算出在该状态数据下的动作数据下的评价值作为输出量；

构建仿真环境，所述仿真环境以动作数据作为输入量，通过回报值函数计算所述动作数据的回报值作为输出量；

构建actor、critic、target actor和target critic网络的更新算法；

设置actor、critic、target actor和target critic网络的探索学习策略；

获取所述历史状态数据和历史动作数据，并利用target actor和target critic网络、所述actor、critic、target actor和target critic网络的更新算法以及探索学习策略多次训练actor和critic网络，选取最优actor和critic网络作为编队优化模型。

优选的，所述回报值函数为：

其中，r_q，r_p，r_u分别为位置偏差参数、速度偏差参数以及控制力输出参数、q_error是位置偏差、p_error是速度偏差、u是控制力输出，q_max为设定的最大位置偏差的范围，p_max为设定的最大速度偏差的范围，u_max为设定的最大控制力输出的范围。

优选的，通过Loss函数计算损失率L，并根据最小损失率来更新critic网络；通过计算梯度来更新actor网络；

所述损失率L的Loss函数为：

所述梯度计算公式为：

其中，L代表损失率，N代表随机抽取历史数据[s_t，a_t，r_t，s_t+1]进行更新的个数，i为迭代变量，γ代表折扣率，s_i代表第i个智能体的状态，a_i代表在在第i个智能体的状态数据s_i下计算出来的第i个智能体的动作数据，s_i+1代表当执行动作数据a_i后状态数据由s_i转移s_i+1，r_i代表在s_i状态数据下，采取动作数据a_i对应的回报值，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，其中，代表计算出来的梯度，θ^μ代表代表动作网络的网络参数，μ代表动作网络函数，s_i代表第i个状态，N代表随机抽取历史数据[s_i,a_i,r_i,s_i+1]进行更新的个数，a代表动作数据，θ^Q代表价值网络参数，Q(s，a|θ^Q)代表价值网络函数，是对于评价函数的梯度，是对于动作函数的梯度。

优选的，所述target critic网络的更新算法为：

θ^0′＝τθ⁰+(1-τ)θ^Q′

所述target actor网络的更新算法为：

θ^μ′＝τθ^μ+(1-τ)θ^μ′

其中τ＝0.001，θ^Q′代表目标价值网络参数，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，θ^μ代表动作网络参数。

优选的，所述actor、critic、target actor和target critic网络的探索学习策略为中心训练边缘执行策略；所述中心训练边缘执行策略包括：

获取所有智能体的所述历史状态数据和历史动作数据来训练actor和critic网络模型，进而获取到编队优化模型；

将获取到的各个智能体的实施状态数据输入所述优化编队模型获取到各个智能体的最优动作数据，并分发给各个智能体；

各个智能体根据各自接收的最优动作数据来进行优化编队。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

本发明具有以下有益效果：

1、本发明中在获取多智能体中各个智能体的历史状态数据和历史动作数据，并通过DDPG算法构建能较好的跟环境交互，具有自学习功能，适应不确定系统的动态特性的编队优化模型，通过将各个智能体的实时状态数据输入编队优化模型来获得对各个智能体的最优动作数据，并根据所述各个智能体的最优动作数据实现对所述多智能体的优化编队，相比起现有技术而言，本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性，在不同的实际场景下实现更精确编队。

2、在优选方案中，本发明中选取了对各个智能体的导航控制力数据和编队控制力数据作为训练模型的动作数据和输出数据，从而将DDPG算法更好的利用在多智能体编队领域，解决现有技术中由于直接使用DDPG算法而产生的智能体邻居数量改变所造成的状态维度改变的技术问题。

3、在优选方案中，本发明中采用中心训练边缘执行策略训练模型，能加快训练模型的学习速度。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的因运动导致邻居变化，从而状态维度变化示意图；

图2为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的目标点计算示意图；

图3为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的DDPG迭代学习结构图；

图4为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的中心训练、边缘执行框架图，其中S表示状态数据,A表示动作数据，图中的训练数据接收单元和actor参数接收单元为无线接收单元，actor参数发送单元和和训练数据发送单元为无线发送单元，所述接收和发送单元用于负责在智能体之间和训练中心之间传送数据；

图5为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法和传统算法的对比结果图；

图6为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法和传统算法的对比结果图；

图7为根据本发明实施例中一种用于多智能体编队的无模型自适应学习型分布式控制算法的最终编队控制效果图；

图8为k_α，k_γ是导航控制力参数和编队控制力参数调整编队的示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

注意：本发明中的动作数据包括历史动作数据和实时动作数据，所述状态数据包括历史状态数据和实时状态数据。

在本发明中actor网络指的是DDPG算法中的动作网络、critic网络指的是策略网络、target actor网络指的是目标动作网络和target critic网络指的是目标策略网络。

实施例一：

如图1所示，现有的用于多智能体编队的无模型自适应学习型分布式控制算法常常会因智能体的运动到新环境而无法适应新的环境，造成智能体邻居变化，从而状态维度变化。

因此，为了解决现有的用于多智能体编队的无模型自适应学习型分布式控制算法无法适应新的环境的技术问题，本发明公开了一种多智能体编队的控制方法，包括以下步骤，

此外，本发明还公开了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

本发明中多智能体编队的控制方法和系统，在获取多智能体中各个智能体的历史状态数据和历史动作数据，并通过DDPG算法构建能较好的跟环境交互，具有自学习功能，适应不确定系统的动态特性的编队优化模型，利用编队优化模型中获得对各个智能体的最优动作数据，并根据所述各个智能体的最优动作数据实现对所述多智能体的优化编队。

本发明中多智能体编队的控制方法和系统相比起现有技术而言，本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性，在不同的实际场景下实现更精确编队。

实施例二：

实施例二为实施例一的拓展实施例，其不同之处在于，对如何获取历史状态数据以及如何通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量，各个智能体的控制力为输出量的编队优化模型进行细化；

其中，获取历史状态数据包括：

如图2所示，在本实施例中状态数据包括各个智能体的目标点和测量点的位置偏差数据、速度偏差数据；所述目标点包括导航目标点和编队目标点，获取所述目标点和测量点之间的位置偏差数据和速度偏差数据，包括，

获取多智能体中各个智能体的位置数据、速度数据以及各个智能体间的连接强度数据，确定多智能体编队的目标半径数据，并通过目标点位置偏差计算公式和目标点速度偏差计算公式计算各个智能体的目标点和测量点之间的位置偏差数据和速度偏差数据；

其中，所述位置偏差计算公式为：

q_{error，i，γ}＝q_r-q_i；

其中，所述目标点速度偏差计算公式为：

p_{error，i，y}＝p_r-p_i；

其中，q代表位置，p代表速度，i代表第i个智能体，j代表第j个智能体，代表智能体i的邻居集合，a_ij(q)代表智能体i和j之间的连接强度数据，c代表多智能体编队的目标半径数据，q_r代表导航目标点位置数据，p_r代表导航目标点速度数据，q_{error，i，γ}代表智能体i和导航目标点之间的位置偏差数据，p_{error，i，γ}代表智能体i和导航目标点之间的速度偏差数据，q_{error，i，α}代表智能体i和编队目标点之间的位置偏差数据，p_{error，i，α}代表智能体i和编队目标点之间的速度偏差数据。

通过所述历史状态数据和历史动作数据通过DDPG算法构建以各个智能体的状态数据为输入量，各个智能体的控制力为输出量的编队优化模型，包括：

本实施例中动作数据包括对各个智能体的控制力数据，其中所述控制力数据包括导航控制力数据和编队控制力数据；

所述控制力数据输出公式如下：

其中k_α，k_γ是调整导航控制力参数和编队控制力参数，且k_γ＜＜k_α、是编队控制力数据、是导航控制力数据；其中k_α，k_γ分别为0.275,0.05，参数均是通过实验和经验调整得到，编队控制力参数k_α负责某一个智能体与周围的智能体形成编队，导航控制力参数k_γ是一个整体的目标，让所有的智能体聚集到一块。没有k_γ会使得形成的编队是分散的，如图8的左面。但是如果k_γ太大，会导致所有的智能体都聚集在一起，不能形成编队。所以k_γ需要有一个比较小的值，从而不影响编队的形状，如图8的右面。

构建编队优化模型包括，

选取评价指标构建回报值函数，并构建仿真环境，所述仿真环境以动作a_i作为输入量，以所述动作a_i所处的状态、执行动作a_i后状态s_i的转移状态s_i+1以及该动作a_i的回报值r_i作为输出量；其中，所述回报值函数为：

其中，r_q，r_p，r_u分别为位置偏差参数、速度偏差参数以及控制力输出参数，r_q，r_p，r_u分别为-10.0，-1.0，-2.0，参数均是通过实验和经验调整得到。q_error是位置偏差、p_error是速度偏差、u是控制力输出；q_max、p_max以及u_max根据强化学习调参经验，对回报函数进行归一化会有利于训练，所以q_max为设定的最大偏差q_error的范围，目的就是对q_error部分进行归一化。p_max是对p_error归一化。u_max是对u归一化。

构建历史经验存储缓冲区；所述历史经验存储缓冲区用于存储转换历史数据

构建actor、critic、target actor、target critic网络的更新算法；

其中，通过损失率公式计算损失率，并通过最小化损失率L来更新critic网络，通过计算梯度实现更新actor网络；

所述损失率Loss计算公式为：

所述梯度计算公式为：

其中，L代表损失率，N代表随机抽取历史数据[s_t，a_t，r_t，s_t+1]进行更新的个数，i为迭代变量，γ代表折扣率，s_i代表第i个智能体的状态，a_i代表在在第i个智能体的状态数据s_i下计算出来的第i个智能体的动作数据，s_i+1代表当执行动作数据a_i后状态数据由s_i转移s_i+1，r_i代表在s_i状态数据下，采取动作数据a_i对应的回报值，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数。其中，代表计算出来的梯度，θ^μ代表代表动作网络的网络参数，μ代表动作网络函数，s_i代表第i个状态，N代表随机抽取历史数据[s_t，a_t，r_t，s_t+1]进行更新的个数，a代表动作数据，θ^Q代表价值网络参数，Q(s，a|θ^Q)代表价值网络函数，是对于评价函数的梯度，是对于动作函数的梯度。

所述target critic网络的更新算法为：

θ^0′＝τθ⁰+(1-τ)θ^Q′

所述target actor网络的更新算法为：

θ^μ′＝τθ^μ+(1-τ)θ^μ′

其中τ＝0.001，τ为更新率，τ＜＜1，由此构建一个收敛的神经网络；θ^Q′代表目标价值网络参数，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，θ^μ代表动作网络参数，通过这种软更新的方式，使得网络参数不能突变，增加算法的稳定性。

获取所述历史状态数据和历史动作数据，并利用target actor和target critic网络、所述actor、critic、target actor和target critic网络的更新算法以及探索学习策略多次训练actor和critic网络模型，选取最优actor和critic网络模型作为编队优化模型；

其中如图3所示，本发明中训练模型采用迭代学习的方式，此外，本实施例采用如图4所示的中心训练边缘执行策略训练模型来加快学习速度。因为所有的智能体可以使用一个控制器的训练中心来完成编队，所以在进行控制力数据训练的时候，训练中心使用所有智能体的历史经验数据来进行训练，并将训练得到的控制器数据又会分发到各个智能体中。使用所有的智能体历史经验数据进行训练加快的训练速度，这就是中心化训练。训练之后的数据又会分发到各个智能体中，这就是边缘执行。

如图4中，所有的智能体共享一个控制器，所有的智能体根据控制器实施控制获得历史经验数据，智能体把历史经验数据发送到训练模型的训练中心，即训练模型中的actor网络中，所述历史经验数据包括历史动作数据和历史状态数据。训练中心根据获取到的所有的智能体历史经验数据进行训练，训练数据增加，从而加快了训练速度。训练中心完成一次参数迭代之后，把训练之后的参数再发送给智能体，智能体根据新获取的参数实施控制，即获取所有智能体的所述历史状态数据和历史动作数据来训练actor和critic网络模型，进而获取到编队优化模型；将获取到的各个智能体的实施状态数据输入所述优化编队模型获取到各个智能体的最优动作数据，并分发给各个智能体；各个智能体根据各自接收的最优动作数据来进行优化编队。

训练模型的具体步骤包括：

初始化actor、critic、target actor、target critic网络；其中actor，critic网络是随机初始化的，target actor，target critic网络直接拷贝actor，critic网络的参数，初始化超参数；

actor网络用于随机选取一个随机动作并下达给仿真环境执行该随机动作a_i；

仿真环境执行该随机动作a_i，通过回报值计算函数计算该随机动作当下状态s_i下的回报值，并返回新的状态s_i+1、回报值r_i、该随机动作a_i的状态s_i给actor网络；actor网络将新的新的状态s_i+1、回报值r_i、该随机动作a_i的状态s_i转化为历史数据存入历史经验存储缓冲区，作为训练actor网络和critic网络的数据集；

从历史经验存储缓冲区中，随机采样N个历史数据，作为actor网络、critic网络的一个mini-batch数据，本发明中的mini-batch是指是随机从历史数据中抽取的一小部分训练数据。

定义评价网络Loss函数：

使用target actor、target critic网络计算Loss函数关于θ的梯度，通过最小化Loss函数来更新critic网络：

更新critic网络结束后，再通过actor网络更新的算法进行actor网络的更新：

最后通过更新的critic网络的θ^Q和target critic网络的更新算法更新targetcritic的目标价值网络参数θ^Q′；通过更新的actor网络θ^μ和target actor网络的更新算法更新target actor的目标动作网络参数θ^μ′；

计算当前和编队控制力参数、导航控制力参数下的连续动作的总回报值，当总回报值达到最小值时，当前的控制策略达到最优，即该训练模型为最优模型。

当总回报值非最小值时，依据策略梯度更新策略，重新选择编队控制力参数、导航控制力参数，实施控制；循环网络更新流程，即首先更新critic评价网络，再进行actor网络的更新，最后利用更新的critic网络和actor动作网络的参数θ^Q和θ^μ对target critic网络和target actor网络的网络参数θ^Q′和θ^μ′进行更新，使得不同状态下对应的控制策略的总回报值达到最小值时，即编队控制力参数和导航控制力参数逼近最优值，该编队控制力参数和导航控制力参数下的模型为优化模型。在本发明中，最优训练模型中k_α，k_γ分别为0.275,0.05，参数均是通过实验和经验调整得到。

如图7所示，利用本发明中控制方法和系统对多智能体进行编队，能有效解决现有的多智能体编队的无模型自适应学习型分布式控制算法常常会因智能体的运动到新环境而无法适应新的环境，造成智能体邻居变化，从而状态维度变化。

如图5至图6所示，本发明中的用于多智能体编队的控制方法的编队结果和传统编队控制方法的编队结果相比，图5中的三张图分别是，位置(position)、速度(speed)，控制力(force)，图6中的三张图分别是，位置偏差、速度偏差、控制力，可以看到在DDPG和传统控制器相比会有更快的跟随速度。这是因为DDPG控制器是一个根据历史经验学习而来的复杂的网络，可以表达更复杂的状态到动作的映射关系。而传统的控制器则为认为设计的较为简单的固定的计算公式，相当于DDPG是有更多参数的复杂的控制器，只不过控制器的参数是通过历史经验学习得来的。

综上所述，本发明中在获取多智能体中各个智能体的历史状态数据和历史动作数据，并通过DDPG算法构建能较好的跟环境交互，具有自学习功能，适应不确定系统的动态特性的编队优化模型，利用编队优化模型中获得对各个智能体的最优控制力，并根据所述各个智能体的最优控制力实现对所述多智能体的优化编队，相比起现有技术而言，本发明中的多智能体编队的控制方法能适应多智能体编队环境复杂多变的特性，在不同的实际场景下实现更精确编队。

在优选方案中，本发明中选取了对各个智能体的导航控制力数据和编队控制力数据作为训练模型的动作数据和输出数据，从而将DDPG算法更好的利用在多智能体编队领域，解决现有技术中由于直接使用DDPG算法而产生的智能体邻居数量改变所造成的状态维度改变的技术问题。

在优选方案中，本发明中采用中心训练边缘执行策略训练模型，能加快训练模型的学习速度。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体编队的控制方法，其特征在于，包括以下步骤，

2.根据权利要求1所述的多智能体编队的控制方法，其特征在于，

所述状态数据包括各个智能体的目标点和测量点的位置偏差数据及速度偏差数据；

所述动作数据包括对各个智能体的控制力数据，其中所述控制力数据包括导航控制力数据和编队控制力数据。

3.根据权利要求1或2所述的多智能体编队的控制方法，其特征在于，所述控制力数据计算公式如下：

4.根据权利要求2所述的多智能体编队的控制方法，其特征在于，所述目标点包括导航目标点和编队目标点，获取所述目标点和测量点之间的位置偏差数据和速度偏差数据，包括，

其中，所述位置偏差数据计算公式为：

q_{error，i，γ}＝q_r-q_i；

其中，所述目标点速度偏差数据计算公式为：

p_{error，i，γ}＝p_r-p_i；

其中，q代表位置，p代表速度，i代表第i个智能体，j代表第j个智能体，代表智能体i的邻居集合数据，a_ij(q)代表智能体i和j之间的连接强度数据，c代表多智能体编队的目标半径数据，q_r代表导航目标点位置数据，p_r代表导航目标点速度，q_{error，i，γ}代表智能体i和导航目标点之间的位置偏差数据，p_{error，i，γ}代表智能体i和导航目标点之间的速度偏差数据，q_{error，i，α}代表智能体i和编队目标点之间的位置偏差数据，p_{error，i，α}代表智能体i和编队目标点之间的速度偏差数据。

5.根据权利要求1所述的多智能体编队的控制方法，其特征在于，构建编队优化模型，包括以下步骤：

构建actor、critic、target actor和target critic网络的更新算法；

6.根据权利要求5所述的多智能体编队的控制方法，其特征在于，所述回报值函数为：

7.根据权利要求5所述的多智能体编队的控制方法，其特征在于，通过Loss函数计算损失率L，并根据最小损失率来更新critic网络；通过计算梯度来更新actor网络；

所述损失率L的Loss函数为：

所述梯度计算公式为：

其中，L代表损失率，N代表随机抽取历史数据[s_t，a_t，r_t，s_t+1]进行更新的个数，i为迭代变量，γ代表折扣率，s_i代表第i个智能体的状态，a_i代表在在第i个智能体的状态数据s_i下计算出来的第i个智能体的动作数据，s_i+1代表当执行动作数据a_i后状态数据由s_i转移s_i+1，r_i代表在s_i状态数据下，采取动作数据a_i对应的回报值，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数；其中，代表计算出来的梯度，θ^μ代表代表动作网络的网络参数，μ代表动作网络函数，s_i代表第i个状态，N代表随机抽取历史数据进行更新的个数，a代表动作数据，θ^Q代表价值网络参数，Q(s，a|θ^Q)代表价值网络函数，是对于评价函数的梯度，是对于动作函数的梯度。

8.根据权利要求5所述的多智能体编队的控制方法，其特征在于，所述target critic网络的更新算法为：

θ^Q′＝τθ^Q+(1-τ)θ^Q′

所述target actor网络的更新算法为：

θ^μ′＝τθ^μ+(1-τ)θ^μ′

其中T＝0.001，θ^Q′代表目标价值网络参数，θ^Q代表价值网络参数，θ^μ′代表目标动作网络参数，θ^μ代表动作网络参数。

9.根据权利要求5所述的多智能体编队的控制方法，其特征在于，所述actor、critic、target actor和target critic网络的探索学习策略为中心训练边缘执行策略；所述中心训练边缘执行策略包括：

各个智能体根据各自接收的最优动作数据来进行优化编队。

10.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至9任一所述方法的步骤。