CN116227622A

CN116227622A - 基于深度强化学习的多智能体地标覆盖方法及系统

Info

Publication number: CN116227622A
Application number: CN202310094608.4A
Authority: CN
Inventors: 宋勇; 郭仕凤; 庞豹; 许庆阳; 袁宪锋; 刘冰; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-06-06

Abstract

本公开涉及智能体控制技术领域，提出了一种基于深度强化学习的多智能体地标覆盖方法及系统，为了避免智能体训练到后期出现收敛速度慢的现象，将深度强化学习方法与传统人工势场方法相结合，将人工势场信息添加到原状态空间对状态空间升维，解决智能体由于环境部分观测导致决策效果差的问题，其次针对步数与相对距离结合设计奖励函数解决探索初期智能体所获得的奖励稀疏的问题，使得智能体有效避障，同时有效提升智能体的学习效率，提升训练效率，提高了地标覆盖的效率。

Description

基于深度强化学习的多智能体地标覆盖方法及系统

技术领域

本公开涉及智能体控制相关技术领域，具体的说，是涉及一种基于深度强化学习的多智能体地标覆盖方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

随着计算机技术和人工智能的迅猛发展，多智能体系统的应用越来越广泛，如合作导航、群体控制。多智能体能够通过个体主体的合作来解决复杂合的任务，与单体智能相比其主要优点有：一是稳定性好，某一智能体的宕机不会引起整个系统崩溃；二是效率高，把复杂任务分解为多项子任务由智能体分别完成，提高了任务效率；三是兼容性强，同一作业环境的智能体的功能分布异构，扩大了感知范围和时空分布范围，提高了兼容性。

多智能体地标覆盖任务是典型的多智能体系统任务之一，多智能体地标覆盖为一群具有感智能力、计算能力的智能体通过任务分配通过一条无碰无撞的路径覆盖环境中的地标。地标覆盖问题是多智能体领域中最为常见的问题之一，广泛应用于物流、编队、游戏AI等领域。多智能体地标覆盖方法的研究是多智能体领域研究的重要问题之一，将深度强化学习方法融入到多智能体系统中进而催生出了多智能体深度强化学习，通过智能体与环境交互，得到环境的反馈进而调整策略完成自我学习。

发明人在研究中发现，当前多智能体深度强化学习仍然存在一些问题，一为多智能体新环境探索阶段，奖励函数通常比较稀疏导致学习效率较低；二为智能体与环境交互过程中会受其他智能体及运动速度等因素的影响，单智能体算法在应用于多智能体任务中会出现难收敛的现象。

发明内容

本公开为了解决上述问题，提出了一种基于深度强化学习的多智能体地标覆盖方法及系统，首先将人工势场信息添加到原状态空间对状态空间升维，解决智能体由于环境部分观测导致决策效果差的问题，其次针对步数与相对距离结合设计奖励函数解决探索初期智能体所获得的奖励稀疏的问题，同时有效提升训练效率。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了基于深度强化学习的多智能体地标覆盖方法，包括如下步骤：

针对多智能体，建立基于深度确定性策略梯度算法的多智能体强化学习框架模型；

将人工势场信息添加到原状态空间对状态空间升维，将智能体每个状态下的势场与原状态空间结合进行智能体自身状态更新；

将步数与相对距离结合改进奖励函数，在智能体每个状态根据距离与步数信息对智能体进行奖励或惩罚；

根据升维后的状态空间以及改进后的奖励函数，对深度确定性策略梯度算法的多智能体强化学习框架模型，进行训练得到更新后的模型参数；

获取进行地标覆盖的任务分配信息，以及智能体的状态信息，输入至训练好的多智能体强化学习框架模型，得到多智能体的最优运动规划路径。

一个或多个实施例提供了基于深度强化学习的多智能体地标覆盖系统，包括：

模型构建模块：被配置为用于针对多智能体，建立基于深度确定性策略梯度算法的多智能体强化学习框架模型；

状态空间构建模块：被配置为用于将人工势场信息添加到原状态空间对状态空间升维，将智能体每个状态下的势场与原状态空间结合进行智能体自身状态更新；

奖励设置模块：被配置为用于将步数与相对距离结合改进奖励函数，在智能体每个状态根据距离与步数信息对智能体进行奖励或惩罚；

模型训练模块：被配置为用于根据升维后的状态空间以及改进后的奖励函数，对深度确定性策略梯度算法的多智能体强化学习框架模型，进行训练得到更新后的模型参数；

路径生成模块：被配置为用于获取进行地标覆盖的任务分配信息，以及智能体的状态信息，输入至训练好的多智能体强化学习框架模型，得到多智能体的最优运动规划路径。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

本公开中，为了避免智能体训练到后期出现收敛速度慢的现象，将深度强化学习方法与传统人工势场方法相结合，将人工势场信息添加到原状态空间对状态空间升维，解决智能体由于环境部分观测导致决策效果差的问题，其次针对步数与相对距离结合设计奖励函数解决探索初期智能体所获得的奖励稀疏的问题，使得智能体有效避障，同时有效提升智能体的学习效率，提升训练效率，提高了地标覆盖的效率。

本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1的基于深度确定性策略梯度算法的多智能体强化学习框架模型；

图2是本公开实施例1的单个智能体受力示意图结构侧视图；

图3是本公开实施例1的多智能体强化学习的示意图；

图4是本公开实施例1的DDPG框架模型网络结构细部图；

图5(a)本公开实施例1的仿真示例的多粒子环境下针对地表覆盖任务搭建的简单环境；

图5(b)本公开实施例1的仿真示例的多粒子环境下针对地表覆盖任务搭建的简单环境被训练后任务完成情况；

图6(a)本公开实施例1的针对仿真示例的简单环境未加入人工势场时MADDPG算法训练得到的奖励值曲线；

图6(b)本公开实施例1的针对仿真示例的简单环境加入人工势场后APF-MADDPG算法训练得到的奖励值曲线；

图7(a)本公开实施1的仿真示例的多粒子环境下针对地表覆盖任务搭建的复杂环境；

图7(b)本公开实施1的仿真示例的多粒子环境下针对地表覆盖任务搭建的复杂环境被训练后任务完成情况；

图8(a)本公开实施例1的针对仿真示例的复杂环境未加入人工势场时MADDPG算法训练得到的奖励值曲线；

图8(b)本公开实施例1的针对仿真示例的复杂环境加入人工势场后APF-MADDPG算法训练得到的奖励值曲线。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1至图8所示，一种基于深度强化学习的多智能体地标覆盖方法，包括如下步骤：

步骤1、针对多智能体，建立基于深度确定性策略梯度算法的多智能体强化学习框架模型；

步骤2、将人工势场信息添加到原状态空间对状态空间升维，将智能体每个状态下的势场与原状态空间结合进行智能体自身状态更新；

步骤3、将步数与相对距离结合改进奖励函数，在智能体每个状态根据距离与步数信息对智能体进行奖励或惩罚；

步骤4、根据升维后的状态空间以及改进后的奖励函数，对深度确定性策略梯度算法的多智能体强化学习框架模型，进行训练得到更新后的模型参数；

步骤5、获取进行地标覆盖的任务分配信息，以及智能体的状态信息，输入至训练好的多智能体强化学习框架模型，得到多智能体的最优运动规划路径。

本实施例中，为了避免智能体训练到后期出现收敛速度慢的现象，将深度强化学习方法与传统人工势场方法相结合，将人工势场信息添加到原状态空间对状态空间升维，解决智能体由于环境部分观测导致决策效果差的问题，其次针对步数与相对距离结合设计奖励函数解决探索初期智能体所获得的奖励稀疏的问题，使得智能体有效避障，同时有效提升智能体的学习效率，提升训练效率。

深度确定性策略梯度算法的多智能体强化学习框架简称为MADDPG：Multi-AgentDeep Deterministic Policy Gradient，基于DDPG针对每个智能体构建DDPG模型。

MADDPG算法是一种新的集中学习-分散执行的框架，每个智能体的训练过程和单个DDPG算法类似，不同之处在于critic网络不仅包含当前智能体的状态信息，而且包含其他智能体的状态信息，如图3所示，π_i为智能体i自身策略，o_i为智能体i接收到观测值，a_i为智能体i在当前策略下做出的动作，Q_i为环境反馈给智能体i的奖励值。

步骤1中，基于深度确定性策略梯度算法的多智能体强化学习框架模型，具体的，针对每个智能体构建一个强化学习框架模型即为DDPG模型，如图1所示为单个智能体的强化学习框架模型，包括观测层、状态空间层、经验池、Actor网络和Critic网络；观测层将观测到的信息传输至状态空间层，状态空间层连接至Actor网络，Actor网络和Critic网络交互连接，经验池D用于存储智能体的当前状态、动作、奖励、下一状态、智能体势场值(s,a,r,s′)；

观测层，用于观测智能体的环境信息，包括智能体位置信息、运动信息以及人工势场信息。

如图4所示，Actor网络包括Actor现实网络(Online Actor)与Actor目标网络(Target Actor)，Critic网络包括Critic现实网络(Online Critic)、Critic目标网络(Target Critic),其中相应的现实网络和目标网络神经网络结构相同，区别在于其更新方式不同。作为一种确定性策略梯度算法，Actor网络在输入状态s_t后，其输出动作值是确定性的动作a_t而非概率分布，同时更新现实Actor网络参数θ^μ，目标Actor网络针对下一状态s_t+1执行下一个确定性动作a_t+1，利用θ^μ对目标Actor网络参数θ^μ′进行软更新。现实Critic网络结合当前状态值s_t对动作值a_t计算相应Q值Q(s_t,a_t)并更新现实Critic网络参数θ^Q，目标Critic网络计算s_t+1下的Q值，目标Critic网络参数θ^Q′通过θ^Q进行更新。

前面提到DDPG中包含四个网络，其中现实Critic网络通过最小化损失函数进行更新，损失函数为：

其中，N为采样样本批尺寸，i代表第i个智能体，y_i为现实网络输出值，s_i与a_i分别为现实网络输入状态值与输出动作值，θ^Q为现实Critic网络参数。

现实Actor网络通过采样策略梯度更新，策略梯度为：

训练过程中，每隔一段时间就会采用软更新的方式对目标网络参数进行更新，软更新方式为：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，μ和Q是Actor网络和Critic网络的参数。μ'和Q'是目标网络参数。τ远小于1。

为了避免智能体训练到后期出现收敛速度慢的现象，本实施例中，将深度强化学习方法与传统人工势场方法相结合。

在一些实施例中，步骤2中，原始状态空间可以包括智能体位置信息和运动信息，为环境中接收的信息，将智能体中位置信息包含当前状态下智能体自身位置、其他智能体位置、障碍物位置、目标点位置，运动信息包括智能体自身运动速度及其他智能体运动速度。如式(1)和表1所示：

s＝(s_{curr_pos},s_{othe_pos},s_{land_pos},s_{goal_pos},s_{curr_vel},s_{othe_vel}) (1)

表1原始状态空间

MADDPG算法在实现智能体地标覆盖过程中，由于智能体对于所在环境状况未知，算法训练速度慢的情况，本实施例在MADDPG算法训练模型的基础上结合人工势场方法提出多智能体地标覆盖改进算法。

人工势场法通过力场对智能体所在环境虚拟化，实时产生智能体在不同环境状态下的势场信息。

人工势场信息的确定方法为：设定目标点对智能体产生引力场，障碍物对智能体产生斥力场，通过智能体与障碍物之间、智能体与目标点之间的相对距离计算对应的引力或斥力，斥力和引力之和为智能体所受合力，智能体所受合力为人工势场信息。

具体的，智能体受力情况如图5所示，目标点对智能体作用为引力F_att，障碍物对智能体作用为斥力F_rep，智能体自身所受合力为F：

人工势场法引力场函数如式(2)所示：

其中，X_agent＝(x,y)为智能体当前位置，X_goal＝(x_goal,y_goal)为智能体所要到达的目标点位置坐标，ξ为引力场尺度因子，ρ(X_agent,X_goal)＝||X_agent-X_goal||表示智能体当前状态与目标的距离。

斥力场函数如式(3)所示：

其中，X_landmark＝(x_landmark,y_landmark)为障碍物位置坐标，η为斥力场尺度因子，ρ(X_agent,X_landmark)＝||X_agent-X_landmark||表示智能体当前状态与障碍物的距离。ρ₀代表障碍物斥力场影响半径，意味着智能体与障碍物距离大于ρ₀时，障碍物对智能体不产生斥力影响。

势场求取的负梯度即为力，公式如下：

引力与斥力叠加为人工势场合力，如式(6)所示：

F(X_agent)＝F_att(X)+F_rep(X) (6)

其中，F_att(X)为引力，F_rep(X)为斥力。

本实施例中，为解决当前多智能体地标覆盖中出现的收敛速度慢，路径非最优的问题，将人工势场合力引入状态空间，在原始状态空间的基础上加入人工势场合力，得到结合人工势场的状态空间。基于结合人工势场的状态空间使得在环境模型中的不同位置形成了不同势值，进而根据不同势值可以得到由初始点到目标点的一条避碰避障的最优路径。结合人工势场的状态空间如式(7)所示：

s＝(s_{curr_pos},s_{othe_pos},s_{land_pos},s_{goal_pos},s_{curr_vel},s_{othe_vel},F(X_agent)) (7)

其中，F(X_agent)表示智能体在当前位置下的人工势场合力。

进一步地，还包括设置智能体的动作空间，将智能体速度信息作为动作空间。

在智能体与环境的交互过程中的策略输出就是动作空间。输入为离散动作值时，策略输出为离散动作空间。对于连续动作空间，策略输出为连续动作空间。这里动作空间为连续值，如式(8)所示，选用智能体速度信息作为动作空间，如表2所示，为包含两个智能体的智能体动作空间。

A＝[a₁,a₂,a₃,a₄] (8)

表2智能体动作空间

步骤3中，针对探索初期智能体所获得的奖励稀疏的问题，本实施例结合智能体步数信息、智能体与目标点的相对距离信息，智能体和障碍的相对距离信息、以及智能体位置与引导路径的距离设计奖励函数。

在智能体每个状态根据距离与步数信息对智能体进行奖励或惩罚，使得智能体有效避障，同时有效提升智能体的学习效率。

强化学习中，智能体从环境中观测到状态，输入至训练网络模型进行训练，智能体根据当前策略作出动作，同时，环境针对每一个动作反馈给智能体不同的奖励值，进一步调整网络参数，以此迭代。智能体从训练开始得到的奖励值累计获得最大化目标，累计奖励。奖励函数的设计对于策略网络的训练至关重要。强化学习环境中通常存在奖励稀疏的问题，致使训练速度慢。

本实施例中的奖励包括：距离引导奖励、步数惩罚奖励、障碍碰撞惩罚奖励及目标到达奖励。通过设计距离引导奖励加以引导，设计步数惩罚奖励，可以避免智能体训练过程中步数冗余情况发生，同时设计了障碍碰撞惩罚奖励及目标到达奖励。

具体的，通过智能体与目标点的相对距离设置距离引导奖励，智能体越靠近目标点，得到的奖励越大，距离引导奖励如式(10)所示：

其中，(x_agent,y_agent)为智能体当前位置坐标，(x_goal,y_goal)为智能体目标点坐标。d_{agent_goal}为智能体与目标之间的距离。

进一步地，为使智能体用最少步数尽可能快的到达目标点，避免步数冗余，智能体每走一步给予设定分数的惩罚，设定分数可以根据需要设定，本实施例中设置为-5，本实施例中步数惩罚奖励为：

R_step＝-5 (11)

为使路径过程中尽量避免碰撞，碰撞惩罚奖励为：

R_collide＝-30 (12)

为使智能体沿着最优路径到达目标点，采用人工势场进行奖励引导

R_APF＝cos(d_{agent_APF)}) (14)

其中，(x_APF,y_APF)为人工势场路径坐标，d_{agent_APF}为智能体偏移人工势场路径坐标的距离。

目标到达奖励为：

R_arrive＝200 (15)

综上，智能体得到的总奖励为：

进一步地，基于深度确定性策略梯度算法的多智能体强化学习框架模型的训练方法，包括如下步骤：

步骤S1、设定训练回合数N；

步骤S2、初始化一个随机过程用于动作训练，得到初始状态值s；

步骤S3、对于每一个智能体，随机选择动作a并加入随机噪声；

步骤S4、计算当前状态下智能体的势场值添加到状态空间：

F(X_agent)＝F_att(X)+F_rep(X)

步骤S5、在当前状态下执行动作得到反馈奖励r及下一状态s′；

步骤S6、将当前状态、动作、奖励、下一状态、智能体势场值(s,a,r,s′)打包存入经验池D；

步骤S7、将下一状态值更新至当前状态：s′→s；

从经验池D中随机抽取条样本，进行训练，更新模型参数直到达到训练次数，步骤如下：

步骤S8、从经验池D中随机抽取minibatch条样本(s^j,a^j,r^j,s′^j)，定义：

其中，r为智能体奖励值，γ为折扣因子，γ∈[0,1]；s′^j为其他智能体的状态信息。

为估计动作价值函数，μ是Actor网络参数。

步骤S9、通过最小化损失函数值，更新Critic现实网络参数：

其中，DDPG结构中包含Critic网络和Actor网络，其中Critic网络又名策略网络，分为Critic现实网络和Critic目标网络。

步骤S10、通过确定性梯度值更新Actor现实网络参数：

步骤S11、对Critic目标网络参数以及Actor目标网络参数进行软更新；

对Critic目标网络参数进行软更新为:

θ^Q′←τθ^Q+(1-τ)θ^Q′

对Actor目标网络参数进行软更新为:

θ^μ′←τθ^μ+(1-τ)θ^μ′

步骤5中，任务分配信息包括待覆盖的目标位置坐标，智能体的状态信息包括智能体位置信息和运动信息、智能体的人工势场信息等。

为说明本实施例改进后的方法的性能，对针对简单环境和复杂环境分别设计实验，仿真过程中，智能体数量M＝2。其中，简单环境如图所示，图中空心圆圈为智能体，实体圆圈为目标点。复杂环境如图7所示，在目标点与智能体之间增加了实心圆圈的障碍物，复杂环境即在简单环境的基础上添加了环境中障碍物以测试在环境中存在障碍物条件下算法的有效性。

奖励值可以作为算法学习效果的重要衡量标准，强化学习的最终目的就是通过不断训练学习到能够使回合中累积奖励最大化的策略。因此，为了验证所提算法的有效性，本文分别在简单环境与复杂环境下控制环境变量，针对是否加入人工势场以智能体在一个回合训练过程中获取的累计奖励值作为评估指标进行对比。

图5(a)为多粒子环境下针对地表覆盖任务搭建的简单环境，图5(b)为算法经训练后任务完成情况。简单环境下将MADDPG算法和APF-MADDPG算法运行30000回合，奖励曲线滑动平均操作后进行对比如图6所示，其中横坐标代表训练回合数，纵坐标代表智能体在一个回合里得到的累计奖励值。其中图6(a)曲线为未加入人工势场时MADDPG算法训练得到的奖励值曲线，训练过程中每5次对累计奖励取平均值，可以看到智能体在横坐标为3850左右时奖励值达到收敛后趋向稳定，即3850*5＝19250回合左右时奖励值趋于稳定，但到后期出现波动。图6(b)曲线为加入人工势场后APF-MADDPG算法训练得到的奖励值情况，可以看到智能体在横坐标为700次左右奖励值达到收敛后趋向稳定，即700*5＝3500回合左右时奖励值趋于稳定。两组实验对比可以发现，当环境中只有智能体与目标点时，加入人工势场后，算法的训练速度显著提升。

在简单环境下算法的训练速度相较于基准算法已经有了一定的提升，但由于训练环境过于简单，无法判断当环境中智能体等干扰因素时的地标覆盖效果。因此本文在简单环境的基础上添加了环境内障碍物，以测试改进后算法是否依然有效。

图7(a)为多粒子环境下针对地表覆盖任务搭建的复杂环境，图7(b)为算法经训练后任务完成情况。复杂环境下将MADDPG算法和APF-MADDPG算法运行30000回合进行对比如图8所示，图8(a)曲线为未加入人工势场时MADDPG算法训练得到的奖励值曲线，训练过程中每5次对累计奖励取平均值，可以看到智能体在横坐标为3200左右时奖励值达到收敛后趋向稳定，即3200*5＝16000回合左右时奖励值趋于稳定。图8(b)曲线为加入人工势场后APF-MADDPG算法训练得到的奖励值情况，可以看到智能体在横坐标为2250次左右奖励值达到收敛后趋向稳定，即2250*5＝11250回合左右时奖励值趋于稳定。两组实验对比可以发现，当环境中存在障碍物时，加入人工势场后，算法的训练速度也能显著提升。

本实施例，将多智能体深度强化学习算法中的MADDPG算法与传统方法人工势场法相结合来实现多智能体的地标覆盖任务，通过设计简单环境与复杂环境对算法进行验证。结果表明，改进后的算法在训练速度上得到很大提升，同时能够在复杂环境中完成避障任务。

实施例2

基于实施例1，本实施例中提供基于深度强化学习的多智能体地标覆盖系统，包括：

此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于深度强化学习的多智能体地标覆盖方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于：基于深度确定性策略梯度算法的多智能体强化学习框架模型，为针对每个智能体构建一个强化学习框架模型，单个智能体的强化学习框架模型包括观测层、状态空间层、经验池、Actor网络和Critic网络；观测层将观测到的信息传输至状态空间层，状态空间层连接至Actor网络，Actor网络和Critic网络交互连接，经验池用于存储智能体的当前状态、动作、奖励、下一状态、智能体势场值。

3.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于：原始状态空间包括智能体位置信息和运动信息。

4.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于：人工势场信息的确定方法为，设定目标点对智能体产生引力场，障碍物对智能体产生斥力场，通过智能体与障碍物之间的相对距离、智能体与目标点之间的相对距离计算对应的引力或斥力，斥力和引力之和为智能体所受合力，智能体所受合力为人工势场信息。

5.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于：将智能体速度信息作为动作空间。

6.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于：改进后的奖励函数包括距离引导奖励、步数惩罚奖励、障碍碰撞惩罚奖励及目标到达奖励。

7.如权利要求1所述的基于深度强化学习的多智能体地标覆盖方法，其特征在于，基于深度确定性策略梯度算法的多智能体强化学习框架模型的训练方法，包括如下步骤：

设定训练回合数，初始化一个随机过程用于动作训练，得到初始状态值；

对于每一个智能体，随机选择动作并加入随机噪声；

计算当前状态下智能体的势场值添加到状态空间：

在当前状态下执行动作得到反馈奖励及下一状态；

将当前状态、动作、奖励、下一状态与智能体势场值打包存入经验池；

将下一状态值更新至当前状态；

从经验池D中随机抽取条样本，进行训练，更新模型参数直到达到训练次数。

8.基于深度强化学习的多智能体地标覆盖系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。