CN116774584A

CN116774584A - 一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法

Info

Publication number: CN116774584A
Application number: CN202310750495.9A
Authority: CN
Inventors: 宁兆龙; 李晗雪; 杨雨轩; 王小洁; 熊炫睿; 吴宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-09-19

Abstract

本发明公开了一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，在考虑由多个服务提供商提供差异化服务的无人机网络中实现多个无人机的分布式轨迹控制。此外，针对用户和无人机计算成本最小化问题，本发明基于纳什均衡确定了无人机长期计算成本最小化问题的最优解也是用户计算成本最小化问题的最优解，并从理论上证明了纳什均衡的唯一性。针对不实际的完整系统信息的问题，本发明设计了马尔可夫博弈模型并基于深度强化学习设计了一种基于部分信息的多无人机轨迹优化算法，对不同服务提供商的无人机轨迹进行分布式控制，并从理论上证明了MUTO算法的总体复杂度为实验结果证明本发明所提出的算法在用户和无人机总体计算成本方面的有效性。

Description

一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法

技术领域

本发明涉及基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，尤其涉及多个服务提供商提供差异化服务的无人机网络中实现多个无人机的分布式轨迹控制。

背景技术

近年来，移动边缘计算和无人机通信技术都被视作提升移动设备的性能的关键技术，多接入边缘计算已被设想为将计算资源推向网络边缘的一种有前途的模式。移动边缘计算，通过将计算密集型任务卸载到边缘服务器，可以增强移动客户端的计算能力。为了缓解多用户设备的移动边缘计算网络带来的性能影响，我们使用低空无人机作为无线通信基站、中继或服务器，它可以实现移动边缘计算网络高效的计算资源分配。通过部署无人机支持的动边缘计算，我们不仅可以同时解决用户计算卸载和边缘业务部署问题，还可以节省通信和计算基础设施的建设成本，并为地面用户提供计算资源。对于多智能体深度强化学习平台，有望为多个服务提供商部署多个无人机为地面用户提供多种服务类型打下坚实基础，但有两个关键问题需要解决。一个关键问题是无人机差异化服务的问题，即现有相关解决方案一般仅考虑单个无人机和单个服务提供商，未考虑地面用户的服务类型偏好。另外一个关键问题是无人机飞行轨迹问题，现有大多数无人机轨迹设计是基于完整的系统信息，而忽略了现实生活每个无人机仅根据局部观测进行飞行。同时，多个服务提供商为同一目标区域的多个用户同时部署差异化的边缘计算服务值得研究人员进一步探索。

发明内容

本发明的目的主要针对现有研究的一些不足之处，提出多智能体深度强化学习的无人机差异化服务轨迹优化方法，使用纳什均衡和马尔可夫博弈、多智能体深度强化学习和多无人机轨迹优化方法分别完成了用户和无人机计算成本同时最小化以及分布式多无人机的轨迹控制。

为了实现上述目的，本发明采用的技术方案是：一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于，包括以下步骤：

1)构建系统模型，确定通信模型、计算模型、飞行模型，包含N个用户，M个服务提供商以及M个无人机，每个服务提供商在目标区域部署1个无人机，每个无人机配备计算资源作为边缘服务器，为目标区域的地面用户提供服务，网络运营商可以获得整个网络的系统状态，并将用户需求发送给不同的服务提供商，每个无人机在一个矩形的目标区域内移动；计算用户i的计算成本和无人机j的计算成本，构建同时最小化用户的计算成本和无人机的计算成本优化问题；

2)使用纳什均衡求解步骤1)中用户和无人机计算成本的最小化问题；

3)利用马尔可夫博弈模型对步骤2)中基于局部观测的分布式多无人机计算成本最小化问题；

4)为步骤3)中建立智能体模型，并对该模型进行训练。

本发明的有益效果如下：

为了实现系统资源的有效利用，本发明在考虑多个服务提供商和差异化服务的无人机支持的移动边缘计算网络的现实场景下，设计了通信、计算和飞行模型。此外，针对用户和无人机计算成本最小化问题，本发明基于纳什均衡确定了无人机长期计算成本最小化问题的最优解也是用户计算成本最小化问题的最优解，并从理论上证明了纳什均衡的唯一性。针对不实际的完整系统信息的问题，本发明制定了马尔可夫博弈模型并基于深度强化学习设计了一种基于部分信息的多无人机轨迹优化算法，对不同服务提供商的无人机轨迹进行分布式控制，并从理论上证明了MUTO算法的总体复杂度为实验结果证明本发明所提出的算法在用户和无人机总体计算成本方面的有效性。

附图说明

图1为多智能体深度强化学习的无人机差异化服务的系统模型；

图2为两个无人机的服务覆盖示意图；

图3为单个无人机智能体的网络训练其相应的深度强化学习示意图；

图4和图5对比了本发明设计的MUTO算法与其他三种算法在不同的数据集下用户和无人机的总体计算成本方面的性能；

图6对比了本发明设计的MUTO算法在不同的服务提供商数量下无人机的飞行轨迹和计算成本方面的性能；

图7为比较了本发明设计的MUTO算法在不同服务提供商数量下用户和无人机的总体计算成本方面的性能。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

本发明实例提供了一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，该方法包括：

步骤1：构建系统模型，确定通信模型、计算模型、飞行模型。

如图1所示构建一个系统模型，多个无人机协同提供计算服务。其中包含N个用户，M个服务提供商以及M个无人机。每个服务提供商在目标区域部署1个无人机，每个无人机配备计算资源作为边缘服务器，为目标区域的地面用户提供服务。假设存在1个网络运营商，如基站，它可以获得整个网络的系统状态，并将用户需求发送给不同的服务提供商。由于系统以时隙方式运行，假设每个用户在每个时隙产生1个计算任务。用户可以为其计算任务产生服务偏好，采用非二进制偏好设置，用户在[0，1]范围内对每种类型的服务随机产生相应的服务偏好。定义用户i的服务偏好如下：

其中，符号l_ij(t)表示用户i在时隙t对类型j的服务偏好，l_ij(t)＝1表示用户i选择了类型j的服务，即将任务完全卸载给无人机j，否则l_ij(t)＝0。对于l_ij(t)∈(0，1)，表示用户对服务类型j具有非二进制偏好。从无人机的角度来看，l_ij(t)∈(0，1)表示用户i在时隙t有概率地将其计算任务卸载给无人机j。表示时隙集合，即从时隙0到时隙T的离散时间序列。

因此，用户i在时隙t产生的计算任务定义为：

其中D_i(t)代表计算任务在时隙t的数据大小，F_i(t)描述计算任务/>在时刻t所需的CPU周期数。向量/>代表用户i对各种类型的服务偏好。

需要注意的是，本发明考虑的是在一段时间内的无人机部署。在每个时间段内，服务提供商在目标区域部署1个无人机，为地面用户提供差异化的服务。在每个时间段结束时，根据新用户的需求模式，无人机的轨迹将被重新规划。

根据上述系统模型，若用户在时隙t只需要服务类型j，即选择将计算任务卸载给无人机/>进行边缘计算，则上行数据传输速率/>定义如下：

式中，B_w为无线信道的带宽，P_i(t)为用户i在时隙t时的发射功率。符号H_j(t)表示无人机j在时隙t时的悬停高度，R_ij(t)表示用户i与无人机j在时隙t时的水平距离。

变量α＝g₀G₀/σ²，其中G₀≈2.2846。符号g₀表示单位距离通道增益，σ²表示背景噪声功率。

用户i与无人机j在时刻t的水平距离R_ij(t)定义如下：

R_ij(t)＝||q_j(t)-p_i||，

其中，向量q_j(t)＝(x_j(t)，y_j(t))为无人机j在时隙t的水平位置坐标，向量pi表示用户i的水平位置坐标。假设用户在考虑的时隙中移动性较低。此外，假设每个无人机在一个矩形的目标区域内移动，即水平位置坐标满足以下约束：

其中，x_max表示目标区域的长度，y_max表示目标区域的宽度。

如图2所示，根据用户是否在2个无人机的服务覆盖范围内，分别考虑用户的计算成本和服务偏好。当用户在时隙t只需要服务类型j时，即选择将计算任务/>卸载给无人机/>进行边缘计算时，用户i在时隙t向无人机j卸载任务/>传输能耗/>为：

其中，为传输时延。P_i表示用户i的发射功率。无人机j在时隙t处理计算任务所产生的计算能耗/>为：

其中，为计算任务/>的处理延迟。变量η_j为正值，表示有效开关电容，用于测量单位时间内处理计算任务所需的无人机j的能量消耗。变量β_j是正常数，设为3。符号/>表示用户i在时隙t从无人机j获得的计算能力，其中/>符号N_j表示无人机j服务覆盖范围内的用户数，符号/>表示无人机j的计算能力。

我们定文为无人机j的阈值数据，表示无人机j在同一时间能够处理的数据总量的上界。考虑到用户的服务偏好，阈值数据的约束定义为：

其中，集合表示无人机j服务覆盖范围内的N_j个用户。

如果目标区域内的用户不在任何无人机的服务覆盖范围内，则该用户只能选择在本地设备(j＝0)上处理其计算任务，同样，用户i′s在时隙t对计算任务进行本地处理所带来的计算能耗/>定义为：

其中，为本地设备处理任务/>所造成的延迟。同样，η_j为正值，表示开关电容，用于衡量本地设备i在单位时间内处理计算任务所消耗的能量。变量β_j设为3，其中/>表示用户i′s的本地设备的计算能力。

综上，处理任务在时隙t的总能耗为：

处理任务在时隙t的总延迟为：

考虑到所有任务的临界性都是共同的一般情况。在不失一般性的前提下，我们对生成的任务考虑不同时隙的相同延迟约束，即：

其中，T_max是处理延迟的上界。对于不同类型的服务，其所需的时隙(延迟)是不同的。通过设为集合/>的扩展，考虑局部计算，即/>

在时隙t期间，无人机j的飞行水平方位θ_j(t)和飞行距离d_j(t)应分别满足以下约束：

其中，d^max表示单个无人机在时间内能够飞行的最大距离，其飞行距离可由下式求得：

d_j(t)＝||q_j(t+1)-q_j(t)||

另外，无人机j在t时刻的水平位置坐标也可由水平方位θ_j(t)和飞行距离d_j(t)求得，即：

x_j(0)表示无人机j在初始时隙的水平位置坐标x轴分量，y_j(0)分别表示无人机j在初始时隙的水平位置坐标y轴分量。由于无人机水平服务范围的限制，用符号表示无人机j的最大水平服务半径。我们定义一个符号函数u_ij(x)来判断用户是否在无人机的覆盖范围内：

通过设置根据u_ij(x)可知，如果用户i在无人机j的覆盖范围内，即/>则/>否则/>用户i是否应该选择本地计算可以通过以下方式确定：

如果用户i选择本地计算，就意味着用户i不在任何UAV的服务范围内，即和/>否则，用户i在至少处于一个UAV的服务范围内。

基于以上，从能源消耗的角度，用户i的计算成本可以定义为：

从用户的角度来看，计算任务处理的总延迟T_ij(t)可以重新表述为：

当讨论总处理延迟时，在边缘计算的情况下，不仅要考虑传输延迟，还要考虑计算延迟。那么，从能耗的角度来看，无人机j的计算成本可以表示为：

本发明优化目标为同时最小化用户的计算成本和无人机的长期计算成本，问题描述如下：

s.t.

C1-C4 in P1

约束条件C1和C2确保无人机在目标区域内，约束条件C3使每个无人机在同一时隙处理的具有偏好的数据总量不超过其阈值数据，约束条件C4保证在最大处理延迟内处理所有计算任务。约束条件C5表示无人机在每个时隙的飞行距离不超过最大距离d_max。

步骤2：使用纳什均衡求解步骤1)中用户和无人机计算成本的最小化问题。

步骤1)描述的用户和无人机计算成本的优化问题相互关联，无人机长期计算成本最小化问题的最优解也是用户计算成本最小化问题的最优解。为了解决步骤1)描述的2个优化问题，本发明将其转化为用户和无人机计算成本最小化问题的最优解与纳什均衡之间的联系，然后进行求解。本部分首先基于系统完整状态信息分析了服务提供商之间的相互作用，对纳什均衡的存在条件和唯一性进行证明，利用纳什均衡的唯一性确定无人机的最优轨迹。

当无人机的长期计算成本最小化问题的约束条件满足时，多无人机的纳什均衡条件可以定义为：

定理1：在满足优化无人机的长期计算成本最小化问题约束的情况下，若无人机的最优轨迹满足下式：

然后可以达到纳什均衡。其中，纳什均衡受用户偏好l_ij(t)、UAVs覆盖模式u_ij和UAVs位置的影响。根据用户的偏好，每个服务提供商优化其无人机轨迹并最小化其计算成本。

而根据用户的偏好，每个SP优化其UAV轨迹并最小化其计算成本。因此，达到NE的核心思想是达到UAVs轨迹计算成本的定点。

定理2：如果最优无人机轨迹满足定理1中的纳什均衡条件，则不同服务提供商之间的成本竞争存在唯一的纳什均衡。

因此，基于定理1和定理2，可以得到无人机的长期计算成本最小化问题的最优解。

定理3：无人机长期计算成本最小化问题P2的最优解也是用户计算成本最小化问题P1的最优解。

我们可以得到，通过研究无人机的长期计算成本最小化问题和用户计算成本最小化问题的解，可以得到用户计算成本最小化问题的最优解。而无人机和用户最小化问题可以通过达到纳什均衡同时解决，满足定理1中的条件，这样的纳什均衡解也满足无人机和用户最小化问题中的约束。

但现实生活中，服务提供商不可能提前知道用户在每个时间段的偏好和其他服务提供商拥有的无人机的策略。

步骤3：利用马尔可夫博弈模型求解问题2)中基于局部观测的分布式多无人机计算成本最小化问题。

步骤2)中的用户和无人机的计算成本的优化问题设计难以更好的解决，主要是因为问题2)是基于完整的系统信息进行求解，即每个服务提供商提前知道用户在每个时间段的偏好和其他服务提供商拥有的无人机的策略，从而做出最优的轨迹决策。然而，现实生活中服务提供商做决策时不可能知道他人的策略。因此，本部分利用马尔可夫博弈将该问题转化为基于局部观测的多个无人机的飞行动作执行，并更新每个无人机满足约束条件时采取行动的奖励。

本发明所构建的系统模型包含N个用户，M个服务提供商以及M个无人机，其每个服务提供商在目标区域部署1个无人机，为地面提供差异化服务。为了实现基于局部观测的分布式多无人机飞行动作执行，我们将不同无人机(或其对应的服务提供商)的计算成本最小化问题建模为马尔可夫博弈，无人机可以看作M个不同的学习智能体，博弈可以用元组来表示，其元素描述如下：

状态：马尔可夫博弈的状态空间可以用S＝{s(t)＝(S₁，S₂，S₃)}，来表示，其中S₁包含用户/>的位置坐标p_i，S₂包含所有无人机的轨迹信息q_j(t)，/>而S₃包含用户计算任务(D_i(t)，F_i(t)，1_i(t))的相关信息。

观察：对于每个无人机来说，它不能观察到完整的网络状态s(t)，但只有部分网络状态可用，记为其中o_j(t)是无人机j的观察值。无人机j的观察值只包含它当前的位置坐标，即：o_j(t)＝q_j(t)用户的服务偏好l_ij(t)和其他无人机的政策对每个无人机来说都是未知的。

动作：集代表所有无人机采取的动作，其中θ_j(t)和d_j(t)代表时间t内无人机j的飞行水平方位角和距离，需要分别满足公式/>和/>

状态转换概率：P：S×A×S→[0，1]表示状态转换概率分布。变量ρ₀：S→[0，1]为初始状态s(0)的分布。系统状态通过采取行动a(t)从s(t)过渡到s(t+1)，其概率为P(s(t+1)|s(t)，a(t))。

奖励：表示无人机j在状态s(t)下采取行动a_j(t)后立即得到的奖励。将奖励定义为r^j(t)＝-U_j(t)-p，，其中p代表不满足约束条件时的惩罚。每个无人机智能体的目标是使其总期望奖励最大化/>其中变量γ∈[0，1]是折扣系数。

步骤4：为步骤3)中建立智能体模型，并对该模型进行训练。

如图3所示，利用多智能体深度强化学习理论及多无人机轨迹优化算法对多无人机轨迹进行优化，每个服务提供商被建模为一个智能体，并使用优先经验回放技术训练服务提供商的神经网络。无人机使用训练好的网络执行基于局部观测的多个无人机的飞行动作。

首先将无人机作为深度强化学习智能体的网络结构划分为4个神经网络，再利用优先回放经验技术给予每个经验优先级，以获得更高的采样概率。然后根据小批量采样获得的经验，每个无人机智能体开始训练对应的深度强化学习模型。最后设计了多无人机轨迹优化算法，利用最小化损失函数更新评论家网络，之后利用策略梯度更新演员家网络的参数。

根据演员网络及它的目标网络，评论家网络及它的目标网络，评论家网络根据当前网络状态s(j)和所有无人机的行动a(t)，计算出相应的Q值为：

Q_j(e(t)，a(t))表示每个无人机代理的评论家网络在当前状态-动作对(s(t)，a(t))下相应的Q值，E[·]表示当前状态-行动对下的预期平均回报，表示每个无人机代理的总预期回报。无人机智能体j从环境中获得部分观测值o_j(t)，并根据其当前策略π_j(o_j(t))执行行动a_j(t)。接下来，环境更新状态s(t)，并收集所有智能体/>的动作。然后，将相应的奖励r_j(s(t)，a(t))返回给无人机智能体/>最后，无人机智能体j可以形成经验(s(t)，a(t)，r_j(t)，s(t+1))，并将其存储在经验回放缓冲器β_j中。在训练过程中，从回放缓冲器中抽出一小批经验，并将元素作为训练基础发送到相应的网络。

采用优先经验回放技术，利用时间差分误差来设计每个经验的优先级。无人机j在时隙t中时间差分误差定义为：

δ_j(t)＝|y_j(t)-Q_j(s(t)，a₁(t)，...，a_N(t)))|

每个小批量包含H个经验，因此第h个经验的抽样概率可以表示为：

其中，∈＝0.001，变量β表示决定优先级的因素，其中β＝0表示均匀抽样，通常β＝0.6。表示无人机j在第h个经验的时间差分误差，/>表示无人机j在第h′个经验的时间差分误差。高时间差分误差误差的频繁采样经验会导致发散和振荡，我们采用重要性采样权值表示采样经验的重要性，其定义为：

其中，μ表示重要性采样指数，被设为0.4，用于在采样概率和经验权重之间进行平衡。表示重放缓冲区的大小。

根据小批量采样获得的经验，每个无人机智能体开始训练其相应的深度强化学习模型，并更新4个神经网络的参数。使用最小化损失函数更新评论家网络，其定义为：

y_j(t)表示无人机j在时隙t的目标Q值，r_j(t)表示无人机j在时隙t的即时奖励。γ表示折扣因子。

在训练过程中，每个无人机智能体的评论家网络根据当前状态-动作对(s(t)，a(t))得到相应的Q值其中/>表示评论家网络的网络参数。同时，演员家网络的目标网络基于观测值o_j(t+1)和策略/>执行飞行动作a_j(t+1)，其中/>表示目标网络的参数，π′_j(·)表示演员网络的目标网络，π_j表示无人机代理j的策略。然后，基于新的状态-动作对(s(t+1)，a(t+1))，目标网络得到相应的Q值/>其中/>表示评论家网络对应的目标网络的网络参数，Q′_j表示评论家网络对应的目标网络。

通过小批量和优先经验回放技术，最小化损失函数可以改写为：

H表示每个小批量包含的经验数量，w(h)表示在第h个经验的重要性采样权重。

在评论家网络完成更新后，我们利用策略梯度来更新演员家网络的参数。梯度定义如下：

表示演员网络的网络参数，J表示关于参数/>的梯度，/>表示无人机j在第h个经验的局部观察值，a表示无人机代理的飞行行动，s^h表示当前状态，/>表示无人机代理j在第h个经验时执行的飞行动作，/>表示评论家网络的网络参数。

对于目标网络，通过定义更新速率τ来更新其参数，更新方程如下：

图4和图5对比了本发明设计的MUTO算法与其他三种算法在不同的数据集下用户和无人机的总体计算成本方面的性能。实验数据结果表明本发明设计的算法使用多智能体深度强化学习对不同服务提供商的无人机分布式轨迹控制是有效的，同时最小化无人机的长期计算成本和用户的计算成本。相比于其他三个算法，本发明能够获得较好的有效性、收敛性、效率、可扩展性和稳健性。

图6对比了本发明设计的MUTO算法在不同的服务提供商数量下无人机的飞行轨迹和计算成本方面的性能。实验数据结果表明MUTO算法在服务提供商较多的场景下具有较强的可扩展性。

图7为比较了本发明设计的MUTO算法在不同服务提供商数量下用户和无人机的总体计算成本方面的性能。实验数据结果表明增加无人机的数量并不能进一步降低总体计算成本。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于，包括以下步骤：

1)构建系统模型，确定通信模型、计算模型、飞行模型，包含N个用户，M个服务提供商以及M个无人机，每个服务提供商在目标区域部署1个无人机，每个无人机配备计算资源作为边缘服务器，为目标区域的地面用户提供服务，网络运营商可以获得整个网络的系统状态，并将用户需求发送给不同的服务提供商，每个无人机在一个矩形的目标区域内移动；建立用户i的计算成本为：

无人机j的计算成本为：

设置符号函数R_ij(t)表示用户i与无人机j在时刻t的水平距离，/>表示无人机j的最大水平服务半径，l_ij(t)表示用户i在时隙t对类型j的服务偏好，/>表示用户i在时隙t向无人机j卸载任务/>传输能耗，/>表示用户i′s在时隙t对计算任务/>进行本地处理所带来的计算能耗；

构建同时最小化用户的计算成本和无人机的计算成本优化问题；

4)为步骤3)中建立智能体模型，并对该模型进行训练。

2.根据权利要求1所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：所述优化问题为

P1：

s.t.

C1：

C2：

C3：

C4：

P2：

s.t.

C1-C4 in P1

C5：

q_j(t)为无人机j在时隙t的水平位置坐标向量，(x_j(t)，y_j(t))表示无人机j的坐标，x_max表示目标区域的长度，y_max表示目标区域的宽度，D_i(t)表示计算任务在时隙t的数据大小，/>表示无人机j的阈值数据，N_j表示无人机j覆盖范围内的用户数，T_ij(t)表示计算任务处理的总延迟，T_max表示处理延迟的上界，q_j(t+1)表示无人机j在时隙t+1的水平位置坐标向量，d_max表示无人机的最大飞行距离。

3.根据权利要求1或2所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：将优化问题转化为用户和无人机计算成本最小化问题的最优解与纳什均衡之间的联系，然后进行求解；纳什均衡条件定义为：

达到纳什均衡，根据用户的偏好，每个服务提供商优化其无人机轨迹并最小化其计算成本；

定理2：如果最优无人机轨迹满足定理1中的纳什均衡条件，则不同服务提供商之间的成本竞争存在唯一的纳什均衡；

基于定理1和定理2，可以得到无人机的长期计算成本最小化问题的最优解；

4.根据权利要求3所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：所述步骤3)利用马尔可夫博弈将问题P2转化为基于局部观测的多个无人机的飞行动作执行，并更新每个无人机满足约束条件时采取行动的奖励。

5.根据权利要求4所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：将无人机看作M个不同的学习智能体，马尔可夫博弈用元组来表示，其元素描述如下：

状态：马尔可夫博弈的状态空间用来表示，其中包含用户/>的位置坐标p_i,/>包含所有无人机的轨迹信息q_j(t)，/> 包含用户计算任务(D_i(t)，F_i(t)，l_i(t))的相关信息，s(t)表示网络状态，F_i(t)表示用户i产生的计算任务在时隙t所需的CPU周期数,l_i(t)表示用户i在时隙t的服务偏好；

观察:对于每个无人机来说，它不能观察到完整的网络状态s(t)，但只有部分网络状态可用，记为其中o_j(t)是无人机j的观察值，无人机j的观察值只包含它当前的位置坐标，即:o_j(t)＝q_j(t)用户的服务偏好l_ij(t)和其他无人机的政策对每个无人机来说都是未知的；

状态转换概率：P：S×A×S→[0，1]表示状态转换概率分布，变量ρ₀：S→[0，1]为初始状态s(0)的分布，系统状态通过采取行动a(t)从s(t)过渡到s(t+1)，其概率为P(s(t+1)|s(t)，a(t))；

奖励：r_j(t)：表示无人机j在状态s(t)下采取行动a_j(t)后立即得到的奖励，将奖励定义为r_j(t)＝-U_j(t)-p，，其中p代表不满足约束条件时的惩罚。

6.根据权利要求4所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：所述步骤4)具体包括，首先将无人机作为深度强化学习智能体的网络结构划分为4个神经网络，再利用优先回放经验技术给予每个经验优先级，然后根据小批量采样获得的经验，每个无人机智能体开始训练对应的深度强化学习模型，最后利用最小化损失函数更新评论家网络，之后利用策略梯度更新演员家网络的参数。

7.根据权利要求6所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：

根据演员网络及它的目标网络，评论家网络及它的目标网络，评论家网络根据当前网络状态s(t)和所有无人机的行动a(t)，计算出相应的Q值为：

Q_j(s(t)a(t))表示每个无人机代理的评论家网络在当前状态-动作对(s(t)，a(t))下相应的Q值，E[·]表示当前状态-行动对下的预期平均回报，表示每个无人机代理的总预期回报，无人机智能体j从环境中获得部分观测值o_j(t)，并根据其当前策略π_j(o_j(t))执行行动a_j(t)，接下来，环境更新状态s(t)，并收集所有智能体/>的动作，然后，将相应的奖励r_j(s(t)，a(t))返回给无人机智能体/>最后，无人机智能体j形成经验(s(t)，a(t),r_j(t),s(t+1))，并将其存储在经验回放缓冲器/>中，在训练过程中，从回放缓冲器中抽出一小批经验，并将元素作为训练基础发送到相应的网络。

8.根据权利要求6所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：所述优先回放经验技术，利用时间差分误差来设计每个经验的优先级，无人机j在时隙t中时间差分误差定义为：

δ_j(t)＝|y_j(t)-Q_j(s(t)，a₁(t)，...，a_N(t))|

其中，∈=0.001，变量β表示决定优先级的因素，其中β＝0表示均匀抽样，通常β＝0.6，表示无人机j在第h个经验的时间差分误差，/>表示无人机j在第h′个经验的时间差分误差，采用重要性采样权值表示采样经验的重要性，其定义为：

其中，μ表示重要性采样指数，表示重放缓冲区的大小。

9.根据权利要求6所述一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法，其特征在于：根据小批量采样获得的经验，每个无人机智能体开始训练其相应的深度强化学习模型，并更新4个神经网络的参数，使用最小化损失函数更新评论家网络，其定义为：

y_j(t)表示无人机j在时隙t的目标Q值，r_j(t)表示无人机j在时隙t的即时奖励，γ表示折扣因子；

最小化损失函数改写为：

H表示每个小批量包含的经验数量，w(h)表示在第h个经验的重要性采样权重；

在评论家网络完成更新后，利用策略梯度来更新演员家网络的参数，梯度定义如下：

表示演员网络的网络参数，J表示关于参数/>的梯度，/>表示无人机j在第h个经验的局部观察值，a表示无人机代理的飞行行动，s^h表示当前状态，/>表示无人机代理j在第h个经验时评论家网络所对应的目标网络执行的飞行动作，/>表示评论家网络的网络参数；