CN116627162A

CN116627162A - 基于多智能体强化学习的多无人机数据采集位置优化方法

Info

Publication number: CN116627162A
Application number: CN202310343470.7A
Authority: CN
Inventors: 万良田; 张坤; 孙璐; 郑纪彬; 宁兆龙; 甘兴利
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-08-22

Abstract

本发明涉及深度强化学习领域，提出一种基于多智能体强化学习的多无人机数据采集位置优化方法。本发明建立多无人机采集传感器的系统模型，包括无人机三维运动，无人机与传感器的能量消耗、通信，系统的AOI等方面，无人机的高度可以动态变化，传感器网络因为部署在山地复杂地形，各个传感器的高度是参差不齐的，同时需要考虑无人机和传感器通信时地形障碍的影响，更加符合实际的现实场景。通过设计状态空间、观察空间、行动空间和奖励空间，将多无人机采集传感器数据问题建模为马尔可夫博弈。提出基于多智能体强化学习的无人机数据采集方法MADC，引入重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以此提高算法的学习效率。

Description

基于多智能体强化学习的多无人机数据采集位置优化方法

技术领域

本发明涉及深度强化学习领域，主要针对山地崎岖地形的无人机采集传感器数据进行研究，提出一种基于多智能体强化学习的多无人机数据采集位置优化方法，具体涉及无人机采集传感器数据场景中的系统数据采集量、信息年龄、传感器网络能量消耗均衡的组合优化问题，并最终选择一条使得指标最优的路径。

背景技术

无线传感器网络具有低功耗、低成本、自组织、可快速部署、抗毁性强等特点，目前已被成功应用于军事领域、自然环境监测和工业生产监测等领域，但由于缺少通信覆盖、传感设备受尺寸、能耗等限制又无法支持长距离的通信，如何将传感设备感知到的数据回传到数据汇聚中心是一个需要解决的问题。无人机凭借自身可移动、可控制的特点，能够很好地完成数据采集和回传任务。

随着5G技术的商用，智慧农业、林火监测、铁路路由巡检等新的应用将被广泛应用，这些应用对传输质量和时延要求很高，对信息的新鲜度也很敏感，如无人驾驶、林火监测等，过时的信息可能导致控制决策错误，甚至引发严重事故。因此，信息的新鲜度对于状态更新应用程序尤其重要。

另一方面，在实际的物联网系统中，大多数传感器由小容量电池供电，因此需要定期充电或更换。在大规模网络和恶劣环境下，人工更换或充电传感器电池可能会造成巨大的成本，甚至是不可行的。因此传感器网络节点的能耗均衡也变得重要。能量均衡指的是一定时间段内网络内节点的能量消耗趋近一致，一个指标可以根据每轮节点的能量消耗记录来分析得出。

发明内容

本发明的目的主要是针对现有工作中无人机的简单的行为或在理想环境中无人机路径规划的不足，并结合计算机软件，实现无人机在模拟真实场景下的路径规划。本发明的核心思想：针对山地复杂地形中的无线传感器网络部署，考虑障碍物对无人机和传感器信号的影响，尽可能的真实仿真三维环境中无人机采集传感器的路径问题，并在MADDPG算法基础上，提出了多无人机数据采集位置优化算法MADC，MADC利用了重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以此提高了算法的学习效率，解决场景中的系统数据采集量、信息年龄、传感器网络能量消耗均衡的组合优化问题。

本发明的技术方案：

一种基于多智能体强化学习的多无人机数据采集位置优化方法，步骤如下：

S1：搭建模拟场景；传感器监测区域D，随机生成无线传感器网络部署点，传感器数量为K，传感器集合为Z，Z＝{Z₁,Z₂,...,Z_K}，即需要被无人机采集的点集，传感器部署于山地崎岖地形；无人机数量为M，无人机集合为V＝{V₁,V₂,...,V_M}；

S1.1：将无人机采集数据的总过程均分为T个时隙，每个时隙的长度为△，将每个时隙分为三个部分，第一步是调度决策，第二步是无人机基站根据决策信息飞行到新的部署位置，第三步，无人机与传感器建立连接，进行数据采集；为了保持稳定性，无人机在采集数据的时候保持悬停；

S1.2：无人机从基站出发，在空中作为一个移动采集器依次对地面上的传感器进行数据采集，并将采集的信息发送回数据中心；为了描述无人机的运动，建立一个三维笛卡尔坐标系，无人机V_m的水平坐标用l_m＝(x_m,y_m,z_m)表示，无人机起始站和最终点的水平坐标分别表示为l₀＝(x₀,y₀,z₀)和l_F＝(x_F,y_F,z_F)；为了规划无人机在时间离散化系统中的飞行轨迹，将无人机的飞行区域二维投影平面平均划分为g_x×g_y的正方形网格，无人机在每个网格中的位置用一个点来近似；

S1.3：无人机采用匀速运动方式，无人机的运动包含运动方向和单次运动距离两个部分，其中运动方向θ∈[0,2π]，单次运动距离q∈[0,L_max]，因此第m架无人机的单次运动时间为悬停采集时间为/>如果t时刻无人机的位置为l_m(t)＝(x_m(t),y_m(t),z_m(t))，无人机在t+1时刻的三维笛卡尔坐标系的位置表示为：

在第t个时隙下，第m架无人机和第k个传感器在水平面上的欧式距离d_m,k(t)表示为：

其中u_k＝(x_k',y_k',z_k')是第k个传感器的位置坐标，z_k'是传感器部署在山地位置的高度；

S2：边界检测；在三维运动空间中，无人机的高度不再是固定高度，而是根据采集传感器的需要而选取不同的高度，但无人机的高度不能过高或者过低，同时也不能飞出传感器监测区域D，否则意味着超出边界。若无人机运动出界，那么无人机任务完成的较差，因此在数据采集执行过程中需要对无人机是否出界进行检测；传感器的位置坐标根据崎岖地形设置高度；

S3：无人机到地面的信道模型为空—地链路(A2G)，空—地链路可以分为两种：非视距链路LOS和视距链路NLOS。非视距链路指的是通信双方存在障碍物遮挡，通信时除了正常的距离衰减之外，还有经过障碍物的反射等，因此损耗比较大。视距链路指的是通信的发射端和接收端没有障碍物遮挡，信号的衰减较小，这种链路通信的效果更好。无人机在实际场景中，考虑到存在部分障碍物遮挡，因此，在设计基于无人机的通信系统时，必须考虑到非视距链路LOS和视距链路NLOS相关的随机性；无人机在通信覆盖在三维空间中看成一个圆锥的覆盖模型，无人机自身作为圆锥的顶点，无人机在水平面的覆盖范围是水平面与圆锥的截面大小；

S3.1：无人机的初始高度为H，无人机的在水平面的初始覆盖范围是以无人机在水平面的投影为圆心，半径为r的区域内的传感器进行通信，为提高无人机和地面传感器数据采集通信效率，通信采用频分复用的方式，可同时与多个传感器进行通信；

信道的总带宽为B，M_ξM为与某一架无人机建立通信的传感器的个数，则某一传感器k与该无人机的通信带宽为：

S3.2：无人机与地面传感器的通信信道模型包括NLOS和LOS两种；最终的路径损失的计算公式如下：

其中，PL_LOS和PL_NLOS分别为LOS和NLOS通信的路径损失；P(LOS,θ)和P(NLOS,θ)分别为LOS和NLOS通信的概率；

建立LOS和NLOS通信的概率的和为1，视距概率取决于环境、设备和无人机的位置，以及无人机仰角θ；引用一个sigmod函数表示LOS信道的概率，NLOS链路出现的概率用如下公式进行计算：

其中，a和b是与环境有关的常数，取决于载波频率和环境类型；是无人机到地面的仰角；

S3.3：NLOS和LOS两种情况的通信路径损失如下公式所示：

其中，Λ_free为自由空间路径损耗，η_LOS和η_NLOS分别为是LOS和NLOS通信路径的平均额外路径损耗，α是路径损失指数，d_m,k(t)是无人机到地面传感器的距离，f_c和c分别是载波频率和光的传播速度；

S3.4：采用平均路径损失来表示表示无人机和传感器之间的路径损失：

无人机采集地面设备的信息时存在噪声的影响，信噪比的计算如下公式所示：

其中，p_k为第t个时隙无人机通信功率，为无人机与传感器通信中的信道增益，σ²为接收端加性高斯白噪声功率；使用/>表示无人机和传感器之间是否建立连接，如果在第t个时隙第k个传感器与无人机建立连接，那么/>否则I_k(t)＝0；根据香农公式可得第t个时隙某一无人机和某一传感器的通信速率C_n：

S4：设计无人机集群采集传感器数据系统的信息年龄、传感器网络能量消耗均衡指标；具体步骤为：

S4.1：信息年龄设计；引入AOI用来衡量收集数据的及时性，AOI定义为自传感器产生最新信息到被无人机利用所经过的时间；因此，在第t个时隙中从无人机V_m收集的第k个传感器数据的AOI由下式给出

δ_k(t)＝(t-U_k(t)) (10)

其中，U_k(t)表示传感器上次被采集的时间；每个传感器必须在T内至少被采集一次；如果一个传感器被采集了多次，则新上传的数据将替换其先前上传的数据；

AOI从初始年龄A₀开始，随时间线性增加，直到无人机下一次对信息进行采集；在τ₁时刻，每一个传感器对数据进行采样，在τ₂时刻，无人机对传感器数据进行采集；因此，传感器中的AOI被更新为δ₁＝τ₂-τ₁；这个过程重复进行；

S4.2：传感器网络的能量消耗均衡指标设计；

传感器的能耗主要是通信能耗，其他能耗忽略不计，通信能耗与数据的传输量成正比，通信能耗E_nc的计算公式为：

其中P_k为通信功率，v_m为无人机运动速度；

针对传感器网络的能量消耗均衡问题使用一种均衡系数I，来反应传感器系统整体的能耗均衡情况，公式如下：

其中，F为传感器累计能量消耗，I∈[0,1]，当I越接近1时，反应了整个系统的能量消耗越均衡，反之，能量消耗越不均衡，这里的目的是不使某一个传感器的能耗消耗过大，也不使某一个传感器的能量消耗过小，不使某一个节点短时间内能量耗光，从而延长整个系统的使用时间；

S5：问题公式化，将地下及遮蔽空间中无线传感器网络部署的优化目标进行如下转化：

将最小化信息年龄问题转变为一个最大化的优化问题，因此使用数据新鲜度的定义，并对其用公式进行解释；

使用一种幂函数来描述数据新鲜度随AOI的变化；其中0<a<1，该函数是减函数，数据新鲜度随AOI的增大而减小；因此在每个时刻，整个系统的平均数据新鲜度Q(t)表示为：

因此，最终的最小化信息年龄问题表示为：

S6：通过设计状态空间、观察空间、行动空间和奖励空间，将多无人机采集传感器数据问题建模为马尔可夫博弈，对场景中的能量消耗均衡系数、信息年龄两个指标进行优化；提出了基于多智能体强化学习的无人机数据采集方法MADC，引入了重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以此提高了算法的学习效率。

S6.1：多智能体强化学习算法的应用方法；多智能体强化学习算法的应用方法是通过学习到环境状态空间到智能体动作空间之间的映射关系，以获得长期最大奖励的学习机制，用于解决建模为马尔可夫对策的问题；在强化学习中需要设计环境状态、动作空间、奖励函数以及环境状态转移规则，而需要学习的是智能体的最优策略；

S6.2：马尔科夫博弈；本发明将M个无人机建模为M个智能体，一个包含M个智能体的马尔可夫博弈由元组<S,O,A,R>构成；其中S表示环境的状态空间，用来描述每个实体的状态；O表示每个智能体的可观测状态空间；A＝{A₁,A₂,...,A_M}表示所有智能体的联合动作空间；R＝{R₁,R₂,...,R_M}表示所有智能体的奖励函数集合；

S6.3：系统状态空间和可观测空间；该系统中包括地面传感器和多个无人机，系统状态空间包括所有无人机的当前位置、所有地面设备的当前位置、传感器的能量消耗权重以及信息年龄；第m个无人机基站的可观测信息包括：自身的位置(x_m,y_m,z_m)、其他无人机的位置信息{(x₁,y₁,z₁),…,(x_M,y_M,z_M)}、所有传感器的能量消耗权重{w₁,w₂,…,w_K}和信息年龄

S6.4：动作空间；在时隙t中，无人机的动作空间主要由两部分组成，无人机飞行的角度和无人机单次飞行的距离；因此将动作空间定义为A(t)＝<l(t),ω(t)>，其中ω(t)表示飞行方向，ω(t)∈[-π,π]，l(t)表示飞行距离，l(t)∈[0,l_max]，l_max表示一次飞行可允许的最大距离；假设所有的无人机具有相同的动作空间；在无人机位置部署完成后，无人机开始为所覆盖的地面传感器采集数据；

S6.5：奖励函数；在基于数据新鲜度和传感器能耗消耗均衡的多无人机场景中，每个无人机都具有相同的目标，即最大化能耗均衡系数、数据新鲜度和数据采集量的组合；在时隙开始阶段，无人机基站的位置等于上个时隙调整后的部署位置；由于要进一步采集其他传感器数据，无人机需要重新寻找可以获得最大奖励的部署位置；

另外，还需要考虑出界的情况，并对奖励函数R(t)进行定义；是无人机是否出界的标志，/>代表无人机出界，l₁表示无人机基站飞出目标区域所带来的惩罚值；/>表示无人机之间的距离是否小于安全距离，其中/>代表小于安全距离；l₂表示多个无人机之间的距离小于规定距离所带来的惩罚，用来避免无人机发生碰撞；因此，得到奖励函数R(t)：

S6.6：经验回放池中的重要性权重反馈学习机制

本发明引入重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以提高算法的学习效率；

本算法给每一个传感器分配一个能耗均衡因子λ(k)：

其中，β_K表示截止到当前第k个传感器的数据采集累计能量消耗速率。能耗均衡权重的作用是使传感器网络被无人机采集时能够更均衡的进行能量的消耗。

对于经验回放中第j个样本的权重可以表示为：

其中，R(t)为公式(15)所表达的奖励函数，T和K分别是总的时隙数量和传感器数量。样本权重将与智能体的动作空间、状态空间、观察空间、奖励等共同加入到经验回放池中，即MADC算法经验回放池的样本是由<S,O,A,R,w>共同组成的五元组。在经验回放池中加入能耗均衡权重的目的是使算法更好的考虑到场景的目标。

除了样本中由执行任务时计算出的权重，Loss也是可以衡量样本优先度的重要指标。在强化学习算法中，Loss是指在训练智能体时用来优化智能体策略的损失函数。Loss越大，说明对此次经验而言，目标网络的评估值和实际值差别越大，需要提高采样频率，以便尽快更新目标网络和评估网络的值，达到最优的训练效果；Loss(j)表达为：

LOSS(j)＝(y-Q^π(s,a₁,a₂,…,a_M))² (17)

其中，Q^π(s,a₁,a₂,…,a_N)表示将状态s和动作集合{a₁,a₂,…,a_N}输入在线Critic网络得到的实际Q值，y表示目标回报值，y表达为：

其中，r为当前奖励值，γ为学习率，a′_i＝π′_i(o_i)表示智能体在观察空间o_i下采取策略π′_j(o_j)，最终输出动作a′_i。s'表示下一状态，Q^π′(s′,a′₁,a′₂,…,a′_M)表示将下一状态s'和动作集{a′₁,a′₂,…,a′_M}作为目标Critic网络的输入，得到目标Q'值。

除了通过Loss作为评价经验的重要性以外，经验取样次数num也同样重要。因为经验抽取的不均衡，会导致强化学习神经网络的过拟合的问题或者陷入局部最优，甚至始终无法训练。因此，在衡量经验的优先级时，要综合考量样本的权重、Loss和被抽取训练的次数。在一个总共具有N个样本的经验回放池中优先级Pri(j)的计算公式为：

其中μ(j)可以表达为：

μ(j)＝Ω(Ω(loss(j))+Ω_rev(num)) (20)

在公式μ(j)中Ω(loss(j))表示样本j的损失函数loss(j)在所有样本中的递增排序，loss(j)越大，Ω(loss(j))也越大。Ω_rev(num)为取样次数num在递减排序中的位置，num越大，Ω_rev(num)就越小。最终，Ω(Ω(loss(j))+Ω_rev(num))代表着Ω(loss(j))和Ω_rev(num)相加之后的值递增排序中的位置。

优先度综合考虑了场景中实现的目标和期望目标的差距及经验回放过程的均匀性，通过公式(19)中的Pri(j)可以计算出经验回放池中样本的优先度，并按照优先度进行排序，智能体就会优先对优先度高的样本进行回放。

与现有技术相比，本发明具有以下优点：

1、本发明建立了多无人机采集传感器的系统模型，主要针对山地崎岖地形的无人机采集传感器数据进行研究，包括无人机三维运动，无人机与传感器的能量消耗、通信，系统的AOI等方面，无人机的高度可以动态变化，传感器网络因为部署在山地复杂地形，各个传感器的高度是参差不齐的，同时需要考虑无人机和传感器通信时地形障碍的影响，更加符合实际的现实场景。提出了系统数据采集量、信息年龄、传感器网络能量消耗均衡的组合优化问题。

2、本发明通过设计状态空间、观察空间、行动空间和奖励空间，将多无人机采集传感器数据问题建模为马尔可夫博弈。提出了基于多智能体强化学习的崎岖地形无人机数据采集位置优化方法MADC，引入了重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以此提高了算法的学习效率。

3、本发明评估了MADC算法在训练阶段的收敛性和执行阶段的性能。仿真结果表明，MADC算法具有良好的收敛性，同时还比较了MADC与其他基线方法的性能，均证明本发明的方法具有很好的效果。

附图说明

图1为本发明无人机采集数据示意图；

图2为本发明系统仿真时隙示意图；

图3为本发明中AOI变化示意图；

图4为基于多智能体强化学习的多无人机数据采集位置优化方法流程图；

图5为本发明中MADC算法流程图；

图6为本发明中MADC训练奖励收敛图；

图7为本发明中无人机集群采集数据路径图，其中，圆圈代表传感器，线条代表无人机轨迹；

图8为本发明中多种算法下不同无人机数量下的传感器能量消耗均衡系数对比图；

图9为本发明中多种算法下不同无人机数量下的信息年龄对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式作进一步的详细描述。

无人机采集数据如图1所示，本发明实例提供了一种基于多智能体强化学习的崎岖地形无人机集群数据采集位置优化方法，该方法包括：

步骤1：搭建模拟环境，确定无人机辅助采集区域。

本发明选取了某山附近一块长500米，宽500米的地形崎岖的地带部署传感器，并使用无人机集群收集传感器的信息。系统仿真时隙如图2所示。

步骤2：边界检测，若无人机位置超出区域界限，则对无人机位置进行修正，例如：无人机的x坐标小于0或者大于500，则让无人机回退到上一时刻的位置重新选择动作，同理，无人机的y坐标也进行如此修正，z坐标的范围是80—200，不在这个范围内，也对其按照同样的方式进行修正。同时，因为传感器部署在崎岖的地面上，通过传感器z坐标设置为传感器的高度。

步骤3：考虑真实环境中障碍物对无人机与传感器通信的阻碍影响。使用概率LOS模型，利用通信知识计算信道损失和通信速率。

步骤4：计算三维运动空间下的无人机集群采集传感器数据的传感器网络的能量消耗均衡系数、信息年龄等指标。

4.1)计算传感器网络的能量消耗均衡系数。

传感器的能耗主要是通信能耗，其他能耗可以忽略不计，通信能耗与数据的传输量成正比，其能耗公式为：

其中P_k为通信功率。

针对传感器网络的能量消耗均衡问题使用一种均衡系数，来反应传感器系统整体的能耗均衡情况，公式如下：

其中F为传感器累计能量消耗，I∈[0,1]，当I越接近1时，反应了整个系统的能量消耗越均衡，反之，能量消耗越不均衡，这里的目的是不使某一个传感器的能耗消耗过大，也不使某一个传感器的能量消耗过小，不使某一个节点短时间内能量耗光，从而延长整个系统的使用时间。

4.2)计算系统信息年龄。

信息年龄定义为自传感器产生最新信息到被无人机利用所经过的时间。因此，在第t个时隙中从无人机V_M收集的数据的AOI由下式给出

δ_k(t)＝(t-U_k(t)) (20)

其中U_m(n)表示传感器上次被采集的时间。在时延敏感的物联网应用中，数据新鲜度是影响应用的服务质量的重要指标，这要求收集到的数据尽可能新鲜。因此，每个传感器必须在T内至少被采集一次。如果一个传感器被采集了多次，则新上传的数据将替换其先前上传的数据。AOI变化如图3所示。

步骤5：问题公式化。将三维运动空间下的无人机集群采集传感器数据的路径规划方法的优化目标进行如下转化：

步骤6：利用改进算法MADC对三维运动空间下的无人机集群采集传感器数据的路径规划的系统信息年龄、能量消耗均衡系数两个指标进行优化。基于多智能体强化学习的多无人机数据采集位置优化方法整体流程如图4所示，MADC算法的流程图如图5所示。

步骤7：三维运动空间下的无人机集群采集传感器数据的路径规划仿真实验。

7.1)根据真实环境设置模拟场景的长、宽、高：

在一块长500米，宽500米的地形崎岖的地带部署传感器，并使用无人机集群收集传感器的信息。

7.2)设置无人机数量、无人机通信半径、传感器数量、初始飞行高度、无人机飞行速度及传感器位置：

设置无人机初始高度为100米，无人机在100米是的通信覆盖半径为60米，传感器数量30个，无人机数量2架；

7.3)设置不同的无人机、传感器数量及迭代次数进行多次仿真实验，选取优化效果较好的实验数据；

7.4)将改进算法MADC与多种强化学习算法进行对比实验，验证改进算法的有效性。

步骤8：对实验数据进行可视化分析，MADC算法训练奖励收敛曲线如图6所示；

本发明最终获得的无人机集群采集数据路径如图7所示，其中，圆圈代表传感器，线条代表无人机轨迹。

多种算法下不同无人机数量下的信息年龄和传感器能量消耗均衡系数对比分别如图8和图9所示；仿真结果表明，本发明的MADC算法在参数合适的情况下具有较好的收敛性，在系统信息年龄和传感器能量消耗均衡系数优于分布式DDPG和随机策略，与普通的MADDPG相比，也具备一定的优势。

Claims

1.一种基于多智能体强化学习的多无人机数据采集位置优化方法，其特征在于，步骤如下：

S2：边界检测；在三维运动空间中，无人机的高度不再是固定高度，而是根据采集传感器的需要而选取不同的高度，但无人机的高度不能过高或者过低，同时也不能飞出传感器监测区域D，否则意味着超出边界；若无人机运动出界，那么无人机任务完成的较差，因此在数据采集执行过程中需要对无人机是否出界进行检测；传感器的位置坐标根据崎岖地形设置高度；

S3：无人机到地面的信道模型为空—地链路，空—地链路分为两种：非视距链路LOS和视距链路NLOS；无人机在实际场景中，考虑到存在部分障碍物遮挡，因此，在设计基于无人机的通信系统时，必须考虑到非视距链路LOS和视距链路NLOS相关的随机性；无人机在通信覆盖在三维空间中看成一个圆锥的覆盖模型，无人机自身作为圆锥的顶点，无人机在水平面的覆盖范围是水平面与圆锥的截面大小；

S3.3：NLOS和LOS两种情况的通信路径损失如下公式所示：

其中，p_k为第t个时隙无人机通信功率，为无人机与传感器通信中的信道增益，σ²为接收端加性高斯白噪声功率；使用/>表示无人机和传感器之间是否建立连接，如果在第t个时隙第k个传感器与无人机建立连接，那么/>否则I_k(t)＝0；根据香农公式得第t个时隙某一无人机和某一传感器的通信速率C_n：

δ_k(t)＝(t-U_k(t)) (10)

S4.2：传感器网络的能量消耗均衡指标设计；

其中P_k为通信功率，v_m为无人机运动速度；

使用一种幂函数来描述数据新鲜度随AOI的变化；其中

0<a<1，该函数是减函数，数据新鲜度随AOI的增大而减小；因此在每个时刻，整个系统的平均数据新鲜度Q(t)表示为：

因此，最终的最小化信息年龄问题表示为：

S6：通过设计状态空间、观察空间、行动空间和奖励空间，将多无人机采集传感器数据问题建模为马尔可夫博弈，对场景中的能量消耗均衡系数、信息年龄两个指标进行优化；提出了基于多智能体强化学习的无人机数据采集方法MADC，引入了重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以提高了算法的学习效率；

S6.1：多智能体强化学习算法的应用方法；通过学习到环境状态空间到智能体动作空间之间的映射关系，以获得长期最大奖励的学习机制，用于解决建模为马尔可夫对策的问题；在强化学习中需要设计环境状态、动作空间、奖励函数以及环境状态转移规则，而需要学习的是智能体的最优策略；

S6.2：马尔科夫博弈；将M个无人机建模为M个智能体，一个包含M个智能体的马尔可夫博弈由元组<S,O,A,R>构成；其中S表示环境的状态空间，用来描述每个实体的状态；O表示每个智能体的可观测状态空间；A＝{A₁,A₂,...,A_M}表示所有智能体的联合动作空间；R＝{R₁,R₂,...,R_M}表示所有智能体的奖励函数集合；

S6.3：系统状态空间和可观测空间；系统中包括地面传感器和多个无人机，系统状态空间包括所有无人机的当前位置、所有地面设备的当前位置、传感器的能量消耗权重以及信息年龄；第m个无人机基站的可观测信息包括：自身的位置(x_m,y_m,z_m)、其他无人机的位置信息{(x₁,y₁,z₁),…,(x_M,y_M,z_M)}、所有传感器的能量消耗权重{w₁,w₂,…,w_K}和信息年龄

另外，还需要考虑出界的情况，并对奖励函数R(t)进行定义；是无人机是否出界的标志，/>代表无人机出界，/>表示无人机基站飞出目标区域所带来的惩罚值；/>表示无人机之间的距离是否小于安全距离，其中/>代表小于安全距离；/>表示多个无人机之间的距离小于规定距离所带来的惩罚，用来避免无人机发生碰撞；因此，得到奖励函数R(t)：

S6.6：经验回放池中的重要性权重反馈学习机制

引入重要性权重反馈学习机制，在经验回放的样本中设置权重和优先度，以提高算法的学习效率；

给每一个传感器分配一个能耗均衡因子λ(k)：

其中，表示截止到当前第k个传感器的数据采集累计能量消耗速率；能耗均衡权重的作用是使传感器网络被无人机采集时能够更均衡的进行能量的消耗；

对于经验回放中第j个样本的权重表示为：

其中，R(t)为奖励函数，T和K分别是总的时隙数量和传感器数量；样本权重将与智能体的动作空间、状态空间、观察空间、奖励共同加入到经验回放池中，即MADC算法经验回放池的样本是由<S,O,A,R,w>共同组成的五元组；在经验回放池中加入能耗均衡权重的目的是使算法更好的考虑到场景的目标；

除了样本中由执行任务时计算出的权重，Loss也是衡量样本优先度的重要指标；在强化学习算法中，Loss是指在训练智能体时用来优化智能体策略的损失函数；Loss越大，说明对此次经验而言，目标网络的评估值和实际值差别越大，需要提高采样频率，以便尽快更新目标网络和评估网络的值，达到最优的训练效果；Loss(j)表达为：

LOSS(j)＝(y-Q^π(s,a₁,a₂,…,a_M))² (17)

其中，r为当前奖励值，γ为学习率，a′_i＝π′_i(o_i)表示智能体在观察空间o_i下采取策略π′_j(o_j)，最终输出动作a′_i；s'表示下一状态，Q^π′(s′,a′₁,a′₂,…,a′_M)表示将下一状态s'和动作集{a′₁,a′₂,…,a′_M}作为目标Critic网络的输入，得到目标Q'值；

除了通过Loss作为评价经验的重要性以外，经验取样次数num也同样重要；在衡量经验的优先级时，要综合考量样本的权重、Loss和被抽取训练的次数；在一个总共具有N个样本的经验回放池中优先级Pri(j)的计算公式为：

其中μ(j)表达为：

μ(j)＝Ω(Ω(loss(j))+Ω_rev(num)) (20)

在公式μ(j)中Ω(loss(j))表示样本j的损失函数loss(j)在所有样本中的递增排序，loss(j)越大，Ω(loss(j))也越大；Ω_rev(num)为取样次数num在递减排序中的位置，num越大，Ω_rev(num)就越小；最终，Ω(Ω(loss(j))+Ω_rev(num))代表着Ω(loss(j))和Ω_rev(num)相加之后的值递增排序中的位置；

优先度综合考虑了场景中实现的目标和期望目标的差距及经验回放过程的均匀性，通过公式(19)中的Pri(j)计算出经验回放池中样本的优先度，并按照优先度进行排序，智能体就会优先对优先度高的样本进行回放。