CN115016540A

CN115016540A - 一种多无人机灾情探测方法及系统

Info

Publication number: CN115016540A
Application number: CN202210851483.0A
Authority: CN
Inventors: 韩瑜; 李锦铭; 秦臻; 程广峰; 唐兆家
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-06

Abstract

本发明公开了一种多无人机灾情探测方法及系统，方法包括：构建多无人机路径规划的问题，以实现对灾情探测效果最大化；将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题；分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解，得到所述多无人机路径规划的问题的目标解；根据所述目标解对多无人机进行运动控制，完成灾情探测。本发明提高了探测效率，且降低了复杂性，可广泛应用于人工智能技术领域。

Description

一种多无人机灾情探测方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是一种多无人机灾情探测方法及系统。

背景技术

自然灾害通常具有广域性、扩散性和不确定性等特点，传统的救援方法在面对大规模自然灾害时通常会由于缺少受灾区域信息而救援进度缓慢、效率低下，甚至威胁到救援人员的人生安全。随着无人机技术的发展，由于无人机灵活、低成本和不易受灾害影响的特点，其在灾情探测和救援辅助等领域都受到了广泛关注。

通过控制无人机在受灾区域飞行并实时拍摄灾区影像，可以帮助救援人员快速掌握灾区信息，提高救援的效率和安全性。然而，由于灾害的多变性和广域性，如何通过无人机的调度，在有限的能量下最大化灾情探索效率成为了关键问题之一。

现有技术在对无人机的飞行轨迹进行规划时通常采用传统的路径规划算法并对环境模型进行一定的简化，这类算法虽然能够保证一定的求解效率，但会导致次优的规划结果，其会影响灾情信息的获取；没有考虑受灾区域灾情的高度动态性，固定的灾情环境模型会导致求解结果的滞后，进一步降低轨迹规划的准确性；相关方法在实际部署环境下会降低救援效率甚至影响危害救援人员的人身安全。另外，现有技术需要人工手动标记兴趣点，效率不高，并且缺少对不同种类灾情的适应性。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种高效且复杂度低的，多无人机灾情探测方法及系统。

本发明实施例的一方面提供了一种多无人机灾情探测方法，包括：

构建多无人机路径规划的问题，以实现对灾情探测效果最大化；

将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题；

分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解，得到所述多无人机路径规划的问题的目标解；

根据所述目标解对多无人机进行运动控制，完成灾情探测。

可选的，对所述基于全局航迹规划的探测点位最大化问题的求解过程，包括：

初始化经验回放池；

初始化train-Q网络中的参数θ^train和target-Q网络中的参数θ^target；

初始化系统环境；

将智能体当前所观测环境的状态输入到所述target-Q网络中，并输出第一结果q{s,a|θ}_a∈A，根据ε-贪婪算法选出动作a_i；

配置所述智能体的当前环境观测状态s_i、下一环境观测状态s_i+1以及奖励回报r_i；

将目标数据(s_i,a_i,r_i,s_i+1)存取到经验回放池中；

当所述经验回放池存满数据之后，从中随机选取K个经验值；

经过多个时间步数后，将target-Q网络中的θ^target更新为当前时刻train-Q网络中的θ^train，直至完成全局航迹规划的探测点位最大化问题的求解。

可选地，对基于局部路径规划的探测效果最大化问题的求解过程，包括：

初始化经验回放池；

初始化系统化环境；

为每个用户初始化Critic网络

和Actor网络

其中，Critic网络的参数为θ^Qi，Actor网络的参数为

为每个用户初始化targetCritic网络

和targetActor网络

在初始化阶段，为无人机随机产生一个动作a⁰，并且观测到环境给予的回报r⁰和反馈o¹；

然后进入外循环阶段，智能体根据当前的策略网络和观测到的状态，生成下一时刻动作a^t＝μ(o^t|θ^μ)+N_t，其中，N_t是添加的探索噪声，用于鼓励探索；其中，所述外循环阶段的时间参数为t＝1,2,…,T；

智能体执行动作a^t，执行之后观测到下一刻的状态反馈o^t+1和回报r^t；

将目标数据(o^t,a^t,r^t,o^t+1)储存到经验池，同时更新环境给予的反馈o^t←o^t+1；

对每个智能体i＝1,2,…,N循环执行以下步骤：从经验池中随机采样一部分经验(o^t,a^t,r^t,o^t+1)；

利用梯度下降更新critic网络的损失；

利用策略梯度法更新actor网络的损失；

更新target网络：

退出智能体循环，退出外循环；

完成对基于局部路径规划的探测效果最大化问题的求解。

可选地，所述方法还包括：构建无人机探测控制模型，该步骤包括：

计算无人机与目标拍摄点位之间的欧氏距离；

计算无人机与目标拍摄面积之间的重叠度；

计算无人机的相对高度；

根据所述欧氏距离、所述重叠度以及所述相对高度，确定无人机拍摄效果的评价结果。

可选地，所述方法还包括：构建无人机功率损耗模型，该步骤包括：

根据无人机的电池容量，定义无人机的电池总量；

定义无人机的上行传输功率、D2B链路的LoS概率，将D2B通道建模为具有基于环境反馈的LoS通道；

对无人机产生的推进能耗进行建模；

定义无人机从全电荷状态到能量耗尽的持续飞行时间；

根据所述持续飞行时间，根据无人机的剩余电量判断无人机的返回充电时间。

可选地，所述方法还包括：配置限制条件，以实现无人机拍摄效果的最大化；

所述限制条件包括：

约束拍摄分辨率的下限；

限制无人机的飞行安全长度；

配置无人机的D2B链路质量；

限制多个无人机的覆盖重叠率，提高无人机的利用效率；

限制无人机的航行速度

可选地，所述对所述基于全局航迹规划的探测点位最大化问题进行求解的过程中，还包括限制全局规划的条件；

所述全局规划的条件包括：

不允许无人机发生能量中断的情况；

无人机所探测的区域限制在预设的通信范围内；

不同无人机所探测区域不发生重叠。

可选地，所述基于局部路径规划的探测效果最大化问题进行求解的过程中，还包括限制局部规划的条件；

所述局部规划的条件包括：

限制拍摄分辨率的下限；

限制无人机的飞行距离；

限制无人机的D2B链路质量；

限制无人机的航行速度。

本发明实施例的另一方面还提供了一种多无人机灾情探测系统，包括：

第一模块，用于构建多无人机路径规划的问题，以实现对灾情探测效果最大化；

第二模块，用于将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题；

第三模块，用于分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解，得到所述多无人机路径规划的问题的目标解；

第四模块，用于根据所述目标解对多无人机进行运动控制，完成灾情探测。

本发明实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前面所述的方法。

本发明的有益效果是：本发明构建多无人机路径规划的问题，以实现对灾情探测效果最大化；将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题；分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解，得到所述多无人机路径规划的问题的目标解；根据所述目标解对多无人机进行运动控制，完成灾情探测。本发明提高了探测效率，且降低了复杂性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体系统模型示意图；

图2为本发明实施例提供整体步骤流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例的一方面提供了一种多无人机灾情探测方法，如图2所示，方法包括：

根据所述目标解对多无人机进行运动控制，完成灾情探测。

初始化经验回放池；

初始化系统环境；

将目标数据(s_i,a_i,r_i,s_i+1)存取到经验回放池中；

当所述经验回放池存满数据之后，从中随机选取K个经验值；

初始化经验回放池；

初始化系统化环境；

为每个用户初始化Critic网络

和Actor网络

其中，Critic网络的参数为

Actor网络的参数为

为每个用户初始化targetCritic网络

和targetActor网络

利用梯度下降更新critic网络的损失；

利用策略梯度法更新actor网络的损失；

更新target网络：

退出智能体循环，退出外循环；

完成对基于局部路径规划的探测效果最大化问题的求解。

计算无人机与目标拍摄点位之间的欧氏距离；

计算无人机与目标拍摄面积之间的重叠度；

计算无人机的相对高度；

根据无人机的电池容量，定义无人机的电池总量；

对无人机产生的推进能耗进行建模；

定义无人机从全电荷状态到能量耗尽的持续飞行时间；

所述限制条件包括：

约束拍摄分辨率的下限；

限制无人机的飞行安全长度；

配置无人机的D2B链路质量；

限制多个无人机的覆盖重叠率，提高无人机的利用效率；

限制无人机的航行速度

所述全局规划的条件包括：

不允许无人机发生能量中断的情况；

无人机所探测的区域限制在预设的通信范围内；

不同无人机所探测区域不发生重叠。

所述局部规划的条件包括：

限制拍摄分辨率的下限；

限制无人机的飞行距离；

限制无人机的D2B链路质量；

限制无人机的航行速度。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

首先，对本发明实施例中出现的专有名词进行解释说明:

DRL(deep reinforcement learning)深度强化学习：是常用的机器学习算法，其中代理学习如何通过与环境的持续交互来将状态映射到动作以最大化长期回报。其中，强化学习使用奖励来指导代理商做出更好的决定。

DDPG(deep deterministic policy gradient)深度确定性策略梯度：一种基于策略Policy神经网络和基于价值Value神经网络的强化学习算法，通过学习得到的最优策略，在应用时只利用局部信息就能给出最优动作，并且不需要知道环境的动力学模型以及特殊的通信需求。

DQN(deep Q-network)深度Q网络：是一种融合了神经网络和Q-learning的深度强化学习算法。

Drone cell(DC)无人机：是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机，或者由车载计算机完全地或间歇地自主地操作。

Signal Car(SC)移动信号车：移动通信车是防汛抗旱、应急灾害等现场图像采集、传输和各类会议实况转播的移动通信工具。它为防汛调度指挥提供移动的视频交互平台，提供及时、直观的现场实况，实现异地会商。

图1显示了多无人机(DC)协同的灾情探测场景，其中两个旋翼无人机由不同区域的移动信号车释放，以便探索更大范围内的灾害情况。本发明将该场景定义为

其可容纳多个移动信号车(SC)。分布在不同区域的信号车考虑为集合

其中B用来表示信号车的总数。信号车的通信范围是有限的，其所覆盖的区域表示为

每个信号车能释放不同数量的无人机，

本发明将D个无人机的集合定义为

每个

的通信覆盖范围被建模为一个具有限定圆半径R_b的六边形区域。

图1右侧的蓝色和黄色区域分别代表两个SC的覆盖范围。为了简化DC轨迹规划的环境，本发明将整个场景均匀地划分为多个六边形网格。

因此，每个DC的全局轨迹被定义为其所服务的单元序列。在DC的全局轨迹中的每个单元内，DC根据单元内的灾情范围及变化来动态地调整其运动以便更好地进行灾情分析，进而形成DC的局部轨迹如图1左侧所示。

为了避免DC之间可能发生的碰撞和干扰，本发明定义了每个单元最多只允许一个DC飞越它。每个

的位置定义为l_d＝{x_d,y_d,z_d}，其中{x_d,y_d,z_d}是3D笛卡尔坐标。本发明定义不同单元的灾害区域集合为

其中

表示单元g中受灾区域的总数。此外，每个区域中心位置定义为l_p＝{x_p,y_p}，其中{x_d,y_d}是2D笛卡尔坐标。本发明将t时刻

拍摄的点位定义为P_d(t)，其中当DC处于拍摄状态的时候，|P_d(t)|＝1；反之，|P_d(t)|＝0。由于灾害反复多变的特点，整个场景

中灾害区域的面积和位置都是随时间变化的。为了清晰描述，本发明考虑在DC制定决策的时候，

和DC在足够小的范围内变化。

下面对DC探测控制模型进行详细描述：

根据DC拍摄的特性，本发明考虑在灾害中心能够取得最好的拍摄效果，即拍摄时DC与中心的距离越近，拍摄效果越好。此外，DC的相对高度影响灾情拍摄的精度和重叠率，这两个指标的数值越高越能精细灾情分析的效果。因此，本发明考虑将DC与点位p的欧式距离

以及拍摄面积的重叠度(IoU)α_dp作为衡量拍摄效果的指标，其计算公式分别为：

其中，S_p表示灾区p的面积。S_dp表示DC在灾区p实际的拍摄面积。此外，DC的相对高度直接影响了拍摄的分辨率大小，进而影响灾情分析的准确性，其中地面分辨率的计算公式为：

其中，F_d表示DC携带镜头的焦距，S_d表示传感器水平尺寸，HP_d表示水平像素的大小。因此，本发明将在t时刻DC的拍摄质量定义为：

其中，μ₁和μ₂表示不同的权重系数，R_min是所需分辨率的最小值，κ^pel表示一个惩罚量。

下面对DC功率损耗模型进行详细描述：

在DC的探测活动中，能量损耗主要包含三个方面：计算能耗、数据传输能耗以及推进能耗。其中，计算能量主要运用于信号处理和计算处理。根据近来大量研究表明，这部分的能耗相比数据传输能耗和推进能耗小得多，因此在本文中本发明忽略了计算能耗的影响。每个DC的电池容量是有限的，其总量表示为E_d。本发明假设所有DC都可以飞回其相应的SCs给电池充电，其充电速度用每t时刻p_c焦耳来表示。为了方便表示，本发明用e_d(t)来表示t时刻

的当前能量。

本发明将DC上行传输功率表示为p_u(t)，并考虑采用最先进的D2B模型来表示D2B链路上高的LoS概率。具体来说，D2B通道建模为具有基于环境反馈的LoS通道。D2B的路径损失通过如下式子计算：

其中，r_d(t)和h_d(t)分别表示为D2B的水平距离和DC的飞行高度。θ_a和θ_p分别表示为角度偏移和超额路径损耗抵消。α表示路径损耗系数，ζ表示路径损耗标量，

表示为角标量。

推进动力能量是用于保持DC的上升和调整运动。在t时刻，DC以v(t)的速度飞行，则其产生的推进能耗可以被建模为：

其中，p_b和p_i分别表示DC在悬停状态下的叶片轮廓功率和诱导功率。v_o和v_m分别表示转子叶片尖端速度和悬停状态下转子平均诱导速度。χ_d，χ_s，χ_a和ρ分别表示为机身阻力比、转子坚固度、转子盘面积和空气密度。

本发明将DC从全电荷状态到能量耗尽的持续飞行时间定义为T。因此，本发明可以得到：

当飞行时间大于T时，DC由于有限的电池容量则会发生坠机等事故。这就需要DC根据剩余电量自行判断是否返回进行充电，那么DC的剩余电量可以表示为：

其中，x(τ)是二进制变量。当DC在时刻τ处于探测状态时，x(τ)＝1；反之亦然。

另外，本发明针对具体场景下的无人机规划问题的优化条件进行建模：

多DC协同探测问题的目标是通过对每一个DC在每一时刻t内制定合适的轨迹规划来探测灾情区域，进而实现拍摄效果最大化。因此，本发明将最大化所有DC的拍摄效果为主要性能来制定下述的优化问题，构建出如下的优化模型。

P1:

s.t.C1:R_dp(t)≥R_min,

C2:e_d(t)≥0,

C3:L_d(t)≤L_max,

C4:

C5:v_d(t)≤v_max,

其中，Π表示多DC为了实现协同探测而制定的策略。L_max表示为最大允许D2B大规模路径损失。v_max表示为DC最大飞行速度。

同时需要满足五个条件：

(1)限制条件(a)约束了拍摄分辨率的下限；

(2)限制条件(b)保证了DC的飞行安全，避免出现坠机等事故；

(3)限制条件(c)确保了D2B链路质量；

(4)限制条件(d)表示多个DC没有覆盖重叠，以提高DC的利用效率。；

(5)限制条件(e)约束了DC的航行速度；

考虑到灾区

上存在大量动态变化的灾情点位，DC对全局的观测值过于庞大，采用传统的优化算法或者简单的DRL算法是无法解决的。为了解决这个复杂性问题，利用层次DRL框架将问题解耦为具有更小状态空间的多个子问题，然后通过迭代求解所有子问题来解决整个问题。本文将多DC协同探测问题解耦为两个层次子问题，即多DC全局航迹规划子问题和单DC局部路径规划子问题。

(1)多DC全局航迹规划子问题

在本节中，本发明考虑

表示在全局规划的时间间隙t_g，DC在单元g中所探测的点位平均和。因此，该部分的优化目标是最大化单元内所探测的点位数。

P2:

s.t.C1:e_d(t_a)≥0,

C3:

其中，g_d(t_g)表示全局决策的t_g时刻，DC d所探测的单元g。

同时需要满足三个条件：

(1)限制条件(a)表示不允许DC发生能量中断的情况；

(2)限制条件(b)表示DC所探测的区域限制在SC b的通信范围内；

(3)限制条件(c)表示不同DC所探测区域不发生重叠，避免资源的浪费。

(2)单DC局部路径规划子问题

根据全局轨迹规划为每个DC制定的路线规划，每个DC在其所分配的单元中自行制定路径规划，以实现最大化探测点位的拍摄效果最大化，

P3:

s.t.C1:R_dp(t)≥R_min,

C2:e_d(t)≥0,

C3:L_d(t)≤L_max,

C4:v_d(t)≤v_max,

同时需要满足四个条件：

(1)限制条件(a)约束了拍摄分辨率的下限；

(2)限制条件(b)保证了DC的飞行安全，避免出现坠机等事故；

(3)限制条件(c)确保了D2B链路质量；

(4)限制条件(d)约束了DC的航行速度。

本发明实施例提供的解决方案为：

1.所有SC共享信息，为所有的DC构建一组强化学习网络(DQN)制定全局轨迹规划，其中包含了两个结构相同的神经网络，分别为train Q-网络和train Q-网络，其中targetQ-网络的参数是从train Q-网络中按照一定频率复制而来。

2.考虑采用中心决策的方式，根据每个DC的位置坐标、剩余电池容量以及单元点位的综述，为每个DC制定相应的动作，即下一阶段飞行的单元。

3.而后，基于全局规划所决策的飞行单元，为DC构建一组神经网络用于局部路径规划的决策，其中包含一对执行网络critic(评判家)和actor(演员)，以及一对滞后更新的目标网络targetCritic和targetActor，滞后更新的网络每隔一段时间按照一定比例复制执行网络的参数(可见具体步骤)。

4.将智能RS看作是一个智能体，将单元内灾区点位分布、剩余电池容量以及当前所在位置坐标作为当前的观测信息，输入到执行网络Actor中并输出动作a，即选择合适的v_x、v_y、v_z，使得DC保证不断电的情况下实现拍摄灾区点位效果的最大化。

5.根据在动态环境下的竞争窗口设置，用户得到在当前窗口下的回报和奖励r，利用该奖励和时间差分法计算Critic网络的loss，利用梯度更新不断更新Critic网络以实现对动作a价值的准确估计。

6.利用Critic对Actor的价值估计，利用梯度上升不断调整Actor网络使其以较大的概率选择价值更高的动作。

通过反复迭代，策略网络不断更新自身参数并寻找到一套适用于自身的最优价格策略。

综上所述，本发明首先提出了多DC路径规划实现对灾情探测效果最大化的问题。然后，将这个复杂问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题。基于此，本发明开发了基于DQN的中心决策算法和一种基于DDPG的分布式算法，用于DC的路径规划，旨在确保DC不发生能量中断的基础上，进一步提高拍摄效果最大化。

(1)全局航迹规划：针对全局航迹规划子问题的离散作用空间，可以利用深度q网络(DQN)来求解具有快速收敛性的子问题。深度Q网络(DQN)是由两个结构相同，但作用不同的神经网络组成，一个是train Q-网络，一个是train Q-网络。两个神经网络各有不同的参数θ^train和θ^target。θ^train用于评估最优动作的Q值(期望回报q(s,a|θ^target))，θ^target用于选择对应最大Q值的动作(通过ε贪婪算法)。这两组参数将动作选择和策略评估分离，降低了估计Q值过程中的过拟合风险。本发明使用经验池(relpay buffer)来存储所有智能体产生的经验，并将从经验池中随机采样得到的经验作为train Q-网络的输入，来对其进行参数更新，这样不仅可以大大减少训练所需要的内存和计算资源，同时降低了数据之间的耦合性。在执行完动作a_i后，TI从环境中得到反馈的奖励信号r_i以及观察到下一个状态s_i+1，然后(s_i,a_i,r_i,s_i+1)作为一个经验存取到经验回放池中，用于训练神经网络。每隔F时间步后，target Q-网络中的θ^target会更新为当前时刻train Q-网络中的θ^train。在一轮训练中，从经验回放中提取K个随机经验组成的小批量D作为train Q-网络的输入，并通过均方误差(MSE)来计算损失函数。其中q{s,a|θ}_a∈A为train Q-网络的输出值，表示在状态s下，参数为θ^train的神经网络输出动作a所获得的期望回报。最后用梯度下降的方法更新train Q-网络中的参数。每F个时间步，都会向train Q-网络更新target Q-网络。

(2)局部路径规划：考虑到全局航迹规划的时隙t_g中为每个DC决定了所飞行的单元，本发明为每个DC提出了DDPG-LTPRA算法，在一个时间步长t内的尽可能实现拍摄灾区点位的最大化。本发明通过为每个DC搭建四个神经网络：用来选择动作的执行策略网络(输入为该用户观测到的状态，记为trainActor)，用于动作评价的执行评价网络(输入为所有用户的观测状态以及该用户选择的动作trainCritic)，用于稳定训练并为执行价值网络的更新提供动作的目标策略网络(输入为该用户观测到的状态，网络记为targetActor)和用于执行评价网络的更新提供下一状态-动作价值的目标评价网络(输入为所有用户的观测以及该用户选择的动作，记为targetCritic)。其中，trainActor和targetActor的网络结构相同，targetActor的参数在每回合按照一定比例从trainActor复制过来进行慢更新，更新过程如下θ^μ′←τθ^μ+(1-τ)θ^μ，其中θ^μ′是targetActor网络的参数，θ^μ是trainActor网络的参数；同理，trainCritic与targetCritic的网络结构也相同，trainCritic的更新过程如下θ^Q′←τθ^Q+(1-τ)θ^Q，其中，θ^Q′是targetCritic网络的参数，θ^Q是trainCritic网络的参数。Actor网络由一个输入层、三个隐藏层和一个输出层构成，其中三个隐藏层均以ReLU函数作为其激活函数，输出层则以Tanh函数作为其激活函数，输出当前观测下的动作a；Critic网络由一个输入层，三个隐藏层和一个输出层构成，其中所有层均以ReLU函数作为激活函数，生成状态-动作的价值Q。将每个DC看作一个智能体，将单元内灾区点位分布、剩余电池容量以及当前所在位置坐标作为当前的观测信息作为观测输入到trainActor中，选择输出动作a_t。具体的，DC将观测输入到神经网络，通过Tanh函数输出当前合适的v_x、v_y、v_z。根据奖励回报公式，智能GS计算当前获得的回报r。同时，DC利用奖励r来计算trainCritic网络的损失函数，进而通过反向梯度传递的方式对trainCritic网络进行更新；同时，将当前时刻所有DC的观测和目标DC的动作输入到自己的trainCritic网络中，得到状态-动作价值Q，并利用该价值通过反向梯度传递的方式更新trainActor网络。此外，按照每步复制一定比例的方式逐步更新targetActor网络和targetCritic网络，通过将以上过程反复迭代，当所有用户的动作均不再发生变化，则当前动作为最优动作。即DC会根据动态情况的变化来做出适应性的调整，以达到在当前情况下的最佳效果。

本发明的具体步骤包括：

一、全局航迹规划：

(1)初始化经验回放池；

(2)初始化train-Q网络和target-Q网络中的参数θ^train、θ^target；

(3)初始化系统环境；

(4)将智能体当前所观测环境的状态输入到target Q-网络中，并输出q{s,a|θ}_a∈A，根据ε-贪婪算法选出动作a_i；

(5)智能体从环境观测状态s_i+1以及奖励回报r_i；

(6)将(s_i,a_i,r_i,s_i+1)存取到经验回放池中；

(7)当经验回放池D存满数据之后，从其中随机选取K个经验值；

(8)经过F时间步数后，target Q-网络中的θ^target更新为当前时刻train Q-网络中的θ^train。

二、局部路径规划：

1.初始化经验回放池；

2.初始化系统化环境；

3.为每个用户初始化Critic网络

和Actor网络

参数分别为

和

4.为每个用户初始化targetCritic网络

和targetActor网络

5.在初始化阶段为DC随机产生一个动作a⁰，并且观测到环境给予的回报r⁰和反馈o¹；

6.(进入外循环t＝1,2,…,T)智能RS根据当前的策略网络和观测到的状态，生成下一时刻动作a^t＝μ(o^t|θ^μ)+N_t，其中N_t是添加的探索噪声，用于鼓励探索；

7.智能RS执行动作a^t，执行之后观测到下一刻的状态反馈o^t+1和回报r^t；

8.将(o^t,a^t,r^t,o^t+1)储存到经验池，同时o^t←o^t+1；

9.(对每个智能体i＝1,2,…,N循环执行)从经验池中随机采样一部分经验(o^t,a^t,r^t,o^t+1)；

10.利用梯度下降更新critic网络的损失：

其中y^b＝r^b+γQ′(o^b+1,a^b+1|θ^Q′)；

11.利用策略梯度法更新actor网络的损失，其中梯度可由下式得到：

12.更新target网络：θ^Q′←τθ^Q+(1-τ)θ^Q，θ^μ′←τθ^μ+(1-τ)θ^μ；

13.退出智能体循环，退出外循环。

综上所述，本发明具有以下优点：

1、本发明提出了一种有效的多DC协同灾情探测方案。其中，全局航迹规划解决了由多个DC和灾情分布的长期变化所造成的复杂性。局部路径规划算法处理了灾区点位数量和位置的实时变化，状态空间受全局航迹规划算法输出的约束。这种层次化的DRL框架以高概率收敛到次优解。

2、针对灾情分布的变化性，本发明设计了由每个DC独立执行的DDPG算法来调整实时直流飞行控制的分配。具体来说，DDPG能够实现在连续空间上的轨迹规划，并通过对D2U通信的数学分析，降低了算法输入的复杂度，进一步提高了收敛性能。。

3、本算发明不依赖于现有的训练数据，代理可以通过收集自身与环境交互的经验用于训练。

4、本算发明通过历史经验和不断试错，最终可以在动态环境中学习到最适合自身的一套价格策略以保证自身收益最大化。

5、本发明通过采用深度强化学习中的深度Q-Learning技术，该技术具有快速收敛的特性，能够实现在复杂通信环境下的快速响应。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多无人机灾情探测方法，其特征在于，包括：

根据所述目标解对多无人机进行运动控制，完成灾情探测。

2.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，对所述基于全局航迹规划的探测点位最大化问题的求解过程，包括：

初始化经验回放池；

初始化系统环境；

将智能体当前所观测环境的状态输入到所述target-Q网络中，并输出第一结果q{s，a|θ}_a∈A，根据ε-贪婪算法选出动作a_i；

将目标数据(s_i，a_i，r_i，s_i+1)存取到经验回放池中；

当所述经验回放池存满数据之后，从中随机选取K个经验值；

经过多个时间步数后，将target-Q网络中的^target更新为当前时刻train-Q网络中的θ^train，直至完成全局航迹规划的探测点位最大化问题的求解。

3.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，对基于局部路径规划的探测效果最大化问题的求解过程，包括：

初始化经验回放池；

初始化系统化环境；

为每个用户初始化Critic网络

和Actor网络

其中，Critic网络的参数为

Actor网络的参数为

为每个用户初始化targetCritic网络

和targetActor网络

然后进入外循环阶段，智能体根据当前的策略网络和观测到的状态，生成下一时刻动作a^t＝μ(o^t|θ^μ)+N_t，其中，N_t是添加的探索噪声，用于鼓励探索；其中，所述外循环阶段的时间参数为t＝1，2，...，T；

将目标数据(o^t，a^t，r^t，o^t+1)储存到经验池，同时更新环境给予的反馈o^t←o^t+1；

对每个智能体i＝1，2，...，N循环执行以下步骤：从经验池中随机采样一部分经验(o^t，a^t，r^t，o^t+1)；

利用梯度下降更新critic网络的损失；

利用策略梯度法更新actor网络的损失；

更新target网络：

退出智能体循环，退出外循环；

完成对基于局部路径规划的探测效果最大化问题的求解。

4.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，所述方法还包括：构建无人机探测控制模型，该步骤包括：

计算无人机与目标拍摄点位之间的欧氏距离；

计算无人机与目标拍摄面积之间的重叠度；

计算无人机的相对高度；

5.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，所述方法还包括：构建无人机功率损耗模型，该步骤包括：

根据无人机的电池容量，定义无人机的电池总量；

对无人机产生的推进能耗进行建模；

定义无人机从全电荷状态到能量耗尽的持续飞行时间；

6.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，所述方法还包括：配置限制条件，以实现无人机拍摄效果的最大化；

所述限制条件包括：

约束拍摄分辨率的下限；

限制无人机的飞行安全长度；

配置无人机的D2B链路质量；

限制多个无人机的覆盖重叠率，提高无人机的利用效率；

限制无人机的航行速度。

7.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，所述对所述基于全局航迹规划的探测点位最大化问题进行求解的过程中，还包括限制全局规划的条件；

所述全局规划的条件包括：

不允许无人机发生能量中断的情况；

无人机所探测的区域限制在预设的通信范围内；

不同无人机所探测区域不发生重叠。

8.根据权利要求1所述的一种多无人机灾情探测方法，其特征在于，所述基于局部路径规划的探测效果最大化问题进行求解的过程中，还包括限制局部规划的条件；

所述局部规划的条件包括：

限制拍摄分辨率的下限；

限制无人机的飞行距离；

限制无人机的D2B链路质量；

限制无人机的航行速度。

9.一种多无人机灾情探测系统，其特征在于，包括：

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。