CN115016540A - 一种多无人机灾情探测方法及系统 - Google Patents

一种多无人机灾情探测方法及系统 Download PDF

Info

Publication number
CN115016540A
CN115016540A CN202210851483.0A CN202210851483A CN115016540A CN 115016540 A CN115016540 A CN 115016540A CN 202210851483 A CN202210851483 A CN 202210851483A CN 115016540 A CN115016540 A CN 115016540A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
path planning
network
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210851483.0A
Other languages
English (en)
Inventor
韩瑜
李锦铭
秦臻
程广峰
唐兆家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210851483.0A priority Critical patent/CN115016540A/zh
Publication of CN115016540A publication Critical patent/CN115016540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种多无人机灾情探测方法及系统,方法包括:构建多无人机路径规划的问题,以实现对灾情探测效果最大化;将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;根据所述目标解对多无人机进行运动控制,完成灾情探测。本发明提高了探测效率,且降低了复杂性,可广泛应用于人工智能技术领域。

Description

一种多无人机灾情探测方法及系统
技术领域
本发明涉及人工智能技术领域,尤其是一种多无人机灾情探测方法及系统。
背景技术
自然灾害通常具有广域性、扩散性和不确定性等特点,传统的救援方法在面对大规模自然灾害时通常会由于缺少受灾区域信息而救援进度缓慢、效率低下,甚至威胁到救援人员的人生安全。随着无人机技术的发展,由于无人机灵活、低成本和不易受灾害影响的特点,其在灾情探测和救援辅助等领域都受到了广泛关注。
通过控制无人机在受灾区域飞行并实时拍摄灾区影像,可以帮助救援人员快速掌握灾区信息,提高救援的效率和安全性。然而,由于灾害的多变性和广域性,如何通过无人机的调度,在有限的能量下最大化灾情探索效率成为了关键问题之一。
现有技术在对无人机的飞行轨迹进行规划时通常采用传统的路径规划算法并对环境模型进行一定的简化,这类算法虽然能够保证一定的求解效率,但会导致次优的规划结果,其会影响灾情信息的获取;没有考虑受灾区域灾情的高度动态性,固定的灾情环境模型会导致求解结果的滞后,进一步降低轨迹规划的准确性;相关方法在实际部署环境下会降低救援效率甚至影响危害救援人员的人身安全。另外,现有技术需要人工手动标记兴趣点,效率不高,并且缺少对不同种类灾情的适应性。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种高效且复杂度低的,多无人机灾情探测方法及系统。
本发明实施例的一方面提供了一种多无人机灾情探测方法,包括:
构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
根据所述目标解对多无人机进行运动控制,完成灾情探测。
可选的,对所述基于全局航迹规划的探测点位最大化问题的求解过程,包括:
初始化经验回放池;
初始化train-Q网络中的参数θtrain和target-Q网络中的参数θtarget
初始化系统环境;
将智能体当前所观测环境的状态输入到所述target-Q网络中,并输出第一结果q{s,a|θ}a∈A,根据ε-贪婪算法选出动作ai
配置所述智能体的当前环境观测状态si、下一环境观测状态si+1以及奖励回报ri
将目标数据(si,ai,ri,si+1)存取到经验回放池中;
当所述经验回放池存满数据之后,从中随机选取K个经验值;
经过多个时间步数后,将target-Q网络中的θtarget更新为当前时刻train-Q网络中的θtrain,直至完成全局航迹规划的探测点位最大化问题的求解。
可选地,对基于局部路径规划的探测效果最大化问题的求解过程,包括:
初始化经验回放池;
初始化系统化环境;
为每个用户初始化Critic网络
Figure BDA0003754845220000021
和Actor网络
Figure BDA0003754845220000022
其中,Critic网络的参数为θQi,Actor网络的参数为
Figure BDA0003754845220000023
为每个用户初始化targetCritic网络
Figure BDA0003754845220000024
和targetActor网络
Figure BDA0003754845220000025
在初始化阶段,为无人机随机产生一个动作a0,并且观测到环境给予的回报r0和反馈o1
然后进入外循环阶段,智能体根据当前的策略网络和观测到的状态,生成下一时刻动作at=μ(otμ)+Nt,其中,Nt是添加的探索噪声,用于鼓励探索;其中,所述外循环阶段的时间参数为t=1,2,…,T;
智能体执行动作at,执行之后观测到下一刻的状态反馈ot+1和回报rt
将目标数据(ot,at,rt,ot+1)储存到经验池,同时更新环境给予的反馈ot←ot+1
对每个智能体i=1,2,…,N循环执行以下步骤:从经验池中随机采样一部分经验(ot,at,rt,ot+1);
利用梯度下降更新critic网络的损失;
利用策略梯度法更新actor网络的损失;
更新target网络:
退出智能体循环,退出外循环;
完成对基于局部路径规划的探测效果最大化问题的求解。
可选地,所述方法还包括:构建无人机探测控制模型,该步骤包括:
计算无人机与目标拍摄点位之间的欧氏距离;
计算无人机与目标拍摄面积之间的重叠度;
计算无人机的相对高度;
根据所述欧氏距离、所述重叠度以及所述相对高度,确定无人机拍摄效果的评价结果。
可选地,所述方法还包括:构建无人机功率损耗模型,该步骤包括:
根据无人机的电池容量,定义无人机的电池总量;
定义无人机的上行传输功率、D2B链路的LoS概率,将D2B通道建模为具有基于环境反馈的LoS通道;
对无人机产生的推进能耗进行建模;
定义无人机从全电荷状态到能量耗尽的持续飞行时间;
根据所述持续飞行时间,根据无人机的剩余电量判断无人机的返回充电时间。
可选地,所述方法还包括:配置限制条件,以实现无人机拍摄效果的最大化;
所述限制条件包括:
约束拍摄分辨率的下限;
限制无人机的飞行安全长度;
配置无人机的D2B链路质量;
限制多个无人机的覆盖重叠率,提高无人机的利用效率;
限制无人机的航行速度
可选地,所述对所述基于全局航迹规划的探测点位最大化问题进行求解的过程中,还包括限制全局规划的条件;
所述全局规划的条件包括:
不允许无人机发生能量中断的情况;
无人机所探测的区域限制在预设的通信范围内;
不同无人机所探测区域不发生重叠。
可选地,所述基于局部路径规划的探测效果最大化问题进行求解的过程中,还包括限制局部规划的条件;
所述局部规划的条件包括:
限制拍摄分辨率的下限;
限制无人机的飞行距离;
限制无人机的D2B链路质量;
限制无人机的航行速度。
本发明实施例的另一方面还提供了一种多无人机灾情探测系统,包括:
第一模块,用于构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
第二模块,用于将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
第三模块,用于分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
第四模块,用于根据所述目标解对多无人机进行运动控制,完成灾情探测。
本发明实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前面所述的方法。
本发明的有益效果是:本发明构建多无人机路径规划的问题,以实现对灾情探测效果最大化;将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;根据所述目标解对多无人机进行运动控制,完成灾情探测。本发明提高了探测效率,且降低了复杂性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体系统模型示意图;
图2为本发明实施例提供整体步骤流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例的一方面提供了一种多无人机灾情探测方法,如图2所示,方法包括:
构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
根据所述目标解对多无人机进行运动控制,完成灾情探测。
可选的,对所述基于全局航迹规划的探测点位最大化问题的求解过程,包括:
初始化经验回放池;
初始化train-Q网络中的参数θtrain和target-Q网络中的参数θtarget
初始化系统环境;
将智能体当前所观测环境的状态输入到所述target-Q网络中,并输出第一结果q{s,a|θ}a∈A,根据ε-贪婪算法选出动作ai
配置所述智能体的当前环境观测状态si、下一环境观测状态si+1以及奖励回报ri
将目标数据(si,ai,ri,si+1)存取到经验回放池中;
当所述经验回放池存满数据之后,从中随机选取K个经验值;
经过多个时间步数后,将target-Q网络中的θtarget更新为当前时刻train-Q网络中的θtrain,直至完成全局航迹规划的探测点位最大化问题的求解。
可选地,对基于局部路径规划的探测效果最大化问题的求解过程,包括:
初始化经验回放池;
初始化系统化环境;
为每个用户初始化Critic网络
Figure BDA0003754845220000051
和Actor网络
Figure BDA0003754845220000052
其中,Critic网络的参数为
Figure BDA0003754845220000053
Actor网络的参数为
Figure BDA0003754845220000054
为每个用户初始化targetCritic网络
Figure BDA0003754845220000055
和targetActor网络
Figure BDA0003754845220000056
在初始化阶段,为无人机随机产生一个动作a0,并且观测到环境给予的回报r0和反馈o1
然后进入外循环阶段,智能体根据当前的策略网络和观测到的状态,生成下一时刻动作at=μ(otμ)+Nt,其中,Nt是添加的探索噪声,用于鼓励探索;其中,所述外循环阶段的时间参数为t=1,2,…,T;
智能体执行动作at,执行之后观测到下一刻的状态反馈ot+1和回报rt
将目标数据(ot,at,rt,ot+1)储存到经验池,同时更新环境给予的反馈ot←ot+1
对每个智能体i=1,2,…,N循环执行以下步骤:从经验池中随机采样一部分经验(ot,at,rt,ot+1);
利用梯度下降更新critic网络的损失;
利用策略梯度法更新actor网络的损失;
更新target网络:
退出智能体循环,退出外循环;
完成对基于局部路径规划的探测效果最大化问题的求解。
可选地,所述方法还包括:构建无人机探测控制模型,该步骤包括:
计算无人机与目标拍摄点位之间的欧氏距离;
计算无人机与目标拍摄面积之间的重叠度;
计算无人机的相对高度;
根据所述欧氏距离、所述重叠度以及所述相对高度,确定无人机拍摄效果的评价结果。
可选地,所述方法还包括:构建无人机功率损耗模型,该步骤包括:
根据无人机的电池容量,定义无人机的电池总量;
定义无人机的上行传输功率、D2B链路的LoS概率,将D2B通道建模为具有基于环境反馈的LoS通道;
对无人机产生的推进能耗进行建模;
定义无人机从全电荷状态到能量耗尽的持续飞行时间;
根据所述持续飞行时间,根据无人机的剩余电量判断无人机的返回充电时间。
可选地,所述方法还包括:配置限制条件,以实现无人机拍摄效果的最大化;
所述限制条件包括:
约束拍摄分辨率的下限;
限制无人机的飞行安全长度;
配置无人机的D2B链路质量;
限制多个无人机的覆盖重叠率,提高无人机的利用效率;
限制无人机的航行速度
可选地,所述对所述基于全局航迹规划的探测点位最大化问题进行求解的过程中,还包括限制全局规划的条件;
所述全局规划的条件包括:
不允许无人机发生能量中断的情况;
无人机所探测的区域限制在预设的通信范围内;
不同无人机所探测区域不发生重叠。
可选地,所述基于局部路径规划的探测效果最大化问题进行求解的过程中,还包括限制局部规划的条件;
所述局部规划的条件包括:
限制拍摄分辨率的下限;
限制无人机的飞行距离;
限制无人机的D2B链路质量;
限制无人机的航行速度。
本发明实施例的另一方面还提供了一种多无人机灾情探测系统,包括:
第一模块,用于构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
第二模块,用于将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
第三模块,用于分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
第四模块,用于根据所述目标解对多无人机进行运动控制,完成灾情探测。
本发明实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前面所述的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
首先,对本发明实施例中出现的专有名词进行解释说明:
DRL(deep reinforcement learning)深度强化学习:是常用的机器学习算法,其中代理学习如何通过与环境的持续交互来将状态映射到动作以最大化长期回报。其中,强化学习使用奖励来指导代理商做出更好的决定。
DDPG(deep deterministic policy gradient)深度确定性策略梯度:一种基于策略Policy神经网络和基于价值Value神经网络的强化学习算法,通过学习得到的最优策略,在应用时只利用局部信息就能给出最优动作,并且不需要知道环境的动力学模型以及特殊的通信需求。
DQN(deep Q-network)深度Q网络:是一种融合了神经网络和Q-learning的深度强化学习算法。
Drone cell(DC)无人机:是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机,或者由车载计算机完全地或间歇地自主地操作。
Signal Car(SC)移动信号车:移动通信车是防汛抗旱、应急灾害等现场图像采集、传输和各类会议实况转播的移动通信工具。它为防汛调度指挥提供移动的视频交互平台,提供及时、直观的现场实况,实现异地会商。
图1显示了多无人机(DC)协同的灾情探测场景,其中两个旋翼无人机由不同区域的移动信号车释放,以便探索更大范围内的灾害情况。本发明将该场景定义为
Figure BDA0003754845220000081
其可容纳多个移动信号车(SC)。分布在不同区域的信号车考虑为集合
Figure BDA0003754845220000082
其中B用来表示信号车的总数。信号车的通信范围是有限的,其所覆盖的区域表示为
Figure BDA0003754845220000083
每个信号车能释放不同数量的无人机,
本发明将D个无人机的集合定义为
Figure BDA00037548452200000812
每个
Figure BDA00037548452200000810
的通信覆盖范围被建模为一个具有限定圆半径Rb的六边形区域。
图1右侧的蓝色和黄色区域分别代表两个SC的覆盖范围。为了简化DC轨迹规划的环境,本发明将整个场景均匀地划分为多个六边形网格。
因此,每个DC的全局轨迹被定义为其所服务的单元序列。在DC的全局轨迹中的每个单元内,DC根据单元内的灾情范围及变化来动态地调整其运动以便更好地进行灾情分析,进而形成DC的局部轨迹如图1左侧所示。
为了避免DC之间可能发生的碰撞和干扰,本发明定义了每个单元最多只允许一个DC飞越它。每个
Figure BDA00037548452200000816
的位置定义为ld={xd,yd,zd},其中{xd,yd,zd}是3D笛卡尔坐标。本发明定义不同单元的灾害区域集合为
Figure BDA0003754845220000084
其中
Figure BDA0003754845220000085
Figure BDA0003754845220000086
表示单元g中受灾区域的总数。此外,每个区域中心位置定义为lp={xp,yp},其中{xd,yd}是2D笛卡尔坐标。本发明将t时刻
Figure BDA00037548452200000813
拍摄的点位定义为Pd(t),其中当DC处于拍摄状态的时候,|Pd(t)|=1;反之,|Pd(t)|=0。由于灾害反复多变的特点,整个场景
Figure BDA00037548452200000814
中灾害区域的面积和位置都是随时间变化的。为了清晰描述,本发明考虑在DC制定决策的时候,
Figure BDA00037548452200000815
和DC在足够小的范围内变化。
下面对DC探测控制模型进行详细描述:
根据DC拍摄的特性,本发明考虑在灾害中心能够取得最好的拍摄效果,即拍摄时DC与中心的距离越近,拍摄效果越好。此外,DC的相对高度影响灾情拍摄的精度和重叠率,这两个指标的数值越高越能精细灾情分析的效果。因此,本发明考虑将DC与点位p的欧式距离
Figure BDA0003754845220000087
以及拍摄面积的重叠度(IoU)αdp作为衡量拍摄效果的指标,其计算公式分别为:
Figure BDA0003754845220000088
Figure BDA0003754845220000089
其中,Sp表示灾区p的面积。Sdp表示DC在灾区p实际的拍摄面积。此外,DC的相对高度直接影响了拍摄的分辨率大小,进而影响灾情分析的准确性,其中地面分辨率的计算公式为:
Figure BDA0003754845220000091
其中,Fd表示DC携带镜头的焦距,Sd表示传感器水平尺寸,HPd表示水平像素的大小。因此,本发明将在t时刻DC的拍摄质量定义为:
Figure BDA0003754845220000092
其中,μ1和μ2表示不同的权重系数,Rmin是所需分辨率的最小值,κpel表示一个惩罚量。
下面对DC功率损耗模型进行详细描述:
在DC的探测活动中,能量损耗主要包含三个方面:计算能耗、数据传输能耗以及推进能耗。其中,计算能量主要运用于信号处理和计算处理。根据近来大量研究表明,这部分的能耗相比数据传输能耗和推进能耗小得多,因此在本文中本发明忽略了计算能耗的影响。每个DC的电池容量是有限的,其总量表示为Ed。本发明假设所有DC都可以飞回其相应的SCs给电池充电,其充电速度用每t时刻pc焦耳来表示。为了方便表示,本发明用ed(t)来表示t时刻
Figure BDA0003754845220000096
的当前能量。
本发明将DC上行传输功率表示为pu(t),并考虑采用最先进的D2B模型来表示D2B链路上高的LoS概率。具体来说,D2B通道建模为具有基于环境反馈的LoS通道。D2B的路径损失通过如下式子计算:
Figure BDA0003754845220000093
其中,rd(t)和hd(t)分别表示为D2B的水平距离和DC的飞行高度。θa和θp分别表示为角度偏移和超额路径损耗抵消。α表示路径损耗系数,ζ表示路径损耗标量,
Figure BDA0003754845220000094
表示为角标量。
推进动力能量是用于保持DC的上升和调整运动。在t时刻,DC以v(t)的速度飞行,则其产生的推进能耗可以被建模为:
Figure BDA0003754845220000095
其中,pb和pi分别表示DC在悬停状态下的叶片轮廓功率和诱导功率。vo和vm分别表示转子叶片尖端速度和悬停状态下转子平均诱导速度。χd,χs,χa和ρ分别表示为机身阻力比、转子坚固度、转子盘面积和空气密度。
本发明将DC从全电荷状态到能量耗尽的持续飞行时间定义为T。因此,本发明可以得到:
Figure BDA0003754845220000101
当飞行时间大于T时,DC由于有限的电池容量则会发生坠机等事故。这就需要DC根据剩余电量自行判断是否返回进行充电,那么DC的剩余电量可以表示为:
Figure BDA0003754845220000102
其中,x(τ)是二进制变量。当DC在时刻τ处于探测状态时,x(τ)=1;反之亦然。
另外,本发明针对具体场景下的无人机规划问题的优化条件进行建模:
多DC协同探测问题的目标是通过对每一个DC在每一时刻t内制定合适的轨迹规划来探测灾情区域,进而实现拍摄效果最大化。因此,本发明将最大化所有DC的拍摄效果为主要性能来制定下述的优化问题,构建出如下的优化模型。
P1:
Figure BDA0003754845220000103
s.t.C1:Rdp(t)≥Rmin,
Figure BDA0003754845220000104
C2:ed(t)≥0,
Figure BDA0003754845220000105
C3:Ld(t)≤Lmax,
Figure BDA0003754845220000106
C4:
Figure BDA0003754845220000107
C5:vd(t)≤vmax,
Figure BDA0003754845220000108
其中,Π表示多DC为了实现协同探测而制定的策略。Lmax表示为最大允许D2B大规模路径损失。vmax表示为DC最大飞行速度。
同时需要满足五个条件:
(1)限制条件(a)约束了拍摄分辨率的下限;
(2)限制条件(b)保证了DC的飞行安全,避免出现坠机等事故;
(3)限制条件(c)确保了D2B链路质量;
(4)限制条件(d)表示多个DC没有覆盖重叠,以提高DC的利用效率。;
(5)限制条件(e)约束了DC的航行速度;
考虑到灾区
Figure BDA0003754845220000109
上存在大量动态变化的灾情点位,DC对全局的观测值过于庞大,采用传统的优化算法或者简单的DRL算法是无法解决的。为了解决这个复杂性问题,利用层次DRL框架将问题解耦为具有更小状态空间的多个子问题,然后通过迭代求解所有子问题来解决整个问题。本文将多DC协同探测问题解耦为两个层次子问题,即多DC全局航迹规划子问题和单DC局部路径规划子问题。
(1)多DC全局航迹规划子问题
在本节中,本发明考虑
Figure BDA0003754845220000111
表示在全局规划的时间间隙tg,DC在单元g中所探测的点位平均和。因此,该部分的优化目标是最大化单元内所探测的点位数。
P2:
Figure BDA0003754845220000112
s.t.C1:ed(ta)≥0,
Figure BDA0003754845220000113
Figure BDA00037548452200001111
C3:
Figure BDA0003754845220000115
其中,gd(tg)表示全局决策的tg时刻,DC d所探测的单元g。
同时需要满足三个条件:
(1)限制条件(a)表示不允许DC发生能量中断的情况;
(2)限制条件(b)表示DC所探测的区域限制在SC b的通信范围内;
(3)限制条件(c)表示不同DC所探测区域不发生重叠,避免资源的浪费。
(2)单DC局部路径规划子问题
根据全局轨迹规划为每个DC制定的路线规划,每个DC在其所分配的单元中自行制定路径规划,以实现最大化探测点位的拍摄效果最大化,
P3:
Figure BDA0003754845220000116
s.t.C1:Rdp(t)≥Rmin,
Figure BDA0003754845220000117
C2:ed(t)≥0,
Figure BDA0003754845220000118
C3:Ld(t)≤Lmax,
Figure BDA0003754845220000119
C4:vd(t)≤vmax,
Figure BDA00037548452200001110
同时需要满足四个条件:
(1)限制条件(a)约束了拍摄分辨率的下限;
(2)限制条件(b)保证了DC的飞行安全,避免出现坠机等事故;
(3)限制条件(c)确保了D2B链路质量;
(4)限制条件(d)约束了DC的航行速度。
本发明实施例提供的解决方案为:
1.所有SC共享信息,为所有的DC构建一组强化学习网络(DQN)制定全局轨迹规划,其中包含了两个结构相同的神经网络,分别为train Q-网络和train Q-网络,其中targetQ-网络的参数是从train Q-网络中按照一定频率复制而来。
2.考虑采用中心决策的方式,根据每个DC的位置坐标、剩余电池容量以及单元点位的综述,为每个DC制定相应的动作,即下一阶段飞行的单元。
3.而后,基于全局规划所决策的飞行单元,为DC构建一组神经网络用于局部路径规划的决策,其中包含一对执行网络critic(评判家)和actor(演员),以及一对滞后更新的目标网络targetCritic和targetActor,滞后更新的网络每隔一段时间按照一定比例复制执行网络的参数(可见具体步骤)。
4.将智能RS看作是一个智能体,将单元内灾区点位分布、剩余电池容量以及当前所在位置坐标作为当前的观测信息,输入到执行网络Actor中并输出动作a,即选择合适的vx、vy、vz,使得DC保证不断电的情况下实现拍摄灾区点位效果的最大化。
5.根据在动态环境下的竞争窗口设置,用户得到在当前窗口下的回报和奖励r,利用该奖励和时间差分法计算Critic网络的loss,利用梯度更新不断更新Critic网络以实现对动作a价值的准确估计。
6.利用Critic对Actor的价值估计,利用梯度上升不断调整Actor网络使其以较大的概率选择价值更高的动作。
通过反复迭代,策略网络不断更新自身参数并寻找到一套适用于自身的最优价格策略。
综上所述,本发明首先提出了多DC路径规划实现对灾情探测效果最大化的问题。然后,将这个复杂问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题。基于此,本发明开发了基于DQN的中心决策算法和一种基于DDPG的分布式算法,用于DC的路径规划,旨在确保DC不发生能量中断的基础上,进一步提高拍摄效果最大化。
(1)全局航迹规划:针对全局航迹规划子问题的离散作用空间,可以利用深度q网络(DQN)来求解具有快速收敛性的子问题。深度Q网络(DQN)是由两个结构相同,但作用不同的神经网络组成,一个是train Q-网络,一个是train Q-网络。两个神经网络各有不同的参数θtrain和θtarget。θtrain用于评估最优动作的Q值(期望回报q(s,a|θtarget)),θtarget用于选择对应最大Q值的动作(通过ε贪婪算法)。这两组参数将动作选择和策略评估分离,降低了估计Q值过程中的过拟合风险。本发明使用经验池(relpay buffer)来存储所有智能体产生的经验,并将从经验池中随机采样得到的经验作为train Q-网络的输入,来对其进行参数更新,这样不仅可以大大减少训练所需要的内存和计算资源,同时降低了数据之间的耦合性。在执行完动作ai后,TI从环境中得到反馈的奖励信号ri以及观察到下一个状态si+1,然后(si,ai,ri,si+1)作为一个经验存取到经验回放池中,用于训练神经网络。每隔F时间步后,target Q-网络中的θtarget会更新为当前时刻train Q-网络中的θtrain。在一轮训练中,从经验回放中提取K个随机经验组成的小批量D作为train Q-网络的输入,并通过均方误差(MSE)来计算损失函数。其中q{s,a|θ}a∈A为train Q-网络的输出值,表示在状态s下,参数为θtrain的神经网络输出动作a所获得的期望回报。最后用梯度下降的方法更新train Q-网络中的参数。每F个时间步,都会向train Q-网络更新target Q-网络。
(2)局部路径规划:考虑到全局航迹规划的时隙tg中为每个DC决定了所飞行的单元,本发明为每个DC提出了DDPG-LTPRA算法,在一个时间步长t内的尽可能实现拍摄灾区点位的最大化。本发明通过为每个DC搭建四个神经网络:用来选择动作的执行策略网络(输入为该用户观测到的状态,记为trainActor),用于动作评价的执行评价网络(输入为所有用户的观测状态以及该用户选择的动作trainCritic),用于稳定训练并为执行价值网络的更新提供动作的目标策略网络(输入为该用户观测到的状态,网络记为targetActor)和用于执行评价网络的更新提供下一状态-动作价值的目标评价网络(输入为所有用户的观测以及该用户选择的动作,记为targetCritic)。其中,trainActor和targetActor的网络结构相同,targetActor的参数在每回合按照一定比例从trainActor复制过来进行慢更新,更新过程如下θμ′←τθμ+(1-τ)θμ,其中θμ′是targetActor网络的参数,θμ是trainActor网络的参数;同理,trainCritic与targetCritic的网络结构也相同,trainCritic的更新过程如下θQ′←τθQ+(1-τ)θQ,其中,θQ′是targetCritic网络的参数,θQ是trainCritic网络的参数。Actor网络由一个输入层、三个隐藏层和一个输出层构成,其中三个隐藏层均以ReLU函数作为其激活函数,输出层则以Tanh函数作为其激活函数,输出当前观测下的动作a;Critic网络由一个输入层,三个隐藏层和一个输出层构成,其中所有层均以ReLU函数作为激活函数,生成状态-动作的价值Q。将每个DC看作一个智能体,将单元内灾区点位分布、剩余电池容量以及当前所在位置坐标作为当前的观测信息作为观测输入到trainActor中,选择输出动作at。具体的,DC将观测输入到神经网络,通过Tanh函数输出当前合适的vx、vy、vz。根据奖励回报公式,智能GS计算当前获得的回报r。同时,DC利用奖励r来计算trainCritic网络的损失函数,进而通过反向梯度传递的方式对trainCritic网络进行更新;同时,将当前时刻所有DC的观测和目标DC的动作输入到自己的trainCritic网络中,得到状态-动作价值Q,并利用该价值通过反向梯度传递的方式更新trainActor网络。此外,按照每步复制一定比例的方式逐步更新targetActor网络和targetCritic网络,通过将以上过程反复迭代,当所有用户的动作均不再发生变化,则当前动作为最优动作。即DC会根据动态情况的变化来做出适应性的调整,以达到在当前情况下的最佳效果。
本发明的具体步骤包括:
一、全局航迹规划:
(1)初始化经验回放池;
(2)初始化train-Q网络和target-Q网络中的参数θtrain、θtarget
(3)初始化系统环境;
(4)将智能体当前所观测环境的状态输入到target Q-网络中,并输出q{s,a|θ}a∈A,根据ε-贪婪算法选出动作ai
(5)智能体从环境观测状态si+1以及奖励回报ri
(6)将(si,ai,ri,si+1)存取到经验回放池中;
(7)当经验回放池D存满数据之后,从其中随机选取K个经验值;
(8)经过F时间步数后,target Q-网络中的θtarget更新为当前时刻train Q-网络中的θtrain
二、局部路径规划:
1.初始化经验回放池;
2.初始化系统化环境;
3.为每个用户初始化Critic网络
Figure BDA0003754845220000141
和Actor网络
Figure BDA0003754845220000142
参数分别为
Figure BDA0003754845220000143
Figure BDA0003754845220000144
4.为每个用户初始化targetCritic网络
Figure BDA0003754845220000145
和targetActor网络
Figure BDA0003754845220000146
5.在初始化阶段为DC随机产生一个动作a0,并且观测到环境给予的回报r0和反馈o1
6.(进入外循环t=1,2,…,T)智能RS根据当前的策略网络和观测到的状态,生成下一时刻动作at=μ(otμ)+Nt,其中Nt是添加的探索噪声,用于鼓励探索;
7.智能RS执行动作at,执行之后观测到下一刻的状态反馈ot+1和回报rt
8.将(ot,at,rt,ot+1)储存到经验池,同时ot←ot+1
9.(对每个智能体i=1,2,…,N循环执行)从经验池中随机采样一部分经验(ot,at,rt,ot+1);
10.利用梯度下降更新critic网络的损失:
Figure BDA0003754845220000151
其中yb=rb+γQ′(ob+1,ab+1Q′);
11.利用策略梯度法更新actor网络的损失,其中梯度可由下式得到:
Figure BDA0003754845220000152
Figure BDA0003754845220000153
12.更新target网络:θQ′←τθQ+(1-τ)θQ,θμ′←τθμ+(1-τ)θμ
13.退出智能体循环,退出外循环。
综上所述,本发明具有以下优点:
1、本发明提出了一种有效的多DC协同灾情探测方案。其中,全局航迹规划解决了由多个DC和灾情分布的长期变化所造成的复杂性。局部路径规划算法处理了灾区点位数量和位置的实时变化,状态空间受全局航迹规划算法输出的约束。这种层次化的DRL框架以高概率收敛到次优解。
2、针对灾情分布的变化性,本发明设计了由每个DC独立执行的DDPG算法来调整实时直流飞行控制的分配。具体来说,DDPG能够实现在连续空间上的轨迹规划,并通过对D2U通信的数学分析,降低了算法输入的复杂度,进一步提高了收敛性能。。
3、本算发明不依赖于现有的训练数据,代理可以通过收集自身与环境交互的经验用于训练。
4、本算发明通过历史经验和不断试错,最终可以在动态环境中学习到最适合自身的一套价格策略以保证自身收益最大化。
5、本发明通过采用深度强化学习中的深度Q-Learning技术,该技术具有快速收敛的特性,能够实现在复杂通信环境下的快速响应。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种多无人机灾情探测方法,其特征在于,包括:
构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
根据所述目标解对多无人机进行运动控制,完成灾情探测。
2.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,对所述基于全局航迹规划的探测点位最大化问题的求解过程,包括:
初始化经验回放池;
初始化train-Q网络中的参数θtrain和target-Q网络中的参数θtarget
初始化系统环境;
将智能体当前所观测环境的状态输入到所述target-Q网络中,并输出第一结果q{s,a|θ}a∈A,根据ε-贪婪算法选出动作ai
配置所述智能体的当前环境观测状态si、下一环境观测状态si+1以及奖励回报ri
将目标数据(si,ai,ri,si+1)存取到经验回放池中;
当所述经验回放池存满数据之后,从中随机选取K个经验值;
经过多个时间步数后,将target-Q网络中的target更新为当前时刻train-Q网络中的θtrain,直至完成全局航迹规划的探测点位最大化问题的求解。
3.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,对基于局部路径规划的探测效果最大化问题的求解过程,包括:
初始化经验回放池;
初始化系统化环境;
为每个用户初始化Critic网络
Figure FDA0003754845210000011
和Actor网络
Figure FDA0003754845210000012
其中,Critic网络的参数为
Figure FDA0003754845210000013
Actor网络的参数为
Figure FDA0003754845210000014
为每个用户初始化targetCritic网络
Figure FDA0003754845210000015
和targetActor网络
Figure FDA0003754845210000016
在初始化阶段,为无人机随机产生一个动作a0,并且观测到环境给予的回报r0和反馈o1
然后进入外循环阶段,智能体根据当前的策略网络和观测到的状态,生成下一时刻动作at=μ(otμ)+Nt,其中,Nt是添加的探索噪声,用于鼓励探索;其中,所述外循环阶段的时间参数为t=1,2,...,T;
智能体执行动作at,执行之后观测到下一刻的状态反馈ot+1和回报rt
将目标数据(ot,at,rt,ot+1)储存到经验池,同时更新环境给予的反馈ot←ot+1
对每个智能体i=1,2,...,N循环执行以下步骤:从经验池中随机采样一部分经验(ot,at,rt,ot+1);
利用梯度下降更新critic网络的损失;
利用策略梯度法更新actor网络的损失;
更新target网络:
退出智能体循环,退出外循环;
完成对基于局部路径规划的探测效果最大化问题的求解。
4.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,所述方法还包括:构建无人机探测控制模型,该步骤包括:
计算无人机与目标拍摄点位之间的欧氏距离;
计算无人机与目标拍摄面积之间的重叠度;
计算无人机的相对高度;
根据所述欧氏距离、所述重叠度以及所述相对高度,确定无人机拍摄效果的评价结果。
5.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,所述方法还包括:构建无人机功率损耗模型,该步骤包括:
根据无人机的电池容量,定义无人机的电池总量;
定义无人机的上行传输功率、D2B链路的LoS概率,将D2B通道建模为具有基于环境反馈的LoS通道;
对无人机产生的推进能耗进行建模;
定义无人机从全电荷状态到能量耗尽的持续飞行时间;
根据所述持续飞行时间,根据无人机的剩余电量判断无人机的返回充电时间。
6.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,所述方法还包括:配置限制条件,以实现无人机拍摄效果的最大化;
所述限制条件包括:
约束拍摄分辨率的下限;
限制无人机的飞行安全长度;
配置无人机的D2B链路质量;
限制多个无人机的覆盖重叠率,提高无人机的利用效率;
限制无人机的航行速度。
7.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,所述对所述基于全局航迹规划的探测点位最大化问题进行求解的过程中,还包括限制全局规划的条件;
所述全局规划的条件包括:
不允许无人机发生能量中断的情况;
无人机所探测的区域限制在预设的通信范围内;
不同无人机所探测区域不发生重叠。
8.根据权利要求1所述的一种多无人机灾情探测方法,其特征在于,所述基于局部路径规划的探测效果最大化问题进行求解的过程中,还包括限制局部规划的条件;
所述局部规划的条件包括:
限制拍摄分辨率的下限;
限制无人机的飞行距离;
限制无人机的D2B链路质量;
限制无人机的航行速度。
9.一种多无人机灾情探测系统,其特征在于,包括:
第一模块,用于构建多无人机路径规划的问题,以实现对灾情探测效果最大化;
第二模块,用于将所述多无人机路径规划的问题解耦成基于全局航迹规划的探测点位最大化问题以及基于局部路径规划的探测效果最大化问题;
第三模块,用于分别对所述基于全局航迹规划的探测点位最大化问题以及所述基于局部路径规划的探测效果最大化问题进行求解,得到所述多无人机路径规划的问题的目标解;
第四模块,用于根据所述目标解对多无人机进行运动控制,完成灾情探测。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN202210851483.0A 2022-07-20 2022-07-20 一种多无人机灾情探测方法及系统 Pending CN115016540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851483.0A CN115016540A (zh) 2022-07-20 2022-07-20 一种多无人机灾情探测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851483.0A CN115016540A (zh) 2022-07-20 2022-07-20 一种多无人机灾情探测方法及系统

Publications (1)

Publication Number Publication Date
CN115016540A true CN115016540A (zh) 2022-09-06

Family

ID=83081429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851483.0A Pending CN115016540A (zh) 2022-07-20 2022-07-20 一种多无人机灾情探测方法及系统

Country Status (1)

Country Link
CN (1) CN115016540A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116299727A (zh) * 2023-03-03 2023-06-23 中国地质调查局地球物理调查中心 一种无人机频域多频电磁探测方法及探测系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116299727A (zh) * 2023-03-03 2023-06-23 中国地质调查局地球物理调查中心 一种无人机频域多频电磁探测方法及探测系统

Similar Documents

Publication Publication Date Title
Theile et al. UAV coverage path planning under varying power constraints using deep reinforcement learning
AlMahamid et al. Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
Cao et al. Concentrated coverage path planning algorithm of UAV formation for aerial photography
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN111158401A (zh) 一种分布式鼓励时空数据探索的无人机路径规划系统及方法
CN113433967A (zh) 一种可充电无人机路径规划方法及系统
CN113268078A (zh) 一种无人机群自适应环境的目标追踪围捕方法
CN116227767A (zh) 基于深度强化学习的多无人机基站协同覆盖路径规划方法
CN115494879B (zh) 基于强化学习sac的旋翼无人机避障方法、装置及设备
CN115951587B (zh) 自动驾驶控制方法、装置、设备、介质及自动驾驶车辆
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN113406965A (zh) 一种基于强化学习的无人机能耗优化方法
CN115016540A (zh) 一种多无人机灾情探测方法及系统
CN113485409A (zh) 一种面向地理公平性的无人机路径规划分配方法及系统
CN116382297A (zh) 基于深度强化学习策略的带约束的混合车辆编队控制方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
Zhang et al. An improved particle swarm optimization based on age factor for multi-AUV cooperative planning
Li et al. Ship Formation Algorithm Based on the Leader–Follower Method
Bolognini et al. A scalable hierarchical path planning technique for autonomous inspections with multicopter drones
Pehlivanoğlu et al. Efficient strategy for multi-UAV path planning in target coverage problems
Cui Multi-target points path planning for fixed-wing unmanned aerial vehicle performing reconnaissance missions
CN114115342B (zh) 一种基于冲突处理的无人集群多域协同系统及方法
Schlichting et al. LSTM-based spatial encoding: Explainable path planning for time-variant multi-agent systems
CN114812553A (zh) 一种顾及dsm模型的多无人机协同三维航迹规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination