CN116017479A - 一种分布式多无人机中继网络覆盖的方法 - Google Patents

一种分布式多无人机中继网络覆盖的方法 Download PDF

Info

Publication number
CN116017479A
CN116017479A CN202211741057.8A CN202211741057A CN116017479A CN 116017479 A CN116017479 A CN 116017479A CN 202211741057 A CN202211741057 A CN 202211741057A CN 116017479 A CN116017479 A CN 116017479A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
network
unmanned
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211741057.8A
Other languages
English (en)
Inventor
敖天勇
张凯欣
石华光
晋占齐
王宪东
周毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202211741057.8A priority Critical patent/CN116017479A/zh
Publication of CN116017479A publication Critical patent/CN116017479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种分布式多无人机中继网络覆盖的方法,其步骤为:首先,建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并转换为马尔科夫博弈模型;其次,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;最后,构建了双数据流结构的行动器,以提高无人机的动态性;构建了分层多头注意力编码器,利用注意力机制,使无人机能够抑制冗余信息,增加相关协作无人机的关系权重,从而建立正确复杂的协作关系。本发明通过协同优化无人机集群的飞行轨迹和协作策略,实现最大化无人机的网络吞吐量和能效。

Description

一种分布式多无人机中继网络覆盖的方法
技术领域
本发明涉及多无人机协同的轨迹优化和无线通讯技术领域,特别是指一种分布式多无人机中继网络覆盖的方法,用于多无人机无线中继网络覆盖协同优化轨迹。
背景技术
随着无人机技术快速发展,其已经成为现代社会不可或缺的工具,无人机可以部署在任意复杂环境,配合人类完成各种任务。自然灾害、突发事件、战争等,原有的通信设施受到破坏,无人机可以提供应急的通讯服务。然而由于带宽、覆盖范围和无人机数量的限制,空中基站需要动态部署,按需分配网络资源。无人机动态部署可以在不影响通信质量的前提下减少设备数量,在地面基站故障时及时填补信号覆盖空白。
多无人机之间建立多节点的动态中继组网,可以大大提高网络覆盖半径,增强应急网络的鲁棒性,但需要无人机之间建立良好的协作关系能够自主分配任务并协同优化飞行路径。现有无人机轨迹优化的方案中,通常使用传统凸优化的方法,但随着任务复杂度的提升这一问题通常变成非凸难以求解,这类方法很难应用在未知多变场景下的无人机应急组网中。综上所述,在复杂的应急组网环境中,多无人机部署无线中继网络主要面临两个挑战:(1)如何最大化无人机的通信效率(如:吞吐量、能效)。(2)如何实现无人机的合作轨迹优化。
对于上述通信效率优化问题,大多数研究将无人机的能效和吞吐量作为主要优化目标。Saxena等人提出了近似策略优化算法来最大化GUs的吞吐量。Zhang等人提出了一个safe-deep-Q-network算法优化无人机飞行轨迹已实现最大化无人机吞吐量和能效。Gupta等人提出了顶点方法和顺序优化算法方法,以无人机轨迹和功耗为优化目标,在一定的用户间公平性下,实现了地面用户的吞吐量最大化。Zhang等人采用逐次凸逼近的方法,优化中继节点无人机的轨迹和信号发射功率,实现最大吞吐量和最优功耗。在上述算法中,无人机只根据当前获得的状态信息执行行动,而没有感知到地面用户和其他无人机的运动趋势,这就降低了无人机的通信效率。
对于无人机的合作轨迹优化,以前的工作主要是建立无人机的有效合作策略。Wu等人提出了一种基于联合的多代理深度确定性策略梯度的轨迹优化算法,以实现平均频谱效率最大化。Liu等人将单无人机Q-learning扩展到多无人机,每次只训练一个无人机,其他无人机的策略固定不变。然而,随着无人机数量的增加和网络拓扑结构的复杂化,无人机在合作优化飞行轨迹时需要考虑不同层次的关联性。此外,无人机和地面用户数量的增加将导致维度的诅咒。
综上所述,在现有方案中,多无人机之间均未建立复杂的协作关系,多智能体协同执行复杂任务问题,通常是一个非凸问题,用传统方法难以求解,而强化学习方法随着动作空间和智能体数量增加会出现维度灾难,制约着无人机组网的规模和节点数量。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种分布式多无人机中继网络覆盖的方法,解决了在复杂环境中无人机集群未建立良好的协同关系得问题并保证每个网络节点的连通性。
本发明的技术方案是这样实现的:
一种分布式多无人机中继网络覆盖的方法,其步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
所述多无人机通讯信道模型的构建方法为:
设置无人机集合为
Figure BDA0004030797770000021
其相对坐标为
Figure BDA0004030797770000022
地面用户集合为
Figure BDA0004030797770000023
其相对坐标为
Figure BDA0004030797770000024
无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
Figure BDA0004030797770000025
其中,
Figure BDA0004030797770000026
为无人机i和无人机j之间的链路损耗,di,j为无人机i和无人机j之间的距离,f0为通讯的载波频率,c为光速,ηLoS为附加衰减系数;
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
Figure BDA0004030797770000031
Figure BDA0004030797770000032
Figure BDA0004030797770000033
其中,
Figure BDA0004030797770000034
表示无人机接受端的平均功率,PU为无人机发射端功率,
Figure BDA0004030797770000035
为无人机通讯信道的信噪比,Ii,j(t)为其它无人机的信道干扰,σ2为加性高斯,
Figure BDA0004030797770000036
为无人机i和无人机j之间的通讯速率,B为通信带宽;
建立无人机与地面设备之间的信道模型:
Figure BDA0004030797770000037
其中,
Figure BDA0004030797770000038
为无人机i和地面设备k之间的通讯速率,
Figure BDA0004030797770000039
为无人机i对地面用户k之间的链路损耗,Ii,k(t)表示为其它无人机的信道干扰;
Figure BDA00040307977700000310
Figure BDA00040307977700000311
Figure BDA00040307977700000312
其中,
Figure BDA00040307977700000313
为视距链路损耗,
Figure BDA00040307977700000314
为非视距链路损耗,di,k(t)为无人机i与地面用户k之间的距离,ηLoS和ηNLoS表示为附加衰减系数;
Figure BDA00040307977700000315
为无人机i对地面用户k视距连接的概率,α、β均为环境因素的常量,θi,k(t)为地面设备到无人机的仰角。
所述能耗模型为:
Figure BDA00040307977700000316
其中,Ei(T)为无人机的总能耗,Pdyn(V(t))为飞行功耗,Pcom为通讯功耗;
Figure BDA00040307977700000317
其中,P0为叶片轮廓功率,Pi为悬停功率,U为叶尖线速度,V表示无人机飞行速度,v0为悬停时转子诱导速度,d0为机身阻力系数,s为电机体积,ρ为空气密度,A为电机面积。
所述协同轨迹优化数学模型为:
Figure BDA0004030797770000041
s.t.C1:Ei(T)≤esafe
Figure BDA0004030797770000042
Figure BDA0004030797770000043
C4:li(t),lk(t)∈Ωtask
C5:Vi<Vmax
C6:ai<amax
Figure BDA0004030797770000044
其中,li(t)为无人机i的位置,
Figure BDA0004030797770000045
是地面用户的速率,M表示用户集合中元素个数,N表示无人机集合中元素个数,esafe表示安全电量,Rmin为节点间建立的最小通讯速率值,
Figure BDA0004030797770000046
为无人机安全域,Ωobs∈R3×1为障碍安全域,
Figure BDA0004030797770000047
为任务限定区域,Vmax为最大速度约束,amax为最大加速的约束。
所述将协同轨迹优化数学模型转换为马尔科夫博弈模型的方法为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数保持不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
Figure BDA0004030797770000048
为无人机i在时隙m的状态
Figure BDA0004030797770000049
li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
A为无人机的动作空间
Figure BDA00040307977700000410
Fi(m)为无人机i在时隙m的飞行驱动力;P表示为状态转移函数Sm+1=P(Sm,Am);R为模型的奖励函数。
所述奖励函数分为通讯奖励、能耗奖励、安全奖励;
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg
Figure BDA00040307977700000411
其中,
Figure BDA0004030797770000051
表示通讯奖励;
将无人机剩余电量作为奖励的一部分,无人机的能耗奖励值为:
Figure BDA0004030797770000052
其中,
Figure BDA0004030797770000053
表示无人机能耗奖励,μ表示能耗奖励系数,e0为无人机安全电量阈值,Ei(m)为无人机剩余电量;
建立一种安全势场,d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
Figure BDA0004030797770000054
其中,
Figure BDA0004030797770000055
表示无人机安全奖励,η表示惩罚系数,λsafe表示无人机速度系数,di,obs(m)表示无人机i与障碍物的距离;
最终,无人机i在时隙m获得的奖励函数为:
Figure BDA0004030797770000056
所述多智能体深度强化学习算法为:
N个无人机的状态集合为
Figure BDA0004030797770000057
Figure BDA0004030797770000058
为每个智能体观测到的局部信息,以及无人机的动作集
Figure BDA0004030797770000059
状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Jii)表示为:
Figure BDA00040307977700000510
其中,
Figure BDA00040307977700000511
为在Sm状态下,所有智能体分别采取
Figure BDA00040307977700000512
动作获得奖励值,πi为每个智能体学习到的策略函数,γ∈[0,1]代表奖励的衰减值;
Figure BDA00040307977700000513
为在a1~π1,…,aN~πN条件下的期望;
引入行动熵的策略梯度公式如下:
Figure BDA00040307977700000514
其中,
Figure BDA00040307977700000515
表示梯度,
Figure BDA00040307977700000516
表示期望折现回报函数,Εo~B,a~π表示期望,
Figure BDA00040307977700000517
为策略函数,其网络输出为每个动作对应的概率值,
Figure BDA00040307977700000518
为评价器,
Figure BDA00040307977700000519
表示所有无人机的局部状态信息,
Figure BDA00040307977700000520
表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值
Figure BDA0004030797770000061
选取的动作值
Figure BDA0004030797770000062
采取动作
Figure BDA0004030797770000063
后的得到的状态值
Figure BDA0004030797770000064
以及对应获得的奖励
Figure BDA0004030797770000065
Figure BDA0004030797770000066
网络的损失函数为:
Figure BDA0004030797770000067
其中,
Figure BDA0004030797770000069
ε∈[0,1],
Figure BDA00040307977700000610
是目标Q值网络,
Figure BDA00040307977700000611
为目标策略网络,
Figure BDA00040307977700000612
是目标批评家网络的网络参数,
Figure BDA00040307977700000613
是目标策略网络的网络参数。
行动器的运行策略为:
每个无人机会部署一个由人工神经网络构成的行动器,行动器根据无人机获取的状态信息输出对应的飞行动作;无人机的行动器中拥有一个缓存空间存储上一时隙的信息
Figure BDA00040307977700000614
与当前状态信息
Figure BDA00040307977700000615
做作差,得到状态的微分值
Figure BDA00040307977700000616
具体公式如下:
Figure BDA00040307977700000617
双数据流结构的行动器网络包括多层感知机层、批归一化层,以及残差连接结构;每个网络分支独立处理状态信息
Figure BDA00040307977700000618
和状态的微分值
Figure BDA00040307977700000619
无人机可以通过额外的
Figure BDA00040307977700000620
信息,感知障碍物、目标或者其他无人机的运动趋势,提前做出合适的动作。
评价器的运行策略为:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
qi=Wqei
ki=Wkei
vi=Wvei
Figure BDA00040307977700000621
H=Vαsoft
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。
与现有技术相比,本发明产生的有益效果为:本发明通过协同优化无人机集群的飞行轨迹和协作策略,实现最大化无人机的网络吞吐量和能效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中多无人机协同路径优化算法流程图。
图2为本发明实施例中多无人机协同路径优化算分结构示意图。
图3为本发明实施例中无人机双数据流行动器的网络结构示意图。
图4为本发明实施例中无人机分层多头注意力编码器的网络结构示意图。
图5为本发明实施例中多无人机仿真训练环境示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和2所示,本发明实施例提供了一种分布式多无人机中继网络覆盖的方法,具体步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
在应急通讯场景中,地面基站数量有限且无法大范围部署,地形复杂未知,地面人员和车辆需要鸟瞰视角以供导航以及稳定高带宽的通讯。部署一种无人机综合服务系统,该系统利用无人机集群与应急网路基站建立无线Mesh网络,将地面应急基站网络范围按需动态扩展。设置无人机集合为
Figure BDA0004030797770000071
其相对坐标为
Figure BDA0004030797770000072
地面用户集合为
Figure BDA0004030797770000073
其相对坐标为
Figure BDA0004030797770000074
地面用户分为快速移动的救援车辆,以恒定速度在路面上行驶,以及移动较慢的救援人员,移动方向不断随机变化。
在多无人机通讯场景中信道环境复杂,为了更符合实际通讯条件,将信道模型设定为空对空链路损耗模型和空对地链路损耗模型,并考虑视距链路损耗和非视距链路损耗。无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
Figure BDA0004030797770000081
其中,
Figure BDA0004030797770000082
为无人机i和无人机j之间的链路损耗,di,j为无人机i和无人机j之间的距离,f0为通讯的载波频率,c为光速,ηLoS为附加衰减系数;
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
Figure BDA0004030797770000083
Figure BDA0004030797770000084
Figure BDA0004030797770000085
其中,
Figure BDA0004030797770000086
表示无人机接受端的平均功率,PU为无人机发射端功率,
Figure BDA0004030797770000087
为无人机通讯信道的信噪比,Ii,j(t)为其它无人机的信道干扰,σ2为加性高斯,
Figure BDA0004030797770000088
为无人机i和无人机j之间的通讯速率,B为通信带宽。
建立无人机与地面用户和基站的信道模型,无人机应急通讯环境复杂多变,空对地的信道模型通常为视距链路损耗模型和非视距链路损耗模型的概率加权组合。由此无人机i对地面用户k之间的链路损耗模型为:
Figure BDA0004030797770000089
Figure BDA00040307977700000810
Figure BDA00040307977700000811
其中,
Figure BDA00040307977700000812
为视距链路损耗,
Figure BDA00040307977700000813
为非视距链路损耗,di,k(t)表示为无人机i与地面用户k之间的距离,ηLoS和ηNLoS表示为附加衰减系数;
Figure BDA00040307977700000814
为无人机i对地面用户k视距连接的概率,α、β均为环境因素的常量,θi,k(t)为地面设备到无人机的仰角。
无人机i和地面设备k之间的通讯速率为:
Figure BDA00040307977700000815
其中,
Figure BDA00040307977700000816
为无人机i和地面设备k之间的通讯速率,
Figure BDA00040307977700000817
为无人机i对地面用户k之间的链路损耗,Ii,k(t)表示为其它无人机的信道干扰;
建立无人机能耗模型,无人机能耗主要由两个部分组成,其分为通信能耗和飞行能耗,通信能耗对于无人机整体能耗占比低,并且浮动较小,因此为了简化系统模型的复杂度,本实施例将通讯部分功耗设为定值Pcom。飞行功耗设定为:
Figure BDA0004030797770000091
其中,P0为叶片轮廓功率,Pi为悬停功率,U为叶尖线速度,V表示无人机飞行速度,v0为悬停时转子诱导速度,d0为机身阻力系数,s为电机体积,ρ为空气密度,A为电机面积。公式的第一项为克服叶片阻力所产生的功耗,公式第三项为克服机身阻力的功耗,这两项随着速度增加而增加。公式第二项为克服叶片产生的诱导阻力的功耗,与速度成反比。最后无人机的总能耗为:
Figure BDA0004030797770000092
其中,Ei(T)为无人机的总能耗,Pdyn(V(t))为飞行功耗,Pcom为通讯功耗。
将网络数据总吞吐量和任务能耗作为优化目标,以实现最大化通信能效,同时所有无人机节点和基站保持一定网络速率的有效通讯。避免无人机之间发生碰撞,并有效规避灾后复杂地形中的障碍物。优化无人机的机动速度与轨迹,降低无人机功耗,以增加留空时间。根据上述问题,本实施例建立了一个多约束多目标的优化模型,通过优化无人机的轨迹和协作策略,来实现最大化通讯能效,具体的数学模型如下:
Figure BDA0004030797770000093
s.t.C1:Ei(T)≤esafe (12)
Figure BDA0004030797770000094
Figure BDA0004030797770000095
C4:li(t),lk(t)∈Ωtask (15)
C5:Vi<Vmax (16)
C6:ai<amax (17)
Figure BDA0004030797770000096
其中,li(t)为无人机i的位置,
Figure BDA0004030797770000097
是地面用户的速率,M表示用户集合中元素个数,N表示无人机集合中元素个数,esafe表示安全电量,Rmin为节点间建立的最小通讯速率值,
Figure BDA0004030797770000098
为无人机安全域,Ωobs∈R3×1为障碍安全域,
Figure BDA0004030797770000099
为任务限定区域,Vmax为最大速度约束,amax为最大加速的约束。约束C1为无人机安全电量限制,确保无人机保留返航电量。约束C2表示网络节点之间通讯速率到达一定数值,以满足地面救援人员与车辆的通讯需求。约束C3中
Figure BDA0004030797770000101
为无人机安全域,Ωobs∈R3×1为障碍安全域,系统会限定无人机无法飞入该区域。约束C4中
Figure BDA0004030797770000102
为任务限定区域,无人机只能在该区域飞行。C5和C6为最大速度约束和最大加速的约束。
协同轨迹优化数学模型是一个混合整数优化问题,很难通过传统的轨迹优化算法来解决。因此,问题被表述为一种马尔科夫博弈问题,可以通过采用多智能体强化学习算法来解决,具体为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数等近似不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
Figure BDA0004030797770000103
为无人机i在时隙m的状态
Figure BDA0004030797770000104
li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
A为无人机的动作空间
Figure BDA0004030797770000105
Fi(m)为无人机i在时隙m的飞行驱动力;P表示为状态转移函数Sm+1=P(Sm,Am),由于模型的状态空间很大,很难提前对状态转移提前建模,强化学习可以很好的解决这类无模型的优化问题。R为模型的奖励函数,是强化学习的能够完成训练的关键,直接影响模型性能。本文的奖励函数分为局部奖励和全局奖励,局部奖励是无人机完成自身任务的奖励,全局奖励是达到某些条件后所有智能体都会获得的奖励,以鼓励无人机之间的合作。奖励函数分为通讯奖励、能耗奖励、安全奖励。
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg
Figure BDA0004030797770000106
其中,
Figure BDA0004030797770000107
表示通讯奖励。
将无人机剩余电量作为奖励的一部分,以最大可能的保存电量,无人机的能耗奖励值为:
Figure BDA0004030797770000108
其中,
Figure BDA0004030797770000109
表示无人机能耗奖励,μ表示能耗奖励系数,e0为无人机安全电量阈值,Ei(m)为无人机剩余电量。
建立一种安全势场,来提高无人机避障功能的学习速度。障碍物、无人机以及服务区边界都建立一个势场,其范围随着速度动态调整,当无人机越靠近势场的中心其惩罚值就越大。d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
Figure BDA0004030797770000111
其中,
Figure BDA0004030797770000112
表示无人机安全奖励,η表示惩罚系数,λsafe表示无人机速度系数,di,obs(m)表示无人机i与障碍物的距离。
最终,无人机i在时隙m获得的奖励函数为:
Figure BDA0004030797770000113
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
利用多智能体深度强化学习来优化上述多无人机协同轨迹优化问题,具体的算法内容如下:
假设N个无人机的状态集合为
Figure BDA0004030797770000114
Figure BDA0004030797770000115
为每个智能体观测到的局部信息,以及无人机的动作集
Figure BDA0004030797770000116
状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Jii)表示为:
Figure BDA0004030797770000117
其中,
Figure BDA0004030797770000118
为在Sm状态下,所有智能体分别采取
Figure BDA0004030797770000119
动作获得奖励值,πi为每个智能体学习到的策略函数,γ∈[0,1]代表奖励的衰减值;
Figure BDA00040307977700001110
表示为在a1~π1,…,aN~πN条件下的期望;最大熵强化学习是在策略梯度的基础上增加了动作采样熵值,当智能选择可能性小的动作时,动作采样熵值就会较大,引入该项后算法会更鼓励智能体探索,避免陷入局部最优解,更适合复杂任务,其中引入行动熵的策略梯度公式如下:
Figure BDA00040307977700001111
其中,
Figure BDA00040307977700001112
表示梯度,
Figure BDA00040307977700001113
表示期望折现回报函数,Εo~B,a~π表示期望,
Figure BDA00040307977700001114
为策略函数,其网络输出为每个动作对应的概率值,
Figure BDA00040307977700001115
为评价器,两者都由人工神经网络构成。本实施例采用集中训练分散式执行的架构,其评价器共享一个损失函数,共同更新参数最小化误差值。
Figure BDA0004030797770000121
表示所有无人机的局部状态信息,
Figure BDA0004030797770000122
表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值
Figure BDA0004030797770000123
选取的动作值
Figure BDA0004030797770000124
采取动作
Figure BDA0004030797770000125
后的得到的状态值
Figure BDA0004030797770000126
以及对应获得的奖励
Figure BDA0004030797770000127
Figure BDA0004030797770000128
网络的损失函数为:
Figure BDA0004030797770000129
其中,
Figure BDA00040307977700001210
ε∈[0,1],
Figure BDA00040307977700001211
是目标Q值网络,
Figure BDA00040307977700001212
为目标策略网络,
Figure BDA00040307977700001213
是目标批评家网络的网络参数,
Figure BDA00040307977700001214
是目标策略网络的网络参数,他们通过ψ和θ网络参数软更新的方式更新,ε为软更新的原数据保留系数。
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;在行动器中构建一种双数据流结构,同时处理无人机的状态信息和状态信息的微分从而提高无人机动态性能。
上述提到的策略网络
Figure BDA00040307977700001215
对应的是强化学习中的行动器,为了无人机更适应动态场景,本发明提出了一种双数据流的行动器网络结构如图3所示,具体内容如下:
每个无人机会部署一个由人工神经网络构成的行动器,行动器根据无人机获取的状态信息输出对应的飞行动作;无人机的行动器中拥有一个缓存空间存储上一时隙的信息
Figure BDA00040307977700001216
与当前状态信息
Figure BDA00040307977700001217
做作差,得到状态的微分值
Figure BDA00040307977700001218
具体公式如下:
Figure BDA00040307977700001219
双数据流结构的行动器网络包括多层感知机层、批归一化层,以及残差连接结构;每个网络分支独立处理状态信息
Figure BDA00040307977700001220
和状态的微分值
Figure BDA00040307977700001221
无人机可以通过额外的
Figure BDA00040307977700001222
信息,感知障碍物、目标或者其他无人机的运动趋势,提前做出合适的动作。另外,增加网络微分信息可以实时监控无人机链路的信号变化趋势,提前做出应对策略,也可以感知到网络节点连接和断开等状态变化的上升沿和下降沿。该动作器网络由人工神经网络构成,由多层感知机(MLP),全连接层(Linear),批归一化(BN)以及残差网络结构组成。
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;在评价器中建立一种分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略。
上述提到的
Figure BDA0004030797770000131
网络为强化学习中的评价器网路,在传统的集中训练分散式执行的训练框架下,每个行动器都分配一个评价器,每个评价器将所有智能的状态信息与动作信息作为输入,输出对应动作的评价值。由此造成两个问题,1、随着智能体以及用户数量的增加,评价器的网络规模会呈指数增加,将会造成维度灾难。2、智能体之间的关系与重要程度是不同的,且随着任务的进行、状态的变化而实时变化,如果评价器均等考虑所有智能体的信息,就会造成过多无关智能体信息的干扰,也很难建立的复杂的协作策略。
为了解决上述问题,本发明提出了一个分层多头注意力编码器,该编码器通过注意力机制,增加关联无人机信息编码权重抑制无关无人机的信息减少干扰,从而建立正确的协助关系,其结构由图4所示,具体内容如下:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
Figure BDA0004030797770000132
Figure BDA0004030797770000133
H=Vαsoft (29)
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。该编码器网络由人工神经网络构成,由多层感知机(MLP),全连接层(Linear),层归一化(LN)以及残差网络结构组成。
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
算法运行平台为Intel Core i9-11900H、NVIDIA GeForce RTX3090、基于python3.6、pytorch1.7软件平台。利用OpenAI的多粒子环境,搭建了一个2km x 2km的正方形区域内构造一个简易路网和地面用户以及障碍物,地面用户沿着道路以随机的速度移动,中心区域架设地面网络基站,无人机集群通过组网中继的方式将基站网络覆盖到用户所在的区域如图5所示。每个无人机配备一个评价器和行动器,评价器根据全部无人机的状态和动作来训练行动器,当完成训练后,每个无人机不再需要评价器,只利用行动器根据自身观测到的局部状态信息,实现多无人机的协同。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种分布式多无人机中继网络覆盖的方法,其特征在于,其步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
2.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述多无人机通讯信道模型的构建方法为:
设置无人机集合为
Figure FDA0004030797760000011
其相对坐标为
Figure FDA0004030797760000012
地面用户集合为
Figure FDA0004030797760000013
其相对坐标为
Figure FDA0004030797760000014
无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
Figure FDA0004030797760000015
其中,
Figure FDA0004030797760000016
为无人机i和无人机j之间的链路损耗,di,j为无人机i和无人机j之间的距离,f0为通讯的载波频率,c为光速,ηLoS为附加衰减系数;
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
Figure FDA0004030797760000017
Figure FDA0004030797760000018
Figure FDA0004030797760000019
其中,
Figure FDA00040307977600000110
表示无人机接受端的平均功率,PU为无人机发射端功率,
Figure FDA00040307977600000111
为无人机通讯信道的信噪比,Ii,j(t)为其它无人机的信道干扰,σ2为加性高斯,
Figure FDA00040307977600000112
为无人机i和无人机j之间的通讯速率,B为通信带宽;
建立无人机与地面设备之间的信道模型:
Figure FDA0004030797760000021
其中,
Figure FDA0004030797760000022
为无人机i和地面设备k之间的通讯速率,
Figure FDA0004030797760000023
为无人机i对地面用户k之间的链路损耗,Ii,k(t)表示为其它无人机的信道干扰;
Figure FDA0004030797760000024
Figure FDA0004030797760000025
Figure FDA0004030797760000026
其中,
Figure FDA0004030797760000027
为视距链路损耗,
Figure FDA0004030797760000028
为非视距链路损耗,di,k(t)为无人机i与地面用户k之间的距离,ηLoS和ηNLoS表示为附加衰减系数;
Figure FDA0004030797760000029
为无人机i对地面用户k视距连接的概率,α、β均为环境因素的常量,θi,k(t)为地面设备到无人机的仰角。
3.根据权利要求2所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述能耗模型为:
Figure FDA00040307977600000210
其中,Ei(T)为无人机的总能耗,Pdyn(V(t))为飞行功耗,Pcom为通讯功耗;
Figure FDA00040307977600000211
其中,P0为叶片轮廓功率,Pi为悬停功率,U为叶尖线速度,V表示无人机飞行速度,v0为悬停时转子诱导速度,d0为机身阻力系数,s为电机体积,ρ为空气密度,A为电机面积。
4.根据权利要求3所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述协同轨迹优化数学模型为:
Figure FDA00040307977600000212
s.t.C1:Ei(T)≤esafe
Figure FDA0004030797760000031
Figure FDA0004030797760000032
C4:li(t),lk(t)∈Ωtask
C5:Vi<Vmax
C6:ai<amax
Figure FDA0004030797760000033
其中,li(t)为无人机i的位置,
Figure FDA0004030797760000034
是地面用户的速率,M表示用户集合中元素个数,N表示无人机集合中元素个数,esafe表示安全电量,Rmin为节点间建立的最小通讯速率值,
Figure FDA0004030797760000035
为无人机安全域,Ωobs∈R3×1为障碍安全域,
Figure FDA0004030797760000036
为任务限定区域,Vmax为最大速度约束,amax为最大加速的约束。
5.根据权利要求4所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述将协同轨迹优化数学模型转换为马尔科夫博弈模型的方法为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数保持不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
Figure FDA0004030797760000037
为无人机i在时隙m的状态
Figure FDA0004030797760000038
li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
A为无人机的动作空间
Figure FDA0004030797760000039
Fi(m)为无人机i在时隙m的飞行驱动力;P表示为状态转移函数Sm+1=P(Sm,Am);R为模型的奖励函数。
6.根据权利要求5所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述奖励函数分为通讯奖励、能耗奖励、安全奖励;
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg
Figure FDA00040307977600000310
其中,
Figure FDA00040307977600000311
表示通讯奖励;
将无人机剩余电量作为奖励的一部分,无人机的能耗奖励值为:
Figure FDA0004030797760000041
其中,
Figure FDA0004030797760000042
表示无人机能耗奖励,m表示能耗奖励系数,e0为无人机安全电量阈值,
Ei(m)为无人机剩余电量;
建立一种安全势场,d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
Figure FDA0004030797760000043
其中,
Figure FDA0004030797760000044
表示无人机安全奖励,η表示惩罚系数,λsafe表示无人机速度系数,di,obs(m)表示无人机i与障碍物的距离;
最终,无人机i在时隙m获得的奖励函数为:
Figure FDA0004030797760000045
7.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述多智能体深度强化学习算法为:
N个无人机的状态集合为
Figure FDA0004030797760000046
Figure FDA0004030797760000047
为每个智能体观测到的局部信息,以及无人机的动作集
Figure FDA0004030797760000048
状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Jii)表示为:
Figure FDA0004030797760000049
其中,
Figure FDA00040307977600000410
为在Sm状态下,所有智能体分别采取
Figure FDA00040307977600000411
动作获得奖励值,πi为每个智能体学习到的策略函数,γ∈[0,1]代表奖励的衰减值;
Figure FDA00040307977600000412
为在a1~π1,…,aN~πN条件下的期望;
引入行动熵的策略梯度公式如下:
Figure FDA00040307977600000413
其中,
Figure FDA00040307977600000414
表示梯度,
Figure FDA00040307977600000415
表示期望折现回报函数,
Figure FDA00040307977600000416
表示期望,
Figure FDA00040307977600000417
为策略函数,其网络输出为每个动作对应的概率值,
Figure FDA00040307977600000418
为评价器,
Figure FDA00040307977600000419
表示所有无人机的局部状态信息,
Figure FDA00040307977600000420
表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值
Figure FDA00040307977600000421
选取的动作值
Figure FDA0004030797760000051
采取动作
Figure FDA0004030797760000052
后的得到的状态值
Figure FDA0004030797760000053
以及对应获得的奖励
Figure FDA0004030797760000054
Figure FDA0004030797760000055
网络的损失函数为:
Figure FDA0004030797760000056
其中,
Figure FDA0004030797760000057
Figure FDA0004030797760000058
Figure FDA0004030797760000059
是目标Q值网络,
Figure FDA00040307977600000510
为目标策略网络,
Figure FDA00040307977600000511
是目标批评家网络的网络参数,
Figure FDA00040307977600000512
是目标策略网络的网络参数。
8.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,行动器的运行策略为:
每个无人机会部署一个由人工神经网络构成的行动器,行动器根据无人机获取的状态信息输出对应的飞行动作;无人机的行动器中拥有一个缓存空间存储上一时隙的信息
Figure FDA00040307977600000513
与当前状态信息
Figure FDA00040307977600000514
做作差,得到状态的微分值
Figure FDA00040307977600000515
具体公式如下:
Figure FDA00040307977600000516
双数据流结构的行动器网络包括多层感知机层、批归一化层,以及残差连接结构;每个网络分支独立处理状态信息
Figure FDA00040307977600000517
和状态的微分值
Figure FDA00040307977600000518
无人机可以通过额外的
Figure FDA00040307977600000519
信息,感知障碍物、目标或者其他无人机的运动趋势,提前做出合适的动作。
9.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,评价器的运行策略为:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
Figure FDA00040307977600000520
Figure FDA00040307977600000521
H=Vαsoft
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。
CN202211741057.8A 2022-12-30 2022-12-30 一种分布式多无人机中继网络覆盖的方法 Pending CN116017479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211741057.8A CN116017479A (zh) 2022-12-30 2022-12-30 一种分布式多无人机中继网络覆盖的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211741057.8A CN116017479A (zh) 2022-12-30 2022-12-30 一种分布式多无人机中继网络覆盖的方法

Publications (1)

Publication Number Publication Date
CN116017479A true CN116017479A (zh) 2023-04-25

Family

ID=86022719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211741057.8A Pending CN116017479A (zh) 2022-12-30 2022-12-30 一种分布式多无人机中继网络覆盖的方法

Country Status (1)

Country Link
CN (1) CN116017479A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN116980881A (zh) * 2023-08-29 2023-10-31 北方工业大学 一种多无人机协作数据分发方法、系统、电子设备及介质
CN116502547B (zh) * 2023-06-29 2024-06-04 深圳大学 一种基于图强化学习的多无人机无线能量传输方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502547A (zh) * 2023-06-29 2023-07-28 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN116502547B (zh) * 2023-06-29 2024-06-04 深圳大学 一种基于图强化学习的多无人机无线能量传输方法
CN116980881A (zh) * 2023-08-29 2023-10-31 北方工业大学 一种多无人机协作数据分发方法、系统、电子设备及介质
CN116980881B (zh) * 2023-08-29 2024-01-23 北方工业大学 一种多无人机协作数据分发方法、系统、电子设备及介质

Similar Documents

Publication Publication Date Title
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110012516B (zh) 一种基于深度强化学习架构的低轨卫星路由策略方法
Bayerlein et al. UAV path planning for wireless data harvesting: A deep reinforcement learning approach
Oubbati et al. Dispatch of UAVs for urban vehicular networks: A deep reinforcement learning approach
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116017479A (zh) 一种分布式多无人机中继网络覆盖的方法
Luo et al. A two-step environment-learning-based method for optimal UAV deployment
Zhou et al. QoE-driven adaptive deployment strategy of multi-UAV networks based on hybrid deep reinforcement learning
Yu et al. Federated imitation learning: A cross-domain knowledge sharing framework for traffic scheduling in 6G ubiquitous IoT
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Wang et al. Learning-based UAV trajectory optimization with collision avoidance and connectivity constraints
CN116700343A (zh) 一种无人机路径规划方法、设备和存储介质
CN115407794A (zh) 基于强化学习的海域安全通信无人机轨迹实时规划方法
Guan et al. Cooperative UAV trajectory design for disaster area emergency communications: A multi-agent PPO method
Ye et al. Exploring both individuality and cooperation for air-ground spatial crowdsourcing by multi-agent deep reinforcement learning
Aboueleneen et al. Deep reinforcement learning for internet of drones networks: issues and research directions
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
Yang et al. Path planning of UAV base station based on deep reinforcement learning
CN115100866B (zh) 一种基于分层强化学习的车路协同自动驾驶决策方法
CN115016540A (zh) 一种多无人机灾情探测方法及系统
Wu et al. A time-efficient and attention-aware deployment strategy for UAV networks driven by deep reinforcement learning
Wang et al. Learning based edge computing in air-to-air communication network
Wang et al. Safety Constrained Trajectory Optimization for Completion Time Minimization for UAV Communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination