CN116017479A - 一种分布式多无人机中继网络覆盖的方法 - Google Patents
一种分布式多无人机中继网络覆盖的方法 Download PDFInfo
- Publication number
- CN116017479A CN116017479A CN202211741057.8A CN202211741057A CN116017479A CN 116017479 A CN116017479 A CN 116017479A CN 202211741057 A CN202211741057 A CN 202211741057A CN 116017479 A CN116017479 A CN 116017479A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- network
- unmanned
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 72
- 238000005457 optimization Methods 0.000 claims abstract description 36
- 238000005265 energy consumption Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 230000000875 corresponding effect Effects 0.000 claims abstract description 17
- 238000013178 mathematical model Methods 0.000 claims abstract description 13
- 230000002787 reinforcement Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 48
- 239000003795 chemical substances by application Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000006698 induction Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种分布式多无人机中继网络覆盖的方法,其步骤为:首先,建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并转换为马尔科夫博弈模型;其次,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;最后,构建了双数据流结构的行动器,以提高无人机的动态性;构建了分层多头注意力编码器,利用注意力机制,使无人机能够抑制冗余信息,增加相关协作无人机的关系权重,从而建立正确复杂的协作关系。本发明通过协同优化无人机集群的飞行轨迹和协作策略,实现最大化无人机的网络吞吐量和能效。
Description
技术领域
本发明涉及多无人机协同的轨迹优化和无线通讯技术领域,特别是指一种分布式多无人机中继网络覆盖的方法,用于多无人机无线中继网络覆盖协同优化轨迹。
背景技术
随着无人机技术快速发展,其已经成为现代社会不可或缺的工具,无人机可以部署在任意复杂环境,配合人类完成各种任务。自然灾害、突发事件、战争等,原有的通信设施受到破坏,无人机可以提供应急的通讯服务。然而由于带宽、覆盖范围和无人机数量的限制,空中基站需要动态部署,按需分配网络资源。无人机动态部署可以在不影响通信质量的前提下减少设备数量,在地面基站故障时及时填补信号覆盖空白。
多无人机之间建立多节点的动态中继组网,可以大大提高网络覆盖半径,增强应急网络的鲁棒性,但需要无人机之间建立良好的协作关系能够自主分配任务并协同优化飞行路径。现有无人机轨迹优化的方案中,通常使用传统凸优化的方法,但随着任务复杂度的提升这一问题通常变成非凸难以求解,这类方法很难应用在未知多变场景下的无人机应急组网中。综上所述,在复杂的应急组网环境中,多无人机部署无线中继网络主要面临两个挑战:(1)如何最大化无人机的通信效率(如:吞吐量、能效)。(2)如何实现无人机的合作轨迹优化。
对于上述通信效率优化问题,大多数研究将无人机的能效和吞吐量作为主要优化目标。Saxena等人提出了近似策略优化算法来最大化GUs的吞吐量。Zhang等人提出了一个safe-deep-Q-network算法优化无人机飞行轨迹已实现最大化无人机吞吐量和能效。Gupta等人提出了顶点方法和顺序优化算法方法,以无人机轨迹和功耗为优化目标,在一定的用户间公平性下,实现了地面用户的吞吐量最大化。Zhang等人采用逐次凸逼近的方法,优化中继节点无人机的轨迹和信号发射功率,实现最大吞吐量和最优功耗。在上述算法中,无人机只根据当前获得的状态信息执行行动,而没有感知到地面用户和其他无人机的运动趋势,这就降低了无人机的通信效率。
对于无人机的合作轨迹优化,以前的工作主要是建立无人机的有效合作策略。Wu等人提出了一种基于联合的多代理深度确定性策略梯度的轨迹优化算法,以实现平均频谱效率最大化。Liu等人将单无人机Q-learning扩展到多无人机,每次只训练一个无人机,其他无人机的策略固定不变。然而,随着无人机数量的增加和网络拓扑结构的复杂化,无人机在合作优化飞行轨迹时需要考虑不同层次的关联性。此外,无人机和地面用户数量的增加将导致维度的诅咒。
综上所述,在现有方案中,多无人机之间均未建立复杂的协作关系,多智能体协同执行复杂任务问题,通常是一个非凸问题,用传统方法难以求解,而强化学习方法随着动作空间和智能体数量增加会出现维度灾难,制约着无人机组网的规模和节点数量。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种分布式多无人机中继网络覆盖的方法,解决了在复杂环境中无人机集群未建立良好的协同关系得问题并保证每个网络节点的连通性。
本发明的技术方案是这样实现的:
一种分布式多无人机中继网络覆盖的方法,其步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
所述多无人机通讯信道模型的构建方法为:
无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
建立无人机与地面设备之间的信道模型:
其中,为视距链路损耗,为非视距链路损耗,di,k(t)为无人机i与地面用户k之间的距离,ηLoS和ηNLoS表示为附加衰减系数;为无人机i对地面用户k视距连接的概率,α、β均为环境因素的常量,θi,k(t)为地面设备到无人机的仰角。
所述能耗模型为:
其中,Ei(T)为无人机的总能耗,Pdyn(V(t))为飞行功耗,Pcom为通讯功耗;
其中,P0为叶片轮廓功率,Pi为悬停功率,U为叶尖线速度,V表示无人机飞行速度,v0为悬停时转子诱导速度,d0为机身阻力系数,s为电机体积,ρ为空气密度,A为电机面积。
所述协同轨迹优化数学模型为:
s.t.C1:Ei(T)≤esafe;
C4:li(t),lk(t)∈Ωtask;
C5:Vi<Vmax;
C6:ai<amax;
其中,li(t)为无人机i的位置,是地面用户的速率,M表示用户集合中元素个数,N表示无人机集合中元素个数,esafe表示安全电量,Rmin为节点间建立的最小通讯速率值,为无人机安全域,Ωobs∈R3×1为障碍安全域,为任务限定区域,Vmax为最大速度约束,amax为最大加速的约束。
所述将协同轨迹优化数学模型转换为马尔科夫博弈模型的方法为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数保持不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
为无人机i在时隙m的状态li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
所述奖励函数分为通讯奖励、能耗奖励、安全奖励;
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg:
将无人机剩余电量作为奖励的一部分,无人机的能耗奖励值为:
建立一种安全势场,d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
最终,无人机i在时隙m获得的奖励函数为:
所述多智能体深度强化学习算法为:
N个无人机的状态集合为 为每个智能体观测到的局部信息,以及无人机的动作集状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Ji(πi)表示为:
引入行动熵的策略梯度公式如下:
其中,表示梯度,表示期望折现回报函数,Εo~B,a~π表示期望,为策略函数,其网络输出为每个动作对应的概率值,为评价器,表示所有无人机的局部状态信息,表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值选取的动作值采取动作后的得到的状态值以及对应获得的奖励
行动器的运行策略为:
每个无人机会部署一个由人工神经网络构成的行动器,行动器根据无人机获取的状态信息输出对应的飞行动作;无人机的行动器中拥有一个缓存空间存储上一时隙的信息与当前状态信息做作差,得到状态的微分值具体公式如下:
双数据流结构的行动器网络包括多层感知机层、批归一化层,以及残差连接结构;每个网络分支独立处理状态信息和状态的微分值无人机可以通过额外的信息,感知障碍物、目标或者其他无人机的运动趋势,提前做出合适的动作。
评价器的运行策略为:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
qi=Wqei
ki=Wkei;
vi=Wvei
H=Vαsoft;
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。
与现有技术相比,本发明产生的有益效果为:本发明通过协同优化无人机集群的飞行轨迹和协作策略,实现最大化无人机的网络吞吐量和能效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中多无人机协同路径优化算法流程图。
图2为本发明实施例中多无人机协同路径优化算分结构示意图。
图3为本发明实施例中无人机双数据流行动器的网络结构示意图。
图4为本发明实施例中无人机分层多头注意力编码器的网络结构示意图。
图5为本发明实施例中多无人机仿真训练环境示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和2所示,本发明实施例提供了一种分布式多无人机中继网络覆盖的方法,具体步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
在应急通讯场景中,地面基站数量有限且无法大范围部署,地形复杂未知,地面人员和车辆需要鸟瞰视角以供导航以及稳定高带宽的通讯。部署一种无人机综合服务系统,该系统利用无人机集群与应急网路基站建立无线Mesh网络,将地面应急基站网络范围按需动态扩展。设置无人机集合为其相对坐标为地面用户集合为其相对坐标为地面用户分为快速移动的救援车辆,以恒定速度在路面上行驶,以及移动较慢的救援人员,移动方向不断随机变化。
在多无人机通讯场景中信道环境复杂,为了更符合实际通讯条件,将信道模型设定为空对空链路损耗模型和空对地链路损耗模型,并考虑视距链路损耗和非视距链路损耗。无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
建立无人机与地面用户和基站的信道模型,无人机应急通讯环境复杂多变,空对地的信道模型通常为视距链路损耗模型和非视距链路损耗模型的概率加权组合。由此无人机i对地面用户k之间的链路损耗模型为:
其中,为视距链路损耗,为非视距链路损耗,di,k(t)表示为无人机i与地面用户k之间的距离,ηLoS和ηNLoS表示为附加衰减系数;为无人机i对地面用户k视距连接的概率,α、β均为环境因素的常量,θi,k(t)为地面设备到无人机的仰角。
无人机i和地面设备k之间的通讯速率为:
建立无人机能耗模型,无人机能耗主要由两个部分组成,其分为通信能耗和飞行能耗,通信能耗对于无人机整体能耗占比低,并且浮动较小,因此为了简化系统模型的复杂度,本实施例将通讯部分功耗设为定值Pcom。飞行功耗设定为:
其中,P0为叶片轮廓功率,Pi为悬停功率,U为叶尖线速度,V表示无人机飞行速度,v0为悬停时转子诱导速度,d0为机身阻力系数,s为电机体积,ρ为空气密度,A为电机面积。公式的第一项为克服叶片阻力所产生的功耗,公式第三项为克服机身阻力的功耗,这两项随着速度增加而增加。公式第二项为克服叶片产生的诱导阻力的功耗,与速度成反比。最后无人机的总能耗为:
其中,Ei(T)为无人机的总能耗,Pdyn(V(t))为飞行功耗,Pcom为通讯功耗。
将网络数据总吞吐量和任务能耗作为优化目标,以实现最大化通信能效,同时所有无人机节点和基站保持一定网络速率的有效通讯。避免无人机之间发生碰撞,并有效规避灾后复杂地形中的障碍物。优化无人机的机动速度与轨迹,降低无人机功耗,以增加留空时间。根据上述问题,本实施例建立了一个多约束多目标的优化模型,通过优化无人机的轨迹和协作策略,来实现最大化通讯能效,具体的数学模型如下:
s.t.C1:Ei(T)≤esafe (12)
C4:li(t),lk(t)∈Ωtask (15)
C5:Vi<Vmax (16)
C6:ai<amax (17)
其中,li(t)为无人机i的位置,是地面用户的速率,M表示用户集合中元素个数,N表示无人机集合中元素个数,esafe表示安全电量,Rmin为节点间建立的最小通讯速率值,为无人机安全域,Ωobs∈R3×1为障碍安全域,为任务限定区域,Vmax为最大速度约束,amax为最大加速的约束。约束C1为无人机安全电量限制,确保无人机保留返航电量。约束C2表示网络节点之间通讯速率到达一定数值,以满足地面救援人员与车辆的通讯需求。约束C3中为无人机安全域,Ωobs∈R3×1为障碍安全域,系统会限定无人机无法飞入该区域。约束C4中为任务限定区域,无人机只能在该区域飞行。C5和C6为最大速度约束和最大加速的约束。
协同轨迹优化数学模型是一个混合整数优化问题,很难通过传统的轨迹优化算法来解决。因此,问题被表述为一种马尔科夫博弈问题,可以通过采用多智能体强化学习算法来解决,具体为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数等近似不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
为无人机i在时隙m的状态li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
A为无人机的动作空间Fi(m)为无人机i在时隙m的飞行驱动力;P表示为状态转移函数Sm+1=P(Sm,Am),由于模型的状态空间很大,很难提前对状态转移提前建模,强化学习可以很好的解决这类无模型的优化问题。R为模型的奖励函数,是强化学习的能够完成训练的关键,直接影响模型性能。本文的奖励函数分为局部奖励和全局奖励,局部奖励是无人机完成自身任务的奖励,全局奖励是达到某些条件后所有智能体都会获得的奖励,以鼓励无人机之间的合作。奖励函数分为通讯奖励、能耗奖励、安全奖励。
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg:
将无人机剩余电量作为奖励的一部分,以最大可能的保存电量,无人机的能耗奖励值为:
建立一种安全势场,来提高无人机避障功能的学习速度。障碍物、无人机以及服务区边界都建立一个势场,其范围随着速度动态调整,当无人机越靠近势场的中心其惩罚值就越大。d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
最终,无人机i在时隙m获得的奖励函数为:
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
利用多智能体深度强化学习来优化上述多无人机协同轨迹优化问题,具体的算法内容如下:
假设N个无人机的状态集合为 为每个智能体观测到的局部信息,以及无人机的动作集状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Ji(πi)表示为:
其中,为在Sm状态下,所有智能体分别采取动作获得奖励值,πi为每个智能体学习到的策略函数,γ∈[0,1]代表奖励的衰减值;表示为在a1~π1,…,aN~πN条件下的期望;最大熵强化学习是在策略梯度的基础上增加了动作采样熵值,当智能选择可能性小的动作时,动作采样熵值就会较大,引入该项后算法会更鼓励智能体探索,避免陷入局部最优解,更适合复杂任务,其中引入行动熵的策略梯度公式如下:
其中,表示梯度,表示期望折现回报函数,Εo~B,a~π表示期望,为策略函数,其网络输出为每个动作对应的概率值,为评价器,两者都由人工神经网络构成。本实施例采用集中训练分散式执行的架构,其评价器共享一个损失函数,共同更新参数最小化误差值。表示所有无人机的局部状态信息,表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值选取的动作值采取动作后的得到的状态值以及对应获得的奖励 网络的损失函数为:
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;在行动器中构建一种双数据流结构,同时处理无人机的状态信息和状态信息的微分从而提高无人机动态性能。
每个无人机会部署一个由人工神经网络构成的行动器,行动器根据无人机获取的状态信息输出对应的飞行动作;无人机的行动器中拥有一个缓存空间存储上一时隙的信息与当前状态信息做作差,得到状态的微分值具体公式如下:
双数据流结构的行动器网络包括多层感知机层、批归一化层,以及残差连接结构;每个网络分支独立处理状态信息和状态的微分值无人机可以通过额外的信息,感知障碍物、目标或者其他无人机的运动趋势,提前做出合适的动作。另外,增加网络微分信息可以实时监控无人机链路的信号变化趋势,提前做出应对策略,也可以感知到网络节点连接和断开等状态变化的上升沿和下降沿。该动作器网络由人工神经网络构成,由多层感知机(MLP),全连接层(Linear),批归一化(BN)以及残差网络结构组成。
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;在评价器中建立一种分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略。
上述提到的网络为强化学习中的评价器网路,在传统的集中训练分散式执行的训练框架下,每个行动器都分配一个评价器,每个评价器将所有智能的状态信息与动作信息作为输入,输出对应动作的评价值。由此造成两个问题,1、随着智能体以及用户数量的增加,评价器的网络规模会呈指数增加,将会造成维度灾难。2、智能体之间的关系与重要程度是不同的,且随着任务的进行、状态的变化而实时变化,如果评价器均等考虑所有智能体的信息,就会造成过多无关智能体信息的干扰,也很难建立的复杂的协作策略。
为了解决上述问题,本发明提出了一个分层多头注意力编码器,该编码器通过注意力机制,增加关联无人机信息编码权重抑制无关无人机的信息减少干扰,从而建立正确的协助关系,其结构由图4所示,具体内容如下:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
H=Vαsoft (29)
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。该编码器网络由人工神经网络构成,由多层感知机(MLP),全连接层(Linear),层归一化(LN)以及残差网络结构组成。
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
算法运行平台为Intel Core i9-11900H、NVIDIA GeForce RTX3090、基于python3.6、pytorch1.7软件平台。利用OpenAI的多粒子环境,搭建了一个2km x 2km的正方形区域内构造一个简易路网和地面用户以及障碍物,地面用户沿着道路以随机的速度移动,中心区域架设地面网络基站,无人机集群通过组网中继的方式将基站网络覆盖到用户所在的区域如图5所示。每个无人机配备一个评价器和行动器,评价器根据全部无人机的状态和动作来训练行动器,当完成训练后,每个无人机不再需要评价器,只利用行动器根据自身观测到的局部状态信息,实现多无人机的协同。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种分布式多无人机中继网络覆盖的方法,其特征在于,其步骤如下:
步骤一:建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型,并将协同轨迹优化数学模型转换为马尔科夫博弈模型;
步骤二:基于马尔科夫博弈模型,搭建集中训练分布式执行的多智能体深度强化学习算法,为每个无人机配备一个行动器和一个评价器,行动器根据无人机状态信息输出飞行轨迹,评价器输出对应的行动价值以训练行动器;
步骤三:针对行动器,建立双数据流结构网络,利用双数据流结构网络处理无人机的状态信息,输出无人机飞行轨迹;
步骤四:针对评价器,建立分层多头注意力编码器,通过注意力机制去除其他无人机的冗余信息,根据任务关联程度生成不同注意力等级,建立有效的合作策略;
步骤五:设计安全势场、吞吐量、无人机能耗相关的奖励函数,引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖;
步骤六:搭建多无人机协同部署中继网络的仿真环境,采用交互式训练的方式,训练每个无人机互相协作完成多跳的中继网络覆盖任务。
2.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述多无人机通讯信道模型的构建方法为:
无人机之间的通讯为视距链路模型,无人机i和无人机j之间的链路损耗模型定义为:
根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率:
建立无人机与地面设备之间的信道模型:
5.根据权利要求4所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述将协同轨迹优化数学模型转换为马尔科夫博弈模型的方法为:
将任务时间T划分为M个时隙m∈[0,Mδt],其满足T=Mδt,在一个时隙内无人机动作、策略、网络参数保持不变;建立马尔科夫博弈过程参数{S,A,P,R},S为状态空间,A为动作空间,P表示为状态转移函数,R为奖励函数,具体定义如下:
为无人机i在时隙m的状态li(m)为无人机i在时隙m的位置,di,j(m)为与其他无人机的相对距离,di,k(m)为与目标服务用户的相对距离,di,obs(m)为与障碍的相对距离,Ri(m)为自身节点的通讯速率,Ei(m)为剩余电量;
6.根据权利要求5所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述奖励函数分为通讯奖励、能耗奖励、安全奖励;
首先建立通信奖励函数,当无人机i与地面用户建立连接后会得到自身奖励rc,以及与此同时该链路上的所有无人机都会得到一个全局联通奖励rg:
将无人机剩余电量作为奖励的一部分,无人机的能耗奖励值为:
Ei(m)为无人机剩余电量;
建立一种安全势场,d代表与障碍和无人机的距离,Dsafe代表安全距离阈值,△d保证分母不为零:
最终,无人机i在时隙m获得的奖励函数为:
7.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,所述多智能体深度强化学习算法为:
N个无人机的状态集合为 为每个智能体观测到的局部信息,以及无人机的动作集状态转换函数为P(Sm+1|Sm,Am),即给定每个智能体当前状态和行动,输出下一时刻状态概率分布;奖励函数R(Sm,Am),给定无人机的当前状态和行动集合,输出每个无人机的奖励;期望折现回报函数Ji(πi)表示为:
引入行动熵的策略梯度公式如下:
其中,表示梯度,表示期望折现回报函数,表示期望,为策略函数,其网络输出为每个动作对应的概率值,为评价器,表示所有无人机的局部状态信息,表示所有无人机的动作,α为动作熵的系数,θi和ψi分别为行动器和评价器的网络参数,B是存储经验的缓冲区,它存储每个无人机时隙m的局部状态观察值选取的动作值采取动作后的得到的状态值以及对应获得的奖励
9.根据权利要求1所述的分布式多无人机中继网络覆盖的方法,其特征在于,评价器的运行策略为:
将注意力模块与评价器结合,通过输入编码器先将每个智能体的状态值与动作值进行编码得到ei,将ei输入分层多头注意力编码器得到ea,再将ea与ei合并输入评价器输出Q值;其中多头注意力模块,每个头拥有三个权重矩阵:Wq、Wk、Wv,分别与每个无人机的状态值与动作值编码值ei相乘得到,qi、ki、vi三个向量,所有无人机的向量组合生成三个编码矩阵Q、K、V;
H=Vαsoft;
其中,αsoft为软注意力权重矩阵,dk为注意力比例因子,αsoft再与V相乘得到输出矩阵H∈{h1,h2,...,hn},hi融合了注意力权重的智能体信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741057.8A CN116017479A (zh) | 2022-12-30 | 2022-12-30 | 一种分布式多无人机中继网络覆盖的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741057.8A CN116017479A (zh) | 2022-12-30 | 2022-12-30 | 一种分布式多无人机中继网络覆盖的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116017479A true CN116017479A (zh) | 2023-04-25 |
Family
ID=86022719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211741057.8A Pending CN116017479A (zh) | 2022-12-30 | 2022-12-30 | 一种分布式多无人机中继网络覆盖的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116017479A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502547A (zh) * | 2023-06-29 | 2023-07-28 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
CN116980881A (zh) * | 2023-08-29 | 2023-10-31 | 北方工业大学 | 一种多无人机协作数据分发方法、系统、电子设备及介质 |
CN116502547B (zh) * | 2023-06-29 | 2024-06-04 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
-
2022
- 2022-12-30 CN CN202211741057.8A patent/CN116017479A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502547A (zh) * | 2023-06-29 | 2023-07-28 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
CN116502547B (zh) * | 2023-06-29 | 2024-06-04 | 深圳大学 | 一种基于图强化学习的多无人机无线能量传输方法 |
CN116980881A (zh) * | 2023-08-29 | 2023-10-31 | 北方工业大学 | 一种多无人机协作数据分发方法、系统、电子设备及介质 |
CN116980881B (zh) * | 2023-08-29 | 2024-01-23 | 北方工业大学 | 一种多无人机协作数据分发方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN110012516B (zh) | 一种基于深度强化学习架构的低轨卫星路由策略方法 | |
Bayerlein et al. | UAV path planning for wireless data harvesting: A deep reinforcement learning approach | |
Oubbati et al. | Dispatch of UAVs for urban vehicular networks: A deep reinforcement learning approach | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN114142908B (zh) | 一种面向覆盖侦察任务的多无人机通信资源分配方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116017479A (zh) | 一种分布式多无人机中继网络覆盖的方法 | |
Luo et al. | A two-step environment-learning-based method for optimal UAV deployment | |
Zhou et al. | QoE-driven adaptive deployment strategy of multi-UAV networks based on hybrid deep reinforcement learning | |
Yu et al. | Federated imitation learning: A cross-domain knowledge sharing framework for traffic scheduling in 6G ubiquitous IoT | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Wang et al. | Learning-based UAV trajectory optimization with collision avoidance and connectivity constraints | |
CN116700343A (zh) | 一种无人机路径规划方法、设备和存储介质 | |
CN115407794A (zh) | 基于强化学习的海域安全通信无人机轨迹实时规划方法 | |
Guan et al. | Cooperative UAV trajectory design for disaster area emergency communications: A multi-agent PPO method | |
Ye et al. | Exploring both individuality and cooperation for air-ground spatial crowdsourcing by multi-agent deep reinforcement learning | |
Aboueleneen et al. | Deep reinforcement learning for internet of drones networks: issues and research directions | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
Yang et al. | Path planning of UAV base station based on deep reinforcement learning | |
CN115100866B (zh) | 一种基于分层强化学习的车路协同自动驾驶决策方法 | |
CN115016540A (zh) | 一种多无人机灾情探测方法及系统 | |
Wu et al. | A time-efficient and attention-aware deployment strategy for UAV networks driven by deep reinforcement learning | |
Wang et al. | Learning based edge computing in air-to-air communication network | |
Wang et al. | Safety Constrained Trajectory Optimization for Completion Time Minimization for UAV Communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |