CN116887355A - 一种多无人机公平协作和任务卸载优化方法及系统 - Google Patents
一种多无人机公平协作和任务卸载优化方法及系统 Download PDFInfo
- Publication number
- CN116887355A CN116887355A CN202310908869.5A CN202310908869A CN116887355A CN 116887355 A CN116887355 A CN 116887355A CN 202310908869 A CN202310908869 A CN 202310908869A CN 116887355 A CN116887355 A CN 116887355A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- task
- target
- user equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000005457 optimization Methods 0.000 title claims abstract description 40
- 238000005265 energy consumption Methods 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000013468 resource allocation Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims description 88
- 230000009471 action Effects 0.000 claims description 41
- 238000010606 normalization Methods 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000004891 communication Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000013439 planning Methods 0.000 claims description 4
- 230000005251 gamma ray Effects 0.000 claims description 3
- 230000010355 oscillation Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0917—Management thereof based on the energy state of entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开一种多无人机公平协作和任务卸载优化方法及系统,通过构建了一个由多用户设备、多无人机组成的两层网络架构,并考虑计算任务双重卸载机制,进一步引入公平性指数;联合考虑无人机轨迹、计算资源分配以及多无人机协作任务分配,在满足任务最小延迟的前提下实现长期无人机最大公平负载和最小功率消耗;将多目标优化问题建模为马尔可夫决策模型,然后提出了基于MADDPG的协作卸载算法,多无人机之间通过信息交互,在动态环境下自适应调整卸载方案,从而得出每个无人机的最佳协作策略,实现所有无人机预期总奖励的最大化,输出有效的飞行轨迹,保证任务成功的情况下均衡无人机负载并节省能耗。
Description
技术领域
本发明涉及一种多无人机公平协作和任务卸载优化方法及系统,属于物联网、无线通信、人工智能领域。
背景技术
随着5G的发展,各种新兴的计算密集型和延迟敏感型应用产生,这对物联网中计算受限的低功耗终端设备提出了严峻挑战。移动边缘计算(MEC,mobile edge computing)作为一种有前途的技术被提出,可以极大减轻物联网终端设备的计算负载。作为嵌入式系统与通信设备的集成,无人机被视为一个典型的网络物理系统(CPS,cyber-physicalsystems),因其部署灵活、响应迅速、覆盖范围广等优点,已在各类边缘计算场景广泛应用。特别是在地面的基础通信设施遭到毁坏时,无人机能够快速覆盖受灾区域,向地面用户提供通信和计算服务,已经成为应急通信领域的有效解决方案。
目前对于单个无人机辅助MEC系统已经有了比较全面的研究,包括任务卸载、轨迹规划、资源管理等。然而,用户的计算需求通常以随机或突发的方式产生,单个无人机完成任务的能力十分有限。因此多个无人机可以通过协作的方式,为移动终端设备提供更广泛的覆盖范围,以及更灵活的任务卸载方案。但目前工作主要集中在离线决策,采用迭代和群集算法求解非凸性优化问题。然而,在高度动态的多无人机环境中,任务的随机分配使得优化问题更加复杂且难以生成可行解。深度强化学习则可以有效解决复杂、动态和非凸性问题。
利用深度强化学习来求解多无人机任务卸载的优化问题是趋势所向,然而在高度动态的MEC环境下,多个无人机之间实现协作存在着一些挑战。现有研究工作均忽略了每个无人机的任务负载的公平性问题,比如部分无人机覆盖范围内的任务过大,导致出现过载情况;而部分无人机所包含区域内需要处理的计算和通信任务较小,剩余资源没有得到充分利用,这将导致多无人机之间无法实现公平、高效的协作。
发明内容
本发明的目的在于解决现有技术中的不足,提供一种多无人机公平协作和任务卸载优化方法及系统。将在由用户设备、无人机构成的两层网络架构下,综合考虑无人机轨迹变化、计算资源分配以及多无人机公平协作等因素,提出了一种基于MADDPG的协作卸载算法。该方法将联合优化多无人机节点的卸载决策和资源分配,以实现高可靠和低时延的应急通信领域应用服务目标。
为了达到上述目的,本发明是通过以下技术方案实现的:
一种多无人机公平协作和任务卸载优化方法,所述方法包括以下步骤:
步骤S1:构建由多地面用户设备、多无人机组成的两层网络架构的多无人机协作任务卸载模型,多无人机协作任务卸载模型包括无人机移动模型、协作传输模型和协作计算模型;
步骤S2:根据构建的多无人机协作任务卸载模型,联合考虑无人机轨迹、计算资源分配以及多无人机协作任务分配提出多目标优化问题,并引入公平性参数作为评估无人机之间的任务卸载公平性的衡量指标;
步骤S3:将多目标优化问题建模为马尔科夫决策问题;
步骤S4:采用MADDPG算法求解马尔科夫决策问题,输出卸载策略,完成优化。
进一步的,无人机作为移动的边缘服务器为地面用户设备提供临时计算服务;在无人机覆盖范围内部署有K个地面用户设备,部署M架无人机,其中每架无人机为其覆盖范围内的多个地面用户设备提供服务,无人机和地面用户设备分别用集合表示;假设无人机的服务时间为T,将T分割为L个长度为δ的时隙t,时隙t的集合定义为t∈{1,2,...,L};
假设在每个时隙t内,地面用户设备k产生计算密集型任务Sk(t)={Dk(t),Ck(t)},其中:Dk(t)表示地面用户设备产生的任务数据量;Ck(t)表示执行此任务所需的CPU周期总数;地面用户设备无法进行本地计算,需要将所有任务卸载至无人机;考虑到地面用户设备计算能力有限无法执行本地计算;无人机受尺寸、重量、功率等因素的限制,能够提供有限的计算和通信资源,计算任务需由无人机协同处理;任务卸载包括两个阶段:地对空阶段卸载和空对空阶段卸载;
协作传输模型主要计算地对空阶段所需的地面用户设备到目标无人机的传输时延和目标无人机的传输能耗及空对空阶段所需要的目标无人机到协作无人机的传输时延和传输能耗;
协作计算模型主要用于计算目标无人机m和协作无人机j之间的任务公平分配所需的计算时延和能耗。
进一步的,步骤S1中所述的无人机移动模型的内容包括:
假设部署每架无人机是为了在一个相应的子区域内为地面用户设备提供服务,并且每个子区域之间没有重叠;
假设所有无人机的飞行高度固定为H,在时隙t时,目标无人机m的水平坐标Lm(t)=[xm(t),ym(t)],假设目标无人机m飞行的角度为φm(t)∈[0,2π),飞行的距离为lm(t)=νm(t)δ,vm(t)为目标无人机m的速度;则下个时隙的X和Y坐标分别为:
xm(t+1)=xm(t)+lm(t)cos[φm(t)] (1)
ym(t+1)=ym(t)+lm(t)sin[φm(t)] (2)
地面用户设备k的坐标定义为Lk(t)=[xk(t),yk(t)],目标无人机m与地面用户设备k之间直线距离定义为dm,k(t),即:
在每个时隙内,无人机的飞行角度和速度保持不变,目标无人机m的位置相对地面用户设备k近似不变;为了保证无人机在服务区域内移动,必须满足移动约束,即:
0≤xm(t)≤Xmax (4)
0≤ym(t)≤Ymax (5)
Xmax和Ymax分别是无人机服务区域的长度和宽度的最大范围;
无人机的水平覆盖半径是R,如果地面用户设备位于某个无人机的覆盖范围内,将由该无人机提供服务;目标无人机与协作无人机m,j之间的距离表示为dm,j(t),为了保证两者覆盖范围不相互重叠,必须满足以下重叠约束:
dm,j(t)≥2R (6)
为了避免任意两架无人机发生碰撞,无人机之间的距离应该不小于安全距离dmin。
进一步的,步骤S1中所述的协作传输模型中地对空阶段传输时延及能耗的计算方法,具体步骤如下:
(1)当目标无人机m接收到地面用户设备k产生的计算任务时,二进制变量αk,m(t)=1时目标无人机m接收此计算任务,否则αk,m(t)=0时目标无人机m未接收此计算任务,且每个地面用户设备k在时隙t内最多与一个无人机进行传输;
设目标无人机m在时隙t处服务的地面用户设备集合为则地面用户设备数量:
(2)计算地对空阶段的路径损耗,路径损耗为:
其中:为目标无人机m与用户设备k之间直线距离,Lm(t)=[xm(t),ym(t)]为目标无人机m的坐标,Lk(t)=[xk(t),yk(t)]为地面用户设备k的坐标,H为无人机的飞行高度,g表示参考距离为1米的功率增益;
(3)从地面用户设备k到目标无人机m的上行传输速率为:
其中,B为无人机带宽;Pk是地面用户设备k的发射功率,σm 2是每架无人机处的加性高斯白噪声功率;
(4)计算用户设备k的任务上行传输时延,在任务卸载过程中,无人机带宽B被平均分配给服务的每个地面用户设备,则地面用户设备k的任务上行传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
(5)计算目标无人机m的传输能耗,目标无人机m的传输能耗为:
其中,是目标无人机m的接收功率。
进一步的,步骤S1中所述的协作传输模型中空对空阶段传输时延及能耗的计算方法,具体步骤如下:
1),目标无人机m在接受到地面用户设备卸载的任务之后,会将任务分为独立的M份,在自己执行计算任务的同时,将M-1份任务发送给其余协作无人机协同计算,在时隙t中目标无人机m承载的地面用户设备k产生的任务比例为γk,m(t)∈[0,1],
2),目标无人机m和协作无人机j之间的路径损耗:
ρm,j(t)=ξ(t)+ηLoS (14)
其中,ηLoS是添加到LoS链路自由空间传播模型中的附加衰减因子;ξ(t)根据自由空间路径损失模型得出:
ξ(t)=20log10[dm,j(t)]+20log10(fc)-147.55 (15)
其中,fc是无人机载波频率,dm,j(t)为目标无人机m与协作无人机j之间的距离;
3),目标无人机m向协作无人机j传输数据的速率为:
其中,B为无人机带宽;是目标无人机m在时隙t的发送功率;σm 2是每架无人机处的加性高斯白噪声功率;G是无人机对无人机之间的信道增益:
其中,Lm,j表示目标无人机m和协作无人机j的水平距离;
4),在时隙t的目标无人机m向协作无人机j传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
5),从目标无人机m到协作无人机j的传输能耗为:
进一步的,从地面用户设备k处接收到任务后,目标无人机m决定自身和协作无人机j计算多少任务;步骤S1中所述的协作计算模型中地对空阶段,目标无人机m计算时延及能耗具体步骤如下:
(Ⅰ),目标无人机m处的计算延迟,考虑在时隙t中目标无人机m承载的地面用户设备k产生的任务比例γk,m(t),目标无人机m处的计算延迟为:
其中,Ck(t)表示执行此任务所需的CPU周期总数;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
(Ⅱ),目标无人机m处理计算任务的能耗为:
其中,q是无人机计算芯片的有效开关电容。
所述的协作计算模型中空对空阶段,无人机之间的任务分配所需时延及能耗,具体步骤如下:
Ⅰ),协作无人机j处的计算延迟为:
其中,fk,j(t)是协作无人机j分配给地面用户设备k的计算资源;
Ⅱ),协作无人机j处的计算能耗:
其中,q是无人机计算芯片的有效开关电容;
协作无人机j处的总时延由无人机-无人机通信传输时延和计算时延组成,表示为:
其中,表示目标无人机m向协作无人机j传输时延,Rm,j(t)表示目标无人机m向协作无人机j传输数据的速率,Dk(t)表示地面用户设备产生的任务数据量。
进一步的,步骤S2中所述的多目标优化问题的内容如下:
由于目标无人机m的计算和传输是同步进行的,任务完成延迟取决于任务每部分的最大值,地面用户设备k在时隙t中产生的任务的总延迟被建模为:
其中,表示地面用户设备k的任务上行传输时延;表示目标无人机m处的计算延迟,Tk,j(t)表示协作无人机j处的总时延;
目标无人机m的总能耗为:
其中,表示从目标无人机m到协作无人机j的传输能耗,表示目标无人机m处理计算任务的能耗,表示目标无人机m的传输能耗;Nm(t)表示地面用户设备数量;
目标无人机m在时隙t内任务负载为:
其中,γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例,Dk(t)表示地面用户设备产生的任务数据量;
然而,直接最大化所有无人机的负载任务导致不公平问题,因为一部分无人机可能会过载,而其余的无人机的计算资源会闲置,导致服务质量较差;
建立公平性指数来评估无人机之间的任务负载公平性:
在满足任务最小延迟的前提下实现长期无人机最大公平负载以及最小功率消耗,多目标优化问题为:
其中,φm(t)∈[0,2π)为目标无人机m飞行的角度;vm(t)为目标无人机的速度;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
vmax是无人机的最大飞行速度;xm(t)、ym(t)为无人机的坐标;Xmax和Ymax分别表示无人机服务区域的长度和宽度的最大范围;dm,j(t)为目标无人机m与协作无人机j之间的距离;R表示无人机的覆盖范围半径;dmin是无人机之间的最小安全距离;αk,m(t)为二进制变量;f是无人机的计算能力,Tk(t)为地面用户设备k在时隙t中产生的任务的总延迟;是地面用户设备k产生任务最大延迟容忍时间,如果超出该时间则任务失败。
进一步的,步骤S3所述的将多目标优化问题建模为马尔科夫决策模型,具体步骤如下:
步骤S3-1:将单个无人机视为一个智能体,用来表示决策模型,是M个无人机的状态集合,是所有无人机的动作集合,Am是目标无人机m的动作空间,是所有无人机的奖励函数集合,P是当前所有智能体描述状态转移概率,λ∈[0,1]代表折扣因子;
步骤S3-2:状态空间包括,状态空间为所有无人机对环境的观察,无人机之间能够彼此交换信息,以便知道所有无人机和地面用户设备的位置,则t时刻的状态空间为:
其中每个无人机采取的动作和当前时刻所在的位置,都会影响当前时隙的环境,而每个无人机的观察为:
其中,xm(t)表示时隙t时目标无人机m的X坐标,ym(t)表示时隙t时目标无人机m的Y坐标;表示上一个时隙目标无人机m的飞行角度归一化值;表示上一个时隙目标无人机m的飞行速度归一化值;表示上一个时隙目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示上一个时隙目标无人机m分配给地面用户设备k的计算资源归一化值;
同样对无人机观察到的空间状态进行归一化,则在t时刻无人机m的观察为:
其中,Xmax和Ymax分别表示无人机服务区域的长度和宽度最大范围;
步骤S3-3:动作空间包括:无人机的动作包括飞行速度、飞行角度、计算资源的分配以及任务计算量分配,则第m个无人机在t时刻的动作表示为:其中,φm(t)为目标无人机m飞行的角度;vm(t)为目标无人机m的速度;γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
四个变量的取值范围分别为φm(t)∈[0,2π),νm(t)∈[0,νmax),γm(t)∈[0,1],fk,m(t)∈[0,f];其中,vmax是无人机的最大飞行速度;f是无人机的计算能力;
此外,为了消除变量多样性对系统性能的影响,对变量进行归一化处理: 归一化处理后,动作空间为:
其中,表示时隙t时的目标无人机m的飞行角度归一化值;表示时隙t时目标无人机m的飞行速度归一化值;表示时隙t时目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示时隙t时目标无人机m分配给地面用户设备k的计算资源归一化值;
步骤S3-4:奖励空间R包括:为了解决公式化的多目标优化问题,M个无人机应该在满足约束的同时最大化任务负载公平、最小化能耗;奖励设计分为公平性奖励、节能奖励以及惩罚;所有无人机的公平性奖励为f(t);然后,在满足所有约束条件的情况下,将目标无人机的节能奖励定义为无人机总能耗Em(t)的负值;如果不满足约束条件,则在奖励函数中将存在相应的惩罚,惩罚定义为:
ηm(t)=ζ1(t)η1+ζ2(t)η2+ζ3(t)η3+ζ4(t)η4 (34)
其中;η1,η2,η3,η4分别表示与界限约束、重叠约束、安全距离约束和任务完成相关的惩罚;如果无人机飞出了界限,则指示符ζ1(t)=1,否则为0;如果无人机的覆盖范围与其他无人机重叠,则指示符ζ2(t)=1,否则为0;当无人机与任意无人机之间的距离不满足安全距离约束,ζ3(t)为1;当无人机覆盖范围内的任务出现失败情况时,无人机的任务惩罚指示符ζ4(t)=1,否则为0;
则在t时刻目标无人机m的奖励函数为:
rm(t)=f(t)-Em(t)-ηm(t) (35)
其中,f(t)表示公平性指数评估无人机之间的任务负载公平性,即所有无人机的公平性奖励;-Em(t)表示无人机m的总能耗的负数,即节能奖励。
进一步的,步骤S4所述的采用MADDPG算法求解马尔科夫决策问题,输出卸载策略采用MADDPG算法求解马尔科夫决策问题,输出卸载策略,具体步骤如下:
每个无人机上由Actor模块、Critic模块和经验存储器组成;Actor模块的输入为每个无人机的局部观测值,输出为动作;Critic模块在集中式训练阶段期间工作,可以访问所有无人机的观察和动作来评估Actor模块的输出;
每个无人机的目标是找到一个策略最大化自己的奖励rm(t);所有无人机通过协作以实现总奖励的最大化:
其中,rm(t)表示在t时刻目标无人机m的奖励函数;
Actor模块和Critic模块各有两个神经网络构成,分别为目标网络和评价网络,则Actor模块和Critic模块的评价网络分别为和每个模块的评价网络都有对应的目标网络,分别为和其中为Actor目标网络参数,为Critic目标网络参数,、om为每个无人机的观察,s是状态空间,am是动作空间;
步骤S4-1:初始化四个神经网络的参数和经验存储器,在每个训练轮次中,无人机根据自身观察om(t),由Actor模块评价网络输出动作am(t)=μm(om(t)),所有无人机都执行飞行角度φm(t)、飞行速度vm(t)、无人机分配给地面用户设备的计算资源fk,m(t)以及在时隙t无人机承载的地面用户设备的任务比例γk,m(t),所有无人机执行完动作得到共同奖励r(t)和下一时刻环境状态s(t+1);
步骤S4-2:使用经验回放机制,在每个时隙中,所有无人机可以将自身产生的经验元组(a(t),r(t),s(t),s(t+1))存储到大小为的经验存储器中,其中a(t)={a1(t),a2(t),...,aM(t)};如果经验存储器已满,则新生成的经验元组将替换旧的经验元组;Actor模块和Critic模块可以通过在经验存储器中批量采样,获得训练数据;每个无人机都在经验存储器中随机采样一批大小为Mb的样本(ai,ri,si,si+1),随机采样可以打破样本数据之间的相关性,并减少训练振荡;
步骤S4-3:通过最小化损失来更新无人机m的Critic评价网络参数
其中,Mb表示样本的大小,表示Critic模块中第i个样本的评价网络,s(i)表示第i个样本的状态空间,a(i)表示第i个样本的动作空间,ym(i)为:
其中,ε为折扣因子,rm(i)表示无人机中第i个样本的最大化奖励,表示Critic模块中第i+1个样本的目标网络;
每个无人机使用策略梯度更新Actor评价网络的参数
Actor模块和Critic模块的目标网络参数采用软更新的方式,分别为
其中,为每个无人机的Actor评价网络参数,为Actor目标网络参数,为Critic评价网络参数,为Critic目标网络参数,τ为更新率。
一种多无人机公平协作和任务卸载优化方法构建的系统,所述系统包括无人机移动模块、协作传输模块和协作计算模块;
所述无人机移动模块主要负责规划无人机运动轨迹,以节省能量避免碰撞,运动轨迹包括飞行角度、飞行速度;
所述协作传输模块主要用于计算地对空阶段和空对空阶段的任务卸载所需要的传输时延及能耗;
所述协作计算模块,当无人机从地面用户接收到任务后,主要用于计算当前无人机和协作无人机之间的任务公平分配所需要的计算时延及能耗。
本发明具有以下有益效果:1)针对应急通信场景下多无人机任务卸载问题,本专利构建了一个由多用户设备、多无人机组成的两层网络架构,并考虑计算任务双重卸载机制,进一步引入公平性指数作为评估无人机之间的任务负载公平性的衡量指标。联合考虑无人机轨迹、计算资源分配以及多无人机协作任务分配,在满足任务最小延迟的前提下实现长期无人机最大公平负载和最小功率消耗。
2)针对多无人机协作环境动态变化的问题,本专利将所提出的任务卸载优化问题建模为多智能体马尔可夫决策模型,然后提出了基于MADDPG的协作卸载算法。多无人机之间通过信息交互,可能在动态环境下自适应调整卸载方案,从而得出每个无人机的最佳协作策略,实现所有无人机预期总奖励的最大化。
3)仿真结果表示,本文提出的无人机协作卸载方案可以输出有效的飞行轨迹,保证任务成功的情况下均衡无人机负载并节省能耗。与其他卸载方案和决策算法相比,本文方案更适用于多无人机和多用户场景,且系统性能得到了有效提升。
附图说明
图1是本发明中多无人机协作任务卸载系统模型图;
图2是协同计算卸载框架图;
图3是多无人机协作卸载算法框架;
图4是系统运行流程图;
图5无人机飞行轨迹示意图;
图6无人机任务协作分配图;
图7不同卸载方案下的系统能耗图。
具体实施方式
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图1所示,一种多无人机公平协作和任务卸载优化方法构建的系统,所述系统包括无人机移动模块、协作传输模块和协作计算模块;
所述无人机移动模块,该模块主要负责规划无人机运动轨迹,以节省能量避免碰撞,运动轨迹包括飞行角度、飞行速度;
所述协作传输模块,该模块主要用于计算地对空阶段和空对空阶段的任务卸载所需要的传输时延及能耗;
所述协作计算模块,当无人机从地面用户接收到任务后,该模块主要用于计算当前无人机和协作无人机之间的任务公平分配所需要的计算时延及能耗。
一种多无人机公平协作和任务卸载优化方法,所述方法包括以下步骤:
步骤S1:构建由多地面用户设备、多无人机组成的两层网络架构的多无人机协作任务卸载模型,多无人机协作任务卸载模型包括无人机移动模型、协作传输模型和协作计算模型;
步骤S2:根据构建的多无人机协作任务卸载模型,联合考虑无人机轨迹、计算资源分配以及多无人机协作任务分配提出多目标优化问题,并引入公平性参数作为评估无人机之间的任务卸载公平性的衡量指标;
步骤S3:将多目标优化问题建模为马尔科夫决策问题;
步骤S4:采用MADDPG算法求解马尔科夫决策问题,输出卸载策略,完成优化。
进一步的,对于无人机移动模型,当该地区的基站因为自然灾害而无法使用,无人机作为移动的边缘服务器为地面用户设备提供临时计算服务;在无人机覆盖范围内部署有K个地面用户设备,部署M架无人机,其中每架无人机为其覆盖范围内的多个地面用户设备提供服务,无人机和地面用户设备分别用集合表示;假设无人机的服务时间为T,将T分割为L个长度为δ的时隙t,时隙t的集合定义为t∈{1,2,...,L};
假设部署每架无人机是为了在一个相应的子区域内为地面用户设备提供服务,并且每个子区域之间没有重叠;
假设所有无人机的飞行高度固定为H,在时隙t时,目标无人机m的水平坐标Lm(t)=[xm(t),ym(t)],假设目标无人机m飞行的角度为φm(t)∈[0,2π),飞行的距离为lm(t)=νm(t)δ,vm(t)为目标无人机m的速度;则下个时隙的X和Y坐标分别为:
xm(t+1)=xm(t)+lm(t)cos[φm(t)] (1)
ym(t+1)=ym(t)+lm(t)sin[φm(t)] (2)
地面用户设备k的坐标定义为Lk(t)=[xk(t),yk(t)],目标无人机m与地面用户设备k之间直线距离定义为dm,k(t),即:
在每个时隙内,无人机的飞行角度和速度保持不变,目标无人机m的位置相对地面用户设备k近似不变;此外,为了保证无人机在服务区域内移动,必须满足移动约束,即:
0≤xm(t)≤Xmax (4)
0≤ym(t)≤Ymax (5)
Xmax和Ymax分别是无人机服务区域的长度和宽度的最大范围;
无人机的水平覆盖半径是R,如果地面用户设备位于某个无人机的覆盖范围内,将由该无人机提供服务;目标无人机与协作无人机m,j之间的距离表示为dm,j(t),为了保证两者覆盖范围不相互重叠,必须满足以下重叠约束:
dm,j(t)≥2R (6)
为了避免任意两架无人机发生碰撞,无人机之间的距离应该不小于安全距离dmin。在仿真实验中,dmin设置为1。
进一步的,对于协作传输模型,假设在每个时隙t内,地面用户设备k产生计算密集型任务Sk(t)={Dk(t),Ck(t)},其中:Dk(t)表示地面用户设备产生的任务数据量;Ck(t)表示执行此任务所需的CPU周期总数;地面用户设备无法进行本地计算,需要将所有任务卸载至无人机;考虑到地面用户设备计算能力有限无法执行本地计算;无人机受尺寸、重量、功率等因素的限制,能够提供有限的计算和通信资源,计算任务需由无人机协同处理;任务卸载包括两个阶段:地对空阶段卸载和空对空阶段卸载;
协作传输模型主要计算地对空阶段所需的地面用户设备到目标无人机的传输时延和目标无人机的传输能耗及空对空阶段所需要的目标无人机到协作无人机的传输时延和传输能耗;
协作计算模型主要用于计算目标无人机m和协作无人机j之间的任务公平分配所需的计算时延和能耗。如图2所述,协同计算卸载框架图。
进一步的,协作传输模型中地对空阶段传输时延及能耗的计算方法,具体步骤如下:
(1)当目标无人机m接收到地面用户设备k产生的计算任务时,二进制变量αk,m(t)=1时目标无人机m接收此计算任务,否则αk,m(t)=0时目标无人机m未接收此计算任务,且每个地面用户设备k在时隙t内最多与一个无人机进行传输;
设目标无人机m在时隙t处服务的地面用户设备集合为则地面用户设备数量:
(2)计算地对空阶段的路径损耗,路径损耗为:
其中:为目标无人机m与用户设备k之间直线距离,Lm(t)=[xm(t),ym(t)]为目标无人机m的坐标,Lk(t)=[xk(t),yk(t)]为地面用户设备k的坐标,H为无人机的飞行高度,g表示参考距离为1米的功率增益;
(3)计算从地面用户设备k到目标无人机m的上行传输速率为:
其中,B为无人机带宽;Pk是地面用户设备k的发射功率,σm 2是每架无人机处的加性高斯白噪声功率;
(4)计算用户设备k的任务上行传输时延,在任务卸载过程中,无人机带宽B被平均分配给服务的每个地面用户设备,则地面用户设备k的任务上行传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
(5)计算目标无人机m的传输能耗,目标无人机m的传输能耗为:
其中,是目标无人机m的接收功率。
进一步的,协作传输模型中空对空阶段传输时延及能耗的计算方法,具体步骤如下:
1),目标无人机m在接受到地面用户设备卸载的任务之后,会将任务分为独立的M份(一个无人机处理一个任务,M个无人机即独立的M份任务),在自己执行计算任务的同时,将M-1份任务发送给其余协作无人机协同计算,在时隙t中目标无人机m承载的地面用户设备k产生的任务比例为γk,m(t)∈[0,1],
2),目标无人机m和协作无人机j之间的路径损耗:
ρm,j(t)=ξ(t)+ηLoS (14)
其中,ηLoS是添加到LoS链路自由空间传播模型中的附加衰减因子;ξ(t)根据自由空间路径损失模型得出:
ξ(t)=20log10[dm,j(t)]+20log10(fc)-147.55 (15)
其中,fc是无人机载波频率,dm,j(t)为目标无人机m与协作无人机j之间直线距离;
3),目标无人机m向协作无人机j传输数据的速率为:
其中,B为无人机带宽;是目标无人机m在时隙t的发送功率;σm 2是每架无人机处的加性高斯白噪声功率;G是无人机对无人机之间的信道增益:
其中,Lm,j表示目标无人机m和协作无人机j的水平距离;
此外,无人机将带宽平均分配给其余无人机。注意,无人机的带宽正交分为两部分:(1)与用户设备数据传输的带宽;(2)无人机之间数据传输带宽。因此,两阶段卸载的数据传输之间没有干扰。
4),在时隙t的目标无人机m向协作无人机j传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
5),从目标无人机m到协作无人机j的传输能耗为:
进一步的,对于协作计算模型,从地面用户设备k接收到任务后,目标无人m向协作无人机j计算多少任务。对于地对空阶段,目标无人机m计算时延及能耗具体步骤如下:
(Ⅰ),目标无人机m处的计算延迟,考虑在时隙t中目标无人机m承载的地面用户设备k产生的任务比例γk,m(t),目标无人机m处的计算延迟为:
其中,Ck(t)表示执行此任务所需的CPU周期总数;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
(Ⅱ),目标无人机m处理计算任务的能耗为:
其中,q是无人机计算芯片的有效开关电容。
进一步的,协作计算模型中关于空对空阶段,无人机之间的任务分配所需时延及能耗,具体步骤如下:
Ⅰ),协作无人机j处的计算延迟为:
其中,γk,m(t)在时隙t中目标无人机m承载的地面用户设备k产生的任务比例;Ck(t)表示执行此任务所需的CPU周期总数;fk,j(t)是协作无人机j分配给地面用户设备k的计算资源;
Ⅱ),协作无人机j处的计算能耗:
其中,q是无人机计算芯片的有效开关电容;
协作无人机j处的总时延由无人机-无人机通信传输时延和计算时延组成,表示为:
其中,表示目标无人机m向协作无人机j传输时延,Rm,j(t)表示目标无人机m向协作无人机j传输数据的速率,Dk(t)表示地面用户设备产生的任务数据量。
由于目标无人机m的计算和传输是同步进行的,任务完成延迟取决于任务每部分的最大值,地面用户设备k在时隙t中产生的任务的总延迟被建模为:
其中,表示地面用户设备k的任务上行传输时延;表示目标无人机m处的计算延迟,Tk,j(t)表示协作无人机j处的总时延;
无人机m的总能耗包括协作无人机传输任务的能耗、计算以及协作计算的能耗、接收服务区域内地面用户任务的能耗,目标无人机m的总能耗为:
其中,表示从目标无人机m到协作无人机j的传输能耗,表示目标无人机m处理计算任务的能耗,表示目标无人机m的传输能耗;Nm(t)表示地面用户设备数量;
在协作模块中,每个无人机可能就是那到所有地面用户设备k产生的任务,那么目标无人机m在时隙t内任务负载为:
其中,γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例,Dk(t)表示地面用户设备产生的任务数据量;
然而,直接最大化所有无人机的负载任务可能导致不公平问题,因为一部分无人机可能会过载,而其余的无人机的计算资源会闲置,导致服务质量较差;
建立公平性指数来评估无人机之间的任务负载公平性:
综上,提出一个多多目标优化问题,该问题联合考虑无人机轨迹。计算资源分配以及多无人机协作任务分配,在满足任务最小延迟的前提下实现长期无人机最大公平负载以及最小功率消耗:
其中,φm(t)∈[0,2π)为目标无人机m飞行的角度;vm(t)为目标无人机的速度;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
vmax是无人机的最大飞行速度;xm(t)、ym(t)为无人机的坐标;Xmax和Ymax分别表示无人机服务区域的长度和宽度的最大范围;dm,j(t)为目标无人机m与协作无人机j之间的距离;R表示无人机的覆盖范围半径;dmin是无人机之间的最小安全距离;αk,m(t)为二进制变量;f是无人机的计算能力,Tk(t)为地面用户设备k在时隙t中产生的任务的总延迟;是地面用户设备k产生任务最大延迟容忍时间,如果超出该时间则任务失败。
针对优化问题,公平性指数f(t)与目标无人机m在时隙t内任务负载Dm(t)有关,无人机m的总能耗Em(t)与目标无人机m的飞行角度φm(t)、目标无人机m的飞行速度νm(t)、目标无人机m承载的地面用户设备k产生的任务比例γk,m(t)、目标无人机m分配给地面用户设备k的计算资源fk,m(t)有关。
在无人机移动模块中,约束C1表示无人机的速度不能超过最大值,约束C2、C3、C4、C5描述了无人机的轨迹约束;
在协作传输模块中,约束C6意味着地面用户设备k同一时隙中最多可以关联一个无人机,约束C7表示表示多个任务部分的总大小等于任务的大小;
在协作计算模块中,约束C8表示无人机分配给各任务的计算能力之和为无人机计算总能力,约束C9表示完成任务的时延必须在可承受范围内。
面向多用户设备计算任务时变、多无人机高度动态的计算任务卸载场景,某些未知变量(即无人机的位置和信道条件)可以影响能量消耗和执行延迟,特别是在由无人机的移动性引起的动态网络中,因此优化问题P1是一个大规模、高维度且具有诸多限制条件的复杂问题,即使能够描述出这种移动边缘计算的卸载模型及问题,求解过程也会相当困难。此外,决策解空间较大,用传统的优化方法很难得到最优策略。为了解决这些挑战,本专利面向多无人机协作移动边缘计算任务卸载,设计了一种多无人机公平协作和任务卸载方法,以在较少环境信息的情况下学习接近最优的策略。
如图3所示,多无人机协作卸载算法框架。进一步的,马尔科夫决策过程包括:
步骤S3-1:将单个无人机视为一个智能体,用来表示决策模型,是M个无人机的状态集合,是所有无人机的动作集合,Am是目标无人机m的动作空间,是所有无人机的奖励函数集合,P是当前所有智能体描述状态转移概率,λ∈[0,1]代表折扣因子;
步骤S3-2:状态空间S包括,状态空间为所有无人机对环境的观察,无人机之间能够彼此交换信息,以便知道所有无人机和地面用户设备的位置,则t时刻的状态空间为:
其中每个无人机采取的动作和当前时刻所在的位置,都会影响当前时隙的环境,而每个无人机的观察为:
其中,xm(t)表示时隙t时目标无人机m的X坐标,ym(t)表示时隙t时目标无人机m的Y坐标;表示上一个时隙目标无人机m的飞行角度归一化值;表示上一个时隙目标无人机m的飞行速度归一化值;表示上一个时隙目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示上一个时隙目标无人机m分配给地面用户设备k的计算资源归一化值;
同样对无人机观察到的空间状态进行归一化,则在t时刻无人机m的观察为:
其中,Xmax和Ymax分别表示无人机服务区域的长度和宽度最大范围;
步骤S3-3:动作空间包括:无人机的动作包括飞行轨迹(飞行速度和角度)、计算资源的分配以及任务计算量分配,则第m个无人机在t时刻的动作表示为:其中,φm(t)为目标无人机m飞行的角度;vm(t)为目标无人机m的速度;γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
根据约束条件(C1-C9),四个变量的取值范围分别为φm(t)∈[0,2π),νm(t)∈[0,νmax),γm(t)∈[0,1],fk,m(t)∈[0,f];其中,vmax是无人机的最大飞行速度;f是无人机的计算能力;
此外,为了消除变量多样性对系统性能的影响,对变量进行归一化处理: 归一化处理后,动作空间为:
其中,表示时隙t时的目标无人机m的飞行角度归一化值;表示时隙t时目标无人机m的飞行速度归一化值;表示时隙t时目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示时隙t时目标无人机m分配给地面用户设备k的计算资源归一化值;
步骤S3-4:奖励空间R包括:为了解决公式化的多目标优化问题,M个无人机应该在满足约束的同时最大化任务负载公平、最小化能耗;奖励设计分为公平性奖励、节能奖励以及惩罚;所有无人机的公平性奖励为f(t);然后,在满足所有约束条件(C1-C9)的情况下,将目标无人机的节能奖励定义为无人机总能耗Em(t)的负值;如果不满足约束条件(C1-C9),则在奖励函数中将存在相应的惩罚,惩罚定义为:
ηm(t)=ζ1(t)η1+ζ2(t)η2+ζ3(t)η3+ζ4(t)η4 (34)
其中;η1,η2,η3,η4分别表示与界限约束(C2,C3)、重叠约束(C4)、安全距离约束(C5)和任务完成(C9)相关的惩罚;如果无人机飞出了界限,则指示符ζ1(t)=1,否则为0;如果无人机的覆盖范围与其他无人机重叠,则指示符ζ2(t)=1,否则为0;当无人机与任意无人机之间的距离不满足安全距离约束,ζ3(t)为1;当无人机覆盖范围内的任务出现失败情况时,无人机的任务惩罚指示符ζ4(t)=1,否则为0;
则在t时刻目标无人机m的奖励函数为:
rm(t)=f(t)-Em(t)-ηm(t) (35)
其中,f(t)表示公平性指数评估无人机之间的任务负载公平性,即所有无人机的公平性奖励;-Em(t)表示无人机m的总能耗的负数,即节能奖励。
进一步的,如图4所示,基于前面构建的三个系统功能模块,利用MADDPG算法求解;步骤S4中每个无人机上由Actor模块、Critic模块和经验存储器组成。Actor模块的输入为每个无人机的局部观测值,输出为动作;Critic模块在集中式训练阶段期间工作,可以访问所有无人机的观察和动作来评估Actor模块的输出;每个无人机的目标是找到一个策略最大化自己的奖励rm(t)。
所有无人机通过协作以实现总奖励的最大化:
其中,rm(t)表示在t时刻目标无人机m的奖励函数;
Actor模块和Critic模块各有两个神经网络构成,分别为目标网络和评价网络,则Actor模块和Critic模块的评价网络分别为和每个模块的评价网络都有对应的目标网络,分别为和其中为Actor目标网络参数,为Critic目标网络参数,、om为每个无人机的观察,s是状态空间,am是动作空间;
步骤S4-1:初始化四个神经网络的参数和经验存储器,在每个训练轮次中,无人机根据自身观察om(t),由Actor模块评价网络输出动作am(t)=μm(om(t)),所有无人机都执行飞行角度φm(t)、飞行速度vm(t)、无人机分配给地面用户设备的计算资源fk,m(t)以及在时隙t无人机承载的地面用户设备的任务比例γk,m(t),所有无人机执行完动作得到共同奖励r(t)和下一时刻环境状态s(t+1);
步骤S4-2:使用经验回放机制,在每个时隙中,所有无人机可以将自身产生的经验元组(a(t),r(t),s(t),s(t+1))存储到大小为B的经验存储器中,其中a(t)={a1(t),a2(t),...,aM(t)};如果经验存储器已满,则新生成的经验元组将替换旧的经验元组;Actor模块和Critic模块可以通过在经验存储器中批量采样,获得训练数据;每个无人机都在经验存储器中随机采样一批大小为Mb的样本(ai,ri,si,si+1),随机采样可以打破样本数据之间的相关性,并减少训练振荡;
步骤S4-3:通过最小化损失来更新无人机m的Critic评价网络参数
其中,Mb表示样本的大小,表示Critic模块中第i个样本的评价网络,s(i)表示第i个样本的状态空间,a(i)表示第i个样本的动作空间,ym(i)为:
其中,ε为折扣因子,rm(i)表示无人机中第i个样本的最大化奖励,表示Critic模块中第i+1个样本的目标网络;
每个无人机使用策略梯度更新Actor评价网络的参数
Actor模块和Critic模块的目标网络参数采用软更新的方式,分别为
其中,为每个无人机的Actor评价网络参数,为Actor目标网络参数,为Critic评价网络参数,为Critic目标网络参数,τ为更新率。在分布式执行阶段,无人机的飞行方向、计算资源和任务分配的决定是基于训练完成的神经网络执行。
为了更清晰的表达方法流程,给出步骤S4的伪代码:
如图5、6、7所示,本实施例在Python 3.8.13和PyTorch 1.12.1平台上对所提的多无人机协作架构和决策算法的有效性进行了性能验证,计算机环境为Ubuntu 20.04.5、Intel Xeon Gold 5218R CPU、NVIDIA GeForce RTX 3090。多个地面用户分布在面积为400×400m2的区域内,多个无人机为地面用户提供计算服务,飞行高度固定为50m,服务半径为20m,每个时隙长度为0.5s。具体的系统模型参数和算法设置分别如表1和表2所示。
表1系统参数设置
表2算法参数设置
首先针对多无人机协作架构和算法进行了仿真,验证无人机轨迹和任务分配策略的有效性。然后与3种方案或算法进行了对比验证,证明了本方案在系统性能上的提升。
本实施例设置3架无人机在固定区域内向20个用户设备提供计算服务,用户设备随机分布在区域内。无人机飞行轨迹如图5所示,三架无人机同时从区域中心出发,因为无人机服务范围有限,它们必须移动以尽可能服务更多的用户设备。此外,各架无人机以合作的方式覆盖区域,“无人机2”从初始位置移动到右下角以服务更多用户设备,而后和“无人机3”一起移动到右上角处理该区域中的用户设备任务。
图6呈现了最优任务协作分配策略。由于3个无人机分别覆盖3个用户设备热点区域,因此部分用户设备的任务超过50%由其目标无人机进行计算,其余部分由另外两个无人机协作完成。此外,对于计算任务较大的用户设备,或者在目标无人机当前计算负载较大时,该任务将综合考虑传输功耗和任务完成时延进行分配。
为了验证协作架构和算法的优越性,本实施例将其与以下3种方案进行对比:
1)无协作方案:所有任务均在单个无人机上进行处理,不再卸载给其他无人机,但仍使用MADDPG决策飞行轨迹和计算资源分配。
2)深度确定性策略梯度(DDPG,deep deterministic policy gradient)决策:DDPG是一种单智能体深度强化学习算法,采用集中式决策输出所有无人机的动作。
3)随机方案:无人机随机选择自身动作,包括飞行轨迹、计算资源分配和任务分配。
本实施例首先在3架无人机,20个用户设备的环境下对不同策略下的系统能耗进行了对比,图7给出了不同卸载方案下的系统总能耗。本专利提出的算法通过联合优化无人机飞行轨迹和任务分配,在保证任务成功完成的同时,可优化系统总能耗,与基于DDPG的方案比较,能耗平均降低了34%。无协作方案由于无人机之间无任务交互,通信能耗较小。
以上显示和描述了本发明的基本原理、主要特征及优点。但是以上所述仅为本发明的具体实施例,本发明的技术特征并不局限于此,任何本领域的技术人员在不脱离本发明的技术方案下得出的其他实施方式均应涵盖在本发明的专利范围之中。
Claims (10)
1.一种多无人机公平协作和任务卸载优化方法,其特征在于,所述方法包括以下步骤:
步骤S1:构建由多地面用户设备、多无人机组成的两层网络架构的多无人机协作任务卸载模型,多无人机协作任务卸载模型包括无人机移动模型、协作传输模型和协作计算模型;
步骤S2:根据构建的多无人机协作任务卸载模型,联合考虑无人机轨迹、计算资源分配以及多无人机协作任务分配提出多目标优化问题,并引入公平性指数作为评估无人机之间的任务卸载公平性的衡量指标;
步骤S3:将多目标优化问题建模为马尔科夫决策问题;
步骤S4:采用MADDPG算法求解马尔科夫决策问题,输出卸载策略,完成优化。
2.根据权利要求1所述的多无人机公平协作和卸载任务优化方法,其特征在于,无人机作为移动的边缘服务器为地面用户设备提供临时计算服务;在无人机覆盖范围内部署有K个地面用户设备,部署M架无人机,其中每架无人机为其覆盖范围内的多个地面用户设备提供服务,无人机和地面用户设备分别用集合表示;假设无人机的服务时间为T,将T分割为L个长度为δ的时隙t,时隙t的集合定义为t∈{1,2,...,L};
假设在每个时隙t内,地面用户设备k产生计算密集型任务Sk(t)={Dk(t),Ck(t)},其中:Dk(t)表示地面用户设备产生的任务数据量;Ck(t)表示执行此任务所需的CPU周期总数;地面用户设备无法进行本地计算,需要将所有任务卸载至无人机;考虑到地面用户设备计算能力有限无法执行本地计算;无人机受尺寸、重量、功率等因素的限制,能够提供有限的计算和通信资源,计算任务需由无人机协同处理;任务卸载包括两个阶段:地对空阶段卸载和空对空阶段卸载;
协作传输模型主要计算地对空阶段所需的地面用户设备到目标无人机的传输时延和目标无人机的传输能耗及空对空阶段所需要的目标无人机到协作无人机的传输时延和传输能耗;
协作计算模型主要用于计算目标无人机m和协作无人机j之间的任务公平分配所需的计算时延和能耗。
3.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S1中所述的无人机移动模型的内容包括:
假设部署每架无人机是为了在一个相应的子区域内为地面用户设备提供服务,并且每个子区域之间没有重叠;
假设所有无人机的飞行高度固定为H,在时隙t时,目标无人机m的水平坐标Lm(t)=[xm(t),ym(t)],假设目标无人机m飞行的角度为φm(t)∈[0,2π),飞行的距离为lm(t)=νm(t)δ,vm(t)为目标无人机m的速度;则下个时隙的X和Y坐标分别为:
xm(t+1)=xm(t)+lm(t)cos[φm(t)] (1)
ym(t+1)=ym(t)+lm(t)sin[φm(t)] (2)
地面用户设备k的坐标定义为Lk(t)=[xk(t),yk(t)],目标无人机m与地面用户设备k之间直线距离定义为dm,k(t),即:
在每个时隙内,无人机的飞行角度和速度保持不变,目标无人机m的位置相对地面用户设备k近似不变;为了保证无人机在服务区域内移动,必须满足移动约束,即:
0≤xm(t)≤Xmax (4)
0≤ym(t)≤Ymax (5)
Xmax和Ymax分别是无人机服务区域的长度和宽度的最大范围;
无人机的水平覆盖半径是R,如果地面用户设备位于某个无人机的覆盖范围内,将由该无人机提供服务;目标无人机与协作无人机m,j之间的距离表示为dm,j(t),为了保证两者覆盖范围不相互重叠,必须满足以下重叠约束:
dm,j(t)≥2R (6)
为了避免任意两架无人机发生碰撞,无人机之间的距离应该不小于安全距离dmin。
4.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S1中所述的协作传输模型中地对空阶段传输时延及能耗的计算方法,具体步骤如下:
(1)当目标无人机m接收到地面用户设备k产生的计算任务时,二进制变量αk,m(t)=1时目标无人机m接收此计算任务,否则αk,m(t)=0时目标无人机m未接收此计算任务,且每个地面用户设备k在时隙t内最多与一个无人机进行传输;
设目标无人机m在时隙t处服务的地面用户设备集合为则地面用户设备数量:
(2)计算地对空阶段的路径损耗,路径损耗为:
其中:为目标无人机m与用户设备k之间直线距离,Lm(t)=[xm(t),ym(t)]为目标无人机m的坐标,Lk(t)=[xk(t),yk(t)]为地面用户设备k的坐标,H为无人机的飞行高度,g表示参考距离为1米的功率增益;
(3)从地面用户设备k到目标无人机m的上行传输速率为:
其中,B为无人机带宽;Pk是地面用户设备k的发射功率,σm 2是每架无人机处的加性高斯白噪声功率;
(4)计算用户设备k的任务上行传输时延,在任务卸载过程中,无人机带宽B被平均分配给服务的每个地面用户设备,则地面用户设备k的任务上行传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
(5)计算目标无人机m的传输能耗,目标无人机m的传输能耗为:
其中,是目标无人机m的接收功率。
5.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S1中所述的协作传输模型中空对空阶段传输时延及能耗的计算方法,具体步骤如下:
1),目标无人机m在接受到地面用户设备卸载的任务之后,会将任务分为独立的M份,在自己执行计算任务的同时,将M-1份任务发送给其余协作无人机协同计算,在时隙t中目标无人机m承载的地面用户设备k产生的任务比例为γk,m(t)∈[0,1],
2),目标无人机m和协作无人机j之间的路径损耗:
ρm,j(t)=ξ(t)+ηLoS (14)
其中,ηLoS是添加到LoS链路自由空间传播模型中的附加衰减因子;ξ(t)根据自由空间路径损失模型得出:
ξ(t)=20log10[dm,j(t)]+20log10(fc)-147.55 (15)
其中,fc是无人机载波频率,dm,j(t)为目标无人机m与协作无人机j之间的距离;
3),目标无人机m向协作无人机j传输数据的速率为:
其中,B为无人机带宽;是目标无人机m在时隙t的发送功率;σm 2是每架无人机处的加性高斯白噪声功率;G是无人机对无人机之间的信道增益:
其中,Lm,j表示目标无人机m和协作无人机j的水平距离;
4),在时隙t的目标无人机m向协作无人机j传输时延为:
其中,Dk(t)表示地面用户设备产生的任务数据量;
5),从目标无人机m到协作无人机j的传输能耗为:
6.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,从地面用户设备k处接收到任务后,目标无人机m决定自身和协作无人机j计算多少任务;步骤S1中所述的协作计算模型中地对空阶段,目标无人机m计算时延及能耗具体步骤如下:
(Ⅰ),目标无人机m处的计算延迟,考虑在时隙t中目标无人机m承载的地面用户设备k产生的任务比例γk,m(t),目标无人机m处的计算延迟为:
其中,Ck(t)表示执行此任务所需的CPU周期总数;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
(Ⅱ),目标无人机m处理计算任务的能耗为:
其中,q是无人机计算芯片的有效开关电容。
所述的协作计算模型中空对空阶段,无人机之间的任务分配所需时延及能耗,具体步骤如下:
Ⅰ),协作无人机j处的计算延迟为:
其中,fk,j(t)是协作无人机j分配给地面用户设备k的计算资源;
Ⅱ),协作无人机j处的计算能耗:
其中,q是无人机计算芯片的有效开关电容;
协作无人机j处的总时延由无人机-无人机通信传输时延和计算时延组成,表示为:
其中,表示目标无人机m向协作无人机j传输时延,Rm,j(t)表示目标无人机m向协作无人机j传输数据的速率,Dk(t)表示地面用户设备产生的任务数据量。
7.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S2中所述的多目标优化问题的内容如下:
由于目标无人机m的计算和传输是同步进行的,任务完成延迟取决于任务每部分的最大值,地面用户设备k在时隙t中产生的任务的总延迟被建模为:
其中,表示地面用户设备k的任务上行传输时延;表示目标无人机m处的计算延迟,Tk,j(t)表示协作无人机j处的总时延;
目标无人机m的总能耗为:
其中,表示从目标无人机m到协作无人机j的传输能耗,表示目标无人机m处理计算任务的能耗,表示目标无人机m的传输能耗;Nm(t)表示地面用户设备数量;
目标无人机m在时隙t内任务负载为:
其中,γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例,Dk(t)表示地面用户设备产生的任务数据量;
然而,直接最大化所有无人机的负载任务导致不公平问题,因为一部分无人机可能会过载,而其余的无人机的计算资源会闲置,导致服务质量较差;
建立公平性指数来评估无人机之间的任务负载公平性:
在满足任务最小延迟的前提下实现长期无人机最大公平负载以及最小功率消耗,多目标优化问题为:
其中,φm(t)∈[0,2π)为目标无人机m飞行的角度;vm(t)为目标无人机的速度;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
vmax是无人机的最大飞行速度;xm(t)、ym(t)为无人机的坐标;Xmax和Ymax分别表示无人机服务区域的长度和宽度的最大范围;dm,j(t)为目标无人机m与协作无人机j之间的距离;R表示无人机的覆盖范围半径;dmin是无人机之间的最小安全距离;αk,m(t)为二进制变量;f是无人机的计算能力,Tk(t)为地面用户设备k在时隙t中产生的任务的总延迟;是地面用户设备k产生任务最大延迟容忍时间,如果超出该时间则任务失败。
8.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S3所述的将多目标优化问题建模为马尔科夫决策模型,具体步骤如下:
步骤S3-1:将单个无人机视为一个智能体,用来表示决策模型,是M个无人机的状态集合,是所有无人机的动作集合,Am是目标无人机m的动作空间,是所有无人机的奖励函数集合,P是当前所有智能体描述状态转移概率,λ∈[0,1]代表折扣因子;
步骤S3-2:状态空间S包括,状态空间为所有无人机对环境的观察,无人机之间能够彼此交换信息,以便知道所有无人机和地面用户设备的位置,则t时刻的状态空间为:
其中每个无人机采取的动作和当前时刻所在的位置,都会影响当前时隙的环境,而每个无人机的观察为:
其中,xm(t)表示时隙t时目标无人机m的X坐标,ym(t)表示时隙t时目标无人机m的Y坐标;表示上一个时隙目标无人机m的飞行角度归一化值;表示上一个时隙目标无人机m的飞行速度归一化值;表示上一个时隙目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示上一个时隙目标无人机m分配给地面用户设备k的计算资源归一化值;
同样对无人机观察到的空间状态进行归一化,则在t时刻无人机m的观察为:
其中,Xmax和Ymax分别表示无人机服务区域的长度和宽度最大范围;
步骤S3-3:动作空间包括:无人机的动作包括飞行速度、飞行角度、计算资源的分配以及任务计算量分配,则第m个无人机在t时刻的动作表示为:其中,φm(t)为目标无人机m飞行的角度;vm(t)为目标无人机m的速度;γk,m(t)表示在时隙t中目标无人机m承载的地面用户设备k产生的任务比例;fk,m(t)是目标无人机m分配给地面用户设备k的计算资源;
四个变量的取值范围分别为φm(t)∈[0,2π),νm(t)∈[0,νmax),γm(t)∈[0,1],fk,m(t)∈[0,f];其中,vmax是无人机的最大飞行速度;f是无人机的计算能力;
此外,为了消除变量多样性对系统性能的影响,对变量进行归一化处理: 归一化处理后,动作空间为:
其中,表示时隙t时的目标无人机m的飞行角度归一化值;表示时隙t时目标无人机m的飞行速度归一化值;表示时隙t时目标无人机m承载的地面用户设备k产生的任务比例归一化值;表示时隙t时目标无人机m分配给地面用户设备k的计算资源归一化值;
步骤S3-4:奖励空间R包括:为了解决公式化的多目标优化问题,M个无人机应该在满足约束的同时最大化任务负载公平、最小化能耗;奖励设计分为公平性奖励、节能奖励以及惩罚;所有无人机的公平性奖励为f(t);然后,在满足所有约束条件的情况下,将目标无人机的节能奖励定义为无人机总能耗Em(t)的负值;如果不满足约束条件,则在奖励函数中将存在相应的惩罚,惩罚定义为:
ηm(t)=ζ1(t)η1+ζ2(t)η2+ζ3(t)η3+ζ4(t)η4 (34)
其中;η1,η2,η3,η4分别表示与界限约束、重叠约束、安全距离约束和任务完成相关的惩罚;如果无人机飞出了界限,则指示符ζ1(t)=1,否则为0;如果无人机的覆盖范围与其他无人机重叠,则指示符ζ2(t)=1,否则为0;当无人机与任意无人机之间的距离不满足安全距离约束,ζ3(t)为1;当无人机覆盖范围内的任务出现失败情况时,无人机的任务惩罚指示符ζ4(t)=1,否则为0;
则在t时刻目标无人机m的奖励函数为:
rm(t)=f(t)-Em(t)-ηm(t) (35)
其中,f(t)表示公平性指数评估无人机之间的任务负载公平性,即所有无人机的公平性奖励;-Em(t)表示无人机m的总能耗的负数,即节能奖励。
9.根据权利要求2所述的多无人机公平协作和任务卸载优化方法,其特征在于,步骤S4所述的采用MADDPG算法求解马尔科夫决策问题,输出卸载策略采用MADDPG算法求解马尔科夫决策问题,输出卸载策略,具体步骤如下:
每个无人机上由Actor模块、Critic模块和经验存储器组成;Actor模块的输入为每个无人机的局部观测值,输出为动作;Critic模块在集中式训练阶段期间工作,可以访问所有无人机的观察和动作来评估Actor模块的输出;
每个无人机的目标是找到一个策略最大化自己的奖励rm(t);所有无人机通过协作以实现总奖励的最大化:
其中,rm(t)表示在t时刻目标无人机m的奖励函数;
Actor模块和Critic模块各有两个神经网络构成,分别为目标网络和评价网络,则Actor模块和Critic模块的评价网络分别为和每个模块的评价网络都有对应的目标网络,分别为和其中为Actor目标网络参数,为Critic目标网络参数,om为每个无人机的观察,s是状态空间,am是动作空间;
步骤S4-1:初始化四个神经网络的参数和经验存储器,在每个训练轮次中,无人机根据自身观察om(t),由Actor模块评价网络输出动作am(t)=μm(om(t)),所有无人机都执行飞行角度φm(t)、飞行速度vm(t)、无人机分配给地面用户设备的计算资源fk,m(t)以及在时隙t无人机承载的地面用户设备的任务比例γk,m(t),所有无人机执行完动作得到共同奖励r(t)和下一时刻环境状态s(t+1);
步骤S4-2:使用经验回放机制,在每个时隙中,所有无人机可以将自身产生的经验元组(a(t),r(t),s(t),s(t+1))存储到大小为B的经验存储器中,其中a(t)={a1(t),a2(t),...,aM(t)};如果经验存储器已满,则新生成的经验元组将替换旧的经验元组;Actor模块和Critic模块可以通过在经验存储器中批量采样,获得训练数据;每个无人机都在经验存储器中随机采样一批大小为Mb的样本(ai,ri,si,si+1),随机采样可以打破样本数据之间的相关性,并减少训练振荡;
步骤S4-3:通过最小化损失来更新无人机m的Critic评价网络参数
其中,Mb表示样本的大小,表示Critic模块中第i个样本的评价网络,s(i)表示第i个样本的状态空间,a(i)表示第i个样本的动作空间,ym(i)为:
其中,ε为折扣因子,rm(i)表示无人机中第i个样本的最大化奖励,表示Critic模块中第i+1个样本的目标网络;
每个无人机使用策略梯度更新Actor评价网络的参数
Actor模块和Critic模块的目标网络参数采用软更新的方式,分别为
其中,为每个无人机的Actor评价网络参数,为Actor目标网络参数,为Critic评价网络参数,为Critic目标网络参数,τ为更新率。
10.利用权利要求1-9任一项所述的多无人机公平协作和任务卸载优化方法构建的系统,其特征在于,所述系统包括无人机移动模块、协作传输模块和协作计算模块;
所述无人机移动模块主要负责规划无人机运动轨迹,以节省能量避免碰撞,运动轨迹包括飞行角度、飞行速度;
所述协作传输模块主要用于计算地对空阶段和空对空阶段的任务卸载所需要的传输时延及能耗;
所述协作计算模块,当无人机从地面用户接收到任务后,主要用于计算当前无人机和协作无人机之间的任务公平分配所需要的计算时延及能耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310908869.5A CN116887355A (zh) | 2023-07-24 | 2023-07-24 | 一种多无人机公平协作和任务卸载优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310908869.5A CN116887355A (zh) | 2023-07-24 | 2023-07-24 | 一种多无人机公平协作和任务卸载优化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116887355A true CN116887355A (zh) | 2023-10-13 |
Family
ID=88262882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310908869.5A Pending CN116887355A (zh) | 2023-07-24 | 2023-07-24 | 一种多无人机公平协作和任务卸载优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116887355A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117371761A (zh) * | 2023-12-04 | 2024-01-09 | 集美大学 | 一种智慧海洋物联网任务调度方法、装置、设备及介质 |
CN117714484A (zh) * | 2023-11-15 | 2024-03-15 | 杭州中汇通航航空科技有限公司 | 一种无人机飞行报告管理平台 |
CN117939429A (zh) * | 2023-10-26 | 2024-04-26 | 广东工业大学 | 双层无人机辅助的车联网信号覆盖方法 |
CN118301672A (zh) * | 2024-06-06 | 2024-07-05 | 中国人民解放军国防科技大学 | 多无人机协作任务卸载方法、装置和计算机设备 |
-
2023
- 2023-07-24 CN CN202310908869.5A patent/CN116887355A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117939429A (zh) * | 2023-10-26 | 2024-04-26 | 广东工业大学 | 双层无人机辅助的车联网信号覆盖方法 |
CN117714484A (zh) * | 2023-11-15 | 2024-03-15 | 杭州中汇通航航空科技有限公司 | 一种无人机飞行报告管理平台 |
CN117371761A (zh) * | 2023-12-04 | 2024-01-09 | 集美大学 | 一种智慧海洋物联网任务调度方法、装置、设备及介质 |
CN118301672A (zh) * | 2024-06-06 | 2024-07-05 | 中国人民解放军国防科技大学 | 多无人机协作任务卸载方法、装置和计算机设备 |
CN118301672B (zh) * | 2024-06-06 | 2024-08-02 | 中国人民解放军国防科技大学 | 多无人机协作任务卸载方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seid et al. | Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: A deep reinforcement learning approach | |
CN112351503B (zh) | 基于任务预测的多无人机辅助边缘计算资源分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN116887355A (zh) | 一种多无人机公平协作和任务卸载优化方法及系统 | |
CN112995913B (zh) | 一种无人机轨迹、用户关联和资源分配联合优化方法 | |
Chen et al. | Deep reinforcement learning based resource allocation in multi-UAV-aided MEC networks | |
Fan et al. | RIS-assisted UAV for fresh data collection in 3D urban environments: A deep reinforcement learning approach | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN115659803A (zh) | 一种无人机孪生网络映射误差情况下计算任务智能卸载方法 | |
Xu et al. | Resource allocation algorithm based on hybrid particle swarm optimization for multiuser cognitive OFDM network | |
Wei et al. | Joint UAV trajectory planning, DAG task scheduling, and service function deployment based on DRL in UAV-empowered edge computing | |
Gan et al. | Trajectory optimization and computing offloading strategy in UAV-assisted MEC system | |
Cheng et al. | Energy-efficient resource allocation for UAV-empowered mobile edge computing system | |
Zhang et al. | Deep reinforcement learning for aerial data collection in hybrid-powered NOMA-IoT networks | |
CN117858015A (zh) | 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法 | |
CN116546559A (zh) | 分布式多目标空地联合轨迹规划和卸载调度方法及系统 | |
Li et al. | A cooperative computation offloading strategy with on-demand deployment of multi-UAVs in UAV-aided mobile edge computing | |
CN116321293A (zh) | 基于多智能体强化学习的边缘计算卸载和资源分配方法 | |
Birabwa et al. | Multi-agent deep reinforcement learning for user association and resource allocation in integrated terrestrial and non-terrestrial networks | |
Lu et al. | Joint Trajectory Planning and Communication Design for Multiple UAVs in Intelligent Collaborative Air-Ground Communication Systems | |
Termehchi et al. | Distributed Safe Multi-Agent Reinforcement Learning: Joint Design of THz-enabled UAV Trajectory and Channel Allocation | |
Shabanighazikelayeh et al. | Optimal UAV deployment for rate maximization in IoT networks | |
CN116528250A (zh) | 一种基于noma的无人机辅助mec资源优化方法 | |
Tan et al. | Communication-assisted multi-agent reinforcement learning improves task-offloading in UAV-aided edge-computing networks | |
Gao et al. | MO-AVC: Deep Reinforcement Learning Based Trajectory Control and Task Offloading in Multi-UAV Enabled MEC Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |