CN115580900A - 一种基于深度强化学习的无人机辅助协作式任务卸载方法 - Google Patents

一种基于深度强化学习的无人机辅助协作式任务卸载方法 Download PDF

Info

Publication number
CN115580900A
CN115580900A CN202211263973.5A CN202211263973A CN115580900A CN 115580900 A CN115580900 A CN 115580900A CN 202211263973 A CN202211263973 A CN 202211263973A CN 115580900 A CN115580900 A CN 115580900A
Authority
CN
China
Prior art keywords
task
aerial vehicle
unmanned aerial
base station
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211263973.5A
Other languages
English (en)
Inventor
沈航
阮辰晖
白光伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202211263973.5A priority Critical patent/CN115580900A/zh
Publication of CN115580900A publication Critical patent/CN115580900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • H04W28/0942Management thereof using policies based on measured or predicted load of entities- or links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0908Management thereof based on time, e.g. for a critical period only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于深度强化学习的无人机辅助协作式任务卸载方法,步骤如下:S1、无人机实时采集物联网系统中环境数据;S2、根据S1中过往的终端设备信息预测任务到达;S3、根据S2中预测数据提前训练并记录结果;S4、根据S1、S3的输入参数为终端设备选择性能最优的计算任务卸载策略并卸载计算任务;S5、无人机根据奖惩机制计算当前得分,并将数据作为经验放入经验回放池中;S6、从经验回放池随机采样小批量样本输入当前网络和目标网络,并更新网络参数;S7、重复S1~S6,不断迭代更新,最终计算任务卸载决策趋于最优;本发明可以自适应调整物联网系统中的计算任务卸载策略,在满足无人机和基站容量约束的同时,可以实现较低的任务丢失率。

Description

一种基于深度强化学习的无人机辅助协作式任务卸载方法
技术领域
本发明属于物联网技术领域,尤其在城市热点区域或是边缘区域,无人机辅助服务终端设备,实现较低的任务丢失率。
背景技术
终端设备在远程访问、控制和监控等应用场景中正吸引着越来越多的关注。大量终端设备通过不同的接入技术连接到互联网。在5G网络中,许多物联网服务需要快速响应和可靠连接,而在城市的热点区域或是边缘区域,基站向终端设备提供服务的质量得不到保障。
尽管陆地通信技术方面取得了进展,但用户设备的快速增长,给无线通信网络带来的巨大挑战。许多研究人员在无人机通信领域进行了研究,并讨论了无人机通信系统中的一些典型问题,如无人机部署、无人机缓存放置、无人机移动轨迹、资源分配、内容传输安全等。
无人机作为中继在这种场景下就发挥了作用。一方面无人机能够充分靠近终端设备移动,另一方面与终端设备通信链路为视距通信,因此通信质量稳定,这不仅节省了终端设备的功耗,延长了使用寿命,而且还保证了传输的可靠性。综上,无人机已被视为蜂窝基站的重要辅助组件。
凭借视距通信优势,无人机可以同距离较远的地面基站交互,从而实时做出任务卸载决策。一种是本地处理,另一种是卸载到附近的基站。而受到无人机本身计算资源大小的限制,大量计算任务到达时,无人机需要选择合适的卸载目标,以尽可能满足更多任务的时延需求。因此,无人机如何有效卸载终端设备任务是一个相当具有挑战性的问题。首先,对于大量的终端设备,任务到达是动态的,可能是突发的,且任务的大小,任务处理延迟的未知性,这都对任务卸载决策提出了实时要求。其次,无人机上的处理队列与转发队列在不同时刻具有不同的状态。因此,卸载决策应根据当前环境状态选择适当的目的组件进行处理,并考虑长期的决策收益。
基于RL的资源优化算法因状态空间庞大而导致分配算法收敛缓慢,难以寻求最优解。深度强化学习(DRL,Deep Reinforcement Learning)利用深度神经网络(Deep neuralnetwork,DNN)估计RL的值函数以获得更精确的近似。深度Q学习网络(DQN,Deep Q-learning Network)作为一种DRL算法,将深度学习的感知能力和强化学习的决策能力相结合,通过不断试错方式来解决复杂系统的感知决策问题。另外,可以通过加入长短时记忆网络(LSTM)提高时间序列数据的预测能力。
发明内容
本发明提出了一种基于深度强化学习的无人机辅助的协作式任务卸载方法,目的是最小化任务丢失率。
本发明引入单无人机辅助多基站通信,并提出一种基于深度强化学习的无人机辅助协作式任务卸载方法,来解决上述问题。该方法首先将任务调度问题表示为一个容量受限的马尔可夫决策过程。然后,考虑到任务到达的动态性,本文采用了深度强化学习算法(DDQN)进行模型训练以获得任务卸载的最优决策,同时辅助基于长短期记忆网络(LSTM)无效状态规避算法,以提高任务处理成功率。步骤包括:
(1)、物联网终端设备不定时产生计算任务,根据过往的终端设备的计算任务信息预测任务到达;
(2)、根据(1)中预测数据提前记录下一时隙中不可能完成的任务状态和最优卸载决策;根据环境参数为终端设备选择性能最优的计算任务卸载策略,根据所选择的任务卸载策略卸载计算任务;无人机根据奖惩机制得出当前时隙无人机处理计算任务后的奖惩得分,将S5中数据作为经验放入经验回放池中;从经验回放池随机采样小批量样本输入当前网络和目标网络,经过前向传播和反向传播更新网络参数,根据一定频率将当前Q网络的参数拷贝至目标Q网络;
本发明的主要贡献包括:
第一、针对问题(1),设计了一种基于长短时记忆网络(LSTM)的任务到达模型,用于预测地面终端设备上随时间变化的数据到达。预测的数据并作为深度强化学习的预训练数据,以辅助未来任务卸载决策,最大限度地规避无效任务卸载策略。
第二、针对问题(2),分析了无人机服务的终端设备的任务卸载决策问题,提出了一种基于深度强化学习的任务卸载方法。无人机对任务做出卸载决策,最小化任务丢失率。
仿真结果表明,本文所提出的DDQL算法结合LSTM模型具有良好的收敛性,相比于基准方案,能够在更短的时间内完成任务的卸载,并提高总体任务15%的完成率。
附图说明
图1是本发明实施方式中的基于深度强化学习的无人机辅助协作式任务卸载方法的网络架构图。
图2是本发明实施方式中的DDQL算法网络框架。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提出了一种基于深度强化学习的无人机辅助协作式任务卸载方法,如图1所示,具体包括以下步骤:
S1、物联网终端设备不定时产生计算任务,任务由任务的数据大小(bits)、完成该任务的计算资源大小、任务处理完成的延迟三部分组成。系统时间被划分为多个时隙,在第t个时间窗内,每个计算任务生成情况包括任务的数据大小(bits)、完成该任务的计算资源大小、任务处理完成的延迟。其中任务的数据大小包含程序代码、计算任务所需的额外文件、共享数据的总大小。完成该任务的计算资源大小由cpu周期数来量化。任务处理完成的延迟为计算任务的最大等待时间。物联网系统中终端设备产生的计算任务表示为Mi(t),表达式如下:
Mi(t)={εm,k,cm,k,dm,k} (1)
其中,εm,k是计算任务的输入数据的大小,包括程序代码、计算任务所需的额外文件、共享数据的总大小。cm,k表示完成此任务所需的计算量,该计算量由cpu周期数来量化。dm,k是计算任务的最大等待时间,即延迟约束时长。
S2、根据S1中过往的终端设备的计算任务信息预测任务到达。在无人机处为每个地面终端设备维护一个LSTM。每当无人机选择一个终端设备时,该终端设备都会报告其过去和未报告的状态,无人机根据S1中过往的终端设备的计算任务信息预测任务到达。具体操作如下:
S21、LSTM的存储单元存储过去终端设备的上传的计算任务。
S22、设置时隙初LSTM层的输出门、细胞激活向量、遗忘门和输入门,并将S1中的物联网系统中终端设备产生的计算任务逐个输入LSTM,并处理当前输入序列。
S23、使用控制新信息存储、过去信息丢弃和当前信息利用程度的门机制来处理的输入序列,并返回隐藏状态作为预测结果。
S3、根据S2中预测数据提前记录下一时隙中不可能完成的任务状态和最优卸载决策。无人机将根据上一次迭代过程中预测数据的训练结果,记录下每一个终端设备未来状态的完成情况,并在步骤S4中对当前无人机收集的终端设备计算任务进行过滤,协助无人机规避无效任务状态。
S4、根据S1、S3的输入参数为终端设备选择性能最优的计算任务卸载策略,根据所选择的任务卸载策略卸载计算任务。步骤如图2所示,方法如下:
考虑了一个无人机基站协同的终端设备任务卸载的场景。无人机i可连接的地面基站集合B,地面基站链接MEC服务器。无人机覆盖范围内终端设备集合为K,终端设备的任务到达率为λ,无人机配有两种信号接收器可以和地面终端设备、附近基站连接,主要服务网络边缘设备或无地面基站覆盖的设备。每个终端设备产生任务后,可以交由无人机根据当前状态采取相应的决策。
任务卸载有5种情形:
情形1:无人机本地进行任务处理;
情形2:无人机利用视距通信优势将任务交付地面基站1进行处理;
情形3:无人机利用视距通信优势将任务交付地面基站2进行处理;
情形4:无人机利用视距通信优势将任务交付地面基站3进行处理;
情形5:任务丢弃;
无人机根据卸载策略at=(lt,cm,k)选择将计算任务卸载至目的组件执行计算,lt表示卸载目的元组,cm,k表示卸载的任务所需计算资源大小。无人机和基站的计算队列采用先来先服务的原则,同一时刻只能处理一个计算任务,定义无人机i的计算能力为每秒ciHz的最大CPU周期,定义基站j的计算能力为每秒cjHz的最大CPU周期。
影响卸载目的组件的主要因素包括传输延迟和计算延迟两部分。接下来讨论任务计算延迟。
(1)无人机处理时延
终端设备k产生的任务m在无人机i中的计算时间可以表达为
Figure BSA0000286375520000041
其中在无人机i计算队列中包含任务m以及任务m之前的任务集合用
Figure BSA0000286375520000042
表示。
(2)基站处理时延
终端设备k产生的任务m在基站j中的计算时间可以表达为
Figure BSA0000286375520000043
其中在基站j计算队列中包含任务m以及任务m之前的任务集合用prem,j表示。
接下来讨论任务传输延迟。
(1)终端设备-无人机链路
任务卸载延迟指的是任务从终端设备卸载到无人机i的平均时间。由于无线信道条件是随机的,用ri表示在无人机i的覆盖范围内终端设备产生的任务的平均传输速率,则终端设备k产生的任务m到无人机i的传输时间服从wirim,k的指数分布。由于单个终端设备的任务到达服从泊松过程,因此无人机从终端设备接收到的所有任务的到达也服从泊松过程。那么ρiSiλ可以表示无人机i覆盖范围内所有服从泊松过程的终端设备任务到达率。其中ρi表示无人机i覆盖范围内的单位面积终端设备密度,Si表示无人机i的覆盖范围面积,无人机每次接收并决策一个任务,因此我们将终端设备任务的卸载过程按照M/M/1队列模型进行建模,则终端设备k产生的任务m在无人机i的平均卸载延迟可以被表示为
Figure BSA0000286375520000051
任务到达率体现无人机处理队列和转发队列的输入强度。无人机转发队列的转发速率体现转发队列的输出强度,无人机计算队列的计算速率则体现无人机计算队列的输出强度。当输入强度大于输出强度时,队列中的任务不断累积,最终导致队列溢出。用
Figure BSA0000286375520000052
表示终端设备k产生的任务m卸载到无人机时的服务强度,反映的是队列的繁忙程度。为了保持等待队列的稳定性(防止队列溢出),需要满足
Figure BSA0000286375520000053
无人机i的发射功率被表示为Pi,σ2表示平均背景噪声,那么无人机i回传结果到终端设备k的下行传输速率表示为
Figure BSA0000286375520000054
式中,wi,k表示为无人机i划分给终端设备k的带宽。
Figure BSA0000286375520000055
表示无人机i到终端设备k的信道增益。PLi,k表示为无人机i到终端设备k的路径损耗。
那么无人机i到终端设备k的链路传输时延表示为
Figure BSA0000286375520000056
其中,ε′m,k表示终端设备k产生的请求m返回的结果数据量大小。
(2)无人机-基站链路
在无人机到基站这条链路中,无人机受到的干扰只来自其他基站的传输信号。若基站j分配给无人机带宽为wj,i,无人机分配给基站j的带宽为wi,k,σ2表示平均背景噪声,无人机i的发射功率被表示为Pi,基站j的发射功率被表示为Pj。那么无人机i到基站j的上行传输速率可以表示为
Figure BSA0000286375520000061
基站j回传结果到无人机i的下行传输速率表示为
Figure BSA0000286375520000062
其中,Io表示其它组件对本无人机的干扰。Pj′代表基站集合中除去j的剩余基站,
Figure BSA0000286375520000063
表示无人机i到基站j的信道增益,其中PLi,j表示无人机到基站j的路径损耗。
由于转发队列移交延迟代表任务从转发队列等待转发至基站j的时间。而队列中的任务遵循先来先服务原则,那么终端设备k产生的任务m被转发前的等待时间可表示为
Figure BSA0000286375520000064
其中,在无人机i计算队列中包含任务m以及任务m之前的任务集合用
Figure BSA0000286375520000065
表示。
那么任务m从无人机i到基站j的上行链路传输时延表示为
Figure BSA0000286375520000066
类似地,基站j到无人机i的下行链路传输时延表示为
Figure BSA0000286375520000067
任务从无人机转发到基站处理并将结果通过无人机转发至终端设备,此时任务总的处理延迟将由终端设备任务到无人机的卸载延迟、无人机转发队列移交延迟、传输延迟(包括无人机与基站之间的传输延迟、无人机到终端设备链路上的传输延迟)、基站处理延迟4部分组成。这一部分延迟可以整合表示为
dj=di,j+dj cal+dj,i+di,k (13)
无人机辅助计算卸载的目标是最大限度的降低任务的丢失率,在满足任务延迟需求的情况下处理任务。时隙t∈T中所有任务的总延迟可计算如下,我们用2个二元变量来分别表示无人机本地处理或基站处理的情况。其中
Figure BSA0000286375520000071
表示终端设备k产生的任务m转发至基站是否能在规定时间内完成。
Figure BSA0000286375520000072
表示终端设备k产生的任务m在无人机本地是否能在规定时间内完成。
那么,在时隙t任务处理总数表示为
Figure BSA0000286375520000073
其中,lt=0表示任务在无人机处理,反之表示任务在基站处理。
S5、无人机根据奖惩机制得出当前时隙无人机处理计算任务后的奖惩得分,将S5中数据作为经验放入经验回放池中,具体操作如下:
S51、面对整数非线性优化问题,基站B作为智能体将之建模为一个马尔科夫决策过程,我们定义了一个元组M:=<S,A,P,R>来建模MDP。其中,S表示状态集、A是动作的集合、P是状态转移概率集、R是一个奖励函数。
S52、当环境处于状态S′时执行动作at,系统会进入下一个状态St+1,并获得即时奖励rt。本文优化目标为降低用户任务的丢失率,于是设置场景得分奖励函数为
Figure BSA0000286375520000074
其中,C表示错误状态集,即当前状态下选择动作at时任务将被丢弃。考虑到一个直观的决策,即与环境多次交互后,无人机会在局部最优中尽量处理或卸载较小的任务,那么几乎所有较大的任务都将被丢弃。在这种情况下,虽然能够降低任务的丢失率,但较大的任务被丢弃会导致部分用户极差的体验。因此在奖励中增加惩罚公式^=κcm,k,公式中κ是一个恒定的惩罚权重。式中-2是任务被丢弃时的奖励值。为了最大限度地减少所有物联网任务的长期丢失率,惩罚公式可以避免较大的任务被过度丢弃的情况。将该四元组<st,at,rt,st+1>存放到经验回放缓冲区B中;
S6、从经验回放池随机采样小批量样本输入当前网络和目标网络,经过前向传播和反向传播更新网络参数,根据一定频率将当前Q网络的参数拷贝至目标Q网络。具体操作如下:
S61、从经验回放池随机采样小批量样本输入当前网络和目标网络,经过前向传播分别计算相应的Q值。接着利用如下损失函数
Figure BSA0000286375520000081
对当前网络进行反向传播,以更新网络参数。
S62、计算式(18)关于参数
Figure BSA0000286375520000082
的梯度
Figure BSA0000286375520000083
则参数
Figure BSA0000286375520000084
的更新公式可表示为
Figure BSA0000286375520000085
其中α表示学习率。
S63、每隔C步将当前Q网络的参数拷贝至目标Q网络,即参数
Figure BSA0000286375520000086
S7、重复S1~S6,不断迭代更新,最终计算任务卸载决策趋于最优。

Claims (8)

1.一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,包括以下步骤:
S1、物联网终端设备不定时产生计算任务,任务由任务的数据大小(bits)、完成该任务的计算资源大小、任务处理完成的延迟三部分组成;
S2、根据S1中过往的终端设备的计算任务信息预测任务到达;
S3、根据S2中预测数据提前记录下一时隙中不可能完成的任务状态和最优卸载决策;
S4、根据S1、S3的输入参数为终端设备选择性能最优的计算任务卸载策略,根据所选择的任务卸载策略卸载计算任务;
S5、无人机根据奖惩机制得出当前时隙无人机处理计算任务后的奖惩得分,将S5中数据作为经验放入经验回放池中;
S6、从经验回放池随机采样小批量样本输入当前网络和目标网络,经过前向传播和反向传播更新网络参数,根据一定频率将当前Q网络的参数拷贝至目标Q网络;
S7、重复S1~S6,不断迭代更新,最终计算任务卸载决策趋于最优。
2.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S1中,系统时间被划分为多个时隙,在第t个时间窗内,每个计算任务生成情况包括任务的数据大小(bits)、完成该任务的计算资源大小、任务处理完成的延迟;其中任务的数据大小包含程序代码、计算任务所需的额外文件、共享数据总大小;其中完成该任务的计算资源大小由cpu周期数来量化;任务处理完成的延迟,即计算任务的最大等待时间;物联网系统中终端设备产生的计算任务表示为Mi(t),表达式如下:
Mi(t)={εm,k,cm,k,dm,k} (1)
其中,εm,k是计算任务的输入数据的大小,包括程序代码、计算任务所需的额外文件、共享数据总大小;cm,k表示完成此任务所需的计算量,该计算量由cpu周期数来量化;dm,k是计算任务的最大等待时间,即延迟约束时长。
3.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S2中,在无人机处为每个地面终端设备维护一个LSTM;每当无人机选择一个终端设备时,该终端设备都会报告其过去和未报告的状态,无人机根据S1中过往的终端设备的计算任务信息预测任务到达;具体操作如下:
S21、LSTM的存储单元存储过去终端设备的上传的计算任务;
S22、设置时隙初LSTM层的输出门、细胞激活向量、遗忘门和输入门;并将S1中的物联网系统中终端设备产生的计算任务逐个输入LSTM,并处理当前输入序列;
S23、使用控制新信息存储、过去信息丢弃和当前信息利用程度的门机制来处理的输入序列,并返回隐藏状态作为预测结果。
4.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S3中,UAV将根据上一次迭代过程中预测数据的训练结果,记录下每一个终端设备未来状态的完成情况,并在步骤S4中对当前UAV收集的终端设备计算任务进行过滤,协助无人机规避无效任务状态。
5.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S4中,根据S1、S3的输入参数为终端设备选择性能最优的计算任务卸载策略,根据所选择的任务卸载策略卸载计算任务,方法如下:
考虑了一个无人机基站协同的终端设备任务卸载的场景,无人机i可连接的地面基站集合B,地面基站链接MEC服务器。无人机覆盖范围内终端设备集合为K,终端设备的任务到达率为λ,无人机配有两种信号接收器可以和地面终端设备、附近基站连接,主要服务网络边缘设备或无地面基站覆盖的设备。每个终端设备产生任务后,可以交由无人机根据当前状态采取相应的决策。
任务卸载有5种情形:
情形1:无人机独立进行任务处理;
情形2:无人机利用视距通信优势将任务交付地面基站1进行协作处理;
情形3:无人机利用视距通信优势将任务交付地面基站2进行协作处理;
情形4:无人机利用视距通信优势将任务交付地面基站3进行协作处理;
情形5:任务丢弃;
无人机根据卸载策略at=(lt,cm,k)选择将计算任务卸载至目的组件执行计算,lt表示卸载目的元组,cm,k表示卸载的任务所需计算资源大小。无人机和基站的计算队列采用先来先服务的原则,同一时刻只能处理一个计算任务,定义无人机i的计算能力为每秒ciHz的最大CPU周期,定义基站j的计算能力为每秒cj Hz的最大CPU周期;
影响卸载目的组件的主要因素包括传输延迟和计算延迟两部分。接下来讨论任务计算延迟:
(1)无人机处理时延
终端设备k产生的任务m在无人机i中的计算时间可以表达为
Figure FSA0000286375510000021
其中在无人机i计算队列中包含任务m以及任务m之前的任务集合用
Figure FSA0000286375510000031
表示。
(2)基站处理时延
终端设备k产生的任务m在基站j中的计算时间可以表达为
Figure FSA0000286375510000032
其中在基站j计算队列中包含任务m以及任务m之前的任务集合用prem,j表示。
接下来讨论任务传输延迟:
(1)终端设备-无人机链路
任务卸载延迟指的是任务从终端设备卸载到无人机i的平均时间。由于无线信道条件是随机的,用ri表示在无人机i的覆盖范围内终端设备产生的任务的平均传输速率,则终端设备k产生的任务m到无人机i的传输时间服从wirim,k的指数分布。由于单个终端设备的任务到达服从泊松过程,因此无人机从终端设备接收到的所有任务的到达也服从泊松过程。那么ρiSiλ可以表示无人机i覆盖范围内所有服从泊松过程的终端设备任务到达率。其中ρi表示无人机i覆盖范围内的单位面积终端设备密度,Si表示无人机i的覆盖范围面积,无人机每次接收并决策一个任务,因此我们将终端设备任务的卸载过程按照M/M/1队列模型进行建模,则终端设备k产生的任务m在无人机i的平均卸载延迟可以被表示为
Figure FSA0000286375510000033
任务到达率体现无人机处理队列和转发队列的输入强度。无人机转发队列的转发速率体现转发队列的输出强度,无人机计算队列的计算速率则体现无人机计算队列的输出强度。当输入强度大于输出强度时,队列中的任务不断累积,最终导致队列溢出。用
Figure FSA0000286375510000034
表示终端设备k产生的任务m卸载到无人机时的服务强度,反映的是队列的繁忙程度。为了保持等待队列的稳定性(防止队列溢出),需要满足
Figure FSA0000286375510000035
无人机i的发射功率被表示为Pi,σ2表示平均背景噪声,那么无人机i回传结果到终端设备k的下行传输速率表示为
Figure FSA0000286375510000036
式中,wi,k表示为无人机i划分给终端设备k的带宽。
Figure FSA0000286375510000041
表示无人机i到终端设备k的信道增益。PLi,k表示为无人机i到终端设备k的路径损耗。
那么无人机i到终端设备k的链路传输时延表示为
Figure FSA0000286375510000042
其中,ε′m,k表示终端设备k产生的请求m返回的结果数据量大小。
(2)无人机-基站链路
在无人机到基站这条链路中,无人机受到的干扰只来自其他基站的传输信号。若基站j分配给无人机带宽为wj,i,无人机分配给基站j的带宽为wi,j,σ2表示平均背景噪声,无人机i的发射功率被表示为Pi,基站j的发射功率被表示为Pj。那么无人机i到基站j的上行传输速率可以表示为
Figure FSA0000286375510000043
基站j回传结果到无人机i的下行传输速率表示为
Figure FSA0000286375510000044
其中,Io表示其它组件对本无人机的干扰。Pj′代表基站集合中除去j的剩余基站,
Figure FSA0000286375510000045
表示无人机i到基站j的信道增益,其中PLi,j表示无人机到基站j的路径损耗。
由于转发队列移交延迟代表任务从转发队列等待转发至基站j的时间。而队列中的任务遵循先来先服务原则,那么终端设备k产生的任务m被转发前的等待时间可表示为
Figure FSA0000286375510000046
其中,在无人机i计算队列中包含任务m以及任务m之前的任务集合用
Figure FSA0000286375510000047
表示。
那么任务m从无人机i到基站j的上行链路传输时延表示为
Figure FSA0000286375510000048
类似地,基站j到无人机i的下行链路传输时延表示为
Figure FSA0000286375510000051
任务从无人机转发到基站处理并将结果通过无人机转发至终端设备,此时任务总的处理延迟将由终端设备任务到无人机的卸载延迟、无人机转发队列移交延迟、传输延迟(包括无人机与基站之间的传输延迟、无人机到终端设备链路上的传输延迟)、基站处理延迟4部分组成。这一部分延迟可以整合表示为
dj=di,j+dj cal+dj,i+di,k (13)
无人机辅助计算卸载的目标是最大限度的降低任务的丢失率,在满足任务延迟需求的情况下处理任务。时隙t∈T中所有任务的总延迟可计算如下,我们用2个二元变量来分别表示无人机本地处理或基站处理的情况。其中
Figure FSA0000286375510000052
表示终端设备k产生的任务m转发至基站是否能在规定时间内完成。
Figure FSA0000286375510000053
表示终端设备k产生的任务m在无人机本地是否能在规定时间内完成。
那么,在时隙t任务处理总数表示为
Figure FSA0000286375510000054
其中,lt=0表示任务在无人机处理,反之表示任务在基站处理。
6.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S5中无人机根据奖惩机制得出当前时隙无人机处理计算任务后的奖惩得分,将S5中数据作为经验放入经验回放池中,具体步骤如下:
S51、面对整数非线性优化问题,基站B作为智能体将之建模为一个马尔科夫决策过程,我们定义了一个元组M:=<S,A,P,R>来建模MDP,其中,S表示状态集、A是动作的集合、P是状态转移概率集、R是一个奖励函数。
S52、当环境处于状态St时执行动作at,系统会进入下一个状态St+1,并获得即时奖励rt。本文优化目标为降低用户任务的丢失率,于是设置场景得分奖励函数为
Figure FSA0000286375510000055
其中,C表示错误状态集,即当前状态下选择动作at时任务将被丢弃。考虑到一个直观的决策,即与环境多次交互后,无人机会在局部最优中尽量处理或卸载较小的任务,那么几乎所有较大的任务都将被丢弃。在这种情况下,虽然能够降低任务的丢失率,但较大的任务被丢弃会导致部分用户极差的体验。因此在奖励中增加惩罚公式^=κcm,k,公式中κ是一个恒定的惩罚权重。式中-2是任务被丢弃时的奖励值。为了最大限度地减少所有物联网任务的长期丢失率,惩罚公式可以避免较大的任务被过度丢弃的情况。将该四元组<st,at,rt,st+1>存放到经验回放缓冲区B中。
7.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述的步骤S6中,具体操作如下:
S61、从经验回放池随机采样小批量样本输入当前网络和目标网络,经过前向传播分别计算相应的Q值;接着利用如下损失函数
Figure FSA0000286375510000061
对当前网络进行反向传播,以更新网络参数。
S62、计算式(18)关于参数
Figure FSA0000286375510000066
的梯度
Figure FSA0000286375510000062
则参数
Figure FSA0000286375510000063
的更新公式可表示为
Figure FSA0000286375510000064
其中α表示学习率。
S63、每隔C步将当前Q网络的参数拷贝至目标Q网络,即参数
Figure FSA0000286375510000065
8.根据权利要求1所述的一种基于深度强化学习的无人机辅助协作式任务卸载方法,其特征在于,所述步骤S7:重复步骤S1至S6,不断迭代更新,最终任务调度策略的性能将趋于最优。
CN202211263973.5A 2022-10-14 2022-10-14 一种基于深度强化学习的无人机辅助协作式任务卸载方法 Pending CN115580900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211263973.5A CN115580900A (zh) 2022-10-14 2022-10-14 一种基于深度强化学习的无人机辅助协作式任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211263973.5A CN115580900A (zh) 2022-10-14 2022-10-14 一种基于深度强化学习的无人机辅助协作式任务卸载方法

Publications (1)

Publication Number Publication Date
CN115580900A true CN115580900A (zh) 2023-01-06

Family

ID=84584554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211263973.5A Pending CN115580900A (zh) 2022-10-14 2022-10-14 一种基于深度强化学习的无人机辅助协作式任务卸载方法

Country Status (1)

Country Link
CN (1) CN115580900A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257361A (zh) * 2023-03-15 2023-06-13 北京信息科技大学 无人机辅助的易故障移动边缘计算资源调度优化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257361A (zh) * 2023-03-15 2023-06-13 北京信息科技大学 无人机辅助的易故障移动边缘计算资源调度优化方法
CN116257361B (zh) * 2023-03-15 2023-11-10 北京信息科技大学 无人机辅助的易故障移动边缘计算资源调度优化方法

Similar Documents

Publication Publication Date Title
Nath et al. Deep reinforcement learning for dynamic computation offloading and resource allocation in cache-assisted mobile edge computing systems
Tang et al. Deep reinforcement learning for task offloading in mobile edge computing systems
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN111414252B (zh) 一种基于深度强化学习的任务卸载方法
Liu et al. Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach
CN113543074A (zh) 一种基于车路云协同的联合计算迁移和资源分配方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
US11871251B2 (en) Method of association of user equipment in a cellular network according to a transferable association policy
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN115037751A (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
Mao et al. AI based service management for 6G green communications
CN116233926A (zh) 一种基于移动边缘计算的任务卸载及服务缓存联合优化方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN112667406A (zh) 一种云边融合异构网络中任务卸载与数据缓存方法
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
Zhao et al. Adaptive multi-UAV trajectory planning leveraging digital twin technology for urban IIoT applications
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
Gao et al. Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users
Gong et al. Hierarchical deep reinforcement learning for age-of-information minimization in irs-aided and wireless-powered wireless networks
CN114598702A (zh) 一种基于深度学习的vr业务无人机边缘计算方法
CN118102386B (zh) D2d辅助mec网络中的服务缓存和任务卸载联合优化方法及系统
Wang et al. Mobile Edge Computing in FANET

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination