CN114423044A - 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 - Google Patents
无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 Download PDFInfo
- Publication number
- CN114423044A CN114423044A CN202210047204.5A CN202210047204A CN114423044A CN 114423044 A CN114423044 A CN 114423044A CN 202210047204 A CN202210047204 A CN 202210047204A CN 114423044 A CN114423044 A CN 114423044A
- Authority
- CN
- China
- Prior art keywords
- time slot
- aerial vehicle
- unmanned aerial
- base station
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 74
- 238000013139 quantization Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 29
- 239000003795 chemical substances by application Substances 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 8
- 241000255925 Diptera Species 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005562 fading Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001515997 Eristalis tenax Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18504—Aircraft used as relay or high altitude atmospheric platform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/502—Proximity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5021—Priority
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/509—Offload
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,在每个时隙开始时,所述无人机向某一方向飞行一段固定距离,在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式;采用基于深度神经网络或核函数的强化学习方法,对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模,通过与环境的信息交互,实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略,进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。可用于无人机和基站辅助地面用户设备卸载的网络场景模型下的无人机在线轨迹规划和用户任务卸载调度。
Description
技术领域
本发明属于无线通信技术领域,具体涉及无人机和基站辅助地面用户设备卸载任务数据的空地协同方法。
背景技术
随着物联网设备的广泛部署,将有大量设备产生的任务数据需要卸载到算力更多的边缘计算节点(如基站)进行处理。然而地面信道受小尺度衰落的影响,传输速率受限。无人机与地面用户设备之间往往存在视距信道,从而为通信以及多用户调度和资源分配提供了更可靠的连接。并且无人机的灵活性可以有效应对时间/空间变化的通信/计算需求。
在空地一体化网络中的多接入边缘计算(Multi-Access Edge Computing,MEC)背景下,关于卸载策略优化的最新研究主要集中在地面用户设备可以决定在本地执行计算任务或将它们卸载到无人机的场景。事实上,如果不与地面网络合作执行MEC,这些研究无法释放无人机在改善地面网络服务质量方面的全部潜力。并且考虑到实际环境的高度动态,存在时变且不可预测的计算需求和信道传播的情况下,确定性优化无法求解此类问题。
公开号为CN113286314A、名称为“一种基于Q学习算法的无人机基站部署及用户关联方法”的发明专利,其运用Q学习的方法对动态环境中蜂窝网络联合无人机基站部署及用户关联问题进行优化,以最大化系统内用户的传输速率之和。但未考虑用户的任务模型以及时变的计算需求。
公开号为CN110381445A、名称为“一种基于无人机基站系统的资源分配与飞行轨迹优化方法”的发明专利,通过给定一个有限的回程链路,以及按照地面用户的敏感程度将地面用户区分为时延容忍用户和时延敏感用户,无人机作为空中基站接收并转发信源发送的信息给地面的时延容忍和时延敏感用户,通过联合优化带宽、功率及轨迹来最大化时延容忍用户的最小吞吐量,使得系统的优化更具有针对性。利用凸松弛方法,将原本的非凸问题变为凸的,以交替优化带宽功率及轨迹的形式,增加了系统的吞吐量。但该方法不适用于解决高度动态场景中的问题。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,在每个时隙开始时,无人机向某一方向飞行一段固定距离;在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式;通过与环境的信息交互,无人机和基站学习联合无人机在线轨迹规划和用户任务卸载调度的最优策略,以求解高度动态的空地一体化网络中存在的时/空变化的通信/计算需求与分布式资源匹配问题。可用于无人机和基站辅助地面用户设备卸载的网络场景模型下的无人机在线轨迹规划和用户任务卸载调度。
为实现上述技术目的,本发明采取的技术方案为:
无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,包括:
在每个时隙开始时,所述无人机向某一方向飞行一段固定距离,在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式;
采用基于深度神经网络或核函数的强化学习方法,对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模,通过与环境的信息交互,实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略,进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。
为优化上述技术方案,采取的具体措施还包括:
采用基于深度神经网络的强化学习方法时,上述的方法包括:
步骤1:获取当前无人机的状态,包括当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量;
步骤2:无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤3:无人机到达新的位置后,收集基站的状态,包括无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量;
步骤4:基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤5:当下一个时隙t+1卸载调度执行完成后,无人机和基站获取相应的回报值,将本次经验存入经验池中,并抽取一定数量的经验训练深度神经网络;
步骤6:在每个时隙重复步骤1-步骤5直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
上述的步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对获得的状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对;
若量化状态-动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据深度Q网络,选取当前状态下Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下,对应矩阵中数值为0的动作集合;
步骤4中,对获得的状态进行量化时,初始量化状态集合为空,对于t时隙的状态,若其与集合中的所有量化状态的各个元素间的距离均小于对应阈值,则用已存在的量化状态代替当前时隙的状态;
若其与集合中的所有量化状态的某个元素间的距离均大于阈值,则代表集合中不包含该状态,因此将该状态加入量化状态集合,并更新T矩阵,增加新的一行零元素。
上述的步骤5中,神经网络的训练包含以下步骤:
步骤5.1:在训练开始时,初始化神经网络;
步骤5.2:在每个时隙各个代理获得奖励后,将上个时隙t-1的状态和动作,当前时隙t 获得的奖励,以及状态作为经验存入经验池中;
步骤5.3:选取一定批量的经验,利用Adam算法以最小化样本均方误差为目标训练神经网络。
上述的采用基于核函数的强化学习方法时,所述方法包括:
步骤(1):无人机获取当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量作为当前无人机的状态;
步骤(2):无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤(3):无人机到达新的位置后,基站收集无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量作为基站的状态;
步骤(4):基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤(5):当下一个时隙t+1该卸载调度执行完成后,无人机和基站获取相应的回报值,训练核函数,无人机和基站更新对应的字典和权重矢量;
步骤(6):在每个时隙重复步骤(1)-步骤(5)直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
上述的步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对。若量化状态- 动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据核函数近似的Q函数选取当前状态下,Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下,对应矩阵中数值为0的动作集合。
上述的步骤(5)中,核函数的训练包含以下步骤:
步骤(5.1):创建字典集合用以存放获取的特征信息,即状态-动作对;
步骤(5.2):求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
步骤(5.3):根据当前时隙的状态、动作和瞬时回报更新字典中每一个特征的权重系数;
步骤(5.4):将步骤(5.2)所求得的核函数和步骤(5.3)所求得的对应特征的权重系数相乘并求和得到当前时隙核函数近似的Q函数;
步骤(5.5):使用基于ALD(Approximate Linear Dependence,近似线性相关性分析) 的在线内核稀疏方法对字典进行更新。
上述的步骤(5.2)中,使用高斯核函数求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
在所述步骤(5.5)中,基于ALD的在线内核稀疏方法,通过定义一个差值函数来判断当前数据样本与字典内元素的相似程度,当该相似函数的值超过一定阈值时,说明当前样本包含了字典内特征元素所没有的特征,需要将该样本加入字典集合中,步骤(5.5)具体包含以下步骤:
步骤(5.5.1):定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值;
对当前时隙的数据样本,计算所述差值;
步骤(5.5.2):定义当前数据样本与字典内元素的差值函数阈值μ;
步骤(5.5.3):判断步骤(5.5.1)中计算所得差值与步骤(5.5.2)中所定义的阈值的大小关系,如果差值大于阈值,则将当前的样本加入到字典集合中;若差值小于阈值,则维持当前的字典集合不变。
本发明具有以下有益效果:
本发明面向无人机辅助的多接入边缘计算场景,可有效解决高度动态的空地一体化网络中存在的时/空变化的通信/计算需求与分布式资源匹配问题,具体的:
本发明提出了一种无人机和基站协同为地面用户设备提供卸载服务的方法,每个时隙开始时,无人机向某一方向飞行一段固定距离。在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式。
为了获得无人机和基站学习联合无人机在线轨迹规划和用户任务卸载调度的最优策略,将其建模为相互耦合的马尔可夫决策过程。并提供了一种基于深度神经网络的联合轨迹规划和卸载调度方法,该方法使用了基于深度神经网络的强化学习方法,对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模。
附图说明
图1为本发明方法流程图;
图2为卸载数据时存在的两种情况;
图3为耦合马尔可夫决策过程的示意图;
图4为无人机在实际部署时存在的数据交互和执行模块;
图5为基站在实际部署时存在的数据交互和执行模块;
图6为本发明基于深度神经网络进行联合轨迹规划和卸载调度的流程图;
图7为本发明基于核函数进行联合轨迹规划和卸载调度的流程图;
图8为本发明提基于ALD的在线内核稀疏方法对字典进行更新的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参见图1,无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,包括:
在每个时隙开始时,所述无人机向某一方向飞行一段固定距离,在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式;
采用基于深度神经网络或核函数的强化学习方法,对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模,通过与环境的信息交互,实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略,进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。
具体实施时,采用基于深度神经网络的强化学习方法时,如图6所示,所述方法包括:
步骤1:获取当前无人机的状态,包括当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量;
步骤2:无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤3:无人机到达新的位置后,收集基站的状态,包括无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量;
步骤4:基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤5:当下一个时隙t+1卸载调度执行完成后,无人机和基站获取相应的回报值,将本次经验存入经验池中,并抽取一定数量的经验训练深度神经网络;
步骤6:在每个时隙重复步骤1-步骤5直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
上述的步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对获得的状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对;
若量化状态-动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据深度Q网络,选取当前状态下Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下(行),对应矩阵中数值为0的动作(列)集合;
步骤4中,对获得的状态进行量化时,初始量化状态集合为空,对于t时隙的状态,若其与集合中的所有量化状态的各个元素间的距离均小于对应阈值,则可以用已存在的量化状态代替当前时隙的状态;
若其与集合中的所有量化状态的某个元素间的距离均大于阈值,则代表集合中不包含该状态,因此将该状态加入量化状态集合,并更新T矩阵,增加新的一行零元素(代表动作均未探索过)。
上述的步骤5中,神经网络的训练包含以下步骤:
步骤5.1:在训练开始时,初始化神经网络;
步骤5.2:在每个时隙各个代理获得奖励后,将上个时隙t-1的状态和动作,当前时隙t 获得的奖励,以及状态作为经验存入经验池中;
步骤5.3:选取一定批量的经验,利用Adam算法以最小化样本均方误差为目标训练神经网络。
具体实施时,采用基于核函数的强化学习方法时,如图7所示,所述方法包括:
步骤(1):无人机获取当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量作为当前无人机的状态;
步骤(2):无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤(3):无人机到达新的位置后,基站收集无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量作为基站的状态;
步骤(4):基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤(5):当下一个时隙t+1该卸载调度执行完成后,无人机和基站获取相应的回报值,训练核函数,无人机和基站更新对应的字典和权重矢量;
步骤(6):在每个时隙重复步骤(1)-步骤(5)直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
上述的步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对。若量化状态- 动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据核函数近似的Q函数选取当前状态下,Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下(行),对应矩阵中数值为0的动作(列)集合。
上述的步骤(5)中,核函数的训练包含以下步骤:
步骤(5.1):创建字典集合用以存放获取的特征信息,即状态-动作对;
步骤(5.2):求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
步骤(5.3):根据当前时隙的状态、动作和瞬时回报更新字典中每一个特征的权重系数;
步骤(5.4):将步骤(5.2)所求得的核函数和步骤(5.3)所求得的对应特征的权重系数相乘并求和得到当前时隙核函数近似的Q函数;
步骤(5.5):使用基于ALD的在线内核稀疏方法对字典进行更新。
上述的步骤(5.2)中,使用高斯核函数求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
上述的步骤(5.5)中,基于ALD的在线内核稀疏方法,通过定义一个差值函数来判断当前数据样本与字典内元素的相似程度,当该相似函数的值超过一定阈值时,说明当前样本包含了字典内特征元素所没有的特征,需要将该样本加入字典集合中,如图8所示,步骤(5.5) 具体包含以下步骤:
步骤(5.5.1):定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值;
对当前时隙的数据样本,计算该差值;
步骤(5.5.2):定义当前数据样本与字典内元素的差值函数阈值μ;
步骤(5.5.3):判断步骤(5.5.1)中计算所得差值与步骤(5.5.2)中所定义的阈值的大小关系,如果差值大于阈值,则将当前的样本加入到字典集合中;若差值小于阈值,则维持当前的字典集合不变。
具体分析与实施例如下:
在所研究的多小区网络中,无人机以恒定高度H飞行并作为边缘计算节点。地面网络由J 个小区组成,其中每个基站j(满足j∈{1,…,J})仅与Mj个固定的地面用户设备相关联,这样的一组用户设备集合表示为(满足),并且各个小区的用户设备集合不存在交集
由于地面非视距信道的小尺度衰落,信道增益是时变的。这里考虑使用块衰落信道模型。即,地面信道增益在一个时隙内保持不变,但在不同时隙之间是变化。
在时隙t中,给定设备m(其中)的位置qm(为列向量)和无人机位置 qUAV,t=[xt,yt,H],无人机与用户设备之间的距离d0,m,t=|qUAV,t-qm|。并且无人机与用户设备之间具有视距信道,可以得到无人机与用户设备m(其中)之间的信道功率增益为其中|h0|2表示参考距离为1m时的信道功率增益。
每个用户设备的卸载调度选项,包括在设备本地执行计算和卸载任务数据到无人机或相关联的基站。
卸载或(和)计算任务数据的持续时间指定为τ。
假设频域信道数量充足,用户设备的卸载传输不会相互干扰,计算结果可以通过专用的频域信道返回给用户。
因此,基站j或无人机在时隙t内的可实现卸载速率为:
下标X=0时,代表无人机的卸载速率;X=j∈{1,…,J}代表基站的卸载速率。
假设每个用户设备在时隙内不断地产生计算任务,并且任务产生的统计特征对于网络来说是未知的。
由于信令和数据准备带来的开销,这些任务数据只能在时隙t中进行本地计算或卸载处理,该决策是在时隙t-1中做出的。
然而,由于整个时隙内连续的任务数据产生,时隙t-1中的卸载调度决策无法获得Lj,m,t-1的知识。
每个用户设备的中央处理器周期频率和部署在基站/无人机上的多接入边缘计算服务器的中央处理器周期频率分别定义为flocal和fMEC。
定义处理密度c,其代表处理1比特任务数据所需的中央处理器周期数。
此外,用户设备、基站和无人机都配备了本地任务队列来缓存未处理完的任务数据,其遵循先进先出规则。
若时隙t-1生成的数据Lj,m,t-1无法在时隙t中计算完,剩余未处理完的数据LBL,j,m,t-1将存入该处的任务队列,并在下一时隙优先计算。
下面分别在本地计算和卸载场景中分析在时隙t中观察到的LBL,j,m,t-1和任务队列长度的变化:
在用户设备m处本地计算的情况下,定义Dj,m,t-1为在时隙t-1的末尾观察到的任务队列,其包含在时隙t-1之前产生但未处理完的数据量。
在时隙t中,由于先入先出规则,这些数据Dj,m,t-1将被优先处理,然后再处理任务数据 Lj,m,t-1。
总处理时间Δtj,m,t=c(Lj,m,t-1+Dj,m,t-1)/flocal。
如果Δtj,m,t<τ,则时隙结束前所有任务数据都能处理完,Dj,m,t=0且LBL,j,m,t-1=0。
反过来,当Δtj,m,t≥τ,部分任务数据无法被处理完,任务队列长度变为 Dj,m,t=Dj,m,t-1+Lj,m,t-1-τflocal/c。
在这种情况下,若Dj,m,t-1<τflocal/c,LBL,j,m,t-1=Dj,m,t;
否则,没有时间用于处理Lj,m,t-1,因此LBL,j,m,t-1=Lj,m,t-1。
在时隙t中存在卸载操作时,Lj,m,t-1比特的任务数据可以传输到无人机或与该用户设备关联的基站处的多接入边缘计算服务器,其中传输时间为ttrans=Lj,m,t-1/RX,m,t。
若ttrans>τ,多接入边缘计算服务器将忽略接收到的数据,并存入用户本地的任务队列进行处理。
在接收数据的同时,多接入边缘计算服务器可以处理缓存在其任务队列中的数据DX,t-1。
处理该部分任务数据的时间定义为tpre。根据ttrans和tpre的关系,分析LBL,j,m,t-1的两种情况,如图2所示。
在ttrans>tpre的场景下,所有DX,t-1中任务数据都可以在卸载传输结束前处理。
因此,总处理时间ΔtMEC,m,t=ttrans+Lj,m,t-1·c/fMEC。
如果ΔtMEC,m,t<τ,DX,t=LBL,j,m,t-1=0;
否则,任务数据Lj,m,t-1无法被处理完,DX,t=LBL,j,m,t-1=Lj,m,t-1-fMEc(τ-ttrans)/c。
但是,在ttrans≤tpre的场景下,由于当卸载传输结束时,队列中的数据DX,t-1还未处理完。
因此,需要等待DX,t-1数据处理完之后再处理Lj,m,t-1。
总时间可以表示为Δt′MEC,m,t=tpre+Lj,m,t-1·c/fMEC。
如果Δt′MEC,m,t<τ,DX,t=LBL,j,m,t-1=0。
相反,对于Δt′MEC,m,t≥τ,DX,t=Lj,m,t-1+DX,t-1-τfMEC/c。如果DX,t-1<τflocal/c,LBL,j,m,t-1=DX,t;否则,LBL,j,m,t-1=Lj,m,t。
计算任务的产生、缓存和执行模型部分表明联合轨迹规划和用户卸载调度是一个顺序决策问题。然而,将这样的问题表述为单个代理的马尔可夫决策过程会受到维数诅咒的影响,其中联合状态/动作空间随着基站、用户设备和无人机的总数呈指数增长。
而将轨迹规划和各个小区用户设备的卸载调度分别用一个马尔可夫决策过程表示时,制定的MDP-UAV和MDP-cell j是相互耦合的。
也就是说,在时隙t-1中,MDP-cell j的状态sj,t-1包含无人机的位置,因此会部分地受到MDP-UAV执行动作a0,t(即无人机的运动)的影响。由于MDP-UAV的奖励r0,t+1包含各个小区的LBL,j,m,t-1数据信息,而该信息由各小区的卸载调度决定,因此MDP-UAV也受到 MDP-cell j决策的影响。
下面给出耦合马尔可夫决策过程的具体建模方法:
如图3-5所示,在MDP-UAV中,给定状态空间无人机代理在时隙t中观察到的状态可以定义为其中ut-1=[U1,t-1,...,UJ,t-1]T并且每个元素表示为代表时隙t-1内小区j中产生的平均任务比特数。
这里将ut-1引入状态sj,t是为了避免贪婪策略中总是调度无人机只为一个小区提供服务。
aj,t在时间段t+1内执行。
为了求解上述的联合轨迹规划和卸载调度问题,分别提出了基于深度神经网络的方法和基于核函数的方法。
基于深度神经网络的联合轨迹规划和卸载调度方法:
在时隙t中,为了选择动作a0,t,无人机代理利用∈-greedy策略:
随后,无人机立即向指定的方向a0,t飞行并到达新的位置qUAV,t+1。
这里定义一个矩阵Tj来记录是否访问了状态-动作对。
如果第m个量化状态和第n个动作对被访问,[Tj]m,n=1;否则,它等于0。给定阈值μq,μd和μu,对于所有属于的量化状态如果以下不等式中的任何一个被满足:‖qUAV,t+1-qUAV‖>μq,‖dj,t-dj‖>μd,‖ut-1-u‖>μu,则被识别为新的量化状态,即
除此以外,aj,t=argmaxaj Q(sj,t,aj;wj)。
小区的卸载调度动作选定后将在t+1时隙执行。
当时隙t+1结束时,无人机代理收到奖励r0,t+1并将经验(s0,t,a0,t,r0,t+1,s0,t+1)加入经验池中;
小区代理j收到奖励rj,t+1并将经验(sj,t,aj,t,rj,t+1,sj,t+1)加入经验池中。随后每个代理从经验池中抽取N组经验训练神经网络以最小化均方误差如下:
其中,
基于核函数的联合轨迹规划和卸载调度方法:
随后,无人机立即向指定的方向a0,t飞行并到达新的位置qUAV,t+1。
这里定义一个矩阵Tj来记录是否访问了状态-动作对。
如果第m个量化状态和第n个动作对被访问,[Tj]m,n=1;
否则,它等于0。给定阈值μq,μd和μu,对于所有属于的量化状态如果以下不等式中的任何一个被满足:‖qUAV,t+1-qUAV‖>μq, ‖dj,t-dj‖>μd,‖ut-1-u‖>μu,则被识别为新的量化状态,即在这种情况下,并且
小区的卸载调度动作选定后将在t+1时隙执行。
当时隙t+1结束时,无人机代理收到奖励r0,t+1,并按下式更新权重矢量:
小区代理j收到奖励rj,t+1,并按下式更新权重矢量:
f0,t和fj,t分别是包含N0,t和Nj,t个特征的核矢量。
本专利中采用高斯核。
通过将特征空间映射指定为φ(·),则f(x,x′)=φ(x)Tφ(x′)。f0,t可以表示为:
类似的,fj,t可以表示为:
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,包括:
在每个时隙开始时,所述无人机向某一方向飞行一段固定距离,在无人机到达新的位置后,基站为小区内的用户分配卸载调度方式;
采用基于深度神经网络或核函数的强化学习方法,对动态环境下的无人机轨迹规划和用户卸载调度问题进行马尔可夫建模,通过与环境的信息交互,实现无人机在线轨迹规划并得到用户任务卸载调度的最优策略,进行无人机和基站辅助地面用户设备卸载任务数据的空地协同。
2.根据权利要求1所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,采用基于深度神经网络的强化学习方法时,所述方法包括:
步骤1:获取当前无人机的状态,包括当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量;
步骤2:无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤3:无人机到达新的位置后,收集基站的状态,包括无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量;
步骤4:基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤5:当下一个时隙t+1卸载调度执行完成后,无人机和基站获取相应的回报值,将本次经验存入经验池中,并抽取一定数量的经验训练深度神经网络;
步骤6:在每个时隙重复步骤1-步骤5直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
4.根据权利要求2所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对获得的状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对;
若量化状态-动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据深度Q网络,选取当前状态下Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下,对应矩阵中数值为0的动作集合;
步骤4中,对获得的状态进行量化时,初始量化状态集合为空,对于t时隙的状态,若其与集合中的所有量化状态的各个元素间的距离均小于对应阈值,则用已存在的量化状态代替当前时隙的状态;
若其与集合中的所有量化状态的某个元素间的距离均大于阈值,则代表集合中不包含该状态,因此将该状态加入量化状态集合,并更新T矩阵,增加新的一行零元素。
5.根据权利要求2所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,步骤5中,神经网络的训练包含以下步骤:
步骤5.1:在训练开始时,初始化神经网络;
步骤5.2:在每个时隙各个代理获得奖励后,将上个时隙t-1的状态和动作,当前时隙t获得的奖励,以及状态作为经验存入经验池中;
步骤5.3:选取一定批量的经验,利用Adam算法以最小化样本均方误差为目标训练神经网络。
6.根据权利要求1所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,采用基于核函数的强化学习方法时,所述方法包括:
步骤(1):无人机获取当前时隙t的位置,以及上个时隙t-1各个小区用户的平均任务数据生成量作为当前无人机的状态;
步骤(2):无人机进行动作选择,从预设的方向集合中选择某一方向并飞行一段固定的距离;
步骤(3):无人机到达新的位置后,基站收集无人机的位置,时隙t-1结束时小区内各个用户的任务队列长度、本基站以及无人机的任务队列长度和上个时隙t-1各个小区用户的平均任务数据生成量作为基站的状态;
步骤(4):基站进行动作选择,为小区内的每个用户分配卸载调度方式,该卸载调度方式将在下个时隙t+1中执行;
步骤(5):当下一个时隙t+1该卸载调度执行完成后,无人机和基站获取相应的回报值,训练核函数,无人机和基站更新对应的字典和权重矢量;
步骤(6):在每个时隙重复步骤(1)-步骤(5)直至收敛,此时动作选择决策即为用户任务卸载调度的最优策略。
8.根据权利要求6所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,步骤4中,采用改进的贪心算法进行动作选择,具体为:
先对状态进行量化,建立一个矩阵T来记录是否访问了量化状态-动作对。若量化状态-动作对在之前的时隙被访问过,则矩阵中的对应位置置为1;否则为0;
在任一时隙,基站设备以概率1-∈根据核函数近似的Q函数选取当前状态下,Q值最大的动作作为本时隙小区用户的卸载调度方式;
在任一时隙,基站设备以概率∈随机选取一个未探索的动作,即T矩阵中当前量化状态下,对应矩阵中数值为0的动作集合。
9.根据权利要求6所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,所述步骤(5)中,核函数的训练包含以下步骤:
步骤(5.1):创建字典集合用以存放获取的特征信息,即状态-动作对;
步骤(5.2):求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
步骤(5.3):根据当前时隙的状态、动作和瞬时回报更新字典中每一个特征的权重系数;
步骤(5.4):将步骤(5.2)所求得的核函数和步骤(5.3)所求得的对应特征的权重系数相乘并求和得到当前时隙核函数近似的Q函数;
步骤(5.5):使用基于ALD的在线内核稀疏方法对字典进行更新。
10.根据权利要求9所述的无人机和基站辅助地面用户设备卸载任务数据的空地协同方法,其特征在于,在所述步骤(5.2)中,使用高斯核函数求解当前时隙的数据样本特征关于字典中每一个特征的核函数;
在所述步骤(5.5)中,基于ALD的在线内核稀疏方法,通过定义一个差值函数来判断当前数据样本与字典内元素的相似程度,当该相似函数的值超过一定阈值时,说明当前样本包含了字典内特征元素所没有的特征,需要将该样本加入字典集合中,步骤(5.5)具体包含以下步骤:
步骤(5.5.1):定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值;
对当前时隙的数据样本,计算所述差值;
步骤(5.5.2):定义当前数据样本与字典内元素的差值函数阈值μ;
步骤(5.5.3):判断步骤(5.5.1)中计算所得差值与步骤(5.5.2)中所定义的阈值的大小关系,如果差值大于阈值,则将当前的样本加入到字典集合中;若差值小于阈值,则维持当前的字典集合不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047204.5A CN114423044A (zh) | 2022-01-17 | 2022-01-17 | 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210047204.5A CN114423044A (zh) | 2022-01-17 | 2022-01-17 | 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114423044A true CN114423044A (zh) | 2022-04-29 |
Family
ID=81272648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210047204.5A Pending CN114423044A (zh) | 2022-01-17 | 2022-01-17 | 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114423044A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115226130A (zh) * | 2022-07-14 | 2022-10-21 | 中国人民解放军国防科技大学 | 基于公平性感知的多无人机数据卸载方法及相关设备 |
CN116074851A (zh) * | 2023-02-07 | 2023-05-05 | 厦门大学 | 一种多无人机空中基站具体环境追踪覆盖方法 |
CN116669069A (zh) * | 2023-04-26 | 2023-08-29 | 南京航空航天大学 | 一种小区关联、轨迹规划和卸载调度联合动态决策方法 |
CN117295077A (zh) * | 2023-11-24 | 2023-12-26 | 北京航空航天大学 | 一种多小区协同多址地空数据传输方法 |
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
CN118042528A (zh) * | 2024-04-12 | 2024-05-14 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN112911648A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种空地结合的移动边缘计算卸载优化方法 |
WO2021139537A1 (zh) * | 2020-01-08 | 2021-07-15 | 上海交通大学 | 一种工业物联网中基于功率控制和资源分配的任务卸载方法 |
-
2022
- 2022-01-17 CN CN202210047204.5A patent/CN114423044A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139537A1 (zh) * | 2020-01-08 | 2021-07-15 | 上海交通大学 | 一种工业物联网中基于功率控制和资源分配的任务卸载方法 |
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN112911648A (zh) * | 2021-01-20 | 2021-06-04 | 长春工程学院 | 一种空地结合的移动边缘计算卸载优化方法 |
Non-Patent Citations (1)
Title |
---|
姚叶;崔岩;: "空地协同下移动边缘计算系统的联合多无人机轨迹和卸载策略优化", 通信技术, no. 09, 10 September 2020 (2020-09-10) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115226130A (zh) * | 2022-07-14 | 2022-10-21 | 中国人民解放军国防科技大学 | 基于公平性感知的多无人机数据卸载方法及相关设备 |
CN115226130B (zh) * | 2022-07-14 | 2024-04-19 | 中国人民解放军国防科技大学 | 基于公平性感知的多无人机数据卸载方法及相关设备 |
CN116074851A (zh) * | 2023-02-07 | 2023-05-05 | 厦门大学 | 一种多无人机空中基站具体环境追踪覆盖方法 |
CN116669069A (zh) * | 2023-04-26 | 2023-08-29 | 南京航空航天大学 | 一种小区关联、轨迹规划和卸载调度联合动态决策方法 |
CN117295077A (zh) * | 2023-11-24 | 2023-12-26 | 北京航空航天大学 | 一种多小区协同多址地空数据传输方法 |
CN117295077B (zh) * | 2023-11-24 | 2024-02-13 | 北京航空航天大学 | 一种多小区协同多址地空数据传输方法 |
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
CN117553803B (zh) * | 2024-01-09 | 2024-03-19 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
CN118042528A (zh) * | 2024-04-12 | 2024-05-14 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
CN118042528B (zh) * | 2024-04-12 | 2024-06-28 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114423044A (zh) | 无人机和基站辅助地面用户设备卸载任务数据的空地协同方法 | |
CN114362810B (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
Zhu et al. | Learning-based computation offloading approaches in UAVs-assisted edge computing | |
Lakew et al. | Intelligent offloading and resource allocation in heterogeneous aerial access IoT networks | |
CN112422644B (zh) | 计算任务卸载方法及系统、电子设备和存储介质 | |
Zhang et al. | Optimization of image transmission in cooperative semantic communication networks | |
Truong et al. | HAMEC-RSMA: Enhanced aerial computing systems with rate splitting multiple access | |
CN114884949B (zh) | 基于maddpg算法的低轨卫星物联网任务卸载方法 | |
CN113905347A (zh) | 一种空地一体化电力物联网云边端协同方法 | |
Huda et al. | Deep reinforcement learning-based computation offloading in uav swarm-enabled edge computing for surveillance applications | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
CN116248164A (zh) | 基于深度强化学习的完全分布式路由方法和系统 | |
Lakew et al. | Intelligent offloading and resource allocation in hap-assisted mec networks | |
CN117519995A (zh) | 一种星地网络移动边缘计算资源分配方法 | |
CN116634498A (zh) | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 | |
Wang et al. | Dynamic air-ground collaboration for multi-access edge computing | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN117580105B (zh) | 一种面向电网巡检的无人机任务卸载优化方法 | |
Xiang et al. | UAV-Assisted MEC System Considering UAV Trajectory and Task Offloading Strategy | |
Zhang et al. | Iort data collection with leo satellite-assisted and cache-enabled uav: A deep reinforcement learning approach | |
CN116886158A (zh) | 一种基于ddpg的星地融合网络移动边缘计算资源分配方法 | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN114614878B (zh) | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 | |
CN116484976A (zh) | 一种无线网络中异步联邦学习方法 | |
CN116566466A (zh) | 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |