CN116828539A - 基于深度强化学习的联合计算迁移和无人机轨迹优化方法 - Google Patents
基于深度强化学习的联合计算迁移和无人机轨迹优化方法 Download PDFInfo
- Publication number
- CN116828539A CN116828539A CN202310901455.XA CN202310901455A CN116828539A CN 116828539 A CN116828539 A CN 116828539A CN 202310901455 A CN202310901455 A CN 202310901455A CN 116828539 A CN116828539 A CN 116828539A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- vehicle
- time slot
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 72
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000013508 migration Methods 0.000 title claims abstract description 22
- 230000005012 migration Effects 0.000 title claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 19
- 238000013468 resource allocation Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000006855 networking Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- HMPUHXCGUHDVBI-UHFFFAOYSA-N 5-methyl-1,3,4-thiadiazol-2-amine Chemical compound CC1=NN=C(N)S1 HMPUHXCGUHDVBI-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Astronomy & Astrophysics (AREA)
- Quality & Reliability (AREA)
- Aviation & Aerospace Engineering (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,属于无人机辅助车联网的边缘计算领域,考虑无人机辅助车辆移动边缘计算的场景,利用深度强化学习优化策略优化每一个时隙每个无人机选择服务的用户以及任务卸载比率,无人机飞行角度和飞行速度,进而减少系统时延,同时提高无人机服务车辆的公平性。本发明使用多智能体双延迟深度确定性策略梯度算法可以有效解决计算迁移和无人机轨迹的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
Description
技术领域
本发明涉及无人机辅助车联网的边缘计算技术领域,特别涉及一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法。
背景技术
随着无人驾驶技术的不断发展,车辆需要处理越来越多的计算任务,例如图像识别、路径规划、数据处理等等。然而,车辆的硬件资源是有限的,无法满足这些需求。为了解决这个问题,研究人员提出了一种新的思路,即将一部分计算任务卸载到其他计算节点上。
在应急场景中,无人机可以提供边缘计算服务,以支持车辆的通信和数据处理需求。无人机拥有更强大的计算能力和更大的存储空间,能够承担一部分车辆的计算任务。同时,无人机具有高度灵活性和机动性,能够随时随地为车辆提供支持。在这种模式下,车辆将计算任务分配给无人机,无人机处理完毕后再将结果返回给车辆,从而实现车辆和无人机之间的协同工作。然而现有研究大多考虑了无人机的能耗,系统时延的优化问题,较少考虑无人机服务车辆的公平性,尤其是缺少联合优化时延和无人机服务车辆的公平性的技术。
发明内容
本发明提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,针对无人机辅助车辆边缘计算的场景,考虑时延和无人机服务车辆用户的公平性,通过联合优化计算迁移决策和无人机轨迹,实现了在复杂度和性能之间取得了很好的平衡,无人机可以高效地协助车辆完成计算任务,提高车辆数据处理能力,为应急响应提供更高效、更安全和更稳定的服务。
本发明实施例提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,包括以下步骤:
步骤1:构建无人机辅助移动边缘计算模型,其中,所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算;
步骤2:建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型;
步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息;
步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型;
步骤5:利用多智能体双延迟深度确定性策略梯度算法(Twin Delayed DeepDeterministic Policy Gradient,TD3)对所述多智能体深度强化学习模型进行优化;
步骤6:根据优化后的所述多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。
在本发明的一个实施例中,在步骤4中,采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型,包括:
步骤4-1,无人机在时隙n能观测到的信息除自身的位置信息cu,n外,还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数,记为:
无人机的观测表示为:
ou,n={cu,n,ku,n}
系统的状态空间O为所有无人机观测结果的集合,包含所有无人机的位置,所有车辆的位置、任务以及服务次数信息,记为:
步骤4-2,定义动作空间A包括无人机在当前时隙n服务的车辆mn以及任务卸载比例Δm,u,n,自身的飞行角度βu,n和飞行速度vu,n,动作可记为:
au,n={mn,Δm,u,n,βu,n,vu,n}
步骤4-3,定义奖励函数R,考虑时延和无人机服务车辆的公平性,无人机在时隙n执行动作后奖励函数表示为:
ru,n=ηξn+∑m∈Mαm,u,n(Tm,n,local-Tm,n)
其中,η为权重系数,Tm,n,local为车辆m在时隙n全部本地计算任务的本地时延,Tm,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延;
累计折扣奖励为:
其中,δ∈[0,1]是折扣因子;
步骤4-3,依据建立好的系统的状态空间O,动作空间A和奖励函数R,建立多智能体协作的深度强化学习模型。
本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法,具有以下有益效果:
(1)无人机利用深度强化学习优化策略获得最优的无人机服务车辆,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度。
(2)无人机通过选择合适的无人机服务车辆,服务用户的任务卸载比率,无人机飞行角度,无人机飞行速度,最小化系统时延且提高无人机服务车辆的公平性。
(3)使用MATD算法可以有效解决无人机辅助车辆边缘计算的无人机服务车辆选择,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
(4)在无人机辅助车辆边缘计算的场景中,本发明提出的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法在最小化系统时延同时提高无人机服务车辆用户的公平性方面是优越的。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的流程图;
图2为根据本发明实施例提供的无人机辅助移动边缘计算模型示意图;
图3为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的执行过程。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
图1为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的流程图。
如图1所示,该基于深度强化学习的联合计算迁移和无人机轨迹优化方法包括以下步骤:
步骤1:构建无人机辅助移动边缘计算模型,其中,无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算。
如图2所示,构建基于无人机辅助移动边缘计算模型,车辆的任务可以本地计算,或部分任务卸载到无人机计算,无人机辅助计算可以高效地协助车辆完成计算任务,提高车辆数据处理能力,为应急响应提供更高效、更安全和更稳定的服务。
在该模型中,无人机在固定高度飞行,可以为车辆用户提供计算服务,车辆用户的任务可以本地计算和部分卸载到无人机计算,将车辆的集合记为无人机的集合记为/>无人机在目标上空以固定的高度Hu飞行,由于能量受限,设无人机执行一次飞行任务的总时长为T,可划分为N个时隙,/>每架无人机在一个时隙内可以服务一个有计算密集型任务需求的车辆,任务记为Sm,n={Dm,n,Fm,n},其中Dm,n表示数据比特量,Fm,n表示计算复杂度(每比特所需CPU周期)。
每架无人机为车辆提供计算卸载服务,车辆只需在本地计算任务的一小部分,其余卸载至无人机MEC服务器处进行计算,以减少任务的延时,卸载计算量的比率记为Δm,u,n=[0,1]。无人机和车辆之间的卸载决策变量可表示为:
其中αm,u,n∈{0,1},当αm,u,n=1时表示车辆m在时隙n的计算任务由无人机u辅助计算,Δm,u,n>0;当αm,u,n=0时表示车辆m在时隙n的计算任务只在本地计算,Δm,u,n=0。决策变量需要满足:
表明在一个时隙内,无人机只能辅助一辆车辆计算,车辆的任务能卸载且只能卸载到一个无人机计算。
步骤2:建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型。
具体包括:步骤2-1,建立移动模型,车辆m在时隙n的坐标为xm,n为车辆m在时隙n的横坐标,ym,n为车辆m在时隙n的纵坐标,每架无人机在高度Hu的水平面轨迹也使用无人机在每个时隙的离散位置来表示来表示,xu,n为无人机u在时隙n的横坐标,yu,n为车辆m在时隙n的纵坐标,假设无人机u在时隙n选择飞去服务车辆m,设其飞行角度为βu,n∈[0,2π],飞行速度为vu,n∈[0,Vmax],飞行时长为tfly。无人机之间的飞行距离也受限制,不能低于飞行的最小安全距离dsafe可表述为:
步骤2-2,建立通信和计算模型,无人机辅助移动边缘计算系统中,考虑任务可部分卸载的移动边缘计算方式,则车辆m在时隙n的本地计算延时可表示为:
其中fm表示车辆m的本地CPU计算能力(每秒CPU周期数)。
在时隙n,车辆m将卸载部分任务至无人机u执行计算,则其任务的传输时间定义为:
rm,u,n=Blog2(1+SNRm,u,n)
其中,B为信道带宽,SNRm,u,n表示车辆m至无人机u在时隙n的信干噪比。
在任务传输完成后,无人机搭载的MEC服务器执行任务计算,设无人机端服务器的计算能力为fu,则车辆m将部分任务卸载到无人机端所需的计算时间为:
由于计算密集型任务的结果输出通常都远远小于输入,因此本次忽略下行链路传输所花费的延时。基于以上通信与计算模型,车辆m在时隙n完成任务Sm,n的时延Tm,n可以表示为:
步骤2-3,减少系统平均任务延时可以提高系统性能,提升车辆服务质量,车辆m的平均时延可以表示为:
进而系统时延可以定义为:
为了保证多架无人机对车辆用户服务的公平性,避免无人机在任务期间只服务某几个车辆用户以减少能耗,而不去服务其他用户设备的情况发生,定义系统公平系数ξn,用来反映每一个时隙下各个车辆用户之间累积服务次数的差异,计算方式如下:
建立优化目标为针对每个时隙每个无人机只能服务一个车辆用户,且一个车辆用户的任务只能卸载到一个无人机,在无人机安全距离约束,无人机最大飞行速度限制以及车辆传输功率有限的要求下,通过联合优化每一个时隙每个无人机选择服务的车辆和卸载比率,以及无人机飞行角度和速度,进而优化在无人机任务周期内的系统时延,同时提高无人机服务车辆的公平性。
具体优化问题如下:
C7:ξN≥ξmin
其中,P={αm,u,n,Δm,u,n}Z={βu,n,vu,n}为需要优化的变量,η为权重系数,C1为限制无人机每个时隙只服务一个用户,C2限制无人机的飞行范围,lmax为规定的无人机飞行范围的最大值,C3和C4分别限制无人机每次的飞行速度和角度,C5表示允许计算任务被部分卸载,车辆承担部分的计算任务,C6表示无人机之间的飞行距离不低于飞行的最小安全距离,C7保证系统的公平效益,保证用户之间的公平性,ξmin为预先设定的系统最低公平指数。
步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息。
每架无人机在每个时隙获取无人机的位置信息车辆的位置信息/>以及相应的任务信息Sm,n={Dm,n,Fm,n},Dm,n表示数据比特量,Fm,n表示计算复杂度(每比特所需CPU周期)。
步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型。
具体包括:步骤4-1,无人机在时隙n能观测到的信息除自身的位置信息cu,n外,还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数,将其记为:
其中wm,n是车辆m在时隙n的位置,Sm,n={Dm,n,Fm,n}车辆m在时隙n的任务信息,其中Dm,n表示数据比特量,Fm,n表示计算复杂度(每比特所需CPU周期),αm,u,n∈{0,1}为决策变量,当αm,u,n=1时表示车辆m在时隙n的计算任务由无人机u辅助计算;当αm,u,n=0时表示车辆m在时隙n的计算任务只在本地计算。决策变量需要满足:
表明在一个时隙内,无人机只能辅助一辆车辆计算,车辆的任务能卸载且只能卸载到一个无人机计算。进而无人机的观测可表示为:
ou,n={cu,n,ku,n}
系统的状态空间O可看做所有无人机观测结果的集合,包含所有无人机的位置,所有车辆的位置、任务以及服务次数信息,记为:
步骤4-2,定义动作空间A为无人机在当前时隙n服务的车辆mn以及任务卸载比例Δm,u,n,再决定自身的飞行角度βu,n,和飞行速度vu,n,因此动作可记为:
au,n={mn,Δm,u,n,βu,n,vu,n}
步骤4-3,定义奖励函数R,考虑时延和无人机服务车辆的公平性,无人机在时隙n执行动作后奖励函数可以表示为:
ru,n=ηξn+∑m∈Mαm,u,n(Tm,n,local-Tm,n)
其中,ξn为时隙n无人机服务用户的公平系数,η为权重系数,Tm,n,local为车辆m在时隙n全部本地计算任务的本地时延,Tm,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延;
故累计折扣奖励为:
其中δ∈[0,1]是折扣因子;
步骤4-3,依据建立好的系统的状态空间O,动作空间A和奖励函数R,建立多智能体协作的深度强化学习模型。
步骤5:利用多智能体双延迟深度确定性策略梯度算法对多智能体深度强化学习模型进行优化。
结合图3所示,具体包括:步骤5-1,初始化每个智能体的actor网络参数为/>以及两个critic网络/>参数为/>和/>
步骤5-2,初始化每个智能体的目标网络参数为/>
步骤5-3,初始化每个智能体的经验回放缓冲区
步骤5-4、初始化训练回合数episode=1;
步骤5-5,初始化每个训练回合中的时间步数为1;
步骤5-6,初始化状态On=o1,n,...,oU,n;
步骤5-7,每个智能体u获取观测ou,n,根据观测获得动作au,n=μu,n(ou,n)+∈;
步骤5-8,每个无人机u根据au,n设置其辅助计算的车辆以及相应的卸载比率、飞行角度、飞行速度;
步骤5-9,每个无人机u获得奖励ru,n,并获取下一个观测ou,n+1,在中将经验(Iu,n,ru,n,On+1)存储;
步骤5-10,判断经验池中的经验数是否达到训练回合数设定阈值,如果是,则从中随机采样一个大小为J的小批次转换(Iu,j,ru,j,Oj+1),进入步骤5-11,否则,进入步骤5-7;
步骤5-11,通过最小化损失函数L(θui c),i=1,2更新参数和/>
步骤5-12,若训练次数达到目标网络更新频率,则通过确定性策略梯度更新参数θa,使用软更新方法更新三个目标网络的参数;
步骤5-13,判断当前回合中的时间步数是否小于每个回合中的总时间步,若是,则当前回合中的时间步数加1,进入步骤5-6,否则,进入步骤5-14;
步骤5-14,判断是否满足episode<Episode,Episode为训练回合数设定阈值,若是,episode=episode+1,进入步骤5-5,否则,优化结束,得到优化后的深度强化学习模型。
步骤6:根据优化后的多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。
具体包括:步骤6-1,利用多智能体双延迟深度确定性策略梯度算法训练好的深度强化学习模型,输入系统某时隙的状态信息sn;
步骤6-2,输出最优动作策略au,n={mn,Δm,u,n,βu,n,vu,n},得到最优的无人机服务车辆,服务用户的任务卸载比率,无人机飞行角度,无人机飞行速度。
根据本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法,针对无人机辅助车辆边缘计算的场景,面向车辆的可拆分的任务,即车辆的任务可以同时在本地计算和部分卸载到无人机计算。采用分布式的资源分配方法,将每架无人机视为智能体,考虑时延和无人机服务车辆的公平性,建立合理的状态空间、动作空间以及奖励函数,即每架无人机基于感知的状态信息来选择服务车辆以及任务卸载比例,无人机自身的飞行角度和飞行速度,构建多智能体深度强化学习模型。利用多智能体双延迟深度确定性策略梯度算法优化深度强化学习模型。根据优化后的深度强化学习模型,在每个时隙得到最优的在服务用户以及任务卸载比例,无人机自身的飞行角度和飞行速度。通过该方法,无人机可以高效地协助车辆完成计算任务,提高车辆数据处理能力,为应急响应提供更高效、更安全和更稳定的服务。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
Claims (2)
1.一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,其特征在于,包括以下步骤:
步骤1:构建无人机辅助移动边缘计算模型,其中,所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算;
步骤2:建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型;
步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息;
步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型;
步骤5:利用多智能体双延迟深度确定性策略梯度算法对所述多智能体深度强化学习模型进行优化;
步骤6:根据优化后的所述多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。
2.根据权利要求1所述的方法,其特征在于,在步骤4中,采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型,包括:
步骤4-1,无人机u在时隙n能观测到的信息除自身的位置信息cu,n外,还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数,记为:
其中,为无人机集合,/>为车辆集合,/>为时隙集合,αm,u,n'为无人机和车辆之间的卸载决策变量,αm,u,n∈{0,1},当αm,u,n=1时表示车辆m在时隙n的计算任务由无人机u辅助计算;当αm,u,n=0时表示车辆m在时隙n的计算任务只在本地计算,wm,n为车辆m在时隙n的坐标,Sm,n为无人机在每个时隙获取的任务信息;
无人机的观测表示为:
ou,n={cu,n,ku,n}
其中,cu,n为无人机在每个时隙的离散位置;
系统的状态空间O为所有无人机观测结果的集合,包含所有无人机的位置,所有车辆的位置、任务以及服务次数信息,记为:
步骤4-2,定义动作空间A包括无人机在当前时隙n服务的车辆mn以及任务卸载比例Δm,u,n,自身的飞行角度βu,n和飞行速度vu,n,动作可记为:
au,n={mn,Δm,u,n,βu,n,vu,n}
步骤4-3,定义奖励函数R,考虑时延和无人机服务车辆的公平性,无人机在时隙n执行动作后奖励函数表示为:
ru,n=ηξn+∑m∈Mαm,u,n(Tm,n,local-Tm,n)
其中,η为权重系数,ξn为公平系数,Tm,n,local为车辆m在时隙n全部本地计算任务的本地时延,Tm,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延;
累计折扣奖励为:
其中,δ∈[0,1]是折扣因子;
步骤4-3,依据建立好的系统的状态空间O,动作空间A和奖励函数R,建立多智能体协作的深度强化学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901455.XA CN116828539A (zh) | 2023-07-20 | 2023-07-20 | 基于深度强化学习的联合计算迁移和无人机轨迹优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310901455.XA CN116828539A (zh) | 2023-07-20 | 2023-07-20 | 基于深度强化学习的联合计算迁移和无人机轨迹优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116828539A true CN116828539A (zh) | 2023-09-29 |
Family
ID=88118520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310901455.XA Pending CN116828539A (zh) | 2023-07-20 | 2023-07-20 | 基于深度强化学习的联合计算迁移和无人机轨迹优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116828539A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
-
2023
- 2023-07-20 CN CN202310901455.XA patent/CN116828539A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117553803A (zh) * | 2024-01-09 | 2024-02-13 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
CN117553803B (zh) * | 2024-01-09 | 2024-03-19 | 大连海事大学 | 一种基于深度强化学习的多无人机智能路径规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930436B (zh) | 一种基于边缘计算的随机型任务排队卸载优化方法 | |
CN111586696B (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
CN113778648B (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
CN113064671A (zh) | 基于多智能体的边缘云可扩展任务卸载方法 | |
CN113395654A (zh) | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 | |
CN116828539A (zh) | 基于深度强化学习的联合计算迁移和无人机轨迹优化方法 | |
CN116451934B (zh) | 多无人机边缘计算路径优化与依赖任务调度优化方法及系统 | |
CN113626104B (zh) | 边云架构下基于深度强化学习的多目标优化卸载策略 | |
CN114169234A (zh) | 一种无人机辅助移动边缘计算的调度优化方法及系统 | |
CN115640131A (zh) | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 | |
CN111629443B (zh) | 用于超5g车联网中的动态频谱切片框架的优化方法及系统 | |
CN112929849B (zh) | 一种基于强化学习的可靠车载边缘计算卸载方法 | |
CN116893861A (zh) | 基于空地协同边缘计算的多智能体协作依赖任务卸载方法 | |
CN116886703A (zh) | 一种基于优先级和强化学习的云边端协作计算卸载方法 | |
CN112929850A (zh) | 一种面向边缘计算环境的车联网数据回传方法 | |
CN114172558B (zh) | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 | |
CN115134242A (zh) | 一种基于深度强化学习策略的车载计算任务卸载方法 | |
CN116887325B (zh) | 一种基于动态稳定匹配的无人机自适应切换方法及系统 | |
CN117354934A (zh) | 一种多时隙mec系统双时间尺度任务卸载和资源分配方法 | |
CN116009590B (zh) | 无人机网络分布式轨迹规划方法、系统、设备及介质 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN112566209A (zh) | 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法 | |
CN117221951A (zh) | 车载边缘环境下基于深度强化学习的任务卸载方法 | |
CN115037751B (zh) | 一种无人机辅助的异构车联网任务迁移与资源分配方法 | |
CN116546421A (zh) | 基于边缘计算的无人机位置部署和最低能耗的awaq算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |