CN116828539A

CN116828539A - 基于深度强化学习的联合计算迁移和无人机轨迹优化方法

Info

Publication number: CN116828539A
Application number: CN202310901455.XA
Authority: CN
Inventors: 王书墨; 宋铁成; 胡静; 夏玮玮; 燕锋; 沈连丰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-29

Abstract

本发明公开了一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，属于无人机辅助车联网的边缘计算领域，考虑无人机辅助车辆移动边缘计算的场景，利用深度强化学习优化策略优化每一个时隙每个无人机选择服务的用户以及任务卸载比率，无人机飞行角度和飞行速度，进而减少系统时延，同时提高无人机服务车辆的公平性。本发明使用多智能体双延迟深度确定性策略梯度算法可以有效解决计算迁移和无人机轨迹的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

Description

基于深度强化学习的联合计算迁移和无人机轨迹优化方法

技术领域

本发明涉及无人机辅助车联网的边缘计算技术领域，特别涉及一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法。

背景技术

随着无人驾驶技术的不断发展，车辆需要处理越来越多的计算任务，例如图像识别、路径规划、数据处理等等。然而，车辆的硬件资源是有限的，无法满足这些需求。为了解决这个问题，研究人员提出了一种新的思路，即将一部分计算任务卸载到其他计算节点上。

在应急场景中，无人机可以提供边缘计算服务，以支持车辆的通信和数据处理需求。无人机拥有更强大的计算能力和更大的存储空间，能够承担一部分车辆的计算任务。同时，无人机具有高度灵活性和机动性，能够随时随地为车辆提供支持。在这种模式下，车辆将计算任务分配给无人机，无人机处理完毕后再将结果返回给车辆，从而实现车辆和无人机之间的协同工作。然而现有研究大多考虑了无人机的能耗，系统时延的优化问题，较少考虑无人机服务车辆的公平性，尤其是缺少联合优化时延和无人机服务车辆的公平性的技术。

发明内容

本发明提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，针对无人机辅助车辆边缘计算的场景，考虑时延和无人机服务车辆用户的公平性，通过联合优化计算迁移决策和无人机轨迹，实现了在复杂度和性能之间取得了很好的平衡，无人机可以高效地协助车辆完成计算任务，提高车辆数据处理能力，为应急响应提供更高效、更安全和更稳定的服务。

本发明实施例提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，包括以下步骤：

步骤1：构建无人机辅助移动边缘计算模型，其中，所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算；

步骤2：建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型；

步骤3：利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息；

步骤4：采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间O，动作空间A，奖励函数R的多智能体深度强化学习模型；

步骤5：利用多智能体双延迟深度确定性策略梯度算法(Twin Delayed DeepDeterministic Policy Gradient，TD3)对所述多智能体深度强化学习模型进行优化；

步骤6：根据优化后的所述多智能体深度强化学习模型，得到最优的计算迁移策略和无人机轨迹。

在本发明的一个实施例中，在步骤4中，采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间O，动作空间A，奖励函数R的多智能体深度强化学习模型，包括：

步骤4-1，无人机在时隙n能观测到的信息除自身的位置信息c_u,n外，还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数，记为：

无人机的观测表示为：

o_u,n＝{c_u,n,k_u,n}

系统的状态空间O为所有无人机观测结果的集合，包含所有无人机的位置，所有车辆的位置、任务以及服务次数信息，记为：

步骤4-2，定义动作空间A包括无人机在当前时隙n服务的车辆m_n以及任务卸载比例Δ_m,u,n，自身的飞行角度β_u,n和飞行速度v_u,n，动作可记为：

a_u,n＝{m_n,Δ_m,u,n,β_u,n,v_u,n}

步骤4-3，定义奖励函数R，考虑时延和无人机服务车辆的公平性，无人机在时隙n执行动作后奖励函数表示为：

r_u,n＝ηξ_n+∑_m∈Mα_m,u,n(T_m,n,local-T_m,n)

其中，η为权重系数，T_m,n,local为车辆m在时隙n全部本地计算任务的本地时延，T_m,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延；

累计折扣奖励为：

其中，δ∈[0,1]是折扣因子；

步骤4-3，依据建立好的系统的状态空间O，动作空间A和奖励函数R，建立多智能体协作的深度强化学习模型。

本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法，具有以下有益效果：

(1)无人机利用深度强化学习优化策略获得最优的无人机服务车辆，服务车辆的任务卸载比率，无人机飞行角度，无人机飞行速度。

(2)无人机通过选择合适的无人机服务车辆，服务用户的任务卸载比率，无人机飞行角度，无人机飞行速度，最小化系统时延且提高无人机服务车辆的公平性。

(3)使用MATD算法可以有效解决无人机辅助车辆边缘计算的无人机服务车辆选择，服务车辆的任务卸载比率，无人机飞行角度，无人机飞行速度的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

(4)在无人机辅助车辆边缘计算的场景中，本发明提出的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法在最小化系统时延同时提高无人机服务车辆用户的公平性方面是优越的。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的流程图；

图2为根据本发明实施例提供的无人机辅助移动边缘计算模型示意图；

图3为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的执行过程。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

图1为根据本发明实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的流程图。

如图1所示，该基于深度强化学习的联合计算迁移和无人机轨迹优化方法包括以下步骤：

步骤1：构建无人机辅助移动边缘计算模型，其中，无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算。

如图2所示，构建基于无人机辅助移动边缘计算模型，车辆的任务可以本地计算，或部分任务卸载到无人机计算，无人机辅助计算可以高效地协助车辆完成计算任务，提高车辆数据处理能力，为应急响应提供更高效、更安全和更稳定的服务。

在该模型中，无人机在固定高度飞行，可以为车辆用户提供计算服务，车辆用户的任务可以本地计算和部分卸载到无人机计算，将车辆的集合记为无人机的集合记为/>无人机在目标上空以固定的高度H_u飞行，由于能量受限，设无人机执行一次飞行任务的总时长为T，可划分为N个时隙，/>每架无人机在一个时隙内可以服务一个有计算密集型任务需求的车辆，任务记为S_m,n＝{D_m,n,F_m,n}，其中D_m,n表示数据比特量，F_m,n表示计算复杂度(每比特所需CPU周期)。

每架无人机为车辆提供计算卸载服务，车辆只需在本地计算任务的一小部分，其余卸载至无人机MEC服务器处进行计算，以减少任务的延时，卸载计算量的比率记为Δ_m,u,n＝[0,1]。无人机和车辆之间的卸载决策变量可表示为：

其中α_m,u,n∈{0,1}，当α_m,u,n＝1时表示车辆m在时隙n的计算任务由无人机u辅助计算，Δ_m,u,n＞0；当α_m,u,n＝0时表示车辆m在时隙n的计算任务只在本地计算，Δ_m,u,n＝0。决策变量需要满足：

表明在一个时隙内，无人机只能辅助一辆车辆计算，车辆的任务能卸载且只能卸载到一个无人机计算。

步骤2：建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型。

具体包括：步骤2-1，建立移动模型，车辆m在时隙n的坐标为x_m,n为车辆m在时隙n的横坐标，y_m,n为车辆m在时隙n的纵坐标，每架无人机在高度H_u的水平面轨迹也使用无人机在每个时隙的离散位置来表示来表示，x_u,n为无人机u在时隙n的横坐标，y_u,n为车辆m在时隙n的纵坐标，假设无人机u在时隙n选择飞去服务车辆m，设其飞行角度为β_u,n∈[0,2π]，飞行速度为v_u,n∈[0,V_max]，飞行时长为t_fly。无人机之间的飞行距离也受限制，不能低于飞行的最小安全距离d_safe可表述为：

步骤2-2，建立通信和计算模型，无人机辅助移动边缘计算系统中，考虑任务可部分卸载的移动边缘计算方式，则车辆m在时隙n的本地计算延时可表示为：

其中f_m表示车辆m的本地CPU计算能力(每秒CPU周期数)。

在时隙n，车辆m将卸载部分任务至无人机u执行计算，则其任务的传输时间定义为：

r_m,u,n＝Blog₂(1+SNR_m,u,n)

其中，B为信道带宽，SNR_m,u,n表示车辆m至无人机u在时隙n的信干噪比。

在任务传输完成后，无人机搭载的MEC服务器执行任务计算，设无人机端服务器的计算能力为f_u，则车辆m将部分任务卸载到无人机端所需的计算时间为：

由于计算密集型任务的结果输出通常都远远小于输入，因此本次忽略下行链路传输所花费的延时。基于以上通信与计算模型，车辆m在时隙n完成任务S_m,n的时延T_m,n可以表示为：

步骤2-3，减少系统平均任务延时可以提高系统性能，提升车辆服务质量，车辆m的平均时延可以表示为：

进而系统时延可以定义为：

为了保证多架无人机对车辆用户服务的公平性，避免无人机在任务期间只服务某几个车辆用户以减少能耗，而不去服务其他用户设备的情况发生，定义系统公平系数ξ_n，用来反映每一个时隙下各个车辆用户之间累积服务次数的差异，计算方式如下：

建立优化目标为针对每个时隙每个无人机只能服务一个车辆用户，且一个车辆用户的任务只能卸载到一个无人机，在无人机安全距离约束，无人机最大飞行速度限制以及车辆传输功率有限的要求下，通过联合优化每一个时隙每个无人机选择服务的车辆和卸载比率，以及无人机飞行角度和速度，进而优化在无人机任务周期内的系统时延，同时提高无人机服务车辆的公平性。

具体优化问题如下：

C7:ξ_N≥ξ_min

其中，P＝{α_m,u,n,Δ_m,u,n}Z＝{β_u,n,v_u,n}为需要优化的变量，η为权重系数，C1为限制无人机每个时隙只服务一个用户，C2限制无人机的飞行范围，l_max为规定的无人机飞行范围的最大值，C3和C4分别限制无人机每次的飞行速度和角度，C5表示允许计算任务被部分卸载，车辆承担部分的计算任务，C6表示无人机之间的飞行距离不低于飞行的最小安全距离，C7保证系统的公平效益，保证用户之间的公平性，ξ_min为预先设定的系统最低公平指数。

步骤3：利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息。

每架无人机在每个时隙获取无人机的位置信息车辆的位置信息/>以及相应的任务信息S_m,n＝{D_m,n,F_m,n}，D_m,n表示数据比特量，F_m,n表示计算复杂度(每比特所需CPU周期)。

步骤4：采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间O，动作空间A，奖励函数R的多智能体深度强化学习模型。

具体包括：步骤4-1，无人机在时隙n能观测到的信息除自身的位置信息c_u,n外，还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数，将其记为：

其中w_m,n是车辆m在时隙n的位置，S_m,n＝{D_m,n,F_m,n}车辆m在时隙n的任务信息，其中D_m,n表示数据比特量，F_m,n表示计算复杂度(每比特所需CPU周期)，α_m,u,n∈{0,1}为决策变量，当α_m,u,n＝1时表示车辆m在时隙n的计算任务由无人机u辅助计算；当α_m,u,n＝0时表示车辆m在时隙n的计算任务只在本地计算。决策变量需要满足：

表明在一个时隙内，无人机只能辅助一辆车辆计算，车辆的任务能卸载且只能卸载到一个无人机计算。进而无人机的观测可表示为：

o_u,n＝{c_u,n,k_u,n}

系统的状态空间O可看做所有无人机观测结果的集合，包含所有无人机的位置，所有车辆的位置、任务以及服务次数信息，记为：

步骤4-2，定义动作空间A为无人机在当前时隙n服务的车辆m_n以及任务卸载比例Δ_m,u,n,再决定自身的飞行角度β_u,n,和飞行速度v_u,n，因此动作可记为：

a_u,n＝{m_n,Δ_m,u,n,β_u,n,v_u,n}

步骤4-3，定义奖励函数R，考虑时延和无人机服务车辆的公平性，无人机在时隙n执行动作后奖励函数可以表示为：

r_u,n＝ηξ_n+∑_m∈Mα_m,u,n(T_m,n,local-T_m,n)

其中，ξ_n为时隙n无人机服务用户的公平系数，η为权重系数，T_m,n,local为车辆m在时隙n全部本地计算任务的本地时延，T_m,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延；

故累计折扣奖励为：

其中δ∈[0,1]是折扣因子；

步骤5：利用多智能体双延迟深度确定性策略梯度算法对多智能体深度强化学习模型进行优化。

结合图3所示，具体包括：步骤5-1，初始化每个智能体的actor网络参数为/>以及两个critic网络/>参数为/>和/>

步骤5-2，初始化每个智能体的目标网络参数为/>

步骤5-3，初始化每个智能体的经验回放缓冲区

步骤5-4、初始化训练回合数episode＝1；

步骤5-5，初始化每个训练回合中的时间步数为1；

步骤5-6，初始化状态O_n＝o_1,n,...,o_U,n；

步骤5-7，每个智能体u获取观测o_u,n，根据观测获得动作a_u,n＝μ_u,n(o_u,n)+_∈；

步骤5-8，每个无人机u根据a_u,n设置其辅助计算的车辆以及相应的卸载比率、飞行角度、飞行速度；

步骤5-9，每个无人机u获得奖励r_u,n，并获取下一个观测o_u,n+1，在中将经验(I_u,n,r_u,n,O_n+1)存储；

步骤5-10，判断经验池中的经验数是否达到训练回合数设定阈值，如果是，则从中随机采样一个大小为J的小批次转换(I_u,j,r_u,j,O_j+1)，进入步骤5-11，否则，进入步骤5-7；

步骤5-11，通过最小化损失函数L(θ_ui ^c),i＝1,2更新参数和/>

步骤5-12，若训练次数达到目标网络更新频率，则通过确定性策略梯度更新参数θ^a，使用软更新方法更新三个目标网络的参数；

步骤5-13，判断当前回合中的时间步数是否小于每个回合中的总时间步，若是，则当前回合中的时间步数加1，进入步骤5-6，否则，进入步骤5-14；

步骤5-14，判断是否满足episode＜Episode，Episode为训练回合数设定阈值，若是，episode＝episode+1，进入步骤5-5，否则，优化结束，得到优化后的深度强化学习模型。

步骤6：根据优化后的多智能体深度强化学习模型，得到最优的计算迁移策略和无人机轨迹。

具体包括：步骤6-1，利用多智能体双延迟深度确定性策略梯度算法训练好的深度强化学习模型，输入系统某时隙的状态信息s_n；

步骤6-2，输出最优动作策略a_u,n＝{m_n,Δ_m,u,n,β_u,n,v_u,n}，得到最优的无人机服务车辆，服务用户的任务卸载比率，无人机飞行角度，无人机飞行速度。

根据本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法，针对无人机辅助车辆边缘计算的场景，面向车辆的可拆分的任务，即车辆的任务可以同时在本地计算和部分卸载到无人机计算。采用分布式的资源分配方法，将每架无人机视为智能体，考虑时延和无人机服务车辆的公平性，建立合理的状态空间、动作空间以及奖励函数，即每架无人机基于感知的状态信息来选择服务车辆以及任务卸载比例，无人机自身的飞行角度和飞行速度，构建多智能体深度强化学习模型。利用多智能体双延迟深度确定性策略梯度算法优化深度强化学习模型。根据优化后的深度强化学习模型，在每个时隙得到最优的在服务用户以及任务卸载比例，无人机自身的飞行角度和飞行速度。通过该方法，无人机可以高效地协助车辆完成计算任务，提高车辆数据处理能力，为应急响应提供更高效、更安全和更稳定的服务。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

Claims

1.一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，其特征在于，包括以下步骤：

步骤5：利用多智能体双延迟深度确定性策略梯度算法对所述多智能体深度强化学习模型进行优化；

2.根据权利要求1所述的方法，其特征在于，在步骤4中，采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间O，动作空间A，奖励函数R的多智能体深度强化学习模型，包括：

步骤4-1，无人机u在时隙n能观测到的信息除自身的位置信息c_u,n外，还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数，记为：

其中，为无人机集合，/>为车辆集合，/>为时隙集合，α_m,u,n'为无人机和车辆之间的卸载决策变量，α_m,u,n∈{0,1}，当α_m,u,n＝1时表示车辆m在时隙n的计算任务由无人机u辅助计算；当α_m,u,n＝0时表示车辆m在时隙n的计算任务只在本地计算，w_m,n为车辆m在时隙n的坐标，S_m,n为无人机在每个时隙获取的任务信息；

无人机的观测表示为：

o_u,n＝{c_u,n,k_u,n}

其中，c_u,n为无人机在每个时隙的离散位置；

a_u,n＝{m_n,Δ_m,u,n,β_u,n,v_u,n}

r_u,n＝ηξ_n+∑_m∈Mα_m,u,n(T_m,n,local-T_m,n)

其中，η为权重系数，ξ_n为公平系数，T_m,n,local为车辆m在时隙n全部本地计算任务的本地时延，T_m,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延；

累计折扣奖励为：

其中，δ∈[0,1]是折扣因子；