CN116820621A

CN116820621A - 一种基于图论和小样本近端策略优化的计算任务卸载方法

Info

Publication number: CN116820621A
Application number: CN202310827349.1A
Authority: CN
Inventors: 徐博文; 宋晓勤; 张文静; 张莉涓; 雷磊; 朱晓浪; 牛凯华; 李慧; 蔡圣所
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-09-29

Abstract

本发明提出的一种基于图论和小样本近端策略优化的计算任务卸载方法，在考虑到车联网移动边缘计算场景中子卸载任务之间存在优先级与依赖关系的约束条件下，将总计算任务分解为多个可以分步完成的子任务并抽象为任务流程图，提出一种具有两层结构的计算任务卸载方法，首先采用基于任务优先级的排序算法将任务的流程图转化为线性信息序列，然后用基于序列到序列的神经网络结构拟合函数，通过小样本近端策略优化对该策略网络进行训练，用于确定各子任务的卸载位置：本地计算，路边单元计算或移动辅助单元计算。本发明在分布式动态环境下，根据任务的特征、计算资源的分布和通信情况，将不同的计算子任务分配到合适的计算节点上进行计算，通过优化卸载决策来缩减整个任务的完成代价，在各个不同场景下都能够获得较低的时延，能够有效改善用户体验，提高任务的计算卸载效率。

Description

一种基于图论和小样本近端策略优化的计算任务卸载方法

技术领域

本发明涉及一种车联网计算任务卸载技术，尤其涉及一种基于深度强化学习的任务调度卸载方法(Task Scheduling Algorithm based on Deep ReinforcementLearning，DRL-TSA)，更具体地说，涉及一种基于图论(Graph Theory，GT)和小样本近端策略优化算法(Few-shot Proximal Policy Optimization，FPPO)的计算任务拆分卸载方法。

背景技术

近年来，随着第五代移动通信技术(5th Generation Mobile CommunicationTechnology，5G)的出现，移动互联网和物联网(Internet of Things，IoT)的快速发展，智能设备上不同类型的应用程序产生的数据量开始呈现爆发式增长。这些应用的计算量大，对时延敏感，因此也对用户设备的计算能力有很高的要求，仅终端设备无法满足移动应用程序日益增长的计算和存储资源需求，特别是对时间敏感型和计算密集型任务，从而使得处理和分析各种传感器设备生成的大量数据成为开发车联网技术的重大挑战。

针对这一问题，在5G网络中，移动边缘计算(Mobile Edge Computing，MEC)是解决这个问题的一种很有前途的技术，通过将计算和存储资源从云端下沉至移动网络边缘，允许用户将高复杂度的计算任务卸载到用户附近的地面边缘基础设施中进行计算，可以是云、附近的服务器或车辆，从而减少任务的处理时延，很大程度上减轻车辆内置计算资源的处理负担，减少车辆的能量消耗，提高车辆计算资源的可靠性和可用性，能够有效拓展终端设备处理应用任务的能力。在传统的基于固定基站的移动边缘计算场景下，设计高效的任务卸载调度策略是MEC中的研究热点。

移动边缘计算网络通过将大量具有计算和存储功能的边缘计算服务器部署在无线接入网络侧，使得移动通信网络除了具备传统的通信能力外，还具有云端的计算能力，其目的是确保高效的网络操作和服务交互，并改进用户体验。移动设备可以通过无线通信将计算任务卸载到网络边缘而无需进入核心网，大幅减小服务节点与用户设备之间的传播延时，满足设备应用低延迟的需求，同时由于大量计算任务都可以在边缘服务器上完成计算，也可以有效降低云核心网上计算和通信的负担，以最大限度地提高服务质量(Quality ofService，QoS)。

随着应用任务复杂度的增加，移动设备生成的计算任务通常会由多个子任务组成，这些子任务相互协作和依赖形成一个完整的计算密集型任务，而现有的移动边缘计算卸载技术只考虑任务整体卸载或拆分式卸载，没有考虑到子任务之间相互协作的依赖关系。因此，在考虑到多个子任务之间有依赖关系约束的前提下，本发明提出一种基于图论和小样本近端策略优化的计算任务卸载方法，在动态卸载环境中将单个任务抽象为任务流程图(Task Flow Chart，TFC)的形式并提出了一种具有两层结构的任务卸载调度算法，使用小样本近端策略优化算法(Few-shot Proximal Policy Optimization，FPPO)对该策略网络进行训练，通过获得最优卸载决策来最小化整个任务的完成时间和能量消耗。

发明内容

发明目的：针对现有技术存在的上述问题，对车联网计算卸载任务进行细粒度拆分，并对子任务优先级进行排序，建立一个高效的任务调度方案以充分利用辅助计算单元和用户设备的计算资源，最大限度减少用户等待时间与功耗，提升用户体验。

技术方案：在考虑MEC场景中计算子任务之间具有依赖关系的情况下，以最大化QoS为目的提出一种具有两层结构的细粒度任务卸载调度算法。首先，将拆分后的子任务之间的依赖关系转化为GT中有向无环图(Directed Acyclic Graph，DAG)的形式。其次，建立MEC动态场景下各计算任务的卸载调度模型，每个子任务可以在本地执行或采用完全卸载的方式进行计算，卸载位置可以是路边单元(Road Side Unit，RSU)或辅助计算车辆(Auxiliary Computation Vehicle，ACV)，将优化目标定义为减少任务整体执行时间，最大化时间与能量效益。然后，利用基于任务优先级的拓扑优先级排序算法将任务流程图转化为任务线性信息序列，并将卸载决策过程转化为马尔可夫决策过程(Markov DecisionProcess，MDP)，应用基于深度强化学习的任务调度卸载算法(Task Scheduling Algorithmbased on Deep Reinforcement Learning，DRL-TSA)制定最优的卸载决策。完成上述发明通过以下技术方案实现：一种基于图论和近端策略优化的计算任务卸载方法，包括步骤如下：

(1)，采用拓扑优先级排序算方法将有依赖关系的卸载子任务流程图转化为线性序列；

(2)，在马尔可夫决策过程的基础上加入奖励和动作来构建车联网移动边缘计算场景下计算卸载决策问题的数学模型；

(3)，将基于序列到序列神经网络引入计算卸载调度问题中来提取任务序列的重要特征；

(4)，利用基于数据增强的小样本学习来扩充训练数据集，达到通过少量样本获得较好训练收敛情况的效果，防止过度拟合；

(5)，利用近端策略优化算法对网络模型参数进行训练，以获得该模型下奖励值最大的计算卸载策略，即最优策略；

进一步的，所述步骤(1)包括如下具体步骤：

(1a)，将TFC任务表示为其中/>表示子任务节点集合，|M|表示子任务总数，/>表示有向边缘集合，(m_i，m_j)表示后继任务节点m_j的执行需要依赖于前驱任务节点m_i的完成；

(1b)，将任务m_i的卸载时间定义为任务的优先级，表示为：

其中，为任务上传时延，/>为任务计算时延，/>为下行链路时延，succ(i)代表m_i的后继任务集合，/>表示当前TFC任务中的出口子任务集合，/>代表任务m_i和m_j之间传输数据的平均时间，公式为：

(1c)，将所有子任务按照Pv_i中的值降序排列得到任务序列R_D：

其中，代表/>中所有子任务的新调度顺序；

进一步的，所述步骤(2)包括如下具体步骤：

(2a)，系统的状态S由所有节点按照排序的任务信息序列和排序在m_i之前任务的历史卸载决策序列/>组成，取决于排序在/>之前任务的调度结果，记为：

(2b)，任务m_i的动作定义为它的决策变量a_i，a_i表示任务m_i的计算位置，值为0表示本地计算不进行卸载，值为1表示用户端将数据卸载到距离最近的路边计算单元RSU，值为2表示卸载到距离最近的辅助计算车辆ACV，可选择决策集合定义为：

A＝{0，1，2} 表达式5

(2c)，定义奖励函数为：

其中，定义当前状态下动作a_t的时间增量Δ_t为在状态s_t下执行动作a_t之后与之前的任务完成时间的差值，同样的，定义当前状态下动作a_t的能耗增量Δ′_t为在状态s_t下执行动作a_t之后与之前的任务完成能耗的差值，T_local为所有子任务在本地计算的时间之和，E_local为所有子任务在本地计算的能量损耗之和，ε取值范围为[0，1]，用于归一化平衡时间延迟和能量损耗的比值；

(2d)，定义到任务序列中的最后一个任务动作执行完毕后的累计奖励为：

其中，γ为奖励折扣系数；

进一步的，所述步骤(3)包括如下具体步骤：

(3a)，将编码网络定义为f_enc，则编码器的隐藏状态表示为：

其中，h_i表示包含前i次输入信息的隐藏状态，θ_enc表示编码网络参数；

(3b)，将解码网络定义为f_dec，则解码器的隐藏状态表示为：

其中，d_i表示解码器包含前i次输入信息的隐藏状态，θ_dec表示解码器网络参数，为根据上一个隐藏状态得到的动作，c_i是基于注意力机制的编码器上下文向量，由编码器网络先前已经计算好的隐藏状态进行加权和得到；

进一步的，所述步骤(4)包括如下具体步骤：

(4a)，提取TFC图的重构特征变量，用结构向量矩阵表示为：

其中，fat控制TFC的高度和宽度，density控制层间边的数量，较高的密度会导致任务依赖性和决策难度增加，regularity控制每个层之间任务数量的一致性，较高的规则性表示每个层包含类似数量的任务，d_i表示每个子任务的数据量大小；

(4b)，将结构向量矩阵与随机数矩阵相乘获得新特征值矩阵用于重构数据集：

其中，随机数矩阵中对角线元素σ为(0，2]范围内的随机值；

进一步的，所述步骤(5)包括如下具体步骤：

(5a)，利用PPO算法进行网络参数的训练，θ训练的目标是得到一个最优策略以最大化奖励值的期望，最大奖励值表示为：

其中θ表示策略网络的参数，π_θ为策略网络，t表示一次采样序列中第t个时刻；

(5b)，定义重要性权重为：

(5c)，在PPO算法中采用优化裁剪的方式定义目标函数为：

其中，clip(r_t(θ)，1-λ，1+λ)为裁剪函数，限制r_t(θ)在[1-λ，1+λ]区间内，如果两个网络的偏差超过λ，梯度就会直接变成0，本轮不再更新参数，为优势函数，表示对采样序列π_θ′中的每一个(s_t，a_t)做出的评估，评估越好的动作会加大以后在状态s_t出现时选择的概率。

(5d)，定义状态价值估计函数为：

其中，Q(s_t，a_t|w)为对各个动作价值估计的价值网络，w是动作价值网络的参数；

(5e)，用状态价值估计函数与目标状态价值之间的均方差来更新训练过程中价值网络的值L(w)，表示为：

L(w)＝E_t[(V(s_t)-r_t(θ)-γV(s_t+1))²] 表达式16

(5f)，进行网络更新时，策略网络与价值网络采用相同的损失函数loss更新，记为：

loss＝-L^clip(θ)+0.5L(w)-0.01H(π_θ) 表达式17

其中，H(π_θ)为新策略信息熵。

有益效果：本发明提出的一种基于图论和小样本近端策略优化的计算任务卸载方法，利用优先级排序将具有依赖关系的任务转化为任务向量的形式，然后对任务的卸载过程进行MDP建模，使用基于序列到序列网络模型构建策略网络进行任务的实时调度，最后应用深度强化学习中的PPO算法对网络进行训练，获得卸载策略。

通过在不同场景下的仿真实验，本发明提出的一种基于图论和小样本近端策略优化的计算任务卸载方法可以实现更低的任务完成时延同时具有很好的稳定性。

附图说明

图1为本发明实施例提供的基于图论和小样本近端策略优化方法的算法流程示意图；

图2为本发明实施例提供的策略网络结构示意图；

图3为本发明实施例提供的随着训练轮数增加平均任务时延逐渐减小的示意图；

图4为本发明实施例提供的所提出DRL-TSA算法与其他基线算法在不同网络传输速率下任务平均时延的对比图。

具体实施方式

本发明的核心思想在于：利用基于任务优先级的拓扑优先级排序算法将TFC转化为任务线性信息序列，并将卸载决策过程转化为马尔可夫决策过程，建立数学模型，应用基于深度强化学习的任务调度卸载算法制定最优的卸载决策，根据经过训练后的网络模型，得到最优的计算任务卸载决策。

下面对本发明做进一步详细描述。

步骤(1)，采用拓扑优先级排序算方法将有依赖关系的卸载子任务流程图转化为线性序列，包括如下步骤：

(1b)，将任务m_i的卸载时间定义为任务的优先级，表示为：

其中，代表/>中所有子任务的新调度顺序；

步骤(2)，在马尔可夫决策过程的基础上加入奖励和动作来构建车联网移动边缘计算场景下计算卸载决策问题的数学模型，包括如下步骤：

A＝{0，1，2} 表达式5

(2c)，定义奖励函数为：

其中，γ为奖励折扣系数；

步骤(3)，将基于序列到序列神经网络引入计算卸载调度问题中来提取任务序列的重要特征，包括如下步骤：

(3a)，将编码网络定义为f_enc，则编码器的隐藏状态表示为：

(3b)，将解码网络定义为f_dec，则解码器的隐藏状态表示为：

步骤(4)，利用基于数据增强的小样本学习来扩充训练数据集，达到通过少量样本获得较好训练收敛情况的效果，防止过度拟合；

(4a)，提取TFC图的重构特征变量，用结构向量矩阵表示为：

其中，随机数矩阵中对角线元素σ为(0，2]范围内的随机值；

步骤(5)，利用近端策略优化算法对网络模型参数进行训练，以获得该模型下奖励值最大的计算卸载策略，即最优策略，包括如下步骤：

(5b)，定义重要性权重为：

(5c)，在PPO算法中采用优化裁剪的方式定义目标函数为：

(5d)，定义状态价值估计函数为：

L(w)＝E_t[(V(s_t)-r_t(θ)-γV(s_t+1))²] 表达式16

loss＝-L^clip(θ)+0.5L(w)-0.01H(π_θ) 表达式17

其中，H(π_θ)为新策略信息熵。

在图1中，描述了基于图论和小样本近端策略优化的计算卸载方法的结构，利用优先级排序算法对TFC进行序列转化，再通过小样本近端策略优化训练模型，以获得最优卸载决策。

在图2中，根据基于序列到序列网络的工作原理以及对MDP模型的定义，将本次计算卸载调度问题转换为序列预测问题，将解码器的输出序列作为决策序列。

在图3中，描述了DRL-TSA算法下任务平均执行时间与训练迭代次数关系的仿真结果，随着训练次数的增加，能够看出任务平均执行时间能够有效减少最终趋于收敛。

在图4中，描述了任务执行平均时延在不同对比算法下随着网络传输速率变化的仿真结果，在不同网络传输速率的情况下，DRL-TSA算法相比一般决策算法能够提高10％左右，相比随机算法能够提高40％以上。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明的基于图论和小样本近端策略优化的计算卸载方法可以提高用户体验，有效降低计算任务的时间延迟。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于图论和小样本近端策略优化的计算任务卸载方法，其特征在于，包括步骤如下：

(1)采用拓扑优先级排序方法将有依赖关系的卸载子任务流程图转化为线性序列：

(2)在马尔可夫决策过程的基础上加入奖励和动作来构建车联网移动边缘计算场景下计算卸载决策问题的数学模型；

(3)将基于序列到序列神经网络引入计算卸载调度问题中来提取任务序列的重要特征；

(4)利用基于数据增强的小样本学习来扩充训练数据集，达到通过少量样本获得较好训练收敛情况的效果，防止过度拟合；

(5)利用近端策略优化算法对网络模型进行训练，以获得该模型下奖励值最大的计算卸载策略，即最优策略；

进一步，所述步骤(1)包括如下具体步骤：

(1a)将计算卸载任务表示为其中/>表示子任务节点集合，|M|表示子任务总数，/>表示有向边缘集合，(m_i，m_j)表示后继任务节点m_j的执行需要依赖于前驱任务节点m_i的完成；

(1b)将任务m_i的卸载时间定义为任务的优先级，表示为：

其中，为任务上传时延，/>为任务计算时延，/>为下行链路时延，succ(i)代表m_i的后继任务集合，/>表示当前主任务中的出口子任务集合，/>代表任务m_i和m_j之间传输数据的平均时间；

(1c)将所有子任务按照Pv_l中的值降序排列得到任务序列R_D：

其中，代表/>中所有子任务的新调度顺序；

进一步，所述步骤(2)包括如下具体步骤：

(2a)系统的状态S由所有节点按照排序的任务信息序列和排序在m_i之前任务的历史卸载决策序列/>组成，取决于排序在/>之前任务的调度结果，记为：

(2b)任务m_i的动作定义为它的决策变量a_i，a_i表示任务m_i的计算位置，值为0表示本地计算不进行卸载，值为1表示用户端将数据卸载到距离最近的路边计算单元(Road SideUnit，RSU)，值为2表示卸载到距离最近的辅助计算车辆(Auxiliary ComputationVehicle，ACV)，可选择决策集合定义为：

A＝{0，1，2}

(2c)定义奖励函数为：

其中，定义当前状态下动作a_t的时间增量为在状态s_t下执行动作a_t之后与之前的任务完成时间的差值，同样的，定义当前状态下动作a_t的能耗增量/>为在状态s_t下执行动作a_t之后与之前的任务完成能耗的差值，T_local为所有子任务在本地计算的时间之和，E_local为所有子任务在本地计算的能量损耗之和，ε取值范围为[0，1]，用于归一化平衡时间延迟和能量损耗的比值；

(2d)定义到任务序列中的最后一个任务动作执行完毕后的累计奖励为：

其中，γ为奖励折扣系数；

进一步，所述步骤(4)包括如下具体步骤：

(4a)提取TFC图的重构特征变量，用结构向量矩阵表示为：

(4b)将结构向量矩阵与随机数矩阵相乘获得新特征值矩阵用于重构数据集：

其中，随机数矩阵中对角线元素σ为(0，2]范围内的随机值。