CN117221950A

CN117221950A - 一种基于深度强化学习的车辆任务卸载方法与系统

Info

Publication number: CN117221950A
Application number: CN202311475470.9A
Authority: CN
Inventors: 郭永安; 马德睿; 王宇翱; 李金城
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2023-12-12

Abstract

本发明公开了一种基于深度强化学习的车辆任务卸载方法与系统，该系统整合了将深度强化学习算法和边缘计算结构，将二者结合引入到车联网的计算资源分配问题中，通过用户车辆与边缘计算服务器交互来获取用户车辆的服务需求，采用深度确定性策略梯度算法进行多轮训练并结合优先经验回放机制获得最优的任务卸载策略。充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势，来满足复杂车联网场景中较大计算任务的需求。

Description

一种基于深度强化学习的车辆任务卸载方法与系统

技术领域

本发明属于车联网领域，具体涉及一种基于深度强化学习的车辆任务卸载方法与系统。

背景技术

随着车联网技术的快速发展，车载应用的需求日渐多样化，车辆对计算资源的需求规模扩大。而车载设备本身计算能力有限，车联网中计算资源短缺问题日益凸显，无法满足用户对低时延和较高网络服务质量的需求。因此在资源有限的车辆执行较大的计算任务仍是一个重要挑战。计算任务卸载的出现一定程度上缓解了上述问题，通过将车联网的计算任务卸载到临近的服务器或路边基站，一定程度上缓解部分计算资源的压力。

然而传统的任务卸载方法没有考虑车联网环境的动态性，采用的算法本身存在局限性，存在计算复杂度高、卸载模型固化的问题，并不完全适应车联网场景，在服务需求量较大，场景较复杂的情况下不能为用户提供低时延、高稳定的服务。

发明内容

发明目的：针对以上问题，本发明提出一种基于深度强化学习的车辆任务卸载方法与系统，整合深度强化学习算法和边缘计算结构，将二者结合引入到车联网的计算资源分配问题中，充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势，来满足复杂车联网场景中较大计算任务的需求，提高任务卸载决策效率，减小计算成本，减小带宽取得更大的效益。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

第一方面，本发明提供了一种基于深度强化学习的车辆任务卸载方法，包括以下步骤：

步骤一，用户车辆发起任务请求，产生相应计算任务，并将计算任务上传至当前所在路段的边缘服务器；

步骤二，各路段的边缘服务器收集各路段计算任务，并将任务和各服务器的资源信息上传至云服务器；

步骤三，根据云服务器任务卸载过程的各项指标，建立优化问题方程；所述指标包括数据传输速率、计算任务大小和用户车辆的本地执行CPU频率；

步骤四，云服务器通过采用DDPG算法进行任务卸载的决策，DDPG算法通过智能体与环境的交互过程更新深度神经网络的权值，进行自主训练和学习，获取最优任务卸载策略；所述智能体是指在道路行驶的汽车，所述环境是指车联网场景；

步骤五，云服务器向边缘服务器和用户车辆下发卸载决策，如果执行任务卸载，用户车辆依据决策中的卸载比例，向当前路段的边缘服务器卸载相应计算任务，其余计算任务用于本地处理。

进一步的，步骤三中建立优化问题方程的方法如下：

将OFDM技术用于用户车辆和边缘服务器之间的链路传输，根据香农理论，从用户i到边缘服务器j的数据传输速率为

(1)

其中是云服务器分配给用户车辆i以将任务卸载到边缘服务器j的带宽，为时段t内用户车辆i到边缘服务器j的链路在任务卸载过程中的信噪比值；

设用户车辆i在时段t产生的计算任务大小为，用户车辆i将计算任务卸载到边缘服务器s的百分比为/>，/>是在本地执行的对应任务的百分比，则用户车辆i在本地执行的计算任务大小表示为/>，单位为bit；

X表示用户车辆i完成一比特计算任务所需的CPU周期，则在时段t完成本地计算任务所需CPU周期为；

如果用户车辆不进行任务卸载，则在时段t内产生的本地计算时延表示为

(2)

其中，为用户车辆的本地执行CPU频率；在任务卸载过程中，用户车辆i将计算任务卸载到边缘服务器j进行协作计算，用户车辆i在时段t内产生的计算任务在本地计算时延和能量消耗分别表示为

(3)

(4)

其中，为用户车辆i在时段t内产生的计算任务在本地计算的时延，为用户车辆i在时段t内产生的计算任务在本地计算的能量消耗，ω为与CPU芯片结构相关的能量消耗因子，/>为用户车辆的本地执行CPU频率；

如果用户车辆将计算任务卸载到边缘服务器，首先根据式(1)建立的通信模型，用户车辆i到边缘服务器j实现的传输速率为，则需要的上传时延和上传时产生的能耗分别为

(5)

(6)

其中，为上传时延，/>为上传时产生的能耗，/>为边缘服务器与用户车辆传输过程中的能耗成本；则在时段t内从用户车辆i到边缘服务器j的任务卸载全过程中的总时延/>和总能耗/>定义为

(7)

(8)

根据任务卸载过程中产生的时延和能耗限制，设计优化目标函数：

(9)

其中，是所有用户车辆的集合，/>是所有边缘服务器的集合，/>是当前路段的行驶车辆总数，/>是当前路段边缘服务器总数。

进一步的，采用DDPG算法进行任务卸载决策的流程如下：

Step1：构建车联网场景任务卸载的马尔可夫决策模型，包括状态state，动作action，奖励reward三个关键要素，定义如下：

(1) state: 马尔可夫决策模型中的状态反映当前时段用户车辆和边缘服务器的可用资源状态，通过云服务器与二者的交互进行收集；时段t中的状态集合表示为

(10)

其中，车辆状态集包括用户车辆i的速度、自身计算能力、产生的任务量和任务所需的计算资源，/>代表用户车辆i与边缘服务器j之间的连接状态，/>和/>分别表示边缘服务器j的可用计算资源和带宽资源；

(2) action: 在构建的马尔可夫决策模型中，云服务器将下发计算任务卸载和计算资源分配的一个决策，时段t中的动作表示为：

(11)

其中，为计算任务卸载到边缘服务器的百分比，/>和/>分别表示云服务器配给用户车辆i和边缘服务器j的计算资源量，/>表示云服务器分配给用户车辆i用于计算任务卸载的带宽；

(3) reward: 基于t时段的state和action，DDPG算法的critic现实网络评估得到奖励r，将t时段深度强化学习输出的奖励函数定义为：

(12)

其中，表示时延的权重值，/>表示从用户车辆i到边缘服务器j的任务卸载全过程中的总时延，/>表示用户车辆不进行任务卸载在时段t内产生的本地计算时延；

当任务卸载的时延大于不进行卸载的本地时延时产生正奖励，由此进行任务卸载模型的训练，当一轮任务卸载决策下发后，云服务器通过奖励值的大小评估该时段内的任务完成情况，调整下一轮训练的策略；

Step2：云服务器在时段t收集初始状态并输入DDPG算法的actor现实网络，包括用户车辆和边缘服务器的状态，形成状态元组/>，actor现实网络选择一个动作/>，定义如下：

(13)

其中，为神经网络模拟的当前在线策略，/>为随机噪声；对于车辆环境，车辆基于/>执行任务卸载方案，然后云服务器将相应的资源分配给车辆和边缘服务器；完成后云服务器的状态变为/>，并为云服务器返回即时奖励/>；下一状态/>通过actor目标网络计算出对应的下一状态的动作/>；

Step3：将Step2中得到的马尔可夫五元组作为一次经验存储到经验回放池中，基于优先经验回放机制进行随机采样；

Step4：将Step3采样得到的马尔可夫五元组数据输入critic现实网络和critic目标网络计算Q值，给当前策略评分，定义如下：

(15)

其中，为折扣因子，用于调节决策的影响；/>代表critic现实网络，E代表数学期望的值；/>为当前状态/>采用策略/>选择动作/>评估得到的Q值，为当前状态/>采用策略/>评估得到的Q值，/>为critic现实网络在状态/>下输出的策略；

Step5：通过优先经验回放机制得到第e轮次经验的TD-error，其计算公式为：

(16)

其中，为神经网络模拟的下一状态行为策略，/>为折扣因子，/>为actor目标网络，/>代表critic目标网络；/>代表在critic目标网络下采用策略评估得到的Q值，critic目标网络将/>传递给critic现实网络，目标是使其损失函数最小：

(17)

其中，k代表储存经验的个数；利用优先经验回放得到的采样元组，actor现实网络采用以下策略梯度更新行为策略：

(18)

其中，代表基于行为策略/>的状态S的概率分布函数，/>为当前状态S下critic现实网络输出的Q值对于动作a的梯度，/>为当前策略/>对actor现实网络/>的梯度，E代表数学期望的值；

Step6：利用critic现实网络对critic目标网络的参数进行更新，表达式如式(19)；利用actor现实网络对actor目标网络进行更新，表达式如式(20)：

(19)

(20)

其中，是更新系数，在基于DDPG的方法中，当奖励函数收敛到一个稳定值时，此时输出的策略/>即为最优卸载策略。

第二方面，本发明还提供了一种基于深度强化学习的车辆任务卸载系统，包括云端管理层、边缘计算层和用户层，任务卸载策略由云端管理层下发；云端管理层由云服务器构成，用户层包括在道路上行驶的所有用户车辆，边缘计算层由分散在不同路段的边缘服务器构成，每一个边缘服务器覆盖一定路段区域，车辆在边缘服务器的覆盖范围内以一定速度沿道路行驶，该范围将道路分为一个个不重合的道路段；

用户车辆用于发起任务请求，产生相应计算任务，并将计算任务上传至当前所在路段的边缘服务器；各路段的边缘服务器用于收集对应路段不同车辆用户任务需求，并将任务和各服务器的资源信息上传至云服务器；云服务器中部署了深度强化学习算法模块，用于通过与边缘计算层的服务器进行交互，获取用户车辆的服务需求，经过算法模块中神经网络的多轮训练，得出任务卸载决策；用户车辆还用于对云服务器作出的决策进行评判，评判结果用于更新神经网络对应参数，学习任务卸载策略的优化方向；

云服务器具体执行以下操作：

根据任务卸载过程的各项指标，建立优化问题方程；所述指标包括数据传输速率、计算任务大小和用户车辆的本地执行CPU频率；云服务器通过采用DDPG算法进行任务卸载的决策，DDPG算法通过智能体与环境的交互过程更新深度神经网络的权值，进行自主训练和学习，获取最优任务卸载策略；所述智能体是指在道路行驶的汽车，所述环境是指车联网场景；云服务器向边缘服务器和用户车辆下发卸载决策，如果执行任务卸载，用户车辆依据决策中的卸载比例，向当前路段的边缘服务器卸载相应计算任务，其余计算任务用于本地处理。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

（1）结合车联网和边缘计算架构，本发明提出了一种面向车联网的边缘计算系统模型，分为云端管理层，边缘层和车辆用户层，边缘服务器和云服务器协同工作，提高计算资源分配效率，减小计算成本，在云端管理层部署强化学习模型，以适应车联网场景中计算资源的动态变化。

（2）考虑车辆动态通信环境，本发明设计了一种能够实时感知的任务卸载方案，在云端采用DDPG算法下发任务卸载和计算资源的分配决策，充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势，来满足复杂车联网场景中较大计算任务的需求，结合优先经验回放机制来评估和选择动作，可以在连续动作空间中优化任务卸载策略，加快收敛速度。

附图说明

图1为本发明的任务卸载场景图。

图2为本发明的任务卸载整体流程图。

图3为本发明的深度强化学习DDPG算法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明提供了一种面向车联网的基于深度强化学习的任务卸载系统，由云端管理层，边缘层，用户层构成。该系统整合了将深度强化学习算法和边缘计算结构，将二者结合引入到车联网的计算资源分配问题中，充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势，来满足复杂车联网场景中较大计算任务的需求。边缘服务器和云服务器协同工作，可以提高任务卸载决策效率，减小计算成本，减小带宽取得更大的效益。

如图1所示，本发明提出的框架分为云端管理层，边缘计算层和用户层，任务卸载策略将由云端管理层下发。其中，用户层包括了在道路上行驶的所有用户车辆，且每一用户车辆计算资源有限，用户上传计算任务后，计算任务流会上传至边缘计算层的边缘服务器，由边缘服务器收集上传至云服务器，云端得出任务卸载最优策略后会将卸载的部分任务分配给对应边缘服务器，其余计算任务由用户车辆自行本地处理。

边缘层主要由分散在不同路段的边缘计算服务器构成，每一个边缘服务器覆盖一定路段区域，车辆在边缘服务器的覆盖范围内以一定速度沿道路行驶，该范围将道路分为一个个不重合的道路段，计算任务在一定时间内产生和上传。每个边缘服务器通过收集对应路段不同车辆用户任务需求等信息，上传至云端管理层，由云服务器下发任务卸载策略，由于车辆行驶过程中的位置可能发生变化，在进行任务卸载时，用户层车辆向当前时刻所在路段的边缘服务器卸载计算任务。

云端管理层由高性能的云服务器构成，其中部署了深度强化学习算法模块，通过与边缘计算层的服务器进行交互，获取用户车辆的服务需求，经过算法模块中神经网络的多轮训练，得出任务卸载决策。之后用户会对作出的决策进行评判，评判结果用于更新神经网络对应参数，学习任务卸载策略的优化方向，以适应车联网场景中各类计算资源的动态变化，使任务卸载策略能够高效、快速地满足用户的服务需求。

如图2所示，平台按照以下步骤进行任务卸载：

步骤一，用户车辆发起任务请求，产生相应计算任务，并将计算任务上传至当前所在路段的边缘服务器。

步骤二，各路段的边缘服务器收集各路段计算任务，并将任务和各服务器的资源信息上传至云服务器。

步骤三，云服务器根据任务卸载过程的各项指标，建立优化问题方程。

根据前文描述，当车辆在路上行驶，无论任务是上传还是卸载，它只能与一个边缘服务器建立数据链路。本发明将通用OFDM技术用于用户车辆和服务器之间的链路传输，根据香农理论，从用户i到边缘服务器j的数据传输速率为

(1)

其中是云服务器分配给用户车辆i以将任务卸载到边缘服务器j的带宽，符号为时段t内用户车辆i到边缘服务器j的链路在任务卸载过程中的信噪比（SNR）值。

设用户车辆i在时段t产生的计算任务大小为，用户车辆i将计算任务卸载到边缘服务器s的百分比为/>，/>是在本地执行的对应任务的百分比，则用户车辆i在本地执行的计算任务大小表示为/>，单位为bit。

X表示用户车辆i完成一比特计算任务所需的CPU周期，则在时段t完成本地计算任务所需CPU周期为。

(2)

(3)

(4)

其中，为用户车辆i在时段t内产生的计算任务在本地计算的时延，为用户车辆i在时段t内产生的计算任务在本地计算的能量消耗，ω为与CPU芯片结构相关的能量消耗因子，/>为用户车辆的本地执行CPU频率，二者均为用户车辆的固定参数。

(5)

(6)

(7)

(8)

(9)

步骤四，云服务器通过部署的深度强化学习作出任务卸载决策，本发明采用深度确定性策略梯度算法（Deep Deterministic Policy Gradient，后文简写为DDPG）进行任务卸载的决策，DDPG是一种深度强化学习算法，通过智能体与环境的交互过程不断更新深度神经网络的权值，进行自主训练和学习，最终获取最优任务卸载策略，DDPG相比传统任务卸载方法有着实时交互和训练的稳定性，能够更加有效地配置计算资源。如图3所示，基于深度强化学习进行任务卸载决策的具体流程如下：

Step1：构建车联网场景任务卸载的马尔可夫决策模型，包括状态state，动作action，奖励reward三个关键要素，状态是对智能体所处环境的描述，动作是智能体根据状态所采取的行为，奖励值则是环境对智能体的反馈，具体定义如下：

(10)

其中，车辆状态集包括用户车辆i的速度、自身计算能力、产生的任务量和任务所需的计算资源，/>代表用户车辆i与边缘服务器j之间的连接状态，/>和/>分别表示边缘服务器j的可用计算资源和带宽资源。

(11)

其中，为计算任务卸载到边缘服务器的百分比，/>和/>分别表示云服务器配给用户车辆i和边缘服务器j的计算资源量，/>表示云服务器分配给用户车辆i用于计算任务卸载的带宽，考虑到车辆的移动性和各种应用的不同需求；/>、/>和/>均为连续值，保证了任务卸载决策下发的准确性。

(12)

其中，表示时延的权重值，/>表示从用户车辆i到边缘服务器j的任务卸载全过程中的总时延，/>表示用户车辆不进行任务卸载在时段t内产生的本地计算时延；当任务卸载的时延大于不进行卸载的本地时延时产生正奖励，由此进行任务卸载模型的训练，当一轮任务卸载决策下发后，云服务器通过奖励值的大小评估该时段内的任务完成情况，调整下一轮训练的策略。

(13)

其中，为神经网络模拟的当前在线策略，/>为随机噪声；对于车辆环境，车辆基于/>执行任务卸载方案，然后云服务器将相应的资源分配给车辆和边缘服务器；完成后云服务器的状态变为/>，并为云服务器返回即时奖励/>；下一状态/>通过actor目标网络计算出对应的下一状态的动作/>。

Step3：将Step2中得到的马尔可夫五元组作为一次经验存储到经验回放池中，通过随机采样的方式训练神经网络，提高训练过程中的数据利用率，减小样本关联性。在随机采样过程中，本发明结合了优先经验回放机制，其优势是更频繁地重放预期较好的训练效果或较差的训练效果相关的经验，并与任务卸载策略的优化相关联。通过频繁地重复，可以帮助云服务器逐渐意识到错误的策略带来的效果，并避免在这些条件下再次做出错误行为，从而提高算法的整体性能，加快神经网络训练的收敛速度。

定义抽样经验e的概率P(e)为：

(14)

其中，定义rank(e)为经验e在重放缓冲区中的排名，以目标函数最小化为标准。然后参数α控制优先级的使用程度，/>代表经验池中所有经验的总和，k代表储存经验的个数。优先经验通过抽样概率的定义保证了抽样经验的多样性，这种多样性有助于防止神经网络过度拟合，保证DDPG的策略的探索属性，在加快收敛速度的同时得到更适合的任务卸载策略。

(15)

其中，为折扣因子，用于调节决策的影响；/>代表critic现实网络，E代表数学期望的值；/>为当前状态/>采用策略/>选择动作/>评估得到的Q值，为当前状态/>采用策略/>评估得到的Q值，/>为critic现实网络在状态/>下输出的策略。

(16)

(17)

(18)

其中，代表基于行为策略/>的状态S的概率分布函数，/>为当前状态S下critic现实网络输出的Q值对于动作a的梯度，/>为当前策略/>对actor现实网络/>的梯度，E代表数学期望的值。

Step6：利用critic现实网络对critic目标网络的参数进行更新（软更新方法），表达式如式(19)；利用actor现实网络对actor目标网络进行更新，表达式如式(20)：

(19)

(20)

Claims

1.一种基于深度强化学习的车辆任务卸载方法，其特征在于，包括以下步骤：

步骤三，云服务器根据任务卸载过程的各项指标，建立优化问题方程；所述指标包括数据传输速率、计算任务大小和用户车辆的本地执行CPU频率；

2.根据权利要求1所述的一种基于深度强化学习的车辆任务卸载方法，其特征在于，步骤三中建立优化问题方程的方法如下：

(1)

其中是云服务器分配给用户车辆i以将任务卸载到边缘服务器j的带宽，/>为时段t内用户车辆i到边缘服务器j的链路在任务卸载过程中的信噪比值；

(2)

(3)

(4)

其中，为用户车辆i在时段t内产生的计算任务在本地计算的时延，/>为用户车辆i在时段t内产生的计算任务在本地计算的能量消耗，ω为与CPU芯片结构相关的能量消耗因子，/>为用户车辆的本地执行CPU频率；

(5)

(6)

(7)

(8)

(9)

3.根据权利要求2所述的一种基于深度强化学习的车辆任务卸载方法，其特征在于，采用DDPG算法进行任务卸载决策的流程如下：

(10)

(11)

(12)

(13)

(15)

其中，为折扣因子，用于调节决策的影响；/>代表critic现实网络，E代表数学期望的值；/>为当前状态/>采用策略/>选择动作/>评估得到的Q值，/>为当前状态/>采用策略/>评估得到的Q值，/>为critic现实网络在状态下输出的策略；

(16)

其中，为神经网络模拟的下一状态行为策略，/>为折扣因子，/>为actor目标网络，代表critic目标网络；/>代表在critic目标网络下采用策略评估得到的Q值，critic目标网络将/>传递给critic现实网络，目标是使其损失函数/>最小：

(17)

(18)

(19)

(20)

4.一种基于深度强化学习的车辆任务卸载系统，其特征在于，包括云端管理层、边缘计算层和用户层，任务卸载策略由云端管理层下发；

云端管理层由云服务器构成，用户层包括在道路上行驶的所有用户车辆，边缘计算层由分散在不同路段的边缘服务器构成，每一个边缘服务器覆盖一定路段区域，车辆在边缘服务器的覆盖范围内以一定速度沿道路行驶，该范围将道路分为一个个不重合的道路段；

用户车辆用于发起任务请求，产生相应计算任务，并将计算任务上传至当前所在路段的边缘服务器；

各路段的边缘服务器用于收集对应路段不同车辆用户任务需求，并将任务和各服务器的资源信息上传至云服务器；

云服务器中部署了深度强化学习算法模块，用于通过与边缘计算层的服务器进行交互，获取用户车辆的服务需求，经过算法模块中神经网络的多轮训练，得出任务卸载决策；

用户车辆还用于对云服务器作出的决策进行评判，评判结果用于更新神经网络对应参数，学习任务卸载策略的优化方向；

云服务器具体执行以下操作：