CN113132943B

CN113132943B - 一种车联网中车边协同的任务卸载调度及资源分配方法

Info

Publication number: CN113132943B
Application number: CN202110415530.2A
Authority: CN
Inventors: 邝祝芳; 高坚; 黎松
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2021-04-18
Filing date: 2021-04-18
Publication date: 2022-04-19
Anticipated expiration: 2041-04-18
Also published as: CN113132943A

Abstract

本发明提供了一种车联网中车边协同的任务卸载调度及资源分配方法。主要包括如下步骤：1、生成任务描述集合μ＝{H_i|1≤i≤I},H_i＝(s_i,c_i)，构建网络中任务卸载调度，资源分配的数学模型P1；2、在给定CPU频率

的情况下，基于深度学习DQN算法求解问题P1，求得任务卸载调度决策(x_i,α_i)，求得目标值V；3、基于求得的卸载调度决策(x_i,α_i)，构建数学模型P2，采用梯度下降法求得CPU频率

求得目标值V'；4、比较目标值V和V'的差值，如果V‑V'＜χ，则退出，否则重复步骤2和步骤3；应用本发明，解决了移动车辆边缘网络中任务卸载调度和资源分配优化问题，有效地降低了网络中任务的执行时延和能耗。

Description

一种车联网中车边协同的任务卸载调度及资源分配方法

技术领域

本发明属于无线网络技术领域，涉及一种车联网中车边协同的任务卸载调度及资源分配方法。

背景技术

随着信息通信技术的发展，车联网(Internet ofVehicles，IoV)引起了学术界和产业界的广泛关注。传统的车辆网络旨在通过车辆到一切(Vehicle-to-Everything，V2X)通信的数据交换来改善驾驶体验和实现安全应用。在5G时代，车辆网络的概念已经扩展到车联网(Internet of Vehicles，IoV)，通过通信和计算技术来实现智能化和交互式应用。大量的车载应用可以在IoV中实现，如辅助/自动驾驶和排管、城市交通管理和车载信息娱乐服务。

虽然IoV技术前景广阔，但实现IoV应用仍面临挑战。其中一个障碍是车辆有限的机载计算能力。例如，一辆拥有10个高分辨率摄像头的自动驾驶汽车可能每秒产生2亿像素的数据，而这些数据需要快速进行处理。只由车辆终端处理计算密集型应用程序的任务不能满足任务时延的需求，也会造成很大的能耗。为了克服这一局限性，车联网边缘计算(Vehicular Edge Computing，VEC)成为一种新的方式，为汽车用户提供快速、节能的计算服务。通过车辆与边缘节点通信，资源受限的车辆用户可以将他们的计算密集型任务转移到与路边单元(Road-Side Units，RSU)同步的高性能边缘服务器上进行处理。同时，与传统的移动云计算相比，由于边缘服务器靠近车辆，任务卸载造成的网络延迟可以显著降低。因此，一些需要高计算能力的应用，如路径导航、视频流分析和目标检测，可以在带有边缘服务器的车载网络中实现。

边缘计算虽然可以有效解决车辆终端计算密集型应用程序的任务处理问题，但边缘处理能力是有限的，无法满足全部任务都在边缘进行计算的需求。

鉴于以上考虑，本发明提供了一种车联网中车边协同的任务卸载调度及资源分配方法。

发明内容

本发明所要解决的技术问题是提供一种车联网中车边协同的任务卸载调度及资源分配方法。通过对卸载决策、调度决策和CPU频率进行联合优化，目标是最小化执行延迟和能量消耗。

发明的技术解决方案如下：

一种车联网中车边协同的任务卸载调度及资源分配方法，首先构建车联网边缘计算异构网络场景，网络模型考虑一条单向道路，包含单个VEC服务器的道路侧单元(RSU)，以及单辆车组成，车辆通过无线链接到VEC服务器，提供给车辆的带宽为b。VEC服务器在其无线覆盖范围内向车辆提供计算服务。RSU的覆盖直径为D，单位为米，车辆速度为v，单位千米/小时，车辆通过RSU覆盖的小区的周期(时间长度)为T＝D/v，单位为秒。车辆有I个独立任务，任务集合记为τ＝{1,...,i,...,I}，任务i的属性特征为H_i＝(s_i,c_i)，其中s_i为任务i的数据量大小，单位为KB，c_i为完成任务所需的CPU周期，单位为Megacycles。车辆在行驶过程中，车联网的信道是时变的，导致无法准确估计传输时延，时变信道对系统的影响不可忽略，无法使用传统方法计算时间。RSU与移动车辆之间的无线信道质量很大程度上取决于路径损耗，而路径损耗是通信距离的函数。随着通信距离的增大，路径损耗增大，频谱效率减小。当车辆位于系统的边缘时，频谱效率是最小的。为了更准确估计传输时延，根据车辆到RSU的距离将路段划分为n个区域，每一个区域的长度为D/n米，计算每个区域频谱效率的期望值，并将频谱效率写成R＝{r₁,r₂,...,r_k,...,r_n}，r_k示第k个区域的频谱效率，根据频谱效率来计算传输时延。

本发明提出的车联网中车边协同的任务卸载调度及资源分配方法，步骤如下：

1、构建车联网中车边协同计算网络的数学模型，步骤如下：

每个任务可以在本地或者边缘服务器上进行计算,α_i∈{0,1}表示任务i的卸载决策，α_i＝0表示任务i在车辆本地计算，α_i＝1表示任务i在边缘服务器计算。x_i∈{1,...,i,...I}表示任务的调度顺序，第几个被调度执行。用集合α＝{α₁,α₂,...,α_I}表示系统中所有任务的卸载决策，集合X＝{x₁,x₂,...,x_I}表示系统中所有任务的调度顺序。每个任务仅能采用一种卸载决策，一种调度决策来计算任务。用集合Y＝{y₁,...,y_p,...,y_NS}表示边缘服务器执行任务的顺序，NS表示在边缘服务器执行任务的数量，y_p表示第p个在边缘服务器执行的任务，用集合Z＝{z₁,...,z_q,...,z_NL}表示在车辆端(本地)执行任务的顺序，NL表示在车辆端执行任务的数量，z_q表示第q个在车辆端(本地)执行的任务，

由于不同区域具有不同的频谱效率，可以得到在区域k，任务从车辆上传到边缘服务器的数据传输速率v^k为：

v^k＝b*r_k (1)

其中b为车辆到边缘服务器的信道带宽，单位为Hz。r_k为区域k的频谱效率，单位为bit/s/hz。

车辆的任务i在本地执行的完成时刻表示为T_i ^l，公式如下：

其中，c_i为任务i所需的CPU周期，f_i ^l表示车辆分配给任务i的CPU计算频率，z_q表示本地执行任务集合中最近一个被执行的任务。

车辆的任务i在边缘服务器计算完成的时刻表示为T_i ^r。对于边缘服务器计算，首先通过无线链路将任务卸载到边缘服务器，然后边缘服务器执行计算任务。任务的时间消耗包括两部分:任务传输时间和边缘服务器上的计算时间。任务在边缘执行必须满足以下两个条件:首先，任务输入数据在边缘服务器上准备好，其次，边缘服务器上的CPU可用于执行新上传的任务。T_i ^tran表示任务i传到边缘服务器的传输时间，T_i ^tran如下式所示:

其中

表示任务i在区域k上传的数据量大小，v^k表示区域k的数据传输速率。任务需要传输到边缘服务器进行计算时，车在不断移动，任务可能在单个区域内无法传输完成。因此，在上传任务时，需要根据车辆的速度及位置，将任务分为多部分进行上传，且

如果不需要在区域k计算，则该任务在区域k区域的上传数据量大小

为0。

表示任务i的准备时间，如下所示：

其中，y_p表示最近一个被上传到边缘服务器执行任务集合中的任务。集合Y中所有任务传输到边缘服务器的时间总和，再加上任务i的传输时间即为任务i的准备时间。

根据(3)(4)两式，可以得到任务i在边缘服务器计算的完成时刻T_i ^r如下：

其中

表示最近一个在边缘服务器执行的任务y_p在边缘服务器计算的完成时刻，

表示任务i在边缘服务器的计算时间。当p＝0时，表示任务i是边缘服务器接收的第一个任务，因此任务i的传输时间就是准备时间，任务i的传输时间和计算时间相加就是任务i的完成时刻。当p>0时，表示在任务i之前已经有任务在边缘服务器上进行计算，比较任务i的准备时间，和边缘服务器最近一个被执行的任务的完成时刻，取两个中的最大值，然后加上任务i计算时间就是任务i的完成时刻。

任务i在本地的执行能耗表示为

公式如下：

其中，ε是能量消耗系数，f_i ^l为任务i在本地计算的CPU频率

任务i在边缘服务器的执行能耗表示为

公式如下：

其中，f_i ^r为任务i在边缘服务器计算的CPU频率，p_l表示任务i传输到边缘服务器的上传功率。

定义数学模型P1，在满足约束条件的情况下，最小化系统内所有任务的最终完成时刻和最小化能量消耗，如下所示：

α_iT_i ^r+(1-α_i)T_i ^l≤T_max (10)

式(8)是目标函数，其中

和

分别表示当前选择第i个任务后，本地和边缘任务集合中最后一个任务的完成时刻。ω表示加权系数。α_i表示卸载决策，表示任务i在本地或者边缘服务器计算。

式(9)表示卸载决策约束，任务i只能在本地或者卸载到边缘服务器执行。

式(10)表示任务i在本地或边缘服务器的完成时刻不应超过最大完成时刻。

式(11)表示任务i在本地或边缘服务器的能量消耗不应超过最大能耗约束。

式(12)表示任务i在本地的执行频率不应超过本地的最大执行频率。

式(13)表示任务i在边缘服务器的执行频率不应超过边缘服务器的最大执行频率。

式(14)表示任务的调度顺序不能重合。

2.基于深度强化学习DQN算法求卸载和调度决策向量，步骤如下：

1)构造给定CPU频率情况下的数学模型，在给定CPU频率(f_i ^l*,f_i ^r*)情况下，优化所有任务的卸载决策和调度决策，采用DQN算法进行求解。求解任务的卸载决策和调度决策的目标与问题P1一致，为最小化所有任务的能量消耗和执行时间的加权和。优化问题的数学模型P2可写成如下所示：

α_iT_i ^r+(1-α_i)T_i ^l≤T_max (17)

其中(15)为目标函数，(16)-(19)为约束条件，(α_i,x_i)是优化变量，α_i是卸载决策，表示任务i是否本地或者边缘服务器执行。x_i是调度决策，表示任务i在第x_i个进行调度。

2)基于深度强化学习DQN算法的卸载决策和缓存决策的三个关键要素定义，深度强化学习方法中有三个关键要素，即状态、动作、奖励，具体定义如下：

(1)系统状态S：用S表示系统状态，

表示环境的状态空间。其中S_l表示车辆当前的计算队列，S_r表示边缘服务器当前的计算队列，φ_l表示车辆的当前位置。

(2)系统动作A：用A表示系统动作，系统动作包括卸载决策和调度决策，用A＝{α,X}表示。其中卸载决策α＝{α₁,α₂,...,α_I}，α_i∈{0,1}，α_i表示任务i在本地或者边缘服务器执行。调度决策X＝{x₁,x₂,...,x_I}，x_i∈{1,2,...,I}，x_i表示任务i在第几个进行调度。

(3)系统奖励R：每一步，agent在执行完每一个可能的动作后，都会得到一个奖励R。在某一个可能的动作选了任务i后，得到

回报是成本的负数，回报越大，成本越低。如果执行的动作不满足约束条件，则R＝-P，P是远比R大的惩罚数。

3)基于深度强化学习DQN算法，求解所有用户的任务的卸载决策和调度决策。为了解决大空间问题，DQN使用深度神经网络来估计动作价值函数max_A'Q_θ-(S',A')，该函数值可视为累计奖励。Q(S,A)可设为:

Q(S,A)＝R+βmax_A'Q(S',A') (20)

其中S',A'表示下一个状态和动作，β为衰减因子。下一时刻的Q值可更新为：

Q(S,A)←Q(S,A)+γ(R'+βmax_A'Q(S',A')-Q(S,A)) (21)

初始化经验池容量为memory_size＝1000组，初始化评估Q网络，随机生成网络参数θ；初始化目标Q网络，网络参数θ_-＝θ，初始化训练轮数episode＝1，每轮训练步数t＝1。训练最大轮数为episode_max，每轮到达终止状态的步数为Γ，经验池采样前的元组存储条数φ，评估网络与目标网络参数同步的步数l。整个神经网络的总步数STEP＝episode_max×Γ，初始step＝1。

①初始化episode＝1，t＝1，step＝1

②取状态S_t。

③将S_t输入DQN神经网络中，以ε的概率来选择最大Q值对应的动作，可得到

否则随机选择动作A_t。计算A_t对应的奖励R_t，以及对应的下一步状态S_t+1。

④将(S_t,A_t,R_t,S_t+1)存储进经验池中。经验池的大小有限，当数据记录满了之后，下一个数据会覆盖经验回放中的第一个数据。

⑤若step＞φ，进行⑥。否则，跳到⑦。

⑥随机从经验池中选择一组数据(S_j,A_j,R_j,S_j+1)，将S_j输入评估Q网络中，得到估计值Q_θ(S_j,A_j)；将S_j+1输入目标Q网络中，得到Q_θ-(S_j+1,A_j+1)，则目标Q网络的Q值为

计算Q_θ(S_j,A_j)与Q_θ- ^*(S_j,A_j)之间的误差，使用梯度下降法更新评估Q网络的参数θ。使用均方误差(mean-squared error,MSE)来定义损失函数：

L(θ)＝E[Q_θ- ^*(S_j,A_j)-Q_θ(S_t,A_t)]² (22)

利用梯度下降方法来对网络参数θ进行更新：

θ＝θ-Δθ (24)

若(step-φ)％l＝＝0，将评估Q网络的参数θ赋值给目标Q网络的参数θ_-，即θ_-＝θ。

⑦step＝step+1,t＝t+1

⑧如果t＜Γ，跳到②，否则episode＝episode+1

⑨如果episode＝episode_max，结束训练，否则，置t＝1，跳到②

训练完成以后，累计奖励基本上达到最大。通过训练好的神经网络得到所有任务的最终策略。

4)根据以上求解的卸载和调度决策和已给定的CPU频率代入目标式(8)求得目标值V。

3.根据步骤2求得的卸载和调度决策(x_i,α_i)，构造数学模型P3，使用梯度下降法GD，求解I个任务的CPU频率，得出目标值V’，步骤如下：

1)CPU频率分配问题的目标是最小化所有任务的完成时刻和能量消耗。优化问题的数学模型P3可写成如下形式：

α_iT_i ^r+(1-α_i)T_i ^l≤T_max (26)

2)根据步骤2求得卸载决策和调度决策之后，任务在本地执行或边缘服务器执行，第几个执行，都可得知。对于任务在本地执行、以及在边缘服务器执行的CPU频率分配分别进行求解，求解方式一样，都采用梯度下降法GD进行求解，下面以任务在本地执行为例，说明CPU频率分配的计算步骤。

对于所有在本地执行的任务，可得

本地任务完成时刻因加入任务i而增加了变量

边缘服务器完成时刻未发生变化，是常数，故优化

可以转换为优化

约束条件(26)、(27)和(28)分别表示为

则将P3转换为数学模型P4:

s.t.M_j(f_i ^l)≤0,(j＝1,2,3) (31)

3)采用梯度下降法优化任务在本地或边缘服务器执行时的CPU频率，具体步骤如下：

i)单个任务的约束函数可以得到如下的二次规划问题P5:

s.t.M_j(f_i ^l)≤0,(j＝1,2,3) (33)

ii)求解二次规划问题，引入拉格朗日乘子向量[λ₁,...,λ_j]，问题P5的对偶问题如下所示：

iii)将(30)式对f_i ^l求导得：

iv)给定f_i ^l初始点x₀，学习率alpha，收敛精度δ，最大迭代次数iter_max。置k＝0，k为迭代次数。

v)令η＝L(x₀,λ₁,λ₂,λ₃)

vi)在x₀搜索方向上对目标函数进行约束一维搜索，每次搜索得到

求得η'＝L(x₀,λ₁,λ₂,λ₃)，当|η'-η|≤δ或者迭代次数k＞iter_max时，停止搜索，得到最优值f_i ^l*的表达式。

vii)对(30)中的参数λ₁,λ₂,λ₃分别进行求导，然后重复iii到vi步，可以分别得到

的表达式。

viii)根据

求得目标值V'

4.计算目标值V和V'的差值，如果差值小于阈值χ，即V-V'＜χ，则循环迭代结束，否则跳转至步骤2。

有益效果：

发明解决了一种车辆地边协同计算网络中任务卸载和任务调度方法。有效求得能源消耗和执行延迟的最优值，从而提高用户体验和降低设备能耗。

下面结合附图对本发明作进一步的详细描述

图1为本发明场景模型示意图；

图2为本发明任务卸载、任务调度和频率分配方法流程图；

图3为本发明DQN算法的流程图；

图4为本发明基于GD的任务CPU频率优化求解流程图；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

本实施例中，图1所示为车辆边缘计算场景模型示意图，含有一个RSU，配备有边缘服务器，有单个车辆用户，车辆上有I个任务。设计算任务的集合为τ＝{H₁,H₂,H₃,H₄,H₅,H₆,H₇,H₈,H₉,H₁₀},I＝10。每个任务H_i所需处理的数据量为s_i，每个任务H_i处理每单位数据所需CPU周期为c_i。车辆的最大CPU频率为

车辆的传输功率为p_l＝1w；边缘服务器的最大CPU频率为

设每个任务的最大完成时刻T_max＝6s，最大执行能耗E_max＝2焦。车辆在行驶过程中，车载网络信道是时变的，导致无法准确估计传输时延，为了更准确估计传输时延，本文根据车辆到RSU的距离将路段划分为n个区域，计算每个区域频谱效率的期望值，并将频谱效率写成R＝{r₁,r₂,...,r_k,...,r_n}，根据频谱效率来计算传输时延。任务为串行卸载到边缘服务器，设传输带宽为b＝1MHz。

S1-1初始化任务集合，任务H_i的c_i和s_i如表1所示。初始化每个任务对应的本地执行CPU频率为f_i ^l，每个任务对应的边缘服务器执行的CPU频率为f_i ^r，单位MHz。ω值为0.5。初始化的值如表1所示。

表1各个任务的参数表

	H<sub>1</sub>	H<sub>2</sub>	H<sub>3</sub>	H<sub>4</sub>	H<sub>5</sub>	H<sub>6</sub>	H<sub>7</sub>	H<sub>8</sub>	H<sub>9</sub>	H<sub>10</sub>
											c<sub>i</sub>	1463.1	1046.8	511	731.6	988.9	1124.1	1379.1	895.5	674	1488
s<sub>i</sub>	3288.2	2827.1	1960.4	807.6	1840.4	1419	955	2032.3	529	2884.5
											f<sub>i</sub><sup>l</sup>	878.1	1314.7	2956.6	602.3	2800.1	3056.2	2210.1	2524.8	1330.5	2055.1
f<sub>i</sub><sup>r</sup>	3369.1	2458.6	4610.9	4779.1	2963.5	3557	2350.9	4600.2	2477	2444.8

S1-2根据深度学习中的DQN算法求卸载决策和调度决策：

S1-2-1在给定CPU频率(f_i ^l,f_i ^r)的情况下，将优化问题P1转化为优化问题P2，利用DQN算法对优化问题P2进行求解。

S1-2-2深度强化学习方法中有三个关键要素，即状态、动作、奖励，如下所示

(1)系统状态S：

其中S_l表示车辆当前的计算队列，S_r表示边缘服务器当前的计算队列，φ_l表示车辆的当前位置。

(2)系统动作A：A＝{α₁,...,α_i,...,α_I,x₁,...,x_i,...,x_I}

系统动作包括卸载决策和调度决策，其中卸载决策向量α＝{α₁,...,α_i,...,α_I}，调度决策向量为X＝{x₁,x₂,...,x_I}。结合向量α和X，A＝{α₁,...,α_i,...,α_I,x₁,...,x_i,...,x_I}。

(3)系统奖励R:将立即奖励定义为

R是系统成本的负数，表示回报越大，成本越低。如果执行的动作不满足约束，则R＝-P，P是远比回报大的惩罚数。S1-2-3初始化经验池容量为memory_size＝1000组。初始化训练轮数episode＝1，每轮训练步数t＝10。训练最大轮数为episode_max＝500，每轮到达终止状态的步数为Γ＝10。整个神经网络的总步数STEP＝500*10，初始step＝1。ε为选择当前动作的概率。具体步骤如下：

①初始化episode＝1，t＝1，step＝1

②取状态S_t。

④将(S_t,A_t,R_t,S_t+1)存储进经验池中。

⑤若step>200，进行⑥。否则，跳到⑦。

⑥随机从经验池中取一组元组进行训练，使用梯度下降法更新评估Q网络的参数θ。若(step-200)％5＝＝0，将评估Q网络的参数θ赋值给目标Q网络的参数θ_-，即θ_-＝θ。

⑦step＝step+1,t＝t+1

⑧如果t<10，跳到②，否则episode＝episode+1

⑨如果episode＝500，结束训练，否则，置t＝1，跳到②

最终，通过训练好的神经网络得到所有任务的卸载策略和调度策略，如表2所示。

表2卸载决策和调度决策

S1-2-4根据表2的卸载决策和调度决策求得目标函数值V＝41.688

S1-3任务在本地或边缘执行的CPU频率采用梯度下降法进行求解：

S1-3-1将步骤S1-2求得的卸载决策和调度决策(α,X)代入目标式(8)中，构造优化问题P3。

S1-3-2根据步骤S1-2求得卸载决策向量和调度决策向量之后，任务如何执行都可得到。当任务在车辆本地执行时，将P3转换为P4。由于目标式为凸函数，故可用梯度下降法对其进行求解。

S1-3-3单个任务的约束函数可以得到二次规划问题P5

S1-3-4对于二次规划问题P5，引入拉格朗日乘子向量[λ₁,...,λ_j]，得到P5的对偶问题(30)

S1-3-5将(30)式对f_i ^l求导得(31)

S1-3-6给定f_i ^l初始点x₀，学习率alpha，收敛精度δ，最大迭代次数iter_max。置k＝0，k为迭代次数。

S1-3-7根据梯度下降法，在x₀搜索方向上对目标函数进行约束一维搜索，得到最优值的表达式f_i ^l*。

S1-3-8对参数λ₁,λ₂,λ₃分别进行求导，重复S1-3-6到S1-3-7步，分别得四个参数的最优值的表达式

S1-3-9结合四个表达式

求出本地执行的任务i的最优CPU频率f_i ^l*

S1-3-10重复S1-3-2到S1-3-9，得出所有任务计算的CPU频率，如表3所示，

表3 f_i ^l*,f_i ^r*最优解

i	i＝1	i＝2	i＝3	i＝4	i＝5	i＝6	i＝7	i＝8	i＝9	i＝10
											f<sub>i</sub><sup>l*</sup>	1357.19	1711	2956.6	602.3	2800.1	3056.2	1776.16	2524.8	1330.5	1819.22
f<sub>i</sub><sup>r*</sup>	3369.10	2458.6	4610.9	3142.16	2963.50	3557	2350.9	2893.24	2477	2444.8

S1-3-11根据(8)和表2、表3的解计算目标值V'＝38.273

S1-4重复步骤S1-2至步骤S1-3，比较V和V'，如果经过步骤S1-2的DQN优化卸载和调度策略之后的目标值与步骤S1-3的梯度下降法优化的目标值的差值小于阈值χ，即V-V'＜χ，则迭代结束。经过多次迭代优化之后，最终目标值为30.956，最终卸载决策和调度决策如表4所示，任务执行的CPU频率如表5所示。

表4卸载决策和调度决策

	Offloading Policy	Scheduling Policy
			H<sub>1</sub>	0	10
H<sub>2</sub>	0	4
			H<sub>3</sub>	0	5
H<sub>4</sub>	1	3
			H<sub>5</sub>	0	8
H<sub>6</sub>	1	6
			H<sub>7</sub>	0	9
H<sub>8</sub>	0	2
			H<sub>9</sub>	1	1
H<sub>10</sub>	1	7

表5最终CPU频率

i	i＝1	i＝2	i＝3	i＝4	i＝5	i＝6	i＝7	i＝8	i＝9	i＝10
											f<sub>i</sub><sup>l*</sup>	1357.22	1655.21	1433.87	1577.44	1553.25	1662.06	1763.2	1634.56	1556.15	1357.22
f<sub>i</sub><sup>r*</sup>	3369.1	3123.54	2653.98	3142.16	2963.5	3321.6	3178.36	2893.24	2477	3296.99

Claims

1.一种车联网中车边协同的任务卸载调度及资源分配方法，包括以下步骤：

步骤1：构造车联网中车边协同计算网络的数学模型P1；

步骤2：给定任务执行CPU频率(f_i ^l*,f_i ^r*)，f_i ^l*表示任务i在本地计算的CPU频率，f_i ^r*表示任务i在边缘服务器计算的CPU频率，构造数学模型P2，基于深度强化学习DQN算法求解问题P2，求得卸载和调度决策(x_i,α_i)，得出目标值V；

步骤3：根据步骤2求得的卸载和调度决策(x_i,α_i)，构造数学模型P3，使用梯度下降法GD，求解I个任务的CPU频率，得出目标值V’；

步骤4：计算目标值V和V′的差值，如果差值小于阈值χ，即V-V'＜χ，则循环迭代结束，否则跳转至步骤2；

步骤1中构造车联网中车边协同计算网络的数学模型P1的步骤如下：

每个任务可以在本地或者边缘服务器上进行计算,α_i∈{0,1}表示任务i的卸载决策，α_i＝0表示任务i在车辆本地计算，α_i＝1表示任务i在边缘服务器计算，x_i∈{1,...,i,...I}表示任务的调度顺序，第几个被调度执行，用集合α＝{α₁,α₂,...,α_I}表示系统中所有任务的卸载决策，集合X＝{x₁,x₂,...,x_I}表示系统中所有任务的调度顺序，每个任务仅能采用一种卸载决策，一种调度决策来计算任务，用集合Y＝{y₁,...,y_p,...,y_NS}表示边缘服务器执行任务的顺序，NS表示在边缘服务器执行任务的数量，y_p表示第p个在边缘服务器执行的任务，用集合Z＝{z₁,...,z_q,...,z_NL}表示在车辆端(本地)执行任务的顺序，NL表示在车辆端执行任务的数量，z_q表示第q个在车辆端(本地)执行的任务，

v^k＝b*r_k (1)

其中b为车辆到边缘服务器的信道带宽，单位为Hz，r_k为区域k的频谱效率，单位为bit/s/hz；

车辆的任务i在本地执行的完成时刻表示为T_i ^l，公式如下：

其中，c_i为任务i所需的CPU周期，f_i ^l表示车辆分配给任务i的CPU计算频率，z_q表示本地执行任务集合中最近一个被执行的任务；

车辆的任务i在边缘服务器计算完成的时刻表示为T_i ^r，对于边缘服务器计算，首先通过无线链路将任务卸载到边缘服务器，然后边缘服务器执行计算任务，任务的时间消耗包括两部分:任务传输时间和边缘服务器上的计算时间，任务在边缘执行必须满足以下两个条件:首先，任务输入数据在边缘服务器上准备好，其次，边缘服务器上的CPU可用于执行新上传的任务，T_i ^tran表示任务i传到边缘服务器的传输时间，T_i ^tran如下式所示:

其中

表示任务i在区域k上传的数据量大小，v^k表示区域k的数据传输速率，任务需要传输到边缘服务器进行计算时，车在不断移动，任务可能在单个区域内无法传输完成，因此，在上传任务时，需要根据车辆的速度及位置，将任务分为多部分进行上传，且

为0；

表示任务i的准备时间，如下所示：

其中，y_p表示最近一个被上传到边缘服务器执行任务集合中的任务，集合Y中所有任务传输到边缘服务器的时间总和，再加上任务i的传输时间即为任务i的准备时间；

其中

表示任务i在边缘服务器的计算时间；当p＝0时，表示任务i是边缘服务器接收的第一个任务，因此任务i的传输时间就是准备时间，任务i的传输时间和计算时间相加就是任务i的完成时刻；当p>0时，表示在任务i之前已经有任务在边缘服务器上进行计算，比较任务i的准备时间，和边缘服务器最近一个被执行的任务的完成时刻，取两个中的最大值，然后加上任务i计算时间就是任务i的完成时刻；

任务i在本地的执行能耗表示为

公式如下：

其中，ε是能量消耗系数，f_i ^l为任务i在本地计算的CPU频率

任务i在边缘服务器的执行能耗表示为

公式如下：

其中，f_i ^r为任务i在边缘服务器计算的CPU频率，p_l表示任务i传输到边缘服务器的上传功率；

式(8)是目标函数，其中

和

分别表示当前选择第i个任务后，本地和边缘任务集合中最后一个任务的完成时刻，ω表示加权系数，α_i表示卸载决策，表示任务i在本地或者边缘服务器计算；

式(9)表示卸载决策约束，任务i只能在本地或者卸载到边缘服务器执行；

式(10)表示任务i在本地或边缘服务器的完成时刻不应超过最大完成时刻；

式(11)表示任务i在本地或边缘服务器的能量消耗不应超过最大能耗约束；

式(12)表示任务i在本地的执行频率不应超过本地的最大执行频率；

式(13)表示任务i在边缘服务器的执行频率不应超过边缘服务器的最大执行频率；

式(14)表示任务的调度顺序不能重合；

步骤2在给定任务执行CPU频率(f_i ^l*,f_i ^r*)，构造数学模型P2，基于深度强化学习DQN算法求解问题P2，求得卸载和调度决策(x_i,α_i)，得出目标值V，步骤如下：

S2-1构造给定CPU频率情况下的数学模型，在给定CPU频率(f_i ^l*,f_i ^r*)情况下，优化所有任务的卸载决策和调度决策，采用DQN算法进行求解，求解任务的卸载决策和调度决策的目标与问题P1一致，为最小化所有任务的能量消耗和执行时间的加权和，优化问题的数学模型P2可写成如下所示：

其中(15)为目标函数，(16)-(19)为约束条件，(α_i,x_i)是优化变量，α_i是卸载决策，表示任务i是否本地或者边缘服务器执行，x_i是调度决策，表示任务i在第x_i个进行调度；

S2-2基于深度强化学习DQN算法的卸载决策和缓存决策的三个关键要素定义，深度强化学习方法中有三个关键要素，即状态、动作、奖励，具体定义如下：

(1)系统状态S：用S表示系统状态，S＝{S_l,S_r,φ_l}表示环境的状态空间，其中S_l表示车辆当前的计算队列，S_r表示边缘服务器当前的计算队列，φ_l表示车辆的当前位置；

(2)系统动作A：用A表示系统动作，系统动作包括卸载决策和调度决策，用A＝{α,X}表示，其中卸载决策α＝{α₁,α₂,...,α_I}，α_i∈{0,1}，α_i表示任务i在本地或者边缘服务器执行，调度决策X＝{x₁,x₂,...,x_I}，x_i∈{1,2,...,I}，x_i表示任务i在第几个进行调度；

(3)系统奖励R：每一步，agent在执行完每一个可能的动作后，都会得到一个奖励R，在某一个可能的动作选了任务i后，得到

回报是成本的负数，回报越大，成本越低，如果执行的动作不满足约束条件，则R＝-P，P是远比R大的惩罚数；

S2-3基于深度强化学习DQN算法，求解所有用户的任务的卸载决策和调度决策，为了解决大空间问题，DQN使用深度神经网络来估计动作价值函数

该函数值可视为累计奖励，Q(S,A)可设为:

Q(S,A)＝R+βmax_A'Q(S',A') (20)

其中S',A'表示下一个状态和动作，β为衰减因子，下一时刻的Q值可更新为：

Q(S,A)←Q(S,A)+γ(R'+βmax_A'Q(S',A')-Q(S,A)) (21)

初始化经验池容量为memory_size＝1000组，初始化评估Q网络，随机生成网络参数θ；初始化目标Q网络，网络参数θ_-＝θ，初始化训练轮数episode＝1，每轮训练步数t＝1，训练最大轮数为episode_max，每轮到达终止状态的步数为Γ，经验池采样前的元组存储条数φ，评估网络与目标网络参数同步的步数