CN111866807A

CN111866807A - 一种基于深度强化学习的软件定义车载任务细粒度卸载方法

Info

Publication number: CN111866807A
Application number: CN202010571179.1A
Authority: CN
Inventors: 李致远; 彭二帅; 潘森杉; 毕俊蕾; 张威威
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-30
Anticipated expiration: 2040-06-22
Also published as: CN111866807B

Abstract

本发明公开了一种基于深度强化学习的软件定义车载任务细粒度卸载方法，包括步骤：1.获取车辆可接入RSU的信息、车辆任务的信息等；2.根据步骤1中的RSU的信息划分车载任务的卸载时隙；3.将车载任务卸载时隙决策方法转化为数学问题；4.使用深度强化学习方法求解步骤3中的数学问题；5.将算法部署至SDN控制器。本发明能充分利用卸载时隙而减少卸载造成的网络传输延迟。本发明制定卸载时隙决策时充分考虑包括车辆与RSU的相对位置、RSU中接入的车辆的数目、RSU所需要接收的车载任务的数量等因素，能够有效降低车辆任务的卸载延时。

Description

一种基于深度强化学习的软件定义车载任务细粒度卸载方法

技术领域

本发明属于车载移动边缘计算领域，是车载任务卸载时隙决策方法，适用于小型基站(small-cell base stations)环境中，特别适合局域网内的小型基站负载均衡。

背景技术

随着物联网技术的快速发展，移动边缘计算(Mobile Edge Computing，MEC)已经成为物联网技术的重要组成部分。用户可通过无线接入点如基站、路侧单元(Road SideUnit，RSU)等接入移动边缘计算。MEC可以为用户提供计算、存储等资源。这些特点在车辆网络中获得了广泛的应用：车辆边缘计算(Vehicle Edge Computing，VEC)是近年来发展起来的一种新的网络模式。

车辆网络中的应用可以让车辆出行更加便捷、安全。随着车辆应用的不断发展，如道路实时分析、自动驾驶、虚拟现实等需要强大的计算能力与大量存储空间的应用越来越多，需要传输的数据内容也越来越多。目前主流的车辆任务卸载的研究多集中在计算资源的分配方面。多数车载任务卸载时隙决策是随机选择，这并不能充分利用卸载时隙而减少卸载造成的网络传输延迟。影响任务卸载时隙的因素包括当前车辆与RSU的相对位置、当前RSU中接入的车辆的数目、当前RSU所需要接收的车载任务的数量等。

综合以上情况，需要提出一种车载任务卸载时隙决策方法，它能够应对车载任务的卸载情景并可考虑多种影响因素。

发明内容

针对上述问题，本发明提出一种基于深度学习的软件定义车载任务卸载时隙决策方法，主要研究通过软件定义网络(Software Defined Network，SDN)获取网络全局的状态感知数据，例如网络中RSU中接入的车辆的数目、MEC服务器的负载状态、RSU网络延迟等，并在此基础上结合深度学习模型构建自适应优化决策给出局部卸载、全局卸载及最佳车载任务卸载时隙的建议，以解决车载任务卸载时造成的延时过高问题，该方法包括如下步骤：

步骤1，获取信息：车辆可接入的RSU的集合r、请求在RSU区域中的卸载的车辆任务Q、RSU的网络带宽b；

步骤2，根据步骤1中的RSU的信息划分车载任务的卸载时隙；

步骤3，将车载任务卸载时隙决策方法进行建模；

步骤4，使用深度强化学习方法求解步骤3中的模型表达式；

步骤5，将算法部署至SDN控制器。

进一步，步骤1中的所述信息包括：

①将RSU区域中的卸载任务记为q＝{Q₁,…Q_i,…,Q_n}，其中Q_i表示第i辆车的任务；

②车载任务大小记为m＝{M₁,…,M_i,…M_n}，其中M_i表示Q_i的大小；

③车载任务的延时约束记为t＝{T₁,…,T_i,…,T_n}，其中T_i即为Q_i的时延约束；

④可供车辆接入的RSU集合定义为r＝{R₁,…R_i,…R_n}；R_i表示第i个RSU

⑤各个RSU已经接入的车载任务数目为rA＝{R₁A,…,R_iA,…,R_nA}；其中R_iA表示第i个RSU中接入车载任务的数量；

⑥RSU的带宽记为b＝{B₁,…,B_i,…,B_n}，其中B_i表示R_i的网络带宽；

进一步，步骤2中车载任务的卸载时隙划分方法为：

步骤2.1，收集RSU的链路带宽，记为W；收集RSU的平均信号功率，记为P；收集RSU的噪声功率，记为N；将RSU与车辆的链路损耗功率记为L_p；

步骤2.2，车辆与RSU的传输速率ν可表示为：

其中,[L_P]＝32.45+20lgd+20lgf，d为车辆与RSU的距离，单位为km，f为RSU的信号频率，单位为MHz。

步骤2.3，大小为M的车载任务的传输延迟可表示为：

步骤2.4，由于网络传输延迟受车辆与RSU的相对距离影响，将每个RSU的覆盖范围划分为n个任务卸载时隙Gap₁,…,Gap_i,…Gap_n，其中任意时隙用g表示，g∈[Gap₁,…,Gap_i,…Gap_n]。为了便于计算和描述，设相同区域内传输速率相同。为方便计算，过RSU做地面垂点，g表示为卸载时隙与该垂点的距离。则

其中，high为RSU与地面的垂直高度；

进一步，步骤3中将车载任务卸载时隙决策方法进行建模的方法为：

步骤3.1，定义卸载时隙决策为l＝{L₁,…,L_i,…,L_n}，L_i表示第i辆车的选择卸载任务的地点，各个车辆选择卸载任务的地点的组合即为卸载时隙决策；

步骤3.2，确定单个任务的卸载决策。某个车载任务卸载单个时隙决策L_i即为对卸载时隙g的选择，即对

一定有L_i∈[Gap₁,…,Gap_i,…Gap_n]

步骤3.3，由式(1)与式(2)可知，车载任务的传输延迟由RSU的带宽b、卸载时隙决策l、车载任务的大小m决定，车载任务的传输延迟可重写为：

式(3)中的②表示RSU的链路带宽W由RSU的带宽b代替；④表示车辆与RSU的相对距离；

步骤3.4，由式(3)再次重写车载任务的传输延迟为：

其中[L_P]＝32.45+20lgd+20lgf；

步骤3.5，将车载任务卸载时隙决策方法转化为求解式(5)，D_i(b,l,M_i)表示第i个车载任务的传输延迟。

其中，z表示是否卸载任务，z＝1表示进行任务卸载，z＝0表示不进行任务的卸载；MAX_rA表示rA的最大值；车载任务卸载时隙决策会影响rA的值，rA≤MAX_rA表示rA不能超过最大的车载任务接入数量。

进一步，步骤4中利用深度强化学习方法求解式(5)的具体步骤为：

步骤4.1，建立马尔可夫状态空间

S＝{t,rV,rD,rA}

其中各个参数说明如下：

①车载任务的时延约束记为t＝{T₁,…,T_i,…,T_n}，其中T_i为任务Q_i的时延约束；

②供车辆接入的RSU集合定义为r＝{R₁,…R_i,…R_n}，r中各个RSU的任意卸载时隙用g表示，g∈[Gap₁,…,Gap_i,…Gap_n]，处于不同的卸载时隙中车辆任务的卸载速率各有不同，那么r中的所有卸载时隙的卸载速率集合可表示为rV＝{R₁G₁V,…,R_iG_jV,…,R_nG_nV}，R_iG_jV表示第i个RSU的第j个卸载时隙的传输速率；

③r中各个RSU的各个卸载时隙中车载任务的传输延迟表示为rD＝{R₁G₁D,…,R_iG_jD,…R_nG_nD}，R_iG_jD表示车载任务在第i个RSU的第j个卸载时隙的传输延时；

④各个RSU已经接入的车载任务数目为rA＝{R₁A,…,R_iA,…,R_nA}；

步骤4.2，建立马尔可夫动作空间

A＝{(a,b)|a∈{[1,n]∩N⁺},b∈{[1,n]∩N⁺}

其中各个参数说明如下：

①a表示执行卸载车载任务时车辆所接入的RSU；

②b表示执行卸载车载任务时车辆所接入的RSU的卸载时隙；

③N⁺表示正整数。

步骤4.3，建立马尔可夫奖励函数reward：

reward＝ε(η)×base+(2ε(η)-1)×delay(rD,t)+access(rA)

其中各个参数说明如下：

①ε(η)为阶跃函数

ε(η)＝1时表示车载任务卸载成功，ε(η)＝0表示车载任务被成功卸载失败。

base为常数，表示基础奖励，则ε(η)×base表示当车载任务卸载成功时获取了基础奖励，失败时则不会获取基础奖励；

②delay(rD,t)表示执行车辆卸载任务所获取的奖励或者惩罚

delay(rD)＝Rward×(rD-t)

其中，rD表示卸载该车载任务所用的时间，t表示该车载任务的卸载时间约束。当在约束时间t内完成卸载则获取奖励，否则获取惩罚。Rward为奖励值或者惩罚值；

③access(rA)用来判断当前RSU是否还可以接收更多的车载任务

MAX_rA表示当前RSU可接入的最多的车载任务数量。当可以接入更多车载任务时，即rA≤MAX_rA，access(rA)不会对奖励函数reward有任何影响，当rA＞MAX_rA时，则access(rA)会使reward等于0，即不会有任何奖励。

步骤4.4，根据步骤4.1-4.3中的马尔可夫模型，使用DDPG-HER算法求解最优卸载时隙决策，具体求解步骤如下：

步骤4.4.1，建立Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络，这四个网络的说明如下：

①Actor当前网络的参数为θ，θ也指代神经网络，负责更新网络的参数θ以及根据当前状态S产生当前动作A。动作A作用于当前状态S，当前状态S表示正在做某辆车的卸载时隙的决策、这辆车所处的位置、已经做好了哪些决策等信息的集合。生成状态S'和奖励R，奖励R由奖励函数reward获得；

②Actor目标网络的参数为θ'，θ'也指代神经网络，负责从经验回放池中选择动作A'以及更新θ'；

③Critic当前网络的参数为ω，ω也指代神经网络，负责计算当前Q值，Q值用来衡量选择动作的优劣。注意：这里的Q值与之前表示第i车辆任务的Q_i不同；

④Critic目标网络的参数为ω'，也指代神经网络，负责计算目标Q值，即Q'。

步骤4.4.2，训练Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络。具体步骤如下所示：

步骤4.4.2.1，首先获得初始化状态S，Actor当前网络根据状态S生成动作A；

步骤4.4.2.2，根据状态S和动作A计算奖励R，并且获取下一状态S'；

步骤4.4.2.3，将{S,A,S'}存入经验回放池；

步骤4.4.2.4，将当前状态记为S'；

步骤4.4.2.5，计算当前Q值与目标Q值；

步骤4.4.2.6，更新Critic当前网络参数ω；

步骤4.4.2.7，更新Actor当前网络参数θ；

步骤4.4.2.8，如果当前状态S'是终止状态，则迭代完毕，否则转到步骤4.4.2.2。

步骤4.4.3，由训练好的网络获得最优卸载时隙。

进一步，步骤5将算法部署至SDN控制器的具体方法为：

DDPG-HER算法训练完成后，保存Actor当前网络并将其部署至SDN控制器。当有卸载需求时，由SDN控制器根据当前网络和节点的状态信息为车载任务确定最佳的卸载时隙。

本发明的有益效果：

本发明针对现有技术的缺陷，将RSU的覆盖范围划分为若干区间，以精确选择卸载时隙，通过合理的分析和建模，并同时使用DDP-HER算法计算最优卸载决策，减小由于车辆任务卸载导致的网络延时。

附图说明

图1车载任务卸载时隙决策流程图

图2 DDPG-HER算法流程图

具体实施方式

下面结合附图对本发明作进一步说明。

下面对本发明做进一步的说明，需要说明的是，本实例的具体实施是以本技术为前提，给出了详尽的实施过程和实施步骤，但是本发明的保护范围并不受限于本实施实例。

如图1所示，假设此时车辆i准备卸载车载任务Q_i，则本发明具体的实施流程如下：

(1)使用SDN控制器。各个局域网中包括RSU的集合r、请求在RSU区域中的卸载的车辆任务Q、RSU的网络带宽b信息发生改变时，可被汇总到SDN控制器中。车辆i准备卸载车载任务Q_i，其请求信息被发送至SDN控制器；

(2)根据已经划分好的卸载时隙，车辆i准备卸载车载任务Q_i，则根据公式

计算车辆i在不同时隙卸载所产生的卸载延迟；

(3)SDN控制器汇总车辆i的卸载任务Q_i以及其他车辆的卸载任务，根据公式

将载任务卸载时隙决策方法转化为求解上面表达式的值；

(4)使用DDPG-HER算法求解该上述表达式。具体如下:

1.首先获得初始化状态S，即各个RSU的状态、所有车辆任务的完成情况。Actor当前网络根据状态S生成动作A，动作A即某辆车的任务所选择的卸载时隙。具体方法为：计算状态S的特征向量φ(S)，动作

其中π_θ表示神经网络θ生成的策略(在这里策略即为动作)，表示神经网络θ(Actor当前网络)可根据当前的RSU的状态等信息选择车辆任务卸载的时隙，

表示噪声；

2.由当前状态S和动作A计算奖励R，并产生新的状态S'。当选择了某个车辆任务卸载的时隙后，各个RSU的状态、所有车辆任务的完成情况都会产生变化，其新的状态定义为S'；

3.将{S,A,S'}存入经验回放池，其目的在于更好的训练神经网络。Actor目标网络θ'根据经验池中的S'选择出动作A'；

4.将当前状态记为S'；

5.计算当前Q值与目标Q值

Q(S,A,ω)为当前Q值，Q′(S′,A′,ω')为目标Q值，将状态S与动作A输入Critic当前网络ω计算完成；y为目标Q值，其中Q′(S′,A′,ω')计算原理与Q(S,A,ω)相同；γ为学习率。

6.使用当前Q值与目标Q值更新Critic当前网络ω：

ω←ω+(y-Q(S,A,ω))

y代表更加准确的Q值，ω+(y-Q(S,A,ω))表示Critic当前网络ω通过Q值更新自身。

7.Critic当前网络ω帮助Actor当前网络θ更新：

θ←θ-TD(S,A,ω)

其中TD(S,A,ω)表示ω计算在状态S下选择的动作A与最优动作的误差，θ-TD(S,A,ω)表示Actor当前网络θ消除了误差。

如果当前状态S'是终止状态，则迭代完毕，Actor当前网络会做出最优卸载时隙的决策，否则转到步骤2。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，包括如下步骤：

步骤2，根据步骤1中的RSU的信息划分车载任务的卸载时隙；

步骤3，将车载任务卸载时隙决策方法进行建模；

步骤4，使用深度强化学习方法求解步骤3中的模型表达式。

2.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，所述步骤1中的信息具体包括：

①RSU区域中的卸载任务，记为q＝{Q₁,…Q_i,…,Q_n}，其中Q_i表示第i辆车的任务；

②车载任务大小，记为m＝{M₁,…,M_i,…M_n}，其中M_i表示Q_i的大小；

③t＝{T₁,…,T_i,…,T_n}，其中T_i即为Q_i的时延约束；

④可供车辆接入的RSU集合，记为r＝{R₁,…R_i,…R_n}；

⑤各个RSU已经接入的车载任务数目，记为rA＝{R₁A,…,R_iA,…,R_nA}；

⑥RSU的带宽，记为b＝{B₁,…,B_i,…,B_n}，其中B_i表示R_i的网络带宽。

3.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，所述步骤2中车载任务的卸载时隙划分方法为：

步骤2.2，车辆与RSU的传输速率ν可表示为：

其中,[L_P]＝32.45+20lg d+20lg f，d为车辆与RSU的距离，f为RSU的信号频率；

步骤2.3，大小为M的车载任务的传输延迟可表示为：

步骤2.4，根据网络延迟受车辆与RSU的相对距离影响，将每个RSU的覆盖范围划分为n个任务卸载时隙Gap₁,…,Gap_i,…Gap_n，其中任意时隙用g表示，g∈[Gap₁,…,Gap_i,…Gap_n。

4.根据权利要求3所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，步骤3中将车载任务卸载时隙决策方法进行建模的方法为：

步骤3.1，定义卸载决策为l＝{L₁,…,L_i,…,L_n}，L_i表示第i辆车的选择卸载任务的地点；过SRU做地面垂点，g表示为卸载时隙与该垂点的距离。则

其中，high为RSU与地面的垂直高度；

步骤3.2，确定单个任务的卸载决策，车载任务卸载时隙决策L_i即为对卸载时隙g的选择，即对

一定有L_i∈[Gap₁,…,Gap_i,…Gap_n]；

步骤3.3，车载任务的传输延迟可由RSU的带宽b、卸载时隙决策l、车载任务的大小m决定，则车载任务的传输延迟可重写为：

式(3)中的②表示RSU的链路带宽W由RSU的带宽b代替；④表示车辆与RSU的相对距离由决策l表示；

步骤3.4，由式(3)再次重写车载任务的传输延迟为：

其中L_p＝32.45+20lg l(km)+20lg f(MHz)；

其中，MAX_rA表示rA的最大值；车载任务卸载时隙决策会影响rA的值，rA≤MAX_rA表示rA不能超过最大的车载任务接入数量。

5.根据权利要求4所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，步骤4中利用深度强化学习方法求解式(5)的具体步骤为：

步骤4.1，建立马尔可夫状态空间

S＝{t,rV,rD,rA}

其中各个参数说明如下：

②供车辆接入的RSU集合定义为r＝{R₁,…R_i,…R_n}，r中各个RSU的任意卸载时隙用g表示，g∈[Gap₁,…,Gap_i,…Gap_n]，处于不同的卸载时隙中车辆任务的卸载速率各有不同，将r中的所有卸载时隙的卸载速率集合表示为rV＝{R₁G₁V,…,R_iG_jV,…,R_nG_nV}，R_iG_jV表示第i个RSU的第j个卸载时隙的传输速率；

步骤4.2，建立马尔可夫动作空间

A＝{(a,b)|a∈{[1,n]∩N⁺},b∈{[1,n]∩N⁺}

其中各个参数说明如下：

①a表示执行卸载车载任务时车辆所接入的RSU；

②b表示执行卸载车载任务时车辆所接入的RSU的卸载时隙；

③N⁺表示正整数；

步骤4.3，建立马尔可夫奖励函数reward：

reward＝ε(η)×base+(2ε(η)-1)×delay(rD,t)+access(rA)

其中各个参数说明如下：

①ε(η)为阶跃函数

ε(η)＝1时表示车载任务卸载成功，ε(η)＝0表示车载任务被成功卸载失败，base为常数，表示基础奖励，则ε(η)×base表示当车载任务卸载成功时获取了基础奖励，失败时则不会获取基础奖励；

②delay(rD,t)表示执行车辆卸载任务所获取的奖励或者惩罚

delay(rD)＝Rward×(rD-t)

其中，rD表示卸载该车载任务所用的时间，t表示该车载任务的卸载时间约束，当在约束时间t内完成卸载则获取奖励，否则获取惩罚，Rward为奖励值或者惩罚值；

③access(rA)用来判断当前RSU是否还可以接收更多的车载任务

MAX_rA表示当前RSU可接入的最多的车载任务数量，当可以接入更多车载任务时，即rA≤MAX_rA，access(rA)不会对奖励函数reward有任何影响，当rA＞MAX_rA时，则access(rA)会使reward等于0，即不会由任何奖励；

步骤4.4，根据步骤4.1-4.3中的马尔可夫模型，使用DDPG-HER算法求解最优卸载时隙。

6.根据权利要求5所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，所述步骤4.4的具体实现包括如下：

步骤4.4.1，建立Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络，所述四个网络的说明如下：

①Actor当前网络的参数为θ，θ也指代神经网络，负责更新网络的参数θ以及根据当前状态S产生当前动作A，动作A作用于当前状态S，生成状态S'和奖励R，奖励R由奖励函数reward获得；

③Critic当前网络的参数为ω，ω也指代神经网络，负责计算当前Q值，Q值用来衡量选择动作的优劣；

④Critic目标网络的参数为ω'，也指代神经网络，负责计算目标Q值，即Q'；

步骤4.4.2，训练Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络，具体步骤如下：

步骤4.4.2.3，将{S,A,S'}存入经验回放池；

步骤4.4.2.4，将当前状态记为S'；

步骤4.4.2.5，计算当前Q值与目标Q值；

步骤4.4.2.6，更新Critic当前网络参数ω；

步骤4.4.2.7，更新Actor当前网络参数；

步骤4.4.2.8，如果当前状态S'是终止状态，则迭代完毕，否则转到步骤4.4.2.2；

步骤4.4.3，由训练好的网络计算最优卸载时隙。

7.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，还包括步骤5，将算法部署至SDN控制器。

8.根据权利要求7所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法，其特征在于，所述步骤5的具体方法为：